![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年6月18日更新论文61篇
|
[1] ClimateChat:设计数据和方法以调整大型语言模型来回答气候变化查询 标题: ClimateChat: Designing Data and Methods for Instruction Tuning LLMs to Answer Climate Change Queries 作者: Zhou Chen / Xiao Wang / Yuanhong Liao / Ming Lin / Yuqi Bai 原文: [英文] [中文] 备注: ICLR 2025 camera ready, 13 pages, 4 figures, 4 tables 摘要: 随着全球气候变化问题日益严重,对气候科学研究的需求不断增长。以大型语言模型(LLMs)为代表的自然语言处理技术已广泛应用于气候变化相关研究,为决策者和公众提供了重要的信息支持。一些研究通过构建气候变化相关的指令数据和指令微调LLMs,提高了模型在相关任务上的性能。然而,目前的研究在高效生成大量高精度的气候变化指令数据方面仍显不足,这限制了气候变化LLMs的进一步发展。本研究介绍了一种自动构建指令数据的方法。该方法利用文档中的事实和背景知识生成指令,并通过网络抓取和收集种子指令来增强指令数据的多样性。使用该方法,我们构建了一个名为ClimateChat-Corpus的气候变化指令数据集,并用其对开源LLMs进行微调,生成了一个名为ClimateChat的LLM。评估结果表明,ClimateChat在气候变化问答任务上显著提高了性能。此外,我们评估了不同基础模型和指令数据对LLM性能的影响,并展示了其适应广泛气候变化科学发现任务的能力,强调了选择合适的基础模型进行指令微调的重要性。本研究为构建气候变化指令数据和训练气候变化专用LLMs提供了有价值的参考和实证支持。 |
[2] 使用多语言数字谜题研究语言模型中语言推理与数学推理的交互 标题: Investigating the interaction of linguistic and mathematical reasoning in language models using multilingual number puzzles 作者: Antara Raaghavi Bhattacharya / Isabel Papadimitriou / Kathryn Davidson / David Alvarez-Melis 原文: [英文] [中文] 备注: None 摘要: 在不同语言中,数字系统在构建和组合数字的方式上存在很大差异。尽管人类能够始终如一地学习并驾驭这种多样性,但大型语言模型(LLMs)在处理涉及跨语言数字系统的语言-数学难题时却表现不佳,而人类可以成功地学习解决这些问题。我们通过一系列实验研究了为什么这项任务对LLMs来说很困难,这些实验解开了语言中数字的语言和数学方面。我们的实验表明,除非问题中的数学运算使用已知符号(如“twenty + three”中的$+$、$\times$等)明确标记,否则模型无法一致地解决这些问题。在进一步的消融研究中,我们探讨了数字构建和组合的各个参数如何影响性能。虽然人类利用他们对数字的语言理解来推断数字的隐含组合结构,但LLMs似乎缺乏这种隐含数字结构的概念。我们得出结论,当前的推理模型在从人类规模的数据中灵活推断隐含模式的组合规则方面仍然面临挑战。 |
[3] VL-GenRM:通过视觉专家和迭代训练增强视觉-语言验证 标题: VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training 作者: Jipeng Zhang / Kehao Miao / Renjie Pi / Zhaowei Wang / Runtao Liu / Rui Pan / Tong Zhang 原文: [英文] 备注: None 摘要: 强化微调(Reinforcement Fine-Tuning, RFT)通过可验证的奖励推动了大型语言模型的发展,但在视觉-语言(Vision-Language, VL)模型中仍未得到充分探索。视觉-语言奖励模型(Vision-Language Reward Model, VL-RM)是通过提供结构化反馈来对齐VL模型的关键,然而训练有效的VL-RM面临两个主要挑战。首先,自举困境(bootstrapping dilemma)出现,因为高质量的训练数据依赖于已经很强的VL模型,形成了一个自我生成的监督强化现有偏见的循环。其次,当VL模型幻觉出错误的视觉属性时,会出现模态偏差和负面例子放大,导致错误的偏好数据进一步误导训练。为了解决这些问题,我们提出了一个利用视觉专家、链式思维(Chain-of-Thought, CoT)推理和基于边缘的拒绝采样的迭代训练框架。我们的方法精炼了偏好数据集,增强了结构化批判,并迭代地改进推理。在VL-RM基准测试中的实验表明,我们的方法在幻觉检测和多模态推理方面表现优越,推动了VL模型与强化学习的对齐。 |
[4] EmoNews:用于表达性新闻对话的语音对话系统 标题: EmoNews: A Spoken Dialogue System for Expressive News Conversations 作者: Ryuki Matsuura / Shikhar Bharadwaj / Jiarui Liu / Dhatchi Kunde Govindarajan 原文: [英文] [中文] 备注: None 摘要: 我们开发了一种面向任务的口语对话系统(SDS),该系统基于上下文线索调节情感语音,以实现更具同理心的新闻对话。尽管情感文本到语音(TTS)技术取得了进展,但由于SDS和情感TTS研究的分隔性质以及缺乏针对社会目标的标准化评估指标,面向任务的情感SDS仍然未被充分探索。我们通过开发一个用于新闻对话的情感SDS来应对这些挑战,该系统利用基于大型语言模型(LLM)的情感分析器来识别适当的情感,并使用PromptTTS合成与上下文相适应的情感语音。我们还提出了情感SDS的主观评估量表,并评估了所提系统和基线系统的情感调节性能。实验表明,我们的情感SDS在情感调节和参与度方面优于基线系统。这些结果表明,语音情感在更具吸引力的对话中起着关键作用。我们所有的源代码都在此https URL上开源。 |
[5] 对齐质量指数 (AQI):超越拒绝:通过潜在几何、聚类发散和逐层汇聚表示,AQI 作为一种内在对齐诊断工具 标题: Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations 作者: Abhilekh Borah / Chhavi Sharma / Danush Khanna / Utkarsh Bhatt / Gurpreet Singh / Hasnat Md Abdullah / Raghav Kaushik Ravi / Vinija Jain / Jyoti Patel / Shubham Singh / Vasu Sharma / Arpita Vats / Rahul Raja / Aman Chadha / Amitava Das 原文: [英文] [中文] 备注: None 摘要: 对齐不再是一种奢侈,而是一种必要。当大型语言模型(LLMs)进入教育、医疗、治理和法律等高风险领域时,它们的行为必须可靠地反映与人类一致的价值观和安全约束。然而,目前的评估严重依赖于行为代理,如拒绝率、G-Eval分数和毒性分类器,这些方法都有重要的盲点。对齐的模型通常容易受到越狱、生成的随机性和对齐伪装的影响。 为了解决这个问题,我们引入了对齐质量指数(AQI)。这一新颖的几何和提示不变的指标通过分析潜在空间中安全和不安全激活的分离来实证评估LLM的对齐。通过结合各种公式下的戴维斯-鲍尔丁分数(DBS)、邓恩指数(DI)、谢-贝尼指数(XBI)和卡林斯基-哈拉巴兹指数(CHI)等测量,AQI捕捉聚类质量,以检测隐藏的未对齐和越狱风险,即使输出看似合规。AQI还作为对齐伪装的早期预警信号,提供了一种稳健的、解码不变的工具,用于行为不可知的安全审计。 此外,我们提出了LITMUS数据集,以促进在这些挑战条件下的稳健评估。在不同模型上进行的LITMUS实证测试,涵盖DPO、GRPO和RLHF条件下的训练,展示了AQI与外部评审员的相关性以及揭示拒绝指标未能发现的漏洞的能力。我们公开了我们的实现,以促进该领域的未来研究。 |
[6] ASMR:使用大型生成模型增强生活场景以进行机器人动作反思 标题: ASMR: Augmenting Life Scenario using Large Generative Models for Robotic Action Reflection 作者: Shang-Chi Tsai / Seiya Kawano / Angel Garcia Contreras / Koichiro Yoshino / Yun-Nung Chen 原文: [英文] [中文] 备注: IWSDS 2024 Best Paper Award 摘要: 在设计用于协助日常人类活动的机器人时,增强用户请求与其周围环境的视觉线索结合以提高意图理解是至关重要的。这个过程被定义为一个多模态分类任务。然而,收集一个包含视觉和语言元素的大规模数据集用于模型训练是具有挑战性且耗时的。为了解决这个问题,我们的论文介绍了一种新颖的框架,专注于机器人辅助场景中的数据增强,涵盖对话和相关环境图像。该方法涉及利用一个复杂的大型语言模型来模拟潜在的对话和环境上下文,随后使用稳定扩散模型来创建描绘这些环境的图像。额外生成的数据用于优化最新的多模态模型,使其能够更准确地确定在用户互动时的适当行动,尽管目标数据有限。我们的实验结果基于从现实场景中收集的数据集,表明我们的方法显著增强了机器人的动作选择能力,达到了最先进的性能。 |
[7] 法定解释检索是否需要人工标注? 标题: Are manual annotations necessary for statutory interpretations retrieval? 作者: Aleksander Smywiński-Pohl / Tomer Libal / Adam Kaczmarczyk / Magdalena Król 原文: [英文] [中文] 备注: None 摘要: 法律研究的一个要素是寻找法官通过解释某个法律概念的含义或不含义来扩展其意义的案例。这使得法律专业人士可以将这些解释用作先例,同时也让普通人更好地理解法律概念。目前,检索这些概念最相关解释的最先进方法依赖于句子的排序和在标注示例上训练语言模型。这个手动标注过程可能相当昂贵,并且需要对每个概念重复进行,这促使最近的研究尝试自动化这一过程。在本文中,我们重点介绍了为确定手动标注的数量、范围甚至必要性而进行的各种实验结果。首先,我们检查每个法律概念的最佳标注数量是多少。其次,我们检查是否可以随机选择句子进行标注,或者仅标注最佳候选句子时,模型的性能是否会有所提升。最后一个问题是,我们检查在大型语言模型(LLM)的帮助下自动化标注过程的结果。 |
[8] 人工智能在不同语言和文化中与人类共享情感 标题: AI shares emotion with humans across languages and cultures 作者: Xiuwen Wu / Hao Wang / Zhiang Yan / Xiaohan Tang / Pengfei Xu / Wai-Ting Siok / Ping Li / Jia-Hong Gao / Bingjiang Lyu / Lang Qin 原文: [英文] 备注: None 摘要: 有效且安全的人机协作需要在人类和人工智能(AI)之间进行有规制且有意义的情感交流。当前基于大型语言模型(LLMs)的AI系统可以提供让人感到被倾听的反馈。然而,LLMs是否像人类一样在语言中表达情感,或者它们的输出情感基调是否以及如何能够被控制,仍然不清楚。我们通过使用从概念集合翻译而来的可解释LLM特征,评估跨语言文化群体和模型家族的人机情感一致性,这些特征涵盖了二十多种细微的情感类别(包括六种基本情感)。我们的分析表明,LLM衍生的情感空间在结构上与人类感知一致,并以效价和唤醒的基本情感维度为基础。此外,这些与情感相关的特征还准确预测了基于这两个核心维度的大规模行为数据中的词汇评分,反映了普遍性和语言特异性模式。最后,通过利用仅从以人为中心的情感概念中得出的引导向量,我们展示了模型表达可以在不同情感类别中稳定且自然地进行调节,这提供了因果证据,表明人类情感概念可以被用来系统地诱导LLMs在传达内容时产生相应的情感状态。这些发现表明,AI不仅与人类共享情感表征,其情感输出还可以通过心理学基础的情感概念进行精确引导。 |
[9] 迷失在混合中:评估大型语言模型对代码转换文本的理解 标题: Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text 作者: Amr Mohamed / Yang Zhang / Michalis Vazirgiannis / Guokan Shang 原文: [英文] [中文] 备注: None 摘要: 代码转换(CSW)是指在单一语篇中交替使用两种或多种语言的行为。这一现象在多语言社区中广泛存在,并且在用户在日常交流中自然混合语言的在线内容中日益普遍。因此,作为内容处理和生成的核心,大型语言模型(LLMs)经常接触到代码转换的输入。鉴于其广泛使用,了解LLMs如何处理和推理这种混合语言文本至关重要。本文通过生成代码转换版本的既定推理和理解基准,对LLM在代码转换下的理解能力进行了系统评估。尽管当外来词汇打断英语文本时(即使在语言学限制下)会出现退化,但将英语嵌入其他语言中通常会改善理解。尽管提示的效果参差不齐,但微调提供了一条更稳定的退化缓解途径。 |
[10] MultiFinBen:用于金融大型语言模型评估的多语言、多模态和难度感知基准 标题: MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation 作者: Xueqing Peng / Lingfei Qian / Yan Wang / Ruoyu Xiang / Yueru He / Yang Ren / Mingyang Jiang / Jeff Zhao / Huan He / Yi Han / Yun Feng / Yuechen Jiang / Yupeng Cao / Haohang Li / Yangyang Yu / Xiaoyu Wang / Penglei Gao / Shengyuan Lin / Keyi Wang / Shanshan Yang / Yilun Zhao / Zhiwei Liu / Peng Lu / Jerry Huang / Suyuchen Wang / Triantafillos Papadopoulos / Polydoros Giannouris / Efstathia Soufleri / Nuo Chen / Guojun Xiong / Zhiyang Deng / Yijia Zhao / Mingquan Lin / Meikang Qiu / Kaleb E Smith / Arman Cohan / Xiao-Yang Liu / Jimin Huang / Alejandro Lopez-Lira / Xi Chen / Junichi Tsujii / Jian-Yun Nie / Sophia Ananiadou / Qianqian Xie 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展加速了金融自然语言处理(NLP)和应用的发展,但现有的基准测试仍然局限于单语言和单模态设置,往往过度依赖简单任务,未能反映现实世界金融交流的复杂性。我们介绍了MultiFinBen,这是首个针对全球金融领域的多语言和多模态基准,评估LLMs在不同模态(文本、视觉、音频)和语言设置(单语言、双语言、多语言)上的领域特定任务。我们引入了两个新任务,包括PolyFiQA-Easy和PolyFiQA-Expert,这是首个要求模型在混合语言输入上进行复杂推理的多语言金融基准;以及EnglishOCR和SpanishOCR,这是首个嵌入OCR的金融问答任务,挑战模型从视觉文本金融文件中提取和推理信息。此外,我们提出了一种动态、难度感知的选择机制,并策划了一个紧凑、平衡的基准,而不是简单地聚合现有数据集。对22个最先进模型的广泛评估表明,即使是最强的模型,尽管具有一般的多模态和多语言能力,在面对金融领域复杂的跨语言和多模态任务时也显得非常困难。MultiFinBen已公开发布,以促进金融研究和应用中的透明、可重复和包容性进展。 |
[11] 对常识推理和意图检测的跨学科综述 标题: An Interdisciplinary Review of Commonsense Reasoning and Intent Detection 作者: Md Nazmus Sakib 原文: [英文] [中文] 备注: None 摘要: 本文综述了常识推理和意图检测的最新进展,这两个是自然语言理解中的关键挑战。我们分析了来自ACL、EMNLP和CHI(2020-2025年)的28篇论文,并按方法和应用进行组织。常识推理的研究涵盖了零样本学习、文化适应、结构化评估和交互式环境。意图检测则通过开放集模型、生成式方法、聚类和以人为中心的系统进行考察。通过结合来自NLP和HCI的见解,我们强调了向更具适应性、多语言和上下文感知模型发展的新趋势,并识别出在基础、泛化和基准设计方面的关键空白。 |
[12] Ace-CEFR——用于大型语言模型应用中对话文本语言难度自动评估的数据集 标题: Ace-CEFR -- A Dataset for Automated Evaluation of the Linguistic Difficulty of Conversational Texts for LLM Applications 作者: David Kogan / Max Schumacher / Sam Nguyen / Masanori Suzuki / Melissa Smith / Chloe Sophia Bellows / Jared Bernstein 原文: [英文] [中文] 备注: None 摘要: 目前存在一个未满足的需求,即评估简短对话文本段落的语言难度,特别是在训练和筛选大型语言模型(LLMs)时。我们介绍了Ace-CEFR,这是一个包含英语对话文本段落的数据集,这些段落由专家标注了相应的文本难度级别。我们在Ace-CEFR上对多种模型进行了实验,包括基于Transformer的模型和大型语言模型。我们展示了在Ace-CEFR上训练的模型可以比人类专家更准确地测量文本难度,并且具有适合生产环境的延迟。最后,我们将Ace-CEFR数据集公开发布,以供研究和开发使用。 |
[13] 基于大规模英语文本数据的从句嵌入自动提取 标题: Automatic Extraction of Clausal Embedding Based on Large-Scale English Text Data 作者: Iona Carslaw / Sivan Milton / Nicolas Navarre / Ciyang Qing / Wataru Uegaki 原文: [英文] [中文] 备注: Accepted in the Society for Computation in Linguistics 摘要: 对于语言学家来说,嵌入子句因其复杂的句法和语义特征分布而备受关注。然而,目前的研究依赖于模式化创建的语言示例来研究这些结构,未能利用大型语言语料库中可获得的统计信息和自然发生的示例。因此,我们提出了一种方法论,用于在大规模文本数据中使用成分解析和一组解析启发式方法来检测和注释自然发生的英语嵌入子句示例。我们的工具已在我们的数据集 Golden Embedded Clause Set (GECS) 上进行了评估,该数据集包括手动注释的自然发生的英语嵌入子句句子示例。最后,我们展示了一个大规模的自然发生的英语嵌入子句数据集,该数据集是我们使用提取工具从开源语料库 Dolma 中提取的。 |
[14] 用于医院出院总结的抽象意义表示 标题: Abstract Meaning Representation for Hospital Discharge Summarization 作者: Paul Landes / Sitara Rao / Aaron Jeremy Chaise / Barbara Di Eugenio 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)的致命弱点是幻觉,这在临床领域可能产生严重后果。这一点在自动生成出院小结(总结住院病人就诊情况的冗长医学文档)时尤为重要。自动生成这些小结可以让医生有更多时间照顾病人,并减少文书工作负担。本研究的目标是探索结合基于语言的图和深度学习模型的新方法,以解决自动摘要中内容来源和可信度的问题。我们的方法在公开可用的重症监护医学信息集市III(MIMIC-III)语料库和匿名医院医生撰写的临床笔记上显示出令人印象深刻的可靠性结果。我们提供了我们的方法、生成的出院小结输出示例、源代码和训练好的模型。 |
[15] Essential-Web v1.0:24万亿标记的有组织网络数据 标题: Essential-Web v1.0: 24T tokens of organized web data 作者: Essential AI / Andrew Hojel / Michael Pust / Tim Romanski / Yash Vanjani / Ritvik Kapila / Mohit Parmar / Adarsh Chaluvaraju / Alok Tripathy / Anil Thomas / Ashish Tanwer / Darsh J Shah / Ishaan Shah / Karl Stratos / Khoi Nguyen / Kurt Smith / Michael Callahan / Peter Rushton / Philip Monk / Platon Mazarakis / Saad Jamal / Saurabh Srivastava / Somanshu Singla / Ashish Vaswani 原文: [英文] [中文] 备注: None 摘要: 数据在语言模型获取技能和知识的过程中起着最重要的作用。缺乏大规模、组织良好的预训练数据集导致数据管道成本高昂且难以获取。我们推出了 Essential-Web v1.0,这是一个包含 24 万亿标记的数据集,其中每个文档都用一个涵盖主题、格式、内容复杂性和质量的十二类分类法进行了注释。分类标签由 EAI-Distill-0.5b 生成,这是一个经过微调的 0.5b 参数模型,其注释者一致性与 Qwen2.5-32B-Instruct 相差不超过 3%。仅通过 SQL 风格的过滤器,我们就能获得在数学(相对于 SOTA 减少 8.0%)、网络代码(增加 14.3%)、STEM(增加 24.5%)和医学(增加 8.6%)领域具有竞争力的网络精选数据集。Essential-Web v1.0 可在 HuggingFace 上获取:此 https URL |
[16] 从语言模型中逐字节采样 标题: Sampling from Your Language Model One Byte at a Time 作者: Jonathan Hayase / Alisa Liu / Noah A. Smith / Sewoong Oh 原文: [英文] [中文] 备注: 23 pages, 8 figures 摘要: 分词几乎被现代语言模型普遍使用,通过多字节或多字符的标记实现高效的文本表示。然而,先前的研究表明,分词可能会在模型生成中引入失真。例如,通常建议用户不要在提示的末尾加上空格,因为这会阻止模型将空格作为下一个标记的一部分。这个提示边界问题(PBP)也出现在中文和代码生成中,因为标记通常与语法边界不对齐。此外,不匹配的分词器常常阻碍模型的组合和互操作性。例如,由于词汇表不匹配,无法直接将使用不同分词器的模型进行集成。为了解决这些问题,我们提出了一种推理时的方法,将任何使用BPE分词器的自回归语言模型转换为字符级或字节级语言模型,而无需改变其在文本层面的生成分布。我们的方法有效地解决了PBP问题,并能够统一使用不同分词器的语言模型的词汇表,从而允许在推理时集成使用不同分词器的语言模型,并通过代理微调将训练后的成果从一个模型转移到另一个模型。我们在实验中展示了集成和代理微调的模型在下游评估中优于其组成部分。 |
[17] DCRM:一种用于偏好优化中响应对质量测量的启发式方法 标题: DCRM: A Heuristic to Measure Response Pair Quality in Preference Optimization 作者: Chengyu Huang / Tanya Goyal 原文: [英文] [中文] 备注: None 摘要: 最近的研究试图将偏好优化(PO)性能与基础偏好数据集联系起来。在这项工作中,我们观察到,偏好响应 $y^+$ 和不偏好响应 $y^-$ 之间的差异会影响大型语言模型(LLMs)可以学习的内容,而这些差异可能与期望学习的差异不匹配。因此,我们使用距离和奖励边距来量化这些差异,并将它们结合起来得到距离校准奖励边距(DCRM),这是一种衡量响应对对于PO质量的指标。直观上,DCRM 鼓励最小化噪声差异和最大化期望差异。基于此,我们研究了三种常用的偏好数据集,这些数据集根据两个轴进行分类:响应的来源和偏好标记函数。我们建立了训练集的较高DCRM与更好的学习结果之间的一般相关性。受此启发,我们提出了一种最佳的 $N^2$ 配对方法,该方法选择具有最高DCRM的响应对。实证结果表明,在各种设置中,我们的方法生成的训练数据集可以进一步提高模型在AlpacaEval、MT-Bench和Arena-Hard上的性能,相较于现有的训练集。 |
[18] S$^4$C:通过句法和语义一致性的推测采样实现大型语言模型的高效推理 标题: S$^4$C: Speculative Sampling with Syntactic and Semantic Coherence for Efficient Inference of Large Language Models 作者: Tao He / Guang Huang / Yu Yang / Tianshi Xu / Sicheng Zhao / Guiguang Ding / Pengyang Wang / Feng Tian 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在各种下游任务中展现了卓越的推理能力。然而,它们的自回归特性导致了显著的推理延迟,对实时应用构成了挑战。推测采样通过引入一个起草阶段,随后进行并行验证阶段,缓解了这一问题,从而实现更快的标记生成和验证。然而,现有方法忽视了文本生成中固有的连贯性,限制了其效率。为了解决这一问题,我们提出了一个具有句法和语义连贯性的推测采样(S$^4$C)框架,该框架通过利用多头起草进行快速标记生成和连续验证树进行高效候选验证和特征重用来扩展推测采样。实验结果表明,S$^4$C在主流任务中超越了基线方法,提供了更高的效率、并行性以及以更少的计算资源生成更多有效标记的能力。在Spec-bench基准测试中,S$^4$C实现了2.26倍至2.60倍的加速比,优于最先进的方法。 |
[19] MIST:通过心理理论实现对大型语言模型的多维隐性偏见和刻板印象评估 标题: MIST: Towards Multi-dimensional Implicit Bias and Stereotype Evaluation of LLMs via Theory of Mind 作者: Yanlin Li / Hao Liu / Huimin Liu / Yinwei Wei / Yupeng Hu 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)中的心智理论(ToM)指的是它们推理心理状态的能力,但这种能力的缺失常常表现为系统性的隐性偏见。评估这种偏见具有挑战性,因为传统的直接查询方法容易受到社会期望效应的影响,且无法捕捉其微妙的多维特性。为此,我们提出了一个评估框架,利用刻板印象内容模型(SCM)将偏见重新概念化为ToM在能力、社交性和道德性方面的多维失败。该框架引入了两个间接任务:词汇联想偏见测试(WABT)用于评估隐性词汇联想,情感归因测试(AAT)用于测量隐蔽的情感倾向,二者均旨在探测潜在的刻板印象而不触发模型的规避行为。在8个最先进的LLMs上进行的大量实验表明,我们的框架能够揭示复杂的偏见结构,包括普遍的社交性偏见、多维度的差异以及不对称的刻板印象放大,从而为识别隐性偏见的结构性特征提供了一种更为稳健的方法。 |
[20] GRAM: 一种用于奖励泛化的生成基础奖励模型 标题: GRAM: A Generative Foundation Reward Model for Reward Generalization 作者: Chenglong Wang / Yang Gan / Yifu Huo / Yongyu Mu / Qiaozhi He / Murun Yang / Bei Li / Tong Xiao / Chunliang Zhang / Tongran Liu / Jingbo Zhu 原文: [英文] [中文] 备注: Accepted by ICML 2025 摘要: 在对齐大型语言模型(LLMs)时,奖励模型发挥了重要作用,但通常被训练为判别模型,并仅依赖于标记的人类偏好数据。在本文中,我们探索了使用未标记和标记数据训练奖励模型的方法。基于LLMs中的生成模型,我们开发了一种生成奖励模型,该模型首先通过大规模无监督学习进行训练,然后通过监督学习进行微调。我们还表明,通过使用标签平滑,我们实际上是在优化一个正则化的成对排序损失。这个结果反过来为训练奖励模型提供了一种新视角,将生成模型和判别模型在同一类训练目标下联系起来。这些技术的结果是一个基础奖励模型,可以应用于广泛的任务,几乎不需要进一步的微调。大量实验表明,该模型在多个任务中具有良好的泛化能力,包括响应排序、从人类反馈中进行的强化学习以及通过微调进行的任务适应,在多个强基线模型上实现了显著的性能提升。 |
[21] 我们能否在没有真实代码转换数据的情况下训练语音识别系统?以新加坡语言为例 标题: Can we train ASR systems on Code-switch without real code-switch data? Case study for Singapore's languages 作者: Tuan Nguyen / Huy-Dat Tran 原文: [英文] [中文] 备注: Accepted by Interspeech 2025 摘要: 代码转换(CS)在多语言环境中很常见,由于语言的复杂性,导致转录数据稀缺且昂贵,从而给自动语音识别(ASR)带来了挑战。本研究探讨了使用合成CS数据构建CS-ASR的方法。我们提出了一种短语级混合方法来生成模拟自然模式的合成CS数据。利用单语数据并结合合成短语混合CS数据来微调大型预训练ASR模型(如Whisper、MMS、SeamlessM4T)。本文重点研究了三对资源匮乏的东南亚语言:马来语-英语(BM-EN)、中文-马来语(ZH-BM)和泰米尔语-英语(TA-EN),建立了一个新的综合基准,用于评估领先ASR模型的性能。实验结果表明,所提出的训练策略提高了单语和CS测试中的ASR性能,其中BM-EN的提升最大,其次是TA-EN和ZH-BM。这一发现为CS-ASR开发提供了一种具有成本效益的方法,有利于研究和工业应用。 |
[22] AsyncSwitch:用于代码转换语音识别的异步文本-语音适配 标题: AsyncSwitch: Asynchronous Text-Speech Adaptation for Code-Switched ASR 作者: Tuan Nguyen / Huy-Dat Tran 原文: [英文] [中文] 备注: This work has been submitted to the IEEE for possible publication. This paper is a preprint version submitted to the 2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2025) 摘要: 开发代码转换的自动语音识别(ASR)系统具有挑战性,因为语言的歧义性和多语言代码转换数据的有限性,而收集此类语音数据成本高昂。先前的工作通过文本生成合成音频,但这些方法计算密集且难以扩展。我们介绍了AsyncSwitch,这是一种新颖的异步适应框架,它利用大规模、富含文本的网络数据,使ASR模型在微调配对的语音-文本语料库之前,预先接触多样的代码转换领域。我们的三阶段过程包括:(1)在代码转换文本上训练解码器的自注意力和前馈层,(2)使用有限的语音-文本数据通过交叉注意力对齐解码器和编码器,以及(3)全面微调整个模型。在马来语-英语代码转换的实验中,使用Whisper模型实现了9.02%的相对词错误率(WER)降低,同时提高了Singlish、马来语和其他英语变体的单语性能。 |
[23] MAS-LitEval:用于文学翻译质量评估的多智能体系统 标题: MAS-LitEval : Multi-Agent System for Literary Translation Quality Assessment 作者: Junghwan Kim / Kieun Park / Sohee Park / Hyunggug Kim / Bongwon Suh 原文: [英文] [中文] 备注: 4 Pages, 2 tables, EMNLP submitted 摘要: 文学翻译需要保留文化细微差别和风格元素,而传统指标如BLEU和METEOR由于侧重于词汇重叠,未能对此进行评估。这种忽视忽略了对文学作品至关重要的叙事一致性和风格忠实性。为了解决这个问题,我们提出了MAS-LitEval,这是一种使用大型语言模型(LLMs)的多代理系统,用于根据术语、叙事和风格评估翻译。我们在《小王子》和《亚瑟王宫廷中的康涅狄格州美国佬》的翻译上测试了MAS-LitEval,这些翻译由各种LLM生成,并与传统指标进行了比较。MAS-LitEval优于这些指标,顶级模型在捕捉文学细微差别方面得分高达0.890。这项工作引入了一个可扩展的、细致入微的翻译质量评估(TQA)框架,为翻译人员和研究人员提供了一个实用工具。 |
[24] ELI-Why:评估语言模型解释的教学效用 标题: ELI-Why: Evaluating the Pedagogical Utility of Language Model Explanations 作者: Brihi Joshi / Keyu He / Sahana Ramnath / Sadra Sabouri / Kaitlyn Zhou / Souti Chattopadhyay / Swabha Swayamdipta / Xiang Ren 原文: [英文] [中文] 备注: Findings of ACL 2025 摘要: 如今,语言模型在教育中被广泛使用,但其根据学习者不同的信息需求和知识背景定制响应的能力仍未得到充分探索。为此,我们引入了ELI-Why,这是一个包含13,400个“为什么”问题的基准,用于评估语言模型的教学能力。然后,我们进行了两项广泛的人类研究,以评估语言模型在我们的基准上生成的解释性答案(解释)的实用性,这些答案针对三个不同的教育阶段:小学、高中和研究生。在我们的第一项研究中,人类评估者扮演“教育者”的角色,以评估模型解释与不同教育阶段的契合度。我们发现,GPT-4生成的解释只有50%的时间与其预期的教育背景相匹配,而普通人策划的解释则为79%。在我们的第二项研究中,人类评估者扮演学习者的角色,以评估解释是否符合他们自己的信息需求。在所有教育背景中,用户认为GPT-4生成的解释平均而言比普通人策划的解释更不符合他们的信息需求,差距为20%。此外,自动评估指标显示,为不同信息需求生成的不同语言模型家族的解释在年级水平上仍然无法区分,限制了其教学效果。 |
[25] 基于梯度选择性增强的失名症患者目标识别 标题: Intended Target Identification for Anomia Patients with Gradient-based Selective Augmentation 作者: Jongho Kim / Romain Storaï / Seung-won Hwang 原文: [英文] [中文] 备注: EMNLP 2024 Findings (long) 摘要: 在本研究中,我们探讨了语言模型(LMs)在帮助患有命名困难(失名症)的患者方面的潜力,这种困难表现为难以识别物品的名称。从患者的迂回描述中识别出目标物品涉及两个挑战:术语失败和错误:(1)与识别物品相关的术语未被看到。(2)这一挑战的独特之处在于语义性错语所引起的固有扰动术语,这些术语与目标物品不完全相关,阻碍了识别过程。为了解决这些问题,我们提出通过语义性错语错误增强模型的鲁棒性,并通过基于梯度的选择性增强来提升模型对未见术语的处理能力。具体来说,梯度值在语义错误中控制增强数据的质量,而梯度方差则指导包含未见但相关的术语。由于特定领域数据集的有限性,我们在“舌尖现象”数据集上评估模型作为中介任务,然后将我们的研究结果应用于AphasiaBank的真实患者数据。我们的结果显示出相对于基线的强大性能,通过解决所述挑战来帮助失名症患者。 |
[26] AgentSynth:面向通用计算机使用代理的可扩展任务生成 标题: AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents 作者: Jingxu Xie / Dylan Xu / Xuandong Zhao / Dawn Song 原文: [英文] [中文] 备注: None 摘要: 我们介绍了AgentSynth,这是一种可扩展且成本高效的流程,用于自动合成高质量的任务和轨迹数据集,适用于通用计算机使用代理。通过利用信息不对称,AgentSynth构建了在生成时简单但在组合成长远任务时显著更具挑战性的子任务,从而能够创建超过6000个多样化且现实的任务。我们的流程从一个基于大型语言模型(LLM)的任务提议者开始,该提议者由一个角色引导,接着是一个执行代理完成任务并记录轨迹。这个过程反复进行,形成一系列子任务,然后由一个独立的代理总结成一个可控难度的复合任务。AgentSynth的一个关键优势是能够通过改变子任务的数量来精确调节任务的复杂性。实证评估显示,最先进的LLM代理在难度等级1的成功率为18%,而在等级6时仅为4%,突显了该基准的难度和区分能力。此外,我们的流程实现了每个轨迹平均成本仅为0.60美元,比人工标注便宜了几个数量级。我们的代码和数据在此https URL公开提供。 |
[27] CausalDiffTab:用于表格数据生成的混合类型因果感知扩散 标题: CausalDiffTab: Mixed-Type Causal-Aware Diffusion for Tabular Data Generation 作者: Jia-Chen Zhang / Zheng Zhou / Yu-Jie Xiong / Chun-Ming Xia / Fei Dai 原文: [英文] 备注: None 摘要: 训练数据已被证明是训练生成式人工智能中最关键的组成部分之一。然而,获取高质量数据仍然具有挑战性,其中数据隐私问题是一个显著的障碍。为了解决对高质量数据的需求,合成数据已成为主流解决方案,并在图像、音频和视频等领域展示了令人印象深刻的性能。然而,生成混合类型数据,特别是高质量的表格数据,仍面临重大挑战。这些挑战主要包括其固有的异质数据类型、复杂的变量间关系以及复杂的列分布。在本文中,我们介绍了CausalDiffTab,这是一种基于扩散模型的生成模型,专门设计用于处理包含数值和类别特征的混合表格数据,同时在捕捉变量间复杂交互方面更具灵活性。我们进一步提出了一种基于分层先验融合原理的混合自适应因果正则化方法。该方法自适应地控制因果正则化的权重,在不影响生成能力的情况下提高模型性能。在七个数据集上进行的综合实验表明,CausalDiffTab在所有指标上均优于基线方法。我们的代码可在此URL公开获取:this https URL。 |
[28] 通过数据增强在对话中可解释地检测隐含的影响模式 标题: Explainable Detection of Implicit Influential Patterns in Conversations via Data Augmentation 作者: Sina Abdidizaji / Md Kowsher / Niloofar Yousefi / Ivan Garibay 原文: [英文] [中文] 备注: Accepted at the HCI International conference 2025 摘要: 在数字化时代,随着个人越来越依赖数字平台进行交流和新闻消费,各种行为者运用语言策略来影响公众认知。虽然模型已经能够熟练地检测出显性模式,这些模式通常出现在文本中,作为单一的言论,如社交媒体帖子,但恶意行为者已经转向利用嵌入对话中的隐性影响语言模式。这些语言模式旨在通过隐性手段影响受害者的思维,从而使行为者能够获得所需的信息。本文提出了一种改进的方法来检测此类隐性影响模式。此外,所提出的模型能够识别对话中这些影响元素的具体位置。为此,利用最先进的语言模型的推理能力对现有数据集进行了扩充。我们设计的框架在对话中隐性影响模式的检测上提高了6%。此外,这种方法在与影响技术和受害者脆弱性相关的多标签分类任务上分别提高了33%和43%。 |
[29] 将事件跨度链接用于时间关系定位 标题: Chaining Event Spans for Temporal Relation Grounding 作者: Jongho Kim / Dohyeon Lee / Minsoo Kim / Seung-won Hwang 原文: [英文] [中文] 备注: In Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1689-1700 摘要: 准确理解事件之间的时间关系是多种任务的关键构建模块,例如时间阅读理解(TRC)和关系抽取(TRE)。例如,在TRC中,我们需要理解以下两个词汇上几乎相同的问题之间的时间语义差异:“在决策之前完成了什么?”或“在决策之后完成了什么?”。为了区分这两个问题,现有的解决方案依赖于答案重叠作为对比相似和不相似问题的代理标签。然而,我们认为答案重叠可能导致不可靠的结果,因为两个不相似的问题可能会因为巧合的相同答案而产生虚假的重叠。为了解决这个问题,我们提出了一种新方法,通过一个预测事件时间跨度的模块来引发适当的推理行为。我们引入了时间线推理网络(TRN),其在一个两步归纳推理过程中运行:在第一步中,模型最初使用语义和句法信息回答每个问题。下一步将同一事件上的多个问题串联起来预测时间线,然后用该时间线来确定答案。在TORQUE和TB-dense、TRC和TRE任务上的结果表明,TRN通过使用预测的时间线有效解决了虚假重叠问题,从而优于以前的方法。 |
[30] Xolver:像奥林匹克团队一样进行整体经验学习的多智能体推理 标题: Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team 作者: Md Tanzib Hosain / Salman Rahman / Md Kishor Morol / Md Rizwan Parvez 原文: [英文] [中文] 备注: None 摘要: 尽管在复杂推理方面取得了显著进展,但当前的大型语言模型(LLMs)通常是孤立运行的——将每个问题视为独立的尝试,而不积累或整合经验知识。相比之下,专家问题解决者——如奥林匹克竞赛或编程竞赛团队——利用丰富的经验:吸收教练的指导,从过去的问题中发展直觉,利用工具使用和库功能的知识,根据同行的专业知识和经验调整策略,通过试错不断完善推理,并在比赛中从其他相关问题中学习。我们介绍了Xolver,这是一种无需训练的多代理推理框架,为黑箱LLM配备了持久的、不断发展的整体经验记忆。Xolver整合了多种经验模式,包括外部和自我检索、工具使用、协作互动、代理驱动的评估和迭代改进。通过在推理时学习相关策略、代码片段和抽象推理模式,Xolver避免了从头生成解决方案——标志着从孤立推理向经验感知语言代理的转变。基于开放权重和专有模型,Xolver始终优于专业推理代理。即使使用轻量级的骨干(例如,QWQ-32B),它也常常超越高级模型,包括Qwen3-235B、Gemini 2.5 Pro、o3和o4-mini-high。使用o3-mini-high,它在GSM8K(98.1%)、AIME'24(94.4%)、AIME'25(93.7%)、Math-500(99.8%)和LiveCodeBench-V5(91.6%)上取得了新的最佳结果——强调整体经验学习是通用代理实现专家级推理的关键步骤。代码和数据可在此https URL获取。 |
[31] 一种多专家结构-语义混合框架,用于揭示时间知识图谱中的历史模式 标题: A Multi-Expert Structural-Semantic Hybrid Framework for Unveiling Historical Patterns in Temporal Knowledge Graphs 作者: Yimin Deng / Yuxia Wu / Yejing Wang / Guoshuai Zhao / Li Zhu / Qidong Liu / Derong Xu / Zichuan Fu / Xian Wu / Yefeng Zheng / Xiangyu Zhao / Xueming Qian 原文: [英文] [中文] 备注: ACL25 findings 摘要: 时序知识图谱推理旨在利用现有事实的知识预测未来事件,并在各种下游任务中发挥关键作用。以往的方法侧重于图结构学习或语义推理,未能整合双重推理视角来处理不同的预测场景。此外,它们缺乏捕捉历史事件和非历史事件之间固有差异的能力,这限制了它们在不同时间上下文中的泛化能力。为此,我们提出了一种多专家结构-语义混合(MESH)框架,该框架采用三种专家模块来整合结构和语义信息,引导不同事件的推理过程。在三个数据集上的大量实验表明了我们方法的有效性。 |
[32] 工具增强型大型语言模型的重新初始化标记学习 标题: Re-Initialization Token Learning for Tool-Augmented Large Language Models 作者: Chenghao Li / Liu Liu / Baosheng Yu / Jiayan Qiu / Yibing Zhan 原文: [英文] [中文] 备注: None 摘要: 大型语言模型已经展示了卓越的性能,但在处理诸如数值推理、计划生成等复杂任务时仍然存在困难。将外部工具(如计算器和数据库)集成到大型语言模型(LLMs)中,对于增强其问题解决能力至关重要。目前的方法为每个工具分配一个独特的标记,使LLMs能够通过标记预测来调用工具,类似于生成单词。然而,这种方法未能考虑工具标记与单词标记之间的关系,限制了预训练LLMs的适应性。为了解决这个问题,我们提出了一种新颖的标记学习方法,从初始化的角度将工具标记与现有的词嵌入空间对齐,从而提升模型性能。我们首先根据工具的名称或描述为每个工具构建先验标记嵌入,这些嵌入用于初始化和正则化可学习的工具标记嵌入。这确保了学习到的嵌入与词标记空间良好对齐,提高了工具调用的准确性。我们在GSM8K-XL、FuncQA、KAMEL和VirtualHome数据集上评估了该方法,涉及数值推理、基于知识的问题回答和具身计划生成等任务。结果显示,与最近的基线方法(包括CoT、REACT、ICL和ToolkenGPT)相比,该方法在各个领域通过相关标记有效地增强了LLMs与工具的结合,表现出明显的改进。 |
[33] 从回应什么到何时回应:开放域对话代理的及时响应生成 标题: From What to Respond to When to Respond: Timely Response Generation for Open-domain Dialogue Agents 作者: Seongbo Jang / Minjin Jeon / Jaehoon Lee / Seonghyeon Lee / Dongha Lee / Hwanjo Yu 原文: [英文] [中文] 备注: Work in progress 摘要: 尽管对话响应生成的研究主要集中在根据文本上下文生成连贯的响应,但何时根据时间上下文进行响应这一关键问题仍未得到充分探索。为弥补这一差距,我们提出了一项名为及时对话响应生成的新任务,并引入了TimelyChat基准,用于评估语言模型预测适当时间间隔和生成时间条件响应的能力。此外,我们通过利用来自时间常识知识图谱的未标记事件知识,并使用大型语言模型(LLM)合成了55K事件驱动的对话,构建了一个大规模训练数据集。然后,我们训练了Timer,一个对话代理,旨在主动预测时间间隔并生成与这些间隔相符的及时响应。实验结果表明,Timer在回合级和对话级评估中均优于基于提示的LLM和其他微调基线。我们公开发布了我们的数据、模型和代码。 |
[34] 多轮对话推荐代理的期望确认偏好优化 标题: Expectation Confirmation Preference Optimization for Multi-Turn Conversational Recommendation Agent 作者: Xueyang Feng / Jingsen Zhang / Jiakai Tang / Wei Li / Guohao Cai / Xu Chen / Quanyu Dai / Yue Zhu / Zhenhua Dong 原文: [英文] [中文] 备注: Accepted to Findings of ACL 2025 摘要: 近年来,大型语言模型(LLMs)的进步极大地推动了对话推荐代理(CRAs)的发展。然而,这些代理常常生成短视的回应,无法持续引导用户并满足其期望。尽管偏好优化已被证明在使LLMs与用户期望对齐方面有效,但其成本高昂且在多轮对话中表现不佳。为了解决这一挑战,我们引入了一种新颖的多轮偏好优化(MTPO)范式ECPO,该范式利用期望确认理论来明确建模用户满意度在多轮对话中的演变,揭示不满的根本原因。这些原因可以用于支持对不满意回应的针对性优化,从而实现轮级偏好优化。ECPO巧妙地消除了现有MTPO方法的显著采样开销,同时确保优化过程带来有意义的改进。为了支持ECPO,我们引入了一个基于LLM的用户模拟器AILO,用于在对话推荐中模拟用户反馈并执行期望确认。实验结果表明,ECPO显著增强了CRA的交互能力,在效率和效果上均较现有MTPO方法有显著提升。 |
[35] 评估不应忽视变异性:关于参考集选择对摘要指标的影响 标题: Evaluation Should Not Ignore Variation: On the Impact of Reference Set Choice on Summarization Metrics 作者: Silvia Casola / Yang Janet Liu / Siyao Peng / Oliver Kraus / Albert Gatt / Barbara Plank 原文: [英文] [中文] 备注: 17 pages, 13 figures 摘要: 人类语言的表达展现出非凡的丰富性和多样性,反映了多样的交流风格和意图。然而,在摘要评估中,这种多样性常常被忽视。虽然已知使用多个参考摘要可以提高与人类判断的相关性,但使用不同参考集对基于参考的指标的影响尚未被系统地研究。本文研究了广泛使用的基于参考的指标对参考集选择的敏感性,分析了三个多样化的多参考摘要数据集:SummEval、GUMSum 和 DUC2004。我们证明了许多流行的指标表现出显著的不稳定性。这种不稳定性在 n-gram 基于的指标(如 ROUGE)中特别令人担忧,因为模型排名会根据参考集的不同而变化,从而削弱了模型比较的可靠性。我们还收集了对不同体裁数据的 LLM 输出的人类判断,并检查了它们与指标的相关性,以补充现有的超出新闻摘要的发现,结果发现相关性从弱到无。综上所述,我们建议在摘要评估中纳入参考集的变化,以在提高与人类判断的相关性同时增强一致性,特别是在评估 LLM 时。 |
[36] 地理-时间深度研究系统的愿景:迈向全面、透明和可重复的地理-时间信息综合 标题: A Vision for Geo-Temporal Deep Research Systems: Towards Comprehensive, Transparent, and Reproducible Geo-Temporal Information Synthesis 作者: Bruno Martins / Piotr Szymański / Piotr Gramacki 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的出现改变了信息获取的方式,目前的LLMs还支持深度研究系统,通过计划性的迭代搜索、检索和推理生成全面的报告式答案。然而,当前的深度研究系统缺乏地理和时间能力,这对于回答涉及地理和/或时间限制的上下文丰富的问题至关重要,这类问题在公共卫生、环境科学或社会经济分析等领域中经常出现。本文报告了我们对下一代系统的愿景,识别了在将地理和时间推理整合到深度研究流程中所面临的重要技术、基础设施和评估挑战。我们主张增强检索和综合过程的能力,以处理地理和时间限制,并由开放和可重复的基础设施以及严格的评估协议支持。我们的愿景勾勒出了一条通向更先进且具有地理和时间意识的深度研究系统的路径,这可能对未来的AI驱动信息获取产生影响。 |
[37] 数字守门人:谷歌在策划标签和Subreddits中的角色 标题: Digital Gatekeepers: Google's Role in Curating Hashtags and Subreddits 作者: Amrit Poudel / Yifan Ding / Jurgen Pfeffer / Tim Weninger 原文: [英文] [中文] 备注: Accepted to ACL 2025 Main 摘要: 搜索引擎作为数字守门人发挥着关键作用,通过算法策展来影响网络和社交媒体内容的可见性。本研究调查了像谷歌这样的搜索引擎如何选择性地推广或抑制某些标签和子版块,从而影响用户接触到的信息。通过将搜索引擎结果与来自Reddit和Twitter/X的非抽样数据进行比较,我们揭示了内容可见性中的系统性偏见。谷歌的算法倾向于抑制与色情内容、阴谋论、广告和加密货币相关的子版块和标签,同时推广与更高参与度相关的内容。这些发现表明,谷歌的守门实践通过策展用户可获得的社交媒体叙事来影响公共话语。 |
[38] ELLIS Alicante 在 CQs-Gen 2025:赢得批判性思维问题共享任务:基于大型语言模型的问题生成与选择 标题: ELLIS Alicante at CQs-Gen 2025: Winning the critical thinking questions shared task: LLM-based question generation and selection 作者: Lucile Favero / Daniel Frases / Juan Antonio Pérez-Ortiz / Tanja Käser / Nuria Oliver 原文: [英文] [中文] 备注: Proceedings of the 12th Workshop on Argument Mining 摘要: 基于大型语言模型(LLMs)的聊天界面的广泛应用引发了关于促进表面学习和削弱批判性思维技能发展的担忧。与其单纯依赖LLMs检索事实信息,本研究探索了其通过生成批判性问题来挑战辩论干预中不支持或模糊的主张,从而促进更深入推理的潜力。本研究是第12届论证挖掘研讨会(与ACL 2025联合举办)共享任务的一部分,重点是自动批判性问题生成。我们提出了一个两步框架,涉及两个小规模开源语言模型:一个生成多个候选问题的提问者和一个选择最相关问题的评判者。我们的系统在共享任务竞赛中排名第一,展示了所提出的基于LLM的方法在鼓励对论证文本进行批判性参与方面的潜力。 |
[39] Thunder-NUBench:用于大语言模型句子级否定理解的基准 标题: Thunder-NUBench: A Benchmark for LLMs' Sentence-Level Negation Understanding 作者: Yeonkyoung So / Gyuseong Lee / Sungmok Jung / Joonhak Lee / JiA Kang / Sangho Kim / Jaejin Lee 原文: [英文] [中文] 备注: None 摘要: 否定是一个基本的语言现象,对大型语言模型(LLMs)提出了持续的挑战,尤其是在需要深层语义理解的任务中。现有的基准测试通常将否定视为自然语言推理等广泛任务中的一个附属案例,导致缺乏专门针对否定理解的基准测试。在这项工作中,我们引入了\textbf{Thunder-NUBench},一个新颖的基准测试,专门用于评估LLMs在句子层面上的否定理解。Thunder-NUBench不仅仅停留在表面线索检测上,而是通过对比标准否定与结构上多样化的替代形式,如局部否定、矛盾和释义,来进行更深入的分析。该基准测试由人工策划的句子-否定对和一个多项选择数据集组成,能够深入评估模型的否定理解能力。 |
[40] ImpliRet:隐式事实检索挑战的基准测试 标题: ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge 作者: Zeinab Sadat Taghavi / Ali Modarressi / Yunpu Ma / Hinrich Schütze 原文: [英文] [中文] 备注: None 摘要: 检索系统是许多自然语言处理流程的核心,但通常依赖于表层线索,如关键词重叠和词汇语义相似性。为了评估超越这些浅层信号的检索,最近的基准测试引入了需要大量推理的查询;然而,它们主要将负担转移到查询端的处理技术上——如提示或多跳检索——这些技术可以帮助解决复杂性。相反,我们提出了ImpliRet,一个将推理挑战转移到文档端处理的基准:查询很简单,但相关性取决于文档中通过时间(例如,解析“两天前”)、算术和世界知识关系隐含陈述的事实。我们评估了一系列稀疏和密集的检索器,所有这些在这种情况下都表现不佳:最佳的nDCG@10仅为15.07%。我们还测试了长上下文模型是否能克服这一限制。但即使在只有十个文档(包括正面文档)的短上下文中,GPT-4.1的得分也仅为35.06%,这表明文档端推理仍然是一个挑战。我们的代码可在此URL获取。 |
[41] LongLLaDA:解锁扩散大型语言模型中的长上下文能力 标题: LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs 作者: Xiaoran Liu / Zhigeng Liu / Zengfeng Huang / Qipeng Guo / Ziwei He / Xipeng Qiu 原文: [英文] [中文] 备注: 16 pages, 12 figures, work in progress 摘要: 大型语言扩散模型(或称扩散 LLMs)已成为自然语言处理研究中的一个重要焦点,研究人员投入了大量精力来理解其可扩展性和下游任务性能。然而,它们的长上下文能力仍未被探索,缺乏系统的分析或上下文扩展的方法。在这项工作中,我们首次系统地比较了扩散 LLMs 和传统自回归 LLMs 的长上下文性能。我们首先识别出扩散 LLMs 的一个独特特征,与自回归 LLMs 不同,它们在直接上下文外推时保持了显著的\textbf{\textit{稳定困惑度}}。此外,在上下文超过其预训练长度的“针在大海捞针”任务中,自回归模型完全失败,而我们发现扩散 LLMs 展现出一种独特的\textbf{\textit{局部感知}}现象,使其能够成功从最近的上下文片段中检索信息。我们通过旋转位置嵌入(RoPE)缩放理论解释了这两种现象。基于这些观察,我们提出了 LongLLaDA,这是一种无需训练的方法,将 LLaDA 与基于 NTK 的 RoPE 外推相结合。我们的结果验证了已建立的外推缩放定律在扩展扩散 LLMs 的上下文窗口时仍然有效。此外,我们识别出扩散 LLMs 在某些长上下文任务中优于自回归 LLMs,而在其他任务中则表现不佳。因此,这项研究建立了第一个针对扩散 LLMs 的上下文外推方法,同时提供了对未来长上下文扩散 LLMs 研究至关重要的理论见解和实证基准。 |
[42] 大型语言模型能从经验中提高多少?通过与人类比较来衡量大型语言模型的测试时学习能力 标题: How Far Can LLMs Improve from Experience? Measuring Test-Time Learning Ability in LLMs with Human Comparison 作者: Jiayin Wang / Zhiquang Guo / Weizhi Ma / Min Zhang 原文: [英文] [中文] 备注: None 摘要: 由于大型语言模型的评估设计可能会影响我们迈向通用人工智能的路径,因此全面且具有前瞻性的评估至关重要。现有的基准测试主要评估静态知识,而智能还包括从经验中快速学习的能力。为此,我们倡导评估测试时学习,即在测试时通过经验提高在推理密集型任务中的表现的能力。在这项工作中,我们提出语义游戏作为评估测试时学习的有效测试平台,因为它们对饱和具有抵抗力,并且本质上需要战略性推理。我们引入了一个客观的评估框架,该框架比较模型在有限和累积经验设置下的表现,并包含四种形式的经验表示。为了提供一个比较基准,我们招募了八名人类参与者完成相同的任务。结果表明,大型语言模型表现出可测量的测试时学习能力;然而,在累积经验下,它们的改进不够稳定,进展比人类观察到的更慢。这些发现强调了大型语言模型作为通用学习机器的潜力,同时也揭示了模型与人类之间的显著智力差距,无论大型语言模型在静态基准测试中的表现如何出色。 |
[43] LexiMark:通过词汇替换增强大型语言模型文本训练数据的成员验证的鲁棒水印技术 标题: LexiMark: Robust Watermarking via Lexical Substitutions to Enhance Membership Verification of an LLM's Textual Training Data 作者: Eyal German / Sagiv Antebi / Edan Habler / Asaf Shabtai / Yuval Elovici 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)可以在未经所有者同意的情况下,通过获取的数据进行训练或微调。验证特定的LLM是否在特定数据实例或整个数据集上进行过训练极具挑战性。数据集水印通过在训练数据中嵌入可识别的修改来检测未经授权的使用。然而,现有的方法往往缺乏隐蔽性,使其相对容易被检测和移除。鉴于这些限制,我们提出了LexiMark,这是一种专为文本和文档设计的新型水印技术,通过对精心选择的高熵词进行同义词替换来嵌入水印。我们的方法旨在增强LLM对水印文本的记忆能力,同时不改变文本的语义完整性。因此,水印难以检测,与文本无缝融合,没有可见的标记,并且由于其微妙且上下文适当的替换,能够逃避自动和手动检测,因而具有抗移除性。我们使用最近研究中的基准数据集和七个开源模型对我们的方法进行了评估:LLaMA-1 7B、LLaMA-3 8B、Mistral 7B、Pythia 6.9B,以及Pythia家族的三个较小变体(160M、410M和1B)。我们的评估涵盖了多种训练设置,包括持续预训练和微调场景。结果显示,与现有方法相比,AUROC分数显著提高,强调了我们的方法在可靠验证LLM训练中是否使用了未经授权的水印数据方面的有效性。 |
[44] LingoLoop 攻击:通过语言上下文和状态陷阱将多语言大模型困入无尽循环 标题: LingoLoop Attack: Trapping MLLMs via Linguistic Context and State Entrapment into Endless Loops 作者: Jiyuan Fu / Kaixun Jiang / Lingyi Hong / Jinglun Li / Haijing Guo / Dingkang Yang / Zhaoyu Chen / Wenqiang Zhang 原文: [英文] [中文] 备注: None 摘要: 多模态大型语言模型(MLLMs)显示出巨大的潜力,但在推理过程中需要大量的计算资源。攻击者可以通过诱导过多的输出来利用这一点,导致资源耗尽和服务退化。先前的能量-延迟攻击旨在通过广泛地将输出标记分布偏离EOS标记来增加生成时间,但它们忽略了标记级别的词性(POS)特征对EOS的影响以及句子级别的结构模式对输出数量的影响,限制了其效果。为了解决这个问题,我们提出了LingoLoop,一种旨在诱导MLLMs生成过于冗长和重复序列的攻击。首先,我们发现标记的POS标签强烈影响生成EOS标记的可能性。基于这一见解,我们提出了一种POS感知延迟机制,通过调整由POS信息指导的注意力权重来推迟EOS标记的生成。其次,我们识别出限制输出多样性以诱导重复循环对于持续生成是有效的。我们引入了一种生成路径修剪机制,限制隐藏状态的幅度,鼓励模型产生持久的循环。大量实验表明,LingoLoop可以使生成的标记数量增加多达30倍,并在像Qwen2.5-VL-3B这样的模型上以相当的倍数增加能量消耗,持续推动MLLMs达到其最大生成极限。这些发现揭示了MLLMs的重大漏洞,为其可靠部署带来了挑战。代码将在论文接受后公开发布。 |
[45] M2BeamLLM:多模态感知赋能的毫米波波束预测与大型语言模型 标题: M2BeamLLM: Multimodal Sensing-empowered mmWave Beam Prediction with Large Language Models 作者: Can Zheng / Jiguang He / Chung G. Kang / Guofa Cai / Zitong Yu / Merouane Debbah 原文: [英文] [中文] 备注: 13 pages, 20 figures 摘要: 本文介绍了一种新颖的神经网络框架,称为M2BeamLLM,用于毫米波(mmWave)大规模多输入多输出(mMIMO)通信系统中的波束预测。M2BeamLLM集成了多模态传感器数据,包括图像、雷达、LiDAR和GPS,利用大型语言模型(LLMs)如GPT-2的强大推理能力进行波束预测。通过结合传感数据编码、多模态对齐与融合以及监督微调(SFT),M2BeamLLM在波束预测的准确性和鲁棒性方面显著优于传统深度学习(DL)模型,无论是在标准场景还是少样本场景中。此外,其预测性能随着传感模态多样性的增加而持续提高。我们的研究为车对基础设施(V2I)毫米波通信系统提供了一种高效且智能的波束预测解决方案。 |
[46] AlphaDecay:用于大型语言模型中重尾平衡的模块化权重衰减 标题: AlphaDecay:Module-wise Weight Decay for Heavy-Tailed Balancing in LLMs 作者: Di He / Ajay Jaiswal / Songjun Tu / Li Shen / Ganzhao Yuan / Shiwei Liu / Lu Yin 原文: [英文] [中文] 备注: None 摘要: 权重衰减是一种用于训练大型语言模型(LLMs)的标准正则化技术。虽然通常为每一层分配统一的衰减率,但这种方法忽视了LLMs的结构多样性以及各模块间不同的谱特性。在本文中,我们介绍了AlphaDecay,这是一种简单而有效的方法,可以自适应地为LLM的每个模块分配不同的权重衰减强度。我们的方法以重尾自正则化(HT-SR)理论为指导,该理论通过分析权重相关矩阵的经验谱密度(ESD)来量化“重尾性”。表现出更明显重尾ESD的模块,反映出更强的特征学习能力,被分配较弱的衰减,而谱较轻尾的模块则被分配较强的衰减。我们的方法利用量身定制的权重衰减分配来平衡模块间谱特性的差异,从而提高性能。通过对从60M到1B的各种模型规模进行的大量预训练任务表明,AlphaDecay在困惑度和泛化能力上优于传统的统一衰减和其他自适应衰减基线。 |
[47] GenerationPrograms:通过可执行程序实现细粒度归因 标题: GenerationPrograms: Fine-grained Attribution with Executable Programs 作者: David Wan / Eran Hirsch / Elias Stengel-Eskin / Ido Dagan / Mohit Bansal 原文: [英文] [中文] 备注: 27 Pages. Code: this https URL 摘要: 最近的大型语言模型(LLMs)在源条件文本生成方面表现出色,但往往无法为其输出提供细粒度的归因,从而削弱了可验证性和信任度。此外,现有的归因方法无法解释模型如何以及为何利用提供的源文档生成最终的响应,限制了可解释性。为了解决这些挑战,我们引入了一种模块化生成框架,称为GenerationPrograms,灵感来自于可执行“代码代理”架构的最新进展。与传统的同时生成输出和归因或依赖事后归因的方法不同,GenerationPrograms将过程分解为两个不同的阶段:首先,创建一个由模块化文本操作(如释义、压缩和融合)组成的可执行程序计划,明确针对查询进行定制;其次,按照程序指定的指令执行这些操作以生成最终响应。实证评估表明,GenerationPrograms在两个长篇问答任务和一个多文档摘要任务中,在文档级和句子级显著提高了归因质量。我们进一步证明,GenerationPrograms可以有效地作为一种事后归因方法,优于传统技术在恢复准确归因方面的表现。此外,GenerationPrograms生成的可解释程序通过模块级改进实现局部优化,进一步提升了整体归因质量。 |
[48] 有保障的猜测:一种具有测试保证的CISC到RISC转译的语言建模方法 标题: Guaranteed Guess: A Language Modeling Approach for CISC-to-RISC Transpilation with Testing Guarantees 作者: Ahmed Heakl / Sarim Hashmi / Chaimaa Abi / Celine Lee / Abdulrahman Mahmoud 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 硬件生态系统正在迅速发展,人们越来越关注如何在不同指令集架构(ISA)之间快速、灵活且正确地翻译低级程序,以增强现有代码的可移植性和寿命。特别具有挑战性的一类翻译问题是复杂指令集(CISC)和精简指令集(RISC)硬件架构之间的翻译,因为它们在指令复杂性、内存模型和执行范式上存在根本差异。在这项工作中,我们介绍了GG(Guaranteed Guess),一个以ISA为中心的翻译管道,它结合了预训练大型语言模型(LLM)的翻译能力和已建立的软件测试结构的严谨性。我们的方法使用LLM从一个ISA生成到另一个ISA的候选翻译,并将这些翻译嵌入到软件测试框架中,以建立对翻译的可量化信心。我们在两个不同的数据集上评估了我们的GG方法,在单元测试中实现了超过98%的高代码覆盖率,并在HumanEval程序和BringupBench程序上分别实现了99%和49%的功能/语义正确性。此外,我们将我们的方法与Apple Silicon上的最新Rosetta 2框架进行了比较,展示了我们翻译代码在运行时性能上快1.73倍,能效上好1.47倍,内存使用上好2.41倍,证明了GG在实际CISC到RISC翻译任务中的有效性。我们将开源我们的代码、数据、模型和基准,以建立ISA级代码翻译研究的共同基础。 |
[49] 意义何时会适得其反?探讨AMR在自然语言推理中的作用 标题: When Does Meaning Backfire? Investigating the Role of AMRs in NLI 作者: Junghyun Min / Xiulin Yang / Shira Wein 原文: [英文] [中文] 备注: 9 pages, 2 figures 摘要: 自然语言推理(NLI)在很大程度上依赖于对前提和假设的语义内容进行充分解析。在这项工作中,我们研究了以抽象语义表示(AMR)的形式添加语义信息是否有助于预训练语言模型在NLI中更好地泛化。我们的实验将AMR整合到NLI中,分别在微调和提示设置下进行,结果表明,在微调中引入AMR会阻碍模型的泛化,而在提示中使用AMR则对\texttt{GPT-4o}带来了轻微的提升。然而,一项消融研究表明,这种提升来自于放大表面层次的差异,而不是帮助语义推理。这种放大可能会误导模型预测为不蕴涵,即使核心意义得以保留。 |
[50] 大规模语言模型中集体道德推理的概率聚合与目标嵌入优化 标题: Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models 作者: Chenchen Yuan / Zheyu Zhang / Shuo Yang / Bardh Prenkaj / Gjergji Kasneci 原文: [英文] [中文] 备注: 18 pages 摘要: 大型语言模型(LLMs)在道德推理能力方面表现出色。然而,当面对复杂的、多因素的道德困境时,它们往往会出现分歧。为了解决这些差异,我们提出了一个框架,将多个LLM的道德判断综合成一个集体制定的道德判断,重新调整那些显著偏离共识的模型。我们的聚合机制将连续的道德可接受性评分(超越二元标签)融合成一个集体概率,并根据模型的可靠性对贡献进行加权。对于不一致的模型,我们采用一种针对性的嵌入优化程序,微调道德哲学理论的标记嵌入,最小化与共识的JS散度,同时保持语义完整性。在一个大规模的社会道德困境数据集上的实验表明,我们的方法建立了稳健的共识,并提高了单个模型的准确性。这些发现突显了在多个模型之间进行数据驱动的道德对齐的价值,以及其在实现更安全、更一致的AI系统方面的潜力。 |
[51] 不只是调查?使用大型语言模型对德语开放式调查问卷中的调查动机进行编码 标题: AIn't Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation 作者: Leah von der Heyde / Anna-Carolina Haensch / Bernd Weiß / Jessika Daikeler 原文: [英文] 备注: to appear in Survey Research Methods 摘要: 最近大型语言模型(LLMs)的发展和更广泛的可访问性引发了关于如何在调查研究中使用它们的讨论,包括对开放式调查回答进行分类。由于其语言能力,LLMs可能是耗时的人工编码和监督机器学习模型预训练的有效替代方案。由于现有关于此主题的大多数研究集中在与非复杂主题相关的英语回答或单一LLM上,因此尚不清楚其研究结果是否具有普遍性,以及这些分类的质量如何与既定方法相比。在这项研究中,我们调查了不同的LLMs在其他背景下对开放式调查回答进行编码的程度,使用关于调查参与原因的德语数据作为示例。我们比较了几种最先进的LLMs和几种提示方法,并通过使用人类专家编码来评估LLMs的表现。总体表现因LLMs而异,只有经过微调的LLM达到了令人满意的预测性能水平。提示方法之间的性能差异取决于所使用的LLM。最后,LLMs在不同类别的调查参与原因上的分类性能不均衡,导致在不使用微调时出现不同的类别分布。我们讨论了这些发现的影响,无论是对开放式回答编码的方法研究还是对其实质性分析,以及对处理或实质性分析此类数据的实践者。最后,我们强调了研究人员在选择自动化方法进行开放式回答分类时需要考虑的许多权衡。在这样做时,我们的研究为关于LLMs在调查研究中可以高效、准确和可靠地利用的条件的研究贡献了越来越多的研究成果。 |
[52] 重新审视链式思维提示:零样本可以比少样本更强 标题: Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot 作者: Xiang Cheng / Chengyan Pan / Minjun Zhao / Deyang Li / Fangchao Liu / Xinyu Zhang / Xiao Zhang / Yong Liu 原文: [英文] [中文] 备注: 19 pages,22 figures 摘要: 上下文学习(In-Context Learning, ICL)是大型语言模型(LLMs)的一项重要新兴能力,最近的研究引入了思维链(Chain-of-Thought, CoT)到ICL的示例中,以增强其推理能力,特别是在数学任务中。然而,随着模型能力的不断提升,尚不清楚CoT示例在这些任务中是否仍然对最近更强大的模型有益。通过系统实验,我们发现对于像Qwen2.5系列这样的近期强模型,添加传统的CoT示例与零样本CoT相比并没有提高推理性能。相反,它们的主要功能是使输出格式与人类期望对齐。我们进一步研究了使用高级模型(如\texttt{Qwen2.5-Max}和\texttt{DeepSeek-R1})的答案构建的增强CoT示例的有效性。实验结果表明,这些增强的示例仍然未能提高模型的推理性能。进一步分析显示,模型倾向于忽略示例,主要关注指令,导致推理能力没有明显提升。总体而言,我们的研究结果突显了当前ICL+CoT框架在数学推理中的局限性,呼吁重新审视ICL范式和示例的定义。 |
[53] 通过政治话语的图灵测试:微调大型语言模型以模仿极化的社交媒体评论 标题: Passing the Turing Test in Political Discourse: Fine-Tuning LLMs to Mimic Polarized Social Media Comments 作者: . Pazzaglia / V. Vendetti / L. D. Comencini / F. Deriu / V. Modugno 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的日益复杂化引发了人们对其可能通过自动生成有说服力和偏见内容来加剧意识形态极化的担忧。本研究探讨了经过微调的LLMs在多大程度上能够在在线环境中复制和放大极化话语。我们使用从Reddit提取的政治敏感讨论的精选数据集,对一个开源LLM进行微调,以生成具有上下文意识和意识形态一致的回应。通过语言分析、情感评分和人工注释对模型的输出进行评估,特别关注其与原始话语的可信度和修辞一致性。结果表明,当在党派数据上进行训练时,LLMs能够生成高度可信且挑衅性的评论,往往与人类撰写的内容难以区分。这些发现引发了关于AI在政治话语、虚假信息和操控活动中使用的重大伦理问题。论文最后讨论了对AI治理、平台监管以及开发检测工具以减轻对抗性微调风险的更广泛影响。 |
[54] GuiLoMo:通过带引导选择向量的双层优化为LoRA-MoE分配专家数量和等级 标题: GuiLoMo: Allocating Expert Number and Rank for LoRA-MoE via Bilevel Optimization with GuidedSelection Vectors 作者: Hengyuan Zhang / Xinrong Chen / Yingmin Qiu / Xiao Liang / Ziyue Li / Guanyu Wang / Weiping Li / Tong Mo / Wenyue Li / Hayden Kwok-Hay So / Ngai Wong 原文: [英文] [中文] 备注: None 摘要: 参数高效微调(PEFT)方法,特别是低秩适应(LoRA),提供了一种以较低计算成本调整大型语言模型的高效方式。然而,其性能受到可训练参数数量较少的限制。最近的研究将LoRA与专家混合(MoE)结合,即LoRA-MoE,以增强容量,但仍有两个限制阻碍其潜力的充分发挥:1)在分配专家数量时下游任务的影响,以及2)所有LoRA专家的统一秩分配,限制了表示的多样性。为弥补这些不足,我们提出了GuiLoMo,一种具有引导选择向量(GSVs)的细粒度分层专家数量和秩分配策略。GSVs通过先验双层优化过程学习,以捕捉模型和任务的特定需求,然后用于分配最佳的专家数量和秩。在不同基准上的三个主干模型的实验表明,GuiLoMo始终实现了优于或可与所有基线相媲美的性能。进一步的分析提供了关于专家数量和秩如何在层和任务之间变化的关键见解,突出了自适应专家配置的好处。我们的代码可在此https URL获取。 |
[55] 大规模监督微调实验揭示数据、层次和训练因素如何影响大型语言模型的对齐质量 标题: Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality 作者: Yuto Harada / Yusuke Yamauchi / Yusuke Oda / Yohei Oseki / Yusuke Miyao / Yu Takagi 原文: [英文] [中文] 备注: None 摘要: 监督微调(SFT)是使大型语言模型(LLMs)与人类指令和价值观对齐的关键步骤,但SFT的许多方面仍然理解不够深入。我们在多种数据集上训练了各种基础模型,包括代码生成、数学推理和通用领域任务,最终在受控条件下生成了1000多个SFT模型。随后,我们识别了最重要的数据集属性,并检查了SFT引入的逐层修改。我们的研究结果表明,一些训练任务的协同效应在所有模型中持续存在,而另一些则变化显著,这强调了模型特定策略的重要性。此外,我们证明了困惑度可以一致地预测SFT的有效性——往往超过训练数据与基准之间的表面相似性——并且中层权重的变化与性能提升最为密切相关。我们将发布这1000多个SFT模型和基准结果,以加速进一步的研究。 |
[56] 寻宝:使用训练时标记实时定位长尾目标 标题: Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers 作者: Daniel D'souza / Julia Kreutzer / Adrien Morisot / Ahmet Üstün / Sara Hooker 原文: [英文] [中文] 备注: None 摘要: 现代机器学习面临的一个最深刻的挑战是如何在稀有和代表性不足的特征的长尾上表现良好。大型通用模型被训练用于许多任务,但在高频使用场景中表现最佳。训练后,很难让模型在训练语料库中代表性不足的特定用例上表现良好。依赖提示工程或少量示例来最大化特定测试用例的输出质量可能令人沮丧,因为模型可能对微小变化高度敏感,反应不可预测,或依赖于固定的系统提示来维持性能。在这项工作中,我们提出问题:“我们能否优化训练协议,以在推理时同时提高可控性和在代表性不足用例上的性能?”我们重新审视训练和推理技术之间的分界,以改善长尾性能,同时为用户提供一组模型被训练为响应的控制杠杆。我们创建了一个详细的数据特征和任务来源分类法,以显式控制生成属性并在推理时隐式条件生成。我们微调了一个基础模型以自动推断这些标记,使其在推理时成为可选项。这种原则性和灵活性的方法显著提高了性能,尤其是在训练分布的长尾示例上。虽然我们观察到在开放式生成质量上平均提升了5.7%的胜率,但在代表性不足的领域中我们看到了超过9.1%的增益。我们还观察到在代表性不足的任务(如代码修复)上相对提升高达14.1%,在长度指令遵循评估上绝对提升了35.3%。 |
[57] 容量很重要:基于真实世界数据的Transformer记忆能力概念验证 标题: Capacity Matters: a Proof-of-Concept for Transformer Memorization on Real-World Data 作者: Anton Changalidis / Aki Härmä 原文: [英文] [中文] 备注: This work has been accepted for publication at the First Workshop on Large Language Model Memorization (L2M2) at ACL 2025, Vienna, Austria 摘要: 本文研究了模型架构和数据配置如何影响生成式变压器的经验记忆能力。模型使用从医学系统命名法(SNOMED)知识图谱中提取的合成文本数据集进行训练:三元组表示静态连接,序列模拟复杂关系模式。结果表明,嵌入大小是学习速度和能力的主要决定因素,而额外的层提供的好处有限,并可能在较简单的数据集上阻碍性能。激活函数起着关键作用,Softmax表现出更大的稳定性和能力。此外,增加数据集的复杂性似乎改善了最终的记忆能力。这些见解提高了我们对变压器记忆机制的理解,并为使用结构化的现实世界数据优化模型设计提供了框架。 |
[58] Ring-lite:通过C3PO稳定的强化学习实现大语言模型的可扩展推理 标题: Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs 作者: Ring Team / Bin Hu / Cai Chen / Deng Zhao / Ding Liu / Dingnan Jin / Feng Zhu / Hao Dai / Hongzhi Luan / Jia Guo / Jiaming Liu / Jiewei Wu / Jun Mei / Jun Zhou / Junbo Zhao / Junwu Xiong / Kaihong Zhang / Kuan Xu / Lei Liang / Liang Jiang / Liangcheng Fu / Longfei Zheng / Qiang Gao / Qing Cui / Quan Wan / Shaomian Zheng / Shuaicheng Li / Tongkai Yang / Wang Ren / Xiaodong Yan / Xiaopei Wan / Xiaoyun Feng / Xin Zhao / Xinxing Yang / Xinyu Kong / Xuemin Yang / Yang Li / Yingting Wu / Yongkang Liu / Zhankai Xu / Zhenduo Zhang / Zhenglei Zhou / Zhenyu Huang / Zhiqiang Zhang / Zihao Wang / Zujie Wen 原文: [英文] [中文] 备注: Technical Report 摘要: 我们介绍了Ring-lite,这是一种基于专家混合(MoE)的大型语言模型,通过强化学习(RL)优化以实现高效且稳健的推理能力。该模型基于公开可用的Ling-lite模型构建,Ling-lite是一个拥有168亿参数且激活参数为27.5亿的模型。我们的方法在具有挑战性的基准测试(例如,AIME、LiveCodeBench、GPQA-Diamond)中匹配了最先进的小规模推理模型的性能,同时仅激活了可比模型所需参数的三分之一。为实现这一目标,我们引入了一个结合蒸馏与RL的联合训练流程,揭示了MoE RL训练中未记录的挑战。首先,我们识别出RL训练期间的优化不稳定性,并提出了约束上下文计算策略优化(C3PO),这是一种通过算法-系统协同设计方法提高训练稳定性和计算吞吐量的新方法。其次,我们通过实验证明,基于熵损失而非验证指标选择蒸馏检查点进行RL训练,在后续RL训练中实现了更优的性能-效率权衡。最后,我们开发了一个两阶段训练范式,以协调多领域数据集成,解决在混合数据集训练中出现的领域冲突问题。我们将发布模型、数据集和代码。 |
[59] 探索中的推理:一种熵的视角 标题: Reasoning with Exploration: An Entropy Perspective 作者: Daixuan Cheng / Shaohan Huang / Xuekai Zhu / Bo Dai / Wayne Xin Zhao / Zhenliang Zhang / Furu Wei 原文: [英文] [中文] 备注: None 摘要: 在强化学习(RL)中,平衡探索和利用是一个核心目标。尽管最近在增强语言模型(LM)推理方面取得了进展,但大多数方法倾向于利用,并越来越多地遇到性能瓶颈。在这项工作中,我们重新审视了熵——RL中探索的一个信号——并研究其与LM中探索性推理的关系。通过实证分析,我们发现高熵区域与三种类型的探索性推理动作之间存在强烈的正相关关系:(1)决定或连接逻辑步骤的关键标记,(2)反思性动作,如自我验证和纠正,以及(3)基础LM未充分探索的罕见行为。受此启发,我们对标准RL进行了最小的修改,仅增加了一行代码:在优势函数中加入基于熵的项。与传统的最大熵方法通过促进不确定性来鼓励探索不同,我们通过促进更长和更深的推理链来鼓励探索。值得注意的是,我们的方法在Pass@K指标上取得了显著的提升——该指标是LM推理能力的上限估计器——即使在使用极大的K值进行评估时,也推动了LM推理的边界。 |
[60] 从字节到思想:使用自回归 U-Nets 的语言建模 标题: From Bytes to Ideas: Language Modeling with Autoregressive U-Nets 作者: Mathurin Videau / Badr Youbi Idrissi / Alessandro Leite / Marc Schoenauer / Olivier Teytaud / David Lopez-Paz 原文: [英文] [中文] 备注: None 摘要: 分词对输入文本施加了固定的粒度,限制了语言模型对数据的操作方式以及对未来的预测范围。字节对编码(BPE)和类似方案将文本分割一次,构建一个静态词汇表,使模型被困于这种选择中。我们通过引入一种自回归U-Net来放松这种刚性,该网络在训练过程中学习嵌入自己的标记。网络读取原始字节,将其汇聚成单词,然后是单词对,最后最多到4个单词,从而为序列提供多尺度视图。在更深的阶段,模型必须预测更远的未来——预期接下来的几个单词而不是下一个字节——因此更深的阶段专注于更广泛的语义模式,而较早的阶段处理细节。当仔细调整和控制预训练计算时,浅层层次结构可以与强大的BPE基线相媲美,而更深的层次结构则显示出有希望的趋势。由于分词现在存在于模型内部,同一系统可以处理字符级任务,并在低资源语言之间传递知识。 |
[61] 用于提高生成口语模型自然度的变分框架 标题: A Variational Framework for Improving Naturalness in Generative Spoken Language Models 作者: Li-Wei Chen / Takuya Higuchi / Zakaria Aldeneh / Ahmed Hussen Abdelaziz / Alexander Rudnicky 原文: [英文] [中文] 备注: International Conference on Machine Learning (ICML) 2025 摘要: 大型语言模型在文本处理方面的成功激发了它们在语音建模中的应用。然而,由于语音是连续且复杂的,通常需要离散化以进行自回归建模。从自监督模型中提取的语音标记(称为语义标记)通常侧重于语音的语言方面,但忽略了韵律信息。因此,基于这些标记训练的模型生成的语音自然度较低。现有的方法尝试通过将音高特征添加到语义标记中来解决这个问题。然而,仅靠音高无法完全代表副语言属性的范围,并且选择合适的特征需要精心的手工设计。为了解决这个问题,我们提出了一种端到端的变分方法,该方法能够自动学习编码这些连续的语音属性以增强语义标记。我们的方法消除了手动提取和选择副语言特征的需要。此外,根据人类评估者的意见,该方法生成的语音延续更受欢迎。代码、样本和模型可在此https URL获取。 |