![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年5月21日更新论文136篇
|
[1] 使用哥伦比亚-自杀严重性评定量表评估大语言模型在自杀筛查中的推理能力 标题: Evaluating Reasoning LLMs for Suicide Screening with the Columbia-Suicide Severity Rating Scale 作者: Avinash Patil / Siru Tao / Amardeep Gedhu 原文: [英文] 备注: 8 Pages, 6 Figures, 1 Table 摘要: 自杀预防仍然是一个重要的公共卫生挑战。尽管像Reddit的r/SuicideWatch这样的在线平台历来为个人表达自杀想法和寻求社区支持提供了空间,但大型语言模型(LLMs)的出现引入了一种新范式——个人可能开始向AI系统而非人类披露自杀意图。本研究评估了LLMs使用哥伦比亚-自杀严重程度评定量表(C-SSRS)进行自动自杀风险评估的能力。我们评估了包括Claude、GPT、Mistral和LLaMA在内的六个模型在7点严重程度量表(0-6级)上对帖子进行分类的零样本表现。结果表明,Claude和GPT与人工注释高度一致,而Mistral实现了最低的序数预测误差。大多数模型表现出序数敏感性,错误分类通常发生在相邻的严重程度级别之间。我们进一步分析了混淆模式、错误分类来源和伦理考虑,强调了人类监督、透明度和谨慎部署的重要性。完整代码和补充材料可在此https URL获取。 |
[2] EmoMeta:用于中文隐喻中细粒度情感分类的多模态数据集 标题: EmoMeta: A Multimodal Dataset for Fine-grained Emotion Classification in Chinese Metaphors 作者: Xingyuan Lu / Yuxi Liu / Dongyu Zhang / Zhiyao Wu / Jing Ren / Feng Xia 原文: [英文] [中文] 备注: None 摘要: 隐喻在表达情感方面起着关键作用,使其对情商至关重要。多模态数据的出现和广泛的交流导致了多模态隐喻的激增,与单一模式场景相比,增加了情感分类的复杂性。然而,关于构建多模态隐喻细粒度情感数据集的研究稀缺,阻碍了该领域的进展。此外,现有研究主要集中在英语上,忽视了不同语言中情感细微差别的潜在变化。为了解决这些问题,我们引入了一个中文多模态数据集,包括5,000对隐喻广告的文本-图像对。每个条目都经过精心注释,标注了隐喻的出现、领域关系和细粒度情感分类,涵盖了快乐、爱、信任、恐惧、悲伤、厌恶、愤怒、惊讶、期待和中性。我们的数据集是公开可访问的(此 https URL),以促进这一新兴领域的进一步发展。 |
[3] 检测基于大型语言模型的奖励模型中的前缀偏差 标题: Detecting Prefix Bias in LLM-based Reward Models 作者: Ashwin Kumar / Yuzi He / Aram H. Markosyan / Bobbie Chern / Imanol Arrieta-Ibarra 原文: [英文] [中文] 备注: None 摘要: 基于人类反馈的强化学习(RLHF)已成为使用人类偏好数据对语言模型进行任务特定微调的关键范式。虽然许多公开可用的偏好数据集提供了响应的成对比较,但对由此产生的奖励模型中的偏见潜力仍未得到充分探索。在这项工作中,我们引入了检测和评估前缀偏见的新方法——一种由查询前缀的微小变化引发的模型偏好系统性转移——在基于LLM的奖励模型中,这些模型是在此类数据集上训练的。我们利用这些指标揭示了偏好模型在种族和性别维度上的显著偏见。我们的全面评估涵盖了各种开源偏好数据集和奖励模型架构,表明无论底层模型架构如何,这种偏见的易感性都存在。此外,我们提出了一种数据增强策略来减轻这些偏见,证明其在减少前缀偏见影响方面的有效性。我们的研究结果强调了在开发公平和可靠的奖励模型时,设计和评估偏见意识数据集的关键需求,并为AI公平性更广泛的讨论做出了贡献。 |
[4] 来源框架在大型语言模型中引发系统性评估偏差 标题: Source framing triggers systematic evaluation bias in Large Language Models 作者: Federico Germani / Giovanni Spitale 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)不仅被用于生成文本,还被用于评估文本,这引发了关于其判断是否一致、公正以及是否对框架效应具有鲁棒性的紧迫问题。在本研究中,我们系统地检查了四个最先进的LLMs(OpenAI o3-mini、Deepseek Reasoner、xAI Grok 2 和 Mistral)在评估4,800个关于社会、政治和公共健康相关的24个不同主题的叙述性陈述时的模型间和模型内的一致性,总共进行了192,000次评估。我们操控每个陈述的来源披露,以评估将其归因于另一个LLM或指定国籍的人类作者如何影响评估结果。我们发现,在盲测条件下,不同的LLMs在各个主题上表现出极高程度的模型间和模型内一致性。然而,当引入来源框架时,这种一致性被打破。我们发现,将陈述归因于中国个人会系统性地降低所有模型的协议分数,特别是对Deepseek Reasoner的影响尤为显著。我们的研究结果揭示了框架效应可以深刻影响文本评估,对LLM介导的信息系统的完整性、中立性和公平性具有重要意义。 |
[5] ProdRev:一种利用生成式预训练变换器赋能客户的深度神经网络框架 标题: ProdRev: A DNN framework for empowering customers using generative pre-trained transformers 作者: Aakash Gupta / Nataraj Das 原文: [英文] [中文] 备注: 2022 International Conference on Decision Aid Sciences and Applications (DASA) 摘要: 在疫情之后,消费者对电子商务的偏好加速增长。由于单个产品的评论信息量巨大(有时多达数千条),这可能导致买家在决策时陷入瘫痪。这种情况削弱了消费者的能力,因为他们无法预期去阅读如此多的评论,这既耗时又可能让他们感到困惑。市面上有多种商业工具使用评分机制来得出调整后的评分,以提醒用户潜在的评论操控。本文提出了一个框架,通过微调生成式预训练变换器(GPT)来更好地理解这些评论。此外,利用“常识”来做出更好的决策。这些模型拥有超过130亿个参数。为了根据我们的需求微调模型,我们使用了生成式预训练变换器(GPT-3)的Curie引擎。通过使用生成模型,我们引入了抽象总结,而不是简单地使用提取方法来总结评论。这揭示了评论之间的真实关系,而不仅仅是简单的复制粘贴。这为用户引入了“常识”元素,帮助他们快速做出正确的决策。用户将获得处理过的评论的优缺点,从而可以自行做出决策。 |
[6] LLM4CD:利用大型语言模型进行开放世界知识增强的认知诊断 标题: LLM4CD: Leveraging Large Language Models for Open-World Knowledge Augmented Cognitive Diagnosis 作者: Weiming Zhang / Lingyue Fu / Qingyao Li / Kounianhua Du / Jianghao Lin / Jingwei Yu / Wei Xia / Weinan Zhang / Ruiming Tang / Yong Yu 原文: [英文] [中文] 备注: None 摘要: 认知诊断(CD)在智能教育中起着至关重要的作用,通过学生的测试历史评估他们对知识概念的理解。然而,目前的CD方法通常仅基于学生、练习和知识概念的ID关系进行建模,忽视了教育数据空间中丰富的语义关系。此外,当代智能辅导系统(ITS)经常涉及新学生和新练习的加入,这种情况对基于ID的方法来说难以有效管理。大型语言模型(LLM)的出现为利用开放世界知识克服这一挑战提供了可能。在本文中,我们提出了LLM4CD,它利用大型语言模型进行开放世界知识增强的认知诊断。我们的方法利用LLM的开放世界知识构建认知表达的文本表示,然后对其进行编码,以在CD任务中引入丰富的语义信息。此外,我们提出了一种创新的双层编码器框架,通过两个层次的编码器来建模学生的测试历史:宏观层次的认知文本编码器和微观层次的知识状态编码器。这种方法用语义表示替代了传统的ID嵌入,使模型能够利用开放世界知识适应新学生和新练习,并解决冷启动问题。大量实验结果表明,我们提出的方法在多个真实世界数据集上始终优于以往的CD模型,验证了利用LLM引入丰富语义信息到CD任务中的有效性。 |
[7] IRLBench:一个多模态、文化基础的平行爱尔兰语-英语基准,用于开放式大型语言模型推理评估 标题: IRLBench: A Multi-modal, Culturally Grounded, Parallel Irish-English Benchmark for Open-Ended LLM Reasoning Evaluation 作者: Khanh-Tung Tran / Barry O'Sullivan / Hoang D. Nguyen 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展展示了其在知识和推理能力上的潜力,但在多语言和低资源环境中的表现仍未得到充分探索。现有的基准测试通常存在文化偏见,评估仅限于文本格式,依赖于多项选择题形式,更重要的是,对于极低资源语言的支持有限。为了解决这些问题,我们引入了IRLBench,这是一项以英语和爱尔兰语并行呈现的基准测试,而爱尔兰语被联合国教科文组织认为是绝对濒危的语言。我们的基准测试由2024年爱尔兰中学毕业证书考试中的12个代表性科目组成,能够对模型在各个领域的能力进行细粒度分析。通过将任务框定为长篇生成并利用官方评分标准,它不仅支持对正确性的全面评估,还支持对语言忠实度的评估。我们对领先的闭源和开源LLMs进行了广泛的实验,揭示了英语和爱尔兰语之间持续存在的性能差距,其中模型在不到80%的情况下生成有效的爱尔兰语回答,并且在最佳表现的模型中,正确回答的比例为55.8%,而英语中为76.2%。我们发布了IRLBench(此https URL)及其配套的评估代码库(此https URL),以支持未来在稳健、具有文化意识的多语言AI开发方面的研究。 |
[8] 噪声注入系统性地削弱大型语言模型的安全防护措施 标题: Noise Injection Systemically Degrades Large Language Model Safety Guardrails 作者: Prithviraj Singh Shahani / Matthias Scheutz 原文: [英文] [中文] 备注: 9 pages,3 figures 摘要: 大型语言模型(LLMs)中的安全护栏是防止有害输出的关键组件。然而,它们在扰动下的弹性仍然知之甚少。在本文中,我们通过系统地向模型激活中注入高斯噪声,研究了LLMs中安全微调的稳健性。我们在多个开放权重模型中展示了:(1)高斯噪声将有害输出率提高了最多27%(p < 0.001),(2)更深层次的安全微调并未提供额外的保护,以及(3)链式思维推理在很大程度上保持完整。研究结果揭示了当前安全对齐技术中的关键漏洞,并强调了基于推理和强化学习的方法在开发更稳健的AI安全系统方面的潜力。这些结果对LLMs在安全关键应用中的实际部署具有重要意义,因为这些结果表明,即使没有对抗性提示,广泛部署的安全调优方法也可能失效。 |
[9] EcoSafeRAG:通过检索增强生成中的上下文分析实现高效安全 标题: EcoSafeRAG: Efficient Security through Context Analysis in Retrieval-Augmented Generation 作者: Ruobing Yao / Yifei Zhang / Shuang Song / Neng Gao / Chenyang Tu 原文: [英文] 备注: None 摘要: 检索增强生成(RAG)通过整合外部知识来弥补大型语言模型(LLMs)静态知识的局限性,从而生成具有更高事实正确性和查询特定上下文的响应。然而,它同时也引入了新的攻击面,例如语料库中毒。现有的大多数防御方法依赖于模型的内部知识,这与RAG的设计理念相冲突。为了弥合这一差距,EcoSafeRAG使用句子级处理和诱饵引导的上下文多样性检测,通过分析候选文档的上下文多样性来识别恶意内容,而不依赖于LLM的内部知识。实验表明,EcoSafeRAG在即插即用部署中提供了最先进的安全性,同时在保持实际操作成本(相对1.2倍延迟,48%-80%令牌减少对比Vanilla RAG)的情况下提高了干净场景下RAG的性能。 |
[10] Time-R1:迈向大语言模型中的全面时间推理 标题: Time-R1: Towards Comprehensive Temporal Reasoning in LLMs 作者: Zijia Liu / Peixuan Han / Haofei Yu / Haoru Li / Jiaxuan You 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)展现了令人印象深刻的能力,但在时间智能方面仍然缺乏稳健性,难以将对过去的推理与对未来的预测和合理生成结合起来。同时,现有方法通常针对孤立的时间技能,如关于过去事件的问答或基本预测,并表现出较差的泛化能力,尤其是在处理超出其知识截止点的事件或需要创造性预见时。为了解决这些限制,我们引入了\textit{Time-R1},这是第一个为中等规模(3B参数)的LLM赋予全面时间能力的框架:理解、预测和创造性生成。我们的方法具有一个新颖的三阶段开发路径;前两个阶段构成了一个由精心设计的动态规则奖励系统驱动的\textit{强化学习(RL)课程}。该框架逐步构建(1)从历史数据中获得基础的时间理解和逻辑事件时间映射,(2)超出其知识截止点的未来事件预测技能,最后(3)无需任何微调即可实现对创造性未来场景生成的显著泛化。令人惊讶的是,实验表明,Time-R1在极具挑战性的未来事件预测和创造性场景生成基准上表现优于规模大200倍以上的模型,包括最先进的671B DeepSeek-R1。该工作提供了强有力的证据,表明经过精心设计的渐进式RL微调可以使较小且高效的模型实现卓越的时间性能,提供了一条实用且可扩展的路径,迈向真正时间感知的AI。为了促进进一步研究,我们还发布了\textit{Time-Bench},一个从10年新闻数据中提取的大规模多任务时间推理数据集,以及我们的一系列\textit{Time-R1}检查点。 |
[11] 感应头毒性机制性地解释了大型语言模型中的重复诅咒 标题: Induction Head Toxicity Mechanistically Explains Repetition Curse in Large Language Models 作者: Shuxun Wang / Qingyu Yin / Chak Tou Leong / Qiang Zhang / Linyi Yang 原文: [英文] [中文] 备注: None 摘要: 重复诅咒是指大型语言模型(LLMs)生成重复的标记序列或循环序列的现象。虽然重复诅咒已被广泛观察到,但其潜在机制仍然理解不深。在这项工作中,我们研究了归纳头的作用——一种以其在上下文学习中表现能力而闻名的特定类型的注意力头——在驱动这种重复行为中的作用。具体来说,我们关注归纳头的“毒性”,我们将其定义为在重复过程中它们倾向于主导模型的输出逻辑,从而有效地排除其他注意力头对生成过程的贡献。我们的研究结果对LLMs的设计和训练具有重要意义。通过识别归纳头作为重复诅咒的关键驱动因素,我们提供了这一现象的机械解释,并提出了潜在的缓解途径。我们还提出了一种注意力头正则化技术,可以用于减少归纳头在生成过程中的主导地位,从而促进更丰富和连贯的输出。 |
[12] 逻辑越狱:通过形式逻辑表达高效解锁大型语言模型的安全限制 标题: Logic Jailbreak: Efficiently Unlocking LLM Safety Restrictions Through Formal Logical Expression 作者: Jingyu Peng / Maolin Wang / Nan Wang / Xiangyu Zhao / Jiatong Li / Kai Zhang / Qi Liu 原文: [英文] [中文] 备注: None 摘要: 尽管在使大型语言模型(LLMs)与人类价值观对齐方面取得了实质性进展,但当前的安全机制仍然容易受到越狱攻击。我们假设这种脆弱性源于对齐导向的提示与恶意提示之间的分布差异。为此,我们引入了LogiBreak,这是一种新颖且通用的黑箱越狱方法,利用逻辑表达式翻译来规避LLM的安全系统。通过将有害的自然语言提示转换为形式逻辑表达式,LogiBreak利用了对齐数据与基于逻辑的输入之间的分布差距,在规避安全限制的同时保留了潜在的语义意图和可读性。我们在一个跨越三种语言的多语言越狱数据集上评估了LogiBreak,展示了其在各种评估设置和语言环境中的有效性。 |
[13] 结合两者的优势:一种用于混合神经机器翻译和大型语言模型翻译的方法 标题: Combining the Best of Both Worlds: A Method for Hybrid NMT and LLM Translation 作者: Zhanglin Wu / Daimeng Wei / Xiaoyu Chen / Hengchao Shang / Jiaxin Guo / Zongyao Li / Yuanchang Luo / Jinlong Yang / Zhiqiang Rao / Hao Yang 原文: [英文] [中文] 备注: 9 pages, 2 figures, 9 tables, ACL 2025 摘要: 大型语言模型(LLM)在多种下游任务中表现出色,例如机器翻译(MT)。然而,使用LLM进行翻译会面临高计算成本和显著的延迟。根据我们的评估,在大多数情况下,使用LLM的翻译与神经机器翻译(NMT)系统生成的翻译相当。只有在特定场景下,LLM和NMT模型才显示出各自的优势。因此,将NMT和LLM结合用于翻译,并仅在必要时使用LLM似乎是一个合理的解决方案。因此,需要一种调度策略来优化翻译结果,同时确保快速速度和尽可能少的LLM使用。我们比较了几种调度策略,并提出了一种新颖且简单的决策器,该决策器利用源句特征。我们在多语言测试集上进行了广泛的实验,结果表明我们可以在最小化LLM使用的情况下实现最佳翻译性能,证明了我们决策器的有效性。 |
[14] CS-Sum:代码转换对话摘要的基准及大型语言模型的局限性 标题: CS-Sum: A Benchmark for Code-Switching Dialogue Summarization and the Limits of Large Language Models 作者: Sathya Krishnan Suresh / Tanmay Surana / Lim Zhi Hao / Eng Siong Chng 原文: [英文] [中文] 备注: 17 pages, 5 figures and 11 tables 摘要: 代码转换(Code-switching, CS)对大型语言模型(LLMs)构成了重大挑战,但其在LLMs中的可理解性仍未得到充分探索。我们引入了CS-Sum,通过将CS对话总结为英文来评估LLMs对CS的理解能力。CS-Sum是首个针对普通话-英语(EN-ZH)、泰米尔语-英语(EN-TA)和马来语-英语(EN-MS)CS对话总结的基准,每种语言对包含900-1300个人工标注的对话。我们评估了包括开源和闭源模型在内的十个LLMs,分析了在少样本、翻译-总结和微调(在合成数据上使用LoRA、QLoRA)方法下的表现。我们的研究发现,尽管自动化指标得分较高,LLMs会犯一些细微的错误,从而改变对话的完整意义。为此,我们介绍了LLMs在处理CS输入时最常见的三种错误类型。错误率在不同的CS语言对和LLMs之间有所不同,一些LLMs在某些语言对上更频繁地出现错误,这突显了在代码转换数据上进行专门训练的必要性。 |
[15] 通过对比图像-字幕调优实现跨语言表示对齐 标题: Cross-Lingual Representation Alignment Through Contrastive Image-Caption Tuning 作者: Nathaniel Krasner / Nicholas Lanuzo / Antonios Anastasopoulos 原文: [英文] [中文] 备注: Accepted to ACL 2025 Main Conference 摘要: 多语言句子表示的对齐通常需要双语文本来弥合语言之间的差距。我们研究视觉信息是否可以代替这种作用。图像标题数据集非常容易创建,不需要多语言专业知识,因此这为低资源语言提供了一种更高效的替代方案。我们发现,多语言图像-标题对齐可以隐式地对齐语言之间的文本表示,预训练中未见过的语言可以在事后被纳入这种对齐中,并且这些对齐的表示可以用于跨语言自然语言理解(NLU)和双语文本检索。 |
[16] 澄清正字法:正字法透明度作为可压缩性 标题: Clarifying orthography: Orthographic transparency as compressibility 作者: Charles J. Torres / Richard Futrell 原文: [英文] [中文] 备注: None 摘要: 正字法透明性——拼写与发音的直接关联程度——缺乏一个统一的、与书写系统无关的度量标准。我们利用算法信息论的思想,从正字法和语音字符串之间的相互可压缩性来量化正字法透明性。我们的度量方法提供了一种有原则的方式来结合降低正字法透明性的两个因素,将不规则拼写和规则复杂性统一在一个量中。我们使用从神经序列模型中导出的预测编码长度来估计我们的透明性度量。对22种语言进行评估,涵盖广泛的书写系统类型(字母表、辅音音素文字、元音附标文字、音节文字、表意文字),验证了关于书写系统相对透明性的常见直觉。相互可压缩性为正字法透明性提供了一个简单、有原则且通用的标准。 |
[17] 大型语言模型擅长检测宣传吗? 标题: Are Large Language Models Good at Detecting Propaganda? 作者: Julia Jose / Rachel Greenstadt 原文: [英文] [中文] 备注: None 摘要: 宣传者使用依赖逻辑谬误和情感诉求的修辞手法来推进他们的议程。识别这些技巧是做出明智决策的关键。最近自然语言处理(NLP)的进步使得能够开发出检测操控性内容的系统。在这项研究中,我们考察了几种大型语言模型及其在检测新闻文章中的宣传技巧方面的表现。我们将这些大型语言模型的表现与基于Transformer的模型进行比较。我们发现,虽然GPT-4在F1分数上表现优于GPT-3.5和Claude 3 Opus(F1=0.16),但它并未超越RoBERTa-CRF基线(F1=0.67)。此外,我们发现所有三个大型语言模型在检测六种宣传技巧之一(污名化)的实例时都优于多粒度网络(MGN)基线,其中GPT-3.5和GPT-4在检测恐惧诉求和旗帜飘扬的实例时也优于MGN基线。 |
[18] SQLForge:合成可靠且多样的数据以增强大型语言模型中的文本到SQL推理 标题: SQLForge: Synthesizing Reliable and Diverse Data to Enhance Text-to-SQL Reasoning in LLMs 作者: Yu Guo / Dong Jin / Shenghao Ye / Shuangwu Chen / Jian Yang / Xiaobin Tan 原文: [英文] [中文] 备注: 12 pages, 7 figures, accepted to ACL Findings 2025 摘要: 大型语言模型(LLMs)在文本到SQL的推理任务中展示了显著的潜力,但现有开源模型与其闭源对手之间仍存在较大的性能差距。在本文中,我们介绍了SQLForge,这是一种合成可靠且多样化数据的新方法,以增强LLMs在文本到SQL推理中的表现。我们通过SQL语法约束和SQL到问题的反向翻译来提高数据的可靠性,确保数据在结构和语义层面的逻辑性。我们还提出了一种SQL模板丰富化和迭代数据域探索机制,以提高数据的多样性。基于增强的数据,我们对多种不同架构和参数规模的开源模型进行微调,形成了一系列被称为SQLForge-LM的模型。SQLForge-LM在广泛认可的Spider和BIRD基准测试中,在开源模型中实现了最先进的性能。具体而言,SQLForge-LM在Spider Dev上实现了85.7%的EX准确率,在BIRD Dev上实现了59.8%的EX准确率,大大缩小了与闭源方法的性能差距。 |
[19] 模拟代理:一种用于集成模拟和大型语言模型以增强决策的框架 标题: Simulation Agent: A Framework for Integrating Simulation and Large Language Models for Enhanced Decision-Making 作者: Jacob Kleiman / Kevin Frank / Sindy Campagna 原文: [英文] [中文] 备注: None 摘要: 尽管模拟在准确复制现实世界系统方面非常强大,但由于其复杂性,通常对非技术用户来说难以接触。相反,大型语言模型(LLMs)提供了直观的、基于语言的交互,但可能缺乏可靠建模复杂现实世界动态所需的结构化、因果理解。我们介绍了我们的模拟代理框架,这是一种将模拟模型和LLMs的优势结合起来的新方法。该框架通过利用LLMs的对话能力与复杂的模拟系统无缝互动,同时利用模拟将LLMs扎根于准确和结构化的现实世界现象表示,从而帮助用户。该集成方法有助于提供一个稳健且可推广的实证验证基础,并在不同领域中具有广泛的适用性。 |
[20] Krikri:推进希腊语开放大型语言模型 标题: Krikri: Advancing Open Large Language Models for Greek 作者: Dimitris Roussis / Leon Voukoutis / Georgios Paraskevopoulos / Sokratis Sofianopoulos / Prokopis Prokopidis / Vassilis Papavasileiou / Athanasios Katsamanis / Stelios Piperidis / Vassilis Katsouros 原文: [英文] [中文] 备注: None 摘要: 我们介绍了Llama-Krikri-8B,这是一款专为希腊语设计的尖端大型语言模型,基于Meta的Llama 3.1-8B构建。Llama-Krikri-8B经过高质量希腊语数据的广泛训练,以确保对语言细微差别的优越适应。拥有80亿参数,它在提供先进功能的同时保持高效的计算性能。Llama-Krikri-8B支持现代希腊语和英语,并能够处理多音文本和古希腊语。Llama-Krikri-8B的聊天版本具有多阶段后训练管道,利用人类和合成指令及偏好数据,应用诸如MAGPIE等技术。此外,为了评估,我们提出了三个新的希腊语公共基准。我们在现有和提出的基准上的评估显示,在自然语言理解和生成以及代码生成方面,相较于可比的希腊语和多语言LLM有显著的改进。 |
[21] 可解释的痕迹,意外的结果:探讨基于痕迹的知识蒸馏中的脱节 标题: Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation 作者: Siddhant Bhambri / Upasana Biswas / Subbarao Kambhampati 原文: [英文] [中文] 备注: 10 pages 摘要: 问答(QA)在当今互动对话系统(如ChatGPT、Perplexity、Microsoft Copilot等)中提出了一个具有挑战性和关键性的问题,用户要求模型输出既准确又透明。由于较小的语言模型(SLM)在计算上更高效,但通常表现不如较大的模型,知识蒸馏(KD)方法允许对这些较小的模型进行微调以提高其最终性能。最近,链式思维(CoT)或推理模型(如DeepSeek R1)产生的中间标记或所谓的“推理”轨迹被用作KD的训练信号。然而,这些推理轨迹往往冗长且难以解释或评估。在这项工作中,我们旨在解决评估这些推理轨迹的忠实性及其与最终性能的相关性这一挑战。为此,我们采用了一种利用基于规则的问题分解的KD方法。这种方法使我们能够将复杂的查询分解为结构化的子问题,生成可解释的轨迹,其正确性甚至在推理时也可以轻松评估。具体来说,我们在开放书籍QA上展示了这种方法,将问题分解为分类步骤和信息检索步骤,从而简化了轨迹评估。我们在CoTemp QA、Microsoft机器阅读理解QA和Facebook bAbI QA数据集上进行的SFT实验揭示了一个惊人的发现:正确的轨迹并不一定意味着模型输出正确的最终解决方案。同样,我们发现正确的最终解决方案与中间轨迹的正确性之间的相关性较低。这些结果挑战了利用推理轨迹通过KD提高SLM最终性能的隐含假设。 |
[22] EfficientLLM:大型语言模型中的效率 标题: EfficientLLM: Efficiency in Large Language Models 作者: Zhengqing Yuan / Weixiang Sun / Yixin Liu / Huichi Zhou / Rong Zhou / Yiyang Li / Zheyuan Zhang / Wei Song / Yue Huang / Haolong Jia / Keerthiram Murugesan / Yu Wang / Lifang He / Jianfeng Gao / Lichao Sun / Yanfang Ye 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)推动了显著的进展,但其不断增长的参数数量和上下文窗口导致了高昂的计算、能源和货币成本。我们介绍了EfficientLLM,这是一项新的基准测试,也是首次全面的实证研究,评估大规模LLM的效率技术。研究在一个生产级集群(48xGH200, 8xH200 GPUs)上进行,系统地探索了三个关键轴:(1)架构预训练(高效注意力变体:MQA, GQA, MLA, NSA;稀疏专家混合(MoE)),(2)微调(参数高效方法:LoRA, RSLoRA, DoRA),以及(3)推理(量化方法:int4, float16)。我们定义了六个细粒度指标(内存利用率、计算利用率、延迟、吞吐量、能耗、压缩率)来捕捉硬件饱和、延迟-吞吐平衡和碳成本。通过评估超过100个模型-技术对(0.5B-72B参数),我们得出了三个核心见解:(i)效率涉及可量化的权衡:没有单一方法是普遍最优的;例如,MoE减少了FLOPs并提高了准确性,但VRAM增加了40%,而int4量化将内存/能耗减少了最多3.9倍,但准确性下降了3-5%。 (ii)最优解是任务和规模相关的:MQA为受限设备提供了最佳的内存-延迟权衡,MLA在质量关键任务中实现了最低的困惑度,而RSLoRA仅在超过14B参数时才超越LoRA的效率。 (iii)技术在不同模态间具有普适性:我们将评估扩展到大型视觉模型(Stable Diffusion 3.5, Wan 2.1)和视觉-语言模型(Qwen2.5-VL),确认了有效的可迁移性。通过开源数据集、评估管道和排行榜,EfficientLLM为研究人员和工程师在下一代基础模型的效率-性能领域中导航提供了重要指导。 |
[23] 通过联想记忆提高语言模型和大脑的对齐 标题: Improve Language Model and Brain Alignment via Associative Memory 作者: Congchi Yin / Yongpeng Zhang / Xuyun Wen / Piji Li 原文: [英文] [中文] 备注: Accepted by Findings of ACL 2025 摘要: 联想记忆在人的认知系统中参与相关信息的整合以促进理解。在这项工作中,我们通过整合联想记忆来改善语言模型与人脑在处理语音信息时的对齐。在通过将语言模型的激活映射到脑活动来验证语言模型与大脑的对齐后,原始文本刺激与模拟联想记忆扩展后被视为计算语言模型的输入。我们发现语言模型与大脑在与联想记忆处理密切相关的脑区的对齐得到了改善。我们还通过构建包含1000个故事样本的\textit{Association}数据集,展示了经过特定监督微调的大型语言模型更好地与大脑反应对齐,该数据集以鼓励联想记忆为输入和关联内容为输出的指令为特征。 |
[24] 用于检测AI生成文本的领域门控集成网络 标题: Domain Gating Ensemble Networks for AI-Generated Text Detection 作者: Arihant Tripathi / Liam Dugan / Charis Gao / Maggie Huan / Emma Jin / Peter Zhang / David Zhang / Julia Zhao / Chris Callison-Burch 原文: [英文] [中文] 备注: Submitted to EMNLP 2025 摘要: 随着最先进的语言模型不断改进,对机器生成文本的强健检测需求变得越来越关键。然而,目前最先进的机器文本检测器在适应新的未见领域和生成模型方面存在困难。在本文中,我们提出了DoGEN(Domain Gating Ensemble Networks),这是一种通过使用域分类器的权重集成一组领域专家检测模型的方法,使检测器能够适应未见领域。我们在来自领先基准的各种领域上测试了DoGEN,发现它在域内检测中达到了最先进的性能,同时在域外检测中表现优于体积是其两倍的模型。我们发布了我们的代码和训练模型,以协助未来在领域自适应AI检测方面的研究。 |
[25] 推理路径压缩:压缩生成轨迹以提高大型语言模型推理效率 标题: Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning 作者: Jiwon Song / Dongwon Jo / Yulhwa Kim / Jae-Joon Kim 原文: [英文] [中文] 备注: None 摘要: 最近,专注于推理的语言模型通过在生成最终答案之前生成冗长的中间推理路径来实现高准确率。虽然这种方法在解决需要逻辑思维的问题时非常有效,但长推理路径显著增加了内存使用和生成令牌的吞吐量,限制了此类模型的实际部署。我们提出了一种名为推理路径压缩(RPC)的无训练方法,通过利用推理路径的语义稀疏性来加速推理。RPC 定期压缩 KV 缓存,保留那些获得高重要性分数的 KV 缓存,这些分数是使用由最近生成的查询组成的选择窗口计算的。实验表明,与使用完整 KV 缓存的推理相比,RPC 将 QwQ-32B 的生成吞吐量提高了最多 1.60 倍,而在 AIME 2024 基准测试上的准确率下降了 1.2%。我们的研究结果表明,推理轨迹中的语义稀疏性可以被有效利用进行压缩,为高效部署推理大型语言模型提供了一条实用途径。我们的代码可在此 https URL 获取。 |
[26] Code2Logic:基于游戏代码的数据合成以增强大型视觉语言模型的通用推理能力 标题: Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning 作者: Jingqi Tong / Jixin Tang / Hangcheng Li / Yurong Mou / Ming Zhang / Jun Zhao / Yanbo Wen / Fan Song / Jiahao Zhan / Yuyang Lu / Chaoran Tao / Zhiyuan Guo / Jizhou Yu / Tianhao Cheng / Changhao Jiang / Zhen Wang / Tao Liang / Zhihui Fei / Mingyang Wan / Guojun Ma / Weifeng Ge / Guanhua Chen / Tao Gui / Xipeng Qiu / Qi Zhang / Xuanjing Huang 原文: [英文] [中文] 备注: 49 pages, 19 figures, submitted to NeurIPS 2025 摘要: 视觉-语言链式思维(CoT)数据资源相较于仅文本的对应资源相对稀缺,这限制了视觉语言模型(VLMs)推理能力的提升。然而,高质量的视觉-语言推理数据的标注既昂贵又费力。为了解决这个问题,我们利用了一种有前景的资源:游戏代码,它自然包含逻辑结构和状态转换过程。因此,我们提出了Code2Logic,这是一种新颖的基于游戏代码驱动的多模态推理数据合成方法。我们的方法利用大型语言模型(LLMs)来适应游戏代码,通过代码执行实现推理过程和结果的自动获取。使用Code2Logic方法,我们开发了GameQA数据集,用于训练和评估VLMs。GameQA具有成本效益且易于扩展,能够挑战最先进的模型,并且在30个游戏和158个任务中表现出多样性。令人惊讶的是,尽管仅在游戏数据上进行训练,VLMs展示了领域外的泛化能力,特别是Qwen2.5-VL-7B在7个不同的视觉-语言基准上性能提升了2.33%。我们的代码和数据集可以在此https URL获取。 |
[27] 映射大型语言模型的思维:基于图的推理大型语言模型分析 标题: Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM 作者: Zhen Xiong / Yujun Cai / Zhecheng Li / Yiwei Wang 原文: [英文] [中文] 备注: None 摘要: 最近在测试时缩放方面的进展使大型语言模型(LLMs)能够通过扩展的思维链(CoT)生成展示复杂的推理能力。尽管这些推理LLMs(RLMs)具有潜力,但它们常常表现出反直觉和不稳定的行为,例如在少样本提示下性能下降,这对我们当前对RLMs的理解提出了挑战。在这项工作中,我们引入了一个统一的基于图的分析框架,以更好地建模RLMs的推理过程。我们的方法首先将冗长的CoT输出聚类为语义一致的推理步骤,然后构建有向推理图以捕捉这些步骤之间的上下文和逻辑依赖关系。通过对不同模型和提示机制的全面分析,我们揭示了结构属性,如探索密度、分支和收敛比率,与推理准确性有强烈的相关性。我们的研究结果表明,提示策略如何显著重塑RLMs的内部推理结构,直接影响任务结果。所提出的框架不仅能够超越传统指标进行推理质量的定量评估,还为提示工程和LLMs的认知分析提供了实用的见解。代码和资源将被发布,以促进该方向的未来研究。 |
[28] InfiGFusion:通过高效的Gromov-Wasserstein进行模型融合的图对数蒸馏 标题: InfiGFusion: Graph-on-Logits Distillation via Efficient Gromov-Wasserstein for Model Fusion 作者: Yuanyi Wang / Zhaoyi Yan / Yiming Zhang / Qi Zhou / Yanggan Gu / Fei Wu / Hongxia Yang 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展加大了将异构开源模型融合为一个统一系统的努力,这个系统继承了它们的互补优势。现有的基于logit的融合方法保持了推理效率,但将词汇维度独立对待,忽视了由跨维度交互编码的语义依赖。这些依赖反映了在模型的内部推理中,标记类型如何交互,并且对于使模型与多样的生成行为对齐至关重要。为了显式地建模这些依赖,我们提出了\textbf{InfiGFusion},这是第一个具有新颖\textit{Graph-on-Logits Distillation}(GLD)损失的结构感知融合框架。具体来说,我们保留每个输出的前$k$个logit,并聚合它们在序列位置上的外积以形成一个全局共激活图,其中节点代表词汇通道,边量化它们的联合激活。为了确保可扩展性和效率,我们设计了一种基于排序的闭式近似,将Gromov-Wasserstein距离的原始$O(n^4)$成本降低到$O(n \log n)$,并具有可证明的近似保证。在多种融合设置下的实验表明,GLD始终提高了融合质量和稳定性。InfiGFusion在推理、编码和数学等11个基准上优于SOTA模型和融合基线。它在复杂推理任务中表现出特别的优势,在多步算术上提高了+35.6,在因果判断上比SFT提高了+37.06,展示了卓越的多步和关系推理能力。 |
[29] 让我们一步一步验证数学问题 标题: Let's Verify Math Questions Step by Step 作者: Chengyu Shen / Zhen Hao Wong / Runming He / Hao Liang / Meiyi Qiang / Zimo Meng / Zhengyang Zhao / Bohan Zeng / Zhengzhou Zhu / Bin Cui / Wentao Zhang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)最近在数学推理方面取得了显著进展。为了实现这种能力,许多现有的工作将强大的推理模型提炼成长的思维链,或设计算法来构建高质量的数学问答数据用于训练。然而,这些努力主要集中在生成正确的推理路径和答案,而在很大程度上忽视了问题本身的有效性。在这项工作中,我们提出了数学问题验证(MathQ-Verify),这是一种新颖的五阶段流程,旨在严格过滤不当或未明确指定的数学问题。MathQ-Verify首先进行格式级验证,以去除冗余指令并确保每个问题在语法上是格式良好的。然后,它将每个问题形式化,分解为原子条件,并根据数学定义验证这些条件。接下来,它检测这些条件之间的逻辑矛盾,随后进行面向目标的完整性检查,以确保问题提供足够的信息来解决。为了评估这一任务,我们使用现有的基准测试以及我们构建的一个额外数据集,其中包含2,147个具有多样错误类型的数学问题,每个问题都经过手动双重验证。实验表明,MathQ-Verify在多个基准测试中实现了最先进的性能,将F1分数提高了多达25个百分点,相较于直接验证基线。通过轻量级模型投票方案,它进一步达到了约90%的精确度和63%的召回率。MathQ-Verify为策划可靠的数学数据集提供了一种可扩展且准确的解决方案,减少了标签噪声并避免了在无效问题上的不必要计算。我们的代码和数据可在此https URL获取。 |
[30] 多语言自然语言处理中的跨语言迁移:语言家族和形态学的作用 标题: Cross-Linguistic Transfer in Multilingual NLP: The Role of Language Families and Morphology 作者: Ajitesh Bankula / Praney Bankula 原文: [英文] 备注: None 摘要: 跨语言迁移已成为多语言自然语言处理中的一个关键方面,因为它允许在资源丰富的语言上训练的模型更有效地应用于资源匮乏的语言。最近,大规模多语言预训练语言模型(例如,mBERT、XLM-R)展示了强大的零样本迁移能力。本文通过语言家族和形态学的视角研究跨语言迁移,探讨语言家族的接近性和形态相似性如何影响自然语言处理任务的表现。我们进一步讨论了我们的结果及其与近期文献发现的关系。总体而言,我们比较了多语言模型的性能,并回顾了语言距离度量与迁移结果的相关性。我们还研究了将类型学和形态学信息整合到模型预训练中的新兴方法,以改善对多样化语言的迁移。 |
[31] 词长预测词序:“最小-最大化”驱动语言演化 标题: Word length predicts word order: "Min-max"-ing drives language evolution 作者: Hiram Ring 原文: [英文] [中文] 备注: None 摘要: 当前的语言理论提出了语言表面结构(即词序)的先天(Baker 2001;Chomsky 1981)或功能性(Greenberg 1963;Dryer 2007;Hawkins 2014)起源,而进化建模(Dunn et al. 2011)则表明血统是影响这些模式的主要因素。尽管对于特定语言和语系的词序变化有来自先天和基于使用的视角的假设,但对于推动语言更广泛演变的机制的两大主要提案之间存在关键分歧(Wasow 2002;Levy 2008)。本文基于一个包含超过1,500种语言、代表133个语系和111个孤立语言的大型标记平行数据集,提出了一个词序变化的普遍基础机制。结果表明,词类长度与跨语言的词序显著相关,但不是以简单的方式相关,部分支持对立的处理理论,同时预测了两个不同系统谱系中的历史词序变化,并在回归模型中解释了比血统或语言区域更多的方差。这些发现表明了一种由处理和信息结构的竞争压力驱动的综合“最小-最大”语言演化理论,与最近的效率导向(Levshina 2023)和信息理论提案(Zaslavsky 2020;Tucker et al. 2025)相一致。 |
[32] 脑电图到文本翻译:解读人类大脑活动的模型 标题: EEG-to-Text Translation: A Model for Deciphering Human Brain Activity 作者: Saydul Akbar Murad / Ashim Dahal / Nick Rahimi 原文: [英文] 备注: None 摘要: 随着Gemini、GPT等大型语言模型的快速发展,弥合人脑与语言处理之间的差距已成为一个重要的研究领域。为了解决这一挑战,研究人员开发了各种模型来将脑电图(EEG)信号解码为文本。然而,这些模型仍然面临显著的性能限制。为克服这些不足,我们提出了一种新模型,R1 Translator,旨在提高EEG到文本解码的性能。R1 Translator模型结合了双向LSTM编码器和预训练的基于Transformer的解码器,利用EEG特征生成高质量的文本输出。该模型通过LSTM处理EEG嵌入以捕捉序列依赖性,然后将其输入到Transformer解码器中以实现有效的文本生成。R1 Translator在ROUGE指标上表现出色,优于T5(先前的研究)和Brain Translator。具体来说,R1在ROUGE-1得分中达到38.00%(P),比T5(34.89%)高出9%,比Brain(35.69%)高出3%。在ROUGE-L方面,其F1得分为32.51%,比T5(29.67%)高出3%,比Brain(30.38%)高出2%。在CER方面,R1的CER为0.5795,比T5(0.5917)低2%,比Brain(0.6001)低4%。此外,R1在WER方面表现更佳,得分为0.7280,比T5(0.7610)高出4.3%,比Brain(0.7553)高出3.6%。代码可在此https URL获取。 |
[33] 迈向无排练的持续关系抽取:通过自适应提示捕捉任务内差异 标题: Towards Rehearsal-Free Continual Relation Extraction: Capturing Within-Task Variance with Adaptive Prompting 作者: Bao-Ngoc Dao / Quang Nguyen / Luyen Ngo Dinh / Minh Le / Nam Le / Linh Ngo Van 原文: [英文] [中文] 备注: None 摘要: 基于记忆的方法在持续关系抽取(CRE)中表现出色。然而,存储来自先前任务的示例会增加内存使用并引发隐私问题。最近,基于提示的方法作为一种有前途的替代方案出现,因为它们不依赖于存储过去的样本。尽管取得了进展,当前基于提示的技术在CRE中面临几个核心挑战,特别是在准确识别任务身份和缓解灾难性遗忘方面。现有的提示选择策略往往存在不准确性,缺乏防止共享参数遗忘的强大机制,并且难以处理跨任务和任务内的变化。在本文中,我们提出了WAVE++,这是一种受前缀微调和专家混合连接启发的新方法。具体来说,我们引入了任务特定的提示池,以增强在不同任务中的灵活性和适应性,同时避免跨界风险;这种设计更有效地捕捉每个任务内和跨任务的变化。为了进一步优化关系分类,我们结合了标签描述,提供更丰富、更全局的上下文,使模型能够更好地区分不同的关系。我们还提出了一种无训练机制,以在推理期间改进任务预测。此外,我们整合了生成模型,以巩固共享参数中的先验知识,从而无需显式的数据存储。大量实验表明,WAVE++优于最先进的基于提示和基于复习的方法,为持续关系抽取提供了更强大的解决方案。我们的代码在此https URL公开可用。 |
[34] 以记忆为中心的具身问答 标题: Memory-Centric Embodied Question Answer 作者: Mingliang Zhai / Zhi Gao / Yuwei Wu / Yunde Jia 原文: [英文] [中文] 备注: 14pages, 7 figures, 6 tables 摘要: 具身问答(Embodied Question Answering, EQA)要求智能体自主探索和理解环境,以回答依赖于上下文的问题。现有的框架通常以规划器为中心,指导停止模块、记忆模块和回答模块进行推理。在本文中,我们提出了一种以记忆为中心的EQA框架,称为MemoryEQA。与记忆模块无法与其他模块充分交互的以规划器为中心的EQA模型不同,MemoryEQA灵活地将记忆信息输入到所有模块中,从而提高了处理复杂任务的效率和准确性,例如涉及跨不同区域的多个目标的任务。具体而言,我们建立了一种多模态分层记忆机制,分为存储语言增强场景地图的全局记忆和保留历史观察和状态信息的局部记忆。在执行EQA任务时,利用多模态大语言模型将记忆信息转换为所需的输入格式,以注入不同模块。为了评估EQA模型的记忆能力,我们基于HM3D构建了MT-HM3D数据集,包含1,587个涉及多个区域的多个目标的问题-答案对,要求智能体保持对探索获得的目标信息的记忆。在HM-EQA、MT-HM3D和OpenEQA上的实验结果证明了我们框架的有效性,其中在MT-HM3D上相比基线模型的19.8%的性能提升进一步强调了记忆能力在解决复杂任务中的关键作用。 |
[35] FlashThink: 一种用于高效推理的提前退出方法 标题: FlashThink: An Early Exit Method For Efficient Reasoning 作者: Guochao Jiang / Guofeng Quan / Zepeng Ding / Ziqin Luo / Dixuan Wang / Zheng Hu 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在推理任务中表现出色。然而,LLMs 往往会生成过长的推理内容,导致显著的计算开销。我们的观察表明,即使在简单问题上,LLMs 也倾向于产生不必要的冗长推理内容,这与直观预期相悖。初步实验表明,在生成过程中某个时刻,模型已经能够在不完成全部推理内容的情况下产生正确的解决方案。因此,我们认为模型的推理过程可以提前退出,以实现高效推理的目的。我们引入了一个验证模型,用于识别模型可以停止推理并仍然提供正确答案的确切时刻。在四个不同基准上的综合实验表明,我们提出的方法 FlashThink 能够有效缩短推理内容,同时保持模型的准确性。对于 Deepseek-R1 和 QwQ-32B 模型,我们分别将推理内容的长度减少了 77.04% 和 77.47%,而没有降低准确性。 |
[36] 透过压缩镜头:量化对大型语言模型可解释性和可理解性影响的研究 标题: Through a Compressed Lens: Investigating the Impact of Quantization on LLM Explainability and Interpretability 作者: Qianli Wang / Mingyang Wang / Nils Feldhus / Simon Ostermann / Yuan Cao / Hinrich Schütze / Sebastian Möller / Vera Schmitt 原文: [英文] [中文] 备注: In submission 摘要: 量化方法被广泛用于加速推理和简化大型语言模型(LLMs)的部署。尽管先前的研究广泛调查了量化对各种LLM能力的退化影响,但其对模型可解释性和可理解性的影响——这对于理解决策过程至关重要——仍未被探索。为了解决这一空白,我们结合两种可解释性方法(反事实示例和自然语言解释)以及两种可理解性方法(知识记忆分析和潜在多跳推理分析),在不同的位宽下使用三种常见的量化技术进行了全面实验。我们还通过详尽的用户研究来补充我们的分析,评估选定的可解释性方法。我们的研究结果表明,根据配置的不同,量化可以显著影响模型的可解释性和可理解性。值得注意的是,这种影响的方向并不一致,因为它强烈依赖于(1)量化方法,(2)可解释性或可理解性方法,以及(3)评估协议。在某些设置中,人类评估显示量化降低了可解释性,而在其他情况下,它甚至带来了改进。我们的工作作为一个警示故事,表明量化可以不可预测地影响模型透明性。这一见解对于在透明性是关键要求的应用中部署LLMs具有重要意义。 |
[37] CAFES:一种用于多粒度多模态作文评分的协作多智能体框架 标题: CAFES: A Collaborative Multi-Agent Framework for Multi-Granular Multimodal Essay Scoring 作者: Jiamin Su / Yibo Yan / Zhuoran Gao / Han Zhang / Xiang Liu / Xuming Hu 原文: [英文] [中文] 备注: arXiv admin note: substantial text overlap with arXiv:2502.11916 摘要: 自动化作文评分(AES)对于现代教育至关重要,尤其是在多模态评估日益普及的情况下。然而,传统的AES方法在评估的普遍性和多模态感知方面存在困难,即使是最近基于多模态大型语言模型(MLLM)的方法也可能产生虚假的理由和与人类判断不一致的评分。为了解决这些限制,我们引入了CAFES,这是第一个专门为AES设计的协作多代理框架。它协调了三个专业代理:一个用于快速、特定特征评估的初始评分员;一个反馈池管理器,用于汇总详细的、基于证据的优势;以及一个反思评分员,基于这些反馈迭代地优化评分以增强与人类的对齐。使用最先进的MLLM进行的广泛实验,在与真实值的二次加权卡帕(QWK)中实现了平均相对提高21%,特别是在语法和词汇多样性方面。我们提出的CAFES框架为智能多模态AES系统铺平了道路。代码将在接受后发布。 |
[38] 真相还是扭曲?基于大型语言模型的反事实中可靠标签翻转评估的最优模型选择 标题: Truth or Twist? Optimal Model Selection for Reliable Label Flipping Evaluation in LLM-based Counterfactuals 作者: Qianli Wang / Van Bach Nguyen / Nils Feldhus / Luis Felipe Villa-Arenas / Christin Seifert / Sebastian Möller / Vera Schmitt 原文: [英文] [中文] 备注: in submission 摘要: 反事实示例被广泛用于通过反事实数据增强(CDA)来提升大型语言模型(LLMs)的性能和鲁棒性。然而,用于评估标签翻转的评判模型的选择,即评估为CDA生成的反事实有效性的主要指标,产生了不一致的结果。为了解释这一点,我们定义了反事实生成器和评判模型之间的四种关系。通过涉及两种最先进的基于LLM的方法、三个数据集、五个生成器模型和15个评判模型的大量实验,并辅以用户研究(n = 90),我们证明了与生成器模型独立且未经过微调的评判模型提供了最可靠的标签翻转评估。生成器和评判模型之间的关系与用户研究对CDA的结果密切相关,从而导致更好的模型性能和鲁棒性。然而,我们发现最有效的评判模型与用户研究结果之间的差距仍然相当大。这表明完全自动化的CDA流程可能不够充分,需要人工干预。 |
[39] 面向视觉语言模型中医疗问答的有效强化学习微调 标题: Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models 作者: Wenhui Zhu / Xuanzhao Dong / Xin Li / Peijie Qiu / Xiwen Chen / Abolfazl Razi / Aris Sotiras / Yi Su / Yalin Wang 原文: [英文] [中文] 备注: None 摘要: 最近,基于强化学习(RL)的调优改变了多模态大型语言模型(MLLMs)的发展轨迹,特别是在引入群体相对策略优化(GRPO)之后。然而,直接将其应用于医学任务仍然具有挑战性,因为要实现临床上有依据的模型行为。为了使模型响应与临床期望保持一致,我们研究了影响基于RL的医学视觉问答(VQA)调优效果的四个关键维度:基础模型初始化策略、医学语义对齐的作用、基于长度的奖励对长链推理的影响,以及偏差的影响。我们进行了广泛的实验来分析这些因素对医学MLLMs的影响,提供了关于如何在特定领域微调模型的新见解。此外,我们的结果还表明,基于GRPO的RL调优在准确性和推理质量上始终优于标准的监督微调(SFT)。 |
[40] DRP:通过技能感知步骤分解进行蒸馏推理剪枝以提高大型推理模型的效率 标题: DRP: Distilled Reasoning Pruning with Skill-aware Step Decomposition for Efficient Large Reasoning Models 作者: Yuxuan Jiang / Dawei Li / Frank Ferraro 原文: [英文] [中文] 备注: None 摘要: 尽管大型推理模型(LRMs)通过长链式思维(CoT)推理在复杂推理任务中取得了成功,但其推理过程往往涉及过于冗长的推理轨迹,导致效率大幅降低。为了解决这个问题,我们提出了蒸馏推理剪枝(DRP),这是一种结合推理时剪枝和基于调优的蒸馏的混合框架,这两种策略广泛用于提高推理效率。DRP使用教师模型进行技能感知的步骤分解和内容剪枝,然后将剪枝后的推理路径蒸馏到学生模型中,使其能够既高效又准确地进行推理。在多个具有挑战性的数学推理数据集上,我们发现使用DRP训练的模型在不牺牲准确性的情况下显著提高了令牌效率。具体来说,DRP将GSM8K上的平均令牌使用量从917减少到328,同时将准确率从91.7%提高到94.1%,并在AIME上实现了43%的令牌减少而性能没有下降。进一步分析表明,将训练CoTs的推理结构与学生的推理能力对齐对于有效的知识转移和性能提升至关重要。 |
[41] 混合信号:理解多模态共情检测中的模型分歧 标题: Mixed Signals: Understanding Model Disagreement in Multimodal Empathy Detection 作者: Maya Srikanth / Run Chen / Julia Hirschberg 原文: [英文] [中文] 备注: None 摘要: 多模态模型在共情检测中起着关键作用,但当不同模态提供相互矛盾的线索时,其性能可能会受到影响。为了理解这些失败,我们研究了单模态和多模态预测出现分歧的情况。通过使用针对文本、音频和视频的微调模型以及一个门控融合模型,我们发现这些分歧通常反映了潜在的模糊性,这可以从标注者的不确定性中得到证明。我们的分析表明,当一个模态中的主导信号没有得到其他模态的支持时,可能会误导融合过程。我们还观察到,人类和模型一样,并不总是能从多模态输入中受益。这些见解将分歧定位为识别具有挑战性的例子和提高共情系统稳健性的有用诊断信号。 |
[42] 强化微调的幻觉代价 标题: The Hallucination Tax of Reinforcement Finetuning 作者: Linxin Song / Taiwei Shi / Jieyu Zhao 原文: [英文] [中文] 备注: None 摘要: 强化微调(RFT)已成为增强大型语言模型(LLMs)推理能力的标准方法。然而,其对模型可信度的影响仍未被充分探索。在这项工作中,我们识别并系统性地研究了RFT的一个关键副作用,我们称之为幻觉税:即拒绝行为的退化,导致模型对无法回答的问题自信地生成幻觉答案。为此,我们引入了SUM(Synthetic Unanswerable Math),这是一个高质量的无法回答的数学问题数据集,旨在探测模型通过从不充分或模糊的信息中推理来识别无法回答问题的能力。我们的结果表明,标准的RFT训练可能会将模型的拒绝率降低超过80%,这显著增加了模型产生幻觉的倾向。我们进一步证明,在RFT过程中仅加入10%的SUM数据,可以在可解任务的准确性损失最小的情况下,大幅恢复适当的拒绝行为。关键是,这种方法使LLMs能够利用推理时的计算能力来推断自身的不确定性和知识边界,从而不仅改善对域外数学问题的泛化能力,还提高对事实性问答任务的表现。 |
[43] DecIF:通过元分解提升指令遵循能力 标题: DecIF: Improving Instruction-Following through Meta-Decomposition 作者: Tingfeng Hui / Pengyu Zhu / Bowen Ping / Ling Tang / Yaqi Zhang / Sen Su 原文: [英文] [中文] 备注: Work in progress 摘要: 指令跟随能力已成为大型语言模型(LLMs)的一个关键能力。然而,现有的方法通常依赖于预先存在的文档或外部资源来合成指令跟随数据,这限制了它们的灵活性和普适性。在本文中,我们介绍了DecIF,这是一种完全自主的、由元分解引导的框架,仅使用LLMs生成多样且高质量的指令跟随数据。DecIF基于分解的原则。在指令生成方面,我们引导LLMs迭代地产生各种类型的元信息,然后将其与响应约束结合,形成结构良好且语义丰富的指令。我们进一步利用LLMs检测并解决生成指令中的潜在不一致性。在响应生成方面,我们将每个指令分解为原子级的评估标准,从而实现严格的验证并消除不准确的指令-响应对。广泛的实验涵盖了各种场景和设置,展示了DecIF在指令跟随任务中的卓越表现。进一步的分析突出了其在自动合成高质量指令数据方面的强大灵活性、可扩展性和普适性。 |
[44] 社交谄媚:对大型语言模型谄媚行为的更广泛理解 标题: Social Sycophancy: A Broader Understanding of LLM Sycophancy 作者: Myra Cheng / Sunny Yu / Cinoo Lee / Pranav Khadpe / Lujain Ibrahim / Dan Jurafsky 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)面临的一个严重风险是谄媚,即对用户的过度赞同和奉承。然而,现有的研究仅关注谄媚的一个方面:对用户明确表达的、可以与真实情况进行比较的信念的赞同。这忽视了在模糊情境中出现的谄媚形式,例如在寻求建议和支持时,这些情境中没有明确的真实情况,但谄媚可能会强化有害的隐含假设、信念或行为。为了解决这一问题,我们引入了一个更丰富的LLMs社交谄媚理论,将谄媚描述为对用户面子(一个人在互动中希望维持的积极自我形象)的过度维护。我们提出了ELEPHANT,一个用于评估社交谄媚的框架,涵盖五种面子维护行为(情感验证、道德认可、间接语言、间接行为和接受框架),并在两个数据集上进行评估:开放式问题(OEQ)和Reddit的r/AmITheAsshole(AITA)。在八个模型中,我们展示了LLMs始终表现出高比例的社交谄媚:在OEQ上,它们比人类多维护47%的面子,而在AITA上,它们在42%的情况下肯定了被众包人类判断为不当的行为。我们进一步表明,社交谄媚在偏好数据集中得到了奖励,并且不易被减轻。我们的工作为理解和解决这一未被充分认识但具有重要影响的问题提供了理论基础和实证工具(数据集和代码)。 |
[45] 用于大型语言模型的激活引导共识合并 标题: Activation-Guided Consensus Merging for Large Language Models 作者: Yuxuan Yao / Shuqi Liu / Zehua Liu / Qintong Li / Mingyang Liu / Xiongwei Han / Zhijiang Guo / Han Wu / Linqi Song 原文: [英文] [中文] 备注: None 摘要: 近年来的研究越来越关注如何将系统2的推理能力与系统1的效率相结合。尽管现有的基于训练和提示的方法在效率和稳定性方面面临重大挑战,模型合并作为一种有前途的策略,能够将不同大型语言模型(LLMs)的多样化能力整合到一个统一的模型中。然而,传统的模型合并方法通常假设各层的重要性是均匀的,忽视了神经网络组件中固有的功能异质性。为了解决这一限制,我们提出了\textbf{激活引导的共识合并}(\textbf{ACM}),这是一种即插即用的合并框架,它基于预训练和微调模型的激活之间的互信息来确定层特定的合并系数。ACM能够有效地保留任务特定的能力,而无需梯度计算或额外的训练。在长到短(L2S)和一般合并任务上的大量实验表明,ACM始终优于所有基线方法。例如,在Qwen-7B模型的情况下,配备ACM的TIES-Merging在减少响应长度方面实现了\textbf{55.3\%}的减少,同时推理准确性提高了\textbf{1.3}个点。我们随论文提交了代码以便重现,并将公开提供。 |
[46] 自动法律:通过案例法生成和启发自陪审团的审议来增强大型语言模型的法律合规性 标题: AUTOLAW: Enhancing Legal Compliance in Large Language Models via Case Law Generation and Jury-Inspired Deliberation 作者: Tai D. Nguyen / Long H. Pham / Jun Sun 原文: [英文] [中文] 备注: None 摘要: 领域特定的大型语言模型(LLMs)在法律等领域的快速发展,需要建立能够考虑细微地区法律差异的框架,这对于确保合规性和可信度至关重要。现有的法律评估基准往往缺乏适应性,未能解决多样化的地方背景问题,限制了它们在动态变化的监管环境中的实用性。为了解决这些问题,我们提出了AutoLaw,这是一种新颖的违规检测框架,结合了对抗性数据生成和受陪审团启发的审议过程,以增强LLMs的法律合规性。与静态方法不同,AutoLaw动态合成判例法以反映当地法规,并使用基于LLM的“陪审员”池来模拟司法决策。陪审员根据合成的法律专业知识进行排名和选择,从而实现一个最小化偏见并提高检测准确性的审议过程。在三个基准:Law-SG、Case-SG(合法性)和Unfair-TOS(政策)上的评估表明,AutoLaw的有效性:对抗性数据生成提高了LLM的区分能力,而基于陪审团的投票策略显著提升了违规检测率。我们的结果突出了该框架在适应性探测法律不一致性和提供可靠、上下文感知的判断方面的能力,为在法律敏感应用中评估和增强LLMs提供了一个可扩展的解决方案。 |
[47] 从未对齐到对齐:利用多向平行语料库扩展多语言大型语言模型 标题: From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora 作者: Yingli Shen / Wen Lai / Shuo Wang / Kangyang Luo / Alexander Fraser / Maosong Sun 原文: [英文] [中文] 备注: None 摘要: 在大规模多语言数据上进行持续预训练和指令微调已被证明在将大型语言模型(LLMs)扩展到低资源语言方面是有效的。然而,这类数据的不对齐特性限制了其有效捕捉跨语言语义的能力。相比之下,多向平行数据中相同内容在多种语言中对齐,提供了更强的跨语言一致性,并在提升多语言性能方面具有更大的潜力。在本文中,我们介绍了一个基于TED演讲的大规模高质量多向平行语料库TED2025。该语料库涵盖113种语言,最多可实现50种语言的平行对齐,确保了广泛的多语言覆盖。利用这一数据集,我们研究了利用多向平行数据增强LLMs的最佳实践,包括持续预训练、指令微调的策略以及关键影响因素的分析。在六个多语言基准上的实验表明,基于多向平行数据训练的模型始终优于基于不对齐多语言数据训练的模型。 |
[48] 改进的模型剪枝和知识蒸馏方法 标题: Improved Methods for Model Pruning and Knowledge Distillation 作者: Wei Jiang / Anying Fu / Youling Zhang 原文: [英文] [中文] 备注: None 摘要: 模型剪枝是一种针对大型语言模型(如R1或o3-mini)的性能优化技术。然而,现有的剪枝方法通常会导致显著的性能下降,或者需要大量的再训练和微调。该技术旨在识别并移除在人机交互阶段不太可能做出贡献的神经元和连接。我们的目标是获得一个更小更快的知识蒸馏模型,该模型能够快速生成几乎与未剪枝模型一样好的内容。我们提出了MAMA剪枝法,即运动和幅度分析的缩写,这是一种改进的剪枝方法,可以有效地减少模型大小和计算复杂性,同时在极端剪枝水平下保持与原始未剪枝模型相当的性能。改进的方法基于在预训练阶段固定的权重和偏差,以及在后训练阶段验证的GRPO奖励,作为我们新颖的剪枝指标。初步实验结果表明,我们的方法在各种剪枝水平和不同的下游计算语言学任务中优于并可与最先进的方法相媲美。 |
[49] 通过高知识数据选择增强大型语言模型 标题: Enhancing LLMs via High-Knowledge Data Selection 作者: Feiyu Duan / Xuemiao Zhang / Sirui Wang / Haoran Que / Yuqi Liu / Wenge Rong / Xunliang Cai 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的性能与其训练数据的质量密切相关。尽管已有多项研究提出了高质量数据选择的方法,但它们并未考虑文本语料库中知识丰富度的重要性。在本文中,我们提出了一种新颖且无梯度的高知识评分器(HKS),以从知识维度选择高质量数据,从而缓解预训练语料库中知识匮乏的问题。我们提出了一个全面的多领域知识元素库,并引入知识密度和覆盖率作为评估文本知识内容的指标。在此基础上,我们提出了一种综合知识评分器,以选择具有丰富知识的数据,这也可以通过将知识元素限制在特定领域来用于领域特定的高知识数据选择。我们在一个高知识双语数据集上训练模型,实验结果表明,我们的评分器在知识密集型和一般理解任务中提高了模型的性能,并有效增强了模型的通用和领域特定能力。 |
[50] BAR:一种基于逆向推理的代理,用于复杂的《我的世界》任务 标题: BAR: A Backward Reasoning based Agent for Complex Minecraft Tasks 作者: Weihong Du / Wenrui Liao / Binyu Yan / Hongru Liang / Anthony G. Cohn / Wenqiang Lei 原文: [英文] [中文] 备注: None 摘要: 基于大型语言模型(LLM)的智能体在遵循人类指令和自动完成各种任务方面展现了巨大潜力。为了完成一项任务,智能体需要通过规划将其分解为易于执行的步骤。现有研究主要通过推断从智能体的初始状态开始应该执行哪些步骤来进行规划。然而,这种前向推理范式在处理复杂任务时效果不佳。我们建议在Minecraft这一基于现实场景模拟复杂任务的虚拟环境中研究这一问题。我们认为,前向推理的失败是由于智能体的初始状态与任务目标之间存在较大的感知差距。为此,我们利用逆向推理,从终端状态开始进行规划,这可以在一步中直接实现任务目标。具体而言,我们设计了一种基于逆向推理的智能体(BAR)。它配备了递归目标分解模块、状态一致性维护模块和阶段记忆模块,以从终端状态开始进行稳健、一致且高效的规划。实验结果表明,BAR优于现有方法,并验证了所提模块的有效性。 |
[51] 语言模型中的性别困境:由性别表演理论指导的实证审计 标题: Gender Trouble in Language Models: An Empirical Audit Guided by Gender Performativity Theory 作者: Franziska Sofia Hafner / Ana Valdivia / Luc Rocher 原文: [英文] [中文] 备注: None 摘要: 语言模型编码并随后延续了有害的性别刻板印象。研究已经在减轻这些危害方面取得了一些成功,例如通过将职业等非性别化术语与“女性”和“男性”等性别化术语分离。然而,这种方法仍然是表面的,因为关联只是性别化危害产生的偏见形式之一。关于性别的批判性学术研究,如性别表演理论,强调危害往往源于性别本身的构建,例如将性别与生物性别混为一谈。在语言模型中,这些问题可能导致跨性别和性别多样性身份的消失,并在下游应用中造成危害,从错误性别化用户到基于对其解剖结构的错误假设误诊患者。为了使FAccT关于性别化危害的研究超越表面的语言关联,我们倡导在语言模型中对“性别偏见”进行更广泛的定义。我们从性别研究文献中操作化了关于通过语言构建性别的见解,然后实证测试了16种不同架构、训练数据集和模型大小的语言模型如何编码性别。我们发现,语言模型倾向于将性别编码为与生物性别相关的二元类别,而不完全符合这些二元类别的性别化术语被抹去和病理化。最后,我们展示了在性能基准上取得更好结果的大型模型学习了性别与性别之间更强的关联,进一步强化了对性别的狭隘理解。我们的研究结果促使我们呼吁重新评估语言模型中性别化危害的定义和解决方式。 |
[52] 超越链条:在复杂问答中连接大型语言模型与知识库 标题: Beyond Chains: Bridging Large Language Models and Knowledge Bases in Complex Question Answering 作者: Yihua Zhu / Qianying Liu / Akiko Aizawa / Hidetoshi Shimodaira 原文: [英文] 备注: None 摘要: 知识库问答(KBQA)旨在利用知识库中的结构化知识回答自然语言问题。虽然仅依赖大型语言模型(LLM)的方法具有泛化能力,但它们存在知识过时、幻觉和缺乏透明度的问题。基于链的KG-RAG方法通过引入外部知识库解决了这些问题,但由于缺乏规划和逻辑结构,仅限于简单的链式结构问题。受语义解析方法的启发,我们提出了PDRR:一个由预测、分解、检索和推理四个阶段组成的框架。我们的方法首先预测问题类型并将问题分解为结构化的三元组。然后从知识库中检索相关信息,并引导LLM作为代理对分解的三元组进行推理和补全。实验结果表明,PDRR在各种LLM基础上始终优于现有方法,并在链式结构和非链复杂问题上均取得了卓越的性能。 |
[53] MultiHal:用于知识图谱支持的大型语言模型幻觉评估的多语言数据集 标题: MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations 作者: Ernests Lavrinovics / Russa Biswas / Katja Hose / Johannes Bjerva 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在忠实性和事实性方面存在固有的局限性,通常被称为幻觉。已经开发了几种基准测试,为以英语为中心的数据集提供事实性评估的测试平台,这些测试依赖于补充的信息上下文,如网页链接或文本段落,但忽略了可用的结构化事实资源。为此,知识图谱(KGs)被认为是减轻幻觉的有用工具,因为它们以结构化的方式表示实体及其关系的事实,语言负担最小。我们弥补了现有幻觉评估基准中缺乏知识图谱路径和多语言性的不足,并提出了一个基于知识图谱的多语言、多跳基准,称为\textbf{MultiHal},用于生成文本评估。作为我们数据收集流程的一部分,我们从开放域知识图谱中挖掘了14万条知识图谱路径,并从中修剪出噪声路径,整理出一个高质量的2.59万条子集。我们的基线评估显示,在多个语言和多个模型中,KG-RAG的语义相似性得分相较于普通问答提高了约0.12到0.36分,展示了知识图谱集成的潜力。我们预计MultiHal将促进未来在多个基于图的幻觉减轻和事实核查任务方面的研究。 |
[54] 法律规则归纳:从类比司法判例中发现可推广的原则 标题: Legal Rule Induction: Towards Generalizable Principle Discovery from Analogous Judicial Precedents 作者: Wei Fan / Tianshi Zheng / Yiran Hu / Zheye Deng / Weiqi Wang / Baixuan Xu / Chunyang Li / Haoran Li / Weixing Shen / Yangqiu Song 原文: [英文] [中文] 备注: Under Review 摘要: 法律规则不仅包括成文法规,还包括从包含自由裁量规范、社会道德和政策的判例中推导出的隐含裁决原则。尽管计算法律研究在将既定规则应用于案件方面取得了进展,但从司法判决中归纳法律规则仍然研究不足,受到模型推理效率和符号推理能力的限制。大型语言模型(LLMs)的出现为自动提取这些潜在原则提供了前所未有的机会,但由于缺乏正式的任务定义、基准数据集和方法,进展受阻。为了解决这一差距,我们将法律规则归纳(LRI)形式化为从类似判例集中推导简洁、可推广的理论规则的任务,提炼它们的共同前提、规范行为和法律后果。我们引入了第一个LRI基准,包括5,121个案例集(总计38,088个中国案例)用于模型调优和216个专家注释的黄金测试集。实验结果表明:1)最先进的LLMs在过度泛化和幻觉方面存在困难;2)在我们的数据集上进行训练显著增强了LLMs在捕捉类似案件中的细微规则模式方面的能力。 |
[55] 个性化对话基准:迈向模拟个性化对话 标题: A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations 作者: Li Li / Peilin Cai / Ryan A. Rossi / Franck Dernoncourt / Branislav Kveton / Junda Wu / Tong Yu / Linxin Song / Tiankai Yang / Yuehan Qin / Nesreen K. Ahmed / Samyadeep Basu / Subhojyoti Mukherjee / Ruiyi Zhang / Zhengmian Hu / Bo Ni / Yuxiao Zhou / Zichao Wang / Yue Huang / Yu Wang / Xiangliang Zhang / Philip S. Yu / Xiyang Hu / Yue Zhao 原文: [英文] [中文] 备注: None 摘要: 我们介绍了PersonaConvBench,这是一个用于评估大型语言模型(LLMs)在多轮对话中进行个性化推理和生成的大规模基准。与现有的仅关注个性化或对话结构的工作不同,PersonaConvBench将两者结合,提供三个核心任务:句子分类、影响回归和以用户为中心的文本生成,涵盖十个不同的基于Reddit的领域。此设计使得能够系统地分析个性化对话上下文如何在现实的多用户场景中影响LLM的输出。我们在统一的提示设置下对多个商业和开源的LLM进行了基准测试,观察到结合个性化历史记录可以显著提高性能,包括在情感分类中相对于最佳非对话基线的198%的相对增益。通过发布包含评估和代码的PersonaConvBench,我们旨在支持对适应个人风格、跟踪长期上下文并生成具有丰富上下文和吸引力的响应的LLM的研究。 |
[56] DiagnosisArena:用于大型语言模型的诊断推理基准 标题: DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models 作者: Yakun Zhu / Zhongzhen Huang / Linjie Mu / Yutong Huang / Wei Nie / Shaoting Zhang / Pengfei Liu / Xiaofan Zhang 原文: [英文] [中文] 备注: None 摘要: 能够执行复杂推理任务的突破性大型语言模型的出现,为解决包括复杂临床情境在内的各种科学挑战带来了重大希望。为了在现实世界的医疗环境中安全有效地部署这些模型,系统地评估当前模型的诊断能力是迫切需要的。鉴于现有医学基准在评估高级诊断推理方面的局限性,我们提出了DiagnosisArena,这是一个全面且具有挑战性的基准,旨在严格评估专业级别的诊断能力。DiagnosisArena由1,113对分段的患者病例和相应的诊断组成,涵盖28个医学专业,来源于10本顶级医学期刊发表的临床病例报告。该基准通过一个细致的构建流程开发,涉及AI系统和人类专家的多轮筛选和审查,并进行了彻底的检查以防止数据泄漏。我们的研究表明,即使是最先进的推理模型,o3-mini、o1和DeepSeek-R1,其准确率也仅为45.82%、31.09%和17.79%。这一发现突显了当前大型语言模型在面对临床诊断推理挑战时的显著泛化瓶颈。通过DiagnosisArena,我们旨在推动AI诊断推理能力的进一步进步,从而为现实世界的临床诊断挑战提供更有效的解决方案。我们提供了基准和评估工具以供进一步研究和开发。 |
[57] 隐形熵:迈向安全高效的低熵大语言模型水印 标题: Invisible Entropy: Towards Safe and Efficient Low-Entropy LLM Watermarking 作者: Tianle Gu / Zongqi Wang / Kexin Huang / Yuanqi Yao / Xiangliang Zhang / Yujiu Yang / Xiuying Chen 原文: [英文] 备注: None 摘要: 基于Logit的LLM水印通过维护绿色和红色标记列表并在生成过程中增加绿色标记的可能性来追踪和验证AI生成的内容。然而,它在低熵场景中表现不佳,因为可预测的输出使得在不破坏自然文本流的情况下选择绿色标记变得困难。现有方法通过假设可以访问原始LLM来计算熵并选择性地对高熵标记进行水印来解决这一问题。然而,这些方法面临两个主要挑战:(1)由于依赖于原始LLM,导致高计算成本和检测延迟,以及(2)模型泄漏的潜在风险。为了解决这些限制,我们提出了Invisible Entropy (IE),一种旨在提高安全性和效率的水印范式。IE不依赖于原始LLM,而是引入了一个轻量级特征提取器和熵标记器来预测下一个标记的熵是高还是低。此外,基于理论分析,我们开发了一个阈值导航器,可以自适应地设置熵阈值。它识别出一个阈值,在该阈值下,随着绿色标记数量的增加,水印比例下降,从而增强水印文本的自然性并提高检测的鲁棒性。在HumanEval和MBPP数据集上的实验表明,IE在参数大小上减少了99%,同时实现了与最先进方法相当的性能。我们的工作为低熵水印引入了一种安全且高效的范式。 |
[58] 自我推理语言模型:通过少量推理催化剂展开隐藏的推理链 标题: Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst 作者: Hongru Wang / Deng Cai / Wanjun Zhong / Shijue Huang / Jeff Z. Pan / Zeming Liu / Kam-Fai Wong 原文: [英文] [中文] 备注: None 摘要: 推理时扩展引起了广泛关注,通过增加思维链的长度显著提升了大型语言模型(LLMs)在复杂推理任务中的表现。这些较长的中间推理理由体现了人类认知中的各种元推理技能,如反思和分解,这些技能难以创造和获取。在这项工作中,我们引入了\textit{自我推理语言模型}(SRLM),该模型本身可以合成更长的思维链数据,并通过自我训练迭代地提高性能。通过结合一些示例(即1,000个样本),展示如何从现有响应中展开隐藏的推理链,作为推理催化剂,我们证明了SRLM不仅提升了模型的初始性能,还确保了在后续迭代中更稳定和一致的改进。我们提出的SRLM在五个推理任务中实现了平均绝对提升超过$+2.5$分:MMLU、GSM8K、ARC-C、HellaSwag和BBH,在两个基础模型上。此外,它在推理过程中通过更多次采样带来了更多的改进,例如在$64$次采样时实现了绝对$+7.89$的平均提升,揭示了SRLM中深入、多样和创造性的推理路径,相较于强大的基线。 |
[59] 探测BERT对德语复合词语义的理解 标题: Probing BERT for German Compound Semantics 作者: Filip Miletić / Aaron Schmid / Sabine Schulte im Walde 原文: [英文] [中文] 备注: Accepted to SwissText 2025 摘要: 本文研究了预训练的德语BERT在多大程度上编码了名词复合词语义的知识。我们全面地改变了目标词、层数以及区分大小写与不区分大小写模型的组合,并通过预测868个黄金标准复合词的组合性来评估它们。观察变压器架构中的表示模式,我们发现与之前关于英语的类似研究相当的趋势,其中组合性信息在早期层中最容易恢复。然而,我们最强的结果明显落后于英语的报告结果,这表明在德语中这是一项更具挑战性的任务。这可能是由于德语中复合词的生产力高于英语,并且与之相关的成分级别歧义增加,包括在我们的目标复合词集中。 |
[60] 文本还是图像?关于输入表示和模型在表格问答中有效性的细粒度分析 标题: Texts or Images? A Fine-grained Analysis on the Effectiveness of Input Representations and Models for Table Question Answering 作者: Wei Zhou / Mohsen Mesgar / Heike Adel / Annemarie Friedrich 原文: [英文] [中文] 备注: Accepted at ACL25 (Findings) 摘要: 在表格问答(TQA)中,表格被编码为文本或图像。先前的研究表明,将表格图像输入多模态大型语言模型(MLLMs)与使用文本输入的大型语言模型(LLMs)相比,表现相当甚至更好。然而,由于缺乏对照设置,限制了对这些方法之间细微差别的区分。在本文中,我们首次从问题复杂性和表格大小两个角度,对多种表格表示和模型组合的有效性进行了对照研究。我们基于现有的TQA数据集构建了一个新的基准。在对七对MLLMs和LLMs的系统分析中,我们发现最佳的表格表示和模型组合因设置而异。我们提出了一种动态选择表格表示的方法FRES,观察到与不加区分地使用两种表示相比,平均性能提高了10%。 |
[61] 利用章节结构信息提升学术文章的关键词提取 标题: Enhancing Keyphrase Extraction from Academic Articles Using Section Structure Information 作者: Chengzhi Zhang / Xinyi Yan / Lei Zhao / Yingyi Zhang 原文: [英文] 备注: None 摘要: 学术论文数量的指数级增长显著增加了研究人员获取相关文献所需的时间。关键词提取(KPE)通过使研究人员能够高效检索相关文献,为这一情况提供了解决方案。目前关于从学术文章中进行KPE的研究,旨在通过使用标题和摘要作为输入语料的创新方法来提高提取模型的性能。然而,关键词的语义丰富性受到摘要长度的显著限制。虽然基于全文的KPE可以解决这个问题,但它同时引入了噪声,显著降低了KPE的性能。为了解决这个问题,本文利用从学术文章的章节结构信息中获得的结构特征和章节文本来从学术论文中提取关键词。该方法包括两个主要部分:(1)探索七种结构特征对KPE模型的影响,以及(2)通过关键词整合算法整合所有章节文本作为KPE模型输入语料的提取结果,以获得关键词整合结果。此外,本文还研究了章节结构的分类质量对KPE性能的影响。结果表明,结合结构特征可以提高KPE性能,尽管不同特征对模型效能的影响各异。关键词整合方法产生了最佳性能,章节结构的分类质量会影响KPE性能。这些发现表明,使用学术文章的章节结构信息有助于从学术文章中有效地进行KPE。支持本研究的代码和数据集可在此https URL获得。 |
[62] 强化微调的先验提示工程 标题: Prior Prompt Engineering for Reinforcement Fine-Tuning 作者: Pittawat Taveekitworachai / Potsawee Manakul / Sarana Nutanong / Kunat Pipatanakul 原文: [英文] [中文] 备注: 25 pages, 42 figures 摘要: 本文研究了在强化微调(RFT)背景下的先验提示工程(pPE),其中语言模型(LMs)通过奖励信号被激励以表现出最大化性能的行为。尽管现有的RFT研究主要集中在算法、奖励塑造和数据策划上,但在训练期间附加在查询前的先验提示的设计——例如逐步推理的指令——仍然未被充分探索。我们研究了不同的pPE方法是否可以在RFT后引导LMs内化不同的行为。受推理时提示工程(iPE)的启发,我们将五种具有代表性的iPE策略——推理、规划、基于代码的推理、知识回忆和空示例利用——转化为相应的pPE方法。我们使用Qwen2.5-7B进行每种pPE方法的实验,然后在域内和域外基准(例如,AIME2024、HumanEval+和GPQA-Diamond)上评估性能。我们的结果表明,所有pPE训练的模型都超过了其iPE提示的对应模型,其中空示例pPE方法实现了最大的平均性能提升,并在AIME2024和GPQA-Diamond上取得了最高的改进,超过了常用的推理方法。此外,通过适应行为分类框架,我们证明了不同的pPE策略在生成的模型中灌输了不同的行为风格。这些发现将pPE定位为RFT中一个强大但未被充分研究的方向。 |
[63] 使用激活工程对时间敏感事实进行时间对齐 标题: Temporal Alignment of Time Sensitive Facts with Activation Engineering 作者: Sanjay Govindan / Maurice Pagnucco / Yang Song 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在多个领域和时间段上训练,涉及多样且常常相互矛盾的知识。其中一些知识仅在特定的时间背景下有效,例如回答“2022年美国总统是谁?”确保LLMs生成符合时间的响应对于保持相关性和准确性至关重要。在这项工作中,我们探索了激活工程作为一种方法,以在不进行任何训练或数据集创建的情况下,时间上对齐LLMs以改善事实回忆。在这项研究中,我们探索了一种激活工程技术,将三个版本的LLaMA 2锚定到特定的时间点,并检查不同注入层和提示策略的效果。我们的实验表明,在相对和显式提示中分别提高了高达44%和16%的性能,达到了与Zhao等人(2024)提出的微调方法相当的表现。值得注意的是,我们的方法在实现类似结果的同时,显著提高了计算效率,并且不需要预先对齐的数据集。 |
[64] 打破语言障碍还是强化偏见?多语言对比视觉语言模型中的性别和种族差异研究 标题: Breaking Language Barriers or Reinforcing Bias? A Study of Gender and Racial Disparities in Multilingual Contrastive Vision Language Models 作者: Zahraa Al Sahili / Ioannis Patras / Matthew Purver 原文: [英文] [中文] 备注: None 摘要: 多语言视觉-语言模型承诺实现通用的图像-文本检索,但其社会偏见仍未得到充分探索。我们首次对三个公共多语言CLIP检查点——M-CLIP、NLLB-CLIP和CAPIVARA-CLIP——进行了系统审计,涵盖了资源可用性和语法性别各异的十种语言。在零样本设置中,使用\textsc{FairFace}的平衡子集和\textsc{PATA}刻板印象套件,我们量化了种族和性别偏见并测量了刻板印象的放大。与多语言性减轻偏见的假设相反,每个模型都表现出比其仅限英语的基线更强的性别偏见。CAPIVARA-CLIP在其目标的低资源语言中表现出最大的偏见,而NLLB-CLIP的共享跨语言编码器将英语性别刻板印象转移到性别中立的语言中;松散耦合的编码器在很大程度上避免了这种转移。高度性别化的语言一致地放大了所有测量的偏见类型,但即使是性别中立的语言在跨语言权重共享引入外来刻板印象时仍然容易受到影响。聚合指标掩盖了特定语言的“热点”,强调了在未来的多语言视觉-语言研究中进行细粒度、语言意识的偏见评估的必要性。 |
[65] PL-FGSA:基于MindSpore的细粒度情感分析提示学习框架 标题: PL-FGSA: A Prompt Learning Framework for Fine-Grained Sentiment Analysis Based on MindSpore 作者: Zhenkai Qin / Jiajing He / Qiao Fang 原文: [英文] [中文] 备注: None 摘要: 细粒度情感分析(FGSA)旨在识别文本中特定方面的情感倾向,从而在产品评论和社交媒体等领域实现更精确的意见挖掘。然而,传统的FGSA方法通常需要特定任务的架构和大量标注数据,限制了其泛化能力和可扩展性。为了解决这些挑战,我们提出了PL-FGSA,这是一种基于提示学习的统一框架,使用MindSpore平台实现,将提示设计与轻量级的TextCNN骨干网络相结合。我们的方法将FGSA重新表述为一个多任务提示增强生成问题,在统一的范式下共同处理方面提取、情感分类和因果解释。通过利用基于提示的指导,PL-FGSA提高了解释性,并在全数据和低资源条件下实现了强劲的性能。在三个基准数据集SST-2、SemEval-2014 Task 4和MAMS上的实验表明,我们的模型始终优于传统的微调方法,并分别达到了0.922、0.694和0.597的F1分数。这些结果验证了基于提示的泛化的有效性,并突出了PL-FGSA在实际情感分析任务中的实用价值。 |
[66] 草莓问题:在标记化语言模型中字符级理解的出现 标题: The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models 作者: Adrian Cosma / Stefan Ruseti / Emilian Radoi / Mihai Dascalu 原文: [英文] [中文] 备注: 1 Table, 8 Figures 摘要: 尽管大型语言模型(LLMs)在多个领域取得了显著进展,但由于一个根本性的限制:分词,它们在简单的字符级任务(如计算单词中的字母数量)上始终表现不佳。在这项工作中,我们将这一限制框定为低互信息的问题,并从概念出现的角度进行分析。通过一组19个合成任务,在受控环境中隔离字符级推理,我们发现这种能力在训练中出现得缓慢、突然,并且只有在训练后期才出现。我们进一步展示了基于渗透的概念出现模型解释了这些模式,表明学习字符组成与学习常识知识在本质上并无不同。为了解决这一瓶颈,我们提出了一种轻量级的架构修改,显著改善了字符级推理,同时保留了子词模型的归纳优势。总之,我们的结果弥合了分词语言模型中的低级感知差距,并提供了一个理解和缓解其结构盲点的原则性框架。我们公开了我们的代码。 |
[67] THOR-MoE: 用于神经机器翻译的分层任务引导和上下文响应路由 标题: THOR-MoE: Hierarchical Task-Guided and Context-Responsive Routing for Neural Machine Translation 作者: Yunlong Liang / Fandong Meng / Jie Zhou 原文: [英文] [中文] 备注: Accepted to ACL 2025 main conference 摘要: 稀疏专家混合模型(MoE)在神经机器翻译(NMT)方面取得了显著进展。然而,当前的MoE解决方案存在两个可能导致次优性能的局限性:1)它们直接将NMT的任务知识(例如,特定领域/语言学知识)应用于MoE,这些知识在实际应用中通常不可用,并忽视了自然分组的领域/语言学特性;2)专家选择仅依赖于局部的标记表示,而没有考虑上下文,这样无法从全局视角充分把握每个标记的状态。为了解决上述局限性,我们提出了THOR-MoE,通过为MoE配备分层任务引导和上下文响应的路由策略。具体来说,它首先预测领域/语言标签,然后提取混合领域/语言表示,以分层方式分配任务级专家;其次,将上下文信息注入到从预选的任务级专家集中增强标记路由,这可以帮助每个标记更准确地路由到更专业和合适的专家。我们在多领域翻译和多语言翻译基准上的大量实验中,使用不同的架构一致地证明了THOR-MoE的卓越性能。此外,THOR-MoE作为一个即插即用的模块,与现有的Top-$k$和Top-$p$路由方案兼容,确保了在不同MoE架构中的广泛适用性。例如,与普通的Top-$p$路由相比,上下文感知方式在多领域翻译任务中可以实现平均提高0.75 BLEU,同时激活的参数少于22%。 |
[68] 更便宜、更好、更快、更强:无需思维链或微调的稳健文本到SQL 标题: Cheaper, Better, Faster, Stronger: Robust Text-to-SQL without Chain-of-Thought or Fine-Tuning 作者: Yusuf Denizay Dönder / Derek Hommel / Andrea W Wen-Yi / David Mimno / Unso Eun Seo Jo 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在代码生成任务如文本到SQL的转换中表现出色,但这是否值得其成本?许多最先进的方法使用了非任务特定的LLM技术,包括链式思维(CoT)、自我一致性和微调。这些方法在推理时可能代价高昂,有时需要进行超过一百次的LLM调用进行推理,每次查询的平均成本高达0.46美元,而微调模型的成本可能达到数千美元。我们引入了“N-rep”一致性,这是一种更具成本效益的文本到SQL方法,在BIRD基准测试中取得了与其他更昂贵方法相似的分数,而每次查询的成本仅为0.039美元。N-rep利用同一模式输入的多种表示来减轻单一表示的弱点,使解决方案更加稳健,并允许使用更小、更便宜的模型,而无需任何推理或微调。据我们所知,N-rep是在其成本范围内表现最好的文本到SQL方法。 |
[69] 大型语言模型中的分词限制:符号和算术推理极限研究 标题: Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits 作者: Xiang Zhang / Juntai Cao / Jiaqi Wei / Yiwei Xu / Chenyu You 原文: [英文] [中文] 备注: None 摘要: 分词是语言模型中第一个且常常被低估的计算层。尽管链式思维(CoT)提示使得变压器模型能够通过外化中间步骤来近似递归计算,我们展示了这种推理的成功在根本上受到分词输入结构的限制。本文从理论和实证的角度研究了分词方案,特别是像字节对编码(BPE)这样的子词方法,如何通过合并或模糊原子推理单元来阻碍符号计算。我们引入了“分词意识”的概念,以形式化地说明糟糕的分词粒度如何破坏逻辑对齐,并阻止模型对符号程序的泛化。通过对算术和符号任务的系统评估,我们证明了分词结构对推理性能有显著影响,即使在CoT情况下也会导致失败,而原子对齐的格式则能解锁强大的泛化能力,使得小模型(例如,GPT-4o-mini)在结构化推理中能够超越更大的系统(例如,o1)。我们的研究结果揭示了大型语言模型中的符号推理能力不仅仅是架构上的问题,而是深受分词级别表示的影响。 |
[70] 利用结构信息增强科学论文的抽象摘要 标题: Enhancing Abstractive Summarization of Scientific Papers Using Structure Information 作者: Tong Bao / Heng Zhang / Chengzhi Zhang 原文: [英文] 备注: None 摘要: 科学论文的抽象总结一直是研究的重点,但现有方法面临两个主要挑战。首先,大多数总结模型依赖于编码器-解码器架构,将论文视为词序列,因此未能充分捕捉科学论文中固有的结构化信息。其次,现有研究通常使用关键词映射或特征工程来识别结构信息,但这些方法难以应对科学论文的结构灵活性,并且在不同学科中缺乏鲁棒性。为了解决这些挑战,我们提出了一个两阶段的抽象总结框架,该框架利用科学论文中结构功能的自动识别。在第一阶段,我们对大量科学论文的章节标题进行标准化,并构建一个大规模数据集用于结构功能识别。然后训练一个分类器来自动识别关键结构组件(例如,背景、方法、结果、讨论),为生成更平衡的总结提供基础。在第二阶段,我们采用Longformer来捕捉章节间丰富的上下文关系,并生成上下文感知的总结。在两个特定领域的科学论文总结数据集上进行的实验表明,我们的方法优于先进的基线,并生成更全面的总结。代码和数据集可以通过这个URL访问。 |
[71] SlangDIT:在解释性俚语翻译中对大型语言模型进行基准测试 标题: SlangDIT: Benchmarking LLMs in Interpretative Slang Translation 作者: Yunlong Liang / Fandong Meng / Jiaan Wang / Jie Zhou 原文: [英文] [中文] 备注: work in progress 摘要: 俚语翻译的挑战在于捕捉依赖于上下文的语义扩展,因为俚语通常传达超出其字面解释的含义。尽管在大语言模型(LLMs)时代,俚语检测、解释和翻译已被作为独立任务进行研究,但它们之间的内在相互依赖性仍未得到充分探索。主要原因是缺乏一个基准,其中两个任务可以作为第三个任务的前提,从而促进习语翻译。在本文中,我们介绍了解释性俚语翻译任务(称为SlangDIT),由三个子任务组成:俚语检测、跨语言俚语解释和当前上下文中的俚语翻译,旨在通过俚语检测和俚语解释生成更准确的翻译。为此,我们构建了一个SlangDIT数据集,包含超过25,000对英汉句子。每个源句至少提到一个俚语,并标注了相应的跨语言俚语解释。基于该基准,我们提出了一种深度思考模型,称为SlangOWL。它首先识别句子是否包含俚语,然后判断俚语是否具有多义性并分析其可能的含义。此外,SlangOWL针对当前上下文提供俚语术语的最佳解释。最后,根据整个思考过程,SlangOWL提供合适的翻译。我们在LLMs(例如,Qwen2.5和LLama-3.1)上的实验表明,我们的深度思考方法确实增强了LLMs的性能,其中提出的SlangOWL显著超越了不进行思考的基础模型和监督微调模型。 |
[72] 思维切换器:何时深思熟虑,何时快速思考 标题: ThinkSwitcher: When to Think Hard, When to Think Fast 作者: Guosheng Liang / Longguang Zhong / Ziyi Yang / Xiaojun Quan 原文: [英文] 备注: None 摘要: 大型推理模型(LRMs)通过利用长链式思维(CoT)推理在解决复杂任务方面表现出色。然而,这常常导致在简单任务上过度思考,从而造成不必要的计算开销。我们观察到,LRMs 本身具备高效短链式思维推理的能力,这种能力可以通过提示设计可靠地引出。为了利用这一能力,我们提出了 ThinkSwitcher,这一框架使单个 LRM 能够根据任务复杂性动态切换短链和长链思维模式。ThinkSwitcher 引入了一个轻量级的切换模块,该模块通过从每种推理模式在各任务中的相对表现中提取的监督信号进行训练。在多个推理基准上的实验表明,ThinkSwitcher 在保持复杂任务高准确率的同时,将计算成本降低了 20-30%。这证明了 ThinkSwitcher 作为统一 LRM 部署的可扩展且高效的解决方案的有效性。 |
[73] 解开大型语言模型在作者隐私中的交织角色:混淆、模仿与验证 标题: Unraveling Interwoven Roles of Large Language Models in Authorship Privacy: Obfuscation, Mimicking, and Verification 作者: Tuc Nguyen / Yifan Hu / Thai Le 原文: [英文] 备注: 17 pages, 3 figures 摘要: 近年来,大型语言模型(LLMs)的进步得益于从网站、新闻文章和书籍等多样化来源获取的大规模训练语料库。这些数据集通常包含明确的用户信息,如人名和地址,LLMs可能会在其生成的输出中无意中重现这些信息。除了这些显性内容,LLMs还可能通过隐性信号泄露身份信息,例如独特的写作风格,这引发了关于作者隐私的重大担忧。在作者隐私领域,有三个主要的自动化任务,即作者身份混淆(AO)、作者身份模仿(AM)和作者身份验证(AV)。先前的研究独立地研究了AO、AM和AV。然而,它们之间的相互作用仍未得到充分探索,这留下了一个重大的研究空白,特别是在LLMs时代,它们深刻地影响着我们如何策划和分享用户生成的内容,并且机器生成文本和人类创作文本之间的区别也越来越模糊。因此,本研究提出了第一个统一框架,用于分析在作者隐私背景下LLM支持的AO、AM和AV之间的动态关系。我们量化了它们如何相互作用以转化人类创作的文本,研究了在单一时间点和随时间迭代的效果。我们还研究了人口统计元数据(如性别、学术背景)在调节其性能、任务间动态和隐私风险中的作用。所有源代码将公开提供。 |
[74] 知识密集型问答任务的自动数据集生成 标题: Automatic Dataset Generation for Knowledge Intensive Question Answering Tasks 作者: Sizhe Yuen / Ting Su / Ziyang Wang / Yali Du / Adam J. Sobey 原文: [英文] [中文] 备注: None 摘要: 问答(QA)系统旨在知识库中搜索合适的答案。目前的QA系统在处理需要复杂推理或实时知识整合的查询时面临困难。它们通常通过在数据源上使用检索技术(如检索增强生成(RAG))来补充。然而,RAG在处理复杂推理和多信息源之间的逻辑连接时仍然面临挑战。本文提出了一种通过自动生成基于上下文的问答对来增强大型语言模型(LLMs)在知识密集型QA任务中的新方法。该方法利用LLMs创建微调数据,减少对人工标注的依赖,并提高模型的理解和推理能力。所提出的系统包括一个自动QA生成器和一个模型微调器,使用困惑度、ROUGE、BLEU和BERTScore进行评估。综合实验表明,在逻辑连贯性和事实准确性方面有所改善,对开发适应性人工智能(AI)系统具有重要意义。Mistral-7b-v0.3在BERT F1、BLEU和ROUGE评分上优于Llama-3-8b,LLM生成的QA对的得分分别为0.858、0.172和0.260,而人工标注的QA对的得分为0.836、0.083和0.139。 |
[75] “热语言与歧视”:在混合印地语和英语的代码中进行语音扰动以测试大型语言模型 标题: "Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs 作者: Darpan Aswal / Siddharth D Jaiswal 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)变得越来越强大,其多语言和多模态能力日益提升。这些模型通过审计、对齐研究和红队测试来评估,以揭示模型在生成有害、偏见和不公平内容方面的漏洞。现有的红队测试工作以前主要集中在英语上,使用固定的模板攻击;因此,模型仍然容易受到多语言越狱策略的影响,特别是在多模态环境中。在这项研究中,我们引入了一种新策略,利用代码混合和语音扰动来对文本和图像生成任务进行越狱。我们还介绍了两种新的越狱策略,其效果比基线策略更高。我们的工作提出了一种方法,通过在代码混合提示中对敏感词进行语音拼写错误处理,有效绕过LLMs的安全过滤,同时保持可解释性。我们新颖的提示在文本生成中实现了99%的攻击成功率,在图像生成中实现了78%的成功率,使用语音扰动的代码混合提示时,文本生成的攻击相关率为100%,图像生成为95%。我们的可解释性实验表明,语音扰动影响了词的分词,从而导致越狱成功。我们的研究激励了对多语言多模态模型的更具普遍性的安全对齐的关注,特别是在现实世界中提示可能包含拼写错误的情况下。 |
[76] 机制微调用于上下文学习 标题: Mechanistic Fine-tuning for In-context Learning 作者: Hakaze Cho / Peng Luo / Mariko Kato / Rin Kaenbyou / Naoya Inoue 原文: [英文] 备注: 28 pages, 31 figures, 6 tables 摘要: 上下文学习(ICL)利用结构化的示例-查询输入来引导语言模型(LMs)进行少样本学习,而这些模型最初并未在ICL风格的数据上进行预训练。为了弥合ICL与预训练之间的差距,一些方法通过端到端的范式在大型ICL风格的数据集上微调语言模型,但这需要大量的计算成本。为了降低这些成本,本文提出了注意力行为微调(ABFT),利用先前关于ICL内部机制的研究成果,在注意力得分上建立训练目标,而不是最终输出,以迫使注意力得分集中在上下文中呈现的正确标签标记上,并减轻来自错误标签标记的注意力得分。我们在9个现代语言模型和8个数据集上的实验实证表明,ABFT在性能、鲁棒性、公正性和效率方面表现优异,与之前的方法相比,仅需约0.01%的数据成本。此外,我们的后续分析发现,端到端的训练目标包含了ABFT目标,这表明ICL风格数据对归纳头出现的隐含偏差。我们的工作展示了控制语言模型内特定模块序列以改善其行为的可能性,为机械解释性的未来应用打开了大门。 |
[77] ABBA:用于大型语言模型的高表达性Hadamard积适应 标题: ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models 作者: Raghav Singhal / Kaustubh Ponkshe / Rohit Vartak / Praneeth Vepakomma 原文: [英文] [中文] 备注: Raghav Singhal, Kaustubh Ponkshe, and Rohit Vartak contributed equally to this work 摘要: 大型语言模型在广泛的任务中表现出色,但如何高效地将其适应新领域仍然是一个关键挑战。参数高效微调(PEFT)方法通过引入轻量级、可训练的模块,同时保持大部分预训练权重不变来解决这一问题。当前流行的方法LoRA通过低秩分解来建模更新,但其表现能力本质上受到秩的限制。最近的方法如HiRA试图通过与冻结权重的Hadamard积来提高表现能力,但仍依赖于预训练模型的结构。我们介绍了ABBA,一种新的PEFT架构,将更新重新参数化为两个独立可学习的低秩矩阵的Hadamard积。与之前的工作相比,ABBA完全将更新与预训练权重解耦,使得两个组件都可以自由优化。这在相同的参数预算下显著提高了表现能力。我们正式分析了ABBA的表现能力,并通过矩阵重建实验验证了其优势。实证结果表明,ABBA在算术和常识推理基准测试中达到了最先进的结果,在多个模型中始终显著优于现有的PEFT方法。我们的代码在此网址公开:this https URL。 |
[78] 关于儿童言语障碍相关文献分类的技术报告 标题: Technical Report on classification of literature related to children speech disorder 作者: Ziang Wang / Amir Aryani 原文: [英文] [中文] 备注: None 摘要: 这份技术报告提出了一种基于自然语言处理(NLP)的方法,用于系统地分类关于儿童言语障碍的科学文献。我们使用特定领域的关键词,从PubMed数据库中检索并筛选了2015年后发表的4,804篇相关文章。在清理和预处理摘要后,我们应用了两种主题建模技术——潜在狄利克雷分配(LDA)和BERTopic——以识别语料库中的潜在主题结构。我们的模型揭示了14个临床上有意义的聚类,例如婴儿多动症和异常癫痫行为。为了提高相关性和精确性,我们结合了一个专门针对言语病理学定制的停用词列表。评估结果显示,LDA模型达到了0.42的连贯性得分和-7.5的困惑度,表明了强大的主题连贯性和预测性能。BERTopic模型表现出低比例的离群主题(少于20%),展示了其有效分类异质文献的能力。这些结果为在言语语言病理学中自动化文献综述提供了基础。 |
[79] TransBench:工业规模应用的机器翻译基准测试 标题: TransBench: Benchmarking Machine Translation for Industrial-Scale Applications 作者: Haijun Li / Tianqi Shi / Zifu Shang / Yuxuan Han / Xueyu Zhao / Hao Wang / Yu Qian / Zhiqiang Qian / Linlong Xu / Minghao Wu / Chenyang Lyu / Longyue Wang / Gongbo Tang / Weihua Luo / Zhao Xu / Kaifu Zhang 原文: [英文] [中文] 备注: None 摘要: 机器翻译(MT)在全球化的行业中,如电子商务、金融和法律服务,已成为跨境交流不可或缺的工具。最近大型语言模型(LLMs)的进步显著提升了翻译质量。然而,将通用的机器翻译模型应用于工业场景时,因缺乏特定领域的术语、文化细微差别和风格惯例,暴露出关键的局限性。现有的评估框架无法充分评估在专业背景下的表现,导致学术基准与实际效果之间存在差距。为了解决这个问题,我们提出了一个三层翻译能力框架:(1)基本语言能力,(2)领域特定的熟练度,以及(3)文化适应性,强调在这些维度上进行全面评估的必要性。我们引入了TransBench,这是一个为工业机器翻译量身定制的基准,最初针对国际电子商务,包含17,000个专业翻译的句子,涵盖4个主要场景和33种语言对。TransBench结合了传统指标(BLEU, TER)和Marco-MOS,一个领域特定的评估模型,并提供了可重复的基准构建指南。我们的贡献包括:(1)一个结构化的工业机器翻译评估框架,(2)第一个公开可用的电子商务翻译基准,(3)探测多层次翻译质量的新指标,以及(4)开源的评估工具。此项工作弥合了评估差距,使研究人员和从业者能够系统地评估和提升针对特定行业需求的机器翻译系统。 |
[80] FuxiMT:针对中文为中心的多语言机器翻译的大型语言模型稀疏化 标题: FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation 作者: Shaolin Zhu / Tianyu Dong / Bo Li / Deyi Xiong 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们介绍了FuxiMT,这是一种以中文为中心的新型多语言机器翻译模型,由稀疏化的大型语言模型(LLM)驱动。我们采用两阶段策略来训练FuxiMT。首先,我们在海量中文语料库上对模型进行预训练,然后在包含65种语言的大型平行数据集上进行多语言微调。FuxiMT结合了专家混合(Mixture-of-Experts, MoEs)技术,并采用课程学习策略,以在各种资源水平上实现稳健的性能。实验结果表明,FuxiMT显著优于强基线模型,包括最新的大型语言模型和机器翻译模型,尤其是在低资源场景下。此外,FuxiMT在未见过的语言对上表现出卓越的零样本翻译能力,表明其在平行数据稀缺或不可用的情况下弥合沟通差距的潜力。 |
[81] Think-J:学习思考以生成作为裁判的大型语言模型 标题: Think-J: Learning to Think for Generative LLM-as-a-Judge 作者: Hui Huang / Yancheng He / Hongli Zhou / Rui Zhang / Wei Liu / Weixun Wang / Wenbo Su / Bo Zheng / Jiaheng Liu 原文: [英文] [中文] 备注: 16 pages, 14 figures 摘要: LLM-as-a-Judge 指的是对大型语言模型(LLM)生成的响应进行偏好自动建模,这对于LLM的评估和奖励建模都具有重要意义。尽管生成式LLM在各种任务中取得了实质性进展,但它们作为LLM-Judge的表现仍未达到预期。在这项工作中,我们提出了Think-J,通过学习如何思考来改进生成式LLM-as-a-Judge。我们首先利用少量精心挑选的数据来开发具有初步判断思维能力的模型。随后,我们基于强化学习(RL)优化判断思维轨迹。我们提出了两种判断思维优化方法,分别基于离线和在线RL。离线RL需要训练一个评论模型来构建正负样本进行学习。在线方法则定义基于规则的奖励作为优化反馈。实验结果表明,我们的方法可以显著增强生成式LLM-Judge的评估能力,超越了不需要额外人工标注的生成式和基于分类器的LLM-Judge。 |
[82] FAID:使用多任务辅助和多层次对比学习的细粒度AI生成文本检测 标题: FAID: Fine-grained AI-generated Text Detection using Multi-task Auxiliary and Multi-level Contrastive Learning 作者: Minh Ngoc Ta / Dong Cao Van / Duc-Anh Hoang / Minh Le-Anh / Truong Nguyen / My Anh Tran Nguyen / Yuxia Wang / Preslav Nakov / Sang Dinh 原文: [英文] [中文] 备注: None 摘要: 人类与AI模型在生成任务中的日益合作带来了新的挑战,即区分人类撰写、AI生成和人类-AI协作的文本。在这项工作中,我们收集了一个多语言、多领域、多生成器的数据集FAIDSet。我们进一步引入了一个细粒度检测框架FAID,将文本分类为这三种类别,同时识别潜在的AI模型家族。与现有的二元分类器不同,FAID旨在捕捉作者身份和模型特定特征。我们的方法结合了多层次对比学习和多任务辅助分类,以学习细微的风格线索。通过将AI家族建模为独特的风格实体,FAID提供了更好的可解释性。我们引入了一种适应性方法,以在不重新训练的情况下应对未见数据的分布变化。实验结果表明,FAID优于几种基线方法,特别是在未见领域和新AI模型上的泛化准确性方面有所提升。它为提高AI辅助写作的透明度和责任制提供了潜在的解决方案。 |
[83] 通过跨语言最近邻检索和有限标注数据实现数据高效的仇恨言论检测 标题: Data-Efficient Hate Speech Detection via Cross-Lingual Nearest Neighbor Retrieval with Limited Labeled Data 作者: Faeze Ghorbanpour / Daryna Dementieva / Alexander Fraser 原文: [英文] [中文] 备注: None 摘要: 考虑到检测仇恨语言的重要性,标注的仇恨言论数据的收集成本高且耗时,尤其是对于资源匮乏的语言。先前的研究已证明跨语言迁移学习和数据增强在提高有限标注数据任务性能方面的有效性。为了开发一种高效且可扩展的跨语言迁移学习方法,我们利用最近邻检索来增强目标语言中的最少标注数据,从而提高检测性能。具体来说,我们假设可以访问目标语言中的一小部分标注训练实例,并使用这些实例从大型多语言仇恨言论检测库中检索最相关的标注示例。我们在八种语言上评估了我们的方法,并证明它始终优于仅在目标语言数据上训练的模型。此外,在大多数情况下,我们的方法超越了当前的最先进技术。值得注意的是,我们的方法具有高度的数据效率,在某些情况下仅检索200个实例,同时保持卓越的性能。此外,它具有可扩展性,因为检索库可以轻松扩展,并且该方法可以轻松适应新的语言和任务。我们还应用最大边际相关性来减轻冗余并过滤掉高度相似的检索实例,从而在某些语言中取得了改进。 |
[84] YESciEval: 用于科学问答的稳健大语言模型评估 标题: YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering 作者: Jennifer D'Souza / Hamed Babaei Giglou / Quentin Münch 原文: [英文] [中文] 备注: 8 pages, 3 figures, Accepted as a Long Paper at the 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025) 摘要: 大型语言模型(LLMs)推动了现代搜索引擎上的科学问答,但其评估的稳健性仍未得到充分探索。我们介绍了YESciEval,这是一种开源框架,结合了细粒度的评分标准评估和强化学习,以减轻LLM评估者的乐观偏差。我们发布了多学科的科学问答数据集,包括对抗性变体,并提供了来自多个LLM的评估分数。我们的方法独立于专有模型和人工反馈,实现了可扩展且无成本的评估。通过推进可靠的LLM作为评判模型,这项工作支持了AI的对齐,并促进了科学探究和人工通用智能所必需的稳健、透明的评估。 |
[85] 通用声学对抗攻击:灵活控制语音大语言模型 标题: Universal Acoustic Adversarial Attacks for Flexible Control of Speech-LLMs 作者: Rao Ma / Mengjie Qian / Vyas Raina / Mark Gales / Kate Knill 原文: [英文] [中文] 备注: None 摘要: 预训练语音编码器与大型语言模型的结合,使得语音大语言模型(LLMs)的开发成为可能,这些模型可以处理各种口语处理任务。虽然这些模型功能强大且灵活,但这种灵活性可能使它们更容易受到对抗性攻击。为了研究这个问题的严重程度,在这项工作中,我们研究了针对语音大语言模型的通用声学对抗性攻击。在这里,一个固定的、通用的对抗性音频片段被添加到原始输入音频之前。我们最初研究了导致模型要么不产生输出,要么执行修改后的任务以覆盖原始提示的攻击。然后,我们将攻击的性质扩展为选择性攻击,使其仅在存在特定输入属性(如说话者性别或所说语言)时激活。没有目标属性的输入应不受影响,从而允许对模型输出进行细粒度控制。我们的研究结果揭示了Qwen2-Audio和Granite-Speech中的关键漏洞,并表明类似的语音大语言模型可能容易受到通用对抗性攻击。这突显了需要更稳健的训练策略和提高对抗性攻击抵抗力的必要性。 |
[86] 跨语言优化在大型语言模型中的语言迁移 标题: Cross-Lingual Optimization for Language Transfer in Large Language Models 作者: Jungseob Lee / Seongtae Hong / Hyeonseok Moon / Heuiseok Lim 原文: [英文] 备注: Accepted for publication at ACL 2025. Jungseob Lee and Seongtae Hong contributed equally to this work 摘要: 将大型语言模型适应到其他语言通常采用监督微调(SFT)作为标准方法。然而,这种方法往往过于强调英语性能,尤其在数据受限的环境中这一现象尤为明显。为了解决这些挑战,我们提出了\textbf{跨语言优化(CLO)},该方法能够在保留英语能力的同时,将以英语为中心的大型语言模型高效地转移到目标语言。CLO利用公开可用的英语SFT数据和翻译模型来实现跨语言转移。我们在六种语言上使用五个模型进行了实验,每种语言的资源水平各不相同。我们的结果表明,CLO在获取目标语言能力和保持英语性能方面始终优于SFT。值得注意的是,在低资源语言中,CLO仅使用3,200个样本就能超越使用6,400个样本的SFT,表明CLO可以用更少的数据实现更好的性能。此外,我们发现SFT在中低资源语言中对数据量特别敏感,而CLO则保持稳健。我们全面的分析强调了SFT的局限性,并在CLO中结合了额外的训练策略以提高效率。 |
[87] JOLT-SQL:通过混淆感知的噪声模式采样进行文本到SQL的联合损失调优 标题: JOLT-SQL: Joint Loss Tuning of Text-to-SQL with Confusion-aware Noisy Schema Sampling 作者: Jinwang Song / Hongying Zan / Kunli Zhang / Lingling Mu / Yingjie Han / Haobo Hua / Min Peng 原文: [英文] [中文] 备注: Work in progress. 13 pages, 6 figures 摘要: 文本到SQL(Text-to-SQL)任务将自然语言映射为SQL查询,近年来因大型语言模型(LLMs)的进步而受益匪浅。尽管LLMs为这一任务提供了多种范式,包括提示和监督微调(SFT),但SFT方法仍面临诸如复杂的多阶段流程和对噪声模式信息的鲁棒性差等挑战。为了解决这些限制,我们提出了JOLT-SQL,这是一种简化的单阶段SFT框架,通过统一的损失函数联合优化模式链接和SQL生成。JOLT-SQL采用判别式模式链接,结合局部双向注意力,并通过一种混淆感知的噪声模式采样策略与选择性注意力来提高在噪声模式条件下的鲁棒性。在Spider和BIRD基准测试上的实验表明,JOLT-SQL在可比规模的开源模型中实现了最先进的执行准确性,同时显著提高了训练和推理效率。 |
[88] 研究输入邻域重叠在检索增强型语言模型训练效率中的作用 标题: Studying the Role of Input-Neighbor Overlap in Retrieval-Augmented Language Models Training Efficiency 作者: Ehsan Doostmohammadi / Marco Kuhlmann 原文: [英文] [中文] 备注: None 摘要: 检索增强型语言模型在性能上表现出与更大规模模型相当的效果,同时需要的计算资源更少。这些模型的有效性在很大程度上取决于查询与检索到的上下文之间的重叠程度,但这种重叠的最佳程度尚未被探索。在本文中,我们系统地研究了查询与上下文重叠的不同水平如何影响模型在训练和推理过程中的表现。我们的实验表明,增加重叠最初对效果影响不大,但在超过一个临界阈值后,显著改善了测试时的困惑度并加速了模型学习。基于这些发现,我们展示了通过合成上下文有意增加重叠可以提高数据效率,并在不影响性能的情况下将训练时间减少约40%。我们特别通过对查询进行释义来生成合成上下文。我们在问答任务中验证了基于困惑度的发现,确认检索增强型语言建模的优势也适用于实际应用。我们的结果提供了关于语言模型预训练中检索机制显著优化潜力的实证证据。 |
[89] HausaNLP:豪萨语自然语言处理的现状、挑战和未来方向 标题: HausaNLP: Current Status, Challenges and Future Directions for Hausa Natural Language Processing 作者: Shamsuddeen Hassan Muhammad / Ibrahim Said Ahmad / Idris Abdulmumin / Falalu Ibrahim Lawan / Babangida Sani / Sukairaj Hafiz Imam / Yusuf Aliyu / Sani Abdullahi Sani / Ali Usman Umar / Kenneth Church / Vukosi Marivate 原文: [英文] [中文] 备注: None 摘要: 近年来,豪萨语自然语言处理(NLP)逐渐受到关注,但作为一种低资源语言,尽管全球有超过1.2亿的第一语言(L1)和8000万的第二语言(L2)使用者,豪萨语仍然研究不足。尽管高资源语言取得了显著进展,豪萨语NLP仍面临持续的挑战,包括开放源数据集的有限性和模型表示的不足。本文概述了豪萨语NLP的现状,系统地审视了在文本分类、机器翻译、命名实体识别、语音识别和问答等基本NLP任务中的现有资源、研究贡献和空白。我们介绍了HausaNLP(此https URL),这是一个汇集数据集、工具和研究工作的精心编制的目录,旨在提高可访问性并推动进一步发展。此外,我们讨论了将豪萨语整合到大型语言模型(LLMs)中的挑战,解决了次优分词和方言变化的问题。最后,我们提出了战略性研究方向,强调数据集扩展、改进的语言建模方法和加强社区合作,以推进豪萨语NLP的发展。我们的工作为加速豪萨语NLP的进展提供了基础,并为更广泛的多语言NLP研究提供了宝贵的见解。 |
[90] 用于推理的MIND:用于上下文内推导的元学习 标题: A MIND for Reasoning: Meta-learning for In-context Deduction 作者: Leonardo Bertolazzi / Manuel Vargas Guzmán / Raffaella Bernardi / Maciej Malicki / Jakub Szymanik 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在越来越多的正式任务中被评估,其中强大的推理能力定义了当前的技术水平。然而,它们在分布外问题上的泛化能力仍然有限。在本文中,我们研究了LLMs如何实现对演绎规则的系统理解。我们的重点是识别知识库中适当的前提子集,以推导给定假设的任务。为了解决这一挑战,我们提出了一种新的少样本元学习微调方法,称为情境演绎元学习(MIND)。MIND的目标是使模型能够更有效地泛化到未见过的知识库,并系统地应用推理规则。我们的结果表明,MIND显著提高了小型语言模型(参数范围从1.5B到7B)的泛化能力。尤其是在较小的模型和低数据环境中,这种优势尤为明显。值得注意的是,经过MIND微调的小型模型在此任务上优于当前最先进的LLMs,如GPT-4o和o3-mini。 |
[91] QA提示:利用问答提升大型语言模型的摘要能力 标题: QA-prompting: Improving Summarization with Large Language Models using Question-Answering 作者: Neelabh Sinha 原文: [英文] [中文] 备注: Submitted to ARR 摘要: 语言模型(LMs)已经彻底改变了自然语言处理,通过提示和上下文学习实现了高质量的文本生成。然而,由于位置偏差,模型在长文本摘要方面常常表现不佳,导致关键信息的提取效果不理想。虽然有一些技术可以通过微调、流水线或使用复杂技术来改善这一问题,但这些方法也面临各自的挑战。为了解决这些挑战,我们提出了QA提示法——一种用于摘要的简单提示方法,它在生成摘要之前利用问答作为中间步骤。我们的方法提取关键信息并丰富文本的上下文,以减轻位置偏差,并在每个任务中通过单次语言模型调用改善摘要效果,而无需微调或流水线。在多个属于不同领域的数据集上进行的实验表明,使用十个最先进的预训练模型,QA提示法优于基线和其他最先进的方法,在ROUGE分数上实现了高达29%的提升。这提供了一种有效且可扩展的摘要解决方案,并强调了选择领域特定问题以获得最佳性能的重要性。 |
[92] OSoRA: 输出维度和奇异值初始化的低秩适应 标题: OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation 作者: Jialong Han / Si Zhang / Ke Zhang 原文: [英文] [中文] 备注: None 摘要: 微调大型语言模型(LLMs)由于其庞大的规模和相关的计算成本,变得越来越具有挑战性。参数高效微调(PEFT)方法被提出作为计算替代方案;然而,它们的实现仍然需要大量资源。在本文中,我们提出了OSoRA(输出维度和奇异值初始化的低秩适应),一种用于LLMs的新颖PEFT方法。OSoRA通过在统一框架中整合奇异值分解(SVD)和可学习的缩放向量来扩展低秩适应(LoRA)。它首先对预训练的权重矩阵进行SVD,然后在训练期间优化输出维度向量,同时保持相应的奇异向量矩阵不变。OSoRA通过在微调过程中最小化可训练参数的数量,大幅减少了计算资源需求。跨数学推理、常识推理和其他基准的全面评估表明,OSoRA在性能上与LoRA和VeRA等最先进的方法相当或更优,同时即使秩增加到更高维度也保持线性参数扩展。我们的消融研究进一步证实,同时训练奇异值和输出维度向量对于最佳性能至关重要。 |
[93] 无线数学基准:用于无线通信中大型语言模型的数学建模基准 标题: WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications 作者: Xin Li / Mengbing Liu / Li Wei / Jiancheng An / Mérouane Debbah / Chau Yuen 原文: [英文] [中文] 备注: Accepted to ACL 2025 Findings 摘要: 大型语言模型(LLMs)在广泛的任务中取得了令人印象深刻的成果,但其在复杂、特定领域的数学推理能力,特别是在无线通信领域,仍未得到充分探索。在这项工作中,我们介绍了WirelessMathBench,这是一个专门设计的基准,用于评估LLMs在无线通信工程中的数学建模挑战。我们的基准由587个精心策划的问题组成,这些问题来源于40篇最先进的研究论文,涵盖了从基本的选择题到复杂的方程式完成任务的多样化任务,包括部分和完整的完成,所有这些都严格遵循物理和维度约束。通过对领先的LLMs进行广泛的实验,我们观察到,尽管许多模型在基本的回忆任务中表现出色,但在重建部分或完全模糊的方程时,其性能显著下降,暴露了当前LLMs的基本局限性。即使是我们基准测试中表现最好的DeepSeek-R1,其平均准确率也仅为38.05%,在完整方程完成中的成功率仅为7.83%。通过公开发布WirelessMathBench及其评估工具包,我们旨在推动更强大、领域感知的LLMs的发展,以用于无线系统分析和更广泛的工程应用。 |
[94] 权重的双重分解与奇异值低秩适应 标题: Dual Decomposition of Weights and Singular Value Low Rank Adaptation 作者: Jialong Han / Si Zhang / Ke Zhang 原文: [英文] [中文] 备注: None 摘要: 参数高效微调(PEFT)已成为将大型语言模型(LLMs)适应下游任务的重要范式,其中低秩适应(LoRA)是最广泛采用的方法之一。然而,现有基于LoRA的方法存在两个基本限制:不稳定的训练动态和从预训练模型中低效的知识转移,这两者都源于适配器参数的随机初始化。为了解决这些挑战,我们提出了DuDe,这是一种新颖的方法,将权重矩阵分解为幅度和方向组件,采用奇异值分解(SVD)进行有原则的初始化。我们的全面评估表明,DuDe具有卓越的性能和鲁棒性,在MMLU上实现了高达48.35%的准确率,在GSM8K上实现了62.53%(±1.59)的准确率。我们的理论分析和实证验证共同表明,DuDe的分解策略增强了优化稳定性,并更好地保留了预训练表示,特别是对于需要专业知识的特定领域任务。稳健的实证性能和严格的理论基础的结合确立了DuDe作为LLMs的PEFT方法学的重要贡献。 |
[95] AutoRev:学术研究论文自动同行评审系统 标题: AutoRev: Automatic Peer Review System for Academic Research Papers 作者: Maitreya Prafulla Chitale / Ketaki Mangesh Shetye / Harshit Gupta / Manav Chaudhary / Vasudeva Varma 原文: [英文] [中文] 备注: None 摘要: 为学术研究论文生成评论是一项复杂的任务,需要深入理解文档内容及其各部分之间的相互依赖关系。这不仅需要对技术细节的洞察,还需要对论文整体连贯性和结构的理解。最近的方法主要集中在微调大型语言模型(LLMs)以应对这一挑战。然而,它们往往忽视了长输入标记长度所带来的计算和性能限制。为了解决这个问题,我们引入了AutoRev,一个用于学术研究论文的自动同行评审系统。我们创新的框架将学术文档表示为图形,从而能够提取对评论贡献最大的关键段落。这种基于图形的方法在评论生成方面表现出有效性,并且可能适用于各种下游任务,如问答、摘要和文档表示。在应用于评论生成时,我们的方法在所有评估指标上平均比现有最先进的基线高出58.72%。我们希望我们的工作能够激发更多关于将基于图形的提取技术应用于NLP其他下游任务的研究。我们计划在论文被接受后公开我们的代码。 |
[96] 跨语言编辑:多语言知识编辑的综述 标题: Editing Across Languages: A Survey of Multilingual Knowledge Editing 作者: Nadir Durrani / Basel Mousi / Fahim Dalvi 原文: [英文] [中文] 备注: None 摘要: 尽管知识编辑在单语环境中已被广泛研究,但在多语言环境中仍然缺乏探索。本文综述了多语言知识编辑(MKE)的最新研究,这是模型编辑的一个新兴子领域,专注于确保事实编辑能够可靠地在多种语言中推广。我们提出了一个全面的MKE方法分类,涵盖基于参数、基于记忆、微调和超网络的方法。我们调查了现有的基准,总结了关于方法有效性和迁移模式的关键发现,识别了跨语言传播中的挑战,并强调了与语言各向异性、评估覆盖率和编辑可扩展性相关的未解决问题。我们的分析整合了一个快速发展的领域,并为未来在可编辑的语言感知大型语言模型(LLMs)方面的进展奠定了基础。 |
[97] MUG-Eval:一种用于评估任何语言的多语言生成能力的代理评估框架 标题: MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language 作者: Seyoung Song / Seogyeong Jeong / Eunsu Kim / Jiho Jin / Dongkwan Kim / Jay Shin / Alice Oh 原文: [英文] [中文] 备注: None 摘要: 评估大型语言模型(LLMs)的文本生成能力具有挑战性,尤其是在低资源语言中,直接评估的方法很少。我们提出了MUG-Eval,这是一种新颖的框架,通过将现有基准转换为对话任务并测量LLMs在这些任务上的准确性来评估其多语言生成能力。我们专门设计了这些对话任务,以要求在目标语言中进行有效沟通。然后,我们简单地使用任务成功率作为成功生成对话的代理。我们的方法提供了两个关键优势:它不依赖于语言特定的NLP工具或标注数据集,这些在大多数语言中是有限的,并且它不依赖于LLMs作为评判者,其评估质量在少数高资源语言之外会下降。我们在30种语言中评估了8个LLMs,涵盖高、中、低资源类别,发现MUG-Eval与已建立的基准高度相关($r$ > 0.75),同时实现了跨语言和模型的标准化比较。我们的框架提供了一种稳健且资源高效的解决方案,用于评估多语言生成,可以扩展到数千种语言。 |
[98] 日志增强生成:通过可重用计算扩展测试时推理 标题: Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation 作者: Peter Baile Chen / Yi Zhang / Dan Roth / Samuel Madden / Jacob Andreas / Michael Cafarella 原文: [英文] [中文] 备注: Data and code are available at this https URL 摘要: 尽管人类能够自然地从过去的经验中学习和适应,但大型语言模型(LLMs)及其代理模型在保留先前任务的推理并将其应用于未来情境方面存在困难。为了解决这一限制,我们提出了一种新颖的框架,称为日志增强生成(LAG),该框架在测试时直接重用过去日志中的计算和推理,以增强模型从先前任务中学习的能力,并在新的、未见过的挑战中表现更好,同时保持系统的高效性和可扩展性。具体来说,我们的系统使用键值(KV)缓存来表示任务日志,编码先前任务的完整推理上下文,同时仅为选定的令牌子集存储KV缓存。当出现新任务时,LAG从相关日志中检索KV值以增强生成。我们的方法不同于基于反思的记忆机制,因为它直接重用先前的推理和计算,而不需要额外的知识提取或蒸馏步骤。我们的方法也超越了现有的KV缓存技术,这些技术主要针对效率提升,而非提高准确性。在知识和推理密集型数据集上的实验表明,我们的方法显著优于不使用日志的标准代理系统,以及基于反思和KV缓存技术的现有解决方案。 |
[99] 穿透迷雾,迎接天空:通过知识电路分析解码知识遮蔽 标题: Pierce the Mists, Greet the Sky: Decipher Knowledge Overshadowing via Knowledge Circuit Analysis 作者: Haoming Huang / Yibo Yan / Jiahao Huo / Xin Zou / Xinfeng Li / Kun Wang / Xuming Hu 原文: [英文] [中文] 备注: 18 pages, 6 figures, EMNLP under review 摘要: 大型语言模型(LLMs)尽管具有显著的能力,但仍受到幻觉的困扰。一个特别具有挑战性的变体是知识遮蔽,当一条激活的知识无意中掩盖了另一条相关知识时,就会发生这种情况,即使在高质量的训练数据下也会导致错误的输出。目前对遮蔽的理解主要局限于推理时的观察,缺乏对其起源和模型训练过程中内部机制的深入见解。因此,我们引入了PhantomCircuit,这是一个旨在全面分析和检测知识遮蔽的新框架。通过创新性地采用知识电路分析,PhantomCircuit剖析了注意力头的内部工作机制,追踪竞争知识路径如何导致遮蔽现象及其在训练过程中的演变。大量实验表明,PhantomCircuit在识别此类实例方面的有效性,为这一难以捉摸的幻觉提供了新的见解,并为研究界提供了一种新的方法论视角以潜在缓解这一问题。 |
[100] 隐藏的幽灵之手:揭示多语言大模型驱动的移动GUI代理中的后门漏洞 标题: Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents 作者: Pengzhou Cheng / Haowen Hu / Zheng Wu / Zongru Wu / Tianjie Ju / Daizong Ding / Zhuosheng Zhang / Gongshen Liu 原文: [英文] 备注: 25 pages, 10 figures, 12 Tables 摘要: 由多模态大型语言模型(MLLMs)驱动的图形用户界面(GUI)代理在人与人交互方面显示出更大的潜力。然而,由于高昂的微调成本,用户通常依赖于开源的GUI代理或AI提供商提供的API,这引入了一个关键但未被充分研究的供应链威胁:后门攻击。在这项工作中,我们首先揭示了MLLM驱动的GUI代理自然暴露出多种交互级别的触发器,例如历史步骤、环境状态和任务进度。基于这一观察,我们引入了AgentGhost,一个用于红队后门攻击的有效且隐蔽的框架。具体来说,我们首先通过结合目标和交互级别构建复合触发器,使GUI代理在无意中激活后门的同时确保任务效用。然后,我们将后门注入表述为一个最小-最大优化问题,使用监督对比学习在表示空间中最大化样本类别间的特征差异,提高后门的灵活性。同时,它采用监督微调以最小化后门和干净行为生成之间的差异,增强有效性和实用性。在两个已建立的移动基准中对各种代理模型的广泛评估表明,AgentGhost是有效且通用的,其在三个攻击目标上的攻击准确率达到99.7%,并且仅有1%的效用下降,显示出隐蔽性。此外,我们量身定制了一种针对AgentGhost的防御方法,将攻击准确率降低到22.1%。我们的代码可在\texttt{anonymous}获取。 |
[101] SAE-FiRE:通过稀疏自编码器特征选择提升盈利惊喜预测 标题: SAE-FiRE: Enhancing Earnings Surprise Predictions Through Sparse Autoencoder Feature Selection 作者: Huopu Zhang / Yanguang Liu / Mengnan Du 原文: [英文] [中文] 备注: None 摘要: 通过分析财报电话会议记录来预测盈利意外已经引起了金融研究界越来越多的关注。电话会议是公司高管、分析师和股东之间的重要沟通渠道,提供了有价值的前瞻性信息。然而,这些记录在分析上存在显著挑战,通常包含超过5000个单词,具有大量冗余和行业特定术语,这对语言模型构成了障碍。在这项工作中,我们提出了用于金融表示增强的稀疏自编码器(SAE-FiRE)框架,以通过提取关键信息并消除冗余来解决这些限制。SAE-FiRE 采用稀疏自编码器(SAEs)来有效识别模式并过滤噪声,特别关注捕捉具有盈利意外预测能力的细微金融信号。实验结果表明,所提出的方法可以显著优于对比基线。 |
[102] 通过使用大型语言模型生成合成数据来扩展低资源机器翻译 标题: Scaling Low-Resource MT via Synthetic Data Generation with LLMs 作者: Ona de Gibert / Joseph Attieh / Teemu Vahtola / Mikko Aulamo / Zihao Li / Raúl Vázquez / Tiancheng Hu / Jörg Tiedemann 原文: [英文] [中文] 备注: None 摘要: 我们研究了由大型语言模型(LLM)生成的合成数据在改善低资源机器翻译(MT)中的潜力。我们专注于七种不同的目标语言,从英语Europarl构建了一个文档级合成语料库,并通过中介扩展到另外147个语言对。自动和人工评估确认了其整体质量较高。我们通过以下方式研究其实际应用:(i)识别有效的训练方案,(ii)将我们的数据与HPLT数据集进行比较,以及(iii)测试其在非以英语为中心的机器翻译中的实用性。最后,我们介绍了SynOPUS,一个用于合成平行数据集的公共存储库。我们的研究结果表明,即使在数据存在噪声的情况下,LLM生成的合成数据也能显著提高低资源语言的机器翻译性能。 |
[103] 从模板到自然语言:面向空间推理的指令调优大型语言模型中的泛化挑战 标题: From Templates to Natural Language: Generalization Challenges in Instruction-Tuned LLMs for Spatial Reasoning 作者: Chalamalasetti Kranti / Sherzod Hakimov / David Schlangen 原文: [英文] [中文] 备注: 4 pages 摘要: 经过指令调优的大型语言模型(LLMs)在多种任务上表现出色;然而,在有实际背景的环境中从合成指令到人类撰写的指令的泛化仍然是一个挑战。在这项工作中,我们研究了空间定位任务中的泛化挑战,其中模型负责解释和翻译用于在$2.5$D网格上构建对象排列的指令。我们仅使用合成指令对LLMs进行微调,并在一个包含合成和人类撰写指令的基准数据集上评估它们的表现。我们的结果显示,虽然模型在简单任务上泛化良好,但在更复杂的任务上其性能显著下降。我们对指令泛化中的差距进行了详细的错误分析。 |
[104] 神经不兼容:大型语言模型中跨尺度参数知识转移的不可逾越的鸿沟 标题: Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models 作者: Yuqiao Tan / Shizhu He / Kang Liu / Jun Zhao 原文: [英文] [中文] 备注: Accepted by ACL'25 Main. Code link: this https URL 摘要: 大型语言模型(LLMs)提供了一个透明的大脑,其参数可访问并编码了广泛的知识,可以被分析、定位和转移。因此,一个关键的研究挑战是超越传统的基于符号语言的知识转移范式,实现真正的参数化知识转移(PKT)。特别是,探索通过参数在不同规模的LLMs之间转移知识的有效方法,呈现出一个有趣且有价值的研究方向。在本文中,我们首先证明了在参数空间中的对齐是实现成功跨规模PKT的基本前提。我们将之前探索的知识转移重新定义为后对齐PKT(PostPKT),它利用提取的参数进行LoRA初始化,并需要后续的微调以实现对齐。因此,为了减少进一步微调的成本,我们引入了一种新颖的预对齐PKT(PrePKT)范式,并提出了一种称为LaTen(Locate-Then-Align)的解决方案,该方案仅通过几个训练步骤就能对不同规模的LLMs的参数空间进行对齐,而无需后续训练。在四个基准上的综合实验表明,PostPKT和PrePKT在实现一致稳定的转移方面都面临挑战。通过深入分析,我们识别出神经不兼容性是不同规模LLMs之间的行为学和参数结构差异,给实现有效的PKT带来了根本挑战。这些发现为LLMs的参数架构提供了新的见解,并为未来关于高效PKT的研究指明了有前景的方向。我们的代码可在此URL获取。 |
[105] 创意偏好优化 标题: Creative Preference Optimization 作者: Mete Ismayilzada / Antonio Laverghetta Jr. / Simone A. Luchini / Reet Patel / Antoine Bosselut / Lonneke van der Plas / Roger Beaty 原文: [英文] [中文] 备注: 27 pages 摘要: 尽管大型语言模型(LLMs)在自然语言生成任务中表现出色,但它们在生成真正具有创造性的内容方面——即新颖性、多样性、惊喜感和质量——仍然有限。现有的增强LLM创造性的方法往往过于专注于多样性或特定任务,未能以一种可推广的方式解决创造性的多方面特性。在这项工作中,我们提出了创造性偏好优化(CrPO),这是一种新颖的对齐方法,以模块化的方式将来自多个创造性维度的信号注入偏好优化目标中。我们使用CrPO和MuCE训练和评估了几个模型的创造性增强版本,MuCE是一个新的大规模人类偏好数据集,涵盖了超过20万个由人类生成的响应和来自30多种心理创造性评估的评分。我们的模型在自动和人工评估中均优于强基线,包括GPT-4o,生成了更具新颖性、多样性和惊喜感的内容,同时保持了高输出质量。在NoveltyBench上的额外评估进一步证实了我们方法的普遍适用性。总之,我们的结果表明,在偏好框架内直接优化创造性是提高LLM创造能力的一个有前途的方向,而不会影响输出质量。 |
[106] CtrlDiff:通过动态块预测和可控生成提升大型扩散语言模型 标题: CtrlDiff: Boosting Large Diffusion Language Models with Dynamic Block Prediction and Controllable Generation 作者: Chihan Huang / Hao Tang 原文: [英文] [中文] 备注: None 摘要: 尽管近年来自回归模型在语言建模中占据主导地位,但探索传统的下一个词预测框架的替代范式的兴趣日益增长。基于扩散的语言模型由于其强大的并行生成能力和固有的可编辑性,已成为一种引人注目的替代方案。然而,这些模型通常受到固定长度生成的限制。一个有前途的方向是结合两种范式的优势,将序列分割成块,跨块建模自回归依赖关系,同时利用离散扩散来估计在给定前文的情况下每个块内的条件分布。然而,它们的实际应用往往受到两个关键限制的阻碍:刚性的固定长度输出和缺乏灵活的控制机制。在这项工作中,我们解决了当前大型扩散语言模型中固定粒度和弱可控性的关键限制。我们提出了CtrlDiff,这是一种动态且可控的半自回归框架,使用强化学习自适应地确定每个生成块的大小,基于局部语义。此外,我们引入了一种专为离散扩散设计的分类器引导控制机制,该机制显著减少了计算开销,同时在无需重新训练的情况下促进了高效的事后条件化。大量实验表明,CtrlDiff在混合扩散模型中设立了新的标准,缩小了与最先进的自回归方法的性能差距,并在各种任务中实现了有效的条件文本生成。 |
[107] 并非所有正确答案都是平等的:为什么你的蒸馏来源很重要 标题: Not All Correct Answers Are Equal: Why Your Distillation Source Matters 作者: Xiaoyu Tian / Yunjie Ji / Haotian Wang / Shuaiting Chen / Sitong Zhao / Yiping Peng / Han Zhao / Xiangang Li 原文: [英文] [中文] 备注: None 摘要: 蒸馏已成为增强开源语言模型推理能力的一种实用且有效的方法。在这项工作中,我们通过收集来自三个最先进的教师模型——AM-Thinking-v1、Qwen3-235B-A22B 和 DeepSeek-R1——在一个包含189万查询的共享语料库上的验证输出,进行了一项大规模的推理数据蒸馏实证研究。我们构建了三个平行数据集并分析了它们的分布,结果显示 AM-Thinking-v1 蒸馏数据表现出更大的标记长度多样性和更低的困惑度。在每个数据集上训练的学生模型在包括 AIME2024、AIME2025、MATH500 和 LiveCodeBench 的推理基准上进行了评估。基于 AM 的模型始终表现出最佳性能(例如,在 AIME2024 上得分 84.3,AIME2025 上得分 72.2,MATH500 上得分 98.4,LiveCodeBench 上得分 65.9),并展示了自适应输出行为——在更难的任务中生成更长的响应,而在更简单的任务中生成更短的响应。这些发现突显了高质量、经过验证的推理轨迹的价值。我们发布了 AM-Thinking-v1 和 Qwen3-235B-A22B 蒸馏数据集,以支持未来关于开放和高性能推理导向语言模型的研究。数据集可在 Hugging Face 上公开获取\footnote{数据集可在 Hugging Face 上获取:\href{this https URL}{AM-Thinking-v1-Distilled}, \href{this https URL}{AM-Qwen3-Distilled}.}。 |
[108] 语言模型中的空洞 标题: Void in Language Models 作者: Mani Shemiranifar 原文: [英文] [中文] 备注: None 摘要: 尽管基于变压器的语言模型(LMs)取得了进展,但一个基本问题仍然没有得到充分解答:在推理过程中,所有层都被激活了吗?我们通过使用一种非训练且无参数的自适应计算方法,称为L2自适应计算(LAC),来检测未激活的层(我们称之为空层),以研究这个问题。我们将LAC从其原始的效率导向应用中调整过来,以便在推理过程中追踪激活的层。该方法通过监测激活的L2范数的变化来识别空层。我们在指令调优的语言模型中分析了两个阶段的层激活情况:提示处理(PP),在此阶段我们为输入提示中的每个标记追踪激活的层,以及响应生成(RG),在此阶段我们为每个生成的标记追踪激活的层。我们进一步证明了在这两个阶段中激活的层是不同的。为了展示我们方法的有效性,我们在三个基准上评估了来自Llama、Mistral和Qwen系列的三种不同的指令调优语言模型:MMLU、GPQA Diamond和BoolQ。例如,在MMLU的零样本设置中,跳过Qwen2.5-7B-Instruct中的空层使得性能从69.24提高到71.29,而模型仅使用了30%的层。同样,在GPQA Diamond上,Mistral-7B-Instruct-v0.3在PP和RG阶段使用70%的层时,性能从13.88提高到18.36。这些结果表明,并非所有层在推理过程中贡献相同,选择性地跳过大多数层可以提高模型在某些任务上的性能。 |
[109] 在代码混合扰动下大型语言模型的归因安全性失效 标题: Attributional Safety Failures in Large Language Models under Code-Mixed Perturbations 作者: Somnath Banerjee / Pratyush Chatterjee / Shanu Kumar / Sayan Layek / Parag Agrawal / Rima Hazra / Animesh Mukherjee 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLM)方面的进展引发了重大的安全性担忧,特别是在处理代码混合的输入和输出时。我们的研究系统地调查了与单一英语提示相比,LLM在代码混合提示下更容易产生不安全输出的情况。通过使用可解释性方法,我们剖析了导致模型产生有害行为的内部归因变化。此外,我们通过区分普遍不安全和文化特定的不安全查询来探索文化维度。本文提出了新的实验见解,阐明了驱动这一现象的机制。 |
[110] 通过自监督对比学习调整预训练语言模型以进行引用分类 标题: Adapting Pretrained Language Models for Citation Classification via Self-Supervised Contrastive Learning 作者: Tong Li / Jiachuan Wang / Yongqi Zhang / Shuangyin Li / Lei Chen 原文: [英文] [中文] 备注: Manuscripts, accepted to KDD 2025 摘要: 引文分类是识别学术引文背后意图的关键步骤,对于学术分析至关重要。先前的研究建议在引文分类数据集上微调预训练语言模型(PLMs),以利用它们在预训练期间获得的语言知识。然而,由于标注数据稀缺、上下文噪声以及虚假的关键词相关性,直接进行引文分类微调具有挑战性。在本文中,我们提出了一种新颖的框架,Citss,以适应PLMs来克服这些挑战。Citss引入了自监督对比学习以缓解数据稀缺问题,并配备了两种专门的策略来获取对比对:句子级裁剪,增强在长上下文中对目标引文的关注,以及关键词扰动,减轻对特定关键词的依赖。与之前仅为基于编码器的PLMs设计的工作相比,Citss经过精心开发,兼容于基于编码器的PLMs和基于解码器的大型语言模型(LLMs),以利用扩展预训练的优势。我们在三个基准数据集上进行的实验表明,无论是基于编码器的PLMs还是基于解码器的LLMs,我们的方法都优于之前的最新技术。我们的代码可在此URL获取:this http URL |
[111] PlanGPT-VL:通过特定领域的视觉语言模型提升城市规划 标题: PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models 作者: He Zhu / Junyou Su / Minxi Chen / Wen Wang / Yijie Deng / Guanhua Chen / Wenjia Zhang 原文: [英文] [中文] 备注: None 摘要: 在城市规划领域,现有的视觉语言模型(VLMs)常常无法有效分析和评估规划地图,尽管这些视觉元素对城市规划者和相关教育环境至关重要。规划地图可视化了土地使用、基础设施布局和功能分区,需要对空间配置、法规要求和多尺度分析的专业理解。为了解决这一挑战,我们引入了PlanGPT-VL,这是首个专门为城市规划地图量身定制的领域特定视觉语言模型。PlanGPT-VL采用了三种创新方法:(1)PlanAnno-V框架用于高质量的视觉问答数据合成,(2)关键点思维通过结构化验证减少幻觉,(3)结合冻结视觉编码器参数的监督微调的综合训练方法。通过在我们提出的PlanBench-V基准上的系统评估,我们证明PlanGPT-VL在专业规划地图解释任务中显著优于通用的最先进VLMs,为城市规划专业人士提供了一个可靠的地图分析、评估和教育应用工具,同时保持高水平的事实准确性。我们的轻量级7B参数模型实现了与超过72B参数的模型相当的性能,展示了高效的领域专门化而不牺牲性能。 |
[112] MoMoE:用于人工智能辅助在线治理的多元化调节专家框架 标题: MoMoE: Mixture of Moderation Experts Framework for AI-Assisted Online Governance 作者: Agam Goyal / Xianyang Zhan / Yilun Chen / Koustuv Saha / Eshwar Chandrasekharan 原文: [英文] 备注: Preprint: 15 pages, 4 figures, 2 tables 摘要: 大型语言模型(LLMs)在标记在线社区中的有害内容方面展现了巨大潜力。然而,现有的审核方法需要为每个社区单独建立模型,并且其决策过程不透明,限制了在现实世界中的应用。我们引入了“混合审核专家”(MoMoE),这是一种模块化的跨社区框架,能够为可扩展的内容审核提供事后解释。MoMoE协调了四个操作——分配、预测、聚合、解释,并被具体化为七个社区专用专家(MoMoE-Community)和五个规范违规专家(MoMoE-NormVio)。在30个未见过的子版块中,最佳变体分别获得了0.72和0.67的Micro-F1分数,匹配或超越了经过强力微调的基线,同时始终生成简洁且可靠的解释。尽管社区专用专家提供了最高的峰值准确率,规范违规专家在各个领域中提供了更稳定的表现。这些发现表明,MoMoE能够在不需要针对每个社区进行微调的情况下实现可扩展且透明的审核。更广泛地说,它们表明轻量级、可解释的专家集成可以指导未来关于在线社区可信人机治理的NLP和HCI研究。 |
[113] 通过大型语言模型生成的理由增强多模态基于方面的情感分析 标题: Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales 作者: Jun Cao / Jiyi Li / Ziwei Yang / Renjie Zhou 原文: [英文] [中文] 备注: None 摘要: 近年来,多模态基于方面的情感分析(MABSA)引起了越来越多的关注。现有的方法主要依赖于预训练的小型语言模型(SLM)来从图像和文本中收集与方面和情感相关的信息,旨在对齐这两种模态。然而,小型SLM的能力和知识有限,往往导致在文本和视觉数据中对意义、方面、情感及其相互关系的识别不准确。另一方面,大型语言模型(LLM)在各种任务中表现出色,能够有效地探索多模态数据中的细粒度信息。然而,一些研究表明,在ABSA领域,LLM仍然不如经过微调的小型模型。基于这些发现,我们提出了一种新颖的框架,称为LRSA,该框架结合了SLM的决策能力和LLM提供的额外信息用于MABSA。具体来说,我们将LLM生成的解释作为理由注入到SLM中,并采用双重交叉注意力机制来增强特征交互和融合,从而提高SLM识别方面和情感的能力。我们使用两个基线模型评估了我们的方法,众多实验突显了我们的方法在三个广泛使用的基准上的优越性,表明其对大多数预训练模型在MABSA中的普适性和适用性。 |
[114] ModRWKV:线性时间中的Transformer多模态 标题: ModRWKV: Transformer Multimodality in Linear Time 作者: Jiale Kang / Ziyin Yue / Qingyu Yin / Jiang Rui / Weile Li / Zening Lu / Zhouran Ji 原文: [英文] [中文] 备注: None 摘要: 目前,大多数多模态研究基于具有二次复杂度Transformer架构的大型语言模型(LLMs)。虽然像RNN这样的线性模型享有较低的推理成本,但它们的应用主要局限于仅文本模态。本文探讨了现代RNN架构在多模态环境中的能力。我们提出了ModRWKV——一个基于RWKV7架构作为其LLM骨干的解耦多模态框架——通过动态可适应的异构模态编码器实现多源信息融合。我们在ModRWKV中设计了极其轻量级的多模态模块,并通过广泛的实验确定了一种在性能和计算效率之间实现最佳平衡的配置。ModRWKV利用RWKV7 LLM的预训练权重进行初始化,这显著加速了多模态训练。与不同预训练检查点的比较实验进一步表明,这种初始化在增强模型理解多模态信号的能力方面起着关键作用。通过广泛的实验支持,我们得出结论,现代RNN架构在多模态大型语言模型(MLLMs)领域中是Transformer的可行替代方案。此外,我们通过系统探索确定了ModRWKV架构的最佳配置。 |
[115] 探索逻辑形式的图表示在语言建模中的应用 标题: Exploring Graph Representations of Logical Forms for Language Modeling 作者: Michael Sullivan 原文: [英文] [中文] 备注: To be published in ACL 2025 Findings 摘要: 我们为逻辑形式语言模型(LFLMs)提出了论点,认为这种模型比其文本对应模型更具数据效率。为此,我们引入了基于图的形式逻辑分布语义(GFoLDS)原型,这是一种在逻辑形式的图表示上预训练的语言模型,作为LFLMs的概念验证。使用GFoLDS,我们提供了强有力的实验证据,表明LFLMs可以利用此类模型中内置的基本语言知识,立即开始学习更复杂的模式。在下游任务中,我们展示了GFoLDS远远优于在相似数据量上预训练的文本Transformer语言模型,这表明LFLMs可以用比纯文本模型少得多的数据进行学习。此外,我们展示了该模型的性能可能会随着额外参数和预训练数据的增加而提升,这表明LFLMs在实际应用中的可行性。 |
[116] 内部思维链:大型语言模型中分层子任务调度的实证证据 标题: Internal Chain-of-Thought: Empirical Evidence for Layer-wise Subtask Scheduling in LLMs 作者: Zhipeng Yang / Junzhuo Li / Siyu Xia / Xuming Hu 原文: [英文] [中文] 备注: 27 pages, 17 figures 摘要: 我们展示了大型语言模型(LLMs)表现出一种内部的思维链:它们逐层地顺序分解和执行复合任务。我们的研究基于两个论点:(i)不同的子任务在网络的不同深度被学习到,(ii)这些子任务在各层之间顺序执行。在一个包含15个两步复合任务的基准测试中,我们使用层级上下文屏蔽并提出了一种新颖的跨任务修补方法,证实了论点(i)。为了检验论点(ii),我们应用LogitLens来解码隐藏状态,揭示出一致的层级执行模式。我们进一步在真实世界的TRACE基准上复制了我们的分析,观察到相同的逐步动态。总体而言,我们的结果通过展示LLMs内部计划和执行子任务(或指令)的能力,提高了其透明度,并为细粒度的、指令级别的激活引导开辟了新的途径。 |
[117] 打破不良标记:使用稀疏自编码器对大型语言模型进行去毒化 标题: Breaking Bad Tokens: Detoxification of LLMs Using Sparse Autoencoders 作者: Agam Goyal / Vedant Rathi / William Yeh / Yian Wang / Yuen Chen / Hari Sundaram 原文: [英文] [中文] 备注: Preprint: 19 pages, 7 figures, 1 table 摘要: 大型语言模型(LLMs)如今在面向用户的应用中无处不在,但它们仍然会生成不良的有害输出,包括亵渎、粗俗和贬损性言论。尽管存在许多去毒化方法,但大多数方法仅应用广泛的、表面层次的修正,因此很容易被越狱攻击规避。在本文中,我们利用稀疏自编码器(SAEs)来识别模型残差流中与毒性相关的方向,并使用相应的解码器向量进行有针对性的激活引导。我们引入了三个级别的引导强度,并在GPT-2 Small和Gemma-2-2B上对其进行评估,揭示了毒性降低与语言流畅性之间的权衡。在较强的引导强度下,这些因果干预措施在减少毒性方面比竞争基线高出多达20%,尽管在GPT-2 Small上流畅性可能会根据引导的激进程度显著下降。重要的是,引导后的标准NLP基准分数保持稳定,表明模型的知识和一般能力得以保留。我们进一步表明,较宽的SAEs中的特征分裂阻碍了安全干预,强调了解耦特征学习的重要性。我们的研究结果突出了基于SAE的因果干预在LLM去毒化中的潜力和当前局限性,并进一步提出了更安全的语言模型部署的实用指南。 |
[118] KORGym:用于大语言模型推理评估的动态游戏平台 标题: KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation 作者: Jiajun Shi / Jian Yang / Jiaheng Liu / Xingyuan Bu / Jiangjie Chen / Junting Zhou / Kaijing Ma / Zhoufutu Wen / Bingli Wang / Yancheng He / Liang Song / Hualei Zhu / Shilong Li / Xingjian Wang / Wei Zhang / Ruibin Yuan / Yifan Yao / Wenjun Yang / Yunli Wang / Siyuan Fang / Siyu Yuan / Qianyu He / Xiangru Tang / Yingshui Tan / Wangchunshu Zhou / Zhaoxiang Zhang / Zhoujun Li / Wenhao Huang / Ge Zhang 原文: [英文] 备注: 22 pages 摘要: 最近在大型语言模型(LLMs)方面的进展强调了需要更全面的评估方法,以准确评估它们的推理能力。现有的基准测试往往是特定领域的,因此无法充分捕捉LLM的通用推理潜力。为了解决这一限制,我们引入了知识正交推理体操馆(KORGym),这是一个受KOR-Bench和Gymnasium启发的动态评估平台。KORGym提供了五十多种游戏,既有文本格式也有视觉格式,并支持交互式、多轮次的评估以及强化学习场景。利用KORGym,我们对19个LLM和8个VLM进行了广泛的实验,揭示了模型家族内一致的推理模式,并展示了闭源模型的优越性能。进一步的分析考察了模态、推理策略、强化学习技术和响应长度对模型性能的影响。我们期望KORGym能成为推进LLM推理研究和开发适合复杂、交互环境的评估方法的重要资源。 |
[119] 用于低资源机器翻译的枢轴语言 标题: Pivot Language for Low-Resource Machine Translation 作者: Abhimanyu Talwar / Julien Laasri 原文: [英文] [中文] 备注: 7 pages, 3 figures, paper dated May 13, 2019 摘要: 某些语言对缺乏规模大且领域多样的平行语料库。解决这一问题的方法之一是使用中介语言。在本文中,我们使用印地语作为中介语言,将尼泊尔语翻译成英语。我们描述了印地语作为中介语言的优势。我们讨论了如何使用中介语言,并采用了两种方法——转移法(完全监督)和反向翻译(半监督)——将尼泊尔语翻译成英语。使用前者,我们在开发测试集上实现了14.2的SacreBLEU分数,比(Guzman et al., 2019)报告的完全监督基线分数提高了6.6分。虽然我们略低于15.1的半监督基线分数,但我们讨论了可能导致这一表现不佳的原因,并提出了未来工作的方向。 |
[120] TRATES:基于特质的评分标准辅助跨题目作文评分 标题: TRATES: Trait-Specific Rubric-Assisted Cross-Prompt Essay Scoring 作者: Sohaila Eltanbouly / Salam Albatarni / Tamer Elsayed 原文: [英文] [中文] 备注: Accepted at ACL 2025 Findings 摘要: 对整体自动作文评分(AES)的研究由来已久;然而,对于根据个体特征评估作文的关注却明显不足。在这项工作中,我们提出了TRATES,这是一种新颖的特征特定和基于评分标准的跨题目AES框架,该框架既通用又针对底层特征。该框架利用大型语言模型(LLM),该模型利用特征评分标准生成特征特定的特征(通过评估问题表示),然后根据作文评估这些特征。特征特定的特征最终与通用的写作质量和题目特定的特征相结合,以训练一个简单的经典回归模型,该模型预测来自未见题目的作文的特征分数。实验表明,TRATES在一个广泛使用的数据集上,在所有特征上都达到了新的最先进的性能,其中生成的基于LLM的特征是最显著的。 |
[121] 剪枝能否改善推理?重新审视具有能力考量的长链推理压缩以提升推理能力 标题: Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning 作者: Shangziqi Zhao / Jiahao Yuan / Guisong Yang / Usman Naseem 原文: [英文] [中文] 备注: 17 pages,4 figures 摘要: 长链思维(Long-CoT)推理提高了大型语言模型(LLMs)的准确性,但其冗长的自我反思风格常常阻碍了向小型语言模型(SLMs)的有效蒸馏。我们通过能力对齐的视角重新审视Long-CoT压缩,并提出一个问题:剪枝能否改善推理?我们提出了Prune-on-Logic,这是一种结构感知框架,将Long-CoT转化为逻辑图,并在自我验证约束下选择性地剪除低效用的推理步骤。通过对三种剪枝策略——针对整个链条、核心推理和验证——的系统分析,我们发现剪除验证步骤在减少推理成本的同时,能够持续提高准确性,优于基于标记的基线和未压缩的微调。相比之下,剪除推理或整个链条步骤会降低性能,揭示出小型模型受益于语义上更精简的CoT,而不是更短的CoT。我们的研究结果强调剪枝作为一种结构优化策略,以便将CoT推理与SLM容量对齐。 |
[122] 上下文推理器:通过强化学习激励推理能力以实现情境化的隐私和安全合规 标题: Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning 作者: Wenbin Hu / Haoran Li / Huihao Jing / Qi Hu / Ziqian Zeng / Sirui Han / Heli Xu / Tianshu Chu / Peizhao Hu / Yangqiu Song 原文: [英文] [中文] 备注: None 摘要: 虽然大型语言模型(LLMs)表现出卓越的能力,但它们也带来了显著的安全和隐私风险。目前的缓解策略往往无法在风险场景中保持上下文推理能力。相反,它们严重依赖敏感模式匹配来保护LLMs,这限制了范围。此外,它们忽视了既定的安全和隐私标准,导致法律合规的系统性风险。为了解决这些问题,我们根据上下文完整性(CI)理论将安全和隐私问题制定为上下文化的合规问题。在CI框架下,我们使我们的模型与三个关键的监管标准保持一致:GDPR、欧盟人工智能法案和HIPAA。具体来说,我们采用基于规则的奖励的强化学习(RL),以激励上下文推理能力,同时增强对安全和隐私规范的合规性。通过广泛的实验,我们证明了我们的方法不仅显著提高了法律合规性(在安全/隐私基准测试中实现了+17.64%的准确性提升),而且进一步提高了总体推理能力。对于OpenThinker-7B,一个在各个主题上显著优于其基础模型Qwen2.5-7B-Instruct的强推理模型,我们的方法增强了其总体推理能力,在MMLU和LegalBench基准测试中分别实现了+2.05%和+8.98%的准确性提升。 |
[123] MCIP:通过模型上下文完整性协议保护MCP安全 标题: MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol 作者: Huihao Jing / Haoran Li / Wenbin Hu / Qi Hu / Heli Xu / Tianshu Chu / Peizhao Hu / Yangqiu Song 原文: [英文] 备注: 17 pages 摘要: 随着模型上下文协议(MCP)为用户和开发者引入了一个易于使用的生态系统,它也带来了尚未充分探索的安全风险。其去中心化的架构将客户端和服务器分离,这为系统化的安全分析带来了独特的挑战。本文提出了一个新颖的框架来增强MCP的安全性。在MAESTRO框架的指导下,我们首先分析了MCP中缺失的安全机制,并基于此分析,提出了模型上下文完整性协议(MCIP),这是MCP的一个改进版本,旨在解决这些安全问题。我们开发了一种细粒度的分类法,捕捉到MCP场景中观察到的各种不安全行为。基于此分类法,我们开发了基准和训练数据,以支持评估和改进大型语言模型(LLM)在识别MCP交互中的安全风险方面的能力。利用所提出的基准和训练数据,我们对最先进的LLM进行了广泛的实验。结果突显了LLM在MCP交互中的脆弱性,并证明我们的方法显著提高了它们的安全性能。 |
[124] 成功在于细节:通过反事实评估和增强代码大语言模型的细节敏感性 标题: Success is in the Details: Evaluate and Enhance Details Sensitivity of Code LLMs through Counterfactuals 作者: Xianzhen Luo / Qingfu Zhu / Zhiming Zhang / Mingzheng Xu / Tianhao Cheng / Yixuan Wang / Zheng Chu / Shijie Xuyang / Zhiyuan Ma / YuanTao Fan / Wanxiang Che 原文: [英文] [中文] 备注: Code & Model is this https URL 摘要: 代码敏感性是指代码大型语言模型(Code LLMs)识别和响应问题描述中细节变化的能力。当前的代码基准和指令数据主要关注难度和多样性,而忽视了敏感性。我们首先引入了CTF-Code基准,该基准通过反事实扰动构建,旨在最小化输入变化的同时最大化输出变化。评估结果显示,许多大型语言模型在与原始问题相比时,性能下降超过10%。为了充分利用敏感性,CTF-Instruct作为一个增量指令微调框架,基于现有数据进行扩展,并使用选择机制来满足难度、多样性和敏感性这三个维度。实验表明,使用CTF-Instruct数据微调的大型语言模型在CTF-Code上取得了超过2%的提升,并在LiveCodeBench上实现了超过10%的性能提升,验证了增强大型语言模型敏感性以提高性能的可行性。 |
[125] 迈向可靠的生物医学假设生成:评估大型语言模型中的真实性和幻觉 标题: Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models 作者: Guangzhi Xiong / Eric Xie / Corey Williams / Myles Kim / Amir Hassan Shariatmadari / Sikun Guo / Stefan Bekiranov / Aidong Zhang 原文: [英文] [中文] 备注: Accepted to IJCAI 2025 摘要: 大型语言模型(LLMs)在生物医学等科学领域展示了显著的潜力,特别是在假设生成方面,它们可以分析大量文献、识别模式并提出研究方向。然而,一个关键挑战在于评估生成假设的真实性,因为验证其准确性通常需要大量的时间和资源。此外,LLMs 的幻觉问题可能导致生成看似合理但最终不正确的假设,从而削弱其可靠性。为了系统地研究这些挑战,我们引入了 TruthHypo,这是一个用于评估 LLMs 在生成真实生物医学假设方面能力的基准,以及 KnowHD,一个基于知识的幻觉检测器,用于评估假设在现有知识中的基础性。我们的结果表明,LLMs 在生成真实假设方面存在困难。通过分析推理步骤中的幻觉,我们证明 KnowHD 提供的基础性评分是从 LLMs 的多样化输出中筛选真实假设的有效指标。人类评估进一步验证了 KnowHD 在识别真实假设和加速科学发现方面的实用性。我们的数据和源代码可在此 https URL 获得。 |
[126] sudoLLM:关于语言模型的多角色对齐 标题: sudoLLM : On Multi-role Alignment of Language Models 作者: Soumadeep Saha / Akshay Chaturvedi / Joy Mahapatra / Utpal Garain 原文: [英文] [中文] 备注: Under review. Code and data to be released later 摘要: 用户授权访问权限是许多安全关键系统中的一个关键特性,但在大型语言模型(LLM)领域中迄今为止尚未出现。在这项工作中,我们从这些访问控制系统中汲取灵感,介绍了sudoLLM,这是一种新颖的框架,能够实现多角色对齐的LLM,即考虑并根据用户访问权限行事的LLM。sudoLLM在查询中注入细微的基于用户的偏差,并训练LLM利用这种偏差信号,仅在用户被授权的情况下生成敏感信息。我们展示了实证结果,证明这种方法在对齐、泛化和抵御基于提示的越狱攻击方面有显著改善。语言建模目标与安全对齐之间的持续紧张关系,通常被用于越狱LLM,在注入的偏差信号的帮助下得到了一定程度的解决。我们的框架旨在作为一个额外的安全层,并补充现有的防护机制,以增强LLM的端到端安全性。 |
[127] 即使经过优化以欺骗检测器的语言模型仍然具有独特风格(以及如何改变它) 标题: Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It) 作者: Rafael Rivera Soto / Barry Chen / Nicholas Andrews 原文: [英文] [中文] 备注: None 摘要: 尽管在机器文本检测器的开发方面取得了相当大的进展,但有人认为这个问题本质上是困难的,因此,利益相关者应该假设机器生成的文本无法可靠地被检测出来。我们研究了Nicks等人(2024年)最近提出的一个关于语言模型可以轻松优化以降低机器文本检测器性能的说法,包括那些未专门针对优化的检测器。我们识别了一个特征空间——风格特征空间——它对这种优化具有鲁棒性,并展示了它可以用于可靠地检测经过优化以防止检测的语言模型样本。此外,我们展示了即使模型被明确优化以对抗风格检测器,检测性能仍然出乎意料地不受影响。然后,我们试图理解风格检测器是否本质上更具鲁棒性。为了研究这个问题,我们探索了一种新的释义方法,该方法旨在同时缩小人类写作和机器写作在风格特征空间中的差距,同时避免使用传统特征进行检测。我们展示了当只有一个样本可用于检测时,这种攻击在所有考虑的检测器中都是普遍有效的,包括那些使用写作风格的检测器。然而,随着可用于检测的样本数量增加,人类和机器的分布变得可以区分。这个观察促使我们引入AURA,一种通过分析随着更多样本可用时检测器性能如何提高来估计人类和机器生成分布之间重叠的度量。总体而言,我们的研究结果强调了之前的建议,即避免依赖机器文本检测。 |
[128] 测试意识的线性控制揭示了推理模型中的差异化依从性 标题: Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models 作者: Sahar Abdelnabi / Ahmed Salem 原文: [英文] [中文] 备注: None 摘要: 推理为主的大型语言模型(LLMs)有时会在检测到自己正在被评估时改变其行为,这种效应类似于霍桑效应,可能导致它们优化以通过测试的表现,或者在现实世界后果似乎不存在时更容易遵从有害的提示。我们首次对这种“测试意识”如何影响模型行为,特别是其安全对齐性进行了定量研究。我们引入了一个白盒探测框架,该框架(i)线性识别与意识相关的激活,并且(ii)在监控下游性能的同时引导模型朝向或远离测试意识。我们将我们的方法应用于不同的最先进的开源推理LLMs,涵盖现实和假设任务。我们的结果表明,测试意识显著影响安全对齐性,并且对不同的模型有不同的影响。通过对这种潜在效应提供细粒度的控制,我们的工作旨在增加对我们如何进行安全评估的信任。 |
[129] 仅在需要时思考:大型混合推理模型 标题: Think Only When You Need with Large Hybrid-Reasoning Models 作者: Lingjie Jiang / Xun Wu / Shaohan Huang / Qingxiu Dong / Zewen Chi / Li Dong / Xingxing Zhang / Tengchao Lv / Lei Cui / Furu Wei 原文: [英文] [中文] 备注: None 摘要: 最近的大型推理模型(LRMs)通过在生成最终回答之前引入扩展的思考过程,展示了比传统大型语言模型(LLMs)显著提高的推理能力。然而,过长的思考过程在令牌消耗和延迟方面引入了大量开销,对于简单查询来说尤其不必要。在这项工作中,我们引入了大型混合推理模型(LHRMs),这是第一种能够根据用户查询的上下文信息自适应地决定是否进行思考的模型。为实现这一目标,我们提出了一个由混合微调(HFT)作为冷启动的两阶段训练流程,随后通过提出的混合群体策略优化(HGPO)进行在线强化学习,以隐式学习选择适当的思考模式。此外,我们引入了一个称为混合准确率的指标,以定量评估模型的混合思考能力。大量实验结果表明,LHRMs能够自适应地对不同难度和类型的查询进行混合思考。它在推理和通用能力上优于现有的LRMs和LLMs,同时显著提高了效率。总之,我们的工作倡导重新考虑扩展思考过程的适当使用,并为构建混合思考系统提供了一个坚实的起点。 |
[130] 人工智能会为了拯救生病的孩子而撒谎吗?通过AIRiskDilemmas测试AI价值优先级 标题: Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas 作者: Yu Ying Chiu / Zhilin Wang / Sharan Maiya / Yejin Choi / Kyle Fish / Sydney Levine / Evan Hubinger 原文: [英文] [中文] 备注: 34 pages, 11 figures, see associated data at this https URL and code at this https URL 摘要: 随着更强大的模型出现并找到诸如“对齐伪装”等新方法来规避这些检测尝试,检测人工智能风险变得更加具有挑战性。受到人类中风险行为(即可能伤害他人的非法活动)有时由强烈的价值观引导的启发,我们认为识别人工智能模型中的价值观可以成为人工智能风险行为的早期预警系统。我们创建了LitmusValues,一个评估流程,用于揭示人工智能模型在一系列人工智能价值类别上的优先级。然后,我们收集了AIRiskDilemmas,一个多样化的困境集合,在与人工智能安全风险相关的场景中(如权力寻求)将价值观相互对立。通过测量人工智能模型使用其整体选择的价值优先级,我们获得了一组自洽的预测价值优先级,揭示潜在风险。我们展示了LitmusValues中的价值观(包括看似无害的价值观如关怀)可以预测AIRiskDilemmas中已知的风险行为以及HarmBench中未知的风险行为。 |
[131] 通用推理器:推进大语言模型在各领域的推理能力 标题: General-Reasoner: Advancing LLM Reasoning Across All Domains 作者: Xueguang Ma / Qian Liu / Dongfu Jiang / Ge Zhang / Zejun Ma / Wenhu Chen 原文: [英文] [中文] 备注: None 摘要: 强化学习(RL)最近在增强大型语言模型(LLMs)的推理能力方面展示了强大的潜力。特别是由Deepseek-R1-Zero引入的“Zero”强化学习,使得基础LLMs可以直接进行RL训练,而无需依赖中间的监督微调阶段。尽管有这些进展,目前LLM推理的工作主要集中在数学和编码领域,主要是由于数据丰富和答案验证的便利性。这限制了此类模型在更广泛领域的适用性和泛化能力,在这些领域中,问题通常具有多样化的答案表示,且数据较为稀缺。在本文中,我们提出了General-Reasoner,一种旨在增强LLM在多样化领域中推理能力的新颖训练范式。我们的主要贡献包括:(1)构建了一个通过网络爬虫整理的大规模、高质量的可验证答案问题数据集,涵盖了广泛的学科;(2)开发了一种基于生成模型的答案验证器,用链式思维和上下文意识能力替代传统的基于规则的验证。我们训练了一系列模型,并在涵盖物理、化学、金融、电子等广泛领域的数据集上进行评估。我们在这些12个基准(例如MMLU-Pro、GPQA、SuperGPQA、TheoremQA、BBEH和MATH AMC)上的全面评估表明,General-Reasoner优于现有的基线方法,在保持数学推理任务的卓越有效性的同时,实现了稳健且可泛化的推理性能。 |
[132] EmoGist:用于视觉情感理解的高效上下文学习 标题: EmoGist: Efficient In-Context Learning for Visual Emotion Understanding 作者: Ronald Seoh / Dan Goldwasser 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们介绍了EmoGist,这是一种无需训练的上下文学习方法,用于利用大型视觉语言模型(LVLMs)进行视觉情感分类。我们方法的核心直觉是,情感标签的上下文相关定义可以更准确地预测情感,因为情感在图像中的表现方式高度依赖于上下文并且非常微妙。EmoGist通过分析属于每个类别的示例图像的聚类,预生成多个情感标签的解释。在测试时,我们基于嵌入相似性检索一个解释版本,并将其输入到快速视觉语言模型中进行分类。通过我们的实验,我们展示了EmoGist在多标签Memotion数据集上可以提高微F1分数最多13点,在多类FI数据集上可以提高宏F1分数最多8点。 |
[133] 奖励推理模型 标题: Reward Reasoning Model 作者: Jiaxin Guo / Zewen Chi / Li Dong / Qingxiu Dong / Xun Wu / Shaohan Huang / Furu Wei 原文: [英文] [中文] 备注: None 摘要: 奖励模型在引导大型语言模型生成符合人类期望的输出方面发挥着关键作用。然而,如何有效利用测试时的计算能力来提升奖励模型的性能仍然是一个开放的挑战。在这项工作中,我们引入了奖励推理模型(RRMs),这些模型专门设计用于在生成最终奖励之前执行深思熟虑的推理过程。通过链式思维推理,RRMs在复杂查询中利用额外的测试时计算能力,以便在适当的奖励不立即显现时进行推理。为了开发RRMs,我们实施了一个强化学习框架,该框架促进了自我演化的奖励推理能力,而无需将显式推理轨迹作为训练数据。实验结果表明,RRMs在不同领域的奖励建模基准测试中表现优异。值得注意的是,我们展示了RRMs可以自适应地利用测试时计算能力进一步提高奖励准确性。预训练的奖励推理模型可以在这个https URL上获得。 |
[134] UltraEdit:在大型语言模型中实现无训练、无主体、无记忆的终身编辑 标题: UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models 作者: Xiaojie Gu / Guangxu Chen / Jungang Li / Jia-Chen Gu / Xuming Hu / Kai Zhang 原文: [英文] [中文] 备注: None 摘要: 终身学习使大型语言模型(LLMs)能够通过不断更新其内部知识来适应不断变化的信息。一个理想的系统应该支持高效、广泛的更新,同时保留现有能力并确保可靠的部署。模型编辑作为实现这一目标的一个有前途的解决方案,提供了一种专注且高效的方式来修订模型的内部知识。尽管最近的范式取得了显著进展,但它们往往难以满足大规模实际终身适应的需求。为弥合这一差距,我们提出了ULTRAEDIT——一种从根本上新的编辑解决方案,它无需训练、主题和记忆,使其特别适合于超大规模、真实世界的终身模型编辑。ULTRAEDIT通过一个自包含的过程进行编辑,该过程仅依赖于轻量级线性代数运算来计算参数变化,从而实现快速且一致的参数修改,开销极小。为了提高终身环境中的可扩展性,ULTRAEDIT采用了一种终身归一化策略,持续更新各轮次的特征统计,使其能够适应分布变化并在时间上保持一致性。ULTRAEDIT的编辑速度比之前的最先进方法快7倍以上,而后者也是已知最快的方法,同时消耗的显存不到1/3,使其成为目前唯一能够在24GB消费级GPU上编辑7B LLM的方法。此外,我们构建了ULTRAEDITBENCH——迄今为止该领域最大的数据库,拥有超过200万个编辑对,并证明我们的方法支持多达100万次编辑,同时保持高精度。在四个数据集和六个模型上的综合实验表明,ULTRAEDIT在各种模型编辑场景中始终实现了卓越的性能。我们的代码可在此URL获取。 |
[135] 注意差距:弥合思维跳跃以改进思维链调优 标题: Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning 作者: Haolei Xu / Yuchen Yan / Yongliang Shen / Wenqi Zhang / Guiyang Hou / Shengpei Jiang / Kaitao Song / Weiming Lu / Jun Xiao / Yueting Zhuang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)通过链式思维(CoT)推理在数学任务上取得了显著进展。然而,现有的数学CoT数据集由于专家省略中间步骤,常常存在思维跳跃的问题,这对模型的学习和泛化产生了负面影响。我们提出了CoT思维跳跃桥接任务,旨在自动检测跳跃并生成缺失的中间推理步骤,以恢复CoT的完整性和连贯性。为此,我们基于结构化的ScaleQuestMath数据集构建了一个名为ScaleQM+的专门训练数据集,并训练了CoT-Bridge来弥合思维跳跃。通过在数学推理基准上的全面实验,我们证明了在桥接数据集上微调的模型始终优于在原始数据集上训练的模型,在NuminaMath上提升了高达+5.87%。我们的方法有效地增强了蒸馏数据(+3.02%),并为强化学习提供了更好的起点(+3.1%),作为一个即插即用的模块,与现有的优化技术兼容。此外,CoT-Bridge在域外逻辑推理任务中表现出更好的泛化能力,证实了增强推理完整性带来了广泛适用的好处。 |
[136] 语言模型使用回溯来追踪信念 标题: Language Models use Lookbacks to Track Beliefs 作者: Nikhil Prakash / Natalie Shapira / Arnab Sen Sharma / Christoph Riedl / Yonatan Belinkov / Tamar Rott Shaham / David Bau / Atticus Geiger 原文: [英文] [中文] 备注: 32 pages, 32 figures. Code and data at this https URL 摘要: 语言模型(LMs)如何表示角色的信念,尤其是当这些信念可能与现实不符时?这个问题是理解语言模型的心智理论(ToM)能力的核心。我们通过因果中介和抽象分析了Llama-3-70B-Instruct在推理角色信念方面的能力。我们构建了一个数据集,其中包含简单的故事,两个角色分别改变两个物体的状态,可能对彼此的行为不知情。我们的研究揭示了一种普遍存在的算法模式,我们称之为回溯机制,它使语言模型能够在必要时回忆重要信息。语言模型通过将每个角色-物体-状态三元组绑定在一起,协同定位关于它们的参考信息,这些信息在状态标记的残差流的低秩子空间中表示为它们的排序ID(OIs)。当被问及角色对物体状态的信念时,绑定回溯机制检索相应的状态OI,然后答案回溯机制检索状态标记。当我们引入文本指定一个角色对另一个角色是否可见时,我们发现语言模型首先生成一个可见性ID,编码观察角色与被观察角色OIs之间的关系。在可见性回溯中,该ID用于检索关于被观察角色的信息并更新观察角色的信念。我们的工作提供了对语言模型信念追踪机制的见解,向逆向工程语言模型中的心智理论推理迈出了一步。 |