![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年6月3日更新论文235篇
|
[1] 阿玛迪斯-动词技术报告:强大的Qwen2.5系列模型在葡萄牙语中的训练 标题: Amadeus-Verbo Technical Report: The powerful Qwen2.5 family models trained in Portuguese 作者: William Alberto Cruz-Castañeda / Marcellus Amadeus 原文: [英文] [中文] 备注: None 摘要: 本报告介绍了开发 Amadeus Verbo 的经验,这是一系列用于巴西葡萄牙语的大型语言模型。为了应对多样化的使用场景,Amadeus Verbo 包括基础调优、合并和指令调优的模型,参数规模分别为 0.5B、1.5B、3B、7B、14B、32B 和 72B。因此,主要目标是展示在数据和资源可用的情况下,如何轻松微调基础模型,以实现巴西葡萄牙语大型语言模型的开源开发民主化。Amadeus-Verbo 系列模型均可在 HuggingFace 上通过此 URL 获取。 |
[2] 利用PHYSICS数据集扩展物理推理能力 标题: Scaling Physical Reasoning with the PHYSICS Dataset 作者: Shenghe Zheng / Qianjia Cheng / Junchi Yao / Mengsong Wu / haonan he / Ning Ding / Yu Cheng / Shuyue Hu / Lei Bai / Dongzhan Zhou / Ganqu Cui / Peng Ye 原文: [英文] [中文] 备注: Work on physical datasets 摘要: 大型语言模型(LLMs)在数学和编程竞赛等高级推理任务上取得了显著进展。然而,尽管物理学既需要大量推理又对现实世界的理解至关重要,却在学术界和工业界受到的关注有限。本文介绍了PHYSICS,一个包含16,568个高质量物理问题的数据集,涵盖多个学科和难度级别,以解决这一问题。具体而言,PHYSICS通过精心设计的质量控制流程,从100多本教材中精选练习题。它涵盖了五大物理领域:力学、电磁学、热力学、光学和现代物理学。难度范围也很广,从高中到研究生水平的物理课程。为了利用这些数据来提高和评估模型的物理推理能力,我们将数据集分为训练集和测试集,并为训练数据提供由强大的推理模型生成的推理路径,以促进模型训练。此外,在评估部分,我们发现现有的评估框架在单位、简化和精度等方面存在偏差。为了平衡效率和准确性,我们引入了一个专为物理问题设计的规则+模型评估框架。我们对当前最先进的开源和专有模型的评估突出了当前模型在处理物理相关任务时的局限性。我们希望我们的数据集和评估方法能够共同推动LLMs在物理学领域的发展。 |
[3] 从数学推理到代码:测试时扩展中过程奖励模型的泛化 标题: From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling 作者: Zhengyu Chen / Yudong Wang / Teng Xiao / Ruochen Zhou / Xuesheng Yang / Wei Wang / Zhifang Sui / Jingang Wang 原文: [英文] [中文] 备注: None 摘要: 最近在提升大型语言模型推理能力方面的进展强调了过程奖励模型(PRMs)在通过结构化反馈机制解决中间错误方面的有效性。本研究从多个角度分析了PRMs,包括训练方法、可扩展性和泛化能力。我们研究了预训练和奖励模型训练的浮点运算(FLOPs)之间的相互作用,以评估它们对PRM在复杂推理任务中效率和准确性的影响。我们的分析揭示了随着PRM规模的增加,性能收益递减的模式,突出了平衡模型规模和计算成本的重要性。此外,训练数据集的多样性显著影响PRM的性能,强调了多样化数据对于提高准确性和效率的重要性。我们进一步研究了测试时的扩展策略,发现当计算资源充足时,蒙特卡罗树搜索是最有效的方法,而在资源有限的情况下,Best-of-N采样是一个实用的替代方案。值得注意的是,我们的研究结果表明,在数学数据集上训练的PRMs表现与为代码生成量身定制的PRMs相当,表明其具有强大的跨领域泛化能力。通过使用基于梯度的度量,我们观察到PRMs倾向于选择具有相似底层模式的响应,这进一步为其优化提供了信息。 |
[4] 通过分层错误清单增强大型语言模型的工具学习 标题: Enhancing Tool Learning in Large Language Models with Hierarchical Error Checklists 作者: Yue Cui / Liuyi Yao / Shuchang Tao / Weijie Shi / Yaliang Li / Bolin Ding / Xiaofang Zhou 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)在自然语言处理方面取得了显著进展,特别是在整合外部工具和API方面。然而,它们的有效性常常因工具调用时参数填充错误而受到影响。在本文中,我们提出了分层工具错误检查表(HiTEC)框架,以系统地诊断和缓解工具调用错误,而无需依赖广泛的真实世界交互。HiTEC引入了两级方法:一个全球错误检查表,用于识别常见的跨工具问题,以及一个本地错误检查表,针对特定工具和上下文的失败。在此结构的基础上,我们提出了两种部署:HiTEC-上下文学习(HiTEC-ICL)和HiTEC-Kahneman-Tversky优化(HiTEC-KTO)。HiTEC-ICL在初始提示中嵌入全球检查表,并利用两轮对话交互动态优化参数处理,而HiTEC-KTO则生成高质量的负面示例,通过基于偏好的优化进行微调。跨五个公共数据集的大量实验表明,与基线方法相比,我们的框架显著提高了参数填充的准确性和工具调用的成功率。 |
[5] 解开SITT:社交影响技术分类法及其与大型语言模型的检测 标题: Unraveling SITT: Social Influence Technique Taxonomy and Detection with LLMs 作者: Wiktoria Mieleszczenko-Kowszewicz / Beata Bajcar / Aleksander Szczęsny / Maciej Markiewicz / Jolanta Babiak / Berenika Dyczek / Przemysław Kazienko 原文: [英文] [中文] 备注: None 摘要: 在这项工作中,我们提出了社会影响技术分类法(SITT),这是一个由58种实证技术组成的综合框架,分为九个类别,旨在检测文本内容中微妙的社会影响形式。我们还研究了大型语言模型(LLMs)识别各种社会影响形式的能力。基于跨学科的基础,我们构建了SITT数据集——一个由11位专家用波兰语注释并翻译成英语的746对话语料库——以评估LLMs识别这些技术的能力。通过使用分层多标签分类设置,我们对五个LLMs进行了基准测试,包括GPT-4o、Claude 3.5、Llama-3.1、Mixtral和PLLuM。我们的结果显示,尽管一些模型,特别是Claude 3.5,取得了中等成功(类别的F1得分为0.45),但总体上模型的性能仍然有限,尤其是在上下文敏感的技术方面。研究结果表明,当前LLMs在对细微语言线索的敏感性方面存在关键限制,并强调了领域特定微调的重要性。这项工作为理解LLMs如何在自然对话中检测、分类和潜在复制社会影响策略提供了新的资源和评估示例。 |
[6] 误提示:大型语言模型的主动错误处理基准测试 标题: Mis-prompt: Benchmarking Large Language Models for Proactive Error Handling 作者: Jiayi Zeng / Yizhe Feng / Mengliang He / Wenhui Lei / Wei Zhang / Zeming Liu / Xiaoming Shi / Aimin Zhou 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在错误处理方面展示了显著的进步。目前的错误处理工作是以被动方式进行的,依赖于明确的错误处理指令。然而,在现实世界的场景中,明确的错误处理指令通常是不可用的。在本文中,我们的工作将这一挑战识别为如何在没有明确错误处理指令的情况下进行主动错误处理。为了促进进一步的研究,本文引入了一个新的基准,称为Mis-prompt,包括四个评估任务、一个错误类别分类法和一个新的评估数据集。此外,本文分析了当前LLMs在该基准上的表现,实验结果表明,当前LLMs在主动错误处理方面表现不佳,而在错误处理实例上的SFT(监督微调)可以提高LLMs的主动错误处理能力。该数据集将公开提供。 |
[7] 你更喜欢这个,我更喜欢你的:对人类和多模态语言模型来说,使用指代词比使用词汇词更难 标题: You Prefer This One, I Prefer Yours: Using Reference Words is Harder Than Vocabulary Words for Humans and Multimodal Language Models 作者: Dota Tianai Dong / Yifan Luo / Po-Ya Angela Wang / Asli Ozyurek / Paula Rubio-Fernandez 原文: [英文] [中文] 备注: 8 pages 摘要: 多模态语言模型(MLMs)越来越多地以类似人类的方式进行交流,但它们使用指代词的能力在很大程度上被忽视了,尽管指代词在日常交流中无处不在。我们的研究通过比较人类和MLM在三类词汇上的使用来解决这一差距,这三类词汇具有递增的认知需求:词汇词、物主代词(“我的”与“你的”)和指示代词(“这个”与“那个”)。在评估七个最先进的MLM与人类参与者的表现时,我们观察到一个明显的难度层次:虽然MLM在词汇任务上接近人类水平,但在物主代词和指示代词上表现出显著的不足。我们的分析表明,这些困难源于视角转换和空间推理的局限性。尽管通过提示工程提高了模型在物主代词使用上的表现,但指示代词的使用仍远低于人类水平的能力。这些发现提供了理论和实证证据,表明当前的自然语言处理系统在生成需要语用学和社会认知的语法形式方面仍然面临明显挑战。 |
[8] 探测多语言大型语言模型中的政治经济偏见:对低资源巴基斯坦语言的文化分析 标题: Probing Politico-Economic Bias in Multilingual Large Language Models: A Cultural Analysis of Low-Resource Pakistani Languages 作者: Afrozah Nadeem / Mark Dras / Usman Naseem 原文: [英文] [中文] 备注: Preprint 摘要: 大型语言模型(LLMs)正日益影响公共话语,但其在非西方和低资源多语言环境中的政治经济偏见仍未得到充分研究。本文对13个最先进的LLMs在巴基斯坦使用的五种低资源语言(乌尔都语、旁遮普语、信德语、俾路支语和普什图语)中的政治偏见进行了系统分析。我们提出了一个新颖的框架,将改编的政治罗盘测试(PCT)与多层次框架分析相结合。我们的方法结合了对经济(左-右)和社会(自由主义-权威主义)轴线上政治取向的定量评估,以及通过内容、风格和重点进行的框架定性分析。我们进一步通过将提示与11个与巴基斯坦社会相关的关键社会政治主题对齐来对这一分析进行背景化。我们的结果显示,LLMs主要与自由左派价值观一致,反映了西方训练数据的影响,但在区域语言中表现出显著的向权威主义框架的转变,表明强烈的文化调节效应。我们还识别出一致的模型特定偏见特征和意识形态表达中的语言条件变化。这些发现表明迫切需要文化基础的多语言偏见审计框架。 |
[9] 评估大型语言模型对先前上下文的敏感性 标题: Evaluating the Sensitivity of LLMs to Prior Context 作者: Robert Hankache / Kingsley Nketia Acheampong / Liang Song / Marek Brynda / Raad Khraishi / Greig A. Cowan 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型(LLMs)越来越多地被部署在多轮对话和其他持续交互场景中,了解扩展上下文如何影响其性能变得至关重要。流行的基准测试主要关注单轮问答(QA)任务,未能捕捉多轮交流的影响。为了解决这一差距,我们引入了一套新颖的基准测试,系统地改变先前上下文的量和性质。我们在这些基准上评估了包括GPT、Claude和Gemini在内的多个传统LLM,以测量它们对上下文变化的敏感性。我们的研究结果表明,在多轮交互中,LLM在多项选择题上的性能可能会显著下降,某些模型的性能下降幅度高达73%。即使是像GPT-4o这样能力很强的模型,其准确率也会下降多达32%。值得注意的是,较大模型与较小模型的相对性能并不总是可预测的。此外,任务描述在上下文中的战略性放置可以大大缓解性能下降,将准确率提高多达3.5倍。这些发现强调了设计、评估和缓解LLM上下文相关敏感性所需的稳健策略。 |
[10] 高斯混合模型作为交互语言模型的代理 标题: Gaussian mixture models as a proxy for interacting language models 作者: Edward Wang / Tianyu Wang / Avanti Athreya / Vince Lyzinski / Carey E. Priebe 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)是一种强大的工具,能够在许多环境中匹配人类的能力和行为。检索增强生成(RAG)进一步允许LLMs根据其RAG数据库的内容生成多样化的输出。这激发了在社会科学中使用它们来研究当大规模实验不可行时个体之间的人类行为。然而,LLMs依赖于复杂且计算成本高的算法。在本文中,我们引入了交互高斯混合模型(GMMs)作为使用LLMs的类似框架的替代方案。我们将简化的GMMs模型与选择LLMs的实验模拟进行比较,其更新和响应依赖于其他LLMs的反馈。我们发现,交互GMMs捕捉到了交互LLMs动态的重要特征,并研究了交互LLMs和GMMs之间的关键相似性和差异。最后,我们讨论了高斯混合模型的优点、潜在的修改以及未来的研究方向。 |
[11] COSMIC:LLM激活中的广义拒绝方向识别 标题: COSMIC: Generalized Refusal Direction Identification in LLM Activations 作者: Vincent Siu / Nicholas Crispino / Zihao Yu / Sam Pan / Zhun Wang / Yang Liu / Dawn Song / Chenguang Wang 原文: [英文] [中文] 备注: 9 pages, Accepted to ACL 2025 Findings 摘要: 大型语言模型(LLMs)在其激活空间中编码了诸如拒绝等行为,但识别这些行为仍然是一个重大挑战。现有的方法通常依赖于在输出标记中可检测的预定义拒绝模板或需要人工分析。我们引入了\textbf{COSMIC}(概念反转的余弦相似度度量),这是一种自动化的方向选择框架,使用余弦相似度识别可行的引导方向和目标层——完全独立于模型输出。COSMIC 在不需要关于模型拒绝行为的假设(例如特定拒绝标记的存在)的情况下,实现了与先前方法相当的引导性能。它能够在对抗性环境和弱对齐模型中可靠地识别拒绝方向,并能够在最小化错误拒绝增加的情况下,将此类模型引导至更安全的行为,展示了在广泛的对齐条件下的稳健性。 |
[12] SwitchLingua:首个大规模多语言和多民族的代码转换数据集 标题: SwitchLingua: The First Large-Scale Multilingual and Multi-Ethnic Code-Switching Dataset 作者: Peng Xie / Xingyuan Liu / Tsz Wai Chan / Yequan Bie / Yangqiu Song / Yang Wang / Hao Chen / Kani Chen 原文: [英文] [中文] 备注: None 摘要: 代码转换(Code-switching, CS)是指在一次对话或话语中交替使用两种或多种语言,这通常受到社会背景和说话者身份的影响。这种语言现象对自动语音识别(ASR)系统提出了挑战,因为这些系统通常是为单一语言设计的,难以处理多语言输入。全球对多语言应用的需求日益增长,包括代码转换语音识别(CSASR)、文本转语音(CSTTS)和跨语言信息检索(CLIR),这凸显了现有单语数据集的不足。 尽管已经存在一些代码转换数据集,但大多数仅限于同质族群内的双语混合,因此迫切需要一个类似于计算机视觉领域的ImageNet的大规模、多样化基准。 为弥补这一差距,我们引入了\textbf{LinguaMaster},一个专为高效和可扩展的多语言数据合成而设计的多代理协作框架。利用这一框架,我们整理了\textbf{SwitchLingua},这是第一个大规模多语言和多族群代码转换数据集,包括:(1)跨12种语言的42万条代码转换文本样本,以及(2)基于文本数据的来自18个国家/地区和63个种族/族裔背景的174名说话者的80多小时音频录音。该数据集捕捉了丰富的语言和文化多样性,为推进多语言和多文化研究提供了基础资源。此外,为了解决现有ASR评估指标对代码转换场景缺乏敏感性的问题,我们提出了\textbf{语义感知错误率(SAER)},这是一种新颖的评估指标,结合了语义信息,提供了更准确和具上下文感知的系统性能评估。 |
[13] HD-NDEs:用于大语言模型幻觉检测的神经微分方程 标题: HD-NDEs: Neural Differential Equations for Hallucination Detection in LLMs 作者: Qing Li / Jiahui Geng / Zongxiong Chen / Derui Zhu / Yuxia Wang / Congbo Ma / Chenyang Lyu / Fakhri Karray 原文: [英文] [中文] 备注: None 摘要: 近年来,大型语言模型(LLMs)取得了显著的进展,但幻觉现象,即模型生成不准确或不符合事实的陈述,仍然是实际应用中的一大挑战。尽管当前基于分类的方法(如SAPLMA)在减轻幻觉方面非常高效,但当非事实信息出现在输出的早期或中期时,它们的表现不佳,从而降低了其可靠性。为了解决这些问题,我们提出了幻觉检测-神经微分方程(HD-NDEs),这是一种通过捕捉LLMs在其潜在空间内的完整动态来系统评估陈述真实性的新方法。我们的方法应用神经微分方程(Neural DEs)来建模LLMs潜在空间中的动态系统。然后,将潜在空间中的序列映射到分类空间以进行真实性评估。在五个数据集和六个广泛使用的LLMs上的广泛实验表明,HD-NDEs的有效性,尤其是在True-False数据集上,AUC-ROC提高了超过14%,优于最先进的技术。 |
[14] Writing-Zero:弥合不可验证问题与可验证奖励之间的差距 标题: Writing-Zero: Bridge the Gap Between Non-verifiable Problems and Verifiable Rewards 作者: Xun Lu 原文: [英文] [中文] 备注: None 摘要: 通过可验证奖励的强化学习(RLVR)使得大型语言模型(LLMs)在具有客观真实答案的推理任务中取得了显著突破,例如数学和代码生成。然而,对于非可验证任务,如创意写作和开放式对话,仍然存在显著差距,因为质量评估本质上是主观的,缺乏明确的参考。现有针对这些领域的方法通常依赖于通过人类偏好训练的标量奖励模型,这些模型在泛化能力上有限,并容易受到奖励作弊的影响,例如过度解释和长度偏差。在这项工作中,我们提出了一种统一的基于RLVR的训练范式,旨在弥合非可验证任务与可验证奖励之间的差距。我们引入了一种基于写作原则的成对生成奖励模型(GenRM)和一种新颖的自举相对策略优化(BRPO)算法。成对写作GenRM利用自我原则批判将主观评估转化为可靠的、可验证的奖励,而BRPO通过在RL训练期间利用组内回滚中的自举响应作为临时参考,实现动态、无参考的成对比较。我们的方法使LLMs能够在没有监督微调的情况下发展强大的写作能力,正如Writing-Zero所展示的,与标量奖励基线相比,表现出持续改进和对奖励作弊的强大抵抗力。此外,我们的方法在内部和开源写作基准测试中取得了竞争性结果。我们的研究结果表明,有可能在RLVR框架下统一基于规则、基于参考和无参考的奖励建模,从而为适用于所有语言任务的全面且可扩展的RL训练范式铺平道路。 |
[15] 虚假相关及其超越:理解和缓解大型语言模型在社会决定因素提取中的捷径学习 标题: Spurious Correlations and Beyond: Understanding and Mitigating Shortcut Learning in SDOH Extraction with Large Language Models 作者: Fardin Ahsan Sakib / Ziwei Zhu / Karen Trister Grace / Meliha Yetisgen / Ozlem Uzuner 原文: [英文] [中文] 备注: None 摘要: 从临床文本中提取健康的社会决定因素(SDOH)对于下游的医疗分析至关重要。尽管大型语言模型(LLM)显示出潜力,但它们可能依赖于表面线索,从而导致虚假的预测。通过使用SHAC(社会历史注释语料库)数据集中的MIMIC部分,并以药物状态提取作为案例研究,我们展示了酒精或吸烟的提及可以错误地导致模型预测当前/过去的药物使用,而实际上并不存在,同时还揭示了模型性能中令人担忧的性别差异。我们进一步评估了缓解策略——例如提示工程和链式思维推理——以减少这些误报,从而为提高健康领域中LLM的可靠性提供了见解。 |
[16] LaMP-QA:个性化长篇问答的基准测试 标题: LaMP-QA: A Benchmark for Personalized Long-form Question Answering 作者: Alireza Salemi / Hamed Zamani 原文: [英文] [中文] 备注: None 摘要: 个性化对于以用户为中心的问题回答系统至关重要。尽管个性化很重要,但在答案生成中的个性化研究相对较少。这主要是由于缺乏用于训练和评估个性化问答系统的资源。我们通过引入LaMP-QA来填补这一空白——一个用于评估个性化长篇答案生成的基准。该基准涵盖了三个主要类别的问题:(1)艺术与娱乐,(2)生活方式与个人发展,以及(3)社会与文化,总共包含超过45个子类别。为了评估LaMP-QA基准在个性化问答中的质量和潜在影响,我们进行了全面的人类和自动评估,以比较多种评估策略来评估生成的个性化响应,并衡量它们与人类偏好的一致性。此外,我们基于开源和专有的大型语言模型(LLMs)对多种非个性化和个性化方法进行了基准测试。我们的结果表明,结合提供的个性化背景可以使性能提高最多39%。该基准已公开发布,以支持该领域的未来研究。 |
[17] Vedavani:用于吠陀梵语诗歌语音识别的基准语料库 标题: Vedavani: A Benchmark Corpus for ASR on Vedic Sanskrit Poetry 作者: Sujeet Kumar / Pretam Ray / Abhinay Beerukuri / Shrey Kamoji / Manoj Balaji Jagadeeshan / Pawan Goyal 原文: [英文] 备注: None 摘要: 梵语是一种具有丰富语言遗产的古老语言,由于其音位复杂性以及在词汇连接处发生的语音转换(类似于自然对话中的连贯语音),在自动语音识别(ASR)方面面临独特挑战。由于这些复杂性,关于梵语的ASR探索有限,特别是在其诗歌韵文的背景下,这些韵文以复杂的韵律和节奏模式为特征。这一研究空白引发了一个问题:我们如何开发一个有效的梵语ASR系统,特别是一个能够捕捉其诗歌形式细微特征的系统?在这项研究中,我们介绍了Vedavani,这是首个专注于梵语吠陀诗歌的全面ASR研究。我们提供了一个54小时的梵语ASR数据集,包括来自《梨俱吠陀》和《阿闼婆吠陀》的30,779个标记音频样本。该数据集捕捉了定义语言的精确韵律和节奏特征。我们还在各种最先进的多语言语音模型上对该数据集进行了基准测试。实验表明,IndicWhisper在这些最先进的模型中表现最佳。 |
[18] 狼人:一种带有文本到语音功能的简单游戏框架,以提高用户参与度 标题: Werewolf: A Straightforward Game Framework with TTS for Improved User Engagement 作者: Qihui Fan / Enfu Nan / Wenbo Li / Lei Lu / Pu Zhao / Yanzhi Wang 原文: [英文] [中文] 备注: None 摘要: 社交推理游戏系统在商业应用和人工智能研究中的日益普及,极大地受益于大型语言模型(LLMs)的快速进步,这些模型现在展示出更强的推理和说服能力。特别是随着DeepSeek R1和V3模型的兴起,LLMs应该能够在基于LLM代理的社交推理游戏(如狼人杀)中为人类玩家提供更具吸引力的体验。以往的工作通过微调、先进的提示工程或额外的经验池来实现引人入胜的文本格式狼人杀游戏体验。我们提出了一种新颖而简单的基于LLM的狼人杀游戏系统,该系统配备了经过调优的文本转语音(TTS)模型,旨在增强与各种LLM模型的兼容性,并提高用户参与度。我们认为,随着LLM推理能力的不断增强,在狼人杀的情况下,额外的组件将变得不必要。 |
[19] 让他们轻松接受!大型语言模型防护措施对用户感知和偏好的情境影响 标题: Let Them Down Easy! Contextual Effects of LLM Guardrails on User Perceptions and Preferences 作者: Mingqian Zheng / Wenjia Hu / Patrick Zhao / Motahhare Eslami / Jena D. Hwang / Faeze Brahman / Carolyn Rose / Maarten Sap 原文: [英文] 备注: None 摘要: 当前的大型语言模型(LLMs)被训练为拒绝潜在有害的输入查询,而不论用户是否真的有有害意图,这导致了安全性和用户体验之间的权衡。通过对480名参与者评估3,840个查询-响应对的研究,我们考察了不同的拒绝策略如何影响用户在不同动机下的感知。我们的研究结果表明,响应策略在很大程度上塑造了用户体验,而用户的实际动机影响微乎其微。部分顺从——提供一般信息而不提供可操作的细节——成为最佳策略,将用户对直接拒绝的负面感知减少了50%以上。除此之外,我们分析了9个最先进的LLM的响应模式,并评估了6个奖励模型对不同拒绝策略的评分,结果表明模型很少自然地采用部分顺从,而奖励模型目前低估了它的价值。这项工作表明,有效的防护措施需要专注于设计周到的拒绝,而不是检测意图,为确保安全和持续用户参与的AI安全机制提供了一条路径。 |
[20] 结构化放射学报告:用轻量级模型挑战大型语言模型 标题: Structuring Radiology Reports: Challenging LLMs with Lightweight Models 作者: Johannes Moll / Louisa Fay / Asfandyar Azhar / Sophie Ostmeier / Tim Lueth / Sergios Gatidis / Curtis Langlotz / Jean-Benoit Delbrouck 原文: [英文] [中文] 备注: None 摘要: 放射学报告对于临床决策至关重要,但通常缺乏标准化格式,限制了人类的可解释性和机器学习(ML)应用。虽然大型语言模型(LLMs)在重新格式化临床文本方面表现出强大的能力,但其高计算需求、缺乏透明性以及数据隐私问题阻碍了实际部署。为了解决这些挑战,我们探索了轻量级编码器-解码器模型(<300M参数)——特别是T5和BERT2BERT——用于从MIMIC-CXR和CheXpert Plus数据集中结构化放射学报告。我们将这些模型与八个开源LLMs(1B-70B)进行基准测试,这些LLMs通过前缀提示、上下文学习(ICL)和低秩适应(LoRA)微调进行调整。在一个人工标注的测试集上,我们表现最佳的轻量级模型在所有使用基于提示技术调整的LLMs中表现优于其他模型。虽然一些LoRA微调的LLMs在“发现”部分取得了相对于轻量级模型的适度提升(BLEU 6.4%,ROUGE-L 4.8%,BERTScore 3.6%,F1-RadGraph 1.1%,GREEN 3.6%,和F1-SRR-BERT 4.3%),但这些改进是以显著更高的计算资源为代价的。例如,LLaMA-3-70B的推理时间、成本和碳排放比轻量级模型高出400倍以上。这些结果强调了轻量级、任务特定模型作为在资源受限的医疗环境中结构化临床文本的可持续和隐私保护解决方案的潜力。 |
[21] 面向代码的结构感知中间填充预训练 标题: Structure-Aware Fill-in-the-Middle Pretraining for Code 作者: Linyuan Gong / Alvin Cheung / Mostafa Elhoushi / Sida Wang 原文: [英文] [中文] 备注: 14 pages 摘要: 填充中间(FIM)是一种常见的代码大型语言模型(LLM)预训练方法,其中模型在给定周围上下文的情况下完成代码片段。然而,现有的LLM将代码视为纯文本并随机遮盖字符范围。我们提出并评估了AST-FIM,这是一种预训练策略,利用抽象语法树(AST)在大规模上遮盖完整的语法结构,确保训练示例与通用代码结构和常见代码编辑模式(如块、表达式或函数)更好地对齐。为了评估真实世界的填充中间(FIM)编程任务,我们引入了Real-FIM-Eval,这是一个从12种语言的30,000多个GitHub提交中提取的基准。在填充任务中,针对1B和8B参数模型的实验表明,AST-FIM对于真实世界的代码编辑特别有益,因为它在标准FIM基准上比标准随机字符FIM高出最多5分。我们的代码在这个https URL上公开可用。 |
[22] REIC:大规模RAG增强意图分类 标题: REIC: RAG-Enhanced Intent Classification at Scale 作者: Ziji Zhang / Michael Yang / Zhiyu Chen / Yingying Zhuang / Shu-Ting Pi / Qun Liu / Rajashekar Maragoud / Vy Nguyen / Anurag Beniwal 原文: [英文] [中文] 备注: None 摘要: 准确的意图分类对于客户服务中的高效路由至关重要,它确保客户能够与最合适的代理连接,同时减少处理时间和运营成本。然而,随着公司扩展其产品线,意图分类由于意图数量的增加以及不同垂直领域中分类法的变化而面临可扩展性挑战。在本文中,我们介绍了一种增强检索生成的意图分类方法(REIC),该方法有效地解决了这些挑战。REIC利用检索增强生成(RAG)动态整合相关知识,实现精确分类,而无需频繁的再训练。通过对真实世界数据集的广泛实验,我们证明了REIC在大规模客户服务环境中优于传统的微调、零样本和少样本方法。我们的结果突显了其在域内和域外场景中的有效性,展示了其在自适应和大规模意图分类系统中实际部署的潜力。 |
[23] ComposeRAG:用于基于语料库的多跳问答的模块化和可组合RAG 标题: ComposeRAG: A Modular and Composable RAG for Corpus-Grounded Multi-Hop Question Answering 作者: Ruofan Wu / Youngwon Lee / Fan Shu / Danmei Xu / Seung-won Hwang / Zhewei Yao / Yuxiong He / Feng Yan 原文: [英文] [中文] 备注: None 摘要: 检索增强生成(RAG)系统日益多样化,但许多系统存在单一化设计的问题,将查询重构、检索、推理和验证等核心功能紧密耦合在一起。这限制了它们的可解释性、系统性评估和针对性改进,尤其是在复杂的多跳问答中。我们介绍了ComposeRAG,这是一种新颖的模块化抽象方法,将RAG流程分解为原子化、可组合的模块。每个模块,如问题分解、查询重写、检索决策和答案验证,作为结构化输入/输出的参数化转换,允许独立实现、升级和分析。为了增强多步推理中的错误鲁棒性,ComposeRAG引入了一种自我反思机制,在验证失败时迭代地重新审视和改进早期步骤。在四个具有挑战性的多跳问答基准上进行评估,ComposeRAG在准确性和基础忠实度上始终优于强基线。具体而言,在相同的检索条件下,它比基于微调的方法提高了多达15%的准确性,比专门用于推理的流程提高了多达5%。关键是,ComposeRAG显著增强了基础性:其验证优先设计在低质量检索环境中将无基础答案减少了超过10%,即使在强大的语料库中也减少了约3%。全面的消融研究验证了模块化架构,展示了每个组件的独特和叠加贡献。这些发现强调了ComposeRAG在提供灵活、透明、可扩展和高性能的多跳推理方面的能力,同时改进了基础性和可解释性。 |
[24] MedOrch:使用工具增强推理代理进行灵活扩展的医学诊断 标题: MedOrch: Medical Diagnosis with Tool-Augmented Reasoning Agents for Flexible Extensibility 作者: Yexiao He / Ang Li / Boyi Liu / Zhewei Yao / Yuxiong He 原文: [英文] [中文] 备注: None 摘要: 医疗决策是人工智能(AI)领域中最具挑战性的领域之一,需要整合多种知识来源、复杂的推理以及各种外部分析工具。目前的AI系统通常依赖于特定任务的模型,这些模型的适应性有限,或者是没有与专业外部知识和工具结合的通用语言模型。我们介绍了MedOrch,这是一种新颖的框架,能够协调多个专业工具和推理代理,以提供全面的医疗决策支持。MedOrch采用模块化、基于代理的架构,便于在不改变核心系统的情况下灵活整合特定领域的工具。此外,它确保了透明和可追溯的推理过程,使临床医生能够仔细验证系统推荐的每一个中间步骤。我们在三个不同的医疗应用中评估了MedOrch:阿尔茨海默病诊断、胸部X光片解读和医学视觉问答,使用真实的临床数据集。结果表明,MedOrch在这些不同的医疗任务中表现出竞争力。值得注意的是,在阿尔茨海默病诊断中,MedOrch的准确率达到93.26%,超过了最先进的基线四个百分点以上。在预测阿尔茨海默病进展方面,它达到了50.35%的准确率,标志着显著的改进。在胸部X光片分析中,MedOrch表现出色,宏观AUC为61.2%,宏观F1分数为25.5%。此外,在复杂的多模态视觉问答(图像+表格)中,MedOrch的准确率达到54.47%。这些发现强调了MedOrch在推动医疗AI方面的潜力,通过启用基于推理的工具利用来处理多模态医疗数据,并支持临床决策中的复杂认知任务。 |
[25] PersianMedQA:波斯医学领域中大型语言模型的语言中心评估 标题: PersianMedQA: Language-Centric Evaluation of LLMs in the Persian Medical Domain 作者: Mohammad Javad Ranjbar Kalahroodi / Amirhossein Sheikholselami / Sepehr Karimi / Sepideh Ranjbar Kalahroodi / Heshaam Faili / Azadeh Shakery 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)在广泛的自然语言处理基准测试中取得了显著的表现,常常超过人类水平的准确性。然而,它们在高风险领域如医学中的可靠性,特别是在资源匮乏的语言中,仍然未被充分探索。在这项工作中,我们介绍了PersianMedQA,这是一个经过专家验证的大规模波斯语医学选择题数据集,旨在评估LLMs在波斯语和英语中的表现。我们对超过40个最先进的模型进行了基准测试,包括通用模型、波斯语微调模型和医学LLMs,在零样本和链式思维(CoT)设置中。我们的结果显示,闭源通用模型(例如,GPT-4.1)始终优于所有其他类别,在波斯语中达到83.3%的准确率,在英语中达到80.7%,而波斯语微调模型如Dorna表现明显较差(例如,在波斯语中为35.9%),通常在指令遵循和领域推理方面表现不佳。我们还分析了翻译的影响,显示虽然英语表现通常较高,但波斯语回答有时更准确,因为文化和临床背景线索。最后,我们证明仅靠模型规模不足以实现稳健的表现,除非有强大的领域或语言适应。PersianMedQA为评估LLMs中的多语言和文化基础医学推理提供了基础。PersianMedQA数据集可以通过以下网址访问:[this https URL](this https URL)。 |
[26] 对齐但盲目:对齐通过减少对种族的意识而增加隐性偏见 标题: Aligned but Blind: Alignment Increases Implicit Bias by Reducing Awareness of Race 作者: Lihao Sun / Chengzhi Mao / Valentin Hofmann / Xuechunzi Bai 原文: [英文] [中文] 备注: Accpeted to ACL 2025 Main Conferencce 摘要: 尽管价值对齐的语言模型(LMs)在显性偏见评估中表现得不带偏见,但它们在隐性词语联想任务中常常表现出刻板印象,这引发了对其公平使用的担忧。我们研究了这种差异背后的机制,发现对齐竟然在模型输出中放大了隐性偏见。具体来说,我们展示了对齐的语言模型与未对齐的模型不同,在上下文模糊时忽视了早期内部表示中的种族概念。不代表种族可能无法激活安全防护措施,导致意外的偏见。受此启发,我们提出了一种新的偏见缓解策略,通过激励在早期模型层中表示种族概念来发挥作用。与传统的机器遗忘缓解方法相比,我们的干预措施发现,引导模型更加关注种族概念可以有效缓解隐性偏见。类似于人类的种族盲视,忽视种族细微差别可能会无意中在语言模型中延续微妙的偏见。 |
[27] 残疾披露对大型语言模型驱动的候选人选择中的公平性和偏见的影响 标题: The Impact of Disability Disclosure on Fairness and Bias in LLM-Driven Candidate Selection 作者: Mahammed Kamruzzaman / Gene Louis Kim 原文: [英文] [中文] 备注: Accepted at The 38th International FLAIRS Conference (FLAIRS 2025)(main) 摘要: 随着大型语言模型(LLMs)越来越多地融入招聘流程,关于公平性的担忧也日益突出。在求职时,公司通常会要求或需要提供人口统计信息,包括性别、种族以及残疾或退伍军人身份。这些数据的收集是为了支持多样性和包容性计划,但当这些信息,尤其是与残疾相关的信息,提供给LLMs时,会引发对候选人选择结果中潜在偏见的担忧。许多研究强调了残疾如何影响简历筛选,但很少有研究探讨自愿披露信息对基于LLM的候选人选择的具体影响。本研究旨在弥补这一空白。当候选人在性别、种族、资历、经验和背景相同的情况下,并申请那些残疾人与非残疾人就业率差距较小的职位(例如,收银员、软件开发人员)时,LLMs始终偏向于那些披露自己没有残疾的候选人。即使在候选人选择不披露其残疾状况的情况下,LLMs选择他们的可能性也低于那些明确表示自己没有残疾的人。 |
[28] MultiHoax:一个多跳虚假前提问题的数据集 标题: MultiHoax: A Dataset of Multi-hop False-Premise Questions 作者: Mohammadamin Shafiei / Hamidreza Saffari / Nafise Sadat Moosavi 原文: [英文] 备注: None 摘要: 随着大型语言模型在高风险领域的应用日益增多,它们检测错误假设和进行批判性推理的能力对于确保可靠输出至关重要。错误前提问题(FPQs)作为一种重要的评估方法,通过揭示错误假设导致错误响应的情况来发挥作用。虽然现有的基准测试主要关注单跳FPQs,但现实世界的推理往往需要多跳推理,在这种情况下,模型必须验证多个推理步骤之间的一致性,而不是依赖于表面线索。为了解决这一差距,我们引入了MultiHoax,这是一个用于评估LLMs在复杂多步骤推理任务中处理错误前提能力的基准。我们的数据集涵盖了七个国家和十个不同的知识类别,使用维基百科作为主要知识来源,以实现跨地区的事实推理。实验表明,最先进的LLMs在不同国家、知识类别和多跳推理类型中检测错误前提方面存在困难,这突显了在LLMs中改进错误前提检测和增强多跳推理能力的必要性。 |
[29] CASPER:大规模自发语音数据集 标题: CASPER: A Large Scale Spontaneous Speech Dataset 作者: Cihan Xiao / Ruixing Liang / Xiangyu Zhang / Mehmet Emre Tiryaki / Veronica Bae / Lavanya Shankar / Rong Yang / Ethan Poon / Emmanuel Dupoux / Sanjeev Khudanpur / Leibny Paola Garcia Perera 原文: [英文] [中文] 备注: None 摘要: 大型语言模型的成功引发了人们对开发类似语音处理能力的兴趣。然而,一个关键挑战是高质量自然语音数据的稀缺,因为大多数现有数据集包含的是脚本化对话。为了解决这个问题,我们提出了一种新颖的流程,用于引导和录制自然对话,并发布了我们的第一阶段数据集,其中包含200多个小时的自然语音。我们的方法促进了流畅、自然的对话,同时鼓励多样化的话题和互动交流。与传统方法不同,它促进了真实的互动,为未来的数据收集提供了一个可复制的框架。本文介绍了我们的数据集和方法,为解决自然语音数据短缺问题奠定了基础。我们计划在未来阶段扩展这一数据集,为研究界提供一个不断增长的资源。 |
[30] 通过多语言套娃嵌入进行分层级别新闻文章聚类 标题: Hierarchical Level-Wise News Article Clustering via Multilingual Matryoshka Embeddings 作者: Hans W. A. Hanley / Zakir Durumeric 原文: [英文] [中文] 备注: Accepted to The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025) 摘要: 上下文大型语言模型嵌入越来越多地用于主题建模和聚类。然而,当前的方法往往难以扩展,依赖于不透明的相似性度量,并且在多语言环境中表现不佳。在这项工作中,我们提出了一种新颖的、可扩展的、可解释的、层次化的多语言方法,用于聚类新闻文章和社交媒体数据。为此,我们首先训练了多语言Matryoshka嵌入,这种嵌入可以根据所检查的嵌入维度的子集,在不同的粒度水平上确定故事的相似性。该嵌入模型在SemEval 2022任务8的测试数据集上达到了最先进的性能(Pearson $\rho$ = 0.816)。训练完成后,我们开发了一种高效的层次聚类算法,该算法利用Matryoshka嵌入的层次结构来识别独特的新闻故事、叙述和主题。最后,我们通过展示我们的方法如何在真实世界的新闻数据集中识别和聚类故事、叙述和总体主题来结束我们的研究。 |
[31] 大型语言模型在持续预训练以适应语言时的涌现能力 标题: Emergent Abilities of Large Language Models under Continued Pretraining for Language Adaptation 作者: Ahmed Elhady / Eneko Agirre / Mikel Artetxe 原文: [英文] [中文] 备注: To appear in ACL 2025 Main 摘要: 继续预训练(CPT)是一种将现有大型语言模型(LLMs)适应到新语言的流行方法。在进行这种适应时,通常会在数据混合中包含一部分英语数据,但其作用迄今为止尚未被仔细研究。在这项工作中,我们展示了包含英语数据不会影响验证困惑度,但对于目标语言中下游能力的出现却至关重要。我们引入了一种与语言无关的上下文学习(ICL)基准,它揭示了在CPT早期如果不包含英语会导致灾难性遗忘。这反过来又损害了模型在目标语言中对下游提示的泛化能力,尽管在训练的后期才会在准确性上表现出来,并且可以与模型参数的巨大变化联系起来。基于这些见解,我们引入了课程学习和权重的指数移动平均(EMA)作为有效的替代方案,以减轻对英语的需求。总而言之,我们的工作揭示了在进行语言适应的CPT时新兴能力出现的动态过程,并可以作为未来设计更有效方法的基础。 |
[32] DLM-One:用于一步序列生成的扩散语言模型 标题: DLM-One: Diffusion Language Models for One-Step Sequence Generation 作者: Tianqi Chen / Shujian Zhang / Mingyuan Zhou 原文: [英文] [中文] 备注: None 摘要: 本文介绍了DLM-One,这是一种基于得分蒸馏的框架,用于通过连续扩散语言模型(DLMs)进行一步序列生成。DLM-One通过在连续的标记嵌入空间中对齐学生模型输出的得分与预训练教师DLM的得分函数,消除了迭代优化的需求。我们研究了DLM-One是否能够在语言建模中实现显著的采样效率提升。通过对DiffuSeq——一个具有代表性的连续DLM——的全面实验,我们表明DLM-One在推理时间上实现了高达约500倍的加速,同时在用于评估教师模型的基准文本生成任务中保持了竞争力的性能。我们进一步分析了该方法在多个数据集上的经验行为,提供了其普遍性和实际适用性的初步见解。我们的研究结果表明,一步扩散是实现高效、高质量语言生成的一个有前途的方向,并促进在嵌入空间中运行的连续扩散模型在自然语言处理中的更广泛应用。 |
[33] 大型语言模型能理解无声语音吗?探索使用大型语言模型进行肌电信号到文本的转换 标题: Can LLMs Understand Unvoiced Speech? Exploring EMG-to-Text Conversion with LLMs 作者: Payal Mohapatra / Akash Pandey / Xiaoyuan Zhang / Qi Zhu 原文: [英文] [中文] 备注: Accepted to ACL 2025 main conference 摘要: 无声肌电图(EMG)是一种有效的交流工具,适用于无法发声的人。然而,大多数现有方法依赖于配对的有声和无声EMG信号以及语音数据进行EMG到文本的转换,这对于这些人来说并不实用。鉴于大型语言模型(LLMs)在语音识别中的兴起,我们探索了它们理解无声语音的潜力。为此,我们解决了仅从无声EMG中学习的挑战,并提出了一种新颖的EMG适配器模块,将EMG特征映射到LLM的输入空间,在封闭词汇的无声EMG到文本任务中实现了平均词错误率(WER)为0.49。即使在仅有六分钟数据的保守情况下,我们的方法也比专用模型提高了近20%的性能。虽然LLMs已被证明可以扩展到新的语言模态——如音频——但理解像无声EMG这样的发音生物信号仍然更具挑战性。这项工作迈出了关键的第一步,使LLMs能够使用表面EMG理解无声语音。 |
[34] 通过元标记实现无损标记序列压缩 标题: Lossless Token Sequence Compression via Meta-Tokens 作者: John Harvill / Ziwei Fan / Hao Wang / Yizhou Sun / Hao Ding / Luke Huan / Anoop Deoras 原文: [英文] [中文] 备注: 16 pages, 8 figures 摘要: 现有关于大型语言模型(LLM)提示压缩的研究主要集中在有损方法上,这些方法试图在显著减少序列长度的同时,最大限度地保留与下游任务相关的语义信息。在本文中,我们引入了一种类似于LZ77的任务无关无损压缩技术,使得在这里探讨的两个评估任务中,输入标记序列长度平均减少了27%和18%。鉴于我们使用基于Transformer的大型语言模型,由于注意力机制的二次特性,这分别相当于减少了47%和33%的编码计算。标记序列的转换可以轻松逆转,并且强调在此过程中没有语义信息丢失。我们在两个需要严格保留语义/句法的任务上评估了我们提出的方法,并证明现有的有损压缩方法在这种情况下表现不佳。我们发现,与使用未压缩输入相比,我们的无损压缩技术仅产生了很小的性能差距,并推测更大的模型和扩展的计算预算可能会完全消除这一差距。 |
[35] 对生成电影评论的大型语言模型的评估:GPT-4o、Gemini-2.0 和 DeepSeek-V3 标题: An evaluation of LLMs for generating movie reviews: GPT-4o, Gemini-2.0 and DeepSeek-V3 作者: Brendan Sands / Yining Wang / Chenhao Xu / Yuxuan Zhou / Lai Wei / Rohitash Chandra 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)在包括文本生成和摘要在内的各种任务中表现突出。LLMs在生成产品评论方面的应用正在加速发展,为生成电影评论铺平了道路。在本研究中,我们提出了一个使用三种LLMs(GPT-4o、DeepSeek-V3和Gemini-2.0)生成电影评论的框架,并通过与IMDb用户评论进行比较来评估其性能。我们使用电影字幕和剧本作为LLMs的输入,研究它们如何影响生成评论的质量。我们从词汇、情感极性、相似性和主题一致性等方面对基于LLM的电影评论与IMDb用户评论进行比较。结果表明,LLMs能够生成语法流畅且结构完整的电影评论。然而,LLM生成的评论与IMDb评论之间在情感丰富性和风格一致性上仍存在明显差距,这表明需要进一步改进以提高电影评论生成的整体质量。我们提供了一项基于调查的分析,参与者被要求区分LLM和IMDb用户评论。结果显示,LLM生成的评论难以与IMDb用户评论区分开来。我们发现DeepSeek-V3生成的评论最为平衡,与IMDb评论最为接近。GPT-4o过分强调积极情感,而Gemini-2.0更好地捕捉了消极情感,但表现出过度的情感强度。 |
[36] SkillVerse:通过树评估来评估和增强大型语言模型 标题: SkillVerse : Assessing and Enhancing LLMs with Tree Evaluation 作者: Yufei Tian / Jiao Sun / Nanyun Peng / Zizhao Zhang 原文: [英文] [中文] 备注: Accepted to ACL 2025 摘要: 随着语言模型的发展以应对复杂、多方面的任务,其评估方法也必须适应以捕捉这种复杂性。对模型能力的细致、技能特定的理解可以使研究人员制定明智的模型开发计划。在本文中,我们介绍了SkillVerse,这是一种无监督的树状诊断框架,用于理解模型在特定能力上的熟练程度。通过将大型语言模型(LLM)作为评判者,SkillVerse首先对模型的响应进行批判,然后将其组织成一个称为树状图的层次结构。鉴于在任意粒度水平上的熟练程度,SkillVerse能够灵活地提供现代大型模型行为的见解。我们还展示了其在两个下游任务中的有效性:1)通过使用树搜索算法选择更具信息性的少样本示例,将模型的上下文学习能力提高了25%;2)以55%的成功率准确预测新模型的弱点,比不使用SkillVerse高出22%。 |
[37] TreeRare: 基于语法树引导的检索与推理用于知识密集型问答 标题: TreeRare: Syntax Tree-Guided Retrieval and Reasoning for Knowledge-Intensive Question Answering 作者: Boyi Zhang / Zhuo Liu / Hangfeng He 原文: [英文] [中文] 备注: None 摘要: 在实际应用中,问题通常是复杂且知识密集的,需要大型语言模型(LLMs)识别问题的多方面性质,并在多个信息源之间进行推理。迭代和自适应检索,即LLMs根据其推理决定何时以及检索什么,已被证明是一种解决复杂、知识密集型问题的有前途的方法。然而,这种检索框架的性能受到推理错误积累和检索结果不匹配的限制。为克服这些限制,我们提出了TreeRare(语法树引导的检索和推理),这是一个利用语法树来指导信息检索和推理以进行问答的框架。遵循组合性原则,TreeRare以自下而上的方式遍历语法树,在每个节点生成基于子组件的查询并检索相关段落以解决局部不确定性。然后,一个子组件问答模块将这些段落合成为简洁、上下文感知的证据。最后,TreeRare在整个树中聚合证据以形成最终答案。在涉及模糊或多跳推理的五个问答数据集上的实验表明,TreeRare在现有最先进方法的基础上实现了显著的改进。 |
[38] 解开聊天中的代码混合:NUS ABC代码混合语料库 标题: Disentangling Codemixing in Chats: The NUS ABC Codemixed Corpus 作者: Svetlana Churina / Akshat Gupta / Insyirah Mujtahid / Kokil Jaidka 原文: [英文] 备注: None 摘要: 代码混合涉及在单一话语中无缝整合来自多种语言的语言元素,反映了自然的多语言交流模式。尽管在社交媒体、聊天消息和即时消息交流等非正式互动中很常见,但目前缺乏公开可用的、由作者标注的语料库,这些语料库适合于建模人类对话和关系。本研究介绍了第一个用于理解语境中代码混合的标注通用语料库,同时保持严格的隐私和伦理标准。我们的实时项目将持续收集、验证并整合代码混合消息到一个结构化的数据集中,以JSON格式发布,并附有详细的元数据和语言统计信息。截至目前,该语料库包括超过355,641条消息,涵盖各种代码混合模式,主要关注英语、普通话和其他语言。我们期望Codemix语料库能作为计算语言学、社会语言学和自然语言处理应用研究的基础数据集。 |
[39] 超越情境到认知评估:情感推理作为大型语言模型的心智理论基准 标题: Beyond Context to Cognitive Appraisal: Emotion Reasoning as a Theory of Mind Benchmark for Large Language Models 作者: Gerard Christopher Yeo / Kokil Jaidka 原文: [英文] 备注: 9 pages, 3 figures 摘要: 用于情感识别任务的数据集通常包含可以用于预测文本中表达的情感的明显线索。然而,一个挑战在于,文本有时包含丰富情感语义的隐蔽上下文线索,这需要更高阶的推理能力来推断情感状态,而不仅仅是传达的情感。本研究超越了表层感知特征,探讨大型语言模型(LLMs)如何在“心智理论”(ToM)框架内利用上下文信息推理他人的情感状态。基于认知评价理论,我们策划了一个专门的ToM评估数据集,以评估从上下文到情感的前向推理和从情感到推断上下文的后向推理。我们发现,LLMs在一定程度上能够进行推理,尽管它们在将情境结果和评价与特定情感关联方面表现不佳。我们的工作强调了在情感推理的背景下,将心理学理论应用于LLMs的训练和评估的必要性。 |
[40] OWSM v4:通过数据扩展和清理改进开放式耳语风格语音模型 标题: OWSM v4: Improving Open Whisper-Style Speech Models via Data Scaling and Cleaning 作者: Yifan Peng / Shakeel Muhammad / Yui Sudo / William Chen / Jinchuan Tian / Chyi-Jiunn Lin / Shinji Watanabe 原文: [英文] [中文] 备注: Accepted at INTERSPEECH 2025 摘要: 开放耳语风格语音模型(OWSM)项目使用学术规模的资源开发了一系列完全开放的语音基础模型,但其训练数据仍然不足。本文通过整合YODAS,一个具有创作共用许可的大规模网络抓取数据集,来增强OWSM。然而,由于YODAS的多样性,其引入了诸如语言标签错误和音频文本不匹配等挑战。为了解决这些问题,我们使用公共工具包开发了一个可扩展的数据清理流程,生成了一个包含75种语言、总计166,000小时语音的数据集。我们在这个精心整理的数据集以及现有OWSM数据上训练的新系列OWSM v4模型,在多语言基准测试中显著优于以前的版本。我们的模型甚至在多个场景中匹敌或超越了前沿工业模型如Whisper和MMS。我们将通过ESPnet工具包公开发布清理后的YODAS数据、预训练模型以及所有相关脚本。 |
[41] 高效潜在语义聚类用于扩展大型语言模型的测试时间计算 标题: Efficient Latent Semantic Clustering for Scaling Test-Time Computation of LLMs 作者: Sungjae Lee / Hoyoung Kim / Jeongyeon Hwang / Eunhyeok Park / Jungseul Ok 原文: [英文] [中文] 备注: None 摘要: 扩展测试时计算——为单个输入生成和分析多个或连续的输出——已成为提高大型语言模型(LLMs)可靠性和质量的有前途的策略,这在不确定性量化和多步推理的进展中得到了证明。一个关键的共同组成部分是语义聚类,它将形式不同但传达相同意义的输出进行分组。语义聚类能够估计输出语义的分布,并有助于避免对推理路径的冗余探索。然而,现有的方法通常依赖于外部模型,这会引入大量的计算开销,并且往往无法捕捉到上下文感知的语义。我们提出了潜在语义聚类(LSC),这是一种轻量级且上下文敏感的方法,利用生成器LLM的内部隐藏状态进行聚类,消除了对外部模型的需求。我们在各种LLM和数据集上的广泛实验表明,LSC在保持或超越现有方法性能的同时,显著提高了测试时扩展的计算效率。 |
[42] Neuro2Semantic:一种用于从人类颅内脑电图中重建连续语言语义的迁移学习框架 标题: Neuro2Semantic: A Transfer Learning Framework for Semantic Reconstruction of Continuous Language from Human Intracranial EEG 作者: Siavash Shams / Richard Antonello / Gavin Mischler / Stephan Bickel / Ashesh Mehta / Nima Mesgarani 原文: [英文] [中文] 备注: Accepted at Interspeech 2025 Code at this https URL 摘要: 从神经信号解码连续语言仍然是神经科学与人工智能交叉领域的一项重大挑战。我们介绍了Neuro2Semantic,这是一种新颖的框架,可以从颅内脑电图(iEEG)记录中重建感知语音的语义内容。我们的方法包括两个阶段:首先,基于LSTM的适配器将神经信号与预训练的文本嵌入对齐;其次,校正模块直接从这些对齐的嵌入生成连续的自然文本。这种灵活的方法克服了以往解码方法的局限性,实现了不受限制的文本生成。Neuro2Semantic在仅需30分钟的神经数据情况下表现出色,在低数据环境中优于最近的最先进方法。这些结果突显了其在脑机接口和神经解码技术中的实际应用潜力。 |
[43] Adaptive-VP:一种基于大型语言模型的虚拟患者框架,可适应学员对话以促进护士沟通培训 标题: Adaptive-VP: A Framework for LLM-Based Virtual Patients that Adapts to Trainees' Dialogue to Facilitate Nurse Communication Training 作者: Keyeun Lee / Seolhee Lee / Esther Hehsun Kim / Yena Ko / Jinsu Eun / Dahee Kim / Hyewon Cho / Haiyi Zhu / Robert E. Kraut / Eunyoung Suh / Eun-mee Kim / Hajin Lim 原文: [英文] [中文] 备注: ACL 2025 Findings, 34 pages, 9 figures 摘要: 有效的沟通培训对于准备护士提供高质量的患者护理至关重要。虽然标准化病人(SP)模拟提供了宝贵的体验式学习,但它们往往成本高且缺乏灵活性。虚拟病人(VP)系统提供了一种可扩展的替代方案,但大多数系统未能适应学员不同的沟通技能。特别是,当学员回应不当时,VP 应该在敌意上升级或变得不合作——然而,这种级别的自适应互动在很大程度上仍未得到支持。为了解决这一差距,我们引入了 Adaptive-VP,这是一种 VP 对话生成框架,利用大型语言模型(LLMs)根据学员输入动态调整 VP 行为。该框架具有一个用于构建临床基础但灵活的 VP 场景的流程,以及一个模块化系统,用于评估学员的沟通并实时调整 VP 的响应,同时确保学习者的安全。我们通过模拟具有挑战性的患者对话验证了 Adaptive-VP。使用来自执业护士的语料库进行的自动化评估表明,我们的沟通技能评估机制反映了现实世界的熟练程度。专家护士进一步确认,Adaptive-VP 产生的互动比现有方法更自然和真实,展示了其作为护理沟通培训的可扩展且有效工具的潜力。 |
[44] SHARE:一种基于SLM的层次化动作纠正助手用于文本到SQL 标题: SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL 作者: Ge Qu / Jinyang Li / Bowen Qin / Xiaolong Li / Nan Huo / Chenhao Ma / Reynold Cheng 原文: [英文] [中文] 备注: Accepted to ACL 2025 Main 摘要: 当前的文本到SQL的自我纠正方法面临两个关键限制:1)传统的自我纠正方法依赖于大型语言模型(LLMs)的递归自调用,导致计算开销成倍增加;2)LLMs在实现声明性SQL查询的有效错误检测和纠正方面存在困难,因为它们未能展示潜在的推理路径。在这项工作中,我们提出了SHARE,一种基于小型语言模型(SLM)的分层动作纠正助手,使LLMs能够进行更精确的错误定位和高效的纠正。SHARE在一个顺序管道中协调三个专门的小型语言模型(SLMs),首先将声明性SQL查询转化为逐步的动作轨迹,以揭示潜在的推理过程,随后进行两个阶段的细粒度优化。我们进一步提出了一种新颖的分层自我进化策略,以实现数据高效的训练。实验结果表明,SHARE有效增强了自我纠正能力,同时在各种LLMs中表现出强大的鲁棒性。此外,我们的综合分析显示,即使在低资源训练环境中,SHARE仍能保持强劲的性能,这对于具有数据隐私限制的文本到SQL应用特别有价值。 |
[45] 投机奖励模型以低成本提升大型语言模型的决策能力 标题: Speculative Reward Model Boosts Decision Making Ability of LLMs Cost-Effectively 作者: Jiawei Gu / Shangsong Liang 原文: [英文] [中文] 备注: ACL2025 Oral (Industry Track) 摘要: 在大型语言模型(LLMs)中进行有效决策对于处理复杂任务至关重要。然而,现有的方法往往优先考虑性能,却常常忽视了效果与计算成本之间的平衡。为了解决这个问题,我们首先引入了3E标准,以系统地评估搜索策略的成本效益,揭示了现有方法常常以显著的效率换取微小的性能提升。为了在保持效率的同时改进LLM的决策能力,我们提出了投机奖励模型(SRM),这是一种即插即用的框架,可以无缝集成到现有的搜索策略中。具体来说,SRM使用一个外部奖励分配器来预测最佳行动,从而减少对LLM内部自我评估的依赖。同时,采用投机验证机制来修剪次优选择,并引导搜索朝向更有前景的步骤。我们在多个复杂决策任务上评估了SRM,包括数学推理、规划和特定领域的数值推理。实验结果表明,SRM在保持有效性的同时,将成本平均减少到原搜索框架的1/10。 |
[46] 通过基于采样的动量扩展文本梯度 标题: Scaling Textual Gradients via Sampling-Based Momentum 作者: Zixin Ding / Junyuan Hong / Jiachen T. Wang / Zinan Lin / Zhangyang Wang / Yuxin Chen 原文: [英文] [中文] 备注: None 摘要: 随着提示在大型语言模型(LLMs)中扮演越来越重要的角色,优化文本提示已成为一个关键挑战。文本梯度下降(TGD)框架作为一种有前途的数据驱动方法,通过对训练样本的小批量进行LLM建议的更新(或文本梯度)迭代地优化文本提示。在本文中,我们通过实验证明,增加训练样本的数量最初会提高TGD在多个下游NLP任务中的性能,但随后会导致性能下降。然而,尽管数据扩展提高了大多数任务的结果,但在利用LLMs时也显著增加了计算成本。为了解决这个问题,我们从数值梯度下降中汲取灵感,提出了带动量的文本随机梯度下降(TSGD-M)——一种通过基于过去批次分布重新加权提示采样来促进可扩展上下文学习的方法。在包括BIG-Bench Hard(BBH)、自然语言理解任务和推理任务在内的三个领域的九个NLP任务中,TSGD-M显著优于不包含重新加权采样的TGD基线,同时在大多数任务中减少了方差。 |
[47] 儿童语音识别错误诊断的因果结构发现 标题: Causal Structure Discovery for Error Diagnostics of Children's ASR 作者: Vishwanath Pratap Singh / Md. Sahidullah / Tomi Kinnunen 原文: [英文] [中文] 备注: Interspeech 2025 摘要: 儿童的自动语音识别(ASR)性能往往不如成人,这是由于一系列相互依赖的因素共同作用的结果:生理因素(例如,更小的声道)、认知因素(例如,发音不成熟)以及外在因素(例如,词汇量限制、背景噪音)。现有的分析方法通常单独考察这些因素的影响,忽视了它们之间的相互依赖关系——例如,年龄不仅直接影响ASR的准确性,还通过发音技能间接影响。在本文中,我们引入了一种因果结构发现方法,以揭示生理、认知、外在因素与ASR错误之间的相互依赖关系。然后,我们采用因果量化方法来衡量每个因素对儿童ASR的影响。我们将分析扩展到微调模型,以识别哪些因素通过微调得到了缓解,哪些因素仍然基本不受影响。在Whisper和Wav2Vec2.0上的实验表明,我们的发现具有跨不同ASR系统的普遍性。 |
[48] 通过自适应并行解码加速扩散大型语言模型 标题: Accelerating Diffusion LLMs via Adaptive Parallel Decoding 作者: Daniel Israel / Guy Van den Broeck / Aditya Grover 原文: [英文] [中文] 备注: 10 pages, 5 figures 摘要: LLM 的生成速度受限于自回归解码,其中的标记是一个接一个地顺序预测的。作为替代,扩散大语言模型(dLLMs)理论上允许并行生成标记,但在实际操作中难以在不显著牺牲质量的情况下达到自回归模型的速度。因此,我们引入了自适应并行解码(APD),这是一种动态调整并行采样标记数量的新方法。我们通过定义 dLLM 边缘概率与小型辅助自回归模型下序列的联合概率之间的乘法混合来实现这一点。这颠倒了推测性解码的标准设置,其中的目标是通过从一个较小的模型起草来从一个大型自回归验证器中采样。我们通过启用 KV 缓存和限制掩码输入的大小进一步优化了 APD。总的来说,我们的方法提出了三个可调参数,以灵活地在吞吐量和质量之间进行权衡。我们展示了 APD 在下游基准测试中以最小的质量下降提供了显著更高的吞吐量。 |
[49] 用于文本生成的噪声上下文学习的双重去偏 标题: Dual Debiasing for Noisy In-Context Learning for Text Generation 作者: Siqi Liang / Sumyeong Ahn / Paramveer S. Dhillon / Jiayu Zhou 原文: [英文] 备注: Accepted by 2025 ACL Findings 摘要: 在上下文学习(ICL)中,高质量的示例对于从大型标注语料库中获取信息至关重要。现有的方法通过对局部困惑度进行排序来检测噪声标注,假设噪声样本的困惑度高于其干净的对应样本。然而,当噪声比例较高且许多示例有缺陷时,这一假设就不成立了。我们重新审视了基于困惑度的文本生成范式,特别是在有噪声标注的情况下,强调了困惑度中的两个偏差来源:标注本身和大型语言模型(LLMs)固有的领域特定知识。为克服这些偏差,我们引入了一个双重去偏框架,该框架使用合成的邻居来显式校正困惑度估计,从而生成一个稳健的样本清洁度评分。该指标能够揭示样本的绝对清洁度,而不受整体语料库噪声水平的影响。大量实验表明,我们的方法在噪声检测能力上具有优越性,并且其最终的ICL性能可与完全干净的示例语料库相媲美。此外,即使在噪声比例极高的情况下,我们的方法仍然保持稳健。 |
[50] 赋予聊天机器人眼睛和耳朵:用于动态交互的沉浸式多模态对话系统 标题: Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions 作者: Jihyoung Jang / Minwook Bae / Minji Kim / Dilek Hakkani-Tur / Hyounghun Kim 原文: [英文] [中文] 备注: ACL 2025 (32 pages); Project website: this https URL 摘要: 随着聊天机器人不断向类人化、真实世界的互动演进,多模态性仍然是一个活跃的研究和探索领域。迄今为止,将多模态性整合到聊天机器人的努力主要集中在以图像为中心的任务上,例如视觉对话和基于图像的指令,强调了人类感知的“眼睛”,而忽视了“耳朵”,即听觉方面。此外,这些研究往往围绕静态互动展开,关注于讨论模态而不是将其自然地融入对话中,这限制了同时进行的动态互动的丰富性。此外,尽管在多方和多会话对话中已经探索了多模态性,但任务特定的限制阻碍了其在动态、自然对话中的无缝整合。为了解决这些挑战,本研究旨在为聊天机器人配备能够与人类进行更沉浸式互动的“眼睛和耳朵”。作为这项努力的一部分,我们引入了一个新的多模态对话数据集,称为多模态多会话多方对话($M^3C$),并提出了一种新颖的多模态对话模型,具有多模态记忆检索功能。我们的模型在$M^3C$上训练,展示了在复杂、类似真实世界的环境中与多位讲话者进行长期对话的能力,能够有效处理视觉和听觉输入以理解和适当回应。人类评估突出了该模型在保持连贯和动态互动方面的强大性能,展示了其作为先进多模态对话代理的潜力。 |
[51] DYNAC:基于动态词汇的非自回归语境化语音识别 标题: DYNAC: Dynamic Vocabulary based Non-Autoregressive Contextualization for Speech Recognition 作者: Yui Sudo / Yosuke Fukumoto / Muhammad Shakeel / Yifan Peng / Chyi-Jiunn Lin / Shinji Watanabe 原文: [英文] [中文] 备注: Accepted to Interspeech 2025 摘要: 上下文偏置(CB)可以提高自动语音识别对罕见和未见短语的识别能力。最近的研究引入了动态词汇,它在自回归(AR)模型中将上下文短语表示为可扩展的标记。这种方法提高了CB的准确性,但推理速度较慢。虽然动态词汇可以应用于非自回归(NAR)模型,如连接时序分类(CTC),但条件独立性假设未能捕捉静态和动态标记之间的依赖关系。本文提出了DYNAC(基于动态词汇的NAR上下文化方法),这是一种自条件CTC方法,将动态词汇整合到中间层中。通过在动态词汇上对编码器进行条件化,DYNAC有效地捕捉了静态和动态标记之间的依赖关系,同时降低了实时因子(RTF)。实验结果表明,DYNAC在LibriSpeech 960测试集的clean set上将RTF降低了81%,而词错误率仅下降了0.1个百分点。 |
[52] 跨段验证用于多证据多答案问答 标题: Inter-Passage Verification for Multi-evidence Multi-answer QA 作者: Bingsen Chen / Shengjie Wang / Xi Ye / Chen Zhao 原文: [英文] [中文] 备注: 19 pages, 6 figures, to appear in ACL 2025 Findings 摘要: 多答案问答(QA)是指问题可以有多个有效答案,这对现有的基于检索增强生成的QA系统提出了重大挑战,因为这些系统在检索和综合大量证据段落时存在困难。为了解决这些挑战,我们提出了一种新的多答案QA框架——检索增强的独立阅读与段落间验证(RI$^2$VER)。我们的框架检索大量段落,并单独处理每个段落以生成初始的高召回率但噪声较大的答案集。然后,我们提出了一种新的段落间验证流程,通过(1)验证问题生成,(2)收集额外证据,以及(3)通过段落间综合进行验证,来验证每个候选答案。在QAMPARI和RoMQA数据集上的评估表明,我们的框架在各种模型规模上显著优于现有基线,平均F1分数提高了11.17%。进一步的分析验证了我们的段落间验证流程使得我们的框架对需要多证据综合的问题特别有利。 |
[53] G2S:一种使用大型语言模型进行时间知识图预测的从一般到具体的学习框架 标题: G2S: A General-to-Specific Learning Framework for Temporal Knowledge Graph Forecasting with Large Language Models 作者: Long Bai / Zixuan Li / Xiaolong Jin / Jiafeng Guo / Xueqi Cheng / Tat-Seng Chua 原文: [英文] [中文] 备注: Findings of ACL 2025 摘要: 在时间知识图(TKGs)上进行预测,即基于历史事实预测未来事实,已经引起了广泛关注。最近的研究引入了大型语言模型(LLMs)来增强模型的泛化能力。然而,这些模型通过同时学习两种纠缠在TKG中的知识来进行预测:(1)一般模式,即在不同场景中共享的不变时间结构;(2)场景信息,即特定场景中涉及的事实知识,如实体和关系。因此,这两种知识的学习过程可能会相互干扰,从而可能影响模型的泛化能力。为了增强LLMs在这一任务上的泛化能力,本文提出了一种从一般到具体的学习框架(G2S),以解开上述两种知识的学习过程。在一般学习阶段,我们在不同的TKGs中屏蔽场景信息,并将其转换为匿名的时间结构。经过对这些结构的训练,模型能够捕捉到不同TKGs中的一般模式。在具体学习阶段,我们通过上下文学习或微调模式将场景信息注入到这些结构中。实验结果表明,G2S有效地提高了LLMs的泛化能力。 |
[54] 基于事实控制的医学文本摘要幻觉诊断 标题: Fact-Controlled Diagnosis of Hallucinations in Medical Text Summarization 作者: Suhas BN / Han-Chin Shing / Lei Xu / Mitch Strong / Jon Burnsky / Jessica Ofor / Jordan R. Mason / Susan Chen / Sundararajan Srinivasan / Chaitanya Shivade / Jack Moriarty / Joseph Paul Cohen 原文: [英文] [中文] 备注: this https URL 摘要: 在患者与临床医生对话的总结中,大型语言模型(LLMs)产生的幻觉对患者护理和临床决策构成了重大风险。然而,这一现象在临床领域仍未得到充分研究,且关于通用领域幻觉检测器的适用性仍存在不确定性。幻觉的稀有性和随机性进一步加大了其研究的复杂性。在本文中,我们对医学领域的幻觉检测方法进行了评估,并为此构建了两个数据集:一个是事实控制的Leave-N-out数据集——通过系统地从源对话中移除事实以在总结中引入幻觉内容生成的;另一个是自然幻觉数据集——在基于LLM的医学总结中自然产生的。我们表明,通用领域的检测器难以检测临床幻觉,并且在事实控制幻觉上的表现不能可靠地预测其在自然幻觉上的有效性。随后,我们开发了基于事实的方法来计数幻觉,提供了现有方法所不具备的可解释性。值得注意的是,我们基于LLM的检测器是使用事实控制幻觉开发的,能够很好地推广到检测真实世界的临床幻觉。这项研究贡献了一套由专家注释的数据集支持的专门指标,以推进可信的临床总结系统。 |
[55] 使用双语翻译数据对大型语言模型进行大规模多语言适应 标题: Massively Multilingual Adaptation of Large Language Models Using Bilingual Translation Data 作者: Shaoxiong Ji / Zihao Li / Jaakko Paavola / Indraneil Paul / Hengyu Luo / Jörg Tiedemann 原文: [英文] [中文] 备注: EMMA-500 Gen 2; refer to Gen 1 in arXiv:2409.17892 摘要: 本文研究了大规模多语言持续预训练实践中的一个关键设计决策——平行数据的包含。具体来说,我们研究了双语翻译数据对 Llama3 系列模型适应 500 种语言的大规模多语言适应的影响。为此,我们构建了 MaLA 双语翻译语料库,包含来自 2,500 多个语言对的数据。随后,我们开发了 EMMA-500 Llama 3 套件的四个大规模多语言模型——从 Llama 3 系列基础模型中持续预训练,广泛使用多样化的数据组合,达到 6710 亿个标记——并探索在有或没有双语翻译数据的情况下持续预训练的效果。对 7 个任务和 12 个基准的全面评估表明,双语数据往往能增强语言迁移和性能,特别是对于低资源语言。我们开源了 MaLA 语料库、EMMA-500 Llama 3 套件的工件、代码和模型生成。 |
[56] EffiVLM-BENCH:用于评估大型视觉-语言模型中无训练加速的综合基准 标题: EffiVLM-BENCH: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Vision-Language Models 作者: Zekun Wang / Minghua Ma / Zexin Wang / Rongchuan Mu / Liping Shan / Ming Liu / Bing Qin 原文: [英文] [中文] 备注: ACL 2025 摘要: 大型视觉语言模型(LVLMs)取得了显著的成功,但其巨大的计算需求阻碍了实际部署。尽管提高LVLM效率的努力正在增加,但现有方法在不同的骨干网络、基准和指标上缺乏全面的评估。在这项工作中,我们系统地评估了LVLMs的主流加速技术,这些技术分为token压缩和参数压缩。我们引入了EffiVLM-Bench,这是一个统一的框架,用于评估绝对性能、泛化能力和忠诚度,同时探索帕累托最优的权衡。我们广泛的实验和深入的分析为加速LVLMs的最佳策略提供了见解。我们开源了EffiVLM-Bench的代码和方案,以促进未来的研究。 |
[57] PVP:一个包含说服策略、观众特征和说服力评分的个性化视觉说服图像数据集 标题: PVP: An Image Dataset for Personalized Visual Persuasion with Persuasion Strategies, Viewer Characteristics, and Persuasiveness Ratings 作者: Junseo Kim / Jongwook Han / Dongmin Choi / Jongwook Yoon / Eun-Ju Lee / Yohan Jo 原文: [英文] [中文] 备注: ACL 2025 Main. Code and dataset are released at: this https URL 摘要: 视觉劝导通过使用视觉元素来影响认知和行为,在广告和政治传播等领域至关重要。随着人工智能的最新进展,开发能够自动生成针对个人的劝导性图像的系统的潜力日益增长。然而,该领域的一个重大瓶颈是缺乏将图像的劝导性与评估这些图像的个人信息相结合的综合数据集。为了解决这一差距并促进个性化视觉劝导技术的进步,我们发布了个性化视觉劝导(PVP)数据集,其中包含28,454张劝导性图像,涵盖596条信息和9种劝导策略。重要的是,PVP数据集提供了由2,521名人工标注者评估的图像劝导性评分,以及他们的人口统计和心理特征(人格特质和价值观)。我们通过开发一个劝导性图像生成器和一个自动评估器来展示我们数据集的实用性,并建立了基准基线。我们的实验表明,结合心理特征可以增强劝导性图像的生成和评估,为个性化视觉劝导提供了宝贵的见解。 |
[58] 自动修补:增强语言模型中的多跳推理 标题: Auto-Patching: Enhancing Multi-Hop Reasoning in Language Models 作者: Aviv Jan / Dean Tahory / Omer Talmi / Omar Abo Mokh 原文: [英文] [中文] 备注: 8 pages, 5 figures 摘要: 多跳问题仍然难倒大型语言模型(LLMs),它们在跨多个推理步骤链接信息时表现困难。我们介绍了一种新方法Auto-Patch,该方法在推理过程中动态修补隐藏状态,以增强LLMs的多跳推理能力。基于PatchScopes框架,Auto-Patch使用一个学习的分类器有选择地修改内部表示。在MuSiQue数据集上的评估显示,Auto-Patch将解决率从18.45%(基线)提高到23.63~$\pm$~0.7%(3次运行),缩小了与链式思维提示(27.44%)的差距。我们的结果突显了动态隐藏状态干预在推进LLMs复杂推理方面的潜力。 |
[59] 将大型语言模型与全局标签传播协同用于多模态假新闻检测 标题: Synergizing LLMs with Global Label Propagation for Multimodal Fake News Detection 作者: Shuguo Hu / Jun Hu / Huaiwen Zhang 原文: [英文] [中文] 备注: Accepted by ACL 2025 Main Conference 摘要: 大型语言模型(LLMs)可以通过预测伪标签来协助多模态假新闻检测。然而,仅依靠LLM生成的伪标签,其表现比传统检测方法差,使得其有效整合变得不简单。在本文中,我们提出了一种基于LLM伪标签的全局标签传播网络(GLPN-LLM)用于多模态假新闻检测,该方法通过标签传播技术整合了LLM的能力。全局标签传播可以利用LLM生成的伪标签,通过在所有样本之间传播标签信息来提高预测准确性。为了进行标签传播,我们设计了一种基于掩码的机制,以防止训练期间标签泄漏,确保训练节点不会将自己的标签传播回自身。基准数据集上的实验结果表明,通过将LLM与标签传播协同使用,我们的模型在性能上优于最先进的基线方法。 |
[60] 探索用于机器翻译的上下文示例生成 标题: Exploring In-context Example Generation for Machine Translation 作者: Dohyun Lee / Seungil Chad Lee / Chanwoo Yang / Yujin Baek / Jaegul Choo 原文: [英文] [中文] 备注: Accepted to ACL 2025 Findings 摘要: 大型语言模型(LLMs)在各种任务中表现出色,利用其卓越的上下文学习能力,仅需少量示例即可取得优异成绩。因此,选择最佳的上下文示例在机器翻译领域中被积极研究。然而,这些研究假设存在一个由人工标注对组成的示例池,这使得它们在低资源语言中难以适用,因为这种假设难以实现。为克服这一限制,本文探索了机器翻译中上下文示例生成的研究方向。具体而言,我们提出了翻译示例增强(DAT),这是一种简单而有效的方法,可以在不依赖任何外部资源的情况下生成示例对。该方法基于之前工作中强调的两个关键因素:相关性和多样性。通过在人工标注对稀缺的低资源语言上的实验和分析,我们表明DAT在翻译质量上优于基线。此外,我们研究了在测试时逐步积累生成的示例对以构建和重用示例池的潜力。我们的实现已在此网址公开。 |
[61] 面向目标的多智能体系统中错误信息的识别与纠正 标题: Goal-Aware Identification and Rectification of Misinformation in Multi-Agent Systems 作者: Zherui Li / Yan Mi / Zhenhong Zhou / Houcheng Jiang / Guibin Zhang / Kun Wang / Junfeng Fang 原文: [英文] [中文] 备注: None 摘要: 基于大型语言模型的多智能体系统(MASs)在解决复杂的现实世界任务中表现出强大的优势。然而,由于引入了额外的攻击面,MASs 特别容易受到错误信息注入的攻击。为了加深对这些系统中错误信息传播动态的理解,我们引入了 MisinfoTask,这是一个新颖的数据集,包含复杂、真实的任务,旨在评估 MAS 在此类威胁下的鲁棒性。在此基础上,我们提出了 ARGUS,这是一种无需训练的两阶段防御框架,利用目标感知推理来精确纠正信息流中的错误信息。我们的实验表明,在具有挑战性的错误信息场景中,ARGUS 在各种注入攻击中表现出显著的效果,平均减少错误信息毒性的约 28.17%,并在攻击下提高任务成功率约 10.33%。我们的代码和数据集可在此 URL 获取:this https URL。 |
[62] 评估常识生成中的多样性评估 标题: Evaluating the Evaluation of Diversity in Commonsense Generation 作者: Tianhui Zhang / Bei Peng / Danushka Bollegala 原文: [英文] [中文] 备注: ACL 2025 Main 摘要: 在常识生成任务中,给定一组输入概念,模型必须生成一个不仅具有常识性,而且能够捕捉多种不同观点的响应。先前的研究提出了许多基于形式和内容重叠的评估指标,用于评估常识生成模型的多样性。然而,目前尚不清楚哪些指标最适合评估常识生成中的多样性。为了解决这一问题,我们对常识生成的多样性指标进行了系统的元评估。我们发现,基于形式的多样性指标往往会一致地高估句子集的多样性,即使是随机生成的句子也会被赋予过高的多样性分数。随后,我们使用大型语言模型(LLM)创建了一个新的数据集,该数据集对常识生成任务中生成的句子的多样性进行了标注,并利用它对现有的多样性评估指标进行了元评估。我们的实验结果表明,基于内容的多样性评估指标始终优于基于形式的指标,与基于LLM的评分具有高度相关性。我们建议未来的常识生成研究应使用基于内容的指标来评估其输出的多样性。 |
[63] 因果放弃:通过因果推理增强多语言大型语言模型以实现可信的放弃 标题: CausalAbstain: Enhancing Multilingual LLMs with Causal Reasoning for Trustworthy Abstention 作者: Yuxi Sun / Aoqi Zuo / Wei Gao / Jing Ma 原文: [英文] [中文] 备注: Accepted to Association for Computational Linguistics Findings (ACL) 2025 摘要: 大型语言模型(LLMs)在不同语言之间通常表现出知识差异。在面对知识空白时,鼓励LLMs选择“放弃”是一种有前途的策略,可以减少多语言环境中的幻觉。目前针对多语言场景的放弃策略主要依赖于使用LLMs生成各种语言的反馈并进行自我反思。然而,这些方法可能会受到生成反馈中的不准确性和偏见的负面影响。为了解决这个问题,从因果关系的角度出发,我们引入了\textit{CausalAbstain},这是一种帮助LLMs确定是否利用多个生成的反馈响应以及如何识别最有用反馈的方法。大量实验表明,\textit{CausalAbstain}能够有效选择有用的反馈,并在母语(\textsc{Casual-native})和多语言(\textsc{Causal-multi})环境中以可解释性增强放弃决策,在涵盖百科知识和常识问答任务的两个基准数据集上优于强基线。我们的代码和数据已在此https URL开源。 |
[64] 通过合成多角度微调的检索增强生成系统用于知识产权 标题: Retrieval-Augmented Generation Systems for Intellectual Property via Synthetic Multi-Angle Fine-tuning 作者: Runtao Ren / Jian Ma / Jianxi Luo 原文: [英文] 备注: None 摘要: 在知识产权(IP)领域,检索增强生成(RAG)系统常常在处理多样化的用户查询时遇到困难,这些查询包括口语表达、拼写错误和模糊术语,导致检索不准确和响应效果不佳。为了解决这一挑战,我们提出了多角度问题生成与检索微调方法(MQG-RFM),这是一种新颖的框架,利用大型语言模型(LLMs)来模拟多样化的用户询问,并微调检索模型以对齐语义等价但语言多样的问题。与复杂的架构修改不同,MQG-RFM采用轻量级的数据微调范式,结合提示工程的查询生成和困难负样本挖掘,以增强检索的鲁棒性,而无需昂贵的基础设施更改。实验结果显示,在台湾专利问答数据集上,专利咨询数据集的检索准确性提高了185.62%,新颖专利技术报告数据集提高了262.26%,生成质量分别比基线提高了14.22%和53.58%。通过语义感知的检索优化,MQG-RFM在用户意图与系统理解之间架起了桥梁,为中小型机构提供了一种实用、可扩展的快速、经济高效的专利情报解决方案。此外,我们提出的方法已被中国最大的专业研究社交网络平台ScholarMate采用,以支持实际的开发和部署。一个实例化的演示版本可在此https URL上获得。 |
[65] 将推理与知识注入解耦用于上下文中的知识编辑 标题: Decoupling Reasoning and Knowledge Injection for In-Context Knowledge Editing 作者: Changyue Wang / Weihang Su / Qingyao Ai / Yujia Zhou / Yiqun Liu 原文: [英文] 备注: None 摘要: 知识编辑旨在通过修改特定知识来高效更新大型语言模型(LLMs),而无需重新训练整个模型。在知识编辑方法中,情境内编辑(ICE)通过将新知识直接注入输入情境中而不改变模型参数,提供了一种轻量级的解决方案。然而,现有的ICE方法并没有明确将新注入的知识与模型的原始推理过程分开。这种纠缠常常导致外部更新与内部参数化知识之间的冲突,削弱了推理的一致性和准确性。在这项工作中,我们进行了初步实验,以研究参数化知识如何影响推理路径规划。我们发现,模型的推理与其内部知识紧密耦合,简单地注入新信息而不调整推理路径通常会导致性能下降,特别是在多跳任务中。为此,我们提出了DecKER,一种新颖的ICE框架,通过生成一个掩码推理路径,然后通过混合检索和基于模型的验证来解决知识编辑,从而将推理与知识编辑解耦。在多跳问答基准测试上的实验表明,DecKER通过缓解知识冲突和保持推理一致性,显著优于现有的ICE方法。我们的代码可在此处获取:this https URL 。 |
[66] ARIA:通过意图驱动的奖励聚合训练语言代理 标题: ARIA: Training Language Agents with Intention-Driven Reward Aggregation 作者: Ruihan Yang / Yikai Zhang / Aili Chen / Xintao Wang / Siyu Yuan / Jiangjie Chen / Deqing Yang / Yanghua Xiao 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)通过自由形式的语言交互使得智能体能够执行复杂的推理和决策。然而,在开放式语言动作环境中(例如,谈判或问答游戏),动作空间可以被表述为一个联合的词元分布,导致动作空间呈指数级增长。在这样的空间中采样动作可能导致极端的奖励稀疏性,从而带来巨大的奖励方差,阻碍有效的强化学习(RL)。为了解决这个问题,我们提出了ARIA,一种在意图空间中聚合奖励的方法,以实现高效和有效的语言智能体训练。ARIA旨在将自然语言动作从高维的联合词元分布空间投射到低维的意图空间,在这里语义相似的动作被聚类并分配共享的奖励。这种意图感知的奖励聚合通过密集化奖励信号来减少奖励方差,促进更好的策略优化。大量实验表明,ARIA不仅显著减少了策略梯度方差,还在四个下游任务中平均带来了9.95%的显著性能提升,持续优于离线和在线RL基线。 |
[67] 面向跨领域和多语言的大型语言模型摘要的多维度评估 标题: Towards Multi-dimensional Evaluation of LLM Summarization across Domains and Languages 作者: Hyangsuk Min / Yuho Lee / Minjeong Ban / Jiaqi Deng / Nicole Hee-Yeon Kim / Taewon Yun / Hang Su / Jason Cai / Hwanjun Song 原文: [英文] [中文] 备注: 34 pages, 6 figures 摘要: 文本摘要评估框架在领域覆盖和指标方面都有所发展。然而,现有的基准测试仍然缺乏特定领域的评估标准,主要集中在英语,并且由于推理的复杂性而面临人工标注的挑战。为了解决这些问题,我们引入了MSumBench,它提供了对英语和中文摘要的多维度、多领域评估。它还为每个领域结合了专门的评估标准,并利用多代理辩论系统来提高标注质量。通过评估八个现代摘要模型,我们发现了不同领域和语言中的独特性能模式。我们进一步研究了大型语言模型作为摘要评估者,分析了它们的评估能力与摘要能力之间的相关性,并揭示了它们在评估自生成摘要时的系统性偏见。我们的基准数据集可在此https URL公开获取。 |
[68] AnnaAgent:具有多会话记忆的动态进化代理系统,用于真实的搜索者模拟 标题: AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation 作者: Ming Wang / Peidong Wang / Lin Wu / Xiaocui Yang / Daling Wang / Shi Feng / Yuxin Chen / Bixuan Wang / Yifei Zhang 原文: [英文] [中文] 备注: None 摘要: 由于涉及真实求助者的成本和伦理问题,研究人员开发了基于大型语言模型(LLM)的对话代理(CAs),通过定制配置如个人资料、症状和场景来模拟求助者。尽管这些努力推动了人工智能在心理健康领域的发展,但实现更真实的求助者模拟仍然受到两个关键挑战的阻碍:动态演变和多会话记忆。在咨询过程中,求助者的心理状态通常会波动,这通常需要多个会话。为了解决这个问题,我们提出了AnnaAgent,这是一种具备三级记忆的情感和认知动态代理系统。AnnaAgent结合了在真实咨询对话中训练的情感调节器和抱怨引导器,能够动态控制模拟器的配置。此外,其三级记忆机制有效地整合了跨会话的短期和长期记忆。自动和手动的评估结果表明,与现有基线相比,AnnaAgent在心理咨询中实现了更真实的求助者模拟。经过伦理审查和筛选的代码可以在这个https URL上找到。 |
[69] 伤害的隐秘语言:探讨表情符号在有害在线交流和内容审核中的作用 标题: The Hidden Language of Harm: Examining the Role of Emojis in Harmful Online Communication and Content Moderation 作者: Yuhang Zhou / Yimin Xiao / Wei Ai / Ge Gao 原文: [英文] [中文] 备注: 18 pages, 3 figures 摘要: 社交媒体平台已成为现代交流的核心,但它们也包含挑战平台安全性和包容性的攻击性内容。尽管先前的研究主要集中在文字上的攻击性指标,但作为在线交流中无处不在的视觉元素,表情符号的作用仍未被充分探索。表情符号虽然单独使用时很少具有攻击性,但通过象征性关联、讽刺和上下文误用,它们可以获得有害的含义。在这项工作中,我们系统地研究了表情符号对Twitter攻击性信息的贡献,分析了它们在不同攻击类别中的分布以及用户如何利用表情符号的模糊性。为了解决这个问题,我们提出了一种由大型语言模型驱动的多步骤审核流程,该流程有选择地替换有害的表情符号,同时保留推文的语义意图。人工评估证实,我们的方法有效地降低了感知到的攻击性,而不牺牲意义。我们的分析还揭示了不同攻击类型的异质效应,为在线交流和表情符号审核提供了细致的见解。 |
[70] Entriever:用于知识驱动对话系统的基于能量的检索器 标题: Entriever: Energy-based Retriever for Knowledge-Grounded Dialog Systems 作者: Yucheng Cai / Ke Li / Yi Huang / Junlan Feng / Zhijian Ou 原文: [英文] [中文] 备注: Accepted by ACL2025 Findings 摘要: 检索器是一种在给定上下文的情况下从知识库中检索相关知识片段的重要组件,在许多自然语言处理(NLP)任务中都扮演着关键角色。检索器已被引入到知识驱动的对话系统中,以改善知识获取。在知识驱动的对话系统中,当基于给定上下文进行条件处理时,可能存在多个相关且相互关联的知识片段。然而,在当前的检索器模型中,知识片段通常被假设为条件独立的。为了解决这个问题,我们提出了Entriever,一种基于能量的检索器。Entriever直接将候选检索结果作为一个整体进行建模,而不是分别建模知识片段,其相关性评分由能量函数定义。我们探索了能量函数的各种架构和不同的Entriever训练方法,并展示了Entriever在知识检索任务中显著优于强大的交叉编码器基线。此外,我们展示了在知识驱动的对话系统的半监督训练中,Entriever能够有效地对检索到的知识片段进行评分,并显著提高对话系统的端到端性能。 |
[71] PAKTON:用于长篇法律协议问答的多代理框架 标题: PAKTON: A Multi-Agent Framework for Question Answering in Long Legal Agreements 作者: Petros Raptopoulos / Giorgos Filandrianos / Maria Lymperaiou / Giorgos Stamou 原文: [英文] [中文] 备注: None 摘要: 合同审查是一项复杂且耗时的任务,通常需要专业的法律专长,这使得非专业人士难以接触。此外,法律解释很少是直截了当的——模糊性普遍存在,判断往往依赖于主观评估。加剧这些挑战的是,合同通常是保密的,这限制了它们在专有模型中的使用,并需要依赖开源替代方案。为了解决这些挑战,我们引入了PAKTON:一个完全开源的、端到端的、多代理框架,具有即插即用的功能。PAKTON旨在通过协作代理工作流和一种新颖的检索增强生成(RAG)组件来处理合同分析的复杂性,从而实现更易于访问、适应性更强且更具隐私保护的自动化法律文档审查。实验表明,PAKTON在预测准确性、检索性能、可解释性、完整性和基于事实的理由方面优于通用和预训练模型,这通过一项人类研究进行了评估,并通过自动化指标进行了验证。 |
[72] 利用知识图谱引导的干扰项生成来增强临床选择题基准 标题: Enhancing Clinical Multiple-Choice Questions Benchmarks with Knowledge Graph Guided Distractor Generation 作者: Running Yang / Wenlong Deng / Minghui Chen / Yuyin Zhou / Xiaoxiao Li 原文: [英文] [中文] 备注: None 摘要: 临床任务如诊断和治疗需要强大的决策能力,这突显了严格评估基准对于评估大型语言模型(LLMs)可靠性的重要性。在这项工作中,我们介绍了一种知识引导的数据增强框架,通过生成干扰项(即与正确选项相似且可能使现有LLMs困惑的错误选项)来提高临床多项选择题(MCQ)数据集的难度。使用我们的基于知识图谱的流程,生成的选项既在临床上合理又故意具有误导性。我们的方法涉及在医学知识图谱上进行多步、语义知晓的漫步,以识别医学相关但事实错误的干扰路径关联,然后指导LLM制作更具欺骗性的干扰项。我们将设计的知识图谱引导干扰项生成(KGGDG)流程应用于六个广泛使用的医学问答基准,并显示它一致降低了最先进LLMs的准确性。这些发现确立了KGGDG作为一种强大的工具,以实现对医学LLMs更为稳健和诊断性的评估。 |
[73] 通过组合搜索上下文示例来改进对话状态跟踪 标题: Improving Dialogue State Tracking through Combinatorial Search for In-Context Examples 作者: Haesung Pyun / Yoonah Park / Yohan Jo 原文: [英文] [中文] 备注: None 摘要: 在对话状态跟踪(DST)中,情境学习包括一个检索器,该检索器选择标记的对话作为情境示例,以及一个使用这些示例来推断查询对话状态的DST模型。现有的为检索器构建训练数据的方法存在三个关键限制:(1)未考虑示例的协同效应,(2)未充分考虑查询的语言特征,以及(3)评分未直接针对DST性能进行优化。因此,检索器可能无法检索到能够显著提高DST性能的示例。为了解决这些问题,我们提出了CombiSearch,这是一种基于示例对DST性能的组合影响来评分有效情境示例的方法。我们在MultiWOZ上的评估显示,使用CombiSearch训练的检索器超越了最先进的模型,实现了20倍的数据效率提升,并且在SGD数据集上表现良好。此外,当假设没有检索错误时,CombiSearch在DST性能上比传统方法取得了12%的绝对提升。这显著增加了实际DST性能的提升空间,同时表明现有方法依赖于次优的数据进行检索器训练。 |
[74] 语言识别模型实际上是口音分类器:对带口音语音的语言识别的影响及解决方案 标题: LID Models are Actually Accent Classifiers: Implications and Solutions for LID on Accented Speech 作者: Niyati Bafna / Matthew Wiesner 原文: [英文] [中文] 备注: Accepted at Interspeech 2025 摘要: 先前的研究表明,语言识别(LID)模型在带口音的语音上表现显著下降;然而,这些错误的具体原因、程度和特征仍未得到充分探索。(i) 我们识别出一种在带口音语音上的常见失效模式,即LID系统常常将第二语言(L2)口音的语音误分类为说话者的母语或相关语言。(ii) 我们提供的证据表明,最先进的模型对短语音片段的排列顺序不变,这意味着它们是基于短的音系特征进行分类,这些特征更多地指示口音而非语言。我们的分析揭示了一种通过输入分块来增强模型对口音鲁棒性的简单方法。(iii) 我们提出了一种方法,将序列级信息整合到我们的模型中,而不依赖于单语自动语音识别(ASR)系统;这减少了口音与语言的混淆,并在带口音的语音上显著提高了性能,同时在标准LID上保持了可比的结果。 |
[75] 城市空间的社会构建:利用租赁信息理解社区边界 标题: Social Construction of Urban Space: Understanding Neighborhood Boundaries Using Rental Listings 作者: Adam Visokay / Ruth Bagley / Ian Kennedy / Chris Hess / Kyle Crowder / Rob Voigt / Denis Peskoff 原文: [英文] 备注: 8 pages, 3 figures, 4 tables 摘要: 租赁信息提供了一个独特的视角,通过语言展示城市空间是如何被社会建构的。我们分析了2018年至2024年间芝加哥Craigslist上的租赁广告,以研究房产代理如何描述社区,并识别出制度边界与社区主张之间的不匹配。通过手动和大型语言模型的标注,我们根据社区对Craigslist上的非结构化列表进行分类。地理空间分析揭示了三种不同的模式:由于竞争的空间定义导致的社区指定冲突的房产,拥有对邻近社区有效主张的边界房产,以及声誉漂白现象,即列表声称与遥远的、理想的社区有联系。通过主题建模,我们识别出与空间定位相关的模式:距离社区中心较远的列表强调不同于中心位置单元的设施。我们的研究结果表明,自然语言处理技术可以揭示城市空间定义的争议,这些争议是传统方法所忽视的。 |
[76] ViToSA:基于音频的越南语语音毒性片段检测 标题: ViToSA: Audio-Based Toxic Spans Detection on Vietnamese Speech Utterances 作者: Huy Ba Do / Vy Le-Phuong Huynh / Luan Thanh Nguyen 原文: [英文] [中文] 备注: Accepted for presentation at INTERSPEECH 2025 摘要: 在线平台上的有害言论是一个日益严重的问题,影响用户体验和在线安全。虽然基于文本的有害性检测已经有很多研究,但基于音频的方法仍然未被充分探索,尤其是对于像越南语这样的低资源语言。本文介绍了ViToSA(越南语有害片段音频),这是首个用于检测越南语语音中有害片段的数据集,包含11,000个音频样本(25小时),并附有准确的人类标注的转录文本。我们提出了一种结合自动语音识别(ASR)和有害片段检测的流程,用于细粒度识别有害内容。我们的实验表明,在ViToSA上微调ASR模型显著降低了转录有害语音时的词错误率(WER),而基于文本的有害片段检测(TSD)模型则优于现有基准。这些发现为越南语音频有害片段检测建立了一个新的基准,为未来的语音内容审核研究铺平了道路。 |
[77] 利用输出分布的特性改进文本生成中置信度分数的校准 标题: Improving the Calibration of Confidence Scores in Text Generation Using the Output Distribution's Characteristics 作者: Lorenzo Jaime Yu Flores / Ori Ernst / Jackie Chi Kit Cheung 原文: [英文] [中文] 备注: ACL 2025 Main Conference 摘要: 良好的模型置信度评分可以提高文本生成模型的实用性。例如,可以提示用户审查置信度评分较低的预测,以防止模型返回不良或潜在危险的预测。然而,在文本生成中,置信度指标并不总是校准良好。一个原因是在生成过程中可能存在多种有效答案,而之前的方法并不总是考虑到这一点。因此,一个自信的模型可能会将其输出概率分配给多个序列,因为它们都是有效的。我们提出了适用于生成的任务无关置信度指标,这些指标仅依赖于与模型输出相关的概率,而无需进一步的微调或启发式方法。使用这些指标,我们能够改善BART和Flan-T5在摘要、翻译和问答数据集上的校准。 |
[78] SATA-BENCH:多项选择题的全选基准 标题: SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions 作者: Weijie Xu / Shixian Cui / Xi Fang / Chi Xue / Stephanie Eckman / Chandan Reddy 原文: [英文] [中文] 备注: 40 pages, 13 figures 摘要: 大型语言模型(LLMs)在单一答案的多项选择任务中越来越多地被评估,但许多现实世界的问题需要从一组选项中识别出所有正确答案。这种能力仍然未被充分探索。我们引入了SATA-BENCH,这是第一个专门用于评估LLMs在“选择所有适用项”(SATA)问题上的基准,涵盖了阅读理解、法律和生物医学等不同领域。我们对27个开源和专有模型的评估揭示了一个显著的差距:即使是最强的模型也仅能达到41.8%的精确匹配率,暴露了LLMs在可靠识别所有正确答案方面的不足。我们发现这种弱点源于两个核心挑战:选择偏差——模型偏向于某些选项而不考虑内容,以及数量偏差——模型无法预测正确的答案数量。为了解决这些问题,我们提出了Choice Funnel,这是一种解码策略,将标记去偏与自适应阈值相结合,引导模型做出完整且准确的选择。Choice Funnel在精确匹配率上比竞争基线高出最多29%,同时将推理成本降低了超过64%。我们的研究结果揭示了当前LLMs的基本局限性,并引入了一个新的框架,用于诊断和改进多答案推理。我们发布了SATA-BENCH和Choice Funnel,以促进LLM在现实、多答案应用中的稳健决策能力的发展。 |
[79] 用于自动口吃严重程度评估的临床注释 标题: Clinical Annotations for Automatic Stuttering Severity Assessment 作者: Ana Rita Valente / Rufael Marew / Hawau Olamide Toyin / Hamdan Al-Ali / Anelise Bohnen / Inma Becerra / Elsa Marta Soares / Goncalo Leal / Hanan Aldarmaki 原文: [英文] [中文] 备注: Accepted at INTERSPEECH 2025 摘要: 口吃是一种复杂的障碍,需要专业的知识进行有效的评估和治疗。本文介绍了一项努力,即通过基于既定临床标准的新口吃标注方案来增强FluencyBank数据集。为了实现高质量的标注,我们聘请了专家临床医生对数据进行标注,确保所得标注反映真实世界的临床专业知识。标注是多模态的,结合了视听特征用于检测和分类口吃时刻、次要行为和紧张评分。除了个体标注外,我们还提供了一个基于专家共识的高可靠性标注测试集,用于评估个体标注者和机器学习模型。我们的实验和分析展示了这一任务的复杂性,这需要广泛的临床专业知识来对口吃评估模型进行有效的训练和评估。 |
[80] GuideX:用于零样本信息抽取的引导式合成数据生成 标题: GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction 作者: Neil De La Fuente / Oscar Sainz / Iker García-Ferrero / Eneko Agirre 原文: [英文] [中文] 备注: ACL Findings 2025 摘要: 信息抽取(IE)系统传统上是特定领域的,需要昂贵的适应过程,包括专家设计模式、数据标注和模型训练。虽然大型语言模型在零样本信息抽取中表现出色,但在标签定义不同的未见领域中,性能会显著下降。本文介绍了GUIDEX,这是一种新方法,可以自动定义特定领域的模式,推断指南,并生成合成标注实例,从而实现更好的跨领域泛化。通过使用GUIDEX微调Llama 3.1,在七个零样本命名实体识别基准上设立了新的最先进水平。使用GUIDEX训练的模型在没有人工标注数据的情况下比以前的方法提高了多达7个F1分数,并且在结合人工标注数据时提高了近2个F1分数。基于GUIDEX训练的模型展示了对复杂、特定领域标注模式的增强理解。代码、模型和合成数据集可在此URL获取。 |
[81] Sarc7:使用七种类型和情感信息技术评估讽刺检测与生成 标题: Sarc7: Evaluating Sarcasm Detection and Generation with Seven Types and Emotion-Informed Techniques 作者: Lang Xiong / Raina Gao / Alyssa Jeong / Yicheng Fu / Sean O'Brien / Vasu Sharma / Kevin Zhu 原文: [英文] [中文] 备注: None 摘要: 讽刺是一种幽默形式,其中表达的意思与其字面解释相反。使用大型语言模型对讽刺进行分类和生成对于理解人类交流至关重要。由于讽刺的微妙性质,它对计算模型构成了挑战。我们引入了Sarc7,这是一个通过对MUStARD数据集的条目进行注释来分类7种讽刺类型的基准:自嘲、沉思、冷面、礼貌、粗鲁、愤怒和狂躁。分类评估使用了零样本、少样本、链式思维(CoT)和一种新颖的基于情感的提示技术。我们提出了一种基于情感的生成方法,通过识别讽刺的不一致性、冲击价值和上下文依赖性等关键成分来开发。我们的分类实验表明,使用基于情感提示的Gemini 2.5在F1得分为0.3664的情况下优于其他设置。人类评估者更喜欢我们的基于情感的提示,其成功生成率比零样本提示高出38.46%。 |
[82] 多轮对话的安全性推理引导对齐 标题: SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues 作者: Martin Kuo / Jianyi Zhang / Aolin Ding / Louis DiValentin / Amin Hass / Benjamin F Morris / Isaac Jacobson / Randolph Linderman / James Kiessling / Nicolas Ramos / Bhavna Gopal / Maziyar Baran Pouyan / Changwei Liu / Hai Li / Yiran Chen 原文: [英文] [中文] 备注: None 摘要: 恶意攻击者可以通过与大型语言模型(LLMs)进行多轮对话来实现有害目标,从而对社会构成重大安全风险。为了解决这一挑战,我们提出了一种新颖的防御机制:多轮对话的安全推理引导对齐(STREAM)。STREAM在保护LLMs免受多轮攻击的同时,保留其功能能力。我们的方法包括构建一个人工标注的数据集,即安全推理多轮对话数据集,用于微调一个即插即用的安全推理调节器。该模型旨在识别隐藏在多轮对话中的恶意意图,并提醒目标LLM潜在的风险。我们在多个LLM上评估了STREAM对常见多轮攻击策略的防御效果。实验结果表明,我们的方法显著优于现有的防御技术,将攻击成功率(ASR)降低了51.2%,同时保持了可比的LLM能力。 |
[83] DeepRAG:整合层次推理和过程监督用于生物医学多跳问答 标题: DeepRAG: Integrating Hierarchical Reasoning and Process Supervision for Biomedical Multi-Hop QA 作者: Yuelyu Ji / Hang Zhang / Shiven Verma / Hui Ji / Chun Li / Yushui Han / Yanshan Wang 原文: [英文] [中文] 备注: None 摘要: 我们提出了DeepRAG,这是一种新颖的框架,将DeepSeek的层次化问题分解能力与RAG Gym的统一检索增强生成优化相结合,并使用过程级监督。针对具有挑战性的MedHopQA生物医学问答任务,DeepRAG系统地将复杂查询分解为精确的子查询,并利用UMLS本体提供的概念级奖励信号来提高生物医学准确性。在MedHopQA数据集上的初步评估表明,DeepRAG显著优于基线模型,包括独立的DeepSeek和RAG Gym,在精确匹配和概念级准确性方面均取得了显著的改进。 |
[84] 衡量忠实性和弃权:用于评估大型语言模型生成的三层案例法律论证的自动化流程 标题: Measuring Faithfulness and Abstention: An Automated Pipeline for Evaluating LLM-Generated 3-ply Case-Based Legal Arguments 作者: Li Zhang / Morgan Gray / Jaromir Savelka / Kevin D. Ashley 原文: [英文] [中文] 备注: 11 pages, 7th Workshop on Automated Semantic Analysis of Information in Legal Text, 16 June 2025, Chicago, IL 摘要: 大型语言模型(LLMs)在生成复杂法律任务如论点生成方面展示了潜力,但其可靠性仍然令人担忧。在先前通过人工评估评估LLM生成三层法律论点的试点工作的基础上,本文引入了一种自动化流程来评估LLM在此任务中的表现,特别关注忠实性(无幻觉)、因素利用和适当的弃权。我们将幻觉定义为生成输入案例材料中不存在的因素,而弃权则是指模型在被指示且没有事实依据时能够避免生成论点的能力。我们的方法使用外部LLM从生成的论点中提取因素,并将其与输入案例三元组(当前案例和两个先例案例)中提供的真实因素进行比较。我们在三个难度递增的测试中评估了八个不同的LLM:1)生成标准的三层论点,2)生成交换先例角色的论点,以及3)识别由于缺乏共享因素而无法生成论点并弃权。我们的研究结果表明,尽管当前的LLM在可行的论点生成测试(测试1和2)中在避免幻觉方面达到了高准确率(超过90%),但它们往往未能利用案例中存在的全部相关因素。更为关键的是,在弃权测试(测试3)中,大多数模型未能遵循停止的指令,尽管缺乏共同因素,仍生成了虚假的论点。这个自动化流程提供了一种可扩展的方法来评估这些关键的LLM行为,强调了在法律环境中可靠部署之前,需要在因素利用和稳健的弃权能力方面进行改进。项目页面:this https URL。 |
[85] 从论证文本到论证知识图谱:一种用于结构化论证的新框架 标题: From Argumentative Text to Argument Knowledge Graph: A New Framework for Structured Argumentation 作者: Debarati Bhattacharjee / Ashish Anand 原文: [英文] [中文] 备注: 16 pages, 7 figures 摘要: 本文提出了一个将论证文本转换为论证知识图谱(AKG)的框架。首先,我们从论证组件(ACs)和论证关系(ARs)的基本标注开始,通过为节点构建具有元数据属性的知识库(KB)图来丰富信息。接下来,我们使用知识库中的前提和推理规则,通过应用假言推理来形成论证。从这些论证中,我们创建了一个AKG。AKG的节点和边具有捕捉重要论证特征的属性。我们还通过识别标记来发现缺失的推理规则。这使得能够识别在现有数据集中无法检测到的削弱攻击。AKG提供了一种比理论格式更易于理解的论证结构图形视图。它还为未来的推理任务做好了准备,包括检查论证的连贯性和识别修订的机会。为此,找到许多隐含的间接关系是很重要的。我们提出的AKG格式,结合标注的推理规则和假言推理,将帮助推理模型学习需要对论证及其关系进行推理的隐含间接关系。 |
[86] 面向开放端到端语音对话系统的链式思维训练 标题: Chain-of-Thought Training for Open E2E Spoken Dialogue Systems 作者: Siddhant Arora / Jinchuan Tian / Hayato Futami / Jee-weon Jung / Jiatong Shi / Yosuke Kashiwagi / Emiru Tsunoo / Shinji Watanabe 原文: [英文] [中文] 备注: Accepted at INTERSPEECH 2025 摘要: 与传统的级联管道不同,端到端(E2E)语音对话系统保持了完全的可微性并捕捉非音素信息,使其非常适合建模语音交互。然而,现有的E2E方法通常需要大规模的训练数据,并生成缺乏语义连贯性的响应。我们提出了一种简单而有效的策略,利用链式思维(CoT)公式,确保在会话数据上的训练与多模态语言模型(LM)在语音识别(ASR)、文本到语音合成(TTS)和文本LM任务上的预训练保持紧密一致。我们的方法在基准上实现了超过1.5的ROUGE-1提升,成功地在公开可用的人与人对话数据集上训练语音对话系统,同时计算效率足以仅在300小时的公开人类对话数据(如Switchboard)上进行训练。我们将公开发布我们的模型和训练代码。 |
[87] 大语言模型中用于小样本适应的结构化梯度指导 标题: Structured Gradient Guidance for Few-Shot Adaptation in Large Language Models 作者: Hongye Zheng / Yichen Wang / Ray Pan / Guiran Liu / Binrong Zhu / Hanlu Zhang 原文: [英文] 备注: None 摘要: 本文提出了一种在少样本条件下用于大型语言模型的梯度知情微调方法。其目标是在数据有限的情况下增强任务适应性和训练稳定性。该方法基于一个基础损失函数,并引入了两个与梯度相关的正则化项。第一个正则化项强制梯度方向一致性,以引导参数更新沿着与任务相关的方向进行,并防止偏离。第二个正则化项控制梯度幅度,以避免异常更新。这些组件共同支持更高效和稳定的优化路径。为了进一步提高跨任务的泛化能力,该方法结合了梯度对齐机制。该机制衡量源任务和目标任务的优化方向之间的一致性。在多任务和跨领域场景中,它提高了微调性能。在各种自然语言理解任务中,该方法在平均准确性、梯度稳定性和方向对齐方面优于现有的微调策略。在不同样本量和特定领域任务下的实证评估证实了该方法在低资源环境中的稳健性和广泛适用性。特别是,该方法在控制参数更新路径方面显示出明显优势。结果表明,基于梯度的微调框架可以有效利用大型语言模型的表示能力。它确保了训练的稳定性,同时减少了对大量标记数据的依赖。 |
[88] 政治话语中的叙事媒体框架 标题: Narrative Media Framing in Political Discourse 作者: Yulia Otmakhova / Lea Frermann 原文: [英文] [中文] 备注: Accepted to ACL 2025 Findings 摘要: 叙事框架是一种强有力的方式,用于概念化和传达复杂、有争议的观点。然而,迄今为止,自动化框架分析大多忽视了这种框架工具。在本文中,我们将叙事性元素与框架的基本方面相结合,并提出了一个形式化和操作化这些方面的框架。我们对气候变化领域的新闻文章进行了标注,并发布了一个数据集,分析了叙事框架组件在不同政治倾向中的主导性,并测试了大型语言模型(LLMs)预测叙事框架及其组件的能力。最后,我们在第二个领域——COVID-19危机中,以无监督的方式应用我们的框架来引出叙事框架的组件,我们的预测与先前的理论工作一致,显示了我们方法的普适性。 |
[89] DefenderBench:用于评估网络安全环境中语言代理的工具包 标题: DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments 作者: Chiyu Zhang / Marc-Alexandre Cote / Michael Albada / Anush Sankaran / Jack W. Stokes / Tong Wang / Amir Abdi / William Blum / Muhammad Abdul-Mageed 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLM)代理在理解和推理人类语言方面表现出色,但其在网络安全领域的潜力尚未得到充分探索。我们介绍了DefenderBench,这是一款实用的开源工具包,用于评估语言代理在攻击、防御和基于网络安全知识的任务中的表现。DefenderBench包括网络入侵、恶意内容检测、代码漏洞分析和网络安全知识评估的环境。它被设计为对研究人员来说既经济实惠又易于访问,同时提供公平和严格的评估。我们使用标准化的代理框架对几种最先进(SoTA)和流行的LLM进行了基准测试,包括开放和封闭权重模型。我们的结果显示,Claude-3.7-sonnet以81.65的DefenderBench得分表现最佳,其次是Claude-3.7-sonnet-think,得分为78.40,而表现最好的开放权重模型Llama 3.3 70B也不甘落后,DefenderBench得分为71.81。DefenderBench的模块化设计允许无缝集成自定义LLM和任务,促进可重复性和公平比较。DefenderBench的匿名版本可在此https URL获取。 |
[90] 面向视频配音的长度感知语音翻译 标题: Length Aware Speech Translation for Video Dubbing 作者: Harveen Singh Chadha / Aswin Shanmugam Subramanian / Vikas Joshi / Shubham Bansal / Jian Xue / Rupeshkumar Mehta / Jinyu Li 原文: [英文] [中文] 备注: This paper was accepted to Interspeech 2025 摘要: 在视频配音中,使翻译后的音频与源音频对齐是一个重要的挑战。我们的重点是高效地实现这一目标,特别是针对实时、设备端的视频配音场景。我们开发了一种基于音素的端到端长度敏感语音翻译(LSST)模型,该模型使用预定义标签生成不同长度的翻译:短、正常和长。此外,我们引入了长度感知束搜索(LABS),这是一种在单次解码过程中生成不同长度翻译的高效方法。与没有长度感知的基线相比,这种方法在保持可比BLEU分数的同时,显著提高了源音频和目标音频之间的同步质量,分别在西班牙语和韩语中实现了0.34和0.65的平均意见得分(MOS)提升。 |
[91] 数据群:可优化生成合成评估数据 标题: Data Swarms: Optimizable Generation of Synthetic Evaluation Data 作者: Shangbin Feng / Yike Wang / Weijia Shi / Yulia Tsvetkov 原文: [英文] [中文] 备注: None 摘要: 我们提出了数据群算法,以优化合成评估数据的生成并推进大型语言模型评估的定量目标。我们首先使用现有数据训练一群初始数据生成器,并定义各种评估目标以反映评估的期望属性(例如,为被评估模型生成更困难的问题)并定量评估数据生成器。然后,我们采用粒子群优化来优化数据生成器群体,使其协同搜索模型参数空间,以找到推进这些目标的新生成器。我们进一步将其扩展为对抗群体,其中数据生成器群体生成更难的数据,而测试模型群体从这些数据中学习,动态共同进化以同时获得更好的数据和模型。大量实验表明,数据群在五个评估目标上优于八个数据生成基线,而对抗群体则产生更稳健的合成数据学习和更强的泛化能力。进一步分析揭示,数据群成功优化了多个评估目标的组合,并推广到在优化时未见过的新现成大型语言模型。 |
[92] 注意力头的选择:通过头剪枝和战略性客户端选择加速联邦参数高效微调 标题: Assortment of Attention Heads: Accelerating Federated PEFT with Head Pruning and Strategic Client Selection 作者: Yeshwanth Venkatesha / Souvik Kundu / Priyadarshini Panda 原文: [英文] [中文] 备注: None 摘要: 参数高效微调(PEFT)已成为在自然语言处理领域中调整大型语言模型(LLMs)以适应下游任务的事实标准。然而,其在隐私保护的分布式学习框架中,如联邦学习(FL),的应用仍然相对有限。这主要是由于FL特有的挑战,例如资源受限的设备和客户端之间多样的数据分布。在本文中,我们提出了一种在FL框架内对基于多头注意力(MHA)的语言模型进行PEFT的高效方法。我们通过头剪枝、一个新颖的头部特定加权聚合机制以及客户端选择策略来解决这些挑战。头剪枝通过基于注意力头的置信度计算的重要性评分来指导,减少客户端内的训练复杂性。头部的加权聚合确保全局模型从多样化的客户端中捕获关键更新,补充我们的客户端选择策略。我们在MultiNLI基准测试以及20个新闻组、XL-Sum和E2E NLG数据集上展示了结果。我们使用MultiNLI数据集和T5-small模型,并采用LoRA作为我们的PEFT方法,达到高达90%的稀疏水平,带来高达1.8倍的通信优势和3.9倍的训练操作减少,同时将准确性下降保持在2%以内。 |
[93] 谨慎翻译:解决大型语言模型翻译中的性别偏见、中立性和推理问题 标题: Translate With Care: Addressing Gender Bias, Neutrality, and Reasoning in Large Language Model Translations 作者: Pardis Sadat Zahraei / Ali Emami 原文: [英文] [中文] 备注: Accepted to Findings of ACL 2025 摘要: 在机器翻译中解决性别偏见和保持逻辑一致性仍然具有挑战性,特别是在自然性别语言(如英语)和无性别语言(如波斯语、印尼语和芬兰语)之间的翻译中。我们引入了Translate-with-Care (TWC) 数据集,其中包含六种低到中资源语言的3,950个具有挑战性的场景,以评估翻译系统的性能。我们对包括GPT-4、mBART-50、NLLB-200和Google翻译在内的多种技术的分析显示,在翻译无性别内容时普遍存在困难,导致性别刻板印象和推理错误。在性别刻板印象可能影响选择的情况下,所有模型都偏好使用男性代词。在领导力和职业成功的背景下,Google翻译和GPT-4表现出特别强烈的偏见,使用男性代词的频率是女性代词的4-6倍。对mBART-50进行TWC微调大大解决了这些偏见和错误,表现出强大的泛化能力,并超越了专有的大型语言模型,同时保持开源。此项工作强调了在机器翻译中针对性别和语义一致性采取有针对性的方法的必要性,特别是对于无性别语言,从而有助于实现更公平和准确的翻译系统。 |
[94] 通过语言特定和通用隐私神经元理解和缓解跨语言隐私泄漏 标题: Understanding and Mitigating Cross-lingual Privacy Leakage via Language-specific and Universal Privacy Neurons 作者: Wenshuo Dong / Qingsong Yang / Shu Yang / Lijie Hu / Meng Ding / Wanyu Lin / Tianhang Zheng / Di Wang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在海量数据上进行训练,捕捉了训练数据中蕴含的丰富信息。然而,这也带来了隐私泄露的风险,特别是涉及个人身份信息(PII)。尽管先前的研究表明,这种风险可以通过隐私神经元等方法来缓解,但它们都假设(敏感的)训练数据和用户查询都是用英语进行的。我们展示了它们无法防御跨语言环境中的隐私泄露:即使训练数据完全是用一种语言,这些(私有)模型在用另一种语言查询时仍可能泄露私人信息。在这项工作中,我们首先研究了跨语言隐私泄露的信息流,以便更好地理解这一现象。我们发现,LLMs在中间层处理中处理私人信息,这些层中的表示在很大程度上是跨语言共享的。当转换到后期层的特定语言空间时,泄露风险达到峰值。基于此,我们识别出隐私通用神经元和语言特定隐私神经元。隐私通用神经元影响所有语言的隐私泄露,而语言特定隐私神经元仅与特定语言相关。通过停用这些神经元,跨语言隐私泄露风险降低了23.3%-31.6%。 |
[95] 大语言模型中超长上下文阅读理解的动态分块与选择 标题: Dynamic Chunking and Selection for Reading Comprehension of Ultra-Long Context in Large Language Models 作者: Boheng Sheng / Jiacheng Yao / Meicong Zhang / Guoxiu He 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)通常难以准确阅读和理解极长的文本。当前的改进方法通常依赖于将长上下文分割成固定长度的块。然而,固定截断可能会分离语义相关的内容,导致歧义并影响准确理解。为克服这一限制,我们提出了一种简单的方法,用于动态分离和选择长上下文的块,从而为LLMs提供更简化的输入。具体来说,我们计算相邻句子之间的语义相似性,利用较低的相似性来自适应地将长上下文分割成可变长度的块。我们进一步训练了一个问题感知分类器,以选择对回答特定问题至关重要的敏感块。在单跳和多跳问答基准测试上的实验结果表明,所提出的方法始终优于强基线。值得注意的是,它在广泛的输入长度范围内保持了鲁棒性,能够处理长达256k个标记的序列。我们的数据集和代码可在以下链接获取:this https URL |
[96] 通过将大型语言模型作为评判者来改进生物医学关系抽取中大型语言模型的自动评估 标题: Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge 作者: Md Tahmid Rahman Laskar / Israt Jahan / Elham Dolatabadi / Chun Peng / Enamul Hoque / Jimmy Huang 原文: [英文] [中文] 备注: Accepted at ACL 2025 (Main Conference) 摘要: 大型语言模型(LLMs)在生物医学关系抽取任务中表现出色,即使在零样本场景中也是如此。然而,由于LLMs能够生成类似人类的文本,常常会产生与标准答案同义或缩写的结果,使得传统的自动评估指标不可靠,因此对LLMs在该任务中的评估仍然具有挑战性。另一方面,尽管人工评估更为可靠,但其成本高且耗时长,使其在实际应用中不切实际。本文研究了将LLMs作为评判者用于生物医学关系抽取的替代评估方法。我们对8个LLMs作为评判者进行基准测试,以评估由其他5个LLMs在3个生物医学关系抽取数据集上生成的响应。与其他文本生成任务不同,我们观察到基于LLM的评判者在生物医学关系抽取任务中的表现相当差(通常准确率低于50%)。我们的研究结果表明,这主要是因为LLMs提取的关系不遵循任何标准格式。为了解决这个问题,我们提出了结构化输出格式,以帮助LLM评判者将其性能平均提高约15%。我们还引入了一种领域适应技术,通过有效地在数据集之间转移知识,进一步提升LLM评判者的性能。我们在此公开发布我们的人类标注和LLM标注的评判数据(总计36,000个样本):这个https URL。 |
[97] KG-TRACES:通过知识图谱约束的轨迹推理和归因监督增强大型语言模型 标题: KG-TRACES: Enhancing Large Language Models with Knowledge Graph-constrained Trajectory Reasoning and Attribution Supervision 作者: Rong Wu / Pinlong Cai / Jianbiao Mei / Licheng Wen / Tao Hu / Xuemeng Yang / Daocheng Fu / Botian Shi 原文: [英文] [中文] 备注: 23 pages, 13 figures 摘要: 大型语言模型(LLMs)在各种自然语言处理任务中取得了显著进展,但在复杂推理问题上的表现仍然受到可解释性和可信度不足的限制。这一问题通常表现为幻觉或不可归因的推理过程,限制了它们在复杂推理场景中的适用性。为了解决这个问题,我们提出了知识图谱约束的轨迹推理归因和链式解释监督(KG-TRACES),这是一种新颖的框架,通过对推理路径和过程的显式监督来增强LLMs的推理能力。KG-TRACES联合监督模型:(1)预测符号关系路径,(2)预测完整的三元组级推理路径,以及(3)生成基于推理路径的归因感知推理过程。在推理阶段,模型适应于知识图谱可用和不可用的场景,在可能的情况下从知识图谱中检索推理路径,或在不可能的情况下仅凭内在知识预测合理的推理路径。此设计使模型能够以可解释和可溯源的模式进行推理。通过在复杂推理任务上的广泛实验,我们证明了KG-TRACES显著优于现有的SOTA:在WebQSP上,Hits@1提高了1.6%,F1提高了4.7%;在CWQ上,Hits@1提高了4.8%,F1提高了2.1%。此外,我们展示了其在医学等专业领域的可迁移性。通过可视化推理过程的中间步骤,我们进一步表明,KG-TRACES引入的显式监督导致了更稳定和目标导向的推理过程,与正确答案紧密对齐。代码可在此https URL获取。 |
[98] 研究边界:分析跨研究文化的写作 标题: Research Borderlands: Analysing Writing Across Research Cultures 作者: Shaily Bhatt / Tal August / Maria Antoniak 原文: [英文] [中文] 备注: Accepted to ACL 2025 (Main) 摘要: 提高语言技术的文化能力非常重要。然而,最近的大多数研究很少与他们所研究的社区进行互动,而是依赖于合成设置和不完美的文化代理。在这项工作中,我们采用以人为中心的方法来发现和衡量基于语言的文化规范,以及大型语言模型(LLM)的文化能力。我们专注于一种文化,即研究文化,以及一个任务,即在不同研究文化中适应写作。通过与跨学科研究人员进行一系列访谈,这些研究人员在跨文化交流方面是专家,我们创建了一个框架,涵盖在不同研究文化中变化的结构、风格、修辞和引用规范。我们通过一套计算指标来实现这些特征,并用于(a)在大规模人类撰写的研究论文中揭示潜在的文化规范;以及(b)突出LLM缺乏文化能力及其趋向于使写作同质化。总体而言,我们的工作展示了以人为中心的方法在衡量人类撰写和LLM生成文本中的文化规范方面的有效性。 |
[99] RARE:用于检索增强生成系统的检索感知鲁棒性评估 标题: RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems 作者: Yixiao Zeng / Tianyu Cao / Danqing Wang / Xinran Zhao / Zimeng Qiu / Morteza Ziyadi / Tongshuang Wu / Lei Li 原文: [英文] [中文] 备注: None 摘要: 检索增强生成(RAG)提高了答案的新颖性和事实性。然而,现有的评估很少测试这些系统如何应对现实世界中的噪声、内部和外部检索上下文之间的冲突或快速变化的事实。我们引入了检索感知鲁棒性评估(RARE),这是一个统一的框架和大规模基准,联合对动态、时间敏感语料库中的查询和文档扰动进行压力测试。RARE的核心特征之一是一个由知识图驱动的合成管道(RARE-Get),它可以自动从定制语料库中提取单跳和多跳关系,并生成多层次的问题集,无需人工干预。利用这个管道,我们构建了一个数据集(RARE-Set),涵盖了400篇专家级的时间敏感金融、经济和政策文档,以及48,322个问题,其分布随着基础来源的变化而演变。为了量化弹性,我们形式化了检索条件下的鲁棒性指标(RARE-Met),这些指标捕捉了模型在查询、文档或现实世界检索结果系统性改变时保持正确或恢复的能力。我们的结果表明,RAG系统对扰动表现出惊人的脆弱性,其中文档鲁棒性始终是最薄弱的环节,无论生成器的大小或架构如何。RAG系统在所有领域中对多跳查询的鲁棒性始终低于单跳查询。 |
[100] 快还是慢?结合快速直觉与深思熟虑以提升视觉问答 标题: Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering 作者: Songtao Jiang / Chenyi Zhou / Yan Zhang / Yeying Jin / Zuozhu Liu 原文: [英文] [中文] 备注: None 摘要: 多模态大语言模型(MLLMs)在视觉问答(VQA)的复杂推理任务中仍然面临挑战。尽管当前的方法通过引入视觉提示取得了一定进展,但我们的研究揭示了其关键局限性:这些方法对每个视觉问题不加区分地标注所有检测到的对象,生成过多的视觉标记,从而降低了任务性能。这个问题主要源于缺乏对关键视觉元素的关注,提出了两个重要问题:所有对象是否同等重要,所有问题是否都需要视觉提示?受双重过程理论的启发,该理论区分了人类推理中的本能和深思熟虑的认知模式,我们提出了FOCUS,这是一种即插即用的方法,能够动态适应问题的复杂性,结合快速直观判断和深思熟虑的分析推理,以增强MLLM的视觉-语言推理能力。对于简单的问题,FOCUS支持高效的零样本推理。对于更复杂的任务,它采用“先概念化后观察”的策略来突出关键元素。在四个基准测试ScienceQA、TextQA、VizWiz和MME上的大量实验表明,FOCUS持续提升了开源和黑盒MLLM的性能,在所有数据集上均取得了显著的提升。消融研究进一步验证了结合多样化认知策略与精炼视觉信息对于卓越性能的重要性。代码将会发布。 |
[101] GuessBench:野外多模态创造力的理解 标题: GuessBench: Sensemaking Multimodal Creativity in the Wild 作者: Zifeng Zhu / Shangbin Feng / Herun Wan / Ningnan Wang / Minnan Luo / Yulia Tsvetkov 原文: [英文] [中文] 备注: None 摘要: 我们提出了GuessBench,这是一种新颖的基准测试,用于评估视觉语言模型(VLMs)在处理普遍存在的、噪声的、多元化的人类创造力方面的能力。GuessBench的数据来源于“猜建造”,这是一款在线多人Minecraft小游戏,其中一名玩家根据一个概念(例如,毛毛虫)构建Minecraft作品,其他玩家尝试通过自然语言提示来猜测它。这为VLMs作为猜测者在真实环境中进行意义创造的创造力提供了一个理想的测试平台。我们从实际游戏中精选了1500张图像,并设计了2000个问题,涵盖静态和动态图像设置、不同完整性的自然语言提示等。对六个开放/API VLMs和五种推理增强方法的广泛实验表明,GuessBench在创造力建模方面提出了一个独特的挑战任务:即使是最先进的GPT-4o在34%的实例中也不正确,而我们观察到开放模型和API模型之间存在巨大性能差距(平均13.87%对53.93%)。当用作改善VLMs的资源时,对GuessBench问题的推理轨迹进行微调平均提高了视觉感知任务15.36%。进一步分析揭示了VLM在创造力意义创造中的表现与训练数据中概念的频率相关,而对于在文化背景中代表性不足的概念和低资源语言,准确性急剧下降。 |
[102] 从普通文本到诗歌形式:生成有韵律约束的梵文诗句 标题: From Plain Text to Poetic Form: Generating Metrically-Constrained Sanskrit Verses 作者: Manoj Balaji Jagadeeshan / Samarth Bhatia / Pretam Ray / Harshul Raj Surana / Akhil Rajeev P / Priya Mishra / Annarao Kulkarni / Ganesh Ramakrishnan / Prathosh AP / Pawan Goyal 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展显著提升了自然语言生成能力,包括诗歌创作等创造性任务。然而,大多数进展仍集中在高资源语言上。这引发了一个重要问题:LLMs能否适应在低资源、形态丰富的语言(如梵语)中进行结构化诗歌生成?在这项工作中,我们引入了一个数据集,旨在将英语散文翻译成结构化的梵语诗句,严格遵循古典的韵律模式,特别是Anushtub韵律。我们在多种设置下评估了一系列生成模型,包括开源和专有模型。具体来说,我们探索了针对韵律和语义保真度的约束解码策略和基于指令的微调。我们的解码方法在生成语法有效的诗歌形式方面实现了超过99%的准确率,在韵律符合性上显著优于通用模型。同时,经过指令微调的变体在与源文本意义和诗歌风格的对齐方面表现出改进,尽管在韵律精确度上有轻微的权衡,这一点得到了人类评估的支持。 |
[103] 一劳永逸:跨多个模型更新参数化知识 标题: One for All: Update Parameterized Knowledge Across Multiple Models 作者: Weitao Ma / Xiyuan Du / Xiaocheng Feng / Lei Huang / Yichong Huang / Huiyi Zhang / Xiaoliang Yang / Baohang Li / Xiachong Feng / Ting Liu / Bing Qin 原文: [英文] [中文] 备注: ACL 2025 (Main Conference) 摘要: 大型语言模型(LLMs)编码了广泛的世界知识,但在保持最新状态方面存在困难,常常导致错误和幻觉。知识编辑提供了一种比重新训练更高效的替代方案,通过更新特定的模型参数实现有针对性的修改。然而,现有的方法主要集中在单个模型上,在高效更新多个模型和适应新模型方面存在挑战。为了解决这个问题,我们提出了OnceEdit,这是一种新颖的基于集成的方法,它使用一个插件模型作为编辑模块,从而实现多个模型的稳定知识更新。基于模型集成,OnceEdit引入了两个关键机制以增强其效果。首先,我们通过一个\weight标记引入了动态权重机制,用于区分与编辑相关和不相关的实例,确保适当利用集成模型中的知识。其次,我们引入了集成增强机制,以减轻模型集成技术中对中心模型的过度依赖,使其更适合知识编辑。在各种大型语言模型上的广泛实验表明,OnceEdit在编辑效率上始终优于现有方法。进一步的分析证实了其在多模型编辑场景中的适应性和稳定性。我们的代码将会公开。 |
[104] 探究真理的几何:大型语言模型中真理方向的一致性与泛化性在逻辑转换和问答任务中的表现 标题: Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks 作者: Yuntai Bao / Xuhong Zhang / Tianyu Du / Xinkui Zhao / Zhengwen Feng / Hao Peng / Jianwei Yin 原文: [英文] [中文] 备注: 19 pages, 16 figures; accepted to Findings of ACL 2025 摘要: 大型语言模型(LLMs)是在包含大量世界知识的广泛数据集上训练的。然而,它们的输出常常包含自信陈述的不准确性。早期的研究表明,LLMs 将真实性编码为一个独特的线性特征,称为“真实性方向”,可以可靠地分类真实性。我们解决了关于真实性方向的几个开放性问题:(i)LLMs 是否普遍表现出一致的真实性方向;(ii)是否需要复杂的探测技术来识别真实性方向;以及(iii)真实性方向如何在不同的上下文中进行泛化。我们的研究结果表明,并非所有的 LLMs 都表现出一致的真实性方向,在更强大的模型中,尤其是在逻辑否定的背景下,观察到了更强的表现。此外,我们证明了在陈述性原子语句上训练的真实性探测器可以有效地泛化到逻辑变换、问答任务、上下文学习和外部知识来源。最后,我们探讨了真实性探测器在选择性问答中的实际应用,展示了它们在提高用户对 LLM 输出的信任方面的潜力。这些结果推进了我们对真实性方向的理解,并为 LLM 信念的内部表示提供了新的见解。我们的代码在此 https URL 上公开。 |
[105] HERGC:异构专家表示和生成补全用于多模态知识图谱 标题: HERGC: Heterogeneous Experts Representation and Generative Completion for Multimodal Knowledge Graphs 作者: Yongkang Xiao / Rui Zhang 原文: [英文] 备注: None 摘要: 多模态知识图谱(MMKGs)通过整合图像和文本等多种模态来丰富传统知识图谱(KGs)。多模态知识图谱补全(MMKGC)旨在利用这些异构信号来推断缺失的事实,从而缓解MMKGs固有的不完整性。现有的MMKGC方法通常仅在封闭世界假设下利用MMKGs中包含的信息,并采用判别性训练目标,这限制了它们在补全过程中的推理能力。最近,由先进的大型语言模型(LLMs)驱动的生成式补全方法在单模态知识图谱补全中表现出强大的推理能力,但其在MMKGC中的潜力仍然未被充分探索。为弥补这一差距,我们提出了HERGC,一种用于MMKGs的异构专家表示和生成补全框架。HERGC首先部署了一个异构专家表示检索器,该检索器丰富并融合多模态信息,并为每个不完整的三元组检索一个紧凑的候选集。然后,它使用在最少指令数据上微调的生成式LLM预测器,从这些候选集中准确识别正确答案。在三个标准MMKG基准上的大量实验表明,HERGC的有效性和鲁棒性,达到了最先进的性能。 |
[106] COMPKE:知识编辑下的复杂问答 标题: COMPKE: Complex Question Answering under Knowledge Editing 作者: Keyuan Cheng / Zijian Kan / Zhixian He / Zhuoran Zhang / Muhammad Asif Ali / Ke Xu / Lijie Hu / Di Wang 原文: [英文] [中文] 备注: Accepted by ACL 2025 Findings 摘要: 知识编辑,即高效修改大型语言模型中的知识,已引起广泛关注。目前的基准测试主要使用多跳问答来评估和分析新注入或更新的知识。然而,我们认为这些基准测试未能有效评估更新后的模型在现实场景中应用这些知识的能力,特别是当问题需要复杂推理,涉及一对多关系或多步骤逻辑交叉时。为填补这一空白,我们引入了一个新的基准测试,COMPKE:知识编辑下的复杂问答,其中包含11,924个反映现实情况的复杂问题。我们对四种知识编辑方法在COMPKE上的表现进行了广泛评估,结果显示其有效性在不同模型之间存在显著差异。例如,MeLLo在GPT-4O-MINI上达到39.47的准确率,但在QWEN2.5-3B上则急剧下降至3.83。我们进一步从方法论和模型特定的角度调查了这些差异的根本原因。数据集可在此https URL获取。 |
[107] 迈向结构化知识推理:基于经验的对比检索增强生成 标题: Toward Structured Knowledge Reasoning: Contrastive Retrieval-Augmented Generation on Experience 作者: Jiawei Gu / Ziting Xian / Yuanzhen Xie / Ye Liu / Enjie Liu / Ruichao Zhong / Mochi Gao / Yunzhi Tan / Bo Hu / Zang Li 原文: [英文] [中文] 备注: ACL 2025 Findings 摘要: 大型语言模型(LLMs)在纯文本任务上表现出色,但在处理诸如表格和数据库等结构化数据时表现不佳。潜在的挑战可能源于它们在预训练期间的曝光不足以及僵化的文本到结构转换机制。与人类能够无缝地在不同数据模态间应用学习到的模式不同,LLMs难以推断嵌入在表格格式中的隐含关系,尤其是在缺乏明确结构指导的情况下。为了弥合这一认知差距,我们引入了基于经验的对比检索增强生成(CoRE)框架,该框架通过对比上下文学习(ICL)构建经验记忆表示并增强泛化能力,以模拟人类的知识转移。针对文本到SQL和表格问答的实验表明,CoRE显著提高了性能,平均增益分别为3.44%和4.24%,在具有挑战性的任务上最高可达17.2%。我们的蒙特卡洛树搜索(MCTS)生成的经验记忆将训练数据扩展了8-9倍,增强了多样性和领域覆盖。这种无需训练且持续的方法推动LLMs向结构化知识专长迈进。 |
[108] EEG2TEXT-CN:通过大型语言模型和对比学习在ChineseEEG上进行开放词汇中文文本-脑电图对齐的探索性研究 标题: EEG2TEXT-CN: An Exploratory Study of Open-Vocabulary Chinese Text-EEG Alignment via Large Language Model and Contrastive Learning on ChineseEEG 作者: Jacky Tai-Yu Lu / Jung Chiang / Chi-Sheng Chen / Anna Nai-Yun Tung / Hsiang Wei Hu / Yuan Chiao Cheng 原文: [英文] [中文] 备注: None 摘要: 我们提出了EEG2TEXT-CN,据我们所知,这是最早的开放词汇表的EEG到文本生成框架之一,专为中文设计。我们的架构基于生物学基础的EEG编码器(NICE-EEG)和紧凑的预训练语言模型(MiniLM),通过掩码预训练和对比学习将多通道脑信号与自然语言表示对齐。使用ChineseEEG数据集的一个子集,其中每个句子包含大约十个与以256 Hz记录的128通道EEG对齐的汉字,我们将EEG分割为每个字符的嵌入,并在零样本设置中预测完整句子。解码器通过教师强制和填充掩码进行训练,以适应可变长度序列。在超过1,500个训练验证句子和300个保留测试样本上的评估显示了有希望的词汇对齐,最佳BLEU-1得分为6.38%。虽然句法流畅性仍然是一个挑战,但我们的研究结果证明了从EEG进行非语音、跨模态语言解码的可行性。这项工作开启了多语言脑到文本研究的新方向,并为未来的中文认知语言接口奠定了基础。 |
[109] 双向性如何通过动态瓶颈估计帮助语言模型更好地学习 标题: How Bidirectionality Helps Language Models Learn Better via Dynamic Bottleneck Estimation 作者: Md Kowsher / Nusrat Jahan Prottasha / Shiyun Xu / Shetu Mohanto / Chen Chen / Niloofar Yousefi / Ozlem Garibay 原文: [英文] [中文] 备注: None 摘要: 双向语言模型在上下文理解方面表现更好,并且在自然语言理解任务上优于单向模型,但这种优势背后的理论原因仍不清楚。在这项工作中,我们通过信息瓶颈(IB)原理来研究这种差异,该原理形式化地描述了压缩输入信息与保留任务相关内容之间的权衡。我们提出了FlowNIB,这是一种动态且可扩展的方法,用于在训练期间估计互信息,解决了经典IB方法的关键限制,包括计算难以处理性和固定的权衡计划。从理论上讲,我们表明双向模型保留了更多的互信息,并表现出比单向模型更高的有效维度。为支持这一点,我们提出了一个用于测量表示复杂性的一般化框架,并证明在温和条件下,双向表示严格地更具信息性。我们进一步通过使用FlowNIB在多个模型和任务上的广泛实验验证了我们的发现,揭示了信息在整个训练过程中的编码和压缩方式。总之,我们的工作为双向架构的有效性提供了一个有原则的解释,并引入了一种分析深度语言模型中信息流的实用工具。 |
[110] L3Cube-MahaEmotions:一种使用CoTR提示和大型语言模型进行合成注释的马拉地语情感识别数据集 标题: L3Cube-MahaEmotions: A Marathi Emotion Recognition Dataset with Synthetic Annotations using CoTR prompting and Large Language Models 作者: Nidhi Kowtal / Raviraj Joshi 原文: [英文] [中文] 备注: None 摘要: 在诸如马拉地语等低资源语言中进行情感识别由于标注数据有限而仍然具有挑战性。我们推出了L3Cube-MahaEmotions,这是一个高质量的马拉地语情感识别数据集,包含11个细粒度的情感标签。训练数据通过大型语言模型(LLMs)进行合成标注,而验证集和测试集则由人工标注,以作为可靠的黄金标准基准。在MahaSent数据集的基础上,我们应用了翻译链(CoTR)提示技术,将马拉地语句子翻译成英语,并通过单一提示进行情感标注。我们评估了GPT-4和Llama3-405B,最终选择GPT-4进行训练数据标注,因为其标签质量更高。我们使用标准指标评估模型性能,并探索标签聚合策略(例如,联合、交集)。虽然GPT-4的预测优于微调的BERT模型,但基于BERT的模型在合成标签上训练后未能超越GPT-4。这突显了高质量人工标注数据的重要性以及情感识别的内在复杂性。该研究的一个重要发现是,像GPT-4和Llama3-405B这样的通用LLMs在复杂的低资源情感识别任务中比微调的BERT具有更好的泛化能力。数据集和模型已在此https URL上公开共享。 |
[111] 视觉-语言模型中缺失了什么?探究它们在因果顺序推理中的困难 标题: What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning 作者: Zhaotian Weng / Haoxuan Li / Kuan-Hao Huang / Jieyu Zhao 原文: [英文] [中文] 备注: 12 pages 摘要: 尽管视觉-语言模型(VLMs)在下游任务中表现出色,但它们理解和推理视觉输入中因果关系的能力仍不明确。稳健的因果推理是解决复杂高级推理任务的基础,然而现有的基准测试通常包含混合的推理问题,VLMs 经常可以利用物体识别和活动识别作为捷径来得出正确答案,这使得真正评估其因果推理能力变得具有挑战性。为弥补这一差距,我们引入了 VQA-Causal 和 VCR-Causal,这两个新的基准专门设计用于隔离并严格评估 VLMs 的因果推理能力。我们的研究结果表明,尽管 VLMs 在物体和活动识别方面表现出色,但在因果推理任务上表现不佳,通常仅略微超过随机猜测。进一步的分析表明,这一局限性源于广泛使用的训练数据集中严重缺乏因果表达,其中因果关系很少被明确传达。我们还探索了使用困难负例进行微调的策略,显示有针对性的微调可以在保持泛化和下游性能的同时提高模型的因果推理能力。我们的研究突出了当前 VLMs 的一个关键差距,并为未来在因果理解方面的工作奠定了基础。 |
[112] CC-Tuning:一种用于改进联合多语言监督微调的跨语言连接机制 标题: CC-Tuning: A Cross-Lingual Connection Mechanism for Improving Joint Multilingual Supervised Fine-Tuning 作者: Yangfan Ye / Xiaocheng Feng / Zekun Yuan / Xiachong Feng / Libo Qin / Lei Huang / Weitao Ma / Yichong Huang / Zhirui Zhang / Yunfei Lu / Xiaohui Yan / Duyu Tang / Dandan Tu / Bing Qin 原文: [英文] [中文] 备注: ACL2025 main conference, long paper 摘要: 当前的大型语言模型(LLMs)由于其以英语为中心的训练语料库,往往表现出不平衡的多语言能力。为了解决这个问题,现有在数据层面操作的微调方法(例如,通过数据增强或蒸馏)通常引入隐式的跨语言对齐,忽视了更深层次的、潜在层面的跨语言交互的可能性。在这项工作中,我们提出了CC-Tuning,这是一种新颖的多语言微调范式,明确在潜在层面建立跨语言连接机制。在训练过程中,CC-Tuning融合了来自英语和非英语输入的前馈激活,使模型能够从两种语言资源中受益。这个过程通过一个可训练的决策器来促进,该决策器识别有益的激活。此外,在推理过程中,通过表示转换,使用一个转换矩阵在单语言环境下模拟跨语言连接。我们在涵盖22种语言的六个基准测试上的实验表明,CC-Tuning优于普通的SFT,并为数据层面的增强方法提供了一种强有力的潜在层面替代方案。进一步的分析还强调了CC-Tuning的实用性以及潜在层面跨语言交互在提升LLMs多语言性能方面的潜力。 |
[113] 并非每个标记都需要遗忘:选择性遗忘以限制大型语言模型遗忘中的效用变化 标题: Not Every Token Needs Forgetting: Selective Unlearning to Limit Change in Utility in Large Language Model Unlearning 作者: Yixin Wan / Anil Ramakrishna / Kai-Wei Chang / Volkan Cevher / Rahul Gupta 原文: [英文] [中文] 备注: None 摘要: 大语言模型(LLM)遗忘最近受到广泛关注,这是由于需要从LLM中移除不需要的信息,如私人、敏感或受版权保护的内容。然而,传统的遗忘方法不加区分地更新模型参数,以遗忘目标文档中的所有标记,包括携带一般知识的常见标记(例如,代词、介词、普通名词)。在本文中,我们强调并非每个标记都需要被遗忘。我们提出了选择性遗忘(Selective Unlearning, SU),该方法识别遗忘集中与不需要信息相关的关键标记子集,并仅遗忘这些标记。在两个基准和六种基线遗忘算法上的实验表明,SU不仅在目标遗忘数据上实现了有效的遗忘,还显著保留了模型在保留集中的效用。 |
[114] 通过访谈提高多模态大模型基准测试效率 标题: Improve MLLM Benchmark Efficiency through Interview 作者: Farong Wen / Yijin Guo / Junying Wang / Jiaohao Xiao / Yingjie Zhou / Chunyi Li / Zicheng Zhang / Guangtao Zhai 原文: [英文] [中文] 备注: None 摘要: 多模态大型语言模型(MLLM)的快速发展催生了广泛的MLLM应用,并涌现出许多基准数据集以评估MLLM的能力。然而,在大规模数据上进行全面的问答测试既耗费资源又费时。为了解决这个问题,我们提出了MLLM面试(MITV)策略,旨在通过更少的问题快速获取MLLM的性能指标。首先,我们构建了面试数据集,该数据集基于现有的MLLM评估数据集,通过添加基于一些典型MLLM在该数据集上的表现的难度标签而构建。其次,我们提出了一种MLLM面试策略,通过询问少量主题来获得大型模型的初始性能状况,然后不断尝试测试模型的极限。通过大量实验,结果表明本文提出的MITV策略在MLLM基准数据集上表现良好,并且能够通过少量的问答更快地获得模型的评估能力。 |
[115] 多模态大语言模型的可供性基准 标题: Affordance Benchmark for MLLMs 作者: Junying Wang / Wenzhe Li / Yalun Wu / Yingji Liang / Yijin Guo / Chunyi Li / Haodong Duan / Zicheng Zhang / Guangtao Zhai 原文: [英文] [中文] 备注: None 摘要: 可供性理论认为,环境本身提供的行动可能性会影响感知和行为。尽管多模态大语言模型(MLLMs)在视觉-语言任务中表现出色,但其感知可供性(对直观和安全交互至关重要)的能力仍未得到充分探索。为此,我们引入了A4Bench,这是一个新颖的基准,旨在评估MLLMs在两个维度上的可供性感知能力:1)构成性可供性,通过1,282个问答对评估对固有物体属性的理解,涵盖九个子学科;2)变革性可供性,通过718个具有挑战性的问答对探讨动态和情境的细微差别(例如,误导性、时间依赖性、文化或个体特定的可供性)。在将17个MLLMs(九个专有和八个开源)与人类表现进行比较时,我们发现专有模型通常优于开源模型,但所有模型的能力都有限,特别是在变革性可供性感知方面。此外,即使是表现最好的模型,如Gemini-2.0-Pro(整体精确匹配准确率为18.05%),也显著落后于人类表现(最好:85.34%,最差:81.25%)。这些发现突显了MLLMs在环境理解方面的关键差距,并为推动AI系统向更强大、情境感知的交互发展提供了基础。数据集可在此https URL获取。 |
[116] SocialEval: 大型语言模型社会智能的评估 标题: SocialEval: Evaluating Social Intelligence of Large Language Models 作者: Jinfeng Zhou / Yuxuan Chen / Yihan Shi / Xuanming Zhang / Leqi Lei / Yi Feng / Zexuan Xiong / Miao Yan / Xunzhi Wang / Yaru Cao / Jianing Yin / Shuai Wang / Quanyu Dai / Zhenhua Dong / Hongning Wang / Minlie Huang 原文: [英文] [中文] 备注: ACL 2025, Repository: \url{this https URL} 摘要: 大型语言模型(LLMs)在模拟人类行为方面表现出有希望的社会智能(SI),这引发了评估LLMs的社会智能及其与人类差异的需求。社会智能使人类具备人际交往能力,以智慧地处理社交互动以实现社会目标。这提出了一种操作性评估范式:以结果为导向的目标实现评估和以过程为导向的人际能力评估,而现有工作未能解决这一问题。为此,我们提出了SocialEval,一个基于脚本的双语社会智能基准,通过手工制作叙事脚本整合结果导向和过程导向的评估。每个脚本都被构建为一个世界树,包含由人际能力驱动的情节线,提供了LLMs如何处理社交互动的全面视图。实验表明,LLMs在两种社会智能评估中都落后于人类,表现出亲社会性,并倾向于更积极的社交行为,即使这些行为导致目标失败。对LLMs形成的表示空间和神经元激活的分析揭示了LLMs已经开发出类似于人类大脑的能力特定功能分区。 |
[117] Pi-SQL:通过枢轴编程语言的细粒度指导增强文本到SQL的转换 标题: Pi-SQL: Enhancing Text-to-SQL with Fine-Grained Guidance from Pivot Programming Languages 作者: Yongdong chi / Hanqing Wang / Zonghan Yang / Jian Yang / Xiao Yan / Yun Chen / Guanhua Chen 原文: [英文] [中文] 备注: None 摘要: Text-to-SQL 将用户查询从自然语言转换为可执行的 SQL 程序,使非专业人士能够与复杂的数据库进行交互。现有的基于提示的方法精心设计文本指南和示例以促进 SQL 生成,但由于文本与低资源 SQL 程序之间的语义差距较大,其准确性受到限制。在这项工作中,我们提出了 Pi-SQL,它将高资源的 Python 程序作为桥梁,连接自然语言查询和 SQL 程序。具体来说,Pi-SQL 首先生成 Python 程序,在其代码块或注释中提供细粒度的逐步指导,然后根据每个 Python 程序的指导生成 SQL 程序。最终的 SQL 程序与参考 Python 程序的查询结果匹配,并通过从不同策略生成的候选项中进行选择,实现了更高的执行速度,其基于奖励的有效效率得分比表现最佳的基线高出最多 4.55。实验表明,Pi-SQL 的有效性,使得最佳基线的执行准确性提高了最多 3.20。 |
[118] Transformer 嵌入如何表示组合?一种功能分析 标题: How do Transformer Embeddings Represent Compositions? A Functional Analysis 作者: Aishik Nagar / Ishaan Singh Rawal / Mansi Dhanania / Cheston Tan 原文: [英文] [中文] 备注: None 摘要: 组合性是人类智能的关键方面,对于推理和泛化至关重要。尽管基于Transformer的模型已成为许多语言建模任务的事实标准,但我们对它们如何表示复合词以及这些表示是否具有组合性知之甚少。在这项研究中,我们测试了Mistral、OpenAI Large和Google嵌入模型的组合性,并将它们与BERT进行比较。首先,我们通过检查六种不同的组合性模型(加法、乘法、扩展、回归等)来评估表示中的组合性。我们发现岭回归虽然是线性的,但最能解释组合性。令人惊讶的是,我们发现经典的向量加法模型的表现几乎与其他模型一样好。接下来,我们验证了大多数嵌入模型具有高度的组合性,而BERT的组合性则要差得多。我们使用一个由完全透明的形容词-名词组合构成的合成数据集验证并可视化了我们的发现。总体而言,我们对组合性进行了深入的研究。 |
[119] anyECG-chat:一种通用的心电图-多模态大语言模型,用于灵活的心电图输入和多任务理解 标题: anyECG-chat: A Generalist ECG-MLLM for Flexible ECG Input and Multi-Task Understanding 作者: Haitao Li / Ziyu Li / Yiheng Mao / Ziyi Liu / Zhoujian Sun / Zhengxing Huang 原文: [英文] [中文] 备注: None 摘要: 多模态大语言模型(MLLMs)的出现引发了人们对其在心电图(ECG)分析中应用的兴趣。然而,现有的以ECG为重点的MLLMs主要集中在报告生成任务上,通常仅限于单个12导联、短时(10秒)的ECG输入,从而未能充分利用MLLMs的潜力。为此,我们旨在开发一种用于ECG分析的MLLM,支持更广泛的任务和更灵活的ECG输入。然而,现有的ECG-QA数据集往往较为单一。为了解决这一问题,我们首先构建了anyECG数据集,其中包含多种任务,包括报告生成、异常波形定位和开放式问答。除了标准的医院ECG,我们还引入了适用于家庭环境的长时间、减少导联的ECG,以及临床实践中常见的多ECG比较场景。此外,我们提出了anyECG-chat模型,该模型支持动态长度的ECG输入和多个ECG输入。我们使用anyECG数据集通过三阶段课程训练方法对模型进行了训练。经过全面评估,结果表明anyECG-chat能够支持多种实际应用场景,不仅包括常见的报告生成任务,还包括家庭环境中长时间减少导联ECG的异常波形定位以及多个ECG的综合比较分析。 |
[120] 利用大型语言模型进行讽刺检测中的讽刺语音标注 标题: Leveraging Large Language Models for Sarcastic Speech Annotation in Sarcasm Detection 作者: Zhu Li / Yuqing Zhang / Xiyuan Gao / Shekhar Nayak / Matt Coler 原文: [英文] [中文] 备注: Accepted to Interspeech 2025 摘要: 讽刺通过语气和上下文从根本上改变了意义,但由于数据稀缺,在语音中检测讽刺仍然是一个挑战。此外,现有的检测系统通常依赖多模态数据,这限制了它们在仅有语音可用的情况下的适用性。为了解决这个问题,我们提出了一种注释流程,利用大型语言模型(LLMs)生成讽刺数据集。我们使用一个公开可用的以讽刺为主题的播客,采用GPT-4o和LLaMA 3进行初步的讽刺注释,随后通过人工验证来解决分歧。我们通过在一个公开可用的讽刺数据集上使用协作门控架构比较注释质量和检测性能来验证这一方法。最后,我们介绍了PodSarc,这是一个通过该流程创建的大规模讽刺语音数据集。检测模型实现了73.63%的F1分数,展示了该数据集作为讽刺检测研究基准的潜力。 |
[121] 从目标到问题:一种基于规划的教育数学问题生成框架 标题: From Objectives to Questions: A Planning-based Framework for Educational Mathematical Question Generation 作者: Cheng Cheng / Zhenya Huang / Guanhao Zhao / Yuxiang Guo / Xin Lin / Jinze Wu / Xin Li / Shijin Wang 原文: [英文] [中文] 备注: None 摘要: 自动生成符合教育目标的高质量数学问题是基于自然语言处理的教育技术中的一项关键任务。传统的生成方法主要关注文本质量,但往往忽视了教育目标。此外,这些方法仅解决单一维度的简单问题生成,未能满足复杂、多方面的教育需求。为了解决这些挑战,我们构建并注释了EduMath,一个包含1.6万道具有多维教育目标的数学问题的数据集。基于该数据集,我们开发了EQGEVAL,它结合了三个评估维度,旨在评估模型生成教育问题的能力。借鉴教师设计问题的过程,我们提出了教育问题规划与自我反思(EQPR)方法,用于生成教育数学问题,遵循“计划-评估-优化”的方法。具体来说,通过将基于蒙特卡罗树搜索的规划算法与大型语言模型的生成能力相结合,我们通过迭代反馈不断优化问题。这种自我优化机制确保生成的问题既符合教育背景,又能战略性地实现特定的基本教育目标。通过基于EQGEVAL的大量实验,我们证明了EQPR在生成符合多维教育目标的问题方面取得了显著的改进。 |
[122] 访问被拒公司:第一个敏感性意识基准环境 标题: ACCESS DENIED INC: The First Benchmark Environment for Sensitivity Awareness 作者: Dren Fazlija / Arkadij Orlov / Sandipan Sikdar 原文: [英文] [中文] 备注: 20 pages, 4 figures, 8 tables, ACL 2025 (Findings) 摘要: 大型语言模型(LLMs)由于其能够处理各种文档格式的文本并通过自然语言查询促进用户交互,正日益成为企业数据管理的宝贵工具。然而,LLMs在与员工交流时必须考虑信息的敏感性,特别是在访问限制的情况下。基于用户权限级别的简单过滤可能会带来性能和隐私方面的挑战。为了解决这个问题,我们提出了敏感性意识(SA)的概念,使LLMs能够遵循预定义的访问权限规则。此外,我们开发了一个名为ACCESS DENIED INC的基准测试环境来评估SA。我们的实验结果显示,模型行为存在显著差异,特别是在管理未经授权的数据请求的同时有效处理合法查询方面。该工作为基准测试敏感性意识语言模型奠定了基础,并为在企业环境中增强以隐私为中心的AI系统提供了见解。 |
[123] XGUARD:用于评估大型语言模型在极端主义内容上的安全失效的分级基准 标题: XGUARD: A Graded Benchmark for Evaluating Safety Failures of Large Language Models on Extremist Content 作者: Vadivel Abishethvarman / Bhavik Chandna / Pratik Jalan / Usman Naseem 原文: [英文] 备注: Preprint 摘要: 大型语言模型(LLMs)可以生成从意识形态言论到暴力明确指令的内容。然而,现有的安全评估往往依赖于简单的二元标签(安全和不安全),忽视了这些输出所带来的风险的细微差别。为了解决这个问题,我们提出了XGUARD,这是一种用于评估LLMs生成的极端内容严重性的基准和评估框架。XGUARD包括3840个从社交媒体和新闻等真实世界数据中获取的红队提示,涵盖了广泛的意识形态场景。我们的框架将模型响应分为五个危险级别(0到4),从而能够更细致地分析失败的频率和严重性。我们引入了可解释的攻击严重性曲线(ASC)来可视化漏洞,并在不同威胁强度下比较防御机制。使用XGUARD,我们评估了六个流行的LLMs和两种轻量级防御策略,揭示了当前安全缺口的关键见解以及在稳健性和表达自由之间的权衡。我们的工作强调了分级安全指标在构建可信赖的LLMs中的价值。 |
[124] NTPP:通过下一个词对预测进行双通道口语对话生成的语音语言建模 标题: NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction 作者: Qichao Wang / Ziqiao Meng / Wenqian Cui / Yifei Zhang / Pengcheng Wu / Bingzhe Wu / Irwin King / Liang Chen / Peilin Zhao 原文: [英文] [中文] 备注: None 摘要: 受到GPT-4o强大能力的启发,人们越来越关注使语音语言模型(SLMs)能够与人类进行自然流畅的口语互动。最近的进展促使开发了几种在这一领域表现出良好结果的SLMs。然而,目前的方法尚未充分利用双通道语音数据,这种数据本质上捕捉了人类对话的结构和动态。在这项工作中,我们系统地探索了在现代大型语言模型背景下使用双通道语音数据,并首次引入了一种新的生成建模范式——下一对令牌预测(NTPP),以实现使用仅解码器架构的说话者独立双通道口语对话学习。我们在标准基准上评估了我们的方法,实证结果表明,我们提出的方法NTPP在轮流预测、响应连贯性和自然性方面显著提高了SLMs的对话能力。此外,与现有方法相比,NTPP在推理延迟方面显著降低,突出了其在实时应用中的实际效率。 |
[125] LEMONADE:一个面向真实世界的大型多语言专家标注抽象事件数据集 标题: LEMONADE: A Large Multilingual Expert-Annotated Abstractive Event Dataset for the Real World 作者: Sina J. Semnani / Pingyue Zhang / Wanyue Zhai / Haozhuo Li / Ryan Beauchamp / Trey Billing / Katayoun Kishi / Manling Li / Monica S. Lam 原文: [英文] [中文] 备注: Findings of ACL 2025 摘要: 本文介绍了LEMONADE,这是一个大规模的冲突事件数据集,涵盖了39,786个事件,涉及20种语言和171个国家,并广泛覆盖了特定地区的实体。LEMONADE基于部分重新标注的武装冲突地点与事件数据(ACLED)子集,该数据集记录了十多年来的全球冲突事件。 为了解决聚合多语言来源进行全球事件分析的挑战,我们引入了抽象事件抽取(AEE)及其子任务抽象实体链接(AEL)。与传统的基于跨度的事件抽取不同,我们的方法通过整体文档理解来检测事件参数和实体,并在多语言数据集中对其进行标准化。我们在这些任务上评估了各种大型语言模型(LLMs),调整现有的零样本事件抽取系统,并对监督模型进行基准测试。此外,我们引入了ZEST,一种用于AEL的新型零样本检索系统。 我们最好的零样本系统实现了58.3%的端到端F1分数,LLMs的表现优于专门的事件抽取模型,如GoLLIE。在实体链接方面,ZEST实现了45.7%的F1分数,显著超过了仅达到23.7%的最先进零样本基线OneNet。然而,这些零样本结果在端到端和AEL任务中分别落后于最佳监督系统20.1%和37.0%,这突显了进一步研究的必要性。 |
[126] 自监督语音模型对荷兰语了解多少?分析语言特定预训练的优势 标题: What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training 作者: Marianne de Heer Kloots / Hosein Mohebbi / Charlotte Pouw / Gaofei Shen / Willem Zuidema / Martijn Bentum 原文: [英文] [中文] 备注: Accepted to Interspeech 2025. For model, code, and materials, see this https URL 摘要: 自监督模型学习的语音表示在多大程度上是语言特定的?现有研究表明,可以成功地从仅在语音录音上训练的端到端模型中解码出一系列语言特征。然而,尚不清楚在特定语言上的预训练在多大程度上改善了语言特定的语言信息。在此,我们测试了自监督Wav2Vec2模型内部表示中荷兰语语音和词汇信息的编码。与在相似数量的英语或更大量的多语言数据上进行预训练相比,仅在荷兰语上进行预训练改善了荷兰语语言特征的表示。这种语言特定的优势可以通过训练的聚类或分类探测器很好地检测到,并且在使用零样本指标时部分可观察。此外,语言特定的语言特征编码优势与自动语音识别的下游性能一致。 |
[127] 大型语言模型理解我们为什么写日记吗?一种目的提取和聚类的方法 标题: Do LLMs Understand Why We Write Diaries? A Method for Purpose Extraction and Clustering 作者: Valeriya Goloviznina / Alexander Sergeev / Mikhail Melnichenko / Evgeny Kotelnikov 原文: [英文] 备注: Accepted for CompLing-2025 conference 摘要: 日记分析面临挑战,特别是在从大型语料库中提取有意义的信息时,传统方法往往无法提供令人满意的结果。本研究引入了一种基于大型语言模型(LLMs)的新方法,以识别和聚类日记写作的各种目的。这里所说的“目的”是指日记写作背后的意图,例如记录生活事件、自我反思或练习语言技能。我们的方法应用于Prozhito数字档案中的苏联时代日记(1922-1929),这是一个丰富的个人叙述集合。我们评估了不同的专有和开源LLMs,发现GPT-4o和o1-mini表现最佳,而基于模板的基线效果显著较差。此外,我们根据作者的性别、年龄和写作年份分析了检索到的目的。我们还研究了模型所犯错误的类型,以更深入地了解其局限性和未来研究中可能的改进领域。 |
[128] 与数据对话:为人文学科数据库设计智能助手 标题: Talking to Data: Designing Smart Assistants for Humanities Databases 作者: Alexander Sergeev / Valeriya Goloviznina / Mikhail Melnichenko / Evgeny Kotelnikov 原文: [英文] 备注: Accepted for InterSys-2025 conference 摘要: 访问人文学科研究数据库通常受到传统交互格式的限制,尤其是在搜索方法和响应生成方面。该研究介绍了一种基于大型语言模型(LLM)的智能助手,旨在促进与数字人文学科数据的自然语言交流。该助手以聊天机器人形式开发,利用RAG方法并集成了最先进的技术,如混合搜索、自动查询生成、文本到SQL过滤、语义数据库搜索和超链接插入。为了评估系统的有效性,进行了实验以评估各种语言模型的响应质量。测试基于Prozhito数字档案,该档案包含主要是20世纪生活的俄语人士的日记条目。该聊天机器人专为支持人类学和历史研究人员以及对该领域感兴趣的非专业用户而设计,无需事先的技术培训。通过使研究人员能够使用自然语言查询复杂数据库,该工具旨在提高人文学科研究的可访问性和效率。该研究强调了大型语言模型在改变研究人员和公众与数字档案互动方式方面的潜力,使其更加直观和包容。附加材料在GitHub存储库中提供:this https URL。 |
[129] 少即是多:上下文语言模型的局部内在维度 标题: Less is More: Local Intrinsic Dimensions of Contextual Language Models 作者: Benjamin Matthias Ruppik / Julius von Rohrscheidt / Carel van Niekerk / Michael Heck / Renato Vukovic / Shutong Feng / Hsien-chin Lin / Nurul Lubis / Bastian Rieck / Marcus Zibrowius / Milica Gašić 原文: [英文] [中文] 备注: 9 pages, with an additional 13 pages of appendix 摘要: 理解大型语言模型(LLMs)的内部机制仍然是一项具有挑战性且复杂的任务。即使是基本问题,例如微调如何影响模型行为,通常也需要广泛的实证评估。在本文中,我们引入了一种基于上下文潜在嵌入的几何属性的新视角来研究训练和微调的效果。为此,我们测量了上下文语言模型潜在空间的局部维度,并分析了它们在训练和微调过程中的变化。我们表明,局部维度提供了对模型训练动态和泛化能力的洞察。具体而言,局部维度的平均值可以预测模型训练能力何时耗尽,如在对话状态跟踪任务中所示,过拟合,如在情感识别任务中所示,以及掌握,如在算术任务中所示。此外,我们的实验提出了一个实用的启发式方法:局部维度平均值的减少往往伴随着并预测随后的性能提升。通过这一探索,我们旨在为从业者提供对微调对嵌入空间影响的更深入理解,从而在为特定应用配置模型时做出明智的决策。这项工作的结果通过弥合内在模型机制与相应嵌入中的几何属性之间的差距,为LLMs的可解释性、适应性和泛化能力的持续讨论做出了贡献。 |
[130] 探测大型语言模型的神经拓扑结构 标题: Probing Neural Topology of Large Language Models 作者: Yu Zheng / Yuan Yuan / Yong Li / Paolo Santi 原文: [英文] [中文] 备注: None 摘要: 探索大型语言模型(LLMs)通过将神经表示与可解释的语义联系起来,已经为其内部机制提供了宝贵的见解。然而,神经元如何功能性地共同激活以产生新兴能力仍然在很大程度上未知,这阻碍了对LLMs的更深入理解和更安全的发展。在这项工作中,我们引入了图探测,这是一种揭示LLM神经元功能连接拓扑结构的方法,并将其与语言生成性能相关联。通过分析不同LLM家族和规模的内部神经图,我们发现仅使用神经拓扑结构就可以普遍预测下一个标记的预测性能。这种可预测性在仅保留1%的神经元连接或在仅进行8次预训练步骤后探测模型时仍然稳健,突出了拓扑模式的稀疏性和早期出现。进一步的图匹配分析表明,尽管在架构、参数和训练数据上存在显著差异,不同的LLM发展出复杂且一致的神经拓扑结构,这可能构成其语言生成能力的基础。图探测工具箱的代码和数据已在此https URL发布。 |
[131] CHEER-Ekman:细粒度具身情感分类 标题: CHEER-Ekman: Fine-grained Embodied Emotion Classification 作者: Phan Anh Duong / Cat Luong / Divyesh Bommana / Tianyu Jiang 原文: [英文] [中文] 备注: ACL 2025 摘要: 情感通过身体体验和身体反应表现出来,但在文本中识别这种具身情感仍然研究不足。我们提出了一个具身情感分类数据集,CHEER-Ekman,将现有的二元具身情感数据集扩展为Ekman的六种基本情感类别。通过使用大型语言模型的自动最佳-最差缩放,我们在新数据集上取得了优于监督方法的表现。我们的研究表明,简化的提示指令和连锁思维显著提高了情感识别的准确性,使得较小的模型能够与较大的模型竞争。 |
[132] SealQA:提高搜索增强语言模型推理能力的标准 标题: SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models 作者: Thinh Pham / Nguyen Nguyen / Pratibha Zunjare / Weiyuan Chen / Yu-Min Tseng / Tu Vu 原文: [英文] [中文] 备注: Preprint. 22 pages, 7 figures, 11 tables 摘要: 我们介绍了SealQA,这是一个新的挑战基准,用于评估在事实性问题上搜索增强型语言模型的表现,这些问题的网络搜索结果往往是矛盾的、嘈杂的或无用的。SealQA有三种形式:(1)Seal-0(主要)和(2)Seal-Hard,这两种形式评估事实准确性和推理能力,其中Seal-0专注于那些聊天模型(例如,GPT-4.1)通常几乎无法正确回答的最具挑战性的问题;(3)LongSeal,将SealQA扩展到测试长上下文、多文档推理的“海底捞针”情境。我们的评估揭示了当前模型的关键局限性:即使是最前沿的大型语言模型在所有SealQA形式上的表现都很差。在Seal-0上,配备工具如o3和o4-mini的前沿代理模型在其最佳推理努力下仅分别达到17.1%和6.3%的准确率。我们发现,像DeepSeek-R1-671B和o3-mini这样的高级推理模型对嘈杂的搜索结果非常脆弱。值得注意的是,增加测试时的计算量并未在o3-mini、o4-mini和o3上带来可靠的性能提升,性能往往在早期就达到平台期甚至下降。此外,尽管最近的模型较少受到“中间丢失”问题的影响,但在面对大量干扰项时,它们仍然无法可靠地识别LongSeal中的相关文档。为了促进未来的研究,我们在此网址发布了SealQA。 |
[133] 编程概念和神经元在代码语言模型中的共享方式 标题: How Programming Concepts and Neurons Are Shared in Code Language Models 作者: Amir Hossein Kargaran / Yihong Liu / François Yvon / Hinrich Schütze 原文: [英文] [中文] 备注: ACL Findings 2025 摘要: 一些研究已经探讨了大型语言模型(LLMs)在编码任务中的机制,但大多数研究集中在单一语言环境下的编程语言(PLs)。在本文中,我们研究了多种编程语言与英语在LLMs概念空间中的关系。我们使用两个基于Llama的模型对21对编程语言进行少样本翻译任务。通过在此任务中解码中间层的嵌入,我们观察到概念空间更接近英语(包括编程语言的关键词),并且在中间层的后半部分对英语标记赋予了较高的概率。我们分析了11种编程语言和英语的神经元激活情况,发现虽然特定语言的神经元主要集中在底层,但每种编程语言独有的神经元往往出现在顶层。对于与多种其他编程语言高度对齐的编程语言,识别特定语言的神经元是不可行的。这些编程语言往往也比其他编程语言具有更大的关键词集,并且无论在翻译任务中的输入/输出编程语言如何,它们都更接近模型的概念空间。我们的研究结果提供了关于LLMs如何在内部表示编程语言的见解,揭示了模型概念空间中的结构模式。代码可在此https URL获取。 |
[134] zip2zip:通过标记压缩为语言模型提供推理时自适应词汇表 标题: zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression 作者: Saibo Geng / Nathan Ranchin / Yunzhen yao / Maxime Peyrard / Chris Wendler / Michael Gastpar / Robert West 原文: [英文] [中文] 备注: Code will be released at this https URL 摘要: 分词效率在大型语言模型(LLMs)的性能和成本中起着关键作用,然而大多数模型依赖于为通用语料库优化的静态分词器。这些分词器的固定词汇通常无法适应特定领域或语言的输入,导致更长的分词序列和更高的计算成本。我们介绍了zip2zip,一个框架,使LLMs能够在推理时动态调整词汇表,从而生成更少的分词并加快推理速度。zip2zip由三个关键组件组成:(1)基于Lempel-Ziv-Welch(LZW)压缩的分词器,能够动态地将分词增量压缩为可重用的“超分词”;(2)一个嵌入层,在运行时计算新形成的超分词的嵌入;(3)一个因果语言建模变体,训练模型在超分词化的压缩序列上运行。我们展示了现有的LLM可以通过参数高效微调在10个GPU小时内实现zip2zip化。结果表明,zip2zip LLMs在推理时有效地学习使用超分词,减少输入和输出序列长度20-60%,并显著改善推理延迟。 |
[135] 不考虑上下文信息:评估大型语言模型对指示性元素的理解 标题: Un-considering Contextual Information: Assessing LLMs' Understanding of Indexical Elements 作者: Metehan Oguz / Yavuz Bakman / Duygu Nur Yaldiz 原文: [英文] [中文] 备注: Accepted to ACL 2025 Findings 摘要: 大型语言模型(LLMs)在指代消解相关任务中表现出色。然而,以往的研究大多评估了LLM在名词和第三人称代词指代消解上的表现。本研究评估了LLM在处理如“I”、“you”、“here”和“tomorrow”等指示词的指代消解上的表现,这些词由于其语言特性带来了独特的挑战。我们首次研究了LLM如何解读英语中的指示词,并发布了包含1600道多项选择题的英语指示词数据集。我们评估了包括GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro和DeepSeek V3在内的开创性LLM。结果显示,LLM在处理某些指示词(如“I”)时表现出色,但在处理其他指示词(如“you”、“here”、“tomorrow”)时存在困难。此外,句法提示(例如引号)对某些指示词的LLM表现有帮助,而对其他指示词则降低了表现。代码和数据可在此网址获取:this https URL。 |
[136] 情境坦诚:通过分层不可回答性检测提升大型语言模型的可信度 标题: Contextual Candor: Enhancing LLM Trustworthiness Through Hierarchical Unanswerability Detection 作者: Steven Robinson / Antonio Carlos Rivera 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在会话式人工智能系统中的广泛部署已经彻底改变了信息获取方式,但它们生成事实不支持或虚构响应的倾向仍然是其可信性和广泛应用的关键障碍。本文介绍了一种新的混合训练范式——强化不可回答性学习(RUL),旨在赋予LLMs准确检测不可回答问题并生成可靠适当响应的内在能力。与依赖外部分类器或简单提示的传统方法不同,RUL将判别性不可回答性预测头与LLM的生成核心相结合,并通过多阶段学习策略进行指导。这包括在一个新颖且丰富注释的数据集Enhanced-CAsT-Answerability(ECA)上进行监督微调,该数据集具有层次化的可回答性标签和真实拒绝响应。关键在于,RUL结合了后续的人类反馈强化学习(RLHF)阶段,以优化拒绝响应的细微差别、帮助性和信息性。大量实验表明,RUL在句子、段落和排序级别的不可回答性检测中表现出显著更高的准确性,并大幅增加了对不可回答查询生成适当拒绝的能力,同时在可回答问题上也表现出色。人类评估进一步证实了RUL的有效性,突显了在感知帮助性和可信性方面的显著改善,最终为更可靠和以用户为中心的会话式人工智能铺平了道路。 |
[137] 从词语到波形:分析基于语音和文本的基础模型中的概念形成 标题: From Words to Waves: Analyzing Concept Formation in Speech and Text-Based Foundation Models 作者: Asım Ersoy / Basel Mousi / Shammur Chowdhury / Firoj Alam / Fahim Dalvi / Nadir Durrani 原文: [英文] [中文] 备注: Accepted Interspeech 2025 摘要: 大型语言模型(LLMs)的出现表明,仅通过文本训练的系统可以获得广泛的世界知识,发展推理能力,并内化抽象的语义概念——展示出可以与通用智能相关的特性。这引发了一个有趣的问题:这些概念是否也会在其他模态(如语音)训练的模型中出现?此外,当模型在多种模态上联合训练时:它们是否会发展出更丰富、更结构化的语义理解?为了解答这个问题,我们分析了语音和文本模型在单独和联合训练时学习到的概念结构。我们采用潜在概念分析,这是一种用于揭示和解释神经网络中潜在表示的无监督方法,以研究语义抽象如何在不同模态中形成。为了便于复现,我们向社区提供了脚本和其他资源。 |
[138] 一个词值4位:使用二进制编码十进制识别进行高效日志解析 标题: A Word is Worth 4-bit: Efficient Log Parsing with Binary Coded Decimal Recognition 作者: Prerak Srivastava / Giulio Corallo / Sergey Rybalko 原文: [英文] [中文] 备注: Pre-print of our accepted paper at IEEE International Conference on Web Services (ICWS 2025). 4 pages, 2 figures 摘要: 系统生成的日志通常通过解析转换为类别化的日志模板。这些模板对于在各种下游任务中生成可操作的见解至关重要。然而,现有的解析器往往无法捕捉细粒度的模板细节,导致在需要精确模式识别的下游任务中准确性不佳和实用性降低。我们提出了一种字符级日志解析器,利用一种新颖的神经架构来聚合字符嵌入。我们的方法通过估计二进制编码的小数序列来实现高度细粒度的日志模板提取。我们的低资源字符级解析器在经过修订的Loghub-2k和一个手动注释的工业数据集上进行测试,在准确性上与基于大型语言模型的解析器相当,同时在效率上优于语义解析器。 |
[139] 在低资源环境下无需L2发音数据集的发音错误检测:以芬兰瑞典语为例 标题: Mispronunciation Detection Without L2 Pronunciation Dataset in Low-Resource Setting: A Case Study in Finland Swedish 作者: Nhan Phan / Mikko Kuronen / Maria Kautonen / Riikka Ullakonoja / Anna von Zansen / Yaroslav Getman / Ekaterina Voskoboinik / Tamás Grósz / Mikko Kurimo 原文: [英文] [中文] 备注: Accepted to Interspeech 2025 conference 摘要: 发音错误检测(MD)模型是许多语言学习应用程序的基石。不幸的是,大多数系统是为英语和其他主要语言构建的,而像芬兰瑞典语(FS)这样的低资源语言种类则缺乏这样的工具。在本文中,我们介绍了我们的FS MD模型,该模型在89小时的第一语言(L1)使用者的自发语音上进行了训练,并在33分钟的第二语言(L2)转录朗读语音上进行了测试。 我们训练了一个多语言的wav2vec 2.0模型,使用熵正则化,然后在推理后进行温度缩放和top-k归一化,以更好地适应MD。我们方法的主要创新在于其简单性,只需极少的L2数据。该过程也是语言无关的,使其适用于其他低资源语言。与基线模型的召回率(77.5%)和精确率(17.6%)相比,我们提出的算法使我们能够在召回率(43.2%)和精确率(29.8%)之间取得平衡。 |
[140] 预训练语言模型意外性的逆向缩放效应并非由于数据泄漏 标题: The Inverse Scaling Effect of Pre-Trained Language Model Surprisal Is Not Due to Data Leakage 作者: Byung-Doh Oh / Hongao Zhu / William Schuler 原文: [英文] [中文] 备注: ACL Findings 2025; results with Natural Stories alignment issue corrected (commit 4700daa) 摘要: 在心理语言学建模中,来自较大预训练语言模型的意外性已被证明是对自然人类阅读时间的较差预测指标。然而,有人推测这可能是由于数据泄漏导致语言模型在训练期间看到了文本刺激。本文提出了两个研究以大规模解决这一问题。第一项研究揭示了在两个预训练数据集中,五个自然阅读时间语料库的长度和标记 $n$-gram 重叠频率方面的泄漏相对较少。第二项研究使用在与阅读时间语料库仅有最小重叠的“无泄漏”数据上训练的模型,复制了语言模型大小与意外性对阅读时间拟合之间的负相关关系。综合来看,这表明使用这些语料库训练的语言模型的先前结果并不是由数据泄漏效应驱动的。 |
[141] LAQuer:内容基础生成中的局部归因查询 标题: LAQuer: Localized Attribution Queries in Content-grounded Generation 作者: Eran Hirsch / Aviv Slobodkin / David Wan / Elias Stengel-Eskin / Mohit Bansal / Ido Dagan 原文: [英文] [中文] 备注: ACL 2025 摘要: 基于内容的文本生成模型常常会产生与其来源材料不一致的内容,用户需要进行验证以确保准确性。现有的归因方法将整个句子与源文档关联,这对于希望核实特定声明的用户来说可能过于繁琐。相比之下,现有的子句归因方法可能更精确,但未能与用户的兴趣相符。鉴于这些限制,我们引入了局部归因查询(LAQuer),这是一项新任务,旨在将生成输出的选定部分定位到其对应的源部分,从而实现细粒度和用户导向的归因。我们比较了两种用于LAQuer任务的方法,包括提示大型语言模型(LLM)和利用LLM内部表示。然后,我们探索了一种扩展现有归因文本生成方法到LAQuer的建模框架。我们在两个基于内容的文本生成任务中评估了该框架:多文档摘要(MDS)和长篇问答(LFQA)。我们的研究结果表明,LAQuer方法显著减少了归因文本的长度。我们的贡献包括:(1)提出LAQuer任务以增强归因的可用性,(2)建议一个建模框架并对多个基线进行基准测试,以及(3)提出一种新的评估设置以促进未来关于内容归因生成的局部归因研究。 |
[142] 文化基础的思维链(CG-CoT):提升大型语言模型在低资源语言中处理文化特定任务的表现 标题: Culturally-Grounded Chain-of-Thought (CG-CoT):Enhancing LLM Performance on Culturally-Specific Tasks in Low-Resource Languages 作者: Madhavendra Thakur 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在处理文化特定的推理任务时表现不佳,尤其是在低资源语言中,这限制了它们的全球适用性。解决这一问题对于公平的人工智能部署至关重要。我们引入了文化基础链式思维(CG-CoT),这是一种新颖的提示策略,将文化背景的密集向量检索与明确的推理序列相结合。我们在约鲁巴谚语解释上的广泛实验表明,与传统提示方法相比,CG-CoT 提供了显著更高的文化对齐准确性和深度,这通过自动化指标和基于 LLM 的评估得到了验证。值得注意的是,我们发现了诸如 BLEU 等基于词汇的翻译指标与人类判断的文化相关性之间的显著差异,这表明需要重新思考低资源自然语言处理的评估方法。 |
[143] CoBRA:量化战略性语言使用和大型语言模型的语用学 标题: CoBRA: Quantifying Strategic Language Use and LLM Pragmatics 作者: Anshun Asher Zheng / Junyi Jessy Li / David I. Beaver 原文: [英文] [中文] 备注: 18 pages 摘要: 语言常常被策略性地使用,尤其是在高风险、对抗性的环境中,然而大多数关于语用学和大型语言模型(LLMs)的研究都集中在合作性上。这导致了对非合作性话语缺乏系统的理解。为了解决这个问题,我们引入了CoBRA(合作破坏反应评估),以及三个可解释的指标——回合收益(BaT)、回合惩罚(PaT)和归一化相对回合收益(NRBaT)——用于量化话语动作的感知策略效果。我们还提供了CHARM,一个经过注释的真实法庭交叉询问数据集,以展示该框架的有效性。利用这些工具,我们评估了一系列大型语言模型,并表明这些模型在理解策略性语言的语用学方面普遍表现有限。尽管模型规模的增加在我们的指标上显示出性能提升,但推理能力并没有帮助,反而主要带来了过度复杂化和内部混乱。 |
[144] 在稀疏自编码器架构中融入层次语义 标题: Incorporating Hierarchical Semantics in Sparse Autoencoder Architectures 作者: Mark Muchane / Sean Richardson / Kiho Park / Victor Veitch 原文: [英文] [中文] 备注: Code is available at this https URL 摘要: 稀疏字典学习(特别是稀疏自编码器)试图学习一组人类可理解的概念,以解释抽象空间中的变化。这种方法的一个基本限制是,它既不利用也不表示学习到的概念之间的语义关系。在本文中,我们介绍了一种修改后的稀疏自编码器架构,该架构明确地对概念的语义层次结构进行建模。将这种架构应用于大型语言模型的内部表示,表明语义层次结构可以被学习,并且这样做可以提高重建和可解释性。此外,该架构在计算效率上也有显著的提升。 |
[145] 捣蛋还是整洁:对抗性模糊与语言模型评估 标题: Trick or Neat: Adversarial Ambiguity and Language Model Evaluation 作者: Antonia Karamolegkou / Oliver Eberle / Phillip Rust / Carina Kauf / Anders Søgaard 原文: [英文] [中文] 备注: None 摘要: 检测歧义对于语言理解非常重要,包括不确定性估计、幽默检测和处理花园路径句子。我们通过引入一个对抗性歧义数据集来评估语言模型对歧义的敏感性,该数据集包括句法、词汇和语音歧义以及对抗性变化(例如,词序变化、同义词替换和基于随机的改动)。我们的研究结果表明,直接提示无法稳健地识别歧义,而在模型表示上训练的线性探针可以高精度地解码歧义,有时准确率超过90%。我们的结果为提示范式以及语言模型如何在不同层次上编码歧义提供了见解。我们发布了我们的代码和数据:这个 https URL。 |
[146] 用于推测解码的曼巴起草器 标题: Mamba Drafters for Speculative Decoding 作者: Daewon Choi / Seunghyuk Oh / Saket Dingliwal / Jihoon Tack / Kyuyoung Kim / Woomin Song / Seojin Kim / Insu Han / Jinwoo Shin / Aram Galstyan / Shubham Katiyar / Sravan Babu Bodapati 原文: [英文] [中文] 备注: None 摘要: 推测解码作为一种有前途的方法,通过使用快速起草器加速大型语言模型(LLM)的生成,同时保持与目标模型分布的一致性。然而,现有的方法面临权衡:外部起草器提供了灵活性,但可能导致起草速度较慢,而自我推测方法使用针对目标模型量身定制的起草器,但需要重新训练。在本文中,我们引入了基于Mamba的创新起草器,这是一种最先进的状态空间模型(SSM),作为结合两种方法最佳方面的解决方案。通过利用SSM的线性结构,我们的方法避免了传统基于Transformer的方法中固有的二次复杂性,从而实现更快的起草和更低的内存使用,同时保持在不同目标模型间工作的灵活性。我们还通过一种新颖的测试时树搜索算法来生成高质量的草稿候选,进一步提高了效率。我们的实证评估表明,基于Mamba的起草器不仅优于现有的外部起草方法,而且在使用更少内存的情况下,与最先进的自我推测方法相当,同时保持其跨模型的适应性。 |
[147] 压缩、聚合与重计算:在Transformer中改革长上下文处理 标题: Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers 作者: Woomin Song / Sai Muralidhar Jayanthi / Srikanth Ronanki / Kanthashree Mysore Sathyendra / Jinwoo Shin / Aram Galstyan / Shubham Katiyar / Sravan Babu Bodapati 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型在现实世界应用中的日益普及,处理极长的上下文(通常超过模型的预训练上下文限制)已成为一个关键挑战。尽管现有的高效长上下文处理方法显示出前景,但基于递归压缩的方法在信息保留方面存在困难,而随机访问方法则需要大量的内存资源。我们引入了REFORM,这是一种新颖的推理框架,通过两阶段方法高效处理长上下文。首先,它在维护压缩的KV缓存的同时增量处理输入块,构建跨层上下文嵌入,并利用提前退出策略以提高效率。其次,它通过相似性匹配识别并收集重要的标记,并选择性地重新计算KV缓存。与基线相比,REFORM在1M上下文长度下在RULER和BABILong上分别实现了超过50%和27%的性能提升。它还在Infinite-Bench和MM-NIAH上优于基线,展示了在不同任务和领域中的灵活性。此外,REFORM将推理时间减少了30%,峰值内存使用减少了5%,实现了效率和卓越性能的双重目标。 |
[148] 打磨GEM的每一个方面:测试大型语言模型和人类在韩语中的语言能力 标题: Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean 作者: SungHo Kim / Nayeon Kim / Taehee Jeon / SangKeun Lee 原文: [英文] [中文] 备注: Accepted at ACL 2025 main conference 摘要: 我们介绍了韩国语法评估基准(KoGEM),旨在评估大型语言模型(LLMs)和人类在韩语方面的语言能力。KoGEM由1500个多项选择问答对组成,涵盖五个主要类别和16个子类别。对27种不同规模和类型的LLMs进行零样本评估显示,虽然LLMs在主要需要定义性知识的简单任务上表现出色,但在需要整合现实世界经验知识的任务上表现不佳,例如语音规则和发音。此外,我们的深入分析表明,结合这种经验知识可以提高LLMs的语言能力。通过KoGEM,我们不仅强调了当前LLMs在语言能力上的局限性,还揭示了LLMs在语言能力上的隐藏方面,为提高全面的语言理解能力铺平了道路。我们的代码和数据集可在此URL获取:this https URL。 |
[149] ExpertLongBench:使用结构化清单对专家级长篇生成任务进行语言模型基准测试 标题: ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists 作者: Jie Ruan / Inderjeet Nair / Shuyang Cao / Amy Liu / Sheza Munir / Micah Pollens-Dempsey / Tiffany Chiang / Lucy Kates / Nicholas David / Sihan Chen / Ruxin Yang / Yuqian Yang / Jasmine Gump / Tessa Bialek / Vivek Sankaran / Margo Schlanger / Lu Wang 原文: [英文] 备注: None 摘要: 本文介绍了ExpertLongBench,这是一个包含来自9个领域的11个任务的专家级基准,反映了现实中的专家工作流程和应用。除了问答之外,ExpertLongBench中的应用驱动任务要求长篇输出,可能超过5000个标记,并严格遵循领域特定的要求。值得注意的是,ExpertLongBench中的每个任务都包括一个评分标准,由领域专家设计或验证,以明确任务要求并指导输出评估。此外,我们提出了CLEAR,一个支持在我们的基准中对长篇模型输出进行准确评估的评估框架。为了实现细粒度、与专家一致的评估,CLEAR通过提取与任务特定评分标准中的项目相对应的信息,从模型输出和参考中导出检查清单。然后将模型输出的检查清单项目与参考输出的相应项目进行比较,以评估其正确性,从而实现有依据的评估。我们对11个大型语言模型(LLM)进行了基准测试,并分析了CLEAR中的组件,显示(1)现有的LLM,表现最佳者仅达到26.8%的F1分数,需要在专家级任务上显著改进;(2)模型可以生成与所需方面相对应的内容,但通常不够准确;(3)通过开放权重模型可以实现CLEAR中准确的检查清单提取和比较,以实现更具扩展性和低成本的使用。 |
[150] MTCMB:用于评估大型语言模型在中医知识、推理和安全性方面的多任务基准框架 标题: MTCMB: A Multi-Task Benchmark Framework for Evaluating LLMs on Knowledge, Reasoning, and Safety in Traditional Chinese Medicine 作者: Shufeng Kong / Xingru Yang / Yuanyuan Wei / Zijie Wang / Hao Tang / Jiuqi Qin / Shuting Lan / Yingheng Wang / Junwen Bai / Zhuangbin Chen / Zibin Zheng / Caihua Liu / Hao Liang 原文: [英文] [中文] 备注: None 摘要: 传统中医(TCM)是一个具有数千年临床经验积累的整体医学体系,在全球医疗保健中发挥着重要作用,尤其是在东亚地区。然而,中医中的隐性推理、多样的文本形式以及缺乏标准化给计算建模和评估带来了重大挑战。大型语言模型(LLMs)在处理包括普通医学在内的各个领域的自然语言方面展示了显著的潜力。然而,它们在中医领域的系统评估仍然不够完善。现有的基准测试要么狭隘地集中于事实性问答,要么缺乏特定领域的任务和临床现实性。为填补这一空白,我们引入了MTCMB——一个用于评估LLMs在中医知识、推理和安全性方面的多任务基准。MTCMB是在与认证中医专家合作开发的,包括12个子数据集,涵盖五大类:知识问答、语言理解、诊断推理、处方生成和安全性评估。该基准整合了真实世界的病例记录、国家执业考试和经典文本,为具备中医能力的模型提供了一个真实而全面的测试平台。初步结果表明,当前的LLMs在基础知识方面表现良好,但在临床推理、处方规划和安全合规性方面表现不足。这些发现突显了像MTCMB这样的领域对齐基准的迫切需求,以指导开发更有能力和更值得信赖的医疗AI系统。所有数据集、代码和评估工具均可在以下网址公开获取:this https URL。 |
[151] CoRE:基于条件的推理用于识别复杂事件中的结果差异 标题: CoRE: Condition-based Reasoning for Identifying Outcome Variance in Complex Events 作者: Sai Vallurupalli / Francis Ferraro 原文: [英文] [中文] 备注: Accepted to Findings of the Association for Computational Linguistics 2025 摘要: 知道哪些潜在条件导致特定结果对于批判性地审视关于复杂事件结果的声明是有用的。识别隐含条件并检查其对结果的影响是具有挑战性的。我们通过结合和增强两个现有数据集中的目标和状态注释来处理这一问题,并通过我们的研究问题和基于条件的推理任务来探索条件的影响。我们在推理任务中检查了不同大小和意图对齐的开放和封闭的大型语言模型(LLMs),发现当并非所有上下文都可用时,条件是有用的。模型在生成和识别结果变化条件的能力上差异很大,这影响了它们在使用条件替代缺失上下文时的结果验证性能。像GPT-4o这样的大型模型在这种不太受约束的情况下更加谨慎。 |
[152] 内存高效的FastText:使用双数组字典树结构和标记-压缩内存管理的综合方法 标题: Memory-Efficient FastText: A Comprehensive Approach Using Double-Array Trie Structures and Mark-Compact Memory Management 作者: Yimin Du 原文: [英文] 备注: 10 pages 摘要: FastText 已经成为学习词表示的基础算法,通过字符级 n-gram 嵌入展示了处理词汇表外单词的卓越能力。然而,其基于哈希的分桶机制在大规模工业部署中引入了关键限制:哈希冲突导致语义漂移,而在处理包含数百万术语的真实词汇时,内存需求变得极其昂贵。本文提出了一个全面的内存优化框架,通过整合双数组字典树(DA-trie)结构和标记-压缩垃圾收集原则,从根本上重新构想了 FastText 的内存管理。我们的方法利用了语言学的见解,即共享共同前缀或后缀的 n-gram 由于自然语言中的共现模式而表现出高度相关的嵌入。通过系统地识别和合并基于结构关系的语义相似嵌入,我们在保持近乎完美的嵌入质量的同时,实现了 4:1 到 10:1 的压缩比。该算法由四个复杂阶段组成:带有嵌入映射的前缀字典树构建、基于前缀的相似性压缩、基于后缀的相似性压缩和标记-压缩内存重组。在一个包含 3000 万中文词汇的数据集上进行的全面实验表明,内存从超过 100GB 减少到大约 30GB,而性能下降可以忽略不计。我们的工业部署结果显示,通过消除哈希冲突伪影,显著降低了成本,加快了加载时间,并提高了模型的可靠性。代码和实验实现可在此 https URL 获得。 |
[153] 深度探索医疗保健:开源大型语言模型的能力、风险和临床应用调查 标题: DeepSeek in Healthcare: A Survey of Capabilities, Risks, and Clinical Applications of Open-Source Large Language Models 作者: Jiancheng Ye / Sophie Bronstein / Jiarui Hai / Malak Abu Hashish 原文: [英文] 备注: None 摘要: DeepSeek-R1 是由 DeepSeek 开发的前沿开源大型语言模型(LLM),通过混合架构展示了先进的推理能力,该架构整合了专家混合(MoE)、思维链(CoT)推理和强化学习。DeepSeek-R1 在宽松的 MIT 许可证下发布,提供了一个透明且具有成本效益的替代方案,与 GPT-4o 和 Claude-3 Opus 等专有模型相比,它在数学、医疗诊断、代码生成和药物研究等结构化问题解决领域表现出色。该模型在美国医学执照考试(USMLE)和美国邀请数学考试(AIME)等基准测试中表现出竞争力,并在儿科和眼科临床决策支持任务中取得了优异的成绩。其架构在保持推理深度的同时实现了高效的推理,使其适合在资源受限的环境中部署。然而,DeepSeek-R1 也表现出对偏见、错误信息、对抗性操控和安全性失效的增加的脆弱性,尤其是在多语言和伦理敏感的环境中。该调查强调了模型的优势,包括可解释性、可扩展性和适应性,同时也指出了其在一般语言流利性和安全对齐方面的局限性。未来的研究重点包括改进偏见缓解、自然语言理解、特定领域验证和法规遵从性。总体而言,DeepSeek-R1 代表了开放、可扩展 AI 的重大进展,强调了协作治理以确保负责任和公平部署的必要性。 |
[154] 探索大型语言模型作为个性化助手的潜力:数据集、评估与分析 标题: Exploring the Potential of LLMs as Personalized Assistants: Dataset, Evaluation, and Analysis 作者: Jisoo Mok / Ik-hwan Kim / Sangkwon Park / Sungroh Yoon 原文: [英文] [中文] 备注: ACL 2025 摘要: 个性化人工智能助手是大型语言模型(LLMs)具有人类般能力的标志性应用,它是一个将LLM研究中多个问题交织在一起的具有挑战性的应用。尽管对开发个性化助手的兴趣日益增长,但缺乏一个专为个性化设计的开源对话数据集仍然是该领域研究人员面临的重大障碍。为了解决这一研究空白,我们引入了HiCUPID,这是一个新的基准,用于探测和释放LLMs提供个性化响应的潜力。除了一个对话数据集之外,HiCUPID还提供了一个基于Llama-3.2的自动评估模型,其评估结果与人类偏好高度一致。我们在此https URL上发布了我们的数据集、评估模型和代码。 |
[155] WCTC偏置:基于通配符CTC的关键词识别和层间偏置的无重训练上下文偏置ASR 标题: WCTC-Biasing: Retraining-free Contextual Biasing ASR with Wildcard CTC-based Keyword Spotting and Inter-layer Biasing 作者: Yu Nakagome / Michael Hentschel 原文: [英文] [中文] 备注: Accepted to Interspeech 2025 摘要: 尽管端到端语音识别方法在最近取得了进展,但输出往往偏向于训练数据的词汇,从而导致对专有名词和其他未知术语的识别不准确。为了解决这个问题,我们提出了一种方法,在不进行额外训练或使用文本到语音系统的情况下,提高CTC(连接时序分类)模型中此类罕见词的识别准确性。具体来说,在推理过程中,使用中间层的声学特征进行关键词检测,并对声学模型的后续层应用检测到的关键词的偏置。对于关键词检测,我们采用了一种通配符CTC,它既快速又能容忍模糊匹配,从而灵活处理难以严格匹配的单词。由于这种方法不需要对现有模型进行再训练,因此可以轻松应用于大规模模型。在日语语音识别实验中,所提出的方法在未知词的F1得分上提高了29%。 |
[156] 超越上下文学习:通过任务固有属性指南对齐大型语言模型的长篇生成 标题: Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines 作者: Do Xuan Long / Duong Ngoc Yen / Do Xuan Trong / Luu Anh Tuan / Kenji Kawaguchi / Shafiq Joty / Min-Yen Kan / Nancy F. Chen 原文: [英文] [中文] 备注: ACL 2025 Findings 摘要: 上下文学习(ICL)是预训练大型语言模型(LLMs)的一种重要但尚未完全理解的能力。它可以通过使用少量示例(称为示范)在不进行微调的情况下大大提高任务性能。尽管在问答中效果显著,但ICL在长篇生成任务(如摘要生成)中往往表现不佳。在适当现实的假设下,我们通过实证和理论表明,仅靠ICL示范不足以教会LLMs生成任务的语言和格式分布。我们主张明确地接触任务分布,并假设通过提示定义它们可以提高模型性能。为此,我们提出了LongGuide,它有效地生成两条并行的指导流,以捕捉任务语言和格式特性:(i)指标指导(MGs),指导模型优化自我评估指标;(ii)输出约束指导(OCGs),在词元和句子级别约束生成。LongGuide自动选择最佳的指导组合,在零样本和少样本设置中将强大的开源和闭源LLMs的性能提高了5%以上。我们表明,LongGuide具有普遍适用性,可以被弱模型学习以增强强模型,并与自动提示优化器协同集成。 |
[157] 通过与校准模型的输出层融合实现大型语言模型的去毒化 标题: Detoxification of Large Language Models through Output-layer Fusion with a Calibration Model 作者: Yuanhe Tian / Mingjie Deng / Guoqing Jin / Yan Song 原文: [英文] [中文] 备注: 5 pages, 1 figure 摘要: 现有的大型语言模型(LLM)去毒化方法通常依赖于在大规模无毒或人工标注的偏好数据上进行训练,设计提示以指导LLM生成安全内容,或修改模型参数以去除有毒信息,这些方法计算成本高,缺乏鲁棒性,并且常常损害LLM的流畅性和上下文理解。在本文中,我们提出了一种简单而有效的LLM去毒化方法,该方法利用一个紧凑的、预训练的校准模型,通过在生成过程中进行轻量级干预来指导目标LLM的去毒化过程。通过从无毒数据中学习去毒化的嵌入空间,校准模型有效地引导LLM远离生成有害内容。该方法只需对校准模型进行一次训练,即可无缝应用于多个LLM,而不会损害流畅性或上下文理解。基准数据集上的实验结果表明,我们的方法在减少毒性方面表现出色,同时保持了合理的内容表达。 |
[158] 将模式作为参数化工具用于通用信息抽取 标题: Schema as Parameterized Tools for Universal Information Extraction 作者: Sheng Liang / Yongyue Zhang / Yaxiong Wu / Ruiming Tang / Yong Liu 原文: [英文] [中文] 备注: 12 pages, 7 figures, 5 tables 摘要: 通用信息抽取(UIE)主要采用一种基于大型语言模型(LLMs)的抽取生成方法,通常根据预定义的模式(如JSON或表格)输出结构化信息。在选择预定义模式和在上下文学习范式中即时生成模式时,UIE在适应性方面存在不足,尤其是在有大量模式可供选择的情况下。在本文中,我们提出了一种统一的自适应文本到结构生成框架,称为参数化工具模式(SPT),通过将预定义模式视为工具选择和参数填充的参数化工具,重新构想了LLMs的工具调用能力。具体而言,我们的SPT方法可以通过采用模式检索从预定义池中获取相关模式、通过提取信息和填充工具参数槽进行模式填充,或通过合成新模式处理未覆盖的情况来统一封闭、开放和按需的信息抽取任务。实验表明,SPT方法可以自适应地处理四种不同的信息抽取任务,提供稳健的模式检索和选择性能。SPT还在可训练参数显著减少的情况下,实现了与LoRA基线和当前领先的UIE系统相当的抽取性能。 |
[159] VM14K:首个越南医学基准 标题: VM14K: First Vietnamese Medical Benchmark 作者: Thong Nguyen / Duc Nguyen / Minh Dang / Thai Dao / Long Nguyen / Quan H. Nguyen / Dat Nguyen / Kien Tran / Minh Tran 原文: [英文] [中文] 备注: None 摘要: 医疗基准对于评估语言模型在非英语社区医疗领域的能力至关重要,因此有助于确保实际应用的质量。然而,并不是每个社区都有足够的资源和标准化的方法来有效地构建和设计这样的基准,并且现有的非英语医疗数据通常是零散的且难以验证。我们开发了一种方法来解决这个问题,并应用它创建了第一个越南语医学问题基准,包含34个医学专业的14,000道多项选择题。我们的基准是使用各种可验证的来源构建的,包括精心策划的医学考试和临床记录,最终由医学专家进行注释。该基准包括四个难度级别,从教科书中常见的基础生物知识到需要高级推理的典型临床案例研究。这种设计使得能够评估语言模型在目标语言中医学理解的广度和深度,得益于其广泛的覆盖面和深入的学科专业知识。我们将基准分为三个部分发布:一个样本公共集(4,000道题),一个完整公共集(10,000道题),以及一个用于排行榜评估的私有集(2,000道题)。每个集合都包含所有医学子领域和难度级别。我们的方法可以扩展到其他语言,并且我们开源了我们的数据构建流程,以支持未来医学领域多语言基准的发展。 |
[160] 一个用于高效关注分类的公共健康内容研究平台 标题: A Platform for Investigating Public Health Content with Efficient Concern Classification 作者: Christopher Li / Rickard Stureborg / Bhuwan Dhingra / Jun Yang 原文: [英文] [中文] 备注: 19 pages, 15 figures 摘要: 最近,表达对公共卫生举措担忧的在线内容有所增加,这导致全球预防措施的采用停滞不前。未来的公共卫生工作必须尝试理解这些内容,它可能在读者中引发的担忧,以及如何有效地回应这些担忧。为此,我们推出了ConcernScope,一个使用教师-学生框架进行知识转移的平台,该框架在大型语言模型和轻量级分类器之间进行知识转移,以快速有效地识别文本语料库中提出的健康担忧。该平台允许直接上传大量文件、自动抓取特定URL以及直接文本编辑。ConcernScope建立在公共卫生担忧的分类基础上。我们为公共卫生官员展示了该平台的几个应用:引导数据探索以找到在线社区数据集中常见担忧的有用示例,通过对186,000个样本的时间序列分析示例识别担忧趋势,以及在重大事件前后发现主题频率的趋势。 |
[161] 通过经验成长:在语言模型中扩展情境性基础 标题: Growing Through Experience: Scaling Episodic Grounding in Language Models 作者: Chunhui Zhang / Sirui / Wang / Zhongyu Ouyang / Xiangchi Yuan / Soroush Vosoughi 原文: [英文] [中文] 备注: Accepted at The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025) 摘要: 语言模型(LMs)需要强大的情节性基础——即从过去的经验中学习和应用的能力——以在物理规划任务中表现出色。目前的情节性基础方法在可扩展性和集成方面存在困难,限制了其有效性,尤其是对于中等规模的语言模型(70亿参数)。虽然更大的语言模型(700亿到4050亿参数)具有更高级的层次表示和广泛的预训练知识,但它们面临一个基本的规模悖论:尽管具备先进的抽象能力,却缺乏有效的机制来利用经验流。我们提出了一种可扩展的弱到强情节学习框架,可以有效地将情节行为从较小的语言模型转移到较大的语言模型中。该框架结合了蒙特卡罗树搜索用于结构化经验收集,并采用了一种新颖的蒸馏方法,在嵌入情节记忆的同时保留了语言模型的固有能力。实验表明,我们的方法在各种规划和问答任务中比最先进的专有语言模型高出3.45%。逐层探测进一步表明任务对齐显著改善,尤其是在语言模型的更深层次中,突显出即使在以前未见过的场景中,随着规划复杂性的增加,仍能实现稳定的泛化——而在这些条件下,基线方法的性能显著下降。 |
[162] 零样本越南语文本到语音转换 标题: Zero-Shot Text-to-Speech for Vietnamese 作者: Thi Vu / Linh The Nguyen / Dat Quoc Nguyen 原文: [英文] [中文] 备注: To appear in Proceedings of ACL 2025 (Main conference paper) 摘要: 本文介绍了PhoAudiobook,这是一个新整理的数据集,包含941小时的高质量音频,用于越南语文本到语音转换。利用PhoAudiobook,我们对三个领先的零样本TTS模型进行了实验:VALL-E、VoiceCraft和XTTS-V2。我们的研究结果表明,PhoAudiobook在各种指标上持续提升了模型性能。此外,VALL-E和VoiceCraft在合成短句方面表现出色,突显了它们在处理多样化语言环境中的稳健性。我们公开发布PhoAudiobook,以促进越南语文本到语音转换的进一步研究和发展。 |
[163] 评估大型语言模型在危机检测中的应用:来自心理支持热线的真实世界基准 标题: Evaluating Large Language Models in Crisis Detection: A Real-World Benchmark from Psychological Support Hotlines 作者: Guifeng Deng / Shuyin Rao / Tianyu Lin / Anlu Dai / Pan Wang / Junyi Xie / Haidong Song / Ke Zhao / Dongwu Xu / Zhengdong Cheng / Tao Li / Haiteng Jiang 原文: [英文] 备注: 30 pages, 8 figures 摘要: 心理支持热线在危机干预中至关重要,但由于需求增加而面临重大挑战。大型语言模型(LLMs)可以支持危机评估,但其在情感敏感环境中的能力尚不明确。我们引入了PsyCrisisBench,这是一个包含540个来自杭州心理援助热线的标注转录本的基准,评估四项任务:情绪状态识别、自杀意念检测、自杀计划识别和风险评估。我们在15个家族(例如,GPT、Claude、Gemini、Llama、Qwen、DeepSeek)的64个LLM上使用零样本、少样本和微调范式进行了评估。性能通过F1分数进行衡量,并通过Welch's t检验进行统计比较。LLMs在自杀意念检测(F1=0.880)、自杀计划识别(F1=0.779)和风险评估(F1=0.907)方面表现出色,并通过少样本和微调得到改善。情绪状态识别更具挑战性(最大F1=0.709),可能是由于失去的语音线索和模糊性。一个微调的1.5B参数模型(Qwen2.5-1.5B)在情绪和自杀意念上超过了更大的模型。开源模型如QwQ-32B在大多数任务上与闭源模型表现相当(p>0.3),尽管闭源模型在情绪检测上仍有优势(p=0.007)。性能随规模增加到一定程度;量化(AWQ)将GPU内存减少了70%,而F1降幅很小。LLMs在结构化心理危机评估中显示出巨大潜力,尤其是在微调的情况下。由于情境复杂性,情绪识别仍然有限。开源和闭源模型之间的差距缩小,加上高效的量化,表明整合是可行的。PsyCrisisBench提供了一个强大的评估框架,以指导模型开发和在心理健康中的伦理部署。 |
[164] 通过LLM代理和条件概念瓶颈模型增强可解释的图像分类 标题: Enhancing Interpretable Image Classification Through LLM Agents and Conditional Concept Bottleneck Models 作者: Yiwen Jiang / Deval Mehta / Wei Feng / Zongyuan Ge 原文: [英文] [中文] 备注: Accepted at ACL 2025 (Main) 摘要: 概念瓶颈模型(CBMs)将图像分类分解为由可解释的、可读的人类概念所支配的过程。最近在CBMs方面的进展使用大型语言模型(LLMs)生成候选概念。然而,一个关键问题仍然存在:使用多少个概念是最优的?当前的概念库存在冗余或覆盖不足的问题。为了解决这个问题,我们引入了一种动态的、基于代理的方法,该方法根据环境反馈调整概念库,优化概念数量以实现充分且简洁的覆盖。此外,我们提出了条件概念瓶颈模型(CoCoBMs),以克服传统CBMs在概念评分机制上的局限性。它提高了评估每个概念对分类任务贡献的准确性,并具有一个可编辑的矩阵,允许LLMs纠正与其内部知识冲突的概念评分。我们在6个数据集上的评估表明,我们的方法不仅将分类准确率提高了6%,还将可解释性评估提高了30%。 |
[165] 阿拉伯大型语言模型(ALLMs)的景观:阿拉伯语言技术的新纪元 标题: The Landscape of Arabic Large Language Models (ALLMs): A New Era for Arabic Language Technology 作者: Shahad Al-Khalifa / Nadir Durrani / Hend Al-Khalifa / Firoj Alam 原文: [英文] [中文] 备注: Accepted at CACM 摘要: ChatGPT 的出现标志着人工智能(AI)的一个变革性里程碑,展示了大型语言模型(LLMs)生成类人文本的非凡潜力。这股创新浪潮彻底改变了我们与技术的互动方式,将 LLMs 无缝整合到日常任务中,如度假计划、电子邮件撰写和内容创作。虽然讲英语的用户显著受益于这些进步,但阿拉伯世界在开发特定于阿拉伯语的 LLMs 方面面临着独特的挑战。阿拉伯语是世界上使用最广泛的语言之一,为27个国家的超过4.22亿母语使用者服务,并深深植根于丰富的语言和文化遗产中。开发阿拉伯语 LLMs(ALLMs)提供了一个无与伦比的机会来弥合技术差距并赋能社区。ALLMs 的发展历程既迷人又复杂,从最初的文本处理系统演变为复杂的 AI 驱动模型。本文探讨了 ALLMs 的发展轨迹,从其起源到现今,重点介绍了通过基准测试和公共排行榜评估这些模型的努力。我们还讨论了 ALLMs 为阿拉伯世界带来的挑战和机遇。 |
[166] TurnBench-MS:用于评估大型语言模型中的多轮、多步推理的基准 标题: TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models 作者: Yiran Zhang / Mo Wang / Xiaoyang Li / Kaixuan Ren / Chencheng Zhu / Usman Naseem 原文: [英文] [中文] 备注: Preprint 摘要: 尽管大型语言模型(LLMs)取得了令人瞩目的进展,但现有的基准测试往往侧重于单轮或单步任务,未能捕捉到现实环境中所需的迭代推理。为了解决这一局限性,我们引入了TurnBench,这是一种通过互动破译代码任务来评估多轮、多步推理的新型基准测试,灵感来自“图灵机棋盘游戏”。在每一轮中,模型必须通过连续猜测、接收结构化反馈,并整合多轮线索来揭示隐藏的逻辑或算术规则。这种动态设置要求模型随着时间推理,基于过去的信息进行调整,并在各步骤中保持一致性——这些能力在当前基准测试中尚未得到充分探索。TurnBench包括两种模式:经典模式,测试标准推理;以及噩梦模式,增加复杂性并需要强大的推理链。为了支持细粒度分析,我们为中间推理步骤提供了真实标注。我们对最先进的LLMs的评估揭示了显著的差距:最佳模型在经典模式下达到81.5%的准确率,但在噩梦模式下表现下降到17.8%。相比之下,人类参与者在两种模式下均达到100%,这突显了TurnBench对当前模型的挑战。通过引入反馈循环和隐藏任务规则,TurnBench降低了污染风险,并为诊断和推进LLMs中的多步、多轮推理提供了严格的测试平台。 |
[167] 跟随流程:使用神经符号代理进行细粒度流程图归因 标题: Follow the Flow: Fine-grained Flowchart Attribution with Neurosymbolic Agents 作者: Manan Suri / Puneet Mathur / Nedim Lipka / Franck Dernoncourt / Ryan A. Rossi / Vivek Gupta / Dinesh Manocha 原文: [英文] [中文] 备注: None 摘要: 流程图是可视化决策过程的重要工具。然而,由于其非线性结构和复杂的视觉-文本关系,使得使用大型语言模型(LLMs)来解释它们变得具有挑战性,因为视觉语言模型在分析这些图表时经常会臆测出不存在的连接和决策路径。这导致在物流、健康和工程等关键领域中自动化流程图处理的可靠性受到影响。我们引入了细粒度流程图归因任务,该任务追踪特定组件以支持流程图参考LLM的响应。流程图归因通过将生成的响应与流程图的结构相链接,确保LLM预测的可验证性并提高可解释性。我们提出了FlowPathAgent,这是一种通过基于图的推理执行细粒度事后归因的神经符号代理。它首先对流程图进行分段,然后将其转换为结构化的符号图,并采用代理方法动态与图进行交互,以生成归因路径。此外,我们提出了FlowExplainBench,这是一个用于评估不同风格、领域和问题类型的流程图归因的新基准。实验结果表明,FlowPathAgent在流程图问答中减轻了LLM答案中的视觉幻觉,在我们提出的FlowExplainBench数据集上比强基线高出10-14%。 |
[168] 负强化在大型语言模型推理中的惊人效果 标题: The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning 作者: Xinyu Zhu / Mengzhou Xia / Zhepei Wei / Wei-Lin Chen / Danqi Chen / Yu Meng 原文: [英文] [中文] 备注: None 摘要: 具有可验证奖励的强化学习(RLVR)是一种有前途的方法,用于在推理任务上训练语言模型(LMs),这些任务会引发长链的思维(CoTs)。与监督学习不同,它通过策略梯度使用正确和错误的样本来更新模型。为了更好地理解其机制,我们将学习信号分解为强化正确响应和惩罚错误响应,分别称为正样本强化(PSR)和负样本强化(NSR)。我们在一个数学推理数据集上训练了Qwen2.5-Math-7B和Qwen3-4B,并发现了一个令人惊讶的结果:仅使用负样本进行训练——不强化正确响应——可以非常有效:它在整个Pass@$k$范围内($k$最高到256)持续提高了基础模型的性能,常常与PPO和GRPO相匹敌或超越。相比之下,仅强化正确响应虽然提高了Pass@$1$,但在更高的$k$时性能下降,这是由于多样性减少所致。这些推理扩展趋势表明,仅惩罚错误响应可能比之前认识到的对性能贡献更大。通过梯度分析,我们表明NSR通过抑制错误生成并将概率质量重新分配到其他合理候选项来发挥作用,这由模型的先验信念引导。它是对模型现有知识的精炼,而不是引入全新的行为。基于这一见解,我们提出了一个简单的RL目标变体,增加了NSR的权重,并表明它在MATH、AIME 2025和AMC23上的整体Pass@$k$性能上持续提高。我们的代码可在此https URL获取。 |
[169] 心灵聊天:通过受训咨询师角色扮演收集的日本心理咨询对话数据集 标题: KokoroChat: A Japanese Psychological Counseling Dialogue Dataset Collected via Role-Playing by Trained Counselors 作者: Zhiyang Qi / Takumasa Kaneko / Keiko Takamizo / Mariko Ukiyo / Michimasa Inaba 原文: [英文] [中文] 备注: Accepted to ACL 2025 Main Conference 摘要: 生成心理咨询对话的语言模型在很大程度上依赖于高质量的数据集。众包数据收集方法需要严格的工作人员培训,而来自真实世界咨询环境的数据可能会引发隐私和伦理问题。尽管最近的研究探索了使用大型语言模型(LLMs)来扩充心理咨询对话数据集,但生成的数据往往缺乏多样性和真实性。为了解决这些限制,本研究采用了一种角色扮演的方法,由经过培训的咨询师模拟咨询师与客户的互动,确保高质量的对话,同时降低隐私风险。使用这种方法,我们构建了KokoroChat,一个包含6,589个长篇对话的日语心理咨询对话数据集,每个对话都附有全面的客户反馈。实验结果表明,使用KokoroChat微调开源LLMs可以提高生成的咨询回复的质量以及咨询对话的自动评估。KokoroChat数据集可在此https URL获取。 |
[170] MMD-Flagger:利用最大均值差异检测幻觉 标题: MMD-Flagger: Leveraging Maximum Mean Discrepancy to Detect Hallucinations 作者: Kensuke Mitsuzawa / Damien Garreau 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)已经在我们的日常生活中变得无处不在。然而,一个根本性的障碍阻碍了它们在许多关键应用中的使用:它们倾向于生成流畅且具有人类质量的内容,但这些内容并不基于现实。因此,检测此类幻觉内容至关重要。在这项工作中,我们提出了一种新的方法来标记幻觉内容,称为MMD-Flagger。该方法依赖于最大均值差异(MMD),这是一种分布之间的非参数距离。从高层次的角度来看,MMD-Flagger跟踪生成的文档与使用不同温度参数生成的文档之间的MMD。我们通过实验证明,检查这一轨迹的形状足以检测大多数幻觉。这种新方法在两个机器翻译数据集上进行了基准测试,并且其表现优于自然竞争对手。 |
[171] AdaRewriter:通过测试时适应释放基于提示的对话查询重构的力量 标题: AdaRewriter: Unleashing the Power of Prompting-based Conversational Query Reformulation via Test-Time Adaptation 作者: Yilong Lai / Jialong Wu / Zhenglin Wang / Deyu Zhou 原文: [英文] [中文] 备注: None 摘要: 基于提示的对话查询重构已成为对话搜索中的一种强大方法,将模糊的用户查询改进为独立的搜索查询。通过提示生成的候选项进行最佳N重构显示出令人印象深刻的潜在扩展能力。然而,以往的调优方法(训练时)和适应方法(测试时)都无法充分发挥其优势。在本文中,我们提出了AdaRewriter,这是一种通过测试时适应使用结果监督奖励模型进行查询重构的新框架。通过使用对比排序损失训练一个轻量级的奖励模型,AdaRewriter在推理过程中选择最有前途的重构。值得注意的是,它可以在包括商业大型语言模型API在内的黑盒系统中有效运行。在五个对话搜索数据集上的实验表明,AdaRewriter在大多数设置中显著优于现有方法,展示了测试时适应在对话查询重构中的潜力。 |
[172] 面向低资源语言对话的语音到语音翻译流程 标题: Speech-to-Speech Translation Pipelines for Conversations in Low-Resource Languages 作者: Andrei Popescu-Belis / Alexis Allemann / Teo Ferrari / Gopal Krishnamani 原文: [英文] [中文] 备注: Proceedings of MT Summit 2025 摘要: 自动语音到语音翻译在日常人类对话中的受欢迎程度正在增长,但其质量因语言对的不同而显著变化。在低资源语言的社区口译背景下,特别是土耳其语和普什图语与法语之间的翻译,我们收集了微调和测试数据,并使用多种自动指标(BLEU、COMET 和 BLASER)以及人工评估对系统进行了比较。翻译流程包括自动语音识别、机器翻译和语音合成,使用了本地模型和基于云的商业模型。其中一些组件在我们的数据上进行了微调。我们评估了超过 60 个翻译流程,并确定了每个方向上最优的流程。我们还发现,组件的排名通常与翻译流程的其他部分无关。 |
[173] 使用形式句法理论比较大型语言模型生成的新闻文本与人工撰写的新闻文本 标题: Comparing LLM-generated and human-authored news text using formal syntactic theory 作者: Olga Zamaraeva / Dan Flickinger / Francis Bond / Carlos Gómez-Rodríguez 原文: [英文] [中文] 备注: 20 pages, 15 figures, 13 tables; accepted to ACL-2025 main 摘要: 本研究首次全面比较了由六种大型语言模型生成的纽约时报风格文本与真实的人类撰写的纽约时报文章。比较基于一种正式的句法理论。我们使用头驱动短语结构语法(HPSG)来分析文本的语法结构。然后,我们研究并展示了HPSG语法类型分布的差异,揭示了人类写作与大型语言模型生成写作之间的系统性区别。这些发现有助于更深入地理解大型语言模型和人类在纽约时报体裁中的句法行为。 |
[174] UniversalCEFR:促进语言能力评估的开放多语言研究 标题: UniversalCEFR: Enabling Open Multilingual Research on Language Proficiency Assessment 作者: Joseph Marvin Imperial / Abdullah Barayan / Regina Stodden / Rodrigo Wilkens / Ricardo Munoz Sanchez / Lingyun Gao / Melissa Torgbi / Dawn Knight / Gail Forey / Reka R. Jablonkai / Ekaterina Kochmar / Robert Reynolds / Eugenio Ribeiro / Horacio Saggion / Elena Volodina / Sowmya Vajjala / Thomas Francois / Fernando Alva-Manchego / Harish Tayyar Madabushi 原文: [英文] [中文] 备注: None 摘要: 我们介绍了UniversalCEFR,这是一个大规模的多语言多维度数据集,其中的文本根据CEFR(欧洲语言共同参考框架)标准在13种语言中进行了标注。为了促进在自动可读性和语言能力评估方面的开放研究,UniversalCEFR包含505,807个CEFR标记的文本,这些文本从教育和面向学习者的资源中整理而来,并标准化为统一的数据格式,以支持跨任务和语言的一致处理、分析和建模。为了展示其实用性,我们使用三种建模范式进行了基准实验:a)基于语言特征的分类,b)微调预训练的大型语言模型(LLMs),以及c)基于描述符的指令调优LLMs的提示。我们的结果进一步支持在多语言CEFR水平评估中使用语言特征和微调预训练模型。总体而言,UniversalCEFR旨在通过标准化数据集格式并促进其在全球研究社区的可访问性,来建立语言能力研究中数据分发的最佳实践。 |
[175] 通过对抗蒸馏进行自我精炼的语言模型匿名化工具 标题: Self-Refining Language Model Anonymizers via Adversarial Distillation 作者: Kyuyoung Kim / Hyunjun Jeon / Jinwoo Shin 原文: [英文] [中文] 备注: Preprint 摘要: 大型语言模型(LLMs)在敏感领域的使用日益增多,它们从看似无害的文本中推断个人数据的能力带来了新的隐私风险。虽然最近基于LLM的匿名化方法有助于减轻这些风险,但它们通常依赖于专有模型(例如,GPT-4),这引发了关于成本以及敏感数据可能暴露给不可信外部系统的担忧。为了解决这个问题,我们引入了自我精炼匿名化语言模型(SEAL),这是一种新颖的蒸馏框架,用于训练小型语言模型(SLMs)以在推理时无需依赖外部昂贵模型来进行有效的匿名化。我们利用LLM匿名化器和推理模型之间的对抗性互动来收集匿名化文本和推断属性的轨迹,这些轨迹用于通过监督微调和偏好学习将匿名化、对抗性推理和效用评估能力蒸馏到SLMs中。最终的模型不仅学习匿名化文本,还能批判其输出,从而通过自我精炼迭代提高匿名化质量。在SynthPAI,一个合成个人资料和文本评论的数据集上的实验表明,使用SEAL训练的SLMs在匿名化能力上取得了显著的改进。值得注意的是,8B模型在隐私-效用权衡方面达到了与GPT-4匿名化器相当的水平,并且通过自我精炼,在隐私方面甚至超越了它。这些结果显示了我们的对抗性蒸馏框架在训练SLMs作为高效匿名化器方面的有效性。为了促进进一步的研究,我们发布了实验中使用的完整数据集。 |
[176] 基于提示的文本嵌入的冗余性、各向同性和内在维度 标题: Redundancy, Isotropy, and Intrinsic Dimensionality of Prompt-based Text Embeddings 作者: Hayato Tsukagoshi / Ryohei Sasano 原文: [英文] [中文] 备注: ACL 2025 Findings 摘要: 基于提示的文本嵌入模型在接收到定制的提示后生成特定任务的嵌入,最近展示了显著的性能。然而,它们生成的嵌入通常具有数千个维度,导致高存储成本和嵌入操作的计算成本增加。在本文中,我们研究了对嵌入应用事后降维如何影响利用这些嵌入的各种任务的性能,特别是分类、聚类、检索和语义文本相似性(STS)任务。我们的实验表明,即使是简单的降维,仅保留嵌入的前25%维度,也仅导致非常轻微的性能下降,这表明这些嵌入具有高度的冗余性。值得注意的是,对于分类和聚类,即使嵌入减少到原始维度的不到0.5%,性能下降也非常小。为了定量分析这种冗余性,我们基于嵌入的内在维度和各向同性进行了分析。我们的分析揭示了用于分类和聚类的嵌入被认为具有非常高的维度冗余性,与用于检索和STS的嵌入相比,表现出较低的内在维度和较少的各向同性。 |
[177] 鲸鱼:基于w2v-BERT和E-Branchformer的大规模多语言语音识别模型,使用大量语音数据 标题: Whale: Large-Scale multilingual ASR model with w2v-BERT and E-Branchformer with large speech data 作者: Yosuke Kashiwagi / Hayato Futami / Emiru Tsunoo / Satoshi Asakawa 原文: [英文] [中文] 备注: None 摘要: 本文介绍了一种名为Whale的大规模语音识别模型的开发。与Whisper和OWSM等模型类似,Whale利用了大型模型规模和多样化、广泛的数据集。Whale的架构集成了w2v-BERT自监督模型、基于E-Branchformer构建的编码器-解码器骨干网,以及联合CTC-注意力解码策略。训练语料库包括多样化的语音数据,不仅包含公共语料库,还包括内部数据,从而增强了模型对不同说话风格和声学条件的鲁棒性。通过在多个基准上的评估,Whale取得了与现有模型相当的性能。特别是在Librispeech测试清晰集上实现了2.4%的词错误率,在CSJ eval3集上实现了3.4%的字符错误率,优于Whisper large-v3和OWSM v3.1。 |
[178] 构建实体关联挖掘框架以进行知识发现 标题: Building Entity Association Mining Framework for Knowledge Discovery 作者: Anshika Rawal / Abhijeet Kumar / Mridul Mishra 原文: [英文] 备注: Presented at Business Analytics and Intelligence Conference, IIM Bengaluru 摘要: 从非结构化文本中提取有用的信号或模式以支持重要的商业决策,例如分析投资产品的吸引力、发现客户偏好、风险监控等,是一项具有挑战性的任务。捕捉实体或概念的交互和关联挖掘是文本挖掘中的关键组成部分,能够实现信息提取、推理以及从文本中发现知识。此外,它可以用于丰富或过滤知识图谱,以指导探索过程、描述性分析并揭示文本中的隐藏故事。在本文中,我们介绍了一个领域独立的管道,即通用框架,以实现文档过滤、使用各种来源(或技术)作为插件进行实体提取和关联挖掘,以构建任何文本挖掘的商业用例,并定量定义用于排名目的的评分指标。所提出的框架有三个主要组成部分:a) 文档过滤:从大量文本中过滤出感兴趣的文档/文本 b) 可配置的实体提取管道:包括实体提取技术,即 i) DBpedia Spotlight, ii) Spacy NER, iii) 自定义实体匹配器, iv) 基于短语提取(或词典)c) 关联关系挖掘:生成共现图以分析实体、概念之间的潜在关系。此外,基于共现计数的频率统计提供了一个全面的窗口,以观察特定业务背景下的关联趋势或热度。本文展示了该框架在两个金融用例中的基本构建模块的使用,即品牌产品发现和供应商风险监控。我们希望这样的框架能够消除重复的工作,最小化开发工作,并鼓励在机构的关联挖掘业务应用中实现可重用性和快速原型设计。 |
[179] 塔尔图理工大学在Interspeech 2025 ML-SUPERB 2.0挑战赛中的系统 标题: TalTech Systems for the Interspeech 2025 ML-SUPERB 2.0 Challenge 作者: Tanel Alumäe / Artem Fedorchenko 原文: [英文] [中文] 备注: Accepted to Interspeech 2025 摘要: 本文介绍了塔林理工大学为 Interspeech 2025 ML-SUPERB 2.0 挑战赛开发的语言识别和多语言语音识别系统。该系统使用了一种混合语言识别系统,由一个预训练的语言嵌入模型和一个轻量级语音识别模型组成,该模型在不同语言间共享编码器,并使用语言特定的二元语法语言模型。对于语音识别,使用了三个模型,其中每种语言仅应用一个模型,具体取决于训练数据的可用性和在保留数据上的表现。模型集包括经过微调的 SeamlessM4T、带有自定义语言适配器的 MMS-1B-all 和 MMS-zeroshot。该系统在挑战赛中获得了最高的总体得分。 |
[180] 在实用问答模型中整合神经和符号组件 标题: Integrating Neural and Symbolic Components in a Model of Pragmatic Question-Answering 作者: Polina Tsvilodub / Robert D. Hawkins / Michael Franke 原文: [英文] [中文] 备注: 16 pages, 16 figures. To appear in the proceedings of Society for Computation in Linguistics (SCiL) 2025 摘要: 传统上,计算语言使用的模型依赖于手动指定的语句和意义集,这限制了它们在真实世界语言使用中的适用性。我们提出了一种神经符号框架,通过整合基于大型语言模型(LLM)的模块来增强概率认知模型,以提出和评估自然语言中的关键组件,从而消除手动指定的需求。通过一个经典的语用问答案例研究,我们系统地考察了将神经模块整合到认知模型中的各种方法——从评估效用和字面语义到生成替代语句和目标。我们发现,混合模型在预测人类回答模式方面可以匹敌甚至超越传统概率模型。然而,神经符号模型的成功在很大程度上取决于LLM的整合方式:虽然它们在提出替代方案和将抽象目标转化为效用方面特别有效,但在真值条件语义评估方面面临挑战。这项工作为更灵活和可扩展的语用语言使用模型铺平了道路,同时阐明了在平衡神经和符号组件时的重要设计考虑。 |
[181] 在循环中的大型语言模型:创建用于仇恨言论净化的PARADEHATE数据集 标题: LLM in the Loop: Creating the PARADEHATE Dataset for Hate Speech Detoxification 作者: Shuzhou Yuan / Ercong Nie / Lukas Kouba / Ashish Yashwanth Kangen / Helmut Schmid / Hinrich Schutze / Michael Farber 原文: [英文] [中文] 备注: None 摘要: 随着网络上有害内容的日益增多,去毒化任务,即将有害语言重写为无毒文本,变得越来越重要。然而,由于人工标注的成本和敏感性,高质量的去毒化平行数据集,尤其是针对仇恨言论的,仍然稀缺。在本文中,我们提出了一种新颖的LLM-in-the-loop流程,利用GPT-4o-mini进行自动去毒化。我们首先通过用LLM替代人工标注者来复制ParaDetox流程,并证明LLM的表现与人工标注相当。在此基础上,我们构建了PARADEHATE,一个专门用于仇恨言论去毒化的大规模平行数据集。我们发布了PARADEHATE作为一个基准,包含超过8000对仇恨/非仇恨文本对,并评估了多种基线方法。实验结果表明,诸如在PARADEHATE上微调的BART等模型在风格准确性、内容保留和流畅性方面表现更佳,证明了LLM生成的去毒化文本作为人工标注的可扩展替代方案的有效性。 |
[182] 基于论点的因果干预方法用于缓解跨文档事件共指解析中的偏差 标题: Argument-Centric Causal Intervention Method for Mitigating Bias in Cross-Document Event Coreference Resolution 作者: Long Yao / Wenzhong Yang / Yabo Yin / Fuyuan Wei / Hongzhen Lv / Jiaren Peng / Liejun Wang / Xiaoming Tao 原文: [英文] [中文] 备注: None 摘要: 跨文档事件共指解析(CD-ECR)是自然语言处理(NLP)中的一项基础任务,旨在确定多个文档中的事件提及是否指向同一个现实世界的事件。然而,目前的CD-ECR方法主要依赖于输入提及对中的触发器特征,这导致表面层次的词汇特征与共指关系之间产生虚假的相关性,从而损害模型的整体性能。为了解决这个问题,我们提出了一种基于论元中心因果干预(ACCI)的新颖跨文档事件共指解析方法。具体来说,我们构建了一个结构化因果图,以揭示词汇触发器与共指标签之间的混杂依赖关系,并引入后门调整干预以隔离论元语义的真实因果效应。为了进一步减轻虚假相关性,ACCI集成了一个反事实推理模块,用于量化触发词扰动的因果影响,以及一个论元感知增强模块,以促进对语义信息的更高敏感度。与依赖于昂贵的数据增强或基于启发式过滤的先前方法相比,ACCI在一个统一的端到端框架中实现了有效的去偏,而无需改变基础训练过程。大量实验表明,ACCI在ECB+上实现了88.4%的CoNLL F1,在GVC上实现了85.2%的CoNLL F1,达到了最新的性能水平。实现和材料可在此https URL获取。 |
[183] 多语言定义建模 标题: Multilingual Definition Modeling 作者: Edison Marrese-Taylor / Erica K. Shimomoto / Alfredo Solano / Enrique Reid 原文: [英文] 备注: None 摘要: 在本文中,我们提出了关于定义建模的首个多语言研究。我们使用四种新语言(西班牙语、法语、葡萄牙语和德语)的单语词典数据,并进行深入的实证研究,以测试在这些数据上微调的预训练多语言模型在单义词定义建模中的表现。此外,我们采用零样本方法来测试两种流行的基于聊天的大型语言模型(LLMs)在该任务中的多语言能力。结果表明,多语言模型可以与英语表现相当,但无法利用潜在的跨语言协同效应,而LLMs总体上提供了更好的性能。对LLM生成的定义进行全面的人类评估,突出了这些模型在这一新任务中的零样本和少样本能力,同时也展示了它们的不足。最后,我们展示了通过BERTScore在我们的任务上的表现与多语言LLM基准测试的表现强烈相关,这表明我们的任务提供了一种可行的计算受限、稳定和自然的替代方案。 |
[184] CVC:用于大型语言模型价值对齐的大规模中文价值规则语料库 标题: CVC: A Large-Scale Chinese Value Rule Corpus for Value Alignment of Large Language Models 作者: Ping Wu / Guobin Shen / Dongcheng Zhao / Yuwei Wang / Yiting Dong / Yu Shi / Enmeng Lu / Feifei Zhao / Yi Zeng 原文: [英文] [中文] 备注: None 摘要: 确保大型语言模型(LLMs)与主流人类价值观和伦理规范保持一致,对于人工智能的安全和可持续发展至关重要。目前的价值评估和对齐受到西方文化偏见和依赖非本土规则的不完整国内框架的限制;此外,缺乏可扩展的、基于规则的场景生成方法,使得在多元文化背景下的评估成本高昂且不充分。为了解决这些挑战,我们提出了一个基于核心中国价值观的分层价值框架,涵盖三个主要维度、12个核心价值观和50个衍生价值观。基于此框架,我们构建了一个大规模的中国价值观语料库(CVC),其中包含通过人工注释增强和扩展的超过25万条价值规则。实验结果表明,CVC指导的场景在价值边界和内容多样性方面优于直接生成的场景。在六个敏感主题(如代孕、自杀)的评估中,七个主流LLM在超过70.5%的情况下更倾向于选择CVC生成的选项,而五位中国人工注释者与CVC的对齐度达到了87.5%,证实了其普遍性、文化相关性以及与中国价值观的强对齐。此外,我们构建了40万个基于规则的道德困境场景,客观地捕捉了17个LLM在冲突价值优先级上的细微差别。我们的工作建立了一个具有中国特色的文化适应性基准框架,用于全面的价值评估和对齐。所有数据可在此https URL获取,代码可在此https URL获取。 |
[185] 融合语音特征的持续语音学习 标题: Continual Speech Learning with Fused Speech Features 作者: Guitao Wang / Jinming Zhao / Hao Yang / Guilin Qi / Tongtong Wu / Gholamreza Haffari 原文: [英文] [中文] 备注: Submitted to Interspeech 2025 摘要: 语音数据的快速增长要求模型具有适应性,因为传统的静态方法无法跟上动态和多样化的语音信息。我们介绍了连续语音学习,这是一种新的设置,旨在弥合当前语音模型中的适应性差距。我们使用编码器-解码器Whisper模型将语音任务标准化为生成格式。在编码器顶部集成了一个可学习的门控融合层,以动态选择特定任务的特征用于下游任务。我们的方法在六个语音处理任务中显著提高了准确性,展示了在不进行完全重新训练的情况下适应新语音任务的优势。 |
[186] 大型语言模型中的事实、虚构和预测的表征:认识论与态度 标题: Representations of Fact, Fiction and Forecast in Large Language Models: Epistemics and Attitudes 作者: Meng Li / Michael Vrazitulis / David Schlangen 原文: [英文] [中文] 备注: accepted by ACL 2025 (main) 摘要: 理性说话者应该知道自己知道什么和不知道什么,并生成与证据强度相匹配的表达。相比之下,当前的大型语言模型在基于事实评估和对不确定现实环境的信心生成相应的言论方面仍然面临挑战。虽然最近通过语言化的不确定性来估计和校准大型语言模型的信心变得流行,但缺乏的是对大型语言模型潜在空间中编码的不确定性语言知识的仔细检查。在本文中,我们借鉴了认知表达的类型学框架,使用控制故事来评估大型语言模型对认知模态的知识。我们的实验表明,大型语言模型在生成认知表达方面的表现有限且不够稳健,因此大型语言模型生成的不确定性表达并不总是可靠的。为了构建具有不确定性意识的大型语言模型,有必要丰富大型语言模型中的认知模态语义知识。 |
[187] FormFactory:用于多模态表单填写代理的交互式基准测试套件 标题: FormFactory: An Interactive Benchmarking Suite for Multimodal Form-Filling Agents 作者: Bobo Li / Yuheng Wang / Hao Fei / Juncheng Li / Wei Ji / Mong-Li Lee / Wynne Hsu 原文: [英文] [中文] 备注: 8 pages, 7 figures 摘要: 在线表单填写是一项常见但劳动密集型的任务,涉及大量的键盘和鼠标交互。尽管长期以来人们一直希望通过“一键”来自动化这一过程,但现有工具仍主要基于规则,缺乏可推广的生成能力。最近在多模态大型语言模型(MLLMs)方面的进展使得在通用场景中进行GUI相关任务的代理变得有希望。然而,它们在表单填写的独特挑战上表现不佳,例如灵活的布局以及将文本指令与屏幕上的字段对齐的困难。为了解决这一差距,我们正式定义了表单填写任务,并提出了FormFactory,一个交互式基准测试套件,包括基于网络的界面、后端评估模块和精心构建的数据集。我们的基准涵盖了多样化的现实场景,包含各种字段格式,并模拟高保真度的表单交互。我们对最先进的MLLMs进行了全面评估,发现没有模型的准确率超过5%,这突显了任务的固有难度。这些发现也揭示了当前模型在视觉布局推理和字段值对齐能力方面的显著局限性。我们希望我们的基准可以成为进一步研究稳健、实用的表单填写代理的基石。 |
[188] V-VAE:一种变分自动编码框架,旨在对类人聊天进行细粒度控制 标题: V-VAE: A Variational Auto Encoding Framework Towards Fine-Grained Control over Human-Like Chat 作者: Qi Lin / Weikai Xu / Lisi Chen / Bin Dai 原文: [英文] 备注: None 摘要: 随着基于大型语言模型(LLM)的聊天机器人的不断普及,人们对生成不仅在语言上流畅而且在对话中始终与特定角色特征一致的回应的需求日益增长。然而,现有的角色扮演和基于角色的聊天方法严重依赖于静态角色描述、粗粒度的信号空间和低质量的合成数据,这些方法无法捕捉到类人聊天中的动态细粒度细节。类人聊天需要对微妙的潜在特征进行建模,例如情感语调、情境意识和不断变化的个性,这些特征难以预定义,也无法轻易从合成或基于蒸馏的数据中学习。为了解决这些限制,我们提出了一种语言变分自编码(V-VAE)框架,其中包含一个变分自编码模块和细粒度控制空间,该空间基于跨谈话风格、互动模式和个人属性的细粒度、可解释的潜在变量动态调整对话行为。我们还构建了一个高质量的数据集HumanChatData,并建立了HumanChatBench基准,以解决类人领域高质量数据的稀缺问题。实验表明,基于V-VAE的LLM在HumanChatBench和DialogBench上始终优于标准基线,这进一步证明了V-VAE和HumanChatData的有效性。 |
[189] STORM-BORN:通过人机交互多智能体框架策划的具有挑战性的数学推导数据集 标题: STORM-BORN: A Challenging Mathematical Derivations Dataset Curated via a Human-in-the-Loop Multi-Agent Framework 作者: Wenhao Liu / Zhenyi Lu / Xinyu Hu / Jierui Zhang / Dailin Li / Jiacheng Cen / Huilin Cao / Haiteng Wang / Yuhan Li / Kun Xie / Dandan Li / Pei Zhang / Chengbo Zhang / Yuxiang Ren / Xiaohong Huang / Yan Ma 原文: [英文] [中文] 备注: accepted by ACL2025 摘要: 高质量的数学数据集对于提升大型语言模型(LLMs)的推理能力至关重要。然而,现有的数据集通常存在三个主要问题:内容过时且缺乏挑战性,忽视类人推理,以及由于单一LLM生成导致的可靠性有限。为了解决这些问题,我们引入了$\textbf{STORM-BORN}$,这是一个超具挑战性的数学推导数据集,来源于前沿学术论文,包含密集的类人近似和启发式提示。为了确保可靠性和质量,我们提出了一种新颖的人类参与、多代理数据生成框架,整合了推理密集型过滤器、多代理协作以及人类数学家的评估。我们策划了一组2,000个合成样本,并精心挑选了其中最困难的100个问题。即使是最先进的模型如GPT-o1也仅解决了不到$5\%$的问题。在STORM-BORN上进行微调后,准确率提升了$7.84\%$(LLaMA3-8B)和$9.12\%$(Qwen2.5-7B)。随着AI接近数学家级别的推理能力,STORM-BORN提供了一个高难度的基准和类人推理训练资源。我们的代码和数据集已在此https URL公开。 |
[190] 字典来救援:使用双语词典进行低资源语言的跨语言词汇转移 标题: Dictionaries to the Rescue: Cross-Lingual Vocabulary Transfer for Low-Resource Languages Using Bilingual Dictionaries 作者: Haruki Sakajo / Yusuke Ide / Justin Vasselli / Yusuke Sakai / Yingtao Tian / Hidetaka Kamigaito / Taro Watanabe 原文: [英文] [中文] 备注: Accepted to ACL 2025 Findings 摘要: 跨语言词汇迁移在将预训练语言模型适应到新语言(包括低资源语言)方面发挥着重要作用。现有利用单语或平行语料库的方法在应用于资源有限的语言时面临挑战。在这项工作中,我们提出了一种简单但有效的词汇迁移方法,该方法利用双语词典,这些词典由于描述性语言学家的努力而在许多语言中可用。我们提出的方法利用了BPE分词器的一个特性,即从词汇表中移除一个子词会导致回退到更短的子词。目标子词的嵌入通过逐步从分词器中移除它们来迭代估计。实验结果表明,我们的方法在低资源语言方面优于现有方法,证明了基于词典的方法在跨语言词汇迁移中的有效性。 |
[191] Hanfu-Bench:跨时间文化理解与创译的多模态基准 标题: Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation 作者: Li Zhou / Lutong Yu / Dongchu Xie / Shaohuan Cheng / Wenyan Li / Haizhou Li 原文: [英文] [中文] 备注: cultural analysis, cultural visual understanding, cultural image transcreation 摘要: 文化是一个丰富而动态的领域,随着地理和时间的推移而演变。然而,现有关于视觉-语言模型(VLMs)的文化理解研究主要强调地理多样性,往往忽视了关键的时间维度。为弥补这一差距,我们引入了Hanfu-Bench,一个新颖的、由专家策划的多模态数据集。汉服作为跨越中国古代朝代的传统服饰,是反映中国文化深刻时间特征的代表性文化遗产,同时在当代中国社会中仍然非常流行。Hanfu-Bench包括两个核心任务:文化视觉理解和文化图像创作。前者任务通过多选视觉问答考察基于单图像或多图像输入的时间-文化特征识别,而后者则专注于通过文化元素继承和现代背景适应将传统服饰转化为现代设计。我们的评估显示,封闭的VLMs在视觉文化理解上表现与非专家相当,但比人类专家低10%,而开放的VLMs则进一步落后于非专家。在创作任务中,多方面的人类评估表明,表现最好的模型成功率仅为42%。我们的基准测试提供了一个重要的测试平台,揭示了时间文化理解和创造性适应这一新方向中的重大挑战。 |
[192] 提示工程大型语言模型的预测能力 标题: Prompt Engineering Large Language Models' Forecasting Capabilities 作者: Philipp Schoenegger / Cameron R. Jones / Philip E. Tetlock / Barbara Mellers 原文: [英文] 备注: None 摘要: 大型语言模型的性能可以通过多种方式得到提升。许多技术,如微调或高级工具的使用,既耗时又昂贵。尽管提示工程成本显著较低且通常适用于较简单的任务,但对于预测等更复杂的领域,提示工程是否足够仍不明确。在此,我们展示了小幅提示修改很少能将预测准确性提升到一个最低基线之上。在我们的第一项研究中,我们测试了38个提示,涵盖了Claude 3.5 Sonnet、Claude 3.5 Haiku、GPT-4o和Llama 3.1 405B。在第二项研究中,我们引入了复合提示和来自外部来源的提示,还包括推理模型o1和o1-mini。我们的结果显示,大多数提示仅带来微不足道的提升,尽管提及基本比率会带来轻微的好处。令人惊讶的是,一些策略对准确性产生了强烈的负面影响:特别是鼓励模型进行贝叶斯推理。这些结果表明,在预测等复杂任务的背景下,仅靠基本的提示优化所带来的提升有限,这意味着可能需要更强大或更专业的技术来显著提高AI预测的性能。 |
[193] 用于低资源语言环境中虚假信息检测的统一大型语言模型 标题: Unified Large Language Models for Misinformation Detection in Low-Resource Linguistic Settings 作者: Muhammad Islam / Javed Ali Khan / Mohammed Abaker / Ali Daud / Azeem Irshad 原文: [英文] [中文] 备注: None 摘要: 社交媒体平台的快速扩展显著增加了伪造内容和错误信息的传播,使得假新闻检测成为一个关键的研究领域。尽管事实核查工作主要集中在英语新闻上,但在检测区域语言(如乌尔都语)新闻的资源和策略方面存在明显的差距。先进的假新闻检测(FND)技术在很大程度上依赖于大型、准确标记的数据集。然而,由于缺乏广泛的语料库和经过验证的词汇资源,乌尔都语等资源匮乏语言的FND面临着巨大的挑战。目前的乌尔都语假新闻数据集通常是特定领域的,并且不对公众开放。它们也缺乏人工验证,主要依赖未经验证的英语到乌尔都语翻译,这在实际应用中削弱了其可靠性。本研究强调了开发可靠的、专家验证的、领域无关的乌尔都语增强FND数据集的必要性,以改善乌尔都语和其他资源受限语言的假新闻检测。本文提出了第一个用于乌尔都语新闻的基准大型FND数据集,该数据集公开可用以供验证和深入分析。我们还使用多种最先进的预训练大型语言模型(LLMs)对该数据集进行了评估,如XLNet、mBERT、XLM-RoBERTa、RoBERTa、DistilBERT和DeBERTa。此外,我们提出了一种统一的LLM模型,通过不同的嵌入和特征提取技术,其性能优于其他模型。这些模型的性能基于准确性、F1分数、精确度、召回率和人工判断对新闻样本结果的审核进行比较。 |
[194] 声明微调使得仅编码器模型能够高效地跨语言泛化 标题: Statement-Tuning Enables Efficient Cross-lingual Generalization in Encoder-only Models 作者: Ahmed Elshabrawy / Thanh-Nhi Nguyen / Yeeun Kang / Lihan Feng / Annant Jain / Faadil Abdullah Shaikh / Jonibek Mansurov / Mohamed Fazli Mohamed Imam / Jesus-German Ortiz-Barajas / Rendi Chevi / Alham Fikri Aji 原文: [英文] [中文] 备注: Accepted to ACL 2025 (Findings) 摘要: 大型语言模型(LLMs)在零样本和少样本任务中表现出色,但由于其架构的原因,使用仅编码器的模型(如BERT和RoBERTa)实现类似的性能一直具有挑战性。然而,编码器在计算和内存成本方面具有优势。最近的工作通过使用Statement Tuning将任务重新格式化为有限模板,来适应它们进行零样本泛化。我们将这一方法扩展到多语言自然语言处理(NLP),探索编码器是否可以实现零样本跨语言泛化,并作为低资源语言中内存密集型LLMs的高效替代方案。我们的结果表明,最先进的编码器模型在跨语言泛化方面表现良好,能够与多语言LLMs媲美,同时更为高效。我们还分析了多语言Statement Tuning数据集的设计、效率提升和特定语言的泛化,为更具包容性和资源高效的NLP模型做出贡献。我们发布了我们的代码和模型。 |
[195] 最大均值差异分析:利用最大均值差异进行词义检测 标题: MMD-Sense-Analysis: Word Sense Detection Leveraging Maximum Mean Discrepancy 作者: Kensuke Mitsuzawa 原文: [英文] [中文] 备注: None 摘要: 词义分析是解释语言和社会背景的重要分析工作。词义变化检测是一项识别和解释词义随时间变化的任务。本文提出了一种新的方法——MMD-Sense-Analysis,该方法利用最大均值差异(MMD)来选择语义上有意义的变量,并量化不同时期的变化。此方法不仅能够识别词义发生变化的词汇,还能解释其在多个历史时期的演变。据我所知,这是首次将MMD应用于词义变化检测。实证评估结果证明了该方法的有效性。 |
[196] IndicRAGSuite:印度语言RAG系统的大规模数据集和基准 标题: IndicRAGSuite: Large-Scale Datasets and a Benchmark for Indian Language RAG Systems 作者: Pasunuti Prasanjith / Prathmesh B More / Anoop Kunchukuttan / Raj Dabre 原文: [英文] 备注: WIP 摘要: 检索增强生成(RAG)系统使语言模型能够访问相关信息,并生成准确、基础扎实且具有上下文信息的响应。然而,对于印度语言来说,高质量RAG系统的开发受到两个关键资源缺乏的阻碍:(1)用于检索和生成任务的评估基准,以及(2)用于多语言检索的大规模训练数据集。大多数现有的基准和数据集都集中在英语或高资源语言上,这使得将RAG能力扩展到印度多样化的语言环境变得困难。为了解决评估基准的缺乏问题,我们创建了IndicMSMarco,这是一个用于评估13种印度语言的检索质量和响应生成的多语言基准,通过对MS MARCO-dev集的1000个多样化查询进行人工翻译而创建。为了解决训练数据的需求,我们使用最先进的大型语言模型(LLM)从19种印度语言的维基百科中构建了一个大规模的(问题、答案、相关段落)元组数据集。此外,我们还包括原始MS MARCO数据集的翻译版本,以进一步丰富训练数据并确保与现实世界信息检索任务的对齐。资源可在此处获取:this https URL |
[197] 基于领域词汇知识的词嵌入学习在小数据下的文本分类 标题: Domain Lexical Knowledge-based Word Embedding Learning for Text Classification under Small Data 作者: Zixiao Zhu / Kezhi Mao 原文: [英文] [中文] 备注: 13 pages, 2 figures 摘要: 预训练语言模型如BERT已被证明在许多自然语言处理任务中非常强大。然而,在某些文本分类应用中,如情感识别和情感分析,BERT可能无法带来令人满意的表现。这通常发生在关键词在类别标签预测中起关键作用的应用中。我们的研究发现,问题的根本原因在于基于上下文的BERT嵌入可能不足以区分关键词,从而无法为分类生成具有区分性的文本表示。受到这一发现的启发,我们开发了一种利用特定领域词汇知识增强词嵌入的方法。基于知识的嵌入增强模型将BERT嵌入投射到一个新的空间,在该空间中类内相似性和类间差异被最大化。为了实现基于知识的词嵌入增强模型,我们还开发了一种知识获取算法,用于从在线开放资源中自动收集词汇知识。在包括情感分析、情感识别和问答在内的三个分类任务上的实验结果表明,我们提出的词嵌入增强模型是有效的。代码和数据集可以在这个HTTPS URL中找到。 |
[198] MVAN:用于社交媒体假新闻检测的多视角注意力网络 标题: MVAN: Multi-View Attention Networks for Fake News Detection on Social Media 作者: Shiwen Ni / Jiawen Li / Hung-Yu Kao 原文: [英文] [中文] 备注: None 摘要: 社交媒体上的假新闻是当今社会一个普遍且严重的问题。现有的假新闻检测方法主要集中在从长文本内容中寻找线索,例如原始新闻文章和用户评论。本文解决了在更现实场景中进行假新闻检测的问题。仅提供源短文本推文及其转发用户,而没有用户评论。我们开发了一种新颖的基于神经网络的模型,称为多视角注意网络(MVAN),用于检测假新闻并在社交媒体上提供解释。MVAN模型包括文本语义注意和传播结构注意,这确保了我们的模型能够捕捉到源推文内容和传播结构中的信息和线索。此外,模型中的两种注意机制可以在假新闻文本中找到关键线索词,并在传播结构中识别可疑用户。我们在两个真实世界的数据集上进行了实验,结果表明MVAN在准确性上平均比最先进的方法高出2.5%,并能产生合理的解释。 |
[199] 跨语言的泛化与压缩:从语言特定神经元到共享神经元 标题: Cross-Lingual Generalization and Compression: From Language-Specific to Shared Neurons 作者: Frederick Riemenschneider / Anette Frank 原文: [英文] [中文] 备注: Paper accepted for publication at ACL 2025 Main; 10 pages, 20 figures, 4 tables 摘要: 多语言语言模型(MLLMs)在没有明确的跨语言监督训练的情况下,展示了跨语言知识迁移的显著能力。我们分析了三个MLLMs的参数空间,以研究它们在预训练期间的表示如何演变,观察到与压缩一致的模式:模型最初形成语言特定的表示,随着训练的进行,这些表示逐渐收敛为跨语言的抽象。通过探测实验,我们观察到从各层均匀的语言识别能力向更专业的层功能的明显过渡。为了进行更深入的分析,我们专注于编码不同语义概念的神经元。通过追踪它们在预训练期间的发展,我们展示了它们如何在各语言间逐渐对齐。值得注意的是,我们识别出一些特定的神经元,它们逐渐成为跨语言相同概念的可靠预测指标。 |
[200] ESGenius:在环境、社会和治理(ESG)及可持续性知识上对大型语言模型进行基准测试 标题: ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge 作者: Chaoyue He / Xin Zhou / Yi Wu / Xinjia Yu / Yan Zhang / Lei Zhang / Di Wang / Shengfei Lyu / Hong Xu / Xiaoqiao Wang / Wei Liu / Chunyan Miao 原文: [英文] [中文] 备注: 37 pages, 8 figures, 11 tables 摘要: 我们介绍了ESGenius,这是一个全面的基准,用于评估和提升大型语言模型(LLMs)在环境、社会和治理(ESG)以及可持续性问题回答方面的能力。ESGenius由两个关键组成部分构成:(i)ESGenius-QA,一个由LLMs生成并经过领域专家严格验证的1136道多项选择题,涵盖广泛的ESG支柱和可持续性主题。每个问题都系统地链接到其对应的源文本,支持透明评估和检索增强生成(RAG)方法;(ii)ESGenius-Corpus,一个精心策划的存储库,包含来自七个权威来源的231个基础框架、标准、报告和推荐文件。此外,为了全面评估模型的能力和适应潜力,我们实施了严格的两阶段评估协议——零样本和RAG。对50个LLMs(参数范围从0.5 B到671 B)的广泛实验表明,最先进的模型在零样本设置中仅表现出中等性能,准确率通常在55-70%之间,突显了ESGenius在跨学科背景下对LLMs的挑战性。然而,采用RAG的模型表现出显著的性能提升,尤其是对于较小的模型。例如,“DeepSeek-R1-Distill-Qwen-14B”从63.82%(零样本)提高到80.46%(使用RAG)。这些结果强调了在权威来源中扎根响应以增强ESG理解的必要性。据我们所知,ESGenius是第一个为LLMs和相关增强技术策划的基准,专注于ESG和可持续性主题。 |
[201] 跨语言文化知识的迁移:一种不对称现象 标题: Cross-Lingual Transfer of Cultural Knowledge: An Asymmetric Phenomenon 作者: Chen Zhang / Zhiyuan Liao / Yansong Feng 原文: [英文] [中文] 备注: ACL 2025 摘要: 尽管在评估大型语言模型(LLMs)如何处理全球文化多样性方面进行了大量研究,但它们在多语言环境中获取文化知识的机制仍不清楚。我们通过研究LLMs在语言适应过程中文化知识如何在语言间转移来探讨这个问题。我们引入了一个可解释的框架来研究这种转移,确保训练数据的透明性并控制转移效果。通过对四种非英语文化的研究,我们观察到英语与其他高资源语言之间存在双向的文化转移,而低资源语言主要将知识转移到英语,反向流动有限。为了解释这种不对称现象,我们提出了一个基于频率的假设:在预训练数据中出现频率更高的文化知识更容易转移,这一假设得到了对训练语料库的实证分析的支持。 |
[202] StochasTok:提升大型语言模型中细粒度子词理解 标题: StochasTok: Improving Fine-Grained Subword Understanding in LLMs 作者: Anya Sims / Thom Foster / Klara Kaleb / Tuan-Duy H. Nguyen / Joseph Lee / Jakob N. Foerster / Yee Whye Teh / Cong Lu 原文: [英文] [中文] 备注: None 摘要: 子词级理解对于许多任务至关重要,包括理解多位数字、拼写错误、缩写、押韵和文字游戏。尽管如此,当前的大型语言模型(LLMs)在处理一些看似简单的子词级任务时仍常常遇到困难,比如“strawberry”中有多少个“r”?导致这些失败的一个关键因素是分词,它掩盖了单词的细粒度结构。目前的替代方法,如字符级和丢弃分词方法,显著增加了计算成本,并且改进效果不一致。在本文中,我们重新审视了分词,并引入了StochasTok,这是一种简单、高效的随机分词方案,在训练过程中随机拆分标记,使LLMs能够“看到”其内部结构。我们的实验表明,使用StochasTok进行预训练显著提高了LLMs在多个子词级语言游戏中的下游性能,包括字符计数、子字符串识别和数学任务。此外,StochasTok的简单性允许在训练管道的任何阶段无缝集成;我们证明了使用StochasTok进行后训练可以提高现有预训练模型的子词理解能力,从而避免从头开始进行昂贵的预训练。通过最小的改变实现的这些显著改进表明,当应用于更大、更强大的模型时,StochasTok具有令人兴奋的潜力。代码已在此URL开源。 |
[203] 当大型语言模型协作:协同情感计算的出现 标题: When LLMs Team Up: The Emergence of Collaborative Affective Computing 作者: Wenna Lai / Haoran Xie / Guandong Xu / Qing Li / S. Joe Qin 原文: [英文] [中文] 备注: 20 pages, 7 figures, and 3 tables 摘要: 情感计算(AC)在弥合人类情感体验与机器理解之间的差距方面至关重要。传统上,自然语言处理(NLP)中的情感计算任务通常通过流水线架构来处理,这种方法常常因结构僵化而导致效率低下和适应性有限。大型语言模型(LLMs)的出现通过提供一种统一的方法来处理情感理解和生成任务,彻底改变了这一领域,增强了动态实时交互的潜力。然而,LLMs在情感推理方面面临认知限制,例如误解文化细微差别或上下文情感,以及在决策中出现幻觉问题。为了解决这些挑战,最近的研究倡导基于LLM的协作系统,强调专业模型与LLMs之间的交互,通过情感和理性思维的协同效应模拟类似人类的情感智能,这与心理学中的双重过程理论相一致。本综述旨在提供基于LLM的协作系统在情感计算中的全面概述,探索从结构化协作到自主协作。具体包括:(1)现有方法的系统回顾,重点关注协作策略、机制、关键功能和应用;(2)在情感理解和生成的代表性任务中对协作策略进行实验比较;(3)分析突出这些系统在增强复杂情感推理的鲁棒性和适应性方面的潜力;(4)讨论进一步推进该领域的关键挑战和未来研究方向。这项工作首次系统地探索了LLMs在情感计算中的协作智能,为实现更强大的接近人类社会智能的应用铺平了道路。 |
[204] KInIT的mdok:用于二元和多类AI生成文本检测的稳健微调大型语言模型 标题: mdok of KInIT: Robustly Fine-tuned LLM for Binary and Multiclass AI-Generated Text Detection 作者: Dominik Macko 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)能够生成多种语言的高质量文本。这些文本通常不被人类识别为机器生成,因此LLMs存在被滥用的潜在风险(例如,抄袭、垃圾信息、虚假信息传播)。自动化检测能够帮助人类识别机器生成的文本;然而,其对分布外数据的鲁棒性仍然具有挑战性。本笔记描述了我们在鲁棒检测中的mdok方法,该方法基于对较小的LLMs进行微调以进行文本分类。它被应用于Voight-Kampff Generative AI Detection 2025的两个子任务,在二元检测以及多类(第一名)分类各种人类与AI协作的案例中提供了显著的性能。 |
[205] 训练过程中的公平性动态 标题: Fairness Dynamics During Training 作者: Krishna Patel / Nivedha Sivakumar / Barry-John Theobald / Luca Zappella / Nicholas Apostoloff 原文: [英文] [中文] 备注: None 摘要: 我们研究了大型语言模型(LLM)训练过程中的公平性动态,以便通过训练干预(如提前停止)诊断偏差和缓解措施;我们发现偏差可能会突然出现,并不总是遵循常见的性能指标。我们引入了两个新的指标来全面评估模型预训练期间的公平性动态:平均排名和部分的Jensen-Shannon散度。这些指标提供了对Pythia模型在WinoBias数据集上职业性别预测偏差进展的见解。通过监测这些动态,我们发现:(1)Pythia-6.9b对男性存在偏见;在训练过程中,它在预测“男性”时比“女性”更有表现力和信心,(2)通过提前停止,Pythia-6.9b可以在LAMBADA上以1.7%的准确率换取92.5%的公平性提升,以及(3)更大的模型可能表现出更多的偏见;即使在未指定主体性别的情况下,Pythia-6.9b对性别的假设比Pythia-160m更多。 |
[206] 推理表:探索用于表格推理的强化学习 标题: Reasoning-Table: Exploring Reinforcement Learning for Table Reasoning 作者: Fangyu Lei / Jinxiang Meng / Yiming Huang / Tinghong Chen / Yun Zhang / Shizhu He / Jun Zhao / Kang Liu 原文: [英文] [中文] 备注: Work in progress 摘要: 表格推理包括表格问答、事实验证和文本到SQL等任务,需要对结构化表格数据进行精确理解,并结合数值计算和代码操作以实现有效推理。监督微调(SFT)方法取得了显著成功,但由于模仿学习中固有的偏差,常常在泛化和鲁棒性方面表现不佳。我们引入了Reasoning-Table,这是首次将强化学习(RL)应用于表格推理,达到了最先进的性能。通过严格的数据预处理、奖励设计和量身定制的训练策略,我们的方法利用简单的基于规则的结果奖励,在多个基准测试中超越了SFT。跨多样任务的统一训练使Reasoning-Table成为一个强大的表格推理大型语言模型,在表格推理基准测试中超越了更大的专有模型如Claude-3.7-Sonnet 4.0%。该方法在文本到SQL任务中也取得了优异的表现,在BIRD开发数据集上使用7B模型达到了68.3%的性能。进一步的实验表明,Reasoning-Table增强了模型的泛化能力和鲁棒性。 |
[207] SRPO:通过反思感知强化学习增强多模态大型语言模型推理 标题: SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning 作者: Zhongwei Wan / Zhihao Dou / Che Liu / Yu Zhang / Dongfei Cui / Qinjian Zhao / Hui Shen / Jing Xiong / Yi Xin / Yifan Jiang / Yangfan He / Mi Zhang / Shen Yan 原文: [英文] [中文] 备注: Under review 摘要: 多模态大语言模型(MLLMs)在推理任务中表现出令人鼓舞的能力,但在处理需要明确自我反思和自我纠正的复杂问题时仍然存在困难,尤其是与其单模态文本为基础的对手相比。现有的反思方法过于简单,难以生成有意义和具有指导性的反馈,因为预训练模型的推理能力和知识限制在初始训练期间基本上是固定的。为了解决这些挑战,我们提出了多模态自我反思增强推理与群体相对策略优化(SRPO),这是一种专门设计用于增强多模态LLM推理的两阶段反思感知强化学习(RL)框架。在第一阶段,我们在高级MLLM的指导下构建了一个高质量、以反思为重点的数据集,该模型基于初始响应生成反思,以帮助策略模型学习推理和自我反思。在第二阶段,我们在GRPO框架中引入了一种新颖的奖励机制,鼓励简洁且认知上有意义的反思,同时避免冗余。在包括MathVista、MathVision、MathVerse和MMMU-Pro在内的多个多模态推理基准上,使用Qwen-2.5-VL-7B和Qwen-2.5-VL-32B进行的大量实验表明,SRPO显著优于最先进的模型,在推理准确性和反思质量方面均取得了显著的改进。 |
[208] 大型语言模型中习语的比喻意义与字面意义之间的拉锯战 标题: Tug-of-war between idiom's figurative and literal meanings in LLMs 作者: Soyoung Oh / Xinting Huang / Mathis Pink / Michael Hahn / Vera Demberg 原文: [英文] [中文] 备注: None 摘要: 习语由于其非组合性的比喻意义,常常与其字面解释大相径庭,因此对语言模型提出了独特的挑战。这种双重性要求模型学习如何在比喻意义和字面意义之间进行表示和决策,以便在比喻或字面意义上解释习语。在本文中,我们使用机械可解释性工具来追踪一个大型预训练因果变压器(LLama3.2-1B-base)如何处理这种歧义。我们定位了习语处理的三个步骤:首先,在早期的注意力和MLP子层中检索习语的比喻意义。我们识别出特定的注意力头,它们在增强习语的比喻意义的同时抑制其字面解释。随后,模型通过一个中间路径表示比喻意义。同时,一个并行的旁路路径传递字面解释,确保两种解读都保持可用。总体而言,我们的研究结果为自回归变压器中的习语理解提供了机械证据。 |
[209] 通用语料库:用于大型语言模型预训练的最大伦理数据集 标题: Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training 作者: Pierre-Carl Langlais / Carlos Rosas Hinostroza / Mattia Nee / Catherine Arnett / Pavel Chizhov / Eliot Krzystof Jones / Irène Girard / David Mach / Anastasia Stasenko / Ivan P. Yamshchikov 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在预训练时使用来自不同来源和领域的大量数据。这些数据通常包含数万亿个标记,其中很大一部分是受版权保护或专有的内容,这在人工智能立法下限制了此类模型的使用。这就需要真正开放的预训练数据,以符合数据安全法规。在本文中,我们介绍了Common Corpus,这是用于语言模型预训练的最大开放数据集。Common Corpus中汇集的数据要么不受版权保护,要么在许可范围内,总计约两万亿个标记。该数据集包含多种语言,从主要的欧洲语言到在预训练数据集中很少出现的低资源语言;此外,还包括大量的代码数据。数据源在所涵盖的领域和时间段方面的多样性为不同知识领域的研究和创业需求开辟了道路。在这份技术报告中,我们详细介绍了数据汇集的来源以及数据集的过滤和整理细节。已经被Anthropic等行业领导者和多个LLM训练项目使用,我们相信Common Corpus将成为LLM开放科学研究的重要基础设施。 |
[210] 本福德的诅咒:追踪大型语言模型中的数字偏见到数值幻觉 标题: Benford's Curse: Tracing Digit Bias to Numerical Hallucination in LLMs 作者: Jiandong Shao / Yao Lu / Jianfei Yang 原文: [英文] [中文] 备注: Under Review 摘要: 大型语言模型(LLMs)在复杂推理任务中表现出色,但在基本的数值问题上却常常出错,产生不正确的输出。受到本福特定律的启发——这是一种统计模式,其中较小的数字更频繁地作为首位数字出现——我们假设在网络收集的语料库中,长尾的数字分布可能在预训练期间被LLMs学习,从而导致数值生成的偏差。为了验证这一假设,我们首先检查预训练语料库(OLMo2)中的数字频率是否遵循本福特定律。然后,我们构建了一个评估基准,其中在七个数值推理任务中均匀分布了真实的数字。我们的评估结果表明,领先的开源LLMs显示出一种与本福特定律相似的数字偏差模式。通过对数透镜追踪和神经元级别的剖析,我们发现这种偏差主要来自于深层中一小部分高度数字选择性的前馈网络(FFN)神经元。最后,我们证明了修剪这些神经元可以减轻不平衡的过度生成,并部分纠正错误的输出,提供了细粒度预训练数字偏差可以传播到模型行为的因果证据。我们的研究结果揭示了语料库级别的统计数据与LLMs中的符号失败模式之间的基本联系,为诊断和缓解数值任务中的幻觉提供了新的视角。 |
[211] 角色中的思考:通过角色感知推理推进角色扮演代理 标题: Thinking in Character: Advancing Role-Playing Agents with Role-Aware Reasoning 作者: Yihong Tang / Kehai Chen / Muyun Yang / Zhengyu Niu / Jing Li / Tiejun Zhao / Min Zhang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的进步激发了人们对角色扮演代理(RPAs)的极大兴趣,这些代理可用于情感陪伴和虚拟互动等应用。然而,近期的RPAs通常基于显式对话数据,缺乏深层次的、类似人类的内部思维过程,导致知识和风格表达的肤浅。尽管可以使用大型推理模型(LRMs)来模拟角色思维,但其直接应用受到注意力转移(即RPAs忘记其角色)和风格漂移(即过于正式和僵化的推理而非角色一致的推理)的阻碍。为了解决这些挑战,本文引入了一种新颖的角色感知推理(RAR)方法,该方法包括两个重要阶段:角色身份激活(RIA)和推理风格优化(RSO)。RIA在推理过程中通过角色档案显式引导模型,以对抗注意力转移,然后RSO通过LRM蒸馏将推理风格与角色和场景对齐,以减轻风格漂移。大量实验表明,所提出的RAR通过有效解决注意力转移和风格漂移,显著提升了RPAs的性能。 |
[212] 开发一种面向社区的夸夸拉语遗产文本数字化的混合方法流程 标题: Developing a Mixed-Methods Pipeline for Community-Oriented Digitization of Kwak'wala Legacy Texts 作者: Milind Agarwal / Daisy Rosenblum / Antonios Anastasopoulos 原文: [英文] [中文] 备注: Accepted to Comput-EL 2025 Workshop. Preprint 摘要: Kwak'wala是一种在不列颠哥伦比亚省使用的土著语言,拥有超过一个世纪的丰富出版文献遗产,并且有一个活跃的社区,包括语言使用者、教师和学习者,致力于语言复兴。由Franz Boas和George Hunt合作创建的最早文本的11卷已经被扫描,但仍无法被机器读取。通过光学字符识别进行完整数字化有可能促进现代正字法的音译以及其他语言技术的创建。在本文中,我们将最新的OCR技术应用于一系列仅以图像形式存在的Kwak'wala文本,并讨论使这些技术适用于这些真实世界文本所需的挑战和独特调整。在之前方法的基础上,我们建议使用现成的OCR方法、语言识别和遮罩技术的混合来有效地隔离Kwak'wala文本,并结合后期校正模型,以生成最终的高质量转录。 |
[213] MaXIFE:多语言和跨语言指令跟随评估 标题: MaXIFE: Multilingual and Cross-lingual Instruction Following Evaluation 作者: Yile Liu / Ziwei Ma / Xiu Jiang / Jinglu Hu / Jing Chang / Liang Li 原文: [英文] [中文] 备注: ACL 2025 Main Conference 摘要: 随着大型语言模型(LLMs)在自然语言处理中的快速应用,遵循指令的能力已成为评估其实际效用的关键指标。然而,现有的评估方法通常侧重于单一语言场景,忽视了多语言和跨语言环境中的挑战和差异。为了解决这一差距,我们引入了MaXIFE:一个全面的评估基准,旨在评估23种语言中遵循指令的能力,包含1667个可验证的指令任务。MaXIFE结合了基于规则的评估和基于模型的评估,确保了效率和准确性的平衡。我们应用MaXIFE评估了几种领先的商业和开源LLMs,建立了未来比较的基准结果。通过提供一个标准化的多语言指令遵循评估工具,MaXIFE旨在推动自然语言处理领域的研究和发展。 |
[214] iQUEST:一种用于知识库问答的迭代问题引导框架 标题: iQUEST: An Iterative Question-Guided Framework for Knowledge Base Question Answering 作者: Shuai Wang / Yinan Yu 原文: [英文] [中文] 备注: Accepted to ACL 2025 (Main) 摘要: 尽管大型语言模型(LLMs)在许多自然语言处理任务中表现出色,但在知识密集型场景中,它们常常存在事实不准确的问题。整合外部知识资源,特别是知识图谱(KGs),为更可靠的推理提供了一个透明且可更新的基础。知识库问答(KBQA),即对知识图谱进行查询和推理,是这一努力的核心,尤其是对于复杂的多跳查询。然而,多跳推理面临两个关键挑战:(1)保持连贯的推理路径,以及(2)避免过早丢弃关键的多跳连接。为了解决这些问题,我们引入了iQUEST,这是一种问题引导的KBQA框架,通过迭代地将复杂查询分解为更简单的子问题,确保结构化和集中的推理轨迹。此外,我们整合了图神经网络(GNN),在每个推理步骤中提前查看并结合2跳邻居信息。这种双重方法增强了推理过程,使模型能够更有效地探索可行路径。详细实验表明,iQUEST在四个基准数据集和四个大型语言模型上实现了持续的改进。 |
[215] 基础模型的人本评估 标题: Human-Centric Evaluation for Foundation Models 作者: Yijin Guo / Kaiyuan Ji / Xiaorong Zhu / Junying Wang / Farong Wen / Chunyi Li / Zicheng Zhang / Guangtao Zhai 原文: [英文] [中文] 备注: None 摘要: 目前,几乎所有对基础模型的评估都集中在客观指标上,强调通过测验表现来定义模型能力。虽然这种以模型为中心的方法能够快速评估性能,但它未能反映真实的人类体验。为了解决这一差距,我们提出了一个以人为中心的主观评估(HCE)框架,重点关注三个核心维度:解决问题的能力、信息质量和交互体验。通过涉及Deepseek R1、OpenAI o3 mini、Grok 3和Gemini 2.5的实验,我们进行了超过540次参与者驱动的评估,在这些评估中,人类和模型在开放式研究任务中进行合作,生成了一个全面的主观数据集。该数据集捕捉了跨多个学科的多样化用户反馈,揭示了不同模型的优势和适应性。我们的研究结果显示,Grok 3表现最佳,其次是Deepseek R1和Gemini 2.5,而OpenAI o3 mini则落后。通过提供一个新颖的框架和丰富的数据集,本研究不仅提升了主观评估方法,还为标准化、自动化评估奠定了基础,推动了研究和实际场景中大语言模型的发展。我们的数据集链接是这个https URL。 |
[216] 分两步阅读:使用代码增强语法书翻译极低资源语言 标题: Read it in Two Steps: Translating Extremely Low-Resource Languages with Code-Augmented Grammar Books 作者: Chen Zhang / Jiuheng Lin / Xiao Liu / Zekai Zhang / Yansong Feng 原文: [英文] [中文] 备注: ACL 2025 摘要: 尽管大型语言模型(LLMs)在使用字典等资源翻译极低资源语言方面表现出色,但语法书的有效性仍存在争议。本文通过将翻译极低资源语言的过程分解为两个关键步骤:语法规则检索和应用,来研究语法书的作用。为了促进研究,我们引入了ZhuangRules,这是一个模块化的语法规则及其对应测试句子的数据库。我们的分析表明,规则检索是基于语法的翻译中的主要瓶颈。此外,尽管LLMs在明确提供简单规则时可以应用于翻译,但在处理更复杂的规则时会遇到困难。为了解决这些挑战,我们建议将语法规则表示为代码函数,考虑到它们在结构上的相似性以及代码在促进LLM推理方面的优势。我们的实验表明,使用代码规则显著提升了规则检索和应用,最终使翻译的BLEU分数提高了13.1%。 |
[217] 俄乌战争中的宣传与信息传播:对俄罗斯和西方推特叙事的自然语言处理 标题: Propaganda and Information Dissemination in the Russo-Ukrainian War: Natural Language Processing of Russian and Western Twitter Narratives 作者: Zaur Gouliev 原文: [英文] [中文] 备注: 7 pages; 6 figures 摘要: 乌克兰的冲突不仅表现为军事交战,还伴随着显著的信息战,其中社交媒体平台如X(前称Twitter)在塑造公众认知方面发挥了重要作用。本文分析了从战争开始(2022年2月)到2022年5月中旬收集的宣传账户和可信账户的推文,总计40,000条。我们利用自然语言处理和机器学习算法来评估情感,并通过全程人机协作分析(HITL)识别数据集中关键的主题、话题和叙事。我们的研究结果表明,双方在信息的创建、传播和针对不同受众的策略上存在明显差异。宣传账户经常使用情感化的语言和虚假信息来引发恐惧和不信任,而其他账户,主要是西方的,倾向于关注事实报道和冲突的人道主义方面。聚类分析揭示了行为相似的账户群体,我们怀疑这表明存在协调的努力。此研究试图增进我们对信息战动态的理解,并为未来关于军事冲突中社交媒体影响的研究提供技术支持。 |
[218] NAVER LABS Europe 对指令跟随赛道的提交 标题: NAVER LABS Europe Submission to the Instruction-following Track 作者: Beomseok Lee / Marcely Zanon Boito / Laurent Besacier / Ioan Calapodescu 原文: [英文] [中文] 备注: None 摘要: 本文介绍了NAVER LABS Europe在IWSLT 2025的指令跟随语音处理短赛道中的提交。我们参与了受限设置,开发了能够同时执行从英语语音输入到以下目标语言的ASR(自动语音识别)、ST(语音翻译)和SQA(语音问答)任务的系统:中文、意大利语和德语。我们的解决方案利用了两个预训练模块:(1)一个语音到LLM(大型语言模型)嵌入投影器,该投影器使用SeamlessM4T-v2-large语音编码器的表示进行训练;(2)在Llama-3.1-8B-Instruct之上使用文本数据训练的LoRA适配器。这些模块被联合加载,并在多语言和多模态数据上进行了1K步的指令微调,形成了我们提交用于评估的最终系统。 |
[219] 对比分析DeepSeek-R1与ChatGPT o3-mini-high中的大型语言模型偏见(中国宣传与反美情绪) 标题: Analysis of LLM Bias (Chinese Propaganda & Anti-US Sentiment) in DeepSeek-R1 vs. ChatGPT o3-mini-high 作者: PeiHsuan Huang / ZihWei Lin / Simon Imbot / WenCheng Fu / Ethan Tu 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)日益影响公众理解和公民决策,但其意识形态中立性日益成为关注的问题。尽管现有研究探讨了LLM偏见的各种形式,但缺乏对具有不同地缘政治倾向的模型进行直接的跨语言比较——特别是中国大陆系统模型与非中国大陆模型的比较。本研究通过系统评估DeepSeek-R1(中国大陆倾向)与ChatGPT o3-mini-high(非中国大陆)在中国国家宣传和反美情绪方面的表现来填补这一空白。我们开发了一个新颖的语料库,其中包含1200个去情境化、以推理为导向的问题,这些问题来源于中文新闻,并以简体中文、繁体中文和英文呈现。两个模型的回答(总计7200个)通过结合评分标准指导的GPT-4o评分和人工注释的混合评估流程进行评估。我们的研究结果揭示了显著的模型级别和语言依赖的偏见。与ChatGPT o3-mini-high相比,DeepSeek-R1在宣传和反美偏见方面的比例显著更高,而ChatGPT o3-mini-high基本上没有反美情绪,且宣传水平较低。对于DeepSeek-R1,简体中文查询引发的偏见率最高;这些偏见在繁体中文中有所减少,在英文中几乎不存在。值得注意的是,DeepSeek-R1有时会用简体中文回答繁体中文查询,并在其中文回答中放大现有的中国大陆倾向术语,表现出一种“隐形扩音器”效应。此外,这些偏见不仅限于明显的政治话题,还渗透到文化和生活方式内容中,特别是在DeepSeek-R1中。 |
[220] BD 在 BEA 2025 共享任务:用于识别和定位 AI 导师回复中的教学错误的 MPNet 集成方法 标题: BD at BEA 2025 Shared Task: MPNet Ensembles for Pedagogical Mistake Identification and Localization in AI Tutor Responses 作者: Shadman Rohan / Ishita Sur Apan / Muhtasim Ibteda Shochcho / Md Fahim / Mohammad Ashfaq Ur Rahman / AKM Mahbubur Rahman / Amin Ahsan Ali 原文: [英文] 备注: None 摘要: 我们介绍了 Team BD 在 BEA 2025 共享任务中关于 AI 驱动导师的教学能力评估的提交,涵盖了 Track 1(错误识别)和 Track 2(错误定位)。这两个赛道都涉及教育对话中导师回应的三分类任务——判断导师是否正确识别学生的错误(Track 1)以及导师是否准确定位错误的位置(Track 2)。我们的系统基于 MPNet,这是一种结合了 BERT 和 XLNet 预训练优势的 Transformer 语言模型。我们在任务数据上微调了 MPNet,使用类加权交叉熵损失来处理类别不平衡,并利用分组交叉验证(10 折)来最大化有限数据的使用,同时避免训练和验证之间的对话重叠。然后,我们对每折的最佳模型进行了硬投票集成,通过结合多个分类器来提高系统的鲁棒性和泛化能力。我们的方法在两个赛道上都取得了优异的成绩,在官方测试集上的精确匹配宏 F1 分数分别约为 0.7110(错误识别)和 0.5543(错误定位)。我们提供了对系统性能的全面分析,包括混淆矩阵和 t-SNE 可视化以解释分类器行为,以及常见错误的分类和示例。我们希望我们的基于集成的方法和发现能为设计可靠的教育对话环境中的导师回应评估系统提供有用的见解。 |
[221] 并非所有笑话都奏效:评估大型语言模型对职场幽默的理解 标题: Not All Jokes Land: Evaluating Large Language Models Understanding of Workplace Humor 作者: Moahmmadamin Shafiei / Hamidreza Saffari 原文: [英文] [中文] 备注: None 摘要: 随着人工智能(AI)和大型语言模型(LLMs)的最新进展,日常任务的自动化,如自动写作,正受到越来越多的关注。因此,研究重点已转向使LLMs与人类价值观保持一致,但幽默,特别是工作场所使用的专业工业幽默,在很大程度上被忽视了。为了解决这个问题,我们开发了一个包含专业幽默陈述的数据集,并附有确定每个陈述适当性的特征。我们对五个LLMs的评估表明,LLMs在准确判断幽默的适当性方面常常表现不佳。 |
[222] 引用评估:基于原则的来源归属引用评价 标题: CiteEval: Principle-Driven Citation Evaluation for Source Attribution 作者: Yumo Xu / Peng Qi / Jifan Chen / Kunlun Liu / Rujun Han / Lan Liu / Bonan Min / Vittorio Castelli / Arshit Gupta / Zhiguo Wang 原文: [英文] 备注: ACL 2025 摘要: 引文质量在信息检索系统中至关重要,直接影响信任度和信息获取的有效性。目前的评估框架,无论是人工的还是自动的,主要依赖于自然语言推理(NLI)来评估引文来源的二元或三元支持性,我们认为这是一种对引文评估的次优代理。在这项工作中,我们引入了CiteEval,一个以细粒度引文评估为核心原则的引文评估框架,涵盖了不仅仅是被引文献,还包括完整的检索上下文、用户查询和生成文本。在所提出的框架指导下,我们构建了CiteBench,一个具有高质量人工注释的多领域引文质量基准。为了实现高效评估,我们进一步开发了CiteEval-Auto,这是一套基于模型的指标,与人工判断表现出很强的相关性。跨多种系统的实验表明,与现有指标相比,CiteEval-Auto在捕捉引文的多方面特性上具有更优越的能力,提供了一种有原则且可扩展的方法来评估和改进模型生成的引文。 |
[223] 基于最小对的代码转换评估 标题: Minimal Pair-Based Evaluation of Code-Switching 作者: Igor Sterner / Simone Teufel 原文: [英文] 备注: ACL 2025 摘要: 目前缺乏一种评估方法来估计大型语言模型(LLMs)在使用语码转换(CS)方面是否与双语者相同。现有的方法在语言覆盖范围上不够广泛,未能考虑到多样化的语码转换现象,或者无法扩展。我们提出了一种基于语码转换最小对的干预方法。每个最小对包含一个自然发生的语码转换句子和一个经过最小化操控的变体。我们为11种语言对分别收集了最多1,000个这样的对。我们的人工实验表明,对于每种语言对,双语者始终更喜欢自然发生的语码转换句子。同时,我们对当前大型语言模型的实验表明,模型越大,它越一致地为自然发生的语码转换句子分配更高的概率,而不是变体。根据理论主张,最大概率差异出现在那些操控材料由封闭类词组成的对中。 |
[224] 代码转换与句法:大规模实验 标题: Code-Switching and Syntax: A Large-Scale Experiment 作者: Igor Sterner / Simone Teufel 原文: [英文] 备注: Findings of ACL 2025 摘要: 理论上的语码转换(CS)文献提供了许多逐点调查,旨在解释语码转换中的模式,即为什么双语者在句子的某些位置比其他位置更频繁地转换语言。一个普遍的共识是,语码转换可以通过参与语言的句法来解释。然而,目前尚无大规模、多语言、跨现象的实验来验证这一观点。在设计这样的实验时,我们需要确保预测双语者倾向于转换位置的系统仅能访问句法信息。我们在此提供了这样的实验。结果表明,仅凭句法信息,自动系统就能够在语码转换的最小对比句中区分句子,其程度与双语人类相同。此外,学习到的句法模式能够很好地推广到未见过的语言对。 |
[225] CONFETTI:通过回合级交互进行会话功能调用评估 标题: CONFETTI: Conversational Function-Calling Evaluation Through Turn-Level Interactions 作者: Tamer Alkhouli / Katerina Margatina / James Gung / Raphael Shu / Claudia Zaghi / Monica Sunkara / Yi Zhang 原文: [英文] [中文] 备注: ACL 2025 (main conference) 摘要: 我们介绍了通过回合级交互进行对话功能调用评估的基准(CONFETTI),这是一种对话基准,旨在评估大型语言模型(LLMs)的功能调用能力和响应质量。目前的基准缺乏对LLMs在复杂对话场景中的全面评估。CONFETTI通过109个人工模拟对话解决了这一空白,这些对话包括313个用户回合,涵盖了86个API。这些对话明确针对各种对话复杂性,如后续问题、目标修正和切换、模糊和隐含目标。我们使用此基准进行针对功能调用的非策略回合级评估。我们的基准还结合了对话行为注释以评估代理响应。我们评估了一系列最先进的LLMs,并分析了它们在可用API数量、对话长度和链式功能调用方面的表现。我们的结果显示,尽管一些模型能够处理长对话,并成功利用超过20个API,其他模型在处理较长上下文或增加API数量时表现不佳。我们还报告说,模型在链式功能调用上的表现普遍受到严重限制。总体而言,在CONFETTI上的表现最佳的模型是Nova Pro(40.01%)、Claude Sonnet v3.5(35.46%)和Llama 3.1 405B(33.19%),其次是command-r-plus(31.18%)和Mistral-Large-2407(30.07%)。 |
[226] 扩展模态是通向全模态的正确路径吗? 标题: Is Extending Modality The Right Path Towards Omni-Modality? 作者: Tinghui Zhu / Kai Zhang / Muhao Chen / Yu Su 原文: [英文] [中文] 备注: None 摘要: 全模态语言模型(OLMs)旨在整合和推理多种输入模态——如文本、图像、视频和音频——同时保持强大的语言能力。尽管最近取得了一些进展,现有的模型,尤其是开源模型,距离真正的全模态仍有很大差距,它们难以超越训练时特定模态对的泛化能力,或在处理多模态输入时实现强大的性能。我们研究了扩展模态这一训练多模态模型的主流技术的效果,其中一个现成的语言模型在目标领域和语言数据上进行微调。具体来说,我们探讨了三个关键问题:(1)模态扩展是否会损害核心语言能力?(2)模型合并能否有效整合独立微调的模态特定模型以实现全模态?(3)与顺序扩展相比,全模态扩展是否能带来更好的知识共享和泛化能力?通过广泛的实验,我们分析了这些权衡,并提供了关于使用当前方法实现真正全模态的可行性的见解。 |
[227] 空间坐标作为细胞语言:用于成像质谱流式细胞术分析的多句框架 标题: Spatial Coordinates as a Cell Language: A Multi-Sentence Framework for Imaging Mass Cytometry Analysis 作者: Chi-Jane Chen / Yuhang Chen / Sukwon Yun / Natalie Stanley / Tianlong Chen 原文: [英文] [中文] 备注: None 摘要: 图像质谱细胞术(IMC)通过结合质谱细胞术的分析能力与细胞表型的空间分布,实现了高维空间分析。最近的研究利用大型语言模型(LLMs)通过将基因或蛋白质表达转化为生物学背景来提取细胞状态。然而,现有的单细胞LLMs面临两个主要挑战:(1)空间信息的整合:它们难以推广空间坐标并有效地将空间背景编码为文本;(2)独立对待每个细胞:它们忽视了细胞间的相互作用,限制了捕捉生物学关系的能力。为了解决这些限制,我们提出了Spatial2Sentence,这是一种将单细胞表达和空间信息整合为自然语言的新框架,采用多句子的方法。Spatial2Sentence构建了表达相似性和距离矩阵,将空间上相邻且表达相似的细胞配对为正样本,而将距离远且不相似的细胞作为负样本。这些多句子表示使LLMs能够在表达和空间背景中学习细胞相互作用。通过多任务学习,Spatial2Sentence在预处理的IMC数据集上优于现有的单细胞LLMs,在糖尿病数据集上的细胞类型分类提高了5.98%,临床状态预测提高了4.18%,同时增强了解释性。源代码可以在此处找到:this https URL。 |
[228] 从指南到实践:阿拉伯语语言模型评估的新范式 标题: From Guidelines to Practice: A New Paradigm for Arabic Language Model Evaluation 作者: Serry Sibaee / Omer Nacar / Adel Ammar / Yasser Al-Habashi / Abdulrahman Al-Batati / Wadii Boulila 原文: [英文] [中文] 备注: None 摘要: 本文通过建立全面的理论指导原则和引入一种新颖的评估框架,解决了阿拉伯语语言模型评估中的关键空白。我们首先分析了现有的阿拉伯语评估数据集,发现了在语言准确性、文化契合度和方法学严谨性方面的重大问题。为了解决大型语言模型(LLMs)中的这些局限性,我们提出了阿拉伯语深度迷你数据集(ADMD),这是一个精心策划的集合,包含了跨越十个主要领域(42个子领域,见图1)的490个具有挑战性的问题。利用ADMD,我们评估了五个领先的语言模型:GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B和Qwen-Max。我们的结果揭示了模型在不同领域的性能存在显著差异,特别是在需要深厚文化理解和专业知识的领域面临挑战。Claude 3.5 Sonnet在整体准确性上表现最佳,达到30\%,在阿拉伯语的数学理论、阿拉伯语言和伊斯兰领域表现出相对优势。这项工作为改进阿拉伯语语言模型评估提供了理论基础和实践见解,强调了文化能力与技术能力并重的重要性。 |
[229] 神秘语言模型 标题: Esoteric Language Models 作者: Subham Sekhar Sahoo / Zhihan Yang / Yash Akhauri / Johnna Liu / Deepansha Singh / Zhoujun Cheng / Zhengzhong Liu / Eric Xing / John Thickstun / Arash Vahdat 原文: [英文] [中文] 备注: None 摘要: 基于扩散的语言模型通过实现并行和可控生成,提供了一种引人注目的自回归(AR)模型替代方案。在这一系列模型中,掩码扩散模型(MDMs)表现最为出色,但在困惑度上仍不及AR模型,并且缺乏关键的推理时效率特性——尤其是KV缓存。在这项工作中,我们引入了Eso-LMs,这是一类融合了AR和MDM范式的新模型,能够在克服各自局限的同时,实现其困惑度的平滑插值。Eso-LMs在标准语言建模基准上设立了新的技术标准。重要的是,我们是**首个为MDMs引入KV缓存**的团队,同时保留了并行生成,大大提高了推理效率。结合优化的采样计划,我们的方法实现了比标准MDMs快**65倍**、比先前的半自回归方法快**4倍**的推理速度。我们在项目页面提供了代码和模型检查点:[this http URL](this http URL) |
[230] RewardBench 2:推进奖励模型评估 标题: RewardBench 2: Advancing Reward Model Evaluation 作者: Saumya Malik / Valentina Pyatkin / Sander Land / Jacob Morrison / Noah A. Smith / Hannaneh Hajishirzi / Nathan Lambert 原文: [英文] 备注: Data, models, and leaderboard available at this https URL 摘要: 奖励模型在语言模型的后训练过程中被广泛使用,以捕捉来自偏好数据的细微信号,并为跨指令遵循、推理、安全性等领域的优化提供训练目标。研究社区已经开始建立评估奖励模型的最佳实践,从开发测试特定技能领域能力的基准到测试与人类偏好一致性的基准。然而,评估的进展并没有反映在奖励模型在下游任务中的有效性上——许多情况下,较简单的直接对齐算法被报告为效果更好。本文介绍了RewardBench 2,这是一种新的多技能奖励建模基准,旨在为基于准确性的奖励模型评估带来新的挑战性数据——与第一个RewardBench相比,模型在RewardBench 2上的平均得分低约20分——同时与下游性能高度相关。与大多数其他基准相比,RewardBench 2从新的人工提示中获取数据,而不是从现有的下游评估提示中获取数据,从而促进更严格的评估实践。在本文中,我们描述了我们的基准构建过程,并报告了现有模型在其上的表现,同时量化了基准上的表现与模型在推理时扩展算法(如最佳N采样)和RLHF训练算法(如近端策略优化)中的下游使用之间的相关性。 |
[231] 废水和雨水领域命名实体识别的新基准 标题: Novel Benchmark for NER in the Wastewater and Stormwater Domain 作者: Franco Alberto Cardillo / Franca Debole / Francesca Frontini / Mitra Aelami / Nanée Chahinian / Serge Conrad 原文: [英文] [中文] 备注: None 摘要: 有效的废水和雨水管理对于城市可持续发展和环境保护至关重要。由于领域特定术语和多语言环境,从报告和法规中提取结构化知识具有挑战性。本文的工作重点是领域特定的命名实体识别(NER),作为支持决策的有效关系和信息提取的第一步。多语言基准对于评估这些方法至关重要。本研究开发了一个用于废水管理的法语-意大利语领域特定文本语料库。它评估了最先进的NER方法,包括基于LLM的方法,以提供未来策略的可靠基线,并探讨了自动化注释投射,以扩展语料库到新语言。 |
[232] 超越80/20法则:高熵少数标记推动大型语言模型推理的有效强化学习 标题: Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning 作者: Shenzhi Wang / Le Yu / Chang Gao / Chujie Zheng / Shixuan Liu / Rui Lu / Kai Dang / Xionghui Chen / Jianxin Yang / Zhenru Zhang / Yuqiong Liu / An Yang / Andrew Zhao / Yang Yue / Shiji Song / Bowen Yu / Gao Huang / Junyang Lin 原文: [英文] [中文] 备注: 25 pages, 17 figures, 2 tables 摘要: 可验证奖励的强化学习(RLVR)已成为增强大型语言模型(LLMs)推理能力的强大方法,但其机制尚未被充分理解。在这项工作中,我们通过新颖的令牌熵模式视角对RLVR进行了开创性的探索,全面分析了不同令牌如何影响推理性能。通过检查链式思维(CoT)推理中的令牌熵模式,我们观察到只有一小部分令牌表现出高熵,这些令牌充当关键分叉,引导模型走向多样化的推理路径。此外,研究熵模式在RLVR训练期间的演变表明,RLVR在很大程度上遵循基础模型的熵模式,主要调整高熵令牌的熵。这些发现突出了高熵令牌(即分叉令牌)对RLVR的重要性。我们最终通过将策略梯度更新限制在分叉令牌上来改进RLVR,并发现了一个超越80/20法则的结果:仅使用20%的令牌,同时保持与Qwen3-8B基础模型上的全梯度更新相当的性能,并显著超越Qwen3-32B(在AIME'25上+11.04,在AIME'24上+7.71)和Qwen3-14B(在AIME'25上+4.79,在AIME'24上+5.21)基础模型上的全梯度更新,突显出强大的扩展趋势。相比之下,仅在80%最低熵令牌上进行训练会导致性能显著下降。这些发现表明,RLVR的效能主要来自于优化决定推理方向的高熵令牌。总体而言,我们的结果强调了通过令牌熵视角理解RLVR的潜力,并通过利用高熵少数令牌来优化RLVR以进一步提高LLM推理能力。 |
[233] 自集成:缓解大型语言模型的置信度扭曲 标题: Self-ensemble: Mitigating Confidence Distortion for Large Language Models 作者: Zicheng Xu / Guanchu Wang / Guangyao Zheng / Yu-Neng Chuang / Alexander Szalay / Xia Hu / Vladimir Braverman 原文: [英文] [中文] 备注: None 摘要: 尽管大型语言模型(LLMs)在一般领域表现良好,但在多选题问答(MCQA)中表现出信心扭曲问题,特别是在答案选项数量增加时。具体来说,在选项较多的MCQA中,LLMs在正确预测上表现出信心不足,而在错误预测上则表现出过度自信,导致性能显著下降。为了解决这个问题,我们在这项工作中提出了自集成(Self-ensemble)方法。我们的方法将选项分成若干组,并在这些组之间集成LLM的预测以得出最终决策。自集成的优势在于其即插即用的特性,可以基于设计的注意力掩码和位置编码集成到现有的LLM架构中,而无需标记数据集进行参数调整。对三个LLM和数据集的实验结果表明,自集成全面解决了LLM的信心扭曲问题,优于标准推理和基线方法。 |
[234] WebChoreArena:在真实繁琐的网页任务中评估网页浏览代理 标题: WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks 作者: Atsuyuki Miyai / Zaiying Zhao / Kazuki Egashira / Atsuki Sato / Tatsumi Sunada / Shota Onohara / Hiromasa Yamanishi / Mashiro Toyooka / Kunato Nishina / Ryoma Maeda / Kiyoharu Aizawa / Toshihiko Yamasaki 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: 由大型语言模型(LLM)驱动的网页浏览代理以类似人类的方式操作网页浏览器,并为自动化各种日常任务提供了一条高度透明的路径。随着网页代理变得越来越强大,并在一般浏览任务中表现出熟练的能力,一个关键问题出现了:它们能否超越一般浏览,稳健地处理那些繁琐复杂的任务,或者是人类常常避免自己去做的琐事?在本文中,我们介绍了WebChoreArena,一个新的完全可复现的基准测试,包含532个精心策划的任务,旨在将WebArena的范围扩展到更劳动密集和繁琐的任务。WebChoreArena系统地整合了三个关键挑战:(i)需要在观察中准确检索大量信息的大规模记忆任务,(ii)需要精确数学推理的计算任务,以及(iii)需要跨多个网页的长期记忆的长期记忆任务。WebChoreArena建立在完全可复现且广泛采用的四个WebArena模拟环境之上,确保严格的可复现性,并能够与已建立的WebArena基准进行公平、直接的比较,提供关于代理进展的关键见解。我们的实验结果表明,随着LLM的发展,以GPT-4o、Claude 3.7 Sonnet和Gemini 2.5 Pro为代表,在WebChoreArena上的性能显著提高。这些发现表明,WebChoreArena非常适合于更清晰地衡量最先进LLM的进步。然而,结果也表明,即使是Gemini 2.5 Pro,与WebArena相比仍有很大的改进空间,突显了WebChoreArena所带来的更大挑战。 |
[235] DRAG:通过基于证据和图的蒸馏从大型语言模型向小型语言模型转移知识并减轻幻觉 标题: DRAG: Distilling RAG for SLMs from LLMs to Transfer Knowledge and Mitigate Hallucination via Evidence and Graph-based Distillation 作者: Jennifer Chen / Aidar Myrzakhan / Yaxin Luo / Hassaan Muhammad Khan / Sondos Mahmoud Bsharat / Zhiqiang Shen 原文: [英文] [中文] 备注: ACL 2025 Main. Code is available at this https URL 摘要: 检索增强生成(RAG)方法在需要事实一致性和强大知识检索的任务中已被证明非常有效。然而,大规模的RAG系统消耗大量计算资源,并且容易生成来自人类的幻觉内容。在这项工作中,我们介绍了$\texttt{DRAG}$,这是一种将大规模语言模型(LLMs)的RAG知识蒸馏到小型语言模型(SLMs)中的新框架。我们的方法利用基于证据和知识图谱的蒸馏,确保蒸馏后的模型在显著减少模型规模和计算成本的同时保留关键的事实知识。通过将较小模型的预测与结构化知识图谱和排序证据对齐,$\texttt{DRAG}$有效地减轻了幻觉现象并提高了事实准确性。我们进一步展示了一个案例,说明我们的框架如何减轻用户隐私风险,并引入了相应的基准。对多个基准的实验评估表明,我们的方法在使用相同模型的情况下,比之前的竞争性RAG方法如MiniRAG在SLMs上最多提高了27.7%,保持了高水平的效率和可靠性。通过$\texttt{DRAG}$,我们提供了一条实用且资源高效的路线图,以在小型LLMs中部署增强的检索和生成能力。 |