scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CL方向,2025年2月12日更新论文68
[1] 视觉-语言-动作模型综述
标题: Survey on Vision-Language-Action Models
作者: Adilzhan Adilkhanov / Amir Yelenov / Assylkhan Seitzhanov / Ayan Mazhitov / Azamat Abdikarimov / Danissa Sandykbayeva / Daryn Kenzhebek / Daulet Baimukashev / Dinmukhammed Mukashev / Ilyas Umurbekov / Jabrail Chumakov / Kamila Spanova / Karina Burunchina / Rasul Yermagambet / Rustam Chibar / Saltanat Seitzhan / Soibkhon Khajikhanov / Tasbolat Taunyazov / Temirlan Galimzhanov / Temirlan Kaiyrbay / Tleukhan Mussin / Togzhan Syrymova / Valeriya Kostyukova / Yermakhan Kassym / Madina Yergibay / Margulan Issa / Moldir Zabirova / Nurdaulet Zhuzbay / Nurlan Kabdyshev / Nurlan Zhaniyar / Yerkebulan Massalim / Zerde Nurbayeva / Zhanat Kappassov
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了一篇关于视觉-语言-动作(VLA)模型的AI生成综述,总结了关键的方法论、研究结果和未来方向。内容是使用大型语言模型(LLMs)生成的,仅用于演示目的。此工作不代表原创研究,但强调了AI如何帮助自动化文献综述。随着AI生成内容的日益普及,确保准确性、可靠性和适当的综合仍然是一个挑战。未来的研究将专注于开发一个结构化框架,用于AI辅助的文献综述,探索提高引用准确性、来源可信度和上下文理解的技术。通过研究LLM在学术写作中的潜力和局限性,本研究旨在为将AI整合到研究工作流程的更广泛讨论做出贡献。这项工作作为利用AI生成文献综述的系统方法的初步步骤,使学术知识的综合更加高效和可扩展。

[2] 自监督提示优化
标题: Self-Supervised Prompt Optimization
作者: Jinyu Xiang / Jiayi Zhang / Zhaoyang Yu / Fengwei Teng / Jinhao Tu / Xinbing Liang / Sirui Hong / Chenglin Wu / Yuyu Luo
原文:   [英文]   [中文]  
备注: None
摘要:
精心设计的提示对于增强大型语言模型(LLMs)的推理能力以及使其输出与不同领域的任务要求保持一致至关重要。然而,手动设计提示需要专业知识和反复试验。尽管现有的提示优化方法旨在自动化这一过程,但它们严重依赖于外部参考,如真实数据或人工,这限制了其在缺乏此类数据或获取成本高昂的现实场景中的适用性。为了解决这个问题,我们提出了一种成本高效的框架——自监督提示优化(SPO),该框架无需外部参考即可为封闭和开放式任务发现有效的提示。受到提示质量直接体现在LLM输出中以及LLM能够有效评估任务要求符合性的观察启发,我们纯粹通过输出比较来得出评估和优化信号。具体来说,SPO通过由LLM评估器进行的成对输出比较来选择更优的提示,随后由LLM优化器将输出与任务要求对齐。大量实验表明,SPO优于最先进的提示优化方法,以显著更低的成本(例如,现有方法的1.1%到5.6%)和更少的样本(例如,三个样本)实现了相当或更优的结果。代码可在此https URL获取。

[3] 大语言模型支持的自然语言到 Bash 翻译
标题: LLM-Supported Natural Language to Bash Translation
作者: Finnian Westenfelder / Erik Hemberg / Miguel Tulla / Stephen Moskal / Una-May O'Reilly / Silviu Chiricescu
原文:   [英文]   [中文]  
备注: 13 pages, NAACL 2025
摘要:
Bourne-Again Shell(Bash)是Linux系统的命令行接口,其语法复杂且需要广泛的专业知识。利用大型语言模型(LLMs)的自然语言到Bash命令(NL2SH)翻译能力来进行命令组合可以规避这些问题。然而,由于测试数据不准确以及用于确定Bash命令功能等价性的启发式方法不可靠,评估LLMs的NL2SH性能变得困难。我们提供了一个经过人工验证的包含600个指令-命令对的测试数据集和一个包含40,939个对的训练数据集,分别将之前数据集的规模增加了441%和135%。此外,我们提出了一种新颖的功能等价性启发式方法,该方法结合了命令执行和LLM对命令输出的评估。我们的启发式方法可以以95%的置信度确定两个Bash命令的功能等价性,比之前的启发式方法提高了16%。使用我们的测试数据集和启发式方法对流行的LLMs进行评估表明,解析、上下文学习、权重内学习和约束解码可以将NL2SH的准确性提高多达32%。我们的研究结果强调了数据集质量、基于执行的评估和翻译方法对于推进NL2SH翻译的重要性。我们的代码可在此https URL获取。

[4] 知识图谱引导的检索增强生成
标题: Knowledge Graph-Guided Retrieval Augmented Generation
作者: Xiangrong Zhu / Yuexiang Xie / Yi Liu / Yaliang Li / Wei Hu
原文:   [英文]   [中文]  
备注: Accepted in the 2025 Annual Conference of the Nations of the Americas Chapter of the ACL (NAACL 2025)
摘要:
检索增强生成(RAG)已成为解决大型语言模型(LLM)生成的响应中幻觉问题的一项有前途的技术。现有关于RAG的研究主要集中在应用基于语义的方法来检索孤立的相关片段,这忽略了它们的内在关系。在本文中,我们提出了一种新颖的知识图引导的检索增强生成(KG$^2$RAG)框架,该框架利用知识图(KG)提供片段之间的事实级关系,从而提高检索结果的多样性和连贯性。具体来说,在执行基于语义的检索以提供种子片段之后,KG$^2$RAG采用知识图引导的片段扩展过程和基于知识图的片段组织过程,以提供在结构良好的段落中相关且重要的知识。在HotpotQA数据集及其变体上进行的大量实验表明,与现有的基于RAG的方法相比,KG$^2$RAG在响应质量和检索质量方面具有优势。

[5] 禁忌科学:双重用途AI挑战基准和科学拒绝测试
标题: Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests
作者: David Noever / Forrest McKee
原文:   [英文]  
备注: None
摘要:
为大型语言模型开发稳健的安全基准需要开放且可重复的数据集,这些数据集能够同时衡量对有害内容的适当拒绝和对合法科学讨论的潜在过度限制。我们提供了一个开源数据集和测试框架,用于评估大型语言模型在主要受控物质查询方面的安全机制,分析四个主要模型对系统性变化提示的响应。我们的结果揭示了不同的安全特征:Claude-3.5-sonnet 展现了最保守的方法,拒绝率为73%,允许率为27%;而 Mistral 尝试回答了100%的查询。GPT-3.5-turbo 显示出适度的限制,拒绝率为10%,允许率为90%;Grok-2 的拒绝率为20%,允许率为80%。测试提示变化策略显示响应一致性下降,从单一提示的85%下降到五种变化的65%。这一公开可用的基准使得在必要的安全限制与潜在的对合法科学探讨的过度审查之间进行系统评估成为可能,同时为衡量人工智能安全实施的进展提供了基础。思维链分析揭示了安全机制中的潜在漏洞,强调了在不不当限制期望和有效的科学讨论的情况下实施稳健保护措施的复杂性。

[6] 相关知识扰动很重要:重新思考同一主题中多条知识的编辑
标题: Related Knowledge Perturbation Matters: Rethinking Multiple Pieces of Knowledge Editing in Same-Subject
作者: Zenghao Duan / Wenbin Duan / Zhiyi Yin / Yinghan Shen / Shaoling Jing / Jie Zhang / Huawei Shen / Xueqi Cheng
原文:   [英文]   [中文]  
备注: Accepted by NAACL 2025
摘要:
知识编辑已成为一种有效且精确更新嵌入在大型语言模型(LLMs)中的知识的有前途的方法。在这项工作中,我们专注于同一主体编辑,这涉及修改单个实体的多个属性,以确保对以实体为中心的知识进行全面和一致的更新。通过初步观察,我们发现一个显著的挑战:当前最先进的编辑方法在处理同一主体的多个相关知识片段的编辑任务时表现不佳。为了解决传统基准中缺乏相同主体相关编辑数据的问题,我们引入了$\text{S}^2\text{RKE}$(同一主体相关知识编辑)基准。我们的广泛实验表明,只有主流的定位后编辑方法,如ROME和MEMIT,表现出“相关知识扰动”,即后续编辑干扰了先前的编辑。进一步分析表明,这些方法过于依赖主体信息,忽视了其他关键因素,导致编辑效果降低。

[7] 面向可信的检索增强生成大型语言模型:一项综述
标题: Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey
作者: Bo Ni / Zheyuan Liu / Leyao Wang / Yongjia Lei / Yuying Zhao / Xueqi Cheng / Qingkai Zeng / Luna Dong / Yinglong Xia / Krishnaram Kenthapadi / Ryan Rossi / Franck Dernoncourt / Md Mehrab Tanjim / Nesreen Ahmed / Xiaorui Liu / Wenqi Fan / Erik Blasch / Yu Wang / Meng Jiang / Tyler Derr
原文:   [英文]   [中文]  
备注: None
摘要:
检索增强生成(RAG)是一种先进技术,旨在解决人工智能生成内容(AIGC)所面临的挑战。通过将上下文检索整合到内容生成中,RAG提供可靠且最新的外部知识,减少幻觉现象,并确保在广泛任务中提供相关的上下文。然而,尽管RAG取得了成功并展现了潜力,最近的研究表明RAG范式也引入了新的风险,包括稳健性问题、隐私问题、对抗性攻击和责任问题。解决这些风险对于RAG系统的未来应用至关重要,因为它们直接影响其可信度。尽管已经开发了多种方法来提高RAG方法的可信度,但在该主题的研究中缺乏统一的视角和框架。因此,在本文中,我们旨在通过提供一个全面的路线图来开发可信的RAG系统,以填补这一空白。我们围绕五个关键视角展开讨论:可靠性、隐私、安全性、公平性、可解释性和责任性。对于每个视角,我们提出一个通用框架和分类法,提供一种结构化的方法来理解当前的挑战,评估现有的解决方案,并识别有前景的未来研究方向。为了鼓励更广泛的采用和创新,我们还强调了可信RAG系统对下游应用的重大影响。

[8] 通过多跳心理治疗推理的多模态认知重构疗法
标题: Multimodal Cognitive Reframing Therapy via Multi-hop Psychotherapeutic Reasoning
作者: Subin Kim / Hoonrae Kim / Heejin Do / Gary Geunbae Lee
原文:   [英文]   [中文]  
备注: NAACL 2025 Main
摘要:
先前的研究揭示了大型语言模型(LLMs)在支持认知重构疗法方面的潜力;然而,这些研究主要集中在基于文本的方法上,往往忽视了在现实生活疗法中至关重要的非语言证据的重要性。为弥补这一差距,我们将文本认知重构扩展到多模态,结合视觉线索。具体来说,我们提出了一个名为多模态-认知支持对话(M2CoSC)的新数据集,该数据集将每个由GPT-4生成的对话与反映虚拟客户面部表情的图像配对。为了更好地反映真实心理治疗中面部表情引导隐含情感证据解释的情况,我们提出了一种多跳心理治疗推理方法,该方法明确识别并结合细微的证据。我们对LLMs和视觉语言模型(VLMs)进行的综合实验表明,使用M2CoSC数据集后,VLMs作为心理治疗师的表现显著提高。此外,多跳心理治疗推理方法使VLMs能够提供更周到和富有同情心的建议,优于标准提示方法。

[9] 群体推理排放估计网络
标题: Group Reasoning Emission Estimation Networks
作者: Yanming Guo / Xiao Qian / Kevin Credit / Jin Ma
原文:   [英文]   [中文]  
备注: None
摘要:
准确的温室气体(GHG)排放报告对于政府、企业和投资者至关重要。然而,由于高昂的实施成本、分散的排放因子数据库以及缺乏稳健的行业分类方法,特别是在中小企业中,采用率仍然有限。为了解决这些挑战,我们引入了群体推理排放估算网络(GREEN),这是一种由人工智能驱动的碳核算框架,标准化企业级排放估算,构建大规模基准数据集,并利用大型语言模型(LLMs)进行新颖的推理方法。具体而言,我们为20,850家公司编制了带有经过验证的北美行业分类系统(NAICS)标签的文本描述,并将这些与碳强度因子的经济模型对齐。通过将行业分类重新构建为信息检索任务,我们使用对比学习损失微调了Sentence-BERT模型。为了克服单阶段模型在处理数千个层级类别时的局限性,我们提出了一种群体推理方法,该方法基于自然的NAICS本体组合LLM分类器,将任务分解为多个子分类步骤。我们从理论上证明了这种方法可以减少分类不确定性和计算复杂性。在1,114个NAICS类别上的实验取得了最先进的性能(83.68%的Top-1准确率,91.47%的Top-10准确率),并且在20家公司的案例研究中报告的平均绝对百分比误差(MAPE)为45.88%。项目可在此网址获取:this https URL。

[10] 混合数据还是合并模型?通过模型合并平衡大型语言模型的有用性、诚实性和无害性
标题: Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging
作者: Jinluan Yang / Dingnan Jin / Anke Tang / Li Shen / Didi Zhu / Zhengyu Chen / Daixin Wang / Qing Cui / Zhiqiang Zhang / Jun Zhou / Fei Wu / Kun Kuang
原文:   [英文]   [中文]  
备注: Under Review
摘要:
在大语言模型(LLMs)的帮助性、诚实性和无害性(3H优化)方面实现平衡对齐是负责任的人工智能的基石,现有的方法如数据混合策略面临包括依赖专家知识和优化信号冲突在内的局限性。虽然模型合并通过整合专用模型提供了一种有前途的替代方案,但其在3H优化中的潜力尚未得到充分探索。本文建立了第一个针对3H对齐的LLMs模型合并的综合基准,系统地评估了15种方法(12种无训练合并和3种数据混合技术),涵盖了与5个注释维度相关的10个数据集、2个LLM家族和2种训练范式。我们的分析揭示了三个关键见解:(i)先前被忽视的3H维度之间的协作/冲突关系,(ii)模型合并在平衡对齐权衡方面始终优于数据混合方法,以及(iii)通过冗余组件修剪和异常值缓解进行参数级冲突解决的关键作用。基于这些发现,我们提出了R-TSVM,一种重新加权增强的任务奇异向量合并方法,该方法结合了异常值感知的参数加权和适应稀疏性的秩选择策略,适应于LLMs的重尾参数分布和稀疏性,进一步改善了LLMs在多次评估中的对齐。我们的模型将在此https URL上提供。

[11] 多智能体模拟器推动法律密集交互的语言模型
标题: Multi-Agent Simulator Drives Language Models for Legal Intensive Interaction
作者: Shengbin Yue / Ting Huang / Zheng Jia / Siyuan Wang / Shujun Liu / Yun Song / Xuanjing Huang / Zhongyu Wei
原文:   [英文]   [中文]  
备注: Accepted by NAACL 2025
摘要:
大型语言模型(LLMs)在法律智能方面取得了显著进展,但场景数据的稀缺阻碍了向交互式法律场景发展的进程。本文介绍了一种多代理法律模拟驱动器(MASER),通过模拟交互式法律场景来大规模生成合成数据。MASER利用真实法律案例来源,确保参与者之间法律属性的一致性,并引入监督机制以对齐参与者的角色和行为,同时解决干扰问题。我们进一步构建了一个多阶段交互式法律评估(MILE)基准,用于评估LLMs在动态法律场景中的表现。大量实验证实了我们框架的有效性。

[12] 研究语言模型在情境学习中的最近发展区
标题: Investigating the Zone of Proximal Development of Language Models for In-Context Learning
作者: Peng Cui / Mrinmaya Sachan
原文:   [英文]   [中文]  
备注: NAACL 2025 findings
摘要:
在本文中,我们引入了一个学习分析框架,通过近侧发展区(ZPD)的视角来分析大型语言模型(LLMs)的上下文学习(ICL)行为。ZPD是教育心理学中的一个成熟理论,它描绘了学习者在没有支持的情况下能够完成的任务与即使有支持也无法完成的任务之间的空间。我们将这一概念应用于ICL,通过测量LLMs在有无ICL的情况下对单个示例的表现来确定其ZPD。此外,我们提出了一种项目反应理论(IRT)模型来预测LLMs的ZPD分布。我们的研究结果揭示了ICL的一系列复杂多样的行为,为理解和利用这一技术提供了新的见解。最后,我们展示了如何利用我们的框架在推理和微调场景中增强LLM:(1)通过预测模型的近侧发展区,我们选择性地将ICL应用于最有可能从示例中受益的查询,从而在推理成本和性能之间实现更好的平衡;(2)我们提出了一种类似人类的微调课程,优先考虑模型ZPD内的示例。该课程提高了性能,我们通过分析LLMs的训练动态解释了其有效性。

[13] 揭开大型语言模型中单一缺陷的神秘面纱
标题: Demystifying Singular Defects in Large Language Models
作者: Haoqi Wang / Tong Zhang / Mathieu Salzmann
原文:   [英文]   [中文]  
备注: None
摘要:
大型变压器模型以生成高范数的标记而闻名。在视觉变压器(ViTs)中,这些标记通过层的线性近似的奇异向量进行了数学建模。然而,在大型语言模型(LLMs)中,高范数标记的潜在原因仍然很少被探索,并且它们与ViTs的不同特性需要一个新的分析框架。在本文中,我们提供了理论见解和跨一系列最新模型的实证验证,得出了以下观察结果:i)层级的奇异方向预测了LLMs中标记范数的突然爆发。ii)层的负特征值解释了其突然衰减。iii)导致高范数标记的计算路径在初始和非初始标记之间有所不同。iv)高范数标记是由近似相应模块的矩阵的右主奇异向量触发的。我们展示了这些发现的两个实际应用:量化方案的改进和LLM签名的设计。我们的发现不仅推进了对LLMs中奇异缺陷的理解,也为其应用开辟了新的途径。我们期望这项工作将激发对LLMs内部机制的进一步研究,因此我们将公开发布我们的代码。

[14] 寻找与DIF相关的词汇:使用大型语言模型和可解释人工智能预测差异项功能
标题: Finding Words Associated with DIF: Predicting Differential Item Functioning using LLMs and Explainable AI
作者: Hotaka Maeda / Yikai Lu
原文:   [英文]  
备注: 14 pages, 2 figures, 6 tables
摘要:
我们对几种基于编码器的Transformer大型语言模型(LLM)进行了微调和比较,以预测题目文本中的差异项功能(DIF)。然后,我们对这些模型应用了可解释的人工智能(XAI)方法,以识别与DIF相关的特定词汇。数据包括为3到11年级学生设计的英语语言艺术和数学总结性州评估的42,180个题目。在八个焦点和参照组对中,预测的$R^2$范围从0.04到0.32。我们的研究结果表明,许多与DIF相关的词汇反映了测试蓝图中设计包含的小领域,而不是应从评估中移除的与构念无关的题目内容。这可能解释了为什么对DIF题目的定性审查常常产生混乱或不确定的结果。我们的方法可以用于在题目编写过程中筛选与DIF相关的词汇以便立即修订,或通过突出文本中的关键词来帮助审查传统的DIF分析结果。此研究的扩展可以提高评估项目的公平性,特别是对于那些缺乏资源来构建高质量题目的项目,以及在我们没有足够样本量进行传统DIF分析的小型子群体中。

[15] AIMS.au:用于分析公司声明中现代奴隶制对策的数据集
标题: AIMS.au: A Dataset for the Analysis of Modern Slavery Countermeasures in Corporate Statements
作者: Adriana Eufrosiana Bora / Pierre-Luc St-Charles / Mirko Bronzi / Arsène Fansi Tchango / Bruno Rousseau / Kerrie Mengersen
原文:   [英文]  
备注: Camera ready. ICLR 2025
摘要:
尽管十多年来立法努力试图解决大型企业供应链中的现代奴役问题,但政府监督的有效性仍然受到每年审查数千份声明的挑战的阻碍。虽然大型语言模型(LLMs)可以被视为自动分析和总结文档的成熟解决方案,但识别公司采取的具体现代奴役对策并将其与模糊声明区分开来仍然是一项具有挑战性的任务。为了帮助评估和微调LLMs以评估公司声明,我们引入了一个数据集,该数据集由澳大利亚现代奴役登记处的5,731份现代奴役声明组成,并在句子级别进行了注释。本文详细介绍了数据集的构建步骤,包括注释规范的精心设计、声明的选择和预处理,以及高质量注释子集的创建,以便进行有效的模型评估。为了展示我们数据集的实用性,我们提出了一种机器学习方法,用于检测与澳大利亚现代奴役法案规定的强制报告要求相关的句子。然后,我们遵循这种方法,在零样本和监督学习设置下对现代语言模型进行基准测试。

[16] 利用自监督语音模型中的音位变体进行非典型发音评估
标题: Leveraging Allophony in Self-Supervised Speech Models for Atypical Pronunciation Assessment
作者: Kwanghee Choi / Eunjung Yeo / Kalvin Chang / Shinji Watanabe / David Mortensen
原文:   [英文]   [中文]  
备注: Accepted to NAACL 2025. Codebase available at this https URL
摘要:
音位变体指的是音位在其语音环境中的语音实现的变化。对音位变体的建模对于非典型发音评估至关重要,这涉及区分非典型和典型发音。然而,最近基于音位分类器的方法通常通过将各种实现视为单一音位来简化这一过程,从而绕过了音位变体建模的复杂性。受到冻结的自监督语音模型(S3M)特征的声学建模能力的启发,我们提出了MixGoP,这是一种新颖的方法,利用高斯混合模型来对具有多个子簇的音位分布进行建模。我们的实验表明,MixGoP在包括构音障碍和非母语语音的五个数据集中的四个上达到了最先进的性能。我们的分析进一步表明,S3M特征比MFCCs和Mel频谱图更有效地捕捉音位变体,突出了将MixGoP与S3M特征结合的优势。

[17] 语言完整性的分词标准:以土耳其语为基准
标题: Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark
作者: M. Ali Bayram / Ali Arda Fincan / Ahmet Semih Gümüş / Sercan Karakaş / Banu Diri / Savaş Yıldırım
原文:   [英文]   [中文]  
备注: None
摘要:
分词是自然语言处理中的一个基本预处理步骤,直接影响大型语言模型(LLMs)捕捉句法、形态句法和语义结构的能力。本文介绍了一个系统评估分词策略的新框架,解决了形态丰富和低资源语言中的挑战。利用来自大规模多任务语言理解(MMLU)基准的6200道土耳其语多项选择题数据集,该框架从五个关键指标评估分词器:词汇量、标记数量、处理时间、语言特定标记百分比(%TR)和标记纯度。这些指标提供了一种结构化的方法来评估分词器在多大程度上保留了语言结构。%TR衡量目标语言中有效词汇的比例,而%Pure评估标记与有意义的语言单位(如词根和有效词素)的对齐程度,尽量减少语义碎片化。研究结果表明,作为关键指标引入的%TR与下游性能(如MMLU得分)表现出比标记纯度更强的相关性,强调了其在提高模型准确性方面的作用。此外,较大的模型参数不一定能带来更好的分词质量或增强的结果,这突出了优先考虑语言对齐的定制分词策略的重要性。该框架为开发针对形态复杂和低资源语言优化的强大分词方法设定了新标准。未来的工作将改进形态分析,探索特定领域的定制,并进行跨语言评估,以进一步提升分词实践。

[18] 使用情境对齐的在线评论来衡量大型语言模型在不同语言变体中的性能差异
标题: Using Contextually Aligned Online Reviews to Measure LLMs' Performance Disparities Across Language Varieties
作者: Zixin Tang / Chieh-Yang Huang / Tsung-Chi Li / Ho Yim Sam Ng / Hen-Hsen Huang / Ting-Hao 'Kenneth' Huang
原文:   [英文]   [中文]  
备注: Accepted by 2025 Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics (NAACL), theme track
摘要:
一种语言可以有不同的变体。这些变体可能会影响自然语言处理(NLP)模型的性能,包括大型语言模型(LLMs),这些模型通常是在广泛使用的语言变体的数据上进行训练的。本文介绍了一种新颖且具有成本效益的方法,用于在不同语言变体中对模型性能进行基准测试。我们认为,国际在线评论平台(例如某个网址)可以作为构建数据集的有效数据来源,这些数据集捕捉了在类似现实场景中使用不同语言变体的评论,例如使用相同语言(如普通话)但不同语言变体(如台湾普通话、大陆普通话)对同一家酒店进行相同评分的评论。为了验证这一概念,我们构建了一个上下文对齐的数据集,其中包含台湾普通话和大陆普通话的评论,并在情感分析任务中测试了六个大型语言模型。我们的结果表明,大型语言模型在台湾普通话中的表现始终不佳。

[19] 专门化大型语言模型以模拟全球人口的调查响应分布
标题: Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations
作者: Yong Cao / Haijiang Liu / Arnav Arora / Isabelle Augenstein / Paul Röttger / Daniel Hershcovich
原文:   [英文]   [中文]  
备注: 15 pages, 9 figures, accepted to NAACL 2025 main
摘要:
大规模调查是为社会科学研究和政策提供信息的重要工具,但进行调查既昂贵又耗时。如果我们能够准确模拟群体层面的调查结果,这将对社会科学研究非常有价值。先前的研究已经探索了使用大型语言模型(LLMs)通过提示来模拟人类行为。在本文中,我们首次专门化LLMs用于模拟调查响应分布的任务。作为测试平台,我们使用了两个全球文化调查的国家级结果。我们设计了一种基于首个标记概率的微调方法,以最小化给定问题的预测和实际响应分布之间的差异。然后,我们展示了这种方法显著优于其他方法和零样本分类器,即使在未见过的问题、国家和完全未见过的调查中也是如此。尽管即使是我们最好的模型在这个任务上仍然面临挑战,特别是在未见过的问题上,但我们的结果展示了专门化模拟的好处,这可能会加速未来实现足够准确模拟的进展。

[20] IRepair:一种意图感知的方法用于修复大型语言模型中的数据驱动错误
标题: IRepair: An Intent-Aware Approach to Repair Data-Driven Errors in Large Language Models
作者: Sayem Mohammad Imtiaz / Astha Singh / Fraol Batole / Hridesh Rajan
原文:   [英文]   [中文]  
备注: Accepted as full research paper at FSE'2025
摘要:
几乎每天我们都会听到关于大型语言模型(LLMs)的令人印象深刻的成就,同时也会听到关于它们所面临的挑战。LLMs 因其数据集中的偏见而臭名昭著,这会导致诸如毒性等问题。虽然领域自适应训练已被用来缓解这些问题,但这些技术在修复过程中往往不加区分地处理所有模型参数,导致修复质量差和模型多样性降低。在本文中,我们介绍了一种新颖的基于动态切片的意图感知 LLM 修复策略,IRepair。该方法有选择地针对模型中最容易出错的部分进行修复。具体来说,我们提出动态切片模型中最敏感的层,这些层需要立即关注,并将修复工作集中在这些区域。通过改变模型的一小部分,这种方法可以实现更有效的修复,同时对模型整体性能的影响可能更小。我们在 GPT2 和 GPT-Neo 系列的三个模型上评估了我们的技术,这些模型的参数范围从 8 亿到 16 亿,处于毒性缓解设置中。我们的结果表明,与最接近的基线直接偏好优化相比,IRepair 修复错误的效果提高了 43.6%,而对整体性能的干扰减少了 46%。我们的实证分析还表明,错误更集中在模型的一小部分中,前 20% 的层的错误密度比剩余 80% 的层高出 773%。这突显了选择性修复的必要性。此外,我们证明动态选择方法对于解决分散在整个模型中的错误至关重要,以确保稳健和高效的修复。

[21] 大型语言模型中拟人化行为的多轮评估
标题: Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models
作者: Lujain Ibrahim / Canfer Akbulut / Rasmi Elasmar / Charvi Rastogi / Minsuk Kahng / Meredith Ringel Morris / Kevin R. McKee / Verena Rieser / Murray Shanahan / Laura Weidinger
原文:   [英文]   [中文]  
备注: None
摘要:
用户倾向于将大型语言模型(LLMs)拟人化,这一趋势引起了人工智能开发者、研究人员和政策制定者的日益关注。在此,我们提出了一种新颖的方法,用于在现实且多样化的环境中实证评估拟人化的LLM行为。超越单轮静态基准测试,我们在最先进的(SOTA)LLM评估中贡献了三项方法学进展。首先,我们开发了对14种拟人化行为的多轮评估。其次,我们通过模拟用户交互,提出了一种可扩展的自动化方法。第三,我们进行了一项大规模的互动性人类受试者研究(N=1101),以验证我们测量的模型行为是否能预测真实用户的拟人化感知。我们发现,所有评估的SOTA LLM表现出相似的行为,其特征在于关系构建(例如,同理心和确认)和第一人称代词的使用,并且大多数行为仅在多轮交互后首次出现。我们的工作为研究设计选择如何影响拟人化模型行为奠定了实证基础,并推动了关于这些行为是否可取的伦理辩论。它还展示了在复杂的人机交互社会现象中进行多轮评估的必要性。

[22] “从前……”文学叙事连贯性随着年级水平的提高而进步:对阅读流利度和读写能力的潜在影响
标题: "Once Upon a Time..." Literary Narrative Connectedness Progresses with Grade Level: Potential Impact on Reading Fluency and Literacy Skills
作者: Marina Ribeiro / Bárbara Malcorra / Diego Pintor / Natália Bezerra Mota
原文:   [英文]  
备注: 14 pages, 1 figure
摘要:
选择合适的书籍对于培养儿童的阅读习惯至关重要。尽管儿童在口头叙述中表现出不同的复杂程度,但问题在于:儿童书籍在叙述复杂性上是否也存在差异?本研究探讨了学校使用的文学文本的叙述动态,重点关注其复杂性如何在不同年级水平上演变。通过使用词语复现图分析,我们检查了一个包含1,627篇文学文本的数据集,这些文本涵盖了13年的教育。研究结果显示,文本的连通性显著呈指数增长,尤其是在入学的前三年,这与儿童口头叙述中观察到的模式相似。这些结果突显了文学文本作为支持读写能力发展的工具的潜力。

[23] SMAB:基于MAB的词敏感性估计框架及其在对抗性文本生成中的应用
标题: SMAB: MAB based word Sensitivity Estimation Framework and its Applications in Adversarial Text Generation
作者: Saurabh Kumar Pandey / Sachin Vashistha / Debrup Das / Somak Aditya / Monojit Choudhury
原文:   [英文]   [中文]  
备注: None
摘要:
为了理解序列分类任务的复杂性,Hahn等人(2021)提出了敏感度的概念,即输入序列中可以单独改变以改变输出的不相交子集的数量。尽管这一框架有效,但由于其指数时间复杂度,在大规模上计算敏感度的成本很高。因此,我们引入了一种基于敏感度的多臂赌博框架(SMAB),为任何数据集提供了一种可扩展的方法,用于计算与底层文本分类器相关的词级局部(句子级)和全局(聚合)敏感度。我们通过各种应用验证了我们方法的有效性。我们在CHECKLIST生成的情感分析数据集上进行了案例研究,结果表明我们的算法确实能够直观地捕捉到高敏感和低敏感的词。通过对多任务和多语言的实验,我们表明在没有黄金数据的情况下,敏感度可以作为准确性的替代指标。最后,我们展示了在对抗性示例生成中使用敏感度值指导扰动提示可以将攻击成功率提高15.58%,而在对抗性释义生成中将敏感度作为额外奖励使用则比现有最先进的方法提高了12.00%。警告:包含潜在冒犯性内容。

[24] 大型语言模型神经元封装的结构重组以实现多元信息聚合
标题: Structural Reformation of Large Language Model Neuron Encapsulation for Divergent Information Aggregation
作者: Denis Bakushev / Gideon Boultinghouse / Harriet Oppenheimer / Sebastian Gillingwater / Valentina Ashington / Wilfred Stanborough
原文:   [英文]   [中文]  
备注: None
摘要:
结构化神经元封装引入了一种模块化框架,使深度学习架构中的信息聚合和专业化更加有效。通过该框架修改的模型表现出更好的困惑度分数、更大的词汇多样性以及在逻辑推理上的一致性增强,这表明结构化参数分布有助于更高效的语言表示。对生成文本的统计分析显示,句子结构的范围更广,标记选择的冗余度降低,这表明封装促进了更具适应性的语言生成。对注意力权重分布的详细评估揭示,实验模型在跨层激活中表现出更大的差异性,支持了封装神经元承担专业化处理角色的假设。逻辑一致性评估进一步表明,模块化架构减轻了矛盾输出,减少了语言结构之间推断关系的内部冲突。计算权衡分析显示,处理开销略有增加,但参数效率和结构化决策的改进弥补了额外的复杂性。封装机制的数学公式证实,模块化聚合在促进不同神经元簇的独特功能角色的同时,保持了稳定的收敛特性。

[25] Cardiverse:利用大型语言模型进行新型卡牌游戏原型设计
标题: Cardiverse: Harnessing LLMs for Novel Card Game Prototyping
作者: Danrui Li / Sen Zhang / Sam S. Sohn / Kaidong Hu / Muhammad Usman / Mubbasir Kapadia
原文:   [英文]   [中文]  
备注: 13 pages, 7 figures, 3 tables
摘要:
计算机游戏,特别是卡牌游戏的原型设计,需要大量的人力投入在创意构思和游戏玩法评估上。最近在大型语言模型(LLMs)方面的进展为自动化和简化这些过程提供了机会。然而,对于LLMs来说,设计超出现有数据库的新颖游戏机制、生成一致的游戏环境以及开发可扩展的游戏AI以进行大规模评估仍然具有挑战性。本文通过引入一个全面的自动化卡牌游戏原型设计框架来应对这些挑战。该方法强调了一种基于图的索引方法,用于生成新颖的游戏设计;一个由LLM驱动的系统,用于生成经过游戏记录验证的一致游戏代码;以及一种使用LLM生成的动作价值函数集合并通过自我对弈优化的游戏AI构建方法。这些贡献旨在加速卡牌游戏的原型设计,减少人力劳动,并降低游戏开发者的入门门槛。

[26] TWICE:低资源领域特定嵌入模型能带来哪些优势?——以韩国金融文本为例
标题: TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Model Bring? - A Case Study on Korea Financial Texts
作者: Yewon Hwang / Sungbum Jung / Hanwool Lee / Sara Yu
原文:   [英文]   [中文]  
备注: Submitted to ICLR@Financial AI
摘要:
嵌入模型的领域特异性对于有效的性能表现至关重要。然而,现有的基准测试,如FinMTEB,主要是为高资源语言设计的,低资源环境如韩语则未得到充分探索。直接翻译现有的英语基准测试往往无法捕捉低资源领域中存在的语言和文化细微差别。在本文中,题为《TWICE:低资源领域特定嵌入模型能带来什么优势?以韩国金融文本为例》,我们引入了KorFinMTEB,这是一个针对韩国金融领域的新基准,专门设计以反映其在低资源语言中的独特文化特征。我们的实验结果表明,虽然模型在翻译版的FinMTEB上表现稳健,但在KorFinMTEB上的表现揭示了微妙但关键的差异,特别是在需要更深层语义理解的任务中,这突显了直接翻译的局限性。这种差异强调了需要包含语言特定特性和文化细微差别的基准测试。我们的研究见解倡导开发领域特定的评估框架,以更准确地评估和推动嵌入模型在低资源环境中的进步。

[27] Language-TPP:将时间点过程与语言模型结合用于事件分析
标题: Language-TPP: Integrating Temporal Point Processes with Language Models for Event Analysis
作者: Quyu Kong / Yixuan Zhang / Yang Liu / Panrong Tong / Enqi Liu / Feng Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
时间点过程(Temporal Point Processes, TPPs)已被广泛用于事件序列建模,但它们往往难以有效地结合丰富的文本事件描述。相反,虽然大型语言模型(Large Language Models, LLMs)在处理文本数据方面表现出显著的能力,但它们缺乏处理时间动态的机制。为弥合这一差距,我们引入了Language-TPP,这是一种将TPPs与LLMs整合的统一框架,以增强事件序列建模。Language-TPP引入了一种新颖的时间编码机制,将连续的时间间隔转换为专门的字节标记,从而能够与标准的LLM架构无缝集成。这种方法使Language-TPP在包括事件时间预测、类型预测和强度估计在内的多个TPP任务中,在五个数据集上实现了最先进的性能。此外,我们证明了结合时间信息显著提高了生成事件描述的质量。

[28] 耐心询问患者:通过扎实的推理使大型语言模型适用于以人为本的医疗对话
标题: Ask Patients with Patience: Enabling LLMs for Human-Centric Medical Dialogue with Grounded Reasoning
作者: Jiayuan Zhu / Junde Wu
原文:   [英文]   [中文]  
备注: None
摘要:
在在线医疗咨询中,准确且高效的诊断仍然是当前大型语言模型面临的挑战。这些模型通常依赖于单轮交互,缺乏通过后续问题来完善其预测的能力。此外,它们的回答中经常包含复杂的医学术语,使得非医学用户难以理解,从而形成有效沟通的障碍。在本文中,我们介绍了“耐心问患者”(APP),这是第一个多轮对话系统,使大型语言模型能够基于扎实的推理迭代地完善诊断。通过整合医学指南和熵最小化,APP提高了诊断的准确性和效率。此外,它具有以人为中心的沟通方式,弥合了用户理解与医学术语之间的差距,显著增强了用户的可访问性和参与度。我们使用ReMeDi数据集的一个子集对APP进行了评估,并与单轮和传统多轮大型语言模型基线进行了比较。APP在诊断预测中获得了更高的相似性评分,显示出与真实诊断更好的一致性。熵分析表明,APP在迭代过程中更迅速地减少了诊断不确定性,提高了对其预测的信心。APP在用户可访问性和同理心方面也表现出色,进一步缩小了复杂医学语言与用户理解之间的差距。代码将在此URL发布。

[29] 在合成数据上训练会使模型的鲁棒性降低吗?
标题: Does Training on Synthetic Data Make Models Less Robust?
作者: Lingze Zhang / Ellie Pavlick
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,使用合成数据训练大型语言模型(LLMs)已成为一种越来越普遍的做法。通常,这些合成数据是由相同或类似的LLMs生成的,并用于训练这些模型。这引发了一个问题:合成数据是否可能通过强化LLM已经编码的启发式方法来加剧某些“盲点”。在本文中,我们在自然语言推理(NLI)任务上使用Llama-2-7B-hf模型进行模拟实验。我们使用MultiNLI作为一般任务,并使用HANS作为“盲点”任务,HANS是一个专门设计用于测量NLI特定启发式策略存在的评估集。我们的目标是确定一般任务和盲点任务之间是否会出现性能差异。我们的结果表明,合成数据并没有像我们预期的那样强化盲点。具体来说,我们发现,虽然使用合成数据进行微调不一定减少启发式方法的使用,但也没有像我们假设的那样使其变得更糟。

[30] 不仅仅是演示,教我原则:一种基于原则的多智能体提示策略用于文本分类
标题: Don't Just Demo, Teach Me the Principles: A Principle-Based Multi-Agent Prompting Strategy for Text Classification
作者: Peipei Wei / Dimitris Dimitriadis / Yan Xu / Mingwei Shen
原文:   [英文]   [中文]  
备注: To be published in AAAI 2025 Workshop on Advancing LLM-Based Multi-Agent Collaboration
摘要:
我们提出了一种基于原则的提示方法,这是一种简单但有效的多代理提示策略,用于文本分类。该方法首先让多个大型语言模型(LLM)代理独立生成候选原则,这些原则基于对有标签或无标签的示例样本的分析,然后通过一个终结代理将它们整合为最终原则,最后将这些原则发送给分类器代理以执行下游分类任务。在不同规模的LLM上进行的大量二元和多类分类数据集实验表明,我们的方法不仅在宏观F1分数上比零样本提示实现了显著的性能提升(1.55% - 19.37%),而且优于其他强基线(如CoT和stepback提示)。我们的方法生成的原则在两个私有数据集上帮助LLM在分类任务中表现得比人工制定的原则更好。我们的多代理基于原则的提示方法在性能上也与基于示例的少样本提示方法相当或更好,但推理成本显著降低。消融研究表明,标签信息和多代理合作LLM框架在生成高质量原则以促进下游分类任务中起着重要作用。

[31] 通过自适应对比学习优化大型语言模型的知识
标题: Refine Knowledge of Large Language Models via Adaptive Contrastive Learning
作者: Yinghui Li / Haojing Huang / Jiayi Kuang / Yangning Li / Shu-Yu Guo / Chao Qu / Xiaoyu Tan / Hai-Tao Zheng / Ying Shen / Philip S. Yu
原文:   [英文]   [中文]  
备注: Accepted to ICLR 2025
摘要:
如何缓解大型语言模型(LLMs)的幻觉一直是LLMs研究社区追求的基本目标。纵观众多与幻觉相关的研究,一种主流的方法类别是通过优化LLMs的知识表示来减少幻觉,从而改变其输出。考虑到这些工作的核心关注点是模型所获得的知识,而知识长期以来一直是人类社会进步的中心主题,我们认为模型精炼知识的过程可以极大地受益于人类学习的方式。在我们的工作中,通过模仿人类的学习过程,我们设计了一种自适应对比学习策略。我们的方法根据LLMs对知识的实际掌握情况灵活地构建不同的正负样本进行对比学习。该策略帮助LLMs巩固其已经掌握的正确知识,加深对其遇到但未完全掌握的正确知识的理解,忘记其先前学习的错误知识,并诚实地承认其缺乏的知识。在广泛使用的数据集上进行的大量实验和详细分析证明了我们方法的有效性。

[32] 使用零样本大型语言模型进行数据标注的感知置信度评分
标题: Perceived Confidence Scoring for Data Annotation with Zero-Shot LLMs
作者: Sina Salimian / Gias Uddin / Most Husne Jahan / Shaina Raza
原文:   [英文]   [中文]  
备注: None
摘要:
零样本大型语言模型(LLMs)现在也被用于文本分类任务,例如对给定输入的句子或文章进行情感/情绪检测。然而,在这些数据标注任务中,它们的表现可能不尽如人意。我们引入了一种新颖的技术,称为感知置信评分(PCS),该技术通过利用变形关系(MRs)来评估LLM对输入分类的置信度。变形关系生成语义上等价但在文本上有所变异的输入版本。根据变形测试(MT)的原则,这些变异版本预计应具有与输入相似的标注标签。通过分析LLM在这些变异版本上的响应一致性,PCS根据预测标签的频率计算置信评分。PCS可以用于单个LLM和多个LLM的设置(例如,多数投票)。我们引入了一种算法,称为感知差分进化(PDE),用于确定分配给MRs和LLMs的分类任务的最佳权重。实证评估显示,PCS显著提高了Llama-3-8B-Instruct(4.96%)和Mistral-7B-Instruct-v0.3(10.52%)的零样本准确率,Gemma-2-9b-it显示出9.39%的提升。当结合所有三个模型时,PCS比多数投票显著提高了7.75%。

[33] 越南语句子释义的大规模基准
标题: A Large-Scale Benchmark for Vietnamese Sentence Paraphrases
作者: Sang Quang Nguyen / Kiet Van Nguyen
原文:   [英文]   [中文]  
备注: Accepted in NAACL 2025 Findings
摘要:
本文介绍了ViSP,这是一个高质量的越南语句子改写数据集,由来自各个领域的120万对原句-改写句组成。该数据集通过结合自动改写生成和人工评估的混合方法构建,以确保高质量。我们进行了多种方法的实验,包括反向翻译、EDA,以及BART和T5等基线模型,还包括大型语言模型(LLMs),如GPT-4o、Gemini-1.5、Aya、Qwen-2.5和Meta-Llama-3.1变体。据我们所知,这是关于越南语改写的首次大规模研究。我们希望我们的数据集和研究结果能为未来的越南语改写任务研究和应用提供有价值的基础。

[34] 图形RAG工具融合
标题: Graph RAG-Tool Fusion
作者: Elias Lumer / Pradeep Honaganahalli Basavaraju / Myles Mason / James A. Burke / Vamse Kumar Subbiah
原文:   [英文]   [中文]  
备注: 25 pages, 14 figures, 2 tables
摘要:
最近在检索增强生成(RAG)方面的发展,使得从工具知识库中选择相关工具的LLM代理能够将其复杂的工具调用能力扩展到数百或数千个外部工具、API或作为工具的代理。然而,传统的基于RAG的工具检索未能捕捉工具之间的结构化依赖关系,限制了所检索工具的依赖关系的检索准确性。例如,在一个工具的向量数据库中,一个“获取股票价格”API需要一个来自“获取股票代码”API的“股票代码”参数,并且两者都依赖于操作系统级别的互联网连接工具。在本文中,我们通过引入图RAG-工具融合来解决这一限制,这是一种新颖的即插即用方法,它结合了基于向量的检索的优势与高效的图遍历,以捕捉所有相关工具(节点)及其在预定义工具知识图中的任何嵌套依赖关系(边)。我们还提出了ToolLinkOS,这是一个新的工具选择基准,包含573个虚构工具,涵盖超过15个行业,每个工具平均有6.3个工具依赖关系。我们证明了图RAG-工具融合在ToolLinkOS和ToolSandbox基准上分别比简单的RAG实现了71.7%和22.1%的绝对改进(mAP@10)。ToolLinkOS数据集可在此https URL获取。

[35] GENERator:一种长上下文生成基因组基础模型
标题: GENERator: A Long-Context Generative Genomic Foundation Model
作者: Wei Wu / Qiuyi Li / Mingyang Li / Kun Fu / Fuli Feng / Jieping Ye / Hui Xiong / Zheng Wang
原文:   [英文]   [中文]  
备注: None
摘要:
DNA测序技术的进步显著提升了我们解码基因组序列的能力。然而,由于遗传物质的复杂性,对这些序列的预测和解释仍然充满挑战。大型语言模型(LLMs)为生物序列分析带来了新的机遇。最近在基因组语言模型方面的发展强调了LLMs在解读DNA序列方面的潜力。然而,现有模型通常在稳健性和应用范围上面临限制,主要是由于模型结构和训练数据规模的限制。为了解决这些限制,我们提出了GENERator,这是一种生成性基因组基础模型,具有98k碱基对(bp)的上下文长度和12亿参数。该模型在包含3860亿bp真核生物DNA的庞大数据集上进行训练,在既定和新提出的基准测试中表现出最先进的性能。该模型遵循分子生物学的中心法则,能够准确生成蛋白质编码序列,这些序列翻译成结构上类似于已知家族的蛋白质。它在序列优化方面也显示出显著的潜力,特别是在通过提示响应生成具有特定活性特征的启动子序列方面。这些能力使GENERator成为基因组研究和生物技术进步的关键工具,增强了我们解释和预测复杂生物系统的能力,并实现精确的基因组干预。

[36] 小型语言模型成为有效的长文本提取器
标题: Small Language Model Makes an Effective Long Text Extractor
作者: Yelin Chen / Fanjin Zhang / Jie Tang
原文:   [英文]   [中文]  
备注: AAAI'25, 9 pages, 1 appendix pages
摘要:
命名实体识别(NER)是自然语言处理(NLP)中的一个基础问题。然而,从长文本(例如主页)中提取较长的实体范围(例如奖项)的任务几乎没有被探索。目前的NER方法主要分为两类:基于跨度的方法和基于生成的方法。基于跨度的方法需要枚举所有可能的标记对跨度,然后对每个跨度进行分类,这导致了大量的冗余计算和过多的GPU内存使用。相比之下,基于生成的方法涉及提示或微调大型语言模型(LLM)以适应下游的NER任务。然而,这些方法在准确生成较长跨度时存在困难,并且通常需要显著的时间成本来进行有效的微调。为了解决这些挑战,本文介绍了一种轻量级的基于跨度的NER方法,称为SeNER,该方法结合了双向箭头注意机制和在[CLS]标记上的LogN-Scaling,以有效嵌入长文本,并包含一种新颖的双向滑动窗口加号形状注意(BiSPA)机制,以显著减少冗余的候选标记对跨度,并同时建模标记对跨度之间的交互。大量实验表明,我们的方法在三个长NER数据集上实现了最先进的提取准确性,并能够以GPU内存友好的方式从长文本中提取实体。代码:this https URL

[37] CodeI/O:通过代码输入输出预测来简化推理模式
标题: CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction
作者: Junlong Li / Daya Guo / Dejian Yang / Runxin Xu / Yu Wu / Junxian He
原文:   [英文]   [中文]  
备注: None
摘要:
推理是大型语言模型的一项基本能力。尽管先前的研究主要集中在增强数学或代码生成等狭窄技能上,但由于训练数据稀疏和零散,提高在许多其他推理任务上的表现仍然具有挑战性。为了解决这个问题,我们提出了CodeI/O,这是一种新颖的方法,通过将原始代码转换为代码输入输出预测格式,系统地浓缩了内嵌在上下文相关代码中的多样化推理模式。通过训练模型在完全自然语言的链式思维(CoT)推理中预测给定代码和测试用例的输入/输出,我们使模型接触到通用的推理原语——如逻辑流程规划、状态空间搜索、决策树遍历和模块化分解——同时将结构化推理与代码特定语法解耦,并保持程序的严谨性。实验结果表明,CodeI/O在符号、科学、逻辑、数学与数值以及常识推理任务上均带来了持续的改进。通过匹配现有的真实输出或使用预测的输入重新执行代码,我们可以验证每个预测,并通过多轮修订进一步增强CoTs,从而形成CodeI/O++并实现更高的性能。我们的数据和模型可在此https URL获取。

[38] MEMIT-Merge:解决大语言模型中MEMIT的同主体批量编辑键值冲突问题
标题: MEMIT-Merge: Addressing MEMIT's Key-Value Conflicts in Same-Subject Batch Editing for LLMs
作者: Zilu Dong / Xiangqing Shen / Rui Xia
原文:   [英文]   [中文]  
备注: None
摘要:
随着大型语言模型的规模不断扩大,能够在不进行全面重新训练的情况下修改模型内部知识的知识编辑技术受到了广泛关注。MEMIT 是一种突出的批量编辑算法,以其执行大规模知识修改的能力而著称。然而,我们发现 MEMIT 在处理包含多个共享相同主体的编辑的批次时,其编辑效果显著下降。我们的分析揭示了问题的根源在于 MEMIT 的键值建模框架:当批次中具有相同主体的多个事实通过 MEMIT 的键值机制建模时,相同的键(源自共享的主体)被迫表示不同的值(对应于不同的知识),导致编辑过程中更新冲突。为了解决这个问题,我们提出了 MEMIT-Merge,这是一种增强的方法,通过合并共享相同主体的事实的值计算过程,有效解决了相同主体批量编辑场景中的性能下降问题。实验结果表明,当 MEMIT 的编辑成功率在较大批次时下降到约 50% 时,MEMIT-Merge 能够保持超过 90% 的成功率,展示了对主体实体冲突的显著鲁棒性。

[39] 通过有效的数据过滤,使大型语言模型更好地遵循指令并减少幻觉
标题: Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering
作者: Shuzheng Si / Haozhe Zhao / Gang Chen / Cheng Gao / Yuzhuo Bai / Zhitong Wang / Kaikai An / Kangyang Luo / Chen Qian / Fanchao Qi / Baobao Chang / Maosong Sun
原文:   [英文]   [中文]  
备注: None
摘要:
在指令微调阶段,训练大型语言模型(LLMs)时使用包含不熟悉知识的数据可能会导致模型过于自信并产生幻觉。为了解决这一挑战,我们引入了一个新框架,NOVA,该框架识别与LLM已学知识高度匹配的高质量数据,以减少幻觉。NOVA包括内部一致性探测(ICP)和语义等价识别(SEI),用于衡量LLM对指令数据的熟悉程度。具体来说,ICP通过计算多个自生成响应之间的定制一致性来评估LLM对给定指令的理解。SEI通过将目标响应与生成的响应进行比较,使用提出的语义聚类和精心设计的投票策略,进一步评估LLM对目标响应的熟悉程度。最后,我们引入了一个专家对齐的奖励模型,考虑了超越熟悉度的特征以提高数据质量。通过考虑数据质量并避免不熟悉的数据,我们可以利用所选数据有效地使LLM遵循指令并减少幻觉。大量实验和分析表明,NOVA显著减少了幻觉,并使LLM保持强大的指令遵循能力。

[40] BenchMAX:大型语言模型的全面多语言评估套件
标题: BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models
作者: Xu Huang / Wenhao Zhu / Hanxu Hu / Conghui He / Lei Li / Shujian Huang / Fei Yuan
原文:   [英文]   [中文]  
备注: None
摘要:
以往的多语言基准测试主要集中在简单的理解任务上,但对于大型语言模型(LLMs),我们更强调其在指令遵循、推理、长文本理解、代码生成等方面的能力。然而,跨语言测量这些高级能力的研究仍然不足。为了解决这一差距,我们引入了BenchMAX,一个多向多语言评估基准,允许在不同语言中对这些重要能力进行公平比较。为了保持高质量,三位不同的母语注释者在数据从英语机器翻译成其他16种语言后,独立地对每个任务中的样本进行注释。此外,我们提出了一个源于数据集构建的新颖翻译挑战。在BenchMAX上的广泛实验揭示了核心能力在不同语言中的有效性差异,突显了仅通过扩大模型规模无法弥合的性能差距。BenchMAX作为一个全面的多语言评估平台,提供了一个有前景的测试平台,以促进多语言语言模型的发展。数据集和代码是公开可访问的。

[41] 弥合评估差距:利用大型语言模型进行主题模型评估
标题: Bridging the Evaluation Gap: Leveraging Large Language Models for Topic Model Evaluation
作者: Zhiyin Tan / Jennifer D'Souza
原文:   [英文]   [中文]  
备注: accepted by IRCDL 2025
摘要:
本研究提出了一个框架,利用大型语言模型(LLMs)对科学文献中动态演变的主题分类法进行自动化评估。在数字图书馆系统中,主题建模在高效组织和检索学术内容方面起着至关重要的作用,引导研究人员穿越复杂的知识领域。随着研究领域的扩展和转变,传统以人为中心的静态评估方法难以保持相关性。所提出的方法利用LLMs来衡量关键质量维度,如连贯性、重复性、多样性和主题-文档对齐,而不依赖于专家注释者或狭隘的统计指标。定制的提示引导LLM评估,确保在各种数据集和建模技术中进行一致且可解释的评估。在基准语料库上的实验展示了该方法的稳健性、可扩展性和适应性,强调了其作为传统评估策略的更全面和动态替代方案的价值。

[42] LongReD:通过恢复蒸馏缓解长上下文大语言模型的短文本退化
标题: LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation
作者: Zican Dong / Junyi Li / Jinhao Jiang / Mingyu Xu / Wayne Xin Zhao / Bingning Wang / Weipeng Chen
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)通过扩展位置编码和轻量级的持续预训练获得了更长的上下文窗口。然而,这通常会导致在短文本任务上的性能下降,而这种下降的原因尚未得到充分探讨。在这项工作中,我们确定了导致这一问题的两个主要因素:隐藏状态和注意力分数的分布漂移,以及持续预训练期间的灾难性遗忘。为了解决这些挑战,我们提出了长上下文预训练与恢复蒸馏(LongReD),这是一种新颖的方法,旨在通过最小化扩展模型和原始模型之间的分布差异来缓解短文本性能的下降。除了在长文本上进行训练外,LongReD还在短文本上从原始模型中蒸馏选定层的隐藏状态。此外,LongReD还引入了短到长的蒸馏,通过利用跳过的位置索引,使短文本上的输出分布与长文本上的对齐。在常见文本基准上的实验表明,LongReD在有效保持模型短文本性能的同时,处理长文本的能力与基线相比具有可比性甚至更好。

[43] 在可变字体和彩色字体时代的参数化字体设计
标题: Parametric type design in the era of variable and color fonts
作者: Santhosh Thottingal
原文:   [英文]  
备注: Conference: Grapholinguistics in the 21st century - From graphemes to knowledge
摘要:
参数化字体是通过可变参数程序化定义的字体,由Donald Knuth在20世纪80年代通过他的MetaFont技术开创。虽然Donald Knuth在MetaFont及其后续的MetaPost中的理念常被视为图形用户界面(GUI)时代之前字体设计的遗留技术,但最近的趋势如可变字体表明某些原则的复兴。本文探讨了一种基于参数化设计原则的现代字体设计过程,特别是使用MetaPost。作者通过这种方法创建了两个可变字体,并以免费、开源的许可证发布。本文详细介绍了这一过程中的方法、工作流程和获得的见解。

[44] 基于目标增强共享融合的多模态讽刺解释生成
标题: Target-Augmented Shared Fusion-based Multimodal Sarcasm Explanation Generation
作者: Palaash Goel / Dushyant Singh Chauhan / Md Shad Akhtar
原文:   [英文]   [中文]  
备注: None
摘要:
讽刺是一种语言现象,旨在以固有的方式嘲讽某个目标(如实体、事件或人物)。多模态讽刺解释(MuSE)旨在通过自然语言解释揭示讽刺性帖子中意图的讽刺。尽管这一点很重要,但现有系统在生成解释时忽视了讽刺目标的重要性。在本文中,我们提出了一种基于目标增强共享融合的讽刺解释模型,简称TURBO。我们设计了一种新颖的共享融合机制,以利用图像及其标题之间的跨模态关系。TURBO假设讽刺的目标,并引导多模态共享融合机制学习解释中意图讽刺的复杂性。我们在MORE+数据集上评估了我们提出的TURBO模型。与多个基线和最先进模型的比较表明,TURBO的性能平均提高了3.3%。此外,我们在零次和一次设置中探索了大型语言模型(LLM)在我们的任务中的应用,发现尽管LLM生成的解释显著,但往往未能捕捉到讽刺的关键细微差别。此外,我们通过对TURBO生成的解释进行广泛的人类评估,发现其相较于其他系统更为优越。

[45] 使用大型语言模型进行实体链接以自动估算产品碳足迹
标题: Entity Linking using LLMs for Automated Product Carbon Footprint Estimation
作者: Steffen Castle / Julian Moreno Schneider / Leonhard Hennig / Georg Rehm
原文:   [英文]   [中文]  
备注: None
摘要:
对气候变化和可持续性的日益关注正促使制造商采取重大措施以减少其碳足迹。对于这些制造商来说,实现这一目标的第一步是识别其产品各个组成部分的环境影响。我们提出了一种利用大型语言模型(LLMs)的系统,通过使用LLMs扩展现有的组件信息,自动将制造商物料清单(BOMs)中的组件映射到生命周期评估(LCA)数据库条目。我们的方法减少了对手动数据处理的需求,为更易于实施的可持续性实践铺平了道路。

[46] RomanLens:潜在罗马化及其在大型语言模型多语言性中的作用
标题: RomanLens: Latent Romanization and its role in Multilinguality in LLMs
作者: Alan Saji / Jaavid Aktar Husain / Thanmay Jayakumar / Raj Dabre / Anoop Kunchukuttan / Mitesh M. Khapra / Ratish Puduppully
原文:   [英文]   [中文]  
备注: 18 pages, 18 figures
摘要:
大型语言模型(LLMs)在主要以英语为中心的语料库上训练时,表现出显著的多语言泛化能力。一个基本问题随之而来:LLMs是如何实现如此强大的多语言能力的?对于非拉丁字母的语言,我们研究了罗马化——使用拉丁字符表示非拉丁字母——在多语言处理中的桥梁作用。通过机械可解释性技术,我们分析了下一个词的生成,发现中间层经常在转换为本地文字之前以罗马化形式表示目标词,这一现象我们称之为潜在罗马化。此外,通过激活修补实验,我们证明了LLMs在本地和罗马化文字中以相似的方式编码语义概念,这表明存在共享的底层表示。此外,在向非拉丁语言翻译时,我们的研究发现,当目标语言以罗马化形式出现时,其表示在模型层中比本地文字更早出现。这些见解有助于更深入地理解LLMs中的多语言表示,并强调罗马化在促进语言迁移中的隐性作用。我们的工作为潜在改进多语言语言建模和可解释性提供了新的方向。

[47] 通过大间隔特征匹配和启发式方法实现分层文档解析
标题: Hierarchical Document Parsing via Large Margin Feature Matching and Heuristics
作者: Duong Anh Kiet
原文:   [英文]   [中文]  
备注: DocUI@AAAI-25, 2 pages, technical report
摘要:
我们在AAAI-25 VRD-IU挑战赛中取得了第一名。我们的方案结合了大间隔损失以提高特征区分能力,并采用启发式规则来优化层次关系。通过将基于深度学习的匹配策略与贪心算法相结合,我们在保持计算效率的同时显著提高了准确性。我们的方法在私有排行榜上达到了0.98904的准确率,证明了其在文档结构解析中的有效性。源代码可在此https URL公开获取。

[48] 忘掉你对大型语言模型评估的认知——大型语言模型就像变色龙
标题: Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
作者: Nurit Cohen-Inger / Yehonatan Elisha / Bracha Shapira / Lior Rokach / Seffi Cohen
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在公共基准测试中通常表现出色,但这些高分可能掩盖了对数据集特定表面线索的过度依赖,而非真正的语言理解。我们引入了变色龙基准过拟合检测器(C-BOD),这是一种通过参数化变换系统性地扭曲基准提示并检测LLMs过拟合的元评估框架。通过在保留语义内容和标签的同时重新措辞输入,C-BOD揭示了模型的性能是否由记忆的模式驱动。在使用26个领先的LLMs对MMLU基准进行评估时,我们的方法显示在适度扰动下平均性能下降2.15%,其中26个模型中的20个表现出统计显著差异。值得注意的是,基线准确率较高的模型在扰动下表现出更大的性能差异,而较大的LLMs对重新措辞更为敏感,这表明这两种情况可能过度依赖固定的提示模式。相比之下,Llama家族和基线准确率较低的模型表现出不显著的退化,表明对表面线索的依赖性较低。此外,C-BOD的数据集和模型无关设计允许轻松集成到训练管道中,以促进更稳健的语言理解。我们的研究结果挑战了社区超越排行榜分数,优先考虑LLM评估中的韧性和泛化能力。

[49] PerCul:基于故事驱动的波斯语大语言模型文化评估
标题: PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian
作者: Erfan Moosavi Monazzah / Vahid Rahimzadeh / Yadollah Yaghoobzadeh / Azadeh Shakery / Mohammad Taher Pilehvar
原文:   [英文]   [中文]  
备注: Accepted at NAACL 2025 Main Conference, the dataset is available on HuggingFace (see this https URL)
摘要:
大型语言模型主要反映西方文化,这主要是由于以英语为中心的训练数据的主导地位。这种不平衡带来了重大挑战,因为大型语言模型在各种背景下被广泛使用,但在非英语语言(包括波斯语)中的文化能力却没有得到充分评估。为了解决这一差距,我们引入了PerCul,这是一个精心构建的数据集,旨在评估大型语言模型对波斯文化的敏感性。PerCul包含基于故事的多项选择题,捕捉文化细微差别的场景。与现有的基准不同,PerCul由波斯语母语注释者参与策划,以确保真实性并防止使用翻译作为捷径。我们评估了几种最先进的多语言和波斯语特定的大型语言模型,为跨文化自然语言处理评估的未来研究奠定了基础。我们的实验表明,最佳闭源模型与普通人基线之间存在11.3%的差距,而使用最佳开源模型时,这一差距增加到21.3%。您可以从这里访问数据集:this https URL

[50] 多智能体协作用于多语言代码指令微调
标题: Multi-Agent Collaboration for Multilingual Code Instruction Tuning
作者: Jian Yang / Wei Zhang / Jiaxi Yang / Yibo Miao / Shanghaoran Quan / Zhenhe Wu / Qiyao Peng / Liqun Yang / Tianyu Liu / Zeyu Cui / Binyuan Hui / Junyang Lin
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,代码理解和生成方面的进展表明,在高质量指令数据集上进行微调的代码大语言模型(LLMs)可以获得强大的能力来解决广泛的代码相关任务。然而,大多数现有方法主要将每种编程语言视为孤立的个体,忽视了不同编程语言之间的知识转移。为了弥合不同编程语言之间的差距,我们引入了一种新颖的多智能体协作框架,以增强代码大语言模型的多语言指令微调。在该框架中,多个具有生成记忆的语言特定智能体组件协同工作,以高效地从一种语言向另一种语言转移知识。具体来说,我们首先从代码片段生成语言特定的指令数据,然后将生成的数据作为语言特定智能体的种子数据。多个语言特定智能体进行讨论和协作,以制定新的指令及其相应的解决方案(可以是新的编程语言或现有编程语言)。为了进一步促进跨语言转移,每个智能体将其生成历史存储为记忆,然后总结其优点和缺点。最终,高质量的多语言指令数据被用于鼓励不同编程语言之间的知识转移,以训练Qwen2.5-xCoder。在多语言编程基准测试上的实验结果表明,Qwen2.5-xCoder在共享通用知识方面表现优异,突显了其减少跨语言差距的潜力。

[51] 掩码增强自回归预测:减少注意力以学习更多
标题: Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More
作者: Xialie Zhuang / Zhikai Jia / Jianjin Li / Zhenyu Zhang / Li Shen / Zheng Cao / Shiwei Liu
原文:   [英文]   [中文]  
备注: 15 pages,7 figures
摘要:
大型语言模型(LLMs)在准确检索关键信息方面存在不足。为了解决这个问题,我们提出了掩码增强自回归预测(MEAP),这是一种简单而有效的训练范式,它将掩码语言建模(MLM)无缝集成到下一个词预测(NTP)中,以增强后者的上下文检索能力。具体来说,MEAP首先随机掩盖一小部分输入标记,然后直接使用仅解码器的Transformer执行标准的下一个词预测自回归。MEAP消除了MLM对双向注意力或编码器-解码器架构的需求,在预训练或推理过程中不会产生额外的计算开销。大量实验表明,MEAP在关键信息检索和长上下文推理任务上显著优于NTP,同时在常识推理任务上表现相当或更好。MEAP的优势也延伸到有监督的微调,在“中间丢失”场景中表现出显著优势,比NTP高出11.77个百分点。我们的分析表明,MEAP的有效性源于其通过集中于较少的非掩码标记来促进更可区分的注意力得分的能力。这一机制提高了模型对任务相关信号的关注,同时减轻了外围上下文的影响。这些发现使MEAP成为大型语言模型的一种有前途的训练范式。

[52] 文本中的企业漂绿检测——综述
标题: Corporate Greenwashing Detection in Text - a Survey
作者: Tom Calamai / Oana Balalau / Théo Le Guenedal / Fabian M. Suchanek
原文:   [英文]   [中文]  
备注: 35 pages, 1 figure, 21 pages (appendix), working paper
摘要:
绿色洗白是指试图误导公众关于某个实体(如国家或公司)对环境的影响。我们对科学文献进行了全面调查,探讨了使用自然语言处理方法来识别可能具有误导性的与气候相关的企业沟通,这些沟通可能是绿色洗白的表现。我们将绿色洗白的检测分解为中间任务,并回顾了每个任务的最新方法。我们讨论了数据集、方法和结果,以及其局限性和未解决的挑战。我们还概述了整个领域的发展程度,并指出了未来的研究方向。

[53] 对话响应生成中的语法控制用于语言学习聊天机器人
标题: Grammar Control in Dialogue Response Generation for Language Learning Chatbots
作者: Dominik Glandorf / Peng Cui / Detmar Meurers / Mrinmaya Sachan
原文:   [英文]   [中文]  
备注: Accepted to NAACL 2025
摘要:
基于大型语言模型的聊天机器人为语言学习者提供了廉价的对话练习机会。然而,它们很难根据学习者当前的需求(如语法)来控制语言形式。我们通过将对话响应生成模型与语法技能的教学资源库相结合,来控制聊天机器人对话练习中的语法。我们还探讨了这种控制如何帮助学习者使用特定的语法。我们全面评估了用于语法控制的对话响应生成的提示、微调和解码策略。在允许轻微的响应质量损失的情况下,策略性地解码Llama3的表现优于GPT-3.5。我们的模拟预测了语法控制的响应,以支持适应学习者熟练程度的语法习得。现有的语言学习聊天机器人和二语习得研究可以从这些功能中受益。代码可在GitHub上获取。

[54] 自发通信的无监督翻译
标题: Unsupervised Translation of Emergent Communication
作者: Ido Levy / Orr Paradise / Boaz Carmeli / Ron Meir / Shafi Goldwasser / Yonatan Belinkov
原文:   [英文]   [中文]  
备注: 19 pages (including appendix and bibliography), Accepted to AAAI 2025
摘要:
新兴通信(EC)为我们提供了一个独特的视角,可以观察在代理共同训练以实现共享目标时自主形成的语言系统。然而,解释EC并评估其与自然语言(NL)的关系是困难的。本研究采用无监督神经机器翻译(UNMT)技术来解码在具有不同任务复杂性的指称游戏中形成的EC,这些复杂性受环境语义多样性的影响。我们的研究结果表明,UNMT在翻译EC方面具有潜力,说明由语义多样性特征化的任务复杂性增强了EC的可翻译性,而具有受限语义变异性的高任务复杂性则表现出务实的EC,尽管难以解释,但仍适合翻译。据我们所知,这项研究是首次尝试在没有平行数据的情况下翻译EC。

[55] O1 嵌入器:让检索器在行动前思考
标题: O1 Embedder: Let Retrievers Think Before Action
作者: Ruin Yan / Zheng Liu / Defu Lian
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)的不断增强的能力已经彻底改变了人们获取和利用信息的方式。值得注意的是,LLMs在执行细粒度数据表示方面表现出色,这有助于精确的信息检索。它们还能够基于外部参考生成高质量的答案,从而生产出有用的知识。最近推出的推理模型,如OpenAI O1和DeepSeek R1,标志着又一个飞跃,突显了LLMs在给出最终答案之前逐步思考的能力。这一突破显著提高了处理复杂任务的能力,例如编码和数学证明。 受到这一进展的启发,我们旨在为检索模型开发类似的能力,这在解决该领域的关键挑战方面具有巨大潜力,包括多任务检索、零样本检索以及需要对复杂关系进行深入推理的任务。基于这一动机,我们提出了一种名为O1 Embedder的新方法,该方法在为目标文档进行检索之前,为输入查询生成有用的思考。为了实现这一目标,我们克服了两个技术难题。首先,我们设计了一个数据合成工作流程,通过从LLM专家生成初始思考并随后使用检索委员会进行优化,创建了O1 Embedder的训练信号。其次,我们优化了训练过程,使预训练模型能够通过行为克隆生成检索思考,并通过对比学习执行密集检索。我们的方法通过全面的实验进行了评估,在12个流行数据集上取得了显著的改进,涵盖了域内和域外场景。这些结果突显了O1 Embedder的卓越准确性和泛化能力,为下一代信息检索基础模型的发展铺平了道路。

[56] 我们无法用现有的词汇理解人工智能
标题: We Can't Understand AI Using our Existing Vocabulary
作者: John Hewitt / Robert Geirhos / Been Kim
原文:   [英文]   [中文]  
备注: Position paper
摘要:
这篇立场论文认为,为了理解人工智能,我们不能依赖现有的人类词汇。相反,我们应该努力创造新词:这些新词可以代表我们希望教给机器的精确人类概念,或者我们需要学习的机器概念。我们从一个前提出发,即人类和机器拥有不同的概念。这意味着可解释性可以被框定为一个沟通问题:人类必须能够引用和控制机器概念,并将人类概念传达给机器。我们相信,通过创造新词来建立一个共享的人机语言,可以解决这个沟通问题。成功的新词能够实现有用的抽象:既不过于详细,以便在多种情境中可重用,也不过于高层次,以便传达精确的信息。作为概念验证,我们展示了如何通过“长度新词”来控制大型语言模型的响应长度,而“多样性新词”则允许采样更多样化的响应。综上所述,我们认为无法仅用现有词汇来理解人工智能,通过新词的扩展可以创造更好地控制和理解机器的机会。

[57] DPO-Shift:直接偏好优化分布的转变
标题: DPO-Shift: Shifting the Distribution of Direct Preference Optimization
作者: Xiliang Yang / Feng Jiang / Qianen Zhang / Lei Zhao / Xiao Li
原文:   [英文]   [中文]  
备注: None
摘要:
直接偏好优化(Direct Preference Optimization, DPO)及其变体在使语言模型与人类偏好对齐方面变得越来越流行。这些方法旨在教会模型更好地区分被选择(或偏好)和被拒绝(或不偏好)的响应。然而,先前的研究发现,在训练过程中,被选择响应的概率常常会下降,这一现象被称为似然位移。为了解决这一挑战,在这项工作中,我们引入了\method,以可控地改变被选择概率的分布。然后,我们展示了\method在提高被选择概率和牺牲奖励边际之间存在一个基本的权衡,这得到了理论分析和实验验证的支持。此外,我们证明了\method在下游任务(如MT-Bench和一个设计的胜率实验)中优于DPO。我们相信,这项研究表明,DPO的似然位移问题可以通过一个简单且有理论依据的解决方案得到有效缓解。我们的代码可以在此https URL获取。

[58] 可处理的变压器用于灵活的条件生成
标题: Tractable Transformers for Flexible Conditional Generation
作者: Anji Liu / Xuejie Liu / Dayuan Zhao / Mathias Niepert / Yitao Liang / Guy Van den Broeck
原文:   [英文]   [中文]  
备注: None
摘要:
非自回归(NAR)生成模型因其能够比自回归(AR)模型更系统地处理多样的条件生成任务而具有重要价值,后者受到顺序依赖要求的限制。最近在NAR模型方面的进展,例如扩散语言模型,已经在无条件生成方面展示了优于同等规模AR模型(如GPT)的性能。然而,这种改进并不总是能带来条件生成性能的提升。我们表明,这一差距的一个关键原因是难以推广到训练期间未见过的条件概率查询。因此,强大的无条件生成性能并不保证高质量的条件生成。本文提出了可处理变压器(Tracformer),这是一种基于变压器的生成模型,对不同的条件生成任务更具鲁棒性。与仅依赖于从完整输入中提取的全局上下文特征的现有模型不同,Tracformer结合了稀疏变压器编码器,以捕捉局部和全局上下文信息。这些信息通过解码器进行条件生成。实证结果表明,与最近的扩散和AR模型基线相比,Tracformer在文本建模上的条件生成性能达到了最新水平。

[59] 马普杜贡语动词形式中构词词根的词汇类别
标题: Lexical categories of stem-forming roots in Mapudüngun verb forms
作者: Andrés Chandía
原文:   [英文]   [中文]  
备注: 22 pages, 2 large tables, 2 sample tables
摘要:
在为马普切语开发形态分析计算系统并使用来自不同作者和风格的文本进行评估后,有必要验证用作实现该工具基础的来源的语言假设。在本研究中,主要关注的是对用于开发形态分析系统的来源中被识别为动词的马普切语根词的词汇类别分类。这一词汇类别修订的结果直接有利于计算分析器,因为它们在被验证后立即实施。此外,希望这些结果能帮助澄清关于马普切语词汇类别的一些不确定性。这项工作涉及识别真正动词根的配价的初步任务,其结果将在后续的工作中呈现,以补充本文。

[60] BiaSWE:一个用于瑞典语厌女症检测的专家标注数据集
标题: BiaSWE: An Expert Annotated Dataset for Misogyny Detection in Swedish
作者: Kätriin Kukk / Danila Petrelli / Judit Casademont / Eric J. W. Orlowski / Michał Dzieliński / Maria Jacobson
原文:   [英文]   [中文]  
备注: To appear at NoDaLiDa 2025
摘要:
在本研究中,我们介绍了创建 BiaSWE 的过程,这是一个专门为瑞典语中的厌女症检测而设计的专家标注数据集。为了应对瑞典语中厌女症的文化和语言特异性,我们与社会科学和人文学科的专家合作。我们的跨学科团队开发了一种严格的标注过程,结合了领域知识和语言专业知识,以捕捉瑞典语环境中厌女症的细微差别。这种方法确保了数据集不仅具有文化相关性,还与低资源语言的偏见检测的更广泛努力保持一致。该数据集及其标注指南已公开供进一步研究使用。

[61] FoQA:法罗语问答数据集
标题: FoQA: A Faroese Question-Answering Dataset
作者: Annika Simonsen / Dan Saattrup Nielsen / Hafsteinn Einarsson
原文:   [英文]   [中文]  
备注: Camera-ready version for RESOURCEFUL workshop, 2025
摘要:
我们介绍了FoQA,这是一个包含2,000个样本的法罗语抽取式问答(QA)数据集,使用结合大型语言模型(LLMs)和人工验证的半自动化方法创建。该数据集是从法罗语维基百科文章中生成的,首先使用GPT-4-turbo进行初始问答生成,然后通过重新措辞问题以增加复杂性,并由母语者进行验证以确保质量。我们提供了多个模型(包括LLMs和BERT)在FoQA上的基线性能指标,展示了其在评估法罗语问答性能方面的有效性。该数据集以三种版本发布:一个经过验证的2,000个样本集,一个包含所有10,001个生成样本的完整集,以及一个包含2,395个被拒绝样本的集合用于错误分析。

[62] 从嘈杂的自动语音识别输出中自动起草警察报告:一种以信任为中心的大型语言模型方法
标题: Auto-Drafting Police Reports from Noisy ASR Outputs: A Trust-Centered LLM Approach
作者: Param Kulkarni / Yingchi Liu / Hao-Ming Fu / Shaohua Yang / Isuru Gunasekara / Matt Peloquin / Noah Spitzer-Williams / Xiaotian Zhou / Xiaozhong Liu / Zhengping Ji / Yasser Ibrahim
原文:   [英文]   [中文]  
备注: None
摘要:
在当今世界,实现促进对执法部门的信任与保护警官和公民权利之间的微妙平衡,继续成为一个紧迫的研究和产品挑战。为了追求公平和透明,本研究提出了一种创新的人工智能驱动系统,旨在从复杂、嘈杂和多角色的对话数据中生成警察报告草稿。我们的方法智能地提取执法互动的关键要素,并将其纳入草稿中,生成的结构化叙述不仅质量高,而且加强了问责制和程序清晰度。该框架有潜力改变报告流程,确保未来的警务实践中有更大的监督、一致性和公平性。我们系统的演示视频可以通过此链接访问:https URL Y-kpCHNO/view?usp=sharing

[63] 大型语言模型作为人类语言认知理论的代理
标题: Large Language Models as Proxies for Theories of Human Linguistic Cognition
作者: Imry Ziv / Nur Lan / Emmanuel Chemla / Roni Katzir
原文:   [英文]   [中文]  
备注: None
摘要:
我们考虑当前大型语言模型(LLMs)在研究人类语言认知中的可能作用。我们关注将这些模型用作认知理论的代理,这些理论在其表示和学习中相对语言中立,但在关键方面与当前的LLMs有所不同。我们在两类问题的背景下说明了将LLMs用作认知理论代理的这种潜在用途:(a)目标理论是否能解释从给定语料库中习得给定模式;以及(b)目标理论是否使得某个类型学上已证实的模式比另一个类型学上未证实的模式更容易习得。对于这两个问题,我们基于最近的文献展示了当前LLMs如何可能提供帮助,但我们注意到,目前这种帮助是相当有限的。

[64] 增强语言模型对否定的鲁棒性
标题: Making Language Models Robust Against Negation
作者: MohammadHossein Rezaei / Eduardo Blanco
原文:   [英文]   [中文]  
备注: Accepted to NAACL 2025
摘要:
否定一直是语言模型面临的长期挑战。先前的研究表明,它们在许多自然语言理解任务中都难以处理否定。在这项工作中,我们提出了一种自监督方法,以增强语言模型对否定的鲁棒性。我们引入了一项新任务,称为下句极性预测(NSPP),以及下句预测(NSP)任务的一个变体。我们展示了在我们的任务上进一步预训练的BERT和RoBERTa在九个与否定相关的基准测试中表现优于现成版本。最显著的是,我们的预训练任务在CondaQA上实现了1.8%到9.1%的提升,CondaQA是一个需要对否定进行推理的大型问答语料库。

[65] WHODUNIT:推理故事中罪犯检测的评估基准
标题: WHODUNIT: Evaluation benchmark for culprit detection in mystery stories
作者: Kshitij Gupta
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一个新颖的数据集,名为WhoDunIt,用于评估大型语言模型(LLM)在叙事背景下的演绎推理能力。该数据集由开放域的推理小说和短篇故事构建,挑战LLM在阅读和理解故事后识别犯罪者。为了评估模型的鲁棒性,我们应用了一系列字符级别的名字增强,包括原始名字、名字互换,以及用流行话语中知名的真实和/或虚构实体进行替换。我们还使用各种提示风格来研究提示对演绎推理准确性的影响。 我们对最先进的模型进行了评估研究,特别是GPT-4o、GPT-4-turbo和GPT-4o-mini,通过多次试验和多数响应选择来确保可靠性。结果表明,虽然LLM在未修改文本上表现可靠,但在某些名字替换,尤其是那些广为人知的名字替换时,准确性会下降。该数据集可在此公开获取。

[66] 一种用于自动医疗诊断的高级自然语言处理框架:结合DeBERTa和动态上下文位置门控
标题: An Advanced NLP Framework for Automated Medical Diagnosis with DeBERTa and Dynamic Contextual Positional Gating
作者: Mohammad Ali Labbaf Khaniki / Sahabeh Saadati / Mohammad Manthouri
原文:   [英文]  
备注: None
摘要:
本文提出了一种新颖的自然语言处理(NLP)框架,通过在数据增强、特征提取和分类中的先进技术集成来提升医疗诊断。所提出的方法采用反向翻译生成多样化的释义数据集,提高了分类任务的鲁棒性并减轻了过拟合。利用具有解码增强和解耦注意力的BERT(DeBERTa)与动态上下文位置门控(DCPG),该模型捕捉细粒度的上下文和位置关系,基于语义上下文动态调整位置信息的影响,以生成高质量的文本嵌入。在分类方面,使用基于注意力的前馈神经网络(ABFNN),有效地聚焦于最相关的特征以提高决策准确性。应用于症状、临床笔记和其他医学文本的分类,该架构展示了其解决医学数据复杂性的能力。数据增强、上下文嵌入生成和高级分类机制的结合提供了一种稳健且准确的诊断工具,具有在自动化医疗诊断和临床决策支持中的潜在应用。该方法展示了所提出的NLP框架在医疗诊断中的有效性,取得了99.78%的准确率、99.72%的召回率、99.79%的精确率和99.75%的F1分数。这些指标不仅强调了模型在以卓越的精确性和可靠性分类医学文本方面的强大性能,还突显了其相较于现有方法的优越性,使其成为自动化诊断系统的一个极具前景的工具。

[67] 打破偏见:关于可推广剪枝策略的局限性
标题: Breaking Down Bias: On The Limits of Generalizable Pruning Strategies
作者: Sibo Ma / Alejandro Salinas / Peter Henderson / Julian Nyarko
原文:   [英文]   [中文]  
备注: 28 pages, 9 figures, 1 table
摘要:
我们采用模型剪枝来研究大型语言模型(LLMs)如何概念化种族偏见,以及是否存在一种可行的通用化偏见缓解策略。我们的分析得出了一些新的见解。我们发现,剪枝可以成为一种有效的方法来减少偏见,而不会显著增加模型异常行为。基于神经元的剪枝策略通常比剪枝整个注意力头的方法效果更好。然而,我们的结果也表明,当剪枝策略变得更加通用时,无论哪种方法的有效性都会迅速下降。例如,一个在金融决策背景下训练以消除种族偏见的模型在商业交易中的偏见问题上表现出较差的泛化能力。总体而言,我们的分析表明,种族偏见在语言模型中仅部分地被表示为一个通用概念。偏见的另一部分高度依赖于具体的上下文,这表明通用化的缓解策略可能效果有限。我们的研究结果对围绕人工智能的法律框架具有重要意义。特别是,它们表明一个有效的缓解策略应包括在特定使用场景中部署模型的人员承担法律责任。

[68] 审计语言模型 API 中的提示缓存
标题: Auditing Prompt Caching in Language Model APIs
作者: Chenchen Gu / Xiang Lisa Li / Rohith Kuditipudi / Percy Liang / Tatsunori Hashimoto
原文:   [英文]   [中文]  
备注: 20 pages, 7 figures
摘要:
大型语言模型(LLMs)中的提示缓存会导致数据依赖的时间变化:缓存的提示处理速度比未缓存的提示更快。这些时间差异引入了侧信道时间攻击的风险。例如,如果缓存是用户共享的,攻击者可以通过快速的API响应时间识别缓存的提示,从而了解其他用户提示的信息。由于提示缓存可能导致隐私泄露,API提供商的缓存策略透明性非常重要。为此,我们开发并进行统计审计,以检测现实世界中LLM API提供商的提示缓存。我们在包括OpenAI在内的七个API提供商中检测到用户之间的全局缓存共享,导致用户提示的潜在隐私泄露。由于提示缓存导致的时间变化也可能导致模型架构信息的泄露。具体来说,我们发现证据表明OpenAI的嵌入模型是一个仅解码器的Transformer,这在此前并未公开。