scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CL方向,2025年7月11日更新论文50
[1] 在预训练中植入,在微调中动摇:大型语言模型中认知偏见起源的案例研究
标题: Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs
作者: Itay Itzhak / Yonatan Belinkov / Gabriel Stanovsky
原文:   [英文]   [中文]  
备注: CoLM 2025
摘要:
大型语言模型(LLMs)表现出认知偏见——即系统性的非理性决策倾向,类似于人类的表现。先前的研究发现,这些偏见在不同模型之间有所不同,并且可以通过指令微调而被放大。然而,目前尚不清楚这些偏见的差异是源于预训练、微调,还是由于训练的随机性导致的随机噪声。我们提出了一种两步因果实验方法来解开这些因素。首先,我们使用不同的随机种子多次微调模型,以研究训练随机性如何影响超过30种认知偏见。其次,我们引入了“交叉微调”——在模型之间交换指令数据集,以隔离偏见来源。此交换使用了导致不同偏见模式的数据集,直接测试偏见是否依赖于数据集。我们的研究结果表明,虽然训练随机性引入了一些变异性,但偏见主要由预训练塑造:具有相同预训练骨干的模型表现出更相似的偏见模式,而不是仅共享微调数据的模型。这些见解表明,理解微调模型中的偏见需要考虑其预训练起源,而不仅仅是微调效果。这一视角可以指导未来制定评估和减轻LLMs偏见的原则性策略。

[2] 提示扰动揭示大型语言模型调查回答中的类人偏见
标题: Prompt Perturbations Reveal Human-Like Biases in LLM Survey Responses
作者: Jens Rupprecht / Georg Ahnert / Markus Strohmaier
原文:   [英文]   [中文]  
备注: 18 pages, 17 figures
摘要:
大型语言模型(LLMs)在社会科学调查中越来越多地被用作人类受试者的代理,但其可靠性和对已知反应偏差的敏感性尚不清楚。本文研究了LLMs在规范性调查环境中的反应稳健性——我们在世界价值观调查(WVS)的问题上测试了九种不同的LLMs,应用了包括问题措辞和答案选项结构在内的11种全面扰动,模拟了超过167,000次访谈。在此过程中,我们不仅揭示了LLMs对扰动的脆弱性,还发现所有测试的模型都表现出一致的\textit{新近性偏差},其强度各异,且不成比例地偏向于最后呈现的答案选项。虽然较大的模型通常更为稳健,但所有模型仍对语义变化(如释义)和组合扰动敏感。通过应用一系列扰动,我们揭示了LLMs在一定程度上与人类识别的调查反应偏差一致。这强调了在使用LLMs生成合成调查数据时,设计提示和稳健性测试的重要性。

[3] SynthTextEval:高风险领域的合成文本数据生成与评估
标题: SynthTextEval: Synthetic Text Data Generation and Evaluation for High-Stakes Domains
作者: Krithika Ramesh / Daniel Smolyak / Zihao Zhao / Nupoor Gandhi / Ritu Agarwal / Margrét Bjarnadóttir / Anjalie Field
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了SynthTextEval,这是一款用于对合成文本进行全面评估的工具包。大型语言模型(LLM)输出的流畅性使得合成文本在许多应用中具有潜在的可行性,例如在高风险领域的AI系统开发和部署中降低隐私泄露的风险。然而,要实现这一潜力,需要在多个维度上对合成数据进行原则性的一致评估:其在下游系统中的效用、这些系统的公平性、隐私泄露的风险、与源文本的总体分布差异,以及来自领域专家的定性反馈。SynthTextEval允许用户对他们上传或使用工具包的生成模块生成的合成数据在所有这些维度上进行评估。虽然我们的工具包可以用于任何数据,但我们特别强调了其在两个高风险领域的数据集上的功能和有效性:医疗和法律。通过整合和标准化评估指标,我们旨在提高合成文本的可行性,从而在AI开发中实现隐私保护。

[4] 语言模型的医学红队协议:用户视角在医疗环境中的重要性
标题: Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings
作者: Minseon Kim / Jean-Philippe Corbeil / Alessandro Sordoni / Francois Beaulieu / Paul Vozila
原文:   [英文]   [中文]  
备注: None
摘要:
随着大型语言模型(LLMs)性能的不断提升,它们在包括医学领域在内的广泛领域中的应用也在不断扩大。将LLMs整合到医学应用中引发了关键的安全问题,特别是因为其用户角色多样,例如患者和临床医生,以及模型输出可能直接影响人类健康的潜力。尽管医学LLMs具有特定领域的能力,但之前的安全评估主要集中在一般安全基准上。在本文中,我们引入了一种针对医学领域的安全评估协议,从患者用户和临床医生用户的角度出发,结合一般安全评估,定量分析医学LLMs的安全性。我们通过构建PatientSafetyBench,填补了文献中的空白,该基准包含5个关键类别的466个样本,从患者的角度衡量安全性。我们将我们的红队协议应用于MediPhi模型集合作为案例研究。据我们所知,这是首次通过有针对性的红队测试从患者、临床医生和一般用户三个不同的视角定义医学LLMs的安全评估标准,为在医学领域的更安全部署奠定了基础。

[5] 背景语音对协作小组中打断检测的影响
标题: The Impact of Background Speech on Interruption Detection in Collaborative Groups
作者: Mariah Bradford / Nikhil Krishnaswamy / Nathaniel Blanchard
原文:   [英文]   [中文]  
备注: Long Paper AIED 2025
摘要:
打断在协作学习中起着至关重要的作用,它塑造了小组互动并影响知识构建。人工智能驱动的支持可以帮助教师监控这些互动。然而,以往关于打断检测和解释的大多数研究都是在单一对话环境中进行的,且音频相对干净。部署在课堂中用于小组协作学习的人工智能代理将需要应对多重并发对话——在这种情况下,重叠语音将无处不在,打断需要通过其他方式识别。在这项工作中,我们分析了单一对话和多组对话环境中的打断检测。然后,我们创建了一种最先进的打断识别方法,该方法对重叠语音具有鲁棒性,因此可以在课堂中部署。此外,我们的工作突出了关于打断在协作小组互动中如何表现的有意义的语言和韵律信息。我们的研究也为未来的工作铺平了道路,以便在跟踪小组对话时考虑来自多个小组的重叠语音的影响。

[6] 多智能体检索增强框架用于基于证据的反健康错误信息反驳
标题: Multi-Agent Retrieval-Augmented Framework for Evidence-Based Counterspeech Against Health Misinformation
作者: Anirban Saha Anik / Xiaoying Song / Elliott Wang / Bryan Wang / Bengisu Yarimbas / Lingzi Hong
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)结合检索增强生成(RAG)在生成针对错误信息的反驳言论方面展示了强大的能力。然而,目前的研究依赖于有限的证据,并且对最终输出的控制较少。为了解决这些挑战,我们提出了一种多代理检索增强框架,用于生成针对健康错误信息的反驳言论,结合多个LLMs以优化知识检索、证据增强和响应优化。我们的方法整合了静态和动态证据,确保生成的反驳言论相关、基础扎实且最新。我们的方法在礼貌性、相关性、信息量和事实准确性方面优于基线方法,证明了其在生成高质量反驳言论方面的有效性。为了进一步验证我们的方法,我们进行了消融研究以验证框架中每个组件的必要性。此外,人类评估显示,优化显著提高了反驳言论的质量,并获得了人类的偏好。

[7] GNN-CNN:一种用于文本表示的卷积和图神经网络的高效混合模型
标题: GNN-CNN: An Efficient Hybrid Model of Convolutional and Graph Neural Networks for Text Representation
作者: Fardin Rastakhiz
原文:   [英文]   [中文]  
备注: None
摘要:
时间、成本和能效是深度学习(DL)中的关键考虑因素,尤其是在处理长文本时。变压器模型代表了当前的技术前沿,但其计算复杂度与输入长度呈二次关系,使其在处理长文档时效率低下。本研究介绍了一种新颖的模型架构,该架构结合了图神经网络(GNNs)和卷积神经网络(CNNs),并集成了实时、端到端的图生成机制。该模型处理字符级输入的紧凑批次,无需填充或截断。为了在保持高速和效率的同时增强性能,模型通过高效的字典查找整合了来自大型语言模型(LLMs)的信息,如标记嵌入和情感极性。它使用CNNs捕捉局部上下文模式,通过基于格子的图结构扩展局部感受野,并采用小世界图来聚合文档级信息。生成的图展示了有意义的语义组织的结构特性,平均聚类系数约为0.45,平均最短路径长度在4到5之间。该模型在多个文本分类任务中进行了评估,包括情感分析和新闻分类,并与最先进的模型进行了比较。实验结果证实了所提出模型的效率和竞争性能。

[8] MedReadCtrl:通过可读性控制的指令学习实现个性化医学文本生成
标题: MedReadCtrl: Personalizing medical text generation with readability-controlled instruction learning
作者: Hieu Tran / Zonghai Yao / Won Seok Jang / Sharmin Sultana / Allen Chang / Yuan Zhang / Hong Yu
原文:   [英文]   [中文]  
备注: Equal contribution for the first two authors. arXiv admin note: text overlap with arXiv:2406.09205
摘要:
生成式人工智能在医疗保健领域展示了强大的潜力,从临床决策支持到改善结果的面向患者的聊天机器人。部署的一个关键挑战是有效的人机沟通,其中内容必须既个性化又易于理解。我们介绍了MedReadCtrl,这是一种可控可读性指令调优框架,使大型语言模型(LLM)能够在不影响意义的情况下调整输出的复杂性。对九个数据集和三个跨医疗和一般领域任务的评估表明,MedReadCtrl在可读性指令遵循错误方面显著低于GPT-4(例如,在ReadMe上为1.39对1.59,p<0.001),并在未见过的临床任务上取得了显著提升(例如,在MTSamples上ROUGE-L提高了14.7,SARI提高了6.18)。专家一致更偏好MedReadCtrl(71.7%对23.3%),尤其是在低识字水平时。这些提升反映了MedReadCtrl能够将临床内容重构为可访问的、与可读性对齐的语言,同时保留医学意图,提供了一种可扩展的解决方案,以支持患者教育并扩大对人工智能支持的护理的公平访问。

[9] 合成电子健康记录驱逐:通过大型语言模型增强的合成电子健康记录数据提升驱逐社会决定因素检测
标题: SynthEHR-Eviction: Enhancing Eviction SDoH Detection with LLM-Augmented Synthetic EHR Data
作者: Zonghai Yao / Youxia Zhao / Avijit Mitra / David A. Levy / Emily Druhl / Jack Tsai / Hong Yu
原文:   [英文]   [中文]  
备注: Equal contribution for the first two authors
摘要:
驱逐是一个重要但研究不足的健康社会决定因素(SDoH),与住房不稳定、失业和心理健康有关。虽然驱逐信息出现在非结构化的电子健康记录(EHRs)中,但很少在结构化字段中编码,限制了下游应用。我们引入了SynthEHR-Eviction,这是一种可扩展的流程,结合了大型语言模型(LLMs)、人机协作标注和自动化提示优化(APO),用于从临床笔记中提取驱逐状态。利用这一流程,我们创建了迄今为止最大的公开驱逐相关SDoH数据集,包含14个细化类别。经过微调的LLMs(例如,Qwen2.5,LLaMA3)在SynthEHR-Eviction上训练,在人工验证数据上实现了88.8%(驱逐)和90.3%(其他SDoH)的宏F1分数,优于GPT-4o-APO(87.8%,87.3%)、GPT-4o-mini-APO(69.1%,78.1%)和BioBERT(60.7%,68.3%),同时支持在各种模型规模上进行成本效益高的部署。该流程减少了超过80%的标注工作量,加速了数据集创建,实现了可扩展的驱逐检测,并推广到其他信息提取任务。

[10] 走向可解释的时间序列基础模型
标题: Towards Interpretable Time Series Foundation Models
作者: Matthieu Boileau / Philippe Helluy / Jeremy Pawlus / Svitlana Vyetrenko
原文:   [英文]   [中文]  
备注: International Conference on Machine Leaning (ICML) 2025 Workshop on Foundation Models for Structured Data
摘要:
在本文中,我们研究了将时间序列推理能力蒸馏到小型、指令调优的语言模型中,以此作为构建可解释的时间序列基础模型的步骤。我们利用一个合成的均值回复时间序列数据集,该数据集具有系统变化的趋势和噪声水平,通过一个大型多模态模型生成自然语言注释,并使用这些注释来监督紧凑型Qwen模型的微调。我们引入了评估指标来评估蒸馏推理的质量——重点关注趋势方向、噪声强度和极值定位——并展示了经过训练的模型获得了有意义的解释能力。我们的结果突出了将时间序列理解压缩到轻量级、具备语言能力的模型中的可行性,这些模型适合于设备上或隐私敏感的部署。此项工作为开发能够用自然语言解释时间模式的小型可解释模型提供了一个具体的基础。

[11] SAND:通过自学行动审议提升大型语言模型代理
标题: SAND: Boosting LLM Agents with Self-Taught Action Deliberation
作者: Yu Xia / Yiran Jenny Shen / Junda Wu / Tong Yu / Sungchul Kim / Ryan A. Rossi / Lina Yao / Julian McAuley
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLM)代理通常通过对ReAct风格的专家轨迹进行监督微调或通过对成对回合的偏好优化来进行调整。这些方法大多专注于模仿特定的专家行为或优先选择某些推理思路和行动,而不是被拒绝的那些。然而,如果不对替代行动进行推理和比较,使用这些方法微调的LLM代理可能会因为有限的行动空间探索而过度承诺于看似合理但次优的行动。为了解决这个问题,本文提出了自学行动审议(SAND)框架,使LLM代理能够在做出决定之前明确地对候选行动进行审议。为了应对在大行动空间和步骤级行动评估中何时以及审议什么的挑战,我们结合了自一致性行动采样和执行引导的行动批判,以帮助使用LLM代理的基础模型综合逐步的行动审议思路。通过迭代的方式,这些审议轨迹随后用于微调LLM代理本身。在两个具有代表性的交互式代理任务上的评估中,SAND相较于初始的监督微调平均提高了20%,并且也优于最先进的代理调整方法。

[12] RLEP:用于大型语言模型推理的经验回放强化学习
标题: RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning
作者: Hongzhi Zhang / Jia Fu / Jingyuan Zhang / Kai Fu / Qi Wang / Fuzheng Zhang / Guorui Zhou
原文:   [英文]  
备注: this https URL
摘要:
强化学习(RL)对于大型语言模型来说是一项耗能巨大的工作:训练可能不稳定,策略可能逐渐偏离其预训练权重。我们提出了\emph{RLEP}——带有经验重放的强化学习——一个两阶段的框架,首先收集经过验证的轨迹,然后在后续训练中重放它们。在每次更新步骤中,策略在小批量上进行优化,这些小批量将新生成的回合与这些重放的成功案例混合在一起。通过重放高质量的示例,RLEP引导模型远离无果的探索,将学习集中在有前途的推理路径上,并提供更快的收敛速度和更强的最终性能。在Qwen2.5-Math-7B基础模型上,RLEP以显著更少的更新次数达到基线峰值准确率,并最终超越它,将AIME-2024的准确率从38.2%提高到39.9%,AIME-2025从19.8%提高到22.3%,AMC-2023从77.0%提高到82.2%。我们的代码、数据集和检查点在此https URL上公开可用,以促进可重复性和进一步研究。

[13] 机器胡扯:刻画大型语言模型中对真相的突现性漠视
标题: Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models
作者: Kaiqu Liang / Haimin Hu / Xuandong Zhao / Dawn Song / Thomas L. Griffiths / Jaime Fernández Fisac
原文:   [英文]   [中文]  
备注: Project page, code & data: this https URL
摘要:
根据哲学家哈里·法兰克福的概念,废话指的是那些在陈述时不考虑其真实性的言论。虽然之前的研究已经探讨了大型语言模型(LLM)的幻觉和迎合性,但我们提出了机器废话作为一个总体的概念框架,这可以让研究人员描述LLM中更广泛的真实性丧失现象,并揭示其潜在机制。我们引入了废话指数,这是一种新颖的度量方法,用于量化LLM对真相的漠视,并提出了一种互补的分类法,分析四种定性的废话形式:空洞的修辞、模棱两可、含糊其辞和未经验证的声明。我们在Marketplace数据集、政治中立性数据集以及我们新设计的BullshitEval基准(涵盖100个AI助手的2400个场景)上进行了实证评估,专门用于评估机器废话。我们的结果表明,通过人类反馈的强化学习(RLHF)进行模型微调显著加剧了废话,而推理时的思维链(CoT)提示显著放大了特定的废话形式,特别是空洞的修辞和模棱两可。我们还观察到在政治背景中普遍存在机器废话,其中含糊其辞是主要策略。我们的研究结果突显了AI对齐中的系统性挑战,并为实现更真实的LLM行为提供了新的见解。

[14] 计划微调:训练后语言模型学习逐步规划以解决复杂问题
标题: PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving
作者: Mihir Parmar / Palash Goyal / Xin Liu / Yiwen Song / Mingyang Ling / Chitta Baral / Hamid Palangi / Tomas Pfister
原文:   [英文]   [中文]  
备注: 15 Pages
摘要:
最近,将复杂问题分解为简单子任务——这是类人自然规划的关键部分——以解决给定问题,显著提升了大型语言模型(LLMs)的性能。然而,在后训练阶段利用这种规划结构来提升较小的开源LLMs的性能仍然未被充分探索。基于此动机,我们引入了PLAN-TUNING,这是一种统一的后训练框架,其(i) 从大规模LLMs中提取合成任务分解(称为“规划轨迹”),并(ii) 通过设计的监督和强化学习目标微调较小的模型,以模拟这些规划过程,从而提高复杂推理能力。在GSM8k和MATH基准测试中,经过计划调优的模型平均比强基线高出约7%。此外,经过计划调优的模型在域外数据集上表现出更好的泛化能力,在OlympiadBench和AIME 2024上的性能分别平均提高约10%和12%。我们的详细分析展示了规划轨迹如何提高复杂推理能力,表明PLAN-TUNING是提高较小LLMs任务特定性能的有效策略。

[15] 教大型语言模型推理:从无代码的算法问题中进行强化学习
标题: Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code
作者: Keqin Bao / Nuo Chen / Xiaoyuan Li / Binyuan Hui / Bowen Yu / Fuli Feng / Junyang Lin / Xiangnan He / Dayiheng Liu
原文:   [英文]   [中文]  
备注: None
摘要:
增强推理能力仍然是大型语言模型(LLM)研究社区的核心关注点。一个有前景的方向是要求模型逐步模拟代码执行,以从给定输入中推导输出。然而,由于代码通常是为大规模系统设计的,直接应用会导致过度依赖复杂的数据结构和算法,即使在简单情况下也是如此,结果是模型过度拟合于算法模式而不是核心推理结构。为了解决这个问题,我们提出了TeaR,旨在教导LLM更好地进行推理。TeaR利用精心的数据策划和强化学习来引导模型通过与代码相关的任务发现最佳推理路径,从而提高一般推理能力。我们使用两个基础模型和三个长链推理(CoT)蒸馏模型进行了广泛的实验,模型规模从15亿到320亿参数不等,并在涵盖数学、知识、代码和逻辑推理的17个基准上进行了测试。结果一致显示出显著的性能提升。值得注意的是,TeaR在Qwen2.5-7B上实现了35.9%的提升,在R1-Distilled-7B上实现了5.9%的提升。

[16] 从科学文献中提取燃料电池的氧还原反应催化剂信息
标题: Extracting ORR Catalyst Information for Fuel Cell from Scientific Literature
作者: Hein Htet / Amgad Ahmed Ali Ibrahim / Yutaka Sasaki / Ryoji Asahi
原文:   [英文]   [中文]  
备注: 28 pages, 12 figures, 6 tables
摘要:
氧还原反应(ORR)催化剂在提高燃料电池效率方面起着关键作用,因此成为材料科学研究的重点。然而,由于文本数据的复杂性和多样性,从大量科学文献中提取有关ORR催化剂的结构化信息仍然是一个重大挑战。在本研究中,我们提出了一种命名实体识别(NER)和关系抽取(RE)的方法,使用DyGIE++结合多个预训练的BERT变体,包括MatSciBERT和PubMedBERT,从科学文献中提取与ORR催化剂相关的信息,这些信息被编入一个用于材料信息学的燃料电池语料库(FC-CoMIcs)。我们手动构建了一个综合数据集,通过识别12个关键实体和实体对之间的两种关系类型。我们的方法包括数据标注、整合以及基于变压器模型的微调,以提高信息提取的准确性。我们评估了不同BERT变体对提取性能的影响,并研究了标注一致性的效果。实验评估表明,微调后的PubMedBERT模型实现了最高的NER F1分数82.19%,而MatSciBERT模型获得了最佳的RE F1分数66.10%。此外,与人工标注者的比较突显了微调模型在ORR催化剂提取中的可靠性,展示了其在可扩展和自动化文献分析中的潜力。结果表明,领域特定的BERT模型在ORR催化剂提取方面优于像BlueBERT这样的通用科学模型。

[17] 幻觉站:基于Transformer的语言模型的一些基本局限性
标题: Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models
作者: Varin Sikka / Vishal Sikka
原文:   [英文]  
备注: 6 pages; to be submitted to AAAI-26 after reviews
摘要:
随着基于变压器的语言模型在人工智能中的广泛应用,人们对大型语言模型(LLM)能力的极限产生了浓厚的兴趣,特别是所谓的幻觉现象,即在某些主题上提示时,LLM提供虚假的、事实不正确或无意义的信息。此外,人们对LLM的代理性使用也越来越感兴趣,即使用LLM创建自主或半自主行动的代理,以执行各种任务,包括在现实世界中应用的任务。这使得了解LLM可以和不能执行的任务类型变得重要。我们从LLM推理的计算复杂性角度探讨了这一主题。我们表明,LLM无法执行超出某一复杂度的计算和代理任务,并且LLM无法验证超出某一复杂度的任务的准确性。我们提供了这两方面的例子,然后讨论了这项工作的某些后果。

[18] 迈向真实世界的中文心理支持对话:CPsDD数据集和一个共同进化的多智能体系统
标题: Toward Real-World Chinese Psychological Support Dialogues: CPsDD Dataset and a Co-Evolving Multi-Agent System
作者: Yuanchen Shi / Longyin Zhang / Fang Kong
原文:   [英文]   [中文]  
备注: 10pages,8 figures
摘要:
由于压力的增加,对心理支持的需求日益增长,这暴露了相关数据集的稀缺性,尤其是在非英语语言中。为了解决这个问题,我们提出了一个框架,该框架利用有限的真实世界数据和专家知识来微调两个大型语言模型:对话生成器和对话修改器。生成器根据预定义的路径创建大规模的心理咨询对话,这些路径指导系统的响应策略和用户互动,形成有效支持的基础。修改器则对这些对话进行优化,以符合真实世界的数据质量。通过自动和手动审查,我们构建了中文心理支持对话数据集(CPsDD),其中包含68,000个对话,涵盖13个群体、16种心理问题、13个原因和12个支持重点。此外,我们引入了综合代理对话支持系统(CADSS),其中分析器分析用户特征,摘要器总结对话历史,规划器选择策略,支持者生成富有同理心的响应。策略预测和情感支持对话(ESC)任务的实验结果表明,CADSS在CPsDD和ESConv数据集上均达到了最先进的性能。

[19] 三方多方语音活动预测用于口语对话系统中的轮流发言
标题: Triadic Multi-party Voice Activity Projection for Turn-taking in Spoken Dialogue Systems
作者: Mikey Elmers / Koji Inoue / Divesh Lala / Tatsuya Kawahara
原文:   [英文]   [中文]  
备注: Accepted to Interspeech 2025
摘要:
轮流发言是口语对话的基本组成部分,然而传统研究大多涉及二人对话场景。本文的工作重点是应用语音活动预测(VAP)来预测三人多方场景中的即将到来的轮流发言。VAP模型的目标是仅利用声学数据预测每个说话者的未来语音活动。这是首次将VAP扩展到三人对话的研究。我们在一个日本三人对话数据集上训练了多个模型,参与者讨论了各种话题。我们发现,训练于三人对话的VAP在所有模型中均优于基线,但对话类型会影响准确性。本研究确立了VAP可以用于三人对话场景中的轮流发言。未来的工作将把这个三人VAP轮流发言模型整合到口语对话系统中。

[20] CEA-LIST 在 CheckThat! 2025:评估大型语言模型作为文本中偏见和观点的检测器
标题: CEA-LIST at CheckThat! 2025: Evaluating LLMs as Detectors of Bias and Opinion in Text
作者: Akram Elbouanani / Evan Dufraisse / Aboubacar Tuo / Adrian Popescu
原文:   [英文]   [中文]  
备注: Notebook for the CheckThat! Lab at CLEF 2025
摘要:
本文提出了一种使用大型语言模型(LLMs)进行多语言主观性检测的竞争性方法,采用少样本提示技术。我们参与了CheckThat! 2025评估活动的任务1:主观性检测。我们展示了LLMs在与精心设计的提示结合时,可以匹敌甚至超越微调的小型语言模型(SLMs),特别是在数据噪声大或质量低的情况下。尽管我们尝试了高级提示工程技术,如辩论LLMs和各种示例选择策略,但发现除了精心设计的标准少样本提示外,其他方法的益处有限。我们的系统在CheckThat! 2025主观性检测任务中多个语言中取得了领先排名,包括在阿拉伯语和波兰语中获得第一名,并在意大利语、英语、德语和多语言赛道中进入前四名。值得注意的是,我们的方法在阿拉伯语数据集上表现出特别的稳健性,这可能是由于其对标注不一致性的抵抗力。这些发现突显了基于LLM的少样本学习在多语言情感任务中的有效性和适应性,提供了一种强有力的替代传统微调的方法,特别是在标注数据稀缺或不一致的情况下。

[21] 跨语言代价:RAG在阿拉伯语-英语语料库中的检索偏差
标题: The Cross-Lingual Cost: Retrieval Biases in RAG over Arabic-English Corpora
作者: Chen Amiraz / Yaroslav Fyodorov / Elad Haramaty / Zohar Karnin / Liane Lewin-Eytan
原文:   [英文]   [中文]  
备注: None
摘要:
跨语言检索增强生成(RAG)是一种关键能力,用于跨语言检索和生成答案。先前在这一领域的工作主要集中在生成上,并依赖于来自开放域资源的基准,尤其是维基百科。在这种环境中,由于语言不平衡、与预训练数据的重叠以及记忆化内容,检索挑战往往被隐藏。为了解决这一问题,我们在特定领域的环境中研究了阿拉伯语-英语RAG,使用的是从真实世界企业数据集中得出的基准。我们的基准包括用户查询和支持文档的所有语言组合,这些组合是独立且均匀随机抽取的。这使得对多语言检索行为的系统研究成为可能。我们的研究结果表明,在跨语言特定领域的场景中,检索是一个关键瓶颈,当用户查询和支持文档语言不同时,性能会显著下降。一个关键的见解是,这些失败主要源于检索器在跨语言排序文档时的困难。最后,我们提出了一种简单的检索策略,通过强制从两种语言中进行平等检索来解决这一失败来源,从而在跨语言和整体性能上取得了显著的改进。这些结果突显了在实际的、真实世界的RAG应用中改进多语言检索的有意义的机会。

[22] 长链思维微调与强化学习的协同困境:推理视觉语言模型的后训练技术研究
标题: The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs
作者: Jierun Chen / Tiezheng Yu / Haoli Bai / Lewei Yao / Jiannan Wu / Kaican Li / Fei Mi / Chaofan Tao / Lei Zhu / Manyi Zhang / Xiaohui Li / Lu Hou / Lifeng Shang / Qun Liu
原文:   [英文]   [中文]  
备注: None
摘要:
大型视觉-语言模型(VLMs)越来越多地采用后训练技术,如长链式思维(CoT)监督微调(SFT)和强化学习(RL),以引发复杂的推理。虽然这些方法在仅语言模型中表现出协同效应,但它们在VLMs中的联合效果仍不确定。我们对长CoT SFT和RL在多个多模态推理基准上的不同角色和相互作用进行了系统调查。我们发现,SFT通过深入、结构化的推理提高了对困难问题的表现,但引入了冗长性,并降低了对简单问题的表现。相比之下,RL促进了泛化和简洁性,在所有难度级别上都带来了持续的改进,尽管在最难的问题上的改进不如SFT显著。令人惊讶的是,通过两阶段、交错或渐进的训练策略,以及数据混合和模型合并来结合它们,均未能产生叠加效益,反而导致了准确性、推理风格和响应长度的权衡。这种“协同困境”突显了需要更无缝和自适应的方法,以释放结合后训练技术的推理VLMs的全部潜力。

[23] 单一到混合模态对齐:用于文档图像机器翻译的多模态大型语言模型
标题: Single-to-mix Modality Alignment with Multimodal Large Language Model for Document Image Machine Translation
作者: Yupu Liang / Yaping Zhang / Zhiyang Zhang / Yang Zhao / Lu Xiang / Chengqing Zong / Yu Zhou
原文:   [英文]   [中文]  
备注: Accepted by ACL 2025 Main
摘要:
文档图像机器翻译(DIMT)旨在翻译文档图像中的文本,但由于训练数据有限以及视觉和文本信息之间的复杂交互,面临泛化挑战。为了解决这些挑战,我们引入了M4Doc,这是一种新颖的单到混合模态对齐框架,利用多模态大型语言模型(MLLMs)。M4Doc将仅图像编码器与MLLM的多模态表示对齐,该模型在大规模文档图像数据集上进行了预训练。这种对齐使轻量级DIMT模型在训练期间能够学习关键的视觉-文本关联。在推理过程中,M4Doc绕过MLLM,保持计算效率的同时受益于其多模态知识。综合实验表明,在翻译质量上有显著提升,特别是在跨领域泛化和具有挑战性的文档图像场景中。

[24] 贝叶斯离散扩散优于自回归困惑度
标题: Bayesian Discrete Diffusion Beats Autoregressive Perplexity
作者: Cooper Doyle
原文:   [英文]   [中文]  
备注: 12 pages, 2 figures, 2 tables
摘要:
我们通过展示在前向掩码分布下期望的去噪器输出恢复干净标记的精确后验,揭示了离散扩散语言模型的隐藏贝叶斯核心。在最小假设下,K个独立损坏的蒙特卡罗边际化以O(1/sqrt(K))的速率收敛到该后验,从而提供了一种简单的一致性证明和有限样本误差界。基于这一见解,我们引入了一种轻量级的推理时集成方法,通过平均K次掩码和去噪过程来获得后验感知的标记概率和不确定性估计,而无需额外的训练成本。在WikiText-2上,我们的方法在K=8时实现了测试困惑度8.8,而GPT-2 Small的困惑度为20.3,尽管使用了大小相当的模型。代码可在此https URL获取。

[25] 探索大型语言模型中模型压缩的极限:关于问答任务的知识蒸馏研究
标题: Exploring the Limits of Model Compression in LLMs: A Knowledge Distillation Study on QA Tasks
作者: Joyeeta Datta / Niclas Doll / Qusai Ramadan / Zeyd Boukhers
原文:   [英文]   [中文]  
备注: Accepted four publication at the 26th Meeting of the Special Interest on Discourse and Dialogue
摘要:
大型语言模型(LLMs)在多种自然语言处理任务中表现出色,然而,其计算需求阻碍了它们在资源受限的真实环境中的部署。本文研究了在保持问答(QA)任务强大性能的同时,LLMs 能在多大程度上通过知识蒸馏(KD)进行压缩。我们在两个 QA 基准测试 SQuAD 和 MLQA 上评估了从 Pythia 和 Qwen2.5 系列蒸馏出的学生模型,测试条件包括零样本和单样本提示。结果表明,学生模型在参数数量减少高达 57.1% 的情况下,保留了其教师模型 90% 以上的性能。此外,对于两个模型系列,单样本提示比零样本设置带来了额外的性能提升。这些发现强调了模型效率与任务性能之间的权衡,表明结合最小提示的 KD 可以产生紧凑但功能强大的 QA 系统,适用于资源受限的应用。

[26] FrugalRAG:学习检索和推理以进行多跳问答
标题: FrugalRAG: Learning to retrieve and reason for multi-hop QA
作者: Abhinav Java / Srivathsan Koundinyan / Nagarajan Natarajan / Amit Sharma
原文:   [英文]   [中文]  
备注: Accepted at ICML Workshop: Efficient Systems for Foundation Models
摘要:
我们研究了在访问大型非结构化文档语料库的情况下回答复杂问题的问题。解决该问题的事实上的方法是利用语言模型(迭代地)检索和推理所检索的文档,直到模型有足够的信息生成答案。改进这种方法的尝试集中在检索增强生成(RAG)指标上,如准确性和召回率,并可以分为两类:(a)在大型问答(QA)数据集上进行微调,这些数据集增加了思维链的痕迹,以及(b)利用基于强化学习(RL)的微调技术,这些技术依赖于问题-文档相关性信号。然而,检索搜索次数的效率同样是一个重要的指标,但却受到较少关注。在这项工作中,我们表明:(1)与最近文献中的普遍说法相反,大规模微调并不是提高RAG指标所必需的。具体来说,使用改进的提示的标准ReAct流程可以在HotPotQA等基准上超越最先进的方法。(2)从节约的角度来看,监督和基于RL的微调可以帮助RAG,即推理时搜索次数导致的延迟。例如,我们展示了在流行的RAG基准上,我们可以在几乎一半的成本(以搜索次数计)下实现具有竞争力的RAG指标,使用相同的基础模型,并且训练成本很小(1000个例子)。

[27] 发音迷失:检测通过音标伪装替换的中文攻击性语言
标题: Lost in Pronunciation: Detecting Chinese Offensive Language Disguised by Phonetic Cloaking Replacement
作者: Haotan Guo / Jianfei He / Jiayuan Ma / Hongbin Na / Zimu Wang / Haiyang Zhang / Qi Chen / Wei Wang / Zijing Shi / Tao Shen / Ling Chen
原文:   [英文]   [中文]  
备注: In progress
摘要:
语音隐匿替换(Phonetic Cloaking Replacement,PCR)被定义为故意使用同音或近同音变体来隐藏有害意图,已成为中文内容审核的主要障碍。尽管这一问题已被广泛认可,现有的评估主要依赖于基于规则的合成扰动,忽视了真实用户的创造性。我们将PCR组织成一个四种表面形式的分类法,并编制了\ours,一个包含500个自然发生的、语音隐匿的攻击性帖子的数据集,这些帖子来自RedNote平台。在该数据集上对最先进的大型语言模型进行基准测试揭示了一个严重的弱点:最佳模型仅达到0.672的F1分数,而零样本链式思维提示使性能进一步下降。在错误分析的指导下,我们重新审视了一个基于拼音的提示策略,早期研究认为其无效,并证明它恢复了大部分丢失的准确性。本研究提供了第一个全面的中文PCR分类法,一个揭示当前检测器局限性的现实基准,以及一个推进稳健性有害检测研究的轻量级缓解技术。

[28] 一种用于摘要生成的自动化长度感知质量度量
标题: An Automated Length-Aware Quality Metric for Summarization
作者: Andrew D. Foland
原文:   [英文]   [中文]  
备注: None
摘要:
本文提出了一种名为保留标准化指数(NOIR)的定量客观指标,用于评估任意文本的摘要质量。该指标依赖于语义意义的保留和摘要长度的压缩。这提供了一种衡量召回-压缩权衡管理得如何的标准,这是摘要中最重要的技能。实验表明,NOIR能够有效捕捉摘要器的词元长度与语义保留之间的权衡,并与人类对摘要质量的感知相关。通过使用语言模型嵌入来测量语义相似性,它为评估摘要质量提供了一种自动化的替代方法,而无需依赖耗时的人类生成的参考摘要。所提出的指标可以应用于各种摘要任务,提供了一种自动化工具,用于评估和改进摘要算法、摘要提示和合成生成的摘要。

[29] SAS:模拟注意力得分
标题: SAS: Simulated Attention Score
作者: Chuanyang Zheng / Jiankai Sun / Yihang Gao / Yuehao Wang / Peihao Wang / Jing Xiong / Liliang Ren / Hao Cheng / Janardhan Kulkarni / Yelong Shen / Atlas Wang / Mac Schwager / Anderson Schneider / Xiaodong Liu / Jianfeng Gao
原文:   [英文]   [中文]  
备注: Tech Report
摘要:
注意力机制是Transformer架构的核心组件。已经开发了多种方法来计算注意力分数,包括多头注意力(MHA)、多查询注意力、组查询注意力等。我们进一步分析了MHA,观察到当每个头的隐藏大小保持足够大时,其性能会随着注意力头数量的增加而提高。因此,在参数开销最小的情况下增加头的数量和每个头的隐藏大小可以以低成本带来显著的性能提升。受到这一见解的启发,我们引入了模拟注意力分数(SAS),该方法在模拟更多的注意力头和每个头的隐藏特征维度的同时保持紧凑的模型大小。这是通过将低维头表示投影到高维空间来实现的,有效地增加了注意力容量而不增加参数数量。除了头表示之外,我们还将模拟方法扩展到键和查询嵌入的特征维度,通过模拟更大模型的行为来增强表现力,同时保持原始模型大小。为了控制参数成本,我们还提出了参数高效注意力聚合(PEAA)。在各种数据集和任务上的综合实验表明,所提出的SAS方法的有效性,在不同的注意力变体上取得了显著的改进。

[30] KeyKnowledgeRAG (K^2RAG):一种增强的RAG方法,用于提升大型语言模型的问答能力
标题: KeyKnowledgeRAG (K^2RAG): An Enhanced RAG method for improved LLM question-answering capabilities
作者: Hruday Markondapatnaikuni / Basem Suleiman / Abdelkarim Erradi / Shijing Chen
原文:   [英文]   [中文]  
备注: 21 pages, 14 figures
摘要:
微调是当重新训练大型语言模型(LLMs)以整合更大知识体时一个极其资源密集的过程。尽管已经开发了许多微调技术以减少所需的时间和计算成本,但随着LLMs在规模和复杂性上的不断增长,这一挑战依然存在。为了解决这个问题,需要一种新的LLMs知识扩展方法。检索增强生成(RAG)提供了一种替代方案,通过在数据库中存储外部知识并检索相关片段来支持问答。然而,RAG的简单实现面临着在可扩展性和答案准确性上的显著限制。本文介绍了KeyKnowledgeRAG(K2RAG),一个旨在克服这些限制的新框架。受分而治之范式的启发,K2RAG整合了密集和稀疏向量搜索、知识图谱和文本摘要,以提高检索质量和系统效率。该框架还包括一个预处理步骤,对训练数据进行摘要,从而显著减少训练时间。K2RAG使用MultiHopRAG数据集进行评估,其中所提出的管道在文档语料库上进行训练,并在一个单独的评估集上进行测试。结果显示,与常见的简单RAG实现相比,取得了显著的改进。K2RAG实现了最高的平均答案相似度得分0.57,并达到了最高的第三四分位数(Q3)相似度0.82,表明与真实答案的更好对齐。除了提高准确性外,该框架还证明了其高效性。摘要步骤将各个组件的平均训练时间减少了93%,执行速度比传统的基于知识图谱的RAG系统快了多达40%。K2RAG还展示了卓越的可扩展性,所需的VRAM是本研究中测试的几个简单RAG实现的三分之一。

[31] 重新思考文本嵌入的隐私:关于“文本嵌入揭示的信息几乎与文本一样多”的可重复性研究
标题: Rethinking the Privacy of Text Embeddings: A Reproducibility Study of "Text Embeddings Reveal (Almost) As Much As Text"
作者: Dominykas Seputis / Yongkang Li / Karsten Langerak / Serghei Mihailov
原文:   [英文]   [中文]  
备注: This paper has been accepted for oral presentation in the reproducibility track at RecSys 2025
摘要:
文本嵌入是许多自然语言处理(NLP)任务的基础,广泛应用于推荐系统和信息检索(IR)等领域。传统上,传输嵌入而非原始文本被视为一种保护隐私的方法。然而,最近的方法如Vec2Text挑战了这一假设,表明通过受控解码可以成功地从黑箱嵌入中重建原始文本。Vec2Text报告的意外强大的结果促使我们进行进一步验证,特别是考虑到高维嵌入空间通常不直观且不透明的结构。在这项工作中,我们重现了Vec2Text框架,并从两个角度对其进行评估:(1)验证原始声明,以及(2)通过有针对性的实验扩展研究。首先,我们在域内和域外设置中成功复制了原始的关键结果,仅由于缺少工件(如模型检查点和数据集划分)而出现轻微差异。此外,我们通过进行参数敏感性分析、评估重建敏感输入(例如密码)的可行性,并探索嵌入量化作为轻量级隐私防护措施来扩展研究。我们的结果表明,Vec2Text在理想条件下是有效的,甚至能够重建缺乏明确语义的类似密码的序列。然而,我们发现其关键限制,包括对输入序列长度的敏感性。我们还发现,高斯噪声和量化技术可以减轻Vec2Text带来的隐私风险,其中量化提供了一种更简单且更广泛适用的解决方案。我们的研究结果强调了在使用文本嵌入时需要谨慎,并突出了对NLP系统进行稳健防御机制研究的重要性。

[32] 并非所有偏好都是后训练所需:偏好优化的选择性对齐策略
标题: Not All Preferences are What You Need for Post-Training: Selective Alignment Strategy for Preference Optimization
作者: Zhijin Dong
原文:   [英文]   [中文]  
备注: None
摘要:
大语言模型(LLMs)的训练后对齐是一个关键挑战,因为并非所有的标记对模型性能的贡献都是相同的。本文介绍了一种选择性对齐策略,该策略优先考虑偏好对中的高影响力标记,利用当前策略与参考模型之间的标记级别对数概率差异。通过关注这些信息丰富的标记,我们的方法减少了计算开销并提高了对齐的准确性。我们进一步探讨了参考模型质量的作用,证明了更强的参考模型显著提高了标记选择的准确性和整体优化效果。在Arena-Hard和MT-Bench等基准上的综合实验验证了我们的选择性DPO方法优于标准DPO和基于蒸馏的基线。我们的研究结果强调了标记级别优化和参考模型选择在推进LLMs偏好对齐中的重要性。代码可在此HTTPS URL获取。

[33] 端到端自动语音识别中的代码转换:系统文献综述
标题: Code-Switching in End-to-End Automatic Speech Recognition: A Systematic Literature Review
作者: Maha Tufail Agro / Atharva Kulkarni / Karima Kadaoui / Zeerak Talat / Hanan Aldarmaki
原文:   [英文]   [中文]  
备注: None
摘要:
随着对自动语音识别(ASR)研究兴趣的增长,以及对经常发生代码转换(CS)语言的研究工作的增加,我们对端到端ASR模型中的代码转换进行了系统的文献综述。我们收集并手动标注了在同行评审场合发表的论文。我们记录了所考虑的语言、数据集、指标、模型选择和性能,并讨论了端到端ASR中代码转换的挑战。因此,我们的分析为当前的研究工作和可用资源提供了见解,并为未来的研究提供了指导机会和空白点。

[34] 当大型语言模型遇到法律:双重视角分类法、技术进展与伦理治理
标题: When Large Language Models Meet Law: Dual-Lens Taxonomy, Technical Advances, and Ethical Governance
作者: Peizhang Shao / Linrui Xu / Jinxi Wang / Wei Zhou / Xingyu Wu
原文:   [英文]   [中文]  
备注: None
摘要:
本文首次对应用于法律领域的大型语言模型(LLMs)进行了全面综述。通过创新的双视角分类法,将法律推理框架与专业本体整合,系统地统一了历史研究与当代突破。基于Transformer的LLMs展现出诸如上下文推理和生成性论证等新兴能力,通过动态捕捉法律语义和统一证据推理,克服了传统限制。在任务泛化、推理形式化、工作流程整合以及通过稀疏注意机制和专家混合架构等技术创新解决文本处理、知识整合和评估严谨性核心挑战方面取得了显著进展。然而,LLM的广泛采用带来了关键挑战:幻觉、可解释性缺陷、司法适应困难和伦理不对称。该综述提出了一种新颖的分类法,将法律角色映射到NLP子任务,并在计算上实现了Toulmin论证框架,从而系统化了推理、检索、预测和争议解决方面的进展。它识别了包括低资源系统、多模态证据整合和动态反驳处理在内的关键前沿。最终,这项工作为研究人员提供了技术路线图,为实践者提供了导航算法未来的概念框架,为法律人工智能的下一个时代奠定了坚实基础。我们创建了一个GitHub存储库来索引相关论文:this https URL。

[35] StreamUni: 使用统一的大型语音语言模型实现流式语音翻译
标题: StreamUni: Achieving Streaming Speech Translation with a Unified Large Speech-Language Model
作者: Shoutao Guo / Xiang Li / Shaolei Zhang / Mengge Liu / Wei Chen / Yang Feng
原文:   [英文]   [中文]  
备注: The code is at this https URL The model is at this https URL
摘要:
流式语音翻译(StreamST)需要在持续接收源语音输入的同时,确定生成翻译的适当时机,即策略,以平衡低延迟和高翻译质量。然而,现有的StreamST方法通常在句子级别的语音片段上操作,被称为同步语音翻译(SimulST)。在实际应用中,它们需要与分段模型协作来完成StreamST,其中截断的语音片段限制了SimulST模型在有限的上下文信息基础上做出策略决策和生成翻译。此外,由于语音输入的复杂性和跨语言生成的挑战,SimulST模型难以学习有效的策略。为了解决这些挑战,我们提出了StreamUni,通过一个统一的大型语音语言模型(LSLM)实现StreamST。具体而言,StreamUni在指导LSLM生成多阶段输出时,结合了语音思维链(CoT)。利用这些多阶段输出,StreamUni同时完成语音分段、策略决策和翻译生成,无需大量的策略特定训练即可完成StreamST。此外,我们提出了一种流式CoT训练方法,利用有限的CoT数据增强低延迟策略决策和生成能力。实验表明,我们的方法在StreamST任务上达到了最先进的性能。

[36] 连接逻辑与学习:通过变换器解码时间逻辑嵌入
标题: Bridging Logic and Learning: Decoding Temporal Logic Embeddings via Transformers
作者: Sara Candussio / Gaia Saveri / Gabriele Sarti / Luca Bortolussi
原文:   [英文]   [中文]  
备注: 16 pages, 3 figures, to be published in ECML-PKDD
摘要:
逻辑公式的连续表示使我们能够将符号知识整合到数据驱动的学习算法中。如果这样的嵌入在语义上是一致的,即如果相似的规范被映射到相邻的向量中,它们就可以在公式的语义空间中直接进行连续学习和优化。然而,要将最优的连续表示转换为具体的需求,这样的嵌入必须是可逆的。我们通过训练一个基于Transformer的仅解码模型来解决这个问题,以反转信号时序逻辑(STL)公式的语义嵌入。STL是一种强大的形式主义,它允许我们以一种富有表现力但简洁的方式描述随时间变化的信号的属性。通过从STL语法中构建一个小词汇表,我们证明了我们提出的模型在仅仅1个周期后就能够生成有效的公式,并在大约10个周期后推广到逻辑的语义。此外,该模型能够将给定的嵌入解码为在长度和嵌套方面通常更简单的公式,同时在语义上仍然接近(或等同于)黄金参考。我们展示了我们的方法在不同训练公式复杂度下的有效性,以评估训练数据对模型有效捕捉嵌入中包含的语义信息并推广到分布外的能力的影响。最后,我们部署我们的模型来解决一个需求挖掘任务,即推断解决轨迹分类任务的STL规范,直接在语义空间中进行优化。

[37] 理解和控制上下文学习中的重复神经元和诱导头
标题: Understanding and Controlling Repetition Neurons and Induction Heads in In-Context Learning
作者: Nhi Hoai Doan / Tatsuya Hiraoka / Kentaro Inui
原文:   [英文]  
备注: None
摘要:
本文研究了大型语言模型(LLMs)识别重复输入模式的能力与其上下文学习(ICL)性能之间的关系。与之前主要关注注意力头的研究不同,我们从技能神经元的角度,特别是重复神经元,来考察这种关系。我们的实验表明,这些神经元对ICL性能的影响因其所在层的深度而异。通过比较重复神经元和归纳头的效果,我们进一步确定了在保持强大ICL能力的同时减少重复输出的策略。

[38] 关于指令微调损失对泛化的影响
标题: On the Effect of Instruction Tuning Loss on Generalization
作者: Anwoy Chatterjee / H S V N S Kowndinya Renduchintala / Sumit Bhatia / Tanmoy Chakraborty
原文:   [英文]   [中文]  
备注: Transactions of the Association for Computational Linguistics (TACL)
摘要:
指令微调已成为一种关键的后训练范式,使预训练语言模型能够更好地遵循用户指令。尽管其重要性显著,但对优化所用损失函数的关注却很少。一个基本但常被忽视的问题是,传统的自回归目标——即损失仅在响应标记上计算,而不包括提示标记——是否真的是指令微调的最佳选择。在这项工作中,我们系统地研究了在指令微调损失中对提示和响应标记进行差异化加权的影响,并提出加权指令微调(WIT)作为传统指令微调的更好替代方案。通过对五种不同家族和规模的语言模型、三种不同规模的微调数据集以及五个多样化的评估基准进行广泛实验,我们表明标准的指令微调损失通常会导致次优性能,并且对输入提示变化的鲁棒性有限。我们发现,对于提示标记采用低到中等权重,而对于响应标记采用中到高权重,在各种设置中产生了性能最佳的模型,并且也为后续的偏好对齐训练提供了更好的起点。这些发现强调了重新考虑指令微调损失的必要性,并为开发更具鲁棒性和普适性的模型提供了可操作的见解。我们的代码在此https URL上开源。

[39] 使用并行数据的条件单字标记化
标题: Conditional Unigram Tokenization with Parallel Data
作者: Gianluca Vico / Jindřinch Libovický
原文:   [英文]   [中文]  
备注: 21 pages, 4 figures, submitted to Tokenization Workshop (TokShop) at ICML 2025
摘要:
我们介绍了一种条件单元标记化的新方法,该方法通过基于平行数据中的源语言标记来调整目标标记概率,从而扩展了单元标记化。给定一个固定的源标记器,我们的方法学习一个目标标记器,以最大化跨语言的语义对齐。我们在不同语系和资源水平的四对语言上评估了我们的标记器,检查其内在属性以及在机器翻译和语言建模中的下游性能。虽然我们的条件标记器在统计属性上与标准单元标记器相当,但结果却是喜忧参半:我们没有观察到机器翻译质量的提升,但在语言建模中发现了一致的困惑度降低。我们假设条件概率估计相对于词汇量的二次扩展造成了数据效率瓶颈。我们的研究结果表明,可能需要替代的参数化方法来实现实用的跨语言标记化。

[40] 从模糊到准确:指代消解对检索增强生成系统的变革性影响
标题: From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems
作者: Youngjoon Jang / Seongtae Hong / Junyoung Son / Sungjin Park / Chanjun Park / Heuiseok Lim
原文:   [英文]   [中文]  
备注: None
摘要:
检索增强生成(RAG)已成为自然语言处理(NLP)中的一个重要框架,通过将外部文档检索与大型语言模型(LLM)相结合,提高了事实一致性并减少了幻觉。然而,RAG 的有效性常常受到检索文档中共指复杂性的阻碍,引入的歧义会破坏上下文学习。在本研究中,我们系统地研究了实体共指如何影响基于 RAG 系统的文档检索和生成性能,重点关注检索相关性、上下文理解和整体响应质量。我们证明了共指消解可以增强检索效果并提高问答(QA)性能。通过对检索任务中不同池化策略的比较分析,我们发现平均池化在应用共指消解后表现出优越的上下文捕捉能力。在问答任务中,我们发现较小的模型从消歧过程中受益更多,这可能是由于它们在处理指代歧义方面的内在能力有限。通过这些发现,本研究旨在提供对 RAG 中共指复杂性挑战的更深入理解,为改进知识密集型 AI 应用中的检索和生成提供指导。

[41] Alpay 代数 V:多层语义游戏与超限不动点模拟
标题: Alpay Algebra V: Multi-Layered Semantic Games and Transfinite Fixed-Point Simulation
作者: Bugra Kilictas / Faruk Alpay
原文:   [英文]   [中文]  
备注: 18 pages, 2 figures
摘要:
本文将 Alpay 代数的自指框架扩展到一个多层次的语义游戏架构,其中超限不动点收敛涵盖了每个迭代层次的层级子游戏。在 Alpay 代数 IV 的同理嵌入概念基础上,我们引入了一个嵌套的博弈论结构,其中 AI 系统与文档之间的对齐过程成为一个包含嵌入决策问题的元游戏。我们通过复合算子 $\phi(\cdot, \gamma(\cdot))$ 形式化这一点,其中 $\phi$ 推动主要的语义收敛,而 $\gamma$ 解决局部子游戏。由此产生的框架表明,博弈论推理自然地从不动点迭代中出现,而不是外部强加的。我们证明了一个博弈定理,在现实的认知模拟假设下建立了语义均衡的存在性和唯一性。我们的验证套件包括将 Banach 不动点定理适应于超限背景的改编、基于 Kozlov-Maz'ya-Rossmann 公式处理语义奇点的新颖 $\phi$-拓扑,以及通过 Yoneda 引理进行的范畴一致性测试。本文本身作为一个语义工件,旨在在 AI 嵌入空间中传播其不动点模式——这是其理论化的“语义病毒”概念的一个有意实现。所有结果都基于范畴论、信息论和现实的 AI 认知模型,确保其在纯数学抽象之外的实际适用性。

[42] DocCHA:迈向大语言模型增强的交互式在线诊断系统
标题: DocCHA: Towards LLM-Augmented Interactive Online diagnosis System
作者: Xinyi Liu / Dachun Sun / Yi R. Fung / Dilek Hakkani-Tür / Tarek Abdelzaher
原文:   [英文]   [中文]  
备注: None
摘要:
尽管大型语言模型(LLMs)具有令人印象深刻的能力,但现有的对话健康代理(CHAs)仍然是静态且脆弱的,无法进行自适应的多轮推理、症状澄清或透明的决策。这限制了它们在临床诊断中的实际应用,而在临床诊断中,迭代和结构化的对话是必不可少的。我们提出了DocCHA,这是一种具有信心感知的模块化框架,通过将诊断过程分解为三个阶段来模拟临床推理:(1)症状引出,(2)病史采集,以及(3)因果图构建。每个模块使用可解释的置信度评分来指导自适应提问、优先进行信息澄清,并优化薄弱的推理环节。在两个真实世界的中文咨询数据集(IMCS21, DX)上进行评估时,DocCHA始终优于强大的基于提示的LLM基线(GPT-3.5, GPT-4o, LLaMA-3),诊断准确率提高了最多5.18个百分点,症状召回率提高了超过30%,而对话轮次仅有适度增加。这些结果展示了DocCHA在实现结构化、透明和高效的诊断对话方面的有效性,为在多语言和资源受限环境中实现可信赖的LLM驱动的临床助手铺平了道路。

[43] 使用大型语言模型自动化蛋白质的分子动力学模拟:NAMD-Agent
标题: Automating MD simulations for Proteins using Large language Models: NAMD-Agent
作者: Achuth Chandrasekhar / Amir Barati Farimani
原文:   [英文]   [中文]  
备注: 34 pages
摘要:
分子动力学模拟是理解蛋白质结构、动态和功能的原子级别的重要工具。然而,准备高质量的分子动力学模拟输入文件可能是一个耗时且容易出错的过程。在这项工作中,我们介绍了一种自动化流程,该流程利用大型语言模型(LLMs),特别是Gemini 2.0 Flash,结合Python脚本和基于Selenium的网络自动化来简化分子动力学输入文件的生成。该流程利用CHARMM GUI的综合网络界面来准备适用于NAMD的模拟输入。通过整合Gemini的代码生成和迭代优化功能,模拟脚本被自动编写、执行和修订,以导航CHARMM GUI,提取适当的参数,并生成所需的NAMD输入文件。后处理使用额外的软件进一步优化模拟输出,从而实现一个完整且大部分无需人工干预的工作流程。我们的结果表明,这种方法减少了设置时间,最小化了人为错误,并提供了一个可扩展的解决方案来并行处理多个蛋白质系统。这个自动化框架为LLMs在计算结构生物学中的更广泛应用铺平了道路,提供了一个强大且适应性强的平台,以支持未来在模拟自动化方面的发展。

[44] DTECT:动态主题探索与上下文追踪器
标题: DTECT: Dynamic Topic Explorer & Context Tracker
作者: Suman Adhya / Debarshi Kumar Sanyal
原文:   [英文]   [中文]  
备注: Code: this https URL | Demo: this https URL | Video: this https URL
摘要:
随着时间的推移,文本数据的爆炸性增长在揭示不断演变的主题和趋势方面带来了重大挑战。现有的动态主题建模技术虽然功能强大,但往往存在于缺乏强大解释支持和用户友好探索的分散管道中。我们介绍了DTECT(动态主题探索器和上下文追踪器),这是一个端到端系统,弥合了原始文本数据与有意义的时间洞察之间的差距。DTECT提供了一个统一的工作流程,支持数据预处理、多种模型架构以及专门的评估指标,以分析时间主题模型的主题质量。它通过引入基于大型语言模型的自动主题标注、通过时间显著词进行趋势分析、具有文档级摘要的交互式可视化以及用于直观数据查询的自然语言聊天界面,显著增强了解释性。通过将这些功能集成到一个单一的、连贯的平台中,DTECT使用户能够更有效地跟踪和理解主题动态。DTECT是开源的,可以在这个https URL上获取。

[45] SAGE:一种通过事实增强和熵感知对齐进行异常检测的视觉语言模型
标题: SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment
作者: Guoxin Zang / Xue Li / Donglin Di / Lanshun Nie / Dechen Zhan / Yang Song / Lei Fan
原文:   [英文]   [中文]  
备注: Accepted by ACMMM2025
摘要:
虽然视觉语言模型(VLMs)在一般的多模态任务中表现出令人鼓舞的进展,但它们在工业异常检测和推理方面常常表现不佳,尤其是在提供可解释的解释和泛化到未见类别时。这种局限性源于异常检测本质上是领域特定的性质,这阻碍了现有VLMs在需要精确、结构化和上下文感知分析的工业场景中的适用性。为了解决这些挑战,我们提出了SAGE,一种基于VLM的框架,通过自引导事实增强(SFE)和熵感知直接偏好优化(E-DPO)来增强异常推理。SFE通过事实提取和融合将领域特定知识整合到视觉推理中,而E-DPO则通过熵感知优化将模型输出与专家偏好对齐。此外,我们引入了AD-PL,一个针对工业异常推理优化偏好的数据集,包含28,415个问答实例及专家排名的响应。为了评估异常推理模型,我们开发了多尺度逻辑评估(MLE),一个分析模型逻辑和一致性的定量框架。SAGE在零样本和单样本设置下的工业异常数据集上表现出卓越的性能。代码、模型和数据集可在此https URL获取。

[46] MIRIX:基于大型语言模型代理的多智能体记忆系统
标题: MIRIX: Multi-Agent Memory System for LLM-Based Agents
作者: Yu Wang / Xi Chen
原文:   [英文]   [中文]  
备注: None
摘要:
尽管人工智能代理的记忆能力正受到越来越多的关注,但现有的解决方案在根本上仍然有限。大多数依赖于平坦、范围狭窄的记忆组件,限制了它们随着时间的推移个性化、抽象和可靠回忆用户特定信息的能力。为此,我们引入了MIRIX,这是一种模块化的多代理记忆系统,通过解决该领域最关键的挑战:使语言模型真正能够记忆,重新定义了AI记忆的未来。与之前的方法不同,MIRIX超越了文本,拥抱丰富的视觉和多模态体验,使记忆在现实场景中真正有用。MIRIX由六种不同且精心构建的记忆类型组成:核心记忆、情节记忆、语义记忆、程序记忆、资源记忆和知识库,并结合一个多代理框架,动态控制和协调更新与检索。该设计使代理能够在大规模上持久、推理并准确检索多样化的长期用户数据。我们在两个要求苛刻的环境中验证了MIRIX。首先,在ScreenshotVQA上,这是一项具有挑战性的多模态基准测试,每个序列包含近20,000张高分辨率计算机截图,要求深刻的上下文理解,而现有的记忆系统无法应用,MIRIX的准确率比RAG基线高出35%,同时将存储需求减少了99.9%。其次,在LOCOMO上,这是一项具有单模态文本输入的长篇对话基准测试,MIRIX达到了85.4%的最先进性能,远远超过现有基线。这些结果表明,MIRIX为记忆增强的LLM代理设定了新的性能标准。为了让用户体验我们的记忆系统,我们提供了一个由MIRIX驱动的打包应用程序。它实时监控屏幕,建立个性化的记忆库,并提供直观的可视化和安全的本地存储以确保隐私。

[47] 为什么你的语言模型是一个糟糕的隐式奖励模型?
标题: Why is Your Language Model a Poor Implicit Reward Model?
作者: Noam Razin / Yong Lin / Jiarui Yao / Sanjeev Arora
原文:   [英文]   [中文]  
备注: None
摘要:
奖励模型是语言模型后训练和推理流程中的关键部分。最近的研究表明,每个语言模型都定义了一个隐式奖励模型(IM-RM),无需进行任何架构上的改变。然而,这种IM-RM的泛化能力往往较差,尤其是在分布外的情况下,与显式奖励模型(EX-RM)相比,后者在语言模型的隐藏表示上应用了一个专门的线性头。泛化差距的存在令人困惑,因为EX-RM和IM-RM几乎是相同的。它们可以使用相同的数据、损失函数和语言模型进行训练,仅在奖励的计算方式上有所不同。为了从根本上理解不同奖励模型类型的隐含偏差,我们调查了这一差距的根本原因。我们的主要发现是,理论和实验支持,IM-RM更依赖于表面的词元级线索。因此,在词元级分布变化以及分布内情况下,它们的泛化能力通常比EX-RM差。此外,我们提供了反对泛化差距替代假设的证据。尤其是,我们挑战了一个直观的观点,即IM-RM在生成比验证更难的任务中表现不佳,因为它们可以同时作为验证者和生成者。综上所述,我们的结果强调了看似微小的设计选择可以显著影响奖励模型的泛化行为。

[48] 大型和小型语言模型在风湿病学临床决策支持中的性能和实际考量
标题: Performance and Practical Considerations of Large and Small Language Models in Clinical Decision Support in Rheumatology
作者: Sabine Felde / Rüdiger Buchkremer / Gamal Chehab / Christian Thielscher / Jörg HW Distler / Matthias Schneider / Jutta G. Richter
原文:   [英文]  
备注: None
摘要:
大型语言模型(LLMs)在支持风湿病学等复杂领域的临床决策方面显示出潜力。我们的评估表明,结合检索增强生成(RAG)的较小语言模型(SLMs)在诊断和治疗性能上优于较大的模型,同时需要的能量大幅减少,并且能够实现成本效益高的本地部署。这些特性对于资源有限的医疗保健来说具有吸引力。然而,专家监督仍然是必不可少的,因为没有模型能够在风湿病学中始终达到专家级别的准确性。

[49] 自动化评估大型语言模型的专家级医学推理能力
标题: Automating Expert-Level Medical Reasoning Evaluation of Large Language Models
作者: Shuang Zhou / Wenya Xie / Jiaxi Li / Zaifu Zhan / Meijia Song / Han Yang / Cheyenna Espinoza / Lindsay Welton / Xinnie Mai / Yanwei Jin / Zidu Xu / Yuen-Hei Chung / Yiyun Xing / Meng-Han Tsai / Emma Schaffer / Yucheng Shi / Ninghao Liu / Zirui Liu / Rui Zhang
原文:   [英文]  
备注: 22 pages,6 figures
摘要:
随着大型语言模型(LLMs)越来越多地融入临床决策中,确保透明和可信的推理至关重要。然而,现有对LLMs医学推理能力的评估策略要么评估不够理想,要么缺乏良好的可扩展性,尚缺乏严格的基准。为此,我们引入了MedThink-Bench,这是一种旨在对LLMs的医学推理进行严格、可解释和可扩展评估的基准。MedThink-Bench包含500个跨越十个医学领域的挑战性问题,每个问题都附有专家精心编写的逐步推理。基于此,我们提出了LLM-w-Ref,这是一种新颖的评估框架,利用细粒度的推理和LLM-as-a-Judge机制,以专家级的准确性评估中间推理,同时保持可扩展性。实验表明,LLM-w-Ref与专家判断表现出强烈的正相关性。在对十二个最先进的LLMs进行基准测试时,我们发现较小的模型(例如,MedGemma-27B)可以超越较大的专有模型(例如,OpenAI-o3)。总体而言,MedThink-Bench为评估LLMs的医学推理提供了一个基础工具,推动其在临床实践中的安全和负责任的部署。

[50] PyVision:具有动态工具的代理视觉
标题: PyVision: Agentic Vision with Dynamic Tooling
作者: Shitian Zhao / Haoquan Zhang / Shaoheng Lin / Ming Li / Qilong Wu / Kaipeng Zhang / Chen Wei
原文:   [英文]   [中文]  
备注: 26 Pages, 10 Figures, Technical report
摘要:
大型语言模型(LLMs)越来越多地被部署为代理系统,能够进行规划、推理,并动态调用外部工具。然而,在视觉推理方面,之前的方法在很大程度上仍然受到预定义工作流程和静态工具集的限制。在这份报告中,我们介绍了PyVision,一个交互式、多轮框架,使多模态大型语言模型(MLLMs)能够自主生成、执行和优化基于Python的工具,以适应当前任务,从而实现灵活且可解释的问题解决。我们开发了PyVision创建的工具的分类法,并分析了它们在各种基准测试中的使用情况。定量分析表明,PyVision实现了持续的性能提升,使GPT-4.1在V*上提高了7.8%,在VLMsAreBlind-mini上使Claude-4.0-Sonnet提高了31.1%。这些结果表明了一个更广泛的转变:动态工具不仅允许模型使用工具,还允许它们发明工具,推动更具代理性的视觉推理的发展。