![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年6月4日更新论文107篇
|
[1] 基于Prompt-Biomrc模型的医学命名实体识别研究及其在智能咨询系统中的应用 标题: Research on Medical Named Entity Identification Based On Prompt-Biomrc Model and Its Application in Intelligent Consultation System 作者: Jinzhu Yang 原文: [英文] 备注: None 摘要: 本研究致力于探索提示学习方法在医学领域命名实体识别(NER)中的应用。近年来,大规模模型的出现推动了NER任务的显著进展,特别是BioBERT语言模型的引入,大大增强了医学文本中的NER能力。我们的研究引入了Prompt-bioMRC模型,该模型结合了硬模板和软提示设计,旨在提高医学实体识别的精确性和效率。通过对各种医学数据集的广泛实验,我们的研究结果一致表明,我们的方法优于传统模型。这一提升不仅验证了我们方法的有效性,还突显了其为智能诊断系统等应用提供可靠技术支持的潜力。通过利用先进的NER技术,本研究有助于推进自动化医学数据处理,促进更准确的医学信息提取,并支持高效的医疗决策过程。 |
[2] 主动学习中没有免费的午餐:大型语言模型嵌入质量决定查询策略的成功 标题: No Free Lunch in Active Learning: LLM Embedding Quality Dictates Query Strategy Success 作者: Lukas Rauch / Moritz Wirth / Denis Huseljic / Marek Herde / Bernhard Sick / Matthias Aßenmacher 原文: [英文] [中文] 备注: under review @NeurIPS2025 摘要: 大型语言模型(LLMs)的出现使得生成通用表示成为可能,这让我们可以重新审视深度主动学习(AL)的实用性:通过利用冻结的LLM嵌入,我们可以减轻反复微调大型骨干网络的计算成本。本研究建立了一个基准,并系统地调查了LLM嵌入质量对深度AL中查询策略的影响。我们在十个不同的文本分类任务中使用了来自大规模文本嵌入基准(MTEB)排行榜的五个表现最好的模型和两个基线。我们的研究结果揭示了关键见解:首先,使用基于多样性的采样来初始化标记池与高质量嵌入协同作用,在早期AL迭代中提升性能。其次,最佳查询策略的选择对嵌入质量很敏感。虽然计算成本低的Margin采样可以在特定数据集上实现性能激增,但我们发现像Badge这样的策略在各个任务中表现出更大的稳健性。重要的是,当与更高质量的嵌入结合时,它们的有效性通常会增强。我们的结果强调了对AL策略进行情境特定评估的必要性,因为性能在很大程度上取决于嵌入质量和目标任务。 |
[3] NovelHopQA:诊断长篇叙述上下文中的多跳推理失败 标题: NovelHopQA: Diagnosing Multi-Hop Reasoning Failures in Long Narrative Contexts 作者: Abhay Gupta / Michael Lu / Kevin Zhu / Sean O'Brien / Vasu Sharma 原文: [英文] [中文] 备注: None 摘要: 当前的大型语言模型(LLMs)在回答涉及数万个标记的问题时表现不佳,尤其是在需要多跳推理的情况下。尽管之前的基准测试分别探讨了长上下文理解或多跳推理,但没有一个在自然叙述环境中同时改变上下文长度和推理深度。我们引入了NovelHopQA,这是第一个评估在83部完整的公共领域小说中,64k-128k标记摘录上进行k1-4跳问答的基准。一个关键词引导的流程构建了基于连贯故事情节的跳跃分离链。我们评估了六个最先进的模型,并应用了oracle-context过滤以确保所有问题都是真正可回答的。人工注释者验证了对齐和跳跃深度。我们注意到,即使在前沿模型中,随着跳跃次数和上下文长度的增加,准确性也会持续下降,这揭示了仅仅依靠规模并不能保证稳健的推理。我们的故障模式分析突出了常见的崩溃,如错过最终跳跃整合和长距离漂移。NovelHopQA提供了一个受控的诊断环境,以大规模压力测试多跳推理。 |
[4] 剪枝以提升性能:使用mBERT在低资源的孔卡尼语中进行高效的习语和隐喻分类 标题: Pruning for Performance: Efficient Idiom and Metaphor Classification in Low-Resource Konkani Using mBERT 作者: Timothy Do / Pranav Saran / Harshita Poojary / Pranav Prabhu / Sean O'Brien / Vasu Sharma / Kevin Zhu 原文: [英文] [中文] 备注: 9 pages, 7 figures 摘要: 在本文中,我们解决了比喻语言表达对自然语言处理(NLP)系统,特别是在像孔卡尼这样的低资源语言中所带来的持续挑战。我们提出了一种混合模型,该模型将预训练的多语言BERT(mBERT)与双向LSTM和线性分类器相结合。该架构在一项新引入的用于隐喻分类的标注数据集上进行了微调,该数据集是本研究的一部分。为了提高模型的效率,我们实施了一种基于梯度的注意力头剪枝策略。在隐喻分类中,剪枝后的模型达到了78%的准确率。我们还将剪枝方法应用于现有的习语分类任务,达到了83%的准确率。这些结果证明了注意力头剪枝在构建低代表性语言的高效NLP工具方面的有效性。 |
[5] 增强释义类型生成:通过人类排序数据评估DPO和RLHF的影响 标题: Enhancing Paraphrase Type Generation: The Impact of DPO and RLHF Evaluated with Human-Ranked Data 作者: Christopher Lee Lübbers 原文: [英文] [中文] 备注: 21 pages, 11 figures. Master's thesis, University of Goettingen, December 2025. Code: this https URL. Models: this https URL 摘要: 释义重表达通过重新表述意义来增强文本简化、机器翻译和问答等应用。特定的释义类型有助于准确的语义分析和稳健的语言模型。然而,现有的释义类型生成方法由于依赖自动化指标和有限的人类标注训练数据,往往与人类偏好不一致,模糊了语义保真度和语言转换的关键方面。本研究通过利用一个人类排序的释义类型数据集,并整合直接偏好优化(DPO),以直接将模型输出与人类判断对齐,来解决这一差距。基于DPO的训练使释义类型生成的准确性比监督基线提高了3个百分点,并使人类偏好评分提高了7个百分点。一个新创建的人类标注数据集支持更严格的未来评估。此外,一个释义类型检测模型在添加/删除、同极性替换和标点符号变化上分别实现了0.91、0.78和0.70的F1分数。这些发现表明,偏好数据和DPO训练产生了更可靠、语义上更准确的释义,从而支持下游应用,如改进的摘要和更稳健的问答。PTD模型超越了自动化指标,提供了一个更可靠的框架来评估释义质量,推动释义类型研究走向更丰富、用户对齐的语言生成,并为未来基于以人为中心的标准的评估奠定了更坚实的基础。 |
[6] ChatCFD:具有领域特定结构化思维的端到端CFD代理 标题: ChatCFD: an End-to-End CFD Agent with Domain-specific Structured Thinking 作者: E Fan / Weizong Wang / Tianhan Zhang 原文: [英文] [中文] 备注: 19 pages, 8 figures 摘要: 计算流体动力学(CFD)对于科学和工程的进步至关重要,但其操作复杂性和对广泛专业知识的需求限制了其应用。本文介绍了ChatCFD,这是一种由大型语言模型驱动的流程,能够在OpenFOAM框架内自动化CFD工作流程。它使用户能够通过自然语言提示或已发表的文献,以最少的专业知识配置和执行复杂的模拟。其创新之处在于其结构化的方法,包括数据库构建、配置验证和错误反思,将CFD和OpenFOAM的知识与通用语言模型相结合,以提高准确性和适应性。验证结果表明,ChatCFD能够自主再现已发表的CFD结果,处理复杂且未见过的配置,超越了基本示例,这对于一般语言模型来说是一个挑战。 |
[7] FinS-Pilot:在线金融系统基准测试 标题: FinS-Pilot: A Benchmark for Online Financial System 作者: Feng Wang / Yiding Sun / Jiaxin Mao / Wei Xue / Danqing Xu 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在各个专业领域展示了卓越的能力,其性能通常通过标准化基准进行评估。然而,金融RAG基准的开发受到数据保密问题和缺乏动态数据集成的限制。为了解决这个问题,我们引入了FinS-Pilot,这是一种用于评估在线金融应用中RAG系统的新型基准。该基准由真实世界的金融助手交互构建而成,结合了实时API数据和结构化文本来源,通过一个涵盖关键金融领域(如股票分析和宏观经济预测)的意图分类框架进行组织。该基准能够全面评估金融助手在处理静态知识和时间敏感的市场信息方面的能力。通过对多个中国领先的大型语言模型进行系统实验,我们证明了FinS-Pilot在识别适合金融应用的模型方面的有效性,同时解决了当前金融领域专业评估工具的缺口。我们的工作为推进金融自然语言处理系统的研究贡献了一个实用的评估框架和一个精心策划的数据集。代码和数据集可在GitHub上获取。 |
[8] 使用BranchLoRA增强多模态持续指令微调 标题: Enhancing Multimodal Continual Instruction Tuning with BranchLoRA 作者: Duzhen Zhang / Yong Ren / Zhong-Zhi Li / Yahan Yu / Jiahua Dong / Chenxing Li / Zhilong Ji / Jinfeng Bai 原文: [英文] [中文] 备注: Accepted by ACL2025 Main Conference 摘要: 多模态持续指令微调(MCIT)旨在微调多模态大型语言模型(MLLMs),以在连续任务中持续与人类意图保持一致。现有的方法通常依赖专家混合(MoE)LoRA框架来保留先前的指令对齐。然而,这些方法容易出现灾难性遗忘(CF),因为它们通过简单的求和来聚合所有LoRA块,随着时间的推移会影响性能。在本文中,我们识别出在MCIT背景下MoELoRA框架中的一个关键参数低效问题。基于这一见解,我们提出了BranchLoRA,一个不对称框架,以提高效率和性能。为了减轻CF,我们在BranchLoRA中引入了一个灵活的调优冻结机制,使分支能够专注于任务内知识,同时促进任务间协作。此外,我们逐步引入任务特定路由器,以确保随着时间的推移实现最佳分支分布,而不是偏向最新任务。为了简化推理,我们引入了一个任务选择器,自动将测试输入路由到适当的路由器,而无需任务身份。最新的MCIT基准上的大量实验表明,BranchLoRA显著优于MoELoRA,并在各种MLLM尺寸上保持其优势。 |
[9] 评估未见能力:大型语言模型知道多少定理? 标题: Evaluating the Unseen Capabilities: How Many Theorems Do LLMs Know? 作者: Xiang Li / Jiayi Xin / Qi Long / Weijie J. Su 原文: [英文] [中文] 备注: None 摘要: 准确评估大型语言模型(LLMs)对于理解其能力和指导其发展至关重要。然而,目前的评估往往无法一致地反映这些模型的实际能力。在本文中,我们展示了导致这种“评估危机”的众多因素之一是对未见知识的忽视——即LLMs编码的信息,但在评估过程中未被直接观察到或尚未被观察到的信息。我们引入了KnowSum,这是一种统计框架,旨在通过量化一类评估任务的未见知识来提供更全面的评估。KnowSum通过从已观察到的知识实例的出现频率进行外推来估计未观察到的部分。我们展示了KnowSum在三个关键应用中的有效性和实用性:估计总知识量、评估信息检索效果和衡量输出多样性。我们的实验表明,仅依赖于观察到的LLM性能会遗漏大量知识。重要的是,基于其内部知识,KnowSum为几种常见的LLM提供了显著不同的比较排名。 |
[10] 知识还是推理?深入观察大型语言模型在各领域的思考方式 标题: Knowledge or Reasoning? A Close Look at How LLMs Think Across Domains 作者: Juncheng Wu / Sheng Liu / Haoqin Tu / Hang Yu / Xiaoke Huang / James Zou / Cihang Xie / Yuyin Zhou 原文: [英文] [中文] 备注: 17 pages, preprint 摘要: 最近在增强推理的大型语言模型方面的进展,例如OpenAI-o1/3和DeepSeek-R1,在复杂任务上的表现有了显著提升。然而,它们内部推理过程的质量和透明度仍未得到充分探索。本文超越了最终答案的准确性,研究了医学和数学领域中的逐步推理过程,通过将思维轨迹明确分解为知识和推理两部分来进行探讨。具体而言,我们引入了一个细粒度的评估框架,该框架评判:(1) 所使用知识的正确性(通过知识指数(KI)衡量)和 (2) 推理的质量(通过信息增益(InfoGain)衡量)。利用这个框架,我们研究了通过监督微调(SFT)和/或强化学习(RL)训练的R1蒸馏模型和基础Qwen模型在医学和数学领域的表现。三项有趣的发现浮出水面:(1) R1蒸馏模型中的一般推理能力无法通过SFT或RL有效转移到医学领域。(2) SFT提高了两个领域的最终答案准确性,但往往以推理质量为代价:与未经训练的模型相比,信息增益平均下降了38.9%;然而,在医学领域,SFT仍然至关重要,因为领域知识是不可或缺的。(3) RL通过从推理路径中修剪不准确或不相关的知识来增强医学推理,从而提高了推理准确性和知识正确性。 |
[11] 模型内部侦查:在现代语言模型中寻找词汇身份和屈折形态 标题: Model Internal Sleuthing: Finding Lexical Identity and Inflectional Morphology in Modern Language Models 作者: Michael Li / Nishant Subramani 原文: [英文] [中文] 备注: None 摘要: 大型基于Transformer的语言模型在现代自然语言处理(NLP)中占据主导地位,但我们对它们如何编码语言信息的理解仍然基于对早期模型如BERT和GPT-2的研究。为了更好地理解当今的语言模型,我们研究了经典架构(BERT、DeBERTa、GPT-2)和当代大型语言模型(Pythia、OLMo-2、Gemma-2、Qwen2.5、Llama-3.1)如何表示词汇身份和屈折形态。我们在各层的激活上训练线性和非线性分类器,以预测词的词干和屈折特征。我们发现,模型在早期层线性地集中词汇信息,而在后期层则越来越非线性地集中,同时在各层中保持屈折信息的均匀可访问性和线性可分性。进一步的分析表明,这些模型通过可推广的抽象来编码屈折形态,但主要依赖记忆来编码词汇身份。值得注意的是,这些模式在我们测试的所有16个模型中都出现了,尽管它们在架构、规模和训练方案(包括预训练和指令微调变体)上存在差异。这种一致性表明,尽管LLM技术取得了重大进展,Transformer模型以类似的方式组织语言信息,这表明这些特性可能是下一个词预测的基础,并在预训练的早期阶段就被学习到。我们的代码可在此https URL获取。 |
[12] BabyLM的首次构建:因果干预提供学习信号 标题: BabyLM's First Constructions: Causal interventions provide a signal of learning 作者: Joshua Rozner / Leonie Weissweiler / Cory Shain 原文: [英文] [中文] 备注: None 摘要: 构式语法认为,儿童通过环境中的统计信息习得构式(形式-意义配对)。最近的研究支持这一假设,表明预训练语言模型(PLMs)对构式具有敏感性,包括最近的一项研究(Rozner等,2025年)展示了构式如何影响PLM的输出分布。然而,研究中的模型通常是在发展上不合理的大量数据上进行训练的,这使得它们与人类语言学习的相关性受到质疑。在此,我们使用Rozner等人的方法来评估2024年BabyLM挑战中的模型的构式学习。我们的结果表明,即使在发展上合理的数据量上进行训练,模型也能表示多样的构式,甚至是那些表面上难以区分的复杂案例。我们进一步发现相关证据表明构式表现可能具有功能上的相关性:更好地表示构式的模型在BabyLM基准测试中表现更佳。 |
[13] HENT-SRT:用于联合语音识别和翻译的分层高效神经转换器与自蒸馏 标题: HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and Translation 作者: Amir Hussein / Cihan Xiao / Matthew Wiesner / Dan Povey / Leibny Paola Garcia / Sanjeev Khudanpur 原文: [英文] 备注: None 摘要: 神经转换器(NT)为语音流处理提供了一个有效的框架,在自动语音识别(ASR)中表现出色。然而,将NT应用于语音翻译(ST)仍然具有挑战性,因为现有方法在联合建模ASR和ST时难以处理词序重排和性能下降,导致与基于注意力的编码器-解码器(AED)模型存在差距。现有基于NT的ST方法还面临高计算训练成本的问题。为了解决这些问题,我们提出了HENT-SRT(用于语音识别和翻译的分层高效神经转换器),这是一种新颖的框架,通过分解ASR和翻译任务来更好地处理重排。为了在保持ASR性能的同时确保稳健的ST,我们使用了具有CTC一致性正则化的自蒸馏。此外,我们通过结合ASR转换器的最佳实践来提高计算效率,包括下采样的分层编码器、无状态预测器和修剪的转换器损失,以降低训练复杂性。最后,我们在解码过程中引入了空白惩罚,减少了删除并提高了翻译质量。我们的方法在阿拉伯语、西班牙语和普通话的三个对话数据集上进行了评估,在NT模型中实现了新的最先进性能,并大大缩小了与基于AED的系统的差距。 |
[14] 不同的语音翻译模型对说话者性别的编码和翻译方式不同 标题: Different Speech Translation Models Encode and Translate Speaker Gender Differently 作者: Dennis Fucci / Marco Gaido / Matteo Negri / Luisa Bentivogli / Andre Martins / Giuseppe Attanasio 原文: [英文] [中文] 备注: Accepted at ACL 2025 摘要: 最近关于语音模型隐藏状态解释的研究表明,这些模型能够捕捉到说话者特定的特征,包括性别。那么,这一发现是否也适用于语音翻译(ST)模型?如果是这样的话,这对翻译中说话者性别的分配有什么影响?我们从可解释性的角度解决这些问题,使用探测方法评估不同ST模型中的性别编码。在三个语言方向(英语-法语/意大利语/西班牙语)的结果表明,传统的编码器-解码器模型能够捕捉性别信息,而通过适配器将语音编码器与机器翻译系统集成的新架构则不能。我们还证明,低性别编码能力导致系统倾向于默认使用男性化,这种翻译偏见在新架构中更为明显。 |
[15] 人工智能辩论辅助争议性主张的评估 标题: AI Debate Aids Assessment of Controversial Claims 作者: Salman Rahman / Sheriff Issaka / Ashima Suvarna / Genglin Liu / James Shiffer / Jaeyoung Lee / Md Rizwan Parvez / Hamid Palangi / Shi Feng / Nanyun Peng / Yejin Choi / Julian Michael / Liwei Jiang / Saadia Gabriel 原文: [英文] 备注: None 摘要: 随着人工智能变得越来越强大,它将越来越多地影响我们对世界的理解。然而,这种影响也带来了放大错误信息和加深社会分歧的风险,尤其是在公共健康等对事实准确性直接影响福祉的重要话题上。可扩展监督旨在通过让人类监督可能超越人类能力的系统来确保人工智能的真实性——然而人类自身持有不同的信念和偏见,这会影响他们的判断。我们研究人工智能辩论是否可以通过让两个人工智能系统就有争议的COVID-19事实性声明的对立面进行辩论来引导有偏见的评审走向真相,因为人们对这些声明持有强烈的先验信念。我们进行了两项研究:一项是让持有主流或怀疑信念的人类评审通过人工智能辅助辩论或咨询协议来评估事实性声明,另一项是研究使用个性化人工智能评审来模拟这些不同的人类信念系统的同一问题。在我们的人类研究中,我们发现辩论——即两个人工智能顾问系统提出对立的基于证据的论点——始终提高了判断准确性和信心校准,整体上比单一顾问系统的咨询高出10%。对于持有主流信念的评审来说,改善最为显著(准确性提高15.2%),尽管辩论也帮助最初误判声明的怀疑评审走向准确的观点(准确性提高4.7%)。在我们的人工智能评审研究中,我们发现具有类人个性的人工智能评审比人类评审(70.1%)和没有个性的默认人工智能评审(69.8%)实现了更高的准确性(78.5%),这表明它们在监督前沿人工智能模型方面的潜力。这些发现突出了人工智能辩论作为一种有前途的路径,朝着可扩展、抗偏见的监督迈进——利用多样化的人类和人工智能判断在有争议的领域中更接近真相。 |
[16] 语音的回声:通过特征归因揭示自动语音识别的相关声学线索 标题: Echoes of Phonetics: Unveiling Relevant Acoustic Cues for ASR via Feature Attribution 作者: Dennis Fucci / Marco Gaido / Matteo Negri / Mauro Cettolo / Luisa Bentivogli 原文: [英文] [中文] 备注: Accepted at Interspeech 2025 摘要: 尽管自动语音识别(ASR)技术取得了显著进展,但模型依赖的具体声学线索仍不清楚。先前的研究在有限的音素集和过时的模型上检查了这些线索。在这项工作中,我们应用特征归因技术来识别现代基于Conformer的ASR系统的相关声学线索。通过分析爆破音、摩擦音和元音,我们评估特征归因在时间和频率域中与其声学特性的对齐情况,这些特性对人类语音感知也至关重要。我们的研究结果表明,ASR模型依赖于元音的完整时间跨度,特别是它们的前两个共振峰,在男性语音中表现出更高的显著性。它还比非齿擦音更好地捕捉了齿擦音摩擦音的频谱特性,并优先考虑爆破音中的释放阶段,尤其是爆破特性。这些见解增强了ASR模型的可解释性,并强调了未来研究的领域,以揭示模型稳健性中的潜在差距。 |
[17] BehaviorBox:自动发现语言模型之间细粒度性能差异 标题: BehaviorBox: Automated Discovery of Fine-Grained Performance Differences Between Language Models 作者: Lindia Tjuatja / Graham Neubig 原文: [英文] [中文] 备注: Accepted to ACL 2025 Main Conference 摘要: 语言模型的评估是一项艰巨的任务:提示词容易出错,语料库级别的困惑度模糊不清,基准测试的选择无穷无尽。找到能够展示两个语言模型之间有意义且可推广差异的例子,对于理解一个模型成功的地方和另一个模型失败的地方至关重要。这个过程可以自动化吗?在这项工作中,我们提出了一种自动比较语言模型的方法,该方法使用性能感知的上下文嵌入来发现文本中一个语言模型优于另一个的细粒度特征。我们的方法被命名为BehaviorBox,它提取连贯的特征,展示两个语言模型在生成难易程度方面的差异。具体来说,BehaviorBox发现描述细粒度上下文中词组的特征,例如“在短语‘if you were’中的条件‘were’”和“情感陈述后的感叹号”,在特定数据集中,一个模型优于另一个。我们应用BehaviorBox来比较在大小、模型家族和后训练方面不同的模型,并列举出在特定上下文中展示有意义性能差异的见解,这些差异无法仅通过语料库级别的困惑度等指标发现。 |
[18] 利用自然语言处理揭开生命的奥秘:基因组学、转录组学和蛋白质组学中自然语言处理方法的综述 标题: Leveraging Natural Language Processing to Unravel the Mystery of Life: A Review of NLP Approaches in Genomics, Transcriptomics, and Proteomics 作者: Ella Rannon / David Burstein 原文: [英文] 备注: None 摘要: 自然语言处理(NLP)通过将最初为人类语言开发的技术应用于生物序列的分析,已经改变了语言学以外的多个领域。本文综述了NLP方法在生物序列数据中的应用,重点关注基因组学、转录组学和蛋白质组学。我们研究了从经典方法如word2vec到使用transformers和hyena算子等先进模型的各种NLP方法如何被改编用于分析DNA、RNA、蛋白质序列以及整个基因组。该综述还探讨了标记化策略和模型架构,评估了它们的优点、局限性及其对不同生物任务的适用性。我们进一步讨论了NLP在生物数据应用中的最新进展,如结构预测、基因表达和进化分析,强调了这些方法在从大规模基因组数据中提取有意义见解方面的潜力。随着语言模型的不断进步,它们在生物信息学中的整合为推进我们对生命各领域生物过程的理解带来了巨大希望。 |
[19] 研究词语信息量对语音情感识别的影响 标题: Investigating the Impact of Word Informativeness on Speech Emotion Recognition 作者: Sofoklis Kakouros 原文: [英文] [中文] 备注: Accepted to Interspeech 2025 摘要: 在语音情感识别中,一个关键挑战在于识别出语音信号中那些携带最相关声学变化的片段,以便辨别特定情感。传统方法通常在整个句子或更长的语音片段上计算能量和基频(F0)等特征的函数,这可能会遗漏长时统计中的重要细粒度变化。本研究探讨了利用预训练语言模型得出的词语信息量来识别语义上重要的片段。然后,仅对这些识别出的片段计算声学特征,从而提高情感识别的准确性。该方法使用标准的声学韵律特征、其函数以及自监督表示。结果表明,当在基于词语信息量选择的片段上计算特征时,识别性能显著提高,这突显了该方法的有效性。 |
[20] CoDial:通过对话流程对齐实现可解释的任务导向对话系统 标题: CoDial: Interpretable Task-Oriented Dialogue Systems Through Dialogue Flow Alignment 作者: Radin Shayanfar / Chu Fei Luo / Rohan Bhambhoria / Samuel Dahan / Xiaodan Zhu 原文: [英文] 备注: None 摘要: 教授对话系统处理专业且未见过的任务常常具有挑战性,因为这需要高昂的专家知识、训练数据和技术难度。为了支持法律、医学或金融等特定领域的应用,建立能够让非技术专家以最小的努力定义、测试和改进系统行为的框架是至关重要的。实现这一目标需要开发人员和领域专家之间的跨学科合作。在这项工作中,我们介绍了一种新颖的框架,CoDial(对话代码),它将专家知识(表示为一种新颖的结构化异构图)转换为可执行的对话逻辑。CoDial 可以轻松地在现有的防护语言(如 Colang)中实现,以支持可解释、可修改和真正零样本的任务导向对话系统规范。实验证明,CoDial 在基于推理的模型上在 STAR 数据集上达到了最先进的性能,并且在著名的 MultiWOZ 数据集上与类似的基线具有竞争力。我们还展示了 CoDial 通过手动和大型语言模型(LLM)辅助反馈的迭代改进,使其成为在高风险领域中专家指导对齐 LLM 的实用工具。 |
[21] ImpRAG:基于隐式查询的检索增强生成 标题: ImpRAG: Retrieval-Augmented Generation with Implicit Queries 作者: Wenzheng Zhang / Xi Victoria Lin / Karl Stratos / Wen-tau Yih / Mingda Chen 原文: [英文] [中文] 备注: None 摘要: 检索增强生成(RAG)系统传统上将检索和生成视为独立的过程,需要明确的文本查询来连接它们。这种分离可能限制模型在不同任务中的泛化能力。在这项工作中,我们提出了一种无查询的RAG系统,名为ImpRAG,它将检索和生成整合到一个统一的模型中。ImpRAG允许模型隐式表达其信息需求,消除了对人工指定查询的需求。通过将预训练的仅解码器语言模型划分为专门的层组,ImpRAG同时优化检索和生成任务。我们的方法采用两阶段推理过程,使用相同的模型参数和前向传递来进行检索和生成,从而最大限度地减少检索器和语言模型之间的差异。在8个知识密集型任务上的实验表明,ImpRAG在未见过的任务中实现了3.6-11.5的精确匹配分数提升,任务格式多样,突显了其在使模型能够表达自身信息需求和跨任务泛化方面的有效性。我们的分析强调了平衡检索和生成参数的重要性,并利用生成困惑度作为检索训练目标以提高性能。 |
[22] 听起来像个赢家?赛后采访中的韵律差异 标题: Sounding Like a Winner? Prosodic Differences in Post-Match Interviews 作者: Sofoklis Kakouros / Haoyu Chen 原文: [英文] [中文] 备注: Accepted to Interspeech 2025 摘要: 本研究考察了网球赛后采访中与胜负相关的韵律特征。此外,本研究还探索了仅基于赛后采访录音,通过韵律特征和自监督学习(SSL)表示来分类比赛结果的可能性。通过分析音高和强度等韵律元素,以及使用Wav2Vec 2.0和HuBERT等SSL模型,研究的目的是确定运动员是赢得了比赛还是输了比赛。从数据中提取传统的声学特征和深度语音表示,并使用机器学习分类器来区分胜负选手。结果表明,SSL表示能够有效地区分胜负结果,捕捉到与情绪状态相关的微妙语音模式。同时,音高变化等韵律线索仍然是胜利的强有力指标。 |
[23] LAM SIMULATOR:通过在线探索和轨迹反馈推进大型动作模型训练的数据生成 标题: LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback 作者: Thai Hoang / Kung-Hsiang Huang / Shirley Kokane / Jianguo Zhang / Zuxin Liu / Ming Zhu / Jake Grigsby / Tian Lan / Michael S Ryoo / Chien-Sheng Wu / Shelby Heinecke / Huan Wang / Silvio Savarese / Caiming Xiong / Juan Carlos Niebles 原文: [英文] 备注: LAM Simulator framework for agentic data generation 摘要: 大型动作模型(LAMs)为人工智能代理提供了巨大的潜力,但由于需要高质量的训练数据,尤其是涉及计划、执行工具调用和响应反馈的多步骤任务,因此面临挑战。为了解决这些问题,我们提出了LAM SIMULATOR,这是一个全面的框架,旨在在线探索具有高质量反馈的代理任务。我们的框架具有动态任务查询生成器、广泛的工具集合和一个交互式环境,其中大型语言模型(LLM)代理可以调用工具并接收实时反馈。此设置使LLM代理能够自主探索和解决任务,促进发现多种方法来处理任何给定任务。生成的动作轨迹数据随后用于创建高质量的LAMs训练数据集。我们在流行的代理基准ToolBench和CRMArena上的实验突出了LAM SIMULATOR的有效性:使用我们的框架自生成数据集训练的模型在性能上显著提升,相较于其原始基线提高了高达49.3%。在数据集创建过程中,LAM SIMULATOR需要的人工输入极少,突显了其在加速AI代理开发方面的效率和有效性。 |
[24] 解释后处理:使用语法提示增强语法可接受性判断 标题: Explain-then-Process: Using Grammar Prompting to Enhance Grammatical Acceptability Judgments 作者: Russell Scheinberg / Ameeta Agrawal / Amber Shore / So Young Lee 原文: [英文] [中文] 备注: Accepted at ACL 2025 Findings 摘要: 大型语言模型(LLMs)能够解释语法规则,但在判断句子可接受性时常常无法应用这些规则。我们提出了“语法提示”这一解释-处理范式:首先,大型LLM生成相关句法现象的简要解释,然后将该解释作为附加上下文反馈给目标模型——无论是LLM还是较小的语言模型(SLM)——在决定哪一个句子对是语法正确的之前。在英语BLiMP、中文SLING和俄语RuBLiMP基准测试中,这种简单的提示设计在许多句法现象上相较于强基线取得了显著的改进。将LLM的元语言解释反馈给目标模型,弥合了知道规则与使用规则之间的差距。在SLM上,仅靠语法提示就能将LLM-SLM的平均准确率差距缩小约20%,而与思维链结合时,则缩小了56%(从13.0个百分点缩小到5.8个百分点),且几乎没有成本。这个轻量级、与语言无关的提示使得低成本的SLM在多语言环境中接近前沿LLM的表现。 |
[25] 量化作者归属中的错误归因不公平性 标题: Quantifying Misattribution Unfairness in Authorship Attribution 作者: Pegah Alipoormolabashi / Ajay Patel / Niranjan Balasubramanian 原文: [英文] [中文] 备注: None 摘要: 作者归属错误在现实生活中可能产生深远的影响。在法庭环境中,仅仅被认为是证据文本或通信的潜在作者之一,就可能导致不必要的审查。这引发了一个公平性问题:候选作者池中的每位作者是否面临同等的归属错误风险?现有的作者归属系统的标准评估方法并未明确考虑这种公平性概念。我们引入了一种简单的度量方法,称为误归属不公平指数(MAUIk),该指数基于作者在他们未撰写的文本中被排在前k名的频率。利用这一指标,我们量化了五种模型在两个不同数据集上的不公平性。所有模型都表现出高水平的不公平性,并且某些作者面临更高的风险。此外,我们发现这种不公平性与模型如何将作者嵌入为潜在搜索空间中的向量有关。特别是,我们观察到,嵌入作者中更接近质心(或中心)的作者面临更高的归属错误风险。这些结果表明了潜在的危害,并强调在构建和提供此类模型以供下游使用时,与最终用户沟通和校准归属错误风险的必要性。 |
[26] 就像TRuST一样的东西:跨度和目标的毒性识别 标题: Something Just Like TRuST : Toxicity Recognition of Span and Target 作者: Berk Atil / Namrata Sureddy / Rebecca J. Passonneau 原文: [英文] 备注: None 摘要: 在线内容中的有害性,包括由语言模型生成的内容,已成为一个关键问题,因为它可能对心理和社会产生负面影响。本文介绍了TRuST,这是一个旨在改善有害性检测的综合数据集,它融合了现有的数据集,并对有害性、目标社会群体和有害片段进行了标注。该数据集涵盖了多种目标群体,如种族、性别、宗教、残疾和政治,包含了人类/机器标注和人机生成的数据。我们对最先进的大型语言模型(LLMs)在有害性检测、目标群体识别和有害片段提取方面进行了基准测试。我们发现,经过微调的模型在性能上始终优于零样本和少样本提示,尽管对于某些社会群体的表现仍然较低。此外,推理能力并未显著提高性能,这表明LLMs在社会推理能力方面较弱。 |
[27] 开源推理模型的一个缺失环节:用于缓解强化学习中短链式思维大语言模型冷启动的数据集 标题: One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL 作者: Hyungjoo Chae / Dongjin Kang / Jihyuk Kim / Beong-woo Kwak / Sunghyun Park / Haeju Park / Jinyoung Yeo / Moontae Lee / Kyungjae Lee 原文: [英文] [中文] 备注: ACL 2025 Industry 摘要: 随着R1的发布,一个公开可用的大型推理模型(LRM),研究人员通常通过在R1的长链式推理(CoT)推断上训练语言模型来训练新的LRM。虽然先前的工作表明,LRM的能力可以通过直接蒸馏来再现,但对现有模型(例如R1)的持续依赖仍然是推进该领域的一个关键限制。作为独立LRM开发的第一步,本文探讨了使用未针对推理时间扩展训练的大型语言模型(LLM)构建长CoT数据集的可能性。为此,我们提出了长CoT集合,这是一个由现有短CoT LLM注释的10万CoT推理的数据集。我们开发了一个管道,将o1的新颖推理策略引入短CoT LLM,使其能够进行更长时间的思考,并引入对思维预算的可控性,以更好地管理过度思考问题。我们的广泛分析验证了我们的数据集达到了与R1相当或略低的质量。此外,我们的实验表明,在我们的数据集上进行训练不仅增强了一般推理能力,还为强化学习提供了坚实的基础——在我们的数据上初始化的模型通过RLVR实现了2-3倍的更大增益。 |
[28] STORYTELLER:一种用于生成连贯且一致故事的增强型情节规划框架 标题: STORYTELLER: An Enhanced Plot-Planning Framework for Coherent and Cohesive Story Generation 作者: Jiaming Li / Yukun Chen / Ziqiang Liu / Minghuan Tan / Lei Zhang / Yunshui Li / Run Luo / Longze Chen / Jing Luo / Ahmadreza Argha / Hamid Alinejad-Rokny / Wei Zhou / Min Yang 原文: [英文] [中文] 备注: None 摘要: 故事是人类文化的核心,能够分享思想、保存传统并促进联系。自动故事生成是人工智能(AI)的一个重要进展,为创建个性化内容、探索创意想法和增强互动体验提供了新的可能性。然而,现有的方法难以保持叙事的连贯性和逻辑一致性。这种脱节损害了整体的讲故事体验,强调了需要进行实质性改进。受人类认知过程的启发,我们引入了Storyteller,这是一种系统性提高自动生成故事的连贯性和一致性的新方法。Storyteller引入了一种基于语言学基础的主谓宾(SVO)三元组的情节节点结构,捕捉重要的故事事件并确保一致的逻辑流。与以往的方法不同,Storyteller整合了两个动态模块:故事线(STORYLINE)和叙事实体知识图谱(NEKG),它们与故事生成过程持续互动。这种整合产生了结构合理、连贯且引人入胜的叙事。大量实验表明,Storyteller显著优于现有方法,通过人类偏好评估实现了84.33%的平均胜率。同时,它在创造力、连贯性、参与度和相关性等其他方面也遥遥领先。 |
[29] 真相胜于技巧:衡量和缓解错误信息检测中的捷径学习 标题: Truth over Tricks: Measuring and Mitigating Shortcut Learning in Misinformation Detection 作者: Herun Wan / Jiaying Wu / Minnan Luo / Zhi Zeng / Zhixiong Su 原文: [英文] [中文] 备注: None 摘要: 误导信息检测模型通常依赖于与训练数据中的误导信息相关的表面线索(即“捷径”),但这些线索无法推广到真实世界中多样且不断演变的误导信息。这一问题因大型语言模型(LLMs)的存在而加剧,因为它们可以通过简单的提示轻松生成令人信服的误导信息。我们引入了TruthOverTricks,这是一种用于测量误导信息检测中捷径学习的统一评估范式。TruthOverTricks将捷径行为分为内在捷径诱导和外在捷径注入,并在14个流行基准测试以及两个新的事实性误导信息数据集NQ-Misinfo和Streaming-Misinfo上评估了七个代表性检测器。实证结果表明,现有检测器在面对自然发生和对抗性设计的捷径时,性能严重下降。为了解决这一问题,我们提出了SMF,这是一种通过大型语言模型增强的数据扩充框架,通过改写、事实性总结和情感归一化来减轻对捷径的依赖。SMF在16个基准测试中持续增强了鲁棒性,鼓励模型依赖于更深层次的语义理解而非捷径线索。为了促进误导信息检测器的发展,我们已在此https URL上公开发布了相关资源。 |
[30] DIAMOND:一种用于上下文感知棒球精彩片段总结的LLM驱动代理 标题: DIAMOND: An LLM-Driven Agent for Context-Aware Baseball Highlight Summarization 作者: Jeonghun Kang / Soonmok Kwon / Joonseok Lee / Byung-Hak Kim 原文: [英文] [中文] 备注: To appear in the First REALM (Research on Agent Language Models) workshop at ACL 2025 摘要: 传统的方法——例如基于胜率增加(WPA)的排名或计算机视觉驱动的事件检测——可以识别得分的比赛,但往往忽略了战略深度、势头转变和故事线的发展。人工策划仍然是黄金标准,但资源密集且不具备可扩展性。我们介绍了DIAMOND,这是一种用于上下文感知的棒球精彩片段总结的LLM驱动代理,它将结构化的体育分析与自然语言推理相结合。DIAMOND利用了胜率、WPA和杠杆指数等赛博计量特征来量化比赛的重要性,同时一个LLM模块基于上下文叙述价值增强选择。该混合方法确保了定量的严谨性和定性的丰富性,超越了纯粹基于统计或视觉系统的局限性。在对五场不同的韩国棒球组织联盟比赛进行评估时,DIAMOND将F1分数从42.9%(仅WPA)提高到84.8%,优于商业和统计基线。尽管规模有限,我们的结果突显了模块化、可解释的基于代理的框架在体育及其他领域的事件级总结中的潜力。 |
[31] 谨慎回答:用于提高日本大型语言模型输出安全性的数据集 标题: AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output 作者: Hisami Suzuki / Satoru Katsumata / Takashi Kodama / Tetsuro Takahashi / Kouta Nakayama / Satoshi Sekine 原文: [英文] [中文] 备注: None 摘要: 本文介绍了AnswerCarefully,一个旨在促进日本大型语言模型(LLM)输出安全性和适当性的数据集。该数据集由1800对问题和参考答案组成,这些问题在回答时需要特别注意。它涵盖了先前英语数据集中建立的广泛风险类别,但数据样本是原创的,手动创建以反映日本LLM使用的社会文化背景。我们展示了使用该数据集进行指令微调日本LLM可以在不影响一般响应实用性的情况下提高输出安全性。我们还报告了使用该数据集作为基准对12个日本LLM进行安全性评估的结果。最后,我们描述了数据集的最新更新,其中提供了问题的英文翻译和注释,旨在促进在不同语言和地区衍生类似数据集。 |
[32] 探索解释提高了上下文学习的鲁棒性 标题: Exploring Explanations Improves the Robustness of In-Context Learning 作者: Ukyo Honda / Tatsushi Oka 原文: [英文] [中文] 备注: Accepted to ACL 2025 (Main Conference) 摘要: 上下文学习(ICL)已成为利用大型语言模型(LLMs)的成功范式。然而,它往往难以推广到所提供示例的分布之外。最近在增强鲁棒性方面的进展是带有解释的ICL(X-ICL),通过引导LLMs理解和表达正确标签背后的推理来提高预测可靠性。在此方法的基础上,我们引入了一个高级框架,通过系统地探索所有可能标签的解释(X$^2$-ICL),从而实现更全面和更稳健的决策。对多个自然语言理解数据集的实验结果验证了X$^2$-ICL的有效性,显示出与现有ICL方法相比,对分布外数据的鲁棒性显著提高。 |
[33] 顾问解码:又一种协同机制 标题: Consultant Decoding: Yet Another Synergistic Mechanism 作者: Chuanghao Ding / Jiaping Wang / Ziqing Yang / Xiaoliang Wang / Dahua Lin / Cam-Tu Nguyen / Fei Tan 原文: [英文] [中文] 备注: ACL 2025 findings 摘要: 基于推测解码(Speculative Decoding, SD)的协同机制作为一种简单而有效的方法,在加速大型语言模型(LLMs)的推理方面引起了广泛关注。然而,由于高拒绝率需要反复调用LLMs来验证草稿标记,削弱了SD的整体效率提升。在这项工作中,我们重新审视了现有的验证机制,并提出了一种新颖的协同机制——顾问解码(Consultant Decoding, CD)。与依赖于重要性采样导出的度量进行验证的SD不同,CD使用仅由LLM计算的标记级别的似然性来验证候选草稿。CD在推理速度上比目标模型提高了多达2.5倍,同时保持了可比的生成质量(约为目标模型性能的100%)。有趣的是,这一成就是通过结合参数规模相差两个数量级的模型实现的。此外,CD将大型目标模型的调用频率降低到10%以下,特别是在更具挑战性的任务中。CD的性能甚至被发现超过了大型目标模型,而后者理论上代表了推测解码的上限。 |
[34] GraphRAG-Bench:用于评估图检索增强生成的领域特定推理挑战 标题: GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation 作者: Yilin Xiao / Junnan Dong / Chuang Zhou / Su Dong / Qianwen Zhang / Di Yin / Xing Sun / Xiao Huang 原文: [英文] [中文] 备注: None 摘要: 图检索增强生成(GraphRAG)因其通过结构化组织特定领域语料库并促进复杂推理来增强大型语言模型(LLMs)的潜力而获得越来越多的认可。然而,目前对GraphRAG模型的评估主要依赖于传统的问答数据集。其问题和评估指标的范围有限,未能全面评估GraphRAG模型所带来的推理能力提升。为了解决这一差距,我们引入了GraphRAG-Bench,这是一个大规模、特定领域的基准,旨在严格评估GraphRAG模型。我们的基准提供了三个主要优势:\((i)\) 具有挑战性的问题设计。该基准包含大学水平的、特定领域的问题,要求多跳推理,确保简单的内容检索不足以解决问题。例如,有些问题需要数学推理或编程。 \((ii)\) 多样的任务覆盖。数据集包括广泛的推理任务,如多项选择、是非判断、多选、开放式和填空题。它涵盖了20本核心教材中的16个学科。 \((iii)\) 全面的评估框架。GraphRAG-Bench提供了对整个GraphRAG流程的全面评估,包括图构建、知识检索和答案生成。除了最终答案的正确性外,它还评估推理过程的逻辑连贯性。通过将九种当代GraphRAG方法应用于GraphRAG-Bench,我们展示了其在量化基于图的结构如何提高模型推理能力方面的实用性。我们的分析揭示了关于图架构、检索效率和推理能力的关键见解,为研究界提供了可操作的指导。 |
[35] 新加坡儿童:用于语言学习的多语言多模态对话导师 标题: SingaKids: A Multilingual Multimodal Dialogic Tutor for Language Learning 作者: Zhengyuan Liu / Geyu Lin / Hui Li Tan / Huayun Zhang / Yanfeng Lu / Xiaoxue Gao / Stella Xin Yin / He Sun / Hock Huan Goh / Lung Hsiang Wong / Nancy F. Chen 原文: [英文] [中文] 备注: ACL 2025 Industry Track 摘要: 将生成式人工智能整合到教育应用中,提升了个性化和互动式学习体验,并显示出促进年轻学习者语言习得的强大潜力。然而,确保在不同语言和文化背景下的一致和稳健的表现仍然具有挑战性,而适合儿童的设计需要简化的指令、引人入胜的互动以及适龄的支架,以保持学习动机并优化学习效果。在这项工作中,我们介绍了SingaKids,这是一款通过图片描述任务促进语言学习的对话式导师。我们的系统集成了密集图像字幕、多语言对话互动、语音理解和引人入胜的语音生成,创造了一个沉浸式的学习环境,支持四种语言:英语、普通话、马来语和泰米尔语。我们通过多语言预训练、任务特定调优和支架优化进一步改进了系统。对小学生的实证研究表明,SingaKids提供了有效的对话式教学,惠及不同表现水平的学习者。 |
[36] 世界各地英语教材中的性别不平等:一种自然语言处理方法 标题: Gender Inequality in English Textbooks Around the World: an NLP Approach 作者: Tairan Liu 原文: [英文] 备注: None 摘要: 教科书在塑造儿童对世界的理解方面起着关键作用。虽然先前的研究已经在个别国家的教科书中发现了性别不平等,但很少有研究跨文化地考察这一问题。本研究应用自然语言处理方法来量化来自22个国家、7个文化圈的英语教科书中的性别不平等。指标包括角色数量、优先提及(哪个性别先被提到)以及按性别划分的TF-IDF词语关联。分析还识别了出现在TF-IDF词表中的专有名词的性别模式,测试大型语言模型是否能够区分性别化的词表,并使用GloVe嵌入来检查关键词与每个性别的关联程度。结果显示,在数量、优先提及和命名实体方面,男性角色的一致性过度代表。所有地区都表现出性别不平等,其中拉丁文化圈显示出最小的不平等。 |
[37] 人工智能代理架构在实体关系分类中的比较分析 标题: Comparative Analysis of AI Agent Architectures for Entity Relationship Classification 作者: Maryam Berijanian / Kuldeep Singh / Amin Sehati 原文: [英文] [中文] 备注: None 摘要: 实体关系分类在信息抽取中仍然是一项具有挑战性的任务,尤其是在标注数据有限和关系结构复杂的情况下。在本研究中,我们对三种不同的AI代理架构进行了比较分析,这些架构旨在使用大型语言模型(LLMs)进行关系分类。所探讨的代理架构包括(1)反思性自我评估,(2)分层任务分解,以及(3)一种新颖的多代理动态示例生成机制,每种架构利用不同的推理模式和提示适应性。特别是,我们的动态示例生成方法引入了实时的合作和对抗性提示。我们系统地比较了它们在多个领域和模型后端的性能。我们的实验表明,多代理协调始终优于标准的少样本提示,并接近于微调模型的性能。这些发现为设计模块化、可推广的基于LLM的结构化关系抽取系统提供了实用指导。源代码和数据集可在 \href{this https URL}{this https URL} 获取。 |
[38] 从愤怒到喜悦:国籍角色如何影响大型语言模型中的情感归因 标题: From Anger to Joy: How Nationality Personas Shape Emotion Attribution in Large Language Models 作者: Mahammed Kamruzzaman / Abdullah Al Monsur / Gene Louis Kim / Anshuman Chhabra 原文: [英文] 备注: None 摘要: 情感是人类体验的基本方面,在个体、文化背景和国籍之间存在差异。鉴于大型语言模型(LLMs)作为角色扮演代理的近期成功,我们研究了当LLMs被赋予特定国籍角色时,它们是否表现出情感刻板印象。具体而言,我们调查了不同国家在预训练LLMs中通过情感归因的表现方式,以及这些归因是否与文化规范一致。我们的分析揭示了基于国籍的显著差异,诸如羞耻、恐惧和快乐等情感在不同地区被不成比例地分配。此外,我们观察到LLM生成的情感反应与人类情感反应之间存在显著的不一致,特别是在负面情感方面,这突显了LLM输出中存在简化且可能有偏见的刻板印象。 |
[39] 大语言模型的安全性是否应该超越拒绝有害指令? 标题: Should LLM Safety Be More Than Refusing Harmful Instructions? 作者: Utsav Maskey / Mark Dras / Usman Naseem 原文: [英文] [中文] 备注: Preprint 摘要: 本文系统地评估了大型语言模型(LLMs)在长尾分布(加密)文本上的行为及其安全性影响。我们引入了一个二维框架来评估LLM的安全性:(1)指令拒绝能力——拒绝有害模糊指令的能力,以及(2)生成安全性——抑制生成有害响应的能力。通过全面的实验,我们证明了具备解密能力的模型可能容易受到不匹配泛化攻击:它们的安全机制在至少一个安全维度上失效,导致不安全的响应或过度拒绝。基于这些发现,我们评估了一些LLM前和LLM后的安全措施,并讨论了它们的优缺点。这项工作有助于理解LLM在长尾文本场景中的安全性,并为开发稳健的安全机制提供了方向。 |
[40] IP-Dialog:使用合成数据评估对话系统中的隐式个性化 标题: IP-Dialog: Evaluating Implicit Personalization in Dialogue Systems with Synthetic Data 作者: Bo Peng / Zhiheng Wang / Heyang Gong / Chaochao Lu 原文: [英文] [中文] 备注: None 摘要: 在现代对话系统中,从对话中隐式推断用户背景并利用这些信息进行个性化辅助的能力至关重要。然而,高质量数据的稀缺仍然是评估和提升这一能力的根本挑战。传统的数据集构建方法劳动密集、资源需求高,并且引发隐私问题。为了解决这些问题,我们提出了一种新的自动合成数据生成方法,并引入了隐式个性化对话(IP-Dialog)基准以及一个涵盖10个任务和12种用户属性类型的训练数据集。此外,我们开发了一个系统的评估框架,包含四个指标,用于评估属性意识和推理能力。我们进一步提出了五个因果图,以阐明模型在隐式个性化过程中推理路径。大量实验得出了有见地的观察结果,并证明了我们数据集的可靠性。 |
[41] 多模态深度研究者:使用代理框架从零生成文本-图表交错的报告 标题: Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework 作者: Zhaorui Yang / Bo Pan / Han Wang / Yiyao Wang / Xingyu Liu / Minfeng Zhu / Bo Zhang / Wei Chen 原文: [英文] [中文] 备注: 47 pages 摘要: 可视化在有效传达概念和信息中起着至关重要的作用。最近在推理和检索增强生成方面的进展使大型语言模型(LLMs)能够进行深入研究并生成综合报告。尽管取得了进展,现有的深度研究框架主要集中在生成纯文本内容,而对自动生成交错文本和可视化的研究较少。这个新颖的任务在设计信息丰富的可视化和将其有效整合到文本报告中面临关键挑战。为了解决这些挑战,我们提出了可视化的形式化描述(FDV),这是一种结构化的图表文本表示,能够让LLMs学习和生成多样化的高质量可视化。在此表示的基础上,我们引入了多模态深度研究者(Multimodal DeepResearcher),这是一种将任务分解为四个阶段的代理框架:(1)研究,(2)示例报告文本化,(3)规划,以及(4)多模态报告生成。为了评估生成的多模态报告,我们开发了MultimodalReportBench,其中包含100个多样化的主题作为输入,并配有5个专用指标。跨模型和评估方法的大量实验表明,多模态深度研究者的有效性。值得注意的是,使用相同的Claude 3.7 Sonnet模型,多模态深度研究者在整体上比基线方法取得了82%的胜率。 |
[42] MidPO:通过专家混合框架对大型语言模型进行安全性和有用性的双重偏好优化 标题: MidPO: Dual Preference Optimization for Safety and Helpfulness in Large Language Models via a Mixture of Experts Framework 作者: Yupeng Qi / Ziyu Lyu / Min Yang / Yanlin Wang / Lu Bai / Lixin Cui 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型(LLMs)在各个领域的广泛应用,提升安全性同时保持LLMs的有用性已成为一个关键挑战。最近的研究通过安全约束的在线偏好优化或安全约束的离线偏好优化来解决这个问题。然而,安全约束的在线方法往往因过度关注安全性而可能降低有用性,而安全约束的离线方法在自适应平衡安全性和有用性方面表现不佳。为了解决这些局限性,我们提出了MidPO,这是一种用于安全-有用性双重偏好优化的专家混合(MoE)框架。首先,MidPO设计了一种单偏好增强的直接偏好优化方法,将基础模型转化为两个独立的专家,称为安全专家和有用性专家,并对这两个独立的专家进行微调,以实现最佳的安全性或有用性表现。其次,为了在安全性和有用性之间实现有效的平衡,MidPO将这两个专家纳入MoE框架,并设计了一种动态路由机制,以自适应地分配每个专家的贡献。我们在三个流行的数据集上进行了定量和定性实验,结果表明,所提出的MidPO在安全性和有用性方面显著优于最先进的方法。代码和模型将会发布。 |
[43] XToM:探索大型语言模型的多语言心智理论 标题: XToM: Exploring the Multilingual Theory of Mind for Large Language Models 作者: Chunkit Chan / Yauwai Yim / Hongchuan Zeng / Zhiying Zou / Xinyuan Cheng / Zhifan Sun / Zheye Deng / Kawai Chung / Yuzhuo Ao / Yixiang Fan / Cheng Jiayang / Ercong Nie / Ginny Y. Wong / Helmut Schmid / Hinrich Schütze / Simon See / Yangqiu Song 原文: [英文] [中文] 备注: None 摘要: 心智理论(Theory of Mind, ToM)是指推断他人心理状态的能力,对于人类的社会认知至关重要。现有对大型语言模型(LLMs)心智理论的评估主要局限于英语,忽视了塑造人类认知的语言多样性。这一局限性引发了一个关键问题:LLMs 能否表现出多语言心智理论,即在不同语言背景下推理心理状态的能力?为了解决这一问题,我们提出了 XToM,这是一个经过严格验证的多语言基准,评估五种语言的心智理论,并结合多样化、情境丰富的任务场景。利用 XToM,我们系统地评估了 LLMs(例如,DeepSeek R1),揭示了一个显著的不一致性:尽管模型在多语言理解方面表现出色,但其心智理论表现因语言而异。我们的研究结果揭示了 LLMs 在跨语言背景下复制类人心智化能力方面的局限性。 |
[44] FroM:基于Frobenius范数的数据无关自适应模型合并 标题: FroM: Frobenius Norm-Based Data-Free Adaptive Model Merging 作者: Zijian Li / Xiaocheng Feng / Huixin Liu / Yichong Huang / Ting Liu / Bing Qin 原文: [英文] [中文] 备注: 12 pages, 11 figures 摘要: 随着大型语言模型的发展,微调已成为通过注入特定领域知识来增强特定场景性能的有效方法。在此背景下,模型合并技术通过结合多个微调模型的参数,提供了一种融合知识的解决方案。然而,传统方法在合并完整微调模型时常常遇到任务干扰问题,而在参数高效微调场景中,这一问题变得更加明显。在本文中,我们对RegMean方法进行了改进,该方法间接利用训练数据来近似合并前后的线性层输出。我们提出了一种自适应合并方法,称为FroM,该方法直接使用Frobenius范数测量模型参数,而无需任何训练数据。通过引入一个额外的控制超参数,FroM在各种微调场景中优于基线方法,缓解了任务干扰问题。 |
[45] ORPP:自优化角色扮演提示以增强语言模型能力 标题: ORPP: Self-Optimizing Role-playing Prompts to Enhance Language Model Capabilities 作者: Yifan Duan / Yihong Tang / Kehai Chen / Liqiang Nie / Min Zhang 原文: [英文] [中文] 备注: None 摘要: 高质量的提示对于从大型语言模型(LLMs)中获得出色的复杂任务表现至关重要。现有研究已经探索了模型驱动的提示优化策略。然而,这些方法通常存在高计算开销或需要模型本身具备强大的优化能力的问题,这限制了它们的广泛应用。为了解决这些挑战,我们提出了ORPP(优化角色扮演提示),一个通过优化和生成角色扮演提示来增强模型性能的框架。ORPP的核心思想是将提示搜索空间限制在角色扮演场景中,从而通过精心设计的高质量角色扮演提示充分激活模型的内在能力。具体来说,ORPP首先对一小部分训练样本进行迭代优化,以生成高质量的角色扮演提示。然后,利用模型的少样本学习能力,将优化经验转移到高效生成适合其余样本的提示。实验结果表明,ORPP不仅能够匹配,而且在大多数情况下超越现有主流提示优化方法的性能。值得注意的是,ORPP展示了卓越的“即插即用”能力。在大多数情况下,它可以与各种其他提示方法集成,并进一步增强其效果。 |
[46] 语言模型是否一致地思考?对不同响应长度下价值偏好的研究 标题: Do Language Models Think Consistently? A Study of Value Preferences Across Varying Response Lengths 作者: Inderjeet Nair / Lu Wang 原文: [英文] [中文] 备注: None 摘要: 对大型语言模型(LLM)伦理风险和价值倾向的评估通常依赖于简短的调查和心理测验,而实际应用中则涉及长篇开放式的回应——这使得在实际环境中与价值相关的风险和偏好大多未被充分探索。在这项研究中,我们提出问题:从简短测试中推断出的价值偏好是否与长篇输出中表达的价值偏好一致?为了解决这个问题,我们比较了从简短反应和长篇回应中引出的价值偏好,并通过改变后者中的论点数量来捕捉用户不同的冗长偏好。分析五个大型语言模型(llama3-8b、gemma2-9b、mistral-7b、qwen2-7b和olmo-7b),我们发现(1)从简短和长篇回应中推断出的价值偏好在不同论点数量下的相关性较弱,以及(2)从任何两个不同长篇生成设置中得出的偏好之间的相关性同样较弱。(3)对齐仅在价值表达的一致性上带来适度的提升。此外,我们研究了长篇生成属性与价值偏好的关系,发现论点的具体性与偏好强度呈负相关,而场景中的表现则呈正相关。我们的研究结果强调了需要更为稳健的方法以确保在不同应用中一致的价值表达。 |
[47] 通过神经符号推理增强大型语言模型以处理多语言任务 标题: Enhancing Large Language Models with Neurosymbolic Reasoning for Multilingual Tasks 作者: Sina Bagheri Nezhad / Ameeta Agrawal 原文: [英文] [中文] 备注: Accepted at 19th Conference on Neurosymbolic Learning and Reasoning (NeSy 2025) 摘要: 大型语言模型(LLMs)在长文本情境中进行多目标推理时常常遇到困难,因为相关信息分散在广泛的文档中。为了解决这一挑战,我们引入了神经符号增强推理(NSAR),它在推理过程中结合了神经和符号推理的优点。NSAR从文本中显式提取符号事实,并生成可执行的Python代码以处理复杂的推理步骤。通过在七种语言和不同上下文长度上的广泛实验,我们证明了NSAR在准确识别和综合多条信息方面显著优于普通的RAG基线和高级提示策略。我们的结果突显了在多语言环境中结合显式符号操作与神经推理进行稳健、可解释和可扩展推理的有效性。 |
[48] Minos:一种用于图像与文本之间双向生成的多模态评估模型 标题: Minos: A Multimodal Evaluation Model for Bidirectional Generation Between Image and Text 作者: Junzhe Zhang / Huixuan Zhang / Xinyu Hu / Li Lin / Mingqi Gao / Shi Qiu / Xiaojun Wan 原文: [英文] [中文] 备注: None 摘要: 评估对于多模态生成任务至关重要。随着多模态大语言模型(MLLMs)的快速进展,越来越多的人对应用MLLMs来构建通用评估系统产生了兴趣。然而,现有的工作忽视了两个方面:(1)文本到图像(T2I)生成任务的评估能力的发展,以及(2)大规模人工评估数据的整合。在本文中,我们介绍了Minos-Corpus,这是一个大规模的多模态评估数据集,结合了来自人类和GPT的评估数据。该语料库包含图像到文本(I2T)和T2I生成任务的评估数据。基于此语料库,我们提出了数据选择和平衡、Mix-SFT训练方法,并应用DPO开发了Minos,这是一种基于7B骨干的多模态评估模型。Minos在所有相似规模的开源评估模型中,在所有任务的平均评估性能上达到了最先进的(SoTA)水平,并在T2I生成任务的评估中超越了所有开源和闭源模型。大量实验表明,利用高质量的人类评估数据以及在I2T和T2I生成任务的评估数据上进行联合训练的重要性。 |
[49] KARE-RAG:面向RAG的知识感知优化与增强 标题: KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG 作者: Yongjian Li / HaoCheng Chu / Yukun Yan / Zhenghao Liu / Shi Yu / Zheni Zeng / Ruobing Wang / Sen Song / Zhiyuan Liu / Maosong Sun 原文: [英文] [中文] 备注: None 摘要: 检索增强生成(RAG)使大型语言模型(LLMs)能够访问更广泛的知识来源,但由于检索文档中的噪声,即使使用先进的检索方法,事实不一致性仍然存在。我们证明了增强生成模型处理噪声内容的能力同样对于稳健性能至关重要。在本文中,我们提出了KARE-RAG(RAG的知识感知精炼和增强),通过三个关键创新来改善知识利用:(1)结构化知识表示,在训练过程中促进错误检测,(2)密集直接偏好优化(DDPO)——一种精炼的训练目标,优先纠正关键错误,以及(3)对比数据生成管道,在纠正事实不准确的同时保持语义一致性。实验表明,我们的方法显著增强了标准RAG管道在不同模型规模上的表现,提高了域内和域外任务的性能,同时不影响一般能力。值得注意的是,这些提升是在适度的训练数据下实现的,这表明通过有针对性的学习策略可以实现数据高效的优化。我们的研究结果为RAG改进确立了一个新方向:通过改善模型学习处理检索内容的方式,我们可以在多样的推理范式中提升性能。所有数据和代码将在Github上公开。 |
[50] M$^3$FinMeeting:一个多语言、多行业和多任务的金融会议理解评估数据集 标题: M$^3$FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset 作者: Jie Zhu / Junhui Li / Yalong Wen / Xiandong Li / Lifan Guo / Feng Chen 原文: [英文] [中文] 备注: Accepted by ACL-2025 摘要: 最近在大型语言模型(LLMs)方面的突破促使开发了新的基准,用于评估其在金融领域的表现。然而,目前的金融基准通常依赖于新闻文章、收益报告或公告,这使得捕捉金融会议的真实动态变得具有挑战性。为了解决这一差距,我们提出了一种新的基准,称为$\texttt{M$^3$FinMeeting}$,这是一个多语言、多行业和多任务的数据集,旨在理解金融会议。首先,$\texttt{M$^3$FinMeeting}$支持英语、中文和日语,增强了对不同语言环境中金融讨论的理解。其次,它涵盖了由全球行业分类标准(GICS)定义的各种行业部门,确保基准涵盖广泛的金融活动。最后,$\texttt{M$^3$FinMeeting}$包括三个任务:摘要、问答(QA)对提取和问答,促进对理解的更现实和全面的评估。使用七个流行的LLMs进行的实验结果表明,即使是最先进的长上下文模型也有显著的改进空间,证明了$\texttt{M$^3$FinMeeting}$作为评估LLMs金融会议理解能力的基准的有效性。 |
[51] FinChain:用于可验证链式思维金融推理的符号基准 标题: FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning 作者: Zhuohan Xie / Dhruv Sahnan / Debopriyo Banerjee / Georgi Georgiev / Rushil Thareja / Hachem Madmoun / Jinyan Su / Aaryamonvikram Singh / Yuxia Wang / Rui Xing / Fajri Koto / Haonan Li / Ivan Koychev / Tanmoy Chakraborty / Salem Lahlou / Veselin Stoyanov / Preslav Nakov 原文: [英文] 备注: 15 pages, 8 figures, 2 tables 摘要: 多步符号推理对于提升金融任务的下游性能至关重要。然而,目前缺乏系统评估这一能力的基准。现有的数据集如FinQA和ConvFinQA仅对最终的数值答案进行监督,而不评估中间的推理步骤。为了解决这个问题,我们引入了FinChain,这是第一个为可验证的链式思维(CoT)金融推理设计的符号基准。FinChain涵盖了12个金融领域的54个主题,每个主题提供五个参数化模板,模板在推理复杂性和所需领域专业知识上各不相同。每个数据集实例都包含一个可执行的Python追踪,能够自动生成大量训练数据,并易于适应其他领域。我们还引入了ChainEval,这是一种新的自动评估指标,用于评估最终答案和中间推理。在我们的数据集上对30个大型语言模型进行基准测试后,我们发现即使是最先进的模型在多步金融推理方面仍有很大的改进空间。FinChain的所有模板和评估指标可在https://github.com/mbzuai-nlp/finchain获取。 |
[52] 一起学习以更好地表现:通过优先推理调整教小规模LLM协作 标题: Learning Together to Perform Better: Teaching Small-Scale LLMs to Collaborate via Preferential Rationale Tuning 作者: Sohan Patnaik / Milan Aggarwal / Sumit Bhatia / Balaji Krishnamurthy 原文: [英文] 备注: Accepted at ACL Main 2025 摘要: 诸如GPT-4之类的大型语言模型(LLMs)在通过生成逐步推理来解决复杂问题方面表现出了显著的能力。先前的研究利用了这一能力来改进较小且成本更低的语言模型(例如,具有70亿参数的模型)。然而,由于大型(通常是封闭的)模型的预训练数据缺乏透明度,导致版权和法律问题等各种实际限制,阻碍了它们在商业环境中的使用。对于在不从更大的LLMs中提取信息的情况下提高较小模型的内在推理能力,关注较少。为了解决这个问题,我们提出了COLLATE,这是一种可训练的框架,可以调整(小型)LLM以从多样化的推理池中生成那些选择性地改善下游任务的输出。COLLATE强制同一LLM的多个实例表现出不同的行为,并利用它们生成推理以获得多样化的输出。然后,通过偏好优化对LLM进行调整,以选择最大化真实答案可能性的候选推理。COLLATE在数学问题解决、自然语言推理和常识推理这三个领域的五个数据集上优于若干可训练和提示基线。我们展示了COLLATE在不同模型家族的LLMs上跨越不同参数规模(从10亿到80亿)的有效性,并通过消融实验展示了由最终任务指导的多个推理提供者的好处。代码已在此处发布(此https URL)。 |
[53] 使用单语知识库进行多语言信息检索 标题: Multilingual Information Retrieval with a Monolingual Knowledge Base 作者: Yingying Zhuang / Aman Gupta / Anurag Beniwal 原文: [英文] [中文] 备注: 6 pages, accepted at GENNEXT@SIGIR25 摘要: 多语言信息检索已成为跨语言扩展知识共享的强大工具。另一方面,高质量知识库的资源往往稀缺且语言有限,因此,一个有效的嵌入模型将不同语言的句子转换为与知识库语言相同的特征向量空间,成为跨语言知识共享的关键要素,特别是将高资源语言中的知识转移到低资源语言中。在本文中,我们提出了一种新的策略,通过加权采样进行对比学习来微调多语言嵌入模型,从而实现使用单语言知识库的多语言信息检索。我们证明,与标准方法相比,加权采样策略在MRR上最多可提高31.03%,在Recall@3上最多可提高33.98%。此外,我们提出的方法不受语言限制,适用于多语言和代码切换的使用场景。 |
[54] ReasoningFlow:复杂推理轨迹的语义结构 标题: ReasoningFlow: Semantic Structure of Complex Reasoning Traces 作者: Jinu Lee / Sagnik Mukherjee / Dilek Hakkani-Tur / Julia Hockenmaier 原文: [英文] [中文] 备注: 10 pages, 6 figures. ArgMining 2025 Workshop (Non-archival) @ ACL 2025 摘要: 大型推理模型(LRMs)生成具有规划、反思、验证和回溯的复杂推理轨迹。在这项工作中,我们引入了ReasoningFlow,这是一种用于分析这些复杂轨迹的语义结构的统一模式。ReasoningFlow将轨迹解析为有向无环图,从而能够将不同的推理模式表征为子图结构。这种人类可解释的表示在理解、评估和增强LRMs的推理过程方面提供了有前景的应用。 |
[55] 自然语言处理在增强政治在线讨论中的审议作用:一项综述 标题: Natural Language Processing to Enhance Deliberation in Political Online Discussions: A Survey 作者: Maike Behrendt / Stefan Sylvius Wagner / Carina Weinmann / Marike Bormann / Mira Warne / Stefan Harmeling 原文: [英文] [中文] 备注: None 摘要: 随着越来越多的形式以数字化方式进行,公民之间讨论政治问题和交换意见的政治在线参与变得越来越重要。为了做出决策,理想情况下需要仔细讨论和考虑意见,以及进行文明的论证交流,这被定义为审议行为。讨论和参与过程的质量在其审议性方面高度依赖于平台和过程的设计。为了促进参与者和发起者的在线交流,机器学习方法提供了很大的潜力。在这项工作中,我们希望展示政治在线讨论中出现的问题,以及如何利用机器学习来应对这些问题并增强审议过程。 |
[56] 答案收敛作为推理中提前停止的信号 标题: Answer Convergence as a Signal for Early Stopping in Reasoning 作者: Xin Liu / Lu Wang 原文: [英文] [中文] 备注: None 摘要: 链式思维(CoT)提示可以增强大型语言模型(LLMs)的推理能力,但往往导致输出冗长和冗余,从而增加推理成本。我们假设许多推理步骤对于产生正确答案来说是多余的。为此,我们首先进行了一项系统研究,以检查模型达到稳定决策所需的最小推理步骤。我们发现,在数学推理任务中,模型通常在完成60%的推理步骤后就会收敛到最终答案,这表明剩余内容中存在大量冗余。基于这些见解,我们提出了三种推理时的策略以提高效率:(1)通过答案一致性进行提前停止,(2)提高生成推理结束信号的概率,以及(3)一种基于内部激活学习何时停止的监督方法。在五个基准和五个开放权重的LLMs上的实验表明,我们的方法在几乎不降低准确率的情况下显著减少了标记使用量。特别是在自然问题(NaturalQuestions)上,答案一致性减少了超过40%的标记使用,同时进一步提高了准确率。我们的工作强调了在推理时操作的成本效益推理方法的重要性,为实际应用提供了实用的好处。 |
[57] CoRe-MMRAG:用于多模态RAG的跨源知识调和 标题: CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG 作者: Yang Tian / Fan Liu / Jingyuan Zhang / Victoria W. / Yupeng Hu / Liqiang Nie 原文: [英文] [中文] 备注: Accepted to ACL 2025 Main 摘要: 多模态检索增强生成(MMRAG)被引入以通过结合外部检索的多模态知识来增强多模态大型语言模型,但这也带来了两个挑战:参数化-检索知识不一致性(PRKI),即参数化知识和检索知识之间的差异导致在确定可靠性时产生不确定性;以及视觉-文本知识不一致性(VTKI),即视觉和文本来源之间的不对齐破坏了实体表示。为了解决这些挑战,我们提出了一种新的端到端框架,称为跨来源知识协调多模态RAG(CoRe-MMRAG),该框架能够有效协调跨知识来源的不一致性。CoRe-MMRAG遵循一个四阶段的流程:首先从参数化知识生成内部响应,然后通过联合相似性评估选择最相关的多模态证据,生成外部响应,最后整合两者以产生可靠的答案。此外,专门的训练范式增强了知识来源的区分、多模态整合和统一答案生成。在KB-VQA基准测试上的实验表明,CoRe-MMRAG在InfoSeek和Encyclopedic-VQA上分别实现了5.6%和9.3%的性能提升,显著优于基线方法。我们在此网址发布代码和数据:\href{this https URL}{this https URL}。 |
[58] 将通用大型语言模型裁剪为定制专家模型 标题: Pruning General Large Language Models into Customized Expert Models 作者: Yirao Zhao / Guizhen Chen / Kenji Kawaguchi / Lidong Bing / Wenxuan Zhang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)已经彻底改变了自然语言处理领域,但其庞大的模型规模通常需要大量的计算资源。为了节省计算资源并加快推理速度,裁剪冗余参数是至关重要的,尤其是对于那些需要为特定下游场景定制紧凑专家模型的有经验用户。然而,大多数现有的裁剪方法侧重于保留模型的一般能力,通常需要大量的后训练,或者由于粗粒度裁剪而导致性能下降。在这项工作中,我们设计了一种自定义裁剪方法($\texttt{Cus-Prun}$),将大型通用模型裁剪成更小的轻量级专家模型,该模型在“语言”、“领域”和“任务”维度上进行定位。通过识别和裁剪每个维度的无关神经元,$\texttt{Cus-Prun}$ 无需任何后训练即可创建专家模型。我们的实验表明,$\texttt{Cus-Prun}$ 始终优于其他方法,在来自不同模型家族和规模的各种模型中,实现了专家能力和一般能力的最小损失。 |
[59] IndoSafety:印尼语言中基于文化的LLM安全性 标题: IndoSafety: Culturally Grounded Safety for LLMs in Indonesian Languages 作者: Muhammad Falensi Azmi / Muhammad Dehan Al Kautsar / Alfan Farizki Wicaksono / Fajri Koto 原文: [英文] [中文] 备注: 25 pages 摘要: 尽管针对特定地区的大型语言模型(LLMs)正在不断开发,但它们的安全性仍未得到充分探索,特别是在像印度尼西亚这样文化多样的环境中,对当地规范的敏感性至关重要并受到社区的高度重视。在这项工作中,我们提出了IndoSafety,这是首个针对印度尼西亚语境的高质量、人工验证的安全评估数据集,涵盖五种语言变体:正式和口语化的印度尼西亚语,以及三种主要的地方语言:爪哇语、巽他语和米南加保语。IndoSafety通过扩展现有的安全框架来开发一个捕捉印度尼西亚社会文化背景的分类法。我们发现现有的以印度尼西亚为中心的LLMs经常生成不安全的输出,特别是在口语和地方语言环境中,而在IndoSafety上进行微调显著提高了安全性,同时保持了任务性能。我们的工作强调了文化基础安全评估的关键需求,并为在多语言环境中负责任地部署LLM提供了一个具体步骤。警告:本文包含可能具有冒犯性、有害或偏见的示例数据。 |
[60] 超越词汇内容的韵律结构:自监督学习研究 标题: Prosodic Structure Beyond Lexical Content: A Study of Self-Supervised Learning 作者: Sarenne Wallbridge / Christoph Minixhofer / Catherine Lai / Peter Bell 原文: [英文] [中文] 备注: Accepted at INTERSPEECH 2025 摘要: 人们在文本理解过程中利用词汇结构的可预测性。尽管在语音中也存在可预测的结构,但韵律(如语调、节奏和响度)在多大程度上独立于词汇内容对这种结构的贡献尚不清楚。本研究利用自监督学习(SSL)来研究韵律声学相关特征中结构的时间粒度。我们提出的掩码韵律模型的表示可以预测依赖于局部信息的感知标签,例如词边界,但对于涉及长期结构的标签(如情感识别)提供了最大的价值。针对各种感知标签的探测实验显示,相较于未经转换的音高、能量和语音活动特征,取得了显著的相对提升。我们的结果揭示了SSL训练目标时间尺度的重要性,并强调了复杂的SSL编码结构相较于更受限的经典结构的价值。 |
[61] 评估用于俄罗斯文化新闻文本的命名实体识别模型:从BERT到大型语言模型 标题: Evaluating Named Entity Recognition Models for Russian Cultural News Texts: From BERT to LLM 作者: Maria Levchenko 原文: [英文] [中文] 备注: None 摘要: 本文探讨了在俄罗斯新闻文本中识别与文化事件相关的人名的命名实体识别(NER)挑战。研究利用了独特的SPbLitGuide数据集,该数据集收集了1999年至2019年间圣彼得堡的事件公告。本文对多种NER模型进行了比较评估,包括成熟的基于transformer的架构,如DeepPavlov、RoBERTa和SpaCy,以及最近的大型语言模型(LLMs),如GPT-3.5、GPT-4和GPT-4o。主要发现表明,当提供特定的JSON输出提示时,GPT-4o表现最佳,F1得分达到0.93。此外,GPT-4在精确度上表现最高,达到0.99。该研究有助于深入了解当前NER模型在应用于像俄语这样形态丰富的语言时的能力和局限性,特别是在文化遗产领域,为研究人员和从业者提供了见解。后续对GPT-4.1(2025年4月)的评估显示,对于简单和结构化提示,F1得分均达到0.94,展示了模型家族的快速进步和简化的部署要求。 |
[62] 关于跨测量系统的泛化:大型语言模型在测试时对代表性不足的文化需要更多计算 标题: On Generalization across Measurement Systems: LLMs Entail More Test-Time Compute for Underrepresented Cultures 作者: Minh Duc Bui / Kyung Eun Park / Goran Glavaš / Fabian David Schmidt / Katharina von der Wense 原文: [英文] [中文] 备注: Accepted to ACL 2025 Main (Camera-Ready Version) 摘要: 测量系统(例如,货币)在不同文化中有所不同,但它们之间的转换是明确定义的,因此人们可以使用任何他们选择的测量系统来陈述事实。由于大型语言模型(LLMs)面向来自不同文化背景的用户,因此它们也应该能够提供与所用测量系统无关的准确信息。我们使用新编制的数据集测试了七个开源LLMs是否具备这种能力,并探讨了三个关键研究问题:(RQ1)LLMs对每种测量类型使用的默认系统是什么?(RQ2)LLMs的答案及其准确性是否会因不同的测量系统而有所不同?(RQ3)LLMs能否通过推理来缓解与代表性不足的系统相关的潜在挑战?我们的研究结果表明,LLMs默认使用数据中主要使用的测量系统。此外,我们观察到在不同测量系统中的性能存在相当大的不稳定性和差异。虽然这种不稳定性可以通过使用链式思维(CoT)等推理方法部分缓解,但这意味着更长的响应时间,从而显著增加了测试时的计算量(和推理成本),这对使用代表性不足测量系统的文化背景的用户造成了不利影响。 |
[63] 超越表面:测量大型语言模型判断中的自我偏好 标题: Beyond the Surface: Measuring Self-Preference in LLM Judgments 作者: Zhi-Yuan Chen / Hao Wang / Xinyu Zhang / Enrui Hu / Yankai Lin 原文: [英文] [中文] 备注: None 摘要: 最近的研究表明,大型语言模型(LLMs)在作为评判者时表现出自我偏好偏差,这意味着它们倾向于偏爱自己的回答,而不是其他模型生成的回答。现有的方法通常通过计算评判模型对其自身回答和其他模型回答所赋予的分数差异来衡量这种偏差。然而,这种方法将自我偏好偏差与回答质量混淆,因为评判模型的高质量回答也可能导致正分差,即使在没有偏差的情况下。为了解决这个问题,我们引入了金标准判断作为回答实际质量的代理,并提出了DBG分数,该分数通过评判模型对其自身回答和相应的金标准判断所赋予的分数差异来衡量自我偏好偏差。由于金标准判断反映了真实的回答质量,DBG分数减轻了回答质量对偏差测量的混淆效应。使用DBG分数,我们进行了全面的实验,以评估不同版本、大小和推理能力的LLMs的自我偏好偏差。此外,我们调查了影响并有助于缓解自我偏好偏差的两个因素:回答文本风格和评判模型的后训练数据。最后,我们从基于注意力的角度探索了自我偏好偏差的潜在机制。我们的代码和数据可在此https URL获取。 |
[64] EssayBench:评估大型语言模型在多体裁中文作文写作中的表现 标题: EssayBench: Evaluating Large Language Models in Multi-Genre Chinese Essay Writing 作者: Fan Gao / Dongyuan Li / Ding Xia / Fei Mi / Yasheng Wang / Lifeng Shang / Baojun Wang 原文: [英文] [中文] 备注: None 摘要: 中文作文写作及其评估在教育环境中至关重要,但大型语言模型(LLMs)在这一领域的能力仍然未被充分探索。现有的基准测试通常依赖粗粒度的文本质量指标,忽略了中文作文的结构和修辞复杂性,尤其是在不同体裁中。为了解决这一差距,我们提出了\benchName,一个专门为中文作文写作设计的多体裁基准,涵盖四大主要体裁:议论文、记叙文、描写文和说明文。我们精心策划并优化了总计728个真实世界的写作题目,以确保真实性,并将其细致地分类为\textit{开放式}和\textit{限制式}集合,以捕捉多样的写作场景。为了可靠地评估生成的作文,我们开发了一个细粒度、体裁特定的评分框架,以分层聚合分数。我们通过全面的人类一致性研究进一步验证了我们的评估协议。最后,我们对15个大型LLMs进行了基准测试,分析了它们在不同体裁和指令类型中的优势和局限性。通过\benchName,我们旨在推进基于LLM的中文作文评估,并激励未来在教育环境中改善作文生成的研究。 |
[65] 通过Whisper微调克服多方言阿拉伯语ASR中的数据稀缺问题 标题: Overcoming Data Scarcity in Multi-Dialectal Arabic ASR via Whisper Fine-Tuning 作者: Ömer Tarik Özyilmaz / Matt Coler / Matias Valdenegro-Toro 原文: [英文] [中文] 备注: Accepted at Interspeech 2025 摘要: 尽管商业阿拉伯语自动语音识别(ASR)系统支持现代标准阿拉伯语(MSA),但它们在处理方言语音时表现不佳。我们研究了对OpenAI的Whisper进行微调对五大阿拉伯方言(海湾、黎凡特、伊拉克、埃及、马格里布)的影响,使用Mozilla Common Voice的MSA数据和MASC数据集的方言语音。我们评估了MSA训练数据量的影响、在MSA数据上进行预训练的好处,以及方言特定模型与方言合并模型的效果。我们发现,少量的MSA微调数据可以显著提升较小模型的性能,使其达到较大未微调模型的水平。虽然MSA预训练显示出最小的好处,表明MSA和方言之间的共享特征有限,但我们的方言合并模型表现与方言特定模型相当。这表明,当方言数据经过适当平衡后合并,可以在低资源ASR中解决数据稀缺问题,而不会显著损失性能。 |
[66] 经济学家总是更内向吗?分析人格分配的大型语言模型的一致性 标题: Are Economists Always More Introverted? Analyzing Consistency in Persona-Assigned LLMs 作者: Manon Reusens / Bart Baesens / David Jurgens 原文: [英文] 备注: None 摘要: 个性化大型语言模型(LLMs)在各种应用中越来越多地被使用,它们被赋予特定的人设——例如一位快乐的高中老师——以指导其回应。虽然先前的研究已经考察了LLMs在写作风格上如何遵循预定义的人设,但对于不同人设和任务类型之间一致性的全面分析仍然缺乏。在本文中,我们引入了一个新的标准化框架来分析赋予人设的LLMs的一致性。我们将一致性定义为模型在不同任务和运行中被赋予相同人设时保持连贯回应的程度。我们的框架评估了四个不同类别的人设(快乐、职业、个性和政治立场),涵盖了多种任务维度(问卷写作、文章生成、社交媒体帖子生成、单轮和多轮对话)。我们的研究结果表明,一致性受到多种因素的影响,包括所赋予的人设、刻板印象和模型设计选择。一致性在不同任务中也有所不同,在结构更严谨的任务和提供更多背景信息的情况下会有所提高。所有代码均可在GitHub上获取。 |
[67] EvaLearn:通过顺序问题解决量化大型语言模型的学习能力和效率 标题: EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving 作者: Shihan Dou / Ming Zhang / Chenhao Huang / Jiayi Chen / Feng Chen / Shichun Liu / Yan Liu / Chenxiao Liu / Cheng Zhong / Zongzhang Zhang / Tao Gui / Chao Xin / Wei Chengzhi / Lin Yan / Qi Zhang / Xuanjing Huang 原文: [英文] 备注: 47 pages, 24 figures 摘要: 我们介绍了EvaLearn,这是一个开创性的基准,旨在评估大型语言模型(LLMs)在具有挑战性的任务中的学习能力和效率,这是模型潜力中一个关键但尚未深入研究的方面。EvaLearn包含648个具有挑战性的问题,分为六种任务类型,组成182个序列,每个序列专注于一种任务类型。与大多数现有的并行评估模型的基准不同,EvaLearn要求模型按顺序解决问题,使它们能够利用从先前解决方案中获得的经验。EvaLearn提供了五个全面的自动化指标来评估模型并量化其学习能力和效率。我们对九个前沿模型进行了广泛的基准测试,观察到不同的性能表现:一些模型,如Claude-3.7-sonnet,起初表现中等,但表现出强大的学习能力,而一些模型难以从经验中受益,甚至可能表现出负迁移。此外,我们研究了两种学习设置下的模型性能,发现实例级评分标准和教师模型反馈进一步促进了模型学习。重要的是,我们观察到当前具有较强静态能力的LLMs在所有任务中并未表现出明显的学习能力优势,这突显了EvaLearn评估了模型性能的新维度。我们希望EvaLearn为评估LLM潜力和理解模型与人类能力之间的差距提供一个新的评估视角,促进更深入和更动态的评估方法的发展。本文中研究的所有数据集、自动评估框架和结果均可在GitHub存储库中获得。 |
[68] 太长不看:通过重新加权实现高效的大型语言模型推理压缩 标题: TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression 作者: Zhong-Zhi Li / Xiao Liang / Zihao Tang / Lei Ji / Peijie Wang / Haotian Xu / Xing W / Haizhen Huang / Weiwei Deng / Ying Nian Wu / Yeyun Gong / Zhijiang Guo / Xiao Liu / Fei Yin / Cheng-Lin Liu 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)最近通过利用强化学习和扩展的链式思维(CoT)技术取得了显著进展。然而,在推理过程中,尤其是面对极长输出时,如何高效地进行语言推理成为研究界日益关注的挑战。在这项工作中,我们提出了一种基于动态比例的训练流程,该流程不依赖复杂的数据标注或多个模型之间的插值。我们通过持续平衡模型的系统1和系统2数据的权重,来消除冗余的推理过程,同时保留模型的推理能力。我们在DeepSeek-R1-Distill-7B和DeepSeek-R1-Distill-14B模型上,以及在一组难度各异的基准测试上验证了我们的方法。我们的方法在保持推理准确性的同时,将输出标记的数量显著减少了近40%。我们的代码和数据将很快发布。 |
[69] 分解、并行规划与合并:一种基于大型语言模型的多约束规划新范式 标题: Decompose, Plan in Parallel, and Merge: A Novel Paradigm for Large Language Models based Planning with Multiple Constraints 作者: Zhengdong Lu / Weikai Lu / Yiling Tao / Yun Dai / ZiXuan Chen / Huiping Zhuang / Cen Chen / Hao Peng / Ziqian Zeng 原文: [英文] [中文] 备注: None 摘要: 尽管大型语言模型(LLMs)取得了显著进展,但基于LLM的代理在规划任务中仍然面临挑战。现有的规划方法存在两个主要限制:严格的约束和级联错误。为了解决这些限制,我们提出了一种新颖的并行规划范式,即分解、并行规划子任务和合并子计划为最终计划(DPPM)。具体来说,DPPM根据约束将复杂任务分解为子任务,为每个子任务并行生成子计划,并将它们合并为一个全局计划。此外,我们的方法结合了验证和改进模块,能够进行错误校正和冲突解决。实验结果表明,DPPM在旅行规划任务中显著优于现有方法。 |
[70] MASTER:通过多智能体模拟教学增强大型语言模型 标题: MASTER: Enhancing Large Language Model via Multi-Agent Simulated Teaching 作者: Liang Yue / Yihong Tang / Kehai Chen / Jie Liu / Min Zhang 原文: [英文] [中文] 备注: None 摘要: 指令微调在自然语言处理任务中至关重要,它增强了预训练模型的指令遵循能力和特定任务的表现。然而,由于数据收集的困难和高昂的生产成本,为大型模型获取高质量的微调数据具有挑战性。为了解决这个问题,我们提出了MASTER,这是一种新颖的数据增强方法,通过不同认知水平的多个代理之间的互动来丰富原始数据。我们模拟了三种基于教学法的教学场景,利用多代理对话生成高质量的师生互动数据。利用MASTER,我们构建了BOOST-QA,这是一个从现有数据集如Orca-Math-200k、ProcQA和OpenHermes2.5增强而来的微调数据集。实验表明,使用BOOST-QA微调的模型在多个基准测试中表现出色,展示了强大的多任务泛化能力。值得注意的是,MASTER显著提高了模型在复杂任务中的推理能力,为未来的研究提供了宝贵的见解。 |
[71] 关于语言模型中的实体识别 标题: On Entity Identification in Language Models 作者: Masaki Sakata / Sho Yokoi / Benjamin Heinzerling / Takumi Ito / Kentaro Inui 原文: [英文] [中文] 备注: ACL 2025 Findings; 26 pages, 13 figures, 9 tables 摘要: 我们分析了语言模型(LM)的内部表示在多大程度上识别和区分命名实体的提及,重点关注实体与其提及之间的多对多对应关系。我们首先提出了实体提及的两个问题——歧义性和多样性,并提出了一个类似于聚类质量度量的框架。具体来说,我们通过对LM内部表示的聚类分析,量化了相同实体的提及在多大程度上聚集在一起,以及不同实体的提及在多大程度上保持分离。我们的实验考察了五个基于Transformer的自回归模型,显示它们能够有效地识别和区分实体,其度量类似于精确度和召回率,范围从0.66到0.9。进一步的分析表明,实体相关的信息在LM的早期层中被紧凑地表示在一个低维线性子空间中。此外,我们阐明了实体表示的特征如何影响词预测性能。这些发现通过LM表示与现实世界中以实体为中心的知识结构之间的同构性视角进行解释,提供了关于LM如何在内部组织和使用实体信息的见解。 |
[72] RACE-Align:用于大型语言模型的检索增强和思维链增强偏好对齐 标题: RACE-Align: Retrieval-Augmented and Chain-of-Thought Enhanced Preference Alignment for Large Language Models 作者: Qihang Yan / Xinyu Zhang / Luming Guo / Qi Zhang / Feifan Liu 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在垂直领域中面临准确性、领域特定推理和可解释性方面的挑战。传统的偏好对齐方法,如来自人类反馈的强化学习(RLHF)和直接偏好优化(DPO),常常忽视了潜在的知识来源和推理逻辑。本文介绍了一种名为RACE-Align(检索增强和思维链增强对齐)的新框架,旨在解决这些限制。RACE-Align系统地构建了一个二元偏好数据集,结合外部知识支持和明确的思维链(CoT)推理,然后使用DPO算法对齐LLMs。其核心创新在于偏好数据构建策略:它集成了AI驱动的检索以提供事实基础,增强知识性和准确性,并强调优化领域特定的CoT,将推理过程本身视为关键的偏好维度。一个多阶段、AI驱动的精炼管道以成本效益的方式生成这些偏好对。在使用Qwen3-1.7B作为基础模型的中医药(TCM)实验验证中,RACE-Align显著优于原始基础模型和仅通过监督微调(SFT)微调的模型。在多个维度上观察到了改进,包括答案准确性、信息丰富性、中医思维模式的应用、推理的逻辑性和深度,以及可解释性。这些发现表明,RACE-Align提供了一条有效途径,以增强LLMs在复杂垂直领域中的知识应用、推理可靠性和过程透明度。 |
[73] 可以从网络文本中提取刻板的性别行为 标题: Stereotypical gender actions can be extracted from Web text 作者: Amaç Herdağdelen / Marco Baroni 原文: [英文] [中文] 备注: None 摘要: 我们从文本语料库和推特中提取了性别特定的动作,并将其与人们的刻板印象进行比较。我们使用了常识知识库 Open Mind Common Sense (OMCS),以关注与人类常识和日常生活相关的动作。我们利用推特用户的性别信息和基于网络语料库的代词/姓名性别启发法来计算动作的性别偏见。在高召回率的情况下,我们在基于语料库的预测与人类黄金标准之间获得了 0.47 的 Spearman 相关性,并在预测黄金标准的极性时获得了 0.76 的 ROC 曲线下面积。我们得出结论,使用自然文本(特别是推特衍生的语料库)来增强常识库中关于动作的刻板性别期望是可行的。我们还提供了一个包含 441 个常识动作的数据集,其中有人类评审对动作是否通常/略微男性化/女性化(或中性)的评分,以及另一个包含 21,442 个动作的更大数据集,这些动作是通过我们在本研究中调查的方法自动评分的。 |
[74] 多任务学习结合主动学习用于阿拉伯语攻击性言论检测 标题: Multi-task Learning with Active Learning for Arabic Offensive Speech Detection 作者: Aisha Alansari / Hamzah Luqman 原文: [英文] [中文] 备注: None 摘要: 社交媒体的快速发展加剧了攻击性、暴力和粗俗言论的传播,这对社会和网络安全构成了严重的威胁。在阿拉伯语文本中检测此类内容尤其复杂,因为标注数据有限、方言多样以及语言本身的复杂性。本文提出了一种新颖的框架,将多任务学习(MTL)与主动学习相结合,以增强对阿拉伯社交媒体文本中攻击性言论的检测。通过对暴力和粗俗言论这两个辅助任务进行联合训练,模型利用共享表示来提高攻击性言论的检测准确性。我们的方法在训练过程中动态调整任务权重,以平衡每个任务的贡献并优化性能。为了解决标注数据稀缺的问题,我们通过多种不确定性采样技术采用主动学习策略,迭代选择最具信息量的样本进行模型训练。我们还引入了加权表情符号处理,以更好地捕捉语义线索。在OSACT2022数据集上的实验结果表明,所提出的框架实现了85.42%的最新宏观F1分数,优于现有方法,同时使用的微调样本显著减少。这项研究的结果突显了在资源受限环境中,将多任务学习与主动学习相结合以实现高效且准确的攻击性语言检测的潜力。 |
[75] 利用英语词汇档案结合大型语言模型进行二语词汇水平评估 标题: Exploiting the English Vocabulary Profile for L2 word-level vocabulary assessment with LLMs 作者: Stefano Bannò / Kate Knill / Mark Gales 原文: [英文] [中文] 备注: Accepted to the 20th Workshop on Innovative Use of NLP for Building Educational Applications 摘要: 词汇使用是第二语言(L2)熟练程度的一个基本方面。迄今为止,自动化系统对其的评估通常是检查与上下文无关或与词性(PoS)相关的词语使用。本文介绍了一种新颖的方法,以实现对词汇的细粒度评估,利用词语在句子中的精确使用。该方案结合了大型语言模型(LLMs)与英语词汇档案(EVP)。EVP是一种标准的词汇资源,使得可以将词汇的上下文使用与熟练程度等级联系起来。我们评估了LLMs在L2学习者写作中为单个词分配熟练程度等级的能力,解决了多义性、上下文变化和多词表达等关键挑战。我们将LLMs与基于词性的基线进行比较。LLMs似乎利用了额外的语义信息,从而提高了性能。我们还探讨了词汇水平熟练程度与文章水平熟练程度之间的相关性。最后,该方法被应用于检查EVP熟练程度等级的一致性。结果表明,LLMs非常适合词汇评估任务。 |
[76] SemVink:通过视觉全局思维提升视觉语言模型对光学错觉的语义理解 标题: SemVink: Advancing VLMs' Semantic Understanding of Optical Illusions via Visual Global Thinking 作者: Sifan Li / Yujun Cai / Yiwei Wang 原文: [英文] 备注: None 摘要: 视觉-语言模型(VLMs)在语义任务中表现出色,但在一个核心的人类能力上却表现不佳:通过感知调整(如缩放)来检测光学幻觉或AI生成图像中的隐藏内容。我们引入了HC-Bench,一个包含112张带有隐藏文本、物体和幻觉的图像的基准,揭示了领先的VLMs即使在明确提示下也几乎达到零准确率(0-5.36%)。人类本能地解决这些模糊性,而VLMs由于过度依赖高级语义而失败。令人惊讶的是,我们通过简单地将图像缩放到低分辨率(32-128像素)提出了SemVink(语义视觉思维),这通过消除冗余视觉噪声解锁了>99%的准确率。这揭示了一个关键的架构缺陷:VLMs优先考虑抽象推理而非对现实世界鲁棒性至关重要的低级视觉操作。我们的工作敦促向集成多尺度处理的混合模型转变,以弥合计算视觉与人类认知之间的差距,应用于医学成像、安全等领域。 |
[77] ProcrustesGPT:使用结构化矩阵和正交变换压缩大型语言模型 标题: ProcrustesGPT: Compressing LLMs with Structured Matrices and Orthogonal Transformations 作者: Ekaterina Grishina / Mikhail Gorbunov / Maxim Rakhuba 原文: [英文] [中文] 备注: Accepted by ACL Findings 摘要: 大型语言模型(LLMs)在自然语言处理任务中表现出色,但需要大量的计算和内存资源。结构化矩阵表示是一种有前途的方法,可以减少这些模型的参数数量。然而,期望预训练模型的权重矩阵能够在没有任何微调的情况下被结构化矩阵准确表示似乎不切实际。为了解决这个问题,我们利用了LLM输出在某些正交变换下对权重矩阵的不变性。这个见解可以用来识别那些显著提高权重在结构化类别中可压缩性的变换。所提出的方法适用于支持高效投影操作的各种类型的结构化矩阵。代码可在此https URL获取。 |
[78] TO-GATE:通过轨迹优化澄清问题并总结响应以引出人类偏好 标题: TO-GATE: Clarifying Questions and Summarizing Responses with Trajectory Optimization for Eliciting Human Preference 作者: Yulin Dou / Jiangming Liu 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)可以通过多轮对话有效地引出人类偏好。复杂任务可以通过迭代的澄清问题和最终由作为提问者的LLM生成的回答来完成(STaR-GATE;Andukuri等,2024年)。然而,基于自学推理的现有方法在识别最佳对话轨迹和避免与任务无关的问题方面存在困难。为了解决这一限制,我们提出了TO-GATE,这是一种通过轨迹优化增强问题生成的新框架,它由两个关键组件组成:一个生成最佳提问轨迹的澄清解决器和一个确保任务对齐的最终回答的总结器。轨迹优化使模型能够生成有效的引导问题和针对特定任务的总结回答。实验结果表明,TO-GATE在标准偏好引导任务上显著优于基线方法,取得了9.32%的提升。 |
[79] 法语历史百科全书中的实体识别:基于标记和跨度的分类 标题: Token and Span Classification for Entity Recognition in French Historical Encyclopedias 作者: Ludovic Moncla / Hédi Zeghidi 原文: [英文] [中文] 备注: None 摘要: 在历史文本中进行命名实体识别(NER)由于语言不标准、古老的拼写法以及嵌套或重叠的实体而面临独特的挑战。本研究对多种NER方法进行了基准测试,这些方法从经典的条件随机场(CRFs)和基于spaCy的模型到基于转换器的架构(如CamemBERT)以及序列标注模型(如Flair)不等。实验在GeoEDdA数据集上进行,该数据集是一个源自18世纪法语百科全书的丰富标注语料库。我们建议将NER框定为既是标记级别又是跨度级别的分类,以适应历史文献中典型的复杂嵌套实体结构。此外,我们评估了在低资源场景中使用生成语言模型进行少样本提示的潜力。我们的结果表明,尽管基于转换器的模型在嵌套实体上实现了最先进的性能,但在标注数据稀缺时,生成模型提供了有前途的替代方案。该研究强调了历史NER中持续存在的挑战,并提出了结合符号和神经方法的混合方法,以更好地捕捉早期现代法语文本的复杂性。 |
[80] CoT 不是真正的推理,它只是模仿的严格约束:一种理论视角 标题: CoT is Not True Reasoning, It Is Just a Tight Constraint to Imitate: A Theory Perspective 作者: Jintian Shao / Yiming Cheng 原文: [英文] [中文] 备注: None 摘要: 链式思维(CoT)提示已被证明可以提高大型语言模型在需要多步推理的任务上的表现。这一成功导致了人们普遍认为这些模型具有新兴的推理能力。在本文中,我们提出了一个理论上的反观点:链式思维(CoT)并没有引发真正的、抽象的推理。相反,我们认为链式思维作为一种强大的结构约束,指导大型语言模型模仿推理的形式。通过强制生成中间步骤,链式思维利用模型在序列预测和模式匹配方面的巨大能力,有效地将其输出限制为类似于连贯思维过程的序列。 |
[81] 用于德语方言自动语音识别和方言到标准语音翻译的多方言数据集 标题: A Multi-Dialectal Dataset for German Dialect ASR and Dialect-to-Standard Speech Translation 作者: Verena Blaschke / Miriam Winkler / Constantin Förster / Gabriele Wenger-Glemser / Barbara Plank 原文: [英文] [中文] 备注: Accepted to Interspeech 2025 摘要: 尽管德国拥有多样化的方言景观,但在当前的自动语音识别(ASR)研究中,这些方言的代表性不足。为了研究模型在方言变化方面的鲁棒性,我们提出了Betthupferl,一个评估数据集,其中包含四小时的东南德国语音(法兰克尼亚方言、巴伐利亚方言、阿勒曼尼方言)和半小时的标准德语语音。我们提供了方言和标准德语的转录,并分析了它们之间的语言差异。我们对几种多语言的最先进ASR模型进行了基准测试,以将语音翻译成标准德语,并发现输出在多大程度上接近方言与标准化转录之间存在差异。对最佳ASR模型的定性错误分析表明,它有时会规范化语法差异,但通常更接近方言结构。 |
[82] IMPARA-GED:语法错误检测提升了无参考语法错误质量评估器 标题: IMPARA-GED: Grammatical Error Detection is Boosting Reference-free Grammatical Error Quality Estimator 作者: Yusuke Sakai / Takumi Goto / Taro Watanabe 原文: [英文] [中文] 备注: ACL 2025 Findings 摘要: 我们提出了IMPARA-GED,这是一种新颖的无参考自动语法错误纠正(GEC)评估方法,具有语法错误检测(GED)功能。我们专注于现有自动GEC评估方法IMPARA的质量评估器,并使用具有增强GED功能的预训练语言模型构建IMPARA-GED的质量评估器。在SEEDA上进行的实验结果表明,SEEDA是自动GEC评估方法的元评估数据集,IMPARA-GED在与人类句子级别评估的相关性方面达到了最高水平。 |
[83] Cell-o1:使用强化学习训练大型语言模型解决单细胞推理难题 标题: Cell-o1: Training LLMs to Solve Single-Cell Reasoning Puzzles with Reinforcement Learning 作者: Yin Fang / Qiao Jin / Guangzhi Xiong / Bowen Jin / Xianrui Zhong / Siru Ouyang / Aidong Zhang / Jiawei Han / Zhiyong Lu 原文: [英文] [中文] 备注: 28 pages; 16 tables; 7 figures; Code: this https URL 摘要: 细胞类型注释是分析单细胞RNA测序数据异质性的关键任务。尽管最近的基础模型自动化了这一过程,但它们通常独立地注释细胞,而不考虑批次级的细胞背景或提供解释性推理。相比之下,人类专家通常基于领域知识为不同的细胞簇注释不同的细胞类型。为了模拟这一工作流程,我们引入了CellPuzzles任务,其目标是为一批细胞分配独特的细胞类型。这个基准涵盖了多种组织、疾病和供体条件,并需要在批次级细胞背景中进行推理以确保标签的唯一性。我们发现现成的大型语言模型(LLMs)在CellPuzzles任务中表现不佳,最佳基线(OpenAI的o1)仅实现了19.0%的批次级准确率。为填补这一空白,我们提出了Cell-o1,这是一种通过监督微调蒸馏推理轨迹训练的7B LLM,随后通过批次级奖励进行强化学习。Cell-o1实现了最先进的性能,超过o1超过73%,并在不同背景下表现出良好的泛化能力。对训练动态和推理行为的进一步分析提供了对批次级注释性能和新兴专家级推理的见解。代码和数据可在此https URL获取。 |
[84] 一种可控的长上下文语言模型检验方法 标题: A Controllable Examination for Long-Context Language Models 作者: Yijun Yang / Zeyu Huang / Wenhao Zhu / Zihan Qiu / Fei Yuan / Jeff Z.Pan / Ivan Titov 原文: [英文] [中文] 备注: Preprint 摘要: 现有的长上下文语言模型(LCLM)评估框架大致可以分为真实世界任务和合成任务。尽管这两种方法都有其用处,但它们都存在某些内在的局限性。真实世界任务过于复杂,难以解释或表征,并且容易受到数据污染的影响。相比之下,合成任务通常采用“大海捞针”(NIAH)的形式,其中“针”和“草堆”之间缺乏连贯性,削弱了它们作为现实应用代理的有效性。针对这些挑战,我们认为理想的长上下文评估框架应具备三个基本特征:无缝上下文、可控设置和合理评估。本研究介绍了LongBioBench,这是一种新颖的基准,利用人工生成的传记作为一个可控环境,从理解、推理和可信度等维度评估LCLM。我们的实验评估包括总共18个LCLM,结果表明大多数模型在语义理解和基本推理方面仍然存在不足,且随着上下文长度的增加,可信度降低。进一步分析表明,现有合成基准中采用的一些设计选择,如上下文不连贯、数值针以及缺乏干扰项,使其在测试模型长上下文能力时显得脆弱。此外,我们还揭示了长上下文持续预训练主要是调整RoPE嵌入以适应扩展的上下文长度。总之,与之前的合成基准相比,LongBioBench在反映真实语言任务和保持可控性之间实现了更好的平衡,并且具有高度的可解释性和可配置性。 |
[85] INESC-ID @ eRisk 2025:探索用于抑郁症状识别的微调、基于相似性和基于提示的方法 标题: INESC-ID @ eRisk 2025: Exploring Fine-Tuned, Similarity-Based, and Prompt-Based Approaches to Depression Symptom Identification 作者: Diogo A.P. Nunes / Eugénio Ribeiro 原文: [英文] [中文] 备注: 12 pages, 1 figure, 6 tables 摘要: 在这项工作中,我们描述了团队在eRisk 2025任务1:抑郁症症状搜索中的方法。给定一组句子和Beck抑郁量表-II(BDI)问卷,参与者的任务是提交每个BDI抑郁症状最多1,000个句子,并按相关性排序。参与者的提交结果根据标准信息检索(IR)指标进行评估,包括平均精度(AP)和R-精度(R-PREC)。然而,提供的训练数据由标记为与BDI某一症状相关或不相关的句子组成。由于这种标记限制,我们将开发框架为每个BDI症状的二元分类任务,并据此进行评估。为此,我们将可用的标记数据分为训练集和验证集,并探索了基础模型微调、句子相似性、大型语言模型(LLM)提示和集成技术。验证结果显示,微调基础模型产生了最佳性能,特别是在使用合成数据来缓解类别不平衡时效果更佳。我们还观察到,最佳方法因症状而异。基于这些见解,我们设计了五个独立的测试运行,其中两个使用了集成方法。这些运行在官方IR评估中取得了最高分,超越了其他16个团队的提交。 |
[86] 量化大型语言模型评估 标题: Quantitative LLM Judges 作者: Aishwarya Sahoo / Jeevana Kruthi Karnuthala / Tushar Parmanand Budhwani / Pranchal Agarwal / Sankaran Vaidyanathan / Alexa Siu / Franck Dernoncourt / Jennifer Healey / Nedim Lipka / Ryan Rossi / Uttaran Bhattacharya / Branislav Kveton 原文: [英文] [中文] 备注: None 摘要: LLM-as-a-judge 是一个框架,其中大型语言模型 (LLM) 自动评估另一个 LLM 的输出。我们提出了定量 LLM 评判者,通过回归模型将现有 LLM 评判者的评估分数与特定领域中的人类分数进行对齐。这些模型通过使用评判者的文本评估和分数来提高原始评判者的分数。我们为不同类型的绝对和相对反馈展示了四个定量评判者,展示了我们框架的通用性和多功能性。我们的框架比监督微调更具计算效率,并且在人类反馈有限的情况下可以更具统计效率,这在我们工作的多数应用中是预期的。我们在四个数据集上使用两个基础评判者对这些主张进行了实证验证。我们的实验表明,定量评判者可以通过事后建模有效提高现有评判者的预测能力。 |
[87] 多智能体通信的自适应图剪枝 标题: Adaptive Graph Pruning for Multi-Agent Communication 作者: Boyi Li / Zhonghan Zhao / Der-Horng Lee / Gaoang Wang 原文: [英文] [中文] 备注: None 摘要: 基于大型语言模型(LLM)的多智能体系统在各种任务中表现出色,尤其是在通过协作通信增强后。然而,目前的方法通常依赖于固定数量的智能体和静态的通信结构,限制了它们适应不同任务复杂性的能力。在本文中,我们提出了一种新的任务自适应多智能体协作框架——自适应图剪枝(AGP),该框架联合优化智能体数量(硬剪枝)和通信拓扑(软剪枝)。具体来说,我们的方法采用两阶段训练策略:首先,独立训练不同智能体数量的软剪枝网络,以确定特定任务的最佳智能体数量特定完整图和位置掩码;然后在最大完整图中联合优化硬剪枝和软剪枝,以动态配置每个任务的智能体数量及其通信拓扑。大量实验表明,我们的方法具有以下特点:(1)高性能,在六个基准上实现了最先进的结果,并在多个主流LLM架构中一致泛化,性能提升为$2.58\%\sim 9.84\%$;(2)任务自适应,动态构建针对特定任务优化的通信拓扑,在所有三个任务类别(一般推理、数学推理和代码生成)中表现极佳;(3)令牌经济性,训练步骤和令牌消耗同时减少,令牌消耗减少超过$90\%$;(4)训练高效,与其他方法相比,使用极少的训练步骤即可实现高性能。在六个基准下,经过大约十步训练后,性能将超越现有基线。 |
[88] HACo-Det:在人机共同创作下对细粒度机器生成文本检测的研究 标题: HACo-Det: A Study Towards Fine-Grained Machine-Generated Text Detection under Human-AI Coauthoring 作者: Zhixiong Su / Yichen Wang / Herun Wan / Zhaohan Zhang / Minnan Luo 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的误用可能带来风险,这促使了机器生成文本(MGT)检测的发展。现有文献主要集中于二元的、文档级别的检测,因此忽视了由人类和LLM共同创作的文本。因此,本文探讨了在人机共同创作下进行细粒度MGT检测的可能性。我们建议细粒度检测器可以为具有数值AI比例的共同创作文本检测铺平道路。具体而言,我们提出了一个名为HACo-Det的数据集,该数据集通过自动化流程生成带有词级归因标签的人机共同创作文本。我们对七个现有的文档级检测器进行了改造,使其能够推广到词级检测。然后,我们在HACo-Det上对这些检测器进行了词级和句子级检测任务的评估。实证结果表明,基于度量的方法在进行细粒度检测时表现不佳,平均F1得分为0.462,而微调后的模型表现出优越的性能,并在跨领域中具有更好的泛化能力。然而,我们认为细粒度的共同创作文本检测仍远未解决。我们进一步分析了影响性能的因素,例如上下文窗口,并强调了当前方法的局限性,指出了可能的改进方向。 |
[89] FlowerTune:用于大语言模型联邦微调的跨域基准 标题: FlowerTune: A Cross-Domain Benchmark for Federated Fine-Tuning of Large Language Models 作者: Yan Gao / Massimo Roberto Scamarcia / Javier Fernandez-Marques / Mohammad Naseri / Chong Shen Ng / Dimitris Stripelis / Zexi Li / Tao Shen / Jiamu Bai / Daoyuan Chen / Zikai Zhang / Rui Hu / InSeo Song / Lee KangYoon / Hong Jia / Ting Dang / Junyan Wang / Zheyuan Liu / Daniel Janes Beutel / Lingjuan Lyu / Nicholas D. Lane 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在多个领域取得了最先进的成果,但其发展仍然依赖于大量公开可用的数据,这引发了关于数据稀缺性以及缺乏访问特定领域敏感信息的担忧。联邦学习(FL)提供了一个引人注目的框架来解决这些挑战,通过在不共享原始数据的情况下实现对预训练LLMs的去中心化微调。然而,预训练LLMs在FL环境中的兼容性和性能仍然很少被探索。我们介绍了FlowerTune LLM排行榜,这是首个用于评估LLMs在四个不同领域(通用自然语言处理、金融、医学和编码)中的联邦微调的基准套件。每个领域都包括联邦指令微调数据集和领域特定的评估指标。我们的结果是通过协作、开源和社区驱动的方法获得的,提供了在联邦环境下对26个预训练LLMs进行不同聚合和微调策略的首次全面比较,提供了关于模型性能、资源限制和领域适应的可操作见解。这项工作为开发隐私保护、领域专用的LLMs用于实际应用奠定了基础。 |
[90] 在推理之前扩展:通过提前层插值增强大型语言模型的事实性 标题: Expanding before Inferring: Enhancing Factuality in Large Language Models through Premature Layers Interpolation 作者: Dingwei Chen / Ziqiang Liu / Feiteng Fang / Chak Tou Leong / Shiwen Ni / Ahmadreza Argha / Hamid Alinejad-Rokny / Min Yang / Chengming Li 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在文本理解和生成方面展现了卓越的能力。然而,它们倾向于产生事实不一致的输出,通常被称为“幻觉”,这仍然是一个关键挑战。现有的方法,如基于检索和推理时的纠正方法,主要在输入或输出层面解决这个问题,往往忽视了内在的信息精炼过程和早期层的作用。同时,基于对齐和微调的方法资源消耗较大。在本文中,我们提出了PLI(Premature Layers Interpolation),这是一种新颖的、无需训练的、即插即用的干预方法,旨在增强事实性。PLI通过插入通过与相邻层的数学插值形成的早期层来减轻幻觉。受稳定扩散和采样步骤的启发,PLI扩展了LLMs中信息处理和传输的深度,提高了事实一致性。在四个公开数据集上的实验表明,PLI在大多数情况下有效减少了幻觉,同时优于现有的基线。进一步的分析表明,层插值的成功与LLMs的内部机制密切相关。为了促进可重复性,我们将在论文被接受后发布我们的代码和数据。 |
[91] 面向日语全双工语音对话系统的研究 标题: Towards a Japanese Full-duplex Spoken Dialogue System 作者: Atsumoto Ohashi / Shinya Iizuka / Jingjing Jiang / Ryuichiro Higashinaka 原文: [英文] [中文] 备注: Accepted to Interspeech 2025 摘要: 全双工语音对话系统能够模拟人类对话中的双向特征,如语音重叠和反馈信号,近年来引起了广泛关注。然而,对于日语的全双工语音对话系统的研究仍然有限,关于其在日语中的开发研究仍然稀缺。在本文中,我们介绍了第一个公开可用的日语全双工语音对话模型,该模型基于英语的全双工对话模型Moshi构建。我们的模型通过两阶段过程进行训练:首先在大规模日语语音对话数据上进行预训练,然后在高质量立体声语音对话数据上进行微调。我们进一步通过引入由多流文本到语音系统生成的合成对话数据来增强模型的性能。评估实验表明,训练后的模型在自然性和意义性方面均优于日语基线模型。 |
[92] 2025年5月领先的大型语言模型在皇家全科医师学会风格考试题中的表现:一项横断面分析 标题: Performance of leading large language models in May 2025 in Membership of the Royal College of General Practitioners-style examination questions: a cross-sectional analysis 作者: Richard Armitage 原文: [英文] 备注: 12 pages, 1 Table 摘要: 背景:大型语言模型(LLMs)在支持临床实践方面展示了巨大的潜力。除了Chat GPT4及其前身之外,很少有LLMs,尤其是那些领先且更强大的推理模型类别,接受过医学专业考试问题的测试,包括在初级保健领域。本文旨在测试截至2025年5月的领先LLMs(o3、Claude Opus 4、Grok3和Gemini 2.5 Pro)在初级保健教育中的能力,特别是在回答英国皇家全科医师学会(MRCGP)风格的考试问题方面。 方法:2025年5月25日,o3、Claude Opus 4、Grok3和Gemini 2.5 Pro被要求回答从皇家全科医师学会GP自测中随机选择的100道多项选择题。问题包括文本信息、实验室结果和临床图像。每个模型被提示以英国全科医生的身份回答,并提供完整的问题信息。每个问题由每个模型尝试一次。回答根据GP自测提供的正确答案进行评分。 结果:o3、Claude Opus 4、Grok3和Gemini 2.5 Pro的总得分分别为99.0%、95.0%、95.0%和95.0%。相同问题的平均同行得分为73.0%。 讨论:所有模型的表现都非常出色,并且都大大超过了回答相同问题的全科医生和全科医生注册者的平均表现。o3表现最佳,而其他领先模型的表现相互可比,并且并不显著低于o3。这些发现加强了LLMs,特别是推理模型,支持初级保健服务的论点,尤其是那些经过专门训练以处理初级保健临床数据的模型。 |
[93] 这可不是轻松的事!语音转文字系统中习语翻译的挑战 标题: It's Not a Walk in the Park! Challenges of Idiom Translation in Speech-to-text Systems 作者: Iuliia Zaitova / Badr M. Abdullah / Wei Xue / Dietrich Klakow / Bernd Möbius / Tania Avgustinova 原文: [英文] [中文] 备注: 13 pages, 3 figures, ACL 2025 摘要: 习语被定义为一组具有比其单个组成部分更深层含义的词组。尽管现代机器翻译系统取得了显著进展,但翻译习语仍然是一个主要挑战,尤其是在语音到文本系统中,这方面的研究尤其稀缺。在本文中,我们系统地评估了习语翻译与传统新闻翻译在文本到文本机器翻译(MT)和语音到文本翻译(SLT)系统中的表现,涉及两个语言对(德语到英语,俄语到英语)。我们比较了最先进的端到端SLT系统(SeamlessM4T SLT-to-text, Whisper Large v3)与MT系统(SeamlessM4T SLT-to-text, No Language Left Behind)、大型语言模型(DeepSeek, LLaMA)以及级联替代方案。我们的结果显示,SLT系统在习语数据上表现出明显的性能下降,常常在更高层次上回归到字面翻译,而MT系统和大型语言模型在处理习语方面表现更佳。这些发现强调了在SLT架构中需要习语特定的策略和改进的内部表示。 |
[94] 一种用于缓解隐私政策问答系统中方言偏见的多智能体框架 标题: A Multi-Agent Framework for Mitigating Dialect Biases in Privacy Policy Question-Answering Systems 作者: Đorđe Klisura / Astrid R Bernaga Torres / Anna Karen Gárate-Escamilla / Rajesh Roshan Biswal / Ke Yang / Hilal Pataci / Anthony Rios 原文: [英文] [中文] 备注: Accepted to ACL 2025 Main Conference 摘要: 隐私政策旨在告知用户有关数据收集和使用的信息,但其复杂性限制了不同人群的可访问性。现有的隐私政策问答(QA)系统在不同英语方言中表现不一,使得非标准方言的使用者处于不利地位。我们提出了一种新颖的多代理框架,灵感来自以人为本的设计原则,以减轻方言偏见。我们的方法整合了一个方言代理,该代理将查询翻译为标准美式英语(SAE),同时保留方言意图,以及一个隐私政策代理,该代理利用领域专业知识优化预测。与之前的方法不同,我们的方法不需要重新训练或进行方言特定的微调,使其在各种模型和领域中具有广泛的适用性。在PrivacyQA和PolicyQA上的评估显示,我们的框架将GPT-4o-mini在PrivacyQA上的零样本准确率从0.394提高到0.601,在PolicyQA上从0.352提高到0.464,超越或匹配了少样本基线,而无需额外的训练数据。这些结果突显了结构化代理协作在减轻方言偏见方面的有效性,并强调了设计考虑语言多样性的NLP系统以确保隐私信息公平获取的重要性。 |
[95] 将大型语言模型应用于法律系统?检测可惩罚的仇恨言论 标题: Conditioning Large Language Models on Legal Systems? Detecting Punishable Hate Speech 作者: Florian Ludwig / Torsten Zesch / Frederike Zufall 原文: [英文] 备注: None 摘要: 对法律问题的评估需要考虑特定的法律体系及其抽象层次,从宪法到成文法再到判例法。目前尚不清楚大型语言模型(LLMs)在多大程度上内化了这些法律体系。在本文中,我们提出并研究了在法律体系中以不同抽象层次对LLMs进行条件化的不同方法。本文探讨了在法律体系中以多层次抽象对LLMs进行条件化的不同方法,以检测可能构成惩罚的仇恨言论。我们专注于分类特定社交媒体帖子是否符合德国刑法规定的煽动仇恨的刑事犯罪。结果表明,无论模型被条件化的抽象层次如何,模型在仇恨言论的法律评估方面与法律专家之间仍存在显著的性能差距。我们的分析显示,基于抽象法律知识进行条件化的模型缺乏对任务的深刻理解,常常自相矛盾并产生幻觉答案,而使用具体法律知识的模型在识别相关目标群体方面表现尚可,但在分类目标行为方面存在困难。 |
[96] 具有多模态浏览功能的编码代理是通用问题解决者 标题: Coding Agents with Multimodal Browsing are Generalist Problem Solvers 作者: Aditya Bharat Soni / Boxuan Li / Xingyao Wang / Valerie Chen / Graham Neubig 原文: [英文] [中文] 备注: None 摘要: 现代人类劳动的特点是专业化;我们经过多年的训练并开发出特定的工具,使我们能够在各种任务中表现出色。此外,人工智能代理也在软件工程、网络导航和工作流程自动化等领域实现了专业化。然而,这导致了代理在某一方面表现出色,但无法超出其预期范围进行泛化。造成这种情况的一个原因是代理开发者提供了一套高度专业化的工具,或做出针对特定用例或基准优化的架构决策。在这项工作中,我们提出了一个问题:可以用来在多样化任务中实现高性能的最小通用工具集是什么?我们的答案是OpenHands-Versa,这是一种通用代理,使用了一些通用工具:代码编辑和执行、网络搜索,以及多模态网络浏览和文件访问。重要的是,OpenHands-Versa在三个多样化且具有挑战性的基准测试中展示了优于或与领先的专业代理竞争的性能:SWE-Bench Multimodal、GAIA和The Agent Company,分别在成功率上超越了之前发表的最佳结果,绝对提升了9.1、1.3和9.1个百分点。此外,我们展示了现有的最先进多代理系统如何无法超出其目标领域进行泛化。这些结果证明了开发通用代理以解决多样化任务的可行性,并确立了OpenHands-Versa作为未来研究的强大基准。 |
[97] 利用信息检索增强小样本学习中的口语理解提示 标题: Leveraging Information Retrieval to Enhance Spoken Language Understanding Prompts in Few-Shot Learning 作者: Pierre Lepagnol / Sahar Ghannay / Thomas Gerald / Christophe Servan / Sophie Rosset 原文: [英文] [中文] 备注: Conference paper accepted to INTERSPEECH 2025 摘要: 理解用户查询在许多应用中是基础性的,例如家庭助手、预订系统或推荐系统。因此,开发准确的口语理解(SLU)方法对于确保所考虑系统的可靠性至关重要。目前最先进的SLU技术依赖于大量的训练数据;然而,对于特定任务或语言,只有有限的标注示例可用。同时,经过指令微调的大型语言模型(LLMs)在提供适当提示的情况下,在少样本设置中对未见任务表现出色。在这项工作中,我们提出通过利用信息检索(IR)方法来探索示例选择,以构建一个增强的提示应用于SLU任务。我们在几个SLU基准上评估了所提方法的有效性。实验结果表明,词汇IR方法在不增加提示长度的情况下显著提高了性能。 |
[98] 从理论角度分析和理解VAPO的局限性 标题: Towards Analyzing and Understanding the Limitations of VAPO: A Theoretical Perspective 作者: Jintian Shao / Yiming Cheng 原文: [英文] [中文] 备注: None 摘要: 强化学习(RL)在复杂的长链思维(long-CoT)推理中增强了大型语言模型(LLMs)。尽管先进的VAPO框架具有诸如解耦GAE等复杂机制,但在理论上面临着在扩展推理链中全面建模和利用深层、长期价值以进行细粒度、逐步策略指导的基本限制。我们认为这些限制源于在信用分配、具有时间抽象目标的价值函数表示能力以及将全局价值信号转化为局部策略改进方面的内在困难,尤其是在稀疏奖励的情况下。我们的理论分析考察了这些方面,以阐明VAPO在长期价值建模中的界限,旨在加深对当前用于高级推理的RL的理解,并为更强大的LLM代理的未来研究提供建议。 |
[99] 事实确实关心你的语言:评估多语言大型语言模型的答案质量 标题: Facts Do Care About Your Language: Assessing Answer Quality of Multilingual LLMs 作者: Yuval Kansal / Shmuel Berman / Lydia Liu 原文: [英文] [中文] 备注: None 摘要: 事实性是有用的教育工具的必要前提。随着大型语言模型(LLMs)在教育中的应用不断增长,确保其在所有环境中的正确性至关重要。尽管这些模型在英语方面表现出色,但在其他语言中的表现却很少经过测试。在这项工作中,我们评估了Llama3.1系列模型在回答适合中学生和高中生的事实性问题时的正确性。我们证明了LLMs不仅提供了多余且不太真实的信息,还加剧了对稀有语言的现有偏见。 |
[100] 通过长上下文语言模型进行文学证据检索 标题: Literary Evidence Retrieval via Long-Context Language Models 作者: Katherine Thai / Mohit Iyyer 原文: [英文] [中文] 备注: ACL 2025 摘要: 现代长上下文语言模型在多大程度上理解文学小说?我们通过文学证据检索任务来探讨这个问题,重新利用That等人(2022年)的RELiC数据集,构建一个基准,其中将主要来源文本的全文(例如,《了不起的盖茨比》)提供给大型语言模型(LLM),同时提供缺少该作品引用的文学评论。在这种设置中,模型必须生成缺失的引用,这反映了人类的文学分析过程,要求模型进行全局叙事推理和细致的文本检查。我们通过广泛的筛选和人工验证,策划了一个高质量的292个例子子集。我们的实验表明,最近的推理模型,如Gemini Pro 2.5,可以超过人类专家的表现(62.5%对50%的准确率)。相比之下,最佳的开放权重模型仅达到29.1%的准确率,突显了开放和封闭权重模型之间在解释性推理上的巨大差距。尽管这些模型速度快且表面上准确,即使是最强的模型在处理细微的文学信号和过度生成方面仍然存在困难,这表明将LLM应用于文学分析的开放挑战。我们发布了我们的数据集和评估代码,以鼓励未来在这一方向上的研究。 |
[101] 超越文本压缩:跨尺度评估分词器 标题: Beyond Text Compression: Evaluating Tokenizers Across Scales 作者: Jonas F. Lotz / António V. Lopes / Stephan Peitz / Hendra Setiawan / Leonardo Emili 原文: [英文] [中文] 备注: ACL 2025 摘要: 分词器的选择可以深刻影响语言模型的性能,但对分词器质量的可访问和可靠的评估仍然是一个未解决的挑战。受缩放一致性的启发,我们展示了较小的模型可以在计算成本的一小部分下准确预测分词器对较大模型的显著影响。通过系统地评估以英语为中心和多语言的分词器,我们发现分词器的选择对英语任务影响微乎其微,但在多语言环境中会导致一致的性能差异。我们提出了新的内在分词器指标,这些指标受齐普夫定律启发,与建模未见过的语言时的下游性能相比,与文本压缩有更强的相关性。通过结合多个指标以捕捉分词器行为的多个方面,我们开发了一个可靠的内在分词器评估框架。我们的工作为未来语言模型开发中的知情分词器选择提供了一条更高效的路径。 |
[102] Critique-GRPO:通过自然语言和数值反馈提升大型语言模型的推理能力 标题: Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback 作者: Xiaoying Zhang / Hao Sun / Yipeng Zhang / Kaituo Feng / Chao Yang / Helen Meng 原文: [英文] [中文] 备注: 38 pages 摘要: 最近在使用数值反馈(如标量奖励)的强化学习(RL)方面的进展显著增强了大型语言模型(LLMs)的复杂推理能力。尽管取得了这些成功,我们发现仅依赖数值反馈的强化学习面临三个关键挑战:性能瓶颈、自我反思的有限效果以及持续的失败。我们接着展示了经过强化学习微调的模型,即使在表现出性能瓶颈后,仍然可以通过利用自然语言反馈(以批评的形式)在持续失败的问题上生成正确的改进。基于这一见解,我们提出了Critique-GRPO,这是一种在线强化学习框架,结合了自然语言和数值反馈以实现有效的策略优化。Critique-GRPO使得大型语言模型能够同时从初始响应和批评引导的改进中学习,同时保持探索能力。使用Qwen2.5-7B-Base和Qwen3-8B-Base进行的大量实验表明,Critique-GRPO在八个具有挑战性的数学、STEM和一般推理任务中,始终优于基于监督学习和基于强化学习的微调方法,平均pass@1得分分别提高了约4.5%和5%。值得注意的是,Critique-GRPO超越了一个在在线强化学习中结合专家演示的强基线。进一步的分析揭示了关于策略探索的两个关键见解:(1)更高的熵并不总能保证从探索中高效学习,以及(2)更长的响应不一定导致更有效的探索。 |
[103] AUTOCIRCUIT-RL:基于强化学习的自动电路拓扑生成大语言模型 标题: AUTOCIRCUIT-RL: Reinforcement Learning-Driven LLM for Automated Circuit Topology Generation 作者: Prashanth Vijayaraghavan / Luyao Shi / Ehsan Degan / Vandana Mukherjee / Xin Zhang 原文: [英文] [中文] 备注: 9 Pages (Content), 4 Pages (Appendix), 7 figures, ICML'2025 摘要: 模拟电路拓扑综合是电子设计自动化(EDA)的核心部分,它能够自动创建符合特定设计要求的电路结构。然而,庞大的设计搜索空间和严格的约束遵循使得高效的综合变得具有挑战性。我们提出了AUTOCIRCUIT-RL,这是一种基于强化学习(RL)的新颖框架,用于自动化模拟电路综合,利用大型语言模型(LLMs)的多功能性。该框架分为两个阶段:指令调优阶段,其中LLM学习从编码设计约束的结构化提示中生成电路拓扑;以及RL优化阶段,使用奖励模型评估电路的有效性、效率和输出电压,进一步改进指令调优模型。经过优化的模型直接用于生成满足设计约束的拓扑。实证结果表明,与最佳基线相比,AUTOCIRCUIT-RL生成的有效电路多约12%,效率提高约14%,同时重复生成率降低约38%。在有限的训练数据下,它在合成有效电路方面的成功率超过60%,展示了强大的泛化能力。这些发现突显了该框架在扩展到复杂电路时的有效性,同时保持效率和约束遵循,标志着AI驱动电路设计的重大进步。 |
[104] 通过强化学习共同进化的大型语言模型编码器和单元测试器 标题: Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning 作者: Yinjie Wang / Ling Yang / Ye Tian / Ke Shen / Mengdi Wang 原文: [英文] [中文] 备注: Project: this https URL 摘要: 我们提出了CURE,这是一种新颖的强化学习框架,具有专门的奖励设计,能够基于交互结果共同进化编码和单元测试生成能力,而无需任何真实代码作为监督。这种方法实现了灵活且可扩展的训练,并允许单元测试器直接从编码器的错误中学习。我们推导出的ReasonFlux-Coder-7B和14B模型在Qwen2.5-Instruct模型上优化后,代码生成准确率提高了5.3%,Best-of-N准确率提高了9.0%,优于相似规模的Qwen-Coder、DeepSeek-Coder和Seed-Coder。它们自然地扩展到下游任务,如测试时扩展和代理编码——在基础模型上实现了8.1%的改进。对于long-CoT模型,我们的ReasonFlux-Coder-4B在单元测试生成中始终优于Qwen3-4B,同时实现了64.8%的推理效率。值得注意的是,我们还发现我们的模型可以作为基础模型上强化学习的有效奖励模型。项目链接:this https URL |
[105] GUI-Actor:面向GUI代理的无坐标视觉定位 标题: GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents 作者: Qianhui Wu / Kanzhi Cheng / Rui Yang / Chaoyun Zhang / Jianwei Yang / Huiqiang Jiang / Jian Mu / Baolin Peng / Bo Qiao / Reuben Tan / Si Qin / Lars Liden / Qingwei Lin / Huan Zhang / Tong Zhang / Jianbing Zhang / Dongmei Zhang / Jianfeng Gao 原文: [英文] [中文] 备注: None 摘要: 构建基于大型视觉语言模型(VLM)的图形用户界面(GUI)代理的主要挑战之一是视觉定位,即基于视觉内容和文本计划定位适当的屏幕区域以执行操作。大多数现有工作将其表述为一个基于文本的坐标生成任务。然而,这些方法存在几个局限性:空间-语义对齐弱,无法处理模糊的监督目标,以及屏幕坐标的密集性质与视觉变换器(Vision Transformers)等模型提取的视觉特征的粗略、补丁级粒度不匹配。在本文中,我们提出了GUI-Actor,这是一种基于VLM的无坐标GUI定位方法。GUI-Actor的核心是引入了一个基于注意力的动作头,它学习将专用的<ACTOR>标记与所有相关的视觉补丁标记对齐,使模型能够在一次前向传递中提出一个或多个动作区域。与此一致,我们进一步设计了一个定位验证器,以评估和选择最合理的动作区域用于执行操作。大量实验表明,GUI-Actor在多个GUI动作定位基准上优于之前的最先进方法,并在未见过的屏幕分辨率和布局上表现出更好的泛化能力。值得注意的是,GUI-Actor-7B甚至在ScreenSpot-Pro上超越了UI-TARS-72B(38.1),在以Qwen2-VL和Qwen2.5-VL为骨干的情况下分别取得了40.7和44.6的分数。此外,通过结合验证器,我们发现仅微调新引入的动作头(7B模型约1亿参数),而保持VLM骨干冻结,就足以实现与之前最先进模型相当的性能,这表明GUI-Actor可以赋予底层VLM有效的定位能力,而不影响其通用性。 |
[106] 使用本体和大型语言模型的语义理解能力进行实体增强的神经科学知识检索 标题: Entity-Augmented Neuroscience Knowledge Retrieval Using Ontology and Semantic Understanding Capability of LLM 作者: Pralaypati Ta / Sriram Venkatesaperumal / Keerthi Ram / Mohanasankar Sivaprakasam 原文: [英文] 备注: None 摘要: 神经科学研究出版物包含了大量的知识。准确检索现有信息并从这广泛的文献中发现新的见解对于推动该领域的发展至关重要。然而,当知识分散在多个来源时,当前最先进的检索方法往往难以提取必要的信息。知识图谱(KG)可以整合和链接来自多个来源的知识,但现有的在神经科学中构建KG的方法通常依赖于标注数据并需要领域专业知识。获取像神经科学这样专业领域的大规模标注数据存在显著挑战。本文提出了从未标注的大规模神经科学研究语料库中构建KG的新方法,利用大型语言模型(LLM)、神经科学本体和文本嵌入。我们分析了由LLM识别的神经科学文本片段的语义相关性,以构建知识图谱。我们还引入了一种实体增强的信息检索算法,从KG中提取知识。进行了若干实验以评估所提出的方法,结果表明我们的方法显著增强了从未标注的神经科学研究语料库中发现知识的能力。它在实体提取方面达到了0.84的F1分数,并且从KG中获得的知识改善了超过54%问题的答案。 |
[107] 标记化偏差的因果估计 标题: Causal Estimation of Tokenisation Bias 作者: Pietro Lesci / Clara Meister / Thomas Hofmann / Andreas Vlachos / Tiago Pimentel 原文: [英文] [中文] 备注: Published as a conference paper at ACL 2025 摘要: 现代语言模型通常在子词序列上进行训练,但最终定义的是字符串的概率。理想情况下,字符串到子词的映射——即分词器的选择——不应影响分配给基础字符串的概率;但在实际中,它确实会产生影响。我们将这种不匹配定义为分词偏差。在这项工作中,我们量化了一种特定类型的分词偏差:在分词器的词汇表中包含或不包含某个子词(例如,$\langle hello \rangle$)对训练模型分配给相应字符(即“hello”)的概率的影响。估计这种影响具有挑战性,因为每个模型仅使用一个分词器进行训练。我们通过将分词偏差框定为因果效应并使用回归不连续设计来估计它。具体来说,我们利用分词算法对子词进行排序并将前 $K$ 个添加到分词器的词汇表中,其中 $K$ 是一个任意的截止点。因此,我们可以通过比较该截止点附近的相似子词来估计因果效应。实验结果表明,分词在不同规模、词汇表和分词器中始终影响模型的输出。值得注意的是,小型模型词汇表中某个子词的存在可能会使其字符的概率增加多达17倍,这突显了分词作为语言建模中的一个关键设计选择。 |