scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CL方向,2025年7月3日更新论文42
[1] MALIBU 基准:多智能体大语言模型隐性偏见揭示
标题: MALIBU Benchmark: Multi-Agent LLM Implicit Bias Uncovered
作者: Imran Mirza / Cole Huang / Ishwara Vasista / Rohan Patil / Asli Akalin / Sean O'Brien / Kevin Zhu
原文:   [英文]   [中文]  
备注: Accepted to Building Trust in LLMs @ ICLR 2025 and NAACL SRW 2025
摘要:
多智能体系统由多个人工智能模型在共享环境中交互组成,越来越多地用于基于角色的互动。然而,如果设计不当,这些系统可能会强化大型语言模型(LLM)中的隐性偏见,引发关于公平性和公正代表性的担忧。我们提出了MALIBU,这是一种新颖的基准,用于评估基于LLM的多智能体系统在多大程度上隐性地强化社会偏见和刻板印象。MALIBU通过基于场景的评估来评估基于LLM的多智能体系统中的偏见。人工智能模型在预定义的情境中完成任务,其响应经过基于LLM的多智能体评判系统的两阶段评估。在第一阶段,评判者根据四个指标对标有特定人口角色(例如,性别、种族、宗教)的响应进行评分。在第二阶段,评判者比较分配给不同角色的成对响应,对其进行评分并选择优越的响应。我们的研究量化了LLM生成输出中的偏见,揭示了偏见缓解可能偏向于边缘化角色而非真正的中立性,强调了在多智能体系统中需要细致的检测、平衡的公平策略和透明的评估基准。

[2] 基于事件的抽象新闻摘要评估
标题: Event-based evaluation of abstractive news summarization
作者: Huiling You / Samia Touileb / Erik Velldal / Lilja Øvrelid
原文:   [英文]   [中文]  
备注: to appear at GEM2 workshop@ACL 2025
摘要:
新闻文章的抽象摘要以简洁的形式包含其最重要的信息。通过生成语言模型自动生成的摘要的评估在很大程度上依赖于人工撰写的摘要作为黄金参考,通过计算重叠单元或相似性分数来进行。新闻文章报道事件,理想情况下,摘要也应该如此。在这项工作中,我们提出通过计算生成的摘要、参考摘要和原始新闻文章之间的重叠事件来评估抽象摘要的质量。我们在一个丰富注释的挪威数据集上进行实验,该数据集包括事件注释和由专家人工注释者撰写的摘要。我们的方法提供了关于摘要中包含的事件信息的更多见解。

[3] 匹配和链接历史瑞典百科全书中的条目
标题: Matching and Linking Entries in Historical Swedish Encyclopedias
作者: Simon Börjesson / Erik Ersmark / Pierre Nugues
原文:   [英文]   [中文]  
备注: 10 pages, 3 figures
摘要:
《Nordisk familjebok》是一本来自19世纪和20世纪的瑞典百科全书。它由一组专家撰写,旨在成为一个强调精确性和准确性的智力参考。这本百科全书有四个主要版本,以其规模而著称,范围从20卷到38卷。因此,《Nordisk familjebok》在大学、学校、媒体和整个社会中产生了相当大的影响。随着新版本的发布,条目的选择及其内容不断演变,反映了瑞典的智力变化。 在本文中,我们使用了来自《Project Runeberg》的数字化版本。我们首先将原始文本重新分段为条目,并使用语义句子嵌入匹配了第一版和第二版之间的条目对。然后,我们使用基于变压器的分类器从两个版本中提取了地理条目,并将它们链接到Wikidata。这使我们能够识别地理趋势以及第一版(1876-1899年)和第二版(1904-1926年)之间可能的变化。 通过解释结果,我们观察到从第一版到第二版,地理焦点从欧洲向北美、非洲、亚洲、澳大利亚和北斯堪的纳维亚略有但显著的转移,证实了第一次世界大战的影响和新兴大国的崛起。代码和数据可在GitHub上的此HTTPS URL获取。

[4] MEGA:用于精确基于方面情感分析的多头指数门控融合的xLSTM
标题: MEGA: xLSTM with Multihead Exponential Gated Fusion for Precise Aspect-based Sentiment Analysis
作者: Adamu Lawan / Juhua Pu / Haruna Yunusa / Jawad Muhammad / Muhammad Lawan
原文:   [英文]   [中文]  
备注: 6, 1 figure
摘要:
基于方面的情感分析(ABSA)是一个关键的自然语言处理(NLP)任务,它从文本中提取方面并确定其相关的情感,从而实现对用户意见的细粒度分析。现有的ABSA方法在计算效率和高性能之间难以平衡:深度学习模型通常缺乏全局上下文,transformer需要大量的计算资源,而基于Mamba的方法则面临CUDA依赖性和局部相关性减弱的问题。最近在扩展长短期记忆(xLSTM)模型方面的进展,特别是其对长距离依赖的高效建模,极大地推动了NLP领域的发展。然而,它们在ABSA中的潜力尚未被开发。为此,我们提出了具有多头指数门控融合(MEGA)的xLSTM,这是一种新颖的框架,集成了双向mLSTM架构与前向和部分翻转后向(PF-mLSTM)流。PF-mLSTM通过使用专用参数反向处理初始序列段来增强局部化上下文建模,保留关键的短程模式。我们进一步引入了一种基于mLSTM的多头交叉指数门控融合机制(MECGAF),该机制动态地将前向mLSTM输出作为查询和键,与PF-mLSTM输出作为值相结合,优化短程依赖捕获,同时保持全局上下文和效率。在三个基准数据集上的实验结果表明,MEGA在ABSA任务中优于最先进的基线,达到了更高的准确性和效率。

[5] 媒介不是信息:通过线性概念消除对文本嵌入进行去混淆
标题: The Medium Is Not the Message: Deconfounding Text Embeddings via Linear Concept Erasure
作者: Yu Fan / Yang Tian / Shauli Ravfogel / Mrinmaya Sachan / Elliott Ash / Alexander Hoyle
原文:   [英文]   [中文]  
备注: None
摘要:
基于嵌入的文本序列相似性度量不仅会受到我们最关心的内容维度的影响,还可能受到诸如文本来源或语言等虚假属性的偏见影响。这些文档混杂因素会给许多应用带来问题,尤其是那些需要从不同语料库中汇集文本的应用。本文表明,一种去偏算法可以从编码器表示中去除关于观察到的混杂因素的信息,从而以最小的计算成本显著减少这些偏见。我们评估的每种嵌入变体和任务的文档相似性和聚类度量均有所改善——通常是显著的。有趣的是,对分布外基准的性能没有受到影响,这表明嵌入没有被其他方式降级。

[6] GAIus:结合生成式人工智能与法律条款检索的知识型助手
标题: GAIus: Combining Genai with Legal Clauses Retrieval for Knowledge-based Assistant
作者: Michał Matak / Jarosław A. Chudziak
原文:   [英文]   [中文]  
备注: 8 pages, 2 figures, presented at ICAART 2025, in proceedings of the 17th International Conference on Agents and Artificial Intelligence - Volume 3: ICAART
摘要:
在本文中,我们讨论了大型语言模型在处理非英语和非中文国家的法律事务时,基于其答案并提供适当参考的能力。我们探讨了法律信息检索的历史、判例法与成文法的区别及其对法律任务的影响,并分析了该领域的最新研究。在此背景下,我们介绍了gAIus,这是一种基于认知大型语言模型的代理架构,其响应基于从特定法律法规中检索到的知识,该法规是波兰民法典。我们提出了一种检索机制,该机制比基于嵌入的方法更具可解释性、更人性化,并取得了更好的结果。为了评估我们的方法,我们创建了一个基于波兰法律实习入学考试单项选择题的特殊数据集。所提出的架构关键性地利用了所用大型语言模型的能力,将gpt-3.5-turbo-0125的性能提高了419%,使其超越了gpt-4o,并将gpt-4o-mini的得分从31%提升到86%。在论文的最后,我们展示了未来研究的可能路径以及我们发现的潜在应用。

[7] 评估大型语言模型在糖尿病视网膜病变和青光眼筛查中的多模态模拟眼科决策
标题: Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening
作者: Cindy Lie Tabuse / David Restepo / Carolina Gracitelli / Fernando Korn Malerbi / Caio Regatieri / Luis Filipe Nakayama
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)可以基于自然语言提示模拟临床推理,但其在眼科学中的应用尚未得到广泛探索。本研究评估了GPT-4解释视网膜眼底照片的结构化文本描述并模拟糖尿病视网膜病变(DR)和青光眼筛查临床决策的能力,包括添加真实或合成临床元数据的影响。我们使用300张带注释的眼底图像进行了回顾性诊断验证研究。GPT-4接收描述每张图像的结构化提示,提示中可能包含或不包含患者元数据。模型的任务是分配ICDR严重程度评分,推荐DR转诊,并估算青光眼转诊的杯盘比。性能通过准确性、宏F1和加权F1分数以及Cohen's kappa进行评估。使用McNemar检验和变化率分析评估元数据的影响。GPT-4在ICDR分类中表现中等(准确性67.5%,宏F1 0.33,加权F1 0.67,kappa 0.25),主要由正常病例的正确识别驱动。在二元DR转诊任务中,性能有所提高(准确性82.3%,F1 0.54,kappa 0.44)。对于青光眼转诊,所有设置下的性能均较差(准确性约78%,F1 <0.04,kappa <0.03)。元数据的包含对结果没有显著影响(McNemar p > 0.05),预测在各种条件下保持一致。GPT-4可以从结构化提示中模拟基本的眼科决策,但在复杂任务中缺乏精确性。虽然不适合临床使用,但LLMs可能在眼科学的教育、文档编制或图像注释工作流程中提供帮助。

[8] 重新思考所有证据:通过冲突驱动的总结增强可信的检索增强生成
标题: Rethinking All Evidence: Enhancing Trustworthy Retrieval-Augmented Generation via Conflict-Driven Summarization
作者: Juan Chen / Baolong Bi / Wei Zhang / Jingyan Sui / Xiaofei Zhu / Yuanzhuo Wang / Lingrui Mei / Shenghua Liu
原文:   [英文]   [中文]  
备注: None
摘要:
检索增强生成(RAG)通过将大型语言模型(LLMs)的参数化知识与外部检索内容相结合来增强其功能。然而,由于内部不一致或噪声检索内容导致的知识冲突可能会严重削弱RAG的生成可靠性。在这项工作中,我们认为LLMs在生成之前应该重新审视所有证据,包括检索内容和内部知识。我们提出了CARE-RAG(冲突感知和可靠证据的RAG),这是一种通过对所有可用证据进行冲突驱动总结来提高可信度的新框架。CARE-RAG首先通过比较参数记录来识别多样化的内部视角,从而推导出参数感知证据。然后,它精炼检索到的证据以生成上下文感知证据,去除不相关或误导性内容。为了检测和总结冲突,我们提炼了一个3B LLaMA3.2模型来执行冲突驱动总结,从而实现跨多个证据的可靠综合。为了进一步确保评估的完整性,我们引入了一个QA修复步骤,以纠正过时或模糊的基准。我们在包含检索数据的修订QA数据集上进行的实验表明,CARE-RAG在噪声或冲突证据的场景中始终优于强大的RAG基线。

[9] 令人沮丧的简单检索提升了具有挑战性的推理密集型基准
标题: Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks
作者: Xinxi Lyu / Michael Duan / Rulin Shao / Pang Wei Koh / Sewon Min
原文:   [英文]  
备注: 33 pages, 2 figures, 27 tables
摘要:
检索增强生成(RAG)主要在有限的环境中进行研究,例如事实性问答;在更具挑战性、需要推理的基准测试中,简单的RAG取得的成功有限。在这项工作中,我们在已建立的、需要推理的基准测试中挑战这一普遍观点:MMLU、MMLU Pro、AGI Eval、GPQA和MATH。我们发现之前工作的一个关键缺失组件是:一个可用的、与预训练数据广度对齐的网络规模数据存储。为此,我们引入了CompactDS:一个多样化、高质量的网络规模数据存储,在单节点上实现了高检索准确性和亚秒级延迟。关键见解是:(1)大多数网络内容可以在不牺牲覆盖率的情况下被过滤掉,一个紧凑的高质量子集就足够了;(2)结合内存中的近似最近邻(ANN)检索和磁盘上的精确搜索可以平衡速度和召回率。使用CompactDS,我们展示了一个简单的RAG管道在所有基准测试和模型规模(8B--70B)上实现了一致的准确性提升,在MMLU上相对提高10%,在MMLU Pro上提高33%,在GPQA上提高14%,在MATH上提高19%。没有单一的数据源可以单独满足需求,这突显了数据源多样性的重要性(网络抓取、精选数学、学术论文、教科书)。最后,我们展示了我们精心设计的内部数据存储与Google搜索等网络搜索引擎以及最近提出的复杂的基于代理的RAG系统相匹配或优于它们,同时保持简单性、可重复性和自包含性。我们发布了CompactDS和我们的检索管道,以支持未来探索基于检索的AI系统的研究。

[10] La RoSA:通过逐层旋转稀疏激活提升大型语言模型效率
标题: La RoSA: Enhancing LLM Efficiency via Layerwise Rotated Sparse Activation
作者: Kai Liu / Bowen Xu / Shaoyu Wu / Xin Chen / Hao Zhou / Yongliang Tao / Lulu Hu
原文:   [英文]   [中文]  
备注: ICML 2025 Acceptance
摘要:
激活稀疏性可以减少大型语言模型(LLM)推理过程中前向传递的计算开销和内存传输。现有方法存在局限性,要么需要耗时的恢复训练,阻碍了实际应用,要么依赖于经验性的基于幅度的剪枝,导致稀疏性波动和不稳定的推理加速。本文介绍了一种新的激活稀疏化方法 LaRoSA(层级旋转稀疏激活),旨在提高 LLM 的效率,而无需额外的训练或基于幅度的剪枝。我们利用层级正交旋转将输入激活转换为更适合稀疏化的旋转形式。通过在旋转激活中采用 Top-K 选择方法,我们实现了一致的模型级稀疏性和可靠的实际时间加速。LaRoSA 在各种规模和类型的 LLM 中都有效,表现出最小的性能下降和稳健的推理加速。具体而言,对于 LLaMA2-7B 在 40% 稀疏性下,LaRoSA 实现了仅 0.17 的困惑度差距,并且在实际时间上实现了 1.30 倍的一致加速,在零样本任务中的准确性差距相比密集模型仅为 0.54%,同时超越了 TEAL 1.77% 和 CATS 17.14%。

[11] 符号还是数值?理解推理大语言模型中的物理问题解决
标题: Symbolic or Numerical? Understanding Physics Problem Solving in Reasoning LLMs
作者: Nifu Dan / Yujun Cai / Yiwei Wang
原文:   [英文]   [中文]  
备注: None
摘要:
驾驭物理推理的复杂性一直是大型语言模型(LLMs)的一项艰巨任务,这需要深刻的概念理解和熟练的问题解决技巧的综合。在本研究中,我们探讨了高级指令调优推理模型(如 Deepseek-R1)在解决从具有挑战性的 SciBench 基准中精选的多样化物理问题上的应用。我们的全面实验评估揭示了这些推理模型的非凡能力。它们不仅在回答复杂的物理问题上达到了最先进的准确性,还生成了强调符号推导的独特推理模式。此外,我们的研究结果表明,即使对于这些高度复杂的推理模型,策略性地结合少样本提示仍然可以在整体准确性上带来可观的改进,这突显了持续性能提升的潜力。

[12] LEDOM:一种开放且基础的逆向语言模型
标题: LEDOM: An Open and Fundamental Reverse Language Model
作者: Xunjian Yin / Sitao Cheng / Yuxi Xie / Xinyu Hu / Li Lin / Xinyi Wang / Liangming Pan / William Yang Wang / Xiaojun Wan
原文:   [英文]   [中文]  
备注: Work in progress
摘要:
我们介绍了LEDOM,这是第一个纯粹的反向语言模型,通过自回归方式在4350亿个标记上进行训练,具有20亿和70亿参数的变体,通过预测前一个标记以逆时间顺序处理序列。我们首次将反向语言模型作为一种潜在的基础模型应用于一般任务,并附带了一组有趣的示例和见解。基于LEDOM,我们进一步引入了一种新颖的应用:反向奖励,其中LEDOM引导的前向语言模型输出的重新排序在数学推理任务上带来了显著的性能提升。这种方法利用LEDOM独特的反向推理能力,通过后验评估来优化生成质量。我们的研究结果表明,LEDOM展现了独特的特性,具有广泛的应用潜力。我们将发布所有模型、训练代码和预训练数据,以促进未来的研究。

[13] Skywork-Reward-V2:通过人机协同扩展偏好数据整理
标题: Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
作者: Chris Yuhao Liu / Liang Zeng / Yuzhen Xiao / Jujie He / Jiacai Liu / Chaojie Wang / Rui Yan / Wei Shen / Fuxiang Zhang / Jiacheng Xu / Yang Liu / Yahui Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
尽管奖励模型(RMs)在人类反馈强化学习(RLHF)中起着关键作用,但当前最先进的开源奖励模型在大多数现有评估基准上表现不佳,未能捕捉到人类偏好的复杂和微妙之处。即使是采用先进训练技术的方法也未能带来有意义的性能提升。我们假设这种脆弱性主要源于偏好数据集的局限性,这些数据集通常范围狭窄、标签合成或缺乏严格的质量控制。为了解决这些挑战,我们提出了一个包含4000万偏好对的大规模偏好数据集,名为SynPref-40M。为了实现大规模的数据整理,我们设计了一个人机协作的两阶段流程,利用了人类标注质量和人工智能可扩展性的互补优势。在这个流程中,人类提供经过验证的标注,而大型语言模型根据人类指导进行自动整理。在这种偏好混合数据上进行训练,我们推出了Skywork-Reward-V2,这是一套由8个奖励模型组成的系列,参数规模从6亿到80亿不等,训练于从SynPref-40M中精心挑选的2600万偏好对子集。我们证明了Skywork-Reward-V2在广泛的能力范围内具有多功能性,包括与人类偏好的对齐、客观正确性、安全性、对风格偏见的抵抗力以及最佳N缩放,在七个主要奖励模型基准上实现了最先进的性能。消融研究证实,我们方法的有效性不仅来自于数据规模,还来自于高质量的整理。Skywork-Reward-V2系列代表了开源奖励模型的重大进展,突显了现有偏好数据集的未开发潜力,并展示了人机整理协作如何释放显著更高的数据质量。

[14] 基于注意力深度学习的临床自然语言处理用于多疾病预测
标题: Clinical NLP with Attention-Based Deep Learning for Multi-Disease Prediction
作者: Ting Xu / Xiaoxiao Deng / Xiandong Meng / Haifeng Yang / Yan Wu
原文:   [英文]  
备注: None
摘要:
本文针对电子健康记录文本的非结构化特性和高维语义复杂性所带来的挑战,提出了一种基于注意力机制的深度学习方法,以实现信息提取和多标签疾病预测的统一建模。研究在MIMIC-IV数据集上进行。采用基于Transformer的架构对临床文本进行表示学习。多层自注意力机制用于捕捉关键医学实体及其上下文关系。然后应用基于Sigmoid的多标签分类器来预测多个疾病标签。该模型结合了上下文感知的语义对齐机制,增强了其在标签共现和信息稀疏等典型医疗场景中的表示能力。为了全面评估模型性能,进行了一系列实验,包括基线比较、超参数敏感性分析、数据扰动研究和噪声注入测试。结果表明,所提出的方法在多个性能指标上始终优于现有的代表性方法。模型在不同数据规模、干扰水平和模型深度配置下保持了强大的泛化能力。本研究开发的框架为处理真实世界的临床文本提供了高效的算法基础,并在多标签医学文本建模任务中具有实际意义。

[15] LogitSpec:通过下一个下一个标记推测加速基于检索的推测解码
标题: LogitSpec: Accelerating Retrieval-based Speculative Decoding via Next Next Token Speculation
作者: Tianyu Liu / Qitan Lv / Hao Li / Xing Gao / Xiao Sun
原文:   [英文]   [中文]  
备注: None
摘要:
推测解码(SD)是一种有前途的技术,用于加速大型语言模型(LLM)的推理过程。在这种技术中,使用一个小的草稿模型提前提出草稿标记,然后目标模型并行验证这些标记。许多改进SD的努力在于消除对草稿模型的需求,并通过基于检索的方式生成草稿标记,以进一步减轻草稿的开销,并显著降低部署和应用的难度。然而,基于检索的SD依赖于一种匹配范式来检索最相关的参考作为草稿标记,这些方法往往无法找到匹配且准确的草稿标记。为了解决这一挑战,我们提出了LogitSpec,以有效扩展检索范围并找到最相关的参考作为草稿。我们的LogitSpec的动机来自于观察到最后一个标记的logit不仅可以预测下一个标记,还可以推测下下一个标记。具体来说,LogitSpec通过两个步骤生成草稿标记:(1)利用最后一个logit推测下下一个标记;(2)为下一个标记和下下一个标记检索相关的参考。LogitSpec无需训练且即插即用,可以轻松集成到现有的LLM推理框架中。广泛的文本生成基准测试实验表明,LogitSpec可以实现高达2.61倍的加速和每个解码步骤3.28个平均接受标记。我们的代码可在此https URL获取。

[16] 评估直接偏好优化在为智力障碍者个性化德语自动文本简化中的有效性
标题: Evaluating the Effectiveness of Direct Preference Optimization for Personalizing German Automatic Text Simplifications for Persons with Intellectual Disabilities
作者: Yingqiang Gao / Kaede Johnson / David Froehlich / Luisa Carrer / Sarah Ebling
原文:   [英文]   [中文]  
备注: None
摘要:
自动文本简化(ATS)旨在提高各种目标群体的语言可及性,特别是智力障碍人士。生成式人工智能的最新进展,尤其是大型语言模型(LLMs),大大提高了机器生成文本简化的质量,从而减轻了目标群体的信息障碍。然而,现有基于LLM的ATS系统在训练过程中未纳入对文本简化的偏好反馈,导致缺乏针对目标群体代表特定需求的个性化定制。 在这项工作中,我们通过利用一种计算效率高的LLM对齐技术——直接偏好优化(DPO),扩展了标准的监督微调(SFT)方法,以适应基于LLM的ATS模型。具体而言,我们使用从智力障碍人士收集的人类反馈对基于LLM的ATS模型进行后训练,这些反馈反映了他们对主流LLM生成的成对文本简化的偏好。此外,我们提出了一种开发个性化基于LLM的ATS系统的流程,包括数据收集、模型选择、SFT和DPO后训练以及评估。我们的研究结果强调了目标群体人员积极参与设计符合人类期望的个性化AI可及性解决方案的必要性。这项工作代表了在目标群体层面个性化包容性AI系统的一步,不仅结合了文本简化专家的见解,还结合了目标群体人员自身的见解。

[17] 通过不确定性驱动的大型语言模型路由实现对话系统中高效的超出范围检测
标题: Efficient Out-of-Scope Detection in Dialogue Systems via Uncertainty-Driven LLM Routing
作者: Álvaro Zaera / Diana Nicoleta Popa / Ivan Sekulic / Paolo Rosso
原文:   [英文]   [中文]  
备注: None
摘要:
在任务导向对话系统(TODS)中,检测超出范围(OOS)的意图是一个关键挑战,因为这确保了系统对未见过的和模糊查询的鲁棒性。在这项工作中,我们提出了一种新颖而简单的模块化框架,该框架结合了不确定性建模和微调的大型语言模型(LLMs),以实现高效且准确的OOS检测。第一步是对当前部署在真实世界TODS中的范围内意图检测分类器的输出应用不确定性估计,该系统每天处理数万个用户交互。第二步则利用一种新兴的基于LLM的方法,在不确定性高的实例中触发微调的LLM做出最终决策。与之前的方法不同,我们的方法有效地平衡了计算效率和性能,将传统方法与LLM结合,在关键的OOS检测基准上,包括从已部署的TODS中获取的真实世界OOS数据,取得了最先进的结果。

[18] 外部信息对使用大型语言模型进行立场检测有用吗?
标题: Is External Information Useful for Stance Detection with LLMs?
作者: Quang Minh Nguyen / Taegyoon Kim
原文:   [英文]   [中文]  
备注: ACL Findings 2025
摘要:
在立场检测任务中,文本被分类为对某个目标持支持、反对或中立态度。先前的研究表明,使用外部信息(例如,来自维基百科的摘录)可以提高立场检测的性能。然而,尽管大型语言模型(LLMs)在许多推理任务中被广泛采用,但这种信息是否能对其产生益处仍是一个未解的问题。在本研究中,我们系统地评估了维基百科和网络搜索的外部信息如何影响八个大型语言模型在三个数据集(包含12个目标)上的立场检测。令人惊讶的是,我们发现这种信息在大多数情况下会降低性能,宏观F1分数最多下降27.9%。通过实验,我们解释了这一现象,显示出大型语言模型倾向于将其预测与所提供信息的立场和情感对齐,而不是给定文本的真实立场。我们还发现,即使使用链式思维提示,性能下降仍然存在,而微调可以缓解但不能完全消除这种情况。我们的研究结果与先前关于基于BERT的系统的文献相反,后者表明外部信息可以提高性能,这突显了在基于大型语言模型的立场分类器中信息偏差的风险。代码可在此https URL获取。

[19] 情感智能任务导向对话系统:架构、表示与优化
标题: Emotionally Intelligent Task-oriented Dialogue Systems: Architecture, Representation, and Optimisation
作者: Shutong Feng / Hsien-chin Lin / Nurul Lubis / Carel van Niekerk / Michael Heck / Benjamin Ruppik / Renato Vukovic / Milica Gašić
原文:   [英文]   [中文]  
备注: 19 pages, 6 figures
摘要:
面向任务的对话(ToD)系统旨在通过自然语言交互帮助用户实现特定目标。尽管最近在大型语言模型(LLM)方面的进展显著提高了语言流畅性和上下文理解能力,构建有效且具备情感智能的ToD系统仍然是一个复杂的挑战。有效的ToD系统必须在固有嘈杂和模糊的对话环境中优化任务成功率、情感理解与响应能力以及信息传递的准确性。在这项工作中,我们研究了ToD系统的架构、表示、优化以及情感方面的考量。我们建立了涵盖这些设计考量的系统,并在一个具有挑战性的评估环境中进行测试,该环境由一个自然语言用户模拟器和一个不完美的自然语言理解模块组成。我们提出了\textbf{LUSTER},一个基于\textbf{L}LM的\textbf{U}nified \textbf{S}ystem for \textbf{T}ask-oriented dialogue,采用端到端的\textbf{E}nd-to-end \textbf{R}einforcement learning,结合短期(用户情感)和长期(任务成功)奖励。我们的研究结果表明,将LLM的能力与结构化奖励建模相结合,可以构建出更具弹性和情感响应能力的ToD系统,为下一代对话代理提供了一条切实可行的发展路径。

[20] 从真实世界的分析叙述中进行图表问答
标题: Chart Question Answering from Real-World Analytical Narratives
作者: Maeve Hutchinson / Radu Jianu / Aidan Slingsby / Jo Wood / Pranava Madhyastha
原文:   [英文]  
备注: This paper has been accepted to the ACL Student Research Workshop (SRW) 2025
摘要:
我们介绍了一个新的图表问答(CQA)数据集,该数据集是从可视化笔记本中构建的。该数据集具有真实世界的多视图图表,并配有基于分析叙述的自然语言问题。与之前的基准不同,我们的数据反映了生态有效的推理工作流程。对最先进的多模态大型语言模型进行基准测试显示出显著的性能差距,其中GPT-4.1的准确率为69.3%,这突显了这一更真实的CQA环境所带来的挑战。

[21] 自然语言处理评估中全局和成对评分的置信度与稳定性
标题: Confidence and Stability of Global and Pairwise Scores in NLP Evaluation
作者: Georgii Levtsov / Dmitry Ustalov
原文:   [英文]   [中文]  
备注: 8 pages, accepted at ACL SRW 2025
摘要:
随着高性能指令调优神经语言模型的出现,自然语言处理(NLP)中的基准测试正逐渐从传统的全局点式评分(例如,GLUE、BIG-bench、SWE-bench)转向成对比较排行榜,如LMSYS Arena。本文通过实证研究探讨了全局评分和成对比较的优缺点,以帮助在选择适当的模型评估策略时做出决策。通过对合成和真实世界数据集进行计算实验,使用标准全局指标和流行的Bradley-Terry模型进行成对比较,我们发现虽然全局评分提供了更可靠的整体排名,但它可能低估了具有罕见重大错误或低置信度的强模型。相反,成对比较在识别全局评分较低的模型中的强竞争者时特别有效,尤其是在质量指标难以定义的情况下(例如,文本生成),尽管如果平局频繁,它们需要更多的比较才能收敛。我们的代码和数据在这个https URL上以宽松的许可提供。

[22] 将语言模型适应于印度尼西亚地方语言:零样本设置下语言可迁移性的实证研究
标题: Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings
作者: Rifki Afina Putri
原文:   [英文]   [中文]  
备注: AMLDS 2025
摘要:
在本文中,我们通过情感分析任务研究了预训练语言模型向低资源印尼地方语言的可迁移性。我们在十种地方语言上评估了零样本性能和基于适配器的迁移,使用了不同类型的模型:单语印尼BERT、多语种模型如mBERT和XLM-R,以及一种称为MAD-X的模块化适配器方法。为了更好地理解模型行为,我们将目标语言分为三类:已见(在预训练中包含)、部分已见(未包含但在语言上与已见语言相关)和未见(在预训练数据中缺失且无关)。我们的结果揭示了这些组之间明显的性能差异:多语种模型在已见语言上表现最佳,在部分已见语言上表现中等,而在未见语言上表现较差。我们发现MAD-X显著提高了性能,特别是在已见和部分已见语言上,而不需要目标语言的标注数据。此外,我们对分词进行了进一步分析,显示虽然子词碎片化和与印尼语的词汇重叠与预测质量的相关性较弱,但它们并不能完全解释观察到的性能。相反,迁移成功的最一致预测因素是模型对语言的先前曝光,无论是直接的还是通过相关语言的。

[23] AdamMeme:自适应探测多模态大型语言模型在有害性方面的推理能力
标题: AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness
作者: Zixin Chen / Hongzhan Lin / Kaixin Li / Ziyang Luo / Zhen Ye / Guang Chen / Zhiyong Huang / Jing Ma
原文:   [英文]  
备注: ACL 2025
摘要:
在社交媒体时代,多模态表情包的激增要求多模态大语言模型(mLLMs)能够有效理解表情包的有害性。现有的评估mLLMs对有害表情包理解的基准依赖于使用静态数据集的基于准确性的、与模型无关的评估。这些基准在提供最新和全面的评估方面能力有限,因为在线表情包是动态演变的。为了解决这个问题,我们提出了AdamMeme,一个灵活的、基于代理的评估框架,该框架能够自适应地探测mLLMs在解读表情包有害性方面的推理能力。通过多代理协作,AdamMeme通过迭代更新具有挑战性的样本的表情包数据,提供全面的评估,从而揭示mLLMs在解释有害性方面的具体局限性。大量实验表明,我们的框架系统地揭示了不同目标mLLMs的性能差异,提供了对模型特定弱点的深入、细粒度分析。我们的代码可在此https URL获取。

[24] 将刻板印象检测作为增强偏见检测的催化剂:一种多任务学习方法
标题: Stereotype Detection as a Catalyst for Enhanced Bias Detection: A Multi-Task Learning Approach
作者: Aditya Tomar / Rudra Murthy / Pushpak Bhattacharyya
原文:   [英文]   [中文]  
备注: None
摘要:
语言模型中的偏见和刻板印象可能会造成伤害,尤其是在内容审核和决策等敏感领域。本文通过探讨如何联合学习这些任务来提高模型性能,解决偏见和刻板印象检测问题。我们引入了StereoBias,这是一个独特的数据集,标注了五个类别的偏见和刻板印象检测:宗教、性别、社会经济地位、种族、职业及其他,从而能够更深入地研究它们之间的关系。我们的实验比较了仅编码器模型和使用QLoRA微调的仅解码器模型。虽然仅编码器模型表现良好,但仅解码器模型也显示出具有竞争力的结果。关键是,与单独训练相比,联合训练偏见和刻板印象检测显著提高了偏见检测的效果。通过情感分析的附加实验证实,这些改进源于偏见和刻板印象之间的联系,而不仅仅是多任务学习。这些发现强调了利用刻板印象信息来构建更公平和更有效的人工智能系统的价值。

[25] 用于德国雇佣合同法律涵摄的大型语言模型
标题: LLMs for Legal Subsumption in German Employment Contracts
作者: Oliver Wardas / Florian Matthes
原文:   [英文]  
备注: PrePrint - ICAIL25, Chicago
摘要:
法律工作以其文本密集和资源密集的特性为特征,为自然语言处理(NLP)研究带来了独特的挑战和机遇。尽管数据驱动的方法推动了该领域的发展,但其缺乏可解释性和可信度限制了其在动态法律环境中的适用性。为了解决这些问题,我们与法律专家合作扩展了现有的数据集,并探索了使用大型语言模型(LLMs)和上下文学习来评估德国雇佣合同中条款合法性的方法。我们的工作评估了不同LLMs在三种法律背景变体下将条款分类为“有效”、“不公平”或“无效”的能力:无法律背景、法律和法院裁决的全文来源,以及这些的精简版本(称为审查指南)。结果表明,全文来源可以适度提高性能,而审查指南显著提高了无效条款的召回率和加权F1分数,达到80%。尽管有这些进展,使用全文来源时LLMs的性能仍显著低于人类律师。我们贡献了一个扩展的数据集,包括审查指南、参考法律来源和相应的注释,以及我们的代码和所有日志文件。我们的研究结果突显了LLMs在合同合法性审查中协助律师的潜力,同时也强调了所提出方法的局限性。

[26] 数据干扰:表情符号、同形异义字及语料库中的数据保真度问题及其结果
标题: Data interference: emojis, homoglyphs, and issues of data fidelity in corpora and their results
作者: Matteo Di Cristofaro
原文:   [英文]  
备注: Author submitted manuscript
摘要:
分词——“将文本拆分为原子部分的过程”(Brezina & Timperley, 2017: 1)——是语料库语言学中的一个关键步骤,因为它为任何适用的定量方法(例如搭配)提供了基础,同时确保定性方法的可靠性。本文探讨了分词差异如何影响语言数据的表示及分析结果的有效性:研究了表情符号和同形异义字带来的挑战,强调了预处理这些元素以保持语料库对源数据的忠实性的重要性。研究提出了确保数字文本在语料库中准确表示的方法,从而支持可靠的语言分析并保证语言解释的可重复性。研究结果强调了对数字文本数据中涉及的语言和技术方面的详细理解的必要性,以提高语料库分析的准确性,并对基于语料库的研究中的定量和定性方法具有重要意义。

[27] MuRating:一种用于多语言大型语言模型预训练的高质量数据选择方法
标题: MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining
作者: Zhixun Chen / Ping Guo / Wenhan Han / Yifan Zhang / Binbin Liu / Haobin Lin / Fengze Liu / Yan Zhao / Bingni Zhang / Taifeng Wang / Yin Zheng / Meng Fang
原文:   [英文]   [中文]  
备注: None
摘要:
数据质量是大型语言模型性能的关键驱动因素,但现有的基于模型的选择方法几乎完全专注于英语。我们引入了MuRating,这是一种可扩展的框架,可以将高质量的英语数据质量信号转移到17种目标语言的单一评分器中。MuRating通过成对比较聚合多个英语“评分器”,以学习统一的文档质量评分,然后通过翻译投射这些判断,以训练一个在单语、跨语言和平行文本对上的多语言评估器。应用于网络数据,MuRating选择平衡的英语和多语言内容子集,以预训练一个1.2B参数的LLaMA模型。与包括QuRater、AskLLM、DCLM等强基线相比,我们的方法提高了英语基准和多语言评估的平均准确性,尤其是在知识密集型任务上取得了显著的提升。我们进一步分析了翻译保真度、选择偏差和叙述材料的代表性不足,概述了未来工作的方向。

[28] 探究语言模型的评估意识
标题: Probing Evaluation Awareness of Language Models
作者: Jord Nguyen / Khiem Hoang / Carlo Leonardo Attubato / Felix Hofstätter
原文:   [英文]   [中文]  
备注: Technical AI Governance Workshop, ICML (Poster)
摘要:
语言模型能够区分测试阶段和部署阶段——这种能力被称为评估意识。这对安全性和政策有重要影响,可能会削弱在人工智能治理框架和行业自愿承诺中至关重要的评估的可靠性。在本文中,我们研究了Llama-3.3-70B-Instruct的评估意识。我们展示了线性探测器可以区分真实世界的评估和部署提示,这表明当前模型在内部表示了这种区别。我们还发现,当前的安全评估被探测器正确分类,这表明它们对模型来说已经显得人为或不真实。我们的研究结果强调了确保可信评估和理解欺骗能力的重要性。更广泛地说,我们的工作展示了如何利用模型内部结构来支持安全审计中的黑箱方法,特别是对于未来在评估意识和欺骗方面更有能力的模型。

[29] 视觉-语言模型如何处理跨模态的冲突信息?
标题: How Do Vision-Language Models Process Conflicting Information Across Modalities?
作者: Tianze Hua / Tian Yun / Ellie Pavlick
原文:   [英文]   [中文]  
备注: All code and resources are available at: this https URL
摘要:
人工智能模型越来越需要具备多模态能力,将不同的输入流整合成一个连贯的状态表示,以此为基础进行后续的行为和动作。本论文旨在理解当输入流呈现出相互矛盾的信息时,这些模型的表现如何。我们特别关注视觉-语言模型,提供不一致的输入(例如,一张狗的图片配上“这是一张猫的照片”的说明),并要求模型报告特定模态中的信息(例如,“说明中说了什么/图片中有什么?”)。我们发现,模型通常会偏向某一模态,例如,无论说明中说了什么,都会报告图片中的信息,但不同的模型在偏向哪个模态上有所不同。我们发现,行为上偏好的模态在模型的内部表示结构中是显而易见的,特定的注意力头可以重构表示以偏向某一模态。此外,我们发现了模态无关的“路由头”,它们似乎促进了关于指令中请求的模态的回答,并且可以被操控或转移,以提高跨数据集和模态的性能。总体而言,这项工作为识别和控制模型在复杂多模态环境中如何检测和解决冲突信号提供了重要步骤。

[30] 证据解剖:可解释的ICD编码研究
标题: The Anatomy of Evidence: An Investigation Into Explainable ICD Coding
作者: Katharina Beckh / Elisa Studeny / Sujan Sai Gannamaneni / Dario Antweiler / Stefan Rüping
原文:   [英文]   [中文]  
备注: Accepted to ACL 2025 Findings
摘要:
自动化医疗编码有潜力简化文档和计费流程。在这一任务中,透明性对医疗编码员和监管机构来说起着重要作用,这可以通过可解释性方法来实现。然而,由于缺乏标注数据,这些方法的评估大多局限于短文本和二元设置。Cheng等人(2023年)的最新工作引入了MDACE数据集,该数据集提供了包含临床记录中代码证据的宝贵资源。在这项工作中,我们对MDACE数据集进行了深入分析,并从应用的角度对当前可解释的医疗编码系统进行了合理性评估。通过这些工作,我们对自动化医疗编码和证据提取有了更深入的理解。我们的研究结果表明,真实证据在一定程度上与代码描述一致。对最先进方法的调查显示,与真实证据有很高的重叠。我们提出了匹配度量,并强调了成功和失败的案例。基于我们的研究结果,我们为开发和评估可解释的医疗编码系统提供了建议。

[31] 评估小型语言模型在临床笔记中进行开放属性-值提取的结构化输出鲁棒性
标题: Evaluating Structured Output Robustness of Small Language Models for Open Attribute-Value Extraction from Clinical Notes
作者: Nikita Neveditsin / Pawan Lingras / Vijay Mago
原文:   [英文]   [中文]  
备注: To appear in the ACL Anthology
摘要:
我们对小型语言模型生成的结构化输出在临床笔记中进行开放属性-值提取的可解析性进行了比较分析。我们评估了三种广泛使用的序列化格式:JSON、YAML 和 XML,发现 JSON 始终具有最高的可解析性。通过有针对性的提示和更大的模型,结构的稳健性得到了提高,但在处理较长的文档和某些类型的笔记时则有所下降。我们的错误分析识别出了一些特定格式的常见失败模式。这些发现为在隐私敏感的临床环境中部署语言模型时选择序列化格式和设计提示提供了实用指导。

[32] 低困惑度大语言模型生成序列及其来源
标题: Low-Perplexity LLM-Generated Sequences and Where To Find Them
作者: Arthur Wuhrmann / Anastasiia Kucherenko / Andrei Kucharavy
原文:   [英文]   [中文]  
备注: Camera-ready version. Accepted to ACL 2025. 10 pages, 4 figures, 6 tables
摘要:
随着大型语言模型(LLMs)的日益普及,了解特定训练数据如何影响其输出对于透明性、责任性、隐私和公平性至关重要。为了探索LLMs如何利用和复制其训练数据,我们引入了一种系统化的方法,重点分析低困惑度序列——由模型生成的高概率文本片段。我们的流程能够可靠地提取跨越不同主题的长序列,同时避免退化,然后将它们追溯到训练数据中的来源。令人惊讶的是,我们发现相当一部分这些低困惑度片段无法映射到语料库中。对于那些能够匹配的片段,我们量化了其在源文档中的出现分布,突出了逐字回忆的范围和性质,并为更好地理解LLMs的训练数据如何影响其行为铺平了道路。

[33] Eka-Eval:印度语言大规模语言模型的综合评估框架
标题: Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages
作者: Samridhi Raj Sinha / Rajvee Sheth / Abhishek Upperwal / Mayank Singh
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)的快速发展加剧了对评估框架的需求,这些框架不仅限于英语为中心的基准,还要满足如印度等语言多样化地区的需求。我们推出了EKA-EVAL,这是一个统一且可投入生产的评估框架,集成了超过35个基准,包括10个印度特定的数据集,涵盖推理、数学、工具使用、长文本理解和阅读理解等类别。与现有的印度语言评估工具相比,EKA-EVAL提供了更广泛的基准覆盖,内置支持分布式推理、量化和多GPU使用。我们的系统比较表明,EKA-EVAL是第一个为全球和印度大型语言模型量身定制的端到端、可扩展的评估套件,大大降低了多语言基准测试的门槛。该框架是开源的,并可在此https URL eka-eval公开获取,是正在进行的EKA计划(此https URL)的一部分,该计划旨在扩展到超过100个基准,并为大型语言模型建立一个强大的多语言评估生态系统。

[34] DIY-MKG:一种基于LLM的多语言学习系统
标题: DIY-MKG: An LLM-Based Polyglot Language Learning System
作者: Kenan Tang / Yanhong Li / Yao Qin
原文:   [英文]   [中文]  
备注: Submitted to EMNLP 2025 System Demonstration
摘要:
现有的语言学习工具,即使是由大型语言模型(LLMs)驱动的工具,通常也缺乏对多语言学习者在多种语言词汇之间建立语言联系的支持,提供的个性化定制以适应个人学习进度或需求也有限,并且存在有害的认知卸载问题。为了解决这些限制,我们设计了一个名为“自制多语言知识图谱”(DIY-MKG)的开源系统,以支持多语言学习。DIY-MKG 允许用户构建个性化的词汇知识图谱,这些图谱通过 LLM 提供的相关词汇的选择性扩展来构建。该系统通过丰富的注释功能和利用 LLM 进行动态、个性化测验生成的自适应复习模块进一步增强学习。此外,DIY-MKG 允许用户标记不正确的测验问题,从而同时提高用户参与度并提供一个用于提示改进的反馈循环。我们对 DIY-MKG 中基于 LLM 的组件的评估表明,词汇扩展在多种语言中是可靠和公平的,生成的测验具有高度准确性,验证了 DIY-MKG 的稳健性。

[35] MiCoTA:通过中间链式思维和助教弥合可学习性差距
标题: MiCoTA: Bridging the Learnability Gap with Intermediate CoT and Teacher Assistants
作者: Dongyi Ding / Tiannan Wang / Chenghao Zhu / Meiling Tao / Yuchen Eleanor Jiang / Wangchunshu Zhou
原文:   [英文]   [中文]  
备注: Work in progress
摘要:
大型语言模型(LLMs)在需要长思维序列进行规划、反思和改进的推理任务中表现出色。然而,其庞大的模型规模和高计算需求使得广泛部署变得不切实际。然而,小型语言模型(SLMs)由于其有限的容量,往往难以学习长形式的链式推理(CoT),我们称之为“SLMs可学习性差距”。为了解决这个问题,我们引入了\textbf{Mi}d-\textbf{Co}T \textbf{T}eacher \textbf{A}ssistant Distillation(MiCoTAl),这是一个用于改进SLMs长链式推理蒸馏的框架。MiCoTA使用中等规模的模型作为教师助手,并利用中等长度的链式推理序列来弥合容量和推理长度的差距。我们在下游任务上的实验表明,尽管从大型教师模型蒸馏的小型语言模型表现可能不佳,但通过应用MiCoTA,它们在推理性能上取得了显著的提升。具体来说,Qwen2.5-7B-Instruct和Qwen2.5-3B-Instruct在AIME2024、AMC、奥林匹克、MATH-500和GSM8K基准测试上的平均得分分别提高了3.47和3.93。为了更好地理解MiCoTA背后的机制,我们进行了定量实验,证明我们的方法生成的数据与基础SLM分布更为一致。我们的见解为未来关于SLMs长链式推理数据蒸馏的研究铺平了道路。

[36] 高层注意力剪枝与重缩放
标题: High-Layer Attention Pruning with Rescaling
作者: Songtao Liu / Peng Liu
原文:   [英文]   [中文]  
备注: None
摘要:
剪枝是一种非常有效的压缩大型语言模型(LLMs)的方法,可以显著减少推理延迟。然而,传统的无训练结构化剪枝方法通常使用启发式指标,在所有剪枝层中不加区分地移除一些注意力头,而不考虑它们在网络架构中的位置。在这项工作中,我们提出了一种新颖的剪枝算法,策略性地剪除模型高层的注意力头。由于移除注意力头可能改变标记表示的幅度,我们引入了一个自适应重缩放参数,在剪枝后校准表示的尺度以抵消这一影响。我们在广泛的LLMs上进行了全面的实验,包括LLaMA3.1-8B、Mistral-7B-v0.3、Qwen2-7B和Gemma2-9B。我们的评估涵盖了27个数据集上的生成和判别任务。结果一致表明,我们的方法优于现有的结构化剪枝方法。这种改进在生成任务中尤为显著,我们的方法显著优于现有的基线。

[37] AI4Research:人工智能在科学研究中的应用综述
标题: AI4Research: A Survey of Artificial Intelligence for Scientific Research
作者: Qiguang Chen / Mingda Yang / Libo Qin / Jinhao Liu / Zheng Yan / Jiannan Guan / Dengyun Peng / Yiyan Ji / Hanjing Li / Mengkang Hu / Yimeng Zhang / Yihao Liang / Yuhang Zhou / Jiaqi Wang / Zhi Chen / Wanxiang Che
原文:   [英文]   [中文]  
备注: Preprint
摘要:
最近在人工智能(AI)领域的进展,特别是在大型语言模型(LLMs)如OpenAI-o1和DeepSeek-R1方面,展示了其在逻辑推理和实验编码等复杂领域的显著能力。受这些进展的启发,许多研究探索了AI在创新过程中的应用,特别是在科学研究的背景下。这些AI技术主要旨在开发能够在广泛的科学学科中自主进行研究过程的系统。尽管取得了显著进展,但关于研究用人工智能(AI4Research)的全面综述仍然缺失,这阻碍了我们对该领域的理解和进一步发展。为了解决这一空白,我们提出了一份全面的综述,并提供了对AI4Research的统一视角。具体而言,我们工作的主要贡献如下:(1)系统分类:我们首先引入一个系统的分类法来对AI4Research中的五个主流任务进行分类。(2)新前沿:然后,我们识别出关键的研究空白,并强调未来有前景的方向,重点关注自动化实验的严谨性和可扩展性,以及社会影响。(3)丰富的应用和资源:最后,我们汇编了丰富的资源,包括相关的多学科应用、数据语料库和工具。我们希望我们的工作能为研究界提供快速获取这些资源的途径,并激发AI4Research中的创新突破。

[38] 梯度自适应策略优化:迈向大型语言模型的多目标对齐
标题: Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models
作者: Chengao Li / Hanyu Zhang / Yunkun Xu / Hongyan Xue / Xiang Ao / Qing He
原文:   [英文]   [中文]  
备注: 19 pages, 3 figures. Accepted by ACL 2025 (main)
摘要:
从人类反馈中进行强化学习(RLHF)已成为将大型语言模型(LLMs)与人类偏好对齐的一种强大技术。然而,有效地将LLMs与多样化的人类偏好对齐仍然是一个重大挑战,特别是在这些偏好存在冲突时。为了解决这个问题,我们将人类价值对齐视为一个多目标优化问题,旨在最大化一组可能存在冲突的目标。我们引入了梯度自适应策略优化(GAPO),这是一种新颖的微调范式,采用多梯度下降来使LLMs与多样化的偏好分布对齐。GAPO自适应地重新调整每个目标的梯度,以确定一种更新方向,从而在目标之间的权衡中实现最佳平衡。此外,我们引入了P-GAPO,它结合了用户在不同目标上的偏好,并实现了更好地与用户特定需求对齐的帕累托解。我们的理论分析表明,GAPO在多个目标上收敛于帕累托最优解。在Mistral-7B上的实证结果显示,GAPO优于当前的最先进方法,在有用性和无害性方面均表现出色。

[39] 自然思维:选择和提炼推理轨迹以用于一般推理任务
标题: NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks
作者: Yang Li / Youssef Emad / Karthik Padthe / Jack Lanchantin / Weizhe Yuan / Thao Nguyen / Jason Weston / Shang-Wen Li / Dong Wang / Ilia Kulikov / Xian Li
原文:   [英文]   [中文]  
备注: None
摘要:
最近的研究表明,通过监督微调从较大的教师模型中提取推理轨迹,比仅使用较小的学生模型进行强化学习效果更好(Guo 等,2025)。然而,目前尚未系统地研究从教师模型中提取哪种类型的推理示例最能有效提高学生模型的推理能力。在这项工作中,我们通过从强大的教师模型中选择推理轨迹,基于来自 NaturalReasoning(Yuan 等,2025)的大量问题,策划出高质量的“自然思维”。我们首先对影响推理能力提取的因素进行了系统分析,重点在于样本效率和通用推理任务的可扩展性。我们观察到,简单地通过随机采样扩大数据规模是一个强有力的基线,能够带来稳定的性能提升。此外,我们发现选择需要更多多样化推理策略的困难示例在传递教师模型的推理技能方面更具样本效率。在 Llama 和 Qwen 模型上的评估表明,使用自然思维进行训练在通用 STEM 推理基准测试(包括 GPQA-Diamond、MMLU-Pro 和 SuperGPQA)中优于现有的推理数据集,如 OpenThoughts、LIMO 等。

[40] 面向决策的文本评估
标题: Decision-oriented Text Evaluation
作者: Yu-Shiang Huang / Chuan-Ju Wang / Chung-Chi Chen
原文:   [英文]   [中文]  
备注: None
摘要:
自然语言生成(NLG)在高风险领域的应用日益增多,但常见的内在评估方法,如n-gram重叠或句子合理性,与实际决策效能的相关性较弱。我们提出了一种面向决策的框架,通过直接测量生成文本对人类和大型语言模型(LLM)决策结果的影响来评估其效果。以市场摘要文本——包括客观的晨间总结和主观的收盘分析——作为测试案例,我们根据仅由这些文本提供信息的人类投资者和自主LLM代理执行交易的财务表现来评估决策质量。我们的研究发现,当仅依赖于摘要时,无论是人类还是LLM代理都无法持续超越随机表现。然而,更丰富的分析性评论使得人类与LLM团队的协作能够显著超越单独的人类或代理基线。我们的方法强调了通过生成文本促进人类与LLM之间协同决策的重要性,并突出了传统内在指标的关键局限性。

[41] ASR模型在低资源语言上的适应性:Whisper和Wav2Vec-BERT在孟加拉语上的比较研究
标题: Adaptability of ASR Models on Low-Resource Language: A Comparative Study of Whisper and Wav2Vec-BERT on Bangla
作者: Md Sazzadul Islam Ridoy / Sumi Akter / Md. Aminur Rahman
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,训练于大型多语言文本和语音数据集的神经模型在支持低资源语言方面展现了巨大潜力。本研究调查了两种最先进的自动语音识别(ASR)模型在孟加拉语(一种低资源语言)上的表现,这两种模型分别是OpenAI的Whisper(Small和Large-V2)和Facebook的Wav2Vec-BERT。我们使用了两个公开可用的数据集:Mozilla Common Voice-17和OpenSLR,来评估模型的表现。通过系统的微调和超参数优化,包括学习率、训练轮数和模型检查点选择,我们基于词错误率(WER)、字符错误率(CER)、训练时间和计算效率对模型进行了比较。Wav2Vec-BERT模型在所有关键评估指标上均优于Whisper,表现出卓越的性能,同时需要更少的计算资源,并为在低资源语言环境中开发强大的语音识别系统提供了宝贵的见解。

[42] 大型语言模型中理解与说服之间的细微界限
标题: The Thin Line Between Comprehension and Persuasion in LLMs
作者: Adrian de Wynter / Tangming Yuan
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在保持高水平、令人信服的对话方面表现出色。它们正迅速被部署为聊天机器人和评估者,应用于同行评审和心理健康等敏感领域。这种情况,加上关于其推理能力的不同说法,促使我们需要更仔细地审视LLMs及其对对话的理解。在这项工作中,我们首先评估了LLMs维持辩论的能力——辩论是人类交流中最纯粹但最复杂的形式之一。然后,我们衡量这种能力与它们对谈话内容的理解之间的关系,即它们对对话结构和语用背景的理解。我们发现,LLMs能够维持连贯且有说服力的辩论,常常能够影响参与者和观众的信念。我们还注意到,人们对AI参与的意识或怀疑会促使他们对所提出的论点更加批判。然而,当询问LLMs对对话深层结构的理解时,它们无法展示出这种理解。我们的研究结果将LLMs作为评估者的不足之处与其理解上下文的(不)能力联系起来。更广泛地说,对于论证理论领域,我们认为,如果一个代理能够令人信服地维持对话,它不必知道自己在谈论什么。因此,语用背景和连贯性的建模相对于有效性来说是次要的。