![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年7月24日更新论文30篇
|
[1] 用于抽取式内容选择任务的统一方案 标题: A Unifying Scheme for Extractive Content Selection Tasks 作者: Shmuel Amar / Ori Shapira / Aviv Slobodkin / Ido Dagan 原文: [英文] [中文] 备注: None 摘要: 许多自然语言处理(NLP)任务涉及从给定的源文本中选择相关的文本片段。尽管这些任务有着共同的目标,但这种\textit{内容选择}任务传统上是孤立研究的,每个任务都有其独特的建模方法、数据集和评估指标。在这项工作中,我们提出了\textit{指导性内容选择(IGCS)},作为一种有益的统一框架,在这种框架下,任务定义和任何特定实例的请求都被封装为对语言模型的指令。为了推广这一框架,我们引入了\igcsbench{},这是第一个涵盖多样化内容选择任务的统一基准。此外,我们创建了一个大型通用的合成数据集,可以用于多种内容选择任务,并展示了使用这些数据集进行迁移学习通常可以提高性能,无论是否有针对目标任务的专门训练。最后,我们解决了基于大型语言模型(LLM)的内容选择建模中出现的通用推理时间问题,评估了一种通用的评估指标,并总体上提出了我们资源和方法对未来内容选择模型的实用性。模型和数据集可在此https URL获取。 |
[2] 基于人工智能的初级保健临床决策支持:一项真实世界研究 标题: AI-based Clinical Decision Support for Primary Care: A Real-World Study 作者: Robert Korom / Sarah Kiptinness / Najib Adan / Kassim Said / Catherine Ithuli / Oliver Rotich / Boniface Kimani / Irene King'ori / Stellah Kamau / Elizabeth Atemba / Muna Aden / Preston Bowman / Michael Sharman / Rebecca Soskin Hicks / Rebecca Distler / Johannes Heidecke / Rahul K. Arora / Karan Singhal 原文: [英文] [中文] 备注: Blog: this https URL 摘要: 我们评估了基于大型语言模型的临床决策支持在实际医疗中的影响。我们与位于肯尼亚内罗毕的初级保健诊所网络 Penda Health 合作,研究了 AI Consult 这一工具。该工具通过识别潜在的文档和临床决策错误,为临床医生提供安全保障。AI Consult 集成到临床医生的工作流程中,仅在需要时激活,并保留临床医生的自主权。我们进行了一项质量改进研究,比较了 15 家诊所中有或没有 AI Consult 访问权限的临床医生进行的 39,849 次患者就诊的结果。独立医生对就诊进行了评分,以识别临床错误。拥有 AI Consult 访问权限的临床医生相对较少犯错:诊断错误减少了 16%,治疗错误减少了 13%。从绝对值来看,仅在 Penda,每年引入 AI Consult 可以避免 22,000 次就诊中的诊断错误和 29,000 次就诊中的治疗错误。在对使用 AI Consult 的临床医生进行的调查中,所有临床医生都表示 AI Consult 提高了他们提供的护理质量,其中 75% 的人表示效果“显著”。这些结果需要与临床工作流程对齐的 AI Consult 实施和积极部署以鼓励临床医生的使用。我们希望这项研究能展示基于大型语言模型的临床决策支持工具在现实环境中减少错误的潜力,并提供推进负责任采用的实用框架。 |
[3] 利用强化学习与人类反馈在大型语言模型中实现稳健的不可回答性识别和可信的响应生成 标题: Harnessing RLHF for Robust Unanswerability Recognition and Trustworthy Response Generation in LLMs 作者: Shuyuan Lin / Lei Duan / Philip Hughes / Yuxuan Sheng 原文: [英文] [中文] 备注: None 摘要: 会话信息检索(CIR)系统虽然提供了直观的信息访问,但面临一个重大挑战:可靠地处理无法回答的问题,以防止生成误导性或幻觉内容。传统方法通常依赖外部分类器,这可能导致与核心生成型大型语言模型(LLMs)之间的不一致。本文介绍了一种新颖的方法——自我感知LLM不可回答性(SALU),它将不可回答性检测深度集成到LLM的生成过程中。SALU通过多任务学习框架进行训练,既用于标准问答(QA),也用于对不可回答查询生成明确的弃权。关键在于,它结合了信心评分引导的强化学习与人类反馈(RLHF)阶段,明确惩罚幻觉响应并奖励适当的弃权,促进对知识边界的内在自我意识。通过在我们自建的C-IR_Answerability数据集上的广泛实验,SALU在正确回答或弃权问题的整体准确性上始终优于强大的基线,包括混合LLM-分类器系统。人工评估进一步证实了SALU的卓越可靠性,在事实性、适当弃权方面取得了高分,最重要的是显著减少了幻觉,展示了其在“知道何时说‘我不知道’”方面的强大能力。 |
[4] 文本到SPARQL超越英语:通过人类启发的推理实现多语言知识图谱问答 标题: Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning 作者: Aleksandr Perevalov / Andreas Both 原文: [英文] [中文] 备注: During the final evaluation on the DBpedia- and Corporate-based KGQA benchmarks within the Text2SPARQL challenge 2025, our approach took first place among the other participants 摘要: 通过多语言自然语言界面访问知识是信息检索及相关领域的新兴挑战之一。存储在知识图谱中的结构化知识可以通过特定的查询语言(例如,SPARQL)进行查询。因此,需要将自然语言输入转换为查询以满足信息需求。先前的方法主要集中在结合解决下游任务的组件(例如,基于规则或基于神经网络的),并最终得出答案。我们介绍了mKGQAgent,这是一种受人类启发的框架,将自然语言问题转换为SPARQL查询的任务分解为模块化、可解释的子任务。通过利用协调的LLM代理工作流进行规划、实体链接和查询优化,并由经验池指导的上下文学习,mKGQAgent能够高效处理多语言知识图谱问答。在Text2SPARQL挑战赛2025的基于DBpedia和企业的知识图谱问答基准上进行评估,我们的方法在所有参与者中获得了第一名。这项工作为开发多语言语义解析中的类人推理系统开辟了新的途径。 |
[5] 利用合成数据和多语言大型语言模型在农业领域进行问答 标题: Leveraging Synthetic Data for Question Answering with Multilingual LLMs in the Agricultural Domain 作者: Rishemjit Kaur / Arshdeep Singh Bhankhar / Surangika Ranathunga / Jashanpreet Singh Salh / Sudhir Rajput / Vidhi / Kashish Mahendra / Bhavika Berwal / Ritesh Kumar 原文: [英文] [中文] 备注: 15 pages, 9 tables, Appendix A-K 摘要: 让农民能够及时以他们的母语获取准确的农业相关信息,对于农业领域的成功至关重要。尽管大型语言模型(LLMs)可以用于实现问答系统,但在农业中简单地使用公开可用的通用大型语言模型通常只能提供通用建议,由于缺乏领域特定的训练和高质量、区域特定数据集的稀缺性,在本地和多语言环境中缺乏精确性。我们的研究通过从农业特定文档中生成多语言合成农业数据集(英语、印地语、旁遮普语)并对特定语言的LLMs进行微调来解决这些限制。我们在精心策划的多语言数据集上的评估表明,与基线模型相比,微调模型在事实准确性、相关性和农业共识方面有显著改善。这些结果突显了以合成数据驱动的、特定语言的微调作为提高LLMs在农业中表现的有效策略,特别是在多语言和资源匮乏的环境中。通过提供更准确和本地化的农业咨询服务,这项研究为弥合多语言社区中AI驱动的农业解决方案的知识差距提供了有意义的一步。 |
[6] 被遮蔽但未被抹去:通过基于姓名的偏见基准评估大型语言模型中的国籍偏见 标题: Obscured but Not Erased: Evaluating Nationality Bias in LLMs via Name-Based Bias Benchmarks 作者: Giulio Pelosio / Devesh Batra / Noémie Bovey / Robert Hankache / Cristovao Iglesias / Greig Cowan / Raad Khraishi 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)即使在没有明确的人口统计标记的情况下,也可能对特定国籍表现出潜在偏见。在这项工作中,我们引入了一种新颖的基于姓名的基准测试方法,该方法源自偏见问答基准(BBQ)数据集,以研究用文化指示性姓名替代明确国籍标签的影响,这种情况更能反映真实世界中LLM的应用。我们的新方法考察了这种替代如何影响来自行业领导者如OpenAI、Google和Anthropic的各种LLM的偏见程度和准确性。我们的实验表明,小型模型的准确性较低,偏见较大,与其较大的模型相比。例如,在我们的基于姓名的数据集和模糊背景(正确选择未揭示)中,Claude Haiku表现出最严重的刻板偏见得分为9%,而其较大的模型Claude Sonnet仅为3.5%,后者在准确性上也超出前者117.7%。此外,我们发现小型模型在这些模糊背景中保留了更多现有错误。例如,在用姓名替代明确国籍参考后,GPT-4o保留了68%的错误率,而GPT-4o-mini则为76%,其他模型提供商也有类似发现。在模糊背景中。我们的研究强调了LLM中偏见的顽固性,突显了其对在多样化、全球化背景下开发和部署AI系统的深远影响。 |
[7] 使用生成式人工智能模型进行多标签分类在医疗保健中的应用:以自杀倾向及风险因素为例 标题: Multi-Label Classification with Generative AI Models in Healthcare: A Case Study of Suicidality and Risk Factors 作者: Ming Huang / Zehan Li / Yan Hu / Wanjing Wang / Andrew Wen / Scott Lane / Salih Selek / Lokesh Shahani / Rodrigo Machado-Vieira / Jair Soares / Hua Xu / Hongfang Liu 原文: [英文] 备注: None 摘要: 自杀仍然是一个紧迫的全球健康危机,每年有超过72万人死亡,数百万人受到自杀意念(SI)和自杀尝试(SA)的影响。早期识别与自杀相关的因素(SrFs),包括SI、SA、接触自杀(ES)和非自杀性自伤(NSSI),对于及时干预至关重要。虽然之前的研究已经应用人工智能来检测临床笔记中的SrFs,但大多数将自杀行为视为一个二元分类任务,忽略了共现风险因素的复杂性。本研究探讨了使用生成型大型语言模型(LLMs),特别是GPT-3.5和GPT-4.5,从精神科电子健康记录(EHRs)中进行多标签分类(MLC)的方法。我们提出了一种新颖的端到端生成型MLC流程,并引入了先进的评估方法,包括标签集级别指标和用于错误分析的多标签混淆矩阵。经过微调的GPT-3.5实现了0.94的部分匹配准确率和0.91的F1分数,而使用引导提示的GPT-4.5在标签集上表现出色,包括稀有或少数标签集,表明其表现更加平衡和稳健。我们的研究揭示了系统性错误模式,例如SI和SA的混淆,并强调了模型倾向于谨慎过度标记。此项工作不仅展示了使用生成型AI进行复杂临床分类任务的可行性,还提供了一个结构化非结构化EHR数据的蓝图,以支持大规模临床研究和循证医学。 |
[8] 外部验证工具能否提高作为法官的LLM的注释质量? 标题: Can External Validation Tools Improve Annotation Quality for LLM-as-a-Judge? 作者: Arduin Findeis / Floris Weers / Guoli Yin / Ke Ye / Ruoming Pang / Tom Gunter 原文: [英文] [中文] 备注: Accepted at ACL 2025 摘要: 成对的模型响应偏好广泛用于评估和反馈大型语言模型(LLMs)。给定对同一输入的两个备选模型响应,人类或AI标注者选择“更好”的响应。这种方法可以为其他难以获得硬编码指标的领域(例如聊天响应质量)提供反馈,从而帮助模型评估或训练。然而,对于某些领域,高质量的成对比较可能难以从AI和人类那里获得。例如,对于包含许多事实陈述的响应,标注者可能会过度关注写作质量而非基础事实。在这项工作中,我们探索通过附加工具增强标准AI标注系统,以提高在三个具有挑战性的响应领域的性能:长篇事实、数学和代码任务。我们提出了一种使用工具的代理系统,以在这些领域提供更高质量的反馈。我们的系统使用网络搜索和代码执行来基于外部验证进行定位,独立于LLM的内部知识和偏见。我们提供了广泛的实验结果,评估我们的方法在三个目标响应领域以及一般标注任务中的表现,使用RewardBench(包括AlpacaEval和LLMBar)、RewardMath,以及三个用于数据集饱和领域的新数据集。我们的结果表明,外部工具确实可以在许多情况下提高性能,但并非所有情况都如此。更普遍地说,我们的实验强调了性能对简单参数(例如提示)的敏感性以及改进(非饱和)标注基准的需求。我们在此分享我们的代码:https URL。 |
[9] 用于NLP嵌入的二进制表示的进化特征阈值化 标题: Evolutionary Feature-wise Thresholding for Binary Representation of NLP Embeddings 作者: Soumen Sinha / Shahryar Rahnamayan / Azam Asilian Bidgoli 原文: [英文] 备注: None 摘要: 高效的文本嵌入对于大规模自然语言处理(NLP)应用至关重要,其中存储和计算效率是关键问题。在本文中,我们探讨了如何使用二进制表示(条形码)代替实值特征来进行从机器学习模型(如BERT)中获得的NLP嵌入。阈值化是一种将连续嵌入转换为二进制表示的常用方法,通常在所有特征上使用固定阈值。我们提出了一种基于坐标搜索的优化框架,该框架识别每个特征的最佳阈值,证明了特定于特征的阈值在二进制编码中能提高性能。这确保了二进制表示既准确又高效,从而增强了在各种特征上的性能。我们的最佳条形码表示在各种NLP应用中显示出良好的效果,展示了其改变文本表示的潜力。我们在不同的NLP任务和数据集上进行了广泛的实验和统计测试,以评估我们的方法并与其他阈值化方法进行比较。使用我们的方法找到的最佳阈值生成的二进制嵌入在准确性上优于传统的二值化方法。这种生成二进制表示的技术具有多功能性,可以应用于任何特征,不仅限于NLP嵌入,使其在机器学习应用的广泛领域中都很有用。 |
[10] CogDual:通过隐式规则奖励的强化学习增强大型语言模型的双重认知 标题: CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards 作者: Cheng Liu / Yifei Lu / Fanghua Ye / Jian Li / Xingyu Chen / Feiliang Ren / Zhaopeng Tu / Xiaolong Li 原文: [英文] [中文] 备注: None 摘要: 角色扮演语言代理(RPLAs)已成为大型语言模型(LLMs)的一个重要应用方向。现有的方法通常依赖于提示工程或监督微调,使模型能够在特定场景中模仿角色行为,但往往忽视了驱动这些行为的潜在\emph{认知}机制。受认知心理学的启发,我们引入了\textbf{CogDual},这是一种采用\textit{认知后响应}推理范式的新型RPLA。通过联合建模外部情境意识和内部自我意识,CogDual生成的响应在角色一致性和上下文对齐方面得到了改进。为了进一步优化性能,我们采用了强化学习,并设计了两种通用的奖励机制用于开放域文本生成。在CoSER基准测试以及Cross-MR和LifeChoice上的大量实验表明,CogDual始终优于现有的基线,并能有效地推广到各种角色扮演任务中。 |
[11] SKA-Bench:用于评估大型语言模型结构化知识理解的细粒度基准 标题: SKA-Bench: A Fine-Grained Benchmark for Evaluating Structured Knowledge Understanding of LLMs 作者: Zhiqiang Liu / Enpei Niu / Yin Hua / Mengshu Sun / Lei Liang / Huajun Chen / Wen Zhang 原文: [英文] [中文] 备注: None 摘要: 尽管大型语言模型(LLMs)在理解结构化知识(SK)如知识图谱(KG)和表格方面取得了显著进展,但现有的SK理解评估并不严格(即缺乏对特定能力的评估),且仅关注单一类型的SK。因此,我们旨在提出一个更全面和严格的结构化知识理解基准,以诊断LLMs的不足。在本文中,我们介绍了SKA-Bench,一个结构化知识增强的问答基准,涵盖了四种广泛使用的结构化知识形式:KG、表格、KG+文本和表格+文本。我们使用三阶段流程来构建SKA-Bench实例,其中包括一个问题、一个答案、正面知识单元和噪声知识单元。为了以细粒度的方式评估LLMs的SK理解能力,我们将实例扩展为四个基本能力测试平台:噪声鲁棒性、顺序不敏感性、信息整合和负面拒绝。对包括先进的DeepSeek-R1在内的8个代表性LLMs的实证评估表明,现有的LLMs在理解结构化知识方面仍面临重大挑战,其性能受噪声量、知识单元顺序和幻觉现象等因素的影响。我们的数据集和代码可在此https URL获取。 |
[12] FinGAIA:用于评估金融领域人工智能代理的端到端基准 标题: FinGAIA: An End-to-End Benchmark for Evaluating AI Agents in Finance 作者: Lingfeng Zeng / Fangqi Lou / Zixuan Wang / Jiajie Xu / Jinyi Niu / Mengping Li / Yifan Dong / Qi Qi / Wei Zhang / Ziwei Yang / Jun Han / Ruilun Feng / Ruiqi Hu / Lejie Zhang / Zhengbo Feng / Yicheng Ren / Xin Guo / Zhaowei Liu / Dongpo Cheng / Weige Cai / Liwen Zhang 原文: [英文] [中文] 备注: None 摘要: 人工智能代理的蓬勃发展为在各个领域自动化复杂任务提供了前所未有的机会。然而,它们在金融领域的多步骤、多工具协作能力仍未得到充分探索。本文介绍了FinGAIA,这是一种端到端的基准,旨在评估人工智能代理在金融领域的实际能力。FinGAIA包含407个精心设计的任务,涵盖七个主要金融子领域:证券、基金、银行、保险、期货、信托和资产管理。这些任务被组织成三个层次的场景深度:基础业务分析、资产决策支持和战略风险管理。我们在零样本设置下评估了10个主流人工智能代理。表现最好的代理ChatGPT取得了48.9%的总体准确率,虽然优于非专业人士,但仍落后于金融专家超过35个百分点。错误分析揭示了五种反复出现的失败模式:跨模态对齐缺陷、金融术语偏见、操作流程意识障碍等。这些模式指出了未来研究的关键方向。我们的工作提供了第一个与金融领域密切相关的代理基准,旨在客观评估和促进该关键领域中代理的发展。部分数据可在此https URL获取。 |
[13] 多元道德差距:理解人类与大型语言模型之间的判断和价值差异 标题: The Pluralistic Moral Gap: Understanding Judgment and Value Differences between Humans and Large Language Models 作者: Giuseppe Russo / Debora Nozza / Paul Röttger / Dirk Hovy 原文: [英文] [中文] 备注: 13 pages, 4 figures 摘要: 人们越来越依赖大型语言模型(LLMs)来获得道德建议,这可能会影响人类的决策。然而,对于LLMs与人类道德判断的契合程度知之甚少。为了解决这个问题,我们引入了道德困境数据集,这是一个包含1,618个真实世界道德困境的基准数据集,并配有人类道德判断的分布,包括二元评估和自由文本的理由。我们将这个问题视为一个多元分布对齐任务,比较LLM和人类在困境中的判断分布。我们发现,模型仅在高共识的情况下才能再现人类判断;当人类分歧增加时,对齐度急剧下降。同时,使用从3,783个理由中提取的60个价值分类,我们显示LLMs依赖于比人类更狭窄的道德价值集。这些发现揭示了一个多元道德差距:在表达的价值分布和多样性上存在不匹配。为缩小这一差距,我们引入了动态道德分析(DMP),这是一种基于狄利克雷采样的方法,以人类衍生的价值概况为条件生成模型输出。DMP将对齐度提高了64.3%,并增强了价值多样性,向着提供更具多元性和人类契合的LLM道德指导迈出了一步。 |
[14] CLARIFID:通过强化临床准确的印象和加强详细的发现来改进放射学报告生成 标题: CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings 作者: Kyeongkyu Lee / Seonghwan Yoon / Hongki Lim 原文: [英文] [中文] 备注: None 摘要: 放射学报告的自动生成有潜力减轻放射科医生的巨大工作负担,但当前的方法在提供临床上可靠的结论方面仍然存在困难。特别是,大多数先前的方法专注于生成流畅的文本,而未能有效确保报告的事实正确性,并且通常依赖于单视图图像,限制了诊断的全面性。我们提出了CLARIFID,这是一种新颖的框架,通过模拟专家的两步工作流程直接优化诊断的正确性。具体来说,CLARIFID (1) 通过章节感知的预训练学习从“发现”到“印象”的逻辑流程,(2) 使用邻近策略优化进行微调,其中“印象”部分的CheXbert F1分数作为奖励,(3) 强制执行推理感知的解码,先完成“发现”再综合“印象”,(4) 通过基于视觉变换器的多视图编码器融合多个胸部X光视图。在推理过程中,我们应用推理感知的下一个标记强制策略,随后进行报告级别的重新排序,确保模型首先生成全面的“发现”部分,然后再综合“印象”,从而保持连贯的临床推理。在MIMIC-CXR数据集上的实验结果表明,我们的方法在临床效能上表现优越,并在标准自然语言生成指标和临床感知评分上均优于现有的基线。 |
[15] Triple X:一种基于大型语言模型的多语言语音识别系统,用于INTERSPEECH2025 MLC-SLM挑战赛 标题: Triple X: A LLM-Based Multilingual Speech Recognition System for the INTERSPEECH2025 MLC-SLM Challenge 作者: Miaomiao Gao / Xiaoxiao Xiang / Yiwen Guo 原文: [英文] [中文] 备注: None 摘要: 本文介绍了我们提交给多语言会话语音语言建模(MLC-SLM)挑战任务1的Triple X语音识别系统。我们的工作重点是在多语言会话场景中通过创新的编码器-适配器-大型语言模型架构优化语音识别的准确性。该框架利用了基于文本的大型语言模型的强大推理能力,同时结合了特定领域的适应性。为了进一步提升多语言识别性能,我们采用了精心设计的多阶段训练策略,利用了广泛的多语言音频数据集。实验结果表明,我们的方法在开发集和测试集上实现了具有竞争力的词错误率(WER)性能,在挑战排名中获得了第二名。 |
[16] 数百万个$\text{GeAR}$:将GraphRAG扩展到数百万份文档 标题: Millions of $\text{GeAR}$-s: Extending GraphRAG to Millions of Documents 作者: Zhili Shen / Chenxin Diao / Pascual Merita / Pavlos Vougiouklis / Jeff Z. Pan 原文: [英文] [中文] 备注: Accepted by SIGIR 2025 LiveRAG Challenge Program 摘要: 最近的研究探索了基于图的检索增强生成方法,利用从文档中提取的结构化或半结构化信息——例如实体及其关系——来增强检索。然而,这些方法通常是为解决特定任务而设计的,例如多跳问答和面向查询的摘要,因此在更广泛的数据集上其通用适用性证据有限。在本文中,我们旨在改进一个最先进的基于图的检索增强生成解决方案:$\text{GeAR}$,并探索其在SIGIR 2025 LiveRAG挑战赛中的性能和局限性。 |
[17] 探讨论证力度的主观因素:讲故事、情感和模糊处理 标题: Investigating Subjective Factors of Argument Strength: Storytelling, Emotions, and Hedging 作者: Carlotta Quensel / Neele Falk / Gabriella Lapesa 原文: [英文] [中文] 备注: Accepted to the 12th Workshop on Argument Mining (ArgMining) 2025 摘要: 在评估论证强度时,关于什么构成一个好的论证的概念是多种多样的。随着在自然语言处理(NLP)领域中将主观性视为一种资产而非问题的趋势,论证质量的新维度被研究。尽管关于个人故事等个体主观特征的研究存在,但缺乏对这些特征与论证强度之间关系的大规模分析。为了解决这一空白,我们进行了回归分析,以量化主观因素——情感、讲故事和模糊表达——对两个标准数据集(分别标注了客观论证质量和主观说服力)的影响。因此,我们的贡献有两个方面:在资源贡献层面,由于没有数据集标注了所有研究的维度,本研究比较和评估了每个主观特征的自动标注方法。在新见解层面,我们的回归分析揭示了主观特征对数据集中编码的论证强度两个方面的不同影响模式。我们的结果显示,讲故事和模糊表达对客观和主观论证质量有相反的影响,而情感的影响取决于其修辞运用而非领域。 |
[18] 各取所需:探索RAG中的最佳嵌入 标题: Each to Their Own: Exploring the Optimal Embedding in RAG 作者: Shiting Chen / Zijian Zhao / Jinsong Chen 原文: [英文] [中文] 备注: None 摘要: 近年来,随着大型语言模型(LLMs)对各个领域产生了根本性的影响,将最新信息整合到LLMs中或添加外部知识以构建特定领域模型的方法受到了广泛关注。检索增强生成(RAG)作为一种推理时的扩展方法,以其低成本和最小的参数调整努力而引人注目。然而,由于异质的训练数据和模型架构,RAG中使用的不同嵌入模型在各个领域表现出不同的优势,常常导致不同的相似性计算结果,从而导致LLMs的响应质量不同。为了解决这个问题,我们提出并研究了两种通过结合多种嵌入模型的优势来增强RAG的方法,分别命名为混合嵌入RAG和自信RAG。混合嵌入RAG简单地根据标准化相似性对来自多个嵌入模型的检索结果进行排序和选择;然而,它并未优于原始RAG。相比之下,自信RAG使用不同的嵌入模型多次生成响应,然后选择置信度最高的响应,显示出比原始LLMs和RAG分别约10%和5%的平均改进。在不同的LLMs和嵌入模型中取得的一致结果表明,自信RAG是一种适用于各种领域的高效即插即用方法。我们将在发表时公开我们的代码。 |
[19] MultiNRC:用于大型语言模型的具有挑战性和本地化的多语言推理评估基准 标题: MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs 作者: Alexander R. Fabbri / Diego Mares / Jorge Flores / Meher Mankikar / Ernesto Hernandez / Dean Lee / Bing Liu / Chen Xing 原文: [英文] [中文] 备注: None 摘要: 尽管最近的大型语言模型(LLMs)在英语推理基准测试中表现出快速的进步,但对这些LLMs在多种语言和文化背景下的多语言推理能力的评估仍然有限。现有的多语言推理基准通常通过翻译现有的英语推理基准构建,这使得这些基准偏向于具有英语语言/文化背景的推理问题。在这项工作中,我们引入了多语言本地推理挑战(MultiNRC),这是一个基准,旨在评估LLMs在由法语、西班牙语和中文母语者编写的超过1000个本地、语言和文化背景的推理问题上的表现。MultiNRC涵盖了四个核心推理类别:语言特定的语言推理、文字游戏和谜语、文化/传统推理以及具有文化相关性的数学推理。对于文化/传统推理和具有文化相关性的数学推理,我们还通过精通英语的母语者手动翻译提供了多语言问题的英语等效翻译。这组英语等效问题可以直接比较LLM在其他语言与英语上的推理能力。我们系统地评估了当前14个主要LLM家族在MultiNRC及其英语等效集上的表现。结果表明:(1)当前的LLM在本地多语言推理方面仍然表现不佳,没有一个在MultiNRC上得分超过50%;(2)LLM在处理语言、文化和逻辑推理任务时表现出不同的优势和劣势;(3)大多数模型在英语中的数学推理表现明显优于原始语言(+10%),这表明在文化背景知识方面仍然存在挑战。 |
[20] Seed LiveInterpret 2.0:端到端的实时语音到语音翻译,使用您的声音 标题: Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice 作者: Shanbo Cheng / Yu Bao / Zhichao Huang / Yu Lu / Ningxin Peng / Lu Xu / Runsheng Yu / Rong Cao / Ting Han / Zeyang Li / Sitong Liu / Shengtao Ma / Shiguang Pan / Jiongchen Xiao / Nuo Xu / Meng Yang / Rong Ye / Yiming Yu / Ruofei Zhang / Wanyi Zhang / Wenhao Zhu / Liehao Zou / Lu Lu / Yuxuan Wang / Yonghui Wu 原文: [英文] [中文] 备注: Seed-LiveInterpret 2.0 Technical Report 摘要: 同声传译(SI)是翻译行业中最具挑战性的前沿领域之一,长期以来,产品级自动系统一直受到难以解决的挑战困扰:转录和翻译质量不佳、缺乏实时语音生成、多说话者混淆以及翻译语音膨胀,尤其是在长篇演讲中。在本研究中,我们介绍了Seed-LiveInterpret 2.0,这是一种端到端的SI模型,能够实现高保真、超低延迟的语音到语音生成,并具备语音克隆功能。作为一个完全可操作的产品级解决方案,Seed-LiveInterpret 2.0通过我们新颖的双工语音理解生成框架,直接应对这些挑战。实验结果表明,通过大规模的预训练和强化学习,该模型在翻译准确性和延迟之间实现了显著更好的平衡,并通过人类译员验证,在复杂场景中超过70%的正确率。值得注意的是,Seed-LiveInterpret 2.0在翻译质量上大幅超越了商业SI解决方案,同时将克隆语音的平均延迟从近10秒减少到接近实时的3秒,约减少了70%,极大地提高了实际可用性。 |
[21] 用于非洲语言自动语音识别的合成语音数据 标题: Synthetic Voice Data for Automatic Speech Recognition in African Languages 作者: Brian DeRenzi / Anna Dixon / Mohamed Aymane Farhi / Christian Resch 原文: [英文] [中文] 备注: 29 pages incl. appendix, 8 tables, 5 figures. Authors are listed in alphabetical order 摘要: 语音技术对于非洲超过2300种语言中的大多数仍然遥不可及。我们首次对非洲自动语音识别(ASR)的大规模合成语音语料库进行了系统评估。我们应用了一个三步流程:由大型语言模型(LLM)驱动的文本创建、文本到语音(TTS)合成以及ASR微调。在我们创建合成文本的十种语言中,有八种语言的可读性得分超过了7分中的5分。我们评估了三种语言(豪萨语、Dholuo语、Chichewa语)的ASR改进,并以不到真实数据1%的成本创建了超过2500小时的合成语音数据。经过微调的Wav2Vec-BERT-2.0模型在250小时真实数据和250小时合成豪萨语数据上训练,其表现与仅使用500小时真实数据的基线相当,而579小时真实数据和450小时到993小时合成数据创造了最佳性能。我们还进行了性别分解的ASR性能评估。对于资源极其匮乏的语言,收益各异:Chichewa语的词错误率(WER)在1:2的真实与合成数据比例下相对改善了约6.5%;Dholuo语在1:1的比例下在某些评估数据上显示了类似的改进,但在其他数据上则没有。对编码员间信度、ASR错误和评估数据集的调查揭示了需要更健全的审查协议和更准确的评估数据。所有数据和模型均已公开发布,以邀请进一步的工作来改善非洲语言的合成数据。 |
[22] 基于空间对齐解码(SPADE)的大型语言模型混合早退出算法 标题: A Hybrid Early-Exit Algorithm for Large Language Models Based on Space Alignment Decoding (SPADE) 作者: Bowen Zheng / Ming Ma / Zhongqiao Lin / Tianming Yang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型由于其深层结构而计算成本高昂。先前的研究表明,中间层包含足够的信息来生成准确的答案,这促使了早退出算法的发展,通过在较早的层终止计算来降低推理成本。然而,这些方法通常由于中间层和输出层表示之间的不对齐而导致解码不准确,从而表现不佳。为了解决这些挑战,我们提出了SPADE(SPace Alignment DEcoding),这是一种新颖的解码方法,通过传播仅由起始标记和答案标记组成的最小化序列,将中间层表示与输出层对齐。我们进一步通过训练SPADE的线性近似来优化早退出决策过程,该近似计算基于熵的置信度指标。将这些结合在一起,我们创建了一种混合早退出算法,该算法监控置信度水平,并在中间层停止推理,同时使用SPADE生成高质量的输出。这种方法在不影响准确性的情况下显著降低了推理成本,为在实际应用中部署大型语言模型提供了一种可扩展且高效的解决方案。 |
[23] WSM:通过检查点合并实现大型语言模型预训练的无衰减学习率计划 标题: WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training 作者: Changxin Tian / Jiapeng Wang / Qian Zhao / Kunlong Chen / Jia Liu / Ziqi Liu / Jiaxin Mao / Wayne Xin Zhao / Zhiqiang Zhang / Jun Zhou 原文: [英文] [中文] 备注: None 摘要: 最近在学习率(LR)调度方面的进展表明,无衰减方法在消除传统衰减阶段的同时仍能保持竞争力的表现。模型合并技术在这一领域中显得尤为有前景。我们提出了Warmup-Stable and Merge(WSM),这是一个建立学习率衰减与模型合并之间正式联系的通用框架。WSM为模拟各种衰减策略(包括余弦衰减、线性衰减和反平方根衰减)作为有原则的模型平均方案提供了统一的理论基础,同时完全兼容多种优化方法。通过大量实验,我们发现合并持续时间(即检查点聚合的训练窗口)是影响模型性能的最关键因素,超过了检查点间隔和合并数量的重要性。我们的框架在多个基准测试中始终优于广泛采用的Warmup-Stable-Decay(WSD)方法,在MATH上提高了3.5%,在HumanEval上提高了2.9%,在MMLU-Pro上提高了5.5%。这种性能优势也延伸到有监督的微调场景,突显了WSM在长期模型优化中的潜力。 |
[24] 谁在攻击,为什么?使用大型语言模型识别19个国家中1800万条推文中的负面竞选活动 标题: Who Attacks, and Why? Using LLMs to Identify Negative Campaigning in 18M Tweets across 19 Countries 作者: Victor Hartman / Petter Törnberg 原文: [英文] [中文] 备注: None 摘要: 负面竞选是政治竞争的核心特征,但由于现有分类方法的高成本和有限的可扩展性,实证研究一直受到限制。本研究做出了两个关键贡献。首先,它引入了零样本大型语言模型(LLMs)作为跨语言负面竞选分类的新方法。通过使用十种语言的基准数据集,我们证明了LLMs的表现与以母语为基础的人类编码员相当,并且优于传统的监督机器学习方法。其次,我们利用这一新方法开展了迄今为止最大规模的跨国负面竞选研究,分析了2017年至2022年间19个欧洲国家的议员发布的1800万条推文。结果揭示了一致的跨国模式:执政党不太可能使用负面信息,而意识形态极端和民粹主义政党——特别是极右翼政党——则显著更倾向于使用负面信息。这些发现加深了我们对政党层面特征如何在多党制系统中塑造战略沟通的理解。更广泛地说,该研究展示了LLMs在跨语言和文化背景下实现可扩展、透明和可重复的政治传播研究的潜力。 |
[25] 迈向更大杠杆:高效专家混合语言模型的缩放法则 标题: Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models 作者: Changxin Tian / Kunlong Chen / Jia Liu / Ziqi Liu / Zhiqiang Zhang / Jun Zhou 原文: [英文] 备注: None 摘要: 专家混合(Mixture-of-Experts, MoE)架构通过将总参数与计算成本分离,已成为高效扩展大型语言模型(LLMs)的主流架构。然而,这种分离带来了一个关键挑战:预测给定MoE配置(例如,专家激活比例和粒度)的模型能力仍然是一个未解决的问题。为了解决这一问题,我们引入了效率杠杆(Efficiency Leverage, EL),这是一个量化MoE模型相对于等效密集模型的计算优势的指标。我们进行了大规模的实证研究,训练了超过300个模型,参数规模达到280亿,以系统地研究MoE架构配置与EL之间的关系。我们的研究结果表明,EL主要由专家激活比例和总计算预算驱动,两者都遵循可预测的幂律,而专家粒度则作为一个非线性调节器,具有明确的最佳范围。我们将这些发现整合到一个统一的缩放定律中,该定律可以根据MoE架构的配置准确预测其EL。为了验证我们推导出的缩放定律,我们设计并训练了Ling-mini-beta,这是Ling-2.0系列的试点模型,只有0.85B的活跃参数,同时还训练了一个6.1B的密集模型进行比较。在相同的1T高质量标记数据集上训练时,Ling-mini-beta在消耗超过7倍更少的计算资源的情况下,达到了6.1B密集模型的性能,从而验证了我们缩放定律的准确性。这项工作为高效MoE模型的扩展提供了一个有原则且基于实证的基础。 |
[26] TyDi QA-WANA:西亚和北非语言的信息检索问答基准 标题: TyDi QA-WANA: A Benchmark for Information-Seeking Question Answering in Languages of West Asia and North Africa 作者: Parker Riley / Siamak Shakeri / Waleed Ammar / Jonathan H. Clark 原文: [英文] [中文] 备注: None 摘要: 我们介绍了 TyDi QA-WANA,这是一个包含 28K 个例子的问答数据集,分布在西亚和北非的 10 种语言变体中。数据收集过程旨在引出信息寻求型问题,其中提问者是真正好奇想知道答案。每个问题都配有一整篇文章,该文章可能包含也可能不包含答案;文章相对较大的篇幅使得该任务适合于评估模型在回答问题时利用大文本上下文的能力。此外,数据是直接在每种语言变体中收集的,没有使用翻译,以避免文化相关性的问题。我们展示了两个基线模型的性能,并发布了我们的代码和数据,以促进研究界的进一步改进。 |
[27] 从反馈到清单:AI生成临床笔记的实证评估 标题: From Feedback to Checklists: Grounded Evaluation of AI-Generated Clinical Notes 作者: Karen Zhou / John Giorgi / Pranav Mani / Peng Xu / Davis Liang / Chenhao Tan 原文: [英文] [中文] 备注: None 摘要: AI生成的临床笔记在医疗保健中使用日益增多,但由于专家评审的高度主观性和有限的可扩展性,评估其质量仍然是一个挑战。现有的自动化指标往往无法与现实世界中医生的偏好保持一致。为了解决这个问题,我们提出了一种流程,系统地将真实用户反馈提炼为结构化的检查清单用于笔记评估。这些检查清单旨在可解释、基于人类反馈,并可由基于大型语言模型的评估者执行。利用来自一个已部署的AI医疗抄写系统的超过21,000次临床会诊的去识别数据,这些数据按照HIPAA安全港标准准备,我们展示了我们的反馈衍生检查清单在覆盖率、多样性和对人类评分的预测能力方面,在离线评估中优于基线方法。大量实验证实了该检查清单对质量下降扰动的鲁棒性,与临床医生偏好的显著一致性,以及作为评估方法的实际价值。在离线研究环境中,该检查清单可以帮助识别可能低于我们选择的质量阈值的笔记。 |
[28] AI电话调查:使用AI访谈员自动化定量数据收集 标题: AI Telephone Surveying: Automating Quantitative Data Collection with an AI Interviewer 作者: Danny D. Leybzon / Shreyas Tirumala / Nishant Jain / Summer Gillen / Michael Jackson / Cameron McPhee / Jennifer Schmidt 原文: [英文] [中文] 备注: None 摘要: 随着语音支持的人工智能(AI)系统的兴起,定量调查研究人员可以使用一种新的数据收集模式:AI电话调查。通过使用AI进行电话访谈,研究人员可以在实现类人互动性和方法学严谨性这两个目标之间取得平衡的同时,扩大定量研究的规模。与早期使用交互式语音响应(IVR)技术自动化这些调查的尝试不同,语音AI能够提供更自然和自适应的受访者体验,因为它对中断、纠正和人类语言的其他特性更具鲁棒性。 我们构建并测试了一个基于大型语言模型(LLM)、自动语音识别(ASR)和语音合成技术的AI系统来进行定量调查。该系统专为定量研究设计,严格遵循研究最佳实践,如问题顺序随机化、答案顺序随机化和精确措辞。 为验证系统的有效性,我们部署该系统在SSRS意见小组中进行两次试点调查,并随后进行了一次由人类主持的独立调查以评估受访者体验。我们测量了三个关键指标:调查完成率、中断率和受访者满意度评分。我们的结果表明,较短的调查工具和更具响应性的AI访谈员可能有助于改善所研究的所有三个指标。 |
[29] Megrez2 技术报告 标题: Megrez2 Technical Report 作者: Boxun Li / Yadong Li / Zhiyuan Li / Congyi Liu / Weilin Liu / Guowei Niu / Zheyue Tan / Haiyang Xu / Zhuyu Yao / Tao Yuan / Dong Zhou / Yueqing Zhuang / Bo Zhao / Guohao Dai / Yu Wang 原文: [英文] [中文] 备注: None 摘要: 我们介绍了Megrez2,这是一种新颖的轻量级高性能语言模型架构,专为设备本地部署优化。Megrez2引入了一种新颖的跨层专家共享机制,通过在相邻的Transformer层之间重用专家模块,显著减少了总参数数量,同时保持了大部分模型的能力。它还结合了预门控路由,实现了内存高效的专家加载和更快的推理。作为Megrez2架构的首次实例化,我们推出了Megrez2-Preview模型,该模型在一个5万亿标记的语料库上进行了预训练,并通过监督微调和具有可验证奖励的强化学习进一步增强。Megrez2-Preview仅激活3B参数,存储7.5B参数,在包括语言理解、指令执行、数学推理和代码生成在内的广泛任务上表现出与更大模型相当或更优的性能。这些结果突显了Megrez2架构在准确性、效率和可部署性之间实现平衡的有效性,使其成为现实世界资源受限应用的有力候选者。 |
[30] 在测试集上进行预训练不再是你所需要的一切:一种基于辩论的方法来处理问答基准 标题: Pretraining on the Test Set Is No Longer All You Need: A Debate-Driven Approach to QA Benchmarks 作者: Linbo Cao / Jinman Zhao 原文: [英文] [中文] 备注: 22 pages, 7 figures. Accepted to COLM 2025. Code available at: this http URL 摘要: 随着前沿语言模型在标准问答基准测试中逐渐饱和,数据污染、记忆化以及不断上升的数据集创建成本的问题依然存在。我们提出了一种以辩论为驱动的评估范式,将任何现有的问答数据集转化为结构化的对抗性辩论——其中一个模型被赋予官方答案进行辩护,另一个模型构建并辩护一个替代答案,由一个对正确答案不知情的评判模型进行裁决。通过强制多轮论证,这种方法在显著增加难度的同时惩罚浅层记忆化,但又能重复使用问答项目以减少策划开销。我们做出了两个主要贡献:(1)一个系统地将问答任务转换为基于辩论的评估的评估流程,以及(2)一个公共基准,展示了我们范式在MMLU-Pro问题子集上的有效性,配有标准化协议和参考模型。实证结果验证了该方法的稳健性及其对抗数据污染的有效性——一个在测试问题上微调的Llama 3.1模型显示出显著的准确性提升(50% -> 82%),但在辩论中表现较差。结果还表明,即使是较弱的评判者也能可靠地区分出更强的辩论者,突显了基于辩论的评估如何能够扩展到未来更强大的系统,同时保持创建新基准的一小部分成本。总体而言,我们的框架强调了“仅仅在测试集上进行预训练已不再是你所需要的一切”,为衡量高级语言模型的真实推理能力提供了一条可持续的路径。 |