scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CL方向,2025年6月13日更新论文59
[1] 关于文本、视觉和语音生成的自动评估方法综述
标题: A Survey of Automatic Evaluation Methods on Text, Visual and Speech Generations
作者: Tian Lan / Yang-Hao Zhou / Zi-Ao Ma / Fanshu Sun / Rui-Qing Sun / Junyu Luo / Rong-Cheng Tu / Heyan Huang / Chen Xu / Zhijing Wu / Xian-Ling Mao
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,深度学习的进步显著提升了生成式人工智能在文本、图像和音频方面的能力。然而,自动评估这些生成输出的质量仍然面临持续的挑战。尽管存在众多自动评估方法,但当前的研究缺乏一个系统的框架来全面组织这些方法在文本、视觉和音频模态中的应用。为了解决这个问题,我们对所有三种模态的生成内容的自动评估方法进行了全面回顾,并提出了一个统一的分类法。我们识别出五个基本范式,这些范式表征了现有评估方法在这些领域中的应用。我们的分析首先从文本生成的评估方法开始,因为这些技术最为成熟。然后,我们将这一框架扩展到图像和音频生成,展示其广泛的适用性。最后,我们讨论了跨模态评估方法未来研究的有前景方向。

[2] TaskCraft:代理任务的自动生成
标题: TaskCraft: Automated Generation of Agentic Tasks
作者: Dingfeng Shi / Jingyi Cao / Qianben Chen / Weichen Sun / Weizhen Li / Hongxuan Lu / Fangchen Dong / Tianrui Qin / King Zhu / Minghao Yang / Jian Yang / Ge Zhang / Jiaheng Liu / Changwang Zhang / Jun Wang / Yuchen Eleanor Jiang / Wangchunshu Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
代理任务需要通过自主性、工具使用和适应性推理进行多步骤问题解决,正在成为推动自然语言处理和人工智能进步的核心。然而,现有的指令数据缺乏工具交互,而当前的代理基准依赖于昂贵的人类标注,限制了其可扩展性。我们介绍了\textsc{TaskCraft},这是一种自动化工作流程,用于生成难度可调、多工具和可验证的代理任务,并附带执行轨迹。TaskCraft通过深度和广度扩展来扩展原子任务,以创建结构和层次复杂的挑战。实证结果表明,这些任务改善了生成工作流程中的提示优化,并增强了代理基础模型的监督微调。我们提供了一个大规模的合成数据集,包含约36,000个难度不同的任务,以支持未来关于代理调优和评估的研究。

[3] 用于自然语言处理的量子语义框架
标题: A quantum semantic framework for natural language processing
作者: Christopher J. Agostino / Quan Le Thien / Molly Apsel / Denizhan Pak / Elina Lesyk / Ashabari Majumdar
原文:   [英文]   [中文]  
备注: 12 pages, 2 figures, accepted submission to Quantum AI and NLP 2025
摘要:
语义退化是自然语言的一个基本属性,它不仅仅涉及简单的多义性,还包括随着语义表达复杂性增加而出现的潜在解释的组合爆炸。大型语言模型(LLMs)和其他现代自然语言处理系统面临固有的限制,正是因为它们在自然语言中运作,使其受到语义退化施加的相同解释约束。在这项工作中,我们使用Kolmogorov复杂性论证,随着表达的复杂性增加,任何解释代理(无论是人类还是由LLM驱动的AI)恢复单一预期意义的可能性消失。这种计算不可处理性表明传统观点认为语言形式本身具有意义是有缺陷的。我们提出,意义实际上是通过观察者依赖的解释行为实现的。为了验证这一点,我们使用不同的LLM代理作为“计算认知系统”进行语义贝尔不等式测试,以在不同的上下文设置下解释模糊词对。在几项独立实验中,我们发现平均CHSH期望值范围为1.2到2.8,其中几次运行产生的值(例如,2.3-2.4)显著违反了经典边界($|S|\leq2$)。这表明在模糊性下的语言解释可以表现出非经典的上下文性,与人类认知实验结果一致。这些结果固有地暗示了基于经典频率分析的方法对于自然语言来说必然是有损的。相反,我们建议贝叶斯风格的重复采样方法可以提供更实用和适当的语言意义的上下文表征。

[4] 思维聊天:生成领域特定信息的协作多代理系统
标题: Chat-of-Thought: Collaborative Multi-Agent System for Generating Domain Specific Information
作者: Christodoulos Constantinides / Shuxin Lin / Nianjun Zhou / Dhaval Patel
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了一种新型多智能体系统,称为“思维聊天”(Chat-of-Thought),旨在促进工业资产的失效模式与影响分析(FMEA)文档的生成。思维聊天系统利用多个基于大型语言模型(LLM)的协作代理,这些代理具有特定的角色,通过先进的人工智能技术和动态任务路由来优化FMEA表格的生成和验证。该系统的一个关键创新是引入了“思维聊天”,在这里,动态的、多角色驱动的讨论能够实现内容的迭代优化。该研究探讨了工业设备监控的应用领域,突出了关键挑战,并展示了思维聊天在通过互动的、模板驱动的工作流程和上下文感知的代理协作来应对这些挑战的潜力。

[5] 当意义保持不变,但模型漂移时:在大型语言模型中评估服务质量下的标记级行为不稳定性
标题: When Meaning Stays the Same, but Models Drift: Evaluating Quality of Service under Token-Level Behavioral Instability in LLMs
作者: Xiao Li / Joel Kreuzwieser / Alan Peters
原文:   [英文]   [中文]  
备注: This paper was developed for presentation at ICML 2025 Tokshop Workshop, but is now submitted as a standalone contribution
摘要:
我们研究了大型语言模型如何响应在词汇层面上有所不同但保持相同语义意图的提示,这种现象我们称之为提示变异。我们提出了基于提示的语义转移(PBSS),这是一个用于测量在语义等价的提示重述下大型语言模型行为漂移的诊断框架。应用于十个受限任务,PBSS揭示了一致的、特定于模型的响应变化,表明与分词和解码相关的统计规律。这些结果突出了在重述情况下模型评估稳定性被忽视的一个维度,并暗示分词策略和解码动态可能导致训练后服务质量的不稳定性。

[6] ChartReasoner:基于代码的模态桥接用于图表问答中的长链推理
标题: ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering
作者: Caijun Jia / Nan Xu / Jingxuan Wei / Qingli Wang / Lei Wang / Bihui Yu / Junnan Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,大型语言模型通过在回答前进行长链推理展示了显著的推理能力。然而,如何将这种能力扩展到视觉推理任务仍然是一个未解决的挑战。现有的多模态推理方法通过多次图像到文本的转换将视觉推理任务转化为文本推理任务,这通常会丢失嵌入在可视化中的关键结构和语义信息,尤其是对于像图表问答这样需要大量视觉细节的任务。为了解决这个问题,我们提出了ChartReasoner,这是一种代码驱动的新颖的两阶段框架,旨在实现对图表的精确、可解释的推理。我们首先训练一个高保真模型,将多样化的图表图像转换为结构化的ECharts代码,尽可能无损地保留布局和数据语义。然后,我们设计了一个通用的图表推理数据合成流程,该流程利用这个预训练的转换模型自动且大规模地生成图表推理轨迹,并使用代码验证器过滤掉低质量样本。最后,我们在合成的图表推理数据集上结合监督微调和强化学习训练最终的多模态模型。四个公共基准的实验结果清楚地表明了我们提出的ChartReasoner的有效性。它可以尽可能地保留图表的原始细节,并在使用更少参数的情况下,与最先进的开源模型表现相当,在域外设置中接近像GPT-4o这样的专有系统的性能。

[7] 无监督语言模型的引导
标题: Unsupervised Elicitation of Language Models
作者: Jiaxin Wen / Zachary Ankner / Arushi Somani / Peter Hase / Samuel Marks / Jacob Goldman-Wetzler / Linda Petrini / Henry Sleight / Collin Burns / He He / Shi Feng / Ethan Perez / Jan Leike
原文:   [英文]   [中文]  
备注: None
摘要:
为了引导预训练语言模型执行下游任务,当前的后训练范式依赖于人类来指定期望的行为。然而,对于具有超人能力的模型来说,获得高质量的人类监督是困难甚至不可能的。为了解决这一挑战,我们引入了一种新的无监督算法,称为内部一致性最大化(ICM),用于在模型自身生成的标签上微调预训练语言模型,\emph{无需外部监督}。在GSM8k验证、TruthfulQA和Alpaca奖励建模任务中,我们的方法与基于黄金监督的训练表现相当,并且优于基于众包人类监督的训练。在语言模型能力明显超越人类的任务中,我们的方法能够显著优于基于人类标签的训练来激发这些能力。最后,我们展示了我们的方法可以改进前沿语言模型的训练:我们使用我们的方法训练了一个无监督的奖励模型,并使用强化学习训练了一个基于Claude 3.5 Haiku的助手。无论是奖励模型还是助手都优于其人类监督的对应版本。

[8] 当大型语言模型在判断移情交流时是可靠的
标题: When Large Language Models are Reliable for Judging Empathic Communication
作者: Aakriti Kumar / Nalin Poungpeth / Diyi Yang / Erina Farrell / Bruce Lambert / Matthew Groh
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在生成文本对话中的移情反应方面表现出色。但是,它们在多大程度上能够可靠地判断移情交流的细微差别呢?我们通过比较专家、众包工人和LLMs在四个评估框架下对移情交流的标注来研究这个问题。这些框架来自心理学、自然语言处理和传播学,应用于200个真实对话中,其中一位说话者分享个人问题,另一位提供支持。通过3,150个专家标注、2,844个众包标注和3,150个LLM标注,我们评估了这三组标注者之间的评分一致性。我们发现,专家之间的一致性很高,但在框架的子组件中会因其清晰度、复杂性和主观性而有所不同。我们表明,与标准分类指标相比,专家一致性为LLM性能的背景化提供了更具信息量的基准。在所有四个框架中,LLMs始终接近这一专家级基准,并超过了众包工人的可靠性。这些结果表明,当在特定任务中使用适当的基准进行验证时,LLMs可以在情感敏感的应用中(包括作为对话伙伴的使用)支持透明性和监督。

[9] 使用机器学习和LIME分析孟加拉语社交媒体评论中的情感
标题: Analyzing Emotions in Bangla Social Media Comments Using Machine Learning and LIME
作者: Bidyarthi Paul / SM Musfiqur Rahman / Dipta Biswas / Md. Ziaul Hasan / Md. Zahid Hossain
原文:   [英文]   [中文]  
备注: None
摘要:
关于书面语言中情感理解的研究正在不断扩展,尤其是对于那些具有独特地区表达和文化特征的未充分研究的语言,如孟加拉语。本研究使用来自EmoNoBa数据集的22,698条社交媒体评论来进行情感分析。对于语言分析,我们采用了机器学习模型:线性支持向量机(Linear SVM)、K最近邻(KNN)和随机森林(Random Forest),并使用TF-IDF向量化器的n-gram数据。此外,我们还研究了主成分分析(PCA)如何影响维度的减少。此外,我们利用双向长短时记忆网络(BiLSTM)模型和AdaBoost来改进决策树。为了使我们的机器学习模型更易于理解,我们使用LIME来解释使用决策树的AdaBoost分类器的预测。为了推进资源有限语言的情感分析,我们的工作研究了各种技术,以寻找在孟加拉语中进行情感识别的有效方法。

[10] 衡量企业人力资本披露:词汇表、数据、代码和研究机会
标题: Measuring Corporate Human Capital Disclosures: Lexicon, Data, Code, and Research Opportunities
作者: Elizabeth Demers / Victor Xiaoqi Wang / Kean Wu
原文:   [英文]  
备注: 50 pages, 6 figures, 5 tables
摘要:
人力资本(HC)在企业价值创造中越来越重要。然而,与其他资产不同的是,目前人力资本尚未受到明确的测量或披露规则的约束。我们使用一种机器学习算法(word2vec),在一组已确认的人力资本披露上进行训练,以开发一个全面的人力资本相关关键词列表,并将其分类为五个子类别(多元化、公平和包容;健康与安全;劳动关系与文化;薪酬与福利;人口统计及其他),以捕捉人力资本管理的多维性质。我们分享了我们的词汇表、企业人力资本披露以及用于开发词汇表的Python代码,并提供了使用我们的数据和代码的详细示例,包括用于微调BERT模型。研究人员可以使用我们的人力资本词汇表(或修改代码以捕捉其他感兴趣的构造)与他们的企业通信样本一起解决相关的人力资本问题。最后,我们讨论了与人力资本管理和披露相关的未来研究机会。

[11] 大型语言模型能生成好故事吗?来自叙事规划视角的见解与挑战
标题: Can LLMs Generate Good Stories? Insights and Challenges from a Narrative Planning Perspective
作者: Yi Wang / Max Kreminski
原文:   [英文]   [中文]  
备注: In 2025 IEEE Conference on Games (CoG)
摘要:
故事生成一直是大型语言模型(LLMs)的一个重要应用。然而,由于自动评估方法的挑战以及人工评估的高成本和主观性,对LLMs生成高质量故事的能力的理解仍然有限。计算叙事学为构成优秀故事的要素提供了宝贵的见解,这些见解已被应用于符号叙事规划方法的故事生成中。本研究旨在通过使用LLMs解决叙事规划问题来加深对其故事生成能力的理解。我们基于文学示例提出了一个用于评估LLMs在叙事规划方面的基准,重点关注因果合理性、角色意图性和戏剧冲突。我们的实验表明,GPT-4级别的LLMs可以在小规模上生成因果合理的故事,但在角色意图性和戏剧冲突的规划上仍然具有挑战性,需要通过强化学习训练的LLMs进行复杂推理。结果提供了关于LLMs在保持不同方面的质量的同时可以生成的故事规模的见解。我们的研究结果还突出了有趣的问题解决行为,并为在游戏环境中应用LLM叙事规划的挑战和考虑提供了启示。

[12] Q2E:用于零样本多语言文本到视频检索的查询到事件分解
标题: Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval
作者: Shubhashis Roy Dipta / Francis Ferraro
原文:   [英文]   [中文]  
备注: None
摘要:
最近的方法在从大型语言模型(LLMs)和视觉语言模型(VLMs)中提取和利用参数化知识方面表现出色。在这项工作中,我们考虑如何通过自动提取关于复杂现实世界事件的潜在参数化知识来改进相关视频的识别和检索。我们提出了Q2E:一种用于零样本多语言文本到视频检索的查询到事件分解方法,可适应不同的数据集、领域、LLMs或VLMs。我们的方法表明,通过使用嵌入在LLMs和VLMs中的知识分解查询,我们可以增强对原本过于简化的人类查询的理解。我们还展示了如何将我们的方法应用于视觉和语音输入。为了结合这种多样的多模态知识,我们采用基于熵的融合评分进行零样本融合。通过对两个不同数据集和多种检索指标的评估,我们证明了Q2E优于几种最先进的基线。我们的评估还表明,整合音频信息可以显著改善文本到视频的检索。我们已经发布了代码和数据以供未来研究使用。

[13] TTT-Bench:用于评估推理能力的简单和新颖井字棋风格游戏的基准
标题: TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games
作者: Prakamya Mishra / Jiang Liu / Jialian Wu / Xiaodong Yu / Zicheng Liu / Emad Barsoum
原文:   [英文]   [中文]  
备注: None
摘要:
大型推理模型(LRMs)在包括奥林匹克水平数学问题在内的广泛任务中展示了令人印象深刻的推理能力,表明其具备复杂的推理能力。尽管许多推理基准测试集中在STEM领域,但LRMs在更广泛任务领域中正确推理的能力仍未得到充分探索。在这项工作中,我们引入了\textbf{TTT-Bench},这是一个新的基准测试,旨在通过一套四个两人井字棋风格的游戏来评估LRMs的基本战略、空间和逻辑推理能力,这些游戏是人类从小就能轻松解决的。我们提出了一种简单但可扩展的程序化方法,用于为TTT-Bench生成可验证的两人游戏问题。尽管这些游戏对人类来说是简单的,但它们需要推理对手的意图以及游戏板的空间配置,以确保获胜。我们评估了一组多样化的最先进的LRMs,并\textbf{发现那些在困难数学问题上表现出色的模型经常在这些简单的推理游戏中失败}。进一步的测试表明,与MATH 500和AIME 2024相比,我们评估的推理模型在TTT-Bench上的平均得分分别低$\downarrow$ 41\%和$\downarrow$ 5\%,其中较大的模型通过较短的推理路径实现了更高的性能,而大多数模型在简单和新的TTT-Bench任务中的长期战略推理情境中表现挣扎。

[14] 使用大型语言模型对不可靠叙述者进行分类
标题: Classifying Unreliable Narrators with Large Language Models
作者: Anneliese Brei / Katharine Henry / Abhisheik Sharma / Shashank Srivastava / Snigdha Chaturvedi
原文:   [英文]  
备注: ACL 2025
摘要:
当我们与第一人称的事件叙述互动时,我们常常会考虑叙述者,即文本的主要讲述者,是否可靠。在本文中,我们提出使用计算方法来识别不可靠的叙述者,即那些无意中误传信息的人。我们借用叙事学的文学理论,根据各种文本现象定义不同类型的不可靠叙述者,并提出了TUNa,这是一个包含多个领域叙述的人类标注数据集,包括博客文章、subreddit帖子、酒店评论和文学作品。我们为叙述内、叙述间和文本间的不可靠性定义了分类任务,并分析了流行的开源和专有大型语言模型在每个任务中的表现。我们建议从文学中学习,以对现实世界的文本数据进行不可靠叙述者分类。为此,我们在少样本学习、微调和课程学习设置中进行了实验。我们的结果表明,这项任务非常具有挑战性,并且使用大型语言模型识别不可靠叙述者具有潜力。我们发布了我们的专家标注数据集和代码,并邀请未来在该领域进行研究。

[15] ToxSyn-PT:用于葡萄牙语仇恨言论检测的大规模合成数据集
标题: ToxSyn-PT: A Large-Scale Synthetic Dataset for Hate Speech Detection in Portuguese
作者: Iago Alves Brito / Julia Soares Dollis / Fernanda Bufon Färber / Diogo Fernandes Costa Silva / Arlindo Rodrigues Galvão Filho
原文:   [英文]  
备注: 8 pages, 5 tables, 1 figure
摘要:
我们介绍了ToxSyn-PT,这是第一个大规模的葡萄牙语语料库,能够对九个法律保护的少数群体进行细粒度的仇恨言论分类。该数据集包含53,274个合成句子,均匀分布在少数群体和毒性标签之间。ToxSyn-PT是通过一个新颖的四阶段流程创建的:(1)一个紧凑的、手动整理的种子;(2)使用经过指令调优的大型语言模型进行少样本扩展;(3)基于释义的增强;(4)丰富化,并添加额外的中性文本以抑制对特定群体线索的过拟合。生成的语料库在类别上是平衡的,风格上是多样的,并且不包含在现有葡萄牙语数据集中占主导地位的社交媒体领域。尽管与传统基准在领域上存在差异,但在该语料库上进行的二元和多标签分类实验在五个公共葡萄牙语仇恨言论数据集上均取得了强劲的结果,展示了即使跨领域也具有稳健的泛化能力。该数据集已公开发布,以推动在资源匮乏环境下的合成数据和仇恨言论检测研究。

[16] 语言模型是否具有贝叶斯大脑?区分大型语言模型中的随机和确定性决策模式
标题: Do Language Models Have Bayesian Brains? Distinguishing Stochastic and Deterministic Decision Patterns within Large Language Models
作者: Andrea Yaoyun Cui / Pengfei Yu
原文:   [英文]   [中文]  
备注: None
摘要:
语言模型本质上是对标记序列的概率分布。自回归模型通过迭代计算和从下一个标记的分布中采样来生成句子。这种迭代采样引入了随机性,导致人们假设语言模型做出概率性决策,类似于从未知分布中采样。在此假设的基础上,先前的研究使用模拟的Gibbs采样,受到旨在引出人类先验的实验的启发,以推断语言模型的先验。在本文中,我们重新审视一个关键问题:语言模型是否具备贝叶斯大脑?我们的研究结果表明,在某些条件下,语言模型可以表现出近乎确定性的决策行为,例如,即使在非零采样温度下也能产生最大似然估计。这对采样假设提出了挑战,并削弱了先前用于引出类人先验的方法。此外,我们证明,如果不进行适当的审查,具有确定性行为的系统在进行模拟Gibbs采样时可能会收敛到“错误的先验”。为了解决这个问题,我们提出了一种简单的方法来区分Gibbs采样中的随机和确定性决策模式,以帮助防止推断出误导性的语言模型先验。我们在各种大型语言模型上进行实验,以识别它们在不同情况下的决策模式。我们的结果为理解大型语言模型的决策过程提供了关键见解。

[17] ClusterUCB:用于目标微调大型语言模型的高效基于梯度的数据选择
标题: ClusterUCB: Efficient Gradient-Based Data Selection for Targeted Fine-Tuning of LLMs
作者: Zige Wang / Qi Zhu / Fei Mi / Minghui Xu / Ruochun Jin / Wenjing Yang
原文:   [英文]   [中文]  
备注: None
摘要:
基于梯度的数据影响近似已被用于在大型语言模型的监督微调中选择有用的数据样本。然而,在整个微调过程中计算梯度需要过多的资源,实际上难以实现。在本文中,我们提出了一种高效的基于梯度的数据选择框架,结合聚类和修改后的上置信界(UCB)算法。基于数据样本具有相似梯度特征将具有相似影响的直觉,我们首先对训练数据池进行聚类。然后,我们将集群间的数据选择构建为一个受限计算预算分配问题,并将其视为一个多臂赌博问题。我们利用修改后的UCB算法来解决这个问题。具体来说,在迭代采样过程中,记录历史数据影响信息以直接估计每个集群的分布,并采用冷启动来平衡探索和利用。各种基准测试的实验结果表明,我们提出的框架ClusterUCB可以在大幅减少计算消耗的同时实现与原始基于梯度的数据选择方法相当的结果。

[18] Flick:使用K感知中间学习进行多任务低资源语言的少标签文本分类
标题: Flick: Few Labels Text Classification using K-Aware Intermediate Learning in Multi-Task Low-Resource Languages
作者: Ali Almutairi / Abdullah Alsuhaibani / Shoaib Jameel / Usman Naseem / Gelareh Mohammadi / Imran Razzak
原文:   [英文]   [中文]  
备注: None
摘要:
由于深度学习网络在训练时对广泛标注数据的依赖性较低,使用最少监督进行训练已成为研究的热点。尽管自训练方法在半监督学习中效果显著,但它们仍容易受到噪声伪标签的影响。此外,最近大多数解决少标签分类问题的方法要么是为资源丰富的语言(如英语)设计的,要么涉及复杂的级联模型,这些模型容易过拟合。为了解决在真正低资源语言环境中少标签文本分类的持续挑战——现有方法常常在噪声伪标签和领域适应方面表现不佳——我们提出了Flick。与依赖通用多集群伪标签或复杂级联架构的先前方法不同,Flick利用了一个基本的洞察:从更广泛的初始集群中提炼高置信度伪标签可以显著提高伪标签质量,特别是在语言多样化、资源匮乏的环境中。Flick引入了一种新颖的伪标签优化组件,与传统伪标签策略不同,通过识别和利用表现最佳的伪标签集群来进行优化。该组件专门学习从初始广泛集群中提炼高度可靠的伪标签,重点关注单集群凝聚力并利用自适应的top-k选择机制。这种针对性的优化过程对于减轻低资源数据固有的错误传播至关重要,使得预训练语言模型能够在只有少量真实标签的情况下进行稳健的微调。我们在包括阿拉伯语、乌尔都语和塞茨瓦纳语等具有挑战性的低资源语言以及英语在内的14个不同数据集上展示了Flick的有效性,证明了其卓越的性能和适应性。

[19] “检查我的工作?”:在模拟教育环境中衡量谄媚行为
标题: "Check My Work?": Measuring Sycophancy in a Simulated Educational Context
作者: Chuck Arvin
原文:   [英文]   [中文]  
备注: Presented at KDD Workshop on Ethical Artificial Intelligence: Methods and Applications (EAI) 2025
摘要:
本研究探讨了用户提供的建议如何在模拟教育环境中影响大型语言模型(LLMs),其中谄媚行为构成了显著风险。我们在五种实验条件下测试了来自OpenAI的GPT-4o和GPT-4.1模型类别的五种不同LLMs,结果显示,响应质量会因查询框架的不同而显著变化。在学生提到错误答案的情况下,LLM的正确性可能会下降多达15个百分点,而提到正确答案则会将准确性提高同样的幅度。我们的结果还表明,这种偏差在较小的模型中更为明显,对于GPT-4.1-nano模型,影响高达30%,而对于GPT-4o模型则为8%。我们对LLMs“翻转”其答案频率的分析以及对标记级概率的调查证实,这些模型通常会根据学生提到的答案选项改变其答案,这与谄媚假设一致。这种谄媚行为对教育公平性有重要影响,因为LLMs可能会加速知识渊博的学生的学习,而同样的工具可能会加深知识较少的学生的误解。我们的结果强调了在教育环境中更好地理解这种偏差的机制及其缓解方法的必要性。

[20] 使用大型语言模型进行语音到语音翻译的计划交错语音-文本训练
标题: Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs
作者: Hayato Futami / Emiru Tsunoo / Yosuke Kashiwagi / Yuki Ito / Hassan Shahmohammadi / Siddhant Arora / Shinji Watanabe
原文:   [英文]   [中文]  
备注: Accepted to Interspeech2025
摘要:
语音到语音翻译(S2ST)在大型语言模型(LLMs)的推动下取得了进展,这些模型在离散语音单元上进行了微调。在这种方法中,从文本到语音的模态适应一直是一个问题。LLMs是在仅有文本的数据上训练的,这给在有限的语音到语音数据下将其适应到语音模态带来了挑战。为了解决训练困难,我们在本研究中提出了计划的交错语音-文本训练。我们在训练过程中使用交错的语音-文本单元代替语音单元,其中对齐的文本标记在词级别进行交错。随着训练的进行,我们逐渐减少文本的比例,以促进从文本到语音的渐进模态适应。我们通过在CVSS数据集上微调LLaMA3.2-1B进行S2ST的实验评估。我们表明,所提出的方法始终提高了翻译性能,特别是对于训练数据有限的语言。

[21] 代码执行作为大型语言模型推理的基础监督
标题: Code Execution as Grounded Supervision for LLM Reasoning
作者: Dongwon Jung / Wenxuan Zhou / Muhao Chen
原文:   [英文]   [中文]  
备注: None
摘要:
通过链式思维(CoT)监督训练大型语言模型(LLMs)已被证明可以有效增强其推理能力。然而,获得可靠且准确的推理监督仍然是一个重大挑战。我们提出了一种可扩展的方法,通过利用程序执行的确定性来生成高质量的CoT监督数据集。与依赖于昂贵的人类注释或容易出错的LLM生成的CoT的现有推理数据集生成方法不同,我们的方法从代码执行中提取可验证的、逐步的推理轨迹,并将其转化为自然语言的CoT推理。在各个领域的推理基准测试中,实验表明我们的方法能够有效地为LLMs提供可转移的推理能力,适用于多样化的任务。此外,消融研究验证了我们的方法能够生成高度准确的推理数据,并通过减少无意义的重复和过度思考来降低推理过程中的整体标记长度。

[22] TableRAG: 一种用于异构文档推理的检索增强生成框架
标题: TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning
作者: Xiaohan Yu / Pu Jian / Chong Chen
原文:   [英文]   [中文]  
备注: Under review. Codes are available at this https URL
摘要:
检索增强生成(RAG)在开放域问答中展示了相当的有效性。然而,当应用于包含文本和表格组件的异构文档时,现有的RAG方法表现出关键的局限性。普遍采用的展平表格和分块策略破坏了表格的内在结构,导致信息丢失,并削弱了大型语言模型在多跳、全局查询中的推理能力。为了解决这些挑战,我们提出了TableRAG,这是一种混合框架,统一了文本理解和对表格数据的复杂操作。TableRAG以迭代的方式进行四个步骤:上下文敏感的查询分解、文本检索、SQL编程与执行,以及组合中间答案生成。我们还开发了HeteQA,一个旨在评估多跳异构推理能力的新基准。实验结果表明,TableRAG在公共数据集和我们的HeteQA上均持续优于现有基线,为异构文档问答建立了新的技术水平。我们在此https URL上发布了TableRAG。

[23] PAG:多轮强化大语言模型自我纠正,使用策略作为生成验证器
标题: PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier
作者: Yuhua Jiang / Yuwen Xiong / Yufeng Yuan / Chao Xin / Wenyuan Xu / Yu Yue / Qianchuan Zhao / Lin Yan
原文:   [英文]  
备注: None
摘要:
大型语言模型(LLMs)在复杂推理任务中展现了令人印象深刻的能力,但它们在可靠地验证自身输出的正确性方面仍然存在困难。现有的解决方案通常依赖于独立的验证模型或需要多阶段的自我纠正训练流程,这限制了可扩展性。在本文中,我们提出了生成验证器策略(PAG),这是一种简单而有效的框架,通过在统一的多轮强化学习(RL)范式中交替执行策略和验证器角色,使LLMs能够自我纠正。与之前的方法总是无论模型信心如何都生成第二次尝试不同,PAG引入了一种选择性修订机制:只有当模型自身的生成验证步骤检测到错误时,才会修订其答案。这种验证后修订的工作流程不仅缓解了模型崩溃,还共同增强了推理和验证能力。通过在各种推理基准上的广泛实验,PAG的双重进步得到了突出:作为策略,它提高了直接生成和自我纠正的准确性;作为验证器,其自我验证优于自我一致性。

[24] 阅后即焚:多模态大型语言模型是否真正捕捉到图像序列中的事件顺序?
标题: Burn After Reading: Do Multimodal Large Language Models Truly Capture Order of Events in Image Sequences?
作者: Yingjin Song / Yupei Du / Denis Paperno / Albert Gatt
原文:   [英文]   [中文]  
备注: 27 pages, 14 figures. Accepted to ACL 2025
摘要:
本文介绍了TempVS基准测试,该测试专注于多模态大型语言模型(MLLMs)在图像序列中的时间定位和推理能力。TempVS由三个主要测试组成(即事件关系推断、句子排序和图像排序),每个测试都配有一个基本的定位测试。TempVS要求MLLMs依赖视觉和语言模态来理解事件的时间顺序。我们评估了38个最先进的MLLMs,结果表明这些模型在解决TempVS时存在困难,与人类能力相比有显著的性能差距。我们还提供了细致的见解,提出了未来研究的有希望方向。我们的TempVS基准测试数据和代码可在此https URL获取。

[25] 超越战场:冲突报道中媒体报道的框架分析
标题: Beyond the Battlefield: Framing Analysis of Media Coverage in Conflict Reporting
作者: Avneet Kaur / Arnav Arora
原文:   [英文]   [中文]  
备注: None
摘要:
新闻媒体在冲突时期使用的框架可能对读者的观点产生重大影响,甚至可能加剧冲突本身。目前关于冲突框架的研究由于其定性性质或仅关注表面层次的通用框架而缺乏深入见解。在这项工作中,我们在一组关于以色列-巴勒斯坦战争的新闻报道中,识别出先前冲突研究中所概述的战争和和平新闻学的指标。为了进行分析,我们使用计算方法,结合框架语义和大型语言模型来识别交流框架及其与语言框架的联系。我们的分析揭示了新闻报道更侧重于战争而非和平。此外,我们还展示了美国、英国和中东新闻媒体在报道冲突中的攻击者和受害者时存在显著差异,揭示了媒体中的偏见。

[26] 简单问题快速解决,复杂问题深入推理:通过加权长度惩罚实现高效推理
标题: Fast on the Easy, Deep on the Hard: Efficient Reasoning via Powered Length Penalty
作者: Zehui Ling / Deshu Chen / Hongwei Zhang / Yifeng Jiao / Xin Guo / Yuan Cheng
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在推理能力方面表现出显著的进步,在各种具有挑战性的基准测试中表现良好。诸如链式思维提示等技术被引入以进一步改善推理。然而,这些方法经常生成较长的输出,从而增加计算延迟。尽管一些方法使用强化学习来缩短推理过程,但它们通常在不考虑问题复杂性的情况下施加统一的惩罚,导致次优结果。在本研究中,我们旨在通过在简单问题上促进简洁性,同时在更复杂的问题上保留足够的推理以确保准确性,从而提高LLM推理的效率,进而提升模型的整体性能。具体而言,我们通过划分奖励函数并引入一种新颖的输出长度惩罚来管理模型的推理效率。我们的方法在三个数据集的基准评估中取得了令人印象深刻的成果:GSM8K、MATH500和AIME2024。对于相对简单的数据集GSM8K和MATH500,我们的方法有效缩短了输出长度,同时保持或提高了准确性。在更具挑战性的AIME2024数据集上,我们的方法提高了准确性。

[27] 表格-文本对齐:解释科学论文中针对表格的声明验证
标题: Table-Text Alignment: Explaining Claim Verification Against Tables in Scientific Papers
作者: Xanh Ho / Sunisth Kumar / Yun-Ang Wu / Florian Boudin / Atsuhiro Takasu / Akiko Aizawa
原文:   [英文]   [中文]  
备注: 8 pages; code and data are available at this https URL
摘要:
科学性主张的验证通常需要根据表格预测一个主张是被支持还是被驳斥。然而,我们认为仅仅预测最终的标签是不够的:这对模型的推理过程揭示甚少,并且提供的可解释性有限。为了解决这个问题,我们将表格-文本对齐重新定义为一个解释任务,要求模型识别出对主张验证至关重要的表格单元格。我们通过扩展SciTab基准数据集并添加人工标注的单元格级别的理由,构建了一个新的数据集。标注者验证主张标签并突出显示支持其决策所需的最小单元格集合。在标注过程之后,我们利用收集的信息并提出了一个处理模糊案例的分类法。我们的实验表明:(i) 融入表格对齐信息可以提高主张验证的性能,(ii) 大多数大型语言模型(LLMs)虽然经常预测出正确的标签,但未能恢复与人类对齐的理由,这表明它们的预测并非源于忠实的推理。

[28] 表面公平,深层偏见:语言模型偏见的比较研究
标题: Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models
作者: Aleksandra Sorokovikova / Pavel Chizhov / Iuliia Eremenko / Ivan P. Yamshchikov
原文:   [英文]   [中文]  
备注: None
摘要:
现代语言模型是在大量数据上进行训练的。这些数据不可避免地包含有争议和刻板印象的内容,其中涉及与性别、出身、年龄等相关的各种偏见。因此,模型可能会表达出带有偏见的观点,或者根据分配的角色或用户的角色产生不同的结果。在本文中,我们研究了大型语言模型(LLMs)中偏见的各种代理测量方法。我们发现,在多学科基准测试(MMLU)中使用预设角色来评估模型时,得分的差异可以忽略不计且大多是随机的。然而,如果我们重新表述任务并要求模型对用户的答案进行评分,则显示出更显著的偏见迹象。最后,如果我们要求模型提供薪资谈判建议,我们会在答案中看到明显的偏见。随着最近LLM助手记忆和个性化的趋势,这些问题从不同的角度显现出来:现代LLM用户不需要预先提示他们的角色描述,因为模型已经了解他们的社会人口统计信息。

[29] 超越单用户对话:评估大型语言模型的多用户对话状态跟踪能力
标题: Beyond Single-User Dialogue: Assessing Multi-User Dialogue State Tracking Capabilities of Large Language Models
作者: Sangmin Song / Juhwan Choi / JungMin Yun / YoungBin Kim
原文:   [英文]  
备注: None
摘要:
大型语言模型(LLMs)在零样本对话状态跟踪(DST)中表现出色,减少了对特定任务训练的需求。然而,传统的DST基准主要关注结构化的用户-代理对话,未能捕捉到现实世界中多用户交互的复杂性。在本研究中,我们评估了LLMs在多用户DST中的稳健性,同时尽量减少数据集构建成本。受最近基于LLM的数据注释进展的启发,我们通过生成第二个用户的发言(基于言语行为理论)扩展了现有的DST数据集。我们的方法系统地将第二个用户的发言纳入对话中,从而能够在多用户环境中对LLMs进行控制评估。实验结果显示,与单用户DST相比,性能显著下降,突显了当前LLMs在多说话者环境中提取和跟踪对话状态的局限性。我们的研究结果强调了未来研究需要增强LLMs在多用户DST场景中的能力,为更现实和稳健的DST模型铺平道路。

[30] 可靠的推理路径:通过知识图谱为大型语言模型推理提炼有效指导
标题: Reliable Reasoning Path: Distilling Effective Guidance for LLM Reasoning with Knowledge Graphs
作者: Yilin Xiao / Chuang Zhou / Qinggang Zhang / Bo Li / Qing Li / Xiao Huang
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)由于缺乏背景知识和容易产生幻觉,常常在知识密集型任务中表现不佳。为了应对这些限制,将知识图谱(KGs)与LLMs结合已经被深入研究。现有的知识图谱增强型LLMs侧重于补充事实性知识,但在解决复杂问题时仍然困难重重。我们认为,精炼事实之间的关系并将其组织成逻辑一致的推理路径与事实性知识本身同样重要。尽管有潜力,从知识图谱中提取可靠的推理路径面临以下挑战:图结构的复杂性和多个生成路径的存在,使得区分有用和冗余路径变得困难。为了解决这些挑战,我们提出了RRP框架来挖掘知识图谱,该框架结合了LLMs的语义优势与通过关系嵌入和双向分布学习获得的结构信息。此外,我们引入了一个重新思考模块,根据推理路径的重要性进行评估和精炼。两个公共数据集上的实验结果表明,与现有基线方法相比,RRP实现了最先进的性能。此外,RRP可以轻松集成到各种LLMs中,以增强其推理能力,采用即插即用的方式。通过生成针对特定问题的高质量推理路径,RRP为LLM推理提炼出有效的指导。

[31] 通过简约规则引导的启发式方法和进化搜索进行无监督原型重建
标题: Unsupervised Protoform Reconstruction through Parsimonious Rule-guided Heuristics and Evolutionary Search
作者: Promise Dodzi Kpoglu
原文:   [英文]  
备注: None
摘要:
我们提出了一种无监督方法,用于重建原型形式,即现代语言形式所衍生的祖先词形。尽管之前的工作主要依赖于音系编辑的概率模型从同源词集合中推断原型形式,但这些方法由于其主要依赖数据驱动的性质而受到限制。相比之下,我们的模型在进化优化框架中结合了数据驱动的推理和基于规则的启发式方法。这种混合方法利用统计模式和语言学驱动的约束来指导重建过程。我们在使用来自五种罗曼语的同源词数据集重建拉丁原型形式的任务上评估了我们的方法。实验结果表明,在字符级准确性和音系合理性指标上,我们的方法相较于既定基线有显著的改进。

[32] SDialog:用于合成对话生成和分析的Python工具包
标题: SDialog: A Python Toolkit for Synthetic Dialogue Generation and Analysis
作者: Sergio Burdisso / Esaú Villatoro-Tello / Petr Motlicek
原文:   [英文]   [中文]  
备注: this https URL
摘要:
会话人工智能系统的进步依赖于高质量、灵活且可重复的合成对话的可用性,以用于训练、评估和基准测试。SDialog 是一个模块化、可扩展的 Python 工具包,旨在解决合成对话生成和分析的挑战。通过利用经过指令调优的大型语言模型(LLMs),SDialog 提供了关于角色、编排和场景管理的抽象,能够为研究和开发创建真实、多样且可控的会话数据。SDialog 支持多代理模拟和场景驱动生成等工作流程,并在合成数据生成工具和框架的标准化方面迈出了一步,这对于确保在当今快速发展的研究环境中的可重复性至关重要。

[33] NeuralNexus在BEA 2025共享任务中的表现:用于AI导师错误识别的检索增强提示
标题: NeuralNexus at BEA 2025 Shared Task: Retrieval-Augmented Prompting for Mistake Identification in AI Tutors
作者: Numaan Naeem / Sarfraz Ahmad / Momina Ahsan / Hasan Iqbal
原文:   [英文]   [中文]  
备注: 6 pages, 2 figures, 1 table
摘要:
本文介绍了我们为 BEA 2025 共享任务中 Track 1:AI 驱动导师的教学能力评估中的错误识别所开发的系统。该任务涉及评估导师的回答是否正确识别了学生数学推理中的错误。我们探索了四种方法:(1)通过多个预训练语言模型(LMs)的池化标记嵌入的机器学习模型集成;(2)使用 [CLS] 嵌入和 MLP 分类器的冻结句子转换器;(3)具有标记级历史和响应嵌入之间多头注意力的历史感知模型;(4)使用大型语言模型(LLM),即 GPT 4o 的检索增强少样本提示系统。我们的最终系统检索语义相似的示例,构建结构化提示,并使用模式引导的输出解析来生成可解释的预测。它优于所有基线,证明了结合示例驱动提示和 LLM 推理进行教学反馈评估的有效性。我们的代码可在此 https URL 获取。

[34] 拼写并不简单:大型语言模型从标记到字符的分词能力
标题: Spelling-out is not Straightforward: LLMs' Capability of Tokenization from Token to Characters
作者: Tatsuya Hiraoka / Kentaro Inui
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)能够以高准确率逐字拼写出字符,但在更复杂的字符级任务上表现不佳,例如识别标记中的组合子组件。在这项工作中,我们研究了LLMs在拼写过程中如何内部表示和利用字符级信息。我们的分析表明,尽管拼写对人类来说是一个简单的任务,但LLMs并没有以直接的方式处理这一任务。具体来说,我们发现嵌入层并未完全编码字符级信息,尤其是在第一个字符之后。因此,LLMs依赖于中间和更高的Transformer层来重建字符级知识,在这些层中我们观察到其拼写行为的明显“突破”。我们通过三种互补的分析验证了这一机制:探测分类器、知识神经元的识别以及注意力权重的检查。

[35] 用于检测威胁生命文本的大型语言模型
标题: Large Language Models for Detection of Life-Threatening Texts
作者: Thanh Thi Nguyen / Campbell Wilson / Janis Dalins
原文:   [英文]   [中文]  
备注: None
摘要:
检测威胁生命的语言对于保护处于困境中的个人、促进心理健康和福祉以及防止潜在的伤害和生命损失至关重要。本文提出了一种使用大型语言模型(LLMs)识别威胁生命文本的有效方法,并将其与传统方法(如词袋模型、词嵌入、主题建模和双向编码器表示转换器)进行比较。我们对三个开源LLMs(包括Gemma、Mistral和Llama-2)进行微调,使用它们的7B参数变体在不同的数据集上进行实验,这些数据集构建了类别平衡、不平衡和极端不平衡的场景。实验结果表明,LLMs在对抗传统方法时表现出色。更具体地说,Mistral和Llama-2模型在平衡和不平衡数据场景中都是表现最好的,而Gemma稍逊一筹。我们采用上采样技术来处理不平衡数据场景,并证明虽然这种方法对传统方法有益,但对LLMs的影响不大。这项研究展示了LLMs在现实世界中检测威胁生命语言问题的巨大潜力。

[36] 利用语言模型推断形容词上位词以增强开放英语词网的连通性
标题: Inferring Adjective Hypernyms with Language Models to Increase the Connectivity of Open English Wordnet
作者: Lorenzo Augello / John P. McCrae
原文:   [英文]   [中文]  
备注: None
摘要:
开放英语词网是作为语言链接开放数据云的一部分在OntoLex-lemon中发布的关键资源。然而,该资源中缺少许多链接,在本文中,我们研究如何在形容词之间建立上位关系。我们提出了关于上位关系的理论讨论,以及它在形容词中与名词和动词的不同之处。我们开发了一种新的形容词上位关系资源,并微调大型语言模型以预测形容词的上位关系,表明TaxoLLaMa的方法可以适应这一任务。

[37] 前提:大模型中高效数学推理的可扩展和战略性提示优化
标题: PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models
作者: Ye Yu / Yaoning Yu / Haohan Wang
原文:   [英文]   [中文]  
备注: None
摘要:
大型推理模型(LRMs),如Claude 3.7 Sonnet和OpenAI o1,通过冗长的思维链(CoT)推理在数学基准测试中表现出色,但由此产生的推理过程往往过于冗长。这增加了标记使用和成本,限制了在对延迟敏感或API受限环境中的部署。我们引入了PREMISE(基于提示的高效数学推理与战略评估),这是一种仅基于提示的框架,可以在不修改模型权重的情况下减少推理开销。PREMISE结合了轨迹级诊断和受梯度启发的提示优化,以在保持答案准确性的同时最小化冗余计算。该方法通过多目标文本搜索共同优化简洁性和正确性,平衡标记长度和答案有效性。与之前的工作不同,PREMISE在单次黑箱接口中运行,因此可以直接应用于商业LLM。在GSM8K、SVAMP和Math500上,我们在减少推理标记最多达87.5%和降低成本69%至82%的同时,匹配或超过基线准确性(使用Claude从96%到96%,使用Gemini从91%到92%)。这些结果表明,提示级优化是实现高效LRM推理的实用且可扩展的途径,而不影响推理质量。

[38] 超越真假:检索增强的细微主张分层分析
标题: Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims
作者: Priyanka Kargupta / Runchu Tian / Jiawei Han
原文:   [英文]   [中文]  
备注: Accepted to ACL 2025 Main Conference. Code available at: this https URL
摘要:
个人或实体所做的声明往往是复杂的,不能简单地被标记为完全“真实”或“虚假”——这在科学和政治声明中尤为常见。然而,一个声明(例如,“疫苗A比疫苗B更好”)可以被分解为其基本方面和子方面(例如,功效、安全性、分配),这些方面单独验证起来更容易。这使得能够提供一个更全面、结构化的回应,从而对给定问题提供一个全面的视角,同时也允许读者在声明中优先考虑特定的兴趣角度(例如,对儿童的安全性)。因此,我们提出了ClaimSpect,这是一种基于检索增强生成的框架,用于自动构建在处理声明时通常考虑的方面的层次结构,并用特定语料库的视角丰富它们。该结构分层划分输入语料库以检索相关片段,这有助于发现新的子方面。此外,这些片段使得能够发现对声明某一方面的不同视角(例如,支持、中立或反对)及其各自的普遍性(例如,“有多少生物医学论文认为疫苗A比B更易于运输?”)。我们将ClaimSpect应用于我们构建的数据集中包含的各种现实世界的科学和政治声明,展示了其在解构复杂声明和表示语料库内视角方面的稳健性和准确性。通过现实世界的案例研究和人工评估,我们验证了其在多个基线上的有效性。

[39] TaxoAdapt:将基于大型语言模型的多维分类法构建与不断发展的研究文献对齐
标题: TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora
作者: Priyanka Kargupta / Nan Zhang / Yunyi Zhang / Rui Zhang / Prasenjit Mitra / Jiawei Han
原文:   [英文]   [中文]  
备注: Accepted to ACL 2025 Main Conference. Code available at: this https URL
摘要:
科学领域的快速发展给组织和检索科学文献带来了挑战。尽管专家精心编制的分类法传统上解决了这一需求,但这一过程既耗时又昂贵。此外,最近的自动分类法构建方法要么(1)过度依赖特定语料库,牺牲了通用性,要么(2)严重依赖大型语言模型(LLMs)预训练数据集中的一般知识,常常忽视科学领域动态变化的特性。此外,这些方法未能考虑科学文献的多方面特性,其中一篇研究论文可能涉及多个维度(例如,方法论、新任务、评估指标、基准)。为了解决这些问题,我们提出了TaxoAdapt,一个能够动态适应给定语料库的多维度LLM生成分类法的框架。TaxoAdapt执行迭代的层次分类,根据语料库的主题分布扩展分类法的宽度和深度。我们展示了其在多年来不同计算机科学会议上的最先进表现,以展示其结构化和捕捉科学领域演变的能力。作为一种多维方法,TaxoAdapt生成的分类法在细粒度保持性上比最具竞争力的基线高26.51%,在连贯性上高50.41%,这些都是由LLMs评判的结果。

[40] 一个分词器统治所有:通过多语言分词器实现语言的自适应性
标题: One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers
作者: Diana Abagyan / Alejandro R. Salamanca / Andres Felipe Cruz-Salinas / Kris Cao / Hangyu Lin / Acyr Locatelli / Marzieh Fadaee / Ahmet Üstün / Sara Hooker
原文:   [英文]   [中文]  
备注: None
摘要:
预训练大规模多语言大型语言模型(LLMs)以同时支持多种语言是具有挑战性的,因为模型容量有限、高质量数据稀缺以及计算限制。此外,分词器的语言覆盖不足使得仅在训练后阶段解决新语言的差距变得更加困难。在这项工作中,我们研究了在训练初期进行哪些相对廉价的干预可以提高模型在训练后对新语言的“语言可塑性”或适应能力。我们专注于分词器设计,并提出使用一种通用分词器,该分词器针对比主要预训练语言更多的语言进行训练,以便在预训练后扩展语言覆盖时实现高效适应。我们在不同语言组和不同训练策略中的系统实验表明,通用分词器能够显著提高语言适应性,与特定于预训练语言的分词器相比,胜率提高了多达20.2%。此外,通用分词器还对在分词器和预训练中完全未见过的语言表现出更好的可塑性,胜率提高了多达5%。我们在对预训练中包含的大多数语言的性能影响最小的情况下,实现了对扩展语言集的适应。

[41] 不同的问题,不同的模型:使用大型语言模型对临床问答中的不确定性和校准进行细粒度评估
标题: Different Questions, Different Models: Fine-Grained Evaluation of Uncertainty and Calibration in Clinical QA with LLMs
作者: Alberto Testoni / Iacer Calixto
原文:   [英文]   [中文]  
备注: None
摘要:
准确且良好校准的不确定性估计对于在高风险领域(如临床决策支持)中部署大型语言模型(LLMs)至关重要。我们对临床多项选择题回答的不确定性估计方法进行了细粒度的评估,涵盖了十个开源LLMs(通用、生物医学和推理模型),涉及两个数据集、十一种医学专业和六种问题类型。我们比较了标准的单次生成和基于采样的方法,并通过案例研究探讨了基于推理轨迹中的行为信号的简单单次估计器。这些轻量级方法在仅需一次生成的情况下,其性能接近语义熵。我们的结果揭示了在不同专业和问题类型上的显著差异,强调了根据问题的性质和模型的特定优势来选择模型的重要性。

[42] 利用基于上下文的大型语言模型修订来改进命名实体转录
标题: Improving Named Entity Transcription with Contextual LLM-based Revision
作者: Viet Anh Trinh / Xinlu He / Jacob Whitehill
原文:   [英文]   [中文]  
备注: None
摘要:
随着建模技术的进步和监督训练数据量的增加,自动语音识别(ASR)系统在普通语音识别方面取得了显著的性能。然而,最先进的ASR系统在识别命名实体时的词错误率(WER)仍然较高。由于命名实体通常是最关键的关键词,误识别它们可能会影响所有下游应用,尤其是当ASR系统作为复杂系统的前端时。在本文中,我们引入了一种大型语言模型(LLM)修正机制,通过利用LLM的推理能力以及包含一组正确命名实体的局部上下文(例如,讲座笔记)来修正ASR预测中的错误命名实体。最后,我们介绍了NER-MIT-OpenCourseWare数据集,该数据集包含来自MIT课程的45小时数据,用于开发和测试。在该数据集上,我们提出的技术在命名实体的WER上实现了高达30%的相对降低。

[43] 通过零空间约束缓解多语言序列知识编辑中的负干扰
标题: Mitigating Negative Interference in Multilingual Sequential Knowledge Editing through Null-Space Constraints
作者: Wei Sun / Tingyu Qu / Mingxiao Li / Jesse Davis / Marie-Francine Moens
原文:   [英文]   [中文]  
备注: ACL 2025 Findings
摘要:
在大型语言模型(LLMs)中高效更新多语言知识,同时保持跨语言的一致事实表示,仍然是一个长期未解决的挑战。虽然为每种语言部署单独的编辑系统似乎是可行的,但这种方法由于需要管理多个模型而产生了巨大的成本。一个更高效的解决方案是将所有语言的知识更新整合到一个统一的模型中。然而,跨语言进行顺序编辑通常会导致破坏性的参数干扰,显著降低多语言泛化能力和注入知识的准确性。为了解决这一挑战,我们提出了LangEdit,一种新颖的零空间约束框架,旨在精确隔离语言特定的知识更新。LangEdit的核心创新在于其能够将每种语言的参数更新投射到先前更新子空间的正交补空间中。该方法在数学上保证了更新的独立性,同时保留了多语言泛化能力。我们在三种模型架构、六种语言和四个下游任务上进行了全面评估,证明LangEdit有效减轻了参数干扰,并优于现有的最先进的编辑方法。我们的结果突出了其在LLMs中实现高效且准确的多语言知识更新的潜力。代码可在此https URL获取。

[44] ReCUT:通过逐步路径和偏好优化在大型语言模型中平衡推理长度和准确性
标题: ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization
作者: Zhensheng Jin / Xinze Li / Yifan Ji / Chunyi Peng / Zhenghao Liu / Qi Shi / Yukun Yan / Shuo Wang / Furong Peng / Ge Yu
原文:   [英文]   [中文]  
备注: None
摘要:
最近在链式思维(CoT)提示方面的进展大大提高了大型语言模型(LLMs)的推理能力。然而,这些方法常常因过度思考而导致不必要的冗长或冗余的推理过程。现有的方法试图通过为训练LLMs策划多条推理链来缓解这一问题,但其效果往往受到生成数据质量的限制,并容易过拟合。为了解决这一挑战,我们提出了一种名为逐步试验推理压缩(ReCUT)的新方法,旨在平衡推理轨迹的准确性和长度。具体来说,ReCUT采用了一种逐步探索机制和长短切换采样策略,使LLMs能够逐步生成多样化的推理路径。这些路径经过评估后用于构建偏好对,以训练两个专门的模型(Gemini LLMs)——一个优化推理准确性,另一个优化推理简洁性。通过插值这两个模型的参数,获得最终的集成模型。跨多个数学推理数据集和基础模型的实验结果表明,与各种基线相比,ReCUT在保持或提高推理准确性的同时,将推理长度显著减少了约30-50%。所有代码和数据将通过此https URL发布。

[45] CIIR@LiveRAG 2025:通过自我训练优化多智能体检索增强生成
标题: CIIR@LiveRAG 2025: Optimizing Multi-Agent Retrieval Augmented Generation through Self-Training
作者: Alireza Salemi / Mukta Maddipatla / Hamed Zamani
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了mRAG,一种多代理检索增强生成(RAG)框架,由专门用于规划、搜索、推理和协调等子任务的代理组成。我们的系统采用自我训练范式,通过奖励引导的轨迹采样来优化代理间的协作并增强响应生成。在SIGIR 2025 LiveRAG竞赛期间基于DataMorgana衍生的数据集进行评估时,mRAG优于传统的RAG基线。我们进一步分析了竞赛结果,并通过案例研究展示了该框架的优势,证明其在复杂的现实世界RAG任务中的有效性。

[46] 使用SlowFast加速扩散大型语言模型:三个黄金原则
标题: Accelerating Diffusion Large Language Models with SlowFast: The Three Golden Principles
作者: Qingyan Wei / Yaojie Zhang / Zhiyuan Liu / Dongrui Liu / Linfeng Zhang
原文:   [英文]   [中文]  
备注: 11 pages; 5 figures;
摘要:
基于扩散的语言模型(dLLMs)通过实现并行的标记生成和显著降低推理延迟,成为传统自回归大型语言模型(LLMs)的有前途的替代方案。然而,现有的dLLMs采样策略,如基于置信度或半自回归解码,往往表现出静态行为,导致效率不佳和灵活性有限。在本文中,我们提出了SlowFast采样,这是一种新颖的动态采样策略,可以自适应地在探索性和加速解码阶段之间交替。我们的方法由三个黄金原则指导:确定性原则、收敛性原则和位置性原则,这些原则决定了何时何地可以自信且高效地解码标记。我们进一步将我们的策略与dLLM-Cache集成,以减少冗余计算。广泛的基准测试和模型实验表明,SlowFast采样在LLaDA上实现了高达15.63倍的加速,且精度下降最小,与缓存结合时加速可达34.22倍。值得注意的是,我们的方法在吞吐量上优于强大的自回归基线,如LLaMA3 8B,表明精心设计的采样可以释放dLLMs在快速和高质量生成方面的全部潜力。

[47] 分析自监督语音模型中预训练语言、语音、声调和说话人信息之间的关系
标题: Analyzing the relationships between pretraining language, phonetic, tonal, and speaker information in self-supervised speech models
作者: Michele Gubian / Ioana Krehan / Oli Liu / James Kirby / Sharon Goldwater
原文:   [英文]   [中文]  
备注: None
摘要:
对自监督语音模型的分析已经开始揭示它们在何处以及如何表示不同类型的信息。然而,几乎所有的分析都集中在英语上。在此,我们研究了在四种不同语言上训练的wav2vec2模型如何编码与语言匹配和不匹配的语音。我们使用探测分类器和几何分析来研究音素、词汇声调和说话者信息是如何表示的。我们展示了,对于所有的预训练和测试语言,编码音素、声调和说话者的子空间在很大程度上是正交的,并且层级探测准确率的模式是相似的,在后期层中,匹配语言的音素和声调(但不是说话者)探测有相对较小的优势。我们的研究结果表明,wav2vec2学习到的表示结构在很大程度上与预训练期间使用的语音材料无关。

[48] 通过知识优化和动态提示调整增强医学对话生成
标题: Enhancing Medical Dialogue Generation through Knowledge Refinement and Dynamic Prompt Adjustment
作者: Hongda Sun / Jiaren Peng / Wenzhong Yang / Liang He / Bo Du / Rui Yan
原文:   [英文]   [中文]  
备注: ACL 2025 Findings
摘要:
医疗对话系统(MDS)已成为支持与患者进行多轮、上下文感知对话的重要在线平台。然而,现有的MDS通常难以(1)识别相关的医学知识和(2)生成个性化、医学上准确的回复。为了解决这些挑战,我们提出了MedRef,这是一种新颖的MDS,结合了知识精炼和动态提示调整。首先,我们采用知识精炼机制来过滤掉不相关的医学数据,从而改善对回复中关键医学实体的预测。此外,我们设计了一种综合提示结构,结合了历史细节和明显细节。为了实现对不同患者状况的实时适应性,我们实施了两个关键模块:三元组过滤器和示例选择器,为系统提示提供适当的知识和演示。在MedDG和KaMed基准上的广泛实验表明,MedRef在生成质量和医学实体准确性方面优于最先进的基线,强调了其在现实世界医疗应用中的有效性和可靠性。

[49] 在不损失智能的情况下缩减大型语言模型
标题: Slimming Down LLMs Without Losing Their Minds
作者: Qingda
原文:   [英文]   [中文]  
备注: 10 pages
摘要:
本文研究并验证了微调对大型语言模型性能的影响,重点关注参数高效的方法(LoRA 和 QLoRA)。我们在三个关键领域评估模型能力:(1)常识推理(HellaSwag),(2)数学推理(GSM8K),以及(3)多领域知识(MMLU-CS)。我们的研究结果表明:(1)基于 LoRA 的方法能够有效提高特定任务的性能,同时保持计算效率;(2)性能在很大程度上取决于微调数据集与基准任务之间的一致性。该研究为参数高效机制提供了理论见解,并为开发者在资源有限的情况下实施高效的大型语言模型适应提供了实用指导。

[50] 泛化还是幻觉?理解变压器中的上下文外推理
标题: Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers
作者: Yixiao Huang / Hanlin Zhu / Tianyu Guo / Jiantao Jiao / Somayeh Sojoudi / Michael I. Jordan / Stuart Russell / Song Mei
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)可以通过微调获取新知识,但这一过程表现出一种令人困惑的双重性:模型可以从新事实中显著泛化,但也容易产生错误信息的幻觉。然而,这一现象的原因仍然知之甚少。在这项工作中,我们认为这两种行为都源于一种称为上下文外推理(OCR)的单一机制:即通过关联概念来推导含义的能力,即使这些概念之间没有因果联系。我们在五个主要的LLMs上进行的实验证实,OCR确实驱动了泛化和幻觉,具体取决于关联概念是否具有因果关系。为了建立对这一现象的严格理论理解,我们将OCR形式化为一个合成事实回忆任务。我们通过实验证明,一个具有分解输出和价值矩阵的单层单头仅注意力变压器可以学习解决这一任务,而一个具有组合权重的模型则不能,这突出了矩阵分解的重要作用。我们的理论分析表明,OCR能力可以归因于梯度下降的隐式偏差,它倾向于选择最小化组合输出-价值矩阵的核范数的解决方案。这一数学结构解释了为什么模型能够以高样本效率学习关联事实和含义,无论相关性是因果的还是仅仅是虚假的。最终,我们的工作为理解OCR现象提供了理论基础,为分析和缓解知识注入带来的不良行为提供了新的视角。

[51] BioClinical ModernBERT:用于生物医学和临床自然语言处理的最先进长上下文编码器
标题: BioClinical ModernBERT: A State-of-the-Art Long-Context Encoder for Biomedical and Clinical NLP
作者: Thomas Sounack / Joshua Davis / Brigitte Durieux / Antoine Chaffin / Tom J. Pollard / Eric Lehman / Alistair E. W. Johnson / Matthew McDermott / Tristan Naumann / Charlotta Lindvall
原文:   [英文]   [中文]  
备注: None
摘要:
基于编码器的Transformer模型在生物医学和临床自然语言处理(NLP)中起着核心作用,因为它们的双向自注意力机制使其非常适合通过判别任务从非结构化文本中高效提取结构化信息。然而,与解码器模型相比,编码器的发展较为缓慢,导致在生物医学和临床环境中的领域适应性有限。我们介绍了BioClinical ModernBERT,这是一种领域适应的编码器,基于最近发布的ModernBERT,结合了长上下文处理,并在生物医学和临床NLP中显著提高了速度和性能。BioClinical ModernBERT通过在迄今为止最大的生物医学和临床语料库上进行持续预训练而开发,语料库包含超过535亿个标记,并通过利用来自不同机构、领域和地理区域的20个数据集,解决了先前临床编码器依赖单一数据源的关键限制。它在四个下游任务中优于现有的生物医学和临床编码器,涵盖了广泛的使用案例。我们发布了BioClinical ModernBERT的基础版(150M参数)和大型版(396M参数),以及训练检查点,以支持进一步的研究。

[52] 超越黄金标准:用于形式数学推理的LLM评审的认知集成
标题: Beyond Gold Standards: Epistemic Ensemble of LLM Judges for Formal Mathematical Reasoning
作者: Lan Zhang / Marco Valentino / Andre Freitas
原文:   [英文]   [中文]  
备注: None
摘要:
自动形式化在形式数学推理中起着至关重要的作用,它能够将自然语言陈述自动翻译成形式语言。尽管最近使用大型语言模型(LLMs)的进展显示出可喜的成果,但自动评估自动形式化的方法仍未得到充分探索。当进入更复杂的领域(例如高级数学)时,人工评估需要大量时间和领域专业知识,尤其是在基础陈述和背景知识的复杂性增加时。将LLM作为评判者为自动化此类评估提供了一种有前途的方法。然而,现有方法通常采用粗粒度和通用的评估标准,这限制了它们在高级形式数学推理中的有效性,因为质量依赖于细致入微的多粒度维度。在这项工作中,我们迈出了解决这一差距的一步,介绍了一种系统的自动方法来评估自动形式化任务。所提出的方法基于一个在知识和形式上有依据的LLM评判者集成(EFG),其定义的标准包括逻辑保留(LP)、数学一致性(MC)、形式有效性(FV)和形式质量(FQ),从而提供了一种透明的评估,考虑到不同的贡献因素。我们验证了所提出的框架可以作为形式数学领域内自动形式化评估的代理。总体而言,我们的实验表明,EFG集成的LLM评判者是一个合适的新兴评估代理,与人类评估的相关性更强,尤其是在评估形式质量时。这些发现表明,LLM作为评判者,特别是在一组定义明确的原子属性指导下,可能为评估形式数学推理提供可扩展、可解释和可靠的支持。

[53] 权威的
标题: Magistral
作者: Mistral-AI / Abhinav Rastogi / Albert Q. Jiang / Andy Lo / Gabrielle Berrada / Guillaume Lample / Jason Rute / Joep Barmentlo / Karmesh Yadav / Kartik Khandelwal / Khyathi Raghavi Chandu / Léonard Blier / Lucile Saulnier / Matthieu Dinot / Maxime Darrin / Neha Gupta / Roman Soletskyi / Sagar Vaze / Teven Le Scao / Yihan Wang / Adam Yang / Alexander H. Liu / Alexandre Sablayrolles / Amélie Héliou / Amélie Martin / Andy Ehrenberg / Anmol Agarwal / Antoine Roux / Arthur Darcet / Arthur Mensch / Baptiste Bout / Baptiste Rozière / Baudouin De Monicault / Chris Bamford / Christian Wallenwein / Christophe Renaudin / Clémence Lanfranchi / Darius Dabert / Devon Mizelle / Diego de las Casas / Elliot Chane-Sane / Emilien Fugier / Emma Bou Hanna / Gauthier Delerce / Gauthier Guinet / Georgii Novikov / Guillaume Martin / Himanshu Jaju / Jan Ludziejewski / Jean-Hadrien Chabran / Jean-Malo Delignon / Joachim Studnia / Jonas Amar / Josselin Somerville Roberts / Julien Denize / Karan Saxena / Kush Jain / Lingxiao Zhao / Louis Martin / Luyu Gao / Lélio Renard Lavaud / Marie Pellat / Mathilde Guillaumin / Mathis Felardos / Maximilian Augustin / Mickaël Seznec / Nikhil Raghuraman / Olivier Duchenne / Patricia Wang / Patrick von Platen / Patryk Saffer / Paul Jacob / Paul Wambergue / Paula Kurylowicz / Pavankumar Reddy Muddireddy / Philomène Chagniot / Pierre Stock / Pravesh Agrawal / Romain Sauvestre / Rémi Delacourt / Sanchit Gandhi / Sandeep Subramanian / Shashwat Dalal / Siddharth Gandhi / Soham Ghosh / Srijan Mishra / Sumukh Aithal / Szymon Antoniak / Thibault Schueller / Thibaut Lavril / Thomas Robert / Thomas Wang / Timothée Lacroix / Valeriia Nemychnikova / Victor Paltz / Virgile Richard / Wen-Ding Li / William Marshall / Xuanyu Zhang / Yunhao Tang
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了Magistral,这是Mistral的第一个推理模型以及我们自主开发的可扩展强化学习(RL)流程。与依赖现有实现和从先前模型提取的RL轨迹不同,我们采用了从零开始的方法,仅依赖于我们自己的模型和基础设施。值得注意的是,我们展示了一个技术栈,使我们能够探索纯RL训练大型语言模型(LLM)的极限,提出了一种简单的方法来强制模型的推理语言,并展示了仅基于文本数据的RL可以保持初始检查点的大部分能力。我们发现,基于文本的RL可以保持或改善多模态理解、指令遵循和函数调用。我们介绍了Magistral Medium,它是在Mistral Medium 3的基础上仅通过RL训练的推理模型,并开源了Magistral Small(Apache 2.0),其中还包括来自Magistral Medium的冷启动数据。

[54] 通过半非负矩阵分解将MLP激活分解为可解释特征
标题: Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization
作者: Or Shafran / Atticus Geiger / Mor Geva
原文:   [英文]  
备注: None
摘要:
机械解释性的一个核心目标是识别大型语言模型(LLMs)中能够因果解释其输出的正确分析单元。虽然早期的工作集中在单个神经元上,但由于神经元通常编码多个概念的证据,研究重心已转向分析激活空间中的方向。一个关键问题是如何以无监督的方式找到能够捕捉可解释特征的方向。目前的方法依赖于使用稀疏自编码器(SAEs)的字典学习,通常在残差流激活上进行训练以从头学习方向。然而,SAEs在因果评估中往往表现不佳,并且缺乏内在的可解释性,因为它们的学习并未明确与模型的计算相关联。在此,我们通过直接使用半非负矩阵分解(SNMF)分解MLP激活来解决这些限制,使得学习到的特征是(a)共同激活神经元的稀疏线性组合,并且(b)映射到它们的激活输入,从而使其直接可解释。在Llama 3.1、Gemma 2和GPT-2上的实验表明,SNMF导出的特征在因果引导上优于SAEs和一个强监督基线(均值差异),同时与人类可解释概念对齐。进一步的分析揭示了特定的神经元组合在语义相关的特征中被重复使用,揭示了MLP激活空间中的层次结构。总之,这些结果表明SNMF是识别可解释特征和剖析LLMs中概念表示的简单而有效的工具。

[55] 对话中的动态认知摩擦
标题: Dynamic Epistemic Friction in Dialogue
作者: Timothy Obiso / Kenneth Lai / Abhijnan Nath / Nikhil Krishnaswamy / James Pustejovsky
原文:   [英文]   [中文]  
备注: 11 pages, 2 figures, 2 tables, CoNLL 2025
摘要:
最近在将大型语言模型(LLMs)与人类偏好对齐方面的发展显著提升了它们在人机协作场景中的实用性。然而,这些方法往往忽视了“认知摩擦”的关键作用,即在面对新的、相互矛盾或模糊的信息时更新信念所遇到的内在阻力。在本文中,我们将动态认知摩擦定义为对认知整合的阻力,其特征是代理当前信念状态与外部证据支持的新命题之间的不对齐。我们将其置于动态认知逻辑(Van Benthem 和 Pacuit,2011)的框架中,其中摩擦在交互过程中表现为非平凡的信念修正。然后,我们展示了一个情境协作任务的分析,证明了这种认知摩擦模型如何有效预测对话中的信念更新,随后我们讨论了如何将信念对齐模型作为认知阻力或摩擦的度量自然地变得更加复杂,以适应现实世界对话场景的复杂性。

[56] Domain2Vec:向量化数据集以在无需训练的情况下找到最佳数据混合
标题: Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training
作者: Mozhi Zhang / Howe Tissue / Lu Wang / Xipeng Qiu
原文:   [英文]   [中文]  
备注: Accepted to ICML2025
摘要:
我们介绍了一种新方法——\textsc{Domain2Vec},它将任何数据集分解为若干\emph{元域}的线性组合,这是一种旨在捕捉数据集关键底层特征的新概念。\textsc{Domain2Vec} 维护一个元域词汇表,并使用分类器将任何给定的数据集分解为一个域向量,该向量对应于该词汇表上的分布。这些域向量使得在\emph{\textbf{D}istribution \textbf{A}lignment \textbf{A}ssumption}(DA$^{2}$)假设下,以无训练的方式识别语言模型(LM)预训练的最佳数据混合成为可能。该假设表明,当训练集和验证集的数据分布更好地对齐时,可以实现更低的验证损失。此外,\textsc{Domain2Vec} 可以无缝集成到先前的工作中,以建模域向量与 LM 性能之间的关系,大大提高了先前方法的效率和可扩展性。大量实验表明,\textsc{Domain2Vec} 有助于找到增强下游任务性能的数据混合,同时计算开销最小。具体而言,\textsc{Domain2Vec} 在 Pile-CC 上实现了与在 The Pile 数据集的原始混合上训练时相同的验证损失,仅使用了 $51.5\%$ 的计算量。在相同的计算预算下,\textsc{Domain2Vec} 将下游性能平均提高了 $2.83\%$。

[57] ChineseHarm-Bench:中文有害内容检测基准
标题: ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark
作者: Kangwei Liu / Siyuan Cheng / Bozhong Tian / Xiaozhuan Liang / Yuyang Yin / Meng Han / Ningyu Zhang / Bryan Hooi / Xi Chen / Shumin Deng
原文:   [英文]  
备注: Work in progress
摘要:
大型语言模型(LLMs)越来越多地应用于自动化有害内容检测任务,帮助审核员识别政策违规行为,提高内容审核的整体效率和准确性。然而,现有的有害内容检测资源主要集中在英语方面,而中文数据集仍然稀缺且范围有限。我们提出了一个全面的、专业标注的中文内容有害检测基准,涵盖六个具有代表性的类别,并完全由真实世界数据构建。我们的标注过程进一步生成了一个知识规则库,提供明确的专家知识以协助LLMs进行中文有害内容检测。此外,我们提出了一种知识增强的基线,结合了人工标注的知识规则和大型语言模型的隐性知识,使得较小的模型能够达到与最先进的LLMs相当的性能。代码和数据可在此https URL获取。

[58] AutoMind:用于自动化数据科学的自适应知识代理
标题: AutoMind: Adaptive Knowledgeable Agent for Automated Data Science
作者: Yixin Ou / Yujie Luo / Jingsheng Zheng / Lanning Wei / Shuofei Qiao / Jintian Zhang / Da Zheng / Huajun Chen / Ningyu Zhang
原文:   [英文]   [中文]  
备注: Ongoing work. Code is at this https URL
摘要:
大型语言模型(LLM)代理在解决现实世界的数据科学问题方面展现了巨大潜力。由LLM驱动的数据科学代理有望实现整个机器学习流程的自动化,但其在现实世界中的有效性仍然有限。现有框架依赖于僵化的预定义工作流程和不灵活的编码策略;因此,它们仅在相对简单、经典的问题上表现出色,而无法捕捉人类从业者在复杂、创新任务中带来的经验专业知识。在这项工作中,我们介绍了AutoMind,这是一种自适应、知识丰富的LLM代理框架,通过三个关键进展克服了这些缺陷:(1)一个精心策划的专家知识库,使代理扎根于领域专家知识,(2)一种具有代理性的知识树搜索算法,能够战略性地探索可能的解决方案,以及(3)一种自适应编码策略,能够根据任务复杂性动态调整代码生成。在两个自动化数据科学基准上的评估表明,AutoMind在性能上优于最先进的基线。额外的分析证实了其在有效性、效率和解决方案质量上的优势,突显了AutoMind作为实现完全自动化数据科学的高效且稳健的一步。

[59] 推理模型在识别和纠正无益思维方面的效果如何?
标题: How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?
作者: Sohee Yang / Sang-Woo Lee / Nora Kassner / Daniela Gottesman / Sebastian Riedel / Mor Geva
原文:   [英文]  
备注: None
摘要:
最近的推理模型展示了反思、回溯和自我验证其推理的能力,这对于发现错误和得出准确的解决方案至关重要。一个自然出现的问题是,模型在多大程度上能够有效地进行自我再评估。我们通过研究推理模型识别和从四种无益思维中恢复的能力来解决这个问题:无信息的漫谈思维、与问题无关的思维、将问题误导为稍有不同的问题的思维,以及导致错误答案的思维。我们表明,模型在识别大多数无益思维方面表现良好,但当这些思维被注入其思考过程中时,模型在从中恢复方面表现不佳,导致性能显著下降。模型倾向于天真地继续注入的无关思维的推理路线,这表明它们的自我再评估能力远未达到一般的“元认知”意识。此外,我们观察到非/反比例缩放趋势,即较大的模型比较小的模型更难从简短的无关思维中恢复,即使在被指示重新评估其推理时也是如此。我们通过一个使用无关思维注入的越狱实验展示了这些发现的影响,显示最小的模型最不容易被触发有害反应的思维分心。总体而言,我们的研究结果呼吁改进推理模型的自我再评估,以开发更好的推理和更安全的系统。