![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年7月10日更新论文44篇
|
[1] 双子座2.5:通过先进的推理、多模态、长上下文和下一代代理能力推动前沿 标题: Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities 作者: Gheorghe Comanici / Eric Bieber / Mike Schaekermann / Ice Pasupat / Noveen Sachdeva / Inderjit Dhillon / Marcel Blistein / Ori Ram / Dan Zhang / Evan Rosen / Luke Marris / Sam Petulla / Colin Gaffney / Asaf Aharoni / Nathan Lintz / Tiago Cardal Pais / Henrik Jacobsson / Idan Szpektor / Nan-Jiang Jiang / Krishna Haridasan / Ahmed Omran / Nikunj Saunshi / Dara Bahri / Gaurav Mishra / Eric Chu / Toby Boyd / Brad Hekman / Aaron Parisi / Chaoyi Zhang / Kornraphop Kawintiranon / Tania Bedrax-Weiss / Oliver Wang / Ya Xu / Ollie Purkiss / Uri Mendlovic / Ilaï Deutel / Nam Nguyen / Adam Langley / Flip Korn / Lucia Rossazza / Alexandre Ramé / Sagar Waghmare / Helen Miller / Vaishakh Keshava / Ying Jian / Xiaofan Zhang / Raluca Ada Popa / Kedar Dhamdhere / Blaž Bratanič / Kyuyeun Kim / Terry Koo / Ferran Alet / Yi-ting Chen / Arsha Nagrani / Hannah Muckenhirn / Zhiyuan Zhang / Corbin Quick / Filip Pavetić / Duc Dung Nguyen / Joao Carreira / Michael Elabd / Haroon Qureshi / Fabian Mentzer / Yao-Yuan Yang / Danielle Eisenbud / Anmol Gulati / Ellie Talius / Eric Ni / Sahra Ghalebikesabi / Edouard Yvinec / Alaa Saade / Thatcher Ulrich / Lorenzo Blanco / Dan A. Calian / Muhuan Huang / Aäron van den Oord / Naman Goyal / Terry Chen / Praynaa Rawlani / Christian Schallhart / Swachhand Lokhande / Xianghong Luo / Jyn Shan / Ceslee Montgomery / Victoria Krakovna / Federico Piccinini / Omer Barak / Jingyu Cui / Yiling Jia / Mikhail Dektiarev / Alexey Kolganov / Shiyu Huang / Zhe Chen / Xingyu Wang / Jessica Austin / Peter de Boursac / Evgeny Sluzhaev / Frank Ding / Huijian Li / Surya Bhupatiraju 原文: [英文] 备注: 72 pages, 17 figures 摘要: 在本报告中,我们介绍了Gemini 2.X模型家族:Gemini 2.5 Pro和Gemini 2.5 Flash,以及我们早期的Gemini 2.0 Flash和Flash-Lite模型。Gemini 2.5 Pro是我们迄今为止功能最强大的模型,在前沿编码和推理基准测试中实现了最先进的性能。除了其出色的编码和推理能力外,Gemini 2.5 Pro还是一个思维模型,擅长多模态理解,现在能够处理长达3小时的视频内容。其独特的长上下文、多模态和推理能力的结合可以解锁新的代理工作流程。Gemini 2.5 Flash在计算和延迟要求较低的情况下提供了出色的推理能力,而Gemini 2.0 Flash和Flash-Lite则在低延迟和低成本下提供高性能。总体而言,Gemini 2.X模型代涵盖了模型能力与成本的完整帕累托前沿,使用户能够探索复杂代理问题解决的可能性边界。 |
[2] 人类过度依赖过于自信的语言模型,跨越多种语言 标题: Humans overrely on overconfident language models, across languages 作者: Neil Rathi / Dan Jurafsky / Kaitlyn Zhou 原文: [英文] [中文] 备注: 10 pages main text, to appear at COLM 2025 摘要: 随着大型语言模型(LLMs)的全球部署,确保其在不同语言中的响应能够准确传达不确定性和局限性变得至关重要。先前的研究表明,LLMs在英语中表现出语言上的过度自信,导致用户过度依赖自信的生成内容。然而,认知标记(例如,“这肯定是”,“我认为”)的使用和解释在不同语言中可能存在显著差异。在此,我们研究了多语言语言(误)校准、过度自信和过度依赖的风险,以评估LLMs在全球背景下的安全性。 我们发现,在所有语言中,过度依赖的风险都很高。我们首先分析了LLM生成的认知标记的分布,观察到尽管LLMs在跨语言上表现出过度自信,但它们也对已记录的语言差异表现出敏感性。例如,模型在日语中生成最多的不确定性标记,而在德语和中文中生成最多的确定性标记。然后,我们测量了不同语言中人类的依赖率,发现尽管用户在所有语言中都强烈依赖自信的LLM生成内容,但依赖行为在不同语言中存在差异:例如,用户在日语中对不确定性表达的依赖显著高于英语。综上所述,这些结果表明在不同语言中对过度自信的模型生成内容的依赖风险很高。我们的研究结果突显了多语言语言校准的挑战,并强调了在文化和语言背景下进行模型安全性评估的重要性。 |
[3] ETT:在测试时扩展大型语言模型的长上下文理解能力 标题: ETT: Expanding the Long Context Understanding Capability of LLMs at Test-Time 作者: Kiarash Zahirnia / Zahra Golpayegani / Walid Ahmad / Yang Liu 原文: [英文] [中文] 备注: None 摘要: 基于Transformer的语言模型的计算和内存开销随着序列长度的增加而呈二次增长。当使用大型语言模型(LLM)处理长序列时,这种二次成本带来了挑战。在这项工作中,我们介绍了一种名为\ourmodelacronym(测试时扩展)的方法,用于扩展短上下文Transformer基础的大型语言模型的上下文长度,同时保持恒定的内存需求和线性的计算开销。ETT通过对输入上下文进行高效微调,将其分块为重叠的小子序列,从而在测试时扩展上下文长度。我们在LongBench上评估了ETT,通过将GPT-Large和Phi-2的上下文长度扩展至最多32倍,从1k增加到32k个标记。这使得模型的准确性提高了最多30%。我们还研究了如何有效地在LLM的权重中存储上下文。通过详细的消融研究,我们检查了在测试时微调哪些Transformer模块最有利。令人感兴趣的是,我们发现微调FFN的第二层比完全微调更有效,从而进一步提高了模型的准确性。 |
[4] 通向扎根的神经符号人工智能的道路能否由词语作为分类器铺就? 标题: Could the Road to Grounded, Neuro-symbolic AI be Paved with Words-as-Classifiers? 作者: Casey Kennington / David Schlangen 原文: [英文] [中文] 备注: 9 pages 摘要: 形式、分布和基础理论的计算语义学各有其用途和缺陷。近年来,语言模型逐渐通过添加视觉知识来实现基础化,同时也有人呼吁通过符号方法来丰富语言模型,以从形式、分布和基础理论中获得益处。在本文中,我们试图论证一个潜在的统一这三种语义领域的路径,即通过“词语即分类器”模型。这是一种词汇层面的基础语义模型,已被纳入文献中的形式和分布语言模型,并在交互对话环境中经过充分测试。我们回顾了相关文献,通过引用认知科学的最新研究来论证“词语即分类器”模型,并描述了一项小型实验。最后,我们勾勒出一个通过“词语即分类器”统一语义的模型。 |
[5] 评估70种语言中分词器的形态对齐 标题: Evaluating Morphological Alignment of Tokenizers in 70 Languages 作者: Catherine Arnett / Marisa Hudspeth / Brendan O'Connor 原文: [英文] [中文] 备注: 6 pages, 3 figures. Accepted to the Tokenization Workshop at ICML 2025 摘要: 尽管分词是语言建模中的关键步骤,对模型训练和性能有影响,但如何有效评估分词器的质量仍不明确。分词器质量的一个建议维度是分词器在多大程度上保留了有语言学意义的子词,将词的边界与词内的形态边界对齐。我们扩展了MorphScore(Arnett & Bergen, 2025),从之前涵盖的22种语言增加到支持总共70种语言。更新后的MorphScore在评估中提供了更多的灵活性,并解决了原版本的一些局限性。然后,我们将我们的对齐分数与五个预训练语言模型在七个任务上的下游任务性能进行关联,每种语言中至少有一个任务。我们发现形态对齐并不能很好地解释模型性能的差异,这表明仅靠形态对齐并不能衡量与模型性能相关的分词质量维度。 |
[6] 超幺半群与彩色运算子:头部、阶段与θ角色 标题: Hypermagmas and Colored Operads: Heads, Phases, and Theta Roles 作者: Matilde Marcolli / Riny Huijbregts / Richard K. Larson 原文: [英文] [中文] 备注: LaTeX, 48 pages 摘要: 我们展示了句法对象上的头函数将幺半群结构扩展为超幺半群,其中c-统制关系与幺半群运算兼容,而m-统制关系与超幺半群兼容。然后,我们展示了头和补语、指示语的结构、附加修饰语位置以及扩展投射中的阶段结构可以被表述为一种彩色操作子的芽生成系统,其形式类似于θ角色的结构。我们还展示了,由于彩色操作子生成器的特殊形式,通过这些着色规则对自由生成的句法对象的过滤可以等价地表述为通过彩色合并在结构形成过程中进行的过滤,这反过来可以与超幺半群结构相关联。关于阶段的内部合并运动规则、扩展投射原则、空类原则和阶段不可穿透条件都被纳入彩色操作子生成器的形式中。阶段结构与θ角色分配之间的运动兼容性可以通过各自的彩色操作子和彩色操作子的转导来表述。 |
[7] PERK:作为参数高效测试时学习的长上下文推理 标题: PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning 作者: Zeming Chen / Angelika Romanou / Gail Weiss / Antoine Bosselut 原文: [英文] [中文] 备注: 10 pages, 7 figures 摘要: 长上下文推理需要在广泛且嘈杂的输入上下文中准确识别相关信息。先前的研究表明,在测试时通过学习将上下文直接编码到模型参数中,可以有效地在嘈杂信息中进行推理。然而,使测试时学习成为可能的元学习方法对内存的要求极高,阻碍了它们在长上下文环境中的应用。在这项工作中,我们提出了PERK(Parameter Efficient Reasoning over Knowledge),这是一种可扩展的方法,用于在测试时通过对轻量级模型适配器进行梯度更新来学习编码长输入上下文。具体来说,PERK在元训练阶段采用了两个嵌套的优化循环。内循环快速将上下文编码到一个低秩适配器(LoRA)中,该适配器作为基础模型的参数高效记忆模块。同时,外循环学习使用更新后的适配器来准确回忆和推理编码长上下文中的相关信息。我们在几个长上下文推理任务上的评估表明,PERK显著优于标准的基于提示的长上下文基线,对于较小的模型(GPT-2),平均绝对性能提升高达90%,对于我们评估的最大模型Qwen-2.5-0.5B,提升高达27%。总体而言,PERK对推理复杂性、长度外推以及上下文中相关信息的位置更具鲁棒性。最后,我们展示了虽然PERK在训练期间对内存要求较高,但在推理时比基于提示的长上下文推理更具扩展效率。 |
[8] 奖励模型可以自我改进:用于稳健奖励建模的奖励引导对抗性失败模式发现 标题: Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling 作者: Pankayaraj Pathmanathan / Furong Huang 原文: [英文] [中文] 备注: None 摘要: 奖励建模(RM)用于捕捉人类偏好以对齐大型语言模型(LLMs),在模型微调、响应过滤和排序等任务中越来越多地被使用。然而,由于人类偏好的复杂性和可用数据集的覆盖范围有限,奖励模型在分布转移或对抗性扰动下常常失效。现有识别此类失效模式的方法通常依赖于关于偏好分布或失效属性的先验知识,这限制了其在真实环境中的实用性,因为在这些环境中此类信息通常不可用。在这项工作中,我们提出了一种可行的、与偏好分布无关的方法,通过奖励引导的控制解码来发现奖励模型的失效模式。在此基础上,我们引入了REFORM,这是一种自我改进的奖励建模框架,通过使用奖励模型本身来引导生成错误评分的响应来增强鲁棒性。这些对抗性示例随后用于扩充训练数据并修正奖励模型的不对齐行为。我们在两个广泛使用的偏好数据集Anthropic Helpful Harmless(HH)和PKU Beavertails上评估了REFORM,并证明它在不牺牲奖励质量的情况下显著提高了鲁棒性。值得注意的是,REFORM在直接评估和下游策略训练中都保持了性能,并通过去除虚假相关性进一步提高了对齐质量。 |
[9] 通过稀疏自编码器探索可解释模型的任务性能 标题: Exploring Task Performance with Interpretable Models via Sparse Auto-Encoders 作者: Shun Wang / Tyler Loakman / Youbo Lei / Yi Liu / Bohao Yang / Yuting Zhao / Dong Yang / Chenghua Lin 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)传统上被视为黑箱算法,因此降低了其可信度,并模糊了提高下游任务性能的潜在方法。在这项工作中,我们使用稀疏自编码器的字典学习方法应用了一种有效的LLM分解方法。这有助于从多义的LLM神经元中提取单义特征。值得注意的是,我们的工作识别了模型内部的误解,允许通过附加注释自动重新制定提示,以改善LLM的解释。此外,这种方法在下游任务中表现出显著的性能提升,例如数学推理和隐喻检测。 |
[10] 气候政策话语的时间分析:动态嵌入主题建模的见解 标题: Temporal Analysis of Climate Policy Discourse: Insights from Dynamic Embedded Topic Modeling 作者: Rafiu Adekoya Badekale / Adewale Akinfaderin 原文: [英文] [中文] 备注: 10 pages, 7 figures. Code and data available at this https URL 摘要: 理解政策语言如何随时间演变对于评估全球应对气候变化等复杂挑战至关重要。时间分析帮助包括政策制定者和研究人员在内的利益相关者评估过去的优先事项,识别新兴主题,设计治理策略,并制定缓解措施。传统方法,如手动主题编码,耗时且在捕捉全球政策话语的复杂性和互联性方面存在局限性。随着无监督机器学习的日益相关性,这些限制可以得到解决,特别是在高容量、复杂和高维数据条件下。在这项工作中,我们探索了一种新方法,应用动态嵌入主题模型(DETM)来分析全球气候政策话语的演变。这是一种旨在捕捉主题随时间变化的概率模型。我们收集了1995年至2023年联合国气候变化框架公约(UNFCCC)政策决策的语料库,由于COVID-19大流行导致COP26推迟,2020年被排除在外。该模型揭示了从早期对温室气体和国际公约的重视转向最近对实施、技术合作、能力建设、金融和全球协议的关注。第三部分介绍了建模流程,包括预处理、模型训练和时间词分布的可视化。我们的结果表明,DETM是分析全球政策话语演变的可扩展且有效的工具。第四部分讨论了这些发现的意义,并以未来方向和改进措施结束,以将这种方法扩展到其他政策领域。 |
[11] 感知感知的多模态推理策略优化 标题: Perception-Aware Policy Optimization for Multimodal Reasoning 作者: Zhenhailong Wang / Xuehang Guo / Sofia Stoica / Haiyang Xu / Hongru Wang / Hyeonjeong Ha / Xiusi Chen / Yangyi Chen / Ming Yan / Fei Huang / Heng Ji 原文: [英文] [中文] 备注: None 摘要: 具有可验证奖励的强化学习(RLVR)已被证明是一种非常有效的策略,可以赋予大型语言模型(LLMs)强大的多步推理能力。然而,其设计和优化仍然专注于纯文本领域,当应用于多模态推理任务时,表现不佳。特别是,我们观察到当前多模态推理中的一个主要错误来源在于对视觉输入的感知。为了解决这一瓶颈,我们提出了感知感知策略优化(PAPO),这是对GRPO的一种简单而有效的扩展,鼓励模型在学习推理的同时学习感知,完全依赖于内部监督信号。值得注意的是,PAPO不依赖于额外的数据整理、外部奖励模型或专有模型。具体来说,我们在GRPO目标中引入了隐式感知损失,以KL散度项的形式,尽管其简单,但在各种多模态基准上取得了显著的整体改进(4.4%)。在视觉依赖性高的任务中,改进更为显著,接近8.0%。我们还观察到感知错误大幅减少(30.5%),表明PAPO提高了感知能力。我们对PAPO进行了全面分析,并识别出一个独特的损失黑客问题,我们通过双熵损失进行了严格分析和缓解。总体而言,我们的工作将感知感知监督更深入地整合到RLVR学习目标中,并为鼓励视觉基础推理的新RL框架奠定了基础。项目页面:此https URL。 |
[12] 一种用于端到端时间规范化的语义解析框架 标题: A Semantic Parsing Framework for End-to-End Time Normalization 作者: Xin Su / Sungduk Yu / Phillip Howard / Steven Bethard 原文: [英文] [中文] 备注: None 摘要: 时间标准化是将自然语言中的时间表达转换为机器可读表示的任务。它是信息检索、问答系统和临床决策等下游应用的基础。基于ISO-TimeML模式的传统系统在表达能力上有限,并且在处理复杂结构(如组合的、事件相对的和多跨度的时间表达)时存在困难。在这项工作中,我们引入了一种新的时间标准化方法,将其视为基于SCATE框架的代码生成任务。SCATE框架通过符号和组合运算符定义时间语义。我们实现了一个完全可执行的SCATE Python库,并展示了大型语言模型(LLMs)可以生成可执行的SCATE代码。利用这一能力,我们开发了一个自动数据增强管道,使用LLMs合成大规模带注释的数据,并进行代码级验证。我们的实验表明,基于这些增强数据训练的小型、本地可部署模型可以实现强劲的性能,甚至超越其LLM父模型,从而实现实用、准确且可解释的时间标准化。 |
[13] 混合线性注意力的系统分析 标题: A Systematic Analysis of Hybrid Linear Attention 作者: Dustin Wang / Rui-Jie Zhu / Steven Abreu / Yong Shan / Taylor Kergan / Yuqi Pan / Yuhong Chou / Zheng Li / Ge Zhang / Wenhao Huang / Jason Eshraghian 原文: [英文] 备注: None 摘要: Transformer在处理长序列时面临着平方复杂度和内存问题,这促使人们采用使用固定大小隐藏状态的线性注意力机制。然而,线性模型通常在回忆性能上表现有限,导致出现结合线性和全注意力层的混合架构。尽管混合架构的研究广泛,但对线性注意力组件的选择尚未深入探讨。我们系统地评估了从向量递归到高级门控机制的各种线性注意力模型,无论是独立使用还是混合使用。为了实现这一全面分析,我们训练并开源了72个模型:36个具有340M参数(20B tokens)和36个具有1.3B参数(100B tokens),涵盖了六种线性注意力变体和五种混合比例。在标准语言建模和回忆任务上的基准测试表明,优秀的独立线性模型在混合使用中不一定表现出色。虽然语言建模在线性到全注意力比例上保持稳定,但回忆性能随着全注意力层的增加显著提高,特别是在低于3:1的比例时。我们的研究强调选择性门控、分层递归和受控遗忘对于有效的混合模型至关重要。我们推荐使用HGRN-2或GatedDeltaNet等架构,并将线性到全注意力的比例保持在3:1到6:1之间,以高效地实现Transformer级别的回忆性能。我们的模型在此https URL上开源。 |
[14] 关于大型语言模型在对抗攻击中的语言置信度的稳健性 标题: On the Robustness of Verbal Confidence of LLMs in Adversarial Attacks 作者: Stephen Obadinma / Xiaodan Zhu 原文: [英文] [中文] 备注: None 摘要: 由大型语言模型(LLMs)生成的稳健的语言信心对于LLMs的部署至关重要,以确保在人机交互的许多高风险应用中实现透明性、信任和安全性。在本文中,我们首次对语言信心在对抗性攻击下的稳健性进行了全面研究。我们引入了一种新的框架,通过扰动和越狱方法来攻击语言信心评分,并展示了这些攻击可以显著危害语言信心估计并导致频繁的答案变化。我们研究了各种提示策略、模型规模和应用领域,揭示了当前的信心引导方法是脆弱的,并且常用的防御技术大多无效或适得其反。我们的研究结果强调了设计更稳健的LLMs信心表达机制的迫切需要,因为即使是微妙的语义保留修改也可能导致对响应的误导性信心。 |
[15] 双关语的妙用:通过对比学习和语音-语义嵌入实现多智能体的文字游戏翻译 标题: Pun Intended: Multi-Agent Translation of Wordplay with Contrastive Learning and Phonetic-Semantic Embeddings 作者: Russell Taylor / Benjamin Herbert / Michael Sana 原文: [英文] [中文] 备注: CLEF 2025 Working Notes, 9-12 September 2025, Madrid, Spain 摘要: 将文字游戏翻译成不同语言是一项独特的挑战,长期以来一直困扰着专业的人类翻译和机器翻译系统。本研究提出了一种从英语到法语翻译双关语的新方法,该方法结合了最先进的大型语言模型和专门的文字游戏生成技术。 我们的方法采用了三阶段的方法。首先,我们使用基于新的对比学习数据集的反馈,建立了多个前沿大型语言模型的基线。其次,我们实施了结合语音-语义嵌入的引导式思维链流程。第三,我们实施了一个多代理生成-判别框架,用于评估和再生成带有反馈的双关语。 我们的方法的主要目标是超越字面翻译的局限,捕捉源文本文字游戏的语言创造力和幽默感,而不仅仅是简单地复制其词汇。在CLEF JOKER 2025任务2竞赛中,我们的最佳运行获得了第一和第二名,评估由法语母语专家手动进行。 本研究通过实施语言学知情的文字游戏翻译技术,填补了翻译研究与计算语言学之间的空白,推进了我们对如何利用语言模型处理语义歧义、语音相似性以及成功幽默所需的隐含文化和语言意识之间复杂相互作用的理解。 |
[16] SpindleKV:一种在浅层和深层之间平衡的新型KV缓存缩减方法 标题: SpindleKV: A Novel KV Cache Reduction Method Balancing Both Shallow and Deep Layers 作者: Zicong Tang / Shi Luohe / Zuchao Li / Baoyuan Qi / Guoming Liu / Lefei Zhang / Ping Wang 原文: [英文] [中文] 备注: Accepted by ACL 2025 main 摘要: 近年来,大型语言模型(LLMs)取得了令人瞩目的成就。然而,KV缓存的内存消耗不断增加,对推理系统构成了重大挑战。驱逐方法揭示了KV缓存中固有的冗余性,显示出其缩减的潜力,特别是在更深的层中。然而,对于较浅层的KV缓存缩减效果却不够理想。基于我们观察到的KV缓存具有高度相似性,我们提出了一种新颖的KV缓存缩减方法——SpindleKV,该方法在浅层和深层之间取得了平衡。对于深层,我们采用基于注意力权重的驱逐方法,而对于浅层,我们应用了一种基于代码本的替换方法,该方法通过相似性和合并策略进行学习。此外,SpindleKV解决了其他基于注意力的驱逐方法所面临的分组查询注意力(GQA)难题。在两个常用基准测试上对三种不同的LLM进行的实验表明,SpindleKV在保持相似甚至更好的模型性能的同时,获得了比基线方法更好的KV缓存缩减效果。 |
[17] InvestAlign:克服数据稀缺性,将大型语言模型与投资者在羊群行为下的决策过程对齐 标题: InvestAlign: Overcoming Data Scarcity in Aligning Large Language Models with Investor Decision-Making Processes under Herd Behavior 作者: Huisheng Wang / Zhuoshi Pan / Hangjing Zhang / Mingxiao Liu / Hanqing Gao / H. Vicky Zhao 原文: [英文] [中文] 备注: None 摘要: 将大型语言模型(LLMs)与投资者在羊群行为下的决策过程对齐是行为金融学中的一个关键挑战,这一领域面临的一个根本限制是缺乏用于监督微调(SFT)的真实用户数据。虽然SFT可以弥合LLM输出与人类行为模式之间的差距,但其对大量真实数据的依赖带来了巨大的收集成本和隐私风险。我们提出了InvestAlign,这是一种新颖的框架,通过利用类似和简单的最优投资问题的理论解决方案来构建高质量的SFT数据集,而不是复杂的场景。我们的理论分析表明,使用InvestAlign生成的数据训练LLMs比使用真实用户数据实现更快的参数收敛,表明其具有更高的学习效率。此外,我们开发了InvestAgent,这是一个使用InvestAlign进行微调的LLM代理,在简单和复杂的投资问题中,其与真实用户数据的对齐显著优于SFT前的模型。这突显了我们提出的InvestAlign作为一种有前景的方法,具有解决复杂最优投资问题的潜力,并在羊群行为下将LLMs与投资者决策过程对齐。我们的代码在此https URL上公开可用。 |
[18] 用于在工业场景中提取复杂合同信息的大型语言模型 标题: Large Language Model for Extracting Complex Contract Information in Industrial Scenes 作者: Yunyang Cao / Yanjun Li / Silong Dai 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种用于工业场景中复杂合同信息提取任务的高质量数据集构建方法,并基于该数据集微调了一个大型语言模型。首先,对工业合同文本进行聚类分析,使用GPT-4和GPT-3.5从原始合同数据中提取关键信息,获得高质量的数据标注。其次,通过构建新文本实现数据增强,GPT-3.5从随机组合的关键词生成非结构化合同文本,提高模型的鲁棒性。最后,基于高质量数据集对大型语言模型进行微调。实验结果表明,该模型在确保高领域召回率和精度的同时,兼顾了解析效率,取得了优异的整体性能。LoRA、数据平衡和数据增强有效地提高了模型的准确性和鲁棒性。所提出的方法为工业合同信息提取任务提供了一种新颖且高效的解决方案。 |
[19] 他人的缺陷:一种基于大型语言模型的科学知识生产框架 标题: The Flaws of Others: An LLM-driven Framework for Scientific Knowledge Production 作者: Juan B. Gutiérrez 原文: [英文] [中文] 备注: 27 pages, 3 figures, 4 tables, 1 algorithm, 28 references 摘要: 大型语言模型将写作转变为人类与软件之间的实时交流。我们通过一个话语网络模型来捕捉这一新媒介,该模型将人和大型语言模型视为平等的节点,并追踪它们的陈述如何流通。我们将关注点从孤立的幻觉扩展到定义无效化(任何事实、逻辑或结构上的破坏),并展示其遵循四种风险:偏离真相、自我修复、新的捏造和外部检测。我们开发了一个一般的数学话语网络模型,以提供有价值的见解:仅由偏离和自我修复控制的网络在适度的错误率下稳定;添加捏造则再现了当前大型语言模型中看到的高错误率。即使给每个错误声明一个小的同行评审机会,也能将系统转变为以真相为主导的状态。我们通过开源的\emph{他人缺陷(FOO)算法}实现同行评审:这是一个可配置的循环,其中任何一组代理相互批评,而一个协调者合并他们的裁决。结论在实践和文化上都很重要:在这一新媒介中,可靠性不是来自于完善单个模型,而是通过将不完美的模型连接成网络,使它们相互保持诚实。 |
[20] 利用多模态知识图谱增强食品领域问答:混合问答生成与多样性分析 标题: Enhancing Food-Domain Question Answering with a Multimodal Knowledge Graph: Hybrid QA Generation and Diversity Analysis 作者: Srihari K B / Pushpak Bhattacharyya 原文: [英文] [中文] 备注: None 摘要: 我们提出了一个统一的食品领域问答框架,该框架结合了大规模多模态知识图谱(MMKG)和生成式人工智能。我们的MMKG链接了13,000个食谱、3,000种食材、140,000个关系和14,000张图片。我们使用40个模板和LLaVA/DeepSeek增强生成了40,000个问答对。通过对Meta LLaMA 3.1-8B和Stable Diffusion 3.5-Large的联合微调,BERTScore提高了16.2%,FID减少了37.8%,CLIP对齐提升了31.1%。诊断分析——基于CLIP的不匹配检测(从35.2%降至7.3%)和LLaVA驱动的幻觉检查——确保了事实和视觉的准确性。混合检索生成策略实现了94.1%的图像重用准确率和85%的合成充分性。我们的结果表明,结构化知识和多模态生成共同增强了食品问答的可靠性和多样性。 |
[21] 用于高效长文本生成推理的解码器-混合-解码器架构 标题: Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation 作者: Liliang Ren / Congcong Chen / Haoran Xu / Young Jin Kim / Adam Atkinson / Zheng Zhan / Jiankai Sun / Baolin Peng / Liyuan Liu / Shuohang Wang / Hao Cheng / Jianfeng Gao / Weizhu Chen / Yelong Shen 原文: [英文] [中文] 备注: None 摘要: 最近在语言建模方面的进展展示了状态空间模型(SSM)在高效序列建模中的有效性。虽然像 Samba 和解码器-解码器架构 YOCO 这样的混合架构在性能上相较于 Transformers 展现了有希望的提升,但之前的工作并未探讨在 SSM 层之间共享表示的效率潜力。在本文中,我们引入了门控记忆单元(GMU),这是一种简单而有效的机制,用于跨层高效地共享记忆。我们将其应用于创建 SambaY,这是一种解码器-混合-解码器架构,它在交叉解码器中结合了 GMU,以共享来自基于 Samba 的自解码器的记忆读出状态。SambaY 显著提高了解码效率,保持了线性预填充时间复杂度,并提升了长上下文性能,同时消除了对显式位置编码的需求。通过广泛的扩展实验,我们证明了我们的模型在大规模计算环境下表现出显著低于强 YOCO 基线的不可约损失,表明其具有优越的性能可扩展性。我们最大的模型通过差分注意力增强,Phi4-mini-Flash-Reasoning,在推理任务如 Math500、AIME24/25 和 GPQA Diamond 上取得了显著优于 Phi4-mini-Reasoning 的性能,而无需任何强化学习,同时在 vLLM 推理框架下,在 2K 长度提示和 32K 生成长度下提供高达 10 倍的解码吞吐量。我们在开放源代码数据上发布了我们的训练代码库,网址为此 https URL。 |
[22] FuDoBa:融合基于文档和知识图谱的表示与贝叶斯优化 标题: FuDoBa: Fusing Document and Knowledge Graph-based Representations with Bayesian Optimisation 作者: Boshko Koloski / Senja Pollak / Roberto Navigli / Blaž Škrlj 原文: [英文] [中文] 备注: None 摘要: 在大型语言模型(LLMs)取得成功的基础上,基于LLM的表示在文档表示领域占据了主导地位,在文档嵌入基准测试中表现出色。然而,LLM生成的高维、计算成本高的嵌入往往对于特定领域的应用来说过于通用或效率低下。为了解决这些限制,我们引入了FuDoBa,这是一种基于贝叶斯优化的方法,它将LLM嵌入与领域特定的结构化知识相结合,这些知识既可以来自本地,也可以来自像WikiData这样的外部资源。这种融合产生了低维、与任务相关的表示,同时降低了训练复杂性,并提供了可解释的早期融合权重,以增强分类性能。我们在两个领域的六个数据集上展示了我们方法的有效性,结果表明,当与强大的基于AutoML的分类器结合使用时,我们提出的表示学习方法的表现与仅由专有LLM嵌入基线生成的表示相当或更优。 |
[23] 使用大型语言模型(LLM)和范围审查协议加速数据提取:复杂范围审查中的方法学研究 标题: Expediting data extraction using a large language model (LLM) and scoping review protocol: a methodological study within a complex scoping review 作者: James Stewart-Evans / Emma Wilson / Tessa Langley / Andrew Prayle / Angela Hands / Karen Exley / Jo Leonardi-Bee 原文: [英文] 备注: 44 pages, 4 figures 摘要: 综述的数据提取阶段资源密集,研究人员可能会寻求使用在线(大型语言模型,LLMs)和综述协议来加快数据提取。Claude 3.5 Sonnet 被用于试验两种方法,这些方法使用综述协议从一个案例研究范围综述中包含的10个证据来源中提示数据提取。还使用基于协议的方法来审查提取的数据。进行了有限的性能评估,发现两种提取方法在提取简单、定义明确的引文细节时具有高准确性(83.3%和100%);在提取更复杂、主观的数据项时,准确性较低(9.6%和15.8%)。考虑到所有数据项,两种方法的精确度均超过90%,但召回率较低(<25%)且F1分数较低(<40%)。复杂范围综述的背景、开放响应类型和方法论方法可能由于遗漏和错误归属的数据而影响性能。LLM反馈认为基线提取准确,并建议进行小幅修改:15个引文细节中有4个(26.7%)和38个关键发现数据项中有8个(21.1%)被认为可能增加价值。然而,当使用包含故意错误的数据集重复该过程时,仅检测到39个错误中的2个(5%)。用于加快进程的基于综述协议的方法需要在各种LLM和综述背景下进行更为稳健的性能评估,并与传统的提示工程方法进行比较。我们建议研究人员在类似地使用LLM进行数据提取或审查提取数据时,评估并报告LLM的性能。LLM反馈有助于协议的调整,并可能协助未来综述协议的起草。 |
[24] 欧洲议会演讲中的精英极化:一种使用大型语言模型的新测量方法 标题: Elite Polarization in European Parliamentary Speeches: a Novel Measurement Approach Using Large Language Models 作者: Gennadii Iakovlev 原文: [英文] [中文] 备注: None 摘要: 本项目通过使用人工智能进行行为者和主体检测,引入了一种新的精英极化测量方法。我识别出政客们在议会演讲中何时提到彼此,记录谁在发言以及谁是被提及者,并评估这些评价背后的情感温度。这绘制了精英们如何评价他们的各种外党,使我们能够创建一个相互外党敌意的指数,即精英极化。虽然我分析了过去四十年英国的极化数据,以及匈牙利和意大利过去二十年的数据,但我的方法为一个涵盖二十年的、全欧盟范围的精英极化时间序列数据集奠定了基础。我获得的结果可以按政党和季度进行汇总。所得指数显示出良好的表面效度:它对选举活动、国家和政党层面的危机以及政党失去和获得权力等事件作出反应。 |
[25] CLI-RAG:一种检索增强框架,用于使用大型语言模型生成临床结构化和上下文感知的文本 标题: CLI-RAG: A Retrieval-Augmented Framework for Clinically Structured and Context Aware Text Generation with LLMs 作者: Garapati Keerthana / Manik Gupta 原文: [英文] [中文] 备注: 12 pages, 4 figures 摘要: 大型语言模型(LLMs),包括零样本和少样本范式,在临床文本生成方面展示了有前景的能力。然而,实际应用面临两个关键挑战:(1)患者数据高度非结构化、异质化,并分散在多种笔记类型中;(2)临床笔记通常较长且语义密集,使得简单的提示因上下文长度限制和遗漏临床相关信息的风险而不可行。 我们引入了CLI-RAG(临床知情检索增强生成),这是一个使用LLMs进行结构化和临床基础文本生成的特定领域框架。它结合了一种新颖的分层分块策略,尊重临床文档结构,并引入了任务特定的双阶段检索机制。全局阶段使用基于证据的查询识别相关的笔记类型,而局部阶段在这些笔记中提取高价值内容,在文档和章节级别上创造相关性。 我们将该系统应用于使用MIMIC-III数据集中的15种临床笔记类型为个别住院访问生成结构化进展笔记。实验表明,它在访问之间保持了时间和语义对齐,达到了87.7%的平均对齐分数,超过了由真实临床医生撰写的笔记的80.7%基线。生成的输出还展示了跨LLMs的高度一致性,加强了再现性、可靠性和临床信任所必需的确定性行为。 |
[26] 关于不确定性对逐层推理动态的影响 标题: On the Effect of Uncertainty on Layer-wise Inference Dynamics 作者: Sunwoo Kim / Haneul Yoo / Alice Oh 原文: [英文] [中文] 备注: Accepted to Actionable Interpretability Workshop - ICML 2025 摘要: 理解大型语言模型(LLMs)如何在内部表示和处理其预测,对于检测不确定性和防止幻觉至关重要。尽管有多项研究表明模型在其隐藏状态中编码了不确定性,但这种不确定性如何影响它们处理隐藏状态的方式仍未被充分探索。在这项工作中,我们展示了对于确定和不确定输出,跨层的输出标记概率动态在很大程度上是一致的,这表明不确定性似乎并不影响推理动态。具体来说,我们使用调优透镜(Tuned Lens),一种Logit Lens的变体,来分析跨越11个数据集和5个模型的最终预测标记的逐层概率轨迹。将错误预测视为具有较高认知不确定性的预测,我们的结果显示确定和不确定预测的轨迹是一致的,二者在相似的层中都观察到了置信度的突然增加。我们通过展示更有能力的模型可能学会以不同方式处理不确定性的证据来平衡这一发现。我们的研究结果挑战了利用简单方法在推理时检测不确定性的可行性。更广泛地说,我们的工作展示了解释性方法如何用于研究不确定性影响推理的方式。 |
[27] KAConvText:使用Kolmogorov-Arnold卷积进行缅甸语句分类的新方法 标题: KAConvText: Novel Approach to Burmese Sentence Classification using Kolmogorov-Arnold Convolution 作者: Ye Kyaw Thu / Thura Aung / Thazin Myint Oo / Thepchai Supnithi 原文: [英文] 备注: 10 pages, 3 figures, 4 tables 摘要: 本文首次将 Kolmogorov-Arnold 卷积应用于文本(KAConvText)进行句子分类,解决了三个任务:不平衡的二元仇恨言论检测、平衡的多类新闻分类和不平衡的多类民族语言识别。我们研究了各种嵌入配置,比较了随机嵌入与 fastText 嵌入在静态和微调设置下的表现,使用 CBOW 和 Skip-gram 模型的嵌入维度为 100 和 300。基线包括标准 CNN 和增强了 Kolmogorov-Arnold 网络的 CNN(CNN-KAN)。此外,我们研究了不同分类头的 KAConvText - MLP 和 KAN,其中使用 KAN 头可以增强可解释性。结果表明,使用微调的 fastText 嵌入的 KAConvText-MLP 在仇恨言论检测中达到了 91.23% 的最佳准确率(F1-score = 0.9109),在新闻分类中达到了 92.66% 的准确率(F1-score = 0.9267),在语言识别中达到了 99.82% 的准确率(F1-score = 0.9982)。 |
[28] 清单工程赋能多语言大型语言模型评审 标题: Checklist Engineering Empowers Multilingual LLM Judges 作者: Mohammad Ghiasvand Mohammadkhani / Hamid Beigy 原文: [英文] 备注: None 摘要: 自动文本评估一直是自然语言处理(NLP)中的核心问题。最近,该领域转向使用大型语言模型(LLMs)作为评估者,这一趋势被称为LLM-as-a-Judge范式。虽然这种方法在任务中表现出良好的适应性和前景,但在多语言环境中的探索仍然有限。现有的多语言研究通常依赖于专有模型或需要大量训练数据进行微调,这引发了关于成本、时间和效率的担忧。在本文中,我们提出了一种基于检查表工程的LLM-as-a-Judge(CE-Judge)方法,这是一种无需训练的框架,利用检查表直觉进行多语言评估,并使用开源模型。在多种语言和三个基准数据集上进行的实验中,无论是点对点还是对对设置,我们的方法通常优于基线,并且表现与GPT-4o模型相当。 |
[29] 通过领域自适应持续预训练实现高效工业sLLMs:方法、评估与应用 标题: Efficient Industrial sLLMs through Domain Adaptive Continual Pretraining: Method, Evaluation and Applications 作者: Seonwu Kim / Yohan Na / Kihun Kim / Hanhee Cho / Geun Lim / Mintae Kim / Seongik Park / Ki Hyun Kim / Youngsub Han / Byoung-Ki Jeon 原文: [英文] [中文] 备注: under review 摘要: 开源大型语言模型(LLMs)的出现扩大了企业应用的机会;然而,许多组织仍然缺乏部署和维护大规模模型的基础设施。因此,小型LLMs(sLLMs)成为了一个实用的替代方案,尽管它们在性能上存在固有的限制。虽然领域自适应持续预训练(DACP)之前已被探索作为领域适应的方法,但其在商业应用中的效用仍未得到充分研究。在本研究中,我们验证了在不同基础模型和服务领域中应用基于DACP的方法的有效性。通过广泛的实验和实际评估,我们证明了应用DACP的小型LLMs在目标领域性能上取得了显著提升,同时保留了通用能力,为企业级部署提供了一种成本效益高且可扩展的解决方案。 |
[30] 通过SysML将文本转化为模型:通过增强的系统建模语言图,从非结构化自然语言文本自动生成动态系统计算模型 标题: Text to model via SysML: Automated generation of dynamical system computational models from unstructured natural language text via enhanced System Modeling Language diagrams 作者: Matthew Anderson Hendricks / Alice Cicirello 原文: [英文] [中文] 备注: None 摘要: 本文通过提出一种策略来加速工程动态系统的设计和部署,该策略利用领域和专家知识,从与感兴趣的动态系统相关的文档语料库和描述特定系统的输入文档出发,自动生成动态系统计算模型。该策略分为五个步骤实施,关键在于使用系统建模语言图(SysML)来提取关于组件的依赖关系、属性和操作的准确信息。在特定任务中,采用自然语言处理(NLP)策略和大型语言模型(LLMs)来改进SysML图自动生成的中间输出,例如:关键名词列表、提取关系列表、关键短语和关键关系列表、块属性值、块关系以及BDD图生成。通过不同的案例研究说明了自动化SysML图生成的适用性。然后,通过代码生成和计算模型生成步骤,从SysML图中获得复杂动态系统的计算模型。在代码生成步骤中,NLP策略用于摘要,而LLMs仅用于验证。所提出的方法不限于特定系统、领域或计算软件。通过从文本到简单摆模型的端到端示例展示了该方法的适用性,与仅由LLMs产生的结果相比,显示出性能的改进。 |
[31] 多轮并行推理的自适应终止:一种通用的语义熵引导框架 标题: Adaptive Termination for Multi-round Parallel Reasoning: An Universal Semantic Entropy-Guided Framework 作者: Zenan Xu / Zexuan Qiu / Guanhua Huang / Kun Li / Siheng Li / Chenchen Zhang / Kejiao Li / Qi Yi / Yuhao Jiang / Bo Zhou / Fengzong Lian / Zhanhui Kang 原文: [英文] [中文] 备注: 13 pages, 5 fiures 摘要: 最近在大型语言模型(LLMs)方面的进展加速了通用人工智能的发展,其中推理时的扩展成为一项关键技术。当代方法利用顺序推理(迭代扩展思维链)或并行推理(同时生成多个解决方案)来扩展推理。然而,这两种范式都面临基本的限制:顺序扩展通常依赖于任意的标记预算来终止,导致效率低下或过早中止;而并行扩展往往缺乏对并行分支的协调,并且需要侵入性的微调才能有效执行。鉴于这些挑战,我们旨在设计一个灵活的测试时协作推理框架,以利用顺序和并行推理范式的互补优势。为实现这一目标,核心挑战在于开发一种高效且准确的内在质量度量,以在协作推理过程中评估模型响应,从而实现推理轨迹的动态控制和提前终止。为应对这一挑战,我们引入了语义熵(SE),它量化了并行模型响应的语义多样性,并由于其与准确性之间的强负相关性,成为推理质量的稳健指标... |
[32] 从排序转向集合选择以增强生成的检索 标题: Shifting from Ranking to Set Selection for Retrieval Augmented Generation 作者: Dahyun Lee / Yongrae Jo / Haeju Park / Moontae Lee 原文: [英文] [中文] 备注: Accepted to ACL 2025 Oral 摘要: 在检索增强生成(RAG)中,检索必须确保检索到的段落不仅在个体上相关,而且整体上形成一个全面的集合。现有的方法主要基于段落的个体相关性对前k个段落进行重新排序,往往无法满足复杂查询在多跳问答中的信息需求。在这项工作中,我们提出了一种集合式段落选择方法,并引入了SETR,它通过链式思维推理明确识别查询的信息需求,并选择一个最佳的段落集合来共同满足这些需求。在多跳RAG基准测试上的实验表明,SETR在答案正确性和检索质量方面优于专有的基于LLM的重新排序器和开源基线,为RAG系统中的传统重新排序器提供了一种有效且高效的替代方案。代码可在此https URL获取。 |
[33] 开发和维护一个开源的AI评估库:挑战与见解 标题: Developing and Maintaining an Open-Source Repository of AI Evaluations: Challenges and Insights 作者: Alexandra Abbas / Celia Waggoner / Justin Olive 原文: [英文] [中文] 备注: None 摘要: AI 评估已成为评估大型语言模型能力和安全性的重要工具。本文介绍了在维护 $inspect\_evals$ 这一开源库的八个月中获得的实用见解,该库包含了 70 多个由社区贡献的 AI 评估。我们识别了在实施和维护 AI 评估过程中面临的关键挑战,并开发了相应的解决方案,包括:(1) 一个结构化的群体管理框架,用于扩大社区贡献;(2) 统计方法,用于最佳重采样和具有不确定性量化的跨模型比较;(3) 系统的质量控制流程,以确保可重复性。我们的分析表明,AI 评估需要专门的基础设施、统计严谨性和社区协调,这超出了传统软件开发实践的范畴。 |
[34] SCoRE:使用多标签对比学习和贝叶斯kNN的简化基于语料库的关系抽取 标题: SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN 作者: Luca Mariotti / Veronica Guidetti / Federica Mandreoli 原文: [英文] [中文] 备注: None 摘要: 随着对利用外部语料库进行高效知识图谱(KG)扩充的需求不断增长,人们对关系抽取(RE)的兴趣日益浓厚,尤其是在低监督环境下。为了解决需要适应性强且抗噪声的RE解决方案的问题,并与预训练的大型语言模型(PLM)无缝集成,我们引入了SCoRE,这是一种模块化且具有成本效益的句子级RE系统。SCoRE支持轻松切换PLM,无需微调,并能顺利适应不同的语料库和KG。通过将监督对比学习与贝叶斯k-近邻(kNN)分类器结合用于多标签分类,它在远程监督语料库的噪声标注下仍能提供稳健的性能。为了改进RE评估,我们提出了两个新颖的指标:相关结构距离(CSD),用于衡量学习到的关系模式与KG结构之间的对齐程度,以及R点精度(P@R),用于评估作为推荐系统的实用性。我们还发布了Wiki20d,这是一个基准数据集,复制了仅有KG衍生标注可用的真实世界RE条件。在五个基准上的实验表明,SCoRE能够匹敌或超越最先进的方法,同时显著降低能耗。进一步的分析表明,增加模型复杂性(如先前工作中所见)会降低性能,突显了SCoRE简约设计的优势。结合效率、模块化和可扩展性,SCoRE是现实世界RE应用的最佳选择。 |
[35] VisualTrap:通过视觉定位操控对GUI代理的隐秘后门攻击 标题: VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation 作者: Ziang Ye / Yang Zhang / Wentao Shi / Xiaoyu You / Fuli Feng / Tat-Seng Chua 原文: [英文] [中文] 备注: None 摘要: 由大型视觉语言模型(LVLMs)驱动的图形用户界面(GUI)代理已经成为自动化人机交互的一种革命性方法,能够自主操作个人设备(如手机)或设备内的应用程序,以人类般的方式执行复杂的现实任务。然而,它们与个人设备的紧密集成引发了重大的安全问题,其中许多威胁,包括后门攻击,仍然在很大程度上未被探索。本文揭示了GUI代理将文本计划映射到GUI元素的视觉定位可能引入漏洞,从而使新的后门攻击类型成为可能。通过针对视觉定位的后门攻击,即使在给定正确的任务解决计划时,代理的行为也可能被破坏。为了验证这一漏洞,我们提出了VisualTrap,这是一种可以通过误导代理将文本计划定位到触发位置而非预期目标来劫持定位的方法。VisualTrap使用常见的注入中毒数据的方法进行攻击,并在视觉定位的预训练期间进行,以确保攻击的实际可行性。实证结果表明,VisualTrap可以通过仅5%的中毒数据和高度隐蔽的视觉触发器(对人眼不可见)有效劫持视觉定位;即使在干净的微调之后,攻击也可以推广到下游任务。此外,注入的触发器可以在不同的GUI环境中保持有效,例如,在移动/网页环境中训练并推广到桌面环境。这些发现强调了对GUI代理中后门攻击风险进行进一步研究的紧迫性。 |
[36] MIND:一种用于零样本有害模因检测的多智能体框架 标题: MIND: A Multi-agent Framework for Zero-shot Harmful Meme Detection 作者: Ziyan Liu / Chunxiao Fan / Haoran Lou / Yuexin Wu / Kaiwei Deng 原文: [英文] 备注: ACL 2025 摘要: 社交媒体上表情包的快速扩散突显了有效检测有害内容方法的迫切需求。然而,传统的数据驱动方法由于表情包的不断演变和缺乏最新的标注数据,难以检测新的表情包。为了解决这个问题,我们提出了MIND,一种用于零样本有害表情包检测的多代理框架,不依赖于标注数据。MIND实施了三个关键策略:1)我们从未标注的参考集中检索相似的表情包以提供上下文信息。2)我们提出了一种双向洞察推导机制,以全面理解相似的表情包。3)然后,我们采用多代理辩论机制,通过理性仲裁确保稳健的决策。对三个表情包数据集的大量实验表明,我们提出的框架不仅优于现有的零样本方法,而且在不同的模型架构和参数规模上表现出强大的泛化能力,为有害表情包检测提供了可扩展的解决方案。代码可在此https URL获取。 |
[37] MultiJustice:一个用于多方、多罪名法律预测的中文数据集 标题: MultiJustice: A Chinese Dataset for Multi-Party, Multi-Charge Legal Prediction 作者: Xiao Wang / Jiahuan Pei / Diancheng Shui / Zhiguang Han / Xin Sun / Dawei Zhu / Xiaoyu Shen 原文: [英文] [中文] 备注: Accepted by NLPCC 2025 摘要: 法律判决预测为法律从业者和研究人员提供了一种引人注目的辅助方法。然而,研究问题仍然相对未被充分探索:在法律判决预测中,是否应将多个被告和指控分开处理?为了解决这个问题,我们引入了一个新的数据集,即多被告多指控预测(MPMCP),并通过评估几种流行的法律大语言模型(LLMs)在四种实际法律判决场景下的表现来寻找答案:(S1)单一被告单一指控,(S2)单一被告多重指控,(S3)多被告单一指控,以及(S4)多被告多重指控。我们在两个法律判决预测任务上评估了该数据集,即指控预测和刑期预测。我们进行了广泛的实验,发现涉及多被告和多重指控的场景(S4)带来了最大的挑战,其次是S2、S3和S1。影响因模型而异。例如,在S4与S1相比,InternLM2的F1分数降低了约4.5%,LogD提高了2.8%,而Lawformer的F1分数降低了约19.7%,LogD提高了19.0%。我们的数据集和代码可在此https URL获取。 |
[38] 探索大型语言模型在对话中预测导师策略和学生结果的应用 标题: Exploring LLMs for Predicting Tutor Strategy and Student Outcomes in Dialogues 作者: Fareya Ikram / Alexander Scarlatos / Andrew Lan 原文: [英文] [中文] 备注: Published in BEA 2025: 20th Workshop on Innovative Use of NLP for Building Educational Applications 摘要: 近年来,由于在线学习的普及以及由大型语言模型(LLMs)驱动的人工智能(AI)代理的辅导能力的出现,辅导对话受到了极大的关注。最近的研究表明,辅导员使用的策略对学生的学习结果有显著影响,因此需要预测辅导员行为及其对学生影响的方法。然而,很少有研究探讨在对话中预测辅导员策略。因此,在这项工作中,我们研究了现代LLMs,特别是Llama 3和GPT-4o,预测对话中未来辅导员动作和学生结果的能力,使用了两个数学辅导对话数据集。我们发现,即使是最先进的LLMs在预测未来辅导员策略方面也存在困难,而辅导员策略对学生结果具有高度指示性,这表明需要更强大的方法来解决这一任务。 |
[39] 重新思考LLM代码生成的验证:从生成到测试 标题: Rethinking Verification for LLM Code Generation: From Generation to Testing 作者: Zihan Ma / Taolin Zhang / Maosong Cao / Wenwei Zhang / Minnan Luo / Songyang Zhang / Kai Chen 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)最近在代码生成基准测试如HumanEval和LiveCodeBench中取得了显著成功。然而,详细的检查显示,这些评估套件通常仅包含数量有限的同质测试用例,导致一些细微的错误未被检测到。这不仅人为地夸大了测量的性能,还影响了在使用可验证奖励的强化学习框架(RLVR)中准确奖励估计。为了解决这些关键缺陷,我们系统地研究了测试用例生成(TCG)任务,提出了多维度指标,旨在严格量化测试套件的全面性。此外,我们引入了一种人类与LLM协作的方法(SAGA),利用人类编程专业知识与LLM推理能力,旨在显著提高生成测试用例的覆盖率和质量。除此之外,我们开发了一个TCGBench以促进对TCG任务的研究。实验表明,SAGA在TCGBench上的检测率达到90.62%,验证器准确率为32.58%。由SAGA合成的代码生成评估基准的验证器准确率(Verifier Acc)比LiveCodeBench-v6高出10.78%。这些结果证明了我们所提出方法的有效性。我们希望这项工作有助于建立一个可靠的LLM代码评估的可扩展基础,进一步推进代码生成中的RLVR,并为自动化对抗性测试合成和自适应基准集成铺平道路。 |
[40] 在查询层面研究检索增强生成的鲁棒性 标题: Investigating the Robustness of Retrieval-Augmented Generation at the Query Level 作者: Sezen Perçin / Xin Su / Qutub Sha Syed / Phillip Howard / Aleksei Kuvshinov / Leo Schwinn / Kay-Ulrich Scholl 原文: [英文] [中文] 备注: Accepted to Generation, Evaluation & Metrics (GEM) Workshop at ACL 2025 摘要: 大型语言模型(LLMs)在更新新信息时成本高且效率低。为了解决这一限制,检索增强生成(RAG)被提出作为一种解决方案,它在推理过程中动态结合外部知识,从而提高事实一致性并减少幻觉。尽管前景可观,RAG系统面临实际挑战——尤其是对输入查询质量的高度依赖,以实现准确检索。在本文中,我们研究了RAG流程中不同组件对各种查询扰动的敏感性。我们的分析表明,即使在轻微的查询变化下,常用检索器的性能也可能显著下降。我们分别研究了每个模块的独立影响以及它们在端到端问答环境中的综合效果,使用了通用领域和特定领域的数据集。此外,我们提出了一个评估框架,以系统地评估RAG流程的查询级鲁棒性,并基于我们进行的超过1092次实验的结果,为从业者提供可操作的建议。 |
[41] FRaN-X:框架与叙事探索器 标题: FRaN-X: FRaming and Narratives-eXplorer 作者: Artur Muratov / Hana Fatima Shaikh / Vanshikaa Jani / Tarek Mahmoud / Zhuohan Xie / Daniil Orel / Aaryamonvikram Singh / Yuxia Wang / Aadi Joshi / Hasan Iqbal / Ming Shan Hee / Dhruv Sahnan / Nikolaos Nikolaidis / Purificação Silvano / Dimitar Dimitrov / Roman Yangarber / Ricardo Campos / Alípio Jorge / Nuno Guimarães / Elisa Sartori / Nicolas Stefanovitch / Giovanni Da San Martino / Jakub Piskorski / Preslav Nakov 原文: [英文] [中文] 备注: 19 pages, 13 figures, submitted to EMNLP 2025 - Demo Track 摘要: 我们介绍了FRaN-X,这是一种框架和叙事探索工具,可以自动检测实体提及并直接从原始文本中分类其叙事角色。FRaN-X由一个两阶段系统组成,结合序列标注和细粒度角色分类,以揭示实体如何被描绘为主角、反派或无辜者,使用一个独特的分类法,将22个细粒度角色嵌套在这三个主要类别下。该系统支持五种语言(保加利亚语、英语、印地语、俄语和葡萄牙语)和两个领域(俄乌冲突和气候变化)。它提供了一个交互式网络界面,供媒体分析师探索和比较不同来源的框架,解决了自动检测和标注实体框架的挑战。我们的系统允许终端用户专注于单篇文章,也可以同时分析多达四篇文章。我们提供汇总级别的分析,包括一个直观的图形可视化,突出一组文章所推动的叙事。我们的系统包括一个搜索功能,供用户查找感兴趣的实体,以及一个时间线视图,允许分析师跟踪实体在文章中不同背景下的角色转换。FRaN-X系统和训练模型是根据MIT许可证授权的。FRaN-X可以通过此https URL公开访问,并且可以在此https URL观看视频演示。 |
[42] FlexOlmo:用于灵活数据使用的开放语言模型 标题: FlexOlmo: Open Language Models for Flexible Data Use 作者: Weijia Shi / Akshita Bhagia / Kevin Farhat / Niklas Muennighoff / Pete Walsh / Jacob Morrison / Dustin Schwenk / Shayne Longpre / Jake Poznanski / Allyson Ettinger / Daogao Liu / Margaret Li / Dirk Groeneveld / Mike Lewis / Wen-tau Yih / Luca Soldaini / Kyle Lo / Noah A. Smith / Luke Zettlemoyer / Pang Wei Koh / Hannaneh Hajishirzi / Ali Farhadi / Sewon Min 原文: [英文] [中文] 备注: None 摘要: 我们介绍了FlexOlmo,这是一类新的语言模型(LMs),支持以下功能:(1) 无需数据共享的分布式训练,不同的模型参数可以在封闭数据集上独立训练;(2) 数据灵活推理,这些参数及其相关数据可以灵活地包含或排除在模型推理中,无需进一步训练。FlexOlmo采用专家混合(MoE)架构,其中每个专家在封闭数据集上独立训练,随后通过新的领域知情路由进行集成,无需联合训练。FlexOlmo在我们策划的FlexMix语料库上进行训练,该语料库包括公开可用的数据集以及七个特定领域的数据集,代表封闭集的现实近似。我们在31个不同的下游任务上评估了参数多达370亿(其中200亿为活跃参数)的模型。我们展示了一个在公共数据上训练的通用专家可以有效地与其他数据所有者独立训练的专家结合,带来平均41%的相对改进,同时允许用户根据数据许可或权限要求选择退出某些数据。我们的方法还平均比之前的模型合并方法高出10.1%,并且在使用相同训练FLOPs的情况下,超过了在没有数据限制的情况下训练的标准MoE。总之,这项研究为拥有敏感或受保护数据的受监管行业中的数据所有者和研究人员提供了一个解决方案。FlexOlmo在尊重数据所有者偏好的同时,通过保持数据本地化并支持推理期间的数据访问细粒度控制,使得从封闭数据中获益成为可能。 |
[43] UniConv:在对话中统一检索和响应生成的大型语言模型 标题: UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations 作者: Fengran Mo / Yifan Gao / Chuan Meng / Xin Liu / Zhuofeng Wu / Kelong Mao / Zhengyang Wang / Pei Chen / Zheng Li / Xian Li / Bing Yin / Meng Jiang 原文: [英文] [中文] 备注: Accepted by ACL 2025 (main) 摘要: 会话搜索系统的快速发展通过实现用户与系统之间的多轮互动,彻底改变了信息获取的方式。现有的会话搜索系统通常由两个不同的模型构建。这种分离限制了系统同时利用模型的内在知识,无法确保检索的有效性有利于生成。现有研究在开发统一模型时无法完全解决理解会话上下文、独立管理检索和生成响应的各个方面。在本文中,我们探讨如何在会话中统一密集检索和响应生成的大型语言模型。我们进行不同目标的联合微调,并设计了两种机制以减少不一致风险,同时缓解数据差异。在五个会话搜索数据集上的评估表明,我们的统一模型可以相互提升两个任务,并优于现有的基线。 |
[44] 用于语言生成的离散扩散模型 标题: Discrete Diffusion Models for Language Generation 作者: Ashen Weligalle 原文: [英文] [中文] 备注: pdfLaTeX, 69 pages with 21 figures, Licentiate Thesis 摘要: 扩散模型已经成为一类强大的生成模型,在图像和视频生成等连续数据领域取得了最先进的成果。其核心机制包括一个正向扩散过程,该过程逐渐将结构化数据转化为类似高斯分布的形式,随后通过学习的逆过程重建数据。虽然在连续模态中取得了成功,但将这一框架应用于离散数据,特别是自然语言,仍然具有挑战性,因为存在令牌依赖的复杂性以及缺乏明确的生成过程。本文探讨了离散扩散模型在自然语言生成中的可行性和性能。具体而言,我们评估了离散去噪扩散概率模型(D3PM),并与传统的自回归(AR)语言模型进行比较。为了评估生成性能,我们使用了每个令牌的比特数(BPT)、负对数似然(NLL)、困惑度(PPL)和批处理速度。结果显示,表现最佳的D3PM模型实现了5.72的BPT,平均值为8.05。AR模型在压缩方面表现更佳,平均BPT为4.59,但D3PM在处理速度上更具优势,达到每秒3.97批,显示出并行处理的潜力。所有评估均在一致条件下进行——每个模型生成100,000个令牌,批大小固定为四,以确保公平比较。该研究详细分析了基于扩散的模型与自回归模型之间的对比,强调了生成质量和效率之间的权衡。研究结果既展示了扩散模型在离散数据上的潜力,也指出了其局限性,支持未来在非自回归语言生成方面的工作。 |