![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年4月15日更新论文97篇
|
[1] 在大型语言模型架构中,相似深度的层生成相似的激活 标题: Layers at Similar Depths Generate Similar Activations Across LLM Architectures 作者: Christopher Wolfram / Aaron Schein 原文: [英文] [中文] 备注: None 摘要: 独立训练的大型语言模型(LLM)所使用的潜在空间之间有何关系?我们研究了由24个开放权重LLM在不同层的激活所引发的最近邻关系,发现它们1)在一个模型内的不同层之间往往有所变化,2)在不同模型的对应层之间大致共享。结论2表明这些最近邻关系并非随意的,因为它们在不同模型之间共享,但结论1表明它们也不是“显而易见”的,因为没有一个单一的最近邻关系集是普遍共享的。综合来看,这些结果表明LLM在层与层之间生成了一系列激活几何形态,但整个过程在不同模型之间大致共享,并根据不同的架构进行拉伸和压缩以适应。 |
[2] SemCAFE:当命名实体产生差异时,通过实体级分析评估网络来源的可靠性 标题: SemCAFE: When Named Entities make the Difference Assessing Web Source Reliability through Entity-level Analytics 作者: Gautam Kishore Shahi / Oshani Seneviratne / Marc Spaniol 原文: [英文] [中文] 备注: None 摘要: 随着从传统媒体向数字媒体的转变,在线环境中不仅存在可靠的新闻文章,还充斥着大量不可靠的内容。数字媒体通过显著影响公众舆论和推进政治议程,具有更快的传播能力。虽然报纸读者可能熟悉他们偏好的媒体的政治倾向或可信度,但确定不可靠的新闻文章要困难得多。许多在线来源的可信度往往不透明,人工智能生成的内容可以以极低的成本轻松传播。不可靠的新闻文章,特别是在2022年俄罗斯入侵乌克兰之后的那些,紧密模仿可信来源的主题和写作风格,使得它们难以区分。为了解决这个问题,我们引入了SemCAFE,一个通过将实体相关性纳入评估来检测新闻可靠性的系统。SemCAFE采用标准的自然语言处理技术,如模板移除和标记化,并结合使用YAGO知识库进行实体级语义分析。通过为每篇新闻文章创建语义指纹,SemCAFE能够评估46,020篇可靠文章和3,407篇关于2022年俄罗斯入侵乌克兰的不可靠文章的可信度。与最先进的方法相比,我们的方法将宏观F1得分提高了12%。样本数据和代码可在GitHub上获取。 |
[3] 从标记到格子:语言模型中出现的格子结构 标题: From Tokens to Lattices: Emergent Lattice Structures in Language Models 作者: Bo Xiong / Steffen Staab 原文: [英文] [中文] 备注: ICLR 2025 摘要: 预训练的掩码语言模型(MLMs)在理解和编码概念知识方面表现出令人印象深刻的能力,揭示了概念之间的格结构。这引发了一个关键问题:这种概念化是如何从MLM的预训练中产生的?在本文中,我们从形式概念分析(FCA)的角度探讨这个问题,FCA是一个从对象-属性关系的观察中推导出概念格的数学框架。我们表明,MLM的目标隐含地学习了一个描述对象、属性及其依赖关系的\emph{形式背景},这使得通过FCA重构概念格成为可能。我们提出了一个从预训练的MLM中构建概念格的新框架,并研究了MLM在格结构学习中的归纳偏差的起源。我们的框架不同于以往的工作,因为它不依赖于人为定义的概念,并允许发现超出人类定义的“潜在”概念。我们创建了三个数据集用于评估,实证结果验证了我们的假设。 |
[4] 人工智能能否掌握施工管理(CM)?在CM认证考试中对最先进的大型语言模型进行基准测试 标题: Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams 作者: Ruoxin Xiong / Yanyu Wang / Suat Gunhan / Yimin Zhu / Charles Berryman 原文: [英文] [中文] 备注: None 摘要: 建筑管理(CM)项目的复杂性日益增加,加上严格的监管要求和劳动力短缺等挑战,需要专门的分析工具来简化项目工作流程并提高性能。尽管大型语言模型(LLMs)在一般推理任务中表现出色,但它们在解决CM特定挑战(如精确的定量分析和法规解读)方面的有效性仍未得到充分探索。为弥补这一差距,本研究引入了CMExamSet,这是一个综合性的基准数据集,由四个国家认证的CM认证考试中提取的689道真实的多项选择题组成。我们的零样本评估考察了整体准确性、学科领域(如建筑安全)、推理复杂性(单步和多步)以及问题格式(仅文本、图形参考和表格参考)。结果表明,GPT-4o和Claude 3.7的平均准确率分别为82%和83%,超过了典型的人类及格线(70%)。此外,这两个模型在单步任务中表现更好,准确率分别为85.7%(GPT-4o)和86.7%(Claude 3.7)。多步任务更具挑战性,将性能分别降低到76.5%和77.6%。此外,这两个LLM在图形参考问题上表现出显著的局限性,准确率下降到约40%。我们的错误模式分析进一步揭示,概念误解是最常见的(44.4%和47.9%),这突显了增强领域特定推理模型的必要性。这些发现强调了LLMs作为CM中有价值的补充分析工具的潜力,同时也强调了在复杂决策中需要领域特定的改进和持续的人类监督。 |
[5] 通过协同过滤高效评估大型语言模型 标题: Efficient Evaluation of Large Language Models via Collaborative Filtering 作者: Xu-Xiang Zhong / Chao Yi / Han-Jia Ye 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型(LLMs)的发展,已经提出了许多基准来衡量和比较不同LLMs的能力。然而,由于测试实例数量庞大且推理速度缓慢,评估LLMs的成本很高。在本文中,我们旨在探索如何基于模型在从基准中抽取的少量实例上的评估结果,高效地估计模型在给定基准上的真实性能。受推荐系统(RS)中的协同过滤(CF)启发,我们将LLMs视为用户,将测试实例视为物品,并提出了一种两阶段方法。在第一阶段,我们将实例选择视为向用户推荐产品,以选择能够轻松区分模型性能的实例。在第二阶段,我们将性能预测视为RS中的评分预测问题,以预测目标LLM在未选择实例上的表现。在多个LLMs和数据集上的实验表明,我们的方法可以在大幅减少推理开销的同时,准确估计目标模型的性能。 |
[6] 使用跨语言数据增强提升低资源巴基斯坦语言中的命名实体识别性能 标题: Enhancing NER Performance in Low-Resource Pakistani Languages using Cross-Lingual Data Augmentation 作者: Toqeer Ehsan / Thamar Solorio 原文: [英文] [中文] 备注: Accepted to W-NUT 2025 @ NAACL 摘要: 命名实体识别(NER)是自然语言处理(NLP)中的一项基础任务,在高资源语言方面已经取得了显著进展。然而,由于缺乏标注数据集和预训练语言模型(PLMs)中的有限表示,对于低资源语言来说,这一任务仍然研究不足且具有挑战性。为了解决这些挑战,我们提出了一种数据增强技术,该技术生成文化上合理的句子,并在四种低资源的巴基斯坦语言上进行实验:乌尔都语、Shahmukhi、信德语和普什图语。通过微调多语言掩码大型语言模型(LLMs),我们的方法在Shahmukhi和普什图语的NER性能上显示出显著的改进。我们进一步探索了生成式LLMs在NER和使用少样本学习进行数据增强方面的能力。 |
[7] 探索基于梯度引导的掩码语言模型以检测文本对抗攻击 标题: Exploring Gradient-Guided Masked Language Model to Detect Textual Adversarial Attacks 作者: Xiaomei Zhang / Zhaoxi Zhang / Yanjun Zhang / Xufei Zheng / Leo Yu Zhang / Shengshan Hu / Shirui Pan 原文: [英文] [中文] 备注: None 摘要: 文本对抗样本对自然语言处理系统的可靠性构成了严重威胁。最近的研究表明,对抗样本往往偏离正常文本的底层流形,而预训练的掩码语言模型可以近似正常数据的流形。这些发现激发了利用掩码语言模型来检测文本对抗攻击的探索。我们首先介绍了基于掩码语言模型的检测方法(MLMD),利用掩码语言建模(MLM)目标的掩码和去掩码操作来引导正常文本和对抗文本之间流形变化的差异。尽管MLMD实现了具有竞争力的检测性能,但其逐一掩码的策略引入了显著的计算开销。我们的后续分析表明,输入中的大量非关键词对检测并不重要,但却消耗了资源。在此基础上,我们引入了梯度引导的MLMD(GradMLMD),该方法利用梯度信息在检测过程中识别并跳过非关键词,从而在不影响检测性能的情况下显著减少资源消耗。 |
[8] 探索基于大型语言模型的时间序列模型中文本的有效性和可解释性 标题: Exploring the Effectiveness and Interpretability of Texts in LLM-based Time Series Models 作者: Zhengke Sun / Hangwei Qian / Ivor Tsang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)已被应用于时间序列预测任务,利用预训练语言模型作为基础,并结合文本数据以据称增强LLMs在时间序列方面的综合能力。然而,这些文本真的对解释有帮助吗?本研究旨在探讨这种文本结合的实际效能和可解释性。通过一系列关于文本提示和文本原型的实证实验,我们的研究结果揭示了两种模态之间存在不对齐现象,并且在许多情况下,文本信息并未显著提高时间序列预测性能。此外,视觉化分析表明,现有框架学习到的文本表示在应用于时间序列数据时缺乏足够的可解释性。我们进一步提出了一种新的度量标准,称为语义匹配指数(SMI),以更好地评估时间序列与文本之间的匹配程度,在我们的事后可解释性调查中。我们的分析揭示了当前时间序列LLMs中文本的不对齐和有限的可解释性,我们希望本研究能够提高对时间序列文本可解释性的关注。代码可在此https URL获取。 |
[9] CAReDiO:通过代表性和独特性引导的数据优化实现大语言模型的文化对齐 标题: CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization 作者: Jing Yao / Xiaoyuan Yi / Jindong Wang / Zhicheng Dou / Xing Xie 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型(LLMs)在各个地区更深入地融入人类生活,将其与多元文化对齐对于改善用户体验和缓解文化冲突至关重要。现有的方法主要通过使用大量精心策划的特定文化语料库进行微调来开发文化对齐的LLMs。然而,受文化理论启发,我们识别出这些数据集面临的两个关键挑战:(1)代表性:这些语料库未能充分捕捉目标文化的核心特征,存在冗余,导致计算浪费;(2)独特性:它们难以区分给定文化的独特细微差别与其他相关文化的共享模式,阻碍了精确的文化建模。为应对这些挑战,我们引入了CAReDiO,一种新颖的文化数据构建框架。具体而言,CAReDiO利用强大的LLMs自动生成文化对话数据,其中查询和响应通过最大化代表性和独特性进一步优化。使用CAReDiO,我们构建了一个小而有效的数据集,涵盖五种文化,并与几个最近的文化语料库进行了比较。大量实验表明,我们的方法生成了更有效的数据,并能够通过仅100个训练样本实现文化对齐,提升了性能和效率。 |
[10] SD$^2$: 自蒸馏稀疏起草者 标题: SD$^2$: Self-Distilled Sparse Drafters 作者: Mike Lasby / Nish Sinnadurai / Valavan Manohararajah / Sean Lie / Vithursan Thangarasa 原文: [英文] 备注: 21 pages 摘要: 推测解码是一种强大的技术,可以减少大型语言模型(LLMs)的延迟,提供一个容错框架,使得可以使用高度压缩的草稿模型。在这项工作中,我们引入了自蒸馏稀疏草稿模型(SD$^2$),这是一种新颖的方法,利用自数据蒸馏和细粒度权重稀疏性来生成高效且高度对齐的草稿模型。SD$^2$系统地提高了草稿标记的接受率,同时显著减少了乘加运算(MACs),即使在通用辅助生成(UAG)设置中,草稿和目标模型来自不同的模型家族。在一个Llama-3.1-70B目标模型上,SD$^2$相比于层剪枝草稿模型提供了1.59倍更高的平均接受长度(MAL),并且相比于密集草稿模型减少了超过43.87%的MACs,同时MAL仅减少了8.36%。我们的结果突显了稀疏感知微调和压缩策略在提高LLM推理效率的潜力,同时保持与目标模型的对齐。 |
[11] 通过对话生成预测沟通脱轨 标题: Forecasting Communication Derailments Through Conversation Generation 作者: Yunfan Zhang / Kathleen McKeown / Smaranda Muresan 原文: [英文] [中文] 备注: None 摘要: 预测沟通失误在现实世界中具有重要意义,例如在线内容审核、冲突解决和商业谈判。然而,尽管语言模型在识别对话中的攻击性言论方面取得了成功,它们在预测未来的沟通失误方面仍然存在困难。与之前仅根据过去对话历史预测对话结果的工作不同,我们的方法使用经过微调的大型语言模型(LLM),在现有对话历史的基础上采样多个未来对话轨迹。它根据这些轨迹的一致性预测沟通结果。我们还尝试利用反映对话动态的社会语言属性作为生成未来对话的指导。在英语沟通失误预测基准测试中,我们的方法超越了现有的最先进结果,并在消融研究中显示出显著的准确性提升。 |
[12] 使用大型语言模型为开放式编程练习生成规划反馈 标题: Generating Planning Feedback for Open-Ended Programming Exercises with LLMs 作者: Mehmet Arif Demirtaş / Claire Zheng / Max Fowler / Kathryn Cunningham 原文: [英文] [中文] 备注: Accepted as full paper at AIED 2025 摘要: 为了完成一个开放式编程练习,学生需要既规划一个高层次的解决方案,又使用适当的语法来实现它。然而,这些问题通常通过测试用例在最终提交的正确性上进行自动评分,学生无法获得关于其规划过程的反馈。大型语言模型(LLM)可能能够通过检测整体代码结构来生成这种反馈,即使提交的代码存在语法错误。为此,我们提出了一种方法,利用LLM检测学生程序中存在的高层次目标和模式(即编程计划)。我们展示了完整的GPT-4o模型和一个小型变体(GPT-4o-mini)都能以显著的准确性检测这些计划,优于受传统代码分析方法启发的基线。我们进一步展示了经过微调后,较小且成本效益高的变体(GPT-4o-mini)能够达到与最先进的模型(GPT-4o)相当的效果,为实时评分的小型模型创造了有希望的前景。这些较小的模型可以被整合到开放式代码编写练习的自动评分器中,为学生的隐性规划技能提供反馈,即使他们的程序在语法上不正确。此外,LLM可能在其他领域的问题中提供反馈,这些领域中学生从一组高层次解决步骤开始并迭代计算输出,例如数学和物理问题。 |
[13] 用于会话话语标注的全自动化流程:树方案生成与大型语言模型标注 标题: A Fully Automated Pipeline for Conversational Discourse Annotation: Tree Scheme Generation and Labeling with Large Language Models 作者: Kseniia Petukhova / Ekaterina Kochmar 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展显示出在自动化对话的语篇标注方面的潜力。虽然手动设计树状标注方案显著提高了人类和模型的标注质量,但其创建仍然耗时且需要专业知识。我们提出了一种完全自动化的流程,利用LLMs来构建此类方案并进行标注。我们在语音功能(SFs)和Switchboard-DAMSL(SWBD-DAMSL)分类法上评估了我们的方法。我们的实验比较了各种设计选择,并展示了频率引导的决策树与先进的LLM配对进行标注时,可以超越之前手动设计的树,甚至可以匹敌或超越人类标注者,同时显著减少标注所需的时间。我们发布了所有代码以及生成的方案和标注,以促进未来关于语篇标注的研究。 |
[14] 从笑点到预测:评估大型语言模型在识别单口喜剧幽默表现的指标 标题: From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy 作者: Adrianna Romanowski / Pedro H. V. Valois / Kazuhiro Fukui 原文: [英文] [中文] 备注: Accepted to CMCL2025 @ NAACL 摘要: 喜剧是我们生活时代的深刻反映,也是人类互动的重要元素。随着大型语言模型(LLMs)的广泛应用,幽默与人工智能的交汇已不再是一个笑话。人机交互自然性的进步与AI系统理解幽默能力的提升密切相关。在这项研究中,我们评估了模型从单口喜剧文本中准确识别幽默引语的能力。单口喜剧独特的喜剧情节使其成为提高喜剧理解自然性的理想数据集。我们提出了一种新颖的幽默检测指标,旨在评估LLMs在不同提示下提取幽默笑点的能力。该指标具有模块化结构,提供三种不同的评分方法——模糊字符串匹配、句子嵌入和子空间相似性——以全面评估模型的表现。模型的结果与人类评估者在相同任务上的表现进行了比较。我们的指标显示,无论提示工程如何,领先的模型ChatGPT、Claude和DeepSeek在幽默检测中最多能达到51%的得分。值得注意的是,这一表现超过了人类的41%得分。对人类评估者和LLMs的分析揭示了意见的一致性差异,突显了幽默中固有的主观性以及从现场表演文本中提取幽默引语的复杂性。代码可在此https URL获取。 |
[15] 面向叙述文本的计划引导摘要探索:小型语言模型的案例 标题: Exploration of Plan-Guided Summarization for Narrative Texts: the Case of Small Language Models 作者: Matt Grenander / Siddharth Varia / Paula Czarnowska / Yogarshi Vyas / Kishaloy Halder / Bonan Min 原文: [英文] [中文] 备注: Accepted to the 7th Workshop on Narrative Understanding (WNU), co-located with NAACL 2025 摘要: 计划引导的摘要尝试通过将生成的摘要与源文本进行对比来减少小型语言模型(SLMs)中的幻觉,通常通过针对细粒度的细节,如日期或命名实体。在这项工作中,我们研究了计划引导的方法在SLMs中是否能改善长文档叙述任务中的摘要。叙述文本的长度和复杂性通常意味着它们难以忠实地进行摘要。我们分析了现有针对细粒度细节的计划引导解决方案,并提出了我们自己的更高层次的叙述性计划制定。我们的结果表明,无论是摘要质量还是忠实性,任何一种方法都没有显著改善不使用计划的基线。人工评估显示,尽管计划引导的方法通常与其计划紧密结合,但计划与摘要相比同样可能包含幻觉。因此,计划引导的摘要与没有计划的模型生成的摘要一样不忠实。我们的工作对计划引导的摘要方法,尤其是针对长而复杂的领域如叙述文本,提出了警示。 |
[16] 一种多视角话语框架:在对话代理中整合语义和句法特征 标题: A Multi-view Discourse Framework for Integrating Semantic and Syntactic Features in Dialog Agents 作者: Akanksha Mehndiratta / Krishna Asawa 原文: [英文] [中文] 备注: None 摘要: 多轮对话模型旨在通过利用由先前交流的语句组成的对话上下文生成类似人类的回应。现有方法通常忽视这些语句之间的互动或将它们视为同等重要。本文介绍了一种面向话语的框架,用于基于检索的对话系统中的回应选择。所提出的模型首先使用多视图典型相关分析(MCCA)对每个语句和回应进行编码,结合上下文、位置和句法特征。然后,它通过典型相关分析(CCA)学习话语标记,这些标记在共享子空间中捕捉语句与其周围轮次之间的关系。这种两步方法有效地整合了语义和句法特征,以构建话语层次的理解。在Ubuntu对话语料库上的实验表明,我们的模型在自动评估指标上取得了显著的改进,突出了其在回应选择中的有效性。 |
[17] 使用深度典型相关分析增强具有语篇级理解的对话系统 标题: Enhancing Dialogue Systems with Discourse-Level Understanding Using Deep Canonical Correlation Analysis 作者: Akanksha Mehndiratta / Krishna Asawa 原文: [英文] 备注: None 摘要: 会话代理的演变是由对更具上下文意识的系统的需求驱动的,这些系统可以有效地管理长时间交互中的对话。为了解决现有模型在捕捉和利用长期会话历史方面的局限性,我们提出了一个新颖的框架,该框架整合了深度典型相关分析(DCCA)以实现话语层次的理解。这个框架学习话语标记,以捕捉话语与其周围上下文之间的关系,从而更好地理解长期依赖关系。在Ubuntu对话语料库上的实验表明,基于改进的自动评估指标分数,响应选择得到了显著提升。结果突显了DCCA在改进对话系统方面的潜力,使其能够过滤掉无关的上下文,并保留关键的话语信息,以实现更准确的响应检索。 |
[18] 优化用于电磁学的FDTD求解器:一种结合高级张量抽象的编译器引导方法 标题: Optimizing FDTD Solvers for Electromagnetics: A Compiler-Guided Approach with High-Level Tensor Abstractions 作者: Yifei He / Måns I. Andersson / Stefano Markidis 原文: [英文] [中文] 备注: None 摘要: 有限差分时域(FDTD)方法是一种广泛使用的数值技术,用于求解麦克斯韦方程,特别是在计算电磁学和光子学领域。它能够准确地模拟复杂介质和结构中的波传播,但也带来了显著的计算挑战。传统的FDTD实现依赖于手写的、平台特定的代码,这些代码在优化某些内核时表现良好,但在其他内核上表现不佳。缺乏可移植性增加了开发开销,并造成性能瓶颈,限制了在现代硬件架构上的可扩展性。为了解决这些挑战,我们引入了一种基于MLIR/LLVM基础设施的端到端领域特定编译器,用于FDTD模拟。我们的方法生成高效且可移植的代码,优化适用于多种硬件。此实现将三维FDTD内核作为在三维张量抽象上的操作,具有明确的计算语义。编译器自动应用诸如循环块划分、融合和向量化等高级优化。我们在Intel、AMD和ARM平台上评估了我们的定制代码生成管道,相较于使用NumPy的基线Python实现,达到了最高10倍的加速。 |
[19] VisuoThink:通过多模态树搜索增强大视觉语言模型的推理能力 标题: VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search 作者: Yikun Wang / Siyin Wang / Qinyuan Cheng / Zhaoye Fei / Liang Ding / Qipeng Guo / Dacheng Tao / Xipeng Qiu 原文: [英文] [中文] 备注: 12 pages 摘要: 最近在大型视觉语言模型方面的进展展示了其卓越的能力。然而,当面对复杂的推理任务时,这些模型往往表现不佳,而这些任务通常需要人类通过视觉辅助和有意识的、逐步的思考来解决。尽管现有的方法已经探索了基于文本的慢思考或基本的视觉辅助,但它们未能捕捉到人类视觉-语言推理过程中复杂而交错的本质。为了克服这些限制,并受到人类认知中慢思考机制的启发,我们引入了VisuoThink,这是一种新颖的框架,能够无缝整合视觉空间和语言领域。VisuoThink通过启用渐进的视觉-文本推理来促进多模态慢思考,并通过前瞻树搜索在测试时进行扩展。大量实验表明,VisuoThink通过推理时的扩展显著增强了推理能力,即使在没有微调的情况下,也在涉及几何和空间推理的任务中达到了最先进的性能。 |
[20] 大型语言模型的高效且渐近无偏约束解码 标题: Efficient and Asymptotically Unbiased Constrained Decoding for Large Language Models 作者: Haotian Ye / Himanshu Jain / Chong You / Ananda Theertha Suresh / Haowei Lin / James Zou / Felix Yu 原文: [英文] 备注: None 摘要: 在大型语言模型的实际应用中,输出通常需要受到限制:从预定义的产品或文档集合中选择项目,生成符合安全标准的短语,或遵循特定的格式样式。为了控制生成过程,广泛采用了约束解码。然而,现有的基于前缀树的约束解码在基于GPU的模型推理范式下效率低下,并且在输出分布中引入了意外的偏差。本文介绍了一种新的算法,称为动态重要性采样约束解码(DISC),结合了基于GPU的并行前缀验证(PPV),利用动态重要性采样实现理论上保证的渐近无偏性,并克服了前缀树的低效问题。大量实验表明,我们的方法在效率和输出质量方面优于现有方法。这些结果突显了我们的方法在需要严格遵循特定约束的应用中改善约束生成的潜力。 |
[21] 研究生翻译专业学生能否识别机器生成的文本? 标题: Can postgraduate translation students identify machine-generated text? 作者: Michael Farrell 原文: [英文] 备注: 10 pages, accepted for MT Summit 2025, Geneva, Switzerland, 23-27 June 2025 摘要: 鉴于生成式人工智能在创建多语言内容方面的日益广泛使用,以及其绕过机器和传统翻译方法的能力,本研究探讨了经过语言训练的个体辨别机器生成文本与人类撰写文本(HT)的能力。在简短的培训课程中,研究对象学习了合成文本(ST)中常见的文本异常,随后23名翻译专业的研究生分析了意大利散文的片段,并给出可能性评分,以表明他们认为这些文本是人类撰写的还是由AI生成的(ChatGPT-4o)。结果显示,学生们平均上难以区分HT和ST,只有两名参与者取得了显著的准确率。进一步分析表明,学生们经常在HT和ST中识别出相同的文本异常,尽管低突发性和自相矛盾等特征更常与ST相关联。这些发现表明在准备性培训中需要改进。此外,研究还提出了关于是否需要编辑合成文本以使其听起来更像人类撰写的必要性的问题,并建议进一步研究以确定AI生成的文本是否已经足够自然,无需进一步润色。 |
[22] Langformers:用于语言模型的统一NLP流程 标题: Langformers: Unified NLP Pipelines for Language Models 作者: Rabindra Lamsal / Maria Rodriguez Read / Shanika Karunasekera 原文: [英文] [中文] 备注: None 摘要: 基于Transformer的语言模型已经彻底改变了自然语言处理(NLP)领域。然而,使用这些模型通常需要处理多个框架和工具,并编写重复的样板代码。这种复杂性可能会让非程序员和初学者感到气馁,甚至会减缓有经验开发者的原型开发速度。为了解决这些挑战,我们引入了Langformers,这是一个开源的Python库,旨在通过一个统一的、基于工厂的接口来简化大型语言模型(LLM)和掩码语言模型(MLM)任务的NLP流程。Langformers将对话式AI、MLM预训练、文本分类、句子嵌入/重排序、数据标注、语义搜索和知识蒸馏整合到一个统一的API中,支持Hugging Face和Ollama等流行平台。其关键创新包括:(1)任务特定的工厂,抽象出训练、推理和部署的复杂性;(2)为对话代理内置的内存和流处理;(3)轻量级、模块化设计,优先考虑易用性。文档:this https URL |
[23] 使用SimpleStories进行参数化合成文本生成 标题: Parameterized Synthetic Text Generation with SimpleStories 作者: Lennart Finke / Thomas Dooms / Mat Allen / Juan Diego Rodriguez / Noa Nabeshima / Dan Braun 原文: [英文] [中文] 备注: None 摘要: 我们介绍了SimpleStories,这是一个用简单语言编写的大型合成故事数据集,包括200万篇英语和日语故事。我们的方法通过在多个抽象层次上对提示进行参数化,允许系统地控制故事特征,以确保广泛的句法和语义多样性。在借鉴并解决TinyStories数据集局限性的基础上,我们的方法展示了在大规模合成文本生成中,简单性和多样性可以同时实现。 |
[24] 特征感知的恶意输出检测与缓解 标题: Feature-Aware Malicious Output Detection and Mitigation 作者: Weilong Dong / Peiguang Li / Yu Tian / Xinyi Zeng / Fengdi Li / Sirui Wang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的快速发展在为各个领域带来显著益处的同时,也引入了巨大的风险。尽管通过强化学习进行了微调,LLMs 仍然缺乏识别恶意内容的能力,这限制了它们对越狱攻击的防御能力。为了解决这些安全问题,我们提出了一种特征感知的有害响应拒绝方法(FMM),该方法检测模型特征空间中的恶意特征,并自适应地调整模型的拒绝机制。通过使用一个简单的判别器,我们在解码阶段检测潜在的恶意特征。当检测到有毒标记的特征时,FMM 会重新生成当前标记。通过使用激活补丁,在后续标记生成过程中加入一个额外的拒绝向量,引导模型做出拒绝响应。实验结果表明,我们的方法在多个语言模型和多种攻击技术中都表现出有效性,同时关键地保持了模型的标准生成能力。 |
[25] 通过语义多样性增强对比示例选择以实现稳健的上下文内机器翻译 标题: Enhancing Contrastive Demonstration Selection with Semantic Diversity for Robust In-Context Machine Translation 作者: Owen Patterson / Chee Ng 原文: [英文] [中文] 备注: None 摘要: 上下文学习(In-Context Learning, ICL)通过对少量输入-输出示例进行条件化,使大型语言模型能够执行任务。然而,ICL 的性能对这些示例的选择非常敏感。现有方法虽然专注于相似性或对比选择,但往往忽视了所选示例之间多样性的重要性。在本文中,我们提出了 DiverseConE(多样性增强对比示例选择),这是一种用于机器翻译中上下文学习的示例选择新方法。我们的方法在对比选择的基础上,通过基于嵌入空间不相似性的多样性增强步骤进行改进。我们在 Llama2-7b 模型上针对四种语言对(英-中、中-英、俄-德、德-俄)进行了广泛的实验,采用 1-shot 和 3-shot 设置,并使用 COMET20 和 COMET22 进行评估。我们的结果表明,DiverseConE 始终优于强基线方法,包括随机选择、BM25、TopK 和一种最新的对比选择方法。进一步的分析,包括多样性指标和人工评估,验证了我们方法的有效性,并强调了考虑示例多样性对提高翻译质量的好处。 |
[26] 利用大型语言模型和指令提示提高法律文档标记的准确性和效率 标题: Improving the Accuracy and Efficiency of Legal Document Tagging with Large Language Models and Instruction Prompts 作者: Emily Johnson / Xavier Holt / Noah Wilson 原文: [英文] [中文] 备注: None 摘要: 法律多标签分类是组织和访问大量法律文档的关键任务。尽管其重要性不言而喻,但该任务面临着法律语言的复杂性、标签依赖的错综复杂以及标签不平衡等挑战。在本文中,我们提出了一种新颖的方法——Legal-LLM,该方法通过微调利用大型语言模型(LLM)的指令跟随能力。我们将多标签分类任务重新构建为一个结构化生成问题,指导LLM直接输出给定文档的相关法律类别。我们在两个基准数据集POSTURE50K和EURLEX57K上使用micro-F1和macro-F1分数评估我们的方法。实验结果表明,Legal-LLM优于一系列强大的基线模型,包括传统方法和其他基于Transformer的方法。此外,消融研究和人工评估验证了我们方法的有效性,特别是在处理标签不平衡和生成相关且准确的法律标签方面。 |
[27] QUDsim:量化大型语言模型生成文本中的话语相似性 标题: QUDsim: Quantifying Discourse Similarities in LLM-Generated Text 作者: Ramya Namuduri / Yating Wu / Anshun Asher Zheng / Manya Wadhwa / Greg Durrett / Junyi Jessy Li 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型在各种写作任务中变得越来越有能力,它们在生成独特和创造性内容方面的弱点成为一个主要的缺陷。虽然大型语言模型能够生成涵盖多种主题的文本,但我们旨在通过一种相似性度量来形式化和量化文本之间整体上的重复感。文档之间的熟悉感源于潜在话语结构的持续存在。然而,现有的相似性度量依赖于词汇重叠和句法模式,主要捕捉的是内容重叠,因此不适合检测结构相似性。我们引入了一种基于“讨论中的问题”(QUD)和问题语义的语言理论的抽象,以帮助量化话语进展的差异。然后,我们使用这个框架构建了QUDsim,一种可以检测文档之间话语相似性的相似性度量。使用QUDsim,我们发现大型语言模型在样本之间经常重复使用话语结构(比人类更甚),即使内容不同。此外,大型语言模型不仅重复且结构统一,而且在使用的结构类型上与人类作者存在差异。 |
[28] 你能将其映射到英语吗?跨语言对齐在大型语言模型多语言性能中的作用 标题: Can you map it to English? The Role of Cross-Lingual Alignment in Multilingual Performance of LLMs 作者: Kartik Ravisankar / Hyojung Han / Marine Carpuat 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)主要在英文文本上进行预训练,展现出令人惊讶的多语言能力,但驱动跨语言泛化的机制仍然知之甚少。本文研究了不同语言文本的表示对齐如何与LLM在自然语言理解任务和翻译任务中的表现相关联,分析的层面包括语言层面和实例层面。为此,我们引入了跨语言对齐指标,如判别对齐指数(DALI),以量化判别任务中实例层面的对齐情况。通过在三个自然语言理解任务(Belebele、XStoryCloze、XCOPA)和机器翻译上的实验,我们发现,尽管跨语言对齐指标在语言层面上与任务准确性高度相关,但在样本层面上,对齐往往无法区分正确和错误的预测,揭示了对齐是成功的必要但不充分条件。 |
[29] 关于语言模型对可疑巧合的敏感性 标题: On Language Models' Sensitivity to Suspicious Coincidences 作者: Sriram Padmanabhan / Kanishka Misra / Kyle Mahowald / Eunsol Choi 原文: [英文] [中文] 备注: None 摘要: 人类在对数据进行归纳推理时对可疑的巧合非常敏感,因为他们会对数据的采样方式做出假设。这导致较小、更具体的假设比更一般的假设更受青睐。例如,当提供集合{奥斯汀,达拉斯,休斯顿}时,人们更可能认为这是从“德克萨斯城市”而不是“美国城市”中采样的,尽管两者都是兼容的。可疑的巧合与实用推理密切相关,可以作为分析系统对任务的交流目标(即找出数据背后的真实类别)敏感性的测试平台。在本文中,我们分析了可疑巧合效应是否反映在语言模型(LMs)的行为中。我们在两个领域的背景下进行分析:1)数字游戏,人们判断一个数字(例如,4)是否符合给定数字列表(例如,16, 32, 2);2)通过将数字游戏设置扩展到著名城市。对于这两个领域,数据与多个假设兼容,我们研究哪个假设与模型的行为最一致。在分析五个模型时,我们没有发现语言模型在零样本行为中对可疑巧合有强烈证据。然而,当通过思维链或明确提示提供对假设空间的访问时,语言模型开始表现出类似可疑巧合的效果,有时甚至表现出与人类一致的效果。我们的研究表明,通过明确访问假设景观,可以增强语言模型中的归纳推理行为。 |
[30] 超越记忆:语言模型原创性-质量前沿的探索 标题: Beyond Memorization: Mapping the Originality-Quality Frontier of Language Models 作者: Vishakh Padmakumar / Chen Yueh-Han / Jane Pan / Valerie Chen / He He 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型(LLMs)在创意和科学发现中的应用日益增多,评估其生成新颖输出的能力变得尤为重要。先前的研究将新颖性评估为相对于训练数据的原创性,但原创的输出可能质量较低。相反,非专家评审可能偏好高质量但记忆化的输出,这限制了人类偏好作为衡量标准的可靠性。我们提出了一种新的LLM生成新颖性指标,该指标在原创性和质量之间取得平衡——即训练期间未见过的\ngram比例与任务特定质量评分的调和平均数。我们在三个创意任务上评估了来自两个开放数据模型家族(OLMo和Pythia)的生成新颖性:故事完成、诗歌创作和创意工具使用。我们发现,LLM生成的文本比人类撰写的文本新颖性较低。为了引出更具新颖性的输出,我们尝试了各种推理时方法,这揭示了原创性和质量之间的权衡。虽然这些方法可以提高新颖性,但它们是通过以牺牲质量为代价来增加原创性来实现的。相比之下,增加模型规模或应用后训练可以可靠地改变帕累托前沿,强调从更强的基础模型开始是提高新颖性更有效的方法。 |
[31] 在不完美的基准和评分下的评估:文本简化的案例研究 标题: Evaluation Under Imperfect Benchmarks and Ratings: A Case Study in Text Simplification 作者: Joseph Liu / Yoonsoo Nam / Xinyue Cui / Swabha Swayamdipta 原文: [英文] [中文] 备注: Submitted to COLM 2025. 9 pages, 6 figures 摘要: 尽管语言模型取得了成功,但对新任务和现有任务的评估仍然是一个艰巨的挑战。我们考虑文本简化任务,这通常用于提高信息的可访问性,但在评估时面临两个主要挑战。首先,现有基准中的数据可能无法反映当前语言模型在该任务上的能力,通常包含不流畅、不连贯或过于简单的例子。其次,与基准相关的现有人类评分往往存在高度分歧,导致评分不一致;然而,现有指标仍需与这些不完美的评分显示出较高的相关性。因此,该任务的评估不可靠,且未能反映预期趋势(例如,更强大的模型被赋予更高的分数)。我们通过三个贡献来解决文本简化任务的这些挑战。首先,我们引入了SynthSimpliEval,这是一个文本简化的合成基准,包含由不同规模的模型生成的简化句子。通过一项试点研究,我们表明我们的基准上的人类评分表现出高度的标注者间一致性,并反映了预期趋势:更大的模型产生更高质量的简化。其次,我们表明,使用一组大型语言模型评审团(LLMs-as-a-jury)进行自动评估通常足以获得一致的文本简化评估评分。第三,我们证明,现有的可学习文本简化指标通过在我们的LLMs-as-a-jury评分的合成数据上进行训练而受益,缩小了与纯LLMs-as-a-jury评估的差距。总体而言,通过我们关于文本简化的案例研究,我们表明可靠的评估需要更高质量的测试数据,这可以通过合成数据和LLMs-as-a-jury评分获得。 |
[32] 基于BERT的排序和问答系统的可组合NLP工作流程 标题: Composable NLP Workflows for BERT-based Ranking and QA System 作者: Gaurav Kumar / Murali Mohana Krishna Dandu 原文: [英文] [中文] 备注: 6 pages, 3 figures, 6 tables 摘要: 近年来,构建可扩展到多任务的自然语言处理(NLP)模型取得了很大进展。然而,现实世界的系统包含多个组件,处理具有不同文本粒度的跨任务交互是繁琐的。在这项工作中,我们使用Forte构建了一个端到端的排序和问答(QA)系统,Forte是一个可以组合NLP流水线的工具包。我们在流水线中使用了最先进的深度学习模型,如BERT和RoBERTa,并使用BLUE、MRR、F1等指标在MS-MARCO和Covid-19数据集上评估了性能,并将排序和QA系统的结果与其对应的基准结果进行了比较。我们的流水线的模块化特性和重排序器的低延迟使得构建复杂的NLP应用变得容易。 |
[33] 问题标记值得更多关注:通过逐步阅读和问题注意力再校准,在无需训练的情况下增强大型语言模型 标题: Question Tokens Deserve More Attention: Enhancing Large Language Models without Training through Step-by-Step Reading and Question Attention Recalibration 作者: Feijiang Han / Licheng Guo / Hengtao Cui / Zhiyuan Lyu 原文: [英文] [中文] 备注: CIS 5300 摘要: 大型语言模型(LLMs)在处理需要深入理解复杂问题的任务时常常表现不佳,尤其是在面对长距离依赖或多步骤推理时。本研究探讨了当前LLMs在问题理解方面的局限性,并提出了三个见解:(1)重复问题词可以通过增加对问题区域的关注来改善理解,(2)由于单向注意力限制,增加的反向依赖会对性能产生负面影响,以及(3)重新校准注意力机制以优先考虑与问题相关的区域可以提高性能。 基于这些发现,我们首先提出了一系列基于提示的策略——逐步阅读(SSR)、SSR+和SSR++,这些策略指导LLMs逐步处理问题词,并使其推理与输入结构对齐。这些方法显著提高了性能,其中SSR++在多个基准测试中达到了最先进的结果:在GSM8K上达到96.66%,在ASDiv上达到94.61%,在AQuA上达到76.28%。其次,我们引入了一种无需训练的注意力重新校准机制,该机制在推理过程中动态调整注意力分布,以强调与问题相关的区域。此方法在不改变模型参数或输入提示的情况下,将LLaMA 3.1-8B在AQuA上的准确率提高了5.17%。 综上所述,我们的结果强调了结构化提示设计和注意力优化在提高LLM理解能力中的重要性,为提高各种自然语言处理任务的性能提供了轻量级但有效的工具。 |
[34] UXAgent:一种利用大型语言模型代理模拟网页设计可用性测试的系统 标题: UXAgent: A System for Simulating Usability Testing of Web Design with LLM Agents 作者: Yuxuan Lu / Bingsheng Yao / Hansu Gu / Jing Huang / Jessie Wang / Yang Li / Jiri Gesi / Qi He / Toby Jia-Jun Li / Dakuo Wang 原文: [英文] [中文] 备注: None 摘要: 可用性测试是用户体验(UX)研究人员用来评估和迭代网页设计的基本研究方法,但如何评估和迭代可用性测试研究设计本身呢?最近在大语言模型模拟代理(LLM Agent)研究方面的进展启发我们设计了UXAgent,以支持UX研究人员在进行真实的人体研究之前评估和重新设计他们的可用性测试研究设计。我们的系统具有一个角色生成模块、一个LLM代理模块和一个通用浏览器连接器模块,可以自动生成数千个模拟用户以交互测试目标网站。系统还提供了一个代理访谈界面和一个视频回放界面,使UX研究人员可以轻松查看和分析生成的定性和定量日志数据。通过启发式评估,五位UX研究人员参与者称赞了我们系统的创新,但也对LLM代理在UX研究中的未来使用表示担忧。 |
[35] SaRO:通过基于推理的对齐增强大型语言模型的安全性 标题: SaRO: Enhancing LLM Safety through Reasoning-based Alignment 作者: Yutao Mou / Yuxiao Luo / Shikun Zhang / Wei Ye 原文: [英文] [中文] 备注: None 摘要: 当前大型语言模型(LLMs)的安全对齐技术面临两个关键挑战:(1)泛化不足,使模型容易受到新型越狱攻击的影响,以及(2)过度对齐,导致过度拒绝良性指令。我们的初步研究表明,在嵌入空间中,越狱/有害查询与正常提示之间存在语义重叠,这表明更有效的安全对齐需要更深层次的语义理解。这促使我们将安全策略驱动的推理纳入对齐过程。为此,我们提出了安全导向的推理优化框架(SaRO),该框架包括两个阶段:(1)推理风格热身(RW),通过监督微调使LLMs内化长链推理,以及(2)安全导向的推理过程优化(SRPO),通过直接偏好优化(DPO)促进安全反思。大量实验表明,SaRO优于传统的对齐方法。 |
[36] ClinicalGPT-R1:利用大型语言模型提升通用疾病诊断的推理能力 标题: ClinicalGPT-R1: Pushing reasoning capability of generalist disease diagnosis with large language model 作者: Wuyang Lan / Wenzheng Wang / Changwei Ji / Guoxing Yang / Yongbo Zhang / Xiaohong Liu / Song Wu / Guangyu Wang 原文: [英文] [中文] 备注: 8 pages, 6 figures 摘要: 最近在使用大型语言模型(LLMs)进行推理方面的进展显示了其在数学和编程等领域的显著推理能力,但其在临床诊断中的应用仍未得到充分探索。在此,我们介绍了ClinicalGPT-R1,这是一种用于疾病诊断的推理增强型通用大型语言模型。ClinicalGPT-R1在一个包含20,000个真实临床记录的数据集上进行训练,利用多样化的训练策略来增强诊断推理能力。为了评估其性能,我们整理了MedBench-Hard,这是一个涵盖七大医学专业和代表性疾病的具有挑战性的数据集。实验结果表明,ClinicalGPT-R1在中文诊断任务中优于GPT-4o,并在英语环境中达到了与GPT-4相当的性能。这项对比研究有效验证了ClinicalGPT-R1在疾病诊断任务中的卓越表现。资源可在此https URL获取。 |
[37] HalluShift:测量分布变化以检测大型语言模型中的幻觉 标题: HalluShift: Measuring Distribution Shifts towards Hallucination Detection in LLMs 作者: Sharanya Dasgupta / Sujoy Nath / Arkaprabha Basu / Pourya Shamsolmoali / Swagatam Das 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)因其在多个领域中对给定提示生成创新性回应的能力,最近引起了广泛关注。然而,LLMs常常受到幻觉的固有限制,生成错误信息,同时保持结构良好且连贯的回应。在这项工作中,我们假设幻觉源于LLMs的内部动态。我们的观察表明,在段落生成过程中,LLMs倾向于在回应的细微部分偏离事实准确性,最终转向错误信息。这一现象与人类认知相似,人们可能在保持逻辑连贯的同时产生幻觉,在其言语的细小部分中嵌入不确定性。为了进一步研究这一点,我们引入了一种创新的方法,HalluShift,旨在分析LLM生成回应的内部状态空间和标记概率的分布变化。与现有基线相比,我们的方法在各种基准数据集上取得了优越的性能。我们的代码库可在此https URL获取。 |
[38] 孔子:一种具有事实增强功能的历史大型语言模型 标题: Kongzi: A Historical Large Language Model with Fact Enhancement 作者: Jiashu Yang / Ningning Wang / Yian Zhao / Chaoran Feng / Junjia Du / Hao Pang / Zhirui Fang / Xuxin Cheng 原文: [英文] 备注: 22 pages, 12 figures 摘要: 最新的大型语言模型(LLMs)的能力已经从纯粹的自然语言理解扩展到复杂的推理任务。然而,目前的推理模型在较长的推理链中往往表现出事实不准确性,这对历史推理构成了挑战,并限制了LLMs在复杂、知识密集型任务中的潜力。历史研究不仅需要准确呈现事实信息,还需要能够建立跨时间的关联,并从零散且常常模糊的来源中得出连贯的结论。为了解决这些挑战,我们提出了Kongzi,这是一种专为历史分析设计的大型语言模型。通过整合精心策划的高质量历史数据和一种新颖的事实强化学习策略,Kongzi展示了强大的事实对齐能力和复杂的推理深度。在历史问答和叙事生成等任务上的广泛实验表明,Kongzi在事实准确性和推理深度方面均优于现有模型。通过有效应对历史文本中固有的独特挑战,Kongzi为在专业领域开发准确可靠的LLMs设定了新的标准。 |
[39] MADLLM:通过预训练的大型语言模型进行多变量异常检测 标题: MADLLM: Multivariate Anomaly Detection via Pre-trained LLMs 作者: Wei Tao / Xiaoyang Qu / Kai Lu / Jiguang Wan / Guokuan Li / Jianzong Wang 原文: [英文] [中文] 备注: Accepted by IEEE International Conference on Multimedia & Expo 2025 (ICME 2025) 摘要: 在将预训练的大型语言模型(LLMs)应用于异常检测任务时,多变量时间序列(MTS)异常检测的模态与LLMs的文本模态不一致。现有方法简单地将MTS数据转换为多个单变量时间序列,这可能导致许多问题。本文介绍了MADLLM,一种通过预训练LLMs进行多变量异常检测的新方法。我们设计了一种新的三重编码技术,以使MTS模态与LLMs的文本模态对齐。具体来说,该技术将传统的补丁嵌入方法与两种新颖的嵌入方法相结合:跳跃嵌入,通过改变传统方法中补丁处理的顺序,帮助LLMs保留对先前特征的知识;特征嵌入,利用对比学习使模型更好地理解不同特征之间的相关性。实验结果表明,我们的方法在各种公共异常检测数据集上优于最先进的方法。 |
[40] 新数据如何渗透到大型语言模型的知识中以及如何稀释它 标题: How new data permeates LLM knowledge and how to dilute it 作者: Chen Sun / Renat Aksitov / Andrey Zhmoginov / Nolan Andrew Miller / Max Vladymyrov / Ulrich Rueckert / Been Kim / Mark Sandler 原文: [英文] [中文] 备注: None 摘要: 大型语言模型通过累积基于梯度的更新来学习和持续学习,但新信息的个别部分如何影响现有知识,从而导致有益的泛化和有问题的幻觉,仍然知之甚少。我们证明,当学习新信息时,LLM表现出一种“启动”效应:学习一个新事实可能导致模型在不相关的上下文中不恰当地应用该知识。为了系统地研究这一现象,我们引入了“Outlandish”,这是一个精心策划的包含1320个多样化文本样本的数据集,旨在探究新知识如何渗透到LLM的现有知识库中。使用该数据集,我们展示了在学习新信息后启动效应的程度可以通过在学习之前测量关键词的标记概率来预测。这种关系在不同的模型架构(PALM-2、Gemma、Llama)、规模和训练阶段中都表现得非常稳健。最后,我们开发了两种新技术来调节新知识如何影响现有模型行为:(1)“垫脚石”文本增强策略和(2)“忽略-k”更新修剪方法。这些方法在保留模型学习新信息能力的同时,将不良启动效应减少了50-95%。我们的研究结果不仅提供了关于LLM如何学习的实证见解,还提供了改进语言模型中知识插入特异性的实用工具。更多材料:this https URL |
[41] 思想的合奏:通过最小自由分解改进大型语言模型的链式思维 标题: Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution 作者: Chenghao Li / Chaoning Zhang / Yi Lu / Jiaquan Zhang / Qigan Sun / Xudong Wang / Jiwei Wei / Guoqing Wang / Yang Yang / Heng Tao Shen 原文: [英文] [中文] 备注: None 摘要: 链式思维(Chain-of-Thought, CoT)提示通过将问题分解为连续步骤来增强大型语言模型(LLMs)的推理能力,模仿人类逻辑并减少错误。然而,具有庞大解空间和模糊约束的复杂任务往往超出单一推理链的能力。受交换代数和代数几何中的最小自由分解(Minimal Free Resolution, MFR)启发,我们提出了思维的合流(Syzygy of Thoughts, SoT)——一种通过引入辅助的、相互关联的推理路径来扩展CoT的新框架。SoT捕捉更深层次的逻辑依赖关系,使问题解决更加稳健和结构化。MFR将一个模分解为一系列具有最小秩的自由模,为复杂系统提供结构化的分析方法。该方法引入了“模”、“Betti数”、“自由性”、“映射”、“精确性”和“最小性”的概念,使得能够系统地将原始复杂问题分解为逻辑上完整的最小子问题,同时保留关键问题特征并减少推理长度。我们在各种数据集(例如,GSM8K,MATH)和模型(例如,GPT-4o-mini,Qwen2.5)上测试了SoT,推理准确性达到或超过主流CoT标准。此外,通过将采样过程与代数约束对齐,我们的方法提高了LLMs中推理时间的可扩展性,确保了透明的推理和高性能。我们的代码将在此https URL上公开。 |
[42] 大型语言模型可以像离线翻译一样高效地实现高质量的同步机器翻译 标题: LLMs Can Achieve High-quality Simultaneous Machine Translation as Efficiently as Offline 作者: Biao Fu / Minpeng Liao / Kai Fan / Chengxi Li / Liang Zhang / Yidong Chen / Xiaodong Shi 原文: [英文] [中文] 备注: None 摘要: 当完整的源句子被提供时,大型语言模型(LLMs)在离线机器翻译中表现出色,即使使用简单的提示“将以下句子从[src lang]翻译成[tgt lang]:”。然而,在许多实际场景中,源标记以流式方式到达,需要同时机器翻译(SiMT),此时仅解码器的LLMs的效率和性能受到其自回归性质的显著限制。为了使LLMs能够像离线翻译一样高效地实现高质量的SiMT,我们提出了一种新的范式,包括为SiMT构建监督微调(SFT)数据,以及新的训练和推理策略。为了在SiMT中复制标记输入/输出流,源和目标标记被重新排列成交错序列,并根据不同的延迟要求用特殊标记分隔。这使得强大的LLMs能够根据不同的延迟提示自适应地学习读写操作,同时仍然保持高效的自回归解码。实验结果表明,即使SFT数据有限,我们的方法在各种SiMT基准测试中实现了最先进的性能,并保留了离线翻译的原始能力。此外,我们的方法在文档级SiMT设置中表现良好,无需特定的微调,甚至超越了离线翻译模型。 |
[43] 大型语言模型中的短路径提示:分析推理不稳定性及稳健性能解决方案 标题: Short-Path Prompting in LLMs: Analyzing Reasoning Instability and Solutions for Robust Performance 作者: Zuoli Tang / Junjie Ou / Kaiqin Hu / Chunwei Wu / Zhaoxin Huan / Chilin Fu / Xiaolu Zhang / Jun Zhou / Chenliang Li 原文: [英文] [中文] 备注: Under review 摘要: 近年来,大型语言模型(LLMs)在推理方面取得了显著进展,这主要归功于链式思维(CoT)方法,该方法允许模型在得出最终答案之前生成中间推理步骤。基于这些进展,最先进的LLMs经过指令微调,以在回答与推理相关的问题时提供长而详细的CoT路径。然而,人类天生是认知吝啬者,会促使语言模型给出相对简短的回答,从而与CoT推理产生显著冲突。在本文中,我们深入研究了当用户提供简短路径提示时,LLMs的推理性能如何变化。结果和分析表明,语言模型在没有明确的CoT提示的情况下也能进行有效且稳健的推理,而在简短路径提示下,LLMs的推理能力显著下降并变得不稳定,即使是在小学水平的问题上。为了解决这个问题,我们提出了两种方法:一种是指令引导的方法,另一种是微调方法,均旨在有效管理这一冲突。实验结果表明,这两种方法都能达到高准确率,为当前模型中指令遵循与推理准确性之间的权衡提供了见解。 |
[44] Metropolis-Hastings字幕游戏:通过分散式贝叶斯推理进行视觉语言模型的知识融合 标题: Metropolis-Hastings Captioning Game: Knowledge Fusion of Vision Language Models via Decentralized Bayesian Inference 作者: Yuta Matsui / Ryosuke Yamaki / Ryo Ueda / Seitaro Shinagawa / Tadahiro Taniguchi 原文: [英文] [中文] 备注: None 摘要: 我们提出了Metropolis-Hastings字幕游戏(MHCG),这是一种通过相互学习来融合多个视觉语言模型(VLMs)知识的方法。尽管现有的多模型组合方法在推理成本和架构限制方面存在问题,MHCG通过一种类似语言游戏的过程进行去中心化的贝叶斯推理,从而避免了这些问题。知识融合过程通过两个VLM代理之间的交流来实现,它们交替为图像生成字幕并相互学习。我们进行了两个图像字幕实验,每个实验使用两个在不同数据集上预训练的VLM。第一个实验表明,MHCG在无参考评估指标上实现了一致的改进。第二个实验通过观察生成字幕中词汇的出现情况,研究了MHCG如何有助于共享VLM的类别级词汇。 |
[45] 利用推理模型答案提升非推理模型能力 标题: Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability 作者: Haotian Wang / Han Zhao / Shuaiting Chen / Xiaoyu Tian / Sitong Zhao / Yunjie Ji / Yiping Peng / Xiangang Li 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展,例如 DeepSeek-R1 和 OpenAI-o1,展示了测试时缩放的显著效果,在各种基准测试中实现了显著的性能提升。这些先进的模型利用有意识的“思考”步骤系统地提高答案质量。在本文中,我们提出利用这些由推理密集型模型生成的高质量输出来改进计算需求较低的非推理模型。我们探索并比较了利用推理模型生成的答案来训练和改进非推理模型的方法。通过在既定基准测试上的简单监督微调(SFT)实验,我们展示了在各种基准测试中的一致改进,强调了这种方法在提高模型直接回答问题能力方面的潜力。 |
[46] 通过强化重排序进行代码生成的迭代自训练 标题: Iterative Self-Training for Code Generation via Reinforced Re-Ranking 作者: Nikita Sorokin / Ivan Sedykh / Valentin Malykh 原文: [英文] [中文] 备注: Published at ECIR 2025 摘要: 生成解决复杂编程任务的高质量代码具有挑战性,尤其是当前基于解码器的模型会产生高度随机的输出。在代码生成中,即使是微小的错误也可能轻易破坏整个解决方案。利用多个采样的解决方案可以显著提高整体输出质量。增强代码生成的一种有效方法是将代码生成模型与重排序模型配对,后者从生成的样本中选择最佳解决方案。我们提出了一种新颖的迭代自训练方法,用于使用近端策略优化(PPO)进行自训练重排序模型,旨在提高重排序准确性和整体代码生成过程。与传统的PPO方法不同,传统方法侧重于使用奖励模型优化生成模型,而我们的方法强调开发一个强大的奖励/重排序模型。该模型通过重排序提高生成代码的质量,并解决奖励模型在与重排序器进行PPO对齐时可能忽略的问题和错误。我们的方法通过重新评估输出、识别高分负面示例并将其纳入训练循环来迭代优化训练数据集,从而提升模型性能。我们在MultiPL-E数据集上的评估表明,我们的13.4B参数模型在代码生成质量上优于33B模型,同时速度快三倍。此外,它实现了与GPT-4相当的性能,并在一种编程语言上超越了GPT-4。 |
[47] 缅甸XNLI:构建数据集并探索缅甸语自然语言推理的低资源方法 标题: Myanmar XNLI: Building a Dataset and Exploring Low-resource Approaches to Natural Language Inference with Myanmar 作者: Aung Kyaw Htet / Mark Dras 原文: [英文] [中文] 备注: None 摘要: 尽管自然语言处理(NLP)领域最近取得了显著进展,但将大型语言模型(LLM)应用于低资源语言仍然是一个重大挑战。这在诸如跨语言自然语言推理(XNLI)等基准测试中表现得尤为明显,XNLI 是一个展示 NLP 系统在 15 种语言中跨语言能力的关键任务。在本文中,我们将 XNLI 任务扩展到一种额外的低资源语言——缅甸语,作为更广泛低资源语言的代理挑战,并做出三项核心贡献。首先,我们使用社区众包方法构建了一个名为 Myanmar XNLI(myXNLI)的数据集,作为现有 XNLI 语料库的扩展。这涉及一个由社区构建和专家验证两个阶段组成的过程;通过分析,我们展示并量化了在低资源语言的社区构建背景下专家验证阶段的价值。我们将 myXNLI 数据集提供给社区以供未来研究。其次,我们对最近的多语言模型在 myXNLI 基准上的表现进行了评估,并探索了数据增强方法以提高模型性能。我们的数据增强方法使缅甸语的模型准确率提高了多达 2 个百分点,同时也提升了其他语言的表现。第三,我们研究了这些数据增强方法在 XNLI 数据集中对其他低资源语言的泛化能力。 |
[48] CLEAR-KGQA:用于知识图谱问答的澄清增强型歧义消解 标题: CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering 作者: Liqiang Wen / Guanming Xiong / Tong Mo / Bing Li / Weiping Li / Wen Zhao 原文: [英文] [中文] 备注: This work has been accepted by the IJCNN 2025 main track 摘要: 本研究解决了知识图谱问答(KGQA)中的歧义挑战。尽管最近的KGQA系统取得了显著进展,特别是与大型语言模型(LLMs)的整合,但它们通常假设用户查询是明确的,而这一假设在现实应用中很少成立。为了解决这些限制,我们提出了一个新颖的框架,通过互动澄清动态处理实体歧义(例如,区分名称相似的实体)和意图歧义(例如,澄清用户查询的不同解释)。我们的方法采用贝叶斯推理机制来量化查询歧义,并指导LLMs在多轮对话框架中确定何时以及如何向用户请求澄清。我们进一步开发了一个双代理交互框架,其中基于LLM的用户模拟器通过模拟用户反馈实现逻辑形式的迭代优化。WebQSP和CWQ数据集上的实验结果表明,我们的方法通过有效解决语义歧义显著提高了性能。此外,我们贡献了一个经过优化的查询数据集,该数据集源自交互历史,以促进该方向的未来研究。 |
[49] 小型语言模型的领域自适应持续预训练 标题: Domain-Adaptive Continued Pre-Training of Small Language Models 作者: Salman Faroz 原文: [英文] [中文] 备注: None 摘要: 小型语言模型的持续预训练为在有限计算资源下进行领域适应提供了一条有前景的途径。我在教育领域中研究了这种方法,评估其作为从头训练模型的一种资源高效的替代方案。使用一个拥有1.25亿参数的模型,我通过在4亿个标记上进行增量训练,随后进一步训练至10亿个标记,展示了显著的性能提升。我的方法包括全面的数据预处理、内存优化的训练配置和基于基准的评估。结果显示,在知识密集型任务(MMLU +8.1%)和上下文理解(HellaSwag +7.6%)方面取得了显著的提升,同时揭示了教育领域专业化的权衡。我分析了标记效率、灾难性遗忘的缓解策略和扩展模式。我的研究结果表明,即使在计算资源受限的情况下,经过深思熟虑的预处理和训练方法也能显著提升语言模型的能力,为小型语言模型的领域特定适应开辟了道路。 |
[50] GRPO-LEAD:一种面向难度的强化学习方法,用于语言模型中的简洁数学推理 标题: GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models 作者: Jixiao Zhang / Chunsheng Zuo 原文: [英文] [中文] 备注: None 摘要: 最近,利用群体相对策略优化(GRPO)的R1类推理模型在数学推理任务上的性能有了显著提高。然而,目前的GRPO实现面临关键挑战,包括由于二元准确性指标导致的奖励稀疏性、对简洁性的激励有限以及对复杂推理任务关注不足。为了解决这些问题,我们提出了GRPO-LEAD,这是一套专为数学推理设计的新颖增强措施。具体来说,GRPO-LEAD引入了(1)与长度相关的准确性奖励,以鼓励简洁而精确的解决方案,(2)一个明确的错误答案惩罚机制,以明确决策边界,以及(3)一个难度感知的优势重加权策略,以增强对具有挑战性问题的学习信号。此外,我们系统地研究了模型规模和监督微调(SFT)策略的影响,证明了更大规模的基础模型和精心策划的数据集显著增强了强化学习的效果。广泛的实证评估和消融研究证实,GRPO-LEAD大大缓解了先前的不足,使得语言模型在各种数学任务中产生更简洁、准确和稳健的推理。 |
[51] 评估低资源语言基准数据集的质量:以土耳其语为例 标题: Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish 作者: Ayşe Aysu Cengiz / Ahmet Kaan Sever / Elif Ecem Ümütlü / Naime Şeyma Erdem / Burak Aytan / Büşra Tufan / Abdullah Topraksoy / Esra Darıcı / Cagri Toraman 原文: [英文] [中文] 备注: None 摘要: 依赖于从英语或多语言资源翻译或改编的数据集在语言和文化适用性方面引入了挑战。本研究通过评估17个常用的土耳其基准数据集的质量,解决了对稳健且文化适宜的基准的需求。使用一个评估六个标准的综合框架,人工和LLM评审员提供详细的评估,以识别数据集的优点和缺点。 我们的结果显示,70%的基准数据集未能达到我们的启发式质量标准。技术术语使用的正确性是最强的标准,但在所检查的数据集中,85%的标准未得到满足。尽管LLM评审员表现出潜力,但在理解文化常识和解释流畅、明确的文本方面,他们不如人工标注员有效。GPT-4o在语法和技术任务的标注能力更强,而Llama3.3-70B在正确性和文化知识评估方面表现出色。我们的研究结果强调了在为低资源语言创建和改编数据集时,迫切需要更严格的质量控制。 |
[52] 通过在大型语言模型中融入文化和本地知识来提升多语言能力,同时增强其本地性能 标题: Improving Multilingual Capabilities with Cultural and Local Knowledge in Large Language Models While Enhancing Native Performance 作者: Ram Mohan Rao Kadiyala / Siddartha Pullakhandam / Siddhant Gupta / Drishti Sharma / Jebish Purbey / Kanwal Mehreen / Muhammad Arham / Hamza Farooq 原文: [英文] [中文] 备注: ARR Feb 2025 submission 摘要: 大型语言模型(LLMs)展现了非凡的能力,但其开发主要集中在英语和其他资源丰富的语言上,许多语言因此未得到充分服务。我们推出了最新的印地语-英语双语LLM \textbf{Mantra-14B},在基准测试中平均提高约3%,在两种语言上均优于体积是其两倍的模型。我们使用由485K样本组成的英语和印地语指令数据的精选数据集,对Qwen-2.5-14B-Instruct和Phi-4等模型进行指令微调,以提高英语和印地语的性能。我们的实验涵盖了七种不同参数规模的LLM,以及超过140次不同英语-印地语训练数据比例的训练尝试,证明了在不影响本地性能的情况下显著提高多语言性能是可能的。此外,我们的方法避免了资源密集型技术,如词汇扩展或架构修改,从而保持模型规模小。我们的结果表明,适度的微调结合文化和本地信息的数据可以在不产生显著计算开销的情况下弥合性能差距。我们在MIT和Apache许可证下发布了我们的训练代码、数据集和模型,以帮助进一步研究不被充分代表和资源匮乏的语言。 |
[53] 可执行功能抽象:推断生成性程序以解决高级数学问题 标题: Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems 作者: Zaid Khan / Elias Stengel-Eskin / Archiki Prasad / Jaemin Cho / Mohit Bansal 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: 科学家们常常从具体的问题实例中推断出抽象的程序,并利用这些抽象来生成新的相关实例。例如,编码系统的形式规则和属性的程序在从强化学习(程序化环境)到物理学(模拟引擎)等领域中都很有用。这些程序可以被视为根据其参数化(例如,网格世界配置或初始物理条件)执行到不同输出的函数。我们引入术语EFA(可执行功能抽象)来表示用于数学问题的此类程序。已显示EFA类构造对于数学推理是有用的,因为它们可以作为压力测试模型的问题生成器。然而,之前的工作仅限于小学数学的抽象(其简单规则易于在程序中编码),而生成高级数学的EFA迄今需要人工工程。我们探索了高级数学问题EFA的自动构建。我们将自动构建EFA的任务操作化为程序合成任务,并开发了EFAGen,它使大型语言模型(LLM)基于种子数学问题及其逐步解决方案生成候选EFA程序,这些程序忠实于种子问题所依据的广义问题和解决方案类别。此外,我们形式化了任何有效EFA必须具备的属性,以可执行单元测试的形式展示,并展示了如何将这些测试用作可验证的奖励来训练LLM,使其成为更好的EFA编写者。我们证明了由EFAGen构建的EFA通过忠实于种子问题、产生可学习的问题变体而表现出合理性,并且EFAGen可以在多个多样化的竞赛级数学问题来源中推断EFA。最后,我们展示了模型编写的EFA的下游用途,例如找到对学习者来说更难或更容易解决的问题变体,以及数据生成。 |
[54] 推理法庭:结合推理、行动和判断进行多跳推理 标题: Reasoning Court: Combining Reasoning, Action, and Judgment for Multi-Hop Reasoning 作者: Jingtian Wu / Claire Cardie 原文: [英文] [中文] 备注: None 摘要: 尽管大型语言模型(LLMs)在问答和事实验证等任务中表现出强大的能力,但在需要整合多种信息来源的多跳任务中,它们仍然存在幻觉和推理错误。目前的方法通过基于检索的技术(在外部证据中进行推理)和基于推理的方法(通过改进提示增强连贯性)或结合这两者的混合策略来解决这些问题。一种突出的混合方法,ReAct,已经超越了纯粹基于检索或基于推理的方法;然而,它缺乏对中间推理步骤的内部验证,可能导致错误在复杂推理任务中传播。在本文中,我们介绍了Reasoning Court(RC),这是一种新颖的框架,扩展了迭代推理和检索方法,如ReAct,并引入了一个专门的LLM裁判。与ReAct不同,RC使用这个裁判独立评估由不同LLM代理生成的多个候选答案及其相关推理。裁判被要求选择其认为在所提供的推理和证据基础上最具事实依据和逻辑连贯的答案,或者在所有候选答案都不充分、有缺陷或无效的情况下,利用可用证据和其预训练知识综合出一个新答案。在多跳基准(HotpotQA, MuSiQue)和事实验证(FEVER)上的评估表明,RC在没有任务特定微调的情况下,一贯优于最先进的少样本提示方法。 |
[55] VDocRAG:基于视觉丰富文档的检索增强生成 标题: VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents 作者: Ryota Tanaka / Taichi Iki / Taku Hasegawa / Kyosuke Nishida / Kuniko Saito / Jun Suzuki 原文: [英文] 备注: Accepted by CVPR 2025; project page: this https URL 摘要: 我们旨在开发一个检索增强生成(RAG)框架,以回答关于以混合模式(例如,图表、表格)和多样格式(例如,PDF、PPTX)呈现的视觉丰富文档的相关问题。在本文中,我们介绍了一个新的RAG框架,VDocRAG,它可以直接理解不同的文档和模式,以统一的图像格式呈现,以防止通过解析文档获取文本时信息丢失。为了提高性能,我们提出了新的自监督预训练任务,通过将视觉信息压缩成密集的标记表示,同时与文档中的文本内容对齐,来适应大型视觉语言模型进行检索。此外,我们介绍了OpenDocVQA,这是第一个统一的开放域文档视觉问答数据集集合,涵盖了多样的文档类型和格式。OpenDocVQA为在开放域环境中训练和评估检索和问答模型提供了全面的资源。实验表明,VDocRAG显著优于传统的基于文本的RAG,并具有强大的泛化能力,突显了有效的RAG范式在真实世界文档中的潜力。 |
[56] 通过认知偏好对齐训练小型推理大语言模型 标题: Training Small Reasoning LLMs with Cognitive Preference Alignment 作者: Wenrui Cai / Chengyu Wang / Junbing Yan / Jun Huang / Xiangzhong Fang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的推理能力,如OpenAI的o1和DeepSeek-R1,通过深度思考取得了显著进展。然而,这些增强伴随着巨大的资源需求,这凸显了探索以更少参数训练有效推理LLMs策略的必要性。一个关键挑战在于较小的模型与较大的模型相比,具有不同的能力和认知轨迹。因此,直接将大LLMs的思维链(CoT)结果蒸馏到较小模型有时可能无效,并且需要大量的标注数据。在本文中,我们引入了一种名为Critique-Rethink-Verify(CRV)的新框架,旨在训练较小但强大的推理LLMs。我们的CRV框架由多个LLM代理组成,每个代理专注于独特的能力:(i)根据较小模型的认知能力批判性地分析CoTs,(ii)基于批判性分析重新思考和改进这些CoTs,以及(iii)验证改进结果的正确性。我们进一步提出了认知偏好优化(CogPO)算法,通过使这些模型的思维与其认知能力对齐来增强较小模型的推理能力。在具有挑战性的推理基准上的全面评估表明,CRV和CogPO的有效性远远超过其他训练方法。 |
[57] 通过轨迹匹配进行可迁移的文本数据蒸馏 标题: Transferable text data distillation by trajectory matching 作者: Rong Yao / Hailin Hu / Yifei Fu / Hanting Chen / Wenyi Fang / Fanyi Du / Kai Han / Yunhe Wang 原文: [英文] [中文] 备注: None 摘要: 在大型语言模型(LLM)领域,随着模型规模的增加,训练成本也随之提高。迫切需要在LLM训练中最小化数据规模。与数据选择方法相比,数据蒸馏方法旨在合成少量数据样本,以达到全数据集的训练效果,并具有更好的灵活性。尽管在计算机视觉领域取得了成功,但文本数据的离散性迄今为止阻碍了其在自然语言处理(NLP)中的探索。在这项工作中,我们提出了一种基于轨迹匹配学习伪造提示数据的方法,并通过找到其最近邻ID来实现跨架构转移。在蒸馏过程中,我们引入了一种正则化损失,以提高我们蒸馏数据的鲁棒性。据我们所知,这是第一个适用于文本生成任务(如指令微调)的数据蒸馏工作。在包括ARC-Easy和MMLU指令微调数据集的两个基准测试中,我们的方法在蒸馏效果上优于最新的数据选择方法LESS。此外,我们的方法在LLM结构(即OPT到Llama)上展示了良好的可迁移性。 |
[58] Abacus-SQL:一个支持跨领域和开放领域数据库检索的文本到SQL系统 标题: Abacus-SQL: A Text-to-SQL System Empowering Cross-Domain and Open-Domain Database Retrieval 作者: Keyan Xu / Dingzirui Wang / Xuanliang Zhang / Qingfu Zhu / Wanxiang Che 原文: [英文] [中文] 备注: 11 pages, 3figures 摘要: 现有的文本到SQL系统在SQL查询生成方面取得了显著进展,但仍面临许多挑战。现有系统通常缺乏对开放域数据库的检索能力,需要用户手动筛选相关数据库。此外,它们的跨域迁移能力有限,难以满足多样化的查询需求。为了解决这些问题,我们提出了Abacus-SQL。Abacus-SQL利用数据库检索技术,在开放域数据库环境中准确定位所需的数据库。它还通过数据增强方法提高系统的跨域迁移能力。此外,Abacus-SQL采用了Pre-SQL和自我调试方法,从而提高了SQL查询的准确性。实验结果表明,Abacus-SQL在多轮文本到SQL任务中表现出色,有效验证了该方法的有效性。Abacus-SQL可以通过此https URL公开访问。 |
[59] PASS-FC:用于全面性主张事实核查的渐进和自适应搜索方案 标题: PASS-FC: Progressive and Adaptive Search Scheme for Fact Checking of Comprehensive Claims 作者: Ziyu Zhuang 原文: [英文] [中文] 备注: None 摘要: 自动化事实核查在处理复杂的现实世界声明时面临挑战。我们提出了PASS-FC,一个通过声明增强、自适应问题生成和迭代验证来解决这些问题的新框架。PASS-FC通过时间和实体上下文增强原子声明,采用先进的搜索技术,并利用反思机制。我们在六个不同的数据集上评估了PASS-FC,展示了其在一般知识、科学、现实世界和多语言事实核查任务中的优越表现。我们的框架经常超越更强的基线模型。超参数分析揭示了证据数量和反思标签触发的最佳设置,而消融研究则强调了声明增强和语言特定适应的重要性。PASS-FC的表现突显了其在提高事实核查准确性和适应性方面的有效性,适用于各种领域。我们将开源我们的代码和实验结果,以促进该领域的进一步研究。 |
[60] 研究多语言Transformer中的句法偏见:意大利语和英语中的关系从句附加歧义 标题: Investigating Syntactic Biases in Multilingual Transformers with RC Attachment Ambiguities in Italian and English 作者: Michael Kamerath / Aniello De Santo 原文: [英文] [中文] 备注: None 摘要: 本文利用过去的句子处理研究来探讨单语和多语大型语言模型(LLMs)在面对意大利语和英语中的关系从句附加歧义时是否表现出类似人类的偏好。此外,我们测试这些偏好是否可以通过词汇因素(矩阵从句中的动词/名词类型)进行调节,这些因素已被证明与句法和语义关系的微妙约束有关。我们的结果总体上展示了LLM行为在不同模型之间的有趣变化,但也揭示了这些模型在正确捕捉类似人类偏好方面的一般性失败。鉴于这些结果,我们认为关系从句附加是跨语言研究LLM语言知识和偏见的理想基准。 |
[61] 从参考答案中学习:无需二元人类偏好数据的多功能语言模型对齐 标题: Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data 作者: Shuai Zhao / Linchao Zhu / Yi Yang 原文: [英文] [中文] 备注: work in progress 摘要: 大型语言模型(LLMs)被期望是有帮助的、无害的和诚实的。在各种对齐场景中,如一般人类偏好、安全性和信心对齐,二元偏好数据收集和奖励建模是资源密集但对人类偏好转移是必要的。在这项工作中,我们探索使用采样生成与高质量参考答案之间的相似性作为LLM对齐的替代奖励函数。使用相似性作为奖励可以避免训练奖励模型,并且在有多个候选答案时,收集单个参考答案可能比构建二元偏好对花费更少的时间。具体来说,我们开发了\textit{RefAlign},一种多功能的REINFORCE风格的对齐算法,它不依赖于参考和奖励模型。相反,RefAlign利用采样生成与高质量参考答案之间的BERTScore作为替代奖励。除了优化一般人类偏好,RefAlign还可以通过将相似性奖励与任务相关目标结合,轻松扩展到多种场景,如安全性和信心对齐。在各种场景中,{RefAlign}展示了与先前对齐方法相当的性能,同时提供了高效性。 |
[62] TWSSenti:一种新颖的混合框架,基于变压器模型在社交媒体上进行主题情感分析 标题: TWSSenti: A Novel Hybrid Framework for Topic-Wise Sentiment Analysis on Social Media Using Transformer Models 作者: Aish Albladi / Md Kaosar Uddin / Minarul Islam / Cheryl Seals 原文: [英文] [中文] 备注: 41 pages, 12 figures, includes algorithm and comparative tables 摘要: 情感分析是自然语言处理(NLP)中的一项关键任务,它能够从文本数据中提取有意义的见解,特别是在像Twitter和IMDB这样动态的平台上。本研究探讨了一种混合框架,该框架结合了基于Transformer的模型,特别是BERT、GPT-2、RoBERTa、XLNet和DistilBERT,以提高情感分类的准确性和鲁棒性。该框架通过利用这些模型的独特优势,解决了如数据噪声、上下文歧义以及跨多样化数据集的泛化等挑战。BERT捕捉双向上下文,GPT-2增强生成能力,RoBERTa通过更大的语料库和动态掩码优化上下文理解,XLNet通过置换学习建模依赖关系,而DistilBERT在保持高准确率的同时提供了计算效率。我们展示了使用词频-逆文档频率(TF-IDF)和词袋(BoW)进行文本清理、标记化和特征提取,确保为模型提供高质量的输入数据。该混合方法在基准数据集Sentiment140和IMDB上进行了评估,分别实现了94%和95%的优越准确率,优于单一模型。结果验证了在类似集成的设置中结合多种Transformer模型以解决单个架构局限性的有效性。本研究强调了其在社交媒体监控、客户情感分析和公众意见追踪等现实任务中的适用性,为混合NLP框架的未来进步提供了路径。 |
[63] 通过多尺度模型交互优化金融消费者投诉 标题: Refining Financial Consumer Complaints through Multi-Scale Model Interaction 作者: Bo-Wei Chen / An-Zi Yen / Chung-Chi Chen 原文: [英文] [中文] 备注: None 摘要: 法律写作要求具备清晰性、正式性和领域特定的精确性,而这些特质往往在没有法律培训的个人撰写的文件中缺乏。为了弥合这一差距,本文探讨了法律文本精炼的任务,该任务将非正式的、对话式的输入转化为有说服力的法律论证。我们引入了FinDR,这是一个中文金融纠纷记录数据集,附有关于索赔合理性的官方判决。我们提出的方法是多尺度模型交互(MSMI),该方法利用轻量级分类器来评估输出,并指导大型语言模型(LLMs)进行迭代精炼。实验结果表明,MSMI显著优于单次提示策略。此外,我们在几个短文本基准上验证了MSMI的泛化能力,显示出改进的对抗性鲁棒性。我们的研究结果揭示了多模型协作在增强法律文档生成和更广泛的文本精炼任务中的潜力。 |
[64] 量子自然语言处理:模型、方法与应用的综合综述 标题: Quantum Natural Language Processing: A Comprehensive Review of Models, Methods, and Applications 作者: Farha Nausheen / Khandakar Ahmed / M Imad Khan 原文: [英文] [中文] 备注: None 摘要: 在最近的发展中,应用于自然语言处理(NLP)的深度学习方法揭示了一个悖论:它们提高了性能,但需要大量数据和资源进行训练。相反,量子计算利用量子力学的原理来克服当前方法的计算限制,从而建立了一个新兴领域,称为量子自然语言处理(QNLP)。该领域有可能在语言结构处理方面获得量子优势,超越经典模型的效率和准确性。在本文中,提出根据量子计算原理、架构和计算方法对QNLP模型进行分类。本文试图通过绘制该领域的最新技术图谱,提供一项关于量子如何与语言结合的调查,涵盖经典数据的量子编码技术、用于常见NLP任务的QNLP模型,以及用于超参数调优的量子优化技术。通过展示具体的QNLP方法,总结了量子计算方法在各种NLP任务中的应用情况,并通过其数量指示这些方法的受欢迎程度。从研究结果中可以观察到,QNLP方法仍然局限于小数据集,只有少数模型被广泛探索,并且对量子计算在自然语言处理任务中的应用兴趣日益增加。 |
[65] 从多文档中学习删除私密知识以增强检索的大型语言模型 标题: Learning to Erase Private Knowledge from Multi-Documents for Retrieval-Augmented Large Language Models 作者: Yujing Wang / Hainan Zhang / Liang Pang / Yongxin Tong / Binghui Guo / Hongwei Zheng / Zhiming Zheng 原文: [英文] [中文] 备注: None 摘要: 检索增强生成(RAG)是一种将大型语言模型(LLM)应用于专有领域的有前途的技术。然而,检索到的文档可能包含敏感知识,从而在生成结果中带来隐私泄露的风险。因此,有效地从检索到的文档中删除私人信息是RAG面临的一个关键挑战。与传统的文本匿名化不同,RAG需要考虑:(1)固有的多文档推理可能面临去匿名化攻击;(2)私人知识因场景而异,因此应允许用户自定义要删除的信息;(3)为生成任务保留足够的公开可用知识。本文介绍了RAG的隐私擦除任务,并提出了Eraser4RAG,这是一种有效去除用户定义的私人知识的工具,同时保留足够的公共知识以用于生成。具体来说,我们首先构建一个全局知识图谱,以识别跨文档的潜在知识,旨在防御去匿名化攻击。然后,我们将其随机分为私人和公共子图,并微调Flan-T5以重写排除私人三元组的检索文档。最后,PPO算法优化重写模型,以最小化私人三元组并最大化公共三元组的保留。在四个问答数据集上的实验表明,Eraser4RAG在擦除性能上优于GPT-4o。 |
[66] 在大型语言模型的协助下引导小型语言模型进行推理 标题: Guiding Reasoning in Small Language Models with LLM Assistance 作者: Yujin Kim / Euiin Yi / Minu Kim / Se-Young Yun / Taehyeon Kim 原文: [英文] 备注: 20 pages, 10 figures, 11 tables 摘要: 小型语言模型(SLM)有限的推理能力使其在需要深度、多步骤逻辑推理的任务中适用性受到质疑。本文介绍了一种名为“小原因,大提示”(SMART)的框架,该框架通过大型语言模型(LLM)的有针对性指导,选择性地增强SLM的推理能力。受认知支架概念的启发,SMART采用基于评分的评估方法来识别不确定的推理步骤,并仅在必要时注入由LLM生成的纠正性推理。通过将结构化推理框架化为最优策略搜索,我们的方法在不进行穷尽采样的情况下引导推理轨迹朝向正确的解决方案。我们在数学推理数据集上的实验表明,有针对性的外部支架显著提高了性能,为SLM和LLM的协作使用铺平了道路,以解决目前仅靠SLM无法解决的复杂推理任务。 |
[67] C-MTCSD:中文多轮对话立场检测数据集 标题: C-MTCSD: A Chinese Multi-Turn Conversational Stance Detection Dataset 作者: Fuqiang Niu / Yi Yang / Xianghua Fu / Genan Dai / Bowen Zhang 原文: [英文] [中文] 备注: WWW2025 摘要: 立场检测已成为分析社交媒体上公共讨论的重要工具。目前的方法面临重大挑战,尤其是在中文语言处理和多轮对话分析方面。为了解决这些限制,我们引入了C-MTCSD,这是最大的中文多轮对话立场检测数据集,包含来自新浪微博的24,264个精心标注的实例,比之前唯一的中文对话立场检测数据集大4.2倍。我们使用传统方法和大型语言模型进行的全面评估揭示了C-MTCSD的复杂性:即使是最先进的模型在具有挑战性的零样本设置中也仅能达到64.07%的F1分数,而随着对话深度的增加,性能持续下降。传统模型尤其在隐性立场检测方面表现不佳,F1分数低于50%。这项工作为中文立场检测研究建立了一个具有挑战性的新的基准,突出了未来改进的重大机遇。 |
[68] 用于对话的定量和定性分析的轮流发言标注 标题: Turn-taking annotation for quantitative and qualitative analyses of conversation 作者: Anneliese Kelterer / Barbara Schuppler 原文: [英文] [中文] 备注: 41 pages 摘要: 本文有两个目标。首先,我们介绍了为格拉茨朗读与自发语料库(GRASS)中95分钟的对话语音创建的轮流发言标注层,这些标注层对科学界开放。其次,我们更详细地描述了标注系统和标注过程,以便其他研究人员可以将其用于自己的对话数据。该标注系统的开发考虑了跨学科应用。它应基于会话分析的顺序标准,适合后续的语音分析,因此使用Praat进行了时间对齐标注,并且应适合自动分类,这需要连续的语音标注和一个不太大的标签库,以实现较高的评分者间一致性。轮流发言标注在两个层面上进行:暂停间单元(IPU)和潜在完成点(PCOMP;类似于转换相关位置)。我们提供了标注过程以及分割和标记标准的详细描述。对评分者间一致性和常见混淆的详细分析表明,IPU标注的一致性几乎完美,PCOMP标注的一致性相当高,分歧通常是部分的或可以通过对序列的不同分析来解释,这种分析也有其价值。该标注系统可以应用于各种对话数据,用于语言学研究和技术应用,我们希望这些标注以及标注系统能够促进这些学科之间更强的交叉交流。 |
[69] 性能提升的幻象:为什么对比解码无法解决多模态幻觉 标题: The Mirage of Performance Gains: Why Contrastive Decoding Fails to Address Multimodal Hallucination 作者: Hao Yin / Gunagzong Si / Zilei Wang 原文: [英文] [中文] 备注: None 摘要: 对比解码策略被广泛用于减少多模态大型语言模型(MLLMs)中的幻觉现象。这些方法通过构建对比样本来诱发幻觉,然后在输出分布中抑制它们。然而,本文表明,这些方法未能有效缓解幻觉问题。在POPE基准测试中观察到的性能提升主要由两个误导因素驱动:(1)对模型输出分布的粗略、单向调整,以及(2)自适应合理性约束,这将采样策略简化为贪婪搜索。为了进一步说明这些问题,我们引入了一系列虚假的改进方法,并将其性能与对比解码技术进行比较。实验结果表明,对比解码中观察到的性能提升与其缓解幻觉的预期目标完全无关。我们的研究结果挑战了关于对比解码策略有效性的常见假设,并为开发真正有效的MLLMs幻觉解决方案铺平了道路。 |
[70] DataMosaic:通过提取-推理-验证实现可解释和可验证的多模态数据分析 标题: DataMosaic: Explainable and Verifiable Multi-Modal Data Analytics through Extract-Reason-Verify 作者: Zhengxuan Zhang / Zhuowen Liang / Yin Wu / Teng Lin / Yuyu Luo / Nan Tang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)正在改变数据分析领域,但其广泛应用受到两个关键限制的阻碍:它们缺乏可解释性(推理过程不透明)和可验证性(容易出现幻觉和未检查的错误)。尽管检索增强生成(RAG)通过将LLMs与外部数据结合来提高准确性,但它未能解决可信分析的核心挑战——尤其是在处理噪声、不一致或多模态数据(例如文本、表格、图像)时。我们提出了DataMosaic,一个旨在使LLM驱动的分析既可解释又可验证的框架。通过从原始数据中动态提取任务特定的结构(例如表格、图形、树),DataMosaic提供透明的、逐步的推理轨迹,并支持中间结果的验证。DataMosaic基于多代理框架,协调自适应代理以符合下游任务需求,从而增强一致性、完整性和隐私性。通过这种方法,DataMosaic不仅解决了当前LLM驱动分析系统的局限性,还为一种新的、扎实的、准确的和可解释的多模态数据分析范式奠定了基础。 |
[71] 通过注意力图的拓扑差异检测大型语言模型中的幻觉 标题: Hallucination Detection in LLMs via Topological Divergence on Attention Graphs 作者: Alexandra Bazarova / Aleksandr Yugay / Andrey Shulga / Alina Ermilova / Andrei Volodichev / Konstantin Polev / Julia Belikova / Rauf Parchiev / Dmitry Simakov / Maxim Savchenko / Andrey Savchenko / Serguei Barannikov / Alexey Zaytsev 原文: [英文] [中文] 备注: None 摘要: 幻觉,即生成事实不正确的内容,仍然是大型语言模型(LLMs)面临的一个关键挑战。我们介绍了TOHA,一种在RAG设置中基于拓扑的幻觉检测器,它利用拓扑发散度量来量化由注意力矩阵引发的图的结构特性。检查提示和响应子图之间的拓扑发散揭示了一个一致的模式:特定注意力头中的较高发散值与幻觉输出相关,而与数据集无关。广泛的实验,包括在问答和数据到文本任务上的评估,表明我们的方法在多个基准上达到了最先进或具有竞争力的结果,其中两个基准是由我们注释并公开发布以促进进一步研究的。除了其强大的域内性能外,TOHA在多个开源LLMs中保持了显著的域转移能力。我们的研究结果表明,分析注意力矩阵的拓扑结构可以作为LLMs中事实可靠性的有效和稳健的指标。 |
[72] 用于处理层级关系重复的计算认知模型 标题: A Computational Cognitive Model for Processing Repetitions of Hierarchical Relations 作者: Zeng Ren / Xinyi Guan / Martin Rohrmeier 原文: [英文] [中文] 备注: None 摘要: 模式是人类认知的基础,使人们能够在不同领域中识别结构和规律。在这项工作中,我们专注于结构重复,即在序列数据中由于层次关系的重复而产生的模式,并开发了一个候选计算模型来解释人类如何检测和理解这种结构重复。基于加权推导系统,我们的模型以模板程序的形式推断给定序列的最小生成过程,这种形式主义通过重复组合器丰富了上下文无关文法。这样的表示方式以递归的方式高效地编码了子计算的重复。作为概念验证,我们在音乐和行动规划的短序列上展示了我们模型的表达能力。所提出的模型为人类模式识别背后的心理表征和认知机制提供了更广泛的见解。 |
[73] 通过机械性洞察量化常识推理 标题: Towards Quantifying Commonsense Reasoning with Mechanistic Insights 作者: Abhinav Joshi / Areeb Ahmad / Divyaksh Shukla / Ashutosh Modi 原文: [英文] [中文] 备注: Accepted at NAACL 2025; 28 pages (9 pages + 7 pages references + 12 pages appendix) 摘要: 常识推理涉及人类能够很好理解的隐性知识,这些知识通常通过与世界的互动获得。近年来,常识推理和对各种大型语言模型(LLMs)的理解已通过基于文本的任务进行评估。在这项工作中,我们认为这种理解的代理可以保持为一种图形结构,这种结构可以进一步帮助对各种现实世界活动的常识推理能力进行严格评估。我们创建了一种注释方案,以图形结构的形式捕捉37种日常人类活动中的隐性知识。我们发现,所创建的资源可以用于构建大量的常识查询(约10^{17}),从而促进对LLMs中常识推理的严格评估。此外,最近LLMs的显著表现引发了关于这些模型是否真正能够在自然环境中进行推理以及推理在这些模型内部如何发生的疑问。在这篇资源论文中,我们通过提出设计机制来弥合这一差距,这些机制促进了在类似方向上的研究。我们的研究结果表明,推理组件在LLMs中是局部化的,当被常识查询提示时,这些组件在决策中起着重要作用。 |
[74] SocioVerse:一个由大型语言模型代理和一千万真实用户组成的社会模拟世界模型 标题: SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users 作者: Xinnong Zhang / Jiayu Lin / Xinyi Mou / Shiyue Yang / Xiawei Liu / Libo Sun / Hanjia Lyu / Yihang Yang / Weihong Qi / Yue Chen / Guanying Li / Ling Yan / Yao Hu / Siming Chen / Yu Wang / Jingxuan Huang / Jiebo Luo / Shiping Tang / Libo Wu / Baohua Zhou / Zhongyu Wei 原文: [英文] [中文] 备注: work in progress 摘要: 社会模拟正在通过模拟虚拟个体与其环境之间的互动来改变传统的社会科学研究。随着大型语言模型(LLMs)的最新进展,这种方法在捕捉个体差异和预测群体行为方面显示出越来越大的潜力。然而,现有方法在环境、目标用户、互动机制和行为模式方面面临对齐挑战。为此,我们引入了SocioVerse,一种由LLM代理驱动的社会模拟世界模型。我们的框架具有四个强大的对齐组件和一个拥有1000万真实个体的用户池。为了验证其有效性,我们在政治、新闻和经济三个不同领域进行了大规模模拟实验。结果表明,SocioVerse能够通过标准化程序和最少的人工调整来反映大规模人口动态,同时确保多样性、可信度和代表性。 |
[75] MT-R1-Zero:通过类似R1-Zero的强化学习推进基于LLM的机器翻译 标题: MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning 作者: Zhaopeng Feng / Shaosheng Cao / Jiahan Ren / Jiayuan Su / Ruizhe Chen / Yan Zhang / Zhe Xu / Yao Hu / Jian Wu / Zuozhu Liu 原文: [英文] [中文] 备注: Work in progress. Our code is available at this https URL 摘要: 大规模强化学习(RL)方法已被证明在增强大型语言模型(LLMs)的推理能力方面非常有效,特别是对于数学和编码等具有可验证解决方案的任务。然而,将这一理念应用于机器翻译(MT),其输出格式灵活且难以通过明确规则自动评估,仍然未被充分探索。在这项工作中,我们介绍了MT-R1-Zero,这是R1-Zero RL框架在MT领域的首个开源适配版本,无需监督微调或冷启动。我们提出了一种规则-度量混合奖励机制,通过新兴推理引导LLMs提高翻译质量。在WMT 24英中基准测试中,我们的MT-R1-Zero-3B-Mix实现了具有竞争力的性能,平均超越TowerInstruct-7B-v0.2 1.26分。同时,我们的MT-R1-Zero-7B-Mix在所有指标上获得了62.25的高平均分,与GPT-4o和Claude-3.5-Sonnet等先进的专有模型相当,而MT-R1-Zero-7B-Sem变体在语义指标上达到了最先进的分数。此外,我们的工作在分布外MT任务上表现出强大的泛化能力,稳健支持多语言和低资源环境。对不同初始化和奖励指标下模型行为的广泛分析提供了开创性的见解,揭示了奖励设计、LLM适应性、训练动态和R1-Zero范式中MT的新兴推理模式的关键作用。我们的代码可在此https URL获取。 |
[76] C-FAITH:用于自动幻觉评估的中文细粒度基准 标题: C-FAITH: A Chinese Fine-Grained Benchmark for Automated Hallucination Evaluation 作者: Xu Zhang / Zhifei Liu / Jiahao Wang / Huixuan Zhang / Fan Xu / Junzhe Zhang / Xiaojun Wan 原文: [英文] [中文] 备注: None 摘要: 尽管大型语言模型快速发展,但它们仍然很容易生成幻觉,这极大地阻碍了其广泛应用。幻觉研究需要动态且细粒度的评估。然而,大多数现有的幻觉基准(尤其是中文)依赖于人工标注,这使得自动化和具有成本效益的幻觉评估具有挑战性。为了解决这个问题,我们引入了HaluAgent,这是一种基于代理的框架,可以根据一些知识文档自动构建细粒度的问答数据集。我们的实验表明,手动设计的规则和提示优化可以提高生成数据的质量。使用HaluAgent,我们构建了C-FAITH,这是一个中文问答幻觉基准,由从网络抓取的1,399个知识文档创建,共计60,702条目。我们使用我们提出的C-FAITH对16个主流大型语言模型进行了全面评估,并提供了详细的实验结果和分析。 |
[77] HalluSearch 在 SemEval-2025 任务 3:用于幻觉检测的搜索增强型 RAG 流水线 标题: HalluSearch at SemEval-2025 Task 3: A Search-Enhanced RAG Pipeline for Hallucination Detection 作者: Mohamed A. Abdallah / Samhaa R. El-Beltagy 原文: [英文] 备注: None 摘要: 在本文中,我们介绍了HalluSearch,这是一种多语言流程,旨在检测大型语言模型(LLM)输出中的虚构文本片段。HalluSearch是Mu-SHROOM(多语言幻觉及相关可观察过度生成错误共享任务)的一部分,结合了检索增强验证和细粒度事实分割,以识别和定位十四种不同语言中的幻觉。实证评估显示,HalluSearch表现出色,在英语(位列前百分之十)和捷克语中均排名第四。尽管该系统的基于检索的策略通常表现出稳健性,但在在线覆盖有限的语言中面临挑战,这突显了需要进一步研究以确保在不同语言环境中一致检测幻觉。 |
[78] 大语言模型的遗忘揭示了当前基准测试中比预期更强的核心集效应 标题: LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks 作者: Soumyadeep Pal / Changsheng Wang / James Diffenderfer / Bhavya Kailkhura / Sijia Liu 原文: [英文] [中文] 备注: None 摘要: 大型语言模型的去学习已成为确保安全性和控制模型行为的关键挑战,其目的是在保留模型的通用效用的同时,去除预训练模型中不良数据的影响。最近,许多重要的工作致力于开发大型语言模型去学习的基准,如WMDP(大规模杀伤性武器代理)和MUSE(机器去学习六向评估),以促进标准化的去学习性能评估和方法比较。尽管这些基准非常有用,我们首次发现了一个新的核心集效应。具体来说,我们发现使用原始(完整)遗忘集实现的去学习效果可以通过一个显著更小的子集(作为“核心集”)有效地维持,例如,仅需遗忘集的5%,即使是随机选择的。这表明,在这些基准中,即使在极低数据的情况下,去学习也可以非常容易地进行。我们证明了这种核心集效应在使用不同的去学习方法时仍然很强,例如NPO(负偏好优化)和RMU(表示误导去学习),这些方法在这些基准中很受欢迎。令人惊讶的强核心集效应在各种数据选择方法中也表现出稳健性,从随机选择到更复杂的启发式方法。我们通过基于关键词的视角解释了大型语言模型去学习中的核心集效应,表明仅从遗忘集中提取的关键词就对去学习效果有显著贡献,并指出当前的去学习是由一组高影响力的紧凑标记而非整个数据集驱动的。我们进一步从模式连通性和对越狱攻击的鲁棒性等附加维度证明了核心集去学习模型的忠实性。代码可在此https URL获取。 |
[79] 通过强化学习进行深度推理翻译 标题: Deep Reasoning Translation via Reinforcement Learning 作者: Jiaan Wang / Fandong Meng / Jie Zhou 原文: [英文] [中文] 备注: None 摘要: 最近,深度推理大型语言模型(例如,OpenAI o1/o3 和 DeepSeek-R1)在各种复杂任务中表现出色。自由翻译是多语言世界中一个重要且有趣的任务,它要求超越逐字翻译并考虑文化差异。在深度推理大型语言模型中,这一任务仍然未被充分探索。在本文中,我们介绍了 DeepTrans,一种通过强化学习学习自由翻译的深度推理翻译模型。具体来说,我们精心构建了一个奖励模型,该模型在翻译结果和思维过程上具有预定义的评分标准。给定源句子,奖励模型在强化学习过程中教导深度翻译模型如何思考并进行自由翻译。通过这种方式,训练 DeepTrans 不需要任何标注的翻译,避免了人力密集的标注或资源密集的数据合成。实验结果显示了 DeepTrans 的有效性。以 Qwen2.5-7B 为基础,DeepTrans 在文学翻译中将性能提高了 16.3%,并且优于强大的深度推理基线以及使用合成数据进行微调的基线。此外,我们总结了在强化学习探索过程中遇到的失败和有趣的发现。我们希望这项工作能够激励其他研究人员在自由翻译领域进行探索。 |
[80] 大型语言模型中的本地化文化知识是可保留且可控的 标题: Localized Cultural Knowledge is Conserved and Controllable in Large Language Models 作者: Veniamin Veselovsky / Berke Argin / Benedikt Stroebl / Chris Wendler / Robert West / James Evans / Thomas L. Griffiths / Arvind Narayanan 原文: [英文] [中文] 备注: None 摘要: 正如人类在说新语言时会受到母语影响而表现出特定的语言模式,LLM(大型语言模型)在生成其他语言时也常常默认以英语为中心的回应。然而,我们观察到模型中仍然保留着本地文化信息,并且可以通过文化定制轻松激活。我们首先证明,在提示中明确提供文化背景可以显著提高模型生成文化本地化回应的能力。我们将模型在有无明确文化背景下表现的差异称为显性-隐性本地化差距,这表明尽管LLM中存在文化知识,但如果没有明确提供文化背景,这些知识可能不会自然地在多语言互动中显现。尽管明确提示有益,但答案的多样性减少,并趋向于刻板印象。其次,我们识别出一个显性的文化定制向量,这个向量在我们探索的所有非英语语言中都是一致的,它能够将LLM从合成的英语文化世界模型引导至每个非英语文化世界。引导后的回应保留了隐性提示的多样性,并减少了刻板印象,从而显著提高了定制化的潜力。我们讨论了显性文化定制对于理解LLM中替代文化世界模型的保留及其可控实用性的影响,包括翻译、文化定制,以及通过软控制将显性转化为隐性以扩展LLM功能和吸引力的可能性。 |
[81] DioR:动态检索增强生成的自适应认知检测与上下文检索优化 标题: DioR: Adaptive Cognitive Detection and Contextual Retrieval Optimization for Dynamic Retrieval-Augmented Generation 作者: Hanghui Guo / Jia Zhu / Shimin Di / Weijie Shi / Zhangze Chen / Jiajie Xu 原文: [英文] [中文] 备注: 24 pages, 9 figures 摘要: 动态检索增强生成(RAG)在减轻大型语言模型(LLMs)生成过程中的幻觉方面取得了巨大成功。然而,现有的动态RAG方法在两个关键方面面临显著限制:1)缺乏有效机制来控制检索触发,2)缺乏对检索内容的有效审查。为了解决这些限制,我们提出了一种创新的动态RAG方法,DioR(自适应认知检测和上下文检索优化),它由两个主要组件组成:自适应认知检测和上下文检索优化,专门设计用于确定何时需要检索以及检索什么对LLMs是有用的。实验结果表明,DioR在所有任务上都取得了优异的表现,证明了我们工作的有效性。 |
[82] 探测并编辑大型语言模型的响应个性 标题: Probing then Editing Response Personality of Large Language Models 作者: Tianjie Ju / Zhenyu Shao / Bowen Wang / Yujia Chen / Zhuosheng Zhang / Hao Fei / Mong-Li Lee / Wynne Hsu / Sufeng Duan / Gongshen Liu 原文: [英文] 备注: Working in Progress 摘要: 大型语言模型(LLMs)在生成具有一致性格特征的响应方面展示了令人期待的能力。尽管通过基于输出的评估来分析性格表达的主要尝试已经进行,但关于这些特征如何在LLM参数中内部编码的了解仍然有限。在本文中,我们引入了一种逐层探测框架,以系统地研究LLMs在逐层编码性格以进行响应的能力。我们在11个开源LLM上进行探测实验,使用PersonalityEdit基准,发现LLMs主要在其中间和上层编码用于响应的性格特征,其中经过指令微调的模型表现出性格特征稍微更清晰的分离。此外,通过将训练好的探测超平面解释为每个性格类别的逐层边界,我们提出了一种逐层扰动方法,以在推理过程中编辑LLMs表达的性格。我们的结果表明,即使提示明确指定了特定的性格,我们的方法仍然可以成功地改变LLMs的响应性格。有趣的是,在某些性格特征之间转换的难度差异显著,这与我们探测实验中的表示距离一致。最后,我们进行了全面的MMLU基准评估和时间开销分析,表明我们提出的性格编辑方法在保持低训练成本和可接受的推理延迟的同时,仅对一般能力造成了最小的退化。我们的代码在此https URL上公开可用。 |
[83] 大型语言模型能生成科学论文的表格摘要吗?重新思考评估协议 标题: Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol 作者: Weiqi Wang / Jiefu Ou / Yangqiu Song / Benjamin Van Durme / Daniel Khashabi 原文: [英文] [中文] 备注: None 摘要: 文献综述表对于总结和比较科学论文集合至关重要。我们研究了在给定一组科学论文的情况下,生成最能满足用户信息需求的表格的任务。在最近的工作(Newman等,2024年)的基础上,我们通过结合基于大型语言模型(LLM)的方法和人工注释,扩展了先前的方法以应对现实世界的复杂性。我们的贡献集中在现实世界使用中遇到的三个关键挑战:(i)用户提示通常未明确指定;(ii)检索到的候选论文经常包含无关内容;(iii)任务评估应超越浅层文本相似性技术,而应评估推断表格在信息检索任务(例如,比较论文)中的实用性。为了支持可重复的评估,我们引入了ARXIV2TABLE,这是该任务的一个更现实且具有挑战性的基准,并提出了一种新方法以改善现实场景中的文献综述表生成。我们在该基准上的广泛实验表明,无论是开源权重还是专有的LLM在该任务上都面临困难,突显了其难度以及进一步进步的必要性。我们的数据集和代码可在此https URL获取。 |
[84] MorphTok:基于形态学的印度语言分词 标题: MorphTok: Morphologically Grounded Tokenization for Indian Languages 作者: Maharaj Brahma / N J Karthika / Atul Singh / Devaraj Adiga / Smruti Bhate / Ganesh Ramakrishnan / Rohit Saluja / Maunendra Sankar Desarkar 原文: [英文] 备注: None 摘要: 分词是自然语言处理中的一个关键步骤,尤其是在大型语言模型(LLMs)兴起的背景下,它影响下游性能、计算成本和效率。现有的LLMs依赖于经典的字节对编码(BPE)算法进行子词分词,该算法贪婪地合并频繁的字符二元组。这通常导致的分割与语言学上有意义的单位不一致。为了解决这个问题,我们提出了形态感知分割作为应用BPE之前的预分词步骤。为了促进形态感知分割,我们为印地语和马拉地语创建了一个新数据集,结合了“Sandhi”拆分以增强子词分词。在下游任务上的实验表明,形态学基础的分词提高了机器翻译和语言建模的性能。此外,为了处理音标的Unicode字符中的歧义,特别是在基于音节的书写系统中的依附元音,我们引入了约束BPE(CBPE),这是对传统BPE算法的扩展,结合了特定书写系统的约束。具体来说,CBPE处理依附元音。我们的结果表明,CBPE在保持机器翻译中可比或更好的下游性能的同时,实现了1.68%的生育率得分降低,提供了一种计算效率更高的标准BPE替代方案。此外,为了评估不同分词算法的分割效果,我们引入了一种新的人工评估指标,\textit{EvalTok},使得评估更具人性化基础。 |
[85] 从临床文本时间序列进行预测:编码器和解码器语言模型家族的适应 标题: Forecasting from Clinical Textual Time Series: Adaptations of the Encoder and Decoder Language Model Families 作者: Shahriar Noroozizadeh / Sayantan Kumar / Jeremy C. Weiss 原文: [英文] [中文] 备注: Machine Learning for Healthcare (MLHC 2025) 摘要: 临床病例报告编码了丰富的、时间序列的患者轨迹,这些信息常常被依赖于结构化数据的传统机器学习方法所忽视。在这项工作中,我们引入了从文本时间序列进行预测的问题,其中通过大型语言模型辅助的注释流程提取的带时间戳的临床发现作为预测的主要输入。我们系统地评估了一系列多样化的模型,包括微调的基于解码器的大型语言模型和基于编码器的变换器,应用于事件发生预测、时间排序和生存分析任务。我们的实验表明,基于编码器的模型在短期和长期事件预测中始终获得更高的F1分数和更优的时间一致性,而微调的掩码方法则提升了排序性能。相比之下,指令调优的解码器模型在生存分析中表现出相对优势,尤其是在早期预后设置中。我们的敏感性分析进一步证明了时间排序的重要性,这需要构建临床时间序列,而不是文本排序,即大型语言模型经典训练的文本输入格式。这突显了从时间排序语料库中可以获得的额外好处,并对在大型语言模型广泛使用时代的时间任务具有重要意义。 |
[86] VisualPuzzles:将多模态推理评估与领域知识解耦 标题: VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge 作者: Yueqi Song / Tianyue Ou / Yibo Kong / Zecheng Li / Graham Neubig / Xiang Yue 原文: [英文] [中文] 备注: 56 pages, 43 figures 摘要: 当前的多模态基准常常将推理与特定领域的知识混为一谈,这使得在非专家环境中孤立和评估一般推理能力变得困难。为了解决这个问题,我们引入了VisualPuzzles,这是一个专注于视觉推理的基准,同时有意减少对专业知识的依赖。VisualPuzzles由五类问题组成:算法推理、类比推理、演绎推理、归纳推理和空间推理。我们的问题的一个主要来源是从中国公务员考试中手动翻译的逻辑推理问题。实验表明,与MMMU等基准相比,VisualPuzzles需要显著更少的领域特定知识和更复杂的推理能力,使我们能够更好地评估真正的多模态推理。评估显示,最先进的多模态大型语言模型在VisualPuzzles上的表现始终落后于人类表现,并且在知识密集型基准上的强劲表现并不一定能转化为在以推理为重点、知识轻量的任务上的成功。此外,推理增强措施(如扩大推理计算能力的“思考”模式)在不同模型和任务类型中带来的收益不一致,我们没有观察到模型大小与性能之间的明确相关性。我们还发现,与更强调知识的基准相比,模型在VisualPuzzles上表现出不同的推理和回答模式。VisualPuzzles提供了一个更清晰的视角来评估超越事实回忆和领域知识的推理能力。 |
[87] MultiLoKo:一个跨越31种语言的大型语言模型多语言本地知识基准 标题: MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages 作者: Dieuwke Hupkes / Nikolay Bogoychev 原文: [英文] [中文] 备注: None 摘要: 我们介绍了MultiLoKo,这是一个新的基准,用于评估大语言模型(LLM)的多语言能力,涵盖31种语言。MultiLoKo由三个部分组成:一个主要部分,每种语言包含500个问题,分别来源于与特定语言相关的本地内容,以及两个翻译部分,包含从30种非英语语言到英语及反向的人类翻译。为了进行比较,我们还发布了相应的机器翻译版本。数据均匀分布在两个部分:一个开发部分和一个盲测、分布外的测试部分。MultiLoKo可以用于研究关于LLM多语言能力的各种问题,以及关于多语言基准创建的元问题。我们为11个被宣传为多语言的基础和聊天模型计算了MultiLoKo分数,并研究了它们的平均表现、跨语言的表现平等性、它们回答问题的能力在多大程度上依赖于问题语言,以及哪些语言最具挑战性。我们研究的模型在MultiLoKo上的表现都不佳,表现为平均分数低以及最佳和最差语言分数之间的巨大差异。此外,我们发现问题语言有显著影响,表明语言之间的知识转移不理想。最后,我们发现使用本地数据与英语翻译数据可以导致最佳表现模型的分数差异超过20分,显著改变某些语言的估计难度。对于使用机器翻译而非人类翻译,我们发现对语言难度排序的影响较弱,但对模型排名的影响较大,并且所有模型的估计性能都有显著下降。 |
[88] DICE:一种用于语言模型的维度和上下文评估的框架 标题: DICE: A Framework for Dimensional and Contextual Evaluation of Language Models 作者: Aryan Shrivastava / Paula Akemi Aoyagui 原文: [英文] [中文] 备注: None 摘要: 语言模型(LMs)正越来越多地被整合到各种应用中,但现代评估范式并未充分反映它们的实际使用方式。目前的评估依赖于基准测试,而这些测试往往缺乏对语言模型在现实世界中应用的直接适用性。为了解决这一差距,我们提出了维度和情境评估(DICE)方法,这是一种在细粒度、情境相关的维度上评估语言模型的方法。在这篇立场论文中,我们首先审视了现有语言模型基准测试的不足之处,强调了它们对现实世界用例的有限适用性。接下来,我们提出了一组细粒度的评估参数,这些参数捕捉了语言模型行为的维度,这些维度对各种应用领域的利益相关者更有意义。具体来说,我们引入了情境无关参数的概念——如稳健性、一致性和认知诚实性——以及必须根据选择在特定环境中部署语言模型的利益相关者的具体情境约束和需求量身定制的情境特定参数。然后,我们讨论了实现这一评估框架的潜在方法,最后探讨了DICE为语言模型评估领域带来的机遇和挑战。最终,这项工作为语言模型的情境特定和利益相关者相关评估提供了一个实用且易于接近的起点。 |
[89] S1-Bench:用于评估大型推理模型系统1思维能力的简单基准 标题: S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models 作者: Wenyuan Zhang / Shuaiyi Nie / Xinghua Zhang / Zefeng Zhang / Tingwen Liu 原文: [英文] [中文] 备注: Work in Progress 摘要: 我们介绍了S1-Bench,这是一种新颖的基准测试,旨在评估大型推理模型(LRMs)在简单任务上的表现,这些任务更倾向于直观的系统1思维,而不是深思熟虑的系统2推理。尽管LRMs在通过明确的思维链进行复杂推理任务方面取得了重大突破,但它们对深度分析性思维的依赖可能会限制其系统1思维能力。此外,目前缺乏评估LRMs在需要这种能力的任务中的表现的基准测试。为了填补这一空白,S1-Bench提供了一组简单、多样且自然清晰的问题,涵盖多个领域和语言,专门设计用于评估LRMs在这些任务中的表现。我们对22个LRMs的全面评估显示出显著的低效率倾向,其输出平均比传统的小型LLMs长15.5倍。此外,LRMs通常在早期识别正确答案,但继续进行不必要的深思熟虑,有些模型甚至产生大量错误。这些发现突显了当前LRMs的僵化推理模式,并强调了实现能够适应任务复杂性的平衡双系统思维能力所需的重大发展。 |
[90] 通过迭代优化的LLM驱动约束复制生成 标题: LLM-driven Constrained Copy Generation through Iterative Refinement 作者: Varun Vasudevan / Faezeh Akhavizadegan / Abhinav Prakash / Yokila Arora / Jason Cho / Tanya Mendiratta / Sushant Kumar / Kannan Achan 原文: [英文] [中文] 备注: 10 pages, 2 figures, 7 Tables 摘要: 撰写营销信息(文案)或文案写作是一项具有挑战性的生成任务,因为文案必须遵循各种约束。对于人类来说,文案创作本质上是一个迭代过程,从初稿开始,然后进行不断的改进。然而,手动文案创作耗时且昂贵,导致每个用例只有少量文案。这一限制限制了我们根据客户个性化内容的能力。与手动方法相反,大型语言模型(LLM)可以快速生成文案,但生成的内容在第一次尝试时并不总是符合所有约束(类似于人类)。虽然最近的研究在通过迭代改进提高约束生成方面显示出希望,但它们主要解决了只有少数简单约束的任务。因此,对于涉及许多复杂约束的文案生成等任务,迭代改进的有效性仍不明确。为了解决这一差距,我们提出了一种基于LLM的端到端框架,通过迭代改进实现可扩展的文案生成。据我们所知,这是首次在文案生成中同时解决多个具有挑战性的约束。这些约束的例子包括长度、主题、关键词、首选词汇顺序和语气。我们通过为三个不同复杂程度的用例创建电子商务横幅文案来展示我们框架的性能。我们的结果表明,迭代改进使文案成功率在各个用例中提高了16.25-35.91%。此外,使用我们的方法生成的文案在多个使用多臂匪徒框架的试点研究中优于手动创建的内容。获胜的文案将点击率提高了38.5-45.21%。 |
[91] 大型语言模型在支持医学诊断和治疗中的表现 标题: Performance of Large Language Models in Supporting Medical Diagnosis and Treatment 作者: Diogo Sousa / Guilherme Barbosa / Catarina Rocha / Dulce Oliveira 原文: [英文] [中文] 备注: 21 pages, 6 figures, 4 tables. Acknowledgements: The authors acknowledge the support of the AITriage4SU Project (this http URL), funded by the FCT (Foundation for Science and Technology), Portugal 摘要: 将大型语言模型(LLMs)整合到医疗保健中具有显著潜力,可以提高诊断准确性并支持医疗治疗计划。这些由人工智能驱动的系统能够分析大量数据集,帮助临床医生识别疾病、推荐治疗方案并预测患者结果。本研究评估了一系列当代LLMs的性能,包括开源和闭源模型,针对2024年葡萄牙国家医学专业考试(PNA),这是一项标准化的医学知识评估。我们的结果显示,在准确性和成本效益方面存在显著差异,其中一些模型在这一特定任务上的表现超过了医学专业学生的人类基准。我们基于准确性和成本的综合评分识别出领先的模型,讨论了诸如链式思维等推理方法的影响,并强调了LLMs作为有价值的补充工具在复杂临床决策中帮助医疗专业人员的潜力。 |
[92] LLM-SRBench:用于科学方程发现的大型语言模型新基准 标题: LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models 作者: Parshin Shojaee / Ngoc-Hieu Nguyen / Kazem Meidani / Amir Barati Farimani / Khoa D Doan / Chandan K Reddy 原文: [英文] 备注: Project page: this https URL , Benchmark page: this https URL 摘要: 科学方程发现是科学进步历史中的一项基本任务,它使得推导自然现象的规律成为可能。最近,大型语言模型(LLMs)因其能够利用嵌入的科学知识进行假设生成而在这一任务中引起了关注。然而,评估这些方法的真实发现能力仍然具有挑战性,因为现有的基准测试通常依赖于常见方程,这些方程容易被LLMs记忆,从而导致夸大的性能指标,这并不反映真实的发现。在本文中,我们介绍了LLM-SRBench,这是一个全面的基准测试,包含四个科学领域的239个具有挑战性的问题,专门设计用于评估基于LLM的科学方程发现方法,同时防止简单的记忆。我们的基准测试包括两个主要类别:LSR-Transform,它将常见的物理模型转化为不太常见的数学表示,以测试超越记忆形式的推理能力;以及LSR-Synth,它引入了需要数据驱动推理的合成、发现驱动的问题。通过对几种最先进的方法进行广泛评估,使用开放和封闭的LLMs,我们发现迄今为止表现最好的系统仅实现了31.5%的符号准确率。这些发现突显了科学方程发现的挑战,使LLM-SRBench成为未来研究的宝贵资源。 |
[93] CliniChat:一种用于临床访谈对话重建和评估的多源知识驱动框架 标题: CliniChat: A Multi-Source Knowledge-Driven Framework for Clinical Interview Dialogue Reconstruction and Evaluation 作者: Jing Chen / Zhihua Wei / Wei Zhang / Yingying Hu / Qiong Zhang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)因其流畅的互动能力和广泛的医学知识,在协助临床访谈方面具有巨大潜力。然而,高质量访谈对话数据的缺乏以及广泛接受的评估方法的缺失显著阻碍了这一过程。因此,我们提出了CliniChat,一个整合多源知识以使LLMs能够模拟真实世界临床访谈的框架。它由两个模块组成:Clini-Recon和Clini-Eval,分别负责重建和评估访谈对话。通过整合三种知识来源,Clini-Recon将临床笔记转化为系统的、专业的和富有同情心的访谈对话。Clini-Eval结合了全面的评估指标体系和两阶段自动评估方法,使LLMs能够像专家一样评估访谈表现。我们贡献了MedQA-Dialog,一个高质量的合成访谈对话数据集,以及CliniChatGLM,一个专门用于临床访谈的模型。实验结果表明,CliniChatGLM的访谈能力得到了全面升级,特别是在病史采集方面,达到了最先进的表现。 |
[94] 未被检查和被忽视:通过CheckboxQA解决大型语言模型中的复选框盲点 标题: Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA 作者: Michał Turski / Mateusz Chiliński / Łukasz Borchmann 原文: [英文] [中文] 备注: None 摘要: 复选框在现实世界的文档处理中至关重要,因为勾选与否直接影响数据提取和决策过程。然而,尽管大型视觉和语言模型在广泛的任务中表现出色,它们在解释可勾选内容时仍然存在困难。这一挑战在某些行业中尤为紧迫,因为一个被忽视的复选框可能导致昂贵的监管或合同疏漏。为了解决这一问题,我们引入了CheckboxQA数据集,这是一个专门设计的资源,用于评估和提高模型在复选框相关任务上的表现。它揭示了当前模型的局限性,并作为推进文档理解系统的宝贵工具,对法律科技和金融等行业的应用具有重要意义。该数据集可通过以下网址公开获取:this https URL |
[95] 我们能否编辑大型语言模型以获取长尾生物医学知识? 标题: Can We Edit LLMs for Long-Tail Biomedical Knowledge? 作者: Xinhao Yi / Jake Lever / Kevin Bryson / Zaiqiao Meng 原文: [英文] [中文] 备注: None 摘要: 知识编辑已成为通过修改大型语言模型(LLMs)内部知识来更新它们的有效方法。然而,由于生物医学知识的长尾分布,其中稀有和不常见的信息占主导地位,其在生物医学领域的应用面临独特挑战。在本文中,我们进行了首次全面研究,以调查知识编辑方法在编辑长尾生物医学知识方面的有效性。我们的结果表明,尽管现有的编辑方法可以增强LLMs在长尾生物医学知识上的表现,但即使经过编辑,它们在长尾知识上的表现仍然不如在高频流行知识上的表现。我们的进一步分析揭示了长尾生物医学知识包含大量的一对多知识,其中一个主体和关系链接到多个对象。这种一对多知识的高普遍性限制了知识编辑在提高LLMs对长尾生物医学知识理解方面的有效性,强调了需要制定专门的策略来弥合这一性能差距。 |
[96] 大型语言模型可能是危险的说服者:关于大型语言模型中说服安全性的实证研究 标题: LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models 作者: Minqian Liu / Zhiyang Xu / Xinyi Zhang / Heajun An / Sarvech Qadir / Qi Zhang / Pamela J. Wisniewski / Jin-Hee Cho / Sang Won Lee / Ruoxi Jia / Lifu Huang 原文: [英文] [中文] 备注: 20 pages, 7 figures, 4 tables 摘要: 近年来,大型语言模型(LLMs)的进步使其在接近人类水平的说服能力方面取得了显著成就。然而,这种潜力也引发了对LLM驱动的说服安全风险的担忧,特别是它们通过操控、欺骗、利用弱点以及其他许多有害策略进行不道德影响的可能性。在这项工作中,我们通过两个关键方面对LLM说服安全性进行了系统调查:(1)LLM是否能够适当地拒绝不道德的说服任务,并在执行过程中避免不道德的策略,包括在初始说服目标看似道德中立的情况下;(2)个性特征和外部压力等影响因素如何影响其行为。为此,我们引入了PersuSafety,这是第一个用于评估说服安全性的综合框架,包括三个阶段,即说服场景创建、说服性对话模拟和说服安全性评估。PersuSafety涵盖了6个不同的不道德说服主题和15种常见的不道德策略。通过对8个广泛使用的LLM进行的大量实验,我们观察到大多数LLM存在显著的安全问题,包括未能识别有害的说服任务以及利用各种不道德的说服策略。我们的研究呼吁更多关注以改善在渐进和目标驱动的对话(如说服)中的安全对齐。 |
[97] xVerify: 高效的推理模型评估答案验证器 标题: xVerify: Efficient Answer Verifier for Reasoning Model Evaluations 作者: Ding Chen / Qingchen Yu / Pengyuan Wang / Wentao Zhang / Bo Tang / Feiyu Xiong / Xinchi Li / Minchuan Yang / Zhiyu Li 原文: [英文] [中文] 备注: 32 pages 摘要: 随着OpenAI发布o1模型,采用慢思维策略的推理模型逐渐出现。由于此类模型生成的响应通常包含复杂的推理、中间步骤和自我反思,现有的评估方法往往不够充分。它们难以判断大型语言模型(LLM)的输出是否真正等同于参考答案,也难以从冗长复杂的响应中识别和提取最终答案。为了解决这个问题,我们提出了xVerify,这是一种用于推理模型评估的高效答案验证器。xVerify在等价判断方面表现出强大的能力,使其能够有效判断推理模型生成的答案是否与各种类型的客观问题的参考答案等价。为了训练和评估xVerify,我们通过收集多个LLM在各种数据集上生成的问题答案对,构建了VAR数据集,并利用多种推理模型和专门为推理模型评估设计的挑战性评估集。我们采用多轮注释过程以确保标签的准确性。基于VAR数据集,我们训练了多个不同规模的xVerify模型。在测试集和泛化集上进行的评估实验中,所有xVerify模型的整体F1分数和准确率均超过95%。值得注意的是,最小的变体xVerify-0.5B-I在整体性能上优于除GPT-4o之外的所有评估方法,而xVerify-3B-Ib在整体性能上超过了GPT-4o。这些结果验证了xVerify的有效性和普适性。 |