![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年3月21日更新论文36篇
|
[1] 上下文重要吗?用于评估基于大语言模型的法官在上下文环境中的表现的ContextualJudgeBench 标题: Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings 作者: Austin Xu / Srijan Bansal / Yifei Ming / Semih Yavuz / Shafiq Joty 原文: [英文] [中文] 备注: 23 pages, 13 figures, 6 tables 摘要: 大型语言模型(LLM)作为评判者的范式已被用于满足在人工智能系统开发和部署后监控期间对模型输出进行廉价、可靠和快速评估的需求。虽然评判模型——即经过微调以专门评估和批判模型输出的LLM——被吹捧为通用评估器,但它们通常仅在非情境场景中进行评估,例如指令遵循。令人惊讶的是,情境设置——即使用外部信息作为上下文来生成输出的场景——被忽略了,鉴于检索增强生成(RAG)和摘要用例的日益普及。情境评估具有独特的挑战,因为评估通常取决于实践者的优先级,导致条件评估标准(例如,基于事实性比较响应,然后在它们同样真实的情况下考虑完整性)。为了解决这一差距,我们提出了ContextualJudgeBench,一个评判基准,包含2000个具有挑战性的响应对,分为八个部分,灵感来自现实世界的情境评估场景。我们通过一个多方面的数据构建管道来构建我们的基准,该管道利用现有的人类注释和基于模型的扰动。我们对11个评判模型和9个通用模型的全面研究揭示了情境信息及其评估标准对即使是最先进的模型也构成了重大挑战。例如,OpenAI的o1,表现最好的模型,几乎只能达到55%的一致准确率。 |
[2] 利用大型语言模型增强胰腺癌分期:检索增强生成的作用 标题: Enhancing Pancreatic Cancer Staging with Large Language Models: The Role of Retrieval-Augmented Generation 作者: Hisashi Johno / Yuki Johno / Akitomo Amakawa / Junichi Sato / Ryota Tozuka / Atsushi Komaba / Hiroaki Watanabe / Hiroki Watanabe / Chihiro Goto / Hiroyuki Morisaka / Hiroshi Onishi / Kazunori Nakamoto 原文: [英文] [中文] 备注: 11 pages, 6 figures, 2 tables, 6 supplementary files 摘要: 目的:检索增强生成(RAG)是一种通过从可靠的外部知识(REK)中检索相关信息来增强大型语言模型(LLM)功能和可靠性的技术。RAG在放射学领域引起了关注,我们之前报道了带有RAG的NotebookLM(RAG-LLM)在肺癌分期中的实用性。然而,由于对比的LLM与NotebookLM的内部模型不同,其优势是否源于RAG或固有的模型差异尚不清楚。为了更好地隔离RAG的影响并评估其在不同癌症中的实用性,我们在胰腺癌分期实验中将NotebookLM与其内部LLM,Gemini 2.0 Flash进行了比较。 材料和方法:使用日本胰腺癌分期指南的摘要作为REK。我们比较了三个组——REK+/RAG+(带有REK的NotebookLM)、REK+/RAG-(带有REK的Gemini 2.0 Flash)和REK-/RAG-(没有REK的Gemini 2.0 Flash)——在基于CT发现对100个虚构的胰腺癌病例进行分期。分期标准包括TNM分类、局部侵袭因素和可切除性分类。在REK+/RAG+中,检索准确性基于检索到的REK摘录的充分性进行量化。 结果:REK+/RAG+实现了70%的分期准确性,优于REK+/RAG-(38%)和REK-/RAG-(35%)。对于TNM分类,REK+/RAG+达到了80%的准确性,超过了REK+/RAG-(55%)和REK-/RAG-(50%)。此外,REK+/RAG+明确展示了检索到的REK摘录,达到了92%的检索准确性。 结论:在胰腺癌分期实验中,NotebookLM作为RAG-LLM优于其内部LLM,Gemini 2.0 Flash,这表明RAG可能提高LLM的分期准确性。此外,其检索和展示REK摘录的能力为医生提供了透明性,突显了其在临床诊断和分类中的适用性。 |
[3] 我符合条件吗?临床试验患者招募的自然语言推理:患者的视角 标题: Am I eligible? Natural Language Inference for Clinical Trial Patient Recruitment: the Patient's Point of View 作者: Mathilde Aguiar / Pierre Zweigenbaum / Nona Naderi 原文: [英文] [中文] 备注: None 摘要: 招募患者参与临床试验可能是一个具有挑战性且耗时的过程。通常,参与临床试验是由医疗专业人员发起并向患者提出的。通过在线招募直接向患者推广临床试验可能有助于更高效地接触到他们。在本研究中,我们探讨了患者自行启动招募过程并希望确定自己是否符合某项临床试验资格的情况,患者使用自己的语言来描述其医疗状况。为了研究这是否会在患者与试验匹配过程中造成困难,我们设计了一个新的数据集和任务,即患者招募的自然语言推理(NLI4PR),其中患者的语言资料必须与临床试验相匹配。我们通过改编TREC 2022临床试验轨道数据集来创建它,该数据集提供了患者的医疗资料,并使用患者语言手动重新措辞。我们还使用了相关的临床试验报告,其中患者要么符合资格,要么被排除。我们在我们的任务中提示了几个开源的大型语言模型,使用患者语言的F1得分从56.5到71.8,而使用医学语言进行相同任务的得分为64.7到73.1。使用患者语言时,我们观察到最佳模型的性能仅有小幅下降,这表明以患者为起点的方式可以被采用来帮助招募临床试验的患者。语料库和代码库均可在我们的Github和HuggingFace存储库中免费获取。 |
[4] KoGNER:一种用于生物医学命名实体识别的知识图谱蒸馏新框架 标题: KoGNER: A Novel Framework for Knowledge Graph Distillation on Biomedical Named Entity Recognition 作者: Heming Zhang / Wenyu Li / Di Huang / Yinjie Tang / Yixin Chen / Philip Payne / Fuhai Li 原文: [英文] [中文] 备注: None 摘要: 命名实体识别(NER)是自然语言处理(NLP)中的一项基础任务,在信息提取、问答系统和基于知识的系统中发挥着关键作用。传统的基于深度学习的NER模型通常在领域特定的泛化方面表现不佳,并且受到数据稀疏问题的影响。在这项工作中,我们介绍了一种新的方法——用于命名实体识别的知识图谱蒸馏(KoGNER),该方法将知识图谱(KG)蒸馏集成到NER模型中,以增强实体识别性能。我们的框架利用来自KG的结构化知识表示来丰富上下文嵌入,从而改善实体分类并减少实体检测中的歧义。KoGNER采用两步过程:(1)知识蒸馏,将外部知识源蒸馏成轻量级表示,以便与NER模型无缝集成;(2)实体感知增强,将通过知识图谱信息丰富的上下文嵌入直接集成到GNN中,从而提高模型理解和表示实体关系的能力。基准数据集上的实验结果表明,KoGNER实现了最先进的性能,显著超越了微调的NER模型和LLM。这些发现表明,利用知识图谱作为辅助信息可以显著提高NER的准确性,使KoGNER成为未来知识感知NLP研究的一个有前途的方向。 |
[5] 一刀切是否适用?:多文档摘要领域迁移中的失败测量 标题: Can one size fit all?: Measuring Failure in Multi-Document Summarization Domain Transfer 作者: Alexandra DeLucia / Mark Dredze 原文: [英文] [中文] 备注: None 摘要: 抽象多文档摘要(MDS)是自动总结多个文档信息的任务,从新闻文章到多位发言者的对话。当前MDS模型的训练方法可以分为四种:带有特殊预训练的端到端(“直接”)、分块后总结、提取后总结,以及使用GPT风格模型进行推理。在这项工作中,我们在训练方法、领域和维度(参考相似性、质量和事实性)上评估MDS模型,以分析在零样本领域转移设置中,为什么在一个领域训练的模型可能无法总结另一个领域(新闻、科学和对话)的文档。我们将领域转移的“失败”定义为事实性下降、与目标的偏差增加以及摘要质量的总体下降。除了探索MDS模型的领域转移外,我们还检查了直接应用流行摘要指标的潜在问题。 |
[6] 使用大型语言模型进行游戏描述生成的语法与游戏玩法对齐强化学习 标题: Grammar and Gameplay-aligned RL for Game Description Generation with LLMs 作者: Tsunehiko Tanaka / Edgar Simo-Serra 原文: [英文] 备注: None 摘要: 游戏描述生成(GDG)是从自然语言文本生成用游戏描述语言(GDL)编写的游戏描述的任务。之前的研究探索了利用大型语言模型(LLMs)的上下文理解能力的生成方法;然而,准确再现游戏描述的游戏特征仍然是一个挑战。在本文中,我们提出了一种基于强化学习的LLMs微调方法用于GDG(RLGDG)。我们的训练方法通过引入语法奖励和概念奖励,同时提高语法正确性和对游戏概念的忠实度。此外,我们采用了一个两阶段的训练策略,其中在监督微调(SFT)之后应用强化学习(RL)。实验结果表明,我们提出的方法显著优于仅使用SFT的基线方法。 |
[7] 伏羲:评估语言模型在古代汉语文本理解与生成上的基准 标题: Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation 作者: Shangqing Zhao / Yuhao Zhou / Yupei Ren / Zhe Chen / Chenghao Jia / Fang Zhe / Zhaogaung Long / Shu Liu / Man Lan 原文: [英文] [中文] 备注: working in progress 摘要: 古代汉语文本处理对大型语言模型(LLMs)提出了独特的挑战,因为其具有独特的语言特征、复杂的结构约束和丰富的文化背景。尽管现有的基准测试主要通过选择题来评估理解能力,但在评估模型在古文生成能力方面仍存在关键空白。我们引入了Fùxì,这是一个综合基准,评估在21个不同任务中理解和生成能力。我们的基准通过三个关键贡献来区分自己:(1)在理解和生成任务上实现平衡覆盖,包括诗歌创作和对联补全等新颖任务,(2)专门为古文生成设计的评估指标,结合基于规则的验证和微调的LLM评估器,以及(3)一个系统的评估框架,考虑语言准确性和文化真实性。通过对最先进的LLM进行广泛评估,我们揭示了理解和生成任务之间显著的性能差距,模型在理解方面取得了可喜的成果,但在生成任务上,尤其是那些需要深厚文化知识和遵循古典格式的任务上,表现相当困难。我们的研究结果突显了当前古代汉语文本处理的局限性,并为未来模型开发提供了见解。该基准、评估工具包和基线结果已公开,以促进该领域的研究。 |
[8] 大语言模型中的不确定性量化和置信度校准:综述 标题: Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey 作者: Xiaoou Liu / Tiejin Chen / Longchao Da / Chacha Chen / Zhen Lin / Hua Wei 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在文本生成、推理和决策方面表现出色,使其在医疗、法律和交通等高风险领域得以应用。然而,它们的可靠性是一个主要问题,因为它们经常产生看似合理但不正确的回答。不确定性量化(UQ)通过估计输出的置信度来增强可信度,从而实现风险缓解和选择性预测。然而,传统的UQ方法由于计算限制和解码不一致性,在处理LLMs时面临困难。此外,LLMs引入了独特的不确定性来源,如输入歧义、推理路径分歧和解码随机性,这些超出了经典的偶然性和认知不确定性。为了解决这个问题,我们引入了一种新的分类法,根据计算效率和不确定性维度(输入、推理、参数和预测不确定性)对UQ方法进行分类。我们评估了现有技术,评估其在现实世界中的适用性,并识别出未解决的挑战,强调需要可扩展、可解释和稳健的UQ方法来提高LLM的可靠性。 |
[9] Typed-RAG:面向类型的多方面分解用于非事实型问答 标题: Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering 作者: DongGeon Lee / Ahjeong Park / Hyeri Lee / Hyeonseo Nam / Yunho Maeng 原文: [英文] [中文] 备注: Accepted to NAACL 2025 SRW 摘要: 非事实型问答(NFQA)由于其开放性、多样化的意图以及需要多方面推理的特性,给传统的事实型问答方法(包括检索增强生成(RAG))带来了重大挑战。与事实型问题不同,非事实型问题(NFQs)没有明确的答案,需要从多个来源综合信息,并涉及多种推理维度。为了解决这些局限性,我们引入了Typed-RAG,这是一种在RAG范式下用于NFQA的类型感知多方面分解框架。Typed-RAG将NFQs分类为不同类型——如辩论、经验和比较——并应用基于方面的分解来优化检索和生成策略。通过将多方面的NFQs分解为单方面的子查询并聚合结果,Typed-RAG生成了更具信息性和上下文相关的回答。为了评估Typed-RAG,我们引入了Wiki-NFQA,这是一个涵盖多种NFQ类型的基准数据集。实验结果表明,Typed-RAG优于基线方法,从而突显了类型感知分解在NFQA中实现有效检索和生成的重要性。我们的代码和数据集可在\href{this https URL}{this https URL}获取。 |
[10] 参数与上下文:语言模型中知识依赖的细粒度控制 标题: Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models 作者: Baolong Bi / Shenghua Liu / Yiwei Wang / Yilong Xu / Junfeng Fang / Lingrui Mei / Xueqi Cheng 原文: [英文] [中文] 备注: None 摘要: 检索增强生成(RAG)通过整合外部知识来缓解大型语言模型(LLM)的幻觉现象。然而,当检索到的信息不可靠或模型的内部知识过时时,参数化知识与检索上下文之间的冲突会带来挑战。在这种情况下,LLM难以判断是更依赖自身参数还是冲突的上下文。为了解决这个问题,我们提出了**CK-PLUG**,这是一种用于控制LLM对参数化和上下文知识依赖的即插即用方法。我们引入了一种新的知识一致性度量指标,称为信心增益,通过测量上下文插入后标记概率分布的熵变化来检测知识冲突。CK-PLUG通过调整具有负信心增益的标记的概率分布,并通过单个调节参数,实现对知识偏好的细粒度控制。实验表明,CK-PLUG能够在反事实RAG场景中显著调节知识依赖,同时保持生成流畅性和知识准确性。例如,在Llama3-8B上,RAG响应的记忆召回(MR)可以在9.9%-71.9%的范围内调整,而基线为42.1%。此外,CK-PLUG支持基于模型对内部和外部知识的信心进行自适应控制,在各种通用RAG任务中实现了一致的性能提升。我们的代码可在以下网址获取:$\href{this https URL}{\text{this https URL}}$。 |
[11] 从结构化提示到开放叙述:通过开放式讲故事测量大型语言模型中的性别偏见 标题: From Structured Prompts to Open Narratives: Measuring Gender Bias in LLMs Through Open-Ended Storytelling 作者: Evan Chen / Run-Jun Zhan / Yan-Bai Lin / Hung-Hsuan Chen 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)已经彻底改变了自然语言处理领域,但人们仍然担心这些模型可能会反映或放大其训练数据中存在的社会偏见。本研究引入了一种新的评估框架,以揭示LLMs中的性别偏见,重点关注其职业叙述。与之前依赖结构化场景或精心设计的提示的方法不同,我们的方法利用自由形式的故事讲述来揭示模型中嵌入的偏见。系统分析显示,在六个广泛使用的LLMs中,各种职业中女性角色的过度代表。此外,我们的研究结果表明,LLM生成的职业性别排名与人类刻板印象比实际劳动统计数据更为一致。这些见解强调了需要平衡的缓解策略,以确保公平,同时避免强化新的刻板印象。 |
[12] 迈向自动化持续学习:一种用于持续指令微调的自适应框架 标题: Towards Automatic Continual Learning: A Self-Adaptive Framework for Continual Instruction Tuning 作者: Peiyi Lin / Fukai Zhang / Kai Niu / Hao Fu 原文: [英文] [中文] 备注: None 摘要: 持续指令微调使大型语言模型(LLMs)能够在保留过去知识的同时进行增量学习,而现有方法主要关注如何保留旧知识,而不是选择学习哪些新知识。在特定领域的背景下,保持数据质量和管理系统约束仍然是关键挑战。为了解决这些问题,我们提出了一种自动化的持续指令微调框架,该框架动态过滤传入数据,以识别和减少连续更新中的冗余数据。我们的方法利用一个小型代理模型进行高效的基于困惑度的过滤,并更新代理以确保过滤标准与部署模型的不断演变状态保持一致。与现有的静态数据选择方法相比,我们的框架可以有效处理增量获取的数据和变化的分布。此外,它通过支持无缝模型更新、版本回滚和自动检查点评估,解决了实际部署中的挑战。我们在真实的医疗场景中评估了该系统。结果表明,它减少了66.7%的计算成本并提高了模型性能,实现了自主更新,从而证明了其在自动化持续指令微调中的有效性。 |
[13] 从混乱到有序:用于大型语言模型中细粒度推理的原子推理框架 标题: From Chaos to Order: The Atomic Reasoner Framework for Fine-grained Reasoning in Large Language Models 作者: Jinyi Liu / Yan Zheng / Rong Cheng / Qiyu Wu / Wei Guo / Fei Ni / Hebin Liang / Yifu Yuan / Hangyu Mao / Fuzheng Zhang / Jianye Hao 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展显示出显著的进步,但其进行逻辑“慢思考”推理的能力仍然是一个关键的研究前沿。目前的推理扩展范式存在两个基本限制:破碎的思维流损害了逻辑连贯性,以及随着搜索空间维度的增加而急剧上升的计算复杂性。为了克服这些限制,我们提出了\textbf{原子推理器}(\textbf{AR)),这是一种认知推理策略,通过系统的原子级操作实现细粒度推理。AR将推理过程分解为原子认知单元,采用认知路由机制动态构建推理表示并协调推理路径。这种系统的方法实现了逐步的结构化认知,确保逻辑连贯性,同时显著降低认知负荷,有效模拟了人类深度思考过程中观察到的认知模式。广泛的实验结果表明,AR在不需要耗费大量计算资源进行穷尽式解决方案搜索的情况下,表现出卓越的推理能力,尤其是在语言逻辑谜题中表现突出。这些发现证实了AR在增强LLMs进行稳健、长序列逻辑推理和深思熟虑能力方面的有效性。 |
[14] 自适应群体策略优化:迈向稳定训练和高效推理 标题: Adaptive Group Policy Optimization: Towards Stable Training and Token-Efficient Reasoning 作者: Chen Li / Nazhou Liu / Kai Yang 原文: [英文] [中文] 备注: This is an unfinished version and will be updated. We aim to share some findings 摘要: 自从 DeepSeek-R1 普及以来,群体相对策略优化(GRPO)已成为推理大型语言模型(LLMs)训练的核心部分。然而,我们发现了一些影响强化学习稳定性和推理效率的缺陷。因此,我们提出了自适应群体策略优化(AGPO),其中包含两个简单但有效的修改:一种修正的优势估计方法,以缓解零方差情况;一种基于长度的奖励,激励模型避免过度思考。实验表明,我们的方法在推理步骤中使用显著更少的标记数的情况下,实现了更稳定的训练和相当或更优的性能。 |
[15] 探索性研究:认知扭曲与情感评估之间的关系 标题: Exploratory Study into Relations between Cognitive Distortions and Emotional Appraisals 作者: Navneet Agarwal / Kairit Sirts 原文: [英文] [中文] 备注: None 摘要: 近年来,从计算和心理学的角度研究认知扭曲和情感评估引起了越来越多的关注。尽管情感重评和认知重构作为情绪调节技术有相当多的相似之处,但这些概念大多是孤立地进行研究的。本研究探讨了认知扭曲与情感评估维度之间的关系,研究它们的潜在联系及其对未来跨学科研究的意义。在此背景下,我们进行了一项探索性计算研究,旨在调查认知扭曲与情感评估之间的关系。我们发现认知扭曲与评估维度之间的统计显著关系模式在不同的扭曲类别中有所不同,从而为个别扭曲类别产生了不同的评估特征。此外,我们分析了认知重构对评估维度的影响,体现了认知重构的情绪调节方面。 |
[16] InhibiDistilbert:基于ReLU和加法的Transformer的知识蒸馏 标题: InhibiDistilbert: Knowledge Distillation for a ReLU and Addition-based Transformer 作者: Tony Zhang / Rickard Brännvall 原文: [英文] [中文] 备注: 7 pages, 2 tables 摘要: 本文研究了通过将模型压缩技术与抑制器注意力这一新型替代注意力机制相结合来优化基于Transformer的语言模型。抑制器注意力使用曼哈顿距离和ReLU激活函数,替代了传统缩放点积注意力中的矩阵乘法和softmax激活。这一转变在保持模型有效性的同时,提供了潜在的计算和能量节省。我们提出了进一步的调整以提高抑制器机制的训练效率,并在DistilBERT架构上评估其性能。我们的知识蒸馏实验表明,经过修改的抑制器Transformer模型在标准NLP基准测试(包括通用语言理解评估(GLUE)和情感分析任务)中可以实现具有竞争力的性能。 |
[17] ECKGBench:利用知识图谱在电子商务中对大型语言模型进行基准测试 标题: ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph 作者: Langming Liu / Haibin Chen / Yuhao Wang / Yujin Yuan / Shilei Liu / Wenbo Su / Xiangyu Zhao / Bo Zheng 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在各种自然语言处理任务中展示了其能力。在电子商务领域,它们的潜力也很大,已有的实际应用包括平台搜索、个性化推荐和客户服务。与LLMs相关的一个主要问题是其事实性(例如,幻觉),这在电子商务中尤为紧迫,因为它对用户体验和收入有重大影响。尽管已经提出了一些方法来评估LLMs的事实性,但由于缺乏可靠性、高消耗以及缺乏领域专业知识,导致在电子商务中有效评估存在差距。为了弥合评估差距,我们提出了ECKGBench,这是一个专门设计用于评估LLMs在电子商务知识方面能力的数据集。具体来说,我们采用标准化的工作流程,基于大规模知识图自动生成问题,以确保足够的可靠性。我们采用简单的问答范式,通过最少的输入和输出标记显著提高评估效率。此外,我们在每个评估阶段注入丰富的电子商务专业知识,包括人工标注、提示设计、负采样和验证。此外,我们从一个新的视角探索LLMs在电子商务中的知识边界。通过对几个先进的LLMs在ECKGBench上的全面评估,我们提供了关于利用LLMs进行电子商务的细致分析和见解。 |
[18] 纠正性上下文学习:评估大型语言模型中的自我纠正 标题: Corrective In-Context Learning: Evaluating Self-Correction in Large Language Models 作者: Mario Sanz-Guerrero / Katharina von der Wense 原文: [英文] [中文] 备注: Accepted to the 6th Workshop on Insights from Negative Results in NLP at NAACL 2025 摘要: 上下文学习(ICL)已经改变了大型语言模型(LLMs)在自然语言处理任务中的使用方式,使得通过在有标签的示例上进行条件学习而无需微调就能实现少样本学习。尽管ICL效果显著,但在处理具有挑战性的示例时容易出错。为了提高ICL的性能,我们提出了纠正性上下文学习(CICL),这种方法将模型的错误预测与真实的纠正一起纳入提示中,旨在通过自我纠正来提高分类准确性。然而,与我们的假设相反,大量文本分类任务的实验表明,CICL的表现始终不如标准ICL,并且随着提示中纠正比例的增加,性能下降。我们的研究结果表明,CICL通过扰乱模型的任务理解而不是优化其预测来引入混乱。此外,我们观察到在标准ICL中呈现更难的示例并不能提高性能,这表明示例难度本身可能不是有效选择的可靠标准。通过呈现这些负面结果,我们提供了关于LLMs中自我纠正机制局限性的关键见解,并为未来的研究提供了方向。 |
[19] 语言的灯塔:通过批判引导改进增强大型语言模型代理 标题: The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement 作者: Ruihan Yang / Fanghua Ye / Jian Li / Siyu Yuan / Yikai Zhang / Zhaopeng Tu / Xiaolong Li / Deqing Yang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)最近从基于文本的助手转变为能够进行规划、推理和迭代改进其行动的自主代理。虽然数值奖励信号和验证器可以有效地对候选行动进行排名,但它们通常提供有限的上下文指导。相比之下,自然语言反馈更符合LLMs的生成能力,提供更丰富和更具可操作性的建议。然而,对于基于LLM的代理来说,有效解析和实施这种反馈可能具有挑战性。在这项工作中,我们引入了批评引导改进(CGI),这是一种新颖的双人框架,包括一个探索环境的演员模型和一个生成详细自然语言反馈的评论家模型。通过训练评论家生成细致的评估和可操作的修订意见,并训练演员利用这些批评,我们的方法促进了对替代策略的更稳健探索,同时避免局部最优。三个交互环境中的实验表明,CGI在很大程度上优于现有基线。值得注意的是,即使是一个小型评论家模型在反馈质量上也超过了GPT-4。最终的演员达到了最先进的性能,展示了显式迭代指导在增强基于LLM的代理决策中的力量。 |
[20] 欺骗性幽默:用于将虚构声明与幽默内容联系起来的合成多语言基准数据集 标题: Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content 作者: Sai Kartheek Reddy Kasu / Shankar Biradar / Sunil Saumya 原文: [英文] [中文] 备注: 15 Pages, 4 figures, 8 tables 摘要: 本文介绍了欺骗性幽默数据集(DHD),这是一个用于研究源于虚假声明和误导信息的幽默的新颖资源。在信息泛滥的时代,理解幽默如何与欺骗交织在一起至关重要。DHD由从虚假叙述中生成的幽默评论组成,使用ChatGPT-4o模型结合虚假声明和操控信息。每个实例都标有讽刺等级,从1级的微妙讽刺到3级的高级讽刺,并分类为五种不同的幽默类别:黑色幽默、反讽、社会评论、文字游戏和荒谬性。该数据集涵盖多种语言,包括英语、泰卢固语、印地语、卡纳达语、泰米尔语及其代码混合变体(Te-En、Hi-En、Ka-En、Ta-En),使其成为一个有价值的多语言基准。通过引入DHD,我们为分析欺骗性背景下的幽默建立了一个结构化的基础,为探索幽默如何不仅与误导信息互动,还影响其认知和传播开辟了新的研究方向。我们为所提出的数据集建立了强大的基线,为未来的研究提供了基准和推进欺骗性幽默检测模型的基础。 |
[21] 评估测试时扩展大型语言模型在法律推理中的应用:OpenAI o1、DeepSeek-R1及其他 标题: Evaluating Test-Time Scaling LLMs for Legal Reasoning: OpenAI o1, DeepSeek-R1, and Beyond 作者: Yaoyao Yu / Leilei Gan / Yinghao Hu / Bin Wei / Kun Kuang / Fei Wu 原文: [英文] [中文] 备注: None 摘要: 最近,测试时扩展大型语言模型(LLMs),如DeepSeek-R1和OpenAI o1,在多个领域和任务中展示了卓越的能力,尤其是在推理方面。虽然这些模型在一般语言任务上表现出色,但它们在法律等专业领域的有效性仍不明确。为了解决这一问题,我们对LLMs在各种法律场景中进行了初步评估,涵盖了中文和英文法律任务。我们的分析包括9个LLMs和17个法律任务,重点关注新发布的和更复杂的挑战,如多被告法律判决和法律论证推理。我们的研究结果表明,尽管DeepSeek-R1和OpenAI o1是最强大的模型之一,它们的法律推理能力仍然不足。具体来说,这些模型在七个中文法律推理任务中得分低于80%,在两个英文法律推理任务中得分也低于80%。这表明,即使在最先进的推理模型中,法律推理能力仍然发展不足。 |
[22] 带有编辑操作指导和话语增强的不完整话语重写 标题: Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance Augmentation 作者: Zhiyu Cao / Peifeng Li / Yaxin Fan / Qiaoming Zhu 原文: [英文] [中文] 备注: None 摘要: 尽管现有的不完整话语重写(IUR)方法可以生成连贯的话语,但由于无法专注于对话上下文中的关键词汇,往往会在重写的话语中包含不相关和冗余的词汇。此外,训练数据集的规模有限也导致IUR模型的训练不足。为了解决第一个问题,我们提出了一个多任务学习框架EO-IUR(编辑操作引导的不完整话语重写),该框架通过序列标注模块生成的编辑操作标签来引导生成模型关注关键词汇。此外,我们引入了一个基于词汇的异构图来表示对话。为了解决第二个问题,我们提出了一种二维话语增强策略,即基于编辑操作的不完整话语增强和基于大型语言模型(LLM)的历史话语增强。在三个数据集上的实验结果表明,我们的EO-IUR在开放域和任务导向对话中均优于之前的最先进(SOTA)基线。代码将在此https URL上提供。 |
[23] 元学习神经机制而非贝叶斯先验 标题: Meta-Learning Neural Mechanisms rather than Bayesian Priors 作者: Michael Goodale / Salvador Mascarenhas / Yair Lakretz 原文: [英文] [中文] 备注: None 摘要: 儿童能够习得语言,尽管他们接触到的数据量比大型语言模型所需的数据量少几个数量级。元学习被提出作为一种将类似人类的学习偏向整合到神经网络架构中的方法,结合符号模型的结构化泛化和神经网络模型的可扩展性。但是,元学习究竟赋予模型什么呢?我们研究了形式语言的元学习,发现与之前的说法相反,当在围绕简单性组织的数据集上进行元训练时,元训练的模型并没有学习基于简单性的先验。相反,我们发现证据表明元训练将神经机制(如计数器)印刻到模型中,这些机制在下游任务中像认知原语一样发挥作用。最令人惊讶的是,我们发现对单一形式语言的元训练可以为模型提供与对5000种不同形式语言的元训练一样多的改进,前提是该形式语言激励了有用的神经机制的学习。综上所述,我们的研究结果为高效的元学习范式提供了实际意义,并为符号理论与神经机制的联系提供了新的理论见解。 |
[24] 基于编辑操作的两阶段不完整话语重写 标题: Two-stage Incomplete Utterance Rewriting on Editing Operation 作者: Zhiyu Cao / Peifeng Li / Qiaoming Zhu / Yaxin Fan 原文: [英文] [中文] 备注: None 摘要: 以往关于不完整话语重写(IUR)的研究主要集中于仅基于对话上下文生成重写话语,而忽略了对话中广泛存在的共指和省略现象。为了解决这个问题,我们提出了一种新颖的框架,称为TEO(\emph{基于编辑操作的两阶段方法)用于IUR,其中第一阶段生成编辑操作,第二阶段利用生成的编辑操作和对话上下文重写不完整话语。此外,我们提出了一种对抗扰动策略,以减轻第二阶段训练和推理不一致导致的级联错误和曝光偏差。在三个IUR数据集上的实验结果表明,我们的TEO显著优于现有的最先进模型。 |
[25] 通过RAG原则调整大型语言模型:迈向大型语言模型原生记忆 标题: Tuning LLMs by RAG Principles: Towards LLM-native Memory 作者: Jiale Wei / Shuchi Wu / Ruochen Liu / Xiang Ying / Jingbo Shang / Fangbo Tao 原文: [英文] [中文] 备注: None 摘要: 记忆,即超越大型语言模型(LLMs)训练的附加信息,对于各种现实世界的应用(如个人助理)至关重要。将记忆融入生成过程的两种主流解决方案是长上下文LLMs和检索增强生成(RAG)。在本文中,我们首先在三个改进/新数据集上系统地比较了这两种解决方案,并表明:(1)长上下文解决方案虽然成本更高,但更容易掌握全局,并更好地回答需要整体考虑记忆的查询;(2)当查询涉及具体信息时,RAG解决方案更具竞争力,尤其是在可以明确匹配关键词的情况下。因此,我们提出了一种新方法RAG-Tuned-LLM,该方法通过使用遵循RAG原则生成的数据微调一个相对较小的(例如,7B)LLM,从而可以结合两种解决方案的优势。在三个数据集上的大量实验表明,RAG-Tuned-LLM可以在各种查询类型上超越长上下文LLMs和RAG方法。 |
[26] 使用软提示调优在大型语言模型中进行文化对齐 标题: Cultural Alignment in Large Language Models Using Soft Prompt Tuning 作者: Reem I. Masoud / Martin Ferianc / Philip Treleaven / Miguel Rodrigues 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLM)的对齐通常依赖于监督微调或强化学习为基础的对齐框架。这些方法通常需要标注或偏好数据集,并通过更新模型权重来使LLM与训练目标或奖励模型对齐。同时,在跨文化研究等社会科学领域,因子分析被广泛用于揭示解释调查数据中观察到的模式的潜在维度或潜变量。由于这些源自调查数据的测量具有不可微分的特性,传统的对齐方法在与文化维度对齐时显得不可行。为了解决这一问题,我们提出了一种参数高效的策略,该策略结合了软提示调优(冻结模型参数同时修改输入提示嵌入)与差分进化(DE),一种用于不可微目标的黑箱优化方法。此策略确保了对齐的一致性,无需偏好数据或模型参数更新,显著提高了效率并减轻了过拟合。我们的方法在多个地区的文化维度上显著提升了LLama-3-8B-Instruct的表现,优于朴素LLM和上下文学习(ICL)基线,有效地将计算模型与人类文化细微差别连接起来。 |
[27] MKG-Rank:通过知识图谱增强大型语言模型以实现多语言医学问答 标题: MKG-Rank: Enhancing Large Language Models with Knowledge Graph for Multilingual Medical Question Answering 作者: Feiyang Li / Yingjian Chen / Haoran Liu / Rui Yang / Han Yuan / Yuang Jiang / Tianxiao Li / Edison Marrese Taylor / Hossein Rouhizadeh / Yusuke Iwasawa / Douglas Teodoro / Yutaka Matsuo / Irene Li 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在医学问答(QA)方面表现出显著的进步,但由于多语言训练数据不平衡以及低资源语言的医学资源稀缺,其有效性主要局限于英语。为了解决医学问答中的这一关键语言差距,我们提出了多语言知识图谱检索排序(MKG-Rank),这是一种知识图谱增强框架,使以英语为中心的LLMs能够执行多语言医学问答。通过词级翻译机制,我们的框架以低成本高效地将全面的以英语为中心的医学知识图谱整合到LLM推理中,减轻跨语言语义失真,实现跨语言障碍的精确医学问答。为了提高效率,我们引入了缓存和多角度排序策略来优化检索过程,显著减少响应时间并优先考虑相关医学知识。在中文、日文、韩文和斯瓦希里语的多语言医学问答基准测试中,大量评估表明,MKG-Rank始终优于零样本LLMs,准确率最高提高33.89%,同时保持平均检索时间仅为0.0009秒。 |
[28] 自动生成中文同音词以探测机器翻译估测系统 标题: Automatically Generating Chinese Homophone Words to Probe Machine Translation Estimation Systems 作者: Shenbin Qian / Constantin Orăsan / Diptesh Kanojia / Félix do Carmo 原文: [英文] [中文] 备注: Accepted to the 10th Workshop on Noisy and User-generated Text at NAACL 2025 摘要: 评估用户生成内容(UGC)的机器翻译(MT)涉及独特的挑战,例如检查源文本中的情感细微差别是否在目标文本中得以保留。最近的研究提出了与情感相关的数据集、框架和模型,以自动评估中文UGC的MT质量,而不依赖于参考翻译。然而,这些模型是否能够应对保留情感细微差别的挑战尚未得到充分探索。为了解决这一空白,我们引入了一种受信息论启发的新方法,该方法通过利用自信息的概念生成与情感相关的具有挑战性的中文同音词。我们的方法生成的同音词被观察到在情感保留方面导致翻译错误,并揭示了MT系统及其评估方法在处理情感UGC时的脆弱性。我们通过人工评估这些生成的同音词的质量来评估我们方法的有效性,并与现有方法进行比较,显示我们的方法与人工判断具有更高的相关性。生成的中文同音词及其人工翻译被用于生成扰动,并探测现有质量评估模型的鲁棒性,包括使用多任务学习训练的模型、微调的多语言语言模型变体以及大型语言模型(LLMs)。我们的结果表明,较大规模的LLMs在面对这种扰动时表现出更高的稳定性和鲁棒性。我们发布了我们的数据和代码,以便重现和进一步研究。 |
[29] 面向更轻量和稳健的检索增强生成评估 标题: Towards Lighter and Robust Evaluation for Retrieval Augmented Generation 作者: Alex-Razvan Ispas / Charles-Elie Simon / Fabien Caspani / Vincent Guigue 原文: [英文] [中文] 备注: 17 pages, 5 figures, published at 1st workshop of Quantify Uncertainty and Hallucination in Foundation Models: The Next Frontier in Reliable AI at ICLR 25 摘要: 大型语言模型促使我们从生成的角度来看待更多的自然语言处理任务。同时,它们通过RAG框架提供了一种新的信息获取方式。尽管自回归模型取得了显著进步,但在生成答案中克服幻觉仍然是一个持续的问题。一个标准的解决方案是使用商业LLM,例如GPT4,来评估这些算法。然而,这样的框架昂贵且不够透明。因此,我们提出了一项研究,展示了开放权重模型在评估RAG幻觉方面的兴趣。我们开发了一种轻量级的方法,使用较小的量化LLM来提供一种可访问且可解释的指标,该指标为生成的答案提供连续分数,以评估其正确性和忠实性。这个分数使我们能够质疑决策的可靠性,并探索阈值以开发一种新的AUC指标,作为与人类判断相关性的替代方案。 |
[30] SpeCache:用于高效生成大型语言模型的推测性键值缓存 标题: SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs 作者: Shibo Jie / Yehui Tang / Kai Han / Zhi-Hong Deng / Jing Han 原文: [英文] [中文] 备注: None 摘要: 基于Transformer的大型语言模型(LLMs)在长文本任务上已经取得了显著的成果,但有限的GPU内存(VRAM)资源难以满足随着序列长度增加而线性增长的键值(KV)缓存需求,这已成为LLMs在长序列应用中的瓶颈。现有的KV缓存压缩方法包括驱逐、合并或量化KV缓存以减少其大小。然而,压缩会导致不可逆的信息遗忘,可能影响后续解码的准确性。在本文中,我们提出了SpeCache,它充分利用了大型且易于扩展的CPU内存来卸载完整的KV缓存,并在每个解码步骤中根据其在VRAM中的低位KV缓存副本测量的重要性动态地取回KV对。为了避免CPU-GPU通信导致的推理延迟,SpeCache预测性地预测下一个标记可能会关注的KV对,使我们能够在下一个解码步骤之前预取它们,从而实现预取和计算的并行化。在LongBench和Needle-in-a-Haystack基准测试上的实验验证了SpeCache在不重新训练的情况下有效减少了VRAM使用,同时避免了长序列的信息遗忘,即使在10倍高KV缓存压缩比的情况下也是如此。 |
[31] MathFusion:通过指令融合增强大型语言模型的数学问题解决能力 标题: MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion 作者: Qizhi Pei / Lijun Wu / Zhuoshi Pan / Yu Li / Honglin Lin / Chenlin Ming / Xin Gao / Conghui He / Rui Yan 原文: [英文] [中文] 备注: Work in progress 摘要: 大型语言模型(LLMs)在数学推理方面表现出令人印象深刻的进展。尽管数据增强有望提高数学问题解决能力,但当前的方法主要局限于实例级别的修改——例如改写或生成句法变体——这些方法未能捕捉和利用数学知识中固有的内在关系结构。受到人类学习过程的启发,数学能力通过系统地接触相互关联的概念而发展,我们引入了MathFusion,这是一种通过跨问题指令合成来增强数学推理的新框架。MathFusion通过三种融合策略实现这一点:(1)顺序融合,将相关问题串联以建模解决方案的依赖关系;(2)并行融合,结合类似问题以加强概念理解;(3)条件融合,创建上下文感知的选择性问题以增强推理的灵活性。通过应用这些策略,我们生成了一个新的数据集,\textbf{MathFusionQA},并在其上微调模型(DeepSeekMath-7B、Mistral-7B、Llama3-8B)。实验结果表明,MathFusion在保持高数据效率的同时,在数学推理方面取得了显著的改进,在各种基准测试中将准确性提高了18.0个百分点,同时仅需额外的45K合成指令,与传统的单指令方法相比取得了实质性的改进。我们的数据集、模型和代码可在此https URL公开获取。 |
[32] Fin-R1:通过强化学习进行金融推理的大型语言模型 标题: Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning 作者: Zhaowei Liu / Xin Guo / Fangqi Lou / Lingfeng Zeng / Jinyi Niu / Zixuan Wang / Jiajie Xu / Weige Cai / Ziwei Yang / Xueqian Zhao / Chao Li / Sheng Xu / Dezhi Chen / Yun Chen / Zuo Bai / Liwen Zhang 原文: [英文] [中文] 备注: None 摘要: 推理大型语言模型在各个领域迅速发展。然而,它们在处理复杂金融任务方面的能力仍需深入探索。在本文中,我们介绍了Fin-R1,这是一种专为金融领域设计的推理大型语言模型。Fin-R1采用两阶段架构构建,利用基于DeepSeek-R1提炼和处理的金融推理数据集。通过监督微调(SFT)和强化学习(RL)训练,它在一系列金融推理任务中表现出接近DeepSeek-R1的性能,参数规模为70亿。在我们的评估中,它在FinQA和ConvFinQA任务中达到了最先进的水平(SOTA),在其他任务中也超越了更大的模型。Fin-R1展示了强大的推理和决策能力,为金融领域遇到的各种问题提供了解决方案。我们的代码可在此https URL获取。 |
[33] LLM 支架:通过相关子更新矫正 LLM 预测 标题: LLM Braces: Straightening Out LLM Predictions with Relevant Sub-Updates 作者: Ying Shen / Lifu Huang 原文: [英文] [中文] 备注: 16 pages, 2 figures 摘要: 最近的研究发现,Transformer架构的大型语言模型(LLM)中的许多知识是编码在其前馈(FFN)层中,其中每个FFN层可以被解释为子更新的总和,每个子更新对应于FFN的值参数矩阵中的一个加权列向量,这些向量通常编码了人类可解释的概念。基于此,我们假设可以通过调节这些子更新的贡献来进一步增强和控制模型的性能和行为,具体是根据它们与输入或目标输出风格的相关性进行调节。我们提出了LLMBRACES,这是一种新颖且高效的方法,它计算与FFN层中的值向量相关的相关性分数,并利用这些分数动态调整子更新的贡献。通过优化子更新的贡献,LLMBRACES改进了预测过程,产生更准确和可靠的输出,就像一个“支架”提供支持和稳定性。此外,LLMBRACES可以扩展以支持对生成特征的条件控制,例如情感,从而提供对LLM输出的细粒度引导。在包括Qwen2.5-1.5B、Llama2-7B和Llama3-8B在内的各种LLM上的广泛实验表明,LLMBRACES在微调和零样本设置中均优于基线方法,同时需要显著更少的可调参数,比LoRA少多达75%。此外,LLMBRACES在情感控制生成和减少毒性方面表现出色,突显了其在灵活、可控文本生成中的潜力。 |
[34] CaKE:电路感知编辑使通用知识学习者成为可能 标题: CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners 作者: Yunzhi Yao / Jizhan Fang / Jia-Chen Gu / Ningyu Zhang / Shumin Deng / Huajun Chen / Nanyun Peng 原文: [英文] [中文] 备注: Work in progress 摘要: 知识编辑(Knowledge Editing, KE)使得可以修改大型语言模型(LLMs)中的过时或错误信息。虽然现有的KE方法可以更新孤立的事实,但它们在将这些更新推广到依赖于修改知识的多跳推理任务时表现不佳。通过对推理电路——LLMs用于基于知识推理的神经路径的分析,我们观察到当前层局部的KE方法,如MEMIT和WISE,仅编辑单个或少数模型层,难以有效地将更新的信息整合到这些推理路径中。为了解决这一限制,我们提出了CaKE(Circuit-aware Knowledge Editing),这是一种新颖的方法,可以更有效地将更新的知识整合到LLMs中。CaKE利用我们基于电路分析指导的策略性策划数据,强制模型使用修改后的知识,刺激模型为新整合的知识开发适当的推理电路。实验结果表明,CaKE能够在相关推理任务中更准确和一致地使用更新的知识,与现有的KE方法相比,在MQuAKE数据集上的多跳推理准确性平均提高了20%。我们在此https URL中发布了代码和数据。 |
[35] 停止过度思考:关于大型语言模型高效推理的综述 标题: Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models 作者: Yang Sui / Yu-Neng Chuang / Guanchu Wang / Jiamu Zhang / Tianyi Zhang / Jiayi Yuan / Hongyi Liu / Andrew Wen / Shaochen / Zhong / Hanjie Chen / Xia Hu 原文: [英文] [中文] 备注: Project Website: this https URL 摘要: 大型语言模型(LLMs)在复杂任务中展现了卓越的能力。最近,大型推理模型(LRMs)的进展,如OpenAI o1和DeepSeek-R1,通过利用监督微调(SFT)和强化学习(RL)技术来增强链式思维(CoT)推理,在数学和编程等系统-2推理领域进一步提高了性能。然而,尽管较长的CoT推理序列提高了性能,但它们也由于冗长和冗余的输出引入了显著的计算开销,这被称为“过度思考现象”。在本文中,我们提供了第一个结构化的综述,系统地调查和探索当前在LLMs中实现高效推理的进展。总体而言,依靠LLMs的内在机制,我们将现有工作分为几个关键方向:(1)基于模型的高效推理,考虑将全长推理模型优化为更简洁的推理模型或直接训练高效推理模型;(2)基于推理输出的高效推理,旨在推理过程中动态减少推理步骤和长度;(3)基于输入提示的高效推理,试图根据输入提示的属性(如难度或长度控制)来提高推理效率。此外,我们介绍了使用高效数据来训练推理模型,探索小型语言模型的推理能力,并讨论评估方法和基准测试。 |
[36] XAttention:具有反对角评分的块稀疏注意力机制 标题: XAttention: Block Sparse Attention with Antidiagonal Scoring 作者: Ruyi Xu / Guangxuan Xiao / Haofeng Huang / Junxian Guo / Song Han 原文: [英文] [中文] 备注: The first two authors contributed equally to this work 摘要: 长上下文Transformer模型(LCTMs)对于实际应用至关重要,但由于注意力机制的二次复杂性而面临高计算成本。块稀疏注意力通过将计算集中在关键区域来缓解这一问题,但现有方法由于块重要性测量的高成本而难以在准确性和效率之间取得平衡。在本文中,我们介绍了XAttention,这是一种即插即用的框架,通过使用稀疏注意力显著加速Transformer模型的长上下文推理。XAttention的关键创新在于注意力矩阵中反对角线值(即从左下到右上)的总和提供了块重要性的强大代理。这使得能够精确识别和修剪非必要块,从而实现高稀疏性和显著加速的推理。在包括语言的RULER和LongBench、视频理解的VideoMME以及视频生成的VBench等要求苛刻的长上下文基准测试中进行全面评估。XAttention在实现与全注意力相当的准确性的同时,提供了显著的计算收益。我们展示了注意力计算最多可加速13.5倍。这些结果强调了XAttention解锁块稀疏注意力的实际潜力,为LCTMs在实际应用中的可扩展和高效部署铺平了道路。代码可在此https URL获取。 |