scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CL方向,2025年4月18日更新论文86
[1] 揭示PII屏蔽模型的现实:性能差距与问责制的呼唤
标题: Unmasking the Reality of PII Masking Models: Performance Gaps and the Call for Accountability
作者: Devansh Singh / Sundaraparipurnan Narayanan
原文:   [英文]  
备注: None
摘要:
隐私屏蔽是数据隐私中的一个关键概念,涉及到个人身份信息(PII)的匿名化和去匿名化。隐私屏蔽技术依赖于自然语言处理(NLP)支持下的命名实体识别(NER)方法,以识别和分类每个文本中的命名实体。然而,NER方法存在若干限制,包括:(a) 内容敏感性,包括模糊、多义、上下文依赖或特定领域的内容,(b) 表达多样性,包括昵称和别名、非正式表达、替代表示、新兴表达、不断演变的命名惯例,以及(c) 格式或语法变化、拼写错误、错别字。然而,有几个PII数据集已被研究人员和开源社区广泛用于训练PII检测或屏蔽模型。这些数据集已被用于训练包括Piiranha和Starpii在内的模型,这些模型在HuggingFace上已被下载超过30万次和58万次。我们在考虑数据集和NER方法的局限性的情况下,检查了这些模型的PII屏蔽质量。我们编制了一个包含17,000个独特的半合成句子的数据库,其中包含16种类型的PII,这些信息来自包括印度、英国和美国在内的多个司法管辖区。我们生成了包含这些PII的句子(使用语言模型),在五个不同的NER检测特征维度上进行测试 - (1) 基本实体识别,(2) 上下文实体消歧,(3) 噪声和真实世界数据中的NER,(4) 演变和新颖实体检测,以及(5) 跨语言或多语言NER,并在对抗性上下文中进行测试。我们展示了结果,并揭示了使用这些模型所导致的隐私暴露(考虑到这些模型的下载量)。我们最后强调了在衡量模型性能方面的差距,以及在这些模型的模型卡中进行上下文披露的必要性。

[2] 学习多源视觉提示迁移的最优提示集成
标题: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
作者: Enming Zhang / Liwen Cao / Yanru Wu / Zijie Zhao / Guan Wang / Yang Li
原文:   [英文]   [中文]  
备注: None
摘要:
提示调优作为一种轻量级的适应策略,已经在将基础模型适应到下游任务中展现出潜力,特别是在资源受限的系统中。当预训练提示成为有价值的知识资产时,结合多个源提示提供了一种有前景的方法,通过利用来自不同来源的互补知识来增强对新任务的泛化能力。然而,简单地聚合这些提示往往会由于相互干扰导致表示崩溃,从而削弱它们的集体潜力。为了解决这些挑战,我们提出了HGPrompt,这是一种多源提示转移的自适应框架,通过联合优化可迁移性和稳定性这两个目标来学习最佳的集成权重。具体来说,我们首先引入了一种信息论度量来评估提示诱导的特征在目标任务上的可迁移性,捕捉特征表示之间的内在对齐。此外,我们提出了一种新的梯度对齐正则化,以减轻提示之间的梯度冲突,从而实现来自多个源的稳定和一致的知识转移,同时抑制干扰。在大规模VTAB基准上的广泛实验表明,HGPrompt实现了最先进的性能,验证了其在多源提示转移中的有效性。

[3] 苏格拉底还是聪明鬼:使用基于逻辑编程的测试判定器测试大型语言模型的逻辑推理能力
标题: Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models with Logic Programming-based Test Oracles
作者: Zihao Xu / Junchen Ding / Yiling Lou / Kun Zhang / Dong Gong / Yuekang Li
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在语言理解和推理方面取得了显著进展。因此,评估和分析它们的逻辑推理能力变得至关重要。然而,现有的数据集和基准测试往往局限于过于简单、不自然或上下文受限的例子。为了响应日益增长的需求,我们引入了SmartyPat-Bench,这是一个具有挑战性、自然表达且系统标注的基准,来源于包含微妙逻辑谬误的高质量Reddit帖子。与现有的数据集和基准不同,它提供了更详细的逻辑谬误注释,并具有更丰富的数据多样性。为了进一步扩大研究规模并解决手动数据收集和标注的局限性——如谬误类型不平衡和劳动密集型注释——我们引入了SmartyPat,一个由基于逻辑编程的神谕驱动的自动化框架。SmartyPat利用Prolog规则系统地生成逻辑上有谬误的陈述,然后由LLMs将其精炼为流畅的自然语言句子,确保精确的谬误表现。广泛的评估表明,SmartyPat生成的谬误在微妙性和质量上可与人类生成的内容相媲美,并显著优于基线方法。最后,实验揭示了对LLM能力的细致见解,强调尽管过多的推理步骤会妨碍谬误检测的准确性,但结构化推理能提升谬误分类的表现。

[4] 探索人格特质对会话推荐系统的影响:基于大型语言模型的模拟研究
标题: Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models
作者: Xiaoyan Zhao / Yang Deng / Wenjie Wang / Hongzhan lin / Hong Cheng / Rui Zhang / See-Kiong Ng / Tat-Seng Chua
原文:   [英文]   [中文]  
备注: None
摘要:
会话推荐系统(CRSs)通过多轮互动为用户提供个性化推荐。大型语言模型(LLMs)的出现进一步增强了这些系统,使用户互动更加自然和动态。然而,理解个性特征如何影响会话推荐结果仍然是一个关键挑战。心理学证据强调了个性特征对用户互动行为的影响。为了解决这一问题,我们引入了一种基于LLM的个性化用户模拟系统(PerCRS)。用户代理可以定制个性特征和偏好,而系统代理则具备说服能力,以模拟CRSs中的真实互动。我们结合多方面评估以确保系统的稳健性,并从用户和系统的角度进行广泛分析。实验结果表明,最先进的LLMs能够有效生成与指定个性特征一致的多样化用户响应,从而促使CRSs动态调整其推荐策略。我们的实验分析提供了关于个性特征对会话推荐系统结果影响的实证见解。

[5] 如何检测和击败分子幻影:基于度量的基准用于大语言模型分子理解中的幻觉
标题: How to Detect and Defeat Molecular Mirage: A Metric-Driven Benchmark for Hallucination in LLM-based Molecular Comprehension
作者: Hao Li / Liuzhenghao Lv / He Cao / Zijing Liu / Zhiyuan Yan / Yu Wang / Yonghong Tian / Yu Li / Li Yuan
原文:   [英文]  
备注: 17 pages
摘要:
大型语言模型在科学领域的应用越来越广泛,尤其是在分子理解和分析方面。然而,现有模型受到幻觉问题的影响,导致药物设计和使用中的错误。在本文中,我们首先分析了分子理解任务中大型语言模型产生幻觉的来源,特别是PubChem数据集中观察到的知识捷径现象。为了在计算效率上评估分子理解任务中的幻觉,我们引入了\textbf{Mol-Hallu},这是一种新颖的自由形式评估指标,根据生成文本与实际分子属性之间的科学蕴含关系来量化幻觉的程度。利用Mol-Hallu指标,我们重新评估并分析了各种大型语言模型在执行分子理解任务时的幻觉程度。此外,我们提出了幻觉减少后处理阶段(HRPP),以缓解分子幻觉。实验表明,HRPP在仅解码器和编码器-解码器分子大型语言模型上效果显著。我们的研究结果为减轻幻觉并提高大型语言模型在科学应用中的可靠性提供了关键见解。

[6] Capybara-OMNI:构建全模态语言模型的高效范式
标题: Capybara-OMNI: An Efficient Paradigm for Building Omni-Modal Language Models
作者: Xingguang Ji / Jiakang Wang / Hongzhi Zhang / Jingyuan Zhang / Haonan Zhou / Chenxi Sun / Yahui Liu / Qi Wang / Fuzheng Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
随着多模态大型语言模型(MLLMs)的发展,开源社区中涌现出了许多杰出的成就。由于创建和训练多模态数据对的复杂性,构建强大的MLLMs仍然是一个计算密集且耗时的过程。在这项工作中,我们介绍了Capybara-OMNI,这是一种以轻量级和高效方式训练的MLLM,支持理解文本、图像、视频和音频模态。我们详细介绍了框架设计、数据构建和训练方案,逐步开发MLLM以获得具有竞争力的性能。我们还提供了在实验中使用的专属基准,以展示如何正确验证跨不同模态的理解能力。结果表明,通过遵循我们的指导,我们可以高效地构建一个在各种多模态基准上与同规模模型相比具有竞争力性能的MLLM。此外,为了增强模型的多模态指令跟随和对话能力,我们进一步讨论了如何在MLLM理解模型上训练聊天版本,这更符合用户在与人类实时互动等任务中的习惯。我们公开披露了Capybara-OMNI模型及其基于聊天的版本。披露内容包括模型权重、部分训练数据和推理代码,这些都在GitHub上提供。

[7] 数据代谢:一种高效的数据设计方案用于视觉语言模型
标题: Data Metabolism: An Efficient Data Design Schema For Vision Language Model
作者: Jingyuan Zhang / Hongzhi Zhang / Zhou Haonan / Chenxi Sun / Xingguang ji / Jiakang Wang / Fanheng Kong / Yahui Liu / Qi Wang / Fuzheng Zhang
原文:   [英文]   [中文]  
备注: To be presented at ICLR 2025, First Workshop on Open Science for Foundation Models
摘要:
数据管理在训练强大的视觉语言模型(VLMs)中起着至关重要的作用。在这项工作中,我们引入了数据代谢的概念,并提出了我们的数据中心框架,以在开发生命周期中构建VLMs。从标准模型架构开始,我们讨论并提供了两个关键开发步骤的见解:数据管理和迭代,形成一个闭环系统,持续提高模型性能。我们展示了一个详细的代码手册,说明如何处理现有的大规模数据集并构建用户特定的数据飞轮。作为演示,我们发布了一个名为Capybara-VL的VLM,它在典型的多模态任务(例如视觉问答、科学推理和文本丰富任务)中表现出色。尽管其尺寸相对紧凑,Capybara-VL超越了几个开源模型,这些模型的尺寸大到10倍。此外,它取得了与几个领先的专有模型相当的结果,展示了其显著的竞争力。这些结果突出了我们数据中心框架的力量以及训练更小、更高效的VLMs的潜力。

[8] ChatGPT 作为语言平等器?量化大型语言模型驱动的学术写作词汇变化
标题: ChatGPT as Linguistic Equalizer? Quantifying LLM-Driven Lexical Shifts in Academic Writing
作者: Dingkang Lin / Naixuan Zhao / Dan Tian / Jiang Li
原文:   [英文]  
备注: 13 pages, 2 figures
摘要:
ChatGPT 的出现深刻地改变了科学研究实践,特别是在学术写作中,非英语母语者(NNES)历来面临语言障碍。本研究通过分析 OpenAlex 数据库中 280 万篇文章(2020-2024 年)的词汇复杂性变化,探讨 ChatGPT 是否减轻了这些障碍并促进了公平。我们使用文本词汇多样性测量(MTLD)来量化词汇复杂性,并采用差异中差异(DID)设计来识别因果效应。研究表明,即使在控制了文章层面的控制变量、作者模式和期刊规范后,ChatGPT 仍显著提高了 NNES 作者撰写的摘要的词汇复杂性。值得注意的是,这种影响在预印本论文、技术和生物学相关领域以及低级别期刊中最为显著。这些发现提供了因果证据,表明 ChatGPT 减少了语言差异,并促进了全球学术界的公平。

[9] 大型语言模型的创造力是否已达到顶峰?对模型间和模型内变异性的分析
标题: Has the Creativity of Large-Language Models peaked? An analysis of inter- and intra-LLM variability
作者: Jennifer Haase / Paul H. P. Hanel / Sebastian Pokutta
原文:   [英文]   [中文]  
备注: 19 pages + Appendix, 13 figure
摘要:
在2023年初ChatGPT被广泛采用之后,许多研究报告称大型语言模型(LLMs)在创造性任务中可以与人类表现相匹敌,甚至超越人类。然而,LLMs的创造力是否随着时间的推移而提高,以及它们的创造性输出有多一致,仍然不清楚。在这项研究中,我们评估了14个广泛使用的LLMs——包括GPT-4、Claude、Llama、Grok、Mistral和DeepSeek——在两个经过验证的创造力评估中:发散联想任务(DAT)和替代用途任务(AUT)。与预期相反,我们没有发现过去18-24个月中创造性表现提高的证据,其中GPT-4的表现比以前的研究更差。在更广泛使用的AUT中,所有模型的平均表现都优于普通人类,其中GPT-4o和o3-mini表现最佳。然而,只有0.28%的LLM生成的回答达到了人类创造力基准的前10%。除了模型间的差异外,我们还记录了显著的模型内变异性:同一个LLM,在给定相同提示的情况下,可以产生从低于平均水平到原创的输出。这种变异性对创造力研究和实际应用都有重要影响。忽视这种变异性可能会误判LLMs的创造潜力,要么夸大要么低估其能力。提示的选择对LLMs的影响不同。我们的研究结果强调了需要更细致的评估框架,并突出了在创造性环境中使用生成式AI(GenAI)工具时,模型选择、提示设计和重复评估的重要性。

[10] 注意力防御:利用系统提示注意力对抗新型越狱的可解释性防御
标题: AttentionDefense: Leveraging System Prompt Attention for Explainable Defense Against Novel Jailbreaks
作者: Charlotte Siska / Anush Sankaran
原文:   [英文]   [中文]  
备注: None
摘要:
在过去的几年里,语言模型(LMs)在多个领域展示了超越人类的能力。尽管它们在实际应用中被广泛使用并受到用户的欢迎,它们仍然容易受到越狱攻击,当恶意输入利用语言模型的弱点时,会导致其偏离预期行为。目前的防御策略要么将输入提示分类为对抗性,要么阻止语言模型生成有害输出。然而,解释越狱的恶意性质背后的原因是具有挑战性的,这导致了各种封闭式的方法。在这项研究中,我们提出并证明小型语言模型(SLMs)的系统提示注意力可以用于表征对抗性提示,提供了一种新颖、可解释且成本更低的防御方法,称为AttentionDefense。我们的研究表明,注意力机制是理解和解释语言模型如何响应未被文本嵌入的语义意义捕获的恶意输入的关键组成部分。我们对提出的AttentionDefense进行了现有越狱基准数据集的评估。消融研究表明,基于SLM的AttentionDefense在越狱检测性能上与基于文本嵌入的分类器和GPT-4零样本方法相当或更好。为了进一步验证所提出方法的有效性,我们使用基于闭环LLM的多代理系统生成了现有基准数据集的新型越狱变体数据集。我们证明了所提出的AttentionDefense方法在这个新型越狱数据集上表现稳健,而现有方法在性能上表现不佳。此外,出于实际目的,AttentionDefense是一个理想的解决方案,因为它具有小型语言模型的计算要求,但具有大型语言模型检测器的性能。

[11] 小型语言模型的战略协调框架在数据合成上可与大型语言模型媲美
标题: A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis
作者: Xin Gao / Qizhi Pei / Zinan Tang / Yu Li / Honglin Lin / Jiang Wu / Conghui He / Lijun Wu
原文:   [英文]   [中文]  
备注: None
摘要:
尽管数据合成和蒸馏是增强小型语言模型的有前途的策略,但当前的方法严重依赖于大型语言模型(LLMs),这些模型存在高计算成本、环境效率低下以及从单一架构继承的潜在偏见等问题。相比之下,较小的LLMs更易于获取且更具可持续性,但它们在生成高质量、多样化和可靠数据方面的能力往往不足。受人类协作过程(例如同行评审)的启发,我们提出了一个涉及多个小型LLMs的框架GRA,该框架通过在小型LLMs之间分配专业化角色来实现通常由单个大型LLM完成的迭代改进和质量控制。在这个协作框架中,多个小型LLMs承担不同的角色——生成者、审阅者和裁决者——以模拟一个受同行评审启发的数据合成流程。生成者提出初始数据样本,审阅者评估其质量和多样性,而裁决者解决冲突以最终确定输出。通过将合成过程分解为专业化的子任务,协作的小型LLMs可以在数据层面上达到与基于大型LLM的蒸馏相当的水平。通过在多个基准上的实验,我们证明了GRA生成的数据可以匹敌甚至超越单个大型LLM的输出质量,例如Qwen-2.5-72B-Instruct。我们的结果挑战了高质量数据合成对单一大型模型的必要性,转而倡导小型代理的战略协调。我们的数据集、模型和代码在此https URL上公开可用。

[12] 硬币的另一面:探索检索增强生成中的公平性
标题: The Other Side of the Coin: Exploring Fairness in Retrieval-Augmented Generation
作者: Zheng Zhang / Ning Li / Qi Liu / Rui Li / Weibo Gao / Qingyang Mao / Zhenya Huang / Baosheng Yu / Dacheng Tao
原文:   [英文]   [中文]  
备注: 12 pages
摘要:
检索增强生成(RAG)通过从外部知识源检索相关文档来增强大型语言模型(LLMs)。通过参考这些外部知识,RAG有效地减少了生成事实错误内容的情况,并解决了LLMs中的幻觉问题。最近,人们越来越关注从各个角度提高RAG系统的性能和效率。虽然这些进展取得了显著的成果,但在具有重大社会影响的领域中应用RAG引发了一个关于公平性的重要问题:引入RAG范式对LLMs的公平性有何影响?为了解决这个问题,我们通过改变LLMs、检索器和检索源进行了广泛的实验。我们的实验分析表明,LLMs的规模在影响RAG框架内的公平性结果方面起着重要作用。当模型规模小于8B时,检索机制的整合往往会加剧小规模LLMs(例如,LLaMA3.2-1B、Mistral-7B和LLaMA3-8B)的不公平性。为了缓解RAG对小规模LLMs引入的公平性问题,我们提出了两种方法,FairFT和FairFilter。具体来说,在FairFT中,我们使检索器与LLM在公平性方面对齐,使其能够检索有助于更公平模型输出的文档。在FairFilter中,我们提出了一种公平性过滤机制,以在检索后过滤掉偏见内容。最后,我们在真实世界的数据集上验证了我们提出的方法,证明了它们在提高公平性的同时保持性能的有效性。

[13] 通过RST增强的图融合和可解释性预测实现跨文档跨语言的自然语言推理
标题: Cross-Document Cross-Lingual Natural Language Inference via RST-enhanced Graph Fusion and Interpretability Prediction
作者: Mengying Yuan / Wangzi Xuan / Fei Li
原文:   [英文]   [中文]  
备注: None
摘要:
自然语言推理(NLI)是自然语言处理和信息检索中的一项基础任务。尽管NLI已经发展出许多子方向,如句子级NLI、文档级NLI和跨语言NLI,但跨文档跨语言NLI(CDCL-NLI)仍然很少被探索。在本文中,我们提出了一种新的CDCL-NLI范式,将传统的NLI能力扩展到多文档、多语言场景。为了支持这一任务,我们构建了一个高质量的CDCL-NLI数据集,包括1,110个实例,涵盖26种语言。为了为这一任务建立基线,我们还提出了一种创新的方法,结合了RST增强的图融合和可解释性预测。我们的方法在RGAT(关系感知图注意网络)上应用RST(修辞结构理论)进行跨文档上下文建模,并结合基于词汇链的结构感知语义对齐机制实现跨语言理解。对于NLI的可解释性,我们开发了一个EDU级别的归因框架,生成抽取式解释。大量实验表明,我们的方法表现优越,相较于传统的NLI模型如DocNLI和R2F,以及大型语言模型如Llama3和GPT-4o,取得了显著的改进。我们的工作为NLI的研究提供了新的视角,并将引起对跨文档跨语言上下文理解、语义检索和可解释性推理的研究兴趣。我们的数据集和代码可在\href{this https URL}{CDCL-NLI-Link for peer review}获取。

[14] LLMTaxo:利用大型语言模型从社交媒体构建事实性声明的分类体系
标题: LLMTaxo: Leveraging Large Language Models for Constructing Taxonomy of Factual Claims from Social Media
作者: Haiqi Zhang / Zhengyuan Zhu / Zeyu Zhang / Chengkai Li
原文:   [英文]   [中文]  
备注: None
摘要:
随着社交媒体平台上内容的急剧扩张,分析和理解在线话语变得越来越复杂。本文介绍了LLMTaxo,这是一种新颖的框架,利用大型语言模型通过生成多层次粒度的主题来自动构建社交媒体上事实性声明的分类法。该方法帮助利益相关者更有效地导航社交媒体环境。我们在三个不同的数据集上使用不同的模型实现了这一框架,并引入了专门设计的分类法评估指标以进行全面评估。通过人类评估者和GPT-4的评估,结果表明LLMTaxo能够有效地对社交媒体上的事实性声明进行分类,并揭示出某些模型在特定数据集上表现更佳。

[15] 使用大型语言模型从临床病例报告中重建败血症轨迹:败血症的文本时间序列语料库
标题: Reconstructing Sepsis Trajectories from Clinical Case Reports using LLMs: the Textual Time Series Corpus for Sepsis
作者: Shahriar Noroozizadeh / Jeremy C. Weiss
原文:   [英文]   [中文]  
备注: None
摘要:
临床病例报告和出院总结可能是对患者就诊情况最完整和准确的总结,但它们是在就诊后最终确定的,即带有时间戳。补充数据的结构化流可以更早获得,但存在不完整性。为了在更完整和时间上更精细的数据上训练模型和算法,我们构建了一个管道,使用大型语言模型对病例报告中的时间定位发现进行表型分析、提取和注释。我们应用我们的管道生成一个开放获取的Sepsis-3文本时间序列语料库,其中包括来自Pubmed-Open Access (PMOA) 子集的2,139份病例报告。为了验证我们的系统,我们将其应用于PMOA和I2B2/MIMIC-IV的时间线注释,并将结果与医生专家的注释进行比较。我们展示了临床发现的高恢复率(事件匹配率:O1-preview--0.755,Llama 3.3 70B Instruct--0.753)和强大的时间顺序(一致性:O1-preview--0.932,Llama 3.3 70B Instruct--0.932)。我们的工作描述了大型语言模型在文本中时间定位临床发现的能力,说明了大型语言模型在时间重建中的局限性,并通过多模态集成提供了若干潜在的改进途径。

[16] 词嵌入追踪中国70年来的社会群体变化
标题: Word Embeddings Track Social Group Changes Across 70 Years in China
作者: Yuxi Ma / Yongqian Peng / Yixin Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
语言通过词汇模式编码了关于社会群体的社会信念。尽管像词嵌入这样的计算方法可以对这些模式进行定量分析,但研究主要集中在西方背景下的渐进变化。我们首次对中国官方媒体(1950-2019年)进行了大规模的计算分析,以研究革命性的社会变革如何在官方语言中反映社会群体。通过在多个时间分辨率上使用历时词嵌入,我们发现中国的表现与西方的表现显著不同,特别是在经济地位、种族和性别方面。这些表现显示出不同的演化动态:尽管种族、年龄和体型的刻板印象在政治动荡中保持相当稳定,但性别和经济阶层的表现则经历了剧烈的变化,反映了历史变革。此项工作推进了我们对官方话语如何通过语言编码社会结构的理解,同时强调了在计算社会科学中非西方视角的重要性。

[17] 奖励模型的综合调查:分类、应用、挑战与未来
标题: A Comprehensive Survey of Reward Models: Taxonomy, Applications, Challenges, and Future
作者: Jialun Zhong / Wei Shen / Yanzeng Li / Songyang Gao / Hua Lu / Yicheng Chen / Yang Zhang / Wei Zhou / Jinjie Gu / Lei Zou
原文:   [英文]   [中文]  
备注: None
摘要:
奖励模型(RM)在增强大型语言模型(LLM)方面展示了令人印象深刻的潜力,因为RM可以作为人类偏好的代理,为LLM在各种任务中的行为提供指导信号。在本文中,我们全面概述了相关研究,从偏好收集、奖励建模和使用的角度探讨了RM。接下来,我们介绍了RM的应用并讨论了评估的基准。此外,我们对该领域存在的挑战进行了深入分析,并探讨了潜在的研究方向。本文旨在为初学者提供关于RM的全面介绍,并促进未来的研究。相关资源可在github上公开获取。

[18] 推测性思维:在推理时通过大模型指导增强小模型的推理能力
标题: Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time
作者: Wang Yang / Xiang Yue / Vipin Chaudhary / Xiaotian Han
原文:   [英文]   [中文]  
备注: None
摘要:
最近的进展利用后训练来增强模型的推理性能,这通常需要昂贵的训练流程,并且仍然面临低效和过长输出的问题。我们引入了推测性思维,这是一种无需训练的框架,使大型推理模型能够在推理层面上指导较小的模型,这与在标记层面上操作的推测性解码不同。我们的方法基于两个观察:(1) 支持推理的标记如“wait”经常出现在结构分隔符如“\n\n”之后,作为反思或继续的信号;(2) 较大的模型在反思行为上表现出更强的控制力,减少不必要的回溯,同时提高推理质量。通过战略性地将反思步骤委派给更有能力的模型,我们的方法显著提高了推理模型的推理准确性,同时缩短了它们的输出。在32B推理模型的帮助下,1.5B模型在MATH500上的准确率从83.2%提高到89.4%,标志着6.2%的显著提升。同时,平均输出长度从5439个标记减少到4583个标记,减少了15.7%。此外,当应用于非推理模型(Qwen-2.5-7B-Instruct)时,我们的框架将其在相同基准上的准确率从74.0%提高到81.8%,实现了7.8%的相对提升。

[19] HM-RAG:分层多智能体多模态检索增强生成
标题: HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation
作者: Pei Liu / Xin Liu / Ruoyu Yao / Junming Liu / Siyuan Meng / Ding Wang / Jun Ma
原文:   [英文]   [中文]  
备注: None
摘要:
虽然检索增强生成(RAG)通过外部知识增强大型语言模型(LLMs),但传统的单代理RAG在解决需要跨异构数据生态系统进行协调推理的复杂查询时仍然存在根本限制。我们提出了HM-RAG,这是一种新颖的分层多代理多模态RAG框架,开创了跨结构化、非结构化和基于图的数据进行动态知识合成的协作智能。该框架由三层架构和专门的代理组成:分解代理通过语义感知的查询重写和模式引导的上下文增强,将复杂查询分解为上下文连贯的子任务;多源检索代理使用为向量、图和基于网络的数据库设计的即插即用模块,执行并行的、特定模态的检索;决策代理通过一致性投票整合多源答案,并通过专家模型优化解决检索结果中的差异。该架构通过结合文本、图关系和网络衍生的证据,实现了全面的查询理解,在ScienceQA和CrisisMMD基准测试中,答案准确性提高了12.95%,问题分类准确性提高了3.56%。值得注意的是,HM-RAG在两个数据集的零样本设置中建立了最先进的结果。其模块化架构确保了新数据模态的无缝集成,同时保持严格的数据治理,标志着在解决RAG系统中多模态推理和知识合成的关键挑战方面取得了重大进展。代码可在此https URL获取。

[20] 使用指令微调的大型语言模型和数据增强进行跨度级别的情感-原因-类别三元组抽取
标题: Span-level Emotion-Cause-Category Triplet Extraction with Instruction Tuning LLMs and Data Augmentation
作者: Xiangju Li / Dong Yang / Xiaogang Zhu / Faliang Huang / Peng Zhang / Zhongying Zhao
原文:   [英文]   [中文]  
备注: None
摘要:
篇级情感-原因-类别三元组抽取在情感原因分析中代表了一项新颖且复杂的挑战。该任务涉及识别文本中的情感片段、原因片段及其相关的情感类别,以形成结构化的三元组。尽管先前的研究主要集中在子句级的情感-原因对抽取和篇级的情感-原因检测上,但这些方法常常面临来自冗余信息检索的挑战,以及在情感隐含或表达模糊时准确确定情感类别的困难。为克服这些挑战,本研究探讨了一种细粒度的篇级情感-原因-类别三元组抽取方法,并引入了一种创新框架,该框架利用基于大型语言模型的指令微调和数据增强技术。所提出的方法采用特定任务的三元组抽取指令,并利用低秩适应来微调大型语言模型,从而无需复杂的特定任务架构。此外,开发了一种基于提示的数据增强策略,通过引导大型语言模型生成高质量的合成训练数据来解决数据稀缺问题。广泛的实验评估表明,所提出的方法在篇级情感-原因-类别三元组抽取指标上显著优于现有的基线方法,至少提高了12.8%。结果展示了该方法的有效性和稳健性,为推进情感原因分析研究提供了一个有前景的途径。源代码可在此https URL获取。

[21] 大型语言模型的能力能否用人类能力来描述?一项元研究
标题: Can the capability of Large Language Models be described by human ability? A Meta Study
作者: Mingrui Zan / Yunquan Zhang / Boyang Zhang / Fangming Liu / Daning Cheng
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)的用户常常将这些模型视为具有类人能力的智能实体。然而,LLMs的能力在多大程度上真正接近人类能力仍然是一个争论的话题。在本文中,为了描述LLMs的能力与人类能力的关系,我们收集了来自超过80个模型在37个评估基准上的表现数据。这些评估基准被分为6个主要能力和11个子能力的人类方面。然后,我们将表现排名聚类成几个类别,并将这些聚类结果与基于人类能力方面的分类进行比较。我们的研究结果得出以下结论:1. 我们确认某些具有少于100亿参数的LLMs的能力确实可以用人类能力指标来描述;2. 尽管某些能力在人类中被认为是相互关联的,但在LLMs中它们似乎几乎不相关;3. LLMs所拥有的能力随着模型参数规模的变化而显著不同。

[22] 元评估本地大型语言模型:重新思考严肃游戏的性能指标
标题: Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games
作者: Andrés Isaza-Giraldo / Paulo Bala / Lucas Pereira
原文:   [英文]   [中文]  
备注: 2nd HEAL Workshop at CHI Conference on Human Factors in Computing Systems. April 26, 2025. Yokohama, Japan
摘要:
在严肃游戏中评估开放式回答是一项独特的挑战,因为正确性通常是主观的。大型语言模型(LLMs)在这种情况下越来越被探索作为评估者,但它们的准确性和一致性仍然不确定,特别是对于旨在本地执行的小型模型。本研究调查了五个小规模LLMs在评估玩家在\textit{En-join}游戏中的回答时的可靠性,该游戏模拟了能源社区内的决策过程。通过利用传统的二元分类指标(包括准确率、真阳性率和真阴性率),我们系统地比较了这些模型在不同评估场景中的表现。我们的结果突出了每个模型的优点和局限性,揭示了灵敏度、特异性和整体性能之间的权衡。我们证明了虽然一些模型在识别正确回答方面表现出色,但其他模型在处理误报或不一致评估时存在困难。研究结果强调了在部署LLMs作为评估者时需要上下文感知的评估框架和谨慎的模型选择。这项工作为关于AI驱动评估工具可信度的广泛讨论做出了贡献,提供了关于不同LLM架构如何处理主观评估任务的见解。

[23] QM-ToT:用于量化模型的医学思维树推理框架
标题: QM-ToT: A Medical Tree of Thoughts Reasoning Framework for Quantized Model
作者: Zongxian Yang / Jiayu Qian / Zhi-An Huang / Kay Chen Tan
原文:   [英文]   [中文]  
备注: 8 pages
摘要:
大型语言模型(LLMs)在专门的生物医学任务中面临重大挑战,这主要是由于医学推理的复杂性和临床数据的敏感性。现有的LLMs常常在处理复杂的医学术语和需要准确的临床见解时表现不佳,尤其是在为了资源受限的部署而进行量化时,性能会下降。为了解决这些问题,我们提出了量化医学思维树(QM-ToT),这是一种基于路径的推理框架。QM-ToT利用思维树(ToT)推理方法,将复杂的医学问题分解为可管理的子任务,并结合评估层进行评估。该框架在INT4量化模型上对具有挑战性的MedQAUSMLE数据集实现了显著的性能提升。具体而言,我们展示了LLaMA2-70b模型的准确率从34%提高到50%,LLaMA-3.1-8b模型的准确率从58.77%提高到69.49%。此外,我们还提出了一种基于ToT的有效数据蒸馏方法。与传统的蒸馏方法相比,我们在仅使用3.9%的数据的情况下实现了86.27%的改进。此项工作首次展示了ToT在显著提升复杂生物医学任务性能方面的潜力,为在资源有限的医疗环境中部署高性能量化LLM奠定了重要基础。

[24] 你变了:检测黑箱大型语言模型的修改
标题: You've Changed: Detecting Modification of Black-Box Large Language Models
作者: Alden Dima / James Foulds / Shimei Pan / Philip Feldman
原文:   [英文]   [中文]  
备注: 26 pages, 4 figures
摘要:
大型语言模型(LLMs)通常通过API作为服务提供,这使得开发者难以检测其行为的变化。我们提出了一种通过比较生成文本的语言和心理语言特征的分布来监控LLMs变化的方法。我们的方法使用统计测试来确定两个文本样本的特征分布是否相等,从而使开发者能够识别LLM何时发生变化。我们使用五个OpenAI的补全模型和Meta的Llama 3 70B聊天模型展示了我们方法的有效性。我们的结果表明,简单的文本特征结合统计测试可以区分语言模型。我们还探讨了使用我们的方法来检测提示注入攻击。我们的工作实现了对LLM的频繁变化监控,并避免了计算成本高昂的基准评估。

[25] “它比我的治疗师更会倾听”:探索社交媒体上关于大型语言模型作为心理健康工具的讨论
标题: "It Listens Better Than My Therapist": Exploring Social Media Discourse on LLMs as Mental Health Tool
作者: Anna-Carolina Haensch
原文:   [英文]   [中文]  
备注: This study does not endorse or encourage the use of AI tools as substitutes for professional mental health support. The findings are presented for research purposes only, and any interpretation should take into account the limitations and potential risks of relying on AI in mental health contexts
摘要:
生成式人工智能聊天机器人(如ChatGPT)的出现,引发了公众和学术界对其作为非正式心理健康支持工具角色的日益关注。尽管早期的基于规则的系统已经存在多年,大型语言模型(LLM)在对话流畅性、共情模拟和可用性方面提供了新的能力。本研究通过分析超过10,000条来自TikTok视频评论(这些视频将LLM作为心理健康工具)来探讨用户如何将LLM用作心理健康工具。我们使用自开发的分层编码方案和监督分类模型,识别用户体验、态度和反复出现的主题。结果显示,近20%的评论反映了个人使用情况,这些用户表达了极为积极的态度。常被提及的好处包括可及性、情感支持和感知的治疗价值。然而,关于隐私、通用性回复以及缺乏专业监督的担忧仍然突出。需要注意的是,用户反馈并未指明LLM生成的输出与任何治疗框架是否一致。尽管研究结果强调了人工智能在日常实践中日益增长的重要性,但也突显了在心理健康支持中使用人工智能时进行临床和伦理审查的迫切需要。

[26] 呼叫 GPT 医生:从临床笔记中提取信息以提升患者预测
标题: Paging Dr. GPT: Extracting Information from Clinical Notes to Enhance Patient Predictions
作者: David Anderson / Michaela Anderson / Margret Bjarnadottir / Stephen Mahar / Shriyan Reyya
原文:   [英文]  
备注: Paper and Online Supplement combined into one PDF. 26 pages. 2 figures
摘要:
在医疗保健领域,利用电子病历中的表格数据构建预测模型有着悠久的历史。然而,这些模型未能提取非结构化临床笔记中的信息,这些笔记记录了诊断、治疗、进展、药物和护理计划。在本研究中,我们探讨了当GPT-4o-mini(ChatGPT)在获得患者出院总结的情况下,对简单的临床问题生成的答案如何支持患者层面的死亡率预测。我们使用MIMIC-IV Note数据集中14,011例首次入院至冠心病监护病房或心血管重症监护病房的数据,实施了一个透明的框架,该框架将GPT的回答作为逻辑回归模型的输入特征。我们的研究结果表明,仅基于GPT的模型就能优于训练于标准表格数据的模型,并且结合这两种信息来源可以产生更强的预测能力,平均提高AUC 5.1个百分点,并在最高风险的十分位中将阳性预测值提高29.9%。这些结果突显了将大型语言模型(LLMs)整合到临床预测任务中的价值,并强调了在任何非结构化文本数据仍未被充分利用的领域中使用LLMs的广泛潜力。

[27] GOAT-TTS:基于大型语言模型的文本到语音生成,通过双分支架构优化
标题: GOAT-TTS: LLM-based Text-To-Speech Generation Optimized via A Dual-Branch Architecture
作者: Yaodong Song / Hongjie Chen / Jie Lian / Yuxin Zhang / Guangmin Xia / Zehan Li / Genliang Zhao / Jian Kang / Yongxiang Li / Jie Li
原文:   [英文]   [中文]  
备注: None
摘要:
尽管大型语言模型(LLMs)通过离散标记范式彻底改变了文本到语音(TTS)的合成,但当前的架构在三个关键维度上存在根本性的矛盾:1)语音提示的量化导致声学特征的不可逆损失;2)对精确对齐的提示语音-文本对的严格依赖限制了实际应用;3)在优化语音标记生成时,LLM的原生文本理解能力出现灾难性遗忘。为了解决这些挑战,我们提出了一种基于LLM的文本到语音生成方法,通过一种新颖的双分支架构(GOAT-TTS)进行优化。我们的框架引入了两个关键创新:(1)模态对齐分支结合语音编码器和投影器以捕获连续的声学嵌入,实现副语言特征(语言、音色、情感)与语义文本表示之间的双向关联,而无需依赖转录;(2)语音生成分支在LLM的顶层进行模块化微调以进行语音标记预测,同时冻结底层以保留基础语言知识。此外,引入多标记预测以支持实时流式TTS合成。实验结果表明,我们的GOAT-TTS在性能上可与最先进的TTS模型媲美,同时验证了合成方言语音数据的有效性。

[28] 通过专用大型语言模型简化生物医学研究
标题: Streamlining Biomedical Research with Specialized LLMs
作者: Linqing Chen / Weilei Wang / Yubin Xia / Wentao Wu / Peng Xu / Zilong Bai / Jie Fang / Chaobo Xu / Ran Hu / Licong Xu / Haoran Hua / Jing Sun / Hanmeng Zhong / Jin Liu / Tian Qiu / Haowen Liu / Meng Hu / Xiuwen Li / Fei Gao / Yong Gu / Tao Shi / Chaochao Wang / Jianping Lu / Cheng Sun / Yixin Wang / Shengjie Yang / Yuancheng Li / Lu Jin / Lisha Zhang / Fu Bian / Zhongkai Ye / Lidong Pei / Changyang Tu
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们提出了一种新颖的系统,该系统将最先进的、特定领域的大型语言模型与先进的信息检索技术相结合,以提供全面且具有上下文意识的响应。我们的方法促进了不同组件之间的无缝交互,使输出能够进行交叉验证,从而生成准确、高质量的响应,并丰富相关数据、图像、表格和其他模态。我们展示了该系统通过利用强大的问答模型来增强响应精度的能力,显著提高了对话生成的质量。该系统提供了一个可访问的平台,用于实时、高保真交互,使用户能够从高效的人机交互、精确检索以及同时访问广泛的文献和数据中受益。这极大地提高了生物医学和制药领域专业人士的研究效率,并促进了整个研发过程中的更快、更有依据的决策。此外,本文中提出的系统可以通过这个https URL访问。

[29] 生物制药检索增强生成评估的基准测试
标题: Benchmarking Biopharmaceuticals Retrieval-Augmented Generation Evaluation
作者: Hanmeng Zhong / Linqing Chen / Weilei Wang / Wentao Wu
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,检索增强大型语言模型(LLMs)在特定领域的应用引起了广泛关注,尤其是在生物制药领域。然而,在这一背景下,目前尚无专门为生物制药设计的基准来评估LLMs。在本文中,我们介绍了生物制药检索增强生成评估(BRAGE),这是第一个专为评估LLMs在生物制药领域的查询和参考理解能力(QRUC)而量身定制的基准,提供英文、法文、德文和中文版本。此外,传统的问答(QA)指标如准确率和完全匹配在开放式检索增强QA场景中显得不足。为了解决这个问题,我们提出了一种基于引用的分类方法来评估LLMs的QRUC,以理解查询和参考之间的关系。我们应用这种方法在BRAGE上评估主流LLMs。实验结果表明,主流LLMs在生物制药QRUC方面存在显著差距,其QRUC需要改进。

[30] 通过人工智能进行宣传?大型语言模型中的语义后门研究
标题: Propaganda via AI? A Study on Semantic Backdoors in Large Language Models
作者: Nay Myat Min / Long H. Pham / Yige Li / Jun Sun
原文:   [英文]   [中文]  
备注: 18 pages, 1 figure
摘要:
大型语言模型(LLMs)在众多语言任务中表现出色,但它们仍然容易受到后门攻击的影响,攻击者在模型中植入隐藏触发器,系统性地操控模型输出。传统的防御措施主要关注显式的词汇级异常,因此忽视了语义后门——这些隐蔽的触发器嵌入在概念层面(例如,意识形态立场或文化参考),依赖于基于意义的线索而非词汇异常。我们首先在一个受控的微调环境中展示了这种语义后门可以通过少量的污染语料库进行植入,证明了其实际可行性。然后,我们正式定义了LLMs中的语义后门概念,并引入了一个黑箱检测框架,RAVEN(“响应异常警戒以揭示语义后门”的缩写),该框架结合了语义熵与跨模型一致性分析。该框架通过结构化的主题-视角提示探测多个模型,通过双向蕴涵对采样的响应进行聚类,并标记异常一致的输出;跨模型比较将模型特定的异常与语料库范围的偏差隔离开来。对不同LLM家族(GPT-4o、Llama、DeepSeek、Mistral)的实证评估揭示了之前未检测到的语义后门,提供了这些隐藏漏洞的首个概念验证证据,并强调了对已部署语言模型进行概念层面审计的紧迫性。我们在此https URL开源了我们的代码和数据。

[31] 重新构想城市科学:利用大型语言模型扩展因果推断
标题: Reimagining Urban Science: Scaling Causal Inference with Large Language Models
作者: Yutong Xia / Ao Qu / Yunhan Zheng / Yihong Tang / Dingyi Zhuang / Yuxuan Liang / Cathy Wu / Roger Zimmermann / Jinhua Zhao
原文:   [英文]   [中文]  
备注: None
摘要:
城市因果研究对于理解城市的复杂动态和制定基于证据的政策至关重要。然而,它面临着假设生成的低效和偏见、多模态数据复杂性的障碍以及因果实验方法的脆弱性等挑战。最近在大型语言模型(LLMs)方面的进展为重新思考城市因果分析的实施方式提供了机会。本文通过分析对研究主题、数据来源和方法论方法进行分类的分类法,审视当前的城市因果研究,以识别结构性差距。然后,我们介绍了一个由LLM驱动的概念框架,AutoUrbanCI,该框架由四个不同的模块化代理组成,负责假设生成、数据工程、实验设计与执行以及结果解释和政策建议。我们提出了严格性和透明度的评估标准,并反思了对人机协作、公平性和问责制的影响。我们呼吁制定一个新的研究议程,将AI增强的工作流程视为工具,以扩大参与、提高可重复性,并解锁更具包容性的城市因果推理形式,而不是替代人类专业知识。

[32] 大型语言模型在芬兰毕业考试中的数学能力
标题: Mathematical Capabilities of Large Language Models in Finnish Matriculation Examination
作者: Mika Setälä / Pieta Sikström / Ville Heilala / Tommi Kärkkäinen
原文:   [英文]  
备注: None
摘要:
大型语言模型(LLMs)在教育环境中展现出越来越大的潜力,但其数学推理能力一直被认为在不断发展中。本研究使用芬兰高中毕业考试评估了各种LLM的数学能力,这是一项针对高中教育的高风险数字测试。初步测试结果显示,模型的表现中等,对应于中等成绩范围,但后续评估显示,随着语言模型的发展,其表现有了显著提升。值得注意的是,一些模型取得了接近满分或满分的成绩,与顶尖学生的表现相当,并符合大学入学资格。我们的研究结果突显了LLM在数学能力方面的快速进步,并展示了它们在大规模支持教育评估方面的潜力。

[33] 一种用于从PubMed病例报告中提取相对时间线的大型语言模型框架
标题: A Large-Language Model Framework for Relative Timeline Extraction from PubMed Case Reports
作者: Jing Wang / Jeremy C Weiss
原文:   [英文]  
备注: None
摘要:
临床事件的时间安排对于患者轨迹的特征化至关重要,使得过程追踪、预测和因果推理等分析成为可能。然而,结构化电子健康记录捕获的关键数据元素很少,而临床报告缺乏事件的时间定位的结构化形式。我们提出一个系统,将病例报告转化为文本时间序列结构化的文本事件和时间戳对。我们对比了手动和大型语言模型(LLM)注释(分别为n=320和n=390)对十篇随机抽样的PubMed开放获取(PMOA)病例报告(N=152,974)的结果,并评估了LLM之间的一致性(n=3,103;N=93)。我们发现LLM模型在事件召回方面表现适中(O1-preview: 0.80),但在识别事件的时间一致性方面表现较高(O1-preview: 0.95)。通过建立任务、注释和评估系统,并展示高一致性,这项工作可能成为利用PMOA语料库进行时间分析的基准。

[34] 利用大型语言模型在社交媒体上进行药物使用和过量症状的多类别和多标签检测
标题: Leveraging Large Language Models for Multi-Class and Multi-Label Detection of Drug Use and Overdose Symptoms on Social Media
作者: Muhammad Ahmad / Muhammad Waqas / ldar Batyrshin / Grigori Sidorov
原文:   [英文]  
备注: None
摘要:
药物过量仍然是一个关键的全球健康问题,通常由阿片类药物、止痛药和精神药物的误用引发。传统的研究方法面临局限,而社交媒体则提供了关于自我报告的物质使用和过量症状的实时洞察。本研究提出了一个由人工智能驱动的自然语言处理框架,该框架在经过注释的社交媒体数据上进行训练,以检测常用药物及相关的过量症状。我们使用大型语言模型和人工注释者的混合注释策略,应用了传统机器学习模型、神经网络和先进的基于变压器的模型。我们的框架在多类分类中实现了98%的准确率,在多标签分类中实现了97%的准确率,比基线模型高出最多8%。这些发现突显了人工智能在支持公共健康监测和个性化干预策略方面的潜力。

[35] 复现ReLM结果:使用ReLM验证大型语言模型
标题: Replicating ReLM Results: Validating Large Language Models with ReLM
作者: Reece Adamson / Erin Song
原文:   [英文]   [中文]  
备注: None
摘要:
《使用ReLM验证大型语言模型》探讨了应用形式语言来评估和控制大型语言模型(LLMs)的记忆、偏见和零样本性能。当前评估这些行为的方法通常缓慢、不精确、昂贵,或者引入自身的偏见,但由于在生产化LLMs时这些行为的重要性,这些方法是必要的。该项目重现了原始ReLM论文中的关键结果,并详细阐述了该方法和应用,重点强调其在机器学习系统领域的相关性。

[36] 一种处理文本文档可解释图谱聚类中负相似度的方法——扩展版
标题: A Method for Handling Negative Similarities in Explainable Graph Spectral Clustering of Text Documents -- Extended Version
作者: Mieczysław A. Kłopotek / Sławomir T. Wierzchoń / Bartłomiej Starosta / Dariusz Czerski / Piotr Borkowski
原文:   [英文]   [中文]  
备注: 1 figure, 17 pages, this is an extended version of a paper accepted for the 25th International Conference on Computational Science (ICCS), 7-9 July 2025
摘要:
本文研究了图谱聚类中存在负相似度的问题,这种负相似度源于不同于传统词向量空间(如 doc2vec、GloVe 等)的文档嵌入。本文讨论了组合拉普拉斯和归一化拉普拉斯的解决方案。实验研究展示了文献中和本研究中提出的 6 种不同解决方案的优缺点。研究表明,由于负相似度,GloVe 嵌入经常导致基于归一化拉普拉斯的图谱聚类失败。此外,应用解决相似度负值的方法可以提高基于组合和归一化拉普拉斯的图谱聚类的准确性。这也使得作者最初为词向量空间嵌入开发的解释方法可以适用于 GloVe 嵌入。

[37] 立场:大型语言模型最昂贵的部分应该是其训练数据
标题: Position: The Most Expensive Part of an LLM should be its Training Data
作者: Nikhil Kandpal / Colin Raffel
原文:   [英文]   [中文]  
备注: 8 pages, 3 figures
摘要:
训练一个最先进的大型语言模型(LLM)由于计算、硬件、能源和工程需求的增长,变得越来越昂贵。然而,一个经常被忽视(且很少支付)的费用是这些模型训练数据背后的人力劳动。每个LLM都是建立在难以想象的人类努力之上的:从书籍、学术论文、代码库、社交媒体等来源获取的数万亿精心撰写的文字。本文旨在为这种劳动赋予货币价值,并主张生产LLM最昂贵的部分应该是对训练数据生产者的劳动补偿。为了支持这一立场,我们研究了2016年至2024年间发布的64个LLM,估算了从头开始支付人们生产其训练数据集的成本。即使在非常保守的工资率估计下,这些模型训练数据集的成本也比训练模型本身的成本高出10到1000倍,代表了LLM提供者的重大财务责任。面对训练数据价值与其创造缺乏补偿之间的巨大差距,我们强调并讨论了可能在未来实现更公平实践的研究方向。

[38] 关于语言模型中的线性表示和预训练数据频率
标题: On Linear Representations and Pretraining Data Frequency in Language Models
作者: Jack Merullo / Noah A. Smith / Sarah Wiegreffe / Yanai Elazar
原文:   [英文]   [中文]  
备注: ICLR 2025
摘要:
预训练数据对语言模型(LMs)的行为和质量有直接影响,但我们对这种关系的基本原理仅有最基本的了解。虽然大多数研究集中在预训练数据对下游任务行为的影响上,但我们调查了其与语言模型表示的关系。先前的研究发现,在语言模型中,一些概念在表示中被“线性”编码,但是什么因素导致这些表示的形成呢?我们研究了预训练数据频率与模型对事实关系的线性表示之间的联系。我们发现线性表示的形成与预训练术语频率密切相关;具体来说,对于主语-关系-宾语的事实三元组,主语-宾语的共现频率和关系的上下文学习准确性与线性表示高度相关。这种情况在预训练的所有阶段都存在。在OLMo-7B和GPT-J中,我们发现当关系中的主语和宾语分别至少共现1k和2k次时,线性表示一致地(但不是唯一地)形成,而不论这些共现发生在预训练的哪个阶段。最后,我们在完全训练的语言模型中对线性表示质量的测量进行回归模型训练,该模型可以预测术语在预训练中出现的频率。即使在使用不同预训练数据集的不同模型的输入上,我们的模型也能实现低误差,为估计封闭数据模型的未知训练数据的属性提供了一种新方法。我们得出结论,语言模型中线性表示的强度包含关于模型预训练语料库的信息,这可能为控制和改进模型行为提供新的途径:特别是,操控模型的训练数据以达到特定的频率阈值。

[39] SLURG:研究生成合成在线谬误性话语的可行性
标题: SLURG: Investigating the Feasibility of Generating Synthetic Online Fallacious Discourse
作者: Cal Blanco / Gavin Dsouza / Hugo Lin / Chelsey Rush
原文:   [英文]   [中文]  
备注: 15 pages, 11 figures
摘要:
在我们的论文中,我们探讨了谬误的定义及其在社交媒体上自动检测操控行为中的外推应用。特别是,我们研究了这些逻辑谬误在现实世界中(即互联网论坛)可能出现的形式。我们发现,在专门围绕乌克兰与俄罗斯冲突的讨论板块中,错误信息和误导意图普遍存在,这有助于缩小我们任务的领域。尽管自动谬误检测最近受到关注,但大多数数据集使用不受监管的谬误分类法,或仅限于政治辩论或新闻报道等正式语言领域。然而,在线讨论通常具有这些领域未能涵盖的非标准化和多样化语言。我们提出了“阴暗语言话语复制生成”(SLURG)方法,以应对这些限制,探索使用大型语言模型(LLMs),特别是DeepHermes-3-Mistral-24B,生成合成的论坛风格谬误评论的可行性。我们的研究结果表明,LLMs可以复制真实数据的句法模式,并且高质量的少样本提示可以增强LLMs模仿在线论坛词汇多样性的能力。

[40] 在文本属性图中通过BiGTex整合结构和语义信号
标题: Integrating Structural and Semantic Signals in Text-Attributed Graphs with BiGTex
作者: Azadeh Beiranvand / Seyed Mehdi Vahidipour
原文:   [英文]  
备注: 20 pages, 3 figures
摘要:
文本属性图(TAGs)在表示学习中提出了独特的挑战,因为它要求模型既要捕捉节点关联文本的语义丰富性,又要捕捉图的结构依赖性。虽然图神经网络(GNNs)在建模拓扑信息方面表现出色,但它们缺乏处理非结构化文本的能力。相反,大型语言模型(LLMs)在文本理解方面很擅长,但通常不了解图结构。在这项工作中,我们提出了BiGTex(双向图文本),这是一种通过堆叠的图-文本融合单元紧密集成GNNs和LLMs的新颖架构。每个单元允许文本和结构表示之间的相互注意,使信息能够双向流动,文本影响结构,结构指导文本解释。所提出的架构使用参数高效微调(LoRA)进行训练,保持LLM冻结,同时适应特定任务的信号。在五个基准数据集上的大量实验表明,BiGTex在节点分类中达到了最先进的性能,并有效地推广到链接预测。消融研究进一步强调了软提示和双向注意在模型成功中的重要性。

[41] 预训练指标能否可靠地预测大型语言模型的微调结果?
标题: Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs?
作者: Hansi Zeng / Kai Hui / Honglei Zhuang / Zhen Qin / Zhenrui Yue / Hamed Zamani / Dana Alon
原文:   [英文]  
备注: None
摘要:
虽然在预训练期间可用的指标(如困惑度)在规模法则研究中与模型性能有很好的相关性,但它们在固定模型规模下的预测能力仍不明确,阻碍了有效的模型选择和开发。为了解决这一差距,我们将选择预训练检查点以最大化下游微调性能的任务表述为一个成对分类问题:预测两个在预训练中有所不同的大型语言模型(LLM)在经过监督微调(SFT)后哪个表现更好。我们使用50个具有系统变化预训练配置(例如目标或数据)的1B参数LLM变体构建了一个数据集,并在SFT后对多样化的下游任务进行评估。我们首先进行了一项研究,证明传统的困惑度是一个误导性指标。因此,我们引入了从预训练中得出的新颖的无监督和监督代理指标,这些指标成功地将相对性能预测错误率降低了50%以上。尽管这一任务本身具有复杂性,我们在特定场景中展示了我们提出的代理指标的实用性,为优化各种下游任务的预训练方案设计铺平了道路。

[42] 通过减少 GPU 需求的混合框架加速大规模临床自然语言处理:痴呆识别的案例研究
标题: Accelerating Clinical NLP at Scale with a Hybrid Framework with Reduced GPU Demands: A Case Study in Dementia Identification
作者: Jianlin Shi / Qiwei Gan / Elizabeth Hanchrow / Annie Bowles / John Stanley / Adam P. Bress / Jordana B. Cohen / Patrick R. Alba
原文:   [英文]  
备注: This manuscript has been submitted to AMIA 2025 annual symposium (this https URL)
摘要:
临床自然语言处理(NLP)在临床研究和运营实践中需求日益增加。然而,大多数最先进的解决方案都是基于transformers的,需要高计算资源,限制了其可访问性。我们提出了一种混合NLP框架,该框架集成了基于规则的过滤、支持向量机(SVM)分类器和基于BERT的模型,以提高效率,同时保持准确性。我们在一个涉及490万名患有新发高血压的退伍军人的痴呆识别案例研究中应用了该框架,分析了21亿份临床笔记。在患者层面,我们的方法实现了0.90的精确度、0.84的召回率和0.87的F1分数。此外,这种NLP方法识别出的痴呆病例数量是结构化数据方法的三倍以上。所有处理均在大约两周内使用一台配备双A40 GPU的机器完成。该研究证明了混合NLP解决方案在大规模临床文本分析中的可行性,使得最先进的方法对计算资源有限的医疗机构更具可访问性。

[43] 超越文本:刻画领域专家在文献研究中的需求
标题: Beyond Text: Characterizing Domain Expert Needs in Document Research
作者: Sireesh Gururaja / Nupoor Gandhi / Jeremiah Milbauer / Emma Strubell
原文:   [英文]   [中文]  
备注: None
摘要:
处理文档是几乎所有知识工作的重要组成部分,从在文献综述中对研究进行背景化到审查法律先例。最近,随着其能力的扩展,主要基于文本的自然语言处理(NLP)系统常常被认为能够协助甚至自动化这类工作。但是,这些系统在多大程度上能够像专家现在概念化和执行这些任务一样进行建模呢?在这项研究中,我们采访了来自两个领域的十六位领域专家,以了解他们的文档研究过程,并将其与当前的NLP系统状态进行比较。我们发现,参与者的过程是独特的、迭代的,并且在很大程度上依赖于文档的社会背景以及其内容;现有的NLP及相关领域的方法明确地将文档作为一个对象,而不仅仅是文本的容器,往往更能反映参与者的优先事项,尽管它们在研究社区之外通常不太容易获得。我们呼吁NLP社区更仔细地考虑文档在构建可访问、可个性化、迭代且具有社会意识的有用工具中的角色。

[44] BrowseComp:一个简单但具有挑战性的浏览代理基准
标题: BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents
作者: Jason Wei / Zhiqing Sun / Spencer Papay / Scott McKinney / Jeffrey Han / Isa Fulford / Hyung Won Chung / Alex Tachard Passos / William Fedus / Amelia Glaese
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了BrowseComp,这是一个简单但具有挑战性的基准,用于衡量代理浏览网页的能力。BrowseComp包含1,266个问题,这些问题需要持续地在互联网上导航,以寻找难以找到的复杂信息。尽管问题很难,BrowseComp却简单易用,因为预测答案简短且可以轻松地与参考答案进行验证。对于浏览代理而言,BrowseComp可以看作类似于编程竞赛对编码代理的不完整但有用的基准。虽然BrowseComp避开了真实用户查询分布的挑战,比如生成长答案或解决歧义,但它衡量了在寻找信息时坚持和创造的重要核心能力。BrowseComp可以在这个HTTPS网址找到。

[45] 评估大型语言模型生成内容的多样性和质量
标题: Evaluating the Diversity and Quality of LLM Generated Content
作者: Alexander Shypula / Shuo Li / Botong Zhang / Vishakh Padmakumar / Kayo Yin / Osbert Bastani
原文:   [英文]  
备注: ICLR 2025 Third Workshop on Deep Learning for Code
摘要:
最近的研究表明,偏好调整技术——包括从人类偏好中进行强化学习(RLHF)的方法,如PPO和GRPO,以及像DPO这样的替代方法——会降低多样性,这在需要多样化输出的应用中造成了一个两难境地。为了解决这个问题,我们引入了一个框架来衡量有效的语义多样性——即在满足质量阈值的输出之间的多样性——这更好地反映了大型语言模型(LLMs)的实际效用。通过使用不需要人工干预的开放式任务,我们发现了一些反直觉的结果:尽管偏好调整的模型——尤其是通过强化学习训练的模型——表现出较低的词汇和句法多样性,但它们产生的有效语义多样性比SFT或基础模型更大,这并不是通过增加高质量输出之间的多样性实现的,而是通过整体上生成更多高质量的输出实现的。我们发现偏好调整减少了句法多样性,同时保留了语义多样性——揭示了形式多样性和内容多样性之间的区别,这是传统指标常常忽视的。我们的分析进一步表明,在固定的采样预算内,较小的模型在生成独特内容方面始终更具参数效率,这为模型扩展与多样性之间的关系提供了见解。这些发现对需要多样化且高质量输出的应用具有重要意义,从创意辅助到合成数据生成。

[46] 记忆与推理:用新知识更新大型语言模型
标题: Memorization vs. Reasoning: Updating LLMs with New Knowledge
作者: Aochong Oliver Li / Tanya Goyal
原文:   [英文]   [中文]  
备注: 9 pages, 3 figures
摘要:
大型语言模型(LLMs)在其参数中编码了大量的预训练知识,但随着现实世界信息的变化,更新这些知识仍然是一个挑战。现有的方法和基准主要针对实体替换,未能全面捕捉复杂的现实世界动态。在本文中,我们介绍了知识更新游乐场(KUP),这是一种用于模拟反映在证据语料库中的现实知识更新的自动化流程。KUP的评估框架包括直接和间接探测,以测试任何更新学习方法的更新事实的记忆和推理能力。接下来,我们提出了一种名为记忆条件训练(MCT)的轻量级方法,该方法在训练期间将更新语料库中的标记基于自生成的“记忆”标记进行条件化。我们的策略鼓励LLMs在推理时显现和推理新记忆的知识。我们在两个强大的LLMs上的结果表明:(1)KUP基准非常具有挑战性,最佳的CPT模型在间接探测设置(推理)中仅达到$<2\%$的表现;(2)MCT训练显著优于之前的持续预训练(CPT)基线,在直接探测(记忆)结果上提高了最多$25.4\%$。

[47] 记忆:深入观察书籍
标题: Memorization: A Close Look at Books
作者: Iris Ma / Ian Domingo / Alberto Krone-Martins / Pierre Baldi / Cristina V. Lopes
原文:   [英文]   [中文]  
备注: None
摘要:
在多大程度上可以从大型语言模型(LLMs)中提取整本书?使用Llama 3 70B系列模型和“前缀提示”提取技术,我们能够以非常高的相似度自回归地重建整本书(《爱丽丝梦游仙境》),仅从前500个标记开始。我们还能够对其他几本书进行逐段高效提取。然而,这些成功并不普遍适用于所有书籍。我们展示了书籍的提取率与书籍的流行度相关,因此可能与训练数据中的重复有关。我们还确认了在指令微调的Llama 3.1中,缓解措施的撤销,遵循了最近的研究(Nasr等,2025)。我们进一步发现,这种撤销仅来自于集中在较低变压器块中的极小部分权重的变化。我们的结果提供了当前缓解策略局限性的证据,并引入了一个框架,用于研究微调如何影响对齐的LLMs中逐字记忆的检索。

[48] ELAB:波斯语中的大规模LLM对齐基准
标题: ELAB: Extensive LLM Alignment Benchmark in Persian Language
作者: Zahra Pourbahman / Fatemeh Rajabi / Mohammadhossein Sadeghi / Omid Ghahroodi / Somaye Bakhshaei / Arash Amini / Reza Kazemi / Mahdieh Soleymani Baghshah
原文:   [英文]   [中文]  
备注: None
摘要:
本文提出了一个全面的评估框架,用于使波斯语大型语言模型(LLMs)与关键的伦理维度对齐,包括安全性、公平性和社会规范。该框架通过适应波斯语的语言和文化背景,弥补了现有LLM评估框架中的不足。该基准创建了三种类型的波斯语基准:(i)翻译数据,(ii)新生成的合成数据,以及(iii)新自然收集的数据。我们将Anthropic Red Teaming数据、AdvBench、HarmBench和DecodingTrust翻译成波斯语。此外,我们创建了ProhibiBench-fa、SafeBench-fa、FairBench-fa和SocialBench-fa作为新的数据集,以解决本土文化中的有害和禁止内容。此外,我们收集了大量数据集作为GuardBench-fa,以考虑波斯文化规范。通过结合这些数据集,我们的工作建立了一个统一的框架,用于评估波斯语LLMs,提供了一种新的文化基础对齐评估方法。我们对波斯语LLMs在三个对齐方面进行了系统评估:安全性(避免有害内容)、公平性(减轻偏见)和社会规范(遵循文化接受的行为)。我们提供了一个公开可用的排行榜,在以下网址对波斯语LLMs的安全性、公平性和社会规范进行基准测试:this https URL。

[49] CDF-RAG:用于自适应检索增强生成的因果动态反馈
标题: CDF-RAG: Causal Dynamic Feedback for Adaptive Retrieval-Augmented Generation
作者: Elahe Khatibi / Ziyu Wang / Amir M. Rahmani
原文:   [英文]  
备注: None
摘要:
检索增强生成(RAG)通过结合外部知识检索显著提升了大型语言模型(LLMs)在知识密集型任务中的表现。然而,现有的RAG框架主要依赖于语义相似性和相关性驱动的检索,限制了它们区分真实因果关系与虚假关联的能力。这导致生成的响应可能在事实基础上是正确的,但未能建立因果机制,从而导致不完整或误导性的见解。为了解决这个问题,我们引入了自适应检索增强生成的因果动态反馈(CDF-RAG),一个旨在提高生成推理中的因果一致性、事实准确性和可解释性的框架。CDF-RAG通过迭代优化查询、检索结构化因果图,并实现跨互联知识源的多跳因果推理。此外,它通过因果路径验证响应,确保逻辑连贯且事实基础的输出。我们在四个不同的数据集上评估了CDF-RAG,证明其在响应准确性和因果正确性方面优于现有的基于RAG的方法。我们的代码已在此https URL elakhatibi/CDF-RAG公开。

[50] MetaSynth:基于元提示驱动的代理支架用于多样化合成数据生成
标题: MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation
作者: Haris Riaz / Sourav Bhabesh / Vinayak Arannil / Miguel Ballesteros / Graham Horwood
原文:   [英文]   [中文]  
备注: 33 pages, 17 figures. Preprint
摘要:
最近较小的语言模型如Phi-3.5和Phi-4依赖于使用较大语言模型生成的合成数据。关于如何利用合成数据用于其他用途的问题仍然存在,例如将大型语言模型(LLM)适应特定领域。合成数据的一个关键限制是低多样性,这对其在改进其他模型的下游应用产生负面影响。为了解决这个问题,我们提出了MetaSynth,一种通过元提示增强多样性的方法,其中一个语言模型协调多个“专家”LLM代理协同生成数据。仅使用MetaSynth生成的2500万标记的合成数据,我们成功地将一个训练良好的LLM(Mistral-7B-v0.3)适应于两个专业领域——金融和生物医学——而不会影响结果模型在一般任务中的能力。此外,我们使用七个自动化指标评估我们的合成数据的多样性,发现其接近LLM预训练语料库的多样性。持续使用MetaSynth对Mistral-7B-v0.3进行预训练显著优于基础LLM,在金融领域提高了最多4.08%,在生物医学领域提高了最多13.75%。同一模型在使用模板提示生成的数据进行训练时表现下降,即使模板包括先前生成的内容和真实数据的不同上下文示例。我们的研究结果表明,使用MetaSynth时,几百万标记的多样化合成数据无需混合任何真实数据即可实现有效的领域适应。

[51] 识别和减轻先验分布在大型语言模型中的影响
标题: Identifying and Mitigating the Influence of the Prior Distribution in Large Language Models
作者: Liyi Zhang / Veniamin Veselovsky / R. Thomas McCoy / Thomas L. Griffiths
原文:   [英文]   [中文]  
备注: 16 pages, 5 figures
摘要:
大型语言模型(LLMs)有时在处理确定性任务时无法做出适当的回应,例如计数或形成首字母缩略词,因为它们在学习过程中形成的隐式先验分布会影响其回应。在这项工作中,我们展示了在至少某些情况下,LLMs 实际上计算了正确执行这些任务所需的信息,并且我们确定了一些干预措施,可以让它们访问这些信息以提高其性能。首先,我们展示了仅仅提示语言模型不要依赖其先验知识,就能在先验主导的任务中显著改善表现。然后,我们使用机械解释技术来定位 LLM 中的先验,并操控该先验对其回应的影响程度。具体来说,我们展示了可以识别出与回应的先验概率相关的神经网络层,并通过在先验主导任务上使用基本提示对这些层进行轻量微调,从而在未见过的答案上取得高性能。这些结果表明,产生正确回应所需的信息包含在模型形成的问题表征中。此外,我们展示了这种微调对先验主导任务显著更为有效,并且微调后的错误不再与先验相关。我们的结果表明,可能可以定义有效的方法来操控 LLMs 在解决问题时对其先验的依赖程度,从而在 LLMs 因与标记序列的先验概率相关的原因产生幻觉的情况下提高其性能。

[52] GeoSense:评估几何原理在多模态推理中的识别与应用
标题: GeoSense: Evaluating Identification and Application of Geometric Principles in Multimodal Reasoning
作者: Liangyu Xu / Yingxiu Zhao / Jingyun Wang / Yingyao Wang / Bu Pi / Chen Wang / Mingliang Zhang / Jihao Gu / Xiang Li / Xiaoyong Zhu / Jun Song / Bo Zheng
原文:   [英文]  
备注: 10 pages, 8 figures
摘要:
几何问题求解(GPS)是一项具有挑战性的任务,需要视觉理解和符号推理,能够有效衡量多模态大型语言模型(MLLMs)的推理能力。在这项任务中,人类通过在视觉环境中准确识别和灵活应用几何原理,展现出强大的推理能力。然而,现有的基准测试未能同时评估MLLMs中类人几何推理机制的这两个维度,这在评估其解决GPS能力方面仍然是一个关键的空白。为此,我们引入了GeoSense,这是第一个综合的双语基准,旨在通过几何原理的视角系统地评估MLLMs的几何推理能力。GeoSense具有一个涵盖平面和立体几何的五级层次框架、一个精细注释的1,789个问题的数据集,以及一种创新的评估策略。通过对各种开源和闭源MLLMs在GeoSense上的广泛实验,我们观察到Gemini-2.0-pro-flash表现最佳,获得了65.3的总体得分。我们的深入分析表明,几何原理的识别和应用仍然是领先MLLMs的瓶颈,共同阻碍了它们的推理能力。这些发现强调了GeoSense在引导MLLMs几何推理能力的未来进步方面的潜力,为人工智能中更强大和类人的推理铺平了道路。

[53] 通过建模价值冲突和权衡来刻画个体的主观性
标题: Towards Characterizing Subjectivity of Individuals through Modeling Value Conflicts and Trade-offs
作者: Younghun Lee / Dan Goldwasser
原文:   [英文]   [中文]  
备注: 8 pages
摘要:
大型语言模型(LLMs)不仅解决了复杂的推理问题,还在需要主观决策的任务中表现出色。现有研究表明,LLM生成的内容在某种程度上可以具有主观基础,但关于LLM是否能够解释个体层面的主观性尚未得到充分研究。在本文中,我们描述了社交媒体上个体的主观性,并使用LLM推断他们的道德判断。我们提出了一个框架,SOLAR(以价值抽象为基础的主观性),该框架通过观察用户生成文本中的价值冲突和权衡,以更好地表示个体的主观基础。实证结果表明,我们的框架不仅改善了整体推断结果,还提高了在争议性情境中的表现。此外,我们定性地展示了SOLAR如何提供关于个体价值偏好的解释,这可以进一步解释他们的判断。

[54] 通过分层合成数据生成将指令微调的大型语言模型扩展到百万标记上下文
标题: Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation
作者: Linda He / Jue Wang / Maurice Weber / Shang Zhu / Ben Athiwaratkun / Ce Zhang
原文:   [英文]   [中文]  
备注: 26 pages, 5 figures
摘要:
大型语言模型(LLMs)在长上下文推理方面存在困难,不仅因为计算复杂性随着序列长度的平方增长,还因为长上下文数据的标注稀缺且昂贵。几乎没有系统性地剖析长上下文数据的开源工作,也没有超过10万标记的上下文的公开可用指令调优数据集。为弥补这一差距,我们引入了一种新颖的后训练合成数据生成策略,旨在有效扩展LLMs的上下文窗口,同时保持其一般任务性能。我们的方法可以扩展到任意长的上下文长度,不受限于可用的真实世界数据的长度,从而有效解决了原始长上下文数据的稀缺问题。通过逐步旋转位置嵌入(RoPE)缩放训练策略,我们展示了我们的模型在上下文长度达到100万标记时,在RULER基准和InfiniteBench上表现良好,并在一般语言任务上保持稳健的性能。

[55] Persona-judge:通过令牌级自我判断实现大型语言模型的个性化对齐
标题: Persona-judge: Personalized Alignment of Large Language Models via Token-level Self-judgment
作者: Xiaotian Zhang / Ruizhe Chen / Yang Feng / Zuozhu Liu
原文:   [英文]   [中文]  
备注: None
摘要:
将语言模型与人类偏好对齐存在显著挑战,特别是在实现个性化的同时不产生过多的计算成本。现有方法依赖于奖励信号和额外的标注数据,限制了其在多样化人类价值观中的可扩展性和适应性。为了解决这些挑战,我们引入了Persona-judge,这是一种新颖的判别范式,能够在无需训练的情况下实现与未见偏好的个性化对齐。Persona-judge并不是通过外部奖励反馈来优化策略参数,而是利用模型内在的偏好判断能力。具体来说,一个草稿模型根据给定的偏好生成候选标记,而一个评判模型则体现另一种偏好,交叉验证预测的标记是否被接受。实验结果表明,Persona-judge利用模型固有的偏好评估机制,提供了一种可扩展且计算高效的个性化对齐解决方案,为更具适应性的定制化对齐铺平了道路。

[56] ACoRN:检索增强语言模型中的抗噪声抽象压缩
标题: ACoRN: Noise-Robust Abstractive Compression in Retrieval-Augmented Language Models
作者: Singon Kim / Gunho Jung / Seong-Whan Lee
原文:   [英文]   [中文]  
备注: None
摘要:
抽象压缩利用较小的语言模型来压缩与查询相关的上下文,从而降低检索增强生成(RAG)的计算成本。然而,检索到的文档通常包含与回答查询无关的信息,或者由于内容事实不正确而具有误导性,尽管它们的相关性得分很高。这种行为表明,抽象压缩器更有可能遗漏对于正确答案至关重要的重要信息,特别是在注意力分散的长上下文中。为了解决这个问题,我们对检索到的文档进行更细粒度的分类,并提出了抗噪声的抽象压缩(ACoRN),其中引入了两个新的训练步骤。首先,我们在训练数据集上使用离线数据增强,以增强压缩器对两种不同类型的检索噪声的鲁棒性。其次,由于基于语言模型的压缩器无法充分利用来自多个检索文档的信息,并且表现出位置偏差,我们进行微调以生成围绕直接支持正确答案的关键信息的摘要。我们的实验表明,使用ACoRN作为压缩器训练的T5-large在保持答案字符串的同时提高了EM和F1分数,这可以作为直接证据。ACoRN在包含许多降低准确性的文档的数据集上表现出色,使其在现实场景中非常有用。

[57] GRAIL:用于大型语言模型隐私和版权的基于梯度的自适应遗忘
标题: GRAIL: Gradient-Based Adaptive Unlearning for Privacy and Copyright in LLMs
作者: Kun-Woo Kim / Ji-Hoon Park / Ju-Min Han / Seong-Whan Lee
原文:   [英文]   [中文]  
备注: Accepted by IJCNN 2025
摘要:
大型语言模型(LLMs)在广泛的数据集上进行训练时,常常会学习到敏感信息,这在“被遗忘权”等原则下引发了重大的社会和法律问题。从头开始重新训练整个模型以移除不需要的信息既昂贵又不切实际。此外,现有的单领域遗忘方法无法解决多领域场景的问题,在这些场景中,知识在隐私和版权等领域之间交织,形成重叠的表示,导致过度的知识移除或性能下降。为了解决这些问题,我们提出了GRAIL(基于梯度的自适应遗忘),一种新颖的多领域遗忘框架。GRAIL利用来自多个领域的梯度信息来精确区分遗忘范围和保留范围,并应用自适应的参数定位策略来选择性地移除目标知识,同时保留每个领域的关键参数。在遗忘基准上的实验结果表明,GRAIL在遗忘成功率上与现有方法相当,同时在知识保留成功率上比之前的最先进方法高出最多17%。我们的研究结果为有效管理和调节大型预训练语言模型中的敏感信息建立了新的范式。

[58] 数据高效的大型语言模型微调用于代码生成
标题: Data-efficient LLM Fine-tuning for Code Generation
作者: Weijie Lv / Xuan Xia / Sheng-Jun Huang
原文:   [英文]   [中文]  
备注: arXiv admin note: text overlap with arXiv:2408.02193
摘要:
大型语言模型(LLMs)在代码生成任务中展现了显著的潜力。然而,开源模型与闭源模型之间仍存在性能差距。为了解决这一差距,现有方法通常生成大量合成数据进行微调,这往往导致训练效率低下。在这项工作中,我们提出了一种数据选择策略,以提高基于代码的LLMs训练的有效性和效率。通过优先考虑数据复杂性并确保采样子集与原始数据集的分布一致,我们的采样策略有效地选择了高质量数据。此外,我们通过“动态打包”技术优化了分词过程,最大限度地减少了填充标记并降低了计算资源消耗。实验结果表明,在使用40%的OSS-Instruct数据集进行训练时,DeepSeek-Coder-Base-6.7B模型的平均性能达到66.9%,超过了使用完整数据集时的66.1%性能。此外,训练时间从47分钟减少到34分钟,单个周期内峰值GPU内存从61.47 GB减少到42.72 GB。在Evol-Instruct数据集上使用CodeLlama-Python-7B模型时也观察到了类似的改进。通过优化数据选择和分词,我们的方法不仅提高了模型性能,还提高了训练效率。

[59] 为什么以及如何大语言模型产生幻觉:通过子序列关联连接点滴
标题: Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations
作者: Yiyou Sun / Yu Gai / Lijie Chen / Abhilasha Ravichander / Yejin Choi / Dawn Song
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)经常生成幻觉内容,这些内容偏离了事实准确性或提供的上下文,由于潜在原因的复杂交互,这对诊断构成了挑战。本文介绍了一种子序列关联框架,以系统地追踪和理解幻觉。我们的关键见解是,当占主导地位的幻觉关联超过忠实的关联时,就会产生幻觉。通过理论和实证分析,我们证明了仅解码器的变压器有效地作为子序列嵌入模型运作,线性层编码输入输出关联。我们提出了一种追踪算法,通过分析随机输入上下文中的幻觉概率来识别因果子序列。实验表明,我们的方法在识别幻觉原因方面优于标准归因技术,并与模型训练语料库中的证据一致。这项工作为幻觉提供了一个统一的视角和一个稳健的追踪和分析框架。

[60] KODIS:一个多元文化争议解决对话语料库
标题: KODIS: A Multicultural Dispute Resolution Dialogue Corpus
作者: James Hale / Sushrita Rakshit / Kushal Chawla / Jeanne M. Brett / Jonathan Gratch
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了KODIS,这是一个包含来自75个以上国家的数千个对话的二元争端解决语料库。受文化与冲突理论模型的启发,参与者参与了由专家设计的典型客户服务争端,以激发强烈的情感和冲突。该语料库包含丰富的性格、过程和结果测量指标。初步分析支持了关于愤怒表达如何导致升级螺旋的理论,并突出了情感表达中的文化差异。我们将此语料库和数据收集框架提供给社区。

[61] 潘多拉:一个用于跨多样化结构化知识进行统一推理的代码驱动大型语言模型代理
标题: Pandora: A Code-Driven Large Language Model Agent for Unified Reasoning Across Diverse Structured Knowledge
作者: Yongrui Chen / Junhao He / Linbo Fu / Shenyu Zhang / Rihui Jin / Xinbang Dai / Jiaqi Li / Dehai Min / Nan Hu / Yuxin Zhang / Guilin Qi / Yi Huang / Tongtong Wu
原文:   [英文]   [中文]  
备注: None
摘要:
统一结构化知识推理(USKR)旨在通过使用表格、数据库和知识图谱等结构化来源,以统一的方式回答自然语言问题(NLQs)。现有的USKR方法要么依赖于采用特定任务的策略,要么依赖于自定义定义的表示,这些方法难以利用不同SKR任务之间的知识转移或与大型语言模型(LLM)的先验对齐,从而限制了它们的性能。本文提出了一种新颖的USKR框架,名为\textsc{Pandora},它利用\textsc{Python}的\textsc{Pandas} API来构建统一的知识表示,以便与LLM的预训练对齐。它使用LLM为每个问题生成文本推理步骤和可执行的Python代码。示例从涵盖各种SKR任务的训练示例记忆中提取,以促进知识转移。在涉及三个SKR任务的四个基准上的大量实验表明,\textsc{Pandora}优于现有的统一框架,并能有效地与特定任务的方法竞争。

[62] Chinese-Vicuna:一种基于Llama的中文指令跟随模型
标题: Chinese-Vicuna: A Chinese Instruction-following Llama-based Model
作者: Chenghao Fan / Zhenyi Lu / Jie Tian
原文:   [英文]   [中文]  
备注: Chinese-Vicuna Technique Report
摘要:
Chinese-Vicuna 是一个开源的、资源高效的语言模型,旨在通过使用低秩适应(LoRA)微调 Meta 的 LLaMA 架构,弥合中文指令跟随能力的差距。该模型针对低资源环境,使其能够在消费级 GPU(例如,7B 模型的 RTX-2080Ti)上进行经济高效的部署,并支持在医疗和法律等领域的特定领域适应。通过整合混合数据集(BELLE 和 Guanaco)和 4 位量化(QLoRA),该模型在翻译、代码生成和特定领域的问答等任务中实现了具有竞争力的性能。该项目提供了一个全面的工具包,用于模型转换、CPU 推理和多轮对话接口,强调了对研究人员和开发人员的可访问性。评估表明,该模型在医疗任务、多轮对话连贯性和实时法律更新方面具有竞争力的表现。Chinese-Vicuna 的模块化设计、开源生态系统和社区驱动的增强功能使其成为中文大型语言模型应用的多功能基础。

[63] 眼不见心不烦,眼不见心不烦:在区域背景下测量语言模型对被忽视的边缘化群体的偏见
标题: Out of Sight Out of Mind, Out of Sight Out of Mind: Measuring Bias in Language Models Against Overlooked Marginalized Groups in Regional Contexts
作者: Fatma Elsafoury / David Hartmann
原文:   [英文]   [中文]  
备注: None
摘要:
我们知道,由于主要在美国和更广泛的英语世界的研究,语言模型(LMs)会形成对少数群体的偏见和刻板印象,导致这些群体成员受到不公平的对待。由于这些模型的负面行为对社会和个人有严重后果,工业界和学术界正在积极开发减少语言模型偏见的方法。然而,许多代表性不足的群体和语言迄今为止被忽视了。这包括英语和西方世界中个别国家和地区特有的边缘化群体,但更重要的是,几乎所有其他世界的边缘化群体。联合国估计,全球有6亿到12亿人是边缘化群体成员,需要特别保护。如果我们想开发适合所有人的包容性语言模型,我们必须扩大我们的理解范围,以包括被忽视的边缘化群体和资源匮乏的语言和方言。在这项工作中,我们通过首次研究针对埃及、其余21个阿拉伯国家、德国、英国和美国的270个边缘化群体的23个语言模型中的冒犯性刻板印象偏见,为这一努力做出贡献。此外,我们研究了资源匮乏的语言和方言对语言模型偏见研究的影响,展示了当前偏见指标的局限性,因为我们在使用埃及阿拉伯方言与现代标准阿拉伯语时测量到显著更高的偏见。我们的结果显示,语言模型确实对许多边缘化群体表现出比对主导群体更高的偏见。然而,这在阿拉伯语言模型中并不适用,其中对宗教和种族相关的边缘化和主导群体的偏见都很高。我们的结果还显示对非二元、LGBTQIA+和黑人女性的更高交叉偏见。

[64] 通过符号-神经集成增强多模态大型语言模型的几何问题解决能力
标题: Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration
作者: Yicheng Pan / Zhenrong Zhang / Pengfei Hu / Jiefeng Ma / Jun Du / Jianshu Zhang / Quan Liu / Jianqing Gao / Feng Ma
原文:   [英文]   [中文]  
备注: 10 pages, 5 figures
摘要:
最近在多模态大型语言模型(MLLMs)方面的进展在一般领域取得了显著的进步,并在多模态数学推理中展现了潜力。然而,由于缺乏准确的逐步解决方案数据以及推理过程中严重的幻觉,将MLLMs应用于几何问题解决(GPS)仍然具有挑战性。在本文中,我们提出了GeoGen,这是一种可以自动生成几何图形逐步推理路径的流程。通过利用精确的符号推理,GeoGen生成了大规模、高质量的问题-答案对。为了进一步增强MLLMs的逻辑推理能力,我们使用GeoGen生成的合成数据训练了GeoLogic,一个大型语言模型(LLM)。GeoLogic作为自然语言和符号系统之间的桥梁,使符号工具能够帮助验证MLLM的输出,使推理过程更加严谨并减轻幻觉。实验结果表明,我们的方法持续提高了MLLMs的性能,在几何推理任务的基准测试中取得了显著的结果。这种改进源于我们整合了LLMs和符号系统的优势,从而为GPS任务提供了一种更可靠和可解释的方法。代码可在此https URL获取。

[65] 在艺术背景中评估大型语言模型:批评生成与心智理论评估
标题: Assesing LLMs in Art Contexts: Critique Generation and Theory of Mind Evaluation
作者: Takaya Arita / Wenxian Zheng / Reiji Suzuki / Fuminori Akiba
原文:   [英文]   [中文]  
备注: 30 pages, 13 figures, 1 table
摘要:
本研究探讨了大型语言模型(LLMs)在与艺术相关的两个领域的表现:撰写艺术作品评论和在艺术相关情境中推理心理状态(心理理论,或ToM)。在评论生成部分,我们构建了一个系统,将诺埃尔·卡罗尔的评价框架与广泛的艺术批评理论相结合。模型首先被提示撰写一篇完整的评论,然后通过逐步提示过程生成更短、更连贯的版本。这些由AI生成的评论随后与人类专家撰写的评论进行图灵测试式的比较。在许多情况下,人类受试者难以分辨哪个是AI生成的,结果表明,只要经过精心引导,LLMs可以生成不仅在风格上可信而且在解释上丰富的评论。在第二部分中,我们引入了基于涉及解释、情感和道德紧张的情境的新简单ToM任务,这些情境可能出现在艺术的背景中。这些任务超越了标准的错误信念测试,允许更复杂的、社会嵌入形式的推理。我们测试了41个最新的LLMs,发现它们在不同任务和模型中的表现各异。特别是,涉及情感或模糊情境的任务往往揭示出更明显的差异。综合来看,这些结果有助于澄清LLMs如何应对复杂的解释性挑战,揭示了它们的认知局限性和潜力。虽然我们的发现并未直接反驳所谓的生成式AI悖论——即LLMs可以在没有真正理解的情况下产生类似专家的输出——但它们表明,取决于LLMs的指令方式,例如通过精心设计的提示,这些模型可能开始表现出比我们想象中更接近理解的行为。

[66] SMARTe:基于槽的可追责关系三元组抽取方法
标题: SMARTe: Slot-based Method for Accountable Relational Triple extraction
作者: Xue Wen Tan / Stanley Kok
原文:   [英文]   [中文]  
备注: None
摘要:
关系三元组抽取(Relational Triple Extraction, RTE)是自然语言处理(NLP)中的一项基础任务。然而,先前的研究主要集中在优化模型性能上,对于驱动这些模型的内部机制的理解却付诸较少努力。许多现有方法依赖于复杂的预处理来引导特定的交互,往往导致系统不透明,可能无法完全符合其理论基础。为了解决这些局限性,我们提出了SMARTe:一种基于槽的可解释关系三元组抽取方法。SMARTe通过槽注意机制引入内在的可解释性,并将任务框架化为集合预测问题。槽注意机制将相关信息整合到不同的槽中,确保所有预测都可以明确追溯到学习到的槽表示以及对每个预测的关系三元组有贡献的标记。尽管强调可解释性,SMARTe的性能与最先进的模型相当。在NYT和WebNLG数据集上的评估表明,增加可解释性并不影响性能。此外,我们进行了定性评估,以展示SMARTe提供的解释,使用注意力热图映射到各自的标记。我们最后讨论了我们的发现,并提出了未来研究的方向。

[67] 大型语言模型能否在扩展的多语言语境中进行推理?迈向超越检索和干草堆的长语境评估
标题: Can LLMs reason over extended multilingual contexts? Towards long-context evaluation beyond retrieval and haystacks
作者: Amey Hengle / Prasoon Bajpai / Soham Dan / Tanmoy Chakraborty
原文:   [英文]  
备注: 33 Pages in Total - 23 (Main Manuscript) + 10 (Appendix)
摘要:
现有的多语言长上下文基准测试,通常基于流行的“大海捞针”测试,主要评估模型在无关文本中定位特定信息的能力。然而,这种以检索为中心的方法是短视且固有局限的,因为成功的回忆并不表明模型在扩展上下文中进行推理的能力。此外,这些基准测试容易出现数据泄漏、捷径问题,并有可能使评估结果事先可识别。为了解决这些限制,我们引入了MLRBench,一种新的合成基准,用于多语言长上下文推理。与现有基准不同,MLRBench不仅仅停留在表面检索,还包括评估多跳推理、聚合和认知推理的任务。MLRBench涵盖七种语言,设计为并行的,抗泄漏的,并可扩展到任意上下文长度。我们使用一个开放权重的大型语言模型(LLM)进行了广泛的实验,揭示了高资源语言和低资源语言之间的显著差距,特别是在需要模型聚合多个事实或预测信息缺失的任务中。我们还发现,在多语言环境中,LLM有效利用的上下文长度不到其声称的30%。虽然现成的检索增强生成在一定程度上有助于缓解这一问题,但它并没有解决长上下文问题。我们开源了MLRBench,以促进未来在改进多语言LLM评估和训练方面的研究。

[68] ViClaim:用于视频中自动检测主张的多语言多标签数据集
标题: ViClaim: A Multilingual Multilabel Dataset for Automatic Claim Detection in Videos
作者: Patrick Giedemann / Pius von Däniken / Jan Deriu / Alvaro Rodrigo / Anselmo Peñas / Mark Cieliebak
原文:   [英文]   [中文]  
备注: None
摘要:
视频内容作为一种交流和误导信息的媒介,其影响力日益增长,这凸显了在多语言和多主题环境中分析声明的有效工具的迫切需求。现有的误导信息检测工作主要集中在书面文本上,未能充分解决视频转录中口语文本的复杂性。我们介绍了ViClaim,这是一个包含1,798个视频转录的注释数据集,涵盖三种语言(英语、德语、西班牙语)和六个主题。转录中的每个句子都被标记为三个与声明相关的类别:值得事实核查、不值得事实核查或观点。我们开发了一个定制的注释工具,以促进高度复杂的注释过程。使用最先进的多语言模型进行的实验显示出在交叉验证中的强劲表现(宏F1值高达0.896),但揭示了在未见主题上的泛化挑战,特别是在不同领域。我们的研究结果强调了视频转录中声明检测的复杂性。ViClaim为推进基于视频的交流中的误导信息检测提供了坚实的基础,解决了多模态分析中的关键空白。

[69] AI代理是机器翻译的新前沿吗?单代理和多代理系统在多语言数字通信中的挑战与机遇
标题: Are AI agents the new machine translation frontier? Challenges and opportunities of single- and multi-agent systems for multilingual digital communication
作者: Vicent Briva-Iglesias
原文:   [英文]   [中文]  
备注: None
摘要:
人工智能(AI)的快速发展在各个行业中引入了AI代理作为一种颠覆性范式,但其在机器翻译(MT)中的应用仍未得到充分探索。本文描述并分析了单代理和多代理系统在机器翻译中的潜力,探讨了它们如何增强多语言数字通信。虽然单代理系统适合较简单的翻译任务,但多代理系统涉及多个专业AI代理以结构化的方式协作,可能为需要高精度、领域特定知识和上下文意识的复杂场景提供一种有前景的解决方案。为了展示多代理工作流在机器翻译中的可行性,我们正在进行一项法律机器翻译的试点研究。该研究采用了一个多代理系统,涉及四个专业AI代理,分别负责(i)翻译,(ii)适当性审查,(iii)流畅性审查,以及(iv)最终编辑。我们的研究结果表明,多代理系统可能具有显著提高领域适应性和上下文意识的潜力,其翻译质量优于传统机器翻译或单代理系统。本文还为未来在机器翻译中应用多代理系统、整合到专业翻译工作流中奠定了基础,并分享了本文分析的系统演示。

[70] 信息增益引导的因果干预用于自主去偏大型语言模型
标题: Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models
作者: Zhouhao Sun / Xiao Ding / Li Du / Yunpeng Xu / Yixuan Ma / Yang Zhao / Bing Qin / Ting Liu
原文:   [英文]   [中文]  
备注: None
摘要:
尽管取得了显著进展,最近的研究表明当前的大型语言模型(LLMs)可能仍然会捕捉数据集中的偏差并在推理过程中利用这些偏差,导致LLMs的泛化能力较差。然而,由于数据集偏差的多样性以及基于上下文学习的偏差抑制方法的不足,之前基于先验知识的去偏方法和基于上下文学习的自动去偏方法的效果有限。为了解决这些挑战,我们探索了因果机制与信息理论的结合,并提出了一种信息增益引导的因果干预去偏(IGCIDB)框架。该框架首先利用信息增益引导的因果干预方法自动且自主地平衡指令微调数据集的分布。随后,它采用标准的监督微调过程在去偏的数据集上训练LLMs。实验结果表明,IGCIDB可以有效地去除LLMs的偏差,从而提高其在不同任务上的泛化能力。

[71] 大型语言模型的多国价值观对齐基准测试
标题: Benchmarking Multi-National Value Alignment for Large Language Models
作者: Chengyi Ju / Weijie Shi / Chengzhong Liu / Jiaming Ji / Jipeng Zhang / Ruiyuan Zhang / Jia Zhu / Jiajie Xu / Yaodong Yang / Sirui Han / Yike Guo
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)是否持有与您国家的价值观相冲突的立场?有时确实如此!然而,现有的研究主要集中在伦理审查上,未能捕捉到国家价值观的多样性,这些价值观涵盖了更广泛的政策、法律和道德考量。此外,目前依赖于手动设计问卷的光谱测试的基准不易扩展。 为了解决这些限制,我们引入了NaVAB,这是一个综合基准,用于评估LLMs与五个主要国家(中国、美国、英国、法国和德国)价值观的对齐程度。NaVAB实施了一个国家价值提取流程,以高效构建价值评估数据集。具体来说,我们提出了一种带有指令标记的建模程序来处理原始数据源,一个筛选过程来过滤与价值相关的主题,以及一个带有冲突减少机制的生成过程来过滤非冲突性内容。我们在各国的各种LLMs上进行了广泛的实验,结果提供了识别不对齐场景的见解。此外,我们证明了NaVAB可以与对齐技术结合使用,通过使LLMs的价值观与目标国家对齐来有效减少价值观方面的担忧。

[72] MAIN:相互对齐是指令微调所必需的
标题: MAIN: Mutual Alignment Is Necessary for instruction tuning
作者: Fanyi Yang / Jianfeng Liu / Xin Zhang / Haoyu Liu / Xixin Cao / Yuefeng Zhan / Hao Sun / Weiwei Deng / Feng Sun / Qi Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
指令微调使大型语言模型(LLMs)取得了显著的性能提升,但其成功在很大程度上依赖于大规模、高质量的指令-响应对的可用性。然而,目前用于扩展数据生成的方法往往忽视了一个关键方面:指令与响应之间的对齐。我们假设,高质量的指令-响应对并不是由每个组成部分的单独质量定义的,而是由它们彼此之间的对齐程度决定的。为了解决这个问题,我们提出了一个互相对齐框架(MAIN),通过相互约束来确保指令和响应之间的一致性。实验表明,在该框架内微调的模型,如LLaMA和Mistral,在多个基准测试中优于传统方法。这一方法强调了指令-响应对齐在实现可扩展和高质量指令微调中的关键作用。

[73] ConExion:使用大型语言模型进行概念提取
标题: ConExion: Concept Extraction with Large Language Models
作者: Ebrahim Norouzi / Sven Hertling / Harald Sack
原文:   [英文]  
备注: None
摘要:
本文提出了一种利用预训练的大型语言模型(LLMs)从文档中提取概念的方法。与传统方法提取总结文档中重要信息的关键词不同,我们的方法解决了一个更具挑战性的任务,即提取与特定领域相关的所有现有概念,而不仅仅是重要的概念。通过对两个广泛使用的基准数据集的全面评估,我们证明了与最先进的技术相比,我们的方法提高了F1分数。此外,我们还探索了在这些模型中使用提示进行无监督概念提取的潜力。提取的概念旨在支持本体的领域覆盖评估并促进本体学习,突显了LLMs在概念提取任务中的有效性。我们的源代码和数据集可在此https URL公开获取。

[74] 重试是您所需要的一切吗?在没有语言反馈的情况下增强大型语言模型的推理能力
标题: Are Retrials All You Need? Enhancing Large Language Model Reasoning Without Verbalized Feedback
作者: Nearchos Potamitis / Akhil Arora
原文:   [英文]   [中文]  
备注: 8 pages, 16 figures, 1 table. arXiv admin note: text overlap with arXiv:2405.06691
摘要:
最近在大型语言模型(LLMs)方面的进展推动了通用自主代理的发展,这些代理在各个领域的复杂推理任务中表现出色。这一浪潮催生了大量基于提示的推理框架的演变。最近的关注点是通过自我评估和口头反馈来改进输出的迭代推理策略。然而,这些策略需要额外的计算复杂性来使模型识别和纠正其错误,导致成本显著增加。在这项工作中,我们引入了“无反馈重试”的概念,这是一种极其简单但强大的机制,通过允许LLMs在识别错误答案后重试问题解决尝试来增强推理框架。与传统的迭代改进方法不同,我们的方法不需要明确的自我反思或口头反馈,从而简化了改进过程。我们的研究结果表明,基于重试的简单方法往往优于更复杂的推理框架,这表明复杂方法的好处可能并不总是能证明其计算成本的合理性。通过挑战复杂推理策略固有地导致更好性能的普遍假设,我们的工作提供了关于如何通过更简单、更高效的方法实现最佳结果的新见解。那么,重试就是你所需要的一切吗?

[75] 估算混合检索增强型多文档摘要的最佳上下文长度
标题: Estimating Optimal Context Length for Hybrid Retrieval-augmented Multi-document Summarization
作者: Adithya Pratapa / Teruko Mitamura
原文:   [英文]   [中文]  
备注: None
摘要:
最近在语言模型的长上下文推理能力方面的进展导致了在大规模多文档摘要中的有趣应用。然而,先前的研究表明,这些长上下文模型在其声称的上下文窗口中并不有效。为此,检索增强系统提供了一种高效且有效的替代方案。然而,它们的性能可能对检索上下文长度的选择非常敏感。在这项工作中,我们提出了一种混合方法,将检索增强系统与最近语言模型支持的长上下文窗口相结合。我们的方法首先估计最佳检索长度,作为检索器、摘要器和数据集的函数。在数据集的随机抽样子集上,我们使用一组大型语言模型生成一组银参考。我们使用这些银参考来估计给定的RAG系统配置的最佳上下文长度。我们在多文档摘要任务上的结果展示了我们的方法在不同模型类别和规模上的有效性。我们与强大的长上下文基准如RULER和HELMET的长度估计进行了比较。我们的分析还强调了我们的估计方法对于非常长上下文语言模型的有效性及其对新类别语言模型的泛化能力。

[76] 科学的火花:利用结构化论文数据生成假设
标题: Sparks of Science: Hypothesis Generation Using Structured Paper Data
作者: Charles O'Neill / Tirthankar Ghosal / Roberta Răileanu / Mike Walmsley / Thang Bui / Kevin Schawinski / Ioana Ciucă
原文:   [英文]   [中文]  
备注: 9 pages, 2 figures. Comments welcome
摘要:
生成新颖且有创意的科学假设是实现通用人工智能的基石。大型语言和推理模型有潜力在系统地创建、选择和验证科学知情假设方面提供帮助。然而,目前的基础模型往往难以产生既新颖又可行的科学想法。一个原因是缺乏一个专门的数据集,将科学假设生成(SHG)框架化为自然语言生成(NLG)任务。在本文中,我们介绍了HypoGen,这是第一个大约5500个结构化问题-假设对的数据集,这些数据对从顶级计算机科学会议中提取,并采用Bit-Flip-Spark模式进行结构化,其中Bit是传统假设,Spark是关键见解或概念飞跃,而Flip是由此产生的反命题。HypoGen独特地整合了一个明确的推理链组件,反映了从Bit到Flip的智力过程。我们证明,将假设生成框架化为条件语言建模,并在Bit-Flip-Spark和推理链上对模型进行微调(在推理时,我们仅提供Bit),可以提高假设的整体质量。我们的评估采用自动化指标和大型语言模型评审排名进行整体质量评估。我们展示了通过在我们的HypoGen数据集上进行微调,可以提高生成假设的新颖性、可行性和整体质量。HypoGen数据集可通过此网址公开获取。

[77] 在检索增强型大型语言模型中解决知识冲突:迈向在复杂环境中生成可靠响应
标题: Accommodate Knowledge Conflicts in Retrieval-augmented LLMs: Towards Reliable Response Generation in the Wild
作者: Jiatai Wang / Zhiwei Xu / Di Jin / Xuewen Yang / Tao Li
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)的普及显著推动了信息检索系统的发展,特别是在响应生成(RG)方面。然而,LLMs常常面临内部记忆与检索到的外部信息之间的知识冲突,这些冲突源于错误信息、偏见或过时知识。这些冲突削弱了响应的可靠性,并在决策中引入了不确定性。在这项工作中,我们从信息论的角度分析了LLMs如何处理知识冲突,并揭示了当冲突信息与补充信息表现出显著差异时,LLMs能够自信地解决其偏好。然而,当区别不明确时,LLMs会经历更高的不确定性。基于这一见解,我们提出了Swin-VIB,一种新颖的框架,将变分信息瓶颈模型的管道整合到检索信息的自适应增强中,并在响应生成中引导LLM的偏好。针对单选题、开放式问答(QA)和检索增强生成(RAG)的广泛实验验证了我们的理论发现,并展示了Swin-VIB的有效性。值得注意的是,我们的方法在单选任务的准确性上至少比竞争基线提高了7.54%。

[78] SHA256在SemEval-2025任务4:选择性遗忘——通过知识隔离对大型语言模型进行约束性去学习
标题: SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation
作者: Saransh Agrawal / Kuan-Hao Huang
原文:   [英文]   [中文]  
备注: 8 pages, In Proceedings of The 19th International Workshop on Semantic Evaluation (SemEval), 2025
摘要:
大型语言模型(LLMs)在训练过程中经常会记住敏感信息,这在部署公开可访问的模型时会带来风险。目前的机器遗忘方法难以在不降低整体模型能力的情况下选择性地移除特定数据关联。本文介绍了我们在SemEval-2025任务4中关于目标遗忘的解决方案,该方案引入了一种结合因果中介分析与层特定优化的两阶段方法。通过对OLMo架构(1B和7B参数)的系统因果追踪实验,我们识别出前几个transformer层(层0-5)在MLP模块中存储主体-属性关联的关键作用。基于这一见解,我们开发了一种约束优化方法,该方法在冻结上层的同时,对下层应用一种新颖的联合损失函数——通过输出标记交叉熵惩罚最大化遗忘集损失,并通过自适应正则化最小化保留集偏差。我们的方法在1B模型赛道中获得了第二名,展示了强大的任务性能,同时保持了88%的基线MMLU准确率。这些结果确立了因果知情层优化作为LLMs中高效、精确遗忘的一个有前途的范式,为解决AI系统中的数据隐私问题提供了重要进展。

[79] ChatEXAONEPath:一种使用全切片图像进行病理学分析的专家级多模态大型语言模型
标题: ChatEXAONEPath: An Expert-level Multimodal Large Language Model for Histopathology Using Whole Slide Images
作者: Sangwook Kim / Soonyoung Lee / Jongseong Jang
原文:   [英文]   [中文]  
备注: None
摘要:
最近的研究在开发医学领域的大型语言模型(LLMs)方面取得了显著进展,这些模型能够回答专家级问题,并展示出在真实临床场景中协助临床医生的潜力。研究还发现,将各种模态与现有LLMs整合对于更好地理解复杂的临床背景至关重要,因为这些背景本质上是多方面的。尽管研究已经展示了多模态LLMs在组织病理学中从给定图像回答问题的能力,但由于公共数据集中信息有限的片段级数据,它们在全面理解临床背景方面仍显不足。因此,开发WSI级别的MLLMs对于MLLMs在组织病理学中的可扩展性和适用性具有重要意义。在本研究中,我们引入了一种使用WSIs的专家级MLLM用于组织病理学,称为ChatEXAONEPath。我们展示了一种基于检索的数据生成流程,使用来自癌症基因组图谱(TCGA)的10,094对WSIs和组织病理学报告。我们还展示了一种基于AI的评估协议,用于全面理解给定多模态信息中的医学背景,并评估生成的答案与原始组织病理学报告的比较。我们展示了使用ChatEXAONEPath诊断给定组织病理学图像的能力,在1,134对WSIs和报告中接受率为62.9%。我们提出的模型能够理解各种癌症类型的全癌WSIs和临床背景。我们认为,我们提出的模型通过整合多种模态,具有通过全面理解WSIs的复杂形态来协助临床医生进行癌症诊断的潜力。

[80] 基于方面的摘要生成:通过自我方面检索增强生成
标题: Aspect-Based Summarization with Self-Aspect Retrieval Enhanced Generation
作者: Yichao Feng / Shuai Zhao / Yueqiu Li / Luwei Xiao / Xiaobao Wu / Anh Tuan Luu
原文:   [英文]   [中文]  
备注: None
摘要:
基于方面的摘要生成旨在生成针对特定方面量身定制的摘要,以解决传统摘要方法的资源限制和有限的普适性问题。最近,大型语言模型在无需训练的情况下在这一任务中表现出潜力。然而,它们过度依赖提示工程,并面临着令牌限制和幻觉挑战,尤其是在上下文学习中。为了解决这些挑战,本文提出了一种新颖的基于方面的摘要生成框架:自我方面检索增强的摘要生成。与其仅依赖于上下文学习,我们在给定一个方面的情况下,采用一种基于嵌入的检索机制来识别其相关的文本片段。这种方法提取相关内容,同时避免不必要的细节,从而缓解令牌限制的问题。此外,我们的框架通过删除与文本无关的部分来优化令牌的使用,并确保模型严格基于给定的方面生成输出。通过在基准数据集上的广泛实验,我们证明了我们的框架不仅实现了卓越的性能,还有效缓解了令牌限制问题。

[81] 准确性不等于一致性:碰撞叙述分类模型的专家对齐评估
标题: Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models
作者: Sudesh Ramesh Bhagat / Ibne Farabi Shihab / Anuj Sharma
原文:   [英文]   [中文]  
备注: None
摘要:
本研究探讨了深度学习(DL)模型准确性与专家一致性在事故叙述分类中的关系。我们评估了五种DL模型——包括BERT变体、通用句子编码器(USE)和零样本分类器——与专家标注数据和叙述文本的表现。分析进一步扩展到四个大型语言模型(LLMs):GPT-4、LLaMA 3、Qwen和Claude。我们的结果揭示了一个反直觉的趋势:技术准确性较高的模型往往与领域专家的一致性较低,而LLMs尽管准确性得分相对较低,却表现出更高的专家一致性。为了量化和解释模型与专家的一致性,我们采用了Cohen's Kappa、主成分分析(PCA)和基于SHAP的可解释性技术。研究结果表明,与专家一致的模型更倾向于依赖上下文和时间语言线索,而不是特定位置的关键词。这些结果强调,仅凭准确性不足以评估安全关键的自然语言处理应用中的模型。我们倡导在模型评估框架中加入专家一致性作为补充指标,并强调LLMs作为可解释、可扩展的事故分析工具的潜力。

[82] 带有冲突证据的检索增强生成
标题: Retrieval-Augmented Generation with Conflicting Evidence
作者: Han Wang / Archiki Prasad / Elias Stengel-Eskin / Mohit Bansal
原文:   [英文]   [中文]  
备注: Our data and code is available at: this https URL
摘要:
大型语言模型(LLM)代理越来越多地采用检索增强生成(RAG)来提高其响应的真实性。然而,在实际应用中,这些系统往往需要处理用户查询中的歧义和来自多个来源的潜在冲突信息,同时还要抑制来自噪声或不相关文档的不准确信息。以往的研究通常是孤立地研究和解决这些挑战,每次只考虑一个方面,例如处理歧义或对噪声和错误信息的鲁棒性。我们则同时考虑多个因素,提出了(i) RAMDocs(文档中的歧义和错误信息检索),这是一个新的数据集,模拟了用户查询中冲突证据的复杂和现实场景,包括歧义、错误信息和噪声;以及(ii) MADAM-RAG,这是一种多代理方法,其中LLM代理在多个回合中就答案的优劣进行辩论,使得聚合器能够整理与消歧实体相对应的响应,同时丢弃错误信息和噪声,从而共同处理多种冲突来源。我们在AmbigDocs上展示了MADAM-RAG的有效性——该任务要求为歧义查询呈现所有有效答案——相较于强大的RAG基线提高了最多11.40%;在FaithEval上——该任务要求抑制错误信息——我们使用Llama3.3-70B-Instruct提高了最多15.80%(绝对值)。此外,我们发现RAMDocs对现有的RAG基线构成了挑战(Llama3.3-70B-Instruct仅获得32.60的精确匹配分数)。虽然MADAM-RAG开始解决这些冲突因素,但我们的分析表明,尤其是在增加支持证据和错误信息的不平衡程度时,仍然存在显著的差距。

[83] 大型语言模型遇上金融:为开放的FinLLM排行榜微调基础模型
标题: LLMs Meet Finance: Fine-Tuning Foundation Models for the Open FinLLM Leaderboard
作者: Varun Rao / Youran Sun / Mahendra Kumar / Tejas Mutneja / Agastya Mukherjee / Haizhao Yang
原文:   [英文]   [中文]  
备注: None
摘要:
本文研究了大型语言模型(LLMs)在金融任务中的应用。我们使用 Open FinLLM 排行榜作为基准,对基础模型进行了微调。在 Qwen2.5 和 Deepseek-R1 的基础上,我们采用了监督微调(SFT)、直接偏好优化(DPO)和强化学习(RL)等技术来增强其金融能力。微调后的模型在各种金融任务中表现出显著的性能提升。此外,我们还测量了金融领域的数据扩展规律。我们的工作展示了大型语言模型(LLMs)在金融应用中的潜力。

[84] 基于能量的奖励模型用于稳健的语言模型对齐
标题: Energy-Based Reward Models for Robust Language Model Alignment
作者: Anamika Lochab / Ruqi Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
奖励模型(RMs)对于使大型语言模型(LLMs)与人类偏好保持一致至关重要。然而,它们通常难以捕捉复杂的人类偏好并推广到未见过的数据。为了解决这些挑战,我们引入了基于能量的奖励模型(EBRM),这是一种轻量级的事后优化框架,旨在增强RM的鲁棒性和泛化能力。EBRM通过显式建模奖励分布,捕捉人类偏好的不确定性,并减轻噪声或不一致标注的影响。它通过冲突感知的数据过滤、标签噪声感知的对比训练和混合初始化来实现这一目标。值得注意的是,EBRM无需重新训练即可增强RMs,使其在计算上更高效,并能够适应不同的模型和任务。在RM基准上的实证评估显示,在鲁棒性和泛化能力方面有显著提升,在安全关键的对齐任务中相比标准RMs实现了高达5.97%的改进。此外,强化学习实验证实我们优化的奖励提高了对齐质量,有效延迟了奖励作弊。这些结果表明我们的方法是现有RMs和对齐流程的可扩展且有效的增强。代码可在EBRM获取。

[85] 通过序列蒙特卡洛对大型语言模型进行句法和语义控制
标题: Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo
作者: João Loula / Benjamin LeBrun / Li Du / Ben Lipkin / Clemente Pasti / Gabriel Grand / Tianyu Liu / Yahya Emara / Marjorie Freedman / Jason Eisner / Ryan Cotterel / Vikash Mansinghka / Alexander K. Lew / Tim Vieira / Timothy J. O'Donnell
原文:   [英文]   [中文]  
备注: 34 pages, 4 figures
摘要:
广泛的语言模型应用需要生成符合句法或语义约束的文本。施加这些约束可以自然地被框定为概率条件,但从结果分布中进行精确生成——这可能与语言模型的基础分布有很大不同——通常是不可行的。在这项工作中,我们开发了一种基于序列蒙特卡罗(SMC)的受控语言模型生成架构。我们的SMC框架允许我们在推理时灵活地结合领域和问题特定的约束,并在生成过程中根据新信息有效地重新分配计算资源。通过在四个具有挑战性的领域——数据科学的Python代码生成、文本到SQL、目标推断和分子合成——与多种替代方法和消融实验进行比较,我们证明了在几乎没有额外开销的情况下,我们的方法使得小型开源语言模型能够超越大8倍以上的模型,以及封闭源、经过微调的模型。支持概率视角,我们展示了这些性能改进是由更好地逼近后验分布驱动的。我们的系统建立在Lew等人(2023)的框架之上,并与其语言模型概率编程语言集成,为用户提供了一种简单、可编程的方式来将SMC应用于各种受控生成问题。

[86] CLIMB:基于聚类的迭代数据混合自举用于语言模型预训练
标题: CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training
作者: Shizhe Diao / Yu Yang / Yonggan Fu / Xin Dong / Dan Su / Markus Kliegl / Zijia Chen / Peter Belcak / Yoshi Suhara / Hongxu Yin / Mostofa Patwary / Yingyan / Jan Kautz / Pavlo Molchanov
原文:   [英文]   [中文]  
备注: 20 pages, 9 figures
摘要:
预训练数据集通常从网络内容中收集,缺乏固有的领域划分。例如,广泛使用的数据集如Common Crawl并不包含显式的领域标签,而手动整理带标签的数据集如The Pile则需要大量劳动。因此,尽管优化预训练数据组合对预训练性能有显著益处,但识别最佳预训练数据组合仍然是一个具有挑战性的问题。为了解决这些挑战,我们提出了基于聚类的迭代数据混合自举(CLIMB),这是一种自动化框架,用于在预训练环境中发现、评估和优化数据组合。具体来说,CLIMB在语义空间中嵌入并聚类大规模数据集,然后使用较小的代理模型和预测器迭代搜索最佳组合。当在4000亿个标记上持续训练时,我们的1B模型比最先进的Llama-3.2-1B高出2.0%。此外,我们观察到针对特定领域(例如社会科学)进行优化比随机采样提高了5%。最后,我们介绍了ClimbLab,一个经过过滤的1.2万亿标记语料库,包含20个集群,作为研究的试验场,以及ClimbMix,一个紧凑而强大的4000亿标记数据集,旨在以相同的标记预算下实现高效预训练并提供卓越性能。我们分析了最终的数据组合,阐明了最佳数据组合的特征。我们的数据可在此URL获取:this https URL