![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年2月28日更新论文66篇
|
[1] 认知网络突显人类和大型语言模型模拟的学员、专家和学者在STEM思维模式上的差异与相似性 标题: Cognitive networks highlight differences and similarities in the STEM mindsets of human and LLM-simulated trainees, experts and academics 作者: Edith Haim / Lars van den Bergh / Cynthia S. Q. Siew / Yoed N. Kenett / Daniele Marinazzo / Massimo Stella 原文: [英文] 备注: Keywords: cognitive network science; mindset measurement; associative knowledge; artificial intelligence; simulated participants 摘要: 理解对 STEM 的态度意味着量化个体(以及潜在的大型语言模型)在认知和情感上对这些学科的概念化方式。本研究使用行为心智网络(BFMNs)来调查 177 名人类参与者和由 GPT-3.5 模拟的 177 名人工人类的 STEM 关注心态,即关联和感知想法的方式。参与者被分为三组——学员、专家和学者——以比较专业水平对其心态的影响。结果显示,人类的心智网络表现出显著更高的聚类系数,表明人类心态在回忆 STEM 想法时倾向于形成和闭合概念关联的三元组。特别是,人类专家展示了强大的聚类系数,反映出更好地将 STEM 概念整合到他们的认知网络中。相比之下,GPT-3.5 产生的心态则较为稀疏。此外,人类和 GPT 的心态都以中性或积极的术语来框架数学,这与其他研究中采样的 STEM 高中生、研究人员和其他大型语言模型不同。这项研究有助于理解心态结构如何提供关于记忆结构和机器局限性的认知见解。 |
[2] 小模型的大胜利:知识蒸馏与自我训练在减少问答代理幻觉中的对比 标题: Winning Big with Small Models: Knowledge Distillation vs. Self-Training for Reducing Hallucination in QA Agents 作者: Ashley Lewis / Michael White / Jing Liu / Toshiaki Koike-Akino / Kieran Parsons / Ye Wang 原文: [英文] [中文] 备注: None 摘要: 在客户支持中部署大型语言模型(LLMs)受到生成幻觉的错误信息和专有模型高成本的限制。为了解决这些挑战,我们提出了一种检索增强的问答(QA)流程,并探索如何平衡人工输入和自动化。使用关于三星智能电视用户手册的问题数据集,我们证明由LLMs生成的合成数据在减少微调模型中的幻觉方面优于众包数据。我们还比较了自我训练(在模型自身输出上进行微调)和知识蒸馏(在更强模型的输出上进行微调,例如GPT-4o),发现自我训练在减少幻觉方面达到了可比的效果。我们推测,这一令人惊讶的发现可以归因于知识蒸馏情况下增加的曝光偏差问题,并通过事后分析支持这一推测。我们还通过情境化的“我不知道”响应提高了对无法回答的问题和检索失败的鲁棒性。这些发现表明,可以使用合成数据和开源模型的自我训练构建可扩展、成本高效的QA系统,从而减少对专有工具或昂贵人工标注的依赖。 |
[3] 当大型语言模型遇上语音:集成方法综述 标题: When Large Language Models Meet Speech: A Survey on Integration Approaches 作者: Zhengdong Yang / Shuichiro Shimizu / Yahan Yu / Chenhui Chu 原文: [英文] [中文] 备注: None 摘要: 近年来,大型语言模型(LLMs)的进步激发了人们对将其应用扩展到超越文本任务的兴趣。大量研究探索了将其他模态与LLMs集成,特别是与文本自然相关的语音模态。本文综述了语音与LLMs的集成,将方法分为三种主要途径:基于文本的集成、基于潜在表示的集成和基于音频标记的集成。我们还展示了这些方法如何应用于各种语音相关的应用,并强调了该领域的挑战,以提供灵感。 |
[4] 不仅提炼数据,还要提炼奖励:较小的语言模型能否超越较大的模型? 标题: Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? 作者: Yudi Zhang / Lu Wang / Meng Fang / Yali Du / Chenghua Huang / Jun Wang / Qingwei Lin / Mykola Pechenizkiy / Dongmei Zhang / Saravan Rajmohan / Qi Zhang 原文: [英文] [中文] 备注: 14 pages, 7 figures 摘要: 蒸馏大型语言模型(LLMs)通常涉及通过监督微调(SFT)传递教师模型的响应。然而,这种方法忽视了蒸馏数据(输出内容)和奖励信号(质量评估)的潜力。直接从教师模型中提取可靠的奖励信号具有挑战性,因为LLMs被优化用于生成而非评估,常常导致偏颇或不一致的评估。为了解决这一限制,我们提出了一种新颖的蒸馏流程,能够传递响应和奖励。我们的方法通过一种自监督机制生成伪奖励,该机制利用教师和学生响应的内在结构,实现无需显式外部评估的奖励学习。随后,奖励模型指导强化学习(RL),允许在SFT预热阶段后对学生模型进行迭代优化。在GSM8K和MMLU-PRO上的实验表明,我们的方法始终优于传统的基于SFT的方法,使学生模型能够超越其教师的表现。这项工作突出了通过结构化自监督奖励学习实现可扩展、高效蒸馏的潜力,减少对外部奖励监督的依赖。 |
[5] 保持专注:多智能体辩论中的问题漂移 标题: Stay Focused: Problem Drift in Multi-Agent Debate 作者: Jonas Becker / Lars Benedikt Kaesberg / Andreas Stephan / Jan Philip Wahle / Terry Ruas / Bela Gipp 原文: [英文] [中文] 备注: 34 pages, 21 figures, 4 tables, under review 摘要: 多智能体辩论——多个大型语言模型在回合制互动中讨论问题——在解决知识和推理任务方面显示出潜力。然而,这些方法在扩展到更长的推理链时表现出局限性。在本研究中,我们揭示了多智能体辩论的一个新问题:讨论在多轮对话中偏离了最初的问题。我们将这种现象定义为问题漂移,并在十个任务(即三个生成任务、三个知识任务、三个推理任务和一个指令遵循任务)中量化其存在。为了找出这一问题的原因,我们对遭受问题漂移的讨论进行了八位专家的人类研究,发现最常见的问题是缺乏进展(占案例的35%)、低质量反馈(占案例的26%)和缺乏清晰度(占案例的25%)。为了系统地解决问题漂移的问题,我们提出了DRIFTJudge,这是一种基于LLM-as-a-judge的方法,用于在测试时检测问题漂移。我们进一步提出了DRIFTPolicy,一种可以减轻31%问题漂移案例的方法。我们的研究可以被视为理解多智能体辩论关键局限性的第一步,强调了未来提高其有效性的途径。 |
[6] 大型语言模型知道它们了解多少吗? 标题: Do Large Language Models Know How Much They Know? 作者: Gabriele Prato / Jerry Huang / Prasannna Parthasarathi / Shagun Sodhani / Sarath Chandar 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)作为功能强大的系统已经出现,并越来越多地被整合到各种应用中。然而,它们的快速部署速度超过了对其内部机制的全面理解以及对其能力和局限性的界定。一个智能系统的理想属性是其能够识别自身知识的范围。为了研究LLMs是否具备这一特性,我们开发了一个基准,旨在挑战这些模型列举它们在特定主题上所拥有的所有信息。这个基准评估模型是否回忆过多、过少或恰当数量的信息,从而表明它们对自身知识的认知。我们的研究结果显示,所有经过测试的LLMs,只要规模足够大,都会表现出对特定主题了解程度的认知。尽管不同的架构在这种能力的显现速度上有所不同,结果表明知识认知可能是LLMs的一种可推广属性。需要进一步的研究来确认这一潜力并全面阐明其潜在机制。 |
[7] 我们在哪里?评估大型语言模型在非洲语言上的表现 标题: Where Are We? Evaluating LLM Performance on African Languages 作者: Ife Adebara / Hawau Olamide Toyin / Nahom Tesfu Ghebremichael / AbdelRahim Elmadany / Muhammad Abdul-Mageed 原文: [英文] [中文] 备注: None 摘要: 非洲丰富的语言遗产在自然语言处理领域中仍然代表性不足,这主要是由于历史政策偏向外语,导致数据不平等。在本文中,我们结合了对非洲语言环境的理论见解,并通过Sahara进行实证评估。Sahara是一个全面的基准,来自大规模、公开可访问的数据集,捕捉了非洲大陆的语言多样性。通过系统地评估领先的大型语言模型(LLMs)在Sahara上的表现,我们展示了政策引起的数据差异如何直接影响模型在非洲语言中的有效性。我们的研究结果表明,尽管少数语言表现良好,但由于数据稀缺,许多本土语言仍然被边缘化。利用这些见解,我们提供了可操作的建议,以进行政策改革和包容性的数据实践。总体而言,我们的工作强调了结合理论理解与实证评估的双重方法,以促进非洲社区人工智能中的语言多样性的重要性。 |
[8] NeoBERT:新一代BERT 标题: NeoBERT: A Next-Generation BERT 作者: Lola Le Breton / Quentin Fournier / Mariam El Mezouar / Sarath Chandar 原文: [英文] [中文] 备注: 19 pages, 5 figures, 9 tables. Submitted to TMLR 摘要: 最近在架构、预训练和微调方面的创新使得大型自回归语言模型(如LLaMA和DeepSeek)在上下文学习和推理能力上取得了显著进展。相比之下,尽管BERT和RoBERTa等编码器是许多下游NLP应用的基础,但它们并没有取得同样程度的进步。为弥合这一差距,我们引入了NeoBERT,这是一种下一代编码器,通过整合架构的最新进展、现代数据和优化的预训练方法,重新定义了双向模型的能力。NeoBERT旨在实现无缝采用:它可以作为现有基础模型的即插即用替代品,依赖于最佳的深度与宽度比,并利用了4,096个标记的扩展上下文长度。尽管其参数量仅为250M,但在大规模MTEB基准测试中,它在相同的微调条件下超越了BERT large、RoBERTa large、NomicBERT和ModernBERT,达到了最先进的结果。此外,我们严格评估了每项修改对GLUE的影响,并为MTEB设计了统一的微调和评估框架。我们发布了所有代码、数据、检查点和训练脚本,以加速研究和实际应用。 |
[9] 数百万人的城市:大规模绘制文学社交网络 标题: A City of Millions: Mapping Literary Social Networks At Scale 作者: Sil Hamilton / Rebecca M. M. Hicke / David Mimno / Matthew Wilkens 原文: [英文] [中文] 备注: None 摘要: 我们发布了从多语言小说和非小说叙述中提取的70,509个高质量社交网络。此外,我们还提供了约30,000篇这些文本的元数据(其中73%为非小说,27%为小说),这些文本创作于1800年至1999年之间,涵盖58种语言。该数据集以前所未有的规模提供了关于历史社会世界的信息,包括1,192,855个个体在2,805,482对关系中的亲和力和关系类型的注释数据。我们通过自动化先前手动的社交网络提取方法实现了这一规模;具体来说,我们将现有的注释任务改编为语言模型提示,通过使用结构化输出确保大规模的一致性。该数据集为人文学科和社会科学提供了前所未有的资源,提供了关于社会现实认知模型的数据。 |
[10] 在大型语言模型时代重新审视词嵌入 标题: Revisiting Word Embeddings in the LLM Era 作者: Yash Mahajan / Matthew Freestone / Sathyanarayanan Aakur / Santu Karmaker 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)最近在各种自然语言处理任务中表现出显著的进步。因此,最近出现了一种流行趋势,即自然语言处理研究人员从这些仅解码的大型模型中提取词/句子/文档嵌入,并将其用于各种推理任务,取得了可喜的成果。然而,目前尚不清楚LLM诱导的嵌入性能提升是否仅仅是因为规模的原因,还是它们所产生的底层嵌入与经典编码模型(如Word2Vec、GloVe、Sentence-BERT(SBERT)或Universal Sentence Encoder(USE))显著不同。这是我们在论文中研究的核心问题,我们通过系统地比较经典的去上下文化和上下文化的词嵌入与LLM诱导的嵌入来进行研究。我们的结果表明,在去上下文化的环境中,LLMs能够更紧密地聚集语义相关的词,并在类比任务中表现更好。然而,在上下文化的环境中,经典模型如SimCSE在句子级相似性评估任务中往往优于LLMs,这突显了它们在细粒度语义中的持续相关性。 |
[11] 利用大型语言模型和地理情境化评估仇恨言论检测 标题: Evaluation of Hate Speech Detection Using Large Language Models and Geographical Contextualization 作者: Anwar Hossain Zahid / Monoshi Kumar Roy / Swarna Das 原文: [英文] [中文] 备注: 6 pages, 2 figures 摘要: 社交媒体上仇恨言论的泛滥是对社会产生巨大影响的严重问题之一:暴力升级、歧视和社会分裂。由于文化、语言和语境的复杂性以及对抗性操控,检测仇恨言论的问题本质上是多方面的。在这项研究中,我们系统地调查了大型语言模型(LLMs)在跨多语言数据集和不同地理背景下检测仇恨言论的表现。我们的工作提出了一个新的评估框架,涵盖三个维度:仇恨言论的二元分类、地理感知的语境检测以及对对抗性生成文本的鲁棒性。使用来自五个不同地区的1,000条评论的数据集,我们评估了三种最先进的LLMs:Llama2(13b)、Codellama(7b)和DeepSeekCoder(6.7b)。Codellama在二元分类召回率方面表现最佳,达到70.6%,F1分数为52.18%,而DeepSeekCoder在地理敏感性方面表现最佳,正确检测出265个位置中的63个。对抗性鲁棒性测试也显示出显著的弱点;Llama2错误分类了62.5%的操控样本。这些结果揭示了当前版本的LLMs在准确性、语境理解和鲁棒性之间的权衡。因此,这项工作通过强调关键优势和局限性,为开发具有语境感知能力的多语言仇恨言论检测系统奠定了基础,从而为未来的研究和实际应用提供了可操作的见解。 |
[12] 您的论文是否正在被大型语言模型审阅?用于在同行评审中检测AI文本的新基准数据集和方法 标题: Is Your Paper Being Reviewed by an LLM? A New Benchmark Dataset and Approach for Detecting AI Text in Peer Review 作者: Sungduk Yu / Man Luo / Avinash Madusu / Vasudev Lal / Phillip Howard 原文: [英文] [中文] 备注: None 摘要: 同行评审是确保已发表科学研究完整性的重要过程。对这一过程的信任基于这样一个假设:相关领域的专家会认真考虑提交出版的手稿的优点。随着大型语言模型(LLMs)的快速发展,同行评审过程面临一个新的风险,即疏忽的评审者可能依赖LLMs来完成通常耗时的论文评审过程。然而,目前缺乏用于评估AI文本在同行评审领域可检测性的资源。 为了解决这一不足,我们引入了一个综合数据集,其中包含总计788,984篇AI撰写的同行评审及其对应的人类评审,涵盖了8年来提交给两个领先的AI研究会议(ICLR和NeurIPS)的论文。我们利用这一新资源评估了18种现有AI文本检测算法区分人类撰写的同行评审和不同最先进LLMs撰写的评审的能力。受现有方法缺陷的启发,我们提出了一种新的检测方法,在识别AI撰写的同行评审方面超越了现有方法。我们的研究揭示了在个体同行评审层面识别AI生成文本的困难,强调了迫切需要新的工具和方法来检测这种不道德的生成式AI使用。 |
[13] 较弱的大型语言模型的意见也很重要:意见的混合增强了大型语言模型的数学推理能力 标题: Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning 作者: Yanan Chen / Ali Pesaranghader / Tanmana Sadhu 原文: [英文] [中文] 备注: 12 pages, 1 figure, 3 tables, 4 prompt/data templates 摘要: 最近在大型语言模型(LLMs)方面的进展引发了人们对其形式推理能力的兴趣,特别是在数学领域。虽然像GPT-4这样的封闭LLM在数学基准测试(例如GSM8K)上表现良好,但尚不清楚中小型开放LLM是否能达到类似的性能,这对其可靠性提出了质疑。为了解决这一差距,我们提出了一种后训练方法,利用来自较弱辅助LLM的多种观点(MoO)来增强(相对)较强LLM的推理能力。为此,每个后训练样本都通过链式思维(CoT)推理步骤和来自辅助LLM的答案进行增强,使主要LLM能够从多样化的视角中学习。我们将MoO与标准的监督微调(SFT)、少样本提示和代理混合(MoA)方法在数学推理基准上进行了比较。我们的结果表明,结合较弱LLM的观点可以将数学推理能力平均提高5%,这突显了多样化视角在推理任务中的价值。 |
[14] Med-RLVR:通过强化学习从一个30亿参数的基础模型中发展出的医学推理 标题: Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning 作者: Sheng Zhang / Qianchu Liu / Guanghui Qin / Tristan Naumann / Hoifung Poon 原文: [英文] [中文] 备注: None 摘要: 从可验证奖励中进行强化学习(RLVR)最近因其能够在没有显式推理监督的情况下,从基础语言模型中引发自我进化的推理能力而受到关注,正如DeepSeek-R1所展示的那样。尽管之前关于RLVR的研究主要集中在数学和编程领域,但其在其他任务和领域的适用性仍未被探索。在这项工作中,我们研究了RLVR是否可以在医学推理中出现。我们引入了Med-RLVR,作为在医学领域中RLVR的初步研究,利用医学多项选择题回答(MCQA)数据作为可验证的标签。我们的结果表明,RLVR不仅对数学和编程有效,而且在医学问答中也取得了成功。值得注意的是,Med-RLVR在分布内任务上的表现与传统的监督微调(SFT)相当,同时在分布外泛化上显著提高,准确率提高了8个百分点。对训练动态的进一步分析表明,在没有显式推理监督的情况下,推理能力从3B参数的基础模型中涌现。这些发现强调了RLVR在超越数学和编程领域的潜力,为其在医学等知识密集型领域的应用开辟了新的途径。 |
[15] 研究基于Transformer的大型语言模型中的神经元和注意力头对印刷错误的处理 标题: Investigating Neurons and Heads in Transformer-based LLMs for Typographical Errors 作者: Kohei Tsuji / Tatsuya Hiraoka / Yuchang Cheng / Eiji Aramaki / Tomoya Iwakura 原文: [英文] [中文] 备注: 14 pages, 10 figures, 6 tables 摘要: 本文研究了大型语言模型(LLMs)如何编码包含拼写错误的输入。我们假设特定的神经元和注意力头能够识别拼写错误,并利用局部和全局上下文在内部修正这些错误。我们引入了一种方法来识别在输入包含拼写错误时积极工作的拼写错误神经元和拼写错误头。我们的实验结果表明:1)当早期或晚期层的拼写错误神经元被激活时,即使其他层的神经元未被激活,LLMs也可以利用局部上下文修正拼写错误。2)中间层的拼写错误神经元负责利用全局上下文进行拼写错误修正的核心工作。3)拼写错误头通过广泛考虑上下文而不是专注于特定的标记来修正拼写错误。4)拼写错误神经元和拼写错误头不仅用于修正拼写错误,还用于理解一般上下文。 |
[16] GRACE:用于评估模型校准与人类校准的细粒度基准 标题: GRACE: A Granular Benchmark for Evaluating Model Calibration against Human Calibration 作者: Yoo Yeon Sung / Eve Fleisig / Yu Hou / Ishan Upadhyay / Jordan Lee Boyd-Graber 原文: [英文] 备注: None 摘要: 语言模型常常校准不佳,导致自信但错误的答案。我们引入了GRACE,这是一个用于语言模型校准的基准,包含与人类校准的比较。GRACE由问答对组成,其中每个问题包含一系列逐渐变得更简单的线索,所有线索都指向同一个答案;模型必须在揭示线索时尽早正确回答。这种设置允许基于模型回答的时间、准确性和自信度进行细致的校准测量。在收集这些问题后,我们举办了真人与模型的现场比赛,收集了1,749个关于人类和模型团队的时间、准确性和自信度的数据点。我们提出了一个指标,CalScore,利用GRACE分析模型校准错误,并识别出与人类行为不同的模型校准错误类型。我们发现,尽管人类的准确性不如模型,但人类通常校准得更好。由于最先进的模型在GRACE上表现不佳,它有效地评估了改进模型校准的进展。 |
[17] 感知与引导刻板印象:在大型语言模型中提取和应用性别表示向量 标题: Sensing and Steering Stereotypes: Extracting and Applying Gender Representation Vectors in LLMs 作者: Hannah Cyberey / Yangfeng Ji / David Evans 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)已知会延续刻板印象并表现出偏见。为减轻这些偏见可能带来的潜在危害,已经提出了多种策略,但大多数研究将LLMs中的偏见视为一个黑箱问题,而没有考虑概念在模型中的表示方式。我们借鉴了表示工程中的技术来研究“性别”概念在LLMs中的表示方式。我们引入了一种新方法,通过概率加权在没有标记数据的情况下提取概念表示,并有效选择一个引导向量来测量和操控模型的表示。我们还提出了一种基于投影的方法,使得能够精确引导模型的预测,并展示了其在减轻LLMs中的性别偏见方面的有效性。 |
[18] 从5个示例中进行小样本多语言开放域问答 标题: Few-Shot Multilingual Open-Domain QA from 5 Examples 作者: Fan Jiang / Tom Drummond / Trevor Cohn 原文: [英文] [中文] 备注: Accepted by TACL; pre-MIT Press publication version 摘要: 最近在多语言开放域问答(MLODQA)方面的方法在拥有丰富的特定语言训练数据的情况下取得了可喜的成果。然而,巨大的标注成本限制了这些方法在代表性不足的语言中的应用。我们引入了一种\emph{少样本学习}方法,从大型语言模型(LLMs)中合成大规模多语言数据。我们的方法首先使用WikiData进行大规模自监督预训练,然后通过使用少样本监督提示LLMs生成高质量的合成多语言数据进行训练。最终模型\textsc{FsModQA}在MLODQA以及跨语言和单语言检索中显著优于现有的少样本和监督基线。我们进一步展示了我们的方法可以通过\emph{跨语言提示}策略扩展到对新语言的有效零样本适应,仅需英语监督数据,使其成为无需昂贵的大规模标注的MLODQA任务的通用且适用的解决方案。 |
[19] CNsum:中文新闻文本的自动摘要 标题: CNsum:Automatic Summarization for Chinese News Text 作者: Yu Zhao / Songping Huang / Dongsheng Zhou / Zhaoyun Ding / Fei Wang / Aixin Nian 原文: [英文] [中文] 备注: WASA 2022 摘要: 在大数据时代,高效地从海量数据中获取有价值的信息已成为我们的研究目标。文本摘要技术不断发展以满足这一需求。最近的研究也表明,基于Transformer的预训练语言模型在自然语言处理(NLP)的各种任务中取得了巨大成功。针对中文新闻文本摘要生成的问题以及Transformer结构在中文上的应用,本文提出了一种基于Transformer结构的中文新闻文本摘要模型(CNsum),并在THUCNews等中文数据集上进行了测试。实验结果表明,CNsum在ROUGE评分上优于基线模型,这验证了该模型的优越性。 |
[20] 偏好学习解锁大型语言模型的心理咨询技能 标题: Preference Learning Unlocks LLMs' Psycho-Counseling Skills 作者: Mian Zhang / Shaun M. Eack / Zhiyu Zoey Chen 原文: [英文] [中文] 备注: 10 pages, 6 figures 摘要: 将大型语言模型(LLMs)应用于心理咨询辅助是一种新兴且有意义的方法,这一方法的推动力在于患者需求与心理健康支持可用性之间的显著差距。然而,目前的LLMs在持续提供有效的客户对话回应方面存在困难,这主要是由于缺乏高质量真实心理咨询数据的监督,而这些数据的内容通常由于客户隐私问题而无法获取。此外,现有会话中治疗师回应的质量可能会因其专业培训和经验的不同而显著变化。评估治疗师回应的质量仍然是一个未解决的挑战。在这项工作中,我们首先提出了一套专业且全面的原则来评估治疗师对客户对话的回应。利用这些原则,我们创建了一个偏好数据集,PsychoCounsel-Preference,其中包含36,000个高质量的偏好比较对。该数据集与专业心理治疗师的偏好一致,为评估和改进LLMs在心理咨询中的应用提供了坚实的基础。在奖励建模和偏好学习的实验中,PsychoCounsel-Preference被证明是LLMs获取在咨询会话中回应客户所需基本技能的优秀资源。我们最优的对齐模型,PsychoCounsel-Llama3-8B,在与GPT-4o的对比中取得了87%的胜率。我们发布了PsychoCounsel-Preference、PsychoCounsel-Llama3-8B以及奖励模型PsychoCounsel Llama3-8B-Reward,以促进LLMs在心理咨询研究中的应用,网址为:this https URL。 |
[21] 推测解码及其扩展:技术的深入综述 标题: Speculative Decoding and Beyond: An In-Depth Review of Techniques 作者: Yunhai Hu / Zining Liu / Zhenyuan Dong / Tianfan Peng / Bradley McDanel / Sai Qian Zhang 原文: [英文] [中文] 备注: None 摘要: 顺序依赖性在部署大规模自回归模型时构成了一个基本瓶颈,特别是在实时应用中。虽然传统的优化方法如剪枝和量化常常会影响模型质量,但最近在生成-优化框架方面的进展表明,这种权衡可以显著缓解。 本综述提供了一个关于生成-优化框架的全面分类法,分析了自回归序列任务中的各种方法。我们根据生成策略(从简单的n-gram预测到复杂的草稿模型)和优化机制(包括单次验证和迭代方法)对方法进行分类。通过对算法创新和系统级实现的系统分析,我们考察了在不同计算环境中的部署策略,并探索了涵盖文本、图像和语音生成的应用。这种对理论框架和实际实现的系统性研究为未来高效自回归解码的研究奠定了基础。 |
[22] R1-T1:通过推理学习全面激励大型语言模型的翻译能力 标题: R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning 作者: Minggui He / Yilun Liu / Shimin Tao / Yuanchang Luo / Hongyong Zeng / Chang Su / Li Zhang / Hongxia Ma / Daimeng Wei / Weibin Meng / Hao Yang / Boxing Chen / Osamu Yoshie 原文: [英文] [中文] 备注: None 摘要: 尽管在增强推理的大型语言模型(LLMs)方面取得了突破,如DeepSeek-R1,但在机器翻译(MT)中结合推理时间的推理仍未得到充分探索,而人类翻译者自然会使用结构化的、多层次的推理思维链(CoTs)。现有的方法要么为特定的MT子任务(例如文学翻译)设计一个固定的CoT,要么依赖于与人类不一致的CoT合成和容易导致灾难性遗忘的监督微调(SFT),这限制了它们在不同翻译场景中的适应性。本文介绍了R1-Translator(R1-T1),这是一个通过强化学习(RL)与人类一致的CoTs实现通用MT推理时间推理的新框架,包含六种常见模式。我们的方法开创了三项创新:(1)将基于推理的翻译扩展到六种语言和多样化任务(例如法律/医学领域适应、习语解决);(2)形式化六种专家策划的CoT模板,这些模板反映了混合人类策略,如上下文感知的释义和回译;(3)通过具有KL约束奖励的RL实现自我进化的CoT发现和抗遗忘适应。实验结果表明,在Flores-101测试集的21种语言和80个翻译方向上,尤其是在训练中未见的15种语言上,翻译性能稳步提高,同时与普通SFT相比,其通用多语言能力得以保留。 |
[23] XCOMPS:多语言概念最小对立集基准 标题: XCOMPS: A Multilingual Benchmark of Conceptual Minimal Pairs 作者: Linyang He / Ercong Nie / Sukru Samet Dindar / Arsalan Firoozi / Adrian Florea / Van Nguyen / Corentin Puffay / Riki Shimizu / Haotian Ye / Jonathan Brennan / Helmut Schmid / Hinrich Schütze / Nima Mesgarani 原文: [英文] [中文] 备注: None 摘要: 在这项工作中,我们引入了XCOMPS,这是一个涵盖17种语言的多语言概念最小对比数据集。利用该数据集,我们通过元语言提示、直接概率测量和神经语言探测来评估大型语言模型(LLMs)的多语言概念理解。通过比较基础模型、指令微调模型和知识蒸馏模型,我们发现:1)对于资源较少的语言,LLMs表现出较弱的概念理解能力,尽管在相同的概念集上进行测试,但不同语言的准确性有所不同。2)LLMs在区分明显不同的概念-属性对时表现出色,但当负对共享细微语义相似性时,性能显著下降。3)指令微调提高了概念理解的表现,但并未增强内部能力;知识蒸馏可以在概念理解的内部能力上有所提升,尤其是对于资源较少的语言,但在显性任务表现上的提升有限。4)形态结构更复杂的语言在概念理解得分上较低,并且需要更深层次的概念推理。 |
[24] HaLoRA:基于混合存储计算架构的大型语言模型的硬件感知低秩适应 标题: HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture 作者: Taiqiang Wu / Chenchen Ding / Wenyong Zhou / Yuxin Cheng / Xincheng Feng / Shuqi Wang / Chufan Shi / Zhengwu Liu / Ngai Wong 原文: [英文] 备注: 7 pages 摘要: 低秩适应(LoRA)是一种主要的参数高效微调方法,用于调整大型语言模型(LLMs)以适应下游任务。在本文中,我们首先提出在混合存算一体(CIM)架构上部署经过LoRA微调的大型语言模型(即,将预训练权重放置在RRAM上,而将LoRA放置在SRAM上)。为了解决RRAM固有噪声导致的性能下降问题,我们设计了一种新颖的硬件感知低秩适应(HaLoRA)方法,旨在通过在理想和噪声条件下对齐训练目标,训练出既稳健又准确的LoRA分支。对LLaMA 3.2 1B和3B进行微调的实验表明,HaLoRA在多项推理任务中表现出色,在保持不同噪声水平下的稳健性的同时,平均得分提高了最多22.7。 |
[25] 表面之下:大型语言模型如何反映隐藏的偏见 标题: Beneath the Surface: How Large Language Models Reflect Hidden Bias 作者: Jinhao Pan / Chahat Raj / Ziyu Yao / Ziwei Zhu 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的卓越性能往往伴随着其训练数据中嵌入的社会偏见的无意传播。虽然现有的基准通过偏见概念术语和人口统计术语之间的直接关联来评估明显的偏见,但LLMs已经变得越来越擅长于避免偏见的回应,从而创造了一种中立的假象。然而,偏见仍然以更微妙、上下文隐藏的形式存在,这是传统基准未能捕捉到的。我们引入了隐藏偏见基准(HBB),这是一种新颖的数据集,旨在评估隐藏的偏见,其中偏见概念隐藏在现实世界场景中自然、微妙的框架内。我们分析了六种最先进的LLMs,揭示了尽管模型在应对明显偏见时减少了偏见,但它们在细微的环境中仍继续强化偏见。数据、代码和结果可在此https URL获取。 |
[26] PolyPrompt:通过动态提示生成从多语言模型中自动提取知识 标题: PolyPrompt: Automating Knowledge Extraction from Multilingual Language Models with Dynamic Prompt Generation 作者: Nathan Roll 原文: [英文] [中文] 备注: 6 pages, 2 figures 摘要: 大型语言模型(LLMs)在英语基准测试中表现出越来越令人印象深刻的成绩,然而在多语言环境中的表现仍然不一致。为了解决这一问题,我们引入了PolyPrompt,这是一种新颖且参数高效的框架,用于增强LLMs的多语言能力。我们的方法通过基于梯度的搜索为每种语言学习一组触发词,识别输入查询的语言并选择相应的触发词,这些触发词在推理过程中被添加到提示之前。我们在两个约10亿参数的模型上进行了实验,并在全球MMLU基准测试中对十五种类型和资源多样的语言进行了评估,结果显示与简单和翻译管道基线相比,准确率提高了3.7%-19.9%。 |
[27] EdiText: 使用扩散语言模型进行可控的粗到细文本编辑 标题: EdiText: Controllable Coarse-to-Fine Text Editing with Diffusion Language Models 作者: Che Hyun Lee / Heeseung Kim / Jiheum Yeom / Sungroh Yoon 原文: [英文] [中文] 备注: None 摘要: 我们提出了EdiText,这是一种可控的文本编辑方法,可以在不同的尺度上将参考文本修改为期望的属性。我们整合了一种基于SDEdit的编辑技术,允许对文本编辑的程度进行广泛的调整。此外,我们引入了一种基于自我调节的新颖细粒度编辑方法,能够对参考文本进行细微的控制。虽然这种细粒度方法本身就具备编辑能力,但与SDEdit方法结合后,使EdiText能够在期望的范围内进行精确调整。EdiText展示了其在各种任务中稳健调整参考文本的可控性,包括毒性控制和情感控制。 |
[28] 自然语言处理在自动文本摘要中的进展 标题: Advancements in Natural Language Processing for Automatic Text Summarization 作者: Nevidu Jayatilleke / Ruvan Weerasinghe / Nipuna Senanayake 原文: [英文] 备注: 11 pages, 9 figures, ICCS 2024 摘要: 各个领域和平台的文本内容的显著增长导致对自动文本摘要(ATS)技术的需求大幅增加,这些技术有助于文本分析过程。由于自然语言处理(NLP)和深度学习(DL)的进步,文本摘要模型在各种技术领域的有效性得到了显著提升。尽管如此,由于各种文本的复杂写作风格涉及一系列技术复杂性,文本信息的摘要过程仍然受到显著限制。文本摘要技术可以大致分为两大类:抽象摘要和提取摘要。提取摘要涉及直接从内容中提取句子、短语或文本片段,而不进行任何更改。另一方面,抽象摘要是通过使用语言分析重构原始文本中的句子、短语或片段来实现的。通过这项研究,以建设性的方式解决了文本摘要方法的语言多样性分类。在本文中,作者探讨了现有的结合了提取和抽象方法的混合技术。此外,还研究了文献中讨论的各种方法的优缺点。此外,作者对不同技术和矩阵进行了比较分析,以使用语言生成模型评估生成的摘要。本次调查旨在通过对多样化系统和架构的分解,结合其操作的技术和数学解释,提供关于ATS的全面概述,展示语言处理在这一任务中的进展。 |
[29] 检索增强型语言模型是否适应不同的用户需求? 标题: Do Retrieval-Augmented Language Models Adapt to Varying User Needs? 作者: Peilin Wu / Xinlu Zhang / Wenhao Yu / Xingyu Liu / Xinya Du / Zhiyu Zoey Chen 原文: [英文] [中文] 备注: None 摘要: 最近在检索增强语言模型(RALMs)方面的进展展示了其在知识密集型任务中的有效性。然而,现有的评估基准通常假设利用检索信息的单一最佳方法,未能考虑到不同用户需求的变化。本文引入了一个新颖的评估框架,系统地评估了在三种用户需求情况下(上下文排他、上下文优先和记忆优先)以及三种不同的上下文设置(上下文匹配、知识冲突和信息无关)下的RALMs。通过改变用户指令和检索信息的性质,我们的方法捕捉了现实应用中的复杂性,在这些应用中,模型必须适应多样化的用户需求。通过在多个问答数据集(包括HotpotQA、DisentQA以及我们新构建的合成URAQ数据集)上的广泛实验,我们发现限制记忆使用在对抗性检索条件下提高了鲁棒性,但在理想检索结果下降低了峰值性能,并且模型家族主导了行为差异。我们的研究结果强调了在开发检索增强系统时进行以用户为中心的评估的必要性,并提供了在不同检索上下文中优化模型性能的见解。我们将在论文被接受后发布我们的代码和URAQ数据集。 |
[30] NaijaNLP:尼日利亚低资源语言调查 标题: NaijaNLP: A Survey of Nigerian Low-Resource Languages 作者: Isa Inuwa-Dutse 原文: [英文] [中文] 备注: 35 pages, 2 figures, 4 tables 摘要: 尼日利亚有超过500种语言,其中三种语言——豪萨语、约鲁巴语和伊博语——由超过1.75亿人使用,占口语语言的约60%。然而,由于缺乏足够的资源来支持计算语言学任务,这些语言被归类为低资源语言。尽管已经有若干研究努力和倡议,但对自然语言处理(NLP)状态的连贯理解仍然缺乏——从语法形式化到支持复杂任务(如语言理解和生成)的语言资源。本研究首次全面回顾了在三大尼日利亚语言(NaijaNLP)中的低资源自然语言处理(LR-NLP)研究的进展。我们定量评估了现有的语言资源并识别了关键挑战。尽管越来越多的文献涉及豪萨语、伊博语和约鲁巴语的各种NLP下游任务,但只有约25.1%的研究贡献了新的语言资源。此发现突显了对重新利用现有数据的持续依赖,而非生成新的高质量资源。此外,语言特定的挑战,如准确表示变音符号,仍未得到充分探索。为了推进NaijaNLP和更广泛的LR-NLP,我们强调需要在资源丰富、全面注释和开发开放协作倡议方面加大努力。 |
[31] 脚在门里:一种针对大型语言模型的多轮越狱方法 标题: Foot-In-The-Door: A Multi-turn Jailbreak for LLMs 作者: Zixuan Weng / Xiaolong Jin / Jinyuan Jia / Xiangyu Zhang 原文: [英文] [中文] 备注: 19 pages, 8 figures 摘要: 随着大型语言模型越来越多地融入现实世界的应用中,确保人工智能的安全性变得至关重要。一个关键挑战是“越狱”,即通过对抗性提示绕过内置的安全措施,从而引发有害的、不允许的输出。受心理学中的“登门槛效应”启发,我们引入了FITD,这是一种新颖的多轮越狱方法,利用了初始小承诺降低对更重大或不道德请求抵抗的现象。该方法通过中间桥接提示逐步升级用户查询的恶意意图,并通过模型自身的响应调整来诱导有害的回应。在两个越狱基准上的广泛实验结果表明,FITD在七个广泛使用的模型中实现了平均94%的攻击成功率,优于现有的最先进方法。此外,我们对大型语言模型的自我腐败进行了深入分析,突出了当前对齐策略中的漏洞,并强调了多轮交互中固有的风险。代码可在此链接获取:this https URL。 |
[32] 从动态分布对齐的角度重新审视答案聚合中的自洽性 标题: Revisiting Self-Consistency from Dynamic Distributional Alignment Perspective on Answer Aggregation 作者: Yiwei Li / Ji Zhang / Shaoxiong Feng / Peiwen Yuan / Xinglin Wang / Jiayi Shi / Yueqi Zhang / Chuyi Tan / Boyuan Pan / Yao Hu / Kan Li 原文: [英文] [中文] 备注: None 摘要: 自洽性通过聚合多样的随机样本来改善推理,但其有效性背后的动态机制仍未被充分探索。我们将自洽性重新框定为一个动态分布对齐问题,揭示了解码温度不仅控制采样的随机性,还积极塑造潜在的答案分布。鉴于高温需要极大的样本量来稳定,而低温则有放大偏差的风险,我们提出了一种信心驱动的机制,动态校准温度:在不确定性下锐化采样分布以对齐高概率模式,并在信心高时促进探索。在数学推理任务上的实验表明,这种方法在有限样本下优于固定多样性基线,改善了不同初始温度下的平均和最佳性能,而无需额外的数据或模块。这确立了自洽性作为采样动态与不断演变的答案分布之间的同步挑战。 |
[33] Team A 在 SemEval-2025 第11项任务:使用多语言模型打破情感检测中的语言障碍 标题: Team A at SemEval-2025 Task 11: Breaking Language Barriers in Emotion Detection with Multilingual Models 作者: P Sam Sahil / Anupam Jamatia 原文: [英文] 备注: None 摘要: 本文描述了A队提交给SemEval 2025第11项任务“弥合基于文本的情感检测差距”的系统。该任务涉及从文本片段中识别说话者的感知情感,每个实例都标注为六种情感之一:快乐、悲伤、恐惧、愤怒、惊讶或厌恶。任务组织者提供的数据集作为训练和评估我们模型的基础。在探索的各种方法中,使用多语言嵌入结合全连接层实现了最佳性能。本文详细介绍了系统架构,讨论了实验结果,并强调了利用多语言表示在文本情感检测中实现稳健性的优势。 |
[34] MIND:通过多代理内心对话实现沉浸式心理疗愈 标题: MIND: Towards Immersive Psychological Healing with Multi-agent Inner Dialogue 作者: Yujia Chen / Changsong Li / Yiming Wang / Qingqing Xiao / Nan Zhang / Zifan Kong / Peng Wang / Binyu Yan 原文: [英文] 备注: None 摘要: 在当今竞争激烈的社会中,心理健康问题如抑郁和焦虑正在恶化。传统的治疗方法如咨询和聊天机器人未能有效地吸引用户,它们通常提供缺乏情感深度的通用回应。尽管大型语言模型(LLMs)有潜力创造更类似人类的互动,但它们仍难以捕捉微妙的情感。这需要LLMs具备类似人类的适应性和温暖。为填补这一空白,我们提出了MIND(多代理内在对话),这是一种新颖的范式,提供更具沉浸感的心理治疗环境。考虑到LLM代理的强大生成和角色扮演能力,我们预定义了一个互动治疗框架,并在框架内为LLM代理分配不同的角色,以便与用户进行互动的内在对话,从而提供沉浸式的治疗体验。我们在各种现实世界的治疗维度中进行了广泛的人类实验,发现MIND比传统范式提供了更友好的用户体验。这表明MIND有效地利用了LLMs在心理治疗中的巨大潜力。 |
[35] MMKE-Bench:用于多样化视觉知识的多模态编辑基准 标题: MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge 作者: Yuntao Du / Kailin Jiang / Zhi Gao / Chenrui Shi / Zilong Zheng / Siyuan Qi / Qing Li 原文: [英文] [中文] 备注: None 摘要: 知识编辑技术已成为更新大型语言模型(LLMs)和多模态模型(LMMs)事实性知识的重要工具,使它们能够在不从头训练的情况下纠正过时或不准确的信息。然而,现有的多模态知识编辑基准主要关注以简单三元组表示的实体级知识,这未能捕捉到真实世界多模态信息的复杂性。为了解决这个问题,我们引入了MMKE-Bench,一个全面的多模态知识编辑基准,旨在评估LMMs在真实场景中编辑多样化视觉知识的能力。MMKE-Bench通过包含三种类型的编辑任务来解决这些限制:视觉实体编辑、视觉语义编辑和用户特定编辑。此外,MMKE-Bench使用自由形式的自然语言来表示和编辑知识,提供了一种更灵活和有效的格式。该基准由2,940条知识和8,363张图像组成,涵盖33个广泛类别,评估问题是自动生成并经过人工验证的。我们在三个著名的LMMs上评估了五种最先进的知识编辑方法,结果显示没有一种方法在所有标准上表现出色,视觉和用户特定的编辑尤其具有挑战性。MMKE-Bench为评估多模态知识编辑技术的稳健性设立了新标准,推动了这一快速发展的领域的进步。 |
[36] 精挑细选:使用协作代理进行视觉中心的数据选择 标题: Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents 作者: Zhenyu Liu / Yunxin Li / Baotian Hu / Wenhan Luo / Yaowei Wang / Min Zhang 原文: [英文] [中文] 备注: 15 pages, 7 figures 摘要: 为了提升多模态大语言模型(MLLMs)处理图像和复杂指令的能力,研究人员主要整理了大规模的视觉指令调优数据集,这些数据集要么来自现有的视觉任务,要么通过使用大语言模型(LLMs)和图像描述合成生成。然而,这些数据集通常存在关键缺陷,包括指令-图像对不匹配和图像质量低劣。这些问题阻碍了训练效率并限制了性能提升,因为模型在噪声或无关数据上浪费资源,而对整体能力的提升却微乎其微。为了解决这个问题,我们提出了一种通过代理协作的视觉中心选择方法(ViSA),该方法专注于图像质量评估和图像-指令相关性评估。具体来说,我们的方法包括:1)通过视觉代理协作进行图像信息量化的方法,以选择具有丰富视觉信息的图像;2)一种以视觉为中心的指令质量评估方法,以选择与高质量图像相关的高质量指令数据。最终,我们从大型开源数据集中重新组织了8万条指令数据。大量实验表明,ViSA在七个基准测试中优于或可与当前最先进的模型相媲美,仅使用了原始数据的2.5\%,突显了我们数据选择方法的效率。此外,我们进行了消融研究以验证我们方法中每个组件的有效性。代码可在此https URL获取。 |
[37] 缓解用于机器翻译质量估计的合成数据中的分布偏移 标题: Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation 作者: Xiang Geng / Zhejian Lai / Jiajun Chen / Hao Yang / Shujian Huang 原文: [英文] 备注: None 摘要: 质量评估(QE)模型在没有参考翻译的情况下评估机器翻译的质量,作为翻译任务的奖励模型。由于数据稀缺,合成数据生成成为一种有前景的解决方案。然而,合成的QE数据往往存在分布偏移,这可能表现为伪翻译与真实翻译之间的差异,或伪标签与人类偏好不一致。为了解决这个问题,我们引入了ADSQE,一个用于缓解合成QE数据分布偏移的新框架。为了减少伪翻译与真实翻译之间的差异,我们采用了约束束搜索算法,并通过使用不同的生成模型来增强翻译的多样性。ADSQE使用参考,即翻译监督信号,来指导生成和标注过程,提高词级标签的质量。ADSE进一步识别覆盖连续错误标记的最短短语,模拟人工标注行为,以分配最终的短语级标签。特别地,我们强调翻译模型无法准确标注其自身的翻译。大量实验表明,ADSQE在有监督和无监督设置中均优于SOTA基线如COMET。进一步的分析为合成数据生成提供了见解,这可能有利于其他任务的奖励模型。 |
[38] GeoEdit: 大型语言模型的几何知识编辑 标题: GeoEdit: Geometric Knowledge Editing for Large Language Models 作者: Yujie Feng / Liming Zhan / Zexin Lu / Yongxin Xu / Xu Chu / Yasha Wang / Jiannong Cao / Philip S. Yu / Xiao-Ming Wu 原文: [英文] [中文] 备注: None 摘要: 定期更新对于保持大型语言模型(LLMs)的最新知识至关重要。因此,各种模型编辑方法被开发出来以更新LLMs中的特定知识。然而,基于训练的方法往往难以在有效整合新知识的同时保留无关的一般知识。为了解决这一挑战,我们提出了一种新颖的框架,称为几何知识编辑(GeoEdit)。GeoEdit利用微调中参数更新的几何关系来区分与新知识更新相关的神经元和与一般知识扰动相关的神经元。通过采用一种方向感知的知识识别方法,我们避免更新与现有知识方向近似正交的神经元,从而保留模型的泛化能力。对于剩余的神经元,我们整合旧知识和新知识以对齐方向,并对相反方向应用“先遗忘后学习”的编辑策略。此外,我们引入了一种重要性引导的任务向量融合技术,该技术过滤掉冗余信息并提供自适应的神经元级加权,进一步提升模型编辑性能。在两个公开可用的数据集上进行的大量实验表明,GeoEdit优于现有的最先进方法。 |
[39] 通过小型-大型语言模型一致性验证的协作立场检测 标题: Collaborative Stance Detection via Small-Large Language Model Consistency Verification 作者: Yu Yan / Sheng Sun / Zixiang Tang / Teli Liu / Min Liu 原文: [英文] [中文] 备注: None 摘要: 社交媒体上的立场检测旨在识别推文中针对特定目标表达的态度。目前的研究由于大型语言模型(LLMs)提供的显著性能提升,优先考虑LLMs而非小型语言模型(SLMs)。然而,无论成本如何,过度依赖LLMs进行立场检测对于需要进行大规模数据分析的现实世界社交媒体监控系统来说是不切实际的。为此,我们提出了一种通过小型-大型语言模型一致性验证的协作立场检测(CoVer)框架,该框架通过共享上下文的批量推理和LLM与SLM之间的逻辑验证来增强LLM的利用。具体来说,CoVer不是单独处理每个文本,而是批量处理文本,通过LLM推理在共享上下文中获得立场预测及相应解释。然后,为了排除由上下文噪声引起的偏差,CoVer引入SLM进行逻辑一致性验证。最后,对于那些反复表现出低逻辑一致性的文本,使用先前LLM立场预测的一致性加权聚合进行分类。我们的实验表明,CoVer在零样本设置下在多个基准上优于最先进的方法,实现了每条推文0.54次LLM查询,同时显著提升了性能。我们的CoVer为社交媒体立场检测中的LLM部署提供了更为实用的解决方案。 |
[40] 确定性还是概率性?作为随机数生成器的大型语言模型的心理学 标题: Deterministic or probabilistic? The psychology of LLMs as random number generators 作者: Javier Coronado-Blázquez 原文: [英文] [中文] 备注: 31 pages, 12 figures 摘要: 大型语言模型(LLMs)通过固有的概率性上下文感知机制,模拟人类自然语言,彻底改变了文本生成。在本文中,我们系统地研究了各种LLMs在生成随机数时的表现,考虑了不同的配置,如不同的模型架构、数值范围、温度和提示语言。我们的研究结果表明,尽管这些模型基于随机变换器架构,但在被要求生成随机数值输出时,它们往往表现出确定性的响应。特别是,我们发现更换模型以及提示语言时存在显著差异,将这种现象归因于深深嵌入训练数据中的偏见。尽管模型如DeepSeek-R1可以在一定程度上揭示LLMs的内部推理过程,但结果仍然相似。这些偏见导致了可预测的模式,削弱了真正的随机性,因为LLMs只是在重现我们人类自身的认知偏见。 |
[41] 前瞻限制:为什么多操作数加法对大型语言模型来说很难 标题: The Lookahead Limitation: Why Multi-Operand Addition is Hard for LLMs 作者: Tanja Baeumel / Josef van Genabith / Simon Ostermann 原文: [英文] [中文] 备注: Pre-print 摘要: 自回归大型语言模型(LLMs)在各种任务中表现出色,但在简单算术运算上表现不佳,例如两个或多个操作数的加法。我们发现,这种困难源于LLMs使用了一种简单的单数字前瞻启发式方法,这种方法在两个操作数的加法中效果尚可(但不完美),但在多操作数情况下则失败,因为进位逻辑更加复杂。我们的探测实验和逐位准确性评估显示,LLMs恰恰在单数字前瞻不足以处理级联进位的情况下失败。我们分析了分词策略对算术性能的影响,并表明所有被调查的模型,无论分词策略如何,由于依赖于单数字前瞻启发式方法,在多操作数加法中本质上都受到限制。我们的研究结果揭示了阻止LLMs推广到更复杂数值推理的基本限制。 |
[42] 无记忆的擦除:保障大型语言模型中的知识遗忘 标题: Erasing Without Remembering: Safeguarding Knowledge Forgetting in Large Language Models 作者: Huazheng Wang / Yongcheng Jing / Haifeng Sun / Yingjie Wang / Jingyu Wang / Jianxin Liao / Dacheng Tao 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们从一个新的维度探讨机器遗忘,研究如何在大型语言模型(LLMs)中保障模型遗忘。我们的目标是防止被遗忘的模型回忆起任何与目标相关的记忆。我们首先揭示了一个令人惊讶且被忽视的简单事实:现有方法通常仅擦除目标知识的确切表达,而留下了改述或相关信息。为了严格衡量这种疏忽,我们引入了UGBench,这是第一个专门用于评估13种最先进模型的泛化性能的基准。结果显示,被遗忘的模型仍然可以回忆起改述的答案,并在中间层保留目标事实。为了解决这个问题,我们提出了PERMU,一种基于扰动的方法,显著增强了保障LLM的泛化能力。我们的实验表明,PERMU在遗忘方面提供了高达50.13%的改进,同时在稳健泛化方面提升了43.53%。我们的代码可以在此链接中找到。 |
[43] Polish-ASTE:用于波兰语的方面-情感三元组提取数据集 标题: Polish-ASTE: Aspect-Sentiment Triplet Extraction Datasets for Polish 作者: Marta Lango / Borys Naglik / Mateusz Lango / Iwo Naglik 原文: [英文] [中文] 备注: None 摘要: 方面-情感三元组抽取(ASTE)是情感分析中最具挑战性和复杂性的任务之一。它涉及构建包含一个方面、其相关的情感极性以及作为分配极性理由的观点短语的三元组。尽管该任务越来越受欢迎,并且有许多机器学习方法被提出以解决它,但用于ASTE的数据集数量非常有限。特别是,没有任何斯拉夫语言的数据集。在本文中,我们提出了两个新的ASTE数据集,这些数据集包含用波兰语表达的关于酒店和购买产品的客户意见。我们还结合两种波兰语的大型语言模型进行了两种ASTE技术的实验,以研究它们的性能以及所组装数据集的难度。新的数据集在宽松的许可下可用,并且与英语数据集具有相同的文件格式,方便未来的研究使用。 |
[44] 通过音译连接波斯语世界 标题: Connecting the Persian-speaking World through Transliteration 作者: Rayyan Merchant / Akhilesh Kakolu Ramarao / Kevin Tang 原文: [英文] 备注: None 摘要: 尽管塔吉克波斯语的使用者和伊朗及阿富汗的波斯语使用者可以互相理解对方的语言变体,但由于塔吉克波斯语是用改良的西里尔字母书写的,他们无法阅读用波斯-阿拉伯字母书写的伊朗和阿富汗文本。由于互联网上绝大多数波斯语文本是用波斯-阿拉伯字母书写的,单语的塔吉克语使用者无法以任何有意义的方式与互联网互动。由于这些方言的正式语体之间的极大相似性以及塔吉克语-波斯语平行数据的稀缺,机器音译被认为比机器翻译更为实用和适当的解决方案。本文提出了一种基于Transformer的G2P方法用于塔吉克语-波斯语音译,在新的双字母数据集上实现了chrF++得分:58.70(波斯语到塔吉克语)和74.20(塔吉克语到波斯语),为未来的工作设定了一个可比的基准指标。我们的结果还表明,这项任务在两个方向上都具有非平凡的难度。我们还概述了这两种文字之间的差异及其带来的挑战,以帮助未来的塔吉克语-波斯语音译工作。 |
[45] Collab-Overcooked:作为协作代理的大型语言模型的基准测试和评估 标题: Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents 作者: Haochen Sun / Shuwen Zhang / Lei Ren / Hao Xu / Hao Fu / Caixia Yuan / Xiaojie Wang 原文: [英文] [中文] 备注: 25 pages, 14 figures 摘要: 大型语言模型(LLMs)驱动的代理系统在超越传统自然语言处理任务的实际应用中取得了巨大进展。本文提出了一种新的LLM驱动的多代理系统(LLM-MAS)基准,名为Collab-Overcooked,该基准基于流行的Overcooked-AI游戏构建,具有更具应用性和挑战性的交互环境任务。Collab-Overcooked从两个新颖的角度扩展了现有的基准。首先,它提供了一个支持多样化任务和目标的多代理框架,并通过自然语言交流鼓励协作。其次,它引入了一系列面向过程的评估指标,以评估不同LLM代理的细粒度协作能力,这是以往工作中常被忽视的一个维度。我们对10个流行的LLM进行了广泛的实验,结果表明,尽管LLM在目标解释方面表现出强大的能力,但在积极协作和持续适应方面存在显著差异,而这些对于高效完成复杂任务至关重要。值得注意的是,我们强调了LLM-MAS的优缺点,并为在统一和开源的基准上改进和评估LLM-MAS提供了见解。环境、30个开放式任务和一个集成评估包现已在此https URL上公开提供。 |
[46] LongRoPE2:近乎无损的LLM上下文窗口扩展 标题: LongRoPE2: Near-Lossless LLM Context Window Scaling 作者: Ning Shang / Li Lyna Zhang / Siyuan Wang / Gaokai Zhang / Gilsinia Lopez / Fan Yang / Weizhu Chen / Mao Yang 原文: [英文] [中文] 备注: None 摘要: LongRoPE2 是一种新颖的方法,它将预训练的大型语言模型(LLMs)的有效上下文窗口扩展到目标长度,同时保持在原始较短上下文窗口上的性能。这是通过以下三个贡献实现的:(1)假设在更高的 RoPE 维度上训练不足是现有方法中观察到的持续分布外(OOD)问题的原因之一;(2)一种有效的 RoPE 重缩放算法,该算法采用由“针驱动”困惑度指导的进化搜索来解决训练不足的问题;(3)一种混合上下文窗口训练方法,该方法微调模型权重以采用重缩放的 RoPE 处理长上下文序列,同时使用原始 RoPE 保持短上下文的性能。在 LLaMA3-8B 和 Phi3-mini-3.8B 上进行的大量实验验证了该假设,并展示了 LongRoPE2 的有效性。值得注意的是,LongRoPE2 将 LLaMA3-8B 扩展到实现 128K 的有效上下文长度,同时保留了超过 98.5% 的短上下文性能,仅使用了 100 亿个标记——比 Meta 的方法少 80 倍,而后者未能达到目标有效上下文长度。代码将在此 https URL 提供。 |
[47] 自我训练在大型语言模型中引发简洁推理 标题: Self-Training Elicits Concise Reasoning in Large Language Models 作者: Tergel Munkhbat / Namgyu Ho / Seohyun Kim / Yongjin Yang / Yujin Kim / Se-Young Yun 原文: [英文] 备注: 23 pages, 10 figures, 18 tables 摘要: 链式思维(CoT)推理使大型语言模型(LLM)能够通过中间标记利用额外的计算来解决复杂任务。然而,我们认为典型的推理路径包含许多冗余标记,从而导致不必要的推理成本。在检查当前LLM的输出分布时,我们发现它们相对于默认行为具有更简洁推理的潜在能力。为了引出这种能力,我们提出了简单的微调方法,这些方法利用通过最佳N采样和少样本条件生成的自生成简洁推理路径,在特定任务设置中进行。我们的方法在GSM8K和MATH的五个模型家族中,平均减少了30%的输出标记,同时保持了平均准确性。通过利用LLM的基本随机性和上下文学习能力,我们的自我训练方法在广泛的模型上稳健地引出简洁推理,包括那些经过广泛后训练的模型。代码可在此https URL获取。 |
[48] 具有链式思维的变压器中的有限状态自动机:状态跟踪的机制研究 标题: Finite State Automata Inside Transformers with Chain-of-Thought: A Mechanistic Study on State Tracking 作者: Yifan Zhang / Wenyu Du / Dongming Jin / Jie Fu / Zhi Jin 原文: [英文] [中文] 备注: None 摘要: 链式思维(Chain-of-Thought, CoT)显著提升了大型语言模型(LLMs)在各种任务上的表现,先前的研究表明,CoT在理论上可以增加模型的表达能力。然而,对于Transformer+CoT能够学习的算法机制理解仍然有限。在这项工作中,我们(1)评估了Transformer+CoT及其变体的状态跟踪能力,确认了CoT的有效性。(2)接下来,我们识别了负责跟踪世界状态的电路,即模型组件的一个子集,发现后期层的MLP神经元起到了关键作用。我们提出了两个指标:压缩和区分,并显示每个状态的神经元集合几乎达到100%的准确率,提供了模型中嵌入隐式有限状态自动机(FSA)的证据。(3)此外,我们探索了三种现实情境:跳过中间步骤、引入数据噪声和测试长度泛化。我们的结果表明,Transformer+CoT学习了稳健的算法(FSA),突显了其在挑战性场景中的适应能力。 |
[49] 教育者关注:计算工具如何系统性地识别学生关键资源的分配 标题: Educator Attention: How computational tools can systematically identify the distribution of a key resource for students 作者: Qingyang Zhang / Rose E. Wang / Ana T. Ribeiro / Dora Demszky / Susanna Loeb 原文: [英文] [中文] 备注: The first two authors QZ and REW contributed equally. The last two authors DD and SL advised equally 摘要: 教育者的关注对于学生的成功至关重要,但由于数据和方法上的限制,教育者如何分配他们对学生的关注仍然知之甚少。本研究首次对教育者的关注模式进行了大规模的计算分析,利用了来自虚拟小组辅导课程的超过一百万条教育者话语,这些话语与详细的学生人口统计和学业成就数据相关联。通过使用自然语言处理技术,我们系统地研究了教育者关注的对象和性质。我们的研究结果表明,教育者往往对成绩较低的学生给予更多关注。然而,在不同的人口统计特征中,尤其是性别方面,出现了差异。当女生与男生搭配时,即使她们是小组中成绩较低的学生,也往往得到较少的关注。在混合性别的组合中,成绩较低的女生比成绩较高的男生显著地得到更少的关注,而成绩较低的男生则比成绩较高的女生显著地得到更多的关注。我们还发现种族和英语学习者(EL)身份方面存在一些差异,成绩较低的黑人学生只有在与另一位黑人学生搭配时才会得到额外的关注,而在与非黑人同伴搭配时则不会。相比之下,成绩较高的EL学生比成绩较低的EL同伴获得了不成比例的更多关注。这项工作强调了大规模互动数据和计算方法如何揭示教学实践中微妙但有意义的差异,提供了实证见解以指导更公平和更有效的教育策略。 |
[50] 将手语表示为符号:通过一次性手语识别促进功能性手语技术的发展 标题: Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies 作者: Toon Vandendriessche / Mathieu De Coster / Annelies Lejon / Joni Dambre 原文: [英文] [中文] 备注: None 摘要: 孤立手语识别(ISLR)对于可扩展的手语技术至关重要,但特定语言的方法限制了当前模型的发展。为了解决这个问题,我们提出了一种能够跨语言和不断变化的词汇进行泛化的一次性学习方法。我们的方法包括预训练一个模型,以基于基本特征嵌入手语,并使用密集向量搜索来快速、准确地识别未见过的手语。我们取得了最先进的成果,包括在一个包含10,235个与训练集语言不同的独特手语的大型词典上实现了50.8%的一次性MRR。我们的方法在不同语言和支持集上表现出强大的鲁棒性,提供了一种可扩展、适应性强的ISLR解决方案。该方法与聋人和听力障碍(DHH)社区共同创建,符合现实世界的需求,并推进了可扩展的手语识别技术。 |
[51] 层感知任务算术:解开任务特定与指令遵循知识 标题: Layer-Aware Task Arithmetic: Disentangling Task-Specific and Instruction-Following Knowledge 作者: Yan-Lun Chen / Yi-Ru Wei / Chia-Yi Hsu / Chia-Mu Yu / Chun-Ying Huang / Ying-Dar Lin / Yu-Sung Wu / Wei-Bin Lee 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)通过微调展示了强大的任务特定能力,但合并多个微调模型通常会导致性能下降,这是由于重叠的指令跟随组件。任务算术(TA)通过结合从微调中获得的任务向量,实现了多任务学习和任务遗忘,但难以将任务特定知识与一般指令跟随行为隔离开来。为了解决这个问题,我们提出了层感知任务算术(LATA),这是一种新颖的方法,根据任务向量与指令跟随或任务特定组件的对齐情况,分配层特定的权重。通过增强与任务相关的层并减弱指令跟随层,LATA在提高任务学习和遗忘性能的同时,保留了整体模型的实用性。在包括WikiText-2、GSM8K和HumanEval在内的多个基准测试上的实验表明,LATA在多任务学习和选择性任务遗忘方面优于现有方法,实现了更高的任务准确性和对齐度,同时输出质量的下降最小。我们的研究结果强调了逐层分析在解开任务特定和通用知识中的重要性,提供了一个稳健的框架用于高效的模型合并和编辑。 |
[52] ChineseEcomQA:一个用于大型语言模型的可扩展电子商务概念评估基准 标题: ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models 作者: Haibin Chen / Kangtao Lv / Chengwei Hu / Yanshi Li / Yujin Yuan / Yancheng He / Xingyao Zhang / Langming Liu / Shilei Liu / Wenbo Su / Bo Zheng 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型(LLMs)在电子商务等领域的广泛应用,领域特定概念评估基准对于评估其领域能力至关重要。现有的LLMs可能在复杂的电子商务应用中生成事实不正确的信息。因此,有必要建立一个电子商务概念基准。现有基准面临两个主要挑战:(1)处理任务的异质性和多样性,(2)区分电子商务领域中的普遍性和特异性。为了解决这些问题,我们提出了\textbf{ChineseEcomQA},一个专注于基本电子商务概念的可扩展问答基准。ChineseEcomQA建立在三个核心特征之上:\textbf{关注基本概念}、\textbf{电子商务普遍性}和\textbf{电子商务专业性}。基本概念被设计为适用于各种电子商务任务,从而解决异质性和多样性挑战。此外,通过仔细平衡普遍性和特异性,ChineseEcomQA有效地区分了广泛的电子商务概念,允许对领域能力进行精确验证。我们通过结合LLM验证、检索增强生成(RAG)验证和严格的人工注释,来实现这一点的可扩展基准构建过程。基于ChineseEcomQA,我们对主流LLMs进行了广泛评估,并提供了一些有价值的见解。我们希望ChineseEcomQA能够指导未来的领域特定评估,并促进LLM在电子商务应用中的更广泛采用。 |
[53] FINEREASON:通过反思性解谜评估和改进大型语言模型的深思熟虑推理 标题: FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving 作者: Guizhen Chen / Weiwen Xu / Hao Zhang / Hou Pong Chan / Chaoqun Liu / Lidong Bing / Deli Zhao / Anh Tuan Luu / Yu Rong 原文: [英文] [中文] 备注: None 摘要: 许多具有挑战性的推理任务不仅需要快速、直观的反应,还需要更深思熟虑的多步骤方法。最近在大型语言模型(LLMs)方面的进展突显了从快速反应的“系统1”方式向反思和纠正问题解决的“系统2”风格的重要转变。然而,目前的基准测试严重依赖于最终答案的准确性,忽视了对模型中间推理步骤的检查。这未能评估模型在推理过程中反思和纠正错误的能力。为弥补这一差距,我们引入了FINEREASON,这是一种用于细粒度评估LLMs推理能力的逻辑谜题基准。每个谜题都可以分解为原子步骤,使其成为严格验证中间正确性的理想选择。在此基础上,我们引入了两项任务:状态检查和状态转换,以全面评估模型如何评估当前情况并规划下一步行动。为了支持更广泛的研究,我们还提供了一个谜题训练集,旨在提高在一般数学任务上的表现。我们展示了在我们的状态检查和转换数据上训练的模型在GSM8K上的数学推理能力提高了多达5.1%。 |
[54] 从检索到生成:比较不同的方法 标题: From Retrieval to Generation: Comparing Different Approaches 作者: Abdelrahman Abdallah / Jamshid Mozafari / Bhawna Piryani / Mohammed Ali / Adam Jatowt 原文: [英文] 备注: work on progress 摘要: 知识密集型任务,特别是开放域问答(ODQA)、文档重排序和检索增强语言建模,需要在检索准确性和生成灵活性之间取得平衡。传统的检索模型如BM25和密集段落检索(DPR)能够高效地从大型语料库中进行检索,但往往缺乏语义深度。生成模型如GPT-4-o提供了更丰富的上下文理解,但在保持事实一致性方面面临挑战。在这项工作中,我们系统地评估了基于检索、基于生成和混合模型,主要关注它们在ODQA和相关检索增强任务中的表现。我们的结果显示,密集检索器,特别是DPR,在ODQA中表现强劲,在NQ上的top-1准确率达到50.17%,而混合模型将BEIR上的nDCG@10得分从43.42(BM25)提高到52.59,展示了它们在文档重排序中的优势。此外,我们使用WikiText-103分析语言建模任务,显示基于检索的方法如BM25相比生成和混合方法实现了更低的困惑度,突显了它们在检索增强生成中的实用性。通过提供详细的比较和对每种方法在何种条件下表现优异的实用见解,我们旨在促进ODQA和相关知识密集型应用中检索、重排序和生成模型的未来优化。 |
[55] 超越自然语言困惑度:检测代码生成数据集中的无效代码污染 标题: Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets 作者: Chichien Tsai / Chiamu Yu / Yingdar Lin / Yusung Wu / Weibin Lee 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型(LLMs)在代码相关任务中的广泛应用,人们对其训练数据集的安全性产生了担忧。其中一个关键威胁是死代码投毒,即将语法上有效但功能上冗余的代码注入训练数据,以操控模型行为。这类攻击可能会降低神经代码搜索系统的性能,导致产生偏颇或不安全的代码建议。现有的检测方法,如基于标记的困惑度分析,因编程语言的结构和上下文特性而难以有效识别死代码。在本文中,我们提出了DePA(Dead Code Perplexity Analysis),这是一种新颖的行级检测和清理方法,专为代码的结构特性设计。DePA通过利用代码行之间的上下文关系来计算行级困惑度,并通过将其与文件内的整体分布进行比较来识别异常行。我们在基准数据集上的实验表明,DePA显著优于现有方法,在检测F1分数上提高了0.14-0.19,在中毒段定位精度上提高了44-65%。此外,DePA将检测速度提高了0.62-23倍,使其在大规模数据集清理中具有实用性。总的来说,通过解决死代码投毒的独特挑战,DePA为保护代码生成模型训练数据集的完整性提供了一种稳健且高效的解决方案。 |
[56] 大型语言模型如同“传话游戏”:迭代生成扭曲信息 标题: LLM as a Broken Telephone: Iterative Generation Distorts Information 作者: Amr Mohamed / Mingmeng Geng / Michalis Vazirgiannis / Guokan Shang 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型在在线内容中扮演越来越重要的角色,人们开始担心它们反复处理自身输出的影响。受链式人类交流中“破电话”效应的启发,本研究探讨了大型语言模型是否会通过迭代生成类似地扭曲信息。通过基于翻译的实验,我们发现扭曲会随着时间的推移而累积,并受到语言选择和链条复杂性的影响。虽然信息退化是不可避免的,但可以通过策略性提示技术来缓解。这些发现有助于讨论人工智能介导的信息传播的长期影响,并提出关于大型语言模型生成内容在迭代工作流程中可靠性的重要问题。 |
[57] 多少才够?标记化训练数据的收益递减 标题: How Much is Enough? The Diminishing Returns of Tokenization Training Data 作者: Varshini Reddy / Craig W. Schmidt / Yuval Pinter / Chris Tanner 原文: [英文] [中文] 备注: None 摘要: 分词是自然语言处理中的一个关键初始步骤,通常认为较大的训练数据集会带来好处。本文研究了分词器训练数据规模从1GB到900GB的影响。我们的研究结果显示,随着数据规模的增加,收益递减,突出了进一步扩大训练数据规模对提高分词质量的实际限制。我们分析了这一现象,并将饱和效应归因于分词的预分词阶段所施加的限制。这些结果为优化分词过程提供了宝贵的见解,并指出了分词算法未来研究的潜在方向。 |
[58] LangProBe: 语言程序基准 标题: LangProBe: a Language Programs Benchmark 作者: Shangyin Tan / Lakshya A Agrawal / Arnav Singhvi / Liheng Lai / Michael J Ryan / Dan Klein / Omar Khattab / Koushik Sen / Matei Zaharia 原文: [英文] [中文] 备注: None 摘要: 将语言模型(LMs)组合成多步骤的语言程序并自动优化其模块化提示现在已成为构建AI系统的主流范式,但这一领域的权衡取舍之前仅有少量研究。我们介绍了LangProBe,这是第一个用于评估语言程序的架构和优化策略的大规模基准,涵盖了超过2000种任务、架构、优化器和语言模型的组合。利用LangProBe,我们首次研究了程序架构和优化器(及其与不同模型的组合)对质量和成本权衡的影响。我们发现,优化后的语言程序在成本-质量的帕累托改进上表现出色,相较于直接调用模型有显著提升,但同时也表明,人类判断(或经验决策)对于选择最佳组合仍然是必要的。我们将开源LangProBe的代码和评估数据。 |
[59] 使用检索增强的推测解码进行长上下文推理 标题: Long-Context Inference with Retrieval-Augmented Speculative Decoding 作者: Guanzheng Chen / Qilong Feng / Jinjie Ni / Xin Li / Michael Qizhe Shieh 原文: [英文] [中文] 备注: None 摘要: 长上下文大语言模型(LLMs)的出现为处理大规模文档提供了一种有前景的替代方案,相较于传统的检索增强生成(RAG)方法。然而,长上下文推理的计算开销,特别是在管理键值(KV)缓存时,带来了显著的效率挑战。尽管推测解码(SD)传统上通过使用较小的草稿模型来加速推理,但在长上下文场景中,由于内存受限的KV缓存操作,其效果显著降低。我们提出了检索增强推测解码(RAPID),它利用RAG在长上下文推理中加速和提高生成质量。RAPID引入了RAG草稿器——一个在缩短的检索上下文上运行的草稿LLM,用于推测长上下文目标LLM的生成。我们的方法开启了一种新范式,即同规模甚至更大的LLM可以作为RAG草稿器,同时保持计算效率。为了充分利用更强大的RAG草稿器可能带来的优越能力,我们开发了一种推理时知识转移动态,通过RAG丰富目标分布。基于LLaMA-3.1和Qwen2.5骨干的广泛实验表明,RAPID有效整合了两种方法的优势,实现了显著的性能提升(例如,LLaMA-3.1-8B在InfiniteBench上的得分从39.33提高到42.83),并且速度提升超过2倍。我们的分析表明,RAPID在超过32K上下文长度时实现了稳健的加速,并在实际应用中展示了卓越的生成质量。 |
[60] 新兴的符号机制支持大型语言模型中的抽象推理 标题: Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models 作者: Yukang Yang / Declan Campbell / Kaixuan Huang / Mengdi Wang / Jonathan Cohen / Taylor Webb 原文: [英文] [中文] 备注: None 摘要: 最近的许多研究发现,大型语言模型中存在新兴的推理能力,但关于这些能力的稳健性以及它们在多大程度上依赖于结构化推理机制的争论仍在继续。为了阐明这些问题,我们对一个开源语言模型(Llama3-70B)中支持抽象规则归纳的内部机制进行了全面研究。我们识别出一种新兴的符号架构,该架构通过一系列三种计算实现抽象推理。在早期层中,符号抽象头根据输入标记之间的关系将其转换为抽象变量。在中间层,符号归纳头对这些抽象变量执行序列归纳。最后,在后期层中,检索头通过检索与预测的抽象变量相关联的值来预测下一个标记。这些结果为符号和神经网络方法之间的长期争论提供了一个解决方案,表明神经网络中的新兴推理依赖于符号机制的出现。 |
[61] 专业知识是我们所需 标题: Expertise Is What We Want 作者: Alan Ashworth / Munir Al-Dajani / Keegan Duchicela / Kiril Kafadarov / Allison Kurian / Othman Laraki / Amina Lazrak / Divneet Mandair / Wendy McKennon / Rebecca Miksad / Jayodita Sanghvi / Travis Zack 原文: [英文] [中文] 备注: 18 pages, 7 figures, 5 tables 摘要: 临床决策依赖于专家推理,而专家推理是由标准化的、基于证据的指南指导的。然而,将这些指南转化为自动化的临床决策支持系统存在不准确的风险,更重要的是可能丧失细微差别。我们分享了一种应用架构,即大型语言专家(LLE),它结合了大型语言模型(LLM)的灵活性和强大功能与专家系统的可解释性、可解释性和可靠性。LLM有助于解决专家系统的关键挑战,例如知识的整合和编码,以及数据规范化。相反,类似专家系统的方法有助于克服LLM的挑战,包括幻觉、原子性和低成本更新,以及可测试性。 为了突出大型语言专家(LLE)系统的强大功能,我们构建了一个LLE来协助新诊断癌症患者的检查。及时启动癌症治疗对于获得最佳患者结果至关重要。然而,诊断建议的日益复杂使得初级保健医生难以确保其患者在首次就诊肿瘤科医生之前已完成必要的检查。与许多现实世界的临床任务一样,这些检查需要分析非结构化的健康记录并应用细致入微的临床决策逻辑。在这项研究中,我们描述了一个LLE系统的设计和评估,该系统旨在快速识别和建议正确的诊断检查。该系统展示了高度的临床级准确性(>95%),并有效解决了在一个大型学术中心的乳腺癌和结肠癌患者的真实数据中发现的差距。 |
[62] 慢思考,快推理:通过蒸馏推理器扩展推理计算 标题: Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners 作者: Daniele Paliotta / Junxiong Wang / Matteo Pagliardini / Kevin Y. Li / Aviv Bick / J. Zico Kolter / Albert Gu / François Fleuret / Tri Dao 原文: [英文] [中文] 备注: None 摘要: 最近的进展表明,通过在测试时扩展计算资源可以显著提升大型语言模型(LLMs)的性能。一种常见的策略是生成多条思维链(CoT)轨迹,并通过各种选择机制聚合其输出。这引发了一个基本问题:复杂度较低的模型能否利用其更高的生成吞吐量,在固定的计算预算下超越相似规模的Transformer模型?为了解决这个问题并克服缺乏强大的次二次推理器的局限,我们从预训练的Transformer中提炼出纯Mamba模型和混合Mamba模型。我们的提炼模型仅在80亿个标记上进行训练,在数学推理数据集上表现出强劲的性能和扩展能力,同时在大批量和长序列的推理中速度更快。尽管由于提炼过程导致零样本性能有所下降,但在固定时间预算下,纯Mamba模型和混合Mamba模型都能在覆盖率和准确性上超越其Transformer教师模型,为扩展推理计算开辟了新的方向。 |
[63] 稀疏自编码器解释大型语言模型中的语言特征 标题: Sparse Auto-Encoder Interprets Linguistic Features in Large Language Models 作者: Yi Jing / Zijun Yao / Lingxu Ran / Hongzhu Guo / Xiaozhi Wang / Lei Hou / Juanzi Li 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在需要复杂语言能力的任务中表现出色,例如指代消歧和隐喻识别/生成。尽管LLMs具备令人印象深刻的能力,但其处理和表示语言知识的内部机制仍然大多不透明。以往关于语言机制的研究受限于粗粒度、不足的因果分析和狭窄的研究焦点。在本研究中,我们使用稀疏自编码器(SAEs)进行系统且全面的因果调查。我们从六个维度提取广泛的语言特征:语音学、音系学、形态学、句法学、语义学和语用学。我们通过构建最小对比数据集和反事实句子数据集来提取、评估和干预这些特征。我们引入了两个指标——特征表示置信度(FRC)和特征干预置信度(FIC)——以衡量语言特征捕捉和控制语言现象的能力。我们的结果揭示了LLMs中固有的语言知识表示,并展示了控制模型输出的潜力。这项工作提供了强有力的证据,证明LLMs具备真正的语言知识,并为未来更具可解释性和可控性的语言建模奠定了基础。 |
[64] KEDRec-LM:一种知识蒸馏的可解释药物推荐大型语言模型 标题: KEDRec-LM: A Knowledge-distilled Explainable Drug Recommendation Large Language Model 作者: Kai Zhang / Rui Zhu / Shutian Ma / Jingwei Xiong / Yejin Kim / Fabricio Murai / Xiaozhong Liu 原文: [英文] [中文] 备注: None 摘要: 药物发现是生物医学自然语言处理(NLP)中的一项关键任务,但可解释的药物发现仍然未被充分探索。同时,大型语言模型(LLMs)在自然语言理解和生成方面表现出显著的能力。利用LLMs进行可解释的药物发现有可能改善下游任务和实际应用。在这项研究中,我们利用开源药物知识图谱、临床试验数据和PubMed出版物构建了一个用于可解释药物发现任务的综合数据集,命名为\textbf{expRxRec}。此外,我们引入了\textbf{KEDRec-LM},这是一种经过指令调优的LLM,从丰富的医学知识语料库中提取知识,用于药物推荐和理由生成。为了鼓励该领域的进一步研究,我们将公开发布\footnote{一份副本已随本提交附上}数据集和KEDRec-LM。 |
[65] 弥合创造力理解差距:小规模人类对齐实现大型语言模型的专家级幽默排名 标题: Bridging the Creativity Understanding Gap: Small-Scale Human Alignment Enables Expert-Level Humor Ranking in LLMs 作者: Kuan Lok Zhou / Jiayi Chen / Siddharth Suresh / Reuben Narad / Timothy T. Rogers / Lalit K Jain / Robert D Nowak / Bob Mankoff / Jifan Zhang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在理解创意内容方面表现出显著的局限性,正如Hessel等人(2023年)在《纽约客漫画标题比赛》(NYCCC)中的影响力研究所展示的那样。他们的研究揭示了LLMs与人类在幽默理解上的巨大差距,确立了理解和评估创意内容是人工智能发展中的关键挑战。我们通过将幽默理解分解为三个组成部分并系统地改进每个部分来重新审视这一挑战:通过改进注释来增强视觉理解,利用LLM生成的幽默推理和解释,以及实施与人类偏好数据的针对性对齐。我们改进的方法在标题排序中达到了82.4%的准确率,显著提高了之前67%的基准,并与该领域世界知名的人类专家的表现相匹配。值得注意的是,尽管通过各种角色提示来模拟子群体偏好的尝试影响甚微,但通过人群偏好进行模型微调却被证明非常有效。这些发现表明,通过针对特定子群体和个人的聚焦对齐,可以有效解决LLM在创意判断中的局限性。最后,我们提出一个观点,即实现人工通用智能需要系统地收集跨创意领域的人类偏好数据。我们主张,正如人类创造力深受个人和文化偏好的影响一样,用多样化的人类偏好数据训练LLMs可能是发展真正创意理解的关键。 |
[66] 弥合法律知识与人工智能:基于向量存储、知识图谱和分层非负矩阵分解的检索增强生成 标题: Bridging Legal Knowledge and AI: Retrieval-Augmented Generation with Vector Stores, Knowledge Graphs, and Hierarchical Non-negative Matrix Factorization 作者: Ryan C. Barron / Maksim E. Eren / Olga M. Serafimova / Cynthia Matuszek / Boian S. Alexandrov 原文: [英文] [中文] 备注: 10 pages, 6 figures, 5 tables 摘要: 代理生成式人工智能由具有检索增强生成(RAG)、知识图谱(KG)和向量存储(VS)的大型语言模型(LLM)驱动,代表了一种可应用于法律系统、研究、推荐系统、网络安全和全球安全(包括扩散研究)等专业领域的变革性技术。这项技术擅长在庞大的非结构化或半结构化数据集中推断关系。法律领域包含复杂的数据,其特征是广泛、相互关联和半结构化的知识系统,具有复杂的关系,包括宪法、法规、条例和判例法。提取见解并导航法律文件及其关系的复杂网络对于有效的法律研究至关重要。在此,我们介绍了一种生成式人工智能系统,该系统通过非负矩阵分解(NMF)构建,集成了RAG、VS和KG,以增强法律信息检索和人工智能推理,并减少幻觉。在法律系统中,这些技术使人工智能代理能够识别和分析案件、法规和法律先例之间的复杂联系,揭示隐藏的关系并预测法律趋势——这些具有挑战性的任务对于确保公正和提高操作效率至关重要。我们的系统采用网络抓取技术,从Justia等公开可访问的平台系统地收集法律文本,如法规、宪法条款和判例法。通过利用先进的语义表示、层次关系和潜在主题发现,它弥合了传统基于关键词的搜索与上下文理解之间的差距。该框架支持法律文件的聚类、摘要和交叉引用,实现对半结构化数据的可扩展、可解释和准确的检索,同时推进计算法学和人工智能的发展。 |