![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年6月12日更新论文63篇
|
[1] 大型语言模型作为定性评判者:自动化自然语言生成中的错误分析 标题: LLM-as-a-qualitative-judge: automating error analysis in natural language generation 作者: Nadezhda Chirkova / Tunde Oluwaseyi Ajayi / Seth Aycock / Zain Muhammad Mujahid / Vladana Perlić / Ekaterina Borisova / Markarit Vartampetian 原文: [英文] [中文] 备注: None 摘要: 让大型语言模型(LLMs)评估生成的文本,即LLM-as-a-judge,已成为自然语言生成(NLG)中的标准评估方法,但主要用作定量工具,即以数值评分为主要输出。在这项工作中,我们提出了LLM-as-a-qualitative-judge,这是一种基于LLM的评估方法,其主要输出是NLG系统输出中常见问题类型的结构化报告。我们的方法旨在为开发者提供有意义的见解,以改进给定的NLG系统,并包括两个主要步骤,即开放式的逐实例问题分析和使用直观的累积算法对发现的问题进行聚类。我们还引入了一种评估所提方法的策略,并结合了对来自12个NLG数据集的实例中约300个问题的注释。我们的结果表明,LLM-as-a-qualitative-judge在2/3的情况下能够正确识别特定实例的问题,并能够生成类似于人工注释者撰写的错误类型报告。我们的代码和数据可在此https URL公开获取。 |
[2] PHRASED:用于语音翻译的短语词典偏置 标题: PHRASED: Phrase Dictionary Biasing for Speech Translation 作者: Peidong Wang / Jian Xue / Rui Zhao / Junkun Chen / Aswin Shanmugam Subramanian / Jinyu Li 原文: [英文] [中文] 备注: None 摘要: 短语对于理解对话中的核心概念至关重要。然而,由于在训练数据中很少出现,短语的正确翻译在语音翻译任务中具有挑战性。在本文中,我们提出了一种短语词典偏置方法,以利用从源语言到目标语言的短语映射对。我们将短语词典偏置方法应用于两种广泛采用的模型:基于转换器的流式语音翻译模型和多模态大型语言模型。实验结果表明,对于流式语音翻译模型,短语词典偏置方法相较于短语列表偏置提高了21%的相对性能。此外,短语词典偏置使多模态大型语言模型能够使用外部短语信息,实现了85%的短语召回率相对提升。 |
[3] 一种在生成卷积神经网络中隔离词汇无关语音依赖关系的技术 标题: A Technique for Isolating Lexically-Independent Phonetic Dependencies in Generative CNNs 作者: Bruno Ferenc Šegedin 原文: [英文] [中文] 备注: None 摘要: 深度神经网络(DNNs)在词汇学习中表现音位组合规则的能力仍然是一个未解的问题。本研究(1)调查了在词汇项的原始音频波形上训练的生成卷积神经网络(CNNs)的词汇不变泛化能力,以及(2)探讨在训练前将全连接层(FC)瓶颈从1024个通道缩小到8个的后果。最终,提出了一种新的技术,用于探测模型的词汇独立泛化,这种技术仅在狭窄的FC瓶颈下有效:通过绕过FC并将随机化的特征图输入到卷积块中来生成音频输出。这些输出在训练中同样受到音位组合限制的影响,就像通过FC生成的输出一样。这个结果表明,卷积层可以动态地泛化超越FC学习的词汇限制配置的语音依赖关系。 |
[4] 通过关联进行外推:Transformer中的长度泛化迁移 标题: Extrapolation by Association: Length Generalization Transfer in Transformers 作者: Ziyang Cai / Nayoung Lee / Avi Schwarzschild / Samet Oymak / Dimitris Papailiopoulos 原文: [英文] [中文] 备注: 23 pages, 20 figures 摘要: Transformer语言模型在自然语言领域展示了令人印象深刻的泛化能力,但我们对这种泛化是如何产生的缺乏细致的理解。在本文中,我们通过“任务关联”的视角研究了长度泛化——即从较短输入推断到较长输入的能力。我们发现,长度泛化可以在相关任务之间“转移”。也就是说,通过训练一个具有较长且相关的辅助任务的模型,可以使其对某个目标任务中未见过的较长输入进行泛化。我们在多种算法任务中展示了这种长度泛化转移,包括算术运算、字符串转换和迷宫导航。我们的结果表明,当联合训练时,Transformer模型可以从相似任务中继承泛化能力。此外,我们在预训练语言模型中观察到了类似的转移效应,这表明预训练为模型提供了可重用的计算框架,从而促进了下游环境中的外推。最后,我们提供了初步的机制证据,表明长度泛化转移与任务之间相同注意力头的重用相关。总之,我们的研究加深了对Transformer如何对分布外输入进行泛化的理解,并强调了跨任务的归纳结构的组合重用。 |
[5] 用于高效分类亲社会文本聊天的自锚定注意力模型 标题: Self-Anchored Attention Model for Sample-Efficient Classification of Prosocial Text Chat 作者: Zhuofang Li / Rafal Kocielnik / Fereshteh Soltani / Penphob / Boonyarungsrit / Animashree Anandkumar / R. Michael Alvarez 原文: [英文] [中文] 备注: None 摘要: 每天有数百万玩家参与竞争性在线游戏,并通过游戏内聊天进行交流。先前的研究主要集中在使用各种自然语言处理(NLP)技术检测相对少量的有害内容,以便进行管理。然而,最近的研究强调了检测亲社会交流的重要性,这与识别有害互动同样重要。识别亲社会行为可以对其进行分析、奖励和推广。与有害行为不同,用于识别游戏聊天文本中亲社会行为的数据集、模型和资源相对有限。在这项工作中,我们结合无监督发现和游戏领域专家的合作,识别并分类了游戏聊天中的亲社会玩家行为。我们进一步提出了一种新颖的自锚定注意力模型(SAAM),与现有最佳技术相比,性能提高了7.9%。该方法利用整个训练集作为“锚点”,以帮助在训练数据稀缺的情况下提高模型性能。这一方法促成了第一个用于分类游戏内聊天中亲社会行为的自动化系统的开发,特别是在缺乏大规模标注数据的低资源环境中。我们的方法应用于最受欢迎的在线游戏之一——《使命召唤:现代战争II》,展示了其有效性。这项研究在应用NLP技术发现和分类玩家游戏内聊天交流中的亲社会行为方面具有创新性。它可以帮助将管理的重点从单纯惩罚有害行为转向积极鼓励在线平台上的正面互动。 |
[6] 我是否忠实地表达了我的想法?弥合大型语言模型中的神经活动与自我解释之间的差距 标题: Did I Faithfully Say What I Thought? Bridging the Gap Between Neural Activity and Self-Explanations in Large Language Models 作者: Milan Bhan / Jean-Noel Vittaut / Nicolas Chesneau / Sarath Chandar / Marie-Jeanne Lesot 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLM)已经展示了生成自由文本自我自然语言解释(self-NLE)以证明其答案的能力。尽管这些解释看起来合乎逻辑,但自我自然语言解释并不一定反映LLM的实际决策过程,使得这些解释不够真实。现有用于衡量自我自然语言解释真实性的方法大多依赖于行为测试或计算模块识别,但没有一种方法检查模型推理背后的神经活动。本文引入了一种新颖且灵活的框架,通过直接将自我自然语言解释与模型内部隐藏状态的解释进行比较,定量测量LLM生成的自我自然语言解释的真实性。所提出的框架具有多功能性,通过建立自我自然语言解释与模型推理之间的直接联系,提供了对自我自然语言解释真实性的深入见解。这种方法推进了对自我自然语言解释真实性的理解,并为生成更真实的自我自然语言解释提供了构建模块。 |
[7] $(RSA)^2$: 一种用于理解比喻语言的修辞策略感知的理性言语行为框架 标题: $(RSA)^2$: A Rhetorical-Strategy-Aware Rational Speech Act Framework for Figurative Language Understanding 作者: Cesare Spinoso-Di Piano / David Austin / Pablo Piantanida / Jackie Chi Kit Cheung 原文: [英文] [中文] 备注: Accepted to ACL 2025 (Main Conference) 摘要: 比喻语言(例如,讽刺、夸张、轻描淡写)在日常交流中无处不在,导致字面意思与意图表达不一致。理性言语行为(RSA)框架是最广泛应用的概率语用学理论,它明确地对说话者的意图进行建模,但现有的实现要么无法解释比喻表达,要么需要在特定环境中建模使用比喻语言的隐含动机(例如,表达快乐或恼怒)。在本文中,我们引入了修辞策略感知的RSA $(RSA)^2$ 框架,该框架通过考虑说话者采用的修辞策略来建模比喻语言的使用。我们展示了$(RSA)^2$能够在人类兼容的基础上解释非字面表达,而无需建模说话者为何使用非字面表达的动机。结合大型语言模型(LLMs),它在本研究中引入的新讽刺解释数据集PragMega+的讽刺部分上达到了最先进的性能。 |
[8] 使用配对大型语言模型的困惑度检测阿尔茨海默症痴呆 标题: Alzheimer's Dementia Detection Using Perplexity from Paired Large Language Models 作者: Yao Xiao / Heidi Christensen / Stefan Goetze 原文: [英文] [中文] 备注: To be published in the proceedings of Interspeech 2025 摘要: 阿尔茨海默症(AD)是一种神经退行性疾病,伴随认知能力下降,通常影响语言能力。本文通过使用最新的大型语言模型(LLM),即Mistral-7B的指令跟随版本,扩展了配对困惑度方法以检测AD。我们将准确率平均提高了3.33%,超过了当前最佳的配对困惑度方法,并比ADReSS 2020挑战基准中的最高排名方法提高了6.35%。我们的进一步分析表明,与其他决策过程不透明的方法相比,所提出的方法可以有效地检测AD,并具有清晰且可解释的决策边界。最后,通过提示微调后的LLM并将模型生成的响应与人类响应进行比较,我们展示了LLM已经学习了AD患者的特殊语言模式,这为模型解释和数据增强的新方法开辟了可能性。 |
[9] 迈向大型语言模型的高效和有效对齐 标题: Towards Efficient and Effective Alignment of Large Language Models 作者: Yuxin Jiang 原文: [英文] [中文] 备注: PhD thesis 摘要: 大型语言模型(LLMs)在各种任务中表现出显著的能力,但如何高效且有效地使其与人类期望对齐仍然是一个关键挑战。本文通过在数据收集、训练和评估方面引入新方法来推进LLM的对齐。我们首先解决对齐数据收集的问题。现有方法严重依赖于手动整理的数据集或专有模型。为克服这些限制,我们提出了Lion,一种对抗性蒸馏框架,通过识别和生成具有挑战性的指令来迭代优化训练数据,从而实现最先进的零样本推理。此外,我们引入了Web Reconstruction(WebR),一个完全自动化的框架,直接从原始网页文档中合成指令调优数据,显著提高了数据的多样性和可扩展性,超越了现有的合成数据方法。接下来,我们通过新颖的优化技术增强对齐训练。我们开发了Learning to Edit(LTE),一个框架,使LLMs能够在保留现有信息的同时高效整合新知识。LTE利用元学习来改进实时和批量知识更新。此外,我们引入了Bridging and Modeling Correlations(BMC),这是对直接偏好优化(DPO)的改进,明确捕捉偏好数据中的词元级相关性,从而在问答和数学推理任务中实现更优的对齐。最后,我们解决了评估对齐的挑战。现有基准强调响应质量,但忽视了对特定约束的遵循。为弥补这一差距,我们引入了FollowBench,一个多层次、细粒度的基准,用于评估LLMs在不同指令类型中遵循复杂约束的能力。我们的结果揭示了当前模型在约束遵循方面的关键弱点,为未来的改进提供了见解。 |
[10] 多智能体语言模型:推进合作、协调与适应 标题: Multi-Agent Language Models: Advancing Cooperation, Coordination, and Adaptation 作者: Arjun Vaithilingam Sudhakar 原文: [英文] 备注: arXiv admin note: substantial text overlap with arXiv:2311.07687 摘要: 现代大型语言模型(LLMs)在复杂的自然语言任务中表现出令人印象深刻的零样本和少样本泛化能力,使其广泛应用于翻译和摘要等多种虚拟助手应用中。尽管仅在大规模文本语料库上进行训练,且没有明确的作者意图监督,LLMs似乎能够推断文本交互的潜在意义。这引发了一个基本问题:LLMs能否建模和推理他人的意图,即它们是否具备某种形式的心理理论?理解他人的意图对于有效的合作至关重要,这不仅是人类社会成功的基础,也是包括人类和自主系统在内的多主体之间合作互动的关键。在这项工作中,我们通过合作多智能体强化学习(MARL)的视角研究LLMs的心理理论,其中智能体通过反复交互学习合作,反映了人类的社会推理。我们的方法旨在增强人工智能体适应和与人工及人类伙伴合作的能力。通过利用能够进行自然语言交互的基于LLM的智能体,我们正朝着创建能够促进无缝合作的人机混合系统迈进,这对人机交互的未来具有广泛的影响。 |
[11] RePO:重放增强策略优化 标题: RePO: Replay-Enhanced Policy Optimization 作者: Siheng Li / Zhanhui Zhou / Wai Lam / Chao Yang / Chaochao Lu 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: 强化学习(RL)对于优化大型语言模型(LLMs)至关重要。最近的群体相对策略优化(GRPO)通过每个提示使用多个在策略输出来估计优势,导致高计算成本和低数据效率。为了解决这个问题,我们引入了重放增强策略优化(RePO),它利用多样的重放策略从重放缓冲区中检索非策略样本,从而允许基于更广泛和多样化的样本集进行每个提示的策略优化。在七个数学推理基准上的五个LLM的实验表明,与GRPO相比,RePO在Qwen2.5-Math-1.5B和Qwen3-1.7B上分别实现了18.4和4.1点的绝对平均性能提升。进一步分析表明,RePO在Qwen3-1.7B上的计算成本增加了15%,而有效优化步骤的数量增加了48%,其中在策略和非策略样本数量均设置为8。代码库可以通过此HTTPS URL访问。 |
[12] 用于小型语言模型的潜在多头注意力机制 标题: Latent Multi-Head Attention for Small Language Models 作者: Sushant Mehta / Raj Dandekar / Rajat Dandekar / Sreedath Panat 原文: [英文] [中文] 备注: 6 pages, 1 figure. 5 tables 摘要: 我们首次对小型语言模型的潜在多头注意力(MLA)进行了全面研究,揭示了有趣的效率与质量权衡。在对100,000个合成故事进行训练的30M参数GPT模型中,我们对三种架构变体进行了基准测试:标准多头注意力(MHA)、MLA和带旋转位置嵌入的MLA(MLA+RoPE)。我们的主要发现是,MLA+RoPE在潜在维度为半秩(r = d/2)时,实现了45%的KV缓存内存减少,而验证损失仅增加了0.3%(基本上与MHA质量相当)——对于内存受限的部署来说,这是一个帕累托改进。我们进一步表明,RoPE对于小模型中的MLA至关重要:没有它,MLA的表现比普通注意力低3-5%,但有了RoPE,它则超越了普通注意力2%。在NVIDIA A100 GPU上的推理基准测试显示,r=d/2的MLA在保持内存节省的同时,比全秩MLA实现了1.4倍的加速。GPT-4的评估证实了困惑度结果,我们的模型在语法、创造力和一致性指标上获得了最高的质量评分(7.4/10)。代码和模型将在论文接受后发布。 |
[13] OmniDRCA:通过双分辨率语音表示和对比对齐的并行语音-文本基础模型 标题: OmniDRCA: Parallel Speech-Text Foundation Model via Dual-Resolution Speech Representations and Contrastive Alignment 作者: Chao-Hong Tan / Qian Chen / Wen Wang / Chong Deng / Qinglin Zhang / Luyao Cheng / Hai Yu / Xin Zhang / Xiang Lv / Tianyu Zhao / Chong Zhang / Yukun Ma / Yafeng Chen / Hui Wang / Jiaqing Liu / Jieping Ye 原文: [英文] [中文] 备注: None 摘要: 最近关于使用大型语言模型(LLMs)进行端到端语音生成的研究引起了社区的广泛关注,多项工作将基于文本的LLMs扩展为生成离散语音标记。现有的方法主要分为两类:(1)独立生成离散语音标记的方法,这些方法没有将语音标记纳入LLM的自回归过程,导致文本生成无法感知同时进行的语音合成。(2)通过联合自回归建模生成交错或并行语音-文本标记的模型,使得在生成过程中能够实现模态间的相互感知。本文提出了OmniDRCA,这是一种基于联合自回归建模的并行语音-文本基础模型,具有双分辨率语音表示和对比跨模态对齐。我们的方法在并行处理语音和文本表示的同时,通过对比对齐增强了音频理解。在口语问答基准测试上的实验结果表明,OmniDRCA在基于并行联合语音-文本建模的基础模型中建立了新的最先进(SOTA)性能,并且与交错模型相比表现出竞争力。此外,我们还探索了将该框架扩展到全双工对话场景的潜力。 |
[14] 深入研究MoE:通过多样性增强将大型语言模型从密集模型重构为专家混合模型 标题: DIVE into MoE: Diversity-Enhanced Reconstruction of Large Language Models from Dense into Mixture-of-Experts 作者: Yuchen Feng / Bowen Shen / Naibin Gu / Jiaxuan Zhao / Peng Fu / Zheng Lin / Weiping Wang 原文: [英文] [中文] 备注: ACL 2025 摘要: 具有专家混合(Mixture-of-Experts,MoE)架构的大型语言模型(LLMs)通过选择性激活部分参数实现了高成本效率。尽管MoE LLMs在推理方面效率很高,但从头开始训练大量专家会产生巨大的开销,而将密集型LLM重构为MoE LLM则显著降低了训练预算。然而,现有的重构方法往往忽视了专家之间的多样性,导致潜在的冗余。在本文中,我们观察到一个特定的LLM在不同校准数据集上进行剪枝后表现出显著的多样性,基于此我们提出了一种名为DIVE的多样性增强重构方法。DIVE的方案包括领域亲和力挖掘、基于剪枝的专家重构和高效再训练。具体来说,重构包括前馈网络(FFN)模块的剪枝和重组。重构后,我们在路由器、专家和归一化模块上高效地再训练模型。我们在Llama风格的LLMs上使用开源训练语料库实现了DIVE。实验表明,DIVE在训练效率上实现了最小的准确性折衷,优于现有的剪枝和MoE重构方法,同时激活相同数量的参数。 |
[15] 驯服SQL复杂性:基于LLM的文本到SQL等价性评估 标题: Taming SQL Complexity: LLM-Based Equivalence Evaluation for Text-to-SQL 作者: Qingyun Zeng / Simin Ma / Arash Niknafs / Ashish Basran / Carol Szabo 原文: [英文] [中文] 备注: 8 pages 摘要: 大型语言模型(LLMs)的兴起显著推动了文本到SQL(NL2SQL)系统的发展,然而,评估生成的SQL的语义等价性仍然是一个挑战,特别是在用户查询模糊且存在多种有效SQL解释的情况下。本文探讨了使用LLMs来评估语义等价性以及更实用的“弱”语义等价性。我们分析了SQL等价性和不等价性的常见模式,并讨论了基于LLM的评估中面临的挑战。 |
[16] COGENT:一种生成适合年级的教育内容的课程导向框架 标题: COGENT: A Curriculum-oriented Framework for Generating Grade-appropriate Educational Content 作者: Zhengyuan Liu / Stella Xin Yin / Dion Hoe-Lian Goh / Nancy F. Chen 原文: [英文] 备注: BEA 2025 摘要: 尽管生成式人工智能在内容生成方面表现出强大的潜力和多功能性,但其在教育环境中的应用面临着一些挑战。模型通常难以与课程标准保持一致,并持续维持适合年级的阅读水平。此外,STEM教育在向年轻学生介绍复杂和抽象的概念和现象时,在科学解释与日常语言之间的平衡上也存在额外的挑战。在这项工作中,我们提出了COGENT,一个面向课程的框架,用于生成适合年级的教育内容。我们结合了三个课程组件(科学概念、核心思想和学习目标),通过长度、词汇和句子复杂性来控制可读性,并采用“奇迹导向”的方法来提高学生的参与度和兴趣。我们通过LLM作为评判者和人类专家分析进行多维度评估。实验结果表明,COGENT持续生成的段落在适合年级方面与人类参考相当或更优。我们的工作为扩展自适应和高质量学习资源建立了一种可行的方法。 |
[17] CoLMbo:用于描述性分析的说话人语言模型 标题: CoLMbo: Speaker Language Model for Descriptive Profiling 作者: Massa Baali / Shuo Han / Syed Abdul Hannan / Purusottam Samal / Karanveer Singh / Soham Deshmukh / Rita Singh / Bhiksha Raj 原文: [英文] [中文] 备注: None 摘要: 说话人识别系统通常局限于分类任务,难以生成详细的说话人特征或提供丰富上下文的描述。这些模型主要提取用于说话人识别的嵌入,但未能以结构化的方式捕捉诸如方言、性别和年龄等人口统计属性。本文介绍了CoLMbo,一种说话人语言模型(SLM),通过将说话人编码器与基于提示的条件结合来解决这些限制。这使得基于说话人嵌入创建详细的描述成为可能。CoLMbo利用用户定义的提示动态适应新的说话人特征,并提供定制化的描述,包括地区方言变化和年龄相关特征。这一创新方法不仅增强了传统的说话人分析能力,还在多样化数据集的零样本场景中表现出色,标志着说话人识别领域的重大进步。 |
[18] 2018-2024年全球新闻网站标题和链接感知质量的二元分类 标题: Binary classification for perceived quality of headlines and links on worldwide news websites, 2018-2024 作者: Austin McCutcheon / Thiago E. A. de Oliveira / Aleksandr Zheleznov / Chris Brogly 原文: [英文] 备注: None 摘要: 在线新闻的激增使得低质量新闻标题/链接的广泛传播成为可能。因此,我们研究了是否可以自动区分低质量新闻标题/链接与高质量新闻标题/链接。我们在一个二元、平衡的数据集上评估了十二种机器学习模型,该数据集包含2018-2024年间全球新闻网站的57,544,214个链接/标题(每类28,772,107个),并提取了115个语言特征。每个文本的二元标签是根据专家对相应新闻领域质量的共识评分得出的。传统的集成方法,特别是袋装分类器,表现强劲(88.1%的准确率,88.3%的F1分数,80/20的训练/测试分割)。微调的DistilBERT达到了最高的准确率(90.3%,80/20的训练/测试分割),但需要更多的训练时间。结果表明,使用传统分类器的NLP特征和深度学习模型都可以有效区分新闻标题/链接的质量,尽管在预测性能和训练时间之间存在一些权衡。 |
[19] 比较人类和大型语言模型在自由创作中的礼貌策略 标题: Comparing human and LLM politeness strategies in free production 作者: Haoran Zhao / Robert D.Hawkins 原文: [英文] [中文] 备注: 25 pages, 5 figures 摘要: 礼貌用语对大型语言模型(LLMs)提出了一个基本的对齐挑战。人类运用丰富的语言策略来平衡信息和社交目标——从建立融洽关系的积极方法(如赞美、表达兴趣)到减少冒犯的消极策略(如模糊化、间接性)。我们通过比较人类和LLM在受限和开放式生成任务中的反应,研究LLM是否使用类似的情境敏感策略。我们发现,较大的模型(参数数目≥700亿)成功地再现了计算语用学文献中的关键偏好,并且在人类评估中,评估者在开放式情境中意外地更喜欢LLM生成的反应。然而,进一步的语言分析显示,模型在积极情境中过度依赖消极礼貌策略,这可能导致误解。尽管现代LLM在礼貌策略上表现出令人印象深刻的掌握能力,但这些细微差异引发了关于AI系统中语用对齐的重要问题。 |
[20] 用于课堂环境中增量知识追踪的层次概率框架 标题: A Hierarchical Probabilistic Framework for Incremental Knowledge Tracing in Classroom Settings 作者: Xinyi Gao / Qiucheng Wu / Yang Zhang / Xuechen Liu / Kaizhi Qian / Ying Xu / Shiyu Chang 原文: [英文] [中文] 备注: 24 pages, 4 figures 摘要: 知识追踪(KT)旨在估计学生不断变化的知识状态,并根据其表现历史预测他们在新练习中的表现。许多现实课堂环境中的KT通常数据资源有限,并且随着学生练习历史的增长需要在线更新,这对现有的KT方法构成了重大挑战。为了在资源有限的条件下恢复强大的性能,我们重新审视了层次知识概念(KC)信息,这在许多课堂环境中通常是可用的,并且在数据稀疏时可以提供强有力的先验。因此,我们提出了基于知识树的知识追踪(KT$^2$),这是一种概率KT框架,使用隐马尔可夫树模型对知识概念的树状层次结构中的学生理解进行建模。KT$^2$通过EM算法估计学生掌握情况,并在新的响应到来时通过增量更新机制支持个性化预测。我们的实验表明,KT$^2$在现实的在线、资源有限的环境中始终优于强大的基线。 |
[21] 令牌约束解码提高大型语言模型在问答任务上的鲁棒性 标题: Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models 作者: Jui-Ming Yao / Hao-Yuan Chen / Zi-Xian Tang / Bing-Jia Tan / Sheng-Wei Peng / Bing-Cheng Xie / Shun-Feng Su 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在多项选择题回答(MCQA)基准测试中表现出色,但它们对输入的微小扰动仍然非常脆弱。在本文中,我们介绍并评估了Token Constraint Decoding(TCD)。这一简单而有效的推理算法通过在噪声环境中增强对齐来提高鲁棒性。通过在CommonsenseQA、MMLU和MMLU-Pro上的广泛实验,我们表明TCD,尤其是在与提示工程(PE)修复结合时,显著恢复了因输入噪声而退化的性能,对于像Gemma3 1B这样的较弱模型,性能提升高达+39%的绝对增益。惩罚扫描分析进一步揭示了TCD隐式地正则化了过于自信的输出,不同的模型需要不同的惩罚计划以最大化其抗扰性。我们的研究结果确立了TCD作为一种实用的、与模型无关的方法,以提高在现实世界不完美条件下的推理稳定性,并为在安全关键或面向用户的应用中更可靠地部署LLMs铺平了道路。 |
[22] PGDA-KGQA:一种用于知识图谱问答的多数据增强策略的提示引导生成框架 标题: PGDA-KGQA: A Prompt-Guided Generative Framework with Multiple Data Augmentation Strategies for Knowledge Graph Question Answering 作者: Xiujun Zhou / Pingjian Zhang / Deyou Tang 原文: [英文] [中文] 备注: 13 pages, 7 figures, 5 tables 摘要: 知识图谱问答(KGQA)是自然语言处理中的一项关键任务,需要对知识图谱(KGs)进行推理以回答自然语言问题。最近利用大型语言模型(LLMs)的方法显示出显著的语义解析能力,但受到多样化标注数据和多跳推理样本稀缺的限制。传统的数据增强方法主要集中在单跳问题上,容易出现语义失真,而基于LLM的方法主要解决语义失真问题,但通常忽略多跳推理,从而限制了数据的多样性。多跳样本的稀缺进一步削弱了模型的泛化能力。为了解决这些问题,我们提出了PGDA-KGQA,一种具有多种数据增强策略的提示引导生成框架,用于KGQA。PGDA-KGQA的核心是采用统一的提示设计范式:通过精心设计的提示整合提供的文本内容,利用LLMs生成大规模的(问题,逻辑形式)对用于模型训练。具体来说,PGDA-KGQA通过以下方式丰富其训练集:(1)生成单跳伪问题以改善问题语义与KG关系的对齐;(2)应用语义保持的问题重写以提高对语言变化的鲁棒性;(3)采用答案引导的反向路径探索以创建真实的多跳问题。通过采用增强-生成-检索语义解析管道,PGDA-KGQA利用增强的数据提高逻辑形式生成的准确性,从而改善答案检索性能。实验表明,在标准KGQA数据集上,PGDA-KGQA优于最先进的方法,在WebQSP上F1、Hits@1和准确率分别提高了2.8%、1.2%和3.1%,在ComplexWebQuestions上分别提高了1.8%、1.1%和2.4%。 |
[23] 隐藏在显而易见之处:大型语言模型在多模态环境中欺骗检测能力的评估 标题: Hidden in Plain Sight: Evaluation of the Deception Detection Capabilities of LLMs in Multimodal Settings 作者: Md Messal Monem Miah / Adrita Anika / Xi Shi / Ruihong Huang 原文: [英文] 备注: Accepted to ACL 2025 Main Conference 摘要: 在一个日益数字化的世界中,检测欺骗既是一个关键又具有挑战性的任务。在这项研究中,我们对大型语言模型(LLMs)和大型多模态模型(LMMs)在不同领域的自动欺骗检测能力进行了全面评估。我们评估了开源和商业LLMs在三个不同数据集上的表现:真实生活审判访谈(RLTD)、人际场景中的指示性欺骗(MU3D)和欺骗性评论(OpSpam)。我们系统地分析了不同实验设置在欺骗检测中的有效性,包括零样本和少样本方法,以及基于随机或相似性选择的上下文示例选择。我们的结果表明,经过微调的LLMs在文本欺骗检测任务中达到了最先进的性能,而LMMs在充分利用跨模态线索方面存在困难。此外,我们分析了辅助特征的影响,如非语言手势和视频摘要,并检查了不同提示策略的有效性,包括直接标签生成和思维链推理。我们的研究结果提供了关于LLMs如何处理和解释跨模态欺骗线索的关键见解,突出了它们在现实世界欺骗检测应用中的潜力和局限性。 |
[24] 改进的大型语言模型监督微调以缓解灾难性遗忘 标题: Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting 作者: Fei Ding / Baiqiao Wang 原文: [英文] [中文] 备注: None 摘要: 监督微调(SFT)在增强大型语言模型(LLMs)的指令跟随能力和特定领域任务适应性方面表现出色,但往往会削弱其通用能力。此外,由于无法获取原始的预训练数据,当第三方从业者在开源模型上实施SFT时,灾难性遗忘的现象往往会加剧。为了解决这一挑战,我们提出了一种新颖且更具成本效益的SFT方法,该方法可以在不访问原始SFT数据的情况下有效降低灾难性遗忘的风险。我们的方法首先通过重建基础模型可能的SFT指令分布开始,然后通过多模型筛选过程选择最佳数据,并将其与新数据混合进行SFT。实验结果表明,我们的方法在提高特定任务性能的同时,保留了在通用领域的泛化能力。 |
[25] GigaChat家族:通过专家混合架构实现高效的俄语语言建模 标题: GigaChat Family: Efficient Russian Language Modeling Through Mixture of Experts Architecture 作者: GigaChat team / Mamedov Valentin / Evgenii Kosarev / Gregory Leleytner / Ilya Shchuckin / Valeriy Berezovskiy / Daniil Smirnov / Dmitry Kozlov / Sergei Averkiev / Lukyanenko Ivan / Aleksandr Proshunin / Ainur Israfilova / Ivan Baskov / Artem Chervyakov / Emil Shakirov / Mikhail Kolesov / Daria Khomich / Darya Latortseva / Sergei Porkhun / Yury Fedorov / Oleg Kutuzov / Polina Kudriavtseva / Sofiia Soldatova / Kolodin Egor / Stanislav Pyatkin / Dzmitry Menshykh / Grafov Sergei / Eldar Damirov / Karlov Vladimir / Ruslan Gaitukiev / Arkadiy Shatenov / Alena Fenogenova / Nikita Savushkin / Fedor Minkin 原文: [英文] [中文] 备注: ACL-2025 System Demo 摘要: 生成式大型语言模型(LLMs)已成为现代自然语言处理研究和应用中不可或缺的一部分,涵盖多种语言。然而,专门为俄语量身定制的基础模型的发展一直有限,主要原因是所需的计算资源非常庞大。本文介绍了GigaChat系列俄语大型语言模型,提供了多种规模的模型,包括基础模型和经过指令微调的版本。我们详细报告了模型架构、预训练过程和实验,以指导设计选择。此外,我们评估了这些模型在俄语和英语基准测试中的表现,并将GigaChat与多语言类似模型进行了比较。本文展示了通过API、Telegram机器人和Web界面访问的顶级模型的系统演示。此外,我们已开源发布了三个GigaChat模型(此https URL),旨在扩大自然语言处理研究机会,并支持俄语的工业解决方案开发。 |
[26] UniToMBench:整合观点采择以提升大型语言模型的心智理论 标题: UniToMBench: Integrating Perspective-Taking to Improve Theory of Mind in LLMs 作者: Prameshwar Thiyagarajan / Vaishnavi Parimi / Shamant Sai / Soumil Garg / Zhangir Meirbek / Nitin Yarlagadda / Kevin Zhu / Chris Kim 原文: [英文] [中文] 备注: Accepted at Conference of the North American Chapter of the Association for Computational Linguistics, Student Research Workshop 2025 (NAACL SRW 2025) 摘要: 心智理论(Theory of Mind,ToM)是理解自己和他人心理状态的能力,对于大型语言模型(LLMs)来说仍然是一个具有挑战性的领域,这些模型常常无法准确预测人类的心理状态。在本文中,我们介绍了UniToMBench,一个统一的基准测试,它结合了SimToM和TOMBENCH的优势,通过整合多交互任务设计和不断发展的故事情境,系统地提高和评估LLMs的ToM能力。UniToMBench由一个包含超过1000个手写情境的定制数据集支持,结合了视角转换技术和多样化的评估指标,以更好地激发LLMs的社会认知能力。通过评估,我们观察到,尽管像GPT-4o和GPT-4o Mini这样的模型在涉及情感和信念相关情境的任务中表现出持续的高准确性,结果通常在80%以上,但它们在知识相关任务中的表现存在显著的差异。这些结果突出了当前LLMs在ToM相关任务中的优势和局限性,强调了UniToMBench作为未来开发的综合工具的价值。我们的代码在此公开:this https URL。 |
[27] 迈向弥合直接对齐算法中奖励生成差距的方向 标题: Towards Bridging the Reward-Generation Gap in Direct Alignment Algorithms 作者: Zeguan Xiao / Yun Chen / Guanhua Chen 原文: [英文] [中文] 备注: None 摘要: 直接对齐算法(DAAs),如直接偏好优化(DPO)和简单偏好优化(SimPO),已经成为将大型语言模型(LLMs)与人类偏好对齐的强化学习(RLHF)算法的高效替代方案。然而,DAAs存在一个我们称之为“奖励生成差距”的基本限制——即训练期间的优化目标与推理期间的实际生成性能之间的不对齐。在本文中,我们发现奖励生成差距的一个原因是LLM生成过程中前缀标记的固有重要性与DAAs隐式奖励函数中反映的重要性之间的不匹配。为了解决这一差距,我们引入了一种简单而有效的方法,称为前缀导向等长训练(POET),该方法通过截断优选和非优选响应以匹配较短响应的长度来实现。在POET训练中,每个样本中的两个响应都被截断为相等长度,从而在样本中产生多样化的截断长度,DAAs目标的优化被隐式约束在所有位置收敛,因此比标准DAAs更关注前缀标记。我们对DPO和SimPO这两种具有代表性的DAAs进行了实验,结果表明POET在其标准实现上有所改进,在AlpacaEval 2中提高了多达15.6分,并在下游任务中整体改进。我们的结果强调了解决DAAs中奖励优化与生成性能不对齐的重要性。 |
[28] 弥合在线行为与临床洞察:基于大型语言模型的YouTube自杀倾向纵向研究揭示新的数字标记 标题: Bridging Online Behavior and Clinical Insight: A Longitudinal LLM-based Study of Suicidality on YouTube Reveals Novel Digital Markers 作者: Ilanit Sobol / Shir Lissak / Refael Tikochinski / Tal Nakash / Anat Brunstein Klomek / Eyal Fruchter / Roi Reichart 原文: [英文] [中文] 备注: None 摘要: 自杀仍然是西方国家的主要死亡原因之一,这凸显了对新研究方法的需求。随着社交媒体成为日常生活的核心,数字足迹为自杀行为提供了宝贵的见解。我们关注那些在上传视频到他们的频道时尝试自杀的个体,研究:自杀行为如何在YouTube上表现出来,它们与专家知识有何不同?我们在一个新的纵向数据集上应用了互补的方法:计算的自下而上、混合和专家驱动的自上而下方法。该数据集包括181个有生命危险尝试的个人的YouTube频道,以及134个对照频道。在自下而上的方法中,我们应用了基于大型语言模型(LLM)的主题建模来识别行为指标。在166个主题中,有五个与自杀尝试相关,其中两个还显示出与尝试相关的时间变化($p<.01$)——心理健康挣扎($+0.08$)*和YouTube参与度($+0.1$)*。在混合方法中,临床专家审查了LLM衍生的主题,并标记了19个与自杀相关。然而,除了自下而上识别的主题外,没有一个显示出显著的尝试相关时间效应。值得注意的是,YouTube参与度作为一个平台特定的指标,并未被专家标记,这凸显了自下而上发现的价值。在自上而下的方法中,对自杀尝试叙述的心理评估显示,那些在上传期间尝试自杀的个体与之前尝试的个体之间唯一显著的区别是分享这一经历的动机:前者旨在帮助他人($\beta=-1.69$, $p<.01$),而后者将其作为个人康复的一部分($\beta=1.08$, $p<.01$)。通过整合这些方法,我们提供了对自杀行为的细致理解,连接了数字行为和临床见解。 * 与自杀尝试相关的组内变化。 |
[29] 给我FP32或给我死亡?可重复推理的挑战与解决方案 标题: Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning 作者: Jiayi Yuan / Hao Li / Xinheng Ding / Wenya Xie / Yu-Jhe Li / Wentian Zhao / Kun Wan / Jing Shi / Xia Hu / Zirui Liu 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)现已成为多个领域的核心,并展示了令人印象深刻的性能。然而,进展依赖于基准分数的准确性和可重复性。我们证明了LLM性能的可重复性是脆弱的:改变系统配置,如评估批量大小、GPU数量和GPU版本,会导致生成的响应出现显著差异。这个问题在推理模型中尤为明显,早期标记中的微小舍入差异可能会导致思维链的分歧,最终影响准确性。例如,在bfloat16精度下使用贪婪解码时,像DeepSeek-R1-Distill-Qwen-7B这样的推理模型由于GPU数量、类型和评估批量大小的差异,准确性可能会出现高达9%的变化,响应长度可能会有9,000个标记的差异。我们将这种变异性的根本原因追溯到有限数值精度下浮点运算的非结合性。本文首次系统地调查了数值精度如何影响LLM推理中的可重复性。通过在各种硬件、软件和精度设置下进行精心控制的实验,我们量化了模型输出何时以及如何发生分歧。我们的分析揭示了浮点精度——尽管对可重复性至关重要——在评估实践中常常被忽视。受此启发,我们开发了一种轻量级推理管道,称为LayerCast,该管道以16位精度存储权重,但所有计算均在FP32中进行,平衡了内存效率与数值稳定性。代码可在此https URL获取。 |
[30] TransXSSM: 一种结合统一旋转位置嵌入的混合变压器状态空间模型 标题: TransXSSM: A Hybrid Transformer State Space Model with Unified Rotary Position Embedding 作者: Bingheng Wu / Jingze Shi / Yifan Wu / Nan Tang / Yuyu Luo 原文: [英文] [中文] 备注: None 摘要: Transformer在捕捉长距离依赖关系方面表现出色,而状态空间模型(SSM)则促进了线性时间序列建模。尽管它们具有协同潜力,但整合这些架构仍然是一个重大挑战,主要是由于它们各自位置编码机制的根本不一致性:Transformer依赖于显式的旋转位置嵌入(RoPE),而SSM通过卷积利用隐式位置表示。这种差异常常导致不连续性和次优性能。为了解决这一障碍,我们提出了一种统一的旋转位置嵌入(\textbf{\ourRoPE})方法,从而为自注意力和状态空间组件建立了一致的位置编码框架。利用这种\ourRoPE,我们引入了\textbf{\model},这是一种混合架构,在这一统一的位置编码方案下连贯地整合了Transformer和SSM层。在4K序列长度下,\model的训练和推理速度分别比标准Transformer模型快\textbf{42.3\%和29.5\%}。它还提供了更高的准确性:在可比设置下,它在语言建模基准测试中超过了Transformer基线超过4\%。此外,\model的扩展性更好:\model-1.3B在平均准确性上比其320M版本提高了\textbf{7.22\%}(而相应的Transformer或SSM的增益约为6\%)。我们的结果表明,统一的位置编码解决了混合模型中的位置不兼容性,实现了高效的高性能长上下文建模。 |
[31] ReasonMed:一个由多智能体生成的37万数据集,用于推进医学推理 标题: ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning 作者: Yu Sun / Xingyu Qian / Weiwen Xu / Hao Zhang / Chenghao Xiao / Long Li / Yu Rong / Wenbing Huang / Qifeng Bai / Tingyang Xu 原文: [英文] [中文] 备注: 24 pages, 6 figures, 7 tables 摘要: 尽管基于推理的大型语言模型(LLMs)在数学和编程方面表现出色,但它们在知识密集型医学问答中的能力仍未得到充分探索。为了解决这一问题,我们引入了ReasonMed,这是最大的医学推理数据集,由从各种LLMs生成的170万个初始推理路径中提炼出的37万个高质量示例组成。ReasonMed是通过一个\textit{多代理验证和改进过程}构建的,在这个过程中,我们设计了一个\textit{错误改进器},通过识别和纠正验证器标记的易出错步骤来增强推理路径。利用ReasonMed,我们系统地研究了训练医学推理模型的最佳实践,发现将详细的思维链(CoT)推理与简洁的答案总结相结合是最有效的微调策略。基于这一策略,我们训练了ReasonMed-7B,它为小于10B的模型设定了新的基准,表现比之前的最佳模型高出4.17\%,甚至在PubMedQA上超过了LLaMA3.1-70B,提升了4.60\%。 |
[32] KG-Infused RAG:通过外部知识图谱增强基于语料库的RAG 标题: KG-Infused RAG: Augmenting Corpus-Based RAG with External Knowledge Graphs 作者: Dingjun Wu / Yukun Yan / Zhenghao Liu / Zhiyuan Liu / Maosong Sun 原文: [英文] [中文] 备注: None 摘要: 检索增强生成(RAG)通过将响应基于外部知识来提高事实准确性。然而,现有方法通常依赖于单一来源,无论是非结构化文本还是结构化知识。此外,它们缺乏认知启发机制来激活相关知识。为了解决这些问题,我们提出了KG-Infused RAG,一个将知识图谱(KG)整合到RAG系统中的框架,以实现扩散激活,这是一种能够进行概念关联和推理的认知过程。KG-Infused RAG检索知识图谱事实,相应地扩展查询,并通过结合语料库段落和结构化事实来增强生成,从而实现基于语义结构的可解释的多源检索。我们通过对管道中关键阶段的样本进行偏好学习进一步改进了KG-Infused RAG。在五个问答基准上的实验表明,KG-Infused RAG始终优于基础RAG(提高3.8%到13.8%)。此外,当集成到Self-RAG中时,KG-Infused RAG带来了进一步的性能提升,展示了其作为基于语料库的RAG方法的即插即用增强模块的有效性和多功能性。 |
[33] MEDUSA:一种用于自然条件下语音情感识别的多模态深度融合多阶段训练框架 标题: MEDUSA: A Multimodal Deep Fusion Multi-Stage Training Framework for Speech Emotion Recognition in Naturalistic Conditions 作者: Georgios Chatzichristodoulou / Despoina Kosmopoulou / Antonios Kritikos / Anastasia Poulopoulou / Efthymios Georgiou / Athanasios Katsamanis / Vassilis Katsouros / Alexandros Potamianos 原文: [英文] [中文] 备注: Accepted at Interspeech 2025 摘要: 由于人类情感的主观性以及在自然条件下的不均匀表现,情感识别(SER)是一项具有挑战性的任务。我们提出了MEDUSA,这是一种具有四阶段训练流程的多模态框架,能够有效处理类别不平衡和情感模糊性。前两个阶段训练一个分类器集成,利用DeepSER,这是一种从预训练的自监督声学和语言表示中进行深度跨模态变换融合机制的新颖扩展。我们采用Manifold MixUp进行进一步的正则化。最后两个阶段优化一个可训练的元分类器,以结合集成预测。我们的训练方法结合了人类标注分数作为软目标,并结合了平衡数据采样和多任务学习。在Interspeech 2025的自然条件下语音情感识别挑战赛中,MEDUSA在任务1:类别情感识别中排名第一。 |
[34] 英语到希腊语机器翻译中的性别偏见 标题: Gender Bias in English-to-Greek Machine Translation 作者: Eleni Gkovedarou / Joke Daems / Luna De Bruyne 原文: [英文] [中文] 备注: Accepted at GITT 2025 (MT Summit) 摘要: 随着对包容性语言的需求增加,人们越来越关注机器翻译(MT)系统可能会强化性别刻板印象的问题。本研究调查了两个商业MT系统——谷歌翻译和DeepL——中的性别偏见,重点关注研究较少的英语到希腊语语言对。我们探讨了性别偏见的三个方面:i) 男性偏见,ii) 职业刻板印象,以及 iii) 反刻板印象翻译中的错误。此外,我们还研究了提示GPT-4o作为偏见缓解工具的潜力,该工具在必要时提供明确性别和性别中立的替代方案。为此,我们引入了GendEL,一个手工制作的双语数据集,包含240个性别模糊和明确的句子,这些句子具有刻板印象的职业名词和形容词。我们发现两个MT系统的翻译中存在持续的性别偏见;虽然在性别明确的情况下表现良好,其中DeepL在女性性别明确的句子中表现优于谷歌翻译和GPT-4o,但在性别未指定时,它们远未能产生性别包容或中立的翻译。GPT-4o显示出潜力,在大多数模糊情况下生成适当的性别化和中立替代方案,尽管仍然存在残余偏见。 |
[35] 迈向马其顿语开放基础语言模型和语料库:一种低资源语言 标题: Towards Open Foundation Language Model and Corpus for Macedonian: A Low-Resource Language 作者: Stefan Krsteski / Matea Tashkovska / Borjan Sazdov / Hristijan Gjoreski / Branislav Gerazov 原文: [英文] 备注: Camera-ready version accepted at SlavNLP-2025@ACL 摘要: 全球范围内技术采用的增加伴随着对普通大众使用新工具的需求。大型语言模型(LLMs)在这方面提供了极好的机会,但它们的能力在低资源语言方面仍然有限,限制了这些语言使用国家的应用。我们创建了多个资源以促进LLMs的采用,并支持马其顿语的研究进展。我们收集了迄今为止最大的马其顿语语料库,包含40GB的文本数据,总计35亿个词。为了支持对话应用,我们收集了一个包含106,000个实例的指令数据集,精心构建以符合文化背景。为了评估,我们构建了一个涵盖七个基准的马其顿语评估套件。最后,我们在精心整理的数据集上训练了一个最先进的8B参数模型“domestic-yak”,并使用新构建的基准套件对其与八个基线模型进行评估。我们的模型在所有基准上均优于现有的8B参数范围内的所有模型,并实现了与大至10倍的模型相当的性能。此外,与母语者的定性分析表明,我们的模型在语法正确性和文化适宜性方面获得了更高的评分,优于更大的模型。所有数据集、代码和模型权重均公开发布,为在类似未被充分代表的语言中推进LLMs奠定了基础。这些资源在此http URL提供源代码,在此http URL提供预训练模型权重和数据。 |
[36] 从符号到神经再回归:探索知识图谱与大型语言模型的协同效应 标题: From Symbolic to Neural and Back: Exploring Knowledge Graph-Large Language Model Synergies 作者: Blaž Škrlj / Boshko Koloski / Senja Pollak / Nada Lavrač 原文: [英文] [中文] 备注: To-appear as a book chapter 摘要: 将知识图谱(KGs)中的结构化知识整合到大型语言模型(LLMs)中,可以增强其事实基础和推理能力。本文是一篇综述论文,系统地研究了KGs与LLMs之间的协同作用,将现有的方法分为两大类:KG增强的LLMs,这类方法提高了推理能力,减少了幻觉现象,并支持复杂的问答;以及LLM增强的KGs,这类方法促进了KG的构建、补全和查询。通过全面的分析,我们识别出关键的空白,并强调了结构化知识整合的相互益处。与现有的综述相比,我们的研究独特地强调了可扩展性、计算效率和数据质量。最后,我们提出了未来的研究方向,包括神经符号集成、动态KG更新、数据可靠性和伦理考量,为能够处理更复杂的现实世界知识任务的智能系统铺平道路。 |
[37] 通过内在维度视角看语言模型中的记忆 标题: Memorization in Language Models through the Lens of Intrinsic Dimension 作者: Stefan Arnold 原文: [英文] [中文] 备注: None 摘要: 语言模型(LMs)在训练过程中容易记住其数据的部分内容,并在生成时无意中输出这些内容,从而引发关于隐私泄露和知识产权披露的担忧。尽管先前的研究已经确定了上下文长度、参数大小和重复频率等属性是导致非故意记忆的关键因素,但关于潜在结构如何调节这种记忆率的了解却很少。我们研究了内在维度(ID)在调节记忆中的作用,ID是潜在空间中序列结构复杂性的几何代理。我们的研究结果表明,ID对记忆起到抑制作用:与低ID序列相比,高ID序列不太可能被记住,特别是在过参数化模型和稀疏曝光的情况下。这些发现突出了规模、曝光和复杂性在塑造记忆中的相互作用。 |
[38] 基于大型语言模型的参数估计去偏方法的基准测试 标题: Benchmarking Debiasing Methods for LLM-based Parameter Estimates 作者: Nicolas Audinet de Pieuchon / Adel Daoud / Connor T. Jerzak / Moa Johansson / Richard Johansson 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)提供了一种经济高效且强大的文本标注方式,但与专家相比往往不够一致。这些错误可能会影响下游对人口参数(如回归系数和因果效应)的估计。为减轻这种偏差,研究人员开发了去偏方法,如基于设计的监督学习(DSL)和预测驱动推断(PPI),通过将LLM标注与有限数量的昂贵专家标注相结合,承诺实现有效估计。尽管这些方法在理论假设下能产生一致的估计,但在应用研究中遇到的有限样本规模下,它们的比较效果尚不清楚。我们做出了两个贡献:首先,我们研究了每种方法的性能如何随着专家标注数量的变化而变化,重点突出了LLM偏差或有限专家标签显著影响结果的情况。其次,我们在一系列任务中比较了DSL和PPI,发现尽管在大型数据集上两者都能实现低偏差,DSL在偏差减少和经验效率上往往优于PPI,但其在不同数据集上的表现不够一致。我们的研究结果表明,在去偏方法的层面上存在偏差-方差权衡,呼吁更多研究来开发量化其在有限样本中效率的指标。 |
[39] 使用信息论和朴素判别学习建模概率性简化 标题: Modeling Probabilistic Reduction using Information Theory and Naive Discriminative Learning 作者: Anna Stein / Kevin Tang 原文: [英文] [中文] 备注: Submitted to Interspeech 2025 摘要: 本研究比较了基于信息论的概率预测器与朴素辨别学习(NDL)预测器在建模语音词时长中的表现,重点关注概率性缩减。我们使用 Buckeye 语料库考察了三种模型:一种使用信息论公式的 NDL 派生预测器,一种使用传统 NDL 预测器,以及一种使用 N-gram 概率预测器。结果显示,N-gram 模型优于两种 NDL 模型,这对 NDL 因其认知动机而更有效的假设提出了挑战。然而,将信息论公式融入 NDL 中提高了模型相对于传统模型的性能。该研究强调了 a) 需要不仅结合频率和上下文可预测性,还要结合平均上下文可预测性,以及 b) 在建模语音缩减时结合信息论的可预测性度量和辨别学习中获得的信息的重要性。 |
[40] 使用手语生成作为数据增强以提升手语翻译 标题: Using Sign Language Production as Data Augmentation to enhance Sign Language Translation 作者: Harry Walsh / Maksym Ivashechkin / Richard Bowden 原文: [英文] [中文] 备注: None 摘要: 机器学习模型在根本上依赖于大量高质量的数据。由于成本、稀缺性和隐私限制,收集这些模型所需的数据可能具有挑战性。手语是聋人社区使用的视觉语言,被认为是低资源语言。手语数据集通常比口语数据集小几个数量级。手语生成是从口语句子生成手语视频的任务,而手语翻译是相反的翻译任务。在此,我们提出利用手语生成领域的最新进展来扩充现有的手语数据集,并提高手语翻译模型的性能。为此,我们采用了三种技术:基于骨架的方法进行生成、手语拼接,以及两个逼真的生成模型,SignGAN 和 SignSplat。我们通过在手语者的外观和骨架数据的运动上生成变化,评估这些技术在提高手语翻译模型性能方面的有效性。我们的结果表明,所提出的方法可以有效地扩充现有数据集,并将手语翻译模型的性能提高多达19%,为在资源受限环境中实现更强大和更准确的手语翻译系统铺平了道路。 |
[41] 学习高效且具备泛化能力的图检索器用于知识图谱问答 标题: Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering 作者: Tianjun Yao / Haoxuan Li / Zhiqiang Shen / Pan Li / Tongliang Liu / Kun Zhang 原文: [英文] [中文] 备注: 32 pages, 28 figures 摘要: 大型语言模型(LLMs)在多个领域展示了强大的归纳推理能力,但其可靠性受到过时知识和幻觉的影响。检索增强生成(RAG)通过将LLMs与外部知识结合来缓解这些问题;然而,大多数现有的RAG流程依赖于非结构化文本,限制了可解释性和结构化推理。知识图谱以关系三元组的形式表示事实,提供了一种更结构化和紧凑的替代方案。最近的研究探索了将知识图谱与LLMs集成用于知识图谱问答(KGQA),其中相当一部分采用了检索后推理的范式。在这一框架中,基于图的检索器表现出强大的经验性能,但仍面临泛化能力的挑战。在这项工作中,我们提出了RAPL,一种用于KGQA中高效且有效的图检索的新框架。RAPL通过三个方面解决这些限制:(1)一种结合启发式信号和参数模型的两阶段标注策略,以提供因果基础的监督;(2)一种与模型无关的图转换方法,以捕捉三元组内和三元组间的交互,从而增强表示能力;(3)一种基于路径的推理策略,促进从注入的理性知识中学习,并通过结构化输入支持下游推理器。实验证明,RAPL的表现优于最先进的方法,提升幅度为2.66%-20.34%,并显著缩小了较小和更强大的基于LLM的推理器之间的性能差距,以及跨数据集设置下的差距,突显其卓越的检索能力和泛化性。代码可在此URL获取:this https URL。 |
[42] 弥合开放源码与专有大型语言模型在表格问答中的差距 标题: Bridging the Gap Between Open-Source and Proprietary LLMs in Table QA 作者: Nikolas Evkarpidi / Elena Tutubalina 原文: [英文] [中文] 备注: Accepted for publication at the 19th International Workshop on Semantic Evaluation (SemEval-2025), to be held in conjunction with ACL 2025. 15 pages, 5 figures 摘要: 本文介绍了为SemEval 2025第8项任务:表格数据上的问答(QA)开发的系统。我们的方法集成了几个关键组件:文本到SQL和文本到代码的生成模块、自我纠正机制以及检索增强生成(RAG)。此外,还包括一个端到端(E2E)模块,所有这些都由一个大型语言模型(LLM)协调。通过消融研究,我们分析了管道中不同部分的效果,并识别了该领域仍然存在的挑战。在比赛的评估阶段,我们的解决方案取得了80%的准确率,在38支参赛队伍中排名第13。我们的管道在开源模型的准确性上显示出显著的改进,并在表格上的问答任务中实现了与专有LLM相当的性能。代码可在GitHub仓库中获取。 |
[43] 大型语言模型中的查询级不确定性 标题: Query-Level Uncertainty in Large Language Models 作者: Lihu Chen / Gaël Varoquaux 原文: [英文] [中文] 备注: In Progress 摘要: 对于大型语言模型来说,了解其知识边界以及识别已知和未知查询的机制是非常重要的。这种意识可以帮助模型进行自适应推理,例如调用RAG(Retrieval-Augmented Generation),进行缓慢而深入的思考,或采用弃权机制,这对高效且可信赖的人工智能的发展是有益的。在这项工作中,我们提出了一种通过查询级不确定性检测知识边界的方法,旨在确定模型是否能够在不生成任何标记的情况下处理给定的查询。为此,我们引入了一种新颖且无需训练的方法,称为\emph{内部置信度},该方法利用跨层和标记的自我评估。在事实问答和数学推理任务上的实证结果表明,我们的内部置信度可以优于若干基线。此外,我们展示了我们提出的方法可以用于高效的RAG和模型级联,能够在保持性能的同时降低推理成本。 |
[44] 微调是有效的解决方案吗?重新评估非结构化数据的知识编辑 标题: Is Fine-Tuning an Effective Solution? Reassessing Knowledge Editing for Unstructured Data 作者: Hao Xiong / Chuanyuan Tan / Wenliang Chen 原文: [英文] [中文] 备注: None 摘要: 非结构化知识编辑(UKE)对于更新大型语言模型(LLMs)的相关知识至关重要。它专注于非结构化输入,例如长文本或自由格式文本,这些是现实世界知识的常见形式。尽管先前的研究提出了有效的方法并进行了测试,但仍存在一些问题:(1)缺乏对UKE的局部性评估,以及(2)基于微调(FT)方法的UKE异常失效。为了解决这些问题,我们首先通过从非结构化和结构化视角扩展两个现有的UKE数据集,构建了两个数据集,UnKEBench-Loc和AKEW-Loc(CF),从而能够系统地评估后编辑模型的局部性。此外,我们确定了可能影响基于FT方法性能的四个因素。基于这些因素,我们进行了实验,以确定表现良好的基于FT的方法应如何为UKE任务进行训练,为未来的研究提供了训练方案。我们的实验结果表明,具有最佳设置的基于FT的方法(FT-UKE)表现出惊人的强大,超越了现有的最先进技术(SOTA)。在批量编辑场景中,FT-UKE同样表现出强劲的性能,其相对于SOTA方法的优势随着批量大小的增加而增加,将平均指标领先优势从+6.78%扩大到+10.80%。 |
[45] Inv-Entropy:一种用于语言模型中不确定性量化的完全概率框架 标题: Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models 作者: Haoyi Song / Ruihan Ji / Naichen Shi / Fan Lai / Raed Al Kontar 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)已经改变了自然语言处理,但其可靠部署需要有效的不确定性量化(UQ)。现有的UQ方法通常是启发式的,缺乏概率基础。本文首先为LLMs中UQ的扰动作用提供了理论依据。然后,我们引入了一种双重随机游走视角,将输入-输出对建模为两个马尔可夫链,其转移概率由语义相似性定义。在此基础上,我们提出了一种基于逆模型的完全概率框架,通过系统扰动评估给定输出条件下输入空间的多样性来量化不确定性。在此框架内,我们定义了一种新的不确定性度量,称为逆熵(Inv-Entropy)。我们框架的一个关键优势是其灵活性:它支持不确定性度量、嵌入、扰动策略和相似性度量的各种定义。我们还提出了一种基于遗传算法的扰动算法GAAP,增强了采样输入的多样性。此外,我们引入了一种新的评估指标,不确定性的温度敏感性(TSU),直接评估不确定性而不依赖于正确性作为代理。大量实验表明,逆熵在性能上优于现有的语义UQ方法。重现结果的代码可以在此https URL找到。 |
[46] ComfyUI-R1:探索用于工作流生成的推理模型 标题: ComfyUI-R1: Exploring Reasoning Models for Workflow Generation 作者: Zhenran Xu / Yiyu Wang / Xue Yang / Longyue Wang / Weihua Luo / Kaifu Zhang / Baotian Hu / Min Zhang 原文: [英文] [中文] 备注: Work in progress. Try it out in ComfyUI-Copilot this https URL 摘要: AI生成内容已经从单一模型发展到模块化工作流程,特别是在像ComfyUI这样的平台上,实现了创意流程的定制化。然而,设计有效的工作流程需要极高的专业知识来协调众多专业组件,这对用户来说是一个陡峭的学习曲线。为了解决这一挑战,我们引入了ComfyUI-R1,这是第一个用于自动化工作流程生成的大型推理模型。我们从精心策划的4000个工作流程数据集中开始,构建了长链式思维(CoT)推理数据,包括节点选择、工作流程规划和代码级工作流程表示。ComfyUI-R1通过两阶段框架进行训练:(1)CoT微调用于冷启动,使模型适应ComfyUI领域;(2)通过强化学习激励推理能力,采用细粒度规则-度量混合奖励,确保格式有效性、结构完整性和节点级保真度。实验表明,我们的70亿参数模型实现了97%的格式有效率,并且在通过率、节点级和图级F1分数上表现出色,显著超越了使用领先的闭源模型(如GPT-4o和Claude系列)的先前最先进方法。进一步分析强调了推理过程的关键作用以及将工作流程转化为代码的优势。定性比较显示了我们在合成具有多样节点的复杂工作流程方面的优势,突显了长链式思维推理在AI艺术创作中的潜力。 |
[47] 大型语言模型在教育评估中是否给出心理测量学上合理的回应? 标题: Do LLMs Give Psychometrically Plausible Responses in Educational Assessments? 作者: Andreas Säuberli / Diego Frassinelli / Barbara Plank 原文: [英文] [中文] 备注: Accepted for publication at the 20th Workshop on Innovative Use of NLP for Building Educational Applications (BEA) at ACL 2025 摘要: 了解考生在教育评估中如何回答题目对于测试开发、评估题目质量以及提高测试有效性至关重要。然而,这一过程通常需要大量的以人为参与者的试点研究。如果大型语言模型(LLMs)在测试题目上表现出类似人类的反应行为,这可能为使用它们作为试点参与者以加速测试开发打开了可能性。在本文中,我们评估了18个经过指令调优的LLMs在三个学科(阅读、美国历史和经济学)的两个公开可用的多项选择题数据集上的反应的人类相似性或心理测量学合理性。我们的方法基于心理测量学中两个常用于教育评估的理论框架:经典测验理论和项目反应理论。结果表明,尽管较大的模型过于自信,但通过温度缩放校准后,它们的反应分布可以更接近人类。此外,我们发现LLMs在阅读理解题目上的表现与人类的相关性比其他学科更好。然而,总体上相关性并不强,这表明LLMs不应在零样本设置中用于教育评估的试点。 |
[48] CoRT:思维中的代码集成推理 标题: CoRT: Code-integrated Reasoning within Thinking 作者: Chengpeng Li / Zhengyang Tang / Ziniu Li / Mingfeng Xue / Keqin Bao / Tian Ding / Ruoyu Sun / Benyou Wang / Xiang Wang / Junyang Lin / Dayiheng Liu 原文: [英文] [中文] 备注: work in progress 摘要: 大型推理模型(LRMs),如 o1 和 DeepSeek-R1,在具有长链思维(CoT)的自然语言推理方面表现出显著进展,但在处理复杂数学运算时仍然效率低下或不够准确。通过计算工具(例如,计算库和符号求解器)来解决这些限制是有前景的,但这引入了一个技术挑战:代码解释器(CI)带来了超出模型内部文本表示的外部知识,因此直接结合并不高效。本文介绍了 CoRT,这是一种用于教导 LRMs 有效利用 CI 的后训练框架。作为第一步,我们通过提示工程合成代码集成推理数据来解决数据稀缺问题,该方法通过在适当位置策略性地插入不同提示来优化 LRM-CI 交互。我们手动创建了 30 个高质量样本,并在此基础上对从 1.5B 到 32B 参数的模型进行监督微调、拒绝微调和强化学习的后训练。我们的实验结果表明,提示工程模型在五个具有挑战性的数学推理数据集上分别在 DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Qwen-1.5B 上实现了 4% 和 8% 的绝对改进。此外,与自然语言模型相比,提示工程模型在 32B 模型中使用的标记减少约 30%,在 1.5B 模型中减少约 50%。模型和代码可在此 https URL 获取。 |
[49] EmoNet-Voice:用于语音情感检测的细粒度、专家验证基准 标题: EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection 作者: Christoph Schuhmann / Robert Kaczmarczyk / Gollam Rabby / Felix Friedrich / Maurice Kraus / Kourosh Nadi / Huu Nguyen / Kristian Kersting / Sören Auer 原文: [英文] [中文] 备注: None 摘要: 随着文本到语音和音频生成模型的进步,评估人工智能系统情感理解能力的强大基准变得必要。目前的语音情感识别(SER)数据集通常在情感细粒度、隐私问题或依赖于表演的表现上存在局限性。本文介绍了EmoNet-Voice,这是一种用于语音情感检测的新资源,包括EmoNet-Voice Big,一个大规模的预训练数据集(包含超过4500小时的语音,涵盖11种声音、40种情感和4种语言),以及EmoNet-Voice Bench,一个具有人类专家注释的新基准数据集。EmoNet-Voice旨在评估SER模型在40个情感类别的细粒度光谱上的表现,并具有不同的强度级别。通过利用最先进的语音生成技术,我们策划了模拟演员表演特定情感场景的合成音频片段。重要的是,我们进行了严格的验证,由心理学专家分配感知强度标签。这种合成的、保护隐私的方法允许包含现有数据集中通常缺失的敏感情感状态。最后,我们介绍了Empathic Insight Voice模型,该模型在语音情感识别中设定了与人类专家高度一致的新标准。我们对当前模型格局的评估显示了有价值的发现,例如愤怒等高唤醒情感比专注等低唤醒状态更容易检测。 |
[50] 错误引导的姿态增强:通过目标数据生成提升康复锻炼评估 标题: Error-Guided Pose Augmentation: Enhancing Rehabilitation Exercise Assessment through Targeted Data Generation 作者: Omar Sherif / Ali Hamdi 原文: [英文] [中文] 备注: 6 pages, 1 figure. To appear in Intelligent Methods, Systems, and Applications 2025 摘要: 有效的康复评估对于监测患者进展至关重要,尤其是在家庭环境中。现有系统通常面临数据不平衡和难以检测细微运动错误的挑战。本文介绍了一种错误引导姿态增强(EGPA)方法,该方法通过模拟临床相关的运动错误生成合成骨架数据。与标准增强技术不同,EGPA针对康复中观察到的生物力学错误。结合基于注意力的图卷积网络,EGPA在多个评估指标上提高了性能。实验表明,平均绝对误差最多减少27.6%,错误分类准确率提高45.8%。注意力可视化显示模型学会关注临床上重要的关节和运动阶段,提高了准确性和可解释性。EGPA为改善临床和家庭康复环境中的自动化运动质量评估提供了一种有前景的方法。 |
[51] 用于媒体相关性评估的带有来源元数据的新闻文章数据集 标题: Dataset of News Articles with Provenance Metadata for Media Relevance Assessment 作者: Tomas Peterka / Matyas Bohacek 原文: [英文] [中文] 备注: None 摘要: 在当今的信息误导和虚假信息环境中,脱离语境和错误归属的图像是媒体操控的主要形式。现有的方法在尝试检测这种行为时,通常只考虑图像的语义是否与文本叙述相符,只要图像中描绘的对象或场景与当前叙述有一定的对应关系,就可能忽略操控行为。为了解决这个问题,我们引入了新闻媒体来源数据集,这是一个包含来源标记图像的新闻文章数据集。我们在该数据集上制定了两个任务:起源位置相关性(LOR)和起源日期时间相关性(DTOR),并在六个大型语言模型(LLMs)上展示了基线结果。我们发现,尽管在LOR任务上的零样本表现令人鼓舞,但在DTOR任务上的表现却受到限制,这为专门的架构和未来的研究留下了空间。 |
[52] 因果充分性和必要性提升了链式思维推理 标题: Causal Sufficiency and Necessity Improves Chain-of-Thought Reasoning 作者: Xiangning Yu / Zhuohan Wang / Linyi Yang / Haoxuan Li / Anjie Liu / Xiao Xue / Jun Wang / Mengyue Yang 原文: [英文] [中文] 备注: None 摘要: 链式思维(Chain-of-Thought, CoT)提示在赋予大型语言模型(LLMs)复杂推理能力方面起着不可或缺的作用。然而,CoT目前面临两个基本挑战:(1)充分性,确保生成的中间推理步骤全面覆盖并支持最终结论;(2)必要性,识别对结果答案的正确性真正不可或缺的推理步骤。我们提出了一个因果框架,通过充分性和必要性这两个视角来表征CoT推理。结合因果充分性和必要性概率,我们不仅可以确定哪些步骤在逻辑上对预测结果是充分或必要的,还可以在不同干预场景下量化它们对最终推理结果的实际影响,从而实现自动添加缺失步骤和修剪冗余步骤。在各种数学和常识推理基准上的大量实验结果证实,在不牺牲准确性的前提下,推理效率显著提高,令牌使用量减少。我们的工作为提高LLM推理性能和成本效益提供了一个有前景的方向。 |
[53] 用于大语言模型幻觉检测的具有可训练深度核的注意力头嵌入 标题: Attention Head Embeddings with Trainable Deep Kernels for Hallucination Detection in LLMs 作者: Rodion Oblovatny / Alexandra Bazarova / Alexey Zaytsev 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种新颖的方法,通过分析提示和响应隐藏状态分布之间的概率差异来检测大型语言模型(LLMs)中的幻觉。出乎意料的是,我们发现幻觉响应与其提示相比表现出较小的偏差,而不是扎实的推理,这表明幻觉通常源于表面的重述而非实质性的推理。利用这一见解,我们提出了一种模型内在的检测方法,使用分布距离作为原则性的幻觉评分,消除了对外部知识或辅助模型的需求。为了增强灵敏度,我们采用深度可学习核,自动适应捕捉分布之间细微的几何差异。我们的方法优于现有基准,在多个基准测试中表现出最先进的性能。即使在没有核训练的情况下,该方法仍保持竞争力,提供了一种稳健、可扩展的幻觉检测解决方案。 |
[54] 大型语言模型中超越任何语言的抽象思维的出现 标题: The Emergence of Abstract Thought in Large Language Models Beyond Any Language 作者: Yuxin Chen / Yiran Zhao / Yang Zhang / An Zhang / Kenji Kawaguchi / Shafiq Joty / Junnan Li / Tat-Seng Chua / Michael Qizhe Shieh / Wenxuan Zhang 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型(LLMs)的不断进步,它们在多种语言中有效运作的能力显著提高。初步研究观察到,LLMs 的隐藏激活通常类似于英语,即使是在回应非英语提示时。这导致了广泛的假设,即 LLMs 可能“用英语思考”。然而,最近的研究结果显示出强大的多语言性能,甚至在某些任务中超越了英语的表现,这对上述观点提出了挑战。在这项工作中,我们发现 LLMs 逐步发展出一个核心的语言无关参数空间——一个显著小的参数子集,其失活会导致所有语言的性能显著下降。这个紧凑但关键的参数集是模型超越单一语言进行泛化的基础,支持不依赖于任何特定语言系统的抽象思维的出现。具体来说,我们识别出与语言相关的神经元——那些在处理特定语言时始终被激活的神经元,并将它们分类为共享(在多种语言中活跃)或独占(特定于一种语言)。随着 LLMs 的持续发展,我们观察到共享神经元的比例和功能重要性显著增加,而独占神经元的影响逐渐减弱。这些共享神经元构成了核心语言无关参数空间的骨干,支持抽象思维的出现。受这些见解的启发,我们提出了针对 LLMs 在不同发展阶段的语言无关水平的神经元特定训练策略。对不同 LLM 家族的实验支持了我们的方法。 |
[55] PersonaLens:对话式人工智能助手个性化评估的基准 标题: PersonaLens: A Benchmark for Personalization Evaluation in Conversational AI Assistants 作者: Zheng Zhao / Clara Vania / Subhradeep Kayal / Naila Khan / Shay B. Cohen / Emine Yilmaz 原文: [英文] [中文] 备注: Accepted to ACL 2025 Findings 摘要: 大型语言模型(LLMs)推动了对话式人工智能助手的发展。然而,系统地评估这些助手在完成任务时如何应用个性化——即适应个人用户偏好——仍然具有挑战性。现有的个性化基准测试主要集中在闲聊、非对话任务或狭窄领域,未能捕捉个性化任务导向辅助的复杂性。为了解决这一问题,我们引入了PersonaLens,这是一个用于评估任务导向型AI助手个性化的综合基准。我们的基准测试具有多样化的用户档案,配备了丰富的偏好和交互历史,以及两个专门的基于LLM的代理:一个用户代理,与AI助手进行现实的任务导向对话;一个评判代理,采用LLM-as-a-Judge范式来评估个性化、响应质量和任务成功率。通过对当前LLM助手在各种任务中的广泛实验,我们揭示了其个性化能力的显著差异,为推进对话式AI系统提供了重要的见解。 |
[56] 基于方面的意见总结与论证方案 标题: Aspect-Based Opinion Summarization with Argumentation Schemes 作者: Wendi Zhou / Ameer Saadat-Yazd / Nadin Kokciyan 原文: [英文] [中文] 备注: Accepted by ArgMining 2025 摘要: 评论是顾客在网上购物时做出购买决策的重要资源。然而,顾客不可能浏览大量评论并手动总结出主要观点,这就需要自动化的观点总结系统。以往的方法,无论是抽取式还是生成式,都在自动生成有依据的以方面为中心的总结时面临挑战。在本文中,我们提出了一种新颖的总结系统,该系统不仅能够从方面的角度捕捉主要观点并提供支持证据,还能够适应不同领域,而无需依赖预定义的方面集。我们提出的框架,ASESUM,通过提取以方面为中心的论点并衡量其显著性和有效性,总结与产品关键方面相关的观点。我们在一个真实世界的数据集上进行了实验,以证明我们的方法在捕捉原始评论的多样化视角方面优于新旧方法。 |
[57] VerIF:用于指令跟随中的强化学习验证工程 标题: VerIF: Verification Engineering for Reinforcement Learning in Instruction Following 作者: Hao Peng / Yunjia Qi / Xiaozhi Wang / Bin Xu / Lei Hou / Juanzi Li 原文: [英文] [中文] 备注: 16 pages, 8 figures 摘要: 具有可验证奖励的强化学习(RLVR)已成为增强大型语言模型(LLMs)的关键技术,其中验证工程起着核心作用。然而,在指令跟随中的强化学习最佳实践仍未得到充分探索。在这项工作中,我们探讨了指令跟随中强化学习的验证挑战,并提出了VerIF,这是一种将基于规则的代码验证与来自大型推理模型(例如,QwQ-32B)的LLM验证相结合的验证方法。为了支持这种方法,我们构建了一个高质量的指令跟随数据集VerInstruct,其中包含大约22,000个实例及其相关的验证信号。我们将VerIF应用于两个模型的强化学习训练,在多个具有代表性的指令跟随基准上实现了显著的改进。训练后的模型在同等规模的模型中达到了最先进的性能,并且能够很好地推广到未见过的约束条件。我们进一步观察到,它们的整体能力未受影响,这表明可以将VerIF与现有的强化学习方案结合,以提升整体模型性能。我们已发布了我们的数据集、代码和模型,以促进未来的研究,相关资源可以在此https URL获取。 |
[58] 面向查询的检索头提升长上下文推理和重新排序 标题: Query-Focused Retrieval Heads Improve Long-Context Reasoning and Re-ranking 作者: Wuwei Zhang / Fangcong Yin / Howard Yen / Danqi Chen / Xi Ye 原文: [英文] [中文] 备注: None 摘要: 最近的研究确定了检索头(Wu 等,2025b),这是负责在长上下文语言模型(LMs)中检索显著信息的一部分注意力头,其通过在“大海捞针”任务中的复制粘贴行为来衡量。在本文中,我们引入了 QRHEAD(Query-Focused Retrieval Head),这是一组改进的注意力头,能够增强从长上下文中的检索能力。我们通过聚合与输入查询相关的注意力分数,并使用少量来自现实任务(例如,长上下文问答)的示例来识别 QRHEAD。我们进一步引入了 QR-RETRIEVER,这是一种高效且有效的检索器,它使用 QRHEAD 的累积注意力质量作为检索分数。我们使用 QR-RETRIEVER 进行长上下文推理,通过选择具有最高检索分数的最相关部分。在多跳推理任务 LongMemEval 和 CLIPPER 上,这带来了超过 10% 的性能提升,优于强大的密集检索器。我们还在 BEIR 基准上评估了 QRRETRIEVER 作为重排序器,发现它在零样本性能上表现强劲,优于其他基于 LLM 的重排序器,如 RankGPT。进一步的分析表明,查询上下文注意力评分和任务选择对于识别具有强大下游效用的 QRHEAD 至关重要。总体而言,我们的工作贡献了一种通用的检索器,并提供了关于 LMs 长上下文能力的可解释性见解。 |
[59] Resa:通过SAEs实现透明推理模型 标题: Resa: Transparent Reasoning Models via SAEs 作者: Shangshang Wang / Julian Asilis / Ömer Faruk Akgül / Enes Burak Bilgin / Ollie Liu / Deqing Fu / Willie Neiswanger 原文: [英文] 备注: None 摘要: 我们如何通过利用语言模型的底层表示来以成本效益高的方式引发强大的推理能力?我们通过Resa回答了这个问题,Resa是一系列通过一种新颖且高效的稀疏自编码器调优(SAE-Tuning)过程训练的1.5B推理模型。该方法首先训练一个SAE以从源模型中捕捉推理能力,然后使用训练好的SAE来指导标准的监督微调过程,以在目标模型中引发这种能力,所有这些都使用经过验证的问答数据而没有任何推理痕迹。值得注意的是,当在进一步的RL后训练之前应用于某些基础模型时,SAE-Tuning保留了其RL训练的对应模型的>97%的推理性能,同时将训练成本减少了>2000倍至大约1美元,训练时间减少了>450倍至大约20分钟。此外,当应用于轻度RL训练的模型(例如,在2个GPU上训练1小时内)时,它能够实现推理性能,例如在AIME24上达到43.33%的Pass@1和在AMC23上达到90%的Pass@1,而额外成本仅约为1美元。令人惊讶的是,通过SAEs提取的推理能力可能既具有普遍性又具有模块性。普遍性意味着从一个数据集中提取的能力仍然可以提升在更大且重叠的语料库上的性能。模块性意味着从Qwen或Qwen-Math中提取的能力可以在测试时附加到R1-Distill模型上,而无需任何重新训练,并产生可比的增益。广泛的消融验证了这些发现,所有工件都完全开源。 |
[60] 当检测失败时:微调模型生成类人社交媒体文本的能力 标题: When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media Text 作者: Hillary Dawkins / Kathleen C. Fraser / Svetlana Kiritchenko 原文: [英文] [中文] 备注: to appear in ACL Findings 摘要: 检测AI生成的文本本身就是一个困难的问题;在社交媒体上检测AI生成的文本则更为困难,因为社交媒体上的文本通常较短,并且使用非正式和独特的网络语言。尽管如此,解决这个问题仍然很重要,因为社交媒体是在线影响活动中的一个重要攻击向量,这些活动可能通过大量生产的AI生成帖子来支持(或反对)特定政策、决策或事件。我们以一个相对复杂的威胁行为者的心态和资源来处理这个问题,并创建了一个包含505,159个AI生成社交媒体帖子的数据库,这些帖子来自开源、闭源和经过微调的大型语言模型,涵盖了11个不同的有争议话题。我们展示了在典型的研究假设下,即对生成模型的知识和访问权限,帖子是可以被检测到的;但在更现实的假设下,即攻击者不会将其微调模型公开,检测率会显著下降。通过一项人类研究证实了这一结果。消融实验突出了各种检测算法对微调大型语言模型的脆弱性。由于微调是一个普遍适用且现实的LLM使用案例,这一结果对所有检测领域都有影响。 |
[61] 逐步指令和简单的表格输出格式提高了大型语言模型的依存句法分析准确性 标题: Step-by-step Instructions and a Simple Tabular Output Format Improve the Dependency Parsing Accuracy of LLMs 作者: Hiroshi Matsuda / Chunpeng Ma / Masayuki Asahara 原文: [英文] [中文] 备注: 9 pages, 2 figures, accepted for SyntaxFest 2025 摘要: 最近在大型语言模型(LLMs)方面的进展使其在各种任务中表现出色。然而,标准提示往往难以生成结构上有效且准确的输出,特别是在依存句法分析中。我们提出了一种新颖的逐步指令策略,其中普遍的词性标注先于句法中心词和依存标签的预测,并采用简化的类似CoNLL-U的输出格式。我们的方法在17种语言的通用依存关系数据集上实现了最先进的准确性,没有出现幻觉或污染。我们进一步表明,多语言微调同时提高了跨语言的泛化性能。我们的结果突出了在基于LLM的解析中显式推理步骤的有效性,并提供了一种可扩展的、格式一致的替代方案来替代基于括号的方法。 |
[62] 用于低资源巴尔干语言中有害语言检测的大型语言模型 标题: Large Language Models for Toxic Language Detection in Low-Resource Balkan Languages 作者: Amel Muminovic / Amela Kadric Muminovic 原文: [英文] [中文] 备注: 8 pages 摘要: 在线有害语言会造成实际伤害,尤其是在缺乏审核工具的地区。在本研究中,我们评估了大型语言模型如何处理塞尔维亚语、克罗地亚语和波斯尼亚语中的有害评论,这些语言的标注数据有限。我们构建并手动标注了一个包含4500条YouTube和TikTok评论的数据集,这些评论来自音乐、政治、体育、模特、网红内容、性别歧视讨论和一般话题等多种类别的视频。我们测试了四个模型(GPT-3.5 Turbo、GPT-4.1、Gemini 1.5 Pro和Claude 3 Opus)在两种模式下的表现:零样本和上下文增强。我们测量了精确率、召回率、F1分数、准确率和误报率。包括简短的上下文片段平均提高了约0.12的召回率,并将F1分数提高了最多0.10,尽管有时会增加误报。最佳平衡来自于上下文增强模式下的Gemini,达到了0.82的F1分数和0.82的准确率,而零样本的GPT-4.1在精确率上领先,并且误报率最低。我们展示了如何通过添加最少的上下文来改善低资源环境中的有害语言检测,并提出了实用策略,如改进提示设计和阈值校准。这些结果表明,仅通过提示设计就可以为服务不足的巴尔干语言社区在有害性检测方面带来显著的提升。 |
[63] 从判断到干预:通过流式内容监控提前停止大型语言模型的有害输出 标题: From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring 作者: Yang Li / Qiang Sheng / Yehan Yang / Xueyao Zhang / Juan Cao 原文: [英文] [中文] 备注: 22 pages, 7 figures, and 9 tables 摘要: 尽管安全对齐已应用于大多数大型语言模型(LLMs),但LLM服务提供商通常在实际产品中部署后续的审核作为外部安全防护措施。现有的审核器主要采用传统的全检测方法,即基于完整的LLM输出来判断有害性,这导致了较高的服务延迟。最近的研究更关注部分检测,其中审核器在生成过程中进行监督,如果检测到有害性则提前停止输出,但它们直接将通过全检测范式训练的审核器应用于不完整的输出,导致训练和推理之间的差距,降低了性能。在本文中,我们探讨如何形成一个本地支持部分检测的数据和模型解决方案。在数据方面,我们构建了FineHarm,一个包含29K提示-响应对的数据集,具有细粒度的注释,为令牌级训练提供合理的监督。然后,我们提出了流式内容监控器,它通过响应级和令牌级标签的双重监督进行训练,能够跟随LLM的输出流及时判断有害性。实验表明,SCM在宏观F1分数上获得了0.95+的成绩,与全检测相当,而平均只需查看响应的前18%的令牌。此外,SCM可以作为伪有害性注释器来提高安全对齐,并导致比DPO更高的无害性得分。 |