scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CL方向,2025年8月15日更新论文73
[1] 弥合人工智能创新与医疗需求之间的差距:从在不列颠哥伦比亚癌症登记处整合现代自然语言处理中汲取的经验教训
标题: Bridging AI Innovation and Healthcare Needs: Lessons Learned from Incorporating Modern NLP at The BC Cancer Registry
作者: Lovedeep Gondara / Gregory Arbour / Raymond Ng / Jonathan Simkin / Shebnum Devji
原文:   [英文]  
备注: None
摘要:
从临床文档中自动提取数据具有显著潜力,可以提高医疗环境中的效率,但部署自然语言处理(NLP)解决方案面临实际挑战。本文基于我们在不列颠哥伦比亚省癌症登记处(BCCR)实施各种NLP模型以进行信息提取和分类任务的经验,分享了项目生命周期中的关键经验教训。我们强调了根据明确的业务目标而非仅仅是技术准确性来定义问题的重要性,采用迭代开发方法,以及从一开始就促进深度跨学科合作和共同设计,涉及领域专家、最终用户和机器学习专家。进一步的见解强调了务实的模型选择(包括混合方法和适当的简单方法)的必要性,对数据质量(代表性、漂移、注释)的严格关注,涉及人机协作验证和持续审计的强大错误缓解策略,以及建立组织的人工智能素养。这些实际考虑因素不仅适用于癌症登记处,还为寻求成功实施AI/NLP解决方案以增强数据管理流程并最终改善患者护理和公共健康结果的医疗组织提供了指导。

[2] 一种用于区块链上开源语言模型基准测试的透明公平性评估协议
标题: A Transparent Fairness Evaluation Protocol for Open-Source Language Model Benchmarking on the Blockchain
作者: Hugo Massaroli / Leonardo Iara / Emmanuel Iarussi / Viviana Siless
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在现实世界的应用中越来越多,但在刑事司法、教育、医疗保健和金融等高风险领域,其公平性问题仍然令人担忧。本文介绍了一种透明的评估协议,用于通过互联网计算机协议(ICP)区块链上的智能合约对开源LLMs的公平性进行基准测试(Foundation, 2023)。我们的方法通过在链上执行对托管在Hugging Face端点的HTTP请求,并将数据集、提示和指标直接存储在链上,确保了可验证的、不可变的和可重复的评估。我们在PISA数据集上对Llama、DeepSeek和Mistral模型进行了基准测试,以预测学术表现(OECD, 2018),该数据集适合使用统计平等和机会均等指标进行公平性评估(Hardt et al., 2016)。我们还评估了从StereoSet数据集(Nadeem et al., 2020)中得出的结构化上下文关联指标,以衡量上下文关联中的社会偏见。我们进一步通过使用Kaleidoscope基准(Salazar et al., 2025)进行跨英语、西班牙语和葡萄牙语的多语言评估,揭示了跨语言的差异。所有代码和结果都是开源的,支持社区审计和跨模型版本的长期公平性跟踪。

[3] 使用层次主题建模对K-12生成式人工智能应用进行主题和任务分类
标题: Thematic and Task-Based Categorization of K-12 GenAI Usages with Hierarchical Topic Modeling
作者: Johannes Schneider / Béatrice S. Hasler / Michaela Varrone / Fabian Hoya / Thomas Schroffenegger / Dana-Kristin Mah / Karl Peböck
原文:   [英文]   [中文]  
备注: Accepted at the International Conference on Computer-Human Interaction Research and Applications (CHIRA), 2025
摘要:
我们分析了未成年人在教室中进行匿名互动的数据,这些数据涵盖了数月、学校和学科,并采用了一种新颖且简单的主题建模方法。具体来说,我们将学生、教师和ChatGPT生成的超过17,000条信息在两个维度上进行分类:内容(如自然和人)和任务(如写作和解释)。我们对每个维度分别进行的分层分类包括示例性提示,并提供了高层次的概览以及具体的见解。先前的研究大多缺乏内容或主题的分类。虽然任务分类在教育中更为普遍,但大多数并未得到K-12真实世界数据的支持。因此,我们的分析产生了一些新颖的应用也就不足为奇了。在得出这些见解的过程中,我们发现许多成熟的经典和新兴计算方法(即主题建模)在分析大量文本时表现不佳,这促使我们直接应用最先进的大型语言模型(LLM),通过适当的预处理和明确的指令来实现比以往方法更好的人类对齐的分层主题结构。我们的研究结果支持其他研究人员、教师和学生丰富生成式人工智能的使用,同时我们的讨论也强调了一些未来研究的关注点和未解问题。

[4] INTIMA:人机伴侣行为基准
标题: INTIMA: A Benchmark for Human-AI Companionship Behavior
作者: Lucie-Aimée Kaffee / Giada Pistilli / Yacine Jernite
原文:   [英文]   [中文]  
备注: None
摘要:
AI陪伴,即用户与AI系统建立情感纽带,已成为一种具有积极但也令人担忧影响的重要模式。我们引入了交互与机器依附基准(INTIMA),这是一个用于评估语言模型中陪伴行为的基准。基于心理学理论和用户数据,我们开发了一个包含四个类别和31种行为的分类法,以及368个针对性提示。这些提示的回应被评估为增强陪伴、维持界限或中立。将INTIMA应用于Gemma-3、Phi-4、o3-mini和Claude-4,结果显示在所有模型中,增强陪伴的行为仍然更为常见,尽管我们观察到模型之间存在显著差异。不同的商业提供商在基准中更敏感的部分优先考虑不同的类别,这令人担忧,因为适当的界限设定和情感支持对用户的福祉都很重要。这些发现强调了在处理情感互动时需要更一致的方法。

[5] XFacta:用于多模态误导信息检测的当代真实世界数据集和多模态大型语言模型评估
标题: XFacta: Contemporary, Real-World Dataset and Evaluation for Multimodal Misinformation Detection with Multimodal LLMs
作者: Yuzhuo Xiao / Zeyu Han / Yuhan Wang / Huaizu Jiang
原文:   [英文]   [中文]  
备注: For associated code and dataset, see this https URL
摘要:
社交媒体上多模态错误信息的快速传播需要更有效和更强大的检测方法。最近利用多模态大语言模型(MLLMs)的进展显示了应对这一挑战的潜力。然而,目前尚不清楚现有方法的瓶颈究竟在哪里(证据检索与推理),这阻碍了该领域的进一步发展。在数据集方面,现有的基准要么包含过时事件,导致由于与当代社交媒体场景的不一致而产生评估偏差,因为MLLMs可以简单地记住这些事件,要么是人为合成的,未能反映真实世界的错误信息模式。此外,缺乏对基于MLLM的模型设计策略的全面分析。为了解决这些问题,我们引入了XFacta,这是一个更适合评估基于MLLM检测器的当代真实世界数据集。我们系统地评估了各种基于MLLM的错误信息检测策略,评估了不同架构和规模的模型,并与现有检测方法进行了基准测试。在这些分析的基础上,我们进一步实现了一个半自动的检测循环框架,该框架不断更新XFacta的新内容,以保持其当代相关性。我们的分析为推进多模态错误信息检测领域提供了宝贵的见解和实践。代码和数据已经发布。

[6] AutoGeTS:基于知识的文本合成自动生成以提升文本分类
标题: AutoGeTS: Knowledge-based Automated Generation of Text Synthetics for Improving Text Classification
作者: Chenhao Xue / Yuanzhe Jin / Adrian Carrasco-Revilla / Joyraj Chakraborty / Min Chen
原文:   [英文]   [中文]  
备注: None
摘要:
在为现实世界应用开发文本分类模型时,一个主要挑战是难以为所有文本类别收集足够的数据。在这项工作中,我们通过利用大型语言模型(LLMs)生成合成数据,并使用这些数据来提高模型的性能,而无需等待更多真实数据的收集和标注,从而应对这一挑战。由于LLM会根据不同的输入示例生成不同的合成数据,我们制定了一种自动化工作流程,该流程搜索能够生成更“有效”合成数据的输入示例,以改进相关模型。我们通过大量实验研究了三种搜索策略,并利用实验结果设计了一种集成算法,该算法根据类别的特征选择搜索策略。我们的进一步实验表明,这种集成方法比我们自动化工作流程中的每个单独策略更能有效地利用LLM来改进分类模型。

[7] HiFACTMix:一个用于基于证据的政治声明验证的 Hinglish 代码混合基准和图感知模型
标题: HiFACTMix: A Code-Mixed Benchmark and Graph-Aware Model for EvidenceBased Political Claim Verification in Hinglish
作者: Rakesh Thakur / Sneha Sharma / Gauri Chopra
原文:   [英文]  
备注: None
摘要:
在自然语言处理领域,针对像 Hinglish 这样的代码混合、低资源语言进行事实核查仍然是一个未被充分探索的挑战。现有的事实验证系统主要集中在高资源、单一语言的环境中,无法推广到像印度这样语言多样化地区的真实政治话语中。鉴于公共人物,特别是政治人物广泛使用 Hinglish,以及社交媒体对公众舆论日益增长的影响,迫切需要强大、多语言且具备上下文感知能力的事实核查工具。为了解决这一空白,本文引入了一个新的基准数据集 HiFACT,其中包含 1,500 个由 28 位印度邦首席部长在高度代码混合的低资源环境下用 Hinglish 做出的真实世界事实声明。每个声明都附有文本证据和真实性标签。为了评估这一基准,提出了一种新颖的图感知、检索增强的事实核查模型,该模型结合了多语言上下文编码、声明-证据语义对齐、证据图构建、图神经推理和自然语言解释生成。实验结果表明,HiFACTMix 在准确性方面优于现有的多语言基线模型,并为其裁决提供了可信的理由。这项工作为多语言、代码混合和政治背景下的事实验证研究开辟了新的方向。

[8] 大型语言模型嵌入中的语义结构
标题: Semantic Structure in Large Language Model Embeddings
作者: Austin C. Kozlowski / Callin Dai / Andrei Boutyline
原文:   [英文]   [中文]  
备注: None
摘要:
心理学研究一致发现,人类对词语在不同语义尺度上的评分可以简化为低维形式,同时信息损失相对较少。我们发现,大型语言模型(LLMs)的嵌入矩阵中编码的语义关联表现出类似的结构。我们展示了词语在由反义词对(例如,善良 - 残忍)定义的语义方向上的投影与人类评分高度相关,并进一步发现这些投影在LLM嵌入中有效地简化为一个三维子空间,与从人类调查响应中得出的模式非常相似。此外,我们发现沿一个语义方向移动标记会对几何上对齐的特征产生与其余弦相似性成比例的非目标效应。这些发现表明,LLMs中的语义特征与人类语言中的互联方式相似地纠缠在一起,尽管其表面上的复杂性,语义信息实际上是惊人地低维的。此外,考虑到这种语义结构可能对于避免在引导特征时产生意外后果至关重要。

[9] 用户对注意力可视化的感知:对基于证据的医学文档可解释性的影响
标题: User Perception of Attention Visualizations: Effects on Interpretability Across Evidence-Based Medical Documents
作者: Andrés Carvallo / Denis Parra / Peter Brusilovsky / Hernan Valdivieso / Gabriel Rada / Ivania Donoso / Vladimir Araujo
原文:   [英文]   [中文]  
备注: None
摘要:
注意力机制是Transformer架构的核心组件。除了提高性能之外,注意力还被提出作为一种通过注意力权重进行解释的机制,这些权重与输入特征(例如,文档中的标记)相关联。在这种情况下,较大的注意力权重可能意味着对模型预测更相关的特征。在循证医学中,这种解释可以支持医生理解和与用于分类生物医学文献的AI系统的互动。然而,关于注意力权重是否提供有用的解释仍然没有共识。此外,关于如何可视化注意力影响其作为解释辅助工具的有效性,研究甚少。为了弥补这一差距,我们进行了用户研究,以评估基于注意力的解释是否支持用户进行生物医学文档分类,以及是否存在首选的可视化方式。该研究涉及来自不同学科的医学专家,他们根据研究设计(例如,系统综述、广泛综合、随机和非随机试验)对文章进行分类。我们的研究结果表明,Transformer模型(XLNet)准确地分类了文档;然而,注意力权重并未被认为对解释预测特别有帮助。然而,这种看法显著地取决于注意力的可视化方式。与Munzner的视觉效果原则相反,该原则偏好精确编码如条形长度,用户更喜欢更直观的格式,如文本亮度或背景颜色。虽然我们的结果未能确认注意力权重在解释中的整体效用,但它们表明其感知的有用性受到其视觉呈现方式的影响。

[10] 从答案到问题:用于评估大型语言模型教育性问题生成的EQGBench
标题: From Answers to Questions: EQGBench for Evaluating LLMs' Educational Question Generation
作者: Chengliang Zhou / Mei Wang / Ting Zhang / Qiannan Zhu / Jian Li / Hua Huang
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在数学问题解决方面展现了卓越的能力。然而,从提供答案到生成高质量的教育问题的转变,仍然面临着尚未充分探索的重大挑战。为了推进教育问题生成(EQG)并帮助LLMs生成具有教育价值和教育效果的问题,我们引入了EQGBench,这是一个专门为评估LLMs在中文EQG中的表现而设计的综合基准。EQGBench建立了一个五维评估框架,并由一个包含900个评估样本的数据集支持,这些样本涵盖了三门基础中学学科:数学、物理和化学。该数据集结合了具有不同知识点、难度梯度和问题类型规格的用户查询,以模拟真实的教育场景。通过对46个主流大型模型的系统评估,我们揭示了在生成反映教育价值并促进学生综合能力的问题方面,仍有显著的发展空间。

[11] 使用微调的大型语言模型对模糊意图敌意问卷进行自动评分
标题: Automated scoring of the Ambiguous Intentions Hostility Questionnaire using fine-tuned large language models
作者: Y. Lyu / D. Combs / D. Neumann / Y. C. Leong
原文:   [英文]  
备注: We have no known conflict of interest
摘要:
敌意归因偏差是指将社会互动解释为故意敌对的倾向。模糊意图敌意问卷(AIHQ)通常用于测量敌意归因偏差,其中包括开放性问题,参与者描述在负面社会情境中感知到的意图以及他们将如何回应。虽然这些问题提供了对敌意归因内容的见解,但需要人工评分者耗时评分。在本研究中,我们评估了大型语言模型是否可以自动化AIHQ开放性回答的评分。我们使用了一个先前收集的数据集,其中包括创伤性脑损伤(TBI)患者和健康对照组(HC)完成的AIHQ问卷,并由训练有素的人工评分者对其开放性回答进行评分。我们使用这些回答的一半来微调两个模型,使其基于人工生成的评分进行训练,并在剩余的一半AIHQ回答上测试微调后的模型。结果显示,模型生成的评分与人工评分在敌意归因和攻击性反应方面一致,微调后的模型显示出更高的一致性。这种一致性在模糊、故意和意外情境类型中均表现出色,并重现了先前关于TBI和HC组在敌意归因和攻击性反应方面的组间差异的研究结果。微调后的模型在一个独立的非临床数据集上也表现出良好的泛化能力。为了支持更广泛的应用,我们提供了一个包含本地和云端选项的可访问评分界面。总之,我们的研究结果表明,大型语言模型可以简化AIHQ在研究和临床环境中的评分,揭示了其在不同人群中促进心理评估的潜力。

[12] 在线课程讨论论坛策展的多维帖子分类
标题: Multidimensional classification of posts for online course discussion forum curation
作者: Antonio Leandro Martins Candido / Jose Everardo Bessa Maia
原文:   [英文]   [中文]  
备注: 8 pages, 1 figure
摘要:
在线课程中讨论论坛的自动管理需要不断更新,这使得频繁重新训练大型语言模型(LLMs)成为一个资源密集型过程。为了避免昂贵的微调需求,本文提出并评估了使用贝叶斯融合的方法。该方法将预训练的通用LLM的多维分类得分与在本地数据上训练的分类器的得分相结合。性能比较表明,所提出的融合方法相比于单独使用每个分类器提高了结果,并且在效果上可以与LLM的微调方法相媲美。

[13] 超越硬共享:通过监督专家混合实现高效的多任务语音转文本建模
标题: Beyond Hard Sharing: Efficient Multi-Task Speech-to-Text Modeling with Supervised Mixture of Experts
作者: Hojun Jin / Eunsoo Hong / Ziwon Hyung / Sungjun Lim / Seungjin Lee / Keunseok Cho
原文:   [英文]   [中文]  
备注: Accepted to Interspeech 2025
摘要:
硬参数共享是一种常见策略,用于在不同任务上联合训练单个模型。然而,这通常会导致任务干扰,阻碍整体模型性能。为了解决这个问题,我们提出了一种简单而有效的监督专家混合模型(S-MoE)。与传统的专家混合模型不同,S-MoE通过利用特殊的引导标记来将每个任务路由到其指定的专家,从而消除了训练门控函数的需要。通过为每个任务分配一个独立的前馈网络,S-MoE克服了硬参数共享的局限性。我们进一步将S-MoE应用于语音到文本模型,使模型能够处理混合带宽输入,同时联合执行自动语音识别(ASR)和语音翻译(ST)。实验结果表明,所提出的S-MoE的有效性,在应用于编码器和解码器时,词错误率(WER)相对提高了6.35%。

[14] 对大型语言模型辅助健康错误信息越狱攻击大型语言模型的审计与分析
标题: An Audit and Analysis of LLM-Assisted Health Misinformation Jailbreaks Against LLMs
作者: Ayana Hussain / Patrick Zhao / Nicholas Vincent
原文:   [英文]  
备注: None
摘要:
大型语言模型(LLMs)是一把双刃剑,既能够生成有害的错误信息——无意间生成,或在受到“越狱”攻击时生成,这些攻击试图产生恶意输出。通过进一步的研究,LLMs 也可以用于检测和防止错误信息的传播。在本文中,我们研究了 LLM 生成的越狱攻击的效果和特征,这些攻击导致其他模型生成有害的医学错误信息。我们还研究了越狱的 LLM 生成的错误信息与社交媒体上常见的错误信息的比较,以及使用标准机器学习方法检测这些错误信息的有效性。具体来说,我们仔细检查了针对三个目标 LLM 的 109 次不同攻击,并将攻击提示与实际环境中的健康相关 LLM 查询进行比较。我们还检查了由此产生的越狱响应,将生成的错误信息与 Reddit 上的健康相关错误信息进行比较。我们的研究结果进一步证明,LLMs 可以有效地用于检测来自其他 LLM 和人类的错误信息,并支持一系列研究,表明通过精心设计,LLMs 可以为更健康的整体信息生态系统做出贡献。

[15] 基于GPT的大型语言生成AI模型作为日本注册营养师国家执照考试学习辅助工具的评估
标题: Evaluation of GPT-based large language generative AI models as study aids for the national licensure examination for registered dietitians in Japan
作者: Yuta Nagamori / Mikoto Kosai / Yuji Kawai / Haruka Marumo / Misaki Shibuya / Tatsuya Negishi / Masaki Imanishi / Yasumasa Ikeda / Koichiro Tsuchiya / Asuka Sawai / Licht Miyamoto
原文:   [英文]  
备注: None
摘要:
基于大型语言模型(LLMs)的生成式人工智能(AI),如ChatGPT,在包括医学和教育在内的各个专业领域中表现出了显著的进步。然而,它们在营养教育,特别是日本注册营养师国家执业考试中的表现仍未被充分探索。本研究旨在评估当前基于LLM的生成式AI模型作为营养学学生学习辅助工具的潜力。研究使用了日本注册营养师国家考试中的题目作为ChatGPT和三个Bing模型(精确、创造性、平衡)的提示,这些模型基于GPT-3.5和GPT-4。每个问题都在独立的会话中输入,并分析模型响应的准确性、一致性和响应时间。还测试了包括角色分配在内的额外提示工程,以评估潜在的性能改进。Bing-精确(66.2%)和Bing-创造性(61.4%)超过了通过门槛(60%),而Bing-平衡(43.3%)和ChatGPT(42.8%)则未能通过。Bing-精确和Bing-创造性在除营养教育外的各学科领域普遍表现优于其他模型,而在营养教育领域,所有模型表现不佳。没有一个模型在重复尝试中始终提供相同的正确答案,突显了答案稳定性的局限性。ChatGPT在响应模式上表现出更高的一致性,但准确性较低。提示工程的效果有限,除非明确提供正确答案和解释时有适度改善。虽然一些生成式AI模型略微超过了通过门槛,但整体准确性和答案一致性仍不理想。此外,所有模型在答案一致性和稳健性方面表现出显著的局限性。需要进一步的进步以确保可靠和稳定的基于AI的学习辅助工具用于营养师执业准备。

[16] 在知识密集环境中的引导式导航:使用引导图进行结构化语义探索
标题: Guided Navigation in Knowledge-Dense Environments: Structured Semantic Exploration with Guidance Graphs
作者: Dehao Tao / Guangjie Liu / Weizheng / Yongfeng Huang / Minghu jiang
原文:   [英文]   [中文]  
备注: None
摘要:
尽管大型语言模型(LLMs)展现出强大的语言能力,但它们对静态知识的依赖和不透明的推理过程限制了其在知识密集型任务中的表现。知识图谱(KGs)提供了一种有前景的解决方案,但当前的探索方法面临一个根本性的权衡:问题引导的方法由于粒度不匹配而导致冗余探索,而线索引导的方法未能有效利用上下文信息来应对复杂场景。为了解决这些限制,我们提出了指导图引导的知识探索(GG Explore),这是一种新颖的框架,通过引入一个中间的指导图来连接非结构化查询和结构化知识检索。指导图通过抽象目标知识的结构同时保留更广泛的语义上下文来定义检索空间,从而实现精确和高效的探索。在指导图的基础上,我们开发了:(1)结构对齐,能够在不增加LLM负担的情况下过滤不兼容的候选项,以及(2)上下文感知剪枝,能够通过图约束来强制语义一致性。大量实验表明,我们的方法在效率上具有优越性,并且在复杂任务上优于现有的最先进技术,同时在使用较小的LLM时仍保持强劲的性能,展示了其实用价值。

[17] 语义桥:通过AMR驱动的图合成实现通用多跳问题生成
标题: Semantic Bridge: Universal Multi-Hop Question Generation via AMR-Driven Graph Synthesis
作者: Linqing Chen / Hanmeng Zhong / Wentao Wu / Weilei Wang
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLM)的训练面临一个关键瓶颈:高质量、需要推理能力的问题-答案对的稀缺,尤其是来自稀疏、特定领域的来源,如PubMed论文或法律文件。现有的方法依赖于表面模式,基本上无法生成可控的、复杂的多跳推理问题,这对于推进LLM训练范式至关重要。我们提出了\textbf{Semantic Bridge},这是第一个用于从任意来源可控生成复杂多跳推理问题的通用框架。我们的突破性创新是\textit{语义图编织}——三种互补的桥接机制(用于角色变化共享实体的实体桥接、用于时间/因果/逻辑序列的谓词链桥接,以及用于显式推理链的因果桥接)——系统地构建跨文档的复杂路径,通过基于AMR的分析对复杂性和类型进行细粒度控制。我们的多模态AMR管道实现了高达9.5%的往返质量提升,使得生产级可控问答生成成为可能。广泛的评估显示了在通用数据集(维基百科)和专业领域(生物医学)中的表现,在四种语言(英语、中文、法语、德语)中相较于基线实现了18.3%-25.4%的持续提升。从200个来源生成的问题对在材料减少67%的情况下优于600个本地人工标注的例子。人工评估显示复杂性提高23.4%,可回答性提高18.7%,模式覆盖率提高31.2%。Semantic Bridge为LLM训练数据合成建立了新的范式,使得从稀疏来源可控生成有针对性的推理问题成为可能。我们将发布我们的核心代码和语义桥接模型。

[18] PersonaEval:大型语言模型评估者是否足够像人类来判断角色扮演?
标题: PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?
作者: Lingfeng Zhou / Jialing Zhang / Jin Gao / Mohan Jiang / Dequan Wang
原文:   [英文]   [中文]  
备注: Accepted by COLM 2025
摘要:
当前的角色扮演研究通常依赖于未经验证的“LLM作为评判者”范式,这可能无法反映人类对角色忠实度的感知。与人类一致的评估的一个关键前提是角色识别,即根据对话上下文识别说话者的能力。我们认为,任何对角色扮演质量(角色扮演得有多好)的有意义的判断,基本上都依赖于首先正确地将言语和行为归因于正确的角色(谁在说话)。我们提出了PersonaEval,这是第一个旨在测试LLM评估者能否可靠识别人类角色的基准。PersonaEval使用来自小说、剧本和视频转录的人类创作的对话,挑战模型根据对话上下文确定正确的角色。我们的实验,包括一项人类研究,表明即使是表现最好的LLM,其准确率也仅达到约69%,远低于可靠评估所需的水平。相比之下,人类参与者的表现接近顶峰,准确率为90.8%,这表明当前的LLM评估者仍然不够“人性化”,无法有效判断角色扮演场景。为了更好地理解这一差距,我们研究了训练时的适应和测试时的计算,建议可靠的评估不仅需要任务特定的调整,还依赖于LLM评估者中强大的人类般的推理能力。我们在此https URL发布我们的基准。

[19] RealTalk-CN:一个具有跨模态交互分析的真实中文语音-文本对话基准
标题: RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis
作者: Enzhi Wang / Qicheng Li / Shiwan Zhao / Aobo Kong / Jiaming Zhou / Xi Yang / Yequan Wang / Yonghua Lin / Yong Qin
原文:   [英文]   [中文]  
备注: 9 pages
摘要:
近年来,大型语言模型(LLMs)在多模态处理方面取得了显著进展,包括端到端的基于语音的语言模型,这些模型能够在面向任务的对话(TOD)系统中实现自然交互并执行特定任务。然而,现有的TOD数据集主要是基于文本的,缺乏评估基于语音的LLMs鲁棒性所必需的真实语音信号。此外,现有的语音TOD数据集主要是英语的,缺乏语音不流利和说话人变化等关键方面。为了解决这些问题,我们引入了RealTalk-CN,这是第一个中文多轮次、多领域的语音-文本双模态TOD数据集,包含5.4k对话(60K话语,150小时)以及配对的语音-文本注释。RealTalk-CN捕捉了多样的对话场景,并注释了自发语音不流利现象,确保全面覆盖语音对话中的现实复杂性。此外,我们提出了一项新颖的跨模态聊天任务,真实模拟了现实世界中的用户交互,允许在语音和文本模态之间动态切换。我们的评估涵盖了对语音不流利的鲁棒性、对说话人特征的敏感性以及跨领域性能。大量实验验证了RealTalk-CN的有效性,为中文基于语音的LLMs研究奠定了坚实基础。

[20] 无训练多模态大型语言模型编排
标题: Training-Free Multimodal Large Language Model Orchestration
作者: Tianyu Xie / Yuhang Wu / Yongdong Luo / Jiayi Ji / Xiawu Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
不同的多模态大语言模型(MLLMs)无法直接整合到一个统一的多模态输入输出系统中。在以往的工作中,由于模态对齐、文本到语音效率以及其他集成问题的挑战,训练被认为是一个不可避免的组成部分。在本文中,我们介绍了多模态大语言模型编排,这是一种无需额外训练即可创建交互式多模态AI系统的有效方法。MLLM编排利用大语言模型固有的推理能力,通过明确的工作流程协调专用模型,实现自然的多模态交互,同时保持模块化,提高可解释性,并显著增强计算效率。我们的编排框架建立在三个关键创新之上:(1)一个中央控制器LLM,分析用户输入并通过精心设计的代理动态地将任务路由到适当的专用模型;(2)一个并行的文本到语音架构,实现真正的全双工交互,具有无缝的中断处理和自然的对话流程;(3)一个跨模态记忆集成系统,通过智能的信息合成和检索,在模态之间保持连贯的上下文,在某些情况下有选择地避免不必要的模态调用以提高响应速度。广泛的评估表明,MLLM编排在无需额外训练的情况下实现了全面的多模态能力,在标准基准测试中比传统的联合训练方法性能提高了高达7.8%,延迟减少了10.3%,并通过明确的编排过程显著增强了可解释性。

[21] 名称不同,芳香依旧:大语言模型的范畴同伦论
标题: A Rose by Any Other Name Would Smell as Sweet: Categorical Homotopy Theory for Large Language Models
作者: Sridhar Mahadevan
原文:   [英文]   [中文]  
备注: 26 pages. arXiv admin note: text overlap with arXiv:2402.18732
摘要:
自然语言中充满了表面上不同但意义相同的陈述,例如“查尔斯·达尔文写道”和“查尔斯·达尔文是作者”,大型语言模型(LLMs)在这种情况下应该生成相同的下一个词的概率,但通常并不会。已有的经验性解决方法包括使用k-NN估计句子相似性以产生平滑的估计。在本文中,我们更抽象地解决这个问题,引入了一个用于LLMs的范畴同伦框架。我们引入了一个LLM马尔可夫范畴来表示由LLM生成的语言中的概率分布,其中句子的概率,例如“查尔斯·达尔文写道”,由马尔可夫范畴中的一个箭头定义。然而,这种方法遇到了困难,因为语言中充满了等价的改写,而每个改写在LLM马尔可夫范畴中生成一个非同构的箭头。为了解决这个基本问题,我们使用范畴同伦技术来捕捉LLM马尔可夫范畴中的“弱等价”。我们详细介绍了范畴同伦在LLMs中的应用,从高等代数K理论到模型范畴,建立在过去半个世纪发展起来的强大理论结果之上。

[22] 通过问题空间映射将理解与推理解耦用于小规模模型推理
标题: Decoupling Understanding from Reasoning via Problem Space Mapping for Small-scale Model Reasoning
作者: Li Wang / Changhao Zhang / Zengqi Xiu / Kai Lu / Xin Yu / Kui Zhang / Wenjun Wu
原文:   [英文]   [中文]  
备注: None
摘要:
尽管大型语言模型(LLMs)的推理能力在最近取得了进展,但提高小型语言模型(SLMs,例如参数量不超过1.5B)的推理能力仍然具有挑战性。一个关键障碍在于自然语言的复杂性和多样性:本质上等价的问题常常以多种表面形式出现,且常常被冗余或干扰性细节所掩盖。这对SLMs施加了双重负担:它们必须首先从复杂的语言输入中提取核心问题,然后基于该理解进行推理。由此产生的庞大且嘈杂的问题空间阻碍了优化,特别是对于能力有限的模型。为了解决这个问题,我们提出了一个新的框架,通过将自然语言问题映射到一个规范的问题空间——一个语义上简化但富有表现力的领域,来将理解与推理解耦。这使得SLMs能够专注于标准化输入上的推理,而不受语言多样性的影响。在这个框架内,我们引入了DURIT(通过迭代训练将理解与推理解耦),这是一种三步算法,迭代地:(1)通过强化学习映射自然语言问题,(2)通过自蒸馏对齐推理轨迹,以及(3)在问题空间中训练推理策略。在整个过程中,映射器和推理器在交替循环中共同训练。实验表明,DURIT显著提高了SLMs在域内和域外数学和逻辑推理任务上的表现。除了提高推理能力外,DURIT还提高了推理的鲁棒性,验证了将理解与推理解耦作为增强SLMs的一种有效策略。

[23] FedCoT:大语言模型的通信高效联邦推理增强
标题: FedCoT: Communication-Efficient Federated Reasoning Enhancement for Large Language Models
作者: Chuan Li / Qianyi Zhao / Fengran Mo / Cen Chen
原文:   [英文]   [中文]  
备注: None
摘要:
在联邦学习环境中高效提升大型语言模型(LLMs)的推理能力仍然具有挑战性,特别是在性能提升与严格的计算、通信和隐私限制之间取得平衡时。这一挑战在医疗保健领域尤为突出,因为涉及临床、运营和面向患者的决策不仅需要准确的输出,还需要可解释、可追溯的推理,以确保安全性、责任性和合规性。传统的LLM联邦调优方法未能解决这一需求:它们主要优化答案的正确性,而忽视了推理质量,使得推理链(CoT)能力依赖于模型的先天预训练能力。此外,现有改善推理的方法通常依赖于侵犯隐私的集中模型知识蒸馏。此外,传统的LLM联邦微调中的通信开销仍然很大。我们通过提出FedCoT来填补这一空白,这是一种专门设计用于在联邦环境中增强推理的新框架。FedCoT利用轻量级的推理链增强机制:本地模型生成多条推理路径,并由一个紧凑的判别器动态选择最有前途的一条。这种方法提高了推理的准确性和鲁棒性,同时提供了宝贵的可解释性,这对于医疗应用尤为关键。为了高效管理客户端异质性,我们采用了一种改进的聚合方法,基于先进的LoRA模块堆叠,结合客户端分类器感知,实现了跨多样化客户端的无噪声聚合。对医疗推理任务的综合实验表明,FedCoT在严格的资源预算下显著提升了客户端推理性能,同时完全保护了数据隐私。

[24] LATTE:为银行客户学习对齐的交易和文本嵌入
标题: LATTE: Learning Aligned Transactions and Textual Embeddings for Bank Clients
作者: Egor Fadeev / Dzhambulat Mollaev / Aleksei Shestov / Dima Korolev / Omar Zoloev / Ivan Kireev / Andrey Savchenko / Maksim Makarenko
原文:   [英文]   [中文]  
备注: None
摘要:
从历史通信序列中学习客户嵌入是金融应用的核心。虽然大型语言模型(LLMs)提供了通用的世界知识,但它们在长事件序列上的直接应用在计算上是昂贵的,并且在现实世界的流程中不切实际。在本文中,我们提出了LATTE,这是一种对比学习框架,将原始事件嵌入与冻结的LLMs的语义嵌入对齐。行为特征被总结为简短的提示,由LLM嵌入,并通过对比损失用作监督。与LLM对完整序列的常规处理相比,该方法显著降低了推理成本和输入大小。我们的实验表明,在真实世界的金融数据集上,我们的方法在学习事件序列表示方面优于最先进的技术,同时仍然可以在对延迟敏感的环境中部署。

[25] 在多项选择题回答任务中具有可证明风险控制的保形 P 值
标题: Conformal P-Value in Multiple-Choice Question Answering Tasks with Provable Risk Control
作者: Yuanchang Ye
原文:   [英文]   [中文]  
备注: None
摘要:
本研究引入了一种增强显著性检验的保形预测(CP)框架,以提高大型语言模型(LLMs)在多项选择题回答(MCQA)中的可信度。虽然LLMs在学科问答场景中被越来越多地使用,但幻觉和非事实生成严重影响了响应的可靠性。尽管CP为预测集提供了统计上严格的边际覆盖保证,而显著性检验提供了公认的统计严谨性,但它们的协同整合仍未被探索。为了减轻幻觉和事实不准确性,我们的框架通过MCQA响应的自一致性重采样将$p$值计算与一致性评分相结合。该方法通过计算选项频率来解决LLMs的黑箱性质,随后通过经验导出的$p$值进行零假设检验($\mathcal{H}_0$)构建预测集。在使用现成的LLMs进行的MMLU和MMLU-Pro基准测试中,评估结果表明:(1)增强的CP实现了用户指定的经验误覆盖率;(2)测试集平均预测集大小(APSS)随着风险水平($\alpha$)的增加而单调减少,验证了APSS作为有效不确定性度量的作用。该工作为在高风险问答应用中可信赖的LLM部署建立了一个原则性的统计框架。

[26] RTTC:奖励引导的协作测试时计算
标题: RTTC: Reward-Guided Collaborative Test-Time Compute
作者: J. Pablo Muñoz / Jinjie Yuan
原文:   [英文]   [中文]  
备注: None
摘要:
测试时计算(Test-Time Compute, TTC)已成为一种强大的范式,通过测试时训练(Test-Time Training, TTT)和检索增强生成(Retrieval-Augmented Generation, RAG)等策略,在推理时提升大型语言模型(LLMs)的性能。然而,最佳的适应策略因查询而异,不加区分地应用TTC策略会带来大量的计算开销。在这项工作中,我们引入了奖励引导的测试时计算(Reward-Guided Test-Time Compute, RTTC),这是一种新颖的框架,通过预训练的奖励模型自适应地为每个查询选择最有效的TTC策略,从而在不同领域和任务中最大化下游准确性。RTTC在分布式的服务器-客户端架构中运行,从远程知识库中检索相关样本,并仅在必要时在客户端设备上应用RAG或轻量级微调。为了进一步减少冗余计算,我们提出了查询状态缓存(Query-State Caching),这使得在检索和适应层面高效重用历史查询状态成为可能。跨多个LLM和基准的广泛实验表明,RTTC在准确性上始终优于普通的RAG或TTT,验证了自适应、奖励引导的TTC选择的必要性以及RTTC在可扩展的高性能语言模型适应中的潜力。

[27] 利用生成式人工智能实时检测和解释产后抑郁症
标题: Detecting and explaining postpartum depression in real-time with generative artificial intelligence
作者: Silvia García-Méndez / Francisco de Arriba-Pérez
原文:   [英文]   [中文]  
备注: None
摘要:
在产后,母亲面临许多挑战,其中产后抑郁症(PPD)是一种严重的状况,对她们的心理和身体健康产生重大影响。因此,快速检测PPD及其相关风险因素对于通过专业预防程序进行及时评估和干预至关重要。因此,本研究旨在帮助从业者利用最新技术进步做出决策,以实现实时筛查和治疗建议。我们的工作主要贡献在于开发了一种智能PPD筛查系统,该系统结合了自然语言处理、机器学习(ML)和大型语言模型(LLMs),实现了一种经济实惠、实时且非侵入性的自由言语分析。此外,该系统解决了黑箱问题,因为预测结果通过LLMs与可解释的机器学习模型(即基于树的算法)结合使用特征重要性和自然语言向最终用户进行描述。我们获得的结果在所有评估指标上对PPD检测的准确率达到了90%,优于文献中的竞争解决方案。最终,我们的解决方案有助于快速检测PPD及其相关风险因素,这对于及时和适当的评估和干预至关重要。

[28] SABER:可切换和平衡训练以提高大型语言模型推理效率
标题: SABER: Switchable and Balanced Training for Efficient LLM Reasoning
作者: Kai Zhao / Yanjun Zhao / Jiaming Song / Shien He / Lusheng Zhang / Qiang Zhang / Tianjiao Li
原文:   [英文]   [中文]  
备注: None
摘要:
由链式思维推理赋能的大型语言模型(LLMs)在复杂任务上取得了令人印象深刻的准确性,但在所有问题上统一应用时会遭遇过高的推理成本和延迟。我们提出了SABER(可切换和均衡训练以提高LLM推理效率),这是一种强化学习框架,使LLMs具备用户可控的、基于令牌预算的推理能力。SABER首先分析每个训练样本的基础模型思维令牌使用情况,并将其分配到预定义的预算层级之一。在微调过程中,模型通过系统提示和长度感知奖励来遵循其分配的预算。同时,我们加入了无思维样本,以确保即使关闭显式推理时模型仍然可靠。SABER进一步支持四种离散推理模式——无思维、快速思维、核心思维和深度思维,实现延迟与推理深度之间的灵活权衡。在数学推理(MATH, GSM8K)、代码生成(MBPP)和逻辑推理(LiveBench-Reasoning)上的广泛评估表明,SABER在严格预算下实现了高准确性、优雅的降级以及有效的跨尺度和跨领域泛化。特别是,SABER-快速思维将推理长度减少了65.4%,并在MATH基准上相比基础模型提高了3.6%的准确性。

[29] LLMCARE:通过大型语言模型生成的合成数据增强的Transformer模型进行阿尔茨海默症检测
标题: LLMCARE: Alzheimer's Detection via Transformer Models Enhanced by LLM-Generated Synthetic Data
作者: Ali Zolnour / Hossein Azadmaleki / Yasaman Haghbin / Fatemeh Taherinezhad / Mohamad Javad Momeni Nezhad / Sina Rashidi / Masoud Khani / AmirSajjad Taleban / Samin Mahdizadeh Sani / Maryam Dadkhah / James M. Noble / Suzanne Bakken / Yadollah Yaghoobzadeh / Abdol-Hossein Vahabie / Masoud Rouhizadeh / Maryam Zolnoori
原文:   [英文]  
备注: None
摘要:
阿尔茨海默病及相关痴呆症(ADRD)影响了美国大约五百万老年人,但超过一半的患者尚未被诊断出来。基于语音的自然语言处理(NLP)通过语言标记提供了一种有前景的、可扩展的方法来检测早期认知衰退。 本研究旨在开发和评估一个筛查流程,该流程(i)融合了变压器嵌入和手工制作的语言特征,(ii)测试使用由大型语言模型(LLMs)生成的合成语音进行数据增强,以及(iii)为ADRD检测建立单模态和多模态LLM分类器的基准。 使用了来自DementiaBank“偷饼干”任务的转录文本(n = 237)。在三种微调策略下评估了十个变压器模型。一个融合模型结合了表现最佳的变压器的嵌入和110个词汇衍生的语言特征。五个LLM(LLaMA-8B/70B, MedAlpaca-7B, Ministral-8B, GPT-4o)被微调以生成标签条件的合成语音,用于增强训练数据。测试了三个多模态模型(GPT-4o, Qwen-Omni, Phi-4)在零样本和微调设置下的语音-文本分类。 融合模型实现了F1 = 83.3(AUC = 89.5),优于仅使用语言或变压器的基线。用2倍MedAlpaca-7B合成语音增强训练数据将F1提高到85.7。微调显著提高了单模态LLM分类器的性能(例如,MedAlpaca: F1 = 47.3 -> 78.5 F1)。当前的多模态模型表现较低(GPT-4o = 70.2 F1; Qwen = 66.0)。性能提升与合成语音和真实语音之间的分布相似性一致。 将变压器嵌入与语言特征相结合可以提高从语音中检测ADRD的能力。临床调优的LLM有效支持分类和数据增强,而多模态建模仍需进一步发展。

[30] PREF:大型语言模型中个性化文本生成的无参考评估
标题: PREF: Reference-Free Evaluation of Personalised Text Generation in LLMs
作者: Xiao Fu / Hossein A. Rahmani / Bin Wu / Jerome Ramos / Emine Yilmaz / Aldo Lipani
原文:   [英文]   [中文]  
备注: 7 pages
摘要:
个性化文本生成对于以用户为中心的信息系统至关重要,但大多数评估方法忽视了用户的个体性。我们介绍了 \textbf{PREF},一种无需参考个性化金标准的 \textbf{P}ersonalised \textbf{R}eference-free \textbf{E}valuation \textbf{F}ramework(个性化无参考评估框架),该框架能够同时衡量一般输出质量和用户特定的对齐度。PREF 通过三个步骤的流程运行:(1)覆盖阶段使用大型语言模型(LLM)生成一个全面的、针对查询的指南,涵盖诸如事实性、一致性和完整性等通用标准;(2)偏好阶段根据目标用户的档案、明示或推断的偏好和上下文对这些因素进行重新排序和选择性增强,生成个性化的评估标准;(3)评分阶段应用 LLM 评审员根据该标准对候选答案进行评分,确保基线的充分性,同时捕捉主观优先级。将覆盖与偏好分离提高了稳健性、透明性和可重用性,并允许较小的模型近似较大模型的个性化质量。在 PrefEval 基准测试中,包括隐式偏好跟随任务,实验表明 PREF 比强基线实现了更高的准确性、更好的校准和与人类判断更紧密的对齐。通过实现可扩展、可解释和用户对齐的评估,PREF 为个性化语言生成系统的更可靠评估和开发奠定了基础。

[31] 潜在融合越狱:混合有害和无害表示以引发不安全的大型语言模型输出
标题: Latent Fusion Jailbreak: Blending Harmful and Harmless Representations to Elicit Unsafe LLM Outputs
作者: Wenpeng Xing / Mohan Li / Chunqiang Hu / Haitao XuNingyu Zhang / Bo Lin / Meng Han
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在各种语言任务中展示了令人印象深刻的能力,但容易受到绕过其安全对齐的越狱攻击。本文介绍了一种基于表示的攻击方法,称为潜在融合越狱(LFJ),该方法通过插值有害和良性查询对的隐藏状态来引发被禁止的响应。LFJ首先选择在主题和句法上高度相似的查询对,然后在关键层和标记上执行梯度引导的插值,接着进行优化以平衡攻击成功率、输出流畅性和计算效率。在Vicuna和LLaMA-2等模型上进行的评估中,使用AdvBench和MaliciousInstruct等基准测试,LFJ的平均攻击成功率(ASR)达到94.01%,优于现有方法。为了缓解LFJ,我们提出了一种对抗性训练防御方法,通过在插值示例上微调模型,将ASR降低了80%以上,同时不降低对良性输入的性能。消融研究验证了查询对选择、隐藏状态插值组件和优化策略在LFJ有效性中的重要性。

[32] 面向推理的提示优化以对齐黑箱大型语言模型
标题: Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models
作者: Saaduddin Mahmud / Mason Nakamura / Kyle H. Wray / Shlomo Zilberstein
原文:   [英文]   [中文]  
备注: 17 pages
摘要:
提示优化方法在对齐黑箱大型语言模型(LLMs)方面表现出显著的效果。同时,推理扩展策略如最佳N采样和多数投票也通过权衡计算来提高对齐和性能。然而,现有的提示优化方法与推理策略无关,即它们在优化提示时不考虑部署期间使用的推理策略。这构成了一个显著的方法学差距,因为我们的实证和理论分析揭示了这两种范式之间的强烈相互依赖性。此外,我们发现用户对多目标和推理预算之间权衡的偏好极大地影响了提示和推理配置的选择。为了解决这一差距,我们引入了一个统一的新框架,称为IAPO(推理感知提示优化),该框架在意识到推理预算和不同任务目标的同时,联合优化提示和推理规模。然后,我们为IAPO开发了一种固定预算的训练算法,称为PSST(通过顺序修剪进行提示扩展),并分析了有限预算下的错误概率保证。最后,我们在六个不同的任务上评估了PSST的有效性,包括多目标文本生成和推理,并展示了在通过提示优化对齐黑箱LLMs时,结合推理意识的重要作用。

[33] 思考的代价:大型语言模型中增加的越狱风险
标题: The Cost of Thinking: Increased Jailbreak Risk in Large Language Models
作者: Fan Yang
原文:   [英文]   [中文]  
备注: None
摘要:
思维模式一直被认为是大型语言模型(LLMs)中最有价值的模式之一。然而,我们发现了一个令人惊讶且之前被忽视的现象:具有思维模式的LLMs更容易受到Jailbreak攻击。我们在AdvBench和HarmBench上评估了9个LLMs,发现攻击LLMs思维模式的成功率几乎高于非思维模式。通过大量样本研究发现,出于教育目的和过长的思维长度是成功攻击数据的特征,并且LLMs在大多数情况下知道问题有害时也会给出有害的答案。为了解决上述问题,本文提出了一种针对LLMs的安全思维干预方法,通过在提示中添加LLMs的“特定思维标记”来明确引导LLMs的内部思维过程。结果表明,安全思维干预可以显著降低具有思维模式的LLMs的攻击成功率。

[34] 反思后学习:由内省困惑引导的信息抽取主动提示
标题: Reflect then Learn: Active Prompting for Information Extraction Guided by Introspective Confusion
作者: Dong Zhao / Yadong Wang / Xiang Chen / Chenxi Wang / Hongliang Dai / Chuanxing Geng / Shengzhong Zhang / Shaoyuan Li / Sheng-Jun Huang
原文:   [英文]  
备注: Under Review
摘要:
大型语言模型(LLMs)在少样本信息抽取(IE)方面展现出显著潜力,但其性能对上下文示例的选择非常敏感。传统的选择策略往往未能提供有益的指导,因为它们忽视了模型易出错的一个关键来源:不仅仅是语义内容的混淆,还有IE任务所需的良好结构格式的生成。为了解决这个问题,我们引入了一种新的主动提示框架,称为信息抽取的主动提示(APIE),其指导原则是我们称之为内省混淆的方法。我们的方法使LLM能够通过一个双组件的不确定性度量来评估自身的混淆,该度量独特地量化了格式不确定性(生成正确语法的难度)和内容不确定性(提取语义的不一致性)。通过使用这一综合评分对未标记数据进行排序,我们的框架主动选择最具挑战性和信息量的样本作为少样本示例。在四个基准上的广泛实验表明,我们的方法始终优于强基线,在抽取准确性和鲁棒性方面均取得显著改进。我们的工作强调了在构建有效且可靠的结构化生成系统时,细粒度、双层次模型不确定性视角的重要性。

[35] mSCoRe:一种用于技能型常识推理的多语言和可扩展基准
标题: mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning
作者: Nghia Trung Ngo / Franck Dernoncourt / Thien Huu Nguyen
原文:   [英文]   [中文]  
备注: None
摘要:
最近在推理增强的大型语言模型(LLMs)方面的进展显示了其在复杂推理任务中的显著能力。然而,它们在利用不同人类推理技能方面的机制仍然缺乏深入研究,特别是在涉及跨语言和文化的日常知识的多语言常识推理方面。为了解决这一空白,我们提出了一个多语言且可扩展的基准,用于基于技能的常识推理(mSCoRe)。我们的基准包含三个关键组件,旨在系统地评估LLM的推理能力,包括:(1)一种新的推理技能分类法,能够对模型的推理过程进行细粒度分析,(2)一个专门为常识推理评估量身定制的稳健数据合成流程,以及(3)一个复杂性扩展框架,允许任务难度随着未来LLM能力的提高而动态扩展。对八个不同规模和训练方法的最先进LLM进行的大量实验表明,mSCoRe对于当前模型仍然具有显著挑战性,特别是在更高复杂度水平上。我们的结果揭示了这些推理增强模型在面对细微的多语言通用和文化常识时的局限性。我们进一步对模型的推理过程进行了详细分析,并提出了改进多语言常识推理能力的未来方向。

[36] 多轮谜题:评估大型语言模型中的交互推理和策略对话
标题: Multi-Turn Puzzles: Evaluating Interactive Reasoning and Strategic Dialogue in LLMs
作者: Kartikeya Badola / Jonathan Simon / Arian Hosseini / Sara Marie Mc Carthy / Tsendsuren Munkhdalai / Abhimanyu Goyal / Tomáš Kočiský / Shyam Upadhyay / Bahare Fatemi / Mehran Kazemi
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在解决具有明确和完整陈述的问题时表现出色,但在细微复杂的环境或互动任务中常常表现不佳,而这些任务在大多数现实世界场景中很常见。这突显了开发能够有效进行逻辑一致的多轮对话、寻求信息并在不完整数据中进行推理的LLMs的关键需求。为此,我们引入了一个新的基准测试,其中包含一系列多轮任务,每个任务都旨在测试特定的推理、互动对话和信息寻求能力。这些任务具有确定性的评分机制,从而消除了对人工干预的需求。在我们的基准测试中评估前沿模型揭示了显著的提升空间。我们的分析表明,大多数错误源于糟糕的指令遵循、推理失败和糟糕的规划。该基准测试为当前LLMs在处理复杂互动场景中的优缺点提供了宝贵的见解,并为未来旨在提高这些关键能力的研究提供了一个强大的平台。

[37] LaajMeter:LaaJ评估框架
标题: LaajMeter: A Framework for LaaJ Evaluation
作者: Gal Amram / Eitan Farchi / Shmulik Froimovich / Raviv Gal / Avi Ziv
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在自然语言处理任务中越来越多地被用作评估者,这种范式被称为LLM-as-a-Judge(LaaJ)。虽然在一般领域中效果显著,但在特定领域中,LaaJ面临重大挑战,因为在这些领域中标注数据稀缺且专家评估成本高昂。在这种情况下,通常使用未经过特定领域验证的指标进行元评估。因此,很难确定哪些指标能够有效识别LaaJ的质量,以及什么样的阈值表明评估者的性能足够。在这项工作中,我们引入了LaaJMeter,这是一种基于模拟的框架,用于对LaaJ进行受控的元评估。LaaJMeter使工程师能够生成代表虚拟模型和评审员的合成数据,从而在现实条件下系统地分析评估指标。这帮助从业者验证和完善特定评估任务的LaaJ:他们可以测试其指标是否正确区分出更好和更差的(虚拟)LaaJ,并估计评估者适当性的合适阈值。我们在涉及遗留编程语言的代码翻译任务中展示了LaaJMeter的实用性,说明了不同指标在评估者质量敏感性方面的差异。我们的结果突出了常用指标的局限性以及原则性指标选择的重要性。LaaJMeter为在资源匮乏环境中评估LaaJ提供了可扩展且可扩展的解决方案,为确保NLP评估的可信性和可重复性做出了更广泛的贡献。

[38] 估计机器翻译难度
标题: Estimating Machine Translation Difficulty
作者: Lorenzo Proietti / Stefano Perrella / Vilém Zouhar / Roberto Navigli / Tom Kocmi
原文:   [英文]   [中文]  
备注: None
摘要:
机器翻译质量在某些设置中已经开始实现近乎完美的翻译。这些高质量的输出使得区分最先进的模型以及识别未来改进的领域变得困难。自动识别机器翻译系统难以处理的文本有望开发出更具辨别力的评估方法,并指导未来的研究。我们将翻译难度估计任务形式化,基于文本翻译的预期质量定义其难度。我们引入了一种新的指标来评估难度估计器,并用它来评估基线和新方法。最后,我们通过使用难度估计器构建更具挑战性的机器翻译基准来展示其实际效用。我们的结果表明,专用模型(称为Sentinel-src)在表现上优于基于启发式的方法(例如词汇稀有性或句法复杂性)和将大型语言模型作为评判者的方法。我们发布了两个改进的难度估计模型,Sentinel-src-24和Sentinel-src-25,可以用于扫描大量文本集合,并选择那些最有可能挑战当代机器翻译系统的文本。

[39] 高效的仅向前数据估值用于预训练的大型语言模型和视觉语言模型
标题: Efficient Forward-Only Data Valuation for Pretrained LLMs and VLMs
作者: Wenlong Deng / Jiaming Zhang / Qi Zeng / Christos Thrampoulidis / Boying Gong / Xiaoxiao Li
原文:   [英文]   [中文]  
备注: None
摘要:
量化单个训练样本的影响对于增强大型语言模型(LLMs)和视觉语言模型(VLMs)的透明度和责任性至关重要。然而,现有的数据估值方法通常依赖于Hessian信息或模型重训练,这使得它们在处理十亿参数模型时计算成本过高。在这项工作中,我们引入了For-Value,这是一种仅需前向计算的数据估值框架,能够为LLMs和VLMs提供可扩展且高效的影响估计。通过利用现代基础模型的丰富表示,For-Value使用一个简单的闭式表达式来计算影响分数,该表达式仅基于一次前向传递,从而消除了昂贵的梯度计算的需求。我们的理论分析表明,For-Value通过捕捉训练和验证样本之间的隐藏表示和预测误差的对齐,准确估计了每个样本的影响。大量实验表明,For-Value在识别有影响力的微调示例和有效检测错误标记数据方面,与基于梯度的基线方法相当或更优。

[40] PakBBQ:一个文化适应的问答偏见基准
标题: PakBBQ: A Culturally Adapted Bias Benchmark for QA
作者: Abdullah Hashmat / Muhammad Arham Mirza / Agha Ali Raza
原文:   [英文]   [中文]  
备注: 8 pages, 7 figures, 2 tables, Submitted to EMNLP 2025
摘要:
随着大型语言模型(LLMs)在各种应用中的广泛采用,确保其在所有用户群体中的公平性是至关重要的。然而,大多数LLMs是在以西方为中心的数据上训练和评估的,对低资源语言和区域背景关注较少。为了解决这一差距,我们引入了PakBBQ,这是原始偏见基准问答(BBQ)数据集的一个文化和区域适应扩展。PakBBQ包含超过214个模板,17180个问答对,涵盖英语和乌尔都语的8个类别,涉及在巴基斯坦相关的八个偏见维度,包括年龄、残疾、外貌、性别、社会经济地位、宗教、地区归属和语言形式。我们在模糊和明确消歧的背景下,以及负面与非负面问题框架下评估了多种多语言LLMs。我们的实验揭示了(i)通过消歧平均准确率提高了12%,(ii)乌尔都语中比英语中表现出更强的反偏见行为,以及(iii)显著的框架效应,当问题以负面形式提出时减少了刻板印象的反应。这些发现强调了在低资源环境中,情境化基准和简单提示工程策略对于偏见缓解的重要性。

[41] 用于检测大型语言模型中的忠实性幻觉和不匹配的提示-响应语义分歧度量
标题: Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models
作者: Igor Halperin
原文:   [英文]   [中文]  
备注: 24 pages, 3 figures
摘要:
大型语言模型(LLMs)的扩展面临幻觉的挑战,这是一种关键的失败模式,模型生成了不符合事实、无意义或不忠实的文本。本文介绍了语义分歧度量(SDM),这是一种新颖的轻量级框架,用于检测忠实度幻觉——即LLMs响应与输入上下文严重偏离的事件。我们专注于这些LLM错误的具体实现,即虚构,定义为与用户查询语义不一致且任意的响应。现有方法如语义熵通过测量对单一固定提示的答案多样性来测试任意性。我们的SDM框架通过更具提示意识的方式改进了这一点:我们通过测量响应的一致性,不仅在多个答案之间,还在原始提示的多个语义等价的改写之间,来测试更深层次的任意性。在方法上,我们的做法使用句子嵌入的联合聚类来为提示和答案创建共享的主题空间。提示和响应之间主题共现的热图可以被视为用户与机器对话的量化二维可视化。然后,我们计算一套信息论度量来衡量提示和响应之间的语义分歧。我们的实用评分$\mathcal{S}_H$结合了Jensen-Shannon散度和Wasserstein距离来量化这种分歧,高分表明存在忠实度幻觉。此外,我们识别出KL散度KL(Answer $||$ Prompt)作为\textbf{语义探索}的强有力指标,这是区分不同生成行为的关键信号。这些度量进一步结合到语义盒中,这是一个用于分类LLM响应类型的诊断框架,包括危险的、自信的虚构。

[42] 通过表情符号预测理解文本情感
标题: Understanding Textual Emotion Through Emoji Prediction
作者: Ethan Gordon / Nishank Kuppa / Rigved Tummala / Sriram Anasuri
原文:   [英文]   [中文]  
备注: None
摘要:
本项目使用四种深度学习架构(前馈网络、CNN、transformer 和 BERT)探索从短文本序列中预测表情符号。我们使用 TweetEval 数据集,通过焦点损失和正则化技术解决类别不平衡问题。结果表明,由于预训练的优势,BERT 在整体性能上达到最高,而 CNN 在稀有表情符号类别上表现出更高的效率。该研究表明,架构选择和超参数调整对于情感感知的表情符号预测的重要性,有助于改善人机交互。

[43] 使用大型语言模型评估有精神分裂症风险患者的症状严重程度
标题: Using Large Language Models to Measure Symptom Severity in Patients At Risk for Schizophrenia
作者: Andrew X. Chen / Guillermo Horga / Sean Escola
原文:   [英文]  
备注: None
摘要:
对于临床高风险(CHR)精神分裂症患者,需要密切监测其症状以指导适当的治疗。简明精神病评定量表(BPRS)是一种经过验证的、常用的研究工具,用于测量精神分裂症和其他精神病性障碍患者的症状;然而,由于需要进行冗长的结构化访谈,它在临床实践中并不常用。在此,我们利用大型语言模型(LLMs)从加速药物合作伙伴关系精神分裂症(AMP-SCZ)队列中409名CHR患者的临床访谈记录中预测BPRS评分。尽管这些访谈并未专门结构化以测量BPRS,LLM预测的零样本表现与真实评估相比(中位一致性:0.84,ICC:0.73)接近于人类评估者之间和评估者自身的一致性。我们进一步证明,LLMs在通过其评估外语BPRS的准确性(中位一致性:0.88,ICC:0.70)以及在单次或少次学习方法中整合纵向信息方面,具有显著的潜力来改善和标准化CHR患者的评估。

[44] 一种计算方法分析构造语言Toki Pona中的语言变化和变异
标题: A Computational Approach to Analyzing Language Change and Variation in the Constructed Language Toki Pona
作者: Daniel Huang / Hyoun-A Joo
原文:   [英文]  
备注: 14 pages, 14 figures. submitted to UGA Working Papers in Linguistics 2025
摘要:
本研究探讨了Toki Pona语言的变化和变异,Toki Pona是一种由大约120个核心词构成的人造语言。通过计算和语料库的方法,研究考察了包括流动词类和及物性在内的特征,以便分析(1)随着时间推移,不同句法位置的内容词偏好变化,以及(2)在不同语料库中的使用变异。结果表明,社会语言学因素对Toki Pona的影响与自然语言相同,即使是构建的语言系统也会随着社区的使用自然演变。

[45] 大语言模型提示的归纳偏差提取与匹配
标题: Inductive Bias Extraction and Matching for LLM Prompts
作者: Christian M. Angel / Francis Ferraro
原文:   [英文]   [中文]  
备注: None
摘要:
提示工程的活跃研究主题表明,大型语言模型(LLM)对提示措辞的细微变化非常敏感。这部分可以归因于LLM中存在的归纳偏差。通过将LLM的输出用作其提示的一部分,我们可以更轻松地创建令人满意的提示措辞。这种方法的效果是创建一个与模型中的归纳偏差相匹配的提示。通过实证研究,我们表明使用这种归纳偏差提取和匹配策略可以将用于分类的LLM Likert评分提高多达19%,将用于排序的LLM Likert评分提高多达27%。

[46] 又一个算法偏见:大型语言模型在性别和种族问题上强化主流话语的论述分析
标题: Yet another algorithmic bias: A Discursive Analysis of Large Language Models Reinforcing Dominant Discourses on Gender and Race
作者: Gustavo Bonil / Simone Hashiguti / Jhessica Silva / João Gondim / Helena Maia / Nádia Silva / Helio Pedrini / Sandra Avila
原文:   [英文]   [中文]  
备注: 29 pages, 3 figures
摘要:
随着人工智能(AI)的进步,大型语言模型(LLMs)变得越来越重要,并被应用于各种场景。随着它们演变为更复杂的版本,评估它们是否重现偏见(如歧视和种族化)并维持霸权话语是至关重要的。目前的偏见检测方法主要依赖于定量的自动化方法,这些方法往往忽视了偏见在自然语言中出现的细微方式。本研究提出了一种定性的话语框架,以补充这些方法。通过对LLM生成的以黑人和白人女性为主角的短篇故事进行手动分析,我们调查了性别和种族偏见。我们认为,像本文所提出的定性方法对于帮助开发者和用户识别偏见在LLM输出中表现的具体方式是至关重要的,从而为减轻这些偏见创造更好的条件。结果显示,黑人女性被描绘为与祖先和抵抗联系在一起,而白人女性则出现在自我发现的过程中。这些模式反映了语言模型如何复制固化的话语表现,强化了本质化和社会不流动的感觉。当被要求纠正偏见时,模型提供了保持问题含义的表面修正,揭示了在促进包容性叙事方面的局限性。我们的结果展示了算法的意识形态功能,并对AI的伦理使用和发展具有重要意义。该研究强调了对AI设计和部署进行批判性、跨学科方法的必要性,解决了LLM生成的话语如何反映和延续不平等的问题。

[47] ReviewRL:迈向使用强化学习实现自动化科学审稿
标题: ReviewRL: Towards Automated Scientific Review with RL
作者: Sihang Zeng / Kai Tian / Kaiyan Zhang / Yuru wang / Junqi Gao / Runze Liu / Sa Yang / Jingxuan Li / Xinwei Long / Jiaheng Ma / Biqing Qi / Bowen Zhou
原文:   [英文]   [中文]  
备注: 13 pages, 5 figures
摘要:
同行评审对于科学进步至关重要,但由于投稿量增加和审稿人疲劳,面临着越来越多的挑战。现有的自动化评审方法在事实准确性、评分一致性和分析深度方面存在困难,往往生成缺乏高质量人工评审特征的肤浅或通用反馈。我们介绍了ReviewRL,这是一种用于生成全面且事实依据的科学论文评审的强化学习框架。我们的方法结合了:(1) ArXiv-MCP检索增强的上下文生成管道,整合了相关的科学文献,(2) 建立基础评审能力的监督微调,以及 (3) 通过复合奖励函数的强化学习程序,联合提升评审质量和评分准确性。在ICLR 2025论文上的实验表明,ReviewRL在基于规则的指标和基于模型的质量评估方面显著优于现有方法。ReviewRL为科学发现中的RL驱动自动批判生成建立了基础框架,展示了该领域未来发展的良好潜力。ReviewRL的实现将在GitHub上发布。

[48] 从表面到语义:面向表格中心文档分析的语义结构解析
标题: From Surface to Semantics: Semantic Structure Parsing for Table-Centric Document Analysis
作者: Xuan Li / Jialiang Dong / Raymond Wong
原文:   [英文]  
备注: 8 pages, 5 figures, 28th European Conference on Artificial Intelligence (ECAI-2025)
摘要:
文档是信息和知识的核心载体,在金融、医疗保健和科学研究中有广泛的应用。表格作为结构化数据的主要媒介,封装了关键信息,是最重要的文档组件之一。现有研究主要集中在表面层面的任务,如布局分析、表格检测和数据提取,缺乏对表格及其上下文关联的深层语义解析。这限制了跨段落数据解释和上下文一致分析等高级任务。为了解决这一问题,我们提出了DOTABLER,一种以表格为中心的语义文档解析框架,旨在揭示表格与其上下文之间的深层语义链接。DOTABLER利用定制数据集和预训练模型的领域特定微调,集成了完整的解析流程,以识别与表格语义相关的上下文片段。在这种语义理解的基础上,DOTABLER实现了两个核心功能:以表格为中心的文档结构解析和领域特定的表格检索,提供全面的表格锚定语义分析和精确提取语义相关表格。在对来自真实世界PDF的近4,000页和超过1,000个表格的评估中,DOTABLER实现了超过90%的精确度和F1分数,展示了在表格上下文语义分析和深层文档解析方面相对于先进模型(如GPT-4o)的卓越性能。

[49] 超越语义理解:在基于大型语言模型的推荐中保留协作频率成分
标题: Beyond Semantic Understanding: Preserving Collaborative Frequency Components in LLM-based Recommendation
作者: Minhao Wang / Yunhang He / Cong Xu / Zhangchi Zhu / Wei Zhang
原文:   [英文]   [中文]  
备注: 12 pages, 8 figures
摘要:
结合大型语言模型(LLMs)的推荐系统在生成语义信息丰富的推荐方面展现了广阔的前景。然而,基于LLM的推荐系统往往倾向于过度强调用户交互历史中的语义关联。当以预训练的协同ID嵌入作为输入时,基于LLM的推荐系统在嵌入通过LLM主干层层传播的过程中逐渐削弱了固有的协同信号,而传统的基于Transformer的序列模型通常会保留甚至增强协同信号以实现最先进的性能。为了解决这一局限性,我们引入了FreLLM4Rec,这是一种从频谱角度平衡语义和协同信息的方法。首先,结合语义和协同信息的物品嵌入通过全局图低通滤波器(G-LPF)进行净化,以初步去除无关的高频噪声。然后,时间频率调制(TFM)逐层主动保留协同信号。需要注意的是,TFM的协同保留能力在理论上通过建立最优但难以实现的局部图傅里叶滤波器与次优但计算效率高的频域滤波器之间的联系得到了保证。在四个基准数据集上的大量实验表明,FreLLM4Rec成功缓解了协同信号的衰减,并实现了具有竞争力的性能,在NDCG@10指标上相较于最佳基线提高了最多8.00%。我们的研究结果提供了关于LLMs如何处理协同信息的见解,并为改进基于LLM的推荐系统提供了一种有原则的方法。

[50] 跨提示编码器用于低表现语言
标题: Cross-Prompt Encoder for Low-Performing Languages
作者: Beso Mikaberidze / Teimuraz Saghinadze / Simon Ostermann / Philipp Muller
原文:   [英文]   [中文]  
备注: None
摘要:
软提示在参数高效微调(PEFT)中已成为适配器的强大替代方案,使大型语言模型(LLMs)能够在不改变架构或更新参数的情况下适应下游任务。尽管先前的工作集中于通过小型神经提示编码器中的参数交互来稳定训练,但它们在跨语言迁移方面的更广泛潜力仍未被探索。在本文中,我们展示了提示编码器可以在提高低表现语言的性能中发挥核心作用——这些语言即使在全模型微调下也表现出较低的准确性。我们引入了跨提示编码器(XPE),它结合了一种轻量级编码架构和在类型学多样语言上的多源训练——这种设计使模型能够捕捉跨语言的抽象和可迁移模式。为了补充XPE,我们提出了一种双软提示机制,将基于编码器的提示与直接训练的标准软提示结合在一起。这种混合设计对于那些受益于广泛共享结构和语言特定对齐的目标语言尤其有效。在SIB-200基准上的实验揭示了一个一致的权衡:XPE对低表现语言最为有效,而混合变体在多语言环境中提供了更广泛的适应性。

[51] 通过强化学习让Qwen3用韩语思考
标题: Making Qwen3 Think in Korean with Reinforcement Learning
作者: Jungyup Lee / Jemin Kim / Sang Park / SeungJae Lee
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一种两阶段微调方法,使大型语言模型Qwen3 14B能够以韩语进行“思考”。在第一阶段,通过在高质量的韩语推理数据集上进行监督微调(SFT),为韩语逻辑推理建立了坚实的基础,在韩语任务中取得了显著的改进,甚至在一般推理能力上也有一些提升。在第二阶段,我们采用强化学习,并使用定制的群体相对策略优化(GRPO)算法,进一步增强韩语推理对齐和整体问题解决能力。我们通过引入一个校准奖励信号的预言机评判模型,解决了GRPO训练中的关键稳定性挑战,如奖励作弊和策略崩溃。我们的方法实现了稳定的学习(避免了在简单GRPO中观察到的崩溃),并带来了稳定的、渐进的性能提升。最终经过强化学习微调的模型在高级推理基准测试(特别是数学和编程任务)中表现出显著的改进,同时保持了知识和语言能力,成功地完全用韩语进行其内部的思维链。

[52] 利用大型语言模型和约束解码技术推进跨语言的基于方面的情感分析
标题: Advancing Cross-lingual Aspect-Based Sentiment Analysis with LLMs and Constrained Decoding for Sequence-to-Sequence Models
作者: Jakub Šmíd / Pavel Přibáň / Pavel Král
原文:   [英文]  
备注: Published in Proceedings of the 17th International Conference on Agents and Artificial Intelligence - Volume 2 (ICAART 2025). Official version: this https URL
摘要:
方面情感分析(ABSA)已经取得了显著进展,但由于主要关注英语,低资源语言仍面临挑战。目前的跨语言ABSA研究通常集中于较简单的任务,并且严重依赖外部翻译工具。在本文中,我们提出了一种新颖的序列到序列方法,用于复合ABSA任务,从而消除了对这些工具的需求。我们的方法使用约束解码,将跨语言ABSA的性能提高了多达10%。这种方法拓宽了跨语言ABSA的范围,使其能够处理更复杂的任务,并提供了一种实用且高效的替代翻译依赖技术。此外,我们将我们的方法与大型语言模型(LLMs)进行了比较,结果表明,虽然经过微调的多语言LLMs可以取得相当的结果,但以英语为中心的LLMs在这些任务上表现不佳。

[53] 用于总结捷克历史文献及其他用途的大型语言模型
标题: Large Language Models for Summarizing Czech Historical Documents and Beyond
作者: Václav Tran / Jakub Šmíd / Jiří Martínek / Ladislav Lenc / Pavel Král
原文:   [英文]   [中文]  
备注: Published in Proceedings of the 17th International Conference on Agents and Artificial Intelligence - Volume 2 (ICAART 2025). Official version: this https URL
摘要:
文本摘要是将较大篇幅的文本缩短为简明版本,同时保留其基本意义和关键信息的任务。虽然在英语和其他高资源语言中,文本摘要已经得到了广泛的研究,但由于语言的复杂性和标注数据集的稀缺,捷克语文本摘要,特别是历史文档的摘要,仍然研究不足。像Mistral和mT5这样的大型语言模型在许多自然语言处理任务和语言上表现出色。因此,我们使用这些模型进行捷克语摘要,带来了两个关键贡献:(1)利用这些先进模型在现代捷克语摘要数据集SumeCzech上取得了新的最先进成果;(2)引入了一个名为Posel od Čerchova的新数据集,用于历史捷克文档的摘要,并提供了基线结果。这些贡献共同为推进捷克语文本摘要提供了巨大潜力,并为捷克历史文本处理的研究开辟了新的途径。

[54] 通过约束解码提升生成式跨语言基于方面的情感分析
标题: Improving Generative Cross-lingual Aspect-Based Sentiment Analysis with Constrained Decoding
作者: Jakub Šmíd / Pavel Přibáň / Pavel Král
原文:   [英文]  
备注: None
摘要:
尽管基于方面的情感分析(ABSA)取得了实质性进展,但对于资源匮乏的语言来说,仍然面临挑战,这些语言常常被忽视,而英语则受到更多关注。目前的跨语言ABSA方法主要集中在有限的、较不复杂的任务上,并且通常依赖于外部翻译工具。本文介绍了一种新颖的方法,使用序列到序列模型的约束解码,消除了对不可靠翻译工具的需求,并在最复杂的任务中平均提高了5%的跨语言性能。所提出的方法还支持多任务处理,使得可以用一个模型解决多个ABSA任务,通过约束解码将结果提升超过10%。 我们在七种语言和六个ABSA任务中评估了我们的方法,超越了现有的最先进方法,并为之前未探索的任务设定了新的基准。此外,我们在零样本、少样本和微调场景中评估了大型语言模型(LLMs)。虽然LLMs在零样本和少样本设置中表现不佳,但微调后与较小的多语言模型相比取得了有竞争力的结果,尽管代价是更长的训练和推理时间。 我们为实际应用提供了实用建议,增强了对跨语言ABSA方法的理解。这项研究为跨语言ABSA方法的优缺点提供了宝贵的见解,推动了这一具有挑战性的研究领域的最新进展。

[55] 使用明确有害的提示破解商业黑箱大型语言模型
标题: Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
作者: Chiyu Zhang / Lu Zhou / Xiaogang Xu / Jiafei Wu / Liming Fang / Zhe Liu
原文:   [英文]   [中文]  
备注: None
摘要:
评估越狱攻击具有挑战性,尤其是当提示词并不明显有害或未能引发有害输出时。不幸的是,许多现有的红队数据集包含了这些不合适的提示词。为了准确评估攻击,这些数据集需要进行恶意性评估和清理。然而,现有的恶意内容检测方法依赖于人工标注,这需要大量劳动,或者依赖大型语言模型(LLM),其在有害类型上的准确性不一致。为了在准确性和效率之间取得平衡,我们提出了一种名为MDH(基于LLM与人工协助的恶意内容检测)的混合评估框架,该框架结合了基于LLM的标注和最少的人工监督,并将其应用于数据集清理和越狱响应检测。此外,我们发现精心设计的开发者消息可以显著提高越狱成功率,这促使我们提出了两种新策略:D-Attack,利用上下文模拟,以及DH-CoT,结合劫持的思维链。代码、数据集、判断和检测结果将发布在GitHub库中:这个https URL。

[56] 通过稀疏自编码器进行逐层扰动以生成对抗性文本
标题: Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation
作者: Huizhen Shu / Xuying Li / Qirui Wang / Yuji Kosuga / Mengqiu Tian / Zhuo Li
原文:   [英文]   [中文]  
备注: None
摘要:
随着自然语言处理(NLP)的快速发展,尤其是大型语言模型(LLMs)的普及,生成对抗性示例以绕过LLMs仍然是理解模型漏洞和提高鲁棒性的关键挑战。在此背景下,我们提出了一种新的黑箱攻击方法,该方法利用大型模型的可解释性。我们引入了稀疏特征扰动框架(SFPF),这是一种用于对抗性文本生成的新方法,利用稀疏自编码器识别和操控文本中的关键特征。在使用SAE模型重建隐藏层表示后,我们对成功攻击的文本进行特征聚类,以识别具有较高激活的特征。然后对这些高度激活的特征进行扰动,以生成新的对抗性文本。这种选择性扰动在放大安全信号的同时保留了恶意意图,从而增加了其绕过现有防御的潜力。我们的方法实现了一种新的红队策略,在对抗有效性与安全对齐之间取得平衡。实验结果表明,SFPF生成的对抗性文本可以绕过最先进的防御机制,揭示了当前NLP中的持续漏洞。该方法的有效性在不同的提示和层次上有所不同,其对其他架构和更大模型的泛化能力仍需验证。

[57] ComoRAG:一种认知启发的记忆组织RAG,用于有状态的长篇叙事推理
标题: ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long Narrative Reasoning
作者: Juyuan Wang / Rongchen Zhao / Wei Wei / Yufeng Wang / Mo Yu / Jie Zhou / Jin Xu / Liyan Xu
原文:   [英文]   [中文]  
备注: None
摘要:
对长篇故事和小说的叙事理解一直是一个具有挑战性的领域,这归因于其复杂的情节线和角色及实体之间错综复杂且经常演变的关系。鉴于大型语言模型(LLM)在处理长篇上下文时推理能力的减弱以及高计算成本,基于检索的方法在实践中仍然起着关键作用。然而,传统的RAG方法可能会由于其无状态的单步检索过程而不足,往往忽视了在长距离上下文中捕捉相互关联关系的动态特性。在这项工作中,我们提出了ComoRAG,秉持叙事推理不是一次性过程的原则,而是新证据获取与过去知识整合之间的动态、演变的互动,类似于人类在大脑中处理与记忆相关信号时的认知过程。具体来说,当遇到推理障碍时,ComoRAG会在与动态记忆工作区交互的同时进行迭代推理循环。在每个循环中,它生成探测性查询以设计新的探索路径,然后将检索到的新方面的证据整合到一个全局记忆池中,从而支持形成一个连贯的上下文以解决查询。在四个具有挑战性的长篇上下文叙事基准(超过20万标记)中,ComoRAG相较于强大的RAG基线表现出一致的相对提升,最高可达11%。进一步的分析表明,ComoRAG对于需要全局理解的复杂查询特别有利,提供了一种有原则的、认知驱动的基于检索的长篇上下文理解范式,以实现有状态的推理。我们的代码已在此https URL公开发布。

[58] 评估大型语言模型在中文成语翻译上的表现
标题: Evaluating LLMs on Chinese Idiom Translation
作者: Cai Yang / Yao Dou / David Heineman / Xiaofeng Wu / Wei Xu
原文:   [英文]   [中文]  
备注: Accepted at COLM 2025
摘要:
习语的比喻意义通常与其字面解释不同,在日常语言中很常见,尤其是在中文中,习语常常包含历史典故并遵循特定的结构模式。尽管近年来大型语言模型在机器翻译方面取得了进展,但对中文习语翻译的了解仍然有限。在这项工作中,我们介绍了IdiomEval,这是一个用于中文习语翻译的综合错误分类框架。我们对来自九个现代系统(包括GPT-4和谷歌翻译)的900个翻译对进行了标注,这些翻译对涵盖了四个领域:网络、新闻、维基百科和社交媒体。我们发现这些系统在习语翻译上表现不佳,产生了不正确、字面、部分甚至缺失的翻译。表现最好的系统GPT-4在28%的情况下出现错误。我们还发现现有的评估指标对习语质量的测量效果不佳,与人工评分的Pearson相关系数低于0.48。因此,我们开发了改进的模型,在检测习语翻译错误方面实现了0.68的F$_1$分数。

[59] 大型语言模型中的计算经济学:在资源约束下探索模型行为和激励设计
标题: Computational Economics in Large Language Models: Exploring Model Behavior and Incentive Design under Resource Constraints
作者: Sandeep Reddy / Kabir Khan / Rohit Patil / Ananya Chakraborty / Faizan A. Khan / Swati Kulkarni / Arjun Verma / Neha Singh
原文:   [英文]   [中文]  
备注: Preprint; 7 figures, 4 tables, 1 algorithm. Experiments on GLUE (MNLI, STS-B, CoLA) and WikiText-103 with BERT-base; evaluation includes FLOPS, latency, Gini and entropy metrics
摘要:
大型语言模型(LLMs)受到大量计算成本的限制。我们引入了一个“计算经济学”框架,将LLM视为一个资源受限的代理(注意力头和神经元块)组成的内部经济体,这些代理必须分配稀缺的计算资源以最大化任务效用。首先,我们通过实验证明,当计算资源稀缺时,标准的LLM会重新分配注意力到高价值的标记上,同时保持准确性。在此观察的基础上,我们提出了一种激励驱动的训练范式,该范式通过一个可微分的计算成本项来增强任务损失,鼓励稀疏且高效的激活。在GLUE(MNLI、STS-B、CoLA)和WikiText-103上,该方法产生了一系列沿帕累托前沿的模型,并始终优于事后剪枝;在相似的准确性下,我们大约减少了40%的FLOPS和更低的延迟,同时获得了更具可解释性的注意力模式。这些结果表明,经济学原理为在严格的资源限制下设计高效、自适应且更透明的LLM提供了一条有原则的途径。

[60] DiFaR:通过多样、真实和相关的理由增强多模态虚假信息检测
标题: DiFaR: Enhancing Multimodal Misinformation Detection with Diverse, Factual, and Relevant Rationales
作者: Herun Wan / Jiaying Wu / Minnan Luo / Xiangzheng Kong / Zihan Ma / Zhi Zeng
原文:   [英文]   [中文]  
备注: None
摘要:
从大型视觉语言模型(LVLMs)生成文本推理以支持可训练的多模态虚假信息检测器已成为一种有前途的范式。然而,其有效性受到三个核心挑战的根本限制:(i)生成推理的多样性不足,(ii)由于幻觉导致的事实不准确,以及(iii)引入噪音的无关或冲突内容。我们引入了DiFaR,这是一种与检测器无关的框架,能够生成多样、真实且相关的推理,以增强虚假信息检测。DiFaR使用五种连锁思维提示来从LVLMs中引出多样的推理轨迹,并结合一个轻量级的事后过滤模块,根据句子级别的事实性和相关性评分选择推理句子。在四个流行基准上的广泛实验表明,DiFaR的表现比四个基线类别高出最多5.9%,并使现有检测器的性能提高多达8.7%。自动指标和人工评估均证实,DiFaR在所有三个维度上显著提高了推理质量。

[61] 当可解释性遇上隐私:在自然语言处理背景下后验可解释性与差分隐私交汇处的研究
标题: When Explainability Meets Privacy: An Investigation at the Intersection of Post-hoc Explainability and Differential Privacy in the Context of Natural Language Processing
作者: Mahdi Dhaini / Stephen Meisenbacher / Ege Erdogan / Florian Matthes / Gjergji Kasneci
原文:   [英文]   [中文]  
备注: Accepted to AAAI/ACM Conference on AI, Ethics, and Society (AIES 2025)
摘要:
在可信自然语言处理(NLP)的研究中,出现了许多重要的研究领域,包括\textit{可解释性}和\textit{隐私}。尽管近年来对可解释和隐私保护的NLP的研究兴趣显著增加,但在两者交集处的研究仍然不足。这导致我们对同时实现\textit{可解释性}和隐私保护是否可能,或者两者是否相互矛盾的理解存在相当大的空白。在这项工作中,我们在NLP的背景下对隐私-可解释性权衡进行了实证研究,研究的指导方法是流行的\textit{差分隐私}(DP)和事后可解释性。我们的研究结果揭示了隐私和可解释性之间复杂的关系,这种关系由多个因素形成,包括下游任务的性质以及文本隐私化和可解释性方法的选择。在此过程中,我们强调了隐私和可解释性共存的潜力,并总结了我们在这一重要交集上的研究结果,提出了一系列实用的建议供未来研究参考。

[62] 当语言占据主导地位:揭示多模态大型语言模型中的文本主导性
标题: When Language Overrules: Revealing Text Dominance in Multimodal Large Language Models
作者: Huyu Wu / Meng Tang / Xinhan Zheng / Haiyun Jiang
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大型语言模型(MLLMs)在各种多模态任务中展示了卓越的能力。然而,这些模型存在一个核心问题,即文本主导性:它们在推理过程中过度依赖文本,而未充分利用其他模态。尽管先前的研究在视觉-语言任务中已承认这一现象,通常将其归因于数据偏差或模型架构。在本文中,我们首次系统性地研究了跨多种数据模态的文本主导性,包括图像、视频、音频、时间序列和图表。为了衡量这种不平衡,我们提出了两个评估指标:模态主导指数(MDI)和注意力效率指数(AEI)。我们的综合分析表明,文本主导性在所有测试的模态中都是显著且普遍存在的。深入分析揭示了三个根本原因:非文本模态中严重的标记冗余导致的注意力稀释、融合架构设计的影响以及隐含偏向文本输入的任务形式。此外,我们提出了一种简单的标记压缩方法,有效地重新平衡了模型的注意力。例如,将该方法应用于LLaVA-7B,其MDI从10.23大幅降低到一个平衡良好的0.86。我们的分析和方法框架为开发更公平和全面的多模态语言模型奠定了基础。

[63] eDIF:一种用于远程解释大型语言模型的欧洲深度推理结构
标题: eDIF: A European Deep Inference Fabric for Remote Interpretability of LLM
作者: Irma Heithoff. Marc Guggenberger / Sandra Kalogiannis / Susanne Mayer / Fabian Maag / Sigurd Schacht / Carsten Lanquillon
原文:   [英文]   [中文]  
备注: 9 pages
摘要:
本文对欧洲深度推理结构(eDIF)的部署进行了可行性研究。eDIF是一种与NDIF兼容的基础设施,旨在支持对大型语言模型的机制可解释性研究。推动这一倡议的原因是需要在欧洲广泛提供LLM可解释性基础设施,以便为研究界提供先进的模型分析能力。该项目引入了一个基于GPU的集群,该集群由安斯巴赫应用科技大学托管,并与合作机构互联,通过NNsight API实现远程模型检查。一个结构化的试点研究涉及来自欧洲各地的16名研究人员,他们评估了该平台的技术性能、可用性和科学实用性。用户在包括GPT-2和DeepSeek-R1-70B在内的模型上进行了激活修补、因果追踪和表示分析等干预。研究显示用户参与度逐渐增加,平台性能始终稳定,远程实验能力获得了积极的反馈。这也标志着围绕该平台建立用户社区的起点。研究中发现的限制,如激活数据下载时间过长以及间歇性执行中断,已在未来发展的路线图中得到解决。该倡议标志着在欧洲广泛提供LLM可解释性基础设施的重要一步,并为更广泛的部署、工具扩展以及在机制可解释性研究中的持续社区合作奠定了基础。

[64] 科普特语-法语的神经机器翻译:低资源古代语言的策略
标题: Neural Machine Translation for Coptic-French: Strategies for Low-Resource Ancient Languages
作者: Nasma Chaoui / Richard Khoury
原文:   [英文]   [中文]  
备注: None
摘要:
本文首次系统地研究了将科普特语翻译成法语的策略。我们的综合流程系统地评估了:中介翻译与直接翻译的对比、预训练的影响、多版本微调的好处以及模型对噪声的鲁棒性。利用对齐的圣经语料库,我们证明了使用风格多样且对噪声敏感的训练语料进行微调可以显著提高翻译质量。我们的研究结果为开发历史语言的翻译工具提供了重要的实用见解。

[65] 连续孟加拉手语翻译:借助图形减轻词汇注释的成本
标题: Continuous Bangla Sign Language Translation: Mitigating the Expense of Gloss Annotation with the Assistance of Graph
作者: Safaeid Hossain Arib / Rabeya Akter / Sejuti Rahman
原文:   [英文]  
备注: None
摘要:
全世界有数百万人受到失聪和听力障碍的影响。手语是聋人和听力障碍者的一种复杂的交流方式。然而,在重视口语的社会中,手语往往被低估,导致沟通障碍和社会排斥。连续孟加拉手语翻译项目旨在通过改进翻译方法来解决这一差距。尽管最近的方法利用了变压器架构以获得最先进的结果,我们的方法将基于图的方法与变压器架构相结合。这种结合,结合了变压器和STGCN-LSTM架构,在无词汇翻译中更为有效。我们的贡献包括架构融合、探索各种融合策略,并在多种手语数据集上实现了新的最先进性能,即RWTH-PHOENIX-2014T、CSL-Daily、How2Sign和BornilDB v1.0。我们的方法在所有数据集上的翻译结果均优于当前结果,展示了BLEU-4分数的显著提升,分别为4.01、2.07和0.5,超过了RWTH-PHOENIX-2014T、CSL-Daily和How2Sign中的GASLT、GASLT和slt_how2sign。此外,我们首次在BornilDB v1.0数据集上引入了基准测试。我们的方法为未来的研究设定了基准,强调了无词汇翻译对于改善聋人和听力障碍者的沟通可及性的重要性。

[66] 从自然语言反馈中学习以实现个性化问答
标题: Learning from Natural Language Feedback for Personalized Question Answering
作者: Alireza Salemi / Hamed Zamani
原文:   [英文]   [中文]  
备注: None
摘要:
个性化对于提高语言技术的有效性和用户满意度至关重要,特别是在信息检索任务如问答中。目前个性化大型语言模型(LLMs)的方法通常依赖于检索增强生成(RAG),然后通过标量奖励信号的强化学习来教导模型如何使用检索到的个人上下文。我们认为这些标量奖励有时提供的反馈较弱且缺乏指导性,限制了学习效率和个性化质量。我们引入了VAC,这是一种用于个性化响应生成的新框架,它用自然语言反馈(NLF)替代标量奖励,这些反馈是基于用户档案和问题叙述生成的。NLF作为一种丰富且可操作的监督信号,使策略模型能够迭代地优化其输出并内化有效的个性化策略。训练在优化反馈模型和微调策略模型以改进响应之间交替进行,最终得到的策略模型在推理时不再需要反馈。在包含三个不同领域的LaMP-QA基准测试上的评估显示,与最先进的结果相比,取得了一致且显著的改进。人工评估进一步确认了生成响应的优越质量。这些结果表明,NLF为优化个性化问答提供了更有效的信号。

[67] 面具内的思考:扩散大型语言模型中的就地提示
标题: Thinking Inside the Mask: In-Place Prompting in Diffusion LLMs
作者: Xiangqi Jin / Yuxuan Wang / Yifeng Gao / Zichen Wen / Biqing Qi / Dongrui Liu / Linfeng Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
尽管大型语言模型(LLMs)取得了显著的成功,但它们的仅前缀提示范式和顺序生成过程在双向信息方面提供的灵活性有限。扩散大型语言模型(dLLMs)通过其双向注意力机制和迭代优化过程,提供了新的机会,使得就地提示策略更加灵活。我们介绍了ICE(In-Place Chain-of-Thought Prompting with Early Exit),这是一种新颖的框架,将仅前缀提示转变为专为dLLMs设计的就地提示。ICE在迭代优化过程中直接将就地提示集成到被掩盖的标记位置中,并采用一种基于置信度的提前退出机制,大大减少了计算开销。大量实验表明,ICE的有效性在GSM8K上实现了高达17.29%的准确性提升,并在保持竞争性能的同时,实现了高达4.12倍的加速,在MMLU上实现了高达276.67倍的加速。

[68] 超越“缺乏新意”:通过大型语言模型辅助反馈丰富学术批评
标题: Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback
作者: Osama Mohammed Afzal / Preslav Nakov / Tom Hope / Iryna Gurevych
原文:   [英文]   [中文]  
备注: None
摘要:
新颖性评估是同行评审中的一个核心但研究不足的方面,特别是在像自然语言处理这样高产出的领域,评审员的能力越来越紧张。我们提出了一种结构化的自动新颖性评估方法,通过三个阶段来模拟专家评审员的行为:从提交的论文中提取内容,检索和综合相关工作,以及进行结构化比较以基于证据进行评估。我们的方法基于对人类撰写的新颖性评审的大规模分析,捕捉了关键模式,如独立的主张验证和上下文推理。在对182篇ICLR 2025提交的论文进行评估时,该方法与人类推理的对齐度达到86.5%,在新颖性结论上的一致性达到75.3%——显著优于现有的基于大型语言模型的基线。该方法生成详细的、具有文献意识的分析,并提高了评审员判断的一致性。这些结果突显了结构化的、由大型语言模型辅助的方法在支持更严格和透明的同行评审方面的潜力,而不取代人类的专业知识。数据和代码已公开。

[69] 用于序列决策的强化语言模型
标题: Reinforced Language Models for Sequential Decision Making
作者: Jim Dilkes / Vahid Yazdanpanah / Sebastian Stein
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在作为序列决策代理方面显示出潜力,但由于依赖于大型、计算成本高的模型,其应用往往受到限制。这就需要改进较小的模型,然而现有的后训练方法是为单轮交互设计的,无法处理多步代理任务中的信用分配。为了解决这个问题,我们引入了多步组相对策略优化(MS-GRPO),这是一种用于后训练LLM代理的新算法,基于正式的文本介导随机游戏(TSMG)和语言代理策略(LAP)框架。对于信用分配,MS-GRPO将整个累积的剧集奖励归因于每个单独的剧集步骤。我们补充了这一算法,提出了一种新的绝对优势加权剧集采样策略,我们证明这种策略可以提高训练性能。我们通过在Snake和Frozen Lake上对一个30亿参数模型进行后训练来评估我们的方法。我们的实验表明,该方法在提高决策性能方面是有效的:我们后训练的30亿参数模型在Frozen Lake任务上比72亿参数基线高出50%。这项工作表明,针对性的后训练是依赖模型规模来创建使用LLMs的序列决策代理的实用且高效的替代方案。

[70] Psyche-R1:通过统一的同理心、专业知识和推理实现可靠的心理大语言模型
标题: Psyche-R1: Towards Reliable Psychological LLMs through Unified Empathy, Expertise, and Reasoning
作者: Chongyuan Dai / Jinpeng Hu / Hongchang Shi / Zhuo Li / Xun Yang / Meng Wang
原文:   [英文]   [中文]  
备注: None
摘要:
在合格心理健康专业人员短缺的情况下,将大型语言模型(LLMs)整合到心理应用中,为缓解日益严重的心理健康障碍负担提供了一种有前景的方法。最近,增强推理能力的LLMs在数学和编程领域取得了显著的表现,而在心理领域的研究主要强调情感支持和共情对话,对有助于生成可靠回应的推理机制关注较少。因此,在本文中,我们提出了Psyche-R1,这是第一个将共情、心理专业知识和推理相结合的中文心理LLM,基于一种新颖的数据策划流程构建。具体而言,我们设计了一个综合的数据合成流程,生成了超过75,000个高质量的心理问题,并配有详细的推理理由,这些理由是通过链式思维(CoT)推理和迭代提示-理由优化生成的,同时还生成了73,000个共情对话。随后,我们采用了一种混合训练策略,通过多LLM交叉选择策略识别出具有挑战性的样本,以进行群体相对策略优化(GRPO)以提高推理能力,而其余数据则用于监督微调(SFT),以增强共情回应生成和心理领域知识。广泛的实验结果证明了Psyche-R1在多个心理基准测试中的有效性,我们的7B Psyche-R1取得了与671B DeepSeek-R1相当的结果。

[71] 从黑箱到透明:在大学课堂中利用可解释人工智能提升自动化口译评估
标题: From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms
作者: Zhaokun Jiang / Ziyin Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
最近在机器学习领域的进展激发了对自动化口译质量评估的浓厚兴趣。然而,现有研究在语言使用质量的检验上不足,由于数据稀缺和不平衡导致建模效果不佳,并且缺乏对模型预测的解释性研究。为了解决这些问题,我们提出了一个多维建模框架,该框架整合了特征工程、数据增强和可解释的机器学习。通过仅使用与构建相关的透明特征并进行Shapley值(SHAP)分析,这种方法优先考虑可解释性而非“黑箱”预测。我们的结果在一个新的英汉交替传译数据集上展示了强大的预测性能,识别出BLEURT和CometKiwi分数是忠实度的最强预测特征,暂停相关特征是流利度的最强预测特征,而中文特有的短语多样性指标是语言使用的最强预测特征。总体而言,通过特别强调可解释性,我们提出了一种可扩展、可靠且透明的传统人工评估替代方案,促进为学习者提供详细的诊断反馈,并支持自动评分无法单独提供的自我调节学习优势。

[72] SSRL:自搜索强化学习
标题: SSRL: Self-Search Reinforcement Learning
作者: Yuchen Fan / Kaiyan Zhang / Heng Zhou / Yuxin Zuo / Yanxu Chen / Yu Fu / Xinwei Long / Xuekai Zhu / Che Jiang / Yuchen Zhang / Li Kang / Gang Chen / Cheng Huang / Zhizhou He / Bingning Wang / Lei Bai / Ning Ding / Bowen Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
我们研究了大型语言模型(LLMs)作为强化学习(RL)中代理搜索任务的高效模拟器的潜力,从而减少对昂贵的外部搜索引擎交互的依赖。为此,我们首先通过结构化提示和重复采样来量化LLMs的内在搜索能力,我们称之为自搜索(Self-Search)。我们的结果显示,LLMs在推理预算方面表现出强大的扩展行为,在包括具有挑战性的BrowseComp任务在内的问答基准测试中实现了高pass@k。基于这些观察,我们引入了自搜索强化学习(SSRL),通过基于格式和规则的奖励来增强LLMs的自搜索能力。SSRL使模型能够在内部迭代地优化其知识利用,而无需访问外部工具。实证评估表明,经过SSRL训练的策略模型为搜索驱动的RL训练提供了一个具有成本效益和稳定的环境,减少了对外部搜索引擎的依赖,并促进了稳健的模拟到现实的转移。我们得出以下结论:1)LLMs拥有可以有效激发以实现高性能的世界知识;2)SSRL展示了利用内部知识减少幻觉的潜力;3)经过SSRL训练的模型可以无缝集成到外部搜索引擎中而无需额外努力。我们的研究结果突显了LLMs在支持更具可扩展性的RL代理训练方面的潜力。

[73] 扩散语言模型综述
标题: A Survey on Diffusion Language Models
作者: Tianyi Li / Mingda Chen / Bowei Guo / Zhiqiang Shen
原文:   [英文]   [中文]  
备注: None
摘要:
扩散语言模型(DLMs)正迅速成为一种强大且有前途的替代方案,与主流的自回归(AR)范式相比具有优势。通过迭代去噪过程并行生成标记,DLMs在减少推理延迟和捕获双向上下文方面具有内在优势,从而实现对生成过程的精细控制。在实现数倍加速的同时,最近的进展使DLMs表现出与自回归模型相当的性能,使其成为各种自然语言处理任务的引人注目的选择。在这篇综述中,我们全面概述了当前DLM的格局。我们追溯了其演变及与其他范式(如自回归和掩码语言模型)的关系,并涵盖了基础原理和最先进的模型。我们的工作提供了最新的、全面的分类法以及对当前技术的深入分析,从预训练策略到高级后训练方法。该综述的另一个贡献是对DLM推理策略和优化的全面回顾,包括在解码并行性、缓存机制和生成质量方面的改进。我们还强调了DLMs多模态扩展的最新方法,并描述了它们在各种实际场景中的应用。此外,我们的讨论还涉及了DLMs的局限性和挑战,包括效率、长序列处理和基础设施要求,同时概述了未来的研究方向,以维持这一快速发展的领域的进展。项目的GitHub可在此https URL获取。