scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CL方向,2025年4月29日更新论文66
[1] 注意语言差距:高资源和低资源语言中大型语言模型偏见的自动化和增强评估
标题: Mind the Language Gap: Automated and Augmented Evaluation of Bias in LLMs for High- and Low-Resource Languages
作者: Alessio Buscemi / Cédric Lothritz / Sergio Morales / Marcos Gomez-Vazquez / Robert Clarisó / Jordi Cabot / German Castignani
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在自然语言处理方面表现出色,但往往会延续其训练数据中固有的社会偏见。为了解决这个问题,我们引入了多语言增强偏见测试(MLA-BiTe),这是一个通过系统化的多语言偏见测试来改进先前偏见评估方法的框架。MLA-BiTe 利用自动翻译和释义技术,支持在不同语言环境中的全面评估。在这项研究中,我们通过在六种语言(包括两种资源稀缺语言)中测试四个最先进的 LLMs,评估了 MLA-BiTe 的有效性,重点关注七个敏感的歧视类别。

[2] 大语言模型生成答案的跨度级幻觉检测
标题: Span-Level Hallucination Detection for LLM-Generated Answers
作者: Passant Elchafei / Mervet Abu-Elkheir
原文:   [英文]   [中文]  
备注: None
摘要:
检测大型语言模型(LLM)生成答案中的幻觉片段对于提高事实一致性至关重要。本文为SemEval-2025共享任务提出了一种针对英语和阿拉伯语文本的片段级幻觉检测框架。我们的方法整合了语义角色标注(SRL),将答案分解为原子角色,然后与通过基于问题的LLM提示获取的参考上下文进行比较。我们使用基于DeBERTa的文本蕴涵模型来评估每个角色与检索到的上下文的语义对齐。蕴涵分数通过从输出logits中得出的词级置信度测量进一步优化,结合的分数用于检测幻觉片段。在Mu-SHROOM数据集上的实验显示了具有竞争力的性能。此外,通过提示GPT-4和LLaMA进行事实核查,验证了幻觉片段。我们的研究结果有助于改善LLM生成响应中的幻觉检测。

[3] 第三方能读懂我们的情感吗?
标题: Can Third-parties Read Our Emotions?
作者: Jiayi Li / Yingfan Zhou / Pranav Narayanan Venkit / Halima Binte Islam / Sneha Arya / Shomir Wilson / Sarah Rajtmajer
原文:   [英文]   [中文]  
备注: None
摘要:
旨在从书面文本中推断作者私人状态(如情感和观点)的自然语言处理任务通常依赖于第三方标注者标注的数据集。然而,第三方标注者能够准确捕捉作者私人状态的假设在很大程度上尚未得到检验。在这项研究中,我们在情感识别任务上进行了一些实验,直接比较了第三方标注与第一方(作者提供的)情感标签。我们的研究结果揭示了第三方标注在忠实代表作者私人状态方面的显著局限性——无论是由人类标注者还是大型语言模型(LLMs)提供。然而,LLMs几乎在各个方面都优于人类标注者。我们进一步探索了提高第三方标注质量的方法。我们发现,第一方作者与第三方人类标注者之间的人口统计相似性可以提高标注性能。而将第一方人口统计信息纳入提示中会导致LLMs性能的边际但统计显著的提升。我们引入了一个评估第三方标注局限性的框架,并呼吁改进标注实践,以准确代表和建模作者的私人状态。

[4] 空间语音翻译:利用双耳可听设备进行跨空间翻译
标题: Spatial Speech Translation: Translating Across Space With Binaural Hearables
作者: Tuochao Chen / Qirui Wang / Runlin He / Shyam Gollakota
原文:   [英文]   [中文]  
备注: Accepted by CHI2025
摘要:
想象一下,在一个拥挤的空间里,人们说着不同的语言,而你佩戴的可听设备能够将听觉空间转换为你的母语,同时保留所有说话者的空间线索。我们介绍了一种新的概念——空间语音翻译,这是一种可听设备技术,能够翻译佩戴者环境中的说话者,同时在双耳输出中保持每个说话者的方向和独特的声音特征。为实现这一目标,我们解决了多个技术挑战,包括盲源分离、定位、实时表达翻译和双耳渲染,以在翻译后的音频中保留说话者的方向,同时在苹果M2芯片上实现实时推理。我们的概念验证评估使用了一个原型双耳耳机,结果表明,与现有模型在存在干扰时失效不同,我们在语言间翻译时,即使在环境中有其他说话者的强干扰下,仍然实现了高达22.01的BLEU分数。用户研究进一步证实了该系统在以前未见过的真实世界混响环境中空间呈现翻译语音的有效性。总体来看,这项工作标志着将空间感知整合到语音翻译中的第一步。

[5] 在课堂上构建古英语的UD Cairo
标题: Building UD Cairo for Old English in the Classroom
作者: Lauren Levine / Junghyun Min / Amir Zeldes
原文:   [英文]   [中文]  
备注: 7 pages, 2 figures
摘要:
在本文中,我们展示了一个基于UD Cairo句子的古英语样本树库,这些句子是作为历史语言学课堂课程的一部分收集和注释的。为了收集数据,我们选取了20个句子样本,这些句子展示了世界语言中的各种句法结构,我们结合使用了大型语言模型提示和在真实古英语数据中的搜索。对于注释,我们将句子分配给多名对UD了解有限的学生进行注释,并对他们的注释进行比较和裁定。我们的结果表明,尽管当前大型语言模型生成的古英语输出不反映真实的句法,但通过后期编辑可以缓解这一问题,尽管初学者注释者没有足够的背景知识来完美完成任务,但他们可以共同产生良好的结果并从中学习。我们还使用现代英语训练数据进行了初步的解析实验,发现尽管在古英语上的表现较差,但对注释特征(词干、超词干、注释)的解析可以提高性能。

[6] EvidenceBench:一个用于从生物医学论文中提取证据的基准
标题: EvidenceBench: A Benchmark for Extracting Evidence from Biomedical Papers
作者: Jianyou Wang / Weili Cao / Kaicheng Wang / Xiaoyue Wang / Ashish Dalvi / Gino Prasad / Qishan Liang / Hsuan-lin Her / Ming Wang / Qin Yang / Gene W. Yeo / David E. Neal / Maxim Khan / Christopher D. Rosin / Ramamohan Paturi / Leon Bergen
原文:   [英文]   [中文]  
备注: None
摘要:
我们研究了在生物医学论文中自动寻找与假设相关的证据这一任务。寻找相关证据是研究人员调查科学假设时的重要步骤。我们引入了EvidenceBench来衡量模型在这一任务上的表现,该基准是通过一个新颖的流程创建的,该流程包括假设生成和对生物医学论文进行逐句注释以寻找相关证据,完全由现有的人类专家判断指导并忠实地遵循。我们通过多组人类专家注释证明了该流程的有效性和准确性。我们在基准上评估了一组多样化的语言模型和检索系统,发现模型的表现仍然显著低于专家水平。为了展示我们提出的流程的可扩展性,我们创建了一个更大的EvidenceBench-100k,其中包含107,461篇完全注释的论文及其假设,以促进模型训练和开发。两个数据集均可在此https URL获取。

[7] SynLexLM:通过合成数据和课程学习扩展法律大语言模型
标题: SynLexLM: Scaling Legal LLMs with Synthetic Data and Curriculum Learning
作者: Ojasw Upadhyay / Abishek Saravankumar / Ayman Ismail
原文:   [英文]   [中文]  
备注: 9 pages, 4 figures, 4 tables
摘要:
大型语言模型(LLMs)功能强大,但在法律等专业领域通常需要广泛的微调和大量数据集。通用的预训练可能无法捕捉法律的细微差别,而获取足够的法律数据具有挑战性。我们介绍了SynLexLM,这是一种高效预训练法律LLM的新方法。我们的方法采用课程学习,从简单到复杂的法律文本和查询逐步推进,并结合使用像Gemini Pro这样的模型进行合成数据增强,以解决数据稀缺问题。我们的目标是与传统模型和微调版本相比,在法律基准测试(BigLaw-Bench, EUR-Lex-Sum)上实现更好的性能。初步工作包括生成反映法律推理的合成问答对。此项工作旨在增强法律文档分析和研究工具,可能会使先进的法律AI更为普及。

[8] 窃取创作者的工作流程:一个受创作者启发的代理框架,通过迭代反馈循环改进科学短文生成
标题: Stealing Creator's Workflow: A Creator-Inspired Agentic Framework with Iterative Feedback Loop for Improved Scientific Short-form Generation
作者: Jong Inn Park / Maanas Taneja / Qianwen Wang / Dongyeop Kang
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
从科学论文生成引人入胜且准确的短视频具有挑战性,因为内容复杂且专家作者与读者之间存在差距。现有的端到端方法常常因事实不准确和视觉瑕疵而受到限制,降低了其在科学传播中的实用性。为了解决这些问题,我们提出了SciTalk,这是一种新颖的多LLM代理框架,将视频锚定在各种来源上,如文本、图形、视觉风格和头像。受内容创作者工作流程的启发,SciTalk使用专门的代理进行内容总结、视觉场景规划以及文本和布局编辑,并结合了一个迭代反馈机制,其中视频代理模拟用户角色,对前一轮生成的视频进行反馈并优化生成提示。实验评估表明,SciTalk在生成科学准确且引人入胜的内容方面优于简单的提示方法,尤其是在视频生成的精细化循环中。尽管初步结果仍未达到人类创作者的质量,我们的框架为反馈驱动的视频生成的挑战和优势提供了宝贵的见解。我们的代码、数据和生成的视频将公开提供。

[9] 迈向大语言模型时代的通用评估:超越基准测试的综述
标题: Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks
作者: Yixin Cao / Shibo Hong / Xinze Li / Jiahao Ying / Yubo Ma / Haiyuan Liang / Yantao Liu / Zijun Yao / Xiaozhi Wang / Dan Huang / Wenxuan Zhang / Lifu Huang / Muhao Chen / Lei Hou / Qianru Sun / Xingjun Ma / Zuxuan Wu / Min-Yen Kan / David Lo / Qi Zhang / Heng Ji / Jing Jiang / Juanzi Li / Aixin Sun / Xuanjing Huang / Tat-Seng Chua / Yu-Gang Jiang
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)正在以惊人的速度发展,已成为学术界、工业界和日常应用中不可或缺的一部分。为了跟上现状,这篇综述探讨了LLMs崛起对评估带来的核心挑战。我们识别并分析了两个关键转变:(i)从任务特定评估到基于能力的评估,这种转变将基准测试围绕核心能力进行重组,如知识、推理、指令遵循、多模态理解和安全性;(ii)从手动评估到自动化评估,包括动态数据集策划和“LLM作为评判者”的评分。 然而,即使有这些转变,一个关键障碍仍然存在:评估泛化问题。有限的测试集无法与能力似乎无限增长的模型相匹配。我们将从方法、数据集、评估者和指标的角度剖析这一问题,以及上述两个转变的核心挑战。由于该领域发展迅速,我们将维护一个活跃的GitHub仓库(每个部分都有链接)以众包更新和修正,并热情邀请贡献者和合作者参与。

[10] 迈向稳健的对话中断检测:通过自我引导推理解决大型语言模型中的干扰因素
标题: Towards Robust Dialogue Breakdown Detection: Addressing Disruptors in Large Language Models with Self-Guided Reasoning
作者: Abdellah Ghassel / Xianzhi Li / Xiaodan Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)正在迅速改变各个领域。然而,它们在处理对话崩溃方面的能力仍需深入探索。本文解决了在LLM驱动的对话系统中检测和缓解对话崩溃的挑战。尽管来自OpenAI和Anthropic的强大模型在许多对话任务中表现出色,但它们仍可能产生不连贯或自相矛盾的回应,通常被称为崩溃,这会削弱用户的信任。为了解决这个问题,我们提出了一种结合专门微调和高级提示策略的方法,包括少样本学习、链式思维推理和类比提示。特别是,我们微调了一个小型8B模型,并展示了其在英语和日语对话中的强大分类和校准能力。我们还在BETOLD数据集上验证了其泛化能力,相较于其基础模型提高了7%的准确率。此外,我们引入了一种实时部署架构,仅在检测到崩溃时才将可疑响应选择性地升级到更耗资源的前沿模型,从而显著降低运营成本和能源消耗。实验结果表明,我们的方法超越了之前的最先进的专用分类器,同时也缩小了较小的开源模型与大型专有模型之间的性能差距。通过结合效率、可解释性和可靠性,我们的方法为高影响领域的强大对话式AI提供了可扩展的解决方案。

[11] When2Call:何时(不)调用工具
标题: When2Call: When (not) to Call Tools
作者: Hayley Ross / Ameya Sunil Mahabaleshwarkar / Yoshi Suhara
原文:   [英文]   [中文]  
备注: NAACL 2025
摘要:
利用外部工具是现代语言模型(LMs)扩展其能力并将其整合到现有系统中的关键特性。然而,现有的基准测试主要关注工具调用的准确性——即是否使用正确的参数调用了正确的工具——而较少评估语言模型何时应该(不)调用工具。我们开发了一个新的基准测试,When2Call,用于评估工具调用的决策:何时生成工具调用,何时提出后续问题,以及何时承认无法用提供的工具回答问题。我们发现,最先进的工具调用语言模型在When2Call上显示出显著的改进空间,这表明该基准测试的重要性。我们还为When2Call开发了一个训练集,并利用基准测试的多项选择特性开发了一种偏好优化训练机制,这比传统的微调显示出更大的改进。我们在此https URL上发布了基准测试和训练数据以及评估脚本。

[12] 通过逐维位置嵌入操控实现有效长度外推
标题: Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation
作者: Yi Lu / Wanxu Zhao / Xin Zhou / Chenxin An / Chenglong Wang / Shuo Li / Yuming Yang / Jun Zhao / Tao Ji / Tao Gui / Qi Zhang / Xuanjing Huang
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在输入的标记数量超过预训练长度时,通常难以处理和生成连贯的上下文。最近在长上下文扩展方面的进展显著扩大了LLMs的上下文窗口,但需要昂贵的开销来训练具有更长上下文的大规模模型。在这项工作中,我们提出了维度式位置嵌入操控(DPE),这是一种无需训练的框架,通过深入研究RoPE的不同隐藏维度来外推LLMs的上下文窗口。DPE不是对所有维度进行均等操控,而是检测每个维度的有效长度,并找到上下文扩展的关键维度。我们重用预训练模型中的原始位置索引及其嵌入,并将关键维度的位置索引调整到其最有效的长度。通过这种方式,DPE以最小的修改调整预训练模型,同时确保每个维度达到其外推的最佳状态。DPE显著超越了知名基准如YaRN和Self-Extend。DPE使Llama3-8k 8B能够支持128k标记的上下文窗口,而无需持续训练,并与Flash Attention 2无缝集成。除了其令人印象深刻的外推能力外,DPE还显著提高了模型在训练长度内的性能,例如Llama3.1 70B在流行的长上下文基准RULER上提高了超过18分。与商业模型相比,使用DPE的Llama 3.1 70B甚至比GPT-4-128K表现更好。

[13] 潜在对抗训练提升了拒绝的表示
标题: Latent Adversarial Training Improves the Representation of Refusal
作者: Alexandra Abbas / Nora Petrova / Helios Ael Lyons / Natalia Perez-Campanero
原文:   [英文]   [中文]  
备注: None
摘要:
最近的研究表明,语言模型的拒绝行为主要编码在其潜在空间的一个方向上,使其容易受到针对性攻击。尽管潜在对抗训练(LAT)试图通过在训练过程中引入噪声来提高鲁棒性,但一个关键问题仍然存在:这种基于噪声的训练如何影响拒绝行为的底层表示?理解这种编码对于评估LAT的有效性和局限性至关重要,就像线性拒绝方向的发现揭示了传统监督安全微调(SSFT)的漏洞一样。 通过对Llama 2 7B的分析,我们研究了LAT如何在模型的潜在空间中重新组织拒绝行为,与SSFT和嵌入空间对抗训练(AT)相比。通过计算有害和无害指令对之间的激活差异并应用奇异值分解(SVD),我们发现LAT显著改变了拒绝表示,将其集中在前两个SVD组件中,这两个组件解释了大约75%的激活差异方差——显著高于参考模型。这种集中的表示导致更有效和可转移的拒绝向量用于消融攻击:LAT模型在使用参考模型的向量进行攻击时表现出更好的鲁棒性,但与SSFT和AT相比,对自生成向量变得更脆弱。我们的研究结果表明,LAT的训练扰动能够实现拒绝行为的更全面表示,突出了其在提高模型安全性方面的潜在优势和漏洞。

[14] 一种简单的LLM推理集成策略:迈向更稳定的文本分类
标题: A Simple Ensemble Strategy for LLM Inference: Towards More Stable Text Classification
作者: Junichiro Niimi
原文:   [英文]   [中文]  
备注: This manuscript has been accepted for the 30th International Conference on Natural Language & Information Systems (NLDB 2025). The final version will appear in the Springer LNCS proceedings. arXiv admin note: text overlap with arXiv:2407.13069
摘要:
随着大型语言模型(LLMs)的进步,LLMs 已被用于各种任务。然而,现有文献中对每次试验中 LLMs 结果的可变性和可重复性问题却很少关注,而实际的人类标注通常使用多数投票来解决标注者之间的分歧。因此,本研究引入了一种简单的集成策略,将其应用于使用 LLMs 的情感分析。结果表明,使用中型 LLMs 进行多次推理的集成比使用大型模型单次尝试产生更稳健和准确的结果,且将均方根误差(RMSE)降低了 18.6%。

[15] MTCSC:基于检索增强的迭代优化中文拼写纠错
标题: MTCSC: Retrieval-Augmented Iterative Refinement for Chinese Spelling Correction
作者: Junhong Liang / Yu Zhou
原文:   [英文]  
备注: 12 pages, 2 figures
摘要:
中文拼写纠正(CSC)旨在检测和纠正句子中的错误标记。尽管大型语言模型(LLMs)在识别和修正潜在错误方面表现出显著的成功,但它们常常难以保持输出长度的一致性以及适应特定领域的纠正。此外,现有的CSC任务施加了严格的限制,要求输入和输出长度必须相同,这限制了其适用性。在这项工作中,我们将传统的CSC扩展到可变长度的纠正场景,包括中文分词错误纠正(CSEC)和语音识别(ASR)N-best错误纠正。为了解决领域适应和长度一致性的问题,我们提出了基于RAG并增强了长度反射机制的MTCSC(多轮CSC)框架。我们的方法从特定领域的训练数据和词典中构建检索数据库,微调检索器以优化含有错误的输入的性能。此外,我们引入了一种多源组合策略,结合迭代长度反射以确保输出长度的准确性。在不同领域的数据集上的实验表明,我们的方法在纠正质量上显著优于当前的方法,特别是在处理特定领域和可变长度错误纠正任务方面。

[16] LawFlow:收集和模拟律师的思维过程
标题: LawFlow : Collecting and Simulating Lawyers' Thought Processes
作者: Debarati Das / Khanh Chi Le / Ritik Sachin Parkar / Karin De Langis / Brendan Madson / Chad M. Berryman / Robin M. Willis / Daniel H. Moses / Brett McDonnell / Daniel Schwarcz / Dongyeop Kang
原文:   [英文]   [中文]  
备注: submitted to COLM 2025
摘要:
法律从业者,尤其是那些职业生涯初期的从业者,面临着复杂且高风险的任务,这些任务需要适应性和情境敏感的推理。尽管人工智能在支持法律工作方面具有潜力,但当前的数据集和模型过于专注于孤立的子任务,未能捕捉到现实世界实践中所需的端到端决策过程。为了解决这一差距,我们引入了LawFlow,这是一个完整的端到端法律工作流程数据集,由受过训练的法学院学生收集,基于真实的商业实体形成场景。与之前专注于输入输出对或线性思维链的数据集不同,LawFlow捕捉了动态、模块化和迭代的推理过程,反映了法律实践中的模糊性、修订性和客户适应性策略。利用LawFlow,我们比较了人类和大型语言模型(LLM)生成的工作流程,揭示了在结构、推理灵活性和计划执行方面的系统性差异。人类的工作流程往往是模块化和适应性的,而LLM的工作流程则更具顺序性、详尽性,并且对下游影响不太敏感。我们的研究结果还表明,法律专业人士更希望AI承担支持性角色,如头脑风暴、识别盲点和提出替代方案,而不是执行复杂的端到端工作流程。基于这些发现,我们提出了一套设计建议,这些建议植根于实证观察,通过混合规划、适应性执行和决策点支持,将AI辅助与人类追求的清晰性、完整性、创造性和效率目标相结合。我们的结果突出了LLM在支持复杂法律工作流程方面的当前局限性以及开发更具协作性、推理感知的法律AI系统的机会。所有数据和代码都可以在我们的项目页面上获取(此https URL)。

[17] 通过贝叶斯优化进行动态Fisher加权模型合并
标题: Dynamic Fisher-weighted Model Merging via Bayesian Optimization
作者: Sanwoo Lee / Jiahao Liu / Qifan Wang / Jingang Wang / Xunliang Cai / Yunfang Wu
原文:   [英文]   [中文]  
备注: None
摘要:
对预训练语言模型的微调导致了任务特定模型的广泛可用性。模型合并提供了一种高效的方法,通过在参数层面上结合这些微调模型来创建多任务模型,而无需训练数据或在多个数据集上进行联合训练。现有的合并方法通常涉及按模型缩放参数或按参数整合参数重要性。这两种方法各有其弱点,导致与多任务微调相比存在显著的性能差距。在本文中,我们将这些看似不同的策略统一到一个更通用的合并框架中,并引入了动态费舍尔加权合并(DF-Merge)。具体来说,候选模型与一组系数相关联,这些系数线性缩放其微调参数。贝叶斯优化被应用于动态调整这些系数,旨在最大化验证集上的整体性能。该过程的每次迭代都基于由系数调节的费舍尔信息整合参数重要性。实验结果表明,DF-Merge 在不同大小的模型和各种任务上优于强基线。我们的分析表明,DF-Merge 的有效性源于合并的统一视角,并且即使在验证数据极少的情况下,也能在几次迭代中实现接近最优的性能。

[18] 攻击图谱:改进的黑箱和可解释的LLM越狱技术
标题: Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs
作者: Mohammad Akbar-Tajari / Mohammad Taher Pilehvar / Mohammad Mahmoody
原文:   [英文]   [中文]  
备注: 19 pages, 1 figure, 6 tables
摘要:
确保大型语言模型(LLMs)与社会标准保持一致的挑战越来越受到关注,因为这些模型仍然容易受到绕过其安全机制的对抗性攻击。识别这些漏洞对于增强LLMs抵御此类攻击的鲁棒性至关重要。我们提出了一种名为攻击图(GoAT)的方法,用于生成对抗性提示,以测试LLM对齐的鲁棒性,该方法使用了思维图框架[Besta et al., 2024]。GoAT在生成高效的越狱提示方面表现出色,所需的查询次数比最先进的攻击方法更少,对像Llama这样鲁棒的模型实现了高达五倍的越狱成功率。值得注意的是,GoAT能够创建高质量、可读性强的提示,而无需访问目标模型的参数,使其成为一种黑箱攻击。与受限于基于树的推理的方法不同,GoAT的推理基于更复杂的图结构。通过使同时进行的攻击路径相互了解彼此的进展,这一动态框架允许更深入地整合和优化推理路径,显著增强了对LLMs中对抗性漏洞的协作探索。在技术层面,GoAT从一个图结构开始,并通过结合和改进思维来迭代地优化它,从而实现不同思维路径之间的协同作用。我们的实现代码可以在此URL找到:this https URL。

[19] 推进科学文本分类:通过数据集扩展和硬投票的微调模型
标题: Advancing Scientific Text Classification: Fine-Tuned Models with Dataset Expansion and Hard-Voting
作者: Zhyar Rzgar K Rostam / Gábor Kertész
原文:   [英文]   [中文]  
备注: 6 pages, 1 figure, 8 tables
摘要:
高效的文本分类对于处理日益增长的学术出版物数量至关重要。本研究探讨了使用预训练语言模型(PLMs),包括BERT、SciBERT、BioBERT和BlueBERT,在Web of Science (WoS-46985) 数据集上进行微调,以实现科学文本分类。为了提高性能,我们通过在WoS数据库中执行七个有针对性的查询来扩充数据集,每个类别检索1,000篇与WoS-46985主要类别一致的文章。PLMs为这些未标记的数据预测标签,并通过硬投票策略结合预测以提高准确性和置信度。在扩展数据集上使用动态学习率和早停进行微调显著提高了分类准确性,特别是在专业领域。像SciBERT和BioBERT这样的领域特定模型始终优于通用模型如BERT。这些发现强调了数据集扩充、推理驱动的标签预测、硬投票和微调技术在创建强大且可扩展的自动学术文本分类解决方案中的有效性。

[20] 番茄酱:用于序列知识蒸馏的K步回报估计
标题: KETCHUP: K-Step Return Estimation for Sequential Knowledge Distillation
作者: Jiabin Fan / Guoqing Luo / Michael Bowling / Lili Mou
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一种新颖的k步回报估计方法(称为KETCHUP),用于基于强化学习(RL)的知识蒸馏(KD)在文本生成任务中的应用。我们的想法是通过使用贝尔曼最优方程进行多步操作来引入K步回报。理论分析表明,这种K步公式降低了梯度估计的方差,从而在学生模型规模较大时,改进了RL优化。在三个文本生成任务上的实证评估表明,我们的方法在标准任务指标和大型语言模型(LLM)评估中均表现出色。这些结果表明,我们的K步回报引入为增强LLM研究中的基于RL的KD提供了一个有前途的方向。

[21] 在大型语言模型上通过质量估计校准翻译解码
标题: Calibrating Translation Decoding with Quality Estimation on LLMs
作者: Di Wu / Yibin Lei / Christof Monz
原文:   [英文]   [中文]  
备注: None
摘要:
神经机器翻译(NMT)系统通常采用最大后验概率(MAP)解码,从分布质量中选择得分最高的翻译。然而,最近的证据表明,MAP解码存在不足,常常导致低质量甚至病态的假设——解码目标与真实世界的翻译质量不一致。本文提出从分布视角通过直接优化其皮尔逊相关性来校准假设的可能性与翻译质量,从而提高翻译解码的有效性。使用我们的方法,在有限的训练(每个方向2000个实例)后,大型语言模型(LLMs)的翻译效果显著提升。这种改进与通过监督微调实现的改进是正交的,导致在广泛的指标和人工评估中取得显著的提升——即使在应用于经过高质量翻译数据微调的顶级翻译专用LLMs(如Tower)时,或与最近的偏好优化方法(如CPO)相比时也是如此。此外,校准后的翻译可能性可以直接作为翻译质量的强大代理,接近甚至超越一些最先进的翻译质量估计模型,如CometKiwi。最后,我们的深入分析表明,校准增强了MAP解码的有效性,从而在实际部署中实现更高的效率。最终的最先进翻译模型涵盖10种语言,连同相关代码和人工评估数据已向社区发布:this https URL。

[22] 幻觉与医疗文本中的关键信息提取:开源大型语言模型的综合评估
标题: Hallucinations and Key Information Extraction in Medical Texts: A Comprehensive Assessment of Open-Source Large Language Models
作者: Anindya Bijoy Das / Shibbir Ahmed / Shahnewaz Karim Sakib
原文:   [英文]   [中文]  
备注: None
摘要:
临床总结在医疗保健中至关重要,因为它将复杂的医学数据提炼为易于理解的信息,从而增强患者的理解和护理管理。大型语言模型(LLMs)由于其先进的自然语言理解能力,在自动化和提高此类总结的准确性方面显示出显著潜力。这些模型特别适用于总结医学/临床文本的场景,在这些场景中,精确和简洁的信息传递至关重要。在本文中,我们研究了开源LLMs在从出院报告中提取关键事件(如入院原因、住院期间的重要事件和关键的后续行动)方面的有效性。此外,我们还评估了这些模型生成的总结中各种类型幻觉的普遍性。检测幻觉至关重要,因为它直接影响信息的可靠性,可能影响患者护理和治疗结果。我们进行了全面的数值模拟,以严格评估这些模型的性能,进一步探讨在临床总结中提取内容的准确性和忠实性。

[23] ClimaEmpact:用于极端天气分析的领域对齐小型语言模型和数据集
标题: ClimaEmpact: Domain-Aligned Small Language Models and Datasets for Extreme Weather Analytics
作者: Deeksha Varshney / Keane Ong / Rui Mao / Erik Cambria / Gianmarco Mengaldo
原文:   [英文]   [中文]  
备注: None
摘要:
准确评估极端天气事件对于研究和政策至关重要,但在世界许多地区,局部和细化的数据仍然稀缺。这种数据缺口限制了我们分析极端天气事件潜在结果和影响的能力,阻碍了有效决策。大型语言模型(LLMs)可以处理大量非结构化文本数据,提取有意义的见解,并通过综合多个来源的信息生成详细评估。此外,LLMs可以将其通用语言理解无缝转移到较小的模型,使这些模型在针对特定任务进行微调时保留关键知识。在本文中,我们提出了极端天气推理感知对齐(EWRA),这是一种通过整合从LLMs中提取的结构化推理路径来增强小型语言模型(SLMs)的方法,以及极端天气新闻,一个包含极端天气事件相关新闻文章的大型数据集。EWRA和极端天气新闻共同构成了整体框架ClimaEmpact,专注于解决三个关键的极端天气任务:有形脆弱性/影响的分类、主题标记和情感分析。通过在极端天气新闻(及其衍生数据集ExtremeAlign,专门用于SLM对齐)上将SLMs与先进的推理策略对齐,EWRA提高了SLMs生成扎实且领域特定的极端天气分析响应的能力。我们的结果表明,所提出的方法指导SLMs输出领域对齐的响应,超越了任务特定模型的性能,并为极端天气分析提供了增强的现实世界适用性。

[24] 用于印地语和英语混合对话式人工智能的样本高效语言模型
标题: Sample-Efficient Language Model for Hinglish Conversational AI
作者: Sakshi Singh / Abhinav Prakash / Aakriti Shah / Chaitanya Sachdeva / Sanjana Dumpala
原文:   [英文]   [中文]  
备注: 5 pages, 2 tables, 2 figures
摘要:
本文介绍了我们开发一个样本高效的语言模型用于对话式Hinglish聊天机器人的过程。Hinglish是一种混合语言,结合了印地语和英语,由于拼写不一致、缺乏标准化以及对话数据质量有限,给计算带来了独特的挑战。该研究评估了多种预训练的跨语言模型,包括Gemma3-4B和Qwen2.5-7B,并采用微调技术来提高在Hinglish对话任务上的表现。所提出的方法结合了合成生成的对话和现有Hinglish数据集的见解,以解决数据稀缺问题。实验结果表明,参数较少的模型在高质量的代码混合数据上进行适当微调后,可以在Hinglish对话生成方面实现具有竞争力的性能,同时保持计算效率。

[25] 通过推测性思维链实现大语言模型的高效推理
标题: Efficient Reasoning for LLMs through Speculative Chain-of-Thought
作者: Jikai Wang / Juntao Li / Lijun Wu / Min Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
大型推理语言模型,如 OpenAI-o1 和 Deepseek-R1,因其出色的任务解决能力而最近引起了广泛关注。然而,巨大的模型规模和冗长的思维链生成带来了显著的推理成本和响应延迟。现有的高效推理方法主要集中在减少模型参数数量或缩短思维链长度。在本文中,我们引入了推测性思维链(SCoT),通过大模型和小模型的协作,以加速的平均推理速度从另一个角度减少推理延迟。SCoT 使用轻量级草稿模型进行思维层面的草稿撰写,然后选择最佳的思维链草稿,并使用目标模型纠正错误案例。所提出的思维行为对齐提高了草稿撰写的效率,而草稿选择策略则在复杂问题上保持了预测准确性。在 GSM8K、MATH、高考、大学数学和奥林匹克数据集上的实验结果表明,SCoT 在实现接近目标模型水平性能的同时,将 Deepseek-R1-Distill-Qwen-32B 的推理延迟减少了 48\%$\sim$66\%。我们的代码可在此 URL 获取。

[26] 隐私保护的联邦嵌入学习用于本地化的检索增强生成
标题: Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation
作者: Qianren Mao / Qili Zhang / Hanwen Hao / Zhentao Han / Runhua Xu / Weifeng Jiang / Qi Hu / Zhijun Chen / Tyler Zhou / Bo Li / Yangqiu Song / Jin Dong / Jianxin Li / Philip S. Yu
原文:   [英文]   [中文]  
备注: None
摘要:
检索增强生成(RAG)最近成为提高大型语言模型(LLMs)准确性和可信度的一个有前途的解决方案,特别是在问答任务中。这是通过整合数据库中的专有和私有数据来实现的。然而,私有RAG系统由于私有领域数据的稀缺性和关键的数据隐私问题面临重大挑战。这些障碍阻碍了私有RAG系统的部署,因为开发隐私保护的RAG系统需要在数据安全性和数据可用性之间取得微妙的平衡。为了解决这些挑战,我们认为联邦学习(FL)是一种非常有前途的隐私保护RAG服务技术。我们提出了一个名为联邦检索增强生成(FedE4RAG)的新框架。该框架促进了客户端RAG检索模型的协作训练。这些模型的参数在中央服务器上进行聚合和分发,确保数据隐私而无需直接共享原始数据。在FedE4RAG中,知识蒸馏用于服务器和客户端模型之间的通信。这一技术在联邦学习过程中提高了本地RAG检索器的泛化能力。此外,我们在联邦学习中应用同态加密以保护模型参数并减轻与数据泄漏相关的担忧。在真实世界数据集上进行的大量实验验证了FedE4RAG的有效性。结果表明,我们提出的框架可以显著提高私有RAG系统的性能,同时保持强大的数据隐私保护。

[27] APE-Bench I:面向形式数学库文件级自动化证明工程
标题: APE-Bench I: Towards File-level Automated Proof Engineering of Formal Math Libraries
作者: Huajian Xin / Luming Li / Xiaoran Jin / Jacques Fleuriot / Wenda Li
原文:   [英文]   [中文]  
备注: None
摘要:
最近在大型语言模型(LLMs)方面的进展显示了在形式定理证明中的潜力,但现有的基准测试仍然局限于孤立的、静态的证明任务,未能捕捉到真实世界形式数学库中的迭代、工程密集型工作流程。受到软件工程类似进展的启发,我们引入了自动化证明工程(APE)的范式,旨在利用LLMs自动化处理诸如功能添加、证明重构和错误修复等证明工程任务。为了促进这一方向的研究,我们提出了APE-Bench I,这是第一个从Mathlib4的真实提交历史中构建的现实基准,具有多样化的文件级任务,这些任务通过自然语言描述,并通过结合Lean编译器和LLM作为裁判的混合方法进行验证。我们进一步开发了Eleanstic,一个可扩展的并行验证基础设施,优化用于跨多个版本的Mathlib进行证明检查。对最先进的LLMs的实证结果显示其在局部编辑方面表现强劲,但在处理复杂的证明工程时表现显著下降。这项工作为在证明工程中开发代理工作流程奠定了基础,未来的基准测试将针对多文件协调、项目规模验证以及能够规划、编辑和修复形式库的自主代理。

[28] SPC:通过对抗游戏进化自我博弈评论员以增强大型语言模型推理
标题: SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning
作者: Jiaqi Chen / Bang Zhang / Ruotian Ma / Peisong Wang / Xiaodan Liang / Zhaopeng Tu / Xiaolong Li / Kwan-Yee K. Wong
原文:   [英文]   [中文]  
备注: Project: this https URL
摘要:
评估大型语言模型(LLM)推理的逐步可靠性,例如链式思维,仍然具有挑战性,因为获得高质量的步骤级监督既困难又昂贵。在本文中,我们介绍了一种新方法,称为自我博弈评论家(Self-Play Critic,SPC),其中评论家模型通过对抗性自我博弈游戏来提高其评估推理步骤的能力,从而无需手动步骤级注释。SPC涉及微调两个基础模型的副本,使其扮演两个角色,即“狡猾的生成器”,故意生成难以检测的错误步骤,以及“评论家”,分析推理步骤的正确性。这两个模型参与对抗性游戏,其中生成器旨在欺骗评论家,而评论家模型则寻求识别生成器的错误。通过基于游戏结果的强化学习,模型迭代地改进;每次对抗的胜者获得正奖励,败者获得负奖励,推动持续的自我进化。在三个推理过程基准(ProcessBench、PRM800K、DeltaBench)上的实验表明,我们的SPC逐步增强了其错误检测能力(例如,在ProcessBench上的准确率从70.8%提高到77.7%),并超越了强大的基线模型,包括蒸馏的R1模型。此外,将SPC应用于指导多样化LLM的测试时搜索,显著提高了它们在MATH500和AIME2024上的数学推理性能,优于最先进的过程奖励模型。

[29] WuNeng: 带有注意力机制的混合状态
标题: WuNeng: Hybrid State with Attention
作者: Liu Xiao / Li Zhiyuan / Lin Yueyu
原文:   [英文]   [中文]  
备注: None
摘要:
WuNeng架构通过整合基于循环神经网络(RNN)的RWKV-7与先进的注意力机制,引入了一种新颖的方法来增强大型语言模型的表达能力和性能,优先考虑提高上下文连贯性而非减少KV缓存大小。在Hymba的混合头概念基础上,WuNeng通过增加额外的RWKV-7状态驱动头来增强标准多头注意力,而不是替换现有的头,以丰富模型的表示能力。一种跨头交互技术促进了标准头、状态驱动头和新引入的中间头之间的动态协同,利用拼接、加性调制和门控融合实现强大的信息整合。此外,多标记状态处理机制利用连续的RWKV-7状态来捕捉复杂的序列范围依赖关系,显著提升表达能力。值得注意的是,这些增强是在增加极少参数的情况下实现的,确保了效率,同时使模型在复杂推理和序列生成任务中表现出色。WuNeng为现代神经架构在表达能力和计算效率之间的平衡设定了新的标准。

[30] 动态嵌入式主题模型:基于多样化语料库的特性和建议
标题: Dynamic Embedded Topic Models: properties and recommendations based on diverse corpora
作者: Elisabeth Fittschen / Bella Xia / Leib Celnik / Paul Dilley / Tom Lippincott
原文:   [英文]   [中文]  
备注: Under review
摘要:
我们测量了动态嵌入主题模型在五个不同历时语料库中的若干实现选择的效果,目的是为了隔离其使用和进一步开发中的重要决策。我们确定了在应用研究中最大化效用的优先事项,包括词汇量的实际可扩展性,以最佳利用嵌入表示的优势,以及更灵活的时间间隔建模,以适应历史写作的不均匀时间分布。同样重要的是,我们发现模型的性能并未受到几个方面的显著或一致影响,这些方面可能会限制模型的应用或消耗网格搜索的资源。

[31] 语言模型的不确定性量化:一套黑箱、白箱、LLM评估和集成评分方法
标题: Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers
作者: Dylan Bouchard / Mohit Singh Chauhan
原文:   [英文]   [中文]  
备注: UQLM repository: this https URL
摘要:
幻觉是大型语言模型(LLMs)中的一个持续性问题。随着这些模型在医疗和金融等高风险领域的应用越来越广泛,有效的幻觉检测变得至关重要。为此,我们提出了一种通用框架,用于零资源幻觉检测,实践者可以将其应用于现实世界的用例。为了实现这一目标,我们调整了多种现有的不确定性量化(UQ)技术,包括黑盒UQ、白盒UQ和LLM-as-a-Judge,并根据需要将它们转化为标准化的响应级别置信度评分,范围从0到1。为了增强灵活性,我们引入了一种可调节的集成方法,该方法结合了任何组合的单个置信度评分。这种方法使实践者能够针对特定用例优化集成,以提高性能。为了简化实施,本文的配套Python工具包UQLM提供了完整的评分器套件。为了评估各种评分器的性能,我们使用多个LLM问答基准进行了广泛的实验。我们发现,我们的可调节集成通常优于其单个组件,并且优于现有的幻觉检测方法。我们的结果展示了定制化幻觉检测策略在提高LLMs的准确性和可靠性方面的优势。

[32] VIST-GPT:大型语言模型引领视觉叙事时代?
标题: VIST-GPT: Ushering in the Era of Visual Storytelling with LLMs?
作者: Mohamed Gado / Towhid Taliee / Muhammad Memon / Dmitry Ignatov / Radu Timofte
原文:   [英文]   [中文]  
备注: None
摘要:
视觉故事生成是一个跨学科领域,结合了计算机视觉和自然语言处理,以从图像序列中生成连贯的叙述。本文提出了一种新颖的方法,利用多模态模型的最新进展,特别是适应基于Transformer的架构和大型多模态模型,用于视觉故事生成任务。通过利用大规模的视觉故事生成(VIST)数据集,我们的VIST-GPT模型生成了视觉上有依据、上下文适宜的叙述。我们解决了传统评估指标(如BLEU、METEOR、ROUGE和CIDEr)的局限性,这些指标不适合此任务。相反,我们使用RoViST和GROOVIST,这些是专为评估视觉故事生成而设计的新型无参考指标,重点关注视觉基础、连贯性和非冗余性。这些指标提供了对叙述质量更细致的评估,与人类判断高度一致。

[33] AndroidGen: 在数据稀缺情况下构建安卓语言代理
标题: AndroidGen: Building an Android Language Agent under Data Scarcity
作者: Hanyu Lai / Junjie Gao / Xiao Liu / Yifan Xu / Shudan Zhang / Yuxiao Dong / Jie Tang
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型为各种自然语言处理任务开辟了无限可能,激发了人们对未来的乐观态度。尽管它们具有潜力,但大型语言模型尚未广泛用于真实移动设备上的代理。主要挑战在于对高质量数据源的需求。时间限制和劳动强度常常阻碍人工标注。另一方面,现有的大型语言模型表现出不充分的完成率,并且需要一个强有力的数据过滤策略。鉴于这些挑战,我们开发了一个名为AndroidGen的框架,以在数据稀缺的情况下增强基于大型语言模型的代理的能力。此外,我们利用AndroidGen在给定人类任务的情况下收集轨迹,并在这些轨迹上训练开源的大型语言模型,以开发一个无需手动标注轨迹的开源移动代理。我们通过AndroidWorld、AitW和各种流行应用程序对AndroidGen进行了广泛评估,展示了其改进之处,并揭示了未来改进的潜在领域。代码、模型和数据可在此https URL获取。

[34] BrowseComp-ZH:大型语言模型在中文网页浏览能力的基准测试
标题: BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
作者: Peilin Zhou / Bruce Leon / Xiang Ying / Can Zhang / Yifan Shao / Qichen Ye / Dading Chong / Zhiling Jin / Chenxuan Xie / Meng Cao / Yuxin Gu / Sixin Hong / Jing Ren / Jian Chen / Chao Liu / Yining Hua
原文:   [英文]   [中文]  
备注: Under Review
摘要:
随着大型语言模型(LLMs)发展为使用工具的代理,实时浏览网页的能力已成为衡量其推理和检索能力的关键标准。现有的基准测试如BrowseComp主要集中在英语,忽视了其他主要信息生态系统的语言、基础设施和审查相关的复杂性——尤其是中文。为了解决这一差距,我们引入了BrowseComp-ZH,这是一个高难度的基准测试,专门用于全面评估LLM代理在中文网络上的表现。BrowseComp-ZH由289个多跳问题组成,涵盖11个不同领域。每个问题都是从一个简短、客观且易于验证的答案(例如日期、数字或专有名词)逆向设计而来。我们应用了两阶段质量控制协议,以确保问题的高难度和答案的独特性。我们在提出的BrowseComp-ZH上对超过20个最先进的语言模型和代理搜索系统进行了基准测试。尽管这些模型具有强大的对话和检索能力,但大多数模型表现严重不佳:许多模型的准确率低于10%,只有少数超过20%。即使是表现最好的系统,OpenAI的DeepResearch,也仅达到42.9%。这些结果表明BrowseComp-ZH的难度相当大,成功不仅需要有效的检索策略,还需要复杂的推理和信息整合能力——这些都是当前模型仍难以掌握的能力。我们的数据集、构建指南和基准测试结果已在此https URL公开发布。

[35] 统一多任务学习与模型融合用于高效语言模型护栏
标题: Unified Multi-Task Learning & Model Fusion for Efficient Language Model Guardrailing
作者: James O' Neill / Santhosh Subramanian / Eric Lin / Vaikkunth Mugunthan
原文:   [英文]  
备注: None
摘要:
大型语言模型(LLMs)在防止不良行为方面的趋势正在增加,并在审查用户输入方面显示出希望。然而,增加的延迟、内存消耗、托管费用和非结构化输出可能使其使用变得困难。在这项工作中,我们展示了任务特定的数据生成可以导致微调分类器,这些分类器在性能上显著优于当前的最先进技术(SoTA),同时其规模小得多。其次,我们展示了使用一个单一模型\texttt{MultiTaskGuard},该模型在一个具有独特任务指令的大型合成生成数据集上进行预训练,进一步提高了泛化能力。第三,我们最具性能的模型\texttt{UniGuard}是通过我们提出的基于搜索的模型合并方法找到的,该方法找到了一组最佳参数来结合单一策略模型和多策略护栏模型。在我们创建的7个公共数据集和4个护栏基准上,我们高效的护栏分类器在检测不安全和安全行为方面,相较于最佳表现的公开可用LLMs和第三方护栏API,分别比Aegis-LlamaGuard和\texttt{gpt-4o}的平均F1分数提高了\textbf{29.92}和\textbf{21.62}点。最后,我们的护栏合成数据生成过程使用了自定义的任务特定护栏策略。

[36] 基于话语驱动规划的解释性摘要
标题: Explanatory Summarization with Discourse-Driven Planning
作者: Dongqi Liu / Xi Yu / Vera Demberg / Mirella Lapata
原文:   [英文]   [中文]  
备注: Accepted by the Transactions of the Association for Computational Linguistics (TACL)
摘要:
科学文献的通俗摘要通常包括解释,以帮助读者理解复杂的概念或论点。然而,目前的自动摘要方法并未明确建模解释性内容,这使得很难将解释性内容的比例与人工撰写的摘要对齐。在本文中,我们提出了一种基于计划的方法,该方法利用话语框架来组织摘要生成,并通过提示对计划的响应来指导解释性句子。具体来说,我们提出了两种话语驱动的计划策略,其中计划分别作为输入的一部分或输出前缀的一部分进行条件化。在三个通俗摘要数据集上的实验证明,我们的方法在摘要质量方面优于现有的最先进方法,并且增强了模型的鲁棒性、可控性,并减轻了幻觉现象。

[37] ICL密码:通过替换密码量化上下文学习中的“学习”
标题: ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers
作者: Zhouxiang Fang / Aayush Mishra / Muhan Gao / Anqi Liu / Daniel Khashabi
原文:   [英文]   [中文]  
备注: None
摘要:
最近的研究表明,情境学习(In-Context Learning, ICL)以双重模式运作,即任务检索(从预训练中记住学习的模式)和任务学习(从示例中进行推理时的“学习”)。然而,解开这两种模式仍然是一个具有挑战性的目标。我们引入了ICL CIPHERS,这是一类基于经典密码学中的替换密码的任务重构方法。在这种方法中,情境输入中的一部分标记被替换为其他(无关的)标记,使得英语句子对人眼而言不那么易懂。然而,通过设计,这种替换存在一个潜在的、固定的模式,使其可逆。这种双射(可逆)密码确保任务在某种抽象意义上仍然是一个定义明确的任务,尽管经过了转换。一个有趣的问题是,大型语言模型(LLMs)是否能够通过双射映射解决ICL CIPHERS,这需要解密潜在的密码。我们展示了LLMs在解决具有双射映射的ICL CIPHERS方面比解决非双射(不可逆)基线更为出色,这为量化ICL中的“学习”提供了一种新方法。虽然这种差距很小,但在四个数据集和六个模型中是一致的。最后,我们检查了LLMs的内部表示,并识别出它们在解码加密输入方面的能力的证据。

[38] 基于视频的教育问题生成中的上下文选择与重写
标题: Context Selection and Rewriting for Video-based EducationalQuestion Generation
作者: Mengxia Yu / Bang Nguyen / Olivia Zino / Meng Jiang
原文:   [英文]   [中文]  
备注: None
摘要:
教育问题生成(EQG)是智能教育系统的重要组成部分,对自我评估、主动学习和个性化教育有显著帮助。尽管EQG系统已经出现,但现有数据集通常依赖于预定义的、经过精心编辑的文本,未能代表真实课堂内容,包括带有一组补充幻灯片的讲座演讲。为了弥补这一差距,我们收集了基于真实课堂讲座的教育问题数据集。在这个现实的数据集上,我们发现当前的EQG方法在从教育视频中准确生成问题方面存在困难,特别是在与特定时间戳和目标答案对齐方面。常见的挑战包括从大量转录中选择信息丰富的上下文,并确保生成的问题有意义地包含目标答案。为了解决这些挑战,我们引入了一个新的框架,利用大型语言模型根据目标时间戳和答案动态选择和重写上下文。首先,我们的框架根据答案相关性和时间接近性从讲座转录和视频关键帧中选择上下文。然后,我们整合从两种模式中选择的上下文,并将其重写为包含答案的知识陈述,以增强上下文与期望答案之间的逻辑连接。这种方法显著提高了生成问题的质量和相关性。我们的数据集和代码已在此https URL中发布。

[39] Mem0:构建具备可扩展长期记忆的生产级AI代理
标题: Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
作者: Prateek Chhikara / Dev Khant / Saket Aryan / Taranjeet Singh / Deshraj Yadav
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在生成上下文连贯的响应方面表现出显著的能力,但其固定的上下文窗口在保持长时间多会话对话的一致性方面存在根本性挑战。我们介绍了Mem0,一种可扩展的以记忆为中心的架构,通过动态提取、整合和检索正在进行的对话中的重要信息来解决这一问题。在此基础上,我们进一步提出了一种增强变体,利用基于图的记忆表示来捕捉对话元素之间复杂的关系结构。通过在LOCOMO基准上的全面评估,我们系统地将我们的方法与六个基线类别进行比较:(i)已建立的记忆增强系统,(ii)具有不同块大小和k值的检索增强生成(RAG),(iii)处理整个对话历史的全上下文方法,(iv)开源记忆解决方案,(v)专有模型系统,以及(vi)专用记忆管理平台。实证结果表明,我们的方法在单跳、时间、多跳和开放域四个问题类别中始终优于所有现有记忆系统。值得注意的是,Mem0在LLM-as-a-Judge指标上相对于OpenAI实现了26%的相对改进,而具有图记忆的Mem0在整体得分上比基础配置高出约2%。除了准确性提升之外,我们还显著减少了与全上下文方法相比的计算开销。特别是,Mem0实现了91%的p95延迟降低,并节省了超过90%的令牌成本,提供了先进推理能力与实际部署限制之间的有力平衡。我们的研究结果强调了结构化、持久记忆机制在长期对话连贯性中的关键作用,为更可靠和高效的LLM驱动AI代理铺平了道路。

[40] 上下文引导的动态检索以提高RAG模型的生成质量
标题: Context-Guided Dynamic Retrieval for Improving Generation Quality in RAG Models
作者: Jacky He / Guiran Liu / Binrong Zhu / Hanlu Zhang / Hongye Zheng / Xiaokai Wang
原文:   [英文]  
备注: None
摘要:
本文聚焦于检索增强生成(RAG)架构的动态优化。它提出了一种状态感知的动态知识检索机制,以增强大型语言模型在开放域问答和复杂生成任务中的语义理解和知识调度效率。该方法引入了多层次感知检索向量构建策略和可微分的文档匹配路径。这些组件使得检索和生成模块的端到端联合训练和协同优化成为可能。这有效地解决了静态RAG结构在上下文适应和知识访问方面的局限性。实验在Natural Questions数据集上进行。该结构在包括GPT-4、GPT-4o和DeepSeek在内的不同大型模型上进行了全面评估。多角度的对比和消融实验证实了在BLEU和ROUGE-L分数上的显著提升。该方法在涉及语义歧义和多文档融合的任务中也展示了更强的鲁棒性和生成一致性。这些结果突显了其在构建高质量语言生成系统中的广泛应用潜力和实际价值。

[41] 大型语言模型中的系统性偏差:二元与连续判断任务中的差异响应模式
标题: Systematic Bias in Large Language Models: Discrepant Response Patterns in Binary vs. Continuous Judgment Tasks
作者: Yi-Long Lu / Chunhui Zhang / Wei Wang
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在心理文本分析和自动化工作流程中的决策等任务中被越来越多地使用。然而,由于其训练过程中可能继承的偏见,其可靠性仍然是一个问题。在本研究中,我们考察了不同的响应格式:二元与连续,如何系统性地影响LLMs的判断。在一个价值陈述判断任务和一个文本情感分析任务中,我们提示LLMs模拟人类的反应,并在多个模型中测试了这两种格式,包括开源和商业模型。我们的研究结果揭示了一个一致的负面偏见:在二元格式中,LLMs更有可能给出“负面”判断,而在连续格式中则较少。控制实验进一步表明,这一模式在两种任务中都成立。我们的结果强调了在将LLMs应用于决策任务时考虑响应格式的重要性,因为任务设计中的小变化可能引入系统性偏见。

[42] 走向长上下文幻觉检测
标题: Towards Long Context Hallucination Detection
作者: Siyi Liu / Kishaloy Halder / Zheng Qi / Wei Xiao / Nikolaos Pappas / Phu Mon Htut / Neha Anna John / Yassine Benajiba / Dan Roth
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在各种任务中表现出色。然而,它们容易出现上下文幻觉,生成的信息可能没有根据或与给定的上下文相矛盾。尽管许多研究已经调查了LLMs中的上下文幻觉问题,但在长上下文输入中解决这一问题仍然是一个未解决的问题。在这项工作中,我们迈出了解决这一问题的初步步骤,构建了一个专门用于检测长上下文幻觉的数据集。此外,我们提出了一种新颖的架构,使得预训练的编码器模型(如BERT)能够处理长上下文,并通过分解和聚合机制有效检测上下文幻觉。我们的实验结果表明,所提出的架构在各种指标上显著优于类似规模的先前模型以及基于LLM的模型,同时提供了显著更快的推理速度。

[43] BRIDGE:大型语言模型在理解真实临床实践文本中的基准测试
标题: BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text
作者: Jiageng Wu / Bowen Gu / Ren Zhou / Kevin Xie / Doug Snyder / Yixing Jiang / Valentina Carducci / Richard Wyss / Rishi J Desai / Emily Alsentzer / Leo Anthony Celi / Adam Rodman / Sebastian Schneeweiss / Jonathan H. Chen / Santiago Romero-Brufau / Kueiyu Joshua Lin / Jie Yang
原文:   [英文]  
备注: None
摘要:
大型语言模型(LLMs)在医疗应用中具有巨大潜力,并且正在迅速发展,新模型的发布速度加快。然而,目前对LLMs在临床环境中的评估仍然有限。大多数现有的基准测试依赖于医学考试风格的问题或来自PubMed的文本,未能捕捉到真实世界电子健康记录(EHR)数据的复杂性。其他评估则过于专注于特定的应用场景,限制了其在更广泛临床使用中的普遍性。为了解决这一差距,我们提出了BRIDGE,这是一个综合的多语言基准,包含来自九种语言的真实世界临床数据源的87个任务。我们系统地评估了52个最先进的LLMs(包括DeepSeek-R1、GPT-4o、Gemini和Llama 4),采用了多种推理策略。通过总计13,572次实验,我们的结果揭示了模型大小、语言、自然语言处理任务和临床专业之间的显著性能差异。值得注意的是,我们证明了开源LLMs可以达到与专有模型相当的性能,而基于旧架构的医学微调LLMs往往在性能上不如更新的通用模型。BRIDGE及其相应的排行榜作为一个基础资源和独特的参考,为新LLMs在真实世界临床文本理解中的开发和评估提供了支持。

[44] 文本中的冲突:数据、影响和挑战
标题: Conflicts in Texts: Data, Implications and Challenges
作者: Siyi Liu / Dan Roth
原文:   [英文]   [中文]  
备注: None
摘要:
随着自然语言处理(NLP)模型越来越多地融入现实世界的应用中,显然需要解决模型常常依赖和生成冲突信息的问题。冲突可能反映了情况的复杂性、需要解释和处理的变化、数据标注的困难以及生成输出中的错误。在所有情况下,忽视数据中的冲突可能导致模型的行为不如预期,并削弱NLP模型的可靠性和可信度。本综述将这些冲突分类为三个关键领域:(1)网络上的自然文本,其中事实不一致、主观偏见和多重视角引入了矛盾;(2)人工标注的数据,其中标注者的分歧、错误和社会偏见影响模型训练;(3)模型交互,其中幻觉和知识冲突在部署过程中出现。虽然之前的工作已经单独解决了其中一些冲突,我们将它们统一在冲突信息的更广泛概念下,分析其影响,并讨论缓解策略。我们强调了开发能够更有效地推理和调和冲突信息的冲突感知NLP系统的关键挑战和未来方向。

[45] 检测人工智能介导的交流对语言复杂性和情感的影响
标题: Detecting Effects of AI-Mediated Communication on Language Complexity and Sentiment
作者: Kristen Sussman / Daniel Carter
原文:   [英文]  
备注: 5 pages, 3 figures, Companion Proceedings of the ACM Web Conference 2025
摘要:
鉴于大型语言模型对语言模式的微妙类人效应,本研究通过时间上的语言变化来检测人工智能介导的交流(AI-MC)对社交媒体的影响。我们比较了2020年(ChatGPT出现之前)970,919条推文的复制数据集与2024年同一时期的20,000条推文,这些推文都在选举期间提到了唐纳德·特朗普。通过结合Flesch-Kincaid可读性和极性评分,我们分析了文本复杂性和情感的变化。我们的研究结果显示,平均情感极性显著增加(0.12对比0.04),内容从以中性为主(2020年的54.8%)转向更积极的表达(2024年的39.8%到45.9%)。这些发现不仅表明人工智能在社交媒体交流中的存在感日益增强,还表明其对语言和情感表达模式的影响。

[46] m-KAILIN:用于生物医学大型语言模型训练的知识驱动代理科学语料库蒸馏框架
标题: m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training
作者: Meng Xiao / Xunxin Cai / Chengrui Wang / Yuanchun Zhou
原文:   [英文]   [中文]  
备注: 22 pages, Large Language Model, Agentic AI, Dataset Distillation, Multi-agent Collaboration
摘要:
大型语言模型(LLMs)在生物医学研究中的快速进展突显了现有开源标注科学语料库的局限性,这些语料库在数量和质量上往往不足。为应对生物医学知识复杂层次结构带来的挑战,我们提出了一种知识驱动的多代理框架,用于为生物医学领域的LLM训练定制科学语料库的提炼。我们的方法的核心是一个协作的多代理架构,其中每个由医学主题词表(MeSH)层次结构指导的专业代理协同工作,自动从大量科学文献中提取、综合和自我评估高质量的文本数据。这些代理共同生成和完善领域特定的问答对,确保与生物医学本体的一致性和全面覆盖,同时将人工参与降至最低。大量实验结果表明,基于我们多代理提炼数据集训练的语言模型在生物医学问答任务中取得了显著的改进,超越了强大的生命科学LLM基线和先进的专有模型。值得注意的是,我们的AI-Ready数据集使Llama3-70B能够超越GPT-4与MedPrompt和Med-PaLM-2,尽管后者规模更大。详细的消融研究和案例分析进一步验证了框架中每个代理的有效性和协同作用,突显了多代理协作在生物医学LLM训练中的潜力。

[47] 使用语义信息的阿拉伯语隐喻情感分类
标题: Arabic Metaphor Sentiment Classification Using Semantic Information
作者: Israa Alsiyat
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我讨论了使用新设计的基于语义标签的情感分类自动工具对阿拉伯隐喻语料库(AMC)[1]进行测试。该工具结合了语义情感标签用于情感分类。我使用标准方法对该工具进行评估,这些方法包括F值、召回率和精确率。该方法旨在通过新设计的工具展示阿拉伯在线隐喻对情感的影响。据我们所知,这是首次使用语义标签对阿拉伯隐喻进行情感分类,以发现隐喻的影响。

[48] 越南叙事文本的共指解析
标题: Coreference Resolution for Vietnamese Narrative Texts
作者: Hieu-Dai Tran / Duc-Vu Nguyen / Ngan Luu-Thuy Nguyen
原文:   [英文]   [中文]  
备注: Accepted at PACLIC 2024
摘要:
共指消解是自然语言处理(NLP)中的一项重要任务,涉及识别和连接文本中指代同一实体的不同表达。这项任务对于越南语来说尤其具有挑战性,因为越南语是一种资源匮乏的语言,带有有限的标注数据集。为了解决这些挑战,我们使用来自VnExpress(一家广受欢迎的越南在线新闻平台)的叙述文本开发了一个综合标注数据集。我们制定了详细的实体标注指南,重点在于确保一致性和准确性。此外,我们评估了大型语言模型(LLMs),特别是GPT-3.5-Turbo和GPT-4在该数据集上的表现。我们的结果表明,GPT-4在准确性和响应一致性方面显著优于GPT-3.5-Turbo,使其成为越南语共指消解的更可靠工具。

[49] VCM:基于隐式对比学习的视觉概念建模与视觉-语言指令微调
标题: VCM: Vision Concept Modeling Based on Implicit Contrastive Learning with Vision-Language Instruction Fine-Tuning
作者: Run Luo / Renke Shan / Longze Chen / Ziqiang Liu / Lu Wang / Min Yang / Xiaobo Xia
原文:   [英文]   [中文]  
备注: VCM
摘要:
大型视觉-语言模型(LVLMs)在现实世界的人工智能任务中,如具身智能,因其强大的视觉-语言推理能力而具有重要意义。然而,目前的LVLMs在处理图像时是以标记级别进行的,这与人类相比效率较低,因为人类在概念层面分析信息并生成内容,能够以最小的努力提取相关的视觉概念。这种效率低下源于缺乏视觉概念模型,限制了LVLMs在现实世界应用中的可用性。为了解决这一问题,我们提出了VCM,一种端到端自监督的视觉概念建模框架。VCM利用跨多个采样实例的隐式对比学习和视觉-语言微调来构建视觉概念模型,而无需昂贵的概念级别标注。我们的结果表明,VCM显著降低了计算成本(例如,LLaVA-1.5-7B减少了85%的FLOPs),同时在各种图像理解任务中保持了强大的性能。此外,VCM增强了视觉编码器在经典视觉概念感知任务中的能力。广泛的定量和定性实验验证了VCM的有效性和效率。

[50] 全面的词性标注以标准化中库尔德语:库尔德语自然语言处理任务的研究指南
标题: A Comprehensive Part-of-Speech Tagging to Standardize Central-Kurdish Language: A Research Guide for Kurdish Natural Language Processing Tasks
作者: Shadan Shukr Sabr / Nazira Sabr Mustafa / Talar Sabah Omar / Salah Hwayyiz Rasool / Nawzad Anwer Omer / Darya Sabir Hamad / Hemin Abdulhameed Shams / Omer Mahmood Kareem / Rozhan Noori Abdullah / Khabat Atar Abdullah / Mahabad Azad Mohammad / Haneen Al-Raghefy / Safar M. Asaad / Sara Jamal Mohammed / Twana Saeed Ali / Fazil Shawrow / Halgurd S. Maghdid
原文:   [英文]  
备注: 25 pages, 4 figures, 2 tables
摘要:
在过去的十年中,自然语言处理(NLP)领域得到了极大的发展。许多人类应用每天都通过NLP任务进行,包括机器翻译、语音识别、文本生成和推荐、词性标注(POS)以及命名实体识别(NER)。然而,由于缺乏必要的资源来支持其发展,像中库尔德语(CKL)这样的低资源语言主要仍未被充分研究。词性标注任务是其他NLP任务的基础;例如,词性标注集已被用于标准化语言,以提供句子中单词之间的关系,随后用于机器翻译和文本推荐。具体来说,对于CKL,大多数使用或提供的词性标注集既不标准化也不全面。为此,本研究提出了一种准确且全面的CKL词性标注集,以提高库尔德语NLP任务的性能。本文还收集了来自不同研究以及库尔德语言学专家的大多数词性标注,以标准化词性标注。所提出的词性标注集旨在为大型CKL语料库进行注释,并支持库尔德语NLP任务。通过与标准语言的通用依存框架进行比较,本研究的初步调查表明,所提出的词性标注集可以更准确地简化或纠正库尔德语NLP任务的句子。

[51] 多模态条件扩散时间序列预测
标题: Multimodal Conditioned Diffusive Time Series Forecasting
作者: Chen Su / Yuanhe Tian / Yan Song
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型在图像和文本处理方面取得了显著成功,并已扩展到诸如时间序列预测(TSF)等特殊领域。现有的基于扩散的TSF方法主要集中于对单一模态的数值序列进行建模,忽视了时间序列数据中丰富的多模态信息。为了有效利用这些信息进行预测,我们提出了一种用于TSF的多模态条件扩散模型,即MCD-TSF,以联合利用时间戳和文本作为时间序列建模的额外指导,特别是用于预测。具体来说,时间戳与时间序列结合,在沿时间维度聚合信息时建立不同数据点之间的时间和语义关联。文本作为时间序列历史的补充描述,自适应地与数据点对齐,并以无分类器的方式动态控制。在八个领域的真实世界基准数据集上的大量实验表明,所提出的MCD-TSF模型达到了最先进的性能。

[52] Annif在SemEval-2025任务5:由大型语言模型增强的传统XMTC
标题: Annif at SemEval-2025 Task 5: Traditional XMTC augmented by LLMs
作者: Osma Suominen / Juho Inkinen / Mona Lehtinen
原文:   [英文]   [中文]  
备注: 6 pages, 4 figures, submitted to SemEval-2025 workshop Task 5: LLMs4Subjects
摘要:
本文介绍了在SemEval-2025第5项任务(LLMs4Subjects)中使用的Annif系统,该任务专注于使用大型语言模型(LLMs)进行主题索引。任务要求使用GND主题词汇为来自双语TIBKAT数据库的书目记录创建主题预测。我们的方法结合了在Annif工具包中实现的传统自然语言处理和机器学习技术,以及用于翻译和合成数据生成的创新LLM方法,并合并来自单语模型的预测。该系统在定量评估中在所有主题类别中排名第一,在tib-core-subjects类别中排名第二,在定性评估中排名第四。这些结果表明,将传统的XMTC算法与现代LLM技术相结合,能够提高多语言环境中主题索引的准确性和效率的潜力。

[53] 驯服巨兽:高效大语言模型推理服务的综述
标题: Taming the Titans: A Survey of Efficient LLM Inference Serving
作者: Ranran Zhen / Juntao Li / Yixin Ji / Zhenlin Yang / Tong Liu / Qingrong Xia / Xinyu Duan / Zhefeng Wang / Baoxing Huai / Min Zhang
原文:   [英文]   [中文]  
备注: work in progress;11 pages of main paper with 7 main figures, overall 20 pages
摘要:
大型语言模型(LLMs)在生成式人工智能领域取得了显著进展,发展成为复杂且多功能的工具,被广泛应用于各个领域和应用。然而,由于其庞大的参数数量导致的巨大内存开销,以及注意力机制的高计算需求,在实现低延迟和高吞吐量的LLM推理服务方面面临重大挑战。最近的突破性研究显著加速了该领域的进展。本文提供了对这些方法的全面综述,涵盖了基本的实例级方法、深入的集群级策略、新兴场景方向以及其他杂项但重要的领域。在实例级别,我们回顾了模型放置、请求调度、解码长度预测、存储管理和分解范式。在集群级别,我们探讨了GPU集群部署、多实例负载均衡和云服务解决方案。对于新兴场景,我们围绕特定任务、模块和辅助方法组织讨论。为了确保全面的概述,我们还强调了几个小众但关键的领域。最后,我们概述了进一步推进LLM推理服务领域的潜在研究方向。

[54] 利用大型语言模型辅助对话数据的自动演绎编码:利用对话特定特征增强上下文理解
标题: LLM-Assisted Automated Deductive Coding of Dialogue Data: Leveraging Dialogue-Specific Characteristics to Enhance Contextual Understanding
作者: Ying Na / Shihui Feng
原文:   [英文]   [中文]  
备注: None
摘要:
对话数据一直是理解学习过程的关键来源,提供了关于学生如何参与协作讨论以及这些互动如何塑造他们知识构建的重要见解。大型语言模型(LLMs)的出现为推进定性研究带来了有前景的机会,特别是在对话数据的自动编码方面。然而,对话的内在上下文复杂性为这些模型带来了独特的挑战,尤其是在理解和解释复杂的上下文信息时。本研究通过开发一种新颖的LLM辅助对话数据自动编码方法来应对这些挑战。我们提出的框架的新颖性体现在三个方面:1)我们基于对话特定特征——交际行为和交际事件——使用角色提示和思维链方法的单独提示来预测话语的编码;2)我们使用包括GPT-4-turbo、GPT-4o、DeepSeek在内的多个LLM进行协作编码预测;3)我们利用事件和行为之间的相互关系,通过GPT-4o实现一致性检查。特别是,我们的上下文一致性检查显著提高了准确性。我们还发现,行为预测的准确性始终高于事件预测。本研究为提高对话数据自动编码的精确性贡献了一种新的方法框架,并为解决对话分析中固有的上下文挑战提供了一种可扩展的解决方案。

[55] 跨语言的道德推理:低资源语言在大型语言模型中的关键作用
标题: Moral Reasoning Across Languages: The Critical Role of Low-Resource Languages in LLMs
作者: Huichi Zhou / Zehao Xu / Munan Zhao / Kaihong Li / Yiqiang Li / Hongtao Wang
原文:   [英文]   [中文]  
备注: 5 pages, 2 figures
摘要:
本文中,我们介绍了多语言道德推理基准(MMRB),用于评估大型语言模型(LLMs)在五种语言类型多样的语言和三种上下文复杂性水平(句子、段落和文档)中的道德推理能力。我们的结果显示,随着上下文复杂性的增加,道德推理性能会下降,尤其是在越南语等低资源语言中。我们进一步使用精心挑选的单语数据对开源的LLaMA-3-8B模型进行微调,以实现对齐和中毒。令人惊讶的是,低资源语言对多语言推理的影响比高资源语言更大,这突显了它们在多语言自然语言处理中的关键作用。

[56] 乌鸦能孵出猎鹰吗?血统在预测大型语言模型性能中的重要性
标题: Can a Crow Hatch a Falcon? Lineage Matters in Predicting Large Language Model Performance
作者: Takuya Tamura / Taro Yano / Masafumi Enomoto / Masafumi Oyamada
原文:   [英文]   [中文]  
备注: None
摘要:
在对大型语言模型(LLMs)进行广泛的微调或合并之前,准确预测其性能可以显著减少计算成本和开发时间。尽管之前的方法如缩放定律考虑了参数规模或训练数据等全局因素,但它们往往忽略了显式的谱系关系——即哪些模型是从哪些父模型派生或合并而来的。在这项工作中,我们提出了一种新颖的谱系正则化矩阵分解(LRMF)框架,通过图拉普拉斯正则化器对LLMs之间的祖先关系进行编码。通过利用多跳的父子连接,LRMF在实例级和基准级性能预测中始终优于传统的矩阵分解和协同过滤方法。我们的大规模研究包括2,934个公开可用的Hugging Face模型和跨越6个主要基准的21,000多个实例,结果显示,与基线相比,谱系约束使得与实际性能的相关性提高了7-10个百分点。此外,LRMF有效解决了冷启动问题,即使在数据极少的情况下,也能为新派生或合并的模型提供准确的估计。因此,这种谱系引导的策略为现代LLM开发中的超参数调优、数据选择和模型组合提供了一种资源高效的指导方式。

[57] 是否使用机器翻译:一项关于荷兰读者对不同翻译和创造力水平接受度的眼动追踪研究
标题: To MT or not to MT: An eye-tracking study on the reception by Dutch readers of different translation and creativity levels
作者: Kyo Gerrits / Ana Guerberof-Arenas
原文:   [英文]   [中文]  
备注: This paper has been accepted to the MT Summit 2025 to be held in Geneva on June 23-27 2025
摘要:
本文展示了一项试点研究的结果,该研究涉及在四种条件下接收从英语翻译成荷兰语的虚构短篇小说:机器翻译(MT)、后期编辑(PE)、人工翻译(HT)和原始源文本(ST)。研究的目的是了解不同翻译模式中的创造性和错误如何影响读者,特别是在认知负荷方面。八名参与者填写了一份问卷,使用眼动仪阅读故事,并进行了回顾性有声思维(RTA)访谈。结果表明,具有创造潜力的单元(UCP)会增加认知负荷,这种效应在HT中最高,而在MT中最低;未观察到错误的影响。通过与RTA的数据进行三角分析,我们假设UCP中较高的认知负荷与读者的享受和沉浸感的增加有关。翻译创造性在不同翻译模式下对词汇层面认知负荷的影响是新颖的,并为进一步研究开辟了新的途径。所有代码和数据可在此https URL获取。

[58] 高效的德语过程工业领域自适应持续预训练
标题: Efficient Domain-adaptive Continual Pretraining for the Process Industry in the German Language
作者: Anastasia Zhukova / Christian E. Matt / Terry Ruas / Bela Gipp
原文:   [英文]   [中文]  
备注: None
摘要:
领域自适应持续预训练(DAPT)是一种最先进的技术,它通过在预训练任务(例如语言掩码)上进一步训练语言模型(LM)。尽管这种方法很流行,但它需要大量的领域相关数据语料库,而对于非英语的特定领域(如德语的流程工业)来说,这些数据难以获得。本文介绍了一种高效的方法,称为ICL增强预训练或ICL-APT,该方法利用上下文学习(ICL)和k近邻(kNN)来增强目标数据与领域相关和领域内的文本,从而显著减少GPU时间,同时保持强大的模型性能。我们的结果表明,该方法比传统的DAPT在平均信息检索指标(例如,mAP、MRR和nDCG)上表现更好,提升了3.5,并且所需的计算时间几乎减少了4倍,为计算能力有限的行业提供了一种具有成本效益的解决方案。研究结果强调了这一框架在其他低资源行业中的广泛适用性,使基于NLP的解决方案在生产环境中更易于获得和实施。

[59] semi-PD:通过阶段性分解计算和统一存储实现高效的大型语言模型服务
标题: semi-PD: Towards Efficient LLM Serving via Phase-Wise Disaggregated Computation and Unified Storage
作者: Ke Hong / Lufang Chen / Zhong Wang / Xiuhong Li / Qiuli Mao / Jianping Ma / Chao Xiong / Guanyu Wu / Buhe Han / Guohao Dai / Yun Liang / Yu Wang
原文:   [英文]   [中文]  
备注: 18 pages, 16 figures
摘要:
现有的大型语言模型(LLM)服务系统分为两类:1)统一系统,其中预填充阶段和解码阶段在同一个GPU上共同定位,共享统一的计算资源和存储;2)分离系统,其中两个阶段被分配到不同的GPU上。分离系统的设计解决了统一系统中的延迟干扰和复杂的调度问题,但导致了存储挑战,包括:1)两个阶段的权重重复,阻碍了灵活的部署;2)两个阶段之间的KV缓存传输开销;3)存储不平衡导致GPU容量的大量空间浪费;4)由于KV缓存迁移的困难导致的次优资源调整。这种存储效率低下在高请求率下表现出较差的服务性能。 在本文中,我们识别出分离系统的优势在于分离的计算,即划分计算资源以实现两个阶段的异步计算。因此,我们提出了一种新颖的LLM服务系统,称为semi-PD,其特点是分离的计算和统一的存储。在semi-PD中,我们引入了一个计算资源控制器,以在流处理器(SM)级别实现分离的计算,并引入了一个统一的内存管理器来管理两个阶段的异步内存访问。semi-PD在两个阶段之间具有低开销的资源调整机制,并且具有一个服务级目标(SLO)感知的动态分区算法来优化SLO的实现。与最先进的系统相比,semi-PD在更高的请求率下保持更低的延迟,在DeepSeek系列模型上将每个请求的平均端到端延迟减少了1.27-2.58倍,并在Llama系列模型上在遵循延迟约束的情况下服务了1.55-1.72倍更多的请求。

[60] GenCLS++:通过全面的监督微调和强化学习研究,在多样化数据集上推动生成式分类在大型语言模型中的界限
标题: GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets
作者: Mingqian He / Fei Zhao / Chonggang Lu / Ziyan Liu / Yue Wang / Haofu Qian
原文:   [英文]   [中文]  
备注: None
摘要:
作为机器学习中的一项基础任务,文本分类在许多领域中发挥着至关重要的作用。随着大型语言模型(LLMs)的快速扩展,特别是通过强化学习(RL),对更强大判别器的需求日益增长。因此,分类方面的进步对于增强LLMs的整体能力变得越来越重要。传统的判别方法将文本映射到标签,但忽视了LLMs固有的生成能力。生成分类通过提示模型直接输出标签来解决这个问题。然而,现有研究仍然仅依赖于简单的监督微调(SFT),很少探讨训练和推理提示之间的相互作用,并且没有工作系统地利用RL来为生成文本分类器服务,并在一个框架中统一SFT、RL和推理时的提示。我们通过GenCLS++弥补了这一空白,该框架在系统探索五个高级策略维度的同时联合优化SFT和RL——在上下文学习变体、类别定义、显式不确定性标签、语义无关的数字标签和基于困惑度的解码——在训练和推理过程中。经过SFT的“策略热身”后,我们应用RL与一个简单的基于规则的奖励,获得了显著的额外收益。在七个数据集上,GenCLS++相对于简单的SFT基线实现了平均3.46%的准确率提升;在公共数据集上,这一提升上升到4.00%。值得注意的是,与受益于显式思维过程的推理密集型任务不同,我们发现分类任务在没有此类推理步骤的情况下表现更好。这些关于显式推理作用的见解为未来的LLM应用提供了宝贵的指导。

[61] 评估生成代理在众包事实核查中的潜力
标题: Assessing the Potential of Generative Agents in Crowdsourced Fact-Checking
作者: Luigia Costabile / Gian Marco Orlando / Valerio La Gatta / Vincenzo Moscato
原文:   [英文]  
备注: None
摘要:
随着网络虚假信息的传播日益增加,迫切需要可扩展且可靠的事实核查解决方案。众包事实核查——即由非专家评估声明的真实性——尽管在质量和偏见的可变性方面存在担忧,但仍提供了一种相较于专家验证更具成本效益的替代方案。在某些情况下取得的可喜成果鼓舞下,X(前身为Twitter)、Facebook和Instagram等主要平台已开始从集中式审核转向去中心化的、基于人群的方法。 与此同时,大型语言模型(LLMs)的进步在包括声明检测和证据评估在内的核心事实核查任务中表现出色。然而,它们在众包工作流程中的潜在作用尚未被探索。本文研究了由LLM驱动的生成代理——模拟人类行为和决策的自主实体——是否能在传统上由人类群体承担的事实核查任务中做出有意义的贡献。我们使用La Barbera等人(2024年)的协议,模拟具有多样化人口统计和意识形态特征的生成代理群体。代理检索证据,从多个质量维度评估声明,并发布最终的真实性判断。 我们的结果表明,代理群体在真实性分类上优于人类群体,表现出更高的内部一致性,并且对社会和认知偏见的敏感性较低。与人类相比,代理更系统地依赖于准确性、精确性和信息量等信息性标准,这表明其决策过程更具结构性。总体而言,我们的研究结果突显了生成代理作为可扩展、一致且偏见较少的众包事实核查系统贡献者的潜力。

[62] TD-EVAL:通过结合回合级精度与对话级比较重新审视任务导向型对话评估
标题: TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons
作者: Emre Can Acikgoz / Carl Guo / Suvodip Dey / Akul Datta / Takyoung Kim / Gokhan Tur / Dilek Hakkani-Tür
原文:   [英文]   [中文]  
备注: None
摘要:
面向任务的对话系统(TOD)正在经历由大型语言模型(LLMs)驱动的革命,但这些系统的评估方法仍不足以应对其日益复杂化。虽然传统的自动化指标能够有效评估早期的模块化系统,但它们仅关注对话层面,无法检测用户与代理交互过程中可能出现的关键中间错误。在本文中,我们介绍了TD-EVAL(轮次和对话层面评估),这是一种两步评估框架,将细粒度的轮次级分析与整体对话级比较相结合。在轮次级,我们从三个TOD特定维度评估每个响应:对话连贯性、后台知识一致性和策略合规性。同时,我们设计了TOD代理竞技场,通过成对比较提供对话级质量的衡量。通过在MultiWOZ 2.4和{\tau}-Bench上的实验,我们证明了TD-EVAL能够有效识别传统指标遗漏的对话错误。此外,TD-EVAL与人类判断的对齐度优于传统和基于LLM的指标。这些发现表明,TD-EVAL为TOD系统评估引入了新的范式,能够高效评估轮次和系统层面,并为未来研究提供即插即用的框架。

[63] 领域适应大语言模型在电信问答中的知识蒸馏
标题: Knowledge Distillation of Domain-adapted LLMs for Question-Answering in Telecom
作者: Rishika Sen / Sujoy Roychowdhury / Sumit Soman / H. G. Ranjani / Srikhetra Mohanty
原文:   [英文]   [中文]  
备注: 10 pages, 4 figures, 3 tables
摘要:
知识蒸馏(Knowledge Distillation, KD)是减少大型语言模型(LLMs)规模的方法之一。通过训练一个参数较少的语言模型(学生模型)来模仿一个较大规模的语言模型(教师模型)在特定任务上的表现。在领域特定任务中,尚不清楚是应该对教师模型、学生模型,还是两者都进行领域适应。在这项工作中,我们从电信领域问答(QA)任务的角度研究了这个问题。我们系统地实验了仅对教师模型进行监督微调(SFT)、仅对学生模型进行SFT以及在KD之前对两者进行SFT。我们设计了实验来研究词汇(相同和不同)和KD算法(基础KD和双空间KD,DSKD)对蒸馏模型的影响。蒸馏的多方面评估使用了14种不同的指标(N-gram、嵌入和基于LLM的指标)。实验结果表明,当两种模型具有相同的词汇时,无论算法和指标如何,对教师模型进行SFT都能提高蒸馏模型的性能。总体而言,对教师和学生模型都进行SFT在所有指标上都能获得更好的性能,尽管其统计显著性取决于教师模型的词汇。

[64] 大语言模型生成的假新闻导致新闻生态系统中的真相衰减:关于神经新闻推荐的案例研究
标题: LLM-Generated Fake News Induces Truth Decay in News Ecosystem: A Case Study on Neural News Recommendation
作者: Beizhe Hu / Qiang Sheng / Juan Cao / Yang Li / Danding Wang
原文:   [英文]   [中文]  
备注: ACM SIGIR 2025 Full Paper
摘要:
在线假新闻的审核如今面临着一个新的挑战,即大语言模型(LLMs)在假新闻制作中的恶意使用。尽管现有研究表明,从个体角度来看,LLM生成的假新闻难以检测,但其大规模发布将如何影响新闻生态系统仍未得到充分探索。在这项研究中,我们开发了一个模拟流程和一个包含约56,000条多样化生成新闻的数据集,以研究LLM生成的假新闻在神经新闻推荐系统中的影响。我们的研究结果揭示了一种真相衰减现象,即随着LLM生成的新闻被纳入新闻推荐,真实新闻在新闻排名中逐渐失去相对于假新闻的优势地位。我们进一步从熟悉度的角度解释了真相衰减为何发生,并展示了困惑度与新闻排名之间的正相关关系。最后,我们讨论了LLM生成假新闻的威胁,并提供了可能的应对措施。我们敦促利益相关者解决这一新兴挑战,以维护新闻生态系统的完整性。

[65] 用英语提问更好吗?评估多语言大模型在英语和低资源语言中的事实准确性
标题: Better To Ask in English? Evaluating Factual Accuracy of Multilingual LLMs in English and Low-Resource Languages
作者: Pritika Rohera / Chaitrali Ginimav / Gayatri Sawant / Raviraj Joshi
原文:   [英文]   [中文]  
备注: None
摘要:
多语言大型语言模型(LLMs)在多种语言中表现出显著的效果,尤其是在英语等高资源语言中。然而,它们在其他低资源语言,特别是印度语言中的事实准确性表现仍然是一个研究领域。在这项研究中,我们通过使用IndicQuest数据集评估LLMs的事实准确性,该数据集包含英语和19种印度语言的问题答案对。通过在英语和相应的印度语翻译中提出相同的问题,我们分析这些模型在印度语言的区域背景问题中是否更可靠,还是在使用英语时更可靠。我们的研究结果表明,LLMs在英语中通常表现更好,即使是针对印度背景的问题。值得注意的是,我们观察到在低资源印度语言中生成的响应中出现幻觉的倾向更高,这突显了当前LLMs在多语言理解能力方面的挑战。

[66] AutoJudge:无需人工标注的判决解码
标题: AutoJudge: Judge Decoding Without Manual Annotation
作者: Roman Garipov / Fedor Velikonivtsev / Ruslan Svirschevski / Vage Egiazarian / Max Ryabinin
原文:   [英文]   [中文]  
备注: Preprint, Work in progress
摘要:
我们介绍了AutoJudge,这是一种通过任务特定的有损推测解码加速大型语言模型(LLM)推理的框架。与其逐个匹配原始模型输出分布的每个标记,我们识别出哪些生成的标记会影响生成响应的下游质量,从而放宽保证,以便“无关紧要”的标记可以更快生成。我们的方法依赖于一种半贪婪搜索算法,以测试目标模型和草稿模型之间的哪些不匹配需要纠正以保持质量,哪些可以跳过。然后,我们基于现有的LLM嵌入训练一个轻量级分类器,以在推理时预测哪些不匹配的标记可以在不影响最终答案质量的情况下被安全接受。我们在零样本GSM8K推理任务中测试了我们的方法,使用Llama 3.2 1B(草稿)和Llama 3.1 8B(目标)模型,与标准推测解码相比,在答案准确性下降不到1%的情况下,每个验证周期接受的标记数量提高了最多1.5倍,并且在准确性略有损失的情况下提高了超过2倍。当应用于LiveCodeBench基准时,我们的方法自动检测到其他编程特定的重要标记,并显示出类似的加速效果,展示了其在不同任务中泛化的能力。