![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年6月5日更新论文110篇
|
[1] 评估大型语言模型在跨器官系统的CT放射报告中进行零样本疾病标注的能力 标题: Evaluating Large Language Models for Zero-Shot Disease Labeling in CT Radiology Reports Across Organ Systems 作者: Michael E. Garcia-Alcoser / Mobina GhojoghNejad / Fakrul Islam Tushar / David Kim / Kyle J. Lafata / Geoffrey D. Rubin / Joseph Y. Lo 原文: [英文] 备注: 23 pages, 10 figures, to be submitted in Radiology: Artificial Intelligence 摘要: 目的:本研究旨在评估大型语言模型(LLMs)在自动化CT放射报告疾病标注中的有效性。我们比较了一种基于规则的算法(RBA)、RadBERT和三种轻量级开放权重LLMs在胸部、腹部和骨盆(CAP)CT报告的多疾病标注中的表现。 材料与方法:这项回顾性研究分析了来自29,540名患者的40,833份CT报告,其中1,789份CAP报告在三个器官系统中进行了人工标注。使用CT-RATE数据集进行了外部验证。测试了三种开放权重LLMs的零样本提示。性能通过Cohen's Kappa和微/宏平均F1分数进行评估。 结果:在来自8,854名患者的12,197份Duke CAP报告中,Llama-3.1 8B和Gemma-3 27B显示出最高的一致性($\kappa$中位数:0.87)。在人工标注集上,Gemma-3 27B获得了最高的宏F1(0.82),其次是Llama-3.1 8B(0.79),而RBA得分最低(0.64)。在CT-RATE数据集(仅限肺/胸膜)上,Llama-3.1 8B表现最佳(0.91),Gemma-3 27B紧随其后(0.89)。性能差异主要是由于不同的标注实践,特别是在肺不张方面。 结论:轻量级LLMs在CT报告标注中优于基于规则的方法,并且在零样本提示下可以跨器官系统进行泛化。然而,仅靠二元标签无法捕捉报告语言的全部细微差别。LLMs可以提供与临床判断和用户需求相一致的灵活、高效的解决方案。 |
[2] 关于语言理论化和语言建模的结论性评论 标题: A conclusive remark on linguistic theorizing and language modeling 作者: Cristiano Chesi 原文: [英文] 备注: None 摘要: 这是我在《意大利语言学杂志》上发表的目标论文所收到的回复的最终评论。 |
[3] FailureSensorIQ:用于理解传感器关系和故障模式的多选问答数据集 标题: FailureSensorIQ: A Multi-Choice QA Dataset for Understanding Sensor Relationships and Failure Modes 作者: Christodoulos Constantinides / Dhaval Patel / Shuxin Lin / Claudio Guerrero / Sunil Dagajirao Patil / Jayant Kalagnanam 原文: [英文] [中文] 备注: None 摘要: 我们介绍了FailureSensorIQ,这是一种新颖的多选题问答(MCQA)基准系统,旨在评估大型语言模型(LLMs)在工业4.0中推理和理解复杂、特定领域场景的能力。与传统的问答基准不同,我们的系统专注于通过故障模式、传感器数据及其在各种工业资产中的关系来进行多方面的推理。通过这项工作,我们设想了一种范式转变,其中建模决策不仅是通过相关性分析和显著性测试等统计工具进行数据驱动的,而且是通过能够推理关键贡献者和有用模式的专门LLMs进行领域驱动的,这些模式可以通过特征工程捕获。我们从不同的角度使用扰动-不确定性-复杂性分析、专家评估研究、资产特定知识差距分析、使用外部知识库的ReAct代理来评估十多个LLMs(包括GPT-4、Llama和Mistral)在FailureSensorIQ上的工业知识。尽管具有强大推理能力的闭源模型接近专家级表现,但综合基准揭示了在模型中对扰动、干扰和固有知识差距的脆弱性导致的性能显著下降。我们还提供了一个关于LLMs如何在与各种资产相关的3个不同故障预测数据集上驱动建模决策的真实案例研究。我们发布了:(a)针对各种工业资产的专家策划的MCQA,(b)基于ISO文档中非文本数据构建的MCQA的FailureSensorIQ基准和Hugging Face排行榜,以及(c)基于LLM的特征选择scikit-learn管道LLMFeatureSelector。软件可在此https URL获取。 |
[4] HyperSteer:使用超网络的大规模激活引导 标题: HyperSteer: Activation Steering at Scale with Hypernetworks 作者: Jiuding Sun / Sidharth Baskaran / Zhengxuan Wu / Michael Sklar / Christopher Potts / Atticus Geiger 原文: [英文] [中文] 备注: None 摘要: 通过修改内部激活来引导语言模型(LMs)是一种控制文本生成的流行方法。无监督的字典学习方法,例如稀疏自编码器,可以扩展以生成许多引导向量,但缺乏对每个向量单独有效性的保证以及对相关引导任务覆盖的控制。相比之下,监督方法构建的引导向量具有针对性和有效性,但每生成一个额外的引导向量都需要更多的数据收集和训练。在这项工作中,我们引入了HyperSteer,这是一类基于超网络的架构,经过端到端训练以生成基于自然语言引导提示和被引导语言模型内部状态的引导向量。在我们的评估中,我们展示了通过数千个引导提示扩展HyperSteer,其性能超过了最先进的激活引导方法,即使在训练期间从未见过的引导提示上也是如此。此外,HyperSteer的表现与通过提示进行引导相当。 |
[5] 通过在一个问题上进行批判性微调,释放预训练大型语言模型的推理潜力 标题: Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem 作者: Yubo Wang / Ping Nie / Kai Zou / Lijun Wu / Wenhu Chen 原文: [英文] [中文] 备注: None 摘要: 我们观察到,像Qwen-Math、MiMo和Phi-4这样的强大的大型语言模型(LLM)在预训练阶段继承了巨大的推理潜力。通过强化学习(RL),这些模型在推理任务上可以显著提高。最近的研究表明,即使在单个问题上进行RL也能释放这些模型的推理能力。然而,RL不仅昂贵而且不稳定。即使是一次性RL也需要数百小时的GPU时间。这引发了一个关键问题:是否有更高效的方法来释放这些强大的基础LLM的推理潜力?在这项工作中,我们展示了仅在一个问题上进行批判性微调(CFT)可以有效释放LLM的推理潜力。我们的方法通过收集模型生成的多样化解决方案并使用教师LLM提供详细批判来构建批判数据。我们在CFT数据上微调Qwen和Llama系列模型,参数范围从1.5B到14B,并观察到在各种推理任务上的显著性能提升。例如,仅用5小时的GPU训练,Qwen-Math-7B-CFT在六个数学基准测试上平均提高15%,在三个逻辑推理基准测试上提高16%。这些结果与RL的结果相当,甚至超过了RL,计算量减少了20倍。消融研究揭示了一次性CFT在不同提示问题上的稳健性。这些结果突显了一次性CFT作为一种简单、通用且计算高效的方法来释放现代LLM的推理能力。 |
[6] 从指令到ODRL使用政策:一种本体指导的方法 标题: From Instructions to ODRL Usage Policies: An Ontology Guided Approach 作者: Daham M. Mustafa / Abhishek Nadgeri / Diego Collarana / Benedikt T. Arnold / Christoph Quix / Christoph Lange / Stefan Decker 原文: [英文] [中文] 备注: The paper is accepted at LLM+KG: International Workshop on Data Management Opportunities in Unifying Large Language Models + Knowledge Graphs, VLDB 2024, August 26, 2024, Guangzhou, China. this https URL 摘要: 本研究提出了一种方法,利用大型语言模型(如GPT-4)从自然语言指令中自动生成W3C开放数字权利语言(ODRL)的使用政策。我们的方法将ODRL本体及其文档作为提示的核心部分。我们的研究假设是,现有本体文档的精心编制版本将更好地指导政策生成。我们提出了各种启发式方法,以适应ODRL本体及其文档,从而指导端到端的知识图谱构建过程。我们在数据空间的背景下评估了我们的方法,即在文化领域中多个参与组织之间进行可信数据交换的分布式基础设施。我们创建了一个基准,包含12个复杂程度不同的用例。我们的评估显示,生成的知识图谱的准确率高达91.95%,结果非常出色。 |
[7] 跳房子:发现并跳过语言模型中的冗余 标题: Hopscotch: Discovering and Skipping Redundancies in Language Models 作者: Mustafa Eyceoz / Nikhil Shivakumar Nayak / Hao Wang / Ligong Han / Akash Srivastava 原文: [英文] [中文] 备注: 10 pages, 4 figures, 9 tables 摘要: 现代因果语言模型堆叠了许多注意力块以提高性能,但并不是所有的块对每个任务都是必要的。我们提出了Hopscotch,这是一种简单而有效的方法,可以识别并跳过对任务贡献最小的注意力块,并进行适应以保持输出质量。Hopscotch联合优化了哪些块需要跳过以及如何缩放剩余层的输出。通过向注意力和MLP块引入轻量级、可训练的缩放参数,它缓解了由于移除注意力块而导致的隐藏状态分布偏移。Hopscotch不修改模型权重,也不需要访问预训练或指令微调数据,并且与现有的模型压缩技术兼容。当应用于$\texttt{Llama-3.1-8B}$和$\texttt{Qwen2.5-7B}$时,即使跳过了四个注意力块,Hopscotch的性能下降也不到2%。 |
[8] 读者即度量:文本特征和读者特征如何解释对人工智能创意写作的不同评价 标题: The Reader is the Metric: How Textual Features and Reader Profiles Explain Conflicting Evaluations of AI Creative Writing 作者: Guillermo Marco / Julio Gonzalo / Víctor Fresno 原文: [英文] [中文] 备注: Camera-ready version, 14 pages, 3 figures. Accepted to Findings of the Association for Computational Linguistics (ACL) 2025. Code & data: this https URL 摘要: 最近的研究比较了人工智能生成的文学文本和人类创作的文学文本,结果相互矛盾:一些研究表明人工智能已经超越了人类的质量,而另一些则认为它仍然不够好。我们从假设出发,认为这种分歧主要可以通过读者如何解读和评价文学作品的真实差异来解释,而不是通过被评估文本的内在质量来解释。我们使用五个公共数据集(1,471个故事,101名注释者,包括评论家、学生和普通读者),(i)提取17个无参考文本特征(例如,连贯性、情感变化、平均句子长度……);(ii)建模个别读者偏好,得出反映他们文本优先级的特征重要性向量;(iii)在共享的“偏好空间”中分析这些向量。读者向量聚集成两种类型:“表面关注型读者”(主要是非专家),他们优先考虑可读性和文本丰富性;以及“整体型读者”(主要是专家),他们重视主题发展、修辞多样性和情感动态。我们的结果定量解释了文学质量的测量如何是文本特征与每个读者偏好对齐的函数。这些发现倡导在创意文本生成领域中采用敏感于读者的评估框架。 |
[9] 社交媒体跨平台暴力检测:数据集与分析 标题: Cross-Platform Violence Detection on Social Media: A Dataset and Analysis 作者: Celia Chen / Scotty Beland / Ingo Burghardt / Jill Byczek / William J. Conway / Eric Cotugno / Sadaf Davre / Megan Fletcher / Rajesh Kumar Gnanasekaran / Kristin Hamilton / Marilyn Harbert / Jordan Heustis / Tanaya Jha / Emily Klein / Hayden Kramer / Alex Leitch / Jessica Perkins / Casi Sherman / Celia Sterrn / Logan Stevens / Rebecca Zarrella / Jennifer Golbeck 原文: [英文] 备注: In Proceedings of the 17th ACM Web Science Conference (WebSci '25). 9 pages 摘要: 暴力威胁在社交媒体平台上仍然是一个显著的问题。高质量的有用数据有助于研究对恶意内容的理解和检测,包括暴力。在本文中,我们介绍了一个跨平台的数据集,其中包含30,000个手动编码的帖子,这些帖子涉及暴力威胁及其子类型,包括政治暴力和性暴力。为了评估该数据集中的信号,我们使用YouTube上的一个现有暴力评论数据集进行机器学习分析。我们发现,尽管这些数据集来自不同的平台并使用不同的编码标准,但无论是用一个数据集进行训练并在另一个数据集上进行测试,还是在合并数据集的情况下,我们都能实现高分类准确率。这些结果对内容分类策略以及对社交媒体上暴力内容的理解具有重要意义。 |
[10] 询问本地:通过专用模型差异检测幻觉 标题: Ask a Local: Detecting Hallucinations With Specialized Model Divergence 作者: Aldan Creo / Héctor Cerezo-Costas / Pedro Alonso-Doval / Maximiliano Hormazábal-Lagos 原文: [英文] [中文] 备注: Supplementary materials: this https URL 摘要: 大型语言模型(LLMs)中的幻觉——即模型生成看似合理但实际上不正确的信息的情况——对人工智能构成了重大挑战。我们引入了一种名为“Ask a Local”的新型幻觉检测方法,该方法利用了这样一种直觉:专用模型在遇到特定领域的不准确信息时会表现出更大的惊讶。我们的方法通过计算语言专用模型的困惑度分布之间的差异来识别潜在的幻觉片段。我们的方法特别适合多语言环境,因为它可以自然地扩展到多种语言,而无需进行适应、依赖外部数据源或进行训练。此外,我们选择了计算效率高的模型,提供了一种可扩展的解决方案,可以应用于广泛的语言和领域。我们在一个涵盖14种语言的人类标注问答数据集上的结果显示了跨语言的一致性能,交集-并集(IoU)得分约为0.3,并且具有可比的斯皮尔曼相关值。我们的模型在意大利语和加泰罗尼亚语上表现尤为出色,IoU得分分别为0.42和0.38,同时在不进行语言特定适应的情况下保持跨语言的有效性。我们发布了我们的代码和架构,以促进多语言幻觉检测的进一步研究。 |
[11] 用于细粒度众包地震损害评估的多模态、多语言和多维度流程 标题: A Multimodal, Multilingual, and Multidimensional Pipeline for Fine-grained Crowdsourcing Earthquake Damage Evaluation 作者: Zihui Ma / Lingyao Li / Juan Li / Wenyue Hua / Jingxiao Liu / Qingyuan Feng / Yuki Miura 原文: [英文] [中文] 备注: None 摘要: 快速、细粒度的灾害损失评估对于有效的应急响应至关重要,但由于地面传感器有限和官方报告的延迟,这一过程仍然具有挑战性。社交媒体提供了丰富的、实时的人类观察信息来源,但其多模态和非结构化的特性对传统分析方法提出了挑战。在本研究中,我们提出了一种结构化的多模态、多语言和多维度(3M)流程,利用多模态大型语言模型(MLLMs)来评估灾害影响。我们通过宏观和微观层面的分析,评估了三个基础模型在两个重大地震事件中的表现。结果表明,MLLMs能够有效整合图像-文本信号,并与地震数据的真实情况表现出很强的相关性。然而,性能因语言、震中距离和输入模态而异。这项工作突显了MLLMs在灾害评估中的潜力,并为将MLLMs应用于实时危机情境的未来研究提供了基础。代码和数据已在此网址发布:this https URL |
[12] 轨迹预测遇上大型语言模型:综述 标题: Trajectory Prediction Meets Large Language Models: A Survey 作者: Yi Xu / Ruining Yang / Yitian Zhang / Yizhou Wang / Jianglin Lu / Mingyuan Zhang / Lili Su / Yun Fu 原文: [英文] [中文] 备注: 16 pages, GitHub: this https URL 摘要: 最近在大型语言模型(LLMs)方面的进展引发了越来越多的兴趣,将语言驱动的技术整合到轨迹预测中。通过利用其语义和推理能力,LLMs正在重塑自主系统如何感知、建模和预测轨迹。这篇综述提供了对这一新兴领域的全面概述,将最近的工作分为五个方向:(1)通过语言建模范式进行轨迹预测,(2)使用预训练语言模型直接进行轨迹预测,(3)语言引导的场景理解用于轨迹预测,(4)语言驱动的数据生成用于轨迹预测,(5)基于语言的推理和可解释性用于轨迹预测。对于每个方向,我们分析了代表性的方法,突出了核心设计选择,并识别了开放的挑战。这篇综述架起了自然语言处理和轨迹预测之间的桥梁,提供了一个统一的视角,展示了语言如何丰富轨迹预测。 |
[13] DistRAG:面向大型语言模型的基于距离的空间推理 标题: DistRAG: Towards Distance-Based Spatial Reasoning in LLMs 作者: Nicole R Schneider / Nandini Ramachandran / Kent O'Sullivan / Hanan Samet 原文: [英文] [中文] 备注: None 摘要: 许多现实世界的任务中,大型语言模型(LLMs)可以被用于需要空间推理的场景,如兴趣点(POI)推荐和行程规划。然而,LLMs 本身缺乏可靠的空间推理能力,尤其是在距离方面。为了解决这个问题,我们开发了一种新方法,称为 DistRAG,它使 LLM 能够检索在训练期间未明确学习的相关空间信息。我们的方法在图中编码城市和城镇之间的大地距离,并检索与问题相关的上下文子图。通过这种技术,我们的方法使 LLM 能够回答基于距离的推理问题,而这些问题是它原本无法回答的。鉴于 LLM 可能被问及的地点种类繁多,DistRAG 提供了一个灵活的第一步,旨在为 LLM 所持有的语言知识补充一个基本的“世界模型”。 |
[14] 时间进程机制解释:分析大型语言模型中组件和知识的演变 标题: Time Course MechInterp: Analyzing the Evolution of Components and Knowledge in Large Language Models 作者: Ahmad Dawar Hakimi / Ali Modarressi / Philipp Wicke / Hinrich Schütze 原文: [英文] [中文] 备注: None 摘要: 理解大型语言模型(LLMs)如何获取和存储事实性知识对于增强其可解释性和可靠性至关重要。在这项工作中,我们通过跟踪注意力头和前馈网络(FFNs)在预训练过程中的角色,分析了OLMo-7B模型中事实性知识表示的演变。我们将这些组件分为四种角色:通用、实体、关系-答案特定和事实-答案特定,并检查它们的稳定性和转换。我们的结果表明,LLMs最初依赖于广泛的通用组件,随着训练的进行,这些组件逐渐专门化。一旦模型能够可靠地预测答案,一些组件会被重新利用,表明一种适应性学习过程。值得注意的是,注意力头显示出最高的转换率。我们还提供了证据表明FFNs在整个训练过程中保持更稳定。此外,我们的探测实验揭示了基于位置的关系在训练中比基于名称的关系更早达到高准确性,突显了任务复杂性如何影响知识获取动态。这些见解提供了LLMs中知识形成的机制视角。 |
[15] 文化在波斯语有害语言检测中的重要性 标题: Culture Matters in Toxic Language Detection in Persian 作者: Zahra Bokaei / Walid Magdy / Bonnie Webber 原文: [英文] 备注: Accepted to ACL 2025 (Main Track) 摘要: 有害语言检测对于创建更安全的在线环境和限制有害内容的传播至关重要。尽管在波斯语中对有害语言检测的研究较少,但当前的工作比较了该任务的不同方法,包括微调、数据丰富、零样本和少样本学习以及跨语言迁移学习。特别引人注目的是文化背景对该任务迁移学习的影响:我们展示了来自与波斯语文化相似国家的语言在迁移学习中产生了更好的结果。相反,当语言来自文化差异较大的国家时,改进效果较低。警告:本文包含一些可能会让读者感到不安的有害语言示例。这些示例是为了进行有害检测研究而包含的。 |
[16] Delta-KNN:改进阿尔茨海默病检测的上下文学习中的示例选择 标题: Delta-KNN: Improving Demonstration Selection in In-Context Learning for Alzheimer's Disease Detection 作者: Chuyuan Li / Raymond Li / Thalia S. Field / Giuseppe Carenini 原文: [英文] [中文] 备注: None 摘要: 阿尔茨海默病(AD)是一种导致痴呆的渐进性神经退行性疾病,早期干预可以通过分析语言异常获得极大益处。在这项工作中,我们探索了大型语言模型(LLMs)作为健康助手,通过上下文学习(ICL)从患者生成的文本中进行AD诊断的潜力,其中任务是通过少量输入输出示例定义的。实证结果表明,传统的ICL方法,如基于相似性的选择,在AD诊断中表现不佳,这可能是由于该任务的内在复杂性。为了解决这个问题,我们引入了Delta-KNN,这是一种新颖的示例选择策略,能够提高ICL的性能。我们的方法利用一个delta分数来评估每个训练示例的相对增益,并结合基于KNN的检索器,动态选择给定输入的最佳“代表”。在三个开源LLM上的两个AD检测数据集上的实验表明,Delta-KNN始终优于现有的ICL基线。值得注意的是,当使用Llama-3.1模型时,我们的方法达到了新的最先进的结果,甚至超过了监督分类器。 |
[17] APT:通过弱点案例获取和迭代偏好训练提升专业大型语言模型性能 标题: APT: Improving Specialist LLM Performance with Weakness Case Acquisition and Iterative Preference Training 作者: Jun Rao / Zepeng Lin / Xuebo Liu / Xiaopeng Ke / Lian Lian / Dong Jin / Shengjun Cheng / Jun Yu / Min Zhang 原文: [英文] [中文] 备注: ACL2025 Findings 摘要: 大型语言模型(LLMs)通常需要进行领域特定的微调以解决特定任务,这可能会导致其通用能力的下降。保持领域特定增强与模型通用效用之间的平衡是一个关键挑战。本文提出了一种名为APT(弱点案例获取和迭代偏好训练)的新方法,通过自生成的不受欢迎的弱点数据(错误案例和相似案例)来增强领域特定性能。APT独特地专注于仅使用发生错误的样本进行训练,同时检索一小组相似样本用于此目的。这种针对性的训练最大限度地减少了对模型现有知识库的干扰,有效地保留了通用能力。在LLama-2和Mistral-V0.3模型的各种基准测试中,实验结果表明APT确保了通用能力不下降,并在下游任务中比各种现有方法取得了更优异的表现。这验证了我们的方法是一种有效的策略,可以在不牺牲模型广泛适用性的情况下增强领域特定能力。 |
[18] 可解释的人工智能:XAI引导的上下文感知数据增强 标题: Explainable AI: XAI-Guided Context-Aware Data Augmentation 作者: Melkamu Abay Mersha / Mesay Gemeda Yigezu / Atnafu Lambebo Tonja / Hassan Shakil / Samer Iskander / Olga Kolesnikova / Jugal Kalita 原文: [英文] [中文] 备注: None 摘要: 可解释人工智能(XAI)已成为提高AI模型性能的强大工具,不仅仅是提供模型的透明性和可解释性。标注数据的稀缺仍然是开发稳健且具有普遍适用性的AI模型的一个基本挑战,特别是对于资源匮乏的语言。传统的数据增强技术会引入噪声、导致语义漂移、破坏上下文连贯性、缺乏控制,并导致过拟合。为了解决这些挑战,我们提出了XAI引导的上下文感知数据增强。这一新颖的框架利用XAI技术来修改不太重要的特征,同时选择性地保留大多数与任务相关的特征。我们的方法集成了一个迭代反馈循环,该循环基于可解释性驱动的见解和模型性能的提升,在多个增强周期中优化增强数据。我们的实验结果表明,XAI-SR-BT和XAI-PR-BT在仇恨言论和情感分析任务中,使用Amharic数据集和XLM-R模型,相较于基线分别提高了6.6%和8.1%的准确率。XAI-SR-BT和XAI-PR-BT在相同的数据集和模型上,分别比现有的增强技术高出4.8%和5%。总体而言,XAI-SR-BT和XAI-PR-BT在所有任务和模型中始终优于基线和传统的增强技术。这项研究为数据增强提供了一种更可控、可解释和上下文感知的解决方案,解决了现有增强技术的关键限制,并为利用XAI技术增强AI模型训练提供了新的范式转变。 |
[19] EpiCoDe:通过外推和对比解码提升模型性能 标题: EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding 作者: Mingxu Tao / Jie Hu / Mingchuan Yang / Yunhuai Liu / Dongyan Zhao / Yansong Feng 原文: [英文] [中文] 备注: ACL 2025 Findings 摘要: 大型语言模型(LLMs)的卓越表现在很大程度上依赖于大量高质量训练数据的可用性。然而,获取标注数据的高成本常常阻碍模型获得处理下游任务的能力。在本文中,我们介绍了一种新方法,EpiCoDe,该方法在数据稀缺的情况下无需额外训练即可提升模型性能。我们首先采用模型外推来增强一个微调模型及其较差版本,然后通过对比外推模型和原始微调模型给出的logit分数,采用对比解码进一步减少预测错误。在四种不同LLMs上的三个任务的实验表明,EpiCoDe始终优于现有方法,并且具有显著和稳健的改进。我们还提出了一个新的理论框架,以揭示对比解码在数据稀缺场景中的机制,这进一步帮助我们更好地理解EpiCoDe的有效性。 |
[20] 超越记忆:医学知识编辑的严格评估框架 标题: Beyond Memorization: A Rigorous Evaluation Framework for Medical Knowledge Editing 作者: Shigeng Chen / Linhao Luo / Zhangchi Qiu / Yanan Cao / Carl Yang / Shirui Pan 原文: [英文] [中文] 备注: None 摘要: 近年来,知识编辑(KE)作为一种有前景的方法出现,可以在不需要完全重新训练的情况下更新大型语言模型(LLMs)中的特定事实。尽管在通用领域的基准测试中表现有效,但其在复杂医学领域的适用性仍然很少被探索。医学知识编辑尤其具有挑战性,因为它要求LLMs内化知识并推广到未见过的场景,以实现有效且可解释的决策。在这项工作中,我们提出了一个名为MedEditBench的新框架,以严格评估现有KE方法在医学领域的有效性。在MedEditBench中,我们引入了一个新的医学知识编辑基准以及三种不同的知识编辑范式,这些范式旨在评估不同知识来源对编辑的影响。我们的研究结果表明,当前的KE方法仅导致对注入信息的表面记忆,未能推广到新场景。为克服这一限制,我们提出了自生成推理编辑(SGR-Edit),该方法利用模型生成的推理作为编辑的目标知识,从而揭示潜在的推理过程,并显示出相对于现有KE方法的显著改进。此外,我们提供了对医学知识编辑的更深入见解,包括LLMs中医学知识的定位以及顺序编辑对知识演变的影响。这可能为在实际医学应用中实施KE方法提供实用指导。 |
[21] 衡量人类参与AI生成文本:以学术写作为案例研究 标题: Measuring Human Involvement in AI-Generated Text: A Case Study on Academic Writing 作者: Yuchen Guo / Zhicheng Dou / Huy H. Nguyen / Ching-Chun Chang / Saku Sugawara / Isao Echizen 原文: [英文] [中文] 备注: IJCNN2025 accepted 摘要: 内容创作随着大型语言模型如ChatGPT和Claude的快速发展而取得了显著进步。虽然这一进步极大地提升了生活和工作的各个方面,但也对社会的某些领域产生了负面影响。最近的一项调查显示,近30%的大学生使用生成式人工智能来帮助撰写学术论文和报告。大多数对策将AI生成文本的检测视为一个二元分类任务,因此缺乏鲁棒性。这种方法忽视了人类在内容生成中的参与,即使人机协作正成为主流。除了生成完整文本,人们还可能使用机器来完成或修改文本。这种人类参与因情况而异,这使得二元分类成为一个不太令人满意的方法。我们将这种情况称为参与检测混淆。我们建议使用BERTScore作为衡量生成过程中文本人类参与度的指标,并使用在一个标记分类任务上训练的基于RoBERTa的多任务回归器来解决这个问题。为了评估这种方法的有效性,我们模拟了基于学术的场景,并创建了一个反映不同人类参与水平的连续数据集。我们检查的所有现有检测器都未能在该数据集上检测出人类参与的水平。然而,我们的方法成功了(F1得分为0.9423,回归器均方误差为0.004)。此外,它在生成模型之间表现出一定的泛化能力。我们的代码可在此https URL获取。 |
[22] 通过利用延迟和可调性信息对大型语言模型进行精确的子层剪枝 标题: Accurate Sublayer Pruning for Large Language Models by Exploiting Latency and Tunability Information 作者: Seungcheol Park / Sojin Lee / Jongjin Kim / Jinsik Lee / Hyunjik Jo / U Kang 原文: [英文] [中文] 备注: IJCAI 2025 Main Track 摘要: 我们如何在不牺牲准确性的情况下加速大型语言模型(LLMs)?LLMs 的推理速度缓慢阻碍了我们在各种应用中受益于其卓越性能。这主要是因为 LLMs 中堆叠了大量的子层。子层剪枝通过移除不必要的子层来压缩和加速 LLMs。然而,现有的子层剪枝算法在准确性方面有限,因为它们简单地选择子层进行剪枝,忽视了每个子层的不同特性。在本文中,我们提出了 SPRINT(Sublayer PRuning wIth LateNcy and Tunability Information),这是一种针对 LLMs 的准确子层剪枝方法。SPRINT 通过考虑 1)剪枝后延迟减少的量和 2)子层的可调性,准确选择目标子层进行剪枝。SPRINT 迭代地剪除冗余子层,并迅速调整剩余子层的参数。实验表明,SPRINT 实现了最佳的准确性-速度权衡,在零样本常识推理基准测试中比现有的剪枝算法高出最多 23.88% 的准确性。 |
[23] 一种高效的面向任务的对话策略:由精英个体注入的进化强化学习 标题: An Efficient Task-Oriented Dialogue Policy: Evolutionary Reinforcement Learning Injected by Elite Individuals 作者: Yangyang Zhao / Ben Niu / Libo Qin / Shihan Wang 原文: [英文] [中文] 备注: None 摘要: 深度强化学习(DRL)在面向任务的对话系统中被广泛用于优化对话策略,但由于状态和动作空间的高维性,它在探索和利用之间的平衡上面临困难。这一挑战常常导致局部最优或收敛性差。进化算法(EAs)已被证明能够通过保持种群多样性有效地探索神经网络的解空间。受此启发,我们创新性地将EA的全局搜索能力与DRL的局部优化相结合,以实现探索与利用之间的平衡。然而,自然语言在对话任务中的固有灵活性使得这种直接整合变得复杂,导致进化时间延长。因此,我们进一步提出了一种精英个体注入机制,通过自适应地将表现最佳的个体引入种群来提高EA的搜索效率。跨四个数据集的实验表明,我们的方法显著改善了探索与利用之间的平衡,提升了性能。此外,EII机制在减少探索时间方面的有效性已被证明,实现了EA和DRL在面向任务的对话策略任务上的高效整合。 |
[24] TokAlign: 通过标记对齐实现高效词汇适应 标题: TokAlign: Efficient Vocabulary Adaptation via Token Alignment 作者: Chong Li / Jiajun Zhang / Chengqing Zong 原文: [英文] 备注: ACL 2025, our codes and models are available at this https URL 摘要: 分词是大型语言模型(LLMs)处理文本的基础步骤。在新的领域或语言中,分词器的低效会减缓LLM的训练和生成。词汇的不匹配也阻碍了LLM之间的深度知识转移,例如基于词元的蒸馏。为了解决这一差距,我们提出了一种名为TokAlign的高效方法,从词元共现的视角替换LLM的词汇,并进一步在模型之间转移词元级知识。该方法首先通过学习一个一对一的映射矩阵来将源词汇与目标词汇对齐。模型参数,包括嵌入,被重新排列并逐步针对新词汇进行微调。我们的方法显著提高了LLM的多语言文本压缩率和词汇初始化,将强基线方法的困惑度从3.4$\text{e}^2$降低到初始化后的1.2$\text{e}^2$。在多个参数规模的模型上的实验结果证明了TokAlign的有效性和泛化性,仅需5000步即可恢复原始模型的性能。在统一LLM之间的词汇后,词元级蒸馏可以显著提升基础模型(比句子级蒸馏提高4.4%),仅需235M词元。 |
[25] Seed-Coder:让代码模型为自己策划数据 标题: Seed-Coder: Let the Code Model Curate Data for Itself 作者: Yuyu Zhang / Jing Su / Yifan Sun / Chenguang Xi / Xia Xiao / Shen Zheng / Anxiang Zhang / Kaibo Liu / Daoguang Zan / Tao Sun / Jinhua Zhu / Shulin Xin / Dong Huang / Yetao Bai / Lixin Dong / Chao Li / Jianchong Chen / Hanzhi Zhou / Yifan Huang / Guanghan Ning / Xierui Song / Jiaze Chen / Siyao Liu / Kai Shen / Liang Xiang / Yonghui Wu 原文: [英文] [中文] 备注: None 摘要: 在大型语言模型(LLM)的预训练中,代码数据被认为不仅对与代码相关的任务至关重要,而且对增强LLM的一般智能也有重要作用。目前的开源LLM通常严重依赖人工来生成其代码预训练数据,例如,使用为特定编程语言量身定制的手工过滤规则,或使用人工标注的数据来训练质量过滤器。然而,这些方法在可扩展性上本质上受到限制,容易产生主观偏见,并且在不同编程语言中扩展和维护的成本高昂。为了解决这些挑战,我们引入了Seed-Coder,这是一系列开源LLM,包括8B大小的基础、指令和推理模型,最大限度地减少了数据构建中的人工参与。我们的代码预训练数据是通过一个以模型为中心的数据管道生成的,该管道主要利用LLM来对代码数据进行评分和过滤。指令模型通过监督微调和偏好优化进一步训练,而推理模型则利用长链思维(LongCoT)强化学习来改进多步骤代码推理。Seed-Coder在同类大小的开源模型中达到了最先进的结果,甚至超越了一些更大规模的模型,在代码生成、代码补全、代码编辑、代码推理和软件工程任务中表现出卓越的性能。 |
[26] Go-Browse:通过结构化探索训练网络代理 标题: Go-Browse: Training Web Agents with Structured Exploration 作者: Apurva Gandhi / Graham Neubig 原文: [英文] [中文] 备注: None 摘要: 数字代理的一个基本问题是它们缺乏对环境的理解。例如,一个网页浏览代理可能会在不熟悉的网站中迷失,不确定需要访问哪些页面才能实现其目标。为了解决这个问题,我们提出了Go-Browse,这是一种通过结构化探索网页环境来大规模自动收集多样化和真实网页代理数据的方法。Go-Browse通过将数据收集框架化为图搜索来实现高效探索,从而能够在探索过程中重用信息。我们在WebArena基准上实现了我们的方法,收集了一个包含10,000个成功任务解决轨迹和40,000个交互步骤的数据集,涵盖了100个URL。在这个数据集上微调一个拥有70亿参数的语言模型,在WebArena基准上取得了21.7%的成功率,比GPT-4o mini高出2.4%,并超过了当前小于100亿参数模型的最新技术水平2.9%。 |
[27] 辩论、反思与提炼:通过树状结构偏好优化的多智能体反馈实现高效语言模型增强 标题: Debate, Reflect, and Distill: Multi-Agent Feedback with Tree-Structured Preference Optimization for Efficient Language Model Enhancement 作者: Xiaofeng Zhou / Heyan Huang / Lizi Liao 原文: [英文] [中文] 备注: 16 pages, 10 figures. The camera-ready paper for Findings of ACL 2025 摘要: 大型语言模型(LLMs)在知识密集型和复杂推理任务中不断设定新的标准,但其高计算需求限制了广泛应用。虽然将大型模型压缩为较小模型提供了一种可持续的解决方案,但当前技术——如静态知识蒸馏、资源密集型的人类反馈强化学习或有限的自我反思——难以带来显著且持久的性能提升。在本文中,我们提出了一种新颖的辩论与反思(D&R)框架,该框架组织较小模型与更强大的教师模型之间的多轮辩论,获取可操作的反馈(例如,错误分析、纠正策略)以指导学生模型。此外,我们引入了树状直接偏好优化(T-DPO),以高效利用这些辩论记录,将交互组织成层次结构格式以进行有效训练。对各种自然语言处理基准的实证评估表明,我们的方法显著提高了较小模型的准确性、鲁棒性和泛化能力,远远超过了传统基线。 |
[28] BPO:重新审视直接偏好优化中的偏好建模 标题: BPO: Revisiting Preference Modeling in Direct Preference Optimization 作者: Lin Sun / Chuang Liu / Peng Liu / Bingyang Li / Weijia Lu / Ning Wu 原文: [英文] [中文] 备注: None 摘要: 直接偏好优化(DPO)已成为将大型语言模型(LLMs)与人类偏好对齐的一种流行方法。虽然DPO通过成对排名损失有效地保留了选择和拒绝响应之间的相对顺序,但它常常忽略绝对奖励幅度。这种忽视可能降低选择响应的可能性,并增加生成分布外响应的风险,导致性能不佳。我们将此问题称为退化选择响应(DCR)。为了解决这个问题,我们提出了平衡偏好优化(BPO),这是一种新颖的框架,通过两个关键组件:平衡奖励边距和间隙适配器,动态平衡选择和拒绝响应的优化。与之前的方法不同,BPO可以从根本上解决DPO的DCR问题,而无需在损失函数中引入额外的约束。在多个数学推理任务上的实验结果表明,BPO显著优于DPO,使用Llama-3.1-8B-Instruct提高准确率+10.1%(从18.8%到28.9%),使用Qwen2.5-Math-7B提高+11.7%(从35.0%到46.7%)。它还在同一模型上超过了DPO的变体,比IPO高出+3.6%(43.1%),比SLiC高出+5.0%(41.7%),比Cal-DPO高出+3.1%(43.6%)。值得注意的是,我们的算法只需修改一行代码即可实现,简单易行,并与现有的基于DPO的框架完全兼容。 |
[29] ConsistentChat:从零开始为大型语言模型构建基于骨架指导的一致性对话 标题: ConsistentChat: Building Skeleton-Guided Consistent Dialogues for Large Language Models from Scratch 作者: Jiawei Chen / Xinyan Guan / Qianhao Yuan / Guozhao Mo / Weixiang Zhou / Yaojie Lu / Hongyu Lin / Ben He / Le Sun / Xianpei Han 原文: [英文] [中文] 备注: None 摘要: 当前的指令数据合成方法主要集中于单轮指令,往往忽视了跨轮次的一致性,导致在扩展对话中出现上下文漂移和任务完成率降低。为了解决这一限制,我们提出了骨架引导的多轮对话生成框架,该框架通过显式建模人类对话意图来约束多轮指令合成。该框架分为两个阶段:(1)意图建模,通过将每个对话分配到九个定义明确的意图轨迹之一,捕捉人类对话的全局结构,确保信息流的一致性和目标导向性;(2)骨架生成,构建与建模意图对齐的用户查询的结构化序列,从而作为约束和指导下游指令合成过程的支架。基于这一过程,我们构建了ConsistentChat,一个包含约15,000个多轮对话和224,392个话语的多轮指令数据集。在Light、Topdial和MT-Eval基准测试上的实验表明,在ConsistentChat上微调的模型在聊天一致性上提高了20-30%,任务成功率提高了最多15%,显著优于在现有单轮和多轮指令数据集上训练的模型。 |
[30] 位置专家生成更好的推测解码草稿 标题: POSS: Position Specialist Generates Better Draft for Speculative Decoding 作者: Langlin Huang / Chengsong Huang / Jixuan Leng / Di Huang / Jiaxin Huang 原文: [英文] 备注: None 摘要: 推测解码通过使用一个小的草稿模型预测多个标记,并使用一个大型目标模型并行验证这些标记,从而加速大型语言模型(LLM)的推理。最近的研究利用目标模型的隐藏状态来提高草稿模型预测的准确性。然而,由于草稿模型生成特征中的错误积累,现有方法在后续位置的草稿标记预测质量下降。在本文中,我们提出了位置专家(PosS),它由多个位置专用的草稿层组成,用于在指定位置生成标记。位置专家大大提高了每轮草稿在后续位置的标记接受率,因为每个专家只需专注于处理某一水平的草稿模型特征偏差。对Llama-3-8B-Instruct和Llama-2-13B-chat在六个数据集上的实验结果表明,PosS在平均接受长度和加速比方面有效地优于基线。我们的代码库可在此https URL获取。 |
[31] MiMo-VL技术报告 标题: MiMo-VL Technical Report 作者: Xiaomi LLM-Core Team / Zihao Yue / Zhenru Lin / Yifan Song / Weikun Wang / Shuhuai Ren / Shuhao Gu / Shicheng Li / Peidian Li / Liang Zhao / Lei Li / Kainan Bao / Hao Tian / Hailin Zhang / Gang Wang / Dawei Zhu / Cici / Chenhong He / Bowen Ye / Bowen Shen / Zihan Zhang / Zihan Jiang / Zhixian Zheng / Zhichao Song / Zhenbo Luo / Yue Yu / Yudong Wang / Yuanyuan Tian / Yu Tu / Yihan Yan / Yi Huang / Xu Wang / Xinzhe Xu / Xingchen Song / Xing Zhang / Xing Yong / Xin Zhang / Xiangwei Deng / Wenyu Yang / Wenhan Ma / Weiwei Lv / Weiji Zhuang / Wei Liu / Sirui Deng / Shuo Liu / Shimao Chen / Shihua Yu / Shaohui Liu / Shande Wang / Rui Ma / Qiantong Wang / Peng Wang / Nuo Chen / Menghang Zhu / Kangyang Zhou / Kang Zhou / Kai Fang / Jun Shi / Jinhao Dong / Jiebao Xiao / Jiaming Xu / Huaqiu Liu / Hongshen Xu / Heng Qu / Haochen Zhao / Hanglong Lv / Guoan Wang / Duo Zhang / Dong Zhang / Di Zhang / Chong Ma / Chang Liu / Can Cai / Bingquan Xia 原文: [英文] [中文] 备注: 32 pages 摘要: 我们开源了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL,这两款强大的视觉语言模型在通用视觉理解和多模态推理方面提供了最先进的性能。MiMo-VL-7B-RL 在 40 个评估任务中有 35 个超越了 Qwen2.5-VL-7B,并在 OlympiadBench 上获得了 59.4 分,超过了参数量高达 78B 的模型。在 GUI 定位应用中,它在 OSWorld-G 上设定了 56.1 的新标准,甚至超越了像 UI-TARS 这样的专业模型。我们的训练结合了四阶段的预训练(2.4 万亿个标记)和混合策略强化学习(MORL),整合了多样的奖励信号。我们识别出在预训练阶段加入高质量的长链式思维推理数据的重要性,以及尽管在同时进行多领域优化时面临挑战,混合强化学习的益处。我们还贡献了一个涵盖 50 多个任务的综合评估套件,以促进可重复性并推动该领域的发展。模型检查点和完整的评估套件可在此 https URL 获得。 |
[32] FreePRM: 无需真实过程标签的训练过程奖励模型 标题: FreePRM: Training Process Reward Models Without Ground Truth Process Labels 作者: Lin Sun / Chuang Liu / Xiaofeng Ma / Tao Yang / Weijia Lu / Ning Wu 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展表明,过程奖励模型(PRMs)在提升模型性能方面起着至关重要的作用。然而,训练PRMs通常需要步骤级别的标签,这些标签可以是手动标注的或自动生成的,但在大规模获取时可能代价高昂且困难。为了解决这一挑战,我们引入了FreePRM,这是一种无需访问真实步骤级别标签的弱监督框架,用于训练PRMs。FreePRM首先根据最终结果的正确性生成伪步骤级别标签,然后采用缓冲概率来消除伪标签固有噪声的影响。实验结果表明,FreePRM在ProcessBench上实现了平均F1得分53.0%,比在Math-Shepherd上训练的完全监督PRM高出24.1%。与其他开源PRMs相比,FreePRM比RLHFlow-PRM-Mistral-8B(28.4%)高出24.6%,比EurusPRM(31.3%)高出21.7%,比Skywork-PRM-7B(42.1%)高出10.9%。这项工作在PRM训练中引入了一种新范式,显著减少了对昂贵步骤级别标注的依赖,同时保持了强劲的性能。 |
[33] 视角交换提示增强大型语言模型的推理能力 标题: Exchange of Perspective Prompting Enhances Reasoning in Large Language Models 作者: Lin Sun / Can Zhang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在处理各种自然语言处理(NLP)任务方面取得了显著进展。然而,它们的性能往往受到对问题的固有理解的限制。为了解决这一限制,我们提出了视角交换(Exchange-of-Perspective, EoP),这是一种新颖的框架,旨在跨不同的问题定义交换视角,从而打破对问题的任何特定表述的固定思维模式。我们在8个基准上进行了广泛而全面的实验。结果表明,EoP可以显著提高性能。例如,与不可交换的基线PHP相比,使用GPT-3.5-Turbo和EoP,我们在AQuA上观察到3.6%的提升(从60.6%到64.2%),而使用Qwen-2.5-72b的GPT-4驱动的EoP在数学上显示出7.7%的整体准确率提升(从53.9%到61.6%),在OlympiadBench数学上提高了3.5%(从43.5%到47.0%)。 |
[34] KG-BiLM:通过双向语言模型进行知识图谱嵌入 标题: KG-BiLM: Knowledge Graph Embedding via Bidirectional Language Models 作者: Zirui Chen / Xin Wang / Zhao Li / Wenbin Guo / Dongxiao He 原文: [英文] [中文] 备注: None 摘要: 最近在知识表示学习(KRL)方面的进展突显了将符号知识图谱(KGs)与语言模型(LMs)统一起来以实现更丰富语义理解的迫切必要性。然而,现有的方法通常优先考虑图结构或文本语义,留下了一个空白:一个能够同时捕捉全局KG连通性、细致语言上下文和判别推理语义的统一框架。为弥补这一空白,我们引入了KG-BiLM,这是一种双向LM框架,将KGs的结构线索与生成式变压器的语义表达能力融合在一起。KG-BiLM包含三个关键组件:(i)双向知识注意力,去除了因果掩码以实现所有标记和实体之间的全面交互;(ii)知识掩码预测,鼓励模型利用局部语义上下文和全局图连通性;以及(iii)对比图语义聚合,通过对采样子图表示的对比对齐来保留KG结构。在标准基准上的大量实验表明,KG-BiLM在链接预测中优于强基线,尤其是在具有复杂多跳关系的大规模图上——验证了其在统一结构信息和文本语义方面的有效性。 |
[35] 使用预训练语言模型自动为日语二语学习者推荐多样化的例句 标题: Automatically Suggesting Diverse Example Sentences for L2 Japanese Learners Using Pre-Trained Language Models 作者: Enrico Benedetti / Akiko Aizawa / Florian Boudin 原文: [英文] [中文] 备注: Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop) 摘要: 提供多样化且与学习者水平相符的例句对于促进有效的语言习得至关重要。本研究探讨了使用预训练语言模型(PLMs)为日语二语学习者生成例句的方法。我们以两种方式利用PLMs:作为检索系统中的质量评分组件,从新整理的日语句子语料库中提取句子;以及通过零样本学习直接生成句子。我们通过考虑难度、多样性和自然性等多个方面来评估句子的质量,评估小组由日语学习者、母语者和GPT-4组成。我们的研究结果表明,除了难度外,参与者在句子质量评分上存在固有的分歧。尽管如此,所有评估者都更偏好检索方法,尤其是在初学者和高级目标水平上,而生成方法的平均得分较低。即便如此,我们的实验仍然强调了使用PLMs来增强句子建议系统适应性的潜力,从而改善语言学习过程。 |
[36] 从理解到生成:评估语言模型的高效捷径 标题: From Understanding to Generation: An Efficient Shortcut for Evaluating Language Models 作者: Viktor Hangya / Fabian Küch / Darina Gold 原文: [英文] [中文] 备注: None 摘要: 在训练过程中对大型语言模型(LLMs)进行迭代评估对于确保预期能力的发展至关重要,但这可能会消耗大量时间和计算资源。尽管自然语言理解(NLU)任务中模型从固定答案选项中选择的评估成本较低,但诸如推理和代码生成等关键能力依赖于更耗时的自然语言生成(NLG,即逐字生成)格式。在这项工作中,我们的目标是减少NLG基准测试的计算负担,以便在模型训练期间监控关键的LLM能力。我们将生成任务重新表述为计算成本更低的NLU替代方案。我们使用8个不同规模的语言模型和4种能力(数学推理、代码生成、事实知识和阅读理解)测试原始任务和重新表述任务之间的性能相关性。我们的结果显示任务格式之间存在很强的相关性,支持通过更便宜的替代方案进行能力评估,并实现了评估时间平均超过35倍的减少。我们计划发布我们的基准测试改编。 |
[37] 语言驱动的数据增强值得吗? 标题: Is linguistically-motivated data augmentation worth it? 作者: Ray Groshan / Michael Ginn / Alexis Palmer 原文: [英文] [中文] 备注: Accepted to ACL 2025 Main. First two authors contributed equally 摘要: 数据增强是一种广泛使用的技术,用于解决数据稀缺问题,其涉及生成合成数据示例,然后用于扩充可用的训练数据。研究人员发现,即使是简单的方法也能取得惊人的成功,例如从自然示例中进行随机扰动,模型似乎甚至能从包含无意义词汇或不符合语言规则的数据中受益。另一类研究则生成确实遵循所有语言约束的合成数据;这些方法需要一定的语言学专业知识,通常更难以实施。之前的工作没有对语言学上简单和语言学上复杂的数据增强策略进行系统的、实证的比较,因此不确定语言学驱动的数据增强所需的额外时间和精力是否确实能带来更好的下游性能。 在这项工作中,我们对两种具有不同形态特征的低资源语言(Uspanteko和Arapaho)的增强策略(包括语言学上简单和语言学上复杂的策略)进行了仔细而全面的比较。我们评估了多种不同策略及其组合在两项重要的低资源语言序列到序列任务中的有效性:机器翻译和行间注释。我们发现,语言学驱动的策略相较于简单方法可能具有优势,但前提是它们生成的新示例与训练数据分布没有显著差异。 |
[38] 自动提示SQL:一种在受限环境中进行文本到SQL翻译的资源高效架构 标题: Auto prompt sql: a resource-efficient architecture for text-to-sql translation in constrained environments 作者: Zetong Tang / Qian Ma / Di Wu 原文: [英文] 备注: 4 pages,2 figures,EITCE 2025 摘要: 在资源受限的环境中使用最佳的Text-to-SQL方法具有挑战性,因为这些方法依赖于资源密集型的开源模型。本文介绍了Auto Prompt SQL(AP-SQL),这是一种新颖的架构,旨在弥合资源高效的小型开源模型与强大功能的大型闭源模型之间的差距,以实现Text-to-SQL翻译。我们的方法将任务分解为模式过滤、基于上下文示例的检索增强型Text-to-SQL生成,以及基于提示的模式链接和SQL生成。为了提高模式选择的准确性,我们对大型语言模型进行了微调。关键的是,我们还探索了在整个过程中提示工程的影响,利用思维链(CoT)和思维图(GoT)模板显著增强模型的推理能力,以生成准确的SQL。在Spider基准上的全面评估证明了AP-SQL的有效性。 |
[39] 学习插入[暂停]标记以改善推理 标题: Learning to Insert [PAUSE] Tokens for Better Reasoning 作者: Eunki Kim / Sangryul Kim / James Thorne 原文: [英文] [中文] 备注: 18 pages, 5 figures, ACL findings 摘要: 为了增强推理能力,先前的研究探索了在训练过程中加入特殊用途的标记。这些策略加强了基于变压器的大型语言模型(LLMs)的学习机制。基于之前的研究,其中在推理步骤之前连续插入虚拟标记可以提高效果,我们引入了一种新方法,称为动态插入标记训练(DIT)。我们的方法识别出序列中模型置信度最低的位置,根据标记的对数似然性。在这些位置战略性地插入[PAUSE]标记,增强模型对后续标记的预测能力。跨多样化数据集和模型的实验结果,从2.7B模型到8B模型,表明DIT始终优于传统微调和先前的标记插入方法。通过这种简单而有效的方法,我们在GSM8K上实现了高达4.7%p的准确性提升,在AQUA-RAT上实现了3.23%p的提升,并在MBPP数据集上实现了高达3.4%p的pass@1改进。我们的工作展示了一种基于模型的动态方法,而不是启发式方法,从而拓宽了推理研究的范围。 |
[40] 大型语言模型了解民间故事吗?以日本民间故事中的妖怪为例 标题: Do Large Language Models Know Folktales? A Case Study of Yokai in Japanese Folktales 作者: Ayuto Tsutsumi / Yuu Jinnai 原文: [英文] [中文] 备注: None 摘要: 尽管大型语言模型(LLMs)在多种语言中展示了强大的语言理解和生成能力,但它们的文化知识往往局限于英语社区,这可能会边缘化非英语社区的文化。为了解决这个问题,研究人员对LLMs的文化意识进行了评估,并探讨了开发具有文化意识的LLMs的方法。在这项研究中,我们专注于评估对民间故事的知识,这是传递和传播文化的关键媒介。特别是,我们关注日本民间故事,尤其是对妖怪的知识。妖怪是起源于日本民间故事的超自然生物,至今仍是艺术和娱乐中的流行主题。妖怪长期以来一直是文化表达的媒介,使其成为评估LLMs文化意识的理想主题。我们引入了YokaiEval,这是一个基准数据集,由809个多项选择题(每题有四个选项)组成,旨在探测对妖怪的知识。我们评估了31个日语和多语言LLMs在该数据集上的表现。结果表明,使用日语资源训练的模型比以英语为中心的模型具有更高的准确性,尤其是那些在日语中进行了持续预训练的模型,特别是基于Llama-3的模型,表现尤为出色。代码和数据集可在此https URL ILab/YokaiEval获取。 |
[41] 提示的鲁棒性:增强大型语言模型对抗提示攻击的鲁棒性 标题: Robustness of Prompting: Enhancing Robustness of Large Language Models Against Prompting Attacks 作者: Lin Mu / Guowei Chu / Li Ni / Lei Sang / Zhize Wu / Peiquan Jin / Yiwen Zhang 原文: [英文] [中文] 备注: 13pages 摘要: 大型语言模型(LLMs)通过有效利用提示策略,在各种任务中表现出色。然而,它们对输入扰动高度敏感,例如拼写错误或轻微的字符顺序错误,这些都可能显著降低其性能。尽管提示技术取得了进展,但开发一种能够明确减轻此类扰动负面影响的提示策略仍然是一个未解决的挑战。为了解决这一问题,我们提出了提示的鲁棒性(RoP),这是一种专门设计用于增强LLMs鲁棒性的全新提示策略。RoP包括两个阶段:错误校正和引导。在错误校正阶段,RoP应用多种扰动方法生成对抗性示例,然后利用这些示例构建自动校正输入错误的提示。在引导阶段,RoP基于校正后的输入生成最佳引导提示,引导模型进行更鲁棒和准确的推理。通过涵盖算术、常识和逻辑推理任务的综合实验,我们证明了RoP显著提高了LLMs对抗对抗性扰动的鲁棒性。值得注意的是,与干净输入场景相比,它仅在极小的精度下降下保持了模型的准确性,从而确立了RoP作为增强LLM鲁棒性的实用且有效的方法在现实应用中的地位。 |
[42] 奖励万物:可推广的原则遵循奖励模型 标题: RewardAnything: Generalizable Principle-Following Reward Models 作者: Zhuohao Yu / Jiali Zeng / Weizheng Gu / Yidong Wang / Jindong Wang / Fandong Meng / Jie Zhou / Yue Zhang / Shikun Zhang / Wei Ye 原文: [英文] [中文] 备注: 23 pages, 8 figures 摘要: 奖励模型是指导大型语言模型优化的关键,通常在固定的偏好数据集上进行训练,导致其严格地对齐于单一的、隐含的偏好分布。这限制了其适应多样化的现实世界需求——从一个任务中的简洁性到另一个任务中的详细解释。标准做法是收集特定任务的偏好数据并重新训练奖励模型,这既耗费资源,又常常产生有偏的奖励,限制了实际应用。我们引入了可推广的、遵循原则的奖励模型。我们建议奖励模型应该理解并遵循动态提供的自然语言奖励原则说明,类似于大型语言模型中的指令遵循。为了衡量这种能力,我们开发了RABench,这是一个专注于跨多样化原则进行泛化的奖励模型综合基准。对RABench的评估显示当前奖励模型的泛化能力较差。作为解决方案,我们提出了RewardAnything,这是一种新颖的奖励模型,设计并训练以明确遵循自然语言原则。我们在传统奖励模型基准中通过指定明确的原则,使用RewardAnything达到了最先进的性能,且在RABench上的结果显示我们在不重新训练的情况下能够出色地适应新原则。此外,RewardAnything可以无缝集成到现有的基于人类反馈的强化学习方法中,我们通过一个案例研究展示了如何仅通过自然语言原则自动且高效地对齐大型语言模型。 |
[43] 值得信赖的医学问答:以评估为中心的综述 标题: Trustworthy Medical Question Answering: An Evaluation-Centric Survey 作者: Yinuo Wang / Robert E. Mercer / Frank Rudzicz / Sudipta Singha Roy / Pengjie Ren / Zhumin Chen / Xindi Wang 原文: [英文] [中文] 备注: None 摘要: 在医疗问答(QA)系统中,可信度对于确保患者安全、临床效果和用户信心至关重要。随着大型语言模型(LLMs)越来越多地融入医疗环境,它们的回答的可靠性直接影响临床决策和患者结果。然而,由于医疗数据的复杂性、临床场景的关键性以及可信AI的多维度特性,实现医疗问答的全面可信性面临重大挑战。在这篇综述中,我们系统地考察了医疗问答中可信度的六个关键维度,即事实性、稳健性、公平性、安全性、可解释性和校准性。我们回顾了现有基于LLM的医疗问答系统中如何评估每个维度。我们汇编并比较了旨在评估这些维度的主要基准,并分析了通过评估指导的技术来推动模型改进的方法,例如检索增强的基础、对抗性微调和安全对齐。最后,我们识别了开放的挑战,如可扩展的专家评估、集成的多维度指标和现实世界的部署研究,并提出了未来的研究方向,以推进LLM驱动的医疗问答的安全、可靠和透明的部署。 |
[44] ROSA:通过旋转采样解决照片中的文本理解挑战 标题: ROSA: Addressing text understanding challenges in photographs via ROtated SAmpling 作者: Hernán Maina / Guido Ivetta / Mateo Lione Stuto / Julian Martin Eisenschlos / Jorge Sánchez / Luciana Benotti 原文: [英文] [中文] 备注: None 摘要: 视障人士可以通过视觉问答(VQA)系统来解读周围环境中的文本。然而,目前的模型在识别这类人群拍摄的照片中的文本时常常遇到困难。通过对视障人士的深入访谈,我们发现了一些常见的构图习惯,这些习惯经常导致文本的错位。现有的VQA基准测试主要包含由视力正常的用户拍摄的方向正确的文本,未能充分代表这些挑战。为了解决这一差距,我们引入了旋转采样(ROSA),这是一种解码策略,可以提高在文本丰富且文本方向不正确的图像中的VQA性能。在表现最佳的模型中,ROSA比贪婪解码的表现高出11.7个绝对点。 |
[45] 使用伪标签和多阶段过滤的高效数据选择用于ASR的领域自适应 标题: Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering 作者: Pradeep Rangappa / Andres Carofilis / Jeena Prakash / Shashi Kumar / Sergio Burdisso / Srikanth Madikeri / Esau Villatoro-Tello / Bidisha Sharma / Petr Motlicek / Kadri Hacioglu / Shankar Venkatesan / Saurabh Vyas / Andreas Stolcke 原文: [英文] [中文] 备注: Accepted at Interspeech 2025, Netherlands 摘要: 对于小型组织来说,针对特定领域微调预训练的自动语音识别(ASR)模型是具有挑战性的,因为它们的标注数据和计算资源有限。在此,我们探索了不同的数据选择流程,并提出了一种稳健的方法,通过过滤使用Whisper(编码器-解码器)和Zipformer(转换器)模型生成的伪标签来改进ASR的适应性。我们的方法整合了多种选择策略——包括词错误率(WER)预测、命名实体识别(NER)和字符错误率(CER)分析——以提取高质量的训练片段。我们在Whisper和Zipformer上评估了我们的方法,使用7500小时的基线数据,并将其与依赖于三个ASR系统假设的CER方法进行比较。在7500小时的伪标注呼叫中心数据上进行微调实现了12.3%的WER,而我们的过滤方法将数据集减少到100小时(1.4%)的同时保持了类似的性能;在Fisher English数据集上也观察到了类似的趋势。 |
[46] 通过动态目标边际进行稳健偏好优化 标题: Robust Preference Optimization via Dynamic Target Margins 作者: Jie Sun / Junkang Wu / Jiancan Wu / Zhibo Zhu / Xingyu Lu / Jun Zhou / Lintao Ma / Xiang Wang 原文: [英文] 备注: 18 pages, 6 figures, accepted to The 63rd Annual Meeting of the Association for Computational Linguistics (ACL2025) 摘要: 大型语言模型(LLMs)的对齐对于确保其在实际应用中的安全性和可靠性至关重要。直接偏好优化(DPO)作为一种高效的方法,通过偏好对直接优化模型,显著降低了资源需求。然而,DPO 的有效性在很大程度上依赖于数据质量,而数据质量常常受到噪声的影响。在这项工作中,我们提出了 $\gamma$-PO,这是一种动态目标边际偏好优化算法,可以在成对的层面上调整奖励边际。通过引入实例特定的边际校准,$\gamma$-PO 战略性地优先考虑高置信度的对(即那些表现出更高奖励边际的对),同时抑制来自模糊对的潜在噪声。此外,$\gamma$-PO 是一种即插即用的方法,与依赖于偏好对之间奖励边际的 DPO 变体兼容。在 AlpacaEval2 和 Arena-Hard 等基准测试中,$\gamma$-PO 比其他基线平均提高了 4.4\%,为最先进的性能设定了新的基准。此外,$\gamma$-PO 需要的代码更改极少,对训练效率的影响可以忽略不计,使其成为增强 LLMs 对齐的强大解决方案。我们的代码可在 \href{this https URL}{this https URL} 获取。 |
[47] AdaDecode:通过自适应层并行加速大型语言模型解码 标题: AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism 作者: Zhepei Wei / Wei-Lin Chen / Xinyu Zhu / Yu Meng 原文: [英文] [中文] 备注: ICML 2025. Code: this https URL 摘要: 大型语言模型(LLMs)越来越多地用于长内容生成(例如,长链式推理),在这种情况下,解码效率成为关键瓶颈:自回归解码本质上受到其顺序生成过程的限制,其中每个标记必须在下一个标记处理之前生成。这种顺序依赖性限制了充分利用现代硬件并行处理能力的能力。现有的方法如推测性解码和层跳过提供了潜在的加速,但存在显著缺陷:推测性解码依赖于辅助“起草者”模型,这可能难以获取并增加内存开销,而层跳过可能由于跳过层的关键值缓存缺失而导致输出不一致。在这项工作中,我们提出了AdaDecode,它在不需要辅助模型或改变原始模型参数的情况下加速LLM解码,同时确保输出一致性。AdaDecode利用了许多标记可以在中间层准确生成的洞察,因为一旦模型达到一定的置信度,进一步的层通常不会显著改变预测。通过在置信度高时自适应地在中间层生成标记,AdaDecode使得下一个标记的计算可以立即开始。早期预测标记的剩余层计算被推迟,并在需要时与后续标记并行执行,最大化硬件利用率并减少解码延迟。最后的验证步骤确保早期预测与标准自回归解码的结果匹配,保持输出一致性。跨多种生成任务的实验表明,AdaDecode始终实现了优越的解码吞吐量,速度提升高达1.73倍,同时保证与标准自回归解码的输出一致性。 |
[48] ScoreRAG:一种用于新闻生成的检索增强生成框架,具有一致性-相关性评分和结构化摘要 标题: ScoreRAG: A Retrieval-Augmented Generation Framework with Consistency-Relevance Scoring and Structured Summarization for News Generation 作者: Pei-Yun Lin / Yen-lung Tsai 原文: [英文] [中文] 备注: 11 pages, 8 figures. Code and demo available at this https URL. Submitted to arXiv for public access; journal submission planned 摘要: 本研究介绍了ScoreRAG,这是一种提高自动新闻生成质量的方法。尽管自然语言处理和大型语言模型取得了进展,但当前的新闻生成方法在生成新闻文章时常常面临幻觉、事实不一致以及缺乏领域特定专业知识的问题。ScoreRAG通过结合检索增强生成、一致性相关性评估和结构化摘要的多阶段框架来应对这些挑战。系统首先从向量数据库中检索相关的新闻文档,将其映射到完整的新闻项目,并根据大型语言模型评估分配一致性相关性分数。然后根据相关性对这些文档重新排序,过滤掉低质量的项目。该框架接着根据相关性分数生成分级摘要,这些摘要指导大型语言模型按照专业新闻标准生成完整的新闻文章。通过这种系统的方法,ScoreRAG旨在显著提高生成新闻文章的准确性、连贯性、信息量和专业性,同时在生成过程中保持稳定性和一致性。代码和演示可在此URL获取:this https URL。 |
[49] MFLA:用于流式语音识别的单调有限前瞻注意力 标题: MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition 作者: Yinfeng Xia / Huiyan Li / Chenyang Le / Manhong Wang / Yutao Sun / Xingyang Ma / Yanmin Qian 原文: [英文] [中文] 备注: Accepted by Interspeech 2025 摘要: 应用大型预训练语音模型(如Whisper)在降低各种语音任务的训练成本方面显示出潜力。然而,将这些模型集成到流式系统中仍然是一个挑战。本文提出了一种新颖的前缀到前缀训练框架,通过微调Whisper来实现流式识别。我们引入了连续积分与发火机制,以在连续语音序列和离散文本标记之间建立准单调对齐。此外,我们设计了单调有限前瞻注意力机制,使每个标记能够从语音序列中关注无限的左上下文和有限的右上下文。我们还采用了wait-k解码策略,以简化解码过程,同时确保训练和测试之间的一致性。我们的理论分析和实验表明,这种方法在延迟和质量之间实现了可控的权衡,使其适用于各种流式应用。 |
[50] 口头表达的信心触发自我验证:无需显式推理监督的自发行为 标题: Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision 作者: Chaeyun Jang / Moonseok Choi / Yegon Kim / Hyungi Lee / Juho Lee 原文: [英文] [中文] 备注: None 摘要: 不确定性校准对于大型语言模型(LLMs)的安全部署至关重要,特别是在用户依赖于语言化的置信度估计时。尽管之前的工作主要集中在分类器或短文本生成上,但对于链式思维(CoT)推理的置信度校准仍然很少被探索。令人惊讶的是,我们发现仅使用标量置信度标签进行监督微调就足以引发语言模型的自我验证行为,而无需任何显式的推理监督或基于强化学习的奖励。尽管模型仅被训练来生成语言化的置信度分数,而没有任何自我验证的示例,但它学会了在低置信度查询时生成更长且自我检查的响应,而在高置信度查询时提供更简洁的答案。我们进一步提出了一种简单的重新思考方法,通过基于校准不确定性的测试时缩放来提升性能。在GSM8K和保留的推理任务(如MATH-500和ARC-Challenge)上的实验表明,我们的置信度感知微调不仅提高了校准和准确性,还通过将模型的推理路径与其置信度对齐来增强了解释性。 |
[51] 为数学文字题生成具有教学意义的视觉图像:一个新的基准和文本到图像模型的分析 标题: Generating Pedagogically Meaningful Visuals for Math Word Problems: A New Benchmark and Analysis of Text-to-Image Models 作者: Junling Wang / Anna Rutkiewicz / April Yi Wang / Mrinmaya Sachan 原文: [英文] 备注: Findings of the Association for Computational Linguistics: ACL 2025 摘要: 视觉工具是教授数学文字题(MWPs)的宝贵工具,帮助年轻学习者将文字描述转化为数学表达式,然后进行求解。然而,创建这样的视觉工具需要大量的劳动,并且缺乏自动化方法来支持这一过程。在本文中,我们提出了Math2Visual,这是一种从数学文字题文本描述中自动生成具有教育意义的视觉图像的框架。Math2Visual利用预定义的视觉语言和基于与数学教师访谈的设计空间,来展示数学文字题中的核心数学关系。使用Math2Visual,我们构建了一个包含1,903个视觉图像的注释数据集,并评估了文本到图像(TTI)模型在生成与我们设计一致的视觉图像方面的能力。我们进一步使用我们的数据集对几个TTI模型进行微调,展示了在教育视觉生成方面的改进。我们的工作为自动生成具有教育意义的视觉图像建立了新的基准,并提供了关于生成多模态教育内容的关键挑战的见解,例如数学关系的误表和重要视觉元素的遗漏。 |
[52] 充当电子宠物:在社交网络服务中评估大型语言模型作为电子宠物的能力 标题: Act-as-Pet: Benchmarking the Abilities of Large Language Models as E-Pets in Social Network Services 作者: Hongcheng Guo / Zheyong Xie / Shaosheng Cao / Boyang Wang / Weiting Liu / Zheyu Ye / Zhoujun Li / Zuozhu Liu 原文: [英文] 备注: None 摘要: 随着人们对使用大型语言模型(LLMs)进行互动和情感丰富体验的兴趣日益增长,虚拟宠物陪伴作为一种新颖但尚未深入探索的应用逐渐出现。现有的方法主要关注基本的宠物角色扮演互动,而没有系统地对LLMs进行全面陪伴的基准测试。在本文中,我们介绍了Pet-Bench,这是一个专门的基准,用于评估LLMs在自我互动和人类互动维度上的表现。与之前的工作不同,Pet-Bench强调自我进化和发展行为以及互动参与,提供了对宠物陪伴更现实的反映。它包含多样化的任务,如智能调度、基于记忆的对话和心理对话,设计了超过7,500个互动实例以模拟复杂的宠物行为。对28个LLMs的评估显示,模型大小和内在能力与性能之间存在显著差异,这突显了在该领域进行专业优化的必要性。Pet-Bench作为一个基础资源,用于基准测试与宠物相关的LLM能力,并推进情感沉浸式的人宠互动。 |
[53] AhaKV:自适应整体注意力驱动的KV缓存淘汰,用于大型语言模型的高效推理 标题: AhaKV: Adaptive Holistic Attention-Driven KV Cache Eviction for Efficient Inference of Large Language Models 作者: Yifeng Gu / Zicong Jiang / Jianxiu Jin / Kailing Guo / Ziyang Zhang / Xiangmin Xu 原文: [英文] [中文] 备注: 14 pages, 8 figures 摘要: 大型语言模型(LLMs)在人工智能领域取得了显著进展。然而,它们的部署需要大量资源,不仅因为模型参数数量庞大,还因为在推理过程中(键值)KV缓存消耗了大量内存。尽管有多项研究提出通过移除不必要的标记来减少KV缓存,这些方法依赖于累积注意力分数作为移除分数来量化标记的重要性。我们发现累积注意力分数存在偏差,并且在数学期望中随着标记位置的增加而减少。因此,保留的标记集中在初始位置,限制了模型对全局上下文信息的访问。为了解决这个问题,我们提出了自适应整体注意KV(AhaKV),通过根据注意力分数的信息熵期望自适应调整softmax的尺度来解决累积注意力分数的偏差。为了在自注意机制中利用整体注意信息,AhaKV利用了之前工作中被忽视的值向量信息来优化自适应分数。我们从理论上证明了我们的方法非常适合于偏差减少。我们在不同模型上部署了AhaKV,并设定了固定的缓存预算。实验表明,AhaKV成功地减轻了偏差,并在全局上下文中保留了关键标记,在多个基准任务中相较于其他相关工作取得了最先进的结果。 |
[54] 填空数学:通过学习填补方程来提高语言模型的数学推理能力 标题: ClozeMath: Improving Mathematical Reasoning in Language Models by Learning to Fill Equations 作者: Quang Hieu Pham / Thuy Duong Nguyen / Tung Pham / Anh Tuan Luu / Dat Quoc Nguyen 原文: [英文] 备注: Accepted to ACL 2025 Findings 摘要: 大型语言模型(LLMs)的能力通过训练反映人类思维过程的数据(如链式思维格式)得到了增强。然而,有证据表明,传统的下一个词预测方案可能无法完全捕捉人类学习思考的方式。受人类推广数学推理方式的启发,我们提出了一种名为ClozeMath的新方法,用于微调LLMs以进行数学推理。我们的ClozeMath涉及一个文本填充任务,该任务从给定的解决方案中预测被遮蔽的方程,类似于人类学习中使用的完形填空练习。在GSM8K、MATH和GSM-Symbolic上的实验表明,ClozeMath在性能和鲁棒性上超过了强基线Masked Thought,并使用了两种测试时扩展解码算法:束搜索和链式思维解码。此外,我们进行了消融研究,以分析各种架构和实现选择对我们方法的影响。 |
[55] 统一均匀量化和二进制编码量化以精确压缩大型语言模型 标题: Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models 作者: Seungcheol Park / Jeongin Bae / Beomseok Kwon / Minjun Kim / Byeongwook Kim / Se Jung Kwon / U Kang / Dongsoo Lee 原文: [英文] [中文] 备注: ACL 2025 Main Track 摘要: 我们如何在保持准确性的同时对大型语言模型进行量化?量化对于高效部署大型语言模型(LLMs)至关重要。二进制编码量化(BCQ)和均匀量化(UQ)是两种有前景的量化方案,分别具有强大的表达能力和可优化性。然而,这两种方案都没有同时利用这两个优势。在本文中,我们提出了UniQuanF(具有灵活映射的统一量化),这是一种针对LLMs的精确量化方法。UniQuanF通过统一UQ中的灵活映射技术和BCQ的非均匀量化级别,结合了强大的表达能力和可优化性。我们提出了统一初始化,以及局部和周期性映射技术,以精确优化UniQuanF中的参数。优化后,我们的统一定理消除了计算和内存开销,使我们能够在不增加因统一而产生的额外部署成本的情况下,利用UniQuanF的卓越准确性。实验结果表明,UniQuanF优于现有的UQ和BCQ方法,在GSM8K基准测试中实现了高达4.60%的准确性提升。 |
[56] 击败大语言模型评估:通过迭代成对比较使用大型语言模型进行评估 标题: Knockout LLM Assessment: Using Large Language Models for Evaluations through Iterative Pairwise Comparisons 作者: Isik Baran Sandan / Tu Anh Dinh / Jan Niehues 原文: [英文] [中文] 备注: 4 pages, 2 figures 摘要: 大型语言模型(LLMs)已被证明在诸如机器翻译或科学领域等多个领域中是有效的评估者。目前的LLM-as-a-Judge方法主要依赖于个体评估或单轮的成对评估,这限制了评估LLM形成全局排名视角。为了解决这个问题,我们提出了淘汰评估,这是一种使用淘汰赛系统进行迭代成对比较的LLM-as-a-Judge方法。在三个LLM和两个数据集上的实验表明,淘汰评估提高了评分准确性,使得大学水平考试评分和机器翻译评估的皮尔逊相关系数与专家评估的平均值提高了0.07,使LLM评估与人类评分更加一致。 |
[57] 注意我的话:一种用于文本和语音转录中标点符号的强大多语言模型 标题: Mark My Words: A Robust Multilingual Model for Punctuation in Text and Speech Transcripts 作者: Sidharth Pulipaka / Sparsh Jain / Ashwin Sankar / Raj Dabre 原文: [英文] [中文] 备注: Work in Progress 摘要: 标点符号在构建意义方面起着至关重要的作用,但当前的模型在恢复自发性语音转录中的标点符号时常常表现不佳,尤其是在存在如错误启动和回溯等不流利现象时。这些限制阻碍了下游任务的表现,如翻译、语音合成、摘要等,其中句子边界对于保持质量至关重要。在这项工作中,我们介绍了Cadence,这是一种从预训练的大型语言模型中改编而来的通用标点恢复模型。Cadence被设计用于处理既有干净书面文本又有高度自发的口语转录。它在性能上超越了之前的最先进技术,同时将支持的语言从14种扩展到包括所有22种印度语言和英语。我们对模型在不同标点类型和语言家族中的行为进行了全面分析,识别出在领域转移和罕见标点符号下的持续挑战。我们的研究结果证明了利用预训练语言模型进行多语言标点恢复的有效性,并强调了Cadence在大规模低资源自然语言处理管道中的实际价值。 |
[58] 豪萨语文本中写作异常的自动校正 标题: Automatic Correction of Writing Anomalies in Hausa Texts 作者: Ahmad Mustapha Wali / Sergiu Nisioi 原文: [英文] 备注: None 摘要: 豪萨语文本通常存在书写异常,如字符替换错误和空格错误,这些问题有时会阻碍自然语言处理(NLP)应用。本文提出了一种通过微调基于变压器的模型来自动纠正这些异常的方法。我们使用从多个公共来源收集的语料库,通过引入合成生成的噪声,创建了一个包含超过45万对噪声-清洁豪萨语句子的平行数据集,微调以模拟真实的书写错误。此外,我们调整了几种多语言和专注于非洲语言的模型,包括M2M100、AfriTEVA、mBART和Opus-MT变体,使用SentencePiece分词进行此纠错任务。我们的实验结果显示F1、BLEU和METEOR分数显著提高,同时字符错误率(CER)和词错误率(WER)有所降低。这项研究提供了一种稳健的方法论、一个公开可用的数据集和有效的模型,以提高豪萨语文本质量,从而提升该语言的NLP能力,并为其他低资源语言提供可转移的见解。 |
[59] CRAWLDoc:用于文献文档稳健排序的数据集 标题: CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents 作者: Fabian Karl / Ansgar Scherp 原文: [英文] 备注: Accepted at SCOLIA 2025 摘要: 出版物数据库依赖于从各种网络来源中准确提取元数据,但网页布局和数据格式的多样性给元数据提供者带来了挑战。本文介绍了CRAWLDoc,这是一种用于链接网页文档的上下文排序的新方法。CRAWLDoc从出版物的URL(如数字对象标识符)开始,检索登录页面和所有链接的网络资源,包括PDF、ORCID个人资料和补充材料。它将这些资源与锚文本和URL一起嵌入到一个统一的表示中。为了评估CRAWLDoc,我们创建了一个新的手动标记的数据集,该数据集包含来自计算机科学领域六大顶级出版商的600篇出版物。我们的CRAWLDoc方法在跨出版商和数据格式的相关文档排序中表现出强大的、与布局无关的能力。它为从具有各种布局和格式的网页文档中改进元数据提取奠定了基础。我们的源代码和数据集可以在这个https URL中访问。 |
[60] 用于电商搜索广告的多目标对齐关键词生成模型 标题: Multi-objective Aligned Bidword Generation Model for E-commerce Search Advertising 作者: Zhenhui Liu / Chunyuan Yuan / Ming Pang / Zheng Fang / Li Yuan / Xue Jiang / Changping Peng / Zhangang Lin / Zheng Luo / Jingping Shao 原文: [英文] [中文] 备注: Accepted by SIGIR2025 摘要: 检索系统主要解决将用户查询与最相关的广告匹配的问题,在电子商务搜索广告中发挥着至关重要的作用。用户需求和表达的多样性常常产生大量长尾查询,这些查询无法与商家竞价词或产品标题匹配,导致一些广告未被召回,最终损害用户体验和搜索效率。现有的查询重写研究集中于各种方法,如查询日志挖掘、查询与竞价词向量匹配或基于生成的重写。然而,这些方法往往无法同时优化用户原始查询和重写的相关性和真实性,并最大化召回广告的收入潜力。 在本文中,我们提出了一种多目标对齐竞价词生成模型(MoBGM),该模型由鉴别器、生成器和偏好对齐模块组成,以应对这些挑战。为了同时提高查询和重写的相关性和真实性,并最大化平台收入,我们设计了一个鉴别器来优化这些关键目标。利用鉴别器的反馈信号,我们训练了一个多目标对齐的竞价词生成器,旨在最大化三个目标的综合效果。大量的离线和在线实验表明,我们提出的算法显著优于现有技术。在部署后,该算法为平台创造了巨大的商业价值,进一步验证了其可行性和稳健性。 |
[61] 脑调谐语音模型更好地反映大脑中的语音处理阶段 标题: Brain-tuned Speech Models Better Reflect Speech Processing Stages in the Brain 作者: Omer Moussa / Mariya Toneva 原文: [英文] [中文] 备注: Proceedings of Interspeech 2025 摘要: 预训练的自监督语音模型在语音任务中表现出色,但它们并未反映人类语音处理的层次结构,因为它们在中间层编码了丰富的语义,而在后期层则编码了较差的语义。最近的研究表明,脑调优(使用人类大脑记录微调模型)可以提高语音模型的语义理解能力。在此,我们研究了脑调优模型在多大程度上进一步反映了大脑语音处理的中间阶段。我们发现,脑调优模型的后期层在与语义语言区域的对齐方面大大优于预训练模型。进一步的逐层探查显示,早期层仍然专注于低级声学特征,而后期层在复杂的高级任务中表现最佳。这些发现表明,脑调优模型不仅表现更好,而且展示了从声学到语义表示的明确的层次处理,使它们成为人类语音处理的更好模型生物体。 |
[62] PulseReddit:用于基准测试高频加密货币交易中的多智能体系统的新型Reddit数据集 标题: PulseReddit: A Novel Reddit Dataset for Benchmarking MAS in High-Frequency Cryptocurrency Trading 作者: Qiuhan Han / Qian Wang / Atsushi Yoshikawa / Masayuki Yamamura 原文: [英文] [中文] 备注: None 摘要: 高频交易(HFT)在加密货币市场中起着关键作用,需要快速决策。像Reddit这样的社交媒体平台提供了有价值但尚未充分探索的信息,适用于这种高频、短期交易。本文介绍了\textbf{PulseReddit},这是一个新颖的数据集,首次将大规模Reddit讨论数据与高频加密货币市场统计数据对齐,用于短期交易分析。我们使用基于大型语言模型(LLM)的多智能体系统(MAS)进行了广泛的实证研究,以调查PulseReddit的社会情绪对交易表现的影响。我们的实验得出结论,结合PulseReddit数据的MAS在交易结果上优于传统基准,特别是在牛市中,并展示了在不同市场环境中的强大适应性。此外,我们的研究提供了关于不同LLM的性能-效率权衡的结论性见解,详细说明了HFT应用中实际模型选择的重要考虑因素。PulseReddit和我们的研究结果为HFT中高级MAS研究奠定了基础,展示了整合社交媒体的实际好处。 |
[63] EuroGEST:研究多语言语言模型中的性别刻板印象 标题: EuroGEST: Investigating gender stereotypes in multilingual language models 作者: Jacqueline Rowe / Mateusz Klimaszewski / Liane Guillou / Shannon Vallor / Alexandra Birch 原文: [英文] [中文] 备注: 8 pages, 6 figures, 1 table 摘要: 大型语言模型越来越多地支持多种语言,但大多数性别偏见的基准仍然以英语为中心。我们引入了EuroGEST,这是一个旨在衡量大型语言模型在英语和29种欧洲语言中性别刻板印象推理的数据集。EuroGEST基于现有的专家知情基准,涵盖16种性别刻板印象,并在本研究中通过翻译工具、质量评估指标和形态启发法进行了扩展。人工评估证实,我们的数据生成方法在各语言中的翻译和性别标签的准确性都很高。我们使用EuroGEST评估了来自六个模型家族的24个多语言语言模型,结果表明在所有模型和所有语言中,最强烈的刻板印象是女性被认为是“美丽的”、“有同情心的”和“整洁的”,而男性被认为是“领导者”、“强壮、坚韧的”和“专业的”。我们还表明,较大的模型更强烈地编码了性别刻板印象,并且指令微调并不总是能一致地减少性别刻板印象。我们的工作强调了需要更多关于大型语言模型公平性的多语言研究,并提供了可扩展的方法和资源来审计跨语言的性别偏见。 |
[64] RadialRouter:高效且稳健的大型语言模型路由的结构化表示 标题: RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing 作者: Ruihan Jin / Pengpeng Shao / Zhengqi Wen / Jinyang Wu / Mingkuan Feng / Shuai Zhang / Jianhua Tao 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的快速发展催生了路由技术,其目的是从众多候选模型中高效选择最优的LLM来处理特定任务,从而在优化性能的同时降低成本。目前的LLM路由方法由于未充分探索用户查询与LLM特性之间的内在联系,效果有限。为了解决这一问题,本文提出了RadialRouter,这是一种用于LLM路由的新框架。该框架采用了一种名为RadialFormer的轻量级基于Transformer的径向结构骨干网络来阐明查询与LLM之间的关系。最优的LLM选择是基于RadialFormer的最终状态进行的。该流程通过一个结合了Kullback-Leibler散度和查询-查询对比损失的目标函数进一步优化,以增强鲁棒性。在RouterBench上的实验结果表明,RadialRouter在平衡和成本优先场景中分别比现有路由方法高出9.2%和5.8%。此外,其对不同性能-成本权衡的适应性以及动态LLM池的能力展示了其实际应用潜力。 |
[65] 语音中的亲缘关系:利用语言相关性实现印度语言的零样本语音合成 标题: Kinship in Speech: Leveraging Linguistic Relatedness for Zero-Shot TTS in Indian Languages 作者: Utkarsh Pathak / Chandra Sai Krishna Gunda / Anusha Prakash / Keshav Agarwal / Hema A. Murthy 原文: [英文] 备注: Accepted at INTERSPEECH 2025 摘要: 语音合成(TTS)系统通常需要高质量的录音数据和准确的转录文本进行训练。印度有1369种语言,其中22种为官方语言,使用13种文字。为所有这些语言训练一个TTS系统,尤其是大多数没有数字资源的语言,似乎是一项艰巨的任务。我们的工作重点是零样本合成,特别是针对那些文字和音系来自不同语系的语言。我们工作的创新之处在于增强了共享音素表示,并修改了文本解析规则以匹配目标语言的音系,从而减少了合成器的负担并实现快速适应。通过利用语言之间的语言学联系和合适的合成器,我们为梵语、马哈拉施特拉和卡纳拉孔卡尼语、迈蒂利语和库鲁克语生成了可理解且自然的语音。评估结果证实了这种方法的有效性,突显了其扩展语音技术在代表性不足语言中的潜力。 |
[66] Pre$^3$: 通过确定性下推自动机加速结构化大语言模型生成 标题: Pre$^3$: Enabling Deterministic Pushdown Automata for Faster Structured LLM Generation 作者: Junyi Chen / Shihao Bai / Zaijun Wang / Siyu Wu / Chuheng Du / Hailong Yang / Ruihao Gong / Shengzhong Liu / Fan Wu / Guihai Chen 原文: [英文] [中文] 备注: Published as a conference paper at ACL 2025 摘要: 广泛的LLM应用需要高效的结构化生成,特别是对于LR(1)文法,以生成指定格式的输出(例如JSON)。现有方法主要将LR(1)文法解析为下推自动机(PDA),这导致在运行时执行时,由于上下文相关的标记处理而产生开销,尤其是在大规模推理批次下效率低下。为了解决这些问题,我们提出了Pre$^3$,它利用确定性下推自动机(DPDA)来优化受限的LLM解码效率。首先,通过在预处理中预计算前缀条件边,Pre$^3$实现了提前的边分析,从而使并行转换处理成为可能。其次,通过利用前缀条件边,Pre$^3$引入了一种新方法,将LR(1)转换图转化为DPDA,消除了运行时路径探索的需要,并以最小的开销实现边转换。Pre$^3$可以无缝集成到标准的LLM推理框架中,在我们的实验中,将每个输出标记的时间(TPOT)减少了多达40%,吞吐量提高了多达36%。我们的代码可在此https URL获取。 |
[67] 魔法蘑菇:用于细粒度分析RAG系统中检索噪声侵蚀的可定制基准 标题: Magic Mushroom: A Customizable Benchmark for Fine-grained Analysis of Retrieval Noise Erosion in RAG Systems 作者: Yuxin Zhang / Yan Wang / Yongrui Chen / Shenyu Zhang / Xinbang Dai / Sheng Bi / Guilin Qi 原文: [英文] [中文] 备注: None 摘要: 检索增强生成(RAG)系统通过结合外部检索信息来增强大型语言模型(LLM),从而缓解幻觉和知识过时等问题。然而,RAG 系统对现实场景中普遍存在的检索噪声极为敏感。现有的基准测试未能模拟现实检索环境中遇到的复杂和异质的噪声分布,从而削弱了可靠的鲁棒性评估。在本文中,我们基于语言特性和噪声特征定义了四类检索噪声,旨在反映现实场景中噪声的异质性。在此基础上,我们引入了 Magic Mushroom,这是一个用于复制“魔法蘑菇”噪声的基准:这些上下文表面上看似相关,但暗中误导 RAG 系统。Magic Mushroom 包含 7,468 个单跳和 3,925 个多跳问答对。更重要的是,Magic Mushroom 使研究人员能够根据特定的研究目标或应用场景灵活配置检索噪声的组合,从而实现高度可控的评估设置。我们在多种噪声分布下评估了不同参数规模的 LLM 生成器和经典的 RAG 去噪策略,以研究它们在噪声逐步侵入过程中的性能动态。我们的分析表明,生成器和去噪策略都有显著的改进空间,并且对噪声分布表现出极端的敏感性。Magic Mushroom 成为评估和推进噪声鲁棒 RAG 系统的有前途的工具,加速其在现实应用中的广泛部署。Magic Mushroom 基准可在此 https URL 获取。 |
[68] 信息轮廓的谐波结构 标题: The Harmonic Structure of Information Contours 作者: Eleftheria Tsipidi / Samuel Kiegeland / Franz Nowak / Tianyang Xu / Ethan Wilcox / Alex Warstadt / Ryan Cotterell / Mario Giulianelli 原文: [英文] [中文] 备注: ACL 2025 (main conference) 摘要: 均匀信息密度(UID)假设提出,说话者旨在在文本中均匀分布信息,以平衡生产努力和听者理解难度。然而,语言通常不会保持严格的均匀信息率;相反,它围绕一个全局平均值波动。这些波动通常可以通过句法限制、风格选择或受众设计等因素来解释。在这项工作中,我们探索了一种替代视角:这些波动可能受到隐含的语言压力趋向于周期性的影响,其中信息率以规则的间隔振荡,可能同时跨越多个频率。我们应用谐波回归并引入一种称为时间缩放的新扩展,以检测和测试信息轮廓中的这种周期性。通过分析英语、西班牙语、德语、荷兰语、巴斯克语和巴西葡萄牙语的文本,我们发现信息率中存在周期模式的一致证据。许多主导频率与话语结构一致,表明这些振荡反映了有意义的语言组织。除了强调信息率与话语结构之间的联系外,我们的方法还提供了一个通用框架,用于揭示不同语言粒度水平的结构压力。 |
[69] 当公平性不再是统计问题:机器学习在评估法律推理中的局限性 标题: When Fairness Isn't Statistical: The Limits of Machine Learning in Evaluating Legal Reasoning 作者: Claire Barale / Michael Rovatsos / Nehal Bhuta 原文: [英文] [中文] 备注: Preprint 摘要: 法律决策越来越多地使用机器学习(ML)技术来评估其公平性、一致性和偏见。在难民裁决等高风险领域,这些方法通常用于检测结果中的差异。然而,尚不清楚统计方法是否能够在由自由裁量权、规范复杂性和有限的真实情况所塑造的法律背景中有意义地评估公平性。 在本文中,我们对三种常见的机器学习方法(基于特征的分析、语义聚类和预测建模)进行了实证评估,使用了一个包含59,000多个加拿大难民决策(AsyLex)的大型真实数据集。我们的实验表明,这些方法产生了不同且有时相互矛盾的信号,预测建模通常依赖于上下文和程序特征而非法律特征,而语义聚类未能捕捉实质性的法律推理。 我们展示了统计公平性评估的局限性,质疑统计规律性等同于公平性的假设,并认为当前的计算方法无法在法律自由裁量领域中有效评估公平性。我们主张,法律中的公平性评估需要不仅基于数据,还需要基于法律推理和制度背景的方法。 |
[70] 可解释的仇恨言论检测的组合泛化 标题: Compositional Generalisation for Explainable Hate Speech Detection 作者: Agostina Calabrese / Tom Sherborne / Björn Ross / Mirella Lapata 原文: [英文] 备注: None 摘要: 仇恨言论检测是在线内容审核的关键,但当前的模型在超出其训练数据的情况下难以推广。这与数据集偏差和使用句子级标签有关,这些标签未能教会模型仇恨言论的基本结构。在这项工作中,我们展示了即使模型使用更细粒度的、跨度级别的注释进行训练(例如,将“艺术家”标记为目标,将“是寄生虫”标记为非人化比较),它们仍然难以将这些标签的含义与周围的上下文区分开来。因此,偏离训练期间所见表达组合的情况对模型来说仍然特别难以检测。我们研究了在一个表达在所有上下文中以相同频率出现的数据集上进行训练是否可以改善泛化。为此,我们创建了U-PLEAD,一个包含约364,000个合成帖子的数据库,以及一个包含约8,000个手动验证帖子的全新组合泛化基准。在U-PLEAD和真实数据的组合上进行训练可以改善组合泛化,同时在由人类提供的PLEAD上实现最先进的性能。 |
[71] HSSBench:多模态大型语言模型的人文与社会科学能力基准测试 标题: HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models 作者: Zhaolu Kang / Junhao Gong / Jiaxu Yan / Wanke Xia / Yian Wang / Ziwen Wang / Huaxuan Ding / Zhuo Cheng / Wenhao Cao / Zhiyuan Feng / Siqi He / Shannan Yan / Junzhe Chen / Xiaomin He / Chaoya Jiang / Wei Ye / Kaidong Yu / Xuelong Li 原文: [英文] [中文] 备注: None 摘要: 多模态大型语言模型(MLLMs)在推动广泛领域方面展现了显著潜力。然而,目前用于评估MLLMs的基准测试主要强调一般知识和典型于STEM学科的垂直逐步推理,而忽视了人文学科和社会科学(HSS)的独特需求和潜力。HSS领域的任务需要更多水平的、跨学科的思维,以及跨相关领域知识的深度整合,这对MLLMs提出了独特的挑战,特别是在将抽象概念与相应的视觉表现联系起来方面。为了解决这一差距,我们提出了HSSBench,一个专门设计的基准测试,用于评估MLLMs在多种语言下的HSS任务能力,包括联合国的六种官方语言。我们还介绍了一种针对HSS场景的新数据生成流程,其中多个领域专家和自动化代理协作生成并迭代优化每个样本。HSSBench包含超过13,000个精心设计的样本,涵盖六个关键类别。我们在HSSBench上对超过20个主流MLLMs进行了基准测试,并证明即使是最先进的模型也面临显著挑战。我们希望这个基准测试能够激发进一步的研究,以增强MLLMs的跨学科推理能力,特别是其内化和连接跨领域知识的能力。 |
[72] 或多或少的错误:用于大型语言模型比较推理中方向性偏差的基准 标题: More or Less Wrong: A Benchmark for Directional Bias in LLM Comparative Reasoning 作者: Mohammadamin Shafiei / Hamidreza Saffari / Nafise Sadat Moosavi 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)已知对输入措辞很敏感,但语义线索如何影响推理的机制仍然知之甚少。我们在具有客观真实答案的比较数学问题的背景下研究这一现象,揭示了一种一致且有方向性的框架偏差:逻辑上等价的问题中包含“更多”、“更少”或“相等”这些词语,会系统性地将预测引导至框架术语的方向。为了研究这一效应,我们引入了MathComp,这是一个包含300个比较场景的受控基准,每个场景在三个LLM家族中通过14种提示变体进行评估。我们发现,模型错误经常反映出语言引导,提示中存在的比较术语导致系统性偏移。链式思维提示可以减少这些偏差,但其效果各异:自由形式的推理更为稳健,而结构化格式可能会保留或重新引入方向性偏移。最后,我们展示了在输入场景中包含人口身份术语(例如,“一个女人”、“一个黑人”)会放大方向性偏移,尽管基础数量相同,这突显了语义框架与社会参照之间的相互作用。这些发现揭示了标准评估中的关键盲点,并激励我们开发框架感知的基准,以诊断LLMs推理的稳健性和公平性。 |
[73] 悬而未决:危机咨询对话中的关键时刻 标题: Hanging in the Balance: Pivotal Moments in Crisis Counseling Conversations 作者: Vivian Nguyen / Lillian Lee / Cristian Danescu-Niculescu-Mizil 原文: [英文] [中文] 备注: To appear in the Proceedings of ACL 2025. Code and demo available in ConvoKit (this http URL) 摘要: 在对话过程中,可能会出现某些关键时刻,其结果悬而未决。在这些关键时刻,如何回应可能会使对话走上截然不同的轨迹,导致显著不同的结果。能够检测到此类时刻的系统可以在结果高度重要的领域中帮助对话者,例如心理健康危机咨询。在这项工作中,我们介绍了一种无监督的计算方法,用于在线检测此类关键时刻。我们的方法基于这样的直觉:如果对结果的预期因接下来可能说的话而大幅变化,那么这一时刻就是关键的。通过将我们的方法应用于危机咨询对话,我们首先验证了它与人类感知的一致性——在我们的方法检测到的时刻,咨询师的回应时间显著更长——以及与最终对话轨迹的一致性——在这些时刻对话更有可能改变方向。然后,我们利用我们的框架来探索咨询师在关键时刻的回应与会话最终结果之间的关系。 |
[74] TableEval:一个用于复杂、多语言和多结构表格问答的真实世界基准 标题: TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering 作者: Junnan Zhu / Jingyi Wang / Bohan Yu / Xiaoyu Wu / Junbo Li / Lei Wang / Nan Xu 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在自然语言处理方面展现了令人印象深刻的进展。然而,它们在表格问答(TableQA)中仍面临重大挑战,尤其是在处理真实世界的复杂性时,如多样的表格结构、多语言数据和特定领域的推理。现有的TableQA基准测试通常局限于简单的平面表格,并且存在数据泄漏的问题。此外,大多数基准测试是单一语言的,未能捕捉实际应用中的跨语言和跨领域的多样性。为了解决这些限制,我们引入了TableEval,这是一个新的基准测试,旨在评估LLMs在真实TableQA任务中的表现。具体而言,TableEval包括从四个领域(包括政府、金融、学术和行业报告)收集的具有各种结构(如简洁、层次和嵌套表格)的表格。此外,TableEval具有跨语言场景,包含简体中文、繁体中文和英文的表格。为了最大限度地减少数据泄漏的风险,我们从最近的真实世界文档中收集所有数据。考虑到现有的TableQA指标未能捕捉语义准确性,我们进一步提出了SEAT,这是一种新的评估框架,用于评估模型响应与参考答案在子问题层面的对齐情况。实验结果表明,SEAT与人工判断具有高度一致性。在TableEval上的广泛实验揭示了最先进的LLMs在处理这些复杂的真实世界TableQA任务时的关键差距,为未来的改进提供了见解。我们在此提供我们的数据集:此https URL。 |
[75] 从真实到合成:通过属性基础合成数百万多样化和复杂的用户指令 标题: From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding 作者: Chiwei Zhu / Benfeng Xu / Xiaorui Wang / Zhendong Mao 原文: [英文] [中文] 备注: To be published at ACL 2025 摘要: 追求多样化、复杂且大规模的指令数据对于自动对齐大型语言模型(LLMs)至关重要。虽然有一些方法能够大规模生成合成指令,但它们要么受限于有限的基础来源,导致分布狭窄,要么依赖于琐碎的扩展,无法在复杂性方面产生有意义的轨迹。相比之下,有效对齐的指令通常是通过认知洞察精心设计的,并以真实世界的用例为基础。在本文中,我们使用属性基础合成了这样的指令,其中包括1)一个自上而下的归因过程,将一组精选的真实指令定位到特定用户,以及2)一个自下而上的合成过程,利用网络文档首先生成一个情境,然后生成一个有意义的指令。该框架使我们能够利用广泛的网络文档大规模收集多样且复杂的指令。具体来说,我们构建了一个包含100万条指令的数据集,称为SynthQuestions,并证明在此基础上训练的模型在几个常见基准上取得了领先的性能,且随着更多网络语料的加入,性能持续提升。数据、模型和代码将在此https URL上提供。 |
[76] 用于多样化最佳N推理优化的结构化剪枝 标题: Structured Pruning for Diverse Best-of-N Reasoning Optimization 作者: Hieu Trung Nguyen / Bao Nguyen / Viet Anh Nguyen 原文: [英文] 备注: Accepted to ACL 2025 摘要: 在基于变压器的语言模型中,模型剪枝传统上被视为实现计算节省的一种手段,但它也可以增强模型的推理能力。在这项工作中,我们发现了一个令人惊讶的现象:选择性地剪枝某些注意力头可以提高推理性能,尤其是在具有挑战性的任务上。受这一观察的启发,我们提出了SPRINT,这是一种新颖的对比学习框架,可以在推理过程中动态选择最佳的头和层进行剪枝。通过将问题嵌入与头嵌入对齐,SPRINT能够识别出那些导致更准确推理的剪枝头配置。大量实验表明,我们的方法在MATH500和GSM8K数据集上显著优于传统的最佳N选择和随机头选择策略。 |
[77] 具有多模态编码器的语音活动投影模型 标题: Voice Activity Projection Model with Multimodal Encoders 作者: Takeshi Saga / Catherine Pelachaud 原文: [英文] [中文] 备注: None 摘要: 轮流管理对于任何社会互动都是至关重要的。然而,由于社会环境的复杂性及其多模态特性,建模人机交互仍然具有挑战性。与基于静音时长的传统系统不同,先前已有的语音活动预测(VAP)模型成功地利用了轮流行为的统一表示作为预测目标,从而提高了轮流预测的性能。最近,一个多模态VAP模型以显著的优势超越了之前的最先进模型。在本文中,我们提出了一种通过预训练的音频和面部编码器增强的多模态模型,以通过捕捉细微的表情来提高性能。我们的模型在轮流指标上表现出色,在某些情况下甚至优于最先进的模型。所有源代码和预训练模型都可以在这个HTTPS URL上获得。 |
[78] 环游世界24小时:探究大型语言模型对时间和地点的认知 标题: Around the World in 24 Hours: Probing LLM Knowledge of Time and Place 作者: Carolin Holtermann / Paul Röttger / Anne Lauscher 原文: [英文] [中文] 备注: None 摘要: 在时间和空间上进行推理对于理解我们的世界至关重要。然而,语言模型在这方面的能力尚未被充分探索,因为之前的研究仅在孤立的时间和空间逻辑推理或简单或人工环境中测试了它们的能力。在本文中,我们首次评估了语言模型在时间和空间上联合推理的能力。为了进行分析,我们创建了GeoTemp,一个包含320k提示的数据集,覆盖了217个国家的289个城市和37个时区。利用GeoTemp,我们评估了三个不同模型家族的八个开放聊天模型在不同时间和地理知识组合上的表现。我们发现,大多数模型在仅涉及时间知识的推理任务中表现良好,并且整体表现随着规模的扩大而提高。然而,在需要连接时间和地理信息的任务中,表现仍然受到限制。我们没有发现表现与特定地理区域之间的明显相关性。相反,我们发现对于模型困惑度较低的地点名称,表现显著提高,这表明这些名称在模型训练期间反复出现。我们进一步证明,它们的表现受到提示形式的显著影响——直接注入地理知识会带来性能提升,而令人惊讶的是,像链式思维提示这样的技术在较简单的任务中反而降低了性能。 |
[79] 使用长上下文语言模型增强检索生成的更强基线 标题: Stronger Baselines for Retrieval-Augmented Generation with Long-Context Language Models 作者: Alex Laitenberger / Christopher D. Manning / Nelson F. Liu 原文: [英文] [中文] 备注: 10 pages, 5 figures, for associated source code, see this https URL 摘要: 随着能够在一次处理数万个标记的长上下文语言模型(LMs)的兴起,多阶段检索增强生成(RAG)管道是否仍然比更简单的单阶段方法提供可衡量的优势?为了解答这个问题,我们在系统扩展的标记预算下对问答任务进行了对照评估,比较了两个最近的多阶段管道,ReadAgent 和 RAPTOR,与包括 DOS RAG(文档原始结构 RAG)在内的三个基线方法。DOS RAG 是一种简单的检索后阅读方法,保留了原始段落的顺序。尽管设计简单,DOS RAG 在多个长上下文问答基准上始终与更复杂的方法相匹敌或表现更佳。我们建议将 DOS RAG 作为未来 RAG 评估的一个简单但强大的基线,并将其与新兴的嵌入和语言模型结合使用,以评估随着模型能力的发展,复杂性与有效性之间的权衡。 |
[80] DynTok:视觉标记的动态压缩以实现高效和有效的视频理解 标题: DynTok: Dynamic Compression of Visual Tokens for Efficient and Effective Video Understanding 作者: Hongzhi Zhang / Jingyuan Zhang / Xingguang Ji / Qi Wang / Fuzheng Zhang 原文: [英文] 备注: None 摘要: 典型的视频建模方法,如LLava,将视频表示为视觉标记序列,然后由大型语言模型(LLM)主干进行处理,以实现有效的视频理解。然而,这种方法会导致大量的视觉标记,特别是对于较长的视频。一个实用的解决方案是首先从大量的视觉上下文中提取相关的视觉信息,然后再将其输入到LLM主干中,从而减少计算开销。在这项工作中,我们介绍了DynTok,一种新颖的动态视频标记压缩策略。DynTok自适应地将视觉标记分成组,并在每个组内合并它们,在信息密度低的区域实现高压缩,同时保留必要的内容。我们的方法将标记数量减少到原始大小的44.4%,同时保持了可比的性能。通过增加视频帧的数量,它在Video-MME上达到了65.3%的表现,在MLVU上达到了72.5%。通过应用这种简单而有效的压缩方法,我们揭示了视频标记表示中的冗余,并为设计更高效的视频建模技术提供了见解。 |
[81] 温暖之词:超过26,000个英语词汇的信任和社交规范 标题: Words of Warmth: Trust and Sociability Norms for over 26k English Words 作者: Saif M. Mohammad 原文: [英文] [中文] 备注: In Proceedings of ACL 2025 Main 摘要: 社会心理学家已经表明,温暖(W)和能力(C)是我们评估他人和群体的主要维度。这些维度影响我们生活的各个方面,从社交能力和情绪调节到职场成功以及我们如何看待世界。最近的研究开始探讨这些维度如何发展、为何发展以及它们的构成。特别值得注意的是,研究发现温暖有两个不同的组成部分:信任(T)和社交性(S)。在这项研究中,我们介绍了“温暖词汇”,这是第一个大规模的手动推导的词语-温暖(以及词语-信任和词语-社交性)关联库,涵盖了超过26,000个英语单词。我们证明了这些关联具有高度可靠性。我们利用这些词汇表研究了儿童随年龄增长获取WCTS词汇的速度。最后,我们展示了该词汇表通过对各种目标实体的案例研究,能够支持多种偏见和刻板印象研究。“温暖词汇”可在以下网址免费获取:this http URL |
[82] 看见美味:重访十亿参数时代的多模态分布式语义 标题: Seeing What Tastes Good: Revisiting Multimodal Distributional Semantics in the Billion Parameter Era 作者: Dan Oneata / Desmond Elliott / Stella Frank 原文: [英文] [中文] 备注: ACL Findings 2025 摘要: 人类的学习和概念表征是基于感觉运动经验的,这与当前最先进的基础模型形成对比。在本文中,我们研究了这些在大量数据上训练的大规模模型在多大程度上能够表示具体物体概念的语义特征规范,例如,玫瑰是红色的,闻起来很香,是一种花。更具体地说,我们使用探测任务来测试这些模型对物体的哪些属性有所了解。我们评估了仅在图像数据上训练的图像编码器、多模态训练的图像编码器以及仅语言模型在预测经典McRae规范的扩展密集版本和较新的Binder属性评分数据集上的表现。我们发现,多模态图像编码器略微优于仅语言的方法,而仅图像编码器在“百科全书”或“功能”等非视觉属性上表现与语言模型相当。这些结果为从纯单模态学习中可以学到什么以及模态的互补性提供了新的见解。 |
[83] QQSUM:一种用于基于评论的产品问答的定量查询聚焦摘要的新任务和模型 标题: QQSUM: A Novel Task and Model of Quantitative Query-Focused Summarization for Review-based Product Question Answering 作者: An Quang Tang / Xiuzhen Zhang / Minh Ngoc Dinh / Zhuang Li 原文: [英文] [中文] 备注: Paper accepted to ACL 2025 Main Conference 摘要: 基于评论的产品问答(PQA)使电子商务平台能够通过利用用户评论中的见解自动解决客户查询。然而,现有的PQA系统生成的答案仅具有单一视角,未能捕捉到客户意见的多样性。在本文中,我们引入了一项新任务——定量查询聚焦摘要(QQSUM),旨在将多样化的客户意见总结为具有代表性的关键点(KPs),并量化其普遍性以有效回答用户查询。虽然检索增强生成(RAG)在PQA中显示出潜力,但其生成的答案仍未能完全捕捉到观点的多样性。为了解决这一挑战,我们的模型QQSUM-RAG扩展了RAG,采用少样本学习来联合训练一个面向KP的检索器和一个KP摘要生成器,从而实现基于KP的摘要,捕捉多样且具有代表性的意见。实验结果表明,QQSUM-RAG在文本质量和意见量化准确性方面均优于最先进的RAG基线。我们的源代码可在此URL获取:this https URL |
[84] 用于会话式患者分诊的人工智能代理:基于真实世界电子健康记录数据的初步模拟评估 标题: AI Agents for Conversational Patient Triage: Preliminary Simulation-Based Evaluation with Real-World EHR Data 作者: Sina Rashidian / Nan Li / Jonathan Amar / Jong Ha Lee / Sam Pugh / Eric Yang / Geoff Masterson / Myoung Cha / Yugang Jia / Akhil Vaid 原文: [英文] [中文] 备注: None 摘要: 背景:我们提出了一种患者模拟器,该模拟器利用涵盖广泛病症和症状的真实患者就诊记录,为医疗代理模型的开发和测试提供合成测试对象。该模拟器提供了一种逼真的患者呈现方式,并与症状检查代理进行多轮对话。目标:(1) 构建和实例化一个患者模拟器,以基于从真实电子健康记录(EHR)数据中提取的患者小插图来训练和测试人工智能健康代理。(2) 测试患者模拟器提供的模拟就诊与人类临床专家的有效性和一致性。(3) 展示此类大型语言模型系统在生成的逼真、数据驱动的模拟上的评估框架,从而对我们提出的系统进行初步评估。方法:我们首先通过从真实世界的EHR就诊记录中提取患者小插图来构建逼真的临床场景。这些小插图涵盖了各种呈现症状和潜在病症。然后,我们评估了患者模拟器在超过500个不同患者小插图中作为真实患者就诊模拟的表现。我们利用一个独立的人工智能代理提供多轮问题,以获取现病史。两位专家临床医生对生成的多轮对话进行了评估。结果:临床医生在97.7%的案例中评分认为患者模拟器与患者小插图一致。基于对话历史提取的案例摘要的相关性为99%。结论:我们开发了一种方法,将从真实医疗患者数据中提取的小插图纳入,以构建对症状检查代理的患者响应模拟。该患者模拟器的性能和一致性可用于大规模训练和测试多轮对话人工智能代理。 |
[85] 双语视觉语音模型的互斥性偏向 标题: The mutual exclusivity bias of bilingual visually grounded speech models 作者: Dan Oneata / Leanne Nortje / Yevgen Matusevych / Herman Kamper 原文: [英文] [中文] 备注: Interspeech 2025 摘要: 互斥性(ME)是一种策略,其中新词与新物体而不是熟悉的物体相关联,从而促进儿童的语言学习。最近的研究发现,在一个以视觉为基础的语音(VGS)模型中,训练使用与图像配对的英语语音,存在ME偏向。然而,ME也在双语儿童中进行了研究,由于跨语言的歧义,他们可能较少使用这种策略。我们通过使用在英语、法语和荷兰语组合上训练的双语VGS模型,从计算的角度探讨这一模式。我们发现,双语模型通常表现出比单语模型更弱的ME偏向,尽管存在例外。分析显示,双语模型的组合视觉嵌入在熟悉数据上的方差较小,部分解释了新概念和熟悉概念之间混淆增加的原因。我们还提供了关于为什么VGS模型中存在ME偏向的新见解。代码和数据:此https URL |
[86] LexTime:法律事件时间排序基准 标题: LexTime: A Benchmark for Temporal Ordering of Legal Events 作者: Claire Barale / Leslie Barrett / Vikram Sunil Bajaj / Michael Rovatsos 原文: [英文] [中文] 备注: Preprint 摘要: 在法律文本中进行时间推理对于案例法分析和合规监控等应用非常重要。然而,现有的数据集缺乏专家语言评估,导致我们无法充分理解大型语言模型(LLMs)如何在法律背景中处理事件排序。我们引入了LexTime,这是第一个旨在评估LLMs在法律语言中事件排序能力的数据集,包含来自美国联邦投诉的512个实例,并附有事件对及其时间关系的注释。我们的研究结果表明:(1) LLMs在法律事件排序上的准确性比在叙事上的准确性更高(最多提高10.5%);(2) 较长的输入上下文和隐含事件提高了准确性,对于隐含-显式事件对,准确率达到80.8%;(3) 法律语言的复杂性和嵌套从句仍然是一个挑战。我们研究了上下文长度、显式与隐含事件对以及法律语言特征如何影响模型性能,展示了需要特定的建模策略来增强时间事件推理能力。 |
[87] 揭示并消除通过主体和关系意识进行定位后编辑知识编辑的捷径学习 标题: Unveiling and Eliminating the Shortcut Learning for Locate-Then-Edit Knowledge Editing via Both Subject and Relation Awareness 作者: Xiyu Liu / Zhengxiao Liu / Naibin Gu / Zheng Lin / Ji Xiang / Weiping Wang 原文: [英文] [中文] 备注: None 摘要: 知识编辑旨在改变大型语言模型预测的目标知识,同时确保对不相关知识的影响最小。实现知识编辑的一种有效方法是识别预测事实关联的关键参数,并通过优化过程修改这些参数以更新预测。然而,这些“定位-然后编辑”的方法是不可控的,因为它们往往会修改与目标编辑主体相关的大多数不相关关系。我们揭示了这种可控编辑失败的原因是优化过程中的捷径学习问题。具体来说,我们发现了两个关键特征,即主体特征和关系特征,模型在优化过程中需要学习这两个特征,但当前的优化过程往往过度学习主体特征而忽视关系特征。为了消除主体特征的捷径学习,我们提出了一种新颖的两阶段优化过程,平衡主体特征和关系特征的学习。实验结果表明,我们的方法成功地防止了知识编辑中的捷径学习,并实现了最佳的整体性能,有助于实现可控的知识编辑。 |
[88] 在回应之前像人一样思考:对抗仇恨的个性引导大型语言模型的多方面评估 标题: Think Like a Person Before Responding: A Multi-Faceted Evaluation of Persona-Guided LLMs for Countering Hate 作者: Mikel K. Ngueajio / Flor Miriam Plaza-del-Arco / Yi-Ling Chung / Danda B. Rawat / Amanda Cercas Curry 原文: [英文] [中文] 备注: Accepted at ACL WOAH 2025 摘要: 自动化反叙述(CN)为缓解网络仇恨言论提供了一种有前景的策略,但其情感语调、可访问性和伦理风险仍然令人担忧。我们提出了一个框架,用于从四个维度评估大型语言模型(LLM)生成的反叙述:角色框架、冗长性和可读性、情感语调以及伦理稳健性。我们使用GPT-4o-Mini、Cohere的CommandR-7B和Meta的LLaMA 3.1-70B,在MT-Conan和HatEval数据集上评估了三种提示策略。我们的研究结果表明,LLM生成的反叙述通常较为冗长,并适合具有大学水平读写能力的人群,从而限制了其可访问性。尽管情感引导的提示可以产生更具同理心和可读性的回应,但在安全性和有效性方面仍然存在担忧。 |
[89] Lacuna Inc. 在 SemEval-2025 第4项任务中的表现:基于影响的 LoRA 增强型大语言模型遗忘 标题: Lacuna Inc. at SemEval-2025 Task 4: LoRA-Enhanced Influence-Based Unlearning for LLMs 作者: Aleksey Kudelya / Alexander Shirnin 原文: [英文] [中文] 备注: Accepted to SemEval-2025, an ACL 2025 workshop 摘要: 本文介绍了LIBU(基于LoRA增强的影响力消除算法),这是一种解决“去学习”任务的算法——即在不从头重新训练和不损害模型整体效用的情况下,从大型语言模型中移除特定知识(SemEval-2025任务4:从大型语言模型中去除敏感内容)。该算法结合了经典的\textit{影响函数}来消除数据对模型的影响,并使用\textit{二阶优化}来稳定整体效用。我们的实验表明,这种轻量级的方法非常适用于在不同类型的任务中对大型语言模型进行去学习。 |
[90] 关于下一个词预测的支持样本 标题: On Support Samples of Next Word Prediction 作者: Yuqian Li / Yupei Du / Yufang Liu / Feifei Feng / Mou Xiao Feng / Yuanbin Wu 原文: [英文] [中文] 备注: Accepted to ACL2025(Main Conference) 摘要: 语言模型在各种任务中通过做出复杂的决策表现出色,但理解这些决策背后的理由仍然是一个挑战。本文研究了语言模型中的\emph{数据中心可解释性},重点关注下一个词的预测任务。利用表示定理,我们识别出两种类型的\emph{支持样本}——那些促进或阻碍特定预测的样本。我们的研究结果表明,成为支持样本是一种内在属性,甚至在训练开始之前就可以预测。此外,虽然非支持样本在直接预测中影响较小,但它们在防止过拟合以及塑造泛化和表示学习方面起着关键作用。值得注意的是,非支持样本的重要性在更深层次中增加,这表明它们在中间表示中扮演着重要角色。这些见解揭示了数据与模型决策之间的相互作用,为理解语言模型行为和可解释性提供了一个新的维度。 |
[91] 基于可解释性的LLM生成文本中的标记替换 标题: Explainability-Based Token Replacement on LLM-Generated Text 作者: Hadi Mohammadi / Anastasia Giachanou / Daniel L. Oberski / Ayoub Bagheri 原文: [英文] [中文] 备注: None 摘要: 生成模型,尤其是大型语言模型(LLMs),在生成看似人类撰写的文本方面取得了显著进展。然而,它们通常表现出某些模式,使得其输出比人类撰写的文本更容易被检测到。在本文中,我们研究了如何利用可解释人工智能(XAI)方法来降低AI生成文本(AIGT)的可检测性,同时引入一种稳健的基于集成的检测方法。我们首先训练了一个集成分类器,以区分AIGT和人类撰写的文本,然后应用SHAP和LIME来识别对其预测影响最大的标记。我们提出了四种基于可解释性的标记替换策略来修改这些有影响力的标记。我们的研究结果表明,这些标记替换方法可以显著降低单个分类器检测AIGT的能力。然而,我们的集成分类器在多种语言和领域中仍保持强劲的性能,表明多模型方法可以减轻标记级别操作的影响。这些结果表明,XAI方法可以通过关注最有影响力的标记来使AIGT更难检测。同时,它们也强调了需要稳健的、基于集成的检测策略,以适应不断发展的AIGT隐藏方法。 |
[92] 高精度,少说话(HALT):通过能力对齐微调实现可靠的大型语言模型 标题: High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning 作者: Tim Franzmeyer / Archie Sravankumar / Lijuan Liu / Yuning Mao / Rui Hou / Sinong Wang / Jakob N. Foerster / Luke Zettlemoyer / Madian Khabsa 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)目前对每个提示都会作出回应。然而,当它们缺乏知识或能力时,可能会产生错误答案——这一问题被称为幻觉。我们提出了一种新的方法,通过后训练使LLM仅在对其正确性有信心时生成内容,否则(部分)放弃生成。具体来说,我们的方法HALT生成与能力对齐的后训练数据,这些数据编码了模型可以和不能可靠生成的内容。我们通过将预训练LLM的响应分解为事实片段(原子陈述或推理步骤),并使用真实信息识别不正确的片段来生成这些数据。我们通过移除不正确的片段或用“从这里不确定”替换它们来实现能力对齐的微调响应——根据一个可调节的阈值,允许从业者在响应的完整性和片段的平均正确性之间进行权衡。我们使用HALT对四个开源模型进行微调,应用于传记写作、数学、编码和医学领域,并设置了三个不同的权衡阈值。HALT有效地在响应完整性和正确性之间进行权衡,使响应片段的平均正确性提高了15%,同时相比相关基线,F1得分(响应的完整性和正确性的平均值)提高了4%。通过调整HALT以达到最高正确性,我们训练了一种可靠的Llama3-70B模型,使其在所有四个领域的正确性从51%提高到87%,同时保持了标准微调所实现的53%的响应完整性。 |
[93] 渐进掌握:通过引导提示进行数学推理的定制化课程学习 标题: Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning 作者: Muling Wu / Qi Qian / Wenhao Liu / Xiaohua Wang / Zisu Huang / Di Liang / LI Miao / Shihan Dou / Changze Lv / Zhenghua Wang / Zhibo Xu / Lina Chen / Tianlong Li / Xiaoqing Zheng / Xuanjing Huang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在各种推理任务中取得了显著的性能表现,但其后续训练受到样本利用效率低下和难度样本处理不灵活的限制。为了解决这些限制,我们提出了定制课程学习(CCL),这是一种具有两个关键创新的新框架。首先,我们引入了模型自适应难度定义,根据每个模型的个体能力定制课程数据集,而不是使用预定义的难度指标。其次,我们开发了“引导提示”,通过战略性提示动态降低样本难度,从而有效利用那些原本会降低性能的挑战性样本。在监督微调和强化学习的综合实验中,CCL在五个数学推理基准上显著优于统一训练方法,证实了其在提高样本利用率和模型性能方面的有效性。 |
[94] LaF-GRPO:通过具有大型语言模型作为跟随者奖励的GRPO为视障人士生成现场导航指令 标题: LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward 作者: Yi Zhao / Siqi Wang / Jing Li 原文: [英文] [中文] 备注: None 摘要: 为视障人士(VI)生成导航指令(NIG-VI)是一个关键但相对未被深入研究的领域。因此,本研究专注于生成精确的、现场的、逐步的导航指令,使其对视障用户具有实际可用性。具体而言,我们提出了LaF-GRPO(LLM-as-Follower GRPO),其中一个大型语言模型(LLM)模拟视障用户的反馈,以生成奖励,从而指导视觉语言模型(VLM)的后期训练。这种方法提高了指令的可用性,同时减少了对昂贵的真实世界数据的需求。为了促进训练和测试,我们引入了NIG4VI,这是一个包含27,000个样本的开源基准。它提供了多样化的导航场景和精确的空间坐标,支持详细的、开放式的现场指令生成。在NIG4VI上的实验表明,LaF-GRPO通过定量指标(例如,Zero-(LaF-GRPO)将BLEU提高了14%;SFT+(LaF-GRPO)的METEOR为0.542,而GPT-4o的为0.323)证明了其有效性,并产生了更直观、更安全的指令。代码和基准可在\href{this https URL}{this https URL}获取。 |
[95] 控制生成文本的难度以辅助人工智能语言学习 标题: Controlling Difficulty of Generated Text for AI-Assisted Language Learning 作者: Meiqing Jin / Liam Dugan / Chris Callison-Burch 原文: [英文] [中文] 备注: Submitted to EMNLP 2025 摘要: 与大型语言模型(LLMs)进行对话练习为传统的面对面语言学习提供了一种有前途的替代方案。然而,大多数LLMs生成的文本复杂度接近母语水平,使其不适合初学者(CEFR: A1-A2)。在本文中,我们研究了可控生成技术——特别是无需模型微调的模块化方法——是否可以调整LLM的输出,以更好地支持绝对初学者。我们通过自动化指标和一项针对大学日语学习者的用户研究来评估这些方法。我们的研究结果表明,仅靠提示无法控制输出难度,但使用未来判别器(Yang和Klein,2021)显著提高了输出的可理解性(从40.4%提高到84.3%)。我们进一步引入了一种新颖的词级评估指标,称为词错率(Token Miss Rate, TMR),该指标量化了每个话语中难以理解的词的比例,并与人类判断有很强的相关性。为了支持未来在AI辅助语言学习方面的研究,我们发布了我们的代码、模型、注释工具和数据集。 |
[96] 声学精确的犹豫标记对于端到端逐字转录系统至关重要 标题: Acoustically Precise Hesitation Tagging Is Essential for End-to-End Verbatim Transcription Systems 作者: Jhen-Ke Lin / Hao-Chien Lu / Chung-Chun Wang / Hong-Yun Lin / Berlin Chen 原文: [英文] [中文] 备注: submitted to the ISCA SLaTE-2025 Workshop 摘要: 自动口语评估的逐字转录需要准确捕捉语音不流利现象,这对于错误分析和反馈等下游任务至关重要。然而,许多自动语音识别(ASR)系统会丢弃或泛化犹豫词,从而失去重要的声学细节。我们在不借助外部音频训练数据的情况下,使用低秩适应(LoRA)对Whisper模型在Speak & Improve 2025语料库上进行微调。我们比较了三种标注方案:去除犹豫词(纯净方案)、通用标签(丰富方案)以及由Gemini 2.0 Flash从现有音频转录对中推断出的声学精确填充词(额外方案)。我们的挑战系统在“纯净”方案下实现了6.47%的词错误率(WER),在“额外”方案下实现了5.81%的WER。挑战后实验表明,使用“额外”方案微调Whisper Large V3 Turbo模型获得了5.5%的WER,相较于“纯净”方案(6.2% WER)有11.3%的相对提升。这表明,明确且真实的填充停顿标注显著提高了逐字L2语音转录的ASR准确性。 |
[97] 一种用于意见表达自动口语评估的新型数据增强方法 标题: A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions 作者: Chung-Chun Wang / Jhen-Ke Lin / Hao-Chien Lu / Hong-Yun Lin / Berlin Chen 原文: [英文] [中文] 备注: submitted to the ISCA SLaTE-2025 Workshop 摘要: 自动化口语评估(ASA)在意见表达方面常常受到标记录音稀缺的阻碍,这限制了提示的多样性并削弱了评分的可靠性。为了解决这一挑战,我们提出了一种新颖的训练范式,该范式利用大型语言模型(LLM)生成具有特定熟练程度的多样化回应,通过考虑说话者特征的文本到语音合成将回应转换为合成语音,并采用动态重要性损失来根据合成语音和真实语音之间的特征分布差异自适应地重新加权训练实例。随后,一个多模态大型语言模型将对齐的文本特征与语音信号整合,以直接预测熟练度分数。在LTTC数据集上进行的实验表明,我们的方法优于依赖真实数据或传统增强的方法,有效缓解了资源匮乏的限制,并通过跨模态信息实现了意见表达的自动化口语评估。 |
[98] LLMEval-Med:一个经过医生验证的医学大型语言模型真实临床基准 标题: LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation 作者: Ming Zhang / Yujiong Shen / Zelin Li / Huayu Sha / Binze Hu / Yuhui Wang / Chenhao Huang / Shichun Liu / Jingqi Tong / Changhao Jiang / Mingxu Chai / Zhiheng Xi / Shihan Dou / Tao Gui / Qi Zhang / Xuanjing Huang 原文: [英文] [中文] 备注: None 摘要: 在医学领域评估大型语言模型(LLMs)至关重要,因为医学应用需要高精度且几乎没有出错的余地。目前的医学基准测试主要有三种类型:基于医学考试的、综合医学的和专业评估。然而,这些基准测试在问题设计(大多为选择题)、数据来源(通常不是来自真实临床场景)和评估方法(对复杂推理的评估不佳)方面存在局限性。为了解决这些问题,我们提出了LLMEval-Med,这是一种新的基准测试,涵盖五个核心医学领域,包括从真实世界电子健康记录和专家设计的临床场景中创建的2,996个问题。我们还设计了一个自动化评估流程,将专家开发的检查表纳入我们的LLM-as-Judge框架。此外,我们的方法通过人机一致性分析验证了机器评分,基于专家反馈动态优化检查表和提示,以确保可靠性。我们在LLMEval-Med上评估了13个LLM,涵盖三个类别(专业医学模型、开源模型和闭源模型),为LLM在医学领域的安全有效部署提供了宝贵的见解。数据集已在此https URL中发布。 |
[99] EuroLLM-9B:技术报告 标题: EuroLLM-9B: Technical Report 作者: Pedro Henrique Martins / João Alves / Patrick Fernandes / Nuno M. Guerreiro / Ricardo Rei / Amin Farajian / Mateusz Klimaszewski / Duarte M. Alves / José Pombal / Manuel Faysse / Pierre Colombo / François Yvon / Barry Haddow / José G. C. de Souza / Alexandra Birch / André F. T. Martins 原文: [英文] [中文] 备注: 56 pages 摘要: 本报告介绍了EuroLLM-9B,这是一种从零开始训练的大型语言模型,旨在满足欧洲公民的需求,涵盖所有24种欧盟官方语言和11种额外语言。EuroLLM解决了现有开放大型语言模型中欧洲语言代表性不足和服务不周的问题。我们全面概述了EuroLLM-9B的开发过程,包括分词器设计、架构规格、数据过滤和训练程序。我们描述了预训练数据收集和过滤流程,包括创建EuroFilter,一个基于AI的多语言过滤器,以及设计EuroBlocks-Synthetic,一个用于后期训练的新型合成数据集,以增强欧洲语言的覆盖范围。评估结果显示,EuroLLM-9B在多语言基准测试和机器翻译任务中表现出竞争力,确立了其作为同类规模领先的欧洲制造开放LLM的地位。为了支持开放研究和采用,我们发布了这项工作的所有主要组件,包括基础和指令调优模型、EuroFilter分类器以及合成后期训练数据集。 |
[100] TextAtari:使用语言代理进行10万帧游戏 标题: TextAtari: 100K Frames Game Playing with Language Agents 作者: Wenhao Li / Wenwu Li / Chuyun Shen / Junjie Sheng / Zixiao Huang / Di Wu / Yun Hua / Wei Yin / Xiangfeng Wang / Hongyuan Zha / Bo Jin 原文: [英文] [中文] 备注: 51 pages, 39 figures 摘要: 我们介绍了TextAtari,这是一个用于评估语言代理在长达100,000步的超长决策任务中的基准。通过将经典Atari游戏的视觉状态表示转换为丰富的文本描述,TextAtari创建了一个将顺序决策与自然语言处理相结合的具有挑战性的测试平台。该基准包括近100个不同的任务,具有不同的复杂性、动作空间和规划范围,所有这些都通过无监督表示学习框架(AtariARI)以文本形式呈现。我们评估了三个开源的大型语言模型(Qwen2.5-7B、Gemma-7B和Llama3.1-8B)在三种代理框架(零样本、少样本链式思维和反思推理)中的表现,以评估不同形式的先验知识如何影响在这些长远挑战中的表现。四种情景——基本、模糊、手动增强和基于参考——探讨了语义理解、指令理解和专家演示对代理决策的影响。我们的结果揭示了语言代理与人类玩家在广泛规划任务中的显著性能差距,突显了在数万步的顺序推理、状态跟踪和战略规划中的挑战。TextAtari提供了标准化的评估协议、基线实现以及一个推进语言模型与规划交叉研究的框架。 |
[101] 校正稀疏注意力 标题: Rectified Sparse Attention 作者: Yutao Sun / Tianzhu Ye / Li Dong / Yuqing Xia / Jian Chen / Yizhao Gao / Shijie Cao / Jianyong Wang / Furu Wei 原文: [英文] [中文] 备注: None 摘要: 高效的长序列生成是大型语言模型的一个关键挑战。尽管最近的稀疏解码方法提高了效率,但它们存在KV缓存未对齐的问题,其中近似误差会累积并降低生成质量。在这项工作中,我们提出了校正稀疏注意力(ReSA),这是一种简单而有效的方法,将块稀疏注意力与周期性密集校正相结合。通过在固定间隔使用密集前向传递刷新KV缓存,ReSA限制了误差累积,并保持与预训练分布的对齐。在数学推理、语言建模和检索任务中的实验表明,ReSA在显著提高效率的同时,实现了近乎无损的生成质量。值得注意的是,在256K序列长度的解码下,ReSA实现了高达2.42倍的端到端加速,使其成为可扩展长上下文推理的实用解决方案。代码可在此https URL获取。 |
[102] CLAIM:一种用于分析法庭对话中操控行为的意图驱动多智能体框架 标题: CLAIM: An Intent-Driven Multi-Agent Framework for Analyzing Manipulation in Courtroom Dialogues 作者: Disha Sheshanarayana / Tanishka Magar / Ayushi Mittal / Neelam Chaplot 原文: [英文] [中文] 备注: Accepted to SICon 2025 ACL 摘要: 法庭是决定人生和命运的地方,但它们并非不受操控的影响。通过策略性地使用法律术语中的操控手段,可以左右法官的意见并影响判决。尽管自然语言处理(NLP)技术不断进步,但其在检测和分析法律领域操控行为的应用仍然很少被探索。我们的研究通过引入LegalCon来填补这一空白。LegalCon是一个包含1,063个标注法庭对话的数据集,标注内容包括操控检测、主要操控者识别以及操控技术分类,特别关注长对话。此外,我们提出了CLAIM,这是一种两阶段、意图驱动的多代理框架,旨在通过实现上下文感知和知情决策来增强操控分析。我们的结果强调了结合代理框架以提高司法过程的公平性和透明性的潜力。我们希望这能促进NLP在法律话语分析中的广泛应用,并开发出支持法律决策公平性的强大工具。我们的代码和数据可在此HTTPS URL获取。 |
[103] 词典基础工具仍然是低资源佛兰芒语情感分析的黄金标准吗? 标题: Are Lexicon-Based Tools Still the Gold Standard for Valence Analysis in Low-Resource Flemish? 作者: Ratna Kandala / Katie Hoemann 原文: [英文] 备注: None 摘要: 理解日常语言中的细微差别对于计算语言学和情感研究的进步至关重要。传统的词典工具,如LIWC和Pattern,长期以来一直是该领域的基础工具。LIWC是社会科学中验证最为广泛的基于词数的文本分析工具,而Pattern是一个提供自然语言处理功能的开源Python库。然而,日常语言本质上是自发的、丰富表达的,并且深受上下文影响。为了探索大型语言模型(LLMs)在捕捉佛兰芒语日常叙述情感色彩方面的能力,我们首先进行了一项研究,涉及102名荷兰语参与者提供的大约25,000个文本回应。每位参与者根据“现在正在发生什么,你对此有何感受?”的问题提供叙述,并在-50到+50的连续量表上进行自我评估的情感色彩评分。然后,我们评估了三个荷兰语特定的LLM在预测这些情感色彩分数方面的表现,并将其输出与LIWC和Pattern生成的结果进行比较。我们的研究结果表明,尽管LLM架构有所进步,这些针对荷兰语调优的模型目前在准确捕捉自发的、真实世界叙述中的情感色彩方面仍显不足。这项研究强调了开发文化和语言上量身定制的模型/工具的必要性,以熟练处理自然语言使用的复杂性。增强自动化情感色彩分析不仅对推进计算方法至关重要,而且对心理学研究也具有重要意义,能够提供对人类日常体验的生态有效见解。我们倡导增加在创建综合数据集和微调低资源语言(如佛兰芒语)的LLMs方面的努力,旨在弥合计算语言学与情感研究之间的差距。 |
[104] 通过捷径神经元分析建立可信的大型语言模型评估 标题: Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis 作者: Kejian Zhu / Shangqing Tu / Zhuoran Jin / Lei Hou / Juanzi Li / Jun Zhao 原文: [英文] [中文] 备注: Accepted to ACL 2025 Main Conference 摘要: 大型语言模型(LLMs)的发展依赖于可靠的评估。然而,目前大多数评估依赖于公共基准,这些基准容易出现数据污染问题,从而显著影响公平性。先前的研究主要集中在构建动态基准以解决污染问题。然而,持续构建新基准既昂贵又周期性。在这项工作中,我们旨在通过分析被污染模型自身的机制来解决污染问题。通过我们的实验,我们发现被污染模型的过高估计可能是由于参数在训练中获得了捷径解决方案。我们进一步提出了一种通过比较和因果分析识别捷径神经元的新方法。在此基础上,我们引入了一种称为捷径神经元修补的评估方法,以抑制捷径神经元。实验验证了我们的方法在减轻污染方面的有效性。此外,我们的评估结果与最近发布的可靠基准MixEval表现出很强的线性相关性,Spearman系数($\rho$)超过0.95。这种高度相关性表明我们的方法能够接近揭示模型的真实能力,并且是可靠的。我们进行了进一步的实验,以证明我们的方法在各种基准和超参数设置中的普遍适用性。代码:this https URL |
[105] 一个用于解决患者关于住院临床过程信息需求的数据集 标题: A Dataset for Addressing Patient's Information Needs related to Clinical Course of Hospitalization 作者: Sarvesh Soni / Dina Demner-Fushman 原文: [英文] 备注: None 摘要: 患者对其住院期间的信息有着独特的需求,这些需求可以通过电子健康记录(EHRs)中的临床证据来满足。尽管人工智能(AI)系统在满足这些需求方面显示出潜力,但需要强大的数据集来评估AI生成的回答的事实准确性和相关性。据我们所知,目前尚无数据集能够在患者EHRs的背景下捕捉患者的信息需求。我们引入了ArchEHR-QA,这是一个基于重症监护病房和急诊科真实患者案例的专家标注数据集。案例包括患者向公共健康论坛提出的问题、临床医生解释的对应问题、相关临床笔记摘录及其句子级别的相关性标注,以及临床医生撰写的答案。为了建立基于EHR的问答(QA)基准,我们评估了三个开放权重的大型语言模型(LLMs)——Llama 4、Llama 3和Mixtral——在三种提示策略下的表现:(1)生成带有临床笔记句子引用的答案,(2)在引用之前生成答案,以及(3)从过滤后的引用中生成答案。我们从两个维度评估了性能:事实性(引用的笔记句子与真实情况的重叠)和相关性(系统答案与参考答案的文本和语义相似性)。最终数据集包含134个患者案例。答案优先的提示方法始终表现最佳,其中Llama 4获得了最高分。手动错误分析支持了这些发现,并揭示了常见问题,如遗漏关键临床证据以及内容矛盾或幻觉。总体而言,ArchEHR-QA为开发和评估以患者为中心的EHR问答系统提供了一个强有力的基准,强调了在临床环境中生成事实性和相关性回答的进一步进展的必要性。 |
[106] SkipGPT:通过令牌感知和模块解耦重新定义的动态层剪枝 标题: SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling 作者: Anhao Zhao / Fanghua Ye / Yingqi Fan / Junlong Tong / Zhiwei Fei / Hui Su / Xiaoyu Shen 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在各种任务中表现出色,但由于其深层多层架构,导致了巨大的计算成本。层剪枝已成为缓解这些低效问题的一种策略,但传统的静态剪枝方法忽视了LLM推理中固有的两个关键动态:(1)水平动态,其中令牌级异质性需要上下文感知的剪枝决策,以及(2)垂直动态,其中MLP和自注意力层的不同功能角色需要组件特定的剪枝策略。我们引入了SkipGPT,这是一种动态层剪枝框架,旨在通过两个核心创新优化计算资源分配:(1)全局令牌感知路由以优先处理关键令牌,以及(2)针对MLP和自注意力组件的解耦剪枝策略。为减轻训练不稳定性,我们提出了一个两阶段优化范式:首先是通过软参数化学习路由策略的解耦训练阶段,以避免过早的剪枝决策,然后是参数高效的LoRA微调,以恢复因层移除而受影响的性能。大量实验表明,SkipGPT在减少超过40%模型参数的同时,在各项基准测试中匹配或超越了原始密集模型的性能。通过协调动态效率与保留的表现力,SkipGPT推进了可扩展、资源感知的LLM的实际部署。我们的代码在此网址公开提供:this https URL。 |
[107] SuperWriter:基于反思驱动的大型语言模型长篇生成 标题: SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models 作者: Yuhao Wu / Yushi Bai / Zhiqiang Hu / Juanzi Li / Roy Ka-Wei Lee 原文: [英文] [中文] 备注: None 摘要: 长篇文本生成对于大型语言模型(LLMs)来说仍然是一个重大挑战,特别是在随着序列长度增加时保持连贯性、确保逻辑一致性和维持文本质量方面。为了解决这些限制,我们提出了SuperWriter-Agent,这是一种基于代理的框架,旨在提高长篇文本生成的质量和一致性。SuperWriter-Agent在生成流程中引入了明确的结构化思维,通过规划和精炼阶段,引导模型遵循更为深思熟虑和认知基础的过程,类似于专业作家的写作方式。基于这一框架,我们构建了一个监督微调数据集,用于训练一个7B的SuperWriter-LM。我们进一步开发了一种分层的直接偏好优化(DPO)程序,该程序使用蒙特卡罗树搜索(MCTS)来传播最终质量评估,并相应地优化每个生成步骤。跨多种基准的实证结果表明,SuperWriter-LM在自动评估和人工评估中均实现了最先进的性能,甚至超越了更大规模的基线模型。此外,全面的消融研究证明了分层DPO的有效性,并强调了引入结构化思维步骤以提高长篇文本生成质量的价值。 |
[108] 长链还是短链?研究大型推理模型的实例级切换 标题: Long or short CoT? Investigating Instance-level Switch of Large Reasoning Models 作者: Ruiqi Zhang / Changyi Xiao / Yixin Cao 原文: [英文] [中文] 备注: None 摘要: 随着大型推理模型的快速发展,长链式思维(CoT)提示在复杂任务中表现出强大的性能。然而,这通常伴随着显著增加的标记使用量。在本文中,我们进行了全面的实证分析,比较了长链和短链CoT策略。我们的研究结果表明,尽管长链CoT可以带来性能提升,但相对于其显著更高的标记消耗,其优势往往是微不足道的。具体而言,当生成预算充足时,长链CoT往往表现更好,而在预算紧张的情况下,短链CoT则更为有效。这些见解强调了根据任务背景和资源可用性选择合适的CoT策略的动态方法的必要性。为此,我们提出了SwitchCoT,这是一种自动化框架,可以自适应地在长链和短链CoT策略之间进行选择,以平衡推理准确性和计算效率。此外,SwitchCoT被设计为预算感知的,使其在具有不同资源限制的场景中广泛适用。实验结果表明,SwitchCoT可以在保持高准确率的同时,将推理成本降低多达50%。值得注意的是,在有限的标记预算下,其性能可与单独使用长链或短链CoT相媲美,甚至更优。 |
[109] R-Search:通过多重奖励强化学习结合搜索增强大语言模型的推理能力 标题: R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning 作者: Qingfei Zhao / Ruobing Wang / Dingling Xu / Daren Zha / Limin Liu 原文: [英文] [中文] 备注: 16 pages, 3 figures 摘要: 大型语言模型(LLMs)在多步和长链推理方面取得了显著进展。然而,将其推理能力扩展到包含与搜索的深度交互仍然是一个不小的挑战,因为模型常常无法识别最佳的推理-搜索交互路径,导致次优的响应。我们提出了R-Search,这是一种用于推理-搜索集成的新型强化学习框架,旨在使LLMs能够自主执行具有深度搜索交互的多步推理,并通过多重奖励信号学习最佳的推理搜索交互路径,从而提高复杂逻辑和知识密集型任务的响应质量。R-Search引导LLM动态决定何时检索或推理,同时全局整合关键证据,以增强推理和搜索之间的深度知识交互。在强化学习训练期间,R-Search提供多阶段、多类型的奖励,以共同优化推理-搜索路径。在七个数据集上的实验表明,R-Search在域内和域外分别比先进的RAG基线高出最多32.2%和25.1%。代码和数据可在此https URL获取。 |
[110] 通过最小预计算实现高效知识编辑 标题: Efficient Knowledge Editing via Minimal Precomputation 作者: Akshat Gupta / Maochuan Lu / Thomas Hartvigsen / Gopala Anumanchipalli 原文: [英文] [中文] 备注: ACL 2025 Main Conference 摘要: 像MEMIT这样的知识编辑方法能够通过使用单个句子来更新事实及其后果,从而实现数据和计算效率高的事实知识更新。然而,通常被忽视的是一个“预计算步骤”,这需要一次性但显著的计算成本。MEMIT的作者最初在每个编辑层预计算大约4400万个隐藏向量,这需要对4400万个标记进行前向传递。对于GPT-J(6B),这个预计算步骤在单个GPU上需要36小时,而对于Llama2-7B则大约需要40小时。此外,这个预计算时间随着模型大小的增加而增长。在本文中,我们表明这种过高的计算成本是不必要的。使用MEMIT和相关方法(如ROME和EMMET)进行知识编辑时,只需预计算4400万个隐藏向量中的一小部分即可。我们首先提出了这些编辑方法的解存在所需的隐藏向量预计算的理论最小数量。然后,我们通过实验证明,使用这些方法进行知识编辑时,只需预计算显著更少的隐藏向量。具体来说,我们展示了预计算步骤可以在不到原定数量0.3%的隐藏向量下完成。这节省了大量的预计算时间,并允许用户在几分钟内开始编辑新模型。 |