![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年7月25日更新论文49篇
|
[1] Shop-R1:通过强化学习奖励大型语言模型以模拟在线购物中的人类行为 标题: Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning 作者: Yimeng Zhang / Tian Wang / Jiri Gesi / Ziyi Wang / Yuxuan Lu / Jiacheng Lin / Sinong Zhan / Vianne Gao / Ruochen Jiao / Junze Liu / Kun Qian / Yuxin Tang / Ran Xue / Houyu Zhang / Qingjun Cui / Yufan Guo / Dakuo Wang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)最近在网络环境中展示了生成“可信的人类行为”的强大潜力。先前的研究探索了通过LLM合成的推理来增强训练数据,并应用监督微调(SFT)以提高推理能力,从而改善下游动作预测。然而,这种方法的性能本质上受到用于生成推理的模型推理能力的限制。在本文中,我们介绍了Shop-R1,这是一种新颖的强化学习(RL)框架,旨在增强LLM在在线购物环境中模拟真实人类行为的推理能力。具体来说,Shop-R1将人类行为模拟任务分解为两个阶段:推理生成和动作预测,每个阶段都由不同的奖励信号引导。在推理生成方面,我们利用内部模型信号(例如,logit分布)以自监督的方式指导推理过程。在动作预测方面,我们提出了一种具有难度感知缩放的分层奖励结构,以防止奖励作弊并实现细粒度的奖励分配。该设计评估了高层次动作类型和细粒度子动作细节(属性和值)的正确性,根据其难度按比例奖励输出。实验结果表明,与基线相比,我们的方法实现了超过65%的相对改进。 |
[2] 动态且可推广的过程奖励建模 标题: Dynamic and Generalizable Process Reward Modeling 作者: Zhangyue Yin / Qiushi Sun / Zhiyuan Zeng / Qinyuan Cheng / Xipeng Qiu / Xuanjing Huang 原文: [英文] [中文] 备注: Accepted by ACL 2025 Main 摘要: 过程奖励模型(Process Reward Models, PRMs)在复杂场景中通过提供密集的奖励信号来指导大型语言模型(LLMs)至关重要。然而,现有的PRMs主要依赖于启发式方法,这在跨领域泛化方面存在困难。尽管提出了将LLM作为评判者以提供广义奖励,但当前研究主要集中在反馈结果上,忽视了文本中蕴含的有意义的指导。此外,静态和粗粒度的评估标准难以适应复杂的过程监督。为了解决这些挑战,我们提出了动态和可泛化的过程奖励建模(Dynamic and Generalizable Process Reward Modeling, DG-PRM),其特点是使用奖励树来捕捉和存储细粒度、多维度的奖励标准。DG-PRM动态选择奖励信号进行逐步奖励评分。为了处理多方面的奖励信号,我们创新性地采用帕累托优势估计来识别具有辨别力的正负对。实验结果表明,DG-PRM在现有基准上表现出色,显著提升了模型在具有密集奖励的任务中的表现。进一步分析显示,DG-PRM能够很好地适应分布外场景,展现出卓越的泛化能力。 |
[3] VeriMinder:缓解NL2SQL中的分析漏洞 标题: VeriMinder: Mitigating Analytical Vulnerabilities in NL2SQL 作者: Shubham Mohole / Sainyam Galhotra 原文: [英文] [中文] 备注: None 摘要: 使用自然语言接口与数据库(NLIDBs)的应用系统已经使数据分析更加大众化。这一积极的发展也带来了一个紧迫的挑战,即帮助可能没有统计分析背景的用户提出无偏见的分析问题。尽管大量研究集中在文本到SQL生成的准确性上,但在分析问题中解决认知偏见的问题仍然未被充分探索。我们提出了VeriMinder,这是一个用于检测和缓解此类分析漏洞的交互式系统。我们的方法引入了三个关键创新:(1)一个针对特定分析情境相关偏见的上下文语义映射框架(2)一个将“难以变更”原则操作化并指导用户进行系统数据分析的分析框架(3)一个优化的、由大型语言模型驱动的系统,通过涉及多个候选者、批评反馈和自我反思的结构化过程生成高质量、任务特定的提示。 用户测试证实了我们方法的优点。在直接用户体验评估中,82.5%的参与者报告称对分析质量产生了积极影响。在比较评估中,VeriMinder的得分显著高于替代方法,在分析的具体性、全面性和准确性指标上至少高出20%。我们的系统作为一个网络应用程序实现,旨在帮助用户在数据分析过程中避免“错误问题”的漏洞。VeriMinder的代码库及提示作为MIT许可的开源软件提供,以促进社区内的进一步研究和采用。 |
[4] 一声低语评判一切 标题: One Whisper to Grade Them All 作者: Nhan Phan / Anusha Porwal / Yaroslav Getman / Ekaterina Voskoboinik / Tamás Grósz / Mikko Kurimo 原文: [英文] [中文] 备注: Accepted to SLaTE 2025 workshop 摘要: 我们提出了一种高效的端到端方法,用于整体自动口语评估(ASA)多部分第二语言测试,该方法是为2025年Speak & Improve挑战赛开发的。我们系统的主要创新在于能够使用单个Whisper-small编码器处理所有四个口语回答,通过轻量级聚合器结合所有信息,并预测最终得分。这种架构消除了对转录和每部分模型的需求,减少了推理时间,使ASA在大规模计算机辅助语言学习系统中变得实用。我们的系统实现了0.384的均方根误差(RMSE),优于基于文本的基线(0.44),同时使用最多168M参数(约为Whisper-small的70%)。此外,我们提出了一种数据采样策略,使模型仅需在语料库中44.8%的说话者上进行训练,仍能达到0.383的RMSE,展示了在不平衡类别上的性能提升和强大的数据效率。 |
[5] 评估AI文本检测器的性能、少样本和链式思维提示在DeepSeek生成文本中的应用 标题: Evaluating the Performance of AI Text Detectors, Few-Shot and Chain-of-Thought Prompting Using DeepSeek Generated Text 作者: Hulayyil Alshammari / Praveen Rao 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)迅速改变了书面材料的创作。LLMs引发了关于写作诚信的问题,从而推动了人工智能(AI)检测技术的开发。对抗性攻击,如标准和人性化的改写,阻碍了检测器识别机器生成文本的能力。先前的研究主要集中在ChatGPT和其他知名的LLMs上,并显示出检测器的准确性各不相同。然而,关于最近发布的LLM——DeepSeek的文献中存在明显的空白。因此,在这项工作中,我们研究了六种普遍可用的AI检测工具——AI Text Classifier、Content Detector AI、Copyleaks、QuillBot、GPT-2和GPTZero——是否能够一致地识别由DeepSeek生成的文本。检测器暴露于上述对抗性攻击中。我们还通过执行少样本提示和链式思维(CoT)推理来将DeepSeek视为检测器,以分类AI和人类撰写的文本。我们收集了49个人类作者在LLM时代之前撰写的问答对,并使用DeepSeek-v3生成匹配的回答,产生了49个AI生成的样本。然后,我们应用了改写和人性化等对抗性技术,增加了196个样本。这些样本用于挑战检测器的鲁棒性并评估准确性影响。虽然QuillBot和Copyleaks在原始和改写的DeepSeek文本上表现出近乎完美的性能,但其他检测器——特别是AI Text Classifier和GPT-2——显示出不一致的结果。最有效的攻击是人性化,将Copyleaks的准确性降低到71%,QuillBot降低到58%,GPTZero降低到52%。少样本和CoT提示显示出高准确性,最佳的五次提示结果仅错误分类了49个样本中的一个(AI召回率96%,人类召回率100%)。 |
[6] 大型语言模型的信念更新是否与贝叶斯定理一致? 标题: Are LLM Belief Updates Consistent with Bayes' Theorem? 作者: Sohaib Imran / Ihor Kendiukhov / Matthew Broerman / Aditya Thomas / Riccardo Campanella / Rob Lamb / Peter M. Atkinson 原文: [英文] [中文] 备注: Accepted at the ICML 2025 Workshop on Assessing World Models 摘要: 更大且更强大的语言模型在上下文中被提供证据时,是否更一致地根据贝叶斯定理更新其对命题的“信念”?为了测试这一点,我们制定了一个贝叶斯一致性系数(BCC)指标,并生成了一个用于测量BCC的数据集。我们对五个模型家族中的多个仅预训练语言模型测量了BCC,并与模型参数数量、训练数据量以及模型在常见基准测试中的得分进行了比较。我们的结果为我们的假设提供了证据,即更大且更强大的预训练语言模型分配的可信度与贝叶斯定理更一致。这些结果对我们理解和管理大型语言模型(LLM)具有重要意义。 |
[7] 提格里尼亚语的自然语言处理:现状与未来方向 标题: Natural Language Processing for Tigrinya: Current State and Future Directions 作者: Fitsum Gaim / Jong C. Park 原文: [英文] [中文] 备注: None 摘要: 尽管有数百万人使用,但提格里尼亚语在自然语言处理(NLP)研究中仍然严重缺乏代表性。本文对提格里尼亚语的NLP研究进行了全面的综述,分析了从2011年到2025年超过十年的40多项研究。我们系统地回顾了在十个不同的下游任务中计算资源、模型和应用的现状,包括形态处理、机器翻译、语音识别和问答系统。我们的分析揭示了从基础的基于规则的系统到现代神经架构的明确发展轨迹,而资源创建的里程碑不断推动了进步。我们识别出提格里尼亚语形态复杂性和资源稀缺性带来的关键挑战,同时强调了有前景的研究方向,包括形态感知建模、跨语言迁移和以社区为中心的资源开发。此项工作既是研究人员的全面参考,也是推进提格里尼亚语NLP的路线图。我们将调查研究和资源的精选元数据公开提供。 |
[8] TeleChat2、TeleChat2.5 和 T1 的技术报告 标题: Technical Report of TeleChat2, TeleChat2.5 and T1 作者: Zihan Wang / Xinzhang Liu / Yitong Yao / Chao Wang / Yu Zhao / Zhihao Yang / Wenmin Deng / Kaipeng Jia / Jiaxin Peng / Yuyao Huang / Sishi Xiong / Zhuo Jiang / Kaidong Yu / Xiaohui Hu / Fubei Yao / Ruiyu Fang / Zhuoru Jiang / Ruiting Song / Qiyi Xie / Rui Xue / Xuewei He / Yanlei Xue / Zhu Yuan / Zhaoxi Zhang / Zilu Huang / Shiquan Wang / Xin Wang / Hanming Wu / Mingyuan Wang / Xufeng Zhan / Yuhan Sun / Zhaohu Xing / Yuhao Jiang / Bingkai Yang / Shuangyong Song / Yongxiang Li / Zhongjiang He / Xuelong Li 原文: [英文] [中文] 备注: 32 pages, 5 figures 摘要: 我们介绍了最新系列的 TeleChat 模型:\textbf{TeleChat2}、\textbf{TeleChat2.5} 和 \textbf{T1},相较于其前身 TeleChat 提供了显著的升级。尽管模型架构的变化很小,新系列通过在预训练和后训练阶段的增强训练策略实现了显著的性能提升。该系列从 \textbf{TeleChat2} 开始,经过对 10 万亿高质量和多样化的标记进行预训练。随后,通过监督微调(SFT)和直接偏好优化(DPO)进一步增强其能力。 \textbf{TeleChat2.5} 和 \textbf{T1} 通过结合领域特定数据集的持续预训练阶段以及强化学习(RL)来扩展流程,以提高代码生成和数学推理任务的性能。 \textbf{T1} 变体专为复杂推理而设计,支持长链式推理(CoT),并在数学和编码方面表现出显著的改进。相比之下,\textbf{TeleChat2.5} 优先考虑速度,提供快速推理。 \textbf{T1} 和 \textbf{TeleChat2.5} 的两个旗舰模型都是基于 1150 亿参数的密集 Transformer 架构,与原始 TeleChat 相比,在推理和一般任务性能方面展示了显著的进步。值得注意的是,\textbf{T1-115B} 的表现优于 OpenAI 的 o1-mini 和 GPT-4o 等专有模型。我们公开发布了 \textbf{TeleChat2}、\textbf{TeleChat2.5} 和 \textbf{T1},包括具有 350 亿和 1150 亿参数的后训练版本,以便为开发者和研究人员提供适用于多种应用的最先进语言模型。 |
[9] NeuralDB:通过神经键值数据库将大型语言模型中的知识编辑扩展到100,000个事实 标题: NeuralDB: Scaling Knowledge Editing in LLMs to 100,000 Facts with Neural KV Database 作者: Weizhi Fei / Hao Shi / Jing Xu / Jingchen Peng / Jiazheng Li / Jingzhao Zhang / Bo Bai / Wei Han / Zhenyuan Chen / Xueyan Niu 原文: [英文] [中文] 备注: None 摘要: 高效编辑存储在大型语言模型(LLMs)中的知识,使得模型更新无需大规模训练。一个可能的解决方案是“定位与编辑”(Locate-and-Edit,L&E),允许同时修改大量事实。然而,这种编辑可能会损害LLMs的通用能力,甚至在扩展到数千次编辑时导致遗忘已编辑的事实。在本文中,我们将现有的线性L&E方法建模为查询一个键值(KV)数据库。从这个角度出发,我们提出了NeuralDB,一种编辑框架,它将编辑过的事实明确表示为一个神经KV数据库,并配备了一个非线性门控检索模块。特别是,我们的门控模块仅在推理涉及编辑过的事实时操作,有效地保留了LLMs的通用能力。我们在ZsRE和CounterFacts数据集上进行了涉及10,000个事实编辑的综合实验,使用了GPT2-XL、GPT-J(6B)和Llama-3(8B)。结果表明,NeuralDB不仅在编辑效率、泛化性、特异性、流畅性和一致性方面表现出色,还在六个代表性文本理解和生成任务中保持了整体性能。进一步的实验表明,即使扩展到100,000个事实(比之前的工作多\textbf{50倍}),NeuralDB仍然保持其有效性。 |
[10] GrAInS:基于梯度的归因用于推理时引导大型语言模型和视觉语言模型 标题: GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs 作者: Duy Nguyen / Archiki Prasad / Elias Stengel-Eskin / Mohit Bansal 原文: [英文] 备注: 21 pages. Code: this https URL 摘要: 推理时操控方法通过在测试时修改内部激活而不更新模型权重,提供了一种轻量级的替代方案来微调大型语言模型(LLMs)和视觉语言模型(VLMs)。然而,大多数现有方法依赖于固定的全局干预向量,忽视了单个输入标记的因果影响,并且未能利用模型logits中的信息梯度,特别是在视觉和文本输入贡献不均的多模态环境中。为了解决这些限制,我们引入了GrAInS,这是一种在推理时操控的方法,适用于语言模型和视觉语言模型及任务。GrAInS通过对比、基于梯度的归因使用集成梯度来识别最具影响力的前k个标记,这些标记根据其对偏好与不偏好输出的贡献被正向或负向归因。然后使用这些标记构建方向性操控向量,以捕捉从不理想行为到理想行为的语义转变。在推理过程中,GrAInS在transformer层调整隐藏激活,受标记级归因信号指导,并规范化激活以保持表示规模。这使得无需重新训练或辅助监督即可对模型行为进行细粒度、可解释和模块化的控制。实证结果表明,GrAInS始终优于微调和现有操控基线:在使用Llama-3.1-8B的TruthfulQA上实现了13.22%的准确率提升,在使用LLaVA-1.6-7B的MMHal-Bench上将幻觉率从0.624降低到0.514,并在SPA-VL上提高了8.11%的对齐胜率,同时保持了模型的流畅性和一般能力。 |
[11] 使用大型语言模型进行短语断句预测的合成数据生成 标题: Synthetic Data Generation for Phrase Break Prediction with Large Language Model 作者: Hoyeon Lee / Sejung Son / Ye-Eun Kang / Jong-Hwan Kim 原文: [英文] [中文] 备注: Accepted at Interspeech 2025 摘要: 当前的短语断句预测方法在语音合成系统中处理关键的韵律方面,但严重依赖于来自音频或文本的大量人工标注,导致显著的人工工作量和成本。语音领域中由语音因素驱动的内在变异性进一步使得获取一致的高质量数据变得复杂。最近,大型语言模型(LLM)在通过生成定制的合成数据来解决NLP中的数据挑战方面取得了成功,同时减少了人工标注的需求。受此启发,我们探索利用LLM生成合成的短语断句标注,通过与传统标注进行比较并评估其在多种语言中的有效性,解决了人工标注和语音相关任务的挑战。我们的研究结果表明,基于LLM的合成数据生成有效地缓解了短语断句预测中的数据挑战,并突显了LLM作为语音领域可行解决方案的潜力。 |
[12] 使用大型语言模型生成具有多样写作风格的隐私保护合成评论 标题: Privacy-Preserving Synthetic Review Generation with Diverse Writing Styles Using LLMs 作者: Tevin Atwal / Chan Nam Tieu / Yefeng Yuan / Zhan Shi / Yuhong Liu / Liang Cheng 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)生成的合成数据在数据驱动应用中日益增多,这带来了机遇和挑战。合成数据为模型训练提供了一种成本效益高、可扩展的替代方案,但其多样性和隐私风险尚未得到充分探索。我们专注于基于文本的合成数据,提出了一套全面的指标,用于定量评估由几种最先进的LLMs生成的合成数据集的多样性(即语言表达、情感和用户视角)和隐私(即重新识别风险和风格异常值)。实验结果揭示了LLMs在生成多样化和隐私保护的合成数据方面的显著局限性。根据评估结果,我们提出了一种基于提示的方法,以在保护评论者隐私的同时增强合成评论的多样性。 |
[13] TELEVAL:一种为中文交互场景中的口语语言模型设计的动态基准 标题: TELEVAL: A Dynamic Benchmark Designed for Spoken Language Models in Chinese Interactive Scenarios 作者: Zehan Li / Hongjie Chen / Yuxin Zhang / Jing Zhou / Xuening Wang / Hang Lv / Mengjie Du / Yaodong Song / Jie Lian / Jian Kang / Jie Li / Yongxiang Li / Zhongjiang He / Xuelong Li 原文: [英文] [中文] 备注: None 摘要: 近年来,口语语言模型(SLMs)取得了快速进展,同时也出现了许多用于评估其性能的基准。然而,大多数现有的基准主要关注评估SLMs是否能够执行与大型语言模型(LLMs)相当的复杂任务,往往未能与用户在真实世界对话场景中的自然互动方式保持一致。在本文中,我们提出了TELEVAL,这是一种专门设计用于评估SLMs在现实中文互动环境中作为对话代理有效性的动态基准。TELEVAL定义了三个评估维度:显性语义、副语言和隐性语义,以及系统能力。它采用与真实世界使用一致的对话格式,并分别评估文本和音频输出。TELEVAL特别关注模型从用户语音中提取隐性线索并在没有额外指令的情况下做出适当响应的能力。我们的实验表明,尽管最近取得了一些进展,现有的SLMs在自然对话任务中仍有相当大的改进空间。我们希望TELEVAL能够作为一个以用户为中心的评估框架,直接反映用户体验,并有助于开发更强大的面向对话的SLMs。 |
[14] 大型语言模型的混合和单一微调:资源受限下的方法与基准测试 标题: Hybrid and Unitary Fine-Tuning of Large Language Models: Methods and Benchmarking under Resource Constraints 作者: Haomin Qi / Zihan Dai / Chengbo Huang 原文: [英文] [中文] 备注: 10 pages, 2 figures and 1 table 摘要: 微调大型语言模型(LLMs)由于其规模和内存需求,仍然是一个计算瓶颈。本文对参数高效微调(PEFT)技术进行了全面评估,包括LoRA、BOFT、LoRA-GA和uRNN,并引入了一种新颖的混合策略,该策略动态整合了BOFT的正交稳定性和LoRA-GA的梯度对齐快速收敛性。通过计算由梯度范数引导的每层自适应更新,混合方法在各种任务中实现了卓越的收敛效率和泛化能力。我们还首次探索了将单位RNN(uRNN)原理适应于基于Transformer的LLMs,通过结构化的单位约束增强梯度稳定性。在四个基准测试——GLUE、GSM8K、MT-Bench和HumanEval上进行的实证评估中,使用从7B到405B参数的模型,结果表明我们的混合方法始终优于单个PEFT基线,接近完全微调的准确性,同时在训练时间上减少了最多2.1倍,在内存使用上减少了50%。这些发现确立了混合方法作为在资源受限情况下LLMs实际部署的实用且可扩展的微调解决方案。 |
[15] 一对新的GloVe词向量 标题: A New Pair of GloVes 作者: Riley Carlson / John Bauer / Christopher D. Manning 原文: [英文] [中文] 备注: None 摘要: 本报告记录、描述并评估了新的2024年英语GloVe(词表示的全局向量)模型。尽管最初在2014年构建的GloVe模型被广泛使用并被认为有用,但语言和世界在不断发展,我们认为当前的使用可以从更新的模型中受益。此外,2014年的模型在使用的确切数据版本和预处理方面没有得到仔细记录,我们通过记录这些新模型来纠正这一点。我们使用维基百科、Gigaword和Dolma的一个子集训练了两组词嵌入。通过词汇比较、直接测试和命名实体识别(NER)任务的评估表明,2024年的向量包含了新的文化和语言相关的词汇,在类比和相似性等结构性任务上表现相当,并在最近的、时间相关的NER数据集(如非西方新闻数据)上表现出改进的性能。 |
[16] GOAT-SLM:一种具备副语言和说话者特征感知的口语语言模型 标题: GOAT-SLM: A Spoken Language Model with Paralinguistic and Speaker Characteristic Awareness 作者: Hongjie Chen / Zehan Li / Yaodong Song / Wenming Deng / Yitong Yao / Yuxin Zhang / Hang Lv / Xuechao Zhu / Jian Kang / Jie Lian / Jie Li / Chao Wang / Shuangyong Song / Yongxiang Li / Zhongjiang He 原文: [英文] [中文] 备注: None 摘要: 最近在端到端口语语言模型(SLM)方面的进展显著提高了人工智能系统进行自然口语互动的能力。然而,大多数现有模型仅将语音视为语言内容的载体,往往忽视了人类语音中蕴含的丰富副语言和说话者特征线索,如方言、年龄、情感和非语音发声。在这项工作中,我们介绍了GOAT-SLM,这是一种具有副语言和说话者特征意识的新型口语语言模型,旨在将口语语言建模扩展到文本语义之外。GOAT-SLM采用双模态头架构,将语言建模与声学实现解耦,实现稳健的语言理解,同时支持富有表现力和适应性的语音生成。为了提高模型的效率和多功能性,我们提出了一种模块化、分阶段的训练策略,利用大规模语音文本语料库逐步对齐语言、副语言和说话者特征信息。在TELEVAL,一个多维度评估基准上的实验结果表明,GOAT-SLM在语义和非语义任务中实现了良好的平衡性能,并在处理情感、方言变化和年龄敏感的互动方面优于现有的开源模型。这项工作强调了超越语言内容建模的重要性,并推动了更自然、适应性更强且具有社会意识的口语语言系统的发展。 |
[17] MathOPEval:用于评估多模态大模型在数学推理中视觉操作的细粒度基准 标题: MathOPEval: A Fine-grained Evaluation Benchmark for Visual Operations of MLLMs in Mathematical Reasoning 作者: Xiaoyuan Li / Moxin Li / Wenjie Wang / Rui Men / Yichang Zhang / Fuli Feng / Dayiheng Liu / Junyang Lin 原文: [英文] [中文] 备注: Under Review 摘要: 最近在多模态大型语言模型(MLLMs)方面的进展使得通过基于文本指令执行视觉操作来进行逐步的多模态数学推理成为可能。一种有前途的方法是使用代码作为中间表示,以精确表达和操作推理步骤中的图像。然而,现有的评估主要集中在仅文本的推理输出上,对MLLM通过代码执行准确视觉操作的能力探索较少。本文首次尝试解决这一差距,通过评估MLLM在多模态数学推理中的基于代码的能力。我们的框架关注两个关键评估方面:(1)多模态代码生成(MCG)评估模型从头开始准确理解和构建可视化的能力。(2)多模态代码编辑(MCE)评估模型进行细粒度操作的能力,包括三种类型:删除、修改和注释。为了评估上述任务,我们引入了一个涵盖五种最流行数学图形类型的数据集,包括几何图、函数图和三种类型的统计图表,以提供对现有MLLMs的全面和有效的测量。我们的实验评估涉及九种主流MLLMs,结果显示现有模型在执行细粒度视觉操作方面仍显著落后于人类表现。 |
[18] HIVMedQA:用于HIV医疗决策支持的大型语言模型基准测试 标题: HIVMedQA: Benchmarking large language models for HIV medical decision support 作者: Gonzalo Cardenal Antolin / Jacques Fellay / Bashkim Jaha / Roger Kouyos / Niko Beerenwinkel / Diane Duroux 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)正在成为支持临床医生日常决策的重要工具。HIV管理是一个引人注目的用例,因为其复杂性,包括多样的治疗选择、合并症和依从性挑战。然而,将LLMs整合到临床实践中引发了关于准确性、潜在危害和临床医生接受度的担忧。尽管前景广阔,AI在HIV护理中的应用仍未被充分探索,LLM的基准研究也很少。本研究评估了LLMs在HIV管理中的当前能力,突出了其优点和局限性。我们引入了HIVMedQA,这是一个旨在评估HIV护理中开放式医学问答的基准。该数据集由经过策划的、具有临床相关性的问题组成,并由传染病医生提供意见。我们评估了七个通用和三个医学专用的LLMs,应用提示工程以提高性能。我们的评估框架结合了词汇相似性和LLM作为评判者的方法,扩展以更好地反映临床相关性。我们在关键维度上评估了性能:问题理解、推理、知识回忆、偏见、潜在危害和事实准确性。结果显示,Gemini 2.5 Pro在大多数维度上始终优于其他模型。值得注意的是,排名前三的模型中有两个是专有的。随着问题复杂性的增加,性能下降。医学微调模型并不总是优于通用模型,且更大的模型规模并不是性能的可靠预测指标。推理和理解比事实回忆更具挑战性,并观察到认知偏见,如新近性和现状偏见。这些发现强调了有针对性的开发和评估的必要性,以确保LLM在临床护理中的安全有效整合。 |
[19] 坚持均值:检测文本嵌入模型中的粘性标记 标题: Sticking to the Mean: Detecting Sticky Tokens in Text Embedding Models 作者: Kexin Chen / Dongxia Wang / Yi Liu / Haonan Zhang / Wenhai Wang 原文: [英文] 备注: ACL 2025 main 摘要: 尽管基于Transformer的文本嵌入模型在自然语言处理任务中被广泛使用,但令人惊讶的“粘性标记”可能会削弱嵌入的可靠性。这些标记在句子中反复插入时,会将句子相似性拉向某个特定值,扰乱嵌入距离的正态分布,并降低下游性能。在本文中,我们系统地研究了这种异常标记,正式定义了它们,并引入了一种基于句子和标记过滤的高效检测方法,称为粘性标记检测器(STD)。将STD应用于14个模型家族的40个检查点,我们总共发现了868个粘性标记。我们的分析表明,这些标记通常来源于词汇表中的特殊或未使用条目,以及多语言语料库中的碎片化子词。值得注意的是,它们的存在与模型大小或词汇表大小没有严格的相关性。我们进一步评估了粘性标记如何影响下游任务,如聚类和检索,观察到性能显著下降,最高可达50%。通过注意力层分析,我们表明粘性标记不成比例地主导了模型的内部表示,引发了对标记化鲁棒性的担忧。我们的研究结果表明,需要更好的标记化策略和模型设计,以减轻粘性标记在未来文本嵌入应用中的影响。 |
[20] SCOPE:用于评估大型语言模型的随机和反偏置选项放置 标题: SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models 作者: Wonjun Jeong / Dongseok Kim / Taegkeun Whangbo 原文: [英文] [中文] 备注: 34 pages, 1 figure 摘要: 大型语言模型(LLMs)可以通过利用选项位置或标签中的固有偏差来在多项选择任务中获得虚高的分数,而不是展示真正的理解。该研究介绍了SCOPE,这是一种评估框架,旨在以与数据集无关的方式测量和减轻这种选择偏差。通过反复调用缺乏语义内容的空提示,SCOPE估计每个模型独特的位置偏差分布。然后,它根据逆偏差分布重新分配答案位置,从而使幸运率(即通过偶然选择正确答案的概率)均等化。此外,它防止语义上相似的干扰项与答案相邻,从而阻止基于表面接近线索的近似猜测。在多个基准实验中,SCOPE在稳定性能提升方面始终优于现有的去偏方法,并在正确选项上显示出更清晰的置信分布。因此,该框架为提高LLM评估的公平性和可靠性提供了新的标准。 |
[21] TN-AutoRCA:用于电信网络中基于告警的根因分析的基准构建和自主改进框架 标题: TN-AutoRCA: Benchmark Construction and Agentic Framework for Self-Improving Alarm-Based Root Cause Analysis in Telecommunication Networks 作者: Keyu Wu / Qianjin Yu / Manlin Mei / Ruiting Liu / Jun Wang / Kailai Zhang / Yelun Bao 原文: [英文] [中文] 备注: 10 pages 摘要: 在电信网络中,根本原因分析(RCA)是一项关键任务,但由于其复杂的基于图的推理要求以及现实基准的稀缺性,这对人工智能(AI)来说是一个巨大的挑战。 |
[22] 将符合ISO30401标准的知识管理系统与组织现有业务流程相集成 标题: Integrating an ISO30401-compliant Knowledge management system with existing business processes of an organization 作者: Aline Belloni / Patrick Prieur 原文: [英文] [中文] 备注: in French language. AGeCSO2025 : 18{è}me Colloque International de l'Association pour la Gestion des Connaissances dans la Soci{é}t{é} et les Organisations, Association pour la Gestion des Connaissances dans la Soci{é}t{é} et les Organisations (AGECSO), Jun 2025, TROYES, France 摘要: 业务流程建模被大多数组织用作确保员工工作和工作流程的效率和有效性以及确保这些工作与其战略目标一致的基本框架。对于符合或接近符合ISO 9001的组织,这种方法涉及对流程、子流程、活动和任务的详细映射。ISO30401是一个管理系统标准,于2018年推出,建立了在组织中设置知识管理系统的通用要求。作为“ISO30401实施者”,我们经常面临的挑战是向客户解释ISO30401中描述的知识开发、转化和传递活动如何与现有的运营流程相结合。本文回顾了ISO9001背景下的流程建模原则,并基于我们的经验探讨了符合ISO30401的知识管理系统(KMS)如何与综合管理系统的所有其他流程交织在一起,特别是如何通过PDCA循环步骤部署SECI模型的机制来实施。 |
[23] 使用GMTP保护RAG管道:一种基于梯度的掩码标记概率方法用于检测被污染的文档 标题: Safeguarding RAG Pipelines with GMTP: A Gradient-based Masked Token Probability Method for Poisoned Document Detection 作者: San Kim / Jonghwi Kim / Yejin Jeon / Gary Geunbae Lee 原文: [英文] [中文] 备注: 18 pages, accepted to ACL Findings 2025 摘要: 检索增强生成(RAG)通过提供外部知识来增强大型语言模型(LLMs),以实现准确和最新的响应。然而,这种对外部来源的依赖暴露了安全风险,攻击者可以向知识库中注入恶意文档,以引导生成过程产生有害或误导性的输出。在本文中,我们提出了一种新的防御方法——基于梯度的掩码标记概率(GMTP),用于检测和过滤对抗性制作的文档。具体来说,GMTP通过检查检索器的相似性函数的梯度来识别高影响力的标记。这些关键标记随后被掩盖,并通过掩码语言模型(MLM)检查其概率。由于注入的标记通常表现出显著低的掩码标记概率,这使得GMTP能够轻松检测恶意文档并实现高精度过滤。实验表明,GMTP能够消除超过90%的恶意内容,同时保留相关文档,从而在不同的数据集和对抗性环境中保持强大的检索和生成性能。 |
[24] 探索指令微调对大型语言模型易受错误信息影响的影响 标题: Exploring the Impact of Instruction-Tuning on LLM's Susceptibility to Misinformation 作者: Kyubeen Han / Junseo Jang / Hongjin Kim / Geunyeong Jeong / Harksoo Kim 原文: [英文] [中文] 备注: ACL 2025 Main Accepted 摘要: 指令微调增强了大型语言模型(LLMs)更准确地遵循用户指令的能力,提高了可用性,同时减少了有害输出。然而,这一过程可能增加模型对用户输入的依赖,可能导致不加过滤地接受错误信息和生成幻觉。现有研究主要强调LLMs容易接受与其参数化知识相矛盾的外部信息,但关于指令微调对这一现象的直接影响的研究很少。在我们的研究中,我们调查了指令微调对LLM易受错误信息影响的影响。我们的分析表明,当错误信息由用户提供时,经过指令微调的LLMs显著更可能接受这些信息。与基础模型的比较显示,指令微调增加了对用户提供信息的依赖,将易受影响性从助手角色转移到用户角色。此外,我们还探讨了影响错误信息易受影响性的其他因素,例如用户在提示结构中的角色、错误信息的长度以及系统提示中警告的存在。我们的研究结果强调了需要系统性的方法来减轻指令微调的意外后果,并提高LLMs在实际应用中的可靠性。 |
[25] 剪枝与补偿:通过迭代剪枝与幅度补偿为层剪枝的大型语言模型提供免费午餐 标题: Prune&Comp: Free Lunch for Layer-Pruned LLMs via Iterative Pruning with Magnitude Compensation 作者: Xinrui Chen / Hongxing Zhang / Fanyi Zeng / Yongxian Wei / Yizhi Wang / Xitong Ling / Guanghao Li / Chun Yuan 原文: [英文] [中文] 备注: None 摘要: 层剪枝已成为压缩大型语言模型(LLMs)的一个有前途的技术,同时实现与剪枝率成比例的加速。在这项工作中,我们发现移除任何一层都会在隐藏状态中引入显著的幅度差距,导致性能大幅下降。为了解决这个问题,我们提出了Prune&Comp,这是一种新颖的即插即用层剪枝方案,利用幅度补偿以无训练的方式来缓解这种差距。具体来说,我们首先估计由于层移除而导致的幅度差距,然后通过离线重新调整剩余权重的比例来消除这种差距,不会产生任何运行时开销。我们进一步通过迭代剪枝策略展示了Prune&Comp的优势。当与迭代剪枝和补偿循环结合时,Prune&Comp持续提升现有的层剪枝指标。例如,当使用流行的块影响指标对LLaMA-3-8B的5层进行剪枝时,Prune&Comp几乎将困惑度减半,并保留了原始模型93.19%的问答性能,比基线高出4.01%。 |
[26] 定位与聚焦:增强语音语言模型中的术语翻译 标题: Locate-and-Focus: Enhancing Terminology Translation in Speech Language Models 作者: Suhang Wu / Jialong Tang / Chengyi Yang / Pei Zhang / Baosong Yang / Junhui Li / Junfeng Yao / Min Zhang / Jinsong Su 原文: [英文] [中文] 备注: Accepted at ACL 2025 摘要: 直接语音翻译(ST)近年来受到越来越多的关注,但在语句中准确翻译术语仍然是一个巨大挑战。在这方面,目前的研究主要集中在将各种翻译知识融入ST模型。然而,这些方法往往难以应对来自无关噪声的干扰,并且无法充分利用翻译知识。为了解决这些问题,本文提出了一种新颖的术语翻译定位与聚焦方法。该方法首先有效定位语句中包含术语的语音片段,以构建翻译知识,最大限度地减少对ST模型的无关信息干扰。随后,它将翻译知识与语句及假设从音频和文本模态关联起来,使ST模型在翻译过程中能够更好地聚焦于翻译知识。各种数据集的实验结果表明,我们的方法能够有效定位语句中的术语,并提高术语翻译的成功率,同时保持稳健的整体翻译性能。 |
[27] 低资源语言的零样本OCR准确性:对僧伽罗语和泰米尔语的比较分析 标题: Zero-shot OCR Accuracy of Low-Resourced Languages: A Comparative Analysis on Sinhala and Tamil 作者: Nevidu Jayatilleke / Nisansa de Silva 原文: [英文] [中文] 备注: 10 pages, 4 figures, Accepted paper at Recent Advances in Natural Language Processing (RANLP) 2025 摘要: 解决拉丁及其衍生文字的印刷文本光学字符识别(OCR)问题现在可以认为已经解决,因为在英语和其他高资源语言(HRL)上进行了大量研究。然而,对于使用独特文字的低资源语言(LRL),这一问题仍然悬而未决。本研究对六种不同的OCR引擎在两种低资源语言:僧伽罗语和泰米尔语上的零样本性能进行了比较分析。所选引擎包括商业和开源系统,旨在评估每个类别的优势。对Cloud Vision API、Surya、Document AI和Tesseract进行了僧伽罗语和泰米尔语的评估,而由于其限制,Subasa OCR和EasyOCR仅对一种语言进行了评估。使用五种测量技术对这些系统的性能进行了严格分析,以评估字符和单词级别的准确性。根据研究结果,Surya在所有指标上为僧伽罗语提供了最佳性能,词错误率(WER)为2.61%。相反,Document AI在所有指标上为泰米尔语表现出色,字符错误率(CER)非常低,仅为0.78%。除了上述分析,我们还引入了一个新的合成泰米尔语OCR基准数据集。 |
[28] StyleAdaptedLM:通过高效的风格迁移增强指令遵循模型 标题: StyleAdaptedLM: Enhancing Instruction Following Models with Efficient Stylistic Transfer 作者: Pritika Ramu / Apoorv Saxena / Meghanath M Y / Varsha Sankar / Debraj Basu 原文: [英文] [中文] 备注: None 摘要: 将大型语言模型(LLMs)适应特定的风格特征,如品牌语调或作者语气,对于企业沟通至关重要,但从缺乏指令-响应格式的语料库中实现这一点具有挑战性,同时又不能影响对指令的遵循。我们介绍了StyleAdaptedLM,这是一种使用低秩适应(LoRA)有效地将风格特征转移到指令遵循模型的框架。LoRA适配器首先在具有多样化非结构化风格语料库的基础模型上进行训练,然后与一个单独的指令遵循模型合并。这使得在没有配对数据或不牺牲任务性能的情况下实现强大的风格定制。跨多个数据集和模型的实验表明,在保持指令遵循的同时,风格一致性得到了改善,人类评估证实了品牌特定惯例的吸收。StyleAdaptedLM为LLMs中的风格个性化提供了一条高效的路径。 |
[29] BadReasoner:在大型推理模型中植入可调节的过度思考后门以供娱乐或牟利 标题: BadReasoner: Planting Tunable Overthinking Backdoors into Large Reasoning Models for Fun or Profit 作者: Biao Yi / Zekun Fei / Jianing Geng / Tong Li / Lihai Nie / Zheli Liu / Yiming Li 原文: [英文] 备注: None 摘要: 大型推理模型(LRMs)作为人工智能领域的重要进展,代表了一类专门设计用于处理复杂推理任务的大型语言模型(LLMs)。LRMs的定义特征在于其广泛的思维链(CoT)推理能力。在本文中,我们识别出一个之前未被探索的针对LRMs的攻击向量,我们称之为“过度思考后门”。我们通过提出一种新颖的可调后门来推进这一概念,这种后门超越了简单的开/关攻击,使攻击者能够精确控制模型推理冗长程度。我们的攻击通过一种新颖的数据投毒方法实现。它结合了一个可调触发器——重复次数表示所需强度——与相应冗长的CoT响应。这些响应是通过指示一个教师LLM在正确的推理过程中注入受控数量的冗余细化步骤来程序化生成的。该方法保留了输出的正确性,确保了隐蔽性,并将攻击确立为纯粹的资源消耗向量。对各种LRMs的广泛实验证明,我们的方法可以可靠地触发推理过程长度的可控多倍增加,而不会降低最终答案的正确性。我们的源代码可在此https URL获取。 |
[30] 用于评估机器翻译偏差的不确定性量化 标题: Uncertainty Quantification for Evaluating Machine Translation Bias 作者: Ieva Raminta Staliūnaitė / Julius Cheng / Andreas Vlachos 原文: [英文] [中文] 备注: None 摘要: 在机器翻译(MT)中,当源句包含一个性别未明确标记的词素,而其目标语言的对应词需要性别说明时,模型必须从上下文和/或外部知识中推断出适当的性别。研究表明,MT模型表现出偏见行为,即使在与上下文信息相冲突时也依赖于刻板印象。我们认为,除了在输入中明显的情况下自信地使用正确的性别进行翻译外,模型还应在性别不明确时保持不确定性。使用最近提出的语义不确定性指标,我们发现,在不含糊的实例中具有高翻译和性别准确性的模型在含糊的实例中不一定表现出预期的不确定性水平。同样,去偏见化对含糊和不含糊的翻译实例有独立的影响。 |
[31] TDR:用于上下文学习的具有细粒度大语言模型反馈的任务解耦检索 标题: TDR: Task-Decoupled Retrieval with Fine-Grained LLM Feedback for In-Context Learning 作者: Yifu Chen / Bingchen Huang / Zhiling Wang / Yuanchao Du / Junfeng Luo / Lei Shen / Zhineng chen 原文: [英文] 备注: None 摘要: 上下文学习(ICL)已成为一种经典的方法,通过少量的输入输出示例使大型语言模型(LLMs)能够处理各种任务。ICL 的有效性在很大程度上依赖于这些示例的质量,之前专注于增强示例检索能力的工作已经取得了令人印象深刻的表现。然而,在检索高质量示例时仍然存在两个挑战:(1)难以区分跨任务的数据分布,(2)难以在检索器输出和 LLMs 的反馈之间建立细粒度的连接。在本文中,我们提出了一种新颖的框架,称为 TDR。TDR 将 ICL 示例从不同任务中解耦,这使得检索模块能够在多任务数据集中检索特定于目标任务的示例。此外,TDR 对 LLMs 的细粒度反馈进行建模,以监督和指导检索模块的训练,从而帮助检索高质量的示例。我们在 30 个 NLP 任务的套件上进行了广泛的实验,结果表明 TDR 在所有数据集上持续提高了结果,并达到了最先进的性能。同时,我们的方法是一种即插即用的方法,可以轻松与各种 LLMs 结合,以提高 ICL 的示例检索能力。代码可在此 https URL 获得。 |
[32] 宣传检测的混合注释:将大型语言模型的预注释与人类智能相结合 标题: Hybrid Annotation for Propaganda Detection: Integrating LLM Pre-Annotations with Human Intelligence 作者: Ariana Sahitaj / Premtim Sahitaj / Veronika Solopova / Jiaao Li / Sebastian Möller / Vera Schmitt 原文: [英文] [中文] 备注: NLP4PI at ACL 摘要: 由于任务复杂性和高质量标注数据的有限性,社交媒体上的宣传检测仍然具有挑战性。本文介绍了一种新颖的框架,该框架结合了人类专业知识和大型语言模型(LLM)的辅助,以提高标注的一致性和可扩展性。我们提出了一种分层分类法,将14种细粒度的宣传技术组织成三个更广泛的类别,并在HQP数据集上进行了一项人类标注研究,揭示了细粒度标签的标注者间一致性较低。我们实施了一种LLM辅助的预标注流程,该流程提取宣传性片段,生成简明解释,并分配局部标签和全局标签。二次人类验证研究显示,在一致性和时间效率上都有显著改善。在此基础上,我们微调了较小的语言模型(SLM)以执行结构化标注。我们不是在人工标注上进行微调,而是在高质量的LLM生成数据上进行训练,使得大型模型可以生成这些标注,而较小的模型通过知识蒸馏学习生成它们。我们的工作有助于开发可扩展且稳健的宣传检测系统,支持透明和负责任的媒体生态系统的理念,符合可持续发展目标16。代码在我们的GitHub仓库中公开可用。 |
[33] CLEAR: 通过将大型语言模型作为评判者简化错误分析 标题: CLEAR: Error Analysis via LLM-as-a-Judge Made Easy 作者: Asaf Yehudai / Lilach Eden / Yotam Perlitz / Roy Bar-Haim / Michal Shmueli-Scheuer 原文: [英文] [中文] 备注: None 摘要: 对大型语言模型(LLMs)的评估越来越依赖于其他LLMs作为评判者。然而,目前的评估范式通常只产生一个分数或排名,回答哪个模型更好,但没有解释原因。虽然这对于基准测试至关重要,但这些顶级分数掩盖了模型性能背后具体且可操作的原因。为了弥补这一差距,我们引入了CLEAR,一个用于基于LLM的错误分析的交互式开源软件包。CLEAR首先生成每个实例的文本反馈,然后创建一组系统级错误问题,并量化每个识别问题的普遍性。我们的软件包还为用户提供了一个交互式仪表板,允许通过汇总可视化进行全面的错误分析,应用交互式过滤器以隔离特定问题或分数范围,并深入到体现特定行为模式的个别实例。我们展示了CLEAR对RAG和数学基准的分析,并通过用户案例研究展示了其实用性。 |
[34] 多语言维基百科表格中的事实不一致性 标题: Factual Inconsistencies in Multilingual Wikipedia Tables 作者: Silvia Cappa / Lingxiao Kong / Pille-Riin Peet / Fanfu Wei / Yuchen Zhou / Jan-Christoph Kalo 原文: [英文] [中文] 备注: 11 pages, 7 figures, White Paper for RTF Work at ISWS Summer School 2025 摘要: 维基百科作为一个全球可访问的知识来源,拥有超过300种语言的内容。尽管涵盖相同的主题,不同版本的维基百科是独立撰写和更新的。这导致了事实不一致性,可能影响百科全书的中立性和可靠性,以及通常依赖维基百科作为主要训练来源的人工智能系统。本研究调查了维基百科结构化内容中的跨语言不一致性,重点关注表格数据。我们开发了一种方法来收集、对齐和分析来自维基百科多语言文章的表格,并定义了不一致性的类别。我们应用各种定量和定性指标来使用样本数据集评估多语言对齐。这些见解对事实验证、多语言知识互动以及设计利用维基百科内容的可靠人工智能系统具有重要意义。 |
[35] FinDPO:通过大型语言模型的偏好优化进行算法交易的金融情感分析 标题: FinDPO: Financial Sentiment Analysis for Algorithmic Trading through Preference Optimization of LLMs 作者: Giorgos Iacovides / Wuyang Zhou / Danilo Mandic 原文: [英文] [中文] 备注: None 摘要: 在线金融相关文本数据中表达的观点对交易决策和市场走势的影响日益深远。这一趋势突显了情感分析作为量化此类观点的性质和强度的工具的重要作用。随着生成式人工智能(GenAI)的快速发展,经过监督微调(SFT)的大型语言模型(LLMs)已成为金融情感分析的事实标准。然而,SFT范式可能导致对训练数据的记忆,并且通常无法推广到未见过的样本。这在金融领域是一个关键的限制,因为模型必须适应以前未观察到的事件和金融领域特有的细微语言。为此,我们引入了FinDPO,这是第一个基于直接偏好优化(DPO)进行后训练人类偏好对齐的金融特定LLM框架。所提出的FinDPO在标准情感分类基准上实现了最先进的性能,平均比现有的监督微调模型高出11%。独特的是,FinDPO框架通过一种新颖的“logit-to-score”转换,将离散的情感预测转化为连续的、可排名的情感分数(概率),从而使微调的因果LLM能够集成到现实的投资组合策略中。通过这种方式,模拟表明,FinDPO是第一个在现实交易成本为5个基点(bps)的情况下,仍能保持67%年均显著正回报和强劲风险调整表现(夏普比率为2.0)的基于情感的方法。 |
[36] AraTable:基准测试大型语言模型对阿拉伯表格数据的推理和理解 标题: AraTable: Benchmarking LLMs' Reasoning and Understanding of Arabic Tabular Data 作者: Rana Alshaikh / Israa Alghanmi / Shelan Jeawak 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的认知和推理能力在自然语言处理方面取得了显著进展。然而,它们在解释结构化数据,特别是表格格式方面的表现仍然有限。尽管针对英语表格数据的基准测试广泛可用,但由于公共资源的有限性和阿拉伯语独特的语言特征,阿拉伯语仍然代表性不足。为了解决这一差距,我们提出了AraTable,这是一个新颖且全面的基准,旨在评估LLMs在应用于阿拉伯语表格数据时的推理和理解能力。AraTable由各种评估任务组成,如直接问答、事实验证和复杂推理,涉及广泛的阿拉伯语表格来源。我们的方法遵循混合流程,初始内容由LLMs生成,随后由人类专家过滤和验证,以确保数据集的高质量。使用AraTable的初步分析表明,尽管LLMs在较简单的表格任务(如直接问答)上表现尚可,但在需要更深层次推理和事实验证的任务中仍面临显著的认知挑战。这表明在复杂表格推理任务的性能改进方面存在巨大的未来工作机会。我们还提出了一个完全自动化的评估框架,该框架使用自我审议机制,达到了几乎与人类评审相同的性能。该研究提供了一个有价值的、公开可用的资源和评估框架,可以帮助加速基础模型在处理和分析阿拉伯语结构化数据方面的发展。 |
[37] 恢复节奏:使用Transformer模型为低资源语言孟加拉语进行标点符号恢复 标题: Restoring Rhythm: Punctuation Restoration Using Transformer Models for Bangla, a Low-Resource Language 作者: Md Obyedullahil Mamun / Md Adyelullahil Mamun / Arif Ahmad / Md. Imran Hossain Emu 原文: [英文] [中文] 备注: None 摘要: 标点恢复可以提高文本的可读性,并且对于自动语音识别(ASR)中的后处理任务至关重要,尤其是对于像孟加拉语这样的低资源语言。在这项研究中,我们探讨了基于Transformer的模型,特别是XLM-RoBERTa-large,在无标点的孟加拉语文本中自动恢复标点符号的应用。我们专注于预测四种标点符号:句号、逗号、问号和感叹号,涵盖多样的文本领域。为了解决标注资源稀缺的问题,我们构建了一个大型、多样化的训练语料库,并应用了数据增强技术。我们表现最好的模型在增强因子alpha = 0.20%的情况下训练,在新闻测试集上达到了97.1%的准确率,在参考集上达到了91.2%,在ASR集上达到了90.2%。结果显示,该模型在参考和ASR转录本上具有很强的泛化能力,证明了其在真实世界嘈杂场景中的有效性。这项工作为孟加拉语标点恢复建立了一个强有力的基线,并贡献了公开可用的数据集和代码,以支持未来在低资源自然语言处理领域的研究。 |
[38] 合成临床文本的生成:系统综述 标题: Generation of Synthetic Clinical Text: A Systematic Review 作者: Basel Alshaikhdeeb / Ahmed Abdelmonem Hemedan / Soumyabrata Ghosh / Irina Balaur / Venkata Satagopam 原文: [英文] [中文] 备注: None 摘要: 生成临床合成文本是解决常见临床自然语言处理问题(如稀疏性和隐私性)的有效方案。本文旨在通过对三个研究问题进行定量分析,系统回顾生成合成医学自由文本的研究,这三个问题涉及(i)生成的目的,(ii)技术,以及(iii)评估方法。我们在PubMed、ScienceDirect、Web of Science、Scopus、IEEE、Google Scholar和arXiv数据库中搜索了与生成合成医学非结构化自由文本相关的出版物。在收集的1,398篇文章中,我们确定了94篇相关的文章。从2018年开始,合成医学文本的生成受到了极大的关注,其主要目的是文本增强、辅助写作、语料库构建、隐私保护、注释和实用性。Transformer架构是生成文本的主要技术,尤其是GPTs。在评估方面,主要有四个方面,包括相似性、隐私性、结构和实用性,其中实用性是评估生成的合成医学文本最常用的方法。尽管生成的合成医学文本在不同的下游自然语言处理任务中表现出作为真实医学文档的中等可能性,但它已被证明是对真实文档的极大补充,有助于提高准确性并克服稀疏/欠采样问题。然而,隐私仍然是生成合成医学文本的主要问题,需要更多的人为评估来检查是否存在任何敏感信息。尽管如此,合成医学文本生成的进步将大大加速工作流程和管道开发的采用,省去耗时的数据传输法律问题。 |
[39] 并非所有特征都值得关注:基于图引导的依赖学习用于表格数据生成的语言模型 标题: Not All Features Deserve Attention: Graph-Guided Dependency Learning for Tabular Data Generation with Language Models 作者: Zheyu Zhang / Shuo Yang / Bardh Prenkaj / Gjergji Kasneci 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)通过对文本化的特征-值对进行建模,在表格数据生成方面展示了强大的潜力。然而,表格数据本质上表现出稀疏的特征级依赖性,其中许多特征交互在结构上并不显著。这导致了一个根本的不匹配,因为LLMs的自注意力机制不可避免地将注意力分散到所有对上,从而削弱了对关键关系的关注,特别是在具有复杂依赖关系或语义模糊特征的数据集中。为了解决这一限制,我们提出了GraDe(图引导的依赖学习),这是一种新颖的方法,明确地将稀疏依赖图整合到LLMs的注意力机制中。GraDe采用一个轻量级的动态图学习模块,由外部提取的功能依赖引导,优先考虑关键特征交互,同时抑制不相关的交互。我们在各种真实世界数据集上的实验表明,GraDe在复杂数据集上比现有的基于LLM的方法表现高出最多12%,同时在合成数据质量上取得了与最先进方法相当的结果。我们的方法侵入性极小但效果显著,为LLMs的结构感知表格数据建模提供了一个实用的解决方案。 |
[40] 大型语言模型的道德差距 标题: The Moral Gap of Large Language Models 作者: Maciej Skorski / Alina Landowska 原文: [英文] [中文] 备注: preprint 摘要: 道德基础检测对于分析社会话语和开发符合伦理的人工智能系统至关重要。尽管大型语言模型在各种任务中表现出色,但它们在专门的道德推理方面的表现仍不明确。本研究首次对最先进的大型语言模型和经过微调的变压器在Twitter和Reddit数据集上的表现进行了全面比较,使用ROC、PR和DET曲线分析。结果显示存在显著的性能差距,尽管进行了提示工程,大型语言模型仍表现出较高的假阴性率和系统性地低估道德内容。这些发现表明,在道德推理应用中,任务特定的微调仍然优于提示。 |
[41] 有效的多任务学习用于生物医学命名实体识别 标题: Effective Multi-Task Learning for Biomedical Named Entity Recognition 作者: João Ruano / Gonçalo M. Correia / Leonor Barreiros / Afonso Mendes 原文: [英文] [中文] 备注: Accepted at the 24th BioNLP workshop (ACL2025), 15 pages, 3 figures 摘要: 生物医学命名实体识别由于生物医学术语的复杂性和数据集之间标注不一致性而面临重大挑战。本文介绍了SRU-NER(基于槽的递归单元命名实体识别),这是一种新颖的方法,旨在处理嵌套命名实体,同时通过有效的多任务学习策略整合多个数据集。SRU-NER通过动态调整损失计算来缓解标注差距,以避免惩罚在给定数据集中缺失的实体类型的预测。通过广泛的实验,包括跨语料库评估和对模型预测的人为评估,SRU-NER在生物医学和通用领域的命名实体识别任务中实现了具有竞争力的性能,同时提高了跨领域的泛化能力。 |
[42] GLiNER2:一种具有模式驱动接口的高效多任务信息提取系统 标题: GLiNER2: An Efficient Multi-Task Information Extraction System with Schema-Driven Interface 作者: Urchade Zaratiana / Gil Pasternak / Oliver Boyd / George Hurn-Maloney / Ash Lewis 原文: [英文] [中文] 备注: None 摘要: 信息抽取(IE)是众多自然语言处理(NLP)应用的基础,但现有的解决方案通常需要为不同任务设计专门的模型,或者依赖于计算成本高的大型语言模型。我们提出了GLiNER2,这是一种统一的框架,增强了原始GLiNER架构,以支持命名实体识别、文本分类和层次结构化数据抽取,并集成在一个高效的模型中。GLiNER2基于预训练的Transformer编码器架构构建,保持了CPU效率和紧凑的体积,同时通过直观的基于模式的接口引入了多任务组合。我们的实验表明,与基于大型语言模型的替代方案相比,GLiNER2在抽取和分类任务中表现出竞争力,并在部署可访问性方面有显著提升。我们将GLiNER2作为一个开源的pip可安装库发布,附带预训练模型和文档,详情请访问此HTTPS URL。 |
[43] GIIFT:图引导的无图像多模态归纳机器翻译 标题: GIIFT: Graph-guided Inductive Image-free Multimodal Machine Translation 作者: Jiafeng Xiong / Yuting Zhao 原文: [英文] [中文] 备注: None 摘要: 多模态机器翻译(MMT)已经证明视觉信息在机器翻译中具有显著的帮助。然而,现有的MMT方法在利用模态差距时面临挑战,因为它们强制进行严格的视觉-语言对齐,同时仅限于在其训练的多模态领域内进行推理。在这项工作中,我们构建了新颖的多模态场景图,以保留和整合特定模态的信息,并引入了GIIFT,一种两阶段图引导的无图像MMT框架。该框架使用跨模态图注意网络适配器在统一融合空间中学习多模态知识,并将其归纳推广到更广泛的无图像翻译领域。在英语到法语和英语到德语的Multi30K数据集上的实验结果表明,我们的GIIFT超越了现有方法,并达到了最新水平,即使在推理过程中没有图像。WMT基准测试的结果显示,与无图像翻译基线相比有显著的改进,证明了GIIFT在归纳无图像推理方面的优势。 |
[44] 使用字节对编码和K-MER方法的DNA语言模型的混合分词策略 标题: Hybrid Tokenization Strategy for DNA Language Model using Byte Pair Encoding and K-MER Methods 作者: Ganesh Sapkota / Md Hasibur Rahman 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种新颖的混合分词策略,通过结合6-mer分词和字节对编码(BPE-600)来提升DNA语言模型(DLMs)的性能。传统的k-mer分词在捕捉局部DNA序列结构方面有效,但常常面临挑战,包括不均匀的词元分布和对全局序列上下文的有限理解。为了解决这些限制,我们建议将独特的6mer词元与通过600次BPE循环生成的最佳选择的BPE词元合并。这种混合方法确保了一个平衡且具有上下文感知的词汇表,使模型能够同时捕捉DNA序列中的短期和长期模式。使用这种混合词汇表训练的基础DLM在以next-k-mer预测作为微调任务的评估中表现出显著的性能提升。模型在3-mer、4-mer和5-mer的预测准确率分别达到了10.78%、10.1%和4.12%,优于NT、DNABERT2和GROVER等最先进的模型。这些结果突显了混合分词策略在DNA建模中同时保留局部序列结构和全局上下文信息的能力。该工作强调了高级分词方法在基因组语言建模中的重要性,并为未来在下游DNA序列分析和生物研究中的应用奠定了坚实的基础。 |
[45] 宽进窄出:用于高效和有效DLLM的可撤销解码 标题: Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs 作者: Feng Hong / Geng Yu / Yushi Ye / Haicheng Huang / Huangjie Zheng / Ya Zhang / Yanfeng Wang / Jiangchao Yao 原文: [英文] [中文] 备注: None 摘要: 扩散大语言模型(DLLMs)作为自回归模型的一个引人注目的替代方案出现,旨在实现快速的并行生成。然而,现有的DLLMs受到严重的质量-速度权衡的困扰,其中更快的并行解码导致显著的性能下降。我们将此归因于DLLMs中标准解码的不可逆性,这很容易在早期错误上下文积累的情况下偏向错误的解码方向。为了解决这个问题,我们引入了宽进窄出(WINO),这是一种无需训练的解码算法,使DLLMs中的解码可撤销。WINO采用并行的草稿和验证机制,积极地起草多个标记,同时利用模型的双向上下文来验证和重新掩盖可疑的标记以进行改进。在开源DLLMs如LLaDA和MMaDA中验证,WINO被证明可以决定性地改善质量-速度权衡。例如,在GSM8K数学基准测试中,它将推理速度提高了6倍,同时准确性提高了2.58%;在Flickr30K字幕生成中,它实现了10倍的加速并且性能更高。进行了更全面的实验以展示WINO的优越性并提供深入的理解。 |
[46] CCL25-Eval任务10系统报告:用于细粒度中文仇恨言论识别的SRAG-MAV 标题: System Report for CCL25-Eval Task 10: SRAG-MAV for Fine-Grained Chinese Hate Speech Recognition 作者: Jiahao Wang / Ramen Liu / Longhui Zhang / Jing Li 原文: [英文] [中文] 备注: 8 pages, 3 figures, accepted as oral presentation at CCL25-Eval 摘要: 本文介绍了我们为CCL25-Eval任务10开发的系统,该任务涉及细粒度中文仇恨言论识别(FGCHSR)。我们提出了一种新颖的SRAG-MAV框架,该框架协同整合了任务重构(TR)、自检索增强生成(SRAG)和多轮累积投票(MAV)。我们的方法将四元组提取任务重新构建为三元组提取,使用从训练集中动态检索的上下文提示,并应用多轮推理和投票以提高输出的稳定性和性能。我们的系统基于Qwen2.5-7B模型,在STATE ToxiCN数据集上取得了26.66的硬得分、48.35的软得分和37.505的平均得分,显著优于基线模型如GPT-4o(平均得分15.63)和微调后的Qwen2.5-7B(平均得分35.365)。代码可在此https URL获取。 |
[47] AQuilt:将逻辑和自我检查融入低成本、高相关性数据合成以支持专业大型语言模型 标题: AQuilt: Weaving Logic and Self-Inspection into Low-Cost, High-Relevance Data Synthesis for Specialist LLMs 作者: Xiaopeng Ke / Hexuan Deng / Xuebo Liu / Jun Rao / Zhenxi Song / Jun Yu / Min Zhang 原文: [英文] [中文] 备注: 32 pages, 4 figures 摘要: 尽管大型语言模型(LLMs)在通用领域表现出色,但在专业领域往往表现不佳。现有的方法通常依赖于数据合成方法,通过使用未标记的数据来捕捉领域特定的特征,从而取得了可喜的成果。然而,这些方法要么导致高计算成本,要么在性能上存在局限性,同时在不同任务之间的泛化能力也不足。为了解决这些挑战,我们提出了AQuilt,这是一种从相应的未标记数据中构建任何专业领域的指令微调数据的框架,包括答案、问题、未标记数据、检查、逻辑和任务类型。通过结合逻辑和检查,我们鼓励推理过程和自我检查以提高模型性能。此外,可定制的任务指令能够为任何任务生成高质量的数据。因此,我们构建了一个包含703k个示例的数据集,用于训练一个强大的数据合成模型。实验表明,AQuilt在仅使用17%生产成本的情况下,与DeepSeek-V3相当。进一步的分析表明,我们生成的数据与下游任务具有更高的相关性。源代码、模型和脚本可在此https URL获取。 |
[48] TRPrompt:从文本奖励中自举查询感知提示优化 标题: TRPrompt: Bootstrapping Query-Aware Prompt Optimization from Textual Rewards 作者: Andreea Nica / Ivan Zakazov / Nicolas Mario Baldwin / Saibo Geng / Robert West 原文: [英文] [中文] 备注: None 摘要: 提示优化在无需更新目标模型参数的情况下提高了大型语言模型(LLMs)的推理能力。继基于启发式的“逐步思考”方法之后,该领域主要发展为两个方向:一组方法使用文本反馈从通用LLMs中以无训练方式引出改进的提示,而另一组研究则依赖数值奖励来训练一个特殊的提示模型,以提供最佳提示给目标模型。在本文中,我们介绍了文本奖励提示框架(TRPrompt),通过直接将文本反馈纳入提示模型的训练来统一这些方法。我们的框架不需要事先收集数据集,并通过对生成的提示进行反馈来迭代改进。当结合LLM内化“好”提示概念的能力时,文本奖励提供的高分辨率信号使我们能够训练一个提示模型,为来自具有挑战性的数学数据集GSMHard和MATH的问题生成最先进的查询特定提示。 |
[49] 清单比奖励模型更适合对齐语言模型 标题: Checklists Are Better Than Reward Models For Aligning Language Models 作者: Vijay Viswanathan / Yanchao Sun / Shuang Ma / Xiang Kong / Meng Cao / Graham Neubig / Tongshuang Wu 原文: [英文] [中文] 备注: None 摘要: 语言模型必须进行调整以理解和遵循用户指令。强化学习被广泛用于促进这一过程——通常使用固定的标准,如“有用性”和“有害性”。在我们的工作中,我们提出使用灵活的、特定于指令的标准,作为扩大强化学习在引导指令遵循方面影响的一种手段。我们提出了“基于清单反馈的强化学习”(RLCF)。从指令中,我们提取清单并评估响应对每个项目的满足程度——使用AI评审和专门的验证程序——然后结合这些分数来计算强化学习的奖励。我们将RLCF与其他应用于强指令遵循模型(Qwen2.5-7B-Instruct)的对齐方法在五个广泛研究的基准上进行比较——RLCF是唯一在每个基准上都提高性能的方法,包括在FollowBench上硬满足率提高4点,在InFoBench上增加6点,以及在Arena-Hard上胜率上升3点。这些结果确立了清单反馈作为改进语言模型支持表达多种需求的查询的关键工具。 |