![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年7月29日更新论文81篇
|
[1] 推进心理障碍检测:Transformer和LSTM架构在社交媒体上的比较评估 标题: Advancing Mental Disorder Detection: A Comparative Evaluation of Transformer and LSTM Architectures on Social Media 作者: Khalid Hasan / Jamil Saquer / Mukulika Ghosh 原文: [英文] [中文] 备注: The 49th IEEE International Conference on Computers, Software, and Applications (COMPSAC 2025) (camera-ready) 摘要: 随着心理健康障碍患病率的上升,开发用于早期检测和监测的强大自动化工具变得必要。自然语言处理(NLP)的最新进展,特别是基于transformer的架构,在文本分析中展示了显著的潜力。本研究对最先进的transformer模型(BERT、RoBERTa、DistilBERT、ALBERT和ELECTRA)与基于长短期记忆(LSTM)的方法进行了全面评估,使用不同的文本嵌入技术在Reddit上进行心理健康障碍分类。我们构建了一个大型标注数据集,通过统计判断分析和主题建模验证其可靠性。实验结果表明,transformer模型的性能优于传统的深度学习方法。RoBERTa在保留测试集上实现了99.54%的F1分数,在外部测试集上实现了96.05%的F1分数。值得注意的是,使用BERT嵌入增强的LSTM模型表现出很强的竞争力,在外部数据集上实现了超过94%的F1分数,同时需要显著更少的计算资源。这些发现突出了基于transformer的模型在实时、可扩展的心理健康监测中的有效性。我们讨论了其在临床应用和数字心理健康干预中的意义,提供了关于最先进NLP方法在心理障碍检测中的能力和局限性的见解。 |
[2] 以意图为导向的表格设置:用于文献综述表格的意图感知模式生成和编辑 标题: Setting The Table with Intent: Intent-aware Schema Generation and Editing for Literature Review Tables 作者: Vishakh Padmakumar / Joseph Chee Chang / Kyle Lo / Doug Downey / Aakanksha Naik 原文: [英文] [中文] 备注: None 摘要: 随着学术文献数量的增加,研究人员需要组织、比较和对比文档集合。大型语言模型(LLMs)可以通过生成定义共享方面的模式来支持这一过程,以便比较论文。然而,由于以下原因,模式生成的进展一直较慢:(i)基于参考的评估存在歧义,以及(ii)缺乏编辑/改进方法。我们的工作首次解决了这两个问题。首先,我们提出了一种通过合成意图增强未标注表格语料库的方法,并应用该方法创建了一个数据集,用于研究基于给定信息需求的模式生成,从而减少歧义。利用这个数据集,我们展示了如何通过结合表格意图显著提高基线性能,以重建参考模式。接下来,我们提出了几种基于LLM的模式编辑技术。我们首先全面基准测试了几种单次模式生成方法,包括提示的LLM工作流程和微调模型,显示出较小的、开放权重的模型可以通过微调与最先进的提示LLM竞争。然后,我们证明了我们的编辑技术可以进一步改进这些方法生成的模式。 |
[3] 注意数字人文中的语言差距:通过LLM辅助翻译SKOS词表 标题: Mind the Language Gap in Digital Humanities: LLM-Aided Translation of SKOS Thesauri 作者: Felix Kraus / Nicolas Blumenröhr / Danah Tonne / Achim Streit 原文: [英文] [中文] 备注: None 摘要: 我们介绍了 WOKIE,这是一种开源的、模块化的、可直接使用的自动翻译 SKOS 词库的流程。此项工作解决了数字人文领域中的一个关键需求,即语言多样性可能限制知识资源的访问、重用和语义互操作性。WOKIE 将外部翻译服务与大型语言模型(LLMs)的针对性优化相结合,平衡了翻译质量、可扩展性和成本。该应用程序设计为可在日常硬件上运行且易于扩展,无需具备机器翻译或大型语言模型的专业知识。我们在 15 种语言的多个数字人文词库中评估了 WOKIE,使用不同的参数、翻译服务和大型语言模型,系统地分析了翻译质量、性能和本体匹配的改进。我们的结果表明,WOKIE 适合通过无障碍的自动翻译和改进的本体匹配性能来增强词库的可访问性、重用性和跨语言互操作性,从而支持更具包容性和多语言的研究基础设施。 |
[4] 缓解大型语言模型中的地理空间知识幻觉:基准测试与动态事实对齐 标题: Mitigating Geospatial Knowledge Hallucination in Large Language Models: Benchmarking and Dynamic Factuality Aligning 作者: Shengyuan Wang / Jie Feng / Tianhui Liu / Dan Pei / Yong Li 原文: [英文] [中文] 备注: 19 pages, 9 figures 摘要: 大型语言模型(LLMs)拥有广泛的世界知识,包括地理空间知识,这些知识已成功应用于各种地理空间任务,如移动性预测和社会指标预测。然而,LLMs经常生成不准确的地理空间知识,导致地理空间幻觉(地理空间信息的不正确或不一致表示),从而影响其可靠性。尽管LLMs中的一般知识幻觉现象已被广泛研究,但对地理空间幻觉的系统评估和缓解仍然很少被探索。为了解决这一空白,我们提出了一个全面的地理空间幻觉评估框架,利用结构化的地理空间知识图进行控制评估。通过对20个先进LLMs的广泛评估,我们揭示了它们在地理空间知识中的幻觉。在这些见解的基础上,我们引入了一种基于Kahneman-Tversky优化(KTO)的动态事实对齐方法,以缓解LLMs中的地理空间幻觉,在所提出的基准上实现了超过29.6%的性能提升。广泛的实验结果证明了我们的基准和学习算法在增强LLMs在地理空间知识和推理任务中的可信度方面的有效性。 |
[5] 大型语言模型的高效注意力机制:综述 标题: Efficient Attention Mechanisms for Large Language Models: A Survey 作者: Yutao Sun / Zhenyu Li / Yike Zhang / Tengyu Pan / Bowen Dong / Yuyi Guo / Jianyong Wang 原文: [英文] [中文] 备注: work in progress 摘要: 基于Transformer的架构已成为大型语言模型的主流骨干。然而,自注意力机制的二次时间和内存复杂度仍然是高效长上下文建模的根本障碍。为了解决这一限制,最近的研究引入了两大类高效注意力机制。线性注意力方法通过核近似、递归公式或快速权重动态实现线性复杂度,从而在减少计算开销的同时实现可扩展的推理。相比之下,稀疏注意力技术通过基于固定模式、块状路由或聚类策略选择的子集来限制注意力计算,在提高效率的同时保留上下文覆盖。本文综述系统且全面地概述了这些发展,整合了算法创新和硬件层面的考量。此外,我们分析了高效注意力在大规模预训练语言模型中的应用,包括完全基于高效注意力构建的架构和结合局部与全局组件的混合设计。通过将理论基础与实际部署策略相结合,这项工作旨在成为推进可扩展和高效语言模型设计的基础参考。 |
[6] MOCHA:代码语言模型是否对多轮恶意编码提示具有鲁棒性? 标题: MOCHA: Are Code Language Models Robust Against Multi-Turn Malicious Coding Prompts? 作者: Muntasir Wahed / Xiaona Zhou / Kiet A. Nguyen / Tianjiao Yu / Nirav Diwan / Gang Wang / Dilek Hakkani-Tür / Ismini Lourentzou 原文: [英文] [中文] 备注: Winner Defender Team at Amazon Nova AI Challenge 2025 摘要: 最近在大型语言模型(LLMs)方面的进展显著提升了其代码生成能力。然而,它们在面对对抗性滥用,特别是通过多轮恶意编码提示的鲁棒性方面,仍然缺乏深入研究。在这项工作中,我们引入了代码分解攻击,其中一个恶意编码任务被分解为一系列看似无害的子任务,分布在多轮对话中,以规避安全过滤器。为了便于系统评估,我们引入了\benchmarkname{},这是一个大规模基准,旨在评估代码LLMs在单轮和多轮恶意提示下的鲁棒性。对开源和闭源模型的实证结果揭示了持续存在的漏洞,特别是在多轮场景下。对MOCHA进行微调提高了拒绝率,同时保留了编码能力,更重要的是,在外部对抗性数据集上的鲁棒性得到了增强,拒绝率提高了多达32.4%,而无需额外的监督。 |
[7] HITSZ的端到端语音翻译系统结合序列到序列自动语音识别模型和印度大语言模型用于IWSLT 2025印度语轨道 标题: HITSZ's End-To-End Speech Translation Systems Combining Sequence-to-Sequence Auto Speech Recognition Model and Indic Large Language Model for IWSLT 2025 in Indic Track 作者: Xuchen Wei / Yangxin Wu / Yaoyin Zhang / Henglyu Liu / Kehai Chen / Xuefeng Bai / Min Zhang 原文: [英文] [中文] 备注: 7 pages, 1 figure, submitted to IWSLT 2025 摘要: 本文介绍了HITSZ在IWSLT 2025印度语轨道上的提交,重点是英语到印度语和印度语到英语语言对的语音到文本翻译(ST)。为了在这种低资源场景中提高翻译质量,我们提出了一个端到端系统,将预训练的Whisper自动语音识别(ASR)模型与Krutrim,一个专门针对印度语的大型语言模型(LLM),进行集成。实验结果表明,我们的端到端系统在英语到印度语方向上平均取得了28.88的BLEU分数,在印度语到英语方向上取得了27.86的BLEU分数。此外,我们还研究了链式思维(CoT)方法。虽然该方法在成功解析的输出上显示出显著提高翻译质量的潜力(例如,泰米尔语到英语的BLEU分数提高了13.84),但我们观察到在确保模型始终遵循所需的CoT输出格式方面存在挑战。 |
[8] MCIF:来自科学演讲的多模态跨语言指令跟随基准 标题: MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks 作者: Sara Papi / Maike Züfle / Marco Gaido / Beatrice Savoldi / Danni Liu / Ioannis Douros / Luisa Bentivogli / Jan Niehues 原文: [英文] [中文] 备注: Work in progress 摘要: 最近在大型语言模型方面的进展推动了多模态大型语言模型(MLLMs)的发展,这些模型在统一框架内整合了文本、语音和视觉。随着MLLMs从狭窄的、单语的、特定任务的系统演变为通用的指令跟随模型,一个关键的前沿在于评估它们在长短上下文中多语言和多模态的能力。然而,现有的基准在联合评估这些维度方面存在不足:它们通常仅限于英语,主要集中于单一模态,依赖于短形式的上下文,或者缺乏人工注释——这阻碍了对模型在语言、模态和任务复杂性方面的全面评估。为了解决这些差距,我们引入了MCIF(多模态跨语言指令跟随),这是第一个基于科学讲座的多语言人工注释基准,旨在评估跨语言、多模态环境中的指令跟随能力,涵盖短期和长期输入。MCIF涵盖了三个核心模态——语音、视觉和文本——以及四种不同的语言(英语、德语、意大利语和中文),使得能够全面评估MLLMs在跨语言解释指令并将其与多模态上下文信息结合的能力。MCIF在CC-BY 4.0许可下发布,以鼓励开放研究和MLLMs发展的进步。 |
[9] RoD-TAL:罗马尼亚驾照考试问答基准 标题: RoD-TAL: A Benchmark for Answering Questions in Romanian Driving License Exams 作者: Andrei Vlad Man / Răzvan-Alexandru Smădu / Cristian-George Craciun / Dumitru-Clementin Cercel / Florin Pop / Mihaela-Claudia Cercel 原文: [英文] [中文] 备注: 49 pages, 52 figures 摘要: 人工智能与法律系统的交叉领域呈现出对支持法律教育工具的日益增长的需求,特别是在罗马尼亚语等资源匮乏的语言中。在这项工作中,我们旨在评估大型语言模型(LLMs)和视觉语言模型(VLMs)在通过文本和视觉问答任务理解和推理罗马尼亚驾驶法律的能力。为此,我们引入了RoD-TAL,这是一个新颖的多模态数据集,包含罗马尼亚驾驶考试问题,包括基于文本和图像的问题,以及带有注释的法律参考和人工解释。我们在信息检索(IR)、问答(QA)、视觉信息检索和视觉问答等任务中实施并评估了检索增强生成(RAG)管道、密集检索器和推理优化模型。我们的实验表明,特定领域的微调显著提高了检索性能。同时,链式思维提示和专门的推理模型提高了问答的准确性,超过了通过驾驶考试所需的最低分数。然而,视觉推理仍然具有挑战性,这突显了将LLMs和VLMs应用于法律教育的潜力和局限性。 |
[10] 迈向包容性自然语言处理:在多样化语言基准上评估压缩多语言变压器 标题: Towards Inclusive NLP: Assessing Compressed Multilingual Transformers across Diverse Language Benchmarks 作者: Maitha Alshehhi / Ahmed Sharshar / Mohsen Guizani 原文: [英文] [中文] 备注: Published in the 3rd International Workshop on Generalizing from Limited Resources in the Open World. Workshop at International Joint Conference on Artificial Intelligence (IJCAI) 2025 摘要: 尽管大型语言模型(LLMs)在高资源语言中取得了显著成功,但它们在低资源语言环境(如卡纳达语和阿拉伯语)中的能力尚未被完全理解。本文对多语言和单语言大型语言模型(LLMs)在阿拉伯语、英语和印度语言中的表现进行了基准测试,特别强调了模型压缩策略(如剪枝和量化)的影响。研究结果显示,由于语言多样性和资源可用性,最先进的LLMs(如BLOOMZ、AceGPT、Jais、LLaMA-2、XGLM和AraGPT2)在性能上存在显著差异。我们发现,多语言版本的模型在各方面都优于其特定语言的对应版本,这表明跨语言迁移带来了显著的好处。量化(4位和8位)在保持模型准确性的同时提高了效率,但激进的剪枝显著降低了性能,尤其是在较大的模型中。我们的研究结果指出了构建可扩展和公平的多语言自然语言处理解决方案的关键策略,并强调了在低资源环境中解决幻觉和泛化错误的干预措施的必要性。 |
[11] Ta-G-T:通过 RDF 图在表格到文本生成中捕获主观性 标题: Ta-G-T: Subjectivity Capture in Table to Text Generation via RDF Graphs 作者: Ronak Upasham / Tathagata Dey / Pushpak Bhattacharyya 原文: [英文] [中文] 备注: None 摘要: 在表格到文本(T2T)生成中,现有的方法主要集中在提供表格数据的客观描述。然而,生成包含主观性的文本,即超越原始数值数据的解释,仍然未被充分探索。为了解决这个问题,我们引入了一种新颖的流程,利用中间表示从表格中生成客观和主观文本。我们的三阶段流程包括:1)提取资源描述框架(RDF)三元组,2)将文本聚合成连贯的叙述,3)注入主观性以丰富生成的文本。通过结合RDF,我们的方法在增强事实准确性的同时保持可解释性。与GPT-3.5、Mistral-7B和Llama-2等大型语言模型(LLM)不同,我们的流程使用较小的、经过微调的T5模型,同时在多个指标上实现了与GPT-3.5相当的性能,并优于Mistral-7B和Llama-2。我们通过定量和定性分析评估了我们的方法,证明了其在平衡事实准确性和主观解释方面的有效性。据我们所知,这是第一个提出结构化流程以整合中间表示来增强事实正确性和主观性的T2T生成工作。 |
[12] 基础阅读蒸馏 标题: Basic Reading Distillation 作者: Zhi Zhou / Sirui Miao / Xiangyu Duan / Hao Yang / Min Zhang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在各种自然语言处理领域展示了卓越的能力,但它们需要高计算资源,这限制了它们在现实世界中的部署。蒸馏是一种解决此问题的技术,可以通过知识蒸馏或任务蒸馏来实现。这两种蒸馏方法都训练小模型来模仿LLMs的特定特征,但它们都忽视了对小模型进行与下游任务\emph{无关}的通用文本的基本阅读教育。在本文中,我们提出了基本阅读蒸馏(BRD),它教育小模型模仿LLMs的基本阅读行为,例如命名实体识别、问题提出和回答等。在进行这样的基本教育后,我们将小模型应用于各种任务,包括语言推理基准和BIG-bench任务。结果表明,小模型可以超越或与大20倍以上的LLMs表现相当。分析显示,BRD有效地影响了小模型的概率分布,并且与知识蒸馏或任务蒸馏具有正交性。 |
[13] JT-Math:用于大型语言模型中高级数学推理的多阶段框架 标题: JT-Math: A Multi-Stage Framework for Advanced Mathematical Reasoning in Large Language Models 作者: Yifan Hao / Fangning Chao / Yaqian Hao / Zhaojun Cui / Huan Bai / Haiyu Zhang / Yankai Liu / Chao Deng / Junlan Feng 原文: [英文] [中文] 备注: None 摘要: 数学推理是通用人工智能的基石,也是评估大型语言模型(LLMs)能力的主要基准。尽管最先进的模型展现了潜力,但在面对需要深刻概念理解和复杂多步骤推理的复杂问题时,它们常常会失败。为了解决这一挑战,我们推出了JT-Math-8B,这是一系列开源模型,包括基础版、指令版和思考版,基于系统的多阶段优化框架构建。我们的预训练语料库是一个高质量的2100亿标记数据集,通过专门的数据管道策划,使用基于模型的验证来确保质量和多样性。指令模型通过监督微调(SFT)和基于GRPO的强化学习(RL)方法优化,以提供直接、简洁的答案。思考模型通过长链思维(Long CoT)方法进行训练,用于复杂问题解决,结合SFT和新颖的多阶段RL课程,逐步增加任务难度和上下文长度,最长可达32K标记。JT-Math-8B在同类大小的开源模型中实现了最先进的结果,超越了OpenAI的O1-mini和GPT-4o等知名模型,并在竞赛级数学上表现出卓越的性能。 |
[14] 你在吗,上帝?使用语言模型对基督教小说进行轻量级叙事注释 标题: Are You There God? Lightweight Narrative Annotation of Christian Fiction with LMs 作者: Rebecca M. M. Hicke / Brian Haggard / Mia Ferrante / Rayhan Khanna / David Mimno 原文: [英文] [中文] 备注: None 摘要: 除了其更广为人知的政治活动外,美国福音派运动还有一个发展良好但对外不太显眼的文化和文学方面。然而,基督教小说的研究较少,而现有的学术关注主要集中在极受欢迎的《末日迷踪》系列上。在这项研究中,我们使用计算工具提供了基督教小说作为一个体裁的广泛主题概述,并更深入地探讨其作者如何描绘神圣行为。我们与人工标注者合作,首先为“神的行为”制定了定义和编码手册。然后,我们将这些为人工标注者设计的指令改编为适用于一个近期的轻量级语言模型,并借助一个更大的模型进行辅助。这个笔记本电脑级别的语言模型能够匹配人工标注,即使任务微妙且具有挑战性。利用这些标注,我们展示了《末日迷踪》系列与更广泛的基督教小说之间,以及男性和女性作者的书籍之间存在显著且有意义的差异。 |
[15] UloRL:一种用于提升大型语言模型推理能力的超长输出强化学习方法 标题: UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models' Reasoning Abilities 作者: Dong Du / Shulin Liu / Tao Yang / Shaohua Chen / Yang Li 原文: [英文] [中文] 备注: 12 pages 摘要: 最近在大型语言模型(LLMs)方面的进展突显了通过可验证奖励的强化学习(RLVR)来增强推理能力的潜力,这种方法通过扩展输出序列来实现。然而,传统的强化学习框架在处理超长输出时面临效率低下的问题,原因在于长尾序列分布和训练过程中的熵崩溃。为了解决这些挑战,我们提出了一种超长输出强化学习(UloRL)方法,以提升大型语言模型的推理能力。具体来说,我们将超长输出解码分为短段,通过减轻长尾样本引起的延迟来实现高效训练。此外,我们引入了动态屏蔽已掌握的正向标记(MPTs),以防止熵崩溃。实验结果证明了我们方法的有效性。在Qwen3-30B-A3B模型上,使用段回滚的强化学习实现了训练速度的2.06倍提升,而使用128k标记输出的强化学习训练将模型在AIME2025上的性能从70.9%提高到85.1%,在BeyondAIME上的性能从50.7%提高到61.9%,甚至超越了Qwen3-235B-A22B,取得了显著的进步。这些发现强调了我们的方法在通过超长序列生成来提升LLMs推理能力的潜力。我们将发布我们的代码和模型供社区进一步使用。 |
[16] Flora:轻松构建任意长度和规模的上下文 标题: Flora: Effortless Context Construction to Arbitrary Length and Scale 作者: Tianxiang Chen / Zhentao Tan / Xiaofan Bo / Yue Wu / Tao Gong / Qi Chu / Jieping Ye / Nenghai Yu 原文: [英文] 备注: None 摘要: 有效处理长上下文对于大型语言模型(LLMs)来说是一个挑战,因为长文本的稀缺性、高计算需求以及短上下文能力的显著遗忘。最近的方法尝试为指令微调构建长上下文,但这些方法通常需要LLMs或人工干预,这既昂贵又在长度和多样性上有限。此外,目前长上下文LLMs在短上下文性能上的下降仍然显著。在本文中,我们介绍了Flora,一种无需人工或LLM干预的长上下文构建策略。Flora可以通过根据类别任意组合短指令,并指示LLMs基于长上下文元指令生成响应,显著提升LLMs的长上下文性能。这使得Flora能够生成任意长度和规模且具有丰富多样性的上下文,同时仅对短上下文性能造成轻微影响。在Llama3-8B-Instruct和QwQ-32B上的实验表明,经过Flora增强的LLMs在三个长上下文基准测试中表现出色,同时在短上下文任务中保持强劲表现。我们的数据构建代码可在\href{this https URL}{this https URL}获取。 |
[17] HCAttention:通过异构注意力计算实现大型语言模型的极限KV缓存压缩 标题: HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs 作者: Dongquan Yang / Yifan Yang / Xiaotian Yu / Xianbiao Qi / Rong Xiao 原文: [英文] [中文] 备注: None 摘要: 使用大型语言模型处理长上下文输入是一个显著的挑战,因为在推理过程中,键值(KV)缓存的巨大内存需求。现有的KV缓存压缩方法在内存减少超过85%时表现出明显的性能下降。此外,在这种情况下,利用GPU-CPU协作进行近似注意力的策略仍未得到充分探索。我们提出了HCAttention,这是一种异构注意力计算框架,集成了键量化、值卸载和动态KV驱逐,以在极端内存限制下实现高效推理。该方法与现有的Transformer架构兼容,不需要对模型进行微调。在LongBench基准测试上的实验结果表明,我们的方法在将KV缓存内存占用缩减到原始大小的25%时,仍能保持全注意力模型的准确性。值得注意的是,即使仅使用12.5%的缓存,它仍然具有竞争力,创造了LLM KV缓存压缩的新纪录。据我们所知,HCAttention是第一个将Llama-3-8B模型扩展到在单个80GB内存的A100 GPU上处理400万个标记的方法。 |
[18] DRIVE:用于智能车辆环境的富含语音不流利现象的合成对话数据生成框架 标题: DRIVE: Disfluency-Rich Synthetic Dialog Data Generation Framework for Intelligent Vehicle Environments 作者: Anshul Chavda / M Jagadeesh / Chintalapalli Raja Kullayappa / B Jayaprakash / Medchalimi Sruthi / Pushpak Bhattacharyya 原文: [英文] [中文] 备注: None 摘要: 随着自动驾驶汽车和智能助手的广泛应用,车内对话式人工智能变得越来越重要。然而,现有的数据集未能捕捉到真实驾驶员与AI对话中所特有的自发性语音不流畅现象,如犹豫、错误开始、重复和自我纠正。为了解决这一问题,我们引入了DiscoDrive,一个包含3500个多轮对话的合成语料库,涵盖七个汽车领域,通过一个两阶段的、以提示为驱动的流程生成,并在合成过程中动态整合不流畅现象。我们展示了DiscoDrive作为训练资源的有效性,使DialoGPT-Medium和T5-Base在MultiWOZ 2.2和Schema-Guided Dialogue (SGD)相关测试集上能够匹配或超越使用KVRET训练的模型(BLEU-4提升0.26到0.61;METEOR提升+2.10;ROUGE-L提升+3.48;BERTScore F1提升1.35到3.48),并作为低资源场景中的数据增强资源,结合10%的KVRET时,额外提升BLEU-4 +0.38,METEOR +1.95,ROUGE-L +2.87,BERTScore F1 +4.00。人类评估进一步确认,从DiscoDrive中抽取的对话在自然性(3.8对3.6)和连贯性(4.1对4.0)方面评分高于KVRET的人类收集对话,并且在不影响清晰度的情况下,被认为比领先的事后方法(如LARD)更符合上下文。DiscoDrive填补了现有资源中的关键空白,作为一个多功能语料库,用于训练和增强对话式人工智能,使其能够稳健地处理现实世界中不流畅的车内互动。 |
[19] 波兰语词汇量测试:一种用于接受性词汇评估的新型自适应测试 标题: The Polish Vocabulary Size Test: A Novel Adaptive Test for Receptive Vocabulary Assessment 作者: Danil Fokin / Monika Płużyczka / Grigory Golovin 原文: [英文] 备注: None 摘要: 我们介绍了波兰语词汇量测试(PVST),这是一种用于评估母语和非母语波兰语使用者接受性词汇量的新工具。基于项目反应理论和计算机自适应测试,PVST能够根据每位测试者的熟练程度动态调整,确保高准确性,同时保持测试时间较短。为了验证该测试,我们进行了一个有1,475名参与者的试点研究。结果显示,母语为波兰语的参与者的词汇量显著大于非母语参与者。对于母语者而言,词汇量与年龄呈现出强烈的正相关性。PVST可以在此网址在线获取。 |
[20] 生成式人工智能在巴西葡萄牙语医学考试中的零样本表现 标题: Zero-shot Performance of Generative AI in Brazilian Portuguese Medical Exam 作者: Cesar Augusto Madid Truyts / Amanda Gomes Rabelo / Gabriel Mesquita de Souza / Daniel Scaldaferri Lages / Adriano Jose Pereira / Uri Adrian Prync Flato / Eduardo Pontes dos Reis / Joaquim Edson Vieira / Paulo Sergio Panse Silveira / Edson Amaro Junior 原文: [英文] [中文] 备注: None 摘要: 人工智能(AI)在提高诊断准确性、优化工作流程和个性化治疗方案方面显示出变革医疗保健的潜力。大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在自然语言处理和医学应用方面取得了显著进展。然而,这些模型的评估主要集中在英语上,导致其在不同语言中的表现可能存在偏差。 本研究调查了六种LLMs(GPT-4.0 Turbo、LLaMA-3-8B、LLaMA-3-70B、Mixtral 8x7B Instruct、Titan Text G1-Express和Command R+)和四种MLLMs(Claude-3.5-Sonnet、Claude-3-Opus、Claude-3-Sonnet和Claude-3-Haiku)回答巴西葡萄牙语书写的问题的能力,这些问题来自南美最大的健康综合体——圣保罗大学医学院附属医院(HCFMUSP)的医学住院医师入学考试。模型的表现与人类考生进行了对比,分析了准确性、处理时间和生成解释的连贯性。 结果表明,尽管某些模型,特别是Claude-3.5-Sonnet和Claude-3-Opus,达到了与人类考生相当的准确水平,但在需要图像解释的多模态问题上仍存在性能差距。此外,研究强调了语言差异,强调了对非英语医学AI应用进行进一步微调和数据集扩充的必要性。 我们的研究结果重申了在各种语言和临床环境中评估生成性AI的重要性,以确保其在医疗保健中的公平和可靠部署。未来的研究应探索改进的训练方法、增强的多模态推理以及AI驱动的医疗辅助的现实临床整合。 |
[21] 使用大型语言模型在社交媒体中进行抑郁症检测和解释的黄金标准数据集与评估框架 标题: A Gold Standard Dataset and Evaluation Framework for Depression Detection and Explanation in Social Media using LLMs 作者: Prajval Bolegave / Pushpak Bhattacharya 原文: [英文] 备注: None 摘要: 从在线社交媒体帖子中早期检测抑郁症有望为及时的心理健康干预提供支持。在这项工作中,我们提供了一个高质量的、由专家标注的数据集,其中包含1,017个社交媒体帖子,这些帖子被标注了抑郁症状的具体内容,并映射到12个抑郁症状类别。与之前主要提供粗略的帖子级别标签的数据集不同,我们的数据集支持对模型预测和生成解释的细粒度评估。 我们开发了一个评估框架,利用这个临床基础的数据集来评估大型语言模型(LLMs)生成的自然语言解释的忠实度和质量。通过精心设计的提示策略,包括使用领域适应示例的零样本和少样本方法,我们评估了最先进的专有LLMs,包括GPT-4.1、Gemini 2.5 Pro和Claude 3.7 Sonnet。 我们全面的实证分析揭示了这些模型在临床解释任务中表现的显著差异,尤其是在零样本和少样本提示下。我们的研究结果强调了人类专业知识在指导LLM行为中的价值,并为心理健康的更安全、更透明的人工智能系统迈出了一步。 |
[22] CaliDrop: 带校准的KV缓存压缩 标题: CaliDrop: KV Cache Compression with Calibration 作者: Yi Su / Quantong Qiu / Yuechi Zhou / Juntao Li / Qingrong Xia / Ping Li / Xinyu Duan / Zhefeng Wang / Min Zhang 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)在生成过程中需要大量的计算资源。虽然键值(KV)缓存通过存储注意力中间结果显著加速了这一过程,但其内存占用随着序列长度、批量大小和模型大小线性增长,在长上下文场景中形成瓶颈。为缓解这一瓶颈,已经提出了各种KV缓存压缩技术,包括令牌驱逐、量化和低秩投影,这些技术通常相辅相成。本文重点在于增强令牌驱逐策略。令牌驱逐利用了注意力模式通常是稀疏的这一观察结果,允许移除不太重要的KV条目以节省内存。然而,这种减少通常以显著的准确性下降为代价,特别是在高压缩比的情况下。为了解决这个问题,我们提出了一种通过校准增强令牌驱逐的新策略,称为CaliDrop。我们的初步实验表明,邻近位置的查询表现出高度相似性。基于这一观察,CaliDrop对被丢弃的令牌进行推测性校准,以减轻令牌驱逐导致的准确性损失。大量实验表明,CaliDrop显著提高了现有令牌驱逐方法的准确性。 |
[23] KLAAD:优化注意力机制以减少生成语言模型中的社会偏见 标题: KLAAD: Refining Attention Mechanisms to Reduce Societal Bias in Generative Language Models 作者: Seorin Kim / Dongyoung Lee / Jaejin Lee 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在输出中经常表现出社会偏见,这引发了关于公平性和伤害的伦理担忧。在这项工作中,我们提出了KLAAD(KL-Attention Alignment Debiasing),这是一种基于注意力的去偏框架,通过隐式对齐刻板印象和反刻板印象句子对之间的注意力分布,而不直接修改模型权重。KLAAD引入了一个复合训练目标,结合了交叉熵、KL散度和三元组损失,引导模型在有偏和无偏的上下文中保持一致的注意力,同时保持流畅性和连贯性。对KLAAD的实验评估表明,在BBQ和BOLD基准测试上,偏见缓解得到了改善,同时对语言建模质量的影响最小。结果表明,注意力级别的对齐为缓解生成语言模型中的偏见提供了一种有原则的解决方案。 |
[24] Text2Vis:一个用于从文本生成多模态可视化的具有挑战性和多样性的基准 标题: Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text 作者: Mizanur Rahman / Md Tahmid Rahman Laskar / Shafiq Joty / Enamul Hoque 原文: [英文] [中文] 备注: None 摘要: 自动化数据可视化在简化数据解释、增强决策制定和提高效率方面起着至关重要的作用。虽然大型语言模型(LLMs)在从自然语言生成可视化方面显示出潜力,但缺乏全面的基准限制了对其能力的严格评估。我们引入了Text2Vis,这是一个旨在评估文本到可视化模型的基准,涵盖了20多种图表类型和多样化的数据科学查询,包括趋势分析、相关性、异常检测和预测分析。它包含1985个样本,每个样本都有一个数据表、自然语言查询、简短答案、可视化代码和注释图表。查询涉及复杂的推理、对话轮次和动态数据检索。我们对11个开源和闭源模型进行了基准测试,揭示了显著的性能差距,突出了关键挑战,并为未来的进步提供了见解。为缩小这一差距,我们提出了第一个跨模态演员-评论家代理框架,该框架共同优化文本答案和可视化代码,将GPT-4o的通过率从直接方法的26%提高到42%,并改善了图表质量。我们还引入了一个基于LLM的自动化评估框架,使得无需人工注释即可对数千个样本进行可扩展评估,测量答案的正确性、代码执行成功率、可视化可读性和图表准确性。我们在此https URL上发布了Text2Vis。 |
[25] 使用广泛性理论探索大型写作评估中大型语言模型自动评分的可靠性 标题: Exploring LLM Autoscoring Reliability in Large-Scale Writing Assessments Using Generalizability Theory 作者: Dan Song / Won-Chan Lee / Hong Jiao 原文: [英文] 备注: None 摘要: 本研究探讨了大型语言模型(LLMs)在评分AP中文语言与文化考试写作任务时的可靠性估计。通过广泛性理论,研究评估并比较了人类评分者和AI评分者在两种类型的AP中文自由回应写作任务(故事叙述和电子邮件回复)中的评分一致性。这些作文由两名经过培训的人类评分者和七名AI评分者独立评分。每篇作文获得四个分数:一个整体分数和三个分析分数,分别对应任务完成、表达和语言使用领域。结果表明,尽管人类评分者总体上产生了更可靠的分数,但LLMs在某些条件下表现出合理的一致性,特别是在故事叙述任务中。结合人类和AI评分者的综合评分提高了可靠性,这支持了混合评分模型可能为大规模写作评估提供优势。 |
[26] VLQA:首个全面、大规模且高质量的越南语法律问答数据集 标题: VLQA: The First Comprehensive, Large, and High-Quality Vietnamese Dataset for Legal Question Answering 作者: Tan-Minh Nguyen / Hoang-Trung Nguyen / Trong-Khoi Dao / Xuan-Hieu Phan / Ha-Thanh Nguyen / Thi-Hai-Yen Vuong 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的出现已经在包括法律文本处理在内的各个领域取得了显著成就。利用LLMs进行法律任务是一个自然的演变,也是一个越来越有吸引力的选择。然而,它们的能力往往被描绘得比实际更强。尽管取得了进展,但我们距离使用人工智能(AI)和自然语言处理(NLP)完全自动化法律任务的最终目标仍然很远。此外,法律系统具有深刻的领域特异性,并且在不同国家和语言之间存在显著差异。因此,为不同自然语言构建法律文本处理应用的需求非常大且紧迫。然而,对于像越南语这样资源匮乏的语言来说,法律NLP面临着巨大的挑战,因为资源和标注数据的稀缺。对于监督训练、验证和监督微调来说,标注法律语料库的需求至关重要。在本文中,我们介绍了VLQA数据集,这是一个为越南法律领域量身定制的全面且高质量的资源。我们还对该数据集进行了全面的统计分析,并通过在法律信息检索和问答任务中使用最先进的模型进行实验来评估其有效性。 |
[27] 通过元学习进行人类语言异常检测:一种小样本方法 标题: Anomaly Detection in Human Language via Meta-Learning: A Few-Shot Approach 作者: Saurav Singla / Aarav Singla / Advik Gupta / Parnika Gupta 原文: [英文] 备注: 15 pages. PyTorch code for few-shot anomaly detection using meta-learning is available upon request or can be shared via GitHub 摘要: 我们提出了一种元学习框架,用于在有限标注数据的情况下检测跨不同领域的人类语言异常。语言中的异常现象,如垃圾邮件、假新闻和仇恨言论,由于其稀疏性和多样性,构成了重大挑战。我们将异常检测视为一个小样本二分类问题,并利用元学习来训练能够跨任务泛化的模型。通过使用来自SMS垃圾邮件、COVID-19假新闻和仇恨言论等领域的数据集,我们在未见过的任务上评估模型的泛化能力,且仅需极少标注的异常数据。我们的方法结合了情景训练、原型网络和领域重采样,以便快速适应新的异常检测任务。实证结果表明,我们的方法在F1和AUC分数上优于强基线。我们还发布了代码和基准,以促进小样本文本异常检测的进一步研究。 |
[28] FAEDKV:用于无偏KV缓存压缩的无限窗口傅里叶变换 标题: FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression 作者: Runchao Li / Yao Fu / Mu Sheng / Xianxuan Long / Haotian Yu / Pan Li 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)在长上下文任务中的效能常常受到键值(KV)缓存的巨大内存占用和计算需求的阻碍。目前的压缩策略,包括令牌驱逐和学习投影,往往导致偏倚的表示——要么过度强调最近/高注意力的令牌,要么反复降低早期上下文的信息——并且可能需要昂贵的模型重新训练。我们提出了FAEDKV(KV缓存的频率自适应无限窗口),这是一种新颖的、无需训练的KV缓存压缩框架,确保无偏信息保留。FAEDKV通过使用提出的无限窗口傅里叶变换(IWDFT)将KV缓存转换到频域来操作。这种方法允许所有令牌对压缩表示的贡献均等,有效地保留了早期和最近的上下文信息。初步的频率消融研究识别了用于逐层、目标压缩的关键频谱成分。在LongBench基准测试上的实验表明,FAEDKV比现有方法优越高达22%。此外,我们的方法在“大海捞针”任务中显示出优越的、位置无关的检索准确性,相较于基于压缩的方法。 |
[29] Infogen:从文档生成复杂统计信息图 标题: Infogen: Generating Complex Statistical Infographics from Documents 作者: Akash Ghosh / Aparna Garimella / Pritika Ramu / Sambaran Bandyopadhyay / Sriparna Saha 原文: [英文] [中文] 备注: ACL Main 2025 摘要: 统计信息图表是强大的工具,可以将复杂的数据简化为视觉上引人入胜且易于理解的格式。尽管人工智能,特别是大型语言模型(LLM)方面取得了进展,但现有的努力仅限于生成简单的图表,尚无先前的工作解决从需要深入理解内容的文本密集型文档中创建复杂信息图表的问题。我们通过引入生成由多个子图(例如,折线图、柱状图、饼图)组成的统计信息图表的任务来填补这一空白,这些图表在上下文上是准确的、富有洞察力的,并且在视觉上是一致的。为此,我们定义了信息图表的元数据,包括其标题和文本洞察,以及子图特定的详细信息,如其对应的数据和对齐方式。我们还提出了Infodat,这是第一个用于文本到信息图表元数据生成的基准数据集,其中每个样本将文档链接到其元数据。我们提出了Infogen,一个两阶段框架,其中微调的LLM首先生成元数据,然后将其转换为信息图表代码。在Infodat上的广泛评估表明,Infogen在文本到统计信息图表生成方面实现了最先进的性能,优于封闭和开源的LLM。 |
[30] 一种基于张量的编译器和用于神经元级深度神经网络认证器规范的运行时 标题: A Tensor-Based Compiler and a Runtime for Neuron-Level DNN Certifier Specifications 作者: Avaljot Singh / Yamin Chandini Sarita / Aditya Mishra / Ishaan Goyal / Gagandeep Singh / Charith Mendis 原文: [英文] [中文] 备注: None 摘要: 深度神经网络(DNN)的不可解释性导致基于抽象解释的认证被采用为在依赖DNN的现实世界系统中建立信任的实用手段。然而,目前的环境仅支持有限的一组认证器,并且为不同应用开发新的认证器或修改现有认证器仍然困难。这是因为认证器的数学设计是在神经元级别表达的,而它们的实现是在张量级别进行优化和执行的。这种不匹配在设计和实现之间造成了语义差距,使得手动弥合这一差距既复杂又需要专业知识——需要在形式化方法、高性能计算等方面的深入知识。 我们提出了一个编译器框架,可以自动将DNN认证器的神经元级别规范翻译为基于张量的层级实现。这得益于两个关键创新:一种新颖的基于堆栈的中间表示(IR)和一种形状分析,该分析推断出模拟神经元级别语义所需的隐式张量操作。在提升过程中,形状分析创建了执行相应操作所需的最小形状的张量。IR还通过重写实现了特定领域的优化。在运行时,生成的张量计算表现出与DNN架构相关的稀疏性。这种稀疏性与现有格式不太匹配。为了解决这个问题,我们引入了g-BCSR,一种双重压缩格式,将张量表示为大小不一的块的集合,每个块内部可能是稀疏的。 使用我们的编译器和g-BCSR,我们可以轻松开发新的认证器,并分析它们在不同DNN中的实用性。尽管具有灵活性,编译器实现的性能可与手动优化的实现相媲美。 |
[31] 野外的RAG:关于使用混合知识检索增强的LLM的(无)效性 标题: RAG in the Wild: On the (In)effectiveness of LLMs with Mixture-of-Knowledge Retrieval Augmentation 作者: Ran Xu / Yuchen Zhuang / Yue Yu / Haoyu Wang / Wenqi Shi / Carl Yang 原文: [英文] [中文] 备注: Work in Progress. Code will be published at: this https URL 摘要: 检索增强生成(RAG)通过在推理时整合外部知识来增强大型语言模型(LLM)。虽然RAG在主要源自像维基百科这样的通用领域语料库的基准测试中表现出色,但其在现实中多样化检索场景下的有效性仍未得到充分探索。我们使用MassiveDS,一个包含多种知识的大规模数据存储库,对RAG系统进行了评估,并识别出关键的局限性:检索主要对较小的模型有益,重排序器的附加价值有限,没有单一的检索来源能够始终表现出色。此外,当前的LLM在跨异构知识源路由查询方面存在困难。这些发现强调了在将RAG部署到现实世界环境之前需要自适应检索策略。我们的代码和数据可以在这个HTTPS URL中找到。 |
[32] ProsodyLM:揭示语音语言模型中新兴的韵律处理能力 标题: ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models 作者: Kaizhi Qian / Xulin Fan / Junrui Ni / Slava Shechtman / Mark Hasegawa-Johnson / Chuang Gan / Yang Zhang 原文: [英文] [中文] 备注: None 摘要: 语音语言模型是指具有语音处理和理解能力的语言模型。语音语言模型的一个关键能力是捕捉内容和韵律之间复杂的相互依赖关系。现有的主流训练语音语言模型的范式是将语音转换为离散的标记,然后输入到大型语言模型(LLM)中,这种方法在学习韵律信息方面并不理想——我们发现,仅通过预训练得到的LLM并没有表现出明显的韵律处理能力。为了解决这个问题,我们提出了ProsodyLM,它引入了一种简单的标记化方案,有利于学习韵律。每个语音话语首先被转录为文本,然后是一个词级韵律标记序列。与传统的语音标记化方案相比,所提出的标记化方案保留了更完整的韵律信息,并且更易于文本基础的LLM理解。我们发现,ProsodyLM仅通过预训练就能学习到令人惊讶的多样化的韵律处理能力,从利用生成语音中的韵律细微差别(如对比焦点)、理解话语中的情感和重音,到在长上下文中保持韵律一致性。 |
[33] 人工智能驱动的古英语生成:低资源语言框架 标题: AI-Driven Generation of Old English: A Framework for Low-Resource Languages 作者: Rodrigo Gabriel Salazar Alva / Matías Nuñez / Cristian López / Javier Martín Arista 原文: [英文] [中文] 备注: None 摘要: 保护古老语言对于理解人类的文化和语言遗产至关重要,然而古英语仍然严重缺乏资源,这限制了现代自然语言处理(NLP)技术的应用。我们提出了一个可扩展的框架,利用先进的大型语言模型(LLMs)生成高质量的古英语文本,以填补这一空白。我们的方法结合了参数高效微调(低秩适应,LoRA)、通过反向翻译进行的数据增强,以及将内容生成(英语)和翻译(古英语)任务分开的双代理流程。通过自动化指标(BLEU、METEOR 和 CHRF)的评估显示,与基线模型相比,我们的方法有显著的改进,英语到古英语翻译的 BLEU 分数从 26 提高到超过 65。专家人工评估也证实了生成文本在语法准确性和风格忠实度方面的高水平表现。除了扩展古英语语料库之外,我们的方法还为复兴其他濒危语言提供了一个实用的蓝图,有效地将人工智能创新与文化保护的目标结合起来。 |
[34] Sem-DPO:缓解提示工程中偏好优化的语义不一致性 标题: Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering 作者: Anas Mohamed / Azal Ahmad Khan / Xinran Wang / Ahmad Faraz Khan / Shuwen Ge / Saman Bahzad Khan / Ayaan Ahmad / Ali Anwar 原文: [英文] [中文] 备注: None 摘要: 生成式人工智能现在可以从文本中合成出极为逼真的图像,但输出质量仍然对提示的措辞方式非常敏感。直接偏好优化(DPO)为自动提示工程提供了一种轻量级的、非策略的替代方案,而不需要强化学习,但其在词级别的正则化未能控制语义不一致,因为获得更高偏好分数的提示仍可能偏离用户的原意。 我们引入了Sem-DPO,这是一种DPO的变体,它在保持简单性和效率的同时,保留了语义一致性。Sem-DPO通过一个与原始提示和获胜候选者在嵌入空间中的余弦距离成比例的指数权重来缩放DPO损失,轻微降低那些本会奖励语义不匹配提示的训练信号的权重。我们首次提供了对偏好调优的提示生成器的语义漂移的分析界限,表明Sem-DPO将学习到的提示保持在原始文本的一个可证明的有界邻域内。在三个标准的文本到图像提示优化基准和两个语言模型上,Sem-DPO比DPO实现了8-12%的更高CLIP相似度和5-9%的更高人类偏好分数(HPSv2.1,PickScore),同时也优于最先进的基线。这些发现表明,增强了语义加权的强大平坦基线应成为提示优化研究的新标准,并为语言模型中更广泛的、语义感知的偏好优化奠定了基础。 |
[35] 多阶段验证中心框架用于缓解多模态RAG中的幻觉 标题: Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG 作者: Baiyu Chen / Wilson Wongso / Xiaoqian Hu / Yue Tan / Flora Salim 原文: [英文] [中文] 备注: KDD Cup 2025 Meta CRAG-MM Challenge 摘要: 本文介绍了CRUISE团队为KDD Cup 2025元综合RAG多模态、多轮次(CRAG-MM)挑战赛开发的技术解决方案。该挑战赛旨在解决现代视觉语言模型(VLMs)的一个关键限制:它们在面对自我中心图像、长尾实体和复杂的多跳问题时容易产生幻觉。这一问题在现实世界应用中尤为严重,因为用户提出的查询需要在多种模态中保持高度的事实准确性。为了解决这个问题,我们提出了一个稳健的多阶段框架,该框架优先考虑事实准确性和真实性,而非完整性。我们的解决方案集成了一个轻量级的查询路由器以提高效率,一个查询感知的检索和总结管道,双路径生成以及事后验证。这种保守的策略旨在最大限度地减少幻觉,因为在比赛的评分标准中,幻觉会受到严重的惩罚。我们的方法在任务1中获得了第三名,证明了在复杂的多模态RAG系统中优先考虑答案可靠性的有效性。我们的实现可以在这个URL中找到。 |
[36] 多智能体交互式问题生成框架用于长文档理解 标题: Multi-Agent Interactive Question Generation Framework for Long Document Understanding 作者: Kesen Wang / Daulet Toibazar / Abdulrahman Alfulayt / Abdulaziz S. Albadawi / Ranya A. Alkahtani / Asma A. Ibrahim / Haneen A. Alhomoud / Sherif Mohamed / Pedro J. Moreno 原文: [英文] [中文] 备注: None 摘要: 在具有复杂布局的长上下文场景中进行文档理解(DU)仍然是视觉语言研究中的一个重大挑战。尽管大型视觉语言模型(LVLMs)在短上下文DU任务中表现出色,但在长上下文环境中的表现却有所下降。一个关键的限制是缺乏细粒度的训练数据,特别是对于阿拉伯语等低资源语言。现有的最先进技术严重依赖于人工标注,这既昂贵又低效。我们提出了一种完全自动化的多代理交互框架,以高效生成长上下文问题。我们的方法能够高效地为广泛的英语和阿拉伯语文档生成高质量的单页和多页问题,涵盖数百页的不同领域。这有助于开发具有增强长上下文理解能力的LVLMs。实验结果表明,我们生成的英语和阿拉伯语问题(\textbf{AraEngLongBench})对主要的开源和闭源LVLMs来说都相当具有挑战性。本文中提出的代码和数据可以在此https URL中找到。样本问答(QA)对和结构化系统提示可以在附录中找到。 |
[37] 基于大型语言模型的用户模拟器在对话式人工智能中的目标对齐 标题: Goal Alignment in LLM-Based User Simulators for Conversational AI 作者: Shuhaib Mehri / Xiaocheng Yang / Takyoung Kim / Gokhan Tur / Shikib Mehri / Dilek Hakkani-Tür 原文: [英文] [中文] 备注: None 摘要: 用户模拟器对于对话式人工智能至关重要,它通过模拟交互实现了可扩展的代理开发和评估。尽管当前的大型语言模型(LLMs)在用户模拟能力上取得了进展,但我们发现它们在多轮对话中难以始终如一地表现出以目标为导向的行为——这一关键限制影响了它们在下游应用中的可靠性。我们引入了用户目标状态跟踪(UGST),这是一种新颖的框架,用于跟踪用户在对话中的目标进展。利用UGST,我们提出了一种三阶段的方法来开发能够自主跟踪目标进展并推理生成与目标一致的响应的用户模拟器。此外,我们建立了全面的评估指标来衡量用户模拟器中的目标一致性,并证明我们的方法在两个基准(MultiWOZ 2.4 和 τ-Bench)上取得了显著的改进。我们的贡献解决了对话式人工智能中的一个关键空白,并确立了UGST作为开发目标一致用户模拟器的重要框架。 |
[38] SGPO:基于自我改进者的自生成偏好优化 标题: SGPO: Self-Generated Preference Optimization based on Self-Improver 作者: Hyeonji Lee / Daejin Jo / Seohwan Yun / Sungwoong Kim 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)尽管在多样化数据集上进行了广泛的预训练,但为了实际和可靠的部署,仍需要有效地对齐人类偏好。传统的对齐方法通常采用离线策略学习,并依赖于人工标注的数据集,这限制了其广泛的适用性,并在训练过程中引入了分布偏移问题。为了解决这些挑战,我们提出了一种基于自我改进者的自生成偏好优化(SGPO)创新对齐框架,该框架利用了一种在线策略自我改进机制。具体来说,改进者通过从策略模型中优化响应,自生成偏好数据以直接进行策略模型的偏好优化(DPO)。在此,改进者和策略被统一为一个模型,并且为了生成更高质量的偏好数据,这个自我改进者通过参考监督微调输出,学习对当前响应进行增量但可辨别的改进。在AlpacaEval 2.0和Arena-Hard上的实验结果表明,所提出的SGPO在不使用外部偏好数据的情况下,显著提高了相对于DPO和基线自我改进方法的性能。 |
[39] SessionIntentBench:用于电商客户行为理解的多任务会话间意图转移建模基准 标题: SessionIntentBench: A Multi-task Inter-session Intention-shift Modeling Benchmark for E-commerce Customer Behavior Understanding 作者: Yuqi Yang / Weiqi Wang / Baixuan Xu / Wei Fan / Qing Zong / Chunkit Chan / Zheye Deng / Xin Liu / Yifan Gao / Changlong Yu / Chen Luo / Yang Li / Zheng Li / Qingyu Yin / Bing Yin / Yangqiu Song 原文: [英文] 备注: None 摘要: 会话历史是记录用户在浏览多个产品时的交互行为的一种常见方式。例如,如果用户点击了一个产品网页然后离开,可能是因为某些特征不满足用户需求,这些特征是用户即时偏好的重要指示。然而,所有先前的研究都未能有效捕捉和建模客户意图,因为它们对信息的利用不足,仅使用了描述和标题等明显信息。此外,在电子商务产品购买会话中,缺乏用于明确建模意图的数据和相应的基准。为了解决这些问题,我们引入了意图树的概念,并提出了一种数据集策划流程。我们构建了一个多模态基准,SessionIntentBench,用于评估L(V)LMs在理解会话间意图转变方面的能力,包含四个子任务。通过使用10,905个会话挖掘出1,952,177个意图条目、1,132,145个会话意图轨迹和13,003,664个可用任务,我们提供了一种可扩展的方法来利用现有的会话数据以理解客户意图。我们进行人工标注以收集部分数据的真实标签,形成评估的黄金集。在标注数据上的广泛实验进一步证实,当前的L(V)LMs未能在复杂的会话设置中捕捉和利用意图。进一步分析表明,注入意图可以提升LLMs的性能。 |
[40] 多样性增强推理用于主观性问题 标题: Diversity-Enhanced Reasoning for Subjective Questions 作者: Yumeng Wang / Zhiyuan Fan / Jiayu Liu / Yi R. Fung 原文: [英文] [中文] 备注: None 摘要: 大型推理模型(LRM)具有长链式思维(CoT)能力,在数学推理和编码等客观任务中表现出色。然而,它们在可能因不同视角而产生不同回答的主观问题上的有效性仍然受到限制,这种限制源于在监督微调中依赖单一的真实值以及在强化学习中依赖可验证的奖励,导致推理趋于同质化。受到增加角色视角能够持续提高性能的发现的启发,我们提出了MultiRole-R1,这是一种通过多角色视角增强多样性的框架,以提高主观推理任务的准确性和多样性。MultiRole-R1具有一个无监督的数据构建管道,生成包含多样角色视角的推理链。我们进一步通过群体相对策略优化(GRPO)进行强化学习,并通过奖励塑造,将多样性作为奖励信号,除了可验证的奖励之外。通过专门设计的奖励函数,我们成功地促进了视角多样性和词汇多样性,揭示了推理多样性与准确性之间的正相关关系。我们在六个基准上的实验表明,MultiRole-R1在增强主观和客观推理方面的有效性和普适性,展示了在LRM中通过多样性增强训练的潜力。 |
[41] 大语言模型智商测试:揭示大语言模型核心技能的评估框架 标题: IQ Test for LLMs: An Evaluation Framework for Uncovering Core Skills in LLMs 作者: Aviya Maimon / Amir DN Cohen / Gal Vishne / Shauli Ravfogel / Reut Tsarfaty 原文: [英文] [中文] 备注: None 摘要: 当前对大型语言模型(LLMs)的评估依赖于基准测试分数,但很难解释这些单独的分数揭示了模型整体技能的哪些方面。具体来说,我们在社区中缺乏对任务之间关系的理解,不知道它们共同测量了什么、如何不同或哪些是冗余的。因此,模型通常通过跨基准测试的平均单一分数进行评估,这种方法未能捕捉模型的整体优势和局限性。在此,我们提出了一种新的评估范式,使用因子分析来识别驱动跨基准测试性能的潜在技能。我们将此方法应用于一个新的综合排行榜,展示了60个LLM在44个任务上的表现,并识别出一小组潜在技能,这些技能在很大程度上解释了性能。最后,我们将这些见解转化为实用工具,用于识别冗余任务、辅助模型选择,并根据每个潜在技能对模型进行剖析。 |
[42] Co-NAML-LSTUR: 一种结合注意力多视图学习与长短期用户表示的新闻推荐模型 标题: Co-NAML-LSTUR: A Combined Model with Attentive Multi-View Learning and Long- and Short-term User Representations for News Recommendation 作者: Minh Hoang Nguyen / Thuat Thien Nguyen / Minh Nhat Ta 原文: [英文] [中文] 备注: 11 pages, 6 figures 摘要: 新闻推荐系统在通过提供个性化新闻内容来缓解信息过载方面发挥着重要作用。一个核心挑战是如何有效地建模多视角新闻表示和用户兴趣的动态特性,这些兴趣通常跨越短期和长期偏好。现有方法通常依赖于新闻文章的单一视角特征(例如标题或类别),或者未能全面捕捉用户在不同时间尺度上的偏好。在这项工作中,我们提出了Co-NAML-LSTUR,一个混合新闻推荐框架,该框架整合了用于注意力多视角新闻建模的NAML和用于捕捉长短期用户表示的LSTUR。我们的模型还结合了基于BERT的词嵌入来增强语义特征提取。我们在两个广泛使用的基准数据集MIND-small和MIND-large上评估了Co-NAML-LSTUR。实验结果表明,Co-NAML-LSTUR在MIND-small和MIND-large上分别相较于大多数最先进的基线方法取得了显著的改进。这些结果证明了结合多视角新闻表示与双尺度用户建模的有效性。我们的模型实现已在此https URL上公开。 |
[43] 重塑你的生活故事:使用大型语言模型的互动叙事治疗师和创新时刻评估 标题: Reframe Your Life Story: Interactive Narrative Therapist and Innovative Moment Assessment with Large Language Models 作者: Yi Feng / Jiaqi Wang / Wenxuan Zhang / Zhuang Chen / Yutong Shen / Xiyao Xiao / Minlie Huang / Liping Jing / Jian Yu 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展为心理健康支持开辟了新的可能性,但当前的方法在模拟专业心理治疗方面缺乏现实性,并且未能捕捉到治疗随时间的进展。叙事疗法帮助个人将有问题的生活故事转变为充满力量的替代故事,但由于获取途径有限和社会污名化而未被充分利用。我们通过一个包含两个核心组件的综合框架来解决这些限制。首先,INT(互动叙事治疗师)通过规划治疗阶段、引导反思层次以及生成上下文适当的专家级响应来模拟专家叙事治疗师。其次,IMA(创新时刻评估)提供了一种以治疗为中心的评估方法,通过跟踪“创新时刻”(IMs)来量化效果,这些是客户言语中表明治疗进展的重要叙事转变。对260名模拟客户和230名人类参与者的实验结果表明,INT在治疗质量和深度方面始终优于标准LLMs。我们进一步展示了INT在合成高质量支持对话以促进社会应用方面的有效性。 |
[44] 通过语言差异化建模专家提问中的专业性 标题: Modeling Professionalism in Expert Questioning through Linguistic Differentiation 作者: Giulia D'Agostino / Chung-Chi Chen 原文: [英文] [中文] 备注: None 摘要: 专业性是专家交流中一个关键但尚未充分研究的维度,尤其是在金融等高风险领域。本文探讨了如何利用语言特征来建模和评估专家提问中的专业性。我们引入了一种新颖的注释框架,以量化金融分析师提问中的结构和语用元素,例如话语调节器、前言和请求类型。通过使用人类撰写的问题和大型语言模型(LLM)生成的问题,我们构建了两个数据集:一个用于感知专业性的注释,另一个根据问题来源进行标记。我们发现,相同的语言特征与人类判断和作者来源都存在强相关性,这表明它们共享一种风格基础。此外,仅基于这些可解释特征训练的分类器在区分专家撰写的问题时,表现优于gemini-2.0和SVM基线。我们的研究结果表明,专业性是一个可学习的、领域通用的构造,可以通过语言学基础的建模来捕捉。 |
[45] 语言模型的后完成学习 标题: Post-Completion Learning for Language Models 作者: Xiang Fei / Siqi Wang / Shu Wei / Yuxiang Nie / Wei Shi / Hao Feng / Can Huang 原文: [英文] [中文] 备注: None 摘要: 当前的语言模型训练范式通常在达到序列结束(<eos>)标记时终止学习,忽视了完成后空间中的潜在学习机会。我们提出了后完成学习(PCL),这是一种新颖的训练框架,系统地利用模型输出完成后的序列空间,以增强推理和自我评估能力。PCL使模型在训练期间能够继续生成自我评估和奖励预测,同时通过在完成点停止来保持高效的推理。 为了充分利用这个后完成空间,我们设计了一种白盒强化学习方法:让模型根据奖励规则评估输出内容,然后计算并将得分与奖励函数对齐以进行监督。我们实施了双轨SFT来优化推理和评估能力,并将其与RL训练混合以实现多目标混合优化。 在不同数据集和模型上的实验结果表明,与传统的SFT和RL方法相比,我们的方法在各方面都有一致的改进。我们的方法为语言模型训练提供了一条新的技术路径,在提高输出质量的同时保持部署效率。 |
[46] EMBRACE:通过将隐性对话与社会规范对齐来塑造包容性意见表达 标题: EMBRACE: Shaping Inclusive Opinion Representation by Aligning Implicit Conversations with Social Norms 作者: Abeer Aldayel / Areej Alokaili 原文: [英文] [中文] 备注: Under review for publication 摘要: 塑造包容性表征以包容多样性并确保价值观的公平参与和反映是许多基于对话的模型的核心。然而,许多现有方法依赖于通过提及用户人口统计或社会群体的行为属性来实现表面的包容性。这些方法忽视了对话中隐含表达的细微意见。此外,过度依赖明显的线索可能会加剧不对齐,并在模型输出中强化有害或刻板的表征。因此,我们退一步认识到,公平的包容性需要考虑意见的隐含表达,并利用回应的立场来验证规范对齐。本研究旨在通过引入一个对齐评估框架来评估意见在自然语言处理或计算模型中的表征,该框架强调隐含的、常被忽视的对话,并评估规范的社会观点和话语。我们的方法将回应的立场建模为潜在意见的代理,从而能够对多样的社会观点进行周到和反思的表征。我们使用(i)带有基础分类器的正无标签(PU)在线学习和(ii)指令调优的语言模型来评估训练后的对齐情况。通过此方法,我们提供了一个视角来观察隐含意见是如何被(误)表征的,并为实现更具包容性的模型行为提供了一条途径。 |
[47] MoL-RL:将多步环境反馈提炼到大型语言模型中以实现独立于反馈的推理 标题: MoL-RL: Distilling Multi-Step Environmental Feedback into LLMs for Feedback-Independent Reasoning 作者: Kang Yang / Jingxue Chen / Qingkun Tang / Tianxiang Zhang / Qianchun Lu 原文: [英文] [中文] 备注: 12pages,3figures 摘要: 大型语言模型(LLMs)在有效利用顺序环境反馈(EF)信号(如自然语言评估)进行与反馈无关的链式思维(CoT)推理方面面临重大挑战。现有方法要么将EF转换为标量奖励,丢失丰富的上下文信息,要么使用精炼数据集,未能利用EF交互的多步和离散特性。为了解决这些限制,我们提出了MoL-RL,这是一种新颖的训练范式,通过双目标优化框架将多步EF信号整合到LLMs中。我们的方法结合了MoL(损失混合)持续训练,该训练将领域特定的EF信号(通过交叉熵损失优化)与一般语言能力(通过Kullback-Leibler散度保留)解耦,并通过基于GRPO的后训练将顺序EF交互提炼为单步推理。这种协同作用使得无需依赖外部反馈循环即可实现稳健的与反馈无关的推理。在数学推理(MATH-500, AIME24/AIME25)和代码生成(CodeAgent-Test)基准测试上的实验结果表明,MoL-RL在Qwen3-8B模型上实现了最先进的性能,同时在模型规模(Qwen3-4B)上保持了强大的泛化能力。这项工作为利用多步文本反馈来增强LLMs在不同领域的推理能力提供了一种有前景的方法。 |
[48] Aya-23用什么语言思考?多语言性如何影响内部语言表征 标题: What Language(s) Does Aya-23 Think In? How Multilinguality Affects Internal Language Representations 作者: Katharina Trinley / Toshiki Nakai / Tatiana Anikina / Tanja Baeumel 原文: [英文] [中文] 备注: pre-print 摘要: 大型语言模型(LLMs)在多语言任务中表现出色,但其内部的语言处理机制仍然知之甚少。我们分析了Aya-23-8B(一种在平衡的多语言数据上训练的仅解码器LLM)在处理代码混合、完形填空和翻译任务时的表现,并将其与以单一语言为主的模型(如Llama 3和Chinese-LLaMA-2)进行比较。通过使用logit lens和神经元专门化分析,我们发现:(1)Aya-23在翻译过程中激活了类型学上相关的语言表示,而英语为中心的模型则依赖于单一的枢纽语言;(2)代码混合的神经元激活模式随着混合比例的变化而变化,并且更多地受到基础语言的影响,而不是混合进来的语言;(3)Aya-23针对代码混合输入的语言特定神经元集中在最后几层,这与之前关于仅解码器模型的研究结果不同。神经元重叠分析进一步显示,文字的相似性和类型学关系影响了不同模型类型的处理。这些发现揭示了多语言训练如何塑造LLM的内部结构,并为未来的跨语言迁移研究提供了信息。 |
[49] 提升方言阿拉伯语到现代标准阿拉伯语的机器翻译 标题: Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation 作者: Abdullah Alabdullah / Lifeng Han / Chenghua Lin 原文: [英文] [中文] 备注: None 摘要: 方言阿拉伯语(DA)对自然语言处理(NLP)构成了持续的挑战,因为阿拉伯世界的大多数日常交流都是使用与现代标准阿拉伯语(MSA)显著不同的方言进行的。这种语言差异限制了对数字服务和教育资源的访问,并阻碍了阿拉伯语机器翻译的进展。本文对推进黎凡特、埃及和海湾方言的DA-MSA翻译做出了两个核心贡献,特别是在资源匮乏和计算受限的环境中:对无训练提示技术的全面评估,以及开发了一种资源高效的微调流程。我们对六个大型语言模型(LLMs)的提示策略进行的评估发现,少样本提示始终优于零样本、思维链和我们提出的Ara-TEaR方法。在所有提示设置中,GPT-4o取得了最高的性能。对于微调,量化的Gemma2-9B模型实现了49.88的CHrF++得分,优于零样本的GPT-4o(44.58)。联合多方言训练的模型比单一方言模型的CHrF++得分高出10%以上,而4位量化将内存使用减少了60%,性能损失不到1%。我们的实验结果和见解为改善阿拉伯语NLP中的方言包容性提供了实用的蓝图,表明即使在资源有限的情况下,高质量的DA-MSA机器翻译也是可以实现的,并为更具包容性的语言技术铺平了道路。 |
[50] DYNARTmo:用于可视化语音运动模式的动态发音模型 标题: DYNARTmo: A Dynamic Articulatory Model for Visualization of Speech Movement Patterns 作者: Bernd J. Kröger 原文: [英文] [中文] 备注: 10 pages, 29 references, 2 figures, supplementary material 摘要: 我们介绍了DYNARTmo,这是一种动态发音模型,旨在在二维矢状面中可视化语音发音过程。该模型基于UK-DYNAMO框架,并整合了发音未指定性、音段和动作控制以及协同发音的原理。DYNARTmo基于十个连续和六个离散控制参数模拟六个关键发音器官,允许生成元音和辅音的发音配置。当前的实现嵌入在一个基于网络的应用程序(SpeechArticulationTrainer)中,该应用程序包括矢状、声门和腭部视图,使其适合用于语音学教育和语音治疗。虽然本文侧重于静态建模方面,但未来的工作将涉及动态运动生成和与发音-声学模块的集成。 |
[51] RMTBench:通过多轮用户中心角色扮演对大型语言模型进行基准测试 标题: RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing 作者: Hao Xiang / Tianyi Tang / Yang Su / Bowen Yu / An Yang / Fei Huang / Yichang Zhang / Yaojie Lu / Hongyu Lin / Xianpei Han / Jingren Zhou / Junyang Lin / Le Sun 原文: [英文] [中文] 备注: None 摘要: 近年来,大型语言模型(LLMs)的进展在角色扮演应用中展现出了卓越的潜力。评估这些能力变得至关重要,但仍然具有挑战性。现有的基准测试大多采用\textbf{以角色为中心}的方法,将用户与角色的互动简化为孤立的问答任务,未能反映真实世界的应用。为了解决这一局限性,我们引入了RMTBench,这是一个全面的\textbf{以用户为中心}的双语角色扮演基准,包含80个多样化的角色和超过8,000轮对话。RMTBench包括具有详细背景的自定义角色和由简单特征定义的抽象角色,能够在各种用户场景中进行评估。我们的基准基于明确的用户动机构建对话,而不是角色描述,确保与实际用户应用保持一致。此外,我们构建了一个真实的多轮对话模拟机制。通过精心选择的评估维度和基于LLM的评分,这一机制捕捉了用户与角色之间对话的复杂意图。通过将重点从角色背景转向用户意图的实现,RMTBench弥合了学术评估与实际部署需求之间的差距,提供了一个更有效的框架来评估LLMs的角色扮演能力。所有代码和数据集将很快发布。 |
[52] 大型语言模型中的长度表示 标题: Length Representations in Large Language Models 作者: Sangjun Moon / Dasom Choi / Jingun Kwon / Hidetaka Kamigaito / Manabu Okumura 原文: [英文] 备注: None 摘要: 大型语言模型(LLMs)在从大量基于文本的数据中学习后,展示了在各种任务上的显著能力。尽管LLMs可以控制输出序列的长度,特别是在基于指令的设置中,但这种控制背后的内部机制尚未被探索。在这项研究中,我们提供了关于输出序列长度信息如何在LLMs的内部表示中编码的实证证据。特别是,我们的研究结果表明,多头注意力机制在确定输出序列长度方面至关重要,并且可以以解耦的方式进行调整。通过对模型中特定隐藏单元进行缩放,我们可以在不丧失生成文本信息量的情况下控制输出序列长度,这表明长度信息在一定程度上与语义信息解耦。此外,随着提示变得更加特定于长度,一些隐藏单元变得越来越活跃,从而反映了模型对这一属性的内部意识。我们的研究结果表明,LLMs已经学习到了一种稳健且适应性强的内部机制,可以在没有任何外部控制的情况下控制输出长度。 |
[53] 认知思维链:关于社会情境的结构化多模态推理 标题: Cognitive Chain-of-Thought: Structured Multimodal Reasoning about Social Situations 作者: Eunkyu Park / Wesley Hanwen Deng / Gunhee Kim / Motahhare Eslami / Maarten Sap 原文: [英文] [中文] 备注: Under review; 17 pages 摘要: 链式思维(Chain-of-Thought, CoT)提示帮助模型逐步思考。但是,当模型必须同时进行观察、理解和判断时会发生什么呢?在以社会背景为基础的视觉任务中,将感知与基于规范的判断相结合是至关重要的,而简单的链式思维往往会失效。我们引入了认知链式思维(Cognitive Chain-of-Thought, CoCoT),这是一种通过三个认知启发阶段(感知、情境和规范)来支撑视觉语言模型(VLM)推理的提示策略。我们的实验表明,在多个多模态基准测试(包括意图消歧、常识推理和安全性)中,CoCoT始终优于CoT和直接提示(平均提高8%)。我们的研究结果表明,基于认知的推理阶段增强了VLM的可解释性和社会意识,为更安全和更可靠的多模态系统铺平了道路。 |
[54] CONCAP:通过概念检索增强字幕功能,超越英语的视野 标题: CONCAP: Seeing Beyond English with Concepts Retrieval-Augmented Captioning 作者: George Ibrahim / Rita Ramos / Yova Kementchedjhieva 原文: [英文] [中文] 备注: Published as a conference paper at COLM 2025 摘要: 多语言视觉-语言模型在图像描述生成方面取得了显著进展,但由于多语言训练数据有限和大规模模型参数化成本高昂,它们仍然落后于英语模型。检索增强生成(RAG)通过在目标语言中基于检索到的示例生成描述,提供了一种有前途的替代方案,从而减少了对广泛多语言训练的需求。然而,多语言RAG描述生成模型通常依赖于从英语翻译过来的检索描述,这可能会引入与源语言不匹配的情况和语言偏差。我们引入了CONCAP,这是一种多语言图像描述生成模型,它将检索到的描述与图像特定的概念相结合,增强了输入图像的情境化,并在不同语言中为描述生成过程提供了基础。对XM3600数据集的实验表明,CONCAP在低资源和中等资源语言上实现了强劲的性能,同时大大减少了数据需求。我们的研究结果突显了概念感知检索增强在弥合多语言性能差距方面的有效性。 |
[55] 自然语言理解基准测试诊断语言现象的调查:为什么不标准化诊断基准? 标题: Survey of NLU Benchmarks Diagnosing Linguistic Phenomena: Why not Standardize Diagnostics Benchmarks? 作者: Khloud AL Jallad / Nada Ghneim / Ghaida Rebdawi 原文: [英文] 备注: None 摘要: 自然语言理解(NLU)是自然语言处理(NLP)中的一项基本任务。NLU能力的评估已成为近年来吸引研究人员的热门研究课题,导致开发了众多基准。这些基准包括各种任务和数据集,以通过公共排行榜评估预训练模型的结果。值得注意的是,几个基准包含诊断数据集,旨在对广泛的语言现象进行调查和细粒度错误分析。本综述全面回顾了现有的英语、阿拉伯语和多语言NLU基准,特别强调了它们的诊断数据集及其涵盖的语言现象。我们对这些基准进行了详细的比较和分析,突出了它们在评估NLU任务中的优点和局限性,并提供了深入的错误分析。在强调当前技术的不足时,我们注意到没有宏观和微观类别的命名惯例,甚至没有应该涵盖的语言现象的标准集。因此,我们提出了一个关于评估诊断基准的评估指标的研究问题:“为什么我们没有NLU评估诊断基准的评估标准?”类似于工业中的ISO标准。我们对所涵盖的语言现象进行了深入分析和比较,以支持专家在未来建立语言现象的全球层次结构。我们认为,拥有诊断评估的评估指标可能对在不同诊断基准上比较研究模型的结果时获得更多见解是有价值的。 |
[56] CodeNER:用于命名实体识别的代码提示 标题: CodeNER: Code Prompting for Named Entity Recognition 作者: Sungwoo Han / Hyeyeon Kim / Jingun Kwon / Hidetaka Kamigaito / Manabu Okumura 原文: [英文] [中文] 备注: 18 pages, 6 figures 摘要: 最近的研究探索了在命名实体识别(NER)中将候选命名实体范围同时视为源序列和目标序列的各种方法,这些方法利用了大型语言模型(LLMs)。尽管先前的方法已经成功地生成了具有适当标签的候选命名实体范围,但在使用LLMs时,特别是ChatGPT,它们仅依赖于输入的上下文信息。然而,NER本质上需要结合输入上下文信息来捕捉详细的标记要求。为了解决这个问题,我们提出了一种新颖的方法,该方法利用基于代码的提示来提高LLMs在理解和执行NER方面的能力。通过在提示中嵌入代码,我们提供了详细的BIO模式标记说明,从而利用LLMs在编程语言中理解长范围范围的能力。实验结果表明,所提出的基于代码的提示方法在英语、阿拉伯语、芬兰语、丹麦语和德语数据集的十个基准上优于传统的基于文本的提示,表明明确构建NER指令的有效性。我们还验证了将所提出的基于代码的提示方法与链式思维提示结合使用可以进一步提高性能。 |
[57] 用词语表达,用逻辑思考:问答系统中的双重过程框架 标题: Speaking in Words, Thinking in Logic: A Dual-Process Framework in QA Systems 作者: Tuan Bui / Trong Le / Phat Thai / Sang Nguyen / Minh Hua / Ngan Pham / Thang Bui / Tho Quan 原文: [英文] 备注: 8 pages, 3 figures. Accepted at the International Joint Conference on Neural Networks (IJCNN) 2025, Workshop on Trustworthiness and Reliability in Neuro-Symbolic AI. this https URL 摘要: 最近在大型语言模型(LLMs)方面的进展显著提升了问答(QA)能力,特别是在开放领域的环境中。然而,在教育、医疗和法律等封闭领域的场景中,用户不仅需要准确的答案,还需要透明的推理和可解释的决策过程。尽管神经符号(NeSy)框架作为一种有前景的解决方案出现,利用LLMs进行自然语言理解和符号系统进行形式推理,但现有方法通常依赖于大规模模型,并在将自然语言翻译为形式逻辑表示时表现出低效。 为了解决这些限制,我们引入了Text-JEPA(基于文本的联合嵌入预测架构),这是一个轻量级但有效的框架,用于将自然语言转换为一阶逻辑(NL2FOL)。Text-JEPA从双系统认知理论中汲取灵感,通过高效生成逻辑表示来模拟系统1,而Z3求解器则作为系统2,支持强大的逻辑推理。为了严格评估NL2FOL到推理的流程,我们提出了一个综合评估框架,包括三个自定义指标:转换分数、推理分数和Spearman rho分数,这些指标共同捕捉逻辑翻译的质量及其对推理准确性的下游影响。 在特定领域的数据集上的实证结果表明,Text-JEPA在计算开销显著低于基于大型LLM的系统的情况下,实现了具有竞争力的性能。我们的研究结果突显了结构化、可解释的推理框架在构建高效且可解释的专门领域QA系统中的潜力。 |
[58] AQUA:用于水产养殖与渔业的大型语言模型 标题: AQUA: A Large Language Model for Aquaculture & Fisheries 作者: Praneeth Narisetty / Uday Kumar Reddy Kattamanchi / Lohit Akshant Nimma / Sri Ram Kaushik Karnati / Shiva Nagendra Babu Kore / Mounika Golamari / Tejashree Nageshreddy 原文: [英文] [中文] 备注: None 摘要: 水产养殖通过提供可持续的蛋白质来源,在全球粮食安全和沿海经济中发挥着至关重要的作用。随着行业的扩张以满足不断增长的需求,它面临着越来越多的挑战,如疾病爆发、低效的饲养实践、不断上升的劳动力成本、物流效率低下以及关键的孵化场问题,包括高死亡率和水质控制不佳。尽管人工智能取得了显著进展,但现有的机器学习方法在解决水产养殖领域的复杂性方面仍显不足。为弥补这一差距,我们引入了AQUA,这是首个专为水产养殖量身定制的大型语言模型(LLM),旨在支持农民、研究人员和行业从业者。此项工作的核心是AQUADAPT(数据获取、处理和调优),这是一种代理框架,用于结合专家知识、大规模语言模型和自动化评估技术生成和优化高质量的合成数据。我们的工作为水产养殖研究、咨询系统和决策工具中的LLM驱动创新奠定了基础。 |
[59] 沙数数学:使用大型语言模型生成新颖、困难且有用的数学问题和答案 标题: SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers 作者: Chaitanya Manem / Pratik Prabhanjan Brahma / Prakamya Mishra / Zicheng Liu / Emad Barsoum 原文: [英文] [中文] 备注: None 摘要: 各行各业对具备复杂数学推理能力的大型语言模型(LLMs)的需求正在增长。然而,性能优异的数学LLMs的开发因缺乏困难且新颖的训练数据而受到严重制约。我们引入了\textbf{SAND-Math}(合成增强的新颖且困难的数学问题和解决方案),这是一个通过从头生成高质量问题并通过新的\textbf{难度提升}步骤系统地提高其复杂性来解决这一问题的流程。我们通过两个关键发现证明了我们方法的有效性。首先,使用SAND-Math数据增强一个强大的基线显著提高了性能,在AIME25基准测试中比次优的合成数据集高出\textbf{17.85个绝对点}。其次,在专门的消融研究中,我们展示了我们的难度提升过程非常有效:通过将平均问题难度从5.02提高到5.98,这一步骤将AIME25的性能从46.38\%提升到49.23\%。完整的生成流程、最终数据集和微调模型构成了一个实用且可扩展的工具包,用于构建更强大和高效的数学推理LLMs。SAND-Math数据集在此发布:\href{this https URL}{this https URL} |
[60] 异议对话:社交媒体对话中仇恨言论与反仇恨言论的主题和修辞维度 标题: Dialogues of Dissent: Thematic and Rhetorical Dimensions of Hate and Counter-Hate Speech in Social Media Conversations 作者: Effi Levi / Gal Ron / Odelia Oshri / Shaul R. Shenhav 原文: [英文] [中文] 备注: None 摘要: 我们引入了一种新颖的多标签方案,用于在社交媒体对话中联合标注仇恨和反仇恨言论,将仇恨和反仇恨信息分类为主题和修辞维度。主题类别概述了每种言论类型的不同话语方面,而修辞维度则借鉴亚里士多德的逻各斯(Logos)、德性(Ethos)和情感(Pathos),捕捉仇恨和反仇恨信息的传播方式。我们对92个对话样本进行了标注,这些对话由720条推文组成,并进行了统计分析,结合公共指标,探索仇恨和反仇恨言论内部及相互之间的主题和修辞维度的互动模式。我们的研究结果提供了关于社交媒体上仇恨信息传播、反制策略及其对在线行为潜在影响的见解。 |
[61] 通过未来上下文增强幻觉检测 标题: Enhancing Hallucination Detection via Future Context 作者: Joosung Lee / Cheonbok Park / Hwiyeol Jo / Jeonghoon Kim / Joonsuk Park / Kang Min Yoo 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)被广泛用于在线平台上生成看似合理的文本,但其生成过程并未公开。随着用户越来越多地接触到这种黑箱输出,检测幻觉已成为一个关键挑战。为了解决这一挑战,我们专注于为黑箱生成器开发一个幻觉检测框架。受到幻觉一旦引入就倾向于持续存在的观察启发,我们对未来的上下文进行采样。采样的未来上下文为幻觉检测提供了有价值的线索,并且可以有效地与各种基于采样的方法相结合。我们通过我们提出的采样方法,广泛地展示了在多种方法上的性能提升。 |
[62] ZSE-Cap:用于图像检索和提示引导字幕生成的零样本集成方法 标题: ZSE-Cap: A Zero-Shot Ensemble for Image Retrieval and Prompt-Guided Captioning 作者: Duc-Tai Dinh / Duc Anh Khoa Dinh 原文: [英文] [中文] 备注: None 摘要: 我们介绍了ZSE-Cap(用于描述的零样本集成),这是我们在文章支持的图像检索和描述的事件丰富图像分析(EVENTA)共享任务中获得第四名的系统。我们的零样本方法不需要在比赛数据上进行微调。在检索方面,我们集成了来自CLIP、SigLIP和DINOv2的相似性分数。在描述方面,我们利用精心设计的提示来引导Gemma 3模型,使其能够将文章中的高级事件与图像中的视觉内容联系起来。我们的系统在私有测试集上取得了0.42002的最终得分,确保了前四名的位置,展示了通过集成和提示结合基础模型的有效性。我们的代码可在此HTTPS URL获取。 |
[63] 在愤怒之前:预测在线反社会行为的挑战与进展 标题: Before the Outrage: Challenges and Advances in Predicting Online Antisocial Behavior 作者: Anaïs Ollagnier 原文: [英文] [中文] 备注: None 摘要: 社交媒体上的反社会行为(ASB),包括仇恨言论、骚扰和恶意挑衅,给平台安全和社会福祉带来了日益严重的挑战。尽管之前的研究主要集中在有害内容出现后的检测上,预测性方法则旨在预见未来的有害行为——如仇恨言论的传播、对话的偏离或用户的再犯——在其完全展开之前。尽管对此领域的兴趣日益增加,但该领域仍然支离破碎,缺乏统一的分类法或对现有方法的清晰综合。本文对超过49项关于ASB预测的研究进行了系统回顾,提供了一个由五个核心任务类型构成的结构化分类法:早期危害检测、危害出现预测、危害传播预测、行为风险预测和主动性管理支持。我们分析了这些任务在时间框架、预测细粒度和操作目标上的差异。此外,我们还考察了从经典机器学习到预训练语言模型的建模技术趋势,并评估了数据集特征对任务可行性和泛化能力的影响。我们的回顾突出了方法论上的挑战,如数据集稀缺、时间漂移和有限的基准,同时概述了新兴的研究方向,包括多语言建模、跨平台泛化和人机协作系统。通过围绕一个连贯的框架组织该领域,本综述旨在引导未来的工作朝着更稳健和社会责任感更强的ASB预测方向发展。 |
[64] 使用大型语言模型的本体增强知识图谱补全 标题: Ontology-Enhanced Knowledge Graph Completion using Large Language Models 作者: Wenbin Guo / Xin Wang / Jiaoyan Chen / Zhao Li / Zirui Chen 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在知识图谱补全(KGC)中得到了广泛应用,展示了显著的研究进展。然而,作为由深度神经架构驱动的黑箱模型,当前基于LLM的KGC方法依赖于隐式知识表示,并伴随着错误知识的并行传播,从而阻碍了其产生明确和决定性推理结果的能力。我们旨在将神经感知结构信息与本体知识相结合,利用LLM的强大能力来深入理解知识的内在逻辑。我们提出了一种使用LLM的本体增强KGC方法——OL-KGC。该方法首先利用神经感知机制将结构信息有效嵌入到文本空间中,然后使用自动提取算法从需要补全的知识图谱(KGs)中检索本体知识,并将其转化为LLM可理解的文本格式,以提供逻辑指导。我们在三个广泛使用的基准数据集——FB15K-237、UMLS和WN18RR上进行了广泛的实验。实验结果表明,OL-KGC在多个评估指标上显著优于现有的主流KGC方法,达到了最先进的性能。 |
[65] 几何平均策略优化 标题: Geometric-Mean Policy Optimization 作者: Yuzhong Zhao / Yue Liu / Junpeng Liu / Jingye Chen / Xun Wu / Yaru Hao / Tengchao Lv / Shaohan Huang / Lei Cui / Qixiang Ye / Fang Wan / Furu Wei 原文: [英文] [中文] 备注: Code is available at this https URL 摘要: 最近的进展,例如群体相对策略优化(GRPO),通过优化标记级奖励的算术平均值,增强了大型语言模型的推理能力。然而,GRPO在处理具有异常重要性加权奖励的标记时,策略更新不稳定,这在训练期间表现为极端的重要性采样比率,即当前策略和旧策略分配给标记的采样概率之间的比率。在这项工作中,我们提出了几何平均策略优化(GMPO),这是GRPO的稳定变体。GMPO不是优化算术平均值,而是最大化标记级奖励的几何平均值,这本质上对异常值不太敏感,并保持更稳定的重要性采样比率范围。此外,我们提供了全面的理论和实验分析,以证明GMPO的设计和稳定性优势。除了提高稳定性之外,GMPO-7B在多个数学基准测试中平均比GRPO提高了4.1%,在多模态推理基准测试中提高了1.4%,包括AIME24、AMC、MATH500、OlympiadBench、Minerva和Geometry3K。代码可在此HTTPS URL获取。 |
[66] 当规模遇上多样性:在细粒度多语言声明验证中评估语言模型 标题: When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification 作者: Hanna Shcharbakova / Tatiana Anikina / Natalia Skachkova / Josef van Genabith 原文: [英文] 备注: Published at the FEVER Workshop, ACL 2025 摘要: 多语言错误信息的快速传播需要强大的自动化事实验证系统,能够在不同语言中处理细致的真实性评估。虽然大型语言模型在许多自然语言处理任务中表现出显著的能力,但它们在具有细微分类方案的多语言声明验证中的有效性仍然研究不足。我们对五个最先进的语言模型在X-Fact数据集上进行了全面评估,该数据集涵盖25种语言和七个不同的真实性类别。我们的实验比较了小型语言模型(基于编码器的XLM-R和mT5)与最近的仅解码器大型语言模型(Llama 3.1、Qwen 2.5、Mistral Nemo),使用提示和微调方法。令人惊讶的是,我们发现XLM-R(270M参数)显著优于所有测试的大型语言模型(7-12B参数),实现了57.7%的宏F1分数,而最佳大型语言模型的表现为16.9%。这比之前的最先进水平(41.9%)提高了15.8%,为多语言事实验证建立了新的性能基准。我们的分析揭示了大型语言模型行为中的问题模式,包括在利用证据方面的系统性困难以及在不平衡数据设置中对频繁类别的明显偏见。这些发现表明,对于细粒度的多语言事实验证,较小的专用模型可能比通用的大型模型更有效,对事实核查系统的实际部署具有重要意义。 |
[67] Text2VLM:将纯文本数据集用于评估视觉语言模型中的对齐训练 标题: Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models 作者: Gabriel Downer / Sean Craven / Damian Ruck / Jake Thomas 原文: [英文] [中文] 备注: 9 pages, 9 figures. Jake Thomas served as Editor for this manuscript 摘要: 随着视觉语言模型(VLMs)越来越多地集成到人工智能系统中,尤其是在处理结合文本和图像的多模态内容时,模型的稳健对齐变得至关重要。现有的评估数据集主要偏向于仅文本提示,导致视觉脆弱性未得到充分评估。为了解决这一问题,我们提出了\textbf{Text2VLM},这是一种新颖的多阶段流程,能够将仅文本数据集转换为多模态格式,专门用于评估VLMs在应对印刷体提示注入攻击时的弹性。Text2VLM流程识别原始文本中的有害内容,并将其转换为印刷体图像,从而为VLMs创建多模态提示。此外,我们对开源VLMs的评估显示,当引入视觉输入时,它们对提示注入的敏感性增加,揭示了当前模型对齐中的关键弱点。这与与封闭源前沿模型相比的显著性能差距相辅相成。我们通过人工评估验证了Text2VLM,确保提取的显著概念的对齐;文本摘要和输出分类符合人类预期。Text2VLM提供了一种可扩展的工具,用于全面的安全评估,有助于开发更稳健的VLMs安全机制。通过增强对多模态脆弱性的评估,Text2VLM在推动VLMs在多样化的现实世界应用中的安全部署方面发挥了作用。 |
[68] 研究结构化剪枝与恢复技术在压缩多模态大型语言模型中的应用:一项实证研究 标题: Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study 作者: Yiran Huang / Lukas Thede / Massimiliano Mancini / Wenjia Xu / Zeynep Akata 原文: [英文] [中文] 备注: Accepted at GCPR 2025 摘要: 尽管多模态大型语言模型(MLLMs)展示了令人印象深刻的能力,但其巨大的计算和内存需求对实际部署构成了显著障碍。目前的参数缩减技术主要涉及从小型语言模型(SLMs)训练MLLMs,但这些方法灵活性有限且计算密集。为了解决这一问题,我们提出通过结构化剪枝结合高效的恢复训练直接压缩现有的MLLMs。具体来说,我们研究了两种结构化剪枝范式——层级剪枝和宽度剪枝——应用于MLLMs的语言模型骨干,同时进行监督微调和知识蒸馏。此外,我们评估了仅使用一小部分可用数据进行恢复训练的可行性。我们的结果表明,在计算资源有限或微调数据不足的低资源场景中,宽度剪枝通常能保持更好的性能。至于恢复训练,在小压缩水平(< 20%)下,仅微调多模态投影器就足够了。此外,监督微调和隐藏状态蒸馏的结合在各种剪枝水平上实现了最佳恢复。值得注意的是,仅使用原始训练数据的5%即可实现有效恢复,同时保留超过95%的原始性能。通过对两个具有代表性的MLLMs(即LLaVA-v1.5-7B和Bunny-v1.0-3B)的实证研究,本研究为希望在没有大量计算资源或足够数据的情况下有效压缩MLLMs的从业者提供了可操作的见解。 |
[69] 多语言自学忠实性评估器 标题: Multilingual Self-Taught Faithfulness Evaluators 作者: Carlo Alfano / Aymen Al Marjani / Zeno Jonke / Amin Mantrach / Saab Mansour / Marcello Federico 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型(LLMs)的广泛使用,对自动评估系统的需求增加,特别是为了应对信息幻觉的挑战。尽管现有的忠实度评估方法显示出一定的前景,但它们主要集中在英语上,并且通常需要昂贵的人类标注训练数据来微调专门的模型。随着LLMs在多语言环境中的应用增加,需要能够跨语言操作且无需大量标注数据的准确忠实度评估器。本文提出了一种用于多语言忠实度的自学评估器框架,该框架仅从合成的多语言摘要数据中学习,同时利用跨语言迁移学习。通过对比语言特定和混合语言微调方法的实验,我们展示了LLM的一般语言能力与其在语言特定评估任务中的表现之间的一致关系。我们的框架在现有基线之上显示出改进,包括最先进的英语评估器和基于机器翻译的方法。 |
[70] 关于预训练语言模型在通用文本嵌入中的作用:一项综述 标题: On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey 作者: Meishan Zhang / Xin Zhang / Xinping Zhao / Shouzheng Huang / Baotian Hu / Min Zhang 原文: [英文] [中文] 备注: 45 pages, 2 figures, 9 tables 摘要: 文本嵌入因其在信息检索、分类、聚类、双语文本挖掘和摘要等广泛的自然语言处理(NLP)任务中的有效性而引起了越来越多的关注。随着预训练语言模型(PLMs)的出现,通用文本嵌入(GPTE)因其能够生成丰富且可迁移的表示而获得了显著的关注。GPTE 的一般架构通常利用 PLMs 来获取密集的文本表示,然后通过在大规模成对数据集上的对比学习进行优化。在这篇综述中,我们提供了 PLMs 时代 GPTE 的全面概述,重点介绍了 PLMs 在推动其发展中所扮演的角色。我们首先研究了基本架构,并描述了 PLMs 在 GPTE 中的基本角色,即嵌入提取、表达能力增强、训练策略、学习目标和数据构建。接着,我们描述了 PLMs 所启用的高级角色,如多语言支持、多模态集成、代码理解和特定场景适应。最后,我们强调了超越传统改进目标的潜在未来研究方向,包括排名集成、安全性考虑、偏见缓解、结构信息整合和嵌入的认知扩展。本综述旨在为希望了解 GPTE 当前状态和未来潜力的新手和资深研究人员提供有价值的参考。 |
[71] 使用大型语言模型自动化未来死亡预防报告的主题审查:复制国家统计局儿童自杀研究 标题: Automating Thematic Review of Prevention of Future Deaths Reports: Replicating the ONS Child Suicide Study using Large Language Models 作者: Sam Osian / Arpan Dutta / Sahil Bhandari / Iain E. Buchan / Dan W. Joyce 原文: [英文] [中文] 备注: 8 pages, 1 figure 摘要: 英格兰和威尔士的验尸官发布的“预防未来死亡”(PFD)报告指出了可能导致进一步生命损失的系统性隐患。对这些报告的分析以前受到手动识别和编码相关案例所需努力的限制。2025年,国家统计局(ONS)发布了一份关于儿童自杀PFD报告(≤18岁)的国家主题审查,识别了2015年1月至2023年11月的37个案例——这一过程完全基于手动整理和编码。我们评估了一种完全自动化的开源“文本到表格”语言模型管道(PFD工具包)是否能够重现ONS对儿童自杀PFD报告的识别和主题分析,并评估了效率和可靠性的提升。所有从2013年7月至2023年11月发布的4,249份PFD报告都通过PFD工具包的大型语言模型管道进行了处理。自动筛选识别出验尸官将死亡归因于18岁或以下个体自杀的案例,并对符合条件的报告进行接收者类别和23个关注子主题的编码,复制ONS的编码框架。PFD工具包识别出72份儿童自杀PFD报告——几乎是ONS数量的两倍。三位不知情的临床医生裁定了144份报告的分层样本,以验证儿童自杀筛选。与共识后临床注释相比,基于LLM的工作流程显示出显著到几乎完美的一致性(Cohen's κ = 0.82,95% CI: 0.66-0.98,原始一致性=91%)。端到端脚本运行时间为8分16秒,将以前需要数月的过程转变为可以在几分钟内完成的过程。这表明自动化的LLM分析可以可靠且高效地复制对验尸数据的手动主题审查,从而为公共健康和安全提供可扩展、可重复和及时的见解。PFD工具包可公开用于未来的研究。 |
[72] 用于大型语言模型个性化的潜在用户间差异建模 标题: Latent Inter-User Difference Modeling for LLM Personalization 作者: Yilun Qiu / Tianhao Shi / Xiaoyan Zhao / Fengbin Zhu / Yang Zhang / Fuli Feng 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)越来越多地融入用户的日常生活,导致对个性化输出的需求不断增长。以往的研究主要集中在利用用户自身的历史记录,忽视了用户之间的差异,而这些差异对于有效的个性化至关重要。虽然最近的研究尝试对这些差异进行建模,但依赖于基于语言的提示往往阻碍了有效提取有意义的区别。为了解决这些问题,我们提出了差异感知的基于嵌入的个性化框架(DEP),该框架在潜在空间中建模用户间的差异,而不是依赖语言提示。DEP通过对比用户的嵌入与那些参与类似内容的同伴的嵌入来构建软提示,突出相对的行为信号。一个稀疏自编码器随后过滤并压缩用户特定和差异感知的嵌入,仅保留与任务相关的特征,然后将其注入冻结的LLM中。在个性化评论生成的实验中,DEP在多个指标上始终优于基线方法。我们的代码可以在这个https URL上获取。 |
[73] 自然语言处理中的多样性量化研究综述:为什么、是什么、在哪里以及如何 标题: A survey of diversity quantification in natural language processing: The why, what, where and how 作者: Louis Estève / Marie-Catherine de Marneffe / Nurit Melnik / Agata Savary / Olha Kanishcheva 原文: [英文] [中文] 备注: None 摘要: 近年来,多样性概念在自然语言处理(NLP)领域受到了越来越多的关注。这是由于多种动机,如促进包容性、模拟人类语言行为以及提高系统性能。然而,多样性在NLP中往往是以临时的方式被处理的,并且与其他领域中这一概念得到更好理论化的情况联系不多。我们调查了过去6年中ACL Anthology中标题包含“diversity”或“diverse”的文章。我们发现多样性在各种环境中被量化,通常是高度专业化的,并且使用不一致的术语。我们提出了一个统一的分类法,来说明在NLP中多样性为何、在何处、如何被测量。多样性测量被置于一个来自生态学和经济学的统一框架中(Stirling, 2007),具有多样性的三个维度:多样性、平衡性和差异性。我们讨论了由于这种系统化方法而出现的趋势。我们相信,这项研究为NLP中多样性的更好形式化铺平了道路,这将带来对这一概念的更好理解以及各种方法之间的更好可比性。 |
[74] 在资源受限环境中利用开源大型语言模型进行临床信息提取 标题: Leveraging Open-Source Large Language Models for Clinical Information Extraction in Resource-Constrained Settings 作者: Luc Builtjes / Joeran Bosma / Mathias Prokop / Bram van Ginneken / Alessa Hering 原文: [英文] [中文] 备注: 34 pages, 5 figures 摘要: 医学报告包含丰富的临床信息,但通常是非结构化的,并且使用特定领域的语言书写,这给信息提取带来了挑战。尽管专有的大型语言模型(LLMs)在临床自然语言处理方面显示出潜力,但其缺乏透明性和数据隐私问题限制了其在医疗保健中的实用性。因此,本研究在DRAGON基准上评估了九个开源生成式LLMs,该基准包括荷兰语的28个临床信息提取任务。我们开发了\texttt{llm\_extractinator},这是一个用于信息提取的开源生成式LLMs的公共框架,并使用它在零样本设置中评估模型性能。几个拥有140亿参数的模型,如Phi-4-14B、Qwen-2.5-14B和DeepSeek-R1-14B,取得了具有竞争力的结果,而更大的Llama-3.3-70B模型在更高的计算成本下实现了略高的性能。在推理前翻译成英语会持续降低性能,这突显了母语处理的必要性。这些发现表明,开源LLMs在与我们的框架结合使用时,为低资源环境中的临床信息提取提供了有效、可扩展且注重隐私的解决方案。 |
[75] 任务嵌入的软注入优于基于提示的上下文学习 标题: Soft Injection of Task Embeddings Outperforms Prompt-Based In-Context Learning 作者: Jungwon Park / Wonjong Rhee 原文: [英文] [中文] 备注: Preprint 摘要: 上下文学习(In-Context Learning, ICL)使大型语言模型(LLMs)能够通过在提示中使用输入输出示例来执行任务,而无需更新模型参数。尽管被广泛采用,但尚不清楚使用多个示例进行提示是否是传达任务信息的最有效和高效的方法。在这项工作中,我们提出了任务嵌入的软注入方法。任务嵌入仅使用少量示例的ICL提示构建一次,并在推理过程中重复使用。软注入通过使用预优化的混合参数(称为软头选择参数)将任务嵌入与注意力头激活进行软混合来实现。这种方法不仅允许在没有提示演示的情况下执行所需任务,还显著优于现有的ICL方法,同时减少了推理时的内存使用和计算成本。我们在57个任务和12个LLM上进行了广泛评估,涵盖了四个模型家族,规模从4B到70B。在57个任务中平均,我们的方法在12个LLM上比10-shot ICL提高了10.1%-13.9%。额外的分析表明,我们的方法还可以作为分析注意力头的任务相关角色的有益工具,揭示了我们的方法选择的任务相关头位置在相似任务之间可以转移,但在不相似任务之间则不能——强调了头功能的任务特定性质。我们的软注入方法为通过将任务条件从提示空间转移到激活空间来减少提示长度和提高任务性能开辟了新范式。 |
[76] MediQAl:用于知识和推理评估的法语医学问答数据集 标题: MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation 作者: Adrien Bazoge 原文: [英文] [中文] 备注: None 摘要: 这项工作介绍了MediQAl,一个法语医学问答数据集,旨在评估语言模型在真实临床场景中的事实性医学回忆和推理能力。MediQAl包含32,603个问题,这些问题来自41个医学科目的法语医学考试。该数据集包括三个任务:(i) 唯一答案的多项选择题,(ii) 多答案的多项选择题,以及(iii) 简短回答的开放式问题。每个问题都被标记为理解或推理,以便对模型的认知能力进行详细分析。我们通过对14个大型语言模型进行广泛评估来验证MediQAl数据集,包括最近增强推理的模型,并观察到事实性回忆和推理任务之间存在显著的性能差距。我们的评估为评估语言模型在法语医学问答上的表现提供了一个全面的基准,解决了医学领域多语言资源的一个关键缺口。 |
[77] FHSTP@EXIST 2025 基准:使用透明语音概念瓶颈模型进行性别歧视检测 标题: FHSTP@EXIST 2025 Benchmark: Sexism Detection with Transparent Speech Concept Bottleneck Models 作者: Roberto Labadie-Tamayo / Adrian Jaques Böck / Djordje Slijepčević / Xihui Chen / Andreas Babic / Matthias Zeppelzauer 原文: [英文] [中文] 备注: 12 pages 摘要: 性别歧视在社交媒体和在线对话中变得越来越普遍。为了解决这个问题,第五届社交网络中的性别歧视识别(EXIST)挑战赛在CLEF 2025年启动。在今年的国际基准测试中,我们专注于解决第一个任务,旨在识别和分类社交媒体文本帖子中的性别歧视。在本文中,我们描述了我们的解决方案,并报告了三个子任务的结果:子任务1.1 - 推文中的性别歧视识别,子任务1.2 - 推文中的来源意图,和子任务1.3 - 推文中的性别歧视分类。我们实施了三个模型来解决每个子任务,这构成了三个独立的运行:语音概念瓶颈模型(SCBM)、带有Transformer的语音概念瓶颈模型(SCBMT)和一个微调的XLM-RoBERTa Transformer模型。SCBM使用描述性形容词作为人类可解释的瓶颈概念。SCBM利用大型语言模型(LLMs)将输入文本编码为人类可解释的形容词表示,然后用于训练轻量级分类器以进行下游任务。SCBMT通过将基于形容词的表示与Transformer的上下文嵌入融合来扩展SCBM,以平衡可解释性和分类性能。除了具有竞争力的结果外,这两个模型还在实例(局部)和类别(全局)级别提供细粒度的解释。我们还研究了如何利用额外的元数据,例如注释者的人口统计资料。在子任务1.1中,XLM-RoBERTa在提供的数据上进行微调,并通过先前的数据集增强,在Soft-Soft评估中英语和西班牙语排名第6,英语排名第4。我们的SCBMT在英语和西班牙语中排名第7,西班牙语中排名第6。 |
[78] FRED:在语言模型中增强检索的金融幻觉检测与编辑 标题: FRED: Financial Retrieval-Enhanced Detection and Editing of Hallucinations in Language Models 作者: Likun Tan / Kuan-Wei Huang / Kevin Wu 原文: [英文] [中文] 备注: None 摘要: 大型语言模型中的幻觉对需要事实可靠性的应用构成了重大挑战,尤其是在金融等高风险领域。本文提出了一种有效的方法,用于检测和编辑基于提供的上下文生成的模型响应中的事实错误。根据用户定义的特定领域错误分类,我们通过在金融问答语料库中插入标记错误来构建合成数据集,然后微调四个语言模型:Phi-4、Phi-4-mini、Qwen3-4B 和 Qwen3-14B,以检测和编辑这些事实不准确之处。我们表现最好的模型是微调后的 Phi-4,与 OpenAI-o3 相比,其二元 F1 分数提高了 8%,整体检测性能提高了 30%。值得注意的是,我们的微调 Phi-4-mini 模型尽管只有 40 亿个参数,但在二元检测上仅下降 2%,整体检测仅下降 0.1%,仍保持了竞争力。我们的工作为检测和编辑金融文本生成中的事实不一致性提供了实用的解决方案,同时引入了一个可推广的框架,可以增强大型语言模型在金融以外的各种应用中的可信度和一致性。我们的代码和数据可在此 https URL 获得。 |
[79] 注意差距:通过一致性解码提高指令调优大型语言模型的输出多样性 标题: Mind the Gap: Conformative Decoding to Improve Output Diversity of Instruction-Tuned Large Language Models 作者: Max Peeperkorn / Tom Kouwenhoven / Dan Brown / Anna Jordanous 原文: [英文] [中文] 备注: 9 pages, 3 figures 摘要: 指令微调大型语言模型(LLMs)会降低其输出的多样性,这对许多任务,尤其是创造性任务,有重要影响。本文研究了写作提示叙事生成任务中的“多样性差距”。通过当前的多样性指标测量,这种差距在各种开放权重和开源LLMs中显现。结果显示,由于指令微调,多样性显著下降。我们在OLMo和OLMo 2模型的每个微调阶段探索多样性损失,以进一步了解输出多样性如何受到影响。结果表明,DPO对多样性有最显著的影响。受这些发现的启发,我们提出了一种新的解码策略,称为一致性解码,该策略通过使用其更具多样性的基础模型来指导指令模型,以重新引入输出多样性。我们展示了一致性解码通常可以增加多样性,甚至保持或提高质量。 |
[80] 微调大型语言模型中的记忆 标题: Memorization in Fine-Tuned Large Language Models 作者: Danil Savine / Muni Sreenivas Pydi / Jamal Atif / Olivier Cappé 原文: [英文] [中文] 备注: None 摘要: 本研究调查了在微调大型语言模型(LLMs)中影响记忆的机制和因素,特别关注由于其隐私敏感性而选择的医学领域。我们研究了微调过程的不同方面如何影响模型记忆训练数据的倾向,使用的是药物警戒事件的PHEE数据集。 我们的研究采用了两种主要方法:一种是成员推断攻击以检测记忆的数据,另一种是使用提示前缀的生成任务来评估逐字重现。我们分析了在变压器架构中调整不同权重矩阵的影响、困惑度与记忆之间的关系,以及在低秩适应(LoRA)微调中增加秩的效果。 主要发现包括:(1)与查询和键矩阵相比,值和输出矩阵对记忆的贡献更大;(2)微调模型中的较低困惑度与记忆增加相关;(3)较高的LoRA秩导致记忆增加,但在更高秩时收益递减。 这些结果为在微调LLMs中模型性能与隐私风险之间的权衡提供了见解。我们的研究结果对开发更有效和负责任的策略以适应大型语言模型,同时管理数据隐私问题具有重要意义。 |
[81] 多智能体作为评判者:将基于大型语言模型智能体的自动评估与多维度人类评估对齐 标题: Multi-Agent-as-Judge: Aligning LLM-Agent-Based Automated Evaluation with Multi-Dimensional Human Evaluation 作者: Jiaju Chen / Yuxuan Lu / Xiaojie Wang / Huimin Zeng / Jing Huang / Jiri Gesi / Ying Xu / Bingsheng Yao / Dakuo Wang 原文: [英文] [中文] 备注: None 摘要: 几乎所有的人类工作都是协作完成的,因此,现实世界中自然语言处理(NLP)应用的评估通常需要多个维度,以符合多样化的人类视角。由于真实的人类评估资源往往稀缺且成本高昂,新兴的“LLM-as-a-judge”范式为利用大型语言模型(LLM)代理来可信地模拟人类评估者提供了一种有前景的方法。然而,迄今为止,现有的LLM-as-a-judge方法面临两个限制:代理的角色描述通常是任意设计的,并且这些框架无法推广到其他任务。为了解决这些挑战,我们提出了MAJ-EVAL,这是一种多代理评审的评估框架,可以从相关文本文件(例如,研究论文)中自动构建具有不同维度的多个评估者角色,使用这些角色实例化LLM代理,并通过多代理小组辩论生成多维度反馈。我们在教育和医疗领域的评估实验表明,与传统的自动化评估指标和现有的LLM-as-a-judge方法相比,MAJ-EVAL能够生成更符合人类专家评分的评估结果。 |