scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CL方向,2025年7月31日更新论文37
[1] IndoPref:一个用于印度尼西亚语的多领域成对偏好数据集
标题: IndoPref: A Multi-Domain Pairwise Preference Dataset for Indonesian
作者: Vanessa Rebecca Wiyono / David Anugraha / Ayu Purwarianti / Genta Indra Winata
原文:   [英文]   [中文]  
备注: Preprint
摘要:
超过2亿人讲印尼语,但在大语言模型(LLMs)的偏好研究中,这种语言仍然显著地被低估。大多数现有的多语言数据集是从英语翻译而来的,往往导致内容缺乏文化和语言的真实性。为了解决这一差距,我们引入了IndoPref,这是第一个完全由人类撰写的多领域印尼语偏好数据集,专门用于评估LLM生成文本的自然性和质量。所有注释均以印尼语本地书写,并使用Krippendorff's alpha进行评估,显示出强烈的注释者间一致性。此外,我们在多个LLM上对该数据集进行了基准测试,并评估了每个模型的输出质量。

[2] 角色增强基准测试:在多样化写作风格中评估大型语言模型
标题: Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles
作者: Kimberly Le Truong / Riccardo Fogliato / Hoda Heidari / Zhiwei Steven Wu
原文:   [英文]   [中文]  
备注: None
摘要:
当前用于评估大型语言模型(LLMs)的基准测试往往在写作风格多样性方面表现不足,许多基准主要遵循标准化惯例。这些基准未能充分捕捉人类丰富多样的交流模式。因此,可能会出现这样一种情况:在这些基准上优化的LLMs在面对“非标准”输入时表现脆弱。在这项工作中,我们通过使用基于角色的LLM提示重写评估提示来测试这一假设,这是一种模拟多样化写作风格的低成本方法。我们的结果表明,即使语义内容相同,写作风格和提示格式的变化也会显著影响LLM在评估中的估计性能。值得注意的是,我们识别出一些独特的写作风格,这些风格在不同模型和任务中始终触发低或高性能,而不论模型家族、规模和新旧程度。我们的工作提供了一种可扩展的方法来增强现有基准,改善其在衡量LLM在语言变体中的表现时所提供评估的外部有效性。

[3] 一种使用大型语言模型估计动词框架频率的可扩展流程
标题: A Scalable Pipeline for Estimating Verb Frame Frequencies Using Large Language Models
作者: Adam M. Morgan / Adeen Flinker
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一种自动化流程,用于估计动词框架频率(VFFs),即动词出现在特定句法框架中的频率。VFFs 为人类和机器语言系统中的句法提供了一个强有力的视角,但现有的计算工具在规模、准确性或可访问性方面存在局限性。我们使用大型语言模型(LLMs)生成包含476个英语动词的句子语料库。接下来,通过指示LLM表现得像一位语言学专家,我们让它分析该语料库中句子的句法结构。该流程在多个评估数据集上优于两种广泛使用的句法解析器。此外,它所需的资源远少于手动解析(即金标准),从而实现了快速、可扩展的VFF估计。使用LLM解析器,我们生成了一个新的VFF数据库,具有更广泛的动词覆盖、更细致的句法区分,以及对心理语言学中常研究的结构替代的相对频率的明确估计。该流程易于定制并可扩展到新动词、句法框架,甚至其他语言。我们将这项工作作为自动化框架频率估计的概念验证,并发布所有代码和数据以支持未来的研究。

[4] 媒体记忆性在促进初创企业获得风险投资资金中的作用
标题: The role of media memorability in facilitating startups' access to venture capital funding
作者: L. Toschi / S. Torrisi / A. Fronzetti Colladon
原文:   [英文]  
备注: None
摘要:
媒体声誉在吸引风险投资方面起着重要作用。然而,之前的研究过于狭隘地关注一般的媒体曝光,限制了我们对媒体如何真正影响融资决策的理解。作为信息丰富的决策者,风险投资家对媒体内容的更细微方面作出反应。我们引入了媒体记忆力的概念——媒体在相关投资者的记忆中留下创业公司名称的能力。通过分析1995年至2004年间获得融资的197家英国微纳米技术领域的创业公司数据,我们发现媒体记忆力显著影响投资结果。我们的研究表明,风险投资家依赖于详细的线索,例如创业公司的独特性和在新闻语义网络中的连接性。这为创业金融和媒体合法化研究做出了贡献。在实践中,创业公司应超越频繁的媒体提及,通过更有针对性和意义的报道来加强品牌记忆力,突出其在更广泛行业对话中的独特性和相关性。

[5] 首词熵作为心理语言学预测指标的准确性如何?
标题: How Well Does First-Token Entropy Approximate Word Entropy as a Psycholinguistic Predictor?
作者: Christian Clark / Byung-Doh Oh / William Schuler
原文:   [英文]   [中文]  
备注: None
摘要:
上下文熵是一种心理语言学测量方法,用于捕捉在遇到一个词之前预期的处理难度。最近的研究测试了与熵相关的效应,作为对众所周知的意外性效应的潜在补充。为了方便起见,熵通常基于语言模型对一个词的第一个子词标记的概率分布进行估计。然而,这种近似会导致对真实词熵的低估和潜在的扭曲。为了解决这个问题,我们生成了允许词跨越可变数量标记的蒙特卡罗(MC)词熵估计。在阅读时间上的回归实验显示,第一个标记的词熵和MC词熵之间的结果存在差异,这表明在使用第一个标记的上下文熵近似时需要谨慎。

[6] 从教师模型优化中进行强化学习:用于机器翻译的渐进模仿学习
标题: RL from Teacher-Model Refinement: Gradual Imitation Learning for Machine Translation
作者: Dongyub Jude Lee / Zhenyi Ye / Pengcheng He
原文:   [英文]   [中文]  
备注: None
摘要:
机器翻译(MT)的偏好学习方法——例如直接偏好优化(DPO)——取得了显著的进展,但严重依赖于大型、精心策划的三元组数据集,并且往往难以在其调优领域之外进行泛化。我们提出了一种新的框架,称为从教师模型优化中进行强化学习(RLfR),通过利用外部教师模型(GPT-4o)的持续高质量反馈,消除了对静态三元组的依赖。RLfR将每个翻译步骤视为一个微型教程:演员生成一个假设,教师对其进行优化,并根据其与教师优化的接近程度给予奖励。在两个互补信号的指导下——(i)负编辑距离,促进词汇和结构的忠实性,以及(ii)COMET分数,确保语义的充分性——演员逐步学习模仿教师,通过增量和迭代的改进过程反映人类的学习过程。在FLORES-200基准测试(英语与德语、西班牙语、中文、韩语和日语之间的翻译)中,RLfR始终优于MT-SFT和基于偏好的基线,显著提高了COMET(语义充分性)和M-ETA(实体保留)分数。

[7] 意义注入的语法:渐变可接受性塑造大型语言模型中构式的几何表示
标题: Meaning-infused grammar: Gradient Acceptability Shapes the Geometric Representations of Constructions in LLMs
作者: Supantho Rakshit / Adele Goldberg
原文:   [英文]   [中文]  
备注: 5 pages, 3 figures, Accepted for publication at the Second International Workshop on Construction Grammars and NLP at the 16th International Conference for Computational Semantics (IWCS) 2025
摘要:
基于使用的建构主义(UCx)方法认为,语言由一系列学习到的形式-意义配对(建构)组成,其使用主要由其意义或功能决定,因此需要是分级和概率性的。本研究探讨大型语言模型(LLMs)的内部表征是否反映了所提出的功能注入的渐变性。我们分析了Pythia-$1.4$B中英语与格结构(双宾语和介词宾语)的神经表征,使用了一个包含$5000$个句子对的数据集,这些句子对在人类评分的偏好强度上进行了系统变化。宏观层面的几何分析发现,建构表征之间的可分性(通过能量距离或Jensen-Shannon散度测量)被渐变偏好强度系统地调节。每种建构的更典型的例子在LLMs的激活空间中占据更为独特的区域。这些结果提供了强有力的证据,表明LLMs学习了丰富的、注入意义的、分级的建构表征,并支持在LLMs中使用几何测量来体现基本的建构主义原则。

[8] 在多方对话中使用大型语言模型进行意图识别和超出范围检测
标题: Intent Recognition and Out-of-Scope Detection using LLMs in Multi-party Conversations
作者: Galo Castillo-López / Gaël de Chalendar / Nasredine Semmar
原文:   [英文]   [中文]  
备注: Accepted for publication at SIGDIAL 2025
摘要:
意图识别是面向任务的对话系统(TODS)的一个基本组成部分。确定用户意图以及检测意图是否超出范围(OOS)对于TODS提供可靠的响应至关重要。然而,传统的TODS需要大量的标注数据。在这项工作中,我们提出了一种混合方法,将BERT和大型语言模型(LLMs)结合在零样本和少样本设置中,以识别意图和检测OOS话语。我们的方法利用了LLMs的泛化能力和BERT在此类场景中的计算效率。我们在多方对话语料库上评估了我们的方法,观察到从BERT输出向LLMs共享信息可以提高系统性能。

[9] 面向自然语言处理和神经检索器的否定全面分类法
标题: A Comprehensive Taxonomy of Negation for NLP and Neural Retrievers
作者: Roxana Petcu / Samarth Bhargav / Maarten de Rijke / Evangelos Kanoulas
原文:   [英文]  
备注: None
摘要:
理解和解决复杂的推理任务对于满足用户的信息需求至关重要。尽管密集的神经模型能够学习上下文化的嵌入,但它们在处理包含否定的查询时表现仍不理想。为了理解这一现象,我们研究了传统神经信息检索和基于大型语言模型(LLM)的模型中的否定。我们(1)引入了一种源自哲学、语言学和逻辑定义的否定分类法;(2)生成了两个基准数据集,可用于评估神经信息检索模型的性能,并对模型进行微调以在否定方面获得更稳健的表现;(3)提出了一种基于逻辑的分类机制,可用于分析检索模型在现有数据集上的表现。我们的分类法在否定类型上产生了平衡的数据分布,提供了更好的训练设置,从而在NevIR数据集上实现更快的收敛。此外,我们提出了一种分类方案,揭示了现有数据集中否定类型的覆盖情况,提供了关于可能影响微调模型在否定方面泛化的因素的见解。

[10] 特质深藏:通过心理学引导的大型语言模型表征和多模态表面行为提升人格评估
标题: Traits Run Deep: Enhancing Personality Assessment via Psychology-Guided LLM Representations and Multimodal Apparent Behaviors
作者: Jia Li / Yichao He / Jiacheng Xu / Tianhao Luo / Zhenzhen Hu / Richang Hong / Meng Wang
原文:   [英文]   [中文]  
备注: 8 pages, 3 figures, ACM MM 2025
摘要:
准确可靠的个性评估在许多领域中起着至关重要的作用,例如情商、心理健康诊断和个性化教育。与短暂的情绪不同,个性特征是稳定的,通常通过语言、面部表情和身体行为在不同模态中以异步模式潜意识地泄露出来。传统的表面特征难以对个性语义进行建模,并且似乎无法实现有效的跨模态理解。为了解决这些挑战,我们提出了一种新颖的个性评估框架,称为\textit{\textbf{Traits Run Deep}}。该框架采用\textit{\textbf{心理学启发的提示}}来引发与个性相关的高级语义表示。此外,它设计了一个\textit{\textbf{以文本为中心的特征融合网络}},将丰富的文本语义锚定,以对齐和整合来自其他模态的异步信号。具体来说,这种融合模块包括一个块状投影器以降低维度,一个跨模态连接器和一个文本特征增强器以实现有效的模态融合,以及一个集成回归头以在数据稀缺情况下提高泛化能力。据我们所知,我们是首次应用个性特定提示来指导大型语言模型(LLMs)提取个性感知语义以提高表示质量。此外,提取和融合视听明显行为特征进一步提高了准确性。在AVI验证集上的实验结果证明了所提出组件的有效性,即均方误差(MSE)减少约45%。在AVI挑战赛2025的测试集上的最终评估确认了我们方法的优越性,在个性评估赛道中排名第一。源代码将在此https URL上提供。

[11] 专利撰写者:使用大型语言模型进行专利撰写的基准研究
标题: PATENTWRITER: A Benchmarking Study for Patent Drafting with LLMs
作者: Homaira Huda Shomee / Suman Kalyan Maity / Sourav Medya
原文:   [英文]  
备注: None
摘要:
大型语言模型(LLMs)在多个重要领域中已成为变革性的方法。本文旨在通过利用LLMs来克服繁琐的专利申请过程,从而实现专利撰写的范式转变。在这项工作中,我们提出了PATENTWRITER,这是第一个用于评估LLMs在专利摘要生成中的统一基准框架。给定专利的第一项权利要求,我们在一致的设置下评估六个领先的LLMs——包括GPT-4和LLaMA-3——涵盖零样本、少样本和链式思维提示策略,以生成专利的摘要。我们的基准PATENTWRITER不仅限于表面层次的评估:我们使用全面的指标套件系统地评估输出质量——标准的自然语言处理测量(例如,BLEU、ROUGE、BERTScore)、在三种类型的输入扰动下的鲁棒性,以及在两个下游专利分类和检索任务中的适用性。我们还进行风格分析以评估长度、可读性和语气。实验结果表明,现代LLMs可以生成高保真度和风格适当的专利摘要,常常超越特定领域的基线。我们的代码和数据集是开源的,以支持可重复性和未来的研究。

[12] 用于评估早期识字阅读理解的问题生成
标题: Question Generation for Assessing Early Literacy Reading Comprehension
作者: Xiaocheng Yang / Sumuk Shashidhar / Dilek Hakkani-Tur
原文:   [英文]   [中文]  
备注: 2 pages, 1 figure, accepted by SLaTE 2025
摘要:
通过基于内容的互动来评估阅读理解在阅读习得过程中起着重要作用。在本文中,我们提出了一种新颖的方法,用于生成面向K-2英语学习者的理解问题。我们的方法确保对基础材料的全面覆盖,并适应学习者的特定能力,能够在不同难度级别上生成多种类型的问题,以确保全面的评估。我们使用FairytaleQA数据集作为素材,评估了在此框架中各种语言模型的性能。最终,所提出的方法有潜力成为自主AI驱动的英语教师的重要组成部分。

[13] NeedleChain:测量大型语言模型的完整长上下文推理能力
标题: NeedleChain: Measuring Intact Long-Context Reasoning Capability of Large Language Models
作者: Hyeonseok Moon / Heuiseok Lim
原文:   [英文]   [中文]  
备注: 13 pages
摘要:
“针在干草堆中”(Needle-in-a-Haystack, NIAH)基准广泛用于评估大型语言模型(LLMs)理解长上下文(LC)的能力。它评估在大量与查询无关的段落中识别与查询相关的上下文的能力。尽管这种方法作为评估长上下文理解的广泛接受的标准,我们的研究结果表明,它可能高估了LLMs的真实LC能力。我们证明,即使是最先进的模型如GPT-4o也难以完整地整合仅由与查询相关的十个句子组成的给定上下文。对此,我们引入了一种新的基准,\textbf{NeedleChain},其中上下文完全由与查询相关的信息组成,要求LLM完全掌握输入以正确回答。我们的基准允许灵活的上下文长度和推理顺序,提供对LLM性能的更全面分析。此外,我们提出了一种极其简单但引人注目的策略来提高LC理解能力:ROPE收缩。我们对各种先进LLM的实验揭示了它们处理大上下文的能力与完全理解它们的能力之间的显著差异。源代码和数据集可在此https URL获取。

[14] AI生成的故事偏好稳定而非变化:gpt-4o-mini生成的叙事中的同质性和文化刻板印象
标题: AI-generated stories favour stability over change: homogeneity and cultural stereotyping in narratives generated by gpt-4o-mini
作者: Jill Walker Rettberg / Hermann Wigers
原文:   [英文]  
备注: This project has received funding from the European Union's Horizon 2020 research and innovation programme under grant agreement number 101142306. The project is also supported by the Center for Digital Narrative, which is funded by the Research Council of Norway through its Centres of Excellence scheme, project number 332643
摘要:
一个主要基于英美文本训练的语言模型能否生成对其他国家具有文化相关性的故事?为了找出答案,我们生成了11,800个故事——每个国家生成50个故事,共涉及236个国家——通过向OpenAI的模型gpt-4o-mini发送提示“写一个1500字的潜在{民族}故事”。尽管这些故事确实包含了一些表层的国家符号和主题,但它们在各国之间却压倒性地遵循单一的叙事情节结构:主人公生活在或回到一个小镇,通过重新连接传统和组织社区活动来解决一个小冲突。现实世界的冲突被净化,浪漫几乎不存在,叙事张力被淡化,取而代之的是怀旧和和解。结果是叙事的同质化:一个由AI生成的合成想象,优先考虑稳定而非变化,传统而非成长。我们认为,AI生成叙事的结构同质性构成了一种独特的AI偏见,一种叙事标准化,应与更为人熟知的表现偏见一起被承认。这些发现与文学研究、叙事学、批判性AI研究、自然语言处理研究以及改善生成式AI文化对齐的努力相关。

[15] Falcon-H1:重新定义效率与性能的混合头语言模型家族
标题: Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance
作者: Jingwei Zuo / Maksim Velikanov / Ilyas Chahed / Younes Belkada / Dhia Eddine Rhayem / Guillaume Kunsch / Hakim Hacid / Hamza Yous / Brahim Farhat / Ibrahim Khadraoui / Mugariya Farooq / Giulia Campesan / Ruxandra Cojocaru / Yasser Djilali / Shi Hu / Iheb Chaabane / Puneesh Khanna / Mohamed El Amine Seddik / Ngoc Dung Huynh / Phuc Le Khac / Leen AlQadi / Billel Mokeddem / Mohamed Chami / Abdalgader Abubaker / Mikhail Lubinets / Kacper Piskorski / Slim Frikha
原文:   [英文]   [中文]  
备注: Technical report of Falcon-H1 model series
摘要:
在本报告中,我们介绍了Falcon-H1,这是一系列新的大型语言模型(LLMs),其混合架构设计经过优化,能够在多种使用场景中实现高性能和高效率。与早期仅基于Transformer或Mamba架构构建的Falcon模型不同,Falcon-H1采用了一种并行混合方法,将基于Transformer的注意力机制与以长上下文记忆和计算效率著称的状态空间模型(SSMs)相结合。我们系统地重新审视了模型设计、数据策略和训练动态,挑战了该领域的传统做法。Falcon-H1以多种配置发布,包括基础和指令调优变体,参数规模为0.5B、1.5B、1.5B-深度、3B、7B和34B。量化的指令调优模型也已发布,总计超过30个检查点在Hugging Face Hub上可用。Falcon-H1模型展示了最先进的性能以及卓越的参数和训练效率。旗舰模型Falcon-H1-34B在使用更少参数和数据的情况下,匹敌或超越了规模高达70B的模型,如Qwen3-32B、Qwen2.5-72B和Llama3.3-70B。较小的模型也显示出类似的趋势:Falcon-H1-1.5B-Deep可与当前领先的7B-10B模型媲美,而Falcon-H1-0.5B的表现与2024年典型的7B模型相当。这些模型在推理、数学、多语言任务、指令遵循和科学知识方面表现出色。支持多达256K上下文标记和18种语言,Falcon-H1适用于广泛的应用。所有模型均在宽松的开源许可下发布,强调了我们对可访问和有影响力的AI研究的承诺。

[16] 什么是“抽象推理者”?重新审视关于大型语言模型的实验和论点
标题: What is an "Abstract Reasoner"? Revisiting Experiments and Arguments about Large Language Models
作者: Tian Yun / Chen Sun / Ellie Pavlick
原文:   [英文]   [中文]  
备注: CONLL 2025. Project webpage: this https URL
摘要:
最近的研究认为,大型语言模型(LLMs)不是“抽象推理者”,并以其在各种具有挑战性的任务中的零样本表现不佳作为证据。我们重新审视这些实验,以便对这一说法进行更细致的分析。首先,我们展示了虽然LLMs在零样本环境中确实表现不佳,但即使只调整输入编码的一小部分参数,也能实现接近完美的表现。然而,我们也发现这种微调不一定能在不同数据集之间转移。我们将这一系列实证结果视为重新讨论“抽象推理者”意味着什么的邀请,并探讨为什么LLMs是否符合这一标准很重要。

[17] IFEvalCode: 受控代码生成
标题: IFEvalCode: Controlled Code Generation
作者: Jian Yang / Wei Zhang / Shukai Liu / Linzheng Chai / Yingshui Tan / Jiaheng Liu / Ge Zhang / Wangchunshu Zhou / Guanglin Niu / Zhoujun Li / Binyuan Hui / Junyang Lin
原文:   [英文]  
备注: 10 pages
摘要:
代码大型语言模型(Code LLMs)在代码生成方面取得了显著进展,通过将自然语言描述翻译为功能代码;然而,现实世界的应用往往要求更严格地遵循详细的需求,如编码风格、行数和结构约束,而不仅仅是正确性。为了解决这个问题,本文引入了前向和后向约束生成,以提高Code LLMs在受控代码生成中遵循指令的能力,确保输出更符合人类定义的指南。作者进一步提出了IFEvalCode,这是一个多语言基准,包含1600个测试样本,涵盖七种编程语言(Python、Java、JavaScript、TypeScript、Shell、C++和C#),每个样本都包含中文和英文查询。与现有基准不同,IFEvalCode将评估分为两个指标:正确性(Corr.)和指令遵循(Instr.),从而实现更细致的评估。对超过40个LLM的实验表明,闭源模型在可控代码生成方面优于开源模型,并突显了模型生成正确代码与精确遵循指令的能力之间的显著差距。

[18] SLM-SQL:小型语言模型在文本到SQL转换中的探索
标题: SLM-SQL: An Exploration of Small Language Models for Text-to-SQL
作者: Lei Sheng / Shuai-Shuai Xu
原文:   [英文]   [中文]  
备注: 16 pages, 2 figures, work in progress
摘要:
大型语言模型(LLMs)在将自然语言问题翻译为SQL查询(文本到SQL)方面表现出色。相比之下,参数范围在0.5B到1.5B的小型语言模型(SLMs)在文本到SQL任务上表现不佳,原因在于其逻辑推理能力有限。然而,SLMs在推理速度和适合边缘部署方面具有固有优势。为了探索它们在文本到SQL应用中的潜力,我们利用了后训练技术的最新进展。具体来说,我们使用开源的SynSQL-2.5M数据集构建了两个衍生数据集:用于SQL生成的SynSQL-Think-916K和用于SQL合并修订的SynSQL-Merge-Think-310K。然后,我们对SLM进行了监督微调和基于强化学习的后训练,随后使用纠正自一致性方法进行推理。实验结果验证了我们的方法SLM-SQL的有效性和通用性。在BIRD开发集上,五个评估模型平均提高了31.4分。值得注意的是,0.5B模型达到了56.87%的执行准确率(EX),而1.5B模型达到了67.08%的EX。我们将把我们的数据集、模型和代码发布到GitHub:这个https URL。

[19] CliCARE:将大型语言模型与临床指南结合,用于长期癌症电子健康记录的决策支持
标题: CliCARE: Grounding Large Language Models in Clinical Guidelines for Decision Support over Longitudinal Cancer Electronic Health Records
作者: Dongchen Li / Jitao Liang / Wei Li / Xiaoyu Wang / Longbing Cao / Kun Yu
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在通过综合复杂的、纵向的癌症电子健康记录(EHRs)来改善临床决策支持和减少医生倦怠方面具有重大潜力。然而,它们在这一关键领域的实施面临三个主要挑战:无法有效处理患者记录的广泛长度和多语言特性以进行准确的时间分析;临床幻觉风险增加,因为传统的基础技术如检索增强生成(RAG)未能充分结合过程导向的临床指南;以及不可靠的评估指标阻碍了人工智能系统在肿瘤学中的验证。为了解决这些问题,我们提出了CliCARE,一个用于在纵向癌症电子健康记录中基于临床指南进行决策支持的大型语言模型基础框架。该框架通过将非结构化的、纵向的EHRs转化为患者特定的时间知识图谱(TKGs)来捕捉长距离依赖关系,然后通过将这些真实世界的患者轨迹与规范性指南知识图谱对齐来奠定决策支持过程的基础。该方法通过生成高保真度的临床总结和可操作的建议,为肿瘤学家提供了基于证据的决策支持。我们使用来自一个私人中国癌症数据集和公共英语MIMIC-IV数据集的大规模纵向数据验证了我们的框架。在这些多样化的环境中,CliCARE显著优于强大的基线,包括领先的长上下文LLMs和知识图谱增强的RAG方法。我们的结果的临床有效性得到了强大的评估协议的支持,该协议显示与专家肿瘤学家的评估具有高度相关性。

[20] 用于客户支持的越南大型语言模型的基准数据集和评估框架
标题: A Benchmark Dataset and Evaluation Framework for Vietnamese Large Language Models in Customer Support
作者: Long S. T. Nguyen / Truong P. Hua / Thanh M. Nguyen / Toan Q. Pham / Nam K. Ngo / An X. Nguyen / Nghi D. M. Pham / Nghia H. Nguyen / Tho T. Quan
原文:   [英文]   [中文]  
备注: Under review at ICCCI 2025
摘要:
随着人工智能的快速发展,大型语言模型(LLMs)已成为问答(QA)系统的关键,提升了效率并减少了客户服务中的人力工作量。越南大型语言模型(ViLLMs)的出现突显了轻量级开源模型在准确性、效率和隐私方面的实用性。然而,领域特定的评估仍然有限,缺乏反映真实客户互动的基准数据集,使企业难以为支持应用选择合适的模型。为了解决这一问题,我们引入了客户支持对话数据集(CSConDa),这是一个经过精心整理的基准数据集,包含来自一家大型越南软件公司的人类顾问的真实互动中提取的9,000多个问答对。CSConDa涵盖了多种主题,如定价、产品可用性和技术故障排除,为在实际场景中评估ViLLMs提供了代表性基础。我们进一步提出了一个全面的评估框架,在CSConDa上对11个轻量级开源ViLLMs进行基准测试,结合自动化指标和句法分析揭示模型的优缺点和语言模式。本研究提供了对模型行为的见解,解释了性能差异,并识别了改进的关键领域,支持下一代ViLLMs的发展。通过建立稳健的基准和系统的评估,我们的工作使客户服务问答的模型选择更加明智,并推动了越南大型语言模型的研究。数据集可通过此HTTPS URL公开获取。

[21] ControlMed:为医学语言模型添加推理控制
标题: ControlMed: Adding Reasoning Control to Medical Language Model
作者: Sung-Min Lee / Siyoon Lee / Juyeon Kim / Kyungmin Roh
原文:   [英文]   [中文]  
备注: 13 pages
摘要:
随着临床决策的生命攸关性质对可靠支持的需求,具有更高准确性和可解释性的推理大型语言模型(LLMs)在医学领域的应用日益增多。尽管取得了这些进展,现有的推理LLMs往往生成不必要冗长的推理过程,导致显著的计算开销和响应延迟。这些限制阻碍了它们在实际临床环境中的应用。为了解决这些挑战,我们引入了\textbf{ControlMed},这是一种医学语言模型,允许用户在推理时通过细粒度控制标记主动控制推理过程的长度。ControlMed通过三个阶段的流程进行训练:1)在大规模合成医学指令数据集上进行预训练,涵盖\textit{直接}和\textit{推理响应};2)使用多长度推理数据和显式长度控制标记进行监督微调;3)通过基于模型的奖励信号进行强化学习,以提高事实准确性和响应质量。在各种英语和韩语医学基准测试上的实验结果表明,我们的模型在性能上与最先进的模型相当或更优。此外,用户可以根据需要通过控制推理长度灵活平衡推理准确性和计算效率。这些发现表明,ControlMed是临床问答和医学信息分析的实用且适应性强的解决方案。

[22] 利用协同认知偏差绕过大型语言模型中的安全机制
标题: Exploiting Synergistic Cognitive Biases to Bypass Safety in LLMs
作者: Xikang Yang / Biyu Zhou / Xuehai Tang / Jizhong Han / Songlin Hu
原文:   [英文]  
备注: None
摘要:
大型语言模型(LLMs)在广泛的任务中展示了令人印象深刻的能力,但其安全机制仍然容易受到利用认知偏见的对抗性攻击——即系统性偏离理性判断的攻击。与之前专注于提示工程或算法操控的越狱方法不同,这项工作强调了多重偏见交互在削弱LLM安全措施中的被忽视的力量。我们提出了CognitiveAttack,这是一种新颖的红队框架,系统地利用个体和组合的认知偏见。通过整合监督微调和强化学习,CognitiveAttack生成嵌入优化偏见组合的提示,有效绕过安全协议,同时保持高攻击成功率。实验结果揭示了30种不同LLM的显著漏洞,尤其是在开源模型中。与当前最先进的黑箱方法PAP相比,CognitiveAttack实现了显著更高的攻击成功率(60.1%对31.6%),暴露了当前防御机制的关键局限性。这些发现突显了多重偏见交互作为一种强大但未被充分探索的攻击向量。通过将认知科学与LLM安全相结合,这项工作引入了一种新颖的跨学科视角,为更稳健和符合人类需求的AI系统铺平了道路。

[23] 揭示放大语言特定神经元的影响
标题: Unveiling the Influence of Amplifying Language-Specific Neurons
作者: Inaya Rahmanisa / Lyzander Marciano Andrylie / Krisna Mahardika Ihsani / Alfan Farizki Wicaksono / Haryo Akbarianto Wibowo / Alham Fikri Aji
原文:   [英文]   [中文]  
备注: Our code and dataset are made available at this https URL
摘要:
在大型语言模型(LLMs)中,与特定语言强相关的语言特异性神经元已被证明可以通过停用来影响模型行为。然而,它们在放大方面的作用仍未被充分探索。本文研究了通过干预放大语言特异性神经元的效果,涉及18种语言,包括低资源语言,使用三个主要在不同语言中训练的模型。我们通过提出的语言引导转移(LSS)评估分数来比较放大因子在引导至目标语言方面的有效性,然后在下游任务中进行评估:常识推理(XCOPA, XWinograd)、知识(Include)和翻译(FLORES)。最佳放大因子有效地将输出引导至几乎所有测试语言。在下游任务中使用该因子进行干预在某些情况下提高了自语言表现,但通常会降低跨语言结果。这些发现突出了语言特异性神经元在多语言行为中的影响,其中放大对低资源语言尤其有益,但对跨语言转移提供的优势有限。

[24] BALSAM:用于评测阿拉伯大型语言模型的平台
标题: BALSAM: A Platform for Benchmarking Arabic Large Language Models
作者: Rawan Al-Matham / Kareem Darwish / Raghad Al-Rasheed / Waad Alshammari / Muneera Alhoshan / Amal Almazrua / Asma Al Wazrah / Mais Alheraki / Firoj Alam / Preslav Nakov / Norah Alzahrani / Eman alBilali / Nizar Habash / Abdelrahman El-Sheikh / Muhammad Elmallah / Haonan Li / Hamdy Mubarak / Mohamed Anwar / Zaid Alyafeai / Ahmed Abdelali / Nora Altwairesh / Maram Hasanain / Abdulmohsen Al Thubaity / Shady Shehata / Bashar Alhafni / Injy Hamed / Go Inoue / Khalid Elmadani / Ossama Obeid / Fatima Haouari / Tamer Elsayed / Emad Alghamdi / Khalid Almubarak / Saied Alshahrani / Ola Aljarrah / Safa Alajlan / Areej Alshaqarawi / Maryam Alshihri / Sultana Alghurabi / Atikah Alzeghayer / Afrah Altamimi / Abdullah Alfaifi / Abdulrahman AlOsaimy
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在英语方面的显著进步并未在所有语言中得到匹配。特别是,由于数据稀缺、阿拉伯语及其方言的语言多样性、形态复杂性等原因,LLM在阿拉伯语中的表现相对滞后。进展还受到阿拉伯语基准质量的阻碍,这些基准通常依赖于静态的、公开可用的数据,缺乏全面的任务覆盖,或者没有提供带有盲测集的专用平台。这使得衡量实际进展和减轻数据污染变得具有挑战性。在此,我们旨在弥合这些差距。特别是,我们引入了BALSAM,这是一个全面的、社区驱动的基准,旨在推动阿拉伯语LLM的发展和评估。它包括来自14个大类的78个自然语言处理任务,包含52,000个例子,分为37,000个测试集和15,000个开发集,并提供一个集中透明的盲评平台。我们设想BALSAM作为一个统一的平台,设定标准并促进协作研究,以提升阿拉伯语LLM的能力。

[25] 语言算术:迈向系统化的语言神经元识别与操控
标题: Language Arithmetics: Towards Systematic Language Neuron Identification and Manipulation
作者: Daniil Gurgurov / Katharina Trinley / Yusser Al Ghussin / Tanja Baeumel / Josef van Genabith / Simon Ostermann
原文:   [英文]   [中文]  
备注: preprint
摘要:
大型语言模型(LLMs)展现出强大的多语言能力,但其背后语言特定处理的神经机制仍不清楚。我们分析了Llama-3.1-8B、Mistral-Nemo-12B和Aya-Expanse-8B & 32B在21种类型多样的语言中的语言特定神经元,识别出控制语言行为的神经元。通过使用语言激活概率熵(LAPE)方法,我们展示了这些神经元在更深层次上聚集,非拉丁文字显示出更大的专业化。相关语言共享重叠的神经元,反映了语言接近性的内部表示。 通过语言算术,即系统的激活加法和乘法,我们引导模型去激活不需要的语言并激活所需的语言,优于更简单的替换方法。这些干预措施在五个多语言任务中有效地指导行为:语言强制、翻译、问答、理解和自然语言推理。对于高资源语言,操控更为成功,而类型学相似性提高了效果。我们还展示了跨语言神经元引导增强了下游性能,并揭示了当神经元逐步去激活时语言选择的内部“回退”机制。我们的代码已在此https URL公开。

[26] 大型语言模型的多语言政治观点:识别与引导
标题: Multilingual Political Views of Large Language Models: Identification and Steering
作者: Daniil Gurgurov / Katharina Trinley / Ivan Vykopal / Josef van Genabith / Simon Ostermann / Roberto Zamparelli
原文:   [英文]   [中文]  
备注: pre-print
摘要:
大型语言模型(LLMs)在日常工具和应用中越来越多地被使用,引发了对其可能影响政治观点的担忧。虽然先前的研究表明,LLMs通常表现出可测量的政治偏见——经常倾向于自由或进步立场——但仍存在关键的空白。大多数现有研究仅评估了一小部分模型和语言,留下了关于政治偏见在不同架构、规模和多语言环境中普遍性的问题。此外,少有研究探讨这些偏见是否可以被主动控制。在这项工作中,我们通过对现代开源指令调优LLMs的政治倾向进行大规模研究来填补这些空白。我们评估了包括LLaMA-3.1、Qwen-3和Aya-Expanse在内的七个模型,使用政治罗盘测试跨14种语言进行评估,每个陈述有11个语义等效的改写,以确保测量的稳健性。我们的结果显示,较大的模型一致地向自由意志主义左派立场转移,并且在不同语言和模型家族中存在显著差异。为了测试政治立场的可操控性,我们使用了一种简单的质心激活干预技术,并展示了它可靠地引导模型响应向多种语言中的替代意识形态立场。我们的代码在此https URL公开可用。

[27] 倾听未言之语:探索多模态访谈表现评估的365个方面
标题: Listening to the Unspoken: Exploring 365 Aspects of Multimodal Interview Performance Assessment
作者: Jia Li / Yang Wang / Wenhao Qian / Zhenzhen Hu / Richang Hong / Meng Wang
原文:   [英文]   [中文]  
备注: 8 pages, 4 figures, ACM MM 2025. github:this https URL
摘要:
面试表现评估对于确定候选人是否适合专业职位至关重要。为了确保全面和公平的评估,我们提出了一个新颖且全面的框架,通过整合“三”种模态(视频、音频和文本)、每位候选人“六”个回答以及“五”个关键评估维度,探索面试表现的“365”个方面。该框架采用特定模态的特征提取器来编码异构数据流,随后通过共享压缩多层感知器进行融合。该模块将多模态嵌入压缩到统一的潜在空间中,促进高效的特征交互。为了增强预测的稳健性,我们引入了两级集成学习策略:(1)独立的回归头为每个回答预测分数,(2)通过均值池化机制在回答之间聚合预测,以生成五个目标维度的最终分数。通过倾听未言之语,我们的方法从多模态数据中捕捉显性和隐性线索,实现全面和无偏的评估。我们的框架在多维平均均方误差为0.1824的情况下,在AVI挑战赛2025中获得了第一名,展示了其在推进自动化和多模态面试表现评估方面的有效性和稳健性。完整的实现可在此URL获取。

[28] 从充分性到反思:在检索增强推理中通过强化引导的大型语言模型思维质量
标题: From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs
作者: Jie He / Victor Gutierrez Basulto / Jeff Z. Pan
原文:   [英文]   [中文]  
备注: None
摘要:
基于强化学习的检索增强生成(RAG)方法提升了大型语言模型(LLMs)的推理能力。然而,大多数方法仅依赖于最终答案的奖励,忽视了中间推理的质量。本文分析了现有的RAG推理模型,并识别出三种主要的失败模式:(1)信息不足,即模型未能检索到足够的支持信息;(2)推理错误,即尽管信息充足,但在逻辑或内容层面出现缺陷;(3)答案与推理不一致,即有效的推理链导致不匹配的最终答案。我们提出了TIRESRAG-R1,这是一种新颖的框架,采用思考-检索-反思过程和多维奖励系统来提高推理能力和稳定性。TIRESRAG-R1引入了:(1)充分性奖励,以鼓励全面的检索;(2)推理质量奖励,以评估推理链的合理性和准确性;(3)反思奖励,以检测和修正错误。它还采用了一种难度感知的重加权策略和训练样本过滤,以提高在复杂任务上的表现。在四个多跳问答数据集上的实验表明,TIRESRAG-R1优于先前的RAG方法,并能很好地推广到单跳任务。代码和数据可在此URL获取。

[29] 研究低资源语言对话中的幻觉现象
标题: Investigating Hallucination in Conversations for Low Resource Languages
作者: Amit Das / Md. Najib Hasan / Souvika Sarkar / Zheng Zhang / Fatemeh Jamshidi / Tathagata Bhattacharya / Nilanjana Raychawdhury / Dongji Feng / Vinija Jain / Aman Chadha
原文:   [英文]  
备注: None
摘要:
大型语言模型(LLMs)在生成与人类写作非常相似的文本方面表现出显著的能力。然而,它们经常生成事实不正确的陈述,这个问题通常被称为“幻觉”。解决幻觉问题对于提高LLMs的可靠性和有效性至关重要。尽管许多研究集中在英语中的幻觉问题上,我们的研究将这一调查扩展到印地语、波斯语和中文的对话数据中。我们对一个数据集进行了全面分析,以检查GPT-3.5、GPT-4o、Llama-3.1、Gemma-2.0、DeepSeek-R1和Qwen-3在这些语言中的事实和语言错误。我们发现,LLMs在中文中产生的幻觉响应非常少,但在印地语和波斯语中产生的幻觉数量显著更高。

[30] 通过提示工程和对比微调实现大型语言模型文本嵌入的资源高效适应
标题: Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning
作者: Benedikt Roth / Stephan Rappensperger / Tianming Qiu / Hamza Imamović / Julian Wörmann / Hao Shen
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)已成为自然语言处理(NLP)中的基石,在文本生成方面取得了令人印象深刻的表现。它们的词元级表示捕捉了丰富且与人类对齐的语义。然而,将这些向量汇聚成文本嵌入会丢弃关键信息。然而,许多非生成性下游任务,如聚类、分类或检索,仍然依赖于准确且可控的句子或文档级嵌入。我们探索了几种针对预训练的、仅解码器的LLMs的适应策略:(i)词元嵌入的各种聚合技术,(ii)任务特定的提示工程,以及(iii)通过对比微调进行文本级增强。结合这些组件,在大规模文本嵌入基准(MTEB)的英语聚类赛道上实现了最先进的性能。对注意力图的分析进一步表明,微调将注意力从提示词元转移到语义相关的词上,表明更有效地将意义压缩到最终的隐藏状态中。我们的实验表明,通过提示工程和资源高效的对比微调在合成生成的正样本对上,LLMs可以有效地适应为文本嵌入模型。

[31] 通过使用实体幻觉指数的强化学习来减少摘要中的幻觉
标题: Reducing Hallucinations in Summarization via Reinforcement Learning with Entity Hallucination Index
作者: Praveenkumar Katwe / Rakesh Chandra / Balabantaray Kali / Prasad Vittala
原文:   [英文]  
备注: 8
摘要:
在抽象摘要生成中减少幻觉现象仍然是将语言模型(LMs)应用于现实世界环境中的一个关键挑战。在这项工作中,我们引入了一种奖励驱动的微调框架,该框架明确优化实体幻觉指数(EHI),这是一种旨在量化生成摘要中命名实体的存在、正确性和基础的指标。给定一组会议记录,我们首先使用预训练的语言模型生成基线摘要,并通过自动实体提取和匹配计算EHI分数。然后,我们应用强化学习来微调模型参数,使用EHI作为奖励信号来偏向生成实体忠实的输出。我们的方法不依赖于人工编写的事实性注释,从而实现可扩展的微调。实验表明,在不同数据集上EHI均有一致的改善,定性分析显示实体级幻觉显著减少,同时流畅性和信息性没有下降。我们发布了一个可复现的Colab管道,促进使用轻量级幻觉指标如EHI进行幻觉感知模型微调的进一步研究。

[32] CUS-QA:面向本地知识的开放式问答数据集
标题: CUS-QA: Local-Knowledge-Oriented Open-Ended Question Answering Dataset
作者: Jindřich Libovický / Jindřich Helcl / Andrei Manea / Gianluca Vico
原文:   [英文]   [中文]  
备注: None
摘要:
我们引入了一个开放式区域问答的基准测试,涵盖了文本和视觉两种模态。我们还使用最先进的大型语言模型(LLMs)提供了强有力的基线。我们的数据集由手动整理的问题和答案组成,这些问题和答案基于维基百科,由来自捷克、斯洛伐克和乌克兰的母语者创建,并附有英文翻译。数据集包括纯文本问题和需要视觉理解的问题。作为基线,我们通过提示评估最先进的LLMs,并辅以人类对答案正确性的判断。利用这些人工评估,我们分析了现有自动评估指标的可靠性。我们的基线结果突显了当前LLMs在区域知识上的显著差距。此外,除了基于LLM的评估外,自动化指标与人类判断之间的相关性很小。我们发布此数据集作为资源,以(1)评估LLMs中的区域知识,(2)在具有挑战性的环境中研究跨语言生成的一致性,以及(3)推进开放式问答评估指标的发展。

[33] 大型语言模型在教育中的机遇与挑战:自然语言处理的视角
标题: Opportunities and Challenges of LLMs in Education: An NLP Perspective
作者: Sowmya Vajjala / Bashar Alhafni / Stefano Bannò / Kaushal Kumar Maurya / Ekaterina Kochmar
原文:   [英文]   [中文]  
备注: Pre-print
摘要:
随着大型语言模型(LLMs)在教育中角色的兴趣增加,人们开始关注它们在教学、学习和评估中提供的新机会。在本文中,我们考察了LLMs在教育自然语言处理中的影响,重点分析了两个主要应用场景:{\em 辅助}和{\em 评估},并将其置于阅读、写作、口语和辅导这四个维度中进行探讨。接着,我们展示了LLMs所开启的新方向以及需要解决的关键挑战。我们设想,这一全面的概述将对那些有兴趣探索LLMs在开发以语言为中心和自然语言处理支持的未来教育应用中的角色的NLP研究人员和从业者有所帮助。

[34] MASCA:基于大型语言模型的多代理系统用于信用评估
标题: MASCA: LLM based-Multi Agents System for Credit Assessment
作者: Gautam Jajoo / Pranjal A Chitale / Saksham Agarwal
原文:   [英文]   [中文]  
备注: Accepted at ACL REALM Workshop. Work in Progress
摘要:
最近在金融问题解决方面的进展利用了大型语言模型(LLMs)和基于代理的系统,主要集中在交易和金融建模上。然而,信用评估仍然是一个未被充分探索的挑战,传统上依赖于基于规则的方法和统计模型。在本文中,我们介绍了MASCA,这是一种由大型语言模型驱动的多代理系统,旨在通过模拟现实世界的决策过程来增强信用评估。该框架采用分层架构,其中专门的基于LLM的代理协作处理子任务。此外,我们整合了对比学习用于风险和回报评估,以优化决策过程。我们进一步从信号博弈论的角度对分层多代理系统进行了分析,提供了关于其结构和交互的理论见解。我们的论文还包括对信用评估中偏见的详细分析,解决了公平性问题。实验结果表明,MASCA优于基线方法,突显了基于层次化LLM的多代理系统在金融应用中特别是在信用评分中的有效性。

[35] DBLPLink 2.0 —— 用于DBLP学术知识图谱的实体链接器
标题: DBLPLink 2.0 -- An Entity Linker for the DBLP Scholarly Knowledge Graph
作者: Debayan Banerjee / Tilahun Abedissa Taffa / Ricardo Usbeck
原文:   [英文]   [中文]  
备注: None
摘要:
在这项工作中,我们为 DBLP 的 2025 版基于 RDF 的知识图谱提出了一种实体链接器。与 2022 版相比,DBLP 现在将出版场所视为一种新的实体类型,称为 dblp:Stream。在早期版本的 DBLPLink 中,我们在一个数据集上训练了知识图谱嵌入和重排序器以生成实体链接。相比之下,在这项工作中,我们使用大型语言模型(LLM)开发了一种零样本实体链接器,采用了一种新颖的方法,我们根据 LLM 倒数第二层输出的“是”标记的对数概率对候选实体进行重排序。

[36] 超越自然语言计划:面向查询的表格摘要的结构感知规划
标题: Beyond Natural Language Plans: Structure-Aware Planning for Query-Focused Table Summarization
作者: Weijia Zhang / Songgaojun Deng / Evangelos Kanoulas
原文:   [英文]   [中文]  
备注: 10 pages, 4 figures, and 5 tables
摘要:
面向查询的表格摘要需要复杂的推理,通常通过逐步的自然语言计划来实现。然而,自然语言计划本质上存在歧义且缺乏结构,这限制了它们向可执行程序(如SQL)的转换,并阻碍了可扩展性,特别是在多表任务中。为了解决这个问题,我们提出了一种向结构化表示转变的范式。我们引入了一种新的结构化计划TaSoF,灵感来自传统多智能体系统中的形式主义,以及一个框架SPaGe,该框架将推理过程形式化为三个阶段:1)结构化计划,从查询生成TaSoF,2)基于图的执行,将计划步骤转换为SQL,并通过有向循环图建模依赖关系以实现并行执行,3)摘要生成,生成面向查询的摘要。我们的方法明确捕捉复杂的依赖关系并提高可靠性。在三个公共基准上的实验表明,SPaGe在单表和多表设置中均持续优于先前的模型,展示了结构化表示在稳健和可扩展的摘要生成中的优势。

[37] 在提示中展示示例的位置:上下文学习的定位偏差
标题: Where to show Demos in Your Prompt: A Positional Bias of In-Context Learning
作者: Kwesi Cobbina / Tianyi Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
上下文学习(ICL)是大型语言模型(LLMs)的一项关键新兴能力,通过在提示中包含少量示例(demos),在推理过程中实现少样本学习。然而,研究发现,ICL 的性能对示例的选择及其顺序非常敏感。本文首次研究了一种未被探索的 ICL 新位置偏差:我们观察到,当在 LLM 输入中改变示例、系统提示和用户消息的位置时,预测和准确性可能会发生显著变化。我们将这种偏差称为示例在提示中的位置(DPP)偏差。我们设计了一个系统的评估流程,以研究这种位置偏差在分类、问答、摘要和推理任务中的表现。我们引入了两个指标,准确性变化(ACCURACY-CHANGE)和预测变化(PREDICTION-CHANGE),以量化由于示例位置变化引起的净收益和输出波动。在四个开源模型家族(QWEN、LLAMA3、MISTRAL、COHERE)的十个 LLM 上进行的大量实验验证了这种偏差显著影响了它们的准确性和预测:将示例放在提示的开头可以产生最稳定和准确的输出,收益高达+6分。相反,将示例放在用户消息的末尾会翻转超过30%的预测,而在问答任务中并未提高正确性。较小的模型受这种敏感性影响最大,尽管即使是大型模型在复杂任务中也会受到轻微影响。