![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年3月26日更新论文45篇
|
[1] SRMIR:基于内省推理的影子奖励模型用于大语言模型对齐 标题: SRMIR: Shadow Reward Models Based on Introspective Reasoning for LLM Alignment 作者: Ruoxi Cheng / Shuirong Cao 原文: [英文] [中文] 备注: None 摘要: 将大型语言模型(LLMs)与人类的偏好和价值观对齐对于其应用至关重要。然而,目前的对齐方法面临三个主要限制:(1)依赖于昂贵的人类标注;(2)对齐成本;(3)浅层对齐易受越狱攻击。此外,目前的对齐数据集往往存在分布不均的问题,导致某些主题的过度代表和其他主题的忽视。为了解决这些问题,我们提出了基于内省推理的影子奖励模型(SRMIR),灵感来自成员推断攻击中的影子模型。我们首先构建了一个涵盖7种有害类型的平衡安全草案链(CoD)数据集,利用LLMs的内省推理能力进行结构化提示,然后训练一组专门的奖励模型,通过群体相对策略优化(GRPO)指导策略优化。我们应用了两种策略,线性组合和分类方法,以整合影子奖励模型进行策略优化。通过比较,我们发现尽管后者计算成本更高,但在对齐方面表现更优。多种LLMs的实验表明,SRMIR显著优于现有方法。 |
[2] 前瞻调优:通过部分答案预览实现更安全的语言模型 标题: LookAhead Tuning: Safer Language Models via Partial Answer Previews 作者: Kangwei Liu / Mengru Wang / Yujie Luo / Lin Yuan / Mengshu Sun / Ningyu Zhang / Lei Liang / Zhiqiang Zhang / Jun Zhou / Huajun Chen 原文: [英文] [中文] 备注: Work in progress 摘要: 微调使大型语言模型(LLMs)能够适应特定领域,但往往会削弱其先前建立的安全对齐。为了减轻微调过程中模型安全性的下降,我们引入了前瞻调优(LookAhead Tuning),这包括两种简单、低资源且有效的数据驱动方法,通过预览部分答案前缀来修改训练数据。这两种方法的目标是通过最小化对初始标记分布的扰动来保留模型固有的安全机制。综合实验表明,前瞻调优能够在不牺牲下游任务强大性能的情况下有效维护模型安全性。我们的研究结果表明,前瞻调优是大型语言模型安全有效适应的可靠且高效的解决方案。代码已在此 https URL 发布。 |
[3] 基于大型语言模型的联络中心分析洞察提取与成本高效部署 标题: LLM-Based Insight Extraction for Contact Center Analytics and Cost-Efficient Deployment 作者: Varsha Embar / Ritvik Shrivastava / Vinay Damodaran / Travis Mehlinger / Yu-Chung Hsiao / Karthik Raghunathan 原文: [英文] [中文] 备注: None 摘要: 大型语言模型已经改变了呼叫中心行业,体现在增强的自助服务工具、简化的行政流程和提高的代理生产力上。本文描述了我们自动生成呼叫驱动因素的系统,该系统是主题建模、来电分类、趋势检测和常见问题生成等任务的基础,为呼叫中心的代理和管理员提供可操作的见解。我们提出了一种具有成本效益的LLM系统设计,包括1)对专有、开放权重和微调模型的全面评估,2)成本效益策略,以及3)在生产环境中部署时的相应成本分析。 |
[4] 面具与模仿:针对作者身份验证的战略性混淆与冒充攻击 标题: Masks and Mimicry: Strategic Obfuscation and Impersonation Attacks on Authorship Verification 作者: Kenneth Alperin / Rohan Leekha / Adaku Uchendu / Trang Nguyen / Srilakshmi Medarametla / Carlos Levya Capote / Seth Aycock / Charlie Dagli 原文: [英文] [中文] 备注: Accepted at NLP4DH Workshop @ NAACL 2025 摘要: 人工智能(AI)技术的日益普及,例如大型语言模型(LLMs),在包括文档的准确作者身份识别在内的各种任务中带来了显著的改进。然而,尽管LLMs提高了此类防御技术,它们也同时为恶意行为者提供了发起新攻击向量的工具。为了应对这一安全风险,我们评估了作者身份模型(特别是作者身份验证模型)对强大的基于LLM的攻击的对抗性鲁棒性。这些攻击包括无目标方法——\textit{作者身份混淆}和有目标方法——\textit{作者身份模仿}。对于这两种攻击,目标分别是掩盖或模仿作者的写作风格,同时保留原始文本的语义。因此,我们对一个准确的作者身份验证模型进行扰动,并分别在混淆和模仿攻击中实现了92\%和78\%的最大攻击成功率。 |
[5] 理解和改进大型语言模型提示压缩中的信息保留 标题: Understanding and Improving Information Preservation in Prompt Compression for LLMs 作者: Weronika Łajewska / Momchil Hardalov / Laura Aina / Neha Anna John / Hang Su / Lluís Màrquez 原文: [英文] [中文] 备注: 21 pages, 6 figures, 23 tables 摘要: 最近在大型语言模型(LLMs)方面的进展使其成功应用于广泛的任务。然而,在信息密集型任务中,提示长度可能会迅速增长,导致计算需求增加、性能下降,以及由于不相关或冗余信息引发的偏差。最近,各种提示压缩技术被引入,以优化减少输入长度和保持性能之间的权衡。我们提出了一个全面的评估框架,允许对提示压缩方法进行深入分析。除了压缩率之外,我们还关注三个关键方面:(i)下游任务性能,(ii)输入上下文的基础,(iii)信息保留。通过这个框架,我们研究了最先进的软压缩和硬压缩方法,发现它们在保留原始提示的关键细节方面存在困难,限制了其在复杂任务中的表现。我们证明,通过修改软提示方法以更好地控制压缩信息的粒度,可以显著提高其有效性——下游任务性能提高多达23%,基础性提高超过8个BERTScore点,压缩中保留的实体数量增加2.7倍。 |
[6] 这从何而来?在文档视觉问答模型的评估中让扎根性发挥作用 标题: Where is this coming from? Making groundedness count in the evaluation of Document VQA models 作者: Armineh Nourbakhsh / Siddharth Parekh / Pranav Shetty / Zhao Jin / Sameena Shah / Carolyn Rose 原文: [英文] [中文] 备注: Accepted to NAACL Findings 2025 摘要: 文档视觉问答(VQA)模型在过去几年中以惊人的速度发展,在某些基准测试中接近或达到人类表现。我们认为,流行基准测试中使用的常见评估指标没有考虑模型输出的语义和多模态基础。因此,幻觉和重大语义错误与基础良好的输出被同等对待,评估分数无法反映模型的推理能力。对此,我们提出了一种新的评估方法,该方法考虑预测的基础性,涉及输出的语义特征以及输出在输入文档中的多模态位置。我们提出的方法经过参数化,使用户可以根据自己的偏好配置分数。我们使用人类判断验证了我们的评分方法,并展示了其对现有流行排行榜的潜在影响。通过广泛的分析,我们证明了我们提出的方法产生的分数更能指示模型的鲁棒性,并倾向于给予更好校准的答案更高的奖励。 |
[7] 克服词汇不匹配:词汇无关的教师引导语言建模 标题: Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling 作者: Haebin Shin / Lei Ji / Xiao Liu / Yeyun Gong 原文: [英文] [中文] 备注: None 摘要: 使用大型教师模型来指导较小学生模型的训练已成为高效学习的主流范式。然而,教师和学生语言模型之间的词汇不匹配在语言建模中带来了显著挑战,导致不同的标记序列和输出分布。为克服这些限制,我们提出了词汇无关的教师指导语言建模(VocAgnoLM),这是一种通过两个关键方法弥合词汇不匹配造成的差距的新颖方法:(1)标记级词汇对齐,旨在对齐不匹配词汇表中的标记序列;(2)教师指导损失,利用教师模型的损失来指导有效的学生训练。我们展示了其在语言建模中的有效性,使用各种词汇不同的7B教师模型对1B学生模型进行训练。值得注意的是,使用Qwen2.5-Math-Instruct,一个与TinyLlama仅共享约6%词汇的教师模型,VocAgnoLM相比于简单的持续预训练实现了46%的性能提升。此外,我们证明了VocAgnoLM始终从更强的教师模型中受益,为解决语言建模中的词汇不匹配问题提供了一个强有力的解决方案。 |
[8] 幻影:多模态沉浸式推理与引导探索用于红队越狱攻击 标题: MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks 作者: Wenhao You / Bryan Hooi / Yiwei Wang / Youke Wang / Zong Ke / Ming-Hsuan Yang / Zi Huang / Yujun Cai 原文: [英文] [中文] 备注: None 摘要: 尽管安全机制在过滤有害文本输入方面取得了显著进展,但多模态大型语言模型(MLLMs)仍然容易受到利用其跨模态推理能力的多模态越狱攻击。我们提出了MIRAGE,一种新颖的多模态越狱框架,通过叙事驱动的上下文和角色沉浸来绕过MLLMs中的安全机制。通过系统地将有害查询分解为环境、角色和行动三元组,MIRAGE使用稳定扩散技术构建了一系列多轮视觉故事图像和文本,引导目标模型进入一个引人入胜的侦探叙事。这一过程逐步降低模型的防御能力,并通过结构化的上下文提示巧妙地引导其推理,最终引发有害响应。在对选定数据集和六个主流MLLMs进行的广泛实验中,MIRAGE实现了最先进的性能,将攻击成功率提高了最多17.5%,超过了最佳基线。此外,我们证明角色沉浸和结构化语义重构可以激活模型固有的偏见,促进模型自发违反伦理保障。这些结果突显了当前多模态安全机制的关键弱点,并强调了对抗跨模态威胁的更强大防御措施的迫切需求。 |
[9] 使用注意力链进行语言模型不确定性量化 标题: Language Model Uncertainty Quantification with Attention Chain 作者: Yinghao Li / Rushi Qiang / Lama Moukheiber / Chao Zhang 原文: [英文] [中文] 备注: 33 pages, 7 figures, 30 tables 摘要: 准确量化大型语言模型(LLM)的预测不确定性对于判断其答案的可靠性至关重要。虽然大多数现有研究集中于短小、可直接回答的问题,并且输出为封闭形式(例如,多项选择),但在LLM回答中涉及中间推理步骤变得越来越重要。这种增加的复杂性使得不确定性量化(UQ)变得复杂,因为分配给答案标记的概率是基于大量先前推理标记的条件。直接边际化是不可行的,并且这种依赖性会导致概率估计膨胀,从而导致UQ过于自信。为了解决这个问题,我们提出了UQAC,这是一种有效的方法,可以将推理空间缩小到一个可处理的大小以进行边际化。UQAC通过回溯过程迭代地构建一个被认为对最终答案“语义至关重要”的标记的“注意链”。从答案标记开始,它使用注意权重来识别最具影响力的前置标记,然后迭代此过程直到到达输入标记。相似性过滤和概率阈值进一步优化了生成的链,使我们能够近似答案标记的边际概率,这些概率作为LLM的置信度。我们在多个推理基准上使用先进的开源LLM验证了UQAC,证明它始终以高计算效率提供可靠的UQ估计。 |
[10] 评估大型语言模型在职位-简历匹配中的偏见:性别、种族和教育 标题: Evaluating Bias in LLMs for Job-Resume Matching: Gender, Race, and Education 作者: Hayate Iso / Pouya Pezeshkpour / Nikita Bhutani / Estevam Hruschka 原文: [英文] [中文] 备注: NAACL 2025: Industry Track 摘要: 大型语言模型(LLMs)有潜力通过将职位描述与候选人简历匹配来实现招聘自动化,从而简化招聘流程并降低运营成本。然而,这些模型中固有的偏见可能导致不公平的招聘实践,强化社会偏见并削弱工作场所的多样性。本研究考察了LLMs在英语语言和美国背景下的职位-简历匹配任务中的表现和公平性。研究评估了性别、种族和教育背景等因素如何影响模型决策,为LLMs在人力资源应用中的公平性和可靠性提供了关键见解。我们的研究结果表明,尽管最近的模型在减少与性别和种族等显性属性相关的偏见方面有所改善,但与教育背景相关的隐性偏见仍然显著。这些结果强调了持续评估和开发先进的偏见缓解策略的必要性,以确保在行业环境中使用LLMs时实现公平的招聘实践。 |
[11] 蛋白质结构与功能关系:一种用于反应坐标识别的核主成分分析方法 标题: Protein Structure-Function Relationship: A Kernel-PCA Approach for Reaction Coordinate Identification 作者: Parisa Mollaei / Amir Barati Farimani 原文: [英文] [中文] 备注: 28 pages, 10 figures 摘要: 在这项研究中,我们提出了一种Kernel-PCA模型,旨在捕捉蛋白质中的结构-功能关系。该模型还能够根据反应坐标对蛋白质性质的影响进行排序。通过利用机器学习技术,包括核方法和主成分分析(PCA),我们的模型揭示了从分子动力学(MD)模拟中获得的高维蛋白质数据中的有意义模式。通过将该模型应用于G蛋白偶联受体,我们证明了其在准确识别反应坐标方面的有效性。此外,该模型利用基于网络的方法揭示了与特定蛋白质性质相关的残基动态行为中的相关性。这些发现强调了我们的模型作为蛋白质结构-功能分析和可视化的强大工具的潜力。 |
[12] 过度训练的语言模型更难进行微调 标题: Overtrained Language Models Are Harder to Fine-Tune 作者: Jacob Mitchell Springer / Sachin Goyal / Kaiyue Wen / Tanishq Kumar / Xiang Yue / Sadhika Malladi / Graham Neubig / Aditi Raghunathan 原文: [英文] 备注: 72 pages, 65 figures, 6 tables 摘要: 大型语言模型在不断增长的标记预算下进行预训练,假设更好的预训练性能可以转化为改进的下游模型。在这项工作中,我们对这一假设提出质疑,并表明延长预训练可能会使模型更难微调,导致最终性能下降。我们将这种现象称为灾难性过度训练。例如,经过指令微调的OLMo-1B模型在3万亿标记上进行预训练,其在多个标准大型语言模型基准测试中的性能比其2.3万亿标记的对应模型差超过2%。通过控制实验和理论分析,我们表明灾难性过度训练源于预训练参数对修改(包括但不限于微调)的广泛敏感性系统性增加。我们的研究结果呼吁对预训练设计进行批判性重新评估,以考虑模型的下游适应性。 |
[13] 面向阿拉伯语术语管理自动化 标题: Towards Terminology Management Automation for Arabic 作者: Mahdi Nasser / Laura Sayyah / Fadi A. Zaraket 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种方法和支持工具,用于阿拉伯语术语管理的自动化。这些工具从特定领域的文本中提取与外语术语相匹配的阿拉伯语术语列表。这具有重要意义,因为它可以用于改进专业阿拉伯学术书籍中术语的翻译一致性和使用,并为增强跨语言文本处理提供自动化帮助。术语管理的自动化旨在减少处理时间,并确保使用一致且正确的术语。提取过程利用自然出现的术语翻译。它考虑了与外语术语并列出现的不同长度的多个候选短语,然后计算包括词典、语音、形态和语义在内的多种相似性度量来解决问题。我们尝试了启发式、机器学习和带后处理的机器学习方法。本文报告了一项新颖的任务策划数据集、现有的专家审查的行业平行语料库,以及三种方法的性能。最佳方法实现了94.9%的精确度和92.4%的召回率。 |
[14] 大型语言模型代理在问答领域的研究综述 标题: A Survey of Large Language Model Agents for Question Answering 作者: Murong Yue 原文: [英文] [中文] 备注: None 摘要: 本文综述了基于大型语言模型(LLM)的问答(QA)代理的发展。传统代理面临显著的限制,包括对大量数据的需求以及在新环境中泛化的困难。基于LLM的代理通过利用LLM作为其核心推理引擎来应对这些挑战。这些代理通过与外部环境的交互,实现了比传统QA流程和简单LLM QA系统更优越的问答结果。我们系统地回顾了LLM代理在QA任务中的设计,并将讨论组织在关键阶段:规划、问题理解、信息检索和答案生成。此外,本文还识别了当前的挑战,并探讨了提高LLM代理QA系统性能的未来研究方向。 |
[15] SCI-IDEA:使用标记和句子嵌入的上下文感知科学构思 标题: SCI-IDEA: Context-Aware Scientific Ideation Using Token and Sentence Embeddings 作者: Farhana Keya / Gollam Rabby / Prasenjit Mitra / Sahar Vahdati / Sören Auer / Yaser Jaradeh 原文: [英文] [中文] 备注: None 摘要: 每一项科学发现都始于一个由先前工作、跨学科概念和新兴挑战激发的想法。最近,在科学语料库上训练的大型语言模型(LLMs)的进步激发了对AI支持的创意生成的兴趣。然而,生成具有上下文意识的高质量和创新性想法仍然具有挑战性。我们介绍了SCI-IDEA,这是一种利用LLM提示策略和“灵光乍现”检测进行迭代创意完善的框架。SCI-IDEA从研究出版物中提取基本要素,评估生成的想法在新颖性、激动性、可行性和有效性方面的表现。综合实验验证了SCI-IDEA的有效性,在新颖性、激动性、可行性和有效性方面分别达到了6.84、6.86、6.89和6.84的平均分(在1-10的评分范围内)。评估中使用了GPT-4o、GPT-4.5、DeepSeek-32B(每个在2次提示下)和DeepSeek-70B(3次提示下),并使用了令牌级嵌入进行“灵光乍现”检测。同样地,在使用GPT-4o进行5次提示、GPT-4.5进行3次提示、DeepSeek-32B进行零次提示链式思维提示以及DeepSeek-70B进行5次提示并使用句子级嵌入时,分别达到了6.87、6.86、6.83和6.87的分数。我们还讨论了诸如知识产权、潜在滥用以及平衡人类创造力与AI驱动创意之间的伦理考量。我们的结果突显了SCI-IDEA在促进具有上下文意识的科学创意的结构化和灵活探索方面的潜力,支持创新的同时保持伦理标准。 |
[16] 大型语言模型的语言盲点 标题: Linguistic Blind Spots of Large Language Models 作者: Jiali Cheng / Hadi Amiri 原文: [英文] [中文] 备注: NAACL 2025 Cognitive Modeling and Computational Linguistics Workshop 摘要: 大型语言模型(LLMs)是当今许多人工智能应用的基础。然而,尽管它们在生成连贯文本方面表现出色,但关于它们执行细粒度语言标注任务的能力仍存在疑问,例如检测名词或动词,或识别输入文本中更复杂的句法结构如从句。这些任务需要对输入文本进行精确的句法和语义理解,当LLMs在特定语言结构上表现不佳时,这就引发了关于其在详细语言分析中可靠性的担忧,以及它们的(即使是正确的)输出是否真正反映了对输入的理解。在本文中,我们通过实证研究最近的LLMs在细粒度语言标注任务上的表现。通过一系列实验,我们发现最近的LLMs在处理语言查询方面显示出有限的效能,并且常常在处理语言复杂的输入时遇到困难。我们展示了最强大的LLM(Llama3-70b)在检测语言结构时犯下显著错误,例如误识嵌套从句、未能识别动词短语以及将复杂名词短语与从句混淆。我们的研究结果为未来LLM设计和开发的进步提供了见解。 |
[17] PHEONA:一种用于评估基于大型语言模型的计算表型方法的框架 标题: PHEONA: An Evaluation Framework for Large Language Model-based Approaches to Computational Phenotyping 作者: Sarah Pungitore / Shashank Yadav / Vignesh Subbian 原文: [英文] [中文] 备注: 2 figures, 5 tables, submitted to 2025 AMIA Annual Symposium 摘要: 计算表型分析对于生物医学研究至关重要,但通常需要大量的时间和资源,尤其是传统方法通常涉及广泛的手动数据审查。尽管机器学习和自然语言处理的进步有所帮助,但仍需进一步改进。尽管已知大型语言模型(LLMs)在基于文本的任务中具有优势,但很少有研究探索将其用于这些任务。为了促进该领域的进一步研究,我们开发了一个评估框架,即观察性健康数据表型分析评估(PHEONA),该框架概述了特定情境的考虑因素。我们将PHEONA应用于概念分类,这是急性呼吸衰竭(ARF)呼吸支持疗法的更广泛表型分析过程中的一个特定任务。通过对样本概念的测试,我们实现了高分类准确率,这表明基于LLM的方法有可能改进计算表型分析过程。 |
[18] MARS:具有反思性自我改进的增强记忆代理 标题: MARS: Memory-Enhanced Agents with Reflective Self-improvement 作者: Xuechen Liang / Meiling Tao / Yinghui Xia / Jianhui Wang / Kun Li / Yijin Wang / Jingsong Yang / Tianyu Shi / Yuantao Wang / Miao Zhang / Xueqian Wang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在自然语言处理领域取得了显著进展,但它们在动态环境中仍面临诸如连续决策、缺乏长期记忆和有限上下文窗口等挑战。为了解决这些问题,本文提出了一种创新框架——具有反思性自我改进的记忆增强代理。MARS框架由三个代理组成:用户、助手和检查者。通过整合迭代反馈、反思机制以及基于艾宾浩斯遗忘曲线的记忆优化机制,它显著增强了代理在处理多任务和长跨度信息方面的能力。 |
[19] CoMAC:用于多源辅助上下文的对话代理,具有稀疏和对称的潜在交互 标题: CoMAC: Conversational Agent for Multi-Source Auxiliary Context with Sparse and Symmetric Latent Interactions 作者: Junfeng Liu / Christopher T. Symons / Ranga Raju Vatsavai 原文: [英文] [中文] 备注: The 29th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD2025) 摘要: 最近在人工智能驱动的对话代理方面的进展展示了人工智能应用的巨大潜力。有效的响应生成对于这些代理的成功至关重要。尽管大量研究集中于利用多个辅助数据源(例如知识库和角色)来增强响应生成,现有方法通常难以有效地从这些来源中提取相关信息。在将多样化的对话能力与遵循已知事实以及适应用户偏好和信仰系统的巨大变化相结合的能力方面仍然存在明显的局限性,这继续阻碍了对话人工智能工具的广泛采用。本文介绍了一种新方法,即用于多源辅助上下文的稀疏和对称潜在交互对话代理(CoMAC),用于对话生成,该方法采用专门的编码流和后融合基础网络来处理多个数据源,以识别对话的相关角色和知识信息。CoMAC还利用了一种新颖的文本相似性度量,允许在多个来源之间进行双向信息共享,并专注于有意义词汇的选择性子集。我们的实验表明,CoMAC在相关角色和知识预测准确性以及响应生成质量方面显著优于两种最先进的方法。 |
[20] 机器辅助写作评估:探索预训练语言模型在分析论证性动作中的应用 标题: Machine-assisted writing evaluation: Exploring pre-trained language models in analyzing argumentative moves 作者: Wenjuan Qin / Weiran Wang / Yuming Yang / Tao Gui 原文: [英文] 备注: None 摘要: 本研究探讨了预训练语言模型(PLMs)在分析纵向学习者语料库中的论证性动作方面的有效性。以往关于论证性动作的研究往往依赖于定性分析和手动编码,限制了其效率和普遍性。该研究旨在:1)评估PLMs在分析论证性动作方面的可靠性;2)利用PLM生成的注释来展示发展模式并预测写作质量。研究收集了来自中国235名英语学习者的1643篇论证性文本的纵向语料库,并将其注释为六种动作类型:主张、数据、反主张、反数据、反驳和非论证。语料库被分为由人类专家和PLMs注释的训练集、验证集和应用集。我们使用BERT作为PLMs的实现之一。结果表明,PLMs在分析论证性动作方面具有强大的可靠性,总体F1得分为0.743,超过了该领域现有的模型。此外,PLM标记的论证性动作有效地捕捉了发展模式并预测了写作质量。随着时间的推移,学生在使用数据和反主张方面有所增加,而非论证动作有所减少。低质量文本的特点是主要使用支持单方面立场的主张和数据,而中高质量文本则表现出更具整合性的视角,具有更高比例的反主张、反数据和反驳。该研究强调了将人工智能整合到语言教育中的变革潜力,提高了评估学生写作的效率和准确性。PLMs的成功应用可以催化教育技术的发展,促进更以数据驱动和个性化的学习环境,以支持多样化的教育需求。 |
[21] 使用蒙特卡罗纳什均衡自精炼树进行科学发现的迭代假设生成 标题: Iterative Hypothesis Generation for Scientific Discovery with Monte Carlo Nash Equilibrium Self-Refining Trees 作者: Gollam Rabby / Diyana Muhammed / Prasenjit Mitra / Sören Auer 原文: [英文] [中文] 备注: None 摘要: 科学假设生成是研究中一个具有根本挑战性的任务,需要综合新颖且有实证依据的见解。传统方法依赖于人类的直觉和领域专长,而纯粹基于大型语言模型(LLM)的方法往往难以产生既创新又可靠的假设。为了解决这些局限性,我们提出了蒙特卡罗纳什均衡自我优化树(MC-NEST),这是一种新颖的框架,将蒙特卡罗树搜索与纳什均衡策略相结合,以迭代地优化和验证假设。MC-NEST通过自适应采样策略动态平衡探索和利用,优先考虑高潜力假设,同时在搜索空间中保持多样性。我们通过在多个领域(包括生物医学、社会科学和计算机科学)的综合实验展示了MC-NEST的有效性。MC-NEST在社会科学、计算机科学和生物医学数据集上的新颖性、清晰度、重要性和可验证性指标上分别达到了2.65、2.74和2.80(1-3分制)的平均分,优于当前最先进的基于提示的方法,这些方法在相同数据集上的得分分别为2.36、2.51和2.52。这些结果强调了MC-NEST在不同领域生成高质量、有实证依据的假设的能力。此外,MC-NEST促进了结构化的人机协作,确保LLM增强人类创造力而不是取代它。通过解决迭代优化和探索-利用平衡等关键挑战,MC-NEST在自动假设生成中设立了新的基准。此外,MC-NEST的伦理设计使得负责任的AI使用成为可能,强调假设生成中的透明性和人类监督。 |
[22] 重内容而非形式:评估主动对话指导代理 标题: Substance over Style: Evaluating Proactive Conversational Coaching Agents 作者: Vidya Srinivas / Xuhai Xu / Xin Liu / Kumar Ayush / Isaac Galatzer-Levy / Shwetak Patel / Daniel McDuff / Tim Althoff 原文: [英文] [中文] 备注: None 摘要: 尽管自然语言处理(NLP)研究在会话任务上取得了进展,许多方法仍然专注于具有明确目标或评估标准的单轮响应。相比之下,辅导(coaching)呈现出独特的挑战,其目标最初未定义,并通过多轮互动、主观评估标准和混合主动对话逐步演变。在这项工作中,我们描述并实现了五种多轮辅导代理,它们展现了不同的会话风格,并通过用户研究对其进行评估,收集了155次对话的一手反馈。我们发现用户非常重视核心功能,而在缺乏核心组件的情况下,风格化组件被视为负面。通过将用户反馈与健康专家和语言模型的第三方评估进行比较,我们揭示了评估方法之间的显著不一致。我们的研究结果为会话辅导代理的设计和评估提供了见解,并有助于改善以人为中心的NLP应用。 |
[23] DeCAP:用于去偏大型语言模型零样本问答的上下文自适应提示生成 标题: DeCAP: Context-Adaptive Prompt Generation for Debiasing Zero-shot Question Answering in Large Language Models 作者: Suyoung Bae / YunSeok Choi / Jee-Hyong Lee 原文: [英文] [中文] 备注: Accepted to NAACL 2025 main. 20 pages, 3 figures 摘要: 虽然大型语言模型(LLMs)在零样本问答(QA)中表现出色,但在面对社会敏感问题时,它们往往会暴露出内部知识中的偏见,导致性能下降。现有的零样本方法效率高,但未能考虑上下文并防止答案中的偏见传播。为了解决这个问题,我们提出了DeCAP,一种使用上下文自适应提示生成来去偏的大型语言模型方法。DeCAP利用问题模糊性检测,根据上下文采取适当的去偏行动,并生成中性答案指导,以抑制LLMs对上下文做出客观判断,最大限度地减少其内部知识中的偏见传播。我们在八个LLMs上的各种实验表明,DeCAP实现了最先进的零样本去偏问答性能。这证明了DeCAP在增强LLMs在多样化问答环境中的公平性和准确性方面的有效性。 |
[24] 通过软提示调优增强小型语言模型的跨语言广义零样本分类能力 标题: Enhancing Small Language Models for Cross-Lingual Generalized Zero-Shot Classification with Soft Prompt Tuning 作者: Fred Philippy / Siwen Guo / Cedric Lothritz / Jacques Klein / Tegawendé F. Bissyandé 原文: [英文] [中文] 备注: Workshop on Language Models for Underserved Communities (co-located with NAACL 2025) 摘要: 在自然语言处理(NLP)中,零样本分类(ZSC)已成为使模型能够将文本分类到训练期间未见过的类别中的关键,特别是在标注数据稀缺的低资源语言和领域中。虽然预训练语言模型(PLM)在ZSC中表现出色,但它们通常依赖于大型训练数据集或外部知识,这限制了它们在多语言和低资源场景中的适用性。最近利用自然语言提示的方法减少了对大型训练数据集的依赖,但在有效整合来自相关分类任务的可用标注数据时遇到了困难,尤其是当这些数据集来自不同语言或分布时。此外,现有的基于提示的方法通常依赖于特定语言的手动编写提示,限制了它们在跨语言环境中的适应性和有效性。为了解决这些挑战,我们引入了RoSPrompt,这是一种轻量且数据高效的方法,用于训练软提示,以增强跨语言ZSC,同时确保在数据分布变化中的稳健泛化。RoSPrompt专为小型多语言PLM设计,使其能够利用高资源语言来提高低资源环境中的性能,而无需广泛的微调或高计算成本。我们在涵盖106种语言的数据集上对多种多语言PLM进行了评估,展示了强大的跨语言迁移性能和对未见类别的稳健泛化能力。 |
[25] KSHSeek:缓解和检测生成模型中的知识捷径幻觉的数据驱动方法 标题: KSHSeek: Data-Driven Approaches to Mitigating and Detecting Knowledge-Shortcut Hallucinations in Generative Models 作者: Zhiwei Wang / Zhongxin Liu / Ying Li / Hongyu Sun / Meng Xu / Yuqing Zhang 原文: [英文] [中文] 备注: 16 pages, 34 figures 摘要: 大型语言模型(LLMs)的出现显著推动了自然语言处理(NLP)的发展,特别是在问答等文本生成任务中。然而,由于其复杂的成因,模型幻觉仍然是自然语言生成(NLG)任务中的一大挑战。我们从知识捷径的角度系统地扩展了事实幻觉的成因,分析了来自正确且无缺陷数据的幻觉,并证明知识捷径幻觉在生成模型中普遍存在。为了解决这个问题,我们在数据预处理阶段提出了一种高相似度剪枝算法,以减少数据中的虚假相关性。此外,我们设计了一种特定的知识捷径幻觉检测方法,以评估我们缓解策略的有效性。实验结果表明,我们的方法有效减少了知识捷径幻觉,特别是在微调任务中,而不会对问答中的模型性能产生负面影响。这项工作为缓解生成模型中特定幻觉问题引入了一种新范式,增强了其在实际应用中的稳健性和可靠性。 |
[26] DomainCQA:从特定领域图表中打造专家级问答 标题: DomainCQA: Crafting Expert-Level QA from Domain-Specific Charts 作者: Ling Zhong / Yujing Lu / Jing Yang / Weiming Li / Peng Wei / Yongheng Wang / Manni Duan / Qing Zhang 原文: [英文] [中文] 备注: 11 pages, 6 figures 摘要: 图表问答(CQA)基准对于评估多模态大型语言模型(MLLMs)解释视觉数据的能力至关重要。然而,目前的基准主要集中在通用CQA的评估上,未能充分捕捉领域特定的挑战。我们引入了DomainCQA,这是一种构建领域特定CQA基准的系统方法,并通过开发天文学领域的CQA基准AstroChart来展示其有效性。我们的评估表明,对于现有的MLLMs来说,图表推理以及将图表信息与领域知识结合进行更深入的分析和总结,而非领域特定知识,构成了主要挑战,这突显了当前基准中的一个关键缺口。通过提供一个可扩展且严格的框架,DomainCQA能够更精确地评估和改进MLLMs在领域特定应用中的表现。 |
[27] FLEX:用于评估大型语言模型中公平性稳健性的基准 标题: FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models 作者: Dahyun Jung / Seungyoon Lee / Hyeonseok Moon / Chanjun Park / Heuiseok Lim 原文: [英文] 备注: Accepted to NAACL 2025 findings 摘要: 最近在大型语言模型(LLMs)方面的进展显著增强了用户与模型之间的互动。这些进展同时也强调了进行严格安全评估的必要性,因为社会偏见的表现可能导致有害的社会影响。尽管存在这些担忧,现有的基准可能忽视了LLMs的内在弱点,这些模型甚至在面对简单的对抗性指令时也可能生成有偏见的回应。为了解决这一关键差距,我们引入了一个新的基准,称为极端场景下LLM的公平性基准(FLEX),旨在测试LLMs在面对旨在引发偏见的提示时是否能够保持公平。为了全面评估LLMs的稳健性,我们在公平性评估中整合了放大潜在偏见的提示。FLEX与现有基准的比较实验表明,传统评估可能低估了模型的内在风险。这突显了需要更严格的LLM评估基准以保证安全性和公平性。 |
[28] 语言模型合成数据的缩放定律 标题: Scaling Laws of Synthetic Data for Language Models 作者: Zeyu Qin / Qingxiu Dong / Xingxing Zhang / Li Dong / Xiaolong Huang / Ziyi Yang / Mahmoud Khademi / Dongdong Zhang / Hany Hassan Awadalla / Yi R. Fung / Weizhu Chen / Minhao Cheng / Furu Wei 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在各种任务中表现出色,主要得益于在预训练中使用的高质量网络数据。然而,最近的研究表明,这一数据来源正在迅速枯竭。合成数据成为一种有前途的替代方案,但尚不清楚合成数据集是否表现出与原始预训练数据相当的可预测的可扩展性。在这项工作中,我们通过引入SynthLLM系统地研究了合成数据的扩展规律,这是一种可扩展的框架,可以将预训练语料库转化为多样化的高质量合成数据集。我们的方法通过使用图算法自动提取和重组多个文档中的高级概念来实现这一目标。我们在SynthLLM上的广泛数学实验的主要发现包括:(1)SynthLLM生成的合成数据在各种模型规模上可靠地遵循\emph{修正的扩展规律};(2)性能提升在接近3000亿个tokens时趋于平稳;(3)较大的模型在较少的训练tokens下接近最佳性能。例如,一个8B的模型在1万亿个tokens时达到峰值,而一个3B的模型需要4万亿个tokens。此外,与现有的合成数据生成和增强方法的比较表明,SynthLLM在性能和可扩展性方面表现优越。我们的研究结果强调了合成数据作为有机预训练语料库的可扩展和可靠的替代方案,提供了一条继续提高模型性能的可行路径。 |
[29] 基于事实分解的上下文高效检索 标题: Context-Efficient Retrieval with Factual Decomposition 作者: Yanhong Li / David Yunis / David McAllester / Jiawei Zhou 原文: [英文] [中文] 备注: NAACL 2025 Main Conference 摘要: 最近,将信息检索整合到大型语言模型(LLMs)中引起了相当大的兴趣。从动态扩展的外部文本语料库中进行检索使模型能够整合当前事件,并可以被视为一种情景记忆。在此,我们展示了将外部语料库预处理为半结构化的“原子事实”可以使检索更加高效。更具体地说,我们证明了我们特定形式的原子事实在检索文本量有限的情况下提高了各种问答任务的性能。限制检索量可以减少上下文的大小并提高推理效率。 |
[30] 人类与大型音频语言模型之间的独特社会语言处理:来自模型-大脑对齐的证据 标题: Distinct social-linguistic processing between humans and large audio-language models: Evidence from model-brain alignment 作者: Hanlin Wu / Xufeng Duan / Zhenguang Cai 原文: [英文] [中文] 备注: Accepted by the 14th edition of the Workshop on Cognitive Modeling and Computational Linguistics (CMCL 2025) 摘要: 基于语音的人工智能开发在处理语言和副语言信息时面临独特的挑战。本研究比较了大型音频语言模型(LALMs)和人类在语音理解过程中如何整合说话者特征,探讨LALMs是否以类似人类认知机制的方式处理说话者情境化的语言。我们比较了两个LALMs(Qwen2-Audio和Ultravox 0.5)的处理模式与人类脑电图(EEG)反应。利用模型的意外性和熵指标,我们分析了它们对说话者内容不一致性的敏感性,涉及社会刻板印象违背(例如,一个男人声称经常做美甲)和生物知识违背(例如,一个男人声称怀孕)。结果显示,Qwen2-Audio对说话者不一致内容表现出更高的意外性,其意外性值显著预测了人类的N400反应,而Ultravox 0.5对说话者特征的敏感性有限。重要的是,两个模型都未能复制人类对社会违背(引发N400效应)和生物违背(引发P600效应)的处理区别。这些发现揭示了当前LALMs在处理说话者情境化语言方面的潜力和局限性,并暗示了人类与LALMs在社会语言处理机制上的差异。 |
[31] 最大善基准:衡量大型语言模型在效用主义道德困境中的一致性 标题: The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral Dilemmas 作者: Giovanni Franco Gabriel Marraffini / Andrés Cotton / Noe Fabian Hsueh / Axel Fridman / Juan Wisznia / Luciano Del Corro 原文: [英文] [中文] 备注: None 摘要: 如何做出能够最大化所有人福祉的决策,对于设计对人类有益且无害的语言模型来说非常重要。我们引入了“最大善基准”来使用功利主义困境评估大型语言模型(LLM)的道德判断。我们对15个不同的LLM进行分析,发现其编码的道德偏好与既定的道德理论和普通人群的道德标准存在一致的偏离。大多数LLM表现出对无偏见的仁慈的明显偏好,并拒绝工具性伤害。这些发现展示了LLM的“人工道德指南针”,为其道德一致性提供了见解。 |
[32] 140万开源蒸馏推理数据集以增强大型语言模型训练 标题: 1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training 作者: Han Zhao / Haotian Wang / Yiping Peng / Sitong Zhao / Xiaoyu Tian / Shuaiting Chen / Yunjie Ji / Xiangang Li 原文: [英文] [中文] 备注: None 摘要: AM-DeepSeek-R1-Distilled 是一个大型数据集,包含用于一般推理任务的思维轨迹,由高质量且具有挑战性的推理问题组成。这些问题从众多开源数据集中收集,经过语义去重和细致清理,以消除测试集污染。数据集中的所有回答均由推理模型(主要是 DeepSeek-R1)提炼,并经过严格的验证程序。数学问题通过参考答案进行验证,代码问题通过测试用例进行验证,其他任务则借助奖励模型进行评估。使用这批数据仅通过简单的监督微调(SFT)训练的 AM-Distill-Qwen-32B 模型在四个基准测试中表现优于 DeepSeek-R1-Distill-Qwen-32B 模型:AIME2024、MATH-500、GPQA-Diamond 和 LiveCodeBench。此外,AM-Distill-Qwen-72B 模型在所有基准测试中也超越了 DeepSeek-R1-Distill-Llama-70B 模型。我们将这些 140 万个问题及其对应的回答发布给研究界,旨在促进强大的面向推理的大型语言模型(LLMs)的发展。数据集已在 \href{this https URL}{this https URL} 发布。 |
[33] 探索15种非洲语言中情感感知的文化细微差别 标题: Exploring Cultural Nuances in Emotion Perception Across 15 African Languages 作者: Ibrahim Said Ahmad / Shiran Dudy / Tadesse Destaw Belay / Idris Abdulmumin / Seid Muhie Yimam / Shamsuddeen Hassan Muhammad / Kenneth Church 原文: [英文] [中文] 备注: None 摘要: 理解情感在不同语言中的表达方式对于构建具有文化意识和包容性的自然语言处理系统至关重要。然而,非洲语言中的情感表达研究不足,限制了这些语言中有效情感检测工具的发展。在这项工作中,我们对15种非洲语言的情感表达进行了跨语言分析。我们考察了情感表达的四个关键维度:文本长度、情感极性、情感共现和强度变化。我们的研究结果揭示了情感表达中多样的语言特定模式——例如,索马里语文本通常较长,而像伊西祖鲁语和阿尔及利亚阿拉伯语则表现出更简洁的情感表达。我们观察到,与伊西科萨语等语言中的较低负面情感相比,几种尼日利亚语言中负面情感的普遍性更高。此外,情感共现分析显示特定情感对(愤怒-厌恶、悲伤-恐惧)之间存在强烈的跨语言关联,暗示了普遍的心理联系。强度分布显示出多峰模式,并在语言家族之间存在显著差异;班图语言表现出相似但又独特的特征,而亚非语系语言和尼日利亚皮钦语则展示了更广泛的强度范围。这些发现强调了情感检测需要语言特定的方法,同时也识别了在相关语言之间进行迁移学习的机会。 |
[34] HausaNLP在SemEval-2025任务3:迈向细粒度模型感知幻觉检测 标题: HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection 作者: Maryam Bala / Amina Imam Abubakar / Abdulhamid Abubakar / Abdulkadir Shehu Bichi / Hafsa Kabir Ahmad / Sani Abdullahi Sani / Idris Abdulmumin / Shamsuddeen Hassan Muhamad / Ibrahim Said Ahmad 原文: [英文] [中文] 备注: None 摘要: 本文介绍了我们在多语言幻觉和相关可观察过度生成错误共享任务(MU-SHROOM)中的研究发现,该任务专注于识别大型语言模型(LLMs)中的幻觉和相关的过度生成错误。共享任务涉及检测由LLMs在14种语言中生成的输出中构成幻觉的特定文本片段。为了解决这一任务,我们旨在提供对英语中幻觉发生和严重程度的细致入微、模型感知的理解。我们使用自然语言推理,并利用一个包含400个样本的合成数据集微调了一个ModernBERT模型,取得了0.032的交并比(IoU)得分和0.422的相关性得分。这些结果表明模型的置信度得分与幻觉的实际存在之间存在中等程度的正相关性。IoU得分表明我们的模型在预测的幻觉范围与真实标注之间的重叠相对较低。鉴于幻觉检测的复杂性,这样的表现并不令人意外。幻觉通常表现得很微妙,依赖于上下文,使得精确定位其确切边界变得极为困难。 |
[35] 使用运动手势原语进行手语翻译的多任务转换器 标题: A multitask transformer to sign language translation using motion gesture primitives 作者: Fredy Alejandro Mendoza López / Jefferson Rodriguez / Fabio Martínez 原文: [英文] [中文] 备注: 32 pages, 10 tables, 13 figures 摘要: 聋人群体缺乏有效的沟通是该社区的主要社会鸿沟。此外,手语作为聋人的主要沟通工具,是没有文字的,即没有正式的书面表示。因此,当前的主要挑战是实现时空手语表示与自然文本语言之间的自动翻译。最近的方法基于编码器-解码器架构,其中最相关的策略是集成注意力模块以增强非线性对应关系,此外,由于缺乏中间文本投影,许多这些方法需要复杂的训练和架构方案以实现合理的预测。然而,它们仍然受到视频序列冗余背景信息的限制。本文介绍了一种多任务Transformer架构,其中包括一个词汇学习表示,以实现更合适的翻译。所提出的方法还包括一种密集的运动表示,增强了手势并包含运动学信息,这是手语中的关键组成部分。通过这种表示,可以避免背景信息并利用手势的几何特征,此外,它还包括时空表示,便于手势与词汇之间的对齐,作为中间文本表示。所提出的方法在CoL-SLTD数据集上评估时优于现有技术,在分割1中实现了72.64%的BLEU-4,在分割2中实现了14.64%的BLEU-4。此外,该策略在RWTH-PHOENIX-Weather 2014 T数据集上进行了验证,取得了11.58%的具有竞争力的BLEU-4。 |
[36] AdaptiVocab:通过轻量级词汇适应提升大型语言模型在特定领域的效率 标题: AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation 作者: Itay Nakash / Nitay Calderon / Eyal Ben David / Elad Hoffer / Roi Reichart 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)作为通用模型展现了令人印象深刻的多功能性。然而,它们的广泛适用性伴随着高昂的计算开销,特别是在自回归解码中,每一步都需要进行前向传递。在特定领域的设置中,通用能力并非必要,可以用效率来交换。在这项工作中,我们对领域适应采取了一种新颖的视角,通过将词汇表适应于关注的特定领域来减少延迟和计算成本。我们引入了AdaptiVocab,这是一种用于词汇表适应的端到端方法,旨在提高低资源领域中LLM的效率。AdaptiVocab可以应用于任何分词器和架构,通过用基于领域的n-gram替换词元来修改词汇表,从而减少输入处理和输出生成所需的词元数量。AdaptiVocab通过现有嵌入的指数加权组合来初始化新的n-gram嵌入,并采用轻量级的微调阶段,可以在单个GPU上高效执行。我们在三个小众领域中评估了两个7B LLM,评估效率、生成质量和最终任务性能。我们的结果表明,AdaptiVocab在不影响性能的情况下减少了超过25%的词元使用。 |
[37] HausaNLP 在 SemEval-2025 任务 2:实体感知微调与提示工程在实体感知机器翻译中的比较 标题: HausaNLP at SemEval-2025 Task 2: Entity-Aware Fine-tuning vs. Prompt Engineering in Entity-Aware Machine Translation 作者: Abdulhamid Abubakar / Hamidatu Abdulkadir / Ibrahim Rabiu Abdullahi / Abubakar Auwal Khalid / Ahmad Mustapha Wali / Amina Aminu Umar / Maryam Bala / Sani Abdullahi Sani / Ibrahim Said Ahmad / Shamsuddeen Hassan Muhammad / Idris Abdulmumin / Vukosi Marivate 原文: [英文] [中文] 备注: None 摘要: 本文介绍了我们在SemEval 2025任务2中的研究成果,这是一个关于实体感知机器翻译(EA-MT)的共享任务。该任务的目标是开发能够准确地将英语句子翻译成目标语言的翻译模型,特别关注处理常常给机器翻译系统带来挑战的命名实体。该任务涵盖了以英语为源语言的10种目标语言。在本文中,我们描述了所采用的不同系统,详细介绍了我们的结果,并讨论了从实验中获得的见解。 |
[38] 写作作为开放式代理的试验平台 标题: Writing as a testbed for open ended agents 作者: Sian Gooding / Lucia Lopez-Rivilla / Edward Grefenstette 原文: [英文] [中文] 备注: None 摘要: 开放式任务对大型语言模型(LLMs)来说尤其具有挑战性,因为其解决方案空间广阔,要求既要进行广泛的探索,又要具备适应性策略,特别是在成功缺乏明确、客观定义的情况下。写作,由于其广阔的解决方案空间和主观的评估标准,提供了一个引人注目的测试平台来研究此类问题。在本文中,我们研究了大型语言模型作为协作共同作者的潜力,能够自主建议和实施文本改进。我们分析了三个著名的大型语言模型——Gemini 1.5 Pro、Claude 3.5 Sonnet 和 GPT-4o,重点关注它们的行动多样性、人类对齐性和迭代改进能力如何影响整体性能。这项工作建立了一个评估自主写作代理的框架,并更广泛地强调了在构建能够在多样化开放式领域中表现出色的系统时所面临的基本挑战和潜在解决方案。 |
[39] Gemma 3 技术报告 标题: Gemma 3 Technical Report 作者: Gemma Team / Aishwarya Kamath / Johan Ferret / Shreya Pathak / Nino Vieillard / Ramona Merhej / Sarah Perrin / Tatiana Matejovicova / Alexandre Ramé / Morgane Rivière / Louis Rouillard / Thomas Mesnard / Geoffrey Cideron / Jean-bastien Grill / Sabela Ramos / Edouard Yvinec / Michelle Casbon / Etienne Pot / Ivo Penchev / Gaël Liu / Francesco Visin / Kathleen Kenealy / Lucas Beyer / Xiaohai Zhai / Anton Tsitsulin / Robert Busa-Fekete / Alex Feng / Noveen Sachdeva / Benjamin Coleman / Yi Gao / Basil Mustafa / Iain Barr / Emilio Parisotto / David Tian / Matan Eyal / Colin Cherry / Jan-Thorsten Peter / Danila Sinopalnikov / Surya Bhupatiraju / Rishabh Agarwal / Mehran Kazemi / Dan Malkin / Ravin Kumar / David Vilar / Idan Brusilovsky / Jiaming Luo / Andreas Steiner / Abe Friesen / Abhanshu Sharma / Abheesht Sharma / Adi Mayrav Gilady / Adrian Goedeckemeyer / Alaa Saade / Alex Feng / Alexander Kolesnikov / Alexei Bendebury / Alvin Abdagic / Amit Vadi / András György / André Susano Pinto / Anil Das / Ankur Bapna / Antoine Miech / Antoine Yang / Antonia Paterson / Ashish Shenoy / Ayan Chakrabarti / Bilal Piot / Bo Wu / Bobak Shahriari / Bryce Petrini / Charlie Chen / Charline Le Lan / Christopher A. Choquette-Choo / CJ Carey / Cormac Brick / Daniel Deutsch / Danielle Eisenbud / Dee Cattle / Derek Cheng / Dimitris Paparas / Divyashree Shivakumar Sreepathihalli / Doug Reid / Dustin Tran / Dustin Zelle / Eric Noland / Erwin Huizenga / Eugene Kharitonov / Frederick Liu / Gagik Amirkhanyan / Glenn Cameron / Hadi Hashemi / Hanna Klimczak-Plucińska / Harman Singh / Harsh Mehta / Harshal Tushar Lehri / Hussein Hazimeh / Ian Ballantyne / Idan Szpektor / Ivan Nardini 原文: [英文] [中文] 备注: None 摘要: 我们介绍了Gemma 3,这是Gemma系列轻量级开放模型的多模态扩展,规模从1亿到270亿参数不等。这个版本引入了视觉理解能力、更广泛的语言覆盖以及更长的上下文——至少128K个标记。我们还改变了模型的架构,以减少在长上下文中容易爆炸的KV缓存内存。这是通过增加局部注意力层与全局注意力层的比例,并保持局部注意力的跨度较短来实现的。Gemma 3模型通过蒸馏训练,在预训练和指令微调版本中均表现优于Gemma 2。特别是,我们的新颖后训练方法显著提高了数学、聊天、指令遵循和多语言能力,使Gemma3-4B-IT在基准测试中与Gemma2-27B-IT竞争,并使Gemma3-27B-IT与Gemini-1.5-Pro相当。我们将所有模型发布给社区。 |
[40] SemEval-2025 任务9:食品危害检测挑战 标题: SemEval-2025 Task 9: The Food Hazard Detection Challenge 作者: Korbinian Randl / John Pavlopoulos / Aron Henriksson / Tony Lindgren / Juli Bakagianni 原文: [英文] [中文] 备注: Under review for SemEval 2025 摘要: 在本次挑战中,我们探索了基于文本的食品危害预测,涉及长尾分布的类别。任务被分为两个子任务:(1)预测网页文本是否暗示十种食品危害类别之一,并识别相关的食品类别;(2)通过为危害和产品分配特定标签,提供更细粒度的分类。我们的研究结果表明,大型语言模型生成的合成数据在对长尾分布进行过采样时非常有效。此外,我们发现经过微调的仅编码器、编码器-解码器和仅解码器系统在两个子任务中都能达到相当的最高性能。在此挑战期间,我们逐步发布了一套新的6,644份手动标注的食品事件报告(根据CC BY-NC-SA 4.0协议)。 |
[41] 通过测量局部度量准确性进行上下文度量元评估 标题: Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy 作者: Athiya Deviyani / Fernando Diaz 原文: [英文] [中文] 备注: Accepted to NAACL 2025 (Findings) 摘要: 自动评估指标的元评估——即对评估指标本身的评估——对于准确基准测试自然语言处理系统至关重要,并对科学研究、生产模型开发和政策执行具有重要意义。虽然现有的指标元评估方法侧重于关于指标在任意系统输出上的绝对和相对质量的一般性陈述,但在实际应用中,指标是在高度上下文化的环境中应用的,通常用于测量一组高度受限的系统输出的性能。例如,我们可能只对评估特定模型或模型类别感兴趣。我们通过比较评估指标的局部指标准确性,引入了一种用于上下文指标元评估的方法。在翻译、语音识别和排序任务中,我们展示了随着评估上下文的变化,局部指标准确性在绝对值和相对有效性上都存在差异。这种观察到的差异突显了采用特定上下文的指标评估而非全局评估的重要性。 |
[42] 对1900-1950年历史中文资料的分词、词性标注和命名实体识别的比较分析 标题: A Comparative Analysis of Word Segmentation, Part-of-Speech Tagging, and Named Entity Recognition for Historical Chinese Sources, 1900-1950 作者: Zhao Fang / Liang-Chun Wu / Xuening Kong / Spencer Dean Stewart 原文: [英文] [中文] 备注: Accepted to NLP4DH 2025 at NAACL 2025 摘要: 本文比较了大型语言模型(LLMs)和传统自然语言处理(NLP)工具在对1900年至1950年间的中文文本进行分词、词性标注和命名实体识别(NER)时的表现。由于汉字的表意文字特性、缺乏自然的词边界以及显著的语言变化,历史中文文献在文本分析中面临挑战。利用来自上海图书馆民国期刊语料库的样本数据,本文将传统工具如Jieba和spaCy与LLMs(包括GPT-4o、Claude 3.5和GLM系列)进行了比较。结果显示,LLMs在所有指标上均优于传统方法,尽管其计算成本显著更高,这突显了准确性与效率之间的权衡。此外,LLMs在处理特定体裁的挑战(如诗歌)和时间变化(即1920年前后的文本)方面表现更佳,表明其上下文学习能力可以通过减少对领域特定训练数据的需求来推进历史文本的NLP方法。 |
[43] 三思而行:通过扩展多轮测试时思考来增强大型语言模型的推理能力 标题: Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking 作者: Xiaoyu Tian / Sitong Zhao / Haotian Wang / Shuaiting Chen / Yunjie Ji / Yiping Peng / Han Zhao / Xiangang Li 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展,例如OpenAI-o1和DeepSeek-R1,展示了测试时扩展推理过程显著提升模型性能的有效性。然而,目前的模型在处理长文本和强化学习(RL)训练效率方面存在限制。为了解决这些问题,我们提出了一种简单而有效的测试时扩展方法——多轮思考。该方法通过利用先前的答案作为后续轮次的提示,迭代地优化模型的推理过程。在包括QwQ-32B和DeepSeek-R1在内的多个模型上的广泛实验中,我们在AIME 2024、MATH-500、GPQA-diamond和LiveCodeBench等各种基准测试上持续显示出性能提升。例如,在AIME 2024数据集上,QwQ-32B的准确率从80.3%(第一轮)提高到82.1%(第二轮),而DeepSeek-R1的准确率也从79.7%提高到82.0%。这些结果证实了多轮思考是一种广泛适用且简单的方法,可以实现模型性能的稳定提升,强调了其在未来测试时扩展技术发展中的潜力。关键提示:{原始问题提示} 助手之前的答案是:<answer> {上轮答案} </answer>,请重新回答。 |
[44] 通过将推理模型作为过程评估器来扩展评估时间计算 标题: Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators 作者: Seungone Kim / Ian Wu / Jinu Lee / Xiang Yue / Seongyun Lee / Mingyeong Moon / Kiril Gashteovski / Carolin Lawrence / Julia Hockenmaier / Graham Neubig / Sean Welleck 原文: [英文] [中文] 备注: Work in progress 摘要: 随着语言模型(LM)输出变得越来越自然,评估其质量变得比以往任何时候都更加困难。同时,通过扩大测试时计算量来增加语言模型的“思考”时间已被证明是解决数学和代码等领域中复杂问题的有效技术。这引发了一个自然的问题:是否可以通过在测试时花费更多计算量来提高语言模型的评估能力?为了解答这个问题,我们研究了使用推理模型——即本身能够生成长链式思维推理的语言模型——作为评估者。具体来说,我们考察了通过以下方法来利用更多测试时计算量:(1)使用推理模型,以及(2)提示这些模型不仅评估整体响应(即结果评估),还分别评估响应中的每一步(即过程评估)。在实验中,我们观察到评估者的性能在生成更多推理标记时单调提高,这与基于语言模型的生成中观察到的趋势相似。此外,我们使用这些更准确的评估者对多个生成结果进行重新排序,并证明在评估时花费更多计算量可以像在生成时使用更多计算量一样有效地提高语言模型的解决问题能力。 |
[45] 因果RAG:将因果图整合到检索增强生成中 标题: CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation 作者: Nengbo Wang / Xiaotian Han / Jagdip Singh / Jing Ma / Vipin Chaudhary 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)已经彻底改变了自然语言处理(NLP),特别是通过检索增强生成(RAG),通过整合外部知识来增强LLM的能力。然而,传统的RAG系统面临着关键的限制,包括由于文本分块导致的上下文完整性被破坏,以及对语义相似性检索的过度依赖。为了解决这些问题,我们提出了CausalRAG,这是一种将因果图融入检索过程的新框架。通过构建和追踪因果关系,CausalRAG保持了上下文的连续性并提高了检索精度,从而产生更准确和更具解释性的响应。我们将CausalRAG与常规RAG和基于图的RAG方法进行比较,证明了其在多个指标上的优越性。我们的研究结果表明,将检索建立在因果推理的基础上为知识密集型任务提供了一种有前途的方法。 |