![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年4月30日更新论文41篇
|
[1] 相同但不同:大型语言模型能区分西班牙语的不同变体吗? 标题: It's the same but not the same: Do LLMs distinguish Spanish varieties? 作者: Marina Mayor-Rocher / Cristina Pozo / Nina Melero / Gonzalo Martínez / María Grandury / Pedro Reviriego 原文: [英文] 备注: in Spanish language 摘要: 近年来,大型语言模型(LLMs)在理解和生成西班牙语文本方面表现出了很高的能力。然而,尽管有五亿母语者,西班牙语并不是一种同质的语言,而是一种在大西洋两岸都有丰富地域变体的语言。因此,在这项研究中,我们评估了九种语言模型识别和区分七种西班牙语变体(安第斯、安的列斯、大陆加勒比、智利、半岛、西班牙、墨西哥和中美洲以及里奥普拉滕塞)的形态句法和词汇特性的能力,方法是通过多项选择测试。结果表明,半岛西班牙语变体是所有模型中识别得最好的,而在这些模型中,GPT-4o 是唯一能够识别西班牙语变异性的模型。 |
[2] 在多语言和代码转换环境中评估大型语言模型对多词表达的处理能力 标题: Evaluating Large Language Models on Multiword Expressions in Multilingual and Code-Switched Contexts 作者: Frances Laureano De Leon / Harish Tayyar Madabushi / Mark G. Lee 原文: [英文] [中文] 备注: None 摘要: 多词表达式以非组合性意义和句法不规则性为特征,是一种微妙语言的例子。这些表达式可以被字面使用或以习语方式使用,从而导致意义的显著变化。虽然大型语言模型在许多任务中表现出色,但它们处理此类语言细微差别的能力仍不确定。因此,本研究评估了最先进的语言模型如何处理可能具有习语性质的多词表达式的歧义,特别是在不太常见的上下文中,在这些情况下,模型不太可能依赖记忆。通过在葡萄牙语和加利西亚语中进行评估,除了英语之外,并使用一个新颖的代码切换数据集和新任务,我们发现大型语言模型尽管有其优势,但在处理微妙语言方面仍然存在困难。特别是,我们发现最新的模型,包括GPT-4,在检测和语义任务中未能超越xlm-roBERTa-base基线,尤其是在我们引入的新任务上表现不佳,尽管其与现有任务相似。总体而言,我们的结果表明,多词表达式,尤其是那些具有歧义的表达式,仍然是模型的挑战。 |
[3] 理解和缓解生成式人工智能在金融服务中的风险 标题: Understanding and Mitigating Risks of Generative AI in Financial Services 作者: Sebastian Gehrmann / Claire Huang / Xian Teng / Sergei Yurovski / Iyanuoluwa Shode / Chirag S. Patel / Arjun Bhorkar / Naveen Thomas / John Doucette / David Rosenberg / Mark Dredze / David Rabinowitz 原文: [英文] [中文] 备注: Accepted to FAccT 2025 摘要: 为了负责任地开发生成式人工智能(GenAI)产品,明确可接受的输入和输出范围至关重要。什么构成“安全”响应是一个正在积极讨论的问题。学术研究过于关注模型自身的评估,尤其是在面向广泛受众的对话应用中,关注一般目的的方面如毒性、偏见和公平性。相比之下,较少关注在专业领域中考虑社会技术系统。然而,这些专业系统可能受到广泛且被充分理解的法律和监管审查。这些特定产品的考量需要在行业特定的法律、法规和公司治理要求中进行设定。在本文中,我们旨在强调金融服务领域特有的AI内容安全考量,并概述相关的AI内容风险分类法。我们将此分类法与该领域的现有工作进行比较,并讨论风险类别违规对各利益相关者的影响。我们通过评估在红队活动中收集的数据,来评估现有开源技术防护解决方案如何涵盖此分类法。我们的结果表明,这些防护措施未能检测到我们讨论的大多数内容风险。 |
[4] 迈向评估性思维:使用演化奖励模型的元策略优化 标题: Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models 作者: Zae Myung Kim / Chanwoo Park / Vipul Raheja / Dongyeop Kang 原文: [英文] [中文] 备注: None 摘要: 基于奖励的大型语言模型(LLMs)对齐方法面临两个关键限制:一是容易受到奖励欺骗的影响,即模型利用奖励信号中的缺陷;二是当LLMs用作奖励模型时,依赖于脆弱且劳动密集的提示工程。我们引入了元策略优化(MPO),这是一个通过整合动态优化奖励模型提示的元奖励模型来解决这些挑战的框架。在MPO中,元奖励模型监控不断变化的训练环境,并持续调整奖励模型的提示以保持高度对齐,提供一种适应性的奖励信号,抵御策略的利用。这种元学习方法促进了更稳定的策略优化,并大大减少了对手动奖励提示设计的需求。其性能与由精心设计的奖励提示引导的模型相当或更好。此外,我们展示了MPO在各种任务中保持其有效性,如问答和数学推理,而无需专门的奖励设计。超越标准的RLAIF,MPO的元学习公式可以轻松扩展到更高层次的对齐框架。总体而言,这种方法解决了LLMs奖励基础RL对齐中的理论和实践挑战,为更稳健和适应性更强的对齐策略铺平了道路。代码和模型将公开共享。 |
[5] 用于工具校准代理的模型内部置信度估计:MICE for CATs 标题: MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools 作者: Nishant Subramani / Jason Eisner / Justin Svegliato / Benjamin Van Durme / Yu Su / Sam Thomson 原文: [英文] [中文] 备注: Accepted at NAACL 2025. Code: this https URL 摘要: 在现实世界中行动的工具使用代理需要既有用又安全。良好校准的模型置信度可以用来权衡潜在行动的风险与回报,但先前的研究表明,许多模型的校准效果不佳。受到解释性文献中对模型内部探索的启发,我们提出了一种新颖的模型内部置信度估计器(MICE)类别,以更好地评估调用工具时的置信度。MICE首先使用logitLens从语言模型的每个中间层解码,然后计算每层生成与最终输出之间的相似度分数。这些特征被输入到一个学习的概率分类器中,以评估解码输出的置信度。在使用Llama3模型的模拟试错(STE)工具调用数据集上,我们发现MICE在平滑期望校准误差方面优于或匹配基线。使用MICE置信度来决定是否调用工具在新的指标——期望工具调用效用上显著优于强基线。进一步的实验表明,MICE具有样本效率,可以零样本泛化到未见过的API,并在具有不同风险水平的场景中产生更高的工具调用效用。我们的代码是开源的,可以在这个https URL上获取。 |
[6] 用于临床数据提取的多模态流程:将视觉-语言模型应用于输血反应报告扫描 标题: A Multimodal Pipeline for Clinical Data Extraction: Applying Vision-Language Models to Scans of Transfusion Reaction Reports 作者: Henning Schäfer / Cynthia S. Schmidt / Johannes Wutzkowsky / Kamil Lorek / Lea Reinartz / Johannes Rückert / Christian Temme / Britta Böckmann / Peter A. Horn / Christoph M. Friedrich 原文: [英文] [中文] 备注: None 摘要: 尽管电子健康记录的采用日益增加,许多流程仍然依赖于纸质文件,这反映了医疗服务提供过程中存在的异质性现实条件。将纸质数据转移到数字格式的手动转录过程既耗时又容易出错。为了简化这一工作流程,本研究提出了一个开源管道,用于从扫描文档中提取和分类复选框数据。在输血反应报告中进行了演示,该设计支持适应其他复选框丰富的文档类型。所提出的方法集成了复选框检测、多语言光学字符识别(OCR)和多语言视觉语言模型(VLMs)。与2017年至2024年每年编制的黄金标准相比,该管道实现了高精度和召回率。结果是减少了行政工作量并实现了准确的监管报告。该管道的开源可用性鼓励自托管解析复选框表单。 |
[7] 用于生成英语作为第二语言教学活动的平台 标题: A Platform for Generating Educational Activities to Teach English as a Second Language 作者: Aiala Rosá / Santiago Góngora / Juan Pablo Filevich / Ignacio Sastre / Laura Musto / Brian Carpenter / Luis Chiruzzo 原文: [英文] [中文] 备注: Unpublished report written in 2023 摘要: 我们提出了一个用于生成面向英语作为外语教学的教育活动的平台。不同的活动——游戏和语言练习——主要基于自然语言处理技术。该平台提供了即开即用的游戏,这些游戏是从半自动创建然后手动整理的资源生成的。它还可以从教师输入的文本生成更复杂的游戏或练习,并在使用前提供生成内容的审查和编辑阶段。为了扩展平台上的活动种类,我们目前正在尝试图像和文本生成。为了整合这些功能并提高已经集成的其他神经工具的性能,我们正在努力将平台迁移到更强大的服务器上。在本文中,我们描述了平台的开发及其面向终端用户的部署,讨论了面临的挑战以及我们如何克服这些挑战,并详细介绍了我们的未来工作计划。 |
[8] 利用大型语言模型提升系统评价:使用GPT-4和Kimi 标题: Enhancing Systematic Reviews with Large Language Models: Using GPT-4 and Kimi 作者: Dandan Chen Kaptur / Yue Huang / Xuejun Ryan Ji / Yanhui Guo / Bradley Kaptur 原文: [英文] 备注: 13 pages, Paper presented at the National Council on Measurement in Education (NCME) Conference, Denver, Colorado, in April 2025 摘要: 本研究深入探讨了GPT-4和Kimi这两种大型语言模型(LLMs)在系统综述中的应用。我们通过将LLM生成的代码与同行评审的关于评估的系统综述中人类生成的代码进行比较来评估它们的性能。我们的研究结果表明,对于系统综述,LLM的性能会随着数据量和问题复杂性的变化而波动。 |
[9] UD-English-CHILDES:儿童语言互动的金银级通用依存树集合资源 标题: UD-English-CHILDES: A Collected Resource of Gold and Silver Universal Dependencies Trees for Child Language Interactions 作者: Xiulin Yang / Zhuoxuan Ju / Lanni Bu / Zoey Liu / Nathan Schneider 原文: [英文] [中文] 备注: None 摘要: CHILDES 是一个广泛使用的儿童和儿童导向语音转录资源。本文介绍了 UD-English-CHILDES,这是第一个从先前依存标注的 CHILDES 数据中衍生出来的、根据一致和统一的标注指南正式发布的通用依存(UD)树库。我们的语料库统一了来自 11 名儿童及其看护者的标注,总计超过 48,000 句子。我们在 UD v2 框架下验证了现有的黄金标准标注,并提供了额外的 100 万银标准句子,为计算和语言学研究提供了一致的资源。 |
[10] 基于判决文档中法律条款的共同引用进行案例相似性标注,并通过实证争议评估 标题: Labeling Case Similarity based on Co-Citation of Legal Articles in Judgment Documents with Empirical Dispute-Based Evaluation 作者: Chao-Lin Liu / Po-Hsien Wu / Yi-Ting Yu 原文: [英文] 备注: 16 pages, 9 figures, 2 tables, the Nineteenth International Workshop on Juris-Informatics (JURISIN 2025), associated with the Seventeenth JSAI International Symposium on AI (JSAI-isAI 2025) 摘要: 本报告探讨了在开发法律推荐系统时,特别是在劳动争议等专业领域中,有限标注数据集所面临的挑战。我们提出了一种新的方法,通过案件中法律条款的共同引用来建立相似性并实现算法标注。该方法与案件共同引用的概念相似,利用引用的判例作为共享法律问题的指标。为了评估标注结果,我们采用一个系统,根据原告的指控、被告的反驳以及争议点推荐相似案件。评估结果表明,经过微调的文本嵌入模型和合理的BiLSTM模块,推荐系统能够推荐通过法律条款共同引用测量相似性的劳动案件。本研究为法律文档的自动标注技术的发展做出了贡献,特别是在难以获得全面法律数据库的领域。 |
[11] 局部提示优化 标题: Local Prompt Optimization 作者: Yash Jain / Vishal Chowdhary 原文: [英文] [中文] 备注: Accepted as Oral at NAACL 2025 (Main Conference) 摘要: 近年来,使用提示来指导大型语言模型的输出显著增加。然而,即使是最优秀的专家也难以选择正确的词语来构建一个适合所需任务的提示。为了解决这个问题,基于大型语言模型的提示优化成为一个重要问题。现有的提示优化方法在全局范围内优化提示,其中所有提示词都必须在一个庞大的词汇表中进行优化,以解决复杂任务。庞大的优化空间(词语)导致无法为更好的提示提供足够的指导。在这项工作中,我们引入了局部提示优化(LPO),它可以与任何通用的自动提示工程方法集成。我们识别提示中的优化词,并引导大型语言模型在其优化步骤中仅关注这些词。我们观察到在数学推理(GSM8k和MultiArith)和BIG-bench Hard基准测试中,各种自动提示工程方法的性能显著提高。此外,我们展示了LPO比全局方法更快地收敛到最佳提示。 |
[12] 是什么导致多语言语言模型中的知识丢失? 标题: What Causes Knowledge Loss in Multilingual Language Models? 作者: Maria Khelli / Samuel Cahyawijaya / Ayu Purwarianti / Genta Indra Winata 原文: [英文] [中文] 备注: None 摘要: 跨语言迁移在自然语言处理(NLP)模型中通过利用共享的语言知识来增强多语言性能。然而,传统的方法通常同时处理所有数据,往往无法模拟真实世界的场景,导致诸如灾难性遗忘等挑战,即在新任务上进行微调会降低先前学习任务的性能。我们的研究在多语言环境中探讨了这个问题,重点关注影响表征学习的语言差异,而不仅仅是模型参数。我们使用不同等级的LoRA适配器对52种语言进行实验,以评估非共享、部分共享和完全共享的参数。我们的目标是观察通过适配器进行参数共享是否可以在保留先前知识的同时减轻遗忘。我们发现使用非拉丁字母的语言更容易受到灾难性遗忘的影响,而使用拉丁字母书写的语言则促进了更有效的跨语言迁移。 |
[13] DMDTEval:多领域翻译中消歧任务的大型语言模型评估与分析 标题: DMDTEval: An Evaluation and Analysis of LLMs on Disambiguation in Multi-domain Translation 作者: Zhibo Man / Yuanmeng Chen / Yujie Zhang / Yufeng Chen / Jinan Xu 原文: [英文] 备注: None 摘要: 目前,大型语言模型(LLMs)在机器翻译方面取得了显著的成果。然而,它们在多领域翻译(MDT)中的表现却不尽如人意;词语的含义在不同领域中可能会有所不同,这突显了MDT中固有的显著歧义。因此,评估LLMs在MDT中的消歧能力仍然是一个未解决的问题。为此,我们提出了一个关于多领域翻译消歧的LLMs评估和分析框架(DMDTEval),这是一个由三个关键方面组成的系统评估框架:(1)我们构建了一个带有多领域歧义词注释的翻译测试集,(2)我们策划了一组多样化的消歧提示模板,(3)我们设计了精确的消歧指标,并研究了各种提示策略在多个最先进的LLMs上的效果。我们的大量实验揭示了一些重要的发现,我们相信这些发现将为改善LLMs的消歧能力这一关键领域的进一步研究铺平道路并提供便利。 |
[14] 关于人工智能的心理学——首因效应是否影响ChatGPT和其他大型语言模型? 标题: On Psychology of AI -- Does Primacy Effect Affect ChatGPT and Other LLMs? 作者: Mika Hämäläinen 原文: [英文] [中文] 备注: None 摘要: 我们研究了三种商业大型语言模型(LLM)中的首因效应:ChatGPT、Gemini和Claude。我们通过重新设计著名的Asch(1946)实验来进行研究,该实验是使用人类受试者进行的。实验很简单,给定两个描述相同的候选人,如果一个描述中的积极形容词在消极形容词之前,而另一个描述中的消极形容词在积极形容词之前,哪个候选人更受欢迎。我们在两个实验中测试了这一点。在一个实验中,LLM同时在同一个提示中接收到两个候选人,而在另一个实验中,LLM分别接收到两个候选人。我们用200对候选人对所有模型进行了测试。我们发现,在第一个实验中,ChatGPT更喜欢先列出积极形容词的候选人,而Gemini则同样频繁地喜欢两者。Claude拒绝做出选择。在第二个实验中,ChatGPT和Claude最有可能对两个候选人进行相同的排名。在他们没有给出相同评分的情况下,两者都明显偏好先列出消极形容词的候选人。Gemini最有可能偏好先列出消极形容词的候选人。 |
[15] ACK 团队在 SemEval-2025 任务 2:超越英韩对的逐字机器翻译 标题: Team ACK at SemEval-2025 Task 2: Beyond Word-for-Word Machine Translation for English-Korean Pairs 作者: Daniel Lee / Harsh Sharma / Jieun Han / Sunny Jeong / Alice Oh / Vered Shwartz 原文: [英文] [中文] 备注: Accepted at SemEval-2025 Workshop (ACL 2025) 摘要: 将知识密集型和实体丰富的文本在英语和韩语之间进行翻译需要进行创译,以保留超越字面、语音或逐字转换的语言特定和文化细微差别。我们使用自动指标和由双语注释者进行的人类评估来评估13个模型(大型语言模型和机器翻译模型)。我们的研究结果表明,大型语言模型优于传统的机器翻译系统,但在需要文化适应的实体翻译方面存在困难。通过构建错误分类,我们识别出不正确的响应和实体名称错误是关键问题,性能因实体类型和受欢迎程度而异。这项工作揭示了自动评估指标的不足,并希望能够促进未来在完成具有文化细微差别的机器翻译方面的工作。 |
[16] Fane 在 SemEval-2025 第10项任务:使用大型语言模型进行零样本实体框架 标题: Fane at SemEval-2025 Task 10: Zero-Shot Entity Framing with Large Language Models 作者: Enfa Fane / Mihai Surdeanu / Eduardo Blanco / Steven R. Corman 原文: [英文] [中文] 备注: Accepted to The 19th International Workshop on Semantic Evaluation (Semeval 2025) 摘要: 理解新闻叙事如何框定实体对于研究媒体对事件的社会认知影响至关重要。在本文中,我们评估了大型语言模型(LLMs)在零样本条件下对框定角色进行分类的能力。通过系统实验,我们评估了输入上下文、提示策略和任务分解的影响。我们的研究结果表明,首先识别广泛角色然后识别细化角色的分层方法优于单步分类。我们还证明了最佳输入上下文和提示在不同任务层次上有所不同,强调了需要针对子任务的特定策略。我们实现了89.4%的主要角色准确率和34.5%的精确匹配率,证明了我们方法的有效性。我们的研究结果强调了为提高LLM在实体框定中的表现,量身定制提示设计和优化输入上下文的重要性。 |
[17] 通过跨语言上下文预训练增强大型语言模型的语言适应性 标题: Enhancing LLM Language Adaption through Cross-lingual In-Context Pre-training 作者: Linjuan Wu / Haoran Wei / Huan Lin / Tianhao Li / Baosong Yang / Weiming Lu 原文: [英文] [中文] 备注: 12 pages, 6 figures, Under Review 摘要: 大型语言模型(LLMs)在以英语为主的预训练中表现出显著的多语言能力,这归因于预训练期间的跨语言机制。现有的增强跨语言迁移的方法仍然受限于平行资源,因而在语言和领域覆盖方面存在局限性。我们提出了跨语言上下文预训练(CrossIC-PT),这是一种简单且可扩展的方法,通过简单的下一个词预测利用语义相关的双语文本来增强跨语言迁移。我们通过将语义相关的双语维基百科文档交错到一个单一的上下文窗口中来构建CrossIC-PT样本。为了应对窗口大小的限制,我们实施了一种系统的分段策略,将长的双语文档对分割成块,同时调整滑动窗口机制以保持上下文的一致性。我们进一步通过语义检索框架扩展数据的可用性,从网络抓取的语料库中构建CrossIC-PT样本。实验结果表明,CrossIC-PT在三个模型(Llama-3.1-8B、Qwen2.5-7B和Qwen2.5-1.5B)上提高了六种目标语言的多语言性能,分别带来了3.79%、3.99%和1.95%的性能提升,并在数据增强后获得了额外的改进。 |
[18] UniDetox:通过数据集蒸馏实现大型语言模型的通用去毒化 标题: UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation 作者: Huimin Lu / Masaru Isonuma / Junichiro Mori / Ichiro Sakata 原文: [英文] 备注: Accepted at ICLR 2025 (poster) 摘要: 我们介绍了UniDetox,这是一种旨在减轻各种大型语言模型(LLMs)毒性的通用方法。以往的去毒方法通常是针对特定模型的,仅解决单个模型或模型家族的问题,并且由于去毒效果与语言建模性能之间的权衡,需要仔细调整超参数。相比之下,UniDetox提供了一种可以普遍应用于各种LLMs的去毒技术,无需单独针对模型进行调整。具体而言,我们提出了一种新颖且高效的数据集蒸馏技术,通过对比解码进行去毒。该方法以合成文本数据的形式蒸馏去毒表示,使得通过使用蒸馏文本进行微调,可以对任何LLM进行通用去毒。我们的实验表明,从GPT-2蒸馏的去毒文本可以有效地去毒更大的模型,包括OPT、Falcon和LLaMA-2。此外,UniDetox消除了对每个模型进行单独超参数调整的需求,因为单一的超参数配置可以无缝应用于不同的模型。此外,对去毒文本的分析显示其在政治偏见内容上的减少,为有效去毒LLMs所需的属性提供了见解。 |
[19] 重新审视MIMIC-IV基准:使用语言模型进行电子健康记录的实验 标题: Revisiting the MIMIC-IV Benchmark: Experiments Using Language Models for Electronic Health Records 作者: Jesus Lovon / Thouria Ben-Haddi / Jules Di Scala / Jose G. Moreno / Lynda Tamine 原文: [英文] [中文] 备注: None 摘要: 在医学领域中,缺乏针对文本输入的标准化评估基准可能会成为广泛采用和利用自然语言模型在健康相关下游任务中的潜力的障碍。本文重新审视了一个公开可用的电子健康记录(EHRs)MIMIC-IV基准,以解决这一问题。首先,我们将MIMIC-IV数据集成到Hugging Face数据集库中,以便于分享和使用这一集合。其次,我们研究了应用模板将EHR表格数据转换为文本的方法。在患者死亡率任务中使用微调和零样本大型语言模型(LLMs)的实验表明,微调的基于文本的模型在与强大的表格分类器竞争时表现出色。相比之下,零样本LLMs在利用EHR表示方面表现困难。这项研究强调了基于文本的方法在医学领域的潜力,并指出了进一步改进的领域。 |
[20] BrAIcht,一位像贝尔托·布莱希特角色一样说话的戏剧代理 标题: BrAIcht, a theatrical agent that speaks like Bertolt Brecht's characters 作者: Baz Roland / Kristina Malyseva / Anna Pappa / Tristan Cazenave 原文: [英文] 备注: None 摘要: 本项目介绍了BrAIcht,这是一种AI对话代理,能够以著名德国剧作家贝托尔特·布莱希特的独特风格创作对话。BrAIcht通过使用German LeoLM进行微调,这是一种拥有70亿参数的大型语言模型,并且是经过修改的适合德语任务的基础Llama2版本。为了进行微调,使用了贝托尔特·布莱希特的29部戏剧和907部其他风格上与布莱希特相似的德国戏剧,以形成更为多样化的数据集。由于内存容量有限,采用了一种称为QLoRA的参数高效微调技术来训练大型语言模型。基于BLEU分数和困惑度的结果显示,BrAIcht在生成贝托尔特·布莱希特风格的对话方面表现非常出色。 |
[21] ClonEval: 一个开放的语音克隆基准 标题: ClonEval: An Open Voice Cloning Benchmark 作者: Iwona Christop / Tomasz Kuczyński / Marek Kubis 原文: [英文] [中文] 备注: None 摘要: 我们提出了一个用于语音克隆文本到语音模型的新基准。该基准包括一个评估协议、一个用于评估语音克隆模型性能的开源库以及一个附带的排行榜。论文讨论了设计考虑因素,并详细描述了评估过程。还解释了软件库的使用方法,以及排行榜上结果的组织方式。 |
[22] TF1-EN-3M:三百万篇用于训练小型开放语言模型的合成道德寓言 标题: TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models 作者: Mihai Nadas / Laura Diosan / Andrei Piscoran / Andreea Tomescu 原文: [英文] [中文] 备注: None 摘要: 道德故事是传递价值观的经过时间考验的载体,然而现代自然语言处理(NLP)缺乏一个将连贯叙述与明确伦理教训结合在一起的大型结构化语料库。我们通过TF1-EN-3M填补了这一空白,这是第一个由不超过8B参数的指令调优模型专门生成的三百万篇英文寓言的开放数据集。每个故事遵循一个六槽框架(角色 -> 特征 -> 场景 -> 冲突 -> 解决 -> 道德),通过一个组合提示引擎生成,确保了体裁的忠实性,同时涵盖了广泛的主题空间。 一个混合评估管道结合了(i)基于GPT的评论家评分语法、创造力、道德清晰度和模板遵循性,以及(ii)无参考的多样性和可读性指标。在十个开放权重候选者中,一个8B参数的Llama-3变体在质量和速度的权衡上表现最佳,在单个消费者GPU(<24 GB VRAM)上以大约每千篇寓言13.5美分的成本生成高分寓言。 我们在宽松的许可下发布了数据集、生成代码、评估脚本和完整的元数据,支持精确的可重复性和成本基准测试。TF1-EN-3M为指令遵循、叙事智能、价值对齐和儿童友好型教育AI的研究开辟了途径,展示了大规模道德故事创作不再需要专有的巨型模型。 |
[23] 文言GPT:用于古典中文任务的大型语言模型 标题: WenyanGPT: A Large Language Model for Classical Chinese Tasks 作者: Xinyu Yao / Mengdi Wang / Bo Chen / Xiaobing Zhao 原文: [英文] [中文] 备注: None 摘要: 古文作为中华文化的核心载体,在古代文学的传承和研究中起着至关重要的作用。然而,现有的自然语言处理模型主要针对现代汉语进行优化,导致在古文上的表现不够理想。本文提出了一种针对古文语言处理的综合解决方案。通过在LLaMA3-8B-Chinese模型上继续预训练和指令微调,我们构建了一个专为古文任务设计的大型语言模型——WenyanGPT。此外,我们开发了一个评估基准数据集WenyanBENCH。在WenyanBENCH上的实验结果表明,WenyanGPT在各种古文任务中显著优于当前先进的大型语言模型。我们将模型的训练数据、指令微调数据和评估基准数据集公开,以促进古文处理领域的进一步研究和发展。 |
[24] 激发创造力:通过结构化表示增强大型语言模型创造力的认知启发方法 标题: Cooking Up Creativity: A Cognitively-Inspired Approach for Enhancing LLM Creativity through Structured Representations 作者: Moran Mizrahi / Chen Shani / Gabriel Stanovsky / Dan Jurafsky / Dafna Shahaf 原文: [英文] [中文] 备注: 10 pages, 8 figures 摘要: 大型语言模型(LLMs)在无数任务中表现出色,但在创造力方面却显得力不从心。在本文中,我们介绍了一种新颖的方法,将LLMs与结构化表示和认知启发的操作相结合,以生成更具创造性和多样化的想法。我们的创造力概念超越了表面的词汇级别变化;我们明确地重新组合现有想法的结构化表示,使我们的算法能够有效地探索更抽象的想法领域。我们在烹饪领域展示了我们的方法,使用DishCOVER模型生成创意食谱。实验将我们的模型结果与GPT-4o进行比较,显示出更大的多样性。领域专家评估表明,我们的输出大多是连贯且可行的烹饪创作,在新颖性方面显著超越了GPT-4o,从而在创意生成上表现更佳。我们希望我们的工作能激发更多关于AI结构化创造力的研究。 |
[25] 一种生成式人工智能驱动的索赔检索系统,能够从社交媒体平台中检测和检索多语言索赔 标题: A Generative-AI-Driven Claim Retrieval System Capable of Detecting and Retrieving Claims from Social Media Platforms in Multiple Languages 作者: Ivan Vykopal / Martin Hyben / Robert Moro / Michal Gregor / Jakub Simko 原文: [英文] [中文] 备注: None 摘要: 在线虚假信息构成了全球性挑战,对事实核查员提出了重大要求,他们必须高效地核实信息,以防止虚假信息的传播。该过程中一个主要问题是对已核实信息的重复验证,这增加了工作量并延迟了对新出现信息的响应。本文研究介绍了一种方法,该方法检索先前已核实的信息,评估其与给定输入的相关性,并提供补充信息以支持事实核查员。我们的方法使用大型语言模型(LLMs)来过滤不相关的事实核查,并生成简明的摘要和解释,使事实核查员能够更快地评估某个信息是否已被验证。此外,我们通过自动和人工评估来评估我们的方法,其中人类与开发的工具进行交互以审查其有效性。我们的结果表明,LLMs能够过滤掉许多不相关的事实核查,从而减少工作量并简化事实核查过程。 |
[26] 非母语儿童自动语音评估挑战 (NOCASA) 标题: Non-native Children's Automatic Speech Assessment Challenge (NOCASA) 作者: Yaroslav Getman / Tamás Grósz / Mikko Kurimo / Giampiero Salvi 原文: [英文] [中文] 备注: First draft of the baseline paper for the NOCASA competition (this https URL), 5 pages 摘要: 本文介绍了“非母语儿童自动语音评估”(NOCASA),这是IEEE MLSP 2025会议的一项数据竞赛。NOCASA挑战参与者开发新的系统,以评估年轻第二语言(L2)学习者在游戏化发音训练应用中单词发音的能力。为实现这一目标,必须解决若干问题,尤其是可用训练数据的有限性和发音水平类别之间的高度不平衡分布。为了加快开发进程,我们提供了一个伪匿名化的训练数据集(TeflonNorL2),其中包含44名说话者尝试发音205个不同挪威单词的10,334条录音,这些录音由人类评定为1到5星级(即游戏中应给予的星级数)。除了数据之外,还发布了两个已训练的系统作为官方基线:一个基于ComParE_16声学特征集训练的SVM分类器和一个多任务wav2vec 2.0模型。后者在挑战测试集上实现了最佳性能,未加权平均召回率(UAR)为36.37%。 |
[27] 信息检索方法在社会科学中协调纵向调查问题方面表现如何? 标题: Are Information Retrieval Approaches Good at Harmonising Longitudinal Survey Questions in Social Science? 作者: Wing Yan Li / Zeqiang Wang / Jon Johnson / Suparna De 原文: [英文] [中文] 备注: None 摘要: 在纵向社会科学调查中,自动检测语义等价的问题对于为社会、经济和健康科学的实证研究提供信息的长期研究至关重要。检索等价问题面临双重挑战:跨研究以及在问题和回答选项之间理论构念(即概念/子概念)的不一致表示,以及纵向文本中词汇和结构的演变。为应对这些挑战,我们由计算机科学家和调查专家组成的多学科合作团队提出了一项新的信息检索(IR)任务,即识别问题和回答选项中的概念(例如住房、工作等)等价性,以协调纵向人口研究。本文研究了在1946-2020年间的调查数据集上多种无监督方法,包括概率模型、语言模型的线性探测以及专门用于IR的预训练神经网络。我们表明,专门用于IR的神经模型在整体性能上达到最高,其他方法表现相当。此外,用神经模型对概率模型结果进行重新排序仅在F1分数上最多引入0.07的适度改进。调查专家的定性事后评估显示,模型对词汇重叠度高的问题通常敏感性较低,特别是在子概念不匹配的情况下。总的来说,我们的分析有助于进一步研究社会科学中的纵向研究协调。 |
[28] 大型语言模型能否检测释义和机器翻译中的内在幻觉? 标题: Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation? 作者: Evangelia Gogoulou / Shorouq Zahra / Liane Guillou / Luise Dürlich / Joakim Nivre 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)常见的问题是它们倾向于生成无意义、不合逻辑或事实错误的输出,这通常被统称为幻觉。基于最近提出的用于幻觉检测和生成的HalluciGen任务,我们评估了一套开放访问的LLMs在两个条件生成任务(翻译和释义)中检测内在幻觉的能力。我们研究了模型性能在不同任务和语言中的变化,并探讨了模型大小、指令微调和提示选择的影响。我们发现,模型性能在不同模型之间有所不同,但在提示上是一致的。最后,我们发现自然语言推理(NLI)模型表现同样出色,这表明基于LLM的检测器并不是这个特定任务的唯一可行选择。 |
[29] BrightCookies 在 SemEval-2025 第9项任务中的表现:探索用于食品危害分类的数据增强 标题: BrightCookies at SemEval-2025 Task 9: Exploring Data Augmentation for Food Hazard Classification 作者: Foteini Papadopoulou / Osman Mutlu / Neris Özen / Bas H.M. van der Velden / Iris Hendrickx / Ali Hürriyetoğlu 原文: [英文] [中文] 备注: None 摘要: 本文介绍了我们为SemEval-2025第9项任务:食品危害检测挑战赛开发的系统。该共享任务的目标是评估可解释的分类系统,以从食品召回事件报告中对危害和产品进行两个层次的分类。在这项工作中,我们提出了文本增强技术,作为提高对少数类表现不佳的一种方法,并比较了它们在各种变压器和机器学习模型中对每个类别的影响。我们探索了三种词级数据增强技术,即同义词替换、随机词交换和上下文词插入。结果表明,变压器模型往往具有更好的整体性能。三种增强技术中没有一种能始终如一地提高危害和产品分类的整体性能。我们观察到,在使用BERT模型将基线与每个增强模型进行比较时,细粒度类别的性能有统计学上的显著提高(P < 0.05)。与基线相比,上下文词插入增强将少数危害类别预测的准确性提高了6%。这表明,针对少数类的定向增强可以提高变压器模型的性能。 |
[30] 超越最后的答案:你的推理轨迹揭示的比你想象的更多 标题: Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think 作者: Hasan Abed Al Kader Hammoud / Hani Itani / Bernard Ghanem 原文: [英文] [中文] 备注: Preprint 摘要: 大型语言模型(LLMs)利用逐步推理来解决复杂问题。标准评估实践包括生成完整的推理过程,并评估其结论中呈现的最终答案的正确性。在本文中,我们对依赖最终答案提出质疑,并提出以下两个问题:最终答案是否可靠地代表模型的最佳结论?替代的推理路径是否能产生不同的结果?为了解答这些问题,我们分析了中间推理步骤,称为子思维,并基于我们的发现提出了一种方法。我们的方法包括根据语言线索将推理过程分割成连续的子思维。我们首先提示模型从每个中间子思维的终点生成后续内容。我们从每个源自不同子思维的完整后续内容中提取一个潜在答案。我们发现,通过选择最频繁出现的答案(众数)来汇总这些答案,通常比仅依赖于原始完整推理得出的答案能显著提高准确性。分析从不同子思维得出的答案之间的一致性揭示了与模型的信心和正确性相关的特征,表明有可能识别出不太可靠的答案。我们在各种大型语言模型和具有挑战性的数学推理数据集(AIME2024和AIME2025)上的实验显示出一致的准确性提升,增益分别达到13%和10%。实现可在此URL获取。 |
[31] UniversalRAG:在多种语料库中进行检索增强生成,涵盖多样化的模态和粒度 标题: UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities 作者: Woongyeong Yeo / Kangsan Kim / Soyeong Jeong / Jinheon Baek / Sung Ju Hwang 原文: [英文] [中文] 备注: Project page : this https URL 摘要: 检索增强生成(RAG)在通过将模型响应与查询相关的外部知识结合来提高事实准确性方面显示出显著的前景。然而,大多数现有的RAG方法仅限于文本语料库,尽管最近的努力已将RAG扩展到其他模态,如图像和视频,但它们通常仅在单一模态特定的语料库上运行。相比之下,现实世界的查询在所需知识类型上差异很大,单一类型的知识源无法解决这一问题。为了解决这个问题,我们引入了UniversalRAG,这是一种新颖的RAG框架,旨在从异构来源中检索和整合具有不同模态和粒度的知识。具体来说,基于观察到将所有模态强制到从单一组合语料库派生的统一表示空间会导致模态差距,其中检索倾向于偏向与查询同一模态的项目,我们提出了一种模态感知路由机制,该机制动态识别最合适的模态特定语料库并在其中进行有针对性的检索。此外,除了模态之外,我们将每种模态组织成多个粒度级别,使得能够根据查询的复杂性和范围进行精细调整的检索。我们在跨多个模态的8个基准上验证了UniversalRAG,显示其优于模态特定和统一基线。 |
[32] 在真实环境中领悟:使用变压器进行多跳推理的数据增强 标题: Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers 作者: Roman Abramov / Felix Steinbauer / Gjergji Kasneci 原文: [英文] [中文] 备注: None 摘要: Transformer在众多自然语言处理任务中取得了巨大成功,但在多步事实推理方面仍然存在显著差距,尤其是在现实世界知识稀缺的情况下。最近在grokking方面的进展表明,神经网络一旦检测到潜在的逻辑模式,就可以从记忆过渡到完美的泛化——然而,这些研究主要使用小型的、合成的任务。在本文中,我们首次将grokking扩展到现实世界的事实数据,并通过用精心设计的合成数据增强现有的知识图谱来解决数据集稀疏性的问题,以提高推断事实与原子事实的比率$\phi_r$,超过grokking所需的阈值。令人惊讶的是,我们发现即使是事实不正确的合成数据也能加强新兴的推理电路,而不是降低准确性,因为它迫使模型依赖关系结构而不是记忆。在多跳推理基准测试中,我们的方法在2WikiMultiHopQA上实现了高达95-100%的准确率——大大超过了强基线,并匹配或超越了当前的最新结果。我们进一步深入分析了增加$\phi_r$如何推动Transformer内部泛化电路的形成。我们的研究结果表明,基于grokking的数据增强可以解锁隐式的多跳推理能力,为大规模语言模型中更稳健和可解释的事实推理打开了大门。 |
[33] 防御链思维:结构化推理增强大型语言模型对参考腐败的鲁棒性 标题: Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption 作者: Wenxiao Wang / Parsa Hosseini / Soheil Feizi 原文: [英文] [中文] 备注: None 摘要: 链式思维提示在增强大型语言模型的推理能力方面表现出了巨大的成功。在这项工作中,我们探讨了如何利用这些增强的推理能力来提高大型语言模型在非推理为主的任务中的鲁棒性。具体来说,我们展示了如何通过一种简单的方法——链式防御思维,使得各种大型语言模型在面对参考腐败时表现出显著提高的鲁棒性。在这种方法中,仅提供少量具有结构化和防御性推理的示例作为演示。实证结果表明,考虑到该方法的简单性和适用性,改进效果令人惊叹。例如,在自然问题任务中,当提供的10个参考中有1个被提示注入攻击破坏时,GPT-4o的准确率从60%下降到最低3% 。相比之下,使用链式防御思维提示的GPT-4o保持了50%的准确率。 |
[34] 图灵机评估大型语言模型 标题: Turing Machine Evaluation for Large Language Model 作者: Haitao Wu / Zongbo Han / Huaxi Huang / Changqing Zhang 原文: [英文] 备注: None 摘要: 随着大型语言模型(LLMs)的快速发展和广泛应用,严格的评估变得尤为重要。本研究采用了一种新颖的视角,重点评估LLMs的核心计算推理能力,该能力定义为模型准确理解规则并执行逻辑计算操作的能力。这种能力评估LLMs作为精确执行者的可靠性,对于复杂代码生成和多步骤问题解决等高级任务至关重要。我们提出了一种基于通用图灵机(UTM)模拟的评估框架。该框架要求LLMs在多步骤计算过程中严格遵循指令并跟踪动态状态,如磁带内容和读/写头位置。为了实现标准化评估,我们开发了TMBench,一个系统研究LLMs计算推理能力的基准。TMBench提供了几个关键优势,包括知识无关的评估、可调节的难度、通过图灵机编码的基础覆盖以及无限的实例生成能力,确保随着模型的不断发展而具有可扩展性。我们发现模型在TMBench上的表现与其他公认的推理基准上的表现强烈相关(皮尔逊相关系数为0.73),清楚地表明计算推理是衡量LLMs深层能力的重要维度。代码和数据可在此https URL获取。 |
[35] 结合量子理论干预的通用语言模型 标题: Universal language model with the intervention of quantum theory 作者: D.-F. Qin 原文: [英文] [中文] 备注: None 摘要: 本文研究了基于量子力学理论的语言建模。重点在于将量子力学引入语言的符号-意义对,以构建自然语言的表示模型。同时,认识到广泛用作统计语言建模基本技术的词嵌入可以通过量子力学的数学框架进行解释和改进。在此基础上,本文继续尝试利用量子统计及其他相关理论研究自然语言的数学表示、自然演化和统计特性。还假设这种量子特性的来源是信息的物理性。通过构建实验代码,指出了使用量子理论对自然语言进行建模的可行性。论文在应用方面讨论了该理论在构建当今流行的生成模型时可能提供的帮助。还对该理论在量子计算机上的未来应用进行了初步讨论。 |
[36] JaccDiv:一种用于量化音乐行业生成营销文本多样性的指标和基准 标题: JaccDiv: A Metric and Benchmark for Quantifying Diversity of Generated Marketing Text in the Music Industry 作者: Anum Afzal / Alexandre Mercier / Florian Matthes 原文: [英文] [中文] 备注: None 摘要: 在线平台越来越希望使用数据到文本技术来生成内容并帮助用户。不幸的是,传统的生成方法往往会陷入重复模式,仅经过几次迭代后就会导致文本画廊单调乏味。在本文中,我们研究了基于大型语言模型(LLM)的数据到文本方法,以自动生成质量足够高且多样性足够广泛的营销文本,以便广泛采用。我们利用了诸如T5、GPT-3.5、GPT-4和LLaMa2等语言模型,并结合微调、少样本和零样本方法,为多样化的营销文本设定了基准。我们还引入了一个名为JaccDiv的指标来评估一组文本的多样性。这项研究的相关性超越了音乐行业,在重复性自动内容生成普遍存在的各个领域都证明是有益的。 |
[37] DYNAMAX:基于Transformer和Mamba架构的动态计算 标题: DYNAMAX: Dynamic computing for Transformers and Mamba based architectures 作者: Miguel Nogales / Matteo Gambella / Manuel Roveri 原文: [英文] [中文] 备注: Accepted to IJCNN 2025 摘要: 早期退出(EEs)通过在数据样本达到满意的预测置信度时动态终止推理,提供了一种有前途的方法来减少计算成本和延迟。尽管许多工作将EEs集成到仅编码器的Transformer中,但它们在仅解码器架构中的应用,尤其是在LLM领域的新型状态空间架构Mamba模型中的应用,仍然探索不足。本文介绍了DYNAMAX,这是第一个利用Mamba架构独特特性进行早期退出机制的框架。我们不仅将EEs集成到Mamba中,还将Mamba重新用作Mamba和基于Transformer的LLM的高效EE分类器,展示了其多功能性。我们的实验使用了Mistral 7B Transformer与Codestral 7B Mamba模型进行比较,使用TruthfulQA、CoQA和TriviaQA等数据集来评估计算节省、准确性和一致性。结果突出了Mamba作为强大EE分类器的适应性及其在平衡计算成本和性能质量方面的效率。通过利用Mamba固有的动态处理设计,我们为嵌入式应用和资源受限环境中的可扩展和高效推理开辟了道路。这项研究强调了Mamba在重新定义LLM动态计算范式中的变革潜力。 |
[38] 思维轨迹:通过从大语言模型到小语言模型的推理蒸馏增强算术问题解决能力 标题: Trace-of-Thought: Enhanced Arithmetic Problem Solving via Reasoning Distillation From Large to Small Language Models 作者: Tyler McDonald / Ali Emami 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型(LLMs)在日常任务中的应用不断增加,提示工程在计算语言学领域,尤其是在需要专业知识的领域(如算术推理)中,仍然是一个活跃的研究领域。虽然这些LLMs针对多种任务进行了优化,但对于小型团队来说,其全面使用可能在计算或财务上变得繁重。此外,完全依赖专有的闭源模型通常限制了定制和适应性,在研究和应用的可扩展性方面带来了重大挑战。相反,通过利用参数在70亿及以下的开源模型,我们可以优化资源使用,同时在标准提示方法上仍能观察到显著的提升。为了培养这一理念,我们引入了Trace-of-Thought Prompting,这是一种简单的零样本提示工程方法,旨在通过关键问题解决来指导LLMs创建可观察的子问题,特别是为了增强算术推理能力。当将其与GPT-4结合应用于开源模型时,我们观察到Trace-of-Thought不仅为问题解决过程提供了新的见解,还在参数为70亿及以下的语言模型上引入了高达125%的性能提升。这一方法强调了开源项目在民主化AI研究和提高高质量计算语言学应用可及性方面的潜力。 |
[39] 信息引力:大型语言模型中令牌选择的场论模型 标题: Information Gravity: A Field-Theoretic Model for Token Selection in Large Language Models 作者: Maryna Vyshnyvetska 原文: [英文] [中文] 备注: 12 pages, 1 figure 摘要: 我们提出了一个名为“信息引力”的理论模型,用于描述大型语言模型(LLMs)中的文本生成过程。该模型使用场论和时空几何的物理工具来形式化用户查询与生成的词元概率分布之间的相互作用。查询被视为具有“信息质量”的对象,它弯曲了模型的语义空间,创造出“吸引”词元的引力势阱。该模型提供了一种机制来解释LLM行为中观察到的若干现象,包括幻觉(源于低密度语义空洞)、对查询表述的敏感性(由于语义场曲率变化)以及采样温度对输出多样性的影响。 |
[40] OSVBench:用于操作系统验证的规范生成任务的大型语言模型基准测试 标题: OSVBench: Benchmarking LLMs on Specification Generation Tasks for Operating System Verification 作者: Shangyu Li / Juyong Jiang / Tiancheng Zhao / Jiasi Shen 原文: [英文] [中文] 备注: None 摘要: 我们介绍了OSVBench,这是一个用于评估大型语言模型(LLMs)在生成与操作系统内核验证任务相关的完整规范代码的新基准。该基准首先通过向LLMs提供编程模型,将规范生成问题定义为一个在语法和语义的有限范围内的程序合成问题。LLMs需要理解提供的验证假设以及潜在的语法和语义空间进行搜索,然后在操作系统的高级功能描述的指导下,为可能存在漏洞的操作系统代码实现生成完整的规范。该基准建立在一个真实世界的操作系统内核Hyperkernel之上,总共包含245个复杂的规范生成任务,每个任务都是一个大约20k-30k标记的长上下文任务。我们对12个LLMs的全面评估显示了当前LLMs在操作系统验证的规范生成任务上的有限性能。它们在基准上的性能差异显著,突显了它们在处理长上下文代码生成任务能力上的差异。评估工具包和基准可在此HTTPS URL获取。 |
[41] SetKE:知识元素重叠的知识编辑 标题: SetKE: Knowledge Editing for Knowledge Elements Overlap 作者: Yifan Wei / Xiaoyan Yu / Ran Song / Hao Peng / Angsheng Li 原文: [英文] [中文] 备注: The CR version will be updated subsequently 摘要: 大型语言模型(LLMs)在检索和问答等任务中表现出色,但需要更新以整合新知识并减少不准确性和幻觉。传统的更新方法,如微调和增量学习,面临过拟合和高计算成本等挑战。知识编辑(KE)提供了一种有前途的替代方案,但通常忽视了知识元素重叠(KEO)现象,即多个三元组共享共同元素,导致编辑冲突。我们识别出现有KE数据集中KEO的普遍性,并展示其对当前KE方法的显著影响,导致处理此类三元组时性能下降。为了解决这个问题,我们提出了一种新的公式,知识集编辑(KSE),并介绍了SetKE,一种同时编辑三元组集合的方法。实验结果表明,SetKE在主流LLMs的KEO场景中优于现有方法。此外,我们引入了EditSet,一个包含KEO三元组的数据集,提供了全面的基准。 |