![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年4月17日更新论文31篇
|
[1] SFT还是RL?关于训练类似R1推理的大型视觉语言模型的早期研究 标题: SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models 作者: Hardy Chen / Haoqin Tu / Fali Wang / Hui Liu / Xianfeng Tang / Xinya Du / Yuyin Zhou / Cihang Xie 原文: [英文] [中文] 备注: None 摘要: 这项工作重新审视了用于训练大型视觉语言模型(LVLMs)的主流监督微调(SFT)然后强化学习(RL)范式,并揭示了一个关键发现:SFT可能通过模仿专家模型的“伪推理路径”显著削弱后续的RL。虽然这些路径可能类似于RL模型的原生推理路径,但它们通常涉及冗长、犹豫、不太有信息量的步骤,以及错误的推理。为了系统地研究这一效应,我们引入了VLAA-Thinking,这是一个新的多模态数据集,旨在支持LVLMs中的推理。该数据集通过一个六步流程构建,包括字幕生成、推理蒸馏、答案重写和验证,VLAA-Thinking包含高质量的、逐步的视觉推理轨迹用于SFT,以及来自相同数据源的更具挑战性的RL部分。利用这个数据集,我们进行了广泛的实验,比较了SFT、RL及其组合。结果表明,虽然SFT帮助模型学习推理格式,但它常常将对齐的模型锁定在模仿的、僵化的推理模式中,阻碍了进一步的学习。相比之下,基于群体相对策略优化(GRPO)并结合了感知和认知信号的新型混合奖励模块,我们的RL方法促进了更真实、适应性更强的推理行为。值得注意的是,我们的模型VLAA-Thinker,基于Qwen2.5VL 3B,在4B规模的LVLMs中,在Open LMM推理排行榜(此https URL)上获得了第一名的表现,超越了之前的最先进水平1.8%。我们希望我们的发现能为开发具有推理能力的LVLMs提供有价值的见解,并能为该领域的未来研究提供信息。 |
[2] ReTool:用于大型语言模型中战略性工具使用的强化学习 标题: ReTool: Reinforcement Learning for Strategic Tool Use in LLMs 作者: Jiazhan Feng / Shijue Huang / Xingwei Qu / Ge Zhang / Yujia Qin / Baoquan Zhong / Chengquan Jiang / Jinxin Chi / Wanjun Zhong 原文: [英文] 备注: None 摘要: 尽管使用强化学习(RL)训练的推理模型(例如,DeepSeek R1)在文本推理方面表现出色,但在需要结构化问题解决的场景中却表现不佳,例如几何推理、简洁计算或复杂方程求解——在这些领域,代码解释器(CI)等计算工具显示出明显优势。为弥合这一差距,我们提出了ReTool,它通过工具集成学习增强了长篇推理,包括两个关键特性:(1)在自然语言推理过程中动态交错实时代码执行,以及(2)一种自动化的RL范式,允许策略展开多轮实时代码执行,并通过结果反馈教会模型何时以及如何调用工具。ReTool采用系统的训练框架,从合成冷启动数据生成开始,生成代码增强的长篇推理轨迹以微调基础模型。随后的RL训练利用任务结果作为奖励,迭代优化模型的工具使用策略,使其能够在没有人为先验的情况下自主发现最佳工具调用模式。在具有挑战性的数学奥林匹克基准AIME上的实验表明,ReTool的优越性:我们的32B模型在400个训练步骤中实现了67%的准确率,效率和性能均优于基于文本的RL基线(40%准确率,1080步骤)。值得注意的是,ReTool-32B在扩展设置中达到了72.5%的准确率,超过了OpenAI的o1-preview 27.9%。进一步的分析揭示了诸如代码自我纠正等新兴行为,标志着模型在自适应工具使用方面自主掌握的“顿悟时刻”。这些发现突显了结果驱动的工具集成在推进复杂数学推理方面的潜力,并为混合神经符号系统提供了新的见解。 |
[3] AskQE: 将问答作为机器翻译的自动评估 标题: AskQE: Question Answering as Automatic Evaluation for Machine Translation 作者: Dayeon Ki / Kevin Duh / Marine Carpuat 原文: [英文] [中文] 备注: 38 pages, 7 figures 摘要: 一个只会说英语的人如何判断法语的自动翻译是否足够好,可以分享?现有的机器翻译错误检测和质量评估技术并没有解决这一实际场景。我们引入了AskQE,这是一种问题生成和回答框架,旨在检测关键的机器翻译错误并提供可操作的反馈,帮助用户在不了解目标语言的情况下决定是否接受或拒绝机器翻译输出。利用ContraTICO,一个包含COVID-19领域对比合成机器翻译错误的数据集,我们探索了AskQE的设计选择,并开发了一个优化版本,该版本依赖于LLaMA-3 70B和蕴含事实来指导问题生成。我们在BioMQM数据集上评估了该系统,该数据集包含自然发生的机器翻译错误,结果显示AskQE在与人类评分的Kendall's Tau相关性和决策准确性方面优于其他质量评估指标。 |
[4] 免费改进指令模型:关于部分适应的研究 标题: Improving Instruct Models for Free: A Study on Partial Adaptation 作者: Ozan İrsoy / Pengxiang Cheng / Jennifer L. Chen / Daniel Preoţiuc-Pietro / Shiyue Zhang / Duccio Pappadopulo 原文: [英文] [中文] 备注: Author ordering chosen at random 摘要: 通过各种指令微调或后训练步骤获得的指令模型通常被认为比其基础模型更优越且更易用。虽然模型获得了遵循指令的能力,但指令微调可能导致遗忘预训练中的知识,或者可能使模型过于对话化或冗长。这反过来可能导致上下文内少样本学习性能的下降。在这项工作中,我们通过部分适应方法降低指令微调的强度,研究基础模型和指令模型之间的性能轨迹。我们展示了,在多个模型家族和模型规模中,降低指令微调的强度在涵盖各种经典自然语言任务的少样本上下文学习基准上带来了显著的改进。这是以在一定程度上失去遵循指令能力为代价的,后者通过AlpacaEval进行测量。我们的研究揭示了上下文学习能力和指令遵循能力之间潜在的权衡,这在实践中值得考虑。 |
[5] 语言模型虚拟角色的高阶绑定:关于近似政治党派误解的研究 标题: Higher-Order Binding of Language Model Virtual Personas: a Study on Approximating Political Partisan Misperceptions 作者: Minwoo Kang / Suhong Moon / Seung Hyeong Lee / Ayush Raj / Joseph Suh / David M. Chan 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在模拟人类行为方面的能力日益增强,为调查设计早期阶段提供了经济高效的用户反应估计方法。尽管先前的研究已经探讨了模型是否能够反映个人意见或态度,但我们认为,虚拟角色的\emph{高阶}绑定不仅需要成功地近似用户作为群体成员的意见,还需要捕捉用户对群体外部的感知和评价的细微差别。特别是,忠实地模拟人类如何感知不同社会群体对于将LLMs应用于各种政治科学研究至关重要,包括关于极化动态、群体间冲突和民主倒退的及时话题。为此,我们提出了一种新颖的方法,通过生成扩展的多轮访谈记录来构建具有合成用户“背景故事”的虚拟角色。与以往的方法相比,我们生成的背景故事更长、细节丰富,并且在真实描述单一个体方面保持一致。我们展示了基于我们背景故事的虚拟角色能够紧密复制人类反应分布(根据Wasserstein距离测量,改进高达87%),并产生与原始研究中观察到的效应大小相匹配的结果。总之,我们的工作扩展了LLMs的适用性,不仅限于估计个人自我意见,使其能够用于更广泛的人类研究。 |
[6] 基于音系信息的英语单词无监督分类:日耳曼语族和拉丁语族簇的发现 标题: Unsupervised Classification of English Words Based on Phonological Information: Discovery of Germanic and Latinate Clusters 作者: Takashi Morita / Timothy J. O'Donnell 原文: [英文] [中文] 备注: None 摘要: 跨语言地,母语词汇和外来词遵循不同的音系规则。例如,在英语中,源自日耳曼语和拉丁语的词汇表现出不同的重音模式,并且某些句法结构是日耳曼动词所独有的。然而,当将它们视为认知模型时,这种基于词源的概括在可学习性方面面临挑战,因为词汇的历史来源对于普通语言学习者来说可能是无法获取的信息。在这项研究中,我们提供了计算证据,表明英语词汇中的日耳曼-拉丁语区分可以从个别词的音位信息中学习。具体来说,我们对从语料库中提取的词进行了无监督聚类,结果的词汇聚类与词源区分大致一致。模型发现的聚类还恢复了先前文献中记录的关于相应词源类别的各种语言概括。此外,我们的研究结果还揭示了准词源聚类中以前未被识别的特征,为未来的实验研究提供了新的假设。 |
[7] 为网络代理增强显式回滚机制 标题: Enhancing Web Agents with Explicit Rollback Mechanisms 作者: Zhisong Zhang / Tianqing Fang / Kaixin Ma / Wenhao Yu / Hongming Zhang / Haitao Mi / Dong Yu 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型的最新进展,网络代理得到了极大的改进。然而,处理复杂和动态的网络环境需要更高级的规划和搜索能力。以往的研究通常采用贪婪的单向搜索策略,这可能难以从错误状态中恢复。在这项工作中,我们为网络代理增强了一种显式回滚机制,使代理能够在其导航轨迹中回到先前的状态。该机制赋予模型直接控制搜索过程的灵活性,从而形成一种有效且高效的网络导航方法。我们在两个实时网络导航基准上进行了零样本和微调设置的实验。结果证明了我们所提出方法的有效性。 |
[8] 选择性注意联邦学习:提升临床文本分类的隐私性和效率 标题: Selective Attention Federated Learning: Improving Privacy and Efficiency for Clinical Text Classification 作者: Yue Li / Lihong Zhang 原文: [英文] [中文] 备注: None 摘要: 联邦学习(FL)在训练大型语言模型(LLMs)时,尤其是在医疗保健应用中,面临着通信开销和模型隐私的重大挑战。为了解决这些问题,我们引入了选择性注意联邦学习(SAFL),这是一种新颖的方法,动态微调那些被识别为注意力关键的变压器层。通过使用注意力模式来确定层的重要性,SAFL显著减少了通信带宽并增强了差分隐私的弹性。在临床自然语言处理基准(i2b2临床概念提取和MIMIC-III出院总结)上的评估表明,SAFL在通信效率和隐私保护方面大幅提升的同时,达到了与集中式模型相媲美的性能。 |
[9] 高效且自适应的全单向架构同时语音翻译 标题: Efficient and Adaptive Simultaneous Speech Translation with Fully Unidirectional Architecture 作者: Biao Fu / Donglei Yu / Minpeng Liao / Chengxi Li / Yidong Chen / Kai Fan / Xiaodong Shi 原文: [英文] [中文] 备注: None 摘要: 同时语音翻译(SimulST)在处理部分语音输入的同时,逐步生成翻译。尽管大型语言模型(LLMs)在离线翻译任务中展示了强大的能力,但将其应用于SimulST仍面临显著挑战。现有基于LLM的SimulST方法要么由于双向语音编码器的重复编码而导致计算开销显著,要么依赖于固定的读/写策略,限制了效率和性能。在这项工作中,我们引入了具有完全单向架构的高效自适应同时语音翻译(EASiST),包括语音编码器和LLM。EASiST采用多延迟数据策划策略来生成语义对齐的SimulST训练样本,并将SimulST重新定义为具有显式读/写标记的交错生成任务。为了促进自适应推理,我们加入了一个轻量级策略头,动态预测读/写动作。此外,我们采用多阶段训练策略来对齐语音-文本模态,并优化翻译和策略行为。在MuST-C En→De和En→Es数据集上的实验表明,EASiST在延迟-质量权衡方面优于多个强基线。 |
[10] ARWI:阿拉伯语写作与改进 标题: ARWI: Arabic Write and Improve 作者: Kirill Chirkunov / Bashar Alhafni / Chatrine Qwaider / Nizar Habash / Ted Briscoe 原文: [英文] [中文] 备注: None 摘要: 尽管阿拉伯语有超过4亿人使用,但高级的阿拉伯语写作辅助工具仍然有限。为了解决这一差距,我们推出了ARWI,这是一款新的写作助手,帮助学习者提高现代标准阿拉伯语的作文写作能力。ARWI是第一个公开可用的阿拉伯语写作助手,包含针对不同熟练程度的提示数据库、阿拉伯语文本编辑器、最先进的语法错误检测和纠正功能,以及与欧洲语言共同参考框架标准对齐的自动作文评分。此外,ARWI还可以用于收集不断增长的自动注释语料库,促进对阿拉伯语语法纠正和作文评分的进一步研究,以及分析母语者和非母语学习者的错误模式。初步用户研究表明,ARWI提供了可操作的反馈,帮助学习者识别语法差距、评估语言熟练度,并指导改进。 |
[11] 似曾相识:通过机器翻译评估视角进行多语言大型语言模型评估 标题: Déjà Vu: Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation 作者: Julia Kreutzer / Eleftheria Briakou / Sweta Agrawal / Marzieh Fadaee / Kocmi Tom 原文: [英文] [中文] 备注: None 摘要: 多语言大型语言模型(mLLMs)的生成能力和语言覆盖范围正在迅速发展。然而,对于mLLMs生成能力的评估实践仍然缺乏全面性、科学严谨性和研究实验室之间的一致采用,这削弱了其在有意义地指导mLLM发展方面的潜力。我们与机器翻译(MT)评估进行了类比,机器翻译领域曾面临类似的挑战,并在数十年间为多语言生成模型开发了透明的报告标准和可靠的评估。通过在生成评估流程的关键阶段进行有针对性的实验,我们展示了如何从MT评估的最佳实践中加深对模型质量差异的理解。此外,我们确定了mLLMs稳健元评估的基本组成部分,确保评估方法本身经过严格评估。我们将这些见解提炼成一份可操作的建议清单,以供mLLM研究和开发参考。 |
[12] 多语言思维能否增强大型语言模型的推理能力? 标题: Could Thinking Multilingually Empower LLM Reasoning? 作者: Changjiang Gao / Xu Huang / Wenhao Zhu / Shujian Huang / Lei Li / Fei Yuan 原文: [英文] [中文] 备注: None 摘要: 先前的研究表明,大型语言模型表现出显著的“英语偏向”,即当任务以英语呈现时,它们通常表现得更好。有趣的是,我们观察到在推理任务中使用某些其他语言可以比使用英语获得更好的表现。然而,这一现象尚未得到充分探索。在本文中,我们探讨了在推理任务中利用多语言能力的上限,表明多语言推理比仅使用英语的推理在上限上显著(几乎高出10个Acc@$k$点)且稳健(对翻译质量和语言选择的变化具有容忍度)。除了分析上限背后的原因和实现这一上限的挑战外,我们还发现常见的答案选择方法由于其局限性和偏见,无法达到这一上限。这些见解可能为未来的研究铺平道路,旨在充分利用大型语言模型中的多语言推理潜力。 |
[13] FiSMiness:一种基于有限状态机的情感支持对话范式 标题: FiSMiness: A Finite State Machine Based Paradigm for Emotional Support Conversations 作者: Yue Zhao / Qingqing Gu / Xiaoyu Wang / Teng Chen / Zhonglin Jiang / Yong Chen / Luo Ji 原文: [英文] [中文] 备注: accepted by CMCL 摘要: 情感支持对话(ESC)旨在通过有效的对话缓解个体的情感困扰。尽管大型语言模型(LLMs)在ESC上取得了显著进展,但大多数研究可能没有从状态模型的角度定义图示,因此在长期满意度上提供了次优的解决方案。为了解决这个问题,我们在LLMs上利用有限状态机(FSM),并提出了一个名为FiSMiness的框架。我们的框架允许单个LLM在ESC期间启动规划,并在每次对话轮次中自我推理求助者的情感、支持策略和最终回应。在ESC数据集上的大量实验表明,FiSMiness优于许多基线方法,包括直接推理、自我优化、思维链、微调和外部辅助方法,甚至那些具有更多参数的方法。 |
[14] 寻找有缺陷的虚构作品:通过情节漏洞检测评估语言模型中的复杂推理 标题: Finding Flawed Fictions: Evaluating Complex Reasoning in Language Models via Plot Hole Detection 作者: Kabir Ahuja / Melanie Sclar / Yulia Tsvetkov 原文: [英文] [中文] 备注: Preprint 摘要: 故事是人类体验的基本方面。深入参与故事并发现情节漏洞——即故事情节中的不一致性,破坏故事世界的内部逻辑或规则——需要细致的推理技能,包括跟踪实体和事件及其相互作用、抽象思维、实用的叙事理解、常识和社会推理以及心理理论。随着大型语言模型(LLMs)越来越多地生成、解释和修改文本,严格评估它们的叙事一致性和更深层次的语言理解变得至关重要。然而,现有的基准主要关注表面层次的理解。在这项工作中,我们提出在故事中检测情节漏洞作为评估LLMs语言理解和推理的替代方法。我们引入了FlawedFictionsMaker,一种新颖的算法,可以在人工撰写的故事中可控且仔细地合成情节漏洞。使用该算法,我们构建了一个基准来评估LLMs在故事中检测情节漏洞的能力——FlawedFictions——该基准对污染具有鲁棒性,并通过人工过滤确保高质量。我们发现,最先进的LLMs在准确解决FlawedFictions方面表现不佳,无论允许的推理努力如何,且随着故事长度的增加,性能显著下降。最后,我们展示了基于LLM的故事摘要和故事生成容易引入情节漏洞,与人工撰写的原始故事相比,情节漏洞检测率分别增加了超过50%和100%。 |
[15] 一种用于可扩展性性别中立翻译评估的LLM裁判方法 标题: An LLM-as-a-judge Approach for Scalable Gender-Neutral Translation Evaluation 作者: Andrea Piergentili / Beatrice Savoldi / Matteo Negri / Luisa Bentivogli 原文: [英文] [中文] 备注: Accepted at GITT 2025 摘要: 性别中立翻译(GNT)旨在避免在源文本缺乏明确性别线索时表达人物的性别。自动评估性别中立翻译尤其具有挑战性,目前的解决方案仅限于单语分类器。这些解决方案并不理想,因为它们没有考虑源句,并且需要专门的数据和微调才能扩展到新的语言。在这项工作中,我们通过研究使用大型语言模型(LLMs)作为性别中立翻译的评估者来解决这些限制。具体来说,我们探索了两种提示方法:一种是让LLMs仅生成句子级别的评估,另一种类似于思维链方法,先生成详细的短语级别注释,然后再进行句子级别判断。通过对多种语言进行广泛实验,使用五种模型(包括开放和专有模型),我们证明了LLMs可以作为性别中立翻译的评估者。此外,我们发现,在进行句子级别评估之前提示短语级别注释能够一致地提高所有模型的准确性,为当前解决方案提供了更好且更具可扩展性的替代方案。 |
[16] 鲁棒且细粒度的AI生成文本检测 标题: Robust and Fine-Grained Detection of AI Generated Texts 作者: Ram Mohan Rao Kadiyala / Siddartha Pullakhandam / Kanwal Mehreen / Drishti Sharma / Siddhant Gupta / Jebish Purbey / Ashay Srivastava / Subhasya TippaReddy / Arvind Reddy Bobbili / Suraj Telugara Chandrashekhar / Modabbir Adeeb / Srinadh Vura / Hamza Farooq 原文: [英文] [中文] 备注: ACL 2025 Feb ARR Submission 摘要: 理想的机器生成内容检测系统应该能够在任何生成器上良好运行,因为每天都有更多先进的LLM出现。现有系统通常难以准确识别较短文本中的AI生成内容。此外,并非所有文本都是完全由人类或LLM创作的,因此我们更关注部分情况,即人类-LLM共同创作的文本。我们的论文介绍了一组用于标记分类任务的模型,这些模型经过大量人机共同创作文本的训练,在未见过的领域、未见过的生成器、非母语者的文本以及具有对抗性输入的文本上表现良好。我们还引入了一个新的数据集,其中包含超过240万篇这样的文本,主要由几个流行的专有LLM在23种语言中共同创作。我们还展示了我们模型在每个领域和生成器的文本上的表现结果。其他发现包括与每种对抗方法、输入文本长度以及生成文本与原始人类创作文本特征的比较。 |
[17] LLM 作为裁判:重新评估 LLM 在抽取式问答中的表现 标题: LLM-as-a-Judge: Reassessing the Performance of LLMs in Extractive QA 作者: Xanh Ho / Jiahao Huang / Florian Boudin / Akiko Aizawa 原文: [英文] [中文] 备注: 17 pages; code and data are available at this https URL 摘要: 抽取式阅读理解问答(QA)数据集通常使用精确匹配(EM)和F1分数进行评估,但这些指标往往无法充分反映模型性能。随着大型语言模型(LLMs)的成功,它们已被应用于各种任务,包括作为评判者(LLM-as-a-judge)。在本文中,我们通过LLM-as-a-judge重新评估QA模型在四个阅读理解QA数据集上的表现。我们研究了不同系列的LLMs和各种答案类型,以评估LLM-as-a-judge在这些任务中的有效性。我们的结果表明,LLM-as-a-judge与人类判断高度相关,可以替代传统的EM/F1指标。通过使用LLM-as-a-judge,与人类判断的相关性显著提高,从0.17(EM)和0.36(F1分数)提高到0.85。这些发现证实了EM和F1指标低估了QA模型的真实性能。虽然LLM-as-a-judge在处理更困难的答案类型(例如,工作)时并不完美,但它仍然优于EM/F1,并且我们没有观察到偏见问题,例如在同一模型用于QA和判断任务时的自我偏好。 |
[18] SemEval-2025 任务3:Mu-SHROOM,多语言幻觉及相关可观察过度生成错误的共享任务 标题: SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes 作者: Raúl Vázquez / Timothee Mickus / Elaine Zosa / Teemu Vahtola / Jörg Tiedemann / Aman Sinha / Vincent Segonne / Fernando Sánchez-Vega / Alessandro Raganato / Jindřich Libovický / Jussi Karlgren / Shaoxiong Ji / Jindřich Helcl / Liane Guillou / Ona de Gibert / Jaione Bengoetxea / Joseph Attieh / Marianna Apidianaki 原文: [英文] [中文] 备注: Mu-SHROOM is part of SemEval-2025 (Task 3). TBP: Proceedings of the 19th International Workshop on Semantic Evaluation (SemEval-2025) 摘要: 我们介绍了Mu-SHROOM共享任务,该任务专注于检测指令调优的大型语言模型(LLMs)输出中的幻觉和其他过度生成错误。Mu-SHROOM针对14种语言的通用LLMs,将幻觉检测问题框定为一个跨度标注任务。我们收到了来自43个参与团队的2,618份提交,这些团队采用了多种方法。大量的提交突显了社区对幻觉检测的兴趣。我们展示了参与系统的结果,并进行实证分析以识别在此任务中表现强劲的关键因素。我们还强调了当前相关挑战,特别是不同语言中幻觉程度的差异以及在标注幻觉跨度时标注者之间的高度分歧。 |
[19] 语言模型如准晶体思维:生成系统中的结构、约束与涌现 标题: Language Models as Quasi-Crystalline Thought: Structure, Constraint, and Emergence in Generative Systems 作者: Jose Manuel Guevara-Vela 原文: [英文] 备注: None 摘要: 本文提出了一种将大型语言模型(LLMs)与准晶体类比的观点:这两者都是通过局部约束生成的系统,表现出整体的连贯性而没有周期性的重复。尽管LLMs通常以预测准确性、事实性或一致性来评估,这种结构视角表明,它们最具特征的行为是产生内部共振的语言模式。正如准晶体迫使人们重新定义物理系统中的秩序一样,将LLMs视为准结构语言的生成器为评估和设计开辟了新途径:优先考虑约束的传播而非单个词语的准确性,优先考虑形式的连贯性而非固定的意义。LLM的输出不仅应被解读为它们所表达的内容,还应解读为组织它们的约束和连贯性模式。这一转变将生成语言重新框定为一种新兴模式的空间:LLMs既不是完全随机的,也不是严格基于规则的,而是由约束、共振和结构深度的逻辑所定义。 |
[20] 贝叶斯动态借用:考虑FAERS中结果之间语义相似性的比例失调分析 标题: Bayesian dynamic borrowing considering semantic similarity between outcomes for disproportionality analysis in FAERS 作者: François Haguinet / Jeffery L Painter / Gregory E Powell / Andrea Callegaro / Andrew Bate 原文: [英文] [中文] 备注: 30 pages, 7 figures, 5 supplementary figures 摘要: 我们提出了一种贝叶斯动态借用(BDB)方法,以增强自发报告系统(SRS)中不良事件(AE)的定量识别。该方法在贝叶斯层次模型中嵌入了稳健的元分析预测(MAP)先验,并结合语义相似性度量(SSM),以实现来自与目标术语临床相似的MedDRA首选术语(PT)的加权信息共享。这种基于连续相似性的借用解决了当前比例失调分析(DPA)中僵化层次分组的局限性。 我们使用2015年至2019年间FDA不良事件报告系统(FAERS)的数据评估这种方法——称为IC SSM——与标准信息组件(IC)分析以及在MedDRA高层组术语(HLGT)级别的借用进行比较。一个新颖的参考集(PVLens),源自FDA产品标签更新,使得在官方标签之前对方法性能进行前瞻性评估成为可能。 IC SSM方法显示出比传统IC和基于HLGT借用更高的敏感性,尽管在F1分数和Youden指数上有轻微的权衡。IC SSM一致识别出更多的真实阳性,并比传统IC提前5个月检测到信号。尽管整体Youden指数略低,IC SSM在早期上市后期间表现出更高的性能,提供比基于HLGT借用和传统IC更稳定和相关的估计。 这些发现支持使用SSM信息的贝叶斯借用作为传统DPA方法的可扩展和上下文感知的增强。未来的研究应验证这种方法在其他数据集上的有效性,并探索使用案例级数据的其他相似性度量和贝叶斯推理策略。 |
[21] 选择性示例检索以改进隐性仇恨言论检测 标题: Selective Demonstration Retrieval for Improved Implicit Hate Speech Detection 作者: Yumin Kim / Hwanhee Lee 原文: [英文] [中文] 备注: None 摘要: 仇恨言论检测是自然语言处理研究中的一个关键领域,对于确保在线社区安全至关重要。然而,检测隐性仇恨言论——即通过微妙或间接方式传达有害意图的言论——仍然是一个重大挑战。与显性仇恨言论不同,隐性表达通常依赖于上下文、文化细微差别和隐藏偏见,使得一致识别更加困难。此外,这类言论的解释受到外部知识和人口偏见的影响,导致不同语言模型之间的检测结果差异。此外,大型语言模型通常对有毒语言和涉及弱势群体的引用表现出高度敏感性,这可能导致误判。这种过度敏感性会导致误报(错误地将无害言论识别为仇恨言论)和漏报(未能检测到真正有害内容)。解决这些问题需要不仅提高检测精度,还要减少模型偏见并增强鲁棒性的方法。为应对这些挑战,我们提出了一种新方法,该方法利用上下文学习而无需模型微调。通过自适应地检索专注于相似群体或具有最高相似度评分的示例,我们的方法增强了上下文理解。实验结果表明,我们的方法优于当前最先进的技术。实施细节和代码将在TBD提供。 |
[22] 评估大型语言模型中的过度精确性:一项实证研究 标题: Gauging Overprecision in LLMs: An Empirical Study 作者: Adil Bahaj / Hamed Rahimi / Mohamed Chetouani / Mounir Ghogho 原文: [英文] [中文] 备注: 16 pages 摘要: 最近,大型语言模型(LLMs)的过度自信引起了广泛关注,因为它在量化LLM生成的可信度方面具有根本重要性。然而,现有的方法是促使\textit{黑箱LLMs}产生其自信度(\textit{口头表达的自信度}),这可能受到许多偏见和幻觉的影响。受到认知科学中一个不同方面的过度自信,即\textit{过度精确}的启发,我们设计了一个用于研究黑箱LLMs的框架。该框架包含三个主要阶段:1)生成,2)优化和3)评估。在生成阶段,我们提示LLM以一定的自信水平生成数值问题的答案,答案以区间形式呈现。这个自信水平是在提示中强加的,而不是像以前的方法那样要求LLM生成。我们使用各种提示技术,并多次使用相同的提示来衡量生成过程中的随机性影响。在优化阶段,来自前一阶段的答案被优化以生成更好的答案。在评估阶段,LLM的答案被评估和研究,以理解其内部工作原理。这项研究使我们获得了关于LLM过度精确的各种见解:1)LLMs在数值任务中高度未校准 2){\color{blue}区间长度与强加的自信水平之间没有相关性,这可能表明a)缺乏对自信概念的理解或b)无法通过遵循指令来调整自信},{\color{blue}3)}LLM的数值精度因任务、答案规模和提示技术而异 {\color{blue}4)答案的优化在大多数情况下并不能提高精度}。我们相信这项研究为LLM的过度自信提供了新的视角,并为LLM的过度精确性提供了一个强有力的基准。 |
[23] 基于熵引导的大型语言模型水印:一种用于稳健且可追踪文本生成的测试时框架 标题: Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation 作者: Shizhan Cai / Liang Ding / Dacheng Tao 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的快速发展加剧了对内容可追溯性和潜在滥用的担忧。现有的文本水印方案在保持文本质量和确保对各种攻击的稳健检测之间往往面临权衡。为了解决这些问题,我们提出了一种新颖的水印方案,通过引入累积水印熵阈值来提高可检测性和文本质量。我们的方法与现有的采样函数兼容并进行推广,从而增强了适应性。多种LLM的实验结果表明,我们的方案显著优于现有方法,在广泛使用的数据集(如MATH和GSM8K)上实现了超过80%的改进,同时保持了高检测准确性。 |
[24] 大语言模型的多语言情境化用于文档级机器翻译 标题: Multilingual Contextualization of Large Language Models for Document-Level Machine Translation 作者: Miguel Moura Ramos / Patrick Fernandes / Sweta Agrawal / André F. T. Martins 原文: [英文] [中文] 备注: 9 pages, work-in-progress 摘要: 大型语言模型(LLMs)在句子级别的机器翻译中表现出色,但扩展到文档级别的翻译仍然具有挑战性,特别是在跨句子和段落建模长距离依赖和话语现象方面。在这项工作中,我们提出了一种方法,通过在高质量的文档级数据上进行有针对性的微调来改进基于LLM的长文档翻译,我们将这些数据整理并引入为DocBlocks。我们的方法支持多种翻译范式,包括直接的文档到文档翻译和块级翻译,通过整合有无上下文的指令。这使得模型能够更好地捕捉跨句子的依赖关系,同时保持强大的句子级翻译性能。实验结果表明,与提示和基于代理的方法相比,结合多种翻译范式提高了文档级翻译质量和推理速度。 |
[25] 吟诵阿拉伯诗歌的诗歌格律分类:将高资源系统整合用于低资源任务 标题: Poem Meter Classification of Recited Arabic Poetry: Integrating High-Resource Systems for a Low-Resource Task 作者: Maged S. Al-Shaibani / Zaid Alyafeai / Irfan Ahmad 原文: [英文] [中文] 备注: None 摘要: 阿拉伯诗歌是阿拉伯语言和文化中一个重要且不可或缺的部分。阿拉伯人用它来聚焦他们的重大事件,比如描绘残酷的战斗和冲突。他们也像许多其他语言一样,用诗歌来表达各种目的,如浪漫、自豪、哀悼等。几十年来,阿拉伯诗歌受到了语言学界的高度关注。阿拉伯诗歌的一个主要特征是其特殊的节奏结构,与散文不同。这种结构被称为韵律。韵律以及其他诗歌特征在一个名为“\textit{Aroud}”的阿拉伯语言学领域中被深入研究。识别诗句的韵律是一个漫长而复杂的过程,也需要\textit{Aroud}的专业知识。对于朗诵的诗歌,这又增加了一个处理层。开发用于自动识别朗诵诗歌韵律的系统需要大量标注数据。在这项研究中,我们提出了一个最先进的框架来识别朗诵阿拉伯诗歌的韵律,我们整合了两个独立的高资源系统来执行这一低资源任务。为了确保我们提出的架构的普适性,我们为这一任务发布了一个基准,以供未来研究使用。 |
[26] 使用人工智能绘制争议图谱:对YouTube上哈马斯-以色列冲突的分析 标题: Mapping Controversies Using Artificial Intelligence: An Analysis of the Hamas-Israel Conflict on YouTube 作者: Victor Manuel Hernandez Lopez / Jaime E. Cuellar 原文: [英文] 备注: in Spanish language 摘要: 本文通过分析2023年10月至2024年1月间发布的253,925条西班牙语YouTube评论,研究了哈马斯与以色列之间的争议。这些评论是在2023年10月7日冲突升级后的背景下发布的。研究采用跨学科的方法,将科学技术研究(STS)中的争议分析与先进的计算方法相结合,特别是使用BERT(双向编码器表示与转换器)模型的自然语言处理(NLP)。通过这种方法,评论被自动分类为七个类别,反映了亲巴勒斯坦、亲以色列、反巴勒斯坦、反以色列等立场。结果显示,亲巴勒斯坦的评论占主导地位,尽管亲以色列和反巴勒斯坦的评论获得了更多的“点赞”。本研究还应用议程设置理论,展示了媒体报道如何显著影响公众认知,观察到公众意见从亲巴勒斯坦立场向对以色列更为批判的立场的显著转变。此项工作强调了在争议分析中结合社会科学视角与技术工具的重要性,通过将计算分析与批判性社会理论相结合,提出了一种方法论创新,以应对复杂的公众意见现象和媒体叙事。 |
[27] 信任CHATGPT:提示的微小调整如何导致情感分类的重大差异 标题: Trusting CHATGPT: how minor tweaks in the prompts lead to major differences in sentiment classification 作者: Jaime E. Cuellar / Oscar Moreno-Martinez / Paula Sofia Torres-Rodriguez / Jaime Andres Pavlich-Mariscal / Andres Felipe Mican-Castiblanco / Juan Guillermo Torres-Hurtado 原文: [英文] 备注: in Spanish language 摘要: 当今社会科学的一个基本问题是:我们能在多大程度上信任像ChatGPT这样高度复杂的预测模型?本研究检验了一个假设,即提示结构的细微变化不会对大型语言模型GPT-4o mini生成的情感极性分析的分类结果产生显著影响。研究使用了一个包含10万条关于四位拉丁美洲总统的西班牙语评论的数据集,模型在10次分类中将评论分为正面、负面或中性,每次稍微改变提示。实验方法包括探索性和验证性分析,以识别分类之间的显著差异。 结果显示,即使是提示的微小修改,如词汇、句法或语气的变化,甚至缺乏结构,都会影响分类。在某些情况下,模型产生了不一致的响应,如混合类别、提供未经请求的解释或使用非西班牙语。使用卡方检验的统计分析证实了大多数提示之间的比较存在显著差异,除了一种情况下语言结构非常相似。 这些发现挑战了大型语言模型在分类任务中的稳健性和可信度,突显了其对指令变化的脆弱性。此外,显而易见的是,提示中缺乏结构化语法会增加幻觉的频率。讨论强调,对大型语言模型的信任不仅基于技术性能,还基于支撑其使用的社会和制度关系。 |
[28] SALAD: 通过结构感知和大型语言模型驱动的增强数据对比学习来提高鲁棒性和泛化能力 标题: SALAD: Improving Robustness and Generalization through Contrastive Learning with Structure-Aware and LLM-Driven Augmented Data 作者: Suyoung Bae / Hyojun Kim / YunSeok Choi / Jee-Hyong Lee 原文: [英文] [中文] 备注: Accepted to NAACL 2025 main. 15 pages, 4 figures 摘要: 在各种自然语言处理(NLP)任务中,微调预训练语言模型(PLMs)常常导致虚假相关性问题,这对性能产生负面影响,尤其是在处理分布外数据时。为了解决这个问题,我们提出了SALAD(结构感知和LLM驱动的增强数据),这是一种通过生成结构感知和反事实增强数据进行对比学习的新方法,旨在提高模型的鲁棒性和泛化能力。我们的方法利用基于标记的方法生成结构感知的正样本,并利用大型语言模型(LLMs)生成具有多样化句子模式的反事实负样本。通过应用对比学习,SALAD使模型能够专注于学习关键句子成分之间的结构关系,同时减少对虚假相关性的依赖。我们通过在三个任务上的实验验证了我们的方法:情感分类、性别歧视检测和自然语言推理。结果表明,SALAD不仅提高了模型在不同环境中的鲁棒性和性能,还增强了对分布外数据集和跨领域场景的泛化能力。 |
[29] 大型语言模型知道什么?隐性知识作为潜在的因果解释结构 标题: What Do Large Language Models Know? Tacit Knowledge as a Potential Causal-Explanatory Structure 作者: Céline Budding 原文: [英文] 备注: Accepted for publication in Philosophy of Science 摘要: 有时人们认为大型语言模型(LLMs)具备语言知识,或者例如它们知道巴黎是法国的首都。但LLMs实际上知道什么——如果它们知道的话?在本文中,我主张LLMs可以获得由Martin Davies(1990)定义的隐性知识。尽管Davies本人否认神经网络可以获得隐性知识,我展示了LLMs的某些架构特征满足语义描述、句法结构和因果系统性的约束。因此,隐性知识可以作为一个概念框架,用于描述、解释和干预LLMs及其行为。 |
[30] 通过强化学习扩展扩散大型语言模型中的推理能力 标题: d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning 作者: Siyan Zhao / Devaansh Gupta / Qinqing Zheng / Aditya Grover 原文: [英文] [中文] 备注: 25 pages, project page at this https URL 摘要: 最近的大型语言模型(LLMs)展示了强大的推理能力,这得益于在线强化学习(RL)。这些能力主要在从左到右的自回归(AR)生成范式中得到了展示。相比之下,基于扩散的非自回归范式以粗到细的方式生成文本。尽管最近基于扩散的大型语言模型(dLLMs)在语言建模性能上与其AR对手相比取得了竞争力,但尚不清楚dLLMs是否也能利用LLM推理的最新进展。为此,我们提出了d1,一个通过监督微调(SFT)和RL组合将预训练的掩码dLLMs适应为推理模型的框架。具体来说,我们开发并扩展了技术以改善预训练dLLMs的推理:(a)我们利用掩码SFT技术直接从现有数据集中提炼知识并灌输自我改进行为,以及(b)我们引入了一种新颖的无评论员、基于策略梯度的RL算法,称为diffu-GRPO。通过实证研究,我们调查了不同后训练方案在多个数学和逻辑推理基准上的表现。我们发现d1产生了最佳表现,并显著提高了一个最先进的dLLM的性能。 |
[31] BitNet b1.58 2B4T 技术报告 标题: BitNet b1.58 2B4T Technical Report 作者: Shuming Ma / Hongyu Wang / Shaohan Huang / Xingxing Zhang / Ying Hu / Ting Song / Yan Xia / Furu Wei 原文: [英文] [中文] 备注: Work in progress 摘要: 我们介绍了 BitNet b1.58 2B4T,这是第一个开源的、原生的 1-bit 大型语言模型(LLM),其参数规模达到 20 亿。该模型在一个包含 4 万亿标记的语料库上进行了训练,并在涵盖语言理解、数学推理、编码能力和对话能力的基准测试中进行了严格评估。我们的结果表明,BitNet b1.58 2B4T 的性能与同等规模的领先开源全精度 LLM 相当,同时在计算效率方面具有显著优势,包括大幅减少的内存占用、能耗和解码延迟。为了促进进一步的研究和应用,模型权重通过 Hugging Face 发布,并提供了适用于 GPU 和 CPU 架构的开源推理实现。 |