![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年6月10日更新论文133篇
|
[1] 实际性能提升有多显著?GraphRAG的无偏评估框架 标题: How Significant Are the Real Performance Gains? An Unbiased Evaluation Framework for GraphRAG 作者: Qiming Zeng / Xiao Yan / Hao Luo / Yuhao Lin / Yuxiang Wang / Fangcheng Fu / Bo Du / Quanqing Xu / Jiawei Jiang 原文: [英文] 备注: None 摘要: 通过从知识图谱中检索上下文,基于图的检索增强生成(GraphRAG)方法提升了大型语言模型(LLMs)为用户问题生成高质量答案的能力。许多GraphRAG方法已经被提出,并在答案质量上报告了令人鼓舞的表现。然而,我们观察到当前用于GraphRAG的答案评估框架存在两个关键缺陷,即不相关的问题和评估偏差,这可能导致对性能的偏见甚至错误的结论。为了解决这两个缺陷,我们提出了一个无偏评估框架,该框架使用基于图-文本的问句生成来产生与基础数据集更相关的问题,并采用无偏评估程序来消除基于LLM的答案评估中的偏差。我们将我们的无偏框架应用于评估3种具有代表性的GraphRAG方法,发现它们的性能提升比之前报告的要温和得多。尽管我们的评估框架可能仍有缺陷,但它呼吁进行科学评估,以为GraphRAG研究奠定坚实的基础。 |
[2] TESU-LLM:通过统一编码器对齐在没有语音的情况下训练语音-大型语言模型 标题: TESU-LLM: Training Speech-LLMs Without Speech via Unified Encoder Alignment 作者: Taesoo Kim / Jong Hwan Ko 原文: [英文] [中文] 备注: None 摘要: 最近在语音驱动的语言模型方面的进展显示了在构建智能语音助手方面的良好前景。然而,大多数现有方法依赖于大规模的语音-文本配对数据和大量的计算资源,这在可扩展性和可访问性方面带来了挑战。在本文中,我们提出了一种新颖的框架,称为TESU-LLM,该框架仅使用文本数据来训练具备语音能力的语言模型。我们的关键见解是利用一个统一的编码器,将语义等价的文本和语音输入映射到一个共享的潜在空间。通过通过一个轻量级的投影网络将编码器输出与LLM的嵌入空间对齐,我们使模型能够从仅有的文本监督推广到基于语音的推理。尽管仅在文本上进行训练,TESU-LLM在各种语音相关基准测试中表现出色,与使用大规模多模态数据集和大量计算资源训练的基线方法相当。这些结果突显了我们方法的有效性和效率,为在没有语音数据的情况下构建语音语言模型提供了一条可扩展的路径。 |
[3] 统一的游戏管理:通过软提示和大型语言模型辅助的标签转移实现资源高效的毒性检测 标题: Unified Game Moderation: Soft-Prompting and LLM-Assisted Label Transfer for Resource-Efficient Toxicity Detection 作者: Zachary Yang / Domenico Tullo / Reihaneh Rabbany 原文: [英文] [中文] 备注: 11 pages, 1 figure, 9 Tables, KDD 2025 ADS Track 摘要: 在游戏社区中进行有害内容检测时,尤其是在跨多个游戏和语言的实时环境中,面临着显著的扩展挑战,其中计算效率至关重要。我们在之前关于ToxBuster的工作基础上提出了两个关键发现,以应对这些挑战。ToxBuster是一个基于BERT的实时有害内容检测系统。首先,我们引入了一种软提示方法,通过结合游戏上下文标记,使单一模型能够有效处理多个游戏,其性能与更复杂的方法(如课程学习)相当,同时提供了更优越的可扩展性。其次,我们开发了一个使用GPT-4o-mini的LLM辅助标签转移框架,以扩展对另外七种语言的支持。在法语、德语、葡萄牙语和俄语的真实游戏聊天数据上的评估中,宏观F1分数范围为32.96%到58.88%,其中德语表现尤为出色,超过了45.39%的英语基准。在实际应用中,与为每个游戏和语言组合维护单独的模型相比,这种统一的方法显著减少了计算资源和维护开销。在育碧,这个模型成功地每天平均识别出每个游戏中50名从事可制裁行为的玩家。 |
[4] 使用统计分析和大型语言模型在表格数据上进行关系检测 标题: Relationship Detection on Tabular Data Using Statistical Analysis and Large Language Models 作者: Panagiotis Koletsis / Christos Panagiotopoulos / Georgios Th. Papadopoulos / Vasilis Efthymiou 原文: [英文] [中文] 备注: None 摘要: 在过去的几年里,由于表格解释任务的重要性以及该领域新技术和基准的引入,这些任务取得了显著进展。本文尝试了一种混合方法来检测未标记表格数据列之间的关系,使用知识图谱(KG)作为参考点,这项任务被称为CPA。该方法利用大型语言模型(LLMs),同时采用统计分析来减少潜在KG关系的搜索空间。减少搜索空间的主要模块是领域和范围约束检测以及关系共现分析。在SemTab挑战提供的两个基准数据集上的实验评估了每个模块的影响以及不同量化水平下各种最先进LLMs的有效性。实验是在不同的提示技术下进行的。所提出的方法在github上公开可用,证明在这些数据集上与最先进的方法具有竞争力。 |
[5] 通过演员-评论家方法增强大型语言模型的决策能力 标题: Enhancing Decision-Making of Large Language Models via Actor-Critic 作者: Heng Dong / Kefei Duan / Chongjie Zhang 原文: [英文] [中文] 备注: Forty-second International Conference on Machine Learning (ICML 2025) 摘要: 大型语言模型(LLMs)在自然语言处理任务中取得了显著进展,但在需要长期推理和与高层目标对齐的复杂决策场景中仍面临挑战。现有方法要么依赖于短期自回归动作生成,要么在准确模拟展开和评估结果方面存在局限性,导致次优决策。本文介绍了一种新颖的基于LLM的Actor-Critic框架,称为LAC,该框架能够以原则性和可扩展的方式有效改善LLM策略的长期动作评估。我们的方法解决了两个关键挑战:(1)通过计算与正/负结果相关的token logits的Q值,结合未来轨迹展开和推理,提取稳健的动作评估;(2)通过无梯度机制实现高效的策略改进。在包括高层决策(ALFWorld)、低层动作空间(BabyAI-Text)和大动作空间(WebShop)等多种环境中的实验表明,该框架的通用性和优越性超过了最先进的方法。值得注意的是,我们的方法在使用7B/8B参数的LLMs时取得了竞争性表现,甚至在复杂任务中超越了使用GPT-4的基线方法。这些结果强调了将结构化策略优化与LLMs的内在知识相结合以提升多步环境中的决策能力的潜力。 |
[6] 通过整合预训练模型和启发式特征工程的提示注入检测方法 标题: Detection Method for Prompt Injection by Integrating Pre-trained Model and Heuristic Feature Engineering 作者: Yi Ji / Runzhi Li / Baolei Mao 原文: [英文] [中文] 备注: Accepted by KSEM2025 AI & Sec Workshop 摘要: 随着大型语言模型(LLMs)的广泛应用,提示注入攻击已成为一个重要的安全威胁。现有的防御机制通常在有效性和普适性之间面临关键的权衡。这突显了迫切需要高效的提示注入检测方法,这些方法可以适用于各种LLMs。为了解决这一挑战,我们提出了DMPI-PMHFE,一个双通道特征融合检测框架。该框架将预训练语言模型与启发式特征工程相结合,以检测提示注入攻击。具体而言,该框架采用DeBERTa-v3-base作为特征提取器,将输入文本转化为富含上下文信息的语义向量。同时,我们基于已知的攻击模式设计了启发式规则,以提取攻击中常见的显式结构特征。来自两个通道的特征随后被融合,并通过一个全连接神经网络生成最终预测。该双通道方法缓解了仅依赖DeBERTa提取特征的局限性。在多样化的基准数据集上的实验结果表明,DMPI-PMHFE在准确性、召回率和F1分数方面优于现有方法。此外,在实际部署时,它显著降低了主流LLMs(包括GLM-4、LLaMA 3、Qwen 2.5和GPT-4o)的攻击成功率。 |
[7] 信心即一切:语言模型的少样本强化学习微调 标题: Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models 作者: Pengyi Li / Matvey Skripkin / Alexander Zubrey / Andrey Kuznetsov / Ivan Oseledets 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在推理方面表现出色,但训练后的调整对于使其行为与任务目标一致仍然至关重要。现有的强化学习(RL)方法通常依赖于昂贵的人类标注或外部奖励模型。我们提出了一种通过自信度进行强化学习的方法(RLSC),该方法使用模型自身的信心作为奖励信号,从而无需标签、偏好模型或奖励工程。应用于Qwen2.5-Math-7B模型时,每个问题仅需8个样本和4个训练周期,RLSC在AIME2024上将准确率提高了20.10%,在MATH500上提高了49.40%,在AMC23上提高了52.50%。RLSC为推理模型提供了一种简单、可扩展的训练后方法,且几乎不需要监督。 |
[8] 在战场物联网中与边缘设备上的数据库进行自然语言交互 标题: Natural Language Interaction with Databases on Edge Devices in the Internet of Battlefield Things 作者: Christopher D. Molek / Roberto Fronteddu / K. Brent Venable / Niranjan Suri 原文: [英文] [中文] 备注: None 摘要: 物联网(IoT)在战场上的扩展,即战场物联网(IoBT),为增强态势感知带来了新的机遇。为了提高IoBT在关键决策中对态势感知的潜力,这些设备的数据必须被处理成消费者可用的信息对象,并按需提供给消费者。为了解决这一挑战,我们提出了一种工作流程,该流程利用自然语言处理(NLP)来查询数据库技术,并以自然语言返回响应。我们的解决方案利用适合边缘设备的大型语言模型(LLMs)来执行NLP,以及适合动态连接网络的图形数据库,这些网络在IoBT中无处不在。我们的架构使用LLMs将自然语言中的问题映射到Cypher数据库查询,并将数据库输出总结为自然语言返回给用户。我们在代表美国陆军在新墨西哥州拉斯克鲁塞斯的Jornada Range的多用途传感区域(MSA)公开数据的数据库上评估了几种中型LLMs在这两项任务中的表现。我们观察到Llama 3.1(80亿参数)在所有考虑的指标上都优于其他模型。最重要的是,我们注意到,与当前方法不同,我们的两步方法允许放宽生成的Cypher查询与真实代码的精确匹配(EM)要求,从而实现了19.4%的准确性提升。我们的工作流程为在边缘设备上部署LLMs奠定了基础,以实现与包含关键信息对象的数据库的自然语言交互。 |
[9] 直接行为优化:释放轻量级大语言模型的潜力 标题: Direct Behavior Optimization: Unlocking the Potential of Lightweight LLMs 作者: Hongming Yang / Shi Lin / Jun Shao / Changting Lin / Donghai Zhu / Meng Han / Qinglei Kong 原文: [英文] [中文] 备注: This work is accepted at ACL 2025 摘要: 轻量级大型语言模型(LwLLMs)是经过参数缩减和优化的模型,旨在能够在消费级硬件上高效运行,提供显著的资源效率、成本效益和数据隐私优势。然而,这些模型通常在推理和推断能力上存在局限性,这限制了它们在复杂任务上的表现和实际应用。此外,现有的提示优化方法通常依赖于大量的人工努力或最先进的大型语言模型的元认知能力,这使得它们对LwLLMs的效果不佳。为了解决这些挑战,我们引入了DeBoP,一种新的直接行为优化范式,源自链式思维(CoT)提示技术。与CoT提示不同,DeBoP是一种自动优化方法,专注于直接优化LwLLMs的行为。特别是,DeBoP将复杂提示的优化转化为使用无梯度蒙特卡洛树搜索的离散、可量化执行序列的优化。我们在七个具有挑战性的任务上评估了DeBoP,这些任务是最先进的大型语言模型表现出色但LwLLMs通常表现不佳的领域。实验结果表明,DeBoP在大多数任务上显著优于最近的提示优化方法。特别是,经过DeBoP优化的LwLLMs在大多数任务上超越了GPT-3.5,同时与其他自动提示优化方法相比,计算时间减少了约60%。 |
[10] 价值对齐的大型语言模型的意外危害:心理学和实证见解 标题: Unintended Harms of Value-Aligned LLMs: Psychological and Empirical Insights 作者: Sooyung Choi / Jaehyeok Lee / Xiaoyuan Yi / Jing Yao / Xing Xie / JinYeong Bak 原文: [英文] [中文] 备注: Accepted to ACL 2025 摘要: 大型语言模型(LLMs)的应用范围不断扩大,导致人们对符合人类价值观的个性化LLMs的兴趣日益增加。然而,使这些模型与个人价值观对齐会引发重大的安全问题,因为某些价值观可能与有害信息相关联。在本文中,我们识别了与价值对齐的LLMs相关的特定安全风险,并研究了这些挑战背后的心理学原理。我们的研究揭示了两个关键见解。(1)与未经过微调的模型相比,价值对齐的LLMs更容易表现出有害行为,并且在传统安全评估中表现出比其他微调模型略高的风险。(2)这些安全问题的产生是因为价值对齐的LLMs确实根据对齐的价值生成文本,这可能会放大有害结果。通过使用具有详细安全类别的数据集,我们发现价值对齐与安全风险之间存在显著相关性,并得到心理学假设的支持。本研究提供了对价值对齐“黑箱”的见解,并提出了情境对齐方法以增强价值对齐LLMs的安全性。 |
[11] SMAR: 一种用于基于专家混合(MoE)多模态大型语言模型的软模态感知路由策略,以保留语言能力 标题: SMAR: Soft Modality-Aware Routing Strategy for MoE-based Multimodal Large Language Models Preserving Language Capabilities 作者: Guoyang Xia / Yifeng Ding / Fengfa Li / Lei Ren / Chen Wei / Fangxiang Feng / Xiaojie Wang 原文: [英文] 备注: None 摘要: 专家混合(MoE)架构已成为扩展大型语言模型的关键方法,并且在将其扩展到多模态任务方面引起了越来越多的兴趣。现有构建多模态MoE模型的方法要么导致高昂的训练成本,要么在调整预训练模型时导致语言能力下降。为了解决这个问题,我们提出了软模态感知路由(SMAR),这是一种新颖的正则化技术,使用Kullback Leibler散度来控制跨模态的路由概率分布,鼓励专家专门化,而无需修改模型架构或过度依赖文本数据。在视觉指令微调实验中,SMAR在仅使用2.5%纯文本的情况下保持了86.6%的语言能力保留率,优于基线,同时保持了强大的多模态性能。我们的方法为在多模态MoE模型中平衡模态区分和语言能力提供了一种实用且高效的解决方案。 |
[12] 规范自回归生成 标题: Canonical Autoregressive Generation 作者: Ivi Chatzi / Nina Corvelo Benz / Stratis Tsirtsis / Manuel Gomez-Rodriguez 原文: [英文] [中文] 备注: None 摘要: 当前最先进的大型语言模型是通过使用称为分词器的工具,从原始文本中提取的大量标记进行训练的。关键在于,分词器决定了模型在推理时将使用的(标记)词汇表,并且原则上也决定了(标记)语言。这是因为,虽然标记词汇表可能允许对字符串进行不同的分词,但分词器总是将字符串映射到这些分词中的一个——即规范分词。然而,多条实证证据表明,大型语言模型并不总是生成规范的标记序列,这会带来一些负面后果。在这项工作中,我们首先展示了,为了生成规范的标记序列,模型需要在其自回归生成过程的每一步生成(部分)规范的标记序列。基于这一理论结果,我们引入了规范采样,这是一种简单而高效的采样方法,可以防止给定模型生成非规范的标记序列。此外,我们还展示了,与标准采样相比,使用规范采样生成的标记序列的分布在理论上更接近于训练期间使用的标记序列的真实分布。 |
[13] 眼见难忘:知识冲突对大型语言模型的破坏性影响 标题: What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models 作者: Kaiser Sun / Fan Bai / Mark Dredze 原文: [英文] 备注: None 摘要: 大型语言模型在执行任务时经常依赖于上下文输入和参数化知识。然而,这些来源可能会发生冲突,尤其是在检索到的文档与模型的参数化知识相矛盾时。我们提出了一种诊断框架,以系统地评估在上下文-记忆冲突下的大型语言模型行为,其中上下文信息与其参数化信念不一致。我们构建了引发这些冲突的诊断数据,并分析了模型在多种任务类型中的表现。我们的研究结果表明:(1) 知识冲突对不需要知识利用的任务影响最小,(2) 当上下文和参数化知识一致时,模型表现始终更好,(3) 即使在被指示的情况下,模型也无法完全抑制其内部知识,(4) 提供解释冲突的理由会增加对上下文的依赖。这些见解引发了对基于模型的评估有效性的担忧,并强调在部署大型语言模型时需要考虑知识冲突。 |
[14] 使用RAFT提升大型语言模型驱动的EDA助手 标题: Improving LLM-Powered EDA Assistants with RAFT 作者: Luyao Shi / Michael Kazda / Charles Schmitter / Hemlata Gupta 原文: [英文] [中文] 备注: Accepted paper at IEEE International Conference on LLM-Aided Design, 2025 (LAD 2025) 摘要: 电子设计工程师在进行设计验证和技术开发等任务时,常常难以高效获取相关信息。虽然大型语言模型(LLMs)可以作为对话代理来提高生产力,但预训练的开源LLMs缺乏电子设计自动化(EDA)领域的特定知识。在检索增强生成(RAG)环境中,LLMs依赖外部上下文,但仍可能产生不准确的回答。检索增强微调(RAFT)可以提高LLM的性能,但在EDA中获取标注的问答(Q/A)数据很困难。为了解决这个问题,我们建议使用合成的Q/A数据集通过RAFT来增强LLMs。我们的结果表明,使用合成数据的RAFT显著提升了基于RAG的EDA任务的LLM性能。我们还研究了使用真实用户问题作为检索增强少样本(RAFS)示例来生成合成数据的影响。此外,我们实施了安全访问控制,以确保敏感信息仅对授权人员可访问。最后,我们评估了在使用合成数据进行微调时数据泄漏和非预期记忆的风险,并提供了实用的见解。 |
[15] 偏见在基于编码器的视觉-语言模型中传播:从内在测量到零样本检索结果的系统分析 标题: Biases Propagate in Encoder-based Vision-Language Models: A Systematic Analysis From Intrinsic Measures to Zero-shot Retrieval Outcomes 作者: Kshitish Ghate / Tessa Charlesworth / Mona Diab / Aylin Caliskan 原文: [英文] [中文] 备注: Accepted to ACL Findings 2025 摘要: 为了构建公平的人工智能系统,我们需要理解基础编码器视觉-语言模型(VLMs)中固有的社会群体偏见如何在下游任务中表现为偏见。在这项研究中,我们展示了VLM表示中的固有偏见如何系统性地“延续”或传播到零样本检索任务中,揭示了根深蒂固的偏见如何塑造模型的输出。我们引入了一个受控框架,通过将(a)表示空间中的固有偏见测量与(b)零样本文本到图像(TTI)和图像到文本(ITT)检索中的外在偏见测量相关联来衡量这种传播。结果显示,固有偏见和外在偏见之间存在显著相关性,平均相关系数为$\rho$ = 0.83 $\pm$ 0.10。这一模式在114次分析中是一致的,包括两个检索方向、六个社会群体和三个不同的VLMs。值得注意的是,我们发现更大/性能更好的模型表现出更大的偏见传播,这一发现引发了对日益复杂的AI模型趋势的担忧。我们的框架引入了基线评估任务来衡量群体和效价信号的传播。调查显示,代表性不足的群体经历了较不稳健的传播,进一步扭曲了与模型相关的结果。 |
[16] 后期修复:LLM后训练数据质量与模型性能的比较研究 标题: Fixing It in Post: A Comparative Study of LLM Post-Training Data Quality and Model Performance 作者: Aladin Djuhera / Swanand Ravindra Kadhe / Syed Zawad / Farhan Ahmed / Heiko Ludwig / Holger Boche 原文: [英文] [中文] 备注: None 摘要: 最近关于大型语言模型(LLMs)的研究越来越关注于后训练和与数据集的对齐,这些数据集经过精心策划以增强指令遵循、世界知识和专业技能。然而,大多数用于领先的开源和闭源LLMs的后训练数据集仍然对公众不可访问,其构建过程的信息也很有限。这种缺乏透明度的情况促使了最近开源后训练语料库的发展。虽然在这些开源替代品上进行训练可以获得与领先模型相当的性能,但由于在大规模上严格进行系统比较的计算成本很高,因此这些比较在很大程度上缺失。因此,在评估数据质量时,尚不清楚特定样本、任务类型或策划策略如何影响下游性能。在这项工作中,我们首次对两个突出的开放后训练数据集:Tulu-3-SFT-Mix和SmolTalk进行了全面的并排分析。使用Magpie框架,我们为每个样本注释了详细的质量指标,包括轮次结构(单轮次与多轮次)、任务类别、输入质量和响应质量,并得出统计数据,揭示了两个数据集之间的结构和质量上的相似性和差异性。基于这些见解,我们设计了一种原则性的策划方法,生成了一个新的数据混合体TuluTalk,其样本数量比任一源数据集减少了14%,但在关键基准上匹配或超过了它们的性能。我们的研究结果为构建更有效的后训练数据集提供了可操作的见解,以在实际资源限制内提高模型性能。为了支持未来的研究,我们公开发布了经过注释的源数据集和我们策划的TuluTalk混合体。 |
[17] 超越事实:评估大型语言模型中的意图幻觉 标题: Beyond Facts: Evaluating Intent Hallucination in Large Language Models 作者: Yijie Hao / Haofei Yu / Jiaxuan You 原文: [英文] [中文] 备注: Accepted to ACL 2025 main conference 摘要: 当面对包含多个条件的复杂查询时,当前的大型语言模型(LLMs)往往会产生仅部分满足查询的响应,而忽略某些条件。因此,我们引入了意图幻觉的概念。在这种现象中,LLMs 要么遗漏(忽略处理某些部分),要么误解(回应虚构的查询部分)给定查询的元素,导致意图幻觉生成。为了系统地评估意图幻觉,我们引入了 FAITHQA,这是一个用于意图幻觉的新基准,包含 20,068 个问题,涵盖仅查询和检索增强生成(RAG)设置,涉及不同主题和难度。FAITHQA 是第一个超越事实验证的幻觉基准,专门用于识别意图幻觉的根本原因。通过在 FAITHQA 上评估各种 LLMs,我们发现(1)即使是最先进的模型,意图幻觉也是一个常见问题,(2)这种现象源于 LLMs 的遗漏或误解。为了促进未来的研究,我们引入了一种自动 LLM 生成评估指标,CONSTRAINT SCORE,用于检测意图幻觉。人工评估结果表明,与基线相比,CONSTRAINT SCORE 更接近人类在意图幻觉方面的表现。 |
[18] LaMP-Cap:基于多模态图像特征的个性化图像标题生成 标题: LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles 作者: Ho Yin 'Sam' Ng / Ting-Yao Hsu / Aashish Anantha Ramakrishnan / Branislav Kveton / Nedim Lipka / Franck Dernoncourt / Dongwon Lee / Tong Yu / Sungchul Kim / Ryan A. Rossi / Ting-Hao 'Kenneth' Huang 原文: [英文] [中文] 备注: None 摘要: 图注对于帮助读者理解和记住图形的关键信息至关重要。许多模型已经被开发出来以生成这些图注,从而帮助作者更轻松地撰写质量更高的图注。然而,作者几乎总是需要修改通用的AI生成的图注,以匹配他们的写作风格和领域风格,这突显了个性化的需求。尽管语言模型的个性化(LaMP)取得了进展,这些技术通常专注于仅文本的设置,很少涉及输入和配置文件都是多模态的场景。本文介绍了LaMP-Cap,一个用于个性化图注生成的多模态图形配置文件数据集。对于每个目标图形,LaMP-Cap不仅提供所需的输入,例如图形图像,还提供来自同一文档的最多三个其他图形——每个图形都有其图像、图注和提及图形的段落——作为配置文件来表征上下文。对四个大型语言模型的实验表明,使用配置文件信息始终有助于生成更接近原作者撰写的图注。消融研究揭示了配置文件中的图像比提及图形的段落更有帮助,突显了使用多模态配置文件优于仅文本配置文件的优势。 |
[19] 长篇文本生成中的精确信息控制 标题: Precise Information Control in Long-Form Text Generation 作者: Jacqueline He / Howard Yen / Margaret Li / Shuyue Stella Li / Zhiyuan Zeng / Weijia Shi / Yulia Tsvetkov / Danqi Chen / Pang Wei Koh / Luke Zettlemoyer 原文: [英文] [中文] 备注: 56 pages, 8 figures. Code and models are publicly available at this https URL 摘要: 现代语言模型(LMs)面临的一个核心挑战是内在幻觉:生成相对于输入上下文看似合理但未经证实的信息。为研究这一问题,我们提出了精确信息控制(PIC),这是一种新的任务形式,要求模型在生成长篇输出时,必须基于一组提供的简短独立陈述(称为可验证的声明),且不能添加任何不支持的内容。为了全面性,PIC包括一个完整设置,测试模型是否能准确包含所有输入声明,以及一个部分设置,要求模型选择性地仅整合相关声明。我们推出了PIC-Bench,这是一个包含八个长篇生成任务(如摘要生成、传记生成)的基准,适应于PIC设置,其中语言模型被提供了格式良好、可验证的输入声明。我们对一系列开放和专有语言模型在PIC-Bench上的评估显示,令人惊讶的是,最先进的语言模型在超过70%的输出中仍然存在内在幻觉。为缓解这种不忠实性,我们引入了一个后训练框架,使用弱监督偏好数据构建方法,训练了一个具有更强PIC能力的8B PIC-LM——在完整PIC设置中F1得分从69.1%提高到91.0%。当集成到端到端的事实生成管道中时,PIC-LM在具有检索的模糊问答中将精确匹配召回率提高了17.1%,在出生地验证任务中将事实精度提高了30.5%,这突显了精确基础生成的潜力。 |
[20] MedCite:语言模型能否生成可验证的医学文本? 标题: MedCite: Can Language Models Generate Verifiable Text for Medicine? 作者: Xiao Wang / Mengjue Tan / Qiao Jin / Guangzhi Xiong / Yu Hu / Aidong Zhang / Zhiyong Lu / Minjia Zhang 原文: [英文] [中文] 备注: None 摘要: 现有的基于大型语言模型(LLM)的医学问答系统缺乏引文生成和评估能力,这引发了其在实际应用中的采用问题。在这项工作中,我们介绍了\name,这是第一个促进使用LLM进行医学任务引文生成设计和评估的端到端框架。同时,我们引入了一种新颖的多次检索-引文方法,以生成高质量的引文。我们的评估突出了医学任务引文生成的挑战和机遇,同时识别出对最终引文质量有显著影响的重要设计选择。与强大的基线方法相比,我们提出的方法在引文精确度和召回率方面实现了显著的改进,并且我们展示了评估结果与专业专家的注释结果具有良好的相关性。 |
[21] 无需训练的分词器移植通过正交匹配追踪 标题: Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit 作者: Charles Goddard / Fernando Fernandes Neto 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种无需训练的方法,通过正交匹配追踪(OMP)重构未见过的标记嵌入,将标记器移植到预训练的大型语言模型(LLMs)中。具体来说,我们将每个超出词汇表的标记近似为共享标记的稀疏线性组合,分为两个阶段:首先,使用一个小型共享锚标记字典计算每个新标记在捐赠者嵌入空间中的表示,然后将这些相同的稀疏系数转移回基础模型的嵌入空间。在两个具有挑战性的跨标记器任务中——Llama$\to$Mistral NeMo(12B)和Qwen$\to$Llama(1B)——我们展示了OMP在多个基准测试中实现了基础模型性能的最佳零样本保留,而其他零样本方法则显著下降。与基线(零初始化、均值初始化和现有方法如WECHSEL、FOCUS、ZETT)相比,OMP始终实现最佳的整体性能,有效弥合了大型标记器差异而无需梯度更新。我们的分析进一步指出,不匹配的数字标记化方案是保留数学推理能力的关键挑战。这项技术使得可以直接重用预训练模型权重与新标记器,促进跨标记器知识蒸馏、推测解码、集成、合并和特定领域词汇适应。我们将我们的方法集成到开源的mergekit-tokensurgeon工具中,用于事后词汇对齐。 |
[22] 通过模型拼接在语言模型之间转移特征 标题: Transferring Features Across Language Models With Model Stitching 作者: Alan Chen / Jack Merullo / Alessandro Stolfo / Ellie Pavlick 原文: [英文] [中文] 备注: None 摘要: 在这项工作中,我们展示了在语言模型的残差流之间进行仿射映射是一种有效且廉价的特征转移方法。我们应用这一技术,将稀疏自编码器(SAEs)的权重在不同规模的模型之间进行转移,以比较它们的表示。我们发现,小模型和大模型学习到的表示空间高度相似,这激励我们在较小模型上训练像SAEs这样昂贵的组件,然后在计算量上节省的情况下转移到较大模型。例如,使用从小模型转移到大模型的SAE作为初始化,可以在较大模型上训练SAEs时节省50%的训练成本。接下来,我们展示了转移的探针和引导向量可以有效地恢复真实性能。最后,我们深入研究了特征级别的可转移性,发现语义和结构特征的转移表现明显不同,而特定类别的功能特征则能够忠实地映射其角色。总体而言,我们的研究结果揭示了小模型和大模型的线性表示空间的相似性和差异性,并展示了一种提高SAEs训练效率的方法。 |
[23] 使用大型语言模型衍生的嵌入从社交媒体文本中进行可解释的抑郁症检测 标题: Interpretable Depression Detection from Social Media Text Using LLM-Derived Embeddings 作者: Samuel Kim / Oghenemaro Imieye / Yunting Yin 原文: [英文] [中文] 备注: Submitted to the IEEE EMBS BHI 2025 Conference 摘要: 在社交媒体中准确且可解释地检测抑郁语言对于心理健康状况的早期干预非常有用,并且对临床实践和更广泛的公共卫生工作具有重要意义。在本文中,我们研究了大型语言模型(LLMs)和传统机器学习分类器在涉及社交媒体数据的三种分类任务中的表现:二元抑郁分类、抑郁严重程度分类,以及抑郁、创伤后应激障碍(PTSD)和焦虑之间的鉴别诊断分类。我们的研究比较了零样本LLMs与在传统文本嵌入和LLM生成的摘要嵌入上训练的监督分类器。我们的实验表明,尽管零样本LLMs在二元分类中表现出强大的泛化能力,但在细粒度的序数分类中表现不佳。相比之下,基于LLM生成的摘要嵌入训练的分类器在分类任务中表现出竞争力,甚至在某些情况下优于使用传统文本嵌入的模型。我们的研究结果展示了LLMs在心理健康预测中的优势,并为更好地利用其零样本能力和上下文感知的总结技术指明了有前景的方向。 |
[24] BriefMe:用于协助法律摘要的法律自然语言处理基准 标题: BriefMe: A Legal NLP Benchmark for Assisting with Legal Briefs 作者: Jesse Woo / Fateme Hashemi Chaleshtori / Ana Marasović / Kenneth Marino 原文: [英文] [中文] 备注: ACL Findings 2025; 10 pages main, 5 pages references, 37 pages appendix 摘要: 法律工作中一个核心但尚未被充分探索的领域是法律简报的撰写和编辑。这不仅需要对某一司法辖区的法律有深入的理解,从判决到法规,还需要具备提出新论点以尝试在新方向上扩展法律的能力,以及能够提出对法官具有说服力的新颖和创造性论点。为了在语言模型中捕捉和评估这些法律技能,我们引入了BRIEFME,一个专注于法律简报的新数据集。它包含三个任务,旨在帮助法律专业人士撰写简报:论点总结、论点补全和案例检索。在这项工作中,我们描述了这些任务的创建过程,进行了分析,并展示了当前模型的表现。我们发现,现今的大型语言模型(LLMs)在总结和引导补全任务上已经表现得相当出色,甚至超过了人工生成的标题。然而,它们在我们的基准测试中的其他任务上表现不佳:现实论点补全和检索相关法律案例。我们希望这个数据集能够鼓励在法律自然语言处理领域的更多发展,以具体帮助人们进行法律工作。 |
[25] 心理咨询无法一蹴而就:通过多次会话实现自动化心理咨询 标题: Psychological Counseling Cannot Be Achieved Overnight: Automated Psychological Counseling Through Multi-Session Conversations 作者: Junzhe Wang / Bichen Wang / Xing Fu / Yixin Sun / Yanyan Zhao / Bing Qin 原文: [英文] [中文] 备注: 15 pages, 19 figures 摘要: 近年来,大型语言模型(LLMs)在自动化心理咨询方面取得了显著进展。然而,目前的研究主要集中在单次会话的咨询上,这并不代表真实世界的情境。在实际中,心理咨询是一个过程,而不是一次性事件,需要持续的、多次会话的参与,以逐步解决客户的问题。为了解决这一限制,我们引入了一个多次会话心理咨询对话数据集(MusPsy-Dataset)。我们的MusPsy-Dataset是使用公开可用的心理案例报告中的真实客户档案构建的。它捕捉了咨询的动态过程,涵盖了同一客户在不同会话中的多次渐进式咨询对话。利用我们的数据集,我们还开发了MusPsy-Model,旨在跟踪客户的进展并随着时间的推移调整其咨询方向。实验表明,我们的模型在多次会话中表现优于基线模型。 |
[26] SafeLawBench:迈向大型语言模型的安全对齐 标题: SafeLawBench: Towards Safe Alignment of Large Language Models 作者: Chuxue Cao / Han Zhu / Jiaming Ji / Qichao Sun / Zhenghao Zhu / Yinyu Wu / Juntao Dai / Yaodong Yang / Sirui Han / Yike Guo 原文: [英文] [中文] 备注: Accepted to ACL2025 Findings 摘要: 随着大型语言模型(LLMs)的日益普及,其安全性引发了重大关注。然而,由于当前安全基准的主观性,尚缺乏评估其安全性的明确标准。为了解决这一问题,我们首次从法律角度探索了LLMs的安全性评估,并提出了SafeLawBench基准。SafeLawBench根据法律标准将安全风险分为三个级别,提供了一个系统且全面的评估框架。它包括24,860道多项选择题和1,106个开放域问答(QA)任务。我们的评估涵盖了2个闭源LLM和18个开源LLM,使用零样本和少样本提示,突出了每个模型的安全特性。我们还评估了LLMs与安全相关的推理稳定性和拒绝行为。此外,我们发现多数投票机制可以提高模型性能。值得注意的是,即使是领先的SOTA模型如Claude-3.5-Sonnet和GPT-4o在SafeLawBench的多项选择任务中也未超过80.5%的准确率,而20个LLM的平均准确率仍为68.8%。我们呼吁社区优先研究LLMs的安全性。 |
[27] 使用大型语言模型进行价格预测的分位数回归 标题: Quantile Regression with Large Language Models for Price Prediction 作者: Nikhita Vedula / Dushyanta Dhyani / Laleh Jalali / Boris Oreshkin / Mohsen Bayati / Shervin Malmasi 原文: [英文] [中文] 备注: Accepted to Findings of ACL, 2025 摘要: 大型语言模型(LLMs)在结构化预测任务中表现出潜力,包括回归,但现有方法主要集中在点估计上,缺乏对不同方法的系统比较。我们研究了使用LLMs进行非结构化输入的概率回归,解决了如价格估计等具有挑战性的文本到分布预测任务,这些任务中细致的文本理解和不确定性量化至关重要。我们提出了一种新颖的分位数回归方法,使LLMs能够生成完整的预测分布,改进了传统的点估计。通过对三个不同的价格预测数据集进行广泛实验,我们证明了经过分位数头微调的Mistral-7B模型在点估计和分布估计方面显著优于传统方法,分别通过三个已建立的指标来衡量预测准确性和分布校准。我们对LLM方法、模型架构、训练方法和数据扩展的系统比较表明,Mistral-7B在性能上始终优于编码器架构、基于嵌入的方法和少样本学习方法。我们的实验还揭示了LLM辅助标签校正在实现无系统偏差的人类水平准确性方面的有效性。我们精心整理的数据集已在此https URL上提供,以支持未来的研究。 |
[28] 在表示空间中学习分布控制以应用于语言模型 标题: Learning Distribution-Wise Control in Representation Space for Language Models 作者: Chunyuan Deng / Ruidi Chang / Hanjie Chen 原文: [英文] [中文] 备注: ICML 2025 摘要: 在语言模型(LMs)中进行干预是通过前向传播策略性地引导模型行为。可学习的干预,也称为表示微调,旨在对概念子空间内的点进行控制,并已被证明在改变高层行为方面有效。在这项工作中,我们将这种方法扩展到分布层面,使模型不仅能够学习点变换,还能学习概念子空间周围的区域。我们证明了这些方法在早期层中表现有效,较大的标准差与性能的显著提升强烈相关。在八个常识推理和七个算术推理基准测试中,我们的分布层面干预在可控性和鲁棒性方面始终优于点干预。这些结果表明,分布层面干预提供了一种更全面的方法来引导模型行为,并实现对语言模型的更细粒度控制。代码可在:\href{this https URL}{this https URL}。 |
[29] 动态和参数化检索增强生成 标题: Dynamic and Parametric Retrieval-Augmented Generation 作者: Weihang Su / Qingyao Ai / Jingtao Zhan / Qian Dong / Yiqun Liu 原文: [英文] [中文] 备注: None 摘要: 检索增强生成(Retrieval-Augmented Generation, RAG)已成为为大型语言模型(LLMs)提供外部知识的基础范式,在信息检索和知识密集型应用中发挥着关键作用。然而,传统的RAG系统通常采用静态的检索-生成流水线,并依赖于上下文中的知识注入,这对于需要多跳推理、自适应信息访问和更深层次外部知识整合的复杂任务来说可能并不理想。受这些局限性的启发,研究界已经超越了静态检索和上下文知识注入。在新兴的研究方向中,本教程深入探讨了RAG的两个快速增长且互补的研究领域:动态RAG和参数化RAG。动态RAG在LLM的生成过程中自适应地决定何时以及检索什么,从而实现对LLM不断变化的信息需求的实时适应。参数化RAG重新思考了如何将检索到的知识注入到LLM中,从输入级别的知识注入转变为参数级别的知识注入,以提高效率和效果。本教程全面概述了这些新兴研究领域的最新进展,并分享了理论基础和实践见解,以支持和激励RAG领域的进一步研究。 |
[30] DivScore:在专业领域中零样本检测大型语言模型生成文本 标题: DivScore: Zero-Shot Detection of LLM-Generated Text in Specialized Domains 作者: Zhihui Chen / Kai He / Yucheng Huang / Yunxiao Zhu / Mengling Feng 原文: [英文] [中文] 备注: Zhihui Chen and Kai He contributed equally to this work, Mengling Feng is the corresponding author 摘要: 在医学和法律等专业和高风险领域中检测由大型语言模型(LLM)生成的文本,对于打击错误信息和确保真实性至关重要。然而,当前的零样本检测器虽然在一般文本上有效,但由于领域转移的原因,往往在应用于专业内容时失效。我们提供了一个理论分析,表明这种失效从根本上与人类、检测器和源文本分布之间的KL散度有关。为了解决这个问题,我们提出了DivScore,这是一种使用归一化熵评分和领域知识蒸馏的零样本检测框架,能够稳健地识别专业领域中的LLM生成文本。我们还发布了一个针对医学和法律领域的LLM生成文本检测的领域特定基准。我们基准上的实验表明,DivScore在AUROC上比最先进的检测器高出14.4%,在召回率上高出64.0%(0.1%误报率阈值)。在对抗性环境中,DivScore表现出比其他基线更优越的鲁棒性,平均在AUROC上有22.8%的优势,在召回率上有29.5%的优势。代码和数据已公开。 |
[31] 保留网络综述 标题: A Survey of Retentive Network 作者: Haiqi Yang / Zhiyuan Li / Yi Chang / Yuan Wu 原文: [英文] 备注: 15 pages, 3 figures 摘要: 保留网络(RetNet)代表了神经网络架构的重大进展,提供了一种高效的替代方案来取代Transformer。虽然Transformer依赖于自注意力机制来建模依赖关系,但在处理长序列时,由于其二次复杂性,它们面临着高内存成本和有限的可扩展性。为了缓解这些限制,RetNet引入了一种保留机制,将递归的归纳偏差与注意力的全局依赖建模相结合。该机制实现了线性时间推理,促进了对扩展上下文的高效建模,并且与完全可并行化的训练管道兼容。由于其在跨领域中的一致有效性,RetNet在机器学习范式中,包括自然语言处理、语音识别和时间序列分析等方面取得了稳健的性能,因此引起了显著的研究兴趣。然而,目前的文献中仍缺乏对RetNet的全面综述。本文旨在填补这一空白,提供首个关于RetNet架构、其关键创新及其多样化应用的详细调查。我们还探讨了与RetNet相关的主要挑战,并提出了未来的研究方向,以支持其在学术研究和实际部署中的持续进步。 |
[32] C-PATH:医疗系统中的会话式患者协助与分诊 标题: C-PATH: Conversational Patient Assistance and Triage in Healthcare System 作者: Qi Shi / Qiwei Han / Cláudia Soares 原文: [英文] [中文] 备注: Accepted in IEEE ICDH 2025, 10 pages, 8 figures, 5 tables 摘要: 导航医疗系统可能是复杂且令人不知所措的,这为寻求及时和适当医疗关注的患者设置了障碍。在本文中,我们介绍了C-PATH(医疗中的会话式患者协助和分诊),这是一种由大型语言模型(LLMs)驱动的新型会话式AI系统,旨在通过自然的多轮对话帮助患者识别症状并推荐合适的医疗科室。C-PATH在医疗知识、对话数据和临床摘要上进行了微调,使用基于LLaMA3架构的多阶段管道。本文的核心贡献是一个基于GPT的数据增强框架,该框架将来自DDXPlus的结构化临床知识转化为普通人易懂的对话,从而与患者的沟通规范保持一致。我们还实施了一种可扩展的对话历史管理策略,以确保长程连贯性。使用GPTScore的评估显示,在清晰度、信息量和推荐准确性等维度上表现出色。定量基准测试表明,C-PATH在GPT重写的会话数据集上实现了卓越的性能,显著优于特定领域的基线。C-PATH代表了在开发以用户为中心、可访问且准确的数字健康协助和分诊AI工具方面的一个进步。 |
[33] 大型语言模型中的地缘政治偏见:根据当代语言模型,哪些是“好”国家,哪些是“坏”国家 标题: Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary language models 作者: Mikhail Salnikov / Dmitrii Korzh / Ivan Lazichny / Elvir Karimov / Artyom Iudin / Ivan Oseledets / Oleg Y. Rogov / Alexander Panchenko / Natalia Loukachevitch / Elena Tutubalina 原文: [英文] [中文] 备注: None 摘要: 本文通过分析大型语言模型(LLMs)对具有冲突性国家视角(美国、英国、苏联和中国)的历史事件的解读,评估了其在不同国家中的地缘政治偏见。我们引入了一个新的数据集,其中包含中立的事件描述和来自不同国家的对立观点。我们的研究结果显示出显著的地缘政治偏见,模型倾向于支持特定的国家叙事。此外,简单的去偏提示对减少这些偏见的效果有限。通过操控参与者标签的实验揭示了模型对归因的敏感性,有时会放大偏见或识别不一致性,尤其是在标签交换的情况下。此项工作突出了大型语言模型中的国家叙事偏见,挑战了简单去偏方法的有效性,并为未来的地缘政治偏见研究提供了一个框架和数据集。 |
[34] 他们想假装不理解:当前大型语言模型在解读政治话语隐含内容方面的局限性 标题: They want to pretend not to understand: The Limits of Current LLMs in Interpreting Implicit Content of Political Discourse 作者: Walter Paci / Alessandro Panunzi / Sandro Pezzelle 原文: [英文] [中文] 备注: Accepted to the ACL2025 Findings 摘要: 隐含内容在政治话语中起着至关重要的作用,演讲者系统地采用如含义和预设等语用策略来影响他们的听众。大型语言模型(LLMs)在需要复杂语义和语用理解的任务中表现出强大的性能,突显了它们在检测和解释隐含内容意义方面的潜力。然而,它们在政治话语中的能力仍然很少被探索。首次利用大型IMPAQTS语料库,该语料库包含意大利政治演讲并标注了操控性隐含内容,我们提出了测试LLMs在这一挑战性问题上的有效性的方法。通过多项选择任务和开放式生成任务,我们证明所有测试的模型都难以解释预设和含义。我们得出结论,目前的LLMs缺乏准确解释高度隐含语言(如政治话语中发现的语言)所需的关键语用能力。同时,我们强调了提升模型性能的有希望的趋势和未来方向。我们在这个https URL上发布了我们的数据和代码。 |
[35] 将依赖关系扩展到标记的PBC:及物从句中的词序 标题: Extending dependencies to the taggedPBC: Word order in transitive clauses 作者: Hiram Ring 原文: [英文] [中文] 备注: None 摘要: taggedPBC(Ring 2025a)包含来自超过1500种语言的1800多句词性标注的平行文本数据,代表了133个语系和111种孤立语言。虽然这远远超过了之前可用的资源,并且词性标注达到了相当不错的准确性,允许进行跨语言的预测性见解(Ring 2025b),但该数据集最初并未进行依存关系的标注。本文报告了该数据集的一个CoNLLU格式版本,该版本将依存信息与词性标注一起转移到taggedPBC中的所有语言。尽管关于标注和依存关系的质量存在各种担忧,但从该数据集中得出的关于及物句中论元和谓词位置的词序信息与三个类型学数据库(WALS、Grambank、Autotyp)中专家确定的词序相一致。这突显了基于语料库的类型学方法(如Baylor等2023;Bjerva 2024)在扩展离散语言类别比较中的有用性,并表明即使是噪声数据,只要有足够的标注,也可以获得重要的见解。依存标注的语料库也通过GitHub提供给研究和合作使用。 |
[36] 关于大型语言模型的自适应心理劝说 标题: On the Adaptive Psychological Persuasion of Large Language Models 作者: Tianjie Ju / Yujia Chen / Hao Fei / Mong-Li Lee / Wynne Hsu / Pengzhou Cheng / Zongru Wu / Zhuosheng Zhang / Gongshen Liu 原文: [英文] [中文] 备注: Working in progress 摘要: 先前的研究展示了大型语言模型(LLMs)在遵循指令和修辞流畅性方面的引人注目的能力。然而,系统地探索它们在心理修辞背景下自主说服和抵抗说服的双重能力仍未被深入研究。在本文中,我们首先通过让四个常用的LLMs在对抗性对话中交替扮演说服者和倾听者的角色来评估它们。实证结果表明,说服者LLMs主要采用重复策略,导致成功率较低。然后,我们引入了十一种全面的心理说服策略,发现明确指示LLMs采用特定策略(如流畅效应和重复效应)显著提高了说服成功率。然而,没有一种“万能”的策略被证明是普遍有效的,其表现严重依赖于上下文的反事实。基于这些观察结果,我们提出了一种基于直接偏好优化的自适应框架,该框架通过利用策略特定响应的说服结果作为偏好对来训练LLMs自主选择最佳策略。在三个开源LLMs上的实验证实,所提出的自适应心理说服方法有效地使说服者LLMs能够选择最佳策略,显著提高了它们的成功率,同时保持了其一般能力。我们的代码可在此https URL获取。 |
[37] 面向领域无关多标签分类的标签语义感知生成方法 标题: Label-semantics Aware Generative Approach for Domain-Agnostic Multilabel Classification 作者: Subhendu Khatuya / Shashwat Naidu / Saptarshi Ghosh / Pawan Goyal / Niloy Ganguly 原文: [英文] [中文] 备注: This work has been accepted to appear at the Association for Computational Linguistics (ACL), 2025 摘要: 文本数据的爆炸式增长使得手动文档分类变得越来越具有挑战性。为了解决这个问题,我们引入了一种稳健、高效的领域无关生成模型框架,用于多标签文本分类。与将标签视为简单的原子符号不同,我们的方法利用预定义的标签描述,并训练模型根据输入文本生成这些描述。在推理过程中,生成的描述通过微调的句子转换器与预定义标签进行匹配。我们将其与双目标损失函数相结合,结合交叉熵损失和生成句子与预定义目标描述的余弦相似度,确保语义对齐和准确性。我们提出的模型LAGAMC以其参数效率和在不同数据集上的多功能性而脱颖而出,使其非常适合实际应用。我们通过在所有评估的数据集上实现新的最先进性能,超过了几个强大的基线,证明了我们提出模型的有效性。与所有数据集上的最接近基线相比,我们在Micro-F1上提高了13.94%,在Macro-F1上提高了24.85%。 |
[38] 不完全是福尔摩斯:语言模型预测无法可靠地区分不可能事件和不太可能事件 标题: Not quite Sherlock Holmes: Language model predictions do not reliably differentiate impossible from improbable events 作者: James A. Michaelov / Reeka Estacio / Zhien Zhang / Benjamin K. Bergen 原文: [英文] 备注: Accepted to Findings of ACL 2025 摘要: 语言模型能否可靠地预测可能事件比仅仅不太可能的事件更有可能发生?通过区分可能性、典型性和上下文相关性,我们发现,尽管先前的研究结果显示语言模型具备这种能力,但实际上这种能力远非稳健。事实上,在某些条件下,所有测试的模型——包括Llama 3、Gemma 2和Mistral NeMo——表现得比随机水平还差,给不可能的句子(如“汽车被刹车开了罚单”)分配了更高的概率,而不是仅仅不太可能的句子(如“汽车被探险家开了罚单”)。 |
[39] 通过联合叙述和难度控制推进问题生成 标题: Advancing Question Generation with Joint Narrative and Difficulty Control 作者: Bernardo Leite / Henrique Lopes Cardoso 原文: [英文] [中文] 备注: Preprint. Accepted to the BEA 2025 Workshop (ACL) 摘要: 问题生成(QG)是从源输入自动生成问题的任务,近年来取得了显著进展。难度可控问题生成(DCQG)使得在考虑学习者能力的同时,可以控制生成问题的难度级别。此外,叙事可控问题生成(NCQG)允许控制问题中嵌入的叙事方面。然而,问题生成的研究缺乏对这两种控制类型结合的关注,这对于生成适合教育目的的问题非常重要。为了解决这一空白,我们提出了一种联合叙事和难度控制的策略,使得在生成阅读理解问题时能够同时控制这两个属性。我们的评估提供了初步证据表明这种方法是可行的,尽管在所有实例中并不有效。我们的研究结果突出了该策略表现良好的条件,并讨论了其应用相关的权衡。 |
[40] BTPD:跨在线社区的孟加拉语跨国政治话语多语言人工整理数据集 标题: BTPD: A Multilingual Hand-curated Dataset of Bengali Transnational Political Discourse Across Online Communities 作者: Dipto Das / Syed Ishtiaque Ahmed / Shion Guha 原文: [英文] 备注: None 摘要: 理解在线空间中的政治话语对于分析公众舆论和意识形态极化至关重要。虽然社会计算和计算语言学已经在英语中探索了此类讨论,但由于缺乏数据集,这类研究在孟加拉语等主要但资源匮乏的语言中显著受限。在本文中,我们展示了一个孟加拉语跨国政治话语的多语言数据集(BTPD),该数据集从三个在线平台收集,每个平台代表不同的社区结构和互动动态。除了描述我们如何通过社区知情的关键词检索手动整理数据集外,本文还提供了其主题和多语言内容的一般概述。 |
[41] 数据集、开发者和模型如何影响低资源语言中的偏见? 标题: How do datasets, developers, and models affect biases in a low-resourced language? 作者: Dipto Das / Shion Guha / Bryan Semaan 原文: [英文] 备注: None 摘要: 社会技术系统(如语言技术)经常表现出基于身份的偏见。这些偏见加剧了历史上被边缘化社区的困境,并且在资源匮乏的环境中仍然缺乏研究。尽管通常建议使用特定语言或多语言支持的模型和数据集来解决这些偏见,但本文在孟加拉语这一广泛使用但资源匮乏的语言背景下,实证测试了这些方法在性别、宗教和国籍身份方面的有效性。我们对基于mBERT和BanglaBERT构建的情感分析模型进行了算法审计,这些模型使用了来自Google Dataset Search的所有孟加拉语情感分析(BSA)数据集进行微调。我们的分析表明,尽管BSA模型具有相似的语义内容和结构,但在不同身份类别中仍表现出偏见。我们还研究了由来自不同人口背景的个人创建的预训练模型和数据集组合所产生的不一致性和不确定性。我们将这些发现与关于认识论不公、人工智能对齐以及算法审计中的方法决策的更广泛讨论联系起来。 |
[42] 超越分类:通过多任务音频大语言模型实现语音情感推理 标题: Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs 作者: Wenyu Zhang / Yingxu He / Geyu Lin / Zhuohan Liu / Shuo Sun / Bin Wang / Xunlong Zou / Jeremy H. M. Wong / Qiongqiong Wang / Hardik B. Sailor / Nancy F. Chen / Ai Ti Aw 原文: [英文] [中文] 备注: None 摘要: 音频大型语言模型(AudioLLMs)在语音识别和翻译等语义任务中取得了优异的成绩,但在情感等副语言线索的建模方面仍然有限。现有的方法通常将情感理解视为一个分类问题,对预测背后的基本原理提供的见解很少。在这项工作中,我们探索情感推理,这是一种利用AudioLLMs的生成能力,通过生成语义对齐、证据支持的解释来增强情感识别的策略。为了在多任务AudioLLMs中支持这一点,我们引入了一个统一框架,结合了推理增强的数据监督、双编码器架构和任务交替训练。该方法使AudioLLMs能够有效地学习不同任务,同时融入情感推理。在IEMOCAP和MELD上的实验表明,我们的方法不仅提高了情感预测的准确性,还增强了生成响应的连贯性和证据基础。 |
[43] 大型语言模型能生成可靠的测试用例生成器吗?关于竞赛级编程问题的研究 标题: Can LLMs Generate Reliable Test Case Generators? A Study on Competition-Level Programming Problems 作者: Yuhan Cao / Zian Chen / Kun Quan / Ziliang Zhang / Yu Wang / Xiaoning Dong / Yeqi Feng / Guanzhong He / Jingcheng Huang / Jianhao Li / Yixuan Tan / Jiafu Tang / Yilin Tang / Junlei Wu / Qianyu Xiao / Can Zheng / Shouchen Zhou / Yuxiang Zhu / Yiming Huang / Tian Xie / Tianxing He 原文: [英文] [中文] 备注: 37 pages, 22 figures 摘要: 大型语言模型(LLMs)在代码生成方面展示了卓越的能力,能够在推理过程中处理复杂任务。然而,LLMs在通过测试用例生成进行代码检查或调试的应用程度仍然很少被探索。我们从竞赛级编程(CP)程序的角度研究这个问题,并提出了TCGBench,一个用于(LLM生成的)测试用例生成器的基准。该基准包括两个任务,旨在研究LLMs在(1)为给定的CP问题生成有效测试用例生成器的能力,以及(2)生成能够揭示人类编写代码中错误的针对性测试用例生成器的能力。实验结果表明,尽管最先进的LLMs在大多数情况下可以生成有效的测试用例生成器,但大多数LLMs在生成能够有效揭示人类代码缺陷的针对性测试用例方面表现不佳。尤其是,即使是高级推理模型(例如,o3-mini)在生成针对性生成器的任务中也远远不及人类的表现。此外,我们构建了一个高质量、手动整理的用于生成针对性生成器的指令数据集。分析表明,通过提示和微调,借助该数据集可以提高LLMs的性能。 |
[44] PCoT:用于检测假新闻和社交媒体虚假信息的劝说增强型思维链 标题: PCoT: Persuasion-Augmented Chain of Thought for Detecting Fake News and Social Media Disinformation 作者: Arkadiusz Modzelewski / Witold Sosnowski / Tiziano Labruna / Adam Wierzbicki / Giovanni Da San Martino 原文: [英文] 备注: Accepted to ACL 2025 Main Conference 摘要: 虚假信息检测是媒体素养的关键方面。心理学研究表明,了解说服谬误有助于个人检测虚假信息。受这些研究结果的启发,我们尝试使用大型语言模型(LLMs)来测试注入说服知识是否能增强虚假信息检测。因此,我们引入了说服增强思维链(PCoT),这是一种利用说服来改进零样本分类中虚假信息检测的新方法。我们对在线新闻和社交媒体帖子进行了广泛的PCoT评估。此外,我们发布了两个新颖且最新的虚假信息数据集:EUDisinfo和MultiDis。这些数据集使得可以在我们的实验中使用的LLMs完全未见过的内容上评估PCoT,因为这些内容是在模型知识截止日期之后发布的。我们展示了PCoT在五个LLMs和五个数据集上平均比竞争方法高出15%。这些发现突显了说服在加强零样本虚假信息检测中的价值。 |
[45] 适应一次,更新中蓬勃发展:在不断演变的基础模型上进行可迁移的参数高效微调 标题: Adapt Once, Thrive with Updates: Transferable Parameter-Efficient Fine-Tuning on Evolving Base Models 作者: Naibin Gu / Peng Fu / Xiyu Liu / Ke Ma / Zheng Lin / Weiping Wang 原文: [英文] [中文] 备注: Accepted by ACL 2025 摘要: 参数高效微调(PEFT)已成为微调大型语言模型的一种常用方法,其中一个基础模型可以通过切换PEFT模块为多个用户服务。为了提升用户体验,基础模型需要定期更新。然而,一旦更新后,在先前版本上微调的PEFT模块在新版本上通常会遭遇显著的性能下降。重新微调这些众多模块以恢复性能将会带来巨大的计算成本。通过对基础模型更新过程中变化的全面分析,我们发现了一个有趣的现象:持续训练主要影响存储在前馈网络(FFN)中的任务特定知识,而对注意力机制中的任务特定模式影响较小。基于这些发现,我们引入了Trans-PEFT,这是一种通过关注任务特定模式同时减少对基础模型中某些知识依赖的新方法来增强PEFT模块。进一步的理论分析支持了我们的方法。跨越7个基础模型和12个数据集的大量实验表明,经过Trans-PEFT训练的模块可以在不重新微调的情况下保持在更新后的基础模型上的性能,从而显著减少了实际应用中的维护开销。 |
[46] 仅仅正确是不够的:在训练大型语言模型进行数学推理时结果监督的陷阱 标题: Right Is Not Enough: The Pitfalls of Outcome Supervision in Training LLMs for Math Reasoning 作者: Jiaxing Guo / Wenjie Yang / Shengzhong Zhang / Tongshan Xu / Lun Du / Da Zheng / Zengfeng Huang 原文: [英文] [中文] 备注: None 摘要: 结果奖励的大型语言模型(LLMs)在数学问题解决方面表现出显著的成功。然而,这种成功往往掩盖了一个关键问题:模型经常通过根本上不合理的推理过程来获得正确答案,这种现象表明存在奖励作弊。我们引入了MathOlympiadEval,这是一个具有细粒度注释的新数据集,揭示了LLMs的答案正确性与其低过程正确性之间的显著差距。现有的自动化方法,如LLM-as-a-judge,难以可靠地检测这些推理缺陷。为了解决这个问题,我们提出了ParaStepVerifier,这是一种用于细致的、逐步验证数学解决方案的新方法。ParaStepVerifier能够识别不正确的推理步骤。实证结果表明,与基线相比,ParaStepVerifier在识别有缺陷的解决方案的准确性上有显著提高,特别是在复杂的多步骤问题上。这为评估和训练具有真正数学推理能力的LLMs提供了一条更为稳健的路径。 |
[47] 用于中文拼写检查的小型和大型模型混合 标题: Mixture of Small and Large Models for Chinese Spelling Check 作者: Ziheng Qiao / Houquan Zhou / Zhenghua Li 原文: [英文] [中文] 备注: None 摘要: 在大语言模型(LLMs)时代,中文拼写检查(CSC)任务已经开发了各种LLM方法,但其性能仍不尽如人意。相比之下,基于BERT的微调模型依赖于高质量的领域内数据,表现出优异的性能,但存在编辑模式过拟合的问题。本文提出了一种新颖的动态混合方法,该方法在束搜索解码阶段有效结合了小模型和LLMs的概率分布,实现了小模型的精确校正和LLMs的流畅性之间的平衡增强。此方法还消除了对LLMs进行微调的需求,节省了大量时间和资源,并促进了领域适应。综合实验表明,我们的混合方法显著提升了错误校正能力,在多个数据集上达到了最新的研究成果。我们的代码可在此https URL获取。 |
[48] 非洲裔美国英语的自动语音识别:词汇和语境效应 标题: Automatic Speech Recognition of African American English: Lexical and Contextual Effects 作者: Hamid Mojarad / Kevin Tang 原文: [英文] [中文] 备注: submitted to Interspeech 2025 摘要: 自动语音识别(ASR)模型常常在处理非洲裔美国英语(AAE)的语音、音系和形态句法特征时遇到困难。本研究重点关注AAE的两个关键变量:辅音簇缩减(CCR)和ING缩减。研究考察了CCR和ING缩减的存在是否会增加ASR的误识别率。随后,研究探讨了不使用外部语言模型(LM)的端到端ASR系统是否比使用LM的系统更受词汇邻近效应的影响,而较少受上下文可预测性的影响。使用wav2vec 2.0对区域非洲裔美国语言语料库(CORAAL)进行了转录,分别在有和没有LM的情况下进行。使用蒙特利尔强制对齐器(MFA)结合发音扩展来检测CCR和ING缩减。分析结果显示,CCR和ING对词错误率(WER)有小但显著的影响,并表明在没有LM的ASR系统中,词汇邻近效应的影响更为显著。 |
[49] 用于多语言情感分析的混合抽取-生成式摘要 标题: Hybrid Extractive Abstractive Summarization for Multilingual Sentiment Analysis 作者: Mikhail Krasitskii / Grigori Sidorov / Olga Kolesnikova / Liliana Chanona Hernandez / Alexander Gelbukh 原文: [英文] 备注: 6 pages 摘要: 我们提出了一种用于多语言情感分析的混合方法,该方法结合了抽取式和生成式摘要,以解决单一方法的局限性。该模型将基于TF-IDF的抽取与经过微调的XLM-R生成模块相结合,并通过动态阈值和文化适应进行增强。对10种语言的实验显示,与基线相比有显著改进,英语的准确率达到0.90,低资源语言达到0.84。该方法还比传统方法提高了22%的计算效率。实际应用包括实时品牌监测和跨文化话语分析。未来的工作将专注于通过8位量化优化低资源语言的处理。 |
[50] DiscoSum:具备语篇意识的新闻摘要 标题: DiscoSum: Discourse-aware News Summarization 作者: Alexander Spangher / Tenghao Huang / Jialiang Gu / Jiatong Shi / Muhao Chen 原文: [英文] [中文] 备注: 8 pages, 3 figures, 10 pages in Appendix 摘要: 最近在文本摘要方面的进展主要利用了大型语言模型来生成简洁的摘要。然而,语言模型往往不能维持长期的语篇结构,特别是在新闻文章中,组织流畅性对读者的参与度有显著影响。我们介绍了一种将语篇结构整合到摘要过程中的新方法,特别关注于不同媒体的新闻文章。我们提出了一个新的摘要数据集,其中新闻文章在不同的社交媒体平台(如LinkedIn、Facebook等)上以不同方式多次被摘要。我们开发了一种新的新闻语篇模式来描述摘要结构,并提出了一种新算法DiscoSum,该算法采用束搜索技术进行结构感知的摘要,使新闻故事能够满足不同的风格和结构需求。人类和自动评估结果均表明,我们的方法在保持叙事忠实度和满足结构要求方面的有效性。 |
[51] 是什么造就了一个好的自然语言提示? 标题: What Makes a Good Natural Language Prompt? 作者: Do Xuan Long / Duy Dinh / Ngoc-Hai Nguyen / Kenji Kawaguchi / Nancy F. Chen / Shafiq Joty / Min-Yen Kan 原文: [英文] [中文] 备注: ACL 2025 Main Conference 摘要: 随着大型语言模型(LLMs)向更类似人类的方向发展,以及人类与人工智能的交流变得普遍,提示已成为一个决定性因素。然而,对于自然语言提示究竟如何量化,尚未达成概念上的共识。我们试图通过对2022年至2025年间在主要自然语言处理(NLP)和人工智能(AI)会议以及博客中发表的150多篇与提示相关的论文进行元分析来解决这个问题。我们提出了一个以属性和人为中心的框架来评估提示质量,该框架包含21个属性,分为六个维度。然后,我们研究现有研究如何评估这些属性对LLMs的影响,揭示了它们在模型和任务上的不平衡支持以及显著的研究空白。此外,我们分析了高质量自然语言提示中属性之间的相关性,得出提示建议。接着,我们在推理任务中实证探索多属性提示增强,观察到单一属性增强通常具有最大的影响。最后,我们发现对属性增强提示进行指令微调可以产生更好的推理模型。我们的研究结果为以属性为中心的提示评估和优化奠定了基础,弥合了人类与人工智能交流之间的差距,并开辟了新的提示研究方向。 |
[52] BIS Reasoning 1.0:第一个用于信念不一致三段论推理的大规模日语基准 标题: BIS Reasoning 1.0: The First Large-Scale Japanese Benchmark for Belief-Inconsistent Syllogistic Reasoning 作者: Ha-Thanh Nguyen / Chaoran Liu / Hirokazu Kiyomaru / Koichi Takeda / Yusuke Miyao / Maki Matsuda / Yusuke Oda / Pontus Stenetorp / Qianying Liu / Su Myat Noe / Hideyuki Tachibana / Kouta Nakayama / Sadao Kurohashi 原文: [英文] [中文] 备注: None 摘要: 我们介绍了 BIS Reasoning 1.0,这是第一个大规模的日语三段论推理问题数据集,专门用于评估大型语言模型(LLMs)中的信念不一致推理。与之前的如 NeuBAROCO 和 JFLD 等数据集不同,这些数据集侧重于一般或信念一致的推理,而 BIS Reasoning 1.0 引入了逻辑上有效但信念不一致的三段论,以揭示在以人类为导向的语料库上训练的 LLMs 中的推理偏差。我们对最先进的模型进行了基准测试,包括 GPT 模型、Claude 模型和领先的日语 LLMs,结果显示性能存在显著差异,其中 GPT-4o 达到了 79.54% 的准确率。我们的分析识别出当前 LLMs 在处理逻辑上有效但与信念冲突的输入时的关键弱点。这些发现对于在法律、医疗和科学文献等高风险领域中部署 LLMs 具有重要意义,在这些领域中,真相必须凌驾于直观信念之上,以确保完整性和安全性。 |
[53] 通过奖励加权微调的强化学习来学习澄清 标题: Learning to Clarify by Reinforcement Learning Through Reward-Weighted Fine-Tuning 作者: Subhojyoti Mukherjee / Viet Dac Lai / Raghavendra Addanki / Ryan Rossi / Seunghyun Yoon / Trung Bui / Anup Rao / Jayakumar Subramanian / Branislav Kveton 原文: [英文] [中文] 备注: 39 pages 摘要: 问答(QA)代理能够自动回答以自然语言提出的问题。在这项工作中,我们学习在QA代理中提出澄清性问题。我们方法的关键思想是模拟包含澄清性问题的对话,并通过强化学习(RL)从中学习。为了使RL具有实用性,我们提出并分析了可以视为奖励加权的监督微调(SFT)的离线RL目标,并且可以在大型语言模型中轻松优化。我们的工作与最近提出的方法形成鲜明对比,这些方法基于SFT和直接偏好优化,具有额外的超参数,并且不直接优化奖励。我们通过实验证明,与这些方法相比,我们在优化奖励和语言质量上都有所提升。 |
[54] 一个关于事件终结性和完成性的依赖类型演算 标题: A dependently-typed calculus of event telicity and culminativity 作者: Pavel Kovalev / Carlo Angiuli 原文: [英文] [中文] 备注: 52 pages, Agda formalization available at this https URL 摘要: 我们提出了一个依赖类型的跨语言框架,用于分析事件的终止性和完成性,并附有使用我们框架来建模英语句子的示例。我们的框架由两个部分组成。在名词领域,我们对名词短语的有界性及其与子类型、限定数量和形容词修饰的关系进行建模。在动词领域,我们定义了一个依赖事件演算,将终止事件建模为其承受者是有界的事件,将完成事件建模为达到其固有终点的终止事件,并考虑副词修饰。在这两个领域中,我们特别关注相关的蕴涵。我们的框架被定义为意向性Martin-Löf依赖类型理论的扩展,本文中的规则和示例已在Agda证明助手中形式化。 |
[55] 打破链条:通过对抗性提示在代码生成中揭示大型语言模型的推理失败 标题: Break-The-Chain: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation 作者: Jaechul Roh / Varun Gandhi / Shivani Anilkumar / Arin Garg 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在需要复杂推理的任务中取得了显著成功,例如代码生成、数学问题解决和算法合成——尤其是在推理标记和链式思维提示的帮助下。然而,一个核心问题仍然存在:这些模型是否真正进行推理,还是仅仅利用了浅层的统计模式?在本文中,我们通过引入一套语义上忠实但对抗性结构化的提示扰动,系统地研究了推理LLMs的稳健性。我们的评估涵盖了从LeetCode风格问题中衍生的700个扰动代码生成,应用了诸如故事重构、无关约束注入、示例重排序和数值扰动等转换。我们观察到,虽然某些修改严重降低了性能(准确率下降高达42.1%),但另一些修改却出人意料地提高了模型准确率高达35.3%,这表明模型不仅对语义敏感,也对表层提示动态敏感。这些发现揭示了当前推理系统的脆弱性和不可预测性,强调了需要更有原则的方法来实现推理对齐和提示稳健性。我们发布了我们的扰动数据集和评估框架,以促进在可信赖和有弹性的LLM推理方面的进一步研究。 |
[56] 科学表格声明验证的原子推理 标题: Atomic Reasoning for Scientific Table Claim Verification 作者: Yuji Zhang / Qingyun Wang / Cheng Qian / Jiateng Liu / Chenkai Sun / Denghui Zhang / Tarek Abdelzaher / Chengxiang Zhai / Preslav Nakov / Heng Ji 原文: [英文] [中文] 备注: None 摘要: 科学文本由于其技术性语言和复杂的数据,往往传达出权威性。然而,这种复杂性有时可能导致错误信息的传播。非专家尤其容易受到基于科学表格的误导性声明的影响,因为这些表格的信息密度高且被认为具有可信度。现有的表格声明验证模型,包括最先进的大型语言模型(LLMs),通常在精细的推理上表现不佳,导致在验证科学声明时出现错误和缺乏精确性。受认知负荷理论的启发,我们提出,通过开发模块化、可重用的推理组件(即原子技能),可以通过减少认知负荷来增强模型解释基于表格的声明的能力。我们引入了一种技能链模式,动态地组合这些技能,以便在减少认知负荷的情况下实现更准确和更具普遍性的推理。为了评估这一点,我们创建了SciAtomicBench,这是一个具有细粒度推理注释的跨领域基准。仅使用350个微调示例,我们通过原子推理训练的模型在性能上超过了GPT-4o的链式思维方法,以远少于训练数据的情况下实现了最先进的结果。 |
[57] 方法链:无需训练的测试时间计算扩展 标题: Chain of Methodologies: Scaling Test Time Computation without Training 作者: Cong Liu / Jie Wu / Weigang Wu / Xu Chen / Liang Lin / Wei-Shi Zheng 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在处理复杂推理任务时常常遇到困难,因为其训练数据中缺乏深入的见解,而这些见解通常在公开可用的文档中是缺失的。本文介绍了一种名为“方法链”(CoM)的创新且直观的提示框架,通过整合人类的方法论见解来增强结构化思维,使LLMs能够通过扩展推理来处理复杂任务。CoM利用先进LLMs的元认知能力,通过用户定义的方法激活系统化推理,而无需显式微调。实验表明,CoM优于竞争性基线,展示了无需训练的提示方法作为复杂推理任务的强大解决方案的潜力,并通过类人方法论见解缩小了与人类水平推理之间的差距。 |
[58] 文化偏见很重要:用于理解多模态隐喻的跨文化基准数据集和情感丰富模型 标题: Cultural Bias Matters: A Cross-Cultural Benchmark Dataset and Sentiment-Enriched Model for Understanding Multimodal Metaphors 作者: Senqi Yang / Dongyu Zhang / Jing Ren / Ziqi Xu / Xiuzhen Zhang / Yiliao Song / Hongfei Lin / Feng Xia 原文: [英文] [中文] 备注: This paper has been accepted to the 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025), Main Conference 摘要: 隐喻在交流中无处不在,使其对自然语言处理(NLP)至关重要。以往对自动隐喻处理的研究主要依赖于由英语样本组成的训练数据,这些样本通常反映了西欧或北美的偏见。这种文化偏向可能导致对模型性能的高估,并对NLP进展的贡献产生误导。然而,文化偏见对隐喻处理的影响,特别是在多模态环境中的影响,仍然很少被探索。为了解决这一空白,我们引入了MultiMM,一个多文化多模态隐喻数据集,旨在对中英隐喻进行跨文化研究。MultiMM由8,461对文本-图像广告组成,每对都附有细粒度的注释,提供了对超越单一文化领域的多模态隐喻的更深入理解。此外,我们提出了情感增强隐喻检测(SEMD),这是一种基线模型,整合了情感嵌入,以增强跨文化背景的隐喻理解。实验结果验证了SEMD在隐喻检测和情感分析任务中的有效性。我们希望这项工作能提高对NLP研究中文化偏见的认识,并有助于开发更公平和更具包容性的语言模型。我们的数据集和代码可在此https URL获取。 |
[59] 是什么让推理模型与众不同?跟随推理领袖实现高效解码 标题: What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding 作者: Ming Li / Zhengyuan Yang / Xiyao Wang / Dianqi Li / Kevin Lin / Tianyi Zhou / Lijuan Wang 原文: [英文] [中文] 备注: None 摘要: 大型推理模型(LRMs)通过生成长的思维链条来实现强大的推理性能。然而,这些冗长的推理过程会减慢推理速度,并且常常陷入不必要的细节,这被称为过度思考现象。为了更好地理解LRMs的行为,我们系统地分析了推理模型和非推理模型之间在词级别上的不匹配。虽然预期它们的主要区别在于风格上的“思维提示”,但LRMs独特地表现出两个关键的、以前未被充分研究的现象:一个是全局不匹配反弹,即随着响应长度的增加,它们与非推理模型的差异持续存在甚至增加;更为关键的是,局部不匹配减弱,即不匹配集中在每个句子开头的“思维提示”上,但在句子的其余部分迅速下降。受局部不匹配减弱的启发,我们提出了FoReaL-Decoding,这是一种为成本-质量权衡而设计的协作快慢思维解码方法。在FoReaL-Decoding中,一个领先模型引导每个句子的前几个词,然后一个较弱的草稿模型完成句子的其余部分。FoReaL-Decoding采用随机门来平滑地在小模型和大模型之间进行插值。在四个流行的数学推理基准(AIME24、GPQA-Diamond、MATH500、AMC23)上,FoReaL-Decoding将理论FLOPs减少了30%到50%,并将思维链长度缩短了多达40%,同时保持了86%到100%的模型性能。这些结果确立了FoReaL-Decoding作为一种简单的、即插即用的途径,用于在以推理为中心的任务中实现可控的成本-质量权衡。 |
[60] 对抗性释义:一种使AI生成文本更具人性化的通用攻击 标题: Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text 作者: Yize Cheng / Vinu Sankar Sadasivan / Mehrdad Saberi / Shoumik Saha / Soheil Feizi 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)日益增强的能力引发了人们对其在AI生成的抄袭和社会工程中的滥用的担忧。虽然已经提出了各种AI生成文本检测器来减轻这些风险,但许多检测器仍然容易受到简单规避技术的影响,例如改写。然而,最近的检测器在应对这些基本攻击方面表现出了更强的鲁棒性。在这项工作中,我们介绍了一种名为对抗性改写的训练无关攻击框架,该框架可以普遍地将任何AI生成的文本人性化,以更有效地规避检测。我们的方法利用现成的指令跟随型大型语言模型,在AI文本检测器的指导下改写AI生成内容,生成专门优化以绕过检测的对抗性样本。大量实验表明,我们的攻击在多个检测系统中既广泛有效又高度可转移。例如,与简单改写攻击相比——讽刺的是,这种攻击在RADAR和Fast-DetectGPT上分别将1%误报率下的真实正例(T@1%F)提高了8.57%和15.03%——在OpenAI-RoBERTa-Large的指导下,对抗性改写将RADAR上的T@1%F降低了64.49%,在Fast-DetectGPT上更是惊人地降低了98.96%。在包括基于神经网络、水印和零样本方法的多种检测器中,我们的攻击在OpenAI-RoBERTa-Large的指导下实现了平均87.88%的T@1%F降低。我们还分析了文本质量与攻击成功之间的权衡,发现我们的方法可以显著降低检测率,同时文本质量仅有轻微下降。我们的对抗性设置强调了在面对日益复杂的规避技术时,需要更强大和更具弹性的检测策略。 |
[61] 一个具有文化多样性的多语言多模态视频基准与模型 标题: A Culturally-diverse Multilingual Multimodal Video Benchmark & Model 作者: Bhuiyan Sanjid Shafique / Ashmal Vayani / Muhammad Maaz / Hanoona Abdul Rasheed / Dinura Dissanayake / Mohammed Irfan Kurpath / Yahya Hmaiti / Go Inoue / Jean Lahoud / Md. Safirur Rashid / Shadid Intisar Quasem / Maheen Fatima / Franco Vidal / Mykola Maslych / Ketan Pravin More / Sanoojan Baliah / Hasindri Watawana / Yuhao Li / Fabian Farestam / Leon Schaller / Roman Tymtsiv / Simon Weber / Hisham Cholakkal / Ivan Laptev / Shin'ichi Satoh / Michael Felsberg / Mubarak Shah / Salman Khan / Fahad Shahbaz Khan 原文: [英文] [中文] 备注: None 摘要: 大型多模态模型(LMMs)因其在理解和生成视觉内容描述方面的有效性而受到关注。目前大多数现有的LMMs都是以英语为主。虽然最近有少数研究探索了多语言图像LMMs,但据我们所知,在视频LMMs的背景下,超越英语语言以实现文化和语言包容性尚未被研究。为了追求更具包容性的视频LMMs,我们引入了一个多语言视频LMM基准,名为ViMUL-Bench,用于评估涵盖14种语言的视频LMMs,包括低资源和高资源语言:英语、中文、西班牙语、法语、德语、印地语、阿拉伯语、俄语、孟加拉语、乌尔都语、僧伽罗语、泰米尔语、瑞典语和日语。我们的ViMUL-Bench旨在严格测试视频LMMs在15个类别中的表现,包括八个文化多样的类别,从生活方式和节日到食物和仪式,从地方地标到著名文化人物。ViMUL-Bench包括开放式(短篇和长篇)和多项选择题,涵盖各种视频时长(短、中、长),并包含由母语者手动验证的8000个样本。此外,我们还引入了一个机器翻译的多语言视频训练集,包含120万个样本,并开发了一个简单的多语言视频LMM,名为ViMUL,显示出在视频理解方面高资源和低资源语言之间更好的权衡。我们希望我们的ViMUL-Bench和多语言视频LMM以及大规模多语言视频训练集将有助于未来在开发文化和语言包容的多语言视频LMMs方面的研究。我们提出的基准、视频LMM和训练数据将在此https URL上公开发布。 |
[62] KG2QA:增强知识图谱的检索增强生成用于通信标准问答 标题: KG2QA: Knowledge Graph-enhanced Retrieval-Augmented Generation for Communication Standards Question Answering 作者: Zhongze Luo / Weixuan Wan / Qizhi Zheng / Yanhong Bai / Jingyun Sun / Jian Wang / Dan Wang 原文: [英文] [中文] 备注: 23 pages 摘要: 在通信领域中有许多类型的标准。传统的咨询模式周期长,并且依赖于专家的知识和经验,难以满足快速发展的技术需求。本文结合大型语言模型的微调与知识图谱的构建,实现了一个用于通信标准的智能咨询和问答系统。实验结果表明,在对通信标准领域的6,587个问答构成的数据集进行LoRA微调后,Qwen2.5-7B-Instruct在测试集上展示了出色的专业能力。BLEU-4从18.8564上升到66.8993,ROUGE等评估指标也显著提高,优于对比模型Llama-3-8B-Instruct的微调效果。基于包含6个实体属性和10个关系属性的本体框架,构建了一个包含13,906个实体和13,524个关系的通信标准领域知识图谱,显示出较好的查询准确率。智能咨询和问答系统使得服务器端的微调模型能够访问本地构建的知识图谱,并首先进行关键信息的图形化检索,有助于提高问答效果。使用DeepSeek作为测试集的评判标准进行评估,结果表明我们的RAG框架使微调模型在五个角度上的得分均有所提高,平均得分提高了2.26%。结合Web服务和API接口,在交互体验和后端访问方面取得了非常好的效果,具有很好的实际应用价值。 |
[63] 处理不规则事件:基于RAG增强的事件知识库构建与使用证明助手进行推理 标题: Reasoning with RAGged events: RAG-Enhanced Event Knowledge Base Construction and reasoning with proof-assistants 作者: Stergios Chatzikyriakidis 原文: [英文] [中文] 备注: None 摘要: 从叙述文本中提取历史事件的结构化计算表示在手动构建时仍然是计算上昂贵的。虽然 RDF/OWL 推理器能够进行基于图的推理,但它们仅限于一阶逻辑的片段,无法进行更深入的时间和语义分析。本文通过使用多种大型语言模型(GPT-4、Claude、Llama 3.2)开发自动历史事件提取模型,并采用三种增强策略:纯基础生成、知识图谱增强和检索增强生成(RAG),来解决这两个挑战。我们使用修昔底德的历史文本进行了全面评估。我们的研究结果表明,增强策略优化了不同的性能维度,而不是提供普遍的改进。在覆盖范围和历史广度方面,基础生成在 Claude 和 GPT-4 提取全面事件时实现了最佳性能。然而,在精确度方面,RAG 增强提高了坐标准确性和元数据完整性。模型架构从根本上决定了增强敏感性:较大的模型表现出稳健的基线性能,并随着 RAG 的增量改进,而 Llama 3.2 则表现出极大的差异,从竞争性能到完全失败。然后,我们开发了一个自动化翻译管道,将提取的 RDF 表示转换为 Coq 证明助手规格,从而实现超越 RDF 能力的高阶推理,包括多步因果验证、使用公元前日期的时间算术以及关于历史因果关系的正式证明。Coq 形式化验证了 RAG 发现的事件类型代表了合法的领域特定语义结构,而不是本体论的违背。 |
[64] 灵枢:用于统一多模态医学理解与推理的通用基础模型 标题: Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning 作者: LASA Team / Weiwen Xu / Hou Pong Chan / Long Li / Mahani Aljunied / Ruifeng Yuan / Jianyu Wang / Chenghao Xiao / Guizhen Chen / Chaoqun Liu / Zhaodonghui Li / Yu Sun / Junao Shen / Chaojun Wang / Jie Tan / Deli Zhao / Tingyang Xu / Hao Zhang / Yu Rong 原文: [英文] [中文] 备注: Technical Report, 53 pages, 25 tables, and 16 figures 摘要: 多模态大语言模型(MLLMs)在理解常见视觉元素方面展示了令人印象深刻的能力,这主要归功于其大规模数据集和先进的训练策略。然而,由于医疗场景中的数据和任务与一般领域存在固有差异,其在医疗应用中的有效性仍然有限。具体而言,现有的医疗MLLMs面临以下关键限制:(1)对影像以外的医疗知识覆盖有限,(2)由于数据整理过程不佳,导致更高的幻觉易感性,(3)缺乏针对复杂医疗场景的推理能力。为了解决这些挑战,我们首先提出了一种全面的数据整理程序,该程序(1)不仅从医学影像中,还从广泛的医学文本和一般领域数据中有效获取丰富的医学知识数据;(2)合成准确的医学字幕、视觉问答(VQA)和推理样本。结果是,我们构建了一个富含广泛医学知识的多模态数据集。在整理的数据基础上,我们推出了专门针对医学的MLLM:Lingshu。Lingshu经过多阶段训练,逐步嵌入医学专业知识并增强其任务解决能力。此外,我们初步探索了应用具有可验证奖励范式的强化学习来增强Lingshu的医学推理能力的潜力。此外,我们开发了MedEvalKit,一个统一的评估框架,整合了领先的多模态和文本医学基准,以实现标准化、公平和高效的模型评估。我们评估了Lingshu在三项基本医疗任务上的表现:多模态问答、基于文本的问答和医疗报告生成。结果表明,Lingshu在大多数任务中始终优于现有的开源多模态模型…… |
[65] Com$^2$: 一个因果引导的基准,用于探索大型语言模型中的复杂常识推理 标题: Com$^2$: A Causal-Guided Benchmark for Exploring Complex Commonsense Reasoning in Large Language Models 作者: Kai Xiong / Xiao Ding / Yixin Cao / Yuxiong Yan / Li Du / Yufei Zhang / Jinglong Gao / Jiaqian Liu / Bing Qin / Ting Liu 原文: [英文] [中文] 备注: Accepted by ACL 2025 Main Conference 摘要: 大型语言模型(LLMs)通过预训练掌握了大量简单且显性的常识知识,使其在简单常识推理中能够达到类似人类的表现。然而,LLMs 在处理从简单常识推导出的复杂且隐性的常识知识(例如理解某些事件的长期影响)时表现不佳,而这正是人类更关注的方面。现有的研究主要集中在数学和代码等复杂任务上,而复杂常识推理由于其不确定性和缺乏结构而仍然未被充分探索。为了填补这一空白并与现实世界的关注点对齐,我们提出了一个名为 Com$^2$ 的基准,专注于复杂常识推理。我们首先引入因果事件图作为结构化的复杂常识。然后,我们采用因果理论(例如,干预)来修改因果事件图,并获得符合人类关注的不同情境。最后,我们使用 LLM 来合成具有慢思考的示例,这些示例由修改后的因果图中的逻辑关系指导。此外,我们使用侦探故事来构建一个更具挑战性的子集。实验表明,LLMs 在推理的深度和广度上存在困难,而后期训练和慢思考可以缓解这一问题。代码和数据可在此 https URL 获取。 |
[66] 表示分解用于跨模态情感计算中的相似性和对比性学习 标题: Representation Decomposition for Learning Similarity and Contrastness Across Modalities for Affective Computing 作者: Yuanhe Tian / Pengsen Cheng / Guoqing Jin / Lei Zhang / Yan Song 原文: [英文] [中文] 备注: 13 pages, 4 figures 摘要: 多模态情感计算旨在通过图像和文本等多种数据源自动识别和解释人类态度,从而增强人机交互和情感理解。现有的方法通常依赖于单模态分析或简单的跨模态信息融合,未能捕捉不同模态中呈现的复杂和冲突的证据。在本文中,我们提出了一种新颖的基于大型语言模型(LLM)的情感计算方法,该方法明确地将视觉和文本表示分解为共享(模态不变)和模态特定的组件。具体来说,我们的方法首先使用预训练的多模态编码器对输入模态进行编码和对齐,然后采用表示分解框架将共同的情感内容与独特的线索分离,最后通过注意力机制整合这些分解的信号,形成一个用于多模态大型语言模型的动态软提示。在情感计算的三个代表性任务上,即多模态基于方面的情感分析、多模态情感分析和仇恨模因检测,我们进行了广泛的实验,结果表明我们的方法有效性显著优于强基线和最新的模型。 |
[67] 我们距离最佳推理效率有多远? 标题: How Far Are We from Optimal Reasoning Efficiency? 作者: Jiaxuan Gao / Shu Yan / Qixin Tan / Lu Yang / Shusheng Xu / Wei Fu / Zhiyu Mei / Kaifeng Lyu / Yi Wu 原文: [英文] [中文] 备注: None 摘要: 大型推理模型(LRMs)通过扩展的链式思维(CoT)推理展示了卓越的问题解决能力,但往往会产生过于冗长和冗余的推理过程。这种低效导致高推理成本,并限制了实际应用。尽管现有的微调方法旨在提高推理效率,但由于评估不一致,评估其效率提升仍然具有挑战性。在这项工作中,我们引入了推理效率前沿,即通过在不同方法和训练配置下微调基础LRMs得出的经验上限。基于这些前沿,我们提出了推理效率差距(REG),这是一种统一的度量,用于量化任何微调LRMs与这些前沿的偏差。在具有挑战性的数学基准上的系统评估揭示了当前方法的显著差距:它们要么为了缩短长度而牺牲准确性,要么在严格的token预算下仍然低效。为了减少效率差距,我们提出了REO-RL,一类通过针对稀疏的token预算集来最小化REG的强化学习算法。通过对战略选择的预算进行数值积分,REO-RL使用少量的token预算以低误差逼近完整的效率目标。通过系统的基准测试,我们证明了我们的效率度量REG有效地捕捉了准确性-长度的权衡,低REG方法在保持准确性的同时减少了长度。我们的REO-RL方法在所有评估的LRMs中一致地将REG减少了>=50,并在16K token预算下以最小的准确性损失匹配了Qwen3-4B/8B的效率前沿。消融研究证实了我们指数token预算策略的有效性。最后,我们的研究结果强调,将LRMs微调到完美符合效率前沿仍然是一个未解决的挑战。 |
[68] 思维定理:一种用于语言模型中溯因、演绎和归纳推理的多智能体框架 标题: Theorem-of-Thought: A Multi-Agent Framework for Abductive, Deductive, and Inductive Reasoning in Language Models 作者: Samir Abdaljalil / Hasan Kurban / Khalid Qaraqe / Erchin Serpedin 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在自然语言推理任务中表现出色,但其推理过程仍然脆弱且难以解释。诸如链式思维(CoT)等提示技术通过引出中间推理步骤或聚合多个输出来增强可靠性。然而,它们缺乏强制逻辑结构和评估内部一致性的机制。我们引入了思维定理(ToTh),这是一种新颖的框架,将推理建模为三个并行代理之间的协作,每个代理模拟不同的推理模式:溯因推理、演绎推理和归纳推理。每个代理生成一个推理轨迹,并将其结构化为一个正式的推理图。为了评估一致性,我们应用由自然语言推理(NLI)指导的贝叶斯信念传播,为每个步骤分配置信度分数。选择最连贯的图来得出最终答案。在符号(WebOfLies)和数值(MultiArith)推理基准上的实验表明,ToTh在多个LLM中始终优于CoT、自我一致性和CoT解码,同时生成可解释且逻辑上有依据的推理链。我们的研究结果表明,为构建更稳健且具有认知启发的LLM推理提供了一个有前途的方向。实现代码可在此https URL获取。 |
[69] 提示科学报告2:链式思维在提示中的价值递减 标题: Prompting Science Report 2: The Decreasing Value of Chain of Thought in Prompting 作者: Lennart Meincke / Ethan Mollick / Lilach Mollick / Dan Shapiro 原文: [英文] 备注: None 摘要: 这是系列简报中的第二篇,旨在通过严格的测试帮助商业、教育和政策领导者理解与人工智能合作的技术细节。在本报告中,我们研究了链式思维(Chain-of-Thought, CoT)提示,这是一种鼓励大型语言模型(LLM)“逐步思考”的技术(Wei et al., 2022)。CoT 是一种广泛采用的方法,用于改善推理任务,然而,我们的研究结果揭示了其有效性更为复杂的图景。我们展示了两点: - 链式思维提示的有效性可能会因任务类型和模型而有很大差异。对于非推理模型,CoT 通常会略微提高平均性能,特别是当模型默认情况下不进行逐步处理时。然而,CoT 可能会引入答案的更多变异性,有时会在模型本来能答对的问题上引发偶然错误。我们还发现,许多最新的模型即使没有被要求,也会进行某种形式的 CoT 推理;对于这些模型,请求进行 CoT 的影响很小。执行 CoT 通常需要比直接回答更多的标记(增加了成本和时间)。 - 对于具有明确推理能力的模型,CoT 提示通常只会在答案准确性上带来微小的甚至没有的提升。然而,它显著增加了生成响应所需的时间和标记数量。 |
[70] 用于方面类别情感分析的语义保留增强与置信加权微调 标题: Semantic-preserved Augmentation with Confidence-weighted Fine-tuning for Aspect Category Sentiment Analysis 作者: Yaping Chai / Haoran Xie / Joe S. Qin 原文: [英文] [中文] 备注: 10 pages, 7 figures, 4 tables 摘要: 大型语言模型(LLM)是一种在低资源场景中解决数据稀缺问题的有效方法。最近的研究设计了手工制作的提示来引导LLM进行数据增强。我们为方面类别情感分析(ACSA)任务引入了一种数据增强策略,该策略保留了原始句子的语义并具有语言多样性,具体方法是为LLM提供一个结构化的提示模板以生成预定义的内容。此外,我们采用了一种后处理技术,以进一步确保生成句子与原始句子之间的语义一致性。增强的数据增加了训练分布的语义覆盖范围,使模型能够更好地理解方面类别与情感极性之间的关系,从而增强其推理能力。此外,我们提出了一种置信加权微调策略,以鼓励模型生成更有信心和更准确的情感极性预测。与强大且最新的工作相比,我们的方法在四个基准数据集上相对于所有基线始终实现最佳性能。 |
[71] 通过后验推断对语言模型进行句法控制 标题: Syntactic Control of Language Models by Posterior Inference 作者: Vicky Xefteri / Tim Vieira / Ryan Cotterell / Afra Amini 原文: [英文] [中文] 备注: None 摘要: 控制语言模型生成文本的句法结构对于需要清晰度、风格一致性或可解释性的应用来说是非常有价值的,但这仍然是一个具有挑战性的任务。在本文中,我们认为基于后验推断的采样算法可以在生成过程中有效地强制执行目标成分结构。我们的方法结合了序列蒙特卡罗方法,该方法通过从提议分布中采样来估计后验分布,以及一个句法标注器,确保每个生成的标记与所需的句法结构一致。我们在GPT2和Llama3-8B模型上的实验表明,使用适当的提议分布,我们可以提高句法准确性,将F1分数从$12.31$(GPT2-large)和$35.33$(Llama3-8B)提高到约$93$,同时不影响语言模型的流畅性。这些结果强调了句法控制的复杂性和采样算法的有效性,为需要精确控制句法的应用提供了一种有前途的方法。 |
[72] GeometryZero:通过群体对比策略优化提升大语言模型的几何解题能力 标题: GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization 作者: Yikun Wang / Yibin Wang / Dianyi Wang / Zimian Peng / Qipeng Guo / Dacheng Tao / Jiaqi Wang 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展展示了其在各个领域的卓越能力,特别是在数学推理中,其中几何问题解决仍然是一个具有挑战性的领域,辅助构造在其中起着至关重要的作用。现有的方法要么表现不佳,要么依赖于庞大的LLMs(例如,GPT-4o),从而导致巨大的计算成本。我们认为,具有可验证奖励的强化学习(例如,GRPO)为训练较小的模型提供了一个有前途的方向,这些模型能够有效地结合辅助构造与稳健的几何推理。然而,直接将GRPO应用于几何推理存在基本的局限性,因为它依赖于无条件奖励,这导致了不加区分且适得其反的辅助构造。为了解决这些挑战,我们提出了群体对比策略优化(GCPO),这是一种新颖的强化学习框架,具有两个关键创新:(1)群体对比掩码,它根据上下文效用自适应地为辅助构造提供正面或负面的奖励信号,以及(2)促进更长推理链的长度奖励。在GCPO的基础上,我们开发了GeometryZero,这是一系列具有经济规模的几何推理模型,能够明智地决定何时采用辅助构造。我们在流行的几何基准(Geometry3K, MathVista)上的广泛实证评估表明,GeometryZero模型始终优于基线(例如,GRPO),在所有基准上平均提高了4.29%。 |
[73] CTDGSI:全面利用实例选择方法进行自动文本分类。第七届信息系统论文、学位论文和毕业论文竞赛——第二十一届巴西信息系统研讨会 标题: CTDGSI: A comprehensive exploitation of instance selection methods for automatic text classification. VII Concurso de Teses, Dissertações e Trabalhos de Graduação em SI -- XXI Simpósio Brasileiro de Sistemas de Informação 作者: Washington Cunha / Leonardo Rocha / Marcos André Gonçalves 原文: [英文] [中文] 备注: 16 pages, 5 figures, 2 tables 摘要: 自然语言处理(NLP)的进展一直遵循“更多”的原则:更多的数据、更多的计算能力和更多的复杂性,这在大型语言模型中得到了最佳体现。然而,为特定应用训练(或微调)大型密集模型通常需要大量的计算资源。这篇博士论文关注的是一种研究不足的NLP数据工程技术,其潜力在当前被称为实例选择(IS)的场景中是巨大的。IS的目标是通过去除噪声或冗余实例来减少训练集的大小,同时保持训练模型的有效性并降低训练过程的成本。我们对应用于一个重要的NLP任务——自动文本分类(ATC)的IS方法进行了全面且科学的比较,考虑了几种分类解决方案和许多数据集。我们的研究结果揭示了IS解决方案的显著潜力尚未被充分利用。我们还提出了两种新颖的IS解决方案,这些方案是面向噪声和冗余感知的,专为大型数据集和变压器架构设计。我们的最终解决方案在所有数据集中实现了训练集平均减少41%,同时保持了相同的有效性水平。重要的是,我们的解决方案展示了1.67倍(最高可达2.46倍)的加速改进,使其能够扩展到包含数十万文档的数据集。 |
[74] RULE:强化反学习实现遗忘-保留的帕累托最优 标题: RULE: Reinforcement UnLEarning Achieves Forget-Retain Pareto Optimality 作者: Chenlong Zhang / Zhuoran Jin / Hongbang Yuan / Jiaheng Wei / Tong Zhou / Kang Liu / Jun Zhao / Yubo Chen 原文: [英文] [中文] 备注: Paper under review 摘要: 大规模语言模型(LLMs)在未经筛选的大型语料库上进行训练并广泛部署,引发了对包含敏感、版权或非法内容的日益关注。这导致了对LLM遗忘任务的兴趣增加:即在不从头重新训练或降低整体效用的情况下,有选择地从模型中移除特定信息。然而,现有方法通常依赖于大规模的遗忘和保留数据集,并且存在不自然的响应、较差的泛化或灾难性的效用损失。在这项工作中,我们提出了强化遗忘(RULE),一个高效的框架,将遗忘任务表述为拒绝边界优化问题。RULE通过使用遗忘集的一小部分和合成的边界查询进行训练,使用可验证的奖励函数来鼓励在与遗忘相关的查询上安全拒绝,同时在允许的输入上保留有用的响应。我们提供了理论和实证证据,证明RULE在实现目标遗忘的同时不损害模型效用的有效性。实验结果表明,RULE仅使用12%的遗忘集和8%的合成边界数据,便在遗忘质量上比现有基线提高了最多17.5%,在自然响应上提高了16.3%,同时保持了整体效用,实现了遗忘-保留的帕累托最优性。值得注意的是,我们进一步观察到RULE改善了模型输出的自然性,提高了训练效率,并表现出强大的泛化能力,将拒绝行为泛化到语义相关但未见过的查询。 |
[75] 奉承动态:视频大语言模型中的阿谀现象基准测试与分析 标题: Flattery in Motion: Benchmarking and Analyzing Sycophancy in Video-LLMs 作者: Wenrui Zhou / Shu Yang / Qingsong Yang / Zikun Guo / Lijie Hu / Di Wang 原文: [英文] [中文] 备注: 24 pages 摘要: 随着视频大语言模型(Video-LLMs)越来越多地融入需要基础多模态推理的实际应用中,确保其事实一致性和可靠性变得至关重要。然而,迎合性,即这些模型倾向于与用户输入对齐,即使它与视觉证据相矛盾,也会在这种情况下削弱其可信度。目前的迎合性研究在很大程度上忽视了其在视频语言领域的具体表现,导致缺乏系统的基准和针对性的评估来了解Video-LLMs在误导性用户输入下的反应。为填补这一空白,我们提出了VISE(视频大语言模型迎合性基准和评估),这是第一个专门设计的基准,用于评估最先进的Video-LLMs在各种问题格式、提示偏见和视觉推理任务中的迎合行为。具体而言,VISE开创性地将语言学视角引入视觉领域,使得可以对多种迎合类型和交互模式进行细粒度分析。此外,我们探索了关键帧选择作为一种可解释的、无需训练的缓解策略,这揭示了通过加强视觉基础来减少迎合性偏见的潜在路径。 |
[76] SDE-SQL:通过使用SQL探针的自驱动探索增强大型语言模型的文本到SQL生成 标题: SDE-SQL: Enhancing Text-to-SQL Generation in Large Language Models via Self-Driven Exploration with SQL Probes 作者: Wenxuan Xie / Yaxun Dai / Wenhao Jiang 原文: [英文] [中文] 备注: None 摘要: 最近在大型语言模型(LLMs)方面的进展显著提升了文本到SQL任务的表现。然而,以往的方法通常依赖于推理时提供的静态、预处理的数据库信息,这限制了模型对数据库内容的全面理解。没有动态交互,LLMs只能依赖固定的、人工提供的上下文,无法自主探索底层数据。为了解决这一限制,我们提出了SDE-SQL,一个使大型语言模型在推理过程中能够自我驱动探索数据库的框架。这是通过生成和执行SQL探测来实现的,这使得模型能够主动从数据库中检索信息,并迭代更新其对数据的理解。与以往的方法不同,SDE-SQL在零样本设置下运行,不依赖于任何问题-SQL对作为上下文示例。在使用Qwen2.5-72B-Instruct在BIRD基准上进行评估时,SDE-SQL在执行准确性上比原始的Qwen2.5-72B-Instruct基线提高了8.02%的相对改进,建立了基于开源模型的方法中没有监督微调(SFT)或模型集成的新标杆。此外,通过SFT,SDE-SQL的性能可以进一步提升,带来额外的0.52%的改进。 |
[77] 使用句子排序方法提高长文档分类的效率 标题: Improving the Efficiency of Long Document Classification using Sentence Ranking Approach 作者: Prathamesh Kokate / Mitali Sarnaik / Manavi Khopade / Raviraj Joshi 原文: [英文] [中文] 备注: None 摘要: 长文档分类由于基于Transformer的模型(特别是BERT)的计算限制而面临挑战,这些模型受限于固定的输入长度和二次注意力复杂度。此外,使用完整文档进行分类通常是多余的,因为通常只有一部分句子包含必要的信息。为了解决这个问题,我们提出了一种基于TF-IDF的句子排序方法,通过选择最具信息量的内容来提高效率。我们的方法探索了固定数量和基于百分比的句子选择,以及结合归一化TF-IDF分数和句子长度的增强评分策略。在长篇马拉地语新闻文章的MahaNews LDC数据集上进行评估,该方法始终优于如首句、末句和随机句子选择等基线方法。使用MahaBERT-v2,我们在分类准确率上仅比全上下文基线下降0.33个百分点,同时将输入大小减少了50%以上,推理延迟减少了43%。这表明在不牺牲性能的情况下,可以实现显著的上下文缩减,使该方法在实际的长文档分类任务中具有实用性。 |
[78] 菲律宾语言模型中的偏见归因:扩展偏见可解释性度量以应用于黏着语 标题: Bias Attribution in Filipino Language Models: Extending a Bias Interpretability Metric for Application on Agglutinative Languages 作者: Lance Calvin Lim Gamboa / Yue Feng / Mark Lee 原文: [英文] [中文] 备注: Accepted into the Gender Bias in NLP Workshop at ACL 2025 (GeBNLP@ACL2025) 摘要: 关于偏见归因和可解释性的最新研究揭示了在处理英语文本的语言模型中,词元如何导致偏见行为。我们在这一研究基础上,通过调整信息论偏见归因评分指标,使其适用于处理黏着语的模型,特别是菲律宾语。然后,我们通过在一个纯菲律宾语模型和三个多语言模型上使用我们调整的方法,展示了其有效性:一个模型训练于全球语言,另外两个则基于东南亚数据。我们的结果显示,菲律宾语模型的偏见倾向于由与人、物体和关系相关的词语驱动,这些实体为主题的词语与英语中偏见贡献主题的动作导向性质形成对比(如犯罪、性行为和亲社会行为)。这些发现指出了英语和非英语模型在处理与社会人口群体和偏见相关的输入时的差异。 |
[79] 在时间冲突下的问答:使用大型语言模型评估和组织不断演变的知识 标题: Question Answering under Temporal Conflict: Evaluating and Organizing Evolving Knowledge with LLMs 作者: Atahan Özer / Çağatay Yıldız 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)由于其广泛的参数记忆,在问答和推理方面表现出显著的能力。然而,它们的知识本质上受到其预训练数据范围的限制,而现实世界的信息则在不断演变。更新这些知识通常需要昂贵且脆弱的再训练,或在上下文学习(ICL),考虑到现代信息的数量和波动性,这在大规模上变得不切实际。受这些限制的启发,我们研究了LLMs在接触到时间文本语料库时的表现,这些文档反映了随时间演变的知识,例如体育传记中像球员“当前球队”这样的事实每年都会变化。为此,我们引入了两个新的基准:Temporal Wiki,捕捉历史维基百科快照中的事实漂移,以及Unified Clark,汇集带有时间戳的新闻文章以模拟现实世界的信息积累。我们的分析表明,LLMs经常难以调和冲突或过时的事实,并且在上下文中出现多个版本的事实时可能会被误导。为了解决这些问题,我们提出了一种轻量级的、代理性的框架,该框架从源文档中逐步构建一个结构化的外部记忆,而无需再训练。这种知识组织策略使模型能够在推理时检索和推理经过时间过滤的相关信息。实证结果表明,我们的方法在两个基准上均优于ICL和RAG基线,尤其是在需要更复杂的推理或整合冲突事实的问题上。 |
[80] 解析转换:基于大型语言模型的复杂代码转换和低资源语言的UD标注 标题: Parsing the Switch: LLM-Based UD Annotation for Complex Code-Switched and Low-Resource Languages 作者: Olga Kellert / Nemika Tyagi / Muhammad Imran / Nelvin Licona-Guevara / Carlos Gómez-Rodríguez 原文: [英文] [中文] 备注: 16 pages 摘要: 代码转换在句法分析中提出了复杂的挑战,特别是在标注数据稀缺的低资源语言环境中。尽管最近的研究探索了使用大型语言模型(LLMs)进行序列级标注,但很少有方法系统地研究这些模型在代码转换环境中捕捉句法结构的能力。此外,现有的基于单语树库训练的解析器往往无法推广到多语言和混合语言输入。为了解决这一差距,我们引入了BiLingua Parser,这是一种基于LLM的标注流程,旨在为代码转换文本生成通用依存关系(UD)标注。首先,我们为西班牙语-英语和西班牙语-瓜拉尼语数据开发了一种基于提示的框架,结合少量示例的LLM提示和专家审查。其次,我们发布了两个标注数据集,其中包括第一个西班牙语-瓜拉尼语UD解析语料库。第三,我们对跨语言对和交流环境的转换点进行了详细的句法分析。实验结果表明,BiLingua Parser在专家修订后实现了高达95.29%的LAS,显著优于之前的基线和多语言解析器。这些结果表明,经过精心指导的LLMs可以作为在资源不足的代码转换环境中引导句法资源的实用工具。数据和源代码可在此https URL获取。 |
[81] 探索温度对大型语言模型的影响:热还是冷? 标题: Exploring the Impact of Temperature on Large Language Models:Hot or Cold? 作者: Lujun Li / Lama Sleem / Niccolo' Gentile / Geoffrey Nichil / Radu State 原文: [英文] [中文] 备注: None 摘要: 采样温度是大型语言模型(LLMs)中的一个关键超参数,它在softmax层之前修改logits,从而重塑输出标记的分布。最近的研究通过证明LLMs能够理解语义而不仅仅是记忆数据,挑战了“随机鹦鹉”的类比,并且随机性由采样温度调节,在模型推理中起着至关重要的作用。在这项研究中,我们系统地评估了温度在0到2范围内对设计用于评估六种不同能力的数据集的影响,并对三种不同规模的开源模型进行了统计分析:小型(1B--4B)、中型(6B--13B)和大型(40B--80B)。我们的研究结果揭示了温度对模型性能的技能特定影响,突出了在实际应用中选择最佳温度的复杂性。为了解决这一挑战,我们提出了一种基于BERT的温度选择器,利用这些观察到的效果来识别给定提示的最佳温度。我们证明了这种方法可以显著提高小型和中型模型在SuperGLUE数据集中的性能。此外,我们的研究扩展到FP16精度推理,揭示了温度效应与在4位量化模型中观察到的一致。通过评估三个量化模型中高达4.0的温度效应,我们发现突变温度——显著性能变化发生的点——随着模型规模的增加而增加。 |
[82] 桥接照应标注中的主观性 标题: Subjectivity in the Annotation of Bridging Anaphora 作者: Lauren Levine / Amir Zeldes 原文: [英文] [中文] 备注: LAW-XIX, ACL 2025 Workshop 摘要: 桥接指的是在话语中可推断实体与前述信息之间的关联关系,例如理解“门”在提到的“房子”中的含义。由于识别实体之间的关联关系本质上是一个主观任务,因此在桥接照应及其前述信息的标注中很难实现一致的共识。在本文中,我们探讨了桥接实例标注中涉及的主观性,具体在三个层面:照应词识别、前述信息解析和桥接子类型选择。为此,我们在现有的GUM语料库的测试集上进行了标注试验,并提出了一种新开发的桥接子类型分类系统,并与先前提出的方案进行了比较。我们的结果表明,一些先前的资源可能存在严重的标注不足。我们还发现,尽管在桥接子类型类别上的一致性中等,但在全面识别桥接实例方面,标注者的重叠度较低,许多分歧源于对涉及实体的主观理解。 |
[83] ConfQA:只有在有信心时才回答 标题: ConfQA: Answer Only If You Are Confident 作者: Yin Huang / Yifan Ethan Xu / Kai Sun / Vera Yan / Alicia Sun / Haidar Khan / Jimmy Nguyen / Mohammad Kachuee / Zhaojiang Lin / Yue Liu / Aaron Colak / Anuj Kumar / Wen-tau Yih / Xin Luna Dong 原文: [英文] [中文] 备注: 10 pages main content, 10 pages appendix, 5 figures, 7 tables 摘要: 我们能否教会大型语言模型(LLMs)避免生成虚假的事实陈述?在本文中,我们提出了一种称为ConfQA的微调策略,可以将幻觉率从20-40%降低到多个事实性基准下的5%以下。核心思想很简单:当LLM正确回答问题时,它会被训练继续给出答案;否则,它会被训练承认“我不确定”。但有两个关键因素使得训练非常有效。首先,我们引入了一个减弱提示“只有在有信心时才回答”,以明确指导行为,否则幻觉率仍然高达15%-25%。其次,我们利用简单的事实陈述,特别是来自知识图谱的属性值,帮助LLMs校准信心,从而在不同领域和问题类型中实现稳健的泛化。基于这一见解,我们提出了双重神经知识框架,该框架能够根据ConfQA的信心无缝选择内部参数化的神经知识和外部记录的符号知识。该框架使得潜在的准确性提升到95%以上,同时减少了超过30%的不必要的外部检索。 |
[84] 通过最优和最劣标记实现奖励模型的可解释性 标题: Reward Model Interpretability via Optimal and Pessimal Tokens 作者: Brian Christian / Hannah Rose Kirk / Jessica A.F. Thompson / Christopher Summerfield / Tsvetomira Dumbalska 原文: [英文] [中文] 备注: Accepted for publication in Proceedings of the 2025 ACM Conference on Fairness, Accountability, and Transparency (FAccT '25), to appear June 2025 摘要: 奖励建模已成为使大型语言模型与人类价值观对齐的关键组成部分。大量关注集中在使用奖励模型作为微调生成模型的一种手段。然而,奖励模型本身——通过将提示-响应对转化为标量奖励直接编码人类价值判断——仍然相对缺乏研究。我们提出了一种通过对其在整个词汇空间中的响应进行详尽分析来解释奖励模型的新方法。通过检查不同奖励模型如何对价值负载的提示的每一个可能的单词响应进行评分,我们发现了几个显著的发现:(i)在相似目标上训练的模型之间存在显著的异质性,(ii)模型在编码高分与低分词汇时存在系统的不对称性,(iii)对提示框架的显著敏感性反映了人类的认知偏见,以及(iv)对更频繁词汇的过度估值。我们在十个最近的开源奖励模型中展示了这些效应,这些模型具有不同的参数数量和架构。我们的结果挑战了关于奖励模型可互换性的假设,以及它们作为复杂和情境依赖的人类价值观代理的适用性。我们发现这些模型可能会对某些身份群体产生令人担忧的偏见,这可能是无害性训练的意外后果——这些扭曲有可能通过现在部署给数百万人的下游大型语言模型传播。 |
[85] 通过可解释的角色扮演引导提升大型语言模型的推理能力 标题: Improving LLM Reasoning through Interpretable Role-Playing Steering 作者: Anyi Wang / Dong Shu / Yifan Wang / Yunpu Ma / Mengnan Du 原文: [英文] [中文] 备注: 21 pages, 8 figures, 8 tables 摘要: 角色扮演已成为增强大型语言模型(LLMs)推理能力的有效技术。然而,现有方法主要依赖于提示工程,这往往缺乏稳定性和可解释性。在本文中,我们介绍了一种新的框架——稀疏自编码器角色扮演引导(SRPS),该框架识别并操控与角色扮演行为相关的内部模型特征。我们的方法从角色扮演提示中提取潜在表示,根据激活模式选择最相关的特征,并构建一个可以以可控强度注入模型残差流的引导向量。我们的方法能够对特定角色行为进行细粒度控制,并提供关于角色信息如何影响内部模型激活的见解。在各种推理基准和模型规模上的大量实验表明,性能有一致的提升。值得注意的是,在零样本链式思维(CoT)设置中,Llama3.1-8B在CSQA上的准确率从31.86%提高到39.80%,而Gemma2-9B在SVAMP上的准确率从37.50%提高到45.10%。这些结果突显了SRPS在增强LLMs推理能力方面的潜力,与传统基于提示的角色扮演相比,提供了更好的可解释性和稳定性。 |
[86] 拒绝特征引导的教师:通过数据过滤和对齐蒸馏实现安全微调 标题: Refusal-Feature-guided Teacher for Safe Finetuning via Data Filtering and Alignment Distillation 作者: Seokil Ham / Yubin Choi / Seungju Cho / Yujin Yang / Younghun Kim / Changick Kim 原文: [英文] [中文] 备注: None 摘要: 最近,谷歌和OpenAI等主要的AI服务提供商推出了微调即服务(Finetuning-as-a-Service),使用户能够使用自己的数据为特定的下游任务定制大型语言模型(LLMs)。然而,当用户数据包含有害提示时,这项服务容易导致LLM的安全对齐性下降。虽然一些先前的工作解决了这个问题,但从根本上过滤用户数据中的有害数据仍未被探索。受到我们观察的启发,我们发现从安全对齐的LLM中获得的反映拒绝行为的方向性表示(称为拒绝特征)可以本质上区分有害和无害的提示,因此我们提出了拒绝特征引导教师(ReFT)。我们的ReFT模型通过输入提示特征与其拒绝特征之间的相似性来识别有害提示。在微调过程中,ReFT模型作为教师,从用户数据中过滤有害提示,并将对齐知识传递到基础模型。大量实验表明,我们基于ReFT的微调策略有效地减少了有害输出,并提高了用户特定任务的微调准确性,为在微调即服务中安全可靠地部署LLM提供了实用的解决方案。 |
[87] SEED:通过自动证据生成提升文本到SQL的性能和实用性 标题: SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation 作者: Janghyeon Yun / Sang-goo Lee 原文: [英文] [中文] 备注: None 摘要: 文本到SQL技术使非专业人士能够通过将自然语言查询转换为SQL来从数据库中检索数据。然而,最先进的文本到SQL研究依赖于BIRD数据集,该数据集假设问题是与证据一起提供的。虽然BIRD促进了研究进展,但它假设用户具备专业知识和领域知识,这与文本到SQL的基本目标相矛盾。此外,BIRD中的人工生成证据存在缺陷,包括缺失或错误的证据,这影响了模型性能。为了解决这个问题,我们提出了SEED(证据提取和领域知识生成系统),一种自动生成证据的方法,以提高性能和在现实场景中的实用性。SEED系统地分析数据库模式、描述文件和数值以提取相关信息。我们在BIRD和Spider数据集上评估了SEED,结果表明它在无证据场景下显著提高了SQL生成的准确性,并且在某些情况下甚至优于提供BIRD证据的设置。我们的结果强调,SEED生成的证据不仅弥合了研究与现实世界部署之间的差距,还提高了文本到SQL模型的适应性和鲁棒性。我们的代码可在此HTTPS URL获取。 |
[88] 插件与微调:弥合小型语言模型与大型语言模型之间的差距 标题: Plug-in and Fine-tuning: Bridging the Gap between Small Language Models and Large Language Models 作者: Kyeonghyun Kim / Jinhee Jang / Juhwan Choi / Yoonji Lee / Kyohoon Jin / YoungBin Kim 原文: [英文] 备注: ACL 2025 main conference 摘要: 大型语言模型(LLMs)以其广泛的语言知识和强大的泛化能力而闻名,但其高计算需求使其不适合资源受限的环境。相比之下,小型语言模型(SLMs)在计算上更为高效,但通常缺乏LLMs的广泛泛化能力。为弥合这一差距,我们提出了PiFi,这是一种新颖的框架,结合了LLMs和SLMs的优势,以在保持效率的同时实现高性能。PiFi将一个冻结的LLM层集成到SLM中,并针对特定任务微调组合模型,在不显著增加计算成本的情况下提升性能。我们展示了PiFi在一系列自然语言处理任务中提供了一致的性能提升,包括自然语言理解和生成。此外,我们的研究结果表明,PiFi能够有效利用LLM的知识,增强对未见领域的泛化能力,并促进语言能力的转移。 |
[89] 结合谓词与标量含义 标题: Conjoined Predication and Scalar Implicature 作者: Ratna Kandala 原文: [英文] 备注: None 摘要: Magri (2016) 研究了由连接词引发的两个难题。虽然Magri已经为第二个难题提出了解决方案,但第一个难题仍未解决。第一个难题揭示了量化、集合/并发解释以及语境更新维度之间尚未被探索的隐藏互动。实质上,问题在于某些句子形式,如“有些意大利人来自温暖的国家”,当与“(只有)有些意大利人来自温暖的国家并且是金发”这样的句子结合时,听起来不合适,尽管没有明显的替代项触发冲突的标量含义。在本文中,我们通过将其置于原始理论框架内,提供了对Magri第一个难题的概念分析。我们认为,这种奇怪现象源于连接谓词的集合或并发解读:在诸如“(只有)有些意大利人来自温暖的国家并且是金发”这样的例子中,这种解释产生了间接的语境矛盾。此外,我们建议,标量含义生成的语用机制超出了基于穷尽化的语法许可理论所能捕捉的范围。 |
[90] 良好的开端是成功的一半:通过弱到强解码实现低资源偏好对齐 标题: Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding 作者: Feifan Song / Shaohang Wei / Wen Luo / Yuxuan Fan / Tianyu Liu / Guoyin Wang / Houfeng Wang 原文: [英文] [中文] 备注: Accepted by ACL 2025 Findings 摘要: 大型语言模型(LLMs)需要与人类偏好对齐,以避免生成冒犯性、错误或无意义的内容。最近,低资源的LLM对齐方法变得流行,但在获取高质量且对齐的内容方面仍面临挑战。基于生成对齐响应的难度主要集中在解码开始阶段的观察,我们提出了一种新颖的框架,称为从弱到强解码(WSD),通过小型对齐模型的指导来增强基础模型的对齐能力。小模型首先起草出良好对齐的开头,然后由大型基础模型继续其余部分,并由精心设计的自动切换机制控制。我们还收集了一个新的数据集,GenerAlign,用于微调一个小型的Pilot-3B作为草稿模型,该模型在WSD框架下有效增强了不同的基础模型,超越了所有基线方法,同时避免了在下游任务上的性能下降,这被称为对齐税。我们还进行了广泛的实验,以进一步检验不同设置和时间效率的影响,并深入分析WSD的内在机制。 |
[91] LG-ANNA-Embedding 技术报告 标题: LG-ANNA-Embedding technical report 作者: Jooyoung Choi / Hyun Kim / Hansol Jang / Changwook Jun / Kyunghoon Bae / Hyewon Choi / Stanley Jungkyu Choi / Honglak Lee / Chulmin Yun 原文: [英文] [中文] 备注: 10 pages 摘要: 本报告提出了一个统一的基于指令的框架,用于学习通用的文本嵌入,这些嵌入针对信息检索(IR)和非IR任务进行了优化。我们的方法基于一个仅解码的大型语言模型(Mistral-7B),结合了上下文学习、软监督和自适应硬负样本挖掘,以生成上下文感知的嵌入,而无需特定任务的微调。结构化的指令和少量示例用于指导模型处理各种任务,从而在分类、语义相似性、聚类和重排序基准测试中表现出色。为了提高语义区分能力,我们采用了一个软标签框架,其中从高性能密集检索器和重排序器中提取的连续相关性分数作为细粒度的监督信号。此外,我们引入了基于自适应边距的硬负样本挖掘,根据负样本与正样本的相似性过滤掉语义上模糊的负样本,从而增强训练的稳定性和检索的鲁棒性。我们的模型在新引入的MTEB(英语,v2)基准上进行了评估,该基准涵盖了七个类别的41个任务。结果表明,我们的方法实现了强大的泛化能力,并在Borda得分中名列前茅,优于几个更大或完全微调的基线。这些发现突出了结合上下文提示、软监督和自适应采样以实现可扩展的高质量嵌入生成的有效性。 |
[92] 理解低资源主题建模中的跨领域适应 标题: Understanding Cross-Domain Adaptation in Low-Resource Topic Modeling 作者: Pritom Saha Akash / Kevin Chen-Chuan Chang 原文: [英文] [中文] 备注: None 摘要: 主题建模在揭示文本语料库中的隐藏语义结构方面起着至关重要的作用,但现有模型在低资源环境中表现不佳,因为有限的目标域数据导致主题推断不稳定且不连贯。我们通过正式引入低资源主题建模的领域适应来解决这一挑战,其中高资源源域为低资源目标域提供信息,而不会用不相关的内容淹没它。我们建立了一个有限样本泛化界限,表明有效的知识转移依赖于在两个领域的稳健表现,最小化潜在空间差异,并防止对数据的过拟合。在这些见解的指导下,我们提出了DALTA(Domain-Aligned Latent Topic Adaptation),一个新框架,采用共享编码器用于领域不变特征,专用解码器用于领域特定细微差别,以及对抗性对齐以选择性地转移相关信息。在各种低资源数据集上的实验表明,DALTA在主题连贯性、稳定性和可转移性方面始终优于最先进的方法。 |
[93] KScope:一种用于表征语言模型知识状态的框架 标题: KScope: A Framework for Characterizing the Knowledge Status of Language Models 作者: Yuxin Xiao / Shan Chen / Jack Gallifant / Danielle Bitterman / Thomas Hartvigsen / Marzyeh Ghassemi 原文: [英文] [中文] 备注: None 摘要: 对大型语言模型(LLM)在特定问题上的知识进行表征是具有挑战性的。因此,之前的研究主要考察了在知识冲突情况下的LLM行为,即模型的内部参数记忆与外部上下文中的信息相矛盾。然而,这并不能完全反映模型对问题答案的了解程度。在本文中,我们首先基于LLM知识模式的一致性和正确性引入了五种知识状态的分类法。然后,我们提出了KScope,这是一种分层的统计测试框架,可以逐步细化关于知识模式的假设,并将LLM的知识表征为这五种状态之一。我们将KScope应用于四个数据集中的九个LLM,并系统性地确定:(1)支持性上下文缩小了模型之间的知识差距。(2)与难度、相关性和熟悉度相关的上下文特征推动了成功的知识更新。(3)当部分正确或存在冲突时,LLM表现出相似的特征偏好,但在持续错误时则明显不同。(4)通过我们的特征分析约束的上下文摘要,结合增强的可信度,进一步提高了更新效果,并在不同的LLM中实现了泛化。 |
[94] 从校准到协作:大语言模型的不确定性量化应更加以人为中心 标题: From Calibration to Collaboration: LLM Uncertainty Quantification Should Be More Human-Centered 作者: Siddartha Devic / Tejas Srinivasan / Jesse Thomason / Willie Neiswanger / Vatsal Sharan 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在现实世界中越来越多地协助用户,但其可靠性仍然令人担忧。不确定性量化(UQ)被誉为通过使用户知道何时信任LLM的预测来增强人机协作的工具。我们认为,当前LLM的不确定性量化实践对于开发对人类用户在现实任务中做出决策有用的UQ并不理想。通过对40种LLM UQ方法的分析,我们识别出三种阻碍社区实现其惠及下游用户目标的普遍做法:1)在生态有效性低的基准上进行评估;2)仅考虑认知不确定性;3)优化不一定能反映下游效用的指标。针对每个问题,我们提出了具体的以用户为中心的实践和研究方向,LLM UQ研究人员应予以考虑。我们主张,社区应采用更以人为本的方法来进行LLM不确定性量化,而不是在不具代表性的任务上使用不完善的指标进行爬坡。 |
[95] CCI4.0:用于增强大型语言模型推理能力的双语预训练数据集 标题: CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models 作者: Guang Liu / Liangdong Wang / Jijie Li / Yang Yu / Yao Xu / Jiabei Chen / Yu Bai / Feng Liao / Yonghua Lin 原文: [英文] [中文] 备注: None 摘要: 我们介绍了CCI4.0,这是一个大规模的双语预训练数据集,旨在提供卓越的数据质量和多样化的人类思维轨迹。CCI4.0大约占用35 TB的磁盘空间,由两个子数据集组成:CCI4.0-M2-Base和CCI4.0-M2-CoT。CCI4.0-M2-Base结合了一个5.2 TB精心策划的中文网络语料库、一个来自Nemotron-CC的22.5 TB英文子集,以及来自数学、维基、arxiv和代码的多样化来源。尽管这些数据大多来自经过良好处理的数据集,但各个领域的质量标准是动态的,需要广泛的专家经验和劳动来处理。因此,我们提出了一种新颖的流程,主要基于模型通过两阶段去重、多分类器质量评分和领域感知流畅性过滤来验证数据质量。我们提取了45亿个CoT(思维链)模板,命名为CCI4.0-M2-CoT。与从更大模型中提取CoT不同,我们提出的分阶段CoT提取展示了多样化的推理模式,并显著降低了幻觉的可能性。实证评估表明,在CCI4.0中预训练的LLM受益于更清晰、更可靠的训练信号,在下游任务中表现出一致的改进,特别是在数学和代码反思任务中。我们的结果强调了严格的数据策划和人类思维模板在提升LLM性能中的关键作用,为自动处理预训练语料库提供了一些启示。 |
[96] 提高大型语言模型在多文档摘要中的公平性 标题: Improving Fairness of Large Language Models in Multi-document Summarization 作者: Haoyuan Li Yusen Zhang / Snigdha Chaturvedi 原文: [英文] [中文] 备注: Accepted to ACL 2025 main 摘要: 在多文档摘要(MDS)中实现公平性对于在具有不同社会属性值的文档中提供全面的视角至关重要,这对决策有显著影响。例如,一个倾向于过度代表产品负面评论的摘要系统可能会误导客户忽视好的产品。以往的研究在两个层面上衡量MDS的公平性:摘要层面和语料库层面。摘要层面的公平性关注单个摘要,而语料库层面的公平性则关注一组摘要。最近的方法主要关注摘要层面的公平性。我们提出了FairPO,一种在MDS中同时关注摘要层面和语料库层面公平性的偏好调优方法。为了提高摘要层面的公平性,我们提出通过扰动文档集生成偏好对。为了提高语料库层面的公平性,我们提出通过动态调整偏好对的权重来进行公平性意识的偏好调优。我们的实验表明,FairPO在保持摘要关键质量的同时,优于强基线。代码可在此https URL获取。 |
[97] 用于结构化任务优化的混合遗传算法大语言模型框架 标题: A Hybrid GA LLM Framework for Structured Task Optimization 作者: Berry Feng / Jonas Lin / Patrick Lau 原文: [英文] 备注: 7 pages 摘要: GA LLM 是一个混合框架,将遗传算法与大型语言模型结合起来,以在严格约束下处理结构化生成任务。每个输出,如计划或报告,都被视为一个基因,选择、交叉和变异等进化操作由语言模型指导,以迭代地改进解决方案。语言模型提供领域知识和创造性变化,而遗传算法确保结构完整性和全局优化。GA LLM 在行程规划、学术大纲和商业报告等任务中已被证明是有效的,能够持续产生结构良好且满足要求的结果。其模块化设计也使其易于适应新任务。与单独使用语言模型相比,GA LLM 通过结合两个组件的优势,实现了更好的约束满足和更高质量的解决方案。 |
[98] 辩论:一个通过语音解开普通话文本歧义的数据集 标题: DEBATE: A Dataset for Disentangling Textual Ambiguity in Mandarin Through Speech 作者: Haotian Guo / Jing Han / Yongfeng Tu / Shihao Gao / Shengfan Shen / Wulong Xiang / Weihao Gan / Zixing Zhang 原文: [英文] [中文] 备注: None 摘要: 尽管在文本和视觉消歧方面已有广泛研究,但通过语音进行消歧(DTS)仍然未被充分探索。这主要是由于缺乏将口语句子与丰富的歧义文本配对的高质量数据集。为了解决这一空白,我们推出了DEBATE,这是一个独特的公共中文语音文本数据集,旨在研究语音提示和模式——发音、停顿、重音和语调——如何帮助解决文本歧义并揭示说话者的真实意图。DEBATE包含1001个精心挑选的歧义话语,每个话语由10位母语者录制,捕捉多样的语言歧义及其通过语音的消歧。我们详细介绍了数据收集流程并提供了严格的质量分析。此外,我们对三个最先进的大型语音和音频语言模型进行了基准测试,展示了机器和人类对口语意图理解之间明显且巨大的性能差距。DEBATE代表了此类研究的首次尝试,并为跨语言和文化构建类似的DTS数据集提供了基础。数据集和相关代码可在此网址获取:this https URL。 |
[99] 印尼人真正需要的语言技术是什么?——一项全国性调查 标题: What Do Indonesians Really Need from Language Technology? A Nationwide Survey 作者: Muhammad Dehan Al Kautsar / Lucky Susanto / Derry Wijaya / Fajri Koto 原文: [英文] [中文] 备注: 26 pages, 12 figures, 5 tables 摘要: 目前正在努力为印度尼西亚的700多种地方语言开发自然语言处理技术,但由于需要与母语者直接接触,进展仍然昂贵。然而,这些语言社区真正需要的语言技术是什么尚不清楚。为了解决这个问题,我们进行了一项全国性调查,以评估印度尼西亚母语者的实际需求。我们的研究结果表明,解决语言障碍,特别是通过机器翻译和信息检索,是最关键的优先事项。尽管人们对语言技术的进步充满热情,但围绕隐私、偏见以及将公共数据用于人工智能训练的担忧,突显了需要更大的透明度和明确的沟通,以支持更广泛的人工智能采用。 |
[100] DeRAGEC:使用合成推理对命名实体候选进行去噪以纠正语音识别错误 标题: DeRAGEC: Denoising Named Entity Candidates with Synthetic Rationale for ASR Error Correction 作者: Solee Im / Wonjun Lee / Jinmyeong An / Yunsu Kim / Jungseul Ok / Gary Geunbae Lee 原文: [英文] [中文] 备注: ACL2025 Findings 摘要: 我们提出了DeRAGEC,这是一种用于改进自动语音识别(ASR)系统中命名实体(NE)校正的方法。通过扩展检索增强生成错误校正(RAGEC)框架,DeRAGEC使用合成去噪理由在校正之前过滤掉噪声的NE候选。通过利用语音相似性和增强定义,它使用上下文学习来优化噪声检索的NE,而无需额外的训练。在CommonVoice和STOP数据集上的实验结果显示,DeRAGEC在词错误率(WER)和NE命中率方面有显著的改进,优于基线ASR和RAGEC方法。具体来说,与没有后处理的ASR相比,我们实现了28%的WER相对降低。我们的源代码可在以下网址公开获取:this https URL |
[101] 迈向具有自洽自然语言解释的大型语言模型 标题: Towards Large Language Models with Self-Consistent Natural Language Explanations 作者: Sahar Admoni / Ofra Amir / Assaf Hallak / Yftah Ziser 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)似乎提供了一条通往可解释性的简单途径:只需让它们解释自己的决策。然而,研究表明,这些事后解释往往误导了真实的决策过程,因为特征重要性上的不匹配揭示了这一点。尽管有越来越多的证据表明这种不一致性,但尚未出现系统的解决方案,部分原因是估计特征重要性的高成本,这限制了评估只能在小型数据集上进行。为了解决这个问题,我们引入了事后自洽性库(PSCB)——一个涵盖多样化任务和模型的大规模决策基准,每个决策都配有LLM生成的解释和相应的特征重要性分数。对PSCB的分析表明,自洽性分数在正确和错误预测之间几乎没有差异。我们还展示了标准指标未能有意义地区分解释。为克服这一限制,我们提出了一种替代指标,更有效地捕捉解释质量的变化。我们使用它通过直接偏好优化(DPO)微调LLMs,从而显著改善了解释与决策相关特征之间的对齐,即使在领域转移的情况下也是如此。我们的研究结果指出了一条通向更值得信赖、自洽性更强的LLMs的可扩展路径。 |
[102] 比特级BPE:低于字节边界 标题: Bit-level BPE: Below the byte boundary 作者: Sangwhan Moon / Tatsuya Hiraoka / Naoaki Okazaki 原文: [英文] [中文] 备注: None 摘要: 在大规模语言模型中,字节级回退用于子词分词已成为一种常见做法。特别是,它被证明是一种非常有效的实用解决方案,可以防止词汇表外(OOV)问题,尤其是在较大模型的情况下。然而,将一个字符分解为单独的字节会显著增加长尾词在中文、日文、韩文(CJK)等语言以及其他字符多样化环境(如表情符号)中的序列长度。序列长度的增加导致训练和推理期间的计算时间更长。在这项工作中,我们提出了一种简单的压缩技术,可以无损地减少序列长度。 |
[103] SELT:具有任务分解的LLM自我评估树搜索 标题: SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition 作者: Mengsong Wu / Di Zhang / Yuqiang Li / Dongzhan Zhou / Wenliang Chen 原文: [英文] [中文] 备注: 11 pages, 5 figures 摘要: 尽管大型语言模型(LLMs)在广泛的应用中取得了显著成功,但在复杂推理任务中的表现往往会下降。在这项工作中,我们介绍了SELT(自我评估LLM树搜索),这是一种新颖的框架,利用改进的蒙特卡罗树搜索(MCTS)来增强LLM的推理能力,而无需依赖外部奖励模型。通过重新定义上置信界评分以与LLM的内在自我评估能力对齐,并将推理过程分解为原子子任务,在每个节点进行语义聚类增强,SELT有效地平衡了探索与利用,减少了冗余的推理路径,并减轻了幻觉现象。我们在具有挑战性的基准测试中验证了我们的方法,包括基于知识的MMLU和工具学习数据集Seal-Tools,其中SELT在答案准确性和推理稳健性方面相比基线方法取得了显著的改进。值得注意的是,我们的框架无需进行任务特定的微调,展示了在不同推理任务中的强大泛化能力。相关结果和代码可在此https URL获取。 |
[104] 超越句子:基于大型语言模型的上下文感知机器翻译研究综述 标题: Beyond the Sentence: A Survey on Context-Aware Machine Translation with Large Language Models 作者: Ramakrishna Appicharla / Baban Gain / Santanu Pal / Asif Ekbal 原文: [英文] [中文] 备注: None 摘要: 尽管大型语言模型(LLMs)非常流行,但它们在机器翻译中的应用相对较少被探索,尤其是在上下文感知的环境中。本文对使用LLMs进行上下文感知翻译的文献进行了综述。现有的研究利用了提示和微调的方法,少数研究集中在自动后编辑和创建用于上下文感知机器翻译的翻译代理上。我们观察到,商业LLMs(如ChatGPT和Tower LLM)比开源LLMs(如Llama和Bloom LLMs)取得了更好的结果,并且基于提示的方法可以作为评估翻译质量的良好基准。最后,我们提出了一些值得探索的有趣未来方向。 |
[105] 指导大型语言模型处理低资源语言:以巴斯克语为例的系统研究 标题: Instructing Large Language Models for Low-Resource Languages: A Systematic Study for Basque 作者: Oscar Sainz / Naiara Perez / Julen Etxaniz / Joseba Fernandez de Landa / Itziar Aldabe / Iker García-Ferrero / Aimar Zabala / Ekhi Azurmendi / German Rigau / Eneko Agirre / Mikel Artetxe / Aitor Soroa 原文: [英文] [中文] 备注: Under review 摘要: 指导语言模型以用户意图为目标需要大量的指令数据集,而这些数据集仅限于少数几种语言。在本文中,我们探讨了在资源匮乏的情况下,传统指令适应流程的替代方案。我们假设一种现实的低资源语言场景,其中仅有以下资源可用:目标语言的语料库、现有的开放权重多语言基础和指令化的骨干大型语言模型(LLM),以及从指令化骨干模型中合成生成的指令。我们为巴斯克语进行了全面的实验,系统地研究了这些组件的不同组合,并在基准测试和来自1680名参与者的人类偏好上进行了评估。我们的结论表明,目标语言语料库是必不可少的,合成指令能够产生稳健的模型,最重要的是,使用指令调优的模型作为骨干优于使用基础非指令模型,并在规模扩大时取得更好的结果。使用Llama 3.1 instruct 70B作为骨干,我们的模型在巴斯克语上接近更大规模的前沿模型,而除了1.2B字的语料库外没有使用任何巴斯克语数据。我们发布了代码、模型、指令数据集和人类偏好,以支持未来关于低资源语言适应的研究的完全可重复性。 |
[106] PolitiSky24:带有用户立场标签的美国政治Bluesky数据集 标题: PolitiSky24: U.S. Political Bluesky Dataset with User Stance Labels 作者: Peyman Rostami / Vahid Rahimzadeh / Ali Adibi / Azadeh Shakery 原文: [英文] [中文] 备注: The dataset is available at this https URL 摘要: 立场检测识别文本中针对特定目标(如政治人物)所表达的观点。尽管之前的数据集主要集中在来自已建立平台的推文级立场上,但用户级立场资源,尤其是在像Bluesky这样的新兴平台上,仍然稀缺。用户级立场检测通过考虑用户的完整发帖历史而不是孤立的帖子,提供了更全面的视角。我们提出了第一个针对2024年美国总统选举的立场检测数据集,该数据集从Bluesky收集,重点关注卡玛拉·哈里斯和唐纳德·特朗普。该数据集包含16,044个用户-目标立场对,并附有互动元数据、交互图和用户发帖历史。PolitiSky24是通过一个经过仔细评估的流程创建的,该流程结合了先进的信息检索和大型语言模型,生成带有支持理由和文本片段的立场标签以确保透明性。该标注方法在可扩展的大型语言模型上实现了81%的准确率。该资源通过其时效性、开放数据性质和用户级视角,填补了政治立场分析中的空白。数据集可在此https URL获取。 |
[107] Vuyko Mistral:适应低资源方言翻译的大型语言模型 标题: Vuyko Mistral: Adapting LLMs for Low-Resource Dialectal Translation 作者: Roman Kyslyi / Yuliia Maksymiuk / Ihor Pysmennyi 原文: [英文] [中文] 备注: Preprint. Will be published at Proceedings of the Fourth Ukrainian Natural Language Processing Workshop (UNLP) 摘要: 在本文中,我们首次尝试将大型语言模型(LLMs)适配于乌克兰方言(在我们的研究中为胡茨尔方言),这是一种资源稀缺且形态复杂的方言,主要在喀尔巴阡山高地使用。我们创建了一个包含9852对方言到标准乌克兰语句子的平行语料库,以及一个包含7320个方言词汇映射的词典。我们还通过提出一种先进的检索增强生成(RAG)流程来生成合成的平行翻译对,从而扩展了语料库,增加了52142个例子。我们使用LoRA微调了多个开源LLM,并在标准到方言的翻译任务中对它们进行了评估,同时与少样本的GPT-4o翻译进行了比较。在缺乏人工注释者的情况下,我们采用了一种多指标评估策略,结合了BLEU、chrF++、TER和基于LLM的判断(GPT-4o)。结果表明,即使是小型(7B)微调模型在自动和LLM评估的指标上也优于零样本基线,如GPT-4o。所有数据、模型和代码均在此https URL公开发布。 |
[108] LoRMA:用于大型语言模型的低秩乘法适应 标题: LoRMA: Low-Rank Multiplicative Adaptation for LLMs 作者: Harsh Bihany / Shubham Patel / Ashutosh Modi 原文: [英文] [中文] 备注: Accepted at ACL Findings 2025; 21 pages (9 main paper + 5 pages references + 7 pages appendix) 摘要: 大型语言模型在自然语言处理领域展现了卓越的能力。它们的高效性主要归功于其适应各种下游任务的能力。然而,通常情况下,完全微调是一个计算成本高昂的工作。为了解决这个问题,已经开发了许多提高效率的技术,其中一个显著的方法是低秩适应(LoRA)。然而,LoRA及其变体采用的是重新参数化的加性更新。在本文中,我们提出了低秩乘法适应(LoRMA),将加性更新的范式转移到更丰富的矩阵乘法变换空间。我们通过有效地重新排序操作和引入秩膨胀策略,解决了矩阵乘法的计算复杂性和秩瓶颈等挑战。我们进行了广泛的实验,以展示我们方法在各种评估指标上的有效性。 |
[109] 意图重要性:通过细粒度教学意图注释提升人工智能辅导 标题: Intent Matters: Enhancing AI Tutoring with Fine-Grained Pedagogical Intent Annotation 作者: Kseniia Petukhova / Ekaterina Kochmar 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在教育应用中具有巨大潜力,特别是在智能辅导系统中。然而,有效的辅导需要与教学策略相一致——这是当前的LLMs在没有针对特定任务的适应时所缺乏的。在这项工作中,我们探讨了教师意图的细粒度标注是否可以提高LLM生成的辅导回应的质量。我们专注于MathDial,一个用于数学教学的对话数据集,并应用自动化标注框架使用详细的十一种教学意图分类法重新标注数据集的一部分。然后,我们使用这些新标注对LLM进行微调,并将其性能与基于原始四类分类法训练的模型进行比较。自动和定性评估均表明,细粒度模型产生的回应在教学上更具一致性和有效性。我们的研究结果强调了在教育环境中进行受控文本生成时意图具体性的价值,我们发布了我们的标注数据和代码以促进进一步的研究。 |
[110] 解除对详细字幕的细粒度评估的阻碍:一个解释型自动评分器和批评-修订流程 标题: Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline 作者: Brian Gordon / Yonatan Bitton / Andreea Marzoca / Yasumasa Onoe / Xiao Wang / Daniel Cohen-Or / Idan Szpektor 原文: [英文] [中文] 备注: None 摘要: 大型视觉语言模型(VLMs)现在能够生成高度详细的段落长度的图像描述,但评估其事实准确性仍然具有挑战性。目前的方法往往会遗漏细粒度的错误,因为它们是为较短文本设计的,或者缺乏具有已验证不准确性的数据集。我们引入了DOCCI-Critique,这是一个基准,包含1,400个由VLM生成的段落描述(100张图像,14个VLM),其中有超过10,216条关于事实正确性和错误解释理由的句子级别的人类注释,所有这些都在段落上下文中。基于此,我们开发了VNLI-Critique,这是一种用于自动化句子级事实性分类和批评生成的模型。我们强调了三个关键应用:(1)VNLI-Critique展示了强大的泛化能力,通过在M-HalDetect基准上的最先进表现和在CHOCOLATE声明验证中的强劲结果得到验证。(2)由VNLI-Critique驱动的DOCCI-Critique的AutoRater提供了可靠的VLM排名,与人类事实性判断高度一致(例如,斯皮尔曼相关系数为0.98)。(3)一种创新的批评与修正流程,其中来自VNLI-Critique的批评指导基于LLM的修正,在描述事实性上取得了显著改进(例如,在DetailCaps-4870上提高了46%)。我们的工作提供了一个重要的基准以及实用工具,旨在显著提升细粒度评估的标准,并促进VLM图像理解的改进。项目页面:this https URL |
[111] TreeReview:基于大型语言模型的科学同行评审的深度高效动态问题树框架 标题: TreeReview: A Dynamic Tree of Questions Framework for Deep and Efficient LLM-based Scientific Peer Review 作者: Yuan Chang / Ziyue Li / Hengyuan Zhang / Yuanbo Kong / Yanru Wu / Zhijiang Guo / Ngai Wong 原文: [英文] [中文] 备注: 30 pages, 17 figures 摘要: 尽管大型语言模型(LLMs)在辅助同行评审方面显示出显著潜力,但当前的方法往往难以在保持效率的同时生成全面且有见地的评审。在本文中,我们提出了TreeReview,这是一种将论文评审建模为层次化和双向问答过程的新框架。TreeReview首先通过递归地将高层次问题分解为细粒度的子问题来构建评审问题树,然后通过从叶节点到根节点迭代聚合答案来解决问题树,以获得最终的评审。关键的是,我们引入了一种动态问题扩展机制,通过在需要时生成后续问题来实现更深入的探讨。我们构建了一个基于ICLR和NeurIPS会议的基准,用于评估我们的方法在完整评审生成和可操作反馈评论生成任务上的表现。基于LLM和人类评估的实验结果表明,TreeReview在提供全面、深入且与专家一致的评审反馈方面优于强基线,同时与计算密集型方法相比,减少了高达80%的LLM令牌使用量。我们的代码和基准数据集可在此https URL获取。 |
[112] 使用代理模型评估大型语言模型在资源较少语言中的鲁棒性 标题: Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models 作者: Maciej Chrabąszcz / Katarzyna Lorenc / Karolina Seweryn 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)近年来在各种自然语言处理(NLP)任务中展示了令人印象深刻的能力。然而,它们易受越狱和扰动的影响,因此需要进行额外的评估。许多LLM是多语言的,但与安全相关的训练数据主要包含高资源语言,如英语。这可能使它们容易受到低资源语言(如波兰语)中的扰动的影响。我们展示了如何通过仅改变几个字符并使用一个小的代理模型进行词重要性计算,廉价地创建出意外强大的攻击。我们发现,这些字符和词级别的攻击会极大地改变不同LLM的预测,表明存在一种潜在的漏洞,可以用来规避其内部安全机制。我们在波兰语(一种低资源语言)上验证了我们的攻击构建方法,并发现LLM在该语言中的潜在漏洞。此外,我们展示了如何将其扩展到其他语言。我们发布了创建的数据集和代码以供进一步研究。 |
[113] 用于日语语音标注的转录提示低声语音与字典增强解码 标题: Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation 作者: Rui Hu / Xiaolong Lin / Jiawang Liu / Shixi Huang / Zhenpeng Zhan 原文: [英文] [中文] 备注: Accepted to INTERSPEECH 2025 摘要: 在本文中,我们提出了一种在给定的音频-文本对上标注音素和韵律标签的方法,旨在构建日语文本到语音(TTS)数据集。我们的方法涉及微调一个大型预训练的自动语音识别(ASR)模型,该模型以真实文本为条件,同时输出短语级别的字母和标注标签。为了进一步纠正音素标注中的错误,我们采用了一种利用字典先验知识的解码策略。客观评估结果表明,我们提出的方法优于仅依赖文本或音频的先前方法。主观评估结果表明,使用我们的方法标注的标签训练的TTS模型合成的语音自然度可与使用人工标注训练的模型相媲美。 |
[114] 超越基准:一种用于领域特定大语言模型评估和知识映射的新框架 标题: Beyond Benchmarks: A Novel Framework for Domain-Specific LLM Evaluation and Knowledge Mapping 作者: Nitin Sharma / Thomas Wolfers / Çağatay Yıldız 原文: [英文] [中文] 备注: 35 pages, 24 figures. First submission 摘要: 本文解决了语言模型(LM)评估中的两个关键挑战:创建可靠的领域特定基准和理解领域适应过程中的知识表示。我们引入了一种确定性流程,将原始领域语料库转换为补全型基准,而不依赖于语言模型或人工策划,从而消除了基准污染问题,并能够对最新的领域数据进行评估。我们的方法使用TF和Term TF-IDF方法生成领域特定的关键词和相关词列表,并构建提示-目标对。我们通过测量模型完成这些提示的能力来评估其是否能正确地使用领域特定的目标,从而以低计算成本直接评估领域知识。通过在多个模型(GPT-2 medium/XL, Llama-2/3.1, OLMo-2, Qwen-2, Mistral)和领域上的综合实验,我们证明了我们的基准与专家生成的基准高度相关,同时比传统的困惑度指标更准确地衡量领域知识。我们揭示了在较小的模型中领域适应发生得很快(在500步内),并展示了一种在训练期间对基础模型进行领域知识评估的新方法,以便于早停。通过将机制分析扩展到领域适应,我们发现初始到中间层主要负责属性提取,而后期层则专注于下一个词的预测。此外,我们表明在适应过程中,遗忘从中间层开始,在属性提取发生的地方,并在后期层得到放大。我们的工作不仅提供了一种实用的领域特定语言模型评估方法,还在适应过程中对知识表示提供了新的见解,这对更高效的微调策略和有针对性地减轻灾难性遗忘的方法具有重要意义。 |
[115] 通过设计进行合成:通过结构引导实现受控数据生成 标题: Synthesis by Design: Controlled Data Generation via Structural Guidance 作者: Lei Xu / Sirui Chen / Yuxuan Huang / Chaochao Lu 原文: [英文] [中文] 备注: None 摘要: 由于复杂的逻辑和对精确计算的需求,数学推理对大型语言模型(LLMs)来说仍然具有挑战性。现有的方法通过问题重述来合成数据集以增强LLM的推理能力,但在生成质量和问题复杂性上面临问题。为了解决这些问题,我们提出从数学推理中提取结构信息,并通过生成的问题解决代码来指导数据生成。应用于MATH和GSM8K,我们的方法生成了39K个带有标记中间步骤的问题,以及一个包含6.1K个更高难度问题的基准。基准测试结果显示,随着推理长度的增加,模型性能下降。此外,我们使用所提出的训练数据对一系列LLM进行了微调实验,结果验证了我们数据集的有效性。我们希望所提出的方法和数据集能为未来增强LLM推理能力的研究做出贡献。 |
[116] Silencing Empowerment, Allowing Bigotry: Auditing the Moderation of Hate Speech on Twitch 标题: Silencing Empowerment, Allowing Bigotry: Auditing the Moderation of Hate Speech on Twitch 作者: Prarabdh Shukla / Wei Yin Chong / Yash Patel / Brennan Schaffner / Danish Pruthi / Arjun Bhagoji 原文: [英文] [中文] 备注: None 摘要: 为了满足内容审核的需求,在线平台已经开始使用自动化系统。像Twitch这样的平台上,用户在直播中进行评论等新型实时互动形式,对这些审核系统的延迟提出了额外的压力。尽管这些系统很普遍,但关于其有效性知之甚少。在本文中,我们对Twitch的自动化审核工具($\texttt{AutoMod}$)进行了审计,以调查其在标记仇恨内容方面的有效性。在我们的审计中,我们创建了流媒体账户作为独立的测试平台,并使用Twitch的API与实时聊天界面进行交互,发送了从4个数据集中收集的超过107,000条评论。我们测量了$\texttt{AutoMod}$在标记明显仇恨内容(包括厌女症、种族主义、能力歧视和恐同症)方面的准确性。我们的实验表明,在某些数据集中,多达94%的仇恨信息能够“绕过审核”。在这些信息中加入脏话后,100%被删除,这揭示了$\texttt{AutoMod}$依赖脏话作为审核信号。我们还发现,与Twitch的社区指南相反,$\texttt{AutoMod}$会屏蔽多达89.5%的在教育或赋权背景下使用敏感词的良性例子。总体而言,我们的审计指出了$\texttt{AutoMod}$能力上的巨大差距,并强调了此类系统有效理解上下文的重要性。 |
[117] GaRAGe:用于RAG评估的带有基础注释的基准 标题: GaRAGe: A Benchmark with Grounding Annotations for RAG Evaluation 作者: Ionut-Teodor Sorodoc / Leonardo F. R. Ribeiro / Rexhina Blloshmi / Christopher Davis / Adrià de Gispert 原文: [英文] [中文] 备注: ACL 2025 (Findings) 摘要: 我们介绍了GaRAGe,这是一个大型RAG基准,包含人工整理的长篇答案和每个基础段落的注释,允许对LLM在生成RAG答案时是否能够识别相关基础进行细粒度评估。我们的基准包含2366个问题,涉及多样的复杂性、动态性和主题,并包括从私人文档集和网络检索的超过35K个注释段落,以反映真实世界的RAG用例。这使其成为评估LLM识别仅需的相关信息以构成回答,或在信息不足时提供回避性回答能力的理想测试平台。对多个最先进的LLM在GaRAGe上的评估显示,模型倾向于过度总结,而不是(a)严格基于注释的相关段落来回答(最多达到60%的相关性感知事实性得分),或(b)在没有相关基础时进行回避(回避的真实阳性率最多达到31%)。在归因于相关来源的F1得分最多为58.9%,我们发现,在回答时间敏感的问题以及需要从稀疏的私人基础来源中提取知识时,性能尤其下降。 |
[118] 训练优越的稀疏自编码器以指导模型 标题: Training Superior Sparse Autoencoders for Instruct Models 作者: Jiaming Li / Haoran Ye / Yukun Chen / Xinyue Li / Lei Zhang / Hamid Alinejad-Rokny / Jimmy Chih-Hsien Peng / Min Yang 原文: [英文] [中文] 备注: None 摘要: 随着大型语言模型(LLMs)的规模和能力的增长,理解其内部机制变得越来越重要。稀疏自编码器(SAEs)已成为机制可解释性中的关键工具,使得从LLMs中提取人类可解释的特征成为可能。然而,现有的SAE训练方法主要是为基础模型设计的,当应用于指令模型时,会导致重建质量和可解释性降低。为了解决这一问题,我们提出了$\underline{\textbf{F}}$inetuning-$\underline{\textbf{a}}$ligned $\underline{\textbf{S}}$equential $\underline{\textbf{T}}$raining ($\textit{FAST}$),这是一种专门为指令模型量身定制的新颖训练方法。$\textit{FAST}$使训练过程与指令模型特有的数据分布和激活模式对齐,从而在重建和特征可解释性方面取得了显著的改进。在Qwen2.5-7B-Instruct上,$\textit{FAST}$在标记重建中实现了0.6468的均方误差,显著优于基线方法的5.1985和1.5096的误差。在特征可解释性方面,对于Llama3.2-3B-Instruct,$\textit{FAST}$产生了更高比例的高质量特征,其中$21.1\%$的特征得分在最高范围内,而$\textit{BT(P)}$和$\textit{BT(F)}$分别为$7.0\%$和$10.2\%$。令人惊讶的是,我们发现通过SAEs对特殊标记的激活进行干预可以改善输出质量,这表明在模型行为的细粒度控制方面存在新的机会。代码、数据和240个训练好的SAEs可在此https URL获取。 |
[119] 穿越山谷:小型语言模型有效长链推理训练之路 标题: Through the Valley: Path to Effective Long CoT Training for Small Language Models 作者: Renjie Luo / Jiaxi Li / Chen Huang / Wei Lu 原文: [英文] [中文] 备注: None 摘要: 长链式思维(CoT)监督已成为增强语言模型推理能力的常用策略。虽然对大型模型有效,但我们发现了一种现象,我们称之为长链式思维退化,即在有限的长链式思维数据上训练的小型语言模型(SLMs;参数量小于等于30亿)会经历显著的性能下降。通过对Qwen2.5、LLaMA3和Gemma3系列的广泛实验,我们证明了这种退化在小型语言模型中普遍存在。在某些情况下,仅在8k长链式思维示例上训练的模型,其性能在微调前损失高达75%。令人惊讶的是,我们进一步观察到,对于一些特别小的模型,即使在22万长链式思维示例上进行训练,也无法恢复或超越其微调前的原始性能。我们的分析将这种效应归因于错误积累:虽然较长的回答增加了多步骤推理的能力,但也放大了错误累积的风险。此外,我们发现长链式思维退化可能对下游强化学习(RL)产生负面影响,尽管通过足够规模的监督微调(SFT)可以缓解这一问题。我们的研究结果挑战了关于长链式思维训练对小型语言模型益处的常见假设,并为构建更有效的小规模推理模型提供了实用指导。 |
[120] 多语言语法错误标注:结合语言无关框架与语言特定灵活性 标题: Multilingual Grammatical Error Annotation: Combining Language-Agnostic Framework with Language-Specific Flexibility 作者: Mengyang Qiu / Tran Minh Nguyen / Zihao Huang / Zelong Li / Yang Gu / Qingyu Gao / Siliang Liu / Jungyeul Park 原文: [英文] [中文] 备注: BEA2025 摘要: 语法错误纠正(GEC)依赖于准确的错误标注和评估,但现有的框架,如 $\texttt{errant}$,在扩展到类型多样的语言时面临局限性。在本文中,我们介绍了一种标准化的、模块化的多语言语法错误标注框架。我们的方法结合了与语言无关的基础和结构化的语言特定扩展,从而在各语言之间实现了一致性和灵活性。我们使用 $\texttt{stanza}$ 重新实现了 $\texttt{errant}$,以支持更广泛的多语言覆盖,并通过应用于英语、德语、捷克语、韩语和中文,展示了该框架的适应性,涵盖了从通用标注到更定制化的语言细化。这项工作支持跨语言的可扩展和可解释的 GEC 标注,并促进了多语言环境中更一致的评估。完整的代码库和标注工具可以在此 https URL 访问。 |
[121] 瑞士议会语料库再构想(SPC_R):基于RAG的校正和预测BLEU的增强转录 标题: Swiss Parliaments Corpus Re-Imagined (SPC_R): Enhanced Transcription with RAG-based Correction and Predicted BLEU 作者: Vincenzo Timmel / Manfred Vogel / Daniel Perruchoud / Reza Kakooee 原文: [英文] [中文] 备注: None 摘要: 本文介绍了瑞士议会语料库的新长篇版本,将整个多小时的瑞士德语辩论会话(每个都与官方会议记录对齐)转换为高质量的语音文本对。我们的流程首先使用Whisper Large-v3在高计算设置下将所有会议音频转录为标准德语。然后,我们应用两步GPT-4o校正过程:首先,GPT-4o结合官方记录处理Whisper的原始输出,以改进识别错误,主要是命名实体。其次,另一个GPT-4o过程评估每个改进段落的语义完整性。我们过滤掉任何预测BLEU分数(由Whisper的平均标记对数概率得出)和GPT-4o评估分数低于某个阈值的段落。最终语料库包含801小时的音频,其中751小时通过了我们的质量控制。与原始句子级别的SPC版本相比,我们的长篇数据集实现了6点BLEU的提升,展示了结合强大的自动语音识别、基于大型语言模型的校正和数据驱动的过滤在低资源、特定领域语音语料库中的威力。 |
[122] 通过加强抽象思维来增强大型语言模型的推理能力 标题: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking 作者: Silin Gao / Antoine Bosselut / Samy Bengio / Emmanuel Abbe 原文: [英文] [中文] 备注: Under review 摘要: 最近的研究表明,大型语言模型(LLMs),尤其是较小的模型,在推理方面往往缺乏稳健性。也就是说,当面对分布变化时,例如数值或名义变量的变化,或干扰性从句的插入时,它们的性能往往会下降。解决这一问题的一个可能策略是生成合成数据,以进一步“实例化”潜在变化上的推理问题。与此相反,我们的方法侧重于“抽象化”推理问题。这不仅有助于抵抗分布变化,还促进了与符号工具的连接以推导解决方案。我们发现,与仅仅通过监督微调相比,这种抽象过程通过强化学习(RL)更容易获得,因为监督微调往往无法产生真实的抽象。我们的方法,AbstraL——通过在细粒度抽象数据上使用RL来促进LLMs的抽象推理——显著减轻了在最近的GSM扰动基准测试中的性能下降。 |
[123] 大语言模型的遗忘应与形式无关 标题: LLM Unlearning Should Be Form-Independent 作者: Xiaotian Ye / Mengqi Zhang / Shu Wu 原文: [英文] [中文] 备注: None 摘要: 大语言模型(LLM)去学习旨在消除或抑制模型中的不良知识,以控制有害或私人信息的滥用。然而,最近的研究指出其在现实场景中的效果有限,阻碍了实际应用。在本研究中,我们识别出许多下游失败的一个普遍问题:现有去学习方法的有效性严重依赖于训练样本的形式,并且常常无法推广到同一知识的不同表达方式。我们正式将此问题表述为形式依赖偏差,并系统性地调查其在各种下游任务中的具体表现模式。为了量化其普遍性并支持未来研究,我们引入了ORT,一个新颖的基准,用于评估去学习方法在知识表达变化下的稳健性。结果显示,形式依赖偏差在当前技术中既普遍又严重。我们认为,LLM去学习应当是形式无关的,以应对现实世界中安全关键场景中遇到的无穷无尽的下游任务形式。为此目标,我们引入了Rank-one Concept Redirection(ROCR),一种新颖的无训练方法,作为一个有前景的解决路径。ROCR通过针对下游任务中的不变性,特别是激活的危险概念来执行去学习。它能够在几秒钟内修改模型参数,将模型对特定去学习目标概念的感知重定向到另一个无害概念。大量实验表明,与传统方法相比,ROCR显著提高了去学习的有效性,同时生成高度自然的输出。 |
[124] MultiMatch:用于半监督文本分类的多头一致性正则化匹配 标题: MultiMatch: Multihead Consistency Regularization Matching for Semi-Supervised Text Classification 作者: Iustin Sirbu / Robert-Adrian Popovici / Cornelia Caragea / Stefan Trausan-Matu / Traian Rebedea 原文: [英文] [中文] 备注: None 摘要: 我们介绍了MultiMatch,这是一种新颖的半监督学习(SSL)算法,结合了协同训练和一致性正则化与伪标签的范式。MultiMatch的核心是一个三重伪标签加权模块,旨在实现三个关键目的:基于头部一致性和模型置信度选择和过滤伪标签,并根据感知到的分类难度对其进行加权。这个新颖的模块增强并统一了三种现有技术——来自Multihead Co-training的头部一致性、来自FreeMatch的自适应阈值,以及来自MarginMatch的平均伪边距——从而形成了一种整体方法,提高了SSL环境中的鲁棒性和性能。基准数据集上的实验结果突显了MultiMatch的卓越性能,在来自5个自然语言处理数据集的10个设置中有9个达到了最先进的结果,并在19种方法中根据Friedman测试排名第一。此外,MultiMatch在高度不平衡的环境中表现出卓越的鲁棒性,超出第二佳方法3.26%——数据不平衡是许多文本分类任务的关键因素。 |
[125] WebUIBench:用于评估WebUI到代码的多模态大型语言模型的综合基准 标题: WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code 作者: Zhiyu Lin / Zhengda Zhou / Zhiyuan Zhao / Tianrui Wan / Yilun Ma / Junyu Gao / Xuelong Li 原文: [英文] [中文] 备注: None 摘要: 随着生成式人工智能技术的快速发展,多模态大语言模型(MLLMs)有潜力成为能够执行复杂网页应用开发的AI软件工程师。考虑到模型需要多维子能力的汇合来应对各种开发阶段的挑战,构建一个多视角的评估框架对于准确指导开发效率的提升至关重要。然而,现有的基准通常未能提供对子能力的评估,而仅关注网页生成的结果。在这项工作中,我们从软件工程的原则中汲取灵感,进一步提出了WebUIBench,这是一种系统设计的基准,用于在四个关键领域评估MLLMs:WebUI感知、HTML编程、WebUI-HTML理解和WebUI到代码。WebUIBench由来自超过700个真实网站的21,000个高质量问答对组成。对29个主流MLLMs的广泛评估揭示了模型在开发过程中遇到的技能特征和各种弱点。 |
[126] 学习聚焦:通过梯度引导的标记剪枝进行因果注意力蒸馏 标题: Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning 作者: Yiju Guo / Wenkai Yang / Zexu Sun / Ning Ding / Zhiyuan Liu / Yankai Lin 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在上下文理解方面表现出显著的改进。然而,它们在长上下文推理和生成过程中关注真正关键信息的能力仍然落后于预期。具体来说,我们的初步实验表明,某些干扰模式可能会在推理过程中误导模型的注意力,而去除这些模式可以显著提高推理准确性和生成质量。我们将这一现象归因于训练数据中的虚假相关性,这阻碍了模型推断真实因果指令-响应关系的能力。这一现象可能导致冗余的推理过程,可能会导致显著的推理开销,更为关键的是,生成错误或次优的响应。为了解决这个问题,我们引入了一个名为“学习聚焦”(LeaF)的两阶段框架,利用基于干预的推理来解开混杂因素。在第一阶段,LeaF使用基于梯度的比较与高级教师自动识别训练语料库中基于因果关系的混杂标记。然后,在第二阶段,它在蒸馏过程中修剪这些标记以进行干预,使学生的注意力与教师在真正关键的上下文标记上的关注分布对齐。实验结果表明,LeaF不仅在各种数学推理和代码生成基准测试中实现了绝对改进,而且在推理过程中有效抑制了对混杂标记的注意力,产生了一个更具可解释性和可靠性的推理模型。 |
[127] MEMOIR:用于大型语言模型的终身模型编辑,具有最小覆盖和知情保留 标题: MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs 作者: Ke Wang / Yiming Qin / Nikolaos Dimitriadis / Alessandro Favero / Pascal Frossard 原文: [英文] [中文] 备注: The first two authors contributed equally to this work 摘要: 在现实世界系统中部署的语言模型通常需要事后更新以整合新的或修正的知识。然而,高效且可靠地编辑这些模型——无需重新训练或遗忘先前的信息——仍然是一个重大挑战。现有的终身模型编辑方法要么牺牲了泛化能力,要么干扰了过去的编辑,或者无法扩展到长编辑序列。我们提出了MEMOIR,这是一种新颖的可扩展框架,通过残差记忆(即专用参数模块)注入知识,同时保留预训练模型的核心能力。通过使用样本依赖的掩码对输入激活进行稀疏化,MEMOIR将每次编辑限制在记忆参数的一个独特子集中,最大限度地减少编辑之间的干扰。在推理时,它通过比较新查询的稀疏激活模式与编辑期间存储的模式来识别相关编辑。这使得模型能够通过仅激活相关知识来对改写的查询进行泛化,同时抑制与无关提示相关的不必要记忆激活。在LLaMA-3和Mistral的问答、幻觉校正和分布外泛化基准测试中,实验表明MEMOIR在可靠性、泛化性和局部性指标上实现了最先进的性能,能够扩展到数千个连续编辑,且遗忘最小化。 |
[128] MiniCPM4:终端设备上的超高效大语言模型 标题: MiniCPM4: Ultra-Efficient LLMs on End Devices 作者: MiniCPM Team / Chaojun Xiao / Yuxuan Li / Xu Han / Yuzhuo Bai / Jie Cai / Haotian Chen / Wentong Chen / Xin Cong / Ganqu Cui / Ning Ding / Shengdan Fan / Yewei Fang / Zixuan Fu / Wenyu Guan / Yitong Guan / Junshao Guo / Yufeng Han / Bingxiang He / Yuxiang Huang / Cunliang Kong / Qiuzuo Li / Siyuan Li / Wenhao Li / Yanghao Li / Yishan Li / Zhen Li / Dan Liu / Biyuan Lin / Yankai Lin / Xiang Long / Quanyu Lu / Yaxi Lu / Peiyan Luo / Hongya Lyu / Litu Ou / Yinxu Pan / Zekai Qu / Qundong Shi / Zijun Song / Jiayuan Su / Zhou Su / Ao Sun / Xianghui Sun / Peijun Tang / Fangzheng Wang / Feng Wang / Shuo Wang / Yudong Wang / Yesai Wu / Zhenyu Xiao / Jie Xie / Zihao Xie / Yukun Yan / Jiarui Yuan / Kaihuo Zhang / Lei Zhang / Linyue Zhang / Xueren Zhang / Yudi Zhang / Hengyu Zhao / Weilin Zhao / Weilun Zhao / Yuanqian Zhao / Zhi Zheng / Ge Zhou / Jie Zhou / Wei Zhou / Zihan Zhou / Zixuan Zhou / Zhiyuan Liu / Guoyang Zeng / Chao Jia / Dahai Li / Maosong Sun 原文: [英文] [中文] 备注: MiniCPM4 Technical Report 摘要: 本文介绍了MiniCPM4,这是一种专为终端设备设计的高效大型语言模型(LLM)。我们通过在模型架构、训练数据、训练算法和推理系统四个关键维度上的系统创新实现了这种高效性。具体来说,在模型架构方面,我们提出了InfLLM v2,这是一种可训练的稀疏注意力机制,加速了长上下文处理的预填充和解码阶段。在训练数据方面,我们提出了UltraClean,一种高效且准确的预训练数据过滤和生成策略,以及UltraChat v2,一个全面的监督微调数据集。这些数据集使得仅使用8万亿训练标记就能实现令人满意的模型性能。在训练算法方面,我们提出了ModelTunnel v2,用于高效的预训练策略搜索,并通过引入分块展开的负载平衡强化学习和数据高效的三元LLM,BitCPM,改进了现有的后训练方法。在推理系统方面,我们提出了集成稀疏注意力、模型量化和推测采样的http URL,以实现高效的预填充和解码。为了满足多样化的设备端需求,MiniCPM4提供了两个版本,分别具有0.5B和8B参数。充分的评估结果表明,MiniCPM4在多个基准测试中优于同类大小的开源模型,突出了其效率和有效性。值得注意的是,MiniCPM4-8B在处理长序列时相较于Qwen3-8B表现出显著的速度提升。通过进一步的适应,MiniCPM4成功支持多种应用,包括可信的调查生成和使用模型上下文协议的工具使用,清晰地展示了其广泛的可用性。 |
[129] 用于自然语言处理情感分类的量子图变换器 标题: Quantum Graph Transformer for NLP Sentiment Classification 作者: Shamminuj Aktar / Andreas Bärtschi / Abdel-Hameed A. Badawy / Stephan Eidenbenz 原文: [英文] [中文] 备注: None 摘要: 量子机器学习是构建更高效和更具表现力模型的一个有前途的方向,特别是在理解复杂结构化数据至关重要的领域。我们提出了量子图变换器(QGT),这是一种混合图形架构,将量子自注意力机制集成到结构化语言建模的消息传递框架中。注意力机制是通过参数化量子电路(PQCs)实现的,这使得模型能够捕捉丰富的上下文关系,同时显著减少了与经典注意力机制相比的可训练参数数量。我们在五个情感分类基准上评估了QGT。实验结果表明,QGT在准确性上始终高于或相当于现有的量子自然语言处理(QNLP)模型,包括基于注意力和非基于注意力的方法。与等效的经典图变换器相比,QGT在真实世界数据集上平均提高了5.42%的准确性,在合成数据集上提高了4.76%。此外,QGT展示了改进的样本效率,在Yelp数据集上达到相当性能所需的标记样本数量减少了近50%。这些结果突显了基于图的QNLP技术在推进高效和可扩展语言理解方面的潜力。 |
[130] 语言模型稳健性审计的统计假设检验 标题: Statistical Hypothesis Testing for Auditing Robustness in Language Models 作者: Paulius Rauba / Qiyao Wei / Mihaela van der Schaar 原文: [英文] [中文] 备注: arXiv admin note: substantial text overlap with arXiv:2412.00868 摘要: 考虑这样一个问题:测试大型语言模型(LLM)系统的输出在任意干预下是否发生变化,例如输入扰动或更改模型变体。我们不能简单地比较两个LLM的输出,因为它们可能由于系统的随机性而有所不同,也不能比较整个输出分布,因为这在计算上是不可行的。虽然现有的方法可以分析基于文本的输出,但它们关注的是根本不同的问题,例如测量偏见或公平性。为此,我们引入了基于分布的扰动分析,这一框架将LLM扰动分析重新表述为一个频率主义假设检验问题。我们通过蒙特卡罗采样在低维语义相似空间中构建经验的原假设和备择假设输出分布,从而在不需要限制性分布假设的情况下实现可处理的推断。该框架具有以下特点:(i)与模型无关,(ii)支持对任何黑箱LLM进行任意输入扰动的评估,(iii)产生可解释的p值,(iv)通过控制错误率支持多重扰动,以及(v)提供标量效应大小。我们通过多个案例研究展示了该框架的实用性,说明我们如何量化响应变化、测量真/假阳性率以及评估与参考模型的对齐度。最重要的是,我们将其视为LLM审计的可靠频率主义假设检验框架。 |
[131] 基于规范字节对编码的语言模型 标题: Language Models over Canonical Byte-Pair Encodings 作者: Tim Vieira / Tianyu Liu / Clemente Pasti / Yahya Emara / Brian DuSell / Benjamin LeBrun / Mario Giulianelli / Juan Luis Gastaldi / Timothy J. O'Donnell / Ryan Cotterell 原文: [英文] 备注: ICML 2025 摘要: 现代语言模型通过确定性分词器(如字节对编码)将字符字符串的概率分布表示为(较短的)标记字符串的分布。虽然这种方法在将语言模型扩展到大型语料库时非常有效,但其当前的实现具有一个令人担忧的特性:模型为每个字符字符串的指数数量的非规范标记编码分配了非零概率质量——这些是解码为有效字符字符串但在确定性分词器下不可能的标记字符串(即,无论语料库多大,它们都不会出现在任何训练语料中)。这种错误分配既是错误的,因为非规范字符串从未出现在训练数据中,也是浪费的,因为它将概率质量从合理的输出中转移开。这些错误是可以避免的!在这项工作中,我们提出了在标记级语言模型中强制规范性的方法,确保只有规范标记字符串被分配正概率。我们提出了两种方法:(1)通过条件实现规范性,利用测试时推理策略而无需额外训练;(2)通过构建实现规范性,这是一种保证规范输出但需要训练的模型参数化。我们证明,修正规范性错误提高了多个模型和语料库的保留数据的可能性。 |
[132] 大型语言模型中的相关错误 标题: Correlated Errors in Large Language Models 作者: Elliot Kim / Avi Garg / Kenny Peng / Nikhil Garg 原文: [英文] [中文] 备注: Accepted to ICML 2025 摘要: 在训练数据、架构和提供者方面的多样性被认为可以缓解大型语言模型(LLM)的同质性。然而,我们缺乏实证证据来证明不同的LLM是否存在有意义的差异。我们对超过350个LLM进行了大规模的实证评估,使用了两个流行的排行榜和一个简历筛选任务。我们发现模型错误之间存在显著的相关性——在一个排行榜数据集上,当两个模型都出错时,它们有60%的时间是一致的。我们确定了驱动模型相关性的因素,包括共享的架构和提供者。然而,关键是,即使在架构和提供者不同的情况下,较大且更准确的模型也有高度相关的错误。最后,我们展示了相关性在两个下游任务中的影响:LLM作为评判者的评估和招聘——后者反映了关于算法单一文化的理论预测。 |
[133] 强化预训练 标题: Reinforcement Pre-Training 作者: Qingxiu Dong / Li Dong / Yao Tang / Tianzhu Ye / Yutao Sun / Zhifang Sui / Furu Wei 原文: [英文] [中文] 备注: None 摘要: 在这项工作中,我们引入了强化预训练(RPT)作为大型语言模型和强化学习(RL)的一种新的扩展范式。具体来说,我们将下一个词元预测重新构建为一个使用RL训练的推理任务,在该任务中,模型通过正确预测给定上下文的下一个词元来获得可验证的奖励。RPT提供了一种可扩展的方法来利用大量文本数据进行通用RL,而不是依赖于特定领域的标注答案。通过激励下一个词元推理的能力,RPT显著提高了语言模型预测下一个词元的准确性。此外,RPT为进一步的强化微调提供了一个强大的预训练基础。扩展曲线显示,增加的训练计算量持续提高了下一个词元预测的准确性。结果表明,RPT是推进语言模型预训练的一个有效且有前途的扩展范式。 |