scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CL方向,2025年7月22日更新论文86
[1] DeepWriter:基于离线知识库的事实基础多模态写作助手
标题: DeepWriter: A Fact-Grounded Multimodal Writing Assistant Based On Offline Knowledge Base
作者: Song Mao / Lejun Cheng / Pinlong Cai / Guohang Yan / Ding Wang / Botian Shi
原文:   [英文]   [中文]  
备注: work in process
摘要:
大型语言模型(LLMs)在各种应用中展现了非凡的能力。然而,在金融、医学和法律等专业领域中作为写作助手使用时,往往因缺乏深厚的领域特定知识和容易产生幻觉而受到阻碍。现有的解决方案,如检索增强生成(RAG),可能在多个检索步骤中出现不一致,而基于在线搜索的方法则常因不可靠的网络内容而降低质量。为了解决这些挑战,我们引入了DeepWriter,这是一种可定制的、多模态的长篇写作助手,基于一个精心策划的离线知识库运行。DeepWriter利用一个新颖的流程,包括任务分解、大纲生成、多模态检索以及逐段反思式创作。通过从结构化语料库中深入挖掘信息,并结合文本和视觉元素,DeepWriter生成连贯、事实基础扎实且专业级的文档。我们还提出了一种分层知识表示,以提高检索效率和准确性。我们在财务报告生成方面的实验表明,DeepWriter生成的高质量、可验证的文章在事实准确性和生成内容质量上超越了现有基线。

[2] 微调后编辑知识的保留分析
标题: Retention analysis of edited knowledge after fine-tuning
作者: Fufang Wen / Shichang Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)存储了大量的知识,这些知识常常需要更新以纠正事实错误、整合新获得的信息或调整模型行为。模型编辑方法作为一种高效的解决方案出现,能够以显著低于持续训练的计算成本实现局部和精确的知识修改。同时,LLMs经常被微调以适应各种下游任务。然而,微调对先前编辑过的知识的影响仍然知之甚少。在这项工作中,我们系统地研究了不同的微调目标如何与各种模型编辑技术相互作用。我们的研究结果表明,编辑过的知识在微调过程中比通过预训练获得的内在知识更容易遗忘。这一分析突出了当前编辑方法的一个关键局限性,并建议在下游微调中评估编辑的稳健性对于其实用部署至关重要。我们进一步发现,冻结与编辑内容相关的层可以显著提高知识保留率,这为未来的编辑方法如何变得更加稳健提供了见解。

[3] 开源大型语言模型的协作胜过闭源大型语言模型:一个可扩展的多智能体系统
标题: Open-Source LLMs Collaboration Beats Closed-Source LLMs: A Scalable Multi-Agent System
作者: Shengji Tang / Jianjian Cao / Weihao Lin / Jiale Hong / Bo Zhang / Shuyue Hu / Lei Bai / Tao Chen / Wanli Ouyang / Peng Ye
原文:   [英文]   [中文]  
备注: None
摘要:
本文旨在展示开源集体的潜力和优势。它引出了一个有前景的问题:我们能否利用多个开源大型语言模型(LLM)来匹敌甚至超越闭源LLM?为了解答这个问题,我们提出了SMACS,一个具有高性能的可扩展多代理协作系统(MACS)框架。具体来说,为了持续整合新的LLM并推广到各种问题上,我们首先提出了一种基于检索的先验选择(RPS),它为每个LLM分配一个代理性能分数,以便在实例级别为任何给定问题选择Top-k LLM。然后,我们提出了一种探索-利用驱动的后验增强(EPE),通过先验丢弃来鼓励生成多样化的响应,并通过混合后验评分选择高质量的响应。在八个主流基准上的实验验证了我们SMACS的有效性:通过整合十五个开源LLM,SMACS在2025年超越了领先的闭源LLM,例如Claude-3.7-Sonnet(+12.73%)、GPT-4.1(+5.36%)和GPT-o3-mini(+5.28%)在多个任务上的表现。值得注意的是,它甚至超过了开源LLM(+2.86%)和闭源LLM(+2.04%)在不同数据集上的最佳结果的平均值,推动了智能的上限。代码将在此https URL发布。

[4] 让我们测量房间里的大象:促进隐私政策的个性化自动化分析规模化
标题: Let's Measure the Elephant in the Room: Facilitating Personalized Automated Analysis of Privacy Policies at Scale
作者: Rui Zhao / Vladyslav Melnychuk / Jun Zhao / Jesse Wright / Nigel Shadbolt
原文:   [英文]   [中文]  
备注: None
摘要:
在现代,人们拥有众多的在线账户,但他们很少阅读这些网站的服务条款或隐私政策,尽管他们声称会这样做。本文介绍了PoliAnalyzer,这是一种神经符号系统,帮助用户进行个性化的隐私政策分析。PoliAnalyzer使用自然语言处理(NLP)从政策文本中提取数据使用实践的形式化表示。通过应用确定性的逻辑推理,将用户偏好与形式化的隐私政策表示进行比较,并生成合规报告。为此,我们扩展了现有的正式数据使用条款政策语言,将隐私政策建模为应用政策,将用户偏好建模为数据政策。在使用由法律专家策划的丰富PolicyIE数据集进行的评估中,PoliAnalyzer在识别相关数据使用实践方面表现出高准确性,在大多数任务中实现了90-100%的F1分数。此外,我们展示了PoliAnalyzer如何建模多样化的用户数据共享偏好,这些偏好源自先前研究的23个用户档案,并对前100个访问量最大的网站进行合规性分析。此分析显示,平均而言,95.2%的隐私政策段落与分析的用户偏好不冲突,使用户能够专注于理解4.8%(636 / 13205)违反偏好的部分,从而显著减少认知负担。此外,我们识别出隐私政策中违反用户期望的常见做法,例如与第三方共享位置信息。本文证明了PoliAnalyzer可以使用现成的NLP工具支持大规模的自动化个性化隐私政策分析。这为帮助个人重新掌控其数据并鼓励社会对平台数据实践进行讨论以促进更公平的权力动态提供了一条途径。

[5] 超越架构:评估上下文嵌入在社交媒体上检测双相情感障碍中的作用
标题: Beyond Architectures: Evaluating the Role of Contextual Embeddings in Detecting Bipolar Disorder on Social Media
作者: Khalid Hasan / Jamil Saquer
原文:   [英文]   [中文]  
备注: The 37th International Conference on Software Engineering & Knowledge Engineering, SEKE 2025 (camera-ready)
摘要:
双相情感障碍是一种慢性精神疾病,由于早期症状微妙和社会污名化,常常被漏诊。本文探讨了基于用户生成的社交媒体文本识别双相情感障碍迹象的先进自然语言处理(NLP)模型。我们对基于变压器的模型(BERT、RoBERTa、ALBERT、ELECTRA、DistilBERT)和基于上下文(BERT)及静态(GloVe、Word2Vec)词嵌入的长短期记忆(LSTM)模型进行了全面评估。实验是在一个经过注释的大型Reddit帖子数据集上进行的,并通过情感变化和判断分析确认其有效性。我们的结果表明,在变压器模型中,RoBERTa以约98%的F1得分实现了最高性能,而使用BERT嵌入的LSTM模型也取得了几乎相同的结果。相比之下,基于静态嵌入训练的LSTM未能捕捉到有意义的模式,F1得分接近于零。这些发现强调了上下文语言建模在检测双相情感障碍中的关键作用。此外,我们报告了模型训练时间,并指出DistilBERT在效率和准确性之间提供了最佳平衡。总体而言,我们的研究为精神健康NLP应用中的模型选择提供了可操作的见解,并验证了上下文化语言模型在支持早期双相情感障碍筛查中的潜力。

[6] 语言模型会根据你的表达方式改变事实
标题: Language Models Change Facts Based on the Way You Talk
作者: Matthew Kearney / Reuben Binns / Yarin Gal
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在用户界面应用中越来越多地被使用,从提供医疗咨询到求职面试建议。最近的研究表明,这些模型在从文本作者的语言模式中推断身份信息方面越来越熟练,甚至可以通过几个词的选择来进行推断。然而,对于LLMs在实际应用中如何利用这些信息进行决策,我们知之甚少。我们首次对用户写作中存在的身份标记如何在五个不同的高风险LLM应用领域中影响LLM的响应进行了全面分析,这些领域包括医学、法律、政治、政府福利和工作薪资。我们发现,LLMs对用户查询中的身份标记极为敏感,种族、性别和年龄在这些应用中始终影响LLM的响应。例如,在提供医疗建议时,我们发现模型对不同种族的个体在相同症状下应用不同的护理标准;我们发现,当年长(年轻)个体询问事实性问题时,LLMs更可能调整答案以符合保守(自由)政治观;并且LLMs为非白人求职者推荐较低的薪资,而为女性推荐的薪资高于男性。综合来看,这些偏见意味着在这些应用中使用现成的LLMs可能导致医疗护理的有害差异、加剧工资差距,并为不同身份的人创造不同的政治事实现实。除了提供分析,我们还提供了新的工具来评估用户语言选择中微妙的身份编码如何影响模型决策。鉴于这些发现的严重影响,我们建议在未来部署之前进行类似的全面评估,以评估LLMs在用户界面应用中的使用。

[7] CCL-XCoT:一种用于缓解幻觉生成的高效跨语言知识转移方法
标题: CCL-XCoT: An Efficient Cross-Lingual Knowledge Transfer Method for Mitigating Hallucination Generation
作者: Weihua Zheng / Roy Ka-Wei Lee / Zhengyuan Liu / Kui Wu / AiTi Aw / Bowei Zou
原文:   [英文]   [中文]  
备注: None
摘要:
多语言大型语言模型(MLLMs)在多种语言中表现出强大的泛化能力,但由于训练数据不平衡,它们仍然容易出现幻觉,尤其是在资源匮乏的语言中。这些幻觉,包括不准确或虚构的输出,在特定领域的生成任务中尤为棘手(Chataigner等,2024)。为了解决这一挑战,我们提出了CCL-XCoT(基于课程的对比学习的跨语言思维链),这是一种用于减轻MLLMs中幻觉的两阶段微调框架。我们的方法首先通过基于课程的对比学习结合下一个词预测在持续预训练期间增强跨语言语义对齐。在此基础上,我们在指令微调期间引入了一种跨语言思维链(XCoT)提示策略,该策略引导模型在生成目标低资源语言的答案之前,先在高资源语言中进行推理。实验结果表明,CCL-XCoT将幻觉率降低了多达62%,并在不依赖外部检索或多模型集成的情况下,显著改善了跨语言对的事实知识转移。

[8] HuggingGraph:理解大型语言模型生态系统的供应链
标题: HuggingGraph: Understanding the Supply Chain of LLM Ecosystem
作者: Mohammad Shahedur Rahman / Peng Gao / Yuede Ji
原文:   [英文]   [中文]  
备注: 10 pages, 5 figures
摘要:
大型语言模型(LLMs)利用深度学习从上下文中处理和预测词序列,使其能够执行各种自然语言处理任务,如翻译、摘要、问答和内容生成。然而,开发、训练和部署先进的LLMs所需的规模和复杂性不断增长,需要大量的计算资源和大型数据集。这对用户构成了障碍。因此,托管模型和数据集的平台被广泛使用。例如,Hugging Face是最受欢迎的平台之一,到2025年6月已托管了180万个模型和45万个数据集,并且没有放缓的迹象。由于许多LLMs是从基础模型、预训练模型和外部数据集构建的,它们可能会从早期的模型或数据集中继承漏洞、偏见或恶意组件。因此,了解这些组件的来源和发展对于更好地检测潜在风险、提高模型公平性和确保合规性至关重要。受此启发,我们的项目旨在研究模型和数据集之间的关系,这些是LLM供应链的核心组件。首先,我们设计了一种系统收集LLM供应链数据的方法。利用这些数据,我们构建了一个有向异构图来建模模型和数据集之间的关系,形成了一个包含397,376个节点和453,469条边的结构。然后,我们进行了各种分析并揭示了几个发现,例如:(i)LLM供应链图是大型的、稀疏的,并遵循幂律度分布;(ii)它具有一个密集连接的核心和一个分散的外围;(iii)数据集在训练中起关键作用;(iv)模型和数据集之间存在强烈的相互依赖性;以及(v)该图是动态的,每日更新反映了生态系统的持续演变。

[9] Promptomatix:一种用于大型语言模型的自动提示优化框架
标题: Promptomatix: An Automatic Prompt Optimization Framework for Large Language Models
作者: Rithesh Murthy / Ming Zhu / Liangwei Yang / Jielin Qiu / Juntao Tan / Shelby Heinecke / Huan Wang / Caiming Xiong / Silvio Savarese
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在使用精心设计的提示时表现最佳,但提示工程仍然是手动的、不一致的,并且对非专家来说难以接近。我们介绍了Promptomatix,这是一种自动提示优化框架,可以将自然语言任务描述转化为高质量的提示,而无需手动调整或领域专业知识。Promptomatix支持基于轻量级元提示的优化器和DSPy驱动的编译器,其模块化设计使其能够在未来扩展到更高级的框架。该系统分析用户意图,生成合成训练数据,选择提示策略,并使用成本感知目标来优化提示。在5个任务类别中进行评估,Promptomatix在与现有库的比较中表现出竞争力或更优的性能,同时减少了提示长度和计算开销,使提示优化变得可扩展且高效。

[10] 深度与广度:为全面图表理解定制的多模态语言模型预训练
标题: In-Depth and In-Breadth: Pre-training Multimodal Language Models Customized for Comprehensive Chart Understanding
作者: Wan-Cyuan Fan / Yen-Chun Chen / Mengchen Liu / Alexander Jacobson / Lu Yuan / Leonid Sigal
原文:   [英文]   [中文]  
备注: arXiv admin note: substantial text overlap with arXiv:2407.14506
摘要:
最近,为特定领域任务定制大型视觉语言模型(LVLMs)的方法在科学图表理解方面显示出良好的效果。然而,现有方法存在两个主要限制:首先,它们依赖于仅来自少数图表类型的配对数据,限制了对各种图表类型的泛化能力。其次,它们缺乏针对图表数据对齐的目标预训练,这阻碍了模型对底层数据的理解。在本文中,我们介绍了ChartScope,这是一种针对多种图表类型进行深入图表理解优化的LVLM。我们提出了一种高效的数据生成流程,可以为多种图表类型合成配对数据,并引入了一种新颖的双路径训练策略,使模型能够简洁地捕捉关键数据细节,同时通过对底层数据的推理保持强大的推理能力。最后,我们建立了ChartDQA,一个新的基准,用于评估不同层次的问题回答以及底层数据理解。实验结果表明,ChartScope显著增强了对多种图表类型的理解。代码和数据可在此https URL获取。

[11] 通过基于大型语言模型的选择性翻译将大型语言模型对齐到低资源语言:一项系统研究
标题: Aligning Large Language Models to Low-Resource Languages through LLM-Based Selective Translation: A Systematic Study
作者: Rakesh Paul / Anusha Kamath / Kanishk Singla / Raviraj Joshi / Utkarsh Vaidya / Sanjay Singh Chauhan / Niranjan Wartikar
原文:   [英文]   [中文]  
备注: None
摘要:
多语言大型语言模型(LLMs)通常在英语和非英语语言之间表现出性能差距,尤其是在资源匮乏的环境中。将这些模型与低资源语言对齐是必要的,但由于高质量数据有限,这一过程充满挑战。虽然英语对齐数据集很容易获得,但在其他语言中策划等效数据既昂贵又耗时。一个常见的解决方法是翻译现有的英语对齐数据;然而,标准翻译技术往往无法保留关键元素,如代码、数学表达式和结构化格式(如JSON)。在这项工作中,我们研究了基于LLM的选择性翻译技术,这种技术仅选择性地翻译文本中可翻译的部分,同时保留不可翻译的内容和句子结构。我们进行了系统研究,以探索围绕这种方法的关键问题,包括与普通翻译相比的有效性、过滤噪声输出的重要性,以及在对齐过程中将翻译样本与原始英语数据混合的好处。我们的实验重点关注资源匮乏的印度语言印地语,并比较了由Google Cloud Translation(GCP)和Llama-3.1-405B生成的翻译。结果突出了选择性翻译作为一种实用且有效的方法在改善LLMs中的多语言对齐方面的潜力。

[12] 大型语言模型如何理解叙事中的时间意义:大型语言模型认知评估的案例研究
标题: How LLMs Comprehend Temporal Meaning in Narratives: A Case Study in Cognitive Evaluation of LLMs
作者: Karin de Langis / Jong Inn Park / Andreas Schramm / Bin Hu / Khanh Chi Le / Michael Mensink / Ahn Thu Tong / Dongyeop Kang
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)展现出越来越复杂的语言能力,但这些行为在多大程度上反映了类人认知与高级模式识别之间的关系仍然是一个未解的问题。在本研究中,我们调查了LLMs如何处理在先前人类研究中使用的叙述中语言体的时间意义。通过使用专家参与的探测流程,我们进行了一系列有针对性的实验,以评估LLMs是否以类人的方式构建语义表示和语用推理。我们的研究结果表明,LLMs过度依赖原型性,产生不一致的体判断,并在从体推导的因果推理中遇到困难,这引发了对其全面理解叙述能力的担忧。这些结果表明,LLMs处理体的方式与人类根本不同,缺乏稳健的叙述理解。除了这些实证发现之外,我们还开发了一个标准化的实验框架,用于可靠评估LLMs的认知和语言能力。

[13] 是什么让你点击:克罗地亚诱饵标题的检测
标题: What Makes You CLIC: Detection of Croatian Clickbait Headlines
作者: Marija Anđedelić / Dominik Šipek / Laura Majer / Jan Šnajder
原文:   [英文]   [中文]  
备注: Accepted at Slavic NLP 2025
摘要:
在线新闻媒体主要依赖广告收入模式,这迫使记者们创作出往往具有丑闻性、吸引力和挑衅性的标题——通常被称为“点击诱饵”。自动检测点击诱饵标题对于维护数字媒体中的信息质量和读者信任至关重要,这需要对上下文的理解和世界知识。对于这一任务,尤其是在资源较少的语言中,目前尚不清楚微调方法还是上下文学习(ICL)能产生更好的结果。在本文中,我们编制了CLIC,这是一个用于检测克罗地亚新闻标题点击诱饵的新数据集,涵盖了20年的时间跨度,包括主流和边缘媒体。我们在这一任务上微调了BERTić模型,并将其性能与基于大型语言模型(LLM)的ICL方法进行比较,提示词使用克罗地亚语和英语。最后,我们分析了点击诱饵的语言特性。我们发现,近一半的分析标题包含点击诱饵,并且微调模型比通用LLM提供了更好的结果。

[14] 大型语言模型能否从现实世界的对话中推断出个性?
标题: Can LLMs Infer Personality from Real World Conversations?
作者: Jianfeng Zhu / Ruoming Jin / Karin G. Coifman
原文:   [英文]  
备注: 21 pages, 12 figures
摘要:
大型语言模型(LLMs),如OpenAI的GPT-4和Meta的LLaMA,为从开放式语言中进行可扩展的个性评估提供了一种有前景的方法。然而,推断个性特征仍然具有挑战性,早期的工作往往依赖于缺乏心理测量效度的合成数据或社交媒体文本。我们引入了一个由555个半结构化访谈和BFI-10自我报告分数组成的真实世界基准,用于评估基于LLM的个性推断。使用零样本提示进行BFI-10项目预测,以及零样本和思维链提示进行大五人格特征推断,测试了三种最先进的LLM(GPT-4.1 Mini、Meta-LLaMA和DeepSeek)。所有模型都显示出较高的测试-重测信度,但构念效度有限:与真实分数的相关性较弱(最大皮尔逊相关系数$r = 0.27$),评分者间一致性低(Cohen's $\kappa < 0.10$),预测偏向于中等或高特征水平。思维链提示和更长的输入上下文在一定程度上改善了分布对齐,但未提高特征级别的准确性。这些结果强调了当前基于LLM的个性推断的局限性,并突显了心理学应用中基于证据的发展需求。

[15] 面向企业数据分析的文本到SQL转换
标题: Text-to-SQL for Enterprise Data Analytics
作者: Albert Chen / Manas Bundele / Gaurav Ahlawat / Patrick Stetz / Zhitao Wang / Qiang Fei / Donghoon Jung / Audrey Chu / Bharadwaj Jayaraman / Ayushi Panth / Yatin Arora / Sourav Jain / Renjith Varma / Alexey Ilin / Iuliia Melnychuk / Chelsea Chueh / Joyan Sil / Xiaofeng Wang
原文:   [英文]   [中文]  
备注: 11 pages, 8 figures, Workshop on Agentic AI for Enterprise at KDD '25
摘要:
大型语言模型的引入在Text-to-SQL基准测试上带来了快速进展,但构建一个可用的企业解决方案仍然不易。在本文中,我们展示了构建一个内部聊天机器人的见解,该机器人使LinkedIn的产品经理、工程师和运营团队能够自助从大型动态数据湖中获取数据洞察。我们的方法具有三个组成部分。首先,我们通过索引数据库元数据、历史查询日志、维基和代码来构建一个知识图谱,以捕捉最新的语义。我们应用聚类来识别每个团队或产品领域的相关表。其次,我们构建了一个Text-to-SQL代理,该代理从知识图谱中检索和排序上下文,编写查询,并自动纠正幻觉和语法错误。第三,我们构建了一个交互式聊天机器人,支持从数据发现到查询编写到调试的各种用户意图,并在丰富的UI元素中显示响应以鼓励后续聊天。我们的聊天机器人每周有超过300名用户。专家评审显示,在一个内部基准集上,其53%的响应是正确的或接近正确的。通过消融研究,我们识别出最重要的知识图谱和建模组件,为开发企业Text-to-SQL解决方案提供了一个实用的路径。

[16] 面向生物医学关系分类的错误感知课程学习
标题: Error-Aware Curriculum Learning for Biomedical Relation Classification
作者: Sinchani Chakraborty / Sudeshna Sarkar / Pawan Goyal
原文:   [英文]   [中文]  
备注: 16 pages, 2 figures
摘要:
在生物医学文本中进行关系分类(RC)对于构建知识图谱以及实现药物再利用和临床决策等应用至关重要。我们提出了一种错误感知的教师-学生框架,通过大型语言模型(GPT-4o)的结构化指导来改进RC。教师分析基线学生模型的预测失败,以分类错误类型、分配难度分数,并生成有针对性的补救措施,包括句子重写和基于知识图谱的丰富建议。这些丰富的注释用于通过指令微调训练第一个学生模型。然后,该模型使用难度分数和补救增强输入来注释更广泛的数据集。随后,通过课程学习在按难度排序的数据集上训练第二个学生,以促进稳健和渐进的学习。我们还从PubMed摘要中构建了一个异构生物医学知识图谱,以支持上下文感知的RC。我们的方法在5个PPI数据集中的4个和DDI数据集上实现了新的最先进性能,同时在ChemProt上保持竞争力。

[17] X-智能3.0:用于半导体显示的推理大型语言模型的训练与评估
标题: X-Intelligence 3.0: Training and Evaluating Reasoning LLM for Semiconductor Display
作者: Xiaolin Yan / Yangxing Liu / Jiazhang Zheng / Chi Liu / Mingyu Du / Caisheng Chen / Haoyang Liu / Ming Ding / Yuan Li / Qiuping Liao / Linfeng Li / Zhili Mei / Siyu Wan / Li Li / Ruyi Zhong / Jiangling Yu / Xule Liu / Huihui Hu / Jiameng Yue / Ruohui Cheng / Qi Yang / Liangqing Wu / Ke Zhu / Chi Zhang / Chufei Jing / Yifan Zhou / Yan Liang / Dongdong Li / Zhaohui Wang / Bin Zhao / Mingzhou Wu / Mingzhong Zhou / Peng Du / Zuomin Liao / Chao Dai / Pengfei Liang / Xiaoguang Zhu / Yu Zhang / Yu Gu / Kun Pan / Yuan Wu / Yanqing Guan / Shaojing Wu / Zikang Feng / Xianze Ma / Peishan Cheng / Wenjuan Jiang / Jing Ba / Huihao Yu / Zeping Hu / Yuan Xu / Zhiwei Liu / He Wang / Zhenguo Lin / Ming Liu / Yanhong Meng
原文:   [英文]   [中文]  
备注: Technical Report
摘要:
大型语言模型(LLMs)最近在推理方面取得了显著进展,并展示了其在解决复杂问题上的优势。然而,由于缺乏特定领域的训练和专业知识,它们在半导体显示行业的有效性仍然有限。为了弥合这一差距,我们推出了X-Intelligence 3.0,这是首个专门为半导体显示行业开发的高性能推理模型。该模型旨在为行业的复杂挑战提供专家级的理解和推理。通过精心策划的行业知识库,该模型经过监督微调和强化学习,以增强其推理和理解能力。为了进一步加速开发,我们实施了一个自动化评估框架,模拟专家级评估。我们还集成了特定领域的检索增强生成(RAG)机制,在基准数据集上实现了显著的性能提升。尽管其参数规模相对较小,仅为320亿,X-Intelligence 3.0在多个评估中超越了SOTA DeepSeek-R1-671B。这证明了其卓越的效率,并确立了其作为解决半导体显示行业长期推理挑战的强大解决方案。

[18] XL-DURel:微调句子转换器用于序数词境分类
标题: XL-DURel: Finetuning Sentence Transformers for Ordinal Word-in-Context Classification
作者: Sachin Yadav / Dominik Schlechtweg
原文:   [英文]   [中文]  
备注: 8 pages
摘要:
我们提出了XL-DURel,这是一种经过微调的多语言句子转换器模型,专为序数词义消歧分类优化。我们测试了几种用于回归和排序任务的损失函数,成功地在基于复数空间角距离的排序目标上超越了之前的模型在序数和二元数据上的表现。我们进一步表明,二元词义消歧可以被视为序数词义消歧的一个特例,并且为一般序数任务优化模型可以提高在更具体的二元任务上的性能。这为在不同任务形式中统一处理词义消歧建模铺平了道路。

[19] 使用单模态和多模态BERT模型探索人机互补在CPS诊断中的应用
标题: Exploring Human-AI Complementarity in CPS Diagnosis Using Unimodal and Multimodal BERT Models
作者: Kester Wong / Sahan Bulathwela / Mutlu Cukurova
原文:   [英文]   [中文]  
备注: Accepted to appear in the workshop proceedings for the HEXED'25 workshop in the 26th International Conference on Artificial Intelligence in Education 2025 (AIED 2025), 22 July 2025, Palermo, Italy. 5 pages
摘要:
使用机器学习技术从对话中检测协作问题解决(CPS)指标是教育领域人工智能面临的重大挑战。最近的研究探索了在转录数据上使用双向编码器表示(BERT)模型,以可靠地检测有意义的CPS指标。一项显著的进展涉及多模态BERT变体AudiBERT,它集成了语音和声学-韵律音频特征,以增强CPS诊断。尽管初步结果显示出多模态的改进,但这些增强的统计显著性仍不明确,并且在利用人类与AI互补性进行CPS诊断任务方面缺乏足够的指导。这篇研讨会论文扩展了之前的研究,强调AudiBERT模型不仅改善了数据集中稀疏类别的分类,而且在社会认知维度的分类上相较于BERT模型有统计显著的类别改进。然而,在情感维度的分类上,未观察到类似的显著类别改进。相关性分析表明,较大的训练数据与AudiBERT和BERT模型的较高召回性能显著相关。此外,BERT模型的精确度与人类编码者之间的高一致性显著相关。当使用BERT模型诊断由AudiBERT模型良好检测的这些子技能中的指标时,所有指标的性能表现不一致。我们在论文结尾提出了一种结构化的方法,以实现人类与AI在CPS诊断中的互补性,强调模型可解释性的关键性,以支持人类在反思编码过程中的主动性和参与。

[20] 使用SHAP的BERT可解释协作问题解决诊断及其对教师采用的影响
标题: Explainable Collaborative Problem Solving Diagnosis with BERT using SHAP and its Implications for Teacher Adoption
作者: Kester Wong / Sahan Bulathwela / Mutlu Cukurova
原文:   [英文]   [中文]  
备注: Accepted to appear in the workshop proceedings for the HEXED'25 workshop in the 26th International Conference on Artificial Intelligence in Education 2025 (AIED 2025), 22 July 2025, Palermo, Italy. 6 pages, 2 figures
摘要:
双向编码器表示模型(BERT)及其变体在协作问题解决(CPS)分类中的应用已在教育领域的人工智能社区中被广泛探索。然而,对于数据集中个别标记化词汇如何影响模型的分类决策的理解却关注有限。增强基于BERT的CPS诊断的可解释性对于更好地告知终端用户如教师至关重要,从而促进更大的信任并推动在教育中的广泛采用。本研究通过使用SHapley Additive exPlanations(SHAP)来检查转录数据中不同标记化词汇如何影响BERT模型对CPS过程的分类,迈出了模型透明性和可解释性的初步步骤。研究结果表明,表现良好的分类并不一定意味着对分类决策的合理解释。某些标记化词汇经常被用来影响分类。分析还识别出一个虚假词汇,它对分类有积极贡献,但在语义上对类别并无意义。虽然这种模型透明性不太可能对终端用户改善其实践有用,但它可以帮助他们不过度依赖LLM诊断并忽视他们的人类专业知识。我们在研讨会论文中总结指出,模型适当地使用标记进行分类的程度与涉及的类别数量相关。呼吁对集成模型架构的探索以及人类与AI互补性在CPS诊断中的参与进行调查,因为对CPS子技能的细粒度区分仍然需要相当多的人类推理。

[21] 在大语言模型时代的反向翻译和释义?情感分类的数据增强方法比较
标题: Backtranslation and paraphrasing in the LLM era? Comparing data augmentation methods for emotion classification
作者: Łukasz Radliński / Mateusz Guściora / Jan Kocoń
原文:   [英文]   [中文]  
备注: International Conference on Computational Science 2025
摘要:
众多特定领域的机器学习任务面临数据稀缺和类别不平衡的问题。本文系统地探讨了自然语言处理中的数据增强方法,特别是通过像GPT这样的大型语言模型。本文的目的是研究和评估传统方法(如释义和回译)是否可以利用新一代模型来实现与纯生成方法相当的性能。我们选择了旨在解决数据稀缺问题并利用ChatGPT的方法,以及一个示例性数据集。我们进行了系列实验,比较了在多个实验设置中四种不同的数据增强方法。然后,我们从生成数据的质量及其对分类性能的影响两个方面评估了结果。关键发现表明,回译和释义可以产生与零样本和少样本生成示例相当甚至更好的结果。

[22] 用于肯尼亚初级医疗中情境模型测试的检索增强临床基准:一种方法学论文
标题: Retrieval-Augmented Clinical Benchmarking for Contextual Model Testing in Kenyan Primary Care: A Methodology Paper
作者: Fred Mutisya / Shikoh Gitau / Christine Syovata / Diana Oigara / Ibrahim Matende / Muna Aden / Munira Ali / Ryan Nyotu / Diana Marion / Job Nyangena / Nasubo Ongoma / Keith Mbae / Elizabeth Wamicha / Eric Mibuari / Jean Philbert Nsengemana / Talkmore Chidede
原文:   [英文]  
备注: 29 pages, 6 figs, 6 tables. Companion methods paper forthcoming
摘要:
大型语言模型(LLMs)在改善低资源环境中的医疗保健获取方面具有潜力,但其在非洲初级保健中的有效性仍未得到充分探索。我们提出了一种方法,用于创建一个基准数据集和评估框架,重点关注肯尼亚2级和3级临床护理。我们的方法使用检索增强生成(RAG)技术,将临床问题与肯尼亚的国家指南相结合,确保与当地标准的一致性。这些指南被数字化、分块并进行语义检索索引。然后,使用Gemini Flash 2.0 Lite在指南摘录的基础上生成真实的临床场景、多项选择题以及英语和斯瓦希里语的理由性答案。肯尼亚的医生共同创建并完善了数据集,并通过盲审专家评审过程确保临床准确性、清晰性和文化适宜性。最终生成的Alama Health QA数据集包括数千个与监管标准一致的问答对,涵盖常见的门诊病症。除了准确性之外,我们还引入了评估指标来测试临床推理、安全性和适应性,例如罕见病例检测(大海捞针)、逐步逻辑(决策点)和情境适应性。初步结果显示,当LLMs应用于本地化场景时,表现存在显著差距,这与LLMs在非洲医学内容上的准确性低于美国基准的发现一致。这项工作提供了一种可复制的模型,用于指导驱动的动态基准测试,以支持在非洲卫生系统中安全部署AI。

[23] 语言模型中形态学的线性关系解码
标题: Linear Relational Decoding of Morphology in Language Models
作者: Eric Xia / Jugal Kalita
原文:   [英文]   [中文]  
备注: None
摘要:
一种两部分仿射近似被发现是对某些主宾关系的变压器计算的良好近似。通过调整更大的类比测试集,我们展示了线性变换Ws,其中s是主语标记的中间层表示,W是从模型导数中得出的,也能够准确再现许多关系的最终宾语状态。这种线性技术在形态关系上能够实现90%的忠实度,我们在多语言和跨模型中展示了类似的发现。我们的研究结果表明,语言模型中的一些概念关系,如形态学,可以从潜在空间中轻松解释,并通过跨层线性变换稀疏编码。

[24] Cleanse:使用基于聚类的语义一致性在大型语言模型中进行不确定性估计的方法
标题: Cleanse: Uncertainty Estimation Approach Using Clustering-based Semantic Consistency in LLMs
作者: Minsuh Joo / Hyunsoo Cho
原文:   [英文]   [中文]  
备注: None
摘要:
尽管大型语言模型(LLMs)在各种自然语言处理任务中表现出色,但LLMs中的幻觉——即LLMs生成不准确的响应——仍然是一个关键问题,因为它直接关系到构建安全可靠的LLMs的危机。通常使用不确定性估计来衡量LLM响应中的幻觉程度,以便能够清晰地区分正确和错误的答案。本研究提出了一种有效的不确定性估计方法,基于聚类的语义一致性(Cleanse)。Cleanse通过聚类来量化不确定性,具体方法是计算LLM隐藏嵌入之间的总一致性中,内部聚类一致性的比例,这些嵌入包含了生成的充分语义信息。使用四个现成的模型LLaMA-7B、LLaMA-13B、LLaMA2-7B和Mistral-7B以及两个问答基准SQuAD和CoQA,验证了Cleanse在检测幻觉方面的有效性。

[25] 山竹:用于语言模型预训练的开放泰语语料库
标题: Mangosteen: An Open Thai Corpus for Language Model Pretraining
作者: Wannaphong Phatthiyaphaibun / Can Udomcharoenchaikit / Pakpoom Singkorapoom / Kunat Pipatanakul / Ekapol Chuangsuwanich / Peerat Limkonchotiwat / Sarana Nutanong
原文:   [英文]   [中文]  
备注: Work in this http URL artifacts in this papers: this https URL
摘要:
预训练数据决定了语言模型的质量,但原始的网络文本往往杂乱无章,需要仔细清理。现有的大规模语料库依赖于以英语为中心或与语言无关的处理流程,这些流程的启发式方法无法捕捉泰语文字或文化细微差别,导致诸如赌博内容等风险材料未被处理。之前针对泰语的努力通常是定制处理流程或构建新的流程,但很少发布他们的数据或记录设计选择,这阻碍了可重复性,并引发了如何构建透明且高质量的泰语语料库的问题。我们介绍了Mangosteen:一个通过泰语适配的Dolma流程构建的470亿标记的泰语语料库,该流程包括自定义的基于规则的语言识别、修订的C4/Gopher质量过滤器和泰语训练的内容过滤器,以及经过策划的非网络来源,如维基百科、皇家公报文本、OCR提取的书籍和CC许可的YouTube字幕。使用GPT-2进行的系统性消融显示,该流程将CommonCrawl从2.02亿文档缩减到2500万文档,同时将SEA-HELM NLG从3提升到11;一个在Mangosteen上持续预训练的80亿参数的SEA-LION模型随后在泰语基准测试中超越了SEA-LION-v3和Llama-3.1约四个点。我们发布了完整的流程代码、清理清单、语料库快照和所有检查点,为未来的泰语和区域LLM研究提供了一个完全可重复的基础。

[26] 大型语言模型作为医疗编码选择器:使用国际初级保健分类的基准测试
标题: Large Language Models as Medical Codes Selectors: a benchmark using the International Classification of Primary Care
作者: Vinicius Anjos de Almeida / Vinicius de Camargo / Raquel Gómez-Bravo / Egbert van der Haring / Kees van Boven / Marcelo Finger / Luis Fernandez Lopez
原文:   [英文]   [中文]  
备注: To be submitted to peer-reviewed journal. 33 pages, 10 figures (including appendix), 15 tables (including appendix). For associated code repository, see this https URL
摘要:
背景:医学编码为研究、质量监控和政策制定提供了结构化的医疗数据。本研究评估了大型语言模型(LLMs)利用领域特定搜索引擎的输出分配ICPC-2代码的潜力。 方法:使用了一个包含437个巴西葡萄牙语临床表达的数据集,每个表达都标注了ICPC-2代码。一个语义搜索引擎(OpenAI的text-embedding-3-large)从73,563个标记概念中检索候选项。三十三个LLMs被提示每个查询和检索结果,以选择最佳匹配的ICPC-2代码。性能通过F1分数进行评估,同时考虑了令牌使用、成本、响应时间和格式遵从性。 结果:二十八个模型的F1分数超过0.8;十个超过0.85。表现最好的包括gpt-4.5-preview、o3和gemini-2.5-pro。检索器优化可以将性能提高多达4分。大多数模型返回了预期格式的有效代码,幻觉现象减少。较小的模型(<3B)在格式和输入长度上存在困难。 结论:LLMs在自动化ICPC-2编码方面显示出强大的潜力,即使没有进行微调。此项工作提供了一个基准并突出了挑战,但由于数据集范围和设置的限制,研究结果有限。需要更广泛的多语言端到端评估以进行临床验证。

[27] MiroMind-M1:通过上下文感知的多阶段策略优化在数学推理方面的开源进展
标题: MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization
作者: Xingxuan Li / Yao Xiao / Dianwen Ng / Hai Ye / Yue Deng / Xiang Lin / Bin Wang / Zhanfeng Mo / Chong Zhang / Yueyi Zhang / Zonglin Yang / Ruilin Li / Lei Lei / Shihao Xu / Han Zhao / Weiling Chen / Feng Ji / Lidong Bing
原文:   [英文]   [中文]  
备注: Technical report
摘要:
大型语言模型最近从流畅的文本生成发展到跨多个领域的高级推理,催生了推理语言模型。在这些领域中,数学推理作为一个代表性基准,因为它需要精确的多步骤逻辑和抽象推理,这可以推广到其他任务。虽然像GPT-o3这样的闭源推理语言模型展示了令人印象深刻的推理能力,但其专有性质限制了透明性和可重复性。尽管许多开源项目旨在缩小这一差距,但大多数项目由于缺少关键资源(如数据集和详细的训练配置)而缺乏足够的开放性,这阻碍了可重复性。为了促进推理语言模型开发的更大透明性,我们引入了MiroMind-M1系列,这是一组完全开源的推理语言模型,基于Qwen-2.5骨干构建,其性能与现有开源推理语言模型相当或更优。具体来说,我们的模型分两个阶段进行训练:首先在精心策划的包含71.9万道数学推理问题及其验证的链式推理轨迹的语料库上进行监督微调(SFT),然后在6.2万道具有挑战性和可验证的问题上进行强化学习验证推理(RLVR)。为了增强RLVR过程的稳健性和效率,我们引入了上下文感知多阶段策略优化算法,该算法结合了长度渐进训练和自适应重复惩罚,以鼓励上下文感知的强化学习训练。我们的模型在AIME24、AIME25和MATH基准测试中,在基于Qwen-2.5的开源7B和32B模型中实现了最先进或具有竞争力的性能和卓越的token效率。为了促进可重复性,我们发布了完整的技术栈:模型(MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B);数据集(MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K);以及所有训练和评估配置。我们希望这些资源能够支持进一步的研究并促进社区进步。

[28] 注意差距:阿拉伯语后训练数据集及其局限性综述
标题: Mind the Gap: A Review of Arabic Post-Training Datasets and Their Limitations
作者: Mohammed Alkhowaiter / Norah Alshahrani / Saied Alshahrani / Reem I. Masoud / Alaa Alzahrani / Deema Alnuhait / Emad A. Alghamdi / Khalid Almubarak
原文:   [英文]   [中文]  
备注: None
摘要:
后训练已成为将预训练的大型语言模型(LLMs)与人类指令对齐的重要技术,显著提升了它们在各种任务中的表现。在这一过程中,后训练数据集的质量和多样性至关重要。本文对Hugging Face Hub上公开可用的阿拉伯语后训练数据集进行了综述,并从四个关键维度进行组织:(1)LLM能力(例如,问答、翻译、推理、摘要、对话、代码生成和函数调用);(2)可控性(例如,角色和系统提示);(3)对齐(例如,文化、安全、伦理和公平性);(4)鲁棒性。每个数据集都根据其受欢迎程度、实际应用、更新和维护情况、文档和注释质量、许可透明度以及科学贡献进行了严格评估。我们的综述揭示了阿拉伯语后训练数据集开发中的关键缺口,包括任务多样性有限、文档和注释不一致或缺失,以及在社区中的采用率低。最后,本文讨论了这些缺口对阿拉伯语LLMs和应用进展的影响,并为未来的后训练数据集开发工作提供了具体建议。

[29] 重新思考自杀意念检测:一个值得信赖的标注框架与跨语言模型评估
标题: Rethinking Suicidal Ideation Detection: A Trustworthy Annotation Framework and Cross-Lingual Model Evaluation
作者: Amina Dzafic / Merve Kavut / Ulya Bayram
原文:   [英文]   [中文]  
备注: This manuscript has been submitted to the IEEE Journal of Biomedical and Health Informatics
摘要:
自杀意念检测对于实时自杀预防至关重要,但其进展面临两个尚未充分研究的挑战:语言覆盖范围有限和不可靠的标注实践。大多数可用的数据集是英文的,但即便在这些数据集中,高质量的人为标注数据仍然稀缺。因此,许多研究依赖于现有的预标注数据集,而不检查其标注过程或标签的可靠性。其他语言的数据集的缺乏进一步限制了通过人工智能(AI)实现全球自杀预防的可能性。在本研究中,我们通过构建一个从社交媒体帖子中提取的新型土耳其语自杀意念语料库,并引入一个资源高效的标注框架(包括三名人工标注者和两个大型语言模型)来解决其中一个空白。然后,我们通过在该数据集和三个流行的英文自杀意念检测数据集上进行标签可靠性和模型一致性的双向评估来解决剩余的空白,使用八个预训练的情感和情绪分类器进行迁移学习。这些转换器有助于评估标注一致性,并根据手动标注的数据对模型性能进行基准测试。我们的研究结果强调了在心理健康自然语言处理(NLP)中需要更严格、语言包容的标注和评估方法,同时展示了流行模型在零样本迁移学习中的可疑表现。我们倡导在心理健康NLP中实现模型训练和数据集构建的透明性,优先考虑数据和模型的可靠性。

[30] 同行评审语气差异及审稿人匿名性的作用
标题: Disparities in Peer Review Tone and the Role of Reviewer Anonymity
作者: Maria Sahakyan / Bedoor AlShebli
原文:   [英文]   [中文]  
备注: None
摘要:
同行评审过程通常被视为科学诚信的守门人,但越来越多的证据表明它并非不受偏见影响。尽管同行评审中的结构性不平等已被广泛讨论,但对语言本身可能强化差异的微妙方式关注较少。本研究进行迄今为止最全面的同行评审语言分析之一,分析了两个主要期刊中的超过80,000篇评审。通过使用自然语言处理和大规模统计建模,研究揭示了评审语气、情感和支持性语言如何在作者人口统计特征(包括性别、种族和机构隶属)之间变化。利用包含匿名和签名评审的数据集,本研究还揭示了评审者身份披露如何影响评估语言。研究结果不仅揭示了同行反馈中的隐性偏见,还挑战了关于匿名在公平性中作用的传统假设。随着学术出版面临改革,这些见解提出了关于评审政策如何影响职业发展和科学进步的关键问题。

[31] 关于通过儿童自我中心输入进行建模的词汇学习的稳健性
标题: On the robustness of modeling grounded word learning through a child's egocentric input
作者: Wai Keen Vong / Brenden M. Lake
原文:   [英文]   [中文]  
备注: None
摘要:
机器学习能为理解人类语言习得带来哪些启示?大型语言和多模态模型已经取得了显著的能力,但它们对海量训练数据的依赖与儿童形成了根本的不匹配,儿童能够从相对有限的输入中成功习得语言。为了帮助弥合这一差距,研究人员越来越多地使用与儿童输入在数量和质量上相似的数据来训练神经网络。将这种方法推向极限,Vong等人(2024)展示了一种多模态神经网络,该网络在仅从一个儿童的发育经验中提取的61小时视觉和语言输入上训练,可以习得词汇-指称映射。然而,这种方法的成功是否反映了单个儿童经验的特异性,或者是否会在多个儿童的经验中显示出一致和稳健的学习模式尚未探讨。在本文中,我们应用自动语音转录方法到SAYCam数据集的全部内容,该数据集由三个儿童的超过500小时的视频数据组成。利用这些自动转录,我们生成了用于训练和评估的多模态视觉和语言数据集,并探索了一系列神经网络配置以检验模拟词汇学习的稳健性。我们的研究结果表明,基于每个儿童的自动转录数据训练的网络能够在多个网络架构中习得并泛化词汇-指称映射。这些结果验证了多模态神经网络在基础词汇学习中的稳健性,同时突出了在每个儿童的发育经验上训练时模型学习方式中出现的个体差异。

[32] GRACE:通过链式思维标记中的旅程感知稀疏注意力进行生成推荐
标题: GRACE: Generative Recommendation via Journey-Aware Sparse Attention on Chain-of-Thought Tokenization
作者: Luyi Ma / Wanjia Zhang / Kai Zhao / Abhishek Kulkarni / Lalitesh Morishetti / Anjana Ganesh / Ashish Ranjan / Aashika Padmanabhan / Jianpeng Xu / Jason Cho / Praveen Kanumala / Kaushiki Nag / Sumit Dutta / Kamiya Motwani / Malay Patel / Evren Korpeoglu / Sushant Kumar / Kannan Achan
原文:   [英文]   [中文]  
备注: 10 pages, 5 figures, The ACM Conference on Recommender Systems (RecSys) 2025
摘要:
生成模型最近在多行为推荐系统中展示了强大的潜力,利用transformers和标记化的表达能力来生成个性化的物品序列。然而,它们的采用受到以下因素的阻碍:(1) 缺乏用于标记推理的显式信息,(2) 由于二次注意力复杂性和标记化后的密集序列表示导致的高计算成本,以及 (3) 对用户历史的多尺度建模有限。在这项工作中,我们提出了GRACE(通过考虑思维链标记化的旅程感知稀疏注意力进行生成推荐),这是一种用于多行为序列推荐的新型生成框架。GRACE引入了一种混合的思维链(CoT)标记化方法,该方法通过语义标记化对用户-物品交互进行编码,并结合产品知识图谱中的显式属性(例如,类别、品牌、价格),从而实现可解释的和行为对齐的生成。为了解决标准注意力的低效问题,我们设计了一种旅程感知稀疏注意力(JSA)机制,该机制选择性地关注标记化序列中的压缩、内部、外部和当前上下文片段。在两个真实世界的数据集上的实验表明,GRACE显著优于最先进的基线,在Home领域相对于最先进的基线实现了高达+106.9%的HR@10和+106.7%的NDCG@10的提升,在Electronics领域实现了+22.1%的HR@10的提升。GRACE还在长序列中将注意力计算减少了高达48%。

[33] FastLongSpeech:增强大型语音语言模型以高效处理长语音
标题: FastLongSpeech: Enhancing Large Speech-Language Models for Efficient Long-Speech Processing
作者: Shoutao Guo / Shaolei Zhang / Qingkai Fang / Zhengrui Ma / Min Zhang / Yang Feng
原文:   [英文]   [中文]  
备注: The code is at this https URL. This model is at this https URL. The dataset is at this https URL
摘要:
大型语言模型(LLMs)的快速发展推动了大型语音语言模型(LSLMs)的显著进步,增强了它们在语音理解和生成方面的能力。尽管现有的LSLMs通常专注于增强语音生成或处理各种短语音任务,但高效处理长篇语音仍然是一个关键但未被充分探索的挑战。这一差距主要归因于长语音训练数据集的稀缺以及长序列相关的高计算成本。为了解决这些限制,我们引入了FastLongSpeech,这是一种新颖的框架,旨在扩展LSLMs在长语音处理方面的能力,而无需专门的长语音训练数据。FastLongSpeech采用了一种迭代融合策略,可以将过长的语音序列压缩到可管理的长度。为了使LSLMs适应长语音输入,它引入了一种动态压缩训练方法,使模型在不同压缩比的短语音序列中进行训练,从而将LSLMs的能力转移到长语音任务中。为了评估LSLMs的长语音能力,我们开发了一个名为LongSpeech-Eval的长语音理解基准。实验表明,我们的方法在长语音和短语音任务中都表现出强劲的性能,同时大大提高了推理效率。

[34] Doc2Chart:基于意图的零样本文档图表生成
标题: Doc2Chart: Intent-Driven Zero-Shot Chart Generation from Documents
作者: Akriti Jain / Pritika Ramu / Aparna Garimella / Apoorv Saxena
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在通过指令微调方法将文本描述或表格转换为数据可视化方面表现出强大的能力。然而,将这些方法直接应用于更真实世界的用例,即根据用户给定的意图从长文档中可视化数据,而不是由用户手动预先选择相关内容,这并不简单。我们引入了基于意图的文档图表生成任务:给定用户指定的意图和文档,目标是在零样本设置下生成一个符合意图并基于文档的图表。我们提出了一个无监督的、两阶段的框架,其中LLM首先通过分解意图从文档中提取相关信息,并迭代验证和完善这些数据。接下来,一个启发式引导模块在最终代码生成之前选择合适的图表类型。为了评估生成图表的数据准确性,我们提出了一种基于归因的度量方法,该方法使用图表的结构化文本表示,而不是依赖于通常无法有效捕捉图表数据的视觉解码度量。为了验证我们的方法,我们整理了一个包含1,242个<意图,文档,图表>元组的数据集,涵盖金融和科学两个领域,这与现有数据集主要限于平行文本描述/表格及其对应图表形成对比。我们将我们的方法与使用LLMs的单次图表生成和基于查询的检索方法的基线进行比较;在图表数据准确性和图表类型方面,我们的方法分别比最佳基线高出最多9点和17点。

[35] 超越孤立能力:弥合长链推理与长上下文理解
标题: Beyond Isolated Capabilities: Bridging Long CoT Reasoning and Long-Context Understanding
作者: Yifei Wang
原文:   [英文]   [中文]  
备注: None
摘要:
推理蒸馏已成为增强小型语言模型推理能力的有效方法。然而,大规模推理蒸馏对其他关键能力的影响,特别是在上下文检索和推理方面,仍未被探索。鉴于检索增强生成(RAG)系统的重要性日益增加,这一理解的空白尤为显著,在这些系统中,高效获取和利用上下文信息对于生成可靠的响应至关重要。基于对扩展的长链推理(long-CoT)过程如何影响长上下文理解的需求,我们使用一系列从以卓越推理能力著称的Deepseek-R1蒸馏而来的开源模型进行了全面调查。我们的研究重点是评估这些模型在通过多文档问答任务中提取和整合相关信息的表现。通过严格的实验,我们证明了蒸馏的推理模式显著提高了长上下文理解。我们的分析表明,蒸馏通过在上下文分析和信息解析过程中促进更详细和明确的推理过程,增强了长上下文意识。这一进步有效地缓解了长期困扰长上下文模型的“中间迷失”问题。

[36] 小型语言模型
标题: Tiny language models
作者: Ronit D. Gross / Yarden Tzach / Tal Halevi / Ella Koresh / Ido Kanter
原文:   [英文]  
备注: 23 pages, 1 figure and 12 tables
摘要:
自然语言处理(NLP)的一个显著成就是其理解和生成有意义人类语言的能力。这种能力依赖于在大型语言模型(LLMs)上预训练的复杂前馈变压器块架构。然而,由于所需的巨大计算资源,目前只有少数主导公司能够进行LLM的预训练,这限制了更广泛的研究参与。这就产生了对更易获取的替代方案的迫切需求。在本研究中,我们探讨了微型语言模型(TLMs)是否表现出与LLMs相同的关键定性特征。我们证明了在分类任务中,TLMs在预训练和非预训练模型之间表现出明显的性能差距,这表明即使在微小规模上,预训练也是有效的。随着预训练数据集的规模增加以及预训练和分类数据集之间的标记重叠增加,性能差距也随之增大。此外,通过多个独立预训练的浅层架构的软委员会,可以复制预训练深层TLM架构所达到的分类准确性,从而在不影响分类准确性的情况下实现低延迟的TLMs。我们的结果基于对BERT-6和BERT-1变体在维基百科数据集子集上的预训练,并评估其在FewRel、AGNews和DBPedia分类任务上的表现。未来对TLM的研究有望进一步揭示NLP的底层机制,特别是考虑到其生物启发的模型表明TLMs可能足以让儿童或青少年发展语言能力。

[37] MEKiT:通过指令微调进行情感-原因对抽取的多源异构知识注入方法
标题: MEKiT: Multi-source Heterogeneous Knowledge Injection Method via Instruction Tuning for Emotion-Cause Pair Extraction
作者: Shiyi Mu / Yongkang Liu / Shi Feng / Xiaocui Yang / Daling Wang / Yifei Zhang
原文:   [英文]  
备注: Accepted by CogSci
摘要:
尽管大型语言模型(LLMs)在文本理解和生成方面表现出色,但在情感-原因对抽取(ECPE)任务中,其表现往往不如较小的语言模型。主要原因是缺乏辅助知识,这限制了LLMs有效感知情感和推理原因的能力。为了解决这个问题,我们提出了一种新颖的\textbf{多源异构知识注入方法},MEKiT,该方法整合了异构的内部情感知识和外部因果知识。具体来说,对于这两种不同方面和结构的知识,我们采用了结合指令模板和混合数据进行指令微调的方法,分别帮助LLMs更全面地识别情感和准确地推理原因。实验结果表明,MEKiT为ECPE任务提供了更有效和适应性更强的解决方案,表现出绝对的性能优势,并显著提高了LLMs在ECPE任务上的表现。

[38] 稀疏自编码器引导的监督微调以缓解大型语言模型中的意外代码转换
标题: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs
作者: Boyi Deng / Yu Wan / Baosong Yang / Fei Huang / Wenjie Wang / Fuli Feng
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)具有令人印象深刻的多语言能力,但它们存在意外的代码转换问题,也称为语言混合,即在模型响应中切换到意外的语言。这个问题导致可读性差,并降低了模型响应的可用性。然而,现有关于此问题的研究缺乏机制分析,且效果有限。在本文中,我们首先使用稀疏自编码器对意外的代码转换进行了深入分析,发现当LLMs切换到某种语言时,该语言的特征表现出过高的预激活值。基于我们的发现,我们提出了稀疏自编码器引导的监督微调(SASFT),该方法在训练过程中教导LLMs保持特定语言特征的适当预激活值。在三个语言的五个模型上的实验表明,与标准的监督微调相比,SASFT始终将意外代码转换减少了50%以上,并在四种情况下完全消除。此外,SASFT在六个多语言基准测试中保持甚至提高了模型的性能,显示了其在解决代码转换问题的同时保留多语言能力的有效性。

[39] 从神经元到语义:通过神经元对齐评估大型语言模型的跨语言对齐能力
标题: From Neurons to Semantics: Evaluating Cross-Linguistic Alignment Capabilities of Large Language Models via Neurons Alignment
作者: Chongxuan Huang / Yongshi Ye / Biao Fu / Qifeng Su / Xiaodong Shi
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)展示了卓越的多语言能力,但如何评估跨语言对齐仍然未被充分探索。现有的对齐基准主要关注于句子嵌入,但先前的研究表明,神经模型往往会导致非平滑的表示空间,这会影响低资源语言的语义对齐评估。受到神经科学发现的启发,即相似的信息会激活重叠的神经元区域,我们提出了一种新颖的基于神经元状态的跨语言对齐方法(NeuronXA),以评估LLMs的跨语言对齐能力,这提供了一种更具语义基础的方法来评估跨语言对齐。我们在几个著名的多语言LLM(LLaMA、Qwen、Mistral、GLM和OLMo)上,通过两个迁移任务和三个多语言基准对NeuronXA进行了评估。结果表明,仅使用100对平行句子,NeuronXA在下游任务性能上达到了0.9556的皮尔逊相关系数,在可迁移性上达到了0.8514。这些发现表明,NeuronXA在评估跨语言对齐和可迁移性方面的有效性,即使在小数据集的情况下。这突显了其在推进跨语言对齐研究和提高多语言LLM语义理解方面的潜力。

[40] PromptSuite:一个用于多提示生成的任务无关框架
标题: PromptSuite: A Task-Agnostic Framework for Multi-Prompt Generation
作者: Eliya Habba / Noam Dahan / Gili Lior / Gabriel Stanovsky
原文:   [英文]  
备注: Eliya Habba and Noam Dahan contributed equally to this work
摘要:
使用单一提示对大型语言模型(LLMs)进行评估已被证明不可靠,因为细微的变化可能导致显著的性能差异。然而,生成所需的提示变体以进行更稳健的多提示评估具有挑战性,这限制了其在实践中的应用。为了解决这个问题,我们引入了PromptSuite,一个能够自动生成各种提示的框架。PromptSuite具有灵活性——可以直接应用于各种任务和基准测试。它遵循模块化提示设计,允许对每个组件进行受控扰动,并且具有可扩展性,支持添加新组件和扰动类型。通过一系列案例研究,我们展示了PromptSuite提供了有意义的变体,以支持强有力的评估实践。它可以通过Python API(此处为URL)和用户友好的网页界面(此处为URL)获得。

[41] SYNTHIA:合成但自然定制的人类启发式人物
标题: SYNTHIA: Synthetic Yet Naturally Tailored Human-Inspired PersonAs
作者: Vahid Rahimzadeh / Erfan Moosavi Monazzah / Mohammad Taher Pilehvar / Yadollah Yaghoobzadeh
原文:   [英文]   [中文]  
备注: None
摘要:
以角色为驱动的大型语言模型(LLMs)已成为计算社会科学中的强大工具,但现有方法存在两个极端:要么依赖昂贵的人类策划数据,要么生成缺乏一致性和现实性的合成角色。我们介绍了SYNTHIA,一个包含30,000个背景故事的数据集,这些故事来自BlueSky开放平台上10,000名真实社交媒体用户,跨越三个时间窗口。SYNTHIA通过将合成生成与真实用户活动结合起来,弥合了这一光谱。我们的评估表明,SYNTHIA在人口多样性和社会调查一致性方面与最先进的方法表现相当,同时在叙事一致性方面显著优于它们。SYNTHIA独特地结合了时间维度,并提供了来自底层网络的丰富社交互动元数据,开启了计算社会科学和角色驱动语言建模的新研究方向。

[42] 动量不确定性引导的大语言模型推理
标题: MUR: Momentum Uncertainty guided Reasoning for Large Language Models
作者: Hang Yan / Fangzhi Xu / Rongman Xu / Yifei Li / Jian Zhang / Haoran Luo / Xiaobao Wu / Luu Anh Tuan / Haiteng Zhao / Qika Lin / Jun Liu
原文:   [英文]   [中文]  
备注: 25 pages, 8 figures
摘要:
大型语言模型(LLMs)在需要推理的任务上表现出色,但优化其推理效率仍然是一个未解决的挑战。尽管测试时缩放(TTS)可以提高推理质量,但它常常导致过度思考,在冗余计算上浪费了令牌。本文研究如何在不进行额外训练的情况下高效且自适应地指导LLM的测试时缩放。受物理学中动量概念的启发,我们提出了动量不确定性引导推理(MUR),通过跟踪和聚合随时间变化的逐步不确定性,动态分配关键推理步骤的思考预算。为了支持灵活的推理时控制,我们引入了伽马控制,这是一种通过单一超参数调整推理预算的简单机制。我们提供了深入的理论证明,以支持MUR在稳定性和偏差方面的优越性。MUR在四个具有挑战性的基准(MATH-500、AIME24、AIME25和GPQA-diamond)上与各种TTS方法进行了全面评估,使用了不同规模的最新Qwen3模型(1.7B、4B和8B)。结果表明,MUR平均减少了超过50%的计算量,同时将准确率提高了0.62-3.37%。

[43] RefCritic:通过改进反馈训练长链思维批评模型
标题: RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback
作者: Qiaoyu Tang / Hao Xiang / Le Yu / Bowen Yu / Hongyu Lin / Yaojie Lu / Xianpei Han / Le Sun / Junyang Lin
原文:   [英文]   [中文]  
备注: None
摘要:
随着大型语言模型(LLMs)的快速发展,开发有效的批评模块以提供精确指导变得至关重要但又充满挑战。在本文中,我们首先展示了用于构建批评模块的监督微调(目前广泛采用的解决方案)未能真正增强模型的批评能力,导致批评表面化,缺乏深入反思和验证。为了释放前所未有的批评能力,我们提出了RefCritic,这是一种基于强化学习的长链思维批评模块,具有双重基于规则的奖励:(1)解决方案判断的实例级正确性和(2)基于批评的策略模型的改进准确性,旨在生成高质量的评估,并提供可操作的反馈以有效指导模型改进。我们在Qwen2.5-14B-Instruct和DeepSeek-R1-Distill-Qwen-14B上对RefCritic进行了五个基准测试的评估。在批评和改进设置中,RefCritic在所有基准测试中表现出一致的优势,例如,在AIME25上对各自的基础模型分别实现了6.8%和7.2%的提升。值得注意的是,在多数投票下,经过RefCritic筛选的策略模型在投票数量增加时表现出更优的扩展性。此外,尽管在解决方案级监督上进行训练,RefCritic在ProcessBench(一项识别数学推理中错误步骤的基准测试)上优于步骤级监督方法。

[44] WebShaper:通过信息寻求形式化进行自主数据合成
标题: WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization
作者: Zhengwei Tao / Jialong Wu / Wenbiao Yin / Junkai Zhang / Baixuan Li / Haiyang Shen / Kuan Li / Liwen Zhang / Xinyu Wang / Yong Jiang / Pengjun Xie / Fei Huang / Jingren Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLM)驱动的代理的出现通过基于网络的信息搜索(IS)能力,革新了人工智能,使其能够解决复杂的开放式任务。高质量训练数据的稀缺限制了IS代理的发展。现有的方法通常采用信息驱动的范式,首先收集网络数据,然后基于检索生成问题。然而,这可能导致信息结构与推理结构、问题与答案之间的不一致。为了解决这个问题,我们提出了一种形式化驱动的IS数据合成框架WebShaper来构建数据集。WebShaper通过集合论系统地形式化IS任务。形式化的核心是知识投影(KP)的概念,它通过KP操作组合实现对推理结构的精确控制。在合成过程中,我们首先创建种子任务,然后使用多步骤扩展过程。在每一步中,一个代理扩展器使用基于我们形式化的检索和验证工具将当前的正式问题扩展得更复杂。我们在合成的数据集上训练我们的模型。实验结果表明,WebShaper在GAIA和WebWalkerQA基准测试中,在开源IS代理中实现了最先进的性能。

[45] 基于Transformer的基因序列建模编码方案评估
标题: Evaluation of Coding Schemes for Transformer-based Gene Sequence Modeling
作者: Chenlei Gong / Yuanhe Tian / Lei Mao / Yan Song
原文:   [英文]   [中文]  
备注: None
摘要:
目前,许多研究将DNA序列视为一种特殊类型的语言,并利用Transformers对其进行建模。这些研究使用固定长度的k-mer分割和BPE子词标记化,但缺乏系统的评估来确定哪种方法更优。我们比较了k=1,3,4,5,6的k-mer分割、一个包含4,096个标记的BPE词汇表,以及三种位置编码方法——正弦、AliBi和RoPE。每种配置在3、6、12和24层的Transformer编码器中从头开始训练,并在GUE基准数据集上进行评估。总体而言,BPE通过将频繁的模式压缩为可变长度的标记,减少序列长度并提高模型泛化能力,在各项任务中表现出更高且更稳定的性能。RoPE在捕捉周期性模式和外推长序列方面表现出色,而AliBi在依赖局部性的任务中也表现良好。在深度方面,我们观察到当层数从3增加到12时有显著的提升,而在24层时仅有微小的改进或轻微的过拟合。该研究为设计DNA Transformer模型中的标记化和位置编码提供了实用指导。

[46] 惩罚机制的长远影响:在提示影响下长度变化的合成文本中衡量词汇多样性
标题: A Penalty Goes a Long Way: Measuring Lexical Diversity in Synthetic Texts Under Prompt-Influenced Length Variations
作者: Vijeta Deshpande / Ishita Dasgupta / Uttaran Bhattacharya / Somdeb Sarkhel / Saayan Mitra / Anna Rumshisky
原文:   [英文]   [中文]  
备注: None
摘要:
由大型语言模型(LLMs)生成的合成文本越来越多地用于进一步训练和改进LLMs。多样性对于合成数据的有效性至关重要,研究人员依赖提示工程来提高多样性。然而,提示变化对响应文本长度的影响,以及更重要的,对词汇多样性测量的后续影响,仍未得到充分探索。在这项工作中,我们提出了惩罚调整型词-符比(PATTR),这是一种对长度变化具有鲁棒性的多样性度量。我们使用来自LLaMA、OLMo和Phi系列的七个模型生成了一个超过2000万字的大型合成语料库,专注于视频脚本生成的创意写作任务,其中多样性至关重要。我们使用PATTR评估每个响应的词汇多样性,并将其与现有的移动平均词-符比(MATTR)和压缩比(CR)进行比较。我们的分析强调了文本长度变化如何引入偏向较短响应的偏差。与现有度量不同,PATTR明确考虑了任务特定的目标响应长度($L_T$),以有效减轻长度偏差。我们进一步展示了PATTR在筛选词汇多样性最高的前10/100/1,000个响应中的实用性,显示出它始终优于MATTR和CR,提供了相当或更好的多样性,并高度符合$L_T$。

[47] 填补空白:常识知识生成对自然语言推理有用吗?
标题: Filling the Gap: Is Commonsense Knowledge Generation useful for Natural Language Inference?
作者: Chathuri Jayaweera / Brianna Yanqui / Bonnie Dorr
原文:   [英文]  
备注: 9 pages, 8 figures and 5 tables
摘要:
自然语言推理(NLI)是确定给定假设的前提语义蕴涵的任务。该任务旨在开发模拟自然人类推理过程的系统,其中常识知识起着重要作用。然而,现有的常识资源在多种前提-假设对上缺乏足够的覆盖。本研究探讨了大型语言模型作为NLI常识知识生成器的潜力,重点关注两个关键维度:它们在生成此类知识时的可靠性以及该知识对预测准确性的影响。我们调整和修改了现有的指标,以评估LLM在此背景下生成的事实性和一致性。虽然明确地结合常识知识并不总是能提高整体结果,但它有效地帮助区分蕴涵实例,并在一定程度上改善了区分矛盾和中性推理的能力。

[48] 从分歧到理解:自然语言推理中歧义检测的重要性
标题: From Disagreement to Understanding: The Case for Ambiguity Detection in NLI
作者: Chathuri Jayaweera / Bonnie Dorr
原文:   [英文]  
备注: 8 pages, 6 figures
摘要:
这篇立场论文认为,在自然语言推理(NLI)中,标注分歧并不仅仅是噪音,而往往反映了有意义的解释性差异,尤其是在前提或假设中存在歧义时。虽然不明确的指导方针和标注者的行为可能导致差异,但基于内容的歧义提供了一个独立于过程的人类观点分歧信号。我们呼吁转向对歧义敏感的NLI,通过系统地识别歧义输入对并分类歧义类型来实现这一点。为此,我们提出了一个整合现有分类法的统一框架,并通过具体例子说明关键的歧义子类型。这些例子揭示了歧义如何影响标注者的决策,并激发了对更好地使模型与人类解释一致的目标检测方法的需求。一个关键的限制是缺乏针对歧义和子类型进行标注的数据集。我们建议通过新的标注资源和无监督的歧义检测方法来解决这一差距——为更稳健、可解释和与人类一致的NLI系统铺平道路。

[49] 反对隐性标准的案例:使用吉兹文字的语言中同音词在机器翻译中的规范化
标题: A Case Against Implicit Standards: Homophone Normalization in Machine Translation for Languages that use the Ge'ez Script
作者: Hellina Hailu Nigatu / Atnafu Lambebo Tonja / Henok Biadglign Ademtew / Hizkel Mitiku Alemayehu / Negasi Haile Abadi / Tadesse Destaw Belay / Seid Muhie Yimam
原文:   [英文]   [中文]  
备注: Paper under review
摘要:
同音字规范化是阿姆哈拉语自然语言处理(NLP)文献中应用的一个预处理步骤,其中在书写系统中具有相同发音的字符被映射为一个字符。虽然这可能提高自动化指标报告的性能,但也导致模型无法理解单一语言中的不同书写形式。此外,在迁移学习中可能会产生影响,即在规范化数据上训练的模型无法很好地泛化到其他语言。在本文中,我们通过单语训练和跨语言迁移实验来理解规范化对使用Ge'ez脚本的语言的影响。然后,我们提出了一种推断后干预方法,其中规范化应用于模型预测而不是训练数据。通过我们简单的推断后规范化方案,我们展示了在保持训练中的语言特征的同时,BLEU分数可以提高多达1.03。我们的工作为技术促进的语言变化的广泛讨论做出了贡献,并呼吁进行更多语言感知的干预。

[50] 什么程度的自动化才算“足够好”?大型语言模型在元分析数据提取中的基准测试
标题: What Level of Automation is "Good Enough"? A Benchmark of Large Language Models for Meta-Analysis Data Extraction
作者: Lingbo Li / Anuradha Mathrani / Teo Susnjak
原文:   [英文]   [中文]  
备注: None
摘要:
从全文随机对照试验(RCTs)中自动提取数据以进行荟萃分析仍然是一个重大挑战。本研究评估了三种大型语言模型(LLMs)(Gemini-2.0-flash、Grok-3、GPT-4o-mini)在涉及统计结果、偏倚风险评估和研究层面特征的任务中的实际表现,涵盖了高血压、糖尿病和骨科三个医学领域。我们测试了四种不同的提示策略(基本提示、自我反思提示、模型集成和定制提示),以确定如何提高提取质量。所有模型都表现出高精度,但由于遗漏关键信息而始终存在召回率低的问题。我们发现定制提示最为有效,召回率提高了多达15%。基于此分析,我们提出了一套三级指南,用于在数据提取中使用LLMs,根据任务复杂性和风险将数据类型与适当的自动化水平相匹配。我们的研究为在实际荟萃分析中实现数据提取自动化提供了实用建议,通过有针对性、任务特定的自动化,在LLM效率与专家监督之间取得平衡。

[51] 参数高效语言模型部署的协同蒸馏策略
标题: Collaborative Distillation Strategies for Parameter-Efficient Language Model Deployment
作者: Xiandong Meng / Yan Wu / Yexin Tian / Xin Hu / Tianze Kang / Junliang Du
原文:   [英文]  
备注: None
摘要:
本文解决了在部署大型语言模型时遇到的高计算成本和推理速度慢的问题。提出了一种由多个教师模型指导的蒸馏策略。该方法构建了多个教师模型,并整合了它们的输出概率分布和中间语义特征。这引导学生模型从多个知识源中学习。因此,学生模型在保持较小参数规模的同时,获得了更强的语言理解和生成能力。为此,本文引入了一种加权输出融合机制、特征对齐损失函数和基于熵的动态教师加权策略。这些组件提高了蒸馏过程中知识转移的质量和稳定性。在多教师指导下,学生模型更有效地捕捉语义信息,并在多项评估指标上表现出色。特别是,该方法在语言建模、文本生成和多任务学习等任务中表现出高一致性、泛化能力和任务适应性。实验将所提出的方法与几种广泛采用的蒸馏方法进行了比较。结果进一步证实了其在困惑度、蒸馏损失和生成质量方面的整体优势。这项研究为大型语言模型的高效压缩提供了一条可行的技术路径,也展示了多教师协作机制在复杂语言建模任务中的有效性。

[52] SOI 重要性:通过兴趣子集分析预训练语言模型中的多设置训练动态
标题: SOI Matters: Analyzing Multi-Setting Training Dynamics in Pretrained Language Models via Subsets of Interest
作者: Shayan Vassef / Amirhossein Dabiriaghdam / Mohammadreza Bakhtiari / Yadollah Yaghoobzadeh
原文:   [英文]   [中文]  
备注: None
摘要:
本研究探讨了多任务、多语言和多源学习方法对预训练语言模型的鲁棒性和性能的影响。为了增强这一分析,我们引入了兴趣子集(SOI),这是一种新颖的分类框架,用于识别训练过程中六种不同的学习行为模式,包括易遗忘的例子、未学习的例子和始终正确的例子。通过SOI转换热图和数据集制图可视化,我们分析了在从单一设置到多设置配置的过渡中,例子如何在这些类别之间转变。我们在三个平行比较中进行了全面的实验:使用英语任务(蕴涵、释义、情感)的多任务与单任务学习,使用情感分析数据集的多源与单源学习,以及使用法语、英语和波斯语的意图分类的多语言与单语言学习。我们的结果表明,多源学习始终如一地提高了分布外性能,最高可达7%,而多任务学习则显示出混合结果,在相似任务组合中有显著提升。我们进一步引入了一种两阶段微调方法,其中第二阶段利用基于SOI的子集选择来实现额外的性能提升。这些发现为训练动态提供了新的见解,并为优化多设置语言模型性能提供了实用的方法。

[53] ChiMed 2.0:推进中文医学数据集以促进大型语言建模
标题: ChiMed 2.0: Advancing Chinese Medical Dataset in Facilitating Large Language Modeling
作者: Yuanhe Tian / Junjie Liu / Zhizhou Kou / Yuxiang Li / Yan Song
原文:   [英文]   [中文]  
备注: None
摘要:
构建高质量的数据资源对于推进特定领域的人工智能研究和应用至关重要,尤其是在中文医学领域。现有的中文医学数据集在规模和领域覆盖方面都有限,无法满足有效预训练所需的多样化语料库。此外,大多数数据集仅设计用于大型语言模型(LLM)的微调,不支持预训练和基于人类反馈的强化学习(RLHF)。在本文中,我们提出了一个名为ChiMed 2.0的中文医学数据集,它扩展了我们之前的工作ChiMed,涵盖了从中文医学在线平台收集的数据以及由LLM生成的数据。ChiMed 2.0包含204.4M个中文字符,涵盖了传统中医经典和现代通用医学数据,其中有164.8K个用于预训练的文档,351.6K个用于监督微调(SFT)的问答对,以及41.7K个用于RLHF的偏好数据元组。为了验证我们的方法在训练中文医学LLM方面的有效性,我们在代表性通用领域LLM上进行了进一步的预训练、SFT和RLHF实验,并在医学基准数据集上评估其性能。结果显示在不同模型规模上都有性能提升,验证了数据集的有效性和适用性。

[54] 一种用于大型语言模型的新型自我进化框架
标题: A Novel Self-Evolution Framework for Large Language Models
作者: Haoran Sun / Zekun Zhang / Shaoning Zeng
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)的能力在某种程度上受到预训练的限制,因此一些研究人员通过后训练来优化LLMs。现有的后训练策略,如基于记忆的检索或偏好优化,虽然改善了用户对齐,但未能增强模型的领域认知。为弥补这一差距,我们提出了一种新颖的双阶段自我进化(DPSE)框架,该框架联合优化用户偏好适应和领域特定能力。DPSE引入了一个审查模块,用于提取多维交互信号并估计满意度分数,这些分数通过主题感知和偏好驱动策略指导结构化数据扩展。这些扩展的数据集支持一个两阶段的微调流程:监督领域基础训练,随后进行频率感知的偏好优化。跨一般NLP基准和长期对话任务的实验表明,DPSE始终优于监督微调、偏好优化和记忆增强的基线。消融研究验证了每个模块的贡献。通过这种方式,我们的框架为LLMs的持续自我进化提供了一条自主路径。

[55] 超越简单胜利:一种考虑文本难度的大型语言模型生成文本检测基准
标题: Beyond Easy Wins: A Text Hardness-Aware Benchmark for LLM-generated Text Detection
作者: Navid Ayoobi / Sadat Shahriar / Arjun Mukherjee
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一种新的AI文本检测器评估范式,优先考虑现实世界和公平的评估。当前的方法主要报告诸如AUROC之类的常规指标,却忽视了即使是适度的误报率也会对检测系统的实际部署构成重大障碍。此外,现实世界的部署需要预先确定的阈值配置,使得检测器的稳定性(即在不同领域和对抗场景中保持一致性能)成为关键因素。这些方面在以往的研究和基准测试中基本上被忽略了。我们的基准测试SHIELD通过将可靠性和稳定性因素整合到一个统一的评估指标中,解决了这些局限性,旨在进行实际评估。此外,我们开发了一种事后、与模型无关的人性化框架,该框架修改AI文本以更接近人类创作,结合了可控的难度参数。这种难度感知的方法有效地挑战了当前最先进的零样本检测方法在保持可靠性和稳定性方面的能力。(数据和代码:此https URL)

[56] 关于对齐语言模型中左倾政治偏见的不可避免性
标题: On the Inevitability of Left-Leaning Political Bias in Aligned Language Models
作者: Thilo Hagendorff
原文:   [英文]  
备注: None
摘要:
人工智能对齐的指导原则是训练大型语言模型(LLMs)以达到无害、有帮助和诚实(HHH)。与此同时,越来越多的人担心LLMs表现出左翼政治偏见。然而,对人工智能对齐的承诺无法与后者的批评相协调。在本文中,我主张,被训练为无害和诚实的智能系统必然会表现出左翼政治偏见。对齐目标所依据的规范性假设本质上与进步的道德框架和左翼原则一致,强调避免伤害、包容性、公平性和实证的真实性。相反,右翼意识形态往往与对齐指南相冲突。然而,关于LLMs政治偏见的研究始终将其对左倾倾向的见解框定为一种风险、问题或令人担忧的现象。通过这种方式,研究人员实际上是在反对人工智能对齐,默默地助长了对HHH原则的违反。

[57] 推理模型是测试利用者:重新思考多项选择
标题: Reasoning Models are Test Exploiters: Rethinking Multiple-Choice
作者: Narun Raman / Taylor Lundy / Kevin Leyton-Brown
原文:   [英文]   [中文]  
备注: 9 pages, 3 figures
摘要:
在评估大语言模型(LLMs)在问答领域的表现时,通常会要求模型从一组固定的选项中进行选择(即所谓的多项选择问答,MCQA)。尽管实际应用中通常不会为系统提供明确的选项供其选择,但这种方法仍被广泛使用,因为它使自动评分变得简单,并且往往能产生与实际应用表现相关性较高的挑战性基准。本文研究了这一趋势在最先进的推理模型中是否仍然成立,系统地评估了15个不同的问答基准(例如,MMLU,HLE)和25个不同的LLM(包括小型模型如Qwen 7B和相对大型的模型如Llama 70B)。对于每个模型-基准对,我们考虑了5种向模型呈现问题的方式,包括是否向模型提供多个选项的变化;是否有时用“以上皆非”替换正确答案;以及是否允许模型在选项呈现之前和/或之后进行链式思维推理。只要允许模型在被呈现选项之前进行链式思维推理,MCQA仍然是模型下游性能的良好代理。另一方面,能够在给定一组选项后进行推理的大型模型往往由于利用选项中的信息而显著优于其自由文本表现。我们得出结论,MCQA不再是评估最先进模型下游性能的良好代理,并提供了设计更稳健、更抗偏见的基准的实用指南,以更好地反映LLM的真实推理能力。

[58] 狮卫2:构建轻量级、高效数据和本地化的多语言内容审核器
标题: LionGuard 2: Building Lightweight, Data-Efficient & Localised Multilingual Content Moderators
作者: Leanne Tan / Gabriel Chua / Ziyu Ge / Roy Ka-Wei Lee
原文:   [英文]   [中文]  
备注: None
摘要:
现代的审核系统越来越多地支持多种语言,但往往未能解决本地化和低资源变体的问题,从而在实际部署中产生安全漏洞。小型模型为大型语言模型提供了一种潜在的替代方案,但仍然需要大量的数据和计算资源。我们介绍了LionGuard 2,这是一款轻量级的多语言审核分类器,专为新加坡环境设计,支持英语、中文、马来语和部分泰米尔语。LionGuard 2基于预训练的OpenAI嵌入和多头序数分类器,在17个基准测试中表现优于多个商业和开源系统,包括新加坡特定的数据集和公共英语数据集。该系统已在新加坡政府中积极部署,展示了其在大规模应用中的实际效能。我们的研究表明,高质量的本地数据和强大的多语言嵌入可以在不微调大型模型的情况下实现强大的审核性能。我们发布了我们的模型权重和部分训练数据,以支持未来在大型语言模型安全性方面的工作。

[59] 通过熵分析探测Transformer架构中的信息分布
标题: Probing Information Distribution in Transformer Architectures through Entropy Analysis
作者: Amedeo Buonanno / Alessandro Rivetti / Francesco A. N. Palmieri / Giovanni Di Gennaro / Gianmarco Romano
原文:   [英文]   [中文]  
备注: Presented to the Italian Workshop on Neural Networks (WIRN2025) and it will appear in a Springer Chapter
摘要:
这项工作探讨了熵分析作为一种工具,用于研究基于Transformer架构的信息分布。通过量化词元级的不确定性并检查不同处理阶段的熵模式,我们旨在调查这些模型中信息是如何管理和转化的。作为一个案例研究,我们将该方法应用于基于GPT的大型语言模型,展示其揭示模型行为和内部表示的潜力。这种方法可能为理解模型行为提供见解,并有助于开发基于Transformer模型的可解释性和评估框架。

[60] 隐喻与大型语言模型:当表面特征比深层理解更重要时
标题: Metaphor and Large Language Models: When Surface Features Matter More than Deep Understanding
作者: Elisa Sanchez-Bayona / Rodrigo Agerri
原文:   [英文]   [中文]  
备注: None
摘要:
本文对大型语言模型(LLMs)在跨多个数据集、任务和提示配置中的隐喻解释能力进行了全面评估。尽管隐喻处理在自然语言处理(NLP)中受到了广泛关注,但之前的研究仅限于单一数据集的评估和特定任务设置,通常使用通过词汇替换构建的人工数据。我们通过在多样的公开可用数据集上进行广泛实验来解决这些限制,这些数据集包含推理和隐喻注释,重点关注自然语言推理(NLI)和问答(QA)任务。结果表明,LLMs 的性能更多地受到词汇重叠和句子长度等特征的影响,而不是隐喻内容,表明 LLMs 所谓的理解隐喻语言的能力是表层特征、上下文学习和语言知识的结合。这项工作提供了关于 LLMs 在处理比喻语言方面的当前能力和局限性的关键见解,强调了在隐喻解释任务中需要更现实的评估框架。数据和代码是公开可用的。

[61] STITCH:用于口语模型的分块推理的同时思考与表达
标题: STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models
作者: Cheng-Han Chiang / Xiaofei Wang / Linjie Li / Chung-Ching Lin / Kevin Lin / Shujie Liu / Zhendong Wang / Zhengyuan Yang / Hung-yi Lee / Lijuan Wang
原文:   [英文]   [中文]  
备注: Work in progress. Project page: this https URL
摘要:
口语语言模型(SLMs)旨在接受语音输入并产生口语响应。然而,目前的SLMs缺乏在响应之前进行内部、无声思考过程的能力。相比之下,人类通常会进行复杂的内部思维推理,从而能够清晰简洁地传达想法。因此,将无声的思考过程整合到SLMs中是非常理想的。虽然在开始说话之前天真地生成完整的思维链(CoT)推理可以使SLMs进行思考,但这会导致语音响应的额外延迟,因为CoT推理可能任意长。为了解决这个问题,我们提出了Stitch,这是一种新颖的生成方法,它在生成无声推理块和口语响应块之间交替进行。由于一段口语响应的音频持续时间远长于生成该段口语响应中的标记所需的时间,我们利用剩余的空闲时间生成无声推理标记。当一段音频播放给用户时,模型继续生成下一个无声推理块,实现同时思考和说话。值得注意的是,Stitch在设计上无法生成无声CoT的基线模型的延迟相匹配,同时在数学推理数据集上比这些基线模型表现高出15%;在非推理数据集上,Stitch的表现也与这些基线模型同样出色。一些动画和演示可以在项目页面上查看:此https URL。

[62] AlgoSimBench:识别竞赛编程中算法相似的问题
标题: AlgoSimBench: Identifying Algorithmically Similar Problems for Competitive Programming
作者: Jierui Li / Raymond Mooney
原文:   [英文]   [中文]  
备注: 19 pages, pre-print only
摘要:
最近在大型语言模型(LLM)方面的进展,例如推理模型,展示了在解决复杂的竞赛编程问题上强大的能力,常常可以与顶尖的人类竞争者媲美。然而,这些能力是否能够推广到训练中较少涉及的相关领域仍未得到充分探索。为了解决这个问题,我们引入了AlgoSimBench,这是一个新的基准,旨在评估LLM识别算法相似问题(ASP)的能力——这些问题可以使用类似的算法方法来解决。AlgoSimBench由1317个问题组成,标注了231个不同的细粒度算法标签,我们从中整理出402道多项选择题(MCQ),每道题目呈现一个算法相似的问题以及三个在文本上相似但在算法上不相似的干扰项。我们的评估显示,LLM在识别ASP方面存在困难,表现最好的模型(o3-mini)在MCQ任务上仅达到65.9%的准确率。为了解决这一挑战,我们提出了尝试解决方案匹配(ASM),这是一种改进问题相似性检测的新方法。在我们的MCQ任务中,ASM在不同模型上带来了6.7%到11.7%的绝对准确率提升。我们还评估了代码嵌入模型和检索方法在相似问题识别上的表现。尽管问题的对抗性选择使得性能下降到低于随机水平,但我们发现简单地总结问题以去除叙述元素可以消除这种影响,并且将ASM与关键词优先的方法BM25结合可以达到高达52.2%的准确率。代码和数据可在此http URL获取。

[63] ASPERA:用于评估复杂动作执行规划的模拟环境
标题: ASPERA: A Simulated Environment to Evaluate Planning for Complex Action Execution
作者: Alexandru Coca / Mark Gaynor / Zhenxing Zhang / Jianpeng Cheng / Bo-Hsiang Tseng / Pete Boothroyd / Héctor Martinez Alonso / Diarmuid Ó Séaghdha / Anders Johannsen
原文:   [英文]   [中文]  
备注: 37 pages, 22 figures. To appear at ACL 2025
摘要:
本文评估了大型语言模型(LLMs)在支持能够执行复杂操作的数字助手方面的潜力。这些助手依赖于预训练的编程知识,通过将助手库中定义的对象和函数组合成操作执行程序来实现多步骤目标。为此,我们开发了ASPERA,一个由助手库模拟和人类辅助的LLM数据生成引擎组成的框架。我们的引擎允许开发人员指导LLM生成高质量的任务,这些任务包括复杂的用户查询、模拟状态和相应的验证程序,从而解决数据可用性和评估稳健性挑战。除了框架,我们还发布了Asper-Bench,这是一个使用ASPERA生成的250个具有挑战性的任务的评估数据集,我们用它来展示基于自定义助手库的程序生成对LLMs来说是一个显著的挑战,相较于无依赖的代码生成。

[64] 基于验证器指导的混合测试时间缩放的大型语言模型的步骤级别方法
标题: Step-level Verifier-guided Hybrid Test-Time Scaling for Large Language Models
作者: Kaiyan Chang / Yonghao Shi / Chenglong Wang / Hang Zhou / Chi Hu / Xiaoqian Liu / Yingfeng Luo / Yuan Ge / Tong Xiao / Jingbo Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
测试时缩放(Test-Time Scaling, TTS)是一种在推理过程中逐步引出模型智能的有前途的方法。最近,基于训练的TTS方法(如持续强化学习)变得越来越流行,而无训练的TTS方法则逐渐失去显著性。然而,训练所需的额外计算开销加重了测试时缩放的负担。在本文中,我们专注于无训练的TTS推理方法。我们首先设计了条件步骤级自我优化,这是一种由过程验证指导的细粒度顺序缩放方法。在其有效性的基础上,我们进一步将其与其他经典的步骤级并行缩放方法结合,提出了一种新的推理范式,称为混合测试时缩放。对五种不同规模(3B-14B)和家族的指令调优大型语言模型(LLM)进行的大量实验表明,在细粒度上结合各种无训练TTS方法的混合策略在扩展LLM推理性能边界方面具有相当大的潜力。

[65] 评估文本风格转换:九种语言的文本净化基准
标题: Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification
作者: Vitaly Protasov / Nikolay Babakov / Daryna Dementieva / Alexander Panchenko
原文:   [英文]   [中文]  
备注: preprint
摘要:
尽管大型语言模型(LLMs)最近取得了进展,但文本生成任务的评估,如文本风格转换(TST),仍然是一个重大挑战。最近的研究(Dementieva 等,2024;Pauli 等,2025)揭示了自动指标与人工判断之间存在显著差距。此外,大多数先前的工作仅专注于英语,使得多语言的TST评估基本未被探索。在本文中,我们首次对跨九种语言的文本净化系统评估进行了全面的多语言研究:英语、西班牙语、德语、中文、阿拉伯语、印地语、乌克兰语、俄语、阿姆哈拉语。借鉴机器翻译的灵感,我们评估了现代基于神经网络的评估模型与基于提示的LLM作为评判者的方法的有效性。我们的研究结果为设计更可靠的多语言TST评估流程提供了实用的方案,特别是在文本净化的情况下。

[66] 智能眼睛应对无声威胁:用于太赫兹成像的VLMs和上下文学习
标题: Smart Eyes for Silent Threats: VLMs and In-Context Learning for THz Imaging
作者: Nicolas Poggi / Shashank Agnihotri / Margret Keuper
原文:   [英文]   [中文]  
备注: None
摘要:
太赫兹(THz)成像能够进行非侵入式分析,适用于安全检查和材料分类等应用,但由于标注有限、分辨率低以及视觉模糊,图像分类仍然具有挑战性。我们引入了基于视觉-语言模型(VLMs)的上下文学习(ICL),作为一种无需微调的灵活且可解释的替代方案。通过使用模态对齐的提示框架,我们将两个开放权重的VLMs适配到THz领域,并在零样本和单样本设置下进行评估。我们的结果表明,ICL在低数据环境中提高了分类和可解释性。这是首次将ICL增强的VLMs应用于THz成像,为资源受限的科学领域提供了一个有前景的方向。代码:\href{this https URL}{GitHub repository}。

[67] 通过强化学习学习提取合理证据以增强检索生成
标题: Learning to Extract Rational Evidence via Reinforcement Learning for Retrieval-Augmented Generation
作者: Xinping Zhao / Shouzheng Huang / Yan Zhong / Xinshuo Hu / Baotian Hu / Min Zhang
原文:   [英文]   [中文]  
备注: 16 pages, 7 Figures, 10 Tables
摘要:
检索增强生成(RAG)有效提高了大型语言模型(LLMs)的准确性。然而,检索噪声显著影响了LLMs生成的质量,因此需要开发去噪机制。以往的方法在没有明确思考的情况下直接提取证据,这有可能过滤掉关键线索,并且在泛化方面存在困难。为此,我们提出了LEAR,它通过以下方式学习提取合理的证据:(1)首先通过明确推理识别检索内容中的潜在线索,然后(2)有意识地提取,以避免遗漏任何对回答问题有帮助的关键线索。具体来说,我们将证据推理和证据提取框定为一个统一的响应进行端到端训练;应用知识标记掩码进行解耦,以得出基于推理和基于提取的答案;并设计了三种可验证的奖励函数,包括答案、长度和格式,通过策略优化算法更新模型。在三个基准数据集上的大量实验表明,LEAR的有效性,提供了紧凑且高质量的证据,提高了下游任务的准确性,并促进了在线RAG系统中的有效应用。

[68] 社交媒体上的冲突叙事与极化
标题: Conflicting narratives and polarization on social media
作者: Armin Pournaki
原文:   [英文]   [中文]  
备注: 30 pages, 7 figures
摘要:
叙事是人类理解政治现实的关键解释工具。在这项研究中,我们展示了对冲突叙事的分析,即通过其体验和讲述政治现实的冲突性解释视角,如何为公共领域的极化和议题对齐的论述机制提供洞见。基于先前的研究,该研究识别了2021年至2023年间德国推特圈中意识形态极化的议题,我们通过从对立意见群体的推文中提取冲突叙事的文本信号,分析极化的论述维度。聚焦于一系列显著的议题和事件(如乌克兰战争、新冠疫情、气候变化),我们展示了在两个维度上存在冲突叙事的证据:(i)对同一组行为者赋予不同的行为角色(例如,对北约在乌克兰战争中角色的不同解释),以及(ii)为同一事件安排不同的行为者(例如,在右翼倾向的新冠叙事中涉及比尔·盖茨)。此外,我们首次提供了叙事对齐模式的证据,这是一种政治行为者用来跨议题对齐意见的论述策略。这些发现展示了叙事作为分析视角在极化论述机制中的应用。

[69] 利用语境进行政治辩论中的多模态谬误分类
标题: Leveraging Context for Multimodal Fallacy Classification in Political Debates
作者: Alessio Pittiglio
原文:   [英文]   [中文]  
备注: 12th Workshop on Argument Mining (ArgMining 2025) @ ACL 2025
摘要:
在本文中,我们介绍了我们为MM-ArgFallacy2025共享任务提交的研究,该任务旨在推进多模态论证挖掘的研究,重点关注政治辩论中的逻辑谬误。我们的方法使用了预训练的基于Transformer的模型,并提出了多种利用上下文的方法。在谬误分类子任务中,我们的模型在文本、音频和多模态上分别达到了0.4444、0.3559和0.4403的宏观F1分数。我们的多模态模型表现出与仅文本模型相当的性能,表明有改进的潜力。

[70] P3:提示促进提示
标题: P3: Prompts Promote Prompting
作者: Xinyu Zhang / Yuanquan Hu / Fangchao Liu / Zhicheng Dou
原文:   [英文]   [中文]  
备注: Accepted to ACL 2025 findings
摘要:
当前的大型语言模型(LLM)应用通常采用多组件提示,包括系统提示和用户提示,以指导模型行为。尽管最近的进展已经证明自动优化系统或用户提示以提升性能的有效性,但这种单方面的方法由于这些组件的相互依赖性,往往会产生次优结果。在这项工作中,我们介绍了P3,一种新颖的自我改进框架,通过迭代过程同时优化系统和用户提示。离线优化的提示进一步用于促进在线提示,通过执行查询相关的提示优化。针对一般任务(例如,Arena-hard和Alpaca-eval)和推理任务(例如,GSM8K和GPQA)的广泛实验表明,P3在自动提示优化领域实现了卓越的性能。我们的结果突出了整体优化策略在提升LLM性能方面的有效性,适用于不同领域。

[71] CoLD:用于过程奖励模型的反事实引导长度去偏
标题: CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models
作者: Congmin Zheng / Jiachen Zhu / Jianghao Lin / Xinyi Dai / Yong Yu / Weinan Zhang / Mengyue Yang
原文:   [英文]   [中文]  
备注: None
摘要:
过程奖励模型(PRMs)在评估和指导大型语言模型(LLMs)中的多步推理,特别是在数学问题解决中,起着核心作用。然而,我们发现现有的PRMs中存在普遍的长度偏差:它们倾向于为较长的推理步骤分配更高的分数,即使语义内容和逻辑有效性没有变化。这种偏差削弱了奖励预测的可靠性,并导致推理过程中产生过于冗长的输出。为了解决这个问题,我们提出了CoLD(反事实引导的长度去偏),这是一个通过三个组件来减轻长度偏差的统一框架:显式的长度惩罚调整、一个学习的偏差估计器用于捕捉虚假的长度相关信号,以及一个在奖励预测中强制执行长度不变性的联合训练策略。我们的方法基于反事实推理,并通过因果图分析提供信息。在MATH500和GSM-Plus上的大量实验表明,CoLD持续减少了奖励与长度的相关性,提高了步骤选择的准确性,并鼓励更简洁、逻辑有效的推理。这些结果证明了CoLD在提高PRMs的准确性和稳健性方面的有效性和实用性。

[72] 信号博弈中的组合理解
标题: Compositional Understanding in Signaling Games
作者: David Peter Wallis Freeborn
原文:   [英文]   [中文]  
备注: None
摘要:
标准信号游戏模型中的接收者在学习组合信息方面存在困难。即使信号发送者发送组合信息,接收者也不会以组合方式进行解释。当一个信息组件的信息丢失或遗忘时,其他组件的信息也会被抹去。在本文中,我构建了信号游戏模型,其中真正的组合理解得以发展。我提出了两个新模型:一个仅从信号的原子信息中学习的极简接收者,以及一个从所有可用信息中学习的通才接收者。这些模型在许多方面比以前的替代方案更简单,并允许接收者从信息的原子组件中学习。

[73] 大型语言模型在推理任务上的表现是否受到提问方式不同的影响?
标题: Is Large Language Model Performance on Reasoning Tasks Impacted by Different Ways Questions Are Asked?
作者: Seok Hwan Song / Mohna Chakraborty / Qi Li / Wallapak Tavanapong
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)已经通过多种问题类型进行评估,例如选择题、判断题以及简答题/长答题。本研究回答了一个未被探索的问题,即不同问题类型对LLM在推理任务中的准确性的影响。我们通过定量和演绎推理任务,调查了五种LLM在三种不同类型问题上的表现。性能指标包括推理步骤的准确性和选择最终答案的准确性。主要发现:(1)在不同问题类型中,LLM的表现存在显著差异。(2)推理准确性不一定与最终选择的准确性相关。(3)选项数量和词语选择会影响LLM的表现。

[74] Chinchunmei 在 SemEval-2025 第11项任务:使用对比学习提升大型语言模型的情感感知能力
标题: Chinchunmei at SemEval-2025 Task 11: Boosting the Large Language Model's Capability of Emotion Perception using Contrastive Learning
作者: Tian Li / Yujian Sun / Huizhi Liang
原文:   [英文]   [中文]  
备注: None
摘要:
SemEval-2025任务11,文本情感检测中的差距弥合,介绍了一项涵盖28种语言的情感识别挑战。该竞赛鼓励研究人员探索更先进的方法,以应对情感表达的多样性和背景变化带来的挑战。它设有两个赛道:多标签分类(赛道A)和情感强度预测(赛道B),涵盖六种情感类别:愤怒、恐惧、快乐、悲伤、惊讶和厌恶。在我们的工作中,我们系统地探索了两种对比学习方法的优势:基于样本的(对比推理校准)和基于生成的(DPO, SimPO)对比学习。基于样本的对比方法通过比较两个样本来训练模型,以生成更可靠的预测。基于生成的对比方法训练模型以区分正确和错误的生成,从而优化其预测。所有模型均从LLaMa3-Instruct-8B微调而来。我们的系统在英语赛道A中获得第9名,在赛道B中获得第6名,同时在其他语言中排名在表现优异的系统之列。

[75] 从查询到标准:理解天文学家如何评估大型语言模型
标题: From Queries to Criteria: Understanding How Astronomers Evaluate LLMs
作者: Alina Hyk / Kiera McCormick / Mian Zhong / Ioana Ciucă / Sanjib Sharma / John F Wu / J. E. G. Peek / Kartheik G. Iyer / Ziang Xiao / Anjalie Field
原文:   [英文]   [中文]  
备注: Accepted to the Conference on Language Modeling 2025 (COLM), 22 pages, 6 figures
摘要:
近年来,人们越来越关注利用大型语言模型(LLMs)来辅助天文学和其他科学研究,但用于评估LLM的基准测试总体上未能跟上人们评估和使用这些模型的多样化方式。在这项研究中,我们通过了解用户如何评估LLM来改进评估程序。我们专注于一个特定的用例:一个通过Slack部署的、用于与天文文献互动的LLM驱动的检索增强生成机器人。我们对四周内机器人收到的368个查询进行了归纳编码,并对11位天文学家进行了后续访谈,揭示了人们如何评估该系统,包括所提问题的类型和判断响应的标准。我们将研究结果综合为具体建议,以构建更好的基准测试,然后在构建用于评估天文学LLM的样本基准时采用这些建议。总体而言,我们的工作提供了改进LLM评估的方法,并最终提高其可用性,特别是在科学研究中的应用。

[76] 眼科大型语言模型基准测试(BELO):眼科知识与推理
标题: BEnchmarking LLMs for Ophthalmology (BELO) for Ophthalmological Knowledge and Reasoning
作者: Sahana Srinivasan / Xuguang Ai / Thaddaeus Wai Soon Lo / Aidan Gilson / Minjie Zou / Ke Zou / Hyunjae Kim / Mingjia Yang / Krithi Pushpanathan / Samantha Yew / Wan Ting Loke / Jocelyn Goh / Yibing Chen / Yiming Kong / Emily Yuelei Fu / Michelle Ongyong Hui / Kristen Nwanyanwu / Amisha Dave / Kelvin Zhenghao Li / Chen-Hsin Sun / Mark Chia / Gabriel Dawei Yang / Wendy Meihua Wong / David Ziyou Chen / Dianbo Liu / Maxwell Singer / Fares Antaki / Lucian V Del Priore / Jost Jonas / Ron Adelman / Qingyu Chen / Yih-Chung Tham
原文:   [英文]  
备注: None
摘要:
当前用于评估眼科大型语言模型(LLMs)的基准测试在范围上有限,并且过于侧重于准确性。我们引入了BELO(眼科大型语言模型的基准测试),这是一个通过13位眼科专家多轮审核开发的标准化和全面的评估基准。BELO评估与眼科相关的临床准确性和推理质量。我们使用关键词匹配和微调的PubMedBERT模型,从多种医学数据集(BCSC、MedMCQA、MedQA、BioASQ和PubMedQA)中整理了眼科特定的多项选择题(MCQs)。该数据集经过多轮专家审核,系统地删除了重复和不合格的问题。十位眼科医生完善了每个MCQ正确答案的解释,随后由三位高级眼科医生进一步裁定。为了展示BELO的实用性,我们使用准确性、宏F1和五个文本生成指标(ROUGE-L、BERTScore、BARTScore、METEOR和AlignScore)评估了六个LLMs(OpenAI o1、o3-mini、GPT-4o、DeepSeek-R1、Llama-3-8B和Gemini 1.5 Pro)。在进一步的人类专家评估中,两位眼科医生对50个随机选择的输出进行了准确性、全面性和完整性的定性审查。BELO由900个高质量、专家审核的问题组成,这些问题汇集自五个来源:BCSC(260)、BioASQ(10)、MedMCQA(572)、MedQA(40)和PubMedQA(18)。我们建立了一个公共排行榜,以促进透明的评估和报告。重要的是,BELO数据集将保持为仅用于评估的保留基准,以确保未来模型的公平和可重复的比较。

[77] 理解大型语言模型在跨学科研究中的能力
标题: Understanding Large Language Models' Ability on Interdisciplinary Research
作者: Yuanhao Shen / Daniel Xavier de Sousa / Ricardo Marçal / Ali Asad / Hongyu Guo / Xiaodan Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,大型语言模型(LLMs)的进步显示出它们在复杂领域中执行多步骤、逻辑驱动推理的惊人能力,使其成为科学发现中的强大工具和合作者,同时挑战了长期以来认为灵感驱动的创意是人类独有的观点。然而,缺乏专门的基准来评估LLMs在跨学科研究(IDR)环境中发展创意的能力,这成为全面了解其优缺点的关键障碍。为了解决这一问题,我们引入了IDRBench——一个开创性的基准,包含一个专家注释的数据集和一套任务,专门用于评估LLMs在跨学科研究中从不同科学领域提出有价值研究创意的能力。该基准旨在提供一个系统的框架,用于评估LLM在复杂、跨领域科学研究中的表现。我们的数据集由ArXiv平台上的科学出版物组成,涵盖六个不同的学科,并由具有多样学术背景的领域专家进行注释。为了确保高质量的注释,我们强调明确定义的维度,这些维度表征了真实的跨学科研究。IDRBench中的评估任务设计遵循一个渐进的、现实世界的视角,反映了跨学科研究发展的自然阶段,包括1)IDR论文识别,2)IDR创意整合,以及3)IDR创意推荐。使用IDRBench,我们在10个LLM中构建了基线,并观察到尽管在某种程度上促进了IDR意识,LLMs仍然难以产生高质量的IDR创意。这些发现不仅可以激发新的研究方向,还可以帮助开发在跨学科研究中表现出色的下一代LLMs。

[78] Fisher精确检验对TF-IDF词项加权方案的合理性证明
标题: A Fisher's exact test justification of the TF-IDF term-weighting scheme
作者: Paul Sheridan / Zeyad Ahmed / Aitazaz A. Farooque
原文:   [英文]   [中文]  
备注: 23 pages, 4 tables
摘要:
术语频率-逆文档频率,简称TF-IDF,可以说是信息检索历史上最著名的数学表达式。TF-IDF最初被设计为一个简单的启发式方法,用于量化某个术语的出现次数在众多文档中集中于某一特定文档的程度。TF-IDF及其众多变体通常被用作各种文本分析应用中的术语加权方案。越来越多的学术研究致力于为TF-IDF奠定坚实的理论基础。在这一传统的基础上,本文通过展示如何从显著性检验的角度理解这一著名表达式,向统计学界证明使用TF-IDF的合理性。我们表明,在温和的正则条件下,常见的TF-IDF变体TF-ICF与单尾版本的Fisher精确检验的统计显著性$p$值的负对数密切相关。作为推论,我们在某些理想化假设下建立了TF-IDF与上述负对数变换$p$值之间的联系。我们进一步展示,作为极限情况,当文档集合无限大时,这一数量收敛于TF-IDF。Fisher精确检验对TF-IDF的合理性解释为工作中的统计学家提供了一个现成的解释,说明了这一术语加权方案长期以来的有效性。

[79] DialogueForge:大型语言模型模拟人机对话
标题: DialogueForge: LLM Simulation of Human-Chatbot Dialogue
作者: Ruizhe Zhu / Hao Zhu / Yaxuan Li / Syang Zhou / Shijing Cai / Malgorzata Lazuka / Elliott Ash
原文:   [英文]   [中文]  
备注: For our code and data, see this https URL
摘要:
收集人类与聊天机器人之间的对话通常需要大量的人工努力,并且耗时,这对会话式人工智能的研究构成了限制和挑战。在这项工作中,我们提出了DialogueForge——一个用于生成AI模拟的人类与聊天机器人风格对话的框架。为了初始化每个生成的对话,DialogueForge使用从真实的人类与聊天机器人互动中提取的种子提示。我们测试了各种大型语言模型(LLM)来模拟人类聊天机器人用户,从最先进的专有模型到小规模的开源LLM,并生成针对特定任务的多轮对话。此外,我们探索了微调技术,以增强较小模型生成不可区分的人类对话的能力。我们使用UniEval和GTEval评估协议评估模拟对话的质量,并比较不同模型。我们的实验表明,大型专有模型(例如,GPT-4o)在生成更真实的对话方面通常优于其他模型,而较小的开源模型(例如,Llama, Mistral)在提供更大定制化的同时表现出有前途的性能。我们证明,通过采用监督微调技术,可以显著提高较小模型的性能。然而,保持连贯和自然的长篇人类对话仍然是所有模型面临的共同挑战。

[80] 互动即智能:与人类-人工智能合作的深度研究
标题: Interaction as Intelligence: Deep Research With Human-AI Partnership
作者: Lyumanshan Ye / Xiaojie Cai / Xinkai Wang / Junfei Wang / Xiangkun Hu / Jiadi Su / Yang Nan / Sihan Wang / Bohan Zhang / Xiaoze Fan / Jinbin Luo / Yuxiang Zheng / Tianze Xu / Dayuan Fu / Yunze Wu / Pengrui Lu / Zengzhi Wang / Yiwei Qin / Zhen Huang / Yan Ma / Zhulin Hu / Haoyang Zou / Tiantian Mi / Yixin Ye / Ethan Chern / Pengfei Liu
原文:   [英文]   [中文]  
备注: 30 pages, 10 figures
摘要:
本文介绍了“互动即智能”研究系列,提出了在人类与人工智能深度研究任务中的关系的重新概念化。传统方法仅将互动视为访问人工智能能力的界面——在人类意图与机器输出之间的桥梁。我们提出,互动本身构成了智能的基本维度。当人工智能系统在研究任务中进行扩展思考过程时,有意义的互动从可选的增强转变为有效智能的必要组成部分。目前的深度研究系统采用“输入-等待-输出”范式,用户发起查询并在黑箱处理后接收结果。这种方法导致错误级联效应、僵化的研究边界,阻止在调查过程中问题的细化,以及错失整合专业知识的机会。为了解决这些限制,我们引入了深度认知系统,该系统将人类角色从指令发布者转变为认知监督者——一种参与模式,人类通过在关键时刻的战略干预来引导人工智能的思维过程。深度认知实现了三个关键创新:(1)透明、可控和可中断的互动,揭示人工智能的推理并允许在任何时刻进行干预;(2)细粒度的双向对话;(3)共享认知上下文,系统观察并适应用户行为而无需明确指令。用户评估表明,这种认知监督范式在六个关键指标上优于最强基线:透明度(+20.0%)、细粒度互动(+29.2%)、实时干预(+18.5%)、协作容易度(+27.7%)、结果价值(+8.8%)和可中断性(+20.7%)。在具有挑战性的研究问题上的评估显示,相较于深度研究系统有31.8%到50.0%的提升。

[81] 超新星:在Transformer架构中以更少实现更多
标题: Supernova: Achieving More with Less in Transformer Architectures
作者: Andrei-Valentin Tanase / Elena Pelican
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了Supernova,这是一种拥有650M参数的仅解码器Transformer模型,展示了如何通过精心的架构设计和分词创新在保持计算效率的同时实现较大模型的性能。我们的架构结合了旋转位置嵌入(RoPE)、具有3:1压缩比的分组查询注意力(GQA)、用于计算效率的RMSNorm,以及SwiGLU激活函数。一个关键的创新是我们定制的128,000词汇量的字节级BPE分词器,它实现了最先进的压缩性能。通过详细分析,我们展示了Supernova在使用53%更少的参数和仅需100B训练标记的情况下,达到了1B参数模型90%的性能——比竞争模型少一个数量级。我们的研究结果挑战了现有的扩展范式,证明了架构效率和分词质量可以弥补参数数量的减少。

[82] 稳定知识,促进推理:RLVR的双重标记约束
标题: Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR
作者: Jiakang Wang / Runze Liu / Fuzheng Zhang / Xiu Li / Guorui Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
可验证奖励的强化学习(RLVR)已成为一种有效的后训练方法,主要通过塑造反思和规划等高阶行为来提高大型语言模型(LLMs)的推理能力。然而,以往的RLVR算法通常对所有的标记应用统一的训练信号,而没有考虑低熵知识相关标记和高熵推理相关标记的不同角色。一些最近的方法尝试通过梯度屏蔽或异步更新来区分这些标记类型,但这些方法可能会破坏模型输出中的语义依赖关系,阻碍有效学习。在这项工作中,我们提出了Archer,一种具有双标记约束和同步更新的熵感知RLVR方法。具体来说,我们的方法对推理标记应用较弱的KL正则化和较高的剪辑阈值以鼓励探索,同时对知识标记使用更强的约束以保持事实知识。在多个数学推理和代码生成基准测试中的实验结果表明,我们的方法显著优于以往的RLVR方法,在可比大小的模型中达到或超过了最新的性能。代码可在此URL获取。

[83] 储备计算作为一种语言模型
标题: Reservoir Computing as a Language Model
作者: Felix Köster / Atsushi Uchida
原文:   [英文]   [中文]  
备注: 8 pages, 5 figures, 1 table
摘要:
大型语言模型(LLM)因其在处理大量数据并生成类似人类水平的文本方面的出色表现而在科学和媒体领域占据主导地位。然而,它们巨大的能源需求和缓慢的处理速度仍然是进一步提高质量的瓶颈,同时也限制了模型的普及。为了解决这一瓶颈,我们将研究储层计算在自然文本处理中的表现,这可能实现快速且节能的硬件实现。关于将储层计算用作语言模型的研究仍然很少。在本文中,我们比较了三种不同的字符级语言建模方法:两种不同的储层计算方法,其中只有输出层是可训练的,以及众所周知的基于变压器的架构,它们完全学习基于注意力的序列表示。我们通过均等地改变所有模型的可训练参数数量来探索这两种范式的性能、计算成本和预测准确性。使用一致的流程处理所有三种方法,我们证明了变压器在预测质量方面表现出色,而储层计算机在减少训练和推理速度方面仍然高度高效。此外,我们研究了两种类型的储层计算:具有静态线性读出的传统储层,以及通过注意力机制动态调整输出权重的注意力增强储层。我们的研究结果强调了这些范式如何扩展,并提供了在资源限制与性能之间取得平衡的指导。

[84] 将人工智能用于公益:聚焦于人工智能模型在人道主义工作中的部署和整合
标题: Operationalizing AI for Good: Spotlight on Deployment and Integration of AI Models in Humanitarian Work
作者: Anton Abilov / Ke Zhang / Hemank Lamba / Elizabeth M. Olson / Joel R. Tetreault / Alejandro Jaimes
原文:   [英文]   [中文]  
备注: None
摘要:
在“AI for Good”领域的出版物往往侧重于支持高影响力应用的研究和模型开发。然而,很少有“AI for Good”论文讨论与合作组织的部署和协作过程,以及由此产生的现实世界影响。在这项工作中,我们分享了与一个人道主义对人道主义(H2H)组织密切合作的细节,不仅展示了如何在资源受限的环境中部署AI模型,还展示了如何维护模型以进行持续的性能更新,并为从业者分享关键经验。

[85] 语言混合对双语大语言模型推理的影响
标题: The Impact of Language Mixing on Bilingual LLM Reasoning
作者: Yihao Li / Jiayi Xin / Miranda Muqing Miao / Qi Long / Lyle Ungar
原文:   [英文]   [中文]  
备注: None
摘要:
熟练的多语种使用者经常在对话中有意地切换语言。类似地,最近专注于推理的双语大型语言模型(LLMs),在两种语言上都具有强大能力,表现出语言混合——在思维链中交替使用语言。在DeepSeek-R1中抑制这种行为被发现会降低准确性,这表明语言混合可能有助于推理。在这项工作中,我们研究了中英双语推理模型中的语言切换。我们确定了具有可验证奖励的强化学习(RLVR)是导致语言混合的关键训练阶段。我们证明了语言混合可以增强推理:强制单语解码会使数学推理任务的准确性降低5.6个百分点。此外,可以训练一个轻量级探测器来预测潜在的语言切换是有利还是有害于推理,并在用于指导解码时,将准确性提高最多6.25个百分点。我们的研究结果表明,语言混合不仅仅是多语种训练的副产品,而是一种战略性的推理行为。

[86] 3LM:通过基准测试连接阿拉伯语、STEM和代码
标题: 3LM: Bridging Arabic, STEM, and Code through Benchmarking
作者: Basma El Amel Boussaha / Leen AlQadi / Mugariya Farooq / Shaikha Alsuwaidi / Giulia Campesan / Ahmed Alzubaidi / Mohammed Alyafeai / Hakim Hacid
原文:   [英文]  
备注: None
摘要:
阿拉伯语是世界上使用最广泛的语言之一,但针对阿拉伯语的大型语言模型(LLMs)的开发和评估工作仍然相对有限。现有的大多数阿拉伯语基准测试主要集中在语言、文化或宗教内容上,而在STEM(科学、技术、工程和数学)和代码等领域存在显著的空白,这些领域对于现实世界的LLM应用越来越重要。为了帮助弥补这一差距,我们提出了3LM,这是专门为阿拉伯语设计的三个基准测试套件。第一个基准测试是一组与STEM相关的问题和答案对,来源于阿拉伯语教科书和教育练习册。第二个基准测试由合成生成的STEM问题组成,使用相同的来源创建。第三个基准测试专注于代码生成,通过仔细翻译两个广泛使用的代码基准测试构建,结合人类参与的过程,经过多轮审查以确保高质量和忠实的翻译。我们公开发布所有三个基准测试,以支持阿拉伯语LLM研究在这些重要但代表性不足的领域的增长。