scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CL方向,2025年7月30日更新论文58
[1] 使用词嵌入技术对书籍摘要进行类别分类
标题: Categorical Classification of Book Summaries Using Word Embedding Techniques
作者: Kerem Keskin / Mümine Kaya Keleş
原文:   [英文]  
备注: in Turkish language. This paper was published in the proceedings of the 6th International Conference on Data Science and Applications ICONDATA24, held on September between 2 and 6, 2024, in Pristina, Kosovo. For full text book see this https URL
摘要:
在本研究中,使用词嵌入方法、自然语言处理技术和机器学习算法对从图书网站获取的图书摘要和类别进行了分类。此外,本研究中使用了常用的词嵌入方法,如独热编码、Word2Vec 和词频-逆文档频率(TF-IDF)方法,并比较了它们的成功率。此外,展示了所用预处理方法的组合表并将其添加到表中。查看结果后,观察到支持向量机、朴素贝叶斯和逻辑回归模型以及 TF-IDF 和独热编码词嵌入技术对土耳其语文本给出了更成功的结果。

[2] 面向人工智能体的对话式社会学习:通过混合主动教育互动增强大型语言模型的本体获取
标题: Dialogic Social Learning for Artificial Agents: Enhancing LLM Ontology Acquisition through Mixed-Initiative Educational Interactions
作者: Sabrina Patania / Luca Annese / Cansu Koyuturk / Azzurra Ruggeri / Dimitri Ognibene
原文:   [英文]   [中文]  
备注: submitted to ICSR2025
摘要:
大型语言模型(LLMs)在处理大量离线数据集方面表现出显著的能力。然而,它们在获取和整合复杂的在线知识时常常面临挑战。传统的人工智能训练范式主要基于监督学习或强化学习,类似于“皮亚杰式”的独立探索模型。这些方法通常依赖于大型数据集和稀疏的反馈信号,限制了模型从交互中高效学习的能力。受维果茨基社会文化理论的启发,本研究探讨了社会介导学习范式的潜力,以解决这些限制。 我们引入了一个动态环境,称为“AI社交健身房”,在这里,一个AI学习代理与知识丰富的AI教师代理进行双向教学对话。这些互动强调外部结构化对话作为知识获取的核心机制,与仅依赖内部推理或模式识别的方法形成对比。 我们的研究重点是不同教学策略如何影响AI在本体获取背景下的学习过程。实证结果表明,这种对话方法——特别是那些结合自上而下解释与学习者主动提问的混合方向互动——显著增强了LLM获取和应用新知识的能力,优于单向教学方法和直接访问结构化知识,这些通常存在于训练数据集中。 这些发现表明,将教学和心理学见解整合到AI和机器人训练中可以显著改善训练后知识获取和响应质量。这种方法为现有策略如提示工程提供了一条互补的途径。

[3] 产品与过程:探讨英语作为外语的学生在说明文写作中编辑AI生成文本的过程
标题: Product vs. Process: Exploring EFL Students' Editing of AI-Generated Text for Expository Writing
作者: David James Woo / Yangyang Yu / Kai Guo / Yilin Huang / April Ka Yeng Fung
原文:   [英文]  
备注: 45 pages, 11 figures
摘要:
由人工智能(AI)聊天机器人生成的文本在英语作为外语(EFL)的写作环境中越来越多地被使用,但其对学生说明文写作过程和作品的影响仍未得到充分研究。本研究探讨了EFL中学生如何编辑AI生成的文本,研究他们在说明文写作过程和作品中的编辑行为,以及这些行为对内容、组织、语言和整体质量的人为评分的影响。参与者是39名香港中学生,他们在一个工作坊中使用AI聊天机器人撰写说明文。研究采用了趋同设计来分析他们的屏幕录制和作品,以考察学生的编辑行为和写作质量。分析方法包括定性编码、描述性统计、时间序列分析、人为评分和多元线性回归分析。我们分析了每个数据集中的260多次编辑,识别出两种编辑模式:一种是学生在继续之前反复完善引言部分,另一种是他们迅速转向对正文部分(如主题句和支持句)的广泛编辑。多元线性回归分析显示,AI生成的词汇数量对所有评分维度都有积极预测作用,而大多数编辑变量的影响微乎其微。这些结果表明,学生的显著编辑努力与作品质量的提高之间存在脱节,表明AI可以支持但不能替代写作技能。研究结果强调了在AI整合之前进行特定体裁的教学和以过程为中心的写作的重要性。教育者还应开发重视过程和产品的评估,以鼓励对AI文本的批判性参与。

[4] 我们应该尝试解决哪个符号落地问题?
标题: Which symbol grounding problem should we try to solve?
作者: Vincent C. Müller
原文:   [英文]  
备注: None
摘要:
Floridi 和 Taddeo 提出了一个“零语义承诺”条件来解决语义基础问题,并提供了一个解决方案。我简要地论证了他们的条件无法实现,即使是他们自己的解决方案也不例外。在考察了 Luc Steels 提出的非常不同的竞争性建议后,我建议我们需要重新思考问题是什么,以及系统中的“目标”在问题的形成中扮演了什么角色。基于对计算的正确理解,我得出结论,唯一合理的语义基础问题是我们如何解释和再现人工计算代理中的行为能力和意义功能。

[5] ChatGPT 读取你的语气并相应地回应——直到它不再这样——情感框架在大型语言模型输出中引发偏见
标题: ChatGPT Reads Your Tone and Responds Accordingly -- Until It Does Not -- Emotional Framing Induces Bias in LLM Outputs
作者: Franck Bardol
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(如GPT-4)不仅根据所提问题调整其回答,还会根据问题的情感措辞进行调整。我们系统地改变了156个提示的情感语调——涵盖了有争议和日常话题——并分析其对模型回答的影响。我们的研究结果表明,GPT-4对负面措辞问题的负面回应概率是对中性问题的三分之一。这表明存在一种“反弹”偏差,即模型过度纠正,通常转向中立或积极。在敏感话题(如正义或政治)上,这种效果更加明显:语调引起的变化被抑制,表明存在对齐覆盖。我们引入了“语调底线”等概念——即回应负面性的下限,并使用语调-情感过渡矩阵来量化行为。基于1536维嵌入的可视化证实了基于语调的语义漂移。我们的工作突出了由提示中的情感框架驱动的一类未被充分研究的偏差,这对AI的对齐和信任有重要影响。代码和数据可在此URL获取:this https URL

[6] 重振你的记忆:通过稀疏模型差异预测大型语言模型遗忘和微调的副作用
标题: Reviving Your MNEME: Predicting The Side Effects of LLM Unlearning and Fine-Tuning via Sparse Model Diffing
作者: Aly M. Kassem / Zhuan Shi / Negar Rostamzadeh / Golnoosh Farnadi
原文:   [英文]  
备注: None
摘要:
大型语言模型(LLMs)经常被微调或“遗忘”以适应新任务或消除不良行为。虽然现有的评估方法可以在这些干预后评估性能,但仍然没有通用的方法来检测意外的副作用,例如遗忘生物学内容会降低化学任务的性能,特别是当这些影响是不可预测或突发时。为了解决这个问题,我们引入了MNEME,一种用于评估机制效应的轻量级框架,通过稀疏模型差异化来识别这些副作用。MNEME在不访问微调数据的情况下,使用与任务无关的数据(例如The Pile, LMSYS-Chat-1M)比较基础模型和微调模型,以隔离行为变化。应用于五个大型语言模型的三个场景:WMDP知识遗忘、突发失调和良性微调,MNEME在预测副作用方面达到了高达95%的准确率,与已知基准一致且不需要自定义启发式。此外,我们展示了在高激活样本上重新训练可以部分逆转这些效果。我们的结果表明,稀疏探测和差异化提供了一种可扩展和自动化的视角来观察微调引起的模型变化,为理解和管理大型语言模型行为提供了实用工具。

[7] 多业余对比解码用于文本生成
标题: Multi-Amateur Contrastive Decoding for Text Generation
作者: Jaydip Sen / Subhasis Dasgupta / Hetvi Waghela
原文:   [英文]  
备注: This paper has been accepted for oral presentation and publication in the proceedings of the IEEE I2ITCON 2025. The conference will be organized in Pune, India, from July 4 to 5, 2025. This is the accepted version of the paper and NOT the final camera-ready version. The paper is 11 pages long and contains 5 figures and 6 tables
摘要:
对比解码(Contrastive Decoding, CD)作为一种有效的推理策略,通过利用大型专家语言模型和较小的业余模型之间输出概率的差异,提升了开放式文本生成的效果。尽管CD提高了文本的连贯性和流畅性,但其对单一业余模型的依赖限制了其捕捉语言生成多样化和多方面失败模式的能力,例如重复、幻觉和风格漂移。本文提出了多业余对比解码(Multi-Amateur Contrastive Decoding, MACD),这是CD框架的一个推广,采用多个业余模型的集成来更全面地表征不理想的生成模式。MACD通过平均和共识惩罚机制整合对比信号,并扩展了合理性约束,使其在多业余模型环境中有效运行。此外,该框架通过引入具有特定风格或内容偏好的业余模型,实现了可控生成。跨多个领域(如新闻、百科和叙事)的实验结果表明,MACD在流畅性、连贯性、多样性和适应性方面,始终优于传统解码方法和原始CD方法,且无需额外的训练或微调。

[8] QU-NLP 在 CheckThat! 2025:使用特征增强的变压器模型和顺序跨语言微调进行新闻文章中的多语言主观性检测
标题: QU-NLP at CheckThat! 2025: Multilingual Subjectivity in News Articles Detection using Feature-Augmented Transformer Models with Sequential Cross-Lingual Fine-Tuning
作者: Mohammad AL-Smadi
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了我们在CheckThat! 2025任务1中的主观性检测方法,该任务要求系统区分新闻文章中的句子是表达作者的主观观点还是对所涉及主题的客观陈述。我们提出了一种特征增强的Transformer架构,将预训练语言模型的上下文嵌入与统计和语言特征相结合。我们的系统利用了预训练的Transformer,并添加了词汇特征:对于阿拉伯语,我们使用了结合词性标注(POS)和TF-IDF特征的AraELECTRA,而对于其他语言,我们微调了结合TF-IDF特征的跨语言DeBERTa V3模型,并通过门控机制进行整合。我们在多种语言中,包括英语、阿拉伯语、德语、意大利语以及若干未见过的语言中,评估了我们的系统在单语、多语和零样本设置下的表现。结果表明,我们的方法在不同语言中表现出色,尤其是在单语设置中取得了竞争力的表现:英语(排名第1,宏F1=0.8052)、德语(排名第3,宏F1=0.8013)、阿拉伯语(排名第4,宏F1=0.5771)和罗马尼亚语(零样本设置中排名第1,宏F1=0.8126)。我们还进行了消融分析,证明了将TF-IDF特征与门控机制结合以及跨语言迁移对于主观性检测的重要性。此外,我们的分析揭示了模型对跨语言微调顺序和训练语言的语言接近性的敏感性。

[9] 重写排序:通过检索感知文本重写优化广告可见性
标题: Rewrite-to-Rank: Optimizing Ad Visibility via Retrieval-Aware Text Rewriting
作者: Chloe Ho / Ishneet Sukhvinder Singh / Diya Sharma / Tanvi Reddy Anumandla / Michael Lu / Vasu Sharma / Kevin Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
搜索算法和用户查询相关性使得大型语言模型(LLM)能够返回相关信息,但内容措辞对广告可见性的影响仍未被充分探索。我们研究了基于LLM的广告重写如何在不修改检索模型本身的情况下提高广告在检索系统中的排名以及在生成的LLM响应中的包含。我们引入了一个监督微调框架,具有平衡语义相关性和内容保真度的自定义损失。为了评估效果,我们提出了两个指标:DeltaMRR@K(排名提升)和DeltaDIR@K(包含频率提升)。我们的方法提供了一种可扩展的方法来优化广告措辞,增强在基于检索的LLM工作流中的可见性。跨指令式和少样本提示的实验表明,PPO训练的模型在大多数情况下优于提示工程和监督微调,在指令式提示中实现了高达2.79的DeltaDIR@5和0.0073的DeltaMRR@5。这些结果强调了在检索之前广告的写作方式以及提示格式和强化学习在有效广告重写以集成到LLM检索系统中的重要性。

[10] iLSU-T:乌拉圭手语翻译开放数据集
标题: iLSU-T: an Open Dataset for Uruguayan Sign Language Translation
作者: Ariel E. Stassi / Yanina Boria / J. Matías Di Martino / Gregory Randall
原文:   [英文]   [中文]  
备注: 10 pages, 5 figures, 19th International Conference on Automatic Face and Gesture Recognition IEEE FG 2025
摘要:
近年来,自动手语翻译在计算机视觉和计算语言学领域引起了特别的关注。鉴于每个手语国家的特殊性,机器翻译需要本地数据来开发新技术并适应现有技术。本文介绍了iLSU T,这是一个开放的乌拉圭手语RGB视频数据集,包含音频和文本转录。这种多模态和精心整理的数据对于开发新方法以理解或生成手语处理工具至关重要。iLSU T包括来自公共电视广播的超过185小时的手语翻译视频。它涵盖了各种主题,并包括18位专业手语翻译员的参与。本文展示了一系列使用三种最先进的翻译算法的实验。目的是为该数据集建立基线,并评估其有用性以及所提出的数据处理流程。实验强调了需要更多本地化的数据集来进行手语翻译和理解,这对于开发新工具以提高所有人的可访问性和包容性至关重要。我们的数据和代码可以访问。

[11] 创建一个数值评分系统以客观衡量和比较阿拉伯文本中的修辞水平:可行性研究及工作原型
标题: Creation of a Numerical Scoring System to Objectively Measure and Compare the Level of Rhetoric in Arabic Texts: A Feasibility Study, and A Working Prototype
作者: Mandar Marathe
原文:   [英文]  
备注: This dissertation was submitted by Mandar Marathe on 6 September 2022, in partial fulfilment of the requirements for the Master of Arts degree in Advanced Arabic at the University of Exeter
摘要:
阿拉伯修辞学是阿拉伯语言学的一个领域,负责管理以更美丽、更有影响力和更具说服力的方式传达信息的艺术和科学。这个领域与阿拉伯语言本身一样古老,并广泛存在于古典和当代的阿拉伯诗歌、自由诗和散文中。从实际角度来看,它是通过智能地使用词序、比喻和语言修饰来增强信息传递效果。尽管关于它的著作卷帙浩繁,并且它被赋予了很高的地位,但目前没有客观的方法来判断一个演讲者或作者在特定文本中是否使用了阿拉伯修辞学,使用的程度如何,以及原因何在。也没有客观的方法来比较不同体裁、作者或时代之间阿拉伯修辞的使用情况。我们无法知道前伊斯兰时期的诗歌、安达卢西亚的阿拉伯诗歌或现代文学体裁中哪一种在阿拉伯修辞上更为丰富。本研究的目的是设计一种方法来测量构成阿拉伯修辞的文学手法在特定文本中的密度,作为阿拉伯修辞本身的替代指标。我们编制了一份包含84种最常见的文学手法及其定义的综合列表。构建了一种在文本中识别文学手法的系统。采用了一种基于文本词素计数来计算文学手法密度的方法。创建了四种电子工具和一种模拟工具,以支持计算阿拉伯文本的修辞文学手法密度,包括一个网站和在线计算器。此外,还创建了一种报告在阿拉伯修辞三个子领域中使用的文学手法分布的技术。该项目的成果是一个可以准确报告任何阿拉伯文本或演讲中阿拉伯修辞密度的有效工具。

[12] 曲线推理:大型语言模型残差流中的关注敏感几何
标题: Curved Inference: Concern-Sensitive Geometry in Large Language Model Residual Streams
作者: Rob Manson
原文:   [英文]   [中文]  
备注: 29 pages, 22 figures
摘要:
我们提出了曲线推理——一个几何可解释性框架,用于追踪大型语言模型的残差流轨迹如何随着语义关注的变化而弯曲。在情感、道德、视角、逻辑、身份、环境和无意义领域的20个匹配提示中,我们使用五个本地空间度量分析了Gemma3-1b和LLaMA3.2-3b,主要关注曲率(\k{appa}_i)和显著性(S(t))。这些度量是在从解嵌入矩阵导出的拉回语义度量下计算的,确保所有测量反映的是与标记对齐的几何结构,而不是原始坐标结构。我们发现,关注变化的提示可靠地改变了两个模型的内部激活轨迹——随着关注强度的增加,LLaMA在曲率和显著性上表现出一致的、统计显著的扩展。Gemma也对关注作出反应,但在中等和强烈变体之间的区分较弱。我们的结果支持LLM几何的两层视图——嵌入空间中编码的潜在概念结构,以及由特定提示推理塑造的上下文轨迹。曲线推理揭示了模型如何在深度上导航、重新定向或强化语义意义,提供了一种诊断对齐、抽象和新兴推理动态的原则性方法。这些发现通过曲线推理的视角为语义抽象和模型对齐提供了新的见解。

[13] 法律合同分类任务和方法综述
标题: A Survey of Classification Tasks and Approaches for Legal Contracts
作者: Amrita Singh / Aditya Joshi / Jiaojiao Jiang / Hye-young Paik
原文:   [英文]   [中文]  
备注: Under review. 49 pages + references
摘要:
鉴于合同的庞大规模、数量及其内在的复杂性,人工审查变得低效且容易出错,因此自动化的需求显而易见。自动法律合同分类(LCC)革新了法律合同的分析方式,在速度、准确性和可访问性方面提供了显著的改进。本文综述探讨了自动LCC的挑战,并详细审查了关键任务、数据集和方法。我们识别了LCC中的七个分类任务,并回顾了十四个与英语合同相关的数据集,包括公共、专有和非公开来源。我们还介绍了一种LCC的方法分类法,分为传统机器学习、深度学习和基于Transformer的方法。此外,本文还讨论了评估技术,并突出了所审查研究中表现最佳的结果。通过提供当前方法及其局限性的全面概述,本综述建议了未来的研究方向,以提高LCC的效率、准确性和可扩展性。作为首个关于LCC的综合综述,它旨在支持法律自然语言处理研究人员和从业者改进法律流程,使法律信息更易获取,并促进一个更知情和公平的社会。

[14] SemRAG:用于改进问答的语义知识增强RAG
标题: SemRAG: Semantic Knowledge-Augmented RAG for Improved Question-Answering
作者: Kezhen Zhong / Basem Suleiman / Abdelkarim Erradi / Shijing Chen
原文:   [英文]   [中文]  
备注: 16 pages, 12 figures
摘要:
本文介绍了SemRAG,这是一种增强的检索增强生成(RAG)框架,通过语义分块和知识图谱有效整合领域特定知识,而无需大量微调。将领域特定知识整合到大型语言模型(LLM)中对于提高其在专业任务中的表现至关重要。然而,现有的适应方法计算成本高,容易过拟合,并限制了可扩展性。为了解决这些挑战,SemRAG采用了一种语义分块算法,该算法基于句子嵌入的余弦相似性对文档进行分段,在减少计算开销的同时保持语义连贯性。此外,通过将检索到的信息结构化为知识图谱,SemRAG捕捉实体之间的关系,提高了检索准确性和上下文理解能力。在MultiHop RAG和维基百科数据集上的实验结果表明,SemRAG显著提高了从知识图谱中检索信息的相关性和正确性,优于传统的RAG方法。此外,我们研究了针对不同数据语料库优化缓冲区大小的问题,因为针对特定数据集量身定制的缓冲区大小优化可以进一步提高检索性能,而知识图谱的整合加强了实体关系以获得更好的上下文理解。SemRAG的主要优势在于其能够创建一个高效、准确的领域特定LLM管道,同时避免资源密集型的微调。这使其成为一个实用且可扩展的方法,与可持续发展目标保持一致,为领域特定领域的AI应用提供了可行的解决方案。

[15] 使用自然语言处理的保险科技创新
标题: InsurTech innovation using natural language processing
作者: Panyi Dong / Zhiyu Quan
原文:   [英文]   [中文]  
备注: None
摘要:
随着保险科技的迅速崛起,传统保险公司越来越多地探索替代数据源和先进技术,以维持其竞争优势。本文提供了自然语言处理(NLP)的概念概述和实际案例研究,重点介绍其在保险业务中的新兴应用,尤其是将原始、非结构化文本转化为适合精算分析和决策的结构化数据。我们利用由保险科技行业合作伙伴提供的真实世界替代数据,这些数据丰富了传统保险数据源,并应用各种NLP技术来展示商业保险环境中的实际使用案例。这些丰富的、从文本中提取的洞察不仅增加和完善了商业保险定价的传统评级因素,还通过引入新的行业分类提供了评估潜在风险的新视角。通过这些演示,我们展示了NLP不仅仅是一个辅助工具,而是现代数据驱动保险分析的基础元素。

[16] TRIDENT:金融、医学和法律领域的大型语言模型安全性基准测试
标题: TRIDENT: Benchmarking LLM Safety in Finance, Medicine, and Law
作者: Zheng Hui / Yijiang River Dong / Ehsan Shareghi / Nigel Collier
原文:   [英文]   [中文]  
备注: None
摘要:
随着大型语言模型(LLMs)在法律、金融和医学等高风险领域的应用日益增多,系统地评估其在特定领域的安全性和合规性变得至关重要。尽管之前的工作主要集中在提高LLM在这些领域的性能,但往往忽视了对特定领域安全风险的评估。为弥补这一差距,我们首先基于《美国医学协会医学伦理原则》、《美国律师协会专业行为规范》和《CFA协会道德规范》定义了LLM的特定领域安全原则。在此基础上,我们引入了Trident-Bench,这是一个专门针对法律、金融和医学领域LLM安全性的基准。我们在Trident-Bench上评估了19个通用和领域专用模型,结果表明它有效揭示了关键的安全差距——强大的通用模型(如GPT、Gemini)可以满足基本期望,而领域专用模型往往在处理微妙的伦理问题时表现不佳。这突显了对更细粒度的领域特定安全改进的迫切需求。通过引入Trident-Bench,我们的工作为研究法律和金融领域LLM安全性提供了首批系统资源之一,并为未来旨在降低在专业监管领域部署LLM的安全风险的研究奠定了基础。代码和基准将发布在:这个https URL

[17] TTS-1技术报告
标题: TTS-1 Technical Report
作者: Oleg Atamanenko / Anna Chalova / Joseph Coombes / Nikki Cope / Phillip Dang / Zhifeng Deng / Jimmy Du / Michael Ermolenko / Feifan Fan / Yufei Feng / Cheryl Fichter / Pavel Filimonov / Louis Fischer / Kylan Gibbs / Valeria Gusarova / Pavel Karpik / Andreas Assad Kottner / Ian Lee / Oliver Louie / Jasmine Mai / Mikhail Mamontov / Suri Mao / Nurullah Morshed / Igor Poletaev / Florin Radu / Dmytro Semernia / Evgenii Shingarev / Vikram Sivaraja / Peter Skirko / Rinat Takhautdinov / Robert Villahermosa / Jean Wang
原文:   [英文]   [中文]  
备注: 20 pages, 10 figures. For associated modeling and training code, see this https URL
摘要:
我们介绍了 Inworld TTS-1,这是一组基于 Transformer 的自回归文本到语音(TTS)模型。我们最大的模型 TTS-1-Max 拥有 88 亿个参数,旨在为高要求的应用提供极致的质量和表现力。TTS-1 是我们最有效的模型,拥有 16 亿个参数,专为实时语音合成和设备端使用场景而构建。通过扩大训练时的计算量,并应用预训练、微调和语音语言模型(SpeechLM)组件的强化学习对齐的顺序过程,这两个模型在各种基准测试中实现了最先进的性能,展示了依赖于上下文学习的说话者声音的卓越质量。Inworld TTS-1 和 TTS-1-Max 可以以低延迟生成高分辨率的 48 kHz 语音,并支持 11 种语言,通过音频标记提供细粒度的情感控制和非语言发声。我们还在 MIT 许可下开源了我们的训练和建模代码。

[18] 多样化的大型语言模型还是多样化的问题解释?这是集成的问题
标题: Diverse LLMs or Diverse Question Interpretations? That is the Ensembling Question
作者: Rafael Rosales / Santiago Miret
原文:   [英文]   [中文]  
备注: None
摘要:
有效利用多样性已被证明可以提高各种机器学习模型的性能,包括大型语言模型(LLMs)。然而,确定使用多样性的最有效方法仍然是一个挑战。在这项工作中,我们比较了两种使用LLMs回答二元问题的多样性方法:模型多样性,依赖于多个模型回答相同的问题;以及问题解释多样性,依赖于使用同一个模型回答以不同方式表述的相同问题。在这两种情况下,我们都应用多数投票作为集成共识启发式来确定最终答案。我们在boolq、strategyqa和pubmedqa上的实验表明,问题解释多样性在集成准确性方面始终优于模型多样性。此外,我们对GPT和LLaMa的分析表明,模型多样性通常会产生介于最佳和最差集成成员之间的结果,而没有明显的改进。

[19] Contrast-CAT:通过对比激活增强基于Transformer的文本分类器的可解释性
标题: Contrast-CAT: Contrasting Activations for Enhanced Interpretability in Transformer-based Text Classifiers
作者: Sungmin Han / Jeonghyun Lee / Sangkyun Lee
原文:   [英文]   [中文]  
备注: None
摘要:
Transformer模型对人工智能研究产生了深远的影响,但解释其决策仍然具有挑战性——即使是相对简单的任务如分类——这阻碍了在现实世界应用中的信任和安全部署。尽管基于激活的归因方法能够有效解释基于Transformer的文本分类模型,我们的研究发现这些方法可能会受到激活中与类别无关特征的影响,从而导致解释的可靠性降低。为了解决这一局限性,我们提出了Contrast-CAT,这是一种新颖的基于激活对比的归因方法,通过过滤掉与类别无关的特征来优化词元级别的归因。通过将输入序列的激活与参考激活进行对比,Contrast-CAT生成了更清晰和更真实的归因图。跨多个数据集和模型的实验结果证实,Contrast-CAT始终优于最先进的方法。值得注意的是,在MoRF设置下,它在AOPC中平均提高了1.30倍,在LOdds中提高了2.25倍,展示了其在增强基于Transformer的文本分类可解释性方面的有效性。

[20] 理解孟加拉国公众对犯罪的感知:一种具有可解释性的基于Transformer的方法
标题: Understanding Public Perception of Crime in Bangladesh: A Transformer-Based Approach with Explainability
作者: Fatema Binte Hassan / Md Al Jubair / Mohammad Mehadi Hasan / Tahmid Hossain / S M Mehebubur Rahman Khan Shuvo / Mohammad Shamsul Arefin
原文:   [英文]  
备注: None
摘要:
近年来,社交媒体平台已成为个人表达对正在发生事件(包括犯罪事件)意见的重要空间。因此,公众情绪可能会随着时间动态变化。本研究通过将用户生成的评论分类为正面、负面和中性三类,调查了公众对犯罪相关新闻的不断变化的看法。为此,开发了一个包含28,528条孟加拉语社交媒体评论的新数据集。我们提出了一种基于transformer的模型,利用XLM-RoBERTa Base架构,实现了97%的分类准确率,优于现有孟加拉情感分析领域的最新方法。为了增强模型的可解释性,采用可解释AI技术来识别驱动情感分类的最具影响力的特征。结果强调了基于transformer的模型在处理孟加拉语等低资源语言方面的有效性,并展示了其提取可操作见解的潜力,这些见解可以支持公共政策制定和犯罪预防策略。

[21] 用于极端党派新闻检测的孟加拉语BERT:一种半监督和可解释的人工智能方法
标题: Bangla BERT for Hyperpartisan News Detection: A Semi-Supervised and Explainable AI Approach
作者: Mohammad Mehadi Hasan / Fatema Binte Hassan / Md Al Jubair / Zobayer Ahmed / Sazzatul Yeakin / Md Masum Billah
原文:   [英文]  
备注: None
摘要:
在当前的数字环境中,错误信息迅速传播,影响公众认知并导致社会分裂。由于缺乏高级自然语言处理方法,识别孟加拉语中的极端党派新闻是困难的。没有有效的检测方法,偏见内容可能不受控制地传播,对知情的讨论构成严重风险。为了解决这一问题,我们的研究对Bangla BERT进行了微调。这是一个基于变压器的最先进模型,旨在提高极端党派新闻的分类准确性。我们将其性能与传统机器学习模型进行比较,并实施半监督学习以进一步提高预测效果。不仅如此,我们还使用LIME提供模型决策过程的透明解释,这有助于建立对其结果的信任。根据我们的试验数据,Bangla BERT以95.65%的显著准确率超越了传统方法。该研究的结果证明了即使在资源有限的环境中,变压器模型的实用性,这为该领域的进一步改进打开了大门。

[22] 人类临床推理能否提高临床文本分类模型的性能和可解释性?
标题: Can human clinical rationales improve the performance and explainability of clinical text classification models?
作者: Christoph Metzner / Shang Gao / Drahomira Herrmannova / Heidi A. Hanson
原文:   [英文]   [中文]  
备注: None
摘要:
由人工智能驱动的临床文本分类对于可解释的自动化检索群体级健康信息至关重要。本研究探讨了基于人类的临床推理是否可以作为额外的监督,来提高自动编码临床文档的变压器模型的性能和可解释性。我们分析了99,125个人类临床推理,这些推理为原发性癌症部位诊断提供了合理的解释,并将其作为额外的训练样本,与128,649份电子病理报告一起用于评估变压器模型在提取原发性癌症部位方面的表现。我们还研究了充分性作为衡量推理质量的一种方法,以预先选择推理。我们的结果表明,在高资源场景中,作为额外训练数据的临床推理可以提高模型性能,但在资源有限时会产生不一致的行为。使用充分性作为自动指标来预选推理也导致了不一致的结果。重要的是,基于推理训练的模型在性能上始终不如基于额外报告训练的模型。这表明,临床推理并不能始终如一地提高模型性能,而仅仅使用更多的报告就能胜过它们。因此,如果目标是优化准确性,标注工作应集中于标记更多的报告,而不是创建推理。然而,如果可解释性是优先考虑的,基于推理补充数据训练的模型可能更能识别类似推理的特征。我们得出的结论是,使用临床推理作为额外的训练数据仅能带来较小的性能提升,并且与基于额外报告的训练相比,仅能稍微提高可解释性(以平均标记级推理覆盖率衡量)。

[23] 大型语言模型是否理解跨文化的道德观?
标题: Do Large Language Models Understand Morality Across Cultures?
作者: Hadi Mohammadi / Yasmeen F.S.S. Meijer / Efthymia Papadopoulou / Ayoub Bagheri
原文:   [英文]   [中文]  
备注: None
摘要:
最近在大型语言模型(LLMs)方面的进展使其成为众多领域中的强大工具。然而,由于训练数据中嵌入的偏见(如性别、种族和文化偏见)持续存在,引发了关于这些技术的伦理使用和社会后果的重要问题。本研究调查了LLMs在多大程度上捕捉到道德观念中的跨文化差异和相似性。具体而言,我们考察了LLM的输出是否与国际调查数据中观察到的道德态度模式一致。为此,我们采用了三种互补的方法:(1)比较模型生成的道德分数与调查报告中的差异,(2)进行聚类对齐分析,以评估从LLM输出和调查数据中得出的国家分组之间的一致性,以及(3)使用系统选择的词对直接对模型进行比较提示。我们的结果显示,当前的LLMs往往未能再现跨文化道德变异的全貌,倾向于压缩差异,并且与实证调查模式的对齐度较低。这些发现突显了需要更强有力的方法来减轻偏见并提高LLMs的文化代表性。我们最后讨论了LLMs负责任开发和全球部署的影响,强调公平性和伦理对齐。

[24] 一种用于绍纳语的深度学习自动语音识别模型
标题: A Deep Learning Automatic Speech Recognition Model for Shona Language
作者: Leslie Wellington Sirora / Mainford Mutandavari
原文:   [英文]  
备注: None
摘要:
本研究介绍了一种基于深度学习的绍纳语自动语音识别系统的开发。绍纳语是一种资源匮乏的语言,具有独特的声调和语法复杂性。研究旨在解决训练数据有限、缺乏标注数据以及绍纳语语音中复杂的声调细微差别所带来的挑战,目标是与传统统计模型相比,在识别准确性上取得显著改进。研究首先探讨了使用深度学习开发准确的绍纳语ASR系统的可行性。其次,研究调查了设计和实施绍纳语语音识别深度学习架构所涉及的具体挑战,并提出了应对这些挑战的策略。最后,研究比较了基于深度学习的模型与现有统计模型在准确性方面的性能。开发的ASR系统采用了混合架构,包括用于声学建模的卷积神经网络和用于语言建模的长短期记忆网络。为克服数据稀缺问题,采用了数据增强技术和迁移学习。还结合了注意力机制以适应绍纳语语音的声调特性。最终的ASR系统取得了令人印象深刻的结果,字错误率为29%,音素错误率为12%,整体准确率为74%。这些指标表明深度学习在提高像绍纳语这样资源匮乏语言的ASR准确性方面的潜力。本研究为像绍纳语这样的资源匮乏语言的ASR技术进步做出了贡献,最终促进了全球绍纳语使用者的可访问性和交流的改善。

[25] StructText:一种用于基准生成的合成表格到文本方法,具有多维度评估
标题: StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation
作者: Satyananda Kashyap / Sola Shirai / Nandana Mihindukulasooriya / Horst Samulowitz
原文:   [英文]   [中文]  
备注: Data available: this https URL and code available at: this https URL
摘要:
从文本中提取结构化信息(例如可以增强表格数据的键值对)在许多企业用例中非常有用。尽管大型语言模型(LLMs)已经实现了将自然语言转换为结构化格式的众多自动化流程,但在评估其提取质量方面仍然缺乏基准,尤其是在特定领域或针对特定组织的专注文档中。通过人工注释构建此类基准既费力又限制了基准的规模和可扩展性。在这项工作中,我们提出了StructText,这是一种端到端框架,用于利用现有表格数据自动生成高保真度的文本键值提取基准。它使用可用的表格数据作为结构化的真实数据,并遵循“两阶段‘计划-执行’”流程合成生成相应的自然语言文本。为了确保文本与结构化来源之间的一致性,我们引入了一种多维度的评估策略,该策略结合了(a)基于LLM的关于事实性、幻觉和连贯性的判断,以及(b)客观的提取指标来衡量数值和时间的准确性。我们在49个数据集的71,539个示例上评估了所提出的方法。结果表明,尽管LLMs在事实准确性方面表现强劲并避免了幻觉,但在生成可提取文本的叙述连贯性方面存在困难。值得注意的是,模型在假定数值和时间信息方面具有高保真度,但这些信息嵌入在难以自动提取的叙述中。我们发布了一个框架,包括数据集、评估工具和基线提取系统,以支持持续的研究。

[26] 加速网页自动化:压缩历史状态的影响
标题: Turbocharging Web Automation: The Impact of Compressed History States
作者: Xiyue Zhu / Peng Tang / Haofu Liao / Srikar Appalaraju
原文:   [英文]   [中文]  
备注: None
摘要:
语言模型在网页自动化方面取得了突破性进展。目前的网页自动化方法将当前网页状态、历史操作和语言指令作为输入来预测下一个动作,但忽视了历史状态的重要性。然而,网页状态的高度冗长特性可能导致输入序列过长且信息稀疏,从而妨碍历史状态的有效利用。在本文中,我们提出了一种新颖的网页历史压缩方法,以利用历史状态加速网页自动化。我们的方法采用了一个历史压缩模块,从每个历史状态中提取与任务最相关的信息,并将其浓缩为固定长度的简短表示,从而缓解了高度冗长的历史状态带来的挑战。我们在 Mind2Web 和 WebLINX 数据集上进行了实验,以评估我们方法的有效性。结果表明,与不使用历史输入的基线方法相比,我们的方法在绝对准确率上提高了 1.2-5.4%。

[27] MemTool:优化LLM代理多轮对话中动态工具调用的短期记忆管理
标题: MemTool: Optimizing Short-Term Memory Management for Dynamic Tool Calling in LLM Agent Multi-Turn Conversations
作者: Elias Lumer / Anmol Gulati / Vamse Kumar Subbiah / Pradeep Honaganahalli Basavaraju / James A. Burke
原文:   [英文]   [中文]  
备注: 23 Pages, 20 Figures
摘要:
大型语言模型(LLM)代理在动态搜索和整合相关工具或模型上下文协议(MCP)服务器以处理单个查询方面展示了显著的自主能力。然而,固定的上下文窗口限制了在需要重复、独立工具使用的多轮交互中的有效性。我们引入了MemTool,这是一种短期记忆框架,使LLM代理能够在多轮对话中动态管理工具或MCP服务器上下文。MemTool提供了三种代理架构:1)自主代理模式,赋予完全的工具管理自主权,2)工作流模式,提供无自主权的确定性控制,3)混合模式,结合自主和确定性控制。在ScaleMCP基准上,我们对13个以上的LLM进行了评估,进行了超过100次连续用户交互的实验,测量工具移除率(短期记忆效率)和任务完成准确性。在自主代理模式中,推理LLM实现了高工具移除效率(在3个窗口平均中达到90-94%),而中等规模的模型表现出显著较低的效率(0-60%)。工作流和混合模式在工具移除管理上始终有效,而自主和混合模式在任务完成方面表现出色。我们根据任务准确性、代理性和模型能力,提出了每种MemTool模式的权衡和建议。

[28] 面向本地部署的微调因果大型语言模型用于出行方式选择行为
标题: Towards Locally Deployable Fine-Tuned Causal Large Language Models for Mode Choice Behaviour
作者: Tareq Alsaleh / Bilal Farooq
原文:   [英文]   [中文]  
备注: None
摘要:
本研究探讨了采用开放获取、可本地部署的因果大型语言模型(LLMs)进行出行方式选择预测,并介绍了LiTransMC,这是首个为此任务开发的微调因果LLM。我们系统地对比了11个LLM(1-12B参数)在三个陈述和揭示偏好数据集上的表现,测试了396种配置,并生成了超过79,000个合成通勤预测。除了预测准确性之外,我们还使用BERTopic进行主题建模和一种新颖的解释强度指数来评估模型生成的推理,首次提供了LLM如何根据行为理论阐述决策因素的结构化分析。LiTransMC通过参数高效和损失掩蔽策略进行微调,取得了0.6845的加权F1分数和0.000245的Jensen-Shannon散度,超越了未经调优的本地模型和更大的专有系统,包括具有高级角色推断和基于嵌入加载的GPT-4o,同时也优于同一数据集的经典方式选择方法,如离散选择模型和机器学习分类器。这种双重改进,即高即时级别准确性和近乎完美的分布校准,展示了创建集成预测和可解释性的专业、本地可部署LLM的可行性。通过将结构化行为预测与自然语言推理相结合,这项工作释放了支持基于代理的模拟、政策测试和行为洞察生成的对话式多任务交通模型的潜力。这些发现为将通用LLM转变为交通研究和政策制定的专用、可解释工具奠定了基础,同时通过本地部署保持隐私、降低成本并扩大访问范围。

[29] 哪些大型语言模型能理解笑话?使用HumorBench探测非STEM推理能力
标题: Which LLMs Get the Joke? Probing Non-STEM Reasoning Abilities with HumorBench
作者: Reuben Narad / Siddharth Suresh / Jiayi Chen / Pine S.L. Dysart-Bricken / Bob Mankoff / Robert Nowak / Jifan Zhang / Lalit Jain
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了HumorBench,这是一个用于评估大型语言模型(LLMs)在漫画标题中推理和解释复杂幽默能力的基准。随着推理模型在数学和科学领域的现有基准中逐渐饱和,对模型智能进行超越STEM领域的新颖且具有挑战性的评估变得至关重要。文本幽默理解本质上涉及推理,需要识别漫画/标题中的概念与外部文化参考、文字游戏及其他机制之间的联系。HumorBench包含大约300对来自《纽约客》标题比赛和此网址的独特漫画标题对,并附有专家注释的评估标准,标识出笑话的基本元素。LLMs的评估基于其对幽默的解释以及识别笑话元素的能力。要在此任务中表现良好,模型必须形成并测试关于概念之间关联的假设,可能需要从初始解释中回溯以得出最合理的解释。我们对当前最先进模型的广泛基准测试揭示了三个关键见解:(1)LLM在STEM推理方面的进展有效地转移到了幽默理解上;(2)仅在STEM推理数据上训练的模型在HumorBench上仍表现良好,显示出推理能力的强大可迁移性;(3)通过增加思维代币预算进行测试时的扩展在不同模型的幽默推理中产生了不同的结果。

[30] 提高大型语言模型标签高效监督微调中的任务多样性
标题: Improving Task Diversity in Label Efficient Supervised Finetuning of LLMs
作者: Abhinav Arabelly / Jagrut Nemade / Robert D Nowak / Jifan Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在多个领域展示了非凡的能力,但为了特定应用开发高性能模型通常需要大量人工标注——这一过程耗时、费力且昂贵。在本文中,我们通过利用任务多样性作为有效数据选择的基本原则,解决了监督微调(SFT)的标签高效学习问题。这与现有基于提示多样性的方法明显不同。我们的方法基于两个关键观察:1)不同提示的任务标签通常是现成的;2)预训练模型在不同任务上的置信度显著不同。我们结合这些事实设计了一种简单而有效的采样策略:我们使用逆置信度加权策略选择跨任务的样本。这种方法产生的模型与那些使用更复杂采样程序训练的模型相当或更好,同时实施起来明显更简单且计算强度更低。值得注意的是,我们的实验结果表明,该方法可以比在完整数据集上训练获得更好的准确性(MMLU分数提高4%)。在各种标注预算和两个指令微调数据集上,我们的算法始终表现与现有最佳方法相当或更好,同时将标注成本降低了最多80%。

[31] VN-MTEB:越南语大规模文本嵌入基准
标题: VN-MTEB: Vietnamese Massive Text Embedding Benchmark
作者: Loc Pham / Tung Luu / Thu Vo / Minh Nguyen / Viet Hoang
原文:   [英文]   [中文]  
备注: 19 pages (including reference, appendix) 41 datasets from 6 tasks (retrieval, classification, pair-classification, clustering, rerank, sts) 7 figures, 16 tables, benchmark 18 text embedding models
摘要:
越南在互联网流量和在线毒性方面均位居世界前列。因此,在应用中实施嵌入模型以进行推荐和内容控制任务至关重要。然而,缺乏大规模的测试数据集,无论是在数量上还是任务多样性上,都使得科学家在将AI模型部署到现实世界的大型项目中之前,难以有效评估这些模型。为了解决这一重要问题,我们引入了一个越南语基准,VN-MTEB,用于嵌入模型。我们通过使用新的自动化框架翻译大量来自Massive Text Embedding Benchmark的英文样本来创建该基准。我们利用大型语言模型(LLMs)和最先进的嵌入模型的优势来进行翻译和过滤过程,以保留高质量的样本,确保语言的自然流畅性和语义保真度,同时保留命名实体识别(NER)和代码片段。我们全面的基准由41个数据集组成,涵盖六个专为越南语文本嵌入设计的任务。在我们的分析中,我们发现使用旋转位置嵌入的更大和更复杂的模型在嵌入任务中优于使用绝对位置嵌入的模型。数据集可在HuggingFace上获取:this https URL

[32] 人格向量:监控和控制语言模型中的性格特征
标题: Persona Vectors: Monitoring and Controlling Character Traits in Language Models
作者: Runjin Chen / Andy Arditi / Henry Sleight / Owain Evans / Jack Lindsey
原文:   [英文]  
备注: None
摘要:
大型语言模型通过一个模拟的“助手”角色与用户互动。虽然助手通常被训练得有用、无害且诚实,但有时会偏离这些理想。在本文中,我们识别出模型激活空间中的方向——人格向量——这些向量与多种特质相关,如邪恶、谄媚和幻觉倾向。我们确认这些向量可以用于监控助手在部署时个性波动。然后,我们应用人格向量来预测和控制训练期间发生的个性变化。我们发现,微调后的预期和非预期个性变化都与相关人格向量的变化强烈相关。这些变化可以通过事后干预来缓解,或者通过一种新的预防性引导方法来避免。此外,人格向量可以用于标记会导致不良个性变化的训练数据,无论是在数据集层面还是在单个样本层面。我们提取人格向量的方法是自动化的,并且可以应用于任何感兴趣的人格特质,只需提供自然语言描述即可。

[33] 基于Transformer的ASR的无模型推测解码与标记映射草拟
标题: Model-free Speculative Decoding for Transformer-based ASR with Token Map Drafting
作者: Tuan Vu Ho / Hiroaki Kokubo / Masaaki Yamamoto / Yohei Kawaguchi
原文:   [英文]   [中文]  
备注: Accepted at EUSIPCO 2025
摘要:
基于Transformer架构的端到端自动语音识别(ASR)系统,如Whisper,提供了高转录准确性和鲁棒性。然而,其自回归解码计算开销大,从而限制了在基于CPU和资源受限设备上的部署。推测解码(SD)通过使用较小的草稿模型来提出候选标记,然后由主模型验证,从而缓解了这一问题。然而,这种方法对于缺乏像GPU这样的硬件加速器的设备来说是不切实际的。为了解决这个问题,我们提出了\emph{Token Map Drafting},这是一种无需模型的SD技术,消除了对单独草稿模型的需求。相反,我们利用从特定领域训练数据中预先计算的n-gram标记映射,从而实现高效的推测解码,并且开销极小。我们的方法在结构化、低困惑度的领域中显著加速了ASR推理,而不牺牲转录准确性。实验结果表明,在CI-AVSR数据集上解码速度提高了$1.27\times$,在我们的内部数据集上提高了$1.37\times$,且没有降低识别准确性。此外,我们的方法在CPU上运行时,相较于Distill-spec基线实现了$10\%$的解码速度绝对提升,突显了其在设备上ASR应用中的有效性。

[34] TriangleMix:一种用于长上下文预填充的无损且高效的注意力模式
标题: TriangleMix: A Lossless and Efficient Attention Pattern for Long Context Prefilling
作者: Zhiyuan He / Yike Zhang / Chengruidong Zhang / Huiqiang Jiang / Yuqing Yang / Lili Qiu
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)依赖于注意力机制,其时间复杂度随着输入序列长度的平方增长,在预填充阶段造成了显著的计算瓶颈。现有的静态稀疏注意力方法通常会降低准确性,而动态稀疏方法由于运行时稀疏索引估计引入了额外的计算开销。为了解决这些限制,我们提出了TriangleMix,这是一种新颖的无需训练的静态注意力模式。TriangleMix在浅层使用密集注意力,并在深层切换到三角形稀疏模式。大量实验表明,TriangleMix在深层将注意力开销减少了3.7倍到15.3倍,并在序列长度从32K到128K的情况下,将整体首次令牌时间(TTFT)减少了12%到32%,而不牺牲模型准确性。此外,TriangleMix可以无缝集成动态稀疏方法以实现进一步加速,例如在128K时加速MInference 19%,这突显了其提升LLM推理效率的潜力。

[35] 从在线反馈中自动分类用户需求——一项重复研究
标题: Automatic Classification of User Requirements from Online Feedback -- A Replication Study
作者: Meet Bhatt / Nic Boilard / Muhammad Rehan Chaudhary / Cole Thompson / Jacob Idoko / Aakash Sorathiya / Gouri Ginde
原文:   [英文]   [中文]  
备注: 10 pages, 3 figures, Replication package available at this https URL, Accepted at AIRE 2025 (12th International Workshop on Artificial Intelligence and Requirements Engineering)
摘要:
自然语言处理(NLP)技术已广泛应用于需求工程(RE)领域,以支持分类和歧义检测等任务。尽管RE研究植根于实证调查,但对NLP在RE(NLP4RE)研究中的复现关注有限。NLP领域的快速发展为高效的机器辅助工作流程创造了新的机会,这可以为研究带来新的视角和结果。因此,我们复现并扩展了一项先前的NLP4RE研究(基线),“在小数据集环境中使用深度学习从在线反馈中分类用户需求”,该研究评估了不同深度学习模型在用户评论需求分类中的表现。我们使用公开发布的源代码重现了原始结果,从而有助于加强基线研究的外部有效性。随后,我们通过在外部数据集上评估模型性能并将结果与GPT-4o零样本分类器进行比较来扩展设置。此外,我们为基线研究准备了复现研究ID卡,这对于评估复现准备度非常重要。结果显示,不同模型的可重复性水平各异,其中朴素贝叶斯表现出完美的可重复性。相比之下,BERT和其他模型表现出混合结果。我们的研究发现,基线深度学习模型BERT和ELMo在外部数据集上表现出良好的泛化能力,而GPT-4o的表现与传统基线机器学习模型相当。此外,我们的评估确认了基线研究的复现准备度;然而,缺少的环境设置文件本可以进一步提高准备度。我们在复现包中包含了这些缺失的信息,并为我们的研究提供了复现研究ID卡,以进一步鼓励和支持对我们研究的复现。

[36] 现代维吾尔语依存树库(MUDT):一种针对低资源语言的综合形态句法框架
标题: Modern Uyghur Dependency Treebank (MUDT): An Integrated Morphosyntactic Framework for a Low-Resource Language
作者: Jiaxin Zuo / Yiquan Wang / Yuan Pan / Xiadiya Yibulayin
原文:   [英文]  
备注: None
摘要:
为了解决维吾尔语自然语言处理(NLP)中的关键资源缺口,本研究引入了一种依存注释框架,旨在克服现有树库在这种低资源、黏着语中的局限性。该框架包括18个主要关系和26个子类型,具有特定标签,如用于无动词从句的cop:zero和用于细微工具功能的instr:case=loc/dat。为了实证验证这种定制方法的必要性,我们使用预训练的通用依存解析器进行了跨标准评估。分析显示注释存在系统性47.9%的差异,指出了通用方案在处理维吾尔语特定结构时的不足。现代维吾尔语依存树库(MUDT)基于九个确保类型学准确性和语义透明性的注释原则,提供了更准确和语义透明的表示,旨在显著改善解析和下游NLP任务,并为其他形态复杂的语言提供可复制的模型。

[37] MAGIC:一种用于检索增强生成中上下文间冲突的多跳和基于图的基准
标题: MAGIC: A Multi-Hop and Graph-Based Benchmark for Inter-Context Conflicts in Retrieval-Augmented Generation
作者: Jungyeon Lee / Kangmin Lee / Taeuk Kim
原文:   [英文]   [中文]  
备注: None
摘要:
知识冲突常常出现在检索增强生成(RAG)系统中,其中检索到的文档可能彼此不一致或与模型的参数化知识相矛盾。现有用于研究这一现象的基准存在显著的局限性,包括过于集中于问答设置、过度依赖实体替换技术以及冲突类型范围有限。为了解决这些问题,我们提出了一种基于知识图谱(KG)的框架,该框架在两个相似但不同的上下文之间生成多样且微妙的冲突,同时通过KG的显式关系结构确保可解释性。在我们的基准MAGIC上的实验结果为LLM在知识冲突方面的内部工作机制提供了有趣的见解:无论是开源还是专有模型都在冲突检测上表现不佳——尤其是在需要多跳推理时——并且常常无法准确定位矛盾的确切来源。最后,我们提供了深入的分析,为改进LLM在整合多样化甚至有时相互冲突的信息方面奠定了基础。

[38] 评估西班牙语不规则形态模式的认知现实:人类与变压器
标题: Evaluating the cognitive reality of Spanish irregular morphomic patterns: Humans vs. Transformers
作者: Akhilesh Kakolu Ramarao / Kevin Tang / Dinah Baer-Henney
原文:   [英文]   [中文]  
备注: None
摘要:
本研究通过将基于变压器的神经网络与 \citet{Nevins2015TheRA} 的人类行为数据进行直接比较,探讨了西班牙语不规则形态模式的认知合理性。我们使用与原始人类研究相同的分析框架,评估变压器模型在受控输入条件下是否能够复制人类对复杂语言现象(形态模式)的敏感性。我们的实验集中在三个频率条件:自然、低频和高频分布的动词,这些动词表现出不规则的形态模式。虽然模型在词干和词缀准确性上优于人类,但在反应偏好上出现了明显的分歧。与人类不同的是,人类在所有测试项目中始终偏好自然反应,而模型则偏好不规则反应,并受到训练数据中不规则动词比例的影响。此外,训练于自然和低频分布的模型(而非高频分布)对测试项目与真实西班牙语 L 形动词之间的语音相似性表现出敏感性。

[39] 多假设蒸馏多语言神经翻译模型以支持低资源语言
标题: Multi-Hypothesis Distillation of Multilingual Neural Translation Models for Low-Resource Languages
作者: Aarón Galiano-Jiménez / Juan Antonio Pérez-Ortiz / Felipe Sánchez-Martínez / Víctor M. Sánchez-Cartagena
原文:   [英文]   [中文]  
备注: 17 pages, 12 figures
摘要:
本文探讨了多语言预训练编码器-解码器翻译模型的序列级知识蒸馏(KD)。我们认为教师模型的输出分布为学生模型提供了宝贵的见解,超越了通过束搜索(标准解码方法)获得的近似模式,并提出了多假设蒸馏(MHD),这是一种序列级KD方法,为每个源句生成多个翻译。这提供了教师模型分布的更大表示,并使学生模型接触到更广泛的目标端前缀。我们利用束搜索的$n$-最佳列表来指导学生的学习,并研究替代解码方法以解决低变异性和不常见标记的代表性不足等问题。对于资源匮乏的语言,我们的研究表明,虽然采样方法可能在翻译质量上略逊于基于束搜索的方法,但它们通过更大的变异性和词汇丰富性增强了生成的语料库。这最终改善了学生模型的性能,并减轻了与KD相关的性别偏见放大问题。

[40] 多语言JobBERT用于跨语言职位名称匹配
标题: Multilingual JobBERT for Cross-Lingual Job Title Matching
作者: Jens-Joris Decorte / Matthias De Lange / Jeroen Van Hautte
原文:   [英文]   [中文]  
备注: Accepted to the TalentCLEF 2025 Workshop as part of CLEF 2025
摘要:
我们介绍了JobBERT-V3,这是一种基于对比学习的跨语言职位名称匹配模型。我们的方法在最先进的单语言JobBERT-V2的基础上扩展了对英语、德语、西班牙语和中文的支持,通过利用合成翻译和一个包含超过2100万个职位名称的平衡多语言数据集。该模型保留了其前身的效率导向架构,同时实现了跨语言的强大对齐,而无需任务特定的监督。在TalentCLEF 2025基准上的广泛评估表明,JobBERT-V3优于强大的多语言基线,并在单语言和跨语言环境中实现了一致的性能。虽然这不是主要关注点,但我们也展示了该模型可以有效地用于为给定职位名称排名相关技能,证明了其在多语言劳动力市场情报中的广泛适用性。该模型已公开发布:此https URL。

[41] Libra:通过学习思考来评估和改进奖励模型
标题: Libra: Assessing and Improving Reward Model by Learning to Think
作者: Meng Zhou / Bei Li / Jiahao Liu / Xiaowen Shi / Yang Bai / Rongxiang Weng / Jingang Wang / Xunliang Cai
原文:   [英文]   [中文]  
备注: Work In Progress
摘要:
强化学习(RL)显著提升了大型语言模型的推理能力。然而,目前的奖励模型在复杂推理场景中表现不佳,现有的RL训练范式依赖于基于规则或参考的奖励,这带来了两个关键限制:1)依赖精细标注的参考答案来获得奖励;2)需要受限的输出格式。这些限制从根本上阻碍了RL数据的进一步扩展和模型推理性能的持续提升。为了解决这些限制,我们提出了一个综合框架,用于评估和提高奖励模型在复杂推理场景中的表现。我们首先提出一个以推理为导向的基准(Libra Bench),系统地从多样化的复杂数学问题和先进的推理模型中构建,以解决现有奖励模型基准在推理场景中的局限性。我们进一步引入了一种通过学习思考方法来改进生成性奖励模型的新方法。基于所提出的方法,我们开发了Libra-RM系列,这是一组具有推理能力的生成性奖励模型,在各种基准上达到了最先进的结果。进行了全面的下游实验,实验结果展示了我们的Libra Bench与下游应用之间的相关性,以及Libra-RM在利用未标注数据进一步提升推理模型的潜力。

[42] UnsafeChain:通过困难案例提升推理模型的安全性
标题: UnsafeChain: Enhancing Reasoning Model Safety via Hard Cases
作者: Raj Vardhan Tomar / Preslav Nakov / Yuxia Wang
原文:   [英文]   [中文]  
备注: None
摘要:
随着大型推理模型(LRMs)能力的增强,链式推理(CoT)引入了新的安全挑战。现有基于SFT的安全对齐研究主要集中在过滤具有安全、高质量响应的提示,而忽视了总是引发有害输出的困难提示。为填补这一空白,我们引入了UnsafeChain,这是一个由多样来源的困难提示构建的安全对齐数据集,其中不安全的完成被识别并明确纠正为安全的响应。通过让模型接触不安全行为并指导其纠正,UnsafeChain在增强安全性的同时保留了一般推理能力。我们在UnsafeChain上微调了三个LRMs,并在六个分布外和五个分布内基准上与最近的SafeChain和STAR-1进行了比较。UnsafeChain始终优于先前的数据集,甚至一个1K子集也能匹配或超越基线性能,展示了基于纠正的监督的有效性和普适性。我们在此https URL上发布了我们的数据集和代码。

[43] 无对抗防御的对抗防御:通过实例级主成分去除增强语言模型的鲁棒性
标题: Adversarial Defence without Adversarial Defence: Enhancing Language Model Robustness via Instance-level Principal Component Removal
作者: Yang Wang / Chenghao Xiao / Yizhi Li / Stuart E. Middleton / Noura Al Moubayed / Chenghua Lin
原文:   [英文]   [中文]  
备注: This paper was accepted with an A-decision to Transactions of the Association for Computational Linguistics. This version is the pre-publication version prior to MIT Press production
摘要:
预训练语言模型(PLMs)在自然语言处理领域取得了显著进展,但仍然容易受到对抗性攻击的影响,这引发了对其在实际应用中稳健性的担忧。先前的研究通过在训练过程中引入对抗性扰动(无论是隐式还是显式)来减轻对抗性攻击的影响。虽然这两种策略都增强了稳健性,但通常会带来高昂的计算成本。在这项工作中,我们提出了一个简单而有效的附加模块,通过去除实例级主成分来增强PLMs的对抗性稳健性,而无需依赖传统的对抗性防御或扰动原始训练数据。我们的方法通过转换嵌入空间以近似高斯特性,从而减少其对对抗性扰动的敏感性,同时保留语义关系。这种转换使嵌入分布对齐,从而最小化对抗性噪声对决策边界的影响,在不需要对抗性样本或昂贵的训练时增强的情况下提高稳健性。在八个基准数据集上的评估表明,我们的方法在保持与基线相当的攻击前准确率的同时,提高了对抗性稳健性,实现了稳健性和泛化之间的平衡。

[44] AgriEval:大型语言模型的全面中文农业基准
标题: AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models
作者: Lian Yan / Haotian Wang / Chen Tang / Haifeng Liu / Tianyang Sun / Liangliang Liu / Yi Guan / Jingchi Jiang
原文:   [英文]   [中文]  
备注: 36 pages, 22 figures
摘要:
在农业领域,大型语言模型(LLMs)的部署受到训练数据和评估基准缺乏的阻碍。为了解决这个问题,我们提出了AgriEval,这是第一个全面的中文农业基准,具有三个主要特点:(1)全面的能力评估。AgriEval涵盖了六大农业类别和29个农业子类别,涉及四个核心认知场景:记忆、理解、推理和生成。(2)高质量数据。该数据集从大学水平的考试和作业中精心挑选,提供了一个自然且稳健的基准,用于评估LLMs应用知识和做出专家级决策的能力。(3)多样的格式和广泛的规模。AgriEval包含14,697道选择题和2,167道开放式问答题,成为迄今为止最广泛的农业基准。我们还展示了对51个开源和商业LLMs的全面实验结果。实验结果表明,大多数现有的LLMs难以达到60%的准确率,突显了农业LLMs的发展潜力。此外,我们进行了广泛的实验以研究影响模型性能的因素,并提出了改进策略。AgriEval可以在此https URL获取。

[45] 安全分类的问题不仅仅在于模型
标题: The Problem with Safety Classification is not just the Models
作者: Sowmya Vajjala
原文:   [英文]  
备注: Pre-print, Short paper
摘要:
研究大型语言模型(LLMs)对不安全行为的鲁棒性是当今研究的一个重要课题。构建安全分类模型或防护模型,即针对LLMs输入/输出安全分类进行微调的模型,被视为解决该问题的解决方案之一。尽管关于LLMs本身的安全性测试有很多研究,但对这些安全分类器的有效性或用于测试它们的评估数据集的研究却很少,尤其是在多语言场景中。在这篇立场论文中,我们通过考虑涵盖18种语言的数据集,展示了5种安全分类模型中存在的多语言差异。同时,我们识别了评估数据集的潜在问题,认为当前安全分类器的缺陷不仅仅是由于模型本身。我们希望这些发现能为跨语言识别LLM输入中有害内容的更好方法的开发提供讨论的基础。

[46] ChartMark: 一种用于图表注释的结构化语法
标题: ChartMark: A Structured Grammar for Chart Annotation
作者: Yiyu Chen / Yifan Wu / Shuyu Shen / Yupeng Xie / Leixian Shen / Hui Xiong / Yuyu Luo
原文:   [英文]   [中文]  
备注: IEEE VIS 2025
摘要:
图表注释增强了可视化的可访问性,但由于其分散的、非标准化的表示形式,限制了跨平台的重用。我们提出了ChartMark,这是一种将注释语义与可视化实现分离的结构化语法。ChartMark具有一个分层框架,映射到注释维度(例如,任务、图表上下文),支持抽象意图和精确的视觉细节。我们的工具包展示了如何将ChartMark规范转换为Vega-Lite可视化,突出了其灵活性、表现力和实际适用性。

[47] ADoBo 在 IberLEF 2025 的概述:西班牙语中英语借词的自动检测
标题: Overview of ADoBo at IberLEF 2025: Automatic Detection of Anglicisms in Spanish
作者: Elena Alvarez-Mellado / Jordi Porta-Zamorano / Constantine Lignos / Julio Gonzalo
原文:   [英文]   [中文]  
备注: Accepted in the journal Procesamiento del Lenguaje Natural 75
摘要:
本文总结了ADoBo 2025的主要发现,这是在IberLEF 2025背景下提出的西班牙语中英语借词识别的共享任务。ADoBo 2025的参与者被要求从一系列西班牙语新闻文本中检测英语词汇借用(或英语借词)。五个团队提交了他们的测试阶段解决方案。所提出的系统包括大型语言模型、深度学习模型、基于Transformer的模型和基于规则的系统。结果的F1分数范围从0.17到0.99,展示了不同系统在这一任务中表现的差异性。

[48] HRIPBench:用于支持吸毒者的减少危害信息提供的大型语言模型基准测试
标题: HRIPBench: Benchmarking LLMs in Harm Reduction Information Provision to Support People Who Use Drugs
作者: Kaixuan Wang / Chenxin Diao / Jason T. Jacques / Zhongliang Guo / Shuai Zhao
原文:   [英文]   [中文]  
备注: 15 pages, 5 figures, 12 tables, a dataset
摘要:
数百万人的福祉因物质使用的危害而受到挑战。作为一种公共健康策略,减少危害旨在改善他们的健康结果并降低安全风险。一些大型语言模型(LLMs)展示了相当水平的医学知识,有望满足使用药物者(PWUD)的信息需求。然而,它们在相关任务中的表现仍然很大程度上未被探索。我们介绍了HRIPBench,这是一个用于评估LLM在提供减少危害信息时的准确性和安全风险的基准。基准数据集HRIP-Basic包含2160个问答证据对。其范围涵盖三个任务:检查安全界限、提供定量值以及推断多种物质使用风险。我们构建了Instruction和RAG方案,以评估模型基于其固有知识和领域知识整合的行为。我们的结果表明,最先进的LLM在提供准确的减少危害信息方面仍然存在困难,有时会对PWUD造成严重的安全风险。在减少危害的背景下使用LLM应谨慎限制,以避免引发负面的健康结果。警告:本文包含可能导致危害的非法内容。

[49] 形容词修饰对语义合理性的影响建模
标题: Modelling Adjectival Modification Effects on Semantic Plausibility
作者: Anna Golub / Beate Zywietz / Annerose Eichel
原文:   [英文]   [中文]  
备注: Accepted at ESSLLI 2025 Student Session
摘要:
虽然评估事件的合理性(例如“新闻是相关的”)的任务已经受到越来越多的关注,但对事件修改引发的合理性变化的捕捉却较少受到关注。理解合理性变化对于对话生成、常识推理和幻觉检测等任务是相关的,因为它可以正确地建模,例如“温和的讽刺”作为朋友之间亲密而非不友好的标志[9]。在这项工作中,我们解决了ADEPT挑战基准[6],该基准由16K个英语句子对组成,这些句子对仅在一个形容词修饰语上有所不同。我们的建模实验提供了一种概念上新颖的方法,即使用句子转换器,并揭示了它们和基于转换器的模型在处理当前任务时都存在困难,句子转换器——尽管在概念上与任务一致——甚至在与RoBERTa等模型的比较中表现不佳。此外,与之前工作的深入比较强调了更现实、平衡的评估方法的重要性:不平衡会扭曲模型性能和评估指标,并削弱结果的可信度。

[50] 介绍HALC:一种在计算社会科学中使用大型语言模型进行自动编码的最佳提示策略通用流程
标题: Introducing HALC: A general pipeline for finding optimal prompting strategies for automated coding with LLMs in the computational social sciences
作者: Andreas Reich / Claudia Thoms / Tobias Schrimpf
原文:   [英文]  
备注: 48 pages, 9 figures and 8 tables
摘要:
大型语言模型(LLMs)在任务自动化中得到了广泛应用,包括在社会科学中的自动编码。然而,尽管研究人员提出了不同的提示策略,其在不同的LLMs和任务中的效果却各不相同。试错法仍然普遍存在。我们提出了HALC——一个通用的流程,允许系统且可靠地为任何给定的编码任务和模型构建最佳提示,并允许整合任何被认为相关的提示策略。为了研究LLM编码并验证我们的流程,我们向本地LLMs发送了总计1,512个单独的提示,超过两百万次请求。我们基于少量专家编码(真实值)测试提示策略和LLM任务性能。与这些专家编码相比,我们发现使用LLM Mistral NeMo的提示可以可靠地对单个变量进行编码(${\alpha}$气候 = .76; ${\alpha}$运动 = .78)以及跨两个变量(${\alpha}$气候 = .71; ${\alpha}$运动 = .74)。我们的提示策略设置方式是将LLM与我们的代码本对齐——我们并没有为了LLM的友好性优化我们的代码本。我们的论文提供了关于不同提示策略的有效性、关键影响因素的见解,以及为每个编码任务和模型识别可靠提示的方法。

[51] AutoTIR:通过强化学习实现自主工具集成推理
标题: AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning
作者: Yifan Wei / Xiaoyan Yu / Yixuan Weng / Tengfei Pan / Angsheng Li / Li Du
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在通过面向推理的后训练增强后,演变为强大的大型推理模型(LRMs)。工具集成推理(TIR)通过结合外部工具进一步扩展了它们的能力,但现有方法通常依赖于僵化的、预定义的工具使用模式,这可能会降低核心语言能力。受到人类自适应选择工具能力的启发,我们引入了AutoTIR,这是一种强化学习框架,使LLMs能够在推理过程中自主决定是否以及选择哪种工具,而不是遵循静态的工具使用策略。AutoTIR利用混合奖励机制,联合优化任务特定的答案正确性、结构化输出的遵循性以及对不正确工具使用的惩罚,从而鼓励精确推理和高效的工具集成。在各种知识密集型、数学和通用语言建模任务中的广泛评估表明,AutoTIR在整体性能上显著优于基线,并在工具使用行为上表现出卓越的泛化能力。这些结果突显了强化学习在构建真正可泛化和可扩展的LLMs工具集成推理能力中的潜力。代码和数据可在此https URL获取。

[52] Graph-R1:通过端到端强化学习实现具备自主性的GraphRAG框架
标题: Graph-R1: Towards Agentic GraphRAG Framework via End-to-end Reinforcement Learning
作者: Haoran Luo / Haihong E / Guanting Chen / Qika Lin / Yikai Guo / Fangzhi Xu / Zemin Kuang / Meina Song / Xiaobao Wu / Yifan Zhu / Luu Anh Tuan
原文:   [英文]   [中文]  
备注: Preprint
摘要:
检索增强生成(RAG)通过结合外部知识来缓解大型语言模型(LLM)的幻觉问题,但依赖于缺乏结构语义的基于块的检索。GraphRAG 方法通过将知识建模为实体关系图来改进 RAG,但仍面临高构建成本、固定的一次性检索以及依赖长上下文推理和提示设计的挑战。为了解决这些挑战,我们提出了 Graph-R1,这是一种通过端到端强化学习(RL)的代理型 GraphRAG 框架。它引入了轻量级的知识超图构建,将检索建模为多轮的代理-环境交互,并通过端到端的奖励机制优化代理过程。在标准 RAG 数据集上的实验表明,Graph-R1 在推理准确性、检索效率和生成质量方面优于传统的 GraphRAG 和 RL 增强的 RAG 方法。

[53] 死记硬背被认为有用:在大型语言模型中对记忆数据的泛化
标题: Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs
作者: Qinyuan Wu / Soumi Das / Mahsa Amani / Bishwamittra Ghosh / Mohammad Aflah Khan / Krishna P. Gummadi / Muhammad Bilal Zafar
原文:   [英文]   [中文]  
备注: Preprint
摘要:
死记硬背是一种基于重复的记忆技巧。人们普遍认为,这种方法通过鼓励逐字记忆而非深入理解来阻碍泛化。这一见解即使在学习不可避免需要一定程度记忆的事实性知识时也适用。在这项工作中,我们展示了大型语言模型(LLMs)可以通过死记硬背的数据进行泛化训练。我们引入了一个“先记忆后泛化”的两阶段框架,其中模型首先使用语义上无意义的标记死记硬背地记住事实性主体-客体关联,然后通过在一小组语义上有意义的提示上进行微调来学习泛化。对8个大型语言模型进行的大量实验表明,模型可以通过语义上有意义的提示重新解释死记硬背的数据,这可以通过两者之间出现的结构化、语义对齐的潜在表示来证明。这一令人惊讶的发现为有效且高效的知识注入以及将记忆数据重新用于恶意用途的潜在风险打开了大门。

[54] 训练语言模型使其变得温暖和富有同理心会降低其可靠性并使其更趋于谄媚
标题: Training language models to be warm and empathetic makes them less reliable and more sycophantic
作者: Lujain Ibrahim / Franziska Sofia Hafner / Luc Rocher
原文:   [英文]  
备注: None
摘要:
人工智能(AI)开发者越来越多地构建具有温暖和同理心人格的语言模型,数百万人现在使用这些模型来寻求建议、治疗和陪伴。在此,我们展示了这如何产生一个显著的权衡:优化语言模型以获得温暖感会削弱其可靠性,尤其是在用户表现出脆弱性时。我们对五种不同大小和架构的语言模型进行了控制实验,训练它们生成更温暖、更具同理心的回应,然后在安全关键任务上对其进行评估。温暖的模型显示出明显更高的错误率(+10到+30个百分点),比其原始版本更容易传播阴谋论、提供错误的事实信息,并提供有问题的医疗建议。它们也更有可能验证用户的错误信念,特别是在用户消息表达悲伤时。重要的是,这些影响在不同的模型架构中是一致的,并且尽管在标准基准测试中表现保持不变,仍然揭示了当前评估实践可能未能检测到的系统性风险。随着类人AI系统以空前的规模部署,我们的研究结果表明需要重新思考如何开发和监督这些正在重塑人类关系和社会互动的系统。

[55] 通过自我反馈的强化学习对大型语言模型进行后训练
标题: Post-Training Large Language Models via Reinforcement Learning from Self-Feedback
作者: Carel van Niekerk / Renato Vukovic / Benjamin Matthias Ruppik / Hsien-chin Lin / Milica Gašić
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)常常生成看似合理但校准不佳的答案,这限制了它们在需要推理的任务中的可靠性。我们提出了一种自反馈强化学习(RLSF)的方法,这是一种后训练阶段,利用模型自身的置信度作为内在奖励,模仿人类在缺乏外部反馈时的学习方式。在一个冻结的LLM生成多个思维链解决方案后,我们定义并计算每个最终答案片段的置信度,并相应地对这些轨迹进行排序。然后,这些合成偏好用于通过标准偏好优化来微调策略,类似于RLHF,但不需要人工标签、标准答案或外部策划的奖励。RLSF同时(i)改进了模型的概率估计——恢复良好的校准——以及(ii)增强逐步推理,从而在算术推理和多项选择题回答上表现更佳。通过将模型自身的不确定性转化为有用的自反馈,RLSF确认了在内在模型行为上的强化学习是LLM后训练流程中一个有原则且数据高效的组成部分,并保证在LLM后训练中对内在奖励的进一步研究。

[56] 烹饪交汇点:一种用于增强跨文化食谱改编多样性的RAG框架
标题: Culinary Crossroads: A RAG Framework for Enhancing Diversity in Cross-Cultural Recipe Adaptation
作者: Tianyi Hu / Andrea Morales-Garzón / Jingyi Zheng / Maria Maistro / Daniel Hershcovich
原文:   [英文]   [中文]  
备注: None
摘要:
在跨文化食谱改编中,目标不仅是确保文化适应性并保留原始菜肴的精髓,还要为各种饮食需求和偏好提供多样化的选择。检索增强生成(RAG)是一种很有前景的方法,它结合了从目标菜系中检索真实食谱以实现文化适应性,以及使用大型语言模型(LLMs)来确保相关性。然而,目前尚不清楚RAG是否能够生成多样化的改编结果。我们的分析表明,RAG在多次生成中往往过度依赖于有限的上下文部分,即使提供了多样化的上下文输入,也未能产生多样化的输出。这揭示了RAG在具有多种有效答案的创造性任务中的一个关键限制:它未能利用上下文的多样性来生成多样化的响应。为了解决这个问题,我们提出了CARRIAGE,这是一种用于跨文化食谱改编的即插即用RAG框架,旨在增强检索和上下文组织中的多样性。据我们所知,这是第一个明确旨在生成高度多样化输出以满足多种用户偏好的RAG框架。我们的实验表明,与封闭书籍的LLMs相比,CARRIAGE在食谱改编的多样性和质量方面实现了帕累托效率。

[57] 利用大型语言模型从环境元数据预测微生物本体和病原体风险
标题: Predicting Microbial Ontology and Pathogen Risk from Environmental Metadata with Large Language Models
作者: Hyunwoo Yoo / Gail L. Rosen
原文:   [英文]   [中文]  
备注: None
摘要:
传统的机器学习模型在微生物组研究中难以泛化,尤其是在仅有元数据的小样本环境中,或在标签格式异质的跨研究中。在这项工作中,我们探索了使用大型语言模型(LLMs)将微生物样本分类到本体类别(如EMPO 3)和相关的生物学标签中,以及仅使用环境元数据预测病原体污染风险,特别是大肠杆菌的存在。我们评估了诸如ChatGPT-4o、Claude 3.7 Sonnet、Grok-3和LLaMA 4等LLMs在零样本和少样本环境中的表现,并将其与传统模型如随机森林在多个真实世界数据集上的表现进行比较。我们的结果表明,LLMs不仅在本体分类中优于基线模型,还在污染风险预测中表现出强大的预测能力,能够在不同地点和元数据分布中泛化。这些发现表明,LLMs可以有效地推理稀疏、异质的生物学元数据,并为环境微生物学和生物监测应用提供了一种有前景的仅依赖元数据的方法。

[58] DeepSieve:通过大型语言模型作为知识路由器的信息筛选
标题: DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router
作者: Minghao Guo / Qingcheng Zeng / Xujiang Zhao / Yanchi Liu / Wenchao Yu / Mengnan Du / Haifeng Chen / Wei Cheng
原文:   [英文]   [中文]  
备注: 22 pages, work in progress
摘要:
大型语言模型(LLMs)在许多推理任务中表现出色,但由于无法动态访问最新或特定领域的信息,在处理知识密集型查询时表现不佳。检索增强生成(RAG)作为一种有前途的解决方案出现,使LLMs能够在外部资源的基础上生成回答。然而,现有的RAG方法在查询和信息源两方面缺乏细粒度的控制,常常导致检索噪声和浅层推理。在这项工作中,我们介绍了DeepSieve,这是一种代理型RAG框架,通过将LLM作为知识路由器来实现信息筛选。DeepSieve将复杂查询分解为结构化的子问题,并递归地将每个子问题路由到最合适的知识源,通过多阶段的蒸馏过程过滤掉不相关的信息。我们的设计强调模块化、透明性和适应性,利用了代理系统设计的最新进展。在跨异构来源的多跳问答任务实验中,与传统RAG方法相比,DeepSieve在推理深度、检索精度和可解释性方面表现出改进。