![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年3月25日更新论文82篇
|
[1] ChatGPT或无处不在的沉默助手:大型语言模型调查 标题: ChatGPT or A Silent Everywhere Helper: A Survey of Large Language Models 作者: Azim Akhtarshenas / Afshin Dini / Navid Ayoobi 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)已经彻底改变了自然语言处理(NLP),其中聊天生成预训练变换器(ChatGPT)因其先进的功能和广泛的应用而成为一个显著的例子。本调查提供了对ChatGPT的全面分析,探讨了其架构、训练过程和功能。我们研究了它在客户服务、教育、医疗保健和娱乐等行业的各种领域中的整合。与其他LLMs的比较分析突出了ChatGPT的独特特征和性能指标。关于基准测试,论文考察了ChatGPT与其他LLMs的比较性能,并讨论了潜在风险,如错误信息、偏见和数据隐私问题。此外,我们提供了许多图表,概述了讨论的背景、文章的主要观点、众多LLM模型、用于预训练、微调和评估的详细数据集列表,以及特定LLM应用的相关参考。最后,我们确定了未来的研究方向和技术进步,强调了LLMs不断发展的格局及其对人工智能(AI)和社会的深远影响。 |
[2] 长上下文语言建模的全面综述 标题: A Comprehensive Survey on Long Context Language Modeling 作者: Jiaheng Liu / Dawei Zhu / Zhiqi Bai / Yancheng He / Huanxuan Liao / Haoran Que / Zekun Wang / Chenchen Zhang / Ge Zhang / Jiebin Zhang / Yuanxing Zhang / Zhuo Chen / Hangyu Guo / Shilong Li / Ziqiang Liu / Yong Shan / Yifan Song / Jiayi Tian / Wenhao Wu / Zhejian Zhou / Ruijie Zhu / Junlan Feng / Yang Gao / Shizhu He / Zhoujun Li / Tianyu Liu / Fanyu Meng / Wenbo Su / Yingshui Tan / Zili Wang / Jian Yang / Wei Ye / Bo Zheng / Wangchunshu Zhou / Wenhao Huang / Sujian Li / Zhaoxiang Zhang 原文: [英文] [中文] 备注: None 摘要: 在自然语言处理领域,高效处理长文本一直是一个持续的追求。随着长文档、对话和其他文本数据的增多,开发能够有效处理和分析大量输入的长上下文语言模型(LCLMs)变得尤为重要。在本文中,我们对大型语言模型在长上下文建模方面的最新进展进行了全面综述。我们的综述围绕三个关键方面展开:如何获得有效且高效的LCLMs,如何高效地训练和部署LCLMs,以及如何全面评估和分析LCLMs。对于第一个方面,我们讨论了面向长上下文处理的数据策略、架构设计和工作流程方法。对于第二个方面,我们详细审视了LCLM训练和推理所需的基础设施。对于第三个方面,我们提出了长上下文理解和长篇生成的评估范式,以及LCLMs的行为分析和机制可解释性。除了这三个关键方面,我们还深入探讨了现有LCLMs已部署的多样化应用场景,并概述了未来发展的有前景方向。本综述提供了关于长上下文大型语言模型的最新文献回顾,希望能成为研究人员和工程师的宝贵资源。相关的GitHub仓库收集了最新的论文和代码库,网址为:\href{this https URL}{\color[RGB]{175,36,67}{LCLM-Horizon}}。 |
[3] 超越否定检测:用于临床自然语言处理的综合断言检测模型 标题: Beyond Negation Detection: Comprehensive Assertion Detection Models for Clinical NLP 作者: Veysel Kocaman / Yigit Gul / M. Aytug Kaya / Hasham Ul Haq / Mehmet Butgul / Cabir Celik / David Talby 原文: [英文] [中文] 备注: accepted at Text2Story Workshop at ECIR 2025 摘要: 断言状态检测是临床自然语言处理中的一个关键但常常被忽视的组成部分,对于准确归因于提取的医学事实至关重要。过去的研究狭隘地集中在否定检测上,导致商业解决方案(如AWS Medical Comprehend、Azure AI Text Analytics和GPT-4o)由于其有限的领域适应性而表现不佳。为了解决这一差距,我们开发了最先进的断言检测模型,包括微调的大型语言模型(LLM)、基于变压器的分类器、少样本分类器和深度学习(DL)方法。我们将这些模型与基于云的商业API解决方案、传统的基于规则的NegEx方法和GPT-4o进行了比较。我们的微调LLM实现了最高的整体准确率(0.962),明显优于GPT-4o(0.901)和商业API,特别是在当前(+4.2%)、缺失(+8.4%)和假设(+23.4%)断言方面表现出色。我们的基于DL的模型在条件(+5.3%)和与他人相关(+10.1%)类别中超过了商业解决方案,而少样本分类器提供了一种轻量但竞争力极强的替代方案(0.929),使其在资源受限的环境中理想。集成在Spark NLP中,我们的模型在可扩展推理和与医学命名实体识别、关系抽取和术语解析的无缝集成方面,始终优于黑盒商业解决方案。这些结果强调了领域适应、透明和可定制的临床NLP解决方案的重要性,相较于通用LLM和专有API。 |
[4] 语言特定的神经元不促进跨语言迁移 标题: Language-specific Neurons Do Not Facilitate Cross-Lingual Transfer 作者: Soumen Kumar Mondal / Sayambhu Sen / Abhishek Singhania / Preethi Jyothi 原文: [英文] [中文] 备注: Accepted (oral) at NAACL 2025 (InsightsNLP) 摘要: 多语言大型语言模型(LLMs)旨在实现对多种语言的稳健自然语言理解,但其在低资源语言上的表现显著下降。本文探讨现有识别语言特定神经元的技术是否可以用于增强低资源语言的跨语言任务表现。我们进行了详细实验,涵盖现有的语言特定神经元识别技术(如语言激活概率熵和基于激活概率的阈值)以及使用Llama 3.1和Mistral Nemo等模型进行神经元特定的LoRA微调。我们发现,这些神经元特定的干预措施不足以在低资源语言的下游任务(XNLI, XQuAD)中实现跨语言的改进。该研究突出了实现跨语言泛化的挑战,并为多语言LLMs提供了关键见解。 |
[5] ConvoGen:通过合成数据增强对话式人工智能:一种多代理方法 标题: ConvoGen: Enhancing Conversational AI with Synthetic Data: A Multi-Agent Approach 作者: Reem Gody / Mahmoud Goudy / Ahmed Y. Tawfik 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们介绍了ConvoGen:一个使用多智能体系统生成合成对话数据的创新框架。我们的方法利用少样本学习,并引入从动态更新的少样本中心进行迭代采样,以创建多样化且真实的对话场景。生成的数据有多种应用,包括训练和评估对话AI模型,以及增强现有数据集以用于对话意图分类或对话总结等任务。我们的实验展示了该方法在生成高质量多样化合成对话数据方面的有效性,突显了其在增强对话AI系统的开发和评估中的潜力。 |
[6] SaudiCulture:评估大型语言模型在沙特阿拉伯文化能力的基准 标题: SaudiCulture: A Benchmark for Evaluating Large Language Models Cultural Competence within Saudi Arabia 作者: Lama Ayash / Hassan Alhuzali / Ashwag Alasmari / Sultan Aloufi 原文: [英文] [中文] 备注: 34 pages, under-review 摘要: 大型语言模型(LLMs)在自然语言处理方面展现了卓越的能力;然而,它们常常难以准确捕捉和反映文化细微差别。本研究通过聚焦沙特阿拉伯这一拥有多样方言和丰富文化传统的国家来应对这一挑战。我们引入了SaudiCulture,这是一种新颖的基准,旨在评估LLMs在沙特阿拉伯独特的地理和文化背景下的文化能力。SaudiCulture是一个全面的数据集,包含了覆盖五个主要地理区域(如西部、东部、南部、北部和中部)的问题,以及适用于所有区域的一般性问题。该数据集涵盖了广泛的文化领域,包括食物、服装、娱乐、庆祝活动和手工艺品。为了确保严格的评估,SaudiCulture包括了不同复杂程度的问题,如开放式、单选和多选格式,其中一些问题需要多个正确答案。此外,该数据集区分了常见的文化知识和专业的区域性方面。我们对五个LLMs进行了广泛的评估,包括GPT-4、Llama 3.3、FANAR、Jais和AceGPT,分析了它们在不同问题类型和文化背景下的表现。我们的研究结果表明,当面对高度专业化或区域特定的问题时,尤其是那些需要多个正确答案的问题时,所有模型的表现都显著下降。此外,某些文化类别比其他类别更容易识别,这进一步突显了LLMs在文化理解上的不一致性。这些结果强调了在LLMs训练中融入区域特定知识以增强其文化能力的重要性。 |
[7] 评判一切:多模态大语言模型作为跨模态的评判者 标题: Judge Anything: MLLM as a Judge Across Any Modality 作者: Shu Pu / Yaochen Wang / Dongping Chen / Yuhang Chen / Guohao Wang / Qi Qin / Zhongyi Zhang / Zhiyuan Zhang / Zetong Zhou / Shuang Gong / Yi Gui / Yao Wan / Philip S. Yu 原文: [英文] 备注: None 摘要: 在多模态理解(MMU)和生成(MMG)任务中评估生成基础模型,尤其是在涉及多种模态(如图像、音频、视频)的情况下,由于跨模态交互的复杂性,面临着显著的挑战。为此,利用多模态大语言模型(MLLMs)作为自动评判者的想法应运而生,并在评估视觉-语言理解任务中取得了令人鼓舞的结果。进一步地,本文通过引入两个基准测试,TaskAnything 和 JudgeAnything,将 MLLM 作为评判者的概念扩展到跨模态的统一方式,以分别评估 MLLM 在任意模态任务中的整体性能和评判能力。具体而言,TaskAnything 通过从成熟基准中精选的 1,500 个查询,评估 15 个任意模态类别的 MMU 和 MMG 能力。此外,JudgeAnything 从配对比较和评分评估的角度评估 5 个先进模型(如 GPT-4o 和 Gemini-2.0-Flash)的评判能力,提供了一个结合人类判断和详细评分标准的标准化测试平台。我们的广泛实验表明,尽管这些 MLLM 在评估 MMU 方面表现出色(即在配对比较设置中平均达到 66.55%,在评分评估设置中达到 42.79%),但在 MMG 任务中遇到了显著挑战(即在配对比较设置中平均仅为 53.37%,在评分评估设置中为 30.05%),暴露了跨模态偏差和幻觉问题。为了解决这一问题,我们提出了 OmniArena,一个用于评估全模态模型和多模态奖励模型的自动化平台。我们的工作强调了需要更公平的评估协议和更强的人类偏好对齐。源代码和数据集可在此网址公开获取:this https URL。 |
[8] 生成后续问题以增强患者与医护人员的对话 标题: Follow-up Question Generation For Enhanced Patient-Provider Conversations 作者: Joseph Gatto / Parker Seegmiller / Timothy Burdick / Inas S. Khayal / Sarah DeLozier / Sarah M. Preum 原文: [英文] 备注: 17 Pages, 7 Figures, 6 Tables 摘要: 后续问题生成是对话系统的重要功能,因为它可以减少对话中的歧义并增强复杂交互的建模。对话上下文通常会带来核心的自然语言处理挑战,例如:(i) 从分散的数据源中提取相关信息,以及 (ii) 建模并行的思维过程。这两个挑战在医疗对话中频繁出现,因为医生不仅根据患者的言语,还根据他们之前的电子健康记录(EHR)数据和当前的诊断假设来提问。在异步对话中提出医疗问题使这些问题更加复杂,因为医生只能依赖静态的EHR信息来激发后续问题。为了解决这些挑战,我们引入了FollowupQ,这是一种用于增强异步医疗对话的新框架。FollowupQ是一个多代理框架,处理患者消息和EHR数据以生成个性化的后续问题,澄清患者报告的医疗状况。FollowupQ减少了34%的必要提供者后续沟通。它还在真实和合成数据上分别提高了17%和5%的性能。我们还发布了第一个公开的异步医疗消息数据集,其中包含与EHR数据相关联的2,300个由临床专家撰写的后续问题,供更广泛的自然语言处理研究社区使用。 |
[9] 语言模型可能逐字完成它们未明确训练过的文本 标题: Language Models May Verbatim Complete TextThey Were Not Explicitly Trained On 作者: Ken Ziyu Liu / Christopher A. Choquette-Choo / Matthew Jagielski / Peter Kairouz / Sanmi Koyejo / Percy Liang / Nicolas Papernot 原文: [英文] [中文] 备注: Main text: 9 pages, 7 figures, 1 table. Appendix: 29 pages, 20 tables, 15 figures 摘要: 当今一个重要的问题是如何判断一段文本是否被用于训练大型语言模型(LLM)。通常使用一种“补全”测试:检查LLM是否能补全一段足够复杂的文本。然而,这需要一个关于成员资格的真实定义;最常见的是基于目标文本与数据集中任何文本之间的$n$-gram重叠来定义成员资格。在这项工作中,我们展示了这种基于$n$-gram的成员定义可以被有效地操控。我们研究了在给定$n$的情况下序列是“非成员”的场景,并发现补全测试仍然成功。通过在移除所有被补全的训练样本后从头开始重新训练LLM,我们发现了许多这种现象的自然案例;这些案例包括完全重复、近似重复,甚至是短暂的重叠。它们展示了很难找到一个适合的$n$值来定义成员资格。利用这些见解,我们设计了对抗性数据集,可以在不包含目标序列的情况下使其被补全,无论选择何种合理的$n$值。我们的研究结果突显了$n$-gram成员资格的不足,表明成员定义未能考虑训练算法可用的辅助信息。 |
[10] 贝叶斯教学使大型语言模型具备概率推理能力 标题: Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models 作者: Linlu Qiu / Fei Sha / Kelsey Allen / Yoon Kim / Tal Linzen / Sjoerd van Steenkiste 原文: [英文] [中文] 备注: None 摘要: 基于大型语言模型(LLMs)的人工智能系统越来越多地被用作与用户和世界互动的代理。为了成功地做到这一点,LLMs需要构建世界的内部表示,并对这些表示形成概率信念。例如,为了向用户提供个性化推荐,LLM需要在多次互动过程中逐步推断用户的偏好。为了评估当代LLMs是否能够做到这一点,我们使用概率理论中的贝叶斯推理框架,该框架阐述了在接收新信息时更新代理信念的最佳方式。我们首先展示了LLMs没有按照贝叶斯框架预期的方式更新其信念,因此即使获得更多信息,它们的预测也没有如预期般改善,甚至比我们发现的人类情况更差。为了解决这个问题,我们通过训练LLMs模仿最佳贝叶斯模型的预测来教它们以贝叶斯方式进行推理。我们发现这种方法不仅显著提高了LLM在其训练的特定推荐任务上的表现,还能够推广到其他任务。这表明这种方法赋予了LLM更广泛的贝叶斯推理技能。更一般地,我们的结果表明,LLMs可以有效地学习推理策略,并将这些技能推广到新的领域,这在一定程度上解释了LLMs的经验成功。 |
[11] 利用人类生产-解释不对称性测试大型语言模型的认知合理性 标题: Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility 作者: Suet-Ying Lam / Qingcheng Zeng / Jingyi Wu / Rob Voigt 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)是否以类似于人类的方式处理语言,一直是理论和实践中广泛讨论的话题。我们通过人类句子处理中的生成-解释区分的视角来研究这个问题,并评估经过指令调优的LLMs在多大程度上复制了这种区分。利用人类在隐含因果动词上的生成和解释之间的经验性不对称作为测试平台,我们发现一些LLMs在数量和质量上确实反映了人类般的生成和解释不对称性。我们证明,这种行为是否成立取决于模型的大小——较大的模型更有可能反映出人类般的模式,以及用于引发这种行为的元语言提示的选择。 |
[12] GPBench:用于评估大型语言模型作为全科医生的全面且细粒度的基准 标题: GPBench: A Comprehensive and Fine-Grained Benchmark for Evaluating Large Language Models as General Practitioners 作者: Zheqing Li / Yiying Yang / Jiping Lang / Wenhao Jiang / Yuhang Zhao / Shuang Li / Dingqian Wang / Zhu Lin / Xuanna Li / Yuze Tang / Jiexian Qiu / Xiaolin Lu / Hongji Yu / Shuang Chen / Yuhua Bi / Xiaofei Zeng / Yixian Chen / Junrong Chen / Lin Yao 原文: [英文] [中文] 备注: None 摘要: 全科医生(GPs)作为初级医疗保健系统的基石,提供持续和全面的医疗服务。然而,由于其实践的社区导向性质、不均衡的培训和资源差距,全科医生的临床能力在不同地区和医疗环境中可能存在显著差异。目前,大型语言模型(LLMs)在临床和医学应用中展示了巨大的潜力,使其成为支持全科医疗的有前途工具。然而,大多数现有的基准和评估框架侧重于考试风格的评估——通常是选择题——缺乏能够准确反映全科医生所遇到的真实场景的全面评估集。为了评估LLMs在全科医生日常工作中做出决策的有效性,我们设计了GPBench,它包括临床实践中的测试题和一个新的评估框架。测试集包括评估全科医学基础知识的选择题,以及基于现实场景的问题。所有问题都由专家精心注释,包含与临床管理相关的丰富细粒度信息。所提出的LLM评估框架基于全科医学的能力模型,提供了一种全面的方法来评估LLM在真实世界环境中的表现。作为第一个针对全科医生决策场景的大型模型评估集,GPBench使我们能够评估当前主流的LLMs。专家评估和评价显示,在疾病分期、并发症识别、治疗细节和药物使用等领域,这些模型至少存在十个主要缺陷。总体而言,现有的LLMs尚不适合在没有人类监督的情况下独立用于真实世界的全科医生工作场景。 |
[13] 使用角色意识对比学习增强大型语言模型角色扮演中的人格一致性 标题: Enhancing Persona Consistency for LLMs' Role-Playing using Persona-Aware Contrastive Learning 作者: Ke Ji / Yixin Lian / Linxu Li / Jingsheng Gao / Weiyuan Li / Bin Dai 原文: [英文] [中文] 备注: 18 pages, 4 figures 摘要: 近年来,大型语言模型(LLMs)在许多对话生成任务中取得了突破性进展。然而,它们缺乏情感和细粒度角色意识,限制了模型提供个性化和多样化互动的能力。目前的方法在收集高质量标注数据以用于角色扮演等场景时面临高成本问题,而传统的人类对齐方法由于模型在角色扮演场景中的行为固有多样性而难以部署。受到通过人类反馈强化学习(RLHF)对模型进行安全行为对齐的启发,本文从角色对齐的角度重新审视模型的角色扮演行为,并提出了一种新的无标注框架,名为\textbf{\underline{P}}ersona-Aware \textbf{\underline{C}}ontrastive \textbf{\underline{L}}earning(PCL),以在角色扮演过程中对齐LLMs的行为,增强模型的角色一致性。具体来说,我们首先设计了一种角色链方法,鼓励模型根据角色特征和对话上下文进行自我质疑,以调整人格一致性。然后,我们通过在使用角色特征与不使用角色特征之间进行迭代对比学习,进一步增强模型的角色扮演策略。在黑盒和白盒LLMs上的实验表明,配备PCL的LLMs在自动评估方法(CharEval和GPT-4)和人类专家评估下显著优于普通LLMs。 |
[14] 大型语言模型能否自动化事实核查文章写作? 标题: Can LLMs Automate Fact-Checking Article Writing? 作者: Dhruv Sahnan / David Corney / Irene Larraz / Giovanni Zagni / Ruben Miguez / Zhuohan Xie / Iryna Gurevych / Elizabeth Churchill / Tanmoy Chakraborty / Preslav Nakov 原文: [英文] [中文] 备注: 10 pages, 4 figures, 6 tables 摘要: 自动事实核查旨在通过提供工具来帮助专业事实核查员加快手动核查的速度。然而,现有框架未能解决生成适合向公众广泛传播的输出这一关键步骤:虽然人类事实核查员通过事实核查文章来传达他们的发现,但自动化系统通常对其评估几乎没有或没有任何理由。在此,我们旨在弥合这一差距。我们主张需要扩展典型的自动事实核查流程,以自动生成完整的事实核查文章。我们首先通过与领先事实核查组织的专家进行一系列访谈来确定此类文章的关键需求。然后,我们开发了QRAFT,一个基于大型语言模型的代理框架,模拟人类事实核查员的写作流程。最后,我们通过与专业事实核查员进行的人类评估来评估QRAFT的实际效用。我们的评估显示,虽然QRAFT在几个先前提出的文本生成方法中表现优于其他方法,但与专家撰写的文章相比仍有相当大的差距。我们希望我们的工作能够推动这一新兴且重要方向的进一步研究。 |
[15] 利用合成数据和错误注入提升阿拉伯语自动作文评分 标题: Enhancing Arabic Automated Essay Scoring with Synthetic Data and Error Injection 作者: Chatrine Qwaider / Bashar Alhafni / Kirill Chirkunov / Nizar Habash / Ted Briscoe 原文: [英文] [中文] 备注: None 摘要: 自动作文评分(AES)在评估语言学习者的写作质量、减少评分工作量以及提供实时反馈方面起着至关重要的作用。阿拉伯语AES系统特别面临缺乏带注释的作文数据集的挑战。本文提出了一种新颖的框架,利用大型语言模型(LLMs)和Transformers生成用于AES的合成阿拉伯语作文数据集。我们通过提示一个LLM生成符合欧洲语言共同参考框架(CEFR)熟练程度的作文,并使用经过微调的标准阿拉伯语BERT模型进行受控错误注入,以预测错误类型。我们的方法生成了逼真的类人作文,贡献了一个包含3,040篇带注释作文的数据集。此外,我们开发了一个基于BERT的自动评分系统,用于准确且可扩展的阿拉伯语作文评估。实验结果表明,我们的框架在提高阿拉伯语AES性能方面的有效性。 |
[16] 构建资源受限的语言代理:关于化学毒性信息的韩国案例研究 标题: Building Resource-Constrained Language Agents: A Korean Case Study on Chemical Toxicity Information 作者: Hojun Cho / Donghu Kim / Soyoung Yang / Chan Lee / Hunjoo Lee / Jaegul Choo 原文: [英文] [中文] 备注: Preprint 摘要: 由大型语言模型(LLMs)驱动的语言代理在资源受限的环境中面临显著的部署挑战,特别是在专业领域和不常见语言的情况下。本文介绍了Tox-chat,这是一种在这些限制条件下设计的韩语化学毒性信息代理。我们提出了两个关键创新:一种通过分层部分搜索减少标记消耗的上下文高效架构,以及一种基于场景的对话生成方法,该方法有效地从更大的模型中提炼出工具使用能力。实验评估表明,我们微调的8B参数模型在DB忠实度和偏好方面显著优于未调优模型和基线方法。我们的工作为在实际约束下开发特定领域语言代理的研究人员提供了宝贵的见解。 |
[17] 通过分类探针识别潜在知识以改善大型语言模型中的偏好提取 标题: Improving Preference Extraction In LLMs By Identifying Latent Knowledge Through Classifying Probes 作者: Sharan Maiya / Yinhong Liu / Ramit Debnath / Anna Korhonen 原文: [英文] [中文] 备注: preprint, submitted to ACL ARR 2025, 21 pages, 23 figures 摘要: 大型语言模型(LLMs)常被用作自动评判者来评估文本,但其有效性可能会受到各种无意偏见的影响。我们提出使用线性分类探针,通过利用对比提示对之间的差异进行训练,直接访问LLMs的潜在知识并提取更准确的偏好。通过对来自四个不同家族的不同规模模型和六个多样化数据集进行的广泛实验,这些数据集评估了文本质量和常识推理,我们证明了无论是监督还是无监督的探测方法都能始终优于传统的基于生成的判断,同时保持类似的计算成本。这些探针在领域转移下具有泛化能力,甚至可以在相同训练数据规模下优于微调的评估器。我们的结果表明,线性探测为LLM作为评判任务提供了一种准确、稳健且计算效率高的方法,同时提供了对模型如何编码与判断相关知识的可解释见解。我们的数据和代码将在未来公开发布。 |
[18] 使用实例适应的谓词描述进行关系抽取 标题: Relation Extraction with Instance-Adapted Predicate Descriptions 作者: Yuhang Jiang / Ramakanth Kavuluru 原文: [英文] [中文] 备注: None 摘要: 关系抽取(RE)是一项标准的信息抽取任务,在知识发现和问答等下游应用中发挥着重要作用。尽管仅解码的大型语言模型在生成任务中表现出色,但较小的编码器模型仍然是RE的首选架构。在本文中,我们重新审视了使用一种新颖的双编码器架构对这些较小模型进行微调的方法,该架构结合了对比损失和交叉熵损失。与之前使用固定线性层进行谓词表示的方法不同,我们的方法使用第二个编码器,通过将实际实体跨度注入相应输入实例中,来计算特定实例的谓词表示。我们在两个生物医学RE数据集和两个通用领域数据集上进行了实验。我们的方法在F1分数上比最先进的方法提高了1%到2%,这一简单而优雅的公式取得了显著效果。消融研究证明了所提出架构中各种组件的重要性。 |
[19] ParsiPy:用于历史波斯文本的Python自然语言处理工具包 标题: ParsiPy: NLP Toolkit for Historical Persian Texts in Python 作者: Farhan Farsi / Parnian Fazel / Sepand Haghighi / Sadra Sabouri / Farzaneh Goshtasb / Nadia Hajipour / Ehsaneddin Asgari / Hossein Sameti 原文: [英文] [中文] 备注: 13 pages, 6 figure, accepted into Second Workshop on Ancient Language Processing (ALP2025) 摘要: 研究历史语言由于其复杂的正字法系统、零散的文本证据以及缺乏标准化的数字文本表示而面临独特的挑战。应对这些挑战需要特殊的自然语言处理(NLP)数字工具来处理语音转录和分析古代文本。本文介绍了ParsiPy,这是一款NLP工具包,旨在通过提供分词、词形还原、词性标注、音素到音译转换和词嵌入模块来促进历史波斯语言的分析。我们通过对Parsig(中古波斯语)文本的处理展示了该工具包的实用性,强调了其在历史语言研究中扩展计算方法的潜力。通过这项工作,我们为计算语言学做出了贡献,提供了可以适应更广泛的古代文本研究及其数字化保存的工具。 |
[20] Feather-SQL:一种轻量级的NL2SQL框架,采用双模型协作范式以适应小型语言模型 标题: Feather-SQL: A Lightweight NL2SQL Framework with Dual-Model Collaboration Paradigm for Small Language Models 作者: Wenqi Pei / Hailing Xu / Hengyuan Zhao / Shizheng Hou / Han Chen / Zining Zhang / Pingyi Luo / Bingsheng He 原文: [英文] [中文] 备注: None 摘要: 自然语言到SQL(NL2SQL)在大型语言模型(LLMs)的推动下取得了显著进展。然而,这些模型通常依赖于闭源系统和高计算资源,给数据隐私和部署带来了挑战。相比之下,小型语言模型(SLMs)在NL2SQL任务中表现不佳,与现有框架不兼容。为了解决这些问题,我们引入了Feather-SQL,这是一种为SLMs量身定制的新型轻量级框架。Feather-SQL通过1)模式修剪和链接,2)多路径和多候选生成,提高了SQL的可执行性和准确性。此外,我们引入了1+1模型协作范式,将一个强大的通用聊天模型与一个经过微调的SQL专家配对,结合了强大的分析推理能力和高精度的SQL生成。在BIRD上的实验结果表明,Feather-SQL提高了SLMs在NL2SQL任务中的表现,对于未经过微调的模型,性能提升约10%。所提出的范式将SLMs的准确性上限提高到54.76%,突显了其有效性。 |
[21] 通过推理时间的逻辑推理增强检索系统 标题: Enhancing Retrieval Systems with Inference-Time Logical Reasoning 作者: Felix Faltings / Wei Wei / Yujia Bao 原文: [英文] [中文] 备注: None 摘要: 传统的检索方法依赖于将用户查询转换为向量表示,并在嵌入空间中基于余弦相似性检索文档。虽然这种方法高效且具有可扩展性,但在处理涉及否定、合取和析取等逻辑构造的复杂查询时往往表现不佳。在本文中,我们提出了一种新颖的推理时逻辑推理框架,该框架将逻辑推理明确地融入到检索过程中。我们的方法从自然语言查询中提取逻辑推理结构,然后组合各个余弦相似性分数以形成最终的文档分数。此方法使检索过程能够处理复杂的逻辑推理,同时不影响计算效率。我们在合成和真实世界的基准测试中的结果表明,所提出的方法在不同的模型和数据集上始终优于传统的检索方法,显著提高了复杂查询的检索性能。 |
[22] 基于术语增强信息检索和情感上下文学习的满意医疗咨询 标题: Satisfactory Medical Consultation based on Terminology-Enhanced Information Retrieval and Emotional In-Context Learning 作者: Kaiwen Zuo / Jing Tang / Hanbing Qin / Binli Luo / Ligang He / Shiyan Tang 原文: [英文] [中文] 备注: The 46th European Conference on Information Retrieval Workshop 摘要: 最近在大型语言模型(LLMs)方面的进展标志着在理解和回应医疗咨询方面取得了显著进步。然而,它们的表现仍未达到专业咨询设定的标准。本文介绍了一种新颖的医疗咨询框架,包括两个主要模块:术语增强信息检索(TEIR)和情感上下文学习(EICL)。TEIR通过利用归纳知识和关键术语检索来确保隐性推理,克服公共数据库中受限领域知识的限制。此外,该模块具有处理长上下文的能力。EICL模块通过记忆未标注语料库中的语义和属性信息,并应用受控检索所需信息,帮助生成具有高属性相关性的句子。此外,在中国编制了一个包含803,564条咨询记录的数据集,显著增强了模型处理复杂对话和主动询问的能力。综合实验表明,所提出的方法在扩展现有LLMs的上下文窗口长度方面的有效性。实验结果和大量数据验证了该框架在BLEU和ROUGE性能指标方面优于五个基线模型的优势,在某些能力上有显著领先。值得注意的是,消融研究证实了TEIR和EICL组件的重要性。此外,我们的新框架有潜力在真实临床咨询情况下显著提高患者满意度。 |
[23] 拒绝前思考:在大型语言模型中触发安全反思以减轻错误拒绝行为 标题: Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior 作者: Shengyun Si / Xinpeng Wang / Guangyao Zhai / Nassir Navab / Barbara Plank 原文: [英文] [中文] 备注: 18 pages, 23 figures 摘要: 最近在大型语言模型(LLMs)方面的进展表明,通过微调和人类对齐可以使LLMs变得无害。在实践中,这种“无害”行为主要通过训练模型拒绝有害请求来实现,例如“解释如何烧毁我邻居的房子”,模型会适当地拒绝回应。然而,这种方法可能会无意中导致错误拒绝,即模型也会拒绝良性查询,例如“告诉我如何终止一个Python进程”。在这项工作中,我们展示了在生成响应之前进行安全反思可以缓解错误拒绝行为。基于这一发现,我们引入了“拒绝前思考”(TBR)模式,并进行包含安全反思的安全感知指令微调。在对15个预训练模型的消融研究中,我们表明,与未进行安全反思微调的模型相比,经过安全反思微调的模型显著减少了错误拒绝行为,同时保持了安全性和整体性能。 |
[24] MedPlan:一种基于RAG的个性化医疗计划生成的两阶段系统 标题: MedPlan:A Two-Stage RAG-Based System for Personalized Medical Plan Generation 作者: Hsin-Ling Hsu / Cong-Tinh Dao / Luning Wang / Zitao Shuai / Thao Nguyen Minh Phan / Jun-En Ding / Chun-Chieh Liao / Pengfei Hu / Xiaoxue Han / Chih-Ho Hsu / Dongsheng Luo / Wen-Chih Peng / Feng Liu / Fang-Ming Hung / Chenwei Wu 原文: [英文] [中文] 备注: None 摘要: 尽管近年来在将大型语言模型(LLMs)应用于电子健康记录(EHR)方面取得了成功,但大多数系统主要关注评估而非治疗计划。我们识别出当前方法中的三个关键限制:它们在生成治疗计划时采用单次生成,而不是遵循临床医生使用的顺序推理过程;它们很少结合患者特定的历史背景;并且未能有效区分主观和客观的临床信息。受SOAP方法论(主观、客观、评估、计划)的启发,我们引入了MedPlan,这是一种新颖的框架,将LLM的推理结构化,以符合现实生活中临床医生的工作流程。我们的方法采用两阶段架构,首先基于患者症状和客观数据生成临床评估,然后通过检索增强生成,制定一个结构化的治疗计划,该计划由此评估提供信息并结合患者特定信息。综合评估表明,我们的方法在评估准确性和治疗计划质量方面显著优于基线方法。 |
[25] WindowKV:任务自适应分组式KV缓存窗口选择以实现高效LLM推理 标题: WindowKV: Task-Adaptive Group-Wise KV Cache Window Selection for Efficient LLM Inference 作者: Youhui Zuo / Sibo Wei / Chen Zhang / Zhuorui Liu / Wenpeng Lu / Dawei Song 原文: [英文] 备注: None 摘要: 随着大型语言模型(LLMs)在长上下文推理能力方面的进步,KV缓存已成为其基础组件之一。然而,其巨大的GPU内存消耗使得KV缓存压缩成为在工业场景中实现高效LLM推理的关键技术。尽管最近的研究集中在优化KV缓存占用的内存上,但它们忽视了两个关键因素:保持语义连贯性和在压缩过程中考虑任务特定特征。为了解决这些限制,我们提出了一种新颖的任务自适应KV缓存窗口选择方法,称为WindowKV。WindowKV根据任务特定特征动态选择由连续标记组成的局部语义窗口,确保保留的KV缓存捕获连续的、重要的上下文。此外,我们引入了一种组内层KV缓存索引共享策略,以减少计算开销,实现性能与效率之间的平衡。我们在LongBench基准上对WindowKV进行了严格评估,结果表明它在仅使用原始KV缓存12%的情况下,保持了与完整KV缓存保留相当的性能,显著降低了内存需求。此外,我们的方法在“针在大海捞针”评估中也达到了最先进的结果,突显了其有效性和鲁棒性。 |
[26] STShield:用于大型语言模型实时越狱检测的单标记哨兵 标题: STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models 作者: Xunguang Wang / Wenxuan Wang / Zhenlan Ji / Zongjie Li / Pingchuan Ma / Daoyuan Wu / Shuai Wang 原文: [英文] [中文] 备注: 11 pages 摘要: 大型语言模型(LLMs)越来越容易受到绕过其安全机制的越狱攻击。现有的防御方法要么在适应性攻击中表现不佳,要么需要计算代价高昂的辅助模型。我们提出了STShield,一种用于实时越狱判断的轻量级框架。STShield引入了一种新颖的单标记哨兵机制,该机制在模型的响应序列中附加一个二进制安全指示器,利用LLM自身的对齐能力进行检测。我们的框架结合了对正常提示的监督微调和使用嵌入空间扰动的对抗训练,实现了稳健的检测,同时保留了模型的实用性。大量实验表明,STShield成功防御了各种越狱攻击,同时保持了模型在合法查询上的性能。与现有方法相比,STShield以最小的计算开销实现了卓越的防御性能,使其成为现实世界LLM部署的实用解决方案。 |
[27] 利用电子健康记录进行经验检索增强实现准确的出院问答 标题: Experience Retrieval-Augmentation with Electronic Health Records Enables Accurate Discharge QA 作者: Justice Ou / Tinglin Huang / Yilun Zhao / Ziyang Yu / Peiqing Lu / Rex Ying 原文: [英文] [中文] 备注: None 摘要: 为了提高大型语言模型(LLMs)在临床应用中的可靠性,检索增强生成(RAG)被广泛应用于提供事实性医学知识。然而,除了来自开放数据集的一般医学知识外,基于临床案例的知识对于有效的医学推理也至关重要,因为它提供了基于真实患者经历的背景信息。基于此动机,我们提出了基于电子健康记录(EHR)的经验检索增强(ExpRAG)框架,旨在从其他患者的出院报告中提供相关背景。ExpRAG通过粗到细的过程进行检索,利用基于EHR的报告排序器高效识别相似患者,随后通过经验检索器提取与任务相关的内容,以增强医学推理。为了评估ExpRAG,我们引入了DischargeQA,这是一个包含1,280个与出院相关的问题的临床问答数据集,涵盖诊断、用药和指导任务。每个问题均使用EHR数据生成,以确保情境的真实性和挑战性。实验结果表明,ExpRAG始终优于基于文本的排序器,平均相对提升5.2%,这突显了基于案例的知识对于医学推理的重要性。 |
[28] 关于不完整性和模糊性在与大型语言模型交互中的作用的实证研究 标题: An Empirical Study of the Role of Incompleteness and Ambiguity in Interactions with Large Language Models 作者: Riya Naik / Ashwin Srinivasan / Estrid He / Swati Agarwal 原文: [英文] [中文] 备注: None 摘要: 自然语言作为人机交互的媒介早已被期待,并随着具有惊人语言处理和生成能力的大型语言模型(LLMs)的出现而经历了巨大的变化。我们中的许多人现在将LLMs视为现代的神谕,几乎可以向其询问任何类型的问题。与其德尔斐的前身不同,咨询LLM不必是单回合的活动(问一个问题,收到答案,然后离开);并且——也不同于皮提亚——人们普遍认为,LLM的答案可以通过额外的上下文得到改善。在本文中,我们旨在研究何时需要与LLM进行多回合交互才能成功地得到问题的答案;或者得出问题无法回答的结论。我们提出了一个神经符号框架,该框架模拟了人类和LLM代理之间的交互。通过所提出的框架,我们将问题中的不完整性和模糊性定义为可从交互中交换的信息中推导出的属性,并提供基准问题的结果,其中答案的正确性被证明取决于问题是否表现出不完整性或模糊性(根据我们识别的属性)。我们的结果表明,对于具有高比例不完整或模糊问题的数据集,通常需要多回合交互;并且增加交互长度具有减少不完整性或模糊性的效果。结果还表明,我们对不完整性和模糊性的度量可以作为表征与LLM在问答问题上交互的有用工具。 |
[29] SLIDE:用于文档提取的滑动局部信息 标题: SLIDE: Sliding Localized Information for Document Extraction 作者: Divyansh Singh / Manuel Nunez Martinez / Bonnie J. Dorr / Sonja Schmer Galunder 原文: [英文] [中文] 备注: None 摘要: 从长文本和低资源语言中构建准确的知识图谱具有挑战性,因为大型语言模型(LLMs)在处理较长输入块时性能会下降。在数据稀缺的低资源环境中,这一问题更加严重,因为数据不足会妨碍准确的实体和关系提取。尽管上下文检索方法可以提高检索准确性,但在处理长文档时仍然存在困难。它们会截断超过LLMs最大上下文长度的文本中的关键信息,极大地限制了知识图谱的构建。我们引入了SLIDE(用于文档提取的滑动局部信息),这是一种通过生成重叠窗口的局部上下文来处理长文档的分块方法。SLIDE确保保留重要的上下文信息,从而增强从超过LLM上下文限制的文档中提取知识图谱的能力。它显著提高了GraphRAG的性能,在英语中实现了实体提取提高24%和关系提取提高39%的效果。对于低资源语言南非荷兰语,SLIDE实现了实体提取提高49%和关系提取提高82%的效果。此外,它在全面性、多样性和赋能等问答指标上也超越了现有技术,展示了其在多语言和资源受限环境中的有效性。 |
[30] 获胜:建立韩国金融自然语言处理的最佳实践 标题: Won: Establishing Best Practices for Korean Financial NLP 作者: Guijin Son / Hyunwoo Ko / Haneral Jung / Chami Hwang 原文: [英文] [中文] 备注: The training dataset is uploaded here: this https URL. The model will be updated shortly 摘要: 在这项工作中,我们推出了首个专注于金融领域的韩语大型语言模型的开放排行榜。在大约八周的运营期间,该排行榜对1,119个提交进行了评估,评估内容基于一个封闭的基准,涵盖五个多项选择问答(MCQA)类别:金融与会计、股价预测、国内公司分析、金融市场、金融代理任务,以及一个开放式问答任务。基于这些评估的见解,我们发布了一个包含80,000个实例的开放指令数据集,并总结了在表现优异的模型中常见的训练策略。最后,我们介绍了Won,一个完全开放和透明的LLM,采用了这些最佳实践。我们希望我们的贡献能推动更好、更安全的金融LLM的发展,适用于韩语及其他语言。 |
[31] 理解RLHF对LLM生成文本质量和可检测性的影响 标题: Understanding the Effects of RLHF on the Quality and Detectability of LLM-Generated Texts 作者: Beining Xu / Arkaitz Zubiaga 原文: [英文] [中文] 备注: 14 pages, 3 figures 摘要: 大型语言模型(LLMs)在一系列下游自然语言处理任务中表现出色,能够生成与人类写作非常相似的文本。然而,这种相似性容易实现,引发了人们对不良行为者可能大规模恶意使用的担忧,因为LLM生成的文本越来越难以与人类文本区分开来。尽管已经开发了检测方法来解决这个问题,但不良行为者可以进一步操控LLM生成的文本,使其更难被检测到。在这项工作中,我们研究了通过人类反馈的强化学习(RLHF)进一步编辑文本的影响,这种方法使模型输出与人类偏好对齐,研究其对(a)两个任务的生成文本质量的影响,以及(b)LLM生成文本检测器的性能,考察基于训练和零样本检测方法。尽管RLHF提高了LLM生成文本的质量,我们发现它也倾向于产生更易检测、冗长且重复的输出。此外,我们观察到基于训练的检测器容易受到短文本和包含代码的文本的影响,而零样本检测器表现出更大的鲁棒性。 |
[32] 使用大型语言模型指导空间-时间序列预测的架构搜索 标题: Instructing the Architecture Search for Spatial-temporal Sequence Forecasting with LLM 作者: Xin Xue / Haoyi Zhou / Tianyu Chen / Shuai Zhang / Yizhou Long / Jianxin Li 原文: [英文] [中文] 备注: None 摘要: 空间-时间序列预测(STSF)是一个长期存在的研究问题,具有广泛的实际应用。神经网络架构搜索(NAS)能够自动化设计神经网络,已被证明在解决STSF问题上有效。然而,现有的用于STSF的NAS方法主要集中在以耗时的数据驱动方式生成架构,这极大地限制了它们利用背景知识和探索复杂搜索轨迹的能力。大型语言模型(LLM)在决策中表现出卓越的能力,具有全面的内部世界知识,但如何使其有益于STSF的NAS仍未被探索。在本文中,我们提出了一种基于LLM的新型STSF的NAS方法。我们没有直接用LLM生成架构,而是通过多层次增强机制激发LLM的能力。具体来说,在步骤层面,我们通过强大的提示工程将生成任务分解为决策步骤,并激发LLM作为架构搜索的指导者,基于其内部知识。在实例层面,我们利用一步调优框架快速评估架构实例,并使用记忆库积累知识以提高LLM的搜索能力。在任务层面,我们提出了一个两阶段架构搜索,平衡探索阶段和优化阶段,以减少陷入局部最优的可能性。广泛的实验结果表明,我们的方法在与现有的用于STSF的NAS方法相比时,能够以优越的效率实现竞争性的效果。 |
[33] 通过隐私保护的进化模型合并实现个性化语言模型 标题: Personalized Language Models via Privacy-Preserving Evolutionary Model Merging 作者: Kyuyoung Kim / Jinwoo Shin / Jaehyung Kim 原文: [英文] [中文] 备注: Preprint 摘要: 大型语言模型(LLMs)的个性化旨在根据个人用户或用户群体的偏好来定制模型。基于提示的方法通过增加用户偏好信息来增强查询,而基于训练的方法则直接将偏好编码到模型参数中,以实现更有效的个性化。尽管在个性化LLMs方面取得了一些成功,但之前的方法往往未能直接优化特定任务的指标,并且缺乏明确的隐私保护机制。为了解决这些限制,我们提出了一种通过进化算法进行隐私保护模型合并的方法(PriME),这是一种新颖的个性化方法,采用无梯度方法直接优化特定任务的指标,同时保护用户隐私。通过在优化中加入隐私保护,PriME生成了一个个性化模块,该模块能够有效捕捉目标用户的偏好,同时将共享私人信息的用户的隐私风险降到最低。在LaMP基准测试上的实验表明,PriME优于基于提示和基于训练的方法,相较于现有技术实现了高达45%的性能提升。进一步的分析表明,PriME在隐私与效用的权衡上显著更好,突显了进化方法在隐私保护的LLM个性化中的潜力。 |
[34] 研究近期大型语言模型在越南语机器阅读理解中的应用 标题: Investigating Recent Large Language Models for Vietnamese Machine Reading Comprehension 作者: Anh Duc Nguyen / Hieu Minh Phi / Anh Viet Ngo / Long Hai Trieu / Thai Phuong Nguyen 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在机器阅读理解(MRC)任务中表现出卓越的能力;然而,它们在越南语等低资源语言中的有效性仍然很少被探索。在本文中,我们对两种最先进的LLMs进行微调和评估:Llama 3(8B参数)和Gemma(7B参数),使用的是ViMMRC,一个越南语MRC数据集。通过利用量化低秩适应(QLoRA),我们高效地微调这些模型,并将其性能与强大的基于LLM的基线进行比较。尽管我们微调后的模型比GPT-3和GPT-3.5更小,但它们的表现优于传统的基于BERT的方法和这些更大的模型。这证明了我们的微调过程的有效性,展示了现代LLMs如何能够超越像BERT这样的旧模型的能力,同时仍适合在资源受限的环境中部署。通过深入分析,我们探讨了模型性能的各个方面,为适应像越南语这样的低资源语言的LLMs提供了宝贵的见解。我们的研究为低资源语言的自然语言处理的进步做出了贡献,并在此网址公开提供我们微调后的模型。 |
[35] 动态任务向量分组用于高效的多任务提示微调 标题: Dynamic Task Vector Grouping for Efficient Multi-Task Prompt Tuning 作者: Pieyi Zhang / Richong Zhang / Zhijie Nie 原文: [英文] [中文] 备注: Work in progress 摘要: 多任务提示微调利用多个高资源的源任务来提高低资源目标任务的性能。现有的方法通过结合所有源任务或单个“高相似”源任务一次性地传递软提示。然而,我们发现最佳的传递性能通常来自源任务的组合,这既不是单一任务也不是全部任务。此外,我们发现源任务和目标任务之间的相似性在传递后的微调过程中也会动态变化,使得在初始阶段进行的相似性计算不足以应对这些变化。为了解决这些问题,我们提出了一种称为动态任务向量分组(DTVG)的方法,其核心思想包括:(1) 用任务向量而不是软提示来衡量任务相似性,(2) 基于两个指标:目标相似性和知识一致性,来分组最佳的源任务组合;(3) 在每个迭代步骤中动态更新组合。在26个NLP数据集上的不同设置下进行的大量实验表明,DTVG能够有效地分组相似的源任务,同时减少负迁移,实现了最先进的性能。 |
[36] 对于训练推理模型来说,长比难更重要 标题: Long Is More Important Than Difficult for Training Reasoning Models 作者: Si Shen / Fei Huang / Zhixiao Zhao / Chang Liu / Tiansheng Zheng / Danhao Zhu 原文: [英文] [中文] 备注: 15 pages,6 figures 摘要: 困难问题通常会导致较长的推理过程,被广泛认为是提高推理模型性能的关键因素。然而,这种高难度问题较为稀缺,限制了可用数据集的规模。在本文中,我们提出了一种简单的方法来减少对问题难度的依赖。首先,我们通过实验证明推理长度而非问题难度主要影响训练模型的性能。其次,我们识别出推理长度的一个缩放规律,显示模型性能随着推理数据长度的增长呈现对数线性增长。最后,我们介绍了一种简单的技术来生成任意长度的推理数据,并证明合成数据对于训练推理模型是有效的。在对Qwen2.5-32B-Instruct语言模型进行Long1K数据集微调后,我们推出了我们的模型Long1K-32B,该模型仅使用1,000个训练样本便取得了显著的性能,在MATH上达到95.6%的准确率,在GPQA上达到71.1%,超越了DeepSeek-R1-Distill-Qwen-32B。模型、代码和数据集均已开源,可在此https URL获取。 |
[37] 心灵之眼:从语言推理到多模态推理 标题: Mind with Eyes: from Language Reasoning to Multimodal Reasoning 作者: Zhiyu Lin / Yifei Gao / Xian Zhao / Yunfan Yang / Jitao Sang 原文: [英文] [中文] 备注: None 摘要: 语言模型最近在推理领域取得了进展,但通过多模态推理,我们才能充分释放其潜力,实现更全面、更类似人类的认知能力。本文综述系统地概述了近期多模态推理的方法,将其分为两个层次:以语言为中心的多模态推理和协作多模态推理。前者包括一次性视觉感知和主动视觉感知,其中视觉主要在语言推理中起辅助作用。后者涉及推理过程中的动作生成和状态更新,实现模态之间更动态的交互。此外,我们分析了这些方法的技术演变,讨论了其固有的挑战,并介绍了评估多模态推理性能的关键基准任务和评估指标。最后,我们从以下两个角度提供了对未来研究方向的见解:(i)从视觉-语言推理到全模态推理,(ii)从多模态推理到多模态智能体。本文综述旨在提供一个结构化的概述,以激发多模态推理研究的进一步进展。 |
[38] 关于大型语言模型在自动评分西班牙语开放性问题中的有效性 标题: On the effectiveness of LLMs for automatic grading of open-ended questions in Spanish 作者: Germán Capdehourat / Isabel Amigo / Brian Lorenzo / Joaquín Trigo 原文: [英文] 备注: None 摘要: 评分是教育工作者必须面对的一项耗时且费力的任务。这是一项重要的任务,因为它为学习者提供反馈信号,并且已证明及时反馈可以改善学习过程。近年来,大型语言模型(LLMs)的出现揭示了自动评分的有效性。在本文中,我们探讨了不同LLMs和提示技术在自动评分开放性问题的简短文本答案中的表现。与大多数文献不同,我们的研究集中在一个使用案例中,其中问题、答案和提示都是用西班牙语进行的。实验结果将自动评分与人类专家评估者的评分进行比较,显示出在准确性、精确性和一致性方面的良好结果,尤其是对于先进的LLMs,无论是开源的还是专有的。结果对提示风格特别敏感,表明对提示中的某些词或内容存在偏见。然而,最佳的模型和提示策略组合在三等级评分任务中始终超过95%的准确率,当简化为二元对错评分问题时,准确率甚至超过98%,这表明LLMs在教育应用中实现此类自动化的潜力。 |
[39] 一种用于分类的多模型适应性推测解码 标题: A Multi-Model Adaptation of Speculative Decoding for Classification 作者: Somnath Roy / Padharthi Sreekar / Srivatsa Narasimha / Anubhav Anand 原文: [英文] [中文] 备注: None 摘要: 本研究介绍了一种新颖的推测解码适应方法,将其从生成任务重新用于分类任务。我们提出了一个多模型框架,使用多达三个轻量级的工作模型和一个更强大的判断模型,分别类似于推测解码中的草稿模型和目标模型。工作模型负责大部分计算,独立预测给定输入的离散类别标签。当大多数工作模型对某个标签达成一致时,该标签被接受为最终标签,从而通过绕过计算昂贵的判断模型来优化效率。在出现分歧的情况下,判断模型介入以解决标签问题。这种方法最大限度地减少了冗余计算,利用多个工作模型的冗余性来增强信心,并将判断模型的角色限制在具有挑战性的案例中,提供了效率和准确性之间的实用平衡。我们的分析表明,经过指令/聊天微调的小型3B参数工作模型在简单和高阶推理任务中,与判断模型的对齐程度可与较大的7B参数微调工作模型相媲美。表现最佳的3B工作模型对在情感分析任务中与判断模型的协议率约为80-83%,在类似票据任务中约为50-80%。此外,3B工作模型相对于判断模型提供了2.8倍到9倍的加速,而7B工作模型组合实现了1.28倍到0.28倍的加速。 |
[40] 临床文本中的时间关系抽取:一种基于跨度的图变换器方法 标题: Temporal Relation Extraction in Clinical Texts: A Span-based Graph Transformer Approach 作者: Rochana Chaturvedi / Peyman Baghershahi / Sourav Medya / Barbara Di Eugenio 原文: [英文] [中文] 备注: Introducing a novel method for joint extraction of medical events and temporal relations from free-text, leveraging clinical LPLMs and Heterogeneous Graph Transformers, achieving a 5.5% improvement over the previous state-of-the-art and up to 8.9% on long-range relations 摘要: 从非结构化文本中提取时间信息对于将事件置于上下文中并得出可操作的见解至关重要,尤其是在医学领域。我们使用研究充分的I2B2 2012时间关系挑战语料库来解决提取临床事件及其时间关系的任务。由于复杂的临床语言、冗长的文档和稀疏的注释,这项任务本质上具有挑战性。我们引入了GRAPHTREX,这是一种新颖的方法,结合了基于跨度的实体关系提取、临床大型预训练语言模型(LPLMs)和异构图转换器(HGT),以捕捉局部和全局依赖关系。我们的HGT组件通过创新的全局标志桥接远距离实体,促进了文档中信息的传播。我们的方法在tempeval $F_1$得分上比之前的最佳结果提高了5.5%,在长距离关系上提高了最多8.9%,这构成了一个巨大的挑战。这项工作不仅推进了时间信息提取,还通过增强的时间推理为改进的诊断和预后模型奠定了基础。 |
[41] 数据驱动的LoRA初始化用于低资源任务 标题: $D^2LoRA$: Data-Driven LoRA Initialization for Low Resource Tasks 作者: Javad SeraJ / Mohammad Mahdi Mohajeri / Mohammad Javad Dousti 原文: [英文] [中文] 备注: None 摘要: 调整大型语言模型对于优化其在各种应用中的性能至关重要,特别是在数据可用性有限的情况下。在数据稀缺的场景中调整大型语言模型尤为重要,尤其是考虑到LoRA方法的收敛速度低于完全微调。在本文中,我们分析了包括监督微调(SFT)、直接偏好优化(DPO)和赔率比偏好优化(ORPO)在内的后训练方法,并在使用LoRA方法进行任务特定学习的背景下进行探讨。接下来,我们介绍了$D^2LoRA$,这是一种数据驱动的方法,用于初始化LoRA指标,从而提高训练效率,特别是在数据有限的环境中。我们的实验在极端数据受限条件下比较了$D^2LoRA$与普通LoRA的性能和灾难性遗忘。结果表明,$D^2LoRA$在GSM8K基准测试中实现了1%的改进,并在标题生成任务中提高了2点的ROUGE分数。$D^2LoRA$促进了LLMs在任务特定数据稀缺的情况下适应多任务,从而降低了训练费用并提供了数据成本。 |
[42] 澄清对COVID-19疫苗情感和立场分析的误解及其对减轻疫苗犹豫的影响:一项系统综述 标题: Clarifying Misconceptions in COVID-19 Vaccine Sentiment and Stance Analysis and Their Implications for Vaccine Hesitancy Mitigation: A Systematic Review 作者: Lorena G Barberia / Belinda Lombard / Norton Trevisan Roman / Tatiane C. M. Sousa 原文: [英文] 备注: 14 pages, 3 figures, 4 tables 摘要: 背景:机器学习(ML)模型的进步提高了研究人员使用自然语言处理(NLP)在社交媒体上检测疫苗犹豫的能力。大量研究已经识别出在各种社交媒体平台上共享的讨论中,COVID-19疫苗犹豫的持续存在。方法:本研究的目标是系统性地回顾使用情感分析或立场检测来研究在推特(自2023年起正式称为X)上关于COVID-19疫苗和疫苗接种传播的讨论的研究。我们在PROSPERO国际系统评价注册库中注册后,搜索了2020年1月1日至2023年12月31日期间发表的论文,这些论文使用监督机器学习通过立场检测或情感分析评估推特上的COVID-19疫苗犹豫。我们根据五个维度的分类法对研究进行了分类:推文样本选择方法、自我报告的研究类型、分类类型、注释手册定义和结果解释。我们通过检查COVID-19疫苗犹豫的测量方式以及是否努力避免测量偏差,分析使用立场检测的研究是否报告了与使用情感分析的研究不同的犹豫趋势。结果:我们的回顾发现,在使用监督机器学习分析对COVID-19疫苗和疫苗接种的情感和立场的研究中,测量偏差普遍存在。报告错误严重到足以妨碍这些研究的普遍性和解释性,以理解个人意见是否传达了对接种SARS-CoV-2疫苗的犹豫。结论:改进NLP方法的报告对于解决疫苗犹豫讨论中的知识空白至关重要。 |
[43] 使用基于Transformer的语言模型检测社交媒体上的索马里语假新闻和有害信息 标题: Detection of Somali-written Fake News and Toxic Messages on the Social Media Using Transformer-based Language Models 作者: Muhidin A. Mohamed / Shuab D. Ahmed / Yahye A. Isse / Hanad M. Mohamed / Fuad M. Hassan / Houssein A. Assowe 原文: [英文] [中文] 备注: None 摘要: 由于每个人都可以通过社交媒体账户创建和分享内容,加之公众越来越依赖社交媒体平台作为新闻和信息来源,这带来了诸如错误信息、假新闻、有害内容等重大挑战。尽管人工内容审核在一定程度上有用,并被这些平台用于标记发布的材料,但使用人工智能模型提供了一种更可持续、可扩展和有效的方法来缓解这些有害内容。然而,像索马里语这样的低资源语言在人工智能自动化方面面临限制,包括缺乏标注的训练数据集和缺乏针对其独特语言特征量身定制的语言模型。本文介绍了我们正在进行的研究工作的一部分,旨在弥合索马里语在这些方面的一些差距。具体而言,我们创建了两个由人类标注的社交媒体来源的索马里语数据集,用于两个下游应用:假新闻和有害内容分类,并开发了一种基于转换器的单语索马里语语言模型(名为SomBERTa)——据我们所知,这是首个此类模型。然后对SomBERTa进行微调,并在有害内容、假新闻和新闻主题分类数据集上进行评估。对所提出模型与相关多语言模型(如AfriBERTa、AfroXLMR等)的比较评估分析表明,SomBERTa在假新闻和有害内容分类任务中始终优于这些比较对象,同时在所有任务中实现了最佳平均准确率(87.99%)。这项研究通过提供一个基础语言模型和一个可复制的框架,为其他低资源语言促进数字和人工智能包容性及语言多样性,为索马里语自然语言处理做出了贡献。 |
[44] GeoBenchX:多步骤地理空间任务的大型语言模型基准测试 标题: GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks 作者: Varvara Krechetova / Denis Kochedykov 原文: [英文] [中文] 备注: Github with code and benchmark set: this https URL 摘要: 在本文中,我们建立了一个基准,用于评估大型语言模型(LLMs)在与商业GIS从业者相关的多步骤地理空间任务中的表现。我们使用一个简单的工具调用代理,配备了23个地理空间功能,评估了七个领先的商业LLMs(Sonnet 3.5和3.7,Haiku 3.5,Gemini 2.0,GPT-4o,GPT-4o mini和o3-mini)。我们的基准包括四个类别的任务,复杂性逐渐增加,包含可解决和故意不可解决的任务,以测试幻觉拒绝能力。我们开发了一个LLM-as-Judge评估框架,以比较代理解决方案与参考实现。结果显示,Sonnet 3.5和GPT-4o在整体表现上取得了最佳成绩,Claude模型在可解决任务上表现出色,而OpenAI模型更好地识别不可解决的场景。我们观察到在令牌使用上存在显著差异,Anthropic模型消耗的令牌明显多于竞争对手。常见错误包括误解几何关系、依赖过时知识和低效的数据处理。最终的基准集、评估框架和数据生成管道作为开源资源发布,为持续评估GeoAI的LLMs提供了一种更标准化的方法。 |
[45] MathAgent:利用多数学代理框架进行真实世界多模态数学错误检测 标题: MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection 作者: Yibo Yan / Shen Wang / Jiahao Huo / Philip S. Yu / Xuming Hu / Qingsong Wen 原文: [英文] [中文] 备注: Work In Progress 摘要: 在教育环境中检测数学错误对多模态大型语言模型(MLLMs)来说是一个重大挑战,这需要对视觉和文本数学内容的复杂理解以及复杂的推理能力。尽管MLLMs在数学问题解决方面表现有效,但在识别和分类多模态数学背景下的学生错误这一细微任务上常常遇到困难。因此,我们引入了MathAgent,这是一种专门为应对这些挑战而设计的新型数学代理混合框架。我们的方法将错误检测分解为三个阶段,每个阶段由一个专门的代理处理:图文一致性验证器、视觉语义解释器和综合错误分析器。该架构通过明确建模多模态问题与学生解题步骤之间的关系,使数学内容的处理更加准确。我们在真实的教育数据上评估了MathAgent,结果显示在错误步骤识别上准确率提高了约5%,在错误分类上提高了3%,相较于基线模型。此外,MathAgent已成功部署在一个服务超过一百万K-12学生的教育平台上,实现了近90%的学生满意度,同时通过减少人工错误检测显著节省了成本。 |
[46] 评估神经主题模型的负采样方法 标题: Evaluating Negative Sampling Approaches for Neural Topic Models 作者: Suman Adhya / Avishek Lahiri / Debarshi Kumar Sanyal / Partha Pratim Das 原文: [英文] [中文] 备注: Code is available at: this https URL 摘要: 负采样作为一种有效的技术,通过引入“学习比较”的范式,使深度学习模型能够学习更好的表示。该方法的目标是通过将正样本与负样本进行比较,增强深度学习模型的鲁棒性,以学习更好的表示。尽管负采样在计算机视觉和自然语言处理的多个领域中有着众多的应用,但在诸如主题建模这样的无监督领域中,负采样的效果尚未得到充分研究。在本文中,我们对不同负采样策略对神经主题模型的影响进行了全面分析。我们通过在基于变分自编码器的神经主题模型的解码器中引入负采样技术,比较了几种流行的神经主题模型的性能。在四个公开数据集上的实验表明,将负采样整合到主题模型中,在多个方面取得了显著的提升,包括提高主题一致性、丰富主题多样性以及更准确的文档分类。人工评估也表明,将负采样引入神经主题模型提高了生成主题的质量。这些发现突显了负采样作为一种有价值工具的潜力,可以提升神经主题模型的有效性。 |
[47] 揭示欺骗性视觉:在误导性图表问答中对多模态大型语言模型进行基准测试 标题: Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering 作者: Zixin Chen / Sicheng Song / Kashun Shum / Yanna Lin / Rui Sheng / Huamin Qu 原文: [英文] [中文] 备注: 31 pages in total. Under Review For ARR 摘要: 误导性图表可视化通过故意操纵数据表示来支持特定主张,从而扭曲人们的认知并导致错误的结论。尽管经过数十年的研究,误导性可视化仍然是一个普遍且紧迫的问题。最近在多模态大语言模型(MLLMs)方面的进展显示了其强大的图表理解能力,但目前尚无系统性评估其检测和解释误导性图表能力的工作。本文介绍了误导性图表问答(Misleading ChartQA)基准,这是一个大规模多模态数据集,旨在评估MLLMs在识别和推理误导性图表方面的能力。该数据集包含超过3000个精心策划的示例,涵盖21种误导类型和10种图表类型。每个示例包括标准化的图表代码、CSV数据以及带有标记解释的多项选择题,并通过多轮MLLM检查和详尽的专家人工审查进行验证。我们在数据集上对16个最先进的MLLMs进行了基准测试,揭示了它们在识别视觉欺骗行为方面的局限性。我们还提出了一种新颖的流程,能够检测和定位误导因素,提高MLLMs在误导性图表解释中的准确性。我们的工作为推进基于MLLM的误导性图表理解奠定了基础。我们公开发布了样本数据集,以支持在这一关键领域的进一步研究。 |
[48] GINGER:基于信息块的响应生成 标题: GINGER: Grounded Information Nugget-Based Generation of Responses 作者: Weronika Łajewska / Krisztian Balog 原文: [英文] [中文] 备注: None 摘要: 检索增强生成(RAG)面临与事实正确性、来源归属和响应完整性相关的挑战。为了解决这些问题,我们提出了一种模块化流程,用于基于信息块的响应生成。信息块是从检索到的文档中提取的相关信息的最小原子单位。这个多阶段流程包括信息块检测、聚类、排序、顶级聚类总结和流畅性增强。它保证了对具体事实的依托,促进了来源归属,并在长度限制内确保最大的信息包含。基于TREC RAG'24数据集进行的大量实验,使用AutoNuggetizer框架评估,结果表明GINGER在这一基准上达到了最先进的性能。 |
[49] 使用非负矩阵分解探索COVID-19研究文献中的主题趋势 标题: Exploring Topic Trends in COVID-19 Research Literature using Non-Negative Matrix Factorization 作者: Divya Patel / Vansh Parikh / Om Patel / Agam Shah / Bhaskar Chaudhury 原文: [英文] [中文] 备注: None 摘要: 在这项工作中,我们使用非负矩阵分解(NMF)对COVID-19开放研究数据集(CORD-19)进行主题建模,以揭示COVID-19研究文献中潜在的主题结构及其演变。NMF将文档-词项矩阵分解为两个非负矩阵,有效地表示主题及其在文档中的分布。这帮助我们了解文档与主题的关联程度以及主题与词语的关联程度。我们描述了完整的方法论,其中包括一系列严格的预处理步骤,以标准化可用的文本数据,同时保留短语的上下文,随后使用词频-逆文档频率(tf-idf)进行特征提取,该方法根据词语在数据集中的频率和稀有性分配权重。为了确保我们主题模型的稳健性,我们进行了稳定性分析。此过程评估了NMF主题模型在不同主题数量下的稳定性得分,使我们能够选择分析的最佳主题数量。通过我们的分析,我们追踪了CORD-19数据集中主题随时间的演变。我们的研究结果有助于理解COVID-19研究领域的知识结构,为该领域的未来研究提供了宝贵的资源。 |
[50] LakotaBERT:一种基于Transformer的低资源拉科塔语模型 标题: LakotaBERT: A Transformer-based Model for Low Resource Lakota Language 作者: Kanishka Parankusham / Rodrigue Rizk / KC Santosh 原文: [英文] [中文] 备注: None 摘要: 拉科塔语是北美苏族人民的一种濒危语言,由于年轻一代流利程度下降而面临重大挑战。本文介绍了LakotaBERT,这是首个为拉科塔语量身定制的大型语言模型(LLM),旨在支持语言复兴工作。我们的研究有两个主要目标:(1)创建一个全面的拉科塔语语料库;(2)开发一个定制的拉科塔语LLM。我们编制了一个多样化的语料库,包括来自各种来源的105K句子,涵盖拉科塔语、英语和并行文本,如书籍和网站,强调拉科塔语言的文化意义和历史背景。利用RoBERTa架构,我们对模型进行了预训练,并与已建立的模型如RoBERTa、BERT和多语言BERT进行了比较评估。初步结果显示,在单一真实值假设下,模型的掩码语言建模准确率为51%,表现与基于英语的模型相当。我们还使用其他指标如精确度和F1分数对模型进行了评估,以提供其能力的全面评估。通过整合人工智能和语言学方法,我们希望增强语言多样性和文化韧性,为利用技术复兴其他濒危土著语言树立有价值的先例。 |
[51] 《梵歌的映射与组织概念:定量连接吠陀颂歌》 标题: Mapping Hymns and Organizing Concepts in the Rigveda: Quantitatively Connecting the Vedic Suktas 作者: Venkatesh Bollineni / Igor Crk / Eren Gultepe 原文: [英文] [中文] 备注: Accepted to NLP4DH 2025 at NAACL 2025 摘要: 由于《梨俱吠陀》使用极为古老的梵语、具有诗意的结构以及庞大的文本量,获取和理解其内容是一项不小的挑战。通过使用自然语言处理技术,本研究识别了《梨俱吠陀》中赞美诗的主题和语义连接,并与七个著名的赞美诗分组进行了验证。研究中使用 Jamison 和 Brereton 的现代英文翻译版本,对《梨俱吠陀》的1,028首赞美诗(sukta)进行了预处理,并通过以下方法获得了赞美诗级别的嵌入:i) 本文提出的一种新颖的LSA(潜在语义分析)改编方法,ii) SBERT,和 iii) Doc2Vec 嵌入。在对向量进行 UMAP 降维后,使用 k-近邻方法形成了赞美诗的网络。随后,使用 Louvain、Leiden 和标签传播方法对赞美诗网络中的主题进行了社区检测,并使用适当的零分布确定所形成主题的统计显著性。只有使用 Leiden 方法的新颖 LSA 改编方法检测到的赞美诗主题网络具有显著性(z = 2.726, p < .01),模块度得分为 0.944。在分析的七个著名赞美诗分组(如创世、葬礼、水等)中,LSA 派生的网络在所有七种情况下均取得了成功,而 Doc2Vec 则不显著且未能检测到相关的赞美诗。SBERT 检测到四个著名的赞美诗作为独立的组,但错误地将其中三个合并为一个混合组。此外,SBERT 网络在统计上不显著。 |
[52] ShED-HD:一种用于边缘设备轻量级幻觉检测的香农熵分布框架 标题: ShED-HD: A Shannon Entropy Distribution Framework for Lightweight Hallucination Detection on Edge Devices 作者: Aneesh Vathul / Daniel Lee / Sheryl Chen / Arthi Tasmia 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在广泛的自然语言处理任务中展示了令人印象深刻的能力,但它们产生幻觉的倾向——即听起来合理但在事实上不正确的内容——在高风险领域中带来了严峻的挑战。现有的幻觉检测方法要么承受多次推理的计算成本,要么在单次推理方法中为了效率而牺牲准确性,这两者在资源受限的环境(如边缘设备)中都不理想。我们提出了香农熵分布幻觉检测器(ShED-HD),这是一种新颖的幻觉检测框架,通过使用轻量级的双向长短期记忆(BiLSTM)架构和单头注意力机制来分类序列级别的熵模式,从而弥合这一差距。与之前的方法相比,ShED-HD 能够高效地检测整个输出序列中的独特不确定性模式,同时保持上下文意识。通过对三个数据集(BioASQ、TriviaQA 和 Jeopardy Questions)的深入评估,我们表明 ShED-HD 在分布外设置中显著优于其他计算效率高的方法,同时在分布内设置中实现了可比的性能。ShED-HD 促进了低成本、准确且可推广的幻觉检测,提高了在资源受限环境中由 LLMs 生成的内容的可信度,在这些环境中,可信的人工智能功能至关重要。 |
[53] AfroXLMR-Social:为非洲语言社交媒体文本调整预训练语言模型 标题: AfroXLMR-Social: Adapting Pre-trained Language Models for African Languages Social Media Text 作者: Tadesse Destaw Belay / Israel Abebe Azime / Ibrahim Said Ahmad / Idris Abdulmumin / Abinew Ali Ayele / Shamsuddeen Hassan Muhammad / Seid Muhie Yimam 原文: [英文] [中文] 备注: None 摘要: 预训练语言模型(PLMs)是当今自然语言处理进步的基础,这些模型是从各种来源构建的。通过这些模型学习到的语言表示在许多任务中表现出色,这些任务的数据集大小不一,来源各异。我们对低资源非洲语言的领域和任务自适应持续预训练方法进行了深入分析,并在评估的任务中显示出有希望的结果。我们创建了AfriSocial,这是一个为领域自适应微调设计的语料库,经过了高质量的预处理步骤。使用AfriSocial作为领域自适应预训练(DAPT)数据进行持续预训练的PLMs,在16种目标语言的细粒度情感分类任务中,性能从1%到28.27%的宏F1分数得到了持续提升。同样地,使用任务自适应预训练(TAPT)方法,进一步用小规模的无标签但相似任务数据进行微调,显示出有希望的结果。例如,用于细粒度情感分类任务(目标)的无标签情感数据(来源)将基础模型的结果提升了0.55%到15.11%的F1分数。结合这两种方法,DAPT + TAPT,也比基础模型取得了更好的结果。所有资源将可用于改善低资源自然语言处理任务,通常情况下,以及其他类似领域任务,如仇恨言论和情感任务。 |
[54] PAD:通过短语对齐实现高效数据生成以用于迁移学习 标题: PAD: Towards Efficient Data Generation for Transfer Learning Using Phrase Alignment 作者: Jong Myoung Kim / Young-Jun_Lee / Ho-Jin Choi / Sangkeun Jung 原文: [英文] [中文] 备注: Preparing for conference 摘要: 迁移学习利用丰富的英语数据来解决非英语语言(如韩语)建模中资源匮乏的问题。在本研究中,我们探讨了从标准统计机器翻译(SMT)中获得的短语对齐数据(PAD)在提高迁移学习效率方面的潜力。通过大量实验,我们证明了PAD能够有效地与韩语的句法特征协同工作,减轻SMT的弱点,并显著提高模型性能。此外,我们发现PAD可以补充传统的数据构建方法,并在结合使用时增强其效果。这种创新的方法不仅提升了模型性能,还为资源匮乏的语言提供了一种具有成本效益的解决方案。 |
[55] 增强对埃塞俄比亚语言的多标签情感分析及其对应强度 标题: Enhancing Multi-Label Emotion Analysis and Corresponding Intensities for Ethiopian Languages 作者: Tadesse Destaw Belay / Dawit Ketema Gete / Abinew Ali Ayele / Olga Kolesnikova / Grigori Sidorov / Seid Muhie Yimam 原文: [英文] [中文] 备注: None 摘要: 在这个数字化世界中,人们通过不同的社交媒体平台自由表达他们的情感。因此,建模和整合情感理解模型对于各种人机交互任务至关重要,例如决策制定、产品和客户反馈分析、政治宣传、市场研究和社交媒体监控。由于用户在单个实例中同时表达不同的情感,在多标签设置中对情感进行标注(如 EthioEmo 数据集)能够有效捕捉这种动态。此外,情感强度或情感程度的融入也至关重要,因为情感在表达强度和影响上可能存在显著差异。情感强度对于评估在决策过程中是否需要进一步行动尤其重要,特别是在涉及医疗保健和心理健康研究等应用中的负面情感时。为了增强 EthioEmo 数据集,我们为每个标注的情感添加了强度标注。此外,我们评估了各种最先进的仅编码器预训练语言模型(PLMs)和仅解码器的大型语言模型(LLMs),以提供全面的基准测试。 |
[56] 情感与建筑的桥梁:现代分布式系统中的情感分析 标题: Bridging Emotions and Architecture: Sentiment Analysis in Modern Distributed Systems 作者: Mahak Shah / Akaash Vishal Hazarika / Meetu Malhotra / Sachin C. Patil / Joshit Mohanty 原文: [英文] [中文] 备注: IEEE 3rd International Conference on Advancements in Smart, Secure and Intelligent Computing (ASSIC) 摘要: 情感分析是自然语言处理领域中的一个重要分支,因为它在社交媒体监控、客户反馈评估和市场研究等多个领域中得到了应用。同时,分布式系统允许有效处理大量数据。因此,本文通过关注不同的方法、挑战和未来研究,探讨了情感分析如何与分布式系统融合。此外,我们进行了广泛的实验,使用单节点配置和分布式架构训练情感分析模型,以揭示每种方法在性能和准确性方面的优缺点。 |
[57] Sun-Shine:一个用于藏文化的大型语言模型 标题: Sun-Shine: A Large Language Model for Tibetan Culture 作者: Cheng Huang / Fan Gao / Nyima Tashi / Yutong Liu / Xiangxiang Wang / Thupten Tsering / Ban Ma-bao / Renzeg Duojie / Gadeng Luosang / Rinchen Dongrub / Dorje Tashi / Xiao Feng / Yongbin Yu 原文: [英文] 备注: None 摘要: 藏语是中国的一种少数民族语言,具有高度复杂的语法结构,其特点是拥有四种动词时态和一个经常出现不规则变化的时态系统,这使得藏语的屈折变化多样性极为丰富。近年来,大型语言模型(LLMs)的进步在许多领域改变了范式。尽管在其他领域取得了成功,但当前的LLMs往往无法满足像藏族这样的领域专家的需求,LLMs在藏族文化中的潜力尚未得到充分探索。其内在原因在于藏族文化的庞大和复杂性,以及对更高粒度和丰富知识的需求。同时,其语法结构的复杂性和独特性,加上作为少数民族语言的地位,导致数据稀缺,这仍然是一个根本性的挑战。为了解决这些问题,我们引入了Llama-Sunshine(Sun-Shine),这是第一个针对藏族文化的大型语言模型,擅长各种藏语处理任务。Sun-Shine结合了针对藏语语言特征优化的最先进的模型架构。我们还提出了TIB-STC,一个综合数据集,包含多样的藏文文本,如文学、宗教文献、新闻和对话数据,这也是第一个大规模的藏族文化数据集。通过全面的实验,Sun-Shine不仅展示了对藏族文化更高水平的知识专长,还在藏语处理任务中获得了初步的具身智能能力,如语言建模、文本分类、机器翻译和句法分析。此外,它在低资源场景中表现出色,展现了强大的泛化能力。 |
[58] 数据集制图何时无效?使用训练动态无法提高对抗性SQuAD的鲁棒性 标题: When is dataset cartography ineffective? Using training dynamics does not improve robustness against Adversarial SQuAD 作者: Paul K. Mandal 原文: [英文] [中文] 备注: 5 pages, 3 figures, 4 tables 摘要: 在本文中,我研究了数据集制图在SQuAD数据集上的抽取式问答任务中的有效性。我首先分析了SQuAD中的标注特征,并评估了两个对抗性数据集AddSent和AddOneSent对ELECTRA-small模型的影响。通过训练动态,我将SQuAD划分为易学、模糊和难学的子集。然后,我将这些子集上训练的模型性能与在随机选择的等大小样本上训练的模型进行比较。结果表明,在基于制图的子集上训练并不能提高对SQuAD验证集或AddSent对抗集的泛化能力。虽然难学子集在AddOneSent数据集上获得了略高的F1分数,但总体收益有限。这些发现表明,数据集制图对SQuAD风格的问答任务中的对抗性鲁棒性几乎没有帮助。我最后将这些结果与之前在SNLI上的发现进行比较,并讨论了观察到的差异的可能原因。 |
[59] 事实核查AI生成的新闻报道:大型语言模型能否识别自己的谎言? 标题: Fact-checking AI-generated news reports: Can LLMs catch their own lies? 作者: Jiayi Yao / Haibo Sun / Nianwen Xue 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们评估了大型语言模型(LLMs)在评估由自身或其他LLMs生成的“新闻报道”中声明真实性的能力。我们的目标是确定LLMs是否能够有效地核查其自身内容的事实,使用类似于验证人类声明的方法。我们的研究结果表明,LLMs在评估国家或国际新闻故事中的声明比在地方新闻故事中的声明更有效,在评估静态信息比动态信息更有效,并且在验证真实声明比虚假声明更有效。我们假设这种差异是因为前者类型的声明在训练数据中有更好的表示。此外,我们发现,在检索增强生成(RAG)设置中结合搜索引擎检索结果显著减少了LLM无法评估的声明数量。然而,这种方法也增加了错误评估的发生,部分原因是检索结果不相关或质量低下。这项诊断研究强调了未来研究需要优先改善检索信息的精确性和相关性,以更好地支持事实核查工作。此外,关于动态事件和地方新闻的声明可能需要人类参与的事实核查系统以确保准确性和可靠性。 |
[60] 使用大型语言模型进行手术操作规划 标题: Surgical Action Planning with Large Language Models 作者: Mengya Xu / Zhongzhen Huang / Jie Zhang / Xiaofan Zhang / Qi Dou 原文: [英文] [中文] 备注: 10 pages,4 figures 摘要: 在机器人辅助微创手术中,我们引入了手术动作规划(SAP)任务,该任务通过视觉输入生成未来的动作计划,以解决当前智能应用中缺乏术中预测规划的问题。SAP在增强术中指导和自动化程序方面显示出巨大潜力。然而,它面临着理解器械动作关系和跟踪手术进展等挑战。大型语言模型(LLMs)在理解手术视频内容方面显示出潜力,但在SAP中的预测决策方面仍未被充分探索,因为它们主要关注回顾性分析。数据隐私、计算需求和特定模态约束等挑战进一步突显了显著的研究空白。为应对这些挑战,我们引入了LLM-SAP,一个基于大型语言模型的手术动作规划框架,通过解释手术目标的自然语言提示来预测未来动作并生成文本响应。这些文本响应可能支持手术教育、术中决策、程序记录和技能分析。LLM-SAP集成了两个新模块:用于建模历史状态的近历史聚焦记忆模块(NHF-MM)和用于动作规划的提示工厂。我们使用Qwen2.5和Qwen2-VL等模型在我们构建的CholecT50-SAP数据集上评估LLM-SAP,展示其在下一步动作预测中的有效性。预训练的LLMs进行零样本测试,并实施了使用LoRA的监督微调(SFT)以解决数据隐私问题。我们的实验表明,Qwen2.5-72B-SFT的准确性比Qwen2.5-72B高出19.3%。 |
[61] J&H:评估法律领域中大型语言模型在知识注入攻击下的稳健性 标题: J&H: Evaluating the Robustness of Large Language Models Under Knowledge-Injection Attacks in Legal Domain 作者: Yiran Hu / Huanghai Liu / Qingjing Chen / Ning Zheng / Chong Wang / Yun Liu / Charles L.A. Clarke / Weixing Shen 原文: [英文] [中文] 备注: 10 pages, 5 figures 摘要: 随着大型语言模型(LLMs)的规模和能力的提升,它们在法律等知识密集领域的应用引起了广泛关注。然而,这些LLMs是否基于领域知识进行推理判断仍然存疑。如果LLMs仅仅依赖特定的词汇或模式,而不是语言的内在逻辑来做出判断,那么“LLM作为法官”的范式在实际应用中将带来巨大的风险。为了解决这个问题,我们提出了一种法律知识注入攻击的方法用于鲁棒性测试,从而推断LLMs是否已经学习了法律知识和推理逻辑。在本文中,我们提出了J&H:一个用于检测LLMs在法律领域知识注入攻击下鲁棒性的评估框架。该框架的目的是探讨LLMs在完成法律任务时是否进行演绎推理。为了进一步实现这一目标,我们对这些任务的推理逻辑的每个部分(大前提、小前提和结论生成)进行了攻击。我们收集了法律专家在现实世界的司法决策中可能犯的错误,例如拼写错误、法律同义词、不准确的外部法律法规检索。然而,在实际法律实践中,法律专家往往会忽略这些错误,并基于逻辑做出判断。然而,当面对这些错误时,LLMs可能会被拼写错误误导,并可能在判断中不使用逻辑。我们对现有的通用和特定领域的LLMs进行了知识注入攻击。当前的LLMs在我们的实验中使用的攻击下并不鲁棒。此外,我们提出并比较了几种增强LLMs知识鲁棒性的方法。 |
[62] 通过强化学习教授大型语言模型进行步骤级自动数学纠正 标题: Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning 作者: Junsong Li / Jie Zhou / Yutao Yang / Bihao Zhan / Qianjun Pan / Yuyang Ding / Qin Chen / Jiang Bo / Xin Lin / Liang He 原文: [英文] [中文] 备注: None 摘要: 自动数学纠错旨在通过人工智能技术检查学生对数学问题的解决方案。现有的大多数研究集中在问题层面判断最终答案,而忽略了对数学问题解决过程中的每一步提供详细反馈,这需要语义理解和推理能力。在本文中,我们提出了一种基于强化学习(RL)的方法来增强大型语言模型(LLM)的步骤级自动数学纠错,称为StepAMC。特别地,我们将步骤级自动数学纠错从文本分类任务转换为RL问题,以增强LLM的推理能力。然后,我们设计了一个空间约束策略网络以提高RL的稳定性。接着,我们引入了一个细粒度奖励网络,将二元的人类反馈转换为连续值。我们在两个基准数据集上进行了广泛的实验,结果表明我们的模型优于十一种强大的基线。 |
[63] 词语如桥:探索跨学科翻译工作的计算支持 标题: Words as Bridges: Exploring Computational Support for Cross-Disciplinary Translation Work 作者: Calvin Bao / Yow-Ting Shiue / Marine Carpuat / Joel Chan 原文: [英文] [中文] 备注: 26 pages, 8 tables, 6 figures 摘要: 学者们经常探索他们所在研究社区之外的文献。然而,这一探索过程常常因领域特定的术语而受到阻碍。过去的计算工作通常通过简化和总结来去除术语,以支持翻译工作;在这里,我们探索了一种不同的方法,该方法保留术语作为通向新概念空间的有用桥梁。具体来说,我们将不同的学术领域视为不同的语言使用社区,并探索如何从无监督的跨语言词嵌入对齐技术中汲取灵感,以探索领域特定词嵌入之间的概念对齐。我们开发了一个原型跨领域搜索引擎,该引擎使用对齐的领域特定嵌入来支持概念探索,并在两个案例研究中测试了该原型。我们讨论了这种翻译工作方法的承诺和陷阱的定性见解,并为未来提供跨领域信息搜索计算支持的界面设计提供了建议。 |
[64] 在阿姆哈拉语中低语:微调Whisper以支持低资源语言 标题: Whispering in Amharic: Fine-tuning Whisper for Low-resource Language 作者: Dawit Ketema Gete / Bedru Yimam Ahamed / Tadesse Destaw Belay / Yohannes Ayana Ejigu / Sukairaj Hafiz Imam / Alemu Belay Tessema / Mohammed Oumer Adem / Tadesse Amare Belay / Robert Geislinger / Umma Aliyu Musa / Martin Semmann / Shamsuddeen Hassan Muhammad / Henning Schreiber / Seid Muhie Yimam 原文: [英文] [中文] 备注: None 摘要: 这项工作探讨了微调OpenAI的Whisper自动语音识别(ASR)模型以提高对低资源语言阿姆哈拉语的转录准确性。虽然基础的Whisper模型由于其训练数据中阿姆哈拉语的有限表示而在处理该语言时表现不佳,我们通过使用Mozilla Common Voice、FLEURS和BDU-speech数据集对其进行微调。表现最佳的模型Whispersmall-am在对现有FLEURS数据和新的未见过的阿姆哈拉语数据集进行混合微调时显著改善。仅仅依靠新数据进行训练会导致较差的表现,但与FLEURS数据结合则增强了模型,使其能够更好地专注于阿姆哈拉语。我们还证明了规范化阿姆哈拉语同音词显著提高了词错误率(WER)和双语评估替代(BLEU)分数。这项研究强调了微调策略和数据集组成对于提高低资源语言的ASR的重要性,为未来的阿姆哈拉语语音识别研究提供了见解。 |
[65] MAGIC-VQA:基于常识知识的多模态和有依据推理的视觉问答 标题: MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering 作者: Shuo Yang / Siwen Luo / Soyeon Caren Han / Eduard Hovy 原文: [英文] [中文] 备注: 8 Pages, 5 figures 摘要: 视觉问答(VQA)需要在视觉和文本模态之间进行推理,但大型视觉语言模型(LVLMs)通常缺乏整合的常识知识,限制了它们在现实场景中的稳健性。为了解决这个问题,我们引入了MAGIC-VQA,这是一种通过系统地将常识知识与LVLMs整合来增强VQA的新框架。MAGIC-VQA采用了三个阶段的过程:(1)从外部来源进行显性知识整合,(2)按类型后处理以进行上下文优化,以及(3)使用图神经网络(GNN)进行隐性知识增强以实现结构化推理。虽然GNNs为结构化推理带来了更大的深度,但它们能够实现超越LVLMs的卓越关系推理。MAGIC-VQA通过将常识知识与LVLM驱动的推理统一起来,弥合了一个关键差距,消除了对广泛的预训练或复杂提示调整的需求。我们的框架在基准数据集上实现了最先进的性能,显著提高了VQA中的常识推理能力。 |
[66] 自回归语言模型用于知识库填充:以太空任务领域为例 标题: Autoregressive Language Models for Knowledge Base Population: A case study in the space mission domain 作者: Andrés García-Silva / José Manuel Gómez-Pérez 原文: [英文] [中文] 备注: Pre-print version 摘要: 知识库填充(KBP)在利用领域语料库填充和维护组织的知识库以保持其最新状态方面起着至关重要的作用。受到大型语言模型支持的越来越大的上下文窗口的启发,我们提出对自回归语言模型进行微调,以实现端到端的KBP。我们的案例研究涉及一个空间任务知识图谱的填充。为了微调模型,我们生成了一个用于端到端KBP的数据集,利用现有的领域资源。我们的案例研究表明,经过微调的有限规模语言模型在KBP任务中可以达到与更大模型相当甚至更高的准确性。专门用于KBP的小型模型提供了经济实惠的部署和更低成本的推理。此外,KBP专用模型不需要在提示中包含本体,从而为额外的输入文本或输出序列化提供了更多的上下文空间。 |
[67] SciClaims:用于生物医学主张分析的端到端生成系统 标题: SciClaims: An End-to-End Generative System for Biomedical Claim Analysis 作者: Raúl Ortega / José Manuel Gómez-Pérez 原文: [英文] [中文] 备注: Pre-print version 摘要: 验证科学文献中的关键论点,特别是在生物医学研究中,对于确保准确性和推动知识进步至关重要。这个过程在制药行业等领域尤为关键,因为快速的科学进展需要自动化和深厚的领域专业知识。然而,目前的解决方案存在显著的局限性。它们缺乏涵盖所有论点提取、证据检索和验证步骤的端到端流程;依赖于复杂的自然语言处理和信息检索流程,这些流程容易出现多个故障点;并且通常无法为论点验证结果提供清晰、用户友好的解释。为了解决这些挑战,我们引入了SciClaims,这是一种由最先进的大型语言模型(LLMs)驱动的高级系统,能够无缝集成整个科学论点分析过程。SciClaims在论点提取和验证方面均优于以往的方法,无需额外的微调,树立了自动化科学论点分析的新标杆。 |
[68] 用于电子健康记录的斯堪的纳维亚语言自然语言处理:挪威语、瑞典语和丹麦语 标题: Natural Language Processing for Electronic Health Records in Scandinavian Languages: Norwegian, Swedish, and Danish 作者: Ashenafi Zebene Woldaregay / Jørgen Aarmo Lund / Phuong Dinh Ngo / Mariyam Tayefi / Joel Burman / Stine Hansen / Martin Hylleholt Sillesen / Hercules Dalianis / Robert Jenssen / Lindsetmo Rolf Ole / Karl Øyvind Mikalsen 原文: [英文] 备注: 45 pages including the appendix, 9 figures in the main manuscript and 11 figures in the Appendix 摘要: 背景:临床自然语言处理(NLP)指的是使用计算方法来提取、处理和分析非结构化的临床文本数据,并在各种临床任务中具有巨大的潜力来改变医疗保健。目标:本研究旨在进行系统综述,以全面评估和分析针对斯堪的纳维亚大陆临床文本的最先进的NLP方法。方法:在2022年12月至2024年2月期间,在包括PubMed、ScienceDirect、Google Scholar、ACM数字图书馆和IEEE Xplore在内的各种在线数据库中进行了文献检索。此外,还使用了所包含文章的相关参考文献来巩固我们的搜索。最终的文献池包括在2010年至2024年间以英语发表的、针对斯堪的纳维亚大陆语言进行临床NLP的文章。结果:在113篇文章中,18%(n=21)关注挪威临床文本,64%(n=72)关注瑞典文本,10%(n=11)关注丹麦文本,8%(n=9)关注多种语言。总体而言,尽管在语言之间存在一些明显的差距和不平衡,审查发现该地区在各方面都有积极的发展。在基于转换器的模型的采用水平上存在显著差异。在去识别等重要任务中,针对挪威和丹麦文本的研究活动明显少于瑞典文本。此外,审查还发现该地区在数据、实验代码、预训练模型的共享以及适应和迁移学习的速度方面水平较低。结论:该综述对斯堪的纳维亚大陆语言的电子健康记录(EHR)文本的最先进临床NLP进行了全面评估,并强调了阻碍该领域在该地区快速发展的潜在障碍和挑战。 |
[69] 大型语言模型在胃肠病学中的自我报告信心:商业、开源和量化模型的分析 标题: Self-Reported Confidence of Large Language Models in Gastroenterology: Analysis of Commercial, Open-Source, and Quantized Models 作者: Nariman Naderi / Seyed Amir Ahmad Safavi-Naini / Thomas Savage / Zahra Atf / Peter Lewis / Girish Nadkarni / Ali Soroush 原文: [英文] 备注: 35 pages, 5 figures, 1 table, 7 supplementary figures 摘要: 本研究评估了多个大型语言模型(GPT、Claude、Llama、Phi、Mistral、Gemini、Gemma 和 Qwen)在300道胃肠病学委员会风格问题上的自我报告响应确定性。表现最好的模型(GPT-o1 预览版、GPT-4o 和 Claude-3.5-Sonnet)达到了0.15-0.2的Brier分数和0.6的AUROC。尽管较新的模型表现有所提升,但所有模型都表现出一致的过度自信倾向。不确定性估计对大型语言模型在医疗保健中的安全使用构成了重大挑战。关键词:大型语言模型;信心引导;人工智能;胃肠病学;不确定性量化 |
[70] ClinText-SP 和 RigoBERTa Clinical:一套用于西班牙语临床自然语言处理的新开放资源 标题: ClinText-SP and RigoBERTa Clinical: a new set of open resources for Spanish Clinical NLP 作者: Guillem García Subies / Álvaro Barbero Jiménez / Paloma Martínez Fernández 原文: [英文] [中文] 备注: None 摘要: 我们通过引入目前最大规模的公开可用的西班牙语临床语料库ClinText-SP,以及最先进的临床编码器语言模型RigoBERTa Clinical,为西班牙语临床自然语言处理领域做出了新的贡献。我们的语料库是从多种开放来源精心整理而成,包括医学期刊中的临床案例和共享任务中的标注语料库,提供了一个丰富多样的数据集,这在以前是难以获取的。RigoBERTa Clinical通过在这个全面的数据集上进行领域自适应预训练,显著优于现有模型在多个临床NLP基准测试上的表现。通过公开发布数据集和模型,我们旨在为研究界提供强大的资源,以推动临床NLP的进一步发展,并最终为改善医疗应用做出贡献。 |
[71] LinkAlign:面向真实世界大规模多数据库文本到SQL的可扩展模式链接 标题: LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL 作者: Yihan Wang / Peiyu Liu / Xin Yang 原文: [英文] [中文] 备注: None 摘要: 模式链接是实现文本到SQL任务中人类水平性能的关键瓶颈,特别是在现实世界的大规模多数据库场景中。解决模式链接面临两个主要挑战:(1)数据库检索:在多数据库环境中从大型模式池中选择正确的数据库,同时过滤掉不相关的数据库。(2)模式项对接:在大型且冗余的模式中准确识别出与SQL生成相关的表和列。为了解决这些问题,我们引入了LinkAlign,这是一种新颖的框架,可以通过系统地解决模式链接问题,有效地将现有基线适应于现实环境。我们的框架包括三个关键步骤:针对挑战1的多轮语义增强检索和无关信息隔离,以及针对挑战2的模式提取增强。我们在SPIDER和BIRD基准上评估了我们的方法在模式链接方面的性能,并在SPIDER 2.0-lite基准上评估了将现有文本到SQL模型适应于现实环境的能力。实验表明,LinkAlign在多数据库环境中优于现有基线,展示了其有效性和鲁棒性。另一方面,我们的方法在不使用长链式思维推理大语言模型的模型中排名最高。这项工作弥合了当前研究与现实场景之间的差距,为稳健且可扩展的模式链接提供了实用的解决方案。代码可在此https URL获取。 |
[72] LANGALIGN:通过跨语言嵌入对齐增强非英语语言模型 标题: LANGALIGN: Enhancing Non-English Language Models via Cross-Lingual Embedding Alignment 作者: Jong Myoung Kim / Young-Jun Lee / Ho-Jin Choi / Sangkeun Jung 原文: [英文] [中文] 备注: now preparing 摘要: 尽管大型语言模型备受关注,许多服务开发者由于实际限制仍依赖于基于嵌入的模型。在这种情况下,微调数据的质量直接影响性能,而英语数据集通常被用作训练非英语模型的种子数据。在本研究中,我们提出了LANGALIGN,通过在语言模型和任务头之间的接口对齐英语嵌入向量与目标语言的嵌入向量,来增强目标语言的处理能力。在韩语、日语和中文上的实验表明,LANGALIGN显著提高了这三种语言的性能。此外,我们展示了LANGALIGN可以反向应用,将目标语言数据转换为英语模型可以处理的格式。 |
[73] ZeroLM:无数据的语言模型变压器架构搜索 标题: ZeroLM: Data-Free Transformer Architecture Search for Language Models 作者: Zhen-Song Chen / Hong-Wei Ding / Xian-Jia Wang / Witold Pedrycz 原文: [英文] [中文] 备注: None 摘要: 神经架构搜索(NAS)提供了一个系统化的框架,用于自动化设计神经网络架构,但其广泛应用受到高昂计算需求的阻碍。现有的零成本代理方法虽然减少了搜索开销,但在架构排序任务中表现不佳,尤其是在基于Transformer的模型中,它们的表现常常不如简单的参数计数指标。目前的自动化代理发现方法存在搜索时间长、易于数据过拟合和结构复杂的问题。本文介绍了一种新颖的零成本代理方法,该方法通过高效的权重统计计算来量化模型容量,同时将Transformer架构分解为功能上不同的子模块,从而优化它们对整体性能的贡献平衡。我们的全面评估表明,该方法的优越性,在FlexiBERT基准上实现了0.76的Spearman's rho和0.53的Kendall's tau。所提出的方法在保持强大性能的同时,展现了卓越的计算效率,适用于大规模架构搜索的实际解决方案。 |
[74] Commander-GPT:充分释放多模态大型语言模型的讽刺检测能力 标题: Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models 作者: Yazhou Zhang / Chunwang Zou / Bo Wang / Jing Qin 原文: [英文] [中文] 备注: None 摘要: 讽刺检测作为自然语言处理(NLP)领域的重要研究方向,受到了广泛关注。传统的讽刺检测任务通常集中于单模态方法(例如文本),但由于讽刺的隐含性和微妙性,这些方法往往无法产生令人满意的结果。近年来,研究人员将讽刺检测的重点转向了多模态方法。然而,有效利用多模态信息来准确识别讽刺内容仍然是一个需要进一步探索的挑战。利用多模态大型语言模型(MLLMs)对各种信息源的强大集成处理能力,我们提出了一种创新的多模态Commander-GPT框架。受军事战略的启发,我们首先将讽刺检测任务分解为六个不同的子任务。一个中央指挥官(决策者)随后分配最适合的大型语言模型来处理每个特定的子任务。最终,各模型的检测结果被汇总以识别讽刺。我们在MMSD和MMSD 2.0上进行了广泛的实验,使用了四个多模态大型语言模型和六种提示策略。我们的实验表明,我们的方法在不需要微调或真实理由的情况下,实现了最先进的性能,F1分数提高了19.3%。 |
[75] 无监督获取离散语法类别 标题: Unsupervised Acquisition of Discrete Grammatical Categories 作者: David Ph. Shakouri / Crit Cremers / Niels O. Schiller 原文: [英文] [中文] 备注: 34 pages, 3 figures, 7 tables 摘要: 本文介绍了在一个用于语言习得实验的计算实验室环境中进行的实验。该实验实现了一个由两个代理组成的多代理系统:一个是成人语言模型,另一个是旨在学习母语的子语言模型。关键在于,子代理无法访问母语模型的内部知识,而只能接触到母代理生成的语言示例。这些实验展示了该系统如何用于习得抽象的语法知识。我们展示了如何通过对输入数据中与语法类别相对应的模式进行统计分析来得出离散的语法规则。这些规则随后被添加到子语言模型的语法知识中。为此,对母语模型连续生成的语句应用了层次聚合聚类分析。我们认为,这一过程可以用于习得类似于语言学家为自然语言提出的语法类别的结构。因此,可以确定非平凡的语法知识已经被习得。此外,在第二次实验中,使用母语模型生成的训练数据确定的该计算实验室环境的参数配置在一个测试集上得到了验证,同样导致了非平凡类别的习得。 |
[76] 预测前方道路:基于知识图谱的场景理解基础模型在自动驾驶中的应用 标题: Predicting the Road Ahead: A Knowledge Graph based Foundation Model for Scene Understanding in Autonomous Driving 作者: Hongkuan Zhou / Stefan Schmid / Yicong Li / Lavdim Halilaj / Xiangtong Yao / Wei cao 原文: [英文] [中文] 备注: None 摘要: 自动驾驶领域在物体识别、轨迹预测和运动规划等多个主题上取得了显著进展。然而,目前的方法在有效理解驾驶场景随时间的复杂演变方面仍面临局限性。本文提出了FM4SU,这是一种用于训练符号基础模型(FM)以实现自动驾驶场景理解的新方法。该方法利用知识图谱(KGs)来捕捉感官观察以及领域知识,如道路拓扑、交通规则或交通参与者之间的复杂交互。对于每个驾驶场景,从知识图谱中提取鸟瞰图(BEV)符号表示,包括场景中对象之间的时空信息。BEV表示被序列化为一系列标记,并输入到预训练语言模型(PLMs)中,以学习驾驶场景元素之间共现的内在理解,并生成对下一个场景的预测。我们在各种场景中使用nuScenes数据集和知识图谱进行了多项实验。结果表明,微调后的模型在所有任务中都实现了显著更高的准确性。微调后的T5模型实现了86.7%的下一个场景预测准确率。本文得出结论,FM4SU为开发更全面的自动驾驶场景理解模型提供了一个有前景的基础。 |
[77] 使用BERT进行结构识别和消歧:NPN的案例研究 标题: Construction Identification and Disambiguation Using BERT: A Case Study of NPN 作者: Wesley Scivetti / Nathan Schneider 原文: [英文] [中文] 备注: 8 pages, ACL long-paper format (preprint) 摘要: 构式语法假设语言知识主要由形式-意义对(“构式”)组成,包括词汇、一般语法规则,甚至是特异性模式。最近的研究表明,transformer语言模型至少能够表示一些构式模式,包括那些整体上较为罕见的构式。在这项研究中,我们探讨了BERT对英语一种较小构式的形式和意义的表示,即NPN(名词-介词-名词)构式——如face to face和day to day等表达——这种构式已知是多义的。我们构建了一个语义标注的语料库实例基准数据集(包括表面上类似于构式的干扰项)。利用这个数据集,我们训练并评估了探测分类器。分类器能够很好地区分构式与干扰项,并在真实构式实例中进行意义消歧,揭示了BERT嵌入中包含构式语义的迹象。此外,人工改变真实构式实例的词序会导致它们被拒绝,表明对形式问题的敏感性。我们得出结论,BERT确实隐含地编码了至少一些超越表面句法模式和词汇线索的NPN构式知识。 |
[78] 合成函数演示提升低资源编程语言的生成能力 标题: Synthetic Function Demonstrations Improve Generation in Low-Resource Programming Languages 作者: Nick McKenna / Xinnuo Xu / Jack Williams / Nick Wilson / Benjamin Van Durme / Christian Poelitz 原文: [英文] [中文] 备注: None 摘要: 在训练大型语言模型(LLM)时,一个关键的考虑因素是目标语言的资源丰富程度,无论是英语与威尔士语的比较,还是Python与Excel的比较。编程语言的典型训练数据由真实的程序演示和人类编写的注释组成。本文提出了为低资源编程语言创建此类数据的新方法。我们使用教师模型在Excel公式的示例领域中生成完全合成的、教科书质量的常用库函数演示。然后,我们对表现不佳的学生模型进行微调,并在两个重新构建为Excel领域的问题回答数据集上展示了改进效果。我们展示了微调相对于标准的、现成的RAG方法的优势,后者由于目标领域的不熟悉只能提供有限的改进。 |
[79] AlphaSpace:通过语义标记化和符号推理实现机器人动作 标题: AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning 作者: Alan Dao / Dinh Bach Vu / Bui Quang Huy 原文: [英文] [中文] 备注: None 摘要: 本文介绍了AlphaSpace,这是一种旨在增强大型语言模型(LLMs)在三维笛卡尔空间导航中的空间推理能力的新方法。AlphaSpace采用基于语义的标记策略,通过专门的语义标记编码高度信息,并主要整合符号合成推理数据。该方法使LLMs能够通过将对象定位在特定的[x, y, z]坐标上来准确地操控对象。实验结果表明,AlphaSpace在操控子任务上显著优于现有模型,总体准确率达到66.67%,而GPT-4o为37.5%,Claude 3.5 Sonnet为29.17%。 |
[80] 我已经涵盖了所有基础:通过稀疏自编码器解释大型语言模型中的推理特征 标题: I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders 作者: Andrey Galichin / Alexey Dontsov / Polina Druzhinina / Anton Razzhigaev / Oleg Y. Rogov / Elena Tutubalina / Ivan Oseledets 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在自然语言处理方面取得了显著的成功。最近的进展促使开发出新一类的推理LLMs;例如,开源的DeepSeek-R1通过整合深度思考和复杂推理,达到了最先进的性能。尽管这些模型具备令人印象深刻的能力,其内部推理机制仍未被探索。在这项工作中,我们采用稀疏自编码器(SAEs),这是一种将神经网络的潜在表示分解为可解释特征的稀疏方法,以识别驱动DeepSeek-R1系列模型推理的特征。首先,我们提出了一种从SAE表示中提取候选“推理特征”的方法。我们通过实证分析和可解释性方法验证了这些特征,证明了它们与模型的推理能力直接相关。关键是,我们证明了系统地引导这些特征可以增强推理性能,首次提供了LLMs推理的机制性解释。代码可在此https URL获取。 |
[81] AgentDropout:基于大型语言模型的多智能体协作中令牌高效和高性能的动态智能体消除 标题: AgentDropout: Dynamic Agent Elimination for Token-Efficient and High-Performance LLM-Based Multi-Agent Collaboration 作者: Zhexuan Wang / Yutong Wang / Xuebo Liu / Liang Ding / Miao Zhang / Jie Liu / Min Zhang 原文: [英文] [中文] 备注: None 摘要: 基于大型语言模型(LLMs)的多智能体系统(MAS)在协作解决问题方面表现出显著潜力。然而,它们仍面临通信效率低和任务表现不佳的重大挑战,因此精心设计智能体的通信拓扑结构尤为重要。受到管理理论中高效团队角色动态调整的启发,我们提出了AgentDropout,通过优化通信图的邻接矩阵来识别不同通信轮次中的冗余智能体和通信,并消除它们以提高令牌效率和任务表现。与最先进的方法相比,AgentDropout在提示令牌消耗上平均减少了21.6%,在完成令牌消耗上减少了18.4%,同时任务表现提高了1.14。此外,扩展实验表明AgentDropout在领域迁移能力和结构鲁棒性方面表现出显著优势,揭示了其可靠性和有效性。我们在这个https URL上发布了我们的代码。 |
[82] xKV: 用于KV缓存压缩的跨层SVD 标题: xKV: Cross-Layer SVD for KV-Cache Compression 作者: Chi-Chih Chang / Chien-Yu Lin / Yash Akhauri / Wei-Cheng Lin / Kai-Chiang Wu / Luis Ceze / Mohamed S. Abdelfattah 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)具有长上下文窗口,能够实现强大的应用,但代价是需要高内存消耗来存储键和值状态(KV-Cache)。最近的研究尝试将来自多个层的KV-Cache合并为共享表示,但这些方法要么需要昂贵的预训练,要么依赖于层间高每个token余弦相似度的假设,而这种假设在实践中通常不成立。我们发现主奇异向量在KV-Cache的多个层中对齐得非常好。利用这一见解,我们提出了xKV,这是一种简单的后训练方法,应用奇异值分解(SVD)于分组层的KV-Cache。xKV将多个层的KV-Cache合并为共享的低秩子空间,显著减少了KV-Cache的大小。通过在RULER长上下文基准上对广泛使用的LLMs(例如,Llama-3.1和Qwen2.5)进行广泛评估,xKV实现了比最先进的层间技术高达6.8倍的压缩率,同时提高了2.7%的准确性。此外,xKV与新兴的多头潜在注意力(MLA)(例如,DeepSeek-Coder-V2)兼容,在编码任务上实现了显著的3倍压缩率而不降低性能。这些结果突显了xKV在解决长上下文LLM推理的内存瓶颈方面的强大能力和多功能性。我们的代码在此网址公开提供:this https URL。 |