![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CL方向,2025年3月24日更新论文54篇
|
[1] 面向语言模型后训练的基于词元的不确定性感知目标 标题: Token-Level Uncertainty-Aware Objective for Language Model Post-Training 作者: Tingkai Liu / Ari S. Benjamin / Anthony M. Zador 原文: [英文] [中文] 备注: None 摘要: 在当前的研究中,我们将因果语言建模中的词元级不确定性与两种训练目标联系起来:1)掩码最大似然估计(MLE),2)自蒸馏。我们表明,掩码MLE在减少认知不确定性方面是有效的,并且可以作为一种有效的词元级自动课程学习技术。然而,掩码MLE容易过拟合,需要自蒸馏正则化来提高或维持在分布外任务上的性能。我们通过提出的训练目标——结合掩码MLE和自蒸馏——在多种架构(Gemma、LLaMA、Phi)和数据集(Alpaca、ShareGPT、GSM8K)上展示了显著的性能提升,减轻了过拟合,同时在后期训练中保持了适应性。我们的研究结果表明,考虑不确定性的训练为增强语言模型训练提供了一种有效的机制。 |
[2] Medifact 在 PerAnsSumm 2025:利用轻量级模型进行临床问答论坛的视角特定摘要 标题: Medifact at PerAnsSumm 2025: Leveraging Lightweight Models for Perspective-Specific Summarization of Clinical Q&A Forums 作者: Nadia Saeed 原文: [英文] [中文] 备注: This paper accepted in PerAnsSumm: Perspective-aware Healthcare answer summarization, a shared task organized at the CL4Health workshop colocated with NAACL 2025 摘要: PerAnsSumm 2025挑战聚焦于视角感知的医疗答案摘要(Agarwal等,2025)。这项工作提出了一种使用Snorkel-BART-SVM管道的少样本学习框架,用于分类和总结开放式医疗社区问答(CQA)。通过Snorkel进行弱监督训练的SVM模型增强了零样本学习。抽取式分类识别与视角相关的句子,然后使用预训练的BART-CNN模型进行摘要。该方法在共享任务中在100支队伍中获得第12名,展示了计算效率和上下文准确性。通过利用预训练的摘要模型,这项工作推进了医学CQA研究,并为临床决策支持系统做出了贡献。 |
[3] 在跨学科系统科学的LLM文献综述中突出案例研究 标题: Highlighting Case Studies in LLM Literature Review of Interdisciplinary System Science 作者: Lachlan McGinness / Peter Baumgartner 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)被用于协助四位来自英联邦科学与工业研究组织(CSIRO)的研究人员进行系统文献综述(SLR)。我们在这些案例研究中评估了LLMs在SLR任务中的表现。在每个案例中,我们探讨了参数变化对LLM响应准确性的影响。LLM的任务是从选定的学术论文中提取证据,以回答特定的研究问题。我们评估了模型在忠实再现文献引用方面的表现,并邀请主题专家评估模型在回答研究问题时的表现。我们开发了一种语义文本高亮工具,以便专家审查LLM的响应。 我们发现,最先进的LLMs能够以超过95%的准确率再现文本中的引用,并以大约83%的准确率回答研究问题。我们使用两种方法来确定LLM响应的正确性:专家评审和LLM与专家答案的变压器嵌入的余弦相似度。这些方法之间的相关性范围从0.48到0.77,提供了后者作为测量语义相似性的有效指标的证据。 |
[4] 使用大型语言模型进行自动隐私政策分析:提示工程、微调与可解释性 标题: Using LLMs for Automated Privacy Policy Analysis: Prompt Engineering, Fine-Tuning and Explainability 作者: Yuxin Chen / Peng Tang / Weidong Qiu / Shujun Li 原文: [英文] [中文] 备注: None 摘要: 隐私政策被数字服务广泛使用,并且通常是法律要求的。许多基于机器学习的分类器已经被开发出来,以自动检测给定隐私政策中的不同概念,这可以帮助促进其他自动化任务,例如生成更易于阅读的摘要和检测法律合规性问题。尽管大型语言模型(LLMs)在多个领域的许多自然语言处理任务中取得了成功应用,但关于使用LLMs进行自动隐私政策分析的研究却很少,因此,LLMs是否以及如何能够帮助自动化隐私政策分析仍然未被充分探索。为了填补这一研究空白,我们对基于LLM的隐私政策概念分类器进行了全面评估,采用了提示工程和LoRA(低秩适应)微调,在四个最先进的隐私政策语料库和分类法上进行实验。我们的实验结果表明,结合提示工程和微调可以使基于LLM的分类器在隐私政策语料库/分类法和概念上显著且一致地优于其他最先进的方法。此外,我们使用三个指标评估了基于LLM的分类器的可解释性:完整性、逻辑性和可理解性。在所有三个指标中,我们的评估中观察到得分超过91.1%,这表明LLMs不仅有助于提高分类性能,还能增强检测结果的可解释性。 |
[5] 并非所有角色都值得:反映文化的角色数据增强 标题: Not All Personas Are Worth It: Culture-Reflective Persona Data Augmentation 作者: Ji-Eun Han / Yoonseok Heo 原文: [英文] [中文] 备注: None 摘要: 将角色融入对话式人工智能模型对于实现真实且引人入胜的互动至关重要。然而,现有角色数据集的文化多样性和适应性常常被忽视,降低了其在构建具有文化意识的人工智能系统中的效力。为了解决这个问题,我们提出了一个生成特定文化角色的两步流程,并介绍了KoPersona,这是一个包含20万个角色的数据集,旨在捕捉韩国的文化价值观、行为和社会细微差别。通过各种指标进行的全面评估验证了KoPersona的质量及其与韩国文化的相关性。这项工作不仅为基于角色的研究做出了贡献,还建立了一种可扩展的方法,用于创建适应各种语言和文化背景的文化相关角色。 |
[6] Mind2:基于双向认知话语分析的心灵互助情感支持系统 标题: Mind2: Mind-to-Mind Emotional Support System with Bidirectional Cognitive Discourse Analysis 作者: Shi Yin Hong / Uttamasha Oyshi / Quan Mai / Gibson Nkhata / Susan Gauch 原文: [英文] [中文] 备注: 7 pages, 2 figures, and 3 tables; WI-IAT 2024 摘要: 情感支持(ES)系统通过根据不同用户情况生成策略性支持对话来缓解用户的心理压力。然而,ES系统在生成包含及时上下文和可解释性的有效ES对话方面能力有限,这阻碍了它们赢得公众信任。受认知模型的驱动,我们提出了Mind-to-Mind(Mind2),这是一个ES框架,从话语分析的角度处理ES对话生成任务的可解释ES上下文建模。具体来说,我们根据动态话语上下文传播窗口对ES对话进行认知话语分析,该窗口适应ES系统与用户之间对话的上下文演变。为了增强可解释性,Mind2优先考虑反映每个说话者对另一说话者信念的细节,具有双向性,整合了心理理论、生理预期效用和认知理性,从ES对话中提取认知知识。实验结果表明,Mind2在仅使用10\%的可用训练数据进行训练的情况下,仍能实现与最先进的ES系统相媲美的性能。 |
[7] KVShare: 面向语义感知的键值缓存共享以提高大型语言模型推理效率 标题: KVShare: Semantic-Aware Key-Value Cache Sharing for Efficient Large Language Model Inference 作者: Huan Yang / Renji Zhang / Deyu Zhang 原文: [英文] [中文] 备注: None 摘要: 本文介绍了KVShare,这是一种基于语义相似性的多用户键值(KV)缓存共享技术,旨在提高大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的推理效率。为了解决现有前缀缓存(严格的文本前缀匹配)和语义缓存(响应多样性丧失)的局限性,KVShare通过语义对齐算法和差异编辑操作实现了细粒度的KV缓存重用。在真实用户对话数据集上的实验表明,KVShare将KV缓存命中率提高了60%以上,同时保持了与完全计算相当的输出质量(在BLEU和Rouge-L指标上没有显著下降)。这种方法有效地减少了GPU资源消耗,适用于重复查询的场景,如医疗和教育。 |
[8] 大型语言模型生成的人格是一种承诺,但有一个陷阱 标题: LLM Generated Persona is a Promise with a Catch 作者: Ang Li / Haozhe Chen / Hongseok Namkoong / Tianyi Peng 原文: [英文] [中文] 备注: None 摘要: 使用大型语言模型(LLMs)来模拟人类行为,尤其是通过近似个体特征的角色,已经引起了广泛关注。基于角色的模拟有望改变依赖于群体反馈的学科,包括社会科学、经济分析、市场研究和商业运营。传统方法在收集真实角色数据时面临重大挑战。由于隐私限制,这些方法成本高昂且在后勤上具有挑战性,并且往往无法捕捉多维属性,尤其是主观特质。因此,使用LLMs进行合成角色生成提供了一种可扩展且具有成本效益的替代方案。然而,目前的方法依赖于临时和启发式的生成技术,这些技术无法保证方法的严谨性或模拟的精确性,导致下游任务中出现系统性偏差。通过包括总统选举预测和美国人口的一般意见调查在内的大规模实验,我们揭示了这些偏差可能导致与现实世界结果的显著偏离。我们的研究结果强调了开发严谨的角色生成科学的必要性,并概述了提高LLM驱动的角色模拟的可靠性和可扩展性所需的方法创新、组织和机构支持以及实证基础。为了支持该领域的进一步研究和发展,我们已开源了大约一百万个生成的角色,公众可以通过此URL进行访问和分析。 |
[9] HDLCoRe:一种用于缓解大型语言模型生成的硬件描述语言幻觉的无训练框架 标题: HDLCoRe: A Training-Free Framework for Mitigating Hallucinations in LLM-Generated HDL 作者: Heng Ping / Shixuan Li / Peiyu Zhang / Anzhe Cheng / Shukai Duan / Nikos Kanakaris / Xiongye Xiao / Wei Yang / Shahin Nazarian / Andrei Irimia / Paul Bogdan 原文: [英文] [中文] 备注: None 摘要: 近年来,大型语言模型(LLMs)在代码生成任务中展现了卓越的能力。然而,当应用于硬件描述语言(HDL)时,由于数据稀缺,这些模型表现出显著的局限性,导致幻觉和错误的代码生成。为了解决这些挑战,我们提出了HDLCoRe,这是一种通过提示工程技术和检索增强生成(RAG)来提高LLMs的HDL生成能力的无训练框架。我们的方法由两个主要组件组成:(1)一种具有自我验证功能的HDL感知链式思维(CoT)提示技术,该技术按复杂性和类型对任务进行分类,结合领域特定知识,并通过逐步自我模拟引导LLMs进行错误修正;(2)一个两阶段的异构RAG系统,通过关键组件提取解决格式不一致问题,并通过顺序过滤和重新排序高效检索相关的HDL示例。HDLCoRe无需模型微调即可显著提高LLMs的HDL生成能力。实验结果表明,我们的框架在RTLLM2.0基准测试中表现优异,显著减少了幻觉,并提高了语法和功能的正确性。 |
[10] 深度搜索模型在中文环境中的安全性评估与增强 标题: Safety Evaluation and Enhancement of DeepSeek Models in Chinese Contexts 作者: Wenjing Zhang / Xuejiao Lei / Zhaoxiang Liu / Limin Han / Jiaojiao Zhao / Beibei Huang / Zhenhong Long / Junting Guo / Meijuan An / Rongjia Du / Ning Wang / Kai Wang / Shiguo Lian 原文: [英文] [中文] 备注: 21 pages,13 figures 摘要: DeepSeek-R1以其卓越的推理能力和开源策略而闻名,对全球人工智能领域产生了重大影响。然而,它在安全性方面存在显著缺陷。由思科子公司Robust Intelligence与宾夕法尼亚大学合作进行的最新研究表明,DeepSeek-R1在处理有害提示时的攻击成功率达到100%。此外,多家安全公司和研究机构已发现该模型存在关键的安全漏洞。尽管中国联通已经揭示了R1在中文环境中的安全漏洞,但R1系列中其他蒸馏模型的安全能力尚未得到全面评估。为了解决这一问题,本研究利用全面的中文安全基准CHiSafetyBench对DeepSeek-R1系列蒸馏模型进行深入的安全评估。研究目标是评估这些模型在中文环境中蒸馏前后的安全能力,并进一步阐明蒸馏对模型安全性的负面影响。基于这些发现,我们对六个蒸馏模型实施了针对性的安全增强。评估结果表明,增强后的模型在安全性方面取得了显著改善,同时保持了推理能力而没有明显的退化。我们在此https URL开源了安全增强模型,以作为未来研究和优化DeepSeek模型的宝贵资源。 |
[11] 利用知识超图增强基于证据的医学中的LLM生成 标题: Enhancing LLM Generation with Knowledge Hypergraph for Evidence-Based Medicine 作者: Chengfeng Dou / Ying Zhang / Zhi Jin / Wenpin Jiao / Haiyan Zhao / Yongqiang Zhao / Zhengwei Tao 原文: [英文] [中文] 备注: None 摘要: 循证医学(EBM)在大型语言模型(LLM)在医疗保健中的应用中发挥着关键作用,因为它为医疗决策过程提供了可靠的支持。尽管当前的检索增强生成(RAG)技术为其带来了益处,但它仍面临两个重大挑战:分散证据的收集以及有效组织这些证据以支持EBM所需的复杂查询。为了解决这些问题,我们提出使用LLM从多个来源收集分散的证据,并提出一种基于知识超图的证据管理模型,以整合这些证据,同时捕捉复杂的关系。此外,为了更好地支持复杂查询,我们开发了一种重要性驱动的证据优先排序(IDEP)算法,该算法利用LLM生成多个证据特征,每个特征都有一个相关的重要性评分,然后用于对证据进行排序并生成最终的检索结果。六个数据集的实验结果表明,我们的方法在EBM感兴趣的应用领域(如医学测验、幻觉检测和决策支持)中优于现有的RAG技术。测试集和构建的知识图谱可以通过\href{this https URL}{this https URL}访问。 |
[12] EEG-CLIP:从自然语言描述中学习EEG表示 标题: EEG-CLIP : Learning EEG representations from natural language descriptions 作者: Tidiane Camaret N'dir / Robin Tibor Schirrmeister 原文: [英文] [中文] 备注: None 摘要: 目前,用于脑电图(EEG)解码的深度网络通常仅训练来解决特定任务,如病理或性别解码。一种更为通用的方法是利用临床EEG记录的医学报告,学习医学报告与EEG记录之间的映射。这种方法最初在计算机视觉领域中被开创,用于匹配图像及其文本说明,并随后允许使用文本类提示进行成功的零样本解码。在这项工作中,我们遵循这一方法,开发了一种对比学习框架EEG-CLIP,将EEG时间序列及其对应的临床文本描述对齐到一个共享的嵌入空间。我们研究了其在多功能EEG解码中的潜力,评估其在少样本和零样本设置中的表现。总体结果表明,EEG-CLIP能够非平凡地对齐文本和EEG表示。我们的工作提出了一种学习通用EEG表示的有前途的方法,这可以通过零样本解码或从更少的训练样本中训练特定任务模型来简化对多样化解码问题的分析。用于重现我们结果的代码可在此https URL获得。 |
[13] 从患者咨询到图谱:利用大型语言模型构建患者旅程知识图谱 标题: From Patient Consultations to Graphs: Leveraging LLMs for Patient Journey Knowledge Graph Construction 作者: Hassan S. Al Khatib / Sudip Mittal / Shahram Rahimi / Nina Marhamati / Sean Bozorgzad 原文: [英文] [中文] 备注: None 摘要: 向以患者为中心的医疗保健转变需要全面了解患者的就医历程,这包括整个护理范围内的所有医疗体验和互动。现有的医疗数据系统通常是分散的,缺乏对患者轨迹的整体表示,这给协调护理和个性化干预带来了挑战。患者旅程知识图谱(PJKGs)代表了一种通过将多样化的患者信息整合到统一的结构化表示中来解决分散医疗数据挑战的新方法。本文提出了一种使用大型语言模型(LLMs)来处理和结构化正式临床文档和非结构化患者-提供者对话的PJKGs构建方法。这些图谱包含临床会面、诊断、治疗和结果之间的时间和因果关系,能够实现高级时间推理和个性化护理洞察。研究评估了四种不同的LLMs,如Claude 3.5、Mistral、Llama 3.1和Chatgpt4o,在生成准确且计算效率高的知识图谱方面的能力。结果表明,虽然所有模型都实现了完美的结构合规性,但它们在医学实体处理和计算效率方面表现出差异。论文最后识别了关键挑战和未来研究方向。该工作通过开发支持改善护理协调和结果预测的全面、可操作的知识图谱,为推进以患者为中心的医疗保健做出了贡献。 |
[14] 大型语言模型中的性别和内容偏见:以Google Gemini 2.0 Flash实验为例 标题: Gender and content bias in Large Language Models: a case study on Google Gemini 2.0 Flash Experimental 作者: Roberto Balestri 原文: [英文] 备注: None 摘要: 本研究评估了由谷歌开发的最先进的大型语言模型(LLM)Gemini 2.0 Flash Experimental的偏差,重点关注内容审核和性别差异。通过将其性能与作者之前研究的ChatGPT-4o进行比较,分析突出了在伦理审核实践中的一些差异。Gemini 2.0表现出减少的性别偏见,尤其是在女性特定提示方面,其接受率相比ChatGPT-4o有显著提高。它对性内容采取了更宽松的立场,并对暴力提示,包括性别特定案例,保持相对较高的接受率。尽管有这些变化,是否构成改进仍有争议。虽然性别偏见有所减少,但这种减少是以允许更多针对男性和女性的暴力内容为代价的,可能会使暴力正常化而不是减轻伤害。男性特定提示通常仍然比女性特定提示获得更高的接受率。这些发现强调了使人工智能系统与伦理标准保持一致的复杂性,突出了在减少某些偏见方面的进展,同时对模型宽容性的更广泛影响提出了担忧。持续的改进对于实现确保透明性、公平性和包容性而不放大有害内容的审核实践至关重要。 |
[15] Word2Minecraft:通过大型语言模型生成3D游戏关卡 标题: Word2Minecraft: Generating 3D Game Levels through Large Language Models 作者: Shuo Huang / Muhammad Umair Nasir / Steven James / Julian Togelius 原文: [英文] [中文] 备注: None 摘要: 我们介绍了Word2Minecraft,这是一种利用大型语言模型根据结构化故事生成可玩Minecraft游戏关卡的系统。该系统将叙事元素(如主角目标、反派挑战和环境设置)转化为具有空间和游戏玩法限制的游戏关卡。我们引入了一个灵活的框架,允许自定义故事复杂性,从而实现动态关卡生成。该系统采用缩放算法来保持空间一致性,同时调整关键游戏元素。我们使用基于指标和基于人类的方法对Word2Minecraft进行了评估。我们的结果表明,GPT-4-Turbo在大多数领域(包括故事连贯性和目标享受度)上优于GPT-4o-Mini,而后者在美学吸引力方面表现出色。我们还展示了该系统生成具有高地图享受度关卡的能力,这在故事生成与游戏设计的交叉领域中迈出了有希望的一步。我们在此https URL上开源了代码。 |
[16] 多模态大型语言模型理解焊接吗? 标题: Do Multimodal Large Language Models Understand Welding? 作者: Grigorii Khvatskii / Yong Suk Lee / Corey Angst / Maria Gibbs / Robert Landers / Nitesh V. Chawla 原文: [英文] [中文] 备注: 16 pages 摘要: 本文研究了多模态大型语言模型(MLLMs)在熟练生产工作中的表现,重点关注焊接。我们使用一个由领域专家标注的真实世界和在线焊接图像的新数据集,评估了两个最先进的MLLMs在三个领域(房车与海洋、航空和农业)中评估焊接可接受性的表现。虽然两个模型在在线图像上的表现更好,可能是由于之前的曝光或记忆,但它们在未见过的真实世界焊接图像上也表现得相对较好。此外,我们引入了WeldPrompt,这是一种结合链式思维生成与上下文学习的提示策略,以减轻幻觉并改善推理。WeldPrompt在某些领域提高了模型的召回率,但在其他领域表现不一致。这些结果强调了MLLMs在高风险技术领域中的局限性和潜力,并突出了微调、领域特定数据以及更复杂的提示策略以提高模型可靠性的重要性。该研究为进一步研究工业应用中的多模态学习开辟了途径。 |
[17] Poly-FEVER:用于检测大型语言模型幻觉的多语言事实验证基准 标题: Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models 作者: Hanzhi Zhang / Sumera Anjum / Heng Fan / Weijian Zheng / Yan Huang / Yunhe Feng 原文: [英文] [中文] 备注: None 摘要: 生成式人工智能中的幻觉现象,特别是在大型语言模型(LLMs)中,给多语言应用的可靠性带来了重大挑战。现有的幻觉检测基准主要集中在英语和少数几种广泛使用的语言上,缺乏足够的广度来评估模型在不同语言环境中的表现不一致性。为了解决这一问题,我们引入了Poly-FEVER,一个大规模的多语言事实验证基准,专门用于评估LLMs中的幻觉检测。Poly-FEVER包含77,973个标注的事实性声明,涵盖11种语言,来源于FEVER、Climate-FEVER和SciFact。它提供了首个大规模数据集,专门用于分析跨语言的幻觉模式,使得对ChatGPT和LLaMA系列等LLMs进行系统评估成为可能。我们的分析揭示了主题分布和网络资源可用性如何影响幻觉频率,发现了影响模型准确性的语言特定偏差。通过提供一个多语言的事实验证基准,Poly-FEVER促进了幻觉检测的跨语言比较,并有助于开发更可靠、包容语言的人工智能系统。该数据集公开可用,以推动负责任的人工智能、事实核查方法和多语言自然语言处理的研究,促进LLM性能的透明性和稳健性。所提出的Poly-FEVER可在此URL获取。 |
[18] 因果发现与反事实推理以优化劝说对话策略 标题: Causal Discovery and Counterfactual Reasoning to Optimize Persuasive Dialogue Policies 作者: Donghuo Zeng / Roberto Legaspi / Yuewen Sun / Xinshuai Dong / Kazushi Ikeda / Peter Spirtes / Kun Zhang 原文: [英文] [中文] 备注: 21 pages, 8 figures 摘要: 定制说服性对话以适应用户可以提高说服效果。然而,现有的对话系统通常难以适应动态变化的用户状态。本文提出了一种新方法,利用因果发现和反事实推理来优化系统的说服能力和结果。我们采用最稀疏排列的贪婪松弛(GRaSP)算法来识别用户和系统话语策略之间的因果关系,将用户策略视为状态,将系统策略视为行动。GRaSP识别用户策略为影响系统响应的因果因素,这些因素为双向条件生成对抗网络(BiCoGAN)生成系统的反事实话语提供信息。随后,我们使用对决双深度Q网络(D3QN)模型利用反事实数据来确定选择系统话语的最佳策略。我们在PersuasionForGood数据集上的实验表明,与基线方法相比,我们的方法在说服结果上有显著改善。累积奖励和Q值的增加表明因果发现在增强反事实推理和优化在线对话系统的强化学习策略方面的有效性。 |
[19] 通过双阶段优化统一提升语言模型的泛化能力和鲁棒性 标题: Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization 作者: Yudao Sun / Juan Yin / Juan Zhao / Fan Zhang / Yongheng Liu / Hongji Chen 原文: [英文] [中文] 备注: None 摘要: 神经网络语言模型(LMs)在泛化和鲁棒性方面面临重大挑战。目前,许多研究专注于单独改善泛化或鲁棒性,而没有同时解决这两个方面的方法,这对开发既鲁棒又泛化的语言模型提出了重大挑战。在本文中,我们提出了一种双阶段优化框架,以统一增强语言模型的泛化和鲁棒性,称为UEGR。具体而言,在前向传播阶段,我们通过自适应dropout丰富对抗样本的输出概率分布,以生成多样化的子模型,并结合这些输出分布的JS散度和对抗损失以增强输出稳定性。在反向传播阶段,我们计算参数显著性分数,并选择性地仅更新最关键的参数,以最小化不必要的偏差并巩固模型的弹性。理论分析表明,我们的框架包括梯度正则化以限制模型对输入扰动的敏感性,以及选择性参数更新以平坦化损失景观,从而改善泛化和鲁棒性。实验结果表明,与其他现有方法相比,我们的方法在13个公开可用的语言数据集上显著提高了语言模型的泛化和鲁棒性,达到了最新的(SOTA)性能。 |
[20] 基于开源大型语言模型的基础性个人移动预测模型 标题: A Foundational individual Mobility Prediction Model based on Open-Source Large Language Models 作者: Zhenlin Qin / Leizhen Wang / Francisco Camara Pereira / Zhenlinag Ma 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)因其广泛的通用知识和卓越的推理能力而被广泛应用于特定领域的任务。目前关于LLMs的研究显示出将其应用于个体移动性预测问题的巨大潜力。然而,大多数基于LLM的移动性预测模型仅在特定数据集上进行训练或使用单一精心设计的提示,这导致难以适应具有不同背景的不同城市和用户。为了解决这些问题,本文提出了一个统一的微调框架,用于训练一个基础的开源LLM移动性预测模型。我们在六个真实世界的移动性数据集上进行了广泛的实验,以验证所提出模型的有效性。结果表明,所提出的模型在预测准确性和可迁移性方面优于基于深度学习和LLMs的最新模型。 |
[21] 用于叙事地图提取的可解释人工智能组件 标题: Explainable AI Components for Narrative Map Extraction 作者: Brian Keith / Fausto German / Eric Krokos / Sarah Joseph / Chris North 原文: [英文] [中文] 备注: Text2Story Workshop 2025 at ECIR 2025 摘要: 随着叙事提取系统的复杂性不断增加,通过可解释和可说明的输出来建立用户信任变得愈发重要。本文评估了一种用于叙事地图提取的可解释人工智能(XAI)系统,该系统在多个抽象层次上提供有意义的解释。我们的系统整合了基于主题聚类的解释以处理低层次的文档关系、用于事件关系的连接解释,以及用于整体叙事模式的高层次结构解释。特别是,我们通过一项涉及10名参与者的用户研究对XAI系统进行了评估,该研究考察了2021年古巴抗议活动的叙事。结果分析表明,使用解释的参与者对系统决策的信任度有所提高,其中连接解释和重要事件检测在建立用户信心方面尤为有效。调查反馈显示,多层次的解释方法帮助用户对系统的叙事提取能力建立了适当的信任。此项工作推进了可解释叙事提取的最新技术,同时为开发支持有效人机协作的可靠叙事提取系统提供了实用见解。 |
[22] FutureGen:生成科学文章未来工作的LLM-RAG方法 标题: FutureGen: LLM-RAG Approach to Generate the Future Work of Scientific Article 作者: Ibrahim Al Azher / Miftahul Jannat Mokarrama / Zhishuai Guo / Sagnik Ray Choudhury / Hamed Alhoori 原文: [英文] [中文] 备注: 19 pages, 5 figures 摘要: 科学文章的未来工作部分通过识别当前研究的空白和局限性来概述潜在的研究方向。对于寻求未探索领域的初级研究人员以及寻找新项目或合作的资深研究人员来说,这一部分是一个宝贵的资源。在本研究中,我们从科学文章的关键部分以及相关论文中生成未来工作建议,并分析这些趋势是如何演变的。我们尝试了各种大型语言模型(LLMs),并整合了检索增强生成(RAG)以提升生成过程。我们引入了一个LLM反馈机制来提高生成内容的质量,并提出了一种LLM作为评判者的方法进行评估。我们的结果表明,基于RAG的方法结合LLM反馈在定性和定量指标上优于其他方法。此外,我们进行了人工评估以评估LLM作为提取器和评判者的表现。该项目的代码和数据集在此,代码:HuggingFace |
[23] 提取、匹配与评分:金融分析中长问题-上下文-答案三元组的评估范式 标题: Extract, Match, and Score: An Evaluation Paradigm for Long Question-context-answer Triplets in Financial Analysis 作者: Bo Hu / Han Yuan / Vlad Pandelea / Wuqiong Luo / Yingzhu Zhao / Zheng Ma 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)的快速发展在各种应用中引发了广泛的采用,因此建立稳健的评估框架以评估其性能变得至关重要。虽然传统的评估指标在较短文本中仍然适用,但在评估长篇回答的质量时,其效力会减弱。这一限制在涉及扩展性问题、广泛背景和长篇回答的真实场景中尤为关键,例如财务分析或合规性监管。在本文中,我们使用一个实际的财务用例来说明处理“长问题-背景-回答三元组”的应用。我们构建了一个由长三元组组成的真实财务数据集,并展示了传统指标的不足之处。为了解决这个问题,我们提出了一种有效的提取、匹配和评分(EMS)评估方法,以应对长篇LLMs输出的复杂性,为从业者提供了一种可靠的方法来评估LLMs在复杂真实场景中的性能。 |
[24] SeniorTalk:一个针对超高龄老人的中文对话数据集,附有丰富的注释 标题: SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors 作者: Yang Chen / Hui Wang / Shiyao Wang / Junyang Chen / Jiabei He / Jiaming Zhou / Xi Yang / Yequan Wang / Yonghua Lin / Yong Qin 原文: [英文] [中文] 备注: None 摘要: 随着语音技术越来越多地服务于老龄化人群,当前系统由于缺乏捕捉老年人特有声学特征(如老年性声音和方言变化)的训练数据而表现出显著的性能差距。现有老年语音数据集中关于超高龄个体的数据有限,加上过于简单的录音风格和标注维度,加剧了这一问题。为了解决75岁及以上个体语音数据的严重匮乏,我们引入了SeniorTalk,一个经过精心标注的中文口语对话数据集。该数据集包含来自202名参与者的101次自然对话,总计55.53小时的语音,确保在性别、地区和年龄方面的战略平衡。通过多维度的详细标注,它可以支持广泛的语音任务。我们在说话人验证、说话人分离、语音识别和语音编辑任务上进行了广泛的实验,为开发针对该年龄组的语音技术提供了重要的见解。 |
[25] 在古兰经研究中调查检索增强生成:13个开源大型语言模型的研究 标题: Investigating Retrieval-Augmented Generation in Quranic Studies: A Study of 13 Open-Source Large Language Models 作者: Zahra Khalila / Arbi Haza Nasution / Winda Monika / Aytug Onan / Yohei Murakami / Yasir Bin Ismail Radi / Noor Mohammad Osmani 原文: [英文] [中文] 备注: 11 pages, keywords: Large-language-models; retrieval-augmented generation; question answering; Quranic studies; Islamic teachings 摘要: 在将大型语言模型(LLMs)应用于敏感和特定领域的任务时,准确且符合语境的回答至关重要,例如回答与古兰经研究相关的查询。通用LLMs常常在生成的回答偏离权威来源时出现幻觉问题,这在宗教背景中引发了对其可靠性的担忧。这一挑战突显了需要能够整合特定领域知识的系统,同时保持回答的准确性、相关性和忠实性。在这项研究中,我们调查了13个开源LLMs,这些模型被分类为大型(例如,Llama3:70b、Gemma2:27b、QwQ:32b)、中型(例如,Gemma2:9b、Llama3:8b)和小型(例如,Llama3.2:3b、Phi3:3.8b)。使用检索增强生成(RAG)来弥补使用单独模型所带来的问题。该研究利用了一个描述性的古兰经章节数据集,包括114个章节的含义、历史背景和特性,使模型在回答之前能够收集相关知识。模型通过人类评估者设定的三个关键指标进行评估:语境相关性、回答忠实性和回答相关性。研究结果表明,大型模型在捕捉查询语义和生成准确、符合语境的回答方面始终优于小型模型。尽管Llama3.2:3b模型被认为是小型模型,但在忠实性(4.619)和相关性(4.857)方面表现非常出色,显示出经过良好优化的小型架构的潜力。本文探讨了在特定领域应用中使用LLMs时模型大小、计算效率和回答质量之间的权衡。 |
[26] 分布式大型语言模型与多模态大型语言模型:进展、挑战与未来方向综述 标题: Distributed LLMs and Multimodal Large Language Models: A Survey on Advances, Challenges, and Future Directions 作者: Hadi Amini / Md Jueal Mia / Yasaman Saadati / Ahmed Imteaj / Seyedsina Nabavirazavi / Urmish Thakker / Md Zarif Hossain / Awal Ahmed Fime / S.S. Iyengar 原文: [英文] [中文] 备注: None 摘要: 语言模型(LMs)是机器学习模型,旨在通过基于大规模数据集(如文本)估计词序列的概率来预测语言模式。语言模型在自然语言处理(NLP)任务中有广泛的应用,包括自动补全和机器翻译。尽管较大的数据集通常能提升语言模型的性能,但由于计算能力和资源的限制,扩展性仍然是一个挑战。分布式计算策略为提高扩展性和管理不断增长的计算需求提供了重要解决方案。此外,在训练和部署中使用敏感数据集引发了显著的隐私问题。最近的研究集中于开发去中心化技术,以实现分布式训练和推理,同时利用多样化的计算资源并支持边缘人工智能。本文对各种语言模型的分布式解决方案进行了综述,包括大型语言模型(LLMs)、视觉语言模型(VLMs)、多模态语言模型(MLLMs)和小型语言模型(SLMs)。LLMs专注于处理和生成文本,而MLLMs则旨在处理多种数据模态(例如文本、图像和音频)并将其整合以实现更广泛的应用。为此,本文回顾了MLLM管道中的关键进展,包括分布式训练、推理、微调和部署,同时识别出贡献、局限性和未来改进领域。此外,本文根据去中心化的六个主要关注领域对文献进行了分类。我们的分析描述了当前方法在实现语言模型分布式解决方案方面的差距,并概述了未来的研究方向,强调了需要新的解决方案以增强分布式语言模型的鲁棒性和适用性。 |
[27] 使用自然语言处理模型对用户报告进行分类以检测故障计算机组件:一个案例研究 标题: Classification of User Reports for Detection of Faulty Computer Components using NLP Models: A Case Study 作者: Maria de Lourdes M. Silva / André L. C. Mendonça / Eduardo R. D. Neto / Iago C. Chaves / Felipe T. Brito / Victor A. E. Farias / Javam C. Machado 原文: [英文] [中文] 备注: 9 pages, 2 figures 摘要: 计算机制造商通常提供平台供用户报告故障。然而,这些平台在有效利用文本报告方面仍存在显著差距,这阻碍了用户用自己的语言描述问题。在这种情况下,自然语言处理(NLP)提供了一种有前途的解决方案,通过分析用户生成的文本。本文提出了一种创新的方法,利用NLP模型对用户报告进行分类,以检测故障的计算机组件,如CPU、内存、主板、显卡等。在这项工作中,我们建立了一个包含341个用户报告的数据集,这些报告来自多个来源。此外,通过广泛的实验评估,我们的方法在我们的数据集上实现了79%的准确率。 |
[28] 利用大型语言模型进行智能家居可解释性活动识别:一项关键性评估 标题: Leveraging Large Language Models for Explainable Activity Recognition in Smart Homes: A Critical Evaluation 作者: Michele Fiori / Gabriele Civitarese / Priyankar Choudhary / Claudio Bettini 原文: [英文] [中文] 备注: None 摘要: 可解释人工智能(XAI)旨在揭示机器学习模型的内部推理。在物联网系统中,XAI提高了处理来自多个异构设备的传感器数据的模型的透明度,确保终端用户理解并信任其输出。在众多应用中,XAI也被应用于智能家居中的基于传感器的日常生活活动(ADLs)识别。现有方法强调哪些传感器事件对每个预测活动最重要,并使用简单规则将这些事件转换为非专业用户可以理解的自然语言解释。然而,这些方法产生的解释缺乏自然语言的灵活性,且不具备可扩展性。随着大型语言模型(LLMs)的兴起,值得探索它们是否可以增强解释生成,考虑到它们在理解人类活动方面的已证明的知识。本文研究了将XAI与LLMs结合用于基于传感器的ADL识别的潜在方法。我们评估LLMs是否可以用于:a)作为可解释的零样本ADL识别模型,避免昂贵的标注数据收集,以及b)在训练数据可用且目标是更高的识别率时,自动生成现有数据驱动XAI方法的解释。我们的关键评估提供了关于使用LLMs进行可解释ADL识别的优势和挑战的见解。 |
[29] 利用大型语言模型和知识图谱加速抗生素发现 标题: Accelerating Antibiotic Discovery with Large Language Models and Knowledge Graphs 作者: Maxime Delmas / Magdalena Wysocka / Danilo Gusicuma / André Freitas 原文: [英文] [中文] 备注: 11 pages, 9 figures, 3 tables 摘要: 发现新型抗生素对于应对日益增长的抗菌素耐药性(AMR)至关重要。然而,制药行业面临着高昂的成本(超过10亿美元)、漫长的时间线和高失败率,这些问题因已知化合物的重新发现而加剧。我们提出了一种基于大型语言模型(LLM)的流程,作为一种警报系统,检测抗生素活性的先前证据,以防止昂贵的重新发现。该系统将生物体和化学文献整合到一个知识图谱(KG)中,确保分类学分辨率、同义词处理和多级证据分类。我们在一个包含73种潜在抗生素生产生物体的私人名单上测试了该流程,揭示了12个负面结果以供评估。结果突出了该流程在证据审查方面的有效性,减少了假阴性,并加速了决策过程。负面结果的知识图谱和用于交互式探索的用户界面将公开提供。 |
[30] 透过大型语言模型的镜子:对驴子、大象和市场的苏格拉底式自我评估 标题: Through the LLM Looking Glass: A Socratic Self-Assessment of Donkeys, Elephants, and Markets 作者: Molly Kennedy / Ayyoob Imani / Timo Spinde / Hinrich Schütze 原文: [英文] [中文] 备注: None 摘要: 随着检测和避免大型语言模型(LLM)生成文本中的偏见变得越来越重要,媒体偏见通常仍然微妙且主观,使得识别和减轻这种偏见特别困难。在这项研究中,我们评估了LLM生成内容中的媒体偏见以及LLM检测微妙意识形态偏见的能力。我们使用两个数据集进行评估,分别是涵盖政治和经济话语的PoliGen和EconoLex。我们通过提示八个广泛使用的LLM生成文章,并通过自我评估分析它们的意识形态偏好。通过使用自我评估,研究旨在直接测量模型的偏见,而不是依赖外部解释,从而最大限度地减少对媒体偏见的主观判断。我们的结果揭示了所有模型在民主党与共和党立场之间的一致偏好。相反,在经济话题上,西方LLM之间的偏见各不相同,而中国开发的模型则更倾向于社会主义。 |
[31] 自然语言生成 标题: Natural Language Generation 作者: Emiel van Miltenburg / Chenghua Lin 原文: [英文] [中文] 备注: 3 pages + references. Submitted for publication in the Encyclopedia of Language & Linguistics 摘要: 本文简要概述了自然语言生成领域。自然语言生成(NLG)在其最广泛的定义中,指的是研究通过自然语言将某种形式的信息进行表达的系统。这些信息可以存储在大型数据库或知识图谱中(在数据到文本的应用中),但NLG研究人员也可能研究摘要生成(文本到文本)或图像描述生成(图像到文本)。作为自然语言处理的一个子领域,NLG与其他子学科如机器翻译(MT)和对话系统密切相关。一些NLG研究人员将机器翻译排除在他们对该领域的定义之外,因为机器翻译不涉及内容选择,即系统无需决定说什么。相反,对话系统通常不属于自然语言生成的范畴,因为NLG只是对话系统的一个组成部分(其他部分包括自然语言理解和对话管理)。然而,随着大型语言模型(LLMs)的兴起,自然语言处理的不同子领域在自然语言生成和自动生成文本的评估方面趋向于采用类似的方法。 |
[32] SPACER:一个关于错误修正的语音生成和理解的并行数据集 标题: SPACER: A Parallel Dataset of Speech Production And Comprehension of Error Repairs 作者: Shiva Upadhye / Jiaxuan Li / Richard Futrell 原文: [英文] [中文] 备注: 11 pages, 11 figures 摘要: 语音错误是交流中的自然现象,但它们很少导致完全的交流失败,因为说话者和理解者都能够检测和纠正错误。尽管之前的研究分别考察了在语言生成和理解中的错误监测和纠正,但由于缺乏平行数据,对这两个系统的综合研究一直受到阻碍。在这项研究中,我们提出了SPACER,一个平行数据集,记录了自然语音错误如何被说话者和理解者纠正。我们专注于从Switchboard语料库中提取的单词替换错误,并附有说话者的自我修正和理解者在离线文本编辑实验中的反应。我们的探索性分析表明错误纠正策略存在不对称性:说话者更可能修正那些引入较大语义和音位偏差的错误,而理解者则倾向于纠正那些音位上与更合理的替代词相似或不符合先前语境的错误。我们的数据集为未来研究提供了一个综合方法来研究语言生成和理解。 |
[33] 工具链:在冻结语言模型的链式推理中利用大量未见工具 标题: Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models 作者: Mengsong Wu / Tong Zhu / Han Han / Xiang Zhang / Wenbiao Shao / Wenliang Chen 原文: [英文] 备注: 11 pages, 10 figures 摘要: 工具学习可以进一步拓宽大型语言模型(LLMs)的使用场景。然而,大多数现有方法要么需要微调,使得模型只能使用训练数据中出现的工具,要么在提示中添加工具演示,效率较低。在本文中,我们提出了一种新的工具学习方法——Chain-of-Tools。该方法充分利用冻结的LLMs强大的语义表示能力,在CoT推理中完成工具调用,使用一个庞大且灵活的工具池,其中可能包含未见过的工具。特别是,为了验证我们方法在大量未见工具场景中的有效性,我们构建了一个新的数据集SimpleToolQuestions。我们在两个数值推理基准(GSM8K-XL和FuncQA)和两个基于知识的问题回答基准(KAMEL和SimpleToolQuestions)上进行了实验。实验结果表明,我们的方法比基线表现更好。我们还识别了模型输出中在工具选择中关键的维度,增强了模型的可解释性。我们的代码和数据可在此https URL获取。 |
[34] 对话式用户-AI干预:关于通过提示重写提升大型语言模型响应生成的研究 标题: Conversational User-AI Intervention: A Study on Prompt Rewriting for Improved LLM Response Generation 作者: Rupak Sarkar / Bahareh Sarrafzadeh / Nirupama Chandrasekaran / Nagu Rangan / Philip Resnik / Longqi Yang / Sujay Kumar Jauhar 原文: [英文] [中文] 备注: 8 pages, ACL style 摘要: 人类与大型语言模型(LLM)的对话在专业和个人生活中越来越普遍,但许多用户仍然难以从LLM聊天机器人中获得有用的回应。造成这一问题的原因之一是用户缺乏理解如何设计有效的提示,以准确传达他们的信息需求。同时,现实世界的对话数据集的存在,以及LLM的文本理解能力,提供了一个独特的机会来大规模研究这个问题及其潜在解决方案。因此,在本文中,我们提出了首个以LLM为中心的真实人类与AI聊天机器人对话研究,重点调查用户查询在表达信息需求方面的不足,以及使用LLM重写次优用户提示的潜力。我们的研究结果表明,重新措辞无效的提示可以从对话系统中获得更好的回应,同时保留用户的原始意图。值得注意的是,在较长的对话中,重写的效果有所提高,因为可以更准确地进行关于用户需求的上下文推断。此外,我们观察到LLM在解释提示时通常需要——并且本质上会——对用户的意图和目标做出合理的假设。我们的研究结果在不同的对话领域、用户意图以及不同大小和类型的LLM中大体上成立,表明使用提示重写作为改善人类与AI互动的解决方案具有前景。 |
[35] 当汤姆吃泡菜时:在文化混合背景下评估多模态大型语言模型的文化偏见 标题: When Tom Eats Kimchi: Evaluating Cultural Bias of Multimodal Large Language Models in Cultural Mixture Contexts 作者: Jun Seong Kim / Kyaw Ye Thu / Javad Ismayilzada / Junyeong Park / Eunsu Kim / Huzama Ahmad / Na Min An / James Thorne / Alice Oh 原文: [英文] [中文] 备注: 12 pages 摘要: 在一个高度全球化的世界中,多模态大型语言模型(MLLMs)能够正确识别和响应混合文化输入是非常重要的。例如,一个模型应该能够正确识别图像中的泡菜(韩国食物),无论是当一个亚洲女性在吃它,还是一个非洲男性在吃它。然而,目前的MLLMs过于依赖人物的视觉特征,导致实体的错误分类。为了检验MLLMs对不同种族的鲁棒性,我们引入了MixCuBe,一个跨文化偏见基准,并研究来自五个国家和四个种族的元素。我们的研究结果表明,MLLMs在高资源文化中实现了更高的准确性和对这种扰动的更低敏感性,但在低资源文化中则不然。GPT-4o,整体表现最好的模型,在低资源文化中原始和扰动文化设置之间的准确性差异高达58%。我们的数据集可在以下网址公开获取:this https URL。 |
[36] 想象去听:听觉知识生成可以成为语言模型的有效助手 标题: Imagine to Hear: Auditory Knowledge Generation can be an Effective Assistant for Language Models 作者: Suho Yoo / Hyunjong Ok / Jaeho Lee 原文: [英文] 备注: Preprint 摘要: 仅通过文本语料库进行预训练的语言模型在处理需要听觉常识知识的任务时常常表现不佳。之前的研究通过增强语言模型以从外部音频数据库中检索知识来解决这个问题。这种方法有几个局限性,例如数据库中可能缺乏相关音频,以及构建和查询数据库的高成本。为了解决这些问题,我们提出了“想象听觉”,这是一种动态生成听觉知识的新方法。我们的框架从给定的提示中检测多个与音频相关的文本片段,并生成相应的听觉知识。我们开发了几种机制来有效处理多种听觉知识,包括基于CLAP的拒绝采样器和语言-音频融合模块。我们的实验表明,我们的方法在AuditoryBench上实现了最先进的性能,而无需依赖外部数据库,突出了我们基于生成的方法的有效性。 |
[37] MMCR:科学论文中跨来源推理的基准测试 标题: MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers 作者: Yang Tian / Zheng Lu / Mingqi Gao / Zheng Liu / Bo Zhao 原文: [英文] [中文] 备注: None 摘要: 机器全面理解科学论文反映了人工通用智能的高水平,这需要具备跨越碎片化和异构信息源进行推理的能力,呈现出一个复杂且具有实际意义的挑战。尽管视觉-语言模型(VLMs)在各种任务中取得了显著进展,特别是在涉及单一图像或文本页面的证据来源推理的任务中,但它们利用跨源信息进行推理的能力仍然是一个未解决的问题。本文提出了MMCR,这是一个高难度的基准,旨在评估VLMs在科学论文中利用跨源信息进行推理的能力。该基准包括276个高质量问题,由人类在7个学科和10种任务类型中精心注释。对18个VLMs的实验表明,跨源推理对现有模型构成了重大挑战。值得注意的是,即使是表现最好的模型GPT-4o,其整体准确率也仅为48.55%,在多表格理解任务中的准确率仅为20%,而第二好的模型Qwen2.5-VL-72B的整体准确率为39.86%。此外,我们研究了思维链(CoT)技术对跨源推理的影响,发现其对小型模型有不利影响,而较大型模型则表现出显著的性能提升。这些结果突显了开发能够有效利用跨源信息进行推理的VLMs的迫切需求。 |
[38] MTBench:用于时间推理和问答的多模态时间序列基准 标题: MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering 作者: Jialin Chen / Aosong Feng / Ziyu Zhao / Juan Garza / Gaukhar Nurbek / Cheng Qin / Ali Maatouk / Leandros Tassiulas / Yifeng Gao / Rex Ying 原文: [英文] [中文] 备注: 14 pages 摘要: 理解文本新闻与时间序列演变之间的关系是应用数据科学中一个关键但尚未充分探索的挑战。尽管多模态学习已经获得关注,现有的多模态时间序列数据集在评估跨模态推理和复杂问答方面仍显不足,而这些对于捕捉叙述信息与时间模式之间的复杂交互至关重要。为弥补这一差距,我们引入了多模态时间序列基准(MTBench),这是一个大规模基准,旨在评估大型语言模型(LLMs)在金融和天气领域的时间序列和文本理解能力。MTBench包含配对的时间序列和文本数据,包括与股票价格变动相对应的金融新闻和与历史温度记录对齐的天气报告。与专注于单一模态的现有基准不同,MTBench为模型提供了一个全面的测试平台,以便在结构化的数值趋势和非结构化的文本叙述上进行联合推理。MTBench的丰富性使得能够制定多样化的任务,这些任务需要对文本和时间序列数据有深刻的理解,包括时间序列预测、语义和技术趋势分析以及基于新闻的问答(QA)。这些任务针对模型捕捉时间依赖性、从文本上下文中提取关键见解以及整合跨模态信息的能力。我们在MTBench上评估了最先进的LLMs,分析了它们在建模新闻叙述与时间模式之间复杂关系方面的有效性。我们的研究结果揭示了当前模型面临的重大挑战,包括在捕捉长期依赖性、解释金融和天气趋势中的因果关系以及有效融合多模态信息方面的困难。 |
[39] 联合提取很重要:基于提示的视觉问答用于多字段文档信息提取 标题: Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction 作者: Mengsay Loem / Taiju Hosaka 原文: [英文] [中文] 备注: None 摘要: 视觉问答(VQA)作为一种灵活的方法,用于从文档图像中提取特定信息。然而,现有的研究通常单独查询每个字段,忽视了多个项目之间的潜在依赖关系。本文探讨了联合提取多个字段与单独提取的优劣。通过对多个大型视觉语言模型和数据集的实验,我们发现联合提取字段通常能提高准确性,尤其是在字段之间存在强烈的数字或上下文依赖时。我们进一步分析了性能如何随着请求项目数量的变化而变化,并使用基于回归的指标来量化字段间关系。我们的结果表明,多字段提示可以减轻因相似表面形式和相关数字值引起的混淆,为设计稳健的文档信息提取任务中的VQA系统提供了实用的方法。 |
[40] 评估GPT-4在标注情感评估评分中的可靠性和有效性 标题: Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings 作者: Deniss Ruder / Andero Uusberg / Kairit Sirts 原文: [英文] [中文] 备注: None 摘要: 评估理论表明,情感源于对事件的主观评估,这被称为评估。评估的分类相当多样,通常在体验者-注释者或读者-注释者的范式中使用李克特量表进行评分注释。本文研究了在不同提示设置下,GPT-4作为21种特定评估评分的读者-注释者的表现,旨在评估和提高其相较于人类注释者的表现。我们发现,GPT-4是一个有效的读者-注释者,其表现接近甚至略优于人类注释者,并且通过使用五次完成的多数投票可以显著提高其结果。GPT-4还能够有效地使用单一提示预测评估评分和情感标签,但增加指令复杂性会导致表现下降。我们还发现,较长的事件描述可以为模型和人类注释者的评分带来更准确的注释。此项工作为在心理学中日益增长的大型语言模型的使用以及提高GPT-4在评估注释中的表现策略做出了贡献。 |
[41] 当文字胜过视觉:VLMs可以通过仅文本训练自我提升以进行以人为中心的决策 标题: When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making 作者: Zhe Hu / Jing Li / Yu Yin 原文: [英文] [中文] 备注: None 摘要: 具身决策对于在现实环境中运行的人工智能代理至关重要。虽然视觉语言模型(VLMs)在这一能力上取得了进展,但它们在复杂决策上仍然存在困难,特别是在需要深入推理人类需求和价值的人类中心情境中。在这项研究中,我们系统地评估了开源的视觉语言模型在多模态人类中心决策任务上的表现。我们发现,仅接收文本描述的大型语言模型(LLMs)意外地优于处理实际图像的同规模视觉语言模型,这表明视觉对齐可能会阻碍视觉语言模型的能力。为了解决这一挑战,我们提出了一种新的仅文本训练方法,使用合成的文本数据。该方法增强了视觉语言模型的语言组件,并将学习到的能力转移到多模态推理中,消除了对昂贵的图像-文本配对数据的需求。此外,我们展示了视觉语言模型可以通过自我改进实现显著的性能提升,使用由其大型语言模型生成的训练数据,而不是依赖于更大的教师模型如GPT-4。我们的研究结果确立了一种更高效和可扩展的方法来增强视觉语言模型的人类中心决策能力,为通过自我改进机制优化视觉语言模型开辟了新的途径。 |
[42] 个性化对齐调查——大型语言模型在实际应用中的缺失环节 标题: A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications 作者: Jian Guan / Junfei Wu / Jia-Nan Li / Chuanqi Cheng / Wei Wu 原文: [英文] [中文] 备注: 9 pages 摘要: 大型语言模型(LLMs)展现了非凡的能力,但在转向现实世界应用时暴露出一个关键限制:无法在保持与普遍人类价值观一致的同时适应个人偏好。目前的对齐技术采用一刀切的方法,无法满足用户多样化的背景和需求。本文首次提供了个性化对齐的全面综述——这一范式使LLMs能够在伦理界限内根据个人偏好调整其行为。我们提出了一个统一框架,包括偏好记忆管理、个性化生成和基于反馈的对齐,系统地分析了实施方法,并评估了它们在各种场景中的有效性。通过审视当前技术、潜在风险和未来挑战,这项综述为开发更具适应性和伦理对齐的LLMs提供了结构化的基础。 |
[43] 西班牙语和巴斯克语的摘要评估指标:自动评分和大型语言模型评审与人类评审的相关性如何? 标题: Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans? 作者: Jeremy Barnes / Naiara Perez / Alba Bonet-Jover / Begoña Altuna 原文: [英文] [中文] 备注: None 摘要: 关于自动文本摘要的评估指标和作为评判者的大型语言模型(LLM-as-a-Judge)的研究主要集中在英语上,这限制了我们对其在其他语言中有效性的理解。通过我们的新数据集BASSE(巴斯克语和西班牙语摘要评估),我们收集了2040个巴斯克语和西班牙语的抽象摘要的人类判断,这些摘要是手动生成的或由五个大型语言模型通过四种不同的提示生成的。对于每个摘要,注释者根据五个标准进行5分制的李克特量表评估:连贯性、一致性、流畅性、相关性和5W1H。我们利用这些数据重新评估用于评估摘要的传统自动指标,以及在英语任务中表现出色的几种作为评判者的大型语言模型。我们的结果显示,目前专有的评判者大型语言模型与人类判断的相关性最高,其次是特定标准的自动指标,而开源的评判者大型语言模型表现较差。我们公开发布BASSE和我们的代码,以及第一个包含22,525篇新闻文章及其副标题的大规模巴斯克语摘要数据集。 |
[44] 关于调查大型语言模型时间鲁棒性的研究 标题: A Study into Investigating Temporal Robustness of LLMs 作者: Jonas Wallat / Abdelrahman Abdallah / Adam Jatowt / Avishek Anand 原文: [英文] [中文] 备注: 8 pages 摘要: 大型语言模型(LLMs)包含了大量令人惊讶的事实性世界知识。然而,它们在处理时间性问题和历史知识方面的表现有限,因为它们往往无法理解时间范围和方向,或者完全忽略时间方面。在这项研究中,我们旨在精确测量LLMs在基于时间信息处理能力以及执行需要时间推理和时间事实知识的任务时的问答稳健性。具体来说,我们设计了八个针对事实信息的时间敏感稳健性测试,以检查六个流行LLMs在零样本设置中的敏感性。总体而言,我们发现LLMs在时间稳健性方面存在不足,尤其是在时间重构和使用不同粒度的时间参考方面。我们展示了如何自动使用这八个测试中的一部分来实时判断模型对用户问题的时间稳健性。最后,我们应用这项研究的发现,将时间问答性能提高了最多55%。 |
[45] 修改大型语言模型的后训练以实现多样化的创意写作 标题: Modifying Large Language Model Post-Training for Diverse Creative Writing 作者: John Joon Young Chung / Vishakh Padmakumar / Melissa Roemmele / Yuqian Sun / Max Kreminski 原文: [英文] [中文] 备注: None 摘要: 由于创意写作任务没有唯一正确的答案,因此训练执行这些任务的大型语言模型(LLMs)应该能够生成多样化的有效输出。然而,LLM的后期训练通常侧重于提高生成质量,却忽视了促进输出多样性。因此,在创意写作生成中,我们研究了促进输出多样性和质量的后期训练方法。我们的核心思想是在训练目标中加入偏差——即训练样本与同一提示下所有其他样本之间的差异程度——以便从罕见的高质量实例中学习。通过将我们的方法应用于直接偏好优化(DPO)和赔率比偏好优化(ORPO),我们证明了可以在质量仅有微小下降的情况下促进训练模型的输出多样性。我们拥有8B参数的最佳模型能够实现与人类创建的数据集相当的多样性,同时输出质量与我们研究的最佳指令调优模型(GPT-4o和DeepSeek-R1)相似。我们进一步通过人工评估、消融实验以及与现有多样化方法DivPO的比较来验证我们的方法。 |
[46] CoKe:通过关键词链推理进行可定制的细粒度故事评估 标题: CoKe: Customizable Fine-Grained Story Evaluation via Chain-of-Keyword Rationalization 作者: Brihi Joshi / Sriram Venkatapathy / Mohit Bansal / Nanyun Peng / Haw-Shiuan Chang 原文: [英文] [中文] 备注: None 摘要: 使用语言模型评估人类创作的故事等创意文本一直是一项具有挑战性的任务,因为多标注者评分的主观性。为了模拟人类的思维过程,思维链(CoT)生成自由文本解释,以帮助指导模型的预测,而自一致性(SC)则通过多个生成的解释对预测进行边际化处理。在这项研究中,我们发现广泛使用的自一致性推理方法由于生成“流畅外观”解释与实际导致故事某方面良好评分预测之间的目标不匹配而导致次优结果。为了解决这一挑战,我们提出了关键词链(CoKe),在生成自由文本推理之前生成一系列关键词,以指导我们评估语言模型的评分预测。然后,我们生成一组多样化的关键词,并汇总与这些生成相关的分数。在StoryER数据集上,基于我们小型微调评估模型的CoKe不仅达到了人类水平的表现,并且在与人类标注者的相关性上显著超越了GPT-4,提升了2倍,同时所需参数数量也大幅减少。 |
[47] 一种基于语言锚点引导的稳健噪声域泛化方法 标题: A Language Anchor-Guided Method for Robust Noisy Domain Generalization 作者: Zilin Dai / Lehong Wang / Fangzhou Lin / Yidong Wang / Zhigang Li / Kazunori D Yamada / Ziming Zhang / Wang Lu 原文: [英文] [中文] 备注: None 摘要: 现实世界的机器学习应用常常面临两个主要挑战:分布偏移和标签噪声。模型倾向于通过关注训练数据中冗余和无信息的特征而过拟合,这使得它们难以推广到目标领域。噪声数据通过导致进一步对噪声的过拟合来加剧这个问题,这意味着现有方法常常无法区分真实的、不变的特征和误导性的、虚假的特征。为了解决这些问题,我们引入了锚点对齐和自适应加权(A3W)。这一新算法利用自然语言处理(NLP)锚点指导的样本重加权来提取更具代表性的特征。简单来说,A3W利用来自自然语言模型的语义表示作为领域不变的先验知识来源。此外,它采用加权损失函数,根据每个样本与相应NLP锚点的相似性调整其贡献。这一调整使得模型对噪声标签更加稳健。在标准基准数据集上的大量实验表明,A3W在不同数据集和噪声水平上始终优于最先进的领域泛化方法,在准确性和稳健性方面提供了显著的改进。 |
[48] 使用大型语言模型自动裁定心血管事件 标题: Automating Adjudication of Cardiovascular Events Using Large Language Models 作者: Sonish Sivarajkumar / Kimia Ameri / Chuqin Li / Yanshan Wang / Min Jiang 原文: [英文] 备注: None 摘要: 心血管事件,如心脏病发作和中风,仍然是全球范围内的主要死亡原因,这需要在临床试验中进行细致的监测和裁定。传统上,这一过程由临床专家手动执行,耗时、资源密集,并且容易出现审阅者之间的差异,可能引入偏差并阻碍试验进展。本研究通过提出一个新颖的框架来解决这些关键限制,该框架利用大型语言模型(LLMs)自动化临床试验中心血管事件的裁定。我们开发了一个两阶段的方法:首先,使用基于LLM的流程从非结构化临床数据中提取事件信息;其次,使用基于LLM的裁定过程,该过程由思维树方法和临床终点委员会(CEC)指南指导。使用特定于心血管事件的临床试验数据,该框架在事件提取方面达到了0.82的F1分数,在裁定方面达到了0.68的准确率。此外,我们引入了CLEART评分,这是一种新颖的自动化指标,专门用于评估AI生成的临床推理在裁定心血管事件中的质量。这种方法显示出显著的潜力,可以大幅减少裁定时间和成本,同时在临床试验中保持高质量、一致性和可审计的结果。减少的变异性和增强的标准化还允许更快地识别和缓解与心血管治疗相关的风险。 |
[49] SafeMERGE:通过选择性层级模型合并在微调的大型语言模型中保持安全对齐 标题: SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging 作者: Aladin Djuhera / Swanand Ravindra Kadhe / Farhan Ahmed / Syed Zawad / Holger Boche 原文: [英文] [中文] 备注: None 摘要: 微调大型语言模型(LLMs)以适应下游任务时,即使是对良性微调数据集,也可能无意中削弱其安全对齐性。我们通过提出SafeMERGE来应对这一挑战,这是一种在微调后保持安全性同时维持任务效用的框架。它通过选择性地合并微调后的模型层和安全对齐的模型层来实现这一点,仅在这些层偏离安全行为时进行合并,偏离程度通过余弦相似性标准来衡量。我们在GSM8K和PubMedQA任务上评估了SafeMERGE,并与其他微调和微调后阶段的方法进行了比较,使用的模型包括Llama-2-7B-Chat和Qwen-2-7B-Instruct,同时探索了不同的合并策略。我们发现,与其他基线相比,SafeMERGE始终能减少有害输出,而不会显著牺牲性能,有时甚至能提升性能。结果表明,我们的选择性、子空间引导和逐层合并方法在防止微调LLMs中安全性无意丧失方面提供了有效的保障,同时优于更简单的微调后阶段防御措施。 |
[50] KL3M 分词器:用于法律、金融和预处理应用的特定领域和字符级分词器家族 标题: KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications 作者: Michael J Bommarito / Daniel Martin Katz / Jillian Bommarito 原文: [英文] [中文] 备注: 12 pages, 7 tables, 3 figures; Source code available at this https URL 摘要: 我们介绍了KL3M分词器,这是一系列专门用于法律、金融和政府文本的分词器。尽管在分词方面已有成熟的研究,但针对专业领域的专门分词器仍然研究不足。我们的论文为这一领域提供了两个主要贡献。 首先,我们为法律、金融和政府文本引入了领域特定的BPE分词器。我们的kl3m-004-128k-cased分词器在处理领域特定文档时使用的标记比GPT-4o和Llama3少9-17%,尽管其词汇量较小。对于专业术语,我们的大小写分词器效率更高,处理法律术语时最多可减少83%的标记,处理金融术语时最多可减少39%的标记。 其次,我们开发了字符级BPE分词器(词汇量为4K、8K和16K),用于OCR后处理等文本校正任务。这些分词器在包含错误的文本和正确文本之间保持一致的标记边界,使模型更容易学习校正模式。 这些分词器通过在上下文窗口中容纳更多文本、减少计算需求以及保留领域特定术语的意义来帮助专业应用。我们的分析表明,这些效率提升直接有利于处理冗长的法律和金融文档。我们通过GitHub和Hugging Face发布所有分词器和代码,以支持专门分词的进一步研究。 |
[51] CASE -- 用于条件语义文本相似性测量的条件感知句子嵌入 标题: CASE -- Condition-Aware Sentence Embeddings for Conditional Semantic Textual Similarity Measurement 作者: Gaifan Zhang / Yi Zhou / Danushka Bollegala 原文: [英文] [中文] 备注: None 摘要: 句子所传达的意义通常依赖于其出现的上下文。尽管句子嵌入方法取得了一定进展,但如何在给定上下文的条件下最佳地修改句子嵌入仍不明确。为了解决这个问题,我们提出了条件感知句子嵌入(CASE),这是一种在给定条件下为句子创建嵌入的高效且准确的方法。首先,CASE 使用大型语言模型(LLM)为条件创建嵌入,其中句子会影响在池化过程中为条件中的标记计算的注意力分数。接下来,学习一个有监督的非线性投影,以降低基于 LLM 的文本嵌入的维度。我们展示了 CASE 在现有标准基准数据集上显著优于先前提出的条件语义文本相似性(C-STS)方法。我们发现,减去条件嵌入可以一致地提高基于 LLM 的文本嵌入的 C-STS 性能。此外,我们提出了一种有监督的降维方法,该方法不仅降低了基于 LLM 的嵌入的维度,还显著提高了它们的性能。 |
[52] FastCuRL: 通过渐进式上下文扩展进行课程强化学习以高效训练类似R1的推理模型 标题: FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models 作者: Mingyang Song / Mao Zheng / Zheng Li / Wenjie Yang / Xuan Luo / Yue Pan / Feng Zhang 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们提出了一种简单而高效的课程强化学习方法,称为\textbf{\textsc{FastCuRL}},该方法通过上下文窗口扩展策略来加速R1类推理模型的强化学习训练效率,同时提升其在处理具有长链式思维推理的复杂推理任务中的表现,特别是在使用1.5B参数语言模型的情况下。 \textbf{\textsc{FastCuRL}}由两个主要步骤组成:长度感知的训练数据分割和上下文窗口扩展训练。具体来说,前者首先根据输入提示的长度将原始训练数据分为三个不同的级别,然后后者利用分段的训练数据集,通过逐步增加的上下文窗口长度来训练推理模型。实验结果表明,\textbf{\textsc{FastCuRL}}-1.5B-Preview在所有五个数据集(包括MATH 500、AIME 2024、AMC 2023、Minerva Math和OlympiadBench)上均超越了DeepScaleR-1.5B-Preview,同时仅使用了50\%的训练步骤。此外,FastCuRL-1.5B-Preview的所有训练阶段仅使用一个节点和8个GPU完成。 |
[53] 使用来自大型语言模型的知识蒸馏进行多方对话的高效意图过滤 标题: Efficient Intent-Based Filtering for Multi-Party Conversations Using Knowledge Distillation from LLMs 作者: Reem Gody / Mohamed Abdelghaffar / Mohammed Jabreel / Ahmed Tawfik 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在对话式人工智能中展示了非凡的能力,使聊天机器人能够进行开放域的响应,并能够进行高级对话处理,如摘要、意图分类和洞察生成。然而,这些模型资源密集,要求大量的内存和计算能力。为了解决这个问题,我们提出了一种经济高效的解决方案,该方案过滤感兴趣的对话片段以供LLM处理,针对目标下游应用进行定制,而不是处理每个片段。在这项工作中,我们介绍了一种创新的方法,该方法利用LLM的知识蒸馏来开发一个基于意图的过滤器,用于多方对话,优化用于计算能力受限的环境。我们的方法结合了不同的策略来创建一个多样化的多方对话数据集,该数据集标注了目标意图,然后用于微调MobileBERT模型以进行多标签意图分类。该模型在效率和性能之间实现了平衡,有效地根据意图过滤对话片段。通过仅将相关片段传递给LLM进行进一步处理,我们的方法显著降低了整体运营成本,具体取决于意图和数据分布,如我们的实验所示。 |
[54] 与批评共舞:通过逐步自然语言自我批评增强大型语言模型的推理能力 标题: Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique 作者: Yansi Li / Jiahao Xu / Tian Liang / Xingyu Chen / Zhiwei He / Qiuzhi Liu / Rui Wang / Zhuosheng Zhang / Zhaopeng Tu / Haitao Mi / Dong Yu 原文: [英文] [中文] 备注: None 摘要: 增强大型语言模型(LLMs)的推理能力,特别是对于需要多步骤逻辑推导的复杂任务,仍然是一个重大挑战。传统的推理时间缩放方法利用过程奖励模型的标量奖励信号来评估候选推理步骤,但这些标量奖励缺乏理解和证明每个步骤所需的细致定性信息。在本文中,我们提出了一种新颖的推理时间缩放方法——逐步自然语言自我批判(PANEL),该方法通过自生成的自然语言批判作为反馈来指导步骤级搜索过程。通过为每个候选推理步骤生成丰富的、可读的人类批判,PANEL保留了必要的定性信息,从而在推理过程中促进更明智的决策。此方法无需任务特定的验证器及相关的训练开销,使其在各种任务中广泛适用。在包括AIME和GPQA在内的具有挑战性的推理基准测试中,实验结果表明PANEL显著增强了推理性能,优于传统的基于标量奖励的方法。我们的代码可在此https URL获取,以支持和鼓励该有前途领域的未来研究。 |