scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CL方向,2025年4月25日更新论文39
[1] 用于单细胞数据的双向曼巴:具有生物保真度的高效上下文学习
标题: Bidirectional Mamba for Single-Cell Data: Efficient Context Learning with Biological Fidelity
作者: Cong Qi / Hanzhang Fang / Tianxing Hu / Siqi Jiang / Wei Zhi
原文:   [英文]  
备注: None
摘要:
单细胞RNA测序(scRNA-seq)能够对细胞异质性进行高分辨率分析,但其复杂性——表现为高维度、稀疏性和批次效应——带来了主要的计算挑战。基于Transformer的模型在这一领域取得了显著进展,但通常受限于其二次复杂性和对长程依赖处理的不理想。在这项工作中,我们介绍了GeneMamba,这是一种基于状态空间建模的可扩展且高效的单细胞转录组学基础模型。GeneMamba利用Bi-Mamba架构,以线性时间复杂度捕捉双向基因上下文,相较于Transformer基线提供了显著的计算优势。该模型在近3000万个细胞上进行了预训练,并结合了生物学信息的目标,包括通路感知的对比损失和基于排名的基因编码。我们在多种任务中评估了GeneMamba,包括多批次整合、细胞类型注释和基因-基因相关性,展示了其强大的性能、可解释性和鲁棒性。这些结果使GeneMamba成为Transformer方法的实用且强大的替代方案,推动了生物学基础、可扩展的大规模单细胞数据分析工具的发展。

[2] 分词很重要:提升印度语言的零样本命名实体识别
标题: Tokenization Matters: Improving Zero-Shot NER for Indic Languages
作者: Priyaranjan Pattnayak / Hitesh Laxmichand Patel / Amit Agarwal
原文:   [英文]   [中文]  
备注: None
摘要:
分词是自然语言处理(NLP)的关键组成部分,尤其对于低资源语言,子词分割会影响词汇结构和下游任务的准确性。尽管字节对编码(BPE)是多语言模型中的标准分词方法,但由于其在处理形态复杂性方面的局限性,其在低资源印度语言中的命名实体识别(NER)适用性仍未得到充分探索。在这项工作中,我们系统地比较了使用IndicBERT在低资源印度语言(如阿萨姆语、孟加拉语、马拉地语和奥里亚语)以及极低资源印度语言(如桑塔利语、曼尼普尔语和信德语)中进行NER任务的BPE、SentencePiece和字符级分词策略。我们评估了内在的语言属性分词效率、词汇外(OOV)率和形态保留,以及外在的下游性能,包括微调和零样本跨语言迁移。 我们的实验表明,SentencePiece在低资源印度语言的NER任务中是一种持续表现更好的方法,特别是在零样本跨语言设置中,因为它更好地保持了实体的一致性。虽然BPE提供了最紧凑的分词形式,但由于在测试未见语言时错误分类甚至无法识别实体标签,它无法实现泛化。相比之下,SentencePiece构成了更好的语言结构保留模型,有利于极低资源和形态丰富的印度语言,如桑塔利语和曼尼普尔语,实现更优的实体识别,以及在不同书写系统(如阿拉伯文书写的信德语)中的高泛化。结果表明,SentencePiece是多语言和低资源印度NLP应用中NER的更有效分词策略。

[3] 优化意大利语大型语言模型:通过词汇适应减少标记繁殖并提高效率
标题: Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation
作者: Luca Moroni / Giovanni Puccetti / Pere-Lluis Huguet Cabot / Andrei Stefan Bejgu / Edoardo Barba / Alessio Miaschi / Felice Dell'Orletta / Andrea Esuli / Roberto Navigli
原文:   [英文]   [中文]  
备注: None
摘要:
预训练的大型语言模型(LLMs)的数量正在稳步增加,尽管大多数模型主要是为英语设计的。虽然最先进的LLMs可以处理其他语言,但由于语言污染或某种程度的多语言预训练数据,它们并未针对非英语语言进行优化,导致编码效率低下(高标记“繁殖率”)和推理速度较慢。在这项工作中,我们全面比较了多种词汇适应技术,以优化英语LLMs用于意大利语,并提出了语义对齐词汇适应(SAVA),这是一种利用神经映射进行词汇替换的新方法。SAVA在多个下游任务中实现了具有竞争力的性能,增强了基础对齐策略。我们调整了两个LLMs:Mistral-7b-v0.1,将标记繁殖率降低了25%,以及Llama-3.1-8B,优化了词汇并将参数数量减少了10亿。我们展示了,在词汇适应之后,这些模型可以通过相对有限的持续训练阶段恢复其在目标语言上的性能。最后,我们在各种多选和生成任务上测试了适应后的模型的能力。

[4] 词语是否反映信念?评估大型语言模型中的信念深度
标题: Do Words Reflect Beliefs? Evaluating Belief Depth in Large Language Models
作者: Shariar Kabir / Kevin Esterling / Yue Dong
原文:   [英文]   [中文]  
备注: 20 pages, 9 figures
摘要:
大型语言模型(LLMs)正日益影响政治话语,但在仔细审查下,它们的回应往往表现出不一致性。尽管先前的研究主要通过将LLM输出分类为左倾或右倾来评估其政治立场,但一个关键问题仍然存在:这些回应是反映了真正的内部信念,还是仅仅是与训练数据的表面对齐?为了解决这个问题,我们提出了一个新的框架,通过分析(1)论证一致性和(2)不确定性量化来评估信念深度。我们在政治罗盘测试中的19项经济政策上评估了12个LLM,通过支持和反对的论点挑战它们的信念稳定性。我们的分析表明,LLM表现出特定主题的信念稳定性,而不是统一的意识形态立场。值得注意的是,左倾模型的回应中多达95%和右倾模型的回应中多达89%在挑战下保持一致,使语义熵能够实现高准确性(AUROC=0.78),有效地区分表面对齐和真正信念。这些发现质疑了LLM保持稳定的、类似人类的政治意识形态的假设,强调了在实际应用中进行特定主题可靠性评估的重要性。

[5] 同意不同意?对大型语言模型性别误判的元评估
标题: Agree to Disagree? A Meta-Evaluation of LLM Misgendering
作者: Arjun Subramonian / Vagrant Gautam / Preethi Seshadri / Dietrich Klakow / Kai-Wei Chang / Yizhou Sun
原文:   [英文]   [中文]  
备注: Work in progress
摘要:
已经提出了许多方法来测量大型语言模型(LLM)的性别误用,包括基于概率的评估(例如,自动使用模板句子)和基于生成的评估(例如,使用自动启发式或人工验证)。然而,这些评估方法是否具有收敛效度,即它们的结果是否一致,尚未得到检验。因此,我们对这些方法在三个现有的LLM性别误用数据集上进行了系统的元评估。我们提出了一种方法来转换每个数据集,以实现并行的概率和生成评估。然后,通过自动评估来自三个系列的六个模型,我们发现这些方法在实例、数据集和模型层面上可能会互相不一致,在20.2%的评估实例中存在冲突。最后,通过对2400个LLM生成的人工评估,我们表明性别误用行为是复杂的,远远超出了代词的范围,而自动评估目前无法捕捉到这些复杂性,这表明与人工评估存在根本性分歧。根据我们的发现,我们为未来的LLM性别误用评估提供了建议。我们的结果也具有更广泛的相关性,因为它们质疑了LLM评估中的更广泛的方法论惯例,这些惯例通常假设不同的评估方法是一致的。

[6] 个体特征和语言风格如何影响开放式用户-大语言模型交互中的偏好:一项初步研究
标题: How Individual Traits and Language Styles Shape Preferences In Open-ended User-LLM Interaction: A Preliminary Study
作者: Rendi Chevi / Kentaro Inui / Thamar Solorio / Alham Fikri Aji
原文:   [英文]   [中文]  
备注: Accepted at GenAICHI 2025 @ ACM CHI 2025
摘要:
是什么让用户更偏好与大型语言模型(LLM)的互动?虽然直觉上认为LLM回复中的信息准确性是一个重要因素,但最近的研究发现,当LLM的回复被认为更具权威性、确定性、表达良好或仅仅是冗长时,即使不准确的回复也可能更受欢迎。这些因素有趣地归入语言风格的广泛类别,暗示LLM回复中的风格可能会显著影响用户的偏好。这种假设的动态可能会带来双刃剑的后果:提升整体用户体验,同时增加他们对LLM误导信息或幻觉的风险。在这篇简短的论文中,我们展示了探索这一主题的初步研究。通过一系列探索性和实验性用户研究,我们发现LLM的语言风格确实影响用户的偏好,但影响偏好的语言风格因不同用户群体而异,更有趣的是,这种影响受到用户自身个性特征的调节。作为初步工作,我们的研究结果应谨慎解读,特别是考虑到样本的局限性,仍需更广泛的人口多样性和更大的样本量。我们的未来方向将首先着手解决这些限制,从而能够进行语言风格、个性特征和偏好之间更全面的联合效应分析,并进一步探讨这些变量之间及其之外的潜在因果关系。

[7] Co-CoT:一种基于提示的协作链式思维推理框架
标题: Co-CoT: A Prompt-Based Framework for Collaborative Chain-of-Thought Reasoning
作者: Seunghyun Yoo
原文:   [英文]  
备注: 5 page
摘要:
由于短视频内容的激增和人工智能的快速普及,深度反思的机会显著减少,削弱了用户的批判性思维,并降低了对人工智能生成结果背后推理的参与度。为了解决这个问题,我们提出了一种交互式思维链(CoT)框架,通过使模型的推理过程透明、模块化和用户可编辑,增强以人为中心的可解释性和负责任的人工智能使用。该框架将推理分解为明确定义的模块,用户可以检查、修改和重新执行,鼓励主动的认知参与而非被动的消费。它进一步集成了一种轻量级的编辑适应机制,灵感来自偏好学习,使系统能够与多样的认知风格和用户意图保持一致。通过明确的元数据披露、内置的偏见检查功能和隐私保护措施,确保伦理透明性。本文概述了促进批判性参与、负责任互动和包容性适应的设计原则和架构,以应对复杂的社会挑战。

[8] 小型语言模型在医疗保健中的崛起:全面综述
标题: The Rise of Small Language Models in Healthcare: A Comprehensive Survey
作者: Muskan Garg / Shaina Raza / Shebuti Rayana / Xingyi Liu / Sunghwan Sohn
原文:   [英文]   [中文]  
备注: 35 pages, 7 tables, 5 figures
摘要:
尽管大型语言模型(LLMs)在医疗保健应用中取得了显著进展,但数据隐私和资源有限的问题日益受到关注;小型语言模型(SLMs)为资源受限环境中的下一代医疗信息学提供了一种可扩展且临床可行的解决方案,以实现高效性能。我们的综合调查为医疗专业人员和信息学家提供了一个分类框架,以识别和分类这些模型。医疗SLM贡献的时间线建立了一个基础框架,用于从三个维度分析模型:自然语言处理任务、利益相关者角色和护理连续性。我们提出了一个分类框架,以识别从头开始构建模型的架构基础;通过提示、指令微调和推理将SLMs调整到临床精度;以及通过压缩技术实现可访问性和可持续性。我们的主要目标是为医疗专业人员提供一份全面的调查,介绍模型优化的最新创新,并为他们提供精心策划的资源,以支持该领域未来的研究和发展。旨在展示SLMs在医疗保健领域的突破性进展,我们提供了一份全面的实验结果汇编,涵盖医疗保健中广泛研究的自然语言处理任务,以突出SLMs在医疗保健中的变革潜力。更新后的资料库可在Github上获取。

[9] 掌控审查船:揭示大型语言模型“思维”控制的表示向量
标题: Steering the CensorShip: Uncovering Representation Vectors for LLM "Thought" Control
作者: Hannah Cyberey / David Evans
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)已经改变了我们获取信息的方式。这些模型通常经过调整,以拒绝执行被认为有害的请求,并生成更符合模型控制者偏好的响应。为了理解这种“审查”是如何运作的,我们使用表示工程技术来研究开放权重的安全调优模型。我们提出了一种方法,用于找到一个拒绝-服从向量,该向量可以检测和控制模型输出中的审查水平。我们还分析了从DeepSeek-R1提炼出的最新推理LLMs,并揭示了通过“思想抑制”实现的另一维度的审查。我们展示了可以使用类似的方法找到一个向量,该向量可以抑制模型的推理过程,从而通过应用该向量的负倍数来去除审查。

[10] MIRAGE:用于检索增强生成评估的度量密集型基准
标题: MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation
作者: Chanhee Park / Hyeonseok Moon / Chanjun Park / Heuiseok Lim
原文:   [英文]   [中文]  
备注: Accepted to NAACL2025 Findings
摘要:
检索增强生成(RAG)作为一种通过整合外部知识来提升大型语言模型(LLMs)生成能力的有效方法,已经获得了广泛关注。然而,由于检索和生成组件之间复杂的相互作用,RAG系统的评估仍然是一个挑战。这一限制导致了缺乏能够进行详细、组件特定评估的基准。在这项工作中,我们提出了MIRAGE,一个专门为RAG评估设计的问答数据集。MIRAGE由7,560个精心策划的实例组成,这些实例映射到一个包含37,800个条目的检索池中,从而能够高效且精确地评估检索和生成任务。我们还引入了新的评估指标,旨在衡量RAG的适应性,涵盖噪声易感性、上下文可接受性、上下文不敏感性和上下文误解等维度。通过对各种检索器-LLM配置进行全面实验,我们提供了关于模型对的最佳匹配和RAG系统内细微动态的新见解。数据集和评估代码是公开可用的,允许在不同的研究环境中无缝集成和定制。

[11] Paper2Code:从机器学习科学论文自动生成代码
标题: Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
作者: Minju Seo / Jinheon Baek / Seongyun Lee / Sung Ju Hwang
原文:   [英文]  
备注: None
摘要:
尽管机器学习研究迅速发展,但相应的代码实现往往不可用,这使得研究人员在重现结果和基于先前工作进行构建时变得缓慢且劳动密集。同时,最近的大型语言模型(LLMs)在理解科学文档和生成高质量代码方面表现出色。受此启发,我们介绍了PaperCoder,一个将机器学习论文转化为功能性代码库的多代理LLM框架。PaperCoder在三个阶段运行:规划阶段,构建高层次的路线图,设计系统架构图,识别文件依赖关系,并生成配置文件;分析阶段,专注于解释具体实现细节;生成阶段,生成模块化、依赖感知的代码。此外,每个阶段都通过一组专门设计的代理实例化,以在整个流程中有效协作。然后,我们通过基于模型和人工评估,特别是来自原论文作者的评估,以及作者发布的代码库作为真实数据(如果可用),来评估PaperCoder从机器学习论文生成代码实现的效果。我们的结果证明了PaperCoder在创建高质量、忠实实现方面的有效性。此外,它在最近发布的PaperBench基准测试中表现出色,显著超越了强大的基线。

[12] 基于RAG的多智能体大语言模型系统用于自然灾害的韧性和适应
标题: A RAG-Based Multi-Agent LLM System for Natural Hazard Resilience and Adaptation
作者: Yangxinyu Xie / Bowen Jiang / Tanwi Mallick / Joshua David Bergerson / John K. Hutchison / Duane R. Verner / Jordan Branham / M. Ross Alexander / Robert B. Ross / Yan Feng / Leslie-Anne Levy / Weijie Su / Camillo J. Taylor
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)是人工智能和机器学习前沿的一种变革性能力,可以帮助决策者应对诸如极端自然灾害事件等紧迫的社会挑战。作为通用模型,LLMs 往往难以提供特定情境的信息,特别是在需要专业知识的领域。在这项工作中,我们提出了一种基于检索增强生成(RAG)的多代理LLM系统,以支持自然灾害和极端天气事件背景下的分析和决策。作为概念验证,我们展示了 WildfireGPT,一个专注于野火灾害的专业系统。该架构采用以用户为中心的多代理设计,为不同的利益相关者群体提供量身定制的风险洞察。通过在 RAG 框架中整合自然灾害和极端天气预测数据、观测数据集和科学文献,该系统确保了其提供的信息的准确性和情境相关性。通过十个专家主导的案例研究的评估表明,WildfireGPT 在决策支持方面显著优于现有的基于 LLM 的解决方案。

[13] 知识蒸馏对基于大型语言模型的捆绑生成是否重要?
标题: Does Knowledge Distillation Matter for Large Language Model based Bundle Generation?
作者: Kaidong Feng / Zhu Sun / Jie Yang / Hui Fang / Xinghua Qu / Wenyuan Liu
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)因其推理能力和知识而越来越多地被用于生成捆绑包。然而,部署大规模的LLMs带来了显著的效率挑战,主要是由于其庞大的参数化导致在微调和推理过程中出现高计算成本。知识蒸馏(KD)提供了一种有前途的解决方案,将大型教师模型的专业知识转移到紧凑的学生模型中。本研究系统地调查了用于捆绑包生成的知识蒸馏方法,旨在尽量减少计算需求,同时保持性能。我们探讨了三个关键研究问题:(1)知识蒸馏的格式如何影响捆绑包生成性能?(2)蒸馏知识的数量在多大程度上影响性能?以及(3)利用蒸馏知识的不同方式如何影响性能?我们提出了一个全面的知识蒸馏框架,该框架(i)逐步提取知识(模式、规则、深层思考);(ii)通过不同策略捕获不同数量的蒸馏知识;以及(iii)利用互补的LLM适应技术(上下文学习、监督微调、组合)在小型学生模型中利用蒸馏知识进行特定领域的适应和提高效率。广泛的实验提供了关于知识格式、数量和利用方法如何共同影响基于LLM的捆绑包生成性能的宝贵见解,展示了知识蒸馏在实现更高效且有效的基于LLM的捆绑包生成方面的巨大潜力。

[14] 清晰:通过多轮支持性对话进行负面思维的认知重构
标题: Crisp: Cognitive Restructuring of Negative Thoughts through Multi-turn Supportive Dialogues
作者: Jinfeng Zhou / Yuxuan Chen / Jianing Yin / Yongkang Huang / Yihan Shi / Xikun Zhang / Libiao Peng / Rongsheng Zhang / Tangjie Lv / Zhipeng Hu / Hongning Wang / Minlie Huang
原文:   [英文]   [中文]  
备注: None
摘要:
认知重构(CR)是一种心理治疗过程,旨在通过多轮对话识别和重构个体因心理健康问题而产生的消极想法,将其转变为更有帮助和积极的想法。由于临床医生短缺和社会污名化,推动了人类与大型语言模型(LLM)互动的心理治疗的发展。然而,现有的努力通过简单的文本重写、固定模式对话或一次性CR工作流程来实现CR,未能与有效CR的心理治疗过程相一致。为了解决这一差距,我们提出了CRDial,这是一种用于CR的新框架,它通过专门设计的消极想法识别和重构阶段创建多轮对话,整合句子级支持性对话策略,并采用多通道循环机制以实现迭代CR。借助CRDial,我们从LLM中提炼出Crisp,一个大规模且高质量的双语对话数据集。然后,我们在7B和14B规模上训练了Crispers,即基于Crisp的用于CR的对话LLM。大量的人类研究表明,Crispers在逐点、成对和干预评估中具有优越性。

[15] 使用递归神经网络和迁移学习的低资源神经机器翻译:英语到伊博语的案例研究
标题: Low-Resource Neural Machine Translation Using Recurrent Neural Networks and Transfer Learning: A Case Study on English-to-Igbo
作者: Ocheme Anthony Ekle / Biswarup Das
原文:   [英文]   [中文]  
备注: 25 pages, 14 combined figures (19 total), includes horizontal layouts. Submitted to arXiv for open access
摘要:
在这项研究中,我们开发了基于神经机器翻译(NMT)和Transformer的迁移学习模型,用于英语到伊博语的翻译——伊博语是一种资源稀缺的非洲语言,超过4000万人在尼日利亚和西非地区使用。我们的模型在经过精心整理和基准测试的数据集上进行训练,该数据集由圣经语料库、当地新闻、维基百科文章和Common Crawl组成,并由母语专家验证。我们利用包括长短时记忆(LSTM)和门控循环单元(GRU)在内的循环神经网络(RNN)架构,并通过注意力机制来提高翻译准确性。为了进一步提升性能,我们在SimpleTransformers框架内应用MarianNMT预训练模型进行迁移学习。我们的基于RNN的系统取得了具有竞争力的结果,与现有的英语-伊博语基准相当。通过迁移学习,我们观察到性能提升了+4.83 BLEU分,翻译准确性达到了约70%。这些发现突显了结合RNN和迁移学习在解决资源稀缺语言翻译任务中的性能差距的有效性。

[16] JurisCTC:通过跨领域迁移和对比学习提升法律判决预测
标题: JurisCTC: Enhancing Legal Judgment Prediction via Cross-Domain Transfer and Contrastive Learning
作者: Zhaolu Kang / Hongtian Cai / Xiangyang Ji / Jinzhe Li / Nanfei Gu
原文:   [英文]   [中文]  
备注: Accepted in International Joint Conference on Neural Networks (IJCNN) 2025
摘要:
近年来,随着其在自然语言处理(NLP)领域增强模型在不同领域间的泛化能力,无监督领域适应(UDA)受到了广泛关注。然而,其在不同法律领域之间进行知识转移的应用仍然基本未被探索。为了应对冗长复杂的法律文本以及大规模标注数据集有限的问题,我们提出了JurisCTC,一种旨在提高法律判决预测(LJP)任务准确性的创新模型。与现有方法不同,JurisCTC促进了在不同法律领域间的有效知识转移,并采用对比学习来区分来自不同领域的样本。具体而言,对于LJP任务,我们实现了民法和刑法领域之间的知识转移。与其他模型和特定的大型语言模型(LLMs)相比,JurisCTC表现出显著的进步,分别达到了76.59%和78.83%的最高准确率。

[17] 评估和减轻基于人工智能的医学文本生成中的偏见
标题: Evaluating and Mitigating Bias in AI-Based Medical Text Generation
作者: Xiuying Chen / Tairan Wang / Juexiao Zhou / Zirui Song / Xin Gao / Xiangliang Zhang
原文:   [英文]   [中文]  
备注: 12 pages, 8 figures, published in Nature Computational Science
摘要:
人工智能(AI)系统,特别是基于深度学习模型的系统,在医疗应用中越来越多地达到了专家级的表现。然而,人们越来越担心这些AI系统可能反映并放大人类偏见,并降低其在历史上服务不足人群中的表现质量。公平性问题在医学影像分类领域引起了相当大的研究兴趣,但在文本生成领域仍然研究不足。在本研究中,我们调查了医学领域文本生成中的公平性问题,并观察到在不同种族、性别和年龄组(包括交叉群体)、各种模型规模和不同评估指标之间存在显著的性能差异。为缓解这一公平性问题,我们提出了一种算法,选择性地优化那些表现不佳的群体以减少偏见。选择规则不仅考虑了词级准确性,还考虑了目标参考的病理准确性,同时确保整个过程保持完全可微以实现有效的模型训练。我们在多个骨干网络、数据集和模态上的评估表明,我们提出的算法在不影响整体性能的情况下增强了文本生成的公平性。具体而言,使用我们的算法,不同群体在不同指标上的差异减少了30%以上,而文本生成准确性的相对变化通常在2%以内。通过减少深度学习模型产生的偏见,我们提出的方法有可能缓解对医学领域文本生成诊断的公平性和可靠性的担忧。我们的代码已公开以促进进一步研究,网址为此https URL。

[18] CoheMark:一种用于提升文本质量的新型句子级水印
标题: CoheMark: A Novel Sentence-Level Watermark for Enhanced Text Quality
作者: Junyan Zhang / Shuliang Liu / Aiwei Liu / Yubo Gao / Jungang Li / Xiaojie Gu / Xuming Hu
原文:   [英文]   [中文]  
备注: Published at the 1st workshop on GenAI Watermarking, collocated with ICLR 2025
摘要:
水印技术是一种用于追踪由大型语言模型生成的内容使用情况的方法。句子级水印有助于在保持更高鲁棒性的同时维护单个句子的语义完整性。然而,许多现有的句子级水印技术依赖于任意的分割或生成过程来嵌入水印,这可能限制适当句子的可用性。这种限制反过来会影响生成响应的质量。为了解决高文本质量与强水印检测之间的平衡挑战,我们提出了CoheMark,这是一种先进的句子级水印技术,利用句子之间的连贯关系以实现更好的逻辑流畅性。CoheMark的核心方法包括通过训练的模糊c均值聚类选择句子,并应用特定的下一句选择标准。实验评估表明,CoheMark在对文本质量影响最小的情况下实现了强水印强度。

[19] FLUKE:一种语言驱动且任务无关的鲁棒性评估框架
标题: FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation
作者: Yulia Otmakhova / Hung Thinh Truong / Rahmad Mahendra / Zenan Zhai / Rongxin Zhu / Daniel Beck / Jey Han Lau
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了FLUKE(语言驱动和任务无关的鲁棒性评估框架),这是一个通过系统性地对测试数据进行最小化变动来评估模型鲁棒性的任务无关框架。FLUKE在语言层面上引入了受控变动——从正字法到方言和风格变化,并利用大型语言模型(LLM)与人工验证来生成修改。我们通过在四个不同的自然语言处理任务中评估微调模型和LLM,展示了FLUKE的实用性,并揭示了:(1)语言变动的影响高度依赖于任务,对于某些任务来说某些测试至关重要,而对其他任务则无关紧要;(2)虽然LLM相比微调模型具有更好的整体鲁棒性,但它们仍然对某些语言变动表现出显著的脆弱性;(3)所有模型在大多数任务中对否定修改表现出显著的脆弱性。这些发现强调了系统性鲁棒性测试对于理解模型行为的重要性。

[20] 弥合认知与情感:基于同理心的多模态虚假信息检测
标题: Bridging Cognition and Emotion: Empathy-Driven Multimodal Misinformation Detection
作者: Zihan Wang / Lu Yuan / Zhengxuan Zhang / Qing Zhao
原文:   [英文]   [中文]  
备注: None
摘要:
在数字时代,社交媒体已成为信息传播的主要渠道,但它也促进了错误信息的快速传播。传统的错误信息检测方法主要关注表层特征,忽视了人类同理心在传播过程中的关键作用。为了解决这一问题,我们提出了双重视角同理心框架(DAE),该框架整合了认知和情感同理心,从创作者和读者的角度分析错误信息。通过研究创作者的认知策略和情感诉求,以及利用大型语言模型(LLMs)模拟读者的认知判断和情感反应,DAE提供了一种更全面且以人为中心的错误信息检测方法。此外,我们进一步引入了一种同理心感知过滤机制,以增强响应的真实性和多样性。基准数据集上的实验结果表明,DAE优于现有方法,为多模态错误信息检测提供了一种新的范式。

[21] M-MRE:将互相增强效应扩展到多模态信息抽取
标题: M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction
作者: Chengguang Gan / Sunbowen Lee / Zhixi Cai / Yanbin Wei / Lei Zheng / Yunhao Liang / Shiwen Ni / Tatsunori Mori
原文:   [英文]   [中文]  
备注: None
摘要:
互相增强效应(MRE)是信息提取和模型可解释性交叉领域的新兴子领域。MRE旨在利用不同粒度任务之间的相互理解,通过联合建模提升粗粒度和细粒度任务的性能。虽然MRE在文本领域已经被探索和验证,但其在视觉和多模态领域的适用性仍未被探索。在这项工作中,我们首次将MRE扩展到多模态信息提取领域。具体来说,我们引入了一个新任务:多模态互相增强效应(M-MRE),并构建了一个相应的数据集以支持该任务。为了解决M-MRE带来的挑战,我们进一步提出了一种完全兼容各种大型视觉语言模型(LVLMs)的提示格式适配器(PFA)。实验结果表明,在多模态文本-图像理解场景中,MRE也可以在M-MRE任务中观察到。这为MRE在三个相关任务中促进相互收益提供了强有力的证据,确认了其在文本领域之外的普适性。

[22] PatientDx:融合大型语言模型以保护医疗数据隐私
标题: PatientDx: Merging Large Language Models for Protecting Data-Privacy in Healthcare
作者: Jose G. Moreno / Jesus Lovon / M'Rick Robin-Charlet / Christine Damase-Michel / Lynda Tamine
原文:   [英文]   [中文]  
备注: None
摘要:
微调大型语言模型(LLMs)已成为提高特定任务模型性能的默认做法。然而,性能的提升需要在大量标注数据上进行训练,这些数据可能是敏感的,从而导致显著的数据隐私问题。尤其是在医疗领域,这是一个最容易受到数据隐私问题影响的敏感领域。在本文中,我们提出了PatientDx,这是一种模型合并框架,允许在不需要对患者数据进行微调或适配的情况下,为健康预测任务设计有效的LLMs。我们的提议基于最近提出的LLMs合并技术,旨在优化构建块合并策略。PatientDx使用一个适应于数值推理的关键模型,并在基于性能指标的示例上调整超参数,但不对这些数据进行LLM的训练。使用MIMIC-IV数据集的死亡率任务进行的实验表明,与初始模型相比,AUROC指标提高了多达7%。此外,我们确认,与微调模型相比,我们的提议在不损害性能的情况下,更不容易出现数据泄露问题。最后,我们通过一个案例研究定性展示了我们提议的能力。我们的最佳模型可在此https URL Jgmorenof/mistral\_merged\_0\_4公开获取。

[23] LiveLongBench:应对来自直播流的口语文本的长上下文理解
标题: LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams
作者: Yongxuan Wu / Runyu Chen / Peiyu Liu / Hongjin Qian
原文:   [英文]   [中文]  
备注: None
摘要:
长文本理解在自然语言处理领域中带来了显著的挑战,尤其是在以语音为基础的元素、高冗余性和信息密度不均衡为特征的真实世界对话中。尽管大型语言模型(LLMs)在现有基准上取得了令人印象深刻的成果,但这些数据集未能反映此类文本的复杂性,限制了其在实际场景中的适用性。为弥补这一差距,我们构建了首个源自直播的口语长文本数据集,旨在反映真实世界场景中丰富冗余和对话性质。我们构建了三类任务:依赖检索的任务、依赖推理的任务和混合任务。然后,我们评估了流行的LLMs和专门的方法,以评估它们在这些任务中理解长文本的能力。我们的结果表明,当前的方法表现出强烈的任务特定偏好,并且在处理高度冗余输入时表现不佳,没有一种方法能够始终优于其他方法。我们提出了一种新的基线方法,该方法更好地处理口语文本中的冗余,并在各项任务中表现出色。我们的研究结果突出了当前方法的关键局限性,并提出了改进长文本理解的未来方向。最后,我们的基准填补了评估长文本口语语言理解的空白,并为开发真实世界的电子商务系统提供了实用的基础。代码和基准可在此https URL获取。

[24] PicPersona-TOD:一个用于在任务导向对话中通过图像个性化话语风格的数据集
标题: PicPersona-TOD : A Dataset for Personalizing Utterance Style in Task-Oriented Dialogue with Image Persona
作者: Jihyun Lee / Yejin Jeon / Seungyeon Seo / Gary Geunbae Lee
原文:   [英文]   [中文]  
备注: Accepted in NAACL 2025 main
摘要:
任务导向对话(TOD)系统旨在通过自然语言交互满足用户请求,但现有系统通常生成缺乏个性和无法适应用户个人属性的通用、单调的响应。为了解决这一问题,我们引入了PicPersona-TOD,一个新颖的数据集,该数据集将用户图像作为角色的一部分,能够根据用户特定因素(如年龄或情感背景)生成个性化响应。这是通过第一印象、对话策略引导提示以及使用外部知识来减少幻觉来实现的。人工评估证实我们的数据集增强了用户体验,个性化响应有助于更具吸引力的互动。此外,我们引入了一个新的自然语言生成(NLG)模型,Pictor,它不仅能够个性化响应,还在未见过的领域中表现出强大的性能。

[25] 通过大语言模型生成的文本增强创建有针对性且可解释的主题模型
标题: Creating Targeted, Interpretable Topic Models with LLM-Generated Text Augmentation
作者: Anna Lieb / Maneesh Arora / Eni Mustafaraj
原文:   [英文]   [中文]  
备注: Presented at IC2S2 2024 in Philadelphia, USA
摘要:
无监督机器学习技术,如主题建模和聚类,常用于识别政治学和社会学等领域中非结构化文本数据中的潜在模式。这些方法克服了人类定性分析过程中常见的可重复性和成本问题。然而,主题模型的两个主要局限是其可解释性以及在回答针对性、领域特定的社会科学研究问题时的实用性。在这项工作中,我们探讨了使用大型语言模型生成的文本增强来提高主题建模输出的实用性。我们使用一个政治学案例研究来评估我们的结果在领域特定应用中的效果,发现使用GPT-4增强的主题建模能够创建高度可解释的类别,这些类别可以用来在最少的人类指导下调查领域特定的研究问题。

[26] 对大型语言模型水印的统一攻击:在未经授权的知识蒸馏中进行欺骗和清除
标题: Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation
作者: Xin Yi / Shunfan Zhengc / Linlin Wanga / Xiaoling Wang / Liang He
原文:   [英文]   [中文]  
备注: None
摘要:
水印技术已成为对抗错误信息和保护大型语言模型(LLMs)知识产权的重要手段。最近的一项发现,被称为水印放射性,揭示了嵌入在教师模型中的水印可以通过知识蒸馏被学生模型继承。从积极的方面来看,这种继承允许通过识别学生模型中的水印痕迹来检测未经授权的知识蒸馏。然而,水印在面对清除攻击时的鲁棒性以及在未经授权的知识蒸馏下面对伪造攻击时的不可伪造性仍然很少被探索。现有的水印攻击方法要么假设可以访问模型内部,要么无法同时支持清除和伪造攻击。在这项工作中,我们提出了对比解码引导的知识蒸馏(CDG-KD),一个统一的框架,使得在未经授权的知识蒸馏下能够进行双向攻击。我们的方法采用对比解码,通过比较学生模型和弱水印参考的输出,提取损坏或放大的水印文本,随后进行双向蒸馏,以训练能够分别去除水印和伪造水印的新学生模型。大量实验表明,CDG-KD在保持蒸馏模型整体性能的同时,有效地执行攻击。我们的研究结果强调了开发既稳健又不可伪造的水印方案的关键需求。

[27] HalluLens: 大型语言模型幻觉基准
标题: HalluLens: LLM Hallucination Benchmark
作者: Yejin Bang / Ziwei Ji / Alan Schelten / Anthony Hartshorn / Tara Fowler / Cheng Zhang / Nicola Cancedda / Pascale Fung
原文:   [英文]   [中文]  
备注: 42 pages
摘要:
大型语言模型(LLMs)经常生成偏离用户输入或训练数据的响应,这种现象被称为“幻觉”。这些幻觉削弱了用户的信任,并阻碍了生成式人工智能系统的采用。解决幻觉问题对于LLMs的发展至关重要。本文介绍了一个全面的幻觉基准,结合了新的外在和现有的内在评估任务,基于明确的幻觉分类法。基准测试幻觉的一个主要挑战是由于定义和分类不一致,缺乏统一的框架。我们将LLM幻觉与“事实性”区分开来,提出了一个明确的分类法,区分外在和内在幻觉,以促进一致性并推动研究。随着LLMs的发展,外在幻觉,即生成的内容与训练数据不一致,变得越来越重要。我们的基准包括动态测试集生成,以减轻数据泄漏并确保对这种泄漏的鲁棒性。我们还分析了现有的基准,突出了它们的局限性和饱和性。该工作旨在:(1)建立明确的幻觉分类法,(2)引入新的外在幻觉任务,数据可以动态再生以防止因泄漏导致的饱和,(3)提供对现有基准的全面分析,将其与事实性评估区分开来。

[28] 元数据条件在何种情况下(不)适用于语言模型的预训练?基于上下文无关文法的研究
标题: When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars
作者: Rei Higuchi / Ryotaro Kawata / Naoki Nishikawa / Kazusato Oko / Shoichiro Yamaguchi / Sosuke Kobayashi / Seiya Tokui / Kohei Hayashi / Daisuke Okanohara / Taiji Suzuki
原文:   [英文]   [中文]  
备注: None
摘要:
获取潜在语义的能力是决定语言模型性能的关键属性之一。一种方便的方法是将元数据(例如,URL、域名和风格)添加到预训练数据文本的开头,使模型在观察完整文本之前更容易访问潜在语义。先前的研究报告称,这种技术确实提高了训练模型在下游任务中的性能;然而,这种提升仅在特定的下游任务中观察到,并没有在平均下一个词预测损失中表现出一致的改善。为了理解这一现象,我们通过使用人工数据仔细研究了在预训练期间添加元数据如何影响模型性能。令人感兴趣的是,我们发现这种方法对下游任务产生了正面和负面的影响。我们证明了这种方法的有效性取决于是否可以从下游任务的提示中推断出潜在语义。具体来说,通过使用概率上下文无关文法生成的数据进行研究,我们表明,当给定的上下文足够长以推断潜在语义时,使用元数据进行训练有助于提高模型的性能。相反,当上下文缺乏必要的信息以进行准确的后验推断时,这种技术会对性能产生负面影响。

[29] DeepDistill:通过大规模难度分级数据训练增强大型语言模型的推理能力
标题: DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training
作者: Xiaoyu Tian / Sitong Zhao / Haotian Wang / Shuaiting Chen / Yiping Peng / Yunjie Ji / Han Zhao / Xiangang Li
原文:   [英文]   [中文]  
备注: None
摘要:
尽管大型语言模型(LLMs)最近在各种复杂推理基准上取得了显著的性能,但学术界对基础模型的训练过程和数据质量仍缺乏深入的理解。为了解决这个问题,我们构建了一个大规模、难度分级的推理数据集,其中包含大约334万条不同难度级别的独特查询,以及大约4000万条由多个模型在多次传递中生成的蒸馏响应。利用通过率和变异系数(CV),我们精确选择最有价值的训练数据以增强推理能力。值得注意的是,我们观察到训练模式的转变,表明基于基础模型的推理训练需要更高的学习率以实现有效训练。使用这些精心选择的数据,我们显著提高了基础模型的推理能力,在AIME2024数学推理基准上实现了79.2%的通过率。这个结果超过了大多数当前的蒸馏模型,并接近最先进的性能。我们提供了关于数据处理、难度评估和训练方法的详细描述,并已公开发布所有数据集和方法,以促进开源长推理LLMs的快速进展。数据集可在此URL获取:this https URL

[30] RAGAT-Mind:一种基于MindSpore的多粒度建模谣言检测方法
标题: RAGAT-Mind: A Multi-Granular Modeling Approach for Rumor Detection Based on MindSpore
作者: Zhenkai Qin / Guifang Yang / Dongze Wu
原文:   [英文]   [中文]  
备注: None
摘要:
随着虚假信息在社交媒体平台上的不断传播,有效的谣言检测已成为自然语言处理领域的一个紧迫挑战。本文提出了RAGAT-Mind,这是一种用于中文谣言检测的多粒度建模方法,基于MindSpore深度学习框架构建。该模型集成了TextCNN用于局部语义提取,双向GRU用于序列上下文学习,多头自注意力机制用于全局依赖聚焦,以及双向图卷积网络(BiGCN)用于词共现图的结构表示。在Weibo1-Rumor数据集上的实验表明,RAGAT-Mind实现了卓越的分类性能,达到了99.2%的准确率和0.9919的宏观F1分数。结果验证了将层次语言特征与基于图的语义结构相结合的有效性。此外,该模型表现出强大的泛化能力和可解释性,突显了其在实际谣言检测应用中的实用价值。

[31] 基于机器学习的在线辱骂语言综合分类法研究
标题: Towards a comprehensive taxonomy of online abusive language informed by machine leaning
作者: Samaneh Hosseini Moghaddam / Kelly Lyons / Cheryl Regehr / Vivek Goel / Kaitlyn Regehr
原文:   [英文]  
备注: None
摘要:
在线交流中滥用语言的泛滥对个人和社区的健康和福祉构成了重大风险。对在线滥用及其后果的日益关注需要识别和减轻有害内容的方法,并促进持续监控、审核和早期干预。本文提出了一种用于区分在线文本中滥用语言关键特征的分类法。我们的方法使用系统化的方法进行分类法开发,整合了18个现有多标签数据集的分类系统,以捕捉与在线滥用语言分类相关的关键特征。最终的分类法是分层和多面的,包括5个类别和17个维度。它对在线滥用的各种方面进行分类,包括滥用的背景、目标、强度、直接性和主题。这种共享的理解可以促使更紧密的合作,促进知识交流,并加速研究人员、政策制定者、在线平台所有者和其他利益相关者在在线滥用检测和缓解领域的进展。

[32] 通过代码辅助的大型语言模型评估数学中的基础推理
标题: Evaluating Grounded Reasoning by Code-Assisted Large Language Models for Mathematics
作者: Zena Al-Khalili / Nick Howell / Dietrich Klakow
原文:   [英文]   [中文]  
备注: None
摘要:
协助大型语言模型(LLMs)进行代码生成提高了它们在数学推理任务上的表现。然而,对代码辅助的LLMs的评估通常仅限于执行正确性,缺乏对其生成程序的严格评估。在这项工作中,我们通过对代码辅助LLMs在数学推理任务中生成的程序进行深入分析来弥补这一差距。我们的评估重点在于LLMs在多大程度上将其程序与数学规则结合,以及这如何影响它们的最终表现。为此,我们对五种不同的LLMs在两个不同的数学数据集上的生成进行了手动和自动评估。我们的结果显示,程序与数学规则结合的分布取决于LLMs的能力和数学问题的难度。此外,数学结合对闭源模型更有效,而开源模型未能正确地在其解决方案中应用数学规则。在MATH500数据集上,与ASDiv小学问题相比,结合数学规则的程序比例减少了一半,而未结合的生成程序翻了一倍。我们的工作强调了需要进行超越执行准确性指标的深入评估,以更好地理解代码辅助LLMs在数学领域的能力和局限性。

[33] 基于归纳保序预测的大型视觉-语言模型预测集的数据驱动校准
标题: Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction
作者: Yuanchang Ye / Weiyan Wen
原文:   [英文]   [中文]  
备注: None
摘要:
本研究通过分割保形预测(SCP)框架解决了大型视觉语言模型(LVLMs)在视觉问答(VQA)任务中幻觉缓解的关键挑战。虽然LVLMs在多模态推理方面表现出色,但其输出内容常常以高置信度出现幻觉,在安全关键应用中构成风险。我们提出了一种与模型无关的不确定性量化方法,该方法结合了动态阈值校准和跨模态一致性验证。通过将数据划分为校准集和测试集,该框架计算不一致性分数,以在用户定义的风险水平($\alpha$)下构建具有统计保证的预测集。关键创新包括:(1)严格控制\textbf{边际覆盖率},确保经验误差率严格低于$\alpha$;(2)根据$\alpha$动态调整预测集大小,过滤低置信度输出;(3)消除先验分布假设和重新训练要求。在基准测试(ScienceQA, MMMU)中对八个LVLMs的评估表明,SCP在所有$\alpha$值上强制执行理论保证。该框架在不同的校准到测试分割比例下实现了稳定的性能,强调了其在医疗保健、自动系统和其他安全敏感领域的实际部署中的鲁棒性。该工作弥合了多模态AI系统中理论可靠性与实际适用性之间的差距,提供了一个可扩展的解决方案用于幻觉检测和不确定性感知决策。

[34] 大型语言模型推理的能量考量与效率优化
标题: Energy Considerations of Large Language Model Inference and Efficiency Optimizations
作者: Jared Fernandez / Clara Na / Vashisth Tiwari / Yonatan Bisk / Sasha Luccioni / Emma Strubell
原文:   [英文]   [中文]  
备注: 16 pages
摘要:
随着大型语言模型(LLMs)的规模和应用的扩大,其计算和环境成本也在不断上升。之前的基准测试工作主要集中在理想化环境中的延迟减少,往往忽视了影响能耗的多样化现实世界推理工作负载。在这项工作中,我们系统地分析了常见推理效率优化在多样化自然语言处理(NLP)和生成式人工智能(AI)工作负载(包括对话式AI和代码生成)中的能量影响。我们引入了一种建模方法,通过对输入输出令牌分布和批量大小变化的分箱策略来近似真实世界的LLM工作流程。我们的实证分析涵盖了软件框架、解码策略、GPU架构、在线和离线服务设置以及模型并行配置。我们表明,推理优化的有效性对工作负载几何形状、软件栈和硬件加速器高度敏感,表明基于FLOPs或理论GPU利用率的简单能量估计显著低估了现实世界的能量消耗。我们的研究结果显示,适当应用相关的推理效率优化可以将总能耗从未优化的基线减少多达73%。这些见解为可持续的LLM部署提供了基础,并为未来AI基础设施的节能设计策略提供了信息。

[35] 集成贝叶斯推断:利用小型语言模型在档案匹配任务中实现大型语言模型级别的准确性
标题: Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks
作者: Haru-Tada Sato / Fuka Matsuzaki / Jun-ichiro Takahashi
原文:   [英文]   [中文]  
备注: 13 pages, 2 figures
摘要:
本研究探讨了小型语言模型(SLM)集成在准确性上与专有大型语言模型(LLM)相媲美的潜力。我们提出了一种新的方法——集成贝叶斯推理(EBI),该方法应用贝叶斯估计来结合多个SLM的判断,使其能够超越单个模型的性能限制。我们在多样化任务(包括日语和英语的能力评估和消费者画像分析)上的实验展示了EBI的有效性。值得注意的是,我们分析了将具有负提升值的模型纳入集成后提高整体性能的案例,并研究了该方法在不同语言中的有效性。这些发现为在有限计算资源下构建高性能AI系统以及有效利用单个性能较低的模型提供了新的可能性。在现有关于LLM性能评估、集成方法和开源LLM利用的研究基础上,我们讨论了我们方法的新颖性和重要性。

[36] 大型推理模型的安全性:综述
标题: Safety in Large Reasoning Models: A Survey
作者: Cheng Wang / Yue Liu / Baolong Li / Duzhen Zhang / Zhongzhi Li / Junfeng Fang
原文:   [英文]   [中文]  
备注: None
摘要:
大型推理模型(LRMs)在数学和编程等任务中展示了非凡的能力,利用其先进的推理能力。然而,随着这些能力的进步,关于其漏洞和安全性的重大担忧也随之出现,这可能对其在现实世界中的部署和应用构成挑战。本文对LRMs进行了全面的调查,细致地探索和总结了新出现的安全风险、攻击和防御策略。通过将这些元素组织成详细的分类法,本研究旨在提供对当前LRMs安全状况的清晰和结构化的理解,以促进未来的研究和开发,提高这些强大模型的安全性和可靠性。

[37] 大型语言模型在教育中的多语言性能偏差
标题: Multilingual Performance Biases of Large Language Models in Education
作者: Vansh Gupta / Sankalan Pal Chowdhury / Vilém Zouhar / Donya Rooein / Mrinmaya Sachan
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在教育环境中的应用日益增多。这些应用不仅限于英语,尽管当前的LLMs仍然主要以英语为中心。在这项工作中,我们确定在非英语语言的教育环境中使用这些模型是否合理。我们评估了流行的LLMs在四个教育任务上的表现:识别学生的误解、提供有针对性的反馈、互动辅导以及在六种语言(印地语、阿拉伯语、波斯语、泰卢固语、乌克兰语、捷克语)以及英语中的翻译评分。我们发现,这些任务的表现与训练数据中语言的代表程度有一定的对应关系,资源较少的语言任务表现较差。尽管模型在大多数语言中表现尚可,但与英语相比,表现的频繁下降是显著的。因此,我们建议从业者在部署之前,首先验证LLM在目标语言中的教育任务表现良好。

[38] 对话助手支持心力衰竭患者:比较神经符号架构与ChatGPT
标题: Conversational Assistants to support Heart Failure Patients: comparing a Neurosymbolic Architecture with ChatGPT
作者: Anuja Tayal / Devika Salunke / Barbara Di Eugenio / Paula Allen-Meares / Eulalia Puig Abril / Olga Garcia / Carolyn Dickens / Andrew Boyd
原文:   [英文]   [中文]  
备注: None
摘要:
会话助手在各个领域变得越来越流行,包括在医疗保健中,这部分归功于大型语言模型的可用性和能力。需要进行有控制的、深入的评估,与真实的利益相关者一起,来突出传统架构和基于生成式人工智能的架构的优缺点。我们进行了一项组内用户研究,比较两种版本的会话助手,这些助手允许心力衰竭患者询问食物中的盐含量。系统的一个版本是我们内部开发的,采用神经符号架构,另一个版本基于ChatGPT。评估显示,内部开发的系统比基于ChatGPT的系统更准确,完成的任务更多,且不那么冗长;另一方面,基于ChatGPT的系统语音错误更少,完成任务所需的澄清更少。患者对两者没有表现出偏好。

[39] 稀疏前沿:Transformer 大型语言模型中的稀疏注意力权衡
标题: The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
作者: Piotr Nawrot / Robert Li / Renjie Huang / Sebastian Ruder / Kelly Marchisio / Edoardo M. Ponti
原文:   [英文]   [中文]  
备注: None
摘要:
稀疏注意力为扩展Transformer大型语言模型(LLM)的长上下文能力提供了一种有前景的策略,但其可行性、效率与准确性的权衡,以及系统的扩展研究仍未被探索。为了解决这一空白,我们在不同的模型规模、序列长度和稀疏水平下,对训练无关的稀疏注意力方法进行了仔细比较,涉及一系列长序列任务,包括依赖自然语言但仍可控且易于评估的新任务。基于我们的实验,我们报告了一系列关键发现:1)isoFLOPS分析表明,对于非常长的序列,较大且高度稀疏的模型优于较小且密集的模型。2)在解码过程中,在统计上保证准确性保留的稀疏水平高于预填充阶段,并且在前者中与模型大小相关。3)没有一种明确的策略在所有任务和阶段中表现最佳,不同的场景需要不同的稀疏化单位或预算适应性。即使是中等水平的稀疏性,通常也会导致至少一个任务的显著性能下降,这表明稀疏注意力并不是一个普遍的解决方案。4)我们引入并验证了专门为稀疏注意力量身定制的新扩展定律,提供了证据表明我们的发现可能在我们的实验范围之外也成立。通过这些见解,我们证明了稀疏注意力是增强Transformer LLMs处理更长序列能力的关键工具,但需要对性能敏感的应用进行仔细的权衡评估。