![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.AI方向,2024年9月26日更新论文20篇
|
[1] 使用对齐-重要性热图解释人类比较 标题: Explaining Human Comparisons using Alignment-Importance Heatmaps 作者: Nhut Truong / Dario Pesenti / Uri Hasson 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种用于人类比较任务的计算可解释性方法,该方法使用从深度视觉模型中得出的对齐重要性评分(AIS)热图。AIS反映了特征图在深度神经网络(DNN)的表示几何与人类表示几何对齐中的独特贡献。我们首先通过展示在构建表示时仅使用从训练集中识别出的高评分AIS特征图可以改进对样本外人类相似性判断的预测来验证AIS。然后,我们计算特定图像的热图,这些热图直观地显示了与具有较高AIS评分的特征图相对应的区域。这些热图提供了一种直观的解释,说明在与同类图像进行比较时哪些图像区域更为重要。我们观察到这些热图与由注视预测模型生成的显著性图之间存在对应关系。然而,在某些情况下,会出现有意义的差异,因为与比较相关的维度不一定是最显著的视觉维度。总之,对齐重要性提高了从DNN嵌入中预测人类相似性判断的准确性,并提供了对图像空间中相关信息的可解释见解。 |
[2] DeepScore:一种衡量AI生成临床文档质量的综合方法 标题: DeepScore: A Comprehensive Approach to Measuring Quality in AI-Generated Clinical Documentation 作者: Jon Oleson 原文: [英文] 备注: 9 pages, 5 figures, 6 tables 摘要: 医疗从业者正在迅速采用生成式人工智能解决方案用于临床文档记录,从而显著节省时间并减轻压力。然而,评估人工智能生成的文档质量是一个复杂且持续的挑战。本文概述了DeepScribe在评估和管理文档质量方面的方法,重点介绍了各种指标和综合“DeepScore”,即质量和准确性的总体指数。这些方法旨在通过问责制和持续改进来提高患者护理文档的质量。 |
[3] 乌尔都语关键词识别技术的文献综述 标题: A Literature Review of Keyword Spotting Technologies for Urdu 作者: Syed Muhammad Aqdas Rizvi 原文: [英文] [中文] 备注: None 摘要: 这篇文献综述调查了关键词识别(KWS)技术的进展,特别关注巴基斯坦的低资源语言(LRL)——乌尔都语,该语言具有复杂的语音特征。尽管全球在语音技术方面取得了长足进步,乌尔都语却提出了独特的挑战,需要更为定制化的解决方案。综述追溯了从基础的高斯混合模型到复杂的神经架构(如深度神经网络和变压器)的演变过程,突出了诸如整合多任务学习和利用未标记数据的自监督方法等重要里程碑。它还探讨了新兴技术在多语言和资源受限环境中提升KWS系统性能的作用,强调了需要针对乌尔都语等语言进行创新。因此,这篇综述强调了需要进行特定语境的研究,以应对乌尔都语及类似低资源语言的固有复杂性,并探讨通过这些语言进行交流的地区的手段,以实现语音技术的更包容性方法。 |
[4] 利用Himawari-8卫星影像和深度学习模型开发泰国太阳辐照度地图 标题: Developing a Thailand solar irradiance map using Himawari-8 satellite imageries and deep learning models 作者: Suwichaya Suwanwimolkul / Natanon Tongamrak / Nuttamon Thungka / Naebboon Hoonchareon / Jitkomut Songsiri 原文: [英文] [中文] 备注: 23 pages, 14 figures 摘要: 本文介绍了一个在线平台,每30分钟显示一次泰国的太阳辐照度地图。该平台可在https://www.cusolarforecast.com访问。估算泰国全球水平辐照度(GHI)的方法依赖于从Himawari-8卫星图像中提取的云指数、使用本地调优的Linke浊度的Ineichen晴空模型以及机器学习模型。这些方法将晴空辐照度、云指数、从MERRA-2数据库重新分析的GHI和温度数据以及日期时间作为GHI估算模型的输入,包括LightGBM、LSTM、Informer和Transformer。这些模型通过评估2022-2023年间来自53个地面站点的1.5年15分钟地面GHI数据,与SolCast服务的估算结果进行基准测试。结果显示,这四个模型具有竞争力的性能,并且优于SolCast服务。最佳模型是LightGBM,其MAE为78.58 W/平方米,RMSE为118.97 W/平方米。获取泰国的MERRA-2数据进行重新分析在经济上不可行。当去除这些特征时,Informer模型在MAE为78.67 W/平方米时表现最佳。所获得的性能与现有文献一致,考虑了气候区和数据的时间粒度。由于地图显示了93,000个网格上的GHI估算,并且频繁更新,本文还描述了显示整个地图的计算框架,并测试了深度学习模型在GHI估算过程中的运行性能。 |
[5] 从自发言语中检测阿尔茨海默病的类内变异 标题: Towards Within-Class Variation in Alzheimer's Disease Detection from Spontaneous Speech 作者: Jiawen Kang / Dongrui Han / Lingwei Meng / Jingyan Zhou / Jinchao Li / Xixin Wu / Helen Meng 原文: [英文] [中文] 备注: None 摘要: 阿尔茨海默病(AD)检测已成为一个有前景的研究领域,该领域利用机器学习分类模型来区分患有AD的个体和未患AD的个体。与传统的分类任务不同,我们将类内变异识别为AD检测中的一个关键挑战:患有AD的个体表现出一系列认知障碍。鉴于许多AD检测任务缺乏细粒度标签,简单的二元分类可能会忽略两个关键方面:类内差异和实例级别的不平衡。前者迫使模型将具有不同程度障碍的AD样本映射到单一的诊断标签,忽视了某些认知功能的变化。而后者则使模型偏向于过度代表的严重程度水平。本文提出了应对这些挑战的早期努力。我们提出了两种新方法:软目标蒸馏(SoTD)和实例级重新平衡(InRe),分别针对两个问题。对ADReSS和ADReSSo数据集的实验表明,所提出的方法显著提高了检测准确性。进一步的分析表明,SoTD有效地利用了多个组件模型的优势,而InRe则大大缓解了模型的过拟合。这些发现为开发更健壮和可靠的AD检测模型提供了见解。 |
[6] 基于MRI影像组学的胶质母细胞瘤IDH基因型预测 标题: MRI Radiomics for IDH Genotype Prediction in Glioblastoma Diagnosis 作者: Stanislav Kozák 原文: [英文] 备注: 8 pages, 1 figure 摘要: 放射组学是一个相对较新的领域,它利用从放射扫描中自动识别的特征。它在肿瘤学中得到了广泛应用,因为许多重要的肿瘤学生物标志物肉眼不可见。最近大数据的出现,包括在医学影像中的应用,以及新机器学习技术的发展,使得更快、更准确的肿瘤诊断成为可能。此外,基于放射组学的标准化数学特征提取有助于消除可能的放射科医生偏见。本文回顾了MRI放射组学特征在肿瘤学中的最新发展,重点关注异柠檬酸脱氢酶(IDH)突变状态的识别,这是诊断胶质母细胞瘤和IV级星形细胞瘤的重要生物标志物。 |
[7] 探索传统神经机器翻译模型和大型语言模型在聊天翻译中的应用 标题: Exploring the traditional NMT model and Large Language Model for chat translation 作者: Jinlong Yang / Hengchao Shang / Daimeng Wei / Jiaxin Guo / Zongyao Li / Zhanglin Wu / Zhiqiang Rao / Shaojun Li / Yuhao Xie / Yuanchang Luo / Jiawei Zheng / Bin Wei / Hao Yang 原文: [英文] [中文] 备注: 7 pages, 6 Tables, WMT24 摘要: 本文描述了华为翻译服务中心(HW-TSC)在WMT24聊天翻译共享任务中对英语↔德语(en-de)双向翻译的提交。实验涉及使用聊天数据微调模型并探索各种策略,包括最小贝叶斯风险(MBR)解码和自训练。结果显示在某些方向上性能有显著提升,其中MBR自训练方法取得了最佳结果。大型语言模型还讨论了聊天翻译领域的挑战和潜在的进一步研究途径。 |
[8] 通过隐私保护的联邦学习和不确定性量化来未来保障医学影像:综述 标题: Future-Proofing Medical Imaging with Privacy-Preserving Federated Learning and Uncertainty Quantification: A Review 作者: Nikolas Koutsoubis / Asim Waqas / Yasin Yilmaz / Ravi P. Ramachandran / Matthew Schabath / Ghulam Rasool 原文: [英文] [中文] 备注: 21 pages, 5 figures, 4 tables, Review paper, preprint to Radiology AI. arXiv admin note: text overlap with arXiv:2406.12815 摘要: 人工智能(AI)在自动化各种医学影像任务方面展示了显著的潜力,这些任务可能很快在临床实践中成为常规,用于疾病诊断、预后、治疗计划和治疗后监测。然而,围绕患者数据的隐私问题是AI在医学影像中广泛应用的主要障碍,因为开发准确、可推广和稳健的人工智能模型需要大量多样的训练数据集。联邦学习(FL)提供了一种解决方案,使组织能够在不共享敏感数据的情况下协作训练AI模型。联邦学习在参与站点之间交换模型训练信息,如梯度。尽管前景广阔,联邦学习仍处于发展阶段,并面临若干挑战。特别是,敏感信息仍然可以从模型训练期间共享的梯度中推断出来。由于部署后潜在的数据分布变化可能影响模型性能,量化AI模型的不确定性至关重要。在FL中进行不确定性量化(UQ)尤其具有挑战性,因为参与站点之间的数据异质性。本综述全面审查了FL、隐私保护FL(PPFL)和FL中的UQ。我们识别了当前FL方法中的关键空白,并提出了未来的研究方向,以增强医学影像应用中的数据隐私和可信度。 |
[9] 现代霍普菲尔德网络遇上编码神经表示——解决实际问题 标题: Modern Hopfield Networks meet Encoded Neural Representations -- Addressing Practical Considerations 作者: Satyananda Kashyap / Niharika S. D'Souza / Luyao Shi / Ken C. L. Wong / Hongzhi Wang / Tanveer Syeda-Mahmood 原文: [英文] [中文] 备注: 17 pages, 8 figures, workshop submission to Neurips 摘要: 内容可寻址存储器,如现代Hopfield网络(MHN),已被研究作为人类陈述性记忆中自联想和存储/检索的数学模型,但其在大规模内容存储中的实际应用面临挑战。主要问题是亚稳态的出现,特别是在处理大量高维内容时。本文介绍了Hopfield编码网络(HEN),这是一个将编码的神经表示集成到MHN中的框架,以提高模式的可分性并减少亚稳态。我们展示了HEN还可以用于图像与自然语言查询的异质联想检索,从而消除了在同一领域中需要访问部分内容的限制。实验结果表明,HEN显著减少了亚稳态并增加了存储容量,同时仍能完美回忆大量输入,提升了联想记忆网络在实际任务中的实用性。 |
[10] 利用局部结构提升模型解释:一种信息传播方法 标题: Leveraging Local Structure for Improving Model Explanations: An Information Propagation Approach 作者: Ruo Yang / Binghui Wang / Mustafa Bilgic 原文: [英文] [中文] 备注: None 摘要: 最近开发了许多解释方法来解释深度神经网络(DNN)模型所做的决策。对于图像分类器,这些方法通常为图像中的每个像素提供一个归因分数,以量化其对预测的贡献。然而,大多数这些解释方法独立地为像素分配归因分数,尽管人类和DNN都是通过同时分析一组密切相关的像素来做出决策的。因此,像素的归因分数应该通过考虑其自身及其结构相似的像素来共同评估。我们提出了一种称为IProp的方法,该方法将每个像素的个体归因分数建模为解释信息的来源,并通过所有像素之间的信息动态传播来解释图像预测。为了制定信息传播,IProp采用了马尔可夫奖励过程,保证了收敛性,最终状态表示所需像素的归因分数。此外,IProp与任何现有的基于归因的解释方法兼容。在各种解释方法和DNN模型上的大量实验验证了IProp在多种可解释性指标上显著改进了它们。 |
[11] 大规模语言模型中的偏见:现状与未来方向的全面调查 标题: A Comprehensive Survey of Bias in LLMs: Current Landscape and Future Directions 作者: Rajesh Ranjan / Shailja Gupta / Surya Narayan Singh 原文: [英文] 备注: 2 Tables, 1 Figure 摘要: 大型语言模型(LLMs)通过提供前所未有的文本生成、翻译和理解能力,彻底改变了自然语言处理(NLP)的各种应用。然而,它们的广泛部署也暴露了这些模型中嵌入的显著偏见问题。本文对LLMs中的偏见进行了全面的调查,旨在对这些偏见的类型、来源、影响和缓解策略进行广泛的回顾。我们系统地将偏见分类为几个维度。我们的调查综合了当前的研究成果,并讨论了偏见在现实应用中的影响。此外,我们还对现有的偏见缓解技术进行了批判性评估,并提出了未来的研究方向,以增强LLMs的公平性和公正性。本调查为关注和理解LLMs中偏见的研究人员、从业者和政策制定者提供了基础性资源。 |
[12] 从参数高效迁移学习(PETL)在视觉识别中的统一实证研究中汲取的经验教训 标题: Lessons Learned from a Unifying Empirical Study of Parameter-Efficient Transfer Learning (PETL) in Visual Recognition 作者: Zheda Mai / Ping Zhang / Cheng-Hao Tu / Hong-You Chen / Li Zhang / Wei-Lun Chao 原文: [英文] [中文] 备注: Code is available at https://github.com/OSU-MLB/PETL_Vision 摘要: 参数高效的迁移学习(PETL)由于预训练模型规模的不断增加以及需要对其进行微调(FT)以获得更好的下游性能,最近引起了广泛关注。这种社区范围内的热情引发了大量新方法的出现。然而,缺乏系统的研究来理解它们的性能和适用场景,导致何时应用PETL以及使用哪种方法等问题大多未得到解答。在本文中,我们在视觉变换器的背景下对代表性的PETL方法进行了统一的实证研究。我们系统地调整了它们的超参数,以公平地比较它们在下游任务中的准确性。我们的研究不仅提供了有价值的用户指南,还揭示了几个新的见解。首先,如果仔细调整,不同的PETL方法在低样本基准VTAB-1K中可以获得相当相似的准确性。这包括一些被认为较差的简单方法,如微调偏置项。其次,尽管准确性相似,我们发现PETL方法会犯不同的错误并做出高置信度的预测,这可能是由于它们不同的归纳偏差。这种不一致性(或互补性)为集成方法提供了机会,我们对此进行了初步尝试。第三,超越常用的低样本任务,我们发现PETL在多样本任务中也很有用——它使用更少的可学习参数,达到了与完全微调相当甚至更好的准确性。最后但同样重要的是,我们研究了PETL在保持预训练模型对分布偏移(例如,CLIP骨干)鲁棒性方面的能力。也许并不令人惊讶,PETL方法单独优于完全微调。然而,通过权重空间集成,完全微调模型可以在下游和分布外性能之间实现更好的平衡,这为PETL的未来研究方向提供了建议。 |
[13] GSplatLoc:将关键点描述符嵌入3D高斯散点以改进视觉定位 标题: GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization 作者: Gennady Sidorov / Malik Mohrat / Ksenia Lebedeva / Ruslan Rakhimov / Sergey Kolyubin 原文: [英文] 备注: Project website at https://gsplatloc.github.io/ 摘要: 尽管存在各种视觉定位方法,如场景坐标和姿态回归,这些方法通常面临高内存消耗或广泛的优化需求。为了解决这些挑战,我们利用了新视图合成的最新进展,特别是3D高斯点(3DGS),来增强定位。3DGS允许通过其空间特征紧凑地编码3D几何和场景外观。我们的方法利用了XFeat的轻量级关键点检测和描述模型生成的密集描述图。我们提出将这些密集的关键点描述符蒸馏到3DGS中,以提高模型的空间理解,从而通过2D-3D对应关系更准确地预测相机姿态。在估计初始姿态后,我们使用光度变形损失对其进行优化。在流行的室内和室外数据集上的基准测试表明,我们的方法超越了最先进的神经渲染姿态(NRP)方法,包括NeRFMatch和PNeRFLoc。 |
[14] 无源域适应的YOLO目标检测 标题: Source-Free Domain Adaptation for YOLO Object Detection 作者: Simon Varailhon / Masih Aminbeidokhti / Marco Pedersoli / Eric Granger 原文: [英文] 备注: ECCV 2024: European Conference on Computer Vision - Workshop on Out-of-Distribution Generalization in Computer Vision Foundation Models, Milan Italy 摘要: 无源域适应(SFDA)是目标检测中的一个具有挑战性的问题,其中预训练的源模型被适应到一个新的目标域,而不使用任何源域数据,以保护隐私和提高效率。大多数最先进的用于目标检测的SFDA方法都是为Faster-RCNN提出的,这是一种已知计算复杂度高的检测器。本文重点研究了适用于现实世界视觉系统的域适应技术,特别是针对以快速基线和实际应用著称的YOLO系列单次检测器。我们提出的SFDA方法——无源YOLO(SF-YOLO)——依赖于一个教师-学生框架,其中学生接收带有学习的、特定于目标域的增强图像,从而使模型仅使用未标记的目标数据进行训练,而无需特征对齐。使用均值教师架构进行自我训练时,在没有标签的情况下,准确性会因噪声或漂移的伪标签而迅速下降。为了解决这个问题,引入了一种教师到学生的通信机制,以帮助稳定训练并减少对标注目标数据进行模型选择的依赖。尽管方法简单,我们的方法在几个具有挑战性的基准数据集上与最先进的检测器竞争,甚至有时优于使用源数据进行适应的方法。 |
[15] 评估和提升大型语言模型在学术出版物新颖性评估中的应用 标题: Evaluating and Enhancing Large Language Models for Novelty Assessment in Scholarly Publications 作者: Ethan Lin / Zhiyuan Peng / Yi Fang 原文: [英文] [中文] 备注: under review 摘要: 最近的研究主要从语义角度评估大型语言模型(LLMs)的创造力/新颖性,使用的是认知科学的基准。然而,在学术出版物中评估新颖性仍是一个尚未充分探索的领域。在本文中,我们引入了一个学术新颖性基准(SchNovel),用于评估LLMs在学术论文中评估新颖性的能力。SchNovel由从arXiv数据集中抽取的跨越六个领域的15000对论文组成,这些论文的发表日期相隔2到10年。在每对论文中,假设较新发表的论文更具新颖性。此外,我们提出了RAG-Novelty,它通过利用相似论文的检索来模拟人类审稿人的评审过程,以评估新颖性。大量实验提供了对不同LLMs评估新颖性能力的见解,并证明RAG-Novelty优于最近的基准模型。 |
[16] 面向实际应用的基于声明引导的文本后门攻击 标题: Claim-Guided Textual Backdoor Attack for Practical Applications 作者: Minkyoo Song / Hanna Kim / Jaehan Kim / Youngjin Jin / Seungwon Shin 原文: [英文] [中文] 备注: Under Review 摘要: 近年来,自然语言处理的进展和大规模语言模型的广泛使用暴露了新的安全漏洞,例如后门攻击。以往的后门攻击需要在模型分发后进行输入操作来激活后门,这在实际应用中存在局限性。为了解决这一问题,我们引入了一种新颖的基于声明引导的后门攻击(CGBA),它通过利用固有的文本声明作为触发器,消除了这种操作的需求。CGBA利用声明提取、聚类和有针对性的训练,使模型在特定声明上表现异常,而不影响其在干净数据上的性能。CGBA在各种数据集和模型上展示了其有效性和隐蔽性,显著提高了实际后门攻击的可行性。我们的代码和数据将会在https://github.com/PaperCGBA/CGBA上提供。 |
[17] 带有平均池化的随机子采样 标题: Stochastic Subsampling With Average Pooling 作者: Bum Jun Kim / Sang Woo Kim 原文: [英文] [中文] 备注: 17 pages, 8 figures 摘要: 深度神经网络的正则化一直是实现更高泛化性能而不出现过拟合问题的重要课题。尽管流行的Dropout方法提供了正则化效果,但它会导致输出的不一致性,从而可能降低深度神经网络的性能。在本研究中,我们提出了一种新的模块,称为随机平均池化,它在池化中引入了类似Dropout的随机性。我们描述了随机子采样和平均池化的特性,并利用它们设计了一个没有任何不一致性问题的模块。随机平均池化在没有任何由于不一致性问题导致的潜在性能下降的情况下实现了正则化效果,并且可以轻松地插入现有的深度神经网络架构中。实验表明,用随机平均池化替换现有的平均池化在各种任务、数据集和模型中都能带来一致的改进。 |
[18] 通过自我对弈训练语言模型赢得辩论提高评委准确性 标题: Training Language Models to Win Debates with Self-Play Improves Judge Accuracy 作者: Samuel Arnesen / David Rein / Julian Michael 原文: [英文] [中文] 备注: 48 pages, 12 figures; code at https://github.com/samuelarnesen/nyu-debate-modeling 摘要: 我们通过训练模型使用自我对弈生成的数据进行辩论,测试辩论作为一种可扩展监督方法的稳健性。在一个长篇阅读理解任务中,我们发现基于语言模型的评估者在判断优化为赢得辩论的模型时,能够更准确地回答问题。相比之下,对于那些在没有对手辩手的情况下训练来说服评委的咨询模型,我们没有发现这种关系。在我们的辩论模型和新颖的咨询基线之间进行的定量和定性比较中,我们发现辩论训练鼓励了更强大和更具信息性的论点,显示出它在帮助提供高质量监督方面的潜力,特别是对于那些难以直接评估的任务。 |
[19] 用于实时无人机跟踪的渐进式表示学习 标题: Progressive Representation Learning for Real-Time UAV Tracking 作者: Changhong Fu / Xiang Lei / Haobo Zuo / Liangliang Yao / Guangze Zheng / Jia Pan 原文: [英文] [中文] 备注: Accepted by the 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2024) 摘要: 视觉目标跟踪在无人机(UAV)的自主应用中得到了显著的推动。然而,在复杂动态环境中学习鲁棒的目标表示对于无人机跟踪来说尤其具有挑战性,特别是在面对纵横比变化和遮挡时。这些挑战严重改变了目标的原始信息。为了解决上述问题,本文提出了一种新颖的渐进表示学习框架用于无人机跟踪,即PRL-Track。具体来说,PRL-Track分为粗略表示学习和精细表示学习。对于粗略表示学习,设计了两个依赖于外观和语义信息的创新调节器,以减轻外观干扰并捕捉语义信息。此外,对于精细表示学习,开发了一种新的分层建模生成器来交织粗略的目标表示。详尽的实验表明,所提出的PRL-Track在三个权威的无人机跟踪基准上表现出色。实际测试表明,所提出的PRL-Track在典型的配备边缘智能相机的无人机平台上实现了每秒42.6帧的优越跟踪性能。代码、模型和演示视频可在\url{https://github.com/vision4robotics/PRL-Track}获取。 |
[20] TSBP:通过测试时自引导边界框传播提高组织学图像中的目标检测 标题: TSBP: Improving Object Detection in Histology Images via Test-time Self-guided Bounding-box Propagation 作者: Tingting Yang / Liang Xiao / Yizhe Zhang 原文: [英文] [中文] 备注: MICCAI 2024 摘要: 在目标检测任务中,通常会应用一个全局阈值(例如0.5)来确定哪些边界框应包含在最终结果中。较高的阈值可以减少误报,但可能会导致漏掉大量的真实正样本。较低的阈值可以增加检测召回率,但也可能导致更多的误报。因此,使用一个预设的全局阈值(例如0.5)应用于所有边界框候选可能会导致次优的解决方案。在本文中,我们提出了一种测试时自引导边界框传播(TSBP)方法,利用地球移动距离(EMD)来增强组织学图像中的目标检测。TSBP利用高置信度的边界框来影响低置信度的边界框,利用它们之间的视觉相似性。这种传播机制使得边界框的选择变得可控、可解释且稳健,超越了简单阈值和不确定性校准方法的效果。重要的是,TSBP不需要额外的标注样本来进行模型训练或参数估计,不像校准方法那样。我们在组织学图像中的腺体检测和细胞检测任务上进行了实验。结果表明,当与最先进的基于深度学习的检测网络结合使用时,我们提出的TSBP显著提高了检测结果。与其他方法(如不确定性校准)相比,TSBP在不使用额外标注样本的情况下,提供了更稳健和准确的目标检测预测。代码可在https://github.com/jwhgdeu/TSBP获取。 |