![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年6月25日更新论文88篇
|
[1] 无对应多视点云配准通过深度引导联合优化 标题: Correspondence-Free Multiview Point Cloud Registration via Depth-Guided Joint Optimisation 作者: Yiran Zhou / Yingyu Wang / Shoudong Huang / Liang Zhao 原文: [英文] 备注: 8 pages, accepted for publication in IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025) 摘要: 多视点云配准是构建全局一致的三维模型的一项基础任务。现有的方法通常依赖于跨多个点云的特征提取和数据关联;然而,在复杂环境中,这些过程很难获得全局最优解。在本文中,我们介绍了一种新颖的无对应关系的多视点云配准方法。具体来说,我们将全局地图表示为深度图,并利用原始深度信息来构建一个非线性最小二乘优化,该优化同时估计点云的姿态和全局地图。与传统的基于特征的捆绑调整方法不同,这些方法依赖于显式的特征提取和数据关联,而我们的方法通过点云的对应姿态将多帧点云与全局深度图关联,从而绕过了这些挑战。这种数据关联在优化过程中被隐式地整合并动态地优化。在真实世界数据集上的广泛评估表明,我们的方法在准确性上优于最先进的方法,特别是在特征提取和数据关联困难的复杂环境中。 |
[2] 连接视觉与排放:一种基于行为人工智能的道路设计碳排放估算方法 标题: Connecting Vision and Emissions: A Behavioural AI Approach to Carbon Estimation in Road Design 作者: Ammar K Al Mhdawi / Nonso Nnamoko / Safanah Mudheher Raafat / M.K.S. Al-Mhdawi / Amjad J Humaidi 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种增强的YOLOv8实时车辆检测和分类框架,用于估算城市环境中的碳排放。该系统增强了YOLOv8架构,以检测、分割和跟踪来自实时交通视频流的车辆。一旦车辆被定位,就会使用专门的基于深度学习的识别模块来识别车牌并分类车辆类型。由于YOLOv8缺乏内置的细粒度识别任务能力,例如读取车牌或确定车辆属性超出类别标签,我们的框架结合了一个混合管道,其中每个检测到的车辆都会被跟踪,其边界框被裁剪并传递给一个深度光学字符识别(OCR)模块。这个OCR系统由多个卷积神经网络(CNN)层组成,专门训练用于在各种条件下(如运动模糊、遮挡和多样的字体样式)进行字符级检测和车牌解码。此外,识别出的车牌信息通过一个实时API进行验证,该API与外部车辆注册数据库交叉引用,以确保准确的分类和排放估算。这种多阶段的方法实现了每辆车碳排放的精确自动计算。我们使用一个丰富的车辆数据集进行了广泛的评估,该数据集包含分割掩码和标注的车牌。YOLOv8检测器在边界框的平均精度(mAP@0.5)约为71%,在分割掩码的平均精度约为70%。字符级OCR准确率在表现最佳的CNN模型下达到了99%。这些结果证实了将实时目标检测与深度OCR结合用于智能交通系统实际部署的可行性,提供了一种可扩展的解决方案,用于自动化、车辆特定的碳排放监测。 |
[3] 基于视频的帕金森病指敲测试运动特征的可解释和细粒度量化 标题: Interpretable and Granular Video-Based Quantification of Motor Characteristics from the Finger Tapping Test in Parkinson Disease 作者: Tahereh Zarrat Ehsan / Michael Tangermann / Yağmur Güçlütürk / Bastiaan R. Bloem / Luc J. W. Evers 原文: [英文] [中文] 备注: None 摘要: 准确量化帕金森病(PD)中的运动特征对于监测疾病进展和优化治疗策略至关重要。指敲测试是一项标准的运动评估。临床医生通过视觉评估患者的敲击表现,并根据敲击幅度、速度和不规则性给予总体严重程度评分。然而,这种主观评估容易受到评估者之间和评估者自身的变异性影响,并且无法提供测试过程中捕获的个体运动特征的深入见解。本文介绍了一种基于计算机视觉的细化方法,用于从视频记录中量化PD运动特征。提出了四组临床相关特征来表征运动减少、运动迟缓、序列效应和犹豫停顿。我们在个性化帕金森项目的74名PD患者的视频记录和临床评估中评估了我们的方法。使用主成分分析和方差最大旋转显示视频特征与四种缺陷相对应。此外,基于视频的分析使我们能够在序列效应和犹豫停顿缺陷中识别出更细化的区别。接下来,我们使用这些特征训练机器学习分类器来估计运动障碍协会统一帕金森病评分量表(MDS-UPDRS)指敲评分。与最先进的方法相比,我们的方法在MDS-UPDRS评分预测中实现了更高的准确性,同时仍然提供了对个体指敲运动特征的可解释量化。总之,所提出的框架为PD运动特征的客观评估提供了一个实用的解决方案,可能在临床和远程环境中应用。未来的工作需要评估其对症状治疗和疾病进展的响应能力。 |
[4] 基于强化学习的管状结构跟踪动态分组 标题: Reinforcement Learning-Based Dynamic Grouping for Tubular Structure Tracking 作者: Chong Di / Shuwang Zhou / Da Chen / Jean-Marie Mirebeau / Minglei Shu / Laurent D. Cohen 原文: [英文] [中文] 备注: None 摘要: 在追踪血管和道路等管状结构的应用中,计算最小路径面临着复杂形态和环境变化的挑战。现有的方法大致可以分为两类:基于点的方法和基于段的方法。尽管基于段的方法在许多场景中取得了令人满意的结果,但它们通常存在计算效率低下的问题,并且严重依赖于预设的先验知识来适应目标的细长形状。我们提出了一种新颖的框架,将基于段的追踪视为一个马尔可夫决策过程(MDP),从而能够采用强化学习的方法。我们的方法利用Q学习动态地探索段的图,按需计算边权重并自适应地扩展搜索空间。该策略避免了预先计算图的高成本,并且在初始信息不完整的情况下表现出强大的鲁棒性。在典型的管状结构数据集上的实验结果表明,我们的方法显著优于最新的基于点和基于段的方法。所提出的方法能够有效处理复杂的拓扑结构,并在不依赖广泛的先验结构知识的情况下保持全局路径的一致性。 |
[5] 塔吊下方施工顶部的鸟瞰视角安全监测 标题: Bird's-eye view safety monitoring for the construction top under the tower crane 作者: Yanke Wang / Yu Hin Ng / Haobo Liang / Ching-Wei Chang / Hao Chen 原文: [英文] [中文] 备注: None 摘要: 塔式起重机正在涉及更多自动化和智能化的操作程序,重要的是,在利用其他任何进步之前,必须将自动化技术应用于安全问题。在现场的各种风险管理任务中,尤其是在模块化集成建筑(MiC)提升的情况下,从鸟瞰图的角度保护塔式起重机与建筑顶部区域(施工顶部)之间工作空间内的人类工人是至关重要的。此外,摄像头和激光雷达(LiDAR)可以捕捉现场丰富的三维信息,但这些信息尚未得到充分利用。考虑到对人类和塔式起重机的安全保护,我们提出了一种基于人工智能的全自动安全监控系统,用于从鸟瞰图监控塔式起重机的提升,保护施工顶部的人类工人,并通过向起重机操作员发出警报来避免起重机的碰撞。该系统通过整合摄像头和激光雷达捕获的信息,实现了人类和MiC的三维数据融合定位。我们探索并将最先进的方法实施到我们提出的软件流程中,并结合硬件和显示系统。此外,我们对流程中的组件进行了分析,以验证所涉及方法的准确性和有效性。现场的显示和可视化证明了我们的系统可以作为现场有价值的安全监控工具包。 |
[6] Damba-ST:用于高效城市时空预测的领域自适应Mamba 标题: Damba-ST: Domain-Adaptive Mamba for Efficient Urban Spatio-Temporal Prediction 作者: Rui An / Yifeng Zhang / Ziran Liang / Wenqi Fan / Yuxuan Liang / Xuequn Shang / Qing Li 原文: [英文] [中文] 备注: None 摘要: 在不同地区和城市中实现良好泛化的城市时空基础模型的训练,对于在未见或数据稀缺地区部署城市服务至关重要。最近的研究通常专注于融合跨域时空数据来训练统一的基于Transformer的模型。然而,这些模型存在二次计算复杂度和高内存开销的问题,限制了它们的可扩展性和实际部署。受到Mamba(一种具有线性时间复杂度的状态空间模型)效率的启发,我们探索了其在高效城市时空预测中的潜力。然而,直接将Mamba应用为时空骨干会导致负迁移和严重的性能下降。这主要是由于时空异质性和Mamba的隐藏状态更新的递归机制,限制了跨域泛化。为了解决这些挑战,我们提出了Damba-ST,一种新颖的基于Mamba的域自适应模型,用于高效的城市时空预测。Damba-ST保留了Mamba的线性复杂度优势,同时显著增强了其对异质域的适应性。具体来说,我们引入了两个核心创新:(1)一种域自适应状态空间模型,将潜在表示空间划分为一个共享子空间,用于学习跨域的共性,以及独立的、域特定的子空间,用于捕捉域内的判别特征;(2)三种不同的域适配器,作为域感知代理,桥接不同的域分布,促进跨域共性的对齐。大量实验表明了Damba-ST的泛化能力和效率。它在预测任务中达到了最先进的性能,并展示了强大的零样本泛化能力,使其能够在新的城市环境中无缝部署,而无需大量的再训练或微调。 |
[7] 从像素和文字到波浪:光谱字典vLLMs的统一框架 标题: From Pixels and Words to Waves: A Unified Framework for Spectral Dictionary vLLMs 作者: Andrew Kiruluta / Priscilla Burity 原文: [英文] [中文] 备注: None 摘要: 视觉-语言模型(VLMs)在单一架构中统一了计算机视觉和自然语言处理,能够解释和描述图像。大多数最先进的系统依赖于两个计算密集型组件:视觉编码器中的卷积和用于多模态融合的二次自注意力机制。本研究通过引入频谱字典令牌混合器去除了这两者,该混合器将每个图像块或词片表示为可学习频率原子的稀疏组合。我们的1.1B参数原型SDict-VLM在MS-COCO图像描述任务中实现了BLEU-4得分39.2,CIDEr得分127.5,以及SPICE得分27.0,同时在VQAv2上达到了50.3%的准确率。这些结果在使用60%更少的参数、2.3倍更少的峰值GPU内存和2.2倍更快的推理速度的情况下,缩小了与BLIP-2约85%的性能差距。据我们所知,这是第一个在消除卷积和自注意力的同时匹配中等规模变压器基线的VLM。除了其O(L log L)复杂度外,共享的频率字典还支持透明的跨模态对齐,并提供了准确性和计算之间的可调节权衡,为高效且可解释的VLMs铺平了道路。 |
[8] DiffRIS:利用预训练的文本到图像扩散模型增强遥感图像分割中的指代 标题: DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models 作者: Zhe Dong / Yuzhe Sun / Tianzhu Liu / Yanfeng Gu 原文: [英文] [中文] 备注: None 摘要: 遥感图像分割(RRSIS)通过自然语言描述实现对遥感图像中区域的精确划分,在灾害响应、城市发展和环境监测等关键应用中发挥重要作用。尽管最近取得了一些进展,当前的方法在处理航空影像时面临显著挑战,这些挑战包括由于俯视视角固有的复杂物体特征,如尺度变化、多样的方向和语义模糊性。为了解决这些限制,我们提出了DiffRIS,这是一种新颖的框架,利用预训练的文本到图像扩散模型的语义理解能力来增强RRSIS任务中的跨模态对齐。我们的框架引入了两个关键创新:一个上下文感知适配器(CP-adapter),通过全局上下文建模和面向对象的推理动态优化语言特征;以及一个渐进式跨模态推理解码器(PCMRD),通过迭代地将文本描述与视觉区域对齐实现精确分割。CP-adapter弥合了通用视觉语言理解与遥感应用之间的领域差距,而PCMRD通过多尺度特征交互实现细粒度的语义对齐。在三个基准数据集RRSIS-D、RefSegRS和RISBench上的综合实验表明,DiffRIS在所有标准指标上均优于现有方法,确立了RRSIS任务的新技术水平。显著的性能提升验证了通过我们提出的自适应框架利用预训练扩散模型进行遥感应用的有效性。 |
[9] GLIMPSE:用于生成型大型视觉语言模型的提示视觉显著性解释的梯度层重要性映射 标题: GLIMPSE: Gradient-Layer Importance Mapping for Prompted Visual Saliency Explanation for Generative LVLMs 作者: Guanxi Shen 原文: [英文] [中文] 备注: None 摘要: 最近在大型视觉语言模型(LVLMs)方面的进展释放了从视觉输入生成连贯响应的前所未有的能力。然而,解释LVLMs在生成自由形式文本响应时将视觉注意力集中在哪里仍然是一个重大挑战,但这对于理解模型行为、诊断幻觉、揭示偏见和确保透明性至关重要。我们介绍了GLIMPSE(用于提示的视觉显著性解释的梯度层重要性映射),这是一种轻量级、与模型无关的框架,用于可视化LVLMs在开放式视觉问答(VQA)过程中依赖的显著图像区域,同时揭示多模态文本显著性。GLIMPSE融合了梯度加权注意力、自适应层传播和加权标记聚合,以生成整体响应级别的归因热图,用于解释跨模态推理,在与人类对齐方面优于先前的可解释性方法。我们展示了一种使用GLIMPSE的分析性可解释人工智能(XAI)方法,以揭示LVLM跨模态归因的细粒度见解,追踪标记级推理动态,并分析系统性的人类注意力错位、幻觉和偏见。 |
[10] 扩散变压器到曼巴蒸馏用于高分辨率图像生成 标题: Diffusion Transformer-to-Mamba Distillation for High-Resolution Image Generation 作者: Yuan Yao / Yicong Hong / Difan Liu / Long Mai / Feng Liu / Jiebo Luo 原文: [英文] [中文] 备注: None 摘要: 扩散变压器(DiT)中的自注意力机制的二次计算复杂度在高分辨率图像生成中引入了大量的计算成本。虽然线性复杂度的Mamba模型成为一种潜在的替代方案,但直接训练Mamba在经验上仍然具有挑战性。为了解决这个问题,本文引入了扩散变压器到Mamba的蒸馏(T2MD),形成了一种高效的训练流程,促进了从基于自注意力的变压器到线性复杂度状态空间模型Mamba的过渡。我们建立了一个扩散自注意力和Mamba的混合模型,同时实现了效率和全局依赖性。通过提出的层级教师强制和基于特征的知识蒸馏,T2MD缓解了从头开始训练状态空间模型的困难和高成本。从蒸馏的512×512分辨率基础模型开始,我们通过轻量级适应和高分辨率微调推动生成2048×2048的图像。实验表明,我们的训练路径带来了低开销但高质量的文本到图像生成。重要的是,我们的结果也证明了使用顺序和因果Mamba模型生成非因果视觉输出的可行性,表明了未来探索的潜力。 |
[11] 正交投影子空间用于聚合在线先验知识以持续测试时适应 标题: Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation 作者: Jinlong Li / Dong Zhao / Qi Zang / Zequn Jie / Lin Ma / Nicu Sebe 原文: [英文] [中文] 备注: None 摘要: 持续测试时间适应(CTTA)是一项任务,要求源预训练模型持续适应具有变化目标分布的新场景。现有的CTTA方法主要集中在减轻灾难性遗忘和错误积累的挑战。尽管已经出现了一些基于遗忘适应和参数高效微调的新方法,但它们仍然难以在复杂任务(如语义分割)中平衡竞争性能和高效模型适应性。在本文中,为了解决上述问题,我们提出了一种新的流程,称为正交投影子空间以聚合在线先验知识,简称OoPk。具体来说,我们首先正交投影一个微调子空间,使模型能够适应新领域,同时保留预训练源模型的知识完整性,以缓解灾难性遗忘。然后,我们详细制定了一种在线先验知识聚合策略,该策略采用一种积极但高效的图像遮蔽策略来模拟潜在的目标动态性,增强学生模型的领域适应性。这进一步逐步改善教师模型的知识,确保高质量的伪标签并减少错误积累。我们通过广泛的实验展示了我们的方法,超越了之前的CTTA方法,并在语义分割任务的各种持续TTA基准中实现了竞争性能。 |
[12] LEGATO:大规模端到端可推广的乐谱光学识别方法 标题: LEGATO: Large-scale End-to-end Generalizable Approach to Typeset OMR 作者: Guang Yang / Victoria Ebert / Nazif Tamer / Luiza Pozzobon / Noah A. Smith 原文: [英文] [中文] 备注: None 摘要: 我们提出了Legato,这是一种用于光学音乐识别(OMR)的新型端到端Transformer模型。Legato是第一个大规模预训练的OMR模型,能够识别整页或多页的印刷音乐乐谱,也是第一个能够生成ABC记谱文档的模型,ABC记谱是一种简洁且人类可读的符号音乐格式。通过结合预训练的视觉编码器和在超过214K图像数据集上训练的ABC解码器,我们的模型展示了在各种印刷乐谱上强大的泛化能力。我们在一系列数据集上进行了实验,证明我们的模型达到了最先进的性能。鉴于缺乏标准化的端到端OMR评估,我们使用多样化的指标全面地将我们的模型与之前的最先进技术进行了比较。 |
[13] HAWAII:用于高效视觉-语言模型的分层视觉知识转移 标题: HAWAII: Hierarchical Visual Knowledge Transfer for Efficient Vision-Language Models 作者: Yimu Wang / Mozhgan Nasr Azadani / Sean Sedwards / Krzysztof Czarnecki 原文: [英文] 备注: Work in progress 摘要: 提高视觉-语言模型(VLMs)的视觉理解能力对于增强其在各种任务中的表现至关重要。虽然使用多个预训练的视觉专家显示出很大的潜力,但在训练和推理过程中往往会带来显著的计算成本。为了解决这一挑战,我们提出了HAWAII,这是一种新颖的框架,将多个视觉专家的知识提炼到一个单一的视觉编码器中,使其能够以最小的计算开销继承多个专家的互补优势。为了缓解不同教师之间的冲突并在不同教师特定的知识之间切换,我们提出使用教师特定的低秩适配(LoRA)适配器和相应的路由器,而不是为多个教师使用一组固定的适配器。每个适配器与特定教师对齐,避免在提炼过程中产生噪声指导。为了实现高效的知识提炼,我们提出了细粒度和粗粒度的提炼。在细粒度层面,使用令牌重要性分数自适应地强调每个教师中最具信息量的令牌。在粗粒度层面,我们总结来自多个教师的知识,并使用一组通用知识的LoRA适配器和路由器将其转移给学生。在各种视觉-语言任务上的大量实验表明,与流行的开源VLMs相比,HAWAII具有优越性。 |
[14] 解读微笑:基础模型在面部情感识别中的代理偏差 标题: Reading Smiles: Proxy Bias in Foundation Models for Facial Emotion Recognition 作者: Iosif Tsangko / Andreas Triantafyllopoulos / Adem Abdelmoula / Adria Mallol-Ragolta / Bjoern W. Schuller 原文: [英文] [中文] 备注: None 摘要: 基础模型(FMs)正在迅速改变情感计算(AC),视觉语言模型(VLMs)现在能够在零样本环境中识别情感。本文探讨了一个关键但尚未深入研究的问题:这些模型依赖哪些视觉线索来推断情感,这些线索是基于心理学的还是表面学习的?我们在一个带有牙齿标注的AffectNet数据集子集上对不同规模的VLMs进行了基准测试,发现根据可见牙齿的存在,性能会发生一致的变化。通过对表现最佳的模型(即GPT-4o)的结构化内省,我们展示了面部属性如眉毛位置在其情感推理中起到了很大作用,揭示了其在效价-唤醒预测中的高度内部一致性。这些模式突显了基础模型行为的涌现特性,但也揭示了风险:捷径学习、偏见和公平性问题,尤其是在心理健康和教育等敏感领域。 |
[15] RareSpot:通过多尺度一致性和上下文感知增强在航拍图像中发现小型和稀有野生动物 标题: RareSpot: Spotting Small and Rare Wildlife in Aerial Imagery with Multi-Scale Consistency and Context-Aware Augmentation 作者: Bowen Zhang / Jesse T. Boulerice / Nikhil Kuniyil / Charvi Mendiratta / Satish Kumar / Hila Shamon / B.S. Manjunath 原文: [英文] [中文] 备注: Accepted to the CVPR 2025 Workshop on Computer Vision for Animal Behavior Tracking and Modeling (CV4Animals) 摘要: 在航空影像中自动检测小型和稀有野生动物对于有效的保护工作至关重要,但这仍然是一个重大的技术挑战。草原犬鼠就是这一问题的典型例子:它们作为关键物种的生态重要性与其难以捉摸的存在形成鲜明对比——其特征是体型小、分布稀疏以及视觉特征不明显——这削弱了现有的检测方法。为了解决这些挑战,我们提出了RareSpot,一个结合多尺度一致性学习和上下文感知增强的强大检测框架。我们的多尺度一致性方法利用特征金字塔的结构化对齐,增强了细粒度对象的表示,并减轻了与尺度相关的特征损失。作为补充,上下文感知增强通过将难以检测的样本嵌入到真实的环境背景中,策略性地合成具有挑战性的训练实例,显著提高了模型的精确度和召回率。在一个由专家标注的草原犬鼠无人机影像基准上进行评估,我们的方法实现了最先进的性能,与基线方法相比,检测准确率提高了35%以上。重要的是,它在其他野生动物数据集上也能有效泛化,展示了广泛的适用性。RareSpot基准和方法不仅支持关键的生态监测,还为在复杂航空场景中检测小型、稀有物种建立了新的基础。 |
[16] 逆向编辑:通过循环一致性模型实现高效快速的图像编辑 标题: Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models 作者: Ilia Beletskii / Andrey Kuznetsov / Aibek Alanov 原文: [英文] [中文] 备注: The code of our method is available on GitHub at this https URL 摘要: 最近在使用扩散模型进行图像编辑方面取得了显著的成果,能够对生成过程进行细粒度的控制。然而,由于这些方法的迭代特性,它们的计算量非常大。尽管蒸馏扩散模型可以实现更快的推理速度,但其编辑能力仍然有限,主要是因为反演质量较差。高保真反演和重建对于精确的图像编辑至关重要,因为它们能够保持源图像的结构和语义完整性。在这项工作中,我们提出了一种新颖的框架,利用一致性模型增强图像反演,仅需四步即可实现高质量编辑。我们的方法引入了一种循环一致性优化策略,大大提高了重建精度,并实现了可控的编辑性和内容保留之间的权衡。我们在各种图像编辑任务和数据集上实现了最先进的性能,表明我们的方法在效率大幅提高的同时,能够匹配或超越全步扩散模型。我们的方法代码已在GitHub上提供,链接为此https URL。 |
[17] PrITTI:基于原语的可控和可编辑3D语义场景生成 标题: PrITTI: Primitive-based Generation of Controllable and Editable 3D Semantic Scenes 作者: Christina Ourania Tze / Daniel Dauner / Yiyi Liao / Dzmitry Tsishkou / Andreas Geiger 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 大规模3D语义场景生成主要依赖于基于体素的表示,这种表示内存占用大,受限于固定分辨率,并且难以编辑。相比之下,原语使用紧凑、粗略的3D结构来表示语义实体,易于操作和组合,使其成为该任务的理想表示。在本文中,我们介绍了PrITTI,这是一种基于潜在扩散的框架,利用原语作为生成可组合、可控和可编辑的3D语义场景布局的主要基础元素。我们的方法采用混合表示,使用光栅化格式建模地面表面,同时将对象编码为矢量化的3D原语。这种分解也反映在结构化的潜在表示中,使得地面和对象组件的场景操作更加灵活。为了克服传统编码方法中的方向模糊性,我们引入了一种稳定的基于Cholesky的参数化方法,可以联合编码对象的大小和方向。在KITTI-360数据集上的实验表明,PrITTI在生成质量上优于基于体素的基线,同时将内存需求减少了最多3倍。此外,PrITTI支持场景中对象的直接实例级操作,并支持一系列下游应用,包括场景修补、扩展和照片级真实感街景合成。 |
[18] 使用移动视觉变换器的轻量级RGB-T跟踪 标题: Lightweight RGB-T Tracking with Mobile Vision Transformers 作者: Mahdi Falaki / Maria A. Amer 原文: [英文] [中文] 备注: None 摘要: 单模态目标跟踪(例如,仅使用RGB)在低光照和恶劣天气条件等具有挑战性的成像环境中会遇到困难。为了解决这个问题,多模态跟踪(例如,RGB-T模型)旨在利用热红外特征等互补数据。虽然最近基于视觉Transformer的多模态跟踪器表现强劲,但由于模型规模较大,它们通常计算量很大。在这项工作中,我们提出了一种基于移动视觉Transformer(MobileViT)的新型轻量级RGB-T跟踪算法。我们的跟踪器引入了一个渐进融合框架,该框架通过可分离注意力共同学习模板和搜索区域之间的模态内和模态间交互。这种设计产生了有效的特征表示,支持更准确的目标定位,同时实现了较小的模型规模和快速的推理速度。与最先进的高效多模态跟踪器相比,我们的模型在提供显著较低的参数数量(少于400万)和最快的GPU推理速度(每秒122帧)的同时,达到了可比的准确性。这篇论文首次提出了使用移动视觉Transformer进行RGB-T跟踪和大规模多模态跟踪的跟踪器。跟踪器代码和模型权重将在论文接受后公开。 |
[19] PRISM:用于识别突出时刻的人本关键帧提取的感知识别 标题: PRISM: Perceptual Recognition for Identifying Standout Moments in Human-Centric Keyframe Extraction 作者: Mert Can Cakmak / Nitin Agarwal / Diwash Poudel 原文: [英文] [中文] 备注: None 摘要: 在线视频在塑造政治话语和放大网络社会威胁(如错误信息、宣传和激进化)方面起着核心作用。检测视频内容中最具影响力或“突出”的时刻对于内容审核、摘要和法证分析至关重要。在本文中,我们介绍了PRISM(用于识别突出时刻的感知识别),这是一种轻量级且与感知对齐的关键帧提取框架。PRISM在CIELAB颜色空间中运行,并使用感知颜色差异度量来识别与人类视觉敏感性一致的帧。与基于深度学习的方法不同,PRISM具有可解释性、无需训练且计算效率高,使其非常适合实时和资源受限的环境。我们在四个基准数据集上评估了PRISM:BBC、TVSum、SumMe和ClipShots,并证明它在保持高压缩率的同时实现了较高的准确性和保真度。这些结果突显了PRISM在结构化和非结构化视频内容中的有效性,以及其作为分析和审核在线平台中有害或政治敏感媒体的可扩展工具的潜力。 |
[20] MOSCARD -- 多模态机会性筛查心血管不良事件的因果推理与去混杂 标题: MOSCARD -- Causal Reasoning and De-confounding for Multimodal Opportunistic Screening of Cardiovascular Adverse Events 作者: Jialu Pi / Juan Maria Farina / Rimita Lahiri / Jiwoong Jeong / Archana Gurudu / Hyung-Bok Park / Chieh-Ju Chao / Chadi Ayoub / Reza Arsanjani / Imon Banerjee 原文: [英文] [中文] 备注: None 摘要: 根据2021年全球疾病负担研究,主要不良心血管事件(MACE)仍然是全球死亡的主要原因。机会性筛查利用常规健康检查中收集的数据,多模态数据可以在识别高风险个体方面发挥关键作用。胸部X光片(CXR)可以提供有关导致主要不良心血管事件(MACE)的慢性病的见解,而12导联心电图(ECG)则直接评估心脏电活动和结构异常。整合CXR和ECG可以提供比传统模型更全面的风险评估,传统模型依赖于临床评分、计算机断层扫描(CT)测量或生物标志物,这些可能受到采样偏差和单一模态限制的影响。我们提出了一种新颖的预测建模框架——MOSCARD,多模态因果推理与共同注意力,以对齐两种不同的模态,并同时减轻机会性风险估计中的偏差和混杂因素。主要技术贡献包括:(i)在ECG指导下的CXR多模态对齐;(ii)因果推理的整合;(iii)用于去混杂的双反向传播图。在急诊科(ED)的内部数据和外部MIMIC数据集上进行评估,我们的模型优于单一模态和最先进的基础模型,AUC分别为0.75、0.83、0.71。提出的具有成本效益的机会性筛查能够实现早期干预,改善患者结果并减少差异。 |
[21] OpenWildlife:用于地理多样性航拍图像的开放词汇多物种野生动物检测器 标题: OpenWildlife: Open-Vocabulary Multi-Species Wildlife Detector for Geographically-Diverse Aerial Imagery 作者: Muhammed Patel / Javier Noa Turnes / Jayden Hsiao / Linlin Xu / David Clausi 原文: [英文] [中文] 备注: None 摘要: 我们介绍了OpenWildlife (OW),这是一种开放词汇的野生动物检测器,旨在识别多种空中影像中的多种物种。虽然现有的自动化方法在特定环境中表现良好,但由于分类覆盖范围有限和模型架构僵化,它们往往难以在不同物种和环境中进行泛化。相比之下,OW利用语言感知嵌入和对Grounding-DINO框架的新颖改编,使其能够通过自然语言输入识别陆地和海洋环境中的物种。OW在15个数据集上进行训练,优于大多数现有方法,在微调时达到最高\textbf{0.981}的mAP50,并在包含新物种的七个数据集上达到\textbf{0.597}的mAP50。此外,我们引入了一种高效的搜索算法,该算法结合了k近邻和广度优先搜索,以优先考虑可能发现社会性物种的区域。该方法在仅探索\textbf{33\%}可用图像的情况下捕获了超过\textbf{95\%}的物种。为了支持可重复性,我们公开发布了源代码和数据集划分,确立了OW作为全球生物多样性评估的灵活且具有成本效益的解决方案。 |
[22] 古代文字图像识别与处理:综述 标题: Ancient Script Image Recognition and Processing: A Review 作者: Xiaolei Diao / Rite Bo / Yanling Xiao / Lida Shi / Zhihan Zhou / Hao Xu / Chuntao Li / Xiongfeng Tang / Massimo Poesio / Cédric M. John / Daqian Shi 原文: [英文] [中文] 备注: None 摘要: 古代文字,如埃及象形文字、甲骨文和古希腊铭文,是人类文明的重要载体,蕴含着无价的历史和文化信息。自动化古代文字图像识别的重要性日益增加,这使得大规模解读成为可能,并推动了考古学和数字人文学科的研究。随着深度学习的兴起,这一领域发展迅速,提出了许多针对特定文字的数据集和模型。尽管这些文字差异很大,从有限字形的表音系统到拥有数千个复杂符号的表意系统,但它们在挑战和方法上有共同之处。此外,古代文字面临着独特的挑战,包括数据分布不平衡和图像退化,这推动了各种专用方法的发展。本文综述了古代文字图像识别方法。我们首先根据文字类型对现有研究进行分类,并分析各自的识别方法,突出它们的差异和共同策略。然后,我们关注古代文字特有的挑战,系统地检查其影响,并回顾最近的解决方案,包括小样本学习和抗噪技术。最后,我们总结了当前的局限性,并概述了未来有前景的发展方向。我们的目标是提供一个结构化的、前瞻性的视角,以支持古代文字的识别、解读和破译的持续进步。 |
[23] MedErr-CT:用于识别和纠正CT报告错误的视觉问答基准 标题: MedErr-CT: A Visual Question Answering Benchmark for Identifying and Correcting Errors in CT Reports 作者: Sunggu Kyung / Hyungbin Park / Jinyoung Seo / Jimin Sung / Jihyun Kim / Dongyeong Kim / Wooyoung Jo / Yoojin Nam / Sangah Park / Taehee Kwon / Sang Min Lee / Namkug Kim 原文: [英文] [中文] 备注: 14 pages, 5 figures, submitted to CVPR 2025 摘要: 计算机断层扫描(CT)在临床诊断中起着至关重要的作用,但对CT检查日益增长的需求引发了对诊断错误的担忧。尽管多模态大语言模型(MLLMs)在医学知识理解方面表现出良好的前景,但其产生不准确信息的倾向突显了严格验证的必要性。然而,现有的医学视觉问答(VQA)基准主要集中于简单的视觉识别任务,缺乏临床相关性,未能评估专家级知识。我们引入了MedErr-CT,这是一种新颖的基准,用于评估医学MLLMs通过VQA框架识别和纠正CT报告中的错误的能力。该基准包括六个错误类别——四个以视觉为中心的错误(遗漏、插入、方向、大小)和两种词汇错误类型(单位、拼写错误),并分为三个任务级别:分类、检测和纠正。利用这一基准,我们定量评估了最先进的3D医学MLLMs在不同错误类型上的性能,揭示了其能力的显著差异。我们的基准有助于开发更可靠且临床适用的MLLMs,最终帮助减少诊断错误,提高临床实践中的准确性。代码和数据集可在此https URL获取。 |
[24] Video-XL-2:通过任务感知的KV稀疏化实现超长视频理解 标题: Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification 作者: Minghao Qin / Xiangrui Liu / Zhengyang Liang / Yan Shu / Huaying Yuan / Juenjie Zhou / Shitao Xiao / Bo Zhao / Zheng Liu 原文: [英文] [中文] 备注: 12 pages, 5 Figure, 3 Table 摘要: 多模态大型语言模型(MLLMs)在过去几年中在视频理解方面取得了显著进展。然而,由于高内存和计算成本,处理长视频输入仍然是一个主要挑战。这使得当前模型难以在长视频理解中同时实现强性能和高效率。为了解决这一挑战,我们提出了Video-XL-2,这是一种新颖的MLLM,通过任务感知的KV稀疏化提供了卓越的成本效益以进行长视频理解。所提出的框架通过两个关键步骤操作:基于块的预填充和双层键值解码。基于块的预填充将视觉标记序列分成块,在每个块内应用全注意力,并在块之间应用稀疏注意力。这显著减少了计算和内存开销。在解码过程中,双层键值解码根据每个块与任务的相关性选择性地重新加载密集或稀疏的键值。这种方法进一步提高了内存效率,并增强了模型捕捉细粒度信息的能力。Video-XL-2在各种长视频理解基准上实现了最先进的性能,优于现有的开源轻量级模型。它还表现出卓越的效率,能够在单个NVIDIA A100(80GB)GPU上处理超过10,000帧,并在几秒钟内处理数千帧。 |
[25] MSR-Align:面向政策的多模态对齐,用于视觉语言模型中的安全感知推理 标题: MSR-Align: Policy-Grounded Multimodal Alignment for Safety-Aware Reasoning in Vision-Language Models 作者: Yinan Xia / Yilei Jiang / Yingshui Tan / Xiaoyong Zhu / Xiangyu Yue / Bo Zheng 原文: [英文] [中文] 备注: None 摘要: 视觉-语言模型(VLMs)在多模态推理任务中通过增强的思维链能力取得了显著进展。然而,这一进步也带来了新的安全风险,因为这些模型变得越来越容易受到有害的多模态提示的影响,这些提示可能会触发不道德或不安全的行为。现有的安全对齐方法主要是为单模态语言模型设计的,无法有效应对多模态输入所带来的复杂和微妙的威胁。此外,目前的安全数据集缺乏细粒度的、基于政策的推理能力,无法稳健地对齐具有推理能力的VLMs。在这项工作中,我们引入了{MSR-Align},一个高质量的多模态安全推理数据集,旨在弥合这一差距。MSR-Align支持在视觉和文本模态中基于标准化安全政策进行细粒度的、深思熟虑的推理。我们的数据生成流程强调多模态多样性、基于政策的推理,以及使用强大的多模态评审进行严格的质量过滤。大量实验表明,在MSR-Align上微调VLMs显著提高了对文本和视觉-语言越狱攻击的鲁棒性,同时保持或增强了总体推理性能。MSR-Align为推进具有推理能力的VLMs的安全对齐提供了一个可扩展且有效的基础。我们的数据集已在此https URL公开提供。 |
[26] 自动化图像识别框架 标题: Automated Image Recognition Framework 作者: Quang-Binh Nguyen / Trong-Vu Hoang / Ngoc-Do Tran / Tam V. Nguyen / Minh-Triet Tran / Trung-Nghia Le 原文: [英文] 备注: ICCCI 2025 摘要: 深度学习模型的有效性在很大程度上依赖于数据,然而为特定任务收集和标注数据,尤其是在处理缺乏相关数据集的新颖或敏感主题时,会带来显著的时间和资源挑战。为此,我们提出了一种新颖的自动化图像识别(AIR)框架,该框架利用生成式人工智能的力量。AIR使终端用户能够合成高质量的预标注数据集,从而无需手动标注。它还能够自动在生成的数据集上训练深度学习模型,实现强大的图像识别性能。我们的框架包括两个主要的数据合成过程:AIR-Gen和AIR-Aug。AIR-Gen使终端用户能够无缝生成符合其规格的数据集。为了提高图像质量,我们引入了一种新颖的自动化提示工程模块,该模块利用大型语言模型的能力。我们还引入了一种分布调整算法,以消除重复和异常值,从而增强生成数据集的鲁棒性和可靠性。另一方面,AIR-Aug增强了给定的数据集,从而提高深度分类器模型的性能。AIR-Aug在用户为特定任务拥有有限数据时特别有益。通过全面的实验,我们证明了我们生成的数据在训练深度学习模型方面的有效性,并展示了该系统在为广泛的对象提供图像识别模型方面的潜力。我们还进行了用户研究,获得了令人印象深刻的4.4分(满分5.0),强调了AI社区对AIR的积极看法。 |
[27] 3D-SSM:一种用于遥感变化检测的新型三维选择性扫描模块 标题: 3D-SSM: A Novel 3D Selective Scan Module for Remote Sensing Change Detection 作者: Rui Huang / Jincheng Zeng / Sen Gao / Yan Xing 原文: [英文] [中文] 备注: None 摘要: 现有的基于Mamba的遥感变化检测方法虽然增强了扫描模型,但仍然受限于无法有效捕捉图像通道之间的长距离依赖性,这限制了它们的特征表示能力。为了解决这一限制,我们提出了一种3D选择性扫描模块(3D-SSM),该模块从空间平面和通道视角捕捉全局信息,从而实现对图像的更全面理解。基于3D-SSM,我们提出了两个关键组件:时空交互模块(SIM)和多分支特征提取模块(MBFEM)。SIM通过在不同时间点的图像之间实现全局和局部特征的交互,促进了双时态特征的整合,从而增强了对细微变化的检测。同时,MBFEM结合了频域、空间域和3D-SSM的特征,提供了图像内丰富的上下文信息表示。通过大量实验,我们提出的方法在五个基准数据集上与最先进的变化检测方法相比表现出色。代码可在此网址获取。 |
[28] 自定进度协作与对抗网络用于无监督领域适应 标题: Self-Paced Collaborative and Adversarial Network for Unsupervised Domain Adaptation 作者: Weichen Zhang / Dong Xu / Wanli Ouyang / Wen Li 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种新的无监督领域适应方法,称为协作与对抗网络(CAN),该方法使用领域协作和领域对抗学习策略来训练神经网络。领域协作学习旨在学习领域特定的特征表示,以保持目标领域的可辨识性,而领域对抗学习旨在学习领域不变的特征表示,以减少源领域和目标领域之间的分布不匹配。我们展示了这两种学习策略可以统一地表述为带有正或负权重损失的领域分类器学习。然后,我们设计了一种协作与对抗训练方案,通过协作学习自动从CNN的较低层块中学习领域特定表示,并通过对抗学习从较高层块中学习领域不变表示。此外,为了进一步增强目标领域的可辨识性,我们提出了自步调CAN(SPCAN),该方法逐步选择伪标记的目标样本来重新训练分类器。我们采用自步调学习策略,以从易到难的方式选择伪标记的目标样本。在不同基准数据集上的全面实验,包括用于对象识别任务的Office-31、ImageCLEF-DA和VISDA-2017,以及用于视频动作识别任务的UCF101-10和HMDB51-10,显示我们新提出的方法达到了最先进的性能,明确证明了我们提出的方法在无监督领域适应中的有效性。 |
[29] AirV2X:统一的空地车联网协作 标题: AirV2X: Unified Air-Ground Vehicle-to-Everything Collaboration 作者: Xiangbo Gao / Yuheng Wu / Xuewen Luo / Keshu Wu / Xinghao Chen / Yuping Wang / Chenxi Liu / Yang Zhou / Zhengzhong Tu 原文: [英文] [中文] 备注: None 摘要: 虽然多车辆协同驾驶相比单车自动驾驶具有明显优势,但传统的基于基础设施的V2X系统仍然受到高昂部署成本的限制,并在农村和郊区地区形成“未覆盖的危险区域”。我们提出了AirV2X-Perception,一个大规模数据集,利用无人机作为固定路边单元(RSU)的灵活替代或补充。无人机在地面感知方面提供了独特的优势:补充的鸟瞰视图减少了遮挡,动态定位能力使其能够悬停、巡逻和护送导航规则,与固定基础设施相比,部署成本显著降低。我们的数据集包括6.73小时的无人机辅助驾驶场景,涵盖城市、郊区和农村环境,并具有多样的天气和光照条件。AirV2X-Perception数据集促进了车辆到无人机(V2D)算法的开发和标准化评估,解决了快速扩展的空中辅助自动驾驶系统领域中的一个关键缺口。该数据集和开发工具包已在此https URL上开源。 |
[30] 大禹:面向水道监控和场景理解的无人船图像描述 标题: Da Yu: Towards USV-Based Image Captioning for Waterway Surveillance and Scene Understanding 作者: Runwei Guan / Ningwei Ouyang / Tianhao Xu / Shaofeng Liang / Wei Dai / Yafeng Sun / Shang Gao / Songning Lai / Shanliang Yao / Xuming Hu / Ryan Wen Liu / Yutao Yue / Hui Xiong 原文: [英文] [中文] 备注: 14 pages, 13 figures 摘要: 自动化水道环境感知对于使无人水面艇(USVs)能够理解其周围环境并做出明智决策至关重要。大多数现有的水道感知模型主要关注实例级对象感知范式(例如,检测、分割)。然而,由于水道环境的复杂性,目前的感知数据集和模型未能实现对水道的全局语义理解,限制了大规模监测和结构化日志生成。随着视觉-语言模型(VLMs)的进步,我们利用图像描述生成引入了WaterCaption,这是第一个专为水道环境设计的描述生成数据集。WaterCaption专注于细粒度、多区域的长文本描述,为视觉地理理解和空间场景认知提供了新的研究方向。具体来说,它包括20.2k图像-文本对数据,词汇量达180万。此外,我们提出了“大禹”,一种可在边缘设备部署的多模态大型语言模型,专为USVs设计,其中我们提出了一种新颖的视觉到语言投影器,称为Nano Transformer Adaptor(NTA)。NTA有效地平衡了计算效率与全局和细粒度局部视觉特征建模能力,从而显著增强了模型生成长文本输出的能力。“大禹”在性能和效率之间实现了最佳平衡,超越了WaterCaption和其他几个描述生成基准上的最新模型。 |
[31] HoliGS:用于具身视图合成的整体高斯喷溅 标题: HoliGS: Holistic Gaussian Splatting for Embodied View Synthesis 作者: Xiaoyuan Wang / Yizhou Zhao / Botao Ye / Xiaojun Shan / Weijie Lyu / Lu Qi / Kelvin C.K. Chan / Yinxiao Li / Ming-Hsuan Yang 原文: [英文] [中文] 备注: None 摘要: 我们提出了HoliGS,这是一种新颖的可变形高斯喷射框架,旨在从长时间的单目RGB视频中实现具身视图合成。与之前的4D高斯喷射和动态NeRF管道在处理分钟级捕获时的训练开销问题不同,我们的方法利用可逆高斯喷射变形网络来准确重建大规模动态环境。具体来说,我们将每个场景分解为静态背景和随时间变化的对象,每个对象由学习的高斯基元表示,这些基元通过全局刚性变换、骨架驱动的关节运动以及通过可逆神经流实现的细微非刚性变形来表现。这种分层变形策略通过将高斯附加到完整的规范前景形状(例如,第一人称或第三人称跟随),能够在各种具身相机轨迹中实现稳健的自由视点新视图渲染,这可能涉及多个演员之间的显著视点变化和交互。我们的实验表明,\ourmethod~在具有挑战性的数据集上实现了卓越的重建质量,同时显著减少了与最先进的单目可变形NeRF相比的训练和渲染时间。这些结果突显了在现实场景中EVS的实用且可扩展的解决方案。源代码将会发布。 |
[32] 使用级联视觉语言模型的开放词汇伪装物体分割 标题: Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models 作者: Kai Zhao / Wubang Yuan / Zheng Wang / Guanyi Li / Xiaoqiang Zhu / Deng-ping Fan / Dan Zeng 原文: [英文] [中文] 备注: None 摘要: 开放词汇伪装物体分割(OVCOS)旨在从任意类别中分割和分类伪装物体,由于视觉模糊性和未见过的类别,这一任务具有独特的挑战。现有方法通常采用两阶段范式:首先分割物体,然后使用视觉语言模型(VLMs)对分割区域进行分类。然而,这些方法(1)由于VLMs的全图像训练与裁剪区域推理之间的不匹配而遭受领域差距的影响,(2)依赖于为轮廓清晰的物体优化的通用分割模型,使其对伪装物体的处理效果较差。由于缺乏明确的指导,通用分割模型往往忽略细微的边界,导致不精确的结果。在本文中,我们引入了一种新颖的VLM引导的级联框架来解决这些问题。在分割阶段,我们利用Segment Anything Model(SAM),并由VLM引导。该框架使用VLM派生的特征作为对SAM的明确提示,有效地将注意力引导到伪装区域,显著提高了定位精度。在分类阶段,我们避免了由硬边界引入的领域差距。我们将分割输出视为通过alpha通道的软空间先验,这保留了完整的图像上下文,同时提供了精确的空间指导,从而实现对伪装物体更准确和具有上下文感知的分类。相同的VLM在分割和分类中共享,以确保效率和语义一致性。我们在OVCOS和传统伪装物体分割基准上的实验表明,我们的方法具有明显的优越性,突出了利用丰富的VLM语义在伪装物体的分割和分类中的有效性。 |
[33] 使用人类视线的时空注意机制进行气道技能评估 标题: Airway Skill Assessment with Spatiotemporal Attention Mechanisms Using Human Gaze 作者: Jean-Paul Ainam / Rahul / Lora Cavuoto / Matthew Hackett / Jack Norfleet / Suvranu De 原文: [英文] 备注: 13 pages, 6 figures, 14 equations, 摘要: 气道管理技能在急诊医学中至关重要,通常通过主观评估进行评估,但往往无法在真实场景中衡量能力。本文提出了一种基于机器学习的方法,通过使用人类视线数据和视频录制来评估气道技能,特别是气管插管(ETI)。所提出的系统利用由人类视线引导的注意力机制来增强对成功和失败的ETI程序的识别。通过视线点创建视觉掩码,以指导模型关注与任务相关的区域,减少不相关特征。一个自编码器网络从视频中提取特征,而注意力模块从视觉掩码生成注意力,分类器输出分类分数。这种方法首次使用人类视线进行ETI,显示出比传统方法更高的准确性和效率。人类视线数据的整合不仅提高了模型性能,还提供了一个强大、客观的临床技能评估工具,特别是在军事等高压环境中。结果显示预测准确性、敏感性和可信度的改善,突显了这种方法在改善急诊医学中的临床培训和患者结果方面的潜力。 |
[34] 捕捉细粒度对齐提升3D可供性检测 标题: Capturing Fine-Grained Alignments Improves 3D Affordance Detection 作者: Junsei Tokumitsu / Yuiga Wada 原文: [英文] [中文] 备注: MVA 2025 (Oral) 摘要: 在这项工作中,我们解决了3D点云中的可供性检测挑战,这项任务需要有效地捕捉点云与文本之间的细粒度对齐。现有方法通常难以建模这种对齐,导致在标准基准测试上的性能有限。这些方法的一个关键限制是它们依赖于点云和文本嵌入之间简单的余弦相似性,这缺乏进行细粒度推理所需的表现力。为了解决这一限制,我们提出了LM-AD,一种用于3D点云中可供性检测的新方法。此外,我们引入了可供性查询模块(AQM),通过利用预训练语言模型来有效捕捉点云与文本之间的细粒度对齐。我们证明了我们的方法在准确性和3D AffordanceNet数据集上的平均交并比方面优于现有方法。 |
[35] 渐进式模态合作用于多模态领域适应 标题: Progressive Modality Cooperation for Multi-Modality Domain Adaptation 作者: Weichen Zhang / Dong Xu / Jing Zhang / Wanli Ouyang 原文: [英文] [中文] 备注: None 摘要: 在这项工作中,我们提出了一种新的通用多模态领域适应框架,称为渐进式模态合作(PMC),通过利用多种模态线索(例如,RGB和深度)将从源领域学习到的知识转移到目标领域,适用于多模态领域适应(MMDA)和更通用的使用特权信息的多模态领域适应(MMDA-PI)设置。在MMDA设置下,两个领域中的样本都具有所有模态。在我们PMC的两个新提出的模块中,多种模态被协作用于选择可靠的伪标记目标样本,分别捕获模态特定信息和模态集成信息。在MMDA-PI设置下,目标领域中缺少一些模态。因此,为了更好地利用源领域中的多模态数据,我们进一步提出了带有特权信息的PMC(PMC-PI)方法,通过提出一个新的多模态数据生成(MMG)网络。MMG基于源领域数据生成目标领域中缺失的模态,考虑到领域分布不匹配和语义保留,分别通过对抗学习和加权伪语义条件实现。在三个图像数据集和八个视频数据集上进行的大量实验,针对各种多模态跨领域视觉识别任务,在MMDA和MMDA-PI设置下,清楚地证明了我们提出的PMC框架的有效性。 |
[36] 持续视网膜视觉-语言预训练在增量成像模态上的应用 标题: Continual Retinal Vision-Language Pre-training upon Incremental Imaging Modalities 作者: Yuang Yao / Ruiqi Wu / Yi Zhou / Tao Zhou 原文: [英文] [中文] 备注: Accepted by MICCAI 2025 摘要: 传统的眼底图像分析模型专注于单模态任务,忽略了眼底模态的互补性,这限制了它们的通用性。最近,视网膜基础模型已经出现,但大多数仍然是特定于模态的。将多种眼底成像模态整合到一个基础模型中是有价值的。然而,在动态环境中,不同模态的数据通常是增量到达的,需要持续的预训练。为了解决这个问题,我们提出了RetCoP,这是眼底领域第一个持续视觉-语言预训练框架,它将来自不同成像模态的图像和文本特征增量整合到一个统一的基础模型中。为了减轻持续预训练中的灾难性遗忘,我们引入了一种排练策略,利用具有代表性的图像-文本对和一种非对角线信息蒸馏方法。前者使模型能够重温以前阶段的知识,而后者则明确保留了图像和文本表示之间的对齐。实验表明,RetCoP在所有比较方法中表现优异,实现了最佳的泛化能力和最低的遗忘率。代码可以在这个https URL中找到。 |
[37] 通过跨切片和基因注意超图学习进行记忆增强的不完整多模态生存预测 标题: Memory-Augmented Incomplete Multimodal Survival Prediction via Cross-Slide and Gene-Attentive Hypergraph Learning 作者: Mingcheng Qu / Guang Yang / Donglin Di / Yue Gao / Tonghua Su / Yang Song / Lei Fan 原文: [英文] [中文] 备注: accepted by MICCAI2025 code: this https URL 摘要: 多模态病理基因组分析对于癌症生存预测至关重要。然而,现有方法主要整合福尔马林固定石蜡包埋(FFPE)切片与基因组数据,而忽视了其他保存切片的可用性,如新鲜冷冻(FF)切片。此外,由于病理数据的高分辨率空间特性往往在跨模态融合过程中占主导地位,这阻碍了有效的多模态融合,并导致病理与基因组之间的模态不平衡问题。这些方法通常还需要完整的数据模态,限制了其在临床上对不完整模态(如缺失病理或基因组数据)的适用性。在本文中,我们提出了一种多模态生存预测框架,该框架利用超图学习有效整合多WSI信息以及病理切片与基因组数据之间的跨模态交互,同时解决模态不平衡问题。此外,我们引入了一种记忆机制,存储先前学习的配对病理基因组特征,并动态补偿不完整模态。在五个TCGA数据集上的实验表明,我们的模型在C-Index上比先进方法提高了超过2.3%。在不完整模态场景下,我们的方法超过了仅病理模型(3.3%)和仅基因模型(7.9%)。代码:this https URL |
[38] 微调的ImageNet预训练模型在电子元件分类中的比较性能 标题: Comparative Performance of Finetuned ImageNet Pre-trained Models for Electronic Component Classification 作者: Yidi Shao / Longfei Zhou / Fangshuo Tang / Xinyi Shi / Dalang Chen / Shengtao Xia 原文: [英文] 备注: This is the author's version of the accepted paper. The final version will appear in IEEE UV 2024 摘要: 电子元件的分类和检测在制造业中至关重要,它们显著降低了劳动力成本,并促进了技术和工业的发展。预训练模型,尤其是那些在 ImageNet 上训练的模型,在图像分类中非常有效,使研究人员即使在数据有限的情况下也能取得优异的结果。本文比较了十二种在 ImageNet 上预训练的模型在电子元件分类中的性能。我们的研究结果表明,所有测试的模型都表现出令人满意的准确性。MobileNet-V2 记录的最高准确率为 99.95%,而 EfficientNet-B0 的最低准确率为 92.26%。这些结果强调了在图像分类任务中使用 ImageNet 预训练模型的显著优势,并证实了这些方法在电子制造领域的实际应用性。 |
[39] 从句子中分割场景中的任意3D部分 标题: Segment Any 3D-Part in a Scene from a Sentence 作者: Hongyu Wu / Pengwan Yang / Yuki M. Asano / Cees G. M. Snoek 原文: [英文] [中文] 备注: None 摘要: 本文旨在通过自然语言描述实现场景中任意3D部件的分割,超越传统的对象级3D场景理解,并解决数据和方法上的挑战。由于获取和标注的成本高昂,现有的数据集和方法主要局限于对象级理解。为了克服数据和标注可用性的限制,我们引入了3D-PU数据集,这是第一个具有密集部件标注的大规模3D数据集,通过一种创新且经济高效的方法构建具有细粒度部件级标注的合成3D场景,为高级3D部件场景理解铺平了道路。在方法方面,我们提出了OpenPart3D,这是一种仅使用3D输入的框架,有效应对部件级分割的挑战。大量实验表明,我们的方法在开放词汇3D场景理解任务中的部件级表现优越,并在各种3D场景数据集上具有很强的泛化能力。 |
[40] 动态目标跟踪中的轨迹预测:一项关键研究 标题: Trajectory Prediction in Dynamic Object Tracking: A Critical Study 作者: Zhongping Dong / Liming Chen / Mohand Tahar Kechadi 原文: [英文] [中文] 备注: None 摘要: 本研究对动态目标跟踪(DOT)和轨迹预测(TP)方法的当前进展进行了详细分析,包括其应用和挑战。研究涵盖了多种方法,如基于特征、基于分割、基于估计和基于学习的方法,评估了它们在现实场景中的有效性、部署和局限性。研究强调了这些技术在汽车和自动驾驶车辆、监控和安全、医疗保健以及工业自动化中的重要影响,有助于提高安全性和效率。尽管取得了进展,但仍然存在一些挑战,如改进的泛化能力、计算效率、减少数据依赖性以及伦理考虑。研究建议了未来的研究方向以应对这些挑战,强调多模态数据集成、语义信息融合和开发上下文感知系统的重要性,以及伦理和隐私保护框架的构建。 |
[41] 使用Chan-Vese主动轮廓的图像分割 标题: Image Segmentation using Chan-Vese Active Contours 作者: Pranav Shenoy K. P 原文: [英文] [中文] 备注: None 摘要: 本文全面推导并实现了用于图像分割的Chan-Vese主动轮廓模型。该模型源自Mumford-Shah变分框架,其轮廓演化基于区域强度差异而非图像梯度,这使其在分割噪声图像或边界较弱的图像时非常有效。我们提供了水平集公式的严格数学推导,包括使用散度定理和曲线演化理论对每个能量项的详细处理。最终算法使用有限差分方法在Python中实现,特别注意数值稳定性,包括迎风熵方案和基于曲率的正则化。对医学和合成图像的实验结果表明,该方法在分割精度、抗噪性方面表现出色,并优于传统的基于边缘的方法。本研究证实了Chan-Vese模型在复杂分割任务中的适用性,并强调了其在实际成像应用中的潜力。 |
[42] 无训练运动定制:自适应测试时蒸馏用于蒸馏视频生成器 标题: Training-Free Motion Customization for Distilled Video Generators with Adaptive Test-Time Distillation 作者: Jintao Rong / Xin Xie / Xinyi Yu / Linlin Ou / Xinyu Zhang / Chunhua Shen / Dong Gong 原文: [英文] [中文] 备注: None 摘要: 蒸馏视频生成模型提供了快速高效的合成能力,但在参考视频引导下的运动定制方面存在困难,尤其是在无训练设置下。现有的无训练方法最初是为标准扩散模型设计的,由于蒸馏模型中加速的生成过程和较大的去噪步骤,这些方法无法很好地泛化。为了解决这个问题,我们提出了MotionEcho,这是一种新颖的无训练测试时蒸馏框架,通过利用扩散教师强制来实现运动定制。我们的方法使用高质量、速度较慢的教师模型,通过端点预测和插值来指导快速学生模型的推理。为了保持效率,我们根据指导需求动态分配各时间步的计算。在各种蒸馏视频生成模型和基准数据集上的大量实验表明,我们的方法在显著提高运动保真度和生成质量的同时,保持了高效性。项目页面:this https URL |
[43] 无相机位姿的在线立体内窥镜组织变形恢复,具有组织不变的视觉-生物力学一致性 标题: Online camera-pose-free stereo endoscopic tissue deformation recovery with tissue-invariant vision-biomechanics consistency 作者: Jiahe Chen / Naoki Tomii / Ichiro Sakuma / Etsuko Kobayashi 原文: [英文] [中文] 备注: None 摘要: 基于立体内窥镜图像的组织变形恢复对于工具与组织的交互分析至关重要,并有助于手术导航和自主软组织操作。以往的研究存在相机运动、遮挡、大范围组织变形、缺乏组织特定的生物力学先验知识以及依赖离线处理等问题。与以往研究中将组织几何和变形表示为3D点和位移不同,本文提出的方法将组织几何建模为3D点和导数图,将组织变形建模为3D位移和局部变形图。对于单个表面点,使用6个参数描述其刚体运动,3个参数描述其局部变形。该方法在以相机为中心的设置下进行公式化,其中所有运动都被视为相对于相机的场景运动。通过优化帧间变形实现帧间对齐,使得无需估计相机姿态。引入了规范图的概念,以在线方式优化组织几何和变形。使用体内和体外腹腔镜数据集进行了定量和定性实验。通过深度和光流的输入,该方法即使在组织部分被遮挡或移出视野时,也能稳定地建模组织几何和变形。结果表明,在无遮挡和遮挡区域的3D重建精度在表面距离方面分别达到0.37±0.27毫米和0.39±0.21毫米。该方法还可以在各种操作过程中估计表面应变分布,作为基于力学分析的额外模式。 |
[44] 视觉语言模型中文本可读性的出现 标题: Emergence of Text Readability in Vision Language Models 作者: Jaeyoo Park / Sanghyuk Chun / Wonjae Kim / Sangdoo Yun / Bohyung Han 原文: [英文] [中文] 备注: EVAL-FoMo Workshop @ CVPR 2025 摘要: 我们研究了在视觉语言模型(VLMs)训练过程中识别图像中文本内容的能力是如何出现的。我们的分析揭示了一个关键现象:在经过大量训练迭代后,读取给定图像中的文本信息的能力(即文本可读性)会突然出现,这与语义内容理解从训练早期阶段逐渐发展的情况形成对比。这种延迟的出现可能反映了对比学习倾向于最初优先考虑一般语义理解,而文本特定的符号处理则在后期发展。有趣的是,将图像与渲染文本匹配的能力发展得更慢,这表明对语义整合有更深层次的需求。这些发现强调了需要量身定制的训练策略来加速VLMs中稳健的文本理解能力,为未来优化多模态学习的研究奠定了基础。 |
[45] 在树木之前生成森林——用于气候降尺度的分层扩散模型 标题: Generate the Forest before the Trees -- A Hierarchical Diffusion model for Climate Downscaling 作者: Declan J. Curran / Sanaa Hobeichi / Hira Saleem / Hao Xue / Flora D. Salim 原文: [英文] [中文] 备注: 8 pages 摘要: 降尺度对于生成本地规划所需的高分辨率气候数据至关重要,但传统方法在计算上仍然要求很高。近年来,人工智能降尺度模型,特别是扩散模型,取得了令人瞩目的成果。由于其能够生成集合并克服其他人工智能方法中常见的平滑问题,这些模型引起了广泛关注。然而,这些模型通常仍然计算密集。我们引入了一种分层扩散降尺度(HDD)模型,该模型在扩散框架中引入了一种易于扩展的分层采样过程。通过简单的降采样方案施加粗到细的层次结构。HDD在ERA5再分析数据集和CMIP6模型上实现了具有竞争力的准确性,通过在最多减少一半像素的情况下运行,显著降低了计算负担,并取得了具有竞争力的结果。此外,在0.25°分辨率下训练的单一模型可以无缝地转移到多个分辨率更粗的CMIP6模型上。因此,HDD为概率气候降尺度提供了一种轻量级的替代方案,促进了经济实惠的大集合高分辨率气候预测。完整代码实现请参见:此https URL。 |
[46] 用于超高分辨率遥感图像语义分割的全球-局部交叉注意力网络 标题: A Global-Local Cross-Attention Network for Ultra-high Resolution Remote Sensing Image Semantic Segmentation 作者: Chen Yi / Shan LianLei 原文: [英文] [中文] 备注: None 摘要: 随着超高分辨率(UHR)遥感技术的快速发展,对准确且高效的语义分割的需求显著增加。然而,现有方法在计算效率和多尺度特征融合方面面临挑战。为了解决这些问题,我们提出了GLCANet(全局-局部交叉注意网络),这是一种为UHR遥感设计的轻量级分割框架。该框架采用双流架构,以高效融合全局语义和局部细节,同时最大限度地减少GPU使用。自注意机制增强了长距离依赖关系,优化了全局特征,并保留了局部细节以提高语义一致性。掩码交叉注意机制还自适应地融合全局-局部特征,有选择地增强细粒度细节,同时利用全局上下文来提高分割精度。实验结果表明,GLCANet在准确性和计算效率方面优于现有的先进方法。该模型能够以较小的内存占用有效处理大规模高分辨率图像,为实际遥感应用提供了一个有前景的解决方案。 |
[47] EvDetMAV:基于移动事件相机的广义无人机检测 标题: EvDetMAV: Generalized MAV Detection from Moving Event Cameras 作者: Yin Zhang / Zian Ning / Xiaoyu Zhang / Shiliang Guo / Peidong Liu / Shiyu Zhao 原文: [英文] [中文] 备注: 8 pages, 7 figures. This paper is accepted by IEEE Robotics and Automation Letters 摘要: 现有的微型无人机(MAV)检测方法主要依赖于RGB图像中目标的外观特征,由于这些特征的多样性,使得实现通用的MAV检测变得困难。我们注意到,由于高速旋转的螺旋桨在RGB图像中难以看见,不同类型的MAV在事件流中共享相同的显著特征。本文研究如何通过充分利用原始事件流中螺旋桨的特征,从事件相机中检测不同类型的MAV。所提出的方法由三个模块组成,用于提取螺旋桨的显著和时空特征,同时过滤掉来自背景物体和相机运动的噪声。由于目前没有现有的基于事件的MAV数据集,我们为社区引入了一个新颖的MAV数据集。这是第一个基于事件的MAV数据集,包含多个场景和不同类型的MAV。在没有训练的情况下,我们的方法显著优于最先进的方法,并能够处理具有挑战性的场景,在所提出的测试数据集上实现了83.0\%(+30.3\%)的精确率和81.5\%(+36.4\%)的召回率。数据集和代码可在此网址获取:this https URL。 |
[48] Mem4Nav:通过分层空间认知长短期记忆系统提升城市环境中的视觉与语言导航 标题: Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System 作者: Lixuan He / Haoyu Dong / Zhenxing Chen / Yangcheng Yu / Jie Feng / Yong Li 原文: [英文] [中文] 备注: None 摘要: 在大规模城市环境中进行视觉与语言导航(VLN)需要具身智能体将语言指令与复杂场景相结合,并在较长的时间范围内回忆相关经验。之前的模块化管道提供了解释性,但缺乏统一的记忆,而端到端的(M)LLM智能体在融合视觉和语言方面表现出色,但仍受限于固定的上下文窗口和隐式空间推理。我们引入了\textbf{Mem4Nav},这是一种层次化的空间认知长短期记忆系统,可以增强任何VLN骨干。Mem4Nav结合了用于细粒度体素索引的稀疏八叉树和用于高级地标连接的语义拓扑图,并通过可逆Transformer将其存储在可训练的记忆标记中。长期记忆(LTM)在八叉树和图节点上压缩并保留历史观察,而短期记忆(STM)则以相对坐标缓存最近的多模态条目,以实现实时障碍物规避和局部规划。在每一步中,STM检索会锐利地修剪动态上下文,而当需要更深的历史时,LTM标记可以无损解码以重建过去的嵌入。在Touchdown和Map2Seq上对三种骨干(模块化、基于提示的LLM的最新VLN和基于跨步注意的MLLM的最新VLN)进行评估,Mem4Nav在任务完成率上提高了7-13个百分点,足够的SPD减少,以及>10个百分点的nDTW改进。消融实验证实了层次化地图和双重记忆模块的不可或缺性。我们的代码通过此https URL开源。 |
[49] AMF-MedIT:一种用于医学图像-表格数据的高效对齐-调制-融合框架 标题: AMF-MedIT: An Efficient Align-Modulation-Fusion Framework for Medical Image-Tabular Data 作者: Congjing Yu / Jing Ye / Yang Liu / Xiaodong Zhang / Zhiyong Zhang 原文: [英文] [中文] 备注: None 摘要: 结合图像和表格数据的多模态医学分析越来越受到关注。然而,由于特征维度和模态贡献的跨模态差异,以及高维表格输入中的噪声,有效的融合仍然具有挑战性。为了解决这些问题,我们提出了AMF-MedIT,这是一种高效的对齐-调制-融合框架,用于医学图像和表格数据的整合,特别是在数据稀缺的情况下。为了协调维度差异并动态调整模态贡献,我们提出了自适应调制和融合(AMF)模块,这是一种具有简化架构的新型基于调制的融合范式。我们首先推导出调制目标并引入模态置信比率,使得先验知识能够融入融合过程。然后,提出了特征掩码、密度和泄漏损失以实现调制目标。此外,我们引入了FT-Mamba,这是一种强大的表格编码器,利用选择机制有效处理噪声医学表格数据。此外,首次进行了解释性研究,以探索不同的表格编码器如何在对比预训练期间监督成像模态。大量实验表明,AMF-MedIT在多模态性能和数据效率之间实现了优越的平衡,同时表现出对不完整表格数据的强适应性。解释性分析还突出了FT-Mamba在提取不同表格特征和引导图像编码器朝向更准确和灵活的注意模式方面的能力。 |
[50] 采样在解释中很重要:通过最大化解释确定性来构建视觉模型中值得信赖的归因分析基础 标题: Sampling Matters in Explanations: Towards Trustworthy Attribution Analysis Building Block in Visual Models through Maximizing Explanation Certainty 作者: Róisín Luo / James McDermott / Colm O'Riordan 原文: [英文] [中文] 备注: Code: this https URL 摘要: 图像归因分析旨在突出视觉模型学习的特征表示,使得突出显示的特征图能够反映输入的像素级重要性。梯度集成是归因分析中的一个构建模块,通过集成来自多个派生样本的梯度来突出与推理相关的语义特征。这样的构建模块通常与视觉模型中的其他信息(如激活或注意力图)结合,以形成最终的解释。然而,我们的理论分析表明,梯度集成中的样本分布与自然图像分布的对齐程度给出了解释确定性的下限。先前的工作在图像中添加噪声作为样本,而噪声分布可能导致低解释确定性。反直觉的是,我们的实验表明额外的信息可能会使神经网络饱和。为此,构建可信的归因分析需要解决样本分布不对齐的问题。我们提出了一种半优化的采样方法,通过抑制输入中的特征来代替在输入图像中添加额外信息。通过抑制特征的样本分布与自然图像的分布大致相同。我们在大规模数据集ImageNet上的广泛定量评估证实了我们的方法是有效的,并且能够在所有实验模型中提供比最先进的基线更令人满意的解释。 |
[51] 野外去模糊:来自智能手机高速视频的真实世界数据集 标题: Deblurring in the Wild: A Real-World Dataset from Smartphone High-Speed Videos 作者: Mahdi Mohd Hossain Noki / Syed Mumtahin Mahmud / Prothito Shovon Majumder / Abdul Mohaimen Al Radi / Md. Haider Ali / Md. Mosaddek Khan 原文: [英文] [中文] 备注: 8 pages (without references), 3 figures. Dataset this https URL 摘要: 我们介绍了一个由智能手机慢动作视频构建的最大规模的真实世界图像去模糊数据集。通过在一秒内捕获的240帧,我们通过平均帧来模拟现实的长曝光模糊,从而生成模糊图像,同时使用时间上居中的帧作为清晰参考。我们的数据集包含超过42,000对高分辨率的模糊-清晰图像对,使其比广泛使用的数据集大约10倍,并且包含8倍数量的不同场景,包括室内和室外环境,具有不同的物体和相机运动。我们在数据集上对多个最先进的去模糊模型进行了基准测试,并观察到显著的性能下降,突出了我们基准的复杂性和多样性。我们的数据集作为一个具有挑战性的新的基准,以促进稳健和可推广的去模糊模型的发展。 |
[52] 评估窃取用于医学影像任务的专有模型的风险 标题: Assessing Risk of Stealing Proprietary Models for Medical Imaging Tasks 作者: Ankita Raj / Harsh Swaika / Deepankar Varma / Chetan Arora 原文: [英文] 备注: Accepted to MICCAI 2024 摘要: 深度学习在医学影像应用中的成功使得多家公司在诊断工作流程中部署了专有模型,提供货币化服务。尽管模型权重被隐藏以保护服务提供商的知识产权,这些模型仍然面临模型窃取(MS)攻击的风险。在这种攻击中,攻击者可以通过使用代理数据集查询模型并在获取的预测上训练窃取模型来克隆模型的功能。虽然在一般视觉任务中对此进行了广泛研究,但医学影像模型对MS攻击的易感性仍未得到充分探索。本文研究了在现实条件下黑箱医学影像模型对MS攻击的脆弱性,其中攻击者无法访问受害模型的训练数据,并且操作时查询预算有限。我们证明了攻击者可以通过使用公开可用的数据集有效地执行MS攻击。为了在有限的查询预算下进一步增强MS能力,我们提出了一种称为QueryWise的两步模型窃取方法。该方法利用从代理分布中获得的未标记数据来训练窃取模型,而无需额外的查询。在胆囊癌和COVID-19分类的两个医学影像模型上的评估证实了所提出攻击的有效性。源代码可在此https URL获取。 |
[53] 用于改进神经网络预训练的风格化结构模式 标题: Stylized Structural Patterns for Improved Neural Network Pre-training 作者: Farnood Salehi / Vandit Sharma / Amirhossein Askari Farsangi / Tunç Ozan Aydın 原文: [英文] [中文] 备注: None 摘要: 现代深度学习模型在计算机视觉领域需要大量的真实图像数据集,这些数据集难以整理,并且存在隐私和法律问题,限制了其商业用途。最近的研究提出合成数据作为替代方案,但使用合成数据训练的模型往往表现不佳。本文提出了一种弥合这一差距的两步方法。首先,我们提出了一种改进的神经分形公式,通过它引入了一类新的合成数据。其次,我们提出了反向风格化技术,这种技术将一小部分无版权的真实图像的视觉特征转移到合成数据集上,从而提高其有效性。我们使用核Inception距离(KID)分析了我们的合成数据集与真实图像之间的领域差距,并表明我们的方法在分布差距上显著低于现有的合成数据集。此外,我们在不同任务上的实验展示了这种差距缩小的实际影响。我们表明,在我们的合成数据集上预训练EDM2扩散模型,在图像生成过程中FID减少了11%,与在现有合成数据集上训练的模型相比,自动编码器重建误差减少了20%,表明数据表示性能得到了改善。此外,在此合成数据上训练的ViT-S分类模型在ImageNet-100准确率上提高了超过10%。我们的工作为在没有足够大的真实训练集时训练实用模型开辟了令人兴奋的可能性。 |
[54] 手术-R1:通过强化学习推进具有推理能力的多模态大型语言模型在外科手术视觉-语言问答中的应用 标题: Surgery-R1: Advancing Surgical-VQLA with Reasoning Multimodal Large Language Model via Reinforcement Learning 作者: Pengfei Hao / Shuaibo Li / Hongqiu Wang / Zhizhuo Kou / Junhang Zhang / Guang Yang / Lei Zhu 原文: [英文] [中文] 备注: None 摘要: 近年来,外科场景理解领域取得了显著进展,特别是在机器人手术中的视觉问题定位回答任务(Surgical-VQLA)方面。然而,现有的Surgical-VQLA模型在外科场景中缺乏深度推理能力和可解释性,这限制了其在临床应用中的可靠性和发展潜力。为了解决这一问题,受到推理多模态大型语言模型(MLLMs)发展的启发,我们首先构建了Surgery-R1-54k数据集,包括视觉问答、定位问答和思维链(CoT)的配对数据。然后,我们提出了首个用于Surgical-VQLA的推理MLLM(Surgery-R1)。在我们的Surgery-R1中,我们设计了一个两阶段微调机制,通过监督微调(SFT)和强化微调(RFT)使基础MLLM具备复杂的推理能力。此外,为了在我们的RFT中实现高效且高质量的基于规则的奖励系统,我们设计了一个多模态一致性奖励机制,以减轻手术场景中可能出现的位置错觉。实验结果表明,Surgery-R1在Surgical-VQLA任务中优于其他现有的最先进(SOTA)模型和广泛使用的MLLMs,同时也验证了其推理能力和我们方法的有效性。代码和数据集将会在这个https URL中组织。 |
[55] USIS16K:用于水下显著实例分割的高质量数据集 标题: USIS16K: High-Quality Dataset for Underwater Salient Instance Segmentation 作者: Lin Hong / Xin Wang / Yihao Li / Xia Wang 原文: [英文] [中文] 备注: 8 pages 10 figures 摘要: 受生物视觉系统的启发,该系统通过选择性地分配注意力来高效识别显著的物体或区域,水下显著实例分割(USIS)旨在联合解决在水下场景中“看哪里”(显著性预测)和“那里有什么”(实例分割)的问题。然而,由于水下环境的不可接近性和动态特性,以及缺乏大规模、高质量的标注数据集,USIS仍然是一个未被充分探索的挑战。在本文中,我们介绍了USIS16K,这是一个大规模数据集,包括16,151张从多样化环境中收集的高分辨率水下图像,涵盖了158类水下物体。每张图像都标注了高质量的实例级显著物体掩码,在多样性、复杂性和可扩展性方面代表了显著的进步。此外,我们使用USIS16K提供了水下物体检测和USIS任务的基准评估。为了促进该领域的未来研究,数据集和基准模型已公开提供。 |
[56] HMSViT:用于角膜神经分割和糖尿病神经病变诊断的分层掩码自监督视觉Transformer 标题: HMSViT: A Hierarchical Masked Self-Supervised Vision Transformer for Corneal Nerve Segmentation and Diabetic Neuropathy Diagnosis 作者: Xin Zhang / Liangxiu Han / Yue Shi / Yanlin Zheng / Alam Uazman / Maryam Ferdousi / Rayaz Malik 原文: [英文] [中文] 备注: None 摘要: 糖尿病周围神经病变(DPN)影响了近一半的糖尿病患者,需要早期检测。角膜共聚焦显微镜(CCM)可以实现无创诊断,但自动化方法在特征提取效率、依赖手工先验和数据限制方面存在不足。我们提出了HMSViT,一种新颖的分层掩码自监督视觉Transformer(HMSViT),专为角膜神经分割和DPN诊断设计。与现有方法不同,HMSViT采用基于池化的分层和双重注意机制,并结合绝对位置编码,通过在早期层捕捉细粒度的局部细节和在深层整合全局上下文,实现高效的多尺度特征提取,同时降低计算成本。为HMSViT设计的块掩码自监督学习框架减少了对标注数据的依赖,增强了特征的鲁棒性,同时使用多尺度解码器通过融合分层特征进行分割和分类。在临床CCM数据集上的实验表明,HMSViT在神经分割中达到了61.34%的mIoU和70.40%的诊断准确率,超越了Swin Transformer和HiViT等领先的分层模型,在分割准确率上提高了最多6.39%,同时使用了更少的参数。详细的消融研究进一步揭示,将块掩码自监督学习与分层多尺度特征提取相结合,相较于传统的监督训练显著提升了性能。总体而言,这些全面的实验确认了HMSViT提供了出色、稳健且临床可行的结果,展示了其在实际诊断应用中可扩展部署的潜力。 |
[57] SceneCrafter:可控的多视角驾驶场景编辑 标题: SceneCrafter: Controllable Multi-View Driving Scene Editing 作者: Zehao Zhu / Yuliang Zou / Chiyu Max Jiang / Bo Sun / Vincent Casser / Xiukun Huang / Jiahao Wang / Zhenpei Yang / Ruiqi Gao / Leonidas Guibas / Mingxing Tan / Dragomir Anguelov 原文: [英文] [中文] 备注: CVPR 2025 摘要: 仿真对于开发和评估自动驾驶车辆(AV)系统至关重要。最近的文献基于新一代生成模型来合成高度逼真的图像,以实现全栈仿真。然而,纯粹合成生成的场景并不基于现实,难以激发对其结果相关性的信心。另一方面,编辑模型利用来自真实驾驶记录的源场景,能够模拟不同的交通布局、行为和操作条件,如天气和一天中的时间。虽然图像编辑是计算机视觉中的一个成熟主题,但在驾驶仿真中提出了一系列新的挑战:(1)需要跨摄像头的3D一致性,(2)从具有前景遮挡的驾驶数据中学习“空街”先验,以及(3)在保持一致的布局和几何的同时,获得不同编辑条件的成对图像。为了解决这些挑战,我们提出了SceneCrafter,一个用于从多个摄像头捕获的驾驶场景进行逼真3D一致性操作的多功能编辑器。我们基于多视角扩散模型的最新进展,使用一个完全可控的框架,能够无缝扩展到多模态条件,如天气、一天中的时间、代理框和高清地图。为了生成用于监督编辑模型的成对数据,我们在Prompt-to-Prompt的基础上提出了一个新颖的框架,以生成具有全局编辑的几何一致的合成成对数据。我们还引入了一个alpha混合框架,通过新颖的掩码训练和多视角重绘范式,利用在空街先验上训练的模型来合成具有局部编辑的数据。与现有基线相比,SceneCrafter展示了强大的编辑能力,并在逼真度、可控性、3D一致性和场景编辑质量方面达到了最先进的水平。 |
[58] 通过证据冲突检测大型视觉语言模型中的视觉幻觉 标题: Visual hallucination detection in large vision-language models via evidential conflict 作者: Tao Huang / Zhekun Liu / Rui Wang / Yang Zhang / Liping Jing 原文: [英文] [中文] 备注: None 摘要: 尽管大型视觉语言模型(LVLMs)具有显著的多模态能力,但视觉输入和文本输出之间常常会出现不一致的现象——我们称之为视觉幻觉。这一关键的可靠性差距在安全关键的人工智能(AI)应用中带来了重大风险,因此需要一个全面的评估基准和有效的检测方法。首先,我们观察到现有的以视觉为中心的幻觉基准主要从感知的角度评估LVLMs,忽视了由高级推理能力引发的幻觉。我们开发了感知-推理评估幻觉(PRE-HAL)数据集,使得能够系统地评估LVLMs在多个视觉语义(如实例、场景和关系)上的感知和推理能力。使用这一新的基准进行的全面评估揭示了更多的视觉脆弱性,特别是在更具挑战性的关系推理任务中。为了解决这个问题,据我们所知,我们首次提出了一种基于Dempster-Shafer理论(DST)的LVLMs视觉幻觉检测方法,通过不确定性估计来实现。该方法旨在有效捕捉模型推理阶段高层特征中的冲突程度。具体而言,我们的方法采用简单的质量函数来减轻在幂集上的证据组合的计算复杂性。我们对最先进的LVLMs,如LLaVA-v1.5、mPLUG-Owl2和mPLUG-Owl3,使用新的PRE-HAL基准进行了广泛评估。实验结果表明,我们的方法优于五种基线不确定性度量,在三个LVLMs上实现了平均AUROC提升4%、10%和7%。我们的代码可在此https URL获取。 |
[59] ReMAR-DS:用于金属伪影消除和CT域转换的重新校准特征学习 标题: ReMAR-DS: Recalibrated Feature Learning for Metal Artifact Reduction and CT Domain Transformation 作者: Mubashara Rehman / Niki Martinel / Michele Avanzo / Riccardo Spizzo / Christian Micheloni 原文: [英文] 备注: Accepted in 23rd International Conference on Image Analysis and Processing (ICIAP) 2025, Italy 摘要: 在千伏CT(kVCT)成像中,伪影会降低图像质量,从而影响临床决策。我们提出了一种用于金属伪影消除(MAR)和从kVCT到兆伏CT(MVCT)域转换的深度学习框架。所提出的框架ReMAR-DS采用了具有增强特征重校准的编码器-解码器架构,有效地减少了伪影,同时保留了解剖结构。这确保了在重建过程中仅使用相关信息。通过在编码器模块中注入重校准的特征,模型能够专注于相关的空间区域(例如,有伪影的区域)并突出跨通道的关键特征(例如,解剖结构),从而改善了伪影损坏区域的重建。与传统的MAR方法不同,我们的方法弥合了高分辨率kVCT和抗伪影MVCT之间的差距,增强了放射治疗计划。它生成了高质量的类似MVCT的重建结果,并通过定性和定量评估进行了验证。在临床上,这使得肿瘤科医生可以仅依赖kVCT,从而减少重复的高剂量MVCT扫描,降低癌症患者的辐射暴露。 |
[60] 识别可物理实现的触发器以用于后门人脸识别网络 标题: Identifying Physically Realizable Triggers for Backdoored Face Recognition Networks 作者: Ankita Raj / Ambar Pal / Chetan Arora 原文: [英文] [中文] 备注: Accepted to ICIP 2021 摘要: 后门攻击在深度神经网络中嵌入了一种隐藏功能,使得网络在输入中出现预定模式触发器时表现出异常行为,而在公共测试数据上则表现良好。最近的研究表明,后门人脸识别(FR)系统可以对看似自然的触发器(如特定款式的太阳镜)作出响应。这类攻击对FR系统在高安全性应用中的适用性构成了严重威胁。我们提出了一种新颖的技术来(1)检测FR网络是否被自然、物理可实现的触发器所破坏,以及(2)在给定被破坏的网络的情况下识别出这样的触发器。我们在一个被破坏的FR网络上展示了我们方法的有效性,其中我们能够以74%的前五名准确率识别出触发器(例如,绿色太阳镜或红色帽子),而一个简单的暴力破解基线仅能达到56%的准确率。 |
[61] 通用方法造就出色的领域特定基础模型:以胎儿超声为例 标题: General Methods Make Great Domain-specific Foundation Models: A Case-study on Fetal Ultrasound 作者: Jakob Ambsdorf / Asbjørn Munk / Sebastian Llambias / Anders Nymark Christensen / Kamil Mikolaj / Randall Balestriero / Martin Tolsgaard / Aasa Feragen / Mads Nielsen 原文: [英文] [中文] 备注: Submitted version of paper accepted at MICCAI 2025 摘要: 随着对大规模、未标记的医学数据集的获取,研究人员面临两个问题:他们应该尝试在这些医学数据上预训练一个定制的基础模型,还是使用现有通用模型的迁移学习?如果预训练了一个定制模型,是否需要新的方法?在本文中,我们通过进行一个案例研究来探讨这些问题,其中我们在一个包含200万张图像的大型区域性胎儿超声数据集上训练了一个基础模型。通过选择成熟的DINOv2方法进行预训练,我们在三个胎儿超声数据集上实现了最先进的结果,这些数据集涵盖了来自不同国家的数据、分类、分割和少样本任务。我们与一系列在自然图像、超声图像上预训练的模型以及监督基线进行了比较。我们的结果揭示了两个关键见解:(i)在定制数据上进行预训练是值得的,即使较小的模型在较少的数据上进行训练,因为自然图像预训练的扩展性并不能转化为超声性能。(ii)计算机视觉中经过良好调优的方法使得在给定医学领域中训练定制基础模型变得可行,不需要超参数调优且只需很少的方法适应。鉴于这些发现,我们认为在开发特定领域的基础模型时,应避免在常见的计算资源限制下偏向方法创新。 |
[62] MambaOutRS:一种用于遥感图像分类的混合卷积神经网络-傅里叶架构 标题: MambaOutRS: A Hybrid CNN-Fourier Architecture for Remote Sensing Image Classification 作者: Minjong Cheon / Changbae Mun 原文: [英文] [中文] 备注: None 摘要: 最近在视觉任务的深度学习领域取得的进展中,状态空间模型(SSMs)如Mamba因其线性可扩展性而备受推崇。然而,它们在适应二维视觉数据时常需要复杂的修改,这可能会降低效率。在本文中,我们介绍了一种用于遥感图像分类的新型混合卷积架构MambaOutRS,该架构重新评估了循环SSMs的必要性。MambaOutRS基于堆叠的门控CNN模块进行局部特征提取,并引入了一种新颖的傅里叶滤波门(FFG)模块,该模块在频域中操作以高效捕获全局上下文信息。我们的架构采用四阶段分层设计,并在具有挑战性的遥感数据集上进行了广泛评估:UC Merced、AID、NWPU-RESISC45和EuroSAT。MambaOutRS在这些基准测试中始终实现了最先进的(SOTA)性能。值得注意的是,我们的MambaOutRS-t变体(24.0M参数)在UC Merced上获得了98.41%的最高F1分数,在AID上获得了95.99%,显著超越了现有基线,包括更大的变压器模型和基于Mamba的架构,尽管使用的参数明显更少。消融研究明确展示了傅里叶滤波门在增强模型捕获全局空间模式能力方面的关键作用,从而实现了稳健且准确的分类。这些结果强烈表明,循环SSMs的复杂性可以通过门控卷积进行空间混合和基于频率的门进行光谱全局上下文的明智组合来有效替代。因此,MambaOutRS为在遥感和其他视觉领域开发高性能深度学习模型提供了一个引人注目且高效的范例,特别是在计算效率至关重要的情况下。 |
[63] SMARTIES:用于遥感图像的频谱感知多传感器自动编码器 标题: SMARTIES: Spectrum-Aware Multi-Sensor Auto-Encoder for Remote Sensing Images 作者: Gencer Sumbul / Chang Xu / Emanuele Dalsasso / Devis Tuia 原文: [英文] [中文] 备注: None 摘要: 从光学传感器到微波雷达,利用遥感(RS)传感器的互补优势对于实现地球的密集时空监测至关重要。相比之下,最近的深度学习模型,无论是特定任务的还是基础性的,通常都特定于单一传感器或固定组合:将此类模型适应于不同的传感输入需要进行架构更改和重新训练,限制了在多个RS传感器之间的可扩展性和泛化能力。相反,一个能够调节其特征表示以接受多种传感器作为输入的单一模型将为灵活多变的多传感器RS数据处理铺平道路。为了解决这个问题,我们引入了SMARTIES,这是一种通用且多功能的基础模型,消除了传感器特定/依赖的努力,并实现了对多种RS传感器的可扩展性和泛化:SMARTIES将来自异构传感器的数据投射到一个共享的光谱感知空间中,从而可以在训练和推理中使用任意组合的波段。为了获得与传感器无关的表示,我们训练了一个单一的、统一的变换器模型,通过跨传感器的token混合重建被掩盖的多传感器数据。在跨多种传感器的单模态和多模态任务中,SMARTIES的表现优于依赖于传感器特定预训练的先前模型。我们的代码和预训练模型可在此https URL获取。 |
[64] 基于视觉Transformer的时间序列图像重建用于云填充应用 标题: Vision Transformer-Based Time-Series Image Reconstruction for Cloud-Filling Applications 作者: Lujun Li / Yiqun Wang / Radu State 原文: [英文] [中文] 备注: This paper has been accepted as a conference paper at the 2025 IEEE International Geoscience and Remote Sensing Symposium (IGARSS) 摘要: 多光谱影像(MSI)中的云层覆盖对早期作物制图构成了重大挑战,因为它导致光谱信息的缺失或损坏。合成孔径雷达(SAR)数据不受云层干扰,提供了一种互补的解决方案,但缺乏精确作物制图所需的足够光谱细节。为了解决这个问题,我们提出了一种新颖的框架,使用视觉变换器(ViT)进行时间序列MSI图像重建,通过利用MSI的时间一致性和SAR的互补信息来重建云层覆盖区域的MSI数据。使用严格的重建评估指标进行的综合实验表明,时间序列ViT框架显著优于使用非时间序列MSI和SAR或不含SAR的时间序列MSI的基线方法,有效增强了云层覆盖区域的MSI图像重建。 |
[65] 通过多模态传感和步态引导实现盲人导航 标题: Implementing blind navigation through multi-modal sensing and gait guidance 作者: Feifan Yan / Tianle Zeng / Meixi He 原文: [英文] [中文] 备注: None 摘要: 截至2023年,全球视力受损的人口已超过2.2亿。视力受损的人在寻找路径或避开障碍物时会遇到困难,必须寻求辅助工具的帮助。尽管传统的辅助工具如导盲杖和导盲犬已经存在,但它们仍然存在一些缺点。在本文中,我们介绍了我们可穿戴的盲人引导设备,该设备通过我们提出的基于步态的引导系统进行导航引导。我们的设备创新性地整合了步态相位分析用于行走引导,在环境感知方面,我们使用多模态传感来获取多样的环境信息。在实验过程中,我们进行了室内和室外实验,并与标准导盲杖进行了比较。结果显示,我们的设备在盲人引导方面表现优越。 |
[66] 用于自动驾驶的自监督多模态NeRF 标题: Self-Supervised Multimodal NeRF for Autonomous Driving 作者: Gaurav Sharma / Ravi Kothari / Josef Schmid 原文: [英文] 备注: None 摘要: 在本文中,我们提出了一种基于神经辐射场(NeRF)的框架,称为新视角合成框架(NVSF)。该框架联合学习空间和时间变化场景的隐式神经表示,适用于激光雷达和摄像头。我们在包含静态和动态场景的真实世界自动驾驶场景中对此进行了测试。与现有的多模态动态NeRF相比,我们的框架是自监督的,因此无需3D标签。为了提高训练效率和加快收敛速度,我们引入了基于启发式的图像像素采样,以聚焦于信息丰富的像素。为了保留激光雷达点的局部特征,采用了基于双梯度的掩码。在KITTI-360数据集上的大量实验表明,与基线模型相比,我们的框架在激光雷达和摄像头领域均表现出最佳性能。模型代码可在此HTTPS URL获取。 |
[67] VideoPCDNet:使用相位相关网络进行视频解析和预测 标题: VideoPCDNet: Video Parsing and Prediction with Phase Correlation Networks 作者: Noel José Rodrigues Vicente / Enrique Lehner / Angel Villar-Corrales / Jan Nogga / Sven Behnke 原文: [英文] [中文] 备注: Accepted for Publication at ICANN 2025 摘要: 理解和预测视频内容对于动态环境中的规划和推理至关重要。尽管取得了一些进展,但对象表示和动态的无监督学习仍然具有挑战性。我们提出了VideoPCDNet,这是一种用于对象中心视频分解和预测的无监督框架。我们的模型使用频域相位相关技术递归地将视频解析为对象组件,这些组件被表示为学习到的对象原型的变换版本,从而实现准确且可解释的跟踪。通过结合频域操作和轻量级学习模块来显式建模对象运动,VideoPCDNet能够实现准确的无监督对象跟踪和未来视频帧的预测。在我们的实验中,我们展示了VideoPCDNet在多个合成数据集上进行无监督跟踪和预测时,优于多个对象中心的基线模型,同时学习到可解释的对象和运动表示。 |
[68] HOIverse:一个包含人类与物体交互的合成场景图数据集 标题: HOIverse: A Synthetic Scene Graph Dataset With Human Object Interactions 作者: Mrunmai Vivek Phatak / Julian Lorenz / Nico Hörmann / Jörg Hähner / Rainer Lienhart 原文: [英文] [中文] 备注: None 摘要: 当人类和机器人代理共存于一个环境中时,场景理解对于代理执行导航和规划等各种下游任务变得至关重要。因此,代理必须能够定位和识别人类执行的动作。目前的研究缺乏可靠的数据集来进行室内环境中的场景理解,而人类也是场景的一部分。场景图使我们能够生成场景或图像的结构化表示,以进行视觉场景理解。为了解决这个问题,我们提出了HOIverse,这是一个位于场景图和人类-物体交互交汇处的合成数据集,包含人类与周围物体之间准确且密集的关系真值,以及相应的RGB图像、分割掩码、深度图像和人体关键点。我们计算了各种物体对和人类-物体对之间的参数关系,从而得出准确且明确的关系定义。此外,我们在最先进的场景图生成模型上对我们的数据集进行了基准测试,以预测参数关系和人类-物体交互。通过这个数据集,我们旨在加速涉及人类的场景理解领域的研究。 |
[69] PEVLM:视觉-语言模型的并行编码 标题: PEVLM: Parallel Encoding for Vision-Language Models 作者: Letian Kang / Shixian Luo / Yiqiang Li / Xiaoyang Yu / Shenxuan Zhou / Yong Wu 原文: [英文] [中文] 备注: None 摘要: 视觉-语言模型(VLMs)在视频-语言任务中表现出色,但其在长视频理解中的应用受到标准注意力机制的二次复杂度的限制。在本文中,我们提出了一种并行编码策略,称为PEVLM,专门设计用于提高VLMs的预填充效率,而无需对模型进行微调。PEVLM将输入划分为具有共享汇聚点的块状段,保留全注意力位置嵌入,并对齐注意力权重以模拟全注意力分布。该设计将注意力计算从$O((T \times N)^2)$减少到$O(T \times N)$,同时保持高精度。在LongVideoBench基准测试上的大量实验表明,PEVLM在现有推理效率方法上实现了高达8.37%的精度提升,并在注意力计算中提供了高达7.47倍的加速和40%的端到端延迟减少。在严格的延迟限制下,PEVLM显著优于基线,将精度从23.26%提高到61.03%。这些结果突显了PEVLM在低延迟、长上下文视频理解中的有效性,使其非常适合于自动驾驶等现实世界应用。 |
[70] 地球系统时空数据的视频压缩 标题: Video Compression for Spatiotemporal Earth System Data 作者: Oscar J. Pellicer-Valero / Cesar Aybar / Gustau Camps Valls 原文: [英文] 备注: None 摘要: 大规模地球系统数据集,从高分辨率遥感影像到时空气候模型输出,表现出类似于标准视频的特征。因此,它们固有的空间、时间和光谱冗余可以通过现有的视频压缩技术轻松利用。在此,我们介绍了xarrayvideo,这是一个用于通过将多通道时空数据集编码为视频来压缩它们的Python库。我们的方法通过利用ffmpeg中的标准、优化良好的视频编解码器,在保持高保真的同时实现了高达250倍的压缩比。我们在四个真实世界的多通道时空数据集上展示了该库的有效性:DynamicEarthNet(非常高分辨率的Planet图像)、DeepExtremeCubes(高分辨率的Sentinel-2图像)、ERA5(天气再分析数据)和SimpleS2数据集(高分辨率多通道Sentinel-2图像),在每像素每波段0.1比特(bpppb)时实现了55.86、40.60、46.58和43.23 dB的峰值信噪比(PSNR),在1 bpppb时实现了65.91、54.28、62.90和55.04 dB的PSNR。我们正在通过HuggingFace以机器学习和云准备好的TACO格式重新分发其中两个数据集,DeepExtremeCubes(2.3 Tb)和DynamicEarthNet(525 Gb),在显著减小的尺寸(分别为270 Gb和8.5 Gb)下而不影响质量(PSNR 55.77-56.65和60.15)。在使用这些数据集的压缩版本进行各自的基于深度学习的下游任务(下一步反射率预测和土地覆盖分割)时,没有观察到性能损失。总之,xarrayvideo为处理快速增长的地球观测数据集的大小提供了一种高效的解决方案,使先进的压缩技术对地球科学界变得可访问且实用。该库可在此https URL使用。 |
[71] SAM2-SGP:通过支持集引导提示增强SAM2用于医学图像分割 标题: SAM2-SGP: Enhancing SAM2 for Medical Image Segmentation via Support-Set Guided Prompting 作者: Yang Xing / Jiong Wu / Yuheng Bu / Kuang Gong 原文: [英文] [中文] 备注: None 摘要: 尽管新的视觉基础模型如Segment Anything Model 2 (SAM2)显著增强了零样本图像分割能力,但依赖人工提供的提示在适应医疗图像分割任务时面临重大挑战。此外,由于SAM2最初是在自然图像和视频上训练的,其在医疗图像分割中的表现受到领域转移问题的限制。为了解决这些挑战,我们提出了支持集引导提示的SAM2 (SAM2-SGP),这是一个无需人工提示的框架。该模型利用SAM2的记忆机制,通过伪掩码生成(PMG)模块使用支持集中的图像-掩码对生成伪掩码。我们进一步引入了一种新的伪掩码注意(PMA)模块,该模块使用这些伪掩码自动生成边界框,并通过引导注意力到相关区域来增强局部特征提取。此外,采用了低秩适应(LoRA)策略来缓解领域转移问题。该框架在多个医疗成像模态的2D和3D数据集上进行了评估,包括眼底摄影、X射线、计算机断层扫描(CT)、磁共振成像(MRI)、正电子发射断层扫描(PET)和超声波。结果显示,与最先进的模型如nnUNet和SwinUNet以及基础模型如SAM2和MedSAM2相比,性能有显著提升,强调了所提出方法的有效性。我们的代码在这个https URL上公开可用。 |
[72] 复发视觉特征提取与立体注意力用于CT报告生成 标题: Recurrent Visual Feature Extraction and Stereo Attentions for CT Report Generation 作者: Yuanhe Tian / Lei Mao / Yan Song 原文: [英文] [中文] 备注: 7 pages, 3 figures 摘要: 为计算机断层扫描(CT)图像生成报告是一项具有挑战性的任务,尽管与现有的医学图像报告生成研究类似,但它具有独特的特征,例如多图像的空间编码、图像体积与文本之间的对齐等。现有的解决方案通常使用通用的2D或3D图像处理技术从CT体积中提取特征,首先压缩体积,然后将压缩后的CT切片划分为视觉编码的补丁。这些方法没有明确考虑CT切片之间的转换,也没有有效整合多层次的图像特征,特别是那些包含特定器官病变的特征,以指导CT报告生成(CTRG)。考虑到CT扫描中连续切片之间的强相关性,本文提出了一种基于大型语言模型(LLM)的CTRG方法,采用递归视觉特征提取和立体注意力进行分层特征建模。具体来说,我们使用视觉Transformer递归处理CT体积中的每个切片,并从不同角度对编码的切片应用一组注意力,以选择性地获取重要的视觉信息并将其与文本特征对齐,从而更好地指导LLM进行CTRG。在基准M3D-Cap数据集上的实验结果和进一步分析表明,我们的方法优于强基线模型,并取得了最先进的结果,证明了其有效性和有效性。 |
[73] 基于基因组的基础模型嵌入提升了组织学图像的分子预测 标题: Genome-Anchored Foundation Model Embeddings Improve Molecular Prediction from Histology Images 作者: Cheng Jin / Fengtao Zhou / Yunfang Yu / Jiabo Ma / Yihui Wang / Yingxue Xu / Huajun Zhou / Hao Jiang / Luyang Luo / Luhui Mao / Zifan He / Xiuming Zhang / Jing Zhang / Ronald Chan / Herui Yao / Hao Chen 原文: [英文] [中文] 备注: Under Review 摘要: 精准肿瘤学需要准确的分子洞察力,但直接从基因组学中获取这些信息对于广泛的临床应用来说既昂贵又耗时。直接从常规全切片图像(WSI)预测复杂的分子特征和患者预后仍然是当前深度学习方法面临的主要挑战。在此,我们介绍了PathLUPI,它在训练期间使用转录组特权信息来提取基因组锚定的组织学嵌入,从而在推理时仅使用WSI进行有效的分子预测。通过对20个队列中的11,257个病例进行的49个分子肿瘤学任务的广泛评估,PathLUPI表现出比仅在WSI上训练的传统方法更优越的性能。重要的是,它在14个生物标志物预测和分子分型任务中实现了AUC ≥ 0.80,并在5种主要癌症类型的生存队列中实现了C指数 ≥ 0.70。此外,PathLUPI嵌入揭示了与特定基因型和相关生物途径相关的WSI内独特的细胞形态特征。通过有效编码分子背景以优化WSI表示,PathLUPI克服了现有模型的一个关键限制,并提供了一种将分子洞察力与常规病理工作流程相结合的新策略,以实现更广泛的临床应用。 |
[74] 用于超声图像解释和扫描指导的语义场景图 标题: Semantic Scene Graph for Ultrasound Image Explanation and Scanning Guidance 作者: Xuesong Li / Dianye Huang / Yameng Zhang / Nassir Navab / Zhongliang Jiang 原文: [英文] [中文] 备注: None 摘要: 由于成像和采集参数的差异导致显著的视觉变化,理解医学超声成像一直是一个长期的挑战。最近在大型语言模型(LLMs)方面的进展已被用于自动生成面向具有足够生理知识的临床医生的术语丰富的摘要。然而,非专业用户(例如在即时护理环境中)对改进超声可解释性和基本扫描指导的需求日益增加,但尚未得到探索。在本研究中,我们首先引入了超声图像的场景图(SG),以向普通用户解释图像内容并提供超声扫描指导。超声SG首先使用基于变压器的单阶段方法计算,消除了对显式目标检测的需求。为了为普通用户生成易于理解的图像解释,用户查询随后用于通过LLMs进一步优化抽象的SG表示。此外,预测的SG被探索用于指导超声扫描,以在当前成像视图中寻找缺失的解剖结构,帮助普通用户实现更标准化和完整的解剖探索。基于SG的图像解释和扫描指导的有效性已在包括颈动脉和甲状腺的左、右颈部区域的五名志愿者的图像上得到验证。结果表明,该方法在通过增强其可解释性和可用性方面最大限度地普及超声的潜力。 |
[75] UltraAD:通过少样本CLIP适配进行细粒度超声异常分类 标题: UltraAD: Fine-Grained Ultrasound Anomaly Classification via Few-Shot CLIP Adaptation 作者: Yue Zhou / Yuan Bi / Wenjuan Tong / Wei Wang / Nassir Navab / Zhongliang Jiang 原文: [英文] [中文] 备注: None 摘要: 在医学图像中进行精确的异常检测对于临床决策至关重要。尽管最近在大规模正常数据上训练的无监督或半监督异常检测方法显示出良好的效果,但它们缺乏细粒度的区分能力,例如良性与恶性肿瘤的区分。此外,超声(US)成像对设备和采集参数的变化高度敏感,导致生成的超声图像存在显著的域间差异。为了解决这些挑战,我们提出了UltraAD,这是一种基于视觉-语言模型(VLM)的方法,利用少量超声样本进行广义异常定位和细粒度分类。为了增强定位性能,查询视觉原型的图像级标记首先与可学习的文本嵌入融合。然后,这种图像信息提示特征进一步与补丁级标记集成,优化局部表示以提高准确性。对于细粒度分类,从少量图像样本和相应的文本描述中构建一个记忆库,以捕捉解剖和异常特定的特征。在训练过程中,存储的文本嵌入保持冻结状态,而图像特征则被调整以更好地与医学数据对齐。UltraAD在三个乳腺超声数据集上进行了广泛评估,在病灶定位和细粒度医学分类方面均优于最先进的方法。代码将在论文接受后发布。 |
[76] 鱼眼图像中单目三维人体姿态估计的投影方法系统比较 标题: Systematic Comparison of Projection Methods for Monocular 3D Human Pose Estimation on Fisheye Images 作者: Stephanie Käs / Sven Peter / Henrik Thillmann / Anton Burenko / David Benjamin Adrian / Dennis Mack / Timm Linder / Bastian Leibe 原文: [英文] [中文] 备注: Presented at IEEE International Conference on Robotics and Automation 2025 摘要: 鱼眼相机为机器人提供了比标准针孔相机更广阔的视野(FOV)来捕捉人类动作,这使得它们在人与机器人交互和汽车应用中特别有用。然而,由于鱼眼光学固有的曲面畸变,准确检测鱼眼图像中的人体姿态具有挑战性。尽管已经提出了各种校正鱼眼图像畸变的方法,但在单目鱼眼图像中进行绝对人体姿态估计的背景下,这些方法在覆盖广阔视野的姿态上的有效性和局限性尚未得到系统评估。为了解决这一空白,我们评估了针孔、等距和双球面相机模型以及圆柱投影方法对3D人体姿态估计准确性的影响。我们发现,在特写场景中,针孔投影是不够的,最佳投影方法随人体姿态覆盖的视野而变化。使用先进的鱼眼模型,如双球面模型,可以显著提高3D人体姿态估计的准确性。我们提出了一种基于检测边界框选择适当投影模型的启发式方法,以提高预测质量。此外,我们引入并评估了我们新颖的数据集FISHnCHIPS,该数据集在鱼眼图像中提供了3D人体骨架标注,包括来自非常规角度的图像,如极端特写、地面安装的相机和广视野姿态,数据集可在此URL获取:this https URL |
[77] CoCo4D:全面且复杂的4D场景生成 标题: CoCo4D: Comprehensive and Complex 4D Scene Generation 作者: Junwei Zhou / Xueting Li / Lu Qi / Ming-Hsuan Yang 原文: [英文] [中文] 备注: 16 pages,10 figures 摘要: 现有的4D合成方法主要集中在对象级别的生成或动态场景合成上,但其新颖视角有限,限制了生成多视图一致且沉浸式动态4D场景的能力。为了解决这些限制,我们提出了一个框架(称为CoCo4D),用于从文本提示生成详细的动态4D场景,并可以选择包括图像。我们的方法利用了一个关键观察,即关节运动通常表征前景对象,而背景变化则不那么明显。因此,CoCo4D将4D场景合成分为两个任务:建模动态前景和创建变化的背景,二者均由参考运动序列引导。给定一个文本提示和一个可选的参考图像,CoCo4D首先利用视频扩散模型生成初始运动序列。然后,这个运动序列指导动态前景对象和背景的合成,采用一种新颖的渐进式外延绘制方案。为了确保移动的前景对象与动态背景的无缝融合,CoCo4D优化了前景的参数化轨迹,从而实现真实且连贯的融合。大量实验表明,CoCo4D在4D场景生成方面达到了与现有方法相当或更优的性能,展示了其有效性和效率。更多结果展示在我们的网站上。 |
[78] 一个原型就够了:用于可解释图像分类的单原型激活 标题: One Prototype Is Enough: Single-Prototype Activation for Interpretable Image Classification 作者: Yitao Peng / Lianghua He / Die Hu 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们提出了ProtoSolo,这是一种新颖的深度神经网络架构,用于可解释的图像分类,灵感来自于原型网络,如ProtoPNet。现有的原型网络通常依赖于多个原型的协作决策来实现单个类别的分类和解释。相比之下,ProtoSolo只需要激活一个原型即可完成分类。这使得网络能够通过仅提供与该类别原型最相似的特征来解释每个类别的决策,显著降低了解释的认知复杂性。其次,我们提出了一种基于特征的比较方法,该方法使用特征图而不是全通道特征向量作为相似性比较和原型学习的对象。这一设计使ProtoSolo能够在依赖单个原型激活的同时,利用更丰富的全局信息进行分类。此外,我们提出了一种非原型投影学习策略,该策略在保留原型与训练图像块之间信息关联的同时,避免了投影操作引起的网络结构剧烈变化,从而避免了其对分类性能的负面影响。在CUB-200-2011和Stanford Cars数据集上的实验表明,ProtoSolo在分类任务中表现优异,并且在解释的认知复杂性方面达到了与最新可解释方法相比的最佳水平。代码可在此https URL获取。 |
[79] 绑定你的化身:基于动态3D面具嵌入路由器的多角色对话视频生成 标题: Bind-Your-Avatar: Multi-Talking-Character Video Generation with Dynamic 3D-mask-based Embedding Router 作者: Yubo Huang / Weiqiang Wang / Sirui Zhao / Tong Xu / Lin Liu / Enhong Chen 原文: [英文] 备注: None 摘要: 近年来,音频驱动的说话人头像生成技术取得了显著进展。然而,现有的方法主要集中在单角色场景上。虽然有些方法可以创建两个人之间的独立对话视频,但生成多个角色在同一空间环境中共同出现的统一对话视频这一关键挑战仍然基本未被解决。这种设置带来了两个主要挑战:音频与角色的对应控制,以及缺乏合适的数据集来展示同一场景中的多角色对话视频。为了解决这些挑战,我们引入了Bind-Your-Avatar,这是一种基于MM-DiT的模型,专为同一场景中的多角色对话视频生成而设计。具体来说,我们提出了:(1) 一种新颖的框架,结合了细粒度的嵌入路由器,将“谁”和“说什么”绑定在一起,以解决音频与角色的对应控制问题。(2) 两种实现3D掩码嵌入路由器的方法,能够对单个角色进行逐帧、细粒度的控制,具有基于观察到的几何先验的不同损失函数和掩码优化策略,以提高预测掩码的准确性和时间平滑性。(3) 据我们所知,第一个专门为多角色对话视频生成构建的数据集,并附有开源的数据处理管道,以及(4) 一个双角色对话视频生成的基准,通过大量实验展示了其在多种最先进方法上的优越性能。 |
[80] SimpleGVR:一种用于潜在级联视频超分辨率的简单基线 标题: SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution 作者: Liangbin Xie / Yu Li / Shian Du / Menghan Xia / Xintao Wang / Fanghua Yu / Ziyan Chen / Pengfei Wan / Jiantao Zhou / Chao Dong 原文: [英文] [中文] 备注: Project webpage available at this https URL 摘要: 潜在扩散模型已成为高效视频生成的领先范式。然而,随着用户期望转向更高分辨率的输出,仅依赖潜在计算变得不够。一个有前景的方法是将过程分为两个阶段:语义内容生成和细节合成。前者在较低分辨率下使用计算密集型的基础模型,而后者利用轻量级的级联视频超分辨率(VSR)模型来实现高分辨率输出。在这项工作中,我们专注于研究目前尚未充分探索的级联VSR模型的关键设计原则。首先,我们提出了两种退化策略来生成训练对,以更好地模拟基础模型的输出特性,确保VSR模型与其上游生成器的一致性。其次,我们通过系统分析提供了对VSR模型行为的关键见解,包括(1)时间步采样策略,(2)低分辨率(LR)输入上的噪声增强效果。这些发现直接为我们的架构和训练创新提供了信息。最后,我们引入交错时间单元和稀疏局部注意力,以实现高效的训练和推理,大幅减少计算开销。大量实验表明,我们的框架优于现有方法,消融研究证实了每个设计选择的有效性。我们的工作为级联视频超分辨率生成建立了一个简单而有效的基线,提供了实用的见解以指导未来高效级联合成系统的进步。 |
[81] 通过可分解流匹配改进渐进生成 标题: Improving Progressive Generation with Decomposable Flow Matching 作者: Moayed Haji-Ali / Willi Menapace / Ivan Skorokhodov / Arpit Sahni / Sergey Tulyakov / Vicente Ordonez / Aliaksandr Siarohin 原文: [英文] [中文] 备注: Project Webpage: this https URL 摘要: 生成高维视觉模态是一项计算密集型任务。一个常见的解决方案是渐进生成,其中输出以粗到细的频谱自回归方式合成。虽然扩散模型受益于去噪的粗到细特性,但很少采用显式的多阶段架构。这些架构增加了整体方法的复杂性,引入了对自定义扩散公式、依赖分解的阶段转换、附加采样器或模型级联的需求。我们的贡献,分解流匹配(DFM),是一个简单而有效的视觉媒体渐进生成框架。DFM在用户定义的多尺度表示(如拉普拉斯金字塔)的每个层次上独立应用流匹配。我们的实验表明,与之前的多阶段框架相比,我们的方法提高了图像和视频的视觉质量,表现出更优的结果。在Imagenet-1k 512px上,DFM在相同的训练计算下,相较于基础架构在FDD分数上提高了35.2%,相较于表现最佳的基线提高了26.4%。当应用于大型模型(如FLUX)的微调时,DFM显示出更快的收敛速度到训练分布。重要的是,所有这些优势都是通过单一模型、架构简单性以及对现有训练流程的最小修改实现的。 |
[82] GenHSI:可控生成人与场景交互视频 标题: GenHSI: Controllable Generation of Human-Scene Interaction Videos 作者: Zekun Li / Rui Zhou / Rahul Sajnani / Xiaoyan Cong / Daniel Ritchie / Srinath Sridhar 原文: [英文] 备注: None 摘要: 大规模预训练的视频扩散模型在多样化的视频生成中展现了卓越的能力。然而,现有的解决方案在使用这些模型生成具有丰富人-物体交互的长电影式视频时面临几个挑战,包括不现实的人-场景交互、缺乏主体身份的保持以及需要昂贵的训练。我们提出了GenHSI,这是一种无需训练的方法,用于可控生成长的人-场景交互视频(HSI)。从电影动画中汲取灵感,我们的关键见解是通过将长视频生成任务细分为三个阶段来克服以往工作的局限性:(1)剧本编写,(2)预可视化,以及(3)动画。给定一个场景图像、用户描述和多张人物图像,我们使用这三个阶段生成长视频,以保持人物身份并提供丰富的人-场景交互。剧本编写将复杂的人类任务转化为简单的原子任务,这些任务在预可视化阶段用于生成3D关键帧(故事板)。这些3D关键帧通过现成的视频扩散模型进行渲染和动画处理,以3D感知的方式生成具有丰富接触的连续长视频。我们工作的一个关键优势是,我们减轻了对扫描的、精确场景的需求,并从单视图图像创建3D关键帧。我们是第一个在不进行训练的情况下生成包含任意数量角色动作且具有一致摄像机姿态的长视频序列的团队。实验表明,我们的方法可以从单个图像场景生成长视频,有效地保留场景内容和角色身份,并实现合理的人-场景交互。访问我们的项目主页此https URL以获取更多信息。 |
[83] 主动视图选择器:基于交叉参考图像质量评估的快速准确主动视图选择 标题: Active View Selector: Fast and Accurate Active View Selection with Cross Reference Image Quality Assessment 作者: Zirui Wang / Yash Bhalgat / Ruining Li / Victor Adrian Prisacariu 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 我们解决了新视图合成和3D重建中的主动视图选择问题。现有的方法如FisheRF和ActiveNeRF通过在3D中最小化不确定性或最大化信息增益来选择最佳下一个视图,但它们需要针对不同的3D表示进行专门设计,并涉及复杂的3D空间建模。相反,我们将其重新构建为一个二维图像质量评估(IQA)任务,选择当前渲染质量最低的视图。由于候选视图的真实图像不可用,像PSNR和SSIM这样的全参考指标无法适用,而无参考指标如MUSIQ和MANIQA缺乏必要的多视图上下文。受到最近的交叉参考质量框架CrossScore的启发,我们训练了一个模型来在多视图设置中预测SSIM,并用它来指导视图选择。我们的交叉参考IQA框架在标准基准测试中实现了显著的定量和定性改进,同时对3D表示不敏感,并且运行速度比以前的方法快14-33倍。 |
[84] NAFNet基线在图像修复中的比较研究 标题: A Comparative Study of NAFNet Baselines for Image Restoration 作者: Vladislav Esaulov / M. Moein Esfahani 原文: [英文] [中文] 备注: None 摘要: 我们研究了NAFNet(无非线性激活网络),这是一种用于图像修复的简单高效的深度学习基线。通过使用被噪声和模糊破坏的CIFAR10图像,我们对NAFNet的核心组件进行了消融研究。我们的基线模型实现了SimpleGate激活、简化通道激活(SCA)和层归一化。我们将此基线与替换或移除组件的不同变体进行比较。定量结果(PSNR,SSIM)和示例说明了每个修改如何影响修复性能。我们的研究结果支持NAFNet的设计:SimpleGate和简化的注意机制比传统的激活和注意机制产生更好的结果,而LayerNorm对于稳定训练至关重要。我们以模型设计建议作为结尾,讨论了潜在的改进和未来的工作。 |
[85] ScaleCap:通过双模态去偏在推理时实现可扩展的图像描述生成 标题: ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing 作者: Long Xing / Qidong Huang / Xiaoyi Dong / Pan Zhang / Yuhang Zang / Yuhang Cao / Jinsong Li / Shuangrui Ding / Weiming Zhang / Nenghai Yu / Jiaqi Wang / Feng Wu / Dahua Lin 原文: [英文] [中文] 备注: Code is available at this https URL 摘要: 本文介绍了ScaleCap,这是一种推理时可扩展的图像描述生成策略,能够生成全面且详细的图像描述。高质量图像描述的关键挑战在于大型视觉语言模型(LVLMs)的固有偏差:多模态偏差导致描述粒度不平衡,对某些元素提供详细描述,而对其他元素仅略过;语言偏差导致对不存在对象的虚构描述。为了解决这些问题,我们提出了一种可扩展的去偏描述生成策略,通过增加推理预算不断丰富和校准描述。具体来说,我们提出了两个新组件:启发式问答和对比句子评分。前者基于图像生成内容特定的问题并回答它们,以逐步将相关信息注入描述中。后者采用句子级离线对比解码,有效识别并消除由语言偏差引起的虚构内容。随着推理成本的增加,ScaleCap提出更多启发性问题,以逐步捕捉更多视觉细节,生成更准确、平衡和信息丰富的描述。广泛的模态对齐实验证明了ScaleCap的有效性。使用ScaleCap为45万张图像进行标注并用于LVLM预训练,在11个广泛使用的基准测试中实现了一致的性能提升。此外,ScaleCap在两个附加任务中展示了生成描述的丰富性和真实性:在VQA任务中用描述替换图像,以及从描述重建图像以评估语义覆盖。代码可在此https URL获取。 |
[86] 统一视觉-语言-动作模型 标题: Unified Vision-Language-Action Model 作者: Yuqi Wang / Xinghang Li / Wenxuan Wang / Junbo Zhang / Yingyan Li / Yuntao Chen / Xinlong Wang / Zhaoxiang Zhang 原文: [英文] [中文] 备注: technical report 摘要: 视觉-语言-动作模型(VLAs)因其在推进机器人操作方面的潜力而受到广泛关注。然而,以往的方法主要依赖视觉-语言模型(VLMs)的通用理解能力来生成动作信号,往往忽视了视觉观察中蕴含的丰富的时间和因果结构。在本文中,我们提出了UniVLA,一种统一且原生的多模态VLA模型,该模型以自回归方式将视觉、语言和动作信号建模为离散的标记序列。这种表述方式使得从大规模视频数据中学习灵活的多模态任务成为可能。通过在后训练阶段引入世界建模,UniVLA从视频中捕捉因果动态,促进了向下游策略学习的有效转移——尤其是针对长时间跨度任务。我们的方法在多个广泛使用的模拟基准测试中设定了新的最先进结果,包括CALVIN、LIBERO和Simplenv-Bridge,显著超越了以往的方法。例如,UniVLA在LIBERO基准测试中实现了95.5%的平均成功率,超过了pi0-FAST的85.5%。我们进一步展示了其在现实世界ALOHA操作和自动驾驶中的广泛适用性。 |
[87] AnimaX:使用联合视频姿态扩散模型在3D中为无生命物体赋予动画 标题: AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models 作者: Zehuan Huang / Haoran Feng / Yangtian Sun / Yuanchen Guo / Yanpei Cao / Lu Sheng 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 我们介绍了 AnimaX,这是一种前馈的 3D 动画框架,它将视频扩散模型的运动先验与基于骨架动画的可控结构相结合。传统的运动合成方法要么局限于固定的骨架拓扑,要么需要在高维变形空间中进行昂贵的优化。相比之下,AnimaX 有效地将基于视频的运动知识转移到 3D 领域,支持具有任意骨架的多样化关节网格。我们的方法将 3D 运动表示为多视图、多帧的 2D 姿态图,并通过模板渲染和文本运动提示条件下的联合视频-姿态扩散来实现。我们引入了共享位置编码和模态感知嵌入,以确保视频和姿态序列之间的时空对齐,有效地将视频先验转移到运动生成任务中。生成的多视图姿态序列被三角化为 3D 关节位置,并通过逆向运动学转换为网格动画。AnimaX 在一个新整理的包含 160,000 个绑定序列的数据集上进行训练,在 VBench 上的泛化、运动保真度和效率方面达到了最先进的结果,提供了一种可扩展的类别无关的 3D 动画解决方案。项目页面:\href{this https URL}{this https URL}。 |
[88] 径向注意力:用于长视频生成的能量衰减$O(n\log n)$稀疏注意力机制 标题: Radial Attention: $O(n\log n)$ Sparse Attention with Energy Decay for Long Video Generation 作者: Xingyang Li / Muyang Li / Tianle Cai / Haocheng Xi / Shuo Yang / Yujun Lin / Lvmin Zhang / Songlin Yang / Jinbo Hu / Kelly Peng / Maneesh Agrawala / Ion Stoica / Kurt Keutzer / Song Han 原文: [英文] [中文] 备注: Code: this https URL 摘要: 最近在扩散模型方面的进展使得高质量的视频生成成为可能,但额外的时间维度显著增加了计算成本,使得对长视频的训练和推理变得极其昂贵。在本文中,我们识别出一种现象,我们称之为视频扩散模型中的时空能量衰减:后软最大化注意力分数随着令牌之间的空间和时间距离的增加而减小,这类似于自然界中信号或波在空间和时间上的物理衰减。受此启发,我们提出了径向注意力,这是一种具有 $O(n \log n)$ 复杂度的可扩展稀疏注意力机制,它将能量衰减转化为指数衰减的计算密度,这比标准的 $O(n^2)$ 密集注意力更高效,比线性注意力更具表现力。具体来说,径向注意力采用一个简单的、静态的注意力掩码,其中每个令牌关注空间上相邻的令牌,注意力窗口大小随着时间距离的增加而缩小。此外,它允许预训练的视频扩散模型通过高效的基于 LoRA 的微调来扩展其生成长度。大量实验表明,径向注意力在 Wan2.1-14B、HunyuanVideo 和 Mochi 1 上保持了视频质量,相比原始密集注意力实现了高达 1.9 倍的加速。通过最小的调优,它使视频生成长度延长至最多 4 倍,同时将训练成本降低至直接微调的 4.4 倍,并在推理时相比密集注意力推理加速至 3.7 倍。 |