![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年6月11日更新论文98篇
|
[1] 迈向可靠的增强现实引导外科导航:结合数据驱动生物力学和提示的交互式变形建模 标题: Towards Reliable AR-Guided Surgical Navigation: Interactive Deformation Modeling with Data-Driven Biomechanics and Prompts 作者: Zheng Han / Jun Zhou / Jialun Pei / Jing Qin / Yingfang Fan / Qi Dou 原文: [英文] 备注: None 摘要: 在增强现实(AR)引导的手术导航中,术前器官模型被叠加到患者的术中解剖结构上,以可视化关键结构,如血管和肿瘤。准确的变形建模对于保持AR叠加的可靠性至关重要,因为它确保术前模型与动态变化的解剖结构之间的对齐。尽管有限元方法(FEM)提供了物理上合理的建模,但其高计算成本限制了术中的适用性。此外,现有算法通常无法处理大的解剖变化,例如由气腹或韧带切除引起的变化,导致解剖对应不准确并影响AR指导。为了解决这些挑战,我们提出了一种数据驱动的生物力学算法,该算法在提高计算效率的同时保持FEM级别的准确性。此外,我们在变形建模过程中引入了一种新的人工参与机制。这使得外科医生能够交互式地提供提示以纠正解剖错位,从而结合临床专业知识并使模型能够动态适应复杂的手术场景。在一个公开可用的数据集上的实验表明,我们的算法实现了3.42毫米的平均目标注册误差。通过交互框架结合外科医生的提示进一步将误差减少到2.78毫米,超越了体积准确性的最新方法。这些结果突出了我们的框架在提供高效和准确的变形建模的同时增强外科医生与算法协作的能力,为更安全和更可靠的计算机辅助手术铺平了道路。 |
[2] ReCogDrive:一种用于端到端自动驾驶的强化认知框架 标题: ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving 作者: Yongkang Li / Kaixin Xiong / Xiangyu Guo / Fang Li / Sixu Yan / Gangwei Xu / Lijun Zhou / Long Chen / Haiyang Sun / Bing Wang / Guang Chen / Hangjun Ye / Wenyu Liu / Xinggang Wang 原文: [英文] 备注: None 摘要: 尽管端到端自动驾驶技术取得了显著进展,但在罕见和长尾场景中,其性能显著下降。最近的方法尝试通过利用视觉-语言模型(VLMs)的丰富世界知识来解决这一挑战,但这些方法存在几个局限性:(1)VLMs的预训练数据与真实驾驶数据之间存在显著的领域差距,(2)离散语言空间与连续动作空间之间的维度不匹配,以及(3)模仿学习倾向于捕捉数据集中存在的平均行为,这可能是次优甚至危险的。在本文中,我们提出了ReCogDrive,一种将VLMs与扩散规划器相结合的自动驾驶系统,该系统采用三阶段范式进行训练。在第一阶段,我们使用大规模驾驶问答数据集来训练VLMs,减轻通用内容与真实驾驶场景之间的领域差异。在第二阶段,我们采用基于扩散的规划器进行模仿学习,将潜在语言空间中的表示映射到连续驾驶动作。最后,我们使用NAVSIM非反应性模拟器进行强化学习微调扩散规划器,使模型能够生成更安全、更具人类特征的驾驶轨迹。我们在以规划为导向的NAVSIM基准上评估我们的方法,取得了89.6的PDMS,设定了新的技术水平,超越了之前仅依赖视觉的技术水平5.6 PDMS。 |
[3] CuRe:文本到图像系统长尾中的文化差距 标题: CuRe: Cultural Gaps in the Long Tail of Text-to-Image Systems 作者: Aniket Rege / Zinnia Nie / Mahesh Ramesh / Unmesh Raskar / Zhuoran Yu / Aditya Kusupati / Yong Jae Lee / Ramya Korlakai Vinayak 原文: [英文] 备注: 41 pages, 22 figures, 17 tables 摘要: 流行的文本到图像(T2I)系统是基于从网络抓取的数据进行训练的,这些数据严重偏向美洲和欧洲文化,导致对全球南方文化的代表性不足。为了分析这些偏见,我们引入了CuRe,这是一种新颖且可扩展的文化代表性基准和评分套件,它利用属性规范对T2I系统的边际效用作为人类判断的代理。我们的CuRe基准数据集具有一种新颖的分类层次结构,该结构基于众包的维基媒体知识图构建,包含300个文化遗产,分为32个文化子类别,并归入六个广泛的文化轴(食物、艺术、时尚、建筑、庆祝活动和人物)。我们数据集的分类层次结构使CuRe评分者能够通过分析T2I系统对文本条件信息量增加的响应来评估这些系统,从而实现细粒度的文化比较。我们通过实验证实,我们的评分类别与人类对感知相似性、图像-文本对齐和文化多样性的判断在图像编码器(SigLIP 2、AIMV2和DINOv2)、视觉语言模型(OpenCLIP、SigLIP 2、Gemini 2.0 Flash)以及包括三种Stable Diffusion变体(1.5、XL、3.5 Large)、FLUX.1 [dev]、Ideogram 2.0和DALL-E 3在内的最先进的文本到图像系统中具有更强的相关性。代码和数据集是开源的,可以在这个https URL上获取。 |
[4] IGraSS:通过迭代图约束语义分割从卫星图像中学习识别基础设施网络 标题: IGraSS: Learning to Identify Infrastructure Networks from Satellite Imagery by Iterative Graph-constrained Semantic Segmentation 作者: Oishee Bintey Hoque / Abhijin Adiga / Aniruddha Adiga / Siddharth Chaudhary / Madhav V. Marathe / S. S. Ravi / Kirti Rajagopalan / Amanda Wilson / Samarth Swarup 原文: [英文] 备注: None 摘要: 准确的运河网络映射对于水资源管理至关重要,包括灌溉规划和基础设施维护。最先进的基础设施映射语义分割模型,如道路,依赖于大型、标注良好的遥感数据集。然而,不完整或不充分的真实数据可能会阻碍这些学习方法。许多基础设施网络具有图级属性,例如可到达源头(如运河)或连通性(道路),可以利用这些属性来改进现有的真实数据。本文开发了一种新颖的迭代框架IGraSS,结合了一个语义分割模块(包含RGB和额外的模态如NDWI、DEM)与一个基于图的真实数据优化模块。分割模块处理卫星图像块,而优化模块则将整个数据视为一个图来操作基础设施网络。实验表明,IGraSS将无法到达的运河段从约18%减少到3%,并且使用优化后的真实数据进行训练显著提高了运河识别。IGraSS作为一个稳健的框架,既可以优化噪声真实数据,也可以从遥感图像中映射运河网络。我们还通过道路网络作为示例展示了IGraSS的有效性和普适性,应用不同的图论约束来完成道路网络。 |
[5] 用于通带FMCW雷达的频谱域神经重建 标题: Spectral Domain Neural Reconstruction for Passband FMCW Radars 作者: Harshvardhan Takawale / Nirupam Roy 原文: [英文] 备注: arXiv admin note: substantial text overlap with arXiv:2503.23313 摘要: 我们介绍了SpINRv2,这是一种使用调频连续波(FMCW)雷达进行高保真体积重建的神经框架。作为我们之前工作的扩展(SpINR),这个版本引入了增强功能,使其能够在高起始频率下进行准确学习,此时相位混叠和子频段模糊性变得突出。我们的核心贡献是一个完全可微的频域前向模型,该模型使用闭式合成捕捉复杂的雷达响应,并与隐式神经表示(INR)配对以进行连续的体积场景建模。与时域基线不同,SpINRv2直接监督复杂的频谱,保持频谱保真度,同时大幅减少计算开销。此外,我们引入了稀疏性和平滑性正则化,以消除在精细距离分辨率下出现的子频段模糊性。实验结果表明,SpINRv2在高频率条件下显著优于传统和基于学习的基线,建立了基于神经雷达的3D成像的新基准。 |
[6] 通过视觉-语言-动作框架中的离散扩散模型进行外科医生风格指纹识别和隐私风险量化 标题: Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion Models in a Vision-Language-Action Framework 作者: Huixin Zhan / Jason H. Moore 原文: [英文] 备注: None 摘要: 由于培训、经验和运动行为的差异,外科医生表现出不同的操作风格——然而当前的人工智能系统往往忽略了这种个性化信号。我们提出了一种新颖的方法,使用离散扩散框架结合视觉-语言-动作(VLA)管道来建模机器人手术中细粒度、特定于外科医生的指纹。我们的方法将手势预测表述为一个结构化的序列去噪任务,基于多模态输入,包括内窥镜视频、手术意图语言以及外科医生身份和技能的隐私感知嵌入。个性化的外科医生指纹通过使用第三方语言模型的自然语言提示进行编码,使模型能够保留个人行为风格而不暴露明确的身份。我们在JIGSAWS数据集上评估了我们的方法,证明它能够准确重建手势序列,同时学习到每位外科医生独特的有意义的运动指纹。为了量化个性化的隐私影响,我们进行了成员推断攻击,发现更具表现力的嵌入提高了任务性能,但同时也增加了身份泄露的可能性。这些发现表明,尽管个性化嵌入提高了性能,但也增加了身份泄露的脆弱性,揭示了在手术建模中平衡个性化与隐私风险的重要性。代码可在此URL获取:this https URL。 |
[7] 使用视觉语言模型的开放世界场景图生成 标题: Open World Scene Graph Generation using Vision Language Models 作者: Amartya Dutta / Kazi Sajeed Mehrab / Medha Sawhney / Abhilash Neog / Mridul Khurana / Sepideh Fatemi / Aanish Pradhan / M. Maruf / Ismini Lourentzou / Arka Daw / Anuj Karpatne 原文: [英文] 备注: Accepted in CVPR 2025 Workshop (CVinW) 摘要: 场景图生成(Scene-Graph Generation, SGG)旨在识别图像中的物体并提炼其显著的成对关系。大多数方法依赖于特定数据集的监督来学习各种交互,这限制了它们在开放世界环境中的实用性,尤其是涉及新颖的物体和/或关系时。即使是利用大型视觉语言模型(Vision Language Models, VLMs)的方法通常也需要针对特定基准的微调。我们引入了开放世界场景图生成(Open-World SGG),这是一种无需训练、高效、与模型无关的框架,直接利用VLMs的预训练知识生成场景图,而无需额外学习。我们将SGG视为一个零样本结构推理问题,我们的方法结合了多模态提示、嵌入对齐和轻量级的对精炼策略,从而能够对未见过的物体词汇和关系集进行推理。为了评估这一设定,我们正式化了一个开放世界评估协议,该协议在没有观察到任何SGG特定数据(无论是物体还是关系)的情况下衡量性能。在Visual Genome、Open Images V6和全景场景图(Panoptic Scene Graph, PSG)数据集上的实验表明,预训练的VLMs在没有任务级训练的情况下具备执行关系理解的能力。 |
[8] 可微分对象模型的生成学习用于复杂场景的组合解释 标题: Generative Learning of Differentiable Object Models for Compositional Interpretation of Complex Scenes 作者: Antoni Nowinowski / Krzysztof Krawiec 原文: [英文] 备注: None 摘要: 本研究基于视觉先验解缠器(DVP)的架构,这是一种自动编码器,通过将感知到的物体分解为形状、大小、方向和颜色外观的独立视觉方面来学习解释场景。这些方面被表达为潜在参数,这些参数控制一个可微分的渲染器,该渲染器执行图像重建,从而使模型可以通过使用重建损失的梯度进行端到端训练。在本研究中,我们扩展了原始的DVP,使其能够处理场景中的多个物体。我们还利用其潜在空间的可解释性,通过使用解码器采样额外的训练样本,并设计依赖于不仅在图像空间而且在潜在空间中定义的损失函数的替代训练模式。这显著地促进了训练,否则由于图像空间重建损失中存在广泛的平坦区域而具有挑战性。为了检验这种方法的性能,我们提出了一个新的基准,包含多个二维物体,它包含了先前提出的Multi-dSprites数据集,同时具有更高的参数化能力。我们将以这种方式扩展的DVP与两个基线(MONet和LIVE)进行比较,并展示了其在重建质量和分解重叠物体能力方面的优越性。我们还分析了所考虑的损失函数引发的梯度,解释了它们如何影响训练的有效性,并讨论了可微分渲染在自动编码器中的局限性以及可以解决这些问题的方法。 |
[9] GIQ:使用模拟和真实多面体对视觉基础模型的三维几何推理进行基准测试 标题: GIQ: Benchmarking 3D Geometric Reasoning of Vision Foundation Models with Simulated and Real Polyhedra 作者: Mateusz Michalkiewicz / Anekha Sokhal / Tadeusz Michalkiewicz / Piotr Pawlikowski / Mahsa Baktashmotlagh / Varun Jampani / Guha Balakrishnan 原文: [英文] 备注: 15 pages, 4 figures 摘要: 单目3D重建方法和视觉-语言模型(VLMs)在标准基准测试中表现出色,但它们对几何属性的真正理解仍不明确。我们介绍了GIQ,一个专门设计用于评估视觉和视觉-语言基础模型几何推理能力的综合基准。GIQ包含224个多样化多面体的合成和真实世界图像——包括柏拉图、阿基米德、约翰逊和加泰罗尼亚固体,以及星形和复合形状——涵盖不同复杂性和对称性水平。通过涉及单目3D重建、3D对称性检测、心理旋转测试和零样本形状分类任务的系统实验,我们揭示了当前模型的显著缺陷。即使是经过大量3D数据集训练的最先进重建算法也难以准确重建基本几何形状。虽然基础模型通过线性探测有效检测特定3D对称元素,但在需要详细几何区分的任务中,如心理旋转,它们表现显著不佳。此外,先进的视觉-语言助手在复杂多面体上的准确性极低,系统性地误解了诸如面几何、凸性和复合结构等基本属性。GIQ是公开可用的,提供了一个结构化平台,以突出和解决几何智能中的关键差距,促进未来在稳健、几何感知表示学习方面的进展。 |
[10] 解码器专用大型语言模型在文本到图像生成中的综合研究 标题: A Comprehensive Study of Decoder-Only LLMs for Text-to-Image Generation 作者: Andrew Z. Wang / Songwei Ge / Tero Karras / Ming-Yu Liu / Yogesh Balaji 原文: [英文] 备注: CVPR 2025 摘要: 文本到图像生成和大型语言模型(LLMs)都取得了显著的进展。然而,许多文本到图像模型仍然使用相对过时的T5和CLIP作为其文本编码器。在这项工作中,我们研究了使用现代仅解码器的LLMs作为文本到图像扩散模型的文本编码器的有效性。我们构建了一个标准化的训练和评估流程,使我们能够隔离并评估不同文本嵌入的效果。我们总共训练了27个文本到图像模型,使用了12种不同的文本编码器,以分析可能影响文本到图像生成的LLMs的关键方面,包括提取嵌入的方法、不同的LLMs变体和模型大小。我们的实验表明,使用最后一层嵌入作为条件的默认方法会导致较差的性能。相反,我们探索了来自各层的嵌入,发现使用层归一化的跨所有层的平均值显著改善了与复杂提示的对齐。大多数使用这种条件的LLMs在高级视觉语言推理技能上表现优于基线T5模型。 |
[11] 使用卫星图像和自监督机器学习网络检测隐藏在植被下的水体 标题: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation 作者: Ioannis Iakovidis / Zahra Kalantari / Amir Hossein Payberah / Fernando Jaramillo / Francisco Pena Escobar 原文: [英文] 备注: 16 pages, 9 figures 摘要: 近年来,高分辨率雷达卫星图像的广泛可用性以及计算机视觉模型的进步,使得对湿地表面积的远程监测成为可能。然而,这些模型需要大量手动标注的卫星图像,而这些图像的生产既缓慢又昂贵。为了解决这个问题,自监督训练方法被用于在不使用标注数据的情况下训练模型。在本文中,我们结合深度聚类和负采样方法,训练一个模型来分割雷达卫星图像,将水域与陆地区域分开,而无需任何人工标注。此外,我们实现了模型的集成版本,以减少方差并提高性能。与使用相同架构的单一全监督模型相比,我们的自监督模型集成在测试数据集上的交并比(Intersection Over Union)指标提高了0.02。 |
[12] 似曾未见:揭示监督语义对应中的泛化差距 标题: Jamais Vu: Exposing the Generalization Gap in Supervised Semantic Correspondence 作者: Octave Mariotti / Zhipeng Du / Yash Bhalgat / Oisin Mac Aodha / Hakan Bilen 原文: [英文] 备注: None 摘要: 语义对应(SC)旨在跨越同一物体类别的不同实例建立语义上有意义的匹配。我们说明了最近的监督SC方法在超越稀疏标注的训练关键点方面的泛化能力仍然有限,实际上充当了关键点检测器。为了解决这个问题,我们提出了一种新颖的方法,通过使用单目深度估计将二维关键点提升到规范的三维空间中来学习密集对应。我们的方法构建了一个连续的规范流形,该流形捕捉了物体的几何形状,而无需显式的三维监督或相机标注。此外,我们引入了SPair-U,这是SPair-71k的扩展,具有新的关键点标注,以更好地评估泛化能力。实验不仅表明我们的模型在未见过的关键点上显著优于监督基线,突显了其在学习鲁棒对应方面的有效性,而且在跨不同数据集泛化时,无监督基线优于监督对手。 |
[13] 一个好的CREPE不仅仅需要糖:调查组合视觉-语言基准中的偏见 标题: A Good CREPE needs more than just Sugar: Investigating Biases in Compositional Vision-Language Benchmarks 作者: Vishaal Udandarao / Mehdi Cherti / Shyamgopal Karthik / Jenia Jitsev / Samuel Albanie / Matthias Bethge 原文: [英文] 备注: None 摘要: 我们研究了17个常用来衡量视觉-语言模型(VLMs)组合理解能力的基准(例如SugarCREPE, VALSE)。我们仔细审查了它们在构建过程中的设计选择,包括数据来源(例如MS-COCO)和策划程序(例如构建负面图像/字幕),揭示了大多数基准中存在的几个固有偏差。我们发现,盲目启发式方法(例如,基于语言模型的标记长度、对数似然)与CLIP模型的表现相当,这表明这些基准并未有效衡量组合理解能力。我们证明,根本原因是由基准构建程序引起的正负图像/字幕之间的分布不对称。为了解决这些问题,我们提供了一些关键建议,以构建更稳健的视觉-语言组合理解基准,使其不易受到此类简单攻击。 |
[14] 高度压缩的分词器可以在无需训练的情况下生成 标题: Highly Compressed Tokenizer Can Generate Without Training 作者: L. Lao Beyer / T. Li / X. Chen / S. Karaman / K. He 原文: [英文] 备注: Main manuscript: 9 pages, 7 figures. Appendix: 8 pages, 9 figures. To appear in the Proceedings of the 42nd International Conference on Machine Learning 摘要: 常用的图像分词器生成一个二维网格的空间排列的标记。相比之下,所谓的一维图像分词器将图像表示为高度压缩的一维序列,少至32个离散标记。我们发现,通过矢量量化实现的一维分词器的高压缩度,使得通过启发式操作标记实现图像编辑和生成能力成为可能,表明即使是非常粗糙的操作——例如在图像的潜在表示之间复制和替换标记——也能通过转移外观和语义属性实现细粒度的图像编辑。受到一维分词器潜在空间表现力的启发,我们构建了一个图像生成流程,利用基于梯度的测试时优化标记,并结合即插即用的损失函数,如重建或CLIP相似性。我们的方法在修复和文本引导的图像编辑用例中得到了验证,并且可以生成多样且逼真的样本,而无需训练任何生成模型。 |
[15] 看见声音:使用Mirage从音频生成A-Roll视频 标题: Seeing Voices: Generating A-Roll Video from Audio with Mirage 作者: Aditi Sundararaman / Amogh Adishesha / Andrew Jaegle / Dan Bigioi / Hyoung-Kyu Song / Jon Kyl / Justin Mao / Kevin Lan / Mojtaba Komeili / ShahRukh Athar / Sheila Babayan / Stanislau Beliasau / William Buchwalter 原文: [英文] 备注: Technical report website: this http URL, product website: this http URL 摘要: 从专业电影制作到用户生成内容,创作者和消费者长期以来都认识到视频的力量取决于我们听到的(视频的音频轨道)与我们看到的(视频的图像序列)的和谐整合。目前的视频生成方法要么忽略声音,专注于通用但无声的图像序列生成,要么同时处理视觉和音频元素,但专注于有限的应用领域,如重新配音。我们介绍了Mirage,一种音频到视频的基础模型,擅长从音频输入生成逼真且富有表现力的输出图像。当与现有的语音合成方法(文本到语音,或TTS)结合时,Mirage能够生成引人入胜的多模态视频。在对包含讲话的音频进行训练并以人们讲话的音视频素材(A-roll)为条件时,Mirage生成的视频展现了对输入音频中隐含表演的可信诠释。我们的核心技术贡献是一种统一的方法,用于训练基于自注意力的音频到视频生成模型,无论是从头开始还是基于现有权重。该方法使Mirage能够保持作为音频到视频生成方法的通用性,同时生成的输出在主观质量上优于那些结合音频特定架构或特定于人、语音或图像或音频捕获细节的损失组件的方法。我们鼓励读者亲自观看和聆听Mirage的结果(请参阅论文和评论中的链接)。 |
[16] SEMA:一种通过标记定位和平均实现可扩展且高效的类曼巴注意力机制 标题: SEMA: a Scalable and Efficient Mamba like Attention via Token Localization and Averaging 作者: Nhat Thanh Tran / Fanghui Xue / Shuai Zhang / Jiancheng Lyu / Yunling Zheng / Yingyong Qi / Jack Xin 原文: [英文] 备注: 15 pages, figures 3 摘要: 注意力机制是Transformer的关键组成部分。然而,传统全注意力在输入规模上的二次计算复杂度以及其线性注意力变体无法聚焦的问题,一直是计算机视觉任务的挑战。我们提供了广义注意力的数学定义,并在这一通用框架下,构建了传统的softmax注意力和线性注意力。我们证明了广义注意力具有分散性,即当键的数量趋于无穷大时,查询会对所有键分配相等的权重。受分散性特性和最近Mamba形式注意力发展的启发,我们设计了可扩展且高效的类似Mamba的注意力机制(SEMA),该机制利用令牌定位来避免分散并保持聚焦,同时通过理论上一致的算术平均来捕捉注意力的全局特性。我们在Imagenet-1k上验证了我们的方法,分类结果表明,SEMA是超越线性注意力的可扩展且有效的替代方案,在相似的模型参数规模下,能够在越来越大规模的图像上超越最近的视觉Mamba模型。 |
[17] OpenRR-1k:用于真实世界反射去除的可扩展数据集 标题: OpenRR-1k: A Scalable Dataset for Real-World Reflection Removal 作者: Kangning Yang / Ling Ouyang / Huiming Sun / Jie Cai / Lan Fu / Jiaming Ding / Chiu Man Ho / Zibo Meng 原文: [英文] 备注: None 摘要: 反射去除技术在摄影和计算机视觉应用中起着至关重要的作用。然而,现有技术由于缺乏高质量的自然环境数据集而受到限制。在本文中,我们提出了一种从全新视角收集反射数据集的新范式。我们的方法方便、经济高效且可扩展,同时确保收集的数据对具有高质量、完美对齐,并代表自然和多样化的场景。按照这一范式,我们收集了一个真实世界、多样化且像素对齐的数据集(名为OpenRR-1k数据集),其中包含1000对在自然环境中收集的高质量透射-反射图像对。通过对几种反射去除方法的分析以及在我们数据集上的基准评估实验,我们证明了其在改善复杂现实环境中的鲁棒性方面的有效性。我们的数据集可通过此HTTPS URL获取。 |
[18] 基于Transformer的光谱-空间注意力解耦和自适应门控的高光谱图像分类 标题: Hyperspectral Image Classification via Transformer-based Spectral-Spatial Attention Decoupling and Adaptive Gating 作者: Guandong Li / Mengxia Ye 原文: [英文] 备注: arXiv admin note: substantial text overlap with arXiv:2504.15155, arXiv:2504.13045, arXiv:2503.23472 摘要: 深度神经网络在高光谱图像分类中面临多个挑战,包括高维数据、地物分布稀疏以及光谱冗余,这些问题常常导致分类过拟合和泛化能力有限。为了更有效地在高光谱图像(HSI)分类中提取和融合空间上下文与精细光谱信息,本文提出了一种新颖的网络架构,称为STNet。STNet的核心优势源于其空间-光谱变换模块的双重创新设计:首先,空间和光谱注意力的基本显式解耦确保了对HSI中关键信息的有针对性捕获;其次,两种功能截然不同的门控机制在注意力流的融合层面(自适应注意力融合门控)和特征变换的内部层面(GFFN)进行智能调节。与传统卷积神经网络相比,这一特性展示了卓越的特征提取和融合能力,同时在小样本和高噪声场景中降低了过拟合风险。STNet在不增加网络深度或宽度的情况下增强了模型的表示能力。所提出的方法在IN、UP和KSC数据集上表现出色,优于主流的高光谱图像分类方法。 |
[19] 使用事件相机实时定位网球在球拍上的撞击位置 标题: Locating Tennis Ball Impact on the Racket in Real Time Using an Event Camera 作者: Yuto Kase / Kai Ishibe / Ryoma Yasuda / Yudai Washida / Sakiko Hashimoto 原文: [英文] 备注: 17 pages, 10 figures, 3 tables 摘要: 在网球等球拍运动中,确定球在击球瞬间的位置对于明确球员和设备特性非常重要,从而有助于个性化设备设计。高速摄像机被用来测量击球位置;然而,它们过高的内存消耗限制了长时间场景捕捉,并且用于位置检测的手动数字化既耗时又容易出错。这些限制使得有效捕捉整个比赛场景变得困难,从而阻碍了对球员表现的分析。我们提出了一种使用事件相机实时定位网球在球拍上击球点的方法。事件相机能够在高速运动下以微秒精度高效地测量亮度变化(称为“事件”),同时使用较低的内存消耗。这些相机使用户能够在较长时间内持续监控他们的表现。我们的方法包括三个识别步骤:挥拍的时间范围、击球时刻的确定以及球和球拍的轮廓。传统的计算机视觉技术与原创的基于事件的处理相结合,用于检测击球时刻(PATS:时间对称性中的极性不对称量)。实验结果在测量网球运动员表现的允许范围内。此外,计算时间足够短,适用于实时应用。 |
[20] 指导多少:重新审视无分类器指导文本到视觉扩散模型中的自适应指导 标题: How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models 作者: Huixuan Zhang / Junzhe Zhang / Xiaojun Wan 原文: [英文] 备注: None 摘要: 随着文本到视觉生成扩散模型的快速发展,无分类器指导已成为最常用的条件生成方法。然而,这种方法本质上需要比无条件生成多出两倍的模型前向步骤,导致成本显著增加。虽然之前的研究引入了自适应指导的概念,但缺乏扎实的分析和实证结果,使得之前的方法无法应用于通用扩散模型。在这项工作中,我们提出了应用自适应指导的另一种视角,并提出了Step AG,这是一种简单且普遍适用的自适应指导策略。我们的评估重点在于图像质量和图像-文本对齐,其结果表明,将无分类器指导限制在前几个去噪步骤即可生成高质量、良好条件的图像,实现平均加速20%到30%。这种改进在不同设置(如推理步骤)以及各种模型(包括视频生成模型)中表现一致,突显了我们方法的优越性。 |
[21] MedMoE:用于医学视觉语言理解的模态专用专家混合模型 标题: MedMoE: Modality-Specialized Mixture of Experts for Medical Vision-Language Understanding 作者: Shivang Chopra / Lingchao Mao / Gabriela Sanchez-Rodriguez / Andrew J Feola / Jing Li / Zsolt Kira 原文: [英文] 备注: None 摘要: 不同的医学成像模式以不同的空间分辨率捕捉诊断信息,从粗略的全局模式到细致的局部结构。然而,大多数现有的医学领域视觉-语言框架在局部特征提取上采用统一策略,忽视了模式特定的需求。在这项工作中,我们提出了MedMoE,这是一种模块化且可扩展的视觉-语言处理框架,能够根据诊断上下文动态调整视觉表示。MedMoE结合了一个基于报告类型的专家混合(MoE)模块,该模块通过专门的专家分支路由多尺度图像特征,这些分支经过训练以捕捉模式特定的视觉语义。这些专家在从Swin Transformer骨干网络派生的特征金字塔上运行,使得对临床相关区域的空间自适应注意成为可能。该框架生成与文本描述对齐的局部化视觉表示,而在推理时不需要模式特定的监督。在各种医学基准上的实证结果表明,MedMoE提高了跨成像模式的对齐和检索性能,强调了在临床视觉-语言系统中模式专用视觉表示的价值。 |
[22] 使用双摄像头融合技术在手机上进行图像去摩尔纹 标题: Image Demoiréing Using Dual Camera Fusion on Mobile Phones 作者: Yanting Mei / Zhilu Zhang / Xiaohe Wu / Wangmeng Zuo 原文: [英文] 备注: ICME 2025 摘要: 在拍摄电子屏幕时,捕获的图像中通常会出现摩尔纹,这严重影响了图像质量。现有的图像去摩尔方法在去除大而重的摩尔纹方面面临巨大挑战。为了解决这个问题,我们提出利用双摄像头融合进行图像去摩尔(DCID),即使用超广角(UW)图像来辅助广角(W)图像的摩尔纹去除。这一方法受到两个动机的启发:(1)现代智能手机通常配备这两种镜头,(2)由于焦距不同,当W图像中存在摩尔纹时,UW图像通常可以提供正常的颜色和纹理。特别是,我们提出了一种高效的DCID方法,其中一个轻量级的UW图像编码器被集成到现有的去摩尔网络中,并且提出了一种快速的两阶段图像对齐方式。此外,我们构建了一个大规模的真实世界数据集,包含来自不同手机和显示器的约9,000个样本。数据集上的实验表明,我们的方法比最先进的方法表现更好。代码和数据集可在此https URL获取。 |
[23] SECOND:通过选择性和对比解码缓解视觉-语言模型中的感知幻觉 标题: SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding 作者: Woohyeon Park / Woojin Kim / Jaeik Kim / Jaeyoung Do 原文: [英文] 备注: None 摘要: 尽管视觉语言模型(VLMs)取得了显著进展,但现有VLMs的性能仍然受到对象幻觉的阻碍,这是实现准确视觉理解的一个关键挑战。为了解决这个问题,我们提出了SECOND:选择性和对比解码,这是一种新颖的方法,使VLMs能够以对象为中心的方式有效利用多尺度视觉信息,与人类视觉感知紧密对齐。SECOND逐步选择和整合多尺度视觉信息,促进对图像的更精确解释。通过迭代对比这些视觉信息,SECOND显著减少了感知幻觉,并在广泛的基准测试中表现优异。我们的理论分析和实验强调了多尺度应用在VLMs中尚未被充分探索的潜力,表明在不同尺度上进行优先排序和对比优于现有方法。 |
[24] RadioDUN:一种用于无线电图估计的物理启发深度展开网络 标题: RadioDUN: A Physics-Inspired Deep Unfolding Network for Radio Map Estimation 作者: Taiqin Chen / Zikun Zhou / Zheng Fang / Wenzhen Zou / Kanjun Liu / Ke Chen / Yongbing Zhang / Yaowei Wang 原文: [英文] 备注: None 摘要: 无线电图表示了一个区域内频谱资源的空间分布,支持高效的资源分配和干扰缓解。然而,由于在实际场景中只能测量有限数量的样本,构建密集的无线电图是困难的。虽然现有的工作使用深度学习从稀疏样本中估计密集的无线电图,但它们难以与无线电图的物理特性相结合。为了解决这一挑战,我们将无线电图估计视为稀疏信号恢复问题。进一步结合物理传播模型,将问题分解为多个因子优化子问题,从而降低恢复复杂性。受现有压缩感知方法的启发,我们提出了无线电深度展开网络(RadioDUN),以展开优化过程,实现自适应参数调整和先验拟合。为了考虑无线电传播特性,我们开发了一个动态重加权模块(DRM),以自适应地建模无线电图中每个因子的重要性。受物理传播模型中阴影因子的启发,我们整合了与障碍物相关的因子,以表达障碍物引起的信号随机衰减。进一步设计了阴影损失来约束因子预测,并作为补充的监督目标,从而增强了RadioDUN的性能。我们进行了大量实验,证明所提出的方法优于最先进的方法。我们的代码将在发表后公开。 |
[25] 更少数据更好推理:通过统一模态评分增强视觉语言模型 标题: Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring 作者: Mingjie Xu / Andrew Estornell / Hongzheng Yang / Yuzhi Zhao / Zhaowei Zhu / Qi Xuan / Jiaheng Wei 原文: [英文] 备注: None 摘要: 视觉指令微调和其他后训练技术的应用显著增强了大型语言模型(LLMs)在视觉理解方面的能力,通过更全面的视觉语言数据集丰富了视觉语言模型(VLMs)。然而,VLMs 的有效性高度依赖于大规模、高质量的数据集,以确保精确的识别和准确的推理。两个关键挑战阻碍了进展:(1)图像与相应文本之间的对齐噪声,导致误解;(2)模糊或误导性的文本,掩盖了视觉内容。为了解决这些挑战,我们提出了 SCALE(单模态数据质量和跨模态对齐评估),这是一种针对 VLM 指令微调数据集的新颖的质量驱动数据选择流程。具体来说,SCALE 集成了一个跨模态评估框架,该框架首先将每个数据条目分配到其适当的视觉语言任务,生成一般和任务特定的描述(涵盖场景、对象、风格等),并根据生成的描述评估每个条目的对齐、清晰度、任务稀有性、文本连贯性和图像清晰度。我们揭示:(1)当前的单模态质量评估方法在评估一种模态时忽略了其他模态,这可能低估了对特定任务至关重要的样本,并丢弃了有助于建立模型鲁棒性的低质量实例;(2)适当生成的图像描述提供了一种有效的方法,将图像-文本多模态任务转化为统一的文本模态。 |
[26] 通过自适应低通引导增强图像到视频模型的运动动态 标题: Enhancing Motion Dynamics of Image-to-Video Models via Adaptive Low-Pass Guidance 作者: June Suk Choi / Kyungmin Lee / Sihyun Yu / Yisol Choi / Jinwoo Shin / Kimin Lee 原文: [英文] 备注: Preprint. Under review. Project page available at this http URL 摘要: 最近的文本到视频(T2V)模型在生成高质量、动态视频方面表现出强大的能力。为了提高视觉可控性,最近的研究考虑微调预训练的T2V模型以支持图像到视频(I2V)生成。然而,这种适应性调整常常抑制生成输出的运动动态,导致生成的视频比其T2V对应物更静态。在这项工作中,我们分析了这一现象,并确定其源于输入图像过早暴露于高频细节,这使得采样过程偏向于一种捷径轨迹,过度拟合于参考图像的静态外观。为了解决这个问题,我们提出了自适应低通引导(ALG),这是对I2V模型采样过程的一个简单修正,以生成更具动态性的视频,同时不影响每帧的图像质量。具体来说,ALG通过在去噪的早期阶段应用低通滤波,自适应地调节条件图像的频率内容。大量实验表明,ALG显著改善了生成视频的时间动态,同时保持了图像保真度和文本对齐度。特别是在VBench-I2V测试套件中,ALG在动态程度上实现了平均36%的提升,而视频质量或图像保真度没有显著下降。 |
[27] MARMOT:用于瞬态成像建模的掩码自编码器 标题: MARMOT: Masked Autoencoder for Modeling Transient Imaging 作者: Siyuan Shen / Ziheng Wang / Xingyue Peng / Suan Xia / Ruiqian Li / Shiying Li / Jingyi Yu 原文: [英文] 备注: None 摘要: 预训练模型在语言和视觉等多种模态中展示了令人印象深刻的成功。最近的研究促进了成像研究中的预训练范式。瞬态是一种新颖的模态,通过精确时间分辨的传感器捕获物体的光子计数与到达时间。特别是在非视线(NLOS)场景中,隐藏物体的瞬态是在传感器的直接视线之外测量的。使用NLOS瞬态,以往的大多数工作通过优化体积密度或表面来重建隐藏物体,而没有从数据集中转移学习到的先验知识。在这项工作中,我们提出了一种用于瞬态成像建模的掩码自动编码器,简称MARMOT,以促进NLOS应用。我们的MARMOT是一种自监督模型,预训练于大量多样的NLOS瞬态数据集。使用基于Transformer的编码器-解码器,MARMOT通过扫描模式掩码(SPM)从部分掩码的瞬态中学习特征,其中未掩码的子集在功能上等同于任意采样,并预测完整的测量值。MARMOT在TransVerse上进行预训练——一个包含50万个3D模型的合成瞬态数据集——并通过直接特征转移或解码器微调适应下游成像任务。通过与最先进方法的比较进行的全面实验,定量和定性结果展示了我们MARMOT的效率。 |
[28] 上下文感知的TFL:用于时间伪造定位的通用上下文感知对比学习框架 标题: Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization 作者: Qilin Yin / Wei Lu / Xiangyang Luo / Xiaochun Cao 原文: [英文] 备注: None 摘要: 多媒体取证领域的大多数研究工作都集中在检测伪造的视听内容,并取得了显著的成果。然而,这些工作仅将深度伪造检测视为分类任务,忽略了视频中部分片段被篡改的情况。小型伪造视听片段嵌入真实视频的时间伪造定位(TFL)仍然具有挑战性,并且更符合现实应用场景。为了解决这个问题,我们提出了一种用于TFL的通用上下文感知对比学习框架(UniCaCLF)。我们的方法利用监督对比学习通过异常检测来发现和识别伪造瞬间,从而实现对时间伪造片段的精确定位。为此,我们提出了一种新颖的上下文感知感知层,该层利用异构激活操作和自适应上下文更新器来构建上下文感知对比目标,通过将伪造瞬间特征与真实瞬间特征在其与全局上下文的距离方面进行对比,增强伪造瞬间特征的可辨识性。引入了一种高效的上下文感知对比编码,以进一步推动真实和伪造瞬间之间瞬间特征可辨识性的极限,以监督的逐样本方式抑制跨样本影响,从而提高时间伪造定位性能。对五个公共数据集的广泛实验结果表明,我们提出的UniCaCLF显著优于最先进的竞争算法。 |
[29] MLVTG:基于Mamba的特征对齐和由大型语言模型驱动的多模态视频时间定位净化 标题: MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding 作者: Zhiyi Zhu / Xiaoyu Wu / Zihao Liu / Linlin Yang 原文: [英文] 备注: None 摘要: 视频时间定位(VTG)旨在根据自然语言查询定位相应的视频片段,是视频理解中一个基础但具有挑战性的任务。现有的基于Transformer的方法通常存在冗余注意力和次优的多模态对齐问题。为了解决这些问题,我们提出了MLVTG,一个整合了两个关键模块的新框架:MambaAligner和LLMRefiner。MambaAligner使用堆叠的Vision Mamba块作为主干,而不是Transformers,以建模时间依赖性并提取稳健的视频表示用于多模态对齐。LLMRefiner利用预训练大型语言模型(LLM)的特定冻结层来隐式传递语义先验,在不进行微调的情况下增强多模态对齐。这种双重对齐策略,通过结构化状态空间动态进行时间建模和通过文本先验进行语义净化,实现了更精确的定位。在QVHighlights、Charades-STA和TVSum上的大量实验表明,MLVTG达到了最先进的性能,并显著优于现有的基线。 |
[30] 通过语义引导的多尺度变换器实现鲁棒视觉定位 标题: Robust Visual Localization via Semantic-Guided Multi-Scale Transformer 作者: Zhongtao Tian / Wenhao Huang / Zhidong Chen / Xiao Wei Sun 原文: [英文] 备注: None 摘要: 在动态环境中,视觉定位仍然具有挑战性,因为变化的光照、不利的天气和移动的物体会干扰外观线索。尽管特征表示取得了进展,但当前的绝对位姿回归方法在不同条件下仍难以保持一致性。为了解决这一挑战,我们提出了一个框架,将多尺度特征学习与语义场景理解相结合。我们的方法采用具有跨尺度注意力的分层Transformer,以融合几何细节和上下文线索,在适应环境变化的同时保持空间精度。通过在训练期间通过神经场景表示进行语义监督,我们提高了该架构的性能,引导网络学习视图不变特征,这些特征编码持久的结构信息,同时抑制复杂的环境干扰。在TartanAir上的实验表明,我们的方法在具有动态物体、光照变化和遮挡的挑战性场景中优于现有的位姿回归方法。我们的研究结果表明,将多尺度处理与语义指导相结合,为在真实世界动态环境中实现稳健的视觉定位提供了一种有前途的策略。 |
[31] LiftVSR:通过混合时间建模将图像扩散提升到视频超分辨率,仅需4$\times$RTX 4090 标题: LiftVSR: Lifting Image Diffusion to Video Super-Resolution via Hybrid Temporal Modeling with Only 4$\times$RTX 4090s 作者: Xijun Wang / Xin Li / Bingchen Li / Zhibo Chen 原文: [英文] 备注: Project page: this https URL 摘要: 扩散模型通过精心设计的时间建模显著提升了视频超分辨率(VSR)的感知质量,以确保帧间一致性。然而,现有方法通常面临时间连贯性有限和计算成本过高的问题(例如,通常需要超过8个NVIDIA A100-80G GPU),尤其是在处理长视频时。在这项工作中,我们提出了LiftVSR,这是一种高效的VSR框架,通过利用和提升来自PixArt-$\alpha$的图像扩散先验,仅使用4个RTX 4090 GPU就实现了最先进的结果。为了平衡长期一致性和效率,我们引入了一种混合时间建模机制,将时间学习分解为两个互补的组件:(i)动态时间注意力(DTA),用于在短帧段内进行细粒度的时间建模(即低复杂度),以及(ii)注意力记忆缓存(AMC),用于跨段的长期时间建模(即一致性)。具体来说,DTA在多头查询和关键令牌中识别跨帧的多个令牌流,以在值令牌中扭曲帧间上下文。AMC通过缓存单元自适应地聚合历史段信息,以最小的开销确保长期连贯性。为了在推理过程中进一步稳定缓存交互,我们引入了一种不对称采样策略,以减轻由不同扩散采样步骤引起的特征不匹配。在几个典型的VSR基准测试上进行的大量实验表明,LiftVSR在显著降低计算成本的同时实现了令人印象深刻的性能。 |
[32] TrajFlow:通过流匹配进行多模态运动预测 标题: TrajFlow: Multi-modal Motion Prediction via Flow Matching 作者: Qi Yan / Brian Zhang / Yutong Zhang / Daniel Yang / Joshua White / Di Chen / Jiachao Liu / Langechuan Liu / Binnan Zhuang / Shaoshuai Shi / Renjie Liao 原文: [英文] 备注: None 摘要: 高效且准确的运动预测对于确保自动驾驶中的安全性和知情决策至关重要,特别是在需要多模态预测的动态真实世界条件下。我们介绍了TrajFlow,这是一种新颖的基于流匹配的运动预测框架,解决了现有生成轨迹预测方法的可扩展性和效率挑战。与传统的生成方法使用独立同分布采样并需要多次推理以捕捉多样化结果不同,TrajFlow在单次推理中预测多个可能的未来轨迹,显著减少了计算开销,同时保持预测之间的一致性。此外,我们提出了一种基于Plackett-Luce分布的排序损失,以改善预测轨迹的不确定性估计。此外,我们设计了一种自我调节训练技术,在第二次前向传递中重用模型自身的预测来构建噪声输入,从而提高泛化能力并加速推理。在大规模Waymo开放运动数据集(WOMD)上的大量实验表明,TrajFlow在各种关键指标上实现了最先进的性能,强调了其在安全关键自动驾驶应用中的有效性。代码和其他详细信息可在项目网站上获取。 |
[33] 谱主路径的收敛性:深度网络如何从噪声输入中提炼线性表示 标题: Convergence of Spectral Principal Paths: How Deep Networks Distill Linear Representations from Noisy Inputs 作者: Bowei Tian / Xuntao Lyu / Meng Liu / Hongyi Wang / Ang Li 原文: [英文] 备注: arXiv admin note: text overlap with arXiv:2503.22720 摘要: 高层次表示已经成为增强人工智能透明性和控制的核心焦点,研究重心从单个神经元或电路转向与人类可解释概念对齐的结构化语义方向。受线性表示假设(LRH)的启发,我们提出了输入空间线性假设(ISLH),该假设认为概念对齐方向起源于输入空间,并随着深度的增加被选择性放大。然后,我们引入了谱主路径(SPP)框架,该框架形式化地描述了深度网络如何沿着一小组主导谱方向逐步提炼线性表示。在此框架的基础上,我们进一步展示了这些表示在视觉-语言模型(VLMs)中的多模态鲁棒性。通过将理论见解与实证验证相结合,这项工作推进了深度网络中表示形成的结构化理论,为提高人工智能的鲁棒性、公平性和透明性铺平了道路。 |
[34] 从像素到图:在HD-EPIC VQA挑战中使用场景图和知识图 标题: From Pixels to Graphs: using Scene and Knowledge Graphs for HD-EPIC VQA Challenge 作者: Agnese Taluzzi / Davide Gesualdi / Riccardo Santambrogio / Chiara Plizzari / Francesca Palermo / Simone Mentasti / Matteo Matteucci 原文: [英文] 备注: Technical report for the HD-EPIC VQA Challenge 2025 (1st place) 摘要: 本报告介绍了我们为 HD-EPIC VQA 挑战赛 2025 开发的 SceneNet 和 KnowledgeNet 方法。SceneNet 利用多模态大型语言模型(MLLM)生成的场景图来捕捉细粒度的对象交互、空间关系和时间上有依据的事件。同时,KnowledgeNet 结合了 ConceptNet 的外部常识知识,引入了实体之间的高级语义连接,从而实现超越直接可观察视觉证据的推理。每种方法在 HD-EPIC 基准的七个类别中展示了各自的独特优势,并且在我们的框架中结合使用时,在挑战赛中取得了 44.21% 的总体准确率,突显了其在复杂的自我中心 VQA 任务中的有效性。 |
[35] 通过双分支对抗特征解缠实现跨主体肌电图模式识别 标题: Towards Cross-Subject EMG Pattern Recognition via Dual-Branch Adversarial Feature Disentanglement 作者: Xinyue Niu / Akira Furui 原文: [英文] 备注: 6 pages, 3 figures. This work has been accepted for presentation at the IEEE Engineering in Medicine and Biology Conference (EMBC) 2025 摘要: 跨个体肌电图(EMG)模式识别由于肌肉解剖结构、电极放置和信号特征的个体间差异而面临重大挑战。传统方法依赖于个体特定的校准数据来使模型适应新用户,这种方法既耗时又不适合大规模、现实世界的应用。本文提出了一种通过特征解缠来消除校准需求的方法,从而实现有效的跨个体泛化。我们提出了一种端到端的双分支对抗神经网络,该网络通过将EMG特征解缠为模式特定和个体特定的成分,同时执行模式识别和个体识别。模式特定的成分促进了对新用户的稳健模式识别,而无需模型校准,而个体特定的成分则支持下游应用,如任务不变的生物识别。实验结果表明,所提出的模型在未见过的用户数据上实现了稳健的性能,在跨个体场景中优于各种基线方法。总体而言,本研究为无需模型校准的跨个体EMG模式识别提供了新的视角,并突出了所提出模型在更广泛应用中的潜力,如任务独立的生物识别系统。 |
[36] 用于类增量目标检测的分层神经崩溃检测转换器 标题: Hierarchical Neural Collapse Detection Transformer for Class Incremental Object Detection 作者: Duc Thanh Pham / Hong Dang Nguyen / Nhat Minh Nguyen Quoc / Linh Ngo Van / Sang Dinh Viet / Duc Anh Nguyen 原文: [英文] 备注: None 摘要: 最近,目标检测模型,特别是基于transformer的模型,取得了显著的性能提升。然而,现实世界中经常会出现新的目标,这要求检测模型能够持续学习而不遭受灾难性遗忘。尽管增量目标检测(IOD)已经出现以应对这一挑战,但现有的这些模型由于其有限的性能和较长的推理时间,仍然不够实用。在本文中,我们介绍了一种新的IOD框架,称为Hier-DETR:分层神经坍塌检测Transformer。该框架通过利用不平衡数据集的神经坍塌和类别标签的分层关系,确保了效率和竞争力的性能。 |
[37] 生成视觉-语言导航指令结合细粒度对齐注释 标题: Generating Vision-Language Navigation Instructions Incorporated Fine-Grained Alignment Annotations 作者: Yibo Cui / Liang Xie / Yu Zhao / Jiawei Sun / Erwei Yin 原文: [英文] 备注: None 摘要: 视觉-语言导航(VLN)使智能代理能够通过整合视觉感知和自然语言指令来导航环境,但由于缺乏细粒度的跨模态对齐标注而面临重大挑战。现有数据集主要关注全局指令-轨迹匹配,忽视了对准确导航动作决策至关重要的子指令级和实体级对齐。为了解决这一限制,我们提出了FCA-NIG,一个自动构建具有双层细粒度跨模态标注的导航指令的生成框架。在该框架中,首先将增强的轨迹分为子轨迹,然后通过基于GLIP的地标检测、精心设计的指令构建、基于OFA-Speaker的类似R2R指令生成以及CLIP驱动的实体选择进行处理,生成带有实体-地标标注的子指令-轨迹对。最后,这些子对被聚合形成完整的指令-轨迹对。该框架生成了FCA-R2R数据集,这是第一个大规模增强数据集,具有精确的子指令-子轨迹和实体-地标对齐。大量实验表明,使用FCA-R2R进行训练显著提高了多个最先进的VLN代理的性能,包括SF、EnvDrop、RecBERT和HAMT。结合子指令-轨迹对齐增强了代理的状态意识和决策准确性,而实体-地标对齐进一步提升了导航性能和泛化能力。这些结果突显了FCA-NIG在生成高质量、可扩展的训练数据方面的有效性,无需人工标注,推进了复杂导航任务中的细粒度跨模态学习。 |
[38] 多样性引导的MLP缩减用于高效的大型视觉Transformer 标题: Diversity-Guided MLP Reduction for Efficient Large Vision Transformers 作者: Chengchao Shen / Hourun Zhu / Gongfan Fang / Jianxin Wang / Xinchao Wang 原文: [英文] 备注: None 摘要: Transformer模型具有出色的扩展性能,随着模型容量的增加,性能也随之提升。然而,大规模的模型参数导致计算和内存成本难以承受。我们分析了流行的Transformer架构,发现多层感知机(MLP)模块占据了大部分的模型参数。为此,我们专注于压缩模型的可恢复性,并提出了一种多样性引导的MLP缩减(DGMR)方法,以显著减少大型视觉Transformer的参数,同时性能几乎没有下降。具体来说,我们采用Gram-Schmidt权重剪枝策略来消除MLP隐藏层的冗余神经元,同时保留权重多样性,以便在蒸馏过程中更好地恢复性能。与从头训练的模型相比,我们的剪枝模型只需要LAION-2B的0.06%数据(用于训练大型视觉Transformer)且无需标签(ImageNet-1K)即可恢复原始性能。在几种最先进的大型视觉Transformer上的实验结果表明,我们的方法在几乎无损的情况下实现了超过57.0%的参数和FLOPs减少。值得注意的是,对于EVA-CLIP-E(4.4B),我们的方法在不降低性能的情况下实现了71.5%的参数和FLOPs减少。源代码和训练好的权重可在此https URL获取。 |
[39] 变压器遇上高光谱成像:模型、挑战与开放问题的综合研究 标题: Transformers Meet Hyperspectral Imaging: A Comprehensive Study of Models, Challenges and Open Problems 作者: Guyang Zhang / Waleed Abdulla 原文: [英文] 备注: None 摘要: Transformer已经成为学习长程依赖关系的首选架构,但其在高光谱成像(HSI)中的应用仍在兴起。我们审阅了截至2025年发表的300多篇论文,并呈现了首个专注于基于Transformer的HSI分类的端到端综述。该研究对典型流程的每个阶段进行了分类,包括预处理、补丁或像素标记化、位置编码、空间-光谱特征提取、多头自注意力变体、跳跃连接和损失设计,并将不同的设计选择与HSI的独特空间-光谱特性进行对比。我们将该领域的进展与持续存在的障碍进行对比:稀缺的标记数据、极端的光谱维度、计算开销和有限的模型可解释性。最后,我们概述了一项研究议程,优先考虑有价值的公共数据集、轻量级边缘模型、光照和传感器变化的鲁棒性,以及本质上可解释的注意力机制。我们的目标是指导研究人员选择、组合或扩展真正适合下一代HSI应用的Transformer组件。 |
[40] 通过反偏差软标签蒸馏实现面向类别公平的对抗训练 标题: Towards Class-wise Fair Adversarial Training via Anti-Bias Soft Label Distillation 作者: Shiji Zhao / Chi Chen / Ranjie Duan / Xizhe Wang / Xingxing Wei 原文: [英文] 备注: arXiv admin note: text overlap with arXiv:2312.05508 摘要: 对抗训练(Adversarial Training, AT)被广泛认为是增强深度神经网络对抗鲁棒性的一种有效方法。作为AT的一种变体,对抗鲁棒性蒸馏(Adversarial Robustness Distillation, ARD)在增强小模型的鲁棒性方面表现出色。然而,AT和ARD都面临鲁棒性公平性问题:这些模型往往对某些类别(简单类别)表现出强的对抗鲁棒性,而对其他类别(困难类别)则表现出弱的对抗鲁棒性。本文探讨了这一问题的潜在因素,并指出不同类别的软标签的平滑度显著影响鲁棒性公平性,这一点从经验观察和理论分析中得到了验证。基于上述探索,我们在知识蒸馏框架内提出了反偏差软标签蒸馏(Anti-Bias Soft Label Distillation, ABSLD)以增强对抗鲁棒性公平性。具体而言,ABSLD通过在训练过程中调整教师软标签的类别平滑度,适应性地减少学生在不同类别之间的错误风险差距,这一调整通过为不同类别分配不同的温度来实现。此外,作为一种基于标签的方法,ABSLD具有高度的适应性,可以与基于样本的方法结合。大量实验表明,ABSLD在鲁棒性和公平性的综合性能上优于最先进的方法。 |
[41] 视觉归纳先验中的数据高效性挑战:回顾 标题: Data-Efficient Challenges in Visual Inductive Priors: A Retrospective 作者: Robert-Jan Bruintjes / Attila Lengyel / Osman Semih Kayhan / Davide Zambrano / Nergis Tömen / Hadi Jamali-Rad / Jan van Gemert 原文: [英文] 备注: None 摘要: 深度学习需要大量的数据来训练效果良好的模型。在数据不足的情况下,性能可能会下降。我们通过组织“VIPriors:数据高效深度学习的视觉归纳先验”研讨会系列,研究哪些深度学习方法在数据不足的情况下有助于训练模型,该系列包括四届数据受限挑战赛。这些挑战赛解决了在有限数据下为计算机视觉任务训练深度学习模型的问题。参与者仅限于使用少量训练样本从头开始训练模型,并且不允许使用任何形式的迁移学习。我们的目标是激发新方法的发展,这些方法结合了先验知识以提高深度学习模型的数据效率。成功的挑战参赛作品利用了混合变压器和卷积神经网络的大型模型集成,以及大量的数据增强。基于新颖先验知识的方法在一些参赛作品中对成功有所贡献。 |
[42] SAMSelect:一种使用Segment Anything进行海洋垃圾可视化的光谱指数搜索 标题: SAMSelect: A Spectral Index Search for Marine Debris Visualization using Segment Anything 作者: Joost van Dalen / Yuki M. Asano / Marc Russwurm 原文: [英文] 备注: None 摘要: 本研究提出了SAMSelect,一种用于获取多光谱图像显著三通道可视化的算法。我们开发了SAMSelect,并展示了其在海洋科学家视觉解读Sentinel-2图像中漂浮海洋垃圾时的应用。这些垃圾由于其在中等分辨率图像中的成分异质性而难以可视化。尽管存在这些困难,领域专家仍常常通过视觉解读图像来识别海洋垃圾,他们根据常见做法和启发法逐案选择波段和光谱指数。SAMSelect通过“Segment Anything Model”选择在一个小型标注数据集上实现最佳分类准确性的波段或指数组合。其核心假设是,三通道可视化在实现最准确的分割结果的同时,也为照片解读提供了良好的视觉信息。 我们在包含加纳阿克拉和南非德班的通用海洋垃圾的三幅Sentinel-2场景中,以及来自塑料垃圾项目的部署塑料目标中评估了SAMSelect。这揭示了以前未使用过的新波段组合的潜力(例如,B8和B2的归一化差异指数),这些组合显示出比基于文献的指数更好的性能。我们在本文中描述了该算法,并提供了一个开源代码库,这将对从事视觉照片解读的领域科学家,特别是在海洋领域的科学家有所帮助。 |
[43] 一种用于神经隐式表面渲染的概率引导采样器 标题: A Probability-guided Sampler for Neural Implicit Surface Rendering 作者: Gonçalo Dias Pais / Valter Piedade / Moitreya Chatterjee / Marcus Greiff / Pedro Miraldo 原文: [英文] 备注: Accepted in ECCV 2024 摘要: 神经辐射场(NeRFs)的多个变体显著提高了合成图像的准确性和3D场景/物体的表面重建。在所有这些方法中,一个关键特征是由于可扩展性问题,没有一种方法可以用所有可能的输入数据来训练神经网络,特别是每个像素和投影射线上的潜在3D点。虽然原始的NeRFs在投影射线上均匀采样图像像素和3D点,但一些变体仅专注于引导投影射线上3D点的采样。在本文中,我们利用前景场景的隐式表面表示,并在3D图像投影空间中建模一个概率密度函数,以实现对感兴趣区域的射线进行更有针对性的采样,从而改进渲染。此外,提出了一种新的表面重建损失以提高性能。这个新的损失充分探索了所提出的3D图像投影空间模型,并结合了近表面和空白空间的成分。通过将我们新颖的采样策略和新颖的损失整合到当前最先进的神经隐式表面渲染器中,我们实现了更准确和详细的3D重建和改进的图像渲染,特别是对于任何给定场景中的感兴趣区域。 |
[44] ECMNet:基于高效CNN-Mamba网络的轻量级语义分割 标题: ECMNet:Lightweight Semantic Segmentation with Efficient CNN-Mamba Network 作者: Feixiang Du / Shengkun Wu 原文: [英文] 备注: 16 pages, 2 figures, 4 tables 摘要: 在过去的十年中,卷积神经网络(CNNs)和Transformer在语义分割任务中得到了广泛应用。尽管结合Transformer的CNN模型大大提高了性能,但全局上下文建模仍然不足。最近,Mamba在视觉任务中展现了巨大的潜力,显示了其在建模长距离依赖方面的优势。在本文中,我们提出了一种轻量级的高效CNN-Mamba网络用于语义分割,称为ECMNet。ECMNet巧妙地在一个基于胶囊的框架中结合了CNN和Mamba,以解决它们的互补弱点。具体来说,我们设计了一个增强双注意力块(EDAB)用于轻量级瓶颈。为了提高特征的表示能力,我们设计了一个多尺度注意力单元(MSAU)来整合多尺度特征聚合、空间聚合和通道聚合。此外,一个Mamba增强的特征融合模块(FFM)融合了不同层次的特征,显著提高了分割精度。在两个具有代表性的数据集上的大量实验表明,所提出的模型在准确性和效率平衡方面表现出色,在Cityscapes测试数据集上实现了70.6%的mIoU,在CamVid测试数据集上实现了73.6%的mIoU,使用单个RTX 3090 GPU平台时参数量为0.87M,FLOPs为8.27G。 |
[45] RoboSwap:一种基于生成对抗网络的视频扩散框架,用于无监督机器人手臂交换 标题: RoboSwap: A GAN-driven Video Diffusion Framework For Unsupervised Robot Arm Swapping 作者: Yang Bai / Liudi Yang / George Eskandar / Fengyi Shen / Dong Chen / Mohammad Altillawi / Ziyuan Liu / Gitta Kutyniok 原文: [英文] 备注: None 摘要: 最近生成模型的进步已经彻底改变了视频合成和编辑。然而,多样化、高质量数据集的稀缺仍然阻碍了视频条件下的机器人学习,限制了跨平台的泛化能力。在这项工作中,我们解决了在一个视频中交换机器人手臂与另一个手臂的挑战:这是跨实体学习的关键步骤。与之前依赖于相同环境设置下的配对视频演示的方法不同,我们提出的框架RoboSwap在来自不同环境的未配对数据上运行,减轻了数据收集的需求。RoboSwap引入了一种新的视频编辑流程,结合了GAN和扩散模型,结合了它们各自的优势。具体来说,我们将机器人手臂从背景中分割出来,并训练一个未配对的GAN模型,将一个机器人手臂转换为另一个。转换后的手臂与原始视频背景融合,并通过扩散模型进行细化,以增强连贯性、运动真实感和物体交互。GAN和扩散阶段是独立训练的。我们的实验表明,RoboSwap在结构连贯性和运动一致性方面优于三个基准上的最新视频和图像编辑模型,从而为机器人学习中生成可靠的跨实体数据提供了一个强大的解决方案。 |
[46] SurfR: 基于多尺度注意力的表面重建 标题: SurfR: Surface Reconstruction with Multi-scale Attention 作者: Siddhant Ranade / Gonçalo Dias Pais / Ross Tyler Whitaker / Jacinto C. Nascimento / Pedro Miraldo / Srikumar Ramalingam 原文: [英文] 备注: Accepted in 3DV 2025 摘要: 我们提出了一种快速且准确的表面重建算法,用于使用隐式表示的无序点云。最近的学习方法要么是单对象表示,使用小型神经模型,允许高表面细节但需要针对每个对象进行训练;要么是通用表示,需要更大的模型,能够推广到新的形状但缺乏细节,并且推理速度较慢。我们提出了一种新的通用3D形状隐式表示,其速度在最佳分辨率下比所有基线方法都快,而性能损失仅为边际,与最先进的方法相比。我们通过三个关键贡献实现了最佳的准确性-速度权衡。许多隐式方法从点云中提取特征,以分类查询点是否在对象内部或外部。首先,为了加快重建速度,我们表明在早期阶段(惰性查询)不需要使用查询点进行特征提取。其次,我们使用并行多尺度网格表示来开发适用于不同噪声水平和输入分辨率的鲁棒特征。最后,我们表明跨尺度的注意力机制可以提供更好的重建结果。 |
[47] 方向很重要:使3D生成模型方向对齐 标题: Orientation Matters: Making 3D Generative Models Orientation-Aligned 作者: Yichong Lu / Yuzhuo Tian / Zijin Jiang / Yikun Zhao / Yuanbo Yang / Hao Ouyang / Haoji Hu / Huimin Yu / Yujun Shen / Yiyi Liao 原文: [英文] 备注: Project Page: this https URL 摘要: 人类能够直观地从单张图像中感知物体的形状和方向,这种能力受到关于标准姿态的强烈先验知识的指导。然而,现有的3D生成模型由于训练数据不一致,往往会产生未对齐的结果,从而限制了它们在下游任务中的可用性。为了解决这一问题,我们引入了方向对齐的3D物体生成任务:从单张图像生成具有跨类别一致方向的3D物体。为此,我们构建了Objaverse-OA,一个包含14,832个方向对齐的3D模型的数据集,涵盖1,008个类别。利用Objaverse-OA,我们对基于多视图扩散和3D变分自编码器框架的两个代表性3D生成模型进行微调,以生成对齐的物体,这些物体能够很好地泛化到各种类别的未见物体。实验结果表明,我们的方法优于事后对齐方法。此外,我们展示了通过对齐物体生成所实现的下游应用,包括通过分析合成进行零样本物体方向估计和高效的基于箭头的物体旋转操作。 |
[48] 通过文本-运动跨模态对比损失增强视频记忆性预测及其在视频摘要中的应用 标题: Enhancing Video Memorability Prediction with Text-Motion Cross-modal Contrastive Loss and Its Application in Video Summarization 作者: Zhiyi Zhu / Xiaoyu Wu / Youwei Lu 原文: [英文] 备注: None 摘要: 视频记忆性指的是视频在观看后被回忆起的能力,在创造令人难忘的内容中起着至关重要的作用。现有的模型通常专注于提取多模态特征来预测视频记忆性分数,但往往未能充分利用运动线索。在运动特征提取器的微调阶段,由于缺乏标记数据,运动特征的表示受到了影响。在本文中,我们引入了文本-运动跨模态对比损失(TMCCL),这是一种多模态视频记忆性预测模型,旨在增强运动特征的表示。我们通过利用视频间文本描述的相似性来为给定目标建立正负运动样本集,从而解决了改善运动特征表示的挑战。这一增强使得模型能够为语义相关的运动内容学习相似的特征表示,从而实现更准确的记忆性预测。我们的模型在两个视频记忆性预测数据集上达到了最先进的性能。此外,视频记忆性预测的潜在应用尚未得到充分探索。为了解决这一空白,我们提出了用于视频摘要的记忆性加权校正(MWCVS),利用视频记忆性预测来减少视频摘要标签中的主观性。在两个视频摘要数据集上的实验结果证明了MWCVS的有效性,展示了视频记忆性预测的有前景的应用。 |
[49] 超越校准:用于原始数据到原始数据映射的物理信息学习 标题: Beyond Calibration: Physically Informed Learning for Raw-to-Raw Mapping 作者: Peter Grönquist / Stepan Tulyakov / Dengxin Dai 原文: [英文] 备注: None 摘要: 在现代设备中,实现多摄像头之间的一致色彩再现对于无缝图像融合和图像处理管道(ISP)的兼容性至关重要,但由于传感器和光学器件的差异,这是一项具有挑战性的任务。现有的原始图像转换方法面临诸如对变化的光照适应性差、高计算成本或不切实际的要求(如同时操作摄像头和重叠视场)等限制。我们引入了神经物理模型(NPM),这是一种轻量级的、基于物理的方式,可以在指定的光照条件下模拟原始图像,以估计设备之间的转换。NPM能够有效适应不同的光照条件,可以通过物理测量进行初始化,并支持有或无配对数据的训练。在NUS和BeyondRGB等公共数据集上的实验表明,NPM优于最近的先进方法,能够在不同的传感器和光学系统之间提供稳健的色彩一致性。 |
[50] LLaVA-c:持续改进的视觉指令微调 标题: LLaVA-c: Continual Improved Visual Instruction Tuning 作者: Wenzhuo Liu / Fei Zhu / Haiyang Guo / Longhui Wei / Cheng-Lin Liu 原文: [英文] 备注: None 摘要: 像 LLaVA-1.5 这样的多模态模型通过在多任务数据集上进行视觉指令微调,实现了最先进的视觉理解能力,从而具备了强大的指令跟随和多模态性能。然而,多任务学习面临着诸如任务平衡等挑战,需要仔细调整数据比例,以及扩展成本问题,其中新任务可能导致灾难性遗忘并需要昂贵的重新训练。持续学习提供了一种有前途的替代方案,可以在保留现有能力的同时逐步获取新知识。然而,当前的方法优先考虑任务特定的性能,忽视了由于对特定指令的过拟合而导致的基础模型退化,这削弱了模型的通用能力。在这项工作中,我们提出了一种简单但有效的方法,对 LLaVA-1.5 进行了两项修改:频谱感知巩固以改善任务平衡,以及无监督查询正则化以防止基础模型退化。我们在持续预训练和微调过程中评估了通用和任务特定的性能。实验表明,LLaVA-c 一贯提升了标准基准性能并保留了通用能力。我们首次展示了逐任务的持续学习可以实现与多任务联合学习相匹配或超越的结果。代码将公开发布。 |
[51] ATAS:用于增强开放词汇密集预测的任意到任意自蒸馏 标题: ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction 作者: Juan Yeo / Soonwoo Cha / Jiwoo Song / Hyunbin Jin / Taesup Kim 原文: [英文] 备注: None 摘要: 诸如 CLIP 之类的视觉-语言模型最近通过支持识别广泛的视觉概念,推动了开放词汇密集预测任务的发展。然而,CLIP 在细粒度的区域级理解上仍然存在困难,这限制了其在这些密集预测任务中的有效性。我们确定了解决这一限制所需的两个关键因素:语义一致性和细粒度的视觉-语言对齐。当前的适应方法通常在提高细粒度对齐的同时牺牲了语义一致性,并且往往依赖于额外的模块或有监督的微调。为了解决这些问题,我们提出了任意到任意自蒸馏(ATAS),这是一种新颖的方法,通过利用模型在所有表示层次上的自身知识,同时增强语义一致性和细粒度对齐。与之前的方法不同,ATAS 仅使用未标记的图像和内部自蒸馏过程来优化 CLIP 视觉编码器的表示,保持局部语义一致性的同时增强局部细节识别。在开放词汇目标检测和语义分割基准测试中,ATAS 实现了显著的性能提升,优于基线 CLIP 模型。这些结果验证了我们方法的有效性,并强调了在高级开放词汇密集预测中共同维护语义一致性和细粒度对齐的重要性。 |
[52] CanadaFireSat:利用多种模式实现高分辨率野火预测 标题: CanadaFireSat: Toward high-resolution wildfire forecasting with multiple modalities 作者: Hugo Porta / Emanuele Dalsasso / Jessica L. McCarty / Devis Tuia 原文: [英文] 备注: 34 pages, 11 figures 摘要: 2023年,加拿大经历了近年来最严重的野火季之一,对生态系统造成了破坏,摧毁了社区,并排放了大量的二氧化碳。这一极端的野火季节是气候变化导致的火灾季节长度和严重性增加的一个症状,影响了北方生态系统。因此,为北方社区的野火管理提供更好的缓解方案至关重要。野火概率图是理解野火发生可能性和未来野火潜在严重性的重要工具。地球观测数据的巨大增加使得基于深度学习的野火预测模型得以发展,旨在提供不同空间和时间尺度上的精确野火概率图。这些方法的一个主要限制是依赖于低分辨率的环境驱动因素和卫星产品,导致野火发生预测的分辨率较低,通常约为0.1°。本文介绍了一个基准数据集:CanadaFireSat,以及用于全加拿大高分辨率(100米)野火预测的基线方法,利用来自高分辨率多光谱卫星图像(Sentinel-2 L1C)、中分辨率卫星产品(MODIS)和环境因素(ERA5再分析数据)的多模态数据。我们的实验考虑了两种主要的深度学习架构。我们观察到,使用多模态时间输入在所有指标上都优于单模态时间输入,在2023年野火季节的F1得分中达到60.3%的峰值表现,而这一季节在模型训练期间从未见过。这表明多模态深度学习模型在高分辨率和大陆尺度上的野火预测潜力。 |
[53] VReST:通过树搜索和自我奖励机制增强大型视觉语言模型的推理能力 标题: VReST: Enhancing Reasoning in Large Vision-Language Models through Tree Search and Self-Reward Mechanism 作者: Congzhi Zhang / Jiawei Peng / Zhenglin Wang / Yilong Lai / Haowen Sun / Heng Chang / Fei Ma / Weijiang Yu 原文: [英文] 备注: Accepted by ACL 2025 main 摘要: 大型视觉语言模型(LVLMs)在多模态任务中表现出色,但在复杂视觉推理方面的效果仍然有限,尤其是在使用链式思维提示技术时。在本文中,我们提出了一种名为VReST的新颖无训练方法,通过蒙特卡罗树搜索和自我奖励机制增强LVLMs的推理能力。VReST通过建立搜索树来细致地遍历推理过程,其中每个节点代表一个推理步骤,每条路径描绘出一个完整的推理序列。我们创新的多模态自我奖励机制通过整合子问题的效用、答案的正确性以及视觉语言线索的相关性来评估推理步骤的质量,且无需额外的模型。VReST超越了当前的提示方法,并在三个多模态数学推理基准上取得了最先进的性能。此外,它证实了测试时扩展法则在多模态任务中的有效性,为未来研究提供了一个有前景的方向。 |
[54] MoSiC:用于密集自监督学习的最优传输运动轨迹 标题: MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning 作者: Mohammadreza Salehi / Shashanka Venkataramanan / Ioana Simion / Efstratios Gavves / Cees G. M. Snoek / Yuki M Asano 原文: [英文] 备注: preprint 摘要: 密集的自监督学习在学习像素和补丁级别的表示方面显示出巨大潜力,但由于运动动态的复杂性,将其扩展到视频仍然具有挑战性。现有的方法依赖于静态增强,在对象变形、遮挡和相机移动的情况下会失效,导致随时间变化的不一致特征学习。我们提出了一种运动引导的自监督学习框架,通过聚类密集的点轨迹来学习时空一致的表示。通过利用现成的点跟踪器,我们提取长距离运动轨迹,并通过基于动量编码器的最优传输机制优化特征聚类。为了确保时间上的连贯性,我们沿着跟踪的点传播聚类分配,尽管视点变化,仍然强制特征在不同视图之间保持一致。通过将运动作为隐式监督信号集成,我们的方法学习的表示能够跨帧泛化,提高了在动态场景和具有挑战性的遮挡场景中的鲁棒性。通过从强大的图像预训练模型初始化并利用视频数据进行训练,我们在六个图像和视频数据集以及四个评估基准上将最新技术水平提高了1%到6%。实现代码在我们的GitHub仓库公开可用:this https URL |
[55] ArrowPose:用于无色点云的分割、检测和五自由度姿态估计网络 标题: ArrowPose: Segmentation, Detection, and 5 DoF Pose Estimation Network for Colorless Point Clouds 作者: Frederik Hagelskjaer 原文: [英文] 备注: 6 pages, 5 figures, 4 tables 摘要: 本文提出了一种用于无色点云的快速检测和5自由度(DoF)姿态估计网络。姿态估计是通过神经网络预测的物体中心和顶部点计算得出的。该网络在合成数据上进行训练,并在一个基准数据集上进行测试,展示了最先进的性能,并优于所有无色方法。该网络能够在仅250毫秒内运行推理,使其在许多场景中可用。项目页面和代码可在此HTTP URL找到。 |
[56] TraGraph-GS:基于轨迹图的高斯喷溅用于任意大规模场景渲染 标题: TraGraph-GS: Trajectory Graph-based Gaussian Splatting for Arbitrary Large-Scale Scene Rendering 作者: Xiaohan Zhang / Sitong Wang / Yushen Yan / Yi Yang / Mingda Xu / Qi Liu 原文: [英文] 备注: None 摘要: 大规模场景的高质量新视图合成在3D计算机视觉中呈现出一个具有挑战性的难题。现有方法通常将大场景划分为多个区域,为每个区域使用高斯喷溅重建3D表示,最终合并它们以进行新视图渲染。虽然这些方法可以准确渲染特定场景,但由于两个原因,它们无法有效泛化:(1)刚性空间划分技术难以应对任意相机轨迹;(2)区域合并导致高斯重叠,扭曲纹理细节。为了解决这些挑战,我们提出了TraGraph-GS,利用轨迹图实现对任意大规模场景的高精度渲染。我们提出了一种基于图的大规模场景空间划分方法,该方法结合了正则化约束以增强纹理和远处物体的渲染,并采用渐进渲染策略以减轻高斯重叠引起的伪影。实验结果表明,该方法在四个航拍和四个地面数据集上表现出卓越的性能,并突出了其显著的效率:与最先进的方法相比,我们的方法在航拍数据集上平均提高了1.86 dB的PSNR,在地面数据集上提高了1.62 dB。 |
[57] SceneSplat++:用于语言高斯喷溅的大型数据集和综合基准 标题: SceneSplat++: A Large Dataset and Comprehensive Benchmark for Language Gaussian Splatting 作者: Mengjiao Ma / Qi Ma / Yue Li / Jiahuan Cheng / Runyi Yang / Bin Ren / Nikola Popovic / Mingqiang Wei / Nicu Sebe / Luc Van Gool / Theo Gevers / Martin R. Oswald / Danda Pani Paudel 原文: [英文] 备注: 15 pages, codes, data and benchmark will be released 摘要: 3D Gaussian Splatting(3DGS)是一种高性能且高效的场景几何、外观和语义编码方法。此外,将语言与3D场景结合已被证明是3D场景理解的有效策略。目前,语言高斯散点的研究主要分为三大类:(i)基于每个场景的优化,(ii)无需每个场景优化,以及(iii)可推广的方法。然而,它们大多仅在少数场景的渲染2D视图和接近训练视图的视点上进行评估,限制了对整体3D理解的能力和洞察。为了解决这一差距,我们提出了第一个大规模基准,系统地在3D空间中直接评估这三类方法,评估对象包括来自三个室内数据集和一个室外数据集的1060个场景。基准测试结果显示了可推广范式的明显优势,特别是在放宽场景特定限制、实现对新场景的快速前馈推理以及获得优越的分割性能方面。我们进一步引入了GaussianWorld-49K,这是一个精心策划的3DGS数据集,包含约49K个来自多个来源的多样化室内和室外场景,通过该数据集我们展示了可推广方法能够利用强大的数据先验。我们的代码、基准和数据集将公开,以加速可推广3DGS场景理解的研究。 |
[58] 用于腹主动脉瘤表面局部生长预测的几何深度学习 标题: Geometric deep learning for local growth prediction on abdominal aortic aneurysm surfaces 作者: Dieuwertje Alblas / Patryk Rygiel / Julian Suk / Kaj O. Kappe / Marieke Hofman / Christoph Brune / Kak Khee Yeung / Jelmer M. Wolterink 原文: [英文] 备注: None 摘要: 腹主动脉瘤(AAA)是腹主动脉的进行性局部扩张。AAA可能会破裂,破裂后的存活率仅为20%。当前的临床指南建议,当男性的AAA最大直径超过55毫米或女性超过50毫米时,应进行择期手术修复。不符合这些标准的患者需要定期监测,监测间隔基于AAA的最大直径。然而,这一直径并未考虑AAA的三维形状与其生长之间的复杂关系,使得标准化的监测间隔可能不够合适。个性化的AAA生长预测可以改进监测策略。我们提出使用一个SE(3)对称的Transformer模型,直接在富含局部多物理特征的血管模型表面上预测AAA的生长。与其他对AAA形状进行参数化的工作相比,这种表示保留了血管表面的解剖结构和几何保真度。我们使用24名AAA患者在不规则时间间隔内的113次计算机断层扫描血管造影(CTA)扫描的纵向数据集来训练我们的模型。训练后,我们的模型可以预测AAA在下次扫描时的生长,预测的中位直径误差为1.18毫米。我们进一步展示了模型在识别患者是否会在两年内符合择期修复条件方面的效用(准确率为0.93)。最后,我们在一个由来自不同医院的7名AAA患者的25次CTA组成的外部验证集上评估了模型的泛化能力。我们的结果表明,从血管表面进行的局部方向性AAA生长预测是可行的,并可能有助于个性化的监测策略。 |
[59] InceptionMamba:一种高效的混合网络,结合大带宽卷积和瓶颈Mamba 标题: InceptionMamba: An Efficient Hybrid Network with Large Band Convolution and Bottleneck Mamba 作者: Yuhang Wang / Jun Li / Zhijian Wu / Jianhua Xu 原文: [英文] 备注: None 摘要: 在卷积神经网络家族中,InceptionNeXt在图像分类和许多下游任务中表现出极好的竞争力。然而,它基于并行的一维条带卷积,存在沿不同维度捕捉空间依赖性的能力有限的问题,未能充分探索局部邻域中的空间建模。此外,卷积操作的固有局部性限制了有效的全局上下文建模。为克服这些限制,我们在本研究中提出了一种新颖的主干架构,称为InceptionMamba。更具体地说,我们在InceptionMamba中用正交带卷积替代了传统的一维条带卷积,以实现连贯的空间建模。此外,通过瓶颈Mamba模块可以实现全局上下文建模,促进增强的跨通道信息融合和扩大感受野。在分类和各种下游任务上的广泛评估表明,所提出的InceptionMamba在参数和计算效率方面实现了最先进的性能。源代码将在此https URL提供。 |
[60] RS-MTDF:用于遥感半监督语义分割的多教师蒸馏与融合 标题: RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation 作者: Jiayi Song / Kaiyu Li / Xiangyong Cao / Deyu Meng 原文: [英文] 备注: None 摘要: 遥感图像中的语义分割对于各种应用至关重要,但其性能在很大程度上依赖于大规模、高质量的逐像素标注,而这些标注的获取通常代价高昂且耗时。半监督语义分割(SSS)提供了一种有前途的替代方案来缓解这种数据依赖。然而,现有的SSS方法通常难以应对有限标注数据和大量未标注数据之间固有的分布不匹配,导致泛化效果不佳。我们提出,预训练于庞大且多样化数据集上的视觉基础模型(VFMs)具备强大的泛化能力,可以有效弥合这种分布差距,并为SSS提供强有力的语义先验。受此启发,我们引入了RS-MTDF(多教师蒸馏与融合),这是一种新颖的框架,利用嵌入在VFMs中的强大语义知识来指导遥感中的半监督学习。具体而言,RS-MTDF采用多个冻结的VFMs(例如,DINOv2和CLIP)作为专家教师,利用特征级蒸馏将学生特征与其稳健的表示对齐。为了进一步增强判别能力,蒸馏的知识被无缝地融合到学生解码器中。在三个具有挑战性的遥感数据集(ISPRS Potsdam、LoveDA和DeepGlobe)上的大量实验表明,RS-MTDF始终实现了最先进的性能。值得注意的是,我们的方法在LoveDA的各种标签比例上优于现有方法,并在大多数语义类别中获得了最高的IoU。这些结果强调了多教师VFM指导在显著增强遥感分割的泛化和语义理解方面的有效性。消融研究进一步验证了每个提出模块的贡献。 |
[61] Gaussian2Scene: 通过3D高斯喷溅进行自监督学习的3D场景表示学习 标题: Gaussian2Scene: 3D Scene Representation Learning via Self-supervised Learning with 3D Gaussian Splatting 作者: Keyi Liu / Weidong Yang / Ben Fei / Ying He 原文: [英文] 备注: None 摘要: 自监督学习(SSL)用于点云预训练已成为许多3D视觉任务的基石,使得从大规模未标注数据中进行有效学习成为可能。在场景层面,现有的SSL方法通常将体积渲染纳入预训练框架,使用RGB-D图像作为重建信号以促进跨模态学习。这一策略促进了2D和3D模态之间的对齐,并使模型能够从RGB-D输入中丰富的视觉线索中受益。然而,这些方法受限于对隐式场景表示的依赖以及高内存需求。此外,由于它们的重建目标仅应用于2D空间,往往无法捕捉潜在的3D几何结构。为了解决这些挑战,我们提出了Gaussian2Scene,这是一种新颖的场景级SSL框架,利用3D高斯散射(3DGS)的高效性和显式特性进行预训练。使用3DGS不仅减轻了与体积渲染相关的计算负担,还支持直接的3D场景重建,从而增强了主干网络的几何理解。我们的方法遵循渐进的两阶段训练策略。在第一阶段,双分支掩码自动编码器学习2D和3D场景表示。在第二阶段,我们用重建的点云初始化训练,并进一步利用高斯基元的几何位置和渲染的RGB图像进行监督学习。这个过程强化了几何和跨模态学习。我们在多个下游3D目标检测任务中展示了Gaussian2Scene的有效性,显示出相较于现有预训练方法的一致改进。 |
[62] Landsat-Bench:用于Landsat基础模型的数据集和基准 标题: Landsat-Bench: Datasets and Benchmarks for Landsat Foundation Models 作者: Isaac Corley / Lakshay Sharma / Ruth Crasto 原文: [英文] 备注: None 摘要: Landsat计划提供了超过50年的全球一致的地球影像。然而,由于缺乏基准,这些数据在推动基于Landsat的地理空间基础模型(GFM)方面的进展受到限制。在本文中,我们介绍了Landsat-Bench,这是一套包含Landsat影像的三个基准,改编自现有的遥感数据集——EuroSAT-L、BigEarthNet-L和LC100-L。我们在常见架构和在SSL4EO-L数据集上预训练的Landsat基础模型中建立了基线和标准化的评估方法。值得注意的是,我们提供的证据表明,SSL4EO-L预训练的GFM在下游任务中提取的表示优于ImageNet,包括在EuroSAT-L和BigEarthNet-L上分别提高了+4%的总体精度(OA)和+5.1%的平均精度(mAP)。 |
[63] HomographyAD:使用自同态学习的深度异常检测 标题: HomographyAD: Deep Anomaly Detection Using Self Homography Learning 作者: Jongyub Seok / Chanjin Kang 原文: [英文] 备注: None 摘要: 异常检测(AD)是一项区分正常和异常数据的任务,对于制造设施的自动化技术应用非常重要。对于MVTec数据集,这是一个工业环境中具有代表性的AD数据集,许多近期的研究工作展示了显著的性能。然而,现有的异常检测工作存在一个局限性,即仅对完全对齐的数据集表现良好,而这与现实世界的工业环境不同。为了解决这一局限性,我们提出了HomographyAD,这是一种基于ImageNet预训练网络的新型深度异常检测方法,专为实际工业数据集设计。具体来说,我们首先建议使用深度单应性估计方法进行输入前景对齐。此外,我们通过自我单应性学习微调模型,以从正常样本中学习额外的形状信息。最后,我们基于测试样本特征与提取的正常特征分布的距离进行异常检测。通过将我们提出的方法应用于各种现有的AD方法,我们通过广泛的实验展示了性能的提升。 |
[64] 一种基于偏微分方程的图像去雾方法:通过大气散射理论 标题: A PDE-Based Image Dehazing Method via Atmospheric Scattering Theory 作者: Zhuoran Zheng 原文: [英文] 备注: report 摘要: 本文提出了一种用于单幅图像去雾的新型偏微分方程(PDE)框架。通过将大气散射模型与非局部正则化和暗通道先验相结合,我们提出了改进的PDE: \[ -\text{div}\left(D(\nabla u)\nabla u\right) + \lambda(t) G(u) = \Phi(I,t,A) \] 其中 $D(\nabla u) = (|\nabla u| + \epsilon)^{-1}$ 是边缘保留扩散系数,$G(u)$ 是高斯卷积算子,$\lambda(t)$ 是基于透射图 $t$ 的自适应正则化参数。我们利用Lax-Milgram定理证明了在 $H_0^1(\Omega)$ 中弱解的存在性和唯一性,并实现了一种通过PyTorch GPU计算加速的高效定点迭代方案。实验结果表明,该方法是一种有前景的去雾解决方案,可以推广到深度模型范式。 |
[65] 流动多样且高效:通过随机速度场采样学习动量流匹配 标题: Flow Diverse and Efficient: Learning Momentum Flow Matching via Stochastic Velocity Field Sampling 作者: Zhiyuan Ma / Ruixun Liu / Sixian Liu / Jianjun Li / Bowen Zhou 原文: [英文] 备注: None 摘要: 最近,校正流(RF)因其在直线路径采样中的高效优势,尤其是通过一系列RF模型(如Flux 1.0和SD 3.0)生成的惊人图像,成为流动基础扩散模型中的新一代技术前沿。尽管在噪声和自然数据分布之间的直线连接是直观、快速且易于优化的,但它仍然不可避免地导致:1)多样性问题,因为直线路径仅覆盖相当有限的采样空间。2)多尺度噪声建模问题,因为直线流仅需优化两个分布$\bm\pi_0$和$\bm\pi_1$之间的恒定速度场$\bm v$。在这项工作中,我们提出了离散化-RF,这是一类新的校正流(也称为动量流模型,因为它们在每个扩散步骤中参考先前的速度分量和随机速度分量),通过将直线路径离散化为一系列可变速度场子路径(即“动量场”)来扩展搜索空间,特别是在接近分布$p_\text{noise}$时。与之前直接将噪声叠加在$\bm x$上的情况不同,我们在子路径的速度$\bm v$上引入噪声以改变其方向,从而提高多样性和多尺度噪声建模能力。在几个具有代表性的数据集上的实验结果表明,通过采样随机速度场来学习动量流匹配将产生既多样又高效的轨迹,并且能够持续生成高质量和多样化的结果。代码可在此https URL获取。 |
[66] HunyuanVideo-HOMA:多模态驱动的人体动画中的通用人-物交互 标题: HunyuanVideo-HOMA: Generic Human-Object Interaction in Multimodal Driven Human Animation 作者: Ziyao Huang / Zixiang Zhou / Juan Cao / Yifeng Ma / Yi Chen / Zejing Rao / Zhiyong Xu / Hongmei Wang / Qin Lin / Yuan Zhou / Qinglin Lu / Fan Tang 原文: [英文] 备注: None 摘要: 为了解决人-物交互(HOI)视频生成中的关键限制——特别是对精心策划的运动数据的依赖、对新颖物体/场景的有限泛化能力以及有限的可访问性——我们引入了HunyuanVideo-HOMA,这是一种弱条件的多模态驱动框架。HunyuanVideo-HOMA通过稀疏、解耦的运动引导增强了可控性,并减少了对精确输入的依赖。它将外观和运动信号编码到多模态扩散变换器(MMDiT)的双输入空间中,并在共享上下文空间中融合它们,以合成时间上一致且物理上合理的交互。为了优化训练,我们集成了一个参数空间HOI适配器,该适配器从预训练的MMDiT权重初始化,保留了先验知识,同时实现了高效的适应,以及一个面部交叉注意力适配器,用于解剖学上准确的音频驱动唇同步。大量实验证实了在弱监督下交互自然性和泛化能力方面的最新性能。最后,HunyuanVideo-HOMA展示了在文本条件生成和交互式物体操控方面的多功能性,并由用户友好的演示界面支持。项目页面位于此https URL。 |
[67] HiSin:通过分辨率引导的渐进推理实现高效的高分辨率正弦图修复 标题: HiSin: Efficient High-Resolution Sinogram Inpainting via Resolution-Guided Progressive Inference 作者: Jiaze E / Srutarshi Banerjee / Tekin Bicer / Guannan Wang / Yanfu Zhang / Bin Ren 原文: [英文] 备注: None 摘要: 高分辨率的正弦图修复对于计算机断层扫描重建至关重要,因为缺失的高频投影可能导致明显的伪影和诊断错误。扩散模型因其稳健性和细节保留能力而非常适合这一任务,但其在高分辨率输入上的应用受到过多内存和计算需求的限制。为了解决这一限制,我们提出了HiSin,这是一种新颖的基于扩散的框架,通过分辨率引导的渐进推理实现高效的正弦图修复。它在低分辨率下逐步提取全局结构,并将高分辨率推理推迟到小块上,从而实现内存高效的修复。它还结合了频率感知的块跳过和结构自适应的步骤分配,以减少冗余计算。实验结果表明,HiSin将峰值内存使用量减少了最多31.25%,推理时间减少了最多18.15%,并在数据集、分辨率和掩码条件下保持了修复精度。 |
[68] Video-CoT:基于思维链的视频时空理解综合数据集 标题: Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought 作者: Shuyi Zhang / Xiaoshuai Hao / Yingbo Tang / Lingfeng Zhang / Pengwei Wang / Zhongyuan Wang / Hongxuan Ma / Shanghang Zhang 原文: [英文] 备注: None 摘要: 视频内容理解对于从视频分析到交互系统的各种应用至关重要。尽管大规模视觉语言模型(VLMs)取得了进展,这些模型往往难以捕捉到全面视频分析所需的细致时空细节。为了解决这一问题,我们引入了Video-CoT,这是一个突破性的数据集,旨在通过链式思维(CoT)方法增强时空理解。Video-CoT包含192,000个细粒度的时空问答对和23,000个高质量的CoT注释样本,为评估视频理解中的时空理解提供了坚实的基础。此外,我们提供了一个全面的基准来评估这些任务,每个任务包含750张图像和量身定制的评估指标。我们的广泛实验表明,当前的VLMs在实现令人满意的性能方面面临重大挑战,突显了有效时空理解的困难。总体而言,Video-CoT数据集和基准为多媒体理解研究开辟了新途径,并支持未来在需要高级视频分析能力的智能系统中的创新。通过公开提供这些资源,我们旨在鼓励在这一关键领域的进一步探索。项目网站:this https URL。 |
[69] 文化框架:评估文本到图像模型和评估指标中的文化期望一致性 标题: CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics 作者: Shravan Nayak / Mehar Bhatia / Xiaofeng Zhang / Verena Rieser / Lisa Anne Hendricks / Sjoerd van Steenkiste / Yash Goyal / Karolina Stańczak / Aishwarya Agrawal 原文: [英文] 备注: None 摘要: 随着文本到图像(T2I)模型作为视觉内容生成工具的日益普及,人们对其能否准确表现多样化的文化背景表示担忧。在这项工作中,我们首次系统性地量化了T2I模型及其评估指标在显性和隐性文化期望方面的对齐程度。为此,我们引入了CulturalFrames,这是一种旨在严格评估视觉生成中文化表现的人类评估的新基准。CulturalFrames涵盖了10个国家和5个社会文化领域,包括983个提示、由4个最先进的T2I模型生成的3637张对应图像,以及超过1万条详细的人类注释。我们发现,T2I模型不仅未能满足更具挑战性的隐性期望,也未能满足较不具挑战性的显性期望。在不同模型和国家中,文化期望平均有44%的时间未被满足。在这些失败中,显性期望的未满足率惊人地高,平均为68%,而隐性期望的失败也很显著,平均为49%。此外,我们证明现有的T2I评估指标与人类对文化对齐的判断相关性较差,无论其内部推理如何。总体而言,我们的研究揭示了关键的差距,为开发更具文化意识的T2I模型和评估方法提供了可行的方向。 |
[70] 适应视觉-语言基础模型以用于下一代医学超声图像分析 标题: Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis 作者: Jingguo Qu / Xinyang Han / Tonghuan Xiao / Jia Ai / Juan Wu / Tong Zhao / Jing Qin / Ann Dorothy King / Winnie Chiu-Wing Chu / Jing Cai / Michael Tin-Cheung Yingınst 原文: [英文] 备注: None 摘要: 医学超声成像是一种用于检查浅表器官和组织(包括淋巴结、乳腺和甲状腺)的重要成像技术。它利用高频超声波生成人体内部结构的详细图像。然而,手动勾画这些图像中的感兴趣区域是一项劳动密集型任务,需要专业知识,并且常常导致个体之间解释不一致。视觉-语言基础模型在各种计算机视觉应用中表现出色,为增强超声图像分析提供了新的机会。然而,由于自然图像和医学图像领域之间的显著差异,它们的性能受到限制。本研究旨在通过为视觉-语言基础模型开发领域适应方法来克服这些挑战。在本研究中,我们通过利用大型语言模型作为文本优化器,并结合专门设计的适应策略和任务驱动的头部,探索了视觉-语言基础模型的微调流程。我们的方法在六个超声数据集和两个任务(分割和分类)上进行了广泛评估。实验结果表明,我们的方法可以有效提高视觉-语言基础模型在超声图像分析中的性能,并优于现有的最先进的视觉-语言和纯基础模型。本研究的源代码可在 \href{this https URL}{GitHub} 获取。 |
[71] 基于跨模态掩码重建和对比学习的组织病理学空间转录组表达预测 标题: Spatial Transcriptomics Expression Prediction from Histopathology Based on Cross-Modal Mask Reconstruction and Contrastive Learning 作者: Junzhuo Liu / Markus Eckstein / Zhixiang Wang / Friedrich Feuerhake / Dorit Merhof 原文: [英文] 备注: 20 pages, 7 figures 摘要: 空间转录组学是一种在不同空间位置捕获基因表达水平的技术,广泛应用于肿瘤微环境分析和组织病理学的分子分析,为解决基因表达和癌症临床诊断提供了宝贵的见解。由于数据获取成本高,大规模空间转录组学数据仍然难以获得。在本研究中,我们开发了一种基于对比学习的深度学习方法,从全切片图像中预测空间分辨的基因表达。对六个不同疾病数据集的评估表明,与现有研究相比,我们的方法在高表达基因、高变异基因和标记基因的预测中,Pearson相关系数(PCC)分别提高了6.27%、6.11%和11.26%。进一步分析表明,我们的方法保留了基因-基因相关性,并适用于样本有限的数据集。此外,我们的方法在基于生物标志物表达的癌症组织定位方面表现出潜力。 |
[72] StreamSplat:面向从未校准视频流进行在线动态3D重建 标题: StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams 作者: Zike Wu / Qi Yan / Xuanyu Yi / Lele Wang / Renjie Liao 原文: [英文] 备注: None 摘要: 从未校准的视频流中实时重建动态3D场景对于众多现实世界的应用至关重要。然而,现有的方法在同时解决以下三个关键挑战时存在困难:1)实时处理未校准的输入,2)准确建模动态场景的演变,以及3)保持长期稳定性和计算效率。为此,我们引入了StreamSplat,这是第一个完全前馈的框架,能够将任意长度的未校准视频流在线转换为动态3D高斯点云(3DGS)表示,并能够从时间局部观测中恢复场景动态。我们提出了两个关键的技术创新:在静态编码器中使用概率采样机制进行3DGS位置预测,以及在动态解码器中使用双向变形场以实现稳健且高效的动态建模。在静态和动态基准上的大量实验表明,StreamSplat在重建质量和动态场景建模方面始终优于现有工作,同时独特地支持任意长视频流的在线重建。代码和模型可在此https URL获取。 |
[73] DiscoVLA:在视觉、语言和对齐中的差异减少以实现参数高效的视频-文本检索 标题: DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval 作者: Leqi Shen / Guoqiang Gong / Tianxiang Hao / Tao He / Yifeng Zhang / Pengzhang Liu / Sicheng Zhao / Jungong Han / Guiguang Ding 原文: [英文] 备注: CVPR 2025 摘要: 图像-文本预训练模型CLIP在视频-文本检索中的参数高效适应是一个重要的研究领域。虽然CLIP专注于图像级别的视觉-语言匹配,但视频-文本检索需要在视频级别上进行全面理解。从图像级别到视频级别的转移中出现了三个关键差异:视觉、语言和对齐。然而,现有的方法主要关注视觉,而忽略了语言和对齐。在本文中,我们提出了视觉、语言和对齐差异减少(DiscoVLA),同时减轻这三个差异。具体来说,我们引入了图像-视频特征融合,以整合图像级别和视频级别特征,有效解决视觉和语言差异。此外,我们生成伪图像标题以学习细粒度的图像级别对齐。为了减轻对齐差异,我们提出了图像到视频对齐蒸馏,利用图像级别的对齐知识来增强视频级别的对齐。大量实验表明我们的DiscoVLA的优越性。特别是在MSRVTT数据集上,使用CLIP(ViT-B/16)时,DiscoVLA在R@1上比之前的方法提高了1.5%,最终得分达到50.5% R@1。代码可在此https URL获取。 |
[74] 用于视觉生成的专家产品 标题: Product of Experts for Visual Generation 作者: Yunzhi Zhang / Carson Murtuza-Lanier / Zizhang Li / Yilun Du / Jiajun Wu 原文: [英文] 备注: Project page: this https URL 摘要: 现代神经模型能够捕捉丰富的先验知识,并在共享数据领域(如图像和视频)中拥有互补的知识。然而,整合来自多个来源的多样化知识——包括视觉生成模型、视觉语言模型以及人类制作知识的来源(如图形引擎和物理模拟器)——仍然未被充分探索。我们提出了一种专家乘积(PoE)框架,该框架在推理时从异构模型中进行知识组合。这种无需训练的方法通过退火重要性采样(AIS)从专家的乘积分布中进行采样。我们的框架在图像和视频合成任务中显示出实际的优势,比单一方法提供了更好的可控性,并且为指定视觉生成目标提供了灵活的用户界面。 |
[75] WetCat:自动化评估湿实验室白内障手术视频中的技能 标题: WetCat: Automating Skill Assessment in Wetlab Cataract Surgery Videos 作者: Negin Ghamsarian / Raphael Sznitman / Klaus Schoeffmann / Jens Kowal 原文: [英文] 备注: 9 pages, 6 figures 摘要: 为了满足对系统化外科培训日益增长的需求,湿实验室环境已成为眼科实践中不可或缺的平台。然而,传统的湿实验室培训严重依赖于手动的表现评估,这种评估既费力又耗时,并且常常存在变异性。计算机视觉的最新进展为自动化技能评估提供了有前景的途径,从而提高了外科教育的效率和客观性。尽管在眼科手术数据集方面取得了显著进展,现有资源主要集中于真实手术或孤立任务,未能支持在受控湿实验室环境中进行全面的技能评估。为了解决这些限制,我们引入了WetCat,这是第一个专门为自动化技能评估而策划的湿实验室白内障手术视频数据集。WetCat包含了由学员在人工眼上进行的手术的高分辨率录制,具有全面的阶段注释和关键解剖结构的语义分割。这些注释经过精心设计,以便在关键的撕囊和超声乳化阶段进行技能评估,遵循标准化的外科技能评估框架。通过关注这些重要阶段,WetCat使得开发可解释的、与既定临床指标一致的AI驱动评估工具成为可能。该数据集为推进客观、可扩展的外科教育奠定了坚实的基础,并为眼科培训中的自动化工作流程分析和技能评估设定了新的基准。数据集和注释在Synapse上公开可用。 |
[76] MIRAGE:用于综合视网膜OCT图像分析的多模态基础模型和基准 标题: MIRAGE: Multimodal foundation model and benchmark for comprehensive retinal OCT image analysis 作者: José Morano / Botond Fazekas / Emese Sükei / Ronald Fecso / Taha Emre / Markus Gumpinger / Georg Faustmann / Marzieh Oghbaie / Ursula Schmidt-Erfurth / Hrvoje Bogunović 原文: [英文] 备注: None 摘要: 人工智能(AI)已成为帮助临床医生分析眼科图像(如光学相干断层扫描(OCT))的基本工具。然而,开发AI模型通常需要大量的标注,并且现有模型在独立的、未见过的数据上往往表现不佳。基础模型(FMs)是基于大量未标注数据集训练的大型AI模型,已显示出克服这些挑战的潜力。然而,目前可用于眼科的基础模型缺乏广泛的验证,尤其是在分割任务中,并且通常只专注于单一成像模式。在此背景下,我们提出了MIRAGE,这是一种用于分析OCT和扫描激光检眼镜(SLO)图像的新型多模态基础模型。此外,我们提出了一个新的评估基准,包含OCT/SLO分类和分割任务。与通用和专用基础模型及分割方法的比较表明,MIRAGE在这两类任务中均表现出色,突显其作为开发稳健的视网膜OCT图像分析AI系统基础的适用性。MIRAGE和评估基准均已公开发布:此https URL。 |
[77] 用于开放环境的双特征双曲增强 标题: Hyperbolic Dual Feature Augmentation for Open-Environment 作者: Peilin Yu / Yuwei Wu / Zhi Gao / Xiaomeng Fan / Shuo Yang / Yunde Jia 原文: [英文] 备注: arXiv admin note: text overlap with arXiv:2207.03824, arXiv:2304.11855 by other authors 摘要: 特征增强在特征空间中生成新的样本,为利用双曲几何提升学习算法的泛化能力提供了一种有效的方法。大多数双曲特征增强局限于封闭环境,假设类别数量是固定的(即已知类别),并且仅为这些类别生成特征。在本文中,我们提出了一种用于开放环境的双曲双重特征增强方法,该方法在双曲空间中为已知和未知类别增强特征。为了更精确地逼近真实数据分布以实现高效训练,(1)我们采用了一个由元学习增强的神经常微分方程模块,用于估计已知和未知类别的特征分布;(2)然后我们引入一个正则化器,以在双曲空间中保持数据的潜在层次结构;(3)我们还推导出了双曲双重增强损失的上界,使我们能够使用无限增强来训练已知和未知类别的双曲模型。在五个开放环境任务上的大量实验:类别增量学习、少样本开放集识别、少样本学习、零样本学习和通用图像分类,证明了我们的方法有效提升了双曲算法在开放环境中的性能。 |
[78] SkipVAR:通过自适应频率感知跳跃加速视觉自回归建模 标题: SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping 作者: Jiajun Li / Yue Ma / Xinyu Zhang / Qingyan Wei / Songhua Liu / Linfeng Zhang 原文: [英文] 备注: None 摘要: 最近关于视觉自回归(VAR)模型的研究指出,在生成过程中,高频成分或后期步骤对推理延迟的贡献不成比例。然而,这些步骤中涉及的潜在计算冗余尚未得到彻底研究。在本文中,我们对VAR推理过程进行了深入分析,并确定了两种主要的低效来源:步骤冗余和无条件分支冗余。为了解决步骤冗余问题,我们提出了一种自动步骤跳过策略,该策略有选择地省略不必要的生成步骤以提高效率。对于无条件分支冗余,我们观察到条件分支和无条件分支之间的信息差距很小。利用这一见解,我们引入了无条件分支替换,这是一种绕过无条件分支以降低计算成本的技术。值得注意的是,我们观察到加速策略的有效性在不同样本之间差异显著。受此启发,我们提出了SkipVAR,这是一种样本自适应框架,利用频率信息动态选择最适合每个实例的加速策略。为了评估高频信息的作用,我们引入了高变化基准数据集,以测试模型对细节的敏感性。大量实验表明,SkipVAR在GenEval基准测试中实现了超过0.88的平均SSIM,整体加速高达1.81倍,速度提升达2.62倍,同时保持了模型质量。这些结果证实了频率感知、无需训练的自适应加速对于可扩展的自回归图像生成的有效性。我们的代码已在此https URL上公开发布。 |
[79] 视觉Transformer的内在可信注意力图 标题: Inherently Faithful Attention Maps for Vision Transformers 作者: Ananthu Aniraj / Cassio F. Dantas / Dino Ienco / Diego Marcos 原文: [英文] 备注: None 摘要: 我们介绍了一种基于注意力的方法,该方法使用学习到的二值注意力掩码来确保只有被关注的图像区域会影响预测。上下文可以强烈影响物体感知,有时会导致偏见的表示,特别是当物体出现在分布外的背景中时。同时,许多图像级以物体为中心的任务需要识别相关区域,通常需要上下文。为了解决这一难题,我们提出了一个两阶段框架:第一阶段处理完整图像以发现物体部分并识别与任务相关的区域,而第二阶段利用输入注意力掩码将其感受野限制在这些区域,从而实现集中分析,同时过滤掉可能的虚假信息。两个阶段是联合训练的,使得第二阶段可以优化第一阶段。通过在不同基准上的广泛实验表明,我们的方法显著提高了对虚假相关性和分布外背景的鲁棒性。 |
[80] 苏格拉底-MCTS:通过提出正确的问题进行测试时视觉推理 标题: Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions 作者: David Acuna / Ximing Lu / Jaehun Jung / Hyunwoo Kim / Amlan Kar / Sanja Fidler / Yejin Choi 原文: [英文] 备注: None 摘要: 最近关于视觉-语言模型(VLMs)的研究集中在通过蒸馏和强化学习,使它们具备隐式的长链思维推理能力——类似于在语言模型中观察到的成功。那么,已经在互联网上训练和部署的非推理模型呢?我们是否应该简单地放弃它们,还是有希望通过一种搜索机制来引出隐藏的知识并诱导长推理链,而无需额外的训练或监督?在本文中,我们使用一种受蒙特卡罗树搜索(MCTS)启发的算法来探索这种可能性,该算法将子问题-子答案对注入到模型的输出流中。我们展示了将推理框架化为一个搜索过程——其中子问题作为更广泛推理轨迹中的潜在决策——有助于模型在碎片化知识之间“连接点滴”,并在非推理模型中生成扩展的推理链。我们在三个基准上评估了我们的方法,并观察到了一致的改进。值得注意的是,我们的方法在MMMU-PRO上整体提高了2%,其中在文科领域取得了显著的9%的提升。 |
[81] 是什么限制了虚拟代理的应用?OmniBench:一个用于评估虚拟代理基本能力的可扩展多维基准 标题: What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities 作者: Wendong Bu / Yang Wu / Qifan Yu / Minghe Gao / Bingchen Miao / Zhenkui Zhang / Kaihang Pan / Yunfei Li / Mengze Li / Wei Ji / Juncheng Li / Siliang Tang / Yueting Zhuang 原文: [英文] 备注: Accepted by ICML 2025 (Oral) 摘要: 随着多模态大型语言模型(MLLMs)的进步,基于MLLM的虚拟代理表现出了卓越的性能。然而,现有的基准测试面临着显著的限制,包括不可控的任务复杂性、大量的人工标注但场景有限,以及缺乏多维度的评估。为应对这些挑战,我们引入了OmniBench,这是一种自生成、跨平台、基于图的基准测试,具有通过子任务组合合成可控复杂性任务的自动化流程。为了评估虚拟代理在图上的多样化能力,我们进一步提出了OmniEval,一个多维度的评估框架,包括子任务级别的评估、基于图的指标以及跨越10种能力的综合测试。我们合成的数据集包含了20个场景下的36,000个图结构任务,达到了91%的人工接受率。基于我们的图结构数据进行训练显示,与人工标注数据相比,它可以更有效地指导代理。我们对各种开源和闭源模型进行了多维度评估,揭示了它们在各种能力上的表现,并为未来的进步铺平了道路。我们的项目可在此https URL获取。 |
[82] SSS:用于医学影像分割的高效提示半监督SAM-2 标题: SSS: Semi-Supervised SAM-2 with Efficient Prompting for Medical Imaging Segmentation 作者: Hongjie Zhu / Xiwei Liu / Rundong Xue / Zeyu Zhang / Yong Xu / Daji Ergu / Ying Cai / Yang Zhao 原文: [英文] 备注: None 摘要: 在信息爆炸的时代,如何有效利用大规模未标注数据,同时尽量减少对高质量像素级标注的依赖,仍然是医学影像领域的一个关键挑战。半监督学习(SSL)通过促进知识转移来增强未标注数据的利用,显著提高了全监督模型的性能,并成为医学图像分析中一个极具前景的研究方向。受到视觉基础模型(例如,SAM-2)提供丰富先验知识能力的启发,我们提出了SSS(半监督SAM-2),这是一种新颖的方法,利用SAM-2强大的特征提取能力来发掘未标注医学图像中的潜在知识,从而有效增强全监督医学图像分割的特征支持。具体而言,基于单流“弱到强”一致性正则化框架,本文引入了一种判别特征增强(DFE)机制,以进一步探索通过多视图数据增强策略引入的特征差异。通过利用跨多尺度增强技术的特征相似性和差异性,该方法重构和建模特征,从而有效优化显著区域。此外,开发了一种提示生成器,该生成器结合物理约束与滑动窗口(PCSW)机制,为未标注数据生成输入提示,以满足SAM-2对额外提示的需求。大量实验表明,所提出的方法在两个多标签数据集(即ACDC和BHSD)上的半监督医学图像分割中具有优越性。值得注意的是,SSS在BHSD上实现了平均Dice分数53.15,超过了之前的最先进方法+3.65 Dice。代码将在此https URL上提供。 |
[83] 带有侧信息嵌入的跨光谱人体识别:LLCM基准测试及IJB-MDF上范围引起遮挡的分析 标题: Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF 作者: Anirudh Nanduri / Siyuan Huang / Rama Chellappa 原文: [英文] 备注: None 摘要: 视觉Transformer(ViTs)在包括人脸和身体识别在内的多种生物识别任务中表现出色。在这项工作中,我们将预训练于可见光(VIS)图像的ViT模型应用于跨光谱身体识别这一具有挑战性的问题,该问题涉及匹配可见光和红外(IR)域中捕获的图像。最近的ViT架构探索了在传统位置嵌入之外加入额外嵌入的方法。基于这一想法,我们整合了侧信息嵌入(SIE),并研究了编码域和相机信息对增强跨光谱匹配的影响。令人惊讶的是,我们的结果显示,仅编码相机信息——而不显式加入域信息——在LLCM数据集上实现了最先进的性能。虽然遮挡处理在可见光谱的人体再识别(Re-ID)中已被广泛研究,但在可见-红外(VI)Re-ID中的遮挡问题仍然很少被探索——主要是因为现有的VI-ReID数据集,如LLCM、SYSU-MM01和RegDB,主要以全身、无遮挡的图像为主。为了解决这一空白,我们使用IARPA Janus基准多域人脸(IJB-MDF)数据集分析了距离引起的遮挡影响,该数据集提供了在不同距离拍摄的多样化的可见光和红外图像,从而实现跨距离、跨光谱的评估。 |
[84] 使用不完整的监督分割隐藏的物体 标题: Segment Concealed Objects with Incomplete Supervision 作者: Chunming He / Kai Li / Yachao Zhang / Ziyun Yang / Youwei Pang / Longxiang Tang / Chengyu Fang / Yulun Zhang / Linghe Kong / Xiu Li / Sina Farsiu 原文: [英文] 备注: IEEE TPAMI 摘要: 不完全监督的隐蔽物体分割(ISCOS)涉及在使用不完全标注数据(如弱标注和半标注)进行模型训练的情况下,分割与其周围环境无缝融合的物体。由于以下原因,这项任务仍然极具挑战性:(1)不完全标注的训练数据提供的监督有限;(2)由于隐蔽场景中的内在相似性,难以将隐蔽物体与背景区分开来。在本文中,我们介绍了第一个统一的ISCOS方法来应对这些挑战。为了解决不完全监督的问题,我们提出了一个统一的均值教师框架SEE,该框架利用视觉基础模型“\emph{Segment Anything Model (SAM)}”通过教师模型生成的粗略掩码作为提示生成伪标签。为了减轻低质量分割掩码的影响,我们引入了一系列用于伪标签生成、存储和监督的策略。这些策略旨在生成信息丰富的伪标签,存储生成的最佳伪标签,并选择最可靠的组件来指导学生模型,从而确保稳健的网络训练。此外,为了解决内在相似性的问题,我们设计了一个混合粒度特征分组模块,该模块在不同粒度上分组特征并聚合这些结果。通过聚类相似特征,该模块促进了分割的一致性,有助于实现单物体和多物体图像的更完整分割。我们在多个ISCOS任务中验证了我们方法的有效性,实验结果表明我们的方法达到了最先进的性能。此外,SEE可以作为即插即用的解决方案,提升现有模型的性能。 |
[85] 使用快速自动增强进行小物体的数据增强 标题: Data Augmentation For Small Object using Fast AutoAugment 作者: DaeEun Yoon / Semin Kim / SangWook Yoo / Jongha Lee 原文: [英文] 备注: Accepted and published in the USB Proceedings of the 20th International Conference on Modeling Decisions for Artificial Intelligence (MDAI 2023), Umeå, Sweden, June 19--22, 2023, ISBN 978-91-527-7293-5, pp.\ 12--21 摘要: 近年来,目标检测性能取得了巨大进展。然而,尽管有这些进步,小物体的检测性能仍然显著低于大物体。检测小物体是计算机视觉中最具挑战性和重要性的问题之一。为了提高小物体的检测性能,我们提出了一种使用Fast AutoAugment的最优数据增强方法。通过我们提出的方法,我们可以快速找到最优的增强策略,以克服检测小物体时的性能下降,并在DOTA数据集上实现了20%的性能提升。 |
[86] ORIDa:以物体为中心的真实世界图像合成数据集 标题: ORIDa: Object-centric Real-world Image Composition Dataset 作者: Jinwoo Kim / Sangmin Han / Jinho Jeong / Jiwoo Choi / Dongyoung Kim / Seon Joo Kim 原文: [英文] 备注: Accepted at CVPR 2025 摘要: 物体合成,即在各种视觉场景中放置和协调物体的任务,随着生成模型的兴起,已成为计算机视觉中的一项重要任务。然而,现有的数据集缺乏全面探索现实世界场景所需的多样性和规模。我们介绍了ORIDa(以物体为中心的现实世界图像合成数据集),这是一个大规模的、真实捕获的数据集,包含超过30,000张图像,展示了200个独特的物体,每个物体在不同的位置和场景中呈现。ORIDa有两种类型的数据:事实-反事实集和仅事实场景。事实-反事实集由四张事实图像组成,展示了一个物体在场景中的不同位置,以及一张没有物体的场景反事实(或背景)图像,每个场景共五张图像。仅事实场景包括一张在特定环境中包含物体的图像,扩展了环境的多样性。据我们所知,ORIDa是第一个在规模和复杂性上适用于现实世界图像合成的公开可用数据集。广泛的分析和实验突显了ORIDa作为推进物体合成进一步研究的资源价值。 |
[87] ADAM:使用大型语言模型进行上下文感知注释的自主发现和注释模型 标题: ADAM: Autonomous Discovery and Annotation Model using LLMs for Context-Aware Annotations 作者: Amirreza Rouhi / Solmaz Arezoomandan / Knut Peterson / Joseph T. Woods / David K. Han 原文: [英文] 备注: None 摘要: 目标检测模型通常依赖于预定义的类别,这限制了它们在开放世界场景中识别新颖物体的能力。为了解决这一限制,我们引入了ADAM:自主发现和标注模型,这是一种无需训练的自我优化框架,用于开放世界的物体标注。ADAM利用大型语言模型(LLMs)根据场景中已知实体的上下文信息生成未知物体的候选标签。这些标签与来自CLIP的视觉嵌入配对,以构建一个嵌入-标签库(ELR),从而实现无需类别监督的推理。对于新遇到的未知物体,ADAM从ELR中检索视觉上相似的实例,并应用基于频率的投票和跨模态重新排序来分配一个稳健的标签。为了进一步增强一致性,我们引入了一个自我优化循环,使用视觉凝聚分析和基于k近邻的多数重新标注来重新评估库中的标签。在COCO和PASCAL数据集上的实验结果表明,ADAM能够有效地利用视觉和上下文信号标注新类别,而无需任何微调或重新训练。 |
[88] 重新思考恶劣天气下的范围视图激光雷达分割 标题: Rethinking Range-View LiDAR Segmentation in Adverse Weather 作者: Longyu Yang / Ping Hu / Lu Zhang / Jun Liu / Yap-Peng Tan / Heng Tao Shen / Xiaofeng Zhu 原文: [英文] 备注: None 摘要: LiDAR分割已成为丰富多媒体体验和分析的重要任务。基于视距的方法因其高计算效率和与实时部署的兼容性而受到欢迎。然而,其在恶劣天气条件下的广义性能仍未得到充分探索,限制了其在真实环境中的可靠性。在这项工作中,我们识别并分析了影响视距LiDAR分割在恶劣天气下泛化的独特挑战。为了解决这些挑战,我们提出了一个模块化且轻量级的框架,在不改变现有模型核心架构的情况下增强鲁棒性。我们的方法将标准视距网络的初始干块重新构建为两个分支,以分别处理几何属性和反射强度。具体而言,几何异常抑制(GAS)模块减少了天气引起的空间噪声的影响,而反射失真校准(RDC)模块通过记忆引导的自适应实例归一化校正反射失真。处理后的特征随后被融合并传递到原始分割管道。对不同基准和基线模型的大量实验表明,我们的方法在恶劣天气下显著提高了泛化能力,同时推理开销极小,为真实世界的LiDAR分割提供了一个实用且有效的解决方案。 |
[89] 通过适应掩码视觉模型实现高效的医学视觉-语言对齐 标题: Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models 作者: Chenyu Lian / Hong-Yu Zhou / Dongyun Liang / Jing Qin / Liansheng Wang 原文: [英文] 备注: TMI 2025 摘要: 通过跨模态对比学习进行的医学视觉-语言对齐在图像-文本匹配任务中表现出色,例如检索和零样本分类。然而,传统的跨模态对比学习(基于CLIP)方法在视觉表示能力方面表现不佳,这也限制了它们在视觉-语言对齐中的有效性。相比之下,尽管通过多模态掩码建模预训练的模型在直接跨模态匹配方面存在困难,但它们在视觉表示方面表现出色。为了解决这一矛盾,我们提出了ALTA(通过适应进行对齐),这是一种高效的医学视觉-语言对齐方法,仅使用大约8%的可训练参数和不到1/5的掩码记录建模所需的计算量。通过从掩码记录建模中适应预训练的视觉模型,ALTA在检索和零样本分类等视觉-语言匹配任务中实现了卓越的性能。此外,我们整合了时间-多视角的放射影像输入,以增强放射影像与报告中相应描述之间的信息一致性,进一步改善了视觉-语言对齐。实验评估表明,ALTA在文本到图像准确率上比表现最好的对比方法高出4%以上的绝对点数,在图像到文本检索准确率上高出约6%的绝对点数。在高效对齐过程中对视觉-语言模型的适应也促进了更好的视觉和语言理解。代码可在此https URL公开获取。 |
[90] 概念替换技术真的能抹除不可接受的概念吗? 标题: Do Concept Replacement Techniques Really Erase Unacceptable Concepts? 作者: Anudeep Das / Gurjot Singh / Prach Chantasantitam / N. Asokan 原文: [英文] 备注: None 摘要: 生成模型,特别是基于扩散的文本到图像(T2I)模型,已经展示了惊人的成功。然而,使它们避免生成包含不可接受概念(例如,冒犯性或受版权保护的内容,或名人肖像)的内容仍然是一个重大挑战。概念替换技术(CRTs)旨在解决这一挑战,通常试图从模型中“抹去”不可接受的概念。最近,模型提供者开始提供图像编辑服务,该服务接受图像和文本提示作为输入,以生成根据提示进行修改的图像。这些被称为图像到图像(I2I)模型。在本文中,我们首先使用I2I模型实证证明,当前最先进的CRTs实际上并没有抹去不可接受的概念。因此,尽管现有的CRTs在T2I流程中已被证明能够去除不需要的概念,但在新兴的I2I场景中可能无效,这突显了理解T2I和I2I设置之间这种差异的必要性。接下来,我们认为一个好的CRT在替换不可接受的概念时,应该保留生成模型输入中指定的其他概念。我们称之为保真度。先前关于CRTs的工作在不可接受概念的情况下忽视了保真度。最后,我们提出使用有针对性的图像编辑技术来同时实现有效性和保真度。我们提出了一种这样的技术,AntiMirror,并证明了其可行性。 |
[91] SDTagNet:利用文本标注的导航地图进行在线高清地图构建 标题: SDTagNet: Leveraging Text-Annotated Navigation Maps for Online HD Map Construction 作者: Fabian Immel / Jan-Hendrik Pauls / Richard Fehler / Frank Bieder / Jonas Merkert / Christoph Stiller 原文: [英文] 备注: None 摘要: 自动驾驶车辆依赖于详细且准确的环境信息以安全运行。高清地图(HD maps)提供了一种有前景的解决方案,但其高昂的维护成本对大规模部署构成了重大障碍。在线高清地图构建方法通过实时传感器数据生成局部高清地图,从而应对这一挑战。然而,这些方法本质上受到车载传感器短感知范围的限制。为了克服这一限制并提高整体性能,最近的方法探索了使用标准定义(SD)地图作为先验,这些地图的维护要容易得多。我们提出了SDTagNet,这是第一个充分利用广泛可用的SD地图(如OpenStreetMap)信息的在线高清地图构建方法,以提高远距离检测的准确性。我们的方法引入了两个关键创新。首先,与之前的工作相比,我们不仅结合了具有手动选择类别的折线SD地图数据,还结合了以文本注释形式存在的额外语义信息。通过这种方式,我们用自然语言处理(NLP)衍生的特征丰富了SD矢量地图标记,消除了对预定义规范或详尽类别分类的依赖。其次,我们引入了一个点级SD地图编码器以及正交元素标识符,以统一整合所有类型的地图元素。在Argoverse 2和nuScenes上的实验表明,与不使用先验的地图构建相比,这种方法将地图感知性能提高了最多+5.9 mAP(+45%),与已经使用SD地图先验的先前方法相比提高了最多+3.2 mAP(+20%)。代码可在此https URL获取。 |
[92] 多实例学习模型是否具有可迁移性? 标题: Do MIL Models Transfer? 作者: Daniel Shao / Richard J. Chen / Andrew H. Song / Joel Runevic / Ming Y. Lu / Tong Ding / Faisal Mahmood 原文: [英文] 备注: ICML 2025 (Spotlight). 20 pages, 8 figures 摘要: 多实例学习(MIL)是计算病理学(CPath)中的一个基石方法,用于从千兆像素的组织图像中生成具有临床意义的切片级嵌入。然而,MIL在处理小型、弱监督的临床数据集时常常遇到困难。与自然语言处理(NLP)和传统计算机视觉等领域广泛使用迁移学习来解决数据稀缺问题不同,MIL模型的可迁移性仍然理解不足。在这项研究中,我们通过评估11个模型在21个预训练任务中的表现,系统地评估了预训练MIL模型的迁移学习能力,以预测形态学和分子亚型。我们的结果表明,即使预训练的MIL模型在与目标任务不同的器官上进行训练,也始终优于从头开始训练的模型。此外,在泛癌症数据集上的预训练能够在不同器官和任务之间实现强大的泛化能力,使用显著更少的预训练数据的情况下,性能优于切片基础模型。这些发现突显了MIL模型的强大适应性,并展示了利用迁移学习来提升CPath性能的好处。最后,我们提供了一个资源,标准化了MIL模型的实现和在流行CPath任务上的预训练模型权重的收集,资源可在此https URL获取。 |
[93] DIsoN:用于医学影像中分布外检测的去中心化隔离网络 标题: DIsoN: Decentralized Isolation Networks for Out-of-Distribution Detection in Medical Imaging 作者: Felix Wagner / Pramit Saha / Harry Anthony / J. Alison Noble / Konstantinos Kamnitsas 原文: [英文] 备注: None 摘要: 在诸如医学影像等安全关键领域安全部署机器学习(ML)模型需要检测训练期间未见特征的输入,即分布外(OOD)检测,以防止不可靠的预测。部署后的有效OOD检测可以通过访问训练数据来获益,从而能够直接比较测试样本和训练数据分布以识别差异。然而,最先进的OOD检测方法要么在部署后丢弃训练数据,要么假设测试样本和训练数据集中存储在一起,而这种假设在现实世界中很少成立。这是因为由于训练数据库的规模以及专有或隐私限制,通常无法将训练数据与已部署的模型一起传输。我们引入了隔离网络,一种OOD检测框架,通过解决二元分类任务来量化将目标测试样本与训练数据分离的难度。然后我们提出了去中心化隔离网络(DIsoN),当数据共享不可能时,通过仅在训练和部署的远程计算节点之间交换模型参数来实现训练和测试数据的比较。我们进一步扩展了DIsoN,加入了类条件,仅与其预测类的训练数据比较目标样本。我们在四个医学影像数据集(皮肤病学、胸部X光、乳腺超声、组织病理学)上的12个OOD检测任务中评估了DIsoN。DIsoN在尊重数据隐私的同时表现优于现有方法。这种去中心化的OOD检测框架为ML开发者提供了一种新的服务类型:提供远程、安全地利用其训练数据进行OOD检测服务。代码将在接受后提供于:***** |
[94] 扩散与分散:通过表示正则化进行图像生成 标题: Diffuse and Disperse: Image Generation with Representation Regularization 作者: Runqian Wang / Kaiming He 原文: [英文] 备注: None 摘要: 在过去的十年中,基于扩散的生成模型的发展大多独立于表示学习的进展。这些扩散模型通常依赖于基于回归的目标,并且通常缺乏显式的正则化。在这项工作中,我们提出了一种简单的即插即用正则化器,称为「分散损失」(Dispersive Loss),可以有效地改进基于扩散的生成模型。我们的损失函数鼓励内部表示在隐藏空间中分散,类似于对比自监督学习,关键区别在于它不需要正样本对,因此不会干扰用于回归的采样过程。与最近的表示对齐方法(REPA)相比,我们的方法是自包含且极简的,不需要预训练、额外参数或外部数据。我们在ImageNet数据集上对各种模型评估了分散损失,并报告了相对于广泛使用的强基线的一致改进。我们希望我们的工作能帮助弥合生成建模和表示学习之间的差距。 |
[95] Princeton365:一个具有精确相机姿态的多样化数据集 标题: Princeton365: A Diverse Dataset with Accurate Camera Pose 作者: Karhan Kayan / Stamatis Alexandropoulos / Rishabh Jain / Yiming Zuo / Erich Liang / Jia Deng 原文: [英文] 备注: None 摘要: 我们介绍了Princeton365,这是一个包含365个视频的大规模多样化数据集,具有精确的相机姿态。我们的数据集通过引入一种新颖的地面实况收集框架,利用校准板和360度相机,弥合了当前SLAM基准中精度和数据多样性之间的差距。我们收集了室内、室外和物体扫描视频,提供同步的单目和立体RGB视频输出以及IMU数据。我们进一步提出了一种新的场景尺度感知SLAM评估指标,该指标基于相机姿态估计误差引起的光流。与当前指标相比,我们的新指标允许在不同场景中比较SLAM方法的性能,而不是像现有指标如平均轨迹误差(ATE)那样,使研究人员能够分析其方法的失败模式。我们还提出了一个具有挑战性的全新视图合成基准,涵盖了当前NVS基准未涵盖的情况,例如具有360度相机轨迹的完全非朗伯场景。请访问此HTTPS URL以获取数据集、代码、视频和提交信息。 |
[96] 自回归语义视觉重建有助于视觉语言模型更好地理解 标题: Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better 作者: Dianyi Wang / Wei Song / Yikun Wang / Siyuan Wang / Kaicheng Yu / Zhongyu Wei / Jiaqi Wang 原文: [英文] 备注: None 摘要: 典型的大型视觉-语言模型(LVLMs)仅对文本序列进行自回归监督,而没有充分将视觉模态纳入学习过程。这导致了三个主要限制:(1)无法利用没有附带字幕的图像,(2)字幕可能遗漏关键的视觉细节,以及(3)某些以视觉为中心的内容无法通过文本充分传达。因此,当前的LVLMs通常优先考虑视觉到语言的对齐,同时可能忽视细粒度的视觉信息。虽然一些先前的工作已经探索了自回归图像生成,但有效利用自回归视觉监督来增强图像理解仍然是一个未解决的挑战。在本文中,我们介绍了自回归语义视觉重建(ASVR),它能够在统一的自回归框架内联合学习视觉和文本模态。我们展示了自回归重建图像的原始视觉外观并不能增强,甚至可能损害多模态理解。相比之下,自回归重建图像的语义表示则能持续改善理解。值得注意的是,我们发现即使模型以连续的图像特征作为输入,它们也能有效地重建离散的语义标记,从而在广泛的多模态理解基准上实现稳定和一致的改进。我们的方法在不同的数据规模(556k-2M)和LLM骨架类型上提供了显著的性能提升。具体而言,ASVR在14个多模态基准上的平均得分提高了LLaVA-1.5的5%。代码可在此https URL获取。 |
[97] 宇宙驱动梦想:基于世界基础模型的可扩展合成驾驶数据生成 标题: Cosmos-Drive-Dreams: Scalable Synthetic Driving Data Generation with World Foundation Models 作者: Xuanchi Ren / Yifan Lu / Tianshi Cao / Ruiyuan Gao / Shengyu Huang / Amirmojtaba Sabour / Tianchang Shen / Tobias Pfaff / Jay Zhangjie Wu / Runjian Chen / Seung Wook Kim / Jun Gao / Laura Leal-Taixe / Mike Chen / Sanja Fidler / Huan Ling 原文: [英文] 备注: Xuanchi Ren, Yifan Lu, Tianshi Cao, Ruiyuan Gao: Equal contribution. Only the core contributors are listed. The full list of contributors can be found in Appendix A of this paper 摘要: 为安全关键的物理人工智能系统(如自动驾驶汽车)收集和标注真实世界的数据既耗时又昂贵。尤其是捕捉罕见的边缘案例,这在自动驾驶系统的训练和测试中起着至关重要的作用。为了解决这一挑战,我们引入了Cosmos-Drive-Dreams——一个合成数据生成(SDG)管道,旨在生成具有挑战性的场景,以促进感知和驾驶策略训练等下游任务。支撑这一管道的是Cosmos-Drive,这是一套从NVIDIA Cosmos世界基础模型中专门为驾驶领域开发的模型,能够生成可控的、高保真、多视角和时空一致的驾驶视频。我们通过应用Cosmos-Drive-Dreams来展示这些模型的实用性,以高保真和具有挑战性的场景扩展驾驶数据集的数量和多样性。实验表明,我们生成的数据有助于缓解长尾分布问题,并增强下游任务(如3D车道检测、3D物体检测和驾驶策略学习)的泛化能力。我们通过NVIDIA的Cosmos平台开源我们的管道工具包、数据集和模型权重。 项目页面:this https URL |
[98] MagCache:基于幅度感知缓存的快速视频生成 标题: MagCache: Fast Video Generation with Magnitude-Aware Cache 作者: Zehong Ma / Longhui Wei / Feng Wang / Shiliang Zhang / Qi Tian 原文: [英文] 备注: Project Page: this https URL 摘要: 现有的视频扩散模型加速技术通常依赖于统一的启发式方法或时间嵌入变体来跳过时间步并重用缓存特征。这些方法通常需要使用精心设计的提示进行广泛的校准,并由于特定提示的过拟合而导致输出不一致。在本文中,我们介绍了一种新颖且稳健的发现:在不同模型和提示中观察到的统一幅度规律。具体而言,连续残差输出的幅度比在大多数时间步中单调且稳定地减少,而在最后几个步骤中迅速减少。利用这一见解,我们引入了一种幅度感知缓存(MagCache),它使用误差建模机制和自适应缓存策略来自适应地跳过不重要的时间步。与现有方法需要数十个精心设计的样本进行校准不同,MagCache只需要一个样本进行校准。实验结果表明,MagCache在Open-Sora和Wan 2.1上分别实现了2.1倍和2.68倍的加速,同时保持了卓越的视觉保真度。在可比的计算预算下,它在LPIPS、SSIM和PSNR方面显著优于现有方法。 |