scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年8月15日更新论文107
[1] 基于随机的补丁过滤用于小样本学习
标题: Stochastic-based Patch Filtering for Few-Shot Learning
作者: Javier Rodenas / Eduardo Aguilar / Petia Radeva
原文:   [英文]  
备注: CVPR Workshop MetaFood 2025
摘要:
由于食物图像的视觉复杂性和多样性,少样本学习模型在处理这些图像时面临独特的挑战。例如,一道意大利面可能会在不同的盘子上出现各种装饰,并且在不同的光照条件和相机角度下呈现。这一问题导致在将查询图像与支持图像进行比较时,无法聚焦于最重要的元素,从而导致错误分类。为了解决这个问题,我们提出了一种基于随机的少样本学习补丁过滤方法(SPFF),以关注与类别表示更相关的补丁嵌入。SPFF的关键概念涉及补丁嵌入的随机过滤,其中与类别感知嵌入不太相似的补丁更有可能被丢弃。通过根据出现概率过滤补丁嵌入,我们使用一个相似性矩阵来量化查询图像与其相应支持图像之间的关系。通过定性分析,我们证明了SPFF能够有效地聚焦于类别特定食物特征最突出的补丁,同时成功过滤掉不相关的补丁。我们通过在少样本分类基准测试(Food-101、VireoFood-172 和 UECFood-256)上的广泛实验验证了我们的方法,优于现有的最先进方法。

[2] DINOv3
标题: DINOv3
作者: Oriane Siméoni / Huy V. Vo / Maximilian Seitzer / Federico Baldassarre / Maxime Oquab / Cijo Jose / Vasil Khalidov / Marc Szafraniec / Seungeun Yi / Michaël Ramamonjisoa / Francisco Massa / Daniel Haziza / Luca Wehrstedt / Jianyuan Wang / Timothée Darcet / Théo Moutakanni / Leonel Sentana / Claire Roberts / Andrea Vedaldi / Jamie Tolan / John Brandt / Camille Couprie / Julien Mairal / Hervé Jégou / Patrick Labatut / Piotr Bojanowski
原文:   [英文]   [中文]  
备注: None
摘要:
自监督学习有望消除对手动数据标注的需求,使模型能够轻松扩展到大规模数据集和更大的架构。由于不针对特定任务或领域,这种训练范式有潜力从多种来源学习视觉表示,从自然图像到航拍图像——使用单一算法即可实现。这份技术报告介绍了DINOv3,这是实现这一愿景的重要里程碑,通过简单而有效的策略来实现。首先,我们通过精心的数据准备、设计和优化,利用数据集和模型规模扩大的优势。其次,我们引入了一种称为Gram锚定的新方法,有效解决了在长时间训练过程中密集特征图退化的已知但未解决的问题。最后,我们应用事后策略,进一步增强了模型在分辨率、模型规模和与文本对齐方面的灵活性。结果,我们展示了一个多功能的视觉基础模型,在广泛的设置中无需微调即可超越专业领域的最新技术。DINOv3生成的高质量密集特征在各种视觉任务中表现出色,显著超越了之前的自监督和弱监督基础模型。我们还分享了DINOv3视觉模型套件,旨在通过为多样的资源限制和部署场景提供可扩展的解决方案,推动广泛任务和数据的最新技术进步。

[3] 利用可解释的图文基础模型增强变形攻击检测
标题: Empowering Morphing Attack Detection using Interpretable Image-Text Foundation Model
作者: Sushrut Patwardhan / Raghavendra Ramachandra / Sushma Venkatesh
原文:   [英文]   [中文]  
备注: None
摘要:
变形攻击检测已成为面部识别系统中确保可靠验证场景的重要组成部分。在本文中,我们提出了一种多模态学习方法,可以提供变形攻击检测的文本描述。我们首先展示了使用对比语言-图像预训练(CLIP)进行零样本评估的提议框架,不仅可以实现可推广的变形攻击检测,还可以预测最相关的文本片段。我们对包括短文本和长文本提示在内的十种不同文本提示进行了广泛分析。这些提示是通过考虑人类可理解的文本片段而设计的。我们在一个使用公开可用的人脸生物识别数据集开发的人脸变形数据集上进行了广泛的实验。我们展示了SOTA预训练神经网络与所提出的框架在五种不同变形生成技术的零样本评估中的表现,这些技术是在三种不同媒介中捕获的。

[4] 通过基于LVLMs的部首和象形分析实现可解释的甲骨文解读
标题: Interpretable Oracle Bone Script Decipherment through Radical and Pictographic Analysis with LVLMs
作者: Kaixin Peng / Mengyang Zhao / Haiyang Yu / Teng Fu / Bin Li
原文:   [英文]   [中文]  
备注: None
摘要:
作为最古老的成熟书写系统,甲骨文由于其稀有性、抽象性和象形多样性,一直对考古解读构成重大挑战。当前基于深度学习的方法在甲骨文解读任务上取得了令人振奋的进展,但现有方法往往忽视了字形与甲骨文语义之间的复杂联系。这导致在处理零样本设置和未解读甲骨文时,泛化能力和可解释性有限。为此,我们提出了一种基于大型视觉语言模型的可解释甲骨文解读方法,该方法协同结合了部首分析和象形语义理解,以弥合甲骨文字形与意义之间的差距。具体而言,我们提出了一种渐进训练策略,引导模型从部首识别和分析到象形分析和相互分析,从而实现从字形到意义的推理。我们还设计了一种基于分析结果的部首-象形双重匹配机制,显著提升了模型的零样本解读性能。为了促进模型训练,我们提出了象形解读甲骨文数据集,该数据集包含47,157个汉字,附有甲骨文图像和象形分析文本。公共基准上的实验结果表明,我们的方法在Top-10准确率和卓越的零样本解读能力方面达到了最新水平。更重要的是,我们的模型提供了逻辑分析过程,可能为未解读甲骨文提供考古学上有价值的参考结果,因此在数字人文和历史研究中具有潜在应用。数据集和代码将在此https URL中发布。

[5] 深度学习在全身DXA成像中实现大规模形状和外观建模
标题: Deep Learning Enables Large-Scale Shape and Appearance Modeling in Total-Body DXA Imaging
作者: Arianna Bunnell / Devon Cataldi / Yannik Glaser / Thomas K. Wolfgruber / Steven Heymsfield / Alan B. Zonderman / Thomas L. Kelly / Peter Sadowski / John A. Shepherd
原文:   [英文]  
备注: Preprint of manuscript accepted to the ShapeMI workshop at MICCAI 2025
摘要:
全身双能X射线吸收测定(TBDXA)成像是一种相对低成本的全身成像方式,广泛用于身体成分评估。我们开发并验证了一种深度学习方法,用于在1,683个手动标注的TBDXA扫描上自动放置基准点。该方法在外部测试数据集中实现了99.5%的正确关键点比例。为了展示其在形状和外观建模(SAM)中的价值,我们的方法用于在35,928个扫描上放置关键点,涵盖五种不同的TBDXA成像模式,然后在两个未用于SAM模型生成的队列中使用双样本Kolmogorov-Smirnov检验测试与健康标记的关联。与健康生物标记相关的SAM特征分布被证明可以证实现有证据,并生成关于身体成分和形状与各种虚弱、代谢、炎症和心代谢健康标记关系的新假设。评估脚本、模型权重、自动点文件生成代码和三角测量文件可在此https URL获取。

[6] 芒果:基于多模态注意力的归一化流融合学习方法
标题: MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning
作者: Thanh-Dat Truong / Christophe Bobda / Nitin Agarwal / Khoa Luu
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,多模态学习取得了很大的成功。然而,目前的多模态融合方法采用Transformer的注意力机制来隐式学习多模态特征的潜在相关性。因此,多模态模型无法捕捉每种模态的基本特征,使得理解多模态输入的复杂结构和相关性变得困难。本文介绍了一种新颖的基于多模态注意力的正则化流(MANGO)方法,以开发显式、可解释和易处理的多模态融合学习。特别是,我们提出了一种新的可逆交叉注意力(ICA)层,用于开发基于正则化流的多模态数据模型。为了在我们提出的可逆交叉注意力层中有效捕捉多模态数据中复杂的潜在相关性,我们提出了三种新的交叉注意力机制:模态到模态交叉注意力(MMCA)、模态间交叉注意力(IMCA)和可学习的模态间交叉注意力(LICA)。最后,我们引入了一种新的基于多模态注意力的正则化流,以实现我们提出的方法在高维多模态数据上的可扩展性。我们在三种不同的多模态学习任务上进行的实验结果,即语义分割、图像到图像翻译和电影类型分类,展示了所提出方法的最新(SoTA)性能。

[7] 通过基于生成式人工智能(GenAI)的合成图像和实地图像结合自定义EfficientNetV2-L模型改进西瓜(Citrullus lanatus)病害分类
标题: Improving watermelon (Citrullus lanatus) disease classification with generative artificial intelligence (GenAI)-based synthetic and real-field images via a custom EfficientNetV2-L model
作者: Nitin Rai / Nathan S. Boyd / Gary E. Vallad / Arnold W. Schumann
原文:   [英文]   [中文]  
备注: None
摘要:
当前生成式人工智能(GenAI)模型的进步为生成高分辨率合成图像开辟了新的可能性,从而为农业中训练计算机视觉模型提供了一种有前景的替代传统图像获取的方法。在作物病害诊断的背景下,GenAI模型被用于创建各种病害的合成图像,这可能有助于模型的创建并减少对资源密集型现场数据收集的依赖。然而,关于评估将真实图像与合成图像结合以提高病害分类性能的有效性的研究有限。因此,本研究旨在探讨结合少量真实图像与合成图像是否可以提高EfficientNetV2-L模型对西瓜(Citrullus lanatus)病害分类的预测准确性。训练数据集被分为五种处理:H0(仅真实图像)、H1(仅合成图像)、H2(1:1真实与合成)、H3(1:10真实与合成)和H4(H3 + 随机图像以提高多样性和模型泛化能力)。所有处理均使用定制的EfficientNetV2-L架构进行训练,并增强了微调和迁移学习技术。在H2、H3和H4处理上训练的模型表现出高精度、召回率和F1分数。此外,加权F1分数从0.65(在H0上)增加到1.00(在H3-H4上),这表明添加少量真实图像与大量合成图像结合提高了模型性能和泛化能力。总体而言,这验证了仅靠合成图像不能充分替代真实图像的发现;相反,必须以混合方式使用两者,以最大化作物病害分类的模型性能。

[8] SynSpill:利用合成数据改进工业泄漏检测
标题: SynSpill: Improved Industrial Spill Detection With Synthetic Data
作者: Aaditya Baranwal / Abdul Mueez / Jason Voelker / Guneet Bhatia / Shruti Vyas
原文:   [英文]   [中文]  
备注: Accepted at ICCV (VISION'25 Workshop) 2025
摘要:
大规模视觉-语言模型(VLMs)通过强大的零样本能力改变了通用视觉识别。然而,在工业泄漏检测等小众且安全关键的领域中,它们的性能显著下降,因为这些领域的危险事件稀少、敏感且难以标注。这种稀缺性是由于隐私问题、数据敏感性以及真实事件的罕见性所驱动的,这使得在大多数工业环境中对检测器进行常规微调变得不可行。 我们通过引入一个以高质量合成数据生成管道为中心的可扩展框架来应对这一挑战。我们证明了这种合成语料库能够实现VLMs的有效参数高效微调(PEFT),并大幅提升了YOLO和DETR等最先进目标检测器的性能。值得注意的是,即使在没有合成数据(SynSpill数据集)的情况下,VLMs在未见过的泄漏场景中仍然比这些检测器具有更好的泛化能力。当使用SynSpill时,VLMs和检测器都取得了显著的改进,其性能变得相当。 我们的结果强调,高保真合成数据是弥合安全关键应用中领域差距的强大手段。合成生成与轻量级适应的结合为在真实数据稀缺/难以获取的工业环境中部署视觉系统提供了一种具有成本效益的可扩展途径。 项目页面:此https URL

[9] EntropyGS:一种高效的3D高斯点云熵编码方法
标题: EntropyGS: An Efficient Entropy Coding on 3D Gaussian Splatting
作者: Yuning Huang / Jiahao Pang / Fengqing Zhu / Dong Tian
原文:   [英文]   [中文]  
备注: None
摘要:
作为一种新兴的视图合成方法,3D高斯点绘(3DGS)展示了快速的训练/渲染能力,并具有卓越的视觉质量。3DGS的两个任务,高斯创建和视图渲染,通常在时间或设备上是分开的,因此3DGS高斯的存储/传输以及最终的压缩变得必要。我们首先对3DGS高斯属性进行了相关性和统计分析。一个鼓舞人心的发现是,球谐AC属性精确地遵循拉普拉斯分布,而高斯分布的混合可以近似旋转、缩放和不透明度。此外,谐波AC属性与其他属性表现出较弱的相关性,除了从颜色空间继承的相关性。我们在此提出了一种分解和参数化的熵编码方法,称为EntropyGS。在编码过程中,每个高斯属性的分布参数被估计以辅助其熵编码。根据高斯属性类型,自适应地执行熵编码的量化。EntropyGS在基准数据集上展示了大约30倍的码率减少,同时与输入的3DGS数据相比保持了相似的渲染质量,并且编码和解码时间都很快。

[10] CellSymphony:利用单细胞病理组学解码细胞的分子和表型协同作用
标题: CellSymphony: Deciphering the molecular and phenotypic orchestration of cells with single-cell pathomics
作者: Paul H. Acosta / Pingjun Chen / Simon P. Castillo / Maria Esther Salvatierra / Yinyin Yuan / Xiaoxi Pan
原文:   [英文]   [中文]  
备注: None
摘要:
Xenium 是一个新的空间转录组学平台,可以实现复杂肿瘤组织的亚细胞分辨率分析。尽管组织学图像中包含丰富的形态信息,但提取稳健的细胞级特征并将其与空间转录组学数据整合仍然是一个关键挑战。我们介绍了 CellSymphony,这是一种灵活的多模态框架,利用基础模型从 Xenium 转录组学数据和组织学图像中提取的嵌入,在真正的单细胞分辨率下进行分析。通过学习融合空间基因表达与形态背景的联合表示,CellSymphony 实现了准确的细胞类型注释,并揭示了三种癌症类型中不同的微环境生态位。该研究强调了基础模型和多模态融合在解析复杂组织生态系统中细胞的生理和表型协同作用方面的潜力。

[11] 深度学习在裂缝检测中的应用:学习范式、泛化能力和数据集的综述
标题: Deep Learning for Crack Detection: A Review of Learning Paradigms, Generalizability, and Datasets
作者: Xinan Zhang / Haolin Wang / Yung-An Hsieh / Zhongyu Yang / Anthony Yezzi / Yi-Chang Tsai
原文:   [英文]   [中文]  
备注: None
摘要:
裂缝检测在土木基础设施中起着至关重要的作用,包括对路面、建筑物等的检查,近年来深度学习在这一领域取得了显著进展。尽管在这一领域已有大量技术和综述论文,但新兴趋势正在重塑这一领域的格局。这些变化包括学习范式的转变(从完全监督学习到半监督、弱监督、无监督、少样本、领域适应和微调基础模型)、泛化能力的提升(从单一数据集性能到跨数据集评估),以及数据集重新获取的多样化(从RGB图像到基于专用传感器的数据)。在这篇综述中,我们系统地分析了这些趋势并强调了具有代表性的工作。此外,我们引入了一个使用3D激光扫描收集的新数据集3DCrack,以支持未来的研究,并进行了广泛的基准测试实验,为常用的深度学习方法(包括最近的基础模型)建立基线。我们的研究结果为基于深度学习的裂缝检测方法的演变和未来方向提供了见解。项目页面:this https URL

[12] MRFD:多区域融合解码与自一致性用于减轻LVLM中的幻觉
标题: MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs
作者: Haonan Ge / Yiwei Wang / Ming-Hsuan Yang / Yujun Cai
原文:   [英文]   [中文]  
备注: None
摘要:
大型视觉语言模型(LVLMs)在多模态任务中表现出色。然而,由于在验证图像不同区域信息的能力有限,它们常常会产生幻觉——即与视觉输入不一致的文本。为了解决这个问题,我们提出了多区域融合解码(MRFD),这是一种无需训练的解码方法,通过建模区域间的一致性来改善事实基础。MRFD 使用交叉注意力识别显著区域,为每个区域生成初始响应,并基于响应之间的 Jensen-Shannon 散度(JSD)计算可靠性权重。这些权重指导每个区域预测的一致性感知融合,使用受链式思维推理启发的区域感知提示。跨多个 LVLMs 和基准的实验表明,MRFD 在不需要模型更新的情况下显著减少了幻觉并提高了响应的事实性。

[13] 用于移动电话注视点估计的姿态鲁棒校准策略
标题: Pose-Robust Calibration Strategy for Point-of-Gaze Estimation on Mobile Phones
作者: Yujie Zhao / Jiabei Zeng / Shiguang Shan
原文:   [英文]   [中文]  
备注: Accepted for British Machine Vision Conference (BMVC) 2025
摘要:
尽管基于外观的注视点(PoG)估计有所改进,但由于个体差异,估计器在跨个体泛化方面仍然存在困难。因此,为了实现准确的PoG估计,需要进行个性化校准。然而,经过校准的PoG估计器通常对头部姿态变化很敏感。为了解决这个问题,我们研究了影响校准估计器的关键因素,并探索了对姿态具有鲁棒性的校准策略。具体来说,我们首先构建了一个基准数据集MobilePoG,其中包括32名个体在固定或连续变化的头部姿态下注视指定点的面部图像。利用这个基准数据集,我们系统地分析了校准点和头部姿态的多样性如何影响估计精度。我们的实验表明,在校准过程中引入更广泛的头部姿态范围可以提高估计器处理姿态变化的能力。基于这一见解,我们提出了一种动态校准策略,其中用户在移动手机的同时注视校准点。该策略在用户友好且高效的校准过程中自然引入了头部姿态变化,最终产生了一个比使用传统校准策略更不易受头部姿态变化影响的PoG估计器。代码和数据集可在我们的项目页面获取。

[14] 通过对比对齐和结构引导实现高保真文本到图像生成
标题: High Fidelity Text to Image Generation with Contrastive Alignment and Structural Guidance
作者: Danyi Gao
原文:   [英文]  
备注: None
摘要:
本文解决了现有文本驱动图像生成方法在语义对齐准确性和结构一致性方面的性能瓶颈。通过将文本-图像对比约束与结构引导机制相结合,提出了一种高保真图像生成方法。该方法引入了一个对比学习模块,建立了强大的跨模态对齐约束,以改善文本和图像之间的语义匹配。同时,使用语义布局图或边缘草图等结构先验来指导生成器进行空间层次的结构建模。这增强了生成图像的布局完整性和细节保真度。在整体框架中,模型联合优化对比损失、结构一致性损失和语义保留损失。采用多目标监督机制以提高生成内容的语义一致性和可控性。在COCO-2014数据集上进行了系统实验。对嵌入维度、文本长度和结构引导强度进行了敏感性分析。定量指标证实了所提方法在CLIP分数、FID和SSIM方面的优越性能。结果表明,该方法在不增加计算复杂性的情况下,有效弥合了语义对齐和结构保真之间的差距。它展示了生成语义清晰且结构完整的图像的强大能力,为联合文本-图像建模和图像生成提供了一条可行的技术路径。

[15] VIFSS:面向时间动作分割的视角不变和花样滑冰特定姿态表示学习
标题: VIFSS: View-Invariant and Figure Skating-Specific Pose Representation Learning for Temporal Action Segmentation
作者: Ryota Tanaka / Tomohiro Suzuki / Keisuke Fujii
原文:   [英文]   [中文]  
备注: None
摘要:
从视频中理解人类动作在包括体育分析在内的各个领域中起着至关重要的作用。在花样滑冰中,准确识别滑冰者执行的跳跃类型和时机对于客观的表现评估至关重要。然而,由于跳跃动作程序的细致和复杂性,这项任务通常需要专家级的知识。尽管最近的方法尝试使用时间动作分割(TAS)来自动化这项任务,但TAS在花样滑冰中的应用存在两个主要限制:标注数据不足,现有方法未考虑跳跃动作固有的三维特性和程序结构。在这项工作中,我们提出了一种新的花样滑冰跳跃TAS框架,该框架明确结合了跳跃动作的三维特性和语义程序。首先,我们提出了一种新颖的视角不变、花样滑冰特定的姿态表示学习方法(VIFSS),该方法结合了对比学习作为预训练和动作分类作为微调。对于视角不变的对比预训练,我们构建了FS-Jump3D,这是第一个专门用于花样滑冰跳跃的公开3D姿态数据集。其次,我们引入了一种细粒度的标注方案,标记了“进入(准备)”和“着陆”阶段,使TAS模型能够学习跳跃的程序结构。大量实验表明了我们框架的有效性。我们的方法在元素级TAS上实现了超过92%的F1@50,这需要识别跳跃类型和旋转级别。此外,我们表明,当微调数据有限时,视角不变的对比预训练特别有效,突出了我们方法在现实场景中的实用性。

[16] JRDB-Reasoning:用于机器人视觉推理的难度分级基准
标题: JRDB-Reasoning: A Difficulty-Graded Benchmark for Visual Reasoning in Robotics
作者: Simindokht Jahangard / Mehrzad Mohammadi / Yi Shen / Zhixi Cai / Hamid Rezatofighi
原文:   [英文]  
备注: None
摘要:
最近在视觉语言模型(VLMs)和大型语言模型(LLMs)方面的进展极大地增强了视觉推理能力,这对于像机器人这样的具身人工智能代理来说是关键能力。然而,现有的视觉推理基准往往存在几个局限:它们缺乏对推理复杂性的明确定义,无法控制生成不同难度和任务定制的问题,并且未能提供结构化的、逐步的推理注释(工作流程)。为了解决这些问题,我们形式化了推理复杂性,介绍了一种自适应查询引擎,该引擎能够生成具有详细中间注释的不同复杂性可定制问题,并扩展了JRDB数据集,增加了人与物体交互和几何关系注释,创建了JRDB-Reasoning,这是一个专为人群密集环境中的视觉推理而设计的基准。我们的引擎和基准能够对视觉推理框架进行细粒度评估,并对视觉语言模型在不同推理水平上的动态评估。

[17] 一种亚像素多模态光学遥感图像匹配方法
标题: A Sub-Pixel Multimodal Optical Remote Sensing Images Matching Method
作者: Tao Huang / Hongbo Pan / Nanxi Zhou / Shun Zhou
原文:   [英文]  
备注: None
摘要:
高精度的多模态光学图像匹配是几何处理的基础。然而,由于不同光谱响应引起的非线性辐射和几何变形差异,图像匹配精度通常会下降。为了解决这些问题,我们提出了一种相位一致性加权最小绝对偏差(PCWLAD)亚像素模板匹配方法,以提高多模态光学图像的匹配精度。该方法包括两个主要步骤:使用结构相似性指数(SSIM)进行粗匹配和使用WLAD进行精细匹配。在粗匹配步骤中,计算PC时不使用噪声滤波器,以保留原始结构细节,并使用SSIM进行模板匹配。在精细匹配步骤中,我们基于粗匹配应用了两种多模态PC模板之间的辐射和几何变换模型。此外,在模型中采用了互结构滤波,以减轻对应模板内噪声对结构一致性的影响,并使用WLAD准则估计亚像素偏移。为了评估PCWLAD的性能,我们创建了三种类型的图像数据集:可见光到红外的Landsat图像、可见光到近红外的近距离图像以及可见光到红外的无人机(UAV)图像。PCWLAD在正确匹配率(CMR)和均方根误差(RMSE)方面优于现有的八种最先进的方法,并在所有三个数据集上达到了约0.4像素的平均匹配精度。我们的软件和数据集可以在这个https URL公开获取。

[18] InterSyn:用于自然环境中动态运动合成的交错学习
标题: InterSyn: Interleaved Learning for Dynamic Motion Synthesis in the Wild
作者: Yiyi Ma / Yuanzhi Liang / Xiu Li / Chi Zhang / Xuelong Li
原文:   [英文]  
备注: Accepted by ICCV2025
摘要:
我们提出了一种用于运动合成的交错学习框架(InterSyn),该框架旨在通过学习整合的运动来生成逼真的交互动作,这些运动同时考虑了单人和多人动态。与以往将这些组件分开处理的方法不同,InterSyn采用交错学习策略来捕捉真实场景中固有的自然动态交互和细微协调。我们的框架包括两个关键模块:交错交互合成(INS)模块,该模块从第一人称视角在统一范式中共同建模单人和交互行为,以支持多角色交互;以及相对协调优化(REC)模块,该模块优化相互动态并确保角色之间的动作同步。实验结果表明,与最近的方法相比,InterSyn生成的运动序列在文本到运动的对齐度和多样性方面表现更佳,设立了稳健自然的运动合成的新标杆。此外,我们的代码将在未来开源,以促进该领域的进一步研究和发展。

[19] 从像素到掩码:分布外分割的综述
标题: From Pixel to Mask: A Survey of Out-of-Distribution Segmentation
作者: Wenjie Zhao / Jia Li / Yunhui Guo
原文:   [英文]   [中文]  
备注: None
摘要:
随着对人工智能安全性关注的增加,分布外(OoD)检测和分割引起了越来越多的关注。传统的OoD检测方法能够识别OoD对象的存在,但缺乏空间定位能力,限制了其在下游任务中的实用性。OoD分割通过在像素级别定位异常对象来解决这一限制。这一能力对于安全关键应用(如自动驾驶)至关重要,因为感知模块不仅需要检测,还需要精确分割OoD对象,从而实现有针对性的控制动作并增强整体系统的鲁棒性。在这篇综述中,我们将当前的OoD分割方法分为四类:(i)测试时的OoD分割,(ii)用于监督训练的异常暴露,(iii)基于重建的方法,(iv)以及利用强大模型的方法。我们系统地回顾了自动驾驶场景中OoD分割的最新进展,识别出新兴的挑战,并讨论了未来有前景的研究方向。

[20] 将强化学习与视觉生成模型相结合:基础与进展
标题: Integrating Reinforcement Learning with Visual Generative Models: Foundations and Advances
作者: Yuanzhi Liang / Yijie Fang / Rui Li / Ziqi Ni / Ruijie Su / Chi Zhang / Xuelong Li
原文:   [英文]   [中文]  
备注: Ongoing work
摘要:
生成模型在合成视觉内容方面取得了显著进展,包括图像、视频和3D/4D结构。然而,它们通常通过代理目标进行训练,如似然或重建损失,这些目标往往与感知质量、语义准确性或物理现实性不一致。强化学习(RL)提供了一个优化不可微分、偏好驱动和时间结构化目标的原则性框架。最近的进展展示了其在增强生成任务的可控性、一致性和与人类的对齐方面的有效性。本综述系统地概述了基于RL的视觉内容生成方法。我们回顾了RL从经典控制到其作为通用优化工具的演变,并考察了其在图像、视频和3D/4D生成中的整合。在这些领域中,RL不仅作为微调机制,还作为结构组件来使生成与复杂的高层次目标对齐。我们最后总结了RL与生成建模交叉领域的开放挑战和未来研究方向。

[21] 概念还是技能?重新思考多模态模型的指令选择
标题: Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models
作者: Andrew Bai / Justin Cui / Ruochen Wang / Cho-Jui Hsieh
原文:   [英文]   [中文]  
备注: 11 pages, 1 figure
摘要:
视觉-语言指令微调实现了两个主要目的:学习视觉概念和学习视觉技能。在本文中,我们发现视觉-语言基准测试主要从训练中受益于具有相似技能或视觉概念的指令。受到这一发现的启发,我们设计了一种简单的目标训练数据选择方法,以优化给定基准的性能。我们首先从基准中提取概念/技能,确定基准主要从相似概念或技能中受益,最后选择具有最匹配概念/技能的指令。在超过10个基准上的实验验证了我们目标数据选择方法的有效性,显示在所有基准上平均比现有最佳基线提高了0.9%,在技能集中的子集上提高了1.5%。我们的研究结果强调了在指令选择中识别固有权衡的重要性,这需要在获取概念知识与视觉技能之间进行平衡。

[22] Glo-DMU:一种用于肾小球电子显微图像超微结构特征化的深度形态学框架
标题: Glo-DMU: A Deep Morphometry Framework of Ultrastructural Characterization in Glomerular Electron Microscopic Images
作者: Zhentai Zhang / Danyi Weng / Guibin Zhang / Xiang Chen / Kaixing Long / Jian Geng / Yanmeng Lu / Lei Zhang / Zhitao Zhou / Lei Cao
原文:   [英文]   [中文]  
备注: 15 pages, 6 figures
摘要:
复杂多样的超微结构特征可以指示肾脏疾病的类型、进展和预后。最近,结合深度学习方法的计算病理学在推进肾小球超微结构的自动形态分析方面显示出巨大潜力。然而,目前的研究主要集中在单个超微结构的识别上,这使得满足实际诊断需求变得具有挑战性。在这项研究中,我们提出了超微结构特征的肾小球形态测量框架(Glo-DMU),该框架基于三个深度模型:超微结构分割模型、肾小球滤过屏障区域分类模型和电子致密沉积物检测模型。按照肾活检诊断的常规协议,该框架同时量化了三种最广泛使用的超微结构特征:肾小球基底膜的厚度、足突消失的程度以及电子致密沉积物的位置。我们在真实诊断场景中评估了115名患者,涉及9种肾病理类型,结果显示自动量化结果与病理报告中的形态描述具有良好的一致性。Glo-DMU具有全自动、高精度和高通量的特点,能够同时量化多种超微结构特征,为辅助肾脏病理学家提供了一个高效的工具。

[23] 改进多语言历史文本的光学字符识别
标题: Improving OCR for Historical Texts of Multiple Languages
作者: Hylke Westerdijk / Ben Blankenborg / Khondoker Ittehadul Islam
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了我们在光学字符识别(OCR)和文档布局分析三个任务中使用先进深度学习技术的方法和发现。首先,对于死海古卷的历史希伯来文片段,我们通过广泛的数据增强来增强数据集,并使用Kraken和TrOCR模型来提高字符识别的准确性。在分析16至18世纪会议决议的任务中,我们利用了一个卷积递归神经网络(CRNN),该网络将DeepLabV3+用于语义分割,并结合双向LSTM,采用基于置信度的伪标签来优化我们的模型。最后,对于现代英语手写识别任务,我们应用了一个带有ResNet34编码器的CRNN,使用连接时序分类(CTC)损失函数进行训练,以有效捕捉序列依赖性。该报告提供了有价值的见解,并为未来的研究提出了潜在的方向。

[24] AtomDiffuser:用于STEM成像中漂移和束损伤的时间感知退化建模
标题: AtomDiffuser: Time-Aware Degradation Modeling for Drift and Beam Damage in STEM Imaging
作者: Hao Wang / Hongkui Zheng / Kai He / Abolfazl Razi
原文:   [英文]  
备注: None
摘要:
扫描透射电子显微镜(STEM)在现代材料科学中起着关键作用,能够直接成像原子结构及其在外部干扰下的演变。然而,解释时间分辨的STEM数据仍然具有挑战性,因为存在两种交织的退化效应:由机械和热不稳定性引起的空间漂移,以及由辐射损伤导致的束诱导信号损失。这些因素以复杂且时间相关的方式扭曲了几何和强度,使得现有方法难以明确分离其影响或在原子分辨率下建模材料动态。在这项工作中,我们提出了AtomDiffuser,这是一种时间感知的退化建模框架,通过预测任意两个STEM帧之间的仿射变换和空间变化衰减图来解开样品漂移和辐射衰减。与传统的去噪或配准流程不同,我们的方法利用退化作为一种物理启发的、时间条件的过程,从而实现跨时间的可解释结构演变。AtomDiffuser在合成退化过程中训练,并且在真实世界的低温STEM数据中也表现良好。它进一步支持高分辨率的退化推断和漂移对齐,提供了可视化和量化与辐射诱导的原子不稳定性相关的退化模式的工具。

[25] 多模态视觉-语言模型的对比敏感度函数
标题: Contrast Sensitivity Function of Multimodal Vision-Language Models
作者: Pablo Hernández-Cámara / Alexandra Gomez-Villa / Jose Manuel Jaén-Lorites / Jorge Vila-Tomás / Jesus Malo / Valero Laparra
原文:   [英文]   [中文]  
备注: None
摘要:
评估多模态视觉-语言模型(VLMs)与人类感知的一致性对于理解它们如何感知低级视觉特征至关重要。人类视觉的一个关键特征是对比敏感度函数(CSF),它描述了在低对比度下对空间频率的敏感性。在此,我们引入了一种新颖的行为心理物理学启发的方法,通过直接提示聊天型VLMs在不同对比度下判断每个频率的图案可见性,以估计它们的CSF。与之前报道的方法相比,这种方法更接近心理物理学中的真实实验。我们使用带通滤波的噪声图像和多样化的提示集,评估了多种架构下的模型响应。我们发现,尽管某些模型在CSF的形状或幅度上接近人类,但没有一个模型能够完全复制两者。值得注意的是,提示措辞对响应有很大影响,这引发了对提示稳定性的担忧。我们的结果为探测多模态模型中的视觉敏感性提供了一个新框架,并揭示了它们的视觉表征与人类感知之间的关键差距。

[26] 迈向空间一致的图像生成:将内在场景属性融入扩散模型
标题: Towards Spatially Consistent Image Generation: On Incorporating Intrinsic Scene Properties into Diffusion Models
作者: Hyundo Lee / Suhyung Choi / Byoung-Tak Zhang / Inwoo Hwang
原文:   [英文]   [中文]  
备注: None
摘要:
图像生成模型在大规模数据集上训练后可以合成高质量的图像,但由于对底层结构和空间布局的信息有限,往往会产生空间不一致和失真的图像。在这项工作中,我们利用内在场景属性(例如深度、分割图),这些属性提供了关于底层场景的丰富信息,这与之前仅依赖图像-文本对或将内在属性作为条件输入的方法不同。我们的方法旨在共同生成图像及其对应的内在属性,使模型能够隐式捕捉底层场景结构,并生成更具空间一致性和现实感的图像。具体来说,我们首先使用预训练的估计器从大型图像数据集中提取丰富的内在场景属性,消除了对额外场景信息或显式3D表示的需求。然后,我们使用自动编码器将各种内在场景属性聚合成一个单一的潜在变量。在预训练的大规模潜在扩散模型(LDMs)基础上,我们的方法通过仔细共享互信息同时对图像和内在域进行去噪,使图像和内在属性能够相互反映而不降低图像质量。实验结果表明,我们的方法纠正了空间不一致性,并在保持基础模型(例如,稳定扩散)的保真度和文本对齐的同时,生成了更自然的场景布局。

[27] 通过仅对标签进行弹性变形来解锁稳健的语义分割性能,以对抗隐式标签噪声
标题: Unlocking Robust Semantic Segmentation Performance via Label-only Elastic Deformations against Implicit Label Noise
作者: Yechan Kim / Dongho Yoon / Younkwan Lee / Unse Fatima / Hong Kook Kim / Songjae Lee / Sanga Park / Jeong Ho Park / Seonjong Kang / Moongu Jeon
原文:   [英文]   [中文]  
备注: None
摘要:
尽管先前关于图像分割的研究主要集中在处理严重(或显性)标签噪声上,但现实世界的数据集也存在微妙(或隐性)的标签缺陷。这些缺陷源于固有的挑战,如模糊的物体边界和标注者的差异。虽然这些轻微和潜在的噪声并不明显,但仍可能损害模型性能。典型的数据增强方法对图像及其标签应用相同的变换,可能会放大这些微妙的缺陷,限制模型的泛化能力。在本文中,我们介绍了NSegment+,这是一种新颖的增强框架,通过解耦图像和标签的变换来应对语义分割中的现实噪声。通过仅对分割标签引入受控的弹性变形,同时保留原始图像,我们的方法鼓励模型专注于学习物体结构的稳健表示,尽管存在轻微的标签不一致。大量实验表明,NSegment+持续提高性能,在Vaihingen、LoveDA、Cityscapes和PASCAL VOC上分别实现了+2.29、+2.38、+1.75和+3.39的mIoU增益——即使没有复杂的技巧,这也突显了解决隐性标签噪声的重要性。当与其他训练技巧(包括CutMix和标签平滑)结合使用时,这些增益可以进一步放大。

[28] PQ-DAF:面向数据稀缺驾驶员分心检测的姿态驱动质量控制数据增强
标题: PQ-DAF: Pose-driven Quality-controlled Data Augmentation for Data-scarce Driver Distraction Detection
作者: Haibin Sun / Xinghui Song
原文:   [英文]   [中文]  
备注: 11 pages, 6 figures
摘要:
驾驶员分心检测对于提高交通安全和减少道路事故至关重要。然而,现有模型在实际场景中部署时常常面临泛化能力下降的问题。这一限制主要源于实际环境中数据标注成本高导致的小样本学习挑战,以及训练数据集与目标部署条件之间的显著域偏移。为了解决这些问题,我们提出了一种基于姿态驱动的质量控制数据增强框架(PQ-DAF),该框架利用视觉-语言模型进行样本过滤,以经济高效地扩展训练数据并增强跨域鲁棒性。具体而言,我们采用渐进条件扩散模型(PCDMs)来准确捕捉关键的驾驶员姿态特征并合成多样化的训练样本。然后,引入一个基于CogVLM视觉-语言模型的样本质量评估模块,根据置信度阈值过滤掉低质量的合成样本,以确保增强数据集的可靠性。大量实验表明,PQ-DAF在小样本驾驶员分心检测中显著提高了性能,在数据稀缺条件下实现了模型泛化能力的显著提升。

[29] 通过增量向量翻译文本嵌入以抑制文本到图像扩散模型中强烈纠缠的内容
标题: Translation of Text Embedding via Delta Vector to Suppress Strongly Entangled Content in Text-to-Image Diffusion Models
作者: Eunseo Koh / Seunghoo Hong / Tae-Young Kim / Simon S. Woo / Jae-Pil Heo
原文:   [英文]  
备注: None
摘要:
文本到图像(T2I)扩散模型在根据文本提示生成多样化的高质量图像方面取得了显著进展。然而,这些模型在抑制与特定词语强烈纠缠的内容时仍面临挑战。例如,当生成“查理·卓别林”的图像时,即使明确指示不包括“胡子”,它仍然会出现,因为“胡子”的概念与“查理·卓别林”紧密纠缠。为了解决这个问题,我们提出了一种新颖的方法,直接在扩散模型的文本嵌入空间中抑制这种纠缠的内容。我们的方法引入了一个增量向量,该向量修改文本嵌入以削弱生成图像中不需要的内容的影响,并且我们进一步证明该增量向量可以通过零样本方法轻松获得。此外,我们提出了一种选择性抑制增量向量(SSDV)方法,将增量向量适应到交叉注意力机制中,从而在原本会生成不需要内容的区域中实现更有效的抑制。此外,通过优化增量向量,我们在个性化的T2I模型中实现了更精确的抑制,这是之前的基线无法实现的。大量实验结果表明,我们的方法在定量和定性指标方面均显著优于现有方法。

[30] SC-Lane:用于3D车道检测的坡度感知和一致的道路高度估计框架
标题: SC-Lane: Slope-aware and Consistent Road Height Estimation Framework for 3D Lane Detection
作者: Chaesong Park / Eunbin Seo / Jihyeon Hwang / Jongwoo Lim
原文:   [英文]  
备注: 10 pages, 4 figures, 5 tables
摘要:
在本文中,我们介绍了SC-Lane,这是一种新颖的坡度感知和时间一致的高度图估计框架,用于3D车道检测。与依赖固定坡度锚点的先前方法不同,SC-Lane自适应地确定坡度特定高度特征的融合,提高了对多样化道路几何形状的鲁棒性。为此,我们提出了一个坡度感知自适应特征模块,该模块动态地从图像线索中预测适当的权重,以将多坡度表示整合到统一的高度图中。此外,高度一致性模块强制执行时间一致性,确保在连续帧中稳定和准确的高度估计,这对于真实世界的驾驶场景至关重要。为了评估SC-Lane的有效性,我们采用了三个标准化指标——平均绝对误差(MAE)、均方根误差(RMSE)和基于阈值的准确性——尽管这些指标在表面和深度估计中常见,但在道路高度评估中却未被充分利用。使用先前工作[20]中引入的LiDAR衍生高度图数据集,我们在这些指标下对我们的方法进行了基准测试,从而为未来的比较建立了严格的标准。在OpenLane基准上的大量实验表明,SC-Lane显著提高了高度估计和3D车道检测,达到了64.3%的F-score,显著超越了现有方法。有关详细结果和演示视频,请参阅我们的项目页面:this https URL

[31] 纳米控制:一种用于扩散变压器中精确和高效控制的轻量级框架
标题: NanoControl: A Lightweight Framework for Precise and Efficient Control in Diffusion Transformer
作者: Shanyuan Liu / Jian Zhu / Junda Lu / Yue Gong / Liuzhuozheng Li / Bo Cheng / Yuhang Ma / Liebucha Wu / Xiaoyu Wu / Dawei Leng / Yuhui Yin
原文:   [英文]   [中文]  
备注: None
摘要:
扩散变换器(DiTs)在文本到图像合成方面展示了卓越的能力。然而,在使用DiTs进行可控文本到图像生成的领域,大多数现有方法仍然依赖于最初为基于UNet的扩散模型设计的ControlNet范式。该范式引入了显著的参数开销和增加的计算成本。为了解决这些挑战,我们提出了纳米控制扩散变换器(NanoControl),其采用Flux作为骨干网络。我们的模型在可控文本到图像生成性能上达到了最先进的水平,同时参数数量仅增加了0.024%,GFLOPs仅增加了0.029%,从而实现了高效的可控生成。具体来说,我们没有复制DiT骨干进行控制,而是设计了一个LoRA风格(低秩适应)的控制模块,直接从原始条件输入中学习控制信号。此外,我们引入了一种KV-上下文增强机制,以一种简单但非常有效的方式将条件特定的键值信息集成到骨干中,促进条件特征的深度融合。广泛的基准实验表明,与传统控制方法相比,NanoControl显著减少了计算开销,同时保持了卓越的生成质量并实现了更好的可控性。

[32] STRIDE-QA:用于城市驾驶场景时空推理的视觉问答数据集
标题: STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes
作者: Keishi Ishihara / Kento Sasaki / Tsubasa Takahashi / Daiki Shiono / Yu Yamaguchi
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
视觉-语言模型(VLMs)已被应用于自动驾驶,以支持在复杂的现实场景中进行决策。然而,它们在静态、网络来源的图像-文本对上的训练,根本上限制了理解和预测动态交通场景所需的精确时空推理。我们通过STRIDE-QA解决了这一关键差距,这是一个用于从自我中心视角进行物理推理的大规模视觉问答(VQA)数据集。该数据集由在东京收集的100小时多传感器驾驶数据构建,捕捉了多样且具有挑战性的条件,是城市驾驶中用于时空推理的最大VQA数据集,提供了超过285K帧的1600万问答对。通过包括3D边界框、分割掩码和多目标轨迹在内的密集、自动生成的注释进行支持,该数据集独特地支持通过三个新颖的问答任务进行以对象为中心和以自我为中心的推理,这些任务需要空间定位和时间预测。我们的基准测试表明,现有的VLMs表现不佳,在预测一致性上几乎得分为零。相比之下,在STRIDE-QA上微调的VLMs表现显著提升,在空间定位上取得了55%的成功率,在未来运动预测的一致性上达到了28%,而通用VLMs几乎得分为零。因此,STRIDE-QA为开发更可靠的用于安全关键自动系统的VLMs奠定了全面的基础。

[33] CRISP:用于持续视频实例分割的对比残差注入和语义提示
标题: CRISP: Contrastive Residual Injection and Semantic Prompting for Continual Video Instance Segmentation
作者: Baichen Liu / Qi Lyu / Xudong Wang / Jiahua Dong / Lianqing Liu / Zhi Han
原文:   [英文]   [中文]  
备注: None
摘要:
持续视频实例分割要求既具备吸收新对象类别的可塑性,又具备保留先前学习内容的稳定性,同时在帧之间保持时间一致性。在这项工作中,我们引入了对比残差注入和语义提示(CRISP),这是一个早期尝试,专门用于解决持续视频实例分割中的实例级、类别级和任务级混淆。对于实例级学习,我们对实例跟踪进行建模并构建实例相关损失,该损失强调与先前查询空间的相关性,同时增强当前任务查询的特异性。对于类别级学习,我们构建了一个自适应残差语义提示(ARSP)学习框架,该框架构建了一个由类别文本生成的可学习语义残差提示池,并使用可调节的查询-提示匹配机制来建立当前任务查询与语义残差提示之间的映射关系。同时,引入了一种基于对比学习的语义一致性损失,以在增量训练期间保持对象查询和残差提示之间的语义一致性。对于任务级学习,为了确保查询空间内的跨任务相关性,我们引入了一种简洁而强大的增量提示初始化策略。在YouTube-VIS-2019和YouTube-VIS-2021数据集上的大量实验表明,CRISP在长期持续视频实例分割任务中显著优于现有的持续分割方法,避免了灾难性遗忘,并有效提高了分割和分类性能。代码可在此https URL获取。

[34] DOD-SA:红外-可见光解耦目标检测与单模态标注
标题: DOD-SA: Infrared-Visible Decoupled Object Detection with Single-Modality Annotations
作者: Hang Jin / Chenqiang Gao / Junjie Guo / Fangcen Liu / Kanghui Tian / Qinyao Chang
原文:   [英文]   [中文]  
备注: 9 pages, 5 figures
摘要:
红外-可见光目标检测在现实世界应用中展现出巨大潜力,通过利用红外和可见光图像的互补信息,实现全天候的稳健感知。然而,现有方法通常需要双模态标注,以便在预测时输出两种模态的检测结果,这导致了高昂的标注成本。为了解决这一挑战,我们提出了一种新颖的红外-可见光解耦目标检测框架,称为单模态标注的解耦目标检测(DOD-SA)。DOD-SA的架构基于单模态和双模态协作的教师-学生网络(CoSD-TSNet),该网络由单模态分支(SM-Branch)和双模态解耦分支(DMD-Branch)组成。教师模型为未标注模态生成伪标签,同时支持学生模型的训练。协作设计实现了从标注模态到未标注模态的跨模态知识转移,并促进了有效的SM到DMD分支的监督。为了进一步提高模型的解耦能力和伪标签质量,我们引入了一种渐进和自调节的训练策略(PaST),该策略分三个阶段训练模型:(1)预训练SM-Branch,(2)通过SM-Branch指导DMD-Branch的学习,以及(3)精炼DMD-Branch。此外,我们设计了一个伪标签分配器(PLA),用于跨模态对齐和配对标签,明确解决训练过程中的模态不对齐问题。在DroneVehicle数据集上的大量实验表明,我们的方法优于最新的技术水平(SOTA)。

[35] SkeySpot:自动化检测建筑行业数字电气布局图中的服务键
标题: SkeySpot: Automating Service Key Detection for Digital Electrical Layout Plans in the Construction Industry
作者: Dhruv Dosi / Rohit Meena / Param Rajpura / Yogesh Kumar Meena
原文:   [英文]   [中文]  
备注: 6 pages, preprint accepted in IEEE SMC 2025
摘要:
传统的平面图通常仅以扫描文件的形式保存,仍然是建筑、城市规划和设施管理领域的重要资源。然而,由于缺乏机器可读的平面图,大规模的解释既耗时又容易出错。自动符号识别提供了一种可扩展的解决方案,可以直接从平面图中识别服务关键符号,支持成本估算、基础设施维护和法规遵从等工作流程。本文介绍了一个标注的数字化电气布局平面图(DELP)数据集,其中包含45个扫描的电气布局平面图,标注了2,450个实例,涵盖34个不同的服务关键类别。我们提出了一个系统的评估框架,使用预训练的目标检测模型对DELP数据集进行评估。在基准测试的模型中,YOLOv8实现了最高性能,平均精度(mAP)达到82.5%。利用YOLOv8,我们开发了SkeySpot,一个轻量级的开源工具包,用于实时检测、分类和量化电气符号。SkeySpot生成结构化、标准化的输出,可以扩展用于互操作的建筑信息工作流程,最终实现与下游应用和法规平台的兼容性。通过降低对专有CAD系统的依赖并减少手动标注工作量,这种方法使电气布局的数字化对建筑行业中的中小企业(SMEs)更加可及,同时支持建筑环境中的标准化、互操作性和可持续性等更广泛的目标。

[36] 从图像到感知:通过重建图像实现感知属性的涌现
标题: From Images to Perception: Emergence of Perceptual Properties by Reconstructing Images
作者: Pablo Hernández-Cámara / Jesus Malo / Valero Laparra
原文:   [英文]   [中文]  
备注: None
摘要:
一些科学家提出,人类的视觉感知可能源于图像统计,从而在早期视觉中形成高效的神经表征。在这项工作中,我们提出了一种生物启发的架构——PerceptNet,它能够适应视网膜-V1皮层中的若干已知事实,并针对与图像重建相关的不同任务(如自动编码、去噪、去模糊和稀疏正则化)进行了端到端的优化。我们的结果表明,编码器阶段(类似V1的层)在图像失真的人类感知判断中始终表现出最高的相关性,尽管在初始化或训练中并未使用感知信息。这种一致性在中等噪声、模糊和稀疏度下表现出最佳效果。这些发现表明,视觉系统可能被调节以去除特定水平的失真和稀疏度,并且生物启发的模型可以在没有人类监督的情况下学习感知度量。

[37] 用于在线视频超分辨率的轨迹感知移位状态空间模型
标题: Trajectory-aware Shifted State Space Models for Online Video Super-Resolution
作者: Qiang Zhu / Xiandong Meng / Yuxian Jiang / Fan Zhang / David Bull / Shuyuan Zhu / Bing Zeng
原文:   [英文]   [中文]  
备注: None
摘要:
在线视频超分辨率(VSR)是一项重要技术,适用于许多实际视频处理应用,其目标是基于时间上之前的帧恢复当前的高分辨率视频帧。现有的大多数在线VSR方法仅使用一个相邻的前一帧来实现时间对齐,这限制了视频的长距离时间建模。最近,状态空间模型(SSM)被提出,具有线性计算复杂度和全局感受野,显著提高了计算效率和性能。在此背景下,本文提出了一种基于轨迹感知移位SSM(TS-Mamba)的新型在线VSR方法,利用长期轨迹建模和低复杂度Mamba实现高效的时空信息聚合。具体而言,TS-Mamba首先在视频中构建轨迹,以选择来自前一帧的最相似的标记。然后,采用由提出的移位SSM块组成的轨迹感知移位Mamba聚合(TSMA)模块来聚合选定的标记。移位SSM块基于Hilbert扫描和相应的移位操作设计,以补偿扫描损失并增强Mamba的空间连续性。此外,我们提出了一种轨迹感知损失函数来监督轨迹生成,确保在训练模型时标记选择的准确性。在三个广泛使用的VSR测试数据集上的大量实验表明,与六个在线VSR基准模型相比,我们的TS-Mamba在大多数情况下实现了最先进的性能,并减少了超过22.7%的复杂度(以MACs计)。TS-Mamba的源代码将在此https URL提供。

[38] 使用元数据增强的多头视觉变换器进行多标签植物物种预测
标题: Multi-Label Plant Species Prediction with Metadata-Enhanced Multi-Head Vision Transformers
作者: Hanna Herasimchyk / Robin Labryga / Tomislav Prusina
原文:   [英文]   [中文]  
备注: Accepted for publication at: LifeCLEF Lab at CLEF 2025 Working Notes, 2025, Madrid, Spain
摘要:
我们提出了一种多头视觉Transformer方法,用于植被样方图像中的多标签植物种类预测,以应对PlantCLEF 2025挑战。该任务涉及在单一物种植物图像上训练模型,而在多物种样方图像上进行测试,造成了显著的领域转移。我们的方法利用了预训练的DINOv2视觉Transformer基础模型(ViT-B/14),并配备了多个用于种、属和科预测的分类头,利用了分类学层次结构。主要贡献包括多尺度平铺以捕捉不同尺度的植物、基于平均预测长度的动态阈值优化,以及通过袋装和Hydra模型架构的集成策略。该方法结合了多种推理技术,包括图像裁剪以去除非植物伪影、用于预测约束的top-n过滤和logit阈值策略。实验在大约140万张涵盖7806种植物的训练图像上进行。结果显示出强劲的性能,使我们的提交在私有排行榜上排名第三。我们的代码可在此URL获取。

[39] SingleStrip:从单个标记样本中学习颅骨去除
标题: SingleStrip: learning skull-stripping from a single labeled example
作者: Bella Specktor-Fadida / Malte Hoffmann
原文:   [英文]   [中文]  
备注: Accepted as an oral presentation to the MICCAI 2025 Data Engineering in Medical Imaging (DEMI) workshop
摘要:
深度学习分割在很大程度上依赖于标记数据,但手动标记是费力且耗时的,尤其是对于诸如脑部磁共振成像(MRI)等体积图像。尽管最近的领域随机化技术通过从标签图生成多样化的训练图像来缓解对标记数据的依赖,但当可用的标签图非常少时,它们提供的解剖变异性有限。半监督自训练通过迭代地将模型预测纳入训练集来解决标签稀缺问题,使网络能够从未标记数据中学习。在这项工作中,我们结合领域随机化和自训练,以仅使用一个标记示例来训练三维颅骨剥离网络。首先,我们自动对体素强度进行分箱,生成用于合成图像的标签,以训练初始的颅骨剥离模型。其次,我们在标记示例上训练卷积自编码器(AE),并利用其重建误差来评估对未标记数据预测的脑部掩膜的质量。第三,我们选择排名靠前的伪标签来微调网络,从而在分布外数据上实现接近于使用更多标记图像训练的模型的颅骨剥离性能。我们将基于AE的排名与测试时增强下的一致性排名进行比较,发现AE方法与分割准确性之间的相关性更强。我们的结果突显了结合领域随机化和基于AE的质量控制的潜力,以实现从极少标记数据中进行有效的半监督分割。这一策略可能会减轻在涉及新解剖结构或新兴成像技术的研究中减缓进展的标记负担。

[40] 增强稀疏点云数据处理以实现隐私感知的人类动作识别
标题: Enhanced Sparse Point Cloud Data Processing for Privacy-aware Human Action Recognition
作者: Maimunatu Tunau / Vincent Gbouna Zakka / Zhuangzhuang Dai
原文:   [英文]   [中文]  
备注: None
摘要:
人体动作识别(HAR)在医疗保健、健身追踪和环境辅助生活技术中起着至关重要的作用。虽然传统的基于视觉的HAR系统效果显著,但它们存在隐私问题。毫米波雷达传感器提供了一种保护隐私的替代方案,但由于其点云数据稀疏且噪声较大,带来了挑战。在文献中,三种主要的数据处理方法:基于密度的噪声应用空间聚类(DBSCAN)、匈牙利算法和卡尔曼滤波已被广泛用于提高雷达数据的质量和连续性。然而,对这些方法的全面评估,无论是单独还是组合使用,仍然缺乏。本文通过使用MiliPoint数据集对这三种方法进行详细的性能分析来填补这一空白。我们分别评估每种方法、所有可能的成对组合以及三者的组合,评估识别准确性和计算成本。此外,我们提出了针对个别方法的改进措施,以提高准确性。我们的结果提供了关于每种方法及其集成的优势和权衡的关键见解,为未来基于毫米波的HAR系统的研究提供指导。

[41] STAMP:用于多中心组织病理学图像中STAS诊断的多模式注意力感知多实例学习
标题: STAMP: Multi-pattern Attention-aware Multiple Instance Learning for STAS Diagnosis in Multi-center Histopathology Images
作者: Liangrui Pan / xiaoyu Li / Guang Zhu / Guanting Li / Ruixin Wang / Jiadi Luo / Yaning Yang / Liang qingchun / Shaoliang Peng
原文:   [英文]   [中文]  
备注: Submit to AAAI2026
摘要:
通过气腔扩散(STAS)构成了一种新的肺腺癌(LUAD)侵袭模式,与肿瘤复发和生存率下降相关。然而,在LUAD中进行大规模的STAS诊断仍然是一项劳动密集型的工作,由于其独特的病理特征和形态特征,容易被忽视和误诊。因此,迫切需要利用深度学习模型进行STAS诊断。本研究首先收集了来自中南大学湘雅二医院和湘雅三医院的STAS患者的组织病理图像,以及TCGA-LUAD队列。三位高级病理学家进行了交叉验证标注,以构建STAS-SXY、STAS-TXY和STAS-TCGA数据集。我们随后提出了一种多模式注意力感知多实例学习框架,名为STAMP,用于分析和诊断多中心组织病理图像中的STAS存在。具体而言,双分支架构引导模型从不同的语义空间学习与STAS相关的病理特征。基于Transformer的实例编码和多模式注意力聚合模块动态选择与STAS病理密切相关的区域,抑制无关噪声并增强全局表示的判别能力。此外,相似性正则化约束防止跨分支的特征冗余,从而提高整体诊断准确性。大量实验表明,STAMP在STAS-SXY、STAS-TXY和STAS-TCGA上实现了具有竞争力的诊断结果,AUC分别为0.8058、0.8017和0.7928,超过了临床水平。

[42] TweezeEdit:通过路径正则化实现一致且高效的图像编辑
标题: TweezeEdit: Consistent and Efficient Image Editing with Path Regularization
作者: Jianda Mao / Kaibo Wang / Yang Xiang / Kani Chen
原文:   [英文]   [中文]  
备注: None
摘要:
大规模预训练扩散模型通过文本指导使用户能够编辑图像。然而,现有方法往往过度对齐目标提示,而未能充分保留源图像语义。这些方法通过源图像的反演噪声(称为反演锚点)显式或隐式地生成目标图像。我们认为这种策略在语义保留方面是次优的,并且由于编辑路径过长而效率低下。我们提出了TweezeEdit,这是一种无需调优和反演的框架,用于一致且高效的图像编辑。我们的方法通过对整个去噪路径进行正则化,而不是仅依赖反演锚点,来解决这些限制,从而确保源语义的保留并缩短编辑路径。在梯度驱动的正则化指导下,我们使用一致性模型沿直接路径高效地注入目标提示语义。大量实验表明,TweezeEdit在语义保留和目标对齐方面表现优越,优于现有方法。值得注意的是,它仅需12步(每次编辑1.6秒),突显了其在实时应用中的潜力。

[43] 多样本抗锯齿与约束优化用于三维高斯点绘
标题: Multi-Sample Anti-Aliasing and Constrained Optimization for 3D Gaussian Splatting
作者: Zheng Zhou / Jia-Chen Zhang / Yu-Jie Xiong / Chun-Ming Xia
原文:   [英文]   [中文]  
备注: None
摘要:
最近在3D高斯点云方面的进展显著提升了实时新视角合成的效果,但在场景优化过程中由于几何约束不足,常常导致细节模糊的重建,特别是在高频纹理和锐利不连续区域。为了解决这个问题,我们提出了一个综合优化框架,将多重采样抗锯齿(MSAA)与双重几何约束相结合。我们的系统通过自适应混合四重子样本来计算像素颜色,有效减少了高频成分中的锯齿伪影。该框架引入了两个约束:(a)一种自适应加权策略,通过动态梯度分析优先处理重建不足的区域,以及(b)在物体边界实施几何正则化的梯度差分约束。这种有针对性的优化使模型能够优先将计算资源分配给需要细化的关键区域,同时保持全局一致性。通过多个基准的广泛实验评估表明,我们的方法在细节保留方面达到了最先进的性能,特别是在保留高频纹理和锐利不连续性方面,同时保持实时渲染效率。定量指标和感知研究证实,与基线方法相比,我们的方法在结构相似性(SSIM)和感知质量(LPIPS)方面有统计学上显著的改进。

[44] 一种基于分割驱动的螺栓缺陷增强与检测编辑方法
标题: A Segmentation-driven Editing Method for Bolt Defect Augmentation and Detection
作者: Yangjie Xiao / Ke Zhang / Jiacun Wang / Xin Sheng / Yurong Guo / Meijuan Chen / Zehua Ren / Zhaoye Zheng / Zhenbing Zhao
原文:   [英文]   [中文]  
备注: None
摘要:
螺栓缺陷检测对于确保输电线路的安全至关重要。然而,缺陷图像的稀缺性和数据分布的不平衡显著限制了检测性能。为了解决这个问题,我们提出了一种基于分割驱动的螺栓缺陷编辑方法(SBDE)来增强数据集。首先,提出了一种螺栓属性分割模型(Bolt-SAM),通过CLAHE-FFT适配器(CFA)和多部分感知掩码解码器(MAMD)增强复杂螺栓属性的分割,生成高质量的掩码用于后续编辑任务。其次,设计了一个掩码优化模块(MOD),并与图像修复模型(LaMa)集成,构建螺栓缺陷属性编辑模型(MOD-LaMa),通过属性编辑将正常螺栓转换为有缺陷的螺栓。最后,提出了一种编辑恢复增强(ERA)策略,将编辑后的缺陷螺栓恢复并放回原始检测场景中,扩展缺陷检测数据集。我们构建了多个螺栓数据集并进行了广泛的实验。实验结果表明,SBDE生成的螺栓缺陷图像显著优于最先进的图像编辑模型,并有效提高了螺栓缺陷检测的性能,充分验证了所提出方法的有效性和应用潜力。项目代码可在此网址获取。

[45] 基于EgoMusic的Skeleton Mamba人类舞蹈动作估计
标题: EgoMusic-driven Human Dance Motion Estimation with Skeleton Mamba
作者: Quang Nguyen / Nhat Le / Baoru Huang / Minh Nhat Vu / Chengcheng Tang / Van Nguyen / Ngan Le / Thieu Vo / Anh Nguyen
原文:   [英文]  
备注: Accepted at The 2025 IEEE/CVF International Conference on Computer Vision (ICCV 2025)
摘要:
估计人类舞蹈动作是一项具有多种工业应用的挑战性任务。最近,许多研究集中在使用自我中心视频或音乐作为输入来预测人类舞蹈动作。然而,从自我中心视频和音乐中联合估计人类动作的任务仍然很少被探索。在本文中,我们旨在开发一种新方法,从自我中心视频和音乐中预测人类舞蹈动作。在实践中,自我中心视角通常会遮挡身体的大部分,使得准确的全姿态估计具有挑战性。此外,结合音乐需要生成的头部和身体动作与视觉和音乐输入良好对齐。我们首先介绍EgoAIST++,这是一个新的大规模数据集,结合了自我中心视角和音乐,包含超过36小时的舞蹈动作。借鉴扩散模型和Mamba在序列建模中的成功,我们开发了一个EgoMusic Motion Network,其核心是Skeleton Mamba,明确捕捉人体骨架结构。我们说明了我们的方法在理论上是有支持的。大量实验表明,我们的方法明显优于最先进的方法,并能有效地推广到现实世界的数据。

[46] 计算机视觉中的推理:分类、模型、任务和方法
标题: Reasoning in Computer Vision: Taxonomy, Models, Tasks, and Methodologies
作者: Ayushman Sarkar / Mohd Yamani Idna Idris / Zhenyu Yu
原文:   [英文]   [中文]  
备注: None
摘要:
视觉推理对于超越表面级别的目标检测和分类的各种计算机视觉任务至关重要。尽管在关系、符号、时间、因果和常识推理方面取得了显著进展,现有的综述通常将这些方向孤立地进行讨论,缺乏对推理类型、方法和评估协议的统一分析和比较。本综述旨在填补这一空白,将视觉推理分为五大类型(关系、符号、时间、因果和常识),并系统地通过图模型、记忆网络、注意力机制和神经符号系统等架构来审视其实现。我们回顾了旨在评估功能正确性、结构一致性和因果有效性的评估协议,并批判性地分析了它们在普适性、可重复性和解释能力方面的局限性。除了评估之外,我们还识别了视觉推理中的关键开放挑战,包括对复杂场景的可扩展性、符号和神经范式的深度整合、缺乏全面的基准数据集以及在弱监督下的推理。最后,我们为下一代视觉系统勾勒了一份前瞻性的研究议程,强调连接感知和推理对于构建透明、可信赖和跨领域自适应的人工智能系统至关重要,特别是在自动驾驶和医学诊断等关键领域。

[47] Med-GLIP:通过大规模有标注数据集推进医学语言-图像预训练
标题: Med-GLIP: Advancing Medical Language-Image Pre-training with Large-scale Grounded Dataset
作者: Ziye Deng / Ruihan He / Jiaxiang Liu / Yuan Wang / Zijie Meng / Songtao Jiang / Yong Xie / Zuozhu Liu
原文:   [英文]   [中文]  
备注: None
摘要:
医学图像定位旨在将自然语言短语与医学图像中的特定区域对齐,作为智能诊断、视觉问答(VQA)和自动报告生成(MRG)的基础任务。然而,现有研究受限于有限的模态覆盖、粗粒度的标注以及缺乏统一、可推广的定位框架。为了解决这些挑战,我们构建了一个大规模医学定位数据集 Med-GLIP-5M,包含超过530万条区域级标注,涵盖七种成像模态,涉及多样的解剖结构和病理发现。该数据集支持分割和定位任务,具有分层区域标签,从器官级边界到细粒度病变。在此基础上,我们提出了 Med-GLIP,一个基于 Med-GLIP-5M 训练的模态感知定位框架。Med-GLIP 不依赖于显式设计的专家模块,而是从多样的训练数据中隐式获取分层语义理解,使其能够识别多粒度结构,例如区分肺部和肺炎病变。大量实验表明,Med-GLIP 在多个定位基准上始终优于最先进的基线。此外,将其空间输出集成到下游任务中,包括医学 VQA 和报告生成,带来了显著的性能提升。我们的数据集将很快发布。

[48] GCRPNet:用于光学遥感图像显著目标检测的图增强上下文和区域感知网络
标题: GCRPNet: Graph-Enhanced Contextual and Regional Perception Network For Salient Object Detection in Optical Remote Sensing Images
作者: Mengyu Ren / Yutong Li / Hua Li / Runmin Cong / Sam Kwong
原文:   [英文]   [中文]  
备注: None
摘要:
光学遥感图像(ORSIs)中的显著目标检测(SOD)面临诸多挑战,包括目标尺度的显著变化以及目标与背景之间的低对比度。现有基于视觉变换器(ViTs)和卷积神经网络(CNNs)架构的方法旨在利用全局和局部特征,但难以有效整合这些异构特征限制了它们的整体性能。为克服这些限制,我们提出了一种图增强的上下文和区域感知网络(GCRPNet),该网络基于Mamba架构,能够同时捕捉长距离依赖关系并增强区域特征表示。具体来说,我们采用视觉状态空间(VSS)编码器来提取多尺度特征。为了进一步实现对这些特征的深度引导和增强,我们首先设计了一个差异-相似性引导的分层图注意模块(DS-HGAM)。该模块加强了不同尺度特征之间的跨层交互能力,同时增强了模型的结构感知能力,使其能够更有效地区分前景和背景。然后,我们设计了LEVSS块作为GCRPNet的解码器。该模块整合了我们提出的自适应扫描策略和多粒度协同注意增强模块(MCAEM)。它对通过多尺度卷积处理的特征图进行自适应补丁扫描,从而捕捉丰富的局部区域信息并增强Mamba的局部建模能力。大量实验结果表明,所提出的模型达到了最先进的性能,验证了其有效性和优越性。

[49] PSScreen:部分监督的多种视网膜疾病筛查
标题: PSScreen: Partially Supervised Multiple Retinal Disease Screening
作者: Boyi Zheng / Qing Liu
原文:   [英文]   [中文]  
备注: Accepted at BMVC 2025 (Oral)
摘要:
利用多个部分标记的数据集来训练多种视网膜疾病筛查模型可以减少对完全标注数据集的依赖,但由于来自不同医疗机构的训练数据集之间存在显著的领域转移,以及部分类别标签缺失的问题,这仍然具有挑战性。为了解决这些挑战,我们提出了PSScreen,这是一种新颖的部分监督多种视网膜疾病筛查模型。我们的PSScreen由两个流组成,一个学习确定性特征,另一个通过不确定性注入学习概率特征。然后,我们利用文本指导将两种特征解耦为疾病特异性特征,并通过特征蒸馏对其进行对齐,以提高领域泛化能力。同时,我们在两个流之间采用伪标签一致性来解决标签缺失问题,并引入自蒸馏,将关于已知类别的任务相关语义从确定性流转移到概率流,以进一步增强检测性能。实验表明,我们的PSScreen显著提高了对六种视网膜疾病和正常状态的检测性能,并在域内和域外数据集上均达到了最新的结果。代码可在此https URL获取。

[50] 基于表面追踪的增强现实手术导航:比较神经外科应用中的现场可视化与工具跟踪引导
标题: AR Surgical Navigation With Surface Tracing: Comparing In-SitVisualization with Tool-Tracking Guidance for Neurosurgical Applications
作者: Marc J. Fischer / Jeffrey Potts / Gabriel Urreola / Dax Jones / Paolo Palmisciano / E. Bradley Strong / Branden Cord / Andrew D. Hernandez / Julia D. Sharma / E. Brandon Strong
原文:   [英文]  
备注: 10pages, 3 figures, will be published at ISMAR 2025 (accepted)
摘要:
增强现实(AR)外科导航系统正在成为下一代术中外科指导系统,有望克服传统导航系统的局限性。然而,由于会聚-调节冲突导致的AR深度感知问题以及当前商业可用显示技术的遮挡处理限制,在精度至关重要的外科环境中,这些问题带来了严峻挑战。本研究提出了一种新颖的方法,利用AR指导来注册解剖目标,并在临床场景中通过在模型上放置模拟外部脑室引流导管提供实时仪器导航。该系统通过一种新颖的表面追踪方法将目标位置注册到患者,并使用实时红外工具追踪来辅助导管放置,仅依赖于Microsoft HoloLens 2的内置传感器。一组预期用户在两种AR指导条件下执行模拟插入程序:静态原位可视化,即将计划轨迹直接覆盖在患者解剖结构上,以及实时工具追踪指导,即提供导管相对于计划的实时反馈。在插入测试后,获取模型的计算机断层扫描,以评估插入精度、目标偏差、角度误差和深度精度。系统可用性量表调查评估了用户体验和认知负荷。工具追踪指导在所有精度指标上提高了性能,并在主观评估中受到用户的偏爱。本文及所有补充材料的免费副本可在此https URL获取。

[51] 检索增强提示用于OOD检测
标题: Retrieval-Augmented Prompt for OOD Detection
作者: Ruisong Han / Zongbo Han / Jiahao Zhang / Mingyue Cheng / Changqing Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
分布外(OOD)检测对于机器学习模型在真实环境中的可靠部署至关重要,它能够准确识别与训练数据分布不同的测试样本。现有方法依赖于辅助的异常样本或分布内(ID)数据来生成用于训练的异常信息,但由于异常样本有限且与真实测试的OOD样本不匹配,它们往往无法提供足够的语义监督,导致性能不佳。为了解决这个问题,我们提出了一种新颖的OOD检测方法,称为检索增强提示(RAP)。RAP通过检索外部知识来增强预训练视觉-语言模型的提示,为OOD检测提供更强的语义监督。在训练过程中,RAP根据与外部文本知识的联合相似性检索异常样本的描述性词汇,并用它们来增强模型的OOD提示。在测试过程中,RAP根据遇到的OOD样本实时动态更新OOD提示,使模型能够快速适应测试环境。我们的广泛实验表明,RAP在大规模OOD检测基准上达到了最先进的性能。例如,在ImageNet-1k数据集上的1-shot OOD检测中,RAP将平均FPR95降低了7.05%,并将AUROC提高了1.71%,与之前的方法相比。此外,全面的消融研究验证了我们方法中每个模块的有效性及其基本动机。

[52] PTQAT:一种用于3D感知任务的混合参数高效量化算法
标题: PTQAT: A Hybrid Parameter-Efficient Quantization Algorithm for 3D Perception Tasks
作者: Xinhao Wang / Zhiwei Lin / Zhongyu Xia / Yongtao Wang
原文:   [英文]  
备注: 8 pages, Accepted by ICCVW 2025
摘要:
后训练量化(PTQ)和量化感知训练(QAT)是两种主流的模型量化方法。然而,PTQ通常会导致量化模型的性能显著下降,而QAT由于权重的原因需要大量的GPU内存和较长的训练时间。在本文中,我们提出了一种新颖的通用混合量化算法PTQAT,用于高效部署3D感知网络。为了在PTQ和QAT之间实现速度和精度的权衡,我们的方法选择关键层进行QAT微调,并对其余层执行PTQ。与直觉相反,微调量化前后输出差异较小的层,而不是差异较大的层,实际上可以显著提高模型的量化精度。这意味着我们更好地补偿了量化误差在传播过程中的影响,而不是在误差发生的点进行处理。所提出的PTQAT通过冻结近50%的可量化层,实现了与QAT相似的性能但更高的效率。此外,PTQAT是一种通用的量化方法,支持各种量化位宽(4位)以及不同的模型架构,包括CNN和Transformer。在nuScenes上的多种3D感知任务(包括目标检测、语义分割和占用预测)的实验结果表明,我们的方法在性能上始终优于仅使用QAT的基线。值得注意的是,在目标检测中实现了0.2%-0.9%的NDS和0.3%-1.0%的mAP提升,在语义分割和占用预测中实现了0.3%-2.0%的mIoU提升,同时微调的权重更少。

[53] HM-Talker:用于高保真说话人头像合成的混合运动建模
标题: HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis
作者: Shiyu Liu / Kui Jiang / Xianming Liu / Hongxun Yao / Xiaocheng Feng
原文:   [英文]   [中文]  
备注: None
摘要:
音频驱动的说话人视频生成在提升人机交互中的用户参与度方面具有重要作用。然而,当前的方法常常生成带有运动模糊和唇部抖动的视频,这主要是因为它们依赖于音频与面部运动相关性的隐式建模——这种方法缺乏明确的发音先验(即与语音相关的面部运动的解剖指导)。为了解决这一限制,我们提出了HM-Talker,这是一种用于生成高保真、时间一致的说话人视频的新框架。HM-Talker利用了一种结合隐式和显式运动线索的混合运动表示。显式线索使用动作单元(AUs),即解剖学上定义的面部肌肉运动,结合隐式特征以最小化音素-唇形不匹配。具体来说,我们的跨模态解耦模块(CMDM)在从音频输入中直接预测与视觉线索对齐的AUs的同时,提取互补的隐式/显式运动特征。为了减轻显式特征中的身份依赖偏差并增强跨主体的泛化能力,我们引入了混合运动建模模块(HMMM)。该模块动态合并随机配对的隐式/显式特征,强制进行身份无关的学习。这些组件共同实现了在不同身份间的稳健唇同步,推动了个性化说话人视频合成的发展。大量实验表明,HM-Talker在视觉质量和唇同步准确性方面优于最先进的方法。

[54] SpaRC-AD:端到端自动驾驶中雷达-摄像头融合的基准
标题: SpaRC-AD: A Baseline for Radar-Camera Fusion in End-to-End Autonomous Driving
作者: Philipp Wolters / Johannes Gilg / Torben Teepe / Gerhard Rigoll
原文:   [英文]  
备注: 8 pages, 4 figures, 5 tables
摘要:
端到端的自动驾驶系统通过感知、运动预测和规划的统一优化,承诺提供更强的性能。然而,基于视觉的方法在恶劣天气条件、部分遮挡和精确速度估计方面面临根本性限制——这些都是在安全敏感场景中至关重要的挑战,因为在这些场景中,准确的运动理解和长时间轨迹预测对于避免碰撞至关重要。为了解决这些限制,我们提出了SpaRC-AD,这是一种面向规划的端到端相机-雷达融合框架。通过稀疏的3D特征对齐和基于多普勒的速度估计,我们实现了强大的3D场景表示,用于精炼代理锚点、地图折线和运动建模。我们的方法在多个自动驾驶任务中相较于最新的仅视觉基线实现了显著提升,包括3D检测(+4.8% mAP)、多目标跟踪(+8.3% AMOTA)、在线映射(+1.8% mAP)、运动预测(-4.0% mADE)和轨迹规划(-0.1m L2和-9% TPC)。我们在多个具有挑战性的基准测试中实现了空间一致性和时间一致性,包括现实世界的开环nuScenes、长时间T-nuScenes和闭环模拟器Bench2Drive。我们展示了雷达融合在安全关键场景中的有效性,在这些场景中,准确的运动理解和长时间轨迹预测对于避免碰撞至关重要。所有实验的源代码可在此https URL获取。

[55] 通过交叉熵掩码调整SAM以应对遥感变化检测中的类别不平衡
标题: Adapting SAM via Cross-Entropy Masking for Class Imbalance in Remote Sensing Change Detection
作者: Humza Naveed / Xina Zeng / Mitch Bryson / Nagita Mehrseresht
原文:   [英文]   [中文]  
备注: work in progress
摘要:
基础模型在计算机视觉的多个领域取得了显著的成功。它们学习到的通用表示可以轻松迁移到训练时未见过的任务中。其中一个基础模型是“分割任何东西模型”(Segment Anything Model,SAM),它能够准确地分割图像中的物体。我们提出通过微调SAM编码器来适应遥感变化检测(RSCD),并结合时空特征增强(STFE)和多尺度解码器融合(MSDF),以在多个尺度上稳健地检测变化。此外,我们提出了一种新颖的交叉熵掩码(CEM)损失,以处理变化检测数据集中高度不平衡的类别问题。我们的方法在四个变化检测数据集(Levir-CD、WHU-CD、CLCD和S2Looking)上优于最新的(SOTA)方法。在一个大型复杂的S2Looking数据集上,我们的F1分数提高了2.5%。代码可在此URL获取:this https URL

[56] 面向多模态引导的视频对象分割的自主智能体
标题: Towards Agentic AI for Multimodal-Guided Video Object Segmentation
作者: Tuyen Tran / Thao Minh Le / Truyen Tran
原文:   [英文]   [中文]  
备注: None
摘要:
基于指示的影片对象分割是一个多模态问题,需要通过外部线索生成细粒度的分割结果。传统方法通常涉及训练专门的模型,这些模型具有高计算复杂性并需要手动标注。最近在视觉-语言基础模型方面的进展为无训练方法开辟了一个有前景的方向。一些研究探索了利用这些通用模型进行细粒度分割,取得了与完全监督、任务特定模型相当的性能。然而,现有方法依赖于固定的流程,缺乏适应任务动态变化所需的灵活性。为了解决这一限制,我们提出了多模态代理系统,这是一种新颖的代理系统,旨在以更灵活和适应的方式解决这一任务。具体来说,我们的方法利用大型语言模型(LLMs)的推理能力,为每个输入生成动态工作流程。这一自适应过程通过与一组专门为不同模态的低级任务设计的工具集进行迭代交互,来识别由多模态线索描述的目标对象。我们的代理方法在两个多模态条件的VOS任务上(RVOS和Ref-AVS)显示出明显的改进。

[57] HumanSense:通过推理多模态大语言模型,从多模态感知到具同理心的情境感知响应
标题: HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs
作者: Zheng Qin / Ruobing Zheng / Yabing Wang / Tianqi Li / Yi Yuan / Jingdong Chen / Le Wang
原文:   [英文]   [中文]  
备注: None
摘要:
尽管多模态大型语言模型(MLLMs)在实现真正的人类互动方面展现出巨大潜力,但由于缺乏针对以人为中心场景的细粒度评估框架,进展受到阻碍。这些场景既包括对复杂人类意图的理解,也包括提供富有同情心、具备上下文意识的回应。在此,我们介绍了HumanSense,一个全面的基准,旨在评估MLLMs的人类中心感知和互动能力,特别关注对扩展多模态上下文的深入理解和合理反馈的形成。我们的评估显示,领先的MLLMs在高级互动任务方面仍有相当大的改进空间。补充视觉输入以音频和文本信息可带来显著的改进,而全模态模型在这些任务上表现出优势。此外,我们认为适当的反馈源于对对话者需求和情感的上下文分析,推理能力是解锁这一能力的关键。因此,我们采用多阶段、模态渐进的强化学习来增强全模态模型的推理能力,在评估结果上取得了显著的提升。此外,我们观察到成功的推理过程表现出高度一致的思维模式。通过设计相应的提示,我们还在无需训练的情况下提升了非推理模型的性能。项目页面:\textcolor{brightpink}this https URL

[58] EvTurb: 事件相机引导的湍流去除
标题: EvTurb: Event Camera Guided Turbulence Removal
作者: Yixing Liu / Minggui Teng / Yifei Xia / Peiqi Duan / Boxin Shi
原文:   [英文]   [中文]  
备注: None
摘要:
大气湍流通过引入模糊和几何倾斜失真来降低图像质量,对后续的计算机视觉任务构成了重大挑战。现有的单帧和多帧方法由于湍流引起的失真具有复杂的组合特性,因此在处理这一高度病态的问题时显得力不从心。为了解决这个问题,我们提出了EvTurb,一种事件引导的湍流去除框架,该框架利用高速事件流来解耦模糊和倾斜效应。EvTurb通过建模基于事件的湍流形成来解耦模糊和倾斜效应,具体来说是通过一个新颖的两步事件引导网络:首先使用事件积分来减少粗略输出中的模糊。接下来,通过从原始事件流中导出的方差图来消除精细输出中的倾斜失真。此外,我们还提出了TurbEvent,这是第一个包含多样化湍流场景的真实捕获数据集。实验结果表明,EvTurb在保持计算效率的同时,超越了最先进的方法。

[59] 面向自动驾驶中2D目标检测的强大且实用的补丁攻击
标题: Towards Powerful and Practical Patch Attacks for 2D Object Detection in Autonomous Driving
作者: Yuxin Cao / Yedi Zhang / Wentao He / Yifan Liao / Yan Xiao / Chang Li / Zhiyong Huang / Jin Song Dong
原文:   [英文]   [中文]  
备注: 13 pages, 4 figures
摘要:
基于学习的自动驾驶系统在面对对抗性补丁时仍然极易受到攻击,这在其实际部署中带来了严重的安全和安保风险。黑箱攻击因其无需模型知识即可实现高攻击成功率而尤其令人担忧,其可迁移性已被广泛研究,以降低与查询攻击相比的计算成本。先前基于可迁移性的黑箱攻击通常采用平均精度均值(mAP)作为评估指标,并据此设计训练损失。然而,由于存在多个检测到的边界框和相对宽松的交并比(IoU)阈值,这些方法的攻击效果往往被高估,导致在实际攻击场景中的成功率降低。此外,在低分辨率数据上训练的补丁往往无法在高分辨率图像上保持有效性,限制了其在自动驾驶数据集上的可迁移性。为填补这一空白,我们提出了P$^3$A,一种针对自动驾驶中2D目标检测的强大且实用的补丁攻击框架,专门针对高分辨率数据集进行了优化。首先,我们引入了一种新的指标,实用攻击成功率(PASR),以更准确地量化攻击效果,并与行人安全更相关。其次,我们提出了一种定制的定位-置信度抑制损失(LCSL),以在PASR下提高攻击的可迁移性。最后,为了保持对高分辨率数据集的可迁移性,我们进一步将概率尺度保持填充(PSPP)作为数据预处理步骤纳入补丁攻击流程。大量实验表明,P$^3$A在未见过的模型和未见过的高分辨率数据集上优于最先进的攻击,无论是在所提出的基于实际IoU的评估指标下,还是在先前基于mAP的指标下。

[60] 傅里叶引导的注意力上采样用于图像超分辨率
标题: Fourier-Guided Attention Upsampling for Image Super-Resolution
作者: Daejune Choi / Youchan No / Jinhyung Lee / Duksu Kim
原文:   [英文]   [中文]  
备注: 15 pages, 7 figures, under submission to a journal
摘要:
我们提出了一种用于单图像超分辨率的轻量级上采样模块——频率引导注意力(FGA)。传统的上采样方法,如子像素卷积,虽然高效,但常常无法重建高频细节,并引入混叠伪影。FGA通过整合以下几个方面来解决这些问题:(1) 基于傅里叶特征的多层感知机(MLP)用于位置频率编码,(2) 跨分辨率相关注意力层用于自适应空间对齐,(3) 频域L1损失用于光谱保真监督。FGA仅增加了0.3M的参数,却在五种不同的超分辨率骨干网络中,无论是轻量级还是全容量场景下,都能持续提升性能。实验结果显示,平均PSNR提升了0.12~0.14 dB,频域一致性提高了最多29%,在纹理丰富的数据集上尤为明显。视觉和光谱评估证实了FGA在减少混叠和保留细节方面的有效性,使其成为传统上采样方法的实用且可扩展的替代方案。

[61] FIND-Net——用于金属伪影消除的带字典核的傅里叶集成网络
标题: FIND-Net -- Fourier-Integrated Network with Dictionary Kernels for Metal Artifact Reduction
作者: Farid Tasharofi / Fuxin Fan / Melika Qahqaie / Mareike Thies / Andreas Maier
原文:   [英文]   [中文]  
备注: Accepted at MICCAI 2025. This is the submitted version prior to peer review. The final Version of Record will appear in the MICCAI 2025 proceedings (Springer LNCS)
摘要:
金属伪影是由计算机断层扫描(CT)成像中的高密度金属植入物引起的,严重降低了图像质量,给诊断和治疗计划带来了复杂性。尽管现有的深度学习算法在金属伪影去除(MAR)方面取得了显著成功,但它们常常难以在抑制伪影的同时保留结构细节。为了解决这一挑战,我们提出了FIND-Net(傅里叶集成网络与字典核),这是一种新颖的MAR框架,结合了频域和空间域处理,以实现更优的伪影抑制和结构保留。FIND-Net结合了快速傅里叶卷积(FFC)层和可训练的高斯滤波,将MAR视为在空间和频域中运行的混合任务。这种方法增强了全局上下文理解和频率选择性,有效减少伪影的同时保持解剖结构。在合成数据集上的实验表明,FIND-Net在现有最先进的MAR方法上取得了统计上显著的改进,平均绝对误差(MAE)减少了3.07%,结构相似性(SSIM)增加了0.18%,峰值信噪比(PSNR)提高了0.90%,证实了其在不同伪影复杂性下的稳健性。此外,在真实临床CT扫描的评估中,FIND-Net证实了其在有效抑制金属引起的失真同时最小化对干净解剖区域的修改的能力。这些发现突显了FIND-Net在提升MAR性能方面的潜力,提供了更优的结构保留和改进的临床适用性。代码可在此https URL获取。

[62] 通过倒角引导提高合成图像的实用性
标题: Increasing the Utility of Synthetic Images through Chamfer Guidance
作者: Nicola Dall'Asen / Xiaofeng Zhang / Reyhane Askari Hemmat / Melissa Hall / Jakob Verbeek / Adriana Romero-Soriano / Michal Drozdzal
原文:   [英文]   [中文]  
备注: None
摘要:
条件图像生成模型在生成无限量的合成训练数据方面具有很大的潜力。然而,最近在生成质量方面的进展是以生成多样性为代价的,这限制了这些模型作为合成训练数据来源的实用性。尽管已经引入了基于指导的方法来通过关注质量或多样性来提高生成数据的实用性,但(隐式或显式的)效用函数常常忽略了合成数据与真实数据之间可能的分布偏移。在这项工作中,我们引入了Chamfer Guidance:一种无需训练的指导方法,它利用少量真实样本图像来表征合成数据的质量和多样性。我们展示了通过利用提出的Chamfer Guidance,我们可以在保持或提高ImageNet-1k和标准地理多样性基准上的生成质量的同时,提升生成相对于真实图像数据集的多样性。我们的方法在仅使用2张真实样本图像的情况下实现了最先进的少样本性能,精确度达到96.4%,分布覆盖率达到86.4%;当使用32张真实图像时,这些指标分别提高到97.5%和92.7%。我们通过在合成数据上训练下游图像分类器展示了Chamfer Guidance生成的优势,相对于基线,在分布内准确率提升高达15%,在分布外提升高达16%。此外,我们的方法不需要使用无条件模型,因此在采样时相对于基于无分类器指导的方法减少了31%的FLOPs。

[63] ChatENV:一种用于传感器引导的环境监测和场景模拟的交互式视觉语言模型
标题: ChatENV: An Interactive Vision-Language Model for Sensor-Guided Environmental Monitoring and Scenario Simulation
作者: Hosam Elgendy / Ahmed Sharshar / Ahmed Aboeitta / Mohsen Guizani
原文:   [英文]   [中文]  
备注: 11 pages, 5 figures, 7 tables
摘要:
从航空影像中理解环境变化对于气候适应性、城市规划和生态系统监测至关重要。然而,目前的视觉语言模型(VLMs)忽视了来自环境传感器的因果信号,依赖于容易产生风格偏见的单一来源的描述,并且缺乏互动的情景推理能力。我们提出了ChatENV,这是第一个能够同时对卫星图像对和真实世界传感器数据进行推理的互动VLM。我们的框架:(i)创建了一个包含177,000张图像的数据集,形成了跨197个国家的62个土地使用类别的152,000个时间对,并附有丰富的传感器元数据(例如,温度、PM10、CO);(ii)使用GPT-4o和Gemini 2.0对数据进行注释,以实现风格和语义的多样性;(iii)使用高效的低秩适应(LoRA)适配器对Qwen-2.5-VL进行微调,以用于聊天目的。ChatENV在时间和“假设”推理中表现出色(例如,BERT-F1 0.903),并能与最先进的时间模型媲美或超越,同时支持互动的情景分析。这使得ChatENV成为一个强大的工具,用于基于传感器的环境监测。

[64] 视觉编码器中的处理和获取痕迹:CLIP对你的相机了解多少?
标题: Processing and acquisition traces in visual encoders: What does CLIP know about your camera?
作者: Ryan Ramos / Vladan Stojnić / Giorgos Kordopatis-Zilos / Yuta Nakashima / Giorgos Tolias / Noa Garcia
原文:   [英文]  
备注: 8 main pages, supplementary attached, ICCV 2025 highlight
摘要:
先前的研究分析了视觉编码器对图像变换和损坏的鲁棒性,特别是在训练过程中未见过这些变化的情况下。当这种情况发生时,它们在测试时引入了一种分布偏移,通常导致性能下降。主要关注的是严重的损坏,这些损坏在被强烈应用时,会扭曲准确语义预测所需的有用信号。 我们从不同的角度出发,分析图像获取过程的参数和可能对人眼来说微妙甚至不可察觉的变换。我们发现,这些参数在学习的视觉表示中被系统地编码,并且可以很容易地恢复。更引人注目的是,它们的存在可以对语义预测产生深远的影响,无论是积极的还是消极的。这种影响取决于语义标签与这些基于获取或处理的标签之间是否存在强相关或反相关。我们的代码和数据可在此网址获取:this https URL

[65] 使用姿态估计和双向LSTM检测奶牛跛行
标题: Lameness detection in dairy cows using pose estimation and bidirectional LSTMs
作者: Helena Russello / Rik van der Tol / Eldert J. van Henten / Gert Kootstra
原文:   [英文]   [中文]  
备注: None
摘要:
本研究提出了一种结合姿态估计和双向长短期记忆(BLSTM)神经网络的跛行检测方法。结合姿态估计和BLSTM分类器提供了以下优势:无标记的姿态估计,通过从关键点轨迹中学习时间运动特征来消除手动特征工程,并且可以处理短序列和小型训练数据集。使用T-LEAP姿态估计模型从行走奶牛的视频中提取了九个关键点(位于奶牛的蹄、头部和背部)的运动序列。然后将关键点的轨迹用作BLSTM分类器的输入,该分类器经过训练以执行二元跛行分类。我们的方法显著优于依赖手动设计的运动特征的既定方法:我们最佳的架构实现了85%的分类准确率,而基于特征的方法的准确率为80%。此外,我们还展示了我们的BLSTM分类器可以仅用一秒钟的视频数据检测跛行。

[66] SemPT: 用于视觉-语言模型的语义提示微调
标题: SemPT: Semantic Prompt Tuning for Vision-Language Models
作者: Xiao Shi / Yangjun Ou / Zhenzhong Chen
原文:   [英文]   [中文]  
备注: None
摘要:
针对未见类别的视觉迁移学习是一个活跃的研究课题,但由于在保持类别特定表示和获取可迁移知识之间存在固有冲突,这也是一项具有挑战性的任务。预训练在大量图像-文本对上的视觉-语言模型(VLMs)提供了一种有前景的解决方案。然而,现有的提示调优方法依赖于稀疏的类别标签或不同的LLM生成的描述,这会使知识表示碎片化并阻碍可迁移性。为了解决这一限制,我们引入了语义提示调优(SemPT),这是一种新颖的框架,通过利用跨类别的共享属性级知识来应对泛化挑战。具体来说,SemPT采用两步提示策略来引导LLM提取共享的视觉属性并生成属性级描述,捕捉超越标签的可迁移语义线索,同时确保结构一致。然后,应用视觉引导加权到属性级描述的嵌入中,以减少来自不相关属性的噪声并增强文本嵌入。此外,图像嵌入与标签和属性增强的文本嵌入共同对齐,平衡对已见类别的区分能力和对未见类别的可迁移性。考虑到类别曝光的可用性,我们的推理动态选择已见类别的标准标签嵌入和未见类别的属性增强嵌入,以确保有效的适应性。在15个基准数据集上的广泛实验表明,SemPT在各种设置下实现了最先进的性能,包括基础到新颖的泛化、跨数据集迁移、跨域迁移和少样本学习。

[67] 串行优于并行:学习多模态视觉目标跟踪和基准测试的持续统一
标题: Serial Over Parallel: Learning Continual Unification for Multi-Modal Visual Object Tracking and Benchmarking
作者: Zhangyong Tang / Tianyang Xu / Xuefeng Zhu / Chunyang Cheng / Tao Zhou / Xiaojun Wu / Josef Kittler
原文:   [英文]   [中文]  
备注: ACMMM 2025
摘要:
由于不同模态在构建稳健的跟踪系统中具有互补性,统一多种多模态视觉目标跟踪(MMVOT)任务引起了越来越多的关注。现有的方法在单一训练过程中混合所有数据传感器类型,从数据中心的角度构建一个并行范式,旨在对所涉及任务的联合分布达到全局最优。然而,缺乏一个统一的基准,其中所有类型的数据共存,迫使评估在分离的基准上进行,导致训练和测试之间的不一致,从而导致性能下降。为了解决这些问题,这项工作在两个方面取得了进展:① 引入了一个统一的基准,称为UniBench300,通过整合多任务数据来弥合不一致性,将推理次数从三次减少到一次,并将时间消耗减少了27%。② 将统一过程重新格式化为串行格式,逐步整合新任务。通过这种方式,性能下降可以被指定为先前任务的知识遗忘,这自然与持续学习(CL)的理念一致,激励进一步探索将CL注入统一过程。在两个基线和四个基准上进行的大量实验表明,UniBench300的重要性以及CL在支持稳定统一过程中的优越性。此外,在进行专门分析时,发现性能下降与网络容量呈负相关。此外,模态差异导致任务间不同的下降水平(在MMVOT中,RGBT > RGBD > RGBE),为未来的多模态视觉研究提供了宝贵的见解。源代码和所提出的基准可在此URL获取。

[68] AddressVLM:使用大型视觉语言模型进行图像地址定位的跨视图对齐调优
标题: AddressVLM: Cross-view Alignment Tuning for Image Address Localization using Large Vision-Language Models
作者: Shixiong Xu / Chenghao Zhang / Lubin Fan / Yuan Zhou / Bin Fan / Shiming Xiang / Gaofeng Meng / Jieping Ye
原文:   [英文]   [中文]  
备注: None
摘要:
大型视觉语言模型(LVLMs)在国家或城市级别的粗粒度地理定位方面表现出色,但在城市区域内的细粒度街道级定位方面表现不佳。在本文中,我们探讨了将全市范围的地址定位能力整合到LVLMs中,以便利用街景图像实现灵活的地址相关问答。一个关键挑战是,街景视觉问答(VQA)数据仅提供微观视觉线索,导致微调模型的表现不佳。为了解决这个问题,我们引入了作为宏观线索的视角不变卫星图像,并提出了包括卫星视图和街景图像嫁接机制的跨视图对齐调优,以及自动标签生成机制。然后,通过跨视图匹配增强LVLM对街道分布的全球理解。我们提出的模型名为AddressVLM,由两个阶段的训练协议组成:跨视图对齐调优和地址定位调优。此外,我们基于来自匹兹堡和旧金山的图像地址定位数据集构建了两个街景VQA数据集。定性和定量评估表明,AddressVLM在这两个数据集上的平均地址定位准确率分别比同类LVLMs高出9%和12%以上。

[69] 混合生成融合用于高效且隐私保护的面部识别数据集生成
标题: Hybrid Generative Fusion for Efficient and Privacy-Preserving Face Recognition Dataset Generation
作者: Feiran Li / Qianqian Xu / Shilong Bao / Boyu Han / Zhiyong Yang / Qingming Huang
原文:   [英文]   [中文]  
备注: This paper has been accpeted to ICCV 2025 DataCV Workshop
摘要:
在本文中,我们介绍了我们在DataCV ICCV挑战中的方法,该挑战的核心是构建一个高质量的人脸数据集以训练人脸识别模型。构建的数据集必须不包含与任何现有公共人脸数据集重叠的身份。为应对这一挑战,我们首先对基线HSFace数据集进行了彻底清理,通过结合人脸嵌入聚类和GPT-4o辅助验证的专家混合策略,识别并移除标记错误或不一致的身份。我们保留最大的身份一致性集群,并对每个身份应用数据增强,达到固定数量的图像。为了进一步丰富数据集,我们使用稳定扩散和提示工程生成合成身份。由于扩散模型计算密集,我们仅为每个身份生成一个参考图像,并使用Vec2Face高效扩展它,快速生成49个身份一致的变体。这种混合方法融合了基于GAN和基于扩散的样本,能够高效构建多样化且高质量的数据集。为解决合成身份之间的高视觉相似性,我们采用课程学习策略,将它们放在训练计划的早期,使模型能够从简单样本逐步过渡到困难样本。我们的最终数据集包含每个身份50张图像,所有新生成的身份都与主流人脸数据集进行检查,以确保没有身份泄漏。我们的方法在比赛中获得了\textbf{第一名},实验结果表明,我们的数据集在10K、20K和100K身份规模上提高了模型性能。代码可在此https URL获取。

[70] HyperTea:一种基于超图的时序增强与对齐网络用于运动红外小目标检测
标题: HyperTea: A Hypergraph-based Temporal Enhancement and Alignment Network for Moving Infrared Small Target Detection
作者: Zhaoyuan Qi / Weihua Gao / Wenlong Niu / Jie Tang / Yun Li / Xiaodong Peng
原文:   [英文]   [中文]  
备注: None
摘要:
在实际应用场景中,由于目标尺寸小、强度弱以及运动模式复杂,移动红外小目标检测(MIRSTD)仍然极具挑战性。现有方法通常仅对特征节点之间的低阶相关性进行建模,并在单一时间尺度内进行特征提取和增强。尽管超图已被广泛用于高阶相关性学习,但在MIRSTD中却很少受到关注。为了探索超图的潜力并增强多时间尺度特征表示,我们提出了HyperTea,它结合了全局和局部时间视角,有效地建模特征的高阶时空相关性。HyperTea由三个模块组成:全局时间增强模块(GTEM)通过语义聚合和传播实现全局时间上下文增强;局部时间增强模块(LTEM)旨在捕捉相邻帧之间的局部运动模式,然后增强局部时间上下文;此外,我们进一步开发了一个时间对齐模块(TAM)以解决潜在的跨尺度特征错位问题。据我们所知,HyperTea是第一个将卷积神经网络(CNNs)、递归神经网络(RNNs)和超图神经网络(HGNNs)集成用于MIRSTD的工作,显著提高了检测性能。在DAUB和IRDST上的实验表明其达到当前最先进(SOTA)的性能。我们的源代码可在此https URL获取。

[71] 基于物理信息的联合多回波超分辨率与隐式神经表示用于稳健的胎儿T2映射
标题: Physics-Informed Joint Multi-TE Super-Resolution with Implicit Neural Representation for Robust Fetal T2 Mapping
作者: Busra Bulut / Maik Dannecker / Thomas Sanchez / Sara Neves Silva / Vladyslav Zalevskyi / Steven Jia / Jean-Baptiste Ledoux / Guillaume Auzias / François Rousseau / Jana Hutter / Daniel Rueckert / Meritxell Bach Cuadra
原文:   [英文]   [中文]  
备注: None
摘要:
胎儿脑部MRI中的T2映射有可能改善对发育中大脑的表征,特别是在中场(0.55T)时,T2衰减较慢。然而,这具有挑战性,因为胎儿MRI采集依赖于多个受运动影响的厚切片堆栈,需要进行切片到体积重建(SVR)以估计高分辨率(HR)3D体积。目前,T2映射涉及在每个回波时间(TE)重复采集这些堆栈,导致扫描时间长且对运动高度敏感。我们通过一种方法来解决这一挑战,该方法联合重建跨TE的数据,解决严重的运动问题。我们的方法结合了隐式神经表示和物理信息正则化,该正则化模拟T2衰减,使得在TE之间共享信息,同时保持解剖和定量T2的准确性。我们在模拟胎儿脑部和具有胎儿样运动的体内成人数据集上展示了最先进的性能。我们还展示了首个在0.55T的体内胎儿T2映射结果。我们的研究显示,通过利用解剖冗余,有可能减少每个TE在T2映射中的堆栈数量。

[72] IADGPT:通过上下文学习进行小样本工业异常检测、定位和推理的统一LVLM
标题: IADGPT: Unified LVLM for Few-Shot Industrial Anomaly Detection, Localization, and Reasoning via In-Context Learning
作者: Mengyang Zhao / Teng Fu / Haiyang Yu / Ke Niu / Bin Li
原文:   [英文]  
备注: None
摘要:
少样本工业异常检测(FS-IAD)在自动化工业质量检测中具有重要应用。最近,一些基于大型视觉语言模型(LVLMs)的FS-IAD方法通过提示学习或微调取得了一些成果。然而,现有的LVLMs专注于一般任务,但缺乏与FS-IAD相关的基本工业知识和推理能力,使得这些方法远不如专业的人类质量检查员。为了解决这些挑战,我们提出了一个统一框架IADGPT,旨在以类似人类的方式执行FS-IAD,同时处理相关的定位和推理任务,即使对于多样化和新颖的工业产品也是如此。为此,我们引入了一个受人类启发的三阶段渐进训练策略。具体来说,前两个阶段逐步引导IADGPT获取基本的工业知识和差异意识。在第三阶段,我们设计了一种基于上下文学习的训练范式,使IADGPT能够利用少量样本图像作为示例,以提高对新产品的泛化能力。此外,我们设计了一种策略,使IADGPT能够结合语言输出,分别使用logits输出和注意力图输出图像级和像素级异常分数,以完成异常推理。为了支持我们的训练,我们提供了一个新的数据集,包括100K张跨越400种多样化工业产品类别的图像,并附有广泛的属性级文本注释。实验表明,IADGPT在异常检测中取得了显著的性能提升,并在异常定位和推理中表现出竞争力。我们将在最终版本中发布我们的数据集。

[73] 使用DDIM反演的新颖视图合成
标题: Novel View Synthesis using DDIM Inversion
作者: Sehajdeep SIngh / A V Subramanyam
原文:   [英文]   [中文]  
备注: None
摘要:
从单张输入图像合成新视角是一项具有挑战性的任务。它需要在推断遮挡区域细节的同时,外推场景的三维结构,并在不同视角之间保持几何一致性。许多现有方法必须使用多个视图微调大型扩散骨干网络或从头训练扩散模型,这非常昂贵。此外,它们还存在模糊重建和泛化能力差的问题。这一差距为探索一种显式轻量级视图转换框架提供了机会,该框架可以在从新视角重建场景的同时,直接利用预训练扩散模型的高保真生成能力。给定单个输入图像的DDIM反演潜变量,我们采用一个相机姿态条件的转换U-Net,即TUNet,来预测与所需目标视图对应的反演潜变量。然而,使用预测的潜变量采样的图像可能导致模糊重建。为此,我们提出了一种新颖的融合策略,利用在DDIM反演中观察到的固有噪声相关结构。所提出的融合策略有助于保留纹理和细粒度细节。为了合成新视角,我们使用融合后的潜变量作为DDIM采样的初始条件,利用预训练扩散模型的生成先验。在MVImgNet上的大量实验表明,我们的方法优于现有方法。

[74] 超越传统视觉:RGB-事件融合用于动态交通场景中的鲁棒目标检测
标题: Beyond conventional vision: RGB-event fusion for robust object detection in dynamic traffic scenarios
作者: Zhanwen Liu / Yujing Sun / Yang Wang / Nan Yang / Shengbo Eben Li / Xiangmo Zhao
原文:   [英文]   [中文]  
备注: None
摘要:
传统RGB相机的动态范围限制降低了全局对比度,并导致在复杂交通环境(例如夜间驾驶、隧道)中高频细节(如纹理和边缘)的丢失,从而阻碍了判别特征的提取并降低了基于帧的目标检测性能。为了解决这个问题,我们将仿生事件相机与RGB相机结合,以提供高动态范围信息,并提出了一种运动线索融合网络(MCFNet),在具有挑战性的光照条件下实现最佳的时空对齐和自适应跨模态特征融合。具体而言,事件校正模块(ECM)通过基于光流的变形将异步事件流与图像帧在时间上对齐,并与检测网络联合优化以学习任务感知的事件表示。事件动态上采样模块(EDUM)增强事件帧的空间分辨率以匹配图像结构,确保精确的时空对齐。跨模态曼巴融合模块(CMM)使用具有新颖交错扫描机制的自适应特征融合,有效整合互补信息以实现稳健检测。在DSEC-Det和PKU-DAVIS-SOD数据集上进行的实验表明,MCFNet在各种光照不佳和快速移动的交通场景中显著优于现有方法。值得注意的是,在DSEC-Det数据集上,MCFNet取得了显著的改进,分别在mAP50和mAP指标上超越了现有最佳方法7.4%和1.7%。代码可在此https URL获取。

[75] CountCluster:用于文本到图像生成的无训练对象数量指导与交叉注意力图聚类
标题: CountCluster: Training-Free Object Quantity Guidance with Cross-Attention Map Clustering for Text-to-Image Generation
作者: Joohyeon Lee / Jin-Seop Lee / Jee-Hyong Lee
原文:   [英文]   [中文]  
备注: Under review
摘要:
基于扩散的文本到图像生成模型在图像质量和多样性方面表现出色。然而,它们在生成准确反映输入提示中指定数量的物体的图像时仍然存在困难。已有的几种方法依赖于外部计数模块进行迭代优化,或从学习的标记或潜在特征中导出的数量表示。然而,这些方法在准确反映指定物体数量方面仍然存在局限性,并忽视了一个重要的结构特征——生成图像中物体实例的数量在去噪过程的早期时间步中就已基本确定。为了在图像生成中正确反映物体数量,早期时间步中物体交叉注意力图中高度激活的区域应与输入的物体数量相匹配,同时每个区域应清晰分离。为了解决这个问题,我们提出了\textit{CountCluster},一种无需依赖任何外部工具或额外训练的方法,该方法引导物体交叉注意力图根据输入中指定的物体数量进行聚类。该方法在推理时基于注意力得分将物体交叉注意力图划分为$k$个聚类,定义一个理想的分布,其中每个聚类在空间上良好分离,并优化潜在变量以与此目标分布对齐。与现有方法相比,我们的方法在物体计数准确性上平均提高了18.5个百分点,并在各种提示下展示了卓越的数量控制性能。代码将在此URL发布:this https URL。

[76] NextStep-1:迈向大规模连续标记的自回归图像生成
标题: NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale
作者: NextStep Team / Chunrui Han / Guopeng Li / Jingwei Wu / Quan Sun / Yan Cai / Yuang Peng / Zheng Ge / Deyu Zhou / Haomiao Tang / Hongyu Zhou / Kenkun Liu / Ailin Huang / Bin Wang / Changxin Miao / Deshan Sun / En Yu / Fukun Yin / Gang Yu / Hao Nie / Haoran Lv / Hanpeng Hu / Jia Wang / Jian Zhou / Jianjian Sun / Kaijun Tan / Kang An / Kangheng Lin / Liang Zhao / Mei Chen / Peng Xing / Rui Wang / Shiyu Liu / Shutao Xia / Tianhao You / Wei Ji / Xianfang Zeng / Xin Han / Xuelin Zhang / Yana Wei / Yanming Xu / Yimin Jiang / Yingming Wang / Yu Zhou / Yucheng Han / Ziyang Meng / Binxing Jiao / Daxin Jiang / Xiangyu Zhang / Yibo Zhu
原文:   [英文]   [中文]  
备注: Code: this https URL
摘要:
现有的文本到图像生成的自回归(AR)模型要么依赖于繁重且计算密集的扩散模型来处理连续的图像标记,要么采用矢量量化(VQ)来获取具有量化损失的离散标记。在本文中,我们通过NextStep-1推进了自回归范式。NextStep-1是一个14B自回归模型,配备了一个157M流匹配头,训练时使用离散文本标记和连续图像标记,并以下一个标记预测为目标。NextStep-1在文本到图像生成任务中实现了自回归模型的最新性能,展现了高保真图像合成的强大能力。此外,我们的方法在图像编辑中表现出色,突显了我们统一方法的强大性和多功能性。为了促进开放研究,我们将向社区发布我们的代码和模型。

[77] 用于嵌入式SAR船舶目标检测和分类的轻量级卷积神经网络
标题: Lightweight CNNs for Embedded SAR Ship Target Detection and Classification
作者: Fabian Kresse / Georgios Pilikos / Mario Azcueta / Nicolas Floury
原文:   [英文]   [中文]  
备注: Accepted at Big Data from Space 2025 (BiDS'25)
摘要:
合成孔径雷达(SAR)数据能够实现对海上船只的大规模监控。然而,近实时监控目前受到限制,因为需要下行传输所有原始数据,进行图像聚焦,然后在地面上进行分析。通过机载处理生成更高级别的产品可以减少需要下行传输的数据量,从而缓解带宽限制并最小化延迟。然而,由于卫星的内存、处理能力和计算资源有限,传统的图像聚焦和处理算法面临挑战。本文提出并评估了专为实时推理而设计的神经网络,这些网络用于处理通过Sentinel-1在Stripmap和干涉宽幅(IW)模式下获取的未聚焦SAR数据。我们的结果表明,使用我们的一种模型进行机载处理和在FPGA上部署是可行的。此外,通过研究船只和风车之间的二元分类任务,我们证明了目标分类是可能的。

[78] 重新审视基于图像匹配的跨视图定位
标题: Revisiting Cross-View Localization from Image Matching
作者: Panwang Xia / Qiong Wu / Lei Yu / Yi Liu / Mingtao Xiong / Lei Liang / Yongjun Zhang / Yi Wan
原文:   [英文]  
备注: None
摘要:
跨视角定位旨在通过将地面视角图像与航空或卫星图像进行匹配来估计其三自由度的姿态。这在如城市峡谷和灾区等GNSS失效的环境中至关重要。现有的方法要么直接回归姿态,要么在共享的鸟瞰视角(BEV)空间中对齐特征,这两者都建立在视角之间准确的空间对应关系之上。然而,这些方法未能建立严格的跨视角对应关系,仅产生粗略或几何不一致的匹配。因此,地面与航空视角之间的细粒度图像匹配仍然是一个未解决的问题,这反过来限制了定位结果的可解释性。在本文中,我们从跨视角图像匹配的角度重新审视跨视角定位,并提出了一种新颖的框架,改进了匹配和定位。具体来说,我们引入了一个表面模型来模拟可见区域以实现准确的BEV投影,并引入了一个SimRefiner模块,通过局部-全局残差校正来优化相似性矩阵,消除了对RANSAC等后处理的依赖。为了进一步支持该领域的研究,我们引入了CVFM,这是第一个包含32,509对标注有像素级对应关系的跨视角图像对的基准。大量实验表明,我们的方法显著提高了定位精度和图像匹配质量,在极端视角差异下设定了新的基准。

[79] 利用判别性码本先验进行自回归图像生成
标题: Exploiting Discriminative Codebook Prior for Autoregressive Image Generation
作者: Longxiang Tang / Ruihang Chu / Xiang Wang / Yujin Han / Pingyu Wu / Chunming He / Yingya Zhang / Shiwei Zhang / Jiaya Jia
原文:   [英文]   [中文]  
备注: Submitted to TPAMI
摘要:
先进的基于离散标记的自回归图像生成系统首先使用码本将图像标记化为标记索引序列,然后在自回归范式中对这些序列进行建模。虽然自回归生成模型仅在索引值上进行训练,但未利用码本中包含丰富标记相似性信息的先验。最近的研究尝试通过对标记进行简单的k-means聚类来结合这种先验,从而帮助使用精简的码本训练生成模型。然而,我们发现由于固有问题,包括标记空间差异和质心距离不准确,k-means聚类在码本特征空间中表现不佳。在这项工作中,我们提出了判别码本先验提取器(DCPE),作为k-means聚类的替代方法,以更有效地挖掘和利用嵌入在码本中的标记相似性信息。DCPE用更合理的基于实例的距离替代了常用的基于质心的距离,后者被发现不适合且不准确于标记特征空间。通过使用聚合合并技术,它进一步解决了标记空间差异问题,避免分割高密度区域并聚合低密度区域。大量实验表明,DCPE是即插即用的,并能无缝集成到现有的基于码本先验的范式中。通过提取的判别先验,DCPE加速了LlamaGen-B上自回归模型的训练速度42%,并改善了最终的FID和IS性能。

[80] EgoCross:跨领域自我中心视频问答的多模态大型语言模型基准测试
标题: EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering
作者: Yanjun Li / Yuqian Fu / Tianwen Qian / Qi'ao Xu / Silong Dai / Danda Pani Paudel / Luc Van Gool / Xiaoling Wang
原文:   [英文]   [中文]  
备注: None
摘要:
最近在多模态大型语言模型(MLLMs)方面的进展显著推动了自我中心视频问答(EgocentricQA)的前沿发展。然而,现有的基准和研究主要局限于烹饪和清洁等常见的日常活动。相比之下,现实世界的应用不可避免地会遇到领域转移,其中目标领域在视觉风格和语义内容上有显著差异。为弥合这一差距,我们引入了\textbf{EgoCross},这是一个综合基准,旨在评估MLLMs在EgocentricQA中的跨领域泛化能力。EgoCross涵盖了四个多样且具有挑战性的领域,包括手术、工业、极限运动和动物视角,代表了现实且高影响力的应用场景。它包含大约1,000个问答对,跨越798个视频片段,涵盖四个关键的问答任务:预测、识别、定位和计数。每个问答对提供开放问答(OpenQA)和封闭问答(CloseQA)格式,以支持细粒度评估。大量实验表明,大多数现有的MLLMs,无论是通用型还是自我中心专用型,都难以泛化到超出日常生活的领域,突显了当前模型的局限性。此外,我们进行了几项初步研究,例如微调和强化学习,以探索潜在的改进。我们希望EgoCross和我们附带的分析将成为推进领域自适应、稳健的自我中心视频理解的基础。数据和代码将发布在:\href{this https URL}{this https URL.}

[81] 剖析广义类别发现:自我解构下的多重共识
标题: Dissecting Generalized Category Discovery: Multiplex Consensus under Self-Deconstruction
作者: Luyao Tang / Kunze Huang / Chaoqi Chen / Yuxuan Yuan / Chenxin Li / Xiaotong Tu / Xinghao Ding / Yue Huang
原文:   [英文]   [中文]  
备注: Accepted by ICCV 2025 as *** Highlight ***!
摘要:
人类的感知系统在已知和新颖类别中诱导和识别对象方面表现出色,这种能力远远超出了当前的机器学习框架。虽然广义类别发现(GCD)旨在弥合这一差距,但现有方法主要集中在优化目标函数上。我们提出了一种正交解决方案,受人类认知过程理解新颖对象的启发:将对象分解为视觉原语并建立跨知识比较。我们提出了ConGCD,通过高级语义重构建立以原语为导向的表示,通过解构绑定类内共享属性。反映人类在视觉处理中偏好的多样性,不同个体利用显性或上下文线索,我们实现了显性和上下文共识单元,分别捕捉类区分模式和固有分布不变性。共识调度器动态优化激活路径,最终预测通过多路共识集成产生。广泛的粗粒度和细粒度基准评估表明ConGCD作为一种共识感知范式的有效性。代码可在此网址获取。

[82] 隐私增强的巩膜分割基准竞赛:SSBC 2025
标题: Privacy-enhancing Sclera Segmentation Benchmarking Competition: SSBC 2025
作者: Matej Vitek / Darian Tomašević / Abhijit Das / Sabari Nathan / Gökhan Özbulak / Gözde Ayşe Tataroğlu Özbulak / Jean-Paul Calbimonte / André Anjos / Hariohm Hemant Bhatt / Dhruv Dhirendra Premani / Jay Chaudhari / Caiyong Wang / Jian Jiang / Chi Zhang / Qi Zhang / Iyyakutti Iyappan Ganapathi / Syed Sadaf Ali / Divya Velayudan / Maregu Assefa / Naoufel Werghi / Zachary A. Daniels / Leeon John / Ritesh Vyas / Jalil Nourmohammadi Khiarak / Taher Akbari Saeed / Mahsa Nasehi / Ali Kianfar / Mobina Pashazadeh Panahi / Geetanjali Sharma / Pushp Raj Panth / Raghavendra Ramachandra / Aditya Nigam / Umapada Pal / Peter Peer / Vitomir Štruc
原文:   [英文]   [中文]  
备注: IEEE International Joint Conference on Biometrics (IJCB) 2025, 13 pages
摘要:
本文总结了2025年巩膜分割基准竞赛(SSBC),该竞赛专注于开发使用合成生成的眼部图像训练的隐私保护巩膜分割模型。竞赛的目标是评估在合成数据上训练的模型与在真实世界数据集上训练的模型相比表现如何。竞赛设有两个赛道:$(i)$ 仅依赖合成数据进行模型开发,以及 $(ii)$ 将合成数据与(有限量的)真实世界数据结合/混合使用。共有九个研究小组提交了多样化的分割模型,采用了多种架构设计,包括基于变压器的解决方案、轻量级模型以及由生成框架引导的分割网络。实验在三个评估数据集上进行,这些数据集包含在不同条件下收集的合成和真实世界图像。结果表明,完全在合成数据上训练的模型可以实现具有竞争力的性能,特别是在采用专门的训练策略时,表现最佳的模型在合成数据赛道中实现了超过$0.8$的$F_1$分数。此外,混合赛道中的性能提升往往更多地由方法选择驱动,而不是通过包含真实数据,这突显了合成数据在隐私感知生物识别开发中的潜力。竞赛的代码和数据可在此URL获取:this https URL。

[83] 基于群等变表示的轴级对称性检测
标题: Axis-level Symmetry Detection with Group-Equivariant Representation
作者: Wongyun Yu / Ahyun Seo / Minsu Cho
原文:   [英文]  
备注: Accepted to ICCV 2025
摘要:
对称性是一个被广泛研究的基本概念,但在复杂场景中检测对称性仍然是计算机视觉中的一个重大挑战。最近的基于热图的方法可以定位潜在的对称轴区域,但在识别单个轴时往往缺乏精确性。在这项工作中,我们提出了一种新颖的框架,用于检测两种最常见的对称类型——反射和旋转——通过将它们表示为明确的几何原语,即线和点。我们的方法采用了一个对二面体群等变的双分支架构,每个分支专门用于利用二面体群等变特征的结构来处理其各自的对称类型。对于反射对称性,我们引入了方向锚,与群组件对齐,以实现特定方向的检测,并通过候选轴测量模式与其镜像对应物之间的相似性。对于旋转对称性,我们提出了一种旋转匹配方法,通过在固定角度间隔比较模式来识别旋转中心。大量实验表明,我们的方法达到了最先进的性能,优于现有的方法。

[84] 伪造引导学习策略与双感知网络用于Deepfake跨域检测
标题: Forgery Guided Learning Strategy with Dual Perception Network for Deepfake Cross-domain Detection
作者: Lixin Jia / Zhiqing Guo / Gaobo Yang / Liejun Wang / Keqin Li
原文:   [英文]   [中文]  
备注: None
摘要:
深度伪造技术的出现引发了一系列社会问题,受到了广泛关注。目前的深度伪造检测方法在特定数据集上表现良好,但在应用于未知伪造技术的数据集时表现不佳。此外,随着新兴伪造技术与传统伪造技术之间的差距不断扩大,依赖于常见伪造痕迹的跨域检测方法正变得越来越无效。这种情况突显了开发具有强泛化能力的深度伪造检测技术以应对快速迭代的伪造技术的紧迫性。为了解决这些挑战,我们提出了一种伪造引导学习(FGL)策略,旨在使检测网络能够持续适应未知的伪造技术。具体而言,FGL策略捕捉已知和未知伪造技术之间的差异信息,使模型能够实时动态调整其学习过程。为了进一步提高对伪造痕迹的感知能力,我们设计了一个双重感知网络(DPNet),用于捕捉伪造痕迹之间的差异和关系。在频率流中,网络动态感知并提取各种伪造技术的判别特征,建立基本的检测线索。然后将这些特征与空间特征整合并投射到嵌入空间中。此外,采用图卷积来感知整个特征空间中的关系,促进对伪造痕迹相关性的更全面理解。大量实验表明,我们的方法在不同场景中具有良好的泛化能力,并能有效处理未知伪造挑战,为深度伪造检测提供了强有力的支持。我们的代码可在此https URL上获取。

[85] 一种高效的模型驱动群体方法用于图谱构建
标题: An Efficient Model-Driven Groupwise Approach for Atlas Construction
作者: Ziwei Zou / Bei Zou / Xiaoyan Kui / Wenqi Lu / Haoran Dou / Arezoo Zakeri / Timothy Cootes / Alejandro F Frangi / Jinming Duan
原文:   [英文]   [中文]  
备注: None
摘要:
图谱构建是医学图像分析的基础,为群体级解剖建模等任务提供了标准化的空间参考。尽管数据驱动的配准方法最近在成对设置中显示出前景,但它们对大型训练数据集的依赖、有限的泛化能力以及在群体上下文中缺乏真正的推理阶段,限制了其实际应用。相比之下,模型驱动的方法提供了无需训练、理论上有依据且数据高效的替代方案,尽管在应用于大型3D数据集时常面临可扩展性和优化挑战。在这项工作中,我们介绍了DARC(通过坐标下降的微分同胚图谱配准),这是一种新颖的模型驱动群体配准框架,用于图谱构建。DARC支持广泛的图像不相似性度量,并能高效处理任意数量的3D图像而不会产生GPU内存问题。通过坐标下降策略和中心性强化激活函数,DARC生成了无偏的、具有高解剖保真度的微分同胚图谱。除了图谱构建之外,我们展示了两个关键应用:(1)单次分割,其中仅在图谱上注释的标签通过逆变形传播到个体,性能优于最先进的少样本方法;(2)形状合成,通过使用合成的微分同胚变形场扭曲图谱网格生成新的解剖变体。总体而言,DARC提供了一个灵活、可推广且资源高效的图谱构建和应用框架。

[86] 从诊断到改进:探究视觉语言模型中的空间物理推理
标题: From Diagnosis to Improvement: Probing Spatio-Physical Reasoning in Vision Language Models
作者: Tiancheng Han / Yunfei Gao / Yong Li / Wuzhou Yu / Qiaosheng Zhang / Wenqi Shao
原文:   [英文]   [中文]  
备注: 9 pages, 6 figures
摘要:
时空物理推理是理解真实物理世界的基础能力,是构建稳健世界模型的关键步骤。尽管最近的视觉语言模型(VLMs)在多模态数学和纯空间理解等专业领域取得了显著进展,但它们在时空物理推理方面的能力仍然很少被探索。本文对主流VLMs进行了全面的诊断分析,揭示了当前模型在这一关键任务上的表现不佳。进一步的详细分析表明,这种表现不佳主要归因于人类先验导致的偏见和缺乏深入推理。为了解决这些挑战,我们对Qwen2.5-VL-7B应用了监督微调,随后进行了基于规则的强化学习,从而在时空物理推理能力上取得了显著提升,并超越了领先的专有模型。然而,尽管取得了这一成功,模型在新物理场景中的泛化能力仍然有限——这凸显了在时空物理推理中需要新方法的紧迫性。

[87] AEGIS:AI生成视频序列的真实性评估基准
标题: AEGIS: Authenticity Evaluation Benchmark for AI-Generated Video Sequences
作者: Jieyu Li / Xin Zhang / Joey Tianyi Zhou
原文:   [英文]   [中文]  
备注: Proceedings of the 33rd ACM International Conference on Multimedia
摘要:
最近在人工智能生成内容方面的进展推动了高度逼真的合成视频的兴起,对社会信任和数字完整性构成了严重风险。现有的视频真实性检测基准通常在现实性、规模和复杂性方面存在不足,无法有效评估现代视觉语言模型对抗复杂伪造的能力。为了解决这一关键差距,我们引入了AEGIS,一个专门针对检测超现实和语义复杂的人工智能生成视频的大规模新基准。AEGIS包含超过10,000个经过严格筛选的真实和合成视频,这些视频由多种最先进的生成模型生成,包括Stable Video Diffusion、CogVideoX-5B、KLing和Sora,涵盖开源和专有架构。特别是,AEGIS提供了专门构建的具有增强鲁棒性评估的挑战性子集。此外,我们提供了跨语义真实性描述、运动特征和低级视觉特征的多模态注释,促进真实性检测并支持多模态融合和伪造定位等下游任务。使用先进的视觉语言模型进行的广泛实验表明,在AEGIS最具挑战性的子集上检测能力有限,突显了数据集的独特复杂性和现实性,超出了现有模型的当前泛化能力。实质上,AEGIS建立了一个不可或缺的评估基准,从根本上推动了研究向开发真正鲁棒、可靠、广泛可泛化的视频真实性检测方法迈进,以应对现实世界的伪造威胁。我们的数据集可通过此HTTPS URL获取。

[88] Video-BLADE:块稀疏注意力与步骤蒸馏相结合以实现高效视频生成
标题: Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation
作者: Youping Gu / Xiaolong Li / Yuhao Hu / Bohan Zhuang
原文:   [英文]   [中文]  
备注: Tech report
摘要:
扩散变压器目前在高质量视频生成领域处于领先地位,但其缓慢的迭代去噪过程和长序列的高昂二次注意力成本造成了显著的推理瓶颈。虽然步骤蒸馏和稀疏注意力机制作为独立的加速策略显示出希望,但有效结合这些方法面临关键挑战——无训练的整合会产生次优结果,而在步骤蒸馏后单独训练稀疏注意力则需要高昂的高质量视频数据。为克服这些限制,我们提出了BLADE,一种创新的数据无关联合训练框架,该框架引入了:(1) 自适应块稀疏注意力(ASA)机制,用于动态生成内容感知的稀疏掩码,以将计算集中在显著的时空特征上,以及(2) 基于轨迹分布匹配(TDM)的稀疏感知步骤蒸馏范式,该范式直接将稀疏性纳入蒸馏过程,而不是将其视为单独的压缩步骤,具有快速收敛性。我们在CogVideoX-5B和Wan2.1-1.3B等文本到视频模型上验证了BLADE。我们的框架在不同规模上展示了显著的效率提升。在Wan2.1-1.3B上,BLADE实现了相对于50步基线的14.10倍端到端推理加速。此外,在像CogVideoX-5B这样的视频序列长度较短的模型上,我们的框架提供了稳健的8.89倍加速。重要的是,这种加速伴随着一致的质量提升。在VBench-2.0基准上,BLADE将CogVideoX-5B的得分从0.534提升到0.569,将Wan2.1-1.3B的得分从0.563提升到0.570,这些结果在人工评估中得到了更高评分的进一步证实。我们的代码和模型权重可在此网址公开获取:this http URL。

[89] 基于生成扩散先验的超高清参考标志图像超分辨率
标题: Ultra-High-Definition Reference-Based Landmark Image Super-Resolution with Generative Diffusion Prior
作者: Zhenning Shi / Zizheng Yan / Yuhang Yu / Clara Xue / Jingyu Zhuang / Qi Zhang / Jinwei Chen / Tao Li / Qingnan Fan
原文:   [英文]   [中文]  
备注: None
摘要:
基于参考的图像超分辨率(RefSR)旨在通过利用额外的参考高分辨率(参考HR)图像中的语义和纹理信息来恢复低分辨率(LR)图像。现有的基于扩散的RefSR方法通常建立在ControlNet之上,但在有效对齐LR图像和参考HR图像之间的信息方面存在困难。此外,目前的RefSR数据集分辨率有限且图像质量较差,导致参考图像缺乏足够的细粒度细节来支持高质量的恢复。为克服上述限制,我们提出了TriFlowSR,这是一种新颖的框架,能够明确实现LR图像与参考HR图像之间的模式匹配。同时,我们引入了Landmark-4K,这是第一个用于超高清(UHD)地标场景的RefSR数据集。考虑到具有真实世界退化的UHD场景,在TriFlowSR中,我们设计了一种参考匹配策略,以有效地将LR图像与参考HR图像匹配。实验结果表明,与以往的方法相比,我们的方法能够更好地利用参考HR图像的语义和纹理信息。据我们所知,我们提出了第一个针对真实世界退化下超高清地标场景的基于扩散的RefSR流程。我们的代码和模型将在此https URL上提供。

[90] 基于光流的协作人脸活体检测
标题: Cooperative Face Liveness Detection from Optical Flow
作者: Artem Sokolov / Mikhail Nikitin / Anton Konushin
原文:   [英文]   [中文]  
备注: None
摘要:
在这项工作中,我们提出了一种新颖的基于视频的合作式人脸活体检测方法,该方法基于一种新的用户交互场景,其中参与者被指示缓慢地将正面朝向的脸靠近摄像头。这种受控的面部接近协议结合光流分析,构成了我们方法的核心创新。通过设计一个用户遵循这种特定运动模式的系统,我们能够通过神经光流估计稳健地提取面部体积信息,从而显著提高对真实人脸和各种攻击手段(包括打印照片、屏幕显示、面具和视频重播)的区分能力。我们的方法通过神经分类器处理预测的光流和RGB帧,有效利用时空特征,与被动方法相比,实现了更可靠的活体检测。

[91] VasoMIM:基于血管解剖结构感知的遮蔽图像建模用于血管分割
标题: VasoMIM: Vascular Anatomy-Aware Masked Image Modeling for Vessel Segmentation
作者: De-Xing Huang / Xiao-Hu Zhou / Mei-Jiang Gui / Xiao-Liang Xie / Shi-Qi Liu / Shuang-Yi Wang / Tian-Yu Xiang / Rui-Ze Ma / Nu-Fang Xiao / Zeng-Guang Hou
原文:   [英文]   [中文]  
备注: 14 pages, 11 figures
摘要:
在X射线血管造影中,精确的血管分割对于众多临床应用至关重要。然而,标注数据的稀缺性构成了重大挑战,这推动了自监督学习(SSL)方法的采用,例如掩码图像建模(MIM),以利用大规模未标注数据学习可迁移的表示。不幸的是,传统的MIM由于血管和背景像素之间的严重类别不平衡,往往无法捕捉到血管解剖结构,导致血管表示较弱。为了解决这个问题,我们引入了血管解剖感知的掩码图像建模(VasoMIM),这是一种专为X射线血管造影量身定制的新型MIM框架,它在预训练过程中明确地整合了解剖学知识。具体来说,它包括两个互补的组件:解剖引导的掩码策略和解剖一致性损失。前者优先掩盖含有血管的图像块,以使模型专注于重建与血管相关的区域。后者则在原始图像和重建图像之间强制保持血管语义的一致性,从而提高血管表示的可辨识性。实验证明,VasoMIM在三个数据集上实现了最先进的性能。这些发现突显了其促进X射线血管造影分析的潜力。

[92] 用于遥感图像生成的对象保真扩散
标题: Object Fidelity Diffusion for Remote Sensing Image Generation
作者: Ziqi Ye / Shuran Ma / Jie Yang / Xiaoyi Yang / Ziyang Gong / Xue Yang / Haipeng Wang
原文:   [英文]   [中文]  
备注: None
摘要:
高精度可控遥感图像生成既有意义又具有挑战性。现有的扩散模型由于无法充分捕捉形态细节,往往生成低保真图像,这可能影响目标检测模型的鲁棒性和可靠性。为了提高遥感中生成目标的准确性和保真度,本文提出了目标保真扩散(OF-Diff),有效提升了生成目标的保真度。具体来说,我们首次在遥感中基于布局提取目标的先验形状用于扩散模型。然后,我们引入了一个具有扩散一致性损失的双分支扩散模型,该模型在采样阶段无需提供真实图像即可生成高保真的遥感图像。此外,我们引入了DDPO来微调扩散过程,使生成的遥感图像更加多样化和语义一致。综合实验表明,OF-Diff在遥感领域的关键质量指标上优于现有的最先进方法。值得注意的是,多个多态和小目标类别的性能显著提高。例如,飞机、船舶和车辆的mAP分别提高了8.3%、7.7%和4.0%。

[93] 适用于移动设备的植物病害检测深度学习:针对33种作物的101个类别的轻量级卷积神经网络基准
标题: Mobile-Friendly Deep Learning for Plant Disease Detection: A Lightweight CNN Benchmark Across 101 Classes of 33 Crops
作者: Anand Kumar / Harminder Pal Monga / Tapasi Brahma / Satyam Kalra / Navas Sherif
原文:   [英文]  
备注: 15 pages, 5 figures, 2 tables
摘要:
植物疾病是全球粮食安全的重大威胁。开发能够准确检测的早期检测系统非常重要。计算机视觉技术的进步有可能解决这一挑战。我们开发了一种适合移动设备的解决方案,可以准确分类33种作物的101种植物疾病。我们通过结合不同的数据集(Plant Doc、PlantVillage和PlantWild)构建了一个综合数据集,这些数据集都是为了相同的目的。我们评估了几种轻量级架构的性能——MobileNetV2、MobileNetV3、MobileNetV3-Large和EfficientNet-B0、B1——这些架构是专门为资源受限设备的效率而选择的。结果令人鼓舞,其中EfficientNet-B1在分类准确率上表现最佳,达到94.7%。这种架构在准确性和计算效率之间取得了最佳平衡,使其非常适合在移动设备上进行实际部署。

[94] UI-Venus技术报告:使用RFT构建高性能UI代理
标题: UI-Venus Technical Report: Building High-performance UI Agents with RFT
作者: Zhangxuan Gu / Zhengwen Zeng / Zhenyu Xu / Xingran Zhou / Shuheng Shen / Yunfei Liu / Beitong Zhou / Changhua Meng / Tianyu Xia / Weizhi Chen / Yue Wen / Jingya Dou / Fei Tang / Jinzhen Lin / Yulin Liu / Zhenlin Guo / Yichen Gong / Heng Jia / Changlong Gao / Yuan Guo / Yong Deng / Zhenyu Guo / Liang Chen / Weiqiang Wang
原文:   [英文]  
备注: None
摘要:
我们介绍了UI-Venus,这是一种本地UI代理,仅基于多模态大型语言模型以截图作为输入。UI-Venus通过基于Qwen2.5-VL的强化微调(RFT),在UI定位和导航任务上取得了SOTA性能,仅使用了数十万高质量的训练样本。具体来说,UI-Venus的7B和72B变体在标准定位基准Screenspot-V2 / Pro上分别获得了94.1% / 50.8%和95.3% / 61.9%的成绩,超越了包括开源GTA1和闭源基准在内的先前SOTA基线。为了展示UI-Venus的总结和规划能力,我们还在AndroidWorld上对其进行了评估,这是一个在线UI导航竞技场,其中我们的7B和72B变体分别达到了49.1%和65.9%的成功率,同样击败了现有的基准。为了实现这一点,我们为UI定位和导航任务引入了精心设计的奖励函数以及相应的高效数据清理方法。为了进一步提升导航性能,我们提出了自我进化轨迹历史对齐和稀疏动作增强方法,优化了历史推理轨迹并平衡了稀疏但关键动作的分布,从而在复杂UI任务中实现更连贯的规划和更好的泛化。我们的贡献包括发布SOTA开源UI代理、全面的数据清理协议以及一种新颖的自我进化框架以提升导航性能,这将鼓励社区进一步的研究和发展。代码可在此网址获取。

[95] 基于多基线对比学习的自监督立体匹配
标题: Self-Supervised Stereo Matching with Multi-Baseline Contrastive Learning
作者: Peng Xu / Zhiyu Xiang / Jingyun Fu / Tianyu Pu / Kai Wang / Chaojie Ji / Tingming Bai / Eryun Liu
原文:   [英文]   [中文]  
备注: None
摘要:
当前的自监督立体匹配依赖于光度一致性假设,但在遮挡区域由于对应关系不明确而失效。为了解决这个问题,我们提出了BaCon-Stereo,这是一种简单而有效的对比学习框架,用于在非遮挡和遮挡区域进行自监督立体网络训练。我们采用了一个教师-学生范式,使用多基线输入,其中输入给教师和学生的立体对共享相同的参考视图,但目标视图不同。从几何上看,学生目标视图中被遮挡的区域通常在教师的视图中是可见的,这使得教师在这些区域的预测更容易。教师的预测被重新调整以匹配学生的基线,然后用于监督学生。我们还引入了一个遮挡感知注意力图,以更好地指导学生学习遮挡补全。为了支持训练,我们合成了一个多基线数据集BaCon-20k。大量实验表明,BaCon-Stereo在遮挡和非遮挡区域的预测中都有所改进,具有很强的泛化性和鲁棒性,并且在KITTI 2015和2012基准测试中优于最先进的自监督方法。我们的代码和数据集将在论文接受后发布。

[96] 使用客户端自适应焦点调制的可推广联邦学习
标题: Generalizable Federated Learning using Client Adaptive Focal Modulation
作者: Tajamul Ashraf / Iqra Altaf Gillani
原文:   [英文]  
备注: WACV 2024 Extended Paper
摘要:
联邦学习(FL)在保护隐私的分布式客户端协作训练中已被证明是必不可少的。我们之前的工作,TransFed,介绍了一种强大的基于变压器的FL框架,该框架利用学习适应的超网络为每个客户端生成个性化的焦点调制层,在非独立同分布和跨域设置中优于传统方法。在这个扩展版本中,我们提出了AdaptFED,通过以下方式深入研究了在可推广FL中的焦点调制:(1)一种改进的适应策略,整合了任务感知的客户端嵌入,以进一步个性化调制动态,(2)增强的适应性能理论界限,以及(3)在包括时间序列和多语言数据的额外模态上的更广泛的实证验证。我们还介绍了TransFed的一个高效变体,通过低秩超网络条件减少服务器-客户端通信开销,从而在资源受限的环境中实现可扩展部署。在八个不同数据集上的大量实验再次证明了我们的方法在无源和跨任务联邦设置中优于最先进的基线。我们的研究结果不仅扩展了FL中焦点调制的能力,还为更具适应性、可扩展性和可推广的基于变压器的联邦系统铺平了道路。代码可在此http URL获取。

[97] 层次化细粒度偏好优化用于物理合理的视频生成
标题: Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation
作者: Harold Haodong Chen / Haojian Huang / Qifeng Chen / Harry Yang / Ser-Nam Lim
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
最近在视频生成方面的进展使得创建高质量、视觉吸引力强的视频成为可能。然而,生成符合物理定律的视频仍然是需要真实感和准确性的应用中的一个关键挑战。在这项工作中,我们提出了PhysHPO,这是一种用于分层跨模态直接偏好优化的新框架,通过实现细粒度的偏好对齐来应对这一挑战,以生成物理上合理的视频。PhysHPO在四个分层粒度上优化视频对齐:a) 实例级别,将整体视频内容与输入提示对齐;b) 状态级别,使用边界帧作为锚点确保时间一致性;c) 运动级别,建模运动轨迹以实现真实的动态;d) 语义级别,保持叙述与视觉之间的逻辑一致性。认识到真实世界的视频是物理现象的最佳反映,我们进一步引入了一种自动化数据选择流程,以高效识别和利用现有大规模文本-视频数据集中的“好数据”,从而消除构建昂贵且耗时的数据集的需求。在物理聚焦和一般能力基准上的大量实验表明,PhysHPO显著提高了先进模型的物理合理性和整体视频生成质量。据我们所知,这是首次探索视频生成的细粒度偏好对齐和数据选择的工作,为更真实和人类偏好的视频生成范式铺平了道路。

[98] GPT-5在脑肿瘤MRI推理中的表现
标题: Performance of GPT-5 in Brain Tumor MRI Reasoning
作者: Mojtaba Safari / Shansong Wang / Mingzhe Hu / Zach Eidex / Qiang Li / Xiaofeng Yang
原文:   [英文]   [中文]  
备注: None
摘要:
在磁共振成像(MRI)上准确区分脑肿瘤类型对于指导神经肿瘤学的治疗计划至关重要。最近在大型语言模型(LLM)方面的进展使得视觉问答(VQA)方法能够将图像解释与自然语言推理相结合。在这项研究中,我们评估了GPT-4o、GPT-5-nano、GPT-5-mini和GPT-5在一个经过精心挑选的脑肿瘤VQA基准上,该基准来自3个脑肿瘤分割(BraTS)数据集——胶质母细胞瘤(GLI)、脑膜瘤(MEN)和脑转移瘤(MET)。每个病例包括多序列MRI三平面拼图和结构化临床特征,这些特征被转化为标准化的VQA项目。模型在零样本链式思维设置中被评估其在视觉和推理任务上的准确性。结果显示,GPT-5-mini实现了最高的宏平均准确率(44.19%),其次是GPT-5(43.71%)、GPT-4o(41.49%)和GPT-5-nano(35.85%)。性能因肿瘤亚型而异,没有单一模型在所有群体中占据主导地位。这些发现表明,GPT-5系列模型在结构化神经肿瘤学VQA任务中可以达到中等准确性,但尚未达到临床使用的可接受水平。

[99] TexVerse:具有高分辨率纹理的3D对象宇宙
标题: TexVerse: A Universe of 3D Objects with High-Resolution Textures
作者: Yibo Zhang / Li Zhang / Rui Ma / Nan Cao
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了TexVerse,这是一个具有高分辨率纹理的大规模3D数据集。尽管最近在大规模3D数据集方面的进展提升了高分辨率几何生成,但由于缺乏合适的数据集,端到端创建高分辨率纹理仍然未被充分探索。TexVerse通过一个精心策划的集合填补了这一空白,该集合包含超过858K个独特的高分辨率3D模型,这些模型来源于Sketchfab,其中包括超过158K个具有基于物理渲染(PBR)材料的模型。每个模型都包含其所有高分辨率变体,总计达到160万3D实例。TexVerse还包括专门的子集:TexVerse-Skeleton,包含69K个绑定模型,以及TexVerse-Animation,包含54K个动画模型,两者都保留了用户上传的原始骨架和动画数据。我们还提供了详细的模型注释,描述了整体特征、结构组件和复杂特征。TexVerse提供了一个高质量的数据资源,在纹理合成、PBR材料开发、动画以及各种3D视觉和图形任务中具有广泛的潜在应用。

[100] Medico 2025:胃肠道影像的视觉问答
标题: Medico 2025: Visual Question Answering for Gastrointestinal Imaging
作者: Sushant Gautam / Vajira Thambawita / Michael Riegler / Pål Halvorsen / Steven Hicks
原文:   [英文]  
备注: None
摘要:
Medico 2025 挑战赛是 MediaEval 任务系列的一部分,旨在解决胃肠道(GI)影像的视觉问答(VQA)问题。该挑战赛的重点是开发可解释的人工智能(XAI)模型,这些模型能够基于胃肠道内窥镜图像回答临床相关问题,同时提供与医学推理一致的可解释理由。挑战赛引入了两个子任务:(1)使用 Kvasir-VQA-x1 数据集回答多种类型的视觉问题,以及(2)生成多模态解释以支持临床决策。Kvasir-VQA-x1 数据集由 6,500 张图像和 159,549 个复杂的问答(QA)对构成,作为挑战赛的基准。通过结合定量性能指标和专家评审的可解释性评估,该任务旨在推进医疗图像分析中值得信赖的人工智能(AI)。参与说明、数据访问和更新的指南可在官方竞赛库中获取:this https URL

[101] ToonComposer:通过生成式后关键帧简化卡通制作
标题: ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing
作者: Lingen Li / Guangzhi Wang / Zhaoyang Zhang / Yaowei Li / Xiaoyu Li / Qi Dou / Jinwei Gu / Tianfan Xue / Ying Shan
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
传统的卡通和动漫制作包括关键帧、过渡帧和上色阶段,这些阶段需要大量的人工努力。尽管最近的人工智能技术取得了进展,现有的方法通常将这些阶段分开处理,导致错误积累和瑕疵。例如,过渡帧方法在处理大幅度运动时表现不佳,而上色方法则需要密集的逐帧草图。为了解决这些问题,我们引入了ToonComposer,这是一种将过渡帧和上色统一到单一后关键帧阶段的生成模型。ToonComposer采用稀疏草图注入机制,通过关键帧草图提供精确控制。此外,它使用卡通适配方法和空间低秩适配器,将现代视频基础模型调整到卡通领域,同时保持其时间先验不变。ToonComposer只需一个草图和一个上色参考帧即可在稀疏输入下表现出色,同时也支持在任何时间位置使用多个草图以实现更精确的运动控制。这种双重能力减少了人工工作量,提高了灵活性,使艺术家在现实场景中更具创造力。为了评估我们的模型,我们还创建了PKBench,一个包含模拟真实使用案例的人手绘草图的基准。我们的评估表明,ToonComposer在视觉质量、运动一致性和生产效率方面优于现有方法,为人工智能辅助卡通制作提供了更优越和更灵活的解决方案。

[102] STream3R:使用因果变换器的可扩展顺序3D重建
标题: STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer
作者: Yushi Lan / Yihang Luo / Fangzhou Hong / Shangchen Zhou / Honghua Chen / Zhaoyang Lyu / Shuai Yang / Bo Dai / Chen Change Loy / Xingang Pan
原文:   [英文]   [中文]  
备注: TL;DR: Streaming 4D reconstruction using causal transformer. Project page: this https URL
摘要:
我们介绍了STream3R,这是一种新颖的3D重建方法,将点图预测重新表述为仅解码器Transformer问题。现有的多视图重建的最先进方法要么依赖于昂贵的全局优化,要么依赖于在序列长度上扩展性差的简单记忆机制。相比之下,STream3R引入了一种流式框架,使用因果注意力高效处理图像序列,灵感来自现代语言建模的进展。通过从大规模3D数据集中学习几何先验,STream3R能够很好地推广到多样且具有挑战性的场景,包括传统方法常常失败的动态场景。大量实验表明,我们的方法在静态和动态场景基准测试中始终优于先前的工作。此外,STream3R本质上与LLM风格的训练基础设施兼容,能够高效地进行大规模预训练和微调,以适应各种下游3D任务。我们的结果强调了因果Transformer模型在在线3D感知中的潜力,为流媒体环境中的实时3D理解铺平了道路。更多细节可以在我们的项目页面找到:this https URL。

[103] MAESTRO:用于多模态、多时态和多光谱地球观测数据的掩码自动编码器
标题: MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data
作者: Antoine Labatie / Michael Vaccaro / Nina Lardiere / Anatol Garioud / Nicolas Gonthier
原文:   [英文]   [中文]  
备注: None
摘要:
自监督学习在遥感领域具有巨大潜力,但标准的自监督方法必须适应地球观测数据的独特特性。我们朝这个方向迈出了一步,通过对多模态、多时态和多光谱地球观测数据的融合策略和重建目标归一化方案进行全面的基准测试。基于我们的研究结果,我们提出了MAESTRO,这是一种对掩码自动编码器的新颖改进,具有优化的融合策略和量身定制的目标归一化方案,该方案引入了光谱先验作为自监督信号。在四个地球观测数据集上进行评估,MAESTRO在强烈依赖多时态动态的任务上设定了新的技术标准,同时在单一时态模态占主导地位的任务上仍然具有很强的竞争力。用于重现我们所有实验的代码可在此https URL获得。

[104] ESSENTIAL:用于视频类别增量学习的情景记忆和语义记忆整合
标题: ESSENTIAL: Episodic and Semantic Memory Integration for Video Class-Incremental Learning
作者: Jongseo Lee / Kyungho Bae / Kyle Min / Gyeong-Moon Park / Jinwoo Choi
原文:   [英文]  
备注: 2025 ICCV Highlight paper, 17 pages including supplementary material
摘要:
在这项工作中,我们解决了视频类别增量学习(VCIL)的问题。许多现有的VCIL方法通过在情景记忆中存储一些时间密集的样本进行排练训练,以减轻灾难性遗忘,但这在内存使用上效率不高。或者,一些方法存储时间稀疏的样本,牺牲了重要的时间信息,从而导致性能下降。为了解决内存效率和性能之间的权衡,我们提出了一种用于视频类别增量学习的情景和语义记忆集成方法(ESSENTIAL)。ESSENTIAL由用于存储时间稀疏特征的情景记忆和用于存储由可学习提示表示的一般知识的语义记忆组成。我们引入了一种新颖的记忆检索(MR)模块,通过交叉注意力整合情景记忆和语义提示,从而能够从时间稀疏特征中检索时间密集特征。我们在不同的数据集上严格验证了ESSENTIAL:来自TCD基准的UCF-101、HMDB51和Something-Something-V2,以及来自vCLIMB基准的UCF-101、ActivityNet和Kinetics-400。值得注意的是,ESSENTIAL在显著减少内存的情况下,在这些基准上实现了良好的性能。

[105] 人类在情境中:通过情境学习实现统一跨领域的3D人体运动建模
标题: Human-in-Context: Unified Cross-Domain 3D Human Motion Modeling via In-Context Learning
作者: Mengyuan Liu / Xinshun Wang / Zhongbin Fang / Deheng Ye / Xia Li / Tao Tang / Songtao Wu / Xiangtai Li / Ming-Hsuan Yang
原文:   [英文]   [中文]  
备注: None
摘要:
本文旨在对跨领域的3D人体运动进行建模,其中一个单一模型预计能够处理多种模态、任务和数据集。现有的跨领域模型通常依赖于领域特定的组件和多阶段训练,这限制了它们的实用性和可扩展性。为了克服这些挑战,我们提出了一种新的设置,通过单一过程训练一个统一的跨领域模型,消除了对领域特定组件和多阶段训练的需求。我们首先介绍了Pose-in-Context (PiC),它利用上下文学习创建一个以姿势为中心的跨领域模型。虽然PiC能够在多个基于姿势的任务和数据集上进行泛化,但它在处理模态多样性、提示策略和上下文依赖性方面遇到了困难。因此,我们提出了Human-in-Context (HiC),这是PiC的扩展,能够在模态、任务和数据集上进行更广泛的泛化。HiC在统一框架内结合了姿势和网格表示,扩大了任务覆盖范围,并纳入了更大规模的数据集。此外,HiC引入了一种最大-最小相似性提示采样策略,以增强在不同领域的泛化能力,并采用双分支上下文注入的网络架构,以改善对上下文依赖性的处理。广泛的实验结果表明,HiC在泛化、数据规模和跨多个领域的性能方面优于PiC。这些结果展示了HiC在构建一个具有更高灵活性和可扩展性的统一跨领域3D人体运动模型方面的潜力。源代码和模型可在此https URL获取。

[106] 提线木偶师:绑定并动画化您的3D模型
标题: Puppeteer: Rig and Animate Your 3D Models
作者: Chaoyue Song / Xiu Li / Fan Yang / Zhongcong Xu / Jiacheng Wei / Fayao Liu / Jiashi Feng / Guosheng Lin / Jianfeng Zhang
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
现代交互式应用程序对动态3D内容的需求日益增加,但将静态3D模型转化为动画资产仍然是内容创建流程中的一个重要瓶颈。尽管生成式人工智能的最新进展已经彻底改变了静态3D模型的创建,但绑定和动画仍然严重依赖专家的介入。我们提出了Puppeteer,一个全面的框架,解决了多样化3D对象的自动绑定和动画问题。我们的系统首先通过自回归变压器预测合理的骨骼结构,该变压器引入了一种基于关节的标记策略以实现紧凑表示,并采用分层排序方法与随机扰动以增强双向学习能力。然后,它通过一种基于注意力的架构推断蒙皮权重,该架构结合了拓扑感知的关节注意力,明确地根据骨骼图距离编码关节间关系。最后,我们通过一种基于可微分优化的动画管道补充了这些绑定进展,该管道生成稳定、高保真的动画,同时在计算上比现有方法更高效。通过多个基准的广泛评估表明,我们的方法在骨骼预测准确性和蒙皮质量方面显著优于最先进的技术。该系统能够稳健地处理多样化的3D内容,从专业设计的游戏资产到AI生成的形状,生成时间上连贯的动画,消除了现有方法中常见的抖动问题。

[107] 量子视觉场与神经振幅编码
标题: Quantum Visual Fields with Neural Amplitude Encoding
作者: Shuteng Wang / Christian Theobalt / Vladislav Golyanik
原文:   [英文]   [中文]  
备注: 17 pages, 15 figures and four tables; project page: this https URL
摘要:
量子隐式神经表示(QINRs)包括在基于门的量子计算机上进行学习和执行的组件。尽管QINRs最近作为一种有前途的新范式出现,但在其架构和ansatz设计、量子力学特性的实用性、训练效率以及与经典模块的相互作用方面仍存在许多挑战。本文通过引入一种用于2D图像和3D几何场学习的新型QINR,推动了该领域的发展,我们统称其为量子视觉场(QVF)。QVF使用基于可学习能量流形的神经振幅编码将经典数据编码到量子态向量中,确保有意义的希尔伯特空间嵌入。我们的ansatz遵循一个完全纠缠的可学习参数化量子电路设计,在实希尔伯特空间中执行量子(幺正)操作,从而实现数值稳定的训练和快速收敛。与之前的QINR学习方法不同,QVF不依赖于经典后处理,而是直接采用投影测量来提取编码在ansatz中的学习信号。在量子硬件模拟器上的实验表明,QVF在视觉表示准确性方面优于现有的量子方法和广泛使用的经典基础基准,涵盖各种指标和模型特征,如高频细节的学习。我们还展示了QVF在2D和3D场补全以及3D形状插值中的应用,突显其实际潜力。