![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年8月1日更新论文97篇
|
[1] CHECK-MAT:检查俄罗斯统一国家考试的手写数学答案 标题: CHECK-MAT: Checking Hand-Written Mathematical Answers for the Russian Unified State Exam 作者: Ruslan Khrulev 原文: [英文] [中文] 备注: 15 pages, 3 figures, 10 tables. Code is available at: this https URL 摘要: 本文介绍了一种新颖的基准——EGE-Math 解决方案评估基准,用于评估视觉语言模型(VLMs)在评估手写数学解题能力方面的表现。与现有的侧重于问题解决的基准不同,我们的方法侧重于理解学生的解题过程,识别错误,并根据固定标准进行评分。我们收集了来自俄罗斯统一国家考试(EGE)的122份扫描解答及其官方专家评分,并在三种推理模式下评估了来自谷歌、OpenAI、Arcee AI 和阿里云的七个现代视觉语言模型。结果揭示了当前在数学推理和人类评分标准对齐方面的局限性,为人工智能辅助评估开辟了新的研究方向。代码可以在这个 https URL 找到。 |
[2] 用于城市场景重建的稳健且高效的三维高斯点云 标题: Robust and Efficient 3D Gaussian Splatting for Urban Scene Reconstruction 作者: Zhensheng Yuan / Haozhi Huang / Zhen Xiong / Di Wang / Guanghua Yang 原文: [英文] [中文] 备注: None 摘要: 我们提出了一个框架,可以快速重建和实时渲染城市规模的场景,同时在多视图捕获中保持对外观变化的鲁棒性。我们的方法首先通过场景分区进行并行训练,采用基于可见性的图像选择策略来优化训练效率。一个可控的细节层次(LOD)策略在用户定义的预算下明确调节高斯密度,从而在保持高视觉保真度的同时实现高效的训练和渲染。外观变换模块缓解了图像间外观不一致的负面影响,同时实现灵活调整。此外,我们利用增强模块,如深度正则化、尺度正则化和抗锯齿,以提高重建的保真度。实验结果表明,我们的方法能够有效地重建城市规模的场景,并在效率和质量上优于以往的方法。源代码可在此 https URL 获取。 |
[3] 使用扩散模型对人类注视行为进行建模以实现统一的扫描路径预测 标题: Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction 作者: Giuseppe Cartella / Vittorio Cuculo / Alessandro D'Amelio / Marcella Cornia / Giuseppe Boccignone / Rita Cucchiara 原文: [英文] [中文] 备注: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2025 摘要: 预测人类注视路径对于理解视觉注意力至关重要,应用于人机交互、自动化系统和认知机器人领域。尽管深度学习模型在注视路径预测方面取得了进展,但大多数现有方法生成的是平均行为,未能捕捉到人类视觉探索的多样性。在这项工作中,我们提出了ScanDiff,这是一种结合扩散模型和视觉变换器的新颖架构,用于生成多样化且逼真的注视路径。我们的方法通过利用扩散模型的随机特性,明确地对注视路径的多样性进行建模,生成一系列合理的注视轨迹。此外,我们引入了文本条件化,以实现任务驱动的注视路径生成,使模型能够适应不同的视觉搜索目标。在基准数据集上的实验表明,ScanDiff在自由观看和任务驱动场景中均超越了最先进的方法,生成了更多样化和准确的注视路径。这些结果突显了其更好地捕捉人类视觉行为复杂性的能力,推动了注视预测研究的发展。源代码和模型可在此https URL公开获取。 |
[4] 恢复诊断价值:在资源受限成像中通过超分辨率辅助的超声心动图分类 标题: Recovering Diagnostic Value: Super-Resolution-Aided Echocardiographic Classification in Resource-Constrained Imaging 作者: Krishan Agyakari Raja Babu / Om Prabhu / Annu / Mohanasankar Sivaprakasam 原文: [英文] [中文] 备注: Accepted at the MICCAI Workshop on "Medical Image Computing in Resource Constrained Settings & Knowledge Interchange (MIRASOL)" 2025 摘要: 在资源受限环境(RCS)中,自动心脏解读常常因超声心动图成像质量差而受到阻碍,从而限制了后续诊断模型的有效性。尽管超分辨率(SR)技术在增强磁共振成像(MRI)和计算机断层扫描(CT)方面显示出潜力,但其在超声心动图这一广泛可用但易受噪声影响的成像方式中的应用仍未被充分探索。在这项工作中,我们研究了基于深度学习的SR技术在提高低质量二维超声心动图分类准确性方面的潜力。利用公开的CAMUS数据集,我们根据图像质量对样本进行分层,并评估两个具有不同复杂度的临床相关任务:一个相对简单的双腔(2CH)与四腔(4CH)视图分类,以及一个更复杂的舒张末期(ED)与收缩末期(ES)相位分类。我们应用了两种广泛使用的SR模型——超分辨率生成对抗网络(SRGAN)和超分辨率残差网络(SRResNet),以增强低质量图像,并观察到性能指标的显著提升,特别是在SRResNet中,它还提供了计算效率。我们的研究结果表明,SR可以有效恢复退化超声图像的诊断价值,使其成为RCS中AI辅助护理的可行工具,以更少的资源实现更多的目标。 |
[5] 自适应时间步长训练以增强基于脉冲的神经辐射场 标题: Adaptive Time-step Training for Enhancing Spike-Based Neural Radiance Fields 作者: Ranxi Lin / Canming Yao / Jiayi Li / Weihang Liu / Xin Lou / Pingqiang Zhou 原文: [英文] [中文] 备注: None 摘要: 基于神经辐射场(NeRF)的模型在3D重建和渲染任务中取得了显著的成功。然而,在训练和推理过程中,这些模型严重依赖于从多个视点沿射线进行的密集点采样,导致浮点运算激增,极大地限制了它们在边缘计算等资源受限场景中的应用。脉冲神经网络(SNNs)通过离散时间步长的二进制脉冲进行通信,因其节能特性提供了一种有前景的替代方案。鉴于神经渲染中场景规模和纹理复杂性的固有变化,以及每个场景单独训练模型的普遍做法,我们提出了一种基于脉冲的NeRF框架,采用动态时间步长训练策略,称为预训练-自适应时间步长调整(PATA)。这种方法在训练过程中自动探索渲染质量与时间步长之间的权衡。因此,它能够在推理过程中实现场景自适应的可变时间步长,并减少额外的计算资源消耗。基于已建立的Instant-NGP架构,我们在不同的数据集上评估了我们的方法。实验结果表明,PATA可以在保持渲染保真度的同时,将推理时间步长减少64%,运行功耗降低61.55%。 |
[6] 用于实时视觉语言驾驶的早期目标引导多尺度融合 标题: Early Goal-Guided Multi-Scale Fusion for Real-Time Vision-Language Driving 作者: Santosh Patapati / Trisanth Srinivasan 原文: [英文] [中文] 备注: 6 pages 摘要: 自动驾驶车辆必须在毫秒内对道路几何和交通意图进行推理,以应对复杂的情况。我们介绍了NovaDrive,这是一种单分支视觉-语言架构,可以在一个分支中处理前置摄像头图像、高清地图瓦片、LiDAR深度和文本航路点。一个轻量级的两阶段交叉注意力模块首先将航路点标记与高清地图对齐,然后在细粒度图像和深度块上细化注意力。结合一种新颖的平滑损失,该损失可以防止突然的转向和速度变化,这种设计消除了对循环记忆的需求。我们微调了一个11B LLaMA-3.2视觉-语言骨干网络的前15层,实现了实时推理。在MD-NEX户外基准的nuScenes / Waymo子集上,NovaDrive将成功率提高到84%(+4%),将路径效率(SPL)提高到0.66(+0.11),并将碰撞频率从2.6%降低到1.2%(-1.4%),相对于之前的最先进技术。我们的消融实验确认,航路点标记、部分VLM微调和交叉注意力融合各自对这些提升贡献最大。除了安全性,NovaDrive的更短路线(源于新颖的平滑损失)意味着更低的燃料或电池使用量,指向更精简、更易于更新的驾驶堆栈。NovaDrive也可以扩展到其他具身AI领域。 |
[7] 参考引导扩散修复用于多模态反事实生成 标题: Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation 作者: Alexandru Buburuzan 原文: [英文] [中文] 备注: A dissertation submitted to The University of Manchester for the degree of Bachelor of Science in Artificial Intelligence 摘要: 安全关键应用,如自动驾驶和医学图像分析,需要大量多模态数据进行严格测试。由于收集真实世界数据的成本和复杂性,合成数据方法正日益受到重视,但它们需要高度的真实感和可控性才能发挥作用。本文介绍了两种用于自动驾驶和医学图像分析的合成数据生成的新方法,分别是MObI和AnydoorMed。MObI是首个多模态对象修复框架,利用扩散模型在感知模态中生成真实且可控的对象修复,同时在相机和激光雷达中展示。给定单个参考RGB图像,MObI可以在指定的3D位置无缝地将对象插入现有的多模态场景中,并由边界框引导,同时保持语义一致性和多模态连贯性。与传统的仅依赖编辑掩码的修复方法不同,这种方法使用3D边界框条件以确保准确的空间定位和真实的缩放。AnydoorMed将这一范式扩展到医学成像领域,专注于乳腺X光扫描的参考引导修复。它利用基于扩散的模型以令人印象深刻的细节保留修复异常,保持参考异常的结构完整性,同时在语义上将其与周围组织融合。总之,这些方法展示了自然图像中参考引导修复的基础模型可以轻松适应多种感知模态,为能够构建高度真实、可控和多模态反事实场景的下一代系统铺平了道路。 |
[8] 用于实时自动驾驶的视觉-语言融合:相机、高精地图和路径点的目标中心交叉注意力 标题: Vision-Language Fusion for Real-Time Autonomous Driving: Goal-Centered Cross-Attention of Camera, HD-Map, & Waypoints 作者: Santosh Patapati / Trisanth Srinivasan / Murari Ambati 原文: [英文] [中文] 备注: 5 pages 摘要: 自动驾驶汽车需要几何精度和语义理解来在复杂环境中导航,但大多数系统将它们分开处理。我们提出了XYZ-Drive,这是一种单一的视觉-语言模型,它读取前置摄像头帧、25米×25米的俯视图地图和下一个航路点,然后输出转向和速度。一个轻量级的目标中心交叉注意力层让航路点标记突出显示相关的图像和地图区域,支持动作和文本解释,然后融合的标记进入部分微调的LLaMA-3.2 11B模型。在MD-NEX户外驾驶基准测试中,XYZ-Drive达到了95%的成功率和0.80的路径长度加权成功率(SPL),比PhysNav-DG高出15%,并将碰撞次数减半,同时通过仅使用单一分支显著提高效率。十六个消融实验解释了这些提升。去除任何模态(视觉、航路点、地图)会使成功率下降多达11%,证实了它们的互补作用和丰富的联系。用简单的拼接替代目标中心注意力会使性能下降3%,显示基于查询的融合更有效地注入地图知识。保持变压器冻结会损失5%,显示在应用VLMs于特定任务如自动驾驶时微调的重要性。将地图分辨率从10厘米粗化到40厘米会模糊车道边缘并提高碰撞率。总体而言,这些结果表明,意图和地图布局的早期、标记级别的融合能够实现准确、透明、实时的驾驶。 |
[9] 通过丰富的上下文语境视觉-语言模型进行无词汇细粒度视觉识别 标题: Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model 作者: Dmitry Demidov / Zaigham Zaheer / Omkar Thawakar / Salman Khan / Fahad Shahbaz Khan 原文: [英文] [中文] 备注: Accepted to ICCV 2025 摘要: 细粒度图像分类是一个具有挑战性的计算机视觉问题,其任务是在更广泛的类别中区分视觉上相似的子类别(例如,鸟类、汽车型号、花卉类型)。传统方法严重依赖固定词汇和封闭集分类范式,限制了其在新类别频繁出现的真实环境中的可扩展性和适应性。最近的研究表明,将大型语言模型(LLMs)与视觉语言模型(VLMs)结合,可以在无需预定义类别标签的情况下实现开放集识别。然而,现有方法在分类阶段往往难以充分利用LLMs的能力,并且过于依赖LLM提供的猜测类名,而缺乏深入分析和改进。为了解决这些瓶颈,我们提出了一种无需训练的方法,称为Enriched-FineR(简称E-FineR),在细粒度视觉识别中展示了最先进的结果,同时提供了更高的可解释性,突显了其在难以获得专家注释的真实场景和新领域中的强大潜力。此外,我们展示了我们提出的方法在零样本和少样本分类中的应用,其表现与现有的最先进方法相当,同时无需训练且不需要人工干预。总体而言,我们的无词汇框架支持图像分类从刚性标签预测向灵活的语言驱动理解的转变,使得系统在真实世界应用中具有可扩展性和普遍性。详细的代码文档可在此https URL上获得。 |
[10] 重新思考异质序列MRI分割中的领域泛化 标题: Rethink Domain Generalization in Heterogeneous Sequence MRI Segmentation 作者: Zheyuan Zhang / Linkai Peng / Wanying Dou / Cuiling Sun / Halil Ertugrul Aktas / Andrea M. Bejar / Elif Keles / Gorkem Durak / Ulas Bagci 原文: [英文] [中文] 备注: None 摘要: 临床磁共振(MR)协议生成许多T1和T2序列,其外观差异大于生成它们的采集地点。现有的领域泛化基准几乎专注于跨中心的变化,而忽视了这一主要的变异来源。胰腺分割在腹部成像中仍然是一个重大挑战:胰腺小且不规则,被器官和脂肪包围,并且常常因T1对比度低而受影响。即使是已经在肝脏或肾脏上实现>90% Dice系数的最先进的深度网络,仍然会遗漏20-30%的胰腺。尽管胰腺在早期癌症检测、手术和糖尿病研究中具有重要的临床意义,但在公共跨领域基准中,该器官也系统性地被低估。为弥补这一差距,我们提出了PancreasDG,这是一个大规模多中心3D MRI胰腺分割数据集,用于研究医学成像中的领域泛化。该数据集包括来自六个机构的563个MRI扫描,涵盖静脉期和反相序列,能够研究跨中心和跨序列的变化,并通过双盲、两次通过协议创建像素精确的胰腺掩码。通过全面分析,我们揭示了三个见解:(i)有限的采样引入了可能被误认为是分布变化的显著方差,(ii)跨中心性能与相同序列的源域性能相关,(iii)跨序列变化需要专门的解决方案。我们还提出了一种利用解剖不变性的半监督方法,在跨序列分割中显著优于最先进的领域泛化技术,Dice系数提高了61.63%,在两个测试中心达到了87.00%。PancreasDG为医学成像中的领域泛化设立了新的基准。数据集、代码和模型将在此https URL上提供。 |
[11] 细节对于室内开放词汇的三维实例分割至关重要 标题: Details Matter for Indoor Open-vocabulary 3D Instance Segmentation 作者: Sanghun Jung / Jingjing Zheng / Ke Zhang / Nan Qiao / Albert Y. C. Chen / Lu Xia / Chi Liu / Yuyin Sun / Xiao Zeng / Hsiang-Wei Huang / Byron Boots / Min Sun / Cheng-Hao Kuo 原文: [英文] 备注: ICCV 2025 摘要: 与通常端到端训练的封闭词汇3D实例分割不同,开放词汇3D实例分割(OV-3DIS)通常利用视觉语言模型(VLMs)来生成3D实例提议并对其进行分类。尽管现有研究中提出了各种概念,我们观察到这些独立的概念并不是互斥的,而是互补的。在本文中,我们通过精心设计一种方法,将这些概念结合起来并加以改进,以应对关键挑战,从而提出了一种新的最先进的OV-3DIS解决方案。我们的解决方案遵循两阶段方案:3D提议生成和实例分类。我们采用基于稳健的3D跟踪的提议聚合来生成3D提议,并通过迭代合并/移除来去除重叠或部分提议。在分类阶段,我们用Alpha-CLIP替换了标准的CLIP模型,该模型将对象掩码作为alpha通道以减少背景噪声并获得以对象为中心的表示。此外,我们引入了标准化最大相似度(SMS)得分来规范化文本到提议的相似性,有效地过滤掉误报并提高精度。我们的框架在ScanNet200和S3DIS上在所有AP和AR指标上实现了最先进的性能,甚至超过了端到端的封闭词汇方法。 |
[12] X-NeMo:通过解耦潜在注意力实现富有表现力的神经运动再现 标题: X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention 作者: Xiaochen Zhao / Hongyi Xu / Guoxian Song / You Xie / Chenxu Zhang / Xiu Li / Linjie Luo / Jinli Suo / Yebin Liu 原文: [英文] [中文] 备注: ICLR 2025, code is available at this https URL 摘要: 我们提出了X-NeMo,这是一种新颖的零样本扩散式肖像动画管道,可以使用来自不同个体的驱动视频中的面部动作来动画化静态肖像。我们的工作首先识别了先前方法中的关键问题的根本原因,例如身份泄漏以及难以捕捉细微和极端表情。为了解决这些挑战,我们引入了一个完全端到端的训练框架,从驱动图像中提取一个一维的与身份无关的潜在运动描述符,通过图像生成过程中的交叉注意力有效地控制运动。我们的隐式运动描述符能够捕捉细致的面部运动表情,从多样化的视频数据集中端到端学习,而不依赖于预训练的运动检测器。我们通过使用双GAN解码器以及空间和颜色增强来监督学习,进一步增强了表现力并将运动潜在特征与身份线索解耦。通过将驱动运动嵌入到一维潜在向量中,并通过交叉注意力而非附加的空间引导来控制运动,我们的设计消除了从驱动条件到扩散主干的空间对齐结构线索的传递,从而大大减轻了身份泄漏。大量实验表明,X-NeMo优于最先进的基线,生成的动画具有高度的表现力和优越的身份相似性。我们的代码和模型可用于研究。 |
[13] 面向多传感器卫星影像的高分辨率配准与超分辨率 标题: Towards High-Resolution Alignment and Super-Resolution of Multi-Sensor Satellite Imagery 作者: Philip Wootaek Shin / Vishal Gaur / Rahul Ramachandran / Manil Maskey / Jack Sampson / Vijaykrishnan Narayanan / Sujit Roy 原文: [英文] [中文] 备注: None 摘要: 高分辨率卫星影像对于地理空间分析至关重要,但卫星传感器之间空间分辨率的差异给数据融合和后续应用带来了挑战。超分辨率技术可以帮助弥合这一差距,但现有方法依赖于人工降尺度图像而非真实传感器数据,并不适合具有不同光谱、时间特性的异构卫星传感器。在这项工作中,我们开发了一个初步框架,使用HLS数据集中的Harmonized Landsat Sentinel 10m (HLS10) 作为参考,对齐和协调Harmonized Landsat Sentinel 30m (HLS 30) 影像。我们的方法旨在弥合这些传感器之间的分辨率差距,并提高超分辨率Landsat影像的质量。定量和定性评估证明了我们方法的有效性,显示了其在增强基于卫星的传感应用方面的潜力。这项研究提供了关于异构卫星图像超分辨率可行性的见解,并强调了该领域未来进展的关键考虑因素。 |
[14] 无光度立体线索的神经多视图自校准光度立体 标题: Neural Multi-View Self-Calibrated Photometric Stereo without Photometric Stereo Cues 作者: Xu Cao / Takafumi Taketomi 原文: [英文] [中文] 备注: Accepted to ICCV 2025 摘要: 我们提出了一种神经逆向渲染方法,该方法可以从多视角图像中联合重建几何形状、空间变化的反射率和光照条件,这些图像是在不同方向光照下捕获的。与之前需要光照校准或中间线索(如每视图法线图)的多视角光度立体方法不同,我们的方法在单个阶段从原始图像中联合优化所有场景参数。我们将几何和反射率都表示为神经隐式场,并应用了阴影感知的体积渲染。一个空间网络首先预测每个场景点的符号距离和反射率潜在编码。然后,一个反射率网络在潜在编码和角度编码的表面法线、视角和光照方向的条件下估计反射率值。所提出的方法在形状和光照估计精度上优于最新的法线引导方法,能够推广到视角不对齐的多光图像,并处理具有挑战性几何形状和反射率的物体。 |
[15] 基于卷积神经网络的农业环境中芒果分类解决方案 标题: CNN-based solution for mango classification in agricultural environments 作者: Beatriz Díaz Peón / Jorge Torres Gómez / Ariel Fajardo Márquez 原文: [英文] [中文] 备注: None 摘要: 本文展示了使用卷积神经网络(CNN)设计水果检测和分类系统的实例。其目标是开发一个能够自动评估水果质量的系统,以便于农场库存管理。具体来说,本文开发了一种用于芒果分类的方法,利用图像处理技术,确保分类的准确性和效率。Resnet-18 被选为分类的初步架构,而级联检测器则用于检测,以平衡执行速度和计算资源消耗。检测和分类结果通过在 MatLab App Designer 中开发的图形界面显示,简化了系统交互。卷积神经网络和级联检测器的集成为水果分类和检测提供了一种可靠的解决方案,具有在农业质量控制中的潜在应用。 |
[16] 使用哈里斯角点损失和R-CBAM网络的单幅图像雨条纹去除 标题: Single Image Rain Streak Removal Using Harris Corner Loss and R-CBAM Network 作者: Jongwook Si / Sungyoung Kim 原文: [英文] [中文] 备注: 21 pages 摘要: 单张图像去雨纹问题不仅仅是简单的噪声抑制,它需要同时保留精细的结构细节和整体视觉质量。在本研究中,我们提出了一种新颖的图像修复网络,通过引入角损失(Corner Loss)有效地约束修复过程,从而防止在修复过程中丢失物体边界和细节纹理信息。此外,我们在编码器和解码器中引入了残差卷积块注意模块(R-CBAM)块,以动态调整空间和通道维度中特征的重要性,使网络能够更有效地关注受雨纹严重影响的区域。在Rain100L和Rain100H数据集上进行的定量评估表明,所提出的方法显著优于以往的方法,在Rain100L上实现了33.29 dB的PSNR,在Rain100H上实现了26.16 dB的PSNR。 |
[17] 通过学习细粒度联合嵌入空间进行多模态运动检索 标题: Multi-Modal Motion Retrieval by Learning a Fine-Grained Joint Embedding Space 作者: Shiyao Yu / Zi-An Wang / Kangning Yin / Zheng Tian / Mingyuan Zhang / Weixin Si / Shihao Zou 原文: [英文] [中文] 备注: Accepted by IEEE TMM 2025 摘要: 运动检索在运动获取中至关重要,与运动生成相比,它提供了更高的精度、真实感、可控性和可编辑性。现有的方法利用对比学习来构建一个统一的嵌入空间,以便从文本或视觉模态进行运动检索。然而,这些方法缺乏更直观和用户友好的交互模式,并且通常忽视了大多数模态的序列表示,从而提高检索性能。为了解决这些限制,我们提出了一个框架,将文本、音频、视频和运动这四种模态对齐到一个细粒度的联合嵌入空间中,首次在运动检索中引入音频,以增强用户的沉浸感和便利性。这个细粒度的空间是通过序列级别的对比学习方法实现的,该方法捕捉跨模态的关键细节以实现更好的对齐。为了评估我们的框架,我们通过合成但多样的音频录音扩充了现有的文本-运动数据集,创建了两个多模态运动检索数据集。实验结果表明,在多个子任务中,我们的方法在最先进的方法上表现出色,包括在HumanML3D数据集上的文本到运动检索的R@10提高了10.16%,视频到运动检索的R@1提高了25.43%。此外,我们的结果显示,我们的四模态框架显著优于其三模态对应版本,强调了多模态运动检索在推进运动获取方面的潜力。 |
[18] 一种针对卫星图像季节变化具有鲁棒性的洪水检测新数据集 标题: A Novel Dataset for Flood Detection Robust to Seasonal Changes in Satellite Imagery 作者: Youngsun Jang / Dongyoun Kim / Chulwoo Pack / Kwanghee Won 原文: [英文] 备注: 8 pages, 2 figures. Presented at ACM RACS 2024 (Pompei, Italy, Nov 5-8, 2024) 摘要: 本研究引入了一个用于卫星图像中洪水区域分割的新数据集。在审查了77个利用卫星图像的现有基准后,我们发现针对这一特定任务的合适数据集存在短缺。为了填补这一空白,我们从Planet Labs的Planet Explorer收集了2019年美国中西部洪水的卫星图像(图像版权所有2024 Planet Labs PBC)。该数据集由每个地点的10张卫星图像组成,每张图像包含洪水和非洪水区域。我们从五个州中选择了十个地点:爱荷华州、堪萨斯州、蒙大拿州、内布拉斯加州和南达科他州。数据集在数据处理过程中确保了统一的分辨率和大小调整。为了评估语义分割性能,我们在我们的数据集上测试了计算机视觉和遥感领域的最新模型。此外,我们进行了一个消融研究,改变窗口大小以捕捉时间特征。总体而言,模型表现出适度的结果,表明未来需要多模态和时间学习策略。该数据集将在<此https URL>上公开提供。 |
[19] 用于多模态大型语言模型攻击的对抗引导扩散 标题: Adversarial-Guided Diffusion for Multimodal LLM Attacks 作者: Chengwei Xia / Fan Ma / Ruijie Quan / Kun Zhan / Yi Yang 原文: [英文] [中文] 备注: None 摘要: 本文探讨了使用扩散模型生成对抗性图像以欺骗多模态大型语言模型(MLLMs)生成目标响应的挑战,同时避免对原始图像造成显著失真。为了解决上述挑战,我们提出了一种用于对抗攻击MLLMs的对抗引导扩散(AGD)方法。我们引入了对抗引导噪声以确保攻击效果。我们设计中的一个关键观察是,与大多数传统对抗攻击直接将高频扰动嵌入原始图像不同,AGD将目标语义注入到反向扩散的噪声成分中。由于扩散模型中添加的噪声覆盖了整个频谱,嵌入其中的对抗信号也继承了这种全频谱特性。重要的是,在反向扩散过程中,对抗性图像是原始图像和噪声的线性组合。因此,当应用诸如简单的低通滤波等防御措施时,这些措施独立作用于每个成分,噪声成分中的对抗性图像不太可能被抑制,因为它不局限于高频带。这使得AGD本质上对各种防御具有鲁棒性。大量实验表明,我们的AGD在攻击性能以及模型对某些防御的鲁棒性方面优于最先进的方法。 |
[20] 基于置信度感知的二维显微食品晶体图像聚合分类与分割 标题: Confidence-aware agglomeration classification and segmentation of 2D microscopic food crystal images 作者: Xiaoyu Ji / Ali Shakouri / Fengqing Zhu 原文: [英文] [中文] 备注: None 摘要: 食品晶体聚集是一种在结晶过程中发生的现象,它会将水困在晶体之间,从而影响食品产品的质量。由于水的粘结具有透明性,并且显微图像的视角仅限于样本的单个切片,因此在二维显微图像中手动标注聚集现象特别困难。为了解决这一挑战,我们首先提出了一种监督基线模型,用于为粗标记的分类数据集生成分割伪标签。接下来,训练一个同时执行像素级分割的实例分类模型。在推理阶段,这两个模型结合使用,以发挥它们在分类和分割方面的各自优势。为了保持晶体特性,我们设计并在两个步骤中都包含了一个后处理模块。与其他现有方法相比,我们的方法提高了真实阳性聚集分类的准确性和尺寸分布预测。鉴于手动标注的置信水平存在差异,我们提出的方法在两种置信水平下进行了评估,并成功分类了潜在的聚集实例。 |
[21] YOLO-ROC:一种用于实时道路损坏检测的高精度超轻量模型 标题: YOLO-ROC: A High-Precision and Ultra-Lightweight Model for Real-Time Road Damage Detection 作者: Zicheng Lin / Weichao Pan 原文: [英文] 备注: None 摘要: 道路损坏检测是确保交通安全和维护基础设施完整性的一项关键任务。尽管基于深度学习的检测方法现已被广泛采用,但它们仍面临两个核心挑战:首先,现有网络在多尺度特征提取能力上的不足,难以应对如裂缝和坑洞等多样化目标,导致小尺度损坏的漏检率较高;其次,主流模型的参数量大和计算需求高,阻碍了其在实际应用中进行高效实时检测的部署。为了解决这些问题,本文提出了一种高精度且轻量化的模型,YOLO - 道路正交紧凑(YOLO-ROC)。我们设计了一个双向多尺度空间金字塔池化快速(BMS-SPPF)模块,以增强多尺度特征提取,并实施了分层通道压缩策略以降低计算复杂度。BMS-SPPF模块利用双向空间-通道注意机制来改善小目标的检测。同时,通道压缩策略将参数量从3.01M减少到0.89M,GFLOPs从8.1减少到2.6。在RDD2022_China_Drone数据集上的实验表明,YOLO-ROC实现了67.6%的mAP50,比基线YOLOv8n高出2.11%。值得注意的是,小目标D40类别的mAP50提高了16.8%,最终模型大小仅为2.0 MB。此外,该模型在RDD2022_China_Motorbike数据集上表现出色的泛化性能。 |
[22] 迈向安全、可信赖且真实的增强现实用户体验 标题: Toward Safe, Trustworthy and Realistic Augmented Reality User Experience 作者: Yanming Xiu 原文: [英文] [中文] 备注: 2 pages, 4 figures 摘要: 随着增强现实(AR)越来越多地融入日常生活,确保其虚拟内容的安全性和可信度至关重要。我们的研究着眼于任务有害的AR内容的风险,特别是那些阻碍关键信息或微妙地操控用户感知的内容。我们开发了两个系统,ViDDAR和VIM-Sense,利用视觉语言模型(VLMs)和多模态推理模块来检测此类攻击。在此基础上,我们提出了三个未来方向:自动化、感知对齐的虚拟内容质量评估;多模态攻击检测;以及VLMs的适应,以便在AR设备上进行高效且以用户为中心的部署。总体而言,我们的工作旨在建立一个可扩展的、与人类对齐的框架,以保护AR体验,并寻求关于感知建模、多模态AR内容实施和轻量级模型适应的反馈。 |
[23] 用于半监督少样本类增量学习的模糊引导可学习分布校准 标题: Ambiguity-Guided Learnable Distribution Calibration for Semi-Supervised Few-Shot Class-Incremental Learning 作者: Fan Lyu / Linglan Zhao / Chengyan Liu / Yinying Mei / Zhang Zhang / Jian Zhang / Fuyuan Hu / Liang Wang 原文: [英文] [中文] 备注: 6 pages, 5 figures 摘要: 小样本类增量学习(FSCIL)关注于模型在保留先前类别知识的同时,从有限的数据中学习新概念。最近,许多研究开始利用未标记样本来帮助模型从小样本中学习,从而催生了半监督小样本类增量学习(Semi-FSCIL)这一领域。然而,这些研究通常假设未标记数据的来源仅限于当前阶段的新类别,这种视角较为狭隘,无法很好地与实际场景对齐。为了更好地反映现实世界的场景,我们通过将未标记集中包含基础类和所有曾见过的新类,将半监督小样本类增量学习重新定义为广义半监督小样本类增量学习(GSemi-FSCIL)。这种未标记样本组成的变化为现有方法带来了新的挑战,因为它们难以区分基础类和新类的未标记样本。为了解决这个问题,我们提出了一种基于模糊性引导的可学习分布校准(ALDC)策略。ALDC 动态地利用丰富的基础样本来校正小样本新类的偏置特征分布。在三个基准数据集上的实验表明,我们的方法优于现有工作,设定了新的最先进的结果。 |
[24] 面向特定检索器的查询重写器的广义强化学习,适用于非结构化的真实世界文档 标题: Generalized Reinforcement Learning for Retriever-Specific Query Rewriter with Unstructured Real-World Documents 作者: Sungguk Cha / DongWook Kim / Taeseung Hahn / Mintae Kim / Youngsub Han / Byoung-Ki Jeon 原文: [英文] [中文] 备注: None 摘要: 检索增强生成(RAG)系统在很大程度上依赖于有效的查询制定来获取外部知识,但针对多样化、非结构化的真实世界文档优化查询仍然是一个挑战。我们介绍了一种名为\textbf{RL-QR}的强化学习框架,用于检索器特定的查询重写,该框架无需人工标注的数据集,并将适用性扩展到仅文本和多模态数据库。通过合成场景-问题对并利用广义奖励策略优化(GRPO),RL-QR训练出针对特定检索器量身定制的查询重写器,从而提升在不同领域的检索性能。在工业内部数据上的实验显示出显著的改进,其中$\text{RL-QR}_{\text{multi-modal}}$在多模态RAG中实现了NDCG@3的11%相对提升,而$\text{RL-QR}_{\text{lexical}}$在词汇检索器中实现了9%的提升。然而,在语义和混合检索器中仍然存在挑战,重写器未能改善性能,这可能是由于训练不匹配所致。我们的研究结果突显了RL-QR在RAG系统查询优化中的潜力,提供了一种可扩展的、无需标注的解决方案用于真实世界的检索任务,同时也指出了在语义检索环境中进一步改进的方向。 |
[25] 自动化映射颅神经II、III、V和VII/VIII的路径:多参数多阶段扩散束成像图谱 标题: Automated Mapping the Pathways of Cranial Nerve II, III, V, and VII/VIII: A Multi-Parametric Multi-Stage Diffusion Tractography Atlas 作者: Lei Xie / Jiahao Huang / Jiawei Zhang / Jianzhong He / Yiang Pan / Guoqiang Xie / Mengjun Li / Qingrun Zeng / Mingchu Li / Yuanjing Feng 原文: [英文] [中文] 备注: None 摘要: 颅神经(CNs)在人体大脑的多种基本功能中起着至关重要的作用,通过扩散磁共振成像(dMRI)映射其路径可以为术前提供关于各个颅神经与关键组织之间空间关系的宝贵见解。然而,由于每对颅神经的独特解剖结构和颅底的复杂性,绘制全面而详细的颅神经图谱具有挑战性。在这项工作中,我们提出了据我们所知的首个研究,开发了一种全面的扩散纤维束成像图谱,用于自动映射人脑中的颅神经路径。该颅神经图谱是通过纤维聚类生成的,使用多参数纤维束成像为每对颅神经生成的流线。我们探索了一种新的多阶段纤维聚类策略,而不是一次性聚类,用于对来自人类连接组计划(HCP)的50名受试者生成的大约1,000,000条流线进行多次分析。定量和视觉实验表明,我们的颅神经图谱在多个采集站点(包括HCP数据集、多壳扩散MRI(MDM)数据集和两例垂体腺瘤患者的临床病例)上与专家手动注释具有高度的空间对应性。所提出的颅神经图谱可以自动识别与5对颅神经相关的8个纤维束,包括视神经CN II、动眼神经CN III、三叉神经CN V和面-前庭耳蜗神经CN VII/VIII,并通过实验验证了其稳健性。这项工作通过促进多对颅神经路径的更高效和自动化映射,为扩散成像领域做出了贡献,从而通过可视化它们与附近解剖结构的空间关系来增强对复杂脑结构的分析和理解。 |
[26] 深入研究通用目标跟踪:一项综述 标题: A Deep Dive into Generic Object Tracking: A Survey 作者: Fereshteh Aghaee Meibodi / Shadi Alijani / Homayoun Najjaran 原文: [英文] [中文] 备注: 55 pages, 29 figures, 9 tables 摘要: 通用目标跟踪由于复杂的时空动态性,尤其是在存在遮挡、相似干扰物和外观变化的情况下,仍然是计算机视觉中一个重要而具有挑战性的任务。在过去的二十年中,已经引入了广泛的跟踪范式,包括基于孪生网络的跟踪器、判别式跟踪器,以及最近备受关注的基于变换器的方法,以应对这些挑战。虽然该领域已有的一些综述论文要么集中于单一类别,要么广泛涵盖多个类别以捕捉进展,但我们的论文对所有三类方法进行了全面回顾,特别强调了快速发展的基于变换器的方法。我们通过定性和定量比较分析了每种方法的核心设计原则、创新和局限性。我们的研究引入了一种新的分类方法,并提供了代表性方法的统一视觉和表格比较。此外,我们从多个角度组织现有的跟踪器,并总结了主要的评估基准,突出了基于变换器的跟踪在其强大的时空建模能力驱动下的快速进展。 |
[27] 通过图像模态测量和建模时间序列预测中的几何结构 标题: Towards Measuring and Modeling Geometric Structures in Time Series Forecasting via Image Modality 作者: Mingyang Yu / Xiahui Guo / Peng chen / Zhenkai Li / Yang Shu 原文: [英文] [中文] 备注: None 摘要: 时间序列预测在天气预报、金融投资和交通管理等多个领域中至关重要。虽然传统的数值指标如均方误差(MSE)可以量化逐点的准确性,但它们无法评估时间序列数据的几何结构,而这对于理解时间动态至关重要。为了解决这个问题,我们提出了时间序列几何结构指数(TGSI),这是一种新颖的评估指标,通过将时间序列转换为图像来利用其固有的二维几何表示。然而,由于图像转换过程是不可微的,TGSI无法直接作为训练损失进行整合。我们进一步引入了形状感知时间损失(SATL),这是一种在时间序列模式下操作的多组件损失函数,用于弥合这一差距并在训练期间增强结构建模。SATL结合了三个组件:一个通过一阶差分之间的MSE来衡量结构一致性的一阶差分损失,一个使用快速傅里叶变换捕捉基本周期模式同时最小化噪声的频域损失,以及一个通过预训练的时间特征提取器和时间序列图像自动编码器对齐时间特征与几何结构特征来衡量时间序列几何结构差异的感知特征损失。多个数据集的实验表明,与基线方法相比,使用SATL训练的模型在MSE和提出的TGSI指标上均表现出色,而在推理过程中没有额外的计算成本。 |
[28] 学习语义感知阈值以进行带部分标签的多标签图像识别 标题: Learning Semantic-Aware Threshold for Multi-Label Image Recognition with Partial Labels 作者: Haoxian Ruan / Zhihua Xu / Zhijing Yang / Guang Ma / Jieming Xie / Changxiang Fan / Tianshui Chen 原文: [英文] [中文] 备注: 15 pages, 13 figures, publish to ESWA (Expert Systems With Applications) 摘要: 多标签图像识别中的部分标签学习(MLR-PL)旨在使用已知和未知标签的混合来训练模型。传统方法依赖语义或特征相关性,通过预设阈值为未识别的标签创建伪标签。这种方法常常忽视了不同类别间分数分布的差异,导致伪标签不准确和不完整,从而影响性能。在我们的研究中,我们引入了语义感知阈值学习(SATL)算法。这种创新方法计算每个类别中正样本和负样本的分数分布,并基于这些分布确定类别特定的阈值。这些分布和阈值在学习过程中会动态更新。此外,我们实施了一种差异化排序损失,以在正样本和负样本的分数分布之间建立显著的差距,从而增强阈值的区分能力。在Microsoft COCO和VG-200等大规模多标签数据集上的全面实验和分析表明,我们的方法在标签有限的情况下显著提高了性能。 |
[29] PixNerd: 像素神经场扩散 标题: PixNerd: Pixel Neural Field Diffusion 作者: Shuai Wang / Ziteng Gao / Chenhui Zhu / Weilin Huang / Limin Wang 原文: [英文] [中文] 备注: a single-scale, single-stage, efficient, end-to-end pixel space diffusion model 摘要: 扩散变压器的当前成功在很大程度上依赖于由预训练变分自编码器(VAE)塑造的压缩潜在空间。然而,这种两阶段训练范式不可避免地引入了累积误差和解码伪影。为了解决上述问题,研究人员回归到像素空间,但这需要复杂的级联管道和增加的令牌复杂性。与他们的努力相反,我们提出使用神经场进行逐块解码,并提出一种单尺度、单阶段、高效、端到端的解决方案,称为像素神经场扩散(PixelNerd)。得益于PixNerd中高效的神经场表示,我们在ImageNet $256\times256$上直接实现了2.15 FID,在ImageNet $512\times512$上实现了2.84 FID,而无需任何复杂的级联管道或VAE。我们还将PixNerd框架扩展到文本到图像应用。我们的PixNerd-XXL/16在GenEval基准测试中取得了0.73的竞争性总体得分,在DPG基准测试中取得了80.9的总体得分。 |
[30] 使用SAM2实现经济实惠的3D乳腺MRI肿瘤分割和可视化 标题: Towards Affordable Tumor Segmentation and Visualization for 3D Breast MRI Using SAM2 作者: Solha Kang / Eugene Kim / Joris Vankerschaver / Utku Ozbulak 原文: [英文] [中文] 备注: Accepted for publication in the 28th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI), 2nd Deep Breast Workshop on AI and Imaging for Diagnostic and Treatment Challenges in Breast Care (DeepBreath), 2025 摘要: 乳腺MRI提供了对肿瘤评估和治疗计划至关重要的高分辨率体积成像,但对3D扫描的人工解读仍然耗时且主观。尽管人工智能驱动的工具有望加速医学图像分析,但由于高昂的许可费用、专有软件和基础设施需求,商业医学AI产品在中低收入国家的采用仍然有限。在这项工作中,我们研究了Segment Anything Model 2 (SAM2) 是否可以适应于乳腺MRI中低成本、最小输入的3D肿瘤分割。通过在一个切片上使用单个边界框注释,我们使用三种不同的切片跟踪策略在3D体积中传播分割预测:从上到下、从下到上和从中心向外。我们在大量患者群体中评估这些策略,发现从中心向外的传播产生了最一致和准确的分割。尽管SAM2是一个未针对体积医学数据训练的零样本模型,但在最小监督下仍能实现强大的分割性能。我们进一步分析了分割性能与肿瘤大小、位置和形状的关系,识别出关键的失败模式。我们的结果表明,像SAM2这样的通用基础模型可以在最小监督下支持3D医学图像分析,为资源受限的环境提供了一种可访问且经济实惠的替代方案。 |
[31] iLRM:一种迭代的大规模三维重建模型 标题: iLRM: An Iterative Large 3D Reconstruction Model 作者: Gyeongjin Kang / Seungtae Nam / Xiangyu Sun / Sameh Khamis / Abdelrahman Mohamed / Eunbyung Park 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 前馈式3D建模已成为快速高质量3D重建的一种有前途的方法。特别是,直接生成显式3D表示(如3D高斯散点)因其快速高质量的渲染以及众多应用而受到广泛关注。然而,许多基于变压器架构的最新方法由于依赖于来自多个输入视图的图像标记的全注意力,导致随着视图数量或图像分辨率的增加,计算成本过高,从而面临严重的可扩展性问题。为了实现可扩展且高效的前馈式3D重建,我们引入了一种迭代的大规模3D重建模型(iLRM),通过迭代细化机制生成3D高斯表示,并遵循三个核心原则:(1)将场景表示与输入视图图像解耦,以实现紧凑的3D表示;(2)将全注意力的多视图交互分解为两阶段注意力方案,以降低计算成本;(3)在每一层注入高分辨率信息,以实现高保真重建。在广泛使用的数据集(如RE10K和DL3DV)上的实验结果表明,iLRM在重建质量和速度上均优于现有方法。值得注意的是,iLRM表现出卓越的可扩展性,通过高效利用更多的输入视图,在相当的计算成本下提供显著更高的重建质量。 |
[32] UniLiP:适应CLIP以实现统一的多模态理解、生成和编辑 标题: UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing 作者: Hao Tang / Chenwei Xie / Xiaoyi Bao / Tingyu Weng / Pandeng Li / Yun Zheng / Liwei Wang 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们提出了UniLIP,它将CLIP扩展到重建、生成和编辑,从而在其卓越的理解能力之上构建了一个统一的分词器。之前基于CLIP的统一方法通常需要额外的扩散解码器或量化来支持重建和生成任务,这导致重建不一致或原始理解能力的下降。相比之下,我们引入了一个两阶段的训练方案和自蒸馏策略,逐步将重建能力整合到CLIP中,使其在实现有效图像重建的同时保持原有的理解性能。此外,我们提出了一种双条件架构,将MLLM和扩散变压器连接起来,使用可学习的查询和最后一层多模态隐藏状态作为联合条件。该方法不仅能够在生成任务中利用MLLM的强大推理能力,还能在编辑任务中最大化利用UniLIP特征中的丰富信息。在文本到图像生成任务中,UniLIP在GenEval和WISE基准上分别获得了0.87和0.53的分数,超越了所有先前相似规模的统一模型。在图像编辑中,UniLIP在ImgEdit基准上也取得了3.62的分数,超越了最近的先进模型如BAGEL和UniWorld-V1。UniLIP有效地扩展了CLIP的应用范围,使连续的CLIP特征不仅可以作为理解任务的最佳选择,还能在生成和编辑任务中实现高度竞争的性能。 |
[33] 使用多模态大型语言模型进行文本-视频检索的双向似然估计 标题: Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval 作者: Dohwan Ko / Ji Soo Lee / Minhyuk Choi / Zihang Meng / Hyunwoo J. Kim 原文: [英文] 备注: ICCV 2025 Highlight 摘要: 文本-视频检索旨在从大型在线数据库中找到与给定视频(或文本)查询最相关的文本(或视频)候选项。最近的研究利用多模态大型语言模型(MLLMs)来改善检索,特别是针对长或复杂的查询-候选对。然而,我们观察到,MLLMs的简单应用,即基于候选项可能性的检索,会引入候选项先验偏差,倾向于选择那些固有先验较高的候选项,而不是那些与查询更相关的候选项。为此,我们提出了一种新的检索框架,称为使用MLLM的双向可能性估计(BLiM),该框架通过训练模型从给定视频生成文本以及从给定文本生成视频特征来利用查询和候选项的可能性。此外,我们引入了候选项先验归一化(CPN),这是一个简单但有效的无训练分数校准模块,旨在减轻候选项可能性中的候选项先验偏差。在四个文本-视频检索基准上,我们配备CPN的BLiM平均比之前的最先进模型提高了6.4 R@1,有效减轻了候选项先验偏差并强调了查询-候选项的相关性。我们对各种超越检索的多模态任务进行了深入分析,强调了CPN的广泛适用性,它通过减少对文本先验的依赖来增强视觉理解。代码可在此https URL获取。 |
[34] LED基准:诊断文档布局分析中的结构布局错误 标题: LED Benchmark: Diagnosing Structural Layout Errors for Document Layout Analysis 作者: Inbum Heo / Taewook Hwang / Jeesu Jung / Sangkeun Jung 原文: [英文] [中文] 备注: None 摘要: 最近,通过大型语言模型和多模态模型在文档布局分析方面的进展显著提高了布局检测的效果。然而,尽管有这些改进,在解决关键的结构性错误(如区域合并、拆分和内容缺失)方面仍然存在挑战。传统的评估指标如IoU和mAP主要关注空间重叠,对于检测这些错误是不足的。为了解决这一限制,我们提出了布局错误检测(LED),这是一种新颖的基准,旨在评估文档布局预测的结构稳健性。LED定义了八种标准化的错误类型,并制定了三个互补的任务:错误存在检测、错误类型分类和逐元素错误类型分类。此外,我们构建了LED数据集,这是一个通过基于DLA模型的经验分布注入现实结构错误生成的合成数据集。跨多种LMM的实验结果表明,LED能够有效区分结构理解能力,揭示传统指标无法显示的模态偏差和性能权衡。 |
[35] 基于扩散模型的无训练几何图像编辑 标题: Training-free Geometric Image Editing on Diffusion Models 作者: Hanshen Zhu / Zhen Zhu / Kaile Zhang / Yiming Gong / Yuliang Liu / Xiang Bai 原文: [英文] 备注: 24 pages, 22 figures, ICCV 摘要: 我们研究几何图像编辑任务,其中图像中的对象被重新定位、重新定向或重新塑形,同时保持整体场景的一致性。之前基于扩散的方法通常尝试在单一步骤中处理所有相关子任务,当变换变得大或结构复杂时,这证明是困难的。我们通过提出一个解耦的流程来解决这个问题,该流程将对象变换、源区域修复和目标区域细化分开。修复和细化都使用一种无需训练的扩散方法FreeFine来实现。在我们新的GeoBench基准测试中进行的实验中,该基准测试包含2D和3D编辑场景,FreeFine在图像保真度和编辑精度方面优于最先进的替代方法,尤其是在要求苛刻的变换下。代码和基准测试可在此URL获取:this https URL |
[36] ST-SAM:用于半监督伪装物体检测的SAM驱动自训练框架 标题: ST-SAM: SAM-Driven Self-Training Framework for Semi-Supervised Camouflaged Object Detection 作者: Xihang Hu / Fuming Sun / Jiazhe Liu / Feilong Xu / Xiaoli Zhang 原文: [英文] [中文] 备注: 10 pages, 6 figures, ACM MM 2025 摘要: 半监督伪装物体检测(SSCOD)旨在通过利用有限的标注数据和大量未标注数据来减少对昂贵的像素级标注的依赖。然而,现有基于教师-学生框架的SSCOD方法在稀缺监督下存在严重的预测偏差和错误传播问题,同时其多网络架构导致高计算开销和有限的可扩展性。为克服这些限制,我们提出了ST-SAM,这是一种高度标注高效且简洁的框架,突破了传统SSCOD的限制。具体而言,ST-SAM采用自训练策略,动态过滤和扩展高置信度的伪标签,以增强单模型架构,从而从根本上规避了模型间的预测偏差。此外,通过将伪标签转化为包含领域特定知识的混合提示,ST-SAM有效利用了“分割任何模型”的潜力来减轻自训练中的错误积累。在COD基准数据集上的实验表明,ST-SAM在仅使用1%的标注数据的情况下实现了最先进的性能,优于现有的SSCOD方法,甚至可以媲美完全监督的方法。值得注意的是,ST-SAM只需训练一个网络,不依赖于特定的模型或损失函数。这项工作为标注高效的SSCOD建立了新的范式。代码将在此https URL上提供。 |
[37] PriorFusion:用于自动驾驶中稳健道路感知的先验统一集成 标题: PriorFusion: Unified Integration of Priors for Robust Road Perception in Autonomous Driving 作者: Xuewei Tang / Mengmeng Yang / Tuopu Wen / Peijin Jia / Le Cui / Mingshang Luo / Kehua Sheng / Bo Zhang / Diange Yang / Kun Jiang 原文: [英文] [中文] 备注: None 摘要: 随着对自动驾驶的兴趣日益增长,对准确可靠的道路感知技术的需求也在增加。在没有高清地图支持的复杂环境中,自动驾驶车辆必须独立解读其周围环境,以确保安全和稳健的决策。然而,由于道路元素数量众多、几何形状复杂以及频繁的遮挡,这些场景带来了重大挑战。现有方法的一个关键限制在于未能充分利用道路元素中固有的结构先验,导致预测不规则且不准确。为了解决这个问题,我们提出了PriorFusion,一个有效整合语义、几何和生成先验的统一框架,以增强道路元素感知。我们引入了一种由形状先验特征引导的实例感知注意力机制,然后构建了一个数据驱动的形状模板空间,该空间编码了道路元素的低维表示,使得能够通过聚类生成锚点作为参考先验。我们设计了一个基于扩散的框架,利用这些先验锚点生成准确且完整的预测。在大规模自动驾驶数据集上的实验表明,我们的方法显著提高了感知精度,尤其是在具有挑战性的条件下。可视化结果进一步证实,我们的方法能够生成更准确、规则和连贯的道路元素预测。 |
[38] 基于模型合并的持续学习中任务特定知识的遗忘 标题: Forgetting of task-specific knowledge in model merging-based continual learning 作者: Timm Hess / Gido M van de Ven / Tinne Tuytelaars 原文: [英文] [中文] 备注: None 摘要: 本文研究了在持续学习(CL)背景下模型的线性合并。通过在计算机视觉实验中使用可控的视觉线索,我们证明了合并在很大程度上保留或增强了共享知识,而未共享的任务特定知识则迅速退化。我们进一步发现,从增量训练过程中合并模型始终优于并行训练的模型合并。 |
[39] 伦勃朗的牛——分析文本到图像模型中的艺术提示解释 标题: The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models 作者: Alfio Ferrara / Sergio Picascia / Elisabetta Rocchetti 原文: [英文] [中文] 备注: to be published in: Applications of AI in the Analysis of Cultural and Artistic Heritage, organized within the 35th IEEE International Workshop on Machine Learning for Signal Processing (MLSP) 2025 摘要: 文本到图像的扩散模型通过从数十亿张图像(包括流行艺术作品)中学习,展示了在生成艺术内容方面的非凡能力。然而,这些模型如何在内部表示概念(如绘画中的内容和风格)这一基本问题仍未被探索。传统的计算机视觉假设内容和风格是正交的,但扩散模型在训练过程中并没有关于这种区分的明确指导。在这项工作中,我们研究了基于变压器的文本到图像扩散模型在生成艺术作品时如何编码内容和风格概念。我们利用交叉注意力热图将生成图像中的像素归因于特定的提示词,从而使我们能够隔离受内容描述词与风格描述词影响的图像区域。我们的研究结果表明,扩散模型在内容和风格的分离程度上因特定的艺术提示和请求的风格而异。在许多情况下,内容词主要影响与对象相关的区域,而风格词则影响背景和纹理区域,这表明模型对内容和风格区分的自发理解。这些见解有助于我们理解大规模生成模型在没有明确监督的情况下如何在内部表示复杂的艺术概念。我们在此 https URL 分享代码和数据集,以及一个用于可视化注意力图的探索工具。 |
[40] 超参数优化对轻量级深度学习模型实时图像分类准确性的影响 标题: Impact of Hyperparameter Optimization on the Accuracy of Lightweight Deep Learning Models for Real-Time Image Classification 作者: Vineet Kumar Rakesh / Soumya Mazumdar / Tapas Samanta / Sarbajit Pal / Amitabha Das 原文: [英文] [中文] 备注: 13 pages, 4 figures, 4 tables. Includes ablation study and evaluation on 7 lightweight deep learning models. Code and logs available at this https URL 摘要: 轻量级卷积和基于变压器的模型在资源受限的应用中(如嵌入式系统和边缘设备)已成为实时图像分类的关键。本研究分析了超参数调整对七种高效深度学习架构的准确性和收敛行为的影响:EfficientNetV2-S、ConvNeXt-T、MobileViT v2 (XXS/XS/S)、MobileNetV3-L、TinyViT-21M 和 RepVGG-A2。所有模型均在 ImageNet-1K 数据集上进行训练,采用一致的训练设置,重点关注实时实用性。我们进行了全面的消融研究,以分离关键超参数的影响,包括学习率调度、批量大小、输入分辨率、数据增强、正则化方法和优化器选择。为了评估其在实时应用中的适用性,每个模型不仅在 Top-1 和 Top-5 分类准确性方面进行评估,还在 GPU 加速的边缘部署模拟中评估推理时间、参数数量、模型大小和每秒帧数(FPS)。结果表明,余弦学习率衰减和可调批量大小可以大大提高准确性和收敛速度,同时保持低延迟和内存成本。值得注意的是,RepVGG-A2 在高效推理性能下实现了超过 80% 的 Top-1 准确率,为 VGG 风格模型提供了准确性和部署成本之间的有力平衡。结果为构建适合实时图像处理管道的资源高效深度学习模型提供了实用指导。所有代码和训练日志均可在此 https URL 公开获取。 |
[41] FastDriveVLA:通过即插即用的基于重建的令牌剪枝实现高效的端到端驾驶 标题: FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning 作者: Jiajun Cao / Qizhe Zhang / Peidong Jia / Xuhui Zhao / Bo Lan / Xiaoan Zhang / Xiaobao Wei / Sixiang Chen / Zhuo Li / Yang Wang / Liyun Li / Xianming Liu / Ming Lu / Shanghang Zhang 原文: [英文] [中文] 备注: 9 pages, 5 figures 摘要: 视觉-语言-动作(VLA)模型在复杂场景理解和动作推理方面展示了显著的潜力,因而在端到端自动驾驶系统中被越来越多地采用。然而,VLA模型的长视觉标记极大地增加了计算成本。目前视觉-语言模型(VLM)中的视觉标记剪枝方法依赖于视觉标记相似性或视觉-文本注意力,但在自动驾驶场景中表现不佳。鉴于人类驾驶员在驾驶时会集中注意力于相关的前景区域,我们认为保留包含这些前景信息的视觉标记对于有效决策至关重要。受此启发,我们提出了FastDriveVLA,一种专为自动驾驶设计的基于重建的视觉标记剪枝框架。FastDriveVLA包括一个即插即用的视觉标记剪枝器,称为ReconPruner,它通过MAE风格的像素重建优先处理前景信息。我们设计了一种新颖的对抗性前景-背景重建策略,用于训练VLA模型的视觉编码器中的ReconPruner。一旦训练完成,ReconPruner可以无缝应用于具有相同视觉编码器的不同VLA模型,而无需重新训练。为了训练ReconPruner,我们还引入了一个名为nuScenes-FG的大规模数据集,该数据集由241K个带有标注前景区域的图像-掩码对组成。我们的方法在nuScenes闭环规划基准测试中,在不同的剪枝比率下实现了最先进的结果。 |
[42] FASTopoWM:使用潜在世界模型进行快慢车道段拓扑推理 标题: FASTopoWM: Fast-Slow Lane Segment Topology Reasoning with Latent World Models 作者: Yiming Yang / Hongbin Lin / Yueru Luo / Suzhong Fu / Chao Zheng / Xinrui Yan / Shuqi Mei / Kun Tang / Shuguang Cui / Zhen Li 原文: [英文] [中文] 备注: None 摘要: 车道段拓扑推理提供了全面的鸟瞰视角(BEV)道路场景理解,可以作为面向规划的端到端自动驾驶系统中的关键感知模块。现有的车道拓扑推理方法往往在有效利用时间信息以增强检测和推理性能方面表现不足。最近,基于流的时间传播方法通过在查询和BEV层面结合时间线索展示了有前景的结果。然而,该方法仍然受到对历史查询过度依赖、对姿态估计失败的脆弱性以及时间传播不足的限制。为克服这些限制,我们提出了FASTopoWM,一种新颖的快慢车道段拓扑推理框架,增强了潜在世界模型。为了减少姿态估计失败的影响,这一统一框架使得历史和新初始化查询的并行监督成为可能,促进了快慢系统之间的相互增强。此外,我们引入了基于动作潜在条件的潜在查询和BEV世界模型,以将状态表示从过去的观测传播到当前时间步。这一设计显著提高了慢管道中时间感知的性能。在OpenLane-V2基准上的大量实验表明,FASTopoWM在车道段检测(mAP为37.4%对比33.6%)和中心线感知(OLS为46.3%对比41.5%)方面均优于最先进的方法。 |
[43] 学习用于特征增强的语义方向以实现领域泛化的医学分割 标题: Learning Semantic Directions for Feature Augmentation in Domain-Generalized Medical Segmentation 作者: Yingkai Wang / Yaoyao Zhu / Xiuding Cai / Yuhao Xiao / Haotian Wu / Yu Yao 原文: [英文] [中文] 备注: None 摘要: 医学图像分割在临床工作流程中起着至关重要的作用,但域迁移常常导致模型在未见过的临床领域中表现退化。这一挑战源于成像条件、扫描仪类型和采集协议的变化,限制了分割模型的实际部署。与自然图像不同,医学图像通常在患者之间表现出一致的解剖结构,域特定的变化主要由成像条件引起。这一独特特性使得医学图像分割特别具有挑战性。 为了解决这一挑战,我们提出了一种专为医学图像分割设计的域泛化框架。我们的方法通过引入由域统计指导的隐式特征扰动来提高对域特定变化的鲁棒性。具体来说,我们采用可学习的语义方向选择器和基于协方差的语义强度采样器来调节域变异特征,同时保持与任务相关的解剖一致性。此外,我们设计了一种自适应一致性约束,仅在特征调整导致分割性能下降时选择性地应用。该约束鼓励调整后的特征与原始预测对齐,从而稳定特征选择并提高分割的可靠性。 在两个公共多中心基准上的大量实验表明,我们的框架始终优于现有的域泛化方法,在不同的临床领域中实现了稳健且可推广的分割性能。 |
[44] 对比学习驱动的交通标志感知:文本与视觉的多模态融合 标题: Contrastive Learning-Driven Traffic Sign Perception: Multi-Modal Fusion of Text and Vision 作者: Qiang Lu / Waikit Xiu / Xiying Li / Shenyu Hu / Shengbo Sun 原文: [英文] [中文] 备注: 11pages, 5 figures 摘要: 交通标志识别作为自动驾驶感知系统的核心组件,直接影响车辆的环境感知和驾驶安全。当前技术面临两个重大挑战:首先,交通标志数据集呈现出明显的长尾分布,导致传统卷积网络在处理低频和分布外类别时识别性能显著下降;其次,现实场景中的交通标志主要是小目标,并且具有显著的尺度变化,这使得多尺度特征提取变得困难。为了解决这些问题,我们提出了一种结合开放词汇检测和跨模态学习的新颖两阶段框架。在交通标志检测方面,我们的NanoVerse YOLO模型集成了可重参数化的视觉-语言路径聚合网络(RepVL-PAN)和SPD-Conv模块,专门增强对小型、多尺度目标的特征提取。在交通标志分类方面,我们设计了一个交通标志识别多模态对比学习模型(TSR-MCL)。通过对比视觉Transformer的视觉特征和基于规则的BERT的语义特征,TSR-MCL学习到稳健的、与频率无关的表示,有效缓解了数据不平衡导致的类别混淆。在TT100K数据集上,我们的方法在长尾检测任务的全类别识别中达到了78.4%的最新mAP。该模型还获得了91.8%的准确率和88.9%的召回率,显著优于主流算法,并在复杂的开放世界场景中展示了卓越的准确性和泛化能力。 |
[45] MagicRoad:通过障碍物修复进行语义感知的三维道路表面重建 标题: MagicRoad: Semantic-Aware 3D Road Surface Reconstruction via Obstacle Inpainting 作者: Xingyue Peng / Yuandong Lyu / Lang Zhang / Jian Zhu / Songtao Wang / Jiaxin Deng / Songxin Lu / Weiliang Ma / Dangen She / Peng Jia / XianPeng Lang 原文: [英文] [中文] 备注: None 摘要: 道路表面重建对于自动驾驶至关重要,它支持厘米级精度的车道感知和复杂城市环境中的高清地图绘制。尽管最近基于网格渲染或3D高斯点云(3DGS)的方法在干净和静态条件下取得了可喜的成果,但它们仍然容易受到动态物体遮挡、静态障碍物的视觉杂乱以及光照和天气变化导致的外观退化的影响。我们提出了一种稳健的重建框架,该框架结合了遮挡感知的二维高斯表面元素和语义引导的颜色增强,以恢复干净、一致的道路表面。我们的方法利用平面适应的高斯表示进行高效的大规模建模,采用分割引导的视频修复来去除动态和静态前景物体,并通过在HSV空间中的语义感知校正来增强颜色一致性。在城市规模的数据集上进行的大量实验表明,我们的框架在视觉一致性和几何真实性方面显著优于现有方法,在真实世界条件下表现出色。 |
[46] 图像分辨率对人脸检测的影响:MTCNN、YOLOv XI 和 YOLOv XII 模型的比较分析 标题: The Impact of Image Resolution on Face Detection: A Comparative Analysis of MTCNN, YOLOv XI and YOLOv XII models 作者: Ahmet Can Ömercikoğlu / Mustafa Mansur Yönügül / Pakize Erdoğmuş 原文: [英文] 备注: 6 pages, 5 figures, 4 tables 摘要: 人脸检测是许多人工智能驱动应用中的关键组件,如监控、生物识别认证和人机交互。然而,现实世界中的条件,如低分辨率图像,给检测性能带来了显著挑战。在这项研究中,我们系统地调查了输入分辨率对三种著名的基于深度学习的人脸检测器(YOLOv11、YOLOv12和MTCNN)的准确性和鲁棒性的影响。我们使用WIDER FACE数据集,在多个图像分辨率(160x160、320x320和640x640)上进行了广泛评估,并使用精度、召回率、mAP50、mAP50-95和推理时间等指标评估每个模型的性能。结果表明,YOLOv11在检测准确性方面优于YOLOv12和MTCNN,尤其是在较高分辨率下,而YOLOv12在召回率方面表现略好。尽管MTCNN在标志定位方面具有竞争力,但在实时推理速度上有所滞后。我们的研究结果为选择适合不同操作约束的分辨率感知人脸检测模型提供了可操作的见解。 |
[47] 谁是更好的谈话者:AI生成的说话头像的主观和客观质量评估 标题: Who is a Better Talker: Subjective and Objective Quality Assessment for AI-Generated Talking Heads 作者: Yingjie Zhou / Jiezhang Cao / Zicheng Zhang / Farong Wen / Yanwei Jiang / Jun Jia / Xiaohong Liu / Xiongkuo Min / Guangtao Zhai 原文: [英文] 备注: None 摘要: 语音驱动的人像方法形象地被称为“说话者”,因为它们能够合成说话时的嘴形和面部动作。特别是随着文本到图像(T2I)模型的快速发展,AI生成的说话头像(AGTHs)逐渐成为一种新兴的数字人类媒体。然而,这些说话者及其生成的AGTHs的质量仍然存在挑战,针对这些问题的全面研究仍然有限。为了解决这一差距,本文提出了迄今为止最大的AGTH质量评估数据集THQA-10K,该数据集选择了12个著名的T2I模型和14个先进的说话者来为14个提示生成AGTHs。在排除AGTH生成不成功的实例后,THQA-10K数据集包含10,457个AGTHs。然后,招募志愿者对AGTHs进行主观评分并给出相应的失真类别。在我们的主观实验结果分析中,我们评估了说话者在泛化性和质量方面的表现,并揭示了现有AGTHs的失真。最后,提出了一种基于第一帧、Y-T切片和音调-唇形一致性的客观质量评估方法。实验结果表明,该方法在AGTH质量评估中可以达到最先进的(SOTA)性能。该工作已在此https URL发布。 |
[48] IN45023 计算机视觉中的神经网络设计模式研讨会报告,2025年夏季 标题: IN45023 Neural Network Design Patterns in Computer Vision Seminar Report, Summer 2025 作者: Radu-Andrei Bourceanu / Neil De La Fuente / Jan Grimm / Andrei Jardan / Andriy Manucharyan / Cornelius Weiss / Roman Pflugfelder 原文: [英文] [中文] 备注: None 摘要: 本报告通过分析六篇有影响力的论文,探讨了计算机视觉中关键设计模式的演变。分析从图像识别的基础架构开始。我们回顾了ResNet,它引入了残差连接以克服梯度消失问题,并使得显著更深的卷积网络的有效训练成为可能。随后,我们研究了Vision Transformer (ViT),它通过将Transformer架构应用于图像块序列,建立了一种新范式,展示了基于注意力模型在大规模图像识别中的有效性。在这些视觉表示骨干的基础上,我们研究了生成模型。生成对抗网络(GANs)因其新颖的对抗训练过程而被分析,该过程通过让生成器与判别器对抗来学习复杂的数据分布。接着,我们讨论了潜在扩散模型(LDMs),它通过在感知压缩的潜在空间中执行顺序去噪过程改进了先前的生成方法。LDMs以更高的计算效率实现了高保真合成,代表了当前图像生成的最新技术。最后,我们探讨了减少对标注数据依赖的自监督学习技术。DINO是一种自蒸馏框架,其中学生网络学习匹配动量更新的教师的输出,产生具有强k-NN分类性能的特征。我们以Masked Autoencoders (MAE) 作为结尾,它利用不对称的编码器-解码器设计来重建大量掩蔽的输入,提供了一种高度可扩展且有效的大规模视觉模型预训练方法。 |
[49] Short-LVLM:通过剪枝冗余层来压缩和加速大型视觉语言模型 标题: Short-LVLM: Compressing and Accelerating Large Vision-Language Models by Pruning Redundant Layers 作者: Ji Ma / Wei Suo / Peng Wang / Yanning Zhang 原文: [英文] [中文] 备注: Accepted By ACM MM 25 摘要: 尽管大型视觉语言模型(LVLMs)在多模态理解和推理方面展示了令人印象深刻的能力,但其实际应用仍然受到大量模型参数和高计算成本的限制。自然语言处理(NLP)的最新研究表明,层剪枝的有效性提供了一种无需训练的压缩解决方案。然而,由于视觉和语言之间的模态差异,这些NLP技术在LVLMs中是否仍然有效尚不清楚。在本文中,我们通过实验证明,直接将这些层剪枝方法应用于LVLMs是无效的。通过大量实验,我们发现非必要的视觉语言(VL)标记和层间特征差距对LVLMs中的层剪枝构成了关键挑战。基于这些见解,我们提出了一种新颖的框架Short-LVLM(SVL),可以利用重要的VL标记并减轻层间特征差距。值得注意的是,Short-LVLM不仅在性能和效率之间实现了更优的平衡,还展示了几个潜在的优势,即无需训练、与模型无关和高度兼容。该工作的代码可在此https URL公开获取。 |
[50] VMatcher:状态空间半稠密局部特征匹配 标题: VMatcher: State-Space Semi-Dense Local Feature Matching 作者: Ali Youssef 原文: [英文] [中文] 备注: None 摘要: 本文介绍了VMatcher,这是一种用于图像对之间半稠密特征匹配的混合Mamba-Transformer网络。基于学习的特征匹配方法,无论是基于检测器的还是无检测器的,都达到了最先进的性能,但它们严重依赖于Transformer的注意力机制。尽管这种机制有效,但由于其二次复杂性,计算成本很高。相比之下,Mamba引入了一种选择性状态空间模型(SSM),该模型以线性复杂度实现了相当或更优的性能,从而显著提高了效率。VMatcher利用了一种混合方法,将Mamba的高效长序列处理与Transformer的注意力机制相结合。提出了多种VMatcher配置,包括分层架构,展示了其在高效设定新基准的同时,确保了在实时应用中快速推理的稳健性和实用性。源代码可在此URL获取:this https URL |
[51] UniEmo:通过可学习的专家查询统一情感理解与生成 标题: UniEmo: Unifying Emotional Understanding and Generation with Learnable Expert Queries 作者: Yijie Zhu / Lingsen Zhang / Zitong Yu / Rui Shao / Tao Tan / Liqiang Nie 原文: [英文] [中文] 备注: None 摘要: 情感理解和生成通常被视为独立的任务,但它们本质上是互补的,可以相互增强。在本文中,我们提出了UniEmo,一个无缝整合这两个任务的统一框架。关键挑战在于情感的抽象性质,需要提取对这两个任务都有利的视觉表示。为了解决这个问题,我们提出了一个具有可学习专家查询的分层情感理解链,逐步提取多尺度情感特征,从而作为统一的基础步骤。同时,我们融合这些专家查询和情感表示,以指导扩散模型生成引发情感的图像。为了增强生成情感图像的多样性和真实性,我们进一步在融合过程中引入了情感相关系数和情感条件损失。这一步促进了情感生成的融合和对齐,由理解引导。反过来,我们证明了联合训练允许生成组件为理解部分提供隐式反馈。此外,我们提出了一种新颖的数据过滤算法,以选择由训练良好的模型生成的高质量和多样化的情感图像,并明确反馈到理解部分。结合这些生成驱动的双重反馈过程,增强了模型的理解能力。大量实验表明,UniEmo在情感理解和生成任务中显著优于最先进的方法。所提出方法的代码可在此https URL获取。 |
[52] 多提示渐进对齐用于多源无监督领域适应 标题: Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation 作者: Haoran Chen / Zexiao Wang / Haidong Cao / Zuxuan Wu / Yu-Gang Jiang 原文: [英文] [中文] 备注: None 摘要: 像 CLIP 这样的大型视觉语言模型由于其强大的零样本泛化能力,已成为无监督领域自适应的强大基础。最先进的方法通常利用 CLIP 为目标领域生成伪标签,然后微调模型以学习领域不变特征。然而,这些方法试图同时使用所有伪标记数据来对齐源域和目标域。这种一次性对齐在处理噪声大、难以分类的样本时表现不佳,导致错误传播和次优特征学习。在多源场景中,这个问题更加严重,因为多个源域之间的多样化领域差距和不同的噪声水平进一步破坏了对齐过程。为了解决这个问题,在这项工作中,我们提出了一种渐进对齐策略,以适应 CLIP 到未标记的下游任务。我们的方法首先在目标样本的高置信度子集上训练模型,使其能够从最可靠的数据中首先学习到良好对齐的表示。随着训练的进行,它逐渐纳入更具挑战性的样本,引导模型在不被初始标签噪声淹没的情况下完善其理解。这种渐进的方法有效地减轻了确认偏差,并促进了更稳健的收敛,从而能够学习真正的领域不变特征。我们将我们的方法命名为 MP^2A,并在三个流行的 UDA 基准测试上进行测试,即 ImageCLEF、Office-Home 和最具挑战性的 DomainNet。实验表明,与最近的基于 CLIP 的 MS-UDA 方法相比,MP^2A 实现了最先进的性能,证明了我们方法的有效性。 |
[53] NeRF 是 3D 高斯散点图的有价值助手 标题: NeRF Is a Valuable Assistant for 3D Gaussian Splatting 作者: Shuangkang Fang / I-Chao Shen / Takeo Igarashi / Yufeng Wang / ZeSheng Wang / Yi Yang / Wenrui Ding / Shuchang Zhou 原文: [英文] [中文] 备注: Accepted by ICCV 摘要: 我们介绍了NeRF-GS,这是一种新颖的框架,可以联合优化神经辐射场(NeRF)和三维高斯散点(3DGS)。该框架利用NeRF固有的连续空间表示来缓解3DGS的若干限制,包括对高斯初始化的敏感性、有限的空间感知能力以及较弱的高斯间相关性,从而提升其性能。在NeRF-GS中,我们重新审视了3DGS的设计,并逐步将其空间特征与NeRF对齐,使得两种表示可以通过共享的三维空间信息在同一场景中进行优化。我们进一步通过优化隐式特征和高斯位置的残差向量来解决这两种方法之间的形式差异,以增强3DGS的个性化能力。基准数据集上的实验结果表明,NeRF-GS超越了现有方法,达到了最先进的性能。这个结果证实了NeRF和3DGS是互补的而非竞争的,为结合3DGS和NeRF的高效三维场景表示的混合方法提供了新的见解。 |
[54] AGA:一种用于结构化医学跨模态表示学习的自适应组对齐框架 标题: AGA: An adaptive group alignment framework for structured medical cross-modal representation learning 作者: Wei Li / Xun Gong / Jiao Li / Xiaobin Sun 原文: [英文] [中文] 备注: None 摘要: 从配对的图像和报告中学习医学视觉表征是表征学习的一个有前途的方向。然而,目前医学领域的视觉-语言预训练方法通常将临床报告简化为单一实体或碎片化的标记,忽视了其固有的结构。此外,对比学习框架通常依赖于大量的困难负样本,这对于小规模的医学数据集来说是不切实际的。为了解决这些挑战,我们提出了自适应分组对齐(AGA),这是一种从配对的医学图像和报告中捕捉结构化语义的新框架。AGA引入了一种基于稀疏相似度矩阵的双向分组机制。对于每个图像-报告对,我们计算文本标记和图像块之间的细粒度相似性。每个标记选择其最匹配的图像块形成一个视觉组,而每个图像块选择其最相关的标记形成一个语言组。为了实现自适应分组,我们设计了两个阈值门控模块,称为语言分组阈值门和视觉分组阈值门,它们动态学习分组阈值。组表征根据相似度得分计算为加权平均。为了将每个标记与其组表征对齐,我们引入了一种实例感知组对齐损失,该损失在每个图像-文本对内操作,消除了对外部负样本的需求。最后,应用双向跨模态分组对齐模块以增强视觉和语言组表征之间的细粒度对齐。在公共和私有数据集上的大量实验表明,我们的方法在图像-文本检索和分类任务中在微调和零样本设置下都取得了强劲的性能。 |
[55] 通过扩散轨迹进行医学影像的分布外检测 标题: Out-of-Distribution Detection in Medical Imaging via Diffusion Trajectories 作者: Lemar Abdi / Francisco Caetano / Amaan Valiuddin / Christiaan Viviers / Hamdi Joudeh / Fons van der Sommen 原文: [英文] [中文] 备注: Accepted at Uncertainty for Safe Utilization of Machine Learning in Medical Imaging, MICCAI 2025 摘要: 在医学影像中,无监督的分布外(OOD)检测为识别极低发病率的病理病例提供了一种有吸引力的方法。与监督方法相比,基于OOD的方法无需标签,且本质上对数据不平衡具有鲁棒性。目前的生成方法通常依赖于似然估计或重建误差,但这些方法可能计算量大、不可靠,并且如果内围数据发生变化则需要重新训练。这些限制阻碍了它们有效、一致和稳健地区分正常输入和异常输入的能力。我们提出了一种无重建的OOD检测方法,该方法利用基于Stein得分的去噪扩散模型(SBDDM)的前向扩散轨迹。通过估计的Stein得分捕捉轨迹曲率,我们的方法仅需五个扩散步骤即可实现准确的异常评分。一个在大型语义对齐的医学数据集上预训练的单一SBDDM能够有效泛化到多个近OOD和远OOD基准,达到最先进的性能,同时在推理过程中大幅降低计算成本。与现有方法相比,SBDDM在近OOD和远OOD检测中分别实现了高达10.43%和18.10%的相对改进,使其成为实时、可靠的计算机辅助诊断的实用构件。 |
[56] 使用高光谱成像和机器学习检测蜂蜜掺假 标题: Honey Adulteration Detection using Hyperspectral Imaging and Machine Learning 作者: Mokhtar A. Al-Awadhi / Ratnadeep R. Deshmukh 原文: [英文] 备注: None 摘要: 本文旨在开发一个基于机器学习的系统,用于根据蜂蜜高光谱成像数据自动检测蜂蜜中掺入糖浆的情况。首先,通过植物来源识别子系统对蜂蜜样本的花卉来源进行分类。然后,通过掺假检测子系统识别糖浆掺假的情况,并量化其浓度。两个子系统都包括两个步骤。第一步是使用线性判别分析(LDA)从蜂蜜样本中提取相关特征。在第二步中,我们利用K-近邻(KNN)模型在第一个子系统中对蜂蜜的植物来源进行分类,并在第二个子系统中识别掺假水平。我们在一个公共的蜂蜜高光谱图像数据集上评估了所提出系统的性能。结果表明,所提出的系统能够以96.39%的整体交叉验证准确率检测蜂蜜中的掺假,使其成为当前基于化学检测方法的合适替代方案。 |
[57] 超越线性瓶颈:基于样条的知识蒸馏用于文化多样的艺术风格分类 标题: Beyond Linear Bottlenecks: Spline-Based Knowledge Distillation for Culturally Diverse Art Style Classification 作者: Abdellah Zakaria Sellam / Salah Eddine Bekhouche / Cosimo Distante / Abdelmalik Taleb-Ahmed 原文: [英文] 备注: None 摘要: 由于缺乏专家标注的数据集以及风格元素之间复杂且常常是非线性的相互作用,艺术风格分类在计算美学中仍然是一个艰巨的挑战。尽管最近的双教师自监督框架减少了对标注数据的依赖,但其线性投影层和局部化的关注难以建模全局的组合上下文和复杂的风格特征交互。我们通过用Kolmogorov-Arnold网络(KANs)替换传统的MLP投影和预测头,增强了双教师知识蒸馏框架以解决这些限制。我们的方法保留了来自两个教师网络的互补指导,一个强调局部的纹理和笔触模式,另一个捕捉更广泛的风格层次,同时利用KANs的样条激活以数学精度建模非线性特征相关性。在WikiArt和Pandora18k上的实验表明,我们的方法在Top-1准确率上优于基础的双教师架构。我们的研究结果强调了KANs在解开复杂风格流形中的重要性,从而比MLP投影获得更好的线性探测准确性。 |
[58] 可调空间-光谱高光谱图像压缩网络 标题: Adjustable Spatio-Spectral Hyperspectral Image Compression Network 作者: Martin Hermann Paul Fuchs / Behnood Rasti / Begüm Demir 原文: [英文] [中文] 备注: None 摘要: 随着遥感(RS)中高光谱数据存档的快速增长,对高效存储的需求变得至关重要,这引起了对基于学习的高光谱图像(HSI)压缩的极大关注。然而,关于光谱和空间压缩对基于学习的HSI压缩的单独和联合影响的全面研究尚未得到彻底的检验。进行这样的分析对于理解光谱、空间以及联合时空冗余的利用如何影响HSI压缩至关重要。为了解决这个问题,我们提出了可调节时空高光谱图像压缩网络(HyCASS),这是一种用于在光谱和空间维度上进行可调节HSI压缩的基于学习的模型。HyCASS由六个主要模块组成:1)光谱编码器;2)空间编码器;3)压缩率(CR)适配器编码器;4)CR适配器解码器;5)空间解码器;以及6)光谱解码器模块。这些模块采用卷积层和变换器块来捕捉短程和长程冗余。在两个HSI基准数据集上的实验结果表明,与现有的基于学习的压缩模型相比,我们提出的可调节模型具有有效性。基于我们的结果,我们建立了一项指南,以有效平衡不同CR下的光谱和空间压缩,同时考虑到HSI的空间分辨率。我们的代码和预训练模型权重可在此https URL公开获取。 |
[59] 机器学习与机器学习预测在胸部X光图像中的应用 标题: Machine learning and machine learned prediction in chest X-ray images 作者: Shereiff Garrett / Abhinav Adhikari / Sarina Gautam / DaShawn Marquis Morris / Chandra Mani Adhikari 原文: [英文] [中文] 备注: 8 pages, 7 figures 摘要: 机器学习和人工智能是快速发展的研究领域,其中数据被用于训练算法、学习模式和进行预测。这种方法通过识别数据中的复杂关系,帮助在没有显式编程的情况下以显著的准确性解决看似复杂的问题。以5824张胸部X光片为例,我们实现了两种机器学习算法,即基线卷积神经网络(CNN)和DenseNet-121,并展示了我们在预测患病患者时的机器学习预测分析。在本文中提出的二元分类问题中,基线CNN和DenseNet-121都表现得非常好。梯度加权类激活映射显示,DenseNet-121在决策过程中比基线CNN更准确地关注输入胸部X光片的关键部分。 |
[60] 缓解联邦学习中的分辨率漂移:关键点检测案例 标题: Mitigating Resolution-Drift in Federated Learning: Case of Keypoint Detection 作者: Taeheon Lim / Joohyung Lee / Kyungjae Lee / Jungchan Cho 原文: [英文] [中文] 备注: None 摘要: 联邦学习(FL)方法能够在分布式系统中实现有效学习,同时保护用户数据隐私。迄今为止,研究主要集中在解决统计异质性和通信效率问题,通过这些努力,FL在分类任务中取得了成功。然而,其在非分类任务中的应用,如人体姿态估计,仍然未被充分探索。本文识别并研究了一个关键问题,称为“分辨率漂移”,即由于客户端之间分辨率的变化导致性能显著下降。与类别级异质性不同,分辨率漂移强调了分辨率作为非独立同分布(non-IID)数据的另一个重要轴线。为了解决这个问题,我们提出了分辨率自适应联邦学习(RAF),一种利用基于热图的知识蒸馏的方法。通过在高分辨率输出(教师)和低分辨率输出(学生)之间进行多分辨率知识蒸馏,我们的方法增强了分辨率的鲁棒性而不会过拟合。广泛的实验和理论分析表明,RAF不仅有效缓解了分辨率漂移并实现了显著的性能提升,还可以无缝集成到现有的FL框架中。此外,尽管本文重点关注人体姿态估计,我们的t-SNE分析揭示了分类任务与高分辨率表示任务之间的显著特征差异,支持RAF在其他依赖于保持空间细节的任务中的普适性。 |
[61] CST Anti-UAV:复杂场景中微型无人机跟踪的热红外基准 标题: CST Anti-UAV: A Thermal Infrared Benchmark for Tiny UAV Tracking in Complex Scenes 作者: Bin Xie / Congxuan Zhang / Fagan Wang / Peng Liu / Feng Lu / Zhen Chen / Weiming Hu 原文: [英文] 备注: Accepted by ICCVW2025 摘要: 无人机(UAV)的广泛应用引发了严重的公共安全和隐私问题,使得无人机感知在反无人机任务中变得至关重要。然而,现有的无人机跟踪数据集主要以显眼的目标为主,缺乏场景复杂性和属性表现的多样性,限制了其在现实场景中的适用性。为克服这些限制,我们提出了CST Anti-UAV,这是一个专门为复杂场景中的小型无人机(CST)单目标跟踪(SOT)设计的新热红外数据集。该数据集包含220个视频序列,超过24万个高质量的边界框注释,突出了两个关键特性:大量的小型无人机目标以及多样且复杂的场景。据我们所知,CST Anti-UAV是第一个结合完整手动帧级属性注释的数据集,能够在各种挑战下进行精确评估。为了对CST Anti-UAV进行深入的性能分析,我们在所提出的数据集上评估了20种现有的SOT方法。实验结果表明,在复杂环境中跟踪小型无人机仍然是一个挑战,因为最先进的方法仅实现了35.92%的状态准确率,远低于在Anti-UAV410数据集上观察到的67.69%。这些发现强调了现有基准的局限性以及无人机跟踪研究进一步进步的必要性。CST Anti-UAV基准即将公开发布,这不仅促进了更强大SOT方法的发展,也推动了反无人机系统的创新。 |
[62] 3D-R1:增强3D视觉语言模型中的推理能力以实现统一的场景理解 标题: 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding 作者: Ting Huang / Zeyu Zhang / Hao Tang 原文: [英文] [中文] 备注: None 摘要: 大型视觉-语言模型(VLMs)在二维视觉理解任务中取得了显著进展,引发了将这些能力扩展到三维场景理解的兴趣。然而,当前的三维VLMs由于高质量空间数据的限制和视点假设的静态性,往往在稳健推理和泛化方面表现不佳。为了解决这些挑战,我们提出了3D-R1,这是一种增强三维VLMs推理能力的基础模型。具体来说,我们首先构建了一个高质量的合成数据集,名为Scene-30K,利用现有的3D-VL数据集和基于Gemini 2.5 Pro的数据引擎。它作为3D-R1的冷启动初始化数据。此外,我们在强化学习训练过程中利用了RLHF策略,如GRPO,以增强推理能力,并引入了三种奖励函数:感知奖励、语义相似性奖励和格式奖励,以保持检测准确性和答案语义精度。此外,我们引入了一种动态视图选择策略,自适应地选择最具信息量的视角进行三维场景理解。大量实验表明,3D-R1在各种三维场景基准测试中平均提高了10%,突显了其在增强三维场景理解中的推理和泛化能力的有效性。代码:此https URL。网站:此https URL。 |
[63] 以少见多:基于多任务学习的视频胶囊内镜 标题: Seeing More with Less: Video Capsule Endoscopy with Multi-Task Learning 作者: Julia Werner / Oliver Bause / Julius Oexle / Maxime Le Floch / Franz Brinkmann / Jochen Hampe / Oliver Bringmann 原文: [英文] [中文] 备注: Accepted at Applications of Medical AI (AMAI workshop) at MICCAI 2025 (submitted version) 摘要: 视频胶囊内镜在研究胃肠道中的小肠方面变得越来越重要。然而,一个持续的挑战是这种紧凑型传感器边缘设备的电池寿命短。通过集成人工智能,可以通过实现智能实时决策来帮助克服这一限制,从而减少能耗并延长电池寿命。然而,由于数据稀疏性和设备资源有限限制了整体模型的大小,这仍然具有挑战性。在这项工作中,我们引入了一种多任务神经网络,该网络将胃肠道内的精确自定位功能与检测小肠异常的能力结合在一个模型中。在整个开发过程中,我们始终限制参数总数,以确保能够在小型胶囊中部署此类模型。我们使用最近发布的Galar数据集报告了第一个多任务结果,整合了已建立的多任务方法和Viterbi解码进行后续时间序列分析。这优于当前的单任务模型,并代表了该领域基于AI方法的重大进展。我们的模型在定位任务上达到了93.63%的准确率,在异常检测任务上达到了87.48%的准确率。该方法仅需100万个参数,同时超越了当前的基准。 |
[64] FastPoint:通过样本点距离预测加速3D点云模型推理 标题: FastPoint: Accelerating 3D Point Cloud Model Inference via Sample Point Distance Prediction 作者: Donghyun Lee / Dawoon Jeong / Jae W. Lee / Hongil Yoon 原文: [英文] 备注: Accepted to ICCV 2025 摘要: 深度神经网络已经彻底改变了3D点云处理,但高效处理大型和不规则的点云仍然具有挑战性。为了解决这个问题,我们引入了FastPoint,这是一种新颖的软件加速技术,它利用了在最远点采样过程中采样点之间可预测的距离趋势。通过预测距离曲线,我们可以在不需要穷尽计算所有成对距离的情况下高效地识别后续的采样点。我们的方案在保持采样质量和模型性能的同时,大大加速了最远点采样和邻居搜索操作。通过将FastPoint集成到最先进的3D点云模型中,我们在NVIDIA RTX 3090 GPU上实现了2.55倍的端到端加速,而不牺牲准确性。 |
[65] 稳定的Sim2Real:探索使用两阶段深度扩散的真实捕获3D数据模拟 标题: Stable-Sim2Real: Exploring Simulation of Real-Captured 3D Data with Two-Stage Depth Diffusion 作者: Mutian Xu / Chongjie Ye / Haolin Liu / Yushuang Wu / Jiahao Chang / Xiaoguang Han 原文: [英文] 备注: ICCV 2025 (Highlight). Project page: this https URL 摘要: 3D数据模拟旨在弥合模拟和真实捕获的3D数据之间的差距,这是现实世界3D视觉任务的一个基本问题。大多数3D数据模拟方法注入了预定义的物理先验,但难以捕捉真实数据的全部复杂性。一个理想的方法是以数据驱动的方式学习从合成到真实数据的隐式映射,但最近的研究中这一解决方案的进展遇到了停滞。本文探讨了一种新的数据驱动3D模拟解决路径,称为Stable-Sim2Real,基于一种新颖的两阶段深度扩散模型。初始阶段微调Stable-Diffusion以生成真实和合成配对深度之间的残差,产生稳定但粗略的深度,其中某些局部区域可能偏离真实模式。为了增强这一点,合成和初始输出深度都被输入到第二阶段扩散中,其中扩散损失被调整以优先考虑由3D判别器识别的这些不同区域。我们提供了一种新的基准方案来评估3D数据模拟方法。大量实验表明,使用我们方法生成的3D模拟数据训练网络显著提高了现实世界3D视觉任务的性能。此外,评估显示我们的3D模拟数据与真实捕获模式之间具有高度相似性。项目页面:this https URL。 |
[66] 在有遮挡的田间条件下对桌面种植草莓质量的在线估计 标题: Online Estimation of Table-Top Grown Strawberry Mass in Field Conditions with Occlusions 作者: Jinshan Zhen / Yuanyue Ge / Tianxiao Zhu / Hui Zhao / Ya Xiong 原文: [英文] [中文] 备注: Accepted by IROS 2025 摘要: 在田间条件下准确估算桌面种植草莓的质量仍然具有挑战性,因为经常出现遮挡和姿态变化。本研究提出了一种基于视觉的流程,集成了RGB-D传感和深度学习,以实现非破坏性、实时和在线质量估算。该方法采用YOLOv8-Seg进行实例分割,使用循环一致生成对抗网络(CycleGAN)完成遮挡区域,并通过倾斜角度校正来优化正面投影面积计算。然后,使用多项式回归模型将几何特征映射到质量。实验表明,孤立草莓的平均质量估算误差为8.11%,遮挡情况下为10.47%。在遮挡恢复方面,CycleGAN优于大遮罩修复(LaMa)模型,获得了更好的像素面积比(PAR)(平均:0.978 vs. 1.112)和更高的交并比(IoU)得分(在[0.9-1]范围内为92.3% vs. 47.7%)。这种方法解决了传统方法的关键限制,为复杂遮挡模式下的自动化收割和产量监测提供了强大的解决方案。 |
[67] 用于红外-可见光图像融合的双曲循环对齐 标题: Hyperbolic Cycle Alignment for Infrared-Visible Image Fusion 作者: Timing Li / Bing Cao / Jiahe Feng / Haifang Cao / Qinghau Hu / Pengfei Zhu 原文: [英文] [中文] 备注: None 摘要: 图像融合通过合成来自多个来源的互补信息,缓解了单一模式成像系统的固有局限性。准确的图像配准对于有效的多源数据融合至关重要。然而,现有的配准方法通常基于欧几里得空间中的图像平移,无法有效处理跨模态错位,导致次优的对齐和融合质量。为克服这一限制,我们探索了非欧几里得空间中的图像对齐,并提出了一种双曲循环对齐网络(Hy-CycleAlign)。据我们所知,Hy-CycleAlign是第一个基于双曲空间的图像配准方法。它引入了一个双路径跨模态循环配准框架,其中前向配准网络对齐跨模态输入,而后向配准网络重建原始图像,形成具有几何一致性的闭环配准结构。此外,我们设计了一个双曲层次对比对齐(H$^{2}$CA)模块,将图像映射到双曲空间并施加配准约束,有效减少了由模态差异引起的干扰。我们进一步分析了欧几里得空间和双曲空间中的图像配准,证明双曲空间能够实现更灵敏和有效的多模态图像配准。在错位的多模态图像上的大量实验表明,我们的方法在图像对齐和融合方面显著优于现有方法。我们的代码将公开发布。 |
[68] 我是伟大的,你是渺小的;我是正确的,你是错误的 标题: I Am Big, You Are Little; I Am Right, You Are Wrong 作者: David A. Kelly / Akchunya Chanchal / Nathan Blake 原文: [英文] 备注: 10 pages, International Conference on Computer Vision, ICCV 2025 摘要: 图像分类的机器学习是一个活跃且快速发展的领域。随着不同规模和架构的分类器的激增,选择合适的模型的问题变得越来越重要。虽然我们可以通过统计评估模型的分类准确性,但我们对这些模型工作方式的理解却很有限。为了深入了解不同视觉模型的决策过程,我们建议使用最小充分像素集来衡量模型的“集中度”:通过模型的视角捕捉图像本质的像素。通过比较像素集的位置、重叠和大小,我们发现不同架构在大小和位置上具有统计上不同的集中度。特别是,ConvNext和EVA模型与其他模型显著不同。我们还发现,被错误分类的图像与比正确分类更大的像素集相关联。 |
[69] ART:用于广义关系预测的自适应关系调整 标题: ART: Adaptive Relation Tuning for Generalized Relation Prediction 作者: Gopika Sudhakaran / Hikaru Shindo / Patrick Schramowski / Simone Schaub-Meyer / Kristian Kersting / Stefan Roth 原文: [英文] 备注: Accepted for publication in ICCV 2025 摘要: 视觉关系检测(VRD)是识别场景中物体之间关系的任务。仅在关系检测数据上训练的VRD模型难以超越其训练关系进行泛化。虽然提示调优已被用于适应视觉语言模型(VLMs)以进行VRD,但它使用手工制作的提示,难以处理新颖或复杂的关系。我们认为指令调优通过在多样化的指令数据上微调VLMs提供了更有效的解决方案。因此,我们引入了ART,一种自适应关系调优框架,通过指令调优和战略实例选择来适应VLMs进行VRD。通过将VRD数据集转换为指令调优格式并采用自适应采样算法,ART引导VLM关注信息丰富的关系,同时保持泛化能力。具体来说,我们专注于关系分类,其中给定主体-对象框,模型预测它们之间的谓词。我们在一个保留集上进行调优,并在多个复杂性不同的保留数据集上进行评估。我们的方法在基线之上有显著提升,并能够推断未见过的关系概念,这是主流VRD方法所缺乏的能力。我们通过使用预测关系来分割复杂场景,展示了ART的实际价值。 |
[70] 3D-MOOD:将二维提升到三维用于单目开放集目标检测 标题: 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection 作者: Yung-Hsu Yang / Luigi Piccinelli / Mattia Segu / Siyuan Li / Rui Huang / Yuqian Fu / Marc Pollefeys / Hermann Blum / Zuria Bauer 原文: [英文] 备注: ICCV 2025 摘要: 单目3D目标检测在机器人和AR/VR等各种应用中具有重要价值。现有方法局限于封闭集设置,其中训练和测试集由相同的场景和/或目标类别组成。然而,现实世界的应用通常会引入新的环境和新颖的目标类别,这对这些方法构成了挑战。在本文中,我们在开放集设置中解决单目3D目标检测问题,并介绍了首个端到端3D单目开放集目标检测器(3D-MOOD)。我们提出通过设计的3D边界框头将开放集2D检测提升到3D空间,从而实现2D和3D任务的端到端联合训练,以获得更好的整体性能。我们通过几何先验来调整目标查询,并克服在不同场景中进行3D估计的泛化问题。为了进一步提高性能,我们设计了规范图像空间,以实现更高效的跨数据集训练。我们在封闭集设置(Omni3D)和开放集设置(Omni3D到Argoverse 2, ScanNet)上评估3D-MOOD,并取得了新的最先进的结果。代码和模型可在此网址获取。 |
[71] 用于隐私保护视觉定位的高斯散点特征场 标题: Gaussian Splatting Feature Fields for Privacy-Preserving Visual Localization 作者: Maxime Pietrantoni / Gabriela Csurka / Torsten Sattler 原文: [英文] 备注: CVPR 2025 摘要: 视觉定位是指在已知环境中估计相机姿态的任务。在本文中,我们利用基于3D高斯散点(3DGS)的表示方法来实现精确且保护隐私的视觉定位。我们提出了高斯散点特征场(GSFFs),这是一种用于视觉定位的场景表示方法,它结合了显式几何模型(3DGS)和隐式特征场。我们利用3DGS中的密集几何信息和可微分光栅化算法来学习基于3D的鲁棒特征表示。特别地,我们通过对比框架在一个共同的嵌入空间中对齐3D尺度感知特征场和2D特征编码器。通过使用3D结构知晓的聚类过程,我们进一步规范了表示学习,并无缝地将特征转换为分割,这可以用于保护隐私的视觉定位。姿态优化涉及将查询图像的特征图或分割与从GSFFs场景表示中渲染的特征图或分割对齐,以实现定位。最终的保护隐私和非保护隐私的定位流程在多个真实世界数据集上进行了评估,显示出最先进的性能。 |
[72] 超越光泽:一种以手为中心的无光泽手语翻译框架 标题: Beyond Gloss: A Hand-Centric Framework for Gloss-Free Sign Language Translation 作者: Sobhan Asasi / Mohamed Ilyas Lakhal / Ozge Mercanoglu Sincan / Richard Bowden 原文: [英文] [中文] 备注: Accepted at BMVC 2025 摘要: 手语翻译(SLT)是一项具有挑战性的任务,需要在视觉和语言信息之间架起桥梁,同时捕捉手形和动作的细微变化。为了解决这些挑战,我们引入了\textbf{BeyondGloss},这是一种新颖的无词汇手语翻译框架,利用视频大语言模型(VideoLLMs)的时空推理能力。由于现有的VideoLLMs难以详细建模长视频,我们提出了一种新方法来生成手部运动的细粒度、时间感知的文本描述。在预训练过程中,一个对比对齐模块将这些描述与视频特征对齐,鼓励模型关注以手为中心的时间动态,并更有效地区分手语。为了进一步丰富手部特定的表示,我们从HaMeR中提取细粒度特征。此外,我们在手语视频表示和目标语言嵌入之间应用对比损失,以减少预训练中的模态差距。\textbf{BeyondGloss}在Phoenix14T和CSL-Daily基准上实现了最先进的性能,证明了所提出框架的有效性。我们将在论文接受后发布代码。 |
[73] MamV2XCalib:基于V2X的无靶标基础设施摄像头校准与状态空间模型 标题: MamV2XCalib: V2X-based Target-less Infrastructure Camera Calibration with State Space Model 作者: Yaoye Zhu / Zhe Wang / Yan Wang 原文: [英文] [中文] 备注: ICCV25 poster 摘要: 随着利用路边摄像头协助自动驾驶车辆感知的协作系统日益普及,大规模精确校准基础设施摄像头已成为一个关键问题。传统的手动校准方法通常耗时、费力,并可能需要封闭道路。本文提出了MamV2XCalib,这是首个基于V2X的基础设施摄像头校准方法,借助车辆侧的LiDAR。MamV2XCalib只需要配备LiDAR的自动驾驶车辆在需要校准的基础设施摄像头附近行驶,无需特定的参考物体或人工干预。我们还介绍了一种新的无目标LiDAR-摄像头校准方法,该方法结合了多尺度特征和4D相关体积来估计车辆侧点云与路边图像之间的相关性。我们使用Mamba建模时间信息并估计旋转角度,有效解决了由于车辆侧数据缺陷(如遮挡)和视点差异大导致的V2X场景校准失败问题。我们在V2X-Seq和TUMTraf-V2X真实世界数据集上评估了MamV2XCalib,证明了我们基于V2X的自动校准方法的有效性和鲁棒性。与之前为单车校准设计的LiDAR-摄像头方法相比,我们的方法在V2X场景中实现了更好和更稳定的校准性能,并且参数更少。代码可在此https URL获取。 |
[74] MoGA: 用于单目高斯头像重建的三维生成头像先验 标题: MoGA: 3D Generative Avatar Prior for Monocular Gaussian Avatar Reconstruction 作者: Zijian Dong / Longteng Duan / Jie Song / Michael J. Black / Andreas Geiger 原文: [英文] 备注: ICCV 2025 (Highlight), Project Page: this https URL 摘要: 我们提出了MoGA,这是一种从单视图图像重建高保真3D高斯头像的新方法。主要挑战在于推断未见的外观和几何细节,同时确保3D一致性和真实感。大多数先前的方法依赖于2D扩散模型来合成未见的视图;然而,这些生成的视图是稀疏且不一致的,导致不真实的3D伪影和模糊的外观。为了解决这些限制,我们利用了一个生成头像模型,该模型可以通过从学习的先验分布中采样变形的高斯来生成多样的3D头像。由于3D训练数据的有限,这样的3D模型单独无法捕捉到未见身份的所有图像细节。因此,我们将其作为先验进行整合,通过将输入图像投影到其潜在空间并施加额外的3D外观和几何约束来确保3D一致性。我们的新方法将高斯头像的创建表述为一个模型反演过程,通过将生成头像拟合到来自2D扩散模型的合成视图。生成头像为模型拟合提供了有意义的初始化,施加了3D正则化,并有助于优化姿态估计。实验表明,我们的方法超越了最先进的技术,并很好地推广到现实世界的场景。我们的高斯头像也具有内在的可动画性。 |
[75] DA-Occ:通过方向性二维实现几何结构保留的高效三维体素占用预测 标题: DA-Occ: Efficient 3D Voxel Occupancy Prediction via Directional 2D for Geometric Structure Preservation 作者: Yuchen Zhou / Yan Luo / Xiangang Wang / Xingjian Gu / Mingzhou Lu 原文: [英文] [中文] 备注: None 摘要: 高效且高精度的三维占用预测对于确保自动驾驶系统的性能至关重要。然而,许多当前的方法在追求高精度的同时,往往忽视了实时处理的需求。为了解决精度与推理速度之间的平衡问题,我们提出了一种方向性纯二维的方法。我们的方法通过切片三维体素特征来保留完整的垂直几何信息。这一策略弥补了鸟瞰图(BEV)表示中高度线索的缺失,从而保持三维几何结构的完整性。通过采用方向性注意机制,我们有效地从不同方向提取几何特征,在精度和计算效率之间取得平衡。实验结果突显了我们的方法在自动驾驶中的显著优势。在Occ3D-nuScenes数据集上,所提出的方法实现了39.3%的mIoU和27.7 FPS的推理速度,有效地平衡了精度和效率。在边缘设备的模拟中,推理速度达到14.8 FPS,进一步证明了该方法在资源受限环境中实时部署的适用性。 |
[76] 基于曼巴的高效时空频率运动感知用于视频伪装物体检测 标题: Mamba-based Efficient Spatio-Frequency Motion Perception for Video Camouflaged Object Detection 作者: Xin Li / Keren Fu / Qijun Zhao 原文: [英文] [中文] 备注: 11 pages, 11 figures 摘要: 现有的视频伪装物体检测(VCOD)方法主要依赖于空间外观特征来感知运动线索以打破伪装。然而,由于VCOD中前景和背景的高度相似性,空间外观特征(例如颜色和纹理)的可辨识性有限,从而限制了检测的准确性和完整性。最近的研究表明,频率特征不仅可以增强特征表示以弥补外观的局限性,还可以通过频率能量的动态变化感知运动。此外,新兴的状态空间模型Mamba由于其线性时间长序列建模能力,能够在帧序列中高效感知运动线索。受此启发,我们提出了一种基于时空频率运动感知的新型视觉伪装Mamba(Vcamba),该方法集成了频率和空间特征以实现高效且准确的VCOD。具体而言,我们提出了一个感受野视觉状态空间(RFVSS)模块,用于在序列建模后提取多尺度空间特征。对于频率学习,我们引入了一个自适应频率成分增强(AFE)模块,并采用一种新颖的频域序列扫描策略以保持语义一致性。然后,我们提出了一个基于空间的长程运动感知(SLMP)模块和一个基于频率的长程运动感知(FLMP)模块,以在空间和频率相位域中建模时空和频率时间序列。最后,空间和频率运动融合模块(SFMF)集成了双域特征以实现统一的运动表示。实验结果表明,我们的Vcamba在2个数据集上的6个评估指标中优于最先进的方法,并且计算成本更低,证实了Vcamba的优越性。我们的代码可在此URL获取:this https URL。 |
[77] 医学影像去识别基准挑战 标题: Medical Image De-Identification Benchmark Challenge 作者: Linmin Pei / Granger Sutton / Michael Rutherford / Ulrike Wagner / Tracy Nolan / Kirk Smith / Phillip Farmer / Peter Gu / Ambar Rana / Kailing Chen / Thomas Ferleman / Brian Park / Ye Wu / Jordan Kojouharov / Gargi Singh / Jon Lemon / Tyler Willis / Milos Vukadinovic / Grant Duffy / Bryan He / David Ouyang / Marco Pereanez / Daniel Samber / Derek A. Smith / Christopher Cannistraci / Zahi Fayad / David S. Mendelson / Michele Bufano / Elmar Kotter / Hamideh Haghiri / Rajesh Baidya / Stefan Dvoretskii / Klaus H. Maier-Hein / Marco Nolden / Christopher Ablett / Silvia Siggillino / Sandeep Kaushik / Hongzhu Jiang / Sihan Xie / Zhiyu Wan / Alex Michie / Simon J Doran / Angeline Aurelia Waly / Felix A. Nathaniel Liang / Humam Arshad Mustagfirin / Michelle Grace Felicia / Kuo Po Chih / Rahul Krish / Ghulam Rasool / Nidhal Bouaynaya / Nikolas Koutsoubis / Kyle Naddeo / Kartik Pandit / Tony O'Sullivan / Raj Krish / Qinyan Pan / Scott Gustafson / Benjamin Kopchick / Laura Opsahl-Ong / Andrea Olvera-Morales / Jonathan Pinney / Kathryn Johnson / Theresa Do / Juergen Klenk / Maria Diaz / Arti Singh / Rong Chai / David A. Clunie / Fred Prior / Keyvan Farahani 原文: [英文] [中文] 备注: 19 pages 摘要: 受保护健康信息(PHI)和个人身份信息(PII)的去识别化(deID)是共享医学图像的基本要求,特别是在通过公共存储库共享时,以确保遵守患者隐私法。此外,保留非PHI元数据以告知和支持成像人工智能(AI)的后续开发是生物医学研究中的一个重要考虑因素。MIDI-B的目标是提供一个标准化平台,用于基于符合HIPAA安全港法规、DICOM属性保密性配置文件以及由癌症成像档案(TCIA)定义的研究关键元数据保留最佳实践的一套规则,对DICOM图像去识别工具进行基准测试。该挑战使用了一个大型、多样化、多中心和多模态的真实去识别放射影像集,并插入了合成的PHI/PII。 MIDI-B挑战由三个阶段组成:训练、验证和测试。共有八十人注册参加挑战。在训练阶段,我们鼓励参与者使用他们的内部或公共数据来调整他们的算法。验证和测试阶段使用了包含合成标识符的DICOM图像(分别涉及216和322名受试者)。十个团队成功完成了挑战的测试阶段。为了衡量基于规则的方法在图像去识别中的成功,分数被计算为正确操作占所需操作总数的百分比。分数范围从97.91%到99.93%。参与者使用了各种开源和专有工具,配以定制配置、大型语言模型和光学字符识别(OCR)。在本文中,我们提供了关于MIDI-B挑战的设计、实施、结果和经验教训的全面报告。 |
[78] 一致性点匹配 标题: Consistent Point Matching 作者: Halid Ziya Yerebakan / Gerardo Hermosillo Valadez 原文: [英文] [中文] 备注: None 摘要: 本研究表明,将一致性启发式方法融入点匹配算法 \cite{yerebakan2023hierarchical} 可以提高在成对医学图像中匹配解剖位置的鲁棒性。我们在涵盖CT和MRI模式的多样化纵向内部和公共数据集上验证了我们的方法。值得注意的是,它在Deep Lesion Tracking数据集上超越了现有的最先进结果。此外,我们展示了该方法有效解决了标志点定位问题。该算法在标准CPU硬件上运行高效,并允许在速度和鲁棒性之间进行可配置的权衡。该方法无需机器学习模型或训练数据即可实现医学图像之间的高精度导航。 |
[79] DivControl:可控图像生成的知识分流 标题: DivControl: Knowledge Diversion for Controllable Image Generation 作者: Yucheng Xie / Fu Feng / Ruixiao Shi / Jing Wang / Yong Rui / Xin Geng 原文: [英文] 备注: None 摘要: 扩散模型已经从文本到图像(T2I)生成发展到通过结合深度图等结构化输入实现图像到图像(I2I)生成,从而实现细粒度的空间控制。然而,现有的方法要么为每种条件训练单独的模型,要么依赖于具有纠缠表示的统一架构,导致对新条件的泛化能力差和适应成本高。为此,我们提出了DivControl,这是一种用于统一可控生成和高效适应的可分解预训练框架。DivControl通过SVD将ControlNet分解为基本组件——奇异向量对——在多条件训练期间通过知识分流将其解耦为与条件无关的学习基因和条件特定的裁剪器。知识分流通过一个动态门实现,该门根据条件指令的语义对裁剪器进行软路由,从而实现对新条件的零样本泛化和参数高效适应。为了进一步提高条件的保真度和训练效率,我们引入了一种表示对齐损失,将条件嵌入与早期扩散特征对齐。大量实验表明,DivControl在训练成本减少36.4倍的情况下实现了最先进的可控性,同时提高了基本条件的平均性能。它还在未见过的条件下提供了强大的零样本和少样本性能,展示了卓越的可扩展性、模块化和可迁移性。 |
[80] 高效掩码注意力变换器用于小样本分类和分割 标题: Efficient Masked Attention Transformer for Few-Shot Classification and Segmentation 作者: Dustin Carrión-Ojeda / Stefan Roth / Simone Schaub-Meyer 原文: [英文] [中文] 备注: Accepted for GCPR 2025. Project page: this https URL 摘要: 小样本分类和分割(FS-CS)专注于使用少量标注样本同时执行多标签分类和多类分割。尽管当前的最新技术(SOTA)在这两项任务中都取得了高精度,但在处理小物体时仍存在困难。为了解决这个问题,我们提出了高效掩码注意力变换器(EMAT),它提高了分类和分割的准确性,尤其是在小物体方面。EMAT引入了三项改进:一种新颖的内存高效掩码注意力机制、一种可学习的降采样策略以及参数效率的增强。EMAT在PASCAL-5$^i$和COCO-20$^i$数据集上优于所有FS-CS方法,使用的可训练参数至少减少了四倍。此外,由于当前的FS-CS评估设置忽略了可用的标注,尽管这些标注的收集成本高昂,我们引入了两种新的评估设置,这些设置考虑了这些标注,以更好地反映实际场景。 |
[81] FFGAF-SNN:基于前向-前向的梯度近似自由训练框架用于脉冲神经网络 标题: FFGAF-SNN: The Forward-Forward Based Gradient Approximation Free Training Framework for Spiking Neural Networks 作者: Changqing Xu / Ziqiang Yang / Yi Liu / Xinfang Liao / Guiqi Mo / Hao Zeng / Yintang Yang 原文: [英文] 备注: None 摘要: 脉冲神经网络(SNNs)提供了一种生物学上合理的框架,用于能效高的神经形态计算。然而,由于其不可微性,训练SNNs是一个挑战。现有的梯度近似方法常常牺牲准确性,并由于反向传播的巨大计算需求而在边缘设备上面临部署限制。为了解决这些挑战,我们提出了一种基于前向-前向(FF)的无梯度近似训练框架,用于脉冲神经网络,该框架将脉冲激活视为黑箱模块,从而消除了梯度近似的需求,同时显著降低了计算复杂度。此外,我们引入了一种类感知复杂度适应机制,该机制根据类间难度指标动态优化损失函数,从而实现网络资源在不同类别之间的高效分配。实验结果表明,我们提出的训练框架在MNIST、Fashion-MNIST和CIFAR-10数据集上分别实现了99.58%、92.13%和75.64%的测试准确率,超越了所有现有的基于FF的SNN方法。此外,我们提出的方法在内存访问和计算功耗方面表现出显著优势。 |
[82] 自适应蒸馏控制网络:加速训练与卓越采样用于医学图像合成 标题: Adaptively Distilled ControlNet: Accelerated Training and Superior Sampling for Medical Image Synthesis 作者: Kunpeng Qiu / Zhiying Zhou / Yongxin Guo 原文: [英文] [中文] 备注: Accepted by MICCAI2025 摘要: 医学图像标注受到隐私问题和劳动密集型标注的限制,显著限制了分割模型的性能和泛化能力。尽管掩码可控扩散模型在合成方面表现出色,但在精确的病变掩码对齐方面存在困难。我们提出了\textbf{自适应蒸馏控制网络},这是一种任务无关的框架,通过双模型蒸馏加速训练和优化。具体来说,在训练过程中,一个以掩码-图像对为条件的教师模型通过参数空间中的预测噪声对齐来正则化仅掩码的学生模型,并通过基于病变-背景比率的自适应正则化进一步增强。在采样过程中,仅使用学生模型,从而实现隐私保护的医学图像生成。在两个不同的医学数据集上的全面评估显示了最先进的性能:在KiTS19数据集上,TransUNet的mDice/mIoU提高了2.4%/4.2%,而在Polyps数据集上,SANet实现了2.6%/3.5%的提升,突显了其有效性和优越性。代码可在GitHub上获取。 |
[83] OmniTraj:在异构数据上进行预训练以实现自适应和零样本人类轨迹预测 标题: OmniTraj: Pre-Training on Heterogeneous Data for Adaptive and Zero-Shot Human Trajectory Prediction 作者: Yang Gao / Po-Chien Luan / Kaouther Messaoud / Lan Feng / Alexandre Alahi 原文: [英文] [中文] 备注: None 摘要: 尽管大规模的预训练推动了人类轨迹预测的发展,但一个关键挑战仍然存在:在具有不同时间动态的未见数据集上进行零样本迁移。最先进的预训练模型通常需要微调以适应具有不同帧率或观察视野的新数据集,这限制了它们的可扩展性和实用性。在这项工作中,我们系统地研究了这一限制并提出了一个稳健的解决方案。我们首先证明了现有的基于数据的离散模型在转移到具有不同时间设置的新场景时表现不佳。然后,我们将时间泛化与数据集转移分离,揭示了一种简单、显式的时间元数据条件机制是一个非常有效的解决方案。基于这一见解,我们提出了OmniTraj,这是一种基于Transformer的模型,预训练于一个大规模、异构的数据集。我们的实验表明,显式地以帧率为条件使得OmniTraj在零样本迁移性能上达到了最先进的水平,在具有挑战性的跨设置场景中将预测误差减少了70%以上。经过微调后,OmniTraj在包括NBA、JTA、WorldPose和ETH-UCY在内的四个数据集上达到了最先进的结果。代码已公开:此https URL |
[84] SAMSA:通过光谱角度增强的分割任意模型用于高光谱交互式医学图像分割 标题: SAMSA: Segment Anything Model Enhanced with Spectral Angles for Hyperspectral Interactive Medical Image Segmentation 作者: Alfie Roddan / Tobias Czempiel / Chi Xu / Daniel S. Elson / Stamatia Giannarou 原文: [英文] [中文] 备注: None 摘要: 高光谱成像(HSI)为医学成像提供了丰富的光谱信息,但由于数据限制和硬件差异,面临重大挑战。我们介绍了SAMSA,这是一种结合RGB基础模型与光谱分析的新型交互式分割框架。SAMSA有效利用用户点击来指导RGB分割和光谱相似性计算。该方法通过一种独特的光谱特征融合策略解决了HSI分割中的关键限制,该策略独立于光谱波段数量和分辨率。在公开数据集上的性能评估显示,在神经外科数据集上,1次点击的DICE系数为81.0%,5次点击为93.4%;在术中猪高光谱数据集上,1次点击的DICE系数为81.1%,5次点击为89.2%。实验结果表明,SAMSA在少样本和零样本学习场景中以及使用最少训练样本时的有效性。我们的方法实现了具有不同光谱特性的多个数据集的无缝集成,为高光谱医学图像分析提供了一个灵活的框架。 |
[85] I2V-GS:用于自动驾驶数据生成的基础设施到车辆视图转换与高斯喷溅 标题: I2V-GS: Infrastructure-to-Vehicle View Transformation with Gaussian Splatting for Autonomous Driving Data Generation 作者: Jialei Chen / Wuhao Xu / Sipeng He / Baoru Huang / Dongchun Ren 原文: [英文] [中文] 备注: None 摘要: 广泛且高质量的数据对于端到端自动驾驶系统至关重要。然而,目前的驾驶数据主要由车辆收集,这既昂贵又低效。一个潜在的解决方案是从真实世界的图像中合成数据。最近在3D重建方面的进展展示了逼真的新视图合成,突显了从道路上捕获的图像生成驾驶数据的潜力。本文介绍了一种新方法,I2V-GS,通过高斯喷射将基础设施视图转换为车辆视图。从稀疏的基础设施视点进行重建并在大视图转换下进行渲染是一个具有挑战性的问题。我们采用自适应深度变形来生成密集的训练视图。为了进一步扩大视图范围,我们采用级联策略来修补变形图像,这也确保了修补内容在视图之间的一致性。为了进一步确保扩散模型的可靠性,我们利用跨视图信息进行信心引导优化。此外,我们引入了RoadSight,一个来自基础设施视图的真实场景的多模态、多视图数据集。据我们所知,I2V-GS是第一个通过基础设施-车辆视图转换生成自动驾驶数据集的框架。实验结果表明,I2V-GS在车辆视图下显著提高了合成质量,在NTA-Iou、NTL-Iou和FID方面分别比StreetGaussian提高了45.7%、34.2%和14.9%。 |
[86] UniLDiff:释放扩散先验的力量,实现一体化图像修复 标题: UniLDiff: Unlocking the Power of Diffusion Priors for All-in-One Image Restoration 作者: Zihan Cheng / Liangtai Zhou / Dian Chen / Ni Tang / Xiaotong Luo / Yanyun Qu 原文: [英文] [中文] 备注: None 摘要: 全能图像修复(AiOIR)已成为一个有前景但具有挑战性的研究方向。为了解决其核心挑战,我们提出了一种基于潜在扩散模型(LDMs)的新型统一图像修复框架。我们的方法在结构上将低质量视觉先验整合到扩散过程中,释放扩散模型在处理多种退化方面的强大生成能力。具体而言,我们设计了一个退化感知特征融合(DAFF)模块,以实现对多种退化类型的自适应处理。此外,为了减轻LDMs的高压缩和迭代采样导致的细节损失,我们在解码器中设计了一个细节感知专家模块(DAEM),以增强纹理和细结构的恢复。跨多任务和混合退化设置的广泛实验表明,我们的方法始终实现了最先进的性能,突出了扩散先验在统一图像修复中的实际潜力。我们的代码将会发布。 |
[87] 用于高斯视频重建的增强速度场建模 标题: Enhanced Velocity Field Modeling for Gaussian Video Reconstruction 作者: Zhenyang Li / Xiaoyang Bai / Tongchen Zhang / Pengfei Shen / Weiwei Xu / Yifan Peng 原文: [英文] 备注: 17 pages, 8 figures 摘要: 高保真3D视频重建对于在虚拟和增强现实(VR/AR)中实现动态场景的实时渲染至关重要,因为它能够呈现逼真的运动。3D高斯散点的变形场范式由于深度变形网络的强大表示能力,在视频重建中取得了接近真实的效果。然而,在具有复杂运动和显著尺度变化的视频中,变形网络往往会过拟合于不规则的高斯轨迹,导致视觉质量不佳。此外,为静态场景重建设计的基于梯度的密集化策略无法有效解决动态内容的缺失问题。鉴于这些挑战,我们提出了一种专为高斯视频重建设计的流动增强速度场建模方案,称为FlowGaussian-VR。它由两个核心组件组成:一个速度场渲染(VFR)管道,支持基于光流的优化,以及一个流动辅助自适应密集化(FAD)策略,用于调整动态区域中高斯的数量和大小。我们在包含具有挑战性运动场景的多个真实世界数据集上验证了我们模型在多视图动态重建和新视图合成中的有效性,展示了显著的视觉改进(PSNR提高超过2.5 dB)和动态纹理中更少的模糊伪影,同时实现了规则化和可跟踪的每个高斯轨迹。 |
[88] 用于组织特征描述的可解释图像分类与降低过度自信 标题: Explainable Image Classification with Reduced Overconfidence for Tissue Characterisation 作者: Alfie Roddan / Chi Xu / Serine Ajlouni / Irini Kakaletri / Patra Charalampaki / Stamatia Giannarou 原文: [英文] [中文] 备注: None 摘要: 在术中部署机器学习模型进行组织特征识别可以辅助决策并指导安全的肿瘤切除。对于图像分类模型,像素归因方法是推断可解释性的一种流行手段。然而,对深度学习模型预测的过度自信会转化为对像素归因的过度自信。在本文中,我们提出了第一个将风险估计纳入像素归因方法的方案,以提高图像分类的可解释性。该方法通过迭代地应用分类模型和像素归因方法来创建一个PA(像素归因)图的体积。首次使用该体积生成像素级PA值的分布。我们引入了一种方法,通过估计像素级分布的期望值来生成增强的PA图。此外,变异系数(CV)被用来估计这个增强PA图的像素级风险。因此,该方法不仅提供了改进的PA图,还对输出PA值的风险进行了估计。在基于探针的共聚焦激光内窥镜(pCLE)数据和ImageNet上的性能评估验证了我们改进的可解释性方法优于现有的最先进技术。 |
[89] DiffuMatch:用于鲁棒非刚性形状匹配的类别无关光谱扩散先验 标题: DiffuMatch: Category-Agnostic Spectral Diffusion Priors for Robust Non-rigid Shape Matching 作者: Emery Pierson / Lei Li / Angela Dai / Maks Ovsjanikov 原文: [英文] 备注: Presented at ICCV 2025 摘要: 深度功能映射最近成为解决非刚性形状对应任务的强大工具。使用这种方法的方法结合了功能映射框架的强大功能和灵活性,以及数据驱动的学习以提高准确性和通用性。然而,该领域的大多数现有方法仅将学习方面限制在特征函数上,仍然依赖公理化建模来制定训练损失或在网络内部进行功能映射正则化。这限制了所得方法的准确性和适用性,仅适用于公理模型假设成立的场景。在这项工作中,我们首次展示了网络内正则化和功能映射训练都可以用数据驱动的方法替代。为此,我们首先使用基于分数的生成建模在光谱域中训练一个功能映射的生成模型,该模型是从大量高质量映射中构建的。然后,我们利用所得模型来促进新形状集合上真实功能映射的结构特性。值得注意的是,我们证明了学习到的模型是类别无关的,可以完全替代常用策略,如强制功能映射的拉普拉斯交换性或正交性。我们的关键技术贡献是在光谱域中从扩散模型中提取的新蒸馏策略。实验表明,我们学习到的正则化比公理方法在零样本非刚性形状匹配中取得了更好的结果。我们的代码可在此网址获取:this https URL |
[90] RAGNet:面向通用抓取的大规模基于推理的可供性分割基准 标题: RAGNet: Large-scale Reasoning-based Affordance Segmentation Benchmark towards General Grasping 作者: Dongming Wu / Yanping Fu / Saike Huang / Yingfei Liu / Fan Jia / Nian Liu / Feng Dai / Tiancai Wang / Rao Muhammad Anwer / Fahad Shahbaz Khan / Jianbing Shen 原文: [英文] 备注: Accepted by ICCV 2025. The code is at this https URL 摘要: 通用机器人抓取系统需要在多样化的开放世界场景中根据人类指令准确感知物体的可供性。然而,目前的研究存在缺乏基于推理的大规模可供性预测数据的问题,这引发了对开放世界有效性的相当关注。为了解决这一限制,我们构建了一个以抓取为导向的大规模可供性分割基准,名为RAGNet。它包含273,000张图像、180个类别和26,000条推理指令。图像涵盖了多样化的具身数据领域,如野外、机器人、以自我为中心,甚至是模拟数据。它们经过精心标注,带有可供性图,同时通过去除类别名称并仅提供功能描述,大大增加了语言指令的难度。此外,我们提出了一个综合的基于可供性的抓取框架,名为AffordanceNet,它由一个在我们的大规模可供性数据上预训练的视觉语言模型(VLM)和一个条件于可供性图以抓取目标的抓取网络组成。在可供性分割基准和真实机器人操作任务上的大量实验表明,我们的模型具有强大的开放世界泛化能力。我们的数据和代码可在此https URL获取。 |
[91] 具有重新初始化和自蒸馏的槽注意力 标题: Slot Attention with Re-Initialization and Self-Distillation 作者: Rongzhen Zhao / Yi Zhao / Juho Kannala / Joni Pajarinen 原文: [英文] [中文] 备注: Accepted by ACM MM 2025 摘要: 与基于密集特征图的流行解决方案不同,对象中心学习(Object-Centric Learning, OCL)将视觉场景表示为亚符号级的对象特征向量,称为槽(slots),这对于涉及视觉模态的任务非常灵活。OCL 通常通过迭代应用竞争性交叉注意力(称为槽注意力),以槽作为查询,将对象超像素聚合到槽中。然而,一旦初始化,这些槽会被简单地重复使用,导致冗余槽与信息丰富的槽竞争以表示对象。这常常导致对象被错误地分割成部分。此外,主流方法仅从将槽解码为输入的重建中获取监督信号,而忽视了基于内部信息的潜在监督。为了解决这些问题,我们提出了带有重新初始化和自蒸馏的槽注意力(DIAS):$\emph{i)}$ 我们减少聚合槽中的冗余,并重新初始化额外的聚合以更新剩余的槽;$\emph{ii)}$ 我们驱动在第一次聚合迭代中的不良注意力图逼近最后一次迭代中的良好注意力图,以实现自蒸馏。实验表明,DIAS 在对象发现和识别等 OCL 任务上达到了最新的技术水平,同时也提高了高级视觉预测和推理的能力。我们的代码可在此 https URL 上获取。 |
[92] SeqAffordSplat:基于3D高斯点云的场景级序列可供性推理 标题: SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting 作者: Di Li / Jie Feng / Jiahao Chen / Weisheng Dong / Guanbin Li / Yuhui Zheng / Mingtao Feng / Guangming Shi 原文: [英文] [中文] 备注: None 摘要: 3D可供性推理,即将人类指令与3D对象的功能区域关联起来,是具身智能体的一项关键能力。当前基于3D高斯喷射(3DGS)的方法在根本上仅限于单对象、单步骤的交互,这种范式无法满足复杂现实世界应用所需的长时间、多对象任务。为弥补这一差距,我们引入了新的任务——序列3D高斯可供性推理,并建立了SeqAffordSplat,一个包含1800多个场景的大规模基准,以支持在复杂3DGS环境中进行长时间可供性理解的研究。随后,我们提出了SeqSplatNet,一个端到端框架,直接将指令映射到一系列3D可供性掩码。SeqSplatNet采用一个大型语言模型,该模型自回归地生成与特殊分割标记交错的文本,引导条件解码器生成相应的3D掩码。为处理复杂场景几何,我们引入了一种预训练策略——条件几何重建,其中模型学习从已知几何观测中重建完整的可供性区域掩码,从而建立稳健的几何先验。此外,为解决语义歧义,我们设计了一种特征注入机制,将丰富的语义特征从二维视觉基础模型(VFM)中提升,并在多个尺度上融合到3D解码器中。大量实验表明,我们的方法在我们具有挑战性的基准上设定了新的最先进水平,有效地将可供性推理从单步骤交互推进到场景级别的复杂序列任务。 |
[93] 半物理:实现具有物理交互的运动学3D人体模型 标题: Half-Physics: Enabling Kinematic 3D Human Model with Physical Interactions 作者: Li Siyao / Yao Feng / Omid Tehari / Chen Change Loy / Michael J. Black 原文: [英文] [中文] 备注: None 摘要: 当前的通用3D人体模型(例如SMPL-X)虽然能够有效地表示准确的人体形状和姿态,但由于其运动学性质,缺乏与环境进行物理交互的能力。因此,基于运动学的交互模型常常面临诸如穿透和不真实的物体动态等问题。为了解决这一限制,我们引入了一种新颖的方法,将SMPL-X嵌入到一个能够与周围环境进行动态物理交互的实体中。具体来说,我们提出了一种“半物理”机制,将3D运动学运动转化为物理模拟。我们的方法在保持对SMPL-X固有姿态的运动学控制的同时,确保与场景和物体的物理合理交互,有效消除了穿透和不真实的物体动态。与需要大量复杂训练的强化学习方法不同,我们的半物理方法无需学习,能够推广到任何体型和动作;同时,它可以实时运行。此外,它在无缝集成物理交互的同时,保留了原始运动学运动的保真度。 |
[94] Phi-Ground 技术报告:推进 GUI 基础中的感知 标题: Phi-Ground Tech Report: Advancing Perception in GUI Grounding 作者: Miaosen Zhang / Ziqiang Xu / Jialiang Zhu / Qi Dai / Kai Qiu / Yifan Yang / Chong Luo / Tianyi Chen / Justin Wagle / Tim Franklin / Baining Guo 原文: [英文] [中文] 备注: None 摘要: 随着多模态推理模型的发展,类似于《钢铁侠》中的Jarvis的计算机使用代理(CUAs)正在成为现实。GUI定位是CUAs执行实际操作的核心组件,类似于机器人中的机械控制,它直接决定了系统的成功或失败。它决定了点击和输入等操作,以及点击坐标等相关参数。目前的端到端定位模型在像ScreenSpot-pro和UI-Vision这样的挑战性基准测试中仍然未能达到65%的准确率,表明它们还远未准备好部署。在这项工作中,我们对定位模型的训练进行了实证研究,检查了从数据收集到模型训练的细节。最终,我们开发了\textbf{Phi-Ground}模型系列,在代理设置下的所有五个定位基准测试中实现了最先进的性能,模型参数少于$10B$。在端到端模型设置中,我们的模型仍然以\textit{\textbf{43.2}}的ScreenSpot-pro得分和\textit{\textbf{27.2}}的UI-Vision得分实现了SOTA结果。我们相信,本文讨论的各种细节以及我们的成功和失败,不仅澄清了定位模型的构建,也将有益于其他感知任务。项目主页:\href{this https URL}{this https URL} |
[95] MonoFusion:通过单目融合进行稀疏视图的4D重建 标题: MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion 作者: Zihan Wang / Jeff Tan / Tarasha Khurana / Neehar Peri / Deva Ramanan 原文: [英文] 备注: ICCV 2025. Project Page: this https URL 摘要: 我们研究了从稀疏视角视频中重建动态场景的问题。以往的工作通常需要使用数百个经过校准的摄像机进行密集的多视角捕捉(例如,Panoptic Studio)。这样的多视角设置成本极高,无法在自然环境中捕捉多样化的场景。相比之下,我们的目标是从一小组稀疏视角摄像机中重建动态的人类行为,例如修理自行车或跳舞,同时确保场景的完整覆盖(例如,四个等距的向内静态摄像机)。我们发现,密集的多视角重建方法在这种稀疏视角设置中难以适应,因为视点之间的重叠有限。为了解决这些限制,我们仔细对齐每个摄像机的独立单目重建,以生成时间和视图一致的动态场景重建。在PanopticStudio和Ego-Exo4D上的大量实验表明,我们的方法在重建质量上优于现有技术,特别是在渲染新视图时。代码、数据和数据处理脚本可在此https URL上获得。 |
[96] SUB:通过合成属性替换对CBM泛化进行基准测试 标题: SUB: Benchmarking CBM Generalization via Synthetic Attribute Substitutions 作者: Jessica Bader / Leander Girrbach / Stephan Alaniz / Zeynep Akata 原文: [英文] 备注: Accepted at ICCV 2025 摘要: 概念瓶颈模型(CBMs)和其他基于概念的可解释模型在提高人工智能应用的透明度方面显示出巨大潜力,这在医学等领域尤为重要。尽管它们取得了一定的成功,我们证明了CBMs在分布变化下难以可靠地识别正确的概念。为了评估CBMs对概念变化的鲁棒性,我们引入了SUB:一个包含38,400张合成图像的细粒度图像和概念基准,基于CUB数据集。为了创建SUB,我们选择了CUB数据集中的33个鸟类类别和45个概念来生成图像,这些图像替换了特定的概念,如翅膀颜色或腹部图案。我们引入了一种新颖的绑定扩散引导(TDG)方法来精确控制生成的图像,其中两个并行去噪过程的噪声共享确保生成正确的鸟类类别和正确的属性。这个新颖的基准能够对CBMs和类似的可解释模型进行严格评估,有助于开发更为鲁棒的方法。我们的代码可以在这个https URL获取,数据集可以在这个http URL获取。 |
[97] 用于高保真视频到4D合成的高斯变动场扩散 标题: Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis 作者: Bowen Zhang / Sicheng Xu / Chuxin Wang / Jiaolong Yang / Feng Zhao / Dong Chen / Baining Guo 原文: [英文] [中文] 备注: ICCV 2025. Project page: this https URL 摘要: 在本文中,我们提出了一种新颖的视频到4D生成框架,该框架能够从单个视频输入中创建高质量的动态3D内容。直接进行4D扩散建模极具挑战性,因为数据构建成本高昂,并且在联合表示3D形状、外观和运动时具有高维特性。我们通过引入一种直接4D网格到GS变化场VAE来解决这些挑战,该方法直接从3D动画数据中编码规范的高斯斑点(GS)及其时间变化,而无需逐实例拟合,并将高维动画压缩到一个紧凑的潜在空间。在这种高效表示的基础上,我们训练了一个高斯变化场扩散模型,该模型使用时间感知的扩散变压器,并以输入视频和规范GS为条件。在从Objaverse数据集中精心策划的可动画3D对象上进行训练后,我们的模型展示了优于现有方法的生成质量。尽管仅在合成数据上进行训练,它在处理自然视频输入时也表现出显著的泛化能力,为生成高质量的动画3D内容铺平了道路。项目页面:this https URL。 |