![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年6月27日更新论文112篇
|
[1] OTSurv:一种用于生存预测的异质性感知最优传输的新型多实例学习框架 标题: OTSurv: A Novel Multiple Instance Learning Framework for Survival Prediction with Heterogeneity-aware Optimal Transport 作者: Qin Ren / Yifan Wang / Ruogu Fang / Haibin Ling / Chenyu You 原文: [英文] [中文] 备注: None 摘要: 使用全切片图像(WSIs)进行生存预测可以被表述为一个多实例学习(MIL)问题。然而,现有的MIL方法往往无法显式捕捉WSIs中的病理异质性,无论是在全局上——通过长尾形态分布,还是在局部上——通过切片级别的预测不确定性。最优传输(OT)通过引入边际分布约束,为建模这种异质性提供了一种有原则的方法。基于这一见解,我们提出了OTSurv,一种从最优传输视角出发的新型MIL框架。具体来说,OTSurv将生存预测表述为一个异质性感知的OT问题,并具有两个约束:(1)全局长尾约束,通过调节传输质量分配来建模先验形态分布,以避免模式崩溃和过度均匀性;(2)局部不确定性感知约束,通过逐步提高总传输质量来优先考虑高置信度的切片,同时抑制噪声。然后,我们将初始的OT问题重新表述为一个不平衡的OT形式,并可以通过一种高效、硬件友好的矩阵缩放算法来解决。实验证明,OTSurv在六个流行基准上设定了新的最先进结果,平均C指数绝对提高了3.6%。此外,OTSurv在对数秩检验中实现了统计显著性,并提供了高度的可解释性,使其成为数字病理学中生存预测的强大工具。我们的代码可在此https URL获取。 |
[2] StereoDiff:用于视频深度估计的立体-扩散协同方法 标题: StereoDiff: Stereo-Diffusion Synergy for Video Depth Estimation 作者: Haodong Li / Chen Wang / Jiahui Lei / Kostas Daniilidis / Lingjie Liu 原文: [英文] [中文] 备注: Work done in Nov. 2024. Project page: this https URL 摘要: 最近的视频深度估计方法通过遵循图像深度估计的范式取得了优异的性能,即通常通过大量数据微调预训练的视频扩散模型。然而,我们认为视频深度估计并不是图像深度估计的简单扩展。视频中动态和静态区域的时间一致性要求从根本上是不同的。静态区域(通常是背景)中的一致视频深度可以通过跨所有帧的立体匹配更有效地实现,这提供了更强的全局3D线索。而动态区域的一致性仍然需要从大规模视频深度数据中学习,以确保平滑过渡,因为三角测量约束被破坏。基于这些见解,我们引入了StereoDiff,这是一种两阶段视频深度估计器,它通过视频深度扩散来保持动态区域的一致深度过渡,并主要通过立体匹配来处理静态区域。我们通过频域分析在数学上证明了立体匹配和视频深度扩散如何提供互补的优势,突出了它们在捕捉两者优势方面的协同效应。实验结果在零样本、真实世界、动态视频深度基准测试中,无论是室内还是室外,都展示了StereoDiff的最先进性能,展示了其在视频深度估计中的卓越一致性和准确性。 |
[3] ConViTac: 通过对比表示对齐视觉-触觉融合 标题: ConViTac: Aligning Visual-Tactile Fusion with Contrastive Representations 作者: Zhiyuan Wu / Yongqiang Zhao / Shan Luo 原文: [英文] [中文] 备注: None 摘要: 视觉和触觉是机器人两种基本的感官模式,提供了互补的信息,增强了感知和操作任务。先前的研究尝试联合学习视觉-触觉表示,以提取更有意义的信息。然而,这些方法通常依赖于直接组合,如特征相加和拼接进行模态融合,这往往导致特征整合不佳。在本文中,我们提出了ConViTac,这是一种视觉-触觉表示学习网络,旨在通过对比表示增强融合过程中的特征对齐。我们的主要贡献是对比嵌入条件(CEC)机制,该机制利用通过自监督对比学习预训练的对比编码器,将视觉和触觉输入投射到统一的潜在嵌入中。这些嵌入用于通过跨模态注意力耦合视觉-触觉特征融合,旨在对齐统一表示并提高下游任务的性能。我们进行了广泛的实验,以证明ConViTac在现实世界中优于当前最先进的方法,以及我们提出的CEC机制的有效性,在材料分类和抓取预测任务中将准确率提高了最多12.0%。 |
[4] 基于人工智能的MRI脑肿瘤分割基准测试 标题: AI-Driven MRI-based Brain Tumour Segmentation Benchmarking 作者: Connor Ludwig / Khashayar Namdar / Farzad Khalvati 原文: [英文] 备注: None 摘要: 医学图像分割在医学诊断中发挥了重要作用,基于U-Net的架构和nnU-Net提供了最先进的性能。近年来,已经引入了许多通用的可提示模型和医学变体,但目前缺乏在通用医学数据集上对这些模型在各种提示质量下的评估和比较。本研究使用Segment Anything Model (SAM)、Segment Anything Model 2 (SAM 2)、MedSAM、SAM-Med-3D和nnU-Net在BraTS 2023成人胶质瘤和儿科数据集上进行零样本推理,涵盖多个点和边界框提示质量。其中一些模型表现出有前景的Dice分数,特别是SAM和SAM 2在给定极其准确的边界框提示时分别达到0.894和0.893的分数,超过了nnU-Net的分割性能。然而,由于向模型提供高度准确提示的不可行性,nnU-Net仍然是主导的医学图像分割网络。通过在儿科数据集上微调SAM、SAM 2、MedSAM和SAM-Med-3D,扩展了模型和提示的评估以及比较。微调后点提示性能的改进是显著的,并显示出未来研究的潜力,但仍无法超过边界框或nnU-Net的分割效果。 |
[5] 基础模型与基于骨架的方法在人体-机器人交互中的手势识别相比如何? 标题: How do Foundation Models Compare to Skeleton-Based Approaches for Gesture Recognition in Human-Robot Interaction? 作者: Stephanie Käs / Anton Burenko / Louis Markert / Onur Alp Culha / Dennis Mack / Timm Linder / Bastian Leibe 原文: [英文] [中文] 备注: None 摘要: 手势在嘈杂环境中(如敏捷生产)实现非语言的人机交流。传统的基于深度学习的手势识别依赖于使用图像、视频或骨骼姿态估计作为输入的特定任务架构。同时,视觉基础模型(VFMs)和视觉语言模型(VLMs)凭借其强大的泛化能力,有可能通过替代专用的特定任务模块来降低系统复杂性。本研究探讨了适应此类模型用于动态全身手势识别的可能性,比较了V-JEPA(一种最先进的VFM)、Gemini Flash 2.0(一种多模态VLM)和HD-GCN(一种顶级的基于骨骼的方法)。我们引入了NUGGET,一个专为内部物流环境中的人机交流设计的数据集,用于评估不同的手势识别方法。在我们的实验中,HD-GCN取得了最佳性能,但V-JEPA通过一个简单的特定任务分类头接近其性能——因此为通过将其用作共享的多任务模型来降低系统复杂性铺平了道路。相比之下,Gemini在零样本设置中仅基于文本描述区分手势时表现不佳,这突显了在手势的合适输入表示方面需要进一步研究。 |
[6] 利用视觉-语言模型选择由扩散模型生成的可信超分辨率样本 标题: Leveraging Vision-Language Models to Select Trustworthy Super-Resolution Samples Generated by Diffusion Models 作者: Cansu Korkmaz / Ahmet Murat Tekalp / Zafer Dogan 原文: [英文] [中文] 备注: 14 pages, 9 figures, 5 tables, accepted to IEEE Transactions on Circuits and Systems for Video Technology 摘要: 超分辨率(SR)是一个病态的逆问题,对于给定的低分辨率图像,存在许多可行的解决方案。一方面,回归式SR模型旨在平衡保真度和感知质量以产生单一解决方案,但这种权衡往往会引入伪影,从而在信息关键的应用中(如识别数字或字母)造成歧义。另一方面,扩散模型生成一组多样化的SR图像,但从中选择最可信的解决方案仍然是一个挑战。本文介绍了一种稳健的自动化框架,通过利用视觉-语言模型(VLMs)的语义推理能力,从扩散生成的集合中识别出最可信的SR样本。具体而言,像BLIP-2、GPT-4o及其变体的VLMs被提示以结构化查询来评估语义正确性、视觉质量和伪影存在。然后,将排名靠前的SR候选进行集成,以一种具有成本效益的方式产生单一可信的输出。为了严格评估VLM选择样本的有效性,我们提出了一种新颖的可信度评分(TWS),这是一种混合指标,通过三个互补的组件量化SR的可靠性:通过CLIP嵌入进行语义相似性,使用边缘图上的SSIM进行结构完整性,以及通过多级小波分解进行伪影敏感性。我们通过实验证明,TWS在模糊和自然图像中与人类偏好高度相关,并且VLM引导的选择始终产生高TWS值。与传统指标如PSNR、LPIPS相比,这些指标未能反映信息保真度,我们的方法为导航扩散SR空间的不确定性提供了一种有原则的、可扩展的和可推广的解决方案。通过使输出与人类期望和语义正确性对齐,这项工作为生成式SR的可信度设定了新的基准。 |
[7] FixCLR:用于半监督领域泛化的负类对比学习 标题: FixCLR: Negative-Class Contrastive Learning for Semi-Supervised Domain Generalization 作者: Ha Min Son / Shahbaz Rezaei / Xin Liu 原文: [英文] [中文] 备注: None 摘要: 半监督领域泛化(SSDG)旨在解决在只有少量标签可用的情况下推广到分布外数据的问题。由于标签稀缺,应用领域泛化方法通常表现不佳。因此,现有的SSDG方法将半监督学习方法与各种正则化项结合。然而,这些方法并没有明确地正则化以学习跨所有领域的不变表示,而这是领域泛化的一个关键目标。为了解决这个问题,我们引入了FixCLR。受自监督学习成功的启发,我们改变了两个关键组件,以适应对比学习以实现显式领域不变性正则化:利用伪标签的类别信息和仅使用排斥项。FixCLR还可以添加到大多数现有的SSDG和半监督方法之上,以实现互补的性能提升。我们的研究包括大量尚未在SSDG研究中探索的实验。这些实验包括对半监督方法的不同改进进行基准测试,评估预训练与非预训练模型的性能,以及在具有多个领域的数据集上进行测试。总体而言,FixCLR被证明是一种有效的SSDG方法,特别是在与其他半监督方法结合时。 |
[8] 用于医学视觉中像素级预训练的向量对比学习 标题: Vector Contrastive Learning For Pixel-Wise Pretraining In Medical Vision 作者: Yuting He / Shuo Li 原文: [英文] [中文] 备注: Accepted by ICCV 2025 摘要: 对比学习(CL)已成为基础模型中自监督预训练(SSP)的基石,然而,将CL扩展到像素级表示(对医学视觉至关重要)仍然是一个未解决的问题。标准的CL将SSP表述为一个二元优化问题(二元CL),其中过度追求特征分散导致过度分散问题,破坏了像素级特征相关性,从而扰乱了类内分布。我们的向量CL将CL重新表述为一个向量回归问题,通过在回归位移向量中建模特征距离,实现像素级预训练中的分散量化。为了实现这一新颖的范式,我们提出了COVER(COntrast in VEctor Regression)框架。COVER建立了一个可扩展的基于向量的自学习,强制从向量回归到距离建模的一致优化流程,并利用向量金字塔架构进行粒度适应,从而在SSP中保留像素级特征相关性。跨越8个任务、涵盖2个维度和4种模态的大量实验表明,COVER显著改善了像素级SSP,推进了可推广的医学视觉基础模型。 |
[9] 通过基于软标签的数据增强提升模糊动态面部表情识别 标题: Enhancing Ambiguous Dynamic Facial Expression Recognition with Soft Label-based Data Augmentation 作者: Ryosuke Kawamura / Hideaki Hayashi / Shunsuke Otake / Noriko Takemura / Hajime Nagahara 原文: [英文] [中文] 备注: None 摘要: 动态面部表情识别(DFER)是一项从面部表情视频序列中估计情感的任务。对于实际应用来说,准确识别模糊的面部表情——在自然环境数据中经常遇到的情况——是至关重要的。在这项研究中,我们提出了MIDAS,这是一种数据增强方法,旨在通过使用表示多种情感类别概率的软标签来提高模糊面部表情数据的DFER性能。MIDAS通过凸组合视频帧对及其对应的情感类别标签来增强训练数据。这种方法将mixup扩展到软标签视频数据,提供了一种简单但非常有效的方法来处理DFER中的模糊性。为了评估MIDAS,我们在DFEW数据集和FERV39k-Plus上进行了实验,后者是一个为现有DFER数据集分配软标签的新构建数据集。结果表明,与在原始数据集上训练的最先进方法相比,使用MIDAS增强数据训练的模型表现更优。 |
[10] THIRDEYE:通过脑启发的多阶段融合进行线索感知的单目深度估计 标题: THIRDEYE: Cue-Aware Monocular Depth Estimation via Brain-Inspired Multi-Stage Fusion 作者: Calin Teodor Ioan 原文: [英文] [中文] 备注: None 摘要: 单目深度估计方法传统上训练深度模型直接从RGB像素推断深度。这种隐式学习往往忽视了人类视觉系统依赖的显式单目线索,例如遮挡边界、阴影和透视。我们提出了ThirdEye,一种线索感知的流程,故意通过专门的、预训练的和冻结的网络提供每个线索,而不是期望网络自行发现这些线索。这些线索在一个三阶段的皮层层次结构(V1->V2->V3)中融合,并配备了一个键值工作记忆模块,根据可靠性对它们进行加权。然后,一个自适应bin变压器头生成高分辨率的视差图。由于线索专家是冻结的,ThirdEye继承了大量的外部监督,同时只需要适度的微调。这个扩展版本提供了额外的架构细节、神经科学动机和扩展的实验协议;定量结果将在未来的修订中出现。 |
[11] MultiHuman-Testbench:多人体图像生成的基准测试 标题: MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans 作者: Shubhankar Borse / Seokeon Choi / Sunghyun Park / Jeongho Kim / Shreya Kadambi / Risheek Garrepalli / Sungrack Yun / Munawar Hayat / Fatih Porikli 原文: [英文] [中文] 备注: None 摘要: 生成包含多个执行复杂动作的人物图像,同时保持他们的面部身份,是一个重大挑战。导致这一问题的主要因素之一是缺乏专门的基准测试。为了解决这个问题,我们引入了MultiHuman-Testbench,这是一种新颖的基准,用于严格评估多人物生成的生成模型。该基准包括1800个样本,其中包含精心策划的文本提示,描述了一系列从简单到复杂的人类动作。这些提示与总共5550张独特的人脸图像相匹配,这些图像均匀采样,以确保在年龄、种族背景和性别方面的多样性。除了字幕外,我们还提供了与提示准确匹配的人类选择的姿势条件图像。我们提出了一个多方面的评估套件,采用四个关键指标来量化面部数量、身份相似性、提示对齐和动作检测。我们对一组多样化的模型进行了全面评估,包括零样本方法和基于训练的方法,带有和不带有区域先验。我们还提出了新的技术,通过使用人类分割和匈牙利匹配来结合图像和区域隔离,显著提高了身份相似性。我们提出的基准和关键发现为推进多人物图像生成研究提供了宝贵的见解和标准化工具。 |
[12] 三眼在立体视觉中的作用 标题: The Role of Cyclopean-Eye in Stereo Vision 作者: Sherlon Almeida da Silva / Davi Geiger / Luiz Velho / Moacir Antonelli Ponti 原文: [英文] [中文] 备注: arXiv admin note: text overlap with arXiv:2502.21280 摘要: 本文研究了现代立体视觉系统的几何基础,重点探讨了三维结构和人类启发的感知如何促进精确的深度重建。我们重新审视了单眼模型,并提出了新的几何约束,以考虑遮挡和深度不连续性。我们的分析包括对深度学习模型中立体特征匹配质量的评估,以及注意力机制在恢复有意义的三维表面中的作用。通过对理论见解和真实数据集的实证研究,我们证明了将强大的几何先验与学习到的特征相结合,可以为理解立体视觉系统提供内部抽象。 |
[13] FaSTA$^*$:用于高效多轮图像编辑的快慢路径代理与子程序挖掘 标题: FaSTA$^*$: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing 作者: Advait Gupta / Rishie Raj / Dang Nguyen / Tianyi Zhou 原文: [英文] [中文] 备注: None 摘要: 我们开发了一种成本高效的神经符号代理,以解决具有挑战性的多轮次图像编辑任务,例如“检测图像中的长椅并将其重新着色为粉色。同时,移除猫以获得更清晰的视图,并将墙壁重新着色为黄色。” 该代理结合了大型语言模型(LLMs)进行快速、高层次子任务规划的能力,以及每个子任务使用工具和局部A$^*$搜索的慢速、精确的能力,以找到成本高效的工具路径——即AI工具调用的序列。为了节省在相似子任务上进行A$^*$搜索的成本,我们通过LLMs对先前成功的工具路径进行归纳推理,持续提取/优化常用的子程序,并在自适应的快慢规划中将其作为新工具用于未来任务,其中首先探索高层次子程序,只有在失败时才激活低层次的A$^*$搜索。可重用的符号子程序在应用于相似图像的相同类型子任务上显著节省了探索成本,产生了一个类似人类的快慢工具路径代理“FaSTA$^*$”:首先由LLMs尝试快速子任务规划,随后是基于规则的子程序选择,这预计可以涵盖大多数任务,而慢速A$^*$搜索仅在新颖和具有挑战性的子任务中被触发。通过与最近的图像编辑方法进行比较,我们证明了FaSTA$^*$在计算效率上显著更高,同时在成功率方面仍与最先进的基线保持竞争力。 |
[14] M2SFormer:用于图像伪造定位的多光谱多尺度注意力与边缘感知难度引导 标题: M2SFormer: Multi-Spectral and Multi-Scale Attention with Edge-Aware Difficulty Guidance for Image Forgery Localization 作者: Ju-Hyeon Nam / Dong-Hyun Moon / Sang-Chul Lee 原文: [英文] [中文] 备注: Accepted in International Conference on Computer Vision (ICCV) 2025 摘要: 图像编辑技术迅速发展,既促进了创新的应用场景,也导致了对数字图像的恶意操控。基于深度学习的方法最近在像素级伪造定位方面取得了高精度,但它们常常在计算开销和有限的表示能力上遇到困难,特别是在处理细微或复杂篡改时。在本文中,我们提出了M2SFormer,这是一种新颖的基于Transformer编码器的框架,旨在克服这些挑战。与那些分别处理空间和频率线索的方法不同,M2SFormer在跳跃连接中统一了多频率和多尺度注意力,利用全局上下文更好地捕捉多样的伪造特征。此外,我们的框架通过利用全局先验图来解决上采样过程中细节丢失的问题,该图是一个曲率度量,指示伪造定位的难度,然后引导一个难度引导的注意力模块更有效地保留细微的操控。在多个基准数据集上的大量实验表明,M2SFormer优于现有的最先进模型,在检测和定位未见领域的伪造方面提供了卓越的泛化能力。 |
[15] PhysRig:用于真实关节物体建模的可微分物理基础蒙皮和绑定框架 标题: PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling 作者: Hao Zhang / Haolan Xu / Chun Feng / Varun Jampani / Narendra Ahuja 原文: [英文] 备注: Accepted by ICCV 2025 摘要: 蒙皮和绑定是动画、关节物体重建、动作转移和4D生成中的基本组成部分。现有的方法主要依赖于线性混合蒙皮(LBS),因为它简单且可微。然而,LBS会引入诸如体积损失和不自然变形等伪影,并且无法模拟软组织、毛皮和柔性附属物(例如大象的鼻子、耳朵和脂肪组织)等弹性材料。在这项工作中,我们提出了PhysRig:一个基于物理的可微蒙皮和绑定框架,通过将刚性骨架嵌入到体积表示(例如四面体网格)中来克服这些限制,该表示被模拟为由动画骨架驱动的可变形软体结构。我们的方法利用连续介质力学,并将物体离散化为嵌入在欧拉背景网格中的粒子,以确保对材料属性和骨骼运动的可微性。此外,我们引入了材料原型,在保持高表达能力的同时显著减少了学习空间。为了评估我们的框架,我们使用来自Objaverse、The Amazing Animals Zoo和MixaMo的网格构建了一个综合的合成数据集,涵盖了多样的物体类别和运动模式。我们的方法始终优于传统的基于LBS的方法,生成更真实且物理上合理的结果。此外,我们展示了我们框架在姿态转移任务中的适用性,突显了其在关节物体建模中的多功能性。 |
[16] AIR-VIEW:用于天气能见度估计的航空图像库,一个数据集和基准 标题: AIR-VIEW: The Aviation Image Repository for Visibility Estimation of Weather, A Dataset and Benchmark 作者: Chad Mourning / Zhewei Wang / Justin Murray 原文: [英文] [中文] 备注: 5 pages, meant as citation for dataset 摘要: 机器学习在航空天气领域是一项不断发展的研究,为传统昂贵的天气传感器提供低成本的替代方案。然而,在大气能见度估计领域,缺乏公开可用的数据集,这些数据集需要标记与航空相关的距离的能见度估计,涵盖多样化地点,并且规模足够大以用于监督学习。本文介绍了一个新的数据集,该数据集是通过FAA天气摄像机网络进行为期一年的数据收集活动的成果,适合用于这一目的。我们还展示了在三个公开可用的数据集上应用三种常用方法时的基准,以及在与最近批准的ASTM标准进行比较时,我们自己的数据集的训练和测试结果的通用基线。 |
[17] 用于连续手语识别的层次化子动作树 标题: Hierarchical Sub-action Tree for Continuous Sign Language Recognition 作者: Dejie Yang / Zhu Xu / Xinjie Gao / Yang Liu 原文: [英文] [中文] 备注: None 摘要: 连续手语识别(CSLR)旨在将未剪辑的视频转录为词汇,通常是文本单词。最近的研究表明,由于训练数据不足,缺乏大型数据集和精确的注释已成为CSLR的瓶颈。为了解决这个问题,一些工作开发了跨模态解决方案来对齐视觉和文本模态。然而,它们通常从词汇中提取文本特征,而没有充分利用其知识。在本文中,我们提出了分层子动作树(HST),称为HST-CSLR,以有效地将词汇知识与视觉表示学习相结合。通过结合来自大型语言模型的特定词汇知识,我们的方法更有效地利用了文本信息。具体来说,我们为文本信息表示构建了一个HST,逐步对齐视觉和文本模态,并利用树结构来降低计算复杂性。此外,我们施加了一种对比对齐增强,以弥合两种模态之间的差距。在四个数据集(PHOENIX-2014、PHOENIX-2014T、CSL-Daily和手语手势)上的实验证明了我们的HST-CSLR的有效性。 |
[18] OmniEval:用于评估视觉、听觉和文本输入的全模态模型的基准 标题: OmniEval: A Benchmark for Evaluating Omni-modal Models with Visual, Auditory, and Textual Inputs 作者: Yiman Zhang / Ziheng Luo / Qiangyu Yan / Wei He / Borui Jiang / Xinghao Chen / Kai Han 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们介绍了OmniEval,这是一个用于评估全模态模型(如MiniCPM-O 2.6)的基准,涵盖视觉、听觉和文本输入。与现有的基准相比,我们的OmniEval具有几个独特的特点:(i)全模态协作:我们设计了评估任务,强调音频和视频之间的强耦合,要求模型有效利用所有模态的协作感知;(ii)视频的多样性:OmniEval包括810个音视频同步的视频,其中285个是中文视频,525个是英文视频;(iii)任务的多样性和细粒度:OmniEval包含2617个问答对,包括1412个开放性问题和1205个选择题。这些问题被分为3个主要任务类型和12个子任务类型,以实现全面评估。其中,我们引入了一个更细粒度的视频定位任务,称为Grounding。然后,我们在OmniEval上对几个全模态模型进行了实验。我们希望我们的OmniEval能够提供一个平台,用于评估从所有模态的上下文中构建和理解连贯性的能力。代码和数据可以在此https URL找到。 |
[19] 基于证据的诊断推理:用于人类病理学的多代理助手 标题: Evidence-based diagnostic reasoning with multi-agent copilot for human pathology 作者: Chengkuan Chen / Luca L. Weishaupt / Drew F. K. Williamson / Richard J. Chen / Tong Ding / Bowen Chen / Anurag Vaidya / Long Phi Le / Guillaume Jaume / Ming Y. Lu / Faisal Mahmood 原文: [英文] [中文] 备注: None 摘要: 病理学正在经历由全片成像和人工智能(AI)驱动的快速数字化转型。虽然基于深度学习的计算病理学取得了显著成功,但传统模型主要关注图像分析,而未整合自然语言指令或丰富的文本背景。目前计算病理学中的多模态大语言模型(MLLMs)面临一些限制,包括训练数据不足、对多图像理解的支持和评估不够,以及缺乏自主诊断推理能力。为了解决这些限制,我们引入了PathChat+,这是一种专为人类病理学设计的新型MLLM,经过超过100万种多样化的病理学特定指令样本和近550万次问答回合的训练。在各种病理学基准上的广泛评估表明,PathChat+显著优于之前的PathChat助手,以及最先进的通用和其他病理学特定模型。此外,我们推出了SlideSeek,这是一种启用推理的多代理AI系统,利用PathChat+通过迭代的、分层的诊断推理自主评估千兆像素全片图像(WSIs),在DDxBench这一具有挑战性的开放式鉴别诊断基准上达到高准确率,同时还能够生成具有视觉基础、可供人类解释的总结报告。 |
[20] DFVEdit:用于零样本视频编辑的条件增量流向量 标题: DFVEdit: Conditional Delta Flow Vector for Zero-shot Video Editing 作者: Lingling Cai / Kang Zhao / Hangjie Yuan / Xiang Wang / Yingya Zhang / Kejie Huang 原文: [英文] [中文] 备注: Zero-shot video editing 摘要: 视频扩散变压器(Video DiTs)的出现标志着视频生成领域的一个里程碑。然而,直接将现有的视频编辑方法应用于Video DiTs通常会带来大量的计算开销,因为这些方法需要资源密集型的注意力修改或微调。为了解决这个问题,我们提出了DFVEdit,一种针对Video DiTs的高效零样本视频编辑方法。DFVEdit通过流变换直接操作干净的潜变量,消除了注意力修改和微调的需求。更具体地说,我们观察到编辑和采样可以在连续流的视角下统一。在此基础上,我们提出了条件增量流向量(CDFV)——DFV的理论上无偏估计,并整合了隐式交叉注意力(ICA)指导以及嵌入增强(ER)以进一步提升编辑质量。DFVEdit在实际效率方面表现出色,与基于注意力工程的编辑方法相比,在Video DiTs上提供至少20倍的推理速度提升和85%的内存减少。广泛的定量和定性实验表明,DFVEdit可以无缝应用于流行的Video DiTs(例如,CogVideoX和Wan2.1),在结构保真度、时空一致性和编辑质量方面达到最先进的性能。 |
[21] 从摇篮到拐杖:一种用于高保真寿命面部老化的两步框架 标题: From Cradle to Cane: A Two-Pass Framework for High-Fidelity Lifespan Face Aging 作者: Tao Liu / Dafeng Zhang / Gengchen Li / Shizhuo Liu / Yongqi Song / Senmao Li / Shiqi Yang / Boqian Li / Kai Wang / Yaxing Wang 原文: [英文] [中文] 备注: 30 pages, 12 figures 摘要: 人脸老化已成为计算机视觉中的一项关键任务,其应用范围从娱乐到医疗保健。然而,现有方法在实现整个生命周期的逼真和无缝转换时面临困难,尤其是在处理大年龄差距或极端头部姿势时。核心挑战在于平衡年龄准确性和身份保留——我们称之为年龄-身份权衡。大多数现有方法要么优先考虑年龄转换而牺牲身份一致性,要么反之亦然。在这项工作中,我们通过提出一个名为Cradle2Cane的两步人脸老化框架来解决这个问题,该框架基于少步文本到图像(T2I)扩散模型。第一步通过引入自适应噪声注入(AdaNI)机制来解决年龄准确性问题。该机制通过将给定人物的年龄和性别描述作为文本条件来指导。此外,通过调整噪声水平,我们可以控制老化的强度,同时在面部转换中提供更多的灵活性。然而,为了促进更强的年龄转换,此步骤中身份保留得到了弱化。在第二步中,我们通过将模型置于两个身份感知嵌入(IDEmb):SVR-ArcFace和Rotate-CLIP的条件下,增强身份保留,同时保持年龄特定特征。此步骤允许对第一步转换后的图像进行去噪,确保在不影响老化准确性的情况下实现更强的身份保留。两个步骤以端到端的方式联合训练。在CelebA-HQ测试数据集上进行的大量实验,通过Face++和Qwen-VL协议评估,表明我们的Cradle2Cane在年龄准确性和身份一致性方面优于现有的人脸老化方法。 |
[22] 具有联合相机光度优化的三维场景-相机表示 标题: 3D Scene-Camera Representation with Joint Camera Photometric Optimization 作者: Weichen Dai / Kangcheng Ma / Jiaxin Wang / Kecen Pan / Yuhang Ming / Hua Zhang / Wanzeng Kong 原文: [英文] [中文] 备注: None 摘要: 从多视图图像中表示场景是计算机视觉中的一项关键任务,具有广泛的应用。然而,相机成像中的固有光度失真会显著降低图像质量。如果不考虑这些失真,3D场景表示可能会无意中包含与场景无关的错误信息,从而降低表示的质量。在本文中,我们提出了一种新颖的3D场景-相机表示方法,结合了相机光度优化。通过引入内部和外部光度模型,我们提出了一个完整的光度模型及相应的相机表示。基于同时优化相机表示的参数,所提出的方法有效地将与场景无关的信息从3D场景表示中分离出来。此外,在光度参数优化过程中,我们引入了深度正则化,以防止3D场景表示拟合与场景无关的信息。通过将相机模型作为映射过程的一部分,所提出的方法构建了一个完整的地图,包括场景辐射场和相机光度模型。实验结果表明,即使在成像退化(如渐晕和污垢)条件下,所提出的方法也能实现高质量的3D场景表示。 |
[23] 重新思考用于姿态引导的文本到图像生成的稀疏信号 标题: Rethink Sparse Signals for Pose-guided Text-to-image Generation 作者: Wenjie Xuan / Jing Zhang / Juhua Liu / Bo Du / Dacheng Tao 原文: [英文] [中文] 备注: accepted by ICCV 2025 摘要: 最近的研究倾向于使用密集信号(例如深度、DensePose)作为稀疏信号(例如OpenPose)的替代方案,为姿态引导的文本到图像生成提供详细的空间指导。然而,密集表示带来了新的挑战,包括编辑困难和与文本提示可能不一致。这一事实促使我们重新审视用于姿态引导的稀疏信号,因为它们的简单性和与形状无关的特性仍未被充分探索。本文提出了一种新颖的空间姿态控制网络(SP-Ctrl),为稀疏信号配备了强大的可控性,用于姿态引导的图像生成。具体来说,我们将OpenPose扩展为可学习的空间表示,使关键点嵌入具有辨别力和表现力。此外,我们引入了关键点概念学习,鼓励关键点标记关注每个关键点的空间位置,从而改善姿态对齐。在以动物和人为中心的图像生成任务上的实验表明,我们的方法在稀疏姿态引导下优于最近的空间可控T2I生成方法,甚至与基于密集信号的方法的性能相当。此外,SP-Ctrl在通过稀疏信号进行多样化和跨物种生成方面显示出良好的能力。代码将在此https URL上提供。 |
[24] EVA:用于组合零样本学习的专家混合语义变体对齐 标题: EVA: Mixture-of-Experts Semantic Variant Alignment for Compositional Zero-Shot Learning 作者: Xiao Zhang / Yongqiang Ma / Haodong Jing / Nanning Zheng 原文: [英文] [中文] 备注: None 摘要: 组合零样本学习(Compositional Zero-Shot Learning, CZSL)研究组合泛化能力,以基于已学习的原始概念识别未知的状态-对象对。现有的CZSL方法通常通过简单的组合-原型映射来导出原始特征,这对于可以划分为不同语义子集的一组个体来说是次优的。此外,所有到一的跨模态原始匹配忽视了相同状态或对象内的组合差异,限制了细粒度的图像-组合对齐。在本研究中,我们提出了EVA,一种用于CZSL的专家混合语义变体对齐框架。具体来说,我们引入了领域专家适应,利用多个专家实现令牌感知学习并建模高质量的原始表示。为了实现准确的组合泛化,我们进一步提出语义变体对齐,以选择语义相关的表示进行图像-原始匹配。我们的方法在三大流行基准上的封闭和开放世界设置中显著优于其他最先进的CZSL方法,证明了所提出见解的有效性。 |
[25] 使用自然语言分割病理图像中的任何内容 标题: Segment Anything in Pathology Images with Natural Language 作者: Zhixuan Chen / Junlin Hou / Liqi Lin / Yihui Wang / Yequan Bie / Xi Wang / Yanning Zhou / Ronald Cheong Kin Chan / Hao Chen 原文: [英文] [中文] 备注: None 摘要: 病理图像分割在计算病理学中对于分析与癌症诊断和预后相关的组织学特征至关重要。然而,由于标注数据有限和类别定义受限,当前的方法在临床应用中面临重大挑战。为了解决这些限制,我们提出了PathSegmentor,这是第一个专为病理图像设计的文本提示分割基础模型。我们还引入了PathSeg,这是病理分割领域最大且最全面的数据集,由17个公共来源构建,包含160个不同类别的275,000个图像-掩码-标签三元组。使用PathSegmentor,用户可以通过自然语言提示进行语义分割,消除了对点或框等繁琐空间输入的需求。大量实验表明,PathSegmentor在准确性和适用性方面优于专用模型,同时保持紧凑的架构。它在整体Dice分数上分别比现有的空间和文本提示模型高出0.145和0.429,在分割复杂结构和推广到外部数据集方面表现出强大的鲁棒性。此外,PathSegmentor的输出通过特征重要性估计和成像生物标志物发现增强了诊断模型的可解释性,为病理学家提供基于证据的临床决策支持。这项工作推动了精准肿瘤学中可解释AI的发展。 |
[26] TSDASeg:一种用于交互式点云分割的直接对齐两阶段模型 标题: TSDASeg: A Two-Stage Model with Direct Alignment for Interactive Point Cloud Segmentation 作者: Chade Li / Pengju Zhang / Yihong Wu 原文: [英文] [中文] 备注: None 摘要: 3D视觉-语言模型(VLMs)的快速发展激发了对交互式点云处理任务的极大兴趣,特别是在实际应用中。然而,现有方法在点级任务(如分割)中往往表现不佳,因为缺乏直接的3D-文本对齐,限制了它们将局部3D特征与文本上下文链接的能力。为了解决这个问题,我们提出了TSDASeg,这是一种结合了直接跨模态对齐模块和记忆模块的两阶段模型,用于交互式点云分割。我们引入了直接跨模态对齐模块,以在3D点云和文本/2D图像数据之间建立明确的对齐。在记忆模块中,我们使用多个专用记忆库分别存储文本特征、视觉特征及其跨模态对应映射。这些记忆库通过自注意力和交叉注意力机制动态利用,根据先前存储的数据更新场景特定特征,有效解决了在不同场景中交互式分割结果的不一致性。在多个3D指令、参考和语义分割数据集上进行的实验表明,所提出的方法达到了最先进的性能。 |
[27] 通过负音频引导的逐步视频到音频合成 标题: Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance 作者: Akio Hayakawa / Masato Ishii / Takashi Shibuya / Yuki Mitsufuji 原文: [英文] 备注: None 摘要: 我们提出了一种新颖的逐步视频到音频生成方法,该方法依次生成单独的音轨,每个音轨对应视频中的特定声音事件。我们的方法模仿传统的拟音工作流程,旨在全面捕捉给定视频引发的所有声音事件。每个生成步骤被设计为一个引导的视频到音频合成任务,以目标文本提示和先前生成的音轨为条件。这个设计灵感来源于先前组合生成框架中的概念否定思想。为了实现这种引导生成,我们引入了一个训练框架,该框架利用预训练的视频到音频模型,并消除了对专门配对数据集的需求,从而可以在更易获取的数据上进行训练。实验结果表明,我们的方法为单个输入视频生成了多个语义上不同的音轨,导致比现有基线更高质量的复合音频合成。 |
[28] DBMovi-GS:通过稀疏控制的高斯喷溅从模糊单目视频进行动态视图合成 标题: DBMovi-GS: Dynamic View Synthesis from Blurry Monocular Video via Sparse-Controlled Gaussian Splatting 作者: Yeon-Ji Song / Jaein Kim / Byung-Ju Kim / Byoung-Tak Zhang 原文: [英文] [中文] 备注: CVPRW 2025, Neural Fields Beyond Conventional Cameras 摘要: 新颖视角合成是一项从未见过的视角生成场景的任务;然而,从模糊的单目视频中合成动态场景仍然是一个尚未有效解决的挑战。现有的新颖视角合成方法通常受限于对高分辨率图像的依赖或对静态几何和刚性场景先验的强假设。因此,这些方法在具有动态物体和相机运动的真实环境中缺乏鲁棒性,导致不稳定和视觉质量下降。为了解决这个问题,我们提出了一种通过稀疏控制高斯喷溅(DBMovi-GS)从模糊单目视频进行动态视角合成的方法。我们的模型生成密集的三维高斯,恢复模糊视频的清晰度,并重建受动态运动变化影响的场景的详细三维几何。我们的模型在动态模糊场景下的新颖视角合成中表现出色,并为模糊单目视频输入的真实新颖视角合成设定了新的基准。 |
[29] 用于细胞病理学中异常细胞稳健检测的风格对齐图像合成 标题: Style-Aligned Image Composition for Robust Detection of Abnormal Cells in Cytopathology 作者: Qiuyi Qi / Xin Li / Ming Kong / Zikang Xu / Bingdi Chen / Qiang Zhu / S Kevin Zhou 原文: [英文] [中文] 备注: MIDL 2025 Oral 摘要: 在细胞病理学中,缺乏高质量的标注、长尾数据分布以及不一致的染色风格等挑战对训练神经网络以稳健地检测异常细胞构成了重大障碍。本文提出了一种风格对齐的图像合成(SAIC)方法,该方法通过合成高保真且风格保留的病理图像来增强检测模型的有效性和稳健性。SAIC无需额外训练,首先根据属性指导从异常细胞库中选择合适的候选样本。然后,它采用高频特征重建来实现异常细胞与病理背景的风格对齐和高保真合成。最后,它引入了一个大型视觉语言模型来筛选高质量的合成图像。实验结果表明,结合SAIC合成图像能够有效提升尾部类别和风格的异常细胞检测性能和稳健性,从而提高整体检测性能。全面的质量评估进一步证实了SAIC在临床应用场景中的普适性和实用性。我们的代码将在此https URL发布。 |
[30] 逆向场景文本去除 标题: Inverse Scene Text Removal 作者: Takumi Yoshimatsu / Shumpei Takezaki / Seiichi Uchida 原文: [英文] [中文] 备注: 17 pages 摘要: 场景文本去除(STR)旨在从图像中删除文本元素。它最初是为了从自然场景图像中去除涉及隐私或不需要的文本,但现在也应用于排版图像。STR通常检测文本区域然后对其进行修复。尽管STR通过神经网络和合成数据取得了进展,但误用风险也增加了。本文研究了逆向场景文本去除(ISTR),分析经过STR处理的图像,重点在于二元分类(检测图像是否经过STR处理)和定位被去除的文本区域。我们在实验中证明这些任务可以以高准确率实现,从而能够检测潜在的误用并改进STR。我们还尝试通过训练文本识别器来恢复被去除的文本内容,以了解其难度。 |
[31] VisionGuard:头盔违规检测的协同框架 标题: VisionGuard: Synergistic Framework for Helmet Violation Detection 作者: Lam-Huy Nguyen / Thinh-Phuc Nguyen / Thanh-Hai Nguyen / Gia-Huy Dinh / Minh-Triet Tran / Trung-Nghia Le 原文: [英文] [中文] 备注: None 摘要: 在摩托车骑行者中强制执行头盔法规对于提高道路安全和确保交通管理系统的有效性至关重要。然而,由于环境变化、摄像机角度和数据不一致,自动检测头盔违规行为面临重大挑战。这些因素阻碍了对摩托车和骑行者的可靠检测,并扰乱了一致的对象分类。为了解决这些挑战,我们提出了VisionGuard,这是一种协同的多阶段框架,旨在克服逐帧检测器的局限性,特别是在类别不平衡和注释不一致的情况下。VisionGuard集成了两个关键组件:自适应标注模块和上下文扩展模块。自适应标注模块是一种基于跟踪的优化技术,通过利用跟踪算法在帧间分配持久标签并纠正错误分类来增强分类一致性。上下文扩展模块通过生成具有适当置信度分数的虚拟边界框来提高对代表性不足类别的召回率,有效解决数据不平衡的影响。实验结果表明,与基线检测器相比,VisionGuard将整体mAP提高了3.1%,展示了其在交通监控系统中实际部署的有效性和潜力,最终促进了安全和法规遵从。 |
[32] 使用SAM结合前向对比学习检测乳腺癌肿块切除术边缘 标题: Detection of Breast Cancer Lumpectomy Margin with SAM-incorporated Forward-Forward Contrastive Learning 作者: Tyler Ward / Xiaoqin Wang / Braxton McFarland / Md Atik Ahamed / Sahar Nozad / Talal Arshad / Hafsa Nebbache / Jin Chen / Abdullah Imran 原文: [英文] [中文] 备注: 19 pages, 7 figures, 3 tables 摘要: 在乳房肿瘤切除术中,完整切除癌症肿瘤并获得阴性标本边缘对于减少乳腺癌复发至关重要。然而,目前用于评估术中标本边缘状态的二维标本放射摄影(SR)方法准确性有限,导致近四分之一的患者需要进行额外手术。为了解决这一问题,我们提出了一种新颖的深度学习框架,将“分割任何东西模型”(SAM)与“前向-前向对比学习”(FFCL)相结合,这是一种利用局部和全局对比学习进行SR图像补丁级分类的预训练策略。在对SR图像进行已知恶性区域、非恶性组织和病理确认边缘的标注后,我们使用FFCL对ResNet-18骨干网络进行预训练,以分类边缘状态,然后重建粗略的二值掩码以提示SAM进行精细的肿瘤边缘分割。我们的方法在边缘分类中实现了0.8455的AUC,并在边缘分割中比基线模型提高了27.4%的Dice相似性,同时将每张图像的推理时间减少到47毫秒。这些结果表明,FFCL-SAM显著提高了术中边缘评估的速度和准确性,具有很大的潜力来降低再切除率并改善乳腺癌治疗的手术效果。我们的代码可在此URL获取。 |
[33] 老化多元宇宙:通过无训练扩散生成条件感知的面部老化树 标题: The Aging Multiverse: Generating Condition-Aware Facial Aging Tree via Training-Free Diffusion 作者: Bang Gong / Luchao Qi / Jiaye Wu / Zhicheng Fu / Chunbo Song / David W. Jacobs / John Nicholson / Roni Sengupta 原文: [英文] [中文] 备注: None 摘要: 我们介绍了“衰老多元宇宙”,这是一个从单张图像生成多种合理面部衰老轨迹的框架,每种轨迹都受外部因素如环境、健康和生活方式的影响。与之前将衰老建模为单一确定路径的方法不同,我们的方法创建了一个衰老树,能够可视化多样化的未来。为实现这一点,我们提出了一种无需训练的基于扩散的方法,能够在保持身份、年龄准确性和条件控制之间取得平衡。我们的主要贡献包括注意力混合以调节编辑强度,以及模拟衰老正则化策略以稳定编辑。大量实验和用户研究表明,我们的方法在身份保留、衰老真实性和条件对齐方面表现出色,优于现有的编辑和年龄进程模型,这些模型往往无法满足一个或多个编辑标准。通过将衰老转变为一个多维的、可控的和可解释的过程,我们的方法在数字叙事、健康教育和个性化可视化方面开辟了新的创造性和实用性途径。 |
[34] 用户参与的视图采样与错误峰值可视化 标题: User-in-the-Loop View Sampling with Error Peaking Visualization 作者: Ayaka Yasunaga / Hideo Saito / Shohei Mori 原文: [英文] [中文] 备注: Accepted at IEEE ICIP 2025, Project Page: this https URL 摘要: 增强现实(AR)为新视图合成提供了可视化缺失视图样本的方法。现有的方法为新视图样本提供3D注释,并要求用户通过对齐AR显示来拍摄图像。众所周知,这种数据收集任务在心理上是具有挑战性的,并且由于理想但限制性强的基础采样理论,将捕获区域限制在预定义的小区域内。为了让用户摆脱3D注释和有限的场景探索,我们提出使用局部重建的光场,并通过插入新视图来可视化需要消除的误差。我们的结果表明,误差峰值可视化侵入性较小,减少了对最终结果的失望,并且在我们的移动视图合成系统中对较少的视图样本感到满意。我们还表明,我们的方法可以为较大场景的最新辐射场重建做出贡献,例如3D高斯喷射。 |
[35] 通过大型多模态模型连接视频质量评分与解释 标题: Bridging Video Quality Scoring and Justification via Large Multimodal Models 作者: Qizhi Xie / Kun Yuan / Yunpeng Qu / Jiachao Gong / Mingda Wu / Ming Sun / Chao Zhou / Jihong Zhu 原文: [英文] [中文] 备注: 15 pages, 4 figures, 8 tables 摘要: 经典的视频质量评估(VQA)方法通过生成一个数值分数来判断视频的感知视觉保真度和清晰度。然而,单一的分数无法描述视频复杂的质量维度,限制了其适用性。通过利用语言输出,通过指令微调将大型多模态模型(LMMs)应用于VQA,有可能解决这一问题。这种方法的核心在于以视频质量为中心的指令数据。之前的探索主要集中在图像领域,其数据生成过程严重依赖于人工质量注释和专有系统,限制了数据的可扩展性和有效性。为了解决这些挑战,我们提出了基于分数的指令生成(SIG)流程。具体来说,SIG首先对未标记视频的多个质量维度进行评分,并将分数映射到文本定义的等级。然后,它明确地结合了分层的思维链(CoT)来模拟特定维度与整体质量之间的相关性,模仿人类视觉系统的推理过程。自动化流程消除了对专家撰写的质量描述和专有系统的依赖,确保了数据的可扩展性和生成效率。为此,生成的Score2Instruct(S2I)数据集包含超过32万对多样化的指令-响应对,为指令微调奠定了基础。此外,为了同时提升视频LMMs的质量评分和解释能力,我们设计了一种渐进式微调策略,以充分释放S2I的潜力。在SIG的基础上,我们进一步策划了一个名为S2I-Bench的基准,包含400个开放式问题,以更好地评估视频LMMs的质量解释能力。在S2I-Bench和现有基准上的实验结果表明,我们的方法在多个视频LMMs中持续提升了质量评分和解释能力。 |
[36] FedSC:具有语义感知协作的联邦学习 标题: FedSC: Federated Learning with Semantic-Aware Collaboration 作者: Huan Wang / Haoran Li / Huaming Chen / Jun Yan / Jiahua Shi / Jun Shen 原文: [英文] 备注: 12 pages, KDD 2025 摘要: 联邦学习(FL)旨在通过不共享数据来保护隐私,从而在多个客户端之间协作训练模型。然而,一个主要挑战是数据异质性问题,这指的是多个客户端的标签偏好不一致。许多现有的FL方法尝试在本地(例如,正则化本地模型)或全局(例如,微调全局模型)解决数据异质性问题,但往往忽视了每个客户端中固有的语义信息。为了探索利用客户端内部语义有意义的知识来处理数据异质性的可能性,本文提出了一种语义感知协作的联邦学习方法(FedSC),以捕捉异质客户端之间的客户端特定和类别相关的知识。FedSC的核心思想是在语义层面构建关系原型和一致性原型,旨在以原型协作的方式提供丰富的类别潜在知识和稳定的收敛信号。一方面,FedSC引入了一种跨对比学习策略,将实例级嵌入与相同语义的关系原型拉近,并远离不同类别。另一方面,FedSC通过差异聚合方式设计了一致性原型,作为一种正则化惩罚来约束本地模型的优化区域。此外,本文还提供了FedSC的理论分析,以确保收敛性保证。在各种具有挑战性的场景下的实验结果表明,FedSC的有效性以及关键组件的效率。 |
[37] HybridQ:用于皮肤病图像生成的混合经典-量子生成对抗网络 标题: HybridQ: Hybrid Classical-Quantum Generative Adversarial Network for Skin Disease Image Generation 作者: Qingyue Jiao / Kangyu Zheng / Yiyu Shi / Zhiding Liang 原文: [英文] [中文] 备注: None 摘要: 机器学习辅助诊断在皮肤病检测中越来越受到关注,但训练有效的模型需要大量高质量的数据。皮肤病数据集通常存在类别不平衡、隐私问题和对象偏差,使得数据增强变得至关重要。虽然经典生成模型被广泛使用,但它们需要大量的计算资源和漫长的训练时间。量子计算提供了一种有前途的替代方案,但现有的基于量子的图像生成方法只能生成灰度低质量图像。通过一种新颖的经典-量子潜在空间融合技术,我们的工作克服了这一限制,并引入了第一个能够生成彩色医学图像的经典-量子生成对抗网络(GAN)。我们的模型在图像生成质量和作为数据增强时的分类性能提升方面,均优于经典深度卷积GAN和现有的混合经典-量子GAN。此外,性能提升与使用最先进的经典生成模型所达到的效果相当,但参数数量减少了25倍以上,训练周期减少了10倍。这些结果表明,随着量子硬件的进步,量子图像生成具有光明的前景。最后,我们展示了我们的模型在真实的IBM量子机器上具有硬件噪声的情况下的稳健性能。 |
[38] 多模态提示对齐用于面部表情识别 标题: Multimodal Prompt Alignment for Facial Expression Recognition 作者: Fuyan Ma / Yiran He / Bin Sun / Shutao Li 原文: [英文] 备注: To appear in ICCV2025 摘要: 提示学习已被广泛采用,以高效地调整视觉-语言模型(VLMs),如CLIP,用于各种下游任务。尽管取得了成功,当前基于VLM的面部表情识别(FER)方法在捕捉细粒度的文本-视觉关系方面仍然存在困难,而这种关系对于区分面部表情之间的细微差别至关重要。为了解决这一挑战,我们提出了一种用于FER的多模态提示对齐框架,称为MPA-FER,该框架为提示视觉特征的学习过程提供细粒度的语义指导,从而获得更精确和可解释的表示。具体来说,我们引入了一种多粒度的硬提示生成策略,利用大型语言模型(LLM),如ChatGPT,为每种面部表情生成详细描述。通过最小化软提示和硬提示之间的特征差异,将基于LLM的外部知识注入软提示中。为了保持预训练CLIP模型的泛化能力,我们的方法结合了原型引导的视觉特征对齐,确保冻结的图像编码器生成的提示视觉特征与特定类别的原型紧密对齐。此外,我们提出了一种跨模态的全局-局部对齐模块,专注于与表情相关的面部特征,进一步改善文本和视觉特征之间的对齐。大量实验表明,我们的框架在三个FER基准数据集上优于最先进的方法,同时保留了预训练模型的优势并最小化计算成本。 |
[39] LASFNet:一种用于多模态目标检测的轻量级注意力引导自调制特征融合网络 标题: LASFNet: A Lightweight Attention-Guided Self-Modulation Feature Fusion Network for Multimodal Object Detection 作者: Lei Hao / Lina Xu / Chang Liu / Yanni Dong 原文: [英文] [中文] 备注: None 摘要: 通过特征级融合进行有效的深度特征提取对于多模态目标检测至关重要。然而,以往的研究通常涉及复杂的训练过程,这些过程通过堆叠多个特征级融合单元来整合特定模态的特征,导致显著的计算开销。为了解决这个问题,我们提出了一种新的融合检测基线,该基线使用单一的特征级融合单元来实现高性能检测,从而简化了训练过程。在此基础上,我们提出了一种轻量级注意力引导的自调制特征融合网络(LASFNet),该网络引入了一种新颖的注意力引导自调制特征融合(ASFF)模块,该模块根据来自不同模态的注意力信息,自适应地调整融合特征在全局和局部层面的响应,从而促进全面和丰富的特征生成。此外,在LASFNet的颈部设计了一个轻量级特征注意力转换模块(FATM),以增强对融合特征的关注并最大限度地减少信息损失。在三个具有代表性的数据集上进行的大量实验表明,与最先进的方法相比,我们的方法在效率和准确性之间实现了良好的平衡,将参数数量和计算成本分别减少了多达90%和85%,同时将检测准确性(mAP)提高了1%-3%。代码将在此https URL上开源。 |
[40] Instella-T2I:推动一维离散潜在空间图像生成的极限 标题: Instella-T2I: Pushing the Limits of 1D Discrete Latent Space Image Generation 作者: Ze Wang / Hao Chen / Benran Hu / Jiang Liu / Ximeng Sun / Jialian Wu / Yusheng Su / Xiaodong Yu / Emad Barsoum / Zicheng Liu 原文: [英文] [中文] 备注: None 摘要: 图像标记化在降低高分辨率图像建模的计算需求方面起着关键作用,显著提高了图像和多模态理解与生成的效率。最近在一维潜在空间的进展通过消除对二维网格结构的需求,减少了所需的标记数量。在本文中,我们通过引入一维二进制图像潜在空间进一步推进紧凑的离散图像表示。通过将每个图像表示为二进制向量序列,而不是使用传统的独热编码书代码,我们的方法在保持一维潜在空间紧凑性的同时保留了高分辨率细节。据我们所知,我们的文本到图像模型是首个在扩散和自回归生成中使用仅128个离散标记就能在高达1024x1024的图像上实现竞争性能的模型,与标准VQ-VAE相比,标记数量减少了多达32倍。所提出的一维二进制潜在空间结合简单的模型架构,在训练速度和推理速度上实现了显著的改进。我们的文本到图像模型允许在单个GPU节点上使用8个AMD MI300X GPU实现4096的全局批量大小,训练可以在200个GPU天内完成。我们的模型在没有任何内部私有训练数据或训练后优化的情况下,与现代图像生成模型相比实现了竞争性能,提供了一种可扩展且高效的传统标记化方法替代方案。 |
[41] DidSee:基于扩散的深度补全用于材料无关的机器人感知与操控 标题: DidSee: Diffusion-Based Depth Completion for Material-Agnostic Robotic Perception and Manipulation 作者: Wenzhou Lyu / Jialing Lin / Wenqi Ren / Ruihao Xia / Feng Qian / Yang Tang 原文: [英文] [中文] 备注: None 摘要: 商用RGB-D相机在处理非朗伯物体时通常会产生噪声大且不完整的深度图。传统的深度补全方法由于训练数据的多样性和规模有限,难以实现良好的泛化。最近的进展利用预训练的文本到图像扩散模型中的视觉先验来增强密集预测任务的泛化能力。然而,我们发现,在原始扩散框架中,由于训练和推理的不匹配导致的偏差显著削弱了深度补全的性能。此外,非朗伯区域缺乏明显的视觉特征,进一步阻碍了精确预测。为了解决这些问题,我们提出了\textbf{DidSee},一个基于扩散的非朗伯物体深度补全框架。首先,我们整合了一个重新调整的噪声调度器,强制终端信噪比为零,以消除信号泄漏偏差。其次,我们设计了一种与噪声无关的单步训练公式,以缓解由曝光偏差引起的误差累积,并通过任务特定的损失来优化模型。最后,我们引入了一个语义增强器,使得深度补全和语义分割可以联合进行,从而区分物体和背景,生成精确且细致的深度图。DidSee在多个基准测试中实现了最先进的性能,展示了强大的真实世界泛化能力,并有效改善了诸如类别级姿态估计和机器人任务等下游任务。 |
[42] 利用扩散模型提升领域泛化和自适应检测:适应性、泛化性和可迁移性 标题: Boosting Domain Generalized and Adaptive Detection with Diffusion Models: Fitness, Generalization, and Transferability 作者: Boyong He / Yuxiang Ji / Zhuoyue Tan / Liaoni Wu 原文: [英文] [中文] 备注: Accepted by ICCV2025. arXiv admin note: text overlap with arXiv:2503.02101 摘要: 检测器常常因为训练和测试数据之间的域差异而导致性能下降。最近的方法探索了将扩散模型应用于域泛化(DG)和域适应(DA)任务,但仍然面临较高的推理成本,并且尚未充分利用扩散模型的能力。我们提出通过从单步扩散过程中提取中间特征来解决这些问题,改进特征收集和融合,从而在提高源域(即,Fitness)性能的同时,将推理时间减少75%。然后,我们通过应用带有类别提示的框掩码图像构建一个以对象为中心的辅助分支,以提取专注于对象的稳健且域不变的特征。我们还应用一致性损失来对齐辅助分支和普通分支,平衡适应性和泛化能力,同时防止过拟合并提高目标域(即,Generalization)上的性能。此外,在一个统一的框架内,通过在源域(用于DG)和未标记的目标域(用于DA)上进行特征级和对象级对齐,标准检测器由扩散检测器引导,从而提高跨域检测性能(即,Transferability)。我们的方法在3个DA基准和5个DG基准上取得了竞争性的结果。此外,在COCO泛化基准上的实验表明,我们的方法在大域转移和低数据场景中保持显著优势,并显示出卓越的效率。我们的工作展示了将扩散模型应用于域泛化和自适应检测任务的优越性,并为跨不同域的视觉感知任务提供了宝贵的见解。代码可在\href{this https URL}{Fitness-Generalization-Transferability}获取。 |
[43] 通过引导和调度提高基于扩散的图像编辑的忠实度 标题: Improving Diffusion-Based Image Editing Faithfulness via Guidance and Scheduling 作者: Hansam Cho / Seoung Bum Kim 原文: [英文] [中文] 备注: preprint 摘要: 文本引导的扩散模型已成为高质量图像合成的关键,能够实现动态图像编辑。在图像编辑中,两个重要方面是可编辑性,它决定了修改的程度,以及忠实性,它反映了未改变元素的保留程度。然而,由于可编辑性和忠实性之间固有的权衡,获得最佳结果具有挑战性。为了解决这个问题,我们提出了忠实性引导和调度(FGS),它在对可编辑性影响最小的情况下增强了忠实性。FGS结合了忠实性引导,以加强输入图像信息的保留,并引入了一种调度策略来解决可编辑性和忠实性之间的不匹配。实验结果表明,FGS在保持可编辑性的同时实现了更高的忠实性。此外,其与各种编辑方法的兼容性使其能够在不同任务中实现精确、高质量的图像编辑。 |
[44] 利用自监督视觉变换器特征提升生成对抗网络的可迁移性 标题: Boosting Generative Adversarial Transferability with Self-supervised Vision Transformer Features 作者: Shangbo Wu / Yu-an Tan / Ruinan Ma / Wencong Ma / Dehua Zhu / Yuanzhang Li 原文: [英文] [中文] 备注: 14 pages, 9 figures, to appear in ICCV 2025 摘要: 深度神经网络(DNNs)的能力来自于从提供的数据中提取和解释特征。通过利用DNNs中的中间特征而不是依赖于硬标签,我们设计了对抗性扰动,这种扰动能够更有效地泛化,从而提升黑箱可迁移性。这些特征在以往的工作中普遍来自于监督学习。受到自监督学习与Transformer架构之间卓越协同作用的启发,本文探讨了利用自监督Vision Transformer(ViT)表示是否能够提高对抗性可迁移性。我们提出了dSVA——一种生成式双自监督ViT特征攻击,它利用了对比学习(CL)中的全局结构特征和掩码图像建模(MIM)中的局部纹理特征,这是ViTs的自监督学习范式二重奏。我们设计了一种新颖的生成式训练框架,该框架结合了一个生成器来创建黑箱对抗样本,并通过利用自监督ViTs的联合特征和注意力机制来训练生成器的策略。我们的研究结果表明,CL和MIM使得ViTs能够关注不同的特征倾向,当同时利用这些特征时,能够展现出极佳的对抗性泛化能力。通过扰乱自监督ViTs提炼的双重深度特征,我们在各种架构的模型上获得了显著的黑箱可迁移性,超越了现有的最先进技术。代码可在此https URL获取。 |
[45] 文档图像中的类别无关兴趣区域匹配 标题: Class-Agnostic Region-of-Interest Matching in Document Images 作者: Demin Zhang / Jiahao Lyu / Zhijie Shen / Yu Zhou 原文: [英文] [中文] 备注: Accepted by ICDAR2025 摘要: 文档理解和分析由于其广泛的应用而受到大量关注。然而,现有的文档分析解决方案,如文档布局分析和关键信息提取,仅适用于固定的类别定义和粒度,无法实现用户定制的灵活应用。因此,本文定义了一项新的任务,称为“类别无关的兴趣区域匹配”(简称“RoI-Matching”),旨在以灵活、高效、多粒度和开放集的方式匹配定制区域。参考文档和目标文档图像的视觉提示被输入到我们的模型中,而输出则是目标文档图像中的相应边界框。为了满足上述要求,我们构建了一个基准RoI-Matching-Bench,该基准根据现实条件设置了三个难度级别,并提出了宏观和微观指标进行评估。此外,我们还提出了一个新的框架RoI-Matcher,该框架采用孪生网络在参考和目标域中提取多层次特征,并使用交叉注意力层来整合和对齐不同域中的相似语义。实验表明,我们的方法在RoI-Matching-Bench上具有简单的过程且有效,并作为进一步研究的基线。代码可在此https URL获取。 |
[46] SAMURAI:用于3D对象识别的形状感知多模态检索 标题: SAMURAI: Shape-Aware Multimodal Retrieval for 3D Object Identification 作者: Dinh-Khoi Vo / Van-Loc Nguyen / Minh-Triet Tran / Trung-Nghia Le 原文: [英文] [中文] 备注: None 摘要: 在复杂的室内环境中,仅使用一个被遮罩的二维图像和自然语言描述来检索三维物体面临着显著的挑战。ROOMELSA挑战限制了对完整三维场景上下文的访问,使得关于物体外观、几何形状和语义的推理变得复杂。这些挑战因视角扭曲、无纹理的遮罩区域、模糊的语言提示和噪声分割遮罩而加剧。为了解决这些问题,我们提出了SAMURAI:用于三维物体识别的形状感知多模态检索。SAMURAI结合了基于CLIP的语义匹配和从遮罩区域的二进制轮廓中导出的形状引导重新排序,以及一个强大的多数投票策略。一个专门的预处理管道通过提取最大连通组件和去除背景噪声来增强遮罩质量。我们的混合检索框架利用语言和形状线索,在ROOMELSA私有测试集上实现了具有竞争力的性能。这些结果强调了结合形状先验和语言理解对于稳健的开放世界三维物体检索的重要性。 |
[47] PoseMaster:从单张图像生成任意姿势的3D角色 标题: PoseMaster: Generating 3D Characters in Arbitrary Poses from a Single Image 作者: Hongyu Yan / Kunming Luo / Weiyu Li / Yixun Liang / Shengming Li / Jingwei Huang / Chunchao Guo / Ping Tan 原文: [英文] [中文] 备注: None 摘要: 3D角色在我们的日常娱乐中扮演着至关重要的角色。为了提高3D角色建模的效率,最近的基于图像的方法使用两个独立的模型来实现姿态标准化和A姿态角色的3D重建。然而,由于自遮挡和视角问题,这些方法在姿态标准化阶段容易生成失真和退化的图像,进而影响后续重建过程的几何质量。为了解决这些问题,我们提出了PoseMaster,一个端到端可控的3D角色生成框架。具体来说,我们将姿态变换和3D角色生成统一到一个基于流的3D原生生成框架中。为了实现准确的任意姿态控制,我们建议利用可动画角色骨架中存在的3D身体骨骼作为姿态条件。此外,考虑到多条件控制的特殊性,我们在训练过程中随机清空姿态条件和图像条件,以提高姿态控制的有效性和泛化能力。最后,我们创建了一个高质量的姿态控制数据集,该数据集源自真实的角色动画数据,以使模型学习骨架和蒙皮权重之间的隐式关系。大量实验表明,PoseMaster在A姿态角色生成的定性和定量评估中均优于当前最先进的技术,同时展示了其实现任意姿态精确控制的强大能力。 |
[48] EgoAdapt:用于高效自我中心感知的自适应多感官蒸馏与策略学习 标题: EgoAdapt: Adaptive Multisensory Distillation and Policy Learning for Efficient Egocentric Perception 作者: Sanjoy Chowdhury / Subrata Biswas / Sayan Nag / Tushar Nagarajan / Calvin Murdock / Ishwarya Ananthabhotla / Yijun Qian / Vamsi Krishna Ithapu / Dinesh Manocha / Ruohan Gao 原文: [英文] [中文] 备注: Accepted at ICCV 2025 摘要: 现代感知模型,特别是那些为多感官自我中心任务设计的模型,已经取得了显著的性能表现,但通常伴随着巨大的计算成本。这些高需求给实际部署带来了挑战,尤其是在资源受限的环境中。在本文中,我们介绍了EgoAdapt,一个能够自适应地执行跨模态蒸馏和策略学习的框架,以实现不同自我中心感知任务的高效推理,包括自我中心动作识别、主动说话人定位和行为预测。我们提出的策略模块可以适应任务特定的动作空间,使其具有广泛的适用性。在三个具有挑战性的自我中心数据集EPIC-Kitchens、EasyCom和Aria Everyday Activities上的实验结果表明,我们的方法显著提高了效率,GMACs减少最多达89.09%,参数减少最多达82.02%,能量减少最多达9.6倍,同时在性能上与对应的最先进模型持平,并在许多情况下表现更优。 |
[49] ESMStereo:用于实时和精确立体匹配的增强型ShuffleMixer视差上采样 标题: ESMStereo: Enhanced ShuffleMixer Disparity Upsampling for Real-Time and Accurate Stereo Matching 作者: Mahmoud Tahmasebi / Saif Huq / Kevin Meehan / Marion McAfee 原文: [英文] [中文] 备注: Under peer review 摘要: 立体匹配已成为现代自动化系统中日益重要的组成部分。开发基于深度学习的立体匹配模型,以在实时运行中提供高精度,仍然是计算机视觉领域的一个重大挑战。在基于代价体积的立体匹配领域中,准确的视差估计在很大程度上依赖于大规模的代价体积。然而,这样的大体积存储了大量冗余信息,并且需要计算密集的聚合单元进行处理和回归,使得实时性能难以实现。相反,小规模的代价体积加上轻量级的聚合单元为实现实时性能提供了一条有前途的途径,但缺乏足够的信息来确保高度准确的视差估计。为了解决这一挑战,我们提出了增强洗牌混合器(ESM),以减轻与小规模代价体积相关的信息损失。ESM通过将主要特征集成到视差上采样单元中来恢复关键细节。它快速提取初始视差估计的特征,并将其与图像特征融合。这些特征通过洗牌和层分割进行混合,然后通过紧凑的特征引导的沙漏网络进行细化,以恢复更详细的场景几何。ESM专注于具有大感受野和低计算成本的局部上下文连接,从而在实时情况下重建出高度准确的视差图。ESMStereo的紧凑版本在高端GPU上实现了116 FPS的推理速度,在AGX Orin上实现了91 FPS。 |
[50] OracleFusion:通过结构约束的语义排版辅助甲骨文的解读 标题: OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography 作者: Caoshuo Li / Zengmao Ding / Xiaobin Hu / Bang Li / Donghao Luo / AndyPian Wu / Chaoyang Wang / Chengjie Wang / Taisong Jin / SevenShu / Yunsheng Wu / Yongge Liu / Rongrong Ji 原文: [英文] [中文] 备注: Accepted to ICCV 2025 摘要: 作为最早的古代语言之一,甲骨文记录了古代文明的文化和智慧表达。尽管发现了约4500个甲骨文字,但只有约1600个被解读。剩余未解读的文字由于其复杂的结构和抽象的图像,给解释带来了重大挑战。为了解决这些挑战,本文提出了一种新的两阶段语义字体框架,名为OracleFusion。在第一阶段,该方法利用增强空间意识推理(SAR)的多模态大型语言模型(MLLM)来分析甲骨文字的字形结构,并对关键组件进行视觉定位。在第二阶段,我们引入了甲骨结构向量融合(OSVF),结合字形结构约束和字形维护约束,以确保准确生成语义丰富的矢量字体。该方法保留了字形结构的客观完整性,提供了视觉增强的表示,帮助专家解读甲骨文。广泛的定性和定量实验表明,OracleFusion在语义、视觉吸引力和字形维护方面优于最先进的基线模型,显著提高了可读性和美学质量。此外,OracleFusion对未见过的甲骨文字提供了类似专家的见解,使其成为推进甲骨文解读的宝贵工具。 |
[51] 突破权衡界限:紧凑而高效的遥感变化检测 标题: Pushing Trade-Off Boundaries: Compact yet Effective Remote Sensing Change Detection 作者: Luosheng Xu / Dalin Zhang / Zhaohui Song 原文: [英文] [中文] 备注: 12 pages 摘要: 遥感变化检测对于监测城市扩张、灾害评估和资源管理至关重要,能够及时、准确且大规模地提供动态景观变化的洞察。尽管深度学习已经彻底改变了变化检测领域,但现代模型日益增加的复杂性和计算需求并未必然转化为显著的准确性提升。本研究没有遵循这一趋势,而是探索了一种更高效的方法,专注于轻量级模型,在保持高准确性的同时最大限度地减少资源消耗,这是卫星上处理的基本要求。为此,我们提出了FlickCD,意为快速轻击即可获得优异结果,推动性能与资源权衡的界限。FlickCD引入了增强差异模块(EDM),以放大时间阶段之间的关键特征差异,同时抑制诸如光照和天气变化等无关变化,从而降低后续变化解码器的计算成本。此外,FlickCD解码器结合了局部-全局融合块,利用移位窗口自注意力(SWSA)和增强全局自注意力(EGSA)来高效捕捉多尺度的语义信息,保留粗粒度和细粒度的变化。在四个基准数据集上的大量实验表明,FlickCD在实现最先进(SOTA)性能或仅有轻微(<1% F1)准确性权衡的同时,将计算和存储开销减少了一个数量级以上。实现代码可在此https URL公开获取。 |
[52] IPFormer-VideoLLM:增强多镜头场景的多模态视频理解 标题: IPFormer-VideoLLM: Enhancing Multi-modal Video Understanding for Multi-shot Scenes 作者: Yujia Liang / Jile Jiao / Zhicheng Wang / Xuetao Feng / Zixuan Ye / Yuan Wang / Hao Lu 原文: [英文] [中文] 备注: None 摘要: 视频大语言模型(VideoLLMs)在理解能力上表现出色,但在处理多镜头场景时表现不佳,例如,视频片段中存在不同的摄像机角度或场景变化。这一挑战可能导致实例身份遗忘和关键帧忽视等问题。在这项工作中,我们首先将这一挑战归因于现有数据集中缺乏多镜头注释,因此我们引入了一个新的数据集,称为MultiClip-Bench,该数据集具有密集描述和基于指令的问题回答对,专为多镜头场景设计。我们通过实验证明,训练集显著提升了多镜头场景的表现,而测试基准则为模型在多镜头场景中的能力提供了可靠的衡量标准。通过进一步分析,我们发现当前模型仅以离散或有损的方式编码实例特征,存在丢失身份信息的风险,因此我们贡献了一个新模型IPFormer-VideoLLM。其关键思想是通过高效的基于注意力的连接器将实例级特征作为实例提示注入。这允许在场景间聚合实例特定的信息。实验表明,我们提出的数据集和模型不仅显著增强了多场景视频理解能力,还在各种视频基准上提供了显著优势。 |
[53] CL-Splats: 高斯喷溅的持续学习与局部优化 标题: CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization 作者: Jan Ackermann / Jonas Kulhanek / Shengqu Cai / Haofei Xu / Marc Pollefeys / Gordon Wetzstein / Leonidas Guibas / Songyou Peng 原文: [英文] [中文] 备注: ICCV 2025, Project Page: this https URL 摘要: 在动态的三维环境中,准确地随时间更新场景表示对于机器人技术、混合现实和具身人工智能等应用至关重要。随着场景的演变,需要高效的方法来整合变化,以保持最新的高质量重建,而不需要重新优化整个场景的计算开销。本文介绍了CL-Splats,它通过稀疏场景捕获逐步更新基于高斯散点的三维表示。CL-Splats集成了一个强大的变化检测模块,该模块可以分割场景中的更新和静态组件,从而实现集中、局部的优化,避免不必要的重新计算。此外,CL-Splats支持存储和恢复以前的场景状态,促进时间分割和新的场景分析应用。我们的大量实验表明,CL-Splats在提高重建质量的同时,实现了高效的更新,优于现有的技术水平。这为未来三维场景重建任务中的实时适应奠定了坚实的基础。 |
[54] GoIRL:面向图的逆向强化学习用于多模态轨迹预测 标题: GoIRL: Graph-Oriented Inverse Reinforcement Learning for Multimodal Trajectory Prediction 作者: Muleilan Pei / Shaoshuai Shi / Lu Zhang / Peiliang Li / Shaojie Shen 原文: [英文] [中文] 备注: Accepted by ICML 2025 摘要: 在自动驾驶中,预测周围代理的轨迹是一项具有挑战性的任务,因为其本质上的不确定性和潜在的多模态特性。与主要依赖于监督学习的流行数据驱动方法不同,本文介绍了一种新颖的图导向逆强化学习(GoIRL)框架,这是一种基于逆强化学习的预测器,配备了矢量化的上下文表示。我们开发了一个特征适配器,以有效地将车道图特征聚合到网格空间中,从而能够与最大熵逆强化学习范式无缝集成,以推断奖励分布并获得可以采样的策略,从而引导出多种合理的计划。此外,在采样计划的条件下,我们实现了一个分层参数化轨迹生成器,配备了一个精细化模块以提高预测精度,并采用概率融合策略以增强预测信心。大量实验结果表明,我们的方法不仅在大规模Argoverse和nuScenes运动预测基准上达到了最先进的性能,而且与现有的监督模型相比,表现出卓越的泛化能力。 |
[55] 在极度黑暗中学习看见 标题: Learning to See in the Extremely Dark 作者: Hai Jiang / Binhao Guan / Zhen Liu / Xiaohong Liu / Jian Yu / Zheng Liu / Songchen Han / Shuaicheng Liu 原文: [英文] [中文] 备注: Accepted by ICCV 2025 摘要: 基于学习的方法在低光照RAW图像增强方面取得了可喜的进展,但由于缺乏相应的数据集,其在环境照度低至0.0001 lux的极暗场景中的能力尚待探索。为此,我们提出了一种成对数据合成流程,能够在三个精确的照度范围(0.01-0.1 lux、0.001-0.01 lux和0.0001-0.001 lux)生成校准良好的极低光照RAW图像,并配以高质量的sRGB参考图像,组成一个名为See-in-the-Extremely-Dark (SIED)的大规模成对数据集,用于评估低光照RAW图像增强方法。此外,我们提出了一个基于扩散的框架,利用扩散模型的生成能力和内在去噪特性,从极低信噪比的RAW输入中恢复出视觉上令人满意的结果,其中引入了自适应照明校正模块(AICM)和颜色一致性损失,以确保准确的曝光校正和颜色还原。在所提出的SIED和公开可用的基准上进行的大量实验表明了我们方法的有效性。代码和数据集可在此https URL获取。 |
[56] YOLO-FDA:集成分层注意力和细节增强的表面缺陷检测 标题: YOLO-FDA: Integrating Hierarchical Attention and Detail Enhancement for Surface Defect Detection 作者: Jiawei Hu 原文: [英文] [中文] 备注: 14 pages, 6 figures. Submitted to The 8th Chinese Conference on Pattern Recognition and Computer Vision 摘要: 在工业场景中,表面缺陷检测由于缺陷类型多样、形状和大小不规则、细粒度要求高以及材料纹理复杂而显得既重要又具有技术挑战性。尽管基于人工智能的检测器在最近取得了性能上的进步,但现有方法通常存在冗余特征、细节敏感性有限以及在多尺度条件下鲁棒性较弱的问题。为了解决这些挑战,我们提出了YOLO-FDA,这是一种新颖的基于YOLO的检测框架,集成了细粒度细节增强和注意力引导的特征融合。具体来说,我们采用了一种BiFPN风格的架构,以加强YOLOv5骨干网络中双向多层次特征聚合。为了更好地捕捉细微的结构变化,我们引入了细节方向融合模块(DDFM),在倒数第二层引入方向性非对称卷积以丰富空间细节,并将倒数第二层与低层特征融合以增强语义一致性。此外,我们提出了两种新颖的基于注意力的融合策略:注意力加权连接(AC)和跨层注意力融合(CAF),以改善上下文表示并减少特征噪声。在基准数据集上的大量实验表明,YOLO-FDA在各种缺陷类型和尺度上,在准确性和鲁棒性方面均持续优于现有的最先进方法。 |
[57] 基于树的语义损失:应用于稀疏监督的大规模多类高光谱分割 标题: Tree-based Semantic Losses: Application to Sparsely-supervised Large Multi-class Hyperspectral Segmentation 作者: Junwen Wang / Oscar Maccormac / William Rochford / Aaron Kujawa / Jonathan Shapey / Tom Vercauteren 原文: [英文] [中文] 备注: None 摘要: 高光谱成像(HSI)在外科应用中展现出巨大潜力,能够提供超越肉眼感知的生物组织差异的详细见解。为了训练视觉系统以区分大量细微变化的类别,精细的标注工作正在进行中。然而,常用的生物医学分割任务学习方法对所有错误给予同等惩罚,因此未能利用标签空间中的任何类别间语义。在这项工作中,我们引入了两种基于树的语义损失函数,这些函数利用了标签的层次结构。我们进一步将我们的损失函数整合到最近提出的一种使用稀疏、无背景注释进行训练的方法中。大量实验表明,我们提出的方法在一个包含107个类别并按临床定义的语义树结构组织的稀疏注释HSI数据集上达到了最先进的性能。此外,我们的方法能够在不影响分布内(ID)像素分割性能的情况下,有效检测分布外(OOD)像素。 |
[58] 用于心脏MRI中心肌瘢痕分割的鲁棒深度学习方法:带有噪声标签 标题: Robust Deep Learning for Myocardial Scar Segmentation in Cardiac MRI with Noisy Labels 作者: Aida Moafi / Danial Moafi / Evgeny M. Mirkes / Gerry P. McCann / Abbas S. Alatrany / Jayanth R. Arnold / Mostafa Mehdipour Ghazi 原文: [英文] [中文] 备注: MICCAI 2025 摘要: 心肌瘢痕的准确分割对于临床评估和治疗计划至关重要。在本研究中,我们提出了一种稳健的深度学习流程,通过微调最先进的模型,实现心肌瘢痕的全自动检测和分割。该方法通过使用Kullback-Leibler损失和广泛的数据增强,明确解决了来自半自动注释的标签噪声、数据异质性和类别不平衡的挑战。我们在急性和慢性病例中评估了模型的性能,并展示了其在标签噪声情况下仍能产生准确和平滑分割的能力。特别是,我们的方法优于像nnU-Net这样的最先进模型,并在分布外测试集中表现出强大的泛化能力,突显了其在各种成像条件和临床任务中的稳健性。这些结果为自动化心肌瘢痕量化建立了可靠的基础,并支持深度学习在心脏影像学中的更广泛临床应用。 |
[59] 从单张图像生成多视图一致的3D模型的几何与感知引导高斯方法 标题: Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image 作者: Pufan Li / Bi'an Du / Wei Hu 原文: [英文] [中文] 备注: 10 pages, 5 figures 摘要: 从单视图图像生成逼真的三维物体需要自然的外观、三维一致性以及捕捉未见区域多种合理解释的能力。现有的方法通常依赖于微调预训练的二维扩散模型或通过快速网络推理或三维高斯点云直接生成三维信息,但其结果通常在多视图一致性方面表现不佳且缺乏几何细节。为了解决这些问题,我们提出了一种新方法,该方法无缝集成了几何和感知先验,无需额外的模型训练即可从单张图像重建详细的三维物体。具体来说,我们训练了三个不同的高斯分支,分别从几何先验、感知先验和高斯噪声初始化。几何先验捕捉粗略的三维形状,而感知先验利用预训练的二维扩散模型增强多视图信息。随后,我们通过几何和感知先验之间的相互作用来优化三维高斯分支,并通过基于重投影的策略进一步增强深度一致性。实验表明,我们的方法在新视图合成和三维重建方面的重建结果具有更高的保真度,优于现有方法,展示了稳健且一致的三维物体生成能力。 |
[60] 面向无监督模拟到现实点云识别的拓扑感知建模 标题: Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition 作者: Longkun Zou / Kangjun Liu / Ke Chen / Kailing Guo / Kui Jia / Yaowei Wang 原文: [英文] [中文] 备注: None 摘要: 从3D对象形状的点集学习语义表示通常面临显著的几何变化挑战,主要是由于数据采集方法的差异。通常,训练数据是使用点模拟器生成的,而测试数据则是通过不同的3D传感器收集的,这导致了模拟到现实(Sim2Real)的域间差距,限制了点分类器的泛化能力。目前的无监督域适应(UDA)技术在应对这一差距时表现不佳,因为它们通常缺乏能够捕捉全局拓扑信息的稳健、域不敏感的描述符,导致过拟合于源域有限的语义模式。为了解决这个问题,我们引入了一种新颖的拓扑感知建模(TAM)框架,用于对象点云的Sim2Real UDA。我们的方法通过利用由低级、高频3D结构特征的全局空间拓扑,并通过一种新颖的自监督学习任务建模局部几何特征的拓扑关系,来缓解域间差距。此外,我们提出了一种先进的自训练策略,将跨域对比学习与自训练相结合,有效减少噪声伪标签的影响,增强适应过程的鲁棒性。在三个公共的Sim2Real基准上的实验结果验证了我们TAM框架的有效性,显示出在所有评估任务中相较于最先进方法的一致改进。本文的源代码将在此https URL上提供。 |
[61] 面向任务的KV压缩用于成本效益高的长视频理解 标题: Task-Aware KV Compression For Cost-Effective Long Video Understanding 作者: Minghao Qin / Yan Shu / Peitian Zhang / Kun Lun / Huaying Yuan / Juenjie Zhou / Shitao Xiao / Bo Zhao / Zheng Liu 原文: [英文] [中文] 备注: 14 pages, 3 figures, 6 tables 摘要: 长视频理解(LVU)对于现有的多模态大语言模型(MLLMs)来说仍然是一个严峻的挑战,主要原因是计算成本过高。最近的方法探索了KV压缩以缓解这一问题,但在高压缩比下往往会遭受显著的信息损失。在本文中,我们介绍了Video-X^2L,它灵活地保留了每个LVU任务的关键视频信息。Video-X^2L涉及两个关键操作。第一个称为双层KV压缩。在MLLM的预填充阶段,Video-X^2L生成两种类型的压缩KV:低压缩KV(L-KVs)用于捕捉细粒度的视频细节,高压缩KV(H-KVs)用于提供紧凑的视频表示。第二个称为选择性KV重新加载。在MLLM的解码阶段,Video-X^2L选择性地重新加载最关键视频片段的L-KVs,同时对其他不太重要的片段使用H-KVs。这使得MLLM能够充分利用任务特定的信息,同时保持整体的紧凑性。Video-X^2L简单而有效:它不需要额外的训练,并且可以直接兼容现有的KV可压缩MLLMs。我们使用各种流行的LVU基准测试评估了Video-X^2L,包括VideoMME、MLVU、LongVideoBench和VNBench。我们的实验结果表明,Video-X^2L在大幅节省计算成本的同时,以巨大的优势超越了现有的KV压缩方法。 |
[62] 分布外语义占用预测 标题: Out-of-Distribution Semantic Occupancy Prediction 作者: Yuheng Zhang / Mengfei Duan / Kunyu Peng / Yuhang Wang / Ruiping Liu / Fei Teng / Kai Luo / Zhiyong Li / Kailun Yang 原文: [英文] [中文] 备注: The established datasets and source code will be made publicly available at this https URL 摘要: 3D语义占用预测对于自动驾驶至关重要,它提供了一种密集且语义丰富的环境表示。然而,现有的方法主要关注分布内场景,使其容易受到分布外(OoD)物体和长尾分布的影响,这增加了未检测到的异常和误解的风险,构成安全隐患。为了解决这些挑战,我们引入了分布外语义占用预测,目标是在3D体素空间中进行OoD检测。为了填补数据集的空白,我们提出了一种合成异常集成管道,该管道在保留真实空间和遮挡模式的同时注入合成异常,从而创建了两个数据集:VAA-KITTI和VAA-KITTI-360。我们介绍了OccOoD,这是一种将OoD检测集成到3D语义占用预测中的新框架,其中体素-BEV渐进融合(VBPF)利用基于RWKV的分支通过几何-语义融合来增强OoD检测。实验结果表明,OccOoD在1.2米区域内实现了最先进的OoD检测,AuROC为67.34%,AuPRCr为29.21%,同时保持了具有竞争力的占用预测性能。建立的数据集和源代码将在此https URL上公开提供。 |
[63] GroundFlow:用于3D点云序列定位的时间推理插件模块 标题: GroundFlow: A Plug-in Module for Temporal Reasoning on 3D Point Cloud Sequential Grounding 作者: Zijun Lin / Shuting He / Cheston Tan / Bihan Wen 原文: [英文] [中文] 备注: None 摘要: 3D点云中的序列定位(SG3D)指的是通过遵循日常活动的详细步骤文本指令来定位一系列对象。目前的3D视觉定位(3DVG)方法将包含多个步骤的文本指令视为一个整体,而没有从每个步骤中提取有用的时间信息。然而,SG3D中的指令通常包含诸如“它”、“这里”和“相同”等代词,以使语言表达简洁。这要求定位方法理解上下文,并从前面的步骤中检索相关信息,以正确定位对象序列。由于缺乏有效的模块来收集相关的历史信息,最先进的3DVG方法在适应SG3D任务时面临重大挑战。为填补这一空白,我们提出了GroundFlow——一个用于3D点云序列定位的时间推理插件模块。首先,我们证明了集成GroundFlow可以在SG3D基准测试中大幅提高3DVG基线方法的任务准确性(+7.5%和+10.2%),甚至超过了在各种数据集上预训练的3D大型语言模型。此外,我们根据与当前指令的相关性选择性地提取短期和长期步骤信息,使GroundFlow能够全面查看历史信息,并在步骤数量增加时保持其时间理解优势。总体而言,我们的工作为现有的3DVG模型引入了时间推理能力,并在五个数据集的SG3D基准测试中实现了最先进的性能。 |
[64] 解锁约束:无源遮挡感知无缝分割 标题: Unlocking Constraints: Source-Free Occlusion-Aware Seamless Segmentation 作者: Yihong Cao / Jiaming Zhang / Xu Zheng / Hao Shi / Kunyu Peng / Hang Liu / Kailun Yang / Hui Zhang 原文: [英文] [中文] 备注: Accepted to ICCV 2025. All data and code will be made publicly available at this https URL 摘要: 全景图像处理对于全方位环境感知至关重要,但面临诸如失真、视角遮挡和有限标注等限制。之前的无监督域适应方法将标注的针孔数据知识转移到未标注的全景图像,但它们需要访问源针孔数据。为了解决这些问题,我们引入了一个更实用的任务,即无源遮挡感知无缝分割(SFOASS),并提出了其首个解决方案,称为无约束学习全方位环境知识(UNLOCK)。具体来说,UNLOCK包括两个关键模块:全方位伪标签学习和无形驱动的环境学习。在不依赖源数据或目标标签进行适应的同时,该框架增强了模型,实现了360°视点覆盖和遮挡感知推理。此外,我们通过真实到真实和合成到真实的适应设置对提出的SFOASS任务进行了基准测试。实验结果表明,我们的无源方法实现了与依赖源的方法相当的性能,达到了10.9的mAAP和11.6的mAP的最新水平,并在mAPQ上比仅依赖源的方法绝对提高了+4.3。所有数据和代码将在此https URL公开提供。 |
[65] MedPrompt:结合权重路由的LLM-CNN融合用于医学图像分割和分类 标题: MedPrompt: LLM-CNN Fusion with Weight Routing for Medical Image Segmentation and Classification 作者: Shadman Sobhan / Kazi Abrar Mahmud / Abduz Zami 原文: [英文] [中文] 备注: 40 pages, 8 Tables, 9 Figures 摘要: 当前的医学图像分析系统通常是特定任务的,需要为分类和分割分别使用不同的模型,并且缺乏支持用户自定义工作流程的灵活性。为了解决这些挑战,我们引入了MedPrompt,一个统一的框架,它结合了用于高层次任务规划的少样本提示大型语言模型(Llama-4-17B)和用于低层次图像处理的模块化卷积神经网络(DeepFusionLab)。大型语言模型解释用户指令并生成结构化输出,以动态路由特定任务的预训练权重。这种权重路由方法避免了在添加新任务时重新训练整个框架,只需要特定任务的权重,从而增强了可扩展性和部署能力。我们在19个公共数据集上评估了MedPrompt,涵盖了5种成像模式的12项任务。该系统在解释和执行提示驱动指令方面实现了97%的端到端正确率,平均推理延迟为2.5秒,使其适合于近实时应用。DeepFusionLab在分割精度(例如,肺部的Dice系数为0.9856)和分类性能(结核病的F1值为0.9744)方面表现出色。总体而言,MedPrompt通过结合大型语言模型的可解释性和模块化卷积神经网络的效率,实现了可扩展的、提示驱动的医学成像。 |
[66] 无限位标记:比特自回归图像生成模型的水印技术 标题: BitMark for Infinity: Watermarking Bitwise Autoregressive Image Generative Models 作者: Louis Kerner / Michel Meintz / Bihe Zhao / Franziska Boenisch / Adam Dziedzic 原文: [英文] [中文] 备注: None 摘要: 最先进的文本到图像模型,如Infinity,以前所未有的速度生成逼真的图像。这些模型在一个实际上无限大的离散令牌集合上以逐位自回归的方式运行。然而,它们令人印象深刻的生成能力伴随着一个日益增长的风险:随着它们的输出越来越多地出现在互联网上,它们可能会被抓取并重新用作训练数据——可能正是由这些模型本身使用。这种现象已被证明会导致模型崩溃,即反复训练生成的内容,尤其是来自模型自身先前版本的内容,会导致性能逐渐下降。一种有前途的缓解策略是水印技术,它将人类无法察觉但可检测的信号嵌入生成的图像中,从而能够识别生成的内容。在这项工作中,我们介绍了BitMark,这是一个针对Infinity的稳健逐位水印框架。我们的方法在Infinity的图像生成过程中,在多个尺度(也称为分辨率)上直接在令牌流的位级别嵌入水印。我们的逐位水印微妙地影响位,以保持视觉保真度和生成速度,同时对一系列去除技术保持稳健。此外,它表现出高放射性,即当带水印的生成图像用于训练另一个图像生成模型时,这个第二个模型的输出也将携带水印。即使仅在带有我们BitMark水印的图像上微调扩散或图像自回归模型,放射性痕迹仍然可以检测到。总体而言,我们的方法为通过可靠检测生成输出来防止图像生成模型的模型崩溃提供了一个有原则的步骤。 |
[67] ReME:一种面向数据的无训练开放词汇分割框架 标题: ReME: A Data-Centric Framework for Training-Free Open-Vocabulary Segmentation 作者: Xiwei Xuan / Ziquan Deng / Kwan-Liu Ma 原文: [英文] [中文] 备注: Accepted to ICCV 2025 摘要: 无训练的开放词汇语义分割(OVS)旨在无需昂贵的模型微调情况下,根据一组任意的文本类别对图像进行分割。现有的解决方案通常探索预训练模型(如CLIP)的注意力机制,或生成合成数据并设计复杂的检索过程来执行OVS。然而,它们的性能受到所依赖模型的能力或参考集质量不佳的限制。在这项工作中,我们研究了这一具有挑战性的密集场景理解任务中被大大忽视的数据质量问题,并发现高质量的参考集可以显著有利于无训练的OVS。基于这一观察,我们引入了一个以数据质量为导向的框架,包括一个数据管道,用于构建具有良好配对的分割-文本嵌入的参考集,以及一个简单的基于相似性的检索,以揭示数据的基本效果。值得注意的是,在十个基准数据集上的广泛评估表明,我们的方法优于所有现有的无训练OVS方法,突出了以数据为中心的设计对于在不进行训练的情况下推进OVS的重要性。我们的代码可在此https URL获取。 |
[68] 实时ESFP:估计、平滑、滤波和姿态映射 标题: Real-Time ESFP: Estimating, Smoothing, Filtering, and Pose-Mapping 作者: Qifei Cui / Yuang Zhou / Ruichen Deng 原文: [英文] [中文] 备注: None 摘要: 本文介绍了ESFP,这是一种将单目RGB视频转换为低成本4自由度桌面机械臂可执行关节轨迹的端到端流程。ESFP由四个顺序模块组成。(1) 估计:ROMP将每一帧提升为一个24关节的3D骨架。(2) 平滑:提出的HPSTM——一种具有自注意力机制的序列到序列Transformer——结合了长程时间上下文和可微分的正向运动学解码器,在联合预测关节均值和完整协方差的同时,强制保持恒定的骨骼长度和解剖学合理性。(3) 过滤:根据HPSTM的不确定性估计,对根部归一化的轨迹进行方差加权,以抑制残余噪声。(4) 姿态映射:几何重定向层将肩-肘-腕三元组转换为uArm的极坐标工作空间,保持手腕的方向。 |
[69] DiMPLe -- 解耦多模态提示学习:通过不变和伪特征分离增强分布外对齐 标题: DiMPLe -- Disentangled Multi-Modal Prompt Learning: Enhancing Out-Of-Distribution Alignment with Invariant and Spurious Feature Separation 作者: Umaima Rahman / Mohammad Yaqub / Dwarikanath Mahapatra 原文: [英文] [中文] 备注: None 摘要: 我们介绍了DiMPLe(Disentangled Multi-Modal Prompt Learning),这是一种新颖的方法,用于在多模态学习中解开视觉和语言模态中的不变特征和伪特征。视觉数据中的伪相关性常常阻碍分布外(OOD)性能。与之前仅关注图像特征的方法不同,DiMPLe在模态内和跨模态解开特征,同时保持一致的对齐,从而能够更好地泛化到新类别并对分布变化具有鲁棒性。我们的方法结合了三个关键目标:(1)最小化不变特征和伪特征之间的互信息,(2)伪特征正则化,以及(3)对不变特征进行对比学习。大量实验表明,与CoOp-OOD相比,DiMPLe在11个不同数据集上的平均表现更优,并在基础类别准确率上实现了15.27的绝对增益,在新类别准确率上实现了44.31的绝对增益。 |
[70] 用于人体运动分割的时间速率减少聚类 标题: Temporal Rate Reduction Clustering for Human Motion Segmentation 作者: Xianghan Meng / Zhengyu Tong / Zhiyuan Huang / Chun-Guang Li 原文: [英文] [中文] 备注: The paper is accepted by ICCV 2025. The first two authors are equally contributed 摘要: 人体运动分割(HMS)旨在将视频划分为不重叠的人体运动,近年来引起了越来越多的研究关注。现有的HMS方法主要由子空间聚类方法主导,这些方法基于高维时间数据与子空间联合(UoS)分布对齐的假设。然而,在背景复杂的情况下捕捉复杂人体运动的视频帧可能无法很好地与UoS分布对齐。在本文中,我们提出了一种新颖的HMS方法,称为时间速率减少聚类($\text{TR}^2\text{C}$),该方法联合学习结构化表示和亲和性以分割视频中的帧序列。具体而言,$\text{TR}^2\text{C}$学习的结构化表示保持时间上的一致性,并且能够很好地与UoS结构对齐,这对HMS任务是有利的。我们在五个基准HMS数据集上进行了广泛的实验,并在使用不同特征提取器的情况下实现了最先进的性能。 |
[71] DuET:通过无样本任务算术实现双增量目标检测 标题: DuET: Dual Incremental Object Detection via Exemplar-Free Task Arithmetic 作者: Munish Monga / Vishal Chudasama / Pankaj Wasnik / Biplab Banerjee 原文: [英文] 备注: Accepted at ICCV 2025 摘要: 现实世界中的目标检测系统,例如自动驾驶和监控系统,必须不断学习新的目标类别,同时适应不断变化的环境条件。现有的方法,如类别增量目标检测(CIOD)和领域增量目标检测(DIOD),仅解决了这一挑战的一个方面。CIOD在未见过的领域中表现不佳,而DIOD在学习新类别时会遭遇灾难性遗忘,限制了它们在现实世界中的适用性。为克服这些限制,我们引入了双重增量目标检测(DuIOD),这是一种更实用的设置,可以在无样本的情况下同时处理类别和领域的变化。我们提出了DuET,一种基于任务算术的模型合并框架,通过一种新颖的方向一致性损失来实现稳定的增量学习,同时缓解符号冲突。与之前的方法不同,DuET与检测器无关,允许像YOLO11和RT-DETR这样的模型作为实时增量目标检测器运行。为了全面评估保留和适应能力,我们引入了保留-适应性指数(RAI),将灾难性遗忘的平均保留指数(Avg RI)和领域适应性的平均泛化指数结合到一个共同的基础上。在Pascal系列和多样天气系列上的大量实验表明,DuET的有效性,在Pascal系列(4个任务)上实现了+13.12%的RAI提升,同时保留了89.3%的Avg RI,以及在多样天气系列(3个任务)上实现了+11.39%的RAI提升,保留了88.57%的Avg RI,优于现有方法。 |
[72] 基于条件扩散变换器修复器的视频虚拟试穿 标题: Video Virtual Try-on with Conditional Diffusion Transformer Inpainter 作者: Cheng Zou / Senlin Cheng / Bolei Xu / Dandan Zheng / Xiaobo Li / Jingdong Chen / Ming Yang 原文: [英文] [中文] 备注: 10 pages, 6 figures 摘要: 视频虚拟试穿旨在将一件衣服自然地适配到目标人物在连续视频帧中的形象上。这是一项具有挑战性的任务,一方面,输出视频应具有良好的时空一致性,另一方面,给定衣物的细节需要在所有帧中得到良好保留。简单地逐帧使用基于图像的试穿方法可能会由于严重的不一致性而产生较差的结果。最近基于扩散的视频试穿方法,尽管数量很少,恰好与一种类似的解决方案不谋而合:在基于图像的试穿模型中插入时间注意力以使其适应视频试穿任务,这些方法虽有改进,但仍然存在不一致性问题。在本文中,我们提出了ViTI(视频试穿修复器),将视频虚拟试穿表述并实现为一个条件视频修复任务,这与以往的方法不同。通过这种方式,我们从视频生成问题而不是基于图像的试穿问题开始,这从一开始就具有更好的时空一致性。具体来说,首先我们基于具有完整3D时空注意力的扩散变换器构建了一个视频修复框架,然后我们通过一系列遮罩策略和多阶段训练逐步将其适应于视频服装修复。经过这些步骤,模型可以根据提示以良好的时空一致性修复被遮罩的服装区域,填充适当的服装像素。最后,与其他试穿方法一样,服装条件被添加到模型中,以确保修复后的服装外观和细节符合预期。定量和定性实验结果均表明,ViTI优于以往的工作。 |
[73] WordCon:场景文本渲染中的词级排版控制 标题: WordCon: Word-level Typography Control in Scene Text Rendering 作者: Wenda Shi / Yiren Song / Zihan Rao / Dengming Zhang / Jiaming Liu / Xingxing Zou 原文: [英文] [中文] 备注: None 摘要: 在生成图像中实现精确的单词级排版控制仍然是一个持续的挑战。为了解决这个问题,我们新构建了一个单词级控制的场景文本数据集,并引入了文本-图像对齐(TIA)框架。该框架利用文本与由基础模型提供的局部图像区域之间的跨模态对应性来增强文本到图像(T2I)模型的训练。此外,我们提出了WordCon,这是一种混合参数高效微调(PEFT)方法。WordCon重新参数化选择的关键参数,提高了效率和可移植性。这允许无缝集成到各种管道中,包括艺术文本渲染、文本编辑和图像条件文本渲染。为了进一步增强可控性,在潜在层面应用了掩码损失,以指导模型专注于学习图像中的文本区域,而联合注意力损失提供了特征级监督,以促进不同单词之间的解耦。定性和定量结果均表明我们的方法优于现有技术。数据集和源代码将可用于学术用途。 |
[74] HumanOmniV2:从理解到带有上下文的全模态推理 标题: HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context 作者: Qize Yang / Shimin Yao / Weixuan Chen / Shenghao Fu / Detao Bai / Jiaxing Zhao / Boyuan Sun / Bowen Yin / Xihan Wei / Jingren Zhou 原文: [英文] [中文] 备注: None 摘要: 随着多模态大型语言模型的快速发展,深入理解和解释人类意图的能力已成为一项关键能力,这需要详细和深思熟虑的推理。在最近的研究中,强化学习(RL)在增强大型语言模型(LLMs)的推理能力方面显示出潜力。然而,将RL适应于多模态数据和格式的挑战仍然在很大程度上未得到解决。在本文中,我们识别出现有多模态推理模型中的两个问题:全局上下文理解不足和捷径问题。当模型误解多模态上下文时,可能会发生上下文理解不足,导致错误的答案。捷径问题则发生在模型忽略多模态输入中的关键线索,直接回答查询而不考虑多模态信息。为了解决这些问题,我们强调模型在多模态输入中需要以清晰的全局上下文理解进行推理。这种全局上下文理解可以有效防止模型忽略关键的多模态线索,并确保彻底的推理过程。为了确保多模态上下文信息的准确解释,我们实施了一种由大型语言模型判断的上下文奖励,以及格式和准确性奖励。此外,为了提高复杂推理能力,我们使用LLM来评估逻辑奖励,确定推理过程是否成功地将多模态信息与逻辑方法相结合。我们还引入了一个推理全模态基准,IntentBench,旨在评估模型在理解复杂人类意图和情感方面的能力。与其他开源全模态模型相比,我们提出的方法在多个全模态基准上表现出先进的性能。 |
[75] HieraSurg:用于手术视频生成的层次感知扩散模型 标题: HieraSurg: Hierarchy-Aware Diffusion Model for Surgical Video Generation 作者: Diego Biagini / Nassir Navab / Azade Farshad 原文: [英文] [中文] 备注: Accepted at MICCAI 2025 摘要: 随着扩散模型在通用领域视频生成中的成功,手术视频合成已成为一个有前景的研究方向。尽管现有方法在视频生成质量上表现出色,但大多是无条件的,无法保持与手术动作和阶段的一致性,缺乏事实模拟所需的手术理解和细粒度指导。我们通过提出HieraSurg来解决这些挑战,这是一种层次感知的手术视频生成框架,由两个专门的扩散模型组成。给定一个手术阶段和初始帧,HieraSurg首先通过分割预测模型预测未来的粗粒度语义变化。最终视频由第二阶段模型生成,该模型通过细粒度视觉特征增强这些时间分割图,从而在视频空间中实现有效的纹理渲染和语义信息整合。我们的方法利用了多个抽象层次的手术信息,包括手术阶段、动作三元组和全景分割图。在胆囊切除术手术视频生成的实验结果表明,该模型在定量和定性上均显著优于先前的工作,展示了强大的泛化能力和生成更高帧率视频的能力。该模型在提供现有分割图时表现出特别细致的依从性,表明其在实际手术应用中的潜力。 |
[76] 在遥感中的掩码自编码器持续自监督学习 标题: Continual Self-Supervised Learning with Masked Autoencoders in Remote Sensing 作者: Lars Möllenbrok / Behnood Rasti / Begüm Demir 原文: [英文] [中文] 备注: Accepted to IEEE Geoscience and Remote Sensing Letters. Our code is available at this https URL 摘要: 在遥感(RS)领域,持续学习(CL)方法的发展引起了广泛关注,这些方法旨在从不断获取的训练数据中以顺序方式学习新任务。现有的RS中的CL方法在学习新任务时,增强了对灾难性遗忘的鲁棒性。这是通过使用大量标记的训练样本来实现的,而在RS中,获取这些样本既昂贵又不总是可行的。为了解决这个问题,我们提出了一种在掩码自动编码器(MAE)背景下的新型持续自监督学习方法,称为CoSMAE。所提出的CoSMAE由两个组件组成:i)数据混合;ii)模型混合知识蒸馏。数据混合通过将当前任务的图像与先前任务的图像进行插值来保留先前数据分布的信息。模型混合知识蒸馏通过同时插值过去模型和当前模型的权重来蒸馏知识,从而形成知识蒸馏的教师。这两个组件相辅相成,在数据和模型层面对MAE进行正则化,以促进跨任务的更好泛化并降低灾难性遗忘的风险。实验结果表明,CoSMAE在应用于MAE的最先进CL方法上实现了高达4.94%的显著改进。我们的代码可在此网址公开获取:this https URL。 |
[77] DrishtiKon:用于文本丰富文档图像的多粒度视觉定位 标题: DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images 作者: Badri Vishal Kasuba / Parag Chaudhuri / Ganesh Ramakrishnan 原文: [英文] [中文] 备注: Work in progress 摘要: 在文本丰富的文档图像中进行视觉定位是文档智能和视觉问答(VQA)系统中一个关键但尚未充分探索的挑战。我们提出了\drishtikon,这是一种多粒度的视觉定位框架,旨在增强复杂多语言文档中VQA的可解释性和可信度。我们的方法结合了强大的多语言OCR、大型语言模型和一种新颖的区域匹配算法,以在块、行、词和点级别准确定位答案范围。我们从CircularsVQA测试集中整理了一个新的基准,提供了跨多个粒度的人类验证的精细注释。大量实验表明,我们的方法在定位准确性方面达到了最先进的水平,其中行级粒度在精度和召回率之间提供了最佳的平衡。消融研究进一步突出了多块和多行推理的好处。与领先的视觉语言模型的比较评估揭示了当前VLMs在精确定位方面的局限性,强调了我们基于结构和对齐的方法的有效性。我们的研究结果为在真实世界以文本为中心的场景中开发更强大和可解释的文档理解系统铺平了道路。代码和数据集已在此https URL上提供。 |
[78] LLaVA-Pose:通过关键点集成指令调优增强人体姿态和动作理解 标题: LLaVA-Pose: Enhancing Human Pose and Action Understanding via Keypoint-Integrated Instruction Tuning 作者: Dewen Zhang / Tahir Hussain / Wangpeng An / Hayaru Shouno 原文: [英文] [中文] 备注: arXiv admin note: substantial text overlap with arXiv:2409.09306 摘要: 当前的视觉-语言模型(VLMs)在一般视觉理解任务中表现良好。然而,由于缺乏专门的视觉-语言指令跟随数据,它们在处理与人体姿势和动作相关的复杂视觉任务时表现不佳。我们介绍了一种生成此类数据的方法,通过将人体关键点与传统视觉特征(如字幕和边界框)相结合,从而能够更精确地理解以人为中心的场景。我们的方法构建了一个包含200,328个样本的数据集,专门用于微调模型以处理以人为中心的任务,重点关注三个领域:对话、详细描述和复杂推理。我们建立了一个扩展的人体姿势和动作理解基准(E-HPAUB),用于评估模型在人体姿势和动作理解方面的表现。我们使用该数据集微调了LLaVA-1.5-7B模型,并在基准上评估我们得到的LLaVA-Pose模型,取得了显著的改进。实验结果显示,与原始LLaVA-1.5-7B模型相比,总体提升了33.2%。这些发现突出了关键点集成数据在增强多模态模型以实现以人为中心的视觉理解方面的有效性。代码可在此https URL获取。 |
[79] 使用分层输入依赖状态空间模型的整体手术阶段识别 标题: Holistic Surgical Phase Recognition with Hierarchical Input Dependent State Space Models 作者: Haoyang Wu / Tsun-Hsuan Wang / Mathias Lechner / Ramin Hasani / Jennifer A. Eckhoff / Paul Pak / Ozanan R. Meireles / Guy Rosman / Yutong Ban / Daniela Rus 原文: [英文] [中文] 备注: None 摘要: 在机器人辅助手术中,手术工作流程分析至关重要,但此类手术的长时间持续性对全面的视频分析构成了重大挑战。最近的方法主要依赖于变压器模型;然而,其二次注意力机制限制了对冗长手术视频的高效处理。在本文中,我们提出了一种新颖的分层输入依赖状态空间模型,该模型利用状态空间模型的线性扩展特性,使得在捕捉局部和全局动态的同时能够对全长视频进行决策。我们的框架结合了时间一致的视觉特征提取器,该提取器在视觉特征提取器上附加了一个状态空间模型头,以传播时间信息。所提出的模型由两个关键模块组成:一个有效捕捉复杂局部动态的局部聚合状态空间模型块,以及一个对整个视频的时间依赖性进行建模的全局关系状态空间模型块。该模型采用混合离散-连续监督策略进行训练,其中离散阶段标签和连续阶段进度的信号都通过网络传播。实验表明,我们的方法在Cholec80、MICCAI2016和Heichole数据集上分别超越了当前的最先进方法,提升幅度分别为+2.8%、+4.3%和+12.9%。代码将在论文接受后公开。 |
[80] PanSt3R:多视图一致的全景分割 标题: PanSt3R: Multi-view Consistent Panoptic Segmentation 作者: Lojze Zust / Yohann Cabon / Juliette Marrie / Leonid Antsfeld / Boris Chidlovskii / Jerome Revaud / Gabriela Csurka 原文: [英文] [中文] 备注: Accepted at ICCV 2025 摘要: 3D场景的全景分割涉及在场景的密集3D重建中对物体实例进行分割和分类,这是一个具有挑战性的问题,尤其是在仅依赖未定位的2D图像时。现有的方法通常利用现成的模型来提取每帧的2D全景分割,然后优化隐式几何表示(通常基于NeRF)以整合和融合2D预测。我们认为,对于一个本质上是3D和多视图的问题,依赖2D全景分割可能不是最佳选择,因为它未能充分利用视图之间的空间关系。除了需要相机参数,这些方法还需要对每个场景进行计算量大的测试时优化。相反,在这项工作中,我们提出了一种统一和集成的方法PanSt3R,通过在单次前向传递中联合预测3D几何和多视图全景分割,消除了测试时优化的需要。我们的方法基于3D重建的最新进展,特别是基于DUSt3R的可扩展多视图版本MUSt3R,并增强了其语义感知和多视图全景分割能力。我们还重新审视了标准的后处理掩码合并过程,并为多视图分割引入了一种更为合理的方法。我们还介绍了一种基于PanSt3R和普通3DGS预测生成新视图预测的简单方法。总体而言,所提出的PanSt3R在概念上简单,但快速且可扩展,并在多个基准上实现了最先进的性能,同时比现有方法快了几个数量级。 |
[81] 广义化神经电磁逆散射 标题: Generalizable Neural Electromagnetic Inverse Scattering 作者: Yizhe Cheng / Chunxun Tian / Haoru Wang / Wentao Zhu / Xiaoxuan Ma / Yizhou Wang 原文: [英文] 备注: None 摘要: 解决电磁逆散射问题(EISP)在医学成像等应用中具有基础性意义,其目标是从散射的电磁场中重建相对介电常数。这个逆过程本质上是病态的且高度非线性的,因此特别具有挑战性。最近一种基于机器学习的方法,Img-Interiors,通过利用连续隐函数显示出有前景的结果。然而,它需要特定案例的优化,缺乏对未见数据的泛化能力,并且在稀疏发射器设置下(例如,仅有一个发射器)失效。为了解决这些限制,我们从物理启发的角度重新审视EISP,将其重新表述为一个两阶段的逆传输-散射过程。这个表述揭示了感应电流作为一个可泛化的中间表示,有效地将非线性散射过程与病态逆问题解耦。基于这一见解,我们提出了第一个可泛化的物理驱动框架用于EISP,包括一个电流估计器和一个介电常数求解器,以端到端的方式工作。电流估计器明确地学习感应电流,作为入射场与散射场之间的物理桥梁,而介电常数求解器则直接从估计的感应电流中计算相对介电常数。这个设计使得数据驱动的训练和对未见数据的相对介电常数的可泛化前馈预测成为可能,同时保持对发射器稀疏性的强鲁棒性。大量实验表明,我们的方法在重建精度、泛化能力和鲁棒性方面优于最先进的方法。这项工作为电磁逆散射提供了一个全新的视角,并代表了朝着成本效益高的电磁成像实际解决方案迈出的重要一步。 |
[82] ShotBench: 视觉语言模型中的专家级电影理解 标题: ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models 作者: Hongbo Liu / Jingwen He / Yi Jin / Dian Zheng / Yuhao Dong / Fan Zhang / Ziqi Huang / Yinan He / Yangguang Li / Weichao Chen / Yu Qiao / Wanli Ouyang / Shengjie Zhao / Ziwei Liu 原文: [英文] [中文] 备注: None 摘要: 电影摄影作为电影的基本视觉语言,对于传达叙事、情感和美学质量至关重要。尽管最近的视觉语言模型(VLMs)在一般视觉理解方面表现出色,但它们在理解单个镜头中蕴含的细腻电影语法方面的能力仍然未被充分探索,并且缺乏有力的评估。这一关键差距限制了细粒度视觉理解和AI辅助视频生成的精确性。为了解决这个问题,我们引入了\textbf{ShotBench},一个专门为电影语言理解设计的综合基准。它包含了来自200多部著名(主要是奥斯卡提名)电影的图像和视频片段中超过3,500个专家注释的问答对,涵盖了八个关键的电影摄影维度。我们对24个领先的VLMs在ShotBench上的评估揭示了它们的显著局限性:即使是表现最好的模型,其平均准确率也不到60%,尤其在细粒度视觉线索和复杂空间推理方面表现不佳。为了推动该领域的进步,我们构建了\textbf{ShotQA},一个包含约70,000个电影问答对的大规模多模态数据集。利用ShotQA,我们通过监督微调和群体相对策略优化开发了\textbf{ShotVL}。ShotVL在ShotBench上显著超越了所有现有的开源和专有模型,建立了新的\textbf{最先进}性能。我们开源了我们的模型、数据和代码,以促进在AI驱动的电影理解和生成这一关键领域的快速进展。 |
[83] CoPa-SG:具有参数化和原型关系的密集场景图 标题: CoPa-SG: Dense Scene Graphs with Parametric and Proto-Relations 作者: Julian Lorenz / Mrunmai Phatak / Robin Schön / Katja Ludwig / Nico Hörmann / Annemarie Friedrich / Rainer Lienhart 原文: [英文] [中文] 备注: None 摘要: 二维场景图为场景理解提供了一个结构化且可解释的框架。然而,目前的研究仍然面临缺乏准确场景图数据的问题。为了解决这一数据瓶颈,我们提出了CoPa-SG,这是一个合成场景图数据集,具有高度精确的真实数据和所有对象之间详尽的关系注释。此外,我们引入了参数关系和原型关系,这两个场景图的新基本概念。前者通过用角度或距离等附加参数丰富关系,提供了比传统方法更细粒度的表示。后者在场景图中编码假设关系,并描述如果在场景中放置新对象,关系将如何形成。利用CoPa-SG,我们比较了各种场景图生成模型的性能。我们展示了如何将我们新的关系类型集成到下游应用中,以增强规划和推理能力。 |
[84] ToosiCubix:通过车辆部件标注进行单目3D长方体标注 标题: ToosiCubix: Monocular 3D Cuboid Labeling via Vehicle Part Annotations 作者: Behrooz Nasihatkon / Hossein Resani / Amirreza Mehrzadian 原文: [英文] [中文] 备注: None 摘要: 许多现有的车辆3D长方体标注方法依赖于昂贵且精心校准的相机-LiDAR或立体视觉设备,这限制了其在大规模数据收集中的可及性。我们介绍了ToosiCubix,这是一种简单而强大的方法,仅使用单目图像和内在相机参数来标注真实的长方体。我们的方法每辆车只需大约10次用户点击,使其在为原本未使用专业设备收集的数据集添加3D标注时非常实用。通过在不同的车辆部位标注特定特征(例如车轮、车标、对称性),我们可以准确估计每辆车的位置、方向和尺寸,达到尺度模糊(8个自由度)。几何约束被表述为一个优化问题,我们使用坐标下降策略解决该问题,在透视-n-点(PnP)和最小二乘子问题之间交替进行。为了处理常见的模糊性,如尺度和未观察到的尺寸,我们引入了概率尺寸先验,从而实现9个自由度的长方体放置。我们将我们的标注与KITTI和Cityscapes3D数据集进行验证,证明我们的方法为高质量的3D长方体标注提供了一种具有成本效益且可扩展的解决方案。 |
[85] CA-I2P: 具有全局最优选择的通道自适应配准网络 标题: CA-I2P: Channel-Adaptive Registration Network with Global Optimal Selection 作者: Zhixin Cheng / Jiacheng Deng / Xinjun Li / Xiaotian Yin / Bohao Liao / Baoqun Yin / Wenfei Yang / Tianzhu Zhang 原文: [英文] [中文] 备注: ICCV 2025 accepted 摘要: 无检测方法通常遵循由粗到细的流程,提取图像和点云特征以进行补丁级匹配,并细化密集的像素到点的对应关系。然而,图像和点云之间特征通道注意力的差异可能导致匹配结果的下降,最终影响配准精度。此外,场景中的相似结构可能导致跨模态匹配中的冗余对应关系。为了解决这些问题,我们提出了通道自适应调整模块(CAA)和全局最优选择模块(GOS)。CAA增强了模态内特征并抑制了跨模态敏感性,而GOS用全局优化替代了局部选择。在RGB-D Scenes V2和7-Scenes上的实验表明,我们的方法具有优越性,在图像到点云配准中达到了最新的性能。 |
[86] GenFlow:用于图像生成的交互式模块化系统 标题: GenFlow: Interactive Modular System for Image Generation 作者: Duc-Hung Nguyen / Huu-Phuc Huynh / Minh-Triet Tran / Trung-Nghia Le 原文: [英文] [中文] 备注: None 摘要: 生成艺术释放了无限的创造可能性,但由于需要高级架构概念和计算工作流程的技术专长,其全部潜力尚未被充分利用。为了弥合这一差距,我们提出了GenFlow,一个新颖的模块化框架,使所有技能水平的用户能够轻松精确地生成图像。GenFlow具有一个节点编辑器,可实现无缝定制,以及一个由自然语言处理驱动的智能助手,将工作流程创建的复杂性转化为直观且易于访问的体验。通过自动化部署过程和减少技术障碍,我们的框架使最前沿的生成艺术工具对所有人开放。一项用户研究证明了GenFlow能够优化工作流程、减少任务完成时间,并通过其直观界面和自适应功能增强用户理解。这些结果使GenFlow成为一个突破性的解决方案,在生成艺术领域重新定义了可访问性和效率。 |
[87] FastRef:用于小样本工业异常检测的快速原型优化 标题: FastRef:Fast Prototype Refinement for Few-Shot Industrial Anomaly Detection 作者: Long Tian / Yufei Li / Yuyang Dai / Wenchao Chen / Xiyang Liu / Bo Chen 原文: [英文] [中文] 备注: 18pages, 7figures, 6tables 摘要: 少样本工业异常检测(FS-IAD)在数据稀缺环境中对实际自动化检测系统提出了重大挑战。现有的方法主要集中在从有限的正常样本中提取原型,但通常忽略了系统性地结合查询图像的统计信息来增强原型的代表性。为了解决这个问题,我们提出了FastRef,这是一种新颖且高效的原型优化框架用于FS-IAD。我们的方法通过一个迭代的两阶段过程运行:(1)通过一个可优化的变换矩阵将查询特征的特性转移到原型上,以及(2)通过原型对齐进行异常抑制。特性转移是通过从原型线性重建查询特征来实现的,而异常抑制则解决了FS-IAD中的一个关键观察点,即与常规的拥有大量正常原型的IAD不同,有限样本设置使得异常重建更为可能。因此,我们采用最优传输(OT)来测量和最小化原型与其优化版本之间的差距,以实现异常抑制。为了进行全面评估,我们将FastRef与三种具有竞争力的基于原型的FS-IAD方法集成:PatchCore、FastRecon、WinCLIP和AnomalyDINO。在MVTec、ViSA、MPDD和RealIAD四个基准数据集上的大量实验表明,我们的方法在1/2/4-shot设置下既有效又具有计算效率。 |
[88] 曲线感知的高斯点化用于三维参数曲线重建 标题: Curve-Aware Gaussian Splatting for 3D Parametric Curve Reconstruction 作者: Zhirui Gao. Renjiao Yi / Yaqiao Dai / Xuening Zhu / Wei Chen / Chenyang Zhu / Kai Xu 原文: [英文] [中文] 备注: Code: this https URL Accepted by ICCV 2025 摘要: 本文提出了一种端到端框架,用于直接从多视图边缘图重建三维参数曲线。与现有的两阶段方法(遵循“边缘点云重建和参数曲线拟合”流程)相比,我们的一阶段方法直接从二维边缘图优化三维参数曲线,消除了由于不连续阶段之间固有的优化差距而导致的误差累积。然而,参数曲线本质上不适合基于渲染的多视图优化,因此需要一种补充表示来保持其几何特性,同时实现可微渲染。我们提出了一种新颖的双向耦合机制,将参数曲线与边缘导向的高斯组件紧密结合。这种紧密对应形成了一种曲线感知的高斯表示,称为\textbf{CurveGaussian},使得三维曲线的可微渲染成为可能,从而允许通过多视图证据直接优化。此外,我们在训练过程中引入了一种动态自适应拓扑优化框架,通过线性化、合并、分裂和修剪操作来优化曲线结构。在ABC数据集和真实世界基准上的全面评估表明,我们的一阶段方法在生成更清晰和更稳健的重建方面优于两阶段替代方案。此外,通过直接优化参数曲线,我们的方法在训练期间显著减少了参数数量,实现了比现有方法更高的效率和更优的性能。 |
[89] XVerse:通过DiT调制实现身份和语义属性的一致多主体控制 标题: XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation 作者: Bowen Chen / Mengyi Zhao / Haomiao Sun / Li Chen / Xu Wang / Kang Du / Xinglong Wu 原文: [英文] [中文] 备注: Project Page: this https URL Github Link: this https URL 摘要: 在文本到图像生成中实现对主体身份和语义属性(姿势、风格、光照)的细粒度控制,尤其是针对多个主体时,往往会削弱扩散变压器(DiTs)的可编辑性和连贯性。许多方法会引入伪影或遭受属性纠缠。为了解决这些挑战,我们提出了一种新颖的多主体控制生成模型XVerse。通过将参考图像转换为特定标记的文本流调制偏移,XVerse能够对特定主体进行精确和独立的控制,而不会破坏图像潜变量或特征。因此,XVerse提供了高保真、可编辑的多主体图像合成,并对单个主体特征和语义属性进行强大的控制。这一进步显著提高了个性化和复杂场景生成的能力。 |
[90] EndoFlow-SLAM:基于流约束高斯喷溅的实时内窥镜SLAM 标题: EndoFlow-SLAM: Real-Time Endoscopic SLAM with Flow-Constrained Gaussian Splatting 作者: Taoyu Wu / Yiyi Miao / Zhuoxiao Li / Haocheng Zhao / Kang Dang / Jionglong Su / Limin Yu / Haoang Li 原文: [英文] [中文] 备注: None 摘要: 在内窥镜等手术场景中,高效的三维重建和实时可视化至关重要。近年来,三维高斯散点(3DGS)在高效三维重建和渲染方面表现出色。大多数基于3DGS的同时定位与地图构建(SLAM)方法仅依赖于外观约束来优化3DGS和相机姿态。然而,在内窥镜场景中,非朗伯表面引起的光度不一致性和呼吸导致的动态运动会影响SLAM系统的性能。为了解决这些问题,我们额外引入了光流损失作为几何约束,有效地约束了场景的三维结构和相机运动。此外,我们提出了一种深度正则化策略,以缓解光度不一致性问题,并确保3DGS深度渲染在内窥镜场景中的有效性。为了改善SLAM系统中的场景表示,我们通过关注与渲染质量欠佳的关键帧对应的视点,改进了3DGS的细化策略,从而实现更好的渲染效果。在C3VD静态数据集和StereoMIS动态数据集上的大量实验表明,我们的方法在新视图合成和姿态估计方面优于现有的最先进方法,在静态和动态手术场景中均表现出高性能。源代码将在论文接受后公开。 |
[91] HyperSORT:使用超网络的自组织鲁棒训练 标题: HyperSORT: Self-Organising Robust Training with hyper-networks 作者: Samuel Joutard / Marijn Stollenga / Marc Balle Sanchez / Mohammad Farid Azampour / Raphael Prevost 原文: [英文] [中文] 备注: Accepted at MICCAI 2025 摘要: 医学影像数据集通常包含各种异质性偏差,从错误标签到不一致的标注风格。这些偏差可能会对深度分割网络的性能产生负面影响。然而,识别和描述这些偏差是一项特别繁琐且具有挑战性的任务。在本文中,我们介绍了HyperSORT,这是一种使用超网络的框架,该超网络从表示图像和标注变异性的潜在向量中预测UNet的参数。超网络参数和对应于训练集中每个数据样本的潜在向量集合是联合学习的。因此,HyperSORT不是优化单个神经网络以适应数据集,而是学习UNet参数的复杂分布,其中低密度区域可以捕捉特定于噪声的模式,而较大的模式可以以不同但有意义的方式稳健地分割器官。我们在两个3D腹部CT公共数据集上验证了我们的方法:首先是合成扰动版本的AMOS数据集,以及TotalSegmentator,一个包含真实未知偏差和错误的大规模数据集。我们的实验表明,HyperSORT创建了数据集的结构化映射,允许识别相关的系统偏差和错误样本。潜在空间聚类产生的UNet参数根据所学习的系统偏差执行分割任务。代码和我们对TotalSegmentator数据集的分析已公开:此https URL |
[92] 深度学习和视觉基础模型在非典型与正常有丝分裂分类中的基准测试及跨数据集评估 标题: Benchmarking Deep Learning and Vision Foundation Models for Atypical vs. Normal Mitosis Classification with Cross-Dataset Evaluation 作者: Sweta Banerjee / Viktoria Weiss / Taryn A. Donovan / Rutger A. Fick / Thomas Conrad / Jonas Ammeling / Nils Porsche / Robert Klopfleisch / Christopher Kaltenecker / Katharina Breininger / Marc Aubreville / Christof A. Bertram 原文: [英文] [中文] 备注: None 摘要: 非典型有丝分裂标志着细胞分裂过程的偏离,可以作为肿瘤恶性程度的独立预后相关标志。然而,由于其低发生率、与正常有丝分裂的形态差异有时较为微妙、病理学家之间的低一致性以及数据集中的类别不平衡,识别这些标志仍然具有挑战性。基于乳腺癌非典型有丝分裂数据集(AMi-Br),本研究提供了一个全面的基准,比较了用于自动化非典型有丝分裂图像(AMF)分类的深度学习方法,包括基线模型、线性探测的基础模型以及通过低秩适应(LoRA)微调的基础模型。为了进行严格的评估,我们进一步引入了两个新的保留AMF数据集——AtNorM-Br,一个来自TCGA乳腺癌队列的有丝分裂数据集,以及AtNorM-MD,一个来自MIDOG++训练集的多域有丝分裂数据集。我们发现,在域内AMi-Br和域外AtNorm-Br及AtNorM-MD数据集上的平均平衡准确率分别高达0.8135、0.7696和0.7705,特别是基于LoRA适应的Virchow系列基础模型的结果尤为出色。我们的工作表明,尽管非典型有丝分裂分类是一个具有挑战性的问题,但通过利用迁移学习和模型微调技术的最新进展,可以有效地解决这一问题。我们在此GitHub存储库中提供了本文使用的所有代码和数据:this https URL。 |
[93] 使用场景感知扩散模型的可控3D物体放置 标题: Controllable 3D Placement of Objects with Scene-Aware Diffusion Models 作者: Mohamed Omran / Dimitris Kalatzis / Jens Petersen / Amirhossein Habibian / Auke Wiggers 原文: [英文] [中文] 备注: None 摘要: 随着强大的文本条件生成模型的出现,图像编辑方法变得更加强大和灵活。然而,在环境中以精确的位置和方向放置物体仍然是一个挑战,因为这通常需要精心制作的修补掩码或提示。在这项工作中,我们展示了一个精心设计的视觉地图,结合粗略的物体掩码,就足以实现高质量的物体放置。我们设计了一种条件信号,可以解决歧义,同时足够灵活以允许改变形状或物体方向。通过基于修补模型,我们在设计上保持背景不变,这与那些同时建模物体和背景的方法形成对比。我们在汽车环境中展示了我们方法的有效性,在新的物体放置任务中比较了不同的条件信号。这些任务旨在衡量编辑质量,不仅在外观方面,还在姿态和位置精度方面,包括需要非平凡形状变化的情况。最后,我们展示了精细位置控制可以与外观控制相结合,以在场景中将现有物体放置在精确位置。 |
[94] 用于多样场景下地下矿工检测的综合数据集 标题: A Comprehensive Dataset for Underground Miner Detection in Diverse Scenario 作者: Cyrus Addy / Ajay Kumar Gurumadaiah / Yixiang Gao / Kwame Awuah-Offei 原文: [英文] 备注: None 摘要: 地下采矿作业面临重大安全挑战,这使得应急响应能力至关重要。虽然机器人在协助搜救行动中显示出潜力,但其有效性依赖于可靠的矿工检测能力。深度学习算法为自动化矿工检测提供了潜在的解决方案,但需要全面的训练数据集,而目前地下采矿环境中缺乏这样的数据集。本文提出了一个新颖的热成像数据集,专门用于开发和验证矿工检测系统,以便在潜在的紧急应用中使用。我们系统地捕捉了各种采矿活动和场景的热成像,以创建一个坚实的基础供检测算法使用。为了建立基准性能指标,我们在我们的数据集上评估了几种最先进的目标检测算法,包括YOLOv8、YOLOv10、YOLO11和RT-DETR。虽然该数据集并未涵盖所有可能的紧急情况,但它作为开发可靠的基于热成像的矿工检测系统的关键第一步,最终可以在真实的紧急场景中部署。该工作展示了使用热成像进行矿工检测的可行性,并为这一关键安全应用的未来研究奠定了基础。 |
[95] 通过低频重新思考无分类器引导中的过饱和问题 标题: Rethinking Oversaturation in Classifier-Free Guidance via Low Frequency 作者: Kaiyu Song / Hanjiang Lai 原文: [英文] [中文] 备注: None 摘要: 无分类器引导(CFG)在条件扩散模型中取得了成功,该模型使用引导尺度来平衡条件项和无条件项的影响。高引导尺度用于增强条件项的性能。然而,高引导尺度常常导致过饱和和不真实的伪影。在本文中,我们引入了一种基于低频信号的新视角,识别这些信号中冗余信息的积累是导致过饱和和不真实伪影的关键因素。基于这一洞察,我们提出了低频改进的无分类器引导(LF-CFG)来缓解这些问题。具体来说,我们引入了一种基于自适应阈值的测量方法来定位冗余信息的位置。我们通过分析先前步骤和当前步骤之间低频信息的变化率来确定合理的阈值。然后,我们应用一种降权策略来减少低频信号中冗余信息的影响。实验结果表明,LF-CFG有效缓解了各种扩散模型中的过饱和和不真实伪影,包括Stable Diffusion-XL、Stable Diffusion 2.1、3.0、3.5和SiT-XL。 |
[96] 日常交通模式的交通信号评估 标题: Evaluation of Traffic Signals for Daily Traffic Pattern 作者: Mohammad Shokrolah Shirazi / Hung-Fu Chang 原文: [英文] [中文] 备注: None 摘要: 转向流量计数数据对于交通信号设计、交叉口几何规划、交通流量和拥堵分析至关重要。本文提出了三种基于TMC(转向流量计数)的交通信号方法,分别是动态、静态和混合配置。我们开发了一种基于视觉的跟踪系统,利用交通摄像头估算拉斯维加斯六个交叉口的TMC。交叉口设计、路线(例如车辆移动方向)和信号配置文件以兼容格式合成并导入城市交通模拟系统,以使用真实数据进行信号评估。基于估算的等待时间的初步实验结果表明,90秒和120秒的周期时间对所有交叉口效果最佳。此外,四个交叉口在动态信号定时配置下表现更好,而另外两个表现较差的交叉口,其总车辆数与交叉口车道总数的比率较低。由于日常交通流量通常呈现双峰模式,我们提出了一种混合信号方法,在高峰和非高峰交通条件下在动态和静态方法之间切换,以改善流量管理。因此,内置的交通生成模块为4小时(包括高峰时段)创建车辆路线,信号设计模块根据静态、动态和混合方法生成信号调度周期。车辆计数分布在每个区域(即西、北、东、南)加权不同,以生成多样化的交通模式。针对6个交叉口进行4小时模拟时间的扩展实验结果表明,基于区域的交通模式分布影响信号设计选择。尽管静态方法对于均匀的基于区域的交通分布效果很好,但混合方法在西-东和北-南区域对的高加权交通下效果良好。 |
[97] Logios:一个开源的希腊语多音符光学字符识别系统 标题: Logios : An open source Greek Polytonic Optical Character Recognition system 作者: Perifanos Konstantinos / Goutsos Dionisis 原文: [英文] 备注: None 摘要: 在本文中,我们介绍了一种光学字符识别(OCR)系统,专门用于准确识别和数字化希腊多音文本。通过结合卷积层进行特征提取和递归层进行序列学习的优势,我们的系统解决了希腊多音脚本所带来的独特挑战。这种方法旨在克服传统OCR方法的局限性,显著提高准确性和效率。我们将基础模型作为开源库发布,并将我们的OCR平台提供给学术界使用。 |
[98] 自然世界图像的全局和局部蕴含学习 标题: Global and Local Entailment Learning for Natural World Imagery 作者: Srikumar Sastry / Aayush Dhakal / Eric Xing / Subash Khanal / Nathan Jacobs 原文: [英文] [中文] 备注: Accepted at ICCV 2025 摘要: 在视觉-语言模型中学习数据的层次结构是一个重要的挑战。之前的工作尝试通过蕴涵学习来解决这个挑战。然而,这些方法未能明确地建模蕴涵的传递性,而传递性在表示空间中建立了顺序和语义之间的关系。在这项工作中,我们引入了径向跨模态嵌入(RCME),这是一个能够显式建模传递性强制蕴涵的框架。我们提出的框架优化了视觉-语言模型中概念的偏序。通过利用我们的框架,我们开发了一个能够表示生命之树层次结构的层次化视觉-语言基础模型。我们在层次化物种分类和层次化检索任务上的实验表明,我们的模型相比现有的最先进模型具有更好的性能。我们的代码和模型在这个https URL上开源。 |
[99] TITAN:基于查询-标记的领域自适应对抗学习 标题: TITAN: Query-Token based Domain Adaptive Adversarial Learning 作者: Tajamul Ashraf / Janibul Bashir 原文: [英文] [中文] 备注: ICCV 2025 摘要: 我们关注源数据在适应过程中不可用时的无源域自适应目标检测(SF-DAOD)问题,模型必须适应未标记的目标域。大多数解决该问题的方法采用自监督方法,使用学生-教师(ST)框架,通过源预训练模型生成伪标签以进行进一步微调。我们观察到,由于教师模型的崩溃,学生模型的性能通常会急剧下降,这主要是由于伪标签中的高噪声导致的,噪声源于域偏差、差异以及跨域的显著域转移。为了获得可靠的伪标签,我们提出了一种基于目标的迭代查询-令牌对抗网络(TITAN),将目标图像分为两类:与源相似的(简单)和不相似的(困难)。我们提出了一种估计方差的策略来划分目标域。该方法利用了检测方差越高对应召回率越高且与源域相似度越大的洞察。此外,我们在学生-教师基线框架中加入了基于查询令牌的对抗模块,以减少两个特征表示之间的域间差距。在四个自然成像数据集和两个具有挑战性的医学数据集上进行的实验证实了TITAN相比现有最先进(SOTA)方法的优越性能。我们在C2F、C2B、S2C和K2C基准上分别报告了+22.7、+22.2、+21.1和+3.7个百分点的mAP提升。 |
[100] 迈向可靠的空白空间检测:用于目标检测的条件标记点过程 标题: Towards Reliable Detection of Empty Space: Conditional Marked Point Processes for Object Detection 作者: Tobias J. Riedlinger / Kira Maag / Hanno Gottschalk 原文: [英文] [中文] 备注: 15 pages, 4 figures, 3 tables 摘要: 深度神经网络在计算机视觉任务中,如边界框检测和语义分割,已经达到了最先进的水平。物体检测器和分割模型为预测分配置信度分数,以反映模型在物体检测或像素级分类中的不确定性。然而,这些置信度估计往往校准不佳,因为它们的架构和损失函数是为任务性能而非概率基础量身定制的。即使在预测校准良好的情况下,物体检测器也无法量化检测到的边界框之外的不确定性,即模型不会对没有检测到物体的区域是否真正无障碍进行概率评估。这在自动驾驶等应用中构成了安全风险,因为空白区域的不确定性尚未被探索。在这项工作中,我们提出了一种基于空间统计的物体检测模型。边界框数据与标记点过程的实现相匹配,标记点过程通常用于描述空间点事件的概率发生,这些事件被识别为边界框中心,其中标记用于描述边界框和类别的空间扩展。我们的统计框架支持基于似然的训练,并为区域是否可行驶(即无物体)提供明确的置信度估计。我们通过校准评估和性能评估展示了我们方法的有效性。 |
[101] 通过动态对数校准缓解大型视觉语言模型的幻觉 标题: Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration 作者: Jiahe Chen / Jiaying He / Qian Shao / Qiyuan Chen / Jiahe Ying / Hongxia Xu / Jintai Chen / Jianwei Zheng / Jian Wu 原文: [英文] [中文] 备注: None 摘要: 大型视觉语言模型(LVLMs)在多模态理解方面展示了显著的进步,但它们经常受到幻觉的困扰,即生成与视觉输入相矛盾的文本。现有的无训练解码策略存在关键限制,包括使用静态约束,无法适应生成过程中的语义漂移,因需要多次前向传递而导致的低效,以及由于过于严格的干预规则而导致的细节退化。为克服这些挑战,本文引入了动态逻辑校准(DLC),这是一种新颖的无训练解码框架,旨在推理时动态地将文本生成与视觉证据对齐。在解码阶段,DLC逐步使用CLIP评估输入图像与生成文本序列之间的语义对齐。然后,候选标记的相对视觉优势(RVA)相对于动态更新的上下文基线进行评估,自适应地调整输出逻辑以偏向视觉基础的标记。此外,一个自适应加权机制,通过实时上下文对齐分数提供信息,仔细平衡视觉指导,同时确保文本输出的整体质量。在各种基准和不同的LVLM架构(如LLaVA、InstructBLIP和MiniGPT-4)上进行的大量实验表明,DLC显著减少了幻觉,优于当前方法,同时通过避免多次前向传递保持了高推理效率。总体而言,我们提出了一种有效且高效的解码时解决方案,以减轻幻觉,从而增强LVLMs在更多实践中的可靠性。代码将在Github上发布。 |
[102] GGTalker:具有可泛化高斯先验和身份特定适应的说话人头像合成 标题: GGTalker: Talking Head Systhesis with Generalizable Gaussian Priors and Identity-Specific Adaptation 作者: Wentao Hu / Shunkai Li / Ziqiao Peng / Haoxian Zhang / Fan Shi / Xiaoqiang Liu / Pengfei Wan / Di Zhang / Hui Tian 原文: [英文] [中文] 备注: ICCV 2025, Project page: this https URL 摘要: 创建高质量、具有广泛泛化能力的语音驱动3D说话人头一直是一个持续的挑战。之前的方法在固定视角和小规模音频变化的情况下取得了令人满意的结果,但在大幅度的头部旋转和分布外(OOD)音频方面表现不佳。此外,它们还受到需要耗时的、特定身份的训练的限制。我们认为核心问题在于缺乏足够的3D先验,这限制了合成说话人头的外推能力。为了解决这个问题,我们提出了GGTalker,通过结合可泛化的先验和特定身份的适应来合成说话人头。我们引入了一个两阶段的先验-适应训练策略,以学习高斯头部先验并适应个体特征。我们训练音频-表情和表情-视觉先验,以捕捉唇部运动的普遍模式和头部纹理的一般分布。在定制适应阶段,个体的说话风格和纹理细节被精确建模。此外,我们引入了一个颜色MLP来生成细粒度、与运动对齐的纹理,并使用一个身体修补器将渲染结果与背景融合,生成无法区分的、逼真的视频帧。综合实验表明,GGTalker在渲染质量、3D一致性、唇同步准确性和训练效率方面达到了最先进的性能。 |
[103] G$^{2}$D:通过梯度引导蒸馏提升多模态学习 标题: G$^{2}$D: Boosting Multimodal Learning with Gradient-Guided Distillation 作者: Mohammed Rakib / Arunkumar Bagavathi 原文: [英文] [中文] 备注: Accepted at ICCV 2025 摘要: 多模态学习旨在利用来自不同数据模态的信息以实现更全面的性能。然而,传统的多模态模型通常面临模态不平衡的问题,其中一个或少数几个模态在模型优化中占主导地位,导致特征表示次优以及弱模态的未充分利用。为了解决这一挑战,我们引入了梯度引导蒸馏(G$^{2}$D),这是一种知识蒸馏框架,通过自定义的损失函数融合单模态和多模态目标来优化多模态模型。G$^{2}$D在学习过程中进一步结合了一种动态顺序模态优先(SMP)技术,以确保每个模态都能引导学习过程,避免较强模态掩盖较弱模态的缺陷。我们在多个真实世界数据集上验证了G$^{2}$D,并表明G$^{2}$D在训练过程中增强了弱模态的重要性,并在分类和回归任务中优于最先进的方法。我们的代码可在此https URL获取。 |
[104] MADrive: 增强记忆的驾驶场景建模 标题: MADrive: Memory-Augmented Driving Scene Modeling 作者: Polina Karpikova / Daniil Selikhanovych / Kirill Struminsky / Ruslan Musaev / Maria Golitsyna / Dmitry Baranchuk 原文: [英文] [中文] 备注: None 摘要: 最近在场景重建方面的进展推动了使用3D高斯点云对自动驾驶(AD)环境进行高度逼真的建模。然而,生成的重建结果仍然与原始观测紧密相连,难以支持显著改变或新颖驾驶场景的照片级真实合成。本文介绍了MADrive,这是一种记忆增强的重建框架,旨在通过从大规模外部记忆库中检索视觉上相似的3D资产来替换观察到的车辆,从而扩展现有场景重建方法的能力。具体来说,我们发布了MAD-Cars,这是一个精心策划的数据集,包含约70,000个在自然环境中捕获的360°汽车视频,并提出了一个检索模块,该模块在记忆库中找到最相似的汽车实例,从视频中重建相应的3D资产,并通过方向对齐和重新照明将其集成到目标场景中。由此产生的替换提供了场景中车辆的完整多视图表示,使得显著改变配置的照片级真实合成成为可能,正如我们的实验所示。项目页面:this https URL |
[105] WAFT:用于光流的单独扭曲场变换 标题: WAFT: Warping-Alone Field Transforms for Optical Flow 作者: Yihan Wang / Jia Deng 原文: [英文] 备注: None 摘要: 我们介绍了Warping-Alone Field Transforms (WAFT),这是一种用于光流的简单而有效的方法。WAFT类似于RAFT,但用高分辨率的扭曲替代了代价体积,从而在降低内存成本的同时实现了更高的准确性。这个设计挑战了传统观点,即构建代价体积是实现强大性能的必要条件。WAFT是一种简单而灵活的元架构,具有最小的归纳偏置和对定制设计的依赖。与现有方法相比,WAFT在Spring和KITTI基准测试中排名第一,在KITTI上实现了最佳的零样本泛化,同时比性能相似的方法快多达4.1倍。代码和模型权重可在此https URL获取。 |
[106] 最大匹配很重要:防止表示崩溃以实现稳健的跨模态检索 标题: Maximal Matching Matters: Preventing Representation Collapse for Robust Cross-Modal Retrieval 作者: Hani Alomari / Anushka Sivakumar / Andrew Zhang / Chris Thomas 原文: [英文] [中文] 备注: Accepted at the 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025 Main) 摘要: 跨模态图像-文本检索具有挑战性,因为来自不同模态的内容之间可能存在多种多样的关联。传统方法通过学习单一向量嵌入来表示每个样本的语义,但难以捕捉跨模态存在的细微和多样化关系。基于集合的方法为每个样本提供多个嵌入,提供了一种有前途的替代方案,因为它们能够捕捉更丰富和多样化的关系。在本文中,我们展示了尽管这些基于集合的表示方法具有潜力,但它们仍然面临包括稀疏监督和集合崩溃在内的问题,这限制了其有效性。为了解决这些挑战,我们提出了最大对分配相似性,以优化嵌入集合之间的一对一匹配,从而在集合内保持语义多样性。我们还引入了两个损失函数以进一步增强表示:全局判别损失以增强嵌入之间的区别,以及集合内发散损失以防止每个集合内的崩溃。我们的方法在MS-COCO和Flickr30k上实现了最先进的性能,而无需依赖外部数据。 |
[107] StruMamba3D:探索结构化曼巴用于自监督点云表示学习 标题: StruMamba3D: Exploring Structural Mamba for Self-supervised Point Cloud Representation Learning 作者: Chuxin Wang / Yixin Zha / Wenfei Yang / Tianzhu Zhang 原文: [英文] [中文] 备注: Accepted by ICCV 2025 摘要: 最近,基于Mamba的方法通过利用状态空间模型(SSM)的高效上下文建模能力和线性复杂度,在点云表示学习中展示了令人印象深刻的性能。然而,这些方法仍然面临两个限制SSM潜力的关键问题:在SSM处理过程中破坏3D点的邻接性,以及在下游任务中随着输入长度的增加未能保留长序列记忆。为了解决这些问题,我们提出了StruMamba3D,这是一种用于自监督点云表示学习的新范式。它具有几个优点。首先,我们设计了空间状态,并将其用作代理以保留点之间的空间依赖性。其次,我们通过状态更新策略增强了SSM,并结合轻量级卷积以促进空间状态之间的交互,从而实现高效的结构建模。第三,我们的方法通过引入序列长度自适应策略,降低了预训练的基于Mamba模型对不同输入长度的敏感性。四个下游任务的实验结果展示了我们方法的卓越性能。此外,我们的方法在ModelNet40上达到了SOTA 95.1%的准确率,并在ScanObjectNN最具挑战性的分割上达到了92.75%的准确率,而无需投票策略。 |
[108] DeOcc-1-to-3:通过自监督多视图扩散从单张图像进行3D去遮挡 标题: DeOcc-1-to-3: 3D De-Occlusion from a Single Image via Self-Supervised Multi-View Diffusion 作者: Yansong Qu / Shaohui Dai / Xinyang Li / Yuze Wang / You Shen / Liujuan Cao / Rongrong Ji 原文: [英文] [中文] 备注: None 摘要: 从单张图像重建三维物体一直是一个长期的挑战,尤其是在现实世界的遮挡情况下。尽管最近基于扩散的视图合成模型可以从单张RGB图像生成一致的新视图,但它们通常假设输入完全可见,当物体的部分被遮挡时会失败。这导致视图不一致和三维重建质量下降。为克服这一限制,我们提出了一种端到端的遮挡感知多视图生成框架。我们的方法直接从单张部分遮挡的图像合成六个结构一致的新视图,从而无需事先修复或手动标注即可进行后续的三维重建。我们使用Pix2Gestalt数据集构建了一个自监督训练管道,利用遮挡-未遮挡图像对和伪真实视图来教会模型结构感知的补全和视图一致性。在不修改原始架构的情况下,我们完全微调视图合成模型,以联合学习补全和多视图生成。此外,我们引入了第一个遮挡感知重建的基准,涵盖了多样的遮挡水平、物体类别和遮罩模式。该基准为在部分遮挡下评估未来方法提供了标准化协议。我们的代码可在此https URL获取。 |
[109] HalluSegBench:用于分割幻觉评估的反事实视觉推理 标题: HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation 作者: Xinzhuo Li / Adheesh Juvekar / Xingyou Liu / Muntasir Wahed / Kiet A. Nguyen / Ismini Lourentzou 原文: [英文] [中文] 备注: Project webpage: this https URL 摘要: 最近在视觉语言分割方面的进展显著推动了基础视觉理解的发展。然而,这些模型常常表现出幻觉现象,即为图像内容中未被定位的对象生成分割掩码,或错误地标记不相关的区域。现有的分割幻觉评估协议主要关注标签或文本幻觉,而不操控视觉背景,限制了其诊断关键失败的能力。对此,我们引入了HalluSegBench,这是首个专门设计用于通过反事实视觉推理评估视觉定位中的幻觉的基准。我们的基准由一个包含1340个反事实实例对的新颖数据集组成,涵盖281个独特的对象类别,以及一组新引入的度量标准,这些标准在视觉上连贯的场景编辑下量化幻觉敏感性。在HalluSegBench上对最先进的视觉语言分割模型进行的实验表明,视觉驱动的幻觉显著比标签驱动的幻觉更为普遍,模型常常持续错误分割,突显了需要反事实推理来诊断定位的准确性。 |
[110] SAM4D:在相机和激光雷达流中分割任何物体 标题: SAM4D: Segment Anything in Camera and LiDAR Streams 作者: Jianyun Xu / Song Wang / Ziqian Ni / Chunyong Hu / Sheng Yang / Jianke Zhu / Qiang Li 原文: [英文] [中文] 备注: Accepted by ICCV2025, Project Page: this https URL 摘要: 我们介绍了SAM4D,这是一种多模态和时间基础模型,旨在实现跨摄像头和LiDAR流的可提示分割。我们引入了统一多模态位置编码(UMPE),以在共享的3D空间中对齐摄像头和LiDAR特征,从而实现无缝的跨模态提示和交互。此外,我们提出了运动感知跨模态记忆注意(MCMA),利用自我运动补偿来增强时间一致性和长时间特征检索,确保在动态变化的自动驾驶场景中实现稳健的分割。为了避免注释瓶颈,我们开发了一种多模态自动化数据引擎,该引擎结合了VFM驱动的视频掩码、时空4D重建和跨模态掩码融合。该框架以比人工注释快数个数量级的速度生成摄像头-LiDAR对齐的伪标签,同时在点云表示中保留VFM衍生的语义保真度。我们在构建的Waymo-4DSeg上进行了广泛的实验,展示了所提出的SAM4D强大的跨模态分割能力和在数据注释中的巨大潜力。 |
[111] SiM3D:单实例多视角多模态和多设置3D异常检测基准 标题: SiM3D: Single-instance Multiview Multimodal and Multisetup 3D Anomaly Detection Benchmark 作者: Alex Costanzino / Pierluigi Zama Ramirez / Luigi Lella / Matteo Ragaglia / Alessandro Oliva / Giuseppe Lisanti / Luigi Di Stefano 原文: [英文] [中文] 备注: None 摘要: 我们提出了SiM3D,这是第一个考虑多视图和多模态信息集成的综合3D异常检测和分割(ADS)基准,其任务是生成基于体素的异常体积。此外,SiM3D专注于制造业中一个备受关注的场景:单实例异常检测,其中只有一个真实或合成的对象可用于训练。在这方面,SiM3D作为第一个ADS基准,解决了从合成训练数据推广到真实测试数据的挑战。SiM3D包括一个使用顶级工业传感器和机器人获取的新颖多模态多视图数据集。该数据集包含八种类型对象的333个实例的多视图高分辨率图像(1200万像素)和点云(700万点),以及每种类型的CAD模型。我们还为异常测试样本提供了手动标注的3D分割GT。为了为所提出的多视图3D ADS任务建立参考基线,我们调整了著名的单视图方法,并使用在异常体积上操作的新指标评估其性能。 |
[112] 全身条件自我中心视频预测 标题: Whole-Body Conditioned Egocentric Video Prediction 作者: Yutong Bai / Danny Tran / Amir Bar / Yann LeCun / Trevor Darrell / Jitendra Malik 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: 我们训练模型以预测来自人类动作的自我中心视频(PEVA),给定过去的视频和由相对3D身体姿态表示的动作。通过以身体关节层次结构为条件的运动姿态轨迹,我们的模型学习模拟物理人类动作如何从第一人称视角塑造环境。我们在Nymeria上训练了一个自回归条件扩散变压器,这是一个大规模的真实世界自我中心视频和身体姿态捕捉数据集。我们进一步设计了一个分层评估协议,具有越来越具挑战性的任务,从而能够全面分析模型的体现预测和控制能力。我们的工作代表了从人类视角通过视频预测来解决复杂真实世界环境和体现代理行为建模挑战的初步尝试。 |