scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年5月28日更新论文138
[1] ReaMOT:基于推理的多目标跟踪基准和框架
标题: ReaMOT: A Benchmark and Framework for Reasoning-based Multi-Object Tracking
作者: Sijia Chen / Yanqiu Yu / En Yu / Wenbing Tao
原文:   [英文]   [中文]  
备注: 19 pages, 11 figures, 6 tables
摘要:
指称多目标跟踪(RMOT)是计算机视觉中的一个重要研究领域。其任务形式是引导模型跟踪符合语言指令的对象。然而,RMOT任务通常需要明确的语言指令,当出现具有推理特征的复杂语言指令时,这类方法往往失效。在这项工作中,我们提出了一项新任务,称为基于推理的多目标跟踪(ReaMOT)。ReaMOT是一个更具挑战性的任务,需要对符合推理特征的语言指令进行准确推理,并跟踪对象的轨迹。为了推进ReaMOT任务并评估跟踪模型的推理能力,我们构建了ReaMOT Challenge,这是一个基于推理的多目标跟踪基准,建立在12个数据集之上。具体而言,它包含1,156条具有推理特征的语言指令,423,359个图像-语言对,以及869个多样化场景,分为三个推理难度级别。此外,我们提出了一套针对ReaMOT任务量身定制的评估指标。此外,我们提出了ReaTrack,这是一种基于大型视觉语言模型(LVLM)和SAM2的无训练框架,用于基于推理的多目标跟踪,作为ReaMOT任务的基线。在ReaMOT Challenge基准上的大量实验表明,我们的ReaTrack框架的有效性。

[2] 有什么变化?使用多模态大型语言模型检测和评估指令引导的图像编辑
标题: What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models
作者: Lorenzo Baraldi / Davide Bucciarelli / Federico Betti / Marcella Cornia / Lorenzo Baraldi / Nicu Sebe / Rita Cucchiara
原文:   [英文]   [中文]  
备注: None
摘要:
基于指令的图像编辑模型在生成任务中提供了更多个性化的机会。然而,正确评估其结果具有挑战性,现有的大多数指标在与人类判断的一致性和可解释性方面存在不足。为了解决这些问题,我们引入了DICE(差异一致性估计器),这是一种旨在检测原始图像与编辑后图像之间局部差异并评估其与给定修改请求相关性的模型。DICE由两个关键组件组成:差异检测器和一致性估计器,均基于自回归多模态大型语言模型(MLLM)构建,并采用利用自监督、从修复网络蒸馏以及完全监督的策略进行训练。通过广泛的实验,我们评估了管道的每个阶段,并在所提出的框架内比较了不同的MLLM。我们证明了DICE能够有效识别一致的编辑,能够有效评估由不同编辑模型生成的图像,并与人类判断具有很强的相关性。我们公开发布了我们的源代码、模型和数据。

[3] RetroMotion:可指导的逆因果运动预测模型
标题: RetroMotion: Retrocausal Motion Forecasting Models are Instructable
作者: Royden Wagner / Omer Sahin Tas / Felix Hauser / Marlon Steiner / Dominik Strutz / Abhishek Vivekanandan / Carlos Fernandez / Christoph Stiller
原文:   [英文]  
备注: None
摘要:
道路使用者(即代理)的运动预测因场景约束和交互行为的复杂性而有所不同。我们通过一种包含逆因果信息流的多任务学习方法来解决这一问题。相应的任务是预测(1)所有建模代理的边际轨迹分布和(2)交互代理的联合轨迹分布。我们使用一个transformer模型,通过重新编码边际分布然后进行成对建模来生成联合分布。这将边际轨迹中后期点的信息逆因果地流向联合轨迹的早期点。对于每个轨迹点,我们使用压缩指数幂分布来建模位置不确定性。值得注意的是,我们的方法在Waymo交互预测数据集上达到了最先进的结果,并且很好地推广到了Argoverse 2数据集。此外,我们的方法提供了一个通过轨迹修改发出指令的接口。我们的实验表明,常规的运动预测训练能够遵循基于目标的指令,并将基本的方向指令适应于场景上下文。代码:this https URL

[4] 多模态视角:多模态大语言模型是否理解视角?视角感知、推理和鲁棒性的综合基准
标题: MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness
作者: Yunlong Tang / Pinxin Liu / Mingqian Feng / Zhangyun Tan / Rui Mao / Chao Huang / Jing Bi / Yunzhong Xiao / Susan Liang / Hang Hua / Ali Vosoughi / Luchuan Song / Zeliang Zhang / Chenliang Xu
原文:   [英文]   [中文]  
备注: None
摘要:
理解透视是人类视觉感知的基础,但多模态大型语言模型(MLLMs)在多大程度上内化透视几何仍不清楚。我们引入了MMPerspective,这是第一个专门设计用于系统评估MLLMs透视理解的基准,通过三个互补维度的10个精心设计的任务:透视感知、推理和鲁棒性。我们的基准包括2,711个真实和合成图像实例,以及5,083个问答对,探查关键能力,如消失点感知和计数、透视类型推理、3D空间中的线关系理解、对保持透视变换的不变性等。通过对43个最先进的MLLMs的全面评估,我们发现了显著的局限性:虽然模型在表面感知任务上表现出色,但在组合推理和在扰动下保持空间一致性方面存在困难。我们的分析进一步揭示了模型架构、规模和透视能力之间的有趣模式,突出了鲁棒性瓶颈和链式思维提示的好处。MMPerspective为诊断和推进视觉语言系统中的空间理解建立了一个有价值的测试平台。资源可在此URL获取:this https URL

[5] DIPO:由多样数据驱动的双态图像控制的可动对象生成
标题: DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data
作者: Ruqi Wu / Xinjie Wang / Liu Liu / Chunle Guo / Jiaxiong Qiu / Chongyi Li / Lichao Huang / Zhizhong Su / Ming-Ming Cheng
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了DIPO,这是一种新颖的框架,用于从一对图像生成可控的关节3D对象:一张图像展示对象的静止状态,另一张展示对象的关节状态。与单图像方法相比,我们的双图像输入仅对数据收集施加了适度的负担,但同时提供了重要的运动信息,这是预测部件之间运动关系的可靠指南。具体来说,我们提出了一种双图像扩散模型,该模型捕捉图像对之间的关系以生成部件布局和关节参数。此外,我们引入了一种基于思维链(CoT)的图推理器,明确推断部件连接关系。为了进一步提高对复杂关节对象的鲁棒性和泛化能力,我们开发了一个完全自动化的数据集扩展管道,名为LEGO-Art,以丰富PartNet-Mobility数据集的多样性和复杂性。我们提出了PM-X,一个大规模的复杂关节3D对象数据集,附有渲染图像、URDF注释和文本描述。大量实验表明,DIPO在静止状态和关节状态下均显著优于现有基线,而提出的PM-X数据集进一步增强了对多样化和结构复杂的关节对象的泛化能力。我们的代码和数据集将在发表后向社区开放。

[6] CCL-LGS: 用于三维语言高斯喷溅的对比码本学习
标题: CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting
作者: Lei Tian / Xiaomin Li / Liqian Ma / Hefei Huang / Zirui Zheng / Hao Yin / Taiqing Li / Huchuan Lu / Xu Jia
原文:   [英文]   [中文]  
备注: None
摘要:
最近在3D重建技术和视觉-语言模型方面的进展推动了3D语义理解的显著进步,这项能力对机器人技术、自动驾驶和虚拟/增强现实至关重要。然而,依赖于2D先验的方法面临一个关键挑战:由遮挡、图像模糊和视图依赖变化引起的跨视图语义不一致。这些不一致在通过投影监督传播时,会降低3D高斯语义场的质量,并在渲染输出中引入伪影。为了解决这一限制,我们提出了CCL-LGS,一种通过整合多视图语义线索来实施视图一致语义监督的新框架。具体来说,我们的方法首先使用零样本跟踪器来对齐一组由SAM生成的2D掩码,并可靠地识别其对应的类别。接下来,我们利用CLIP在不同视图中提取稳健的语义编码。最后,我们的对比码本学习(CCL)模块通过实施类内紧凑性和类间区别性来提炼辨别性语义特征。与直接将CLIP应用于不完美掩码的先前方法相比,我们的框架明确解决了语义冲突,同时保留了类别辨别能力。大量实验表明,CCL-LGS优于之前的最先进方法。我们的项目页面可在此HTTPS URL访问。

[7] WeatherEdit:使用四维高斯场进行可控天气编辑
标题: WeatherEdit: Controllable Weather Editing with 4D Gaussian Field
作者: Chenghao Qian / Wenjing Li / Yuhu Guo / Gustav Markkula
原文:   [英文]   [中文]  
备注: None
摘要:
在这项工作中,我们提出了WeatherEdit,这是一种新颖的天气编辑流程,用于在3D场景中生成具有可控类型和严重程度的逼真天气效果。我们的方法分为两个关键组件:天气背景编辑和天气粒子构建。对于天气背景编辑,我们引入了一种多合一适配器,将多种天气风格集成到一个预训练的扩散模型中,从而能够在2D图像背景中生成多样化的天气效果。在推理过程中,我们设计了一种时间-视图(TV-)注意机制,按照特定顺序聚合时间和空间信息,确保在多帧和多视图图像中进行一致的编辑。为了构建天气粒子,我们首先使用编辑后的图像重建一个3D场景,然后引入一个动态4D高斯场来在场景中生成雪花、雨滴和雾。这些粒子的属性和动态通过基于物理的建模和模拟进行精确控制,确保逼真的天气表现和灵活的严重程度调整。最后,我们将4D高斯场与3D场景集成,以渲染一致且高度逼真的天气效果。在多个驾驶数据集上的实验表明,WeatherEdit可以生成具有可控条件严重程度的多样化天气效果,突显其在恶劣天气下自动驾驶模拟中的潜力。项目页面请参见:this https URL

[8] ControlTac:使用单个参考图像进行力和位置控制的触觉数据增强
标题: ControlTac: Force- and Position-Controlled Tactile Data Augmentation with a Single Reference Image
作者: Dongyu Luo / Kelin Yu / Amir-Hossein Shahidzadeh / Cornelia Fermüller / Yiannis Aloimonos
原文:   [英文]   [中文]  
备注: 22 pages, 11 figures, 7 tables
摘要:
基于视觉的触觉感知已广泛应用于感知、重建和机器人操作。然而,由于传感器与物体交互的局部特性以及传感器实例之间的不一致性,收集大规模触觉数据仍然成本高昂。现有的触觉数据扩展方法,如模拟和自由形式的触觉生成,通常会产生不现实的输出,并且在转移到下游任务时表现不佳。为了解决这一问题,我们提出了ControlTac,这是一种两阶段可控框架,可以根据单个参考触觉图像、接触力和接触位置生成真实的触觉图像。通过将这些物理先验作为控制输入,ControlTac生成物理上合理且多样化的触觉图像,可用于有效的数据增强。通过对三个下游任务的实验,我们证明了ControlTac可以有效地增强触觉数据集并带来一致的提升。我们的三个现实世界实验进一步验证了我们方法的实用性。项目页面:这个https URL。

[9] 电解槽-HSI:近距离多场景高光谱成像基准数据集
标题: Electrolyzers-HSI: Close-Range Multi-Scene Hyperspectral Imaging Benchmark Dataset
作者: Elias Arbash / Ahmed Jamal Afifi / Ymane Belahsen / Margret Fuchs / Pedram Ghamisi / Paul Scheunders / Richard Gloaguen
原文:   [英文]   [中文]  
备注: None
摘要:
全球可持续回收的挑战需要自动化、快速且准确的最先进(SOTA)材料检测系统,这些系统是循环经济的基石。使这些尖端解决方案能够进行实时废物分析的民主化访问对于扩大回收努力和促进绿色协议至关重要。为此,我们介绍了\textbf{Electrolyzers-HSI},这是一种新颖的多模态基准数据集,旨在通过准确的电解槽材料分类加速关键原材料的回收。该数据集包括55个共注册的高分辨率RGB图像和跨越400-2500 nm光谱范围的高光谱成像(HSI)数据立方体,产生超过420万个像素向量和424,169个标记的像素。这使得对粉碎的电解槽样本进行非侵入性光谱分析成为可能,支持定量和定性材料分类以及光谱特性研究。我们评估了一套基线机器学习(ML)方法以及最先进的基于变压器的深度学习(DL)架构,包括视觉变压器、光谱变压器和多模态融合变压器,以研究在材料识别中部署变压器时进一步提高效率的架构瓶颈。我们实施零样本检测技术和基于像素级预测的多数投票,以建立对象级分类的鲁棒性。遵循FAIR数据原则,电解槽-HSI数据集和附带的代码库在这个https URL和这个https URL上公开可用,支持可重复的研究并促进智能和可持续电子废物回收解决方案的广泛采用。

[10] CPathAgent:一种基于代理的基础模型,用于解释性高分辨率病理图像分析,模拟病理学家的诊断逻辑
标题: CPathAgent: An Agent-based Foundation Model for Interpretable High-Resolution Pathology Image Analysis Mimicking Pathologists' Diagnostic Logic
作者: Yuxuan Sun / Yixuan Si / Chenglu Zhu / Kai Zhang / Zhongyi Shui / Bowen Ding / Tao Lin / Lin Yang
原文:   [英文]   [中文]  
备注: 49 pages, 33 figures
摘要:
计算病理学的最新进展催生了众多基础模型。然而,这些方法未能复制病理学家的诊断过程,因为它们要么简单地依赖于通用编码器与多实例学习进行分类,要么直接应用多模态模型从图像生成报告。一个显著的局限是它们无法模拟病理学家所采用的诊断逻辑,病理学家通常在低倍镜下系统地检查切片以获得概览,然后逐步放大可疑区域以形成全面的诊断。为了解决这一差距,我们引入了CPathAgent,这是一种创新的基于代理的模型,通过根据观察到的视觉特征自主执行放大/缩小和导航操作,模拟病理学家的推理过程。为此,我们开发了一种多阶段训练策略,将补丁级、区域级和全切片能力统一在一个模型中,这对于模拟病理学家在所有三个尺度上的理解和推理能力至关重要。与现有方法相比,这种方法生成的诊断报告更加详细和可解释,特别是在大区域理解方面。此外,我们构建了一个经过专家验证的PathMMU-HR$^{2}$,这是第一个用于大区域分析的基准,这是补丁和全切片之间的关键中间尺度,因为诊断人员通常检查几个关键区域而不是一次性检查整个切片。大量实验表明,CPathAgent在三个基准尺度上始终优于现有方法,验证了我们基于代理的诊断方法的有效性,并突显了计算病理学未来发展的一个有前途的方向。

[11] 面向面部表情识别模型的特征级偏差评估框架
标题: A Feature-level Bias Evaluation Framework for Facial Expression Recognition Models
作者: Tangzheng Lian / Oya Celiktutan
原文:   [英文]   [中文]  
备注: Submitted to IEEE Transactions on Affective Computing
摘要:
最近关于公平性的研究表明,面部表情识别(FER)模型对某些视觉感知的人口群体存在偏见。然而,公共FER数据集中人类标注的人口统计标签的有限性限制了此类偏见分析的范围。为了克服这一限制,一些先前的工作采用了伪人口统计标签,这可能会扭曲偏见评估结果。相反,在本文中,我们提出了一种特征级偏见评估框架,用于在测试集中没有人口统计标签的情况下评估FER模型中的人口统计偏见。大量实验表明,与依赖伪人口统计标签的现有方法相比,我们的方法更有效地评估了人口统计偏见。此外,我们观察到许多现有研究在其偏见评估中没有包含统计测试,这引发了对某些报告的偏见可能并不具有统计显著性而只是由于随机性的担忧。为了解决这个问题,我们引入了一个即插即用的统计模块,以确保偏见评估结果的统计显著性。然后,基于所提出的模块,在一个大规模数据集上针对三个敏感属性(年龄、性别和种族)、七种面部表情和多种网络架构进行了全面的偏见分析,揭示了FER中的显著人口统计偏见,并提供了关于选择更公平的网络架构的见解。

[12] MetaWriter:使用元学习提示调优的个性化手写文本识别
标题: MetaWriter: Personalized Handwritten Text Recognition Using Meta-Learned Prompt Tuning
作者: Wenhao Gu / Li Gu / Ching Yee Suen / Yang Wang
原文:   [英文]  
备注: CVPR2025
摘要:
最近在手写文本识别(HTR)方面的进展使得将手写文本有效转换为数字格式成为可能。然而,在不同书写风格中实现稳健的识别仍然具有挑战性。传统的HTR方法由于模型架构和训练策略的限制,在测试时缺乏针对作者的个性化。现有通过基于梯度的元学习来弥合这一差距的尝试,仍然需要标记的例子,并且在参数效率低下的微调中表现不佳,导致大量的计算和内存开销。为了解决这些挑战,我们提出了一个高效的框架,将个性化表述为提示调优,结合一个辅助的图像重建任务,并使用自监督损失来指导提示在无标签测试时的适应。为了确保自监督损失有效地最小化文本识别错误,我们利用元学习来学习提示的最佳初始化。因此,我们的方法允许模型通过更新不到1%的参数来高效捕捉独特的书写风格,并消除了耗时的标注过程的需求。我们在RIMES和IAM手写数据库基准上验证了我们的方法,在使用参数量减少20倍的情况下,它始终优于之前的最先进方法。我们相信这代表了个性化手写文本识别的重大进步,为在资源受限的场景中更可靠和实用的部署铺平了道路。

[13] MultLFG:使用频域指导的无训练多LoRA组合
标题: MultLFG: Training-free Multi-LoRA composition using Frequency-domain Guidance
作者: Aniket Roy / Maitreya Suin / Ketul Shah / Rama Chellappa
原文:   [英文]   [中文]  
备注: None
摘要:
低秩适应(LoRA)作为一种计算高效的生成模型微调方法,因其能够以最小的开销实现独特的视觉概念合成而受到关注。然而,当前的方法在不进行训练的情况下难以有效地合并多个LoRA适配器,尤其是在涉及多样视觉元素的复杂组合中。我们引入了MultLFG,这是一种无需训练的多LoRA组合的新框架,利用频域引导实现多个LoRA的自适应融合。与现有方法均匀聚合特定概念的LoRA不同,MultLFG采用时间步和频率子带自适应融合策略,基于特定时间步和频率带的内容相关性选择性地激活相关的LoRA。这种对频率敏感的引导不仅提高了空间一致性,还提供了对多LoRA组合的更精细控制,从而产生更准确和一致的结果。在ComposLoRA基准上的实验评估表明,MultLFG在各种风格和概念集的组合保真度和图像质量方面显著提升,超越了多概念生成任务中的最新基线。代码将会发布。

[14] 因果关系与“野外”视频基础上的行人再识别:综述
标题: Causality and "In-the-Wild" Video-Based Person Re-ID: A Survey
作者: Md Rashidunnabi / Kailash Hambarde / Hugo Proença
原文:   [英文]  
备注: 30 pages, 9 figures
摘要:
尽管在基准测试中表现出色,基于视频的人体再识别(Re-ID)在实际应用中仍然脆弱。大多数现有模型依赖于表面相关性,如服装、背景或光照,这些因素无法在不同领域、视角和时间变化中实现泛化。本文综述了因果推理作为基于传统相关性方法的原则性替代方案在视频Re-ID中的新兴角色。我们对利用结构性因果模型、干预和反事实推理来从混杂因素中分离出身份特定特征的方法进行了结构化和批判性的分析。该综述围绕因果Re-ID方法的新颖分类法组织,涵盖生成性解缠、领域不变建模和因果变压器。我们回顾了当前的评估指标,并引入了因果特定的鲁棒性度量。此外,我们评估了可扩展性、公平性、可解释性和隐私性等实际挑战,这些挑战必须在实际应用中得到解决。最后,我们识别了开放性问题,并概述了将因果建模与高效架构和自监督学习相结合的未来研究方向。本文综述旨在为因果视频Re-ID建立一个连贯的基础,并推动该快速发展的领域进入研究的下一个阶段。

[15] 检索视觉对比解码以缓解大型视觉语言模型中的对象幻觉
标题: Retrieval Visual Contrastive Decoding to Mitigate Object Hallucinations in Large Vision-Language Models
作者: Jihoon Lee / Min Song
原文:   [英文]   [中文]  
备注: ACL Findings camera-ready version. Code is released at this https URL
摘要:
尽管大型视觉语言模型取得了显著进展,物体幻觉(OH)仍然是一个持续的挑战。在之前关于对比解码的研究基础上,这些研究无需额外的模型训练即可解决这一问题,我们引入了RVCD(检索视觉对比解码),这是一种先进的方法来抑制OH。RVCD在logit层面利用负面和正面图像,明确参考旨在表示单一概念的AI生成图像。我们的方法在现有的基于解码的方法上表现出显著的改进。

[16] 全方位编辑:具有可编辑外观、动作和光照的头像
标题: Total-Editing: Head Avatar with Editable Appearance, Motion, and Lighting
作者: Yizhou Zhao / Chunjiang Liu / Haoyu Chen / Bhiksha Raj / Min Xu / Tadas Baltrusaitis / Mitch Rundle / HsiangTao Wu / Kamran Ghasedi
原文:   [英文]   [中文]  
备注: None
摘要:
人脸重演和肖像重光是肖像编辑中的重要任务,但它们通常是独立处理的,缺乏协同作用。大多数人脸重演方法优先考虑运动控制和多视图一致性,而肖像重光则专注于调整阴影效果。为了同时利用几何一致性和光照感知,我们引入了Total-Editing,一个统一的肖像编辑框架,可以精确控制外观、运动和光照。具体来说,我们设计了一个具有内在分解能力的神经辐射场解码器。这使得可以将肖像图像或HDR环境图中的光照信息无缝集成到合成的肖像中。我们还结合了基于移动最小二乘法的变形场,以增强头像运动和阴影效果的时空一致性。通过这些创新,我们的统一框架显著提高了肖像编辑结果的质量和真实感。此外,Total-Editing的多源特性支持更灵活的应用,例如将一个肖像的光照转移到另一个肖像,或在自定义背景下进行肖像动画。

[17] OmniIndoor3D:全面的室内3D重建
标题: OmniIndoor3D: Comprehensive Indoor 3D Reconstruction
作者: Xiaobao Wei / Xiaoan Zhang / Hao Wang / Qingpo Wuwu / Ming Lu / Wenzhao Zheng / Shanghang Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一种新的框架,用于使用高斯表示进行全面的室内3D重建,称为OmniIndoor3D。该框架能够对由消费级RGB-D相机捕获的各种室内场景进行精确的外观、几何和全景重建。由于3DGS主要针对逼真的渲染进行了优化,因此缺乏高质量全景重建所需的精确几何。因此,OmniIndoor3D首先结合多个RGB-D图像创建粗略的3D重建,然后用于初始化3D高斯并指导3DGS训练。为了解耦外观和几何之间的优化冲突,我们引入了一个轻量级的MLP来调整3D高斯的几何属性。引入的轻量级MLP充当几何重建的低通滤波器,并显著减少室内场景中的噪声。为了改善高斯原语的分布,我们提出了一种由全景先验引导的密集化策略,以促进平面表面的平滑性。通过外观、几何和全景重建的联合优化,OmniIndoor3D提供了全面的3D室内场景理解,从而促进了准确和稳健的机器人导航。我们在多个数据集上进行了全面评估,OmniIndoor3D在外观、几何和全景重建方面达到了最先进的结果。我们相信我们的工作弥合了室内3D重建中的一个关键差距。代码将在此https URL发布。

[18] 基于Mamba驱动的拓扑融合用于单目3D人体姿态估计
标题: Mamba-Driven Topology Fusion for Monocular 3-D Human Pose Estimation
作者: Zenghao Zheng / Lianping Yang / Jinshan Pan / Hegui Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
基于Transformer的方法在3D人体姿态估计中面临显著的计算挑战,因为自注意力机制的复杂性随着序列长度呈二次增长。最近,Mamba模型通过利用状态空间模型(SSM)大幅减少了计算开销,并在长序列建模中表现出色。然而,SSM处理序列数据的能力并不适合具有拓扑结构的3D关节序列,并且Mamba中的因果卷积结构也缺乏对局部关节关系的洞察。为了解决这些问题,我们在本文中提出了Mamba驱动的拓扑融合框架。具体来说,所提出的骨骼感知模块在球坐标系中推断骨向量的方向和长度,为Mamba模型在处理关节序列时提供有效的拓扑指导。此外,我们通过整合前向和后向图卷积网络增强了Mamba模型中的卷积结构,使其能够更好地捕捉局部关节依赖关系。最后,我们设计了一个时空细化模块,以建模序列中的时间和空间关系。通过结合骨骼拓扑,我们的方法有效缓解了Mamba在捕捉人体结构关系方面的局限性。我们在Human3.6M和MPI-INF-3DHP数据集上进行了广泛的实验测试和比较,结果表明所提出的方法在大幅降低计算成本的同时实现了更高的准确性。消融研究进一步证明了每个提出模块的有效性。代码和模型将会发布。

[19] Roboflow100-VL:用于视觉-语言模型的多领域目标检测基准
标题: Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models
作者: Peter Robicheaux / Matvei Popov / Anish Madan / Isaac Robinson / Joseph Nelson / Deva Ramanan / Neehar Peri
原文:   [英文]  
备注: The first two authors contributed equally
摘要:
视觉-语言模型(VLMs)在互联网上规模化数据的训练下,在汽车、卡车和行人等常见物体的零样本检测性能上取得了显著的成就。然而,最先进的模型在泛化到分布外的类别、任务和成像模式时仍然面临挑战,这些通常不在其预训练中出现。我们认为,与其简单地在更多视觉数据上重新训练VLMs,不如通过包含少量视觉示例和丰富文本描述的注释说明来对齐VLMs与新概念。为此,我们引入了Roboflow100-VL,这是一个包含100个多模态对象检测数据集的大规模集合,涵盖了VLM预训练中不常见的多样化概念。我们在零样本、少样本、半监督和全监督设置下评估了最先进的模型在我们的基准上的表现,以便在不同数据模式下进行比较。值得注意的是,我们发现像GroundingDINO和Qwen2.5-VL这样的VLMs在Roboflow100-VL中的具有挑战性的医学成像数据集上,零样本准确率不到2%,这表明需要进行少样本概念对齐。我们的代码和数据集可以在这个https URL和这个https URL上获得。

[20] 阻塞性睡眠呼吸暂停中智能事件性高血压预测
标题: Intelligent Incident Hypertension Prediction in Obstructive Sleep Apnea
作者: Omid Halimi Milani / Ahmet Enis Cetin / Bharati Prasad
原文:   [英文]   [中文]  
备注: Accepted at EUSIPCO 2025. Camera-ready due June 20, 2025
摘要:
阻塞性睡眠呼吸暂停(OSA)是高血压的一个重要风险因素,主要是由于间歇性缺氧和睡眠片段化。预测患有OSA的个体在五年内是否会发展为高血压仍然是一个复杂的挑战。本研究引入了一种新颖的深度学习方法,该方法结合了基于离散余弦变换(DCT)的迁移学习,以提高预测准确性。我们首次将所有多导睡眠图信号结合在一起用于高血压预测,利用它们的集体信息来提高模型性能。从这些信号中提取特征并转换为二维表示,以利用预训练的二维神经网络,如MobileNet、EfficientNet和ResNet变体。为了进一步改善特征学习,我们引入了一个DCT层,将输入特征转换为基于频率的表示,保留重要的频谱信息,去相关特征,并增强对噪声的鲁棒性。这种频域方法结合迁移学习,特别有利于有限的医学数据集,因为它利用预训练网络的丰富表示来提高泛化能力。通过在EfficientNet中更深的截断深度战略性地放置DCT层,我们的模型实现了72.88%的最佳曲线下面积(AUC),展示了频域特征提取和迁移学习在预测OSA患者五年内高血压风险中的有效性。

[21] OccLE:高效标签的三维语义占用预测
标题: OccLE: Label-Efficient 3D Semantic Occupancy Prediction
作者: Naiyu Fang / Zheyuan Zhou / Fayao Liu / Xulei Yang / Jiacheng Wei / Lemiao Qiu / Guosheng Lin
原文:   [英文]   [中文]  
备注: None
摘要:
3D语义占用预测提供了一种直观且高效的场景理解方式,并在自动驾驶感知领域引起了广泛关注。现有的方法要么依赖于完全监督,这需要昂贵的体素级标注,要么依赖于自监督,这提供了有限的指导并导致次优的性能。为了解决这些挑战,我们提出了OccLE,一种标签高效的3D语义占用预测方法,该方法以图像和LiDAR为输入,并在有限的体素标注下保持高性能。我们的直觉是将语义和几何学习任务解耦,然后融合这两个任务中学习到的特征网格以进行最终的语义占用预测。因此,语义分支提炼2D基础模型,为2D和3D语义学习提供对齐的伪标签。几何分支基于图像和LiDAR输入的固有特性,在跨平面协同中进行整合,采用半监督来增强几何学习。我们通过Dual Mamba融合语义-几何特征网格,并结合散射累积投影,以对齐的伪标签监督未标注的预测。实验表明,OccLE在仅使用10%的体素标注的情况下实现了具有竞争力的性能,在SemanticKITTI验证集上达到了16.59%的mIoU。

[22] ConsiStyle:在无训练一致性文本到图像生成中的风格多样性
标题: ConsiStyle: Style Diversity in Training-Free Consistent T2I Generation
作者: Yohai Mazuz / Janna Bruner / Lior Wolf
原文:   [英文]   [中文]  
备注: None
摘要:
在文本到图像模型中,一致性角色生成的任务是实现文本对齐,同时在不同的提示中保持主体的外观。然而,由于风格和外观常常纠缠在一起,现有的方法难以在遵循不同风格提示的同时保持一致的主体特征。当前的一致性文本到图像生成方法通常依赖于在精心策划的图像集上进行大规模微调或每个主体的优化,这些方法要么无法在不同提示中泛化,要么与文本描述不够一致。同时,无需训练的方法通常无法在不同风格中保持主体一致性。在这项工作中,我们介绍了一种无需训练的方法,该方法同时实现了风格对齐和主体一致性。通过操控注意力矩阵,使得查询和键从用于定义主体的锚图像中获得,而值则从一个不受主体锚定的平行副本中导入。此外,通过扩展键和值矩阵,将跨图像组件添加到自注意力机制中。为了不偏离目标风格,我们对齐了值矩阵的统计数据。正如在一系列全面的定性和定量实验中所展示的,我们的方法有效地将风格与主体外观解耦,并能够在多样化风格中生成与文本对齐的图像,保持一致的角色。

[23] 将灵活的图像条件融入文本到视频扩散模型中而无需训练
标题: Incorporating Flexible Image Conditioning into Text-to-Video Diffusion Models without Training
作者: Bolin Lai / Sangmin Lee / Xu Cao / Xiang Li / James M. Rehg
原文:   [英文]   [中文]  
备注: 21 pages, 11 figures, 4 tables
摘要:
文本-图像到视频(TI2V)生成是一个关键问题,旨在使用语义和视觉条件进行可控视频生成。大多数现有方法通常通过微调将视觉条件添加到文本到视频(T2V)基础模型中,这在资源上代价高昂,并且仅限于少数预定义的条件设置。为了解决这个问题,我们引入了一种具有灵活视觉条件的TI2V生成统一公式。此外,我们提出了一种创新的无训练方法,称为FlexTI2V,可以在任意数量的图像和任意位置对T2V基础模型进行条件设置。具体来说,我们首先将条件图像反转为潜在空间中的噪声表示。然后,在T2V模型的去噪过程中,我们的方法使用一种新颖的随机补丁交换策略,通过局部图像补丁将视觉特征融入视频表示中。为了平衡创造力和保真度,我们使用动态控制机制来调整每个视频帧的视觉条件强度。大量实验验证了我们的方法在无训练图像条件方法上显著超越了之前的方法。我们还通过详细的消融研究和分析展示了我们方法的更多见解。

[24] TrustSkin:一种用于跨肤色可信面部情感分析的公平性流程
标题: TrustSkin: A Fairness Pipeline for Trustworthy Facial Affect Analysis Across Skin Tone
作者: Ana M. Cabanas / Alma Pedro / Domingo Mery
原文:   [英文]   [中文]  
备注: 10 pages
摘要:
理解面部情感分析(FAA)系统在不同人口群体中的表现需要可靠地测量敏感属性,例如通常通过肤色来近似的祖先属性,而肤色本身受到光照条件的高度影响。本研究比较了两种客观的肤色分类方法:广泛使用的个体类型角度(ITA)和基于亮度($L^*$)和色调($H^*$)的感知基础替代方法。使用AffectNet和基于MobileNet的模型,我们评估了由每种方法定义的肤色组之间的公平性。结果显示深色肤色的严重代表性不足(约2%),以及在F1分数(最高0.08)和TPR(最高0.11)方面的公平性差异。虽然ITA由于对光照的敏感性显示出局限性,但$H^*$-$L^*$方法提供了更一致的子分组,并通过诸如机会均等等指标实现更清晰的诊断。Grad-CAM分析进一步突出了模型注意模式在肤色上的差异,表明特征编码的变化。为了支持未来的缓解努力,我们还提出了一个模块化的公平意识管道,该管道集成了感知肤色估计、模型可解释性和公平性评估。这些发现强调了肤色测量选择在公平性评估中的重要性,并表明基于ITA的评估可能忽视影响深色皮肤个体的差异。

[25] Open-Det:一种用于开放式检测的高效学习框架
标题: Open-Det: An Efficient Learning Framework for Open-Ended Detection
作者: Guiping Cao / Tao Wang / Wenjian Huang / Xiangyuan Lan / Jianguo Zhang / Dongmei Jiang
原文:   [英文]   [中文]  
备注: ICML 2025
摘要:
开放式目标检测(Open-Ended object Detection, OED)是一项新颖且具有挑战性的任务,它以自由形式检测物体并生成其类别名称,而在推理过程中不需要额外的词汇。然而,现有的OED模型,如GenerateU,需要大规模的数据集进行训练,收敛速度慢,性能有限。为了解决这些问题,我们提出了一种新颖且高效的Open-Det框架,由四个协作部分组成。具体来说,Open-Det通过重构目标检测器和目标名称生成器,加速了边界框和目标名称生成过程的模型训练。为了弥合视觉和语言模态之间的语义差距,我们提出了一种视觉-语言对齐器,具有V-to-L和L-to-V对齐机制,并结合提示蒸馏器,将视觉语言模型的知识转移到视觉语言提示中,从而为大型语言模型生成准确的目标名称。此外,我们设计了一种掩码对齐损失以消除矛盾的监督,并引入联合损失以增强分类,从而实现更高效的训练。与GenerateU相比,Open-Det仅使用1.5%的训练数据(0.077M vs. 5.077M)、20.8%的训练周期(31 vs. 149)和更少的GPU资源(4个V100 vs. 16个A100),却实现了更高的性能(APr提高了1.0%)。源代码可在此网址获取:this https URL。

[26] IndustryEQA:推进工业场景中具身问答的前沿
标题: IndustryEQA: Pushing the Frontiers of Embodied Question Answering in Industrial Scenarios
作者: Yifan Li / Yuhang Chen / Anh Dao / Lichi Li / Zhongyi Cai / Zhen Tan / Tianlong Chen / Yu Kong
原文:   [英文]   [中文]  
备注: v1.0
摘要:
现有的具身问答(EQA)基准主要集中在家庭环境,往往忽视了与工业环境相关的安全关键方面和推理过程。这一缺陷限制了对代理在真实工业应用中准备情况的评估。为此,我们引入了IndustryEQA,这是第一个专门用于评估具身代理在安全关键仓库场景中能力的基准。IndustryEQA基于NVIDIA Isaac Sim平台构建,提供高保真度的情景记忆视频,涵盖多样的工业资产、动态的人类代理以及精心设计的危险情况,这些情况灵感来源于现实世界的安全指南。该基准包括六个类别的丰富注释:设备安全、人类安全、物体识别、属性识别、时间理解和空间理解。此外,它还基于这些类别提供额外的推理评估。具体来说,它包括从小型仓库生成的971个问答对和从大型仓库生成的373个问答对,涵盖了有无人的场景。我们进一步提出了一个综合评估框架,包括各种基线模型,以评估它们在工业环境中的一般感知和推理能力。IndustryEQA旨在引导EQA研究朝着开发更健壮、安全意识更强且实际应用性更高的具身代理,以应对复杂的工业环境。基准和代码已发布。

[27] 透视黑暗:学习光照亲和表示以预测夜间占用情况
标题: See through the Dark: Learning Illumination-affined Representations for Nighttime Occupancy Prediction
作者: Yuan Wu / Zhiqiang Yan / Yigong Zhang / Xiang Li / ian Yang
原文:   [英文]   [中文]  
备注: None
摘要:
占用预测旨在估计占用区域的三维空间分布及其对应的语义标签。现有的基于视觉的方法在白天的基准测试中表现良好,但在夜间场景中由于能见度有限和光照条件复杂而表现不佳。为了解决这些挑战,我们提出了\textbf{LIAR},一个学习光照相关表示的新框架。LIAR首先引入了选择性低光图像增强(SLLIE),该方法利用白天场景的光照先验,自适应地判断夜间图像是真正的黑暗还是光线充足,从而实现更有针对性的全局增强。在SLLIE生成的光照图的基础上,LIAR进一步结合了两个光照感知组件:二维光照引导采样(2D-IGS)和三维光照驱动投影(3D-IDP),分别解决局部曝光不足和过度曝光的问题。具体来说,2D-IGS根据光照图调整特征采样位置,给较暗区域分配较大的偏移量,给较亮区域分配较小的偏移量,从而缓解曝光不足区域的特征退化。随后,3D-IDP通过构建光照强度场并向BEV上下文细化过程提供精细的残差查询,增强过度曝光区域的语义理解。在真实和合成数据集上的大量实验表明,LIAR在具有挑战性的夜间场景中表现优越。源代码和预训练模型可在\href{this https URL}{此处}获取。

[28] HCQA-1.5 @ Ego4D EgoSchema 挑战赛 2025
标题: HCQA-1.5 @ Ego4D EgoSchema Challenge 2025
作者: Haoyu Zhang / Yisen Feng / Qiaohui Chu / Meng Liu / Weili Guan / Yaowei Wang / Liqiang Nie
原文:   [英文]   [中文]  
备注: The third-place solution for the Ego4D EgoSchema Challenge at the CVPR EgoVis Workshop 2025
摘要:
在本报告中,我们介绍了在 CVPR 2025 的 Ego4D EgoSchema 挑战中获得第三名的方法。为了提高自我中心视频问答中答案预测的可靠性,我们提出了一种对先前提出的 HCQA 框架的有效扩展。我们的方法引入了一种多源聚合策略来生成多样化的预测,随后通过基于置信度的过滤机制直接选择高置信度的答案。对于低置信度的情况,我们结合了一个细粒度推理模块,进行额外的视觉和上下文分析以优化预测。在 EgoSchema 盲测集上进行评估,我们的方法在超过 5,000 个人工策划的多项选择题上实现了 77% 的准确率,超越了去年的获胜方案和大多数参赛团队。我们的代码将会添加到这个 https URL。

[29] 扫描与打印:用于海报设计中内容感知布局生成的补丁级数据总结与增强
标题: Scan-and-Print: Patch-level Data Summarization and Augmentation for Content-aware Layout Generation in Poster Design
作者: HsiaoYuan Hsu / Yuxin Peng
原文:   [英文]   [中文]  
备注: Accepted to IJCAI 2025 (AI, Arts and Creativity). Project page is at this https URL
摘要:
在人工智能驱动的海报设计中,内容感知布局生成对于视觉文本元素(如标志、文本和底图)的图像内排列至关重要。为了感知背景图像,现有工作需要大量参数,远远超过可用训练数据的规模,这阻碍了模型的实时性能和泛化能力。为了解决这些挑战,我们提出了一种补丁级数据总结和增强方法,形象地命名为“扫描和打印”。具体来说,扫描过程仅选择适合放置元素顶点的补丁,以高效地执行细粒度感知。然后,打印过程将两个图像布局对中的补丁和顶点混合,以在每个周期中合成超过100%的新样本,同时保持其合理性。此外,为了促进顶点级操作,引入了一种基于顶点的布局表示。在广泛使用的基准测试上的大量实验结果表明,“扫描和打印”可以生成视觉上吸引人的布局,具有最先进的质量,同时将计算瓶颈显著减少95.2%。

[30] RoGA:通过稳健的梯度对齐实现可泛化的深度伪造检测
标题: RoGA: Towards Generalizable Deepfake Detection through Robust Gradient Alignment
作者: Lingyu Qiu / Ke Jiang / Xiaoyang Tan
原文:   [英文]   [中文]  
备注: Accepted to ICME2025
摘要:
最近在深度伪造检测领域的领域泛化方面的进展引起了广泛关注,以往的方法通常通过引入额外的模块来防止对特定领域模式的过拟合。然而,这种正则化可能会妨碍经验风险最小化(ERM)目标的优化,最终降低模型性能。在本文中,我们提出了一种新颖的学习目标,将泛化梯度更新与ERM梯度更新对齐。其关键创新在于对模型参数施加扰动,使得跨领域的上升点对齐,从而特别增强了深度伪造检测模型对领域转移的鲁棒性。这种方法在管理领域特定特征的同时,有效地保留了领域不变特征,而无需引入额外的正则化。在多个具有挑战性的深度伪造检测数据集上的实验结果表明,我们的梯度对齐策略优于最先进的领域泛化技术,证实了我们方法的有效性。代码可在此https URL获取。

[31] 摄影透视构图:迈向美学透视推荐
标题: Photography Perspective Composition: Towards Aesthetic Perspective Recommendation
作者: Lujian Yao / Siming Zheng / Xinbin Yuan / Zhuoxuan Cai / Pu Wu / Jinwei Chen / Bo Li / Peng-Tao Jiang
原文:   [英文]   [中文]  
备注: None
摘要:
传统摄影构图方法主要以二维裁剪为基础。然而,当场景中包含布置不佳的主体时,这些方法就显得不足。专业摄影师常常采用透视调整作为一种三维重构的方法,在保持主体实际空间位置的同时,修改其在二维投影中的关系,以实现更好的构图平衡。受这种艺术实践的启发,我们提出了摄影透视构图(PPC),超越了传统的基于裁剪的方法。然而,实现PPC面临重大挑战:透视变换数据集的稀缺性和透视质量评估标准的不明确。为了解决这些挑战,我们提出了三个关键贡献:(1)通过专家摄影作品构建PPC数据集的自动化框架。(2)一种视频生成方法,展示从次优透视到最佳透视的转换过程。(3)基于人类表现构建的透视质量评估(PQA)模型。我们的方法简洁,不需要额外的提示指令或相机轨迹,帮助和指导普通用户提高他们的构图技能。

[32] DriveRX:一种用于跨任务自动驾驶的视觉-语言推理模型
标题: DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving
作者: Muxi Diao / Lele Yang / Hongbo Yin / Zhexu Wang / Yejie Wang / Daxin Tian / Kongming Liang / Zhanyu Ma
原文:   [英文]   [中文]  
备注: None
摘要:
自动驾驶需要在感知、预测、规划和行为等方面进行实时且稳健的推理。然而,传统的端到端模型由于缺乏结构化推理,在复杂场景中难以泛化。最近的视觉-语言模型(VLMs)已被应用于驾驶任务,但它们通常依赖于孤立的模块和静态监督,限制了其支持多阶段决策的能力。我们提出了AutoDriveRL,一个将自动驾驶表述为四个核心任务的结构化推理过程的统一训练框架。每个任务被独立建模为一个视觉-语言问答问题,并使用特定任务的奖励模型进行优化,从而在不同的推理阶段提供细粒度的强化信号。在此框架内,我们训练了DriveRX,一个为实时决策设计的跨任务推理VLM。DriveRX在公共基准测试中表现出色,在行为推理方面优于GPT-4o,并在复杂或受损的驾驶条件下表现出稳健性。我们的分析进一步强调了视觉编码器设计和奖励引导的推理压缩的影响。我们将发布AutoDriveRL框架和DriveRX模型以支持未来的研究。

[33] 用于跨域人脸伪造检测的对比去敏学习
标题: Contrastive Desensitization Learning for Cross Domain Face Forgery Detection
作者: Lingyu Qiu / Ke Jiang / Xiaoyang Tan
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们提出了一种新的跨域人脸伪造检测方法,该方法对不同且可能未见过的伪造方法不敏感,同时确保可接受的低误报率。尽管现有的人脸伪造检测方法在某种程度上适用于多个领域,但它们通常伴随着较高的误报率,这会极大地影响系统的可用性。为了解决这个问题,我们提出了一种基于对比去敏化算法的对比去敏化网络(CDN),该算法通过从真实人脸图像对的域转换中学习,捕捉到基本的域特征。CDN 的一个优势在于其学习到的人脸表示在理论上对域变化的鲁棒性具有合理性。对大规模基准数据集的广泛实验表明,与几种最先进的方法相比,我们的方法在提高检测准确率的同时实现了更低的误报率。

[34] 监督对比学习用于序数参与度测量
标题: Supervised Contrastive Learning for Ordinal Engagement Measurement
作者: Sadaf Safa / Ali Abedi / Shehroz S. Khan
原文:   [英文]   [中文]  
备注: 9 pages, 1 figure, 5 tables
摘要:
学生参与度在教育项目的成功实施中起着至关重要的作用。自动化的参与度测量可以帮助教师监控学生的参与情况,识别不参与的现象,并调整他们的教学策略以有效提高学习成果。本文识别了该问题中的两个关键挑战:类别不平衡以及在参与度水平中引入顺序,而不是仅仅将其视为简单的类别。随后,提出了一种新颖的方法,用于在虚拟学习环境中基于视频的学生参与度测量,该方法利用监督对比学习进行参与度的序数分类。从视频样本中提取各种情感和行为特征,并在监督对比学习框架内(以序列分类器作为编码器)用于训练序数分类器。一个关键步骤是对这些特征向量应用多样的时间序列数据增强技术,以增强模型训练。该方法的有效性通过一个公开可用的参与度测量数据集DAiSEE进行了评估,该数据集包含参与虚拟学习项目的学生视频。结果表明,该方法在参与度水平分类方面表现出强大的能力。这一方法有望为理解和提高虚拟学习环境中的学生参与度做出重要贡献。

[35] 通过增量提示调优和内在文本锚点在CLIP上进行持续学习
标题: Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors
作者: Haodong Lu / Xinyu Zhang / Kristen Moore / Jason Xue / Lina Yao / Anton van den Hengel / Dong Gong
原文:   [英文]   [中文]  
备注: Preprint
摘要:
持续学习(CL)使深度网络能够在获取新知识的同时避免灾难性遗忘。预训练模型(PTMs)的强大泛化能力,例如对比语言-图像预训练(CLIP)模型,激发了一系列针对新任务和专门任务的CL方法,提供丰富的多模态嵌入,支持轻量级的增量提示调优。现有方法通常依赖于基于特定假设的复杂设计,例如提示池的复杂正则化方案、专门的路由机制或多阶段增量,这些设计引入了额外且可能不必要的复杂性,未能充分利用CLIP的内在能力。在本文中,我们提出了一种基于增量提示调优的简洁CL方法,充分利用其多模态结构和文本表示的稳定性。我们的方法,文本原型引导的提示调优(TPPT),引入文本原型,不仅仅作为现有方法中的静态分类器,而是作为稳定的锚点来引导视觉提示的学习,从而塑造嵌入空间(即TPPT-V)。我们展示了我们的双向监督策略能够更有效地学习新知识,同时减少遗忘。为了在CL过程中进一步缩小视觉-语言差距,我们联合优化视觉和文本提示(即TPPT-VT)。我们还在文本锚点上引入关系多样性正则化,以防止嵌入空间崩溃并减轻相关遗忘。大量实验和分析证明了我们提出的方法的有效性,突出了利用CLIP内在指导进行持续适应的好处。

[36] VisAlgae 2023:用于显微镜图像中藻类检测的数据集和挑战
标题: VisAlgae 2023: A Dataset and Challenge for Algae Detection in Microscopy Images
作者: Mingxuan Sun / Juntao Jiang / Zhiqiang Yang / Shenao Kong / Jiamin Qi / Jianru Shang / Shuangling Luo / Wanfa Sun / Tianyi Wang / Yanqi Wang / Qixuan Wang / Tingjian Dai / Tianxiang Chen / Jinming Zhang / Xuerui Zhang / Yuepeng He / Pengcheng Fu / Qiu Guan / Shizheng Zhou / Yanbo Yu / Qigui Jiang / Teng Zhou / Liuyong Shi / Hong Yan
原文:   [英文]   [中文]  
备注: None
摘要:
微藻在生态平衡和经济领域中具有重要作用,但由于其多样的大小和状态,检测起来存在挑战。本文总结了第二届“视觉遇见藻类”(VisAlgae 2023)挑战赛,旨在提升高通量微藻细胞检测能力。此次挑战赛吸引了369支参赛队伍,包含一个由六个类别组成的1000张图像的数据集,展示了不同大小和特征的微藻。参赛者面临的任务包括检测小目标、处理运动模糊和复杂背景。本文概述了前10名方法,提供了克服这些挑战和最大化检测准确性的见解。藻类研究与计算机视觉的交叉为生态理解和技术进步带来了希望。数据集可通过以下网址访问:this https URL。

[37] 时间显著性引导的蒸馏:一种用于蒸馏视频数据集的可扩展框架
标题: Temporal Saliency-Guided Distillation: A Scalable Framework for Distilling Video Datasets
作者: Xulin Gu / Xinhao Zhong / Zhixing Wei / Yimin Zhou / Shuoyang Sun / Bin Chen / Hongpeng Wang / Yuan Luo
原文:   [英文]   [中文]  
备注: None
摘要:
数据集蒸馏(DD)已成为数据集压缩的强大范式,使得能够合成紧凑的替代数据集,以近似大规模数据集的训练效用。尽管在图像数据集的蒸馏方面取得了显著进展,但由于视频数据固有的高维性和时间复杂性,将DD扩展到视频领域仍然具有挑战性。现有的视频蒸馏(VD)方法通常面临过高的计算成本,并且难以保持时间动态,因为简单地扩展基于图像的方法通常会导致性能下降。在本文中,我们提出了一种新颖的单层视频数据集蒸馏框架,该框架直接针对预训练模型优化合成视频。为了应对时间冗余并增强运动保留,我们引入了一种时间显著性引导的过滤机制,该机制利用帧间差异来引导蒸馏过程,鼓励保留信息丰富的时间线索,同时抑制帧级冗余。在标准视频基准上的大量实验表明,我们的方法实现了最先进的性能,弥合了真实视频数据和蒸馏视频数据之间的差距,并为视频数据集压缩提供了一种可扩展的解决方案。

[38] 超越熵:用于野外测试时自适应的区域置信度代理
标题: Beyond Entropy: Region Confidence Proxy for Wild Test-Time Adaptation
作者: Zixuan Hu / Yichun Hu / Xiaotong Li / Shixiang Tang / Ling-Yu Duan
原文:   [英文]   [中文]  
备注: Accepted by ICML 2025
摘要:
野外测试时适应(WTTA)被提出用于在极端数据稀缺和多重变化下将源模型适应到未见过的领域。之前的方法主要集中在样本选择策略上,而忽视了底层优化的基本问题。我们首先对WTTA中广泛采用的熵最小化框架进行了批判性分析,揭示了其在噪声优化动态中显著的局限性,这大大阻碍了适应效率。通过我们的分析,我们识别出区域置信度作为传统熵的优越替代方案,然而,其直接优化在实时应用中仍然计算成本过高。在本文中,我们介绍了一种新颖的区域集成方法ReCAP,绕过了冗长的过程。具体来说,我们提出了一种概率区域建模方案,灵活地捕捉嵌入空间中的语义变化。随后,我们开发了一种有限到无限的渐近逼近,将难以处理的区域置信度转化为可处理且有上界的代理。这些创新显著解锁了局部区域中被忽视的潜在动态,以简洁的解决方案。我们的广泛实验表明,ReCAP在各种数据集和野外场景中始终优于现有方法。

[39] 分层指令感知的具身视觉跟踪
标题: Hierarchical Instruction-aware Embodied Visual Tracking
作者: Kui Wu / Hao Chen / Churan Wang / Fakhri Karray / Zhoujun Li / Yizhou Wang / Fangwei Zhong
原文:   [英文]   [中文]  
备注: None
摘要:
用户中心化的具身视觉跟踪(UC-EVT)为基于强化学习的模型提出了一个新的挑战,因为高层次的用户指令与低层次的代理动作之间存在显著差距。尽管最近在语言模型(如LLMs、VLMs、VLAs)方面的进展提高了指令理解能力,但这些模型在UC-EVT任务中面临着推理速度(LLMs、VLMs)或泛化能力(VLAs)方面的关键限制。为了解决这些挑战,我们提出了\textbf{分层指令感知具身视觉跟踪(HIEVT)}代理,它通过使用\textit{空间目标}作为中介来连接指令理解和动作生成。HIEVT首先引入\textit{基于LLM的语义-空间目标对齐器},将多样化的人类指令翻译为直接标注所需空间位置的空间目标。然后,\textit{基于RL的自适应目标对齐策略},一种通用的离线策略,使跟踪器能够根据空间目标指定的位置定位目标。为了对UC-EVT任务进行基准测试,我们收集了超过一千万条轨迹用于训练,并在一个已知环境和九个未知的挑战性环境中进行评估。广泛的实验和实际部署展示了HIEVT在不同环境、变化的目标动态和复杂指令组合中的稳健性和泛化能力。完整项目可在此https URL获取。

[40] MUSEG:通过时间戳感知的多段定位加强视频时间理解
标题: MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding
作者: Fuwen Luo / Shengfeng Lou / Chi Chen / Ziyue Wang / Chenliang Li / Weizhou Shen / Jiyue Guo / Peng Li / Ming Yan / Ji Zhang / Fei Huang / Yang Liu
原文:   [英文]   [中文]  
备注: None
摘要:
视频时间理解对于多模态大语言模型(MLLMs)在视频中进行事件推理至关重要。尽管最近在视频理解方面取得了一些进展,但当前的MLLMs在细粒度时间推理上仍然存在困难。虽然最近有研究探索使用强化学习(RL)来解决这一问题,但现有的RL方法在效果上仍然有限。在这项工作中,我们提出了MUSEG,这是一种新颖的基于RL的方法,通过引入时间戳感知的多段落定位来增强时间理解。MUSEG使MLLMs能够将查询与多个相关的视频片段对齐,从而促进更全面的时间推理。为了促进有效学习,我们设计了一种定制的RL训练方案,采用分阶段奖励逐步引导模型实现时间定位推理。在时间定位和时间敏感的视频问答任务上的大量实验表明,MUSEG显著优于现有方法,并在各种时间理解场景中表现出良好的泛化能力。查看我们的项目请访问此URL。

[41] 视觉语言模型可以成为一个好的助手:通过自我改进的视觉语言模型增强具身视觉跟踪
标题: VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Visual-Language Models
作者: Kui Wu / Shuhang Xu / Hao Chen / Churan Wang / Zhoujun Li / Yizhou Wang / Fangwei Zhong
原文:   [英文]   [中文]  
备注: None
摘要:
我们引入了一种新颖的自我改进框架,该框架通过视觉-语言模型(VLMs)增强了具身视觉跟踪(EVT),以解决当前主动视觉跟踪系统在跟踪失败恢复方面的局限性。我们的方法将现成的主动跟踪方法与VLMs的推理能力相结合,在正常跟踪时部署快速视觉策略,并仅在检测到失败时激活VLM推理。该框架具有一个记忆增强的自我反思机制,使VLM能够通过从过去的经验中学习逐步改进,有效解决VLM在三维空间推理中的局限性。实验结果表明,我们的框架在具有挑战性的环境中将基于RL的最新方法的成功率提高了72%,将基于PID的方法提高了220%。这项工作首次将基于VLM的推理整合到EVT代理中,以协助主动故障恢复,为需要在动态、非结构化环境中持续目标监控的真实世界机器人应用提供了实质性进展。项目网站:this https URL。

[42] LeDiFlow: 通过学习分布引导的流匹配加速图像生成
标题: LeDiFlow: Learned Distribution-guided Flow Matching to Accelerate Image Generation
作者: Pascal Zwick / Nils Friederich / Maximilian Beichter / Lennart Hilbert / Ralf Mikut / Oliver Bringmann
原文:   [英文]   [中文]  
备注: None
摘要:
由于生成高质量图像的迭代特性,提升扩散模型(DMs)效率是一个重大挑战。流匹配(FM)作为一种强大的生成建模范式正在兴起,它基于无模拟的训练目标,而不是DMs中使用的基于评分的目标。典型的FM方法依赖于高斯分布先验,这会在先验和目标数据分布之间引入弯曲的条件概率路径。这些弯曲路径对常微分方程(ODE)求解器构成挑战,需要大量的推理调用来预测流动网络。为了解决这个问题,我们提出了学习分布引导的流匹配(LeDiFlow),这是一种新颖的可扩展方法,用于通过回归辅助模型学习的更合适的先验分布来训练基于FM的图像生成模型。通过用更接近目标数据分布的先验初始化ODE求解器,LeDiFlow能够学习更具计算可行性的概率路径。这些路径直接转化为推理时生成高质量图像所需的求解步骤更少。我们的方法利用了最先进的(SOTA)变压器架构,结合潜在空间采样,并可以在消费级工作站上进行训练。我们通过实验证明,LeDiFlow显著优于相应的FM基线。例如,当直接在像素上操作时,我们的模型相比于相应的像素空间基线加速推理最多可达3.75倍。同时,我们的潜在FM模型在CLIP最大均值差异(CMMD)指标上平均提高了1.32倍的图像质量,相较于其相应的基线。

[43] Intern-GS:视觉模型引导的稀疏视图三维高斯喷溅
标题: Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting
作者: Xiangyu Sun / Runnan Chen / Mingming Gong / Dong Xu / Tongliang Liu
原文:   [英文]   [中文]  
备注: None
摘要:
稀疏视图场景重建由于观测数据有限的限制,通常面临显著的挑战。这些限制导致信息不完整,使用现有方法进行的重建效果不佳。为了解决这个问题,我们提出了Intern-GS,这是一种新颖的方法,能够有效利用视觉基础模型的丰富先验知识来增强稀疏视图高斯点云的过程,从而实现高质量的场景重建。具体来说,Intern-GS利用视觉基础模型来指导3D高斯点云的初始化和优化过程,有效解决稀疏输入的局限性。在初始化过程中,我们的方法使用DUSt3R生成密集且无冗余的高斯点云。这种方法显著缓解了传统结构从运动(SfM)方法在稀疏视图限制下常遇到的局限性。在优化过程中,视觉基础模型预测未观测视图的深度和外观,细化3D高斯以补偿未见区域中的缺失信息。大量实验表明,Intern-GS在各种数据集上实现了最先进的渲染质量,包括前向视图和大规模场景,如LLFF、DTU和Tanks and Temples。

[44] MoPFormer:用于可穿戴传感器活动识别的运动原语变换器
标题: MoPFormer: Motion-Primitive Transformer for Wearable-Sensor Activity Recognition
作者: Hao Zhang / Zhan Zhuang / Xuehao Wang / Xiaodong Yang / Yu Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
利用可穿戴传感器进行人体活动识别(HAR)面临着有限的可解释性挑战,这对跨数据集的泛化能力产生了显著影响。为了解决这一挑战,我们提出了运动原语变换器(MoPFormer),这是一种新颖的自监督框架,通过将惯性测量单元信号标记为语义上有意义的运动原语来增强可解释性,并利用变换器架构学习丰富的时间表示。MoPFormer包括两个阶段。第一阶段是将多通道传感器流划分为短段,并将其量化为离散的“运动原语”码字,而第二阶段通过上下文感知嵌入模块丰富这些标记序列,然后用变换器编码器处理它们。所提出的MoPFormer可以通过重建缺失原语的掩码运动建模目标进行预训练,使其能够在不同的传感器配置中开发出稳健的表示。在六个HAR基准测试上的实验表明,MoPFormer不仅优于最先进的方法,而且能够成功地跨多个数据集进行泛化。最重要的是,学习到的运动原语通过捕捉基本的运动模式显著增强了可解释性和跨数据集性能,这些模式在相似活动中保持一致,无论数据集来源如何。

[45] 理解、思考与回答:通过大型多模态模型推进视觉推理
标题: Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models
作者: Yufei Zhan / Hongyin Zhao / Yousong Zhu / Shurong Zheng / Fan Yang / Ming Tang / Jinqiao Wang
原文:   [英文]   [中文]  
备注: Tech report
摘要:
大型多模态模型(LMMs)最近在视觉-语言和以视觉为中心的任务中展示了显著的视觉理解性能。然而,它们在整合高级、特定任务的组合推理能力方面往往表现不足,这阻碍了它们向真正有能力的通用视觉模型的进步。为了解决这个问题,我们提出了一种统一的视觉推理机制,使LMMs能够利用其内在能力(例如,定位和视觉理解能力)解决复杂的组合问题。与之前的捷径学习机制不同,我们的方法引入了一种类似人类的理解-思考-回答过程,使模型能够在单次前向传递中完成所有步骤,而无需多次推理或外部工具。该设计弥合了基础视觉能力与通用问答之间的差距,鼓励LMMs为复杂的视觉推理生成真实且可追溯的响应。同时,我们策划了334K个视觉指令样本,涵盖一般场景和文本丰富场景,并涉及多种基础视觉能力。我们训练的模型Griffon-R具备端到端的自动理解、自我思考和推理回答的能力。综合实验表明,Griffon-R不仅在复杂视觉推理基准(包括VSR和CLEVR)上取得了先进的性能,还增强了在各种基准(如MMBench和ScienceQA)上的多模态能力。数据、模型和代码将很快在此https URL发布。

[46] PARTONOMY:具有部件级视觉理解的大型多模态模型
标题: PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding
作者: Ansel Blume / Jeonghwan Kim / Hyeonjeong Ha / Elen Chatikyan / Xiaomeng Jin / Khanh Duy Nguyen / Nanyun Peng / Kai-Wei Chang / Derek Hoiem / Heng Ji
原文:   [英文]   [中文]  
备注: 18 pages
摘要:
现实世界的物体由独特的、特定于物体的部分组成。识别这些部分是进行细粒度、组合推理的关键,然而,大型多模态模型(LMMs)在执行这一看似简单的任务时却面临困难。在这项工作中,我们引入了PARTONOMY,这是一个为像素级部分定位设计的LMM基准。我们从现有的部分数据集和我们自己严格标注的图像集中构建了PARTONOMY,涵盖了862个部分标签和534个物体标签用于评估。与现有数据集仅要求模型识别通用部分不同,PARTONOMY使用专门的概念(例如,农业飞机),并挑战模型比较物体的部分,考虑部分与整体的关系,并通过视觉分割来证明文本预测的合理性。我们的实验表明,最先进的LMMs(例如,LISA-13B仅达到5.9%的gIoU)存在显著的局限性,突显了它们在部分定位能力上的关键差距。我们注意到,现有的支持分割的LMMs(分割LMMs)在架构上有两个关键缺陷:它们使用在预训练期间未见过的特殊[SEG]标记,导致分布偏移,并且它们丢弃预测的分割,而不是利用过去的预测来指导未来的预测。为了解决这些缺陷,我们训练了几个以部分为中心的LMMs,并提出了PLUM,这是一种新颖的分割LMM,它使用跨度标记代替分割标记,并在反馈循环中以先前的预测为条件。我们发现,预训练的PLUM在推理分割、视觉问答(VQA)和视觉幻觉基准上优于现有的分割LMMs。此外,在我们提出的解释性部分分割任务上微调的PLUM与在显著更多分割数据上训练的分割LMMs具有竞争力。我们的工作为在LMMs中实现细粒度、扎实的视觉理解开辟了新的途径。

[47] ConText-CIR:从文本中的概念学习以进行组合图像检索
标题: ConText-CIR: Learning from Concepts in Text for Composed Image Retrieval
作者: Eric Xing / Pranavi Kolouju / Robert Pless / Abby Stylianou / Nathan Jacobs
原文:   [英文]   [中文]  
备注: 15 pages, 8 figures, 6 tables. CVPR 2025
摘要:
组合图像检索(CIR)是一项通过查询图像和描述查询图像语义修改的相对文本来检索目标图像的任务。现有的CIR方法在准确表示图像和文本修改方面存在困难,导致表现不佳。为了解决这一限制,我们引入了一个CIR框架,ConText-CIR,该框架通过训练一个文本概念一致性损失来鼓励文本修改中的名词短语更好地关注查询图像的相关部分。为了支持使用此损失函数进行训练,我们还提出了一种合成数据生成管道,该管道从现有的CIR数据集或未标记的图像中创建训练数据。我们展示了这些组件共同提高了CIR任务的性能,在多个基准数据集上,包括CIRR和CIRCO,在监督和零样本设置中设定了组合图像检索的新技术标准。源代码、模型检查点和我们的新数据集可在此https URL获取。

[48] MetaSlot:突破面向对象学习中固定数量的槽位限制
标题: MetaSlot: Break Through the Fixed Number of Slots in Object-Centric Learning
作者: Hongjia Liu / Rongzhen Zhao / Haohan Chen / Joni Pajarinen
原文:   [英文]   [中文]  
备注: None
摘要:
学习对象级的结构化表示被广泛认为是提升视觉泛化能力的关键,并且是下一代预训练视觉模型(PVMs)设计的基础。主流的以对象为中心的学习(OCL)方法采用Slot Attention或其变体,将对象的超像素迭代聚合到一组固定的查询特征向量中,称为槽。然而,它们对静态槽数量的依赖导致在对象数量变化时,一个对象被表示为多个部分。我们引入了MetaSlot,这是一种即插即用的Slot Attention变体,可以适应可变的对象数量。MetaSlot (i) 通过对生成的槽表示进行矢量量化,维护一个包含数据集中对象原型的代码簿;(ii) 通过使用代码簿对传统聚合的槽进行量化,去除重复的槽;(iii) 在Slot Attention迭代中逐步注入较弱的噪声,以加速和稳定聚合。MetaSlot是一种通用的Slot Attention变体,可以无缝集成到现有的OCL架构中。在多个公共数据集和任务中——包括对象发现和识别——配备MetaSlot的模型相比现有的Slot Attention变体,取得了显著的性能提升和显著可解释的槽表示。

[49] TACO:通过在大型视觉语言模型中使用强化学习实现优化的长链推理和高效数据学习的思考-回答一致性
标题: TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs
作者: Zhehan Kan / Yanlin Liu / Kun Yin / Xinghua Jiang / Xin Li / Haoyu Cao / Yinsong Liu / Deqiang Jiang / Xing Sun / Qingmin Liao / Wenming Yang
原文:   [英文]   [中文]  
备注: None
摘要:
DeepSeek R1 在大型语言模型(LLMs)的复杂推理方面取得了显著进展。尽管最近的方法试图在多模态环境中复制 R1 的推理能力,但它们面临一些限制,包括推理与最终答案之间的不一致、模型在长链探索期间的不稳定性和崩溃,以及数据学习效率低下。为了解决这些挑战,我们提出了 TACO,这是一种用于视觉推理的新型强化学习算法。基于广义强化策略优化(GRPO),TACO 引入了思考-回答一致性,将推理与答案一致性紧密结合,以确保答案基于深思熟虑的推理。我们还引入了回滚重采样策略,该策略自适应地移除有问题的样本并将其重新引入采样器,从而实现稳定的长链探索和未来的学习机会。此外,TACO 采用自适应学习计划,专注于中等难度的样本,以优化数据效率。此外,我们提出了测试时分辨率缩放方案,以解决由于推理期间分辨率变化导致的性能下降,同时平衡计算开销。在 REC 和 VQA 任务的分布内和分布外基准测试中,大量实验表明,微调 LVLMs 可显著提高性能。

[50] 打破数据集界限:无类别限制的目标对抗攻击
标题: Breaking Dataset Boundaries: Class-Agnostic Targeted Adversarial Attacks
作者: Taïga Gonçalves / Tomo Miyazaki / Shinichiro Omachi
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了跨域多目标攻击(CD-MTA),这是一种生成对抗样本的方法,可以误导图像分类器指向任何目标类别,包括训练期间未见过的类别。传统的目标攻击仅限于每个模型一个类别,需要为每个目标进行昂贵的重新训练。多目标攻击通过引入一个带有条件输入的扰动生成器来指定目标类别,从而解决了这个问题。然而,现有方法仅限于训练期间观察到的类别,并且需要访问黑箱模型的训练数据——这引入了一种数据泄漏形式,削弱了在实际黑箱场景中的真实评估。我们识别出对类别嵌入的过度依赖是一个关键限制,导致过拟合和对未见类别的泛化能力差。为了解决这个问题,CD-MTA用基于图像的条件输入替代了类别级别的监督,并引入了在特征空间中对齐扰动图像和目标图像的无类别损失。这种设计消除了对类别语义的依赖,从而实现了跨数据集对未见类别的泛化。在ImageNet和其他七个数据集上的实验表明,CD-MTA在标准和跨域设置中均优于先前的多目标攻击——无需访问黑箱模型的训练数据。

[51] 将中间层优化与投影梯度下降相结合以利用扩散模型解决逆问题
标题: Integrating Intermediate Layer Optimization and Projected Gradient Descent for Solving Inverse Problems with Diffusion Models
作者: Yang Zheng / Wen Li / Zhaoqiang Liu
原文:   [英文]   [中文]  
备注: ICML 2025
摘要:
逆问题(IPs)涉及从噪声观测中重建信号。传统方法通常依赖于手工设计的先验,这可能无法捕捉真实世界数据的复杂性。预训练生成模型的出现引入了新的范式,通过从数据中学习丰富的先验来提供更好的重建效果。在这些模型中,扩散模型(DMs)作为一个强大的框架,在众多逆问题中实现了显著的重建性能。然而,现有的基于DM的方法经常遇到诸如计算需求高和收敛性不佳等问题。在这项工作中,基于最近的工作DMPlug~\cite{wang2024dmplug}的理念,我们提出了两种新方法,DMILO和DMILO-PGD,以应对这些挑战。我们的第一个方法,DMILO,采用中间层优化(ILO)来缓解DMPlug固有的内存负担。此外,通过引入稀疏偏差,我们扩展了DMs的范围,使得可以探索可能位于扩散模型范围之外的潜在信号。我们进一步提出了DMILO-PGD,它将ILO与投影梯度下降(PGD)相结合,从而降低了次优收敛的风险。我们在适当条件下对我们的方法进行了直观的理论分析,并通过在多样化图像数据集上的广泛实验验证了其优越性,这些数据集涵盖了线性和非线性逆问题。我们的结果显示出相对于最先进方法的显著性能提升,突显了DMILO和DMILO-PGD在解决基于DM的逆问题求解器常见挑战中的有效性。

[52] 面向渲染的矢量图形生成强化学习
标题: Rendering-Aware Reinforcement Learning for Vector Graphics Generation
作者: Juan A. Rodriguez / Haotian Zhang / Abhay Puri / Aarash Feizi / Rishav Pramanik / Pascal Wichmann / Arnab Mondal / Mohammad Reza Samsami / Rabiul Awal / Perouz Taslakian / Spandana Gella / Sai Rajeswar / David Vazquez / Christopher Pal / Marco Pedersoli
原文:   [英文]   [中文]  
备注: None
摘要:
可缩放矢量图形(SVG)提供了一种强大的格式,可以将视觉设计表示为可解释的代码。最近在视觉语言模型(VLMs)方面的进展,通过将问题框定为代码生成任务并利用大规模预训练,实现了高质量的SVG生成。VLMs特别适合这一任务,因为它们能够捕捉全局语义和细粒度的视觉模式,同时在视觉、自然语言和代码领域之间转移知识。然而,现有的VLM方法通常难以生成忠实且高效的SVG,因为它们在训练期间从未观察到渲染的图像。尽管自回归SVG代码生成的可微渲染仍不可用,但渲染的输出仍可以与原始输入进行比较,从而提供适合强化学习(RL)的评估反馈。我们引入了RLRF(来自渲染反馈的强化学习),这是一种通过利用渲染SVG输出的反馈来增强自回归VLMs中SVG生成的RL方法。给定一个输入图像,模型生成SVG展开,这些展开被渲染并与原始图像进行比较以计算奖励。这种视觉保真度反馈引导模型生成更准确、高效且语义一致的SVG。RLRF显著优于监督微调,解决了常见的失败模式,并通过强大的结构理解和泛化能力实现了精确、高质量的SVG生成。

[53] 并非所有稀有的东西都消失了:稀有概念合成的因果路径
标题: Not All Thats Rare Is Lost: Causal Paths to Rare Concept Synthesis
作者: Bo-Kai Ruan / Zi-Xiang Ni / Bo-Lun Huang / Teng-Fang Hsiao / Hong-Han Shuai
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型在高保真图像生成方面表现出强大的能力,但在合成稀有概念时常常表现不佳,即在训练分布中不常见的提示。在本文中,我们介绍了RAP,这是一种将稀有概念生成视为导航潜在因果路径的原则性框架:从常见概念到稀有目标的生成空间中的渐进、模型对齐的轨迹。我们不是依赖于启发式的提示替换,而是从理论上证明稀有提示引导可以通过语义相关的常见提示来近似。然后,我们将提示切换公式化为基于分数相似性的动态过程,从而实现自适应阶段转换。此外,我们将提示替换重新解释为一种二阶去噪机制,促进平滑的语义进展和连贯的视觉合成。通过这种因果视角,我们将输入调度与模型的内部生成动态对齐。跨多种扩散骨干的实验表明,RAP在稀有概念生成方面始终表现出色,在自动评估和人工研究中均优于强基线。

[54] 用于复杂多场景长视频生成的帧级字幕
标题: Frame-Level Captions for Long Video Generation with Complex Multi Scenes
作者: Guangcong Zheng / Jianlong Yuan / Bo Wang / Haoyang Huang / Guoqing Ma / Nan Duan
原文:   [英文]   [中文]  
备注: None
摘要:
生成能够展示复杂故事的长视频,例如从剧本中生成电影场景,具有很大的潜力,并且比短片提供了更多的内容。然而,当前使用扩散模型进行自回归的方法往往会遇到困难,因为它们的逐步处理过程自然会导致严重的误差累积(漂移)。此外,许多现有的长视频生成方法集中于单一的连续场景,使得它们在处理包含多个事件和变化的故事时不太实用。本文介绍了一种新的方法来解决这些问题。首先,我们提出了一种新颖的方法,在帧级别对数据集进行标注,提供制作复杂、多场景长视频所需的详细文本指导。这种详细的指导与帧级注意机制相结合,以确保文本和视频精确匹配。一个关键特征是,这些窗口中的每个部分(帧)都可以由其独特的文本提示进行指导。我们的训练使用扩散强制技术,使模型能够灵活地处理时间。我们在基于WanX2.1-T2V-1.3B模型的困难VBench 2.0基准测试(“复杂情节”和“复杂景观”)上测试了我们的方法。结果表明,我们的方法在遵循复杂变化场景中的指令方面表现更好,并且能够创建高质量的长视频。我们计划与研究社区分享我们的数据集标注方法和训练模型。项目页面:this https URL。

[55] 基于因果关系的红外与可见光图像融合
标题: Causality-Driven Infrared and Visible Image Fusion
作者: Linli Ma / Suzhen Lin / Jianchao Zeng / Zanxia Jin / Yanbo Wang / Fengyuan Li / Yubing Luo
原文:   [英文]   [中文]  
备注: None
摘要:
图像融合旨在结合来自多个源图像的互补信息,以生成更全面的场景表示。现有方法主要依赖于网络架构的堆叠和设计来增强融合性能,往往忽略了数据集场景偏差对模型训练的影响。这种忽视导致模型在传统似然估计框架下学习特定场景与融合权重之间的虚假关联,从而限制了融合性能。为了解决上述问题,本文首先从因果关系的角度重新审视图像融合任务,并通过构建量身定制的因果图来理清图像融合任务中变量之间的因果关系,从而使模型摆脱偏差的影响。然后,提出了基于后门调整的特征融合模块(BAFFM),以消除混杂干扰,使模型能够学习真实的因果效应。最后,在三个标准数据集上的广泛实验证明,所提出的方法在红外和可见光图像融合方面显著超越了最新的先进方法。

[56] 用于统一帧-事件目标跟踪的全脉冲神经网络
标题: Fully Spiking Neural Networks for Unified Frame-Event Object Tracking
作者: Jingjun Yang / Liangwei Fan / Jinpu Zhang / Xiangkai Lian / Hui Shen / Dewen Hu
原文:   [英文]   [中文]  
备注: 13 pages,6 figures,4 tables
摘要:
图像和事件流的整合为在复杂环境中实现稳健的视觉目标跟踪提供了一种有前途的方法。然而,目前的融合方法在实现高性能的同时,付出了显著的计算开销,并且难以有效提取事件流中的稀疏、异步信息,未能充分利用事件驱动尖峰范式的节能优势。为了解决这一挑战,我们提出了第一个完全尖峰帧事件跟踪框架,称为SpikeFET。该网络在尖峰范式内实现了卷积局部特征提取和基于Transformer的全局建模的协同整合,有效地融合了帧和事件数据。为克服卷积填充导致的平移不变性退化,我们引入了一个随机拼贴模块(RPM),通过随机空间重组和可学习的类型编码消除位置偏差,同时保留残差结构。此外,我们提出了一种时空正则化(STR)策略,通过在潜在空间中强制时间模板特征的时空一致性,克服了由不对称特征导致的相似性度量退化。跨多个基准的广泛实验表明,所提出的框架在显著降低功耗的同时,达到了优于现有方法的跟踪精度,实现了性能与效率之间的最佳平衡。代码将会发布。

[57] ProBA:基于Bhattacharyya系数的概率束调整
标题: ProBA: Probabilistic Bundle Adjustment with the Bhattacharyya Coefficient
作者: Jason Chui / Daniel Cremers
原文:   [英文]   [中文]  
备注: 15 pages, 14 figures, 5 tables
摘要:
经典的捆绑调整(BA)方法需要准确的初始估计才能收敛,并且通常假设已知的相机内参,这限制了它们在信息不确定或不可用时的适用性。我们提出了一种新的概率捆绑调整(ProBA)方法,该方法明确地对2D观测和3D场景结构中的不确定性进行建模和传播,从而能够在没有任何相机姿态或焦距的先验知识的情况下进行优化。我们的方法使用3D高斯而不是点状地标,并通过将3D高斯投影到2D图像空间来引入不确定性感知的重投影损失,并使用Bhattacharyya系数在多个3D高斯之间强制几何一致性,以鼓励它们对应的高斯分布之间的重叠。这种概率框架即使在对应集存在异常值的情况下,也能实现更稳健和可靠的优化,减少收敛到较差局部极小值的可能性。实验结果表明,ProBA在具有挑战性的现实条件下优于传统方法。通过消除对强初始化和已知内参的需求,ProBA增强了在非结构化环境中部署的SLAM系统的实用性。

[58] 探索面部运动生成的时间线控制
标题: Exploring Timeline Control for Facial Motion Generation
作者: Yifeng Ma / Jinwei Qi / Chaonan Ji / Peng Zhang / Bang Zhang / Zhidong Deng / Liefeng Bo
原文:   [英文]   [中文]  
备注: Accepted by CVPR 2025, Project Page: this https URL
摘要:
本文介绍了一种用于面部动作生成的新控制信号:时间线控制。与音频和文本信号相比,时间线提供了更细粒度的控制,例如生成具有精确时序的特定面部动作。用户可以指定一个由面部动作组成的多轨时间线,并按时间间隔排列,从而精确控制每个动作的时序。为了建模时间线控制能力,我们首先在自然面部动作序列中以帧级粒度标注面部动作的时间间隔。这个过程通过基于Toeplitz逆协方差的聚类来减少人工劳动。基于这些标注,我们提出了一种基于扩散的生成模型,能够生成自然且与输入时间线精确对齐的面部动作。我们的方法支持通过使用ChatGPT将文本转换为时间线的文本引导动作生成。实验结果表明,我们的方法可以以令人满意的准确性标注面部动作间隔,并生成与时间线精确对齐的自然面部动作。

[59] AVCD:通过对比解码缓解音视频大语言模型中的幻觉
标题: AVCD: Mitigating Hallucinations in Audio-Visual Large Language Models through Contrastive Decoding
作者: Chaeyoung Jung / Youngjoon Jang / Joon Son Chung
原文:   [英文]   [中文]  
备注: None
摘要:
幻觉仍然是多模态大型语言模型(MLLMs)中的一个主要挑战。为了解决这个问题,各种对比解码(CD)方法被提出,这些方法通过对比原始logits与从扰动输入生成的幻觉logits来进行处理。虽然CD在视觉-语言模型(VLMs)中显示出希望,但它并不适合音频-视觉大型语言模型(AV-LLMs),因为幻觉通常来自于音频、视频和语言之间的单模态和跨模态组合。这些复杂的交互需要一种更具适应性和模态感知的解码策略。在本文中,我们提出了音频-视觉对比解码(AVCD)——一种新颖的、无需训练的解码框架,旨在建模三模态交互并抑制AV-LLMs中的模态诱导幻觉。与之前在VLMs中的CD方法固定破坏某一模态不同,AVCD利用注意力分布动态识别较不占优势的模态,并应用注意力掩码生成扰动输出logits。为了在三模态环境中支持CD,我们还重新制定了原始CD框架,以共同处理音频、视觉和文本输入。最后,为了提高效率,我们引入了熵引导的自适应解码,根据模型对其预测的信心选择性地跳过不必要的解码步骤。大量实验表明,AVCD始终优于现有的解码方法。特别是在AVHBench数据集上,它将VideoLLaMA2的准确率提高了6%,将video-SALMONN的准确率提高了11%,展示了强大的鲁棒性和泛化能力。

[60] 使用视觉变换器进行上下文学习:案例研究
标题: In Context Learning with Vision Transformers: Case Study
作者: Antony Zhao / Alex Proshkin / Fergal Hennessy / Francesco Crivelli
原文:   [英文]   [中文]  
备注: 12 pages, 16 figures. UC Berkeley research project
摘要:
大型Transformer模型已经被证明能够进行上下文学习。通过在提示中使用示例以及查询,它们能够执行诸如少样本学习、单样本学习或零样本学习等任务,以输出与该查询相对应的答案。我们感兴趣的一个领域是,这些Transformer模型已经被证明能够在随机数据上学习某些函数的一般类别,例如线性函数和小型两层神经网络(Garg等,2023)。我们旨在将这一能力扩展到图像空间,以分析它们在图像空间中进行上下文学习更复杂函数的能力,例如卷积神经网络和其他方法。

[61] 分叉-合并解码:增强音视频大语言模型的多模态理解
标题: Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models
作者: Chaeyoung Jung / Youngjoon Jang / Jongmin Choi / Joon Son Chung
原文:   [英文]   [中文]  
备注: None
摘要:
这项工作的目标是通过解决模态偏差来增强音频-视觉大型语言模型(AV-LLMs)的平衡多模态理解,而无需额外的训练。在当前的AV-LLMs中,音频和视频特征通常在解码器中联合处理。虽然这种策略促进了统一的多模态理解,但可能会引入模态偏差,即由于训练信号不平衡,模型倾向于过度依赖某一种模态。为了解决这个问题,我们提出了分叉-合并解码(FMD),这是一种简单而有效的推理时策略,不需要额外的训练或架构修改。FMD首先通过早期解码器层(分叉阶段)处理仅音频和仅视频输入进行模态特定推理,然后在剩余层中合并所得的隐藏状态进行联合推理(合并阶段)。这种方法促进了模态贡献的平衡,并利用跨模态的互补信息。我们在两个具有代表性的AV-LLMs,VideoLLaMA2和video-SALMONN上使用三个基准数据集评估我们的方法。实验结果表明,在专注于音频、视频和音频-视觉联合推理的任务上,性能持续改善,证明了推理时干预对于稳健的多模态理解的有效性。

[62] 利用深度学习从机载SAR图像进行立体雷达测量
标题: Stereo Radargrammetry Using Deep Learning from Airborne SAR Images
作者: Tatsuya Sasayama / Shintaro Ito / Koichi Ito / Takafumi Aoki
原文:   [英文]   [中文]  
备注: 5 pages, 5 figures, conference IGARSS2025
摘要:
在本文中,我们提出了一种使用深度学习的立体雷达测高方法,该方法基于机载合成孔径雷达(SAR)。深度学习方法被认为在几何图像调制方面受影响较小,但目前没有用于训练此类方法的公开SAR图像数据集。我们创建了一个SAR图像数据集,并对基于深度学习的图像对应性进行了微调。所提出的方法通过不对SAR图像进行地面投影的像素插值来抑制图像质量的下降,并将SAR图像划分为小块进行处理,这使得应用深度学习成为可能。在一系列实验中,我们证明了所提出的方法相比传统方法具有更广泛和更精确的高程测量能力。

[63] YOLO-FireAD:通过注意力引导的反向残差学习和双池化特征保留实现高效火灾检测
标题: YOLO-FireAD: Efficient Fire Detection via Attention-Guided Inverted Residual Learning and Dual-Pooling Feature Preservation
作者: Weichao Pan / Bohan Xu / Xu Wang / Chengze Lv / Shuoyang Wang / Zhenke Duan
原文:   [英文]  
备注: None
摘要:
在动态环境中进行火灾检测面临着持续的挑战,包括光照变化的干扰、许多误检或漏检,以及难以同时实现效率和准确性。为了解决现有基于YOLO模型的特征提取限制和信息丢失问题,本研究提出了一种用于火灾检测的YOLO-FireAD模型,该模型具有注意力引导的倒残差和双池缩放融合两个核心创新:(1) 注意力引导的倒残差块(AIR)将混合通道-空间注意力与倒残差相结合,自适应地增强火灾特征并抑制环境噪声;(2) 双池缩放融合块(DPDF)通过最大-平均池化输出的可学习融合来保留多尺度火灾模式,减轻小火灾检测失败的问题。在两个公共数据集上的广泛评估显示了我们模型的高效性能。我们提出的模型保持了参数总量(1.45M,比YOLOv8n低51.8%)(4.6G,比YOLOv8n低43.2%),并且mAP75比主流实时目标检测模型YOLOv8n、YOLOv9t、YOLOv10n、YOLO11n、YOLOv12n和其他YOLOv8变体高出1.3-5.5%。

[64] 压缩和领域自适应神经网络的频率组成
标题: Frequency Composition for Compressed and Domain-Adaptive Neural Networks
作者: Yoojin Kwon / Hongjun Suh / Wooseok Lee / Taesik Gong / Songyi Han / Hyung-Sin Kim
原文:   [英文]   [中文]  
备注: Work in progress
摘要:
现代设备上的神经网络应用必须在资源受限的情况下运行,同时适应不可预测的领域变化。然而,这种结合的挑战——模型压缩和领域适应——仍然基本未被解决,因为之前的工作通常是单独处理每个问题:压缩网络在固定领域内优先考虑效率,而大型、功能强大的模型则专注于处理领域变化。在这项工作中,我们提出了CoDA,一种基于频率组合的框架,统一了压缩和领域适应。在训练期间,CoDA采用量化感知训练(QAT)与低频组件,使压缩模型能够选择性地学习稳健、可推广的特征。在测试时,它以无源方式(即测试时适应,TTA)优化紧凑模型,利用来自输入数据的全频信息适应目标领域,同时将高频组件视为领域特定的线索。低频组件与训练分布对齐,而目标分布特有的高频组件仅用于批归一化。CoDA可以协同集成到现有的QAT和TTA方法中。CoDA在广泛使用的领域变化基准上进行了评估,包括CIFAR10-C和ImageNet-C,涵盖各种模型架构。在显著压缩的情况下,它在CIFAR10-C上比全精度TTA基线提高了7.96个百分点的准确率,在ImageNet-C上提高了5.37个百分点。

[65] 从左脑到右脑的跨越:用于视觉与语言导航的自适应文本梦境生成器
标题: Cross from Left to Right Brain: Adaptive Text Dreamer for Vision-and-Language Navigation
作者: Pingrui Zhang / Yifei Su / Pengyuan Wu / Dong An / Li Zhang / Zhigang Wang / Dong Wang / Yan Ding / Bin Zhao / Xuelong Li
原文:   [英文]   [中文]  
备注: None
摘要:
视觉与语言导航(Vision-and-Language Navigation, VLN)要求智能体在部分可观测的环境下通过遵循自然语言指令进行导航,这使得感知与语言的对齐变得困难。最近的方法通过想象未来场景来缓解这一问题,但它们依赖于基于视觉的合成,导致高计算成本和冗余细节。为此,我们提出通过\textit{语言}形式自适应地想象关键的环境语义,从而实现更可靠和高效的策略。具体来说,我们引入了一种新颖的自适应文本梦想者(Adaptive Text Dreamer, ATD),这是一种基于大型语言模型(LLM)的双分支自引导想象策略。ATD采用类似人类的左右脑架构设计,其中左脑专注于逻辑整合,右脑负责对未来场景的想象性预测。为实现这一点,我们仅微调两个大脑中的Q-former,以高效激活LLM中的领域特定知识,从而在导航过程中动态更新逻辑推理和想象。此外,我们引入了一种交叉交互机制,以规范想象输出并将其注入导航专家模块,使ATD能够共同利用LLM的推理能力和导航模型的专业知识。我们在R2R基准上进行了广泛的实验,其中ATD以更少的参数实现了最先进的性能。代码可以在\href{this https URL}{这里}找到。

[66] HTMNet:一种具有Transformer-Mamba瓶颈多模态融合的混合网络,用于透明和反射物体的深度补全
标题: HTMNet: A Hybrid Network with Transformer-Mamba Bottleneck Multimodal Fusion for Transparent and Reflective Objects Depth Completion
作者: Guanghu Xie / Yonglong Zhang / Zhiduo Jiang / Yang Liu / Zongwu Xie / Baoshi Cao / Hong Liu
原文:   [英文]   [中文]  
备注: None
摘要:
透明和反射物体对深度传感器构成了重大挑战,导致深度信息不完整,从而对后续的机器人感知和操作任务产生不利影响。为了解决这个问题,我们提出了HTMNet,这是一种结合了Transformer、CNN和Mamba架构的新型混合模型。编码器基于双分支的Transformer-CNN框架构建,而多尺度融合模块利用了Transformer-Mamba架构,这也为解码器设计奠定了基础。我们引入了一种基于自注意力机制和状态空间模型的新型多模态融合模块,这是Mamba架构首次应用于透明物体深度补全领域,并展示了其潜在的前景。此外,我们为解码器设计了一种创新的多尺度融合模块,该模块结合了通道注意力、空间注意力和多尺度特征提取技术,通过下融合策略有效整合多尺度特征。在多个公共数据集上的广泛评估表明,我们的模型达到了当前最先进的性能,验证了我们方法的有效性。

[67] 随心创作:面向多主体的布局可控个性化扩散模型
标题: Create Anything Anywhere: Layout-Controllable Personalized Diffusion Model for Multiple Subjects
作者: Wei Li / Hebei Li / Yansong Peng / Siying Wu / Yueyi Zhang / Xiaoyan Sun
原文:   [英文]   [中文]  
备注: ICME 2025
摘要:
扩散模型在文本到图像生成方面取得了显著进展,为个性化生成框架的发展奠定了基础。然而,现有方法缺乏精确的布局可控性,并忽视了参考主体动态特征在提高保真度方面的潜力。在这项工作中,我们提出了布局可控个性化扩散(LCP-Diffusion)模型,这是一种新颖的框架,将主体身份保留与灵活的布局指导相结合,并采用无调优的方法。我们的模型采用动态-静态互补视觉精炼模块,以全面捕捉参考主体的复杂细节,并引入双布局控制机制,以在训练和推理阶段实施强大的空间控制。大量实验验证了LCP-Diffusion在身份保留和布局可控性方面的卓越表现。据我们所知,这是首个使用户能够“在任何地方创造任何东西”的开创性工作。

[68] 几何可编辑且外观保持的对象合成
标题: Geometry-Editable and Appearance-Preserving Object Compositon
作者: Jianman Lin / Haojie Li / Chunmei Qing / Zhijing Yang / Liang Lin / Tianshui Chen
原文:   [英文]   [中文]  
备注: None
摘要:
一般物体合成(GOC)旨在将目标物体无缝地集成到背景场景中,同时具备所需的几何属性,并保留其细致的外观细节。最近的方法通过推导语义嵌入并将其集成到先进的扩散模型中,以实现几何可编辑的生成。然而,这些高度紧凑的嵌入仅编码高级语义线索,不可避免地丢弃了细致的外观细节。我们引入了一种解耦的几何可编辑和外观保留扩散(DGAD)模型,该模型首先利用语义嵌入来隐式捕捉所需的几何变换,然后采用交叉注意力检索机制,将细致的外观特征与几何编辑表示对齐,促进物体合成中的精确几何编辑和真实外观保留。具体而言,DGAD基于CLIP/DINO派生和参考网络提取语义嵌入和外观保留表示,然后以解耦的方式将其无缝集成到编码和解码流程中。我们首先将语义嵌入集成到预训练的扩散模型中,这些模型表现出强大的空间推理能力,以隐式捕捉物体几何,从而促进灵活的物体操作并确保有效的可编辑性。然后,我们设计了一种密集的交叉注意力机制,利用隐式学习的物体几何来检索和空间对齐外观特征与其对应的区域,确保真实的外观一致性。在公共基准上的大量实验验证了所提出的DGAD框架的有效性。

[69] HuMoCon:用于人类运动理解的概念发现
标题: HuMoCon: Concept Discovery for Human Motion Understanding
作者: Qihang Fang / Chengcheng Tang / Bugra Tekin / Shugao Ma / Yanchao Yang
原文:   [英文]  
备注: 18 pages, 10 figures
摘要:
我们介绍了HuMoCon,这是一种新颖的运动视频理解框架,旨在进行高级人类行为分析。我们方法的核心是一个人类运动概念发现框架,该框架能够高效地训练多模态编码器,以提取语义上有意义且具有广泛适用性的特征。HuMoCon解决了运动概念发现中理解和推理的关键挑战,包括缺乏显式的多模态特征对齐以及在掩码自编码框架中高频信息的丢失。我们的方法整合了一种特征对齐策略,该策略利用视频进行上下文理解,并利用运动进行细粒度的交互建模,此外还通过速度重建机制增强高频特征表达并减轻时间过度平滑。标准基准上的综合实验表明,HuMoCon能够实现有效的运动概念发现,并在训练大型人类运动理解模型方面显著优于最先进的方法。我们将与论文一起开源相关代码。

[70] 够好就行:提升标签质量是否值得?
标题: Good Enough: Is it Worth Improving your Label Quality?
作者: Alexander Jaus / Zdravko Marinov / Constantin Seibold / Simon Reiß / Jens Kleesiek / Rainer Stiefelhagen
原文:   [英文]   [中文]  
备注: None
摘要:
在医学图像分割中提高标签质量代价高昂,但其益处尚不明确。我们通过使用多种伪标签版本的CT数据集系统地评估其影响,这些数据集由nnU-Net、TotalSegmentator和MedSAM等模型生成。我们的结果表明,尽管更高质量的标签可以提高域内性能,但如果低于一个小的阈值,收益仍不明确。对于预训练而言,标签质量的影响很小,这表明模型更倾向于传递一般概念而非详细注释。这些发现为何时值得提高标签质量提供了指导。

[71] QwT-v2:实用、有效且高效的训练后量化
标题: QwT-v2: Practical, Effective and Efficient Post-Training Quantization
作者: Ningyuan Tang / Minghao Fu / Hao Yu / Jianxin Wu
原文:   [英文]   [中文]  
备注: None
摘要:
网络量化可以说是减少现代深度神经网络巨大资源消耗的最实用的网络压缩方法之一。通常,它们需要针对特定架构和任务进行多样且微妙的设计选择。而QwT方法是一种简单且通用的方法,通过引入轻量级的附加结构来改善量化。然而,QwT会带来额外的参数和延迟。更重要的是,QwT与许多硬件平台不兼容。在本文中,我们提出了QwT-v2,它不仅具备QwT的所有优点,还解决了QwT的主要缺陷。通过采用非常轻量级的通道级仿射补偿(CWAC)模块,QwT-v2引入的额外参数和计算量显著少于QwT,同时在准确性上与QwT相当甚至更优。QwT-v2的补偿模块可以轻松集成到量化推理引擎中,这不仅有效地消除了额外的成本,还使其与大多数现有硬件平台兼容。

[72] ISAC:用于改进多实例生成的无训练实例到语义注意力控制
标题: ISAC: Training-Free Instance-to-Semantic Attention Control for Improving Multi-Instance Generation
作者: Sanghyun Jo / Wooyeol Lee / Ziseok Lee / Kyungsu Kim
原文:   [英文]   [中文]  
备注: 34 pages
摘要:
文本到图像的扩散模型在生成单实例场景方面表现出色,但在多实例场景中往往会合并或遗漏对象。与之前仅依赖语义级指导而不解决实例个体化的无训练方法不同,我们的无训练方法——实例到语义注意力控制(ISAC),通过实例优先的建模方法明确解决了不完整的实例形成和语义纠缠问题。这使得ISAC能够有效利用分层的树状提示机制,解开多个对象实例,并将它们分别与相应的语义标签对齐。在不使用任何外部模型的情况下,ISAC通过有效形成解耦的实例,实现了高达52%的平均多类别准确率和83%的平均多实例准确率。代码将在发表时提供。

[73] PMA:通过点曼巴适配器实现参数高效的点云理解
标题: PMA: Towards Parameter-Efficient Point Cloud Understanding via Point Mamba Adapter
作者: Yaohua Zha / Yanzi Wang / Hang Guo / Jinpeng Wang / Tao Dai / Bin Chen / Zhihao Ouyang / Xue Yuerong / Ke Chen / Shu-Tao Xia
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025
摘要:
将预训练模型应用于点云理解已成为3D感知领域的主流范式。然而,现有的应用策略较为简单,仅利用预训练模型的最终输出来处理各种任务头。这忽视了中间层中丰富的互补信息,因此未能充分发挥预训练模型的潜力。为克服这一限制,我们提出了一种正交解决方案:Point Mamba Adapter (PMA),它从预训练模型的所有层构建一个有序特征序列,并利用Mamba融合所有互补语义,从而促进全面的点云理解。由于3D空间的固有各向同性,构建这个有序序列并非易事。因此,我们进一步提出了一种几何约束门提示生成器 (G2PG),在不同层之间共享,它对Mamba的输出门应用共享的几何约束,并动态优化空间顺序,从而实现多层信息的更有效整合。在各种任务中对具有挑战性的点云数据集进行的大量实验表明,我们的PMA通过融合多样的互补中间特征,将点云理解能力提升到了一个新的水平。代码可在此https URL获取。

[74] DSOcc:利用深度感知和语义辅助提升基于摄像头的3D语义占用预测
标题: DSOcc: Leveraging Depth Awareness and Semantic Aid to Boost Camera-Based 3D Semantic Occupancy Prediction
作者: Naiyu Fang / Zheyuan Zhou / Kang Wang / Ruibo Li / Lemiao Qiu / Shuyou Zhang / Zhe Wang / Guosheng Lin
原文:   [英文]   [中文]  
备注: None
摘要:
基于相机的三维语义占用预测为自动驾驶中的环境感知提供了一种高效且经济的解决方案。然而,现有的工作依赖于显式的占用状态推断,导致大量错误的特征分配,并且样本不足限制了占用类别推断的学习。为了解决这些挑战,我们提出利用深度感知和语义辅助来提升基于相机的三维语义占用预测(DSOcc)。我们联合执行占用状态和占用类别推断,通过非学习方法计算软占用置信度,并将其与图像特征相乘,使体素表示具有深度感知能力,从而实现自适应的隐式占用状态推断。我们不专注于改进特征学习,而是直接利用训练良好的图像语义分割,并融合多帧的占用概率来辅助占用类别推断,从而增强鲁棒性。实验结果表明,DSOcc在SemanticKITTI数据集上在基于相机的方法中达到了最先进的性能。

[75] OrienText:面向表面的文本图像生成
标题: OrienText: Surface Oriented Textual Image Generation
作者: Shubham Singh Paliwal / Arushi Jain / Monika Sharma / Vikram Jamwal / Lovekesh Vig
原文:   [英文]  
备注: 4 pages, SIGGRAPH Asia 2024 Technical Communications
摘要:
图像中的文本内容在电子商务领域至关重要,尤其是在营销活动、产品成像、广告和娱乐行业。当前的文本到图像(T2I)生成扩散模型虽然能够生成高质量的图像,但在将文本准确地融入具有不同视角的复杂表面(如建筑物、横幅或墙壁的斜视图)时常常遇到困难。在本文中,我们介绍了一种面向表面的文本图像生成方法(OrienText),该方法利用特定区域的表面法线作为T2I生成扩散模型的条件输入。我们的方法确保了文本在图像上下文中的准确渲染和正确定向。我们在一个自我策划的数据集上展示了OrienText方法的有效性,并将其与现有的文本图像生成方法进行了比较。

[76] RF4D:用于户外动态场景新视图合成的神经雷达场
标题: RF4D:Neural Radar Fields for Novel View Synthesis in Outdoor Dynamic Scenes
作者: Jiarui Zhang / Zhihao Li / Chong Wang / Bihan Wen
原文:   [英文]   [中文]  
备注: None
摘要:
神经场(NFs)在场景重建方面表现出色,支持诸如新视图合成等各种任务。然而,现有依赖RGB或LiDAR输入的NF方法在恶劣天气下常常表现出严重的脆弱性,尤其是在自动驾驶等户外场景中应用时。相比之下,毫米波雷达对环境变化具有固有的鲁棒性,但遗憾的是,其与NFs的整合仍然很少被探索。此外,由于户外驾驶场景经常涉及移动物体,因此进行时空建模对于时间一致性的新视图合成至关重要。为此,我们引入了RF4D,一种专为户外动态场景中的新视图合成设计的基于雷达的神经场框架。RF4D明确将时间信息纳入其表示,显著增强了其对移动物体的建模能力。我们进一步引入了一个特征级流动模块,该模块预测相邻帧之间的潜在时间偏移,强制动态场景建模中的时间一致性。此外,我们提出了一种与雷达传感物理紧密结合的雷达特定功率渲染公式,提高了合成精度和互操作性。对公共雷达数据集的广泛实验表明,RF4D在雷达测量合成质量和占用估计准确性方面表现优越,尤其在动态户外场景中取得了显著的改进。

[77] DreamBoothDPO:使用直接偏好优化提升个性化生成
标题: DreamBoothDPO: Improving Personalized Generation using Direct Preference Optimization
作者: Shamil Ayupov / Maksim Nakhodnov / Anastasia Yaschenko / Andrey Kuznetsov / Aibek Alanov
原文:   [英文]   [中文]  
备注: The first two authors contributed equally. The source code can be found at this https URL
摘要:
个性化扩散模型在文本到图像(T2I)生成中表现出显著的成功,通过使用户定义的概念能够注入到多样化的上下文中。然而,概念的保真度与上下文的对齐之间的平衡仍然是一个具有挑战性的开放问题。在这项工作中,我们提出了一种基于强化学习(RL)的方法,该方法利用T2I模型的多样化输出来解决这一问题。我们的方法通过使用外部质量指标生成合成配对数据集进行类似DPO的训练,消除了对人工标注评分的需求。这些优劣对比对专门构建以提高概念保真度和提示依从性。此外,我们的方法支持灵活调整图像保真度与文本对齐之间的权衡。通过多步训练,我们的方法在收敛速度和输出质量上优于简单的基线。我们进行了广泛的定性和定量分析,证明了我们的方法在各种架构和微调技术中的有效性。源代码可以在这个https URL中找到。

[78] RefAV:面向以规划为中心的场景挖掘
标题: RefAV: Towards Planning-Centric Scenario Mining
作者: Cainan Davidson / Deva Ramanan / Neehar Peri
原文:   [英文]  
备注: None
摘要:
自动驾驶车辆(AVs)在正常车队测试期间收集并伪标记本地化到高清地图的多模态数据,数据量达到数TB。然而,从未整理的驾驶日志中识别出有趣且安全关键的场景仍然是一个重大挑战。传统的场景挖掘技术容易出错且耗时过长,通常依赖于手工制作的结构化查询。在这项工作中,我们通过最近的视觉-语言模型(VLMs)的视角重新审视时空场景挖掘,以检测描述的场景是否在驾驶日志中发生,如果发生,则在时间和空间上精确定位。为了解决这个问题,我们引入了RefAV,这是一个大规模的数据集,包含10,000个多样化的自然语言查询,这些查询描述了与运动规划相关的复杂多主体交互,来源于Argoverse 2传感器数据集中的1000个驾驶日志。我们评估了几种参考多目标跟踪器,并对我们的基线进行了实证分析。值得注意的是,我们发现天真地重新利用现成的VLMs会导致较差的性能,这表明场景挖掘带来了独特的挑战。我们的代码和数据集可以在这个https URL和这个https URL上获得。

[79] 评估在视频中使用换脸方法作为面部匿名化工具
标题: Assessing the Use of Face Swapping Methods as Face Anonymizers in Videos
作者: Mustafa İzzet Muştu / Hazım Kemal Ekenel
原文:   [英文]   [中文]  
备注: Accepted to the 2025 25th International Conference on Digital Signal Processing (DSP 2025)
摘要:
随着对大规模视觉数据需求的增加以及严格的隐私法规的实施,研究人员开始探索在不严重降低数据质量的情况下隐藏个人身份的匿名化方法。在本文中,我们探讨了人脸替换方法在视频数据中保护隐私的潜力。通过对时间一致性、匿名性强度和视觉保真度的广泛评估,我们发现人脸替换技术可以产生一致的面部过渡并有效隐藏身份。这些结果强调了人脸替换在隐私保护视频应用中的适用性,并为未来专注于匿名化的人脸替换模型的进步奠定了基础。

[80] 基于面部属性的文本引导人脸匿名化
标题: Facial Attribute Based Text Guided Face Anonymization
作者: Mustafa İzzet Muştu / Hazım Kemal Ekenel
原文:   [英文]   [中文]  
备注: 6 pages, 5 figures, published in the Proceedings of the Joint visuAAL-GoodBrother Conference on Trustworthy Video- and Audio-Based Assistive Technologies
摘要:
随着计算机视觉应用的日益普及,处理大量包含个人信息的视觉数据变得必要。尽管这项技术带来了显著的好处,但不应以牺牲隐私为代价。数据隐私法规强调需要获得个人同意才能处理个人数据,这阻碍了研究人员收集包含个人面部的高质量数据集的能力。本文提出了一种基于深度学习的人脸匿名化流程,以克服这一挑战。与大多数现有方法不同,我们的方法利用了基于扩散的修复模型的最新进展,消除了训练生成对抗网络的需要。该流程采用三阶段方法:使用RetinaNet进行人脸检测,使用VGG-Face进行特征提取,并使用最先进的BrushNet扩散模型生成逼真的人脸。BrushNet利用整个图像、人脸掩码和指定所需面部属性(如年龄、种族、性别和表情)的文本提示。这使得生成自然外观且无法识别的个体图像成为可能,从而促进了计算机视觉研究中符合隐私要求的数据集的创建。

[81] 统一对齐协议:理解新领域中的未标记数据
标题: Unified Alignment Protocol: Making Sense of the Unlabeled Data in New Domains
作者: Sabbir Ahmed / Mamshad Nayeem Rizve / Abdullah Al Arafat / Jacqueline Liu / Rahim Hossain / Mohaiminul Al Nahian / Adnan Siraj Rakin
原文:   [英文]   [中文]  
备注: None
摘要:
半监督联邦学习(SSFL)在许多现实世界的应用中比传统的联邦学习更受欢迎。由于客户端侧标记数据有限的实际限制,SSFL考虑到参与的客户端使用未标记的数据进行训练,而只有中央服务器具备访问有限标记数据的必要资源,使其成为现实世界应用(例如,医疗保健)的理想选择。然而,传统的SSFL假设训练阶段和测试阶段的数据分布是相同的。然而在实践中,领域偏移经常发生,这使得SSFL必须具备泛化能力以增强其实用性。核心挑战在于提高模型对新、未见领域的泛化能力,同时客户端参与SSFL。然而,SSFL的去中心化设置和无监督的客户端训练需要创新,以实现跨领域的改进泛化。为此,我们提出了一种称为统一对齐协议(UAP)的新框架,该框架由交替的两个阶段训练过程组成。第一阶段涉及训练服务器模型以学习和对齐特征与参数分布,然后在不增加通信开销的情况下传达给客户端。第二阶段提出了一种新颖的训练算法,利用服务器特征分布相应地对齐客户端特征。我们在多个模型架构的标准领域泛化基准数据集上的广泛实验表明,所提出的UAP在SSFL设置中成功实现了SOTA泛化性能。

[82] FeatInv:使用条件扩散模型从特征空间到输入空间的空间分辨映射
标题: FeatInv: Spatially resolved mapping from feature space to input space using conditional diffusion models
作者: Nils Neukirch / Johanna Vielhaben / Nils Strodthoff
原文:   [英文]   [中文]  
备注: 15 pages, 10 figures, code is available at this https URL
摘要:
内部表示对于理解深度神经网络(如其属性和推理模式)至关重要,但仍然难以解释。虽然从特征空间到输入空间的映射有助于解释前者,但现有方法通常依赖于粗略的近似。我们提出使用条件扩散模型——一个预训练的高保真扩散模型,基于空间分辨的特征图进行条件化——以概率方式学习这种映射。我们在各种预训练的图像分类器(从卷积神经网络到视觉变换器)中展示了这种方法的可行性,显示出卓越的重建能力。通过定性比较和鲁棒性分析,我们验证了我们的方法,并展示了可能的应用,例如在输入空间中概念引导的可视化或对特征空间复合性质的研究。该方法在提高计算机视觉模型中特征空间的理解方面具有广泛的潜力。

[83] RainFusion:通过多维视觉冗余实现自适应视频生成加速
标题: RainFusion: Adaptive Video Generation Acceleration via Multi-Dimensional Visual Redundancy
作者: Aiyue Chen / Bin Dong / Jingru Li / Jing Lin / Yiwu Yao / Gongyi Wang
原文:   [英文]   [中文]  
备注: None
摘要:
使用扩散模型进行视频生成的计算量非常大,其中扩散变压器(DiT)模型中的3D注意力占据了超过80%的总计算资源。在这项工作中,我们引入了{\bf RainFusion},这是一种新颖的、无需训练的稀疏注意力方法,它利用视觉数据中固有的稀疏性来加速注意力计算,同时保持视频质量。具体来说,我们在视频生成的注意力计算中识别了三种独特的稀疏模式——空间模式、时间模式和纹理模式。每个注意力头的稀疏模式在推理过程中通过我们提出的{\bf ARM}(自适应识别模块)在线确定,开销可以忽略不计(\textasciitilde\,0.2\%)。我们提出的{\bf RainFusion}是一种即插即用的方法,可以无缝集成到最先进的3D注意力视频生成模型中,而无需额外的训练或校准。我们在领先的开源模型上评估了我们的方法,包括HunyuanVideo、OpenSoraPlan-1.2和CogVideoX-5B,展示了其广泛的适用性和有效性。实验结果表明,RainFusion在保持视频质量的同时,在注意力计算上实现了超过{\bf 2\(\times\)}的加速,对VBench分数的影响仅为-0.2\%。

[84] 基于视频的鲁棒坑洞检测和面积估算:结合深度图和卡尔曼平滑的智能车辆应用
标题: Robust Video-Based Pothole Detection and Area Estimation for Intelligent Vehicles with Depth Map and Kalman Smoothing
作者: Dehao Wang / Haohang Zhu / Yiwen Xu / Kaiqi Liu
原文:   [英文]   [中文]  
备注: None
摘要:
道路坑洼对驾驶安全和舒适性构成了严重威胁,因此在自动驾驶等领域中,对其进行检测和评估是一项关键任务。在驾驶车辆时,操作员通常会避开大坑洼,并以较低的速度接近较小的坑洼以确保安全。因此,准确估计坑洼面积至关重要。大多数现有的基于视觉的方法依赖于距离先验来构建几何模型。然而,它们的性能容易受到摄像机角度变化的影响,并且通常依赖于平坦路面的假设,这可能在复杂的现实环境中导致显著的误差。为了解决这些问题,本文提出了一种稳健的坑洼面积估计框架,该框架在视频流中集成了目标检测和单目深度估计。首先,为了增强坑洼特征提取并改善小坑洼的检测,提出了ACSH-YOLOv8,其中包含ACmix模块和小物体检测头。然后,利用BoT-SORT算法进行坑洼跟踪,而DepthAnything V2为每一帧生成深度图。通过获得的深度图和坑洼标签,提出了一种新颖的最小边界三角化像素(MBTP)方法用于坑洼面积估计。最后,基于置信度和距离的卡尔曼滤波器(CDKF)被开发出来,以保持连续帧之间估计结果的一致性。结果表明,ACSH-YOLOv8模型实现了76.6%的AP(50),比YOLOv8提高了7.6%。通过在连续帧中进行CDKF优化,坑洼预测变得更加稳健,从而增强了该方法的实际适用性。

[85] 利用2.5D潜变量推进高保真3D和纹理生成
标题: Advancing high-fidelity 3D and Texture Generation with 2.5D latents
作者: Xin Yang / Jiantao Lin / Yingjie Xu / Haodong Li / Yingcong Chen
原文:   [英文]   [中文]  
备注: None
摘要:
尽管已经有大规模的3D数据集和3D生成模型的进步,3D几何和纹理数据的复杂性和不均匀质量仍然阻碍了3D生成技术的性能。在大多数现有方法中,3D几何和纹理是在不同阶段使用不同模型和非统一表示生成的,这常常导致几何和纹理之间的连贯性不佳。为了解决这些挑战,我们提出了一种用于3D几何和纹理联合生成的新框架。具体来说,我们专注于生成一种多功能的2.5D表示,可以在2D和3D之间无缝转换。我们的方法首先将多视图RGB、法线和坐标图像整合为一个统一的表示,称为2.5D潜变量。接下来,我们调整预训练的2D基础模型以实现高保真度的2.5D生成,利用文本和图像条件。最后,我们引入了一个轻量级的2.5D到3D的精炼解码器框架,可以高效地从2.5D图像生成详细的3D表示。大量实验表明,我们的模型不仅在从文本和图像输入生成具有连贯结构和颜色的高质量3D对象方面表现出色,而且在几何条件纹理生成方面显著优于现有方法。

[86] Styl3R:任意场景和风格的即时3D风格化重建
标题: Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles
作者: Peng Wang / Xiang Liu / Peidong Liu
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
即时对3D场景进行风格化处理,同时保持多视图一致性并忠实再现风格图像,仍然是一个重大挑战。目前最先进的3D风格化方法通常涉及计算密集型的测试时优化,以将艺术特征转移到预训练的3D表示中,往往需要密集的有姿态输入图像。相比之下,利用最近在前馈重建模型方面的进展,我们展示了一种新颖的方法,可以在不到一秒的时间内使用无姿态的稀疏视图场景图像和任意风格图像实现直接3D风格化。为了解决重建和风格化之间固有的解耦问题,我们引入了一种分支架构,将结构建模和外观着色分开,有效防止风格化转移扭曲底层3D场景结构。此外,我们调整了一种身份损失,以通过新颖的视图合成任务促进我们的风格化模型的预训练。这一策略还使我们的模型在为风格化进行微调的同时,保留其原始的重建能力。通过使用域内和域外数据集的全面评估,证明我们的方法能够生成高质量的风格化3D内容,实现风格和场景外观的优质融合,同时在多视图一致性和效率方面优于现有方法。

[87] LPOI:视觉语言模型的列表偏好优化
标题: LPOI: Listwise Preference Optimization for Vision Language Models
作者: Fatemeh Pesaran Zadeh / Yoojin Oh / Gunhee Kim
原文:   [英文]  
备注: ACL 2025 Main. Code is released at this https URL
摘要:
将大型视觉语言模型(VLMs)与人类偏好对齐是一项具有挑战性的任务,因为像RLHF和DPO这样的方法往往会过度拟合文本信息或加剧幻觉现象。尽管增加负面图像样本可以部分解决这些问题,但由于构建列表式图像样本的复杂性和成本,之前没有工作在VLMs中使用列表式偏好优化。在这项工作中,我们提出了LPOI,这是第一个面向对象的列表式偏好优化方法,旨在减少VLMs中的幻觉现象。LPOI识别并遮盖图像中的关键对象,然后在正负图像之间插值被遮盖的区域,以形成一系列逐渐更完整的图像。模型被训练以按对象可见性递增的顺序对这些图像进行排序,从而有效减少幻觉,同时保持视觉保真度。LPOI不需要额外的注释,超出标准的成对偏好数据,因为它通过对象遮盖和插值自动构建排序列表。在MMHalBench、AMBER和Object HalBench上的综合实验证实,LPOI在减少幻觉和增强VLM性能方面优于现有的偏好优化方法。我们在此https URL提供代码。

[88] 逆向虚拟试穿:从穿衣个体生成多类别产品风格图像
标题: Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals
作者: Davide Lobba / Fulvio Sanguigni / Bin Ren / Marcella Cornia / Rita Cucchiara / Nicu Sebe
原文:   [英文]   [中文]  
备注: None
摘要:
虚拟试穿(VTON)系统旨在将服装渲染到目标人物图像上,而本文则解决了一个新颖的任务:虚拟试脱(VTOFF),即解决逆向问题:从穿着者的真实照片中生成标准化的服装产品图像。与VTON需要解决多样的姿势和风格变化不同,VTOFF受益于一致且定义明确的输出格式——通常是服装的平铺式表示——这使其成为数据生成和数据集增强的有前景工具。然而,现有的VTOFF方法面临两个主要限制:(i)难以从遮挡和复杂姿势中分离出服装特征,常导致视觉伪影,以及(ii)仅限于单一类别服装(例如,仅上身衣物)的适用性,限制了泛化能力。为了解决这些挑战,我们提出了文本增强的多类别虚拟试脱(TEMU-VTOFF),这是一种新颖的架构,具有双DiT基础和修改后的多模态注意机制,用于稳健的服装特征提取。我们的架构设计为接收来自多种模态的信息,如图像、文本和掩码,以在多类别环境中工作。最后,我们提出了一个额外的对齐模块,以进一步优化生成的视觉细节。在VITON-HD和Dress Code数据集上的实验表明,TEMU-VTOFF在VTOFF任务上设立了新的技术标准,显著提高了视觉质量和对目标服装的忠实度。

[89] 具有双重平行性的分钟长视频
标题: Minute-Long Videos with Dual Parallelisms
作者: Zeqing Wang / Bowen Zheng / Xingyi Yang / Yuecong Xu / Xinchao Wang
原文:   [英文]   [中文]  
备注: The code is available at this https URL
摘要:
基于扩散变换器(DiT)的视频扩散模型可以大规模生成高质量视频,但在处理长视频时会导致难以承受的处理延迟和内存成本。为了解决这个问题,我们提出了一种新颖的分布式推理策略,称为DualParal。其核心思想是,不再在单个GPU上生成整个视频,而是将时间帧和模型层在多个GPU上并行化。然而,这种划分的简单实现面临一个关键限制:由于扩散模型需要在帧之间同步噪声水平,这种实现导致了原有并行性的串行化。我们利用一种分块去噪方案来处理这个问题。具体来说,我们通过管道处理一系列帧块,逐步降低噪声水平。每个GPU处理特定的块和层子集,同时将先前的结果传递给下一个GPU,从而实现异步计算和通信。为了进一步优化性能,我们结合了两个关键增强措施。首先,在每个GPU上实现特征缓存,以存储和重用来自前一个块的特征作为上下文,最小化GPU间通信和冗余计算。其次,我们采用协调的噪声初始化策略,通过在GPU之间共享初始噪声模式而不增加额外资源成本,确保全局一致的时间动态。这些措施共同实现了快速、无伪影且无限长的视频生成。应用于最新的扩散变换器视频生成器,我们的方法在8个RTX 4090 GPU上高效生成了1,025帧的视频,延迟降低了最多6.54倍,内存成本降低了1.48倍。

[90] DynamicVL:多模态大型语言模型在动态城市理解中的基准测试
标题: DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding
作者: Weihao Xuan / Junjue Wang / Heli Qi / Zihang Chen / Zhuo Zheng / Yanfei Zhong / Junshi Xia / Naoto Yokoya
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大型语言模型在视觉理解方面展现了卓越的能力,但其在长期地球观测分析中的应用仍然有限,主要集中于单时相或双时相影像。为了解决这一空白,我们引入了DVL-Suite,这是一个通过遥感影像分析长期城市动态的综合框架。我们的套件包含了15,063张高分辨率(1.0米)多时相影像,覆盖了美国的42个大城市,时间跨度从2005年到2023年,分为两个部分:DVL-Bench和DVL-Instruct。DVL-Bench包括七个城市理解任务,从基础的变化检测(像素级)到定量分析(区域级)和综合城市叙述(场景级),捕捉了多样的城市动态,包括扩展/转型模式、灾害评估和环境挑战。我们评估了17个最先进的多模态大型语言模型,并揭示了它们在长期时间理解和定量分析方面的局限性。这些挑战促使我们创建了DVL-Instruct,这是一个专门的指令微调数据集,旨在增强模型在多时相地球观测中的能力。基于该数据集,我们开发了DVLChat,一个基线模型,能够进行图像级问答和像素级分割,通过语言交互促进对城市动态的全面理解。

[91] Uni3D-MoE:通过专家混合实现可扩展的多模态3D场景理解
标题: Uni3D-MoE: Scalable Multimodal 3D Scene Understanding via Mixture of Experts
作者: Yue Zhang / Yingzhao Jian / Hehe Fan / Yi Yang / Roger Zimmermann
原文:   [英文]   [中文]  
备注: None
摘要:
最近在多模态大型语言模型(MLLMs)方面的进展显示出在全面的3D场景理解中具有相当大的潜力。然而,现有的方法通常仅利用一种或有限的3D模态子集,导致3D场景的表示不完整和解释精度降低。此外,不同类型的查询本质上依赖于不同的模态,这表明对所有模态标记进行统一处理可能无法有效捕捉特定查询的上下文。为了解决这些挑战,我们提出了Uni3D-MoE,这是一种基于稀疏专家混合(MoE)的3D MLLM,旨在实现自适应的3D多模态融合。具体来说,Uni3D-MoE整合了一套全面的3D模态,包括多视角RGB和深度图像、鸟瞰图(BEV)地图、点云和体素表示。我们的框架核心在于一个可学习的路由机制,该机制在基于稀疏MoE的大型语言模型中,动态地在标记级别选择合适的专家。每个专家专注于基于学习到的模态偏好处理多模态标记,从而促进灵活的协作,以满足多样化的任务特定需求。在标准的3D场景理解基准和专门的数据集上的广泛评估证明了Uni3D-MoE的有效性。

[92] DisasterM3:用于灾害损害评估和响应的遥感视觉-语言数据集
标题: DisasterM3: A Remote Sensing Vision-Language Dataset for Disaster Damage Assessment and Response
作者: Junjue Wang / Weihao Xuan / Heli Qi / Zhihao Liu / Kunyi Liu / Yuhan Wu / Hongruixuan Chen / Jian Song / Junshi Xia / Zhuo Zheng / Naoto Yokoya
原文:   [英文]   [中文]  
备注: A multi-hazard, multi-sensor, and multi-task vision-language dataset for global-scale disaster assessment and response
摘要:
大型视觉-语言模型(VLMs)在地球视觉领域取得了巨大成就。然而,复杂的灾害场景中多样的灾害类型、地理区域和卫星传感器为VLM的应用带来了新的挑战。为填补这一空白,我们整理了一个用于全球灾害评估和响应的遥感视觉-语言数据集(DisasterM3)。DisasterM3包含26,988对时空卫星图像和123,000个指令对,覆盖5大洲,具有三个特点:1)多灾害:DisasterM3涉及36个具有重大影响的历史灾害事件,这些事件被分类为10种常见的自然和人为灾害。2)多传感器:灾害期间的极端天气常常阻碍光学传感器成像,因此有必要结合合成孔径雷达(SAR)图像用于灾后场景。3)多任务:基于现实场景,DisasterM3包括9个与灾害相关的视觉感知和推理任务,充分利用VLM的推理能力,从灾害承载体识别到结构损伤评估和对象关系推理,最终生成长篇灾害报告。我们对14个通用和遥感VLM在我们的基准上进行了广泛评估,结果显示,最先进的模型在灾害任务上表现不佳,主要是由于缺乏灾害特定语料库、跨传感器差距和损坏对象计数不敏感。针对这些问题,我们使用我们的数据集对四个VLM进行了微调,并在所有任务上实现了稳定的改进,具有强大的跨传感器和跨灾害泛化能力。

[93] 用于图像超分辨率的实例数据凝缩
标题: Instance Data Condensation for Image Super-Resolution
作者: Tianhao Peng / Ho Man Kwan / Yuxuan Jiang / Ge Gao / Fan Zhang / Xiaozhong Xu / Shan Liu / David Bull
原文:   [英文]   [中文]  
备注: None
摘要:
基于深度学习的图像超分辨率(ISR)依赖于大型训练数据集来优化模型的泛化能力;这在训练过程中需要大量的计算和存储资源。虽然数据集凝缩在提高高层次计算机视觉任务的数据效率和隐私方面显示出潜力,但在ISR中尚未得到充分利用。在本文中,我们提出了一种专门针对ISR的新颖实例数据凝缩(IDC)框架,该框架通过随机局部傅里叶特征提取和多级特征分布匹配实现实例级数据凝缩。这旨在优化全局和局部层面的特征分布,并获得具有精细细节的高质量合成训练内容。该框架已被用于凝缩ISR中最常用的训练数据集DIV2K,凝缩率为10%。所得的合成数据集在用于训练各种流行的ISR模型时,提供了与原始完整数据集相当或(在某些情况下)甚至更好的性能和出色的训练稳定性。据我们所知,这是首次有凝缩/合成数据集(数据量为10%)展示出如此性能。源代码和合成数据集已在此https URL上提供。

[94] 用于快速扩散采样的可微求解器搜索
标题: Differentiable Solver Search for Fast Diffusion Sampling
作者: Shuai Wang / Zexian Li / Qipeng zhang / Tianhui Song / Xubin Li / Tiezheng Ge / Bo Zheng / Limin Wang
原文:   [英文]   [中文]  
备注: accpeted on ICML25
摘要:
扩散模型在生成质量上表现出色,但代价是需要大量的函数评估。最近,已经开发出先进的基于常微分方程(ODE)的求解器,以缓解在有限采样步骤下逆扩散求解的巨大计算需求。然而,这些求解器主要受到类似Adams多步方法的启发,仅依赖于与时间相关的拉格朗日插值。我们表明,与时间相关的拉格朗日插值对于扩散模型来说并不是最优的,并揭示了一个由时间步长和求解器系数组成的紧凑搜索空间。基于我们的分析,我们提出了一种新颖的可微分求解器搜索算法,以识别更优的求解器。配备了我们搜索到的求解器,修正流模型(如SiT-XL/2和FlowDCN-XL/2)在ImageNet256上仅用10步就分别达到了2.40和2.35的FID分数。同时,DDPM模型DiT-XL/2仅用10步就达到了2.33的FID分数。值得注意的是,我们搜索到的求解器在性能上显著优于传统求解器。此外,我们搜索到的求解器在各种模型架构、分辨率和模型大小上表现出广泛的通用性。

[95] ReassembleNet:用于二维壁画重建的可学习关键点和扩散
标题: ReassembleNet: Learnable Keypoints and Diffusion for 2D Fresco Reconstruction
作者: Adeela Islam / Stefano Fiorini / Stuart James / Pietro Morerio / Alessio Del Bue
原文:   [英文]   [中文]  
备注: None
摘要:
重组任务在多个领域中都是一个重要的挑战,包括考古学、基因组学和分子对接,需要精确地放置和定位元素以重建原始结构。在这项工作中,我们解决了当前最先进的深度学习方法在重组方面的关键限制,即:i) 可扩展性;ii) 多模态性;以及 iii) 现实世界的适用性:不仅限于方形或简单几何形状,还包括现实和复杂的侵蚀或其他现实世界问题。我们提出了ReassembleNet,这是一种通过将每个输入片段表示为一组轮廓关键点并通过图神经网络池化启发式技术学习选择最具信息量的关键点来降低复杂性的方法。ReassembleNet有效地降低了计算复杂性,同时能够集成来自多种模态的特征,包括几何和纹理数据。通过在半合成数据集上的预训练进一步增强。然后我们应用基于扩散的姿态估计来恢复原始结构。我们在之前的方法上分别在RMSE旋转和平移方面提高了55%和86%。

[96] FastFace:通过引导和注意力在蒸馏扩散中调整身份保留
标题: FastFace: Tuning Identity Preservation in Distilled Diffusion via Guidance and Attention
作者: Sergey Karpukhin / Vadim Titov / Andrey Kuznetsov / Aibek Alanov
原文:   [英文]  
备注: code available at this https URL
摘要:
近年来,许多用于个性化生成的身份保持适配器与扩散模型一起被发布。它们的主要缺点是通常与基础扩散模型联合训练,而这些模型在多步推理时速度较慢。本文旨在解决通过蒸馏加速的预训练ID适配器对扩散模型的无训练适应挑战——通过对无分类器引导进行精心重新设计,以实现少步风格化生成,并在解耦块中操控注意力机制以提高身份相似性和保真度,我们提出了通用的FastFace框架。此外,我们开发了一种用于身份保持适配器的解耦公共评估协议。

[97] RoBiS:用于高分辨率工业图像的鲁棒二值分割
标题: RoBiS: Robust Binary Segmentation for High-Resolution Industrial Images
作者: Xurui Li / Zhonesheng Jiang / Tingxuan Ai / Yu Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
在现实场景中,稳健的无监督异常检测(AD)是一项重要任务。由于其复杂的现实世界挑战,当前的方法在MVTec AD 2基准上表现出严重的性能下降。为了解决这个问题,我们提出了一个稳健的框架RoBiS,它由三个核心模块组成:(1)Swin-Cropping,一种高分辨率图像预处理策略,通过重叠窗口裁剪来保留小异常的信息。(2)在训练数据上进行噪声添加和光照模拟的数据增强,以提高AD模型的鲁棒性。我们使用INP-Former作为我们的基线,它可以在各种子图像上生成更好的结果。(3)将传统的基于统计的二值化策略(均值+3倍标准差)与我们之前的工作MEBin(发表于CVPR2025)结合,用于联合自适应二值化。然后,进一步使用SAM来优化分割结果。与MVTec AD 2报告的一些方法相比,我们的RoBiS在Test_private上实现了29.2%的SegF1提升(从21.8%到51.00%),在Test_private_mixed上实现了29.82%的SegF1提升(从16.7%到46.52%)。代码可在此https URL获取。

[98] 归一化注意力引导:扩散模型的通用负引导
标题: Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model
作者: Dar-Yen Chen / Hmrishav Bandyopadhyay / Kai Zou / Yi-Zhe Song
原文:   [英文]   [中文]  
备注: None
摘要:
负向引导——即明确抑制不需要的属性——在扩散模型中仍然是一个基本挑战,特别是在少步采样的情况下。虽然无分类器引导(CFG)在标准设置中表现良好,但在激进的采样步压缩下,由于正负分支之间的预测分歧,它会失效。我们提出了归一化注意力引导(NAG),这是一种高效且无需训练的机制,它在注意力空间中应用基于L1的归一化和细化的外推。NAG在CFG失效的情况下恢复了有效的负向引导,同时保持了保真度。与现有方法不同,NAG可以跨架构(UNet, DiT)、采样机制(少步、多步)和模态(图像、视频)进行泛化,作为一个\textit{通用}插件,计算开销极小。通过广泛的实验,我们展示了在文本对齐(CLIP分数)、保真度(FID, PFID)和人类感知质量(ImageReward)方面的一致改进。我们的消融研究验证了每个设计组件,而用户研究证实了对NAG引导输出的显著偏好。作为一种无需重新训练的模型无关推理时方法,NAG为所有现代扩散框架提供了轻松的负向引导——附录中有伪代码!

[99] 通过高频增强和分层梯度融合提升对抗性可迁移性
标题: Boosting Adversarial Transferability via High-Frequency Augmentation and Hierarchical-Gradient Fusion
作者: Yayin Zheng / Chen Wan / Zihong Guo / Hailing Kuang / Xiaohai Lu
原文:   [英文]  
备注: None
摘要:
对抗性攻击已成为机器学习模型安全性中的一个重大挑战,特别是在黑盒防御策略的背景下。现有的增强对抗性可迁移性的方法主要集中在空间域。本文提出了一种新的对抗性攻击框架——频率空间攻击(FSA),该框架有效地整合了频域和空间域的变换。FSA结合了两个关键技术:(1)高频增强,通过傅里叶变换和频率选择性放大来多样化输入,并强调高频分量在对抗性攻击中的关键作用;(2)分层梯度融合,结合多尺度梯度分解和融合,以捕捉全局结构和细粒度细节,从而产生更平滑的扰动。我们的实验表明,FSA在各种黑盒模型中始终优于最先进的方法。值得注意的是,与BSR(CVPR 2024)相比,我们提出的FSA在八个黑盒防御模型上实现了平均攻击成功率提高23.6%。

[100] 让每个事件都重要:在事件相机子采样中平衡数据效率与准确性
标题: Making Every Event Count: Balancing Data Efficiency and Accuracy in Event Camera Subsampling
作者: Hesam Araghi / Jan van Gemert / Nergis Tomen
原文:   [英文]   [中文]  
备注: None
摘要:
事件相机提供了高时间分辨率和功率效率,使其非常适合边缘人工智能应用。然而,其高事件率给数据传输和处理带来了挑战。子采样方法提供了一个实用的解决方案,但其对下游视觉任务的影响仍未被充分探索。在这项工作中,我们系统地评估了六种硬件友好的子采样方法,使用卷积神经网络对各种基准数据集上的事件视频进行分类。我们假设来自高密度区域的事件携带更多与任务相关的信息,因此更适合子采样。为了验证这一点,我们引入了一种简单的基于因果密度的子采样方法,在稀疏环境中展示了改进的分类准确性。我们的分析进一步强调了影响子采样性能的关键因素,包括对超参数的敏感性以及在事件数量变化较大的情况下的失败案例。这些发现为利用硬件高效的子采样策略提供了平衡数据效率和任务准确性的见解。本文的代码将在此网址发布:this https URL。

[101] 三思而后行:在视觉-语言-动作模型中进行高效推理的基于令牌的压缩和动作重用
标题: Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models
作者: Xudong Tan / Yaoxin Yang / Peng Ye / Jialin Zheng / Bizhe Bai / Xinyi Wang / Jia Hao / Tao Chen
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言-动作(VLA)模型已经成为通过自然语言指令进行通用机器人控制的强大范式。然而,由于大规模的标记计算和自回归解码导致的高推理成本,对实时部署和边缘应用构成了重大挑战。尽管之前的工作主要集中在架构优化上,我们从不同的角度出发,识别出VLA模型中的双重冗余形式:(i)连续动作步骤之间的高度相似性,以及(ii)视觉标记中的大量冗余。基于这些观察,我们提出了FlashVLA,这是第一个无需训练且即插即用的加速框架,能够在VLA模型中实现动作重用。FlashVLA通过一种标记感知的动作重用机制提高推理效率,该机制避免了在稳定动作步骤中冗余的解码,并通过信息引导的视觉标记选择策略修剪低贡献标记。在LIBERO基准上的大量实验表明,FlashVLA将浮点运算次数减少了55.7%,延迟减少了36.0%,而任务成功率仅下降了0.7%。这些结果证明了FlashVLA在无需重新训练的情况下实现轻量级、低延迟VLA推理的有效性。

[102] 科幻:用于帧插补的对称约束
标题: Sci-Fi: Symmetric Constraint for Frame Inbetweening
作者: Liuhan Chen / Xiaodong Cun / Xiaoyu Li / Xianyi He / Shenghai Yuan / Jie Chen / Ying Shan / Li Yuan
原文:   [英文]   [中文]  
备注: 22 pages, 9 figures, submitted to NeurIPS2025, under reviewering
摘要:
帧插补旨在根据给定的起始帧和结束帧合成中间视频序列。目前最先进的方法主要通过直接微调或省略训练来结合结束帧约束,扩展大规模预训练的图像到视频扩散模型(I2V-DMs)。我们发现其设计中存在一个关键限制:它们对结束帧约束的注入通常使用最初施加起始帧(单帧图像)约束的相同机制。然而,由于原始的I2V-DMs已经充分训练以适应起始帧条件,简单地通过相同机制引入结束帧约束而缺乏(甚至没有)专门训练,可能无法使结束帧对中间内容产生像起始帧那样强烈的影响。这种两个帧对中间内容的控制强度不对称可能导致生成帧中出现不一致的运动或外观崩溃。为了有效实现起始帧和结束帧的对称约束,我们提出了一种新框架,称为Sci-Fi,它在较小的训练规模下应用更强的约束注入。具体来说,它像以前一样处理起始帧约束,同时通过改进的机制引入结束帧约束。新机制基于一个精心设计的轻量级模块,称为EF-Net,它仅对结束帧进行编码,并将其扩展为时间自适应的逐帧特征注入到I2V-DM中。这使得结束帧约束与起始帧约束一样强,从而使我们的Sci-Fi能够在各种场景中产生更和谐的过渡。大量实验证明了我们的Sci-Fi相比其他基线的优越性。

[103] 医学异常检测只需要双曲空间吗?
标题: Is Hyperbolic Space All You Need for Medical Anomaly Detection?
作者: Alvaro Gonzalez-Jimenez / Simone Lionetti / Ludovic Amruthalingam / Philippe Gottfrois / Fabian Gröger / Marc Pouly / Alexander A. Navarini
原文:   [英文]   [中文]  
备注: Provisionally Accepted at MICCAI 2025
摘要:
医学异常检测已成为解决数据可用性和标注限制挑战的一个有前途的解决方案。传统方法从欧几里得空间中预训练网络的不同层提取特征;然而,欧几里得表示未能有效捕捉这些特征中的层次关系,导致异常检测性能不佳。我们提出了一种新颖而简单的方法,将特征表示投射到双曲空间中,根据置信水平对其进行聚合,并将样本分类为健康或异常。我们的实验表明,双曲空间在多个医学基准数据集的图像和像素级别上始终优于基于欧几里得的框架,获得更高的AUROC分数。此外,我们展示了双曲空间在参数变化下表现出韧性,并在健康图像稀缺的少样本场景中表现出色。这些发现强调了双曲空间作为医学异常检测的强大替代方案的潜力。项目网站可以在这个https URL找到。

[104] 遮挡边界与深度:通过多任务学习实现相互增强
标题: Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning
作者: Lintao Xu / Yinghao Wang / Chaohui Wang
原文:   [英文]   [中文]  
备注: 7 pages, 4 tables, 4 figures
摘要:
遮挡边界估计(Occlusion Boundary Estimation, OBE)识别由物体间遮挡和单个物体的自遮挡产生的边界,将内在的物体边缘与遮挡引起的轮廓区分开来,以提高场景理解和三维重建能力。这与单目深度估计(Monocular Depth Estimation, MDE)密切相关,后者从单张图像中推断深度,因为遮挡边界为解决深度歧义提供了关键的几何线索,而深度先验则可以在复杂场景中反过来优化遮挡推理。在本文中,我们提出了一种新颖的网络MoDOT,首次联合估计深度和遮挡边界。我们提出了CASM,一种跨注意力多尺度条带卷积模块,利用中层遮挡边界特征显著增强深度预测。此外,我们引入了一种遮挡感知损失函数OBDCL,鼓励更清晰和更准确的深度边界。在真实和合成数据集上的大量实验表明,联合估计深度和遮挡边界的互惠效益,并突出了我们模型设计的有效性。我们的方法在我们提出的合成数据集和一个流行的真实数据集NYUD-v2上达到了最新的技术水平(SOTA),显著超越了多任务基线。此外,在没有领域适应的情况下,真实世界深度迁移的结果与竞争对手相当,同时保持了几何保真度的清晰遮挡边界。我们将发布我们的代码、预训练模型和数据集,以支持该方向的未来研究。

[105] CROP:基于上下文区域的视觉标记剪枝
标题: CROP: Contextual Region-Oriented Visual Token Pruning
作者: Jiawei Guo / Feifei Zhai / Pu Jian / Qianrun Wei / Yu Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
当前基于视觉语言模型(VLM)的视觉问答(VQA)方法通常处理整个图像,导致生成过多的视觉标记,其中包含与所提问题无关的冗余信息。这些不必要的图像细节的丰富性产生了大量视觉标记,极大地增加了VLM的内存和计算需求。为了解决这个问题,我们提出了上下文区域导向的视觉标记剪枝(CROP),这是一种通过两步过程压缩视觉标记的新框架:定位和剪枝。具体来说,CROP首先使用一个高效模型来识别与输入查询相关的上下文区域。随后,引入了两种不同的剪枝策略:(1)预LLM压缩(PLC),它以不同的比例自适应地压缩不同的图像区域;(2)内LLM剪枝(ILP),这是一种无需训练的方法,通过识别的上下文区域指导在早期LLM层内剪枝标记。对广泛的VQA任务进行的广泛实验表明,CROP显著优于现有的视觉标记剪枝方法,并实现了最先进的性能。我们的代码和数据集将会公开。

[106] 3D-UIR:通过基于物理的外观-介质解耦进行水下3D场景重建的3D高斯
标题: 3D-UIR: 3D Gaussian for Underwater 3D Scene Reconstruction via Physics-Based Appearance-Medium Decouplin
作者: Jieyu Yuan / Yujun Li / Yuanlin Zhang / Chunle Guo / Xiongxin Tang / Ruixing Wang / Chongyi Li
原文:   [英文]   [中文]  
备注: None
摘要:
由于复杂的光介质相互作用,水下场景重建的新视图合成面临独特的挑战。水体中的光学散射和吸收带来了不均匀的介质衰减干扰,这破坏了传统体渲染对均匀传播介质的假设。虽然3D高斯散点(3DGS)提供了实时渲染能力,但在水下不均匀环境中,由于散射介质引入伪影和不一致的外观,它表现不佳。在本研究中,我们提出了一个基于物理的框架,通过定制的高斯建模将物体外观与水介质效应分离。我们的方法引入了外观嵌入,这是对背散射和衰减的显式介质表示,增强了场景的一致性。此外,我们提出了一种距离引导的优化策略,该策略利用伪深度图作为监督,并通过深度正则化和尺度惩罚项来提高几何保真度。通过通过水下成像模型集成所提出的外观和介质建模组件,我们的方法实现了高质量的新视图合成和物理准确的场景恢复。实验表明,与现有方法相比,我们在渲染质量和恢复精度方面有显著的改进。项目页面可在此网址访问:\href{this https URL}{this https URL}

[107] Plenodium:使用光场介质表示的水下三维场景重建
标题: Plenodium: UnderWater 3D Scene Reconstruction with Plenoptic Medium Representation
作者: Changguanng Wu / Jiangxin Dong / Chengjian Li / Jinhui Tang
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了 Plenodium(全光介质),这是一种有效且高效的 3D 表示框架,能够同时建模物体和参与介质。与仅依赖于视图依赖建模的现有介质表示不同,我们新颖的全光介质表示通过球谐编码结合了方向和位置信息,从而实现了高度精确的水下场景重建。为了解决退化水下环境中的初始化挑战,我们提出了伪深度高斯补全,以稳健的深度先验增强由 COLMAP 得出的点云。此外,我们开发了一种深度排序正则化损失,以优化场景的几何结构并提高深度图的序数一致性。在真实世界的水下数据集上进行的大量实验表明,我们的方法在 3D 重建方面取得了显著的改进。此外,我们进行了具有真实值和可控散射介质的模拟数据集实验,以展示我们的方法在水下场景中的恢复能力。我们的代码和数据集可在此 https URL 获得。

[108] DiMoSR:通过多分支膨胀卷积进行特征调制以实现高效图像超分辨率
标题: DiMoSR: Feature Modulation via Multi-Branch Dilated Convolutions for Efficient Image Super-Resolution
作者: M. Akin Yilmaz / Ahmet Bilican / A. Murat Tekalp
原文:   [英文]   [中文]  
备注: None
摘要:
在轻量级单图像超分辨率(SISR)中,平衡重建质量与模型效率仍然是一个关键挑战。尽管最近的先进SISR方法中普遍采用注意力机制,主要用于强调或抑制特征图,但其他架构范式仍需进一步探索。本文介绍了DiMoSR(Dilated Modulation Super-Resolution),这是一种新颖的架构,通过调制增强特征表示,以补充轻量级SISR网络中的注意力机制。所提出的方法利用多分支膨胀卷积在保持计算效率的同时,捕获更广泛感受野中的丰富上下文信息。实验结果表明,DiMoSR在各种基准数据集上优于现有的轻量级方法,获得了更高的PSNR和SSIM指标,同时计算复杂度相当或更低。通过全面的消融研究,这项工作不仅验证了DiMoSR的有效性,还提供了关于注意力机制与特征调制之间相互作用的关键见解,以指导未来高效网络设计的研究。我们的结果的代码和模型权重可在此URL获取:this https URL

[109] 比斯博斯湿地的监督与自监督土地覆盖分割与分类
标题: Supervised and self-supervised land-cover segmentation & classification of the Biesbosch wetlands
作者: Eva Gmelich Meijling / Roberto Del Prete / Arnoud Visser
原文:   [英文]   [中文]  
备注: 12 pages, presented at the Netherlands Conference on Computer Vision (NCCV), Utrecht, May 2025
摘要:
准确的湿地地表覆盖分类对于环境监测、生物多样性评估和可持续生态系统管理至关重要。然而,标注数据的稀缺性,尤其是高分辨率卫星影像的数据稀缺性,对监督学习方法构成了重大挑战。为了解决这个问题,本研究提出了一种湿地地表覆盖分割和分类的方法,该方法结合了监督学习和自监督学习(SSL)。我们在荷兰的六个湿地地区使用Sentinel-2影像从头训练了一个U-Net模型,达到了85.26%的基线模型准确率。 针对标注数据有限的问题,结果表明,使用自编码器进行SSL预训练可以提高准确性,特别是在难以获得标注数据的高分辨率影像中,准确率达到了88.23%。 此外,我们引入了一个框架,将手动标注的高分辨率标签扩展到中等分辨率的输入。虽然不同分辨率之间的定量性能相当,但高分辨率影像提供了显著更清晰的分割边界和更精细的空间细节。 作为这项工作的一部分,我们还贡献了一个经过精心整理的Sentinel-2数据集,包含适用于湿地分类任务的Dynamic World标签,并公开提供。

[110] 用于单目3D人体姿态估计的带有线姿态图的光谱压缩变换器
标题: Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation
作者: Zenghao Zheng / Lianping Yang / Hegui Zhu / Mingrui Ye
原文:   [英文]   [中文]  
备注: None
摘要:
基于Transformer的3D人体姿态估计方法由于自注意力机制相对于序列长度的二次复杂性而面临高计算成本。此外,姿态序列通常在帧之间包含显著的冗余。然而,最近的方法通常未能在有效消除序列冗余的同时提高模型容量。在这项工作中,我们引入了光谱压缩Transformer(SCT)来减少序列长度并加速计算。SCT编码器将块之间的隐藏特征视为时间特征信号(TFS),并应用基于傅里叶变换的离散余弦变换来确定要保留的光谱成分。通过滤除某些高频噪声成分,SCT压缩了序列长度并减少了冗余。为了进一步丰富输入序列的先验结构信息,我们提出了基于线图理论的线姿态图(LPG)。LPG生成骨骼位置信息,以补充输入的2D关节位置,从而提高模型的性能。最后,我们设计了一种双流网络架构,以有效地建模空间关节关系和姿态序列中的压缩运动轨迹。在两个基准数据集(即Human3.6M和MPI-INF-3DHP)上的大量实验表明,我们的模型在提高计算效率的同时实现了最先进的性能。例如,在Human3.6M数据集上,我们的方法实现了37.7mm的MPJPE,同时保持较低的计算成本。此外,我们对每个模块进行了消融研究以评估其有效性。代码和模型将会发布。

[111] 使用中点归一化技术和注意力机制的高效叶片病害分类与分割
标题: Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism
作者: Enam Ahmed Taufik / Antara Firoz Parsa / Seraj Al Mahmud Mostafa
原文:   [英文]   [中文]  
备注: Accepted in 2025 IEEE International Conference on Image Processing (ICIP)
摘要:
由于标记数据稀缺和复杂的上下文因素,从叶片图像中增强植物病害检测仍然是一个持续的挑战。我们介绍了一种变革性的两阶段方法:用于智能图像预处理的中点归一化(MPN),结合复杂的注意力机制动态重新校准特征表示。我们的分类管道将MPN与挤压与激励(SE)块结合,实现了显著的93%准确率,同时保持了卓越的类别平衡。我们目标类别的完美F1得分体现了注意力在自适应特征优化中的强大作用。对于分割任务,我们在U-Net架构中无缝集成了相同的注意力块,使用MPN增强输入,提供了令人信服的性能提升,达到72.44%的Dice得分和58.54%的IoU,显著优于基线实现。除了卓越的准确性指标外,我们的方法还提供了计算效率高、轻量级的架构,非常适合实际的计算机视觉应用。

[112] MagicTryOn:利用扩散变换器实现服装保留的视频虚拟试穿
标题: MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on
作者: Guangyuan Li / Siming Zheng / Hao Zhang / Jinwei Chen / Junsheng Luan / Binkai Ou / Lei Zhao / Bo Li / Peng-Tao Jiang
原文:   [英文]   [中文]  
备注: None
摘要:
视频虚拟试穿(VVT)旨在模拟服装在连续视频帧中的自然外观,捕捉其动态变化以及与人体运动的互动。然而,当前的VVT方法在时空一致性和服装内容保留方面仍面临挑战。首先,它们使用基于U-Net的扩散模型,这些模型在表现能力上有限,难以重建复杂细节。其次,它们采用空间和时间注意力的分离建模方法,这阻碍了跨帧结构关系和动态一致性的有效捕捉。第三,它们对服装细节的表达仍然不足,影响了整体合成结果的真实感和稳定性,尤其是在人体运动期间。为了解决上述挑战,我们提出了MagicTryOn,这是一种基于大规模视频扩散的框架,替换U-Net架构为扩散Transformer,并结合全自注意力以共同建模视频的时空一致性。我们设计了一种从粗到细的服装保留策略。粗略策略在嵌入阶段整合服装标记,而精细策略在去噪阶段结合多种基于服装的条件,如语义、纹理和轮廓线。此外,我们引入了一种掩码感知损失,以进一步优化服装区域的保真度。在图像和视频试穿数据集上的大量实验表明,我们的方法在综合评估中优于现有的SOTA方法,并能够推广到自然场景中。

[113] MME-VideoOCR:评估多模态大语言模型在视频场景中的OCR能力
标题: MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios
作者: Yang Shi / Huanqian Wang / Wulin Xie / Huanyao Zhang / Lijie Zhao / Yi-Fan Zhang / Xinfeng Li / Chaoyou Fu / Zhuoer Wen / Wenting Liu / Zhuoran Zhang / Xinlong Chen / Bohan Zeng / Sihan Yang / Yuanxing Zhang / Pengfei Wan / Haotian Wang / Wenjing Yang
原文:   [英文]   [中文]  
备注: preprint
摘要:
多模态大语言模型(MLLMs)在静态图像的光学字符识别(OCR)中取得了相当高的准确性。然而,由于视频内容中固有的运动模糊、时间变化和视觉效果等因素,它们在视频OCR中的效果显著降低。为了为训练实用的MLLMs提供更清晰的指导,我们引入了MME-VideoOCR基准,该基准涵盖了广泛的视频OCR应用场景。MME-VideoOCR包括10个任务类别,包含25个单独的任务,跨越44个不同的场景。这些任务不仅限于文本识别,还包括对视频中文本内容的更深层次理解和推理。该基准由1,464个视频组成,这些视频具有不同的分辨率、纵横比和时长,以及2,000个精心策划、手动标注的问题-答案对。我们在MME-VideoOCR上评估了18个最先进的MLLMs,结果显示即使是表现最好的模型(Gemini-2.5 Pro)也仅达到了73.7%的准确率。细粒度分析表明,尽管现有的MLLMs在相关文本包含在单个或少数帧中的任务上表现出色,但在有效处理需要整体视频理解的任务上表现有限。这些限制在需要时空推理、跨帧信息整合或抵抗语言先验偏见的场景中尤为明显。我们的研究结果还强调了高分辨率视觉输入和足够的时间覆盖对于在动态视频场景中实现可靠OCR的重要性。

[114] HoliTom:用于快速视频大型语言模型的整体化标记合并
标题: HoliTom: Holistic Token Merging for Fast Video Large Language Models
作者: Kele Shao / Keda Tao / Can Qin / Haoxuan You / Yang Sui / Huan Wang
原文:   [英文]   [中文]  
备注: None
摘要:
视频大语言模型(video LLMs)在视频理解方面表现出色,但由于冗余的视频标记而面临显著的计算效率低下问题。现有的标记剪枝方法提供了解决方案。然而,在LLM内部进行操作的剪枝方法(如FastV)在浅层中会产生固有的计算开销。相比之下,在LLM之前进行标记剪枝的方法(外部LLM剪枝)主要解决单个帧或有限时间窗口内的空间冗余,忽视了跨越较长视频序列的关键全局时间动态和相关性。这导致次优的时空减少,并未充分利用视频的可压缩性。关键是,结合这些策略的协同潜力和相互影响尚未被探索。为了进一步减少冗余,我们引入了HoliTom,一种新颖的无训练整体标记合并框架。HoliTom通过全局冗余感知的时间分割进行外部LLM剪枝,随后进行时空合并,将视觉标记减少超过90%,显著减轻了LLM的计算负担。与此互补,我们引入了一种稳健的基于标记相似性的内部LLM合并方法,旨在实现卓越的性能并与外部LLM剪枝兼容。评估结果表明,我们的方法在LLaVA-OneVision-7B上展示了令人满意的效率-性能权衡,将计算成本降低到原始FLOPs的6.9%,同时保持99.1%的原始性能。此外,我们实现了2.28倍的首次标记时间(TTFT)减少和1.32倍的解码吞吐量加速,突显了我们集成剪枝方法在高效视频LLM推理中的实际优势。

[115] 超越准确性:揭示相似性感知的作用及其与语义在监督学习中的对齐
标题: Beyond Accuracy: Uncovering the Role of Similarity Perception and its Alignment with Semantics in Supervised Learning
作者: Katarzyna Filus / Mateusz Żarski
原文:   [英文]   [中文]  
备注: None
摘要:
相似性以多种形式表现出来,其中语义相似性尤为重要,它作为人类对象分类的一种近似方法,例如基于共享功能和进化特征。语义相似性还通过词汇结构(如WordNet)在计算建模中提供了实用优势,具有恒定且可解释的相似性。在深度视觉领域,对于相似性感知的出现现象仍然关注不足。我们引入了深度相似性检查器(DSI)——一个系统化框架,用于检查深度视觉网络如何发展其相似性感知及其与语义相似性的对齐。我们的实验表明,卷积神经网络(CNNs)和视觉变换器(ViTs)在训练过程中都发展出丰富的相似性感知,经历了三个阶段(初始相似性激增、精炼、稳定),并且CNNs和ViTs之间存在明显差异。除了逐步消除错误外,还可以观察到错误精炼现象。

[116] AgriFM:用于作物制图的多源时序遥感基础模型
标题: AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping
作者: Wenyuan Li / Shunlin Liang / Keyan Chen / Yongzhe Chen / Han Ma / Jianglei Xu / Yichuan Ma / Shikang Guan / Husheng Fang / Zhenwei Shi
原文:   [英文]   [中文]  
备注: None
摘要:
准确的作物制图在根本上依赖于对多尺度时空模式的建模,其中空间尺度从单个田地纹理到景观级别的背景,时间尺度则捕捉短期的物候变化和整个生长季节的动态。基于Transformer的遥感基础模型(RSFMs)由于其统一时空处理的内在能力,为作物制图提供了有前景的潜力。然而,目前的RSFMs在作物制图方面仍然不够理想:它们要么采用固定的时空窗口,忽略了作物系统的多尺度特性,要么完全忽视时间信息,仅关注空间模式。为弥补这些不足,我们提出了AgriFM,这是一种专为农业作物制图设计的多源遥感基础模型。我们的方法首先确立了同时进行分层时空特征提取的必要性,从而开发了一种改进的视频Swin Transformer架构,其中时间下采样与空间缩放操作同步进行。这个改进的主干网络能够高效地统一处理长时间序列的卫星输入。AgriFM利用来自MODIS、Landsat-8/9和Sentinel-2的时间丰富的数据流,并在一个由超过2500万张图像样本组成的全球代表性数据集上进行预训练,这些样本由土地覆盖产品监督。最终的框架结合了一个多功能的解码器架构,能够动态融合这些学习到的时空表示,支持多样的下游任务。全面的评估显示,AgriFM在所有下游任务中均优于传统的深度学习方法和最先进的通用RSFMs。代码将在urlhttps://github.com/flyakon/AgriFM提供。

[117] YOLO-SPCI:通过选择性视角类别集成增强遥感目标检测
标题: YOLO-SPCI: Enhancing Remote Sensing Object Detection via Selective-Perspective-Class Integration
作者: Xinyuan Wang / Lian Peng / Xiangcheng Li / Yilin He / KinTak U
原文:   [英文]   [中文]  
备注: None
摘要:
由于极端的尺度变化、密集的目标分布和杂乱的背景,遥感图像中的目标检测仍然是一项具有挑战性的任务。尽管最近的检测器如YOLOv8显示了有希望的结果,但其骨干架构缺乏显式机制来指导多尺度特征的细化,限制了在高分辨率航空数据上的性能。在这项工作中,我们提出了YOLO-SPCI,这是一种增强注意力的检测框架,引入了一个轻量级的选择性视角类别集成(SPCI)模块来改善特征表示。SPCI模块集成了三个组件:用于自适应调节全局特征流的选择性流门(SSG)、用于上下文感知多尺度集成的视角融合模块(PFM),以及用于增强类间可分性的类别区分模块(CDM)。我们在YOLOv8骨干的P3和P5阶段嵌入了两个SPCI模块,实现了有效的细化,同时保持了与原始颈部和头部的兼容性。在NWPU VHR-10数据集上的实验表明,YOLO-SPCI相比于最先进的检测器实现了更优越的性能。

[118] Video-Holmes:多模态大模型能像福尔摩斯一样进行复杂视频推理吗?
标题: Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?
作者: Junhao Cheng / Yuying Ge / Teng Wang / Yixiao Ge / Jing Liao / Ying Shan
原文:   [英文]   [中文]  
备注: Homepage: this https URL
摘要:
最近在链式推理(CoT)和强化学习(RL)后训练方面的进展被报道为增强多模态大模型(MLLMs)的视频推理能力。这一进展自然引发了一个问题:这些模型能否以类似人类专家的方式进行复杂的视频推理?然而,现有的视频基准测试主要评估视觉感知和基础能力,其问题可以基于明确的提示或孤立的视觉线索来回答。这些基准测试并未充分捕捉现实世界推理的复杂性,在现实中,人类必须主动搜索、整合和分析多个线索才能得出结论。为了解决这个问题,我们提出了Video-Holmes,这是一个受夏洛克·福尔摩斯推理过程启发的基准,旨在评估MLLMs的复杂视频推理能力。Video-Holmes由270部手动注释的悬疑短片中提取的1,837个问题组成,涵盖七个精心设计的任务。每个任务的构建首先通过识别影片中的关键事件和因果关系,然后设计需要模型主动定位和连接分散在不同视频片段中的多个相关视觉线索的问题。我们对最先进的MLLMs的全面评估表明,尽管这些模型通常在视觉感知方面表现出色,但在整合信息方面遇到了相当大的困难,并且经常错过关键线索。例如,表现最好的模型Gemini-2.5-Pro的准确率仅为45%,大多数模型的得分低于40%。我们希望Video-Holmes可以作为多模态推理的“福尔摩斯测试”,激励模型更像人类一样进行推理,并强调该领域中持续存在的挑战。该基准测试已在此https URL发布。

[119] GeoLLaVA-8K:将遥感多模态大型语言模型扩展到8K分辨率
标题: GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution
作者: Fengxiang Wang / Mingshuo Chen / Yueying Li / Di Wang / Haotian Wang / Zonghao Guo / Zefan Wang / Boqi Shan / Long Lan / Yulin Wang / Hongzhen Wang / Wenjing Yang / Bo Du / Jing Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
超高分辨率(UHR)遥感(RS)影像为地球观测提供了宝贵的数据,但由于两个关键瓶颈,对现有的多模态基础模型提出了挑战:(1)UHR训练数据的可用性有限,以及(2)由于图像尺寸过大导致的标记爆炸。为了解决数据稀缺问题,我们引入了SuperRS-VQA(平均8,376×8,376)和HighRS-VQA(平均2,000×1,912),这是迄今为止RS中分辨率最高的视觉-语言数据集,涵盖了22个真实世界的对话任务。为了缓解标记爆炸,我们的初步研究揭示了RS图像中存在显著的冗余:关键信息集中在一小部分以对象为中心的标记中,而修剪背景标记(例如海洋或森林)甚至可以提高性能。受这些发现的启发,我们提出了两种策略:背景标记修剪和锚定标记选择,以减少内存占用,同时保留关键信息。通过这些技术,我们引入了GeoLLaVA-8K,这是第一个能够处理高达8K×8K分辨率输入的RS专注多模态大型语言模型,基于LLaVA框架构建。经过SuperRS-VQA和HighRS-VQA训练,GeoLLaVA-8K在XLRS-Bench上设立了新的最先进水平。

[120] 赋能矢量图形:实现一致的任意视图和视图相关的可见性
标题: Empowering Vector Graphics with Consistently Arbitrary Viewing and View-dependent Visibility
作者: Yidi Li / Jun Xiao / Zhengda Lu / Yiqun Wang / Haiyong Jiang
原文:   [英文]  
备注: CVPR 2025
摘要:
本文提出了一种新颖的文本到矢量图形生成方法,称为Dream3DVG,支持任意视点查看、渐进式细节优化和视图相关遮挡感知。我们的方法是一个双分支优化框架,由辅助的3D高斯散点优化分支和3D矢量图形优化分支组成。引入的3DGS分支可以通过更一致的指导来弥合文本提示和矢量图形之间的领域差距。此外,3DGS通过调度无分类器指导实现渐进式细节控制,便于在初始阶段用粗略形状引导矢量图形,并在后期阶段引导更精细的细节。我们还通过设计一个可见性感知渲染模块来改善视图相关的遮挡。大量关于3D草图和3D图标的结果展示了该方法在不同细节抽象层次、跨视图一致性和遮挡感知笔画剔除方面的优越性。

[121] 锯齿点云曼巴:用于点云理解的空间-语义曼巴
标题: ZigzagPointMamba: Spatial-Semantic Mamba for Point Cloud Understanding
作者: Linshuang Diao / Dayong Ren / Sensen Song / Yurong Qian
原文:   [英文]  
备注: None
摘要:
状态空间模型(SSMs),如PointMamba,能够以线性复杂度高效地提取点云的特征,用于自监督学习,在计算效率上优于Transformers。然而,现有的基于PointMamba的方法依赖于复杂的token排序和随机掩码,这破坏了空间连续性和局部语义关联。我们提出了ZigzagPointMamba来解决这些问题。我们方法的核心是一个简单的锯齿形扫描路径,它在全局上对点云token进行排序,通过保留空间上相邻点token的接近性来增强空间连续性。然而,随机掩码削弱了自监督学习中的局部语义建模。为了解决这个问题,我们引入了一种语义-孪生掩码策略(SMS),它通过整合原始和相似token的局部特征来掩盖语义相似的token,以促进重建。这克服了对孤立局部特征的依赖,并实现了稳健的全局语义建模。我们预训练的ZigzagPointMamba权重显著提高了下游任务的性能,在ShapeNetPart的部件分割任务中实现了1.59%的mIoU提升,在ModelNet40的分类任务中提高了0.4%的准确率,并在ScanObjectNN的OBJ-BG、OBJ-ONLY和PB-T50-RS子集的分类任务中分别提高了0.19%、1.22%和0.72%的准确率。代码可在此URL获取:this https URL

[122] 自动识别与纠正:噪声场景下的鲁棒深度对比多视角聚类
标题: Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios
作者: Xihong Yang / Siwei Wang / Fangdi Wang / Jiaqi Jin / Suyuan Liu / Yue Liu / En Zhu / Xinwang Liu / Yueming Jin
原文:   [英文]   [中文]  
备注: None
摘要:
利用强大的表示学习能力,深度多视图聚类方法近年来通过有效整合来自不同视图的多源信息,展示了可靠的性能。大多数现有方法依赖于视图干净的假设。然而,噪声在现实世界场景中无处不在,导致性能显著下降。为了解决这个问题,我们提出了一种新颖的多视图聚类框架,用于自动识别和纠正噪声数据,称为AIRMVC。具体来说,我们使用高斯混合模型(GMM)将噪声识别重新表述为异常识别问题。然后,我们设计了一种混合纠正策略,以基于识别结果减轻噪声数据的不利影响。此外,我们引入了一种抗噪声的对比机制,以生成可靠的表示。此外,我们提供了理论证明,证明这些表示可以丢弃噪声信息,从而提高下游任务的性能。在六个基准数据集上的大量实验表明,AIRMVC在噪声场景中的鲁棒性方面优于最先进的算法。AIRMVC的代码可在Github上的此URL获取。

[123] Mentor3AD:基于特征重建的三维异常检测通过多模态导师学习
标题: Mentor3AD: Feature Reconstruction-based 3D Anomaly Detection via Multi-modality Mentor Learning
作者: Jinbao Wang / Hanzhe Liang / Can Gao / Chenxi Hu / Jie Zhou / Yunkang Cao / Linlin Shen / Weiming Shen
原文:   [英文]   [中文]  
备注: 10 Pages, 6 Figures, 7 Tables
摘要:
多模态特征重建是一种有前途的3D异常检测方法,它利用双模态的互补信息。我们通过利用多模态导师学习进一步推进这一范式,该方法融合中间特征以更好地区分正常特征与异常特征。为了解决这些挑战,我们提出了一种名为Mentor3AD的新方法,该方法利用多模态导师学习。通过利用不同模态的共享特征,Mentor3AD能够提取更有效的特征并指导特征重建,从而最终提高检测性能。具体来说,Mentor3AD包括一个融合导师模块(MFM),该模块将从RGB和3D模态中提取的特征合并以创建导师特征。此外,我们设计了一个指导导师模块(MGM)来促进跨模态重建,并由导师特征支持。最后,我们引入了一个投票模块(VM)以更准确地生成最终的异常评分。在MVTec 3D-AD和Eyecandies上的广泛比较和消融研究验证了所提出方法的有效性。

[124] OmniSync:通过扩散变换器实现通用唇同步
标题: OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers
作者: Ziqiao Peng / Jiwen Liu / Haoxian Zhang / Xiaoqiang Liu / Songlin Tang / Pengfei Wan / Di Zhang / Hongyan Liu / Jun He
原文:   [英文]   [中文]  
备注: this https URL
摘要:
唇同步是将视频中说话者的唇部动作与相应的语音音频对齐的任务,对于创建逼真且富有表现力的视频内容至关重要。然而,现有的方法通常依赖于参考帧和遮罩帧修复,这限制了它们在身份一致性、姿势变化、面部遮挡和风格化内容方面的鲁棒性。此外,由于音频信号提供的条件比视觉线索更弱,原始视频中的唇形泄漏会影响唇同步质量。在本文中,我们提出了OmniSync,这是一种适用于多种视觉场景的通用唇同步框架。我们的方法引入了一种无遮罩的训练范式,使用扩散变压器模型进行直接帧编辑而无需显式遮罩,从而在保持自然面部动态和保留角色身份的同时实现无限时长的推理。在推理过程中,我们提出了一种基于流匹配的渐进噪声初始化方法,以确保姿势和身份的一致性,同时允许精确的口部区域编辑。为了解决音频的弱条件信号问题,我们开发了一种动态时空无分类器引导(DS-CFG)机制,该机制能够自适应地调整时间和空间上的引导强度。我们还建立了AIGC-LipSync基准,这是第一个用于评估多样化AI生成视频中唇同步的评估套件。大量实验表明,OmniSync在视觉质量和唇同步准确性方面显著优于现有方法,在真实世界和AI生成视频中均取得了优异的结果。

[125] 视觉产品图:连接视觉产品与合成图像以实现端到端风格推荐
标题: Visual Product Graph: Bridging Visual Products And Composite Images For End-to-End Style Recommendations
作者: Yue Li Du / Ben Alexander / Mikhail Antonenka / Rohan Mahadev / Hao-yu Wu / Dmitry Kislyuk
原文:   [英文]   [中文]  
备注: 10 pages, 10 figures
摘要:
检索语义相似但视觉上不同的内容一直是视觉搜索系统中的一项关键能力。在这项工作中,我们旨在通过视觉产品图(VPG)来解决这个问题,利用高性能的存储基础设施和最先进的计算机视觉模型进行图像理解。VPG 被构建为一个在线实时检索系统,使用户能够从单个产品导航到包含这些产品的复合场景,并提供互补的推荐。我们的系统不仅通过展示产品在特定情境中的搭配方式提供上下文见解,还从这些灵感中提供互补产品的推荐。我们讨论了构建视觉产品图的基本组件,以及在目标检测、基础视觉嵌入和其他视觉信号方面的核心计算机视觉模型改进。我们的系统在端到端的人类相关性评估中实现了78.8%的极度相似@1,并且模块参与率为6%。由视觉产品图技术驱动的“搭配方式”模块已在 Pinterest 上投入使用。

[126] Active-O3:通过GRPO赋能多模态大型语言模型的主动感知
标题: Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO
作者: Muzhi Zhu / Hao Zhong / Canyu Zhao / Zongze Du / Zheng Huang / Mingyu Liu / Hao Chen / Cheng Zou / Jingdong Chen / Ming Yang / Chunhua Shen
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
主动视觉,也称为主动感知,指的是主动选择观察的位置和方式以收集与任务相关的信息的过程。它是人类和先进的具身智能体中高效感知和决策的关键组成部分。最近,使用多模态大型语言模型(MLLMs)作为机器人系统中的核心规划和决策模块受到了广泛关注。然而,尽管主动感知在具身智能中非常重要,但关于如何使MLLMs具备或学习主动感知能力的探索却很少。在本文中,我们首先系统地定义了基于MLLM的主动感知任务。我们指出,最近提出的GPT-o3模型的放大搜索策略可以被视为主动感知的一种特殊情况;然而,它仍然存在搜索效率低和区域选择不准确的问题。为了解决这些问题,我们提出了ACTIVE-O3,这是一种纯粹基于强化学习的训练框架,建立在GRPO之上,旨在使MLLMs具备主动感知能力。我们进一步建立了一个全面的基准套件,以评估ACTIVE-O3在一般开放世界任务(如小物体和密集物体定位)以及特定领域场景(包括遥感中的小物体检测和自动驾驶,以及细粒度交互分割)中的表现。此外,ACTIVE-O3还在V*基准上展示了强大的零样本推理能力,而无需依赖任何显式推理数据。我们希望我们的工作能够提供一个简单的代码库和评估协议,以促进未来关于MLLMs中主动感知的研究。

[127] ID-Align: 面向视觉语言模型动态高分辨率适应的RoPE感知位置重映射
标题: ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models
作者: Bozhou Li / Wentao Zhang
原文:   [英文]  
备注: None
摘要:
目前,一种提高视觉语言模型(VLMs)性能的流行方法是同时对高分辨率版本和缩略图进行编码。虽然这种方法有效,但会生成大量的图像标记。当与广泛使用的旋转位置嵌入(RoPE)结合使用时,其长期衰减特性阻碍了高分辨率标记与缩略图标记之间以及文本与图像之间的交互。为了解决这些问题,我们提出了ID-Align,通过重新排序位置ID来缓解这些问题。在这种方法中,高分辨率标记继承其对应缩略图标记的ID,同时限制位置索引的过度扩展。我们在LLaVA-Next框架内进行的实验表明,ID-Align实现了显著的改进,包括在MMBench的关系推理任务上提高了6.09%,并在多个基准测试中取得了显著的提升。我们的代码可以在以下链接中找到:this https URL。

[128] 通过自适应注意力校准缓解大型视觉语言模型中的幻觉
标题: Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration
作者: Mehrdad Fazli / Bowen Wei / Ziwei Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
大型视觉-语言模型(LVLMs)在多模态任务中表现出色,但常常会出现幻觉现象,自信地描述图像中不存在的物体或属性。当前的推理时干预方法虽然不需要训练,但在开放式和长篇生成场景中难以保持准确性。我们引入了信心感知注意力校准(CAAC)框架来解决这一挑战,针对两个关键偏差:空间感知偏差,即注意力在图像标记上分布不均,以及模态偏差,即随着时间推移注意力从视觉输入转向文本输入。CAAC采用两步方法:视觉标记校准(VTC)以平衡视觉标记间的注意力,以及自适应注意力重新缩放(AAR)根据模型的信心来加强视觉基础。这种基于信心的调整确保了生成过程中的视觉一致性。在CHAIR、AMBER和POPE基准测试上的实验表明,CAAC优于基线方法,特别是在长篇生成中,有效减少了幻觉现象。

[129] DetailFlow:通过下一个细节预测进行一维粗到细自回归图像生成
标题: DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction
作者: Yiheng Liu / Liao Qu / Huichao Zhang / Xu Wang / Yi Jiang / Yiming Gao / Hu Ye / Xian Li / Shuai Wang / Daniel K. Du / Shu Cheng / Zehuan Yuan / Xinglong Wu
原文:   [英文]   [中文]  
备注: None
摘要:
本文提出了DetailFlow,一种粗到细的1D自回归(AR)图像生成方法,通过一种新颖的下一个细节预测策略来建模图像。通过学习一个分辨率感知的标记序列,并以逐步退化的图像进行监督,DetailFlow使生成过程能够从整体结构开始,并逐步细化细节。这种粗到细的1D标记序列与自回归推理机制很好地结合,为AR模型生成复杂视觉内容提供了一种更自然和高效的方法。我们的紧凑型1D AR模型在使用显著少于之前方法(如VAR/VQGAN)的标记的情况下实现了高质量的图像合成。我们进一步提出了一种具有自我校正的并行推理机制,将生成速度加快约8倍,同时减少了教师强制监督中固有的累积采样误差。在ImageNet 256x256基准测试中,我们的方法使用128个标记实现了2.96 gFID,优于VAR(3.3 FID)和FlexVAR(3.05 FID),这两者在其AR模型中都需要680个标记。此外,由于显著减少的标记数量和并行推理机制,我们的方法的推理速度比VAR和FlexVAR快近2倍。大量实验结果证明了DetailFlow在生成质量和效率方面优于现有的最先进方法。

[130] 策略优化的文本到图像管道设计
标题: Policy Optimized Text-to-Image Pipeline Design
作者: Uri Gadot / Rinon Gal / Yftah Ziser / Gal Chechik / Shie Mannor
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像生成已经从单一的整体模型发展到复杂的多组件流程。这些流程结合了微调的生成器、适配器、放大模块,甚至编辑步骤,从而显著提高了图像质量。然而,其有效设计需要大量的专业知识。最近的方法显示出通过大型语言模型(LLMs)自动化这一过程的潜力,但它们存在两个关键限制:生成数百个预定义流程的图像所需的巨大计算需求,以及在超出记忆化训练示例时的泛化能力差。我们引入了一种新颖的基于强化学习的框架来解决这些低效问题。我们的方法首先训练一个奖励模型集群,能够直接从提示-工作流组合中预测图像质量分数,从而在训练期间消除了昂贵的图像生成需求。然后,我们实施了一个两阶段的训练策略:初始工作流词汇训练,随后是基于GRPO的优化,引导模型朝向工作流空间中表现更高的区域。此外,我们结合了一种无分类器指导的增强技术,该技术沿着初始模型和GRPO调优模型之间的路径进行外推,进一步提高输出质量。我们通过一组比较验证了我们的方法,显示它可以成功创建具有更大多样性的新流程,并在图像质量上优于现有基线。

[131] MV-CoLight:高效的对象合成与一致的光照和阴影生成
标题: MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation
作者: Kerui Ren / Jiayang Bai / Linning Xu / Lihan Jiang / Jiangmiao Pang / Mulin Yu / Bo Dai
原文:   [英文]   [中文]  
备注: None
摘要:
对象合成在增强现实(AR)和具身智能应用中具有显著的潜力。现有的方法主要集中在单图像场景或内在分解技术上,在多视图一致性、复杂场景和多样化光照条件方面面临挑战。最近的逆渲染进展,如3D高斯和基于扩散的方法,虽然提高了一致性,但受限于可扩展性、数据需求量大或每个场景的重建时间长。为了扩大其适用性,我们引入了MV-CoLight,一个用于在2D图像和3D场景中实现光照一致的对象合成的两阶段框架。我们新颖的前馈架构直接对光照和阴影进行建模,避免了基于扩散方法的迭代偏差。我们采用基于Hilbert曲线的映射来无缝对齐2D图像输入与3D高斯场景表示。为了促进训练和评估,我们进一步引入了一个大规模的3D合成数据集。实验表明,在标准基准和我们的数据集上实现了最先进的和谐结果,并且随意捕获的真实场景展示了该框架的鲁棒性和广泛的泛化能力。

[132] 果断决策:用于多主体生成的噪声诱导布局
标题: Be Decisive: Noise-Induced Layouts for Multi-Subject Generation
作者: Omer Dahary / Yehonathan Cohen / Or Patashnik / Kfir Aberman / Daniel Cohen-Or
原文:   [英文]   [中文]  
备注: SIGGRAPH 2025. Project page: this https URL
摘要:
生成多个不同主体仍然是现有文本到图像扩散模型的一个挑战。复杂的提示往往导致主体泄漏,造成数量、属性和视觉特征的不准确。防止主体之间的泄漏需要了解每个主体的空间位置。最近的方法通过外部布局控制提供这些空间位置。然而,强制执行这样的预设布局往往与采样的初始噪声所决定的固有布局相冲突,导致与模型的先验不一致。在这项工作中,我们介绍了一种新方法,该方法从初始噪声中预测与提示对齐的空间布局,并在去噪过程中对其进行优化。通过依赖这种噪声引导的布局,我们避免了与外部强加布局的冲突,并更好地保留了模型的先验。我们的方法使用一个小型神经网络在每个去噪步骤中预测和优化不断演变的噪声引导布局,确保主体之间的清晰边界,同时保持一致性。实验结果表明,与现有的布局引导技术相比,这种噪声对齐策略实现了更好的文本-图像对齐和更稳定的多主体生成,同时保留了模型原始分布的丰富多样性。

[133] 帧内外:无界可控的图像到视频生成
标题: Frame In-N-Out: Unbounded Controllable Image-to-Video Generation
作者: Boyang Wang / Xuweiyi Chen / Matheus Gadelha / Zezhou Cheng
原文:   [英文]   [中文]  
备注: None
摘要:
可控性、时间一致性和细节合成仍然是视频生成中最关键的挑战。在本文中,我们专注于一种常用但未被充分探索的电影技术,称为“进入画面”和“退出画面”。具体来说,从图像到视频的生成开始,用户可以控制图像中的物体自然地离开场景,或通过提供新的身份参考进入场景,并由用户指定的运动轨迹引导。为了支持这一任务,我们引入了一个半自动策划的新数据集、一个针对该设置的综合评估协议,以及一个高效的身份保留运动可控视频扩散变换器架构。我们的评估表明,我们提出的方法显著优于现有的基线。

[134] 通过特征最优对齐对闭源多模态大模型进行对抗攻击
标题: Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment
作者: Xiaojun Jia / Sensen Gao / Simeng Qin / Tianyu Pang / Chao Du / Yihao Huang / Xinfeng Li / Yiming Li / Bo Li / Yang Liu
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大型语言模型(MLLMs)仍然容易受到可转移的对抗性样本的攻击。现有方法通常通过对齐对抗样本和目标样本之间的全局特征(如CLIP的[CLS]标记)来实现定向攻击,但往往忽略了补丁标记中编码的丰富局部信息。这导致了次优的对齐和有限的可转移性,特别是对于闭源模型。为了解决这一限制,我们提出了一种基于特征最优对齐的定向可转移对抗攻击方法,称为FOA-Attack,以提高对抗转移能力。具体来说,在全局层面,我们引入了一种基于余弦相似性的全局特征损失,以对齐对抗样本与目标样本的粗粒度特征。在局部层面,鉴于Transformer中丰富的局部表示,我们利用聚类技术提取紧凑的局部模式,以缓解冗余的局部特征。然后,我们将对抗样本和目标样本之间的局部特征对齐表述为一个最优传输(OT)问题,并提出了一种局部聚类最优传输损失,以优化细粒度特征对齐。此外,我们提出了一种动态集成模型加权策略,以自适应地平衡多个模型在对抗样本生成过程中的影响,从而进一步提高可转移性。跨各种模型的广泛实验表明,所提出的方法具有优越性,尤其是在转移到闭源MLLMs时,优于最先进的方法。代码已在此https URL发布。

[135] Paper2Poster:迈向从科学论文到多模态海报的自动化
标题: Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
作者: Wei Pang / Kevin Qinghong Lin / Xiangru Jian / Xi He / Philip Torr
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
学术海报生成是科学交流中一项重要而又具有挑战性的任务,需要将长篇交错的文档压缩成一个视觉上连贯的页面。为了解决这一挑战,我们引入了第一个用于海报生成的基准和指标套件,该套件将最近的会议论文与作者设计的海报配对,并对输出进行评估:(i) 视觉质量——与人类海报的语义对齐,(ii) 文本连贯性——语言流畅性,(iii) 整体评估——由VLM作为评判者对六个细粒度美学和信息标准进行评分,特别是(iv) PaperQuiz——通过VLM回答生成的测验来衡量海报传达核心论文内容的能力。在此基准的基础上,我们提出了PosterAgent,这是一种自上而下、视觉循环的多代理管道:(a) 解析器将论文提炼成结构化的资产库;(b) 规划器将文本-视觉对齐成二叉树布局,以保持阅读顺序和空间平衡;(c) 绘制-评论循环通过执行渲染代码和使用VLM反馈来精炼每个面板,以消除溢出并确保对齐。在我们全面的评估中,我们发现GPT-4o的输出虽然乍一看视觉上吸引人,但往往表现出嘈杂的文本和较差的PaperQuiz分数,我们发现读者参与是主要的美学瓶颈,因为人类设计的海报主要依赖视觉语义来传达意义。我们的完全开源变体(例如基于Qwen-2.5系列)在几乎所有指标上都优于现有的4o驱动的多代理系统,同时使用的标记减少了87%。它将一篇22页的论文转化为一个最终但可编辑的.pptx海报——仅需$0.005。这些发现为下一代全自动海报生成模型指明了明确的方向。代码和数据集可在此https URL获取。

[136] ViewSpatial-Bench:评估视觉-语言模型中的多视角空间定位
标题: ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models
作者: Dingming Li / Hongxing Li / Zixuan Wang / Yuchen Yan / Hang Zhang / Siqi Chen / Guiyang Hou / Shengpei Jiang / Wenqi Zhang / Yongliang Shen / Weiming Lu / Yueting Zhuang
原文:   [英文]   [中文]  
备注: Project: this https URL
摘要:
视觉-语言模型(VLMs)在理解和推理视觉内容方面表现出色,但在需要跨视角理解和空间推理的任务中仍面临重大挑战。我们发现一个关键的局限性:当前的VLMs主要在自我中心的空间推理(从相机的视角)方面表现出色,但在需要采用其他实体的空间参考框架时,无法推广到客观视角。我们引入了ViewSpatial-Bench,这是第一个专门为多视角空间定位识别评估设计的综合基准,涵盖五种不同的任务类型,并由自动化3D注释管道支持,生成精确的方向标签。对多种VLMs在ViewSpatial-Bench上的全面评估揭示了显著的性能差异:模型在相机视角任务上表现合理,但在从人类视角推理时准确性下降。通过在我们的多视角空间数据集上微调VLMs,我们在各项任务上实现了46.24%的整体性能提升,突显了我们方法的有效性。我们的工作为具身AI系统中的空间智能建立了一个重要的基准,并提供了实证证据,表明建模3D空间关系可以增强VLMs相应的空间理解能力。

[137] 具有自蒸馏寄存器的视觉变换器
标题: Vision Transformers with Self-Distilled Registers
作者: Yinjie Chen / Zipeng Yan / Chong Zhou / Bo Dai / Andrew F. Luo
原文:   [英文]   [中文]  
备注: 27 pages, 14 figures
摘要:
视觉变换器(Vision Transformers, ViTs)已经成为视觉处理任务的主流架构,随着训练数据和模型规模的增加,它们展现出了出色的可扩展性。然而,最近的研究发现,ViTs中出现了一些与局部语义不一致的伪影标记。这些异常标记在需要细粒度定位或结构一致性的任务中会降低ViT的性能。一个有效的解决方案是向ViTs中添加寄存器标记,这些标记在训练过程中可以隐式地“吸收”伪影项。鉴于各种大规模预训练ViTs的可用性,本文旨在为它们配备这样的寄存器标记,而无需从头开始重新训练它们,因为考虑到它们的规模,这样做是不可行的。具体来说,我们提出了一种后验寄存器(Post Hoc Registers, PH-Reg),这是一种高效的自蒸馏方法,可以将寄存器集成到现有的ViT中,而不需要额外的标记数据和完整的重新训练。PH-Reg从同一个预训练的ViT初始化教师和学生网络。教师网络保持冻结且不做修改,而学生网络则通过随机初始化的寄存器标记进行增强。通过对教师网络的输入应用测试时增强,我们生成了无伪影的去噪密集嵌入,然后用这些嵌入来优化仅一小部分解锁的学生权重。我们表明,我们的方法可以有效减少伪影标记的数量,提高学生ViT在零样本和线性探测下的分割和深度预测能力。

[138] 用于人类新视图合成的可泛化和可重光照高斯点云
标题: Generalizable and Relightable Gaussian Splatting for Human Novel View Synthesis
作者: Yipengjing Sun / Chenyang Wang / Shunyuan Zheng / Zonglin Li / Shengping Zhang / Xiangyang Ji
原文:   [英文]  
备注: Project Webpage: this https URL
摘要:
我们提出了GRGS,一种可泛化和可重新照明的3D高斯框架,用于在多种光照条件下实现高保真的人体新视角合成。与现有依赖于每个角色优化或忽略物理约束的方法不同,GRGS采用了一种前馈、完全监督的策略,将来自多视角2D观测的几何、材质和光照线索投射到3D高斯表示中。具体来说,为了重建光照不变的几何,我们引入了一个光照感知几何精炼(LGR)模块,该模块在合成重新照明的数据上进行训练,以预测准确的深度和表面法线。基于高质量的几何,我们进一步提出了一个物理基础神经渲染(PGNR)模块,将神经预测与基于物理的阴影相结合,支持可编辑的重新照明,包括阴影和间接光照。此外,我们设计了一种2D到3D投影训练方案,利用来自环境遮挡、直接和间接光照图的可微分监督,减轻了显式光线追踪的计算成本。大量实验表明,GRGS在视觉质量、几何一致性以及跨角色和光照条件的泛化方面实现了卓越的表现。