scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年2月28日更新论文107
[1] 通过ISP-CNN融合优化CLIP的多模态图像增强用于不均匀照明下的煤矿物联网
标题: CLIP-Optimized Multimodal Image Enhancement via ISP-CNN Fusion for Coal Mine IoVT under Uneven Illumination
作者: Shuai Wang / Shihao Zhang / Jiaqi Wu / Zijian Tian / Wei Chen / Tongzhu Jin / Miaomiao Xue / Zehua Wang / Fei Richard Yu / Victor C. M. Leung
原文:   [英文]   [中文]  
备注: None
摘要:
清晰的监控图像对于煤矿视频物联网(IoVT)系统的安全运行至关重要。然而,地下环境中的低照度和不均匀亮度显著降低了图像质量,这对通常依赖难以获取的配对参考图像的增强方法提出了挑战。此外,在IoVT的边缘设备上,增强性能与计算效率之间存在权衡。为了解决这些问题,我们提出了一种针对煤矿IoVT的多模态图像增强方法,利用针对不均匀照明优化的ISP-CNN融合架构。该两阶段策略结合了全局增强和细节优化,有效提高了图像质量,特别是在光线不足的区域。基于CLIP的多模态迭代优化允许增强算法的无监督训练。通过将传统图像信号处理(ISP)与卷积神经网络(CNN)相结合,我们的方法在保持高性能的同时降低了计算复杂度,使其适合在边缘设备上实时部署。结果表明,与七种最先进的算法相比,我们的方法有效缓解了不均匀亮度问题,并增强了关键图像质量指标,PSNR提高了2.9%-4.9%,SSIM提高了4.3%-11.4%,VIF提高了4.9%-17.8%。模拟的煤矿监控场景验证了我们的方法在性能和计算需求之间的平衡能力,促进了实时增强并支持更安全的采矿作业。

[2] 评估不同口内扫描分辨率对基于深度学习的牙齿分割的适用性
标题: Evaluating the Suitability of Different Intraoral Scan Resolutions for Deep Learning-Based Tooth Segmentation
作者: Daron Weekley / Jace Duckworth / Anastasiia Sukhanova / Ananya Jana
原文:   [英文]   [中文]  
备注: accepted to 2025 ASEE North Central Section Annual Conference
摘要:
口腔扫描在数字牙科中被广泛用于牙齿修复、治疗计划和正畸程序等任务。这些扫描包含详细的拓扑信息,但对这些扫描进行手动标注仍然是一项耗时的任务。基于深度学习的方法已经被开发出来以自动化诸如牙齿分割等任务。一个典型的口腔扫描包含超过20万个网格单元,直接处理这些数据在计算上是昂贵的。模型通常在降采样版本上进行训练,通常包含10,000或16,000个单元。先前的研究表明,降采样可能会降低分割的准确性,但这种降级的程度仍不清楚。了解降级的程度对于在边缘设备上部署机器学习模型至关重要。本研究评估了分辨率降低对性能降级的程度。我们在降采样到16K、10K、8K、6K、4K和2K网格单元的口腔扫描上训练了一个深度学习模型(PointMLP)。在低分辨率下训练的模型将在高分辨率扫描上进行测试以评估性能。我们的目标是确定一个在计算效率和分割准确性之间取得平衡的分辨率。

[3] 基于字典的可解释和一致的对象解析框架
标题: Dictionary-based Framework for Interpretable and Consistent Object Parsing
作者: Tiezheng Zhang / Qihang Yu / Alan Yuille / Ju He
原文:   [英文]   [中文]  
备注: None
摘要:
在这项工作中,我们提出了CoCal,这是一种基于字典的掩码变换器的可解释且一致的对象解析框架。CoCal围绕对比组件和逻辑约束设计,重新思考了现有用于分割的基于聚类的掩码变换器架构;具体来说,CoCal利用了一组字典组件,每个组件明确链接到一个特定的语义类别。为了推进这一概念,CoCal引入了与语义层次结构对齐的字典组件的层次化公式。这是通过整合同层对比组件和跨层逻辑约束实现的。具体而言,CoCal在每个语义层次上采用组件级对比算法,使得同一类别内的字典组件与不同类别的组件进行对比。此外,CoCal通过跨层对比学习目标解决逻辑问题,确保表示特定部分的字典组件比其他对象的组件更接近其对应的对象组件。为了进一步增强我们的逻辑关系建模,我们实现了一种后处理功能,灵感来自于一个像素被分配给一个部分时也应被分配给其对应对象的原则。通过这些创新,CoCal在PartImageNet和Pascal-Part-108上建立了新的最先进性能,分别在部分mIoU上超越了之前的方法2.08%和0.70%。此外,CoCal在这些基准测试中的对象级指标上表现出显著的提升,突显了其不仅能够在更细粒度上优化解析,还能提升对象分割的整体质量。

[4] 告诉我为什么:作为自解释分类器的视觉基础模型
标题: Tell me why: Visual foundation models as self-explainable classifiers
作者: Hugues Turbé / Mina Bjelogrlic / Gianmarco Mengaldo / Christian Lovis
原文:   [英文]   [中文]  
备注: None
摘要:
视觉基础模型(VFMs)因其最先进的性能而变得越来越流行。然而,对于关键应用来说,可解释性仍然至关重要。在这种情况下,自解释模型(SEM)旨在提供可解释的分类器,将预测分解为可解释概念的加权和。尽管前景可期,但最近的研究表明,这些解释往往缺乏忠实性。在这项工作中,我们将VFMs与一种新颖的原型架构和专门的训练目标相结合。通过仅在冻结的VFMs之上训练一个轻量级的头部(大约100万个参数),我们的方法(ProtoFM)提供了一种高效且可解释的解决方案。评估表明,我们的方法在实现具有竞争力的分类性能的同时,在一系列来源于文献的可解释性指标上优于现有模型。代码可在此https URL获取。

[5] 使用扩散模型和Swin Transformer在CT尿路造影中进行3D肾图像合成
标题: 3D Nephrographic Image Synthesis in CT Urography with the Diffusion Model and Swin Transformer
作者: Hongkun Yu / Syed Jamal Safdar Gardezi / E. Jason Abel / Daniel Shapiro / Meghan G. Lubner / Joshua Warner / Matthew Smith / Giuseppe Toia / Lu Mao / Pallavi Tiwari / Andrew L. Wentland
原文:   [英文]  
备注: 15 pages, 6 figures, 3 tables
摘要:
目的:本研究旨在开发和验证一种方法,通过结合扩散模型和基于Swin Transformer的深度学习方法,在CT尿路造影(CTU)检查中合成3D肾图相位图像。材料和方法:这项回顾性研究已获得当地机构审查委员会的批准。研究数据集包括327名接受三相CTU的患者(平均年龄$\pm$标准差,63$\pm$15岁;174名男性,153名女性),用于深度学习模型的开发。每位患者的三个相位通过仿射配准算法对齐。开发并实施了一种名为dsSNICT(用于CT合成肾图相位图像的Swin Transformer扩散模型)的定制深度学习模型,以合成肾图图像。通过峰值信噪比(PSNR)、结构相似性指数(SSIM)、平均绝对误差(MAE)和Fréchet视频距离(FVD)评估性能。由两位经过专科培训的腹部放射科医生进行定性评估。结果:我们提出的方法生成的合成肾图图像达到了高PSNR(26.3$\pm$4.4 dB)、SSIM(0.84$\pm$0.069)、MAE(12.74$\pm$5.22 HU)和FVD(1323)。两位放射科医生在1-5的李克特量表上对真实图像和合成图像分别给出了平均分数3.5和3.4(P值=0.5),表明我们的合成图像与真实图像非常相似。结论:所提出的方法能够有效合成高质量的3D肾图相位图像。该模型可用于在不影响图像质量的情况下将CTU的辐射剂量减少33.3\%,从而提高CT尿路造影的安全性和诊断效用。

[6] Ev-3DOD:利用事件相机拓展三维物体检测的时间界限
标题: Ev-3DOD: Pushing the Temporal Boundaries of 3D Object Detection with Event Cameras
作者: Hoonhee Cho / Jae-young Kang / Youngho Kim / Kuk-Jin Yoon
原文:   [英文]   [中文]  
备注: Accepted by CVPR2025
摘要:
在点云中检测三维物体在自动驾驶系统中起着至关重要的作用。最近,结合摄像头信息的先进多模态方法取得了显著的性能。对于一个安全且高效的自动驾驶系统来说,算法不仅需要在准确性上表现出色,还需要在速度和低延迟方面表现优异。然而,由于固定帧率传感器(如LiDAR和摄像头)的延迟和带宽限制,现有算法未能满足这些要求。为了解决这一限制,我们首次将异步事件相机引入三维物体检测。我们利用其高时间分辨率和低带宽,实现高速三维物体检测。即使在同步数据不可用的帧间间隔期间,我们的方法也能通过事件相机检索先前的三维信息进行检测。此外,我们引入了第一个基于事件的三维物体检测数据集DSEC-3DOD,该数据集包括100 FPS的真实三维边界框,建立了基于事件的三维检测器的第一个基准。代码和数据集可在此https URL获取。

[7] MedVLM-R1:通过强化学习激励视觉语言模型(VLMs)的医学推理能力
标题: MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
作者: Jiazhen Pan / Che Liu / Junde Wu / Fenglin Liu / Jiayuan Zhu / Hongwei Bran Li / Chen Chen / Cheng Ouyang / Daniel Rueckert
原文:   [英文]  
备注: None
摘要:
推理是推进医学图像分析的关键前沿领域,其中透明性和可信度在临床医生的信任和监管批准中起着核心作用。尽管医学视觉语言模型(VLMs)在放射学任务中显示出前景,但大多数现有的VLMs仅仅给出最终答案,而没有揭示其背后的推理过程。为了解决这一差距,我们引入了MedVLM-R1,这是一种医学VLM,能够明确生成自然语言推理,以增强透明性和可信度。MedVLM-R1并不依赖于监督微调(SFT),因为SFT常常因过拟合于训练分布而无法促进真正的推理。相反,MedVLM-R1采用了一种强化学习框架,激励模型在没有任何推理参考的情况下发现人类可解释的推理路径。尽管训练数据(600个视觉问答样本)和模型参数(20亿)有限,MedVLM-R1在MRI、CT和X光基准测试中的准确率从55.11%提升到78.22%,超越了在超过一百万个样本上训练的更大模型。它还在分布外任务中展示了强大的领域泛化能力。通过将医学图像分析与明确的推理相结合,MedVLM-R1标志着朝着临床实践中可信且可解释的人工智能迈出的关键一步。

[8] 虚拟现实中360度视频的持续感知质量评估的自适应评分对齐学习
标题: Adaptive Score Alignment Learning for Continual Perceptual Quality Assessment of 360-Degree Videos in Virtual Reality
作者: Kanglei Zhou / Zikai Hao / Liyuan Wang / Xiaohui Liang
原文:   [英文]   [中文]  
备注: Accepted as a TVCG paper at VR 2025
摘要:
虚拟现实视频质量评估(VR-VQA)旨在评估360度视频的感知质量,这对于确保无失真的用户体验至关重要。传统的VR-VQA方法在静态数据集上训练,失真多样性有限,难以在相关性和精确性之间取得平衡。当推广到多样化的VR内容并不断适应动态和不断变化的视频分布变化时,这一点尤为关键。为了解决这些挑战,我们提出了一种评估VR视频感知质量的新方法,自适应评分对齐学习(ASAL)。ASAL结合了相关性损失和误差损失,以增强与人类主观评分的对齐和预测感知质量的精确性。特别是,ASAL可以通过特征空间平滑过程自然适应不断变化的分布,从而增强对未见内容的泛化能力。为了进一步提高对动态VR环境的持续适应性,我们将ASAL扩展为一种新颖的持续学习(CL)框架,结合自适应记忆重放。与传统的CL模型不同,ASAL利用关键帧提取和特征适应来应对非平稳变化的独特挑战,同时考虑到VR设备的计算和存储限制。我们为VR-VQA及其CL对应方法建立了一个综合基准,介绍了新的数据划分和评估指标。我们的实验表明,ASAL在各种数据集上的静态联合训练设置中实现了高达4.78%的整体相关性提升,在动态CL设置中实现了高达12.19%的提升。这验证了ASAL在解决这一领域固有挑战方面的有效性。代码可在此网址获取。

[9] 噪声注入的脉冲图卷积用于节能的三维点云去噪
标题: Noise-Injected Spiking Graph Convolution for Energy-Efficient 3D Point Cloud Denoising
作者: Zikuan Li / Qiaoyun Wu / Jialin Zhang / Kaijun Zhang / Jun Wang
原文:   [英文]   [中文]  
备注: Accepted by AAAI 2025
摘要:
脉冲神经网络(SNNs)受到生物神经系统的脉冲计算范式的启发,在二维分类任务中表现出比传统人工神经网络(ANNs)更优越的能量效率。然而,SNNs 的回归潜力尚未得到充分探索,尤其是在三维点云的背景下。在本文中,我们提出了噪声注入的脉冲图卷积网络,以充分利用 SNNs 在三维点云去噪中的回归潜力。具体来说,我们首先模拟噪声注入的神经元动态来构建噪声注入的脉冲神经元。在此基础上,我们设计了噪声注入的脉冲图卷积,以促进三维点上的扰动感知脉冲表示学习。从脉冲图卷积开始,我们构建了两个基于 SNN 的去噪网络。一个是纯粹的脉冲图卷积网络,与一些基于 ANN 的替代方案相比,它实现了较低的精度损失,同时在两个基准数据集 PU-Net 和 PC-Net 上显著降低了能量消耗。另一个是混合架构,它结合了基于 ANN 的学习,在仅需少量时间步中实现了高性能与效率的权衡。我们的工作揭示了 SNN 在三维点云去噪中的潜力,为在神经形态芯片上的部署探索注入了新的视角,同时为开发节能的三维数据采集设备铺平了道路。

[10] 医学图像分割的测试时模态泛化
标题: Test-Time Modality Generalization for Medical Image Segmentation
作者: Ju-Hyeon Nam / Sang-Chul Lee
原文:   [英文]   [中文]  
备注: 28 pages and 15 figures. arXiv admin note: text overlap with arXiv:2502.09931
摘要:
通用的医学图像分割对于确保在不同的未见临床环境中保持一致的性能至关重要。然而,现有的方法往往忽视了在任意未见模态中有效泛化的能力。在本文中,我们引入了一种新颖的测试时模态泛化(TTMG)框架,该框架由两个核心组件组成:模态感知风格投影(MASP)和模态敏感实例白化(MSIW),旨在增强在任意未见模态数据集中的泛化能力。MASP估计测试实例属于每个已见模态的可能性,并使用模态特定的风格基将其映射到一个分布上,从而有效地指导其投影。此外,由于高特征协方差阻碍了对未见模态的泛化,MSIW在训练期间被应用,以选择性地抑制模态敏感信息,同时保留模态不变特征。通过整合MASP和MSIW,TTMG框架展示了在未见模态中进行医学图像分割的强大泛化能力,这是当前方法在很大程度上忽视的一个挑战。我们在跨越四种模态(结肠镜检查、超声、皮肤镜检查和放射学)的十一种数据集上评估了TTMG及其他领域泛化技术,在各种模态组合中始终实现了优越的分割性能。

[11] 通过动态视觉-语言对齐攻击提高多模态大模型的对抗性可迁移性
标题: Improving Adversarial Transferability in MLLMs via Dynamic Vision-Language Alignment Attack
作者: Chenhe Gu / Jindong Gu / Andong Hua / Yao Qin
原文:   [英文]  
备注: arXiv admin note: text overlap with arXiv:2403.09766
摘要:
多模态大语言模型(MLLMs)基于大语言模型(LLMs)构建,因其在图像识别和理解方面的能力而受到关注。然而,尽管MLLMs易受对抗性攻击,但这些攻击在不同模型之间的可迁移性仍然有限,尤其是在有目标攻击的情况下。现有方法主要关注视觉特定的扰动,但在处理视觉-语言模态对齐的复杂性时存在困难。在这项工作中,我们引入了动态视觉-语言对齐(DynVLA)攻击,这是一种新颖的方法,通过在视觉-语言连接器中注入动态扰动来增强在不同模型的多样化视觉-语言对齐中的泛化能力。我们的实验结果表明,DynVLA显著提高了对抗性样本在各种MLLMs之间的可迁移性,包括BLIP2、InstructBLIP、MiniGPT4、LLaVA以及Gemini等闭源模型。

[12] SubZero:通过零样本个性化组合主体、风格和动作
标题: SubZero: Composing Subject, Style, and Action via Zero-Shot Personalization
作者: Shubhankar Borse / Kartikeya Bhardwaj / Mohammad Reza Karimi Dastjerdi / Hyojin Park / Shreya Kadambi / Shobitha Shivakumar / Prathamesh Mandke / Ankita Nayak / Harris Teague / Munawar Hayat / Fatih Porikli
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型在生成任务中越来越受欢迎,包括个性化的主题和风格组合。虽然扩散模型可以生成用户指定的主题,以文本引导的方式在自定义风格中执行动作,但它们需要微调,并不适合在移动设备上进行个性化。因此,无需微调的个性化方法,如IP-Adapters,逐渐受到关注。然而,在主题和风格的组合上,这些方法由于依赖于ControlNet,灵活性较差,或者会出现内容和风格泄漏的伪影。为了解决这些问题,我们提出了SubZero,一个无需微调即可生成任意主题、风格和动作的新框架。我们提出了一组新的约束,以增强主题和风格的相似性,同时减少泄漏。此外,我们在去噪模型的交叉注意力模块中提出了一种正交化的时间聚合方案,有效地在文本提示以及单一主题和风格图像的基础上进行条件生成。我们还提出了一种新的方法来训练定制的内容和风格投影器,以减少内容和风格的泄漏。通过大量实验,我们展示了我们提出的方法在边缘设备上运行时,较现有最先进的主题、风格和动作组合方法有显著的改进。

[13] MICINet:多层次类间混淆信息去除以实现可靠的多模态分类
标题: MICINet: Multi-Level Inter-Class Confusing Information Removal for Reliable Multimodal Classification
作者: Tong Zhang / Shu Shen / C. L. Philip Chen
原文:   [英文]   [中文]  
备注: 12 pages, 7 figures
摘要:
在存在噪声数据的情况下进行可靠的多模态学习是一个广受关注的问题,尤其是在安全关键的应用中。许多可靠的多模态方法深入研究了解决特定模态或跨模态噪声的问题。然而,它们未能有效地处理这两种类型噪声的共存。此外,缺乏对全局和个体层面噪声的全面考虑限制了它们的可靠性。为了解决这些问题,提出了一种名为多级类间混淆信息去除网络(MICINet)的可靠多模态分类方法。MICINet通过将这两种类型的噪声统一为类间混淆信息(ICI)的概念,并在全局和个体层面消除它,实现了可靠的噪声去除。具体来说,MICINet首先通过提出的全局ICI学习模块可靠地学习全局ICI分布。然后,它引入了全局引导的样本ICI学习模块,利用学习到的全局ICI分布有效地从样本特征中去除全局层面的ICI。随后,设计了样本自适应跨模态信息补偿模块,以可靠地从每个样本中去除个体层面的ICI。这是通过基于判别特征与ICI之间的互补关系以及相对判别能力引入的模态相对质量感知的可解释跨模态信息补偿来实现的。在四个数据集上的实验表明,MICINet在各种噪声条件下优于其他最先进的可靠多模态分类方法。

[14] 面向不同模糊区域的差异化处理以实现精确图像去模糊
标题: Towards Differential Handling of Various Blur Regions for Accurate Image Deblurring
作者: Hu Gao / Depeng Dang
原文:   [英文]   [中文]  
备注: None
摘要:
图像去模糊旨在通过去除不期望的退化来恢复高质量的图像。尽管现有方法已经取得了可喜的成果,但它们要么忽视了模糊图像不同区域的退化程度差异,要么通过堆叠大量非线性激活函数来近似非线性函数特性。在本文中,我们提出了一种差异处理网络(DHNet),用于对不同模糊区域进行差异化处理。具体而言,我们设计了一个Volterra块(VBlock),将非线性特性集成到去模糊网络中,避免了之前通过堆叠非线性激活函数数量来映射复杂输入输出关系的操作。为了使模型能够自适应地处理模糊区域中不同的退化程度,我们设计了退化程度识别专家模块(DDRE)。该模块最初结合了一个训练良好的模型的先验知识,以估计空间可变的模糊信息。因此,路由器可以映射学习到的退化表示,并根据退化程度和区域大小为专家分配权重。综合实验结果表明,DHNet在合成和真实世界数据集上有效地超越了最先进的方法(SOTA)。

[15] 基于M-LLM的视频帧选择以实现高效视频理解
标题: M-LLM Based Video Frame Selection for Efficient Video Understanding
作者: Kai Hu / Feng Gao / Xiaohan Nie / Peng Zhou / Son Tran / Tal Neiman / Lingyun Wang / Mubarak Shah / Raffay Hamid / Bing Yin / Trishul Chilimbi
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,多模态大型语言模型(M-LLMs)在视频推理方面显示出令人鼓舞的成果。流行的多模态大型语言模型(M-LLM)框架通常采用简单的均匀采样来减少输入到M-LLM的视频帧数量,特别是对于长时间的视频。然而,这可能会导致在视频的某些时间段丢失关键的上下文信息,使得下游的M-LLM可能没有足够的视觉信息来回答问题。为了解决这一痛点,我们提出了一种轻量级的基于M-LLM的帧选择方法,该方法能够自适应地选择与用户查询更相关的帧。为了训练所提出的帧选择器,我们引入了两个监督信号:(i)空间信号,通过提示M-LLM来获得单帧的重要性评分;(ii)时间信号,通过使用所有帧候选的字幕提示大型语言模型(LLM)来进行多帧选择。然后,选择的帧由一个冻结的下游视频M-LLM进行视觉推理和问答。实证结果表明,所提出的M-LLM视频帧选择器在中等(ActivityNet, NExT-QA)和长时间(EgoSchema, LongVideoBench)上下文视频问答基准测试中提高了各种下游视频大型语言模型(video-LLM)的性能。

[16] 基于单目相机的移动点三维轨迹重建
标题: 3D Trajectory Reconstruction of Moving Points Based on a Monocular Camera
作者: Huayu Huang / Banglei Guan / Yang Shang / Qifeng Yu
原文:   [英文]   [中文]  
备注: None
摘要:
点目标的运动测量是摄影测量学中的一个基本问题,在各个工程领域中有着广泛的应用。仅凭单目相机拍摄的图像来重建点的三维运动是不可行的,除非有先验假设。在观测条件受限的情况下,如观测不足、距离较远以及平台观测误差较大,最小二乘估计会面临病态问题。本文提出了一种使用单目相机重建运动点的三维轨迹的算法。点的运动通过时间多项式来表示。引入岭估计以缓解由于观测条件受限而导致的病态问题。然后,提出了一种自动确定时间多项式阶数的算法。此外,提出了时间多项式的可重建性定义,以定量描述重建精度。模拟和实际实验结果证明了所提方法的可行性、准确性和效率。

[17] 重新思考主动开放集标注中的认知不确定性和随机不确定性:一种基于能量的方法
标题: Rethinking Epistemic and Aleatoric Uncertainty for Active Open-Set Annotation: An Energy-Based Approach
作者: Chen-Chen Zong / Sheng-Jun Huang
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025
摘要:
主动学习(AL)通过从大量未标记的候选集中迭代查询最具信息量的示例进行模型训练,但在存在开放集类别的情况下面临重大挑战。现有方法要么优先查询可能属于已知类别的示例,表明其具有低的认知不确定性(EU),要么专注于查询预测高度不确定的示例,反映出高的随机不确定性(AU)。然而,这两种方法都表现不佳,因为低EU对应的信息量有限,而对于未知类别示例,闭集AU指标的意义不大。在本文中,我们提出了一种基于能量的主动开放集标注(EAOA)框架,该框架有效整合EU和AU以实现卓越的性能。EAOA具有一个$(C+1)$类检测器和一个目标分类器,结合了基于能量的EU度量和为检测器设计的基于边缘的能量损失,以及用于目标分类器的基于能量的AU度量。另一个关键组件是目标驱动的自适应采样策略。它首先形成一个具有低EU分数的较小候选集,以确保闭集特性,使AU指标有意义。随后,查询具有高AU分数的示例以形成最终查询集,并自适应调整候选集的大小。大量实验表明,EAOA在保持高查询精度和低训练开销的同时,实现了最先进的性能。代码可在此https URL获取。

[18] BEVDiffuser:用于带有真实值指导的BEV去噪的即插即用扩散模型
标题: BEVDiffuser: Plug-and-Play Diffusion Model for BEV Denoising with Ground-Truth Guidance
作者: Xin Ye / Burhaneddin Yaman / Sheng Cheng / Feng Tao / Abhirup Mallik / Liu Ren
原文:   [英文]   [中文]  
备注: CVPR 2025
摘要:
鸟瞰图(BEV)表示在自动驾驶任务中起着至关重要的作用。尽管最近在BEV生成方面取得了进展,但由于传感器限制和学习过程而产生的固有噪声仍然基本未得到解决,导致次优的BEV表示,进而对下游任务的性能产生不利影响。为了解决这个问题,我们提出了BEVDiffuser,这是一种新颖的扩散模型,可以使用真实物体布局作为指导,有效去除BEV特征图的噪声。BEVDiffuser可以在训练时以即插即用的方式操作,以增强现有的BEV模型,而无需进行任何架构修改。在具有挑战性的nuScenes数据集上进行的大量实验表明,BEVDiffuser具有卓越的去噪和生成能力,这使得现有BEV模型得到了显著增强,具体表现为在3D物体检测中mAP提高了12.3%和NDS提高了10.1%,而没有引入额外的计算复杂性。此外,在长尾物体检测以及在具有挑战性的天气和光照条件下的显著改进进一步验证了BEVDiffuser在去噪和增强BEV表示方面的有效性。

[19] 基于提示的可迁移对抗攻击在行人重识别中的属性感知文本反转
标题: Prompt-driven Transferable Adversarial Attack on Person Re-Identification with Attribute-aware Textual Inversion
作者: Yuan Bian / Min Liu / Yunqi Yi / Xueping Wang / Yaonan Wang
原文:   [英文]   [中文]  
备注: None
摘要:
行人再识别(re-id)模型在安全监控系统中至关重要,需要可迁移的对抗性攻击来探索其漏洞。最近,基于视觉-语言模型(VLM)的攻击通过攻击VLM的通用图像和文本特征显示出优越的可迁移性,但由于过分强调整体表示中的判别语义,缺乏全面的特征破坏。在本文中,我们引入了属性感知提示攻击(AP-Attack),这是一种新颖的方法,利用VLM的图像-文本对齐能力,通过破坏属性特定的文本嵌入,显式地破坏行人图像的细粒度语义特征。为了获得个性化的属性文本描述,设计了文本反转网络,将行人图像映射到表示语义嵌入的伪标记,并以对比学习的方式与图像和预定义的提示模板进行训练,该模板明确描述了行人属性。反转的良性和对抗性细粒度文本语义帮助攻击者有效地进行全面破坏,增强了对抗样本的可迁移性。大量实验表明,AP-Attack在跨模型和数据集攻击场景中实现了最先进的可迁移性,平均下降率比之前的方法高出22.9%。

[20] 你只需点击一次:用于自动驾驶的单点弱监督3D实例分割
标题: You Only Click Once: Single Point Weakly Supervised 3D Instance Segmentation for Autonomous Driving
作者: Guangfeng Jiang / Jun Liu / Yongxuan Lv / Yuzhi Wu / Xianfei Li / Wenlong Liao / Tao He / Pai Peng
原文:   [英文]   [中文]  
备注: None
摘要:
户外 LiDAR 点云 3D 实例分割是自动驾驶中的一项关键任务。然而,它需要大量的人力来标注点云以训练分割模型。为了解决这一挑战,我们提出了一种 YoCo 框架,该框架使用鸟瞰图平面上的最小粗略点击注释生成 3D 伪标签。从稀疏注释中生成高质量的伪标签是一个重大挑战。我们的 YoCo 框架首先利用视觉基础模型结合点云的几何约束来增强伪标签生成。其次,设计了一个基于时间和空间的标签更新模块,以生成可靠的更新标签。它利用相邻帧的预测并利用点云的固有密度变化(近处密集,远处稀疏)。最后,为了进一步提高标签质量,提出了一种 IoU 引导的增强模块,用高置信度和高 IoU 的预测替换伪标签。在 Waymo 数据集上的实验表明,YoCo 的有效性和通用性,在弱监督方法中实现了最先进的性能,并超越了完全监督的 Cylinder3D。此外,YoCo 适用于各种网络,仅使用 0.8% 的完全标注数据进行最小微调即可实现与完全监督方法相当的性能,显著降低了标注成本。

[21] 用于高光谱图像分类的空间-光谱扩散对比表示网络
标题: Spatial-Spectral Diffusion Contrastive Representation Network for Hyperspectral Image Classification
作者: Yimin Zhu / Linlin Xu
原文:   [英文]   [中文]  
备注: None
摘要:
尽管高光谱图像分类(HSIC)中高效提取判别性空间-光谱特征至关重要,但由于空间-光谱异质性和噪声效应等因素,实现这些特征具有一定难度。本文提出了一种空间-光谱扩散对比表示网络(DiffCRN),基于去噪扩散概率模型(DDPM)结合对比学习(CL)用于HSIC,具有以下特点。首先,为了提高空间-光谱特征表示,我们没有采用广泛用于DDPM的UNet结构,而是在DiffCRN中设计了一种新颖的分阶段架构,包含空间自注意去噪模块(SSAD)和光谱组自注意去噪模块(SGSAD),以提高光谱-空间特征学习的效率。其次,为了提高无监督特征学习效率,我们设计了新的DDPM模型,采用对数绝对误差(LAE)损失和CL,以提高损失函数的有效性并增加实例级和类间的可辨性。第三,为了改进特征选择,我们设计了一种基于像素级光谱角映射(SAM)的可学习方法,以自适应和自动化的方式选择所提出的DDPM模型中的时间步。最后,为了改进特征集成和分类,我们设计了自适应加权加法模块(AWAM)和跨时间步光谱-空间融合模块(CTSSFM),以融合时间步特征并进行分类。在广泛使用的四个HSI数据集上进行的实验表明,所提出的DiffCRN在性能上优于经典的主干模型、最新的GAN、transformer模型和其他预训练方法。源代码和预训练模型将公开提供。

[22] 通过半监督条件扩散模型进行语言信息引导的高光谱图像合成以解决不平衡小样本分类问题
标题: Language-Informed Hyperspectral Image Synthesis for Imbalanced-Small Sample Classification via Semi-Supervised Conditional Diffusion Model
作者: Yimin Zhu / Linlin Xu
原文:   [英文]   [中文]  
备注: None
摘要:
尽管数据增强是一种解决高光谱图像分类(HSIC)中不平衡小样本数据(ISSD)问题的有效方法,但大多数方法在潜在空间中扩展特征。然而,很少有方法使用文本信息生成真实且多样化的样本,以平衡有限的标注样本数量。最近,文本驱动的扩散模型因其在自然图像合成中基于给定文本提示生成高度多样化图像的显著能力而受到广泛关注。因此,本文提出了一种新颖的语言信息高光谱图像合成方法(Txt2HSI-LDM(VAE)),用于解决HSIC的ISSD问题。首先,为了解决高维高光谱数据问题,我们使用通用变分自编码器(VAE)将高光谱映射到低维潜在空间,并获得稳定的特征表示,这大大减少了扩散模型的推理参数。接下来,设计了一个半监督扩散模型,以充分利用未标记数据,此外,还使用了随机多边形空间剪裁(RPSC)和潜在特征的不确定性估计(LF-UE)来模拟训练数据的不同混合程度。然后,VAE从扩散模型生成的潜在空间中解码HSI,并以条件语言作为输入,有助于生成更真实和多样化的样本。在我们的实验中,我们从统计特性和2D-PCA空间中的数据分布方面全面评估了合成样本的有效性。此外,像素级的交叉注意力图被可视化,以证明我们提出的模型能够根据视觉-语言对齐捕捉生成的高光谱图像的空间布局和几何形状。

[23] CFTrack:通过对比学习和特征匹配增强轻量级视觉跟踪
标题: CFTrack: Enhancing Lightweight Visual Tracking through Contrastive Learning and Feature Matching
作者: Juntao Liang / Jun Hou / Weijun Zhang / Yong Wang
原文:   [英文]   [中文]  
备注: None
摘要:
在轻量级视觉跟踪中同时实现高效性和强大的判别能力是一项挑战,尤其是在计算资源有限的移动和边缘设备上。传统的轻量级跟踪器在遮挡和干扰下往往难以保持鲁棒性,而深度跟踪器在压缩以满足资源限制时会出现性能下降。为了解决这些问题,我们引入了CFTrack,这是一种轻量级跟踪器,结合了对比学习和特征匹配以增强判别特征表示。CFTrack通过一种新颖的对比特征匹配模块在预测过程中动态评估目标相似性,并通过自适应对比损失进行优化,从而提高跟踪精度。在LaSOT、OTB100和UAV123上的大量实验表明,CFTrack超越了许多最先进的轻量级跟踪器,在NVIDIA Jetson NX平台上以每秒136帧的速度运行。在HOOT数据集上的结果进一步证明了CFTrack在严重遮挡下的强大判别能力。

[24] 基于高置信度标签和高合理性损失的甲状腺结节弱监督分割框架
标题: Weakly Supervised Segmentation Framework for Thyroid Nodule Based on High-confidence Labels and High-rationality Losses
作者: Jianning Chi / Zelan Li / Geng Lin / MingYang Sun / Xiaosheng Yu
原文:   [英文]   [中文]  
备注: 10 pages, 6 figures
摘要:
弱监督分割方法可以利用粗略标注的训练数据高效地在超声图像中描绘甲状腺结节,但存在以下问题:1)低置信度的伪标签遵循拓扑先验,导致显著的标签噪声;2)低合理性的损失函数僵化地将分割结果与标签进行比较,忽略了对具有多样和复杂形状的结节的判别信息。为了解决这些问题,我们明确了弱监督超声图像分割的目标和参考,提出了一个框架,该框架使用高置信度的伪标签来表示拓扑和解剖信息,并使用高合理性的损失来捕捉多层次的判别特征。具体而言,我们融合了四点标注的几何变换和由特定标注提示的MedSAM模型结果,以生成高置信度的框、前景和背景标签。我们的高合理性学习策略包括:1)对齐损失,测量分割与框标签之间的空间一致性,以及前景标签内的拓扑连续性,引导网络感知结节位置;2)对比损失,将标注的前景区域的特征拉近,同时将标注的前景和背景区域的特征推远,引导网络学习结节和背景的特征分布;3)原型相关损失,测量通过将特征与前景和背景原型进行比较而得出的相关性图之间的一致性,细化不确定区域以获得准确的结节边缘。实验结果表明,我们的方法在TN3K和DDTI数据集上达到了最先进的性能。代码可在此https URL获取。

[25] 基于分散多孔径成像系统的飞行平台精确姿态估计
标题: Accurate Pose Estimation for Flight Platforms based on Divergent Multi-Aperture Imaging System
作者: Shunkun Liang / Bin Li / Banglei Guan / Yang Shang / Xianwei Zhu / Qifeng Yu
原文:   [英文]   [中文]  
备注: None
摘要:
基于视觉的姿态估计在飞行平台的自主导航中起着至关重要的作用。然而,相机的视野和空间分辨率限制了姿态估计的精度。本文设计了一种发散多孔径成像系统(DMAIS),相当于一个单一成像系统,以实现大视野和高空间分辨率的同时观测。DMAIS克服了传统观测的限制,使飞行平台的姿态估计更加准确。在进行姿态估计之前,必须对DMAIS进行校准。为此,我们提出了一种基于三维校准场的DMAIS校准方法。校准过程确定了DMAIS的成像参数,使我们能够将DMAIS建模为一个广义相机。随后,介绍了一种新的算法,用于准确确定飞行平台的姿态。我们将绝对姿态估计问题转化为一个非线性最小化问题。基于拉格朗日乘数建立了解决该问题的新最优性条件。最后,真实的校准实验显示了所提方法的有效性和准确性。真实飞行实验的结果验证了该系统实现厘米级定位精度和角分级方向精度的能力。

[26] SAP-DIFF:通过扩散模型为黑盒人脸识别模型生成语义对抗补丁
标题: SAP-DIFF: Semantic Adversarial Patch Generation for Black-Box Face Recognition Models via Diffusion Models
作者: Mingsi Wang / Shuaiyin Yao / Chang Yue / Lijie Zhang / Guozhu Meng
原文:   [英文]   [中文]  
备注: None
摘要:
鉴于评估人脸识别(FR)模型鲁棒性的需求,许多研究集中在通过引入局部扰动来误导FR模型的对抗性补丁攻击。伪装攻击是一种重大威胁,因为对抗性扰动允许攻击者伪装成合法用户。这可能导致严重后果,包括数据泄露、系统损坏和资源滥用。然而,关于FR中此类攻击的研究仍然有限。现有的对抗性补丁生成方法在伪装攻击中表现出有限的效果,原因在于(1)需要高攻击者能力,(2)攻击成功率低,以及(3)过多的查询需求。为了解决这些挑战,我们提出了一种新方法SAP-DIFF,该方法利用扩散模型通过潜在空间中的语义扰动生成对抗性补丁,而不是直接的像素操作。我们引入了一种注意力干扰机制,以生成与原始人脸无关的特征,从而促进对抗样本的创建,并使用方向性损失函数引导扰动朝向目标身份特征空间,从而提高攻击的有效性和效率。在流行的FR模型和数据集上的大量实验表明,我们的方法优于最先进的方法,平均攻击成功率提高了45.66%(均超过40%),并且与最先进的方法相比,查询次数减少了约40%。

[27] 最近在可推广扩散生成图像检测方面的进展
标题: Recent Advances on Generalizable Diffusion-generated Image Detection
作者: Qijie Xu / Defang Chen / Jiawei Chen / Siwei Lyu / Can Wang
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型的兴起显著提高了生成图像的逼真度和多样性。尽管有诸多好处,这些进步也带来了新的风险。扩散模型可能被利用来创建高质量的深度伪造图像,这对图像真实性验证构成了挑战。近年来,关于可推广的扩散生成图像检测的研究迅速增长。然而,关于这一主题的综合评审仍然缺乏。为弥补这一空白,我们对最近的进展进行了系统的综述,并将其分为两个主要类别:(1)数据驱动的检测和(2)特征驱动的检测。现有的检测方法根据其基本原理进一步细分为六个细分类别。最后,我们识别出几个开放的挑战并展望了一些未来的研究方向,希望能激发更多关于这一重要主题的研究工作。本综述中提到的研究工作可以在这个https URL中找到。

[28] 学习掩码不变的互信息用于掩码图像建模
标题: Learning Mask Invariant Mutual Information for Masked Image Modeling
作者: Tao Huang / Yanxiang Ma / Shan You / Chang Xu
原文:   [英文]   [中文]  
备注: ICLR 2025
摘要:
掩码自编码器(MAEs)是计算机视觉中一种突出的自监督学习范式。尽管它们在实践中取得了成功,但MAEs的基本机制仍未被充分理解。最近的研究尝试通过对比学习和特征表示分析来阐明MAEs的运作,但这些方法通常只提供隐含的见解。在本文中,我们提出了一种新的视角,通过利用信息理论中的信息瓶颈原理来理解MAEs。我们的理论分析揭示了优化潜在特征以平衡相关和不相关信息是提高MAE性能的关键。基于我们的证明,我们引入了MI-MAE,这是一种通过互信息最大化和最小化来优化MAEs的新方法。通过增强潜在特征以保留它们与输出之间的最大相关信息,并最小化它们与输入之间的不相关信息,我们的方法实现了更好的性能。在标准基准上的大量实验表明,MI-MAE在图像分类、目标检测和语义分割等任务中显著优于MAE模型。我们的研究结果验证了理论框架,并强调了将信息瓶颈原理应用于MAEs的实际优势,为开发更强大的自监督学习模型提供了更深入的见解。

[29] LUCAS:分层通用编解码器化身
标题: LUCAS: Layered Universal Codec Avatars
作者: Di Liu / Teng Deng / Giljoo Nam / Yu Rong / Stanislav Pidhorskyi / Junxuan Li / Jason Saragih / Dimitris N. Metaxas / Chen Cao
原文:   [英文]   [中文]  
备注: None
摘要:
逼真3D头像重建在动态面部与头发交互建模以及跨身份泛化方面面临关键挑战,尤其是在表情和头部运动期间。我们提出了LUCAS,这是一种用于编解码器头像建模的新型通用先验模型(UPM),通过分层表示来解耦面部和头发。与之前将头发视为头部整体一部分的UPM不同,我们的方法将无发头部和头发的建模分为不同的分支。LUCAS首次引入了基于网格的UPM,便于设备上的实时渲染。我们的分层表示还改进了锚点几何,以实现精确且视觉上吸引人的高斯渲染。实验结果表明,LUCAS在定量和定性评估中,包括在零样本驱动场景中对未见过的对象的评估,均优于现有的单网格和基于高斯的头像模型。LUCAS在处理头部姿态变化、表情转移和发型变化方面表现出卓越的动态性能,从而推进了3D头像重建的最新技术。

[30] 轻量级对比蒸馏哈希用于在线跨模态检索
标题: Lightweight Contrastive Distilled Hashing for Online Cross-modal Retrieval
作者: Jiaxing Li / Lin Jiang / Zeqi Ma / Kaihang Jiang / Xiaozhao Fang / Jie Wen
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,深度在线跨模态哈希因其低存储需求、快速检索效率和跨模态自适应等优势,受到了研究人员的广泛关注。然而,仍然存在一些技术障碍阻碍其应用,例如:1)如何提取跨模态数据的共存语义相关性,2)如何在处理实时数据流时实现具有竞争力的性能,3)如何以轻量级的方式将离线学习到的知识转移到在线训练中。为了解决这些问题,本文提出了一种轻量级对比蒸馏哈希(LCDH)用于跨模态检索,通过在知识蒸馏框架中通过相似性矩阵逼近创新性地连接离线和在线跨模态哈希。具体来说,在教师网络中,LCDH首先通过对比语言-图像预训练(CLIP)提取跨模态特征,这些特征在特征融合后被输入到注意力模块中以增强表示。然后,将注意力模块的输出输入到一个全连接层中以获得哈希码,从而对齐在线和离线训练的相似性矩阵的大小。在学生网络中,LCDH通过轻量级模型提取视觉和文本特征,然后将这些特征输入到全连接层中生成二进制码。最后,通过逼近相似性矩阵,在线哈希在轻量级学生网络中的性能可以通过从教师网络中蒸馏的共存语义相关性的监督得到增强。在三个广泛使用的数据集上的实验结果表明,LCDH优于一些最先进的方法。

[31] 使用柯尔莫哥洛夫-阿诺德网络寻找局部扩散薛定谔桥
标题: Finding Local Diffusion Schrödinger Bridge using Kolmogorov-Arnold Network
作者: Xingyu Qiu / Mengying Yang / Xinghua Ma / Fanding Li / Dong Liang / Gongning Luo / Wei Wang / Kuanquan Wang / Shuo Li
原文:   [英文]   [中文]  
备注: 16 pages, 10 figures, to be published in CVPR 2025
摘要:
在图像生成中,基于薛定谔桥(SB)的方法通过寻找两个分布之间的最低成本路径,理论上提高了效率和质量,相较于扩散模型。然而,当应用于复杂图像数据时,它们在计算上昂贵且耗时。原因在于它们专注于在高维空间中拟合全局最优路径,通过自监督训练使用复杂网络直接生成路径上的下一步图像,这通常导致与全局最优之间存在差距。同时,大多数扩散模型位于由权重 $f_A(t)$ 和 $f_B(t)$ 生成的相同路径子空间中,因为它们遵循范式 ($x_t = f_A(t)x_{Img} + f_B(t)\epsilon$)。为了解决基于SB方法的局限性,本文首次提出在扩散路径子空间中寻找局部扩散薛定谔桥(LDSB),这加强了SB问题与扩散模型之间的联系。具体而言,我们的方法使用Kolmogorov-Arnold网络(KAN)优化扩散路径,其具有抗遗忘和连续输出的优势。实验表明,我们的LDSB在使用相同的预训练去噪网络的情况下显著提高了图像生成的质量和效率,并且用于优化的KAN仅小于0.1MB。FID指标降低了\textbf{超过15\%},特别是在CelebA数据集上,当DDIM的NFE为5时,减少了48.50\%。代码可在此https URL获取。

[32] 对交通标志分类的雪球对抗攻击
标题: Snowball Adversarial Attack on Traffic Sign Classification
作者: Anthony Etim / Jakub Szefer
原文:   [英文]   [中文]  
备注: None
摘要:
对机器学习模型的对抗攻击通常依赖于微小且不可察觉的扰动来误导分类器。这种策略侧重于最小化对人类的视觉扰动,以免混淆人类,同时最大化对机器学习算法的误分类。对抗攻击的另一种策略是创建明显可见但不混淆人类的扰动,同时仍然最大化对机器学习算法的误分类。本文采用后一种策略,并通过交通标志识别中的雪球对抗攻击实例进行演示。该攻击利用了人类大脑在各种遮挡情况下识别物体的卓越能力,而机器学习算法则容易被混淆。评估表明,雪球对抗攻击在各种图像中具有鲁棒性,并能够混淆最先进的交通标志识别算法。研究结果表明,雪球对抗攻击可以以最小的努力显著降低模型性能,这引发了对深度神经网络脆弱性的重要关注,并强调了改进图像识别机器学习模型防御措施的必要性。

[33] 中风后康复的自动时间分割:一种针对小型数据集的关键点检测和时间分割方法
标题: Automatic Temporal Segmentation for Post-Stroke Rehabilitation: A Keypoint Detection and Temporal Segmentation Approach for Small Datasets
作者: Jisoo Lee / Tamim Ahmed / Thanassis Rikakis / Pavan Turaga
原文:   [英文]   [中文]  
备注: None
摘要:
康复对于中风后的患者至关重要,涉及身体和认知方面的恢复。中风主要影响老年人,其中75%的病例发生在65岁及以上的人群中,这突显了在老龄化人群中制定个性化康复策略的紧迫性。尽管治疗师在评估康复进展和确保治疗效果方面发挥着关键作用,但当前的评估方法往往具有主观性、不一致性和耗时性,导致在调整治疗方案时出现延误。 本研究旨在通过提供一致和及时的分析解决这些挑战。具体而言,我们对视频记录进行时间分割,以捕捉中风患者康复期间的详细活动。本研究的主要应用场景是日常桌面物体交互的临床评估,这对于中风后的身体康复至关重要。 为此,我们提出了一个利用治疗过程中运动生物力学的框架。我们的解决方案将过程分为两个主要任务:2D关键点检测以跟踪患者的身体运动,以及1D时间序列时间分割以分析这些运动随时间的变化。这种双重方法使得仅用有限的真实世界数据即可实现自动标记,解决了患者运动的多样性和数据集有限性的问题。通过解决这些问题,我们的方法在物理治疗环境中的实际应用显示出强大的潜力,提高了康复评估的速度和准确性。

[34] QORT-Former:用于理解双手操控物体的查询优化实时Transformer
标题: QORT-Former: Query-optimized Real-time Transformer for Understanding Two Hands Manipulating Objects
作者: Elkhan Ismayilzada / MD Khalequzzaman Chowdhury Sayem / Yihalem Yimolal Tiruneh / Mubarrat Tajoar Chowdhury / Muhammadjon Boboev / Seungryul Baek
原文:   [英文]   [中文]  
备注: Accepted to AAAI 2025
摘要:
在理解双手操控物体的姿态和交互方面,已经取得了显著的进展。增强现实(AR)和虚拟现实(VR)技术的出现增加了这些应用对实时性能的需求。然而,当前最先进的模型通常在取得良好结果的同时,伴随着巨大的计算开销。在本文中,我们提出了一种查询优化的实时Transformer(QORT-Former),这是首个基于Transformer的双手和物体3D姿态估计的实时框架。我们首先限制查询和解码器的数量以满足效率要求。在有限的查询和解码器数量下,我们提出优化作为Transformer解码器输入的查询,以确保更好的准确性:(1)我们建议将查询分为三种类型(左手查询、右手查询和物体查询)并增强查询特征,(2)通过使用手与物体之间的接触信息,(3)通过使用增强图像和查询特征之间的三步更新。通过提出的方法,我们仅使用108个查询和1个解码器实现了实时姿态估计性能(在RTX 3090TI GPU上达到53.5 FPS)。在H2O数据集上,我们的方法在左手、右手和物体的准确性上分别超过了当前最先进的结果17.6%、22.8%和27.2%,在FPHA数据集上,右手和物体的准确性分别提高了5.3%和10.4%。此外,我们的方法在交互识别方面也达到了最先进的水平,同时通过一个现成的动作识别模块保持了实时效率。

[35] InPK:将先验知识注入视觉-语言模型的提示
标题: InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models
作者: Shuchang Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
提示调优已成为将视觉语言模型(VLMs)适应于零/少样本视觉识别任务的一种流行策略。一些提示技术由于其丰富性而引入了先验知识,但当可学习的标记被随机初始化且与先验知识脱节时,它们往往会在已见类别上过拟合,并在未见类别的领域转移中表现不佳。为了解决这个问题,我们提出了InPK模型,该模型在初始化期间将类别特定的先验知识注入到可学习的标记中,从而使模型能够明确地关注与类别相关的信息。此外,为了减轻多层编码器对类别信息的削弱,我们在多个特征层次上持续加强可学习标记与先验知识之间的交互。这种渐进的交互使可学习标记能够更好地捕捉先验知识中的细粒度差异和通用视觉概念,使模型能够提取更具辨别力和泛化性的文本特征。即使对于未见类别,学习到的交互也使模型能够捕捉它们的共同表示,并推断它们在现有语义结构中的适当位置。此外,我们引入了一个可学习的文本到视觉投影层,以适应文本调整,确保视觉-文本语义的更好对齐。在11个识别数据集上的大量实验表明,InPK在多个零/少样本图像分类任务中显著优于最先进的方法。

[36] RANGE:用于多分辨率地理嵌入的检索增强神经场
标题: RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings
作者: Aayush Dhakal / Srikumar Sastry / Subash Khanal / Adeel Ahmad / Eric Xing / Nathan Jacobs
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025
摘要:
地理位置的表示选择对广泛的地理空间任务的模型准确性有显著影响,包括细粒度物种分类、人口密度估计和生物群落分类。最近的工作如SatCLIP和GeoCLIP通过对比地理位置与同位图像来学习这些表示。虽然这些方法效果极佳,但在本文中,我们认为当前的训练策略未能充分捕捉重要的视觉特征。我们从信息论的角度解释了为什么这些方法得到的嵌入会丢弃对许多下游任务重要的关键视觉信息。为了解决这个问题,我们提出了一种新颖的检索增强策略,称为RANGE。我们的方法基于这样一种直觉:一个位置的视觉特征可以通过结合多个外观相似位置的视觉特征来估计。我们在各种任务中评估了我们的方法。结果表明,RANGE在大多数任务中以显著的优势超越了现有的最先进模型。在分类任务中,我们显示了高达13.1%的提升,在回归任务中显示了0.145的$R^2$提升。我们所有的代码将在GitHub上发布。我们的模型将在HuggingFace上发布。

[37] 3D人体的开放词汇语义部件分割
标题: Open-Vocabulary Semantic Part Segmentation of 3D Human
作者: Keito Suzuki / Bang Du / Girish Krishnan / Kunyao Chen / Runfa Blark Li / Truong Nguyen
原文:   [英文]   [中文]  
备注: 3DV 2025
摘要:
3D 部件分割在 3D 视觉和 AR/VR 领域仍然是一个未解决的问题。由于 3D 标注数据的有限,传统的监督分割方法在推广到未见过的形状和类别时表现不佳。最近,视觉-语言模型的零样本能力的进步带来了开放世界 3D 分割方法的激增。虽然这些方法在 3D 场景或物体上显示出有希望的结果,但它们在 3D 人体上泛化得不好。在本文中,我们提出了第一个能够处理 3D 人体的开放词汇分割方法。我们的框架可以根据文本提示将人体类别分割为所需的细粒度部分。我们设计了一个简单的分割流程,利用 SAM 在 2D 中生成多视图提案,并提出了一种新颖的 HumanCLIP 模型来为视觉和文本输入创建统一的嵌入。与现有的预训练 CLIP 模型相比,HumanCLIP 模型为以人为中心的内容提供了更准确的嵌入。我们还设计了一个简单而有效的 MaskFusion 模块,该模块在不需要复杂的投票和分组机制的情况下,将多视图特征分类并融合为 3D 语义掩码。掩码提案和文本输入的解耦设计也显著提高了每个提示推理的效率。在各种 3D 人体数据集上的实验结果表明,我们的方法在很大程度上优于当前最先进的开放词汇 3D 分割方法。此外,我们展示了我们的方法可以直接应用于包括网格、点云和 3D 高斯散点在内的各种 3D 表示。

[38] MFSR:用于超分辨率重建的多重分形特征及细节恢复
标题: MFSR: Multi-fractal Feature for Super-resolution Reconstruction with Fine Details Recovery
作者: Lianping Yang / Peng Jiao / Jinshan Pan / Hegui Zhu / Su Guo
原文:   [英文]   [中文]  
备注: None
摘要:
在进行图像超分辨率处理的过程中,复杂局部信息的处理会对生成图像的质量产生显著影响。分形特征能够捕捉图像中微观和宏观纹理结构的丰富细节。因此,我们提出了一种基于扩散模型的超分辨率方法,结合了低分辨率图像的分形特征,称为MFSR。MFSR在扩散模型的去噪过程中利用这些分形特征作为增强条件,以确保纹理信息的准确恢复。MFSR采用卷积作为软分配来逼近低分辨率图像的分形特征。这种方法也用于逼近这些图像的密度特征图。通过使用软分配,图像的空间布局被分层描述,编码了图像在不同尺度上的自相似特性。对不同类型的特征应用不同的处理方法,以丰富模型获取的信息。此外,在去噪U-Net中集成了一个子去噪器,以减少在上采样过程中特征图中的噪声,从而提高生成图像的质量。在各种人脸和自然图像数据集上进行的实验表明,MFSR可以生成更高质量的图像。

[39] 无参数,无问题:无需相机内参和外参的3D高斯散点
标题: No Parameters, No Problem: 3D Gaussian Splatting without Camera Intrinsics and Extrinsics
作者: Dongbo Shi / Shen Cao / Lubin Fan / Bojian Wu / Jinhui Guo / Renjie Chen / Ligang Liu / Jieping Ye
原文:   [英文]   [中文]  
备注: None
摘要:
尽管3D高斯散点(3DGS)在场景重建和新视图合成方面取得了显著进展,但它仍然严重依赖于准确预先计算的相机内参和外参,如焦距和相机姿态。为了减轻这种依赖性,之前的努力集中在无需相机姿态的情况下优化3DGS,但相机内参仍然是必要的。为了进一步放宽这一要求,我们提出了一种联合优化方法,从图像集合中训练3DGS,而不需要相机内参或外参。为实现这一目标,我们在3DGS的联合训练过程中引入了几个关键改进。我们从理论上推导了相机内参的梯度,使得相机内参可以在训练过程中同时进行优化。此外,我们整合了全局轨迹信息,并选择与每个轨迹相关的高斯核,这些核将被训练并自动缩小到无限小的尺寸,紧密逼近表面点,专注于加强多视图一致性和最小化重投影误差,而其余的核继续发挥其原有作用。这种混合训练策略很好地统一了相机参数估计和3DGS训练。大量评估表明,该方法在公共和合成数据集上均达到了最新的(SOTA)性能。

[40] UIFace:释放固有模型能力以增强合成人脸识别中的类内多样性
标题: UIFace: Unleashing Inherent Model Capabilities to Enhance Intra-Class Diversity in Synthetic Face Recognition
作者: Xiao Lin / Yuge Huang / Jianqing Xu / Yuxi Mi / Shuigeng Zhou / Shouhong Ding
原文:   [英文]   [中文]  
备注: ICLR2025
摘要:
人脸识别(FR)是计算机视觉中最重要的应用之一。近年来,由于大规模人脸数据集的可用性,FR模型的准确性显著提高。然而,直接使用这些数据集不可避免地会导致隐私和法律问题。生成合成数据来训练FR模型是规避这些问题的可行解决方案。尽管现有的基于合成的人脸识别方法在生成身份保留图像方面取得了显著进展,但它们严重受到上下文过拟合的困扰,导致生成图像的类内多样性不足以及人脸识别性能不佳。在本文中,我们提出了一个框架来释放模型的内在能力,以增强合成人脸识别的类内多样性,简称为UIFace。我们的框架首先训练一个扩散模型,该模型可以在身份上下文或可学习的空上下文的条件下进行采样。前者生成身份保留图像但缺乏变化,而后者利用模型的内在能力合成类内多样化的图像,但具有随机身份。然后,我们在推理过程中采用一种新颖的两阶段采样策略,以充分利用这两种上下文的优势,生成既多样化又身份保留的图像。此外,引入了一个注意力注入模块,通过利用空上下文的注意力图来指导ID条件生成中的采样过程,进一步增加类内变化。实验表明,我们的方法在训练数据更少且合成数据集规模减半的情况下,显著超越了以往的方法。当我们进一步增加合成身份的数量时,所提出的UIFace甚至在性能上与使用真实数据集训练的FR模型相当。

[41] 双重去偏提升粗标签下的细粒度学习
标题: Twofold Debiasing Enhances Fine-Grained Learning with Coarse Labels
作者: Xin-yang Zhao / Jian Jin / Yang-yang Li / Yazhou Yao
原文:   [英文]   [中文]  
备注: None
摘要:
粗到细小样本(C2FS)任务旨在仅使用粗略标签训练模型,然后利用有限数量的子类样本实现细粒度识别能力。该任务面临两个主要挑战:粗粒度的监督预训练抑制了对子类别区分至关重要的细粒度特征的提取,并且由于有限的细粒度样本导致的偏差分布,模型容易过拟合。在本文中,我们提出了双重去偏(TFB)方法,通过详细的特征增强和分布校准来应对这些挑战。具体而言,我们引入了多层特征融合重建模块和中间层特征对齐模块,以对抗模型倾向于关注与粗粒度监督直接相关的简单预测特征,而忽视复杂的细粒度细节。此外,我们利用富含细粒度信息的现成粗粒度样本嵌入来缓解细粒度分类器学习到的偏差分布。在五个基准数据集上进行的大量实验表明,我们的方法有效性,达到了超越竞争方法的最新成果。

[42] 分析CLIP在多物体场景中的性能限制:一项受控的高分辨率研究
标题: Analyzing CLIP's Performance Limitations in Multi-Object Scenarios: A Controlled High-Resolution Study
作者: Reza Abbasi / Ali Nazari / Aminreza Sefid / Mohammadali Banayeeanzade / Mohammad Hossein Rohban / Mahdieh Soleymani Baghshah
原文:   [英文]   [中文]  
备注: Accepted at ECCV 2024 Workshop EVAL-FoMo
摘要:
对比语言-图像预训练(CLIP)模型在零样本分类任务中表现出色,但在处理复杂的多物体场景时,其效能仍然面临挑战。本研究通过控制实验对CLIP在多物体环境中的性能限制进行了全面分析。我们引入了两个自定义数据集,SimCO和CompCO,以评估CLIP的图像和文本编码器在各种多物体配置中的表现。我们的研究结果揭示了两个编码器中的显著偏差:图像编码器偏向于较大的物体,而文本编码器则优先考虑描述中首先提到的物体。我们假设这些偏差源于CLIP的训练过程,并通过对COCO数据集和CLIP训练进程的分析提供了证据。此外,我们将研究扩展到稳定扩散模型,揭示了CLIP文本编码器中的偏差对文本到图像生成任务的显著影响。我们的实验展示了这些偏差如何影响CLIP在图像-字幕匹配和生成任务中的表现,特别是在操控物体大小及其在字幕中的顺序时。此项工作为理解CLIP在复杂视觉环境中的行为提供了宝贵的见解,并指出了未来视觉-语言模型改进的方向。

[43] 显微镜下的CLIP:多对象表示的细粒度分析
标题: CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation
作者: Reza Abbasi / Ali Nazari / Aminreza Sefid / Mohammadali Banayeeanzade / Mohammad Hossein Rohban / Mahdieh Soleymani Baghshah
原文:   [英文]  
备注: Accepted at CVPR 2025
摘要:
对比语言-图像预训练(CLIP)模型在零样本分类中表现出色,但在复杂的多物体场景中面临挑战。本研究通过一个专门设计的数据集ComCO,对CLIP在多样化多物体场景中的局限性进行了全面分析。我们的研究结果揭示了显著的偏差:文本编码器优先考虑首先提到的物体,而图像编码器则偏向于较大的物体。通过检索和分类任务,我们量化了这些偏差在多个CLIP变体中的表现,并通过对LAION数据集和训练过程的分析,追溯了这些偏差的起源。我们的图像-文本匹配实验表明,当物体大小或标记顺序发生变化时,性能会显著下降,这突显了CLIP在重新措辞但语义相似的标题下的不稳定性。将这一点扩展到更长的标题和文本到图像模型(如Stable Diffusion),我们展示了提示顺序如何影响生成图像中物体的显著性。有关更多详细信息以及访问我们的数据集和分析代码,请访问我们的项目存储库:this https URL。

[44] ProAPO:用于视觉分类的渐进式自动提示优化
标题: ProAPO: Progressively Automatic Prompt Optimization for Visual Classification
作者: Xiangyan Qu / Gaopeng Gou / Jiamin Zhuang / Jing Yu / Kun Song / Qihao Wang / Yili Li / Gang Xiong
原文:   [英文]   [中文]  
备注: Accepted to the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2025
摘要:
视觉-语言模型(VLMs)通过使用大规模的图像-文本配对数据进行训练,在图像分类方面取得了显著进展。它们的性能在很大程度上依赖于提示的质量。尽管最近的方法表明,由大型语言模型(LLMs)生成的视觉描述可以增强VLMs的泛化能力,但由于LLMs的幻觉,特定类别的提示可能不准确或缺乏辨别力。在本文中,我们旨在为细粒度类别找到视觉上具有辨别力的提示,且只需最少的监督,无需人工参与。我们提出了一种基于进化的算法,以逐步优化从任务特定模板到类别特定描述的语言提示。与优化模板不同,类别特定候选提示的搜索空间呈现爆炸式增长。这增加了提示生成成本、迭代次数以及过拟合问题。为此,我们首先引入了几种简单而有效的基于编辑和基于进化的操作,通过一次性查询LLMs生成多样化的候选提示。然后,提出了两种采样策略,以找到更好的初始搜索点并减少遍历的类别,从而节省迭代成本。此外,我们应用了一种具有熵约束的新颖适应度评分来缓解过拟合。在具有挑战性的一次性图像分类设置中,我们的方法在13个数据集上优于现有的基于文本提示的方法,并改进了LLM生成的描述方法。同时,我们证明了我们的最佳提示可以改进基于适配器的方法,并在不同的骨干网络中有效转移。

[45] 一对多:用于异常检测的持续扩散模型
标题: One-for-More: Continual Diffusion Model for Anomaly Detection
作者: Xiaofan Li / Xin Tan / Zhuo Chen / Zhizhong Zhang / Ruixin Zhang / Rizen Guo / Guanna Jiang / Yulong Chen / Yanyun Qu / Lizhuang Ma / Yuan Xie
原文:   [英文]   [中文]  
备注: Accepted by CVPR2025
摘要:
随着生成模型的兴起,将所有任务统一到一个生成框架中引起了越来越多的关注。异常检测方法也属于这一范畴,并利用扩散模型在给定任意异常图像时生成或重建正常样本。然而,我们的研究发现,扩散模型存在严重的“忠实幻觉”和“灾难性遗忘”问题,无法应对不可预测的模式增量。为了解决上述问题,我们提出了一种使用梯度投影实现稳定持续学习的持续扩散模型。梯度投影通过修改梯度方向来保护已学知识,从而对模型更新进行正则化。但作为一把双刃剑,它也需要由马尔可夫过程带来的巨大内存成本。因此,我们提出了一种基于线性表示传递性质的迭代奇异值分解方法,该方法消耗极少的内存且几乎不带来性能损失。最后,考虑到扩散模型对正常图像“过拟合”的风险,我们提出了一种异常掩码网络来增强扩散模型的条件机制。在持续异常检测方面,我们的方法在MVTec和VisA的18个设置中有17个获得了第一名。代码可在此https URL获取。

[46] 一个模型通用:低层次任务交互是任务无关图像融合的关键
标题: One Model for ALL: Low-Level Task Interaction Is a Key to Task-Agnostic Image Fusion
作者: Chunyang Cheng / Tianyang Xu / Zhenhua Feng / Xiaojun Wu / ZhangyongTang / Hui Li / Zeyang Zhang / Sara Atito / Muhammad Awais / Josef Kittler
原文:   [英文]   [中文]  
备注: Accepted by CVPR 2025
摘要:
先进的图像融合方法大多优先考虑高层次任务,其中任务交互面临语义差距,需要复杂的桥接机制。相比之下,我们提出利用数字摄影融合中的低层次视觉任务,通过像素级监督实现有效的特征交互。这种新范式为无监督多模态融合提供了强有力的指导,无需依赖抽象语义,从而增强任务共享特征学习的广泛适用性。由于混合图像特征和增强的通用表示,所提出的GIFNet支持多样化的融合任务,在已知和未知场景中均能以单一模型实现高性能。独特的是,实验结果表明,我们的框架还支持单一模态增强,为实际应用提供了更高的灵活性。我们的代码将在此https URL上提供。

[47] LMHLD:基于深度学习的滑坡检测用大规模多源高分辨率滑坡数据集
标题: LMHLD: A Large-scale Multi-source High-resolution Landslide Dataset for Landslide Detection based on Deep Learning
作者: Guanting Liu / Yi Wang / Xi Chen / Baoyu Du / Penglei Li / Yuan Wu / Zhice Fang
原文:   [英文]  
备注: None
摘要:
滑坡是全球最常见的自然灾害之一,对人类社会构成重大威胁。深度学习(DL)已被证明是一种在大规模灾区快速生成滑坡清单的有效方法。然而,DL模型在很大程度上依赖于高质量的标记滑坡数据,以实现强大的特征提取能力。滑坡检测使用DL迫切需要一个基准数据集来评估最新模型的泛化能力。为了解决上述问题,我们基于DL构建了一个大规模多源高分辨率滑坡数据集(LMHLD)用于滑坡检测。LMHLD收集了来自全球七个研究区域的五种不同卫星传感器的遥感图像:中国汶川(2008年);巴西里约热内卢(2011年);尼泊尔戈尔卡(2015年);中国九寨沟(2015年);中国台湾(2018年);日本北海道(2018年);意大利艾米利亚-罗马涅(2023年)。该数据集总共包括25,365个图块,具有不同的图块大小以适应不同的滑坡规模。此外,设计了一个训练模块LMHLDpart,以适应不同规模的滑坡检测任务,并缓解多任务学习中的灾难性遗忘问题。此外,使用LMHLD训练的模型应用于其他数据集,以突出LMHLD的鲁棒性。通过使用U-Net家族的七个DL模型设计的五个数据集质量评估实验表明,LMHLD有潜力成为滑坡检测的基准数据集。LMHLD是开放获取的,可以通过链接访问:this https URL。该数据集为DL模型提供了坚实的基础,加速了DL在滑坡检测中的发展,并为滑坡预防和减缓工作提供了宝贵的资源。

[48] 追求更快更好:一种具有自动重新参数化功能的单层架构用于低光图像增强
标题: Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement
作者: Nan An / Long Ma / Guangchao Han / Xin Fan / RIsheng Liu
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,基于深度学习的低光图像增强器取得了显著进展,呈现出在实现令人满意的视觉质量的同时,逐步减少参数数量和提高计算效率的趋势。在这项工作中,我们旨在从视觉质量和计算效率两个方面深入探讨图像增强器的极限,同时努力实现更好的性能和更快的处理速度。具体来说,通过重新思考任务需求,我们建立了一个明确的连接,即视觉质量和计算效率分别对应于模型学习和结构设计。围绕这一连接,我们通过引入再参数化来扩大参数空间,以便对预定义的极简网络(例如,仅一层)进行充分的模型学习,避免陷入局部解。为了加强结构表示,我们定义了一种分层搜索方案,用于发现面向任务的再参数化结构,这也为效率提供了强有力的支持。最终,这实现了仅使用单个卷积层的高效低光图像增强,同时保持出色的视觉质量。实验结果表明,我们的方法在质量和效率上均优于最近提出的方法。特别是,我们在各种平台(例如,CPU、GPU、NPU、DSP)上的运行时间始终超越现有的最快方案。源代码将在此https URL发布。

[49] C-Drag:基于思维链驱动的视频生成运动控制器
标题: C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation
作者: Yuhao Li / Mirana Claire Angel / Salman Khan / Yu Zhu / Jinqiu Sun / Yanning Zhang / Fahad Shahbaz Khan
原文:   [英文]   [中文]  
备注: None
摘要:
基于轨迹的运动控制已成为可控视频生成的一种直观且高效的方法。然而,现有的基于轨迹的方法通常仅限于生成被控对象的运动轨迹,而忽略了被控对象与其周围环境之间的动态交互。为了解决这一限制,我们提出了一种基于链式思维的运动控制器用于可控视频生成,称为C-Drag。我们的C-Drag并不是直接生成某些对象的运动,而是首先进行对象感知,然后根据给定的对象运动控制推理不同对象之间的动态交互。具体来说,我们的方法包括一个对象感知模块和一个基于链式思维的运动推理模块。对象感知模块利用视觉语言模型捕捉图像中各种对象的位置和类别信息。基于链式思维的运动推理模块将这些信息作为输入,进行分阶段的推理过程,以生成每个受影响对象的运动轨迹,随后将这些轨迹输入扩散模型进行视频合成。此外,我们引入了一个新的视频对象交互(VOI)数据集,用于评估运动控制视频生成方法的生成质量。我们的VOI数据集包含三种典型的交互类型,并提供可用于准确性能评估的对象运动轨迹。实验结果表明,C-Drag在多个指标上表现出色,尤其在对象运动控制方面表现优异。我们的基准、代码和模型将在此https URL上提供。

[50] 高保真可重光单目肖像动画与光照可控视频扩散模型
标题: High-Fidelity Relightable Monocular Portrait Animation with Lighting-Controllable Video Diffusion Model
作者: Mingtao Guo / Guanyu Xing / Yanli Liu
原文:   [英文]   [中文]  
备注: None
摘要:
可重光的肖像动画旨在将静态参考肖像动画化,以匹配驱动视频的头部运动和表情,同时适应用户指定或参考的光照条件。现有的肖像动画方法未能实现可重光的肖像,因为它们没有分离和操控内在(身份和外观)和外在(姿势和光照)特征。在本文中,我们提出了一种高保真、可重光的肖像动画的光照可控视频扩散模型(LCVD)。我们通过在预训练的图像到视频扩散模型的特征空间中专门的子空间来区分这些特征类型,从而解决了这一限制。具体来说,我们使用肖像的3D网格、姿势和光照渲染的阴影提示来表示外在属性,而参考图像则表示内在属性。在训练阶段,我们使用一个参考适配器将参考图像映射到内在特征子空间,并使用一个阴影适配器将阴影提示映射到外在特征子空间。通过合并来自这些子空间的特征,模型在生成的动画中实现了对光照、姿势和表情的细致控制。广泛的评估表明,LCVD在光照真实感、图像质量和视频一致性方面优于最先进的方法,设定了可重光肖像动画的新基准。

[51] GenPC:通过三维生成先验进行零样本点云补全
标题: GenPC: Zero-shot Point Cloud Completion via 3D Generative Priors
作者: An Li / Zhe Zhu / Mingqiang Wei
原文:   [英文]   [中文]  
备注: Accepted by CVPR 2025
摘要:
现有的点云补全方法通常依赖于预定义的合成训练数据集,当应用于分布外的真实世界扫描时,会遇到显著的挑战。为克服这一限制,我们引入了一种称为GenPC的零样本补全框架,旨在通过利用显式的3D生成先验来重建高质量的真实世界扫描。我们的关键见解是,最近的前馈3D生成模型在大规模互联网数据上训练后,已经展示了在零样本环境下从单视图图像进行3D生成的能力。为了利用这一点进行补全,我们首先开发了一个深度提示模块,通过利用深度图像作为桥梁,将部分点云与图像到3D生成模型连接起来。为了在最终结果中保留原始的部分结构,我们设计了几何保留融合模块,通过自适应调整生成形状的姿态和尺度来与输入对齐。在广泛使用的基准测试上的大量实验验证了我们方法的优越性和广泛适用性,使我们在实现稳健的真实世界扫描补全方面更进一步。

[52] 基于不动点迭代器的身份保留蒸馏采样
标题: Identity-preserving Distillation Sampling by Fixed-Point Iterator
作者: SeonHwa Kim / Jiwon Kim / Soobin Park / Donghoon Ahn / Jiwon Kang / Seungryong Kim / Kyong Hwan Jin / Eunju Cha
原文:   [英文]   [中文]  
备注: None
摘要:
得分蒸馏采样(SDS)通过蒸馏学习得分函数的知识,展示了文本条件下的二维图像和三维对象生成的强大能力。然而,SDS常常因噪声梯度导致模糊。当SDS用于图像编辑时,可以通过使用参考对调整偏差偏移来减少这种退化,但去偏技术仍然会被错误的梯度破坏。为此,我们引入了保持身份的蒸馏采样(IDS),它补偿了导致结果发生不良变化的梯度。基于对这些错误来自文本条件得分的分析,我们提出了一种新的正则化技术,称为固定点迭代正则化(FPR),用于修改得分本身,从而推动身份的保持,甚至包括姿势和结构。由于FPR的自我校正,所提出的方法在图像到图像编辑和可编辑的神经辐射场(NeRF)中提供了与给定提示相对应的清晰和明确的表示。与其他最先进的方法相比,源数据和编辑数据之间的结构一致性显著保持。

[53] 基于动画创作工作流程的图像参考草图上色
标题: Image Referenced Sketch Colorization Based on Animation Creation Workflow
作者: Dingkun Yan / Xinrui Wang / Zhuoru Li / Suguru Saito / Yusuke Iwasawa / Yutaka Matsuo / Jiaxian Guo
原文:   [英文]   [中文]  
备注: None
摘要:
素描上色在动画和数字插画制作任务中起着重要作用。然而,现有的方法仍然存在一些问题:文本引导的方法无法提供准确的颜色和风格参考,提示引导的方法仍然需要手动操作,而图像参考的方法容易产生伪影。为了解决这些限制,我们提出了一种基于扩散的框架,灵感来自于现实世界的动画制作工作流程。我们的方法利用素描作为空间指导,并使用RGB图像作为颜色参考,分别从参考图像中提取前景和背景,并使用空间掩码进行分离。特别地,我们引入了带有LoRA(低秩适应)模块的分割交叉注意力机制。它们分别在前景和背景区域进行训练,以控制交叉注意力中键和值的相应嵌入。这一设计允许扩散模型独立整合前景和背景的信息,防止干扰并消除空间伪影。在推理过程中,我们通过改变框架中激活的模块设计了可切换的推理模式,以适应多样的使用场景。大量的定性和定量实验以及用户研究表明,与现有方法相比,我们在生成高质量、无伪影的结果方面具有优势,即使在几何不匹配的参考下也是如此。消融研究进一步证实了每个组件的有效性。代码可在此https URL tellurion-kanata/colorizeDiffusion获取。

[54] 基于基变换的空间旋转用于无训练的测试时适应
标题: Space Rotation with Basis Transformation for Training-free Test-Time Adaptation
作者: Chenhao Ding / Xinyuan Gao / Songlin Dong / Yuhang He / Qiang Wang / Xiang Song / Alex Kot / Yihong Gong
原文:   [英文]   [中文]  
备注: None
摘要:
随着视觉语言模型(VLM)在下游任务应用中的发展,基于VLM的测试时自适应方法因其在测试时解决分布变化的能力而受到越来越多的关注。尽管先前的方法取得了一些进展,但它们通常要么需要大量的计算资源,要么受到原始特征空间限制的约束,从而在测试时自适应任务中效果不佳。为了解决这些挑战,我们提出了一种无需训练的特征空间旋转与基变换方法用于测试时自适应。通过利用类别之间的固有差异,我们重构了原始特征空间并将其映射到新的表示,从而增强了类别差异的清晰度,并在测试期间为模型提供更有效的指导。此外,为了更好地捕捉来自不同类别的相关信息,我们维护了一个动态队列来存储代表性样本。多个基准测试的实验结果表明,我们的方法在性能和效率方面均优于最先进的技术。

[55] RUBIK:一个用于跨几何挑战的图像匹配的结构化基准
标题: RUBIK: A Structured Benchmark for Image Matching across Geometric Challenges
作者: Thibaut Loiseau / Guillaume Bourmaud
原文:   [英文]  
备注: None
摘要:
相机姿态估计对于许多计算机视觉应用至关重要,但现有的基准测试在不同几何挑战下对方法的局限性提供的见解有限。我们引入了RUBIK,这是一种新颖的基准测试,系统地评估图像匹配方法在定义明确的几何难度级别上的表现。通过重叠、比例尺比率和视点角度这三个互补的标准,我们将nuScenes中的16,500对图像组织成33个难度级别。我们对14种方法的全面评估表明,尽管最近的无检测器方法实现了最佳性能(>47%的成功率),但与基于检测器的方法相比,它们带来了显著的计算开销(150-600毫秒对比40-70毫秒)。即使是表现最好的方法也仅在54.8%的图像对上成功,这突显了在结合低重叠、大比例差异和极端视点变化的挑战场景中仍有很大的改进空间。该基准测试将公开提供。

[56] ChatReID:通过分层渐进调优视觉语言模型实现开放式交互式人物检索
标题: ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models
作者: Ke Niu / Haiyang Yu / Mengyang Zhao / Teng Fu / Siyang Yi / Wei Lu / Bin Li / Xuelin Qian / Xiangyang Xue
原文:   [英文]   [中文]  
备注: None
摘要:
行人再识别(Re-ID)是以人为中心的智能系统中的一项关键任务,能够利用多模态查询信息在不同摄像机视角下实现个体的一致识别。最近的研究成功地将大规模视觉语言模型(LVLMs)与行人再识别相结合,取得了令人鼓舞的成果。然而,现有基于LVLM的方法存在若干限制。它们依赖于从固定模板中提取文本嵌入,这些嵌入要么用作图像表示的中间特征,要么用于特定领域任务的提示调优。此外,它们无法采用视觉问答(VQA)推理格式,极大地限制了其更广泛的适用性。在本文中,我们提出了一种新颖、通用的“一体化”行人再识别框架,称为ChatReID。我们的方法引入了一种分层渐进调优(HPT)策略,通过逐步优化模型区分行人身份的能力,确保细粒度的身份级检索。大量实验表明,我们的方法在四种不同的Re-ID设置下的十个基准上均优于现有的最先进方法,提供了更高的灵活性和用户友好性。ChatReID为现实世界的行人再识别应用提供了一个可扩展、实用的解决方案,实现了有效的多模态交互和细粒度的身份区分。

[57] ReCon:通过关系一致性增强真实对应的区分能力,以实现稳健的噪声对应学习
标题: ReCon: Enhancing True Correspondence Discrimination through Relation Consistency for Robust Noisy Correspondence Learning
作者: Quanxing Zha / Xin Liu / Shu-Juan Peng / Yiu-ming Cheung / Xing Xu / Nannan Wang
原文:   [英文]   [中文]  
备注: 10 pages, 4 figures, Accepted by CVPR2025
摘要:
我们能否从包含不匹配数据对的多模态数据集中准确识别出真实的对应关系?现有的方法主要强调跨模态对象表示之间的相似性匹配,可能忽视了模态内关系一致性这一在区分真实和虚假对应关系时尤为重要的因素。这种忽视往往会导致将负样本误识别为正样本,从而导致意想不到的性能下降。为了解决这个问题,我们提出了一种通用的关系一致性学习框架,即ReCon,以准确区分多模态数据中的真实对应关系,从而有效减轻不匹配带来的不利影响。具体来说,ReCon利用了一种新颖的关系一致性学习,确保了跨模态关系一致性和模态内关系一致性的双重对齐。由于对关系的这种双重约束,ReCon显著提高了其对真实对应关系的识别效果,因此能够可靠地过滤掉不匹配的对,减轻错误监督的风险。在包括Flickr30K、MS-COCO和Conceptual Captions在内的三个广泛使用的基准数据集上进行了大量实验,以证明ReCon相较于其他最新技术的有效性和优越性。代码可在此URL获取。

[58] 大型语言模型能否揭开谜团?探索其在复杂场景中解锁信息的能力
标题: Can Large Language Models Unveil the Mysteries? An Exploration of Their Ability to Unlock Information in Complex Scenarios
作者: Chao Wang / Luning Zhang / Zheng Wang / Yang Zhou
原文:   [英文]   [中文]  
备注: 11pages
摘要:
结合多种感知输入并在复杂场景中进行组合推理是人类的一种复杂认知功能。随着多模态大型语言模型的进步,最近的基准测试倾向于评估跨多张图像的视觉理解。然而,它们往往忽视了跨多种感知信息进行组合推理的必要性。为了探索先进模型在复杂场景中整合多种感知输入进行组合推理的能力,我们引入了两个基准测试:线索-视觉问答(CVQA),包含三种任务类型以评估视觉理解和综合能力,以及密码线索-视觉问答(CPVQA),包含两种任务类型,专注于视觉数据的准确解释和应用。对于我们的基准测试,我们提出了三种即插即用的方法:利用模型输入进行推理,通过最小边际解码和随机生成增强推理,以及检索语义相关的视觉信息以实现有效的数据整合。综合结果显示,当前模型在组合推理基准测试上的表现不佳,即使是最先进的闭源模型在CVQA上的准确率也仅为33.04%,在CPVQA上则下降到7.38%。值得注意的是,我们的方法提高了模型在组合推理上的表现,相较于最先进的闭源模型,在CVQA上提升了22.17%,在CPVQA上提升了9.40%,展示了其在复杂场景中通过多种感知输入增强组合推理的有效性。代码将公开发布。

[59] 通过一种新颖的极小极大 $p$ 阶凹惩罚函数进行低秩张量补全
标题: Low-rank tensor completion via a novel minimax $p$-th order concave penalty function
作者: Hongbing Zhang
原文:   [英文]   [中文]  
备注: 32 pages,12 figures
摘要:
低秩张量补全(LRTC)在计算机视觉和模式识别等领域引起了广泛关注。在LRTC所采用的各种技术中,非凸松弛方法因其在处理张量奇异值方面的有效性而被广泛研究,这对于准确的张量恢复至关重要。然而,常用的非凸松弛方法——极小极大凹惩罚(MCP)函数存在一个关键限制:它能有效保留大的奇异值,但对小的奇异值处理不足。为了解决这个问题,提出了一种新颖的极小极大$p$阶凹惩罚(MPCP)函数。在此基础上,提出了一种张量$p$阶$\tau$范数作为张量秩估计的非凸松弛,从而建立了基于MPCP的LRTC模型。此外,为所提出的方法提供了收敛的理论保证。在多个真实数据集上的实验结果表明,所提出的方法在视觉质量和定量指标上均优于现有的最先进方法。

[60] 联合融合与编码:从基础提升多模态检索
标题: Joint Fusion and Encoding: Advancing Multimodal Retrieval from the Ground Up
作者: Lang Huang / Qiyu Wu / Zhongtao Miao / Toshihiko Yamasaki
原文:   [英文]   [中文]  
备注: None
摘要:
信息检索对于当今的互联网应用来说是不可或缺的,然而传统的语义匹配技术在捕捉复杂查询所需的细粒度跨模态交互方面往往显得不足。尽管后期融合的双塔架构试图通过在高层次上合并视觉和文本数据来弥合这一差距,但它们常常忽视了全面理解所必需的微妙互动。在这项工作中,我们严格评估了这些局限性,并引入了一个统一的检索框架,从根本上融合视觉和文本线索,从而实现早期的跨模态交互以增强上下文解释。通过一个两阶段的训练过程——包括后训练适应和指令微调——我们使用简单的单塔架构将多模态大模型(MLLMs)调整为检索器。我们的方法在各种检索场景中优于传统方法,尤其是在处理复杂多模态输入时。值得注意的是,联合融合编码器在需要模态融合的任务上取得了更大的改进,这与不需要模态融合的任务形成对比,强调了早期集成策略的变革潜力,并指出了一个具有上下文意识和有效信息检索的有前途的方向。

[61] 视觉编码器(已经)知道它们看到的是什么:通过简单的细粒度CLIPScore缓解对象幻觉
标题: Vision-Encoders (Already) Know What They See: Mitigating Object Hallucination via Simple Fine-Grained CLIPScore
作者: Hongseok Oh / Wonseok Hwang
原文:   [英文]   [中文]  
备注: 4 pages
摘要:
最近,大型视觉语言模型(LVLMs)在各个领域表现出色。然而,这些模型存在物体幻觉的问题。本研究重新审视了之前关于这种幻觉的主要原因在于视觉编码器的表示能力有限的说法。我们的分析表明,视觉编码器本身的能力已经足以检测物体幻觉。基于这一见解,我们提出了一种细粒度的CLIPScore(F-CLIPScore),这是一种简单而有效的评估指标,通过在名词短语级别结合文本嵌入来增强物体级别的细粒度。在OHD-Caps基准上的评估显示,F-CLIPScore在准确性上显著优于传统的CLIPScore,提升幅度高达39.6%,且无需额外训练。我们进一步验证了F-CLIPScore,表明使用F-CLIPScore过滤的数据训练的LVLM表现出减少的幻觉。

[62] AsymLoRA:在多语言大模型中协调数据冲突与共性
标题: AsymLoRA: Harmonizing Data Conflicts and Commonalities in MLLMs
作者: Xuyang Wei / Chunlin Tian / Li Li
原文:   [英文]   [中文]  
备注: None
摘要:
在多样的图文数据集上进行有效的指令微调对于开发多功能的多模态大语言模型(MLLM)至关重要,其中数据集的组成决定了模型在多模态任务中的适应能力。然而,复杂的数据集通常包含固有的冲突——源于特定模态的优化目标——以及潜在的共性,这些共性能够实现跨任务的迁移,而大多数现有方法是分别处理这些问题的。为了解决这一差距,我们引入了AsymLoRA,这是一种参数高效的微调框架,通过不对称的LoRA统一了知识模块化和跨模态协调:任务特定的低秩投影(矩阵B)保留了针对冲突目标的不同适应路径,而共享投影(矩阵A)则整合了跨模态的共性。广泛的评估表明,AsymLoRA在各种基准测试中始终优于仅捕捉共性的普通LoRA和仅关注冲突的LoRA-MoE,实现了更优的模型性能和系统效率。

[63] A2-GNN:用于无视觉描述符相机重定位的角度环形图神经网络
标题: A2-GNN: Angle-Annular GNN for Visual Descriptor-free Camera Relocalization
作者: Yejun Zhang / Shuzhe Wang / Juho Kannala
原文:   [英文]   [中文]  
备注: To be published in 2025 International Conference on 3D Vision (3DV)
摘要:
视觉定位涉及在已知场景中估计相机的六自由度(6-DoF)位姿。这个过程中一个关键步骤是识别2D查询图像和3D模型之间的像素到点的对应关系。目前大多数先进的方法依赖于大量的视觉描述符来建立这些对应关系,但在存储、隐私问题和模型维护方面面临挑战。直接进行2D-3D关键点匹配而不使用视觉描述符正变得流行,因为它可以克服这些挑战。然而,现有的无描述符方法存在精度低或计算量大的问题。为了解决这一差距,本文介绍了角度环形图神经网络(A2-GNN),这是一种简单的方法,可以通过环形特征提取高效地学习稳健的几何结构表示。具体来说,这种方法对邻居进行聚类,并将每组的距离信息和角度作为补充信息嵌入,以捕捉局部结构。在匹配和视觉定位数据集上的评估表明,我们的方法在无视觉描述符的方法中以较低的计算开销实现了最先进的精度。我们的代码将在此https URL上发布。

[64] 3D-AffordanceLLM:利用大型语言模型在三维世界中进行开放词汇的可供性检测
标题: 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds
作者: Hengshuo Chu / Xiang Deng / Xiaoyang Chen / Yinchuan Li / Jianye Hao / Liqiang Nie
原文:   [英文]   [中文]  
备注: ICLR
摘要:
3D可供性检测是一个具有广泛应用的挑战性问题,涉及到各种机器人任务。现有的方法通常将检测范式表述为基于标签的语义分割任务。这种范式依赖于预定义的标签,缺乏理解复杂自然语言的能力,导致在开放世界场景中的泛化能力有限。为了解决这些限制,我们将传统的可供性检测范式重新表述为\textit{指令推理可供性分割}(IRAS)任务。该任务旨在根据查询推理文本输出可供性掩码区域,从而避免输入标签的固定类别。我们相应地提出了\textit{3D-AffordanceLLM}(3D-ADLLM),这是一个为3D开放场景中的推理可供性检测而设计的框架。具体来说,3D-ADLLM引入了大型语言模型(LLM)到3D可供性感知中,并设计了一个自定义解码器用于生成可供性掩码,从而实现开放世界的推理可供性检测。此外,鉴于用于训练大型模型的3D可供性数据集的稀缺性,我们寻求从通用分割数据中提取知识并将其转移到可供性检测中。因此,我们提出了一种多阶段训练策略,从一个新颖的预训练任务开始,即\textit{指称对象部分分割}(ROPS)。这一阶段旨在使模型具备对象部分级别的一般识别和分割能力。然后通过IRAS任务的微调,3D-ADLLM获得了可供性检测的推理能力。总之,3D-ADLLM利用了LLM丰富的世界知识和人机交互推理能力,在开放词汇可供性检测任务中实现了约8\%的mIoU提升。

[65] 利用多视角纵向数据增强对比学习用于胸部X光报告生成
标题: Enhanced Contrastive Learning with Multi-view Longitudinal Data for Chest X-ray Report Generation
作者: Kang Liu / Zhuoqi Ma / Xiaolu Kang / Yunan Li / Kun Xie / Zhicheng Jiao / Qiguang Miao
原文:   [英文]   [中文]  
备注: Accepted by CVPR 2025
摘要:
自动化放射学报告生成为减轻放射科医生的工作负担提供了一种有效的解决方案。然而,大多数现有方法主要关注单一或固定视角图像来建模当前的疾病状况,这限制了诊断的准确性并忽视了疾病的进展。尽管一些方法利用纵向数据来跟踪疾病进展,但它们仍然依赖于单一图像来分析当前的就诊情况。为了解决这些问题,我们提出了一种结合多视角纵向数据的增强对比学习方法,以促进胸部X光报告生成,称为MLRG。具体来说,我们引入了一种多视角纵向对比学习方法,该方法整合了当前多视角图像的空间信息和纵向数据的时间信息。该方法还利用放射学报告中固有的时空信息来监督视觉和文本表示的预训练。随后,我们提出了一种标记化缺失编码技术,以灵活处理缺失的患者特定先验知识,使模型能够基于可用的先验知识生成更准确的放射学报告。在MIMIC-CXR、MIMIC-ABN和双视角CXR数据集上的大量实验表明,我们的MLRG优于最近的最新方法,在MIMIC-CXR上实现了2.3%的BLEU-4提升,在MIMIC-ABN上实现了5.5%的F1分数提升,并在双视角CXR上实现了2.7%的F1 RadGraph提升。

[66] SegLocNet:通过鸟瞰图分割进行自动驾驶的多模态定位网络
标题: SegLocNet: Multimodal Localization Network for Autonomous Driving via Bird's-Eye-View Segmentation
作者: Zijie Zhou / Zhangshuo Qi / Luqi Cheng / Guangming Xiong
原文:   [英文]   [中文]  
备注: None
摘要:
鲁棒且准确的定位对于自动驾驶至关重要。传统的基于GNSS的定位方法在城市环境中容易受到信号遮挡和多路径效应的影响。同时,依赖高清(HD)地图的方法受到构建和维护高清地图的高成本限制。另一方面,基于标准定义(SD)地图的方法由于过拟合,往往表现不佳或泛化能力较差。为了解决这些挑战,我们提出了SegLocNet,这是一种多模态无GNSS定位网络,通过鸟瞰图(BEV)语义分割实现精确定位。SegLocNet使用BEV分割网络从多个传感器输入生成语义地图,随后通过详尽的匹配过程来估计车辆的自我姿态。该方法避免了基于回归的姿态估计的局限性,并保持了高可解释性和泛化能力。通过引入统一的地图表示,我们的方法可以在不修改网络架构的情况下应用于HD和SD地图,从而在定位精度和区域覆盖之间取得平衡。在nuScenes和Argoverse数据集上的大量实验表明,我们的方法优于当前最先进的方法,并且在不依赖GNSS的情况下,能够在城市环境中准确估计自我姿态,同时保持强大的泛化能力。我们的代码和预训练模型将公开发布。

[67] OverLoCK: 一种先总览后细看的卷积神经网络,具有上下文混合动态核
标题: OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
作者: Meng Lou / Yizhou Yu
原文:   [英文]   [中文]  
备注: Accepted by CVPR 2025
摘要:
在人类视觉系统中,自上而下的注意力在感知中起着至关重要的作用,其中大脑首先进行整体但粗略的场景分析以提取显著线索(即先概览),然后进行更细致的检查以做出更准确的判断(即接下来仔细观察)。然而,最近在卷积神经网络(ConvNet)设计中的努力主要集中在增大卷积核的大小以获得更大的感受野,而没有考虑这一关键的仿生机制来进一步提高性能。为此,我们提出了一种新颖的纯卷积神经网络视觉骨干网络,称为OverLoCK,该网络从架构和混合器的角度精心设计。具体来说,我们引入了一种仿生的深层分解策略(DDS),通过在特征和卷积核权重层面提供动态的自上而下的上下文指导,将语义上有意义的上下文表示融合到中间和深层中。为了充分释放自上而下的上下文指导的力量,我们进一步提出了一种新颖的上下文混合动态卷积(ContMix),该卷积在保留固有的局部归纳偏置的同时,有效地建模了长距离依赖关系,即使在输入分辨率增加时也是如此。这些特性在以前的卷积中是不存在的。在DDS和ContMix的支持下,我们的OverLoCK在现有方法上表现出显著的性能提升。例如,OverLoCK-T实现了84.2%的Top-1准确率,显著超过了ConvNeXt-B,同时仅使用约三分之一的FLOPs/参数。在使用Cascade Mask R-CNN进行目标检测时,我们的OverLoCK-S在AP$^b$上超过了MogaNet-B显著的1%。在使用UperNet进行语义分割时,我们的OverLoCK-T在mIoU上显著提高了UniRepLKNet-T 1.7%。代码可在此https URL公开获取。

[68] WalnutData:绿色核桃的无人机遥感数据集及模型评估
标题: WalnutData: A UAV Remote Sensing Dataset of Green Walnuts and Model Evaluation
作者: Mingjie Wu / Chenggui Yang / Huihua Wang / Chen Xue / Yibo Wang / Haoyu Wang / Yansong Wang / Can Peng / Yuqi Han / Ruoyu Li / Lijun Yun / Zaiqing Chen / Songfan Shi / Luhao Fang / Shuyi Wan / Tingfeng Li / Shuangyao Liu / Haotian Feng
原文:   [英文]   [中文]  
备注: None
摘要:
无人机技术正在逐渐成熟,并能够为智慧农业和精准监测提供极其强大的支持。目前,在农业计算机视觉领域中没有与青核桃相关的数据集。因此,为了促进农业计算机视觉领域的算法设计,我们使用无人机收集了来自8个核桃样本地块的遥感数据。考虑到青核桃受到各种光照条件和遮挡的影响,我们构建了一个具有更高粒度目标特征的大规模数据集——WalnutData。该数据集包含总共30,240张图像和706,208个实例,并且有4个目标类别:正面光照且无遮挡(A1),逆光且无遮挡(A2),正面光照且有遮挡(B1),以及逆光且有遮挡(B2)。随后,我们在WalnutData上评估了许多主流算法,并将这些评估结果作为基准标准。该数据集和所有评估结果可以在这个https URL上获取。

[69] 通过专家-多模态大模型协作进行细粒度组合指称表达理解的新数据集和方法
标题: New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration
作者: Xuzheng Yang / Junzhuo Liu / Peng Wang / Guoqing Wang / Yang Yang / Heng Tao Shen
原文:   [英文]  
备注: TPAMI under review
摘要:
指称表达理解(Referring Expression Comprehension, REC)是一项基础的跨模态任务,用于评估语言理解、图像理解和语言到图像的对接能力。为了推动这一领域的发展,我们引入了一个具有两个关键特征的新REC数据集。首先,该数据集设计了可控的难度级别,需要在对象类别、属性和关系之间进行细粒度推理。其次,它通过细粒度编辑生成了负面文本和图像,明确测试模型拒绝不存在目标的能力,这是现有数据集中常被忽视但至关重要的挑战。为了解决细粒度组合的REC问题,我们提出了基于专家-多模态大模型(Specialist-MLLM)协作框架的新方法,利用它们的互补优势:专家模型高效处理简单任务,而多模态大模型更适合复杂推理。基于这种协同作用,我们引入了两种协作策略。第一种是慢-快适应(Slow-Fast Adaptation, SFA),采用路由机制自适应地将简单任务委派给专家模型,而将复杂任务交给多模态大模型。此外,通过目标重聚焦策略减轻了两种模型中的常见错误模式。第二种是候选区域选择(Candidate Region Selection, CRS),基于专家模型生成多个边界框候选,并利用多模态大模型的高级推理能力识别正确目标。在我们的数据集和其他具有挑战性的组合基准上进行的大量实验验证了我们方法的有效性。SFA策略在定位精度和效率之间实现了平衡,而CRS策略极大地提升了专家模型和多模态大模型的性能。我们希望这项工作能够通过战略性地结合现有工具以实现最大效能,而不是重新发明它们,为解决复杂的现实世界任务提供有价值的见解。

[70] VDT-Auto:基于VLM引导扩散变换器的端到端自动驾驶
标题: VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers
作者: Ziang Guo / Konstantin Gubernatorov / Selamawit Asfaw / Zakhar Yagudin / Dzmitry Tsetserukou
原文:   [英文]   [中文]  
备注: Submitted paper
摘要:
在自动驾驶中,动态环境和极端情况对自车决策的稳健性构成了重大挑战。为应对这些挑战,我们从端到端自动驾驶范式中的状态-动作映射表示入手,介绍了一种新颖的流程,VDT-Auto。利用视觉语言模型(VLM)在状态理解方面的进步,并结合基于扩散变压器的动作生成,我们的VDT-Auto在几何和语境上解析环境,以对扩散过程进行条件化。在几何方面,我们使用鸟瞰图(BEV)编码器从周围图像中提取特征网格。在语境方面,我们经过微调的VLM的结构化输出被处理成文本嵌入和噪声路径。在我们的扩散过程中,前向过程中添加的噪声是从微调VLM的噪声路径输出中采样的,而提取的BEV特征网格和嵌入文本则为我们的扩散变压器的反向过程提供条件。我们的VDT-Auto在nuScenes开环规划评估中平均L2误差为0.52米,平均碰撞率为21%。此外,实际演示展示了我们VDT-Auto的显著泛化能力。代码和数据集将在论文接受后发布。

[71] UniDepthV2:简化的通用单目度量深度估计
标题: UniDepthV2: Universal Monocular Metric Depth Estimation Made Simpler
作者: Luigi Piccinelli / Christos Sakaridis / Yung-Hsu Yang / Mattia Segu / Siyuan Li / Wim Abbeloos / Luc Van Gool
原文:   [英文]  
备注: arXiv admin note: substantial text overlap with arXiv:2403.18913
摘要:
准确的单目度量深度估计(MMDE)对于解决3D感知和建模中的下游任务至关重要。然而,最近的MMDE方法的显著准确性仅限于其训练域。这些方法即使在存在中等域差距的情况下也无法推广到未见过的域,这限制了其实际应用性。我们提出了一种新模型,UniDepthV2,能够仅从单张图像跨域重建度量3D场景。不同于现有的MMDE范式,UniDepthV2在推理时直接从输入图像预测度量3D点,无需任何额外信息,力求提供一个通用且灵活的MMDE解决方案。特别是,UniDepthV2实现了一个自提示相机模块,预测密集的相机表示以调节深度特征。我们的模型利用了一种伪球面输出表示,解耦了相机和深度表示。此外,我们提出了一种几何不变性损失,以促进相机提示的深度特征的不变性。UniDepthV2通过一种新的边缘引导损失改进了其前身UniDepth模型,该损失增强了度量深度输出中边缘的定位和清晰度,重新审视、简化和更高效的架构设计,以及一个额外的不确定性水平输出,使得需要置信度的下游任务成为可能。在零样本模式下对十个深度数据集的全面评估一致地证明了UniDepthV2的卓越性能和泛化能力。代码和模型可在此https URL获取。

[72] MITracker:用于视觉目标跟踪的多视图集成
标题: MITracker: Multi-View Integration for Visual Object Tracking
作者: Mengjie Xu / Yitao Zhu / Haotian Jiang / Jiaming Li / Zhenrong Shen / Sheng Wang / Haolin Huang / Xinyu Wang / Qing Yang / Han Zhang / Qian Wang
原文:   [英文]   [中文]  
备注: None
摘要:
多视角目标跟踪(MVOT)为传统单视角跟踪中常见的遮挡和目标丢失等挑战提供了有前景的解决方案。然而,由于缺乏全面的多视角数据集和有效的跨视角集成方法,进展一直受到限制。为克服这些限制,我们编制了一个多视角目标跟踪(MVTrack)数据集,其中包含234K高质量标注帧,涵盖27个不同场景中的目标。结合该数据集,我们引入了一种新颖的多视角目标跟踪方法,即多视角集成跟踪器(MITracker),以高效整合多视角目标特征并提供稳定的跟踪结果。MITracker可以从任意视角跟踪任意长度视频帧中的任何目标。我们的方法相较于传统单视角方法的关键进步来自两个方面:(1)MITracker将2D图像特征转换为3D特征体积,并将其压缩到鸟瞰图(BEV)平面上,促进视角间信息融合;(2)我们提出了一种注意力机制,利用融合的3D特征体积中的几何信息来优化每个视角的跟踪结果。MITracker在MVTrack和GMTD数据集上优于现有方法,达到了最先进的性能。代码和新数据集将在此https URL上提供。

[73] 素描与绘画:视觉艺术作品的逐笔演变
标题: Sketch & Paint: Stroke-by-Stroke Evolution of Visual Artworks
作者: Jeripothula Prudviraj / Vikram Jamwal
原文:   [英文]  
备注: ECCV 2024 Workshop: AI for Visual Arts Workshop and Challenges (AI4VA)
摘要:
理解基于笔触的视觉艺术作品演变对于推进艺术作品学习、欣赏和互动展示非常有用。虽然著名艺术作品的笔触顺序大多仍然未知,但为接近自然的图像绘制过程制定这一顺序可以显著增强我们对艺术技法的理解。本文介绍了一种通过基于邻近的聚类机制来近似艺术作品笔触演变的新方法。我们首先通过参数曲线将像素图像转换为矢量图像,然后探索聚类方法以确定提取笔触的顺序。我们提出的算法展示了推断未知艺术作品中笔触顺序的潜力。我们使用WikiArt数据评估了我们方法的性能,并定性地展示了合理的笔触顺序。此外,我们展示了我们的方法在处理各种输入图像类型(如线条画、面部素描、绘画和摄影图像)时的鲁棒性。通过探索笔触提取和顺序构建,我们旨在提高对艺术发展技法复杂性的理解,以及视觉艺术作品背后逐步重建过程的理解,从而丰富我们对从初始草图到最终艺术作品的创作旅程的理解。

[74] 从缓解分类能力不均衡的角度重新思考多模态学习
标题: Rethinking Multimodal Learning from the Perspective of Mitigating Classification Ability Disproportion
作者: QingYuan Jiang / Longfei Huang / Yang Yang
原文:   [英文]   [中文]  
备注: None
摘要:
尽管多模态学习(MML)取得了显著进展,但模态不平衡的存在阻碍了多模态学习在实际中实现其相对于单模态模型的预期优势。为了解决这个问题,主流的多模态学习方法更加注重平衡学习过程。然而,这些方法并没有明确增强较弱模态的分类能力,导致性能提升有限。通过设计一个持续提升算法,我们提出了一种新颖的多模态学习方法,以动态平衡弱模态和强模态的分类能力。具体来说,我们首先通过同时优化分类和残差误差,利用设计的可配置分类器模块,在多模态学习中提出了一种持续提升算法。然后,我们提出了一种自适应分类器分配策略,以动态促进弱模态的分类性能。为此,强模态和弱模态的分类能力有望得到平衡,从而缓解不平衡问题。在广泛使用的数据集上的实验证明,通过与各种最先进(SoTA)的多模态学习基线进行比较,我们的方法具有优越性。

[75] 基于CLIP驱动的双特征增强网络用于视线估计
标题: CLIP-driven Dual Feature Enhancing Network for Gaze Estimation
作者: Lin Zhang / Yi Tian / Wanru Xu / Yi Jin / Yaping Huang
原文:   [英文]   [中文]  
备注: None
摘要:
复杂的应用场景对精确且具有广泛适应性的视线估计方法提出了关键要求。最近,预训练的CLIP在各种视觉任务中取得了显著的性能,但其在视线估计中的潜力尚未被充分挖掘。在本文中,我们提出了一种新颖的CLIP驱动的双特征增强网络(CLIP-DFENet),通过一种新颖的“主-辅”协作增强策略,在CLIP的帮助下提升视线估计性能。相应地,我们设计了一个基于CLIP文本编码器的语言驱动差异模块(LDM),以揭示视线的语义差异。该模块能够赋予我们的核心特征提取器以表征视线相关语义信息的能力。此外,我们引入了一个视觉驱动融合模块(VFM),以加强通过CLIP图像编码器获得的视觉嵌入的广泛和有价值的成分,并利用它们进一步提高核心特征提取器捕获特征的泛化能力。最后,我们采用了一个稳健的双头视线回归器,将增强后的特征映射到视线方向。在四个具有挑战性的数据集上的大量实验结果表明,我们的CLIP-DFENet在域内和跨域任务中的可辨识性和广泛适应性。

[76] QPM:用于全局可解释图像分类的离散优化
标题: QPM: Discrete Optimization for Globally Interpretable Image Classification
作者: Thomas Norrenbrock / Timo Kaiser / Sovan Biswas / Ramesh Manuvinakurike / Bodo Rosenhahn
原文:   [英文]  
备注: None
摘要:
理解深度神经网络的分类,特别是在安全关键的情况下使用的分类,变得越来越重要。尽管最近的模型可以局部解释单个决策,但提供关于准确模型的整体行为的真实全球解释仍然是一个更具挑战性的开放任务。为此,我们引入了二次规划增强模型(QPM),该模型学习全局可解释的类别表示。QPM通过二进制分配来表示每个类别,通常只使用5个特征,这些特征也被分配给其他类别,从而确保易于比较的对比类别表示。这种紧凑的二进制分配是通过基于预定义相似性度量和可解释性约束的离散优化找到的。得到的最优分配用于微调多样化的特征,使每个特征成为分配类别之间的共享一般概念。广泛的评估表明,QPM在小型和大型数据集上提供了前所未有的全球可解释性,同时在可解释模型的准确性方面达到了最新水平。

[77] 展示与讲解:通过空间感知概念瓶颈模型实现视觉可解释的深度神经网络
标题: Show and Tell: Visually Explainable Deep Neural Nets via Spatially-Aware Concept Bottleneck Models
作者: Itay Benou / Tammy Riklin-Raviv
原文:   [英文]  
备注: None
摘要:
现代深度神经网络在多种任务上已经达到了人类水平的表现。然而,与人类不同的是,它们缺乏通过展示和解释指导其决策的概念的能力。在这项工作中,我们提出了一个统一的框架,将任何视觉神经网络转化为在空间和概念上可解释的模型。我们引入了一个空间感知的概念瓶颈层,将预训练主干模型的“黑箱”特征投射到可解释的概念图中,而不需要人工标签。通过在这个瓶颈上训练一个分类层,我们获得了一个自我解释的模型,该模型能够阐明哪些概念对其预测影响最大,并生成将这些概念定位在输入图像中的热图。因此,我们将这种方法命名为“空间感知和无标签概念瓶颈模型”(SALF-CBM)。我们的结果表明,所提出的SALF-CBM:(1)在各种分类任务中,优于非空间CBM方法以及原始主干模型;(2)生成高质量的空间解释,在零样本分割任务中优于广泛使用的基于热图的方法;(3)促进模型探索和调试,使用户能够查询特定图像区域,并通过局部编辑其概念图来优化模型的决策。

[78] 通过瓦片评分分布匹配实现数字病理学中的鲁棒敏感性控制
标题: Robust sensitivity control in digital pathology via tile score distribution matching
作者: Arthur Pignet / John Klein / Genevieve Robin / Antoine Olivier
原文:   [英文]   [中文]  
备注: Preprint
摘要:
由于分布变化,将数字病理模型部署到各个医疗中心具有挑战性。最近在领域泛化方面的进展提高了模型在以曲线下面积(AUC)衡量的聚合性能方面的可迁移性。然而,临床法规通常要求控制其他指标的可迁移性,例如规定的灵敏度水平。我们引入了一种基于最优传输和多实例学习(MIL)的新方法来控制全切片图像(WSI)分类模型的灵敏度。通过在多个队列和任务中的验证,我们的方法能够在仅需少量校准样本的情况下实现稳健的灵敏度控制,为计算病理系统的可靠部署提供了实用的解决方案。

[79] 水下珊瑚礁图像的尖端3D重建解决方案:综述与比较
标题: Cutting-edge 3D reconstruction solutions for underwater coral reef images: A review and comparison
作者: Jiageng Zhong / Ming Li / Armin Gruen / Konrad Schindler / Xuan Liao / Qinghua Guo
原文:   [英文]   [中文]  
备注: None
摘要:
珊瑚是礁生态系统中构建栖息地的基础生物,构建了延伸至广阔距离的庞大结构。然而,它们固有的脆弱性和对各种威胁的易感性使其容易受到严重的损害和破坏。应用先进的3D重建技术进行高质量建模对于保护珊瑚至关重要。这些技术帮助科学家准确记录和监测珊瑚礁的状态,包括其结构、物种分布及随时间的变化。在现有解决方案中,基于摄影测量的方法尤为突出,尤其是在水下摄像、摄影测量计算机视觉和机器学习的最新进展下。尽管基于图像的3D重建技术不断进步,但针对水下珊瑚礁图像的尖端解决方案仍缺乏系统的综述和全面的评估。新兴的先进方法可能难以应对水下成像环境、复杂的珊瑚结构以及计算资源的限制。需要对它们进行审查和评估,以弥合众多尖端技术研究与实际应用之间的差距。本文重点关注这些方法的两个关键阶段:相机姿态估计和密集表面重建。我们系统地回顾和总结了经典和新兴的方法,通过真实世界和模拟数据集进行全面评估。基于我们的研究结果,我们提供参考建议,并深入讨论现有方法的发展潜力和挑战。这项工作为科学家和管理者提供了处理水下珊瑚礁图像进行3D重建的技术基础和实用指导。

[80] 基于特征提取的自适应H&E-IHC信息融合染色框架
标题: Adaptive H&E-IHC information fusion staining framework based on feature extra
作者: Yifan Jia / Xingda Yu / Zhengyang Ji / Songning Lai / Yutao Yue
原文:   [英文]   [中文]  
备注: None
摘要:
免疫组织化学(IHC)染色在评估乳腺癌等疾病中起着重要作用。基于生成模型的H&E到IHC转换提供了一种简单且具有成本效益的方法来获取IHC图像。尽管之前的模型可以很好地进行数字着色,但它们仍然存在以下问题:(i)仅通过在HE中不突出的像素特征进行着色,这容易导致着色过程中的信息丢失;(ii)缺乏像素完美的H&E-IHC真实对,这对经典的L1损失构成了挑战。为了解决上述挑战,我们提出了一种基于特征提取器的自适应信息增强着色框架。我们首先提出了VMFE模块,利用多尺度特征提取和小波变换卷积有效提取颜色信息特征,同时结合共享解码器进行特征融合。通过对比学习训练的高性能H&E-IHC双特征提取器,可以在高纬度空间中有效地进行HE-IHC的特征对齐。同时,训练好的特征编码器用于增强特征,并在HE切片染色过程中自适应调整损失,以解决与信息不清晰和不对称相关的问题。我们在不同的数据集上进行了测试,并取得了优异的结果。代码可在此网址获取:this https URL

[81] 学习在开放词汇动作识别中无偏泛化
标题: Learning to Generalize without Bias for Open-Vocabulary Action Recognition
作者: Yating Yu / Congqi Cao / Yifan Zhang / Yanning Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
利用CLIP的有效视觉-文本对齐和静态泛化能力,最近的视频学习者采用CLIP初始化,并通过进一步的正则化或重组来实现开放词汇动作识别中的泛化。然而,由于CLIP的静态偏差,这些视频学习者往往会过拟合于快捷的静态特征,从而损害其泛化能力,尤其是在面对新的上下文外动作时。为了解决这个问题,我们引入了Open-MeDe,这是一种用于开放词汇动作识别的具有静态去偏的全新元优化框架。从泛化的新视角出发,Open-MeDe采用元学习方法,以一种具有成本效益的方式改善已知到开放的泛化和图像到视频的去偏。具体而言,Open-MeDe引入了一种跨批次元优化方案,通过虚拟评估明确鼓励视频学习者快速泛化到任意后续数据,从而引导出更平滑的优化景观。实际上,优化过程中不受CLIP正则化的限制,隐式地减轻了视频元学习者固有的静态偏差。我们进一步在优化轨迹上应用自集成,以获得通用的最优参数,从而实现对上下文内和上下文外新数据的稳健泛化。大量评估表明,Open-MeDe不仅超越了为上下文内开放词汇动作识别量身定制的最新正则化方法,而且在上下文外场景中也表现出色。

[82] 图像生成的多模态表示对齐:文本-图像交错控制比你想象的更简单
标题: Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think
作者: Liang Chen / Shuai Bai / Wenhao Chai / Weichu Xie / Haozhe Zhao / Leon Vinci / Junyang Lin / Baobao Chang
原文:   [英文]   [中文]  
备注: 13 pages, 9 figures, codebase in this https URL
摘要:
先进的文本到图像生成领域正在见证统一框架的出现,这些框架将强大的文本编码器(如CLIP和T5)与扩散变压器骨干网络相结合。尽管已经有努力尝试通过附加条件(如轮廓图和深度图)来控制输出图像,但仍然缺乏一个用于任意文本-图像交错控制的综合框架。这一差距在尝试在生成过程中合并来自多个图像的概念或视觉元素时尤为明显。为弥补这一差距,我们进行了初步实验,表明大型多模态模型(LMMs)提供了一个有效的共享表示空间,其中图像和文本可以很好地对齐,以作为外部扩散模型的条件。基于这一发现,我们提出了Dream Engine,这是一个高效且统一的框架,旨在用于图像生成模型中的任意文本-图像交错控制。基于强大的文本到图像模型如SD3.5,我们通过引入多功能的多模态信息编码器(如QwenVL)来替换原有的仅文本编码器。我们的方法采用了两阶段的训练范式,包括联合文本-图像对齐和多模态交错指令微调。我们的实验表明,这种训练方法是有效的,在GenEval基准测试中取得了0.69的总体得分,并且与最先进的文本到图像模型如SD3.5和FLUX的性能相匹配。

[83] 4Deform:用于鲁棒形状插值的神经表面变形
标题: 4Deform: Neural Surface Deformation for Robust Shape Interpolation
作者: Lu Sang / Zehranaz Canfes / Dongliang Cao / Riccardo Marin / Florian Bernard / Daniel Cremers
原文:   [英文]   [中文]  
备注: CVPR25
摘要:
在计算机视觉中,生成非刚性变形形状之间的逼真中间形状是一项具有挑战性的任务,尤其是在缺乏时间一致性和拓扑结构变化的非结构化数据(例如点云)中。大多数插值方法是为结构化数据(即网格)设计的,不适用于真实世界的点云。与此相反,我们的方法4Deform利用神经隐式表示(NIR)来实现自由拓扑变化的形状变形。与之前基于网格的方法学习基于顶点的变形场不同,我们的方法在欧几里得空间中学习连续的速度场。因此,它适用于点云等较少结构化的数据。此外,我们的方法在训练期间不需要中间形状的监督;相反,我们结合物理和几何约束来正则化速度场。我们使用修改后的水平集方程重建中间表面,直接将我们的NIR与速度场连接起来。实验表明,我们的方法在各种场景(例如,噪声、部分、拓扑变化、非等距形状)中显著优于之前的NIR方法,并且首次实现了新的应用,如4D Kinect序列上采样和真实世界高分辨率网格变形。

[84] DIPSER:用于自然环境中面对面学生参与度识别的数据集
标题: DIPSER: A Dataset for In-Person Student1 Engagement Recognition in the Wild
作者: Luis Marquez-Carpintero / Sergio Suescun-Ferrandiz / Carolina Lorenzo Álvarez / Jorge Fernandez-Herrero / Diego Viejo / Rosabel Roig-Vila / Miguel Cazorla
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们介绍了一个新颖的数据集,旨在评估面对面课堂环境中的学生注意力。该数据集包含RGB摄像机数据,每个学生配备多个摄像机以捕捉其姿势和面部表情,此外还包括每个人的智能手表传感器数据。这个数据集使得机器学习算法能够被训练来预测注意力并将其与情感相关联。我们为每位学生提供了一套全面的注意力和情感标签,这些标签是通过自我报告以及四位不同专家的评估生成的。我们的数据集独特地结合了面部和环境摄像机数据、智能手表指标,并在类似数据集中包含了代表性不足的族裔,所有这些都在真实的、面对面的环境中进行,使其成为目前同类中最全面的数据集。 所提供的数据集提供了一个广泛且多样化的数据集合,涉及不同教育背景下的学生互动,并通过其他工具的附加元数据进行了增强。此项计划通过提供一个有价值的资源来分析面对面课程中的学生注意力和情感,从而解决了现有的不足之处。

[85] Avat3r:用于高保真3D头像的可动画高斯重建大模型
标题: Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars
作者: Tobias Kirschstein / Javier Romero / Artem Sevastopolsky / Matthias Nießner / Shunsuke Saito
原文:   [英文]   [中文]  
备注: Project website: this https URL, Video: this https URL
摘要:
传统上,创建照片级真实感的3D头部化身需要工作室级别的多视角捕捉设置和昂贵的测试时优化,这限制了数字人类替身在视觉特效行业或离线渲染中的使用。为了解决这一缺陷,我们提出了Avat3r,它可以仅从少量输入图像中回归出高质量且可动画化的3D头部化身,大大减少了推理过程中的计算需求。更具体地说,我们使大型重建模型可动画化,并从一个大型多视角视频数据集中学习了一个强大的3D人头先验。为了获得更好的3D头部重建,我们使用了DUSt3R的位置信息图和人类基础模型Sapiens的广义特征图。为了动画化3D头部,我们的关键发现是简单的交叉注意力与表情编码已经足够。最后,我们通过在训练过程中向模型输入具有不同表情的图像来提高鲁棒性,使得即使输入不一致(例如,手机拍摄时的意外移动或单目视频的帧),也能重建3D头部化身。我们将Avat3r与当前最先进的方法在少量输入和单一输入场景下进行了比较,发现我们的方法在这两项任务中都具有竞争优势。最后,我们展示了我们提出的模型的广泛适用性,可以从不同来源的图像、智能手机拍摄、单张图像,甚至是域外输入如古代半身像中创建3D头部化身。项目网站:this https URL

[86] 用于棕榈果实成熟度分类的深度卷积神经网络
标题: Deep Convolutional Neural Networks for Palm Fruit Maturity Classification
作者: Mingqiang Han / Chunlin Yi
原文:   [英文]   [中文]  
备注: None
摘要:
为了最大化棕榈油的产量和质量,关键在于在最佳成熟阶段收获棕榈果实。本项目旨在开发一个自动化的计算机视觉系统,能够准确地将棕榈果实图像分类为五个成熟度等级。我们采用深度卷积神经网络(CNNs)来根据成熟阶段对棕榈果实图像进行分类。一个浅层的CNN作为基线模型,同时对预训练的ResNet50和InceptionV3架构应用迁移学习和微调。该研究利用了一个公开可用的数据集,其中包含超过8000张具有显著变化的图像,并将其分为80%用于训练和20%用于测试。所提出的深度CNN模型在棕榈果实成熟阶段分类中实现了超过85%的测试准确率。该研究强调了深度学习在自动化棕榈果实成熟度评估中的潜力,这可以有助于优化收获决策并提高棕榈油生产效率。

[87] 注意力蒸馏:视觉特征迁移的统一方法
标题: Attention Distillation: A Unified Approach to Visual Characteristics Transfer
作者: Yang Zhou / Xu Gao / Zichong Chen / Hui Huang
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025. Project page: this https URL
摘要:
最近在生成扩散模型方面的进展显示出对图像风格和语义的显著内在理解。在本文中,我们利用预训练扩散网络的自注意力特征,将视觉特征从参考图像转移到生成图像中。与之前将这些特征用作即插即用属性的工作不同,我们提出了一种新颖的注意力蒸馏损失,该损失在理想和当前风格化结果之间计算,基于此,我们通过在潜在空间中反向传播来优化合成图像。接下来,我们提出了一种改进的分类器引导,将注意力蒸馏损失整合到去噪采样过程中,进一步加速合成并支持广泛的图像生成应用。大量实验表明,我们的方法在将示例的风格、外观和纹理转移到新图像的合成中表现出色。代码可在此https URL获取。

[88] 利用凝视跟踪标签的弱监督在自然环境中增强3D凝视估计
标题: Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels
作者: Pierre Vuillecard / Jean-Marc Odobez
原文:   [英文]  
备注: None
摘要:
在不受约束的真实世界环境中进行准确的3D视线估计仍然是一个重大挑战,因为外观、头部姿态、遮挡的变化以及野外3D视线数据集的有限性。为了解决这些挑战,我们引入了一种新颖的自训练弱监督视线估计框架(ST-WSGE)。这个两阶段学习框架利用了多样的2D视线数据集,例如视线跟踪数据,这些数据提供了丰富的外观变化、自然场景和视线分布,并提出了一种生成3D伪标签和增强模型泛化能力的方法。此外,传统的特定模态模型分别为图像或视频设计,限制了可用训练数据的有效使用。为了解决这个问题,我们提出了视线变换器(GaT),这是一种模态无关的架构,能够同时从图像和视频数据集中学习静态和动态的视线信息。通过结合3D视频数据集和来自视线跟踪任务的2D视线目标标签,我们的方法实现了以下关键贡献:(i)在不受约束的基准测试如Gaze360和GFIE上,在域内和跨域泛化方面取得了显著的最新技术进展,在视频视线估计中取得了显著的跨模态提升;(ii)在数据集如MPIIFaceGaze和Gaze360上相比于正面人脸方法表现出优越的跨域性能。代码和预训练模型将向社区发布。

[89] 计算机视觉基础模型是否学习了人类视觉系统的低级特征?
标题: Do computer vision foundation models learn the low-level characteristics of the human visual system?
作者: Yancheng Cai / Fei Yin / Dounia Hammou / Rafal Mantiuk
原文:   [英文]   [中文]  
备注: Accepted by CVPR 2025
摘要:
计算机视觉基础模型,如 DINO 或 OpenCLIP,是在大型图像数据集上以自监督的方式进行训练的。同样,大量证据表明,人类视觉系统(HVS)受到自然界中色彩和图案的统计分布的影响,这些特征也存在于基础模型的训练数据中。我们在本文中探讨的问题是,是否在自然图像上训练的基础模型模仿了人类视觉系统的一些低级特征,如对比度检测、对比度掩蔽和对比度恒常性。具体来说,我们设计了一个包含九种测试类型的协议,以评估 45 个基础和生成模型的图像编码器。我们的结果表明,一些基础模型(例如 DINO、DINOv2 和 OpenCLIP)具有一些人类视觉的特征,但其他模型则表现出较少的相似性。基础模型往往对低对比度的敏感性较小,并且对不同频率的对比度反应不规则。在对比度掩蔽方面,基础模型与人类数据的吻合度最高。我们的研究结果表明,人类视觉和计算机视觉在学习解释现实世界图像时可能会采取相似和不同的路径。总体而言,尽管仍存在差异,但在视觉任务上训练的基础模型开始与人类低级视觉对齐,其中 DINOv2 表现出最接近的相似性。

[90] 面向对象学习的矢量量化视觉基础模型
标题: Vector-Quantized Vision Foundation Models for Object-Centric Learning
作者: Rongzhen Zhao / Vivienne Wang / Juho Kannala / Joni Pajarinen
原文:   [英文]   [中文]  
备注: None
摘要:
将视觉场景分解为对象,如同人类一样,有助于建模对象关系和动态。对象中心学习(Object-Centric Learning, OCL)通过将图像或视频特征图聚合为对象级特征向量(称为\textit{slots})来实现这一点。OCL通过从slots重建输入进行自监督,但在处理复杂纹理时表现不佳,因此许多方法采用视觉基础模型(Vision Foundation Models, VFMs)来提取具有更好对象性的特征图。然而,仅将VFMs用作特征提取器并未充分发挥其潜力。我们提出了用于OCL的矢量量化VFMs(Vector-Quantized VFMs for OCL, VQ-VFM-OCL,或称VVO),其中VFM特征被提取以促进对象级信息聚合,并进一步量化以加强重建中的监督。我们的VVO将OCL的代表方法统一到一个简洁的架构中。实验表明,VVO不仅在对象发现任务上优于主流方法,还对视觉预测和推理等下游任务有益。源代码在补充材料中提供。

[91] HVI:一种用于低光照图像增强的新色彩空间
标题: HVI: A New color space for Low-light Image Enhancement
作者: Qingsen Yan / Yixu Feng / Cheng Zhang / Guansong Pang / Kangbiao Shi / Peng Wu / Wei Dong / Jinqiu Sun / Yanning Zhang
原文:   [英文]   [中文]  
备注: *These authors contributed equally to this work
摘要:
低光图像增强(LLIE)是一个重要的计算机视觉任务,旨在从受损的低光图像中恢复详细的视觉信息。许多现有的LLIE方法基于标准RGB(sRGB)空间,由于sRGB固有的高色彩敏感性,常常产生颜色偏差和亮度伪影。虽然使用色相、饱和度和值(HSV)颜色空间转换图像有助于解决亮度问题,但它会引入显著的红色和黑色噪声伪影。为了解决这个问题,我们提出了一种新的用于LLIE的颜色空间,即水平/垂直-强度(HVI),由极化的HS图和可学习的强度定义。前者通过对红色坐标施加小距离来去除红色伪影,而后者通过压缩低光区域来去除黑色伪影。为了充分利用色度和强度信息,我们进一步引入了一种新颖的颜色和强度解耦网络(CIDNet),以在HVI空间中学习不同光照条件下的精确光度映射函数。基准和消融实验的综合结果表明,所提出的HVI颜色空间与CIDNet在10个数据集上优于最先进的方法。代码可在此https URL获取。

[92] 可解释的多模态伤口感染分类:结合生成的图像描述
标题: Explainable, Multi-modal Wound Infection Classification from Images Augmented with Generated Captions
作者: Palawat Busaranuvong / Emmanuel Agu / Reza Saadati Fard / Deepak Kumar / Shefalika Gautam / Bengisu Tulu / Diane Strong
原文:   [英文]   [中文]  
备注: None
摘要:
糖尿病足溃疡(DFUs)感染可能导致严重并发症,包括组织坏死和肢体截肢,这突显了准确、及时诊断的必要性。以往的机器学习方法主要通过分析伤口图像来识别感染,而未利用诸如医疗记录等附加元数据。在本研究中,我们旨在通过引入用于伤口感染检测的合成字幕增强检索(SCARWID)来改进感染检测,这是一种新颖的深度学习框架,利用合成的文本描述来增强DFU图像。SCARWID由两个组件组成:(1)Wound-BLIP,一个视觉-语言模型(VLM),在GPT-4o生成的描述上进行微调,以从图像中合成一致的字幕;(2)一个图像-文本融合模块,使用交叉注意力从图像及其对应的Wound-BLIP字幕中提取跨模态嵌入。感染状态通过从标记的支持集中检索前k个相似项来确定。为了增强训练数据的多样性,我们利用潜在扩散模型生成了额外的伤口图像。结果表明,SCARWID优于最先进的模型,在伤口感染分类中分别实现了0.85、0.78和0.81的平均敏感性、特异性和准确性。将生成的字幕与伤口图像和感染检测结果一起展示,提高了可解释性和信任度,使护士能够将SCARWID的输出与他们的医学知识相结合。这在伤口记录不可用或帮助可能难以识别伤口感染视觉特征的新手护士时尤为有价值。

[93] 视觉自适应提示用于组合零样本学习
标题: Visual Adaptive Prompting for Compositional Zero-Shot Learning
作者: Kyle Stein / Arash Mahyari / Guillermo Francia / Eman El-Sheikh
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)在学习视觉和文本数据的联合表示方面展示了令人印象深刻的能力,使其成为诸如组合零样本学习(CZSL)等任务的强大工具。CZSL要求模型能够推广到训练期间未明确遇到的视觉原语(如属性和对象)的新组合。最近在CZSL提示方面的工作主要集中在修改文本编码器的输入,通常使用在不同视觉上下文中不变的静态提示。然而,这些方法难以充分捕捉变化的视觉上下文,因为它们侧重于文本适应,而不是利用视觉特征进行组合推理。为了解决这个问题,我们提出了视觉自适应提示系统(VAPS),该系统在VLMs框架内利用可学习的视觉提示库和基于相似性的检索机制,以弥合语义和视觉特征之间的差距。我们的方法引入了一种动态视觉提示库机制,根据图像的视觉特征选择最相关的属性和对象提示。我们提出的系统包括一个视觉提示适配器,鼓励模型学习更具普遍性的嵌入空间。在三个CZSL基准测试中,无论是封闭还是开放世界场景,我们的方法都展示了最先进的结果。

[94] M^3Builder:用于医学影像自动化机器学习的多智能体系统
标题: M^3Builder: A Multi-Agent System for Automated Machine Learning in Medical Imaging
作者: Jinghao Feng / Qiaoyu Zheng / Chaoyi Wu / Ziheng Zhao / Ya Zhang / Yanfeng Wang / Weidi Xie
原文:   [英文]   [中文]  
备注: 38 pages, 7 figures
摘要:
自主智能体系统因其能够自主执行复杂任务而受到广泛关注。然而,它们对精心准备的工具的依赖限制了其在医疗领域的适用性,该领域需要训练专门的模型。在本文中,我们做出了三项贡献:(i) 我们提出了M3Builder,这是一种新型多智能体系统,旨在自动化医疗影像中的机器学习(ML)。M3Builder的核心是四个专门的智能体,它们协作处理复杂的、多步骤的医疗ML工作流程,从自动化数据处理和环境配置到自包含的自动调试和模型训练。这些智能体在一个医疗影像ML工作空间中运行,该工作空间是一个结构化环境,旨在为智能体提供数据集的自由文本描述、训练代码和交互工具,从而实现无缝的通信和任务执行。(ii) 为了评估自动化医疗影像ML的进展,我们提出了M3Bench,这是一个基准测试,包含14个训练数据集上的四个通用任务,涵盖五种解剖结构和三种成像模式,涉及2D和3D数据。(iii) 我们尝试了七种最先进的大型语言模型作为我们系统的智能体核心,例如Claude系列、GPT-4o和DeepSeek-V3。与现有的ML自主设计相比,M3Builder在完成医疗影像中的ML任务方面表现出色,使用Claude-3.7-Sonnet作为智能体核心实现了94.29%的成功率,显示出在医疗影像中实现完全自动化机器学习的巨大潜力。

[95] SecureGaze:防御凝视估计中的后门攻击
标题: SecureGaze: Defending Gaze Estimation Against Backdoor Attacks
作者: Lingyu Du / Yupei Liu / Jinyuan Jia / Guohao Lan
原文:   [英文]   [中文]  
备注: None
摘要:
注视估计模型广泛应用于驾驶员注意力监测和人机交互等领域。尽管存在许多注视估计的方法,但它们在很大程度上依赖于数据需求量大的深度学习来实现高性能。这种依赖性通常迫使从业者从未经验证的公共数据集中收集训练数据、外包模型训练或依赖预训练模型。然而,这些做法使注视估计模型容易受到后门攻击。在这种攻击中,攻击者通过污染训练数据注入后门触发器,创建后门漏洞:模型在处理正常输入时表现正常,但在存在特定触发器时会产生被操控的注视方向。这会危及许多基于注视的应用程序的安全性,例如导致模型在跟踪驾驶员注意力时失效。迄今为止,还没有针对注视估计模型后门攻击的防御措施。对此,我们引入了SecureGaze,这是第一个旨在保护注视估计模型免受此类攻击的解决方案。与分类模型不同,防御注视估计面临独特的挑战,因为其输出空间是连续的,并且后门行为是全局激活的。通过识别后门注视估计模型的独特特征,我们开发了一种新颖且有效的方法来逆向工程触发函数,以实现可靠的后门检测。在数字和物理世界中的广泛评估表明,SecureGaze有效地抵御了一系列后门攻击,并且优于从分类模型中改编的七种最先进的防御措施。

[96] Mobius:通过潜在位移生成无缝循环视频的文本
标题: Mobius: Text to Seamless Looping Video Generation via Latent Shift
作者: Xiuli Bi / Jianfei Yuan / Bo Liu / Yong Zhang / Xiaodong Cun / Chi-Man Pun / Bin Xiao
原文:   [英文]   [中文]  
备注: Project page: this https URL ; GitHub repository: this https URL
摘要:
我们介绍了Mobius,这是一种从文本描述直接生成无缝循环视频的新方法,无需任何用户注释,从而为多媒体展示创造新的视觉材料。我们的方法重新利用了预训练的视频潜在扩散模型,从文本提示生成循环视频,而无需任何训练。在推理过程中,我们首先通过连接视频的起始和结束噪声来构建一个潜在循环。鉴于时间一致性可以通过视频扩散模型的上下文来维持,我们通过逐步将第一帧的潜在变量移到每一步的末尾来执行多帧潜在去噪。因此,去噪上下文在每一步中都会有所变化,同时在整个推理过程中保持一致性。此外,我们方法中的潜在循环可以是任意长度。这将我们的潜在移动方法扩展到生成超出视频扩散模型上下文范围的无缝循环视频。与之前的动图不同,所提出的方法不需要图像作为外观,这会限制生成结果的运动。相反,我们的方法可以产生更动态的运动和更好的视觉质量。我们进行了多次实验和比较,以验证所提出方法的有效性,展示了其在不同场景中的效果。所有代码将会公开。

[97] FlexVAR:无需残差预测的灵活视觉自回归建模
标题: FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction
作者: Siyu Jiao / Gengwei Zhang / Yinlong Qian / Jiancheng Huang / Yao Zhao / Humphrey Shi / Lin Ma / Yunchao Wei / Zequn Jie
原文:   [英文]  
备注: None
摘要:
本文对视觉自回归建模中的残差预测范式提出了挑战,并提出了一种新的灵活视觉自回归图像生成范式——FlexVAR。FlexVAR通过真实值预测促进自回归学习,使每一步都能独立生成合理的图像。这种简单直观的方法能够快速学习视觉分布,使生成过程更加灵活和适应性强。FlexVAR仅在低分辨率图像($\leq$ 256px)上进行训练,但能够:(1)生成各种分辨率和纵横比的图像,甚至超过训练图像的分辨率。(2)支持各种图像到图像的任务,包括图像优化、内/外部填充和图像扩展。(3)适应不同的自回归步骤,允许通过减少步骤加快推理速度或通过增加步骤提高图像质量。我们的1.0B模型在ImageNet 256$\times$256基准测试中优于其VAR对应模型。此外,当以13步零样本迁移图像生成过程时,性能进一步提高到2.08 FID,分别比最先进的自回归模型AiM/VAR高出0.25/0.28 FID,比流行的扩散模型LDM/DiT高出1.52/0.19 FID。当将我们的1.0B模型以零样本方式迁移到ImageNet 512$\times$512基准测试时,FlexVAR取得了与VAR 2.3B模型相当的竞争性结果,后者是一个在512$\times$512分辨率下完全监督训练的模型。

[98] 用于激光雷达点云自监督学习的多尺度邻域占用掩码自编码器
标题: Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point Clouds
作者: Mohamed Abdelsamad / Michael Ulrich / Claudius Gläser / Abhinav Valada
原文:   [英文]   [中文]  
备注: None
摘要:
掩码自编码器(MAE)在视觉及其他领域的自监督学习(SSL)中展现了巨大的潜力。然而,由于自动驾驶中使用的LiDAR点云在3D空间中存在大量空白区域,MAE在处理这些点云时面临特别的挑战。因此,现有的工作在解码器中泄露了占用信息,并且计算复杂度显著,从而在实际中将SSL预训练限制为仅用于2D鸟瞰视图编码器。在这项工作中,我们提出了一种新颖的邻域占用MAE(NOMAE),通过仅在非掩码体素的邻域中进行掩码占用重建来克服上述挑战。我们采用了多尺度的体素掩码和占用重建,并提出了分层掩码生成技术,以捕捉点云中不同大小物体的特征。NOMAE具有极大的灵活性,可以直接用于现有3D架构中的SSL。我们在nuScenes和Waymo Open数据集上针对语义分割和3D物体检测的下游感知任务进行了广泛评估,并与判别式和生成式SSL方法进行了比较。结果表明,NOMAE在多个基准测试中为多种点云感知任务设定了新的最先进水平。

[99] UniTok:用于视觉生成和理解的统一分词器
标题: UniTok: A Unified Tokenizer for Visual Generation and Understanding
作者: Chuofan Ma / Yi Jiang / Junfeng Wu / Jihan Yang / Xin Yu / Zehuan Yuan / Bingyue Peng / Xiaojuan Qi
原文:   [英文]   [中文]  
备注: None
摘要:
视觉生成和理解之间的表示差异在将这些能力整合到单一框架中时造成了一个关键的鸿沟。为弥合这一差距,我们引入了UniTok,这是一种离散的视觉分词器,它在生成时编码细粒度的细节,同时也捕捉高层次的语义以便理解。尽管最近的研究表明,这些目标可能在训练中引发损失冲突,但我们揭示了潜在的瓶颈源于离散标记的有限表示能力。我们通过引入多码本量化来解决这个问题,该方法将向量量化划分为几个独立的子码本,以扩展潜在特征空间,同时避免由于码本过大而导致的训练不稳定。我们的方法显著提高了统一离散分词器的上限,使其能够匹配甚至超越特定领域的连续分词器。例如,UniTok在ImageNet上实现了显著的rFID为0.38(相比之下,SD-VAE为0.87)和零样本准确率为78.6%(相比之下,CLIP为76.2%)。我们的代码可在此https URL获取。

[100] ARTalk:通过自回归模型进行语音驱动的3D头部动画
标题: ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model
作者: Xuangeng Chu / Nabarun Goswami / Ziteng Cui / Hanqin Wang / Tatsuya Harada
原文:   [英文]   [中文]  
备注: More video demonstrations, code, models and data can be found on our project website: this http URL
摘要:
语音驱动的三维面部动画旨在从任意音频片段生成逼真的唇部动作和面部表情。尽管现有的基于扩散的方法能够产生自然的动作,但其缓慢的生成速度限制了其应用潜力。在本文中,我们引入了一种新颖的自回归模型,通过学习从语音到多尺度运动码本的映射,实现了高度同步的唇部动作以及逼真的头部姿态和眼睛眨动的实时生成。此外,我们的模型可以使用样本运动序列适应未见过的说话风格,从而能够创建具有独特个人风格的三维说话化身,超越训练期间所见的身份。广泛的评估和用户研究表明,我们的方法在唇同步准确性和感知质量方面优于现有方法。

[101] OpenTAD:时序动作检测的统一框架与综合研究
标题: OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection
作者: Shuming Liu / Chen Zhao / Fatimah Zohra / Mattia Soldan / Alejandro Pardo / Mengmeng Xu / Lama Alssum / Merey Ramazanova / Juan León Alcázar / Anthony Cioppa / Silvio Giancola / Carlos Hinojosa / Bernard Ghanem
原文:   [英文]   [中文]  
备注: None
摘要:
时间动作检测(TAD)是一项基础的视频理解任务,旨在识别视频中的人类动作并定位其时间边界。尽管近年来该领域取得了显著进展,但由于缺乏标准化框架,进一步的进展和实际应用受到了阻碍。目前,不同的方法在不同的实现设置、评估协议等条件下进行比较,这使得难以评估特定技术的实际效果。为了解决这个问题,我们提出了\textbf{OpenTAD},一个统一的TAD框架,将16种不同的TAD方法和9个标准数据集整合到一个模块化代码库中。在OpenTAD中,只需最少的努力即可用不同的设计替换一个模块,以端到端模式训练基于特征的TAD模型,或在两者之间切换。OpenTAD还促进了在各种数据集上的简单基准测试,并能够在不同方法之间进行公平和深入的比较。通过OpenTAD,我们全面研究了不同网络组件的创新如何影响检测性能,并通过广泛的实验确定了最有效的设计选择。这项研究基于现有技术为每个组件构建了一种新的最先进的TAD方法。我们已在此https URL上提供了我们的代码和模型。

[102] 准备反应:用于双角色互动生成的在线反应策略
标题: Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation
作者: Zhi Cen / Huaijin Pi / Sida Peng / Qing Shuai / Yujun Shen / Hujun Bao / Xiaowei Zhou / Ruizhen Hu
原文:   [英文]   [中文]  
备注: Accepted as ICLR 2025 conference paper
摘要:
本文探讨了生成双角色在线互动的任务。此前,双角色互动生成主要有两种设置:(1) 基于对方完整动作序列生成一个角色的动作,(2) 基于特定条件联合生成双角色动作。我们认为这些设置未能模拟现实生活中双角色互动的过程,在现实中,人类会实时对对方做出反应,并作为独立个体行动。相反,我们提出了一种在线反应策略,称为“Ready-to-React”,用于基于过去观察到的动作生成下一个角色姿势。每个角色都有自己的反应策略作为其“头脑”,使他们能够以流式方式像真人一样互动。我们的策略通过将扩散头融入自回归模型来实现,可以动态响应对方的动作,同时有效减轻生成过程中的误差累积。我们使用具有挑战性的拳击任务进行了全面实验。实验结果表明,我们的方法优于现有基线,并能够生成扩展的动作序列。此外,我们展示了我们的方法可以通过稀疏信号进行控制,使其非常适合于VR和其他在线互动环境。

[103] 通过稀疏时变属性建模实现单目动态场景渲染的高效高斯点绘
标题: Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling
作者: Hanyang Kong / Xingyi Yang / Xinchao Wang
原文:   [英文]   [中文]  
备注: AAAI 2025
摘要:
从单目视频中渲染动态场景是一项关键但具有挑战性的任务。最近的可变形高斯喷溅技术已成为表示真实世界动态场景的强大解决方案。然而,它通常会导致大量冗余的高斯,试图在不同时间步拟合每个训练视图,从而导致渲染速度变慢。此外,静态区域中高斯的属性是时间不变的,因此没有必要对每个高斯进行建模,这可能会导致静态区域的抖动。在实践中,动态场景渲染速度的主要瓶颈是高斯的数量。对此,我们引入了高效动态高斯喷溅(EDGS),通过稀疏的时间变化属性建模来表示动态场景。我们的方法使用稀疏锚网格表示动态场景,通过经典的核表示计算密集高斯的运动流。此外,我们提出了一种无监督策略来有效过滤出对应静态区域的锚。只有与可变形物体相关的锚才会被输入到MLP中以查询时间变化的属性。在两个真实世界数据集上的实验表明,与之前的最先进方法相比,我们的EDGS在渲染速度和渲染质量上都有显著提升。

[104] InsTaG:从几秒视频中学习个性化3D说话头像
标题: InsTaG: Learning Personalized 3D Talking Head from Few-Second Video
作者: Jiahe Li / Jiawei Zhang / Xiao Bai / Jin Zheng / Jun Zhou / Lin Gu
原文:   [英文]  
备注: Accepted at CVPR 2025. Project page: this https URL
摘要:
尽管在合成逼真的个性化3D说话头像方面表现出色,但基于辐射场的现有方法在每个新身份的训练数据和时间需求上都很高。本文介绍了InsTaG,这是一种3D说话头像合成框架,能够从少量训练数据中快速学习逼真的个性化3D说话头像。InsTaG基于一个轻量级的3DGS特定人物合成器,并结合了通用运动先验,实现了高质量和快速适应,同时保持了高级个性化和效率。作为准备工作,我们首先提出了一种无身份预训练策略,使得特定人物模型的预训练成为可能,并鼓励从长视频数据语料库中收集通用运动先验。为了充分利用通用运动先验来学习一个未见过的新身份,我们接着提出了一种运动对齐适应策略,以自适应地将目标头像对齐到预训练场,并在少量训练数据下约束一个稳健的动态头像结构。实验表明,我们在各种数据场景下表现出色且高效,能够渲染高质量的个性化说话头像。

[105] 超越下一个标记:自回归视觉生成的下一个X预测
标题: Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
作者: Sucheng Ren / Qihang Yu / Ju He / Xiaohui Shen / Alan Yuille / Liang-Chieh Chen
原文:   [英文]   [中文]  
备注: Project page at \url{this https URL}
摘要:
自回归(AR)建模以其下一个标记预测范式而闻名,是当前最先进的语言和视觉生成模型的基础。传统上,“标记”被视为最小的预测单位,通常是语言中的离散符号或视觉中的量化块。然而,对于二维图像结构的最佳标记定义仍然是一个未解的问题。此外,AR模型存在曝光偏差问题,即训练期间的教师强制导致推理时的错误累积。在本文中,我们提出了xAR,一种广义的AR框架,将标记的概念扩展为实体X,X可以表示单个块标记、一个单元(邻近块的$k\times k$分组)、一个子样本(远距离块的非局部分组)、一个尺度(从粗到细的分辨率),甚至是整个图像。此外,我们将离散标记分类重新表述为\textbf{连续实体回归},在每个AR步骤中利用流匹配方法。该方法在训练中以噪声实体而非真实标记为条件,形成噪声上下文学习,有效缓解了曝光偏差。因此,xAR提供了两个关键优势:(1)它支持灵活的预测单位,能够捕捉不同的上下文粒度和空间结构;(2)通过避免依赖教师强制,减轻了曝光偏差。在ImageNet-256生成基准测试中,我们的基础模型xAR-B(172M)优于DiT-XL/SiT-XL(675M),同时实现了20倍的推理速度提升。同时,xAR-H以1.24的FID设立了新的最先进水平,比之前表现最好的模型快2.2倍,而无需依赖视觉基础模块(例如,DINOv2)或高级引导间隔采样。

[106] LIFT-GS:用于3D语言定位的跨场景渲染监督蒸馏
标题: LIFT-GS: Cross-Scene Render-Supervised Distillation for 3D Language Grounding
作者: Ang Cao / Sergio Arnaud / Oleksandr Maksymets / Jianing Yang / Ayush Jain / Sriram Yenamandra / Ada Martin / Vincent-Pierre Berges / Paul McVay / Ruslan Partsey / Aravind Rajeswaran / Franziska Meier / Justin Johnson / Jeong Joon Park / Alexander Sax
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
我们训练3D视觉-语言理解模型的方法是训练一个前馈模型,该模型在3D中进行预测,但从不需要3D标签,仅在2D中进行监督,使用2D损失和可微渲染。这种方法对于视觉-语言理解是新的。通过将重建视为“潜在变量”,我们可以渲染输出,而不对网络架构施加不必要的限制(例如,可以与仅解码器模型一起使用)。对于训练,只需要图像和相机姿态,以及2D标签。我们展示了通过使用预训练的2D模型生成的伪标签,甚至可以去除对2D标签的需求。我们展示了如何通过这种方法预训练一个网络,并将其微调用于3D视觉-语言理解任务。我们证明了这种方法在3D视觉-语言定位方面优于基线/最先进技术,并且也优于其他3D预训练技术。项目页面:这个https URL。

[107] InterMimic:迈向基于物理的人体-物体交互的通用全身控制
标题: InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions
作者: Sirui Xu / Hung Yu Ling / Yu-Xiong Wang / Liang-Yan Gui
原文:   [英文]   [中文]  
备注: CVPR 2025. Project Page: this https URL
摘要:
实现人类与各种物体交互的逼真模拟一直是一个基本目标。将基于物理的运动模仿扩展到复杂的人物-物体交互(HOIs)具有挑战性,因为存在复杂的人物-物体耦合、物体几何的多样性以及运动捕捉数据中的伪影,例如不准确的接触和有限的手部细节。我们介绍了InterMimic,这是一个框架,使单一策略能够从数小时的覆盖动态和多样物体的全身交互的有缺陷的MoCap数据中稳健地学习。我们的关键见解是采用课程策略——先完美,再扩展。我们首先训练特定主体的教师策略来模仿、重定目标并优化运动捕捉数据。接下来,我们将这些教师策略提炼成一个学生策略,教师作为在线专家提供直接监督以及高质量的参考。值得注意的是,我们在学生策略上结合了强化学习微调,以超越单纯的示范复制并实现更高质量的解决方案。我们的实验表明,InterMimic在多个HOI数据集上产生了逼真且多样的交互。学习到的策略以零样本的方式进行泛化,并与运动生成器无缝集成,将框架从单纯的模仿提升到复杂人物-物体交互的生成建模。