scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年3月19日更新论文137
[1] 上下文感知的多模态人工智能揭示了五个世纪艺术演变中的隐藏路径
标题: Context-aware Multimodal AI Reveals Hidden Pathways in Five Centuries of Art Evolution
作者: Jin Kim / Byunghwee Lee / Taekho You / Jinhyuk Yun
原文:   [英文]   [中文]  
备注: 30 pages, 4 figures. Some example paintings are blurred to avoid potential copyright violations
摘要:
多模态生成式人工智能的兴起正在改变技术与艺术的交汇点,为大规模艺术作品提供更深入的洞察。尽管其创造能力已被广泛探索,但其在潜在空间中表现艺术作品的潜力仍未被充分研究。我们使用最先进的生成式人工智能,特别是Stable Diffusion,分析了500年的西方绘画作品,通过模型提取两种类型的潜在信息:形式方面(例如颜色)和背景方面(例如主题)。我们的研究结果表明,背景信息比形式元素更成功地区分艺术时期、风格和个别艺术家。此外,通过从绘画中提取的背景关键词,我们展示了艺术表达如何随着社会变化而演变。我们的生成实验将未来背景融入历史艺术作品中,成功再现了艺术作品的演变轨迹,突出了社会与艺术之间相互作用的重要性。本研究展示了多模态人工智能如何通过整合时间、文化和历史背景来扩展传统的形式分析。

[2] 文本到图像扩散模型中视觉概念挖掘的综合调查
标题: A Comprehensive Survey on Visual Concept Mining in Text-to-image Diffusion Models
作者: Ziqiang Li / Jun Li / Lizhi Xiong / Zhangjie Fu / Zechao Li
原文:   [英文]   [中文]  
备注: Under review
摘要:
文本到图像的扩散模型在根据文本提示生成高质量、多样化的图像方面取得了显著进展。然而,文本信号的固有局限性常常使这些模型无法完全捕捉特定概念,从而降低了它们的可控性。为了解决这个问题,一些方法结合了个性化技术,利用参考图像挖掘视觉概念表示,以补充文本输入并增强文本到图像扩散模型的可控性。尽管取得了这些进展,但对视觉概念挖掘的全面、系统探索仍然有限。在本文中,我们将现有研究分为四个关键领域:概念学习、概念消除、概念分解和概念组合。这一分类为视觉概念挖掘(VCM)技术的基本原理提供了宝贵的见解。此外,我们识别了关键挑战,并提出了未来研究方向,以推动这一重要且有趣的领域向前发展。

[3] 看见未来,感知未来:用于未来生成和感知的统一驾驶世界模型
标题: Seeing the Future, Perceiving the Future: A Unified Driving World Model for Future Generation and Perception
作者: Dingkang Liang / Dingyuan Zhang / Xin Zhou / Sifan Tu / Tianrui Feng / Xiaofan Li / Yumeng Zhang / Mingyang Du / Xiao Tan / Xiang Bai
原文:   [英文]   [中文]  
备注: The project page is at this https URL
摘要:
我们介绍了UniFuture,这是一种简单而有效的驾驶世界模型,可以在一个框架内无缝集成未来场景生成和感知。与仅专注于像素级未来预测或几何推理的现有模型不同,我们的方法联合建模未来的外观(即RGB图像)和几何(即深度),确保预测的一致性。具体来说,在训练过程中,我们首先引入了双潜在共享方案,该方案在共享的潜在空间中传递图像和深度序列,使两种模态都能从共享特征学习中受益。此外,我们提出了一种多尺度潜在交互机制,促进图像和深度特征在多个空间尺度上的双向细化,有效增强几何一致性和感知对齐。在测试过程中,我们的UniFuture只需使用当前图像作为输入,就可以轻松预测高一致性的未来图像-深度对。在nuScenes数据集上的大量实验表明,UniFuture在未来生成和感知任务上优于专门的模型,突出了统一的、结构感知的世界模型的优势。项目页面在这个HTTPS URL。

[4] 让合成数据大放异彩:单域泛化的领域重组与软融合
标题: Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization
作者: Hao Li / Yubin Xiao / Ke Liang / Mengzhu Wang / Long Lan / Kenli Li / Xinwang Liu
原文:   [英文]   [中文]  
备注: 26 pages, 10 figures
摘要:
单域泛化(SDG)旨在使用来自单一来源的数据训练模型,以在不同场景中保持一致的性能。虽然使用潜在扩散模型(LDMs)在增强有限的源数据方面显示出潜力,但我们证明直接使用合成数据可能会有害,因为合成和真实目标域之间的显著特征分布差异会导致性能下降。为了解决这个问题,我们提出了判别域重组和软融合(DRSF),这是一种利用合成数据来提高模型泛化能力的训练框架。我们使用LDMs生成多样化的伪目标域样本,并引入两个关键模块来处理分布偏差。首先,判别特征解耦和重组(DFDR)模块使用熵引导的注意力来重新校准通道级特征,抑制合成噪声同时保持语义一致性。其次,多伪域软融合(MDSF)模块使用潜在空间特征插值的对抗训练,在域之间创建连续的特征过渡。广泛的SDG实验在目标检测和语义分割任务上表明,DRSF在仅有微小计算开销的情况下实现了显著的性能提升。值得注意的是,DRSF的即插即用架构能够与无监督域适应范式无缝集成,强调了其在解决多样化和现实世界域挑战中的广泛适用性。

[5] Omnia de EgoTempo:在自我中心视频中对多模态大型语言模型的时间理解进行基准测试
标题: Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos
作者: Chiara Plizzari / Alessio Tonioni / Yongqin Xian / Achin Kulshrestha / Federico Tombari
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025. Dataset and code are available at this https URL
摘要:
理解细粒度的时间动态在自我中心视频中至关重要,因为连续的流媒体捕捉到与物体频繁、近距离的互动。在这项工作中,我们揭示了当前的自我中心视频问答数据集通常包含可以仅通过少量帧或常识推理来回答的问题,而不必基于实际视频。我们的分析表明,当前最先进的多模态大型语言模型(MLLMs)在这些基准测试中仅使用文本或单帧作为输入就能实现显著的高性能。为了解决这些局限性,我们引入了EgoTempo,一个专门设计用于评估自我中心领域时间理解的数据集。EgoTempo强调需要整合整个视频信息的任务,确保模型需要依赖时间模式而不是静态线索或预先存在的知识。在EgoTempo上的广泛实验表明,当前的MLLMs在自我中心视频的时间推理方面仍然不足,因此我们希望EgoTempo能够催化该领域的新研究,并激发能够更好地捕捉时间动态复杂性的模型。数据集和代码可在此https URL获取。

[6] 网络伪装攻击扰乱视觉语言模型
标题: Web Artifact Attacks Disrupt Vision Language Models
作者: Maan Qraitem / Piotr Teterwak / Kate Saenko / Bryan A. Plummer
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)(例如,CLIP, LLaVA)是在大规模、轻度整理的网络数据集上训练的,这导致它们在语义概念和不相关的视觉信号之间学习了意外的关联。这些关联通过使预测依赖于偶然的模式而不是真正的视觉理解来降低模型的准确性。之前的研究已经利用这些关联作为攻击向量来操纵模型预测,例如在图像上插入欺骗性的类别文本进行排版攻击。这些攻击之所以成功,是因为VLMs对文本的偏重——这是由于标题反映了可见的词语而不是描述内容。然而,这种攻击仅仅关注于与目标类别完全匹配的文本,忽略了更广泛的关联,包括不匹配的文本和图形符号,这些关联源于网络规模数据中大量的品牌内容。为了解决这一差距,我们引入了基于伪影的攻击:一种新颖的操控类别,使用不匹配的文本和图形元素误导模型。与排版攻击不同,这些伪影不是预定义的,使得它们更难以防御但也更难以发现。我们通过将伪影攻击框定为一个搜索问题来解决这一问题,并展示了它们在五个数据集上的有效性,其中一些伪影相互强化以达到100%的攻击成功率。这些攻击在模型之间的转移效果高达90%,使得攻击未见过的模型成为可能。为了防御这些攻击,我们将之前工作的伪影感知提示扩展到图形设置。我们看到相对于标准提示,成功率适度降低了最多15%,这表明增强模型鲁棒性是一个有前景的方向。

[7] FiVE:用于评估新兴扩散和校正流模型的细粒度视频编辑基准
标题: FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models
作者: Minghan Li / Chenxi Xie / Yichen Wu / Lei Zhang / Mengyu Wang
原文:   [英文]   [中文]  
备注: 24 pages, 14 figures, 16 tables
摘要:
最近出现了许多文本到视频(T2V)编辑方法,但由于缺乏标准化的基准进行公平评估,导致声明不一致,并且无法评估模型对超参数的敏感性。细粒度视频编辑对于实现精确的对象级修改,同时保持上下文和时间一致性至关重要。为了解决这个问题,我们引入了FiVE,一个用于评估新兴扩散和校正流模型的细粒度视频编辑基准。我们的基准包括74个真实视频和26个生成视频,涵盖6种细粒度编辑类型、420个对象级编辑提示对及其对应的掩码。此外,我们通过引入FlowEdit对最新的校正流(RF)T2V生成模型Pyramid-Flow和Wan2.1进行了改进,结果是无需训练和反转的视频编辑模型Pyramid-Edit和Wan-Edit。我们在FiVE基准上使用15个指标评估了五种基于扩散和两种基于RF的编辑方法,涵盖背景保留、文本视频相似性、时间一致性、视频质量和运行时间。为了进一步增强对象级评估,我们引入了FiVE-Acc,这是一种利用视觉语言模型(VLMs)来评估细粒度视频编辑成功的新指标。实验结果表明,基于RF的编辑显著优于基于扩散的方法,其中Wan-Edit实现了最佳整体性能,并表现出对超参数的最小敏感性。更多视频演示可在匿名网站上查看:this https URL

[8] 适应未知:使用动态阈值进行无训练的视听事件感知
标题: Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds
作者: Eitan Shaar / Ariel Shaulov / Gal Chechik / Lior Wolf
原文:   [英文]   [中文]  
备注: None
摘要:
在音视频事件感知领域,主要关注跨不同模态(音频和视频)的事件的时间定位和分类,现有的方法受限于其训练数据中的词汇量。这一限制显著阻碍了它们对新颖、未见过的事件类别的泛化能力。此外,该任务的标注过程劳动密集,需要在模态和时间段上进行广泛的手动标注,限制了当前方法的可扩展性。当前最先进的模型忽视了事件分布随时间的变化,降低了它们适应视频动态变化的能力。此外,以往的方法依赖于后期融合来结合音频和视觉信息。虽然这种方法简单直接,但导致了多模态交互的显著损失。为了解决这些挑战,我们提出了音视频自适应视频分析($\text{AV}^2\text{A}$),这是一种与模型无关的方法,不需要进一步训练,并集成了一种分数级融合技术,以保留更丰富的多模态交互。$\text{AV}^2\text{A}$还包括一个视频内标签转移算法,利用输入视频数据和先前帧的预测来动态调整后续帧的事件分布。此外,我们提出了第一个无需训练的开放词汇基线用于音视频事件感知,证明了$\text{AV}^2\text{A}$在无训练基线上的显著改进。我们展示了$\text{AV}^2\text{A}$在零样本和弱监督的最先进方法上的有效性,在现有方法的性能指标上取得了显著的改进。

[9] Long-VMNet:通过固定内存加速长视频理解
标题: Long-VMNet: Accelerating Long-Form Video Understanding via Fixed Memory
作者: Saket Gurukar / Asim Kadav
原文:   [英文]   [中文]  
备注: None
摘要:
长视频理解对于视频检索、摘要和问答等各种应用至关重要。然而,传统方法需要大量计算能力,并且通常受到GPU内存的限制。为了解决这个问题,我们提出了长视频记忆网络(Long-VMNet),这是一种新颖的视频理解方法,采用固定大小的记忆表示来存储从输入视频中采样的具有辨别力的片段。Long-VMNet通过利用神经采样器识别辨别性标记来提高效率。此外,Long-VMNet只需对视频进行一次扫描,大大提升了效率。我们在Rest-ADL数据集上的结果表明,在长视频检索和问答方面,推理时间提高了18倍至75倍,同时具有竞争力的预测性能。

[10] 在室内场景中提高360度神经辐射场的几何一致性
标题: Improving Geometric Consistency for 360-Degree Neural Radiance Fields in Indoor Scenarios
作者: Iryna Repinetska / Anna Hilsmann / Peter Eisert
原文:   [英文]   [中文]  
备注: None
摘要:
逼真的渲染和新视角合成在从游戏到路径规划的人机交互任务中起着至关重要的作用。神经辐射场(NeRFs)将场景建模为连续的体积函数,并实现了显著的渲染质量。然而,NeRFs在大面积低纹理区域往往表现不佳,产生被称为“浮子”的云状伪影,降低了场景的真实感,特别是在具有无特征建筑表面的室内环境中,如墙壁、天花板和地板。为克服这一限制,先前的工作将几何约束整合到NeRF管道中,通常利用从运动结构或多视图立体中获得的深度信息。然而,传统的RGB特征对应方法在无纹理区域中准确估计深度时面临挑战,导致约束不可靠。在360度“内向外”视图中,这一挑战更加复杂,相邻图像之间稀疏的视觉重叠进一步阻碍了深度估计。为了解决这些问题,我们提出了一种高效且稳健的方法来计算密集的深度先验,专门针对室内环境中大面积低纹理的建筑表面。我们引入了一种新颖的深度损失函数,以提高在这些具有挑战性、低特征区域的渲染质量,同时,互补的深度块正则化进一步改善了其他区域的深度一致性。在两个合成的360度室内场景中使用Instant-NGP进行的实验表明,与标准的光度损失和均方误差深度监督相比,我们的方法提高了视觉保真度。

[11] SED-MVS:基于分割驱动和边缘对齐变形的多视图立体匹配,具有深度恢复和遮挡约束
标题: SED-MVS: Segmentation-Driven and Edge-Aligned Deformation Multi-View Stereo with Depth Restoration and Occlusion Constraint
作者: Zhenlong Yuan / Zhidong Yang / Yujun Cai / Kuangxin Wu / Mufan Liu / Dapeng Zhang / Hao Jiang / Zhaoxin Li / Zhaoqi Wang
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,由于可变形和可扩展的补丁在重建无纹理区域中的有效性,多视图立体匹配中的补丁变形方法表现出了显著的效果。然而,这些方法主要强调在无纹理区域中拓宽感受野,而忽视了由于容易被忽略的边缘跳过所导致的变形不稳定性,这可能导致匹配失真。为了解决这个问题,我们提出了SED-MVS,它采用全景分割和多轨迹扩散策略进行分割驱动和边缘对齐的补丁变形。具体来说,为了防止意外的边缘跳过,我们首先使用SAM2进行全景分割,以深度边缘引导补丁变形,然后采用多轨迹扩散策略确保补丁全面对齐深度边缘。此外,为了避免随机初始化的潜在不准确性,我们结合了LoFTR的稀疏点和DepthAnything V2的单目深度图,以恢复可靠且真实的深度图用于初始化和监督引导。最后,我们将分割图像与单目深度图结合起来,利用实例间遮挡关系,然后将其视为遮挡图以实现两种不同的边缘约束,从而促进遮挡感知的补丁变形。在ETH3D、Tanks & Temples、BlendedMVS和Strecha数据集上的大量结果验证了我们提出的方法的最新性能和强大的泛化能力。

[12] 面向压缩视频的可扩展建模以实现高效动作识别
标题: Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition
作者: Shristi Das Biswas / Efstathia Soufleri / Arani Roy / Kaushik Roy
原文:   [英文]   [中文]  
备注: None
摘要:
训练鲁棒的深度视频表示在计算上被证明是具有挑战性的,因为存在大量的解码开销、原始视频流的巨大规模以及其固有的高时间冗余性。与现有方案不同,在压缩视频域中操作并利用所有免费可用的模态,即I帧和P帧(运动矢量和残差),提供了一种计算高效的替代方案。现有方法将此任务视为一个简单的多模态问题,忽略了P帧之间的时间相关性和隐含的稀疏性,从而为相同动作的视频建模更强的共享表示,使训练和泛化更容易。通过重新审视主流视频理解骨干网络的高层设计,我们在保持类似性能的同时,将推理速度提高了56倍。为此,我们提出了一个混合的端到端框架,通过三个关键概念的学习分解来将推理成本降低330倍:首先,设计了一个特殊的双编码器方案,配备高效的脉冲时间调制器,以在保留跨域特征聚合的同时最小化延迟。其次,使用统一的Transformer模型,通过全局自注意力捕捉模态间的依赖性,以增强I帧和P帧的上下文交互。第三,使用多模态混合块来从联合时空标记嵌入中建模丰富的表示。实验表明,我们的方法在UCF-101、HMDB-51、K-400、K-600和SS-v2数据集上实现了轻量级架构,达到了最先进的视频识别性能,具有良好的成本(0.73J/V)和快速推理(16V/s)。我们的观察为高效的下一代时空学习器的实用设计选择带来了新的见解。代码已发布。

[13] TextInVision: 文本与提示复杂性驱动的视觉文本生成基准
标题: TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark
作者: Forouzan Fallah / Maitreya Patel / Agneet Chatterjee / Vlad I. Morariu / Chitta Baral / Yezhou Yang
原文:   [英文]   [中文]  
备注: None
摘要:
生成嵌入文本的图像对于自动生成视觉和多模态文档(如教育材料和广告)至关重要。然而,现有的基于扩散的文本到图像模型在图像中准确嵌入文本时常常面临挑战,包括拼写准确性、上下文相关性和视觉一致性等问题。由于缺乏全面的基准,评估此类模型在生成图像中嵌入文本的能力变得复杂。在这项工作中,我们引入了TextInVision,这是一个大规模的、由文本和提示复杂性驱动的基准,旨在评估扩散模型将视觉文本有效整合到图像中的能力。我们设计了一组多样化的提示和文本,考虑了各种属性和文本特征。此外,我们准备了一个图像数据集,以测试变分自编码器(VAE)模型在不同字符表示中的表现,强调VAE架构在扩散框架中的文本生成也可能带来挑战。通过对多个模型的广泛分析,我们识别出常见错误,并突出拼写不准确和上下文不匹配等问题。通过定位不同提示和文本中的失败点,我们的研究为AI生成多模态内容的未来进步奠定了基础。

[14] 从同步中学习:在复杂场景中进行自监督的无校准多视角人物关联
标题: Learning from Synchronization: Self-Supervised Uncalibrated Multi-View Person Association in Challenging Scenes
作者: Keqi Chen / Vinkle Srivastav / Didier Mutter / Nicolas Padoy
原文:   [英文]  
备注: Accepted for CVPR 2025. Code: this https URL
摘要:
多视角人物关联是进行人类活动多视角分析的基础步骤。尽管人物重识别特征已被证明有效,但在人物外观相似的复杂场景中,这些特征变得不可靠。因此,需要跨视角的几何约束来实现更稳健的关联。然而,大多数现有方法要么是使用真实身份标签的全监督方法,要么需要难以获得的校准相机参数。在这项工作中,我们探讨了从同步中学习的潜力,并提出了一种自监督的未校准多视角人物关联方法,Self-MVA,无需使用任何标注。具体而言,我们提出了一个自监督学习框架,包括一个编码器-解码器模型和一个自监督的前置任务——跨视角图像同步,其目标是区分来自不同视角的两张图像是否在同一时间捕获。该模型编码每个人的统一几何和外观特征,我们通过在应用匈牙利匹配以弥合实例距离和图像距离之间的差距后,利用同步标签进行监督训练。为了进一步减少解空间,我们提出了两种类型的自监督线性约束:多视角重投影和成对边缘关联。在三个具有挑战性的公共基准数据集(WILDTRACK、MVOR和SOLDIERS)上的大量实验表明,我们的方法达到了最先进的结果,超越了现有的无监督和全监督方法。代码可在此https URL获取。

[15] C2D-ISR:优化基于注意力的图像超分辨率从连续到离散尺度
标题: C2D-ISR: Optimizing Attention-based Image Super-resolution from Continuous to Discrete Scales
作者: Yuxuan Jiang / Chengxi Zeng / Siyue Teng / Fan Zhang / Xiaoqing Zhu / Joel Sole / David Bull
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,注意力机制在单图像超分辨率(SISR)中得到了广泛应用,并取得了令人印象深刻的重建效果。然而,这些进展仍然受到简单训练策略和为离散上采样尺度设计的网络架构的限制,这阻碍了模型有效捕捉多尺度信息的能力。为了解决这些限制,我们提出了一种新颖的框架,\textbf{C2D-ISR},用于从性能和复杂性角度优化基于注意力的图像超分辨率模型。我们的方法基于两阶段训练方法和分层编码机制。新的训练方法涉及离散尺度模型的连续尺度训练,从而能够学习尺度间的相关性和多尺度特征表示。此外,我们将分层编码机制推广到现有的基于注意力的网络结构中,这可以实现改进的空间特征融合、跨尺度信息聚合,更重要的是,实现更快的推理速度。我们基于三种高效的基于注意力的骨干网络(SwinIR-L、SRFormer-L 和 MambaIRv2-L)评估了 C2D-ISR 框架,并在超分辨率性能(提高高达 0.2dB)和计算复杂性降低(高达 11%)方面,展示了相对于其他现有优化框架 HiT 的显著改进。源代码将在此 http URL 上公开提供。

[16] MonoCT: 使用一致的教师模型克服单目3D检测领域偏移
标题: MonoCT: Overcoming Monocular 3D Detection Domain Shift with Consistent Teacher Models
作者: Johannes Meier / Louis Inchingolo / Oussema Dhaouadi / Yan Xia / Jacques Kaiser / Daniel Cremers
原文:   [英文]   [中文]  
备注: ICRA2025
摘要:
我们解决了在不同传感器、环境和相机设置下的单目3D目标检测问题。在本文中,我们介绍了一种新颖的无监督领域自适应方法,称为MonoCT,该方法生成高度准确的伪标签用于自我监督。受到我们观察到的准确深度估计对于减轻领域偏移至关重要的启发,MonoCT引入了一种新颖的广义深度增强(GDE)模块,结合集成概念以提高深度估计的准确性。此外,我们通过探索模型内部一致性测量和多样性最大化(DM)策略,引入了一种新颖的伪标签评分(PLS)模块,以进一步生成高质量的伪标签用于自我训练。在六个基准上的大量实验表明,MonoCT在很大程度上(最小约21%用于AP Mod.)优于现有的SOTA领域自适应方法,并且在汽车、交通摄像头和无人机视角下具有良好的泛化能力。

[17] FedVSR:面向视频超分辨率的模型无关联邦学习
标题: FedVSR: Towards Model-Agnostic Federated Learning in Video Super-Resolution
作者: Ali Mollaahmadi Dehaghi / Hossein KhademSohi / Reza Razavi / Steve Drew / Mohammad Moshirpour
原文:   [英文]   [中文]  
备注: None
摘要:
视频超分辨率(VSR)通过从低分辨率输入中重建高分辨率视频,以恢复细节并提高视觉清晰度。尽管基于深度学习的VSR方法取得了令人印象深刻的成果,但其集中化特性引发了严重的隐私问题,特别是在隐私要求严格的应用中。联邦学习(FL)提供了一种替代方法,但现有的FL方法在低级视觉任务中表现不佳,导致重建效果不理想。为了解决这个问题,我们提出了FedVSR1,这是一种新颖的、与架构无关的、无状态的VSR联邦学习框架。我们的方法引入了一个轻量级的损失项,以改善本地优化并以最小的计算开销指导全局聚合。据我们所知,这是首次尝试联邦VSR。大量实验表明,FedVSR在PSNR上平均比通用FL方法高出0.85 dB,突显了其有效性。代码可在此网址获取:this https URL

[18] 切片Wasserstein距离中异构图像的快速对齐
标题: Fast alignment of heterogeneous images in sliced Wasserstein distance
作者: Yunpeng Shi / Amit Singer / Eric J. Verbeke
原文:   [英文]   [中文]  
备注: None
摘要:
许多计算机视觉的应用依赖于对相似但不完全相同的图像进行对齐。我们提出了一种基于最优传输的快速异构图像对齐算法。我们的方法结合了快速傅里叶方法的速度和切片概率度量的鲁棒性,使我们能够在 $O(L^2 \log L)$ 操作中高效地计算两个 $L \times L$ 图像之间的对齐,使用切片2-Wasserstein距离。我们证明了我们的方法对图像中的平移、旋转和变形具有鲁棒性。

[19] 持续性去学习基础文本到图像模型而不损害泛化能力
标题: Continual Unlearning for Foundational Text-to-Image Models without Generalization Erosion
作者: Kartik Thakral / Tamar Glaser / Tal Hassner / Mayank Vatsa / Richa Singh
原文:   [英文]   [中文]  
备注: Under submission in T-PAMI
摘要:
我们如何在不进行大量再训练的情况下,有效地从预训练的生成基础模型中移除选定的概念?本研究引入了“持续去学习”,这是一种新颖的范式,能够逐步从基础生成模型中有针对性地移除多个特定概念。我们提出了无泛化侵蚀的递减去学习(DUGE)算法,该算法选择性地去除不需要的概念生成,同时保留相关的非目标概念生成,并减轻泛化侵蚀。为此,DUGE 关注三个损失:交叉注意损失,引导模型关注不含目标概念的图像;先验保留损失,保护与非目标概念相关的知识;以及正则化损失,防止模型遭受泛化侵蚀。实验结果表明,所提出的方法能够排除某些概念,而不损害模型的整体完整性和性能。这为精炼生成模型提供了一个务实的解决方案,巧妙地处理模型训练和概念管理的复杂性,降低了版权侵权、个人或许可材料滥用以及复制独特艺术风格的风险。重要的是,它保持了非目标概念,从而保护了模型的核心能力和有效性。

[20] 8-小牛图像数据集
标题: 8-Calves Image dataset
作者: Xuyang Fang / Sion Hannuna / Neill Campbell
原文:   [英文]   [中文]  
备注: 11 pages, 5 figures
摘要:
我们介绍了8-Calves数据集,这是一个用于评估在遮挡丰富、时间一致的环境中进行目标检测和身份分类的基准。该数据集包含一个1小时的视频(67,760帧),记录了在一个牛棚中的八头荷斯坦弗里斯牛犊,提供了真实的边界框和身份标注,以及用于检测任务的900张静态帧。每头牛犊都有独特的毛皮图案,能够实现精确的身份区分。 在牛检测方面,我们对28个模型(25个YOLO变体,3个transformer模型)进行了微调,使用600帧进行训练,并在完整视频上进行测试。结果显示,较小的YOLO模型(例如YOLOV9c)尽管可能受到基于YOLOv8m的标注流程的偏见影响,但其表现优于较大的模型。在身份分类方面,我们评估了23个预训练视觉模型(ResNet、ConvNextV2、ViTs)的嵌入,通过线性分类器和KNN进行评估。现代架构如ConvNextV2表现出色,而较大的模型经常过拟合,突显出在扩展方面的低效。 主要发现包括:(1)在较简单的数据集上,最小化、针对性的增强(例如旋转)优于复杂策略;(2)预训练策略(例如BEiT、DinoV2)显著提升了身份识别能力;(3)时间连续性和自然运动模式提供了在合成或特定领域基准中不存在的独特挑战。数据集的受控设计和延长的序列(1小时对比之前的10分钟基准)使其成为压力测试遮挡处理、时间一致性和效率的实用工具。 数据集的链接是这个https URL。

[21] 利用图像运动的三维重建预测矮生番茄植株的总叶面积
标题: Using 3D reconstruction from image motion to predict total leaf area in dwarf tomato plants
作者: Dmitrii Usenko / David Helman / Chen Giladi
原文:   [英文]  
备注: 24 pages, 11 figures, submitted to Computers and Electronics in Agriculture
摘要:
准确估算总叶面积(TLA)对于评估植物生长、光合作用活性和蒸腾作用至关重要。然而,由于矮番茄等灌木状植物的冠层结构复杂,这一任务仍然具有挑战性。传统方法通常劳动强度大、对植物有损伤,或在捕捉冠层复杂性方面存在局限性。本研究评估了一种非破坏性方法,该方法结合了来自RGB图像的序列3D重建和机器学习,以估算在受控温室条件下生长的三种矮番茄品种(Mohamed、Hahms Gelbe Topftomate和Red Robin)的TLA。两个实验(春夏和秋冬)包括73株植物,通过“洋葱”方法获得了418次TLA测量。记录了高分辨率视频,每株植物使用500帧进行3D重建。点云通过四种算法(Alpha Shape、Marching Cubes、Poisson's、Ball Pivoting)进行处理,并使用七种回归模型评估网格:多变量线性回归、Lasso回归、Ridge回归、Elastic Net回归、随机森林、极端梯度提升和多层感知器。Alpha Shape重建($\alpha = 3$)结合极端梯度提升实现了最佳性能($R^2 = 0.80$,$MAE = 489 cm^2$)。跨实验验证显示出稳健的结果($R^2 = 0.56$,$MAE = 579 cm^2$)。特征重要性分析确定了高度、宽度和表面积为关键预测因子。这种可扩展的自动化TLA估算方法适用于城市农业和精准农业,在自动修剪、资源效率和可持续食品生产方面提供了应用。该方法在不同环境条件和冠层结构下展示了稳健性。

[22] 识别和缓解多图像视觉语言模型的位置偏差
标题: Identifying and Mitigating Position Bias of Multi-image Vision-Language Models
作者: Xinyu Tian / Shu Zou / Zhaoyuan Yang / Jing Zhang
原文:   [英文]   [中文]  
备注: Accepted to CVPR2025
摘要:
大型视觉语言模型(LVLMs)的发展已经从单图像推理进展到多图像推理。尽管有这一进步,我们的研究发现LVLMs在跨多图像稳健地利用信息方面仍然存在困难,其预测结果会受到图像位置变化的显著影响。为了进一步探讨这一问题,我们引入了位置问答(PQA),这是一项精心设计的任务,用于量化每个位置的推理能力。我们的分析揭示了LVLMs中明显的位置偏差:开源模型在处理后面位置的图像时表现出色,但在处理中间或开头位置的图像时表现不佳,而专有模型在理解开头和结尾位置的图像时有所改善,但在处理中间位置的图像时表现不佳。受此启发,我们提出了SoFt Attention(SoFA),这是一种简单且无需训练的方法,通过在图像间因果注意力和双向注意力之间进行线性插值来减轻这种偏差。实验结果表明,SoFA减少了位置偏差并提高了现有LVLMs的推理性能。

[23] LED:无需人工策划数据生成的LLM增强开放词汇物体检测
标题: LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation
作者: Yang Zhou / Shiyu Zhao / Yuxiao Chen / Zhenting Wang / Dimitris N. Metaxas
原文:   [英文]   [中文]  
备注: None
摘要:
大型基础模型通过大规模视觉-文本数据训练,可以通过数据生成显著增强开放词汇对象检测(OVD)。然而,这可能导致合成数据的偏差以及对特定配置的过拟合。通过直接利用大型语言模型(LLM)的隐藏状态,可以规避人工策划的数据生成的偏差,这一方法却很少被探索。本文提出了一种系统的方法,通过利用多模态语言模型(MLLM)的LLM解码器层来增强视觉定位。我们引入了一种零初始化的交叉注意力适配器,以实现从LLM到对象检测器的高效知识转移,这种新方法称为LED(LLM增强开放词汇对象检测)。我们证明了早期LLM层的中间隐藏状态保留了强大的空间-语义关联,这对定位任务是有益的。实验表明,我们的适配策略显著增强了复杂自由形式文本查询的性能,而在简单类别上保持不变。通过我们的适配,使用Swin-T作为视觉编码器的Qwen2-0.5B在Omnilabel上将GroundingDINO的性能提高了2.33%,代价是增加了8.7%的GFLOPs。使用更大的视觉编码器的Qwen2-0.5B可以进一步将性能提升6.22%。我们通过对不同适配器架构、LLM的大小以及在哪些层添加适配进行消融验证进一步验证了我们的设计。

[24] SMILE:一种用于多中心STAS肺癌组织病理诊断的尺度感知多实例学习方法
标题: SMILE: a Scale-aware Multiple Instance Learning Method for Multicenter STAS Lung Cancer Histopathology Diagnosis
作者: Liangrui Pan / Xiaoyu Li / Yutao Dou / Qiya Song / Jiadi Luo / Qingchun Liang / Shaoliang Peng
原文:   [英文]   [中文]  
备注: None
摘要:
通过气腔扩散(STAS)是肺癌中一种新识别的侵袭性模式,已知与不良预后因素和复杂的病理特征相关。目前,病理学家依赖耗时的手动评估,这种评估高度主观且易于产生差异。这突显了对自动化和精确诊断解决方案的迫切需求。我们从多个中心收集了2,970张肺癌组织切片,重新诊断并构建并公开发布了三个肺癌STAS数据集:STAS CSU(医院)、STAS TCGA和STAS CPTAC。所有STAS数据集都提供相应的病理特征诊断和相关临床数据。为了解决STAS的偏差、稀疏和异质性问题,我们提出了一种用于肺癌STAS诊断的尺度感知多实例学习(SMILE)方法。通过引入尺度自适应注意机制,SMILE可以自适应地调整高注意力实例,减少对局部区域的过度依赖,促进STAS病变的一致检测。大量实验表明,SMILE在STAS CSU上取得了具有竞争力的诊断结果,在CPTAC和TCGA中分别诊断出251和319个STAS样本,超越了临床平均AUC。11个开放基线结果是STAS研究中首次建立的,为计算病理学技术的未来扩展、可解释性和临床整合奠定了基础。数据集和代码可在此https URL获取。

[25] 文本引导的图像不变特征学习用于鲁棒图像水印
标题: Text-Guided Image Invariant Feature Learning for Robust Image Watermarking
作者: Muhammad Ahtesham / Xin Zhong
原文:   [英文]   [中文]  
备注: None
摘要:
确保图像水印的鲁棒性对于在各种变换下保持内容完整性至关重要。最近的自监督学习(SSL)方法,如DINO,已被用于水印,但主要关注一般特征表示,而不是显式学习不变特征。在这项工作中,我们提出了一种新颖的文本引导不变特征学习框架,用于鲁棒图像水印。我们的方法利用CLIP的多模态能力,使用文本嵌入作为稳定的语义锚点,以在失真情况下强制特征不变性。我们在多个数据集上评估了所提出的方法,展示了其在各种图像变换下的优越鲁棒性。与最先进的SSL方法相比,我们的模型在特征一致性测试中实现了更高的余弦相似度,并在严重失真情况下的提取准确性上优于现有的水印方案。这些结果突出了我们的方法在学习针对鲁棒深度学习水印的不变表示方面的有效性。

[26] 使用文本提示工程的器官感知多尺度医学图像分割
标题: Organ-aware Multi-scale Medical Image Segmentation Using Text Prompt Engineering
作者: Wenjie Zhang / Ziyang Zhang / Mengnan He / Jiancheng Ye
原文:   [英文]  
备注: None
摘要:
准确的分割对于有效的治疗规划和疾病监测至关重要。现有的医学图像分割方法主要依赖于单一模式的视觉输入,如图像或视频,这需要劳动密集型的人工标注。此外,医学成像技术在单次扫描中捕捉多个交织的器官,进一步增加了分割的复杂性。为了解决这些挑战,开发了基于“分割任何模型”(SAM)的大型医学分割模型MedSAM,通过整合图像特征和用户提供的提示来提高分割准确性。虽然MedSAM在各种医学分割任务中表现出色,但它主要依赖于几何提示(例如点和边界框),缺乏对文本提示的支持,而文本提示可以帮助指定微妙或模糊的解剖结构。为克服这些限制,我们提出了面向器官的多尺度文本引导医学图像分割模型(OMT-SAM)用于多器官分割。我们的方法引入了CLIP编码器作为新颖的图像-文本提示编码器,与几何提示编码器一起提供信息丰富的上下文指导。我们将描述性文本提示与相应的图像配对,通过预训练的CLIP编码器和交叉注意机制处理,以生成融合的图像-文本嵌入。此外,我们从MedSAM中提取多尺度视觉特征,在不同粒度水平上捕捉细致的解剖细节。我们在FLARE 2021数据集上评估OMT-SAM,与现有分割方法进行基准测试。实证结果表明,OMT-SAM实现了0.937的平均Dice相似系数,优于MedSAM(0.893)和其他分割模型,突显其在处理复杂医学图像分割任务中的卓越能力。

[27] FusDreamer:用于多模态数据分类的标签高效遥感世界模型
标题: FusDreamer: Label-efficient Remote Sensing World Model for Multimodal Data Classification
作者: Jinping Wang / Weiwei Song / Hao Chen / Jinchang Ren / Huimin Zhao
原文:   [英文]   [中文]  
备注: None
摘要:
世界模型显著增强了层次化理解,提高了数据整合和学习效率。为了探索世界模型在遥感(RS)领域的潜力,本文提出了一种用于多模态数据融合的标签高效遥感世界模型(FusDreamer)。FusDreamer使用世界模型作为统一的表示容器,以抽象出通用和高级知识,促进不同类型数据之间的交互,即高光谱(HSI)、光探测和测距(LiDAR)以及文本数据。首先,采用了一种新的潜在扩散融合和多模态生成范式(LaMG),以其卓越的信息整合和细节保留能力。随后,一个开放世界知识引导的一致性投影(OK-CP)模块结合了视觉描述对象的提示表示,并通过对比学习对齐语言-视觉特征。通过这种方式,可以通过有限样本微调预训练的世界模型来弥合领域差距。最后,端到端多任务组合优化(MuCO)策略可以捕捉微小的特征偏差,并在协作可学习的方向上约束扩散过程。在四个典型数据集上进行的实验表明了所提出的FusDreamer的有效性和优势。相应的代码将在此https URL发布。

[28] MOSAIC:在多房间环境中从多个深度视图生成一致的、隐私保护的场景
标题: MOSAIC: Generating Consistent, Privacy-Preserving Scenes from Multiple Depth Views in Multi-Room Environments
作者: Zhixuan Liu / Haokun Zhu / Rui Chen / Jonathan Francis / Soonmin Hwang / Ji Zhang / Jean Oh
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了一种新颖的基于扩散的方法,仅通过深度图像生成多房间室内环境的隐私保护数字孪生。我们方法的核心是一个新颖的多视图重叠场景对齐与隐式一致性(MOSAIC)模型,该模型在概率意义上明确考虑了同一场景内的跨视图依赖性。MOSAIC通过一种新颖的推理时优化操作,避免了全景方法中常见的顺序或单房间约束下的误差累积。MOSAIC可以扩展到复杂场景,无需额外训练,并且在添加更多重叠视图时可以证明减少去噪过程中的方差,从而提高生成质量。实验表明,MOSAIC在重建复杂多房间环境的图像保真度指标上优于最先进的基线。项目页面可在此网址访问:this https URL

[29] 缝合食谱:从多步骤描述到视频演示
标题: Stitch-a-Recipe: Video Demonstration from Multistep Descriptions
作者: Chi Hsuan Wu / Kumar Ashutosh / Kristen Grauman
原文:   [英文]   [中文]  
备注: None
摘要:
当从文本描述中获取视觉插图时,现有的方法通常采用单一文本上下文标题或动作描述来检索或生成匹配的视觉上下文。然而,之前的工作不允许对多步骤描述进行视觉插图,例如由多个步骤组成的烹饪食谱。此外,简单地单独处理每个步骤描述会导致演示不连贯。我们提出了Stitch-a-Recipe,这是一种新颖的基于检索的方法,用于从多步骤描述中组装视频演示。生成的视频包含可能来自不同来源的剪辑,这些剪辑准确地反映了所有步骤描述,同时在视觉上保持连贯。我们设计了一个训练流程,创建了包含多样化和新颖食谱的大规模弱监督数据,并注入了促进正确性和连贯性的困难负例。在野外教学视频上验证,Stitch-a-Recipe实现了最先进的性能,量化增益高达24%,并在人工偏好研究中取得了显著胜利。

[30] 用于无监督医学异常检测的尺度感知对比反向蒸馏
标题: Scale-Aware Contrastive Reverse Distillation for Unsupervised Medical Anomaly Detection
作者: Chunlei Li / Yilei Shi / Jingliang Hu / Xiao Xiang Zhu / Lichao Mou
原文:   [英文]   [中文]  
备注: ICLR 2025
摘要:
由于其广泛的适用性,特别是在标记异常数据稀缺的医学影像领域,使用深度学习进行无监督异常检测引起了大量研究关注。尽管早期的方法利用了生成模型,如自编码器和生成对抗网络(GANs),但它们常常因过度泛化而未能达到预期效果。最近的方法探索了多种策略,包括记忆库、归一化流、自监督学习和知识蒸馏,以增强区分能力。在这些方法中,知识蒸馏,特别是反向蒸馏,显示出良好的前景。遵循这一范式,我们提出了一种新颖的尺度感知对比反向蒸馏模型,解决了现有反向蒸馏方法的两个关键限制:特征区分能力不足和无法处理异常尺度变化。具体而言,我们引入了一种对比的学生-教师学习方法,通过生成和探索异常分布来获得更具区分性的表示。此外,我们设计了一种尺度适应机制,以在不同尺度上柔性加权对比蒸馏损失,从而解决尺度变化问题。在基准数据集上的大量实验表明,该方法达到了最先进的性能,验证了其有效性。代码可在此https URL获取。

[31] 跷跷板模态平衡:观察梯度,缝合受损的视觉-语言平衡以减轻主导模态偏差
标题: See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias
作者: JuneHyoung Kwon / MiHyeon Kim / Eunju Lee / Juhwan Choi / YoungBin Kim
原文:   [英文]   [中文]  
备注: Accepted to NAACL 2025 Main
摘要:
视觉-语言(VL)模型在各种任务中表现出色。然而,这些模型通常依赖于特定的模态进行预测,导致“主导模态偏差”。这种偏差显著影响性能,尤其是在某一模态受损时。在本研究中,我们分析了模型在主导模态偏差下的行为,并从理论上证明了未对齐的梯度或梯度幅度的差异会阻碍损失的平衡收敛。基于这些发现,我们提出了一种新框架,BalGrad,以减轻主导模态偏差。我们的方法包括模态间梯度重加权,根据每个模态的贡献调整KL散度的梯度,以及任务间梯度投影,以非冲突的方式对齐任务方向。在UPMC Food-101、Hateful Memes和MM-IMDb数据集上的实验证实,BalGrad在进行预测时有效缓解了对特定模态的过度依赖。

[32] SALAD: 面向文本驱动运动生成与编辑的骨架感知潜在扩散
标题: SALAD: Skeleton-aware Latent Diffusion for Text-driven Motion Generation and Editing
作者: Seokhyeon Hong / Chaelin Kim / Serin Yoon / Junghyun Nam / Sihun Cha / Junyong Noh
原文:   [英文]   [中文]  
备注: CVPR 2025; Project page this https URL
摘要:
随着去噪扩散模型的兴起,基于文本的动作生成取得了显著进展。然而,以往的方法往往对骨骼关节、时间帧和文本词语的表示过于简化,限制了它们充分捕捉每种模态及其交互信息的能力。此外,在使用预训练模型进行下游任务(如编辑)时,通常需要额外的努力,包括人工干预、优化或微调。在本文中,我们引入了一种骨架感知的潜在扩散模型(SALAD),该模型能够明确捕捉关节、帧和词语之间复杂的相互关系。此外,通过利用生成过程中产生的交叉注意力图,我们实现了基于注意力的零样本文本驱动动作编辑,使用预训练的SALAD模型,无需文本提示之外的额外用户输入。我们的方法在文本与动作的对齐方面显著优于以往的方法,同时不影响生成质量,并通过提供多样的编辑能力展示了超越生成的实用多样性。代码可在项目页面获取。

[33] 在视觉字幕生成中使用混合马尔可夫逻辑解开微调与预训练的关系
标题: Disentangling Fine-Tuning from Pre-Training in Visual Captioning with Hybrid Markov Logic
作者: Monika Shah / Somdeb Sarkhel / Deepak Venugopal
原文:   [英文]   [中文]  
备注: 2024 IEEE International Conference on Big Data (BigData), 10 pages
摘要:
多模态系统具有高度复杂的处理流程,并在大规模数据集上进行预训练,然后再针对特定任务(如视觉描述)进行微调。然而,由于预训练的存在,很难将模型在微调过程中学到的内容与其已经掌握的知识区分开来。在这项工作中,我们通过使用混合马尔可夫逻辑网络(HMLNs)在训练样本上学习一个概率模型,将符号知识(从描述中提取)与视觉特征(从图像中提取)联系起来。对于生成的描述,我们基于HMLN分布使用概率推理来量化训练样本的影响。我们在MSCOCO数据集上针对不同类型的描述生成模型评估了两种类型的推理过程。我们的结果表明,对于BLIP2(一种使用大型语言模型的模型),微调对模型所获得的知识的影响可能较小,因为与不使用大型语言模型的模型相比,它可能具有更一般的知识来执行视觉描述。

[34] MamBEV: 使状态空间模型能够学习鸟瞰图表示
标题: MamBEV: Enabling State Space Models to Learn Birds-Eye-View Representations
作者: Hongyu Ke / Jack Morris / Kentaro Oguchi / Xiaofei Cao / Yongkang Liu / Haoxin Wang / Yi Ding
原文:   [英文]   [中文]  
备注: None
摘要:
3D视觉感知任务,例如从多摄像头图像进行3D检测,是自动驾驶和辅助系统的重要组成部分。然而,设计计算效率高的方法仍然是一个重大挑战。在本文中,我们提出了一种基于Mamba的框架,称为MamBEV,该框架使用线性时空SSM(状态空间模型)注意力学习统一的鸟瞰图(BEV)表示。这种方法支持多种3D感知任务,并显著提高了计算和内存效率。此外,我们引入了基于SSM的交叉注意力,类似于标准交叉注意力,其中BEV查询表示可以与相关的图像特征进行交互。大量实验表明,MamBEV在各种视觉感知指标上表现出色,突显了其在输入扩展效率方面相较于现有基准模型的优势。

[35] 少即是多:通过稀疏关键帧改进运动扩散模型
标题: Less is More: Improving Motion Diffusion Models with Sparse Keyframes
作者: Jinseok Bae / Inwoo Hwang / Young Yoon Lee / Ziyu Guo / Joseph Liu / Yizhak Ben-Shabat / Young Min Kim / Mubbasir Kapadia
原文:   [英文]   [中文]  
备注: None
摘要:
最近在运动扩散模型方面的进展在多样的运动生成任务中取得了显著的进步,包括文本到运动的合成。然而,现有的方法将运动表示为密集的帧序列,要求模型处理冗余或信息量较少的帧。处理密集的动画帧带来了显著的训练复杂性,尤其是在学习大型运动数据集的复杂分布时,即使使用现代神经网络架构也是如此。这严重限制了生成运动模型在下游任务中的性能。受到专业动画师主要关注稀疏关键帧的启发,我们提出了一种新颖的扩散框架,专门围绕稀疏且几何上有意义的关键帧设计。我们的方法通过屏蔽非关键帧并高效插值缺失帧来减少计算量。我们在推理过程中动态优化关键帧掩码,以在后续的扩散步骤中优先考虑信息量大的帧。大量实验表明,我们的方法在文本对齐和运动真实感方面始终优于最先进的方法,同时在显著减少扩散步骤的情况下也能有效保持高性能。我们进一步验证了我们框架的鲁棒性,将其用作生成先验并适应不同的下游任务。源代码和预训练模型将在论文被接受后发布。

[36] RAD:在自动驾驶中使用视觉语言模型进行元动作的检索增强决策
标题: RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving
作者: Yujin Wang / Quanfeng Liu / Zhengxin Jiang / Tianyi Wang / Junfeng Jiao / Hongqing Chu / Bingzhao Gao / Hong Chen
原文:   [英文]  
备注: None
摘要:
准确理解和决策高层次的元动作对于确保可靠和安全的自动驾驶系统至关重要。尽管视觉-语言模型(VLMs)在各种自动驾驶任务中显示出显著潜力,但它们往往存在空间感知不足和幻觉等局限性,从而降低了其在复杂自动驾驶场景中的有效性。为了解决这些挑战,我们提出了一种检索增强决策(RAD)框架,这是一种新颖的架构,旨在增强VLMs在自动驾驶场景中可靠生成元动作的能力。RAD利用检索增强生成(RAG)流程,通过嵌入流、检索流和生成流三个阶段的过程动态提高决策准确性。此外,我们在从NuScenes数据集中精心策划的特定数据集上微调VLMs,以增强其空间感知和鸟瞰图像理解能力。在基于NuScenes的策划数据集上进行的大量实验评估表明,RAD在包括匹配准确性、F1分数和自定义整体分数等关键评估指标上优于基线方法,突显了其在改进自动驾驶任务的元动作决策方面的有效性。

[37] HySurvPred:用于生存预测的多模态双曲嵌入,结合角度感知的层次对比学习和不确定性约束
标题: HySurvPred: Multimodal Hyperbolic Embedding with Angle-Aware Hierarchical Contrastive Learning and Uncertainty Constraints for Survival Prediction
作者: Jiaqi Yang / Wenting Chen / Xiaohan Xing / Sean He / Xiaoling Luo / Xinheng Lyu / Linlin Shen / Guoping Qiu
原文:   [英文]   [中文]  
备注: submitted to IJCAI2025
摘要:
整合组织病理学图像和基因组数据的多模态学习在癌症生存预测中具有巨大潜力。然而,现有方法面临关键限制:1)它们依赖于欧几里得空间中的多模态映射和度量,无法充分捕捉组织病理学(来自不同分辨率的图像块之间)和基因组数据(从基因到通路)的层次结构。2)它们将生存时间离散化为独立的风险区间,忽视了其连续性和序数性质,未能实现有效优化。3)它们将审查视为二元指标,将被审查样本排除在模型优化之外,未能充分利用这些样本。为了解决这些挑战,我们提出了HySurvPred,一种用于生存预测的新框架,集成了三个关键模块:多模态双曲映射(MHM)、角度感知排序对比损失(ARCL)和审查条件不确定性约束(CUC)。我们设计了MHM模块,在双曲空间中探索每种模态内在的层次结构,而不是依赖于欧几里得空间。为了更好地在双曲空间中整合多模态特征,我们引入了ARCL模块,使用基于排序的对比学习来保持生存时间的序数性质,并结合CUC模块充分探索被审查的数据。大量实验表明,我们的方法在五个基准数据集上优于最先进的方法。源代码将被发布。

[38] Robust3D-CIL:用于3D感知的鲁棒类增量学习
标题: Robust3D-CIL: Robust Class-Incremental Learning for 3D Perception
作者: Jinge Ma / Jiangpeng He / Fengqing Zhu
原文:   [英文]   [中文]  
备注: 16 pages, 7 figures
摘要:
3D感知在自动驾驶、机器人技术和增强/虚拟现实等现实世界应用中起着至关重要的作用。在实际场景中,3D感知模型必须不断适应新数据和新出现的物体类别,但从头开始重新训练会产生高昂的成本。因此,采用类别增量学习(CIL)变得尤为重要。然而,现实世界的3D点云数据通常包含损坏的样本,这对现有的CIL方法构成了重大挑战,并导致对损坏数据的遗忘更加严重。为了解决这些挑战,我们考虑了一种场景,其中CIL模型可以使用具有未知损坏的点云进行更新,以更好地模拟现实世界的条件。受最远点采样的启发,我们提出了一种新颖的样本选择策略,在选择重放样本时有效地保留类内多样性,从而缓解数据损坏引起的遗忘。此外,我们引入了一种基于点云下采样的重放方法,以更有效地利用有限的重放缓冲区内存,从而进一步增强模型的持续学习能力。大量实验表明,我们的方法将基于重放的CIL基线的性能提高了2%到11%,证明了其有效性和在现实世界3D应用中的潜在前景。

[39] MMR:一个用于多目标和多粒度推理分割的大规模基准数据集
标题: MMR: A Large-scale Benchmark Dataset for Multi-target and Multi-granularity Reasoning Segmentation
作者: Donggon Jang / Yucheol Cho / Suin Lee / Taehyeon Kim / Dae-Shik Kim
原文:   [英文]   [中文]  
备注: ICLR 2025, Code and dataset are available at \url{this https URL}
摘要:
大型语言模型与视觉模型的融合正在为用户互动的视觉-语言任务开创新的可能性。其中一个显著的应用是推理分割,模型通过理解人类指令中的隐含意义来生成像素级分割掩码。然而,无缝的人机交互不仅需要对象级别的识别,还需要理解对象及其详细部分的功能,特别是在多目标场景中。例如,当指示机器人“打开电视”时,可能有多种方式来完成这个命令。识别多个能够打开电视的对象,如电视本身或遥控器(多目标),提供了更灵活的选项,并有助于找到优化的场景。此外,理解这些对象的特定部分,如电视的按钮或遥控器的按钮(部分级别),对于完成动作至关重要。不幸的是,目前的推理分割数据集主要集中在单一目标对象级别的推理,这限制了在多目标背景下对对象部分的详细识别。为了解决这一差距,我们构建了一个名为多目标和多粒度推理(MMR)的大型数据集。MMR包含194K复杂且隐含的指令,考虑了多目标、对象级别和部分级别的方面,基于现有的图像-掩码集。该数据集通过分层提供对象和部分信息,支持多样化和上下文感知的交互。此外,我们提出了一种简单但有效的框架,用于多目标、对象级别和部分级别的推理分割。在MMR上的实验结果表明,所提出的方法能够在多目标和多粒度场景中有效推理,而现有的推理分割模型仍有改进空间。

[40] YOLO-LLTS:通过先验引导增强和多分支特征交互实现实时低光交通标志检测
标题: YOLO-LLTS: Real-Time Low-Light Traffic Sign Detection via Prior-Guided Enhancement and Multi-Branch Feature Interaction
作者: Ziyu Lin / Yunfan Wu / Yuhang Ma / Junzhou Chen / Ronghui Zhang / Jiaming Wu / Guodong Yin / Liang Lin
原文:   [英文]   [中文]  
备注: None
摘要:
在低光条件下有效检测交通标志仍然是一个重大挑战。为了解决这个问题,我们提出了YOLO-LLTS,这是一种专门为低光环境设计的端到端实时交通标志检测算法。首先,我们引入了用于小物体检测的高分辨率特征图(HRFM-TOD)模块,以解决低光场景中不清晰的小物体特征问题。通过利用高分辨率特征图,HRFM-TOD有效缓解了传统PANet框架中遇到的特征稀释问题,从而提高了检测准确性和推理速度。其次,我们开发了多分支特征交互注意力(MFIA)模块,该模块促进了在通道和空间维度上多个感受野之间的深度特征交互,显著提高了模型的信息提取能力。最后,我们提出了先验引导增强模块(PGFE),以解决低光环境中常见的图像质量问题,如噪声、低对比度和模糊。该模块利用先验知识丰富图像细节并增强可见性,大幅提升检测性能。为了支持这项研究,我们构建了一个新的数据集,即中国夜间交通标志样本集(CNTSSS),涵盖了多样化的夜间场景,包括城市、公路和农村环境下的不同天气条件。实验评估表明,YOLO-LLTS实现了最先进的性能,在TT100K-night上比之前最好的方法提高了2.7% mAP50和1.6% mAP50:95,在CNTSSS上提高了1.3% mAP50和1.9% mAP50:95,并在CCTSDB2021数据集上取得了优异的结果。此外,在边缘设备上的部署实验证实了我们提出的方法的实时适用性和有效性。

[41] 大型视觉语言模型在回答问题时关注哪里?
标题: Where do Large Vision-Language Models Look at when Answering Questions?
作者: Xiaoying Xing / Chia-Wen Kuo / Li Fuxin / Yulei Niu / Fan Chen / Ming Li / Ying Wu / Longyin Wen / Sijie Zhu
原文:   [英文]  
备注: None
摘要:
大型视觉-语言模型(LVLMs)在视觉-语言理解和推理任务中表现出令人期待的性能。然而,它们的视觉理解行为仍未被充分探索。一个基本问题是:LVLMs在多大程度上依赖视觉输入,以及哪些图像区域对它们的响应有贡献?由于其复杂的视觉架构(例如,多编码器和多分辨率)以及可变长度的输出,解释LVLMs的自由生成是一个不简单的任务。在本文中,我们扩展了现有的热图可视化方法(例如,iGOS++),以支持LVLMs进行开放式视觉问答。我们提出了一种方法来选择视觉相关的标记,这些标记反映了生成的答案与输入图像之间的相关性。此外,我们对需要视觉信息来回答的基准测试中的最先进的LVLMs进行了全面分析。我们的研究结果提供了关于LVLM行为的若干见解,包括关注区域与答案正确性之间的关系、不同架构中的视觉注意力差异,以及LLM规模对视觉理解的影响。代码和数据可在此https URL获取。

[42] 利用固有的类别标签:迈向稳健的涂鸦监督语义分割
标题: Exploiting Inherent Class Label: Towards Robust Scribble Supervised Semantic Segmentation
作者: Xinliang Zhang / Lei Zhu / Shuang Zeng / Hangzhou He / Ourui Fu / Zhengjian Yao / Zhaoheng Xie / Yanye Lu
原文:   [英文]   [中文]  
备注: None
摘要:
基于涂鸦的弱监督语义分割仅利用少量标注像素作为标签来训练分割模型,显示出在减少标注过程中的人工劳动方面的巨大潜力。这种方法面临两个主要挑战:首先,涂鸦标注的稀疏性可能由于有限的监督导致预测不一致;其次,涂鸦标注的多样性反映了不同人类标注者的偏好,可能阻碍模型一致地捕捉对象的辨别区域,可能导致不稳定的预测。为了解决这些问题,我们提出了一个整体框架,即类驱动的涂鸦促进网络,用于稳健的涂鸦监督语义分割。该框架不仅利用提供的涂鸦标注,还利用其相关的类别标签生成可靠的伪标签。在网络中,我们引入了一个定位校正模块以减轻噪声标签,并引入了一个距离感知模块以识别涂鸦标注和伪标签周围的可靠区域。此外,我们引入了新的大规模基准数据集,ScribbleCOCO和ScribbleCityscapes,并配备了一个涂鸦模拟算法,使得能够在不同涂鸦风格下进行评估。我们的方法在准确性和稳健性方面表现出竞争力,强调了其优于现有方法的优势。数据集和代码将公开发布。

[43] TGBFormer: 用于视频目标检测的Transformer-GraphFormer混合网络
标题: TGBFormer: Transformer-GraphFormer Blender Network for Video Object Detection
作者: Qiang Qi / Xiao Wang
原文:   [英文]  
备注: Accepted by AAAI2025
摘要:
近年来,由于卷积神经网络(CNNs)和视觉变换器(ViTs)的发展,视频目标检测取得了显著进展。通常情况下,CNNs擅长捕捉局部特征,但在建模全局表示方面存在困难。相反,ViTs善于捕捉长距离的全局特征,但在表示局部特征细节时面临挑战。现成的视频目标检测方法仅依赖于CNNs或ViTs进行特征聚合,这限制了它们同时利用全局和局部信息的能力,从而导致检测性能有限。在本文中,我们提出了一种用于视频目标检测的Transformer-GraphFormer Blender网络(TGBFormer),通过三个关键技术改进来充分利用变换器和图卷积网络的优势,同时弥补它们的不足。首先,我们开发了一个时空变换器模块来聚合全局上下文信息,构建具有长距离特征依赖的全局表示。其次,我们引入了一个时空GraphFormer模块,该模块利用局部空间和时间关系来聚合特征,生成与变换器输出互补的新局部表示。第三,我们设计了一个全局-局部特征混合模块,以自适应地结合基于变换器的全局表示和基于GraphFormer的局部表示。大量实验表明,我们的TGBFormer在ImageNet VID数据集上建立了新的最先进的结果。特别是,我们的TGBFormer在单个Tesla A100 GPU上运行时达到86.5%的mAP,同时运行速度约为41.0 FPS。

[44] HSOD-BIT-V2:用于高光谱显著目标检测的新挑战基准
标题: HSOD-BIT-V2: A New Challenging Benchmarkfor Hyperspectral Salient Object Detection
作者: Yuhao Qiu / Shuyan Bai / Tingfa Xu / Peifu Liu / Haolin Qin / Jianan Li
原文:   [英文]   [中文]  
备注: AAAI 2025
摘要:
显著目标检测(SOD)在计算机视觉中至关重要,但基于RGB的方法在处理小物体和相似颜色特征等复杂场景时存在局限性。高光谱图像通过丰富的光谱信息为更精确的高光谱显著目标检测(HSOD)提供了一个有前景的解决方案,然而HSOD方法因缺乏广泛可用的数据集而受到阻碍。在此背景下,我们引入了HSOD-BIT-V2,这是迄今为止最大且最具挑战性的HSOD基准数据集。我们设计了五个不同的挑战,专注于小物体和前景-背景相似性,以强调光谱优势和真实世界的复杂性。为应对这些挑战,我们提出了Hyper-HRNet,这是一种高分辨率的HSOD网络。Hyper-HRNet通过捕捉自相似光谱特征,有效地提取、整合和保留有效的光谱信息,同时减少维度。此外,它通过结合全面的全局信息和详细的目标显著性表示,传达细节并精确定位目标轮廓。实验分析表明,Hyper-HRNet在具有挑战性的场景中优于现有模型。

[45] PSA-SSL:基于LiDAR点云的姿态和尺寸感知自监督学习
标题: PSA-SSL: Pose and Size-aware Self-Supervised Learning on LiDAR Point Clouds
作者: Barza Nisar / Steven L. Waslander
原文:   [英文]   [中文]  
备注: None
摘要:
自监督学习(SSL)在三维点云上的应用有潜力学习到可以迁移到不同传感器和多个下游感知任务的特征表示。然而,最近的SSL方法未能定义保留几何信息(如物体姿态和尺度)的前置任务,这可能会对下游定位和几何敏感的三维场景理解任务(如三维语义分割和三维物体检测)的性能产生不利影响。我们提出了PSA-SSL,一种新颖的点云SSL扩展,能够学习到物体姿态和尺寸感知(PSA)特征。我们的方法定义了一个自监督的边界框回归前置任务,保留了物体的姿态和尺寸信息。此外,我们在输入点云上加入了LiDAR光束模式增强,鼓励学习与传感器无关的特征。我们的实验表明,使用单个预训练模型,我们的轻量级但有效的扩展在流行的自动驾驶数据集(Waymo、nuScenes、SemanticKITTI)上实现了有限标签的三维语义分割显著改进。此外,我们的方法在三维语义分割(使用最多少10倍的标签)以及三维物体检测上优于其他最新的SSL方法。我们的代码将在此https URL上发布。

[46] 释放未标记数据在半监督领域泛化中的潜力
标题: Unlocking the Potential of Unlabeled Data in Semi-Supervised Domain Generalization
作者: Dongkwan Lee / Kyomin Hwang / Nojun Kwak
原文:   [英文]   [中文]  
备注: CVPR 2025
摘要:
我们研究了半监督领域泛化(SSDG)的问题,其中训练和测试数据的分布不同,并且在训练期间只有少量标记数据和大量未标记数据可用。现有的SSDG方法仅利用模型预测高度自信的未标记样本(自信未标记样本),这限制了对可用未标记数据的充分利用。据我们所知,我们是第一个探索在SSDG设置中结合以前被忽视的不自信未标记样本的方法。为此,我们提出了UPCSC方法来利用这些不自信未标记样本,该方法由两个模块组成:1)基于未标记代理的对比学习(UPC)模块,将不自信未标记样本视为额外的负样本对;2)代理类学习(SC)模块,使用其混淆类集为不自信未标记样本生成正样本对。这些模块是即插即用的,不需要任何领域标签,可以轻松集成到现有方法中。在四个广泛使用的SSDG基准上进行的实验表明,当附加到基线时,我们的方法始终提高了性能,并且优于竞争的即插即用方法。我们还分析了我们的方法在SSDG中的作用,表明它增强了类级别的可辨别性并减轻了领域差距。代码可在此https URL获取。

[47] 通过球面表示学习形状无关的变换用于类别级物体姿态估计
标题: Learning Shape-Independent Transformation via Spherical Representations for Category-Level Object Pose Estimation
作者: Huan Ren / Wenfei Yang / Xiang Liu / Shifeng Zhang / Tianzhu Zhang
原文:   [英文]   [中文]  
备注: Accepted by ICLR 2025. Project page is available at this https URL
摘要:
类别级对象姿态估计旨在确定特定类别中新颖对象的姿态和大小。现有的基于对应关系的方法通常采用基于点的表示来建立原始观察点与标准化对象坐标之间的对应关系。然而,由于规范坐标固有的形状依赖性,这些方法在不同对象形状之间存在语义不一致的问题。为了解决这个问题,我们创新性地利用球体作为对象的共享代理形状,通过球面表示学习与形状无关的变换。基于这一见解,我们引入了一种称为SpherePose的新架构,通过三个核心设计实现精确的对应关系预测。首先,我们赋予逐点特征提取以SO(3)不变性,从而在旋转变换的情况下促进摄像机坐标空间与对象坐标空间之间的稳健映射。其次,球面注意机制旨在从全面的角度传播和整合球面锚点之间的特征,从而减轻噪声和不完整点云的干扰。最后,设计了一种双曲线对应损失函数来区分细微差别,从而提高对应关系预测的精度。在CAMERA25、REAL275和HouseCat6D基准测试上的实验结果表明我们的方法具有优越的性能,验证了球面表示和架构创新的有效性。

[48] SCORE:通过编码率优化进行软标签压缩为中心的数据集凝聚
标题: SCORE: Soft Label Compression-Centric Dataset Condensation via Coding Rate Optimization
作者: Bowen Yuan / Yuxia Fu / Zijian Wang / Yadan Luo / Zi Huang
原文:   [英文]  
备注: None
摘要:
数据集凝缩(DC)旨在获得一个凝缩的数据集,使得在该数据集上训练的模型能够达到与在完整数据集上训练的模型相当的性能。最近的DC方法越来越关注通过软标签将知识编码到真实图像中,因为它们能够扩展到ImageNet规模的数据集,并且具有强大的跨域泛化能力。然而,这种强大的性能伴随着显著的存储成本,可能会大大超过原始数据集的存储成本。我们认为,缓解这种性能-存储困境的三个关键属性是凝缩数据的信息性、辨别性和可压缩性。为此,本文提出了一种以软标签压缩为中心的数据集凝缩框架,使用编码率(SCORE)。SCORE将数据集凝缩表述为一个极小化-极大化优化问题,旨在从信息论的角度平衡这三个关键属性。特别是,我们理论上证明了我们的编码率启发的目标函数是子模的,其优化自然地在每个凝缩数据对应的软标签集中强制低秩结构。在包括ImageNet-1K和Tiny-ImageNet的大规模数据集上的大量实验表明,SCORE在大多数情况下优于现有方法。即使软标签压缩30倍,ImageNet-1K的性能下降仅为5.5%和2.7%,分别对应IPC 10和50。代码将在论文接受后发布。

[49] ChatBEV: 一种能够理解鸟瞰图的视觉语言模型
标题: ChatBEV: A Visual Language Model that Understands BEV Maps
作者: Qingyao Xu / Siheng Chen / Guang Chen / Yanfeng Wang / Ya Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
交通场景理解对于智能交通系统和自动驾驶至关重要,确保车辆的安全和高效运行。尽管最近在视觉语言模型(VLMs)方面的进展显示出对整体场景理解的潜力,但VLMs在交通场景中的应用,特别是使用鸟瞰图(BEV)地图,仍然未被充分探索。现有方法通常在任务设计和数据量上存在局限性,阻碍了全面的场景理解。为了解决这些挑战,我们引入了ChatBEV-QA,这是一种新颖的BEV视觉问答基准,包含超过13.7万个问题,旨在涵盖广泛的场景理解任务,包括全局场景理解、车辆与车道的交互以及车辆之间的交互。该基准通过一种新颖的数据收集流程构建,生成可扩展且信息丰富的BEV地图视觉问答数据。我们进一步微调了一个专门的视觉语言模型ChatBEV,使其能够解释多样的问题提示,并从BEV地图中提取相关的上下文信息。此外,我们提出了一种语言驱动的交通场景生成流程,其中ChatBEV促进了地图理解和文本对齐的导航指导,显著增强了现实且一致的交通场景生成。数据集、代码和微调后的模型将会发布。

[50] Med-R1: 用于视觉语言模型中可推广医学推理的强化学习
标题: Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models
作者: Yuxiang Lai / Jike Zhong / Ming Li / Shitian Zhao / Xiaofeng Yang
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)在自然场景推理方面取得了进展,但在医学影像中的作用仍未得到充分探索。医学推理任务需要强大的图像分析能力和合理的答案,这由于医学图像的复杂性而带来了挑战。透明性和可信度对于临床应用和法规遵从至关重要。我们介绍了Med-R1,这是一个探索强化学习(RL)以增强VLMs在医学推理中泛化能力和可信度的框架。利用DeepSeek策略,我们采用群体相对策略优化(GRPO)通过奖励信号引导推理路径。与通常过拟合且缺乏泛化能力的监督微调(SFT)不同,RL促进了稳健和多样化的推理。Med-R1在八种医学影像模态上进行了评估:CT、MRI、超声、皮肤镜、眼底摄影、光学相干断层扫描(OCT)、显微镜和X射线成像。与其基础模型Qwen2-VL-2B相比,Med-R1的准确率提高了29.94%,并且优于参数量大36倍的Qwen2-VL-72B。在五种问题类型的测试中——模态识别、解剖识别、疾病诊断、病变分级和生物属性分析——Med-R1展示了卓越的泛化能力,超过Qwen2-VL-2B 32.06%,并在问题类型泛化上超越Qwen2-VL-72B。这些发现表明,RL改善了医学推理,并使参数高效的模型能够显著超越更大的模型。通过可解释的推理输出,Med-R1代表了朝着可泛化、可信赖且临床可行的医学VLMs迈出的有希望的一步。

[51] 多模态自监督语义通信
标题: Multi-Modal Self-Supervised Semantic Communication
作者: Hang Zhao / Hongru Li / Dongfang Xu / Shenghui Song / Khaled B. Letaief
原文:   [英文]   [中文]  
备注: None
摘要:
语义通信作为一种有前景的范式正在兴起,它利用深度学习技术专注于语义意义的提取和传输。当前的研究主要关注减少语义通信的开销,但往往忽视了训练阶段,这在动态无线环境中可能会产生显著的通信成本。为了解决这一挑战,我们提出了一种多模态语义通信系统,该系统利用多模态自监督学习来增强与任务无关的特征提取。所提出的方法在预训练阶段采用自监督学习来提取与任务无关的语义特征,随后进行监督微调以适应下游任务。这种双阶段策略有效地捕捉了模态不变和模态特定的特征,同时最大限度地减少了与训练相关的通信开销。在NYU Depth V2数据集上的实验结果表明,所提出的方法在保持或超越现有监督学习方法性能的同时,显著减少了与训练相关的通信开销。研究结果强调了多模态自监督学习在语义通信中的优势,为更高效和可扩展的边缘推理系统铺平了道路。

[52] 充分利用一切:关于颠覆基于扩散的定制的进一步思考
标题: Make the Most of Everything: Further Considerations on Disrupting Diffusion-based Customization
作者: Long Tang / Dengpan Ye / Sirun Chen / Xiuwen Shi / Yunna Lv / Ziyi Liu
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像扩散模型的微调技术促进了图像定制,但也带来了隐私泄露和观点操控的风险。目前的研究主要集中在针对提示或图像层面的对抗攻击以实现反定制,但忽视了这两个层面之间的关联以及内部模块与输入之间的关系。这在实际威胁场景中阻碍了反定制性能的发挥。我们提出了双重反扩散(DADiff),这是一种针对扩散定制的两阶段对抗攻击方法,首次将对抗提示层面的攻击整合到图像层面对抗样本的生成过程中。在第一阶段,我们生成提示层面的对抗向量以指导后续的图像层面攻击。在第二阶段,除了对UNet模型进行端到端攻击外,我们还破坏其自注意力和交叉注意力模块,旨在打破图像像素之间的关联,并对齐使用实例提示和对抗提示向量计算的交叉注意力结果。此外,我们引入了一种局部随机时间步梯度集成策略,通过整合来自多个分段时间集的随机梯度来更新对抗扰动。在各种主流人脸数据集上的实验结果表明,与现有方法相比,DADiff在跨提示、关键词不匹配、跨模型和跨机制反定制方面提高了10%-30%。

[53] 离散化融合是协同感知所需的全部吗?
标题: Is Discretization Fusion All You Need for Collaborative Perception?
作者: Kang Yang / Tianci Bu / Lantao Li / Chunxu Li / Yongcai Wang / Deying Li
原文:   [英文]   [中文]  
备注: None
摘要:
在多智能体系统中,协同感知通过促进智能体之间互补信息的交换来增强整体感知能力。目前主流的协同感知方法依赖于离散化的特征图进行融合,但这种方法在提取和传输信息特征时缺乏灵活性,并且在融合过程中难以专注于信息特征。为了解决这些问题,本文提出了一种新的协同目标检测的锚点中心范式(ACCO)。该方法避免了网格精度问题,并允许更灵活和高效的锚点中心通信和融合。ACCO由三个主要组件组成:(1)锚点特征块(AFB),旨在生成锚点提议并将准备好的锚点查询投射到图像特征上。(2)锚点置信度生成器(ACG),旨在通过仅选择置信锚点中的特征进行传输来最小化通信。(3)局部-全局融合模块,其中局部融合是基于锚点对齐的融合(LAAF),全局融合则通过空间感知交叉注意力(SACA)进行。LAAF和SACA在多层中运行,因此智能体迭代地进行锚点中心融合以调整锚点提议。我们在OPV2V和Dair-V2X数据集上进行了全面的实验,以评估ACCO,结果表明ACCO在减少通信量、提高感知范围和检测性能方面具有优越性。代码可以在以下网址找到:\href{this https URL}{this https URL}。

[54] 场景图生成中的保形预测和多模态大模型辅助不确定性量化
标题: Conformal Prediction and MLLM aided Uncertainty Quantification in Scene Graph Generation
作者: Sayak Nag / Udita Ghosh / Sarosij Bose / Calvin-Khang Ta / Jiachen Li / Amit K Roy Chowdhury
原文:   [英文]   [中文]  
备注: Accepted at CVPR 2025
摘要:
场景图生成(Scene Graph Generation, SGG)旨在通过识别物体及其成对关系来表示视觉场景,从而提供对图像内容的结构化理解。然而,固有的挑战如长尾类别分布和预测的多变性,使得在SGG中进行不确定性量化成为其实用可行性的必要条件。在本文中,我们引入了一种新颖的基于保序预测(Conformal Prediction, CP)的框架,该框架可以适应任何现有的SGG方法,通过在生成的场景图上构建良好校准的预测集来量化其预测不确定性。这些场景图预测集旨在实现统计上严格的覆盖保证。此外,为了确保这些预测集包含最具实际可解释性的场景图,我们设计了一种有效的基于多模态大模型(MLLM)的后处理策略,以在这些预测集中选择最具视觉和语义合理性的场景图。我们展示了我们提出的方法可以从图像中生成多样化的可能场景图,评估SGG方法的可靠性,并提高整体SGG性能。

[55] Light4GS:通过上下文模型生成轻量化紧凑型4D高斯点云
标题: Light4GS: Lightweight Compact 4D Gaussian Splatting Generation via Context Model
作者: Mufan Liu / Qi Yang / He Huang / Wenjie Huang / Zhenlong Yuan / Zhu Li / Yiling Xu
原文:   [英文]   [中文]  
备注: None
摘要:
三维高斯散点(3D Gaussian Splatting, 3DGS)已成为新视图合成的高效且高保真范式。为了使3DGS适应动态内容,可变形3DGS结合了时间上可变形的基元和可学习的潜在嵌入,以捕捉复杂的运动。尽管其性能令人印象深刻,但高维嵌入和大量基元导致了巨大的存储需求。在本文中,我们介绍了一种轻量级的四维高斯散点(Light4GS)框架,该框架通过深度上下文模型的显著性剪枝提供了一种轻量且存储高效的动态3DGS表示。所提出的Light4GS基于4DGS,这是一种典型的可变形3DGS表示。具体来说,我们的框架建立在两个核心组件之上:(1)一种时空显著性剪枝策略,消除了超过64%的可变形基元,随后对剩余部分应用熵约束球谐压缩;(2)一种深度上下文模型,将帧内和帧间预测与超先验结合到一个由粗到细的上下文结构中,以实现高效的多尺度潜在嵌入压缩。与基线4DGS相比,我们的方法实现了超过120倍的压缩,并将渲染帧率提高了多达20%,同时也优于逐帧的最先进3DGS压缩方法,揭示了我们的Light4GS在帧内和帧间预测方法方面的有效性,而不牺牲渲染质量。

[56] FrustumFusionNets:基于拖拉机道路场景的三维物体检测网络
标题: FrustumFusionNets: A Three-Dimensional Object Detection Network Based on Tractor Road Scene
作者: Lili Yang / Mengshuai Chang / Xiao Guo / Yuxin Feng / Yiwen Mei / Caicong Wu
原文:   [英文]  
备注: None
摘要:
为了应对现有基于截锥体方法在道路三维物体检测中对图像信息利用不足以及农业场景研究缺乏的问题,我们在复杂的拖拉机道路场景中使用80线激光雷达(LiDAR)和摄像头构建了一个物体检测数据集,并提出了一种新的网络,称为FrustumFusionNets(FFNets)。首先,我们利用基于图像的二维物体检测结果来缩小点云三维空间中的搜索区域。接下来,我们引入高斯掩码以增强点云信息。然后,我们分别使用点云特征提取管道和图像特征提取管道从截锥体点云和作物图像中提取特征。最后,我们将来自两种模态的数据特征进行连接和融合,以实现三维物体检测。实验表明,在构建的拖拉机道路数据测试集上,FrustumFusionNetv2在两种主要道路物体(汽车和人)的三维物体检测中分别达到了82.28%和95.68%的准确率。该性能比原始模型提高了1.83%和2.33%。它为拖拉机道路场景中的无人农业机器提供了一种基于混合融合的多物体、高精度、实时三维物体检测技术。在卡尔斯鲁厄理工学院和丰田技术学院(KITTI)基准套件验证集上,FrustumFusionNetv2在检测道路行人对象方面也显示出相对于其他基于截锥体的三维物体检测方法的显著优势。

[57] SimWorld:通过世界模型进行模拟器条件场景生成的统一基准
标题: SimWorld: A Unified Benchmark for Simulator-Conditioned Scene Generation via World Model
作者: Xinqing Li / Ruiqi Song / Qingyu Xie / Ye Wu / Nanxin Zeng / Yunfeng Ai
原文:   [英文]   [中文]  
备注: 8 pages, 4 figures
摘要:
随着自动驾驶技术的快速发展,数据的缺乏已成为提高感知模型准确性的主要障碍。研究人员现在正在探索使用世界模型进行可控数据生成,以丰富数据集。然而,以往的工作仅限于研究特定公共数据集上的图像生成质量。关于如何为真实应用场景构建数据生成引擎以实现大规模数据生成以应对复杂场景的研究仍然相对较少。在本文中,提出了一种基于世界模型的模拟器条件场景生成引擎。通过构建与真实场景一致的模拟系统,可以为任何场景收集作为世界模型数据生成条件的模拟数据和标签。这是一种结合模拟引擎强大的场景模拟能力和世界模型强大数据生成能力的新颖数据生成流程。此外,还提供了一个按比例构建的虚拟和真实数据基准,用于探索世界模型在真实场景中的能力。定量结果表明,这些生成的图像显著提高了下游感知模型的性能。最后,我们探索了世界模型在城市自动驾驶场景中的生成性能。所有数据和代码将在此https URL上提供。

[58] 通过每秒16帧提升大型语言模型的视频理解能力
标题: Improving LLM Video Understanding with 16 Frames Per Second
作者: Yixuan Li / Changli Tang / Jimin Zhuang / Yudong Yang / Guangzhi Sun / Wei Li / Zejun Ma / Chao Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
人类的视觉是动态且连续的。然而,在使用多模态大型语言模型(LLMs)进行视频理解时,现有方法主要依赖于从以固定低帧率(每秒帧数FPS $\leqslant$2)采样的图像中提取的静态特征,这导致了关键视觉信息的丢失。在本文中,我们介绍了F-16,这是第一个为高帧率视频理解设计的多模态LLM。通过将帧率提高到16 FPS并压缩每秒1秒片段内的视觉标记,F-16能够有效捕捉动态视觉特征,同时保留关键语义信息。实验结果表明,更高的帧率显著增强了多个基准测试中的视频理解能力,为提升视频LLM提供了一种超越扩大模型规模或训练数据的新方法。F-16在7亿参数的视频LLM中,在一般和细粒度视频理解基准(如Video-MME和TemporalBench)上实现了最先进的性能。此外,F-16在复杂的时空任务中表现出色,包括高速体育分析(例如,篮球、足球、体操和跳水),超越了SOTA专有视觉模型如GPT-4o和Gemini-1.5-pro。此外,我们为F-16引入了一种新颖的解码方法,使其能够在不需要重新训练模型的情况下实现高效的低帧率推理。在论文被接受后,我们将发布源代码、模型检查点和数据。

[59] DIFFVSGG:基于扩散的在线视频场景图生成
标题: DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation
作者: Mu Chen / Liulei Li / Wenguan Wang / Yi Yang
原文:   [英文]   [中文]  
备注: CVPR 2025, Code: this https URL
摘要:
视频场景图生成(VSGG)的顶尖解决方案通常采用离线流程。尽管表现出色,但它们仍无法处理实时视频流,并且消耗大量的GPU内存。此外,这些方法在时间推理方面表现不足,仅仅在时间上下文中聚合帧级预测。对此,我们引入了DIFFVSGG,这是一种在线VSGG解决方案,将该任务框定为迭代场景图更新问题。受潜在扩散模型(LDMs)的启发,LDMs通过对潜在特征嵌入去噪来生成图像,我们将对象分类、边界框回归和图生成三项任务的解码统一到一个共享的特征嵌入中。然后,给定一个包含对象对统一特征的嵌入,我们在LDMs中对其进行逐步去噪,以提供一个清晰的嵌入,明确指示对象之间的关系。该嵌入随后作为对象分类、场景图生成等任务特定头的输入。DIFFVSGG进一步促进了连续的时间推理,其中后续帧的预测利用过去帧的结果作为LDMs的条件输入,以指导当前帧的反向扩散过程。在Action Genome的三种设置上进行的大量实验表明了DIFFVSGG的优越性。

[60] 多模态大型语言模型中的对抗性鲁棒性调查
标题: Survey of Adversarial Robustness in Multimodal Large Language Models
作者: Chengze Jiang / Zhuangzhuang Wang / Minjing Dong / Jie Gui
原文:   [英文]   [中文]  
备注: 9 pages
摘要:
多模态大语言模型(MLLMs)通过促进对包括文本、图像、视频、音频和语音在内的多种模态的综合理解,在人工智能领域表现出了卓越的性能。然而,它们在实际应用中的部署引发了对对抗性脆弱性的重大担忧,这可能会影响其安全性和可靠性。与单模态模型不同,MLLMs由于模态之间的相互依赖性而面临独特的挑战,使其容易受到特定模态威胁和跨模态对抗性操控的影响。本文回顾了MLLMs在不同模态下的对抗性鲁棒性。我们首先概述了MLLMs,并对每种模态量身定制的对抗性攻击进行了分类。接下来,我们回顾了用于评估MLLMs鲁棒性的关键数据集和评估指标。之后,我们深入审查了针对不同模态的MLLMs的攻击。我们的调查还识别了关键挑战,并提出了有前景的未来研究方向。

[61] FlexVLN:灵活适应多样化视觉与语言导航任务
标题: FlexVLN: Flexible Adaptation for Diverse Vision-and-Language Navigation Tasks
作者: Siqi Zhang / Yanyuan Qiao / Qunbo Wang / Longteng Guo / Zhihua Wei / Jing Liu
原文:   [英文]   [中文]  
备注: None
摘要:
视觉与语言导航(VLN)任务的目标一直是开发一种具有强大适应能力的具身代理,能够在各种任务中无缝转移其导航能力。尽管近年来取得了显著进展,大多数方法仍需进行特定数据集的训练,因此缺乏在包含不同类型指令的多样数据集间泛化的能力。大型语言模型(LLMs)已展示出卓越的推理和泛化能力,在机器人行动规划中展现出巨大潜力。在本文中,我们提出了FlexVLN,这是一种创新的分层VLN方法,将基于监督学习的指令跟随者的基本导航能力与LLM规划器的强大泛化能力相结合,从而实现跨多样VLN数据集的有效泛化。此外,我们提出了一种验证机制和多模型集成机制,以减轻LLM规划器可能出现的幻觉,并提高指令跟随者的执行准确性。我们选择REVERIE、SOON和CVDN-target作为域外数据集来评估泛化能力。FlexVLN的泛化性能在很大程度上超越了所有之前的方法。

[62] SoccerSynth Field:利用虚拟足球模拟器的合成数据增强场地检测
标题: SoccerSynth Field: enhancing field detection with synthetic data from virtual soccer simulator
作者: HaoBin Qin / Jiale Fang / Keisuke Fujii
原文:   [英文]   [中文]  
备注: None
摘要:
在团队运动中进行场地检测是体育视频分析中的一项重要任务。然而,收集大规模且多样化的真实世界数据集来训练检测模型通常需要耗费大量成本和时间。合成数据集可以在光照、纹理和摄像机角度上进行可控的变化,是解决这些问题的一个有前景的替代方案。本研究通过研究使用合成数据集进行模型预训练的有效性,解决了收集真实世界数据集的高成本和困难。在本文中,我们提出使用合成数据集(SoccerSynth-Field)进行足球场地检测的有效性。我们创建了一个合成足球场地数据集来预训练模型,并将这些模型的性能与在真实世界数据集上训练的模型进行比较。结果表明,使用合成数据集预训练的模型在检测足球场地方面表现出色。这突显了合成数据在增强模型鲁棒性和准确性方面的有效性,为推进体育场地检测任务提供了一种成本效益高且可扩展的解决方案。

[63] A-SCoRe:基于注意力的场景坐标回归用于广泛场景
标题: A-SCoRe: Attention-based Scene Coordinate Regression for wide-ranging scenarios
作者: Huy-Hoang Bui / Bach-Thuan Bui / Quang-Vinh Tran / Yasuyuki Fujii / Joo-Ho Lee
原文:   [英文]   [中文]  
备注: None
摘要:
视觉定位被认为是许多机器人和视觉系统中的关键部分。尽管依赖特征匹配的最先进方法已被证明在视觉定位方面具有高精度,但其对存储和计算的要求却是一个负担。场景坐标回归(SCR)是一种替代方法,通过学习将2D像素映射到3D场景坐标来消除存储障碍。大多数流行的SCR使用卷积神经网络(CNN)来提取2D描述符,我们认为这忽略了像素之间的空间关系。受视觉Transformer架构成功的启发,我们提出了一种新的SCR架构,称为A-ScoRe,这是一种基于注意力的模型,利用描述符图层级的注意力来生成有意义且具有高语义的2D描述符。由于操作是在描述符图上进行的,我们的模型可以处理多种数据模态,无论是来自深度图、SLAM还是从运动中构建结构(SfM)的稠密或稀疏数据。这种多功能性使A-SCoRe能够在不同的环境和条件下运行,并实现对移动机器人至关重要的灵活性。结果表明,我们的方法在多个基准测试中与最先进的方法表现相当,同时更加轻量化且灵活。代码和预训练模型已在我们的代码库中公开:此https URL。

[64] SpaceVLLM:赋予多模态大型语言模型时空视频定位能力
标题: SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability
作者: Jiankang Wang / Zhihan zhang / Zhihang Liu / Yang Li / Jiannan Ge / Hongtao Xie / Yongdong Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大语言模型(MLLMs)在时间或空间定位方面取得了显著进展。然而,它们在执行时空视频定位时仍面临挑战。这一限制源于两个主要问题。首先,很难提取视频中每一帧的准确时空信息。其次,大量的视觉标记使得精确地将每一帧的视觉标记映射到其对应的空间坐标变得困难。为了解决这些问题,我们引入了SpaceVLLM,这是一种具备时空视频定位能力的MLLM。具体来说,我们采用了一组交错的时空感知查询来捕捉时间感知和动态空间信息。此外,我们提出了一种查询引导的空间解码器,以在查询和空间坐标之间建立对应关系。此外,由于缺乏时空数据集,我们构建了统一时空定位(Uni-STG)数据集,包含三个任务的48万实例。该数据集充分发挥了MLLM的潜力,能够同时促进时间和空间维度的定位。大量实验表明,SpaceVLLM在涵盖时间、空间、时空和视频理解任务的11个基准上实现了最先进的性能,突显了我们方法的有效性。我们的代码、数据集和模型将会发布。

[65] DefectFill:用于视觉检测的基于修复扩散模型的真实缺陷生成
标题: DefectFill: Realistic Defect Generation with Inpainting Diffusion Model for Visual Inspection
作者: Jaewoo Song / Daemin Park / Kanghyun Baek / Sangyub Lee / Jooyoung Choi / Eunji Kim / Sungroh Yoon
原文:   [英文]  
备注: Accepted by CVPR 2025
摘要:
由于缺陷数据的稀缺,开发有效的视觉检测模型仍然具有挑战性。虽然图像生成模型已被用于合成缺陷图像,但生成高度逼真的缺陷仍然困难。我们提出了一种新颖的逼真缺陷生成方法——DefectFill,该方法只需少量参考缺陷图像。它利用经过微调的修复扩散模型,并通过我们自定义的损失函数进行优化,这些损失函数结合了缺陷、对象和注意力项。该方法能够精确捕捉详细的局部缺陷特征,并将其无缝集成到无缺陷的对象中。此外,我们的低保真选择方法进一步提高了缺陷样本的质量。实验表明,DefectFill能够生成高质量的缺陷图像,使视觉检测模型在MVTec AD数据集上实现了最先进的性能。

[66] 重新思考细胞计数方法:解耦计数与定位
标题: Rethinking Cell Counting Methods: Decoupling Counting and Localization
作者: Zixuan Zheng / Yilei Shi / Chunlei Li / Jingliang Hu / Xiao Xiang Zhu / Lichao Mou
原文:   [英文]   [中文]  
备注: MICCAI 2024
摘要:
在显微镜图像中进行细胞计数在医学和生物学中至关重要,但手动操作极为繁琐且耗时。尽管近年来自动化方法有所进步,但最先进的方法往往趋向于越来越复杂的模型设计。在本文中,我们提出了一种概念上简单但有效的解耦学习方案用于自动化细胞计数,该方案由独立的计数器和定位器网络组成。与联合学习计数和密度图估计的方法相比,我们展示了解耦这些目标出人意料地改善了结果。计数器在中间特征图上操作而不是像素空间,以利用全局上下文并生成计数估计,同时还生成粗略的密度图。然后,定位器在原始图像和计数器生成的粗略密度图的条件下重建高分辨率的密度图,以精确定位单个细胞。此外,为了提高计数精度,我们进一步引入了一个全局信息传递模块以整合跨区域模式。在四个数据集上的大量实验表明,尽管我们的方法简单,但它挑战了常规做法,并以显著的优势达到了最先进的性能。我们的关键见解是,解耦学习减轻了直接在高分辨率密度图上学习计数的需求,使模型能够专注于对准确估计至关重要的全局特征。代码可在此https URL获取。

[67] GraphTEN:图增强纹理编码网络
标题: GraphTEN: Graph Enhanced Texture Encoding Network
作者: Bo Peng / Jintao Chen / Mufeng Yao / Chenhao Zhang / Jianghui Zhang / Mingmin Chi / Jiang Tao
原文:   [英文]   [中文]  
备注: 6 pages, 7 figures, conference paper
摘要:
纹理识别是计算机视觉和模式识别中的一个基本问题。最近的进展利用卷积神经网络(CNN)将特征聚合为具有辨别力的描述。然而,由于纹理原语在空间分布上的变化和随机性,通过视觉原语建模非局部上下文关系仍然具有挑战性。在本文中,我们提出了一种图增强纹理编码网络(GraphTEN),旨在捕捉纹理原语的局部和全局特征。GraphTEN通过全连接图建模全局关联,并通过二分图捕捉纹理原语的跨尺度依赖关系。此外,我们引入了一个补丁编码模块,该模块利用码本通过将多尺度补丁特征编码到统一的特征空间中来实现纹理的无序表示。所提出的GraphTEN在五个公开可用的数据集上相比于最新的方法实现了卓越的性能。

[68] 使用从贝叶斯深度学习模型中提取的不确定性信息对乳腺X线摄影肿块进行BI-RADS预测
标题: BI-RADS prediction of mammographic masses using uncertainty information extracted from a Bayesian Deep Learning model
作者: Mohaddeseh Chegini / Ali Mahloojifar
原文:   [英文]  
备注: None
摘要:
BI_RADS评分是一种概率报告工具,放射科医生用来根据乳腺X光图像中的一些形态特征表达预测乳腺癌的不确定性水平。在描述肿块时存在显著的变异性,这有时会导致BI_RADS分类错误。需要使用BI_RADS预测系统来支持最终的放射科医生决策。在这项研究中,利用贝叶斯深度学习模型提取的不确定性信息来预测BI_RADS评分。基于病理信息的调查结果表明,放射科医生预测的f1分数分别为42.86%、48.33%和48.28%,而模型性能的f1分数在BI_RADS 2、3和5数据集样本中分别为73.33%、59.60%和59.26%。此外,模型能够在所用数据集的BI_RADS 0类别中以75.86%的准确率区分恶性和良性样本,并正确识别所有恶性样本为BI_RADS 5。Grad-CAM可视化显示模型关注病变的形态特征。因此,这项研究表明,具有不确定性意识的贝叶斯深度学习模型可以像放射科医生一样,根据形态特征报告其对病变恶性程度的不确定性。

[69] 基于多模态特征驱动的深度学习用于预测鸭体尺寸和体重
标题: Multimodal Feature-Driven Deep Learning for the Prediction of Duck Body Dimensions and Weight
作者: Yi Xiao / Qiannan Han / Guiping Liang / Hongyan Zhang / Song Wang / Zhihao Xu / Weican Wan / Chuang Li / Guitao Jiang / Wenbo Xiao
原文:   [英文]   [中文]  
备注: None
摘要:
准确的身体尺寸和重量测量对于优化家禽管理、健康评估和经济效率至关重要。本研究介绍了一种创新的基于深度学习的模型,该模型利用多模态数据——来自不同视角的二维RGB图像、深度图像和三维点云——进行鸭子身体尺寸和重量的非侵入性估计。为了支持模型训练,收集了一个包含1,023只临武鸭的数据库,其中包括超过5,000个样本,涵盖各种姿势和状态。所提出的方法创新性地采用PointNet++从点云中提取关键特征点,提取并计算相应的三维几何特征,并将其与多视角卷积二维特征融合。然后利用Transformer编码器捕捉长距离依赖关系并优化特征交互,从而增强预测的鲁棒性。该模型在八个形态参数上实现了6.33%的平均绝对百分比误差(MAPE)和0.953的R2,展示了强大的预测能力。与传统的手动测量不同,所提出的模型能够进行高精度估计,同时消除了物理处理的必要性,从而减少了动物的压力并扩大了其应用范围。本研究标志着深度学习技术首次应用于家禽身体尺寸和重量估计,为畜牧业的智能化和精确管理提供了宝贵的参考,具有深远的实际意义。

[70] MeshFleet:用于领域特定生成建模的过滤和注释3D车辆数据集
标题: MeshFleet: Filtered and Annotated 3D Vehicle Dataset for Domain Specific Generative Modeling
作者: Damian Boborzi / Phillip Mueller / Jonas Emrich / Dominik Schmid / Sebastian Mueller / Lars Mikelsons
原文:   [英文]   [中文]  
备注: None
摘要:
生成模型最近在3D对象领域取得了显著进展。然而,由于无法提供工程等领域所需的准确性、质量和可控性,它们的实际应用仍然有限。微调大型生成模型是使这些模型在这些领域中可用的一个有前景的方向。创建高质量、特定领域的3D数据集对于微调大型生成模型至关重要,但数据过滤和标注过程仍然是一个显著的瓶颈。我们提出了MeshFleet,这是一个从Objaverse-XL中提取的经过过滤和标注的3D车辆数据集,Objaverse-XL是目前公开可用的最大3D对象集合。我们的方法提出了一个基于质量分类器的自动数据过滤流程。该分类器在Objaverse的一个手动标记子集上进行训练,结合了DINOv2和SigLIP嵌入,通过基于标题的分析和不确定性估计进行优化。我们通过与基于标题和图像美学评分技术的比较分析以及与SV3D的微调实验,展示了我们的过滤方法的有效性,强调了针对特定领域3D生成建模进行目标数据选择的重要性。

[71] LEGNet:用于低质量遥感图像目标检测的轻量级边缘-高斯驱动网络
标题: LEGNet: Lightweight Edge-Gaussian Driven Network for Low-Quality Remote Sensing Image Object Detection
作者: Wei Lu / Si-Bao Chen / Hui-Dong Li / Qing-Ling Shu / Chris H. Q. Ding / Jin Tang / Bin Luo
原文:   [英文]   [中文]  
备注: 12 pages, 5 figures. Remote Sensing Image Object Detection
摘要:
遥感目标检测(RSOD)在复杂的视觉环境中面临严峻挑战。航拍和卫星图像本质上存在一些局限性,如低空间分辨率、传感器噪声、模糊物体、低光降解和部分遮挡。这些退化因素共同削弱了检测模型的特征辨别能力,导致三个关键问题:(1)对比度降低,阻碍了前景与背景的分离;(2)边缘表示中的结构不连续性;(3)由于光照变化引起的特征响应模糊。这些问题共同削弱了模型的鲁棒性和部署可行性。为了解决这些挑战,我们提出了LEGNet,这是一种轻量级网络,结合了一种新颖的边缘-高斯聚合(EGA)模块,专为低质量遥感图像设计。我们的关键创新在于将基于Scharr算子的边缘先验与不确定性感知的高斯建模协同集成:(a)方向感知的Scharr滤波器以旋转不变性保留高频边缘细节;(b)不确定性感知的高斯层通过方差估计概率性地优化低置信度特征。该设计在保持架构简单性的同时实现了精度提升。通过对四个RSOD基准(DOTA-v1.0, v1.5, DIOR-R, FAIR1M-v1.0)和一个无人机视角数据集(VisDrone2019)的全面评估,显示出显著的改进。LEGNet在五个基准数据集上实现了最先进的性能,同时确保了计算效率,使其非常适合在资源受限的边缘设备上部署,用于实际的遥感应用。代码可在此https URL获取。

[72] 通过掩码图像一致性和差异学习提升半监督医学图像分割
标题: Boosting Semi-Supervised Medical Image Segmentation via Masked Image Consistency and Discrepancy Learning
作者: Pengcheng Zhou / Lantian Zhang / Wei Li
原文:   [英文]   [中文]  
备注: None
摘要:
半监督学习在医学图像分割中具有重要意义,因为它可以利用未标记的数据。在其策略中,共同训练框架尤为突出。然而,以往的共同训练研究主要集中在网络初始化差异和伪标签生成上,而忽视了信息交换和平衡模型多样性之间的平衡。在本文中,我们提出了具有三个关键模块的掩码图像一致性和差异学习(MICD)框架。掩码交叉伪一致性(MCPC)模块通过跨掩码输入分支的伪标签丰富了上下文感知和小样本学习。交叉特征一致性(CFC)模块通过确保解码器特征一致性来加强信息交换和模型稳健性。交叉模型差异(CMD)模块利用EMA教师网络来监督输出并保持分支多样性。这些模块共同通过关注细粒度的局部信息和在异构框架中保持多样性来解决现有的局限性。在两个公共医学图像数据集AMOS和Synapse上的实验表明,我们的方法优于最先进的方法。

[73] MP-GUI:使用多模态大语言模型进行GUI理解的模态感知
标题: MP-GUI: Modality Perception with MLLMs for GUI Understanding
作者: Ziwei Wang / Weizhi Chen / Leyang Yang / Sheng Zhou / Shengchu Zhao / Hanbei Zhan / Jiongchao Jin / Liangcheng Li / Zirui Shao / Jiajun Bu
原文:   [英文]   [中文]  
备注: Paper accepted to CVPR 2025
摘要:
图形用户界面(GUI)已成为现代社会不可或缺的一部分,因此对于以人为中心的系统来说,理解GUI至关重要。然而,与自然图像或文档不同,GUI由人工设计的图形元素组成,这些元素排列以传达特定的语义含义。目前的多模态大型语言模型(MLLMs)虽然已经在处理图形和文本组件方面表现出色,但由于缺乏明确的空间结构建模,在理解GUI方面遇到了障碍。此外,由于隐私问题和嘈杂环境,获取高质量的空间结构数据具有挑战性。为了解决这些挑战,我们提出了MP-GUI,这是一种专门为GUI理解设计的MLLM。MP-GUI具有三个精确专门化的感知器,用于从屏幕中提取图形、文本和空间模态,作为GUI定制的视觉线索,并通过空间结构优化策略和自适应融合门结合,以满足不同GUI理解任务的特定需求。为了应对训练数据的稀缺性,我们还引入了一种自动数据收集的流程。大量实验表明,MP-GUI在各种GUI理解任务中,即使数据有限,也能取得令人印象深刻的结果。

[74] 重新思考高斯喷溅中的端到端二维到三维场景分割
标题: Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting
作者: Runsong Zhu / Shi Qiu / Zhengzhe Liu / Ka-Hei Hui / Qianyi Wu / Pheng-Ann Heng / Chi-Wing Fu
原文:   [英文]   [中文]  
备注: CVPR 2025. The code is publicly available at this https URL (this https URL)
摘要:
将多视图的2D实例分割提升到辐射场已被证明可以有效增强3D理解。现有的方法依赖于直接匹配进行端到端提升,结果较差;或者采用受复杂的前处理或后处理限制的两阶段解决方案。在这项工作中,我们设计了一种新的端到端对象感知提升方法,称为Unified-Lift,它基于3D高斯表示提供准确的3D分割。首先,我们通过使用对比损失学习的附加高斯级特征来增强每个高斯点,以编码实例信息。重要的是,我们引入了一个可学习的对象级代码本,以考虑场景中的单个对象,从而实现显式的对象级理解,并将编码的对象级特征与高斯级点特征关联以进行分割预测。尽管前景看好,实现有效的代码本学习并非易事,简单的解决方案会导致性能下降。因此,我们制定了关联学习模块和噪声标签过滤模块,以实现有效且稳健的代码本学习。我们在三个基准数据集上进行了实验:LERF-Masked、Replica和Messy Rooms。定性和定量结果都表明,我们的Unified-Lift在分割质量和时间效率方面明显优于现有方法。代码可在\href{this https URL}{this https URL}公开获取。

[75] 重新审视用于伪装物体检测的解码器
标题: A Revisit to the Decoder for Camouflaged Object Detection
作者: Seung Woo Ko / Joopyo Hong / Suyoung Kim / Seungjai Bang / Sungzoon Cho / Nojun Kwak / Hyung-Sin Kim / Joonseok Lee
原文:   [英文]   [中文]  
备注: Published in BMVC 2024, 13 pages, 7 figures (Appendix: 5 pages, 2 figures)
摘要:
伪装物体检测(COD)旨在生成隐藏在背景中的伪装物体的精细分割图。由于伪装物体的隐藏特性,解码器必须经过专门设计,以有效提取伪装物体的适当特征,并特别小心地生成其复杂的边界。在本文中,我们提出了一种新颖的架构,通过丰富解码器和修饰解码器增强了COD中常见的解码策略,从而帮助生成精细的分割图。具体来说,丰富解码器通过通道注意力放大了对COD重要的特征通道。修饰解码器则通过空间关注重要像素(如边界区域)进一步优化分割图。通过大量实验,我们证明了ENTO在使用各种编码器时表现出卓越的性能,这两个新颖的组件发挥了各自独特且相辅相成的作用。

[76] 用于高效图像修复的内部和外部解析器提示变换器
标题: Intra and Inter Parser-Prompted Transformers for Effective Image Restoration
作者: Cong Wang / Jinshan Pan / Liyan Wang / Wei Wang
原文:   [英文]   [中文]  
备注: This version is accepted by the Association for the Advancement of Artificial Intelligence (AAAI-25)
摘要:
我们提出了内部和外部解析器提示的变压器(PPTformer),用于从视觉基础模型中探索图像修复的有用特征。具体来说,PPTformer 包含两个部分:用于从退化观测中恢复图像的图像修复网络(IRNet)和为 IRNet 提供可靠解析器信息以增强修复的解析器提示特征生成网络(PPFGNet)。为了增强解析器在 IRNet 中的整合,我们提出了内部解析器提示注意力(IntraPPA)和外部解析器提示注意力(InterPPA),以隐式和显式地学习有用的解析器特征来促进修复。IntraPPA 重新考虑了解析器和修复特征之间的交叉注意力,从长距离和层内的角度实现对解析器的隐式感知。相反,InterPPA 最初将修复特征与解析器特征融合,然后在注意力机制中构建这些融合特征,以显式感知解析器信息。此外,我们提出了一种解析器提示的前馈网络,以在像素级门控调制中指导修复。实验结果表明,PPTformer 在图像去雨、去焦模糊、去雪和低光增强方面达到了最先进的性能。

[77] AIGVE-Tool:AI生成视频评估工具包与多方面基准
标题: AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark
作者: Xinhao Xiang / Xiao Liu / Zizhong Li / Zhuosheng Liu / Jiawei Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
人工智能生成视频合成技术的快速发展导致对标准化和有效评估指标的需求增长。现有的指标缺乏一个统一的框架来系统地分类方法学,限制了对评估领域的整体理解。此外,分散的实现和缺乏标准化接口导致了冗余的处理开销。此外,许多先前的方法受限于特定数据集的依赖性,限制了它们在不同视频领域的适用性。为了解决这些挑战,我们引入了AIGVE-Tool(AI生成视频评估工具包),这是一个统一的框架,提供了一个结构化和可扩展的评估流程,用于全面的AI生成视频评估。AIGVE-Tool在一个新颖的五类分类法中组织,整合了多种评估方法,同时允许通过模块化配置系统进行灵活的定制。此外,我们提出了AIGVE-Bench,这是一个基于手工制作的指令和提示创建的大规模基准数据集,使用五个最先进的视频生成模型。该数据集系统地评估了各种视频生成模型在九个关键质量维度上的表现。大量实验表明,AIGVE-Tool在提供标准化和可靠的评估结果方面的有效性,突出了当前模型的特定优势和局限性,并促进了下一代AI生成视频技术的进步。

[78] 使用对角线解码的快速自回归视频生成
标题: Fast Autoregressive Video Generation with Diagonal Decoding
作者: Yang Ye / Junliang Guo / Haoyu Wu / Tianyu He / Tim Pearce / Tabish Rashid / Katja Hofmann / Jiang Bian
原文:   [英文]   [中文]  
备注: None
摘要:
自回归Transformer模型在视频生成方面表现出色,但其逐个令牌的顺序解码过程是一个主要瓶颈,特别是对于由数万个令牌表示的长视频。在本文中,我们提出了对自回归预训练模型进行推理加速的无训练算法——对角解码(DiagD),该算法利用视频中的空间和时间相关性。我们的方法沿着空间-时间令牌网格中的对角路径生成令牌,使得在每一帧内可以进行并行解码,并在连续帧之间部分重叠。所提出的算法通用且适应于各种生成模型和任务,同时提供了对推理速度和视觉质量之间权衡的灵活控制。此外,我们提出了一种具有成本效益的微调策略,使模型的注意力模式与我们的解码顺序对齐,从而在小规模模型上进一步缩小训练-推理差距。在多个自回归视频生成模型和数据集上的实验表明,与简单的顺序解码相比,DiagD实现了高达10倍的加速,同时保持了可比的视觉保真度。

[79] 具有渐进式服装变形的肢体感知虚拟试穿网络
标题: Limb-Aware Virtual Try-On Network with Progressive Clothing Warping
作者: Shengping Zhang / Xiaoyu Han / Weigang Zhang / Xiangyuan Lan / Hongxun Yao / Qingming Huang
原文:   [英文]   [中文]  
备注: Accepted by IEEE Transactions on Multimedia (TMM). The code is available at this https URL
摘要:
基于图像的虚拟试穿旨在将店内服装图像转移到人物图像上。大多数现有方法采用单一的全局变形来直接进行服装变形,这缺乏对店内服装的细粒度建模,导致服装外观扭曲。此外,现有方法通常无法很好地生成肢体细节,因为它们受到所使用的与服装无关的人物表示的限制,没有参考人物图像的肢体纹理。为了解决这些问题,我们提出了名为PL-VTON的肢体感知虚拟试穿网络,该网络逐步进行细粒度的服装变形,并生成具有真实肢体细节的高质量试穿结果。具体来说,我们提出了渐进式服装变形(PCW),该方法明确建模店内服装的位置和大小,并利用两阶段对齐策略逐步将店内服装与人体对齐。此外,我们采用了一种新颖的重力感知损失,该损失考虑了人物穿着服装的贴合度,以更好地处理服装边缘。然后,我们设计了人物解析估计器(PPE),使用非肢体目标解析图将人物语义地划分为多个区域,从而对人体提供结构约束,缓解服装与身体区域之间的纹理渗透。最后,我们引入了肢体感知纹理融合(LTF),专注于在肢体区域生成真实细节,其中首先通过将变形后的服装图像与人物图像融合生成粗略试穿结果,然后在肢体感知指导下进一步将肢体纹理与粗略结果融合以优化肢体细节。大量实验表明,我们的PL-VTON在质量和数量上均优于最先进的方法。

[80] 通过扩展枝条加速大型视觉语言模型
标题: Growing a Twig to Accelerate Large Vision-Language Models
作者: Zhenwei Shao / Mingyang Wang / Zhou Yu / Wenwen Pan / Yan Yang / Tao Wei / Hongyuan Zhang / Ning Mao / Wei Chen / Jun Yu
原文:   [英文]   [中文]  
备注: 17 pages, 8 figures
摘要:
大型视觉-语言模型(VLMs)在开放世界的多模态理解中表现出卓越的能力,但其高计算开销对实际部署构成了巨大挑战。最近一些研究提出了通过修剪冗余视觉标记来加速VLM的方法,这些方法由VLM早期层的注意力图指导。尽管这些标记修剪方法取得了成功,但它们仍然存在两个主要缺点:(i)由于早期层的注意力信号不敏感导致的准确性下降,以及(ii)在生成长响应(例如,30个标记)时加速有限。为了解决上述限制,我们提出了TwigVLM——一种简单且通用的架构,通过在基础VLM的早期层上增加一个轻量级的枝杈。与大多数现有的纯粹基于视觉标记修剪的VLM加速方法相比,我们的TwigVLM不仅通过采用枝杖引导的标记修剪(TTP)策略实现了更好的准确性保留,还通过利用自我推测解码(SSD)策略实现了更高的生成速度。以LLaVA-1.5-7B作为基础VLM,实验结果表明,TwigVLM在修剪88.9%的视觉标记后保留了96%的原始性能,并在生成长响应时实现了154%的加速,在准确性和速度方面显著优于最先进的VLM加速方法。代码将公开发布。

[81] SCJD:稀疏相关性与联合蒸馏用于高效的3D人体姿态估计
标题: SCJD: Sparse Correlation and Joint Distillation for Efficient 3D Human Pose Estimation
作者: Weihong Chen / Xuemiao Xu / Haoxin Yang / Yi Xie / Peng Xiao / Cheng Xu / Huaidong Zhang / Pheng-Ann Heng
原文:   [英文]   [中文]  
备注: None
摘要:
现有的3D人体姿态估计(HPE)方法虽然在准确性上表现出色,但在计算开销和推理速度上存在不足,而知识蒸馏方法未能有效处理关节之间的空间关系和多帧输入的时间相关性。在本文中,我们提出了一种名为稀疏相关和关节蒸馏(SCJD)的新框架,以在3D HPE中实现效率与准确性的平衡。SCJD引入了稀疏相关输入序列下采样,以减少学生网络输入中的冗余,同时保留帧间相关性。为了实现有效的知识转移,我们提出了动态关节空间注意力蒸馏,其中包括动态关节嵌入蒸馏,利用教师的多帧上下文特征增强学生的特征表示,以及相邻关节注意力蒸馏,以提高学生网络对相邻关节关系的关注,从而更好地理解空间关系。此外,时间一致性蒸馏通过上采样和全局监督对齐教师和学生网络之间的时间相关性。大量实验表明,SCJD达到了最新的性能水平。代码可在此https URL获取。

[82] 使用多输出保形预测进行二维/三维解剖学标志定位的可靠不确定性量化
标题: Reliable uncertainty quantification for 2D/3D anatomical landmark localization using multi-output conformal prediction
作者: Jef Jonkers / Frank Coopman / Luc Duchateau / Glenn Van Wallendael / Sofie Van Hoecke
原文:   [英文]   [中文]  
备注: 33 pages, 10 figures
摘要:
在医学影像中自动解剖标志定位不仅需要准确的预测,还需要可靠的不确定性量化以支持有效的临床决策。当前的不确定性量化方法常常不足,尤其是在结合正态性假设时,系统性地低估了总预测不确定性。本文引入了保序预测作为解剖标志定位中可靠不确定性量化的框架,解决了自动标志定位中的一个关键缺口。我们提出了两种新的方法,保证多输出预测的有限样本有效性:多输出回归作为分类保序预测(M-R2CCP)及其变体多输出回归到分类保序预测区域(M-R2C2R)。与传统方法产生轴对齐的超矩形或椭圆区域不同,我们的方法生成灵活的、非凸的预测区域,更好地捕捉标志预测的不确定性结构。通过对多个二维和三维数据集的广泛实证评估,我们证明了我们的方法在有效性和效率上始终优于现有的多输出保序预测方法。这项工作在解剖标志定位的可靠不确定性估计方面代表了一个显著的进步,为临床医生提供了可信的诊断信心度量。虽然是为医学影像开发的,这些方法在多输出回归问题的更广泛应用中显示出潜力。

[83] 地理信息的操作性变化检测:概述与挑战
标题: Operational Change Detection for Geographical Information: Overview and Challenges
作者: Nicolas Gonthier
原文:   [英文]  
备注: Preprint under review
摘要:
由于气候变化和人类活动的影响,领土迅速演变,这需要国家测绘机构对地理空间数据库进行及时有效的更新。本文全面概述了适用于大规模地理数据库操作更新的变化检测方法。首先,本文概述了变化的基本定义,强调其多方面的特性,从时间到语义特征。自动变化检测方法被分为四大类:基于规则的方法、统计方法、机器学习方法和模拟方法。每一类方法的优点、局限性和适用性在各种输入数据的背景下进行了讨论。然后,确定了国家测绘机构的关键应用,特别是地理空间数据库更新的优化、基于变化的现象以及动态监测。最后,本文强调了利用变化检测的当前挑战,如变化定义的多样性、缺乏相关的大规模数据集、输入数据的多样性、未研究的无变化检测、人机交互的整合以及操作约束。讨论强调了在变化检测技术中持续创新的必要性,以应对国家测绘机构地理信息系统的未来需求。

[84] 关于对抗性图像扰动的性质
标题: Towards properties of adversarial image perturbations
作者: Egor Kuznetsov / Kirill Aistov / Maxim Koroteev
原文:   [英文]   [中文]  
备注: 13 pages, 40 figures
摘要:
我们使用随机梯度方法研究了导致VMAF图像质量指标显著增长的对抗扰动的特性。根据可接受的PSNR值,并基于对扰动的傅里叶功率谱计算,研究了扰动的结构。研究表明,在图像的一个受限区域内,图像亮度的适度变化(约10个像素单位)可以导致VMAF增长约60%。与其他一些展示类似VMAF增长的方法不同,图像的主观质量几乎保持不变。研究还表明,对抗扰动可能表现出扰动幅度与图像亮度的近似线性依赖关系。基于PyTorch中的直接VMAF优化对这些扰动进行了研究。当使用相同的直接VMAF优化进行图像噪声恢复时,度量值与主观判断之间的显著差异也得到了展示。

[85] 通过生成网络反演压缩动作分割数据集
标题: Condensing Action Segmentation Datasets via Generative Network Inversion
作者: Guodong Ding / Rongyu Chen / Angela Yao
原文:   [英文]   [中文]  
备注: 10 pages, 3 figures, 5 tables, Accepted to CVPR2025
摘要:
这项工作提出了第一个用于时间动作分割的程序视频数据集的凝缩方法。我们提出了一种凝缩框架,该框架利用从数据集中学习到的生成先验和网络反演,将数据凝缩为紧凑的潜在编码,从而显著减少时间和通道方面的存储。我们还提出了采样多样且具有代表性的动作序列,以最大限度地减少视频层面的冗余。我们在标准基准上的评估表明,该方法在凝缩时间动作分割数据集方面具有一致的有效性,并实现了具有竞争力的性能。具体来说,在Breakfast数据集上,我们的方法将存储减少了超过500倍,同时保留了83%的性能,与使用完整数据集训练相比。此外,当应用于下游增量学习任务时,它比现有的最先进方法表现更优。

[86] SketchFusion:通过融合基础模型学习通用草图特征
标题: SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models
作者: Subhadeep Koley / Tapas Kumar Dutta / Aneeshan Sain / Pinaki Nath Chowdhury / Ayan Kumar Bhunia / Yi-Zhe Song
原文:   [英文]  
备注: Accepted in CVPR 2025. Project page available at this https URL
摘要:
虽然基础模型已经彻底改变了计算机视觉领域,但由于抽象、稀疏的视觉输入所带来的独特挑战,它们在草图理解方面的效果仍然有限。通过系统分析,我们发现了两个基本限制:Stable Diffusion (SD) 在从抽象草图中提取有意义特征方面存在困难(与其在照片处理中的成功不同),并且表现出明显的频域偏差,抑制了草图理解所需的重要低频成分。我们没有选择昂贵的重新训练,而是通过战略性地将 SD 与 CLIP 结合来解决这些限制,CLIP 的强大语义理解自然弥补了 SD 的空间频率偏差。通过动态注入 CLIP 特征到 SD 的去噪过程,并在语义层次上自适应地聚合特征,我们的方法在草图检索(+3.35%)、识别(+1.06%)、分割(+29.42%)和对应学习(+21.22%)方面实现了最先进的性能,展示了基础模型时代首个真正通用的草图特征表示。

[87] 探索人脸识别系统中差异性与准确性之间的权衡:数据集、架构和损失函数的作用
标题: Exploring Disparity-Accuracy Trade-offs in Face Recognition Systems: The Role of Datasets, Architectures, and Loss Functions
作者: Siddharth D Jaiswal / Sagnik Basu / Sandipan Sikdar / Animesh Mukherjee
原文:   [英文]   [中文]  
备注: This work has been accepted for publication at AAAI ICWSM 2025
摘要:
自动人脸识别系统(FRSs)是利用深度学习模型开发的,已在全球范围内用于身份验证和面部属性分析。这些模型的性能由模型架构、优化/损失函数和数据集之间的复杂相互依赖关系决定。尽管FRSs的准确性已超过人类水平,但它们在某些人口统计上仍然存在差异。由于应用的普遍性,理解模型架构、损失函数和人脸图像数据集这三个组件对准确性和差异性权衡的影响,以设计更好、更无偏的平台是极其重要的。在这项工作中,我们对三种FRS进行了深入分析,任务是性别预测,通过各种架构修改产生了十个深度学习模型,并结合四种损失函数,在七个面部数据集上进行基准测试,共计266种评估配置。我们的结果表明,所有三个组件对准确性和差异性都有单独和组合的影响。我们发现数据集具有一种固有属性,使其在不同模型中表现相似,与损失函数的选择无关。此外,数据集的选择决定了模型的感知偏差——同一模型在三个性别平衡的“自然环境”中流行人物的面部图像数据集上报告的偏差方向相反。对面部嵌入的研究表明,由于数据集的多样性,模型无法普遍化定义“女性面孔”与“男性面孔”的区别。我们为模型开发者提供建议,使用我们的研究作为模型开发和后续部署的蓝图。

[88] Marten:通过掩码生成进行多模态文档理解的视觉问答
标题: Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding
作者: Zining Wang / Tongkun Guan / Pei Fu / Chen Duan / Qianyi Jiang / Zhentao Guo / Shan Guo / Junfeng Luo / Wei Shen / Xiaokang Yang
原文:   [英文]  
备注: Accepted by CVPR2025
摘要:
多模态大型语言模型(MLLMs)为文档理解引入了一个新的维度,即它们赋予大型语言模型视觉理解能力。然而,如何设计一个合适的图像-文本预训练任务以在文档级MLLMs中桥接视觉和语言模态仍然未被充分探索。在这项研究中,我们介绍了一种新颖的视觉-语言对齐方法,将关键问题转化为一个视觉问答与掩码生成(VQAMask)任务,同时优化两个任务:基于VQA的文本解析和掩码生成。前者使模型能够在语义层面隐式对齐图像和文本。后者引入了一个额外的掩码生成器(在推理过程中被丢弃),以显式确保图像中的视觉文本与其对应的图像区域在空间感知层面上的对齐。两者结合可以防止模型在解析视觉文本时出现幻觉,并有效促进空间感知特征表示学习。为了支持所提出的VQAMask任务,我们构建了一个全面的图像掩码生成流程,并提供了一个包含600万数据的大规模数据集(MTMask6M)。随后,我们证明引入所提出的掩码生成任务可以带来有竞争力的文档级理解性能。利用所提出的VQAMask,我们介绍了Marten,一种针对文档级理解量身定制的训练高效MLLM。大量实验表明,我们的Marten在以文档为中心的任务中始终在8B-MLLMs中实现显著改进。代码和数据集可在此https URL获取。

[89] 使用遥感数据预测野火蔓延的卷积神经网络和Transformer模型的比较与解释分析
标题: Comparative and Interpretative Analysis of CNN and Transformer Models in Predicting Wildfire Spread Using Remote Sensing Data
作者: Yihang Zhou / Ruige Kong / Zhengsen Xu / Linlin Xu / Sibo Cheng
原文:   [英文]   [中文]  
备注: None
摘要:
面对全球野火威胁的不断升级,许多使用遥感数据的计算机视觉技术已被应用于这一领域。然而,由于缺乏定量和可解释的比较分析,深度学习方法在野火预测中的选择仍不确定,这对于改进预防措施和优化模型至关重要。本研究旨在全面比较四种流行的深度学习架构的性能、效率和可解释性:自编码器(Autoencoder)、残差网络(ResNet)、UNet 和基于 Transformer 的 Swin-UNet。利用包含近十年美国加利福尼亚州遥感数据的真实数据集,这些模型预测次日的野火蔓延情况。通过详细的定量比较分析,我们发现基于 Transformer 的 Swin-UNet 和 UNet 通常优于自编码器和 ResNet,特别是由于 Transformer-based Swin-UNet 中先进的注意力机制以及 UNet 和 Transformer-based Swin-UNet 中高效使用的跳跃连接,这些都促进了更高的预测准确性和模型可解释性。然后,我们在所有四个模型上应用了可解释人工智能(XAI)技术,这不仅增强了模型的清晰度和可信度,还促进了野火预测能力的重点改进。XAI 分析表明,UNet 和 Transformer-based Swin-UNet 能够比其他两个模型更有效地关注关键特征,如“先前火灾掩码”、“干旱”和“植被”,同时也对其余特征保持平衡的关注,从而导致其卓越的性能。我们详尽的比较分析提供的见解对未来模型设计具有重要意义,并为不同场景下的模型选择提供指导。

[90] Concat-ID:迈向通用身份保留视频合成
标题: Concat-ID: Towards Universal Identity-Preserving Video Synthesis
作者: Yong Zhong / Zhuoyi Yang / Jiayan Teng / Xiaotao Gu / Chongxuan Li
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了Concat-ID,一种统一的身份保留视频生成框架。Concat-ID采用变分自编码器来提取图像特征,这些特征与视频潜变量在序列维度上进行拼接,仅利用3D自注意力机制而无需额外模块。我们引入了一种新颖的跨视频配对策略和多阶段训练方案,以平衡身份一致性和面部可编辑性,同时增强视频的自然性。大量实验表明,Concat-ID在单身份和多身份生成方面优于现有方法,并且能够无缝扩展到多主体场景,包括虚拟试穿和背景可控生成。Concat-ID为身份保留视频合成建立了新的基准,提供了一个多功能且可扩展的解决方案,适用于广泛的应用。

[91] RBFIM:使用径向基函数插值对压缩点云进行感知质量评估
标题: RBFIM: Perceptual Quality Assessment for Compressed Point Clouds Using Radial Basis Function Interpolation
作者: Zhang Chen / Shuai Wan / Siyu Ren / Fuzheng Yang / Mengting Yu / Junhui Hou
原文:   [英文]   [中文]  
备注: None
摘要:
点云压缩(PCC)的主要挑战之一是如何评估感知失真,以便对编解码器进行优化以提高感知质量。当前PCC的标准实践突出了一个主要问题:虽然单一特征度量广泛用于评估压缩失真,但经典的点对点最近邻搜索方法常常无法充分建立点云之间的精确对应关系,从而无法有效捕捉人类感知特征。为克服相关限制,我们提出了一种新颖的评估方法,称为RBFIM,利用径向基函数(RBF)插值将离散点特征转换为失真点云的连续特征函数。通过将原始点云的几何坐标代入特征函数,我们获得了点特征的双射集。这使得能够在失真和原始点云之间建立精确的对应特征,并显著提高质量评估的准确性。此外,该方法避免了双向搜索带来的复杂性。在多个压缩点云的主观质量数据集上的广泛实验表明,我们的RBFIM在处理人类感知任务方面表现出色,从而为PCC优化工作提供了强有力的支持。

[92] CoSpace:为视觉-语言模型的连续空间感知能力建立基准
标题: CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models
作者: Yiqi Zhu / Ziyue Wang / Can Zhang / Peng Li / Yang Liu
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)最近在视觉理解方面取得了显著进展。随着图像上下文的允许长度增加,VLMs现在能够理解更广泛的视角和空间。当前的基准测试在涉及复杂视觉指令执行、多图像理解和空间推理的任务中提供了有见地的分析。然而,它们通常关注空间上不相关的图像或从不同视点捕获的离散图像。从静态视点捕获的图像的组合特性仍然被低估。我们将这种特性称为连续空间感知。当从静态视点观察场景时,通过改变方向,会产生一系列空间连续的图像,从而能够重建整个空间。在本文中,我们提出了CoSpace,一个多图像视觉理解基准,旨在评估VLMs的连续空间感知能力。CoSpace包含2,918张图像和1,626个问答对,涵盖七种类型的任务。我们对19个专有和开源的VLMs进行了评估。结果表明,大多数被评估的模型,包括专有模型,在连续空间感知能力方面存在缺陷。有趣的是,我们发现开源和专有模型之间的主要差异不在于准确性,而在于响应的一致性。我们认为,增强连续空间感知能力对于VLMs在现实任务中有效表现至关重要,并鼓励进一步研究以提升这一能力。

[93] 轻量级梯度感知的3D高斯点图像放大
标题: Lightweight Gradient-Aware Upscaling of 3D Gaussian Splatting Images
作者: Simon Niedermayr / Christoph Neuhauser Rüdiger Westermann
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了一种专为轻量级GPU上的3D高斯点绘(3DGS)设计的图像放大技术。与3DGS相比,该技术实现了显著更高的渲染速度,并减少了3DGS重建中常见的伪影。我们的技术通过直接利用高斯的解析图像梯度进行基于梯度的双三次样条插值,以极小的成本增加来放大低分辨率的3DGS渲染。该技术与具体的3DGS实现无关,实现了比基线实现高3倍到4倍的全新视图合成速度。通过对多个数据集的广泛实验,我们展示了通过梯度感知的3DGS图像放大所能达到的性能提升和高重建保真度。我们进一步展示了将梯度感知放大集成到3DGS模型的基于梯度的优化中,并分析了其对重建质量和性能的影响。

[94] RoGSplat:从稀疏多视图图像中学习鲁棒的可泛化人类高斯喷溅
标题: RoGSplat: Learning Robust Generalizable Human Gaussian Splatting from Sparse Multi-View Images
作者: Junjin Xiao / Qing Zhang / Yonewei Nie / Lei Zhu / Wei-Shi Zheng
原文:   [英文]  
备注: Accepted to CVPR2025
摘要:
本文提出了RoGSplat,这是一种新颖的方法,用于从稀疏的多视图图像中合成未见过的人体的高保真新视图,同时无需繁琐的每个主体优化。与以往方法通常在稀疏视图中重叠较少且在重建复杂人体几何形状时效果较差不同,所提出的方法能够在这种具有挑战性的条件下实现稳健的重建。我们的核心思想是将SMPL顶点提升为密集且可靠的3D先验点,以表示准确的人体几何形状,然后基于这些点回归人体高斯参数。为了考虑SMPL模型与图像之间可能存在的错位,我们提出通过利用像素级特征和体素级特征来预测与图像对齐的3D先验点,从中回归粗略的高斯。为了增强捕捉高频细节的能力,我们进一步从粗略的3D高斯渲染深度图,以帮助回归细粒度的像素级高斯。在几个基准数据集上的实验表明,我们的方法在新视图合成和跨数据集泛化方面优于最先进的方法。我们的代码可以在这个https URL上获取。

[95] 通过图像处理和沙蚕群算法优化的集成网络提升AI驱动的糖尿病视网膜病变诊断
标题: AI-Driven Diabetic Retinopathy Diagnosis Enhancement through Image Processing and Salp Swarm Algorithm-Optimized Ensemble Network
作者: Saif Ur Rehman Khan / Muhammad Nabeel Asim / Sebastian Vollmer / Andreas Dengel
原文:   [英文]   [中文]  
备注: None
摘要:
糖尿病视网膜病变是糖尿病患者失明的主要原因,早期检测在预防视力丧失方面起着至关重要的作用。传统的诊断方法通常耗时且容易出错。深度学习技术的出现为提高诊断效率提供了创新解决方案。然而,单一的深度学习模型在从复杂的视网膜图像中提取关键特征时常常面临问题。为了解决这个问题,我们提出了一种有效的糖尿病视网膜病变诊断集成方法,该方法包括四个主要阶段:图像预处理、选择预训练模型的骨干、特征增强和优化。我们的方法从预处理阶段开始,在该阶段我们应用CLAHE来增强图像对比度,然后使用伽马校正来调整亮度以更好地识别特征。接着,我们应用离散小波变换(DWT)进行图像融合,通过结合多分辨率细节来创建更丰富的数据集。然后,我们选择了三个性能最佳的预训练模型,即DenseNet169、MobileNetV1和Xception,以进行多样化的特征提取。为了进一步改善特征提取,每个模型中都集成了改进的残差块。最后,这些基础模型的预测结果通过加权集成方法进行汇总,权重通过使用Salp Swarm Algorithm(SSA)进行优化。SSA智能地探索权重空间,找到基础架构的最佳配置,以最大化集成模型的性能。所提出的模型在多类Kaggle APTOS 2019数据集上进行了评估,获得了88.52%的准确率。

[96] 用于新颖街景合成的分割引导神经辐射场
标题: Segmentation-Guided Neural Radiance Fields for Novel Street View Synthesis
作者: Yizhou Li / Yusuke Monno / Masatoshi Okutomi / Yuuichi Tanaka / Seiichi Kataoka / Teruaki Kosiba
原文:   [英文]   [中文]  
备注: Presented at VISAPP2025. Project page: this http URL
摘要:
最近在神经辐射场(NeRF)方面的进展显示出在3D重建和新视角合成方面的巨大潜力,特别是在室内和小规模场景中。然而,将NeRF扩展到大规模的户外环境面临着诸如瞬态物体、稀疏的摄像机和纹理以及变化的光照条件等挑战。在本文中,我们提出了一种针对户外街景的分割引导增强NeRF的方法,重点关注复杂的城市环境。我们的方法扩展了ZipNeRF,并利用Grounded SAM进行分割掩码生成,从而能够有效处理瞬态物体、建模天空以及对地面的正则化。我们还引入了外观嵌入,以适应视图序列中不一致的光照条件。实验结果表明,我们的方法优于基线ZipNeRF,在新视角合成质量上表现出更少的伪影和更清晰的细节。

[97] 全景畸变感知标记化:在俯视鱼眼图像中使用变压器进行人员检测和定位
标题: Panoramic Distortion-Aware Tokenization for Person Detection and Localization Using Transformers in Overhead Fisheye Images
作者: Nobuhiko Wakai / Satoshi Sato / Yasunori Ishii / Takayoshi Yamashita
原文:   [英文]   [中文]  
备注: None
摘要:
人体检测方法广泛应用于视觉监控、行人检测和机器人技术等领域。然而,从头顶鱼眼图像中准确检测人体仍然是一个未解决的挑战,因为存在包括人体旋转和小尺寸人体等因素。为了解决人体旋转问题,我们将鱼眼图像转换为全景图像。对于较小的人体,我们专注于全景图的几何结构。传统的检测方法往往关注较大的人体,因为这些较大的人体在特征图中产生了较大的显著区域。在等矩形全景图像中,我们发现人体的高度在图像顶部附近线性下降。利用这一发现,我们利用显著值并聚合基于这些值排序的标记,以平衡显著区域。在这一利用过程中,我们引入了全景失真感知标记化。该标记化过程使用自相似图形划分全景图像,使得能够确定无间隙的最佳划分,并且我们利用每个标记组的瓷砖中的最大显著值来保留较小人体的显著区域。为了实现更高的检测准确性,我们提出了一种结合全景图像重映射和标记化过程的人体检测和定位方法。大量实验表明,我们的方法在应用于大规模数据集时优于传统方法。

[98] 多任务学习用于识别宋元时期的瓷器
标题: Multi-task Learning for Identification of Porcelain in Song and Yuan Dynasties
作者: Ziyao Ling / Giovanni Delnevo / Paola Salomoni / Silvia Mirri
原文:   [英文]   [中文]  
备注: None
摘要:
中国瓷器具有巨大的历史和文化价值,因此其准确分类对于考古研究和文化遗产保护至关重要。传统的分类方法严重依赖于专家分析,这既耗时,又具有主观性,并且难以扩展。本文探讨了深度学习和迁移学习技术在瓷器文物分类中的应用,涉及四个关键属性:朝代、釉色、器型和类型。我们评估了四种卷积神经网络(CNN)——ResNet50、MobileNetV2、VGG16和InceptionV3,比较了它们在使用和不使用预训练权重时的性能。我们的结果表明,迁移学习显著提高了分类准确性,特别是在类型分类等复杂任务中,从头开始训练的模型表现较差。MobileNetV2和ResNet50在所有任务中始终表现出高准确性和鲁棒性,而VGG16在更为多样化的分类中表现不佳。我们进一步讨论了数据集限制的影响,并提出了未来的研究方向,包括领域特定的预训练、注意力机制的整合、可解释的人工智能方法以及对其他文化文物的泛化。

[99] CRCE:文本到图像扩散模型中的共指保留概念消除
标题: CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models
作者: Yuyang Xue / Edward Moroshko / Feng Chen / Steven McDonagh / Sotirios A. Tsaftaris
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像的扩散模型可能会生成不良内容,因此需要使用概念消除技术。然而,现有的方法在消除过程中存在不足,要么是消除不彻底,留下目标概念的残余痕迹,要么是消除过度,错误地去除了无关但视觉上相似的概念。为了解决这些问题,我们引入了CRCE,这是一种新颖的概念消除框架,它利用大型语言模型来识别需要与目标一起消除的语义相关概念以及应保留的不同概念。通过在语义上明确建模共指和保留的概念,CRCE能够更精确地移除概念,而不会导致意外的消除。实验表明,CRCE在各种消除任务中优于现有方法。

[100] 让你的训练更灵活:迈向部署高效的视频模型
标题: Make Your Training Flexible: Towards Deployment-Efficient Video Models
作者: Chenting Wang / Kunchang Li / Tianxiang Jiang / Xiangyu Zeng / Yi Wang / Limin Wang
原文:   [英文]   [中文]  
备注: None
摘要:
流行的视频训练方法主要在从预定时空网格中采样的固定数量的标记上运行,由于视频固有的冗余性,导致准确性和计算之间的权衡次优。它们也缺乏对下游任务中不同计算预算的适应性,阻碍了最具竞争力的模型在现实场景中的应用。因此,我们提出了一种新的测试设置,称为标记优化,以在预算范围内最大化输入信息,通过从更合适采样的视频中选择标记来优化大小受限的输入标记集。为此,我们提出了一种新颖的增强工具,称为Flux。通过使采样网格灵活并利用标记选择,它可以轻松地在大多数流行的视频训练框架中采用,以几乎没有额外成本地提高模型的鲁棒性。我们将Flux整合到大规模视频预训练中,结果FluxViT在标准成本下在广泛的任务中建立了新的最先进的结果。值得注意的是,仅使用1/4的标记,它仍然可以通过标记优化匹配以前最先进模型的性能,节省了近90%的成本。所有模型和数据都可以在这个HTTPS URL中获得。

[101] 日志点云的深度无监督分割
标题: Deep Unsupervised Segmentation of Log Point Clouds
作者: Fedor Zolotarev / Tuomas Eerola / Tomi Kauppi
原文:   [英文]  
备注: None
摘要:
在锯木厂中,准确测量原材料(即木材原木)对于优化锯切过程至关重要。早期研究表明,仅使用激光扫描仪生成的表面点云就可以准确预测原木的内部结构。这为基于X射线CT的测量设备提供了一种成本效益高且快速的替代方案。分析原木点云的关键步骤是分割,因为它是找到提供原木内部结构线索的精细表面细节的基础。我们提出了一种新颖的基于点变换器的点云分割技术,该技术能够以无监督的方式学习找到属于原木表面的点。这是通过使用一个利用圆柱体几何特性的损失函数实现的,同时考虑了木材原木中常见的形状变化。我们在木材原木上展示了该方法的准确性,但该方法也可以用于其他圆柱形物体。

[102] CTSR:用于真实世界图像超分辨率的可控保真度-真实感权衡蒸馏
标题: CTSR: Controllable Fidelity-Realness Trade-off Distillation for Real-World Image Super Resolution
作者: Runyi Li / Bin Chen / Jian Zhang / Radu Timofte
原文:   [英文]  
备注: None
摘要:
现实世界的图像超分辨率是一个关键的图像处理任务,其中两个关键的评估标准是对原始图像的保真度和生成结果的视觉真实性。尽管现有基于扩散模型的方法通过利用强大的先验在视觉真实性方面表现出色,但它们往往难以在保真度和真实性之间实现有效的平衡。在我们的初步实验中,我们观察到多个模型的线性组合优于单个模型,这激励我们利用不同模型的优势以实现更有效的权衡。基于这一见解,我们提出了一种基于蒸馏的方法,该方法利用保真度和真实性的几何分解,以及多个教师模型的性能优势,以实现更平衡的权衡。此外,我们探索了这种权衡的可控性,使超分辨率过程变得灵活和可调,我们称之为CTSR(可控权衡超分辨率)。在几个现实世界的图像超分辨率基准上进行的实验表明,我们的方法超越了现有的最先进方法,在保真度和真实性指标上均实现了卓越的性能。

[103] 人工标注人为地提高了基于深度学习的闭合冠层分割性能:使用TLS进行验证
标题: Manual Labelling Artificially Inflates Deep Learning-Based Segmentation Performance on Closed Canopy: Validation Using TLS
作者: Matthew J. Allen / Harry J. F. Owen / Stuart W. D. Grieve / Emily R. Lines
原文:   [英文]   [中文]  
备注: 17 pages, 3 figures
摘要:
在单个树木尺度上监测森林动态对于准确评估生态系统对气候变化的响应至关重要,然而传统依赖于实地森林清查的方法劳动强度大且空间覆盖有限。利用无人机获取的RGB影像结合深度学习模型的遥感技术进步为精确的单个树冠(ITC)分割带来了希望;然而,现有方法常常通过人工标注的图像进行验证,缺乏严格的独立地面真值。在这项研究中,我们从混合的未管理的北方针叶林和地中海森林的无人机影像中生成与地面激光扫描(TLS)数据共定位的高保真验证标签。我们评估了两个广泛使用的深度学习ITC分割模型——DeepForest(RetinaNet)和Detectree2(Mask R-CNN)——在这些数据上的表现,并与手动标注的地中海森林数据上的表现进行比较。当与地中海森林的TLS衍生地面真值进行验证时,模型性能显著下降,相较于基于生态相似地点的手动标注评估(AP50:0.094 vs. 0.670)。将评估限制在仅冠层树木上时,这一差距显著缩小(冠层AP50:0.365),尽管性能仍远低于类似的手动标注数据。模型在北方针叶林数据上的表现也很差(AP50:0.142),但在仅评估冠层树木时再次提高(冠层AP50:0.308)。即使在限制为冠层树木时,两个模型在更严格的IoU阈值下显示出非常差的定位准确性(最大AP75:0.051)。在使用航空LiDAR数据的研究中也观察到了类似的结果,这表明在封闭冠层森林中基于航空的分割方法存在根本性限制。

[104] 改进3D高斯点云的自适应密度控制
标题: Improving Adaptive Density Control for 3D Gaussian Splatting
作者: Glenn Grubert / Florian Barthel / Anna Hilsmann / Peter Eisert
原文:   [英文]   [中文]  
备注: None
摘要:
3D高斯喷溅(3DGS)已成为过去一年中最具影响力的工作之一。由于其高效且高质量的新视图合成能力,它已被广泛应用于许多研究领域和应用中。然而,3DGS在场景重建过程中仍面临着如何适当管理高斯原语数量的挑战。遵循3D高斯喷溅的自适应密度控制(ADC)机制,在重建不足的区域创建新的高斯,而对渲染质量没有贡献的高斯则被修剪。我们观察到,这些用于密集化和修剪高斯的标准有时会通过引入伪影导致更差的渲染效果。我们特别注意到背景重建不足或前景过拟合的区域。为了解决这两个问题,我们提出了对自适应密度控制机制的三项新改进。这些改进包括对场景范围计算的修正,不仅依赖于相机位置;一个指数上升的梯度阈值以改善训练收敛性;以及一个显著性感知的修剪策略以避免背景伪影。通过这些调整,我们展示了在使用相同数量的高斯原语的情况下,渲染质量得到了提高。此外,通过我们的改进,训练收敛速度显著加快,使训练时间比3DGS快两倍以上,同时质量更好。最后,我们的贡献与3DGS的大多数现有衍生作品兼容,使其在未来的工作中具有相关性。

[105] 用于风格化图像生成的免费午餐色彩-纹理解缠
标题: Free-Lunch Color-Texture Disentanglement for Stylized Image Generation
作者: Jiang Qin / Senmao Li / Alexandra Gomez-Villa / Shiqi Yang / Yaxing Wang / Kai Wang / Joost van de Weijer
原文:   [英文]   [中文]  
备注: None
摘要:
最近在文本到图像(T2I)扩散模型方面的进展已经改变了图像生成技术,使得仅使用少量风格参考图像就能在风格化生成方面取得显著进步。然而,当前基于扩散的方法在细粒度风格定制方面存在困难,因为在控制多种风格属性(如颜色和纹理)时面临挑战。本文介绍了第一个无需调优的方法,实现了风格化T2I生成中的“免费午餐”色彩-纹理解耦,解决了在解耦风格化图像生成(DisIG)问题中对独立控制风格元素的需求。我们的方法利用了CLIP图像嵌入空间中的图像-提示可加性属性,开发了从单独的颜色和纹理参考图像中分离和提取颜色-纹理嵌入(CTE)的技术。为了确保生成图像的色彩与颜色参考紧密对齐,我们应用了白化和着色变换以增强色彩一致性。此外,为了防止由于扩散训练中固有的信号泄漏偏差导致的纹理丢失,我们引入了一个噪声项,在正则化白化和着色变换(RegWCT)过程中保持纹理的保真度。通过这些方法,我们的风格属性解耦方法(SADis)为风格化图像生成提供了更精确和可定制的解决方案。在WikiArt和StyleDrop数据集上的图像实验表明,无论是定性还是定量,SADis在DisIG任务中都超越了最先进的风格化方法。

[106] 迈向真实木材原木的合成生成
标题: Towards synthetic generation of realistic wooden logs
作者: Fedor Zolotarev / Borek Reich / Tuomas Eerola / Tomi Kauppi / Pavel Zemcik
原文:   [英文]   [中文]  
备注: None
摘要:
在这项工作中,我们提出了一种新颖的方法来合成生成逼真的木材原木的三维表示。高效的锯木作业在很大程度上依赖于对原木的精确测量以及内部节疤分布的准确性。计算机断层扫描(CT)可以用于获取关于节疤的精确信息,但在锯木厂环境中通常不可行。一种有前景的替代方法是利用表面测量和机器学习技术来预测原木的内部结构。然而,获得足够的训练数据仍然是一个挑战。我们主要关注原木生成的两个方面:树木内部节疤生长的建模,以及包括节疤到达表面的区域在内的表面逼真合成。这导致了第一个能够生成木材内部节疤和外部表面结构的原木合成方法。我们证明了所提出的数学原木模型能够准确地拟合从CT扫描获得的真实数据,并能够生成逼真的原木。

[107] PC-Talk:用于音频驱动的说话人脸生成的精确面部动画控制
标题: PC-Talk: Precise Facial Animation Control for Audio-Driven Talking Face Generation
作者: Baiqin Wang / Xiangyu Zhu / Fan Shen / Hao Xu / Zhen Lei
原文:   [英文]  
备注: None
摘要:
最近在音频驱动的说话人脸生成方面取得了很大的进展,尤其是在唇部同步方面。然而,目前的方法通常在面部动画的控制上缺乏足够的灵活性,比如说话风格和情感表达,导致输出结果较为单一。在本文中,我们重点改善两个关键因素:唇音对齐和情感控制,以增强说话视频的多样性和用户友好性。唇音对齐控制关注于说话风格和唇部运动幅度等元素,而情感控制则专注于生成逼真的情感表达,允许在多个属性上进行修改,如强度。为了实现面部动画的精确控制,我们提出了一种新颖的框架,PC-Talk,通过隐式关键点变形实现唇音对齐和情感控制。首先,我们的唇音对齐控制模块促进了在单词级别上精确编辑说话风格,并调整唇部运动幅度以模拟不同的声音响度水平,同时保持与音频的唇部同步。其次,我们的情感控制模块通过纯粹的情感变形生成生动的情感面部特征。该模块还允许在不同面部区域对强度进行细致修改,并结合多种情感。我们的方法在广泛的实验中展示了卓越的控制能力,并在HDTF和MEAD数据集上实现了最先进的性能。

[108] DualToken:通过双重视觉词汇统一视觉理解与生成
标题: DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies
作者: Wei Song / Yuran Wang / Zijia Song / Yadong Li / Haoze Sun / Weipeng Chen / Zenan Zhou / Jianhua Xu / Jiaqi Wang / Kaicheng Yu
原文:   [英文]   [中文]  
备注: None
摘要:
用于视觉理解和生成的不同表示空间在大型语言模型的自回归范式中统一它们时面临挑战。一个为重建而训练的视觉分词器在捕捉低级感知细节方面表现出色,使其非常适合视觉生成,但在理解任务中缺乏高级语义表示。相反,通过对比学习训练的视觉编码器与语言很好地对齐,但在生成任务中难以解码回像素空间。为了解决这一差距,我们提出了DualToken,一种在单个分词器中统一理解和生成表示的方法。然而,直接在单个分词器中整合重建和语义目标会产生冲突,导致重建质量和语义性能的下降。与其强迫单个代码簿处理语义和感知信息,DualToken通过引入用于高低级特征的独立代码簿来解开它们,有效地将其固有冲突转化为协同关系。因此,DualToken在重建和语义任务中实现了最先进的性能,同时在下游MLLM理解和生成任务中表现出显著的效果。值得注意的是,我们还展示了DualToken作为一个统一的分词器,超越了两种不同类型视觉编码器的简单组合,在统一的MLLM中提供了卓越的性能。

[109] LeanVAE:一种用于视频扩散模型的超高效重建变分自编码器
标题: LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models
作者: Yu Cheng / Fajie Yuan
原文:   [英文]   [中文]  
备注: None
摘要:
最近在潜在视频扩散模型(LVDMs)方面的进展通过利用视频变分自编码器(Video VAEs)将复杂的视频数据压缩到紧凑的潜在空间中,彻底改变了视频生成。然而,随着LVDM训练规模的扩大,视频VAE的计算开销成为一个关键瓶颈,特别是在编码高分辨率视频时。为了解决这个问题,我们提出了LeanVAE,这是一种新颖且超高效的视频VAE框架,引入了两个关键创新:(1)基于邻域感知前馈(NAF)模块和非重叠补丁操作的轻量级架构,大幅降低了计算成本;(2)结合小波变换和压缩感知技术以提高重建质量。大量实验验证了LeanVAE在视频重建和生成方面的优越性,特别是在提高现有视频模型效率方面。该模型在保持竞争性重建质量的同时,提供了高达50倍更少的FLOPs和44倍更快的推理速度,为可扩展、高效的视频模型提供了见解。模型和代码可在此网址获取:this https URL。

[110] 进化抓取:通过高效偏好对齐进行进化抓取生成
标题: EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment
作者: Yufei Zhu / Yiming Zhong / Zemin Yang / Peishan Cong / Jingyi Yu / Xinge Zhu / Yuexin Ma
原文:   [英文]   [中文]  
备注: None
摘要:
灵巧的机器人手在复杂环境中常常难以有效泛化,因为其模型通常是在低多样性数据上训练的。然而,现实世界本质上呈现出无限的场景变化,使得考虑每一种可能的变化变得不切实际。一个自然的解决方案是让机器人在复杂环境中从经验中学习,这种方法类似于进化,通过持续的反馈,从失败和成功中学习,并迭代以达到最佳性能。受此启发,我们提出了EvolvingGrasp,一种进化的抓取生成方法,通过高效的偏好对齐不断提高抓取性能。具体来说,我们引入了手势偏好优化(HPO),使模型能够在获得正面和负面反馈的同时不断对齐偏好,并逐步优化其抓取策略。为了在在线调整过程中进一步提高效率和可靠性,我们在HPO中加入了物理感知一致性模型,加速推理,减少偏好微调所需的时间步数,并确保整个过程中的物理合理性。通过四个基准数据集的大量实验,我们的方法在抓取成功率和采样效率方面表现出色。我们的结果验证了EvolvingGrasp能够实现进化的抓取生成,确保在模拟和真实场景中实现稳健、物理可行且偏好对齐的抓取。

[111] 内窥镜中多地图单目VSLAM的三维密化
标题: 3D Densification for Multi-Map Monocular VSLAM in Endoscopy
作者: X. Anadón / Javier Rodríguez-Puigvert / J.M.M. Montiel
原文:   [英文]   [中文]  
备注: None
摘要:
多地图稀疏单目视觉同时定位与地图构建应用于单目内窥镜序列,已被证明能够有效地在内窥镜中由于运动模糊、暂时遮挡、工具交互或水流喷射导致的频繁丢失后恢复跟踪。稀疏多地图适合于稳健的相机定位,但对于环境表示却非常差,它们噪声大,重建的3D点中有很高比例不准确,包括显著的异常值,更重要的是,对于临床应用来说密度不可接受。 我们提出了一种方法来去除异常值并对稀疏内窥镜多地图CudaSIFT-SLAM的地图进行密集化。通过鲁棒的LMedS,将用于尺度深度密集预测的NN LightDepth与稀疏CudaSIFT子地图对齐。我们的系统在过滤异常值的同时缓解了单目深度估计中的固有尺度模糊性,从而生成可靠的密集化3D地图。 我们在C3VD仿真结肠数据集上提供了实验证据,显示出在可接受的计算时间内实现了4.15毫米RMS精度的准确密集地图。我们在Endomapper数据集的真实结肠镜检查中报告了定性结果。

[112] VEGGIE:通过有根据的生成进行视频概念的指导性编辑和推理
标题: VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation
作者: Shoubin Yu / Difan Liu / Ziqiao Ma / Yicong Hong / Yang Zhou / Hao Tan / Joyce Chai / Mohit Bansal
原文:   [英文]   [中文]  
备注: First three authors contributed equally. Project page: this https URL
摘要:
最近的视频扩散模型增强了视频编辑功能,但在一个统一的框架内处理指令性编辑和多样化任务(例如,添加、删除、修改)仍然具有挑战性。在本文中,我们介绍了VEGGIE,一种基于指令的有基础生成的视频编辑器,这是一个简单的端到端框架,统一了视频概念编辑、基础定位和基于多样化用户指令的推理。具体来说,给定一个视频和文本查询,VEGGIE首先利用多模态大语言模型(MLLM)来解释用户在指令中的意图,并将其定位到视频上下文中,生成针对像素空间响应的帧特定基础任务查询。然后,扩散模型渲染这些计划并生成与用户意图一致的编辑视频。为了支持多样化任务和复杂指令,我们采用了一种课程学习策略:首先将MLLM和视频扩散模型与大规模指令性图像编辑数据对齐,然后在高质量多任务视频数据上进行端到端微调。此外,我们引入了一种新颖的数据合成管道,以生成用于模型训练的配对指令性视频编辑数据。它通过利用图像到视频模型注入动态性,将静态图像数据转化为多样化、高质量的视频编辑样本。VEGGIE在不同编辑技能的指令性视频编辑中表现出色,作为一个多功能模型,超越了最佳的指令性基线,而其他模型在多任务处理上表现不佳。VEGGIE在视频对象定位和推理分割方面也表现出色,而其他基线则未能成功。我们进一步揭示了多任务如何相互帮助,并强调了零样本多模态指令性和上下文视频编辑等有前景的应用。

[113] MAST-Pro:动态专家混合用于泛肿瘤的自适应分割与知识驱动提示
标题: MAST-Pro: Dynamic Mixture-of-Experts for Adaptive Segmentation of Pan-Tumors with Knowledge-Driven Prompts
作者: Runqi Meng / Sifan Song / Pengfei Jin / Yujin Oh / Lin Teng / Yulin Wang / Yiqun Sun / Ling Chen / Xiang Li / Quanzheng Li / Ning Guo / Dinggang Shen
原文:   [英文]   [中文]  
备注: 10 pages, 2 figures
摘要:
准确的肿瘤分割对于癌症的诊断和治疗至关重要。尽管基础模型在通用分割方面取得了进展,但现有方法仍面临以下挑战:(1) 医学先验知识的有限整合,(2) 通用特征与肿瘤特异性特征之间的不平衡,以及 (3) 临床适应的高计算成本。为了解决这些问题,我们提出了 MAST-Pro(基于知识驱动提示的全肿瘤自适应分割专家混合模型),这是一种新颖的框架,结合了动态专家混合(D-MoE)和知识驱动提示用于全肿瘤分割。具体而言,文本和解剖提示提供领域特定的先验知识,引导肿瘤表示学习,而 D-MoE 动态选择专家以平衡通用和肿瘤特异性特征学习,从而提高不同肿瘤类型的分割准确性。为了提高效率,我们采用参数高效微调(PEFT),在显著降低计算开销的情况下优化 MAST-Pro。多解剖肿瘤数据集上的实验表明,MAST-Pro 优于最先进的方法,在平均 DSC 上提高了最多 5.20%,同时将可训练参数减少了 91.04%,而不影响准确性。

[114] RFMI:在校正流上估计文本到图像对齐的互信息
标题: RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment
作者: Chao Wang / Giulio Franzese / Alessandro Finamore / Pietro Michiardi
原文:   [英文]   [中文]  
备注: to appear at ICLR 2025 Workshop on Deep Generative Model in Machine Learning: Theory, Principle and Efficacy
摘要:
经过流匹配框架训练的校正流(RF)模型在文本到图像(T2I)条件生成方面达到了最先进的性能。然而,多个基准测试显示,合成图像仍然可能与提示不够对齐,例如图像中出现错误的属性绑定、主体定位、数字感知等问题。尽管文献中提供了许多方法来改善T2I对齐,但它们都仅考虑扩散模型,并需要辅助数据集、评分模型以及对提示的语言分析。在本文中,我们旨在解决这些问题。首先,我们引入了RFMI,这是一种用于RF模型的新型互信息(MI)估计器,它使用预训练模型本身进行MI估计。然后,我们研究了一种基于RFMI的自监督微调方法,用于T2I对齐,该方法除了预训练模型本身外不需要辅助信息。具体来说,通过选择从预训练RF模型生成的合成图像并且图像与提示之间具有高逐点MI的图像,构建了一个微调集。我们在MI估计基准测试上的实验验证了RFMI的有效性,并且在SD3.5-Medium上的实证微调证实了RFMI在提高T2I对齐的同时保持图像质量的有效性。

[115] ImViD:增强虚拟现实参与的沉浸式体积视频
标题: ImViD: Immersive Volumetric Videos for Enhanced VR Engagement
作者: Zhengxian Yang / Shi Pan / Shengqi Wang / Haoxiang Wang / Li Lin / Guanjun Li / Zhengqi Wen / Borong Lin / Jianhua Tao / Tao Yu
原文:   [英文]  
备注: Accepted by CVPR 2025
摘要:
用户参与度在结合视觉和听觉刺激的完全沉浸式多模态体验中得到了极大的提升。因此,VR/AR技术的下一个前沿在于具有完整场景捕捉、大6自由度交互空间、多模态反馈以及高分辨率和高帧率内容的沉浸式体积视频。为了促进沉浸式体积视频的重建,我们引入了ImViD,一个多视角、多模态数据集,具有完整的空间导向数据捕捉和各种室内/室外场景。我们的捕捉设备支持在移动中进行多视角视频音频捕捉,这一功能在现有数据集中是缺失的,显著增强了数据捕捉的完整性、灵活性和效率。 捕捉到的多视角视频(带同步音频)为5K分辨率,60FPS,持续时间为1-5分钟,包含丰富的前景背景元素和复杂动态。我们使用我们的数据集对现有方法进行基准测试,并建立了一个从多视角视听输入构建沉浸式体积视频的基础管道,以实现6自由度多模态沉浸式VR体验。基准测试以及重建和交互结果展示了我们数据集和基线方法的有效性,我们相信这将激发未来关于沉浸式体积视频制作的研究。

[116] 不可能的视频
标题: Impossible Videos
作者: Zechen Bai / Hai Ci / Mike Zheng Shou
原文:   [英文]   [中文]  
备注: 26 pages
摘要:
近年来,合成视频被广泛用于弥补真实世界视频数据的稀缺性和多样性。目前的合成数据集主要复制真实世界的场景,对不可能、反事实和反现实的视频概念探索不足。本文旨在回答两个问题:1)当今的视频生成模型能否有效地遵循提示来创建不可能的视频内容?2)当今的视频理解模型是否足够优秀以理解不可能的视频?为此,我们引入了IPV-Bench,这是一个旨在评估和促进视频理解和生成进步的新基准。IPV-Bench以一个全面的分类体系为基础,涵盖4个领域、14个类别。它展示了违背物理、生物、地理或社会规律的多样化场景。基于该分类体系,我们构建了一套提示,用于评估视频生成模型,挑战其遵循提示和创造力的能力。此外,我们还策划了一个视频基准,用于评估视频大语言模型(Video-LLMs)对不可能视频的理解能力,这特别需要对时间动态和世界知识进行推理。全面的评估揭示了视频模型的局限性和未来发展的见解,为下一代视频模型铺平了道路。

[117] 基于扩散的面部美学增强与3D结构指导
标题: Diffusion-based Facial Aesthetics Enhancement with 3D Structure Guidance
作者: Lisha Li / Jingwen Hou / Weide Liu / Yuming Fang / Jiebin Yan
原文:   [英文]   [中文]  
备注: None
摘要:
面部美学增强(FAE)旨在通过调整面部图像的结构和外观来提高面部吸引力,同时尽可能保留其身份特征。大多数现有方法采用基于深度特征或评分的指导来进行生成模型的FAE。尽管这些方法取得了可喜的结果,但它们可能会产生过度美化的结果,导致身份一致性较低或面部吸引力改善不足。为了在减少身份损失的情况下增强面部美学,我们提出了一种基于扩散的最近邻结构指导(NNSG-Diffusion),这是一种通过3D结构指导美化2D面部图像的扩散式FAE方法。具体来说,我们建议从最近邻参考面部提取FAE指导。为了在FAE过程中尽量减少面部结构的变化,通过参考匹配的2D参考面部和2D输入面部来恢复3D面部模型,以便从3D面部模型中提取深度和轮廓指导。然后,深度和轮廓线索可以为使用ControlNet的稳定扩散提供有效的FAE指导。大量实验表明,我们的方法在增强面部美学的同时保留面部身份方面优于以前的相关方法。

[118] DUNE:从异构的二维和三维教师中提炼通用编码器
标题: DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers
作者: Mert Bulent Sariyildiz / Philippe Weinzaepfel / Thomas Lucas / Pau de Jorge / Diane Larlus / Yannis Kalantidis
原文:   [英文]  
备注: Accepted to CVPR-2025. Project page: this https URL
摘要:
最近的多教师蒸馏方法将多个基础模型的编码器统一为一个单一编码器,在分类、分割和深度估计等核心视觉任务上取得了竞争性的表现。这使我们产生了一个疑问:当教师池中也包括专注于多样化任务的视觉模型,涵盖2D和3D感知时,是否可以取得类似的成功?在本文中,我们定义并研究了异构教师蒸馏或共蒸馏的问题,这是一种具有挑战性的多教师蒸馏场景,其中教师模型在设计目标和训练数据上存在显著差异。我们探索了数据共享策略和教师特定编码,并介绍了DUNE,一个在2D视觉、3D理解和3D人类感知方面表现卓越的单一编码器。我们的模型在各自任务上实现了与其较大教师相当的性能,有时甚至超越了它们。值得注意的是,DUNE在无地图视觉重定位任务中以更小的编码器超越了MASt3R。

[119] ExDDV:用于视频中可解释深度伪造检测的新数据集
标题: ExDDV: A New Dataset for Explainable Deepfake Detection in Video
作者: Vlad Hondru / Eduard Hogea / Darian Onchis / Radu Tudor Ionescu
原文:   [英文]   [中文]  
备注: None
摘要:
生成视频的真实性和质量不断提高,使得人们越来越难以识别深度伪造内容,因此需要越来越依赖自动化的深度伪造检测器。然而,深度伪造检测器也容易出错,并且其决策不可解释,使得人们容易受到基于深度伪造的欺诈和错误信息的影响。为此,我们引入了ExDDV,这是首个用于视频中可解释深度伪造检测的数据集和基准。ExDDV包含约5.4K真实和深度伪造视频,这些视频经过人工标注,附有文本描述(用于解释伪造痕迹)和点击(用于指出伪造痕迹)。我们在ExDDV上评估了许多视觉-语言模型,进行了各种微调和上下文学习策略的实验。我们的结果表明,文本和点击监督都是开发稳健的可解释深度伪造视频模型所必需的,这些模型能够定位并描述观察到的伪造痕迹。我们的新数据集和用于重现结果的代码可在此https URL获取。

[120] MagicComp:无训练的双阶段细化用于组合视频生成
标题: MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
作者: Hongyu Zhang / Yufan Deng / Shenghai Yuan / Peng Jin / Zesen Cheng / Yian Zhao / Chang Liu / Jie Chen
原文:   [英文]   [中文]  
备注: Project webpage: this https URL
摘要:
文本到视频(T2V)生成在扩散模型方面取得了显著进展。然而,现有方法在准确绑定属性、确定空间关系以及捕捉多个主体之间复杂动作交互方面仍然存在困难。为了解决这些限制,我们提出了MagicComp,这是一种通过双阶段优化增强组合式T2V生成的无训练方法。具体来说,(1)在条件阶段:我们引入了语义锚点消歧,通过逐步将语义锚点的方向向量注入原始文本嵌入,强化主体特定语义并解决主体间的歧义;(2)在去噪阶段:我们提出了动态布局融合注意力,通过掩码注意力调制,将基础先验和模型自适应空间感知整合,以灵活地将主体绑定到其时空区域。此外,MagicComp是一种与模型无关且多功能的方法,可以无缝集成到现有的T2V架构中。在T2V-CompBench和VBench上的大量实验表明,MagicComp优于最先进的方法,突显了其在复杂提示驱动和轨迹可控视频生成等应用中的潜力。项目页面:这个https URL。

[121] 联合图像-实例时空注意力用于小样本动作识别
标题: Joint Image-Instance Spatial-Temporal Attention for Few-shot Action Recognition
作者: Zefeng Qian / Chongyang Zhang / Yifei Huang / Gang Wang / Jiangyong Ying
原文:   [英文]   [中文]  
备注: Accepted by Computer Vision and Image Understanding
摘要:
小样本动作识别(FSAR)是计算机视觉中的一个重要挑战,涉及从有限的样本集中识别动作。最近的方法主要集中在使用图像级特征来构建时间依赖性,并为每个动作类别生成原型。然而,许多这些方法主要利用图像级特征,这些特征包含背景噪声,并且对真实前景(与动作相关的实例)的关注不足,从而削弱了识别能力,特别是在小样本场景中。为了解决这个问题,我们提出了一种新颖的联合图像-实例级时空注意力方法(I2ST)用于小样本动作识别。I2ST的核心概念是感知与动作相关的实例,并通过时空注意力将其与图像特征整合。具体来说,I2ST由两个关键组件组成:与动作相关的实例感知和联合图像-实例时空注意力。基于特征提取器的基本表示,引入与动作相关的实例感知,在文本引导的分割模型的指导下感知与动作相关的实例。随后,使用联合图像-实例时空注意力来构建实例与图像之间的特征依赖性...

[122] Bolt3D:秒级生成3D场景
标题: Bolt3D: Generating 3D Scenes in Seconds
作者: Stanislaw Szymanowicz / Jason Y. Zhang / Pratul Srinivasan / Ruiqi Gao / Arthur Brussee / Aleksander Holynski / Ricardo Martin-Brualla / Jonathan T. Barron / Philipp Henzler
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
我们提出了一种用于快速前馈3D场景生成的潜在扩散模型。给定一张或多张图像,我们的模型Bolt3D可以在单个GPU上在不到七秒的时间内直接生成一个3D场景表示。我们通过利用强大且可扩展的现有2D扩散网络架构来实现这一点,以生成一致的高保真3D场景表示。为了训练这个模型,我们通过对现有的多视图图像数据集应用最先进的密集3D重建技术,创建了一个大规模的多视图一致的3D几何和外观数据集。与需要对每个场景进行3D重建优化的先前多视图生成模型相比,Bolt3D将推理成本降低了多达300倍。

[123] SIR-DIFF:使用多视图扩散模型的稀疏图像集修复
标题: SIR-DIFF: Sparse Image Sets Restoration with Multi-View Diffusion Model
作者: Yucheng Mao / Boyang Wang / Nilesh Kulkarni / Jeong Joon Park
原文:   [英文]   [中文]  
备注: None
摘要:
计算机视觉领域已经开发了许多技术,用于从单视图退化照片中数字化恢复真实场景信息,这是一项重要但极度不适定的任务。在这项工作中,我们从不同的角度解决图像恢复问题,通过联合去噪同一场景的多张照片。我们的核心假设是,捕捉共享场景的退化图像包含互补信息,当结合起来时,可以更好地约束恢复问题。为此,我们实现了一个强大的多视图扩散模型,通过提取多视图关系中的丰富信息来联合生成未损坏的视图。我们的实验表明,我们的多视图方法在图像去模糊和超分辨率任务上优于现有的单视图图像甚至基于视频的方法。关键的是,我们的模型经过训练可以输出3D一致的图像,使其成为需要稳健多视图集成的应用(如3D重建或姿态估计)的一个有前途的工具。

[124] Creation-MMBench:评估多模态大语言模型中的情境感知创造性智能
标题: Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM
作者: Xinyu Fang / Zhijian Chen / Kai Lan / Shengyuan Ding / Yingji Liang / Xiangyu Zhao / Farong Wen / Zicheng Zhang / Guofeng Zhang / Haodong Duan / Kai Chen / Dahua Lin
原文:   [英文]   [中文]  
备注: Evaluation Code and dataset see this https URL
摘要:
创造力是智力的一个基本方面,涉及在不同背景下生成新颖且适当解决方案的能力。虽然大型语言模型(LLMs)已经被广泛评估其创造能力,但在这一领域对多模态大型语言模型(MLLMs)的评估仍然基本未被探索。为了解决这一差距,我们引入了Creation-MMBench,这是一个专门设计用于评估MLLMs在真实世界、基于图像任务中的创造能力的多模态基准。该基准包括765个测试案例,涵盖51个细粒度任务。为了确保严格的评估,我们为每个测试案例定义了实例特定的评估标准,指导对一般响应质量和与视觉输入的事实一致性的评估。实验结果表明,当前开源的MLLMs在创造性任务中明显表现不如专有模型。此外,我们的分析表明,视觉微调可能会对基础LLM的创造能力产生负面影响。Creation-MMBench为推进MLLM创造力提供了宝贵的见解,并为未来在多模态生成智能方面的改进奠定了基础。完整的数据和评估代码已在此https URL上发布。

[125] ICE-Bench:一个统一且全面的图像创建与编辑基准
标题: ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing
作者: Yulin Pan / Xiangteng He / Chaojie Mao / Zhen Han / Zeyinzi Jiang / Jingfeng Zhang / Yu Liu
原文:   [英文]   [中文]  
备注: 17 pages
摘要:
图像生成在过去几年中取得了显著的进展。然而,评估图像生成模型的性能仍然是一项艰巨的挑战。在本文中,我们提出了ICE-Bench,这是一个统一且全面的基准,旨在严格评估图像生成模型。其全面性可以总结为以下几个关键特征:(1) 从粗到细的任务:我们系统地将图像生成分解为四个任务类别:无参考/有参考的图像创建/编辑,基于源图像和参考图像的有无。并进一步将其分解为31个细粒度任务,涵盖广泛的图像生成需求,最终形成一个全面的基准。(2) 多维度指标:评估框架从6个维度评估图像生成能力:美学质量、成像质量、提示跟随、源一致性、参考一致性和可控性。引入了11个指标来支持多维度评估。值得注意的是,我们引入了VLLM-QA,这是一种创新的指标,旨在通过利用大型模型评估图像编辑的成功。(3) 混合数据:数据来自真实场景和虚拟生成,有效提高了数据多样性并缓解了模型评估中的偏差问题。通过ICE-Bench,我们对现有生成模型进行了深入分析,揭示了我们基准的挑战性以及当前模型能力与现实世界生成需求之间的差距。为了促进该领域的进一步发展,我们将开源ICE-Bench,包括其数据集、评估代码和模型,从而为研究界提供宝贵的资源。

[126] 通过结构从运动引导的单目深度估计进行多视图重建
标题: Multi-view Reconstruction via SfM-guided Monocular Depth Estimation
作者: Haoyu Guo / He Zhu / Sida Peng / Haotong Lin / Yunzhi Yan / Tao Xie / Wenguan Wang / Xiaowei Zhou / Hujun Bao
原文:   [英文]  
备注: CVPR 2025. Project page: this https URL
摘要:
在本文中,我们提出了一种新的多视图几何重建方法。近年来,大型视觉模型迅速发展,在各种任务中表现出色,并展示了显著的泛化能力。一些工作利用大型视觉模型进行单目深度估计,这些模型已被间接应用于促进多视图重建任务。由于单目深度估计任务的模糊性,估计的深度值通常不够准确,限制了它们在辅助多视图重建中的效用。我们建议将SfM信息(一种强大的多视图先验)整合到深度估计过程中,从而提高深度预测的质量,并使其能够直接应用于多视图几何重建。公共真实世界数据集上的实验结果表明,与之前的单目深度估计工作相比,我们的方法显著提高了深度估计的质量。此外,我们在各种场景类型中评估了我们方法的重建质量,包括室内、街景和航拍视图,超越了最先进的MVS方法。代码和补充材料可在此https URL获取。

[127] DiffMoE:用于可扩展扩散变换器的动态标记选择
标题: DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers
作者: Minglei Shi / Ziyang Yuan / Haotian Yang / Xintao Wang / Mingwu Zheng / Xin Tao / Wenliang Zhao / Wenzhao Zheng / Jie Zhou / Jiwen Lu / Pengfei Wan / Di Zhang / Kun Gai
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
扩散模型在各种图像生成任务中表现出显著的成功,但其性能通常受到在不同条件和噪声水平下对输入进行统一处理的限制。为了解决这一限制,我们提出了一种新颖的方法,该方法利用扩散过程的固有异质性。我们的方法,DiffMoE,引入了一个批级别的全局令牌池,使专家能够在训练期间访问全局令牌分布,促进专门化的专家行为。为了释放扩散过程的全部潜力,DiffMoE结合了一个容量预测器,该预测器根据噪声水平和样本复杂性动态分配计算资源。通过全面评估,DiffMoE在ImageNet基准测试中实现了扩散模型的最新性能,显著超越了具有3倍激活参数的密集架构和现有的MoE方法,同时保持1倍激活参数。我们的方法的有效性不仅限于类条件生成,还扩展到更具挑战性的任务,如文本到图像生成,展示了其在不同扩散模型应用中的广泛适用性。项目页面:这个https URL

[128] 稳定虚拟相机:使用扩散模型进行生成视图合成
标题: Stable Virtual Camera: Generative View Synthesis with Diffusion Models
作者: Jensen / Zhou / Hang Gao / Vikram Voleti / Aaryaman Vasishta / Chun-Han Yao / Mark Boss / Philip Torr / Christian Rupprecht / Varun Jampani
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了稳定虚拟相机(Seva),这是一种通用的扩散模型,可以在给定任意数量的输入视图和目标相机的情况下创建场景的新视图。现有的工作在生成大视角变化或时间上平滑的样本时存在困难,并且依赖于特定的任务配置。我们的方法通过简单的模型设计、优化的训练方案和灵活的采样策略克服了这些限制,这些策略在测试时可以跨视图合成任务进行泛化。因此,我们的样本保持了高度的一致性,而无需额外的基于3D表示的蒸馏,从而简化了自然环境中的视图合成。此外,我们展示了我们的方法可以生成高质量的视频,持续时间长达半分钟,并实现无缝的循环闭合。广泛的基准测试表明,Seva在不同的数据集和设置中均优于现有的方法。

[129] Cosmos-Transfer1:具有自适应多模态控制的条件世界生成
标题: Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control
作者: NVIDIA / Hassan Abu Alhaija / Jose Alvarez / Maciej Bala / Tiffany Cai / Tianshi Cao / Liz Cha / Joshua Chen / Mike Chen / Francesco Ferroni / Sanja Fidler / Dieter Fox / Yunhao Ge / Jinwei Gu / Ali Hassani / Michael Isaev / Pooya Jannaty / Shiyi Lan / Tobias Lasser / Huan Ling / Ming-Yu Liu / Xian Liu / Yifan Lu / Alice Luo / Qianli Ma / Hanzi Mao / Fabio Ramos / Xuanchi Ren / Tianchang Shen / Shitao Tang / Ting-Chun Wang / Jay Wu / Jiashu Xu / Stella Xu / Kevin Xie / Yuchong Ye / Xiaodong Yang / Xiaohui Zeng / Yu Zeng
原文:   [英文]  
备注: None
摘要:
我们介绍了Cosmos-Transfer,这是一种条件世界生成模型,可以根据多种空间控制输入生成世界模拟,这些输入包括分割、深度和边缘等不同模态。在设计中,空间条件方案是自适应和可定制的。它允许在不同的空间位置对不同的条件输入进行不同的加权。这使得世界生成具有高度的可控性,并在各种世界到世界的转移应用中找到用途,包括Sim2Real。我们进行了广泛的评估来分析所提出的模型,并展示了其在物理人工智能中的应用,包括机器人Sim2Real和自动驾驶车辆数据丰富。我们进一步展示了一种推理扩展策略,以实现使用NVIDIA GB200 NVL72机架的实时世界生成。为了加速该领域的研究发展,我们在这个https URL上开源了我们的模型和代码。

[130] 状态空间模型遇上Transformer:一种用于3D目标检测的新范式
标题: State Space Model Meets Transformer: A New Paradigm for 3D Object Detection
作者: Chuxin Wang / Wenfei Yang / Xiang Liu / Tianzhu Zhang
原文:   [英文]   [中文]  
备注: Accepted by ICLR 2025
摘要:
基于DETR的方法使用多层Transformer解码器迭代地优化对象查询,在3D室内物体检测中表现出良好的性能。然而,Transformer解码器中的场景点特征保持不变,导致后期解码器层的贡献较小,从而限制了性能的提升。最近,状态空间模型(SSM)通过系统状态和输入之间的迭代交互,以线性复杂度展示了高效的上下文建模能力。受到SSM的启发,我们提出了一种新的3D物体检测范式,结合交互式状态空间模型(DEST)。在交互式SSM中,我们设计了一种新颖的状态依赖SSM参数化方法,使系统状态能够有效地作为3D室内检测任务中的查询。此外,我们引入了四个针对点云和SSM特性量身定制的关键设计:序列化和双向扫描策略使得场景点在SSM中能够进行双向特征交互。状态间注意机制建模状态点之间的关系,而门控前馈网络增强了通道间的相关性。据我们所知,这是第一个将查询建模为系统状态并将场景点建模为系统输入的方法,可以以线性复杂度同时更新场景点特征和查询特征。在两个具有挑战性的数据集上的大量实验验证了我们基于DEST的方法的有效性。我们的方法在ScanNet V2和SUN RGB-D数据集上分别在AP50指标上提升了GroupFree基线(+5.3和+3.2)。基于VDETR基线,我们的方法在ScanNetV2和SUN RGB-D数据集上设定了新的SOTA。

[131] 深度监督的基于流的生成模型
标题: Deeply Supervised Flow-Based Generative Models
作者: Inkyu Shin / Chenglin Yang / Liang-Chieh Chen
原文:   [英文]   [中文]  
备注: Project website at this https URL
摘要:
基于流的生成模型通过遵循一个简单的原则:学习线性插值的速度表示,在多个视觉生成任务中取得了令人印象深刻的进展。然而,我们观察到,仅从最终层输出训练速度未充分利用丰富的层间表示,可能阻碍模型收敛。为了解决这一限制,我们引入了DeepFlow,一个通过层间通信增强速度表示的新框架。DeepFlow将变压器层划分为平衡的分支,并进行深度监督,在相邻分支之间插入一个轻量级的速度精炼与加速(VeRA)模块,以对齐变压器块内的中间速度特征。通过内部速度对齐实现的改进深度监督,DeepFlow在ImageNet上以相同性能收敛速度提高8倍,并在没有分类器自由指导的情况下,将训练时间减半,同时将FID降低2.6。DeepFlow在文本到图像生成任务中也优于基线,这在MSCOCO和零样本GenEval的评估中得到了证明。

[132] 跟踪与大型多模态模型相结合以理解驾驶场景
标题: Tracking Meets Large Multimodal Models for Driving Scenario Understanding
作者: Ayesha Ishaq / Jean Lahoud / Fahad Shahbaz Khan / Salman Khan / Hisham Cholakkal / Rao Muhammad Anwer
原文:   [英文]   [中文]  
备注: 13 pages, 8 figures, Github: this https URL
摘要:
大型多模态模型(LMMs)最近在自动驾驶研究中获得了显著关注,在各种新兴基准测试中展示了有前途的能力。专门为该领域设计的LMMs展示了有效的感知、规划和预测技能。然而,许多这些方法对3D空间和时间元素的利用不足,主要依赖于图像数据。因此,它们在动态驾驶环境中的有效性受到限制。我们建议整合跟踪信息作为额外输入,以恢复图像中未能有效捕捉的3D空间和时间细节。我们引入了一种新的方法,将这些跟踪信息嵌入到LMMs中,以增强其对驾驶场景的时空理解。通过轨迹编码器整合3D跟踪数据,我们丰富了视觉查询,提供了关键的空间和时间线索,同时避免了处理冗长视频序列或大量3D输入所带来的计算开销。此外,我们采用自监督方法预训练跟踪编码器,为LMMs提供额外的上下文信息,显著提高其在自动驾驶的感知、规划和预测任务中的表现。实验结果证明了我们方法的有效性,在DriveLM-nuScenes基准测试中,准确率提高了9.5%,ChatGPT评分增加了7.04点,总体评分比基线模型提高了9.4%,在DriveLM-CARLA上最终评分提高了3.7%。我们的代码可在此https URL获取。

[133] 利用邻居信息进行不同监督级别的图像分类
标题: Utilization of Neighbor Information for Image Classification with Different Levels of Supervision
作者: Gihan Jayatilaka / Abhinav Shrivastava / Matthew Gwilliam
原文:   [英文]  
备注: 18 pages, 16 figures, 7 tables
摘要:
我们提出了一种灵活的方法来弥合半监督和无监督图像识别之间的差距,该方法在广义类别发现(GCD)和图像聚类方面表现良好。尽管这些任务在动机上有重叠,但方法本身仅限于单一任务——GCD方法依赖于数据的标记部分,而深度图像聚类方法没有内置的方式来有效利用标签。我们通过一种创新的方法连接这两种模式,该方法在无监督(聚类)和半监督(GCD)设置中利用邻居信息进行分类(UNIC)。最先进的聚类方法已经严重依赖最近邻。我们通过两个部分显著改进了他们的结果,首先是通过采样和清理策略识别准确的正邻居和负邻居,其次是通过采样两种类型的邻居计算聚类损失来微调骨干网络。然后,我们通过利用标记图像作为真实邻居来将此流程适应于GCD。我们的方法在聚类(+3% ImageNet-100,ImageNet-200)和GCD(+0.8% ImageNet-100,+5% CUB,+2% SCars,+4% Aircraft)方面均取得了最先进的结果。

[134] 4D生成的进展:一项综述
标题: Advances in 4D Generation: A Survey
作者: Qiaowei Miao / Kehan Li / Jinsheng Quan / Zhiyuan Min / Shaojie Ma / Yichao Xu / Yi Yang / Yawei Luo
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,生成式人工智能在多个领域取得了显著进展。在2D和3D内容生成的成功基础上,4D生成(将时间维度纳入生成任务)已成为一个新兴且快速发展的研究领域。本文对这一新兴领域进行了全面综述,系统地考察了其理论基础、关键方法和实际应用,旨在为读者提供对4D生成当前状态和未来潜力的整体理解。我们首先介绍了4D数据表示的核心概念,包括结构化和非结构化格式及其对生成任务的影响。在此基础上,我们深入探讨了推动4D生成的关键技术,包括时空建模、神经表示和生成框架的进展。我们进一步回顾了最近采用多样化控制机制和表示策略生成4D输出的研究,分类这些方法并总结其研究轨迹。此外,我们探讨了4D生成技术的广泛应用,包括动态对象建模、场景生成、数字人合成、4D内容编辑和自动驾驶。最后,我们分析了4D生成固有的关键挑战,如数据可用性、计算效率和时空一致性,并提出了未来研究的有前景方向。我们的代码可在以下网址公开获取:\href{this https URL}{this https URL}。

[135] 上下文的力量:多模态如何提升图像超分辨率
标题: The Power of Context: How Multimodality Improves Image Super-Resolution
作者: Kangfu Mei / Hossein Talebi / Mojtaba Ardakani / Vishal M. Patel / Peyman Milanfar / Mauricio Delbracio
原文:   [英文]   [中文]  
备注: accepted by CVPR2025
摘要:
单图像超分辨率(SISR)仍然具有挑战性,因为从低分辨率输入中恢复细致的细节并保持感知质量本质上是困难的。现有的方法通常依赖于有限的图像先验,导致结果不理想。我们提出了一种新颖的方法,该方法利用多种模态中可用的丰富上下文信息——包括深度、分割、边缘和文本提示——在扩散模型框架内学习一个强大的生成先验用于SISR。我们引入了一种灵活的网络架构,可以有效融合多模态信息,适应任意数量的输入模态,而无需对扩散过程进行重大修改。重要的是,我们通过使用其他模态的空间信息来指导区域性文本条件,减轻了通常由文本提示引入的幻觉。每种模态的指导强度也可以独立控制,从而可以将输出引导向不同的方向,例如通过深度增加散景或通过分割调整对象的显著性。大量实验表明,我们的模型超越了最先进的生成SISR方法,实现了卓越的视觉质量和保真度。请访问项目页面,网址为此https URL。

[136] 多模态大语言模型与人类偏好对齐:综述
标题: Aligning Multimodal LLM with Human Preference: A Survey
作者: Tao Yu / Yi-Fan Zhang† / Chaoyou Fu / Junkang Wu / Jinda Lu / Kun Wang / Xingyu Lu / Yunhang Shen / Guibin Zhang / Dingjie Song / Yibo Yan / Tianlong Xu / Qingsong Wen / Zhang Zhang / Yan Huang / Liang Wang / Tieniu Tan
原文:   [英文]   [中文]  
备注: this https URL
摘要:
大型语言模型(LLMs)可以通过简单的提示处理各种一般任务,而无需针对特定任务进行训练。基于LLMs构建的多模态大型语言模型(MLLMs)在处理涉及视觉、听觉和文本数据的复杂任务方面展示了令人印象深刻的潜力。然而,与真实性、安全性、类推理以及与人类偏好的一致性相关的关键问题仍未得到充分解决。这一差距促使各种对齐算法的出现,每种算法针对不同的应用场景和优化目标。最近的研究表明,对齐算法是解决上述挑战的强大方法。在本文中,我们旨在对MLLMs的对齐算法进行全面和系统的综述。具体来说,我们探讨了四个关键方面:(1)对齐算法涵盖的应用场景,包括一般图像理解、多图像、视频和音频,以及扩展的多模态应用;(2)构建对齐数据集的核心因素,包括数据来源、模型响应和偏好标注;(3)用于评估对齐算法的基准;以及(4)对对齐算法发展潜在未来方向的讨论。此项工作旨在帮助研究人员整理该领域的当前进展,并激发更好的对齐方法。本文的项目页面可在此https URL访问。

[137] MusicInfuser:让视频扩散聆听并舞动
标题: MusicInfuser: Making Video Diffusion Listen and Dance
作者: Susung Hong / Ira Kemelmacher-Shlizerman / Brian Curless / Steven M. Seitz
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
我们介绍了MusicInfuser,这是一种生成高质量舞蹈视频的方法,这些视频与指定的音乐曲目同步。我们并没有尝试设计和训练新的多模态音视频模型,而是展示了如何通过引入轻量级的音乐视频交叉注意力和低秩适配器来调整现有的视频扩散模型以与音乐输入对齐。与之前需要动作捕捉数据的工作不同,我们的方法仅在舞蹈视频上进行微调。MusicInfuser在实现高质量的音乐驱动视频生成的同时,保留了底层模型的灵活性和生成能力。我们引入了一个使用Video-LLMs的评估框架来评估舞蹈生成质量的多个维度。项目页面和代码可以在这个HTTPS URL上找到。