scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年3月18日更新论文276
[1] 通过高斯喷溅进行工业级传感器模拟:一个用于可扩展编辑和全栈验证的模块化框架
标题: Industrial-Grade Sensor Simulation via Gaussian Splatting: A Modular Framework for Scalable Editing and Full-Stack Validation
作者: Xianming Zeng / Sicong Du / Qifeng Chen / Lizhe Liu / Haoyu Shu / Jiaxuan Gao / Jiarun Liu / Jiulong Xu / Jianyun Xu / Mingxia Chen / Yiru Zhao / Peng Chen / Yapeng Xue / Chunming Zhao / Sheng Yang / Qiang Li
原文:   [英文]   [中文]  
备注: None
摘要:
传感器模拟对于自动驾驶系统的可扩展验证至关重要,但现有基于神经辐射场(NeRF)的方法在工业工作流程中面临适用性和效率的挑战。本文介绍了一种基于高斯喷溅(GS)的系统来解决这些挑战:我们首先分解传感器模拟器组件,并分析GS相对于NeRF的可能优势。然后在实践中,我们通过GS重构三个关键组件,以利用其显式场景表示和实时渲染:(1)选择二维神经高斯表示进行符合物理的场景和传感器建模,(2)提出一个场景编辑管道以利用高斯原语库进行数据增强,以及(3)结合一个可控扩散模型进行场景扩展和协调。我们在一个支持摄像头和LiDAR传感器的专有自动驾驶数据集上实现了这个框架。通过消融研究,我们证明了我们的方法减少了逐帧模拟延迟,实现了更好的几何和光度一致性,并能够进行可解释的显式场景编辑和扩展。此外,我们展示了如何将这种基于GS的传感器模拟器与交通和动态模拟器集成,以实现端到端自主算法的全栈测试。我们的工作提供了算法洞察和实际验证,确立了GS作为工业级传感器模拟的基石。

[2] 通过不安全权重操控实现安全的视觉-语言模型
标题: Safe Vision-Language Models via Unsafe Weights Manipulation
作者: Moreno D'Incà / Elia Peruzzo / Xingqian Xu / Humphrey Shi / Nicu Sebe / Massimiliano Mancini
原文:   [英文]   [中文]  
备注: Work in progress
摘要:
视觉-语言模型(VLMs)通常会继承其大规模训练数据集中存在的偏见和不安全关联。尽管最近的方法缓解了不安全行为,但它们的评估主要集中在模型在不安全输入上的安全性,而忽略了在安全输入上的潜在缺陷。在本文中,我们首先通过引入SafeGround来修订安全性评估,这是一组在不同粒度水平上评估安全性的新的指标。通过这个指标,我们发现了基于训练的方法的一个令人惊讶的问题:它们使模型在安全输入上变得不那么安全。基于这一发现,我们采取了不同的方向,探索是否可以在不进行训练的情况下使模型更安全,并引入了不安全权重操控(UWM)。UWM使用一组安全和不安全实例的校准集来比较安全和不安全内容之间的激活,识别出处理后者最重要的参数。然后通过取反来操控它们的值。实验表明,UWM在安全性和知识保留之间实现了最佳平衡,在不安全查询上持续改进VLMs,同时在安全查询上甚至超越了基于训练的最新方法。

[3] 让每一步都有效:通过分层KV均衡破解大型视觉语言模型
标题: Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization
作者: Shuyang Hao / Yiwei Wang / Bryan Hooi / Jun Liu / Muhao Chen / Zi Huang / Yujun Cai
原文:   [英文]   [中文]  
备注: None
摘要:
在大规模视觉语言模型(LVLMs)领域,对抗性越狱攻击作为一种红队测试方法,用于识别这些模型及其相关防御机制的安全漏洞。然而,我们发现一个关键限制:并不是每一个对抗性优化步骤都会带来积极的结果,且在每一步中不加区分地接受优化结果可能会降低整体攻击成功率。为了解决这一挑战,我们引入了HKVE(分层键值均衡),这是一种创新的越狱框架,它基于不同层次的注意力分数分布选择性地接受梯度优化结果,确保每一个优化步骤都能积极地促进攻击。大量实验表明,HKVE具有显著的效果,在MiniGPT4上实现了75.08%的攻击成功率,在LLaVA上为85.84%,在Qwen-VL上为81.00%,分别比现有方法高出20.43%、21.01%和26.43%。此外,使每一步都有效不仅提高了攻击成功率,还减少了迭代次数,从而降低了计算成本。警告:本文包含潜在有害的示例数据。

[4] 从单模态特征学习的角度重新思考多模态目标检测
标题: Rethinking Multi-modal Object Detection from the Perspective of Mono-Modality Feature Learning
作者: Tianyi Zhao / Boyang Liu / Yanglei Gao / Yiming Sun / Maoxun Yuan / Xingxing Wei
原文:   [英文]   [中文]  
备注: 10 pages, 6 figures
摘要:
多模态目标检测(MMOD)由于其对各种复杂环境的更强适应性,已被广泛应用于各种应用中。大量研究致力于RGB-IR目标检测,主要关注如何整合来自RGB-IR模态的互补特征。然而,他们忽视了单模态学习不足的问题,即在多模态联合学习中特征提取能力的下降。这导致了一个不合理但普遍的现象——融合退化,这阻碍了MMOD模型性能的提升。受此启发,本文引入线性探测评估到多模态检测器中,并从单模态学习的角度重新思考多模态目标检测任务。因此,我们构建了一个名为M$^2$D-LIF的新框架,该框架由单模态蒸馏(M$^2$D)方法和局部光照感知融合(LIF)模块组成。M$^2$D-LIF框架在多模态联合训练期间促进单模态的充分学习,并探索了一种轻量级但有效的特征融合方式,以实现卓越的目标检测性能。在三个MMOD数据集上进行的大量实验表明,我们的M$^2$D-LIF有效缓解了融合退化现象,并优于之前的SOTA检测器。

[5] 使用基于超网络的Kolmogorov-Arnold网络进行颜色匹配
标题: Color Matching Using Hypernetwork-Based Kolmogorov-Arnold Networks
作者: Artem Nikonorov / Georgy Perevozchikov / Andrei Korepanov / Nancy Mehta / Mahmoud Afifi / Egor Ershov / Radu Timofte
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了cmKAN,一个多功能的颜色匹配框架。给定一个具有源颜色分布的输入图像,我们的方法能够在监督和无监督的环境下有效且准确地将这些颜色映射到匹配目标颜色分布。我们的框架利用Kolmogorov-Arnold网络(KANs)的样条功能来建模源和目标分布之间的颜色匹配。具体来说,我们开发了一个超网络,该网络生成空间变化的权重图,以控制KAN的非线性样条,从而实现精确的颜色匹配。作为这项工作的一部分,我们引入了首个由两台不同相机拍摄的配对图像的大规模数据集,并评估了我们的方法和现有方法在颜色匹配中的效果。我们在各种颜色匹配任务中评估了我们的方法,包括:(1)原始到原始映射,其中源颜色分布在一个相机的原始颜色空间中,目标在另一个相机的原始空间中;(2)原始到sRGB映射,其中源颜色分布在一个相机的原始空间中,目标在显示的sRGB空间中,模拟相机ISP的颜色渲染;以及(3)sRGB到sRGB映射,目标是将颜色从源sRGB空间(例如,由源相机ISP生成)转移到目标sRGB空间(例如,来自不同相机ISP)。结果表明,我们的方法在监督和无监督情况下平均比现有方法提高了37.3%,同时与其他方法相比保持轻量级。代码、数据集和预训练模型可在此https URL获取。

[6] ECLARE:用于各向异性分辨率增强的高效跨平面学习
标题: ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement
作者: Samuel W. Remedios / Shuwen Wei / Shuo Han / Jinwei Zhang / Aaron Carass / Kurt G. Schilling / Dzung L. Pham / Jerry L. Prince / Blake E. Dewey
原文:   [英文]   [中文]  
备注: None
摘要:
在临床成像中,磁共振(MR)图像体积通常以2D切片堆栈的形式获取,这样可以减少扫描时间,提高信噪比,并获得2D MR脉冲序列特有的图像对比度。虽然这对于临床评估已经足够,但专为3D分析设计的自动化算法在2D获取的扫描上表现不佳,尤其是那些具有厚切片和切片间隙的扫描。超分辨率(SR)方法旨在解决这个问题,但之前的方法并未解决以下所有问题:切片轮廓形状估计、切片间隙、域偏移和非整数/任意上采样因子。在本文中,我们提出了ECLARE(用于各向异性分辨率增强的高效跨平面学习),这是一种自我SR方法,解决了这些因素中的每一个。ECLARE从2D获取的多切片MR体积中估计切片轮廓,训练一个网络学习从同一体积中的低分辨率到高分辨率平面补丁的映射,并执行带有抗锯齿的SR。我们将ECLARE与三次B样条插值、SMORE和其他现代SR方法进行了比较。我们使用了现实且具有代表性的模拟,以便可以计算相对于真实值的定量性能,ECLARE在信号恢复和下游任务中均优于所有其他方法。在没有真实值的真实数据上,ECLARE在质量上也表现出优于其他方法的重要性。重要的是,由于ECLARE不使用外部训练数据,因此不会在训练和测试之间出现域偏移。我们的代码是开源的,可以在这个https URL上获取。

[7] StyleMorpheus:一种基于风格的三维可变形人脸模型
标题: StyleMorpheus: A Style-Based 3D-Aware Morphable Face Model
作者: Peizhi Yan / Rabab K. Ward / Dan Wang / Qiang Tang / Shan Du
原文:   [英文]   [中文]  
备注: 13 pages, work was completed in 2023
摘要:
对于3D人脸建模,最近开发的3D感知神经渲染方法能够以任意视角渲染照片级真实感的人脸图像。然而,参数可控的3D感知人脸模型的训练仍然依赖于大规模的实验室收集数据集。为了解决这个问题,本文介绍了“StyleMorpheus”,这是第一个基于风格的神经3D可变形人脸模型(3DMM),它是在自然环境中的图像上训练的。它继承了3DMM的解耦可控性(在人脸身份、表情和外观方面),但不需要精确重建的显式3D形状。StyleMorpheus采用了自编码器结构。编码器旨在学习一个具有代表性的解耦参数代码空间,而解码器则通过在网络的不同子模块中使用与形状和外观相关的风格代码来改善解耦。此外,我们通过基于风格的生成对抗学习微调解码器,以实现照片级真实感的3D渲染质量。所提出的基于风格的设计使得StyleMorpheus能够实现最先进的3D感知人脸重建结果,同时也允许对重建人脸进行解耦控制。我们的模型实现了实时渲染速度,允许其在虚拟现实应用中使用。我们还展示了所提出的基于风格的设计在面部编辑应用中的能力,如风格混合和颜色编辑。项目主页:this https URL。

[8] 语义剪辑:通过语义引导的视觉选择实现高效的视觉-语言建模
标题: Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection
作者: Bangzheng Li / Fei Wang / Wenxuan Zhou / Nan Xu / Ben Zhou / Sheng Zhang / Hoifung Poon / Muhao Chen
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)利用对齐的视觉编码器将图像转换为视觉标记,使得它们可以被主干大型语言模型(LLM)以类似于文本的方式处理。这种统一的输入范式使得VLMs在视觉-语言任务中表现出色,如视觉问答(VQA)。为了提高细粒度的视觉推理,最近在视觉-语言建模方面的进展引入了图像裁剪技术,将所有编码的子图像输入模型。然而,这种方法显著增加了视觉标记的数量,导致效率低下,并可能对LLM造成干扰。为了解决VLMs中图像表示的泛化挑战,我们提出了一种轻量级、通用的框架,可以无缝集成到现有的VLMs中,以增强其处理细节的能力。我们的方法利用文本语义来识别关键的视觉区域,提高了VQA的性能,而无需对VLM进行任何再训练。此外,它将文本信号融入视觉编码过程,提高了效率和效果。所提出的方法,SEMCLIP,在7个基准测试中平均提升了7B VLM LLaVA-1.5的视觉理解能力3.3%,尤其是在具有挑战性的细节理解基准测试V*上提升了5.3%。

[9] 通过填充进行3D场景布局的人在回路局部修正
标题: Human-in-the-Loop Local Corrections of 3D Scene Layouts via Infilling
作者: Christopher Xie / Armen Avetisyan / Henry Howard-Jenkins / Yawar Siddiqui / Julian Straub / Richard Newcombe / Vasileios Balntas / Jakob Engel
原文:   [英文]  
备注: Project page: this https URL
摘要:
我们提出了一种新颖的“人机交互”方法来估计3D场景布局,该方法利用来自自我中心视角的人类反馈。我们通过引入一种新颖的局部修正任务来研究这种方法,用户识别局部错误并提示模型自动纠正它们。基于SceneScript,这是一个利用结构化语言的最先进的3D场景布局估计框架,我们提出了一种将此问题结构化为“填充”的解决方案,这是一项在自然语言处理中研究的任务。我们训练了一个多任务版本的SceneScript,该版本在保持全局预测性能的同时显著提高了其局部修正能力。我们将其集成到一个人机交互系统中,使用户能够通过低摩擦的“一键修复”工作流程迭代地完善场景布局估计。我们的系统使最终的精细布局能够偏离训练分布,从而更准确地建模复杂布局。

[10] 缓解基于监督机器学习的作物分类中的不良真实值:一种基于哨兵-2图像的多层框架
标题: Mitigating Bad Ground Truth in Supervised Machine Learning based Crop Classification: A Multi-Level Framework with Sentinel-2 Images
作者: Sanayya A / Amoolya Shetty / Abhijeet Sharma / Venkatesh Ravichandran / Masthan Wali Gosuvarapalli / Sarthak Jain / Priyamvada Nanjundiah / Ujjal Kr Dutta / Divya Sharma
原文:   [英文]   [中文]  
备注: Accepted In IEEE India Geoscience and Remote Sensing Symposium (InGARSS) 2024
摘要:
在农业管理中,精确的地面实况(GT)数据对于基于机器学习(ML)的作物分类至关重要。然而,作物标签错误和土地识别不正确等问题很常见。我们提出了一个多层次的GT清理框架,同时利用多时相的Sentinel-2数据来解决这些问题。具体而言,该框架通过为农田生成嵌入、聚类相似的作物特征,并识别表明GT错误的异常值来实现。我们通过假彩色合成(FCC)检查验证了聚类,并使用基于距离的度量来扩展和自动化这一验证过程。当模型在清理过和未清理的GT数据上进行训练时,清理GT数据的重要性变得显而易见。例如,当我们用清理过的GT数据训练随机森林模型时,F1分数指标的绝对百分比点提高了多达70%。这种方法推进了作物分类方法,有可能应用于改善贷款承保和农业决策。

[11] 迈向地球视觉的统一哥白尼基础模型
标题: Towards a Unified Copernicus Foundation Model for Earth Vision
作者: Yi Wang / Zhitong Xiong / Chenying Liu / Adam J. Stewart / Thomas Dujardin / Nikolaos Ioannis Bountos / Angelos Zavras / Franziska Gerken / Ioannis Papoutsis / Laura Leal-Taixé / Xiao Xiang Zhu
原文:   [英文]   [中文]  
备注: 31 pages, 32 figures
摘要:
地球观测(EO)基础模型的进步释放了大规模卫星数据的潜力,可以从太空中学习通用表示,这对我们星球的广泛下游应用大有裨益。然而,大多数现有的努力仍然局限于固定的光谱传感器,仅关注地球表面,并忽视了影像之外的有价值的元数据。在这项工作中,我们朝着下一代EO基础模型迈出了一步,包含三个关键组件:1)Copernicus-Pretrain,一个大规模的预训练数据集,整合了来自所有主要Copernicus Sentinel任务的1870万对齐图像,范围从地球表面到大气层;2)Copernicus-FM,一个统一的基础模型,能够使用扩展的动态超网络和灵活的元数据编码处理任何光谱或非光谱传感器模态;以及3)Copernicus-Bench,一个系统的评估基准,包含15个分层的下游任务,从预处理到每个Sentinel任务的专门应用。我们的数据集、模型和基准大大提高了EO基础模型的可扩展性、多功能性和多模态适应性,同时也创造了将EO、天气和气候研究连接起来的新机会。代码、数据集和模型可在此https URL获取。

[12] DecAlign:用于解耦多模态表示学习的分层跨模态对齐
标题: DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning
作者: Chengxuan Qian / Shuo Xing / Shawn Li / Yue Zhao / Zhengzhong Tu
原文:   [英文]   [中文]  
备注: Project website: this https URL
摘要:
多模态表示学习旨在捕捉多种模态之间的共享和互补语义信息。然而,不同模态的内在异质性给实现有效的跨模态协作和整合带来了巨大挑战。为了解决这一问题,我们引入了DecAlign,一种新颖的分层跨模态对齐框架,旨在将多模态表示解耦为模态独特(异质)和模态共同(同质)特征。为了处理异质性,我们采用了一种原型引导的最优传输对齐策略,利用高斯混合建模和多边缘传输计划,从而在保留模态独特特征的同时减轻分布差异。为了加强同质性,我们通过最大均值差异正则化确保跨模态的语义一致性,以对齐潜在分布匹配。此外,我们结合了多模态变压器以增强高层语义特征融合,从而进一步减少跨模态不一致性。我们在四个广泛使用的多模态基准上进行了广泛实验,结果表明DecAlign在五个指标上始终优于现有的最先进方法。这些结果突出了DecAlign在增强优越的跨模态对齐和语义一致性,同时保留模态独特特征方面的有效性,标志着多模态表示学习场景中的重大进展。我们的项目页面在这个https URL,代码可在这个https URL获取。

[13] UStyle:通过深度引导特征合成实现水下场景的水体风格迁移
标题: UStyle: Waterbody Style Transfer of Underwater Scenes by Depth-Guided Feature Synthesis
作者: Md Abu Bakr Siddique / Junliang Liu / Piyush Singh / Md Jahidul Islam
原文:   [英文]  
备注: None
摘要:
水体风格迁移的概念在水下成像和视觉文献中仍然基本未被探索。传统的图像风格迁移(STx)方法主要关注艺术和真实感的融合,通常无法在高散射介质(如水下)拍摄的图像中保留物体和场景的几何结构。波长依赖的非线性衰减和深度依赖的后向散射伪影进一步使得从未配对数据中学习水下图像STx变得复杂。本文介绍了UStyle,这是第一个数据驱动的学习框架,用于在水下图像之间转移水体风格,而无需先验参考图像或场景信息。我们提出了一种新颖的深度感知白化和着色变换(DA-WCT)机制,该机制结合基于物理的水体合成,以确保感知上一致的风格化,同时保留场景结构。为了提高风格迁移的质量,我们引入了精心设计的损失函数,引导UStyle在VGG和CLIP(对比语言-图像预训练)特征空间中保持色彩、亮度、结构完整性、频域特征以及高级内容。通过解决特定领域的挑战,UStyle提供了一个强大的无参考水下图像STx框架,超越了仅依赖端到端重建损失的最新方法。此外,我们引入了UF7D数据集,这是一个精心策划的高分辨率水下图像集合,涵盖七种不同的水体风格,为支持未来水下图像STx研究建立了基准。UStyle推理管道和UF7D数据集已在此URL发布。

[14] 将文本到图像扩散模型升级为多任务能力
标题: Upcycling Text-to-Image Diffusion Models for Multi-Task Capabilities
作者: Ruchika Chavhan / Abhinav Mehrotra / Malcolm Chadwick / Alberto Gil Ramos / Luca Morreale / Mehdi Noroozi / Sourav Bhattacharya
原文:   [英文]   [中文]  
备注: Preprint
摘要:
近年来,文本到图像合成取得了显著的进展。许多尝试已经被进行,以采用文本到图像模型来支持多项任务。然而,现有的方法通常需要资源密集型的重新训练或额外的参数来适应新任务,这使得模型在设备上部署时效率低下。我们提出了多任务升级(MTU),这是一种简单而有效的方法,可以扩展预训练的文本到图像扩散模型的能力,以支持各种图像到图像生成任务。MTU用较小的前馈网络(FFN)层替换扩散模型中的FFN层,这些较小的FFN层被称为专家,并与动态路由机制结合。据我们所知,MTU是第一个多任务扩散建模方法,通过缓解参数膨胀问题,将多任务处理与设备兼容性无缝结合。我们展示了MTU的性能在多个任务上与单任务微调的扩散模型相当,包括图像编辑、超分辨率和修复,同时保持与单任务微调模型相似的延迟和计算负载(GFLOPs)。

[15] 基于深度学习的SAR船舶分类研究综述
标题: A Survey on SAR ship classification using Deep Learning
作者: Ch Muhammad Awais / Marco Reggiannini / Davide Moroni / Emanuele Salerno
原文:   [英文]  
备注: Submitted to JSTARS journal
摘要:
深度学习(DL)已成为合成孔径雷达(SAR)船舶分类的强大工具。本综述全面分析了该领域中使用的多种DL技术。我们识别了关键趋势和挑战,强调了整合手工特征、利用公共数据集、数据增强、微调、可解释性技术以及促进跨学科合作以提高DL模型性能的重要性。本综述首次建立了一种分类法,用于根据DL模型、手工特征的使用、SAR属性的利用以及微调的影响来分类相关研究。我们讨论了SAR船舶分类任务中使用的方法以及不同技术的影响。最后,综述探讨了未来研究的潜在方向,包括解决数据稀缺问题、探索新颖的DL架构、结合可解释性技术以及建立标准化的性能指标。通过解决这些挑战并利用DL的进步,研究人员可以为开发更准确和高效的船舶分类系统做出贡献,从而最终增强海事监视和相关应用。

[16] 基于k折子抽样的顺序向后特征消除
标题: k-fold Subsampling based Sequential Backward Feature Elimination
作者: Jeonghwan Park / Kang Li / Huiyu Zhou
原文:   [英文]   [中文]  
备注: 8 pages
摘要:
我们提出了一种用于人体检测的新型包装特征选择算法。该算法是一种结合过滤器和包装方法优点的混合特征选择方法。它允许选择一个最佳特征向量,以良好地表示图像中主体的形状。具体而言,所提出的特征选择算法采用k折子采样和顺序向后消除方法,而标准线性支持向量机(SVM)则用作人体检测的分类器。我们将所提出的算法应用于公开可访问的INRIA和ETH行人完整图像数据集,并使用PASCAL VOC评估标准。与其他先进算法相比,我们基于特征选择的方法可以将SVM分类器的检测速度提高超过50%,检测准确率提高最多达2%。我们的算法在检测准确率方面也优于变形部件模型方法中引入的等效系统,提升约9%。

[17] 生成具有生物特征唯一性和真实感的虹膜数据库
标题: Generating a Biometrically Unique and Realistic Iris Database
作者: Jingxuan Zhang / Robert J. Hart / Ziqian Bi / Shiaofen Fang / Susan Walsh
原文:   [英文]  
备注: for associated iris database, see this https URL
摘要:
在过去的30年中,虹膜作为生物识别标识符的使用显著增加,这引发了关于在研究中使用虹膜图像的隐私和安全问题。由于伦理问题,获取虹膜图像数据库可能很困难,这对进行生物识别研究的人来说是一个障碍。在本文中,我们描述并展示了如何通过在一个开源扩散框架中训练扩散模型来创建一个逼真且生物识别上无法识别的彩色虹膜图像数据库。我们不仅能够验证我们的模型能够创建与训练数据生物识别上独特的虹膜纹理,而且还能够验证我们的模型输出能够生成逼真的虹膜色素分布。我们强调,扩散网络在相对容易地实现这些标准方面的实用性,值得在虹膜数据库生成和防御攻击安全的背景下进行更多研究。

[18] SPRINT:表格中与脚本无关的结构识别
标题: SPRINT: Script-agnostic Structure Recognition in Tables
作者: Dhruv Kudale / Badri Vishal Kasuba / Venkatapathy Subramanian / Parag Chaudhuri / Ganesh Ramakrishnan
原文:   [英文]   [中文]  
备注: Accepted at ICDAR 2024
摘要:
表格结构识别(TSR)对于信息检索、表格重建和文档理解等各种下游任务至关重要。尽管大多数最先进的研究主要集中在英文文档的TSR上,但考虑到数据的全球多样性,其他语言中类似能力的需求显而易见。此外,在非英语语言中创建大量标注数据并从头开始训练这些最先进的模型既昂贵又耗时。我们提出将TSR视为一种与语言无关的单元格排列预测,并介绍SPRINT,即表格中的脚本无关结构识别。SPRINT使用最近引入的优化表格结构语言(OTSL)序列来预测表格结构。我们展示了当与预训练的表格网格估计器结合使用时,SPRINT可以提高表格的整体树编辑距离相似性结构分数,即使是非英语文档。我们在包括PubTabNet、FinTabNet和PubTables-1M在内的基准TSR数据集上进行了实验评估。我们的研究结果表明,SPRINT不仅在标准数据集上的性能与最先进的模型相匹配,而且表现出更低的延迟。此外,SPRINT在准确识别非英语文档中的表格结构方面表现出色,超过了当前领先的模型,显示出绝对平均提高11.12%。我们还提出了一种算法,用于将有效的OTSL预测转换为广泛使用的基于HTML的表格表示。为了鼓励进一步的研究,我们发布了我们的代码和多语言扫描和场景表格结构识别数据集MUSTARD,该数据集使用OTSL序列标注了十三种语言中1428个表格,涵盖了多种脚本,网址为此https URL。

[19] 一种采用全局通道-空间注意力机制的表情识别解决方案的设计
标题: Design of an Expression Recognition Solution Employing the Global Channel-Spatial Attention Mechanism
作者: Jun Yu / Yang Zheng / Lei Wang / Yongqi Wang / Shengfan Xu
原文:   [英文]   [中文]  
备注: None
摘要:
面部表情识别是一项具有广泛应用前景的人机交互领域的挑战性分类任务。本文旨在介绍我们即将在CVPR2025举办的第八届野外情感行为分析(ABAW)竞赛的方法。为了解决视频中面部表情识别因细微表情变化和多尺度而导致的低识别准确率等问题,我们提出了全局通道-空间注意力和中值增强空间-通道注意力,分别用于加强语音和图像的特征处理。其次,为了充分利用语音和面部表情模态之间的互补性,采用了语音和面部表情关键帧对齐技术来计算语音和面部表情的权重。这些权重被输入到特征融合层进行多尺度膨胀融合,有效提高了面部表情识别的识别率。在第六届ABAW竞赛的面部表情识别任务中,我们的方法在官方验证集上取得了优异的成绩,充分证明了所提方法的有效性和竞争力。

[20] Att-Adapter:一种通过条件变分自编码器实现的稳健且精确的特定领域多属性文本到图像扩散适配器
标题: Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder
作者: Wonwoong Cho / Yan-Ying Chen / Matthew Klenk / David I. Inouye / Yanxia Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像(T2I)扩散模型在生成高质量图像方面取得了显著的性能。然而,在一个新的领域中(例如,数值属性如眼睛的开合度或汽车的宽度),通过仅使用文本指导来实现对连续属性的精确控制,尤其是同时控制多个属性,仍然是一个重大挑战。为了解决这个问题,我们引入了属性(Att)适配器,这是一种新颖的即插即用模块,旨在实现预训练扩散模型中的细粒度、多属性控制。我们的方法从一组样本图像中学习一个单一的控制适配器,这些图像可以是未配对的,并包含多个视觉属性。Att-Adapter利用解耦的交叉注意模块,自然地将多个领域属性与文本条件相协调。我们进一步将条件变分自编码器(CVAE)引入Att-Adapter,以减轻过拟合,匹配视觉世界的多样性。在两个公共数据集上的评估表明,Att-Adapter在控制连续属性方面优于所有基于LoRA的基线。此外,我们的方法实现了更广泛的控制范围,并改善了多个属性之间的解耦,超越了基于StyleGAN的技术。值得注意的是,Att-Adapter具有灵活性,不需要配对的合成数据进行训练,并且可以轻松扩展到单个模型中的多个属性。

[21] 你的文本编码器可以成为对象级水印控制器
标题: Your Text Encoder Can Be An Object-Level Watermarking Controller
作者: Naresh Kumar Devulapally / Mingzhen Huang / Vishal Asnani / Shruti Agarwal / Siwei Lyu / Vishnu Suresh Lokhande
原文:   [英文]  
备注: None
摘要:
对AI生成图像进行不可见水印可以帮助进行版权保护,从而实现对AI生成媒体的检测和识别。在这项工作中,我们提出了一种对T2I潜在扩散模型(LDMs)图像进行水印的新方法。通过仅微调文本标记嵌入$W_*$,我们能够在选定的对象或图像部分中进行水印,与传统的全图水印相比,提供了更大的灵活性。我们的方法利用了文本编码器在各种LDMs中的兼容性,允许在不同LDMs中即插即用。此外,在编码阶段早期引入水印提高了对流水线后期阶段对抗性扰动的鲁棒性。我们的方法实现了$99\%$的比特准确率($48$比特),并将模型参数减少了$10^5$倍,从而实现了高效的水印嵌入。

[22] SPOC:视频中空间渐进的物体状态变化分割
标题: SPOC: Spatially-Progressing Object State Change Segmentation in Video
作者: Priyanka Mandikal / Tushar Nagarajan / Alex Stoken / Zihui Xue / Kristen Grauman
原文:   [英文]   [中文]  
备注: None
摘要:
视频中的物体状态变化揭示了关于人类和代理活动的重要信息。然而,现有的方法仅限于时间定位,即物体处于初始状态(例如,未切开的牛油果)与完成状态变化(例如,切开的牛油果)之间的时间点,这限制了任何需要详细了解动作进展及其空间定位的任务的适用性。我们提出通过引入空间进展的物体状态变化分割任务来深化这一问题。其目标是在像素级分割出物体中可操作的区域和已转变的区域。我们引入了第一个解决此任务的模型,设计了一种基于VLM的伪标签方法、状态变化动态约束,以及一个基于野外互联网视频的新颖WhereToChange基准。对两个数据集的实验验证了新任务的挑战性以及我们模型在视频中精确定位物体变化位置和速度的潜力。我们进一步展示了对跟踪活动进展的有用影响,以惠及机器人代理。项目页面:this https URL

[23] CHOrD:生成无碰撞、房屋规模和有序的数字孪生,用于具有可控平面图和最优布局的3D室内场景
标题: CHOrD: Generation of Collision-Free, House-Scale, and Organized Digital Twins for 3D Indoor Scenes with Controllable Floor Plans and Optimal Layouts
作者: Chong Su / Yingbin Fu / Zheyuan Hu / Jing Yang / Param Hanji / Shaojun Wang / Xuan Zhao / Cengiz Öztireli / Fangcheng Zhong
原文:   [英文]   [中文]  
备注: Chong Su and Yingbin Fu contributed equally to this work
摘要:
我们介绍了CHOrD,这是一种用于大规模合成3D室内场景的新框架,旨在创建房屋规模、无碰撞且层次结构化的室内数字孪生体。与现有方法直接将场景布局合成为场景图或对象列表不同,CHOrD结合了一种基于2D图像的中间布局表示,通过在生成过程中成功将碰撞伪影捕获为分布外(OOD)场景,有效地防止了碰撞伪影。此外,与现有方法不同,CHOrD能够生成符合复杂平面图的场景布局,并具有多模态控制,能够创建在房间结构的几何和语义变化中保持一致的全屋布局。此外,我们提出了一个新的数据集,扩大了对家庭物品和房间配置的覆盖范围,并显著提高了数据质量。CHOrD在3D-FRONT和我们提出的数据集上展示了最先进的性能,提供了适应任意平面图变化的逼真、空间一致的室内场景合成。

[24] 微创肝脏介入手术中基于患者特异性点云补全方法的术中评估
标题: Evaluation of Intra-operative Patient-specific Methods for Point Cloud Completion for Minimally Invasive Liver Interventions
作者: Nakul Poudel / Zixin Yang / Kelly Merrell / Richard Simon / Cristian A. Linte
原文:   [英文]   [中文]  
备注: None
摘要:
在图像引导的肝脏手术中,术前模型与术中表面的配准至关重要,因为它有助于在手术过程中有效利用术前信息。然而,术中表面通常以点云形式表示,往往覆盖范围有限,特别是在腹腔镜手术中,并且容易出现孔洞和噪声,这对配准方法提出了重大挑战。点云补全方法有可能缓解这些问题。因此,我们探索了六种最先进的点云补全方法,以确定肝脏手术应用的最佳补全方法。我们专注于在三种情况下从部分肝脏表面进行肝脏点云补全的患者特定方法:标准姿势、非标准姿势和带噪声的标准姿势。基于变换器的方法AdaPoinTr在标准姿势下,从给定的部分肝脏点云生成完整点云方面优于所有其他方法。另一方面,我们的研究结果显示,在非标准姿势和噪声环境下,这些方法的性能显著下降,突显了这些方法的局限性,这表明需要一种稳健的点补全方法,以便在图像引导的肝脏手术中应用。

[25] DynaGSLAM:用于动态场景中移动物体的在线渲染、跟踪和运动预测的实时高斯点云SLAM
标题: DynaGSLAM: Real-Time Gaussian-Splatting SLAM for Online Rendering, Tracking, Motion Predictions of Moving Objects in Dynamic Scenes
作者: Runfa Blark Li / Mahdi Shaghaghi / Keito Suzuki / Xinshuang Liu / Varun Moparthi / Bang Du / Walker Curtis / Martin Renschler / Ki Myung Brian Lee / Nikolay Atanasov / Truong Nguyen
原文:   [英文]   [中文]  
备注: None
摘要:
同时定位与地图构建(SLAM)是计算机视觉、机器人技术以及自动驾驶汽车/无人机中最重要的环境感知和导航算法之一。因此,高质量和快速的地图构建成为一个基础性问题。随着3D高斯散射(3DGS)作为一种具有出色渲染质量和速度的显式表示的出现,最先进的(SOTA)研究将GS引入到SLAM中。与传统的点云SLAM相比,GS-SLAM通过从输入摄像机视图中学习生成光度信息,并合成具有高质量纹理的未见视图。然而,当移动物体占据场景并违反捆绑调整的静态假设时,这些GS-SLAM会失效。移动GS的失败更新影响静态GS,并在长时间帧中污染整个地图。尽管一些同时进行的研究已经努力考虑GS-SLAM中的移动物体,但它们只是简单地检测并移除GS渲染中的移动区域(“反”动态GS-SLAM),其中只有静态背景可以从GS中受益。为此,我们提出了首个实时GS-SLAM,“DynaGSLAM”,它在动态场景中实现高质量的在线GS渲染、跟踪、移动物体的运动预测,同时联合估计准确的自我运动。我们的DynaGSLAM在三个动态真实数据集上优于SOTA静态和“反”动态GS-SLAM,同时在实践中保持速度和内存效率。

[26] DecompDreamer:通过多对象分解和高斯喷洒推进结构化3D资产生成
标题: DecompDreamer: Advancing Structured 3D Asset Generation with Multi-Object Decomposition and Gaussian Splatting
作者: Utkarsh Nath / Rajeev Goel / Rahul Khurana / Kyle Min / Mark Ollila / Pavan Turaga / Varun Jampani / Tejaswi Gowda
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,通过利用文本到图像模型,文本到3D生成技术取得了显著进展。然而,大多数现有技术在处理描述多个对象及其空间关系的组合提示时表现不佳,往往无法捕捉到细粒度的对象间交互。我们介绍了DecompDreamer,这是一种基于高斯喷溅的训练方法,旨在从复杂提示中生成高质量的3D组合。DecompDreamer利用视觉语言模型(VLMs)将场景分解为结构化的组件及其关系。我们提出了一种渐进优化策略,首先优先考虑联合关系建模,然后逐渐转向目标对象的细化。我们对比现有最先进的文本到3D模型进行的定性和定量评估表明,DecompDreamer能够有效生成复杂的3D组合,具有优越的对象解耦能力,提供了在3D生成中更好的控制和灵活性。项目页面:this https URL

[27] Fraesormer:学习自适应稀疏Transformer以实现高效的食物识别
标题: Fraesormer: Learning Adaptive Sparse Transformer for Efficient Food Recognition
作者: Shun Zou / Yi Zou / Mingya Zhang / Shipeng Luo / Zhihao Chen / Guangwei Gao
原文:   [英文]  
备注: 6 pages, 4 figures
摘要:
近年来,Transformer 在食物识别领域取得了显著进展。然而,大多数现有方法在轻量级食物识别中仍面临两个关键挑战:(1)与不相关的标记交互导致的二次复杂性和冗余特征表示;(2)静态特征识别和单尺度表示,忽视了食物图像的非结构化、非固定特性以及对多尺度特征的需求。为了解决这些问题,我们提出了一种自适应且高效的稀疏 Transformer 架构(Fraesormer),具有两个核心设计:自适应 Top-k 稀疏部分注意力(ATK-SPA)和分层尺度敏感特征门控网络(HSSFGN)。ATK-SPA 使用可学习的门控动态 Top-K 操作符(GDTKO)来保留关键的注意力分数,过滤阻碍特征聚合的低查询-键匹配。它还引入了部分通道机制以减少冗余并促进专家信息流动,实现局部-全局协作建模。HSSFGN 采用门控机制实现多尺度特征表示,增强上下文语义信息。大量实验表明,Fraesormer 优于最先进的方法。代码可在此 https URL 获取。

[28] 针对移动物体的3D高斯点云用于高保真街景重建
标题: 3D Gaussian Splatting against Moving Objects for High-Fidelity Street Scene Reconstruction
作者: Peizhen Zheng / Longfei Wei / Dongjing Jiang / Jianfei Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
动态街景的精确重建对于自动驾驶、增强现实和虚拟现实等应用至关重要。传统依赖于密集点云和三角网格的方法在处理移动物体、遮挡和实时处理限制方面存在困难,从而限制了它们在复杂城市环境中的有效性。尽管多视图立体和神经辐射场在3D重建方面取得了进展,但它们在计算效率和处理场景动态方面面临挑战。本文提出了一种用于动态街景重建的新型3D高斯点分布方法。我们的方法引入了一种自适应透明机制,可以消除移动物体,同时保留高保真度的静态场景细节。此外,高斯点分布的迭代优化提高了几何精度和纹理表现。我们结合方向编码与空间位置优化,以优化存储和渲染效率,减少冗余同时保持场景完整性。实验结果表明,我们的方法在大规模动态环境中实现了高质量的重建、改进的渲染性能和适应性。这些贡献建立了一个用于实时高精度3D重建的稳健框架,推动了多种应用中动态场景建模的实用性。本文的源代码可通过此HTTPS URL公开获取。

[29] ROS-SAM:高质量的遥感移动目标交互式分割
标题: ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object
作者: Zhe Shan / Yang Liu / Lei Zhou / Cheng Yan / Heng Wang / Xia Xie
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025
摘要:
大规模遥感视频数据的可用性突显了高质量交互式分割的重要性。然而,小物体尺寸、模糊特征和有限的泛化能力等挑战使得当前方法难以实现这一目标。在这项工作中,我们提出了ROS-SAM,一种旨在实现高质量交互式分割,同时在各种遥感数据中保持泛化能力的方法。ROS-SAM基于三个关键创新:1)基于LoRA的微调,使得在保持SAM泛化能力的同时实现高效的领域适应,2)增强深度网络层以提高提取特征的辨别能力,从而减少误分类,3)在掩码解码器中整合全局上下文与局部边界细节,以生成高质量的分割掩码。此外,我们设计了数据管道,以确保模型在训练期间更好地处理不同尺度的物体,同时在推理时专注于高质量预测。在遥感视频数据集上的实验表明,重新设计的数据管道将IoU提升了6%,而ROS-SAM将IoU提升了13%。最后,在现有的遥感目标跟踪数据集上进行评估时,ROS-SAM展示了令人印象深刻的零样本能力,生成的掩码与人工标注非常接近。这些结果证实了ROS-SAM作为遥感应用中细粒度分割的强大工具。代码可在此https URL获取。

[30] UniMamba:用于基于激光雷达的三维物体检测的统一空间-通道表示学习与组高效Mamba
标题: UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection
作者: Xin Jin / Haisheng Su / Kai Liu / Cong Ma / Wei Wu / Fei Hui / Junchi Yan
原文:   [英文]   [中文]  
备注: Accepted to CVPR2025
摘要:
近年来,LiDAR 3D检测领域的进展展示了基于Transformer的框架在捕捉点云空间的全局依赖性方面的有效性,这些框架将3D体素序列化为扁平化的1D序列以进行迭代自注意。然而,在序列化过程中,3D体素的空间结构不可避免地会被破坏。此外,由于3D体素数量庞大以及Transformer的二次复杂性,多个序列在输入Transformer之前被分组,导致接收域受限。受到状态空间模型(SSM)在2D视觉任务领域取得的出色表现的启发,本文提出了一种新颖的统一Mamba(UniMamba),它在一个简洁的多头方式中无缝整合了3D卷积和SSM的优点,旨在高效且同时地执行“局部和全局”空间上下文聚合。具体而言,设计了一个UniMamba模块,主要包括空间局部性建模、互补的Z序列化和局部-全局序列聚合器。空间局部性建模模块集成了3D子流形卷积,以在序列化之前捕捉动态空间位置嵌入。然后,采用高效的Z序曲线进行水平和垂直序列化。此外,局部-全局序列聚合器采用通道分组策略,使用多头SSM高效编码“局部和全局”空间相互依赖性。此外,形成了一个由堆叠的UniMamba模块组成的编码器-解码器架构,以分层促进多尺度空间学习。在三个流行的数据集上进行了广泛的实验:nuScenes、Waymo和Argoverse 2。特别是,我们的UniMamba在nuScenes数据集上达到了70.2 mAP。

[31] 学习双域多尺度表示以实现单图像去雨
标题: Learning Dual-Domain Multi-Scale Representations for Single Image Deraining
作者: Shun Zou / Yi Zou / Mingya Zhang / Shipeng Luo / Guangwei Gao / Guojun Qi
原文:   [英文]   [中文]  
备注: 6 pages, 5 figures, code: this https URL
摘要:
现有的图像去雨方法通常依赖于单输入、单输出和单尺度架构,这忽视了外部和内部特征之间的多尺度信息的联合。此外,单域表示通常过于局限,限制了它们处理真实世界复杂雨景的能力。为了解决这些挑战,我们提出了一种新颖的双域多尺度表示网络(DMSR)。其核心思想是在并行处理中利用来自外部和内部域的联合多尺度表示,同时利用空间域和频率域的优势来捕捉更全面的特性。具体来说,我们的方法由两个主要组件组成:多尺度渐进空间细化模块(MPSRM)和频域尺度混合器(FDSM)。MPSRM通过分层调制和融合策略,实现了内部域内多尺度专家信息的交互和耦合。FDSM在空间域中提取多尺度局部信息,同时在频率域中建模全局依赖关系。大量实验表明,我们的模型在六个基准数据集上达到了最先进的性能。

[32] QDM:基于四叉树的区域自适应稀疏扩散模型用于高效图像超分辨率
标题: QDM: Quadtree-Based Region-Adaptive Sparse Diffusion Models for Efficient Image Super-Resolution
作者: Donglin Yang / Paul Vicol / Xiaojuan Qi / Renjie Liao / Xiaofan Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
基于深度学习的超分辨率(SR)方法通常在整个图像上均匀地执行逐像素计算,即使在高分辨率细化多余的均匀区域也是如此。我们提出了四叉树扩散模型(QDM),这是一种区域自适应扩散框架,利用四叉树结构选择性地增强细节丰富的区域,同时减少在均匀区域的计算。通过使用从低质量输入中导出的四叉树引导扩散,QDM识别出关键区域——由叶节点表示——在这些区域中精细细节是必需的,而在其他地方应用最小的细化。这种掩码引导的双流架构自适应地平衡了质量和效率,生成高保真输出并具有低计算冗余。实验表明,QDM在各种图像类型的高分辨率SR任务中表现出色,特别是在医学成像(例如CT扫描)中,大面积均匀区域普遍存在。此外,QDM在标准基准测试中优于或可与最先进的SR方法相媲美,同时显著降低了计算成本,突显了其在资源有限环境中的效率和适用性。我们的代码可在此https URL获取。

[33] 构建你的美学:赋予文本到图像模型艺术原则的力量
标题: Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art
作者: Zhe Jin / Tat-Seng Chua
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像(T2I)扩散模型(DM)因其生成高保真输出的能力以及对任何能够将想象力转化为文字的人的可访问性而被广泛采用。然而,DM往往倾向于生成不吸引人的输出,就像它们所训练的互联网上的随机图像一样。现有的解决方法基于一个隐含的前提,即视觉美学是普遍的,这具有局限性。在T2I的背景下,美学应该是关于个性化的,因此我们提出了一项新的任务,即美学对齐,旨在将用户指定的美学与T2I生成的输出对齐。受到艺术作品提供的宝贵美学视角的启发,我们使用艺术家采用的构图框架,即艺术原则(PoA),来编纂视觉美学。为了促进这项研究,我们引入了CompArt,这是一个基于WikiArt的大规模构图艺术数据集,并由一个强大的多模态LLM进行PoA分析注释。利用LLM的表达能力并训练一个轻量且可转移的适配器,我们展示了T2I DM可以通过用户指定的PoA条件有效地提供10种构图控制。此外,我们设计了一个合适的评估框架来评估我们方法的有效性。

[34] SteerX:通过几何引导创建任意无相机的3D和4D场景
标题: SteerX: Creating Any Camera-Free 3D and 4D Scenes with Geometric Steering
作者: Byeongjun Park / Hyojun Go / Hyelin Nam / Byung-Hoon Kim / Hyungjin Chung / Changick Kim
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
最近在3D/4D场景生成方面的进展强调了在视频生成和场景重建过程中物理对齐的重要性。然而,现有的方法在每个阶段分别提高对齐,使得难以处理由其他阶段引起的细微错位。在此,我们提出了SteerX,这是一种零样本推理时间引导方法,将场景重建统一到生成过程中,倾斜数据分布以实现更好的几何对齐。为此,我们通过使用无姿态的前馈场景重建模型,引入了两个用于3D/4D场景生成的几何奖励函数。通过大量实验,我们证明了SteerX在改善3D/4D场景生成方面的有效性。

[35] 利用运动信息提升自监督视频对应学习
标题: Leveraging Motion Information for Better Self-Supervised Video Correspondence Learning
作者: Zihan Zhoua / Changrui Daia / Aibo Songa / Xiaolin Fang
原文:   [英文]   [中文]  
备注: None
摘要:
自监督视频对应学习依赖于能够准确地在视频帧之间关联对应于同一视觉对象的像素。然而,在没有监督的情况下实现可靠的像素匹配仍然是一个主要挑战。为了解决这个问题,最近的研究集中在特征学习技术上,旨在编码用于匹配的独特像素表示。尽管取得了这些进展,现有方法仍然难以实现精确的像素对应,并且常常受到错误匹配的影响,限制了其在自监督环境中的有效性。 为此,我们探索了一种高效的自监督视频对应学习框架(MER),旨在从未标记的视频中准确提取对象细节。首先,我们设计了一个专门的运动增强引擎,强调捕捉视频中对象的动态运动。此外,我们引入了一种灵活的像素间对应信息采样策略(多簇采样器),使模型能够更加关注运动中重要对象的像素变化。通过实验,我们的算法在视频对象分割和视频对象关键点跟踪等视频对应学习任务中优于最先进的竞争对手。

[36] 平面对称的挑战:从理论到感知
标题: Challenges in Plane Symmetry: From Theory to Perception
作者: F. Çengel / V. Adanova / S. Tari
原文:   [英文]   [中文]  
备注: None
摘要:
平面装饰图案是通过使用四种基本几何操作的组合重复一个基本单元而创建的:平移、旋转、反射和滑动反射。根据群论,这四种几何操作的不同组合会导致不同的对称群。在这项工作中,我们选择了一个具有挑战性的装饰图案,从理论和感知的角度对其进行分析。我们展示了感知实验的结果,可以看到参与者从装饰图案中感知到的对称性与理论所规定的不一致。

[37] 基于因子化图序列编码器的实时操作动作识别
标题: Real-Time Manipulation Action Recognition with a Factorized Graph Sequence Encoder
作者: Enes Erdogan / Eren Erdal Aksoy / Sanem Sariel
原文:   [英文]   [中文]  
备注: 8 pages, 3 figures, 7 tables
摘要:
实时识别人类操作动作对于安全有效的人机交互与协作至关重要。挑战在于开发一个既能实时执行又具备泛化能力的轻量级模型。虽然文献中一些现有方法可以实时运行,但它们在时间可扩展性方面存在困难,即无法有效适应长时间的操作。为了解决这个问题,我们利用可泛化的场景图表示,提出了一种新的因式分解图序列编码器网络,该网络不仅能实时运行,还能在时间维度上有效扩展,这要归功于其因式分解的编码器架构。此外,我们引入了手部池化操作,这是一种简单的池化操作,用于更集中地提取图级嵌入。我们的模型在KIT双手动作(Bimacs)数据集和协作动作(CoAx)数据集上分别实现了14.3%和5.6%的F1-macro分数提升,超越了之前的实时方法。此外,我们进行了广泛的消融研究以验证我们的网络设计选择。最后,我们将我们的模型与其在Bimacs数据集上结构相似的基于RGB的模型进行比较,并展示了该模型在这种以对象为中心的操作数据集上的局限性。

[38] MOS:在广义类别发现中建模对象-场景关联
标题: MOS: Modeling Object-Scene Associations in Generalized Category Discovery
作者: Zhengyuan Peng / Jinpeng Ma / Zhimin Sun / Ran Yi / Haichuan Song / Xin Tan / Lizhuang Ma
原文:   [英文]   [中文]  
备注: None
摘要:
广义类别发现(GCD)是一项分类任务,旨在利用标注数据集中的知识,对未标注图像中的基础类和新类进行分类。在GCD中,以往的研究忽视了场景信息或将其视为噪声,从而在模型训练中降低了其影响。然而,在本文中,我们认为场景信息应被视为推断新类别的强有力先验。我们将场景信息的误解归因于GCD中固有的一个关键因素:歧义挑战。具体来说,基础场景中的新对象可能被错误地分类为基础类别,而新场景中的基础对象可能被误认为是新类别。一旦解决了歧义挑战,场景信息就能充分发挥其潜力,显著提升GCD模型的性能。为了更有效地利用场景信息,我们提出了建模对象-场景关联(MOS)框架,该框架利用一个简单的基于MLP的场景感知模块来增强GCD性能。与最先进的方法相比,它在具有挑战性的细粒度数据集上实现了4%的平均准确率提升,强调了其在细粒度GCD中的卓越性能。代码可在此https URL公开获取。

[39] PSGait:使用解析骨架的多模态步态识别
标题: PSGait: Multimodal Gait Recognition using Parsing Skeleton
作者: Hangrui Xu / Chuanrui Zhang / Zhengxian Wu / Peng Jiao / Haoqian Wang
原文:   [英文]   [中文]  
备注: None
摘要:
步态识别因其非侵入性和对遮挡的鲁棒性而成为一种强大的生物识别方式。传统的步态识别方法通常依赖于轮廓或骨架。尽管它们在受控实验室环境中的步态识别中取得了成功,但由于其步态表示的信息熵有限,通常在现实场景中表现不佳。为了在自然环境中实现准确的步态识别,我们提出了一种新颖的步态表示,称为解析骨架。这种表示创新性地引入了骨架引导的人体解析方法,以捕捉细粒度的身体动态,从而具有更高的信息熵来编码行走过程中细粒度人体部位的形状和动态。此外,为了有效探索解析骨架表示的能力,我们提出了一种新颖的基于解析骨架的步态识别框架,称为PSGait,该框架以解析骨架和轮廓为输入。通过融合这两种模态,生成的图像序列被输入到步态识别模型中,以增强个体区分能力。我们在各种数据集上进行了全面的基准测试来评估我们的模型。PSGait优于现有的最先进的多模态方法。此外,作为一种即插即用的方法,PSGait在各种步态识别模型中使Rank-1准确率最高提高了10.9%。这些结果证明了解析骨架在自然环境中步态识别的有效性和多功能性,确立了PSGait作为多模态步态识别的新一代最先进方法。

[40] TACO:驯服扩散以实现野外视频的非模态补全
标题: TACO: Taming Diffusion for in-the-wild Video Amodal Completion
作者: Ruijie Lu / Yixin Chen / Yu Liu / Jiaxiang Tang / Junfeng Ni / Diwen Wan / Gang Zeng / Siyuan Huang
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
人类可以从有限的视觉线索中推断出物体的完整形状和外观,这依赖于对物理世界的广泛先验知识。然而,现有模型在确保视频帧之间的一致性时,完成部分可观察物体仍然具有挑战性,尤其是对于非结构化的自然视频。本文解决了视频非显式完成(VAC)任务,该任务旨在生成视频中指定目标对象的完整物体,并在整个视频中保持一致。我们利用预训练视频扩散模型学习到的丰富且一致的流形,提出了一种条件扩散模型TACO,将这些流形重新用于VAC。为了使其能够有效且稳健地泛化到具有挑战性的自然场景中,我们通过系统地对未遮挡视频施加遮挡,策划了一个具有多个难度级别的大规模合成数据集。在此基础上,我们设计了一种渐进式微调范式,从较简单的恢复任务开始,逐步推进到更复杂的任务。我们展示了TACO在来自互联网的广泛自然视频以及在自动驾驶、机器人操作和场景理解中常用的多样化、未见数据集上的多功能性。此外,我们展示了TACO可以有效应用于各种下游任务,如物体重建和姿态估计,突显其促进物理世界理解和推理的潜力。我们的项目页面可在此HTTPS URL访问。

[41] Tailor:一个集成的文本驱动的计算机图形准备的人物和服装生成系统
标题: Tailor: An Integrated Text-Driven CG-Ready Human and Garment Generation System
作者: Zhiyao Sun / Yu-Hui Wen / Matthieu Lin / Ho-Jui Fang / Sheng Ye / Tian Lv / Yong-Jin Liu
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
创建具有服装的详细3D人类化身通常需要专业知识和费力的过程。尽管最近生成式人工智能的进步使得文本到3D人类/服装生成成为可能,但当前的方法在提供可访问的、集成的管道以生成可直接使用的穿衣化身方面仍显不足。为了解决这个问题,我们引入了Tailor,一个集成的文本到化身系统,可以生成高保真、可定制的3D人类,并配有可进行模拟的服装。我们的系统包括一个三阶段的管道。首先,我们使用大型语言模型将文本描述解释为参数化的身体形状和语义匹配的服装模板。接下来,我们开发了具有新颖几何损失的拓扑保持变形,以精确地将服装适配到身体几何形状。此外,增强的纹理扩散模块结合对称的局部注意机制,确保了视图一致性和照片级真实细节。定量和定性评估表明,Tailor在保真度、可用性和多样性方面优于现有的最先进方法。代码将可用于学术用途。

[42] EHNet:一种用于人群计数和定位的高效混合网络
标题: EHNet: An Efficient Hybrid Network for Crowd Counting and Localization
作者: Yuqing Yan / Yirui Wu
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,群体计数和定位已成为计算机视觉中的关键技术,应用于多个领域。在单张图像中存在多尺度人群分布仍然是群体计数任务中的一个基本挑战。为了解决这些挑战,我们引入了高效混合网络(EHNet),这是一种用于高效群体计数和定位的新框架。通过将群体计数重新表述为点回归框架,EHNet利用空间位置注意模块(SPAM)来捕捉全面的空间上下文和长距离依赖。此外,我们开发了自适应特征聚合模块(AFAM),以有效融合和协调多尺度特征表示。在此基础上,我们引入了多尺度注意解码器(MSAD)。在四个基准数据集上的实验结果表明,EHNet在减少计算开销的同时实现了具有竞争力的性能,优于现有的上海科技Part_A、上海科技Part_B、UCF-CC-50和UCF-QNRF方法。我们的代码在这个https URL中。

[43] DLA-Count:用于密集细胞分布计数的动态标签分配网络
标题: DLA-Count: Dynamic Label Assignment Network for Dense Cell Distribution Counting
作者: Yuqing Yan / Yirui Wu
原文:   [英文]   [中文]  
备注: None
摘要:
细胞计数由于细胞形态的多样性、密集的分布以及图像质量的变化,仍然是医学和生物学研究中一项基本但具有挑战性的任务。我们提出了DLA-Count,这是一种在细胞计数领域的突破性方法,包含三个关键创新:(1)K-邻近匈牙利匹配(KHM),显著改善了密集区域的细胞匹配;(2)多尺度可变形高斯卷积(MDGC),适应不同的细胞形态;(3)高斯增强特征解码器(GFD),用于高效的多尺度特征融合。我们在四个具有挑战性的细胞计数数据集(ADI、MBM、VGG和DCC)上进行了广泛的实验,结果表明我们的方法在各种数据集上均优于以往的方法,在ADI数据集上的平均绝对误差提高了高达46.7%,在MBM数据集上提高了42.5%。我们的代码可以在此https URL获取。

[44] 关于知识蒸馏的全面综述
标题: A Comprehensive Survey on Knowledge Distillation
作者: Amir M. Mansourian / Rozhan Ahmadi / Masoud Ghafouri / Amir Mohammad Babaei / Elaheh Badali Golezani / Zeynab Yasamani Ghamchi / Vida Ramezanian / Alireza Taherian / Kimia Dinashi / Amirali Miri / Shohreh Kasaei
原文:   [英文]  
备注: 47 pages, 10 figures, 13 tables
摘要:
深度神经网络(DNNs)在计算机视觉和自然语言处理领域取得了显著的性能,并在学术界和工业界有着广泛的应用。然而,随着DNNs和具有大量参数的Transformer模型的最新进展,将这些大型模型部署在边缘设备上会导致严重的问题,例如高运行时间和内存消耗。尤其是最近的大规模基础模型、视觉语言模型(VLMs)和大型语言模型(LLMs)更是令人担忧。知识蒸馏(KD)是为解决上述问题而提出的一个重要技术,采用教师-学生架构。更具体地说,一个轻量级的学生模型通过从繁重的教师模型中获取额外知识进行训练。在这项工作中,提出了一项关于知识蒸馏方法的全面综述。这包括从不同方面审视知识蒸馏:蒸馏来源、蒸馏方案、蒸馏算法、按模态进行蒸馏、蒸馏的应用以及现有方法之间的比较。与大多数现有综述不同的是,这些综述要么过时,要么只是更新以前的综述,而这项工作提出了一种新的观点和表示结构的全面综述,分类并研究了知识蒸馏领域最新的方法。该综述考虑了各种关键重要的子类别,包括用于扩散模型、3D输入、基础模型、Transformer和LLMs的知识蒸馏。此外,还讨论了知识蒸馏中现存的挑战和未来可能的研究方向。项目的Github页面:this https URL

[45] 基于原型的图像提示用于弱监督病理组织图像分割
标题: Prototype-Based Image Prompting for Weakly Supervised Histopathological Image Segmentation
作者: Qingchen Tang / Lei Fan / Maurice Pagnucco / Yang Song
原文:   [英文]   [中文]  
备注: None
摘要:
由于像素级标注的高成本,弱监督图像分割使用图像级标签引起了关注。传统使用类激活图(CAMs)的方法通常只突出最具辨别力的区域,导致掩码不完整。最近引入文本信息的方法在组织病理学图像中表现不佳,因为存在类间同质性和类内异质性。在本文中,我们提出了一种基于原型的图像提示框架用于组织病理学图像分割。该框架通过聚类从训练集中构建图像库,为每个类别提取多个原型特征,以捕捉类内异质性。通过使用对比学习设计输入特征与类别特定原型之间的匹配损失,我们的方法解决了类间同质性问题,并引导模型生成更准确的CAMs。在四个数据集(LUAD-HistoSeg、BCSS-WSSS、GCSS和BCSS)上的实验表明,我们的方法优于现有的弱监督分割方法,在组织病理学图像分割中设定了新的基准。

[46] 通过匹配对抗轨迹实现稳健的数据集蒸馏
标题: Robust Dataset Distillation by Matching Adversarial Trajectories
作者: Wei Lai / Tianyu Ding / ren dongdong / Lei Wang / Jing Huo / Yang Gao / Wenbin Li
原文:   [英文]   [中文]  
备注: None
摘要:
数据集蒸馏通过合成紧凑的数据集,使模型能够达到与在原始大规模数据集上训练相当的性能。然而,现有的蒸馏方法忽视了模型的鲁棒性,导致模型在蒸馏数据上训练时容易受到对抗性攻击。为了解决这一限制,我们引入了“鲁棒数据集蒸馏”任务,这是一种新的范式,在蒸馏过程中将对抗性鲁棒性嵌入到合成数据集中。我们提出了匹配对抗轨迹(MAT)方法,该方法将对抗训练整合到基于轨迹的数据集蒸馏中。MAT在轨迹生成过程中加入对抗样本,以获得鲁棒的训练轨迹,然后用这些轨迹来指导蒸馏过程。实验结果表明,即使在我们的蒸馏数据集上进行自然训练,模型也能在保持与现有蒸馏方法相当的准确性的同时,实现增强的对抗鲁棒性。我们的工作强调了鲁棒数据集蒸馏作为一个新的重要研究方向,并为未来研究提供了一个强有力的基准,以弥合高效训练与对抗鲁棒性之间的差距。

[47] V-Stylist:通过MLLM代理的协作与反思实现视频风格化
标题: V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents
作者: Zhengrong Yue / Shaobin Zhuang / Kunchang Li / Yanbo Ding / Yali Wang
原文:   [英文]  
备注: CVPR 2025
摘要:
尽管视频风格化技术最近取得了进展,但大多数现有方法在基于用户查询的开放风格描述下,难以渲染具有复杂过渡的视频。为填补这一空白,我们通过一种新颖的多模态大型语言模型的协作和反思范式,引入了一种通用的多代理系统用于视频风格化,称为V-Stylist。具体而言,我们的V-Stylist是一个系统化的工作流程,具有三个关键角色:(1)视频解析器将输入视频分解为多个镜头,并生成这些关键镜头内容的文本提示。通过简洁的视频到镜头提示范式,它使我们的V-Stylist能够有效处理具有复杂过渡的视频。(2)风格解析器识别用户查询中的风格,并逐步从风格树中搜索匹配的风格模型。通过稳健的思维树搜索范式,它使我们的V-Stylist能够在开放的用户查询中精确指定模糊的风格偏好。(3)风格艺术家利用匹配的模型将所有视频镜头渲染为所需风格。通过新颖的多轮自我反思范式,它使我们的V-Stylist能够根据风格要求自适应地调整细节控制。通过这种模仿人类专业人士的独特设计,我们的V-Stylist在有效和自动视频风格化的主要挑战上取得了重大突破。此外,我们进一步构建了一个新的基准——文本驱动视频风格化基准(TVSBench),填补了评估复杂视频在开放用户查询上的风格化的空白。大量实验表明,V-Stylist达到了最先进的水平,例如,V-Stylist在整体平均指标上分别超过FRESCO和ControlVideo 6.05%和4.51%,标志着视频风格化的显著进步。

[48] FA-BARF:频率自适应捆绑调整神经辐射场
标题: FA-BARF: Frequency Adapted Bundle-Adjusting Neural Radiance Fields
作者: Rui Qian / Chenyangguang Zhang / Yan Di / Guangyao Zhai / Ruida Zhang / Jiayu Guo / Benjamin Busam / Jian Pu
原文:   [英文]   [中文]  
备注: None
摘要:
神经辐射场(NeRF)最近在逼真的新视图合成方面表现出极高的效果。然而,它面临的主要限制是依赖于手工设计的频率退火策略来恢复具有不完美相机姿态的三维场景。该策略利用时间低通滤波器来保证收敛,同时减缓隐式场景重建和相机注册的联合优化。在这项工作中,我们引入了频率自适应捆绑调整辐射场(FA-BARF),用频率自适应空间低通滤波器替代时间低通滤波器来解决减速问题。我们建立了一个理论框架来解释NeRF的位置编码与相机注册之间的关系,并展示我们的频率自适应滤波器可以减轻由时间滤波器引起的频率波动。此外,我们展示在NeRF中应用空间低通滤波器可以通过不同视图之间的径向不确定性重叠有效优化相机姿态。大量实验表明,FA-BARF可以在物体中心场景中微小扰动下加速联合优化过程,并恢复具有未知相机姿态的真实场景。这意味着NeRF在实时要求下应用于密集三维映射和重建的更广泛可能性。代码将在论文接受后发布。

[49] 从超声心动图视频的稀疏标注中获得时间一致的二尖瓣环测量
标题: Temporally Consistent Mitral Annulus Measurements from Sparse Annotations in Echocardiographic Videos
作者: Gino E. Jansen / Mark J. Schuuring / Berto J. Bouma / Ivana Išgum
原文:   [英文]   [中文]  
备注: None
摘要:
本文提出了一种新颖的方法,通过稀疏标注在超声心动图视频中实现时间一致的二尖瓣环标志点定位。我们的方法引入了一种自监督损失项,强制相邻帧之间的时间一致性,从而平滑标志点的位置并随着时间的推移提高测量精度。此外,我们结合了现实的视野增强,以改善对缺失解剖标志的识别。我们在公共和私有数据集上评估了我们的方法,并在二尖瓣环平面收缩期位移(MAPSE)计算和整体标志点跟踪稳定性方面展示了显著的改进。该方法实现了1.81 ± 0.14 mm的平均绝对MAPSE误差,2.46 ± 0.31 mm的环大小误差,以及2.48 ± 0.07 mm的标志点定位误差。最后,它在识别缺失标志点方面实现了0.99的ROC-AUC。

[50] SFMNet:用于三维物体检测的稀疏焦点调制
标题: SFMNet: Sparse Focal Modulation for 3D Object Detection
作者: Oren Shrout / Ayellet Tal
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了SFMNet,这是一种新颖的3D稀疏检测器,它结合了稀疏卷积的高效性和建模长距离依赖的能力。传统的稀疏卷积技术虽然能够高效地捕捉局部结构,但在建模长距离关系方面存在困难。然而,捕捉长距离依赖对于3D目标检测是至关重要的。相比之下,transformer通过注意力机制设计来捕捉这些长距离依赖,但由于其二次方的查询-键-值交互,计算成本很高。此外,直接对非空体素应用注意力由于3D场景的稀疏性而效率低下。我们的SFMNet基于一种新颖的稀疏焦点调制(SFM)模块,该模块通过利用新的分层稀疏卷积设计,以线性复杂度整合短程和长程上下文。这种方法使得SFMNet能够在提高效率的同时实现高检测性能,非常适合大规模LiDAR场景。我们展示了我们的检测器在自动驾驶数据集上达到了最先进的性能。

[51] E-SAM:无需训练的实体分割模型
标题: E-SAM: Training-Free Segment Every Entity Model
作者: Weiming Zhang / Dingwen Xiao / Lei Chen / Lin Wang
原文:   [英文]   [中文]  
备注: Under review
摘要:
实体分割(ES)旨在识别和分割图像中的不同实体,而无需预定义的类别标签。这一特性使得ES非常适合开放世界应用,能够适应多样化和动态变化的环境,其中新的和以前未见过的实体可能频繁出现。现有的ES方法要么需要大量标注数据集,要么需要高昂的训练成本,限制了其可扩展性和适应性。最近,尤其是在自动掩码生成(AMG)模式下的“分割任何模型”(SAM)显示出整体图像分割的潜力。然而,它在过度分割和欠分割方面存在困难,使其在ES中效果不佳。在本文中,我们介绍了E-SAM,一种无需训练的新颖框架,表现出卓越的ES能力。具体来说,我们首先提出了多级掩码生成(MMG),分层处理SAM的AMG输出,以生成可靠的对象级掩码,同时在其他级别保留细节。实体级掩码优化(EMR)随后将这些对象级掩码优化为准确的实体级掩码。即,它通过评估实体级一致性分离重叠掩码以解决SAM输出中固有的冗余问题,并合并相似掩码。最后,欠分割优化(USR)通过生成与EMR输出融合的额外高置信度掩码来解决欠分割问题,以生成最终的ES图。这三个模块无缝优化,以在不增加额外训练负担的情况下实现最佳ES。大量实验表明,E-SAM在基准指标上相比之前的ES方法实现了+30.1的显著性能提升,达到了最先进的水平。

[52] 迈向零愿景:Accid3nD数据集
标题: Towards Vision Zero: The Accid3nD Dataset
作者: Walter Zimmer / Ross Greer / Daniel Lehmberg / Marc Pavel / Holger Caesar / Xingcheng Zhou / Ahmed Ghita / Mohan Trivedi / Rui Song / Hu Cao / Akshay Gopalkrishnan / Alois C. Knoll
原文:   [英文]  
备注: None
摘要:
尽管已经进行了大量工作以提高交通网络的安全性,但事故仍然经常发生。它们必须被理解为交通网络不可避免且偶发的结果。没有公共数据集包含从路边传感器记录的真实事故的3D标注。我们介绍了Accid3nD数据集,这是一个在不同天气和光照条件下的真实高速公路事故集合。它包含高速驾驶车辆碰撞的2,634,233个标注的2D边界框、实例掩码和带有轨迹ID的3D边界框。总共,该数据集包含从四个路边摄像头和激光雷达以25 Hz记录的111,945个标注帧。数据集包含六个对象类别,并以OpenLABEL格式提供。我们提出了一种结合基于规则的方法和基于学习的方法的事故检测模型。我们数据集上的实验和消融研究显示了我们提出方法的鲁棒性。数据集、模型和代码可在我们的网站上获取:这个https URL。

[53] O-TPT:用于校准视觉-语言模型测试时提示微调的正交约束
标题: O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models
作者: Ashshak Sharifdeen / Muhammad Akhtar Munir / Sanoojan Baliah / Salman Khan / Muhammad Haris Khan
原文:   [英文]   [中文]  
备注: Accepted at CVPR 2025
摘要:
视觉-语言模型(VLMs)的测试时提示调优因其无需微调即可利用未标记数据进行学习的能力而受到关注。尽管VLMs的测试时提示调优方法可以提高准确性,但生成的模型往往表现出较差的校准性,这对这些模型的可靠性和可信度提出了质疑。值得注意的是,需要更多关注于校准视觉-语言模型中的测试时提示调优。为此,我们提出了一种新方法,称为O-TPT,该方法在与可学习提示对应的文本特征上引入正交约束,以校准VLMs中的测试时提示调优。为引入正交约束,我们做出了以下贡献。首先,我们揭示了现有方法依赖文本特征分散而导致次优校准性能的新见解。其次,我们表明,对文本特征施加简单的正交化是获得文本分散的更有效方法。我们在不同的骨干和基线上对各种数据集进行了广泛的实验。结果表明,我们的方法在显著降低整体平均校准误差方面始终优于现有的最先进方法。此外,我们的方法在细粒度分类任务中超越了零样本校准性能。

[54] 一种使用时空扩散进行声道MRI的语音到视频合成方法
标题: A Speech-to-Video Synthesis Approach Using Spatio-Temporal Diffusion for Vocal Tract MRI
作者: Paula Andrea Pérez-Toro / Tomás Arias-Vergara / Fangxu Xing / Xiaofeng Liu / Maureen Stone / Jiachen Zhuo / Juan Rafael Orozco-Arroyave / Elmar Nöth / Jana Hutter / Jerry L. Prince / Andreas Maier / Jonghye Woo
原文:   [英文]   [中文]  
备注: None
摘要:
理解语音过程中声道运动与产生的声学信号之间的关系,对于辅助临床评估以及制定个性化治疗和康复策略至关重要。为此,我们引入了一种音频到视频生成框架,用于从语音信号创建声道的实时/电影磁共振成像(RT-/cine-MRI)视觉效果。我们的框架首先对RT-/cine-MRI序列和语音样本进行预处理,以实现时间对齐,确保视觉和音频数据的同步。然后,我们采用了一种改进的稳定扩散模型,结合结构和时间模块,有效捕捉同步数据中的运动特征和时间动态。此过程使得从新的语音输入生成MRI序列成为可能,改善了音频到视觉数据的转换。我们通过分析和比较合成视频中的声道运动,对健康对照组和舌癌患者评估了我们的框架。我们的框架展示了对新语音输入的适应性和有效的泛化能力。此外,积极的人类评估证实了其有效性,具有逼真和准确的可视化效果,表明其在门诊治疗和声道可视化个性化模拟中的潜力。

[55] Z-Magic:零样本多属性引导图像创作器
标题: Z-Magic: Zero-shot Multiple Attributes Guided Image Creator
作者: Yingying Deng / Xiangyu He / Fan Tang / Weiming Dong
原文:   [英文]  
备注: CVPR2025
摘要:
随着个性化内容创作需求的增加,多属性定制变得越来越受欢迎。尽管取得了令人鼓舞的实证结果,但不同属性之间的上下文连贯性在很大程度上被忽视了。在本文中,我们认为后续属性应遵循由前一个属性创建引入的多变量条件分布。基于此,我们从条件概率理论的角度重新表述了多属性创建,并解决了具有挑战性的零样本设置。通过明确建模属性之间的依赖关系,我们进一步增强了在不同属性组合中生成图像的一致性。此外,我们识别了多属性定制与多任务学习之间的联系,有效地解决了多属性合成中遇到的高计算成本。大量实验表明,Z-Magic在零样本图像生成方面优于现有模型,对人工智能驱动的设计和创意应用具有广泛的影响。

[56] 双曲安全感知视觉-语言模型
标题: Hyperbolic Safety-Aware Vision-Language Models
作者: Tobia Poppi / Tejaswi Kasarla / Pascal Mettes / Lorenzo Baraldi / Rita Cucchiara
原文:   [英文]  
备注: CVPR 2025
摘要:
解决从视觉语言模型(如 CLIP)中检索不安全内容的问题是实现现实世界集成的重要一步。目前的努力依赖于“去学习”技术,试图抹去模型对不安全概念的知识。虽然在减少不良输出方面有效,但去学习限制了模型区分安全和不安全内容的能力。在这项工作中,我们引入了一种新颖的方法,通过利用双曲空间的固有层次属性,从去学习转向意识范式。我们建议将安全和不安全内容编码为一种蕴涵层次结构,其中两者被放置在双曲空间的不同区域。我们的 HySAC(双曲安全感知 CLIP)采用蕴涵损失函数来建模安全和不安全图文对之间的层次和不对称关系。这种建模在标准视觉语言模型中由于其依赖于欧几里得嵌入而无效,使模型具备对不安全内容的意识,使其既可以作为多模态不安全分类器,也可以作为灵活的内容检索器,能够动态地将不安全查询重定向到更安全的替代方案或保留原始输出。大量实验表明,我们的方法不仅增强了安全识别能力,还为视觉语言模型中的内容审核建立了一个更具适应性和可解释性的框架。我们的源代码可在此 https URL 获取。

[57] DiffGAP:一种在对比空间中用于弥合跨模型差距的轻量级扩散模块
标题: DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap
作者: Shentong Mo / Zehua Chen / Fan Bao / Jun Zhu
原文:   [英文]  
备注: None
摘要:
近年来,跨模态理解和生成领域的研究取得了显著进展,尤其是通过像 CLAP(对比语言-音频预训练)和 CAVP(对比音频-视觉预训练)这样的模型。这些模型通过单一的对比损失大大增强了文本、视频和音频嵌入的对齐。然而,这些方法往往忽视了每种模态中存在的双向交互和固有噪声,而这些因素对跨模态整合的质量和效果有着至关重要的影响。为了解决这一局限性,我们引入了 DiffGAP,这是一种在对比空间中结合轻量级生成模块的新方法。具体来说,我们的 DiffGAP 采用了一个双向扩散过程,旨在更有效地弥合跨模态差距。这包括在音频嵌入的条件下对文本和视频嵌入进行去噪处理,反之亦然,从而促进更细致和稳健的跨模态交互。我们在 VGGSound 和 AudioCaps 数据集上的实验结果表明,DiffGAP 在视频/文本-音频生成和检索任务中显著提高了性能,证实了其在增强跨模态理解和生成能力方面的有效性。

[58] Point-Cache:用于稳健和可推广点云分析的测试时动态和分层缓存
标题: Point-Cache: Test-time Dynamic and Hierarchical Cache for Robust and Generalizable Point Cloud Analysis
作者: Hongyu Sun / Qiuhong Ke / Ming Cheng / Yongcai Wang / Deying Li / Chenhui Gou / Jianfei Cai
原文:   [英文]  
备注: Accepted by CVPR 2025; 24 pages, 14 figures, 18 tables
摘要:
本文提出了一种通用解决方案,使点云识别模型能够在测试时处理分布变化。与以往的方法不同,这些方法严重依赖于训练数据——在在线推理时通常无法访问——并且仅限于识别训练期间预定义的一组固定的点云类别,我们探索了一种更实用且更具挑战性的场景:仅基于在线测试数据来调整模型,以在测试时识别先前见过的类别和新的、未见过的类别。为此,我们开发了Point-Cache,这是一种分层缓存模型,能够捕捉在线测试样本的重要线索,特别关注点云的全局结构及其局部细节。Point-Cache作为一个丰富的3D知识库,动态管理以优先包含高质量样本。设计为即插即用模块,我们的方法可以灵活地集成到大型多模态3D模型中,以支持开放词汇的点云识别。值得注意的是,我们的解决方案的运行效率可与零样本推理相媲美,因为它完全不需要训练。Point-Cache在8个具有挑战性的基准和4个具有代表性的大型3D模型中展示了显著的提升,突显了其有效性。代码可在此https URL获取。

[59] VTON 360:任意视角下的高保真虚拟试穿
标题: VTON 360: High-Fidelity Virtual Try-On from Any Viewing Direction
作者: Zijian He / Yuwei Ning / Yipeng Qin / Wangrun Wang / Sibei Yang / Liang Lin / Guanbin Li
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025
摘要:
虚拟试穿(VTON)是一项变革性的技术,在电子商务和时尚设计中实现了服装在个人身上的逼真数字可视化。在这项工作中,我们提出了VTON 360,这是一种新颖的3D VTON方法,解决了实现支持任意视角渲染的高保真VTON的开放挑战。具体来说,我们利用3D模型及其渲染的多视角2D图像之间的等价性,将3D VTON重新表述为2D VTON的扩展,以确保在多个视角下的3D一致性结果。为此,我们将2D VTON模型扩展为包括多视角服装和与服装无关的人体图像作为输入,并提出了几种新颖的技术来增强它们,包括:i)使用从SMPL-X 3D人体模型导出的法线贴图的伪3D姿态表示,ii)一种多视角空间注意机制,用于建模来自不同视角的特征之间的相关性,以及iii)一种多视角CLIP嵌入,利用相机信息增强2D VTON中使用的服装CLIP特征。在大规模真实数据集和来自电子商务平台的服装图像上的广泛实验表明了我们方法的有效性。项目页面:this https URL。

[60] 将极高密度人群视为活性物质进行学习
标题: Learning Extremely High Density Crowds as Active Matters
作者: Feixiang He / Jiangbei Yue / Jialin Zhu / Armin Seyfried / Dan Casas / Julien Pettré / He Wang
原文:   [英文]   [中文]  
备注: Accepted by CVPR 2025
摘要:
基于视频的高密度人群分析和预测一直是计算机视觉领域的一个长期话题。由于缺乏高质量数据和复杂的人群动态,这个问题极其困难,并且研究相对较少。在本文中,我们提出了一种新方法,旨在从野外视频中学习,这些视频通常质量较低,难以跟踪个体或计数人数。关键的新颖之处在于我们引入了一种新的物理先验来建模人群动态。我们将高密度人群建模为活性物质,一种受随机力影响的活性粒子连续体,称为“人群材料”。我们的物理模型与神经网络结合,形成一个神经随机微分方程系统,可以模拟复杂的人群动态。由于缺乏类似研究,我们调整了一系列与我们方法接近的现有方法进行比较。通过详尽的评估,我们展示了我们的模型在分析和预测极高密度人群方面优于现有方法。此外,由于我们的模型是一个连续时间物理模型,它可以用于模拟和分析,提供强大的可解释性。这与大多数深度学习方法截然不同,后者是离散时间模型且为黑箱。

[61] LAPIG:语言引导的投影仪图像生成与表面适应和风格化
标题: LAPIG: Language Guided Projector Image Generation with Surface Adaptation and Stylization
作者: Yuchen Deng / Haibin Ling / Bingyao Huang
原文:   [英文]   [中文]  
备注: 12 pages, 9 figures
摘要:
我们提出了LAPIG,一种语言引导的投影仪图像生成方法,具有表面适应和风格化功能。LAPIG由一个投影仪-摄像机系统和一个目标纹理投影表面组成。LAPIG以用户的文本提示为输入,旨在使用投影仪改变表面风格。LAPIG的关键挑战在于,由于投影仪的物理亮度限制和表面纹理,观众感知到的投影可能在暗区和亮区出现颜色饱和和伪影问题,即使使用最先进的投影仪补偿技术,观众仍可能看到明显的与表面纹理相关的伪影。因此,如何生成一个既符合用户指令又显示最少表面伪影的投影仪图像是一个开放问题。为了解决这个问题,我们提出了投影表面适应(PSA),可以生成可补偿的表面风格化。我们首先训练两个网络来模拟投影仪补偿和投影-捕获过程,这使我们能够在不进行真实投影-捕获的情况下找到满意的投影仪图像,并利用梯度下降实现快速收敛。然后,我们设计了内容和饱和度损失来指导投影仪图像生成,使生成的图像在投影时没有明显可感知的伪影。最后,生成的图像被投影以实现视觉上令人愉悦的表面风格变换效果。源代码和视频可在项目页面上获取:这个 https URL。

[62] 打破框架:利用徒手素描增强遥感图像分割
标题: Breaking the Box: Enhancing Remote Sensing Image Segmentation with Freehand Sketches
作者: Ying Zang / Yuncan Gao / Jiangi Zhang / Yuangi Hu / Runlong Cao / Lanyun Zhu / Qi Zhu / Deyi Ji / Renjun Xu / Tianrun Chen
原文:   [英文]   [中文]  
备注: None
摘要:
这项工作通过三个关键贡献推进了遥感图像的零样本交互式分割。首先,我们提出了一种新颖的基于草图的提示方法,使用户能够直观地勾勒出对象,超越了传统的点或框提示。其次,我们引入了LTL-Sensing,这是第一个将人类草图与遥感图像配对的数据集,为未来的研究设定了基准。第三,我们提出了LTL-Net,这是一种具有多输入提示传输模块的模型,专为手绘草图设计。大量实验表明,我们的方法显著提高了分割的准确性和鲁棒性,优于当前最先进的方法如SAM,促进了更直观的人机协作在遥感分析中的应用,并增强了其应用。

[63] S2IL:结构稳定的增量学习
标题: S2IL: Structurally Stable Incremental Learning
作者: S Balasubramanian / Yedu Krishna P / Talasu Sai Sriram / M Sai Subramaniam / Manepalli Pranav Phanindra Sai / Darshan Gera
原文:   [英文]  
备注: None
摘要:
特征蒸馏(FD)策略已被证明在缓解类增量学习(CIL)中的灾难性遗忘(CF)方面是有效的。然而,目前的FD方法在增量步骤中强制特征的大小和方向严格对齐,限制了模型适应新知识的能力。在本文中,我们提出了一种结构稳定增量学习(S22IL)方法,这是一种用于CIL的FD方法,通过关注保持特征的整体空间模式来缓解CF,从而促进灵活(可塑性)但稳定的表示,保留旧知识(稳定性)。我们还证明了我们提出的方法S2IL在增量准确性方面表现强劲,并在SOTA基准数据集CIFAR-100、ImageNet-100和ImageNet-1K上优于其他FD方法。值得注意的是,S2IL在具有大量增量任务的场景中以显著优势超越其他方法。

[64] TLAC:用于零样本分类的两阶段LMM增强CLIP
标题: TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification
作者: Ans Munir / Faisal Z. Qureshi / Muhammad Haris Khan / Mohsen Ali
原文:   [英文]   [中文]  
备注: None
摘要:
对比语言-图像预训练(CLIP)在图像分类中展示了令人印象深刻的零样本性能。然而,最先进的方法通常依赖于微调技术,如提示学习和基于适配器的调优,以优化CLIP的性能。微调的必要性显著限制了CLIP对新数据集和领域的适应性。这一要求为每个新数据集带来了大量的时间和计算资源消耗。为了解决这一限制,我们引入了简单而有效的无训练方法:单阶段LMM增强CLIP(SLAC)和双阶段LMM增强CLIP(TLAC),利用强大的大型多模态模型(LMM),如Gemini,用于图像分类。所提出的方法利用了预训练LMM的能力,允许在无需额外训练的情况下无缝适应不同的数据集和领域。我们的方法涉及提示LMM识别图像中的对象。随后,CLIP文本编码器通过识别与LLM预测对象语义相似度最高的数据集类别来确定图像类别。我们在11个基础到新颖数据集上评估了我们的模型,并在其中9个数据集上取得了优异的准确性,包括ImageNet、SUN397和Caltech101等基准,同时保持严格的无训练范式。我们的总体准确率为83.44%,比之前的最先进少样本方法高出6.75%。我们的方法在13个数据集上实现了83.6%的平均准确率,比之前73.9%的无训练方法提高了9.7%。我们的方法提高了领域泛化能力,在ImageNetV2上提高了3.6%,在ImageNet-S上提高了16.96%,在ImageNet-R上提高了12.59%,相较于之前的少样本方法。

[65] STAY Diffusion:用于多样化布局到图像生成的风格化布局扩散模型
标题: STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation
作者: Ruyu Wang / Xuefeng Hou / Sabrina Schmedding / Marco F. Huber
原文:   [英文]   [中文]  
备注: Accepted by WACV2025
摘要:
在布局到图像(L2I)合成中,复杂场景从边界框等粗略信息中生成。由于输入布局为生成过程提供了强有力的指导,同时仍然可以由人类轻松重新配置,这样的任务对许多下游应用来说是令人兴奋的。在本文中,我们提出了STyled LAYout Diffusion(STAY Diffusion),这是一种基于扩散的模型,可以生成照片级真实感的图像,并在场景中提供对风格化对象的细粒度控制。我们的方法为每个布局学习一个全局条件,并使用一种新颖的边缘感知归一化(EA Norm)进行权重调制的自监督语义图。我们还引入了一种新的风格化掩码注意力(SM Attention),用于交叉条件全局条件和图像特征,以捕捉对象之间的关系。这些措施通过模型提供一致的指导,使图像生成更加准确和可控。广泛的基准测试表明,我们的STAY Diffusion在生成多样性、准确性和可控性方面超越了以前的最新方法,同时呈现出高质量的图像。

[66] 结合人体姿态和武器外观的枪支检测
标题: Gun Detection Using Combined Human Pose and Weapon Appearance
作者: Amulya Reddy Maligireddy / Manohar Reddy Uppula / Nidhi Rastogi / Yaswanth Reddy Parla
原文:   [英文]   [中文]  
备注: None
摘要:
枪支相关事件的频率不断增加,这就需要在安全和监控系统方面进行改进,特别是在公共场所的枪支检测方面。传统的枪支检测方法依赖于人工检查和对闭路电视录像的持续人工监控,这些方法劳动强度大,并且容易出现高误报率和漏报率。为了解决这些局限性,我们提出了一种新颖的方法,将人体姿态估计与武器外观识别相结合,利用深度学习技术。与以往仅关注身体姿态估计或单独进行枪支检测的研究不同,我们的方法联合分析姿态和武器存在,以提高在真实动态环境中的检测准确性。为了训练我们的模型,我们策划了一个多样化的数据集,包括来自IMFDB和Monash Guns等开源库的图像,并补充了AI生成的图像和从网络来源手动收集的图像。该数据集确保了在各种监控条件下的强大泛化能力和现实性能评估。我们的研究旨在提高枪支检测系统的精度和可靠性,为高风险地区的公共安全和威胁缓解做出贡献。

[67] 自适应标签校正用于具有噪声标签的鲁棒医学图像分割
标题: Adaptive Label Correction for Robust Medical Image Segmentation with Noisy Labels
作者: Chengxuan Qian / Kai Han / Siqi Ma / Chongwen Lyu / Zhenlong Yuan / Jun Chen / Zhe Liu
原文:   [英文]   [中文]  
备注: None
摘要:
深度学习在医学图像分析中取得了显著成功,但其对大量高质量标注数据的依赖限制了其适用性。虽然较容易获得噪声标注数据,但直接将其纳入训练可能会降低模型性能。为了解决这一挑战,我们提出了一种基于Mean Teacher的自适应标签校正(ALC)自集成框架,用于在噪声标签下进行稳健的医学图像分割。该框架利用Mean Teacher架构确保在噪声扰动下的一致学习。它包括一个自适应标签优化机制,动态捕捉并加权多个扰动版本之间的差异,以提高噪声标签的质量。此外,引入了一个基于样本级不确定性的标签选择算法,以优先选择高置信度样本进行网络更新,从而减轻噪声标注的影响。通过一致性学习来对齐学生网络和教师网络的预测,进一步增强模型的稳健性。在两个公共数据集上的大量实验表明,所提出的框架的有效性,显示出显著的分割性能提升。通过充分利用Mean Teacher结构的优势,ALC框架有效处理噪声标签,适应挑战性场景,并与最先进的方法相比取得了竞争性结果。

[68] LIAM:用于语言指令、图像、动作和语义地图的多模态Transformer
标题: LIAM: Multimodal Transformer for Language Instructions, Images, Actions and Semantic Maps
作者: Yihao Wang / Raphael Memmesheimer / Sven Behnke
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型和开放词汇对象感知方法的可用性为家用服务机器人提供了更大的灵活性。通过为机器人提供任务描述和适当的环境信息,可以在不单独实现每个任务的情况下应对家务任务的多样性。在这项工作中,我们提出了LIAM——一个基于语言、图像、动作和地图输入来预测动作记录的端到端模型。语言和图像输入通过CLIP骨干网络进行编码,我们为其设计了两个预训练任务,以微调其权重并预对齐潜在空间。我们在ALFRED数据集上评估了我们的方法,该数据集是一个用于家务任务的模拟器生成基准。我们的结果证明了预对齐不同模态的嵌入空间的重要性以及结合语义地图的有效性。

[69] 从实验室到现实世界:面向隐私保护的可见光-红外行人再识别的新基准
标题: From Laboratory to Real World: A New Benchmark Towards Privacy-Preserved Visible-Infrared Person Re-Identification
作者: Yan Jiang / Hao Yu / Xu Cheng / Haoyu Chen / Zhaodong Sun / Guoying Zhao
原文:   [英文]  
备注: Accepted by CVPR2025
摘要:
为了匹配在不同光照条件下拍摄的行人图像,可见光-红外行人再识别(VI-ReID)引起了广泛的研究关注,并取得了可喜的成果。然而,在现实世界的监控环境中,数据分布在多个设备/实体中,这引发了隐私和所有权问题,使得现有的集中式训练在VI-ReID中变得不切实际。为了解决这些挑战,我们提出了L2RW,一个将VI-ReID更接近于现实应用的基准。L2RW的基本原理是将去中心化训练整合到VI-ReID中,以解决在数据共享受限的情况下的隐私问题。具体来说,我们为不同的隐私敏感度设计了协议和相应的算法。在我们的新基准中,我们确保模型训练在以下条件下进行:1)每个摄像头的数据保持完全隔离,或2)不同的数据实体(例如,某个区域的数据控制者)可以选择性地共享数据。通过这种方式,我们模拟了严格隐私约束的场景,更接近于现实世界的条件。我们进行了大量的实验,使用各种服务器端的联邦算法,展示了去中心化VI-ReID训练的可行性。值得注意的是,当在未见过的领域(即新的数据实体)中进行评估时,我们的L2RW在使用隔离数据(隐私保护)训练时,取得了与使用共享数据(隐私不受限)训练的SOTA相当的性能。我们希望这项工作为部署适合现实世界场景的VI-ReID提供一个新的研究切入点,并能惠及整个社区。

[70] RePerformer:从回放到真实再现的沉浸式以人为中心的体积视频
标题: RePerformer: Immersive Human-centric Volumetric Videos from Playback to Photoreal Reperformance
作者: Yuheng Jiang / Zhehao Shen / Chengcheng Guo / Yu Hong / Zhuo Su / Yingliang Zhang / Marc Habermann / Lan Xu
原文:   [英文]   [中文]  
备注: Accepted by CVPR 2025. Project Page: this https URL
摘要:
以人为中心的体积视频提供了沉浸式的自由视点体验,但现有方法要么专注于重播一般动态场景,要么专注于动画化人类化身,限制了它们重新演绎一般动态场景的能力。在本文中,我们提出了RePerformer,一种新颖的基于高斯的表示方法,它统一了高保真以人为中心的体积视频的播放和重新演绎。具体来说,我们将动态场景分层解构为运动高斯和外观高斯,并在规范空间中关联它们。我们进一步采用基于Morton的参数化方法,将外观高斯有效编码为二维位置和属性图。为了增强泛化能力,我们采用二维卷积神经网络将位置图映射到属性图,这些属性图可以组装成外观高斯,以高保真度渲染动态场景。对于重新演绎,我们开发了一个语义感知对齐模块,并在运动高斯上应用变形转移,使得在新动作下实现照片级真实渲染。大量实验验证了RePerformer的鲁棒性和有效性,为以人为中心的体积视频中的播放-再演绎范式设立了新的基准。

[71] 在前节光相干断层扫描图像中使用渐进视野聚焦进行微小细胞检测
标题: Minuscule Cell Detection in AS-OCT Images with Progressive Field-of-View Focusing
作者: Boyu Chen / Ameenat L. Solebo / Daqian Shi / Jinge Wu / Paul Taylor
原文:   [英文]   [中文]  
备注: None
摘要:
前节段光学相干断层扫描(AS-OCT)是一种新兴的成像技术,在诊断前葡萄膜炎(一种威胁视力的眼部炎症)方面具有巨大潜力。该病症的一个标志是眼前房中存在炎症细胞,使用AS-OCT图像检测这些细胞已引起研究兴趣。尽管最近的努力旨在用自动化计算机视觉方法替代手动细胞检测,但在高分辨率图像(如AS-OCT)中检测极小(微小)物体仍面临重大挑战:(1)每个细胞看起来像一个微小颗粒,占图像的不到0.005%,使检测变得困难;(2)OCT成像引入的像素级噪声可能被误认为是细胞,导致误报检测。为克服这些挑战,我们提出了一种通过渐进视野聚焦策略的微小细胞检测框架。该策略系统地将检测范围从整个图像细化到细胞可能存在的目标区域,再进一步到可能包含单个细胞的微小区域。我们的框架由两个模块组成。首先,视野聚焦模块使用视觉基础模型对目标区域进行分割。随后,细粒度目标检测模块引入专门的微小区域提议,随后通过空间注意网络在分割区域内区分单个细胞与噪声。实验结果表明,我们的框架在细胞检测方面优于最先进的方法,为临床应用提供了更高效的解决方案。我们的代码已公开发布于:这个https URL。

[72] 通过双向注意力混合特征网络和CLIP增强面部表情识别:应用于第八届ABAW挑战赛
标题: Enhancing Facial Expression Recognition through Dual-Direction Attention Mixed Feature Networks and CLIP: Application to 8th ABAW Challenge
作者: Josep Cabacas-Maso / Elena Ortega-Beltrán / Ismael Benito-Altamirano / Carles Ventura
原文:   [英文]   [中文]  
备注: None
摘要:
我们在2025年CVPR的第八届ABAW挑战赛中做出了贡献,分别解决了效价-唤醒估计、情感识别和面部动作单元检测这三个独立的挑战。我们的方法利用了著名的双向注意力混合特征网络(DDAMFN)来处理所有三个任务,取得了超越所提基线的结果。此外,我们还在情感识别挑战中探索了使用CLIP作为额外的实验。我们提供了对架构选择的见解,这些选择有助于我们方法的强大性能。

[73] 处理音频-视觉情感识别中的弱互补关系
标题: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition
作者: R. Gnana Praveen / Jahangir Alam
原文:   [英文]   [中文]  
备注: Submission to valence arousal track of 8th ABAW competition. arXiv admin note: substantial text overlap with arXiv:2403.13659
摘要:
多模态情感识别最近在情感计算领域引起了广泛关注,因为它具有超越单一模态方法的巨大潜力。音频和视觉模态是视频中两种主要的非接触式通道,通常被认为彼此具有互补关系。然而,音频和视觉通道可能并不总是互补的,这会导致音视频特征表示不佳,从而降低系统性能。在本文中,我们提出了一种灵活的音视频融合模型,可以通过门控注意机制适应弱互补关系。具体来说,我们通过在每次迭代中引入门控机制来扩展递归联合交叉注意模型,以根据输入特征与注意特征之间互补关系的强度来控制信息流。例如,如果模态表现出强互补关系,门控机制会选择交叉注意特征,否则选择非注意特征。为了进一步提高系统性能,我们还引入了阶段门控机制,用于控制每次迭代的门控输出之间的信息流。因此,即使音频和视觉模态之间没有强互补关系,所提出的模型通过为递归联合交叉注意机制增加更多的灵活性来提高系统性能。该模型在具有挑战性的Affwild2数据集上进行了评估,并显著优于最先进的融合方法。

[74] 一种高效的基于深度学习的发票文档验证自动化方法
标题: An Efficient Deep Learning-Based Approach to Automating Invoice Document Validation
作者: Aziz Amari / Mariem Makni / Wissal Fnaich / Akram Lahmar / Fedi Koubaa / Oumayma Charrad / Mohamed Ali Zormati / Rabaa Youssef Douss
原文:   [英文]   [中文]  
备注: None
摘要:
在大型组织中,财务交易的数量可能迅速增长,从而推动对快速且准确的多标准发票验证的需求。人工处理仍然容易出错且耗时,而当前的自动化解决方案由于无法支持多种约束而受到限制,例如部分手写或用手机拍摄的文件。在本文中,我们提出使用基于最新深度学习(DL)模型的文档布局分析和目标检测技术来自动验证机器书写的发票。我们引入了一个由人工标注的真实世界发票组成的新数据集以及一个多标准验证过程。我们对最相关的DL模型进行了微调和基准测试。实验结果显示,所提出的流程和选定的DL模型在实现快速且准确的发票验证方面的有效性。

[75] 使用CellViT++和nnU-Net在24小时内破解PUMA挑战
标题: Cracking the PUMA Challenge in 24 Hours with CellViT++ and nnU-Net
作者: Negar Shahamiri / Moritz Rempe / Lukas Heine / Jens Kleesiek / Fabian Hörst
原文:   [英文]   [中文]  
备注: None
摘要:
自动组织分割和细胞核检测是病理学中的一项重要任务,有助于生物标志物的提取和发现。高级黑色素瘤中的细胞核和组织全景分割(PUMA)挑战旨在改进黑色素瘤组织病理学中的组织分割和细胞核检测。与许多专注于广泛模型调优的挑战提交不同,我们的方法强调在24小时开发时间内使用开箱即用的框架提供可部署的解决方案。该流程结合了两个模型,即用于细胞核检测的CellViT++和用于组织分割的nnU-Net。我们的结果显示组织分割有显著改善,Dice得分达到0.750,超过了基线得分0.629。在细胞核检测方面,我们在两个挑战赛道中获得了与基线相当的结果。代码可在此https URL公开获取。

[76] Reflect-DiT:通过上下文反射进行文本到图像扩散变换器的推理时间缩放
标题: Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection
作者: Shufan Li / Konstantinos Kallidromitis / Akash Gokul / Arsh Koneru / Yusuke Kato / Kazuki Kozuka / Aditya Grover
原文:   [英文]   [中文]  
备注: 17 pages, 9 figures
摘要:
推动文本到图像生成的主要方法是训练时扩展,即使用更大的模型在更多数据上进行训练,并使用更大的计算资源。虽然这种方法有效,但计算成本高昂,因此人们对推理时扩展以提高性能的兴趣日益增长。目前,文本到图像扩散模型的推理时扩展主要限于最佳N采样,即每个提示生成多个图像,然后选择模型选择最佳输出。受最近在语言领域中推理模型如DeepSeek-R1成功的启发,我们引入了一种替代简单最佳N采样的方法,通过为文本到图像扩散变压器配备上下文反思能力。我们提出Reflect-DiT,这是一种方法,使扩散变压器能够使用上下文示例和描述必要改进的文本反馈来优化其生成。Reflect-DiT不是被动地依赖随机采样并希望在未来的生成中获得更好的结果,而是明确地调整其生成以解决需要增强的特定方面。实验结果表明,Reflect-DiT在使用SANA-1.0-1.6B作为基础模型的GenEval基准测试中提高了性能(+0.19)。此外,它在每个提示仅生成20个样本的情况下,在GenEval上达到了新的最先进得分0.81,超过了之前使用显著更大模型(SANA-1.5-4.8B)和2048个样本在最佳N方法下获得的最佳得分0.80。

[77] 视觉语言模型在驾驶员监控系统应用中的探索
标题: Exploration of VLMs for Driver Monitoring Systems Applications
作者: Paola Natalia Cañas / Marcos Nieto / Oihana Otaegui / Igor Rodríguez
原文:   [英文]  
备注: Accepted in 16th ITS European Congress, Seville, Spain, 19-21 May 2025
摘要:
近年来,我们见证了新兴深度学习模型的显著进展,特别是大型语言模型(LLMs)和视觉语言模型(VLMs)。这些模型展示了令人鼓舞的成果,预示着一个超越以往方法的新人工智能(AI)时代。它们广泛的知识和零样本能力表明,深度学习解决方案的开发正在发生范式转变,从数据采集和算法训练转向仅编写适当的提示。虽然这些技术在包括汽车行业在内的各个行业的应用已被探索,但在科学文献中关于它们在驾驶员监控系统(DMS)中的使用却存在显著的空白。本文介绍了我们在该领域实施VLMs的初步方法,利用驾驶员监控数据集评估其性能,并讨论其在实际场景中实施时的优势和挑战。

[78] REdiSplats:用于可编辑高斯斑点的光线追踪
标题: REdiSplats: Ray Tracing for Editable Gaussian Splatting
作者: Krzysztof Byrski / Grzegorz Wilczyński / Weronika Smolak-Dyżewska / Piotr Borycki / Dawid Baran / Sławomir Tadeja / Przemysław Spurek
原文:   [英文]   [中文]  
备注: None
摘要:
高斯散点(GS)已成为最重要的神经渲染算法之一。GS使用可训练的颜色和不透明度的高斯组件来表示3D场景。这种表示法实现了高质量的渲染和快速推理。遗憾的是,将这种解决方案与变化的光照条件(包括阴影和光反射)、手动调整以及物理引擎集成是具有挑战性的。最近,出现了一些方法将光线追踪或网格原语整合到GS中,以解决这些问题。然而,没有一种解决方案能够同时解决经典GS的所有现有限制。因此,我们引入了REdiSplats,它采用光线追踪和基于网格的平面3D高斯表示。在实践中,我们使用由网格参数化的平面高斯分布来建模场景。我们可以利用快速光线追踪,并通过调整网格顶点来控制高斯修改。此外,REdiSplats允许对光照条件、手动调整和物理模拟进行建模。此外,我们可以使用Blender或Nvdiffrast等3D工具渲染我们的模型,这为将它们与所有现有的专用于网格表示的3D图形技术集成打开了可能性。

[79] 面向下一代基础多模态大语言模型的自我改进系统认知
标题: Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs
作者: Xiaoying Zhang / Da Peng / Yipeng Zhang / Zonghao Guo / Chengyue Wu / Chi Chen / Wei Ke / Helen Meng / Maosong Sun
原文:   [英文]   [中文]  
备注: 38 pages
摘要:
尽管多模态大型语言模型(MLLMs)具有令人印象深刻的能力,但在细粒度感知和复杂推理方面仍面临挑战。当前的预训练方法主要通过训练高质量的图像描述来增强感知能力,因为收集用于改善推理的链式思维(CoT)推理数据的成本极高。虽然利用先进的MLLMs进行描述生成可以提高可扩展性,但生成的输出往往缺乏全面性和准确性。在本文中,我们介绍了一种自我学习框架——自我改进认知(SIcog),旨在通过使用自生成数据进行多模态预训练来增强系统认知能力,从而构建下一代基础MLLMs。具体来说,我们提出了链式描述方法,通过逐步的视觉理解来提高MLLM的系统感知能力,确保更高的全面性和准确性。此外,我们采用了一种结构化的CoT推理技术,使MLLMs能够整合深入的多模态推理。为了构建具有自我改进认知的下一代基础MLLM,SIcog首先通过最少的外部标注为MLLM配备系统的感知和推理能力。增强后的模型随后生成详细的描述和CoT推理数据,这些数据通过自我一致性进一步整理。最终,这些整理后的数据用于在多模态预训练期间优化MLLM,促进下一代基础MLLM的构建。对各种基准的低分辨率和高分辨率MLLMs进行的大量实验表明,SIcog仅使用213K自生成的预训练样本就能产生认知显著改进的下一代基础MLLMs,其基准性能领先于当前流行的预训练方法。

[80] Swift4D:自适应分而治之高斯喷洒用于动态场景的紧凑高效重建
标题: Swift4D:Adaptive divide-and-conquer Gaussian Splatting for compact and efficient reconstruction of dynamic scene
作者: Jiahao Wu / Rui Peng / Zhiyan Wang / Lu Xiao / Luyang Tang / Jinbo Yan / Kaiqiang Xiong / Ronggang Wang
原文:   [英文]   [中文]  
备注: ICLR 2025
摘要:
新视图合成一直是一个实用但具有挑战性的任务,尽管已经引入了许多方法来解决这个问题,甚至结合了先进的表示方法如3D高斯喷洒,它们仍然难以恢复高质量的结果,并且通常消耗过多的存储内存和训练时间。在本文中,我们提出了Swift4D,一种分而治之的3D高斯喷洒方法,可以分别处理静态和动态原语,在渲染质量和效率之间实现良好的平衡,因为大多数场景是静态原语,不需要额外的动态属性。具体来说,我们专注于仅对动态原语进行动态变换建模,这有利于提高效率和质量。我们首先采用可学习的分解策略来分离原语,这依赖于一个额外的参数来将原语分类为静态或动态。对于动态原语,我们采用紧凑的多分辨率4D哈希映射器,将这些原语从规范空间转换到每个时间戳的变形空间,然后混合静态和动态原语以生成最终输出。这种分而治之的方法促进了高效训练并减少了存储冗余。我们的方法不仅实现了最先进的渲染质量,同时在真实世界数据集上训练速度比之前的SOTA方法快20倍,最低存储需求仅为30MB。代码可在此https URL获取。

[81] 利用多模态大型语言模型的视觉能力实现图表数据的自动提取
标题: Leveraging Vision Capabilities of Multimodal LLMs for Automated Data Extraction from Plots
作者: Maciej P. Polak / Dane Morgan
原文:   [英文]   [中文]  
备注: 8 pages, 3 figures
摘要:
从研究文本中自动提取数据的技术一直在稳步提升,随着大型语言模型(LLMs)的出现,这一进展得到了进一步加速。然而,从研究论文中的图表中提取数据一直是一个复杂的任务,主要依赖于手动数据提取。我们展示了当前的多模态大型语言模型,通过适当的指令和设计的工作流程,能够准确地从图表中提取数据。这种能力是预训练模型固有的,可以通过我们称之为PlotExtract的零样本工程化提示的思维链序列实现,而无需进行微调。我们在此展示了PlotExtract,并评估了其在合成和已发表图表上的表现。在本次分析中,我们仅考虑具有两个坐标轴的图表。对于被识别为可提取的图表,PlotExtract能够以超过90%的精确度(以及大约90%的召回率)找到点,x和y位置的误差约为5%或更低。这些结果证明,多模态LLMs是实现高通量图表数据提取的可行途径,并且在许多情况下可以替代当前的手动数据提取方法。

[82] CapArena:在大语言模型时代对详细图像描述进行基准测试和分析
标题: CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era
作者: Kanzhi Cheng / Wenpo Song / Jiaxin Fan / Zheng Ma / Qiushi Sun / Fangzhi Xu / Chenyang Yan / Nuo Chen / Jianbing Zhang / Jiajun Chen
原文:   [英文]   [中文]  
备注: None
摘要:
图像描述一直是视觉语言研究中的一个长期挑战。随着大型语言模型(LLMs)的兴起,现代视觉语言模型(VLMs)能够生成详细且全面的图像描述。然而,评估这些描述的质量仍然是一个未解决的问题。本文解决了两个关键问题:(1)当前的VLMs在图像描述方面的实际表现如何,尤其是与人类相比?我们构建了CapArena,一个包含超过6000对比描述对战和高质量人类偏好投票的平台。我们的竞技场式评估标志着一个里程碑,显示出领先的模型如GPT-4o达到甚至超越了人类表现,而大多数开源模型则落后。(2)自动化指标能否可靠地评估详细描述的质量?利用来自CapArena的人类注释,我们评估了传统和最新的描述指标,以及VLM-as-a-Judge。我们的分析揭示了虽然一些指标(例如METEOR)在描述级别上与人类有不错的一致性,但其系统性偏差导致模型排名的不一致。相比之下,VLM-as-a-Judge在描述和模型级别上表现出强大的辨别能力。基于这些见解,我们发布了CapArena-Auto,一个准确且高效的详细描述自动化基准测试,以每次测试仅需4美元的成本实现了与人类排名94.3%的相关性。数据和资源将在此https URL上开源。

[83] VideoMAP:迈向可扩展的基于曼巴的视频自回归预训练
标题: VideoMAP: Toward Scalable Mamba-based Video Autoregressive Pretraining
作者: Yunze Liu / Peiran Wu / Cheng Liang / Junxiao Shen / Limin Wang / Li Yi
原文:   [英文]   [中文]  
备注: None
摘要:
最近基于Mamba的视频理解架构在计算效率和竞争性能方面表现出色,但在扩展性上因过拟合问题而受到限制。为了解决这一挑战,我们引入了VideoMAP,这是一种结合了新颖预训练方法的混合Mamba-Transformer框架。VideoMAP采用4:1的Mamba到Transformer比例,有效平衡了计算成本和模型容量。该架构结合我们提出的逐帧掩码自回归预训练策略,在扩展到更大模型时提供了显著的性能提升。此外,VideoMAP表现出令人印象深刻的样本效率,在较少训练数据的情况下显著优于现有方法。实验表明,VideoMAP在包括Kinetics-400、Something-Something V2、Breakfast和COIN在内的各种数据集上优于现有模型。此外,我们展示了VideoMAP作为多模态大型语言模型的视觉编码器的潜力,突出了其减少内存使用和处理更长视频序列的能力。代码在此https URL上开源。

[84] GS-3I:用于从光照不一致图像中重建表面的高斯喷溅
标题: GS-3I: Gaussian Splatting for Surface Reconstruction from Illumination-Inconsistent Images
作者: Tengfei Wang / Yongmao Hou / Zhaoning Zhang / Yiwei Xu / Zongqian Zhan / Xin Wang
原文:   [英文]   [中文]  
备注: This paper has been submitted to IROS 2025
摘要:
准确的几何表面重建对于导航和操作任务提供必要的环境信息,对于实现机器人自我探索和交互至关重要。最近,3D高斯喷溅(3DGS)因其令人印象深刻的几何质量和计算效率在表面重建领域获得了显著关注。虽然最近在不一致照明条件下使用3DGS进行新视图合成的相关进展显示出希望,但在这种条件下实现稳健的表面重建的挑战仍在探索中。为了解决这一挑战,我们提出了一种名为GS-3I的方法。具体来说,为了减轻单视图图像中曝光不足区域导致的3D高斯优化偏差,基于卷积神经网络(CNN)引入了一种色调映射校正框架。此外,由于相机设置和复杂场景照明的变化,多视图图像之间的不一致照明通常导致几何约束不匹配和重建表面的偏差。为了解决这一问题,我们提出了一种法线补偿机制,该机制将从单视图图像中提取的参考法线与从多视图观察中计算的法线相结合,以有效约束几何不一致性。广泛的实验评估表明,GS-3I能够在复杂照明场景中实现稳健和准确的表面重建,突显了其在这一关键挑战中的有效性和多功能性。

[85] TopoGaussian:从视觉线索推断内部拓扑结构
标题: TopoGaussian: Inferring Internal Topology Structures from Visual Clues
作者: Xiaoyu Xiong / Changyu Hu / Chunru Lin / Pingchuan Ma / Chuang Gan / Tao Du
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了TopoGaussian,这是一种整体的、基于粒子的流程,用于从易于获取的照片和视频中推断不透明物体的内部结构。传统的基于网格的方法需要繁琐且容易出错的网格填充和修复过程,通常输出粗糙的边界表面。我们的流程结合了高斯散点技术和一种新颖的、多功能的基于粒子的可微分模拟器,该模拟器能够同时处理本构模型、执行器和碰撞,而不与网格干扰。基于该模拟器的梯度,我们提供了灵活的拓扑表示选择用于优化,包括粒子、神经隐式表面和二次曲面。最终的流程以易于获取的照片和视频为输入,输出与输入的物理特性相匹配的拓扑结构。我们在一个合成数据集和四个使用3D打印原型的实际任务中展示了我们流程的有效性。与现有的基于网格的方法相比,我们的流程平均快5.26倍,并且形状质量有所提高。这些结果突显了我们流程在3D视觉、软体机器人和制造应用中的潜力。

[86] ProbDiffFlow:一种用于概率单图像光流估计的高效无学习框架
标题: ProbDiffFlow: An Efficient Learning-Free Framework for Probabilistic Single-Image Optical Flow Estimation
作者: Mo Zhou / Jianwei Wang / Xuanmeng Zhang / Dylan Campbell / Kai Wang / Long Yuan / Wenjie Zhang / Xuemin Lin
原文:   [英文]   [中文]  
备注: None
摘要:
本文研究了光流估计,这是一项在运动分析中具有重要意义的任务,应用于自动导航、动作识别和电影制作。传统的光流方法需要连续的帧,但由于数据采集的限制或现实场景的干扰,这些帧往往不可用。因此,单帧光流估计在文献中逐渐兴起。然而,现有的单帧方法存在两个主要局限性:(1)它们依赖于有标签的训练数据,使其具有任务特定性;(2)它们产生确定性的预测,无法捕捉运动的不确定性。为了解决这些挑战,我们提出了ProbDiffFlow,这是一种无需训练的框架,可以从单张图像中估计光流分布。ProbDiffFlow并不直接预测运动,而是遵循一种通过合成进行估计的范式:首先使用基于扩散的模型生成多种可能的未来帧,然后使用预训练的光流模型从这些合成样本中估计运动,最后将结果汇总为概率流分布。该设计消除了任务特定训练的需求,同时捕捉多种可能的运动。在合成和真实世界数据集上的实验表明,ProbDiffFlow在准确性、多样性和效率方面表现优异,优于现有的单图像和双帧基线。

[87] ResLPR:一种针对天气损坏的鲁棒地点识别的激光雷达数据恢复网络和基准
标题: ResLPR: A LiDAR Data Restoration Network and Benchmark for Robust Place Recognition Against Weather Corruptions
作者: Wenqing Kuang / Xiongwei Zhao / Yehui Shen / Congcong Wen / Huimin Lu / Zongtan Zhou / Xieyuanli Chen
原文:   [英文]   [中文]  
备注: None
摘要:
基于LiDAR的地点识别(LPR)是自动驾驶的关键组件,其对环境干扰的抵抗力对于高风险应用中的安全性至关重要。尽管最先进的(SOTA)LPR方法在晴朗天气下表现良好,但在驾驶场景中常见的天气引起的干扰仍然是一个挑战。为了解决这个问题,我们提出了ResLPRNet,这是一种新颖的LiDAR数据恢复网络,通过使用基于小波变换的网络恢复受损的LiDAR扫描,大大提高了在恶劣天气下的LPR性能。ResLPRNet高效、轻量,并且可以与预训练的LPR模型无缝集成,而不会带来显著的额外计算成本。鉴于缺乏恶劣天气下的LPR数据集,我们引入了ResLPR,这是一个新颖的基准,考察了在严重的雪、雾和雨条件下引起的广泛LiDAR失真下的SOTA LPR方法。我们在提出的WeatherKITTI和WeatherNCLT数据集上的实验表明,使用我们的恢复方法与多种LPR方法结合,在具有挑战性的天气场景中实现了显著的抗干扰能力和性能提升。我们的代码和基准在此公开:this https URL。

[88] Atlas: 多尺度注意力提升长上下文图像建模
标题: Atlas: Multi-Scale Attention Improves Long Context Image Modeling
作者: Kumar Krishna Agrawal / Long Lian / Longchao Liu / Natalia Harguindeguy / Boyi Li / Alexander Bick / Maggie Chung / Trevor Darrell / Adam Yala
原文:   [英文]   [中文]  
备注: None
摘要:
高效地对海量图像进行建模是机器学习中的一个长期挑战。为此,我们引入了多尺度注意力(MSA)。MSA依赖于两个关键理念:(i)多尺度表示,(ii)双向跨尺度通信。MSA创建O(log N)个尺度,以通过逐渐粗糙的特征来表示图像,并利用交叉注意力在尺度之间传播信息。然后,我们介绍了Atlas,一种基于MSA的新型神经网络架构。我们证明了Atlas在ImageNet 100的高分辨率变体中显著改善了长上下文图像建模的计算性能权衡。在1024px分辨率下,Atlas-B实现了91.04%的准确率,与ConvNext-B(91.92%)相当,同时速度快4.3倍。Atlas比FasterViT快2.95倍,性能提高7.38%;比LongViT快2.25倍,性能提高4.96%。在与MambaVision-S的比较中,我们发现Atlas-S在1024px、2048px和4096px分辨率下分别实现了5%、16%和32%的更高准确率,同时获得了相似的运行时间。用于重现我们实验和预训练模型的代码可在此https URL获得。

[89] 使用无训练门控低秩适应对文本到图像扩散模型进行局部化概念消除
标题: Localized Concept Erasure for Text-to-Image Diffusion Models Using Training-Free Gated Low-Rank Adaptation
作者: Byung Hyun Lee / Sungjin Lim / Se Young Chun
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025
摘要:
微调基础的概念消除在防止文本到图像扩散模型生成有害内容方面展示了良好的效果,它通过移除目标概念同时保留其他概念来实现这一点。为了在概念消除后保持扩散模型的生成能力,有必要仅移除图像中局部出现的目标概念所在的图像区域,而不影响其他区域。然而,现有的方法通常在消除特定区域出现的局部目标概念时,牺牲了其他图像区域的保真度,从而降低了图像生成的整体性能。为了解决这些限制,我们首先引入了一个称为局部概念消除的框架,该框架允许仅删除图像中包含目标概念的特定区域,同时保留其他区域。作为局部概念消除的解决方案,我们提出了一种无需训练的方法,称为用于概念消除的门控低秩适应(GLoCE),它在扩散模型中注入了一个轻量级模块。GLoCE由低秩矩阵和一个简单的门控组成,仅由几个生成步骤决定,而无需训练。通过直接将GLoCE应用于图像嵌入,并设计门控仅对目标概念激活,GLoCE可以选择性地仅移除目标概念的区域,即使目标和其他概念在图像中共存。大量实验表明,GLoCE不仅在消除局部目标概念后提高了图像对文本提示的保真度,还在效率、特异性和鲁棒性方面大幅超越了现有方法,并且可以扩展到大规模概念消除。

[90] L2COcc:通过蒸馏LiDAR模型实现轻量级以摄像头为中心的语义场景补全
标题: L2COcc: Lightweight Camera-Centric Semantic Scene Completion via Distillation of LiDAR Model
作者: Ruoyu Wang / Yukai Ma / Yi Yao / Sheng Tao / Haoang Li / Zongzhi Zhu / Yong Liu / Xingxing Zuo
原文:   [英文]   [中文]  
备注: None
摘要:
语义场景补全(SSC)是自动驾驶感知系统中的一个关键元素,负责从传感器数据中推断场景的三维语义占用。为了提高准确性,先前的研究实施了各种计算密集且内存占用大的三维操作,这在训练和测试期间对平台提出了显著的计算要求。本文提出了L2COcc,这是一种轻量级的以摄像头为中心的SSC框架,同时也支持LiDAR输入。通过我们提出的高效体素变换器(EVT)和跨模态知识模块,包括特征相似性蒸馏(FSD)、TPV蒸馏(TPVD)和预测对齐蒸馏(PAD),我们的方法在保持高准确性的同时大大减少了计算负担。实验评估表明,我们提出的方法在SemanticKITTI和SSCBench-KITTI-360基准测试上的准确性均超过了当前最先进的基于视觉的SSC方法。此外,我们的方法更加轻量化,与当前最先进的方法相比,内存消耗和推理时间均减少了超过23%。代码可在我们的项目页面获取:this https URL。

[91] 通过优化的混合模型进行深度伪造检测:通过改进的RCNN实现EAR生物特征描述符
标题: Deepfake Detection with Optimized Hybrid Model: EAR Biometric Descriptor via Improved RCNN
作者: Ruchika Sharma / Rudresh Dwivedi
原文:   [英文]   [中文]  
备注: Submiited to journal
摘要:
深度伪造是一种近年来广泛使用的技术,通过改变和替换来自各种来源的面部信息来创建有害内容,如假新闻、电影和谣言。鉴于深度伪造的不断演变,持续识别和预防是至关重要的。由于人工智能(AI)技术的最新进展,区分深度伪造和人工修改的图像变得具有挑战性。本文提出了一种通过检测细微的耳朵运动和形状变化来生成耳朵描述符的稳健检测方法。此外,我们还提出了一种新颖的优化混合深度伪造检测模型,该模型通过增强的RCNN(基于区域的卷积神经网络)考虑耳朵生物特征描述符。首先,将输入视频转换为帧,并通过调整大小、归一化、灰度转换和过滤过程进行预处理,然后使用Viola-Jones技术进行人脸检测。接下来,利用包含DBN(深度信念网络)和Bi-GRU(双向门控循环单元)的混合模型基于耳朵描述符进行深度伪造检测。检测阶段的输出通过改进的评分级融合来确定。为了提高性能,使用SU-JFO(自升级水母优化方法)对两个检测模型的权重进行优化调整。实验基于四种场景:压缩、噪声、旋转、姿势和光照,在三个不同的数据集上进行。性能结果证实,我们提出的方法在各种性能指标方面,如准确性、特异性和精确性,优于传统模型,如CNN(卷积神经网络)、SqueezeNet、LeNet、LinkNet、LSTM(长短期记忆)、DFP(深度伪造预测器)[1]和ResNext+CNN+LSTM[2]。

[92] RENO:用于3D激光雷达点云的实时神经压缩
标题: RENO: Real-Time Neural Compression for 3D LiDAR Point Clouds
作者: Kang You / Tong Chen / Dandan Ding / M. Salman Asif / Zhan Ma
原文:   [英文]  
备注: None
摘要:
尽管基于学习的神经模型在LiDAR点云压缩(LPCC)任务中展示了显著的进步,实现实时压缩——这一众多工业应用不可或缺的标准——仍然是一个巨大的挑战。本文提出了RENO,这是第一个用于3D LiDAR点云的实时神经编解码器,使用轻量级模型实现了卓越的性能。RENO跳过了八叉树的构建,直接基于多尺度稀疏张量表示。RENO没有采用多阶段推理,而是设计了稀疏占用编码,利用跨尺度相关性以一次性方式推导体素的占用状态,大大节省了处理时间。实验结果表明,所提出的RENO在桌面平台(例如,一块RTX 3090 GPU)上以14位深度实现了实时编码速度,编码和解码过程均达到10帧每秒,同时在相似质量下分别比G-PCCv23和Draco节省了12.25%和48.34%的比特率。RENO模型的大小仅为1MB,使其在实际应用中具有吸引力。源代码可在此https URL获取。

[93] VRsketch2Gaussian: 基于高斯点云的3D VR草图引导3D对象生成
标题: VRsketch2Gaussian: 3D VR Sketch Guided 3D Object Generation with Gaussian Splatting
作者: Songen Gu / Haoxuan Song / Binjie Liu / Qian Yu / Sanyi Zhang / Haiyong Jiang / Jin Huang / Feng Tian
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了VRSketch2Gaussian,这是首个基于VR草图引导的多模态原生3D对象生成框架,结合了3D高斯点阵表示。作为我们工作的组成部分,我们引入了VRSS,这是第一个包含VR草图、文本、图像和3DGS的大规模配对数据集,弥合了多模态VR草图生成的差距。我们的方法具有以下关键创新:1)草图-CLIP特征对齐。我们提出了一种两阶段对齐策略,弥合稀疏VR草图嵌入和丰富的CLIP嵌入之间的领域差距,促进VR草图检索和生成任务。2)细粒度多模态条件。我们通过使用显式VR草图进行几何条件和文本描述进行外观控制来解构3D生成过程。为此,我们提出了一种可推广的VR草图编码器,有效对齐不同模态。3)高效且高保真度的3D原生生成。我们的方法利用3D原生生成方法,实现快速且纹理丰富的3D对象合成。在我们的VRSS数据集上进行的实验表明,我们的方法实现了高质量的多模态VR草图3D生成。我们相信我们的VRSS数据集和VRsketch2Gaussian方法将对3D生成社区有益。

[94] Car-1000:一个新的大规模细粒度视觉分类数据集
标题: Car-1000: A New Large Scale Fine-Grained Visual Categorization Dataset
作者: Yutao Hu / Sen Li / Jincheng Yan / Wenqi Shao / Xiaoyan Luo
原文:   [英文]   [中文]  
备注: accepted to The Eleventh Workshop on Fine-Grained Visual Categorization in CVPR 2024
摘要:
细粒度视觉分类(FGVC)是计算机视觉中一项具有挑战性但重要的任务,旨在识别鸟类、汽车、飞机等的不同子类别。其中,识别不同汽车型号在自动驾驶、交通监控和场景理解中具有重要的应用价值,近年来受到了相当多的关注。然而,目前最广泛使用的用于汽车识别的细粒度数据集Stanford-Car仅包含196个不同类别,并且只包括2013年之前生产的车型。由于近年来汽车工业的快速发展,各种车型的外观变得越来越复杂和精致。因此,之前的Stanford-Car数据集未能捕捉到这一不断变化的格局,无法满足汽车行业的需求。为了解决这些挑战,我们在论文中介绍了Car-1000,这是一个专为多样化车型的细粒度视觉分类设计的大规模数据集。Car-1000涵盖了来自165个不同汽车制造商的车辆,跨越了1000种不同的车型。此外,我们在Car-1000数据集上重现了几种最先进的FGVC方法,为该领域的研究建立了一个新的基准。我们希望我们的工作能为未来的FGVC研究人员提供一个新的视角。我们的数据集可以在这个https URL上获取。

[95] 通过提示混合进行病理图像修复
标题: Pathology Image Restoration via Mixture of Prompts
作者: Jiangdong Cai / Yan Chen / Zhenrong Shen / Haotian Jiang / Honglin Xiong / Kai Xuan / Lichi Zhang / Qian Wang
原文:   [英文]   [中文]  
备注: None
摘要:
在数字病理学中,获取全焦图像对于高质量成像和高效临床工作流程至关重要。传统扫描仪通过扫描多个不同深度的焦平面并将其合并来实现这一点,这种方法相对较慢,并且在处理复杂组织的失焦时常常遇到困难。最近流行的图像修复技术提供了一种从单一焦平面扫描中恢复高质量病理图像的方法。然而,现有的图像修复方法由于病理图像中复杂的失焦模式及其领域特定的语义复杂性而显得不足。在这项工作中,我们设计了一种两阶段修复解决方案,结合了变压器和扩散模型,以分别利用它们在保持图像保真度和感知质量方面的优势。我们特别提出了一种新颖的提示混合用于两阶段解决方案。给定初始提示以建模显微成像中的失焦,我们设计了两个提示,分别描述病理基础模型中的高级图像语义和通过边缘提取的细粒度组织结构。我们证明,通过将提示混合输入到我们的方法中,我们可以从单焦平面扫描中恢复高质量病理图像,这意味着提示混合在临床应用中的巨大潜力。代码将在此https URL公开提供。

[96] MExD:一种用于全切片图像分类的专家注入扩散模型
标题: MExD: An Expert-Infused Diffusion Model for Whole-Slide Image Classification
作者: Jianwei Zhao / Xin Li / Fan Yang / Qiang Zhai / Ao Luo / Yang Zhao / Hong Cheng / Huazhu Fu
原文:   [英文]   [中文]  
备注: Accepted to CVPR2025
摘要:
全片图像(WSI)分类由于图像尺寸巨大和大量无信息区域的存在而面临独特的挑战,这些因素在特征聚合过程中引入了噪声并导致数据不平衡。为了解决这些问题,我们提出了MExD,一种专家注入扩散模型,它结合了专家混合(MoE)机制和扩散模型的优势,以增强分类效果。MExD通过一种新颖的基于MoE的聚合器平衡了图像块特征的分布,该聚合器有选择地强调相关信息,有效过滤噪声,解决数据不平衡问题,并提取重要特征。然后,这些特征通过基于扩散的生成过程进行整合,直接生成WSI的类别分布。超越传统的判别方法,MExD代表了WSI分类中的第一个生成策略,能够捕捉细粒度细节以获得稳健和精确的结果。我们的MExD在三个广泛使用的基准数据集上进行了验证——Camelyon16、TCGA-NSCLC和BRACS,在二分类和多分类任务中均始终实现了最先进的性能。

[97] SAM2-ELNet:用于遥感分割的标签增强和自动标注
标题: SAM2-ELNet: Label Enhancement and Automatic Annotation for Remote Sensing Segmentation
作者: Jianhao Yang / Wenshuo Yu / Yuanchao Lv / Jiance Sun / Bokang Sun / Mingyang Liu
原文:   [英文]   [中文]  
备注: None
摘要:
遥感图像分割在环境监测、灾害评估和资源管理中至关重要,直接影响地表信息提取的准确性和效率。现有的监督模型在遥感图像分割任务中的性能高度依赖于标签数据的质量。然而,目前的标签数据主要依赖于人工标注,这不仅耗时,而且容易受到主观干扰,导致标签边界的失真,并常常丢失细节。为了解决上述问题,我们的工作提出了一种边缘增强标注网络,称为SAM2-ELNet,该网络结合了标注模块和边缘注意机制。该模型有效地解决了标签细节丢失、碎片化和边界不准确等问题。由于手动标注的遥感数据稀缺,传统神经网络的特征提取能力受到限制。我们的方法使用预训练的自监督大型模型“分割任何东西模型2”(SAM2)的Hiera主干作为编码器,通过在下游任务上进行微调,即使在小样本情况下也能实现高质量和高效的特征提取。本研究比较了在手动标注的Deep-SAR油污(SOS)数据集上,原始标签和增强标签的训练效果。结果表明,使用增强标签训练的模型表现更好,最终损失更低,表明与真实数据分布更接近。我们的工作还通过泛化实验探索了将模型扩展为高效自动标注框架的潜力,以促进大规模遥感图像的解译和智能识别。

[98] 一种基于因果关系的模型用于超声视频中内膜-中层增厚评估
标题: A Causality-Inspired Model for Intima-Media Thickening Assessment in Ultrasound Videos
作者: Shuo Gao / Jingyang Zhang / Jun Xue / Meng Yang / Yang Chen / Guangquan Zhou
原文:   [英文]   [中文]  
备注: 10 pages, 5 figures, conference
摘要:
颈动脉粥样硬化是一种显著的健康风险,其早期诊断主要依赖于基于超声的颈动脉内膜-中层增厚评估。然而,在颈动脉超声筛查过程中,显著的视图变化会导致风格转变,损害与增厚相关的内容线索,如腔内解剖结构,这引入了虚假的相关性,阻碍了评估。因此,我们提出了一种新颖的因果启发方法,用于评估逐帧超声视频中的颈动脉内膜-中层增厚,该方法侧重于两个方面:消除由风格引起的虚假相关性和增强因果内容相关性。具体来说,我们引入了一种新颖的虚假相关性消除(SCE)模块,通过强制预测在风格扰动下的不变性来去除非因果风格效应。同时,我们提出了一个因果等价巩固(CEC)模块,通过内容随机化期间的对抗优化来加强因果内容相关性。同时,我们设计了一个因果过渡增强(CTA)模块,通过整合一个带有文本提示的辅助路径并通过对比学习连接它来确保平滑的因果流动。在我们内部的颈动脉超声视频数据集上的实验结果达到了86.93%的准确率,展示了所提方法的优越性能。代码可在 \href{this https URL}{this https URL} 获取。

[99] EgoEvGesture:基于自我中心事件相机的手势识别
标题: EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera
作者: Luming Wang / Hao Shi / Xiaoting Yin / Kailun Yang / Kaiwei Wang
原文:   [英文]   [中文]  
备注: The dataset and models are made publicly available at this https URL
摘要:
自我中心手势识别是增强自然人机交互的关键技术,然而传统的基于RGB的解决方案在动态场景中容易受到运动模糊和光照变化的影响。虽然事件相机在处理高动态范围和超低功耗方面显示出明显优势,但现有的基于RGB的架构由于其同步的帧基性质,在处理异步事件流时面临固有的限制。此外,从自我中心的角度来看,事件相机记录的数据包括由头部运动和手势生成的事件,从而增加了手势识别的复杂性。为了解决这个问题,我们提出了一种专门为事件数据处理设计的新型网络架构,包含:(1) 采用不对称深度卷积的轻量级CNN,以减少参数同时保留时空特征;(2) 一个即插即用的状态空间模型作为上下文模块,用于将头部运动噪声与手势动态解耦;(3) 一个无参数的Bins-Temporal Shift Module (BSTM),通过在bins和时间维度上移动特征来高效融合稀疏事件。我们进一步构建了EgoEvGesture数据集,这是第一个使用事件相机进行自我中心手势识别的大规模数据集。实验结果表明,我们的方法在异构测试中实现了62.7%的准确率,仅使用7M参数,比最先进的方法高出3.1%。在自由风格动作中的显著误分类源于高人际变异性和与训练数据不同的未见测试模式。此外,我们的方法在DVS128 Gesture上实现了96.97%的显著准确率,展示了强大的跨数据集泛化能力。数据集和模型在此https URL上公开提供。

[100] 一致点:用于半监督人群计数和定位的一致伪点
标题: Consistent-Point: Consistent Pseudo-Points for Semi-Supervised Crowd Counting and Localization
作者: Yuda Zou / Zelong Liu / Yuliang Gu / Bo Du / Yongchao Xu
原文:   [英文]   [中文]  
备注: None
摘要:
人群计数和定位在公共安全和交通管理等应用中非常重要。现有的方法由于大量繁琐的标注,已经取得了令人印象深刻的成果。本文提出了一种新颖的基于点定位的半监督人群计数和定位方法,称为Consistent-Point。我们识别并解决了伪点的两个不一致性问题,这些问题尚未得到充分研究。为了增强它们的位置一致性,我们聚合了邻近辅助提议点的位置。此外,提出了一种实例不确定性校准方法,以提高伪点的类别一致性。通过生成更一致的伪点,Consistent-Point为训练过程提供了更稳定的监督,从而产生更好的结果。在五个广泛使用的数据集和三种不同标注比例设置下的大量实验表明,我们的方法在人群定位方面达到了最先进的性能,同时在人群计数方面也取得了令人印象深刻的结果。代码将会公开。

[101] BREEN:桥接数据高效的无编码器多模态学习与可学习查询
标题: BREEN: Bridge Data-Efficient Encoder-Free Multimodal Learning with Learnable Queries
作者: Tianle Li / Yongming Rao / Winston Hu / Yu Cheng
原文:   [英文]   [中文]  
备注: None
摘要:
无编码器的多模态大型语言模型(MLLMs)通过在语言模型之前直接处理图像标记,消除了对经过良好训练的视觉编码器的需求。虽然这种方法减少了计算开销和模型复杂性,但通常需要大量的训练数据来有效捕捉通常由视觉模型(如CLIP)编码的视觉知识。缺乏视觉编码器意味着模型可能需要依赖大量数据来学习必要的视觉-语义对齐。在这项工作中,我们提出了BREEN,一种数据高效的无编码器多模态架构,旨在缓解这一问题。BREEN利用可学习的查询和图像专家,以显著较少的训练数据实现可比的性能。可学习的查询位于图像和文本标记之间,由预训练的CLIP模型的输出监督,以提炼视觉知识,弥合视觉和文本模态之间的差距。此外,图像专家独立处理图像标记和可学习查询,提高效率并减少对LLM文本能力的干扰。BREEN在训练中仅使用1300万对文本-图像对,约为现有方法所需数据的百分之一,达到了与之前无编码器的最先进模型如Mono-InternVL相当的性能。我们的工作突出了数据高效的无编码器多模态学习的一个有前景的方向,为传统的基于编码器的方法提供了替代方案。

[102] 用于视频语义理解的因果模型
标题: Causality Model for Semantic Understanding on Videos
作者: Li Yicong
原文:   [英文]   [中文]  
备注: PhD Thesis
摘要:
经过十年的繁荣发展,视频理解的研究已达到一个关键的转折点,单纯依赖海量数据和复杂架构已不再是解决所有问题的万能方案。普遍存在的数据不平衡阻碍了深度神经网络(DNNs)有效学习潜在的因果机制,导致在遇到分布变化时(如长尾不平衡和扰动不平衡)性能显著下降。这一认识促使研究人员寻求替代方法来捕捉视频数据中的因果模式。为了应对这些挑战并提高DNNs的鲁棒性,因果建模作为一种原则出现,以发现观察到的相关性背后的真实因果模式。本文重点关注语义视频理解领域,并探讨因果建模在推进两个基本任务——视频关系检测(VidVRD)和视频问答(VideoQA)方面的潜力。

[103] LazyMAR:通过特征缓存加速掩码自回归模型
标题: LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching
作者: Feihong Yan / Qingyan Wei / Jiayi Tang / Jiajun Li / Yulin Wang / Xuming Hu / Huiqi Li / Linfeng Zhang
原文:   [英文]   [中文]  
备注: 10 pages, 6 figures
摘要:
掩码自回归(Masked Autoregressive, MAR)模型在图像生成中展现出了一种有前途的方法,预计通过利用并行解码的能力,在计算效率上将超越传统的自回归模型。然而,它们对双向自注意力的依赖本质上与传统的KV缓存机制相冲突,造成了意想不到的计算瓶颈,从而削弱了其预期的效率。为了解决这个问题,本文通过利用两种冗余研究了MAR的缓存机制:令牌冗余表明在相邻的解码步骤中,大部分令牌具有非常相似的表示,这使得我们可以在前面的步骤中缓存它们,然后在后续步骤中重用它们。条件冗余表明在无分类器指导下,条件输出与无条件输出之间的差异在相邻步骤中表现出非常相似的值。基于这两种冗余,我们提出了LazyMAR,它引入了两种缓存机制来逐一处理这些冗余。LazyMAR对所有MAR模型都是免训练且即插即用的。实验结果表明,我们的方法在几乎不降低生成质量的情况下实现了2.83倍的加速。我们的代码将在此https URL中发布。

[104] ISLR101:一个伊朗语单词级别的手语识别数据集
标题: ISLR101: an Iranian Word-Level Sign Language Recognition Dataset
作者: Hossein Ranjbar / Alireza Taheri
原文:   [英文]  
备注: None
摘要:
手语识别涉及对复杂的多通道信息进行建模,例如手的形状和动作,同时依赖于足够的手语特定数据。然而,手语通常资源不足,这对该领域的研究和开发构成了重大挑战。为了解决这一差距,我们引入了ISLR101,这是第一个公开可用的用于孤立手语识别的伊朗手语数据集。这个综合数据集包括4,614个视频,涵盖101个不同的手语,由10位不同的手语者(3位聋人,2位手语翻译和5位L2学习者)在不同背景下录制,分辨率为800x600像素,帧率为每秒25帧。它还包括使用OpenPose提取的骨架姿态信息。我们建立了基于视觉外观和基于骨架的框架作为基线模型,并在ISLR101上进行了全面的训练和评估。这些模型在测试集上分别达到了97.01%和94.02%的准确率。此外,我们发布了训练、验证和测试集的划分,以促进公平比较。

[105] 通过线索分解评估图像分类和分割中的形状偏差和鲁棒性
标题: Shape Bias and Robustness Evaluation via Cue Decomposition for Image Classification and Segmentation
作者: Edgar Heinert / Thomas Gottwald / Annika Mütze / Matthias Rottmann
原文:   [英文]   [中文]  
备注: None
摘要:
以往的研究探讨了深度神经网络(DNNs)在感知图像内容时对不同图像线索(如纹理和形状)的偏向。之前用于测量形状和纹理偏向的方法通常基于风格迁移,并且仅限于图像分类的DNNs。在这项工作中,我们提供了一种新的评估程序,包括:1)一种线索分解方法,由两个不依赖AI的数据预处理方法组成,分别提取形状和纹理线索;2)一种新颖的线索分解形状偏向评估指标,利用线索分解数据。为了应用目的,我们引入了一个相应的线索分解鲁棒性指标,允许估计DNNs在图像损坏方面的鲁棒性。在我们的数值实验中,我们对图像分类DNNs偏向的发现与之前的评估指标一致。然而,我们的线索分解鲁棒性指标在估计DNNs的鲁棒性方面显示出更优的结果。此外,我们在语义分割数据集Cityscapes和ADE20k上的DNNs结果首次揭示了语义分割DNNs的偏向。

[106] 在指称表达计数中探索上下文属性密度
标题: Exploring Contextual Attribute Density in Referring Expression Counting
作者: Zhicheng Wang / Zhiyu Pan / Zhan Peng / Jian Cheng / Liwen Xiao / Wei Jiang / Zhiguo Cao
原文:   [英文]   [中文]  
备注: CVPR25
摘要:
指称表达计数(REC)算法旨在实现更灵活和互动的计数能力,以应对各种细粒度文本表达。然而,对细粒度属性理解的要求给现有技术带来了挑战,因为它们难以准确地将属性信息与正确的视觉模式对齐。鉴于“视觉密度”的重要性已被证明,我们推测当前REC方法的局限性源于对“上下文属性密度”(CAD)的探索不足。在REC的范围内,我们将CAD定义为视觉区域中某一细粒度属性的信息强度的度量。为了对CAD进行建模,我们提出了一种U形CAD估计器,其中指称表达和来自GroundingDINO的多尺度视觉特征可以相互作用。通过额外的密度监督,我们可以有效地编码CAD,随后通过一种新的注意力过程使用CAD优化的查询进行解码。结合所有这些贡献,我们的框架显著优于最先进的REC方法,在计数指标上实现了30%的错误减少,并在定位准确性上提高了10%。这些令人惊讶的结果揭示了上下文属性密度对REC的重要性。代码将在此HTTP URL提供。

[107] MambaIC:用于高性能学习图像压缩的状态空间模型
标题: MambaIC: State Space Models for High-Performance Learned Image Compression
作者: Fanhu Zeng / Hao Tang / Yihua Shao / Siyu Chen / Ling Shao / Yan Wang
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025
摘要:
高性能的图像压缩算法对于多个领域的实时信息传输至关重要。尽管图像压缩技术取得了快速进展,但计算效率低下和冗余建模不佳仍然是显著的瓶颈,限制了其实际应用。受到状态空间模型(SSM)在捕捉长程依赖性方面有效性的启发,我们利用SSM来解决现有方法中的计算效率问题,并从多个角度改进图像压缩。在本文中,我们整合了SSM的优势,以实现更好的效率与性能平衡,并通过精细的上下文建模提出了一种增强的图像压缩方法,我们称之为MambaIC。具体来说,我们探索了上下文建模以自适应地优化隐藏状态的表示。此外,我们在通道-空间熵建模中引入了基于窗口的局部注意力,以减少压缩过程中的潜在空间冗余,从而提高效率。全面的定性和定量结果验证了我们方法的有效性和效率,特别是在高分辨率图像压缩方面。代码已在此https URL发布。

[108] 从视觉实体中学习隐私
标题: Learning Privacy from Visual Entities
作者: Alessio Xompero / Andrea Cavallaro
原文:   [英文]   [中文]  
备注: 21 pages (13 for the main article, 8 for bibliography, acks, appendixes), 9 figures, 12 tables. Article accepted and to appear in the Proceedings on Privacy Enhancing Technologies, 2025 (3): this https URL. To be presented at the Privacy Enhancing Technologies Symposium 2025. Artifact (source code) under review: this https URL
摘要:
主观解释和内容多样性使得预测图像是私人还是公共的任务变得具有挑战性。结合卷积神经网络(CNNs)的图神经网络,由14,000到5亿个参数组成,为视觉实体(例如场景和对象类型)生成特征,并识别对决策有贡献的实体。在本文中,我们展示了使用一种更简单的迁移学习和CNN组合来将隐私与场景类型关联,仅优化732个参数,同时实现与基于图的方法相当的性能。相反,基于图的方法的端到端训练可能会掩盖单个组件对分类性能的贡献。此外,我们展示了用CNN为每个视觉实体提取的高维特征向量是不必要的,并使模型复杂化。图组件对性能的影响也可以忽略不计,性能主要由微调CNN以优化隐私节点的图像特征驱动。

[109] DPF-Net:嵌入物理成像模型的数据驱动水下图像增强
标题: DPF-Net: Physical Imaging Model Embedded Data-Driven Underwater Image Enhancement
作者: Han Mei / Kunqian Li / Shuaixin Liu / Chengzhi Ma / Qianli Jiang
原文:   [英文]   [中文]  
备注: None
摘要:
由于水下环境中光吸收和散射的复杂相互作用,水下图像会经历显著的退化。本研究提出了一种两阶段的水下图像增强网络,称为数据驱动与物理参数融合网络(DPF-Net),该网络结合了物理成像模型的鲁棒性以及数据驱动方法的通用性和效率。我们首先使用合成数据集训练物理参数估计模块,以保证物理参数的可信度,而不是像以往研究中常见的那样仅通过应用成像方程来学习原始图像和参考图像之间的拟合关系。该模块随后与增强网络一起训练,其中估计的物理参数在嵌入空间中集成到数据驱动模型中。为了在水下成像退化过程中保持恢复过程的一致性,我们提出了一种基于物理的退化一致性损失。此外,我们建议使用整个数据集的创新弱参考损失项,以减轻模型对单个参考图像质量的依赖。我们提出的DPF-Net在多个测试集上表现优于其他基准方法,达到了最先进的结果。源代码和预训练模型可在项目主页上获取:此https URL。

[110] 基于扩散的可见光-红外行人再识别合成数据生成
标题: Diffusion-based Synthetic Data Generation for Visible-Infrared Person Re-Identification
作者: Wenbo Dai / Lijing Lu / Zhihang Li
原文:   [英文]   [中文]  
备注: AAAI 2025
摘要:
模型的性能与训练数据的丰富程度密切相关。在可见光-红外行人重识别(VI-ReID)任务中,收集和标注每个个体在各种摄像头和模态下的大规模图像是繁琐、耗时、昂贵的,并且必须遵守数据保护法律,这对满足数据集要求构成了严峻挑战。目前的研究正在探索生成合成数据作为在现场收集真实数据的高效且保障隐私的替代方案。然而,尚未探索出一种专门为VI-ReID模型量身定制的数据合成技术。在本文中,我们提出了一种新颖的数据生成框架,称为基于扩散的VI-ReID数据扩展(DiVE),通过解耦身份和模态来自动获取大量具有身份保留的RGB-IR配对图像,以提高VI-ReID模型的性能。具体来说,身份表示是从一组共享相同ID的样本中获得的,而图像的模态则通过在特定模态数据上微调稳定扩散(SD)来学习。DiVE将文本驱动的图像合成扩展到身份保留的RGB-IR多模态图像合成。通过将合成数据直接纳入ReID模型训练,这种方法显著降低了数据收集和标注成本。实验表明,使用DiVE生成的合成数据训练的VI-ReID模型始终表现出显著的增强。特别是,使用合成图像训练的最先进方法CAJ在LLCM数据集上的mAP比基线提高了约9%。代码:this https URL

[111] 跨模态一致性学习用于手语识别
标题: Cross-Modal Consistency Learning for Sign Language Recognition
作者: Kepeng Wu / Zecheng Li / Weichao Zhao / Hezhen Hu / Wengang Zhou / Houqiang Li
原文:   [英文]   [中文]  
备注: None
摘要:
预训练已被证明能够有效提升单一手语识别(ISLR)的性能。现有的预训练方法仅关注紧凑的姿态数据,这些数据消除了背景干扰,但不可避免地在语义线索方面比原始RGB视频不足。然而,仅从RGB视频进行直接表示学习仍然具有挑战性,因为存在与手语无关的视觉特征。为了解决这一困境,我们提出了一种跨模态一致性学习框架(CCL-SLR),该框架基于自监督预训练利用RGB和姿态模态的跨模态一致性。首先,CCL-SLR采用对比学习进行模态内和跨模态的实例区分。通过单模态和跨模态对比学习,CCL-SLR逐步对齐RGB和姿态模态的特征空间,从而提取一致的手语表示。其次,我们进一步引入了运动保留遮蔽(MPM)和语义正样本挖掘(SPM)技术,从数据增强和样本相似性的角度提高跨模态一致性。在四个ISLR基准上的广泛实验表明,CCL-SLR取得了令人印象深刻的性能,证明了其有效性。代码将公开发布。

[112] GeoRSMLLM:用于地球科学和遥感中视觉-语言任务的多模态大型语言模型
标题: GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing
作者: Zilun Zhang / Haozhan Shen / Tiancheng Zhao / Bin Chen / Zian Guan / Yuhao Wang / Xu Jia / Yuxiang Cai / Yongheng Shang / Jianwei Yin
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)在遥感(RS)中的应用在场景分类、目标检测和图像描述等传统任务中展示了显著的潜力。然而,目前在指代表达理解(REC)方面表现出色的模型,在处理复杂指令(例如,存在多个条件)或像素级操作(如分割和变化检测)等任务时仍面临挑战。在这篇白皮书中,我们提供了一个关于遥感中视觉-语言任务的全面分层总结,并根据所需的认知能力水平进行分类。我们引入了遥感视觉-语言任务集(RSVLTS),其中包括开放词汇任务(OVT)、指代表达任务(RET)和描述对象任务(DOT),这些任务难度逐渐增加,并且还包括视觉问答(VQA)。此外,我们提出了一种新颖的统一数据表示方法,使用点集方法来表示RSVLTS,并结合条件解析器和基于循环指代的自增强策略。这些特性被集成到GeoRSMLLM模型中,该增强模型旨在处理RSVLTS的广泛任务,为地球科学和遥感中的视觉-语言任务提供更通用的解决方案铺平道路。

[113] 几何感知的遮挡场景下的人脸重建
标题: Geometry-Aware Face Reconstruction Under Occluded Scenes
作者: Dapeng Zhao
原文:   [英文]   [中文]  
备注: None
摘要:
最近,基于深度学习的3D人脸重建方法在质量和效率方面展示了令人鼓舞的进展。然而,这些技术在有效处理遮挡场景时面临挑战,并且未能捕捉到复杂的几何面部细节。受GANs和凹凸贴图原理的启发,我们成功地解决了这些问题。我们的方法旨在提供全面的3D面部重建,即使在存在遮挡的情况下也能保持整体形状的稳健性,我们在基本结构中引入了中层形状细化。此外,我们展示了我们的方法如何巧妙地扩展以生成被遮挡面部区域的合理细节。我们提供了许多示例,展示了我们的框架在生成逼真结果方面的有效性,而传统方法往往在这方面表现不佳。为了证明我们方法的优越适应性,我们在一般3D人脸重建任务的背景下进行了广泛的实验,作为其相较于手动遮挡去除方法的调节能力的具体证据。

[114] 学习轮廓引导的带遮挡的三维人脸重建
标题: Learning Contour-Guided 3D Face Reconstruction with Occlusions
作者: Dapeng Zhao
原文:   [英文]   [中文]  
备注: None
摘要:
最近,基于深度学习的三维人脸重建方法在质量和效率方面展示了令人鼓舞的进展。然而,这些技术在有效处理遮挡场景时面临挑战,并且未能捕捉到复杂的几何面部细节。受GANs和凹凸贴图原理的启发,我们成功地解决了这些问题。我们的方法旨在提供全面的三维人脸重建,即使在存在遮挡的情况下,仍能保持整体形状的稳健性,我们在基本结构中引入了中层形状细化。此外,我们展示了我们的方法如何巧妙地扩展以生成被遮挡面部区域的合理细节。我们提供了许多示例,展示了我们的框架在生成逼真结果方面的有效性,而传统方法往往在这方面表现不佳。为了证明我们方法的优越适应性,我们在一般三维人脸重建任务的背景下进行了广泛的实验,作为其相较于手动遮挡去除方法的调节能力的具体证据。

[115] 用于检测青藏高原黑土区域的BS-Mamba
标题: BS-Mamba for Black-Soil Area Detection On the Qinghai-Tibetan Plateau
作者: Xuan Ma / Zewen Lv / Chengcai Ma / Tao Zhang / Yuelan Xin / Kun Zhan
原文:   [英文]   [中文]  
备注: Journal of Applied Remote Sensing, 2025
摘要:
青藏高原的极度退化草地由于过度放牧、气候变化和鼠类活动而面临重大环境挑战,这些因素导致植被覆盖和土壤质量的退化。青藏高原的这些极度退化草地通常被称为黑土区,需要进行准确评估以指导有效的恢复工作。在本文中,我们介绍了一个新创建的青藏高原黑土数据集,该数据集是在专家指导下标注的。我们引入了一种新颖的神经网络模型BS-Mamba,专门用于利用无人机遥感影像检测黑土区。BS-Mamba模型在识别两个独立测试数据集上的黑土区时表现出比现有最先进模型更高的准确性。这项研究通过提供一种有效的方法来评估青藏高原黑土区的范围,为草地恢复做出了贡献。

[116] 你的视觉-语言模型是否在长视频采样困境中迷失?
标题: Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?
作者: Tianyuan Qu / Longxiang Tang / Bohao Peng / Senqiao Yang / Bei Yu / Jiaya Jia
原文:   [英文]   [中文]  
备注: None
摘要:
大型视觉-语言模型(LVLMs)的兴起显著推动了视频理解的发展。然而,由于“采样困境”,高效处理长视频仍然是一个挑战:低密度采样可能会错过关键信息,而高密度采样则会引入冗余。为了解决这个问题,我们引入了LSDBench,这是第一个旨在通过构建高必要采样密度(NSD)问题来评估LVLMs在长视频任务上的基准,其中NSD代表准确回答给定问题所需的最低采样密度。LSDBench专注于密集、短时长的动作,以严格评估LVLMs采用的采样策略。为应对高NSD问题带来的挑战,我们提出了一种新颖的推理驱动层次采样(RHS)框架,该框架结合了问题相关线索的全局定位与局部密集采样以实现精确推理。此外,我们开发了一种轻量级的语义引导帧选择器,以优先选择信息丰富的帧,使得RHS能够以显著更少的采样帧实现可比或更优的性能。我们的LSDBench和RHS框架共同解决了高NSD长视频任务的独特挑战,为评估和改进该领域的LVLMs设立了新的标准。

[117] 通过生成潜在空间增强分割任意质量图像
标题: Segment Any-Quality Images with Generative Latent Space Enhancement
作者: Guangqian Guo / Yoong Guo / Xuehui Yu / Wenbo Li / Yaoxing Wang / Shan Gao
原文:   [英文]   [中文]  
备注: Accepted by CVPR2025
摘要:
尽管取得了成功,但Segment Anything Models (SAMs) 在严重退化、低质量图像上的性能显著下降,限制了其在现实场景中的有效性。为了解决这个问题,我们提出了GleSAM,它利用生成潜在空间增强来提高低质量图像的鲁棒性,从而实现对各种图像质量的泛化。具体来说,我们将潜在扩散的概念应用于基于SAM的分割框架,并在SAM的潜在空间中执行生成扩散过程,以重建高质量表示,从而改善分割。此外,我们引入了两种技术来提高预训练扩散模型与分割框架之间的兼容性。我们的方法可以应用于预训练的SAM和SAM2,仅需极少的额外可学习参数,从而实现高效优化。我们还构建了LQSeg数据集,具有更大多样性的退化类型和水平,用于训练和评估模型。大量实验表明,GleSAM在复杂退化上的分割鲁棒性显著提高,同时保持了对清晰图像的泛化。此外,GleSAM在未见过的退化上也表现良好,强调了我们的方法和数据集的多功能性。

[118] 基于人工智能的自动化模型构建用于患者特异性主动脉流动的CFD模拟
标题: AI-Powered Automated Model Construction for Patient-Specific CFD Simulations of Aortic Flows
作者: Pan Du / Delin An / Chaoli Wang / Jian-Xun Wang
原文:   [英文]   [中文]  
备注: 42 pages, 8 figures
摘要:
基于图像的建模对于理解心血管血流动力学以及推进心血管疾病的诊断和治疗至关重要。构建特定患者的血管模型仍然是一个劳动密集、容易出错且耗时的过程,限制了其在临床中的应用。本研究介绍了一种深度学习框架,该框架能够自动从医学图像中创建可用于模拟的血管模型。该框架集成了一个用于精确体素级血管描绘的分割模块,以及一个进行解剖学一致且无监督的表面细化的表面变形模块,后者由医学图像数据引导。通过将体素分割和表面变形统一到一个单一的连贯流程中,该框架解决了现有方法的关键限制,提高了几何精度和计算效率。在公开可用的数据集上进行评估时,所提出的方法在分割和网格质量方面表现出最先进的性能,同时显著减少了人工工作量和处理时间。这项工作提高了基于图像的计算建模的可扩展性和可靠性,促进了其在临床和研究环境中的更广泛应用。

[119] 通过隐式聚类进行多活动序列对齐
标题: Multi Activity Sequence Alignment via Implicit Clustering
作者: Taein Kwon / Zador Pataki / Mahdi Rad / Marc Pollefeys
原文:   [英文]   [中文]  
备注: 19 pages, 10 figures
摘要:
自监督的时间序列对齐可以为广泛的应用提供丰富且有效的表示。然而,现有方法为了实现最佳性能,大多仅限于对齐相同活动的序列,并且需要为每个活动单独训练模型。我们提出了一种新颖的框架,通过隐式聚类进行序列对齐,克服了这些限制。具体来说,我们的核心思想是在对齐序列中的帧时进行隐式剪辑级聚类。结合我们提出的双重增强技术,增强了网络学习可泛化和区分性表示的能力。我们的实验表明,我们提出的方法优于最新的结果,并强调了我们的框架在多活动和不同模态下的泛化能力,适用于三个不同的数据集:H2O、PennAction和IKEA ASM。我们将在论文被接受后发布代码。

[120] EditID:无需训练的文本到图像生成可编辑ID定制
标题: EditID: Training-Free Editable ID Customization for Text-to-Image Generation
作者: Guandong Li / Zhaobin Chu
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了EditID,这是一种基于DiT架构的无训练方法,能够实现高度可编辑的定制ID用于文本到图像生成。现有的文本到图像模型通常更关注ID的一致性,而忽视了可编辑性。通过提示来改变面部方向、角色属性和其他特征是具有挑战性的。EditID通过将定制ID的文本到图像模型分解为图像生成分支和角色特征分支来解决这一问题。角色特征分支进一步解耦为三个模块:特征提取、特征融合和特征整合。通过引入映射特征和移位特征的组合,并控制ID特征整合的强度,EditID实现了跨网络深度的局部特征的语义压缩,形成了一个可编辑的特征空间。这使得能够成功生成具有可编辑ID的高质量图像,同时保持ID的一致性,在IBench评估中取得了优异的结果。IBench是一个用于定制ID文本到图像生成领域的可编辑性评估框架,定量展示了EditID的卓越性能。EditID是第一个在DiT架构上提出可定制ID可编辑性的文本到图像解决方案,满足了长提示和高质量图像生成的需求。

[121] 一种用于鲁棒视觉惯性里程计的即插即用学习型IMU偏置因子
标题: A Plug-and-Play Learning-based IMU Bias Factor for Robust Visual-Inertial Odometry
作者: Yang Yi / Kunqing Wang / Jinpu Zhang / Zhen Tan / Xiangke Wang / Hui Shen / Dewen Hu
原文:   [英文]   [中文]  
备注: None
摘要:
低成本惯性测量单元(IMU)的偏差是影响视觉惯性里程计(VIO)性能的关键因素。特别是当视觉跟踪出现错误时,优化后的偏差结果可能会显著偏离真实值,从而对系统的稳定性和定位精度产生不利影响。在本文中,我们提出了一种新颖的即插即用框架,称为惯性先验网络(IPNet),旨在准确估计IMU偏差。我们认识到低成本惯性设备初始偏差误差对系统性能的重大影响,因此我们的网络直接利用原始IMU数据来估计平均偏差,消除了传统递归预测中对历史估计的依赖,有效防止了误差传播。此外,我们引入了一种迭代方法来计算用于网络训练的偏差平均值,以解决许多视觉惯性数据集中缺乏偏差标签的问题。该框架在两个公共数据集和一个自收集数据集上进行了评估。大量实验表明,我们的方法显著提高了定位精度和鲁棒性,ATE-RMSE指标平均提高了46%。源代码和视频将在此网址提供。

[122] 迈向缝合世界模型:学习用于机器人外科任务的预测模型
标题: Towards Suturing World Models: Learning Predictive Models for Robotic Surgical Tasks
作者: Mehmet Kerem Turkcan / Mattia Ballo / Filippo Filicori / Zoran Kostic
原文:   [英文]   [中文]  
备注: None
摘要:
我们引入了专门的基于扩散的生成模型,通过对标注的腹腔镜手术录像进行监督学习,捕捉细粒度机器人手术缝合子动作的时空动态。所提出的模型为数据驱动的世界模型奠定了基础,能够以高时间保真度模拟手术缝合的生物力学交互和程序动态。我们对从模拟视频中提取的约2000个剪辑的数据集进行标注,将手术动作分类为细粒度的子缝合类别,包括针头定位、目标定位、驱动和撤回的理想和非理想执行。我们微调了两个最先进的视频扩散模型,LTX-Video和HunyuanVideo,以生成高保真的手术动作序列,分辨率达到768x512及以上,帧数达到49及以上。为了训练我们的模型,我们探索了低秩适应(LoRA)和全模型微调方法。我们的实验结果表明,这些世界模型能够有效捕捉缝合的动态,有可能促进改进的训练模拟器、手术技能评估工具和自主手术系统的发展。模型还显示出区分理想和非理想技术执行的能力,为构建手术培训和评估系统奠定了基础。我们发布了我们的模型供测试,并作为未来研究的基础。项目页面:this https URL

[123] STEVE:用于计算机使用代理训练的逐步验证流程
标题: STEVE: AStep Verification Pipeline for Computer-use Agent Training
作者: Fanbin Lu / Zhisheng Zhong / Ziqin Wei / Shu Liu / Chi-Wing Fu / Jiaya Jia
原文:   [英文]  
备注: None
摘要:
开发能够自主操作图形用户界面的人工智能代理一直是一项具有挑战性的任务。最近在数据扩展法则方面的进展启发我们通过扩展的指令集来训练计算机使用代理,但使用行为克隆来训练代理仍然需要大量高质量的轨迹数据。为了满足可扩展性的需求,我们设计了STEVE,一个用于计算机使用代理训练的步骤验证流程。首先,我们为计算机使用代理建立了一个大型指令集,并使用一些次优代理收集轨迹数据。GPT-4o被用来根据动作执行前后的屏幕验证轨迹中每一步的正确性,为每一步分配一个二元标签。最后,我们采用Kahneman和Tversky优化方法从二元逐步标签中优化代理。大量实验表明,我们的代理通过利用轨迹中的正负动作,优于监督微调。此外,STEVE使我们能够训练一个7B视觉语言模型作为计算机使用代理,在具有挑战性的实时桌面环境WinAgentArena中以更高效和更低成本实现领先性能。代码和数据:此https URL。

[124] SPC-GS:用于室内开放世界自由视角合成的语义提示一致性高斯喷溅技术,基于稀疏输入
标题: SPC-GS: Gaussian Splatting with Semantic-Prompt Consistency for Indoor Open-World Free-view Synthesis from Sparse Inputs
作者: Guibiao Liao / Qing Li / Zhenyu Bao / Guoping Qiu / Kanglin Liu
原文:   [英文]   [中文]  
备注: Accepted by CVPR2025. The project page is available at this https URL
摘要:
基于3D高斯点的室内开放世界自由视角合成方法在输入图像密集的情况下表现出显著的性能。然而,当面对稀疏输入时,它们的表现较差,主要是由于高斯点的稀疏分布和视角监督不足。为了解决这些问题,我们提出了SPC-GS,利用基于场景布局的高斯初始化(SGI)和语义提示一致性(SPC)正则化来处理稀疏输入的开放世界自由视角合成。具体来说,SGI通过使用从视频生成模型生成的视角变化图像和视角约束的高斯点密集化,提供了一种基于场景布局的密集高斯分布。此外,SPC通过使用由SAM2开发的基于语义提示的一致性约束来缓解有限的视角监督。该方法利用来自训练视角的可用语义,作为指导性提示,通过2D和3D一致性约束来优化新视角中视觉重叠区域。大量实验表明,SPC-GS在Replica和ScanNet基准测试中表现优越。值得注意的是,我们的SPC-GS在重建质量的PSNR上实现了3.06 dB的提升,并在开放世界语义分割的mIoU上提高了7.3%。

[125] BFANet:通过边界特征分析重新审视3D语义分割
标题: BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis
作者: Weiguang Zhao / Rui Zhang / Qiufeng Wang / Guangliang Cheng / Kaizhu Huang
原文:   [英文]   [中文]  
备注: None
摘要:
3D语义分割在理解3D场景中扮演着基础且关键的角色。尽管当代最先进的技术主要集中在基于一般指标(如mIoU、mAcc和oAcc)提升3D语义分割的整体性能,但它们不幸地忽视了对分割中具有挑战性区域的探索。在本文中,我们通过更细致的视角重新审视3D语义分割,揭示通常被更广泛的性能指标所掩盖的微妙复杂性。具体而言,我们将3D语义分割错误划分为四个全面的类别,并为每个类别量身定制了相应的评估指标。在这一分类框架的基础上,我们引入了一种创新的3D语义分割网络,称为BFANet,该网络结合了语义边界特征的详细分析。首先,我们设计了边界-语义模块,将点云特征解耦为语义特征和边界特征,并融合它们的查询队列以通过注意力增强语义特征。其次,我们引入了一种更简洁且加速的边界伪标签计算算法,其速度是当前最先进技术的3.9倍,提供了与数据增强的兼容性,并在训练中实现了高效计算。在基准数据上的大量实验表明,我们的BFANet模型具有优越性,证实了强调这四个独特设计指标的重要性。代码可在此https URL获取。

[126] ST-Think:多模态大型语言模型如何从自我中心视频中推理四维世界
标题: ST-Think: How Multimodal Large Language Models Reason About 4D Worlds from Ego-Centric Videos
作者: Peiran Wu / Yunze Liu / Chonghan Liu / Miao Liu / Junxiao Shen
原文:   [英文]   [中文]  
备注: None
摘要:
人类在时空推理方面表现出色,能够毫不费力地从自我中心的视角解释动态视觉事件。然而,多模态大语言模型(MLLMs)是否能够同样理解四维世界仍不确定。本文从自我中心的视角探讨多模态时空推理,旨在为MLLMs提供类似人类的推理能力。为支持这一目标,我们引入了Ego-ST Bench,这是一个包含超过5,000个问答对的新基准,涵盖四个类别,系统地评估空间、时间和综合时空推理。此外,我们提出了ST-R1视频模型,这是一种视频推理模型,将逆向思维融入其强化学习过程,显著提高了性能。我们结合长链思维(long-CoT)监督微调和群体相对策略优化(GRPO)强化学习,在有限的高质量数据下实现了显著的改进。Ego-ST Bench和ST-R1为推进基于视频的时空推理研究提供了宝贵的见解和资源。

[127] PEBench:用于基准测试多模态大型语言模型机器遗忘的虚构数据集
标题: PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models
作者: Zhaopan Xu / Pengfei Zhou / Weidong Tang / Jiaxin Ai / Wangbo Zhao / Xiaojiang Peng / Kai Wang / Yang You / Wenqi Shao / Hongxun Yao / Kaipeng Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,多模态大语言模型(MLLMs)在视觉问答、视觉理解和推理等任务中展现了显著的进步。然而,这些令人印象深刻的进展依赖于从互联网上收集的大量数据,这引发了对隐私和安全的重大担忧。为了解决这些问题,机器遗忘(MU)作为一种有前途的解决方案出现,它能够在不需要从头开始重新训练的情况下,从已经训练好的模型中移除特定的知识。尽管针对MLLMs的MU已经引起了关注,但目前对其有效性的评估仍不完整,而且其基础问题往往定义不清,这阻碍了开发更安全和可信系统的策略。为弥补这一差距,我们引入了一个名为PEBench的基准,它包括一个个人实体和相应一般事件场景的数据集,旨在全面评估MLLMs的MU性能。通过PEBench,我们希望提供一个标准化且稳健的框架,以推动安全和隐私保护多模态模型的研究。我们对6种MU方法进行了基准测试,揭示了它们的优缺点,并阐明了MLLMs中MU的关键挑战和机遇。

[128] MTGS: 多遍高斯喷溅
标题: MTGS: Multi-Traversal Gaussian Splatting
作者: Tianyu Li / Yihang Qiu / Zhenhua Wu / Carl Lindström / Peng Su / Matthias Nießner / Hongyang Li
原文:   [英文]   [中文]  
备注: None
摘要:
多次穿越数据通常通过日常通勤或自动驾驶车队收集,为道路区块内的场景重建提供了多个视角。这些数据在高质量新视图合成方面具有显著潜力,对于自动驾驶车辆模拟器等应用至关重要。然而,多次穿越数据固有的挑战常常导致重建质量不佳,包括外观变化和动态物体的存在。为了解决这些问题,我们提出了多次穿越高斯喷溅(MTGS),这是一种新颖的方法,通过建模共享静态几何体,同时分别处理动态元素和外观变化,从任意收集的多次穿越数据中重建高质量驾驶场景。我们的方法采用了一个多次穿越动态场景图,具有共享静态节点和穿越特定的动态节点,并辅以具有可学习球谐系数残差的颜色校正节点。该方法能够实现高保真新视图合成,并提供灵活性以导航任何视点。我们在一个大规模驾驶数据集nuPlan上进行了广泛实验,使用多次穿越数据。我们的结果表明,与单次穿越基线相比,MTGS将LPIPS提高了23.5%,几何精度提高了46.3%。代码和数据将向公众开放。

[129] AdaReTaKe: 自适应冗余减少以增强视频语言理解的长期感知
标题: AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding
作者: Xiao Wang / Qingyi Si / Jianlong Wu / Shiyu Zhu / Li Cao / Liqiang Nie
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大语言模型(MLLMs)在视频理解方面取得了革命性进展,但在处理长视频时仍受限于上下文长度。最近的方法通过均匀利用视觉冗余来压缩视频,取得了可喜的成果。然而,我们的定量分析表明,冗余在时间和模型层之间显著变化,因此需要更灵活的压缩策略。我们提出了AdaReTaKe,这是一种无需训练的方法,通过在时间和层之间分配压缩比来灵活减少视觉冗余,并提供理论保证。集成到最先进的MLLMs中,AdaReTaKe将处理能力从256帧提高到2048帧,同时保留关键信息。在VideoMME、MLVU、LongVideoBench和LVBench数据集上的实验表明,AdaReTaKe在7B和72B模型上分别比现有方法提高了2.3%和2.8%,在最长的LVBench上更是分别提高了5.9%和6.0%。我们的代码可在此https URL获取。

[130] 基于历史感知的ReID特征转换用于多目标跟踪
标题: History-Aware Transformation of ReID Features for Multiple Object Tracking
作者: Ruopeng Gao / Yuyao Wang / Chunxu Liu / Limin Wang
原文:   [英文]   [中文]  
备注: Tech report. Without bells and whistles, achieving 80.8 HOTA on SportsMOT
摘要:
多目标跟踪(MOT)的目标是检测视频中的所有对象并将它们绑定到多个轨迹中。通常,这个过程分为两个步骤:检测对象并根据各种线索和度量在帧之间关联它们。许多研究和应用采用对象外观,也称为重新识别(ReID)特征,通过简单的相似性计算进行目标匹配。然而,我们认为这种做法过于简单,因此忽略了MOT任务的独特特征。与常规重新识别任务努力在一般表示中区分所有潜在目标不同,多目标跟踪通常专注于区分同一视频序列中的相似目标。因此,我们认为基于每个序列的不同样本分布寻找更合适的特征表示空间将提高跟踪性能。在本文中,我们提出使用基于历史的变换对ReID特征进行处理,以实现更具辨别力的外观表示。具体来说,我们将历史轨迹特征视为条件,并采用定制的Fisher线性判别(FLD)来寻找一个空间投影矩阵,以最大化不同轨迹之间的差异化。我们的广泛实验表明,这种无需训练的投影可以显著提升仅依赖特征的跟踪器,使其达到与最先进方法竞争甚至更优的跟踪性能,同时也展示了令人印象深刻的零样本迁移能力。这证明了我们提议的有效性,并进一步鼓励未来对ReID模型在多目标跟踪中的重要性和定制化进行深入研究。代码将在此https URL发布。

[131] 基于生成对抗网络的单阶段防御:应对对抗性补丁攻击下的交通标志分类
标题: GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch Attack
作者: Abyad Enan / Mashrur Chowdhury
原文:   [英文]  
备注: This work has been submitted to the IEEE Transactions on Intelligent Transportation Systems (T-ITS) for possible publication
摘要:
计算机视觉在确保自动驾驶车辆(AVs)的安全导航中起着至关重要的作用。自动驾驶车辆的感知模块负责捕捉和解释周围环境,以促进安全导航。该模块使自动驾驶车辆能够识别交通标志、交通信号灯和各种道路使用者。然而,感知模块容易受到对抗性攻击的影响,这可能会损害其准确性和可靠性。其中一种攻击是对抗性补丁攻击(APA),这是一种物理攻击,攻击者在物体上战略性地放置一个精心制作的贴纸,以欺骗物体分类器。在APA中,对抗性补丁被放置在目标物体上,导致分类器误识别它。这样的APA可能导致自动驾驶车辆错误分类交通标志,从而引发灾难性事件。为了增强自动驾驶车辆感知系统对抗APA的安全性,本研究开发了一种基于生成对抗网络(GAN)的单阶段防御策略,用于交通标志分类。该方法专门用于在不同类别的交通标志上防御APA,而无需事先了解补丁的设计。本研究发现,该方法对不同大小的补丁都有效。我们的实验分析表明,与没有任何防御机制的分类器相比,本文提出的防御策略在APA条件下将分类器的准确性提高了高达80.8%,并将本研究中考虑的所有交通标志的整体分类准确性提高了58%。我们的防御策略与模型无关,使其适用于任何交通标志分类器,无论其底层分类模型如何。

[132] 去模糊高斯散点SLAM
标题: Deblur Gaussian Splatting SLAM
作者: Francesco Girlanda / Denys Rozumnyi / Marc Pollefeys / Martin R. Oswald
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了Deblur-SLAM,这是一种稳健的RGB SLAM管道,旨在从运动模糊的输入中恢复清晰的重建。该方法结合了帧对帧和帧对模型方法的优势,以建模子帧相机轨迹,从而在运动模糊环境中实现高保真重建。此外,我们的管道结合了在线闭环和全局捆绑调整等技术,以实现密集且精确的全局轨迹。我们对运动模糊图像的物理图像形成过程进行建模,并通过最小化观察到的模糊图像与通过平均清晰的虚拟子帧图像获得的渲染模糊图像之间的误差来优化。此外,通过利用单目深度估计器以及高斯的在线变形,我们确保了精确的映射和增强的图像去模糊。所提出的SLAM管道集成了所有这些组件以改善结果。我们在合成和真实世界的模糊输入数据上实现了尖端的清晰地图估计和子帧轨迹恢复结果。

[133] BalancedDPO:自适应多指标对齐
标题: BalancedDPO: Adaptive Multi-Metric Alignment
作者: Dipesh Tamboli / Souradip Chakraborty / Aditya Malusare / Biplab Banerjee / Amrit Singh Bedi / Vaneet Aggarwal
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像(T2I)扩散模型取得了显著进展,但使其与多样化的偏好对齐仍然是一个持续的挑战。目前的方法通常优化单一指标或依赖于狭窄策划的数据集,导致在关键视觉质量指标上的过拟合和有限的泛化能力。我们提出了BalancedDPO,这是一种直接偏好优化(DPO)的新扩展,通过同时将T2I扩散模型与多种指标对齐,包括人类偏好、CLIP分数和美学质量,来解决这些限制。我们的关键创新在于在偏好分布空间中从多样化指标中聚合共识标签,与现有的奖励混合方法相比,实现了稳健且可扩展的多指标对齐,同时保持了我们称之为BalancedDPO的标准DPO流程的简洁性。我们在Pick-a-Pic、PartiPrompt和HPD数据集上的评估表明,BalancedDPO在所有主要指标上均优于现有方法,达到了最先进的结果。与DiffusionDPO相比,BalancedDPO在Pick-a-pic、PartiPrompt和HPD上的平均胜率分别提高了15%、7.1%和10.3%。

[134] 渐进式肢体感知虚拟试穿
标题: Progressive Limb-Aware Virtual Try-On
作者: Xiaoyu Han / Shengping Zhang / Qinglin Liu / Zonglin Li / Chenyang Wang
原文:   [英文]   [中文]  
备注: Accepted by ACM MM 2022. The code is available at this https URL
摘要:
现有的基于图像的虚拟试穿方法直接将特定服装转移到人像上,而没有利用服装属性来优化转移后的服装几何和纹理,这导致服装外观不完整和模糊。此外,这些方法通常会遮盖输入中肢体的纹理以获得与服装无关的人物表示,这导致对人体肢体区域(即裸露的手臂皮肤)的预测不准确,尤其是在长袖和短袖服装之间转换时。为了解决这些问题,我们提出了一种渐进式虚拟试穿框架,名为PL-VTON,该框架基于服装的多种属性进行像素级服装变形,并嵌入显式的肢体感知特征以生成逼真的试穿结果。具体来说,我们设计了一个多属性服装变形(MCW)模块,该模块采用基于多种属性的两阶段对齐策略,以渐进方式估计像素级服装位移。然后引入一个人体解析估计器(HPE),将人物语义地划分为不同区域,从而为人体提供结构约束,缓解服装和肢体区域之间的纹理渗透。最后,我们提出了一个肢体感知纹理融合(LTF)模块,通过融合服装和人体的纹理,并在显式肢体感知特征的指导下,估计肢体区域的高质量细节。大量实验表明,我们提出的方法在质量和数量上均优于最先进的虚拟试穿方法。代码可在此https URL获取。

[135] 使用扩散变压器免费个性化任何事物
标题: Personalize Anything for Free with Diffusion Transformer
作者: Haoran Feng / Zehuan Huang / Lin Li / Hairong Lv / Lu Sheng
原文:   [英文]  
备注: this https URL
摘要:
个性化图像生成旨在生成用户指定概念的图像,同时实现灵活的编辑。最近的无训练方法虽然在计算效率上比基于训练的方法更高,但在身份保留、适用性和与扩散变压器(DiTs)的兼容性方面存在困难。在本文中,我们揭示了DiT未被开发的潜力,通过简单地用参考主体的去噪标记替换原有标记,实现了零样本主体重建。这种简单而有效的特征注入技术解锁了从个性化到图像编辑的多种场景。基于这一观察,我们提出了\textbf{个性化任何事物},这是一个无训练框架,通过以下方式在DiT中实现个性化图像生成:1)时间步自适应标记替换,通过早期阶段注入来加强主体一致性,并通过后期阶段正则化来增强灵活性;2)补丁扰动策略以提高结构多样性。我们的方法无缝支持布局引导生成、多主体个性化和掩码控制编辑。评估结果显示在身份保留和多样性方面达到了最先进的性能。我们的工作为DiTs提供了新的见解,同时提供了一个高效个性化的实用范式。

[136] 基于点云的场景分割:综述
标题: Point Cloud Based Scene Segmentation: A Survey
作者: Dan Halperin / Niklas Eisl
原文:   [英文]  
备注: None
摘要:
自动驾驶是一项安全关键的应用,因此确保相关辅助系统能够提供关于车辆周围环境的精确信息是首要任务。诸如3D目标检测等任务对周围场景的理解不够详细,因为它们仅预测前景物体的边界框。相比之下,3D语义分割通过为每个独立点分配标签,提供了更丰富和更密集的环境信息,这对于自动驾驶任务(如导航或变道)至关重要。为了激励未来的研究,在这篇综述论文中,我们全面概述了当前自动驾驶点云语义分割领域的最新方法。我们将这些方法分为基于投影的方法、基于3D的方法和混合方法。此外,我们讨论了该任务中最重要和常用的数据集,并强调了在真实世界数据有限的情况下,合成数据对支持研究的重要性。我们还展示了不同方法的结果,并在分割精度和效率方面对它们进行了比较。

[137] 多模态链式思维推理:全面综述
标题: Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey
作者: Yaoting Wang / Shengqiong Wu / Yuecheng Zhang / William Wang / Ziwei Liu / Jiebo Luo / Hao Fei
原文:   [英文]   [中文]  
备注: survey resource at this https URL 12 figures, 4 tables, 44 pages
摘要:
通过将人类类似的逐步推理过程中的链式思维(CoT)优势扩展到多模态环境,多模态链式思维(MCoT)推理最近引起了显著的研究关注,特别是在与多模态大型语言模型(MLLMs)的整合方面。现有的MCoT研究设计了各种方法和创新的推理范式,以应对图像、视频、语音、音频、3D和结构化数据在不同模态下的独特挑战,并在机器人、医疗保健、自动驾驶和多模态生成等应用中取得了广泛的成功。然而,MCoT仍然存在独特的挑战和机遇,需要进一步关注以确保该领域的持续发展,遗憾的是,目前缺乏对该领域的最新综述。为弥补这一差距,我们提出了首个关于MCoT推理的系统综述,阐明了相关的基础概念和定义。我们提供了一个全面的分类法,并从不同的应用场景中对当前的方法进行了深入分析。此外,我们还提供了对现有挑战和未来研究方向的见解,旨在推动多模态通用人工智能(AGI)的创新。

[138] LATINO-PRO:具有提示优化的潜在一致性逆求解器
标题: LATINO-PRO: LAtent consisTency INverse sOlver with PRompt Optimization
作者: Alessio Spagnoletti / Jean Prost / Andrés Almansa / Nicolas Papadakis / Marcelo Pereyra
原文:   [英文]   [中文]  
备注: 27 pages, 20 figures
摘要:
文本到图像的潜在扩散模型(LDMs)最近作为强大的生成模型出现,在解决成像中的逆问题方面具有巨大潜力。然而,以即插即用(PnP)、零样本的方式利用此类模型仍然具有挑战性,因为这需要为未知的目标图像识别合适的文本提示。此外,现有的文本到图像PnP方法计算成本极高。我们在此通过提出一种新颖的PnP推理范式来解决这些挑战,该范式专门设计用于在随机逆求解器中嵌入生成模型,特别关注将LDMs提炼为快速生成器的潜在一致性模型(LCMs)。我们利用我们的框架提出了LAtent consisTency INverse sOlver(LATINO),这是第一个使用LCMs编码的先验知识以零样本方式解决逆问题的PnP框架。我们的条件机制避免了自动微分,并在仅需8次神经函数评估中达到SOTA质量。因此,LATINO提供了极其精确的解决方案,并且在内存和计算效率上显著优于以往的方法。然后,我们将LATINO嵌入到一个经验贝叶斯框架中,该框架通过边际最大似然估计从观测测量中自动校准文本提示。大量实验表明,提示自校准极大地改善了估计,使得LATINO通过提示优化在图像重建质量和计算效率上定义了新的SOTA。

[139] 扩展语义类别:研究其对视觉Transformer标注性能的影响
标题: Scaling Semantic Categories: Investigating the Impact on Vision Transformer Labeling Performance
作者: Anthony Lamelas / Harrison Muchnic
原文:   [英文]  
备注: 4 pages, 7 figures, submitted to CVPR (feedback pending)
摘要:
本研究探讨了语义类别扩展对视觉变换器(ViTs)图像分类性能的影响。在这个特定的案例中,使用了由 Jina AI 提供的 CLIP 服务器进行实验。研究假设,随着真实和人为引入的语义等价类别数量的增加,ViTs 的标注准确性会提高,直到达到理论上的最大值或极限。选择了多种图像数据集来测试这一假设。这些数据集通过一个定制的 Python 函数进行处理,该函数旨在评估模型的准确性,并对数据集之间的格式差异进行调整。通过指数方式引入新的冗余类别,实验评估了准确性趋势,直到它们趋于平稳、下降或不一致地波动。研究结果表明,虽然语义扩展最初会提高模型性能,但在超过一个关键阈值后,收益会减少或逆转,这为 ViTs 的类别标注策略的局限性和可能的优化提供了见解。

[140] 在线直播视频中的虚假信息检测
标题: Online Misinformation Detection in Live Streaming Videos
作者: Rui Cao
原文:   [英文]   [中文]  
备注: First prize winner in the Smart City Challenge in the 16th ACM international WSDM conference(WSDM), 2023
摘要:
在线错误信息检测是一个重要问题,已经提出了各种方法来检测和遏制各种形式的错误信息。然而,以往的研究都是以离线方式进行的。我们提出了一种尚未被研究的现实错误信息检测设置,即直播视频中的在线错误信息检测(MDLS)。在这项提议中,我们对MDLS问题进行了定义,并说明了该任务的重要性和挑战。此外,我们提出了将该问题发展为人工智能挑战的可行方法以及该问题的潜在解决方案。

[141] UniVG:用于统一图像生成和编辑的通用扩散模型
标题: UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing
作者: Tsu-Jui Fu / Yusu Qian / Chen Chen / Wenze Hu / Zhe Gan / Yinfei Yang
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像(T2I)扩散模型在根据用户提示生成视觉上引人注目的图像方面表现出色。在此基础上,各种方法进一步微调预训练的T2I模型以完成特定任务。然而,这需要不同的模型架构、训练设计和多个参数集来处理不同的任务。在本文中,我们介绍了UniVG,这是一种通用的扩散模型,能够通过一组权重支持多种图像生成任务。UniVG将多模态输入视为统一的条件,以支持各种下游应用,包括从T2I生成、图像修复、基于指令的编辑、身份保留生成、布局引导生成,到深度估计和指代分割。通过对数据混合和多任务训练的全面实证研究,我们提供了有关训练过程和决策的详细见解,这些见解为我们的最终设计提供了信息。例如,我们展示了T2I生成和其他任务(如基于指令的编辑)可以在不牺牲性能的情况下共存,而深度估计和指代分割等辅助任务则增强了图像编辑。值得注意的是,我们的模型甚至可以在某些任务的基准测试中超越特定任务的模型,标志着朝着统一图像生成模型迈出了重要一步。

[142] Logic-RAG:通过视觉空间知识增强大型多模态模型以理解道路场景
标题: Logic-RAG: Augmenting Large Multimodal Models with Visual-Spatial Knowledge for Road Scene Understanding
作者: Imran Kabir / Md Alimoor Reza / Syed Billah
原文:   [英文]  
备注: None
摘要:
大型多模态模型(LMMs)越来越多地被集成到自动驾驶系统中用于用户交互。然而,它们在细粒度空间推理方面的局限性对系统的可解释性和用户信任构成了挑战。我们介绍了Logic-RAG,这是一种新颖的检索增强生成(RAG)框架,旨在提高LMMs在驾驶场景中的空间理解能力。Logic-RAG使用感知模块、查询到逻辑嵌入器和逻辑推理引擎,构建了一个关于对象-对象关系的动态知识库(KB),采用一阶逻辑(FOL)。我们在使用合成和真实世界驾驶视频的视觉空间查询中评估了Logic-RAG。当使用流行的LMMs(GPT-4V,Claude 3.5)作为自动驾驶系统的代理时,这些模型在合成驾驶场景中仅达到55%的准确率,在真实世界驾驶场景中则低于75%。通过与Logic-RAG结合,它们的准确率分别提高到超过80%和90%。一项消融研究表明,即使没有逻辑推理,Logic-RAG构建的基于事实的上下文本身也能将准确率提高15%。Logic-RAG具有可扩展性:它允许无缝替换单个组件为改进版本,并使领域专家能够在FOL和自然语言中撰写新知识。总之,Logic-RAG解决了LMMs在自动驾驶应用中关键的空间推理缺陷。代码和数据可在此https URL获取。

[143] 使用自适应预处理在办公室视频中提升人类活动识别的领域泛化
标题: Domain Generalization for Improved Human Activity Recognition in Office Space Videos Using Adaptive Pre-processing
作者: Partho Ghosh / Raisa Bentay Hossain / Mohammad Zunaed / Taufiq Hasan
原文:   [英文]   [中文]  
备注: None
摘要:
自动视频活动识别在监控、医疗保健和机器人等众多领域中至关重要。然而,当训练和测试数据来自不同领域时,从视频数据中识别人类活动变得具有挑战性。因此,领域泛化,即适应未知领域,显得尤为重要。本文聚焦于在环境多变情况下的办公室活动识别。我们提出了三种适用于任何视频编码器的预处理技术,以增强其对环境变化的鲁棒性。我们的研究展示了MViT这一领先的最先进视频分类模型的有效性,以及结合我们技术的其他视频编码器,超越了最先进的领域适应方法。我们的方法显著提高了在未见领域上的准确率、精确率、召回率和F1分数,强调了其在具有多样化视频数据源的真实场景中的适应性。该方法为跨异构数据领域的更可靠的视频活动识别系统奠定了基础。

[144] 动态角度选择在X射线CT中的应用:一种基于强化学习的最优停止方法
标题: Dynamic Angle Selection in X-Ray CT: A Reinforcement Learning Approach to Optimal Stopping
作者: Tianyuan Wang
原文:   [英文]   [中文]  
备注: None
摘要:
在工业X射线计算机断层扫描(CT)中,快速在线检测的需求至关重要。稀疏角度断层扫描通过减少所需的投影数量,在加速处理和节约资源方面发挥了重要作用。现有的大多数方法旨在平衡重建质量和扫描时间,通常依赖于固定的扫描持续时间。角度数量的自适应调整是必不可少的;例如,对于具有复杂几何形状或噪声较大的投影的物体,可能需要更多的角度。动态调整这一平衡的最佳停止概念根据不断变化的工业需求仍未得到充分利用。在我们之前工作的基础上,我们将最佳停止整合到序列最优实验设计(OED)中。我们提出了一种在Actor-Critic框架内计算策略梯度的新方法,使得能够开发用于信息角度选择和扫描终止的自适应策略。此外,我们研究了在开发的基于学习的方法的背景下,模拟与现实应用之间的差距。我们使用合成数据开发的训练模型在应用于真实数据时表现出可靠的性能。这种方法增强了CT操作的灵活性,并扩大了稀疏角度断层扫描在工业环境中的适用性。

[145] MagicID:用于ID一致性和动态保留的视频定制的混合偏好优化
标题: MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization
作者: Hengjia Li / Lifan Jiang / Xi Xiao / Tianyang Wang / Hongwei Yi / Boxi Wu / Deng Cai
原文:   [英文]   [中文]  
备注: None
摘要:
视频身份定制旨在根据用户的参考图像生成高保真视频,这些视频在保持一致身份的同时展现显著的动态。然而,现有方法面临两个关键挑战:在较长视频中身份退化以及训练过程中动态性降低,这主要是因为它们依赖于传统的静态图像自重建训练。为了解决这些问题,我们引入了$\textbf{MagicID}$,一个旨在直接促进生成符合用户偏好的身份一致且动态丰富视频的新框架。具体来说,我们提出构建具有明确身份和动态奖励的成对偏好视频数据用于偏好学习,而不是坚持传统的自重建。为了解决定制偏好数据的限制,我们引入了一种混合采样策略。该方法首先通过利用从参考图像派生的静态视频来优先保持身份,然后使用基于前沿的采样方法增强生成视频中的动态运动质量。通过利用这些混合偏好对,我们优化模型以符合定制偏好对之间的奖励差异。大量实验表明,MagicID 成功实现了一致的身份和自然的动态性,在各种指标上超越了现有方法。

[146] AnyCalib: 面向模型无关的单视图相机标定的流形学习
标题: AnyCalib: On-Manifold Learning for Model-Agnostic Single-View Camera Calibration
作者: Javier Tirado-Garín / Javier Civera
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了AnyCalib,这是一种从单张自然环境图像中校准相机内参的方法,该方法与相机模型无关。目前的方法主要针对特定的相机模型,并且/或者需要图像中可见的外部线索,例如重力方向。相比之下,我们认为图像中固有的透视和畸变线索足以进行与模型无关的相机校准。为了证明这一点,我们将校准过程框架化为对应于每个像素的光线的回归。我们首次展示了这种中间表示允许以封闭形式恢复广泛相机模型的内参,包括但不限于:针孔模型、Brown-Conrady模型和Kannala-Brandt模型。我们的方法也适用于经过编辑的——裁剪和拉伸的——图像。在实验中,我们证明了AnyCalib始终优于替代方法,包括3D基础模型,尽管其训练数据量级要少得多。代码可在此https URL获取。

[147] SatDepth:一种用于卫星图像匹配的新型数据集
标题: SatDepth: A Novel Dataset for Satellite Image Matching
作者: Rahul Deshmukh / Avinash Kak
原文:   [英文]   [中文]  
备注: None
摘要:
最近,基于深度学习的图像匹配方法取得了显著进展,展示了其相对于传统算法的优越性,使得在视角、光照和天气条件存在显著差异的复杂场景中能够进行对应估计。然而,现有的用于深度学习方法的数据集、学习框架和评估指标仅限于使用针孔相机记录的地面图像,并未在卫星图像中进行探索。在本文中,我们提出了“SatDepth”,这是一个新颖的数据集,提供了用于训练专门针对卫星图像的图像匹配框架的密集地面真实对应关系。卫星通过多次重访一个区域,从不同的视角和轨迹捕捉图像。为了管理这种变化性,我们通过一种新颖的图像旋转增强程序提出了一种数据集平衡策略。该程序允许在图像之间存在较大旋转差异的情况下发现对应像素。我们使用我们的数据集对四个现有的图像匹配框架进行了基准测试,并进行了消融研究,确认使用我们的数据集和旋转增强训练的模型在精度上比使用其他数据集训练的模型表现更好(精度提高最多达40%),尤其是在图像之间存在较大旋转差异的情况下。

[148] GenStereo:迈向立体图像的开放世界生成与无监督匹配
标题: GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching
作者: Feng Qiao / Zhexiao Xiong / Eric Xing / Nathan Jacobs
原文:   [英文]   [中文]  
备注: Project page is available at this https URL
摘要:
立体图像在众多应用中具有重要作用,包括扩展现实(XR)设备、自动驾驶和机器人技术。然而,由于双摄像头设置的精确校准要求以及获取准确、密集视差图的复杂性,获取高质量立体图像仍然具有挑战性。现有的立体图像生成方法通常侧重于视觉质量或匹配的几何精度,但很少同时兼顾两者。我们介绍了GenStereo,一种基于扩散的方法,以弥合这一差距。该方法包括两个主要创新:(1) 在视差感知坐标嵌入和变形输入图像的条件下进行扩散过程,使得立体对齐比以往方法更为精确;(2) 自适应融合机制智能地结合扩散生成的图像与变形图像,提高了现实感和视差一致性。通过在11个多样化立体数据集上的广泛训练,GenStereo展示了强大的泛化能力。GenStereo在立体图像生成和无监督立体匹配任务中均达到了最先进的性能。我们的框架消除了复杂硬件设置的需求,同时实现了高质量立体图像生成,使其在现实应用和无监督学习场景中都具有价值。项目页面可通过此HTTPS URL访问。

[149] 应对热暴露:基于视觉语言模型代理的路线规划模拟
标题: Navigating Heat Exposure: Simulation of Route Planning Based on Visual Language Model Agents
作者: Haoran Ma / Kaihan Zhang / Jiannan Cai
原文:   [英文]  
备注: 10 pages, 6 figures
摘要:
热暴露显著影响行人的路径选择行为。现有的方法,如基于代理的建模(ABM)和实证测量,未能考虑个体生理差异和在热应激下的环境感知机制。这导致缺乏以人为中心的、适应热环境的路径建议。为了解决这些局限性,我们提出了一种新颖的视觉语言模型(VLM)驱动的“角色-感知-规划-记忆”(PPPM)框架,该框架整合了街景图像和城市网络拓扑,以模拟适应热环境的行人路径选择。通过对Gemini-2.0模型进行结构化提示工程,创建了八个不同的对热敏感的角色,以模拟热暴露期间的移动行为,并通过问卷调查进行实证验证。结果表明,模拟输出有效捕捉了角色间的差异,与观察到的路径偏好高度一致,并突出了影响代理决策的因素差异。我们的框架具有很高的成本效益,每条路径的模拟成本为0.006美元,耗时47.81秒。这种人工智能生成内容(AIGC)方法通过实现对热响应移动模式的高分辨率模拟,推动了城市气候适应研究,为气候适应性城市规划提供了可操作的见解。

[150] 基于立体事件的非合作航天器六自由度姿态跟踪
标题: Stereo Event-based, 6-DOF Pose Tracking for Uncooperative Spacecraft
作者: Zibin Liu / Banglei Guan / Yang Shang / Yifei Bian / Pengju Sun / Qifeng Yu
原文:   [英文]   [中文]  
备注: Accepted by IEEE Transactions on Geoscience and Remote Sensing
摘要:
非合作航天器的姿态跟踪是空间探索和在轨服务的关键技术,仍然是一个未解决的问题。事件相机具有许多优点,例如高动态范围、高时间分辨率和低功耗。这些特性有望克服传统相机遇到的挑战,包括运动模糊和极端光照等。为了解决标准的在轨观测任务,我们提出了一种基于线的非合作航天器姿态跟踪方法,利用立体事件相机。首先,我们利用立体事件流的时空一致性来估计非合作航天器的线框模型,以进行基于线的重建。然后,我们开发了一种有效的策略来建立事件与非合作航天器投影线之间的对应关系。利用这些对应关系,我们将姿态跟踪表述为一个连续优化过程,涉及6自由度运动参数的优化,通过最小化事件线距离来实现。此外,我们构建了一个基于立体事件的非合作航天器运动数据集,涵盖了模拟和真实事件。通过在我们自收集的数据集上进行的实验,定量评估了所提出方法的有效性和准确性,显示出相较于竞争方法的改进。代码将在此https URL上开源。

[151] ProtoDepth:基于原型的无监督持续深度补全
标题: ProtoDepth: Unsupervised Continual Depth Completion with Prototypes
作者: Patrick Rim / Hyoungseob Park / S. Gangopadhyay / Ziyao Zeng / Younjoon Chung / Alex Wong
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025
摘要:
我们介绍了ProtoDepth,这是一种新颖的基于原型的方法,用于持续学习无监督深度补全,这是一种从RGB图像和稀疏点云预测密集深度图的多模态3D重建任务。无监督学习范式非常适合持续学习,因为不需要真实标签。然而,当在新的非平稳分布上进行训练时,深度补全模型会灾难性地遗忘先前学到的信息。我们通过学习原型集来解决遗忘问题,这些原型集将冻结的预训练模型的潜在特征适应到新的领域。由于原始权重没有被修改,当测试时域身份已知时,ProtoDepth不会遗忘。为了将ProtoDepth扩展到测试时域身份被隐瞒的挑战性环境中,我们提出学习域描述符,使模型能够选择适当的原型集进行推理。我们在基准数据集序列上评估ProtoDepth,与基线相比,我们将室内遗忘减少了52.2%,室外减少了53.2%,达到了最新的技术水平。

[152] R3-Avatar:记录和检索时间码本以重建真实感人类化身
标题: R3-Avatar: Record and Retrieve Temporal Codebook for Reconstructing Photorealistic Human Avatars
作者: Yifan Zhan / Wangze Xu / Qingtian Zhu / Muyao Niu / Mingze Ma / Yifei Liu / Zhihang Zhong / Xiao Sun / Yinqiang Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了R3-Avatar,结合时间码本,以克服人类化身无法同时具有可动画性和高保真渲染质量的问题。现有的视频基础3D人类化身重建要么仅专注于渲染,缺乏动画支持,要么学习姿势-外观映射以进行动画,但在训练姿势有限或服装复杂的情况下会出现质量下降。在本文中,我们采用“记录-检索-重建”策略,确保从新视角进行高质量渲染,同时减轻新姿势下的质量下降。具体来说,时间戳记录在码本中消除时间外观变化的歧义,确保高保真新视角渲染,而新姿势通过匹配最相似的训练姿势来检索相应的时间戳以增强外观。我们的R3-Avatar在极端情况下,特别是在训练人类姿势有限和服装复杂的情况下,克服视觉质量下降方面优于最先进的视频基础人类化身重建。

[153] VasTSD:学习用于血管造影合成的三维血管树状态空间扩散模型
标题: VasTSD: Learning 3D Vascular Tree-state Space Diffusion Model for Angiography Synthesis
作者: Zhifeng Wang / Renjiao Yi / Xin Wen / Chenyang Zhu / Kai Xu
原文:   [英文]  
备注: None
摘要:
血管造影成像是一种医学成像技术,通过使用造影剂增强体内血管的可见性。血管造影图像可以有效地辅助血管疾病的诊断。然而,造影剂可能会带来额外的辐射暴露,这对健康风险患者是有害的。为了解决这些问题,本文旨在通过利用和增强血管结构的固有物理特性,从非血管造影输入中自动生成血管造影。以往依赖于二维切片的血管造影合成方法在保持三维血管结构的连续性方面存在困难,并且在不同成像模式下效果有限。我们提出了VasTSD,一种三维血管树状态空间扩散模型,用于从三维非血管造影体积中合成血管造影。该模型采用了一种新颖的状态空间序列化方法,动态构建血管树拓扑结构,并将其与基于扩散的生成模型相结合,以确保在三维体积中生成解剖学上连续的血管。一个预训练的视觉嵌入器被用来构建血管状态空间表示,从而能够在多种模式下一致地建模血管结构。在各种血管造影数据集上的大量实验表明,VasTSD优于以往的工作,在多种模式和解剖区域的合成血管造影中实现了血管连续性的增强。

[154] 人类交互动作生成综述
标题: A Survey on Human Interaction Motion Generation
作者: Kewei Sui / Anindita Ghosh / Inwoo Hwang / Jian Wang / Chuan Guo
原文:   [英文]  
备注: The repository listing relevant papers is accessible at: this https URL
摘要:
人类生活在一个由互动定义的世界中——与其他人类、物体和环境的互动。这些互动行为不仅传达了我们与周围环境的关系,还展示了我们如何感知和与现实世界交流。因此,在数字系统中复制这些互动行为已成为机器人技术、虚拟现实和动画应用中的一个重要课题。尽管深度生成模型的最新进展和新数据集加速了该领域的进步,但在建模复杂的人类动态及其与外部世界实体的互动方面仍然存在重大挑战。在这篇综述中,我们首次全面概述了人类互动运动生成领域的文献。我们首先建立了理解研究背景所必需的基础概念。然后,我们系统地回顾了在人与人、人与物体以及人与场景三大主要互动任务中的现有解决方案和数据集,接着是评估指标。最后,我们讨论了开放的研究方向和未来的机遇。

[155] 解耦重建:通过主动特征解缠和可逆融合实现高质量超高清修复
标题: Decouple to Reconstruct: High Quality UHD Restoration via Active Feature Disentanglement and Reversible Fusion
作者: Yidi Liu / Dong Li / Yuxin Ma / Jie Huang / Wenlong Zhang / Xueyang Fu / Zheng-jun Zha
原文:   [英文]   [中文]  
备注: None
摘要:
超高清(UHD)图像修复由于其极高的分辨率,常常面临计算瓶颈和信息丢失的问题。基于变分自编码器(VAE)的现有研究通过将图像修复过程从像素空间转移到潜在空间来提高效率。然而,在退化图像中,退化的成分与背景元素本质上是耦合的,压缩过程中的信息丢失和补偿过程中的信息增益仍然无法控制。这导致修复后的图像常常表现出图像细节丢失和退化去除不完全的问题。为了解决这个问题,我们提出了一种受控差分解耦VAE,它利用分层对比解耦学习和正交门控投影模块,引导VAE主动丢弃易于恢复的背景信息,同时将更难恢复的退化信息编码到潜在空间中。此外,我们设计了一个复杂的可逆多尺度融合网络来处理背景特征,确保其一致性,并利用潜在空间修复网络来转换退化的潜在特征,从而获得更准确的修复结果。大量实验结果表明,我们的方法在确保计算效率的同时,有效缓解了VAE模型中的信息丢失问题,显著提高了UHD图像修复的质量,并在六个UHD修复任务中仅用1M参数就达到了最先进的结果。

[156] ViSpeak:流媒体视频中的视觉指令反馈
标题: ViSpeak: Visual Instruction Feedback in Streaming Videos
作者: Shenghao Fu / Qize Yang / Yuan-Ming Li / Yi-Xing Peng / Kun-Yu Lin / Xihan Wei / Jian-Fang Hu / Xiaohua Xie / Wei-Shi Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
最近在大型多模态模型(LMMs)方面的进展主要集中在离线视频理解上。然而,流媒体视频理解由于其时间敏感性、全模态和交互特性,对最近的模型提出了巨大挑战。在这项工作中,我们旨在从一个新的角度扩展流媒体视频理解,并提出一个名为视觉指令反馈的新任务,其中模型应能够感知视觉内容并学习从中提取指令。例如,当用户向代理挥手时,代理应识别该手势并开始以欢迎信息进行对话。因此,遵循视觉模态中的指令极大地增强了用户与代理的互动。为了促进研究,我们定义了七个与视觉模态高度相关的关键子任务,并收集了用于训练的ViSpeak-Instruct数据集和用于评估的ViSpeak-Bench。此外,我们提出了ViSpeak模型,这是一种在各种流媒体视频理解基准上具有GPT-4o级别性能的SOTA流媒体视频理解LMM。经过在我们的ViSpeak-Instruct数据集上的微调后,ViSpeak具备了基本的视觉指令反馈能力,成为未来研究的坚实基线。

[157] NuPlanQA:用于多模态大型语言模型的多视角驾驶场景理解的大规模数据集和基准
标题: NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models
作者: Sung-Yeon Park / Can Cui / Yunsheng Ma / Ahmadreza Moradipari / Rohit Gupta / Kyungtae Han / Ziran Wang
原文:   [英文]   [中文]  
备注: None
摘要:
最近在多模态大型语言模型(MLLMs)方面的进展显示了其在各个领域的强大性能;然而,它们理解驾驶场景的能力仍未得到充分验证。驾驶场景的复杂性,包括多视角信息,对现有的MLLMs构成了重大挑战。在本文中,我们介绍了NuPlanQA-Eval,这是一个用于驾驶场景理解的多视角、多模态评估基准。为了进一步支持对多视角驾驶场景的泛化,我们还提出了NuPlanQA-1M,这是一个包含100万对真实世界视觉问答(VQA)对的大规模数据集。为了对交通场景进行上下文感知分析,我们将数据集分为三个核心技能下的九个子任务:道路环境感知、空间关系识别和自我中心推理。此外,我们提出了BEV-LLM,将来自多视角图像的鸟瞰图(BEV)特征整合到MLLMs中。我们的评估结果揭示了现有MLLMs在驾驶场景特定感知和自我中心视角的空间推理中面临的关键挑战。相比之下,BEV-LLM在该领域表现出显著的适应性,在九个子任务中的六个上优于其他模型。这些发现突显了BEV整合如何增强多视角MLLMs,同时也识别出需要进一步改进的关键领域,以有效适应驾驶场景。为了促进进一步研究,我们在此https URL上公开发布了NuPlanQA。

[158] 通过误判风险分析的自适应深度学习用于多类别乳腺癌分类
标题: Adaptive Deep Learning for Multiclass Breast Cancer Classification via Misprediction Risk Analysis
作者: Gul Sheeraz / Qun Chen / Liu Feiyu / Zhou Fengjin MD
原文:   [英文]   [中文]  
备注: None
摘要:
乳腺癌仍然是全球癌症相关死亡的主要原因之一。早期检测对于改善患者预后至关重要,但诊断过程通常复杂且容易在病理学家之间产生不一致。计算机辅助诊断方法显著提高了乳腺癌的检测,特别是在二分类(良性与恶性)方面。然而,这些方法在多分类中面临挑战,导致频繁的误判。在这项工作中,我们提出了一种新颖的自适应学习方法,用于使用H&E染色的组织病理学图像进行多分类乳腺癌分类。首先,我们引入了一种误判风险分析框架,该框架量化并排序图像被分类器错误标记的可能性。该框架利用了一种可解释的风险模型,只需少量标记样本进行训练。接下来,我们提出了一种自适应学习策略,根据给定数据集的特定特征微调分类器。该方法最小化误判风险,使分类器能够有效适应目标工作负载。我们在真实基准数据集上评估了我们提出的解决方案,结果表明,与现有方法相比,我们的风险分析框架更准确地识别误判。此外,我们的自适应学习方法显著提高了最先进的深度神经网络分类器的性能。

[159] TransDiff: 基于扩散的方法,通过单个RGB-D图像操控透明物体
标题: TransDiff: Diffusion-Based Method for Manipulating Transparent Objects Using a Single RGB-D Image
作者: Haoxiao Wang / Kaichen Zhou / Binrui Gu / Zhiyuan Feng / Weijie Wang / Peilin Sun / Yicheng Xiao / Jianhua Zhang / Hao Dong
原文:   [英文]   [中文]  
备注: Accepted by ICRA 2025
摘要:
操作透明物体具有显著的挑战性,因为其反射和折射特性带来的复杂性极大地阻碍了对其三维形状的准确估计。为了解决这些挑战,我们提出了一种基于单视图RGB-D的深度补全框架,TransDiff,该框架利用去噪扩散概率模型(DDPM)实现桌面环境中与材料无关的物体抓取。具体来说,我们利用从RGB图像中提取的特征,包括语义分割、边缘图和法线图,以对深度图生成过程进行条件化。我们的方法学习了一种迭代去噪过程,将随机深度分布转化为深度图,并通过初步优化的深度信息引导,确保在涉及透明物体的场景中实现更准确的深度估计。此外,我们提出了一种新颖的训练方法,以更好地对齐作为条件的噪声深度和RGB图像特征,从而逐步优化深度估计。最后,我们利用改进的推理过程加速去噪过程。通过全面的实验验证,我们证明了我们的方法在合成和真实世界基准测试中显著优于基线,并具有可接受的推理时间。我们方法的演示可以在这个https URL上找到。

[160] LangDA: 通过语言构建上下文感知以实现领域自适应语义分割
标题: LangDA: Building Context-Awareness via Language for Domain Adaptive Semantic Segmentation
作者: Chang Liu / Bavesh Balaji / Saad Hossain / C Thomas / Kwei-Herng Lai / Raviteja Vemulapalli / Alexander Wong / Sirisha Rambhatla
原文:   [英文]   [中文]  
备注: None
摘要:
语义分割的无监督领域适应(DASS)旨在将知识从标签丰富的源领域转移到没有标签的目标领域。DASS的两个关键方法是:(1)仅使用视觉的方法,如遮罩或多分辨率裁剪;(2)基于语言的方法,使用由目标领域信息的通用类别提示(例如“一个{雪地}的{类别}照片”)。然而,前者容易受到噪声伪标签的影响,这些标签偏向于源领域。后者则未能充分捕捉对象的复杂空间关系——这是密集预测任务的关键。为此,我们提出了LangDA。LangDA通过以下方式解决这些挑战:首先,通过VLM生成的场景描述(例如“一个行人在人行道上,街道两旁是建筑物。”)学习对象之间的上下文关系。其次,LangDA将整个图像特征与这种上下文感知场景标题的文本表示对齐,并通过文本学习广义表示。通过这一方法,LangDA在三个DASS基准测试中设定了新的最先进水平,分别超越现有方法2.6%、1.4%和3.9%。

[161] 用于图像和视频分割的SAM2:一项全面综述
标题: SAM2 for Image and Video Segmentation: A Comprehensive Survey
作者: Zhang Jiaxing / Tang Hao
原文:   [英文]   [中文]  
备注: 20 pages, 4 figures, 7 Tables
摘要:
尽管深度学习在图像和视频分割方面取得了显著进展,现有模型在跨域适应性和泛化能力方面仍面临挑战。图像和视频分割是计算机视觉中的基础任务,广泛应用于医疗、农业、工业检测和自动驾驶等领域。随着大规模基础模型的出现,SAM2——一种改进版的SAM(Segment Anything Model)已针对分割任务进行了优化,在复杂场景中表现出增强的性能。然而,SAM2在特定领域的适应性和局限性需要进一步研究。本文系统分析了SAM2在图像和视频分割中的应用,并评估其在各个领域的表现。我们首先介绍图像分割的基础概念,分类基础模型,并探讨SAM和SAM2的技术特征。随后,我们深入研究了SAM2在静态图像和视频分割中的应用,强调其在医学影像等专业领域的表现以及跨域适应性的挑战。作为研究的一部分,我们审阅了200多篇相关论文,以提供对该主题的全面分析。最后,本文强调了SAM2在分割任务中的优缺点,识别其面临的技术挑战,并提出未来的发展方向。该综述为优化和应用SAM2于现实场景提供了宝贵的见解和实用建议。

[162] 用于连续高光谱压缩重建的混合粒度隐式表示
标题: Mixed-granularity Implicit Representation for Continuous Hyperspectral Compressive Reconstruction
作者: Jianan Li / Huan Chen / Wangcai Zhao / Rui Chen / Tingfa Xu
原文:   [英文]   [中文]  
备注: Accepted by TNNLS
摘要:
高光谱图像(HSIs)在众多领域中至关重要,但传统光谱仪的长时间采集限制了其应用。编码孔径快照光谱成像(CASSI)系统通过一种压缩技术加速了采集过程,从而缓解了这一问题。然而,由于固定的空间和光谱分辨率限制,从压缩数据中重建高光谱图像仍然面临挑战。本研究引入了一种使用隐式神经表示进行连续高光谱图像重建的新方法。我们提出了混合粒度隐式表示(MGIR)框架,其中包括一个用于高效多尺度隐式特征提取的分层光谱-空间隐式编码器。该框架还配备了一个混合粒度局部特征聚合器,能够自适应地整合跨尺度的局部特征,并结合一个解码器以合并坐标信息实现精确重建。通过利用隐式神经表示,MGIR框架能够在任意所需的空间-光谱分辨率下进行重建,大大增强了CASSI系统的灵活性和适应性。广泛的实验评估证实,我们的模型在不同的光谱-空间压缩比下生成的重建图像能够达到任意分辨率,并与现有的最先进方法相媲美。代码将在此https URL发布。

[163] 使用手写随机数字串进行隐私保护的生物特征验证
标题: Privacy-Preserving Biometric Verification with Handwritten Random Digit String
作者: Peirong Zhang / Yuliang Liu / Songxuan Lai / Hongliang Li / Lianwen Jin
原文:   [英文]   [中文]  
备注: None
摘要:
手写验证作为一种稳固的身份认证方法已经存在了数十年。然而,由于手写生物特征(如签名)中包含个人信息,这一技术存在潜在的隐私泄露风险。为了解决这一问题,我们提出使用随机数字串(RDS)进行隐私保护的手写验证。这种方法允许用户通过书写任意数字序列来进行身份验证,从而有效地确保隐私保护。为了评估RDS的有效性,我们构建了一个新的HRDS4BV数据集,该数据集由在线自然手写的RDS组成。与传统手写不同,RDS包含不受限制和可变的内容,这对建模一致的个人书写风格提出了重大挑战。为了解决这一问题,我们提出了模式注意验证网络(PAVENet)以及一个判别模式挖掘(DPM)模块。DPM自适应地增强了一致且具有辨别力的书写模式的识别,从而优化了手写风格的表示。通过全面的评估,我们审视了在线RDS验证的适用性,并展示了我们的模型相较于现有方法的显著优越性。此外,我们发现了一种显著的伪造现象,这与先前的发现有所不同,并讨论了其在对抗恶意冒名顶替攻击中的积极影响。总体而言,我们的工作强调了隐私保护生物特征验证的可行性,并推动了其更广泛接受和应用的前景。

[164] DeepPerception:在多模态大语言模型中推进类似R1的认知视觉感知以实现知识密集型视觉定位
标题: DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding
作者: Xinyu Ma / Ziyang Ding / Zhicong Luo / Chi Chen / Zonghao Guo / Derek F. Wong / Xiaoyi Feng / Maosong Sun
原文:   [英文]   [中文]  
备注: None
摘要:
人类专家在细粒度视觉辨别方面表现出色,他们通过利用领域知识来优化感知特征,而这一能力在当前的多模态大型语言模型(MLLMs)中仍未得到充分发展。尽管拥有广泛的专家级知识,MLLMs在将推理融入视觉感知方面仍然存在困难,通常会在没有深入分析的情况下生成直接响应。为弥补这一差距,我们引入了知识密集型视觉定位(KVG),这是一项新颖的视觉定位任务,需要细粒度的感知和领域特定知识的整合。为应对KVG的挑战,我们提出了DeepPerception,这是一种增强了认知视觉感知能力的MLLM。我们的方法包括:(1)一个自动化数据合成管道,用于生成高质量、知识对齐的训练样本,以及(2)一个结合了认知推理支架的监督微调和强化学习以优化感知-认知协同的两阶段训练框架。为了评估性能,我们引入了KVG-Bench,这是一个涵盖10个领域、包含1.3K手动整理测试案例的综合数据集。实验结果表明,DeepPerception显著优于直接微调,在KVG-Bench上实现了+8.08%的准确率提升,并在跨领域泛化方面比基线方法高出+4.60%。我们的研究结果强调了将认知过程整合到MLLMs中以实现类人视觉感知的重要性,并为多模态推理研究开辟了新方向。数据、代码和模型已在此https URL上发布。

[165] 多模态大型语言模型的基于现实的思维链
标题: Grounded Chain-of-Thought for Multimodal Large Language Models
作者: Qiong Wu / Xiangcong Yang / Yiyi Zhou / Chenxin Fang / Baiyang Song / Xiaoshuai Sun / Rongrong Ji
原文:   [英文]   [中文]  
备注: None
摘要:
尽管取得了巨大进展,现有的多模态大型语言模型(MLLMs)仍然容易出现视觉幻觉,严重阻碍了其可信应用。在本文中,我们从视觉空间推理的角度研究这个问题,并为MLLMs提出了一项新的学习任务,称为基于思维链的推理(GCoT)。与最近关注视觉知识推理的视觉思维链研究不同,GCoT旨在帮助MLLMs逐步识别和定位相关的视觉线索,从而以定位坐标作为直观依据预测正确答案。为了促进这一任务,我们还精心设计并构建了一个名为多模态基于思维链的推理(MM-GCoT)的数据集,包含5,033张图像的24,022个GCoT示例。此外,还引入了一个全面的一致性评估系统,包括答案准确性、定位准确性和答案-定位一致性等指标。我们进一步设计并在12个先进的MLLMs上进行了一系列实验,揭示了一些显著的发现:i. 大多数MLLMs在一致性评估中表现不佳,表明存在明显的视觉幻觉;ii. 视觉幻觉与参数大小和一般多模态性能没有直接关系,即更大和更强的MLLMs并不因此问题受到较少影响。最后,我们还证明了所提出的数据集可以帮助现有的MLLMs很好地培养其GCoT能力,并显著减少不一致的回答。此外,它们的GCoT还可以推广到现有的多模态任务,如开放世界问答和推荐系统。

[166] 用于半监督图像医学图像分割的成对相似性正则化
标题: Pairwise Similarity Regularization for Semi-supervised Graph Medical Image Segmentation
作者: Jialu Zhou / Dianxi Shi / Shaowu Yang / Chunping Qiu / Luoxi Jing / Mengzhu Wang
原文:   [英文]   [中文]  
备注: None
摘要:
通过充分利用未标记数据的价值,半监督医学图像分割算法显著减少了有限标记数据的限制,实现了准确性的显著提升。然而,标记数据和未标记数据之间的分布偏移削弱了标记数据信息的利用。为了解决这个问题,我们提出了一种基于成对相似性正则化(PaSR)的图网络特征对齐方法,用于半监督医学图像分割。PaSR通过保持目标域和源域之间特征图的成对结构相似性的一致性来对齐不同域图像的图结构,从而减少医学图像中的分布偏移问题。同时,通过对齐图聚类信息来提高教师网络中伪标签的准确性,以增强模型的半监督效率。实验部分在三个医学图像分割基准数据集上进行了验证,结果显示在各种指标上优于先进方法。在ACDC数据集上,平均提升超过10.66%。

[167] Hydra-MDP++:通过专家引导的Hydra蒸馏推进端到端驾驶
标题: Hydra-MDP++: Advancing End-to-End Driving via Expert-Guided Hydra-Distillation
作者: Kailin Li / Zhenxin Li / Shiyi Lan / Yuan Xie / Zhizhong Zhang / Jiayi Liu / Zuxuan Wu / Zhiding Yu / Jose M.Alvarez
原文:   [英文]   [中文]  
备注: None
摘要:
Hydra-MDP++ 引入了一种新颖的师生知识蒸馏框架,采用多头解码器从人类演示和基于规则的专家中学习。该框架使用轻量级的 ResNet-34 网络,没有复杂的组件,并结合了扩展的评估指标,包括交通灯遵守(TL)、车道保持能力(LK)和扩展舒适性(EC),以解决传统 NAVSIM 衍生教师未捕捉到的不安全行为。与其他端到端自动驾驶方法类似,Hydra 直接处理原始图像,而不依赖特权感知信号。通过扩展到 V2-99 图像编码器,Hydra-MDP++ 通过在 NAVSIM 上实现 91.0% 的驾驶得分,整合这些组件,达到了最先进的性能,展示了其在处理多样化驾驶场景时保持计算效率的有效性。

[168] 从头到尾:通过自适应数据校准实现大型视觉语言模型中的平衡表示
标题: From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration
作者: Mingyang Song / Xiaoye Qu / Jiawei Zhou / Yu Cheng
原文:   [英文]  
备注: Accepted by CVPR 2025
摘要:
大型视觉-语言模型(LVLMs)在结合视觉理解与语言生成方面取得了显著进展。尽管取得了这些成功,LVLMs 的训练数据仍然存在长尾(LT)问题,即数据分布高度不平衡。以往的研究主要集中在传统的 VLM 架构上,如 CLIP 或 ViT,以及特定任务如识别和分类。然而,对 LVLM(例如 LLaVA)和更一般任务(例如视觉问答和视觉推理)的探索仍然不足。在本文中,我们首先对 LVLMs 中的 LT 问题进行了深入分析,并确定了两个核心原因:头部概念的过度代表性和尾部概念的代表性不足。基于上述观察,我们提出了一种自适应数据精炼框架(ADR),该框架包括两个阶段:数据再平衡(DR)和数据合成(DS)。在 DR 阶段,我们根据实体分布自适应地重新平衡冗余数据,而在 DS 阶段,我们利用去噪扩散概率模型(DDPMs)和稀缺图像来补充代表性不足的部分。通过对十一项基准的全面评估,我们提出的 ADR 有效缓解了训练数据中的长尾问题,在不增加训练数据量的情况下,相对提高了 LLaVA 1.5 的平均性能 4.36%。

[169] GSBAK$^K$: 基于几何评分的前$K$黑箱攻击
标题: GSBAK$^K$: $top$-$K$ Geometric Score-based Black-box Attack
作者: Md Farhamdur Reza / Richeng Jin / Tianfu Wu / Huaiyu Dai
原文:   [英文]   [中文]  
备注: This article has been accepted for publication at ICLR 2025
摘要:
现有的基于评分的对抗攻击主要集中在针对单标签分类器生成$top$-1对抗样本。它们的攻击成功率和查询效率通常不尽如人意,尤其是在小扰动要求下;此外,多标签学习分类器的脆弱性尚未得到研究。在本文中,我们提出了一种全面的无代理基于评分的攻击,称为几何评分黑盒攻击(GSBAK$^K$),以在激进的$top$-$K$设置中生成对抗样本,适用于无目标和有目标攻击,其目标是改变目标分类器的$top$-$K$预测。我们引入了新颖的基于梯度的方法来找到一个良好的初始边界点进行攻击。我们的方法采用了新颖的梯度估计技术,特别是在$top$-$K$设置中有效,在决策边界上有效利用决策边界的几何特性。此外,GSBAK$^K$可以用于攻击具有$top$-$K$多标签学习的分类器。在ImageNet和PASCAL VOC数据集上的大量实验结果验证了GSBAK$^K$在生成$top$-$K$对抗样本方面的有效性。

[170] PASTA:基于文本对齐先验的部件感知草图到3D形状生成
标题: PASTA: Part-Aware Sketch-to-3D Shape Generation with Text-Aligned Prior
作者: Seunggwan Lee / Hwanhee Jung / Byoungsoo Koh / Qixing Huang / Sangho Yoon / Sangpil Kim
原文:   [英文]   [中文]  
备注: 19 pages, 18 figures
摘要:
条件3D形状生成中的一个基本挑战是最小化信息损失并最大化用户输入的意图。现有的方法主要集中于两种类型的孤立条件信号,即用户草图和文本描述,这两者都不能提供对生成形状的灵活控制。在本文中,我们介绍了PASTA,这是一种灵活的方法,可以无缝集成用户草图和文本描述以进行3D形状生成。其核心思想是使用视觉语言模型中的文本嵌入来丰富草图的语义表示。具体来说,这些文本衍生的先验信息指定了对象的部件组件,弥补了模糊草图中缺失的视觉线索。此外,我们引入了ISG-Net,它采用了两种类型的图卷积网络:IndivGCN处理细粒度细节,PartGCN将这些细节聚合成部件并优化对象的结构。大量实验表明,PASTA在部件级编辑方面优于现有方法,并在草图到3D形状生成中达到了最先进的结果。

[171] CompMarkGS:用于压缩3D高斯点云的鲁棒水印技术
标题: CompMarkGS: Robust Watermarking for Compression 3D Gaussian Splatting
作者: Sumin In / Youngdong Jang / Utae Jeong / MinHyuk Jang / Hyeongcheol Park / Eunbyung Park / Sangpil Kim
原文:   [英文]   [中文]  
备注: 23 pages, 17 figures
摘要:
3D高斯点云(3DGS)实现了快速的可微渲染,用于3D重建和新视图合成,从而在商业上得到广泛应用。因此,通过水印进行版权保护变得至关重要。然而,由于3DGS依赖于数百万个高斯点,需要数GB的存储空间,因此高效的传输和存储需要压缩。现有的3DGS水印方法容易受到基于量化的压缩的影响,常常导致嵌入的水印丢失。为了解决这一挑战,我们提出了一种新颖的水印方法,确保在模型压缩后水印的鲁棒性,同时保持高渲染质量。具体来说,我们在训练过程中加入了一个量化失真层,模拟压缩过程,从而在基于量化的压缩下保留水印。此外,我们提出了一种可学习的水印嵌入特征,将水印嵌入到锚点特征中,确保结构一致性并无缝集成到3D场景中。此外,我们提出了一种频率感知的锚点增长机制,通过有效识别高频区域内的高斯点来增强高频区域的图像质量。实验结果证实,我们的方法在高压缩下保留了水印并保持了卓越的图像质量,验证了其作为安全3DGS模型的一个有前途的方法。

[172] DreamLayer:通过扩散模式实现多层同时生成
标题: DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode
作者: Junjia Huang / Pengxiang Yan / Jinhang Cai / Jiyang Liu / Zhao Wang / Yitong Wang / Xinglong Wu / Guanbin Li
原文:   [英文]   [中文]  
备注: Under submission
摘要:
最近,使用扩散模型的文本驱动图像生成引起了广泛关注。为了实现更灵活的图像操作和编辑,最近的研究从单一图像生成扩展到透明层生成和多层合成。然而,现有的方法往往未能对多层结构进行深入探索,导致层间交互不一致,例如遮挡关系、空间布局和阴影。在本文中,我们介绍了DreamLayer,这是一种新颖的框架,通过显式建模透明前景和背景层之间的关系,实现多图层的连贯文本驱动生成。DreamLayer包含三个关键组件,即用于全局-局部信息交换的上下文感知交叉注意力(CACA)、用于建立稳健层间连接的层共享自注意力(LSSA),以及用于在潜在层次上细化融合细节的信息保留协调(IRH)。通过利用连贯的全图上下文,DreamLayer通过注意力机制建立层间连接,并应用协调步骤以实现无缝的层融合。为了促进多层生成的研究,我们构建了一个高质量、多样化的多层数据集,包括40万样本。大量实验和用户研究表明,DreamLayer生成的层更加连贯且对齐良好,具有广泛的应用,包括潜在空间图像编辑和图像到层的分解。

[173] 面向多模态和高光谱地理空间数据的可扩展基础模型
标题: Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data
作者: Haozhe Si / Yuxuan Wan / Minh Do / Deepak Vasisht / Han Zhao / Hendrik F. Hamann
原文:   [英文]   [中文]  
备注: None
摘要:
地理空间栅格(影像)数据,例如由卫星成像系统在不同时间和光谱波段收集的数据,具有极大的潜力,可以支持广泛的高影响力应用。这种潜力源于跨多个通道和传感模式的丰富信息,这些信息在空间和时间上具有上下文关联。最近的研究已经将现有的自监督学习方法应用于这种地理空间数据。然而,它们在可扩展的模型架构方面表现不足,导致在面对越来越多的通道和模式时缺乏灵活性和计算效率。为了解决这些限制,我们引入了低秩高效空间-光谱视觉变换器(LESS ViT),具有三个关键创新:i) LESS注意块,通过低维空间和光谱注意组件的克罗内克积来近似高维空间-光谱注意;ii) 连续位置-通道嵌入层,保留每个补丁的空间和光谱连续性及物理特征;iii) 感知场掩码,通过限制对邻近补丁的注意来利用局部空间依赖性。为了评估所提出的创新,我们构建了一个基准,GFM-Bench,作为这种地理空间栅格数据的综合基准。我们使用集成位置和通道掩码策略的高光谱掩码自动编码器框架对LESS ViT进行预训练。实验结果表明,我们提出的方法超越了当前最先进的多模态地理空间基础模型,以更少的计算和更少的参数实现了更优的性能。我们框架的灵活性和可扩展性使其成为未来涉及广泛模式和通道的地理空间数据分析任务的一个有前景的方向。

[174] GuideDog:面向盲人和低视力人士无障碍引导的真实世界自我中心多模态数据集
标题: GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance
作者: Junhyeok Kim / Jaewoo Park / Junhee Park / Sangeyl Lee / Jiwan Chung / Jisung Kim / Ji Hoon Joung / Youngjae Yu
原文:   [英文]   [中文]  
备注: None
摘要:
全球有22亿人受到失明和低视力(BLV)的影响,行动能力仍然是一个重大挑战,其中7%的视障人士每月至少会摔倒一次。尽管多模态大语言模型(MLLMs)的最新进展为BLV辅助提供了有前景的机会,但其发展受到数据集有限的阻碍。这一限制源于BLV相关的标注需要专业领域知识和大量劳动。为了解决这一差距,我们引入了GuideDog,这是一个新颖的无障碍感知引导数据集,包含22,000对图像描述对(其中包括2,000对人工标注的对),捕捉了从行人视角的多样化真实场景。我们的方法通过基于既定无障碍标准的协作人机框架,将标注负担从生成转移到验证,大大提高了效率,同时保持了高质量的标注。我们还开发了GuideDogQA,这是一个包含818个样本的子集,具有多项选择题,旨在评估细粒度的视觉感知能力,特别是物体识别和相对深度感知。我们的实验结果强调了准确的空间理解对于有效的BLV引导的重要性。GuideDog和GuideDogQA将推动基于MLLM的BLV辅助技术的研究,同时有助于更广泛的应用,如机器人和增强现实中的自我中心场景理解。代码和数据集将公开提供。

[175] ACT360:一种用于关键任务训练和汇报的高效360度动作检测和总结框架
标题: ACT360: An Efficient 360-Degree Action Detection and Summarization Framework for Mission-Critical Training and Debriefing
作者: Aditi Tiwari / Klara Nahrstedt
原文:   [英文]   [中文]  
备注: 9 pages, 8 figures
摘要:
在高风险、任务关键的环境中,如灾难响应、军事模拟和工业安全,有效的培训和总结至关重要,因为精确性和减少错误是首要任务。传统的培训后分析依赖于手动查看二维视频,这是一种耗时且缺乏全面情境感知的过程。为了解决这些限制,我们引入了ACT360系统,该系统利用360度视频和机器学习进行自动动作检测和结构化总结。ACT360集成了360YOWO,这是一种增强的“只看一次”(YOWO)模型,具有空间注意力和等矩形感知卷积(EAC),以减轻全景视频的失真。为了在资源受限的环境中实现部署,我们应用了量化和模型剪枝,将模型大小减少了74%,同时保持了强大的准确性(平均精度下降仅1.5%,从0.865降至0.850),并提高了推理速度。我们在一个公开可用的数据集上验证了我们的方法,该数据集包含55个标记的360度视频,涵盖了七个关键操作动作,记录于各种真实世界的训练课程和环境条件下。此外,ACT360集成了360AIE(动作洞察探索器),这是一个基于网络的界面,用于自动动作检测、检索和使用大型语言模型(LLMs)进行文本总结,显著提高了事件后分析的效率。ACT360作为一个通用框架,用于任务关键的总结,结合了EAC、空间注意力、总结和模型优化。这些创新适用于任何需要轻量级动作检测和结构化训练后分析的培训环境。

[176] 自适应Transformer注意力和多尺度融合用于脊柱3D分割
标题: Adaptive Transformer Attention and Multi-Scale Fusion for Spine 3D Segmentation
作者: Yanlin Xiang / Qingyuan He / Ting Xu / Ran Hao / Jiacheng Hu / Hanchao Zhang
原文:   [英文]  
备注: None
摘要:
本研究提出了一种基于改进的SwinUNETR的脊柱3D语义分割方法,以提高分割的准确性和鲁棒性。针对脊柱图像复杂的解剖结构,本文引入了一种多尺度融合机制,通过利用不同尺度的信息来增强特征提取能力,从而提高模型对目标区域的识别准确性。此外,自适应注意力机制的引入使得模型能够动态调整对关键区域的关注,从而优化边界分割效果。实验结果表明,与3D CNN、3D U-Net和3D U-Net + Transformer相比,本研究的模型在mIoU、mDice和mAcc指标上取得了显著的提升,并具有更好的分割性能。消融实验进一步验证了所提出改进方法的有效性,证明多尺度融合和自适应注意力机制对分割任务有积极作用。通过对推理结果的可视化分析,模型能够更好地还原脊柱图像的真实解剖结构。未来的研究可以进一步优化Transformer结构并扩大数据规模,以提高模型的泛化能力。本研究为医学图像分割任务提供了一种高效的解决方案,对智能医学图像分析具有重要意义。

[177] VITED:视频时间证据蒸馏
标题: VITED: Video Temporal Evidence Distillation
作者: Yujie Lu / Yale Song / William Wang / Lorenzo Torresani / Tushar Nagarajan
原文:   [英文]   [中文]  
备注: None
摘要:
我们通过证据链推理研究复杂的视频问答——识别视频中多个相关部分的时间跨度序列,以及其中的视觉证据。现有模型在多步推理方面存在困难,因为它们以固定数量的帧均匀采样,这可能会错过分布在视频中的关键证据。此外,它们缺乏在整个视频的更广泛背景中对这些证据进行时间定位的能力,而这对于回答复杂问题是必需的。我们提出了一个框架,以证据推理链增强现有的VideoQA数据集,这些链是通过在视频中搜索支持证据的最佳兴趣区间自动构建的,以最大化回答给定问题的可能性。我们训练了我们的模型(VITED)以直接生成这些证据链,使其能够在长视频内容中定位证据窗口并在其间执行多步推理。我们在一组长视频问答基准上展示了我们证据提炼模型的价值,在这些基准上,我们优于缺乏证据推理能力的最新方法。

[178] CAT-3DGS Pro:高效3DGS压缩的新基准
标题: CAT-3DGS Pro: A New Benchmark for Efficient 3DGS Compression
作者: Yu-Ting Zhan / He-bi Yang / Cheng-Yuan Ho / Jui-Chiu Chiang / Wen-Hsiao Peng
原文:   [英文]   [中文]  
备注: None
摘要:
3D Gaussian Splatting(3DGS)在新视图合成方面展现了巨大的潜力。然而,实现3DGS表示的率失真优化压缩以用于传输和/或存储应用仍然是一个挑战。CAT-3DGS引入了一种上下文自适应三平面超先验,用于端到端优化压缩,提供了最先进的编码性能。尽管如此,它需要较长的训练和解码时间。为了解决这些限制,我们提出了CAT-3DGS Pro,这是CAT-3DGS的增强版本,改进了压缩性能和计算效率。首先,我们引入了一种PCA引导的向量-矩阵超先验,替代基于三平面的超先验以减少冗余参数。为了实现更平衡的率失真权衡和更快的编码,我们提出了一种交替优化策略(A-RDO)。此外,我们改进了CAT-3DGS中的采样率优化方法,从而显著提高了率失真性能。这些改进在BungeeNeRF上实现了46.6%的BD-rate减少和3倍的训练时间加速,同时在阿姆斯特丹场景中相比CAT-3DGS实现了5倍的解码速度提升。

[179] SCAP:通过支持性团体属性提示进行传导性测试时适应
标题: SCAP: Transductive Test-Time Adaptation via Supportive Clique-based Attribute Prompting
作者: Chenyu Zhang / Kunlun Xu / Zichen Liu / Yuxin Peng / Jiahuan Zhou
原文:   [英文]  
备注: Accepted by CVPR 2025
摘要:
视觉-语言模型(VLMs)在适应由数据分布变化引起的领域转移时面临相当大的挑战。测试时适应(TTA)已成为在这种情况下提高VLM性能的一种有前途的方法。在实践中,测试数据通常以批次形式到达,这引发了对传导性TTA设置的兴趣。然而,现有的TTA方法主要关注单个测试样本,忽视了批次内重要的跨样本相关性。尽管最近基于ViT的TTA方法引入了批次级别的适应,但由于文本模态整合不足,它们对VLMs来说仍然不够理想。为了解决这些限制,我们提出了一种新颖的传导性TTA框架,称为基于支持团体的属性提示(SCAP),该框架通过在测试批次中生成细粒度的属性提示,有效结合视觉和文本信息以增强适应性。SCAP首先基于视觉相似性以无监督的方式形成测试样本的支持团体,并为每个团体学习一个属性提示,捕捉对适应至关重要的共享属性。对于每个测试样本,SCAP从其关联的团体中聚合属性提示,提供丰富的上下文信息。为了确保随时间的适应性,我们引入了一个保留模块,该模块在新数据到达时动态更新属性提示及其相关属性。跨多个基准的综合实验表明,SCAP优于现有的最先进方法,在领域转移下显著推进了VLM的泛化能力。我们的代码可在此https URL获取。

[180] UniReg:用于可控医学图像配准的基础模型
标题: UniReg: Foundation Model for Controllable Medical Image Registration
作者: Zi Li / Jianpeng Zhang / Tai Ma / Tony C. W. Mok / Yan-Jie Zhou / Zeli Chen / Xianghua Ye / Le Lu / Dakai Jin
原文:   [英文]  
备注: None
摘要:
基于学习的医学图像配准在性能上已经与传统方法持平,同时在计算效率上表现出显著优势。然而,基于学习的配准方法在不同临床场景中缺乏泛化能力,需要为特定配准任务(例如,跨主体/主体内配准或器官特定对齐)开发多个独立的网络,这是一项繁琐的工作。为了克服这一限制,我们提出了\textbf{UniReg},这是首个用于医学图像配准的交互式基础模型,它结合了任务特定学习方法的精确优势和传统优化方法的泛化能力。我们的关键创新是一个统一的框架,用于不同的配准场景,通过在统一的配准模型中进行条件变形场估计来实现。这是通过动态学习范式实现的,该范式明确编码:(1) 解剖结构先验,(2) 配准类型约束(跨主体/主体内),以及 (3) 实例特定特征,从而能够生成场景优化的变形场。通过涵盖不同身体区域的 $90$ 个解剖结构的综合实验,我们的 UniReg 模型在性能上与当代最先进的方法相当,同时相对于传统的基于学习的范式减少了约 50\% 的训练迭代次数。这种优化显著减少了计算资源的需求,例如训练时间。代码和模型将会发布。

[181] 基于进化的区域对抗提示学习用于增强视觉语言模型的鲁棒性
标题: Evolution-based Region Adversarial Prompt Learning for Robustness Enhancement in Vision-Language Models
作者: Xiaojun Jia / Sensen Gao / Simeng Qin / Ke Ma / Xinfeng Li / Yihao Huang / Wei Dong / Yang Liu / Xiaochun Cao
原文:   [英文]   [中文]  
备注: None
摘要:
大型预训练视觉-语言模型(VLMs),如CLIP,展现了令人印象深刻的泛化能力,但对对抗样本(AEs)仍然非常脆弱。先前的工作通过对抗训练探索了稳健的文本提示,在稳健性和泛化性方面取得了一定的改进。然而,它们主要依赖于单一梯度方向扰动(例如,PGD)来生成对抗样本,缺乏多样性,导致对抗稳健性提升有限。为了解决这些限制,我们提出了一种基于进化的区域对抗提示调优方法,称为ER-APT,该方法结合了梯度方法和遗传进化来生成更具多样性和挑战性的对抗样本。在每次训练迭代中,我们首先使用传统的基于梯度的方法生成对抗样本。随后,应用包含选择、变异和交叉的遗传进化机制来优化对抗样本,确保更广泛和更具攻击性的扰动。最终进化的对抗样本用于提示调优,实现基于区域的对抗优化,而不是传统的单点对抗提示调优。我们还提出了一种动态损失加权方法,以调整提示学习的效率,以提高准确性和稳健性。在各种基准数据集上的实验评估表明,我们提出的方法优于最先进的APT方法。代码已在此网址发布。

[182] 一种可解释的方法用于自动评估视频片段中的生物污损
标题: An interpretable approach to automating the assessment of biofouling in video footage
作者: Evelyn J. Mannix / Bartholomew A. Woodham
原文:   [英文]   [中文]  
备注: None
摘要:
生物污损——指在浸没于水中的硬表面上生长的生物群落——为入侵海洋物种和疾病的传播提供了一条途径。为应对这一风险,国际船只越来越多地被要求提供其生物污损管理实践的证据。验证这些活动的有效性需要进行水下检查,使用潜水员或水下遥控车辆(ROVs),并收集和分析大量的图像和视频。使用计算机视觉技术进行自动评估可以显著简化这一过程。本研究展示了如何使用可解释的组件特征(ComFe)方法结合DINOv2视觉变换器(ViT)基础模型高效且有效地解决这一挑战。与之前不可解释的卷积神经网络(CNN)方法相比,ComFe能够获得更好的性能,具有显著更少的权重和更高的透明度——通过识别图像中哪些区域对分类有贡献,以及训练数据中的哪些图像导致了这一结论。所有代码、数据和模型权重均已公开发布。

[183] DreamRenderer:驯服大规模文本到图像模型中的多实例属性控制
标题: DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models
作者: Dewei Zhou / Mingwei Li / Zongxin Yang / Yi Yang
原文:   [英文]   [中文]  
备注: 11 pages
摘要:
图像条件生成方法,如深度和Canny条件方法,已经展示了在精确图像合成方面的显著能力。然而,现有模型在准确控制多个实例(或区域)的内容方面仍然存在困难。即使是最先进的模型如FLUX和3DIS也面临挑战,例如实例之间的属性泄漏,这限制了用户的控制。为了解决这些问题,我们引入了DreamRenderer,这是一种基于FLUX模型的无训练方法。DreamRenderer使用户能够通过边界框或掩码控制每个实例的内容,同时确保整体视觉和谐。我们提出了两个关键创新:1)用于硬文本属性绑定的桥接图像标记,它使用复制的图像标记作为桥接标记,以确保仅在文本数据上预训练的T5文本嵌入在联合注意过程中为每个实例绑定正确的视觉属性;2)仅应用于关键层的硬图像属性绑定。通过对FLUX的分析,我们识别出负责实例属性渲染的关键层,并仅在这些层中应用硬图像属性绑定,在其他层中使用软绑定。这种方法确保了精确控制,同时保持了图像质量。在COCO-POS和COCO-MIG基准测试中的评估表明,DreamRenderer将图像成功率提高了17.7%,并将GLIGEN和3DIS等布局到图像模型的性能提高了最多26.8%。项目页面:this https URL。

[184] RGBAvatar:用于在线建模头部化身的简化高斯混合形状
标题: RGBAvatar: Reduced Gaussian Blendshapes for Online Modeling of Head Avatars
作者: Linzhou Li / Yumeng Li / Yanlin Weng / Youyi Zheng / Kun Zhou
原文:   [英文]  
备注: None
摘要:
我们提出了一种名为Reduced Gaussian Blendshapes Avatar (RGBAvatar)的方法,用于以足够快的速度实时重建逼真且可动画的头部化身。与以往利用3D可变形模型(3DMM)的线性基来建模高斯混合形状的方法不同,我们的方法通过多层感知器(MLP)将跟踪到的3DMM参数映射到简化的混合形状权重,从而形成一组紧凑的混合形状基。学习到的紧凑基组合能够有效捕捉特定个体的面部细节,而不依赖于3DMM的固定基组合权重,从而提高了重建质量和效率。为了进一步加快重建过程,我们开发了一种新颖的颜色初始化估计方法和批量并行的高斯光栅化过程,实现了每秒约630张图像的训练吞吐量,达到了最先进的质量。此外,我们提出了一种局部-全局采样策略,使得可以直接实时重建模型,在视频流中即时重建模型,同时达到与离线设置相当的质量。我们的源代码可在此https URL获取。

[185] UncTrack:具有不确定性感知原型记忆网络的可靠视觉目标跟踪
标题: UncTrack: Reliable Visual Object Tracking with Uncertainty-Aware Prototype Memory Network
作者: Siyuan Yao / Yang Guo / Yanyang Yan / Wenqi Ren / Xiaochun Cao
原文:   [英文]   [中文]  
备注: 14 pages,11 figures,references added
摘要:
基于Transformer的跟踪器已经取得了令人瞩目的成功,并由于其准确性和效率成为了主流的跟踪范式。尽管取得了显著进展,大多数现有方法将目标跟踪视为一个确定性的坐标回归问题,而目标定位的不确定性却被严重忽视,这限制了跟踪器在复杂场景中保持可靠目标状态预测的能力。为了解决这个问题,我们提出了UncTrack,一种新颖的不确定性感知Transformer跟踪器,它预测目标定位的不确定性并结合这一不确定性信息进行准确的目标状态推断。具体来说,UncTrack利用Transformer编码器在模板和搜索图像之间进行特征交互。输出特征被传递到一个不确定性感知定位解码器(ULD)中,以粗略预测基于角点的定位及其对应的定位不确定性。然后,定位不确定性被发送到原型记忆网络(PMN)中,以挖掘有价值的历史信息来识别目标状态预测是否可靠。为了增强模板表示,具有高置信度的样本被反馈到原型记忆库中进行记忆更新,使跟踪器在面对挑战性外观变化时更加稳健。大量实验表明,我们的方法优于其他最新的方法。我们的代码可以在这个URL上获取。

[186] UCF-Crime-DVS:一种用于视频异常检测的基于事件的新型数据集,结合脉冲神经网络
标题: UCF-Crime-DVS: A Novel Event-Based Dataset for Video Anomaly Detection with Spiking Neural Networks
作者: Yuanbin Qian / Shuhan Ye / Chong Wang / Xiaojie Cai / Jiangbo Qian / Jiafei Wu
原文:   [英文]   [中文]  
备注: Accepted by AAAI 2025
摘要:
视频异常检测在智能监控系统中起着重要作用。为了增强模型的异常识别能力,以往的工作通常涉及RGB、光流和文本特征。最近,动态视觉传感器(DVS)作为一种有前途的技术出现,它以非常高的动态范围和时间分辨率将视觉信息捕捉为离散事件。与传统相机相比,它减少了数据冗余并增强了对移动物体的捕捉能力。为了将这种丰富的动态信息引入监控领域,我们创建了第一个DVS视频异常检测基准,即UCF-Crime-DVS。为了充分利用这种新的数据模态,我们设计了一个基于脉冲神经网络(SNNs)的多尺度脉冲融合网络(MSF)。这项工作探索了事件数据中动态信息在视频异常检测中的潜在应用。我们的实验表明,我们的框架在UCF-Crime-DVS上的有效性及其相较于其他模型的优越性能,为基于SNN的弱监督视频异常检测建立了新的基准。

[187] MFP-CLIP:探索多形式提示在零样本工业异常检测中的有效性
标题: MFP-CLIP: Exploring the Efficacy of Multi-Form Prompts for Zero-Shot Industrial Anomaly Detection
作者: Jingyi Yuan / Pengyu Jie / Junyin Zhang / Ziao Li / Chenqiang Gao
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,零样本异常检测(ZSAD)作为一种关键范式出现,用于在训练阶段无需目标样本的情况下识别未见类别的缺陷。然而,现有的ZSAD方法由于表示不足,在处理小而复杂的缺陷边界时存在困难。大多数方法使用单一的手动设计提示,无法适应多样化的对象和异常。在本文中,我们提出了MFP-CLIP,这是一种新颖的基于提示的CLIP框架,探索了多形式提示在零样本工业异常检测中的有效性。我们采用图像到文本提示(I2TP)机制,以更好地表示图像中的对象。MFP-CLIP通过自提示(SP)和多补丁特征聚合(MPFA)模块增强了对多尺度和复杂异常的感知。为了精确定位缺陷,我们引入了掩码提示(MP)模块,引导模型关注潜在的异常区域。在两个广泛使用的工业异常检测基准MVTecAD和VisA上进行了大量实验,证明了MFP-CLIP在ZSAD中的优越性。

[188] 姿态作为一种模态:一种基于心理学启发的网络用于人格识别的新多模态数据集
标题: Pose as a Modality: A Psychology-Inspired Network for Personality Recognition with a New Multimodal Dataset
作者: Bin Tang / Keqi Pan / Miao Zheng / Ning Zhou / Jialu Sui / Dandan Zhu / Cheng-Long Deng / Shu-Guang Kuai
原文:   [英文]   [中文]  
备注: 9 pages, 6 figures, AAAI 2025 Oral
摘要:
近年来,从多模态数据中预测大五人格特质在人工智能领域受到了广泛关注。然而,现有的计算模型往往未能达到令人满意的性能。心理学研究表明,姿态与人格特质之间存在很强的相关性,但之前的研究在计算模型中很大程度上忽略了姿态数据。为了解决这一问题,我们开发了一个新颖的多模态数据集,该数据集包含全身姿态数据。数据集包括287名参与者完成36个问题的虚拟面试的视频录制,以及作为标签的自我报告的大五人格评分。为了有效利用这些多模态数据,我们引入了心理学启发网络(PINet),该网络由三个关键模块组成:多模态特征感知(MFA)、多模态特征交互(MFI)和心理学知情模态相关损失(PIMC Loss)。MFA模块利用视觉曼巴块捕捉与人格相关的全面视觉特征,而MFI模块则有效融合多模态特征。PIMC Loss基于心理学理论,引导模型针对不同的人格维度强调不同的模态。实验结果表明,PINet优于几种最先进的基线模型。此外,PINet的三个模块几乎同等地贡献于模型的整体性能。整合姿态数据显著提高了模型的性能,姿态模态在五种模态中重要性居中。这些发现解决了现有的人格相关数据集中缺乏全身姿态数据的问题,并为提高人格预测模型的准确性提供了一种新方法,强调了将心理学见解整合到AI框架中的重要性。

[189] 通过实例级对比蒸馏实现高效的多模态3D目标检测器
标题: Efficient Multimodal 3D Object Detector via Instance-Level Contrastive Distillation
作者: Zhuoqun Su / Huimin Lu / Shuaifeng Jiao / Junhao Xiao / Yaonan Wang / Xieyuanli Chen
原文:   [英文]   [中文]  
备注: None
摘要:
多模态3D目标检测器利用几何感知的LiDAR点云和语义丰富的RGB图像的优势来提升检测性能。然而,这些模态之间固有的异质性,包括不平衡的收敛性和模态失配,带来了显著的挑战。同时,面向检测的大规模特征也限制了现有的融合策略在3D检测任务中捕获长距离依赖关系。在这项工作中,我们引入了一种快速且有效的多模态3D目标检测器,结合了我们提出的实例级对比蒸馏(ICD)框架和交叉线性注意力融合模块(CLFM)。ICD通过对象感知的对比蒸馏将实例级图像特征与LiDAR表示对齐,确保细粒度的跨模态一致性。同时,CLFM提供了一种高效且可扩展的融合策略,增强了大规模多模态BEV特征中的跨模态全局交互。在KITTI和nuScenes 3D目标检测基准上的大量实验表明了我们方法的有效性。值得注意的是,我们的3D目标检测器在实现卓越效率的同时,性能优于最先进的方法(SOTA)。我们的方法实现已作为开源发布,网址为:this https URL。

[190] MMLNB:用于神经母细胞瘤亚型分类的多模态学习,辅以文本描述生成
标题: MMLNB: Multi-Modal Learning for Neuroblastoma Subtyping Classification Assisted with Textual Description Generation
作者: Huangwei Chen / Zhu Zhu / Zhenyu Yan / Yifei Chen / Mingyang Ding / Chenlei Li / Feiwei Qin
原文:   [英文]  
备注: 25 pages, 7 figures
摘要:
神经母细胞瘤(NB)是导致儿童癌症死亡的主要原因之一,表现出显著的组织病理学变异性,因此需要精确的亚型分类以获得准确的预后和治疗。传统的诊断方法依赖于主观评估,这些评估既耗时又不一致。为了解决这些挑战,我们引入了MMLNB,这是一种多模态学习(MML)模型,它将病理图像与生成的文本描述相结合,以提高分类的准确性和可解释性。该方法遵循一个两阶段的过程。首先,我们微调了一个视觉-语言模型(VLM),以增强病理感知的文本生成。其次,微调后的VLM生成文本描述,使用双分支架构独立提取视觉和文本特征。这些特征通过渐进式稳健多模态融合(PRMF)模块进行融合,以实现稳定的训练。实验结果表明,MMLNB模型比单模态模型更准确。消融研究证明了多模态融合、微调和PRMF机制的重要性。这项研究创建了一个可扩展的AI驱动框架用于数字病理学,增强了NB亚型分类的可靠性和可解释性。我们的源代码可在此https URL获取。

[191] AR-1-to-3:通过下一视图预测从单张图像生成一致的3D对象
标题: AR-1-to-3: Single Image to Consistent 3D Object Generation via Next-View Prediction
作者: Xuying Zhang / Yupeng Zhou / Kai Wang / Yikai Wang / Zhen Li / Xiuli Shao / Daquan Zhou / Qibin Hou / Ming-Ming Cheng
原文:   [英文]  
备注: None
摘要:
新视图合成(NVS)是图像到三维创建的基石。然而,现有的工作仍然难以在生成视图和输入视图之间保持一致性,尤其是在相机姿态差异显著的情况下,这导致了质量较差的三维几何和纹理。我们将这一问题归因于他们对所有目标视图给予同等优先级的处理,而根据我们的经验观察,靠近输入视图的目标视图表现出更高的保真度。受到这一启发,我们提出了AR-1-to-3,一种基于扩散模型的新颖的下一视图预测范式,该范式首先生成接近输入视图的视图,然后利用这些视图作为上下文信息逐步合成更远的视图。为了将生成的视图子序列编码为下一视图预测的局部和全局条件,我们相应地开发了一种堆叠局部特征编码策略(Stacked-LE)和一种基于LSTM的全局特征编码策略(LSTM-GE)。大量实验表明,我们的方法显著提高了生成视图和输入视图之间的一致性,产生了高保真的三维资产。

[192] L2HCount:通过密度模拟从低密度到高密度人群的泛化人群计数
标题: L2HCount:Generalizing Crowd Counting from Low to High Crowd Density via Density Simulation
作者: Guoliang Xu / Jianqin Yin / Ren Zhang / Yonghao Dang / Feng Zhou / Bo Yu
原文:   [英文]   [中文]  
备注: None
摘要:
自COVID-19以来,人数统计任务获得了广泛应用。虽然监督方法可靠,但在高密度场景中,由于头部尺寸小和严重遮挡,标注更加困难,而在低密度场景中则较为简单。有趣的是,我们能否在低密度场景中训练模型并将其推广到高密度场景?因此,我们提出了一个从低密度到高密度的泛化框架(L2HCount),该框架从低密度场景中学习与高密度场景相关的模式,使其能够很好地推广到高密度场景。具体来说,我们首先引入了一个高密度模拟模块和一个真实值生成模块,通过图像移动技术分别构建假高密度图像及其对应的真实值人群标注,有效地模拟高密度人群模式。然而,模拟图像存在两个问题:图像模糊和低密度图像特征的丢失。因此,我们第二步提出了一个头部特征增强模块,以提取模拟高密度场景中的清晰特征。第三,我们提出了一个双密度记忆编码模块,使用两个人群记忆分别从低密度和模拟高密度场景中学习场景特定模式。在四个具有挑战性的数据集上的大量实验表明,L2HCount具有良好的性能。

[193] GIFT:用于无纹理点跟踪的生成室内视频帧
标题: GIFT: Generated Indoor video frames for Texture-less point tracking
作者: Jianzheng Huang / Xianyu Mo / Ziling Liu / Jinyu Yang / Feng Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
点跟踪正在成为运动估计和视频编辑的强大求解器。与传统的特征匹配相比,点跟踪方法具有在复杂相机运动轨迹下和较长时间内稳健跟踪点的关键优势。然而,尽管在方法上有一定的改进,当前的点跟踪方法仍然难以在视频帧中的任何位置进行跟踪,特别是在无纹理或弱纹理的区域。在这项工作中,我们首先引入了评估3D对象纹理强度的指标。利用这些指标,我们将ShapeNet中的3D模型按纹理强度分为三个级别,并创建了GIFT,一个具有挑战性的合成基准,包含1800个室内视频序列及丰富的注释。与现有数据集任意分配真实点不同,GIFT精确地将真实点锚定在分类的目标对象上,确保每个视频对应于特定的纹理强度级别。此外,我们在GIFT上全面评估了当前的方法,以评估它们在不同纹理强度级别上的性能,并分析纹理对点跟踪的影响。

[194] DivCon-NeRF:生成具有多样性和一致性的增强光线用于少样本视图合成
标题: DivCon-NeRF: Generating Augmented Rays with Diversity and Consistency for Few-shot View Synthesis
作者: Ingyun Lee / Jae Won Jang / Seunghyeon Seo / Nojun Kwak
原文:   [英文]  
备注: 11 pages, 6 figures
摘要:
神经辐射场(NeRF)在新视角合成方面表现出色,但需要大量多视角图像,这使得其在少样本场景中不切实际。射线增强被提出用于通过生成额外的射线来防止稀疏训练数据的过拟合。然而,现有方法仅在原始射线附近生成增强射线,由于视点有限以及被附近障碍物和复杂表面阻挡的不一致射线,导致严重的浮动物和外观失真。为了解决这些问题,我们提出了DivCon-NeRF,它显著增强了多样性和一致性。它采用表面球增强,保持原始相机与预测表面点之间的距离。这使得模型可以比较高概率表面点的顺序,并轻松过滤掉不一致的射线,而无需精确的深度。通过引入内球增强,DivCon-NeRF随机化角度和距离以获得多样化的视点,进一步增加了多样性。因此,我们的方法显著减少了浮动物和视觉失真,在Blender、LLFF和DTU数据集上实现了最先进的性能。我们的代码将公开可用。

[195] 逐帧条件适应用于微调文本到视频预测中的扩散模型
标题: Frame-wise Conditioning Adaptation for Fine-Tuning Diffusion Models in Text-to-Video Prediction
作者: Zheyuan Liu / Junyan Wang / Zicheng Duan / Cristian Rodriguez-Opazo / Anton van den Hengel
原文:   [英文]   [中文]  
备注: 20 pages, 15 figures
摘要:
文本-视频预测(TVP)是一项下游视频生成任务,要求模型在给定一系列初始视频帧和描述所需动作的文本后生成后续视频帧。在实践中,TVP方法专注于特定类别的视频,这些视频展示了人类或机器人手臂对物体的操控。之前的方法采用在文本到图像任务上预训练的模型,因此生成的视频往往缺乏所需的连续性。一个自然的进展是利用最近预训练的文本到视频(T2V)模型。然而,这种方法面临的挑战是,最常见的微调技术——低秩适应(LoRA)——会产生不理想的结果。在这项工作中,我们提出了一种基于适应的策略,称为逐帧条件适应(FCA)。在该模块中,我们设计了一个子模块,从输入文本中生成逐帧文本嵌入,作为辅助生成的额外文本条件。我们使用FCA来微调T2V模型,该模型将初始帧作为额外条件。我们比较并讨论了将这些嵌入注入T2V模型的更有效策略。我们对设计选择进行了广泛的消融研究,并进行了定量和定性性能分析。我们的方法为TVP任务建立了新的最先进水平。项目页面位于此https URL。

[196] HIS-GPT:迈向3D场景中人类的多模态理解
标题: HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding
作者: Jiahe Zhao / Ruibing Hou / Zejie Tian / Hong Chang / Shiguang Shan
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一项新的任务,用于评估具身智能体对场景中人类理解的能力:场景中人类问答(HIS-QA)。在给定一个3D场景中的人类动作的情况下,HIS-QA要求智能体理解人类的状态和行为,推理其周围环境,并回答场景中与人类相关的问题。为了支持这一新任务,我们提出了HIS-Bench,这是一个多模态基准,系统地评估HIS理解的广泛范围,从基本感知到常识推理和规划。我们对各种视觉语言模型在HIS-Bench上的评估揭示了它们在处理HIS-QA任务方面的显著局限性。为此,我们提出了HIS-GPT,这是第一个用于HIS理解的基础模型。HIS-GPT将3D场景上下文和人类运动动态整合到大型语言模型中,同时结合专门的机制来捕捉人类与场景的互动。大量实验表明,HIS-GPT在HIS-QA任务上设立了新的技术标准。我们希望这项工作能够激发未来在3D场景中人类行为分析的研究,推动具身AI和世界模型的发展。

[197] 解锁姿态多样性:基于隐式关键点的精确高效时空扩散用于音频驱动的动态人像
标题: Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait
作者: Chaolong Yang / Kai Yao / Yuyao Yan / Chenru Jiang / Weiguang Zhao / Jie Sun / Guangliang Cheng / Yifei Zhang / Bin Dong / Kaizhu Huang
原文:   [英文]   [中文]  
备注: None
摘要:
音频驱动的单图像说话人像生成在虚拟现实、数字人类创作和电影制作中起着至关重要的作用。现有的方法通常分为基于关键点和基于图像的方法。基于关键点的方法能够有效地保留角色身份,但由于3D可变形模型的固定点限制,难以捕捉面部的细节。此外,传统的生成网络在有限的数据集上难以建立音频与关键点之间的因果关系,导致姿态多样性较低。相比之下,基于图像的方法使用扩散网络生成具有丰富细节的高质量人像,但会导致身份失真和高昂的计算成本。在这项工作中,我们提出了KDTalker,这是第一个将无监督隐式3D关键点与时空扩散模型相结合的框架。通过利用无监督隐式3D关键点,KDTalker能够调整面部信息密度,使扩散过程能够灵活地建模多样的头部姿态并捕捉细致的面部细节。定制设计的时空注意力机制确保了准确的唇同步,生成时间一致性高、质量优异的动画,同时提高了计算效率。实验结果表明,KDTalker在唇同步准确性、头部姿态多样性和执行效率方面达到了最新的性能。代码可在此网址获取:this http URL。

[198] 使用NVIDIA NeMo训练视频基础模型
标题: Training Video Foundation Models with NVIDIA NeMo
作者: Zeeshan Patel / Ethan He / Parth Mannan / Xiaowei Ren / Ryan Wolf / Niket Agarwal / Jacob Huffman / Zhuoyao Wang / Carl Wang / Jack Chang / Yan Bai / Tommy Huang / Linnan Wang / Sahil Jain / Shanmugam Ramasamy / Joseph Jennings / Ekaterina Sirazitdinova / Oleg Sudakov / Mingyuan Ma / Bobby Chen / Forrest Lin / Hao Wang / Vasanth Rao Naik Sabavat / Sriharsha Niverty / Rong Ou / Pallab Bhattacharya / David Page / Nima Tajbakhsh / Ashwath Aithal
原文:   [英文]  
备注: None
摘要:
视频基础模型(VFMs)最近被用于模拟现实世界,以训练物理人工智能系统和开发创造性的视觉体验。然而,在训练能够生成高质量视频的大规模、高质量VFMs时存在显著挑战。我们展示了一个可扩展的开源VFM训练流程,使用NVIDIA NeMo,提供加速的视频数据集策划、多模态数据加载,以及并行化的视频扩散模型训练和推理。我们还提供了全面的性能分析,突出了高效VFM训练和推理的最佳实践。

[199] OptiPMB:通过优化泊松多伯努利滤波增强3D多目标跟踪
标题: OptiPMB: Enhancing 3D Multi-Object Tracking with Optimized Poisson Multi-Bernoulli Filtering
作者: Guanhua Ding / Yuxuan Xia / Runwei Guan / Qinchen Wu / Tao Huang / Weiping Ding / Jinping Sun / Guoqiang Mao
原文:   [英文]   [中文]  
备注: None
摘要:
准确的三维多目标跟踪(MOT)对于自动驾驶至关重要,因为它能够在复杂环境中实现稳健的感知、导航和规划。虽然基于深度学习的解决方案在三维MOT性能上表现出色,但基于模型的方法因其简单性、可解释性和数据效率仍然具有吸引力。传统的基于模型的跟踪器通常依赖于检测后跟踪(TBD)框架中的随机向量贝叶斯滤波器,但由于启发式的数据关联和轨迹管理方案而面临限制。相比之下,基于随机有限集(RFS)的贝叶斯滤波器以理论上合理的方式处理对象的生成、生存和消亡,促进了可解释性和参数调优。在本文中,我们提出了OptiPMB,一种新颖的基于RFS的三维MOT方法,该方法采用优化的泊松多伯努利(PMB)滤波器,同时在TBD框架中结合了几个关键的创新设计。具体而言,我们提出了一种测量驱动的混合自适应生成模型以改善轨迹初始化,采用自适应检测概率参数以有效维护被遮挡对象的轨迹,并优化密度修剪和轨迹提取模块以进一步提升整体跟踪性能。在nuScenes和KITTI数据集上的广泛评估表明,OptiPMB在跟踪准确性方面优于最先进的方法,从而为基于模型的三维MOT建立了新的基准,并为未来关于自动驾驶中基于RFS的跟踪器的研究提供了宝贵的见解。

[200] 通过人物查询匹配生成动作管以进行时空动作检测
标题: Action tube generation by person query matching for spatio-temporal action detection
作者: Kazuki Omi / Jion Oshima / Toru Tamaki
原文:   [英文]   [中文]  
备注: extended version of VISAPP2025
摘要:
本文提出了一种时空动作检测(STAD)方法,该方法直接从原始视频生成动作管,而不依赖于基于IoU的链接和剪辑分割等后处理步骤。我们的方法对每一帧应用基于查询的检测(DETR),并通过匹配DETR查询来链接跨帧的同一人物。我们引入了查询匹配模块(QMM),该模块使用度量学习将同一人物的查询在跨帧时拉得更近,而不同人物的查询则保持距离。动作类别通过从QMM匹配中获得的查询序列进行预测,允许从比单个剪辑更长的视频中获取可变长度的输入。在JHMDB、UCF101-24和AVA数据集上的实验结果表明,我们的方法在处理人物大幅度位置变化时表现良好,同时提供了卓越的计算效率和更低的资源需求。

[201] 将视觉与语言对齐:无文本多模态知识图谱构建以增强大型语言模型的推理能力
标题: Aligning Vision to Language: Text-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning
作者: Junming Liu / Siyuan Meng / Yanting Gao / Song Mao / Pinlong Cai / Guohang Yan / Yirong Chen / Zilin Bian / Botian Shi / Ding Wang
原文:   [英文]   [中文]  
备注: 14 pages, 7 figures, 6 tables
摘要:
大型语言模型(LLMs)在多模态推理中面临着不完整知识和幻觉现象的挑战,而文本知识图谱(KGs)由于其模态隔离只能部分缓解这些问题。尽管多模态知识图谱(MMKGs)承诺增强跨模态理解,但其实际构建受到手动文本注释的语义狭窄和视觉语义实体链接固有噪声的阻碍。在本文中,我们提出了一种构建MMKGs的新方法,即视觉对齐语言集成知识图谱(VaLiK),通过跨模态信息补充来增强LLMs的推理能力。具体而言,我们级联预训练的视觉语言模型(VLMs)以对齐图像特征与文本,将其转化为包含图像特定信息的描述。此外,我们开发了一种跨模态相似性验证机制来量化语义一致性,有效过滤掉特征对齐过程中引入的噪声。即使没有手动注释的图像标题,仅通过精炼的描述也足以构建MMKG。与传统MMKGs构建范式相比,我们的方法在保持直接实体到图像链接能力的同时,实现了显著的存储效率提升。在多模态推理任务上的实验结果表明,使用VaLiK增强的LLMs优于之前的最先进模型。我们的代码已发布在这个https URL。

[202] 利用自监督学习缓解热带物种分类中光谱变异性的前景
标题: Prospects for Mitigating Spectral Variability in Tropical Species Classification Using Self-Supervised Learning
作者: Colin Prieur / Nassim Ait Ali Braham / Paul Tresson / Grégoire Vincent / Jocelyn Chanussot
原文:   [英文]   [中文]  
备注: 5 pages, 3 figures, published as proceeding of the "2024 14th Workshop on Hyperspectral Imaging and Signal Processing: Evolution in Remote Sensing (WHISPERS)"
摘要:
机载高光谱成像是一种识别热带物种的有前景的方法,但不同采集之间的光谱变化阻碍了一致的结果。本文提出使用自监督学习(SSL)来编码对非生物变化具有鲁棒性且与物种识别相关的光谱特征。通过在重复的光谱采集上采用最先进的Barlow-Twins方法,我们展示了开发稳定特征的能力。在对40种热带物种进行分类的实验中,结果表明这些特征在应对光谱变化的鲁棒性方面可以比典型的反射产品提高10个百分点的准确性。

[203] 探索三维活动推理与规划:从隐含的人类意图到路径感知规划
标题: Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning
作者: Xueying Jiang / Wenhao Li / Xiaoqin Zhang / Ling Shao / Shijian Lu
原文:   [英文]   [中文]  
备注: None
摘要:
3D活动推理和规划由于多模态学习的最新进展,在人机交互和具身人工智能领域引起了越来越多的关注。然而,大多数现有工作存在两个限制:1)过度依赖明确的指令,而对隐含的用户意图推理较少;2)忽视了机器人移动中的跨步骤路径规划。为了解决这些问题,我们提出了3D活动推理和规划,这是一项新颖的3D任务,它从隐含指令中推理出预期的活动,并在场景分割中细粒度的3D对象形状和位置的指导下,将其分解为带有跨步骤路径和规划的步骤。我们从两个角度来解决这一新的3D任务。首先,我们构建了ReasonPlan3D,这是一个大规模的基准,涵盖了多样化的3D场景,提供了丰富的隐含指令和详细的多步骤任务规划、跨步骤路径规划以及细粒度分割的注释。其次,我们设计了一个新颖的框架,引入了具有上下文一致性的渐进式计划生成,贯穿多个步骤,并动态更新场景图以捕捉关键对象及其空间关系。大量实验表明,我们的基准和框架在从隐含的人类指令中推理活动、生成准确的逐步任务计划以及无缝集成多步骤移动的路径规划方面的有效性。数据集和代码将会发布。

[204] 利用无人机拍摄的空中视频分析游泳表现
标题: Analyzing Swimming Performance Using Drone Captured Aerial Videos
作者: Thu Tran / Kenny Tsu Wei Choo / Shaohui Foong / Hitesh Bhardwaj / Shane Kyi Hla Win / Wei Jun Ang / Kenneth Goh / Rajesh Krishna Balan
原文:   [英文]   [中文]  
备注: 6 pages, published to ACM Dronet'24
摘要:
监测游泳运动员的表现对于提高训练效果和增强运动技术至关重要。传统的游泳运动员跟踪方法,如水上和水下摄像机,由于需要多个摄像机以及水花的阻挡而面临限制。本文提出了一种使用移动无人机跟踪游泳运动员的新方法。该系统采用配备高分辨率摄像机的无人机来捕捉游泳运动员的空中画面。然后使用计算机视觉算法处理这些画面,以提取游泳运动员的位置和动作。该方法具有多项优势,包括仅需使用单个摄像机和全面覆盖。系统的准确性通过训练和比赛视频进行了评估。结果表明,该系统能够准确跟踪游泳运动员的动作、肢体角度、划水时间和速度,其中划水时间和速度的最大误差分别为0.3秒和0.35米/秒。

[205] 稀疏对齐:用于协同目标检测的全稀疏框架
标题: SparseAlign: A Fully Sparse Framework for Cooperative Object Detection
作者: Yunshuang Yuan / Yan Xia / Daniel Cremers / Monika Sester
原文:   [英文]   [中文]  
备注: None
摘要:
协同感知可以增加自车的视野并减少遮挡,从而提高自动驾驶的感知性能和安全性。尽管之前的协同目标检测工作取得了一定的成功,但它们大多在稠密的鸟瞰图(BEV)特征图上运行,这对计算要求很高,难以扩展到远距离检测问题。更高效的完全稀疏框架很少被探索。在这项工作中,我们设计了一个完全稀疏的框架,SparseAlign,具有三个关键特性:增强的稀疏3D骨干网络、基于查询的时间上下文学习模块,以及专为稀疏特征量身定制的鲁棒检测头。在OPV2V和DairV2X数据集上的大量实验结果表明,尽管我们的框架是稀疏的,但它在通信带宽需求更少的情况下,性能优于现有的最先进技术。此外,在OPV2Vt和DairV2Xt数据集上的时间对齐协同目标检测实验也显示出相较于基线工作的显著性能提升。

[206] 概念如树:合成数据是视觉语言模型个性化所需的一切
标题: Concept-as-Tree: Synthetic Data is All You Need for VLM Personalization
作者: Ruichuan An / Kai Zeng / Ming Lu / Sihan Yang / Renrui Zhang / Huitong Ji / Qizhe Zhang / Yulin Luo / Hao Liang / Wentao Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)在各种多模态任务中表现出色。最近,人们越来越关注提高VLMs的个性化能力。为了更好地将用户提供的概念整合到VLMs中,许多方法使用正样本和负样本来微调这些模型。然而,用户提供的正样本稀缺以及检索到的负样本质量低下对微调构成了挑战。为了揭示样本与模型性能之间的关系,我们系统地研究了正样本和负样本(简单和困难)及其多样性对VLM个性化任务的影响。基于详细分析,我们引入了概念树(CaT),将概念表示为树结构,从而能够生成具有不同难度和多样性的正样本和负样本以进行VLM个性化。通过精心设计的数据过滤策略,我们的CaT框架可以确保生成数据的质量,构成一个强大的流程。我们进行了全面的实验,使用各种VLM个性化基线来评估该流程的有效性,缓解正样本的缺乏和负样本质量低的问题。我们的结果表明,配备了所提出的数据过滤器的CaT显著增强了VLMs在MyVLM、Yo'LLaVA和MC-LLaVA数据集上的个性化能力。据我们所知,这项工作是第一个用于VLM个性化的可控合成数据流程。代码已在\href{this https URL}{this https URL}发布。

[207] TFDM:基于时间变化频率的点云扩散与曼巴
标题: TFDM: Time-Variant Frequency-Based Point Cloud Diffusion with Mamba
作者: Jiaxu Liu / Li Li / Hubert P. H. Shum / Toby P. Breckon
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型目前在各种生成任务中表现出令人印象深刻的性能。最近关于图像扩散的研究强调了Mamba(状态空间模型)的强大能力,因为它能够有效处理长距离依赖和序列数据建模。不幸的是,将状态空间模型与3D点云生成结合考虑的研究仍然有限。为了利用Mamba模型在3D点云生成中的强大能力,我们提出了一种新颖的扩散框架,其中包含双潜在Mamba块(DM-Block)和时间变化频率编码器(TF-Encoder)。DM-Block应用空间填充曲线将点重新排序为适合Mamba状态空间建模的序列,同时在潜在空间中操作以减轻直接处理3D数据带来的计算开销。同时,TF-Encoder利用扩散模型在后期恢复阶段细化细节的能力,通过在U-Net架构中优先考虑关键点来实现。这种基于频率的机制确保在生成的最后阶段增强细节质量。在ShapeNet-v2数据集上的实验结果表明,我们的方法在特定类别的某些指标上实现了最先进的性能(ShapeNet-v2:在1-NNA-Abs50 EMD上为0.14%,在COV EMD上为57.90%),同时将计算参数和推理时间分别减少了最多10倍和9倍。源代码在补充材料中提供,并将在接受后发布。

[208] 通过宇宙学习进行测试时域泛化:一种用于医学图像分割的多图匹配方法
标题: Test-Time Domain Generalization via Universe Learning: A Multi-Graph Matching Approach for Medical Image Segmentation
作者: Xingguo Lv / Xingbo Dong / Liwen Wang / Jiewen Yang / Lei Zhao / Bin Pu / Zhe Jin / Xuejun Li
原文:   [英文]  
备注: None
摘要:
尽管领域泛化(DG)显著解决了预训练模型因领域转移导致的性能下降问题,但在实际部署中往往表现不佳。测试时适应(TTA)通过使用未标记的测试数据调整已学习的模型,提供了一种有前景的解决方案。然而,大多数现有的TTA方法在医学图像分割中难以提供强劲的性能,主要是因为它们忽视了医学图像中固有的重要先验知识。为了解决这一挑战,我们结合形态信息并提出了一种基于多图匹配的框架。具体来说,我们引入了可学习的宇宙嵌入,在多源训练期间整合形态先验,以及用于领域适应的新颖的无监督测试时范式。该方法保证了多匹配中的循环一致性,同时使模型能够更有效地捕捉未见数据的不变先验,显著减轻领域转移的影响。大量实验表明,我们的方法在两个医学图像分割基准上优于其他最先进的方法,适用于多源和单源领域泛化任务。源代码可在此https URL获取。

[209] 高效运动感知视频多模态大语言模型
标题: Efficient Motion-Aware Video MLLM
作者: Zijia Zhao / Yuqi Huo / Tongtian Yue / Longteng Guo / Haoyu Lu / Bingning Wang / Weipeng Chen / Jing Liu
原文:   [英文]   [中文]  
备注: CVPR 2025
摘要:
目前大多数视频多模态大语言模型(MLLMs)依赖于均匀的帧采样和图像级编码器,导致数据处理效率低下和运动感知能力有限。为了解决这些问题,我们引入了EMA,一种高效运动感知的视频多模态大语言模型,它利用压缩视频结构作为输入。我们提出了一种运动感知的GOP(图像组)编码器,该编码器在压缩视频流中的GOP单元内融合空间和运动信息,生成紧凑且信息丰富的视觉标记。通过在这种原生的慢-快输入架构中整合较少但更密集的RGB帧与更多但更稀疏的运动矢量,我们的方法减少了冗余并增强了运动表示。此外,我们引入了MotionBench,一个用于评估四种运动类型(线性、曲线、旋转和接触型)运动理解的基准。实验结果表明,EMA在MotionBench和流行的视频问答基准上均达到了最先进的性能,同时降低了推理成本。此外,EMA展示了强大的可扩展性,其在长视频理解基准上的竞争性能也证明了这一点。

[210] 在SoC FPGA上使用YOLOv8和SORT进行实时多目标跟踪
标题: Real-Time Multi-Object Tracking using YOLOv8 and SORT on a SoC FPGA
作者: Michal Danilowicz / Tomasz Kryjak
原文:   [英文]   [中文]  
备注: Accepted for the 21st International Symposium on Applied Reconfigurable Computing ARC 2025, Sevilla, Spain, April 9-11, 2025
摘要:
多目标跟踪(MOT)是计算机视觉中最重要的问题之一,也是用于先进自主移动机器人中的任何基于视觉的感知系统的关键组件。因此,在低功耗和实时嵌入式平台上实现它是非常理想的。现代MOT算法应该能够跟踪给定类别的对象(例如,人或车辆)。此外,需要跟踪的对象数量事先未知,它们可能随时出现和消失,并且可能被遮挡。基于这些原因,最近最流行和成功的方法是基于跟踪范式。因此,高质量的对象检测器的存在是至关重要的,这在实践中占据了整个MOT系统的绝大部分计算和内存复杂性。在本文中,我们提出了一种基于量化YOLOv8检测器和SORT(简单在线实时跟踪器)跟踪器的嵌入式MOT系统的FPGA(现场可编程门阵列)实现。我们使用修改版的FINN框架来利用外部存储器存储模型参数,并支持YOLOv8所需的操作。我们讨论了使用COCO和MOT15数据集进行检测和跟踪性能评估,在这些数据集上我们分别实现了0.21 mAP和38.9 MOTA。作为计算平台,我们使用了一个MPSoC系统(来自AMD/Xilinx的Zynq UltraScale+设备),其中检测器部署在可重编程逻辑中,跟踪算法在处理器系统中实现。

[211] PoseSyn:从自然环境中的2D数据合成多样化的3D姿态数据
标题: PoseSyn: Synthesizing Diverse 3D Pose Data from In-the-Wild 2D Data
作者: ChangHee Yang / Hyeonseop Song / Seokhun Choi / Seungwoo Lee / Jaechul Kim / Hoseok Do
原文:   [英文]   [中文]  
备注: The first three authors contributed equally to this work
摘要:
尽管在没有昂贵的3D标注的情况下,已经进行了大量努力来增强3D姿态估计器的泛化能力,但现有的数据增强方法在具有多样化人类外观和复杂姿态的真实场景中仍然面临困难。我们提出了PoseSyn,这是一种新颖的数据合成框架,可以将丰富的野外2D姿态数据集转化为多样化的3D姿态图像对。PoseSyn由两个关键组件组成:错误提取模块(EEM),用于从2D姿态数据集中识别具有挑战性的姿态,以及运动合成模块(MSM),用于围绕具有挑战性的姿态合成运动序列。然后,通过生成与具有挑战性的姿态和外观对齐的人体动画模型的逼真3D训练数据,PoseSyn在包括各种背景和遮挡、具有挑战性的姿态以及多视角场景的真实世界基准测试中,将各种3D姿态估计器的准确性提高了多达14%。大量实验进一步证实,PoseSyn是一种可扩展且有效的方法,可以在不依赖昂贵的3D标注的情况下提高泛化能力,无论姿态估计器的模型大小或设计如何。

[212] HiMTok: 学习层次化遮罩标记用于大规模多模态模型的图像分割
标题: HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model
作者: Tao Wang / Changxu Cheng / Lingfeng Wang / Senda Chen / Wuyue Zhao
原文:   [英文]  
备注: technical report
摘要:
大型多模态模型(LMMs)的卓越表现引起了图像分割领域的广泛关注。为了与下一个词预测范式对齐,当前基于LMM的分割方法要么使用对象边界点来表示掩码,要么引入特殊的分割标记,其隐藏状态由需要原始图像作为输入的分割模型解码。然而,这些方法通常面临掩码表示不足和架构复杂的问题,限制了LMMs的潜力。在这项工作中,我们提出了分层掩码标记器(HiMTok),它使用最多32个标记来表示分割掩码,并在掩码解码过程中无需原始图像。HiMTok允许紧凑且由粗到细的掩码表示,与LLM的下一个词预测范式很好地对齐,并促进了分割能力的直接获取。我们开发了一个三阶段的训练方案,用于逐步学习分割和视觉能力,具有分层掩码损失以实现有效的由粗到细学习。此外,我们实现了双向信息流动,允许在边界框和掩码标记之间进行转换,以充分利用多任务训练的潜力。大量实验表明,我们的方法在各种分割任务中达到了最先进的性能,同时增强了视觉定位并保持了整体视觉理解。

[213] 超越基于角色的外科领域建模:手术室中的可泛化再识别
标题: Beyond Role-Based Surgical Domain Modeling: Generalizable Re-Identification in the Operating Room
作者: Tony Danjun Wang / Lennart Bastian / Tobias Czempiel / Christian Heiliger / Nassir Navab
原文:   [英文]   [中文]  
备注: 26 pages, 14 figures, Submitted to Medical Image Analysis
摘要:
手术领域模型通过自动预测每个工作人员的手术角色来改善工作流程优化。然而,越来越多的证据表明团队熟悉度和个体性对手术结果有影响。我们提出了一种新颖的以工作人员为中心的建模方法,通过其独特的运动模式和身体特征来表征团队成员个体,实现对手术人员在多个手术过程中的长期跟踪和分析。为了解决诊所间差异的挑战,我们开发了一种可推广的重新识别框架,该框架对3D点云序列进行编码,以捕捉每个个体独特的形状和关节运动模式。我们的方法在真实临床数据上实现了86.19%的准确率,并在不同环境之间转移时保持75.27%的准确率,比现有方法提高了12%。当用于增强无标记人员跟踪时,我们的方法将准确率提高了50%以上。通过对三个数据集的广泛验证以及引入一种新颖的工作流程可视化技术,我们展示了我们的框架如何揭示手术团队动态和空间利用模式的新见解,推进分析手术工作流程和团队协调的方法。

[214] 关于训练图像检索模型,你需要知道的一切
标题: All You Need to Know About Training Image Retrieval Models
作者: Gabriele Berton / Kevin Musgrave / Carlo Masone
原文:   [英文]   [中文]  
备注: None
摘要:
图像检索是指在数据库中找到与给定查询图像最相似的图像的任务。图像检索流程的性能取决于许多训练时的因素,包括嵌入模型架构、损失函数、数据采样器、挖掘函数、学习率和批量大小。在这项工作中,我们进行了数万次训练运行,以了解每个因素对检索准确性的影响。我们还发现了一些在多个数据集上通用的最佳实践。代码可在此 https URL 获取。

[215] InsightDrive:用于端到端自动驾驶的洞察场景表示
标题: InsightDrive: Insight Scene Representation for End-to-End Autonomous Driving
作者: Ruiqi Song / Xianda Guo / Hangbin Wu / Qinggong Wei / Long Chen
原文:   [英文]   [中文]  
备注: None
摘要:
由于在复杂场景中的适应性和鲁棒性,直接从原始传感器生成规划结果变得越来越普遍。场景表示作为流程中的关键模块,传统上依赖于关注全局场景的常规感知。然而,在驾驶场景中,人类驾驶员通常只关注直接影响驾驶的区域,这些区域往往与端到端自动驾驶所需的区域重合。在本文中,提出了一种新颖的端到端自动驾驶方法,称为InsightDrive,它通过语言引导的场景表示来组织感知。我们引入了一种以实例为中心的场景标记器,将周围环境转换为地图和对象感知的实例标记。场景注意力语言描述由视觉语言模型生成,该模型利用基础模型的认知推理能力,突出影响自车运动的关键区域和障碍物。然后,我们使用视觉语言模型将场景描述与视觉特征对齐,通过这些描述引导视觉注意力,以有效地进行场景表示。此外,我们采用自注意力和交叉注意力机制来建模自车与自车地图的关系,以全面构建场景的拓扑关系。最后,基于场景理解,我们联合执行运动预测和规划。在广泛使用的nuScenes基准上的大量实验表明,所提出的InsightDrive在端到端自动驾驶中实现了最先进的性能。代码可在此https URL获取。

[216] 面向紧凑高效6自由度姿态估计的不确定性感知知识蒸馏
标题: Uncertainty-Aware Knowledge Distillation for Compact and Efficient 6DoF Pose Estimation
作者: Nassim Ali Ousalah / Anis Kacem / Enjie Ghorbel / Emmanuel Koumandakis / Djamila Aouada
原文:   [英文]   [中文]  
备注: None
摘要:
在机器人、增强现实和空间自主导航系统等应用中,紧凑且高效的6自由度(6DoF)物体姿态估计至关重要,因为轻量级模型对于实时准确性能是关键的。本文介绍了一种新颖的不确定性感知的端到端知识蒸馏(KD)框架,专注于基于关键点的6DoF姿态估计。由大型教师模型预测的关键点表现出不同程度的不确定性,这些不确定性可以在蒸馏过程中加以利用,以提高学生模型的准确性,同时确保其紧凑性。为此,我们提出了一种蒸馏策略,通过根据与每个教师关键点预测相关的不确定性调整知识转移来对齐学生和教师的预测。此外,所提出的KD利用这种不确定性感知的关键点对齐,在各自特征图的关键位置传递知识。在广泛使用的LINEMOD基准上的实验表明,我们的方法在使用轻量级模型的情况下实现了优于最新方法的6DoF物体姿态估计。在SPEED+数据集上的进一步验证,针对航天器姿态估计,突显了我们的方法在多样化的6DoF姿态估计场景下的鲁棒性。

[217] 视觉模型是否发展出类似人类的渐进难度理解能力?
标题: Do Vision Models Develop Human-Like Progressive Difficulty Understanding?
作者: Zeyi Huang / Utkarsh Ojha / Yuyang Ji / Donghyun Lee / Yong Jae Lee
原文:   [英文]   [中文]  
备注: None
摘要:
当人类进行测试时,他们的回答可能遵循某种模式:如果他们错误地回答了一个简单的问题(例如 $2 \times 3$),那么他们很可能也会错误地回答一个更难的问题(例如 $2 \times 3 \times 4$);如果他们正确地回答了一个困难的问题,他们很可能也会正确地回答简单的问题。任何其他情况都暗示了记忆背诵。那么,当前的视觉识别模型是否表现出类似的结构化学习能力呢?在这项工作中,我们考虑图像分类任务,并研究这些模型的反应是否遵循这种模式。由于真实图像没有标注难度,我们首先使用最新的生成模型创建了一个包含100个类别、10个属性和3个难度级别的数据集:对于每个类别(例如,狗)和属性(例如,遮挡),我们生成难度递增的图像(例如,没有遮挡的狗,部分可见的狗)。我们发现,大多数模型确实在80-90%的情况下表现出类似上述模式的行为。利用这一特性,我们探索了一种评估这些模型的新方法。我们没有在每一个可能的测试图像上测试模型,而是创建了一种类似GRE的自适应测试,其中模型在当前轮次图像上的表现决定了下一轮的测试图像。这使得模型可以跳过对其而言过于简单或困难的问题,并帮助我们在更少的步骤中获得其整体表现。

[218] 从历史文字到现代视觉:一种新的数据集和用于将莫迪文转写为天城文的VLM框架
标题: Historic Scripts to Modern Vision: A Novel Dataset and A VLM Framework for Transliteration of Modi Script to Devanagari
作者: Harshal Kausadikar / Tanvi Kale / Onkar Susladkar / Sparsh Mittal
原文:   [英文]  
备注: Under submission at a conference
摘要:
在中世纪的印度,马拉地语是用莫迪文书写的。用莫迪文书写的文本包含了关于中世纪科学、医学、土地记录以及印度历史的真实证据的广泛知识。大约有四千万份文件状况不佳,尚未被转录。此外,只有少数该领域的专家能够将这种文字转录为英语或天城文。过去的大多数研究主要集中在单个字符识别上。需要一个能够将莫迪文档转录为天城文的系统。我们提出了MoDeTrans数据集,其中包含2,043张莫迪文档的图像及其对应的天城文文本转录。我们进一步介绍了MoScNet(\textbf{Mo}di \textbf{Sc}ript \textbf{Net}work),这是一种新颖的视觉-语言模型(VLM)框架,用于将莫迪文图像转录为天城文文本。MoScNet利用知识蒸馏技术,其中学生模型从教师模型中学习以提高转录性能。MoScNet的最终学生模型在参数减少163倍的情况下,性能优于教师模型。我们的工作是首次实现从手写莫迪文直接转录为天城文。MoScNet在光学字符识别(OCR)任务中也显示出竞争力的结果。

[219] 使用领域偏移消除器的联邦学习
标题: Federated Learning with Domain Shift Eraser
作者: Zheng Wang / Zihui Wang / Zheng Wang / Xiaoliang Fan / Cheng Wang
原文:   [英文]  
备注: Accepted by CVPR2025
摘要:
联邦学习(FL)作为一种无需本地数据离开设备的协作学习技术正在崭露头角。然而,由于域转移,来自不同领域的客户端数据可能会降低模型性能,阻碍模型学习一致的表示空间。在本文中,我们提出了一种新颖的联邦学习框架,称为联邦域转移消除器(FDSE),通过不同地消除每个客户端的域偏斜并增强它们的一致性来提高模型性能。首先,我们将模型的前向传递过程公式化为一个迭代去偏过程,该过程交替提取和去偏特征。这通过将神经网络中的每个原始层分解为域无关特征提取器(DFE)和域特定偏斜消除器(DSE)来有效实现。然后,应用一个正则化项,通过将DSE输出的局部统计数据拉近到全局一致的统计数据来保证特征去偏的有效性。最后,DFE模块被公平地聚合并广播给所有客户端以最大化它们的一致性,而DSE模块则通过基于相似性的聚合为每个客户端个性化,以不同地消除它们的域偏斜。在三个数据集上进行了全面的实验,以确认我们的方法在准确性、效率和泛化能力方面的优势。

[220] Crab:一种具有显式协作的统一音视频场景理解模型
标题: Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
作者: Henghui Du / Guangyao Li / Chang Zhou / Chunjie Zhang / Alan Zhao / Di Hu
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,提出了许多任务以促进模型在理解视听场景方面的发展,主要分为时间定位、空间定位、时空推理和像素级理解。相反,人类在多样化任务中具有统一的理解能力。因此,设计一个具有通用能力的视听模型来统一这些任务具有重要价值。然而,简单地对所有任务进行联合训练可能会由于视听数据的异质性和任务之间复杂的关系而导致干扰。我们认为这个问题可以通过任务之间的明确合作来解决。为实现这一目标,我们提出了一种统一的学习方法,从数据和模型的角度全面实现任务间的明确合作。具体来说,考虑到现有数据集的标签是简单的词语,我们仔细优化这些数据集,并构建了一个具有明确推理过程的视听统一指令调优数据集(AV-UIE),以明确任务之间的合作关系。随后,为了在学习阶段促进具体合作,我们设计了一种具有多个LoRA头的交互感知LoRA结构,以学习视听数据交互的不同方面。通过在数据和模型方面统一明确合作,我们的方法不仅在多个任务上超越了现有的统一视听模型,还在某些任务上超过了大多数专门模型。此外,我们还可视化了明确合作的过程,并惊讶地发现每个LoRA头都具有一定的视听理解能力。代码和数据集:this https URL

[221] 奖励足以实现快速逼真的文本到图像生成
标题: Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation
作者: Yihong Luo / Tianyang Hu / Weijian Luo / Kenji Kawaguchi / Jing Tang
原文:   [英文]   [中文]  
备注: None
摘要:
对齐生成的图像与复杂的文本提示和人类偏好是人工智能生成内容(AIGC)中的一个核心挑战。随着奖励增强扩散蒸馏作为一种有前途的方法出现,它提高了文本到图像模型的可控性和保真度,我们识别出一个基本的范式转变:当条件变得更加具体且奖励信号更强时,奖励本身成为生成中的主导力量。相比之下,扩散损失则成为一种过于昂贵的正则化形式。为了彻底验证我们的假设,我们引入了R0,这是一种通过正则化奖励最大化的新型条件生成方法。R0不依赖于复杂的扩散蒸馏损失,而是提出了一种新视角,将图像生成视为数据空间中的优化问题,旨在搜索具有高组合奖励的有效图像。通过创新的生成器参数化设计和适当的正则化技术,我们在大规模上使用R0训练了最先进的少步文本到图像生成模型。我们的结果挑战了扩散后训练和条件生成的传统智慧,表明在复杂条件下奖励起着主导作用。我们希望我们的发现能够促进在AIGC更广泛领域中以人为中心和以奖励为中心的生成范式的进一步研究。代码可在此https URL获取。

[222] DehazeMamba:基于自适应状态空间模型的SAR引导光学遥感图像去雾
标题: DehazeMamba: SAR-guided Optical Remote Sensing Image Dehazing with Adaptive State Space Model
作者: Zhicheng Zhao / Jinquan Yan / Chenglong Li / Xiao Wang / Jin Tang
原文:   [英文]   [中文]  
备注: None
摘要:
光学遥感图像去雾由于其广泛的空间尺度和高度不均匀的雾霾分布而面临重大挑战,传统的单图像去雾方法难以有效解决这些问题。尽管合成孔径雷达(SAR)图像为大规模场景提供了固有的无雾参考信息,但现有的SAR引导去雾方法面临两个关键限制:SAR信息的整合往往降低了无雾区域的质量,特征质量的不稳定性进一步加剧了跨模态域的偏移。为克服这些挑战,我们引入了DehazeMamba,这是一种基于渐进雾霾解耦融合策略的新型SAR引导去雾网络。我们的方法包含两个关键创新:一个雾霾感知与解耦模块(HPDM),通过光学-SAR差异分析动态识别受雾霾影响的区域,以及一个渐进融合模块(PFM),通过基于特征质量评估的两阶段融合过程来缓解域偏移。为了促进该领域的研究,我们提出了MRSHaze,这是一个大规模基准数据集,包含8,000对时间同步、精确地理配准的高分辨率SAR-光学图像,具有多样的雾霾条件。大量实验表明,DehazeMamba显著优于最先进的方法,在PSNR上提高了0.73 dB,并在语义分割等下游任务中取得了显著的提升。数据集可在此https URL获取。

[223] 重新思考超分辨率中的图像评估
标题: Rethinking Image Evaluation in Super-Resolution
作者: Shaolin Su / Josep M. Rocafort / Danna Xue / David Serrano-Lozano / Lei Sun / Javier Vazquez-Corral
原文:   [英文]   [中文]  
备注: None
摘要:
尽管最近的图像超分辨率(SR)技术不断提高其输出的感知质量,但在定量评估中通常会失败。这种不一致导致人们对现有用于SR评估的图像指标越来越不信任。虽然图像评估依赖于指标和参考的真实值(GT),但研究人员通常不检查GT的作用,因为它们通常被认为是“完美”的参考。然而,由于数据是在早期收集的,并且忽视了控制其他类型的失真,我们指出现有SR数据集中的GT可能表现出相对较差的质量,从而导致偏颇的评估。基于这一观察,本文我们关注以下问题:现有SR数据集中的GT图像是否100%值得信赖用于模型评估?GT质量如何影响这种评估?如果存在不完美的GT,如何进行公平的评估?为了解答这些问题,本文提出了两个主要贡献。首先,通过系统地分析三个真实世界SR数据集中的七个最先进的SR模型,我们展示了低质量GT可以一致地影响模型的SR性能,并且当控制GT质量时,模型的表现可能会有很大不同。其次,我们提出了一种新颖的感知质量指标,称为相对质量指数(RQI),用于衡量图像对的相对质量差异,从而解决由不可靠GT引起的偏颇评估。我们提出的模型在与人类意见的一致性方面显著提高。我们希望我们的工作能为SR社区提供见解,以指导未来数据集、模型和指标的发展。

[224] 高斯即时点绘:一种用于稳健近实时3DGS优化的渐进框架
标题: Gaussian On-the-Fly Splatting: A Progressive Framework for Robust Near Real-Time 3DGS Optimization
作者: Yiwei Xu / Yifei Yu / Wentian Gan / Tengfei Wang / Zongqian Zhan / Hao Cheng / Xin Wang
原文:   [英文]   [中文]  
备注: None
摘要:
3D Gaussian Splatting (3DGS) 实现了高保真渲染和快速实时性能,但现有方法依赖于在完整的结构化运动(SfM)处理后的离线训练。相比之下,这项工作引入了即时GS,这是一种渐进式框架,能够在图像捕获过程中实现近实时的3DGS优化。随着每张图像的到来,其位姿和稀疏点通过即时SfM进行更新,并且新优化的高斯立即整合到3DGS场中。我们提出了一种渐进的局部优化策略,通过相应的重叠关系优先考虑新图像及其邻近图像,使新图像及其重叠图像获得更多训练。为了进一步稳定旧图像和新图像的训练,采用自适应学习率调度来平衡迭代次数和学习率。此外,为了保持3DGS场的整体质量,一种高效的全局优化方案防止对新添加图像的过拟合。在多个基准数据集上的实验表明,我们的即时GS显著减少了训练时间,在几秒钟内优化每张新图像,并且渲染损失最小,提供了快速、渐进式3DGS重建的第一个实用步骤。

[225] ClearSight:用于缓解多模态大型语言模型中对象幻觉的视觉信号增强
标题: ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models
作者: Hao Yin / Guangzong Si / Zilei Wang
原文:   [英文]   [中文]  
备注: None
摘要:
对比解码策略广泛用于减轻多模态大型语言模型(MLLMs)中的对象幻觉。通过减少对语言先验的过度依赖,这些策略确保生成的内容与视觉输入紧密结合,产生上下文准确的输出。由于对比解码不需要额外的训练或外部工具,它提供了计算效率和多功能性,使其极具吸引力。然而,这些方法存在两个主要限制:(1)粗略地抑制语言先验可能会损害生成内容的连贯性和准确性,以及(2)处理对比输入增加了计算负担,显著降低了推理速度。为了解决这些挑战,我们提出了视觉增强融合(VAF),这是一种即插即用的技术,可以在模型的中间层中增强对视觉信号的关注,这些层是模态融合主要发生的地方。该方法能够更有效地捕捉视觉特征,减少模型对语言模态的偏向。实验结果表明,VAF显著减少了各种MLLMs中的幻觉,而不影响推理速度,同时保持生成输出的连贯性和准确性。

[226] 揭开多模态大模型中视觉信息流的面纱:解锁更快推理的路径
标题: Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference
作者: Hao Yin / Guangzong Si / Zilei Wang
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大型语言模型(MLLMs)通过将预训练视觉编码器中的视觉特征整合到大型语言模型(LLMs)中,提高了视觉-语言任务的性能。然而,MLLMs如何处理和利用视觉信息仍然不清楚。在本文中,我们揭示了视觉信息的主要流动方向的变化:(1)在浅层中,图像标记与指令标记之间存在强烈的交互,大多数视觉信息被注入到指令标记中,以形成跨模态语义表示;(2)在深层中,图像标记主要相互交互,聚合剩余的视觉信息以优化视觉模态内的语义表示。基于这些见解,我们提出了分层模态感知剪枝(HiMAP),这是一种即插即用的推理加速方法,可以在特定层动态剪枝图像标记,减少约65%的计算成本而不牺牲性能。我们的研究结果为MLLMs中的视觉信息处理提供了新的理解,并为高效推理提供了最先进的解决方案。

[227] DTGBrepGen:一种通过解耦拓扑和几何的全新B-rep生成模型
标题: DTGBrepGen: A Novel B-rep Generative Model through Decoupling Topology and Geometry
作者: Jing Li / Yihang Fu / Falai Chen
原文:   [英文]  
备注: None
摘要:
几何模型的边界表示(B-rep)是计算机辅助设计(CAD)中的一种基本格式。然而,由于模型的拓扑和几何之间的复杂相互依赖关系,自动生成有效且高质量的B-rep模型仍然具有挑战性。现有的方法往往优先考虑几何表示,而对拓扑约束关注不足,这使得维护结构有效性和几何精确性变得困难。在本文中,我们提出了DTGBrepGen,这是一种新颖的拓扑-几何解耦框架,用于B-rep生成,明确地解决了这两个方面的问题。我们的方法首先通过一个两阶段过程生成有效的拓扑结构,该过程独立地建模边-面和边-顶点的邻接关系。随后,我们采用基于Transformer的扩散模型进行顺序几何生成,逐步生成顶点坐标,然后是边几何和面几何,这些几何被表示为B样条。在各种CAD数据集上的大量实验表明,DTGBrepGen在拓扑有效性和几何精确性方面显著优于现有方法,实现了更高的有效性率,并生成了更多样化和逼真的B-rep。我们的代码在此https URL上公开可用。

[228] MM-Spatial:探索多模态大型语言模型中的三维空间理解
标题: MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs
作者: Erik Daxberger / Nina Wenzel / David Griffiths / Haiming Gang / Justin Lazarow / Gefen Kohavi / Kai Kang / Marcin Eichner / Yinfei Yang / Afshin Dehghan / Peter Grasch
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大语言模型(MLLMs)在二维视觉理解方面表现出色,但在三维空间推理能力上仍然有限。在这项工作中,我们利用大规模高质量的三维场景数据和开放集注释,介绍了1)一个新颖的监督微调数据集和2)一个新的评估基准,重点关注室内场景。我们的Cubify Anything VQA(CA-VQA)数据涵盖了多种空间任务,包括空间关系预测、度量尺寸和距离估计以及三维定位。我们展示了CA-VQA使我们能够训练出MM-Spatial,这是一种强大的通用MLLM,在三维空间理解基准(包括我们自己的基准)上也达到了最先进的性能。我们展示了如何结合度量深度和多视图输入(在CA-VQA中提供)可以进一步提高三维理解,并证明仅凭数据就能使我们的模型实现与专用单目深度估计模型相当的深度感知能力。我们将发布我们的SFT数据集和基准。

[229] 3D人机交互生成:综述
标题: 3D Human Interaction Generation: A Survey
作者: Siyuan Fan / Wenke Huang / Xiantao Cai / Bo Du
原文:   [英文]   [中文]  
备注: None
摘要:
3D人类交互生成已成为一个关键的研究领域,专注于在人类与各种交互实体之间产生动态且具有上下文相关性的交互。最近在3D模型表示方法、动作捕捉技术和生成模型方面的快速进展为这一领域日益增长的兴趣奠定了坚实的基础。现有的研究可以大致分为三个领域:人-场景交互、人-物体交互和人-人交互。尽管该领域发展迅速,但由于需要生成自然的人类动作以及人与交互实体之间的准确交互,仍然存在挑战。在这篇综述中,我们对人类交互生成进行了全面的文献回顾,据我们所知,这是首个此类综述。我们首先介绍了基础技术,包括模型表示、动作捕捉方法和生成模型。随后,我们介绍了针对三个子任务提出的方法,以及它们对应的数据集和评估指标。最后,我们讨论了该领域潜在的未来研究方向,并总结了这篇综述。通过这篇综述,我们旨在提供对该领域当前进展的全面概述,突出关键挑战,并激发未来的研究工作。

[230] 基于一致纹理熵递归优化半监督网络的激光芯片亚微米不可见划痕无损检测
标题: Non-Destructive Detection of Sub-Micron Imperceptible Scratches On Laser Chips Based On Consistent Texture Entropy Recursive Optimization Semi-Supervised Network
作者: Pan Liu
原文:   [英文]   [中文]  
备注: 11 pages
摘要:
激光芯片是半导体激光器的核心组件,广泛应用于各个行业,并在未来应用中展现出巨大潜力。芯片生产中,发光表面的光滑度至关重要,因为即使是难以察觉的划痕也会显著降低性能和寿命,从而阻碍生产效率和产量。因此,非破坏性地检测发光表面上这些难以察觉的划痕对于提高产量和降低成本至关重要。这些亚微米级的划痕在背景下几乎不可见,使用传统方法极难检测,加之缺乏标记数据集,使得检测更加困难。为了解决这一挑战,本文介绍了一种一致性纹理熵递归优化半监督网络——TexRecNet。该网络基于递归优化架构,通过使用前一周期的输出来指导后续输入和网络的位置信息编码,迭代地提高难以察觉的划痕边缘的检测精度。它还引入了图像纹理熵,利用大量未标记数据扩展训练集,同时保持训练信号的可靠性。最终,通过分析递归过程中获得的网络输出序列的不一致性,提出了一种具有递归一致性约束的半监督训练策略,使用递归过程的输出进行非破坏性信号增强,并持续优化损失函数以实现高效的端到端训练。实验结果表明,该方法利用大量无监督数据,在检测难以察觉的划痕时实现了75.6%的准确率和74.8%的召回率,比传统的Unet提高了8.5%和33.6%,从而提升了激光芯片的质量控制。

[231] ChainHOI:基于关节的运动链建模用于生成人-物交互
标题: ChainHOI: Joint-based Kinematic Chain Modeling for Human-Object Interaction Generation
作者: Ling-An Zeng / Guohong Huang / Yi-Lin Wei / Shengbo Gu / Yu-Ming Tang / Jingke Meng / Wei-Shi Zheng
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025
摘要:
我们提出了ChainHOI,这是一种新颖的文本驱动人-物交互(HOI)生成方法,该方法在关节和运动链级别上显式建模交互。与现有方法使用全身姿势作为标记隐式建模交互不同,我们认为显式建模关节级别的交互更自然且更有效,因为它直接捕捉关节之间的几何和语义关系,而不是在潜在姿势空间中建模交互。为此,ChainHOI引入了一种新的关节图来捕捉与物体的潜在交互,并使用生成时空图卷积网络在关节级别上显式建模交互。此外,我们提出了一种基于运动学的交互模块,在运动链级别上显式建模交互,确保生成的动作更加真实且符合生物力学。对两个公共数据集的评估表明,ChainHOI显著优于以前的方法,生成更真实且语义一致的HOI。代码可以在\href{this https URL}{这里}获取。

[232] 基于膝关节磁共振图像重建健康人格的患者特异性放射组学特征选择
标题: Patient-specific radiomic feature selection with reconstructed healthy persona of knee MR images
作者: Yaxi Chen / Simin Ni / Aleksandra Ivanova / Shaheer U. Saeed / Rikin Hargunani / Jie Huang / Chaozong Liu / Yipeng Hu
原文:   [英文]   [中文]  
备注: None
摘要:
经典的影像组学特征旨在描述图像外观和强度模式。这些特征可以直接解释,并且容易被放射科医生理解。与端到端深度学习(DL)模型相比,使用此类影像组学特征的低维参数模型提供了增强的可解释性,但在临床任务中表现较差。在这项研究中,我们提出了一种方法,通过学习为个别患者从候选特征池中选择影像组学特征,显著提高标准逻辑回归模型的性能。这种方法有可能在保持可解释性的同时,提供与深度学习相当的性能。我们还建议通过使用在健康受试者上训练的去噪扩散模型进行掩膜修复,生成患者特定的健康形象来扩展特征池。这种无病理基线特征集为新特征发现和改善病情分类提供了进一步的机会。我们在多个临床任务中展示了我们的方法,包括分类一般异常、前交叉韧带撕裂和半月板撕裂。实验结果表明,我们的方法在性能上与最先进的深度学习方法相当甚至更优,同时通过使用从图像中提取的影像组学特征并生成健康形象,提供了额外的可解释性。深入讨论了示例临床案例,以展示可解释性所带来的实用性,例如人类可解释的特征发现和患者特定的定位/视图选择。这些发现突出了结合个体特异性特征选择与生成模型在增强影像组学分析以实现更可解释决策中的潜力。代码可在此网址获取:this https URL

[233] 增强医学影像中的零样本学习:结合CLIP与先进技术以改进胸部X光片分析
标题: Enhancing zero-shot learning in medical imaging: integrating clip with advanced techniques for improved chest x-ray analysis
作者: Prakhar Bhardwaj / Sheethal Bhat / Andreas Maier
原文:   [英文]   [中文]  
备注: None
摘要:
由于医学影像数据量巨大,需要先进的人工智能方法来协助放射科医生从胸部X光片(CXR)中诊断胸部疾病。现有的深度学习模型通常需要大量标记的数据集,而在医学影像中,由于标注过程耗时且需要专家参与,这类数据集较为稀缺。在本文中,我们通过将对比语言-图像预训练(CLIP)与动量对比(MoCo)相结合,扩展了现有的方法,以增强医学影像中的零样本学习,提出了我们的方法MoCoCLIP。我们的方法解决了类别不平衡和未标记数据集带来的挑战,从而提高了肺部病变的检测能力。在NIH ChestXray14数据集上的实验结果表明,MoCoCLIP优于最先进的CheXZero模型,实现了约6.5%的相对提升。此外,在CheXpert数据集上,MoCoCLIP展示了卓越的零样本性能,平均AUC达到0.750,而CheXZero为0.746 AUC,突显了其在未见数据上的增强泛化能力。

[234] 框架中的逻辑:通过视觉语义逻辑验证进行长视频理解的动态关键帧搜索
标题: Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding
作者: Weiyu Guo / Ziyang Chen / Shaoguang Wang / Jianxiang He / Yijie Xu / Jinhui Ye / Ying Sun / Hui Xiong
原文:   [英文]   [中文]  
备注: 18 pages, under review
摘要:
理解长视频内容是一项复杂的工作,通常依赖于密集采样的帧字幕或端到端特征选择器,但这些技术通常忽略了文本查询与视觉元素之间的逻辑关系。在实践中,计算约束需要粗略的帧子采样,这一挑战类似于“在大海捞针”。为了解决这个问题,我们引入了一个语义驱动的搜索框架,该框架在视觉语义逻辑搜索的范式下重新定义关键帧选择。具体来说,我们系统地定义了四种基本的逻辑依赖关系:1)空间共现,2)时间接近,3)属性依赖,4)因果顺序。这些关系通过迭代优化过程动态更新帧采样分布,使得能够根据特定查询需求上下文感知地识别语义关键帧。我们的方法在手动标注的基准测试中关键帧选择指标上建立了新的SOTA性能。此外,当应用于下游视频问答任务时,所提出的方法在LongVideoBench和Video-MME上展示了相对于现有方法的最佳性能提升,验证了其在弥合文本查询与视觉时间推理之间逻辑差距方面的有效性。代码将公开发布。

[235] 用于真实世界图像去雾的迭代预测-批评码解码
标题: Iterative Predictor-Critic Code Decoding for Real-World Image Dehazing
作者: Jiayi Fu / Siyu Liu / Zikun Liu / Chun-Le Guo / Hyunhee Park / Ruiqi Wu / Guoqing Wang / Chongyi Li
原文:   [英文]   [中文]  
备注: Acceptted by CVPR 2025
摘要:
我们提出了一种新颖的迭代预测-批评码解码框架用于真实世界图像去雾,简称为IPC-Dehaze,该框架利用了预训练的VQGAN中封装的高质量码本先验。与之前依赖一次性解码的码本方法不同,我们的方法利用在前一次迭代中获得的高质量码来指导下一次迭代中的码预测器的预测,从而提高码预测的准确性并确保稳定的去雾性能。我们的想法源于以下观察:1)雾霾图像的退化随雾霾密度和场景深度而变化,2)清晰区域在恢复浓雾区域时提供了关键线索。然而,在后续迭代中逐步优化获得的码并非易事,因为难以确定在每次迭代中哪些码应该保留或替换。我们研究的另一个关键见解是提出码批评器以捕捉码之间的相互关系。码批评器用于评估码的相关性,然后重新采样一组具有最高掩码分数的码,即更高的分数表明该码更可能被拒绝,这有助于保留更准确的码并预测困难的码。大量实验表明,我们的方法在真实世界去雾中优于最先进的方法。

[236] DynSTG-Mamba: 用于步态障碍识别的动态时空图Mamba与跨图知识蒸馏
标题: DynSTG-Mamba: Dynamic Spatio-Temporal Graph Mamba with Cross-Graph Knowledge Distillation for Gait Disorders Recognition
作者: Zakariae Zrimek / Youssef Mourchid / Mohammed El Hassouni
原文:   [英文]   [中文]  
备注: None
摘要:
步态障碍识别在运动障碍的早期诊断和监测中起着至关重要的作用。现有的方法,包括时空图卷积网络(ST-GCNs),通常面临高内存需求,并且难以捕捉复杂的时空依赖性,从而限制了其在临床应用中的效率。为了解决这些挑战,我们引入了DynSTG-Mamba(动态时空图Mamba),这是一种结合DF-STGNN和STG-Mamba的新框架,以增强运动序列建模。DF-STGNN包含一个动态时空滤波器,该滤波器自适应地调整骨骼关节之间的空间连接和不同运动阶段的时间交互。通过考虑骨骼步态数据的层次结构和动态性,这种方法确保了通过动态图结构的更好特征传播。同时,STG-Mamba是为骨骼运动数据改编的Mamba扩展,确保状态的连续传播,促进捕捉长期依赖性,同时降低计算复杂性。为了在保持一致性的同时减少模型参数数量和计算成本,我们提出了跨图关系知识蒸馏,这是一种新颖的知识转移机制,通过使用共享内存对齐教师(大架构)和学生模型(小架构)之间的关系信息。这确保了关节的交互和运动模式在运动序列中被准确保留。我们在KOA-NM、PD-WALK和ATAXIA数据集上验证了我们的DynSTG-Mamba,其在准确率、F1分数和召回率方面优于最先进的方法。我们的结果突出了我们方法的效率和稳健性,提供了一种轻量级但高度准确的自动步态分析和运动障碍评估解决方案。

[237] 语言引导的开放世界视频异常检测
标题: Language-guided Open-world Video Anomaly Detection
作者: Zihao Liu / Xiaoyu Wu / Jianqin Wu / Xuxu Wang / Linlin Yang
原文:   [英文]   [中文]  
备注: None
摘要:
视频异常检测模型旨在检测偏离预期的异常。在开放世界场景中,预期事件可能会随着需求的变化而改变。例如,在流感爆发期间,不戴口罩被认为是不正常的,但在其他情况下则是正常的。然而,现有方法假设异常的定义是不变的,因此不适用于开放世界。为了解决这个问题,我们提出了一种具有可变定义的新颖开放世界视频异常检测(VAD)范式,允许在推理时通过用户提供的自然语言进行引导检测。该范式需要建立从视频和文本定义到异常评分的稳健映射。因此,我们提出了LaGoVAD(语言引导的开放世界VAD),这是一种通过两种正则化策略动态适应异常定义的模型:通过动态视频合成多样化异常的相对持续时间,以及通过对比学习和负样本挖掘增强特征的鲁棒性。训练这种可适应的模型需要多样的异常定义,但现有数据集通常提供给定标签而没有语义描述。为弥补这一差距,我们收集了PreVAD(预训练视频异常数据集),这是迄今为止最大和最多样化的视频异常数据集,包含35,279个带有多级类别标签和明确定义异常的描述的视频。在七个数据集上的零样本实验展示了SOTA性能。数据和代码将会发布。

[238] 超越RGB:用于RAW目标检测的自适应并行处理
标题: Beyond RGB: Adaptive Parallel Processing for RAW Object Detection
作者: Shani Gamrian / Hila Barel / Feiran Li / Masakazu Yoshimura / Daisuke Iso
原文:   [英文]   [中文]  
备注: None
摘要:
目标检测模型通常应用于通过图像信号处理(ISP)管道处理的标准RGB图像,这些管道旨在增强传感器捕获的RAW图像以适应人类视觉。然而,这些ISP功能可能导致关键信息的丢失,而这些信息对于优化计算机视觉任务(如目标检测)可能是必不可少的。在这项工作中,我们引入了RAW自适应模块(RAM),这是一个专门为RAW目标检测优化参数而设计的模块,用以替代传统的ISP。受人类视觉系统并行处理机制的启发,RAM不同于现有的学习ISP方法,它通过并行而非顺序地应用多个ISP功能,从而更全面地捕捉图像特征。然后,这些处理后的表示在一个专门的模块中融合,该模块动态整合和优化针对目标任务的信息。这种新颖的方法不仅充分利用了RAW传感器数据的潜力,还实现了任务特定的预处理,从而带来了卓越的目标检测性能。我们的方法优于基于RGB的方法,并在不同光照条件和动态范围的多样化RAW图像数据集上实现了最先进的结果。

[239] 从零到细节:从渐进光谱视角解构超高清图像修复
标题: From Zero to Detail: Deconstructing Ultra-High-Definition Image Restoration from Progressive Spectral Perspective
作者: Chen Zhao / Zhizhou Chen / Yunzhe Xu / Enxuan Gu / Jian Li / Zili Yi / Qian Wang / Jian Yang / Ying Tai
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025
摘要:
超高清(UHD)图像修复由于其高分辨率、复杂内容和细致的细节而面临重大挑战。为了应对这些挑战,我们通过渐进的频谱视角深入分析修复过程,并将复杂的UHD修复问题分解为三个渐进阶段:零频率增强、低频修复和高频细化。基于这一见解,我们提出了一种新颖的框架ERR,该框架由三个协作子网络组成:零频率增强器(ZFE)、低频修复器(LFR)和高频细化器(HFR)。具体来说,ZFE整合全局先验以学习全局映射,而LFR则恢复低频信息,强调粗粒度内容的重建。最后,HFR采用我们设计的频率窗口化Kolmogorov-Arnold网络(FW-KAN)来细化纹理和细节,产生高质量的图像修复。我们的方法在各种任务中显著优于之前的UHD方法,广泛的消融研究验证了每个组件的有效性。代码可在\href{this https URL}{此处}获取。

[240] DeGauss:基于高斯散射的动态-静态分解用于无干扰的3D重建
标题: DeGauss: Dynamic-Static Decomposition with Gaussian Splatting for Distractor-free 3D Reconstruction
作者: Rui Wang / Quentin Lohmeyer / Mirko Meboldt / Siyu Tang
原文:   [英文]   [中文]  
备注: None
摘要:
从现实世界的捕获中重建干净、无干扰的三维场景仍然是一个重大挑战,特别是在高度动态和杂乱的环境中,如第一人称视角的视频。为了解决这个问题,我们引入了DeGauss,这是一种基于解耦动态-静态高斯散射设计的简单而稳健的自监督动态场景重建框架。DeGauss使用前景高斯来建模动态元素,使用背景高斯来建模静态内容,并使用概率掩码来协调它们的组合,从而实现独立但互补的优化。DeGauss在各种现实世界场景中表现出强大的泛化能力,从随意的图像集合到长时间的动态第一人称视角视频,无需依赖复杂的启发式方法或大量的监督。在包括NeRF-on-the-go、ADT、AEA、Hot3D和EPIC-Fields的基准测试中,实验表明DeGauss始终优于现有方法,为在高度动态、交互丰富的环境中实现可泛化、无干扰的三维重建建立了一个强有力的基线。

[241] 一种基于扩展特征调制网络的轻量化建筑图像超分辨率重建方法
标题: A super-resolution reconstruction method for lightweight building images based on an expanding feature modulation network
作者: Yi Zhang / Wenye Zhou / Ruonan Lin
原文:   [英文]  
备注: None
摘要:
本研究提出了一种轻量级方法,用于通过膨胀上下文特征调制网络(DCFMN)构建图像超分辨率。该过程包括获取高分辨率图像,将其下采样至低分辨率,增强低分辨率图像,构建和训练轻量级网络模型,并生成超分辨率输出。为了解决建筑图像中的规则纹理和长距离依赖等挑战,DCFMN集成了扩展可分离调制单元和局部特征增强模块。前者采用多个扩展卷积,相当于一个大内核,以高效聚合多尺度特征,同时利用简单的注意力机制实现自适应。后者对局部特征进行编码,混合通道信息,并通过重参数化确保在推理过程中没有额外的计算负担。该方法有效解决了现有轻量级超分辨率网络在建模长距离依赖方面的局限性,实现了准确且高效的全局特征建模而不增加计算成本,并显著提高了建筑图像超分辨率模型的重建质量和轻量化效率。

[242] Triad:通过视觉专家指导的视觉分词器和制造工艺增强基于LMM的异常检测
标题: Triad: Empowering LMM-based Anomaly Detection with Vision Expert-guided Visual Tokenizer and Manufacturing Process
作者: Yuanze Li / Shihao Yuan / Haolin Wang / Qizhang Li / Ming Liu / Chen Xu / Guangming Shi / Wangmeng Zuo
原文:   [英文]   [中文]  
备注: None
摘要:
尽管最近的方法尝试将大型多模态模型(LMMs)引入工业异常检测(IAD),但它们在IAD领域的泛化能力远不如用于一般目的的模型。我们将这一差距的主要原因总结为两个方面。一方面,通用的LMMs缺乏对视觉模态中缺陷的认知,因此无法充分关注缺陷区域。因此,我们建议修改LLaVA模型的AnyRes结构,将现有IAD模型识别出的潜在异常区域提供给LMMs。另一方面,现有方法主要通过学习缺陷模式或与正常样本进行比较来识别缺陷,但它们在理解这些缺陷的成因方面有所不足。考虑到缺陷的产生与制造过程密切相关,我们提出了一种制造驱动的IAD范式。我们设计了一个用于IAD的指令调优数据集(InstructIAD)和一个结合制造过程的链式思维数据组织方法(CoT-M),以利用制造过程进行IAD。基于上述两项修改,我们提出了Triad,这是一种新颖的基于LMM的方法,结合了专家指导的兴趣区域标记器和制造过程用于工业异常检测。大量实验表明,我们的Triad不仅在与当前LMMs的竞争中表现出色,而且在结合制造过程后进一步提高了准确性。源代码、训练数据和预训练模型将在此https URL公开提供。

[243] 3DAxisPrompt:促进GPT-4o中的3D定位和推理
标题: 3DAxisPrompt: Promoting the 3D Grounding and Reasoning in GPT-4o
作者: Dingning Liu / Cheng Wang / Peng Gao / Renrui Zhang / Xinzhu Ma / Yuan Meng / Zhihui Wang
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大型语言模型(MLLMs)在各种任务中表现出令人印象深刻的能力,尤其是在配备精心设计的视觉提示时。然而,现有研究主要集中在逻辑推理和视觉理解上,而MLLMs在3D视觉中有效操作的能力仍是一个正在探索的领域。在本文中,我们介绍了一种新颖的视觉提示方法,称为3DAxisPrompt,以激发MLLMs在真实场景中的3D理解能力。更具体地说,我们的方法利用3D坐标轴和从“Segment Anything Model”(SAM)生成的掩码,为MLLMs提供明确的几何先验,然后将其出色的2D定位和推理能力扩展到真实世界的3D场景。此外,我们首次对潜在的视觉提示格式进行了全面调查,并总结我们的发现,以揭示GPT-4o作为MLLMs代表的3D理解能力的潜力和局限性。最后,我们构建了包含四个数据集的评估环境,即ScanRefer、ScanNet、FMB和nuScene数据集,涵盖各种3D任务。在此基础上,我们进行了广泛的定量和定性实验,证明了所提出方法的有效性。总体而言,我们的研究揭示了MLLMs在3DAxisPrompt的帮助下,可以有效地感知真实场景中物体的3D位置。然而,单一的提示工程方法并不能始终为所有3D任务实现最佳结果。本研究强调了利用MLLMs进行3D视觉定位/推理的提示工程技术的可行性。

[244] 真实果园环境中跨不同传感器的三维层次全景分割
标题: 3D Hierarchical Panoptic Segmentation in Real Orchard Environments Across Different Sensors
作者: Matteo Sodano / Federico Magistri / Elias Marks / Fares Hosn / Aibek Zurbayev / Rodrigo Marcuzzi / Meher V. R. Malladi / Jens Behley / Cyrill Stachniss
原文:   [英文]   [中文]  
备注: Submitted to IROS
摘要:
作物产量估计是农业中的一个重要问题,因为准确的作物产量估计可以支持农民在收获或精确干预方面的决策。机器人可以帮助自动化这一过程。为此,它们需要能够感知周围环境以识别目标对象。在本文中,我们介绍了一种新方法来解决来自不同传感器的3D数据中苹果园的层次全景分割问题。我们的方法能够同时提供语义分割、树干和果实的实例分割,以及植物(单个树干及其果实)的实例分割。这使我们能够识别诸如单个植物、果实和树干等相关信息,并捕捉它们之间的关系,例如精确估计果园中每棵树所关联的果实数量。此外,为了有效评估我们的层次全景分割方法,我们提供了一个专门为此任务设计的数据集。我们的数据集是在波恩的一个真实苹果园中录制的,使用了多种传感器,从地面激光扫描仪到安装在不同机器人平台上的RGB-D相机。实验表明,我们的方法在农业领域的3D全景分割方面超越了现有的先进方法,同时也提供了完整的层次全景分割。我们的数据集已在此https URL上公开提供。我们将在论文接受后提供我们方法的开源实现,并在隐藏测试集上进行层次全景分割的公开竞赛。

[245] 聚类回归:无需训练即可实现最先进的LiDAR实例分割
标题: Clustering is back: Reaching state-of-the-art LiDAR instance segmentation without training
作者: Corentin Sautier / Gilles Puy / Alexandre Boulch / Renaud Marlet / Vincent Lepetit
原文:   [英文]   [中文]  
备注: None
摘要:
激光雷达点云的全景分割是户外场景理解的基础,其中自动驾驶是一个主要应用。尽管最先进的方法通常依赖于端到端的深度学习架构和大量实例的手动标注,但对大规模点云数据集进行标注所需的巨大成本和时间投入仍然是该领域的主要瓶颈。在这项工作中,我们展示了仅使用语义标签即可实现具有竞争力的全景分割,实例的预测无需任何训练或标注。我们的方法在包括SemanticKITTI和nuScenes在内的标准基准上实现了与当前最先进的监督方法相当的性能,并且在SemanticKITTI上作为一个即插即用的实例头替代方案,超越了所有公开可用的方法,同时在单线程CPU上实时运行且不需要实例标签。我们的方法完全可解释,不需要学习或参数调整。代码可在此https URL获取。

[246] MedLoRD:一种用于高分辨率3D CT图像合成的医学低资源扩散模型
标题: MedLoRD: A Medical Low-Resource Diffusion Model for High-Resolution 3D CT Image Synthesis
作者: Marvin Seyfarth / Salman Ul Hassan Dar / Isabelle Ayx / Matthias Alexander Fink / Stefan O. Schoenberg / Hans-Ulrich Kauczor / Sandy Engelhardt
原文:   [英文]   [中文]  
备注: None
摘要:
人工智能在医学影像领域的进步提供了巨大的潜力。然而,由于数据的有限可用性以及医疗中心因患者隐私问题而不愿共享数据,这些应用受到限制。生成模型通过创建合成数据来替代真实患者数据,提供了一种有前途的解决方案。然而,医学图像通常是高维的,当前最先进的方法在计算资源受限的医疗环境中往往不切实际。这些模型依赖于数据子采样,令人对其可行性和实际应用产生怀疑。此外,许多这些模型仅在定量指标上进行评估,这在评估生成图像的质量和临床意义时可能具有误导性。为了解决这一问题,我们引入了MedLoRD,一种为计算资源受限环境设计的生成扩散模型。MedLoRD能够生成分辨率高达512×512×256的高维医学体积,使用仅有24GB显存的GPU,这在标准桌面工作站中常见。MedLoRD在多个模态上进行了评估,包括冠状动脉计算机断层扫描血管造影和肺部计算机断层扫描数据集。通过放射学评估、相对区域体积分析、对条件掩码的遵循以及下游任务的广泛评估表明,MedLoRD生成的高保真图像严格遵循分割掩码条件,超越了当前最先进的生成模型在计算资源受限环境中进行医学图像合成的能力。

[247] 一种用于遥感图像融合的通用自适应双层加权机制
标题: A General Adaptive Dual-level Weighting Mechanism for Remote Sensing Pansharpening
作者: Jie Huang / Haorui Chen / Jiaxuan Ren / Siran Peng / Liangjian Deng
原文:   [英文]  
备注: This paper is accepted at the CVPR Conference on Computer Vision and Pattern Recognition 2025
摘要:
目前,基于深度学习的遥感图像融合方法发展迅速。然而,许多现有方法难以充分利用特征的异质性和冗余性,从而限制了其有效性。我们使用协方差矩阵来建模特征的异质性和冗余性,并提出相关性感知协方差加权(CACW)来进行调整。CACW通过协方差矩阵捕捉这些相关性,然后通过非线性函数处理生成用于调整的权重。在CACW的基础上,我们引入了一种通用的自适应双层加权机制(ADWM),从两个关键角度解决这些挑战,增强了多种现有的深度学习方法。首先,特征内加权(IFW)评估每个特征内通道之间的相关性,以减少冗余并增强独特信息。其次,跨特征加权(CFW)根据层间相关性调整各层的贡献,优化最终输出。大量实验表明,ADWM的性能优于近期的最新方法。此外,我们通过通用性实验、冗余可视化、对比实验、关键变量和复杂性分析以及消融研究验证了我们方法的有效性。我们的代码可在此https URL获取。

[248] HoloGest:生成整体表达共语手势的解耦扩散和运动先验
标题: HoloGest: Decoupled Diffusion and Motion Priors for Generating Holisticly Expressive Co-speech Gestures
作者: Yongkang Cheng / Shaoli Huang
原文:   [英文]   [中文]  
备注: Accepted by 3DV 2025
摘要:
为虚拟角色生成整体的共语手势动画是一项具有挑战性但至关重要的任务。以往的系统主要关注音频与手势之间的弱相关性,导致物理上不自然的结果,降低了用户体验。为了解决这个问题,我们引入了HoleGest,这是一种基于解耦扩散和运动先验的新型神经网络框架,用于自动生成高质量、富有表现力的共语手势。我们的系统利用大规模的人体运动数据集来学习一个具有低音频依赖性和高运动依赖性的稳健先验,从而实现稳定的全局运动和细致的手指动作。为了提高基于扩散模型的生成效率,我们将隐式关节约束与显式几何和条件约束相结合,捕捉大步幅之间复杂的运动分布。这种整合显著提高了生成速度,同时保持了高质量的运动。此外,我们设计了一个共享的嵌入空间用于手势与转录文本的对齐,从而生成语义正确的手势动作。大量实验和用户反馈证明了我们模型的有效性和潜在应用,我们的方法实现了接近真实水平的逼真度,提供了沉浸式的用户体验。我们的代码、模型和演示可在此https URL获取。

[249] 基于采样创新的自适应压缩感知
标题: Sampling Innovation-Based Adaptive Compressive Sensing
作者: Zhifu Tian / Tao Hu / Chaoyang Niu / Di Wu / Shu Wang
原文:   [英文]   [中文]  
备注: CVPR2025 accepted
摘要:
场景感知自适应压缩感知(ACS)因其在高效和高保真获取场景图像方面的潜力而引起了广泛关注。ACS 通常在缺乏真实值的情况下,根据先前的样本规定自适应采样分配(ASA)。然而,当面对未知场景时,现有的 ACS 方法往往缺乏对 ASA 的准确判断和稳健的反馈机制,从而限制了场景的高保真感知。在本文中,我们引入了一种基于采样创新的 ACS(SIB-ACS)方法,该方法能够有效识别并分配采样到具有挑战性的图像重建区域,从而实现高保真图像重建。我们提出了一种创新标准,通过预测由于采样增量导致的图像重建误差的减少来判断 ASA,从而将更多的样本引导到重建误差显著减少的区域。我们提出了一种采样创新引导的多阶段自适应采样(AS)框架,通过多阶段反馈过程迭代地优化 ASA。对于图像重建,我们提出了一种主成分压缩域网络(PCCD-Net),能够在 AS 场景下高效且忠实地重建图像。大量实验表明,所提出的 SIB-ACS 方法在图像重建保真度和视觉效果方面显著优于现有的最先进方法。代码可在此 https URL 获取。

[250] 在使用CLIP之前不要轻易判断:一种用于感知任务的统一方法
标题: Don't Judge Before You CLIP: A Unified Approach for Perceptual Tasks
作者: Amit Zalcher / Navve Wasserman / Roman Beliy / Oliver Heinimann / Michal Irani
原文:   [英文]   [中文]  
备注: None
摘要:
视觉感知任务旨在预测人类对图像的判断(例如,图像引发的情感、图像质量评估)。与物体/场景识别等客观任务不同,感知任务依赖于主观的人类评估,这使得数据标注变得困难。这类人工标注数据的稀缺导致数据集较小,从而导致泛化能力较差。通常,为每个感知任务设计专门的模型,以适应其独特的特性和自身的训练数据集。我们提出了一种统一的架构框架,用于利用CLIP作为先验来解决多种不同的感知任务。我们的方法基于最近的认知研究发现,这些研究表明CLIP与人类判断高度相关。虽然CLIP是专门训练来对齐图像和文本的,但它也隐含地学习了人类的倾向性。我们将此归因于CLIP的训练数据中包含了人类撰写的图像标题,这些标题不仅包含事实性的图像描述,还不可避免地包含了人类的情感和情绪。这使得CLIP成为感知任务的一个特别强大的先验。因此,我们建议对CLIP进行最小的适应即可解决各种感知任务。我们简单的统一框架采用轻量级的适应来微调CLIP以适应每个任务,而无需进行任何特定于任务的架构更改。我们在三个任务上评估了我们的方法:(i)图像记忆性预测,(ii)无参考图像质量评估,以及(iii)视觉情感分析。我们的模型在所有三个任务上都达到了最先进的结果,同时在不同数据集上展示了改进的泛化能力。

[251] FlexWorld:逐步扩展3D场景以实现灵活视图合成
标题: FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis
作者: Luxi Chen / Zihan Zhou / Min Zhao / Yikai Wang / Ge Zhang / Wenhao Huang / Hao Sun / Ji-Rong Wen / Chongxuan Li
原文:   [英文]   [中文]  
备注: None
摘要:
从单张图像生成具有灵活视角的3D场景(包括360°旋转和缩放)是一个具有挑战性的任务,因为缺乏3D数据。为此,我们引入了FlexWorld,这是一种新颖的框架,由两个关键组件组成:(1)一个强大的视频到视频(V2V)扩散模型,用于从粗略场景渲染的不完整输入中生成高质量的新视角图像;(2)一个渐进扩展过程,用于构建完整的3D场景。特别是,通过利用先进的预训练视频模型和精确的深度估计训练对,我们的V2V模型可以在大范围相机姿态变化下生成新视角。在此基础上,FlexWorld通过几何感知的场景融合逐步生成新的3D内容并将其整合到全局场景中。大量实验表明,FlexWorld在从单张图像生成高质量新视角视频和灵活视角3D场景方面的有效性,与现有的最先进方法相比,在多个流行指标和数据集下实现了卓越的视觉质量。从定性上看,我们强调FlexWorld可以生成具有灵活视角的高保真场景,如360°旋转和缩放。项目页面:this https URL。

[252] 生成高斯点化:利用视频扩散先验生成三维场景
标题: Generative Gaussian Splatting: Generating 3D Scenes with Video Diffusion Priors
作者: Katja Schwarz / Norman Mueller / Peter Kontschieder
原文:   [英文]   [中文]  
备注: None
摘要:
合成一致且逼真的3D场景是计算机视觉领域的一个开放问题。视频扩散模型能够生成令人印象深刻的视频,但无法直接合成3D表示,即在生成的序列中缺乏3D一致性。此外,由于缺乏大规模的3D训练数据,直接训练生成3D模型具有挑战性。在这项工作中,我们提出了生成高斯喷溅(GGS)——一种将3D表示与预训练的潜在视频扩散模型相结合的新方法。具体来说,我们的模型通过3D高斯原语参数化合成特征场。然后将特征场渲染为特征图并解码为多视图图像,或者直接上采样为3D辐射场。我们在两个常用的场景合成基准数据集RealEstate10K和ScanNet+上评估了我们的方法,发现我们提出的GGS模型显著提高了生成的多视图图像的3D一致性,以及生成的3D场景的质量,相较于所有相关基线。与没有3D表示的类似模型相比,GGS在生成的3D场景上将RealEstate10K和ScanNet+的FID提高了约20%。项目页面:this https URL

[253] 基于文本和少量运动帧的渐进式人类运动生成
标题: Progressive Human Motion Generation Based on Text and Few Motion Frames
作者: Ling-An Zeng / Gaojie Wu / Ancong Wu / Jian-Fang Hu / Wei-Shi Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
尽管现有的文本到动作(T2M)方法可以根据文本描述生成逼真的人体动作,但由于仅使用文本不足以精确描述多样化的姿势,因此很难使生成的动作与期望的姿势对齐。为了实现更可控的生成,一种直观的方法是允许用户输入几个动作帧来描述精确的期望姿势。因此,我们探索了一项新的文本-帧到动作(TF2M)生成任务,旨在从文本和少量给定帧生成动作。直观地说,帧越接近给定帧,当以该给定帧为条件时,该帧的不确定性就越低。因此,我们提出了一种新颖的渐进式动作生成(PMG)方法,以在多个阶段中逐步从不确定性低的帧生成到不确定性高的帧。在每个阶段中,新的帧由一个文本-帧引导生成器生成,该生成器以文本的帧感知语义、给定帧以及前一阶段生成的帧为条件。此外,为了缓解测试期间由于多阶段累积错误生成帧而导致的训练-测试差距,我们提出了一种伪帧替换策略进行训练。实验结果表明,我们的PMG在仅有一个给定帧的情况下,表现远超现有的T2M生成方法,验证了PMG的有效性。代码将会发布。

[254] UniHOPE:一种用于仅手部和手部-物体姿态估计的统一方法
标题: UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation
作者: Yinqiao Wang / Hao Xu / Pheng-Ann Heng / Chi-Wing Fu
原文:   [英文]  
备注: 8 pages, 6 figures, 7 tables
摘要:
从单目图像中估计手的3D姿态以及可能的手持物体一直是一个长期存在的挑战。然而,现有的方法往往是专门化的,专注于裸手或手与物体的交互。没有一种方法可以灵活地处理这两种情况,并且在应用于另一种情况时,其性能会下降。在本文中,我们提出了UniHOPE,一种用于通用3D手-物体姿态估计的统一方法,能够灵活地适应这两种情况。从技术上讲,我们设计了一个抓握感知特征融合模块,以集成手-物体特征,并通过一个物体切换器根据抓握状态动态控制手-物体姿态估计。此外,为了提高手姿态估计的鲁棒性,无论物体是否存在,我们生成了逼真的去遮挡图像对,以训练模型学习由物体引起的手部遮挡,并制定了多级特征增强技术,以学习遮挡不变特征。在三个常用基准上的大量实验表明,UniHOPE在解决仅手和手-物体场景方面表现出色。代码将在此https URL上发布。

[255] 魔法蒸馏:用于大规模肖像少步合成的弱到强视频蒸馏
标题: MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis
作者: Shitong Shao / Hongwei Yi / Hanzhong Guo / Tian Ye / Daquan Zhou / Michael Lingelbach / Zhiqiang Xu / Zeke Xie
原文:   [英文]   [中文]  
备注: None
摘要:
对开源的大规模视频扩散模型(VDMs)进行微调以用于肖像视频合成任务,可以在多个维度上显著提升效果,例如视觉质量和自然的面部运动动态。尽管取得了这些进展,如何实现步骤蒸馏并减少大规模VDMs的巨大计算开销仍未被探索。为填补这一空白,本文提出了弱到强视频蒸馏(W2SVD)方法,以缓解在训练过程中观察到的内存不足和原始DMD训练崩溃的问题。具体来说,我们首先利用LoRA微调假扩散变换器(DiT)以解决内存不足的问题。然后,我们采用W2S分布匹配来调整真实DiT的参数,微妙地将其向假DiT的参数靠拢。通过利用低秩分支的弱权重来实现这一调整,有效缓解了由少步生成器合成的视频偏离真实数据分布,从而导致KL散度近似不准确的难题。此外,我们最小化假数据分布与真实分布之间的距离,以进一步提升合成视频的视觉质量。实验结果表明,在HunyuanVideo上,W2SVD在FID/FVD和VBench的1/4步视频合成中超越了标准的Euler、LCM、DMD,甚至28步的标准采样。项目页面在这个HTTPS URL中。

[256] 编辑迁移:通过视觉上下文关系学习图像编辑
标题: Edit Transfer: Learning Image Editing via Vision In-Context Relations
作者: Lan Chen / Qi Mao / Yuchao Gu / Mike Zheng Shou
原文:   [英文]   [中文]  
备注: None
摘要:
我们引入了一种新的设置,称为编辑迁移,其中模型从单一的源-目标示例中学习转换,并将其应用于新的查询图像。虽然基于文本的方法在通过文本提示进行语义操作方面表现出色,但它们通常在精确的几何细节(例如,姿势和视角变化)上表现不佳。基于参考的编辑则通常专注于风格或外观,并且在非刚性变换上表现不佳。通过从源-目标对中明确学习编辑转换,编辑迁移缓解了仅限文本和以外观为中心的参考的局限性。受大型语言模型中的上下文学习启发,我们提出了一种视觉关系上下文学习范式,基于DiT的文本到图像模型。我们将编辑后的示例和查询图像排列成一个统一的四面板组合,然后应用轻量级的LoRA微调,以从最小的示例中捕捉复杂的空间变换。尽管仅使用了42个训练样本,编辑迁移在多样的非刚性场景中显著优于最先进的TIE和RIE方法,展示了少样本视觉关系学习的有效性。

[257] STEP:动物和人类的同时跟踪与姿态估计
标题: STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans
作者: Shashikant Verma / Harish Katti / Soumyaratna Debnath / Yamuna Swamy / Shanmuganathan Raman
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了STEP,这是一种新颖的框架,利用基于Transformer的判别模型预测来同时跟踪和估计不同动物种类和人类的姿态。我们的灵感来自于人类大脑利用时空连续性并同时进行定位和姿态估计,尽管大脑区域在形态和运动处理方面具有专业化。传统的判别模型通常需要预定义的目标状态来确定模型权重,我们通过高斯图软预测(GMSP)和偏移图回归适配器(OMRA)模块解决了这一挑战。这些模块消除了作为输入的关键点目标状态的必要性,简化了流程。我们的方法从已知的目标状态开始,该状态通过预训练检测器或在给定视频序列的初始帧中手动初始化。然后,它无缝地跟踪目标并估计后续帧中解剖学重要的关键点作为输出。与流行的自上而下的姿态估计方法不同,我们的方法由于其跟踪能力不依赖于每帧的目标检测。这促进了推理效率的显著提升和潜在应用。我们在涵盖不同物种的数据集上训练和验证了我们的方法。我们的实验显示出比现有方法更优越的结果,为包括动作识别和行为分析在内的各种应用打开了大门。

[258] TriDF:用于少样本遥感新视图合成的三平面加速密度场
标题: TriDF: Triplane-Accelerated Density Fields for Few-Shot Remote Sensing Novel View Synthesis
作者: Jiaming Kang / Keyan Chen / Zhengxia Zou / Zhenwei Shi
原文:   [英文]   [中文]  
备注: None
摘要:
遥感新视图合成(NVS)在遥感场景的三维解释中具有重要潜力,广泛应用于城市规划和环境监测。然而,由于获取限制,遥感场景通常缺乏足够的多视图图像。现有的NVS方法在处理有限输入视图时往往容易过拟合,而先进的少样本NVS方法计算量大,在遥感场景中表现不佳。本文提出了TriDF,这是一种高效的混合三维表示方法,可以从仅3个输入视图中快速进行遥感NVS。我们的方法将颜色和体积密度信息解耦,独立建模,以减少对隐式辐射场的计算负担并加速重建。我们通过将高频颜色信息映射到这种紧凑结构上,探索了三平面表示在少样本NVS任务中的潜力,并且特征平面的直接优化显著加快了收敛速度。体积密度被建模为连续的密度场,通过基于图像的渲染结合来自邻近视图的参考特征,以弥补输入数据的不足。此外,我们引入了基于点云的深度引导优化,有效缓解了少样本NVS中的过拟合问题。跨多个遥感场景的综合实验表明,我们的混合表示方法在渲染质量指标上比先进的少样本方法有显著提升(PSNR提高7.4%,SSIM提高12.2%,LPIPS提高18.7%),同时相比于基于NeRF的方法实现了30倍的速度提升。代码可在此https URL公开获取。

[259] 通过展开实现无参数的结构-纹理图像分解
标题: Parameter-free structure-texture image decomposition by unrolling
作者: Laura Girometti / Jean-François Aujol / Antoine Guennec / Yann Traonmilin
原文:   [英文]   [中文]  
备注: To be published in Conference Proceedings: Scale Space and Variational Method in Computer Vision, 2025
摘要:
在这项工作中,我们提出了一种无参数且高效的方法来解决结构-纹理图像分解问题。具体来说,我们提出了一种基于低块秩模型展开的神经网络LPR-NET。一方面,这使我们能够从数据中自动学习参数,另一方面,与传统的基于迭代模型的方法相比,该方法在计算上更快,同时获得质量上相似的结果。此外,尽管在合成图像上进行训练,数值实验表明我们的网络在应用于自然图像时具有良好的泛化能力。

[260] 通过蒸馏进行图像超分辨率的一步残差移位扩散
标题: One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation
作者: Daniil Selikhanovych / David Li / Aleksei Leonov / Nikita Gushchin / Sergei Kushneriuk / Alexander Filippov / Evgeny Burnaev / Iaroslav Koshelev / Alexander Korotin
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型用于超分辨率(SR)能够产生高质量的视觉效果,但需要昂贵的计算成本。尽管已经开发了几种加速基于扩散的SR模型的方法,但有些(例如SinSR)未能产生逼真的感知细节,而其他一些(例如OSEDiff)可能会幻觉出不存在的结构。为了解决这些问题,我们提出了RSD,一种针对ResShift的新蒸馏方法,ResShift是顶级的基于扩散的SR模型之一。我们的方法基于训练学生网络生成这样的图像,使得在这些图像上训练的新假ResShift模型将与教师模型一致。RSD实现了单步恢复,并在很大程度上超越了教师模型。我们展示了我们的蒸馏方法可以超越其他基于蒸馏的ResShift方法——SinSR——使其与最先进的基于扩散的SR蒸馏方法相媲美。与基于预训练文本到图像模型的SR方法相比,RSD产生具有竞争力的感知质量,提供与退化输入图像更好对齐的图像,并且需要更少的参数和GPU内存。我们提供了在各种真实世界和合成数据集上的实验结果,包括RealSR、RealSet65、DRealSR、ImageNet和DIV2K。

[261] 通过伴随视觉调节缓解视觉遗忘以进行多模态长链推理
标题: Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning
作者: Hai-Long Sun / Zhun Sun / Houwen Peng / Han-Jia Ye
原文:   [英文]   [中文]  
备注: The project page is available at this https URL
摘要:
最近在大型语言模型(LLMs)方面的进展展示了增强的推理能力,从链式思维(CoT)提示发展到像OpenAI o1这样的先进、面向产品的解决方案。在我们重新实现该模型的过程中,我们注意到在需要视觉输入的多模态任务(例如几何问题)中,多模态LLMs(MLLMs)难以保持对视觉信息的关注,换句话说,随着推理的进行,MLLMs对视觉信息的注意力逐渐下降,导致过度依赖文本的输出。为调查这一现象,我们在长链推理过程中去除图像输入。具体来说,我们在推理过程中途截断,然后在去除输入图像的情况下重新完成推理过程。我们观察到在MathVista的测试难度子集上准确率仅下降约2%,这揭示了模型的文本输出在随后的推理过程中占主导地位。受此启发,我们提出了伴随视觉调节(TVC),这是一种将图像输入转移到关键推理阶段并通过动态剪枝压缩冗余视觉标记的策略。该方法帮助模型在整个推理过程中保持对视觉组件的注意力。我们的方法在五个数学推理基准上平均实现了最先进的性能(比之前的最先进方法提高了3.4%),证明了TVC在增强多模态推理系统方面的有效性。

[262] TimeZero:使用推理引导的大型视觉语言模型进行时间视频定位
标题: TimeZero: Temporal Video Grounding with Reasoning-Guided LVLM
作者: Ye Wang / Boshen Xu / Zihao Yue / Zihan Xiao / Ziheng Wang / Liang Zhang / Dingyi Yang / Wenxuan Wang / Qin Jin
原文:   [英文]   [中文]  
备注: Code: this https URL
摘要:
我们介绍了TimeZero,这是一种为时间视频定位(TVG)任务设计的推理引导型大规模视觉语言模型(LVLM)。该任务要求根据给定的语言查询在长视频中精确定位相关的视频片段。TimeZero通过扩展推理过程来应对这一挑战,使模型能够仅通过强化学习来推理视频与语言之间的关系。为了评估TimeZero的有效性,我们在两个基准上进行了实验,其中TimeZero在Charades-STA上达到了最新的性能。代码可在此HTTPS URL获取。

[263] 精华之选:收集丰富、可扩展且可迁移的多模态数据用于指令微调
标题: Cream of the Crop: Harvesting Rich, Scalable and Transferable Multi-Modal Data for Instruction Fine-Tuning
作者: Mengyao Lyu / Yan Li / Huasong Zhong / Wenhao Yang / Hui Chen / Jungong Han / Guiguang Ding / Zhenheng Yang
原文:   [英文]   [中文]  
备注: update comparison with sota and analysis
摘要:
最近的数据整理和选择研究证实了这样一个假设:预训练的大型语言模型(LLMs)在微调(SFT)阶段只需要最少的监督(Zhou et al., 2024)。然而,由于对实验设置和验证协议的脆弱性,它们的稳定性和泛化能力受到影响,未能超越随机采样(Diddee & Ippolito, 2024; Xia et al., 2024b)。基于LLMs的多模态大型语言模型(MLLMs),结合大量的标记量和数据源的高度异质性,增加了数据选择的重要性和复杂性。 为了以稳健和高效的方式获取多模态指令数据,我们通过将质量指标分解为14种视觉-语言相关能力来重新定义其粒度,并引入多模态丰富评分器来评估每个数据候选的能力。为了促进多样性,考虑到对齐阶段的内在目标,我们将交互风格作为多样性指标,并使用多模态丰富风格器来识别数据指令模式。通过这样做,我们的多模态丰富评分器和风格器(mmSSR)确保高分信息以多样化的形式传达给用户。mmSSR无需基于嵌入的聚类或贪婪采样,能够在不同预算限制下高效扩展到数百万数据,支持一般或特定能力获取的定制,并促进无训练的泛化到新领域进行整理。在10多个实验设置中,通过14个多模态基准验证,我们展示了相对于随机采样、基线策略和最先进选择方法的一致改进,仅使用260万数据的30%就实现了99.1%的完整性能。

[264] 大规模数据集的高效训练
标题: Scale Efficient Training for Large Datasets
作者: Qing Zhou / Junyu Gao / Qi Wang
原文:   [英文]  
备注: Accepted by CVPR2025
摘要:
数据集规模的快速增长一直是推动深度学习研究进步的关键因素。然而,随着数据集规模的增加,由于存在低价值样本(包括过多的冗余样本、过于困难的样本以及对模型贡献甚微的低效简单样本),训练过程变得越来越低效。为了解决这一挑战,我们提出了针对大规模数据集的规模高效训练(SeTa)方法,这是一种动态样本剪枝方法,可以无损地减少训练时间。为了去除低价值样本,SeTa首先进行随机剪枝以消除冗余样本,然后根据样本的学习难度(通过损失来衡量)对剩余样本进行聚类。在此聚类的基础上,采用滑动窗口策略,按照从易到难的顺序逐步去除过于困难和低效简单的聚类。我们在大规模合成数据集上进行了广泛的实验,包括ToCa、SS1M和ST+MJ,每个数据集包含超过300万个样本。SeTa在保持或提高性能的同时,将训练成本降低了最多50%,即使在成本降低70%的情况下,性能也仅有轻微下降。此外,在各种规模的真实数据集上进行的实验,涵盖了不同的骨干网络(CNNs、Transformers和Mambas)和多样的任务(指令微调、多视角立体、地理定位、组合图像检索、指代图像分割),展示了我们方法的强大效果和普遍适用性。代码可在此网址获取。

[265] MicroVQA:用于显微镜科学研究的多模态推理基准
标题: MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research
作者: James Burgess / Jeffrey J Nirschl / Laura Bravo-Sánchez / Alejandro Lozano / Sanket Rajan Gupte / Jesus G. Galaz-Montoya / Yuhui Zhang / Yuchang Su / Disha Bhowmik / Zachary Coman / Sarina M. Hasan / Alexandra Johannesson / William D. Leineweber / Malvika G Nair / Ridhi Yarlagadda / Connor Zuraski / Wah Chiu / Sarah Cohen / Jan N. Hansen / Manuel D Leonetti / Chad Liu / Emma Lundberg / Serena Yeung-Levy
原文:   [英文]   [中文]  
备注: CVPR 2025 (Conference on Computer Vision and Pattern Recognition) Project page at this https URL Benchmark at this https URL
摘要:
科学研究需要对多模态数据进行复杂的推理,这在生物学领域尤为常见。尽管在AI辅助研究方面,多模态大语言模型(MLLMs)取得了最新进展,但现有的多模态推理基准测试仅针对大学水平的难度,而研究级基准测试则强调较低级别的感知,未能达到科学发现所需的复杂多模态推理。为弥补这一差距,我们引入了MicroVQA,这是一种视觉问答(VQA)基准,旨在评估研究工作流程中至关重要的三种推理能力:专家图像理解、假设生成和实验提案。MicroVQA由生物学专家在多种显微镜模式下策划的1,042道多项选择题(MCQs)组成,确保VQA样本代表真实的科学实践。在构建基准时,我们发现标准的MCQ生成方法会引入语言捷径,这促使我们设计了一个新的两阶段流程:一个优化的LLM提示将问答对结构化为MCQs;然后,一个基于代理的“RefineBot”更新它们以消除捷径。在最先进的MLLMs上进行基准测试显示,最高性能为53%;使用较小LLM的模型仅略逊于顶级模型,这表明基于语言的推理比多模态推理更不具挑战性;并且通过科学文章进行微调可以提高性能。对思维链响应的专家分析表明,感知错误最为频繁,其次是知识错误,然后是过度概括错误。这些见解突显了多模态科学推理的挑战,表明MicroVQA是推进AI驱动生物医学研究的宝贵资源。MicroVQA可在此https URL获取,项目页面在此https URL。

[266] 无限移动:通过程序生成实现可扩展的高保真合成关节物体
标题: Infinite Mobility: Scalable High-Fidelity Synthesis of Articulated Objects via Procedural Generation
作者: Xinyu Lian / Zichao Yu / Ruiming Liang / Yitong Wang / Li Ray Luo / Kaixu Chen / Yuanzhen Zhou / Qihong Tang / Xudong Xu / Zhaoyang Lyu / Bo Dai / Jiangmiao Pang
原文:   [英文]   [中文]  
备注: Project page: this https URL 10 pages,12 figures
摘要:
高质量的大规模关节物体在与具身人工智能相关的多项任务中迫切需要。现有的大多数创建关节物体的方法要么是数据驱动的,要么是基于模拟的,这些方法受到训练数据的规模和质量或模拟的逼真度和繁重劳动的限制。在本文中,我们提出了无限移动(Infinite Mobility),这是一种通过程序生成合成高保真关节物体的新方法。用户研究和定量评估表明,我们的方法能够产生优于当前最先进方法的结果,并且在物理属性和网格质量方面可与人工标注的数据集相媲美。此外,我们展示了我们的合成数据可以用作生成模型的训练数据,从而实现下一步的规模扩展。代码可在此https URL获取。

[267] 逃离柏拉图的洞穴:通过可解释的三维神经对象体积实现稳健的概念推理
标题: Escaping Plato's Cave: Robust Conceptual Reasoning through Interpretable 3D Neural Object Volumes
作者: Nhi Pham / Bernt Schiele / Adam Kortylewski / Jonas Fischer
原文:   [英文]  
备注: None
摘要:
随着神经网络的兴起,尤其是在高风险应用中,这些网络需要具备两个特性:(i) 鲁棒性和 (ii) 可解释性,以确保其安全性。最近在具有三维体积对象表示的分类器方面的进展显示了在分布外数据中显著增强的鲁棒性。然而,这些三维感知分类器尚未从可解释性的角度进行研究。我们引入了 CAVE - 概念感知体积用于解释 - 这一新方向,将图像分类中的可解释性和鲁棒性统一起来。我们通过从其体积表示中提取概念用于分类,扩展现有的三维感知分类器,设计了一种本质上可解释且鲁棒的分类器。在一系列可解释性的定量指标中,我们与可解释人工智能文献中的不同基于概念的方法进行比较,显示出 CAVE 发现了在图像中一致使用的有良好基础的概念,同时实现了卓越的鲁棒性。

[268] AugMapNet:通过鸟瞰图网格增强改进空间潜在结构以增强矢量化在线高清地图构建
标题: AugMapNet: Improving Spatial Latent Structure via BEV Grid Augmentation for Enhanced Vectorized Online HD Map Construction
作者: Thomas Monninger / Md Zafar Anwar / Stanislaw Antol / Steffen Staab / Sihao Ding
原文:   [英文]   [中文]  
备注: None
摘要:
自动驾驶需要理解基础设施元素,例如车道和人行横道。为了安全导航,这种理解必须从传感器数据中实时获取,并需要以矢量化形式表示。学习型鸟瞰视图(BEV)编码器通常用于将来自多个视角的一组相机图像合并为一个联合的潜在BEV网格。传统上,从这个潜在空间中预测一个中间栅格地图,提供密集的空间监督,但需要后处理成所需的矢量化形式。较新的模型直接使用矢量化地图解码器将基础设施元素提取为折线,提供实例级信息。我们的方法,增强地图网络(AugMapNet),提出了潜在BEV网格增强,这是一种显著增强潜在BEV表示的新技术。AugMapNet比现有架构更有效地结合了矢量解码和密集空间监督,同时保持与辅助监督一样简单的集成和通用性。在nuScenes和Argoverse2数据集上的实验表明,在60米范围内,矢量化地图预测性能相较于StreamMapNet基线有高达13.3%的显著提升,并在更大范围内有更大的改进。我们通过将我们的方法应用于另一个基线来确认其可转移性,并发现类似的改进。对潜在BEV网格的详细分析证实了AugMapNet的潜在空间更具结构性,并显示了我们新概念的价值超越了纯性能提升。代码将很快发布。

[269] 用于阈值鲁棒RANSAC的较少偏差噪声尺度估计
标题: Less Biased Noise Scale Estimation for Threshold-Robust RANSAC
作者: Johan Edstedt
原文:   [英文]   [中文]  
备注: None
摘要:
通过图像匹配稳健估计相对姿态的黄金标准是RANSAC。虽然RANSAC功能强大,但它需要设置内点阈值,该阈值决定了在估计模型下,一个对应点的误差是否足够小以被包含在其共识集中。设置这个阈值通常是手动完成的,并且在没有访问真实数据的情况下很难调整。因此,能够自动确定最佳阈值的方法是理想的。在本文中,我们重新审视了内点噪声尺度估计,这是一种有吸引力的方法,因为内点噪声尺度与最佳阈值呈线性关系。我们重新审视了噪声尺度估计方法SIMFIT,发现了噪声尺度估计中的偏差。特别是,我们修正了由于使用相同数据来拟合模型和估计内点噪声而导致的低估,以及没有考虑阈值本身的影响。其次,由于场景内的最佳阈值大致是恒定的,我们提出了SIMFIT++的多对扩展,通过过滤估计值来改进结果。我们的方法在一系列阈值上表现出稳健的性能,如图1所示。

[270] BlobCtrl:一个统一且灵活的元素级图像生成与编辑框架
标题: BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing
作者: Yaowei Li / Lingen Li / Zhaoyang Zhang / Xiaoyu Li / Guangzhi Wang / Hongxiang Li / Xiaodong Cun / Ying Shan / Yuexian Zou
原文:   [英文]   [中文]  
备注: Project Webpage: this https URL
摘要:
元素级视觉操作在数字内容创作中至关重要,但当前基于扩散的方法缺乏传统工具的精确性和灵活性。在这项工作中,我们介绍了BlobCtrl,一个使用概率性基于斑点的表示来统一元素级生成和编辑的框架。通过将斑点作为视觉原语,我们的方法有效地解耦并表示空间位置、语义内容和身份信息,从而实现精确的元素级操作。我们的主要贡献包括:1)具有分层特征融合的双分支扩散架构,实现前景和背景的无缝集成;2)具有定制数据增强和评分函数的自监督训练范式;以及3)可控的dropout策略,以平衡保真度和多样性。为了支持进一步的研究,我们引入了BlobData用于大规模训练和BlobBench用于系统评估。实验表明,BlobCtrl在各种元素级操作任务中表现出色,同时保持计算效率,为精确和灵活的视觉内容创作提供了实用的解决方案。项目页面:this https URL

[271] WideRange4D:实现具有大范围运动和场景的高质量4D重建
标题: WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes
作者: Ling Yang / Kaixin Zhu / Juanxi Tian / Bohan Zeng / Mingbao Lin / Hongjuan Pei / Wentao Zhang / Shuicheng Yan
原文:   [英文]   [中文]  
备注: Project: this https URL
摘要:
随着3D重建技术的快速发展,4D重建的研究也在不断推进,现有的4D重建方法可以生成高质量的4D场景。然而,由于获取多视角视频数据的挑战,目前的4D重建基准主要展示在有限场景中进行的原地动作,如舞蹈。在实际场景中,许多场景涉及大范围的空间运动,这突显了现有4D重建数据集的局限性。此外,现有的4D重建方法依赖于变形场来估计3D物体的动态,但变形场在处理大范围空间运动时表现不佳,这限制了在大范围空间运动下实现高质量4D场景重建的能力。在本文中,我们专注于具有显著物体空间运动的4D场景重建,并提出了一种新颖的4D重建基准,WideRange4D。该基准包含丰富的具有大空间变化的4D场景数据,允许对4D生成方法的生成能力进行更全面的评估。此外,我们引入了一种新的4D重建方法,Progress4D,它在各种复杂的4D场景重建任务中生成稳定且高质量的4D结果。我们在WideRange4D上进行了定量和定性比较实验,结果表明我们的Progress4D优于现有的最先进的4D重建方法。项目网址:this https URL

[272] 使用连续标记的统一自回归视觉生成与理解
标题: Unified Autoregressive Visual Generation and Understanding with Continuous Tokens
作者: Lijie Fan / Luming Tang / Siyang Qin / Tianhong Li / Xuan Yang / Siyuan Qiao / Andreas Steiner / Chen Sun / Yuanzhen Li / Tao Zhu / Michael Rubinstein / Michalis Raptis / Deqing Sun / Radu Soricut
原文:   [英文]   [中文]  
备注: Tech report
摘要:
我们介绍了UniFluid,这是一种利用连续视觉标记进行联合视觉生成和理解的统一自回归框架。我们的统一自回归架构处理多模态图像和文本输入,为文本生成离散标记,为图像生成连续标记。我们发现,尽管图像生成和理解任务之间存在固有的权衡,但精心调整的训练方案可以使它们相互提升。通过选择适当的损失平衡权重,统一模型在两个任务上取得了与单任务基线相当或更好的结果。此外,我们证明了在训练过程中使用更强大的预训练语言模型和随机顺序生成对于在该统一框架内实现高保真图像生成是重要的。基于Gemma模型系列,UniFluid在图像生成和理解方面表现出竞争力,展示了强大的迁移能力,适用于各种下游任务,包括用于生成的图像编辑,以及用于理解的视觉字幕和问答。

[273] 无模态3R:从遮挡的2D图像进行无模态3D重建
标题: Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images
作者: Tianhao Wu / Chuanxia Zheng / Frank Guan / Andrea Vedaldi / Tat-Jen Cham
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
大多数基于图像的三维对象重建方法假设对象是完全可见的,忽略了在现实场景中常见的遮挡现象。在本文中,我们介绍了Amodal3R,这是一种条件三维生成模型,旨在从部分观察中重建三维对象。我们从一个“基础”三维生成模型开始,并扩展它以从被遮挡的对象中恢复合理的三维几何形状和外观。我们引入了一种掩码加权的多头交叉注意机制,随后是一个遮挡感知注意层,该层明确利用遮挡先验来指导重建过程。我们证明,通过仅在合成数据上进行训练,Amodal3R能够在真实场景中存在遮挡的情况下恢复完整的三维对象。它显著优于现有的方法,这些方法独立地执行二维非模态完成,然后进行三维重建,从而为遮挡感知的三维重建建立了新的基准。

[274] MaTVLM:用于高效视觉语言建模的混合曼巴-Transformer
标题: MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling
作者: Yingyue Li / Bencheng Liao / Wenyu Liu / Xinggang Wang
原文:   [英文]   [中文]  
备注: Code and model are available at this http URL
摘要:
随着具有线性复杂度的RNN模型的进步,transformer的二次复杂度挑战有可能被克服。值得注意的是,新兴的Mamba-2展示了具有竞争力的性能,弥合了RNN模型和transformer之间的差距。然而,由于顺序处理和梯度消失,RNN模型难以捕捉长距离依赖性,限制了上下文理解。这导致了收敛速度慢、高资源需求以及在下游理解和复杂推理任务上的表现不佳。在这项工作中,我们通过用Mamba-2层替换预训练VLM中的一部分transformer解码器层,提出了一种混合模型MaTVLM。利用注意力和Mamba-2之间的内在关系,我们用相应的注意力权重初始化Mamba-2,以加速收敛。随后,我们采用单阶段蒸馏过程,使用预训练的VLM作为教师模型,将知识转移到MaTVLM,进一步提高收敛速度和性能。此外,我们研究了差异蒸馏损失在我们训练框架中的影响。我们在多个基准上评估了MaTVLM,展示了与教师模型和现有VLMs的竞争性能,同时超越了基于Mamba的VLMs和具有可比参数规模的模型。值得注意的是,MaTVLM在不影响性能的情况下,实现了比教师模型快达3.6倍的推理速度,同时减少了27.5%的GPU内存消耗。代码和模型已在此http URL发布。

[275] DPC:用于调整视觉-语言模型的双提示协作
标题: DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models
作者: Haoyang Li / Liang Wang / Chao Wang / Jing Jiang / Yan Peng / Guodong Long
原文:   [英文]   [中文]  
备注: Accepted by the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025 (CVPR 2025)
摘要:
在基于CLIP的提示调优优化过程中,基础-新类权衡(BNT)问题普遍存在,其中对基础(目标)类的连续微调会导致对新(未见过)类的泛化能力同时下降。现有方法尝试通过附加约束来调节提示调优过程以平衡BNT。然而,这些约束施加在同一目标提示上,未能完全避免基础和新类优化方向之间的互斥性。作为对此挑战的新颖解决方案,我们提出了即插即用的双提示协作(DPC)框架,这是第一个在提示层面上解耦基础和新任务优化过程的框架。具体而言,我们基于主干提示克隆一个可学习的并行提示,并引入一个可变的加权解耦框架,以独立控制双提示在基础或新任务上的优化方向,从而避免泛化冲突。同时,我们提出了一种动态硬负优化器,利用双提示在基础类上构建更具挑战性的优化任务以增强性能。为了提高可解释性,我们证明了在优化过程中提示向量的特征通道不变性,为DPC的加权解耦提供了理论支持。在多个主干上的广泛实验表明,DPC可以显著提高基础类的性能,而无需引入任何超出基础类的外部知识,同时保持对新类的泛化能力。代码可在此URL获取:this https URL。

[276] VideoMind: 一种用于长视频推理的链式LoRA代理
标题: VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
作者: Ye Liu / Kevin Qinghong Lin / Chang Wen Chen / Mike Zheng Shou
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
视频由于其独特的时间维度,需要精确的基础理解,其中答案直接与可视的、可解释的证据相关联。尽管大型语言模型在推理能力方面取得了重大突破,但多模态推理——尤其是针对视频的推理——仍未被充分探索。在这项工作中,我们介绍了VideoMind,这是一种新颖的视频语言代理,旨在实现时间基础的视频理解。VideoMind包含两个关键创新:(i)我们识别出视频时间推理所需的基本能力,并开发了一种基于角色的代理工作流程,包括一个用于协调不同角色的计划者、一个用于时间定位的基础者、一个用于评估时间间隔准确性的验证者,以及一个用于问答的回答者。(ii)为了有效整合这些不同的角色,我们提出了一种新颖的Chain-of-LoRA策略,通过轻量级的LoRA适配器实现无缝的角色切换,同时避免了多个模型的开销,从而在效率和灵活性之间取得平衡。在14个公共基准上的广泛实验表明,我们的代理在多样的视频理解任务中实现了最先进的性能,包括3个基础视频问答、6个视频时间定位和5个一般视频问答,强调了其在推进视频代理和长篇时间推理方面的有效性。