scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年6月10日更新论文189
[1] 面部基础模型通过DigitalShadow从实时视频中推进冠状动脉疾病的早期预警
标题: Facial Foundational Model Advances Early Warning of Coronary Artery Disease from Live Videos with DigitalShadow
作者: Juexiao Zhou / Zhongyi Han / Mankun Xin / Xingwei He / Guotao Wang / Jiaoyan Song / Gongning Luo / Wenjia He / Xintong Li / Yuetan Chu / Juanwen Chen / Bo Wang / Xia Wu / Wenwen Duan / Zhixia Guo / Liyan Bai / Yilin Pan / Xuefei Bi / Lu Liu / Long Feng / Xiaonan He / Xin Gao
原文:   [英文]   [中文]  
备注: None
摘要:
全球人口老龄化对医疗系统提出了越来越多的挑战,其中冠状动脉疾病(CAD)每年导致约1780万人死亡,成为全球死亡的主要原因。由于CAD在很大程度上是可以预防的,因此早期检测和积极管理至关重要。在这项工作中,我们介绍了DigitalShadow,这是一种先进的CAD早期预警系统,由经过精细调整的面部基础模型提供支持。该系统在2100万张面部图像上进行了预训练,随后被精细调整为LiveCAD,这是一种专门的CAD风险评估模型,基于来自中国四家医院的1751名受试者的7004张面部图像进行训练。DigitalShadow以被动和非接触的方式运行,从实时视频流中提取面部特征,而无需用户主动参与。通过与个性化数据库集成,它生成自然语言风险报告和个性化健康建议。以隐私为核心设计原则,DigitalShadow支持本地部署,以确保用户数据的安全处理。

[2] 探索基于Transformer模型的对抗性水印:针对医学图像的可转移性和对抗防御机制的鲁棒性
标题: Exploring Adversarial Watermarking in Transformer-Based Models: Transferability and Robustness Against Defense Mechanism for Medical Images
作者: Rifat Sadik / Tanvir Rahman / Arpan Bhattacharjee / Bikash Chandra Halder / Ismail Hossain
原文:   [英文]   [中文]  
备注: None
摘要:
深度学习模型在皮肤病图像分析中表现出显著的成功,为自动化皮肤病诊断提供了潜力。此前,基于卷积神经网络(CNN)的架构在计算机视觉(CV)任务中取得了极大的普及和成功,如皮肤图像识别、生成和视频分析。但随着基于变换器的模型的出现,CV任务现在越来越多地使用这些模型。视觉变换器(ViTs)就是这样一种基于变换器的模型,它在计算机视觉中表现出成功。它使用自注意机制在各种任务中实现了最先进的性能。然而,它们对全局注意机制的依赖使其容易受到对抗性扰动的影响。本文旨在研究ViTs在医学图像中对抗性水印的易感性——一种通过添加所谓的不可察觉的扰动来欺骗模型的方法。通过使用投影梯度下降(PGD)生成对抗性水印,我们检查此类攻击向CNN的可转移性,并分析性能防御机制——对抗性训练。结果表明,虽然对干净图像的性能没有受到影响,但ViTs确实变得更加容易受到对抗性攻击:准确率下降至低至27.6%。然而,对抗性训练将其提高到90.0%。

[3] 轻量级健身Transformer (LiFT):用于远程监控体能训练的语言-视觉模型
标题: (LiFT) Lightweight Fitness Transformer: A language-vision model for Remote Monitoring of Physical Training
作者: A. Postlmayr / P. Cosman / S. Dey
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了一种健身追踪系统,该系统仅使用RGB智能手机摄像头即可实现远程监控,使健身追踪更加私密、可扩展且成本有效。尽管之前的研究探索了自动化的运动监督,但现有模型在运动种类上过于有限或在实际部署中过于复杂。之前的方法通常专注于少量运动,无法在多样化的动作中进行泛化。相比之下,我们开发了一种强大的多任务运动分析模型,能够在数百种运动中进行运动检测和重复计数,其规模远超以往的方法。我们通过组建一个大规模健身数据集Olympia,涵盖超过1,900种运动,克服了之前的数据限制。据我们所知,我们的视觉-语言模型是第一个能够在骨骼健身数据上执行多任务的模型。在Olympia数据集上,我们的模型仅使用RGB视频即可以76.5%的准确率检测运动,并以85.3%的准确率进行重复计数(误差为一个单位)。通过提供一个单一的视觉-语言转换器模型用于运动识别和重复计数,我们在普及AI驱动的健身追踪方面迈出了重要一步。

[4] GS4:可推广的稀疏散点语义SLAM
标题: GS4: Generalizable Sparse Splatting Semantic SLAM
作者: Mingqi Jiang / Chanho Kim / Chen Ziwen / Li Fuxin
原文:   [英文]   [中文]  
备注: 13 pages, 6 figures
摘要:
传统的SLAM算法在相机跟踪方面表现出色,但可能生成分辨率较低且不完整的3D地图。最近,高斯散点(GS)方法作为一种选择出现,用于构建精确、密集的3D地图的SLAM。然而,现有的基于GS的SLAM方法依赖于每个场景的优化,这既耗时又不能很好地推广到不同的场景。在这项工作中,我们介绍了第一个可推广的基于GS的语义SLAM算法,该算法使用学习到的可推广网络从RGB-D视频流中增量构建和更新3D场景表示。我们的方法从一个RGB-D图像识别骨干网络开始,以预测每个下采样和反投影图像位置的高斯参数。此外,我们将3D语义分割无缝集成到我们的GS框架中,通过共享的骨干网络连接3D映射和识别。为纠正定位漂移和浮动物,我们建议在全局定位后仅优化GS一次迭代。我们在真实世界基准ScanNet上展示了最先进的语义SLAM性能,与其他最近的基于GS的方法相比,使用的高斯数量减少了一个数量级,并通过零样本迁移展示了我们的模型在NYUv2和TUM RGB-D数据集上的泛化能力。

[5] 弥合音频与视觉:通过连接预训练模型实现零样本视听分割
标题: Bridging Audio and Vision: Zero-Shot Audiovisual Segmentation by Connecting Pretrained Models
作者: Seung-jae Lee / Paul Hongsuck Seo
原文:   [英文]   [中文]  
备注: Accepted on INTERSPEECH2025
摘要:
视听分割(AVS)旨在识别与声源对应的视觉区域,在视频理解、监控和人机交互中发挥着重要作用。传统的AVS方法依赖于大规模的像素级标注,这些标注的获取既昂贵又耗时。为了解决这个问题,我们提出了一种新颖的零样本AVS框架,通过利用多个预训练模型来消除特定任务的训练。我们的方法整合了音频、视觉和文本表示,以弥合模态间的差距,从而在没有AVS特定标注的情况下实现精确的声源分割。我们系统地探索了连接预训练模型的不同策略,并在多个数据集上评估了它们的有效性。实验结果表明,我们的框架在零样本AVS性能上达到了最新水平,突显了多模态模型集成在细粒度视听分割中的有效性。

[6] 保障自动驾驶车辆中的交通标志识别系统
标题: Securing Traffic Sign Recognition Systems in Autonomous Vehicles
作者: Thushari Hapuarachchi / Long Dang / Kaiqi Xiong
原文:   [英文]   [中文]  
备注: None
摘要:
深度神经网络(DNNs)因其能够自动从图像中提取高级特征而被广泛用于交通标志识别。这些深度神经网络是在从未知来源获取的大规模数据集上进行训练的。因此,确保模型在训练过程中保持安全且不被破坏或中毒是很重要的。在本文中,我们研究了用于交通标志识别的深度神经网络的鲁棒性。首先,我们通过在训练数据上添加不可察觉的扰动来对用于交通标志识别的深度神经网络进行错误最小化攻击。然后,我们提出了一种基于数据增强的训练方法来缓解错误最小化攻击。所提出的训练方法利用非线性变换来破坏扰动并提高模型的鲁棒性。我们使用两个著名的交通标志数据集进行实验,以展示攻击的严重性和我们缓解方案的有效性。错误最小化攻击将深度神经网络的预测准确率从99.90%降低到10.6%。然而,我们的缓解方案成功地将预测准确率恢复到96.05%。此外,我们的方法在缓解错误最小化攻击方面优于对抗训练。此外,我们提出了一种检测模型,即使在扰动对人类检查不可察觉的情况下也能识别中毒数据。我们的检测模型在识别攻击方面的成功率超过99%。这项研究强调了在交通标志识别系统中采用先进训练方法以缓解数据中毒攻击影响的必要性。

[7] 使用迁移学习和零样本基础模型进行纺织品回收自动化分析
标题: Textile Analysis for Recycling Automation using Transfer Learning and Zero-Shot Foundation Models
作者: Yannis Spyridis / Vasileios Argyriou
原文:   [英文]   [中文]  
备注: None
摘要:
自动化分拣对于提高纺织品回收的效率和可扩展性至关重要,但从传感器数据中准确识别材料成分和检测污染物仍然具有挑战性。本文研究了使用标准RGB图像这一具有成本效益的传感方式来完成自动化系统中的关键预处理任务。我们提出了为传送带设置设计的计算机视觉组件,以执行(a)四种常见纺织品类型的分类和(b)非纺织特征(如纽扣和拉链)的分割。在分类方面,使用迁移学习和交叉验证评估了几种预训练架构,其中EfficientNetB0在保留的测试集上实现了81.25%的最佳准确率。对于特征分割,采用了结合Grounding DINO开放词汇检测器和Segment Anything Model (SAM) 的零样本方法,在生成的掩码与真实值的比较中表现出色,mIoU达到0.90。该研究证明了结合现代深度学习技术使用RGB图像的可行性,包括用于分类的迁移学习和用于零样本分割的基础模型,以实现自动化纺织品回收流水线的基本分析步骤。

[8] 一种用于监控和侦察中面部属性操控与重建的深度学习方法
标题: A Deep Learning Approach for Facial Attribute Manipulation and Reconstruction in Surveillance and Reconnaissance
作者: Anees Nashath Shaik / Barbara Villarini / Vasileios Argyriou
原文:   [英文]   [中文]  
备注: None
摘要:
监控系统在安全和侦察中发挥着关键作用,但其性能常常因低质量的图像和视频而受到影响,导致面部识别的准确性降低。此外,现有的基于人工智能的面部分析模型在处理肤色变化和部分遮挡的面部时存在偏见,进一步限制了它们在多样化的现实场景中的有效性。这些挑战源于数据的限制和不平衡,现有的训练数据集缺乏足够的多样性,导致面部识别性能不公平且不可靠。为了解决这些问题,我们提出了一个数据驱动的平台,通过生成合成训练数据来增强监控能力,以弥补数据集的偏差。我们的方法利用基于深度学习的面部属性操控和重建技术,使用自动编码器和生成对抗网络(GANs)来创建多样化和高质量的面部数据集。此外,我们的系统集成了一个图像增强模块,提高了监控视频中低分辨率或被遮挡面部的清晰度。我们使用CelebA数据集评估了我们的方法,证明所提出的平台增强了训练数据的多样性和模型的公平性。这项工作有助于减少基于人工智能的面部分析中的偏见,并在具有挑战性的环境中提高监控的准确性,从而实现更公平和更可靠的安全应用。

[9] EV-LayerSegNet:使用事件相机的自监督运动分割
标题: EV-LayerSegNet: Self-supervised Motion Segmentation using Event Cameras
作者: Youssef Farah / Federico Paredes-Vallés / Guido De Croon / Muhammad Ahmed Humais / Hussain Sajwani / Yahya Zweiri
原文:   [英文]   [中文]  
备注: This paper has been accepted for publication at the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, Nashville, 2025
摘要:
事件相机是一种新型的仿生传感器,与传统相机相比,它能够以更高的时间分辨率捕捉运动动态,因为像素会对亮度变化进行异步反应。因此,它们更适合处理诸如运动分割等涉及运动的任务。然而,训练基于事件的网络仍然是一个困难的挑战,因为获取真实数据代价高昂、容易出错且频率有限。在本文中,我们介绍了EV-LayerSegNet,这是一种用于基于事件的运动分割的自监督卷积神经网络。受场景动态的分层表示启发,我们展示了可以分别学习仿射光流和分割掩码,并利用它们对输入事件进行去模糊处理。然后,去模糊的质量被测量并用作自监督学习的损失。我们在仅具有仿射运动的模拟数据集上训练和测试了该网络,分别实现了高达71%的IoU和87%的检测率。

[10] RARL:在数据和硬件限制下,通过强化学习和LoRA提升医学视觉语言模型的推理和泛化能力
标题: RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints
作者: Tan-Hanh Pham / Chris Ngo
原文:   [英文]   [中文]  
备注: Under review
摘要:
视觉-语言模型(VLMs)在医学应用中的日益整合为诊断推理提供了有前景的支持。然而,目前的医学VLMs通常在泛化性、透明性和计算效率方面面临限制,这些障碍阻碍了其在资源受限的真实环境中的部署。为了解决这些挑战,我们提出了一种推理感知强化学习框架,\textbf{RARL},该框架在提高医学VLMs推理能力的同时,保持高效并适应低资源环境。我们的方法通过低秩适应和自定义奖励函数对轻量级基础模型Qwen2-VL-2B-Instruct进行微调,这些奖励函数共同考虑了诊断准确性和推理质量。训练在单个NVIDIA A100-PCIE-40GB GPU上进行,展示了在受限环境中部署此类模型的可行性。我们使用LLM-as-judge框架对模型进行评估,该框架对正确性和解释质量进行评分。实验结果表明,RARL在医学图像分析和临床推理中显著提高了VLM性能,在推理为重点的任务中比监督微调高出约7.78%,同时需要更少的计算资源。此外,我们展示了我们的方法在未见数据集上的泛化能力,与监督微调相比,性能提高约27%,比传统RL微调高出约4%。我们的实验还表明,训练期间的多样性提示和推理期间的推理提示对于提高VLM性能至关重要。我们的研究结果强调了推理引导学习和推理提示在引导医学VLMs朝着更透明、准确和资源高效的临床决策方向发展的潜力。代码和数据已公开。

[11] 零样本组合图像检索
标题: Zero Shot Composed Image Retrieval
作者: Santhosh Kakarla / Gautama Shastry Bulusu Venkata
原文:   [英文]   [中文]  
备注: 8 pages, 3 figures
摘要:
组合图像检索(CIR)允许用户通过对参考图像应用细粒度的文本编辑(例如,“将裙子变蓝”或“去除条纹”)来定位目标图像。零样本CIR使用单独预训练的视觉-语言编码器嵌入图像和文本,在FashionIQ基准测试中仅达到20-25%的Recall@10。我们通过使用轻量级Q-Former微调BLIP-2来改进这一点,该Q-Former将视觉和文本特征融合为单一嵌入,将Recall@10提高到45.6%(衬衫)、40.1%(裙子)和50.4%(上衣-T恤),并将平均Recall@50提高到67.6%。我们还研究了Retrieval-DPO,它通过将直接偏好优化损失应用于FAISS挖掘的困难负样本来微调CLIP的文本编码器。尽管对缩放因子、索引和采样策略进行了广泛调整,Retrieval-DPO仅达到0.02%的Recall@10——远低于零样本和提示微调的基线——因为它(i)缺乏联合图像-文本融合,(ii)使用与top-$K$指标不一致的边距目标,(iii)依赖于低质量的负样本,以及(iv)保持视觉和Transformer层冻结。我们的结果表明,有效的基于偏好的CIR需要真正的多模态融合、排名感知的目标和精心策划的负样本。

[12] PhysLab:用于物理实验多粒度视觉解析的基准数据集
标题: PhysLab: A Benchmark Dataset for Multi-Granularity Visual Parsing of Physics Experiments
作者: Minghao Zou / Qingtian Zeng / Yongping Miao / Shangkun Liu / Zilong Wang / Hantao Liu / Wei Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
图像和视频的视觉解析对于广泛的现实应用至关重要。然而,该领域的进展受到现有数据集限制的制约:(1) 注释粒度不足,阻碍了细粒度场景理解和高级推理;(2) 领域覆盖有限,特别是缺乏针对教育场景的数据集;(3) 缺乏明确的程序指导,逻辑规则极少且结构化任务过程的表示不足。为了解决这些问题,我们引入了 PhysLab,这是第一个捕捉学生进行复杂物理实验的视频数据集。该数据集包括四个具有代表性的实验,展示了多样的科学仪器和丰富的人物-物体交互(HOI)模式。PhysLab 包含 620 个长视频,并提供多层次的注释,支持多种视觉任务,包括动作识别、物体检测、HOI 分析等。我们建立了强有力的基线并进行了广泛的评估,以突出程序性教育视频解析中的关键挑战。我们期望 PhysLab 能成为推进细粒度视觉解析、促进智能课堂系统以及推动计算机视觉与教育技术更紧密结合的宝贵资源。数据集和评估工具包可在此 https URL 公开获取。

[13] 暗通道辅助的单张图像散焦深度估计
标题: Dark Channel-Assisted Depth-from-Defocus from a Single Image
作者: Moushumi Medhi / Rajiv Ranjan Sahay
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们利用暗通道作为补充线索来估计场景的深度,该场景来自单个空间变化的散焦模糊图像,因为暗通道在隐式捕捉模糊图像的局部统计和场景结构方面具有有效性。现有的基于散焦深度(DFD)技术通常依赖于多张具有不同光圈或焦点设置的图像来恢复深度信息。由于问题的欠约束性质,只有少数尝试集中于从单个散焦图像进行DFD。我们的方法利用局部散焦模糊与对比度变化之间的关系作为关键深度线索,以增强场景结构估计的整体性能。整个流程是以对抗方式进行训练的,完全端到端。对具有真实深度引起的散焦模糊的真实数据进行的实验表明,将暗通道先验纳入单图像DFD中能够产生有意义的深度估计结果,验证了我们方法的有效性。

[14] 参数化高斯人体模型:高效且逼真的人体化身建模的通用先验
标题: Parametric Gaussian Human Model: Generalizable Prior for Efficient and Realistic Human Avatar Modeling
作者: Cheng Peng / Jingxiang Sun / Yushuo Chen / Zhaoqi Su / Zhuo Su / Yebin Liu
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
逼真且可动画的人类化身是虚拟/增强现实、远程呈现和数字娱乐的关键推动力。尽管最近在3D高斯散点(3DGS)方面的进展极大地提高了渲染质量和效率,但现有方法仍面临基本挑战,包括耗时的每个主体优化以及在稀疏单目输入下的泛化能力差。在这项工作中,我们提出了参数化高斯人体模型(PGHM),这是一种通用且高效的框架,将人体先验知识整合到3DGS中,以便从单目视频中快速高保真地重建化身。PGHM引入了两个核心组件:(1)一个UV对齐的潜在身份映射,将特定于主体的几何和外观紧凑地编码到一个可学习的特征张量中;(2)一个解耦的多头U-Net,通过条件解码器分解静态、姿态相关和视图相关的组件来预测高斯属性。该设计在具有挑战性的姿态和视角下实现了稳健的渲染质量,同时允许高效的主体适应,而无需多视图捕获或长时间优化。实验表明,PGHM比从头优化的方法显著更高效,每个主体仅需大约20分钟即可生成具有可比视觉质量的化身,从而展示了其在现实世界单目化身创建中的实际适用性。

[15] Flood-DamageSense:使用SAR遥感影像进行建筑物洪水损害评估的多模态Mamba多任务学习
标题: Flood-DamageSense: Multimodal Mamba with Multitask Learning for Building Flood Damage Assessment using SAR Remote Sensing Imagery
作者: Yu-Hsuan Ho / Ali Mostafavi
原文:   [英文]   [中文]  
备注: None
摘要:
大多数灾后损害分类器仅在破坏力留下明显的光谱或结构特征时才能成功识别——而这种情况在洪水淹没后很少出现。因此,现有模型在识别与洪水相关的建筑损害方面表现不佳。本研究中提出的模型,Flood-DamageSense,填补了这一空白,成为首个专为建筑级洪水损害评估而设计的深度学习框架。该架构融合了事件前后SAR/InSAR场景、超高分辨率光学底图以及内在的洪水风险层,该风险层编码了长期暴露概率,即使在组成变化最小的情况下,也能引导网络识别可能受影响的结构。一个多模态的Mamba骨干网络,配备半孪生编码器和任务特定解码器,共同预测(1)分级的建筑损害状态,(2)洪水范围,以及(3)建筑轮廓。在德克萨斯州哈里斯县的飓风哈维(2017年)图像上进行训练和评估——由保险公司提供的财产损害范围支持——显示出平均F1分数比最先进的基线提高了多达19个百分点,尤其是在经常被误分类的“轻微”和“中等”损害类别中取得了最大增益。消融研究确定内在风险特征是这一性能提升的最重要贡献因素。一个端到端的后处理管道在图像获取后的几分钟内将像素级输出转换为可操作的建筑规模损害地图。通过结合风险感知建模和SAR的全天候能力,Flood-DamageSense提供了更快速、更细粒度和更可靠的洪水损害情报,以支持灾后决策和资源分配。

[16] 深度学习模型在体外受精(IVF)治疗中胚胎选择的解释
标题: Interpretation of Deep Learning Model in Embryo Selection for In Vitro Fertilization (IVF) Treatment
作者: Radha Kodali / Venkata Rao Dhulipalla / Venkata Siva Kishor Tatavarty / Madhavi Nadakuditi / Bharadwaj Thiruveedhula / Suryanarayana Gunnam / Durga Prasad Bavirisetti
原文:   [英文]   [中文]  
备注: None
摘要:
不孕症对个人的生活质量产生了相当大的影响,影响到他们的社会和心理状态,并且预计在未来几年会有所增加。体外受精(IVF)成为经济发达国家中应对低生育率问题的主要技术之一。专家胚胎学家通常通过审查囊胚图像来对胚胎进行分级,以选择最优的胚胎进行移植,但这一过程耗时且效率低下。囊胚图像为评估胚胎活力提供了宝贵的资源。在本研究中,我们引入了一种可解释的人工智能(XAI)框架用于胚胎分类,采用卷积神经网络(CNN)和长短期记忆(LSTM)架构的融合,称为CNN-LSTM。通过深度学习,我们的模型在胚胎分类中实现了高准确性,同时通过XAI保持了解释性。

[17] 基于深度学习的全景图像和视频超分辨率的系统性研究
标题: A Systematic Investigation on Deep Learning-Based Omnidirectional Image and Video Super-Resolution
作者: Qianqian Zhao / Chunle Guo / Tianyi Zhang / Junpei Zhang / Peiyang Jia / Tan Su / Wenjie Jiang / Chongyi Li
原文:   [英文]   [中文]  
备注: None
摘要:
全景图像和视频超分辨率是低级视觉中的一个重要研究课题,在虚拟现实和增强现实应用中起着至关重要的作用。其目标是从低分辨率输入中重建高分辨率图像或视频帧,从而增强细节保留并实现更准确的场景分析和解释。近年来,许多创新且有效的方法被提出,主要基于深度学习技术,涉及多样的网络架构、损失函数、投影策略和训练数据集。本文系统回顾了全景图像和视频超分辨率的最新进展,重点关注基于深度学习的方法。鉴于现有数据集主要依赖于合成退化,未能充分捕捉真实世界的失真,我们引入了一个新的数据集360Insta,其中包含在多种条件下(包括不同的光照、运动和曝光设置)收集的真实退化的全景图像和视频。该数据集填补了当前全景基准中的一个关键空白,并使得全景超分辨率方法的泛化能力能够得到更为稳健的评估。我们在公共数据集和我们提出的数据集上对现有方法进行了全面的定性和定量评估。此外,我们系统概述了当前研究的现状,并讨论了未来探索的有前景方向。本文中介绍的所有数据集、方法和评估指标均公开可用,并将定期更新。项目页面:this https URL。

[18] 由双曲平均曲率流驱动的活动轮廓模型用于图像分割
标题: Active Contour Models Driven by Hyperbolic Mean Curvature Flow for Image Segmentation
作者: Saiyu Hu / Chunlei He / Jianfeng Zhang / Dexing Kong / Shoujun Huang
原文:   [英文]   [中文]  
备注: None
摘要:
抛物线平均曲率流驱动的主动轮廓模型(PMCF-ACMs)广泛应用于图像分割,但其高度依赖于初始曲线配置的选择。在本文中,我们首先提出了几种双曲线平均曲率流驱动的主动轮廓模型(HMCF-ACMs),这些模型引入了可调的初始速度场,从而能够针对不同的分割场景进行自适应优化。我们将证明HMCF-ACMs实际上是正常流,并通过带符号距离函数的水平集方法建立耗散HMCF公式与某些波动方程之间的数值等价性。在此框架基础上,我们进一步开发了双曲线双模式正则化流驱动的主动轮廓模型(HDRF-ACMs),该模型利用平滑的Heaviside函数进行边缘感知力调制,以抑制弱边界附近的过度扩散。然后,我们在求解上述波动方程时优化了具有九点模板空间离散的加权四阶Runge-Kutta算法。实验表明,由于初始速度和初始轮廓的任务自适应配置,HMCF-ACMs和HDRF-ACMs都能够实现更精确的分割,并具有优越的抗噪性和数值稳定性。

[19] 改进野生动物的分布外检测:非洲五大兽
标题: Improving Wildlife Out-of-Distribution Detection: Africas Big Five
作者: Mufhumudzi Muthivhi / Jiahao Huo / Fredrik Gustafsson / Terence L. van Zyl
原文:   [英文]   [中文]  
备注: None
摘要:
缓解人类与野生动物冲突旨在解决双方之间不必要的遭遇。计算机视觉提供了一种识别可能升级为冲突的个体的解决方案,例如非洲五大动物的成员。然而,环境中通常包含多种不同的物种。目前最先进的动物分类模型是在封闭世界假设下训练的。即使在面对未知类别时,它们几乎总是对其预测过于自信。本研究调查了野生动物,特别是非洲五大动物的分布外(OOD)检测。为此,我们选择了一个参数化的最近类均值(NCM)和一个非参数化的对比学习方法作为基线,以利用流行分类编码器的预训练和投影特征。此外,我们将我们的基线与文献中各种常见的OOD方法进行了比较。结果表明,基于特征的方法在不同的分类阈值下表现出更强的泛化能力。具体而言,使用ImageNet预训练特征的NCM在AUPR-IN、AUPR-OUT和AUTC上分别比最佳OOD方法提高了2%、4%和22%。代码可以在此https URL找到。

[20] 通过稳健的局部感知搜索缓解物体幻觉
标题: Mitigating Object Hallucination via Robust Local Perception Search
作者: Zixian Gao / Chao Yang / Zhanhui Zhou / Xing Xu / Chaochao Lu
原文:   [英文]   [中文]  
备注: None
摘要:
最近在多模态大型语言模型(MLLMs)方面的进展使其能够有效地整合视觉和语言,从而解决各种下游任务。然而,尽管取得了显著的成功,这些模型仍然表现出幻觉现象,即输出看似合理但与图像内容不符。为了解决这个问题,我们引入了局部感知搜索(LPS),这是一种在推理过程中使用的解码方法,简单且无需训练,但能有效抑制幻觉。该方法利用局部视觉先验信息作为价值函数来纠正解码过程。此外,我们观察到局部视觉先验对模型性能的影响在高图像噪声场景中更加显著。值得注意的是,LPS是一种即插即用的方法,兼容各种模型。在广泛使用的幻觉基准和噪声数据上的大量实验表明,与基线相比,LPS显著减少了幻觉的发生率,尤其在噪声环境中表现出色。

[21] RecipeGen:一个用于真实世界食谱生成的步骤对齐多模态基准
标题: RecipeGen: A Step-Aligned Multimodal Benchmark for Real-World Recipe Generation
作者: Ruoxuan Zhang / Jidong Gao / Bin Wen / Hongxia Xie / Chenming Zhang / Honghan-shuai / Wen-Huang Cheng
原文:   [英文]   [中文]  
备注: This is an extended version of arXiv:2503.05228
摘要:
生成食谱图像是食品计算中的一个关键挑战,具有在烹饪教育和多模态食谱助手中的应用。然而,现有的数据集缺乏食谱目标、逐步说明和视觉内容之间的细粒度对齐。我们提出了RecipeGen,这是第一个基于食谱的大规模、真实世界的文本到图像(T2I)、图像到视频(I2V)和文本到视频(T2V)生成的基准。RecipeGen包含26,453个食谱、196,724张图像和4,491个视频,涵盖多样的食材、烹饪过程、风格和菜品类型。我们进一步提出了领域特定的评估指标来评估食材的保真度和交互建模,对代表性的T2I、I2V和T2V模型进行基准测试,并为未来的食谱生成模型提供见解。项目页面现已上线。

[22] THU-Warwick提交的EPIC-KITCHEN挑战赛2025:半监督视频对象分割
标题: THU-Warwick Submission for EPIC-KITCHEN Challenge 2025: Semi-Supervised Video Object Segmentation
作者: Mingqi Gao / Haoran Duan / Tianlu Zhang / Jungong Han
原文:   [英文]   [中文]  
备注: None
摘要:
在本报告中,我们描述了我们在自我中心视频对象分割方面的方法。我们的方法结合了来自SAM2的大规模视觉预训练和基于深度的几何线索,以处理复杂场景和长期跟踪。通过在一个统一的框架中整合这些信号,我们实现了强大的分割性能。在VISOR测试集上,我们的方法达到了90.1%的J&F得分。

[23] SAR2Struct:从单视角SAR图像中提取飞机目标的三维语义结构表示
标题: SAR2Struct: Extracting 3D Semantic Structural Representation of Aircraft Targets from Single-View SAR Image
作者: Ziyu Yue / Ruixi You / Feng Xu
原文:   [英文]   [中文]  
备注: 13 pages, 12 figures
摘要:
合成孔径雷达(SAR)图像的翻译,使其成为人类可理解的形式,是SAR高级信息检索的最终目标。现有的方法主要集中在目标的三维表面重建或局部几何特征提取上,忽视了结构建模在捕捉语义信息中的作用。本文提出了一项新任务:SAR目标结构恢复,其目的是从单视角SAR图像中推断目标的组成部分及其之间的结构关系,特别是对称性和邻接性。通过学习在不同SAR图像中观察到的同类型目标的结构一致性和几何多样性,旨在直接从其二维SAR图像中得出目标的语义表示。为了解决这一具有挑战性的任务,本文开发了一个基于结构描述符的两步算法框架。具体来说,在训练阶段,首先从真实SAR图像中检测二维关键点,然后使用模拟数据学习从这些关键点到三维层次结构的映射。在测试阶段,这两个步骤被整合以从真实SAR图像中推断三维结构。实验结果验证了每个步骤的有效性,并首次展示了可以直接从单视角SAR图像中得出飞机目标的三维语义结构表示。

[24] LitMAS:一种用于生物识别安全的轻量化和通用化多模态反欺骗框架
标题: LitMAS: A Lightweight and Generalized Multi-Modal Anti-Spoofing Framework for Biometric Security
作者: Nidheesh Gorthi / Kartik Thakral / Rishabh Ranjan / Richa Singh / Mayank Vatsa
原文:   [英文]   [中文]  
备注: Accepted in Interspeech 2025
摘要:
生物特征认证系统在关键应用中被越来越多地部署,但它们仍然容易受到欺骗攻击。由于大多数研究工作集中在特定模态的反欺骗技术上,因此在多个生物特征模态中构建一个统一且资源高效的解决方案仍然是一个挑战。为了解决这个问题,我们提出了LitMAS,一个轻量且可推广的多模态反欺骗框架,旨在检测基于语音、面部、虹膜和指纹的生物特征系统中的欺骗攻击。LitMAS的核心是模态对齐浓缩损失,它在增强类间可分性的同时保持跨模态一致性,从而实现对多样生物特征的稳健欺骗检测。LitMAS仅有600万参数,在七个数据集上的平均等错误率(EER)上超过了最先进的方法1.36%,展示了高效性、强大的可推广性和适合边缘部署的特点。代码和训练好的模型可以在这个https URL上获得。

[25] LoopDB:用于大规模同时定位与地图构建的回环闭合数据集
标题: LoopDB: A Loop Closure Dataset for Large Scale Simultaneous Localization and Mapping
作者: Mohammad-Maher Nakshbandi / Ziad Sharawy / Dorian Cojocaru / Sorin Grigorescu
原文:   [英文]   [中文]  
备注: None
摘要:
在本研究中,我们介绍了LoopDB,这是一个具有挑战性的回环闭合数据集,包含超过1000张在各种环境中拍摄的图像,包括公园、室内场景、停车场以及围绕单个物体的场景。每个场景由五张连续的图像序列表示。该数据集使用高分辨率相机收集,提供了适合用于评估回环闭合算法精度的图像,这些算法通常用于同时定位与地图构建。作为真实信息,我们提供了每两张连续图像之间计算出的旋转和平移。除了其基准测试目标外,该数据集还可用于训练和微调基于深度神经网络的回环闭合方法。LoopDB可以通过此https URL公开获取。

[26] 使用Savitzky--Golay神经控制微分方程的连续时间SO(3)预测
标题: Continuous-Time SO(3) Forecasting with Savitzky--Golay Neural Controlled Differential Equations
作者: Lennart Bastian / Mohammad Rashed / Nassir Navab / Tolga Birdal
原文:   [英文]   [中文]  
备注: Extended abstract, presented at the CVPR Workshop on 4D Vision
摘要:
在计算机视觉和机器人领域,跟踪和预测物体的旋转是基础任务。然而,SO(3) 外推仍然具有挑战性,因为 (1) 传感器观测可能是噪声且稀疏的,(2) 运动模式可能由复杂的动力学控制,(3) 应用场景可能需要长期预测。本文提出使用由 Savitzky-Golay 路径引导的神经控制微分方程来建模 $SO(3)$ 上的连续时间旋转物体动力学。与依赖于简化运动假设的现有方法不同,我们的方法在尊重旋转几何结构的同时,学习了一个通用的潜在动力系统来描述基础物体轨迹。在真实世界数据上的实验结果表明,与现有方法相比,我们的方法具有引人注目的预测能力。

[27] 使用扩散模型在风格化图像生成中实现无训练的身份保留
标题: Training-Free Identity Preservation in Stylized Image Generation Using Diffusion Models
作者: Mohammad Ali Rezaei / Helia Hajikazem / Saeed Khanehgir / Mahdi Javanmardi
原文:   [英文]   [中文]  
备注: None
摘要:
尽管扩散模型展现了卓越的生成能力,现有的风格迁移技术在实现高质量风格化的同时往往难以保持身份特征。这一限制在面部较小或存在显著相机与面部距离的图像中尤为明显,常常导致身份特征的保存不足。为了解决这一问题,我们引入了一种新的、无需训练的框架,用于使用扩散模型进行身份特征保留的风格化图像合成。主要贡献包括:(1) "马赛克恢复内容图像"技术,显著增强了身份特征的保留,尤其是在复杂场景中;(2) 无需训练的内容一致性损失,通过在风格化过程中更多地关注原始图像,增强了细粒度内容细节的保留。我们的实验表明,所提出的方法在同时保持高风格保真度和强身份完整性方面显著超越了基线模型,特别是在面部区域较小或相机与面部距离显著的情况下,且无需模型重训练或微调。

[28] 逐步分解与双流聚焦:一种用于无训练伪装物体分割的新方法
标题: Stepwise Decomposition and Dual-stream Focus: A Novel Approach for Training-free Camouflaged Object Segmentation
作者: Chao Yin / Hao Li / Kequan Yang / Jide Li / Pinpin Zhu / Xiaoqiang Li
原文:   [英文]   [中文]  
备注: under review
摘要:
尽管可提示分割(例如,SAM)在各种分割任务中表现出色,但它仍然需要为每个要分割的对象提供手动视觉提示。相比之下,任务通用的可提示分割旨在通过仅使用任务通用的提示来指导所有测试样本的分割,从而减少对如此详细提示的需求。然而,当应用于伪装物体分割(COS)时,当前方法仍然面临两个关键问题:1)获取实例特定文本提示时的语义模糊性,这源于整体描述中缺乏足够的辨别线索,导致前景和背景的混淆;2)获取实例特定视觉提示时的语义差异与空间分离,这源于远离物体边界的全局背景采样与低特征相关性,导致SAM分割出不相关的区域。为了解决上述问题,我们提出了RDVP-MSD,这是一种新颖的无训练测试时适应框架,通过多模态逐步分解思维链(MSD-CoT)协同区域约束双流视觉提示(RDVP)。MSD-CoT逐步解构图像描述以消除语义模糊性,而RDVP则在视觉提示中注入空间约束,并独立采样前景和背景点的视觉提示,有效缓解语义差异和空间分离。无需任何训练或监督,RDVP-MSD在多个COS基准上实现了最先进的分割结果,并提供比以往方法更快的推理速度,显著提高了准确性和效率。代码将会在此网址提供:this https URL

[29] Hi-LSplat: 分层3D语言高斯喷溅
标题: Hi-LSplat: Hierarchical 3D Language Gaussian Splatting
作者: Chenlu Zhan / Yufei Zhang / Gaoang Wang / Hongwei Wang
原文:   [英文]   [中文]  
备注: None
摘要:
最近,使用高斯散射来建模三维语言场以应对开放式语言查询引起了越来越多的关注。然而,最近基于3DGS的模型利用依赖视图的二维基础模型来优化三维语义,但缺乏统一的三维表示,导致视图不一致。此外,固有的开放词汇挑战导致对象和关系描述的不一致,阻碍了层次语义理解。在本文中,我们提出了Hi-LSplat,一种用于三维开放词汇查询的视图一致的层次语言高斯散射方法。为了实现视图一致的三维层次语义,我们首先通过构建具有分层实例聚类的三维层次语义树,将二维特征提升为三维特征,从而解决了由二维语义特征引起的视图不一致问题。此外,我们引入了实例级和部分级对比损失,以捕捉全方位的层次语义表示。值得注意的是,我们构建了两个层次语义数据集,以更好地评估模型区分不同语义层次的能力。大量实验突显了我们方法在三维开放词汇分割和定位方面的优越性。其在层次语义数据集上的强大表现强调了其在三维场景中捕捉复杂层次语义的能力。

[30] 探索视觉提示:稳健性继承及其超越
标题: Exploring Visual Prompting: Robustness Inheritance and Beyond
作者: Qi Li / Liangzhi Li / Zhouqiang Jiang / Bowen Wang / Keke Tang
原文:   [英文]   [中文]  
备注: arXiv admin note: substantial text overlap with arXiv:2311.10992
摘要:
视觉提示(VP)是一种高效的迁移学习方法,在视觉任务中展现了其潜力。然而,以往的研究仅关注于从标准源模型进行视觉提示,目前尚不清楚在鲁棒源模型的场景下其表现如何:源模型的鲁棒性能否成功继承?在此过程中,VP是否也会遇到与源模型相同的鲁棒性与泛化能力之间的权衡?如果存在这样的权衡,是否有专门针对VP的策略来缓解这一限制?在本文中,我们首次深入探讨这三个问题,并提供了肯定的答案。为缓解VP面临的权衡,我们提出了一种策略,称为提示边界松动(PBL)。作为一种轻量级、即插即用的策略,PBL与VP自然兼容,有效确保当源模型是鲁棒模型时成功继承鲁棒性,同时显著增强VP在各种下游数据集上的泛化能力。跨多个数据集的大量实验表明,我们的发现具有普遍性,并展示了所提出策略的显著优势。

[31] 通过扩散模型实现可控的耦合图像生成
标题: Controllable Coupled Image Generation via Diffusion Models
作者: Chenfei Yuan / Nanshan Jia / Hangqi Li / Peter W. Glynn / Zeyu Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
我们提供了一种注意力级别的控制方法,用于耦合图像生成任务,其中“耦合”意味着同时生成的多张图像预期具有相同或非常相似的背景。在背景耦合的同时,生成图像中的中心对象仍然可以根据不同的文本提示享有灵活性。所提出的方法在模型的交叉注意力模块中解耦背景和实体组件,并附加了一系列随采样时间步变化的权重控制参数。我们通过一个综合目标来优化这组权重控制参数,该目标评估背景的耦合程度、文本到图像的对齐以及整体视觉质量。实证结果表明,我们的方法在这些标准上优于现有方法。

[32] EndoARSS:适应空间感知基础模型以提高内窥镜手术中活动识别和语义分割的效率
标题: EndoARSS: Adapting Spatially-Aware Foundation Model for Efficient Activity Recognition and Semantic Segmentation in Endoscopic Surgery
作者: Guankun Wang / Rui Tang / Mengya Xu / Long Bai / Huxin Gao / Hongliang Ren
原文:   [英文]   [中文]  
备注: Accepted by Advanced Intelligent Systems
摘要:
内窥镜手术是机器人辅助微创手术的金标准,在早期疾病检测和精确干预方面具有显著优势。然而,手术场景的复杂性,由于不同手术活动场景的高度可变性以及目标与背景之间混淆的图像特征,给手术环境理解带来了挑战。传统的深度学习模型常常在跨活动干扰中表现不佳,导致每个下游任务的性能不理想。为了解决这一限制,我们探索了多任务学习,该方法利用任务之间的相关特征来增强整体任务性能。在本文中,我们提出了EndoARSS,这是一种专为内窥镜手术活动识别和语义分割设计的新型多任务学习框架。我们的方法基于DINOv2基础模型,集成了低秩适应以促进高效微调,同时结合任务高效共享低秩适配器以缓解不同任务之间的梯度冲突。此外,我们引入了空间感知多尺度注意力,通过实现全局信息的跨空间学习来增强特征表示的区分能力。为了评估我们框架的有效性,我们提出了三个新颖的数据集,MTLESD、MTLEndovis和MTLEndovis-Gen,这些数据集专为内窥镜手术场景设计,提供了详细的活动识别和语义分割任务注释。大量实验表明,EndoARSS在多个基准上实现了卓越的性能,与现有模型相比显著提高了准确性和鲁棒性。这些结果强调了EndoARSS在推动AI驱动的内窥镜手术系统方面的潜力,为提高手术安全性和效率提供了宝贵的见解。

[33] 利用视觉-语言模型进行时间序列异常检测
标题: Harnessing Vision-Language Models for Time Series Anomaly Detection
作者: Zelin He / Sarah Alnegheimish / Matthew Reimherr
原文:   [英文]   [中文]  
备注: None
摘要:
时间序列异常检测(TSAD)在包括医疗、金融和工业监控等多个领域中发挥了重要作用。之前的方法主要集中在对数值数据进行领域特定模型的训练,但缺乏人类专家用于识别上下文异常的视觉-时间推理能力。为填补这一空白,我们探索了一种基于视觉语言模型(VLMs)的解决方案。最近的研究表明,VLMs在视觉推理任务中表现出色,但其在时间序列中的直接应用在准确性和效率上都不尽如人意。为了利用VLMs的能力进行TSAD,我们提出了一个两阶段的解决方案:(1)ViT4TS,一个基于相对轻量级预训练视觉编码器的视觉筛选阶段,利用二维时间序列表示来准确定位候选异常;(2)VLM4TS,一个基于VLM的阶段,整合全局时间上下文和VLM推理能力,以改进ViT4TS提供的候选异常的检测。我们展示了在没有任何时间序列训练的情况下,VLM4TS在大多数情况下优于时间序列预训练和从头开始的基线,F1-max分数比最佳基线提高了24.6%。此外,VLM4TS还始终优于现有的基于语言模型的TSAD方法,并且在令牌使用效率上平均提高了36倍。

[34] Multi-StyleGS:使用多种风格对高斯点绘进行风格化
标题: Multi-StyleGS: Stylizing Gaussian Splatting with Multiple Styles
作者: Yangkai Lin / Jiabao Lei / Kui jia
原文:   [英文]   [中文]  
备注: AAAI 2025
摘要:
近年来,为了创造性的目的,将给定的3D场景风格化以符合参考图像的艺术风格的需求不断增长。虽然3D高斯点云(GS)已成为逼真3D场景建模的一种有前途且高效的方法,但在通过自动局部风格迁移或手动指定来调整3D GS以匹配多种风格的同时保持风格化训练的内存效率方面仍然存在挑战。在本文中,我们介绍了一种新颖的3D GS风格化解决方案,称为Multi-StyleGS,以应对这些挑战。特别是,我们采用了一种二分匹配机制来自动识别风格图像与渲染图像局部区域之间的对应关系。为了促进局部风格迁移,我们引入了一种新颖的语义风格损失函数,该函数利用分割网络将不同的风格应用于场景中的各种对象,并提出了一种局部-全局特征匹配以增强多视图一致性。此外,该技术可以实现内存高效的训练,更多的纹理细节和更好的颜色匹配。为了更好地为每个高斯分配一个稳健的语义标签,我们提出了几种技术来规范分割网络。通过我们全面的实验表明,我们的方法在产生合理的风格化结果和提供灵活编辑方面优于现有方法。

[35] 深度惯性姿态:一种用于人体姿态估计的深度学习方法
标题: Deep Inertial Pose: A deep learning approach for human pose estimation
作者: Sara M. Cerqueira / Manuel Palermo / Cristina P. Santos
原文:   [英文]   [中文]  
备注: None
摘要:
基于惯性的动作捕捉系统由于其可穿戴性和不受限制的使用而受到越来越多的关注。然而,准确的人体关节估计需要多个复杂且需要专业知识的步骤,这导致了昂贵的软件,如Xsens Technologies的先进MVN Awinda。本研究旨在研究使用神经网络来抽象出姿态估计所需的复杂生物力学模型和分析数学。因此,本文比较了不同的神经网络架构和方法,以了解这些方法在多大程度上能够准确估计人体姿态,使用了低成本(MPU9250)和高端(Mtw Awinda)的磁、角速度和重力(MARG)传感器。最有效的方法是混合LSTM-Madgwick分离方法,使用Mtw Awinda数据时实现了7.96的四元数角度距离误差。此外,还进行了消融研究,以研究数据增强、输出表示、窗口大小、损失函数和磁力计数据对姿态估计误差的影响。该研究表明,神经网络可以被训练来估计人体姿态,其结果可与最先进的融合滤波器相媲美。

[36] 多模态卫星影像语义分割的位置信息预测自监督学习
标题: Position Prediction Self-Supervised Learning for Multimodal Satellite Imagery Semantic Segmentation
作者: John Waithaka / Moise Busogi
原文:   [英文]   [中文]  
备注: None
摘要:
卫星影像的语义分割对于地球观测应用至关重要,但受限于有限的标注训练数据。尽管自监督预训练方法如掩码自动编码器(MAE)显示出潜力,但它们侧重于重建而非定位——这是分割任务的基本方面。我们提出将LOCA(位置感知),一种位置预测自监督学习方法,适用于多模态卫星影像的语义分割。我们的方法通过将SatMAE的通道分组从多光谱数据扩展到多模态数据,解决了卫星数据的独特挑战,从而有效处理多种模态,并引入同组注意力掩码以在预训练期间促进跨模态交互。该方法使用相对补丁位置预测,鼓励空间推理以实现定位而非重建。我们在Sen1Floods11洪水制图数据集上评估了我们的方法,结果表明其显著优于现有的基于重建的卫星影像自监督学习方法。我们的结果表明,当位置预测任务适当地适应多模态卫星影像时,其学习到的表示比基于重建的方法更适合于卫星影像的语义分割。

[37] DONUT:一种用于轨迹预测的仅解码器模型
标题: DONUT: A Decoder-Only Model for Trajectory Prediction
作者: Markus Knoche / Daan de Geus / Bastian Leibe
原文:   [英文]  
备注: None
摘要:
预测场景中其他主体的运动对于自动驾驶非常重要,因为这使得自动驾驶汽车能够提前预判。受仅解码器模型在语言建模中成功的启发,我们提出了DONUT,一种用于展开轨迹的仅解码器网络。与现有的编码器-解码器预测模型不同,我们使用单一的自回归模型来编码历史轨迹并预测未来轨迹。这使得模型能够以一致的方式进行迭代预测,并确保模型始终获得最新信息,从而提升性能。此外,受语言建模中多标记预测的启发,我们引入了一种“过度预测”策略,使网络承担预测更长时间范围内轨迹的辅助任务。这使得模型能够更好地预判未来,并进一步提高性能。通过实验,我们证明了我们的仅解码器方法优于编码器-解码器基线,并在Argoverse 2单主体运动预测基准上达到了新的最先进水平。

[38] 视觉-EKIPL:用于视觉推理的外部知识注入策略学习
标题: Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning
作者: Chaoyang Wang / Zeyu Zhang / Haiyun Jiang
原文:   [英文]   [中文]  
备注: None
摘要:
视觉推理对于理解复杂的多模态数据和推进通用人工智能至关重要。现有的方法通过强化学习(RL)微调(例如,GRPO)来增强多模态大语言模型(MLLMs)的推理能力。然而,目前的强化学习方法仅从策略模型本身采样动作组,这限制了模型推理能力的上限,并导致训练效率低下。为了解决这些限制,本文提出了一种新颖的强化学习框架,称为\textbf{Vision-EKIPL}。该框架的核心在于在强化学习训练过程中引入由外部辅助模型生成的高质量动作,以指导策略模型的优化。通过从外部模型注入知识进行策略学习,显著扩展了模型的探索空间,有效提高了推理边界,并大幅加速了训练收敛速度和效率。实验结果表明,与最先进的(SOTA)方法相比,我们提出的Vision-EKIPL在Reason-RFT-CoT基准上实现了高达5\%的性能提升。这表明Vision-EKIPL能够克服传统强化学习方法的局限性,显著增强MLLMs的视觉推理性能,并为该领域的研究提供了一种新的有效范式。

[39] 使用cgan-top进行去噪的点云人脸识别
标题: Face recognition on point cloud with cgan-top for denoising
作者: Junyu Liu / Jianfeng Ren / Sunhong Liang / Xudong Jiang
原文:   [英文]   [中文]  
备注: Published in ICASSP 2023
摘要:
使用三维点云进行人脸识别正受到越来越多的关注,而由于传感器的不完美,原始点云通常包含大量噪声。在本文中,提出了一种端到端的基于噪声点云的三维人脸识别方法,该方法协同整合了去噪和识别模块。具体而言,设计了一种基于三个正交平面的条件生成对抗网络(cGAN-TOP),以有效去除点云中的噪声,并恢复后续识别所需的潜在特征。然后,采用了一种链接动态图卷积神经网络(LDGCNN)来识别处理后的点云中的人脸,该网络分层链接了局部点特征和多尺度的邻域特征。该方法在Bosphorus数据集上进行了验证,在所有噪声设置下显著提高了识别准确性,最大增益达到14.81%。

[40] 通过眼动追踪分析进行自闭症诊断的混合视觉Transformer-Mamba框架
标题: Hybrid Vision Transformer-Mamba Framework for Autism Diagnosis via Eye-Tracking Analysis
作者: Wafaa Kasri / Yassine Himeur / Abigail Copiaco / Wathiq Mansoor / Ammar Albanna / Valsamma Eapen
原文:   [英文]   [中文]  
备注: 7 pages, 4 figures and 2 tables
摘要:
准确的自闭症谱系障碍(ASD)诊断对于早期干预至关重要。本研究提出了一种混合深度学习框架,结合视觉变换器(ViT)和Vision Mamba,通过眼动追踪数据检测ASD。该模型使用基于注意力的融合方法整合视觉、语音和面部线索,捕捉空间和时间动态。与传统的手工方法不同,它应用了最先进的深度学习和可解释的人工智能技术,以提高诊断的准确性和透明度。在Saliency4ASD数据集上测试时,所提出的ViT-Mamba模型优于现有方法,达到了0.96的准确率、0.95的F1分数、0.97的敏感性和0.94的特异性。这些研究结果表明,该模型在资源有限或偏远的临床环境中,尤其是在专家诊断有限的情况下,具有可扩展和可解释的ASD筛查潜力。

[41] NSD-Imagery:一个用于将fMRI视觉解码方法扩展到心理意象的基准数据集
标题: NSD-Imagery: A benchmark dataset for extending fMRI vision decoding methods to mental imagery
作者: Reese Kneeland / Paul S. Scotti / Ghislain St-Yves / Jesse Breedlove / Kendrick Kay / Thomas Naselaris
原文:   [英文]   [中文]  
备注: Published at CVPR 2025
摘要:
我们发布了NSD-Imagery,这是一个包含人类fMRI活动与心理图像配对的基准数据集,以补充现有的自然场景数据集(NSD)。NSD是一个大规模的fMRI活动与所见图像配对的数据集,推动了fMRI到图像重建工作的前所未有的进步。最近在NSD上训练的模型仅在所见图像重建上进行了评估。使用NSD-Imagery,可以评估这些模型在心理图像重建上的表现。这是一个具有挑战性的泛化要求,因为心理图像在大脑活动中编码的信噪比和空间分辨率相对较低;然而,从所见图像到心理图像的泛化对于医学领域和脑机接口中的实际应用至关重要,因为所需信息总是内部生成的。我们为一组最近在NSD上训练的开源视觉解码模型(MindEye1、MindEye2、Brain Diffuser、iCNN、Takagi等)在NSD-Imagery上的表现提供了基准,并显示解码方法在心理图像上的表现与视觉重建的表现大体上是分离的。我们进一步证明,架构选择显著影响跨解码性能:采用简单线性解码架构和多模态特征解码的模型在心理图像上泛化得更好,而复杂架构往往过拟合视觉训练数据。我们的研究结果表明,心理图像数据集对于开发实际应用至关重要,并确立了NSD-Imagery作为更好地将视觉解码方法与这一目标对齐的有用资源。

[42] KNN-Defense:使用最近邻搜索防御3D对抗性点云
标题: KNN-Defense: Defense against 3D Adversarial Point Clouds using Nearest-Neighbor Search
作者: Nima Jamali / Matina Mahdizadeh Sani / Hanieh Naderi / Shohreh Kasaei
原文:   [英文]   [中文]  
备注: None
摘要:
深度神经网络(DNNs)在分析三维点云数据方面表现出色。然而,它们对对抗性攻击(如点丢失、偏移和添加)的脆弱性对三维视觉系统的可靠性构成了重大挑战。这些攻击可能会破坏点云的语义和结构完整性,使许多现有的防御机制失效。为了解决这个问题,提出了一种名为KNN-Defense的防御策略,该策略基于流形假设和特征空间中的最近邻搜索。该方法不通过重建表面几何或强制均匀点分布,而是通过利用训练集中相邻样本的语义相似性来恢复被扰动的输入。KNN-Defense轻量且计算效率高,能够实现快速推理,使其适用于实时和实际应用。在ModelNet40数据集上的实验证明,KNN-Defense在各种攻击类型下显著提高了鲁棒性。特别是在点丢失攻击下——由于关键点的有针对性移除,许多现有方法表现不佳——该方法在PointNet、PointNet++、DGCNN和PCT上分别实现了20.1%、3.6%、3.44%和7.74%的准确率提升。这些发现表明,KNN-Defense为增强三维点云分类器的对抗性鲁棒性提供了一种可扩展且有效的解决方案。(该方法的开源实现,包括代码和数据,可在此https URL获取)。

[43] 高斯映射用于动态场景
标题: Gaussian Mapping for Evolving Scenes
作者: Vladimir Yugay / Thies Kersten / Luca Carlone / Theo Gevers / Martin R. Oswald / Lukas Schmid
原文:   [英文]   [中文]  
备注: None
摘要:
具有新颖视图合成(NVS)能力的映射系统在计算机视觉中被广泛使用,应用于增强现实、机器人技术和自动驾驶。尤其是基于3D高斯散点的系统显示出高水平的NVS性能;然而,许多当前的方法仅限于静态场景。尽管最近的研究开始解决短期动态(相机视野内的运动),但长期动态(场景通过视野外的变化演变)仍然探索较少。为克服这一限制,我们引入了一种动态场景适应机制,能够持续更新3D表示以反映最新的变化。此外,由于陈旧的观测会扰乱重建过程,保持几何和语义一致性仍然具有挑战性,我们提出了一种新颖的关键帧管理机制,该机制在尽可能保留信息的同时丢弃过时的观测。我们在合成和真实世界的数据集上评估了用于演变场景的高斯映射(GaME),发现其比现有技术更为准确。

[44] 使用来自眼动电图和PSM的多模态嵌入融合进行睡眠阶段分类
标题: Sleep Stage Classification using Multimodal Embedding Fusion from EOG and PSM
作者: Olivier Papillon / Rafik Goubran / James Green / Julien Larivière-Chartier / Caitlin Higginson / Frank Knoefel / Rébecca Robillard
原文:   [英文]   [中文]  
备注: Submitted to IEEE MeMeA 2025
摘要:
准确的睡眠阶段分类对于诊断睡眠障碍,特别是在老年人群中,至关重要。虽然传统的多导睡眠图(PSG)依赖脑电图(EEG)作为金标准,但其复杂性和对专业设备的需求使得家庭睡眠监测具有挑战性。为了解决这一限制,我们研究了使用眼电图(EOG)和压力敏感垫(PSM)作为五阶段睡眠-觉醒分类的较不显眼的替代方案。本研究介绍了一种新颖的方法,该方法利用ImageBind(一种多模态嵌入深度学习模型)将PSM数据与双通道EOG信号集成用于睡眠阶段分类。我们的方法是首个报道的将PSM和EOG数据与ImageBind融合用于睡眠阶段分类的方法。我们的结果表明,微调ImageBind显著提高了分类准确性,优于基于单通道EOG(DeepSleepNet)、仅使用PSM数据(ViViT)以及其他多模态深度学习方法(MBT)的现有模型。值得注意的是,该模型在不进行微调的情况下也表现出强劲的性能,突显了其在有限标记数据的特定任务中的适应性,这使其在医学应用中具有特别的优势。我们使用来自睡眠诊所的85个夜晚的患者记录评估了我们的方法。我们的研究结果表明,即使是最初为非医学领域开发的预训练多模态嵌入模型,也可以有效地适应于睡眠分期,其准确性接近需要复杂EEG数据的系统。

[45] 使用中央凹事件视觉在黑暗中阅读
标题: Reading in the Dark with Foveated Event Vision
作者: Carl Brander / Giovanni Cioffi / Nico Messikommer / Davide Scaramuzza
原文:   [英文]   [中文]  
备注: CVPR 2025 Workshop on Event-based Vision
摘要:
当前配备RGB摄像头的智能眼镜在低光和高速运动场景中,由于运动模糊和帧摄像头的动态范围有限,难以感知环境。此外,使用帧摄像头捕捉密集图像需要大量带宽和功耗,从而更快地耗尽电池。这些挑战对于开发能够从图像中读取文本的算法尤为重要。在这项工作中,我们提出了一种新颖的基于事件的光学字符识别(OCR)方法用于智能眼镜。通过利用用户的眼动,我们对事件流进行中央凹处理,从而显著减少约98%的带宽,同时利用事件摄像头在高动态和快速场景中的优势。我们提出的方法在合成数据上进行深度二值重建训练,并利用多模态大型语言模型(LLM)进行OCR,优于传统的OCR解决方案。我们的结果表明,该方法能够在RGB摄像头难以应对的低光环境中读取文本,同时使用的带宽最多比可穿戴RGB摄像头少2400倍。

[46] 视频对于训练视频大语言模型有多重要?
标题: How Important are Videos for Training Video LLMs?
作者: George Lydakis / Alexander Hermans / Ali Athar / Daan de Geus / Bastian Leibe
原文:   [英文]   [中文]  
备注: Project page on this https URL
摘要:
近年来,视频大语言模型(LLMs)的研究进展迅速,短短几年内涌现出众多模型和基准测试。通常,这些模型是通过预训练的仅文本大语言模型初始化,并在图像和视频字幕数据集上进行微调。在本文中,我们的研究结果表明,视频大语言模型在仅图像训练后具备的时间推理能力比预期更强,而视频特定训练带来的改进却出乎意料地小。具体而言,我们展示了使用最新的LongVU算法训练的两个大语言模型的图像训练版本在TVBench(一种时间推理基准测试)上的表现显著高于随机水平。此外,我们引入了一种简单的微调方案,涉及带有时间能力标注的图像序列和问题。这个基线方案的时间推理性能接近甚至有时高于视频训练的大语言模型。这表明当前模型未能充分利用真实视频中丰富的时间特征。我们的分析激励了进一步研究图像训练的大语言模型进行时间推理的机制,以及导致当前视频训练方案效率低下的瓶颈。

[47] 极性分层曼巴:面向流式激光雷达目标检测的自我中心序列点云
标题: Polar Hierarchical Mamba: Towards Streaming LiDAR Object Detection with Point Clouds as Egocentric Sequences
作者: Mellon M. Zhang / Glen Chou / Saibal Mukhopadhyay
原文:   [英文]   [中文]  
备注: None
摘要:
准确且高效的目标检测对于自动驾驶车辆至关重要,因为实时感知需要低延迟和高吞吐量。LiDAR传感器提供了稳健的深度信息,但传统方法在单次处理完整的360°扫描时会引入显著的延迟。流式处理方法通过在原生极坐标系中顺序处理部分扫描来解决这一问题,但它们依赖于与极几何不对齐的平移不变卷积——导致性能下降或需要复杂的畸变缓解。最近基于Mamba的状态空间模型(SSMs)在LiDAR感知中显示出前景,但仅限于全扫描设置,依赖于几何序列化和位置嵌入,这些方法在内存方面要求高且不适合流式处理。我们提出了极坐标分层Mamba(PHiM),一种专为极坐标流式LiDAR设计的新型SSM架构。PHiM使用局部双向Mamba块进行扇区内空间编码,并使用全局前向Mamba进行扇区间时间建模,替代卷积和位置编码为畸变感知的、维度分解的操作。PHiM在Waymo开放数据集上的流式检测器中设定了新的最先进水平,性能比之前的最佳结果提高了10%,并在两倍吞吐量下匹配全扫描基线。代码将在此https URL上提供。

[48] LaTtE-Flow:基于层次时间步专家流的Transformer
标题: LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer
作者: Ying Shen / Zhiyang Xu / Jiuhai Chen / Shizhe Diao / Jiaxin Zhang / Yuguang Yao / Joy Rimchala / Ismini Lourentzou / Lifu Huang
原文:   [英文]   [中文]  
备注: Unified multimodal model, Flow-matching
摘要:
最近在统一图像理解和生成的多模态基础模型方面的进展,为在单一框架内解决广泛的视觉-语言任务开辟了令人兴奋的途径。尽管取得了一定进展,现有的统一模型通常需要大量的预训练,并且在性能上难以与专用于每个任务的模型相媲美。此外,这些模型中的许多在图像生成速度上较慢,限制了它们在实时或资源受限环境中的实际部署。在这项工作中,我们提出了一种名为层次时间步专家流变换器(LaTtE-Flow)的新颖高效架构,将图像理解和生成统一在一个多模态模型中。LaTtE-Flow基于强大的预训练视觉-语言模型(VLMs),继承了强大的多模态理解能力,并通过一种新颖的层次时间步专家流架构扩展了高效的图像生成。LaTtE-Flow将流匹配过程分布在专门的变换器层组中,每组负责不同子集的时间步。这种设计通过在每个采样时间步仅激活一小部分层,显著提高了采样效率。为了进一步提升性能,我们提出了一种时间步条件残差注意机制,以实现跨层的高效信息重用。实验表明,LaTtE-Flow在多模态理解任务上表现出色,同时在图像生成质量上具有竞争力,并且与最近的统一多模态模型相比,推理速度提高了约6倍。

[49] 任务驱动的文档扫描真实世界超分辨率
标题: Task-driven real-world super-resolution of document scans
作者: Maciej Zyrek / Tomasz Tarasiewicz / Jakub Sadel / Aleksandra Krzywon / Michal Kawulok
原文:   [英文]   [中文]  
备注: None
摘要:
单图像超分辨率是指从单个低分辨率观测中重建高分辨率图像。尽管最近基于深度学习的方法在模拟数据集上取得了显著成功——这些数据集中的低分辨率图像是通过降质和下采样高分辨率图像获得的——但它们在推广到真实世界环境时常常失败,例如受到复杂降质和语义多样性影响的文档扫描。在本研究中,我们引入了一种任务驱动的多任务学习框架,用于训练专门为光学字符识别任务优化的超分辨率网络。我们建议结合从高级视觉任务中衍生的辅助损失函数,包括使用连接主义文本提议网络进行的文本检测、通过卷积递归神经网络进行的文本识别、使用关键点定位以及色调一致性。为了平衡这些多样化的目标,我们采用动态权重平均机制,该机制根据每个损失项的收敛行为自适应地调整其相对重要性。我们在SRResNet架构上验证了我们的方法,该架构是单图像超分辨率的成熟技术。在模拟和真实世界扫描文档数据集上的实验评估表明,所提出的方法在提高文本检测(以交并比衡量)的同时保持了整体图像保真度。这些发现强调了多目标优化在超分辨率模型中弥合模拟训练环境与实际部署之间差距的价值。

[50] AR-RAG:用于图像生成的自回归检索增强
标题: AR-RAG: Autoregressive Retrieval Augmentation for Image Generation
作者: Jingyuan Qi / Zhiyang Xu / Qifan Wang / Lifu Huang
原文:   [英文]   [中文]  
备注: Image Generation, Retrieval Augmented Generation
摘要:
我们介绍了一种新的范式——自回归检索增强(AR-RAG),通过在图像生成过程中自回归地在图像块级别结合最近邻检索来增强图像生成。与之前的方法不同,这些方法在生成之前执行一次静态检索,并将整个生成过程基于固定的参考图像进行条件化,AR-RAG在每个生成步骤中执行上下文感知的检索,使用先前生成的图像块作为查询来检索和结合最相关的图像块级别的视觉参考,使模型能够响应不断变化的生成需求,同时避免现有方法中常见的限制(例如,过度复制、风格偏见等)。为了实现AR-RAG,我们提出了两个并行框架:(1)解码中的分布增强(DAiD),一种无需训练的即插即用解码策略,直接将模型预测的图像块的分布与检索到的图像块的分布合并;(2)解码中的特征增强(FAiD),一种参数高效的微调方法,通过多尺度卷积操作逐步平滑检索到的图像块的特征,并利用它们来增强图像生成过程。我们在广泛采用的基准测试中验证了AR-RAG的有效性,包括Midjourney-30K、GenEval和DPG-Bench,展示了相较于最先进的图像生成模型的显著性能提升。

[51] 基于CNN-Transformer混合网络的双视角时空特征融合用于中文单字手语识别
标题: Dual-view Spatio-Temporal Feature Fusion with CNN-Transformer Hybrid Network for Chinese Isolated Sign Language Recognition
作者: Siyuan Jing / Guangxue Wang / Haoyang Zhai / Qin Tao / Jun Yang / Bing Wang / Peng Jin
原文:   [英文]  
备注: 18 pages, 3 figures
摘要:
由于许多手语数据集的出现,单独手语识别(ISLR)在近年来取得了显著进展。此外,各种先进深度神经网络的发展也是这一突破的另一个原因。然而,在实际应用中仍然存在挑战。首先,现有的手语数据集并未涵盖整个手语词汇。其次,大多数手语数据集仅提供单视角的RGB视频,这使得在执行ISLR时难以处理手部遮挡问题。为了解决这一问题,本文提出了一个用于ISLR的双视角手语数据集,名为NationalCSL-DP,该数据集全面覆盖了中国国家手语词汇。该数据集由134140个手语视频组成,这些视频由十位手语者从两个垂直视角(即正面和左侧)录制。此外,还提出了一种CNN变压器网络作为强大的基线,并提出了一种极其简单但有效的融合策略用于预测。进行了广泛的实验以证明数据集和基线的有效性。结果表明,所提出的融合策略可以显著提高ISLR的性能,但无论是采用早期融合还是后期融合策略,序列到序列模型都不容易从两个垂直视角的手语视频中学习到互补特征。

[52] 通过偏好对齐使用多模态大模型先验引导跨模态表示
标题: Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment
作者: Pengfei Zhao / Rongbo Luan / Wei Zhang / Peng Wu / Sifeng He
原文:   [英文]   [中文]  
备注: None
摘要:
尽管对比语言-图像预训练(CLIP)在跨模态内容检索方面表现出色,但其特征空间中仍存在显著的模态差距。有趣的是,我们发现现成的多模态大型语言模型(MLLM)展示了强大的内在模态对齐特性。虽然最近基于MLLM的检索器通过统一架构部分缓解了这一差距,但它们对粗略模态对齐机制的依赖从根本上限制了其潜力。在这项工作中,我们引入了MAPLE(用于嵌入的模态对齐偏好学习),这是一种新颖的框架,利用MLLM中固有的细粒度对齐先验来指导跨模态表示学习。MAPLE将学习过程表述为具有两个关键组件的强化学习:(1)使用现成的MLLM自动构建偏好数据,以及(2)一种新的相对偏好对齐(RPA)损失,它将直接偏好优化(DPO)适应于嵌入学习环境。实验结果表明,我们的偏好引导对齐在细粒度跨模态检索中取得了显著的提升,强调了其在处理细微语义差异方面的有效性。

[53] 用于高效室内场景重建的混合网格-高斯表示
标题: Hybrid Mesh-Gaussian Representation for Efficient Indoor Scene Reconstruction
作者: Binxiao Huang / Zhihao Li / Shiyong Liu / Xiao Tang / Jiajun Tang / Jiaqi Lin / Yuxin Cheng / Zhenyu Chen / Xiaofei Wu / Ngai Wong
原文:   [英文]   [中文]  
备注: None
摘要:
3D 高斯散点(3DGS)在基于图像的三维重建和实时渲染中表现出色。然而,对于具有复杂纹理的区域,需要大量高斯点来准确捕捉显著的颜色变化,这导致渲染速度低效。为了解决这一问题,我们引入了一种用于室内场景的混合表示方法,将 3DGS 与纹理网格结合。我们的方法使用纹理网格来处理纹理丰富的平坦区域,同时保留高斯点以建模复杂的几何形状。该方法首先通过修剪和优化提取的网格来消除几何复杂的区域。然后,我们对 3DGS 和网格进行联合优化,结合预热策略和透射率感知监督,以平衡它们的贡献。实验结果表明,这种混合表示方法在保持可比渲染质量的同时,以更少的高斯原语实现了更高的每秒帧数(FPS)。

[54] 通过面向共性的梯度优化提升对抗性可迁移性
标题: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
作者: Yanting Gao / Yepeng Liu / Junming Liu / Qi Zhang / Hongyun Zhang / Duoqian Miao / Cairong Zhao
原文:   [英文]  
备注: 22 pages
摘要:
探索有效且可迁移的对抗样本对于理解视觉变换器(ViTs)的特性和机制至关重要。然而,由替代模型生成的对抗样本在黑箱环境中往往表现出较弱的迁移性,这是由于过拟合造成的。现有方法通过多样化扰动输入或在替代模型中应用统一的梯度正则化来提高迁移性,但它们尚未充分利用在同一任务上训练的替代模型的共享和独特特征,导致迁移性能不佳。因此,增强替代模型共享信息的扰动并抑制与个体特征相关的扰动提供了一种提高迁移性的有效方法。因此,我们提出了一种面向共性的梯度优化策略(COGO),由两个部分组成:共性增强(CE)和个性抑制(IS)。CE扰动中低频区域,利用了在同一数据集上训练的ViTs倾向于更多依赖中低频信息进行分类的事实。IS采用自适应阈值来评估反向传播梯度与模型个性的相关性,并相应地为梯度分配权重。大量实验表明,COGO显著提高了对抗攻击的迁移成功率,优于当前的最新方法。

[55] DM$^3$Net:通过域调制和多尺度匹配实现双摄像头超分辨率
标题: DM$^3$Net: Dual-Camera Super-Resolution via Domain Modulation and Multi-scale Matching
作者: Cong Guan / Jiacheng Ying / Yuya Ieiri / Osamu Yoshie
原文:   [英文]   [中文]  
备注: None
摘要:
双摄像头超分辨率在智能手机摄影中具有高度实用性,主要是利用长焦图像作为参考对广角图像进行超分辨率。在本文中,我们提出了DM$^3$Net,这是一种基于域调制和多尺度匹配的新型双摄像头超分辨率网络。为了弥合高分辨率域和退化域之间的域差距,我们从对应于这两个域的图像对中学习两个压缩的全局表示。为了可靠地从参考图像中传递高频结构细节,我们设计了一个多尺度匹配模块,该模块在多个感受野中进行补丁级特征匹配和检索,以提高匹配的准确性和鲁棒性。此外,我们还引入了关键剪枝技术,以在牺牲很少模型性能的情况下显著减少内存使用和推理时间。三个真实世界数据集的实验结果表明,我们的DM$^3$Net优于最先进的方法。

[56] ICRA 2025 GOOSE 3D语义分割挑战赛技术报告:异构机器人系统的自适应点云理解
标题: Technical Report for ICRA 2025 GOOSE 3D Semantic Segmentation Challenge: Adaptive Point Cloud Understanding for Heterogeneous Robotic Systems
作者: Xiaoya Zhang
原文:   [英文]   [中文]  
备注: Winner of the GOOSE 3D Semantic Segmentation Challenge at the IEEE ICRA Workshop on Field Robotics 2025
摘要:
本技术报告介绍了在 ICRA 2025 GOOSE 3D 语义分割挑战赛中获胜方案的实现细节。该挑战赛的重点是对来自多个机器人平台的多样化非结构化户外环境的3D点云进行语义分割。我们通过实现与 Point Transformer v3 (PTv3) 主干集成的 Point Prompt Tuning (PPT) 来解决这一问题,从而通过平台特定的条件和跨数据集的类别对齐策略实现对异构 LiDAR 数据的自适应处理。该模型在训练时不需要额外的外部数据。结果表明,与基线 PTv3 模型相比,这种方法在具有挑战性的平台上实现了高达 22.59% 的 mIoU 提升,展示了自适应点云理解在现场机器人应用中的有效性。

[57] BePo:利用鸟瞰图和稀疏点进行高效且准确的3D占用预测
标题: BePo: Leveraging Birds Eye View and Sparse Points for Efficient and Accurate 3D Occupancy Prediction
作者: Yunxiao Shi / Hong Cai / Jisoo Jeong / Yinhao Zhu / Shizhong Han / Amin Ansari / Fatih Porikli
原文:   [英文]   [中文]  
备注: Two-page abstract version available at CVPR 2025 Embodied AI Workshop
摘要:
3D占用提供了用于场景理解的细粒度3D几何和语义,这对于自动驾驶至关重要。然而,大多数现有方法计算成本高昂,需要密集的3D特征体积和交叉注意力来有效聚合信息。最近的一些工作采用了鸟瞰图(BEV)或稀疏点作为场景表示,大大降低了成本,但仍然存在各自的缺点。具体来说,BEV在处理小物体时表现不佳,因为这些物体在投影到地面平面后经常会经历显著的信息损失。另一方面,点可以灵活地在3D中建模小物体,但在捕捉平面或大物体时效率不高。为了解决这些挑战,本文提出了一种新颖的3D占用预测方法BePo,它结合了BEV和基于稀疏点的表示。我们提出了一种双分支设计:一个基于查询的稀疏点分支和一个BEV分支。稀疏点分支中学习到的3D信息通过交叉注意力与BEV流共享,从而丰富了BEV平面上难以处理的物体的弱信号。两个分支的输出最终融合以生成预测的3D占用。我们在Occ3D-nuScenes和Occ3D-Waymo基准上进行了广泛的实验,证明了我们提出的BePo的优越性。此外,与最新的高效方法相比,BePo还提供了具有竞争力的推理速度。

[58] UNO:用于平台无关部署的统一自监督单目里程计
标题: UNO: Unified Self-Supervised Monocular Odometry for Platform-Agnostic Deployment
作者: Wentao Zhao / Yihe Niu / Yanbo Wang / Tianchen Deng / Shenghai Yuan / Zhenli Wang / Rui Guo / Jingchuan Wang
原文:   [英文]   [中文]  
备注: 15pages, 8 figures
摘要:
本文介绍了UNO,一个统一的单目视觉里程计框架,能够在多样化的环境、平台和运动模式下实现稳健且适应性强的位姿估计。与依赖于特定部署调优或预定义运动先验的传统方法不同,我们的方法能够有效地泛化到广泛的现实场景中,包括自动驾驶车辆、空中无人机、移动机器人和手持设备。为此,我们引入了一种用于局部状态估计的专家混合策略,其中包含多个专门的解码器,每个解码器处理一类特定的自运动模式。此外,我们引入了一个完全可微的Gumbel-Softmax模块,该模块构建了一个稳健的帧间相关图,选择最佳的专家解码器,并修剪错误的估计。这些线索随后被输入到一个统一的后端,该后端结合了预训练的、与尺度无关的深度先验和轻量级的捆绑调整,以强制几何一致性。我们在三个主要基准数据集上对我们的方法进行了广泛评估:KITTI(户外/自动驾驶)、EuRoC-MAV(室内/空中无人机)和TUM-RGBD(室内/手持),展示了最先进的性能。

[59] TABLET:使用仅编码器的变压器进行表结构识别
标题: TABLET: Table Structure Recognition using Encoder-only Transformers
作者: Qiyu Hou / Jun Wang
原文:   [英文]   [中文]  
备注: ICDAR 2025
摘要:
为了解决表格结构识别的挑战,我们提出了一种新颖的基于分裂-合并的自顶向下模型,该模型针对大型、密集的表格进行了优化。我们的方法将行和列的分割表述为序列标注任务,利用双Transformer编码器来捕捉特征交互。合并过程被框定为网格单元分类任务,利用额外的Transformer编码器来确保准确和连贯的合并。通过消除不稳定的边界框预测,我们的方法减少了分辨率损失和计算复杂性,在保持快速处理速度的同时实现了高精度。在FinTabNet和PubTabNet上的大量实验表明,我们的模型在现有方法之上具有优越性,特别是在实际应用中。我们的方法为大规模表格识别提供了一种稳健、可扩展且高效的解决方案,使其非常适合工业部署。

[60] MAGNET:一种通过多视频干草堆推理来寻找视听针的多智能体框架
标题: MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks
作者: Sanjoy Chowdhury / Mohamed Elmoghany / Yohan Abeysinghe / Junjie Fei / Sayan Nag / Salman Khan / Mohamed Elhoseiny / Dinesh Manocha
原文:   [英文]   [中文]  
备注: Audio-visual learning, Audio-Visual RAG, Multi-Video Linkage
摘要:
大型多模态模型(LMMs)在视听理解方面取得了显著进展,但在需要对大量视频进行复杂推理的真实场景中仍然面临挑战。现有的视频问答基准测试范围有限,通常每个查询只涉及一个片段,这不足以代表在实际应用中遇到的大规模视听检索和推理的挑战。为弥补这一差距,我们引入了一项名为AV-HaystacksQA的新任务,其目标是识别不同视频中与查询相关的显著片段,并将它们链接在一起以生成最具信息量的答案。为此,我们提出了AVHaystacks,这是一个视听基准测试,包含3100个注释的问答对,旨在评估LMMs在多视频检索和时间定位任务中的能力。此外,我们提出了一个与模型无关的多代理框架MAGNET来解决这一挑战,在我们提出的AVHaystacks的问答任务中,相较于基线方法在BLEU@4和GPT评估分数上分别实现了高达89%和65%的相对改进。为了实现对多视频检索和时间定位的稳健评估,以生成最佳响应,我们引入了两个新指标:STEM,用于捕捉真实步骤序列与预测步骤序列之间的对齐错误,以及MTGS,以促进对片段级定位性能的平衡和可解释的评估。项目链接:this https URL

[61] 通过在多模态大模型中进行有根据的推理,实现对AI生成图像的可解释和可靠检测
标题: Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs
作者: Yikun Ji / Hong Yan / Jun Lan / Huijia Zhu / Weiqiang Wang / Qi Fan / Liqing Zhang / Jianfu Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
图像生成技术的快速发展加剧了对可解释且稳健的检测方法的需求。尽管现有方法通常能达到较高的准确性,但它们通常作为黑箱操作,无法提供人类可理解的理由。多模态大型语言模型(MLLMs)虽然最初并非用于伪造检测,但展现出强大的分析和推理能力。当经过适当微调后,它们可以有效识别AI生成的图像并提供有意义的解释。然而,现有的MLLMs仍然存在幻觉问题,常常无法将其视觉解释与实际图像内容和人类推理对齐。为弥合这一差距,我们构建了一个带有边界框和描述性字幕的AI生成图像数据集,突出合成伪影,为人类对齐的视觉-文本基础推理奠定基础。然后,我们通过多阶段优化策略微调MLLMs,逐步平衡准确检测、视觉定位和连贯文本解释的目标。最终模型在检测AI生成图像和定位视觉缺陷方面表现出色,显著优于基线方法。

[62] 从扫描到全圆盘:通过多模态知识扩展推进降水反演
标题: From Swath to Full-Disc: Advancing Precipitation Retrieval with Multimodal Knowledge Expansion
作者: Zheng Wang / Kai Ying / Bin Xu / Chunjiao Wang / Cong Bai
原文:   [英文]   [中文]  
备注: None
摘要:
基于卫星的技术提高了准确的近实时降水检索。然而,由于与地表降水的关系较弱,红外算法的准确性较低,而被动微波和雷达方法虽然更准确,但在范围上有限。这一挑战促使了降水检索扩展(PRE)任务的产生,其目标是实现超出扫描范围的准确红外全盘降水检索。我们介绍了多模态知识扩展,这是一种包含提出的PRE-Net模型的两阶段流程。在扫描蒸馏阶段,PRE-Net通过协调掩蔽和小波增强(CoMWE),将多模态数据集成模型的知识转移到扫描范围内的红外模型。在全盘适应阶段,Self-MaskTune通过平衡多模态和全盘红外知识来优化全盘的预测。在引入的PRE基准上的实验表明,PRE-Net显著提高了降水检索性能,优于PERSIANN-CCS、PDIR和IMERG等领先产品。代码将在此https URL上提供。

[63] 一种分层自监督知识蒸馏框架,用于高效边缘多模态学习
标题: A Layered Self-Supervised Knowledge Distillation Framework for Efficient Multimodal Learning on the Edge
作者: Tarique Dahri / Zulfiqar Ali Memon / Zhenyu Yu / Mohd. Yamani Idna Idris / Sheheryar Khan / Sadiq Ahmad / Maged Shoman / Saddam Aziz / Rizwan Qureshi
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了一种用于训练紧凑型深度学习模型的分层自监督知识蒸馏(LSSKD)框架。与依赖于预训练教师网络的传统方法不同,我们的方法在中间特征图上附加辅助分类器,生成多样化的自监督知识,并实现跨不同网络阶段的一对一传递。我们的方法在CIFAR-100数据集上比最先进的PS-KD方法平均提高了4.54%,比SSKD提高了1.14%,在ImageNet上比HASSKD提高了0.32%。在Tiny ImageNet和CIFAR-100的少样本学习场景下的实验也达到了最先进的结果。这些发现表明,我们的方法在无需大型过参数化教师网络的情况下,有效地增强了模型的泛化能力和性能。重要的是,在推理阶段,所有辅助分类器都可以被移除,不会产生额外的计算成本。这使得我们的模型适合在低计算能力的设备上部署小型语言模型。由于其轻量化设计和适应性,我们的框架特别适合需要高效和响应迅速推理的多模态传感和信息物理环境。LSSKD促进了能够在弱监督下从有限感官数据中学习的智能代理的发展。

[64] D2R:具有协作对抗生成的双重正则化损失以增强模型鲁棒性
标题: D2R: dual regularization loss with collaborative adversarial generation for model robustness
作者: Zhenyu Liu / Huizhi Liang / Rajiv Ranjan / Zhanxing Zhu / Vaclav Snasel / Varun Ojha
原文:   [英文]   [中文]  
备注: None
摘要:
深度神经网络模型的鲁棒性对于防御模型免受对抗性攻击至关重要。最近的防御方法采用协作学习框架来增强模型的鲁棒性。现有方法的两个主要局限是:(i) 通过损失函数对目标模型的指导不足,以及 (ii) 非协作的对抗样本生成。因此,我们提出了一种双重正则化损失(D2R Loss)方法和一种协作对抗生成(CAG)策略用于对抗训练。D2R损失包括两个优化步骤。对抗分布和干净分布的优化通过利用不同损失函数的优势来增强目标模型的鲁棒性,这些损失函数通过适当的函数空间探索获得,以更精确地关注目标模型的分布。CAG通过指导模型和目标模型之间的基于梯度的协作生成对抗样本。我们在三个基准数据库上进行了广泛的实验,包括CIFAR-10、CIFAR-100、Tiny ImageNet,以及两个流行的目标模型,WideResNet34-10和PreActResNet18。我们的结果表明,结合CAG的D2R损失能够生成高度鲁棒的模型。

[65] FLAIR-HUB:用于土地覆盖和作物制图的大规模多模态数据集
标题: FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping
作者: Anatol Garioud / Sébastien Giordano / Nicolas David / Nicolas Gonthier
原文:   [英文]   [中文]  
备注: None
摘要:
随着高质量地球观测(EO)数据的日益普及,全球土地覆盖和作物类型监测变得更加准确。然而,这些数据集的庞大体量和异质性带来了主要的处理和标注挑战。为了解决这些问题,法国国家地理和森林信息研究所(IGN)正在积极探索利用多样化EO数据的创新策略,这需要大量标注的数据集。IGN推出了FLAIR-HUB,这是最大的多传感器土地覆盖数据集,具有非常高的分辨率(20厘米)标注,覆盖了法国的2528平方公里。它结合了六种对齐的模态:航空影像、Sentinel-1/2时间序列、SPOT影像、地形数据和历史航空影像。广泛的基准测试评估了用于土地覆盖或作物映射的多模态融合和深度学习模型(CNNs,transformers),并探索了多任务学习。结果强调了多模态融合和细粒度分类的复杂性,最佳的土地覆盖性能(78.2%的准确率,65.8%的mIoU)是通过几乎使用所有模态实现的。FLAIR-HUB支持监督和多模态预训练,数据和代码可在此https URL获取。

[66] UCOD-DPL:通过动态伪标签学习进行无监督伪装物体检测
标题: UCOD-DPL: Unsupervised Camouflaged Object Detection via Dynamic Pseudo-label Learning
作者: Weiqi Yan / Lvhai Chen / Huaijia Kou / Shengchuan Zhang / Yan Zhang / Liujuan Cao
原文:   [英文]  
备注: Accepted by CVPR 2025 (Hightlight)
摘要:
无监督伪装物体检测(UCOD)因不需要依赖大量的像素级标注而受到关注。现有的UCOD方法通常使用固定策略生成伪标签,并训练1x1卷积层作为简单解码器,与完全监督的方法相比,性能较低。我们强调这些方法中的两个缺点:1)由于伪标签包含大量噪声,模型容易拟合错误的知识。2)简单的解码器无法捕捉和学习伪装物体的语义特征,尤其是对于小尺寸物体,由于低分辨率的伪标签和前景与背景像素之间的严重混淆。为此,我们提出了一种通过动态伪标签学习的教师-学生框架的UCOD方法,称为UCOD-DPL,其中包含自适应伪标签模块(APM)、双分支对抗(DBA)解码器和二次观察机制。APM模块自适应地结合了由固定策略和教师模型生成的伪标签,以防止模型过拟合错误知识,同时保留自我纠正的能力;DBA解码器通过不同分割目标的对抗学习,引导模型克服伪装物体的前景-背景混淆,而二次观察机制模拟人类放大观察伪装物体的倾向,对小尺寸物体进行二次精细化。大量实验表明,我们的方法表现出卓越的性能,甚至超越了一些现有的完全监督方法。代码现已发布。

[67] SceneLCM:基于潜在一致性模型的端到端布局引导交互式室内场景生成
标题: SceneLCM: End-to-End Layout-Guided Interactive Indoor Scene Generation with Latent Consistency Model
作者: Yangkai Lin / Jiabao Lei / Kui Jia
原文:   [英文]   [中文]  
备注: None
摘要:
我们的项目页面:这个 https URL。根据用户提示自动生成复杂的互动室内场景仍然是一个艰巨的挑战。虽然现有方法能够实现室内场景合成,但它们在严格的编辑约束、物理不一致、过多的人力投入、单房间限制以及材料质量不佳方面存在困难。为了解决这些问题,我们提出了SceneLCM,这是一种端到端框架,将大型语言模型(LLM)用于布局设计,与潜在一致性模型(LCM)用于场景优化相结合。我们的方法将场景生成分解为四个模块化流程:(1)布局生成。我们采用LLM引导的3D空间推理,将文本描述转换为参数化蓝图(3D布局)。并通过LLM介导的对话循环进行迭代程序验证机制,迭代优化布局参数;(2)家具生成。SceneLCM采用一致性轨迹采样(CTS),一种由LCM引导的一致性蒸馏采样损失,以形成快速、语义丰富和高质量的表示。我们还提供了两个理论证明,证明我们的CTS损失等价于一致性损失,并且其蒸馏误差由欧拉求解器的截断误差界定;(3)环境优化。我们使用多分辨率纹理场来编码场景的外观,并通过CTS损失进行优化。为了保持跨几何纹理的一致性,我们引入了一种法线感知的跨注意解码器,通过跨注意到几何异构实例中的锚点位置来预测RGB;(4)物理编辑。SceneLCM通过集成物理模拟支持物理编辑,实现持久的物理真实感。大量实验验证了SceneLCM在最先进技术上的优越性,显示出其在多种应用中的广泛潜力。

[68] EdgeSpotter:用于工业面板监控的多尺度密集文本检测
标题: EdgeSpotter: Multi-Scale Dense Text Spotting for Industrial Panel Monitoring
作者: Changhong Fu / Hua Lin / Haobo Zuo / Liangliang Yao / Liguo Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
工业面板的文本检测是智能监控中的一项关键任务。然而,由于跨尺度定位和密集文本区域中模糊边界等问题,实现对复杂工业面板的高效且准确的文本检测仍然具有挑战性。此外,大多数现有方法主要集中于表示单一文本形状,忽视了对不同文本的多尺度特征信息的全面探索。为了解决这些问题,本文提出了一种新颖的多尺度密集文本检测器,用于基于边缘AI的视觉系统(EdgeSpotter),以实现准确且稳健的工业面板监控。具体而言,开发了一种具有高效混合器的新型Transformer,用于学习多层次特征之间的相互依赖性,整合多层空间和语义线索。此外,设计了一种新的Catmull-Rom样条特征采样方法,明确编码文本的形状、位置和语义信息,从而缓解因多尺度或密集文本区域导致的漏检和识别错误。此外,构建了一个用于工业面板监控的新基准数据集(IPM)。在这个具有挑战性的基准数据集上进行的大量定性和定量评估验证了所提方法在不同具有挑战性的面板监控任务中的卓越性能。最后,基于自设计的边缘AI视觉系统的实际测试展示了该方法的实用性。代码和演示将会在此https URL上提供。

[69] 电子废物的图像分割与分类用于废物分拣
标题: Image segmentation and classification of E-waste for waste segregation
作者: Prakriti Tripathi / Theertha Biju / Maniram Thota / Rakesh Lingam
原文:   [英文]   [中文]  
备注: 4 pages, 7 figures. For code and link to dataset, see this https URL
摘要:
行业合作伙伴提供了一个问题陈述,涉及使用机器学习模型对电子废物进行分类,这些模型将由分拣机器人用于废物分离。我们首先选取了一些常见的电子废物物品,如鼠标和充电器,对其进行拆焊,并拍摄照片以创建一个自定义数据集。然后,我们训练并运行了最先进的YOLOv11模型,实现了实时70 mAP的性能。同时,我们也训练了Mask-RCNN模型,达到了41 mAP的效果。该模型将进一步与分拣机器人集成,以执行电子废物的分离。

[70] Hi-VAE:结合全局与细节运动的高效视频自动编码
标题: Hi-VAE: Efficient Video Autoencoding with Global and Detailed Motion
作者: Huaize Liu / Wenzhang Sun / Qiyuan Zhang / Donglin Di / Biao Gong / Hao Li / Chen Wei / Changqing Zou
原文:   [英文]   [中文]  
备注: None
摘要:
最近在视频自编码器(Video AEs)方面的突破推动了视频生成的发展,但现有方法未能有效地建模动态中的时空冗余,导致压缩因子不理想。这一不足导致下游任务的训练成本过高。为了解决这个问题,我们引入了Hi-VAE,这是一种高效的视频自编码框架,能够分层编码视频动态的粗到细的运动表示,并将解码过程表述为一个条件生成任务。具体来说,Hi-VAE将视频动态分解为两个潜在空间:全局运动,捕捉整体运动模式,以及细节运动,编码高频空间细节。通过独立的自监督运动编码器,我们将视频潜在变量压缩为紧凑的运动表示,以显著减少冗余。然后,条件扩散解码器通过结合分层的全局和细节运动来重建视频,实现高保真度的视频重建。大量实验表明,Hi-VAE实现了1428倍的高压缩因子,几乎是基线方法(例如,Cosmos-VAE的48倍)的30倍,验证了我们方法的效率。同时,Hi-VAE在如此高的压缩率下保持了高重建质量,并在下游生成任务中表现出色。此外,Hi-VAE表现出可解释性和可扩展性,为视频潜在表示和生成的未来探索提供了新的视角。

[71] 学习紧凑视觉标记以提高大型多模态模型的效率
标题: Learning Compact Vision Tokens for Efficient Large Multimodal Models
作者: Hao Tang / Chengchao Shen
原文:   [英文]   [中文]  
备注: The source code and trained weights are available at this https URL
摘要:
大型多模态模型(LMMs)由于大型语言模型(LLMs)的高成本和处理长视觉标记序列的二次复杂性,面临显著的计算挑战。在本文中,我们探索视觉标记之间的空间冗余性,并缩短视觉标记序列的长度以加速推理。具体来说,我们提出了一种空间标记融合(STF)方法,以学习紧凑的视觉标记用于短视觉标记序列,其中空间相邻的标记被融合为一个。同时,权重冻结的视觉编码器无法很好地适应广泛的下游视觉语言任务的需求。为此,我们进一步引入了一个多块标记融合(MBTF)模块,为减少的标记序列补充多粒度特征。总体而言,我们结合STF和MBTF模块以平衡标记减少和信息保留,从而在不牺牲多模态推理能力的情况下提高推理效率。实验结果表明,我们基于LLaVA-1.5的方法在8个流行的视觉语言基准上实现了与基线相当甚至更优的性能,仅使用基线的25%视觉标记。源代码和训练权重可在此https URL获取。

[72] GoTrack:通用6自由度物体姿态优化与跟踪
标题: GoTrack: Generic 6DoF Object Pose Refinement and Tracking
作者: Van Nguyen Nguyen / Christian Forster / Sindi Shkodrani / Vincent Lepetit / Bugra Tekin / Cem Keskin / Tomas Hodan
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了GoTrack,这是一种高效且准确的基于CAD的6自由度(6DoF)物体姿态优化和跟踪方法,可以处理各种物体而无需进行特定于物体的训练。与现有的仅依赖于合成分析方法进行模型到帧配准的跟踪方法不同,GoTrack还集成了帧到帧配准,这节省了计算资源并稳定了跟踪。两种配准类型都是通过光流估计实现的。模型到帧的配准比现有方法明显更简单,仅依赖于标准的神经网络模块(在DINOv2上训练的transformer),并且无需评分网络即可生成可靠的姿态置信度分数。对于帧到帧的配准,由于连续的视频帧通常几乎相同,这是一个更简单的问题,我们采用了一个轻量级的现成光流模型。我们证明了GoTrack可以与现有的粗略姿态估计方法无缝结合,创建一个最小化的流程,在6DoF物体姿态估计和跟踪的标准基准上达到RGB-only的最新水平。我们的源代码和训练模型可以在这个https URL公开获取。

[73] 比快更快:在低端嵌入式GPU上加速定向FAST特征检测
标题: Faster than Fast: Accelerating Oriented FAST Feature Detection on Low-end Embedded GPUs
作者: Qiong Chang / Xinyuan Chen / Xiang Li / Weimin Wang / Jun Miyazaki
原文:   [英文]   [中文]  
备注: None
摘要:
视觉SLAM(同时定位与地图构建)是一项广泛应用于机器人导航和虚拟现实等领域的技术,主要通过从视觉图像中检测特征点来构建未知环境地图,并同时确定自身位置。它通常对硬件功耗、处理速度和精度有严格要求。目前,基于ORB(定向FAST和旋转BRIEF)的SLAM系统在处理速度和鲁棒性方面表现出色。然而,它们仍然难以满足移动平台对实时处理的需求。这一限制主要是由于耗时的定向FAST计算,占据了整个SLAM系统大约一半的时间。本文提出了两种方法来加速低端嵌入式GPU上的定向FAST特征检测。这些方法优化了定向FAST特征检测中最耗时的步骤:FAST特征点检测和Harris角点检测。通过实现二进制级编码策略快速确定候选点,以及使用高效的低级GPU硬件特定指令的可分离Harris检测策略来实现。大量在Jetson TX2嵌入式GPU上的实验表明,与广泛使用的支持GPU的OpenCV相比,平均加速超过7.3倍。这一显著的改进突显了其在移动和资源受限环境中实时应用的有效性和潜力。

[74] 帧引导:视频扩散模型中帧级控制的无训练引导
标题: Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models
作者: Sangwon Jang / Taekyung Ki / Jaehyeong Jo / Jaehong Yoon / Soo Ye Kim / Zhe Lin / Sung Ju Hwang
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
扩散模型的进步显著提升了视频质量,使得人们更加关注细粒度的可控性。然而,许多现有方法依赖于对大规模视频模型进行微调以完成特定任务,随着模型规模的不断增长,这种方法变得越来越不切实际。在这项工作中,我们提出了帧引导,这是一种基于帧级信号(如关键帧、风格参考图像、草图或深度图)的可控视频生成的无训练引导。为了实现实用的无训练引导,我们提出了一种简单的潜在处理方法,大幅减少了内存使用,并应用了一种新颖的潜在优化策略,旨在实现全局一致的视频生成。帧引导能够在包括关键帧引导、风格化和循环在内的多种任务中实现有效控制,无需任何训练,并且与任何视频模型兼容。实验结果表明,帧引导可以为广泛的任务和输入信号生成高质量的可控视频。

[75] 用于后训练神经网络的分层特征级反向传播
标题: Hierarchical Feature-level Reverse Propagation for Post-Training Neural Networks
作者: Ni Ding / Lei He / Shengbo Eben Li / Keqiang Li
原文:   [英文]   [中文]  
备注: 13 pages, 7 figures,
摘要:
端到端自动驾驶已成为一种主流范式,但其高度纠缠的黑箱模型在可解释性和安全保障方面带来了显著挑战。为了提高模型的透明度和训练的灵活性,本文提出了一种针对预训练神经网络的分层解耦后训练框架。通过从真实标签重建中间特征图,在过渡层引入替代监督信号,以实现特定组件的独立训练,从而避免传统端到端反向传播的复杂性和耦合性,并提供对网络内部机制的可解释性洞察。据我们所知,这是第一个将特征级反向计算形式化为良定优化问题的方法,我们严格地将其重新表述为线性方程组或最小二乘问题。这建立了一种新颖且高效的训练范式,将梯度反向传播扩展到特征反向传播。在多个标准图像分类基准上的广泛实验表明,与传统训练方法相比,所提出的方法在泛化性能和计算效率方面表现优越,验证了其有效性和潜力。

[76] SAP-Bench:在外科手术行动规划中对多模态大型语言模型进行基准测试
标题: SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning
作者: Mengya Xu / Zhongzhen Huang / Dillan Imans / Yiru Ye / Xiaofan Zhang / Qi Dou
原文:   [英文]   [中文]  
备注: 11 pages, 4 figures
摘要:
有效的评估对于推动多模态大语言模型(MLLM)研究的进步至关重要。外科手术动作规划(SAP)任务旨在从视觉输入中生成未来的动作序列,这需要精确和复杂的分析能力。与数学推理不同,外科决策在生命攸关的领域中运作,需要细致、可验证的过程以确保可靠性和患者安全。该任务要求能够区分基本的视觉动作并协调复杂的、长时间的程序,而当前的基准测试对此评估不足。为了解决这一差距,我们引入了SAP-Bench,这是一个大规模、高质量的数据集,旨在使多模态大语言模型能够执行可解释的外科手术动作规划。我们的SAP-Bench基准源自胆囊切除术的背景,平均持续时间为1137.5秒,并引入了时间上有依据的外科手术动作注释,包括1,226个临床验证的动作片段(平均持续时间:68.7秒),捕捉了74个手术中的五个基本外科动作。该数据集提供了1,152个战略性采样的当前帧,每个帧都与相应的下一个动作配对,作为多模态分析的锚点。我们提出了MLLM-SAP框架,该框架利用多模态大语言模型从当前的手术场景和自然语言指令中生成下一个动作建议,并注入了外科领域的知识。为了评估我们数据集的有效性以及当前模型的更广泛能力,我们评估了七个最先进的多模态大语言模型(例如,OpenAI-o1、GPT-4o、QwenVL2.5-72B、Claude-3.5-Sonnet、GeminiPro2.5、Step-1o和GLM-4v),并揭示了下一个动作预测性能中的关键差距。

[77] TV-LiVE:通过层信息活力利用进行无训练、文本引导的视频编辑
标题: TV-LiVE: Training-Free, Text-Guided Video Editing via Layer Informed Vitality Exploitation
作者: Min-Jung Kim / Dongjin Kim / Seokju Yun / Jaegul Choo
原文:   [英文]   [中文]  
备注: None
摘要:
随着基于扩散的视频生成模型的快速进展,视频编辑引起了越来越多的关注。作为这些进展的一部分,对更易于访问和控制的视频编辑形式的需求不断增长,例如基于提示的编辑。以往的研究主要集中在风格迁移、背景替换、对象替换和属性修改等任务,同时保持源视频的内容结构。然而,更复杂的任务,包括添加新对象和非刚性变换,仍然相对未被探索。在本文中,我们提出了TV-LiVE,一种无需训练且通过文本指导的视频编辑框架,利用层信息活力开发。我们通过实验证实了视频生成模型中显著影响生成输出质量的重要层。值得注意的是,这些层与旋转位置嵌入(RoPE)密切相关。基于这一观察,我们的方法通过选择性地将源模型中的关键和价值特征注入目标模型的相应层中,以层活力为指导,实现了对象添加和非刚性视频编辑。对于对象添加,我们进一步识别出显著层以提取与新添加的目标提示相对应的掩码区域。我们发现,从显著层提取的掩码忠实地指示了需要编辑的区域。实验结果表明,TV-LiVE在对象添加和非刚性视频编辑方面优于现有方法。项目页面:this https URL

[78] 通过隐蔽的语义操控对视觉语言模型进行后门攻击
标题: Backdoor Attack on Vision Language Models with Stealthy Semantic Manipulation
作者: Zhiyuan Zhong / Zhen Sun / Yepang Liu / Xinlei He / Guanhong Tao
原文:   [英文]   [中文]  
备注: None
摘要:
视觉语言模型(VLMs)表现出色,但也容易受到后门攻击,攻击者可以通过隐藏触发器操纵模型的输出。之前的攻击主要依赖于单一模态触发器,未能充分探索VLMs的重要跨模态融合特性。与之前的工作不同,我们识别出一种新颖的攻击面,利用跨模态语义不匹配作为隐式触发器。基于这一见解,我们提出了BadSem(通过语义操控的后门攻击),这是一种数据投毒攻击,通过在训练过程中故意错配图像-文本对来注入隐蔽的后门。为了执行攻击,我们构建了SIMBad,一个专为语义操控设计的数据集,涉及颜色和对象属性。对四种广泛使用的VLMs进行的大量实验表明,BadSem在平均攻击成功率(ASR)上超过98%,能够很好地泛化到分布外的数据集,并且可以在不同的投毒模态间转移。我们通过注意力可视化进行的详细分析显示,后门模型在不匹配条件下关注语义敏感区域,同时在干净输入上保持正常行为。为了缓解攻击,我们尝试了基于系统提示和监督微调的两种防御策略,但发现它们都未能缓解语义后门。我们的研究结果强调了迫切需要解决VLMs中的语义漏洞,以确保其更安全的部署。

[79] AugmentGest:随机数据裁剪增强能否提升手势识别性能?
标题: AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance?
作者: Nada Aboudeshish / Dmitry Ignatov / Radu Timofte
原文:   [英文]   [中文]  
备注: None
摘要:
数据增强是深度学习中的一项关键技术,尤其适用于数据集多样性有限的任务,例如基于骨架的数据集。本文提出了一个综合的数据增强框架,该框架整合了几何变换、随机裁剪、旋转、缩放和基于强度的变换、亮度和对比度调整,以模拟现实世界的变化。随机裁剪确保了时空完整性的保持,同时解决了视角偏差和遮挡等挑战。增强管道为每个样本生成三个增强版本,外加数据集样本,从而使数据集大小增加四倍,并丰富了手势表示的多样性。所提出的增强策略在三个模型上进行了评估:多流e2eET、基于FPPR点云的手势识别(HGR)和DD-Network。实验在基准数据集DHG14/28、SHREC'17和JHMDB上进行。e2eET模型被认为是DHG14/28和SHREC'17上手势识别的最新技术。FPPR-PCD模型是SHREC'17上表现第二好的模型,在基于点云的手势识别中表现出色。DD-Net是一种用于基于骨架的动作识别的轻量且高效的架构,在SHREC'17和人类运动数据库(JHMDB)上进行了评估。结果强调了所提出的增强策略的有效性和多功能性,显著提高了模型在不同数据集和架构上的泛化能力和鲁棒性。该框架不仅在所有三个评估模型上建立了最新的结果,还为在现实场景中推进HGR和动作识别应用提供了一个可扩展的解决方案。该框架可在此https URL获取。

[80] 一目了然的幻觉:受控视觉编辑与细粒度多模态学习
标题: Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning
作者: Tianyi Bai / Yuxuan Fan / Jiantao Qiu / Fupeng Sun / Jiayi Song / Junlin Han / Zichen Liu / Conghui He / Wentao Zhang / Binhang Yuan
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大型语言模型(MLLMs)在视觉-语言任务中表现出色,但在细粒度视觉差异方面仍然存在困难,导致幻觉或语义转变被忽略。我们将此归因于训练数据和学习目标的限制。为了解决这些问题,我们提出了一种受控数据生成流程,该流程生成经过最小编辑的图像对,并配有语义对齐的标题。利用这一流程,我们构建了微编辑数据集(MED),包含超过5万对图像-文本对,涵盖11个细粒度编辑类别,包括属性、数量、位置和对象存在变化。在MED的基础上,我们引入了一种监督微调(SFT)框架,具有特征级一致性损失,促进在小编辑下稳定的视觉嵌入。我们在微编辑检测基准上评估了我们的方法,该基准包括精心平衡的评估对,旨在测试对同一编辑类别的细微视觉变化的敏感性。与强大的基线(包括GPT-4o)相比,我们的方法提高了差异检测的准确性并减少了幻觉。此外,它在标准视觉-语言任务(如图像标题生成和视觉问答)中也取得了一致的提升。这些结果证明了结合目标数据和对齐目标以增强MLLMs细粒度视觉推理的有效性。

[81] 多步视觉推理:视觉标记的扩展与验证
标题: Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification
作者: Tianyi Bai / Zengjie Hu / Fupeng Sun / Jiantao Qiu / Yizhen Jiang / Guangxin He / Bohan Zeng / Conghui He / Binhang Yuan / Wentao Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大语言模型(MLLMs)通过将视觉感知与语言理解相结合,已经在图像基础对话、视觉问答和科学分析等应用中展现出卓越的能力。然而,大多数MLLMs采用静态推理范式,预先将整个图像编码为固定的视觉标记,这限制了它们在推理过程中迭代优化理解或适应上下文的能力。这与人类的感知形成了鲜明对比,人类的感知是动态的、选择性的和反馈驱动的。在这项工作中,我们引入了一种新颖的推理时视觉标记缩放框架,使MLLMs能够对视觉内容进行迭代的、验证器引导的推理。我们将问题表述为一个马尔可夫决策过程,涉及一个提出视觉动作的推理器和一个通过多步直接偏好优化(DPO)训练的验证器,该验证器评估这些动作并决定何时终止推理。为此,我们提出了一个新的数据集VTS,包括监督推理轨迹(VTS-SFT)和带偏好标签的推理比较(VTS-DPO)。我们的方法在各种视觉推理基准上显著优于现有方法,不仅提高了准确性,还提供了更具解释性和基础性的推理过程。这些结果展示了动态推理机制在下一代MLLMs中实现细粒度、上下文感知的视觉推理的潜力。

[82] 从生成到泛化:视频扩散模型中的新兴小样本学习
标题: From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models
作者: Pablo Acuaviva / Aram Davtyan / Mariam Hassan / Sebastian Stapf / Ahmad Rahimi / Alexandre Alahi / Paolo Favaro
原文:   [英文]   [中文]  
备注: 27 pages, 23 figures, 9 tables
摘要:
视频扩散模型(VDMs)已成为强大的生成工具,能够合成高质量的时空内容。然而,它们的潜力远不止于简单的视频生成。我们认为,VDMs 的训练动态,由于需要建模连贯的序列,自然推动它们内化结构化的表示和对视觉世界的隐性理解。为了探究这种内在知识的程度,我们引入了一种小样本微调框架,该框架利用少量示例重新定位 VDMs 用于新任务。我们的方法将每个任务转化为视觉过渡,使得可以在短的输入输出序列上训练 LoRA 权重,而无需改变冻结的 VDM 的生成接口。尽管监督极少,模型在从低级视觉(例如分割和姿态估计)到高级推理(例如 ARC-AGI)的各种任务中表现出强大的泛化能力。这些结果重新定义了 VDMs 的角色,不仅仅是生成引擎。它们是适应性强的视觉学习者,有潜力成为未来视觉基础模型的骨干。

[83] 多步引导扩散用于边缘设备上的图像修复:迈向具身人工智能中的轻量级感知
标题: Multi-Step Guided Diffusion for Image Restoration on Edge Devices: Toward Lightweight Perception in Embodied AI
作者: Aditya Chakravarty
原文:   [英文]   [中文]  
备注: Accepted in CVPR 2025 Embodied AI Workshop
摘要:
扩散模型在无需针对特定任务重新训练的情况下,展示了解决逆问题的显著灵活性。然而,现有的方法如流形保持引导扩散(MPGD)在每个去噪步骤中仅应用一次梯度更新,限制了恢复的保真度和鲁棒性,尤其是在嵌入式或分布外环境中。在这项工作中,我们在每个去噪时间步内引入了一种多步优化策略,显著提升了图像质量、感知准确性和泛化能力。我们在超分辨率和高斯去模糊的实验中表明,增加每步的梯度更新次数可以在最小的延迟开销下改善LPIPS和PSNR。值得注意的是,我们在Jetson Orin Nano上使用退化的ImageNet和无人机数据集验证了这一方法,显示出最初在面部数据集上训练的MPGD能够有效泛化到自然和航空场景。我们的研究结果突显了MPGD作为轻量级、即插即用的恢复模块的潜力,可用于无人机和移动机器人等具身AI代理的实时视觉感知。

[84] FANVID:低分辨率视频中的人脸和车牌识别基准
标题: FANVID: A Benchmark for Face and License Plate Recognition in Low-Resolution Videos
作者: Kavitha Viswanathan / Vrinda Goel / Shlesh Gholap / Devayan Ghosh / Madhav Gupta / Dhruvi Ganatra / Sanket Potdar / Amit Sethi
原文:   [英文]   [中文]  
备注: None
摘要:
现实世界的监控常常使得在单个低分辨率(LR)帧中人脸和车牌难以辨认,从而阻碍了可靠的识别。为了推进时间识别模型的发展,我们提出了FANVID,这是一种新颖的视频基准,包含近1,463个低分辨率片段(180 x 320,20--60 FPS),展示了来自三个英语国家的63个身份和49个车牌。每个视频都包含干扰人脸和车牌,增加了任务的难度和真实性。该数据集包含31,096个经过人工验证的边界框和标签。 FANVID定义了两个任务:(1)人脸匹配——检测低分辨率人脸并将其与高分辨率的面部照片进行匹配,以及(2)车牌识别——从低分辨率车牌中提取文本,而无需预定义的数据库。视频从高分辨率源下采样,以确保在单帧中人脸和文本无法辨认,要求模型利用时间信息。我们引入了从平均精度(mean Average Precision)在IoU > 0.5的基础上改编的评估指标,优先考虑人脸的身份正确性和文本的字符级准确性。 一种基于预训练的视频超分辨率、检测和识别的基线方法实现了0.58(人脸匹配)和0.42(车牌识别)的性能得分,突出了任务的可行性和挑战性。FANVID选择的人脸和车牌在多样性和识别挑战之间取得了平衡。我们发布了用于数据访问、评估、基线和注释的软件,以支持可重复性和扩展。FANVID旨在推动低分辨率识别的时间建模创新,应用于监控、法医和自动驾驶车辆。

[85] AllTracker:高分辨率下的高效密集点跟踪
标题: AllTracker: Efficient Dense Point Tracking at High Resolution
作者: Adam W. Harley / Yang You / Xinglong Sun / Yang Zheng / Nikhil Raghuraman / Yunqi Gu / Sheldon Liang / Wen-Hsuan Chu / Achal Dave / Pavel Tokmakov / Suya You / Rares Ambrus / Katerina Fragkiadaki / Leonidas J. Guibas
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了AllTracker:一种通过估计查询帧与视频中每个其他帧之间的流场来估计长距离点轨迹的模型。与现有的点跟踪方法不同,我们的方法提供高分辨率和密集(所有像素)的对应场,可以被可视化为流图。与现有的光流方法不同,我们的方法将一个帧与数百个后续帧对应,而不仅仅是下一个帧。我们为此任务开发了一种新的架构,融合了光流和点跟踪现有工作的技术:该模型在低分辨率的对应估计网格上进行迭代推理,通过2D卷积层在空间上传播信息,并通过像素对齐的注意力层在时间上传播信息。该模型速度快且参数高效(1600万参数),在高分辨率下提供了最先进的点跟踪精度(即,在40G GPU上跟踪768x1024像素)。我们设计的一个好处是可以在更广泛的数据集上进行训练,我们发现这样做对于达到最佳性能至关重要。我们对架构细节和训练方案进行了广泛的消融研究,明确了哪些细节最为重要。我们的代码和模型权重可在此https URL获取。

[86] CASE:用于显著性估计的对比激活
标题: "CASE: Contrastive Activation for Saliency Estimation
作者: Dane Williamson / Yangfeng Ji / Matthew Dwyer
原文:   [英文]   [中文]  
备注: 9 pages, 5 figures. Submitted to IEEE Transactions on Neural Networks and Learning Systems (TNNLS)
摘要:
显著性方法被广泛用于可视化哪些输入特征被认为与模型的预测相关。然而,它们的视觉合理性可能掩盖了关键的局限性。在这项工作中,我们提出了一种用于类敏感性诊断测试的方法:评估方法在同一输入上区分竞争类标签的能力。通过广泛的实验,我们发现许多广泛使用的显著性方法无论类标签如何,几乎产生相同的解释,这对其可靠性提出了质疑。我们发现类不敏感行为在不同的架构和数据集上持续存在,表明这种失败模式是结构性的,而不是特定于模型的。基于这些发现,我们引入了CASE,一种对比解释方法,可以隔离出对预测类具有独特辨别力的特征。我们使用提出的诊断测试和基于扰动的保真度测试来评估CASE,并表明它比现有方法产生更忠实且更具类特异性的解释。

[87] 用于实例图像目标导航的3D高斯散点层次评分
标题: Hierarchical Scoring with 3D Gaussian Splatting for Instance Image-Goal Navigation
作者: Yijie Deng / Shuaihang Yuan / Geeta Chandra Raju Bethala / Anthony Tzes / Yu-Shen Liu / Yi Fang
原文:   [英文]   [中文]  
备注: None
摘要:
实例图像目标导航(IIN)要求自主代理识别并导航到由任意视角拍摄的参考图像中描绘的目标物体或位置。尽管最近的方法利用了强大的新视图合成(NVS)技术,如三维高斯散射(3DGS),它们通常依赖于随机采样多个视角或轨迹以确保对判别性视觉线索的全面覆盖。然而,这种方法通过重叠的图像样本产生了显著的冗余,并且缺乏有原则的视图选择,显著增加了渲染和比较的开销。在本文中,我们引入了一种新颖的IIN框架,采用分层评分范式来估计目标匹配的最佳视角。我们的方法结合了跨层语义评分,利用CLIP衍生的相关性场识别与目标物体类别具有高语义相似性的区域,以及在有前景的区域内进行精确姿态估计的细粒度局部几何评分。广泛的评估表明,我们的方法在模拟IIN基准测试和实际应用中实现了最先进的性能。

[88] CBAM-STN-TPS-YOLO:通过空间自适应注意机制增强农业目标检测
标题: CBAM-STN-TPS-YOLO: Enhancing Agricultural Object Detection through Spatially Adaptive Attention Mechanisms
作者: Satvik Praveen / Yoonsung Jung
原文:   [英文]   [中文]  
备注: None
摘要:
目标检测在精准农业中对于植物监测、疾病检测和产量估计至关重要。然而,像YOLO这样的模型在处理遮挡、不规则结构和背景噪声时表现不佳,导致检测准确性下降。尽管空间变换网络(STNs)通过学习变换提高了空间不变性,但仿射映射对于如弯曲叶片和重叠等非刚性变形是不够的。 我们提出了CBAM-STN-TPS-YOLO模型,将薄板样条(TPS)集成到STNs中,以实现灵活的非刚性空间变换,从而更好地对齐特征。性能通过卷积块注意模块(CBAM)得到进一步提升,该模块抑制背景噪声并强调相关的空间和通道特征。 在遮挡严重的植物生长和表型(PGP)数据集上,我们的模型在精度、召回率和mAP方面优于STN-YOLO。它实现了12%的误报减少,突显了改进的空间灵活性和注意力引导的精细化的优势。我们还研究了TPS正则化参数在平衡变换平滑性和检测性能方面的影响。 这个轻量级模型提高了空间感知能力,并支持实时边缘部署,使其非常适合需要准确和高效监测的智能农业应用。

[89] 多目标拼接用于无监督表示学习
标题: Multiple Object Stitching for Unsupervised Representation Learning
作者: Chengchao Shen / Dawei Liu / Jianxin Wang
原文:   [英文]   [中文]  
备注: None
摘要:
针对单一物体为中心的图像的对比学习在无监督表示方面取得了显著进展,但在包含多个物体的广泛图像上表现不佳。在本文中,我们提出了一种简单但有效的方法,称为多物体拼接(MOS),以改进多物体图像的无监督表示。具体来说,我们通过拼接单一物体为中心的图像来构建多物体图像,其中合成的多物体图像中的物体是预先确定的。因此,与现有的对比方法相比,我们的方法在多物体图像之间提供了额外的物体对应关系,而无需人工标注。通过这种方式,我们的方法更加关注多物体图像中每个物体的表示,从而为复杂的下游任务(如物体检测和语义分割)提供更详细的表示。在ImageNet、CIFAR和COCO数据集上的实验结果表明,我们提出的方法在单一物体为中心的图像和多物体图像上都实现了领先的无监督表示性能。源代码可在此URL获取。

[90] C3S3:用于半监督医学图像分割的互补竞争与对比选择
标题: C3S3: Complementary Competition and Contrastive Selection for Semi-Supervised Medical Image Segmentation
作者: Jiaying He / Yitong Lin / Jiahe Chen / Honghui Xu / Jianwei Zheng
原文:   [英文]   [中文]  
备注: 6 pages, 4 figures, ICME2025
摘要:
针对医学领域中样本标注不足的挑战,半监督医学图像分割(SSMIS)提供了一种有前景的解决方案。尽管在划定主要目标区域方面取得了令人印象深刻的成果,但大多数现有方法在精确捕捉边界的细微细节方面仍然存在困难。这一缺陷常常导致显著的诊断不准确性。为了解决这个问题,我们引入了C3S3,这是一种新颖的半监督分割模型,协同整合了互补竞争和对比选择。该设计显著提高了边界划定的精确度和整体精度。具体而言,我们开发了一个专注于优化边界定位的$\textit{结果驱动对比学习}$模块。此外,我们还引入了一个$\textit{动态互补竞争}$模块,该模块利用两个高性能子网络生成伪标签,从而进一步提高分割质量。所提出的C3S3在两个公开可访问的数据集上进行了严格验证,涵盖了MRI和CT扫描的实践。结果表明,与之前的尖端竞争者相比,我们的方法表现出色。特别是在95HD和ASD指标上,我们的方法至少取得了$6\%$的显著改进,突显了显著的进步。代码可在此https URL获取。

[91] 生成模型在压缩前沿:生成式人脸视频编码综述
标题: Generative Models at the Frontier of Compression: A Survey on Generative Face Video Coding
作者: Bolin Chen / Shanzhi Yin / Goluck Konuko / Giuseppe Valenzise / Zihan Zhang / Shiqi Wang / Yan Ye
原文:   [英文]   [中文]  
备注: None
摘要:
深度生成模型的兴起极大地推动了视频压缩技术的发展,通过其强大的语义感知表示和逼真的合成功能,重塑了人脸视频编码的范式。生成式人脸视频编码(GFVC)处于这一革命的前沿,它能够将复杂的面部动态特征转化为紧凑的潜在编码,以实现编码器端比特流的紧凑性,并利用强大的深度生成模型从压缩的潜在编码中重建高保真的人脸信号。因此,这种精心设计的GFVC范式能够在超低比特率范围内实现高保真的人脸视频通信,远远超越了最新的多功能视频编码(VVC)标准的能力。为了开创基础研究并加速GFVC的发展,本文首次对GFVC技术进行了全面的综述,系统地弥合了理论创新与工业标准化之间的关键差距。特别是,我们首先回顾了现有的广泛的GFVC方法,这些方法具有不同的特征表示和优化策略,并进行了全面的基准分析。此外,我们构建了一个大规模的GFVC压缩人脸视频数据库,并基于人类感知提供了主观平均意见得分(MOS),旨在识别最适合GFVC的质量指标。此外,我们总结了GFVC标准化的潜力,提出了统一的高级语法,并开发了一个低复杂度的GFVC系统,这两者都被期望推动未来的实际部署和应用。最后,我们展望了GFVC在工业应用中的潜力,并探讨了当前的挑战和未来的机遇。

[92] ARGUS:视频大语言模型中的幻觉与遗漏评估
标题: ARGUS: Hallucination and Omission Evaluation in Video-LLMs
作者: Ruchit Rawal / Reza Shirkavand / Heng Huang / Gowthami Somepalli / Tom Goldstein
原文:   [英文]   [中文]  
备注: Project page with all the artifacts: this https URL
摘要:
视频大语言模型尚未被广泛部署,主要原因是它们容易产生幻觉。典型的视频大语言模型基准测试仅依赖于多项选择题。不幸的是,视频大语言模型在自由文本生成任务(如视频字幕生成)中比在多项选择验证任务中更容易产生幻觉。为了解决这一弱点,我们提出了ARGUS,这是一种测量自由视频字幕生成性能的视频大语言模型基准。通过将视频大语言模型的输出与人类的真实字幕进行比较,ARGUS量化了两个指标。首先,我们测量关于视频内容或时间关系的错误陈述的幻觉率。其次,我们测量模型遗漏重要描述细节的频率。这两个指标共同形成了对视频字幕生成性能的全面视图。

[93] DINO-CoDT: 基于视觉基础模型的多类协同检测与跟踪
标题: DINO-CoDT: Multi-class Collaborative Detection and Tracking with Vision Foundation Models
作者: Xunjie He / Christina Dao Wen Lee / Meiling Wang / Chengran Yuan / Zefan Huang / Yufeng Yue / Marcelo H. Ang Jr
原文:   [英文]   [中文]  
备注: None
摘要:
协同感知在通过扩展感知范围和提高对传感器故障的鲁棒性来增强环境理解方面起着至关重要的作用,这主要涉及协同3D检测和跟踪任务。前者专注于单帧中的物体识别,而后者则捕捉随时间变化的连续实例轨迹。然而,现有的工作在这两个领域中主要关注于车辆超级类,缺乏对多类协同检测和跟踪的有效解决方案。这一限制阻碍了它们在涉及多种外观和运动模式的多样化对象类的真实场景中的应用。为克服这些限制,我们提出了一个针对多样化道路使用者的多类协同检测和跟踪框架。我们首先提出了一个带有全局空间注意力融合(GSAF)模块的检测器,增强了对不同大小物体的多尺度特征学习。接下来,我们引入了一个轨迹重识别(REID)模块,该模块利用视觉基础模型的视觉语义,有效减少了涉及行人等小物体的错误匹配中的ID切换(IDSW)错误。我们进一步设计了一个基于速度的自适应轨迹管理(VATM)模块,该模块根据物体运动动态调整跟踪间隔。在V2X-Real和OPV2V数据集上的大量实验表明,我们的方法在检测和跟踪精度方面显著优于现有的最先进方法。

[94] 适配器自然地作为跨域小样本语义分割的解耦器
标题: Adapter Naturally Serves as Decoupler for Cross-Domain Few-Shot Semantic Segmentation
作者: Jintao Tong / Ran Ma / Yixiong Zou / Guangyao Chen / Yuhua Li / Ruixuan Li
原文:   [英文]   [中文]  
备注: ICML 2025 Spotlight
摘要:
跨域少样本分割(CD-FSS)被提出用于在样本充足的源域数据集上预训练模型,然后将模型转移到目标域数据集,在那里只有少量样本可用于高效微调。该任务主要面临两个挑战:(1)域间差距和(2)数据稀少情况下的微调。为了解决这些挑战,我们重新审视了基于适配器的方法,并发现了一个之前工作中未探索的有趣见解:适配器不仅有助于下游任务的微调,还自然地充当了域信息解耦器。接着,我们深入研究这一发现以进行解释,发现模型的固有结构可以导致域信息的自然解耦。基于这一见解,我们提出了域特征导航器(DFN),这是一种基于结构的解耦器,而不是像当前工作那样基于损失的解耦器,用于捕获特定于域的信息,从而引导模型的注意力转向与域无关的知识。此外,为了防止DFN在源域训练期间可能出现的过度拟合,我们进一步设计了SAM-SVN方法,以限制DFN学习样本特定的知识。在目标域上,我们冻结模型并微调DFN以学习特定于目标的知识。大量实验表明,我们的方法在CD-FSS中显著超越了最新的方法,在1-shot和5-shot场景中分别提高了2.69%和4.68%的MIoU。

[95] MrM: 针对多模态RAG系统的黑箱成员推断攻击
标题: MrM: Black-Box Membership Inference Attacks against Multimodal RAG Systems
作者: Peiru Yang / Jinhua Yin / Haoran Zheng / Xueying Bai / Huili Wang / Yufei Sun / Xintian Li / Shangguang Wang / Yongfeng Huang / Tao Qi
原文:   [英文]   [中文]  
备注: None
摘要:
多模态检索增强生成(RAG)系统通过整合跨模态知识来增强大型视觉语言模型,从而在现实世界的多模态任务中得到越来越多的应用。这些知识数据库可能包含需要隐私保护的敏感信息。然而,多模态RAG系统本质上允许外部用户间接访问这些数据,使其可能容易受到隐私攻击,特别是成员推断攻击(MIA)。现有针对RAG系统的MIA方法主要集中在文本模态,而视觉模态则相对未被充分探索。为弥补这一差距,我们提出了MrM,这是第一个针对多模态RAG系统的黑箱MIA框架。它利用了一个多对象数据扰动框架,该框架受反事实攻击的约束,可以同时诱导RAG系统检索目标数据并生成泄露成员信息的信息。我们的方法首先采用了一种对象感知的数据扰动方法,将扰动限制在关键语义上,以确保成功检索。在此基础上,我们设计了一种反事实知情的掩码选择策略,以优先选择最具信息量的掩码区域,旨在消除模型自有知识的干扰并增强攻击效果。最后,我们通过建模查询试验来进行统计成员推断,以提取反映从响应模式中重建掩码语义的特征。在两个视觉数据集和八个主流商业视觉语言模型(例如,GPT-4o,Gemini-2)上的实验表明,MrM在样本级和集合级评估中均表现出持续的强劲性能,并在自适应防御下保持稳健。

[96] 压缩特征质量评估:数据集和基线
标题: Compressed Feature Quality Assessment: Dataset and Baselines
作者: Changsheng Gao / Wei Zhou / Guosheng Lin / Weisi Lin
原文:   [英文]   [中文]  
备注: None
摘要:
在资源受限环境中广泛部署大型模型,强调了高效传输中间特征表示的必要性。在此背景下,特征编码成为一个关键组件,它将特征压缩成紧凑的比特流,用于特征传输、存储和重用。然而,这一压缩过程引入了固有的语义退化,而传统指标难以量化这种退化。为了解决这个问题,本文引入了压缩特征质量评估(CFQA)的研究问题,旨在评估压缩特征的语义保真度。为了推进CFQA研究,我们提出了第一个基准数据集,包括300个原始特征和12000个来自三个视觉任务和四个特征编解码器的压缩特征。提供了任务特定的性能下降作为评估CFQA指标的真实语义失真。我们评估了三种广泛使用的指标(MSE、余弦相似度和中心核对齐)在捕捉语义退化方面的表现。结果强调了数据集的代表性,并突出了需要更精细的指标来解决压缩特征中语义失真的细微差别。为了促进CFQA研究的持续发展,我们在\href{this https URL}{this https URL}发布了数据集和所有相关源代码。此贡献旨在推动该领域的发展,并为社区探索CFQA提供基础资源。

[97] DPFormer:用于持续学习的动态提示Transformer
标题: DPFormer: Dynamic Prompt Transformer for Continual Learning
作者: Sheng-Kai Huang / Jiun-Feng Chang / Chun-Rong Huang
原文:   [英文]   [中文]  
备注: None
摘要:
在持续学习中,解决灾难性遗忘问题可能会使模型陷入稳定性-可塑性两难境地。此外,由于不同任务之间缺乏知识交流,还会出现任务间混淆。为了解决上述问题,我们提出了一种新颖的动态提示变换器(DPFormer)及其提示方案。提示方案帮助DPFormer在单一网络结构下以几乎固定的模型参数数量记忆先前类别和任务的已学知识,并持续从新类别和任务中学习新知识。此外,它们还提供不同的信息来表示不同的任务,以解决任务间混淆问题。基于提示方案,我们提出了一个统一的分类模块,该模块结合了二元交叉熵损失、知识蒸馏损失和辅助损失,以端到端可训练的方式训练整个模型。与最先进的方法相比,我们的方法在CIFAR-100、ImageNet100和ImageNet1K数据集的不同类别增量设置下的持续学习中取得了最佳性能。源代码将在论文接受后在我们的GitHub上提供。

[98] FAMSeg:使用特征感知注意力和Mamba增强的胎儿股骨和颅骨超声分割
标题: FAMSeg: Fetal Femur and Cranial Ultrasound Segmentation Using Feature-Aware Attention and Mamba Enhancement
作者: Jie He / Minglang Chen / Minying Lu / Bocheng Liang / Junming Wei / Guiyan Peng / Jiaxi Chen / Ying Tan
原文:   [英文]   [中文]  
备注: None
摘要:
准确的超声图像分割是精确生物测量和准确评估的前提。依赖手动描绘会引入显著的误差且耗时。然而,现有的分割模型是基于自然场景中的物体设计的,使得它们难以适应具有高噪声和高相似度的超声物体。这在小物体分割中尤为明显,出现了明显的锯齿效应。因此,本文提出了一种基于特征感知和Mamba增强的胎儿股骨和颅骨超声图像分割模型,以应对这些挑战。具体而言,设计了纵向和横向独立视点扫描卷积块和特征感知模块,以增强捕捉局部细节信息的能力并改善上下文信息的融合。结合Mamba优化的残差结构,这一设计抑制了原始噪声的干扰并增强了局部多维扫描。该系统构建了全局信息和局部特征依赖关系,并通过不同优化器的组合进行训练以实现最优解。经过广泛的实验验证,FAMSeg网络在不同大小和方向的图像中实现了最快的损失减少和最佳的分割性能。

[99] 从提示到保护:多模态大型语言模型在建筑危险识别中的比较研究
标题: Prompt to Protection: A Comparative Study of Multimodal LLMs in Construction Hazard Recognition
作者: Nishi Chaudhary / S M Jamil Uddin / Sathvik Sharath Chandra / Anto Ovid / Alex Albert
原文:   [英文]  
备注: None
摘要:
多模态大型语言模型(LLMs)的新兴发展为提高建筑工地的视觉危险识别带来了新的机遇。与依赖于特定领域训练和大量数据集的传统计算机视觉模型不同,现代LLMs可以使用简单的自然语言提示来解释和描述复杂的视觉场景。然而,尽管人们对其应用的兴趣日益增长,但关于不同LLMs在建筑领域安全关键视觉任务中的表现的研究仍然有限。为了解决这一空白,本研究对五种最先进的LLMs进行了比较评估:Claude-3 Opus、GPT-4.5、GPT-4o、GPT-o3和Gemini 2.0 Pro,以评估它们从真实建筑图像中识别潜在危险的能力。每个模型在三种提示策略下进行了测试:零样本、少样本和思维链(CoT)。零样本提示涉及最少的指令,少样本提示结合了基本的安全背景和危险来源助记符,而CoT提供了逐步推理示例以构建模型思维。通过在所有条件下使用精确度、召回率和F1分数指标进行定量分析。结果表明,提示策略显著影响了性能,其中CoT提示在各模型中始终产生更高的准确性。此外,LLM在不同条件下的表现有所不同,其中GPT-4.5和GPT-o3在大多数设置中表现优于其他模型。研究结果还表明,提示设计在提高多模态LLMs在建筑安全应用中的准确性和一致性方面起着关键作用。本研究为提示工程和LLMs的集成提供了可操作的见解,以实现实用的危险识别,促进更可靠的AI辅助安全系统的发展。

[100] PhysiInter:集成物理映射以生成高保真的人机交互
标题: PhysiInter: Integrating Physical Mapping for High-Fidelity Human Interaction Generation
作者: Wei Yao / Yunlian Sun / Chang Liu / Hongwen Zhang / Jinhui Tang
原文:   [英文]   [中文]  
备注: None
摘要:
随着动作捕捉和生成式人工智能的进步,利用大规模动作捕捉数据集训练生成模型以合成多样化、逼真的人类动作已成为一个有前景的研究方向。然而,现有的动作捕捉技术和生成模型往往忽视物理约束,导致诸如穿插、滑动和漂浮等伪影。这些问题在涉及复杂交互的多人动作生成中尤为严重。为了解决这些限制,我们在整个人类交互生成流程中引入了物理映射。具体而言,在基于物理的模拟环境中进行动作模仿,将目标动作投射到物理有效的空间中。生成的动作经过调整,以遵循现实世界的物理约束,同时保留其原始语义意义。这种映射不仅提高了动作捕捉数据的质量,还直接为生成动作的后处理提供了信息。鉴于多人场景的独特互动性,我们提出了一个量身定制的动作表示框架。引入了动作一致性(MC)和基于标记的交互(MI)损失函数,以提高模型性能。实验表明,我们的方法在生成的人类动作质量上取得了显著的成果,物理逼真度提高了3%-89%。项目页面此URL。

[101] GLOS:使用时间对齐的词汇级条件生成手语
标题: GLOS: Sign Language Generation with Temporally Aligned Gloss-Level Conditioning
作者: Taeryung Lee / Hyeongjin Nam / Gyeongsik Moon / Kyoung Mu Lee
原文:   [英文]   [中文]  
备注: None
摘要:
手语生成(SLG),或称文本到手语生成,旨在弥合手语使用者与非手语使用者之间的沟通鸿沟。尽管SLG在最近取得了一些进展,现有的方法仍常常面临词汇顺序错误和语义准确性低的问题。这主要是由于句子级条件的限制,该方法将输入文本的整个句子编码为一个特征向量,作为SLG的条件。这种方法未能捕捉手语的时间结构,缺乏词级语义的细粒度,常常导致手语序列混乱和动作模糊。为克服这些限制,我们提出了GLOS,一种具有时间对齐词汇级条件的手语生成框架。首先,我们采用词汇级条件,将其定义为与动作序列时间对齐的词汇嵌入序列。这使得模型能够在每个时间步访问手语的时间结构和词级语义。因此,这允许对手语进行细粒度控制,并更好地保持词汇顺序。其次,我们引入了一个条件融合模块,称为时间对齐条件(TAC),以有效地将词汇级条件提供的词级语义和时间结构传递到相应的动作时间步。我们的方法由词汇级条件和TAC组成,生成的手语具有正确的词汇顺序和高语义准确性,在CSL-Daily和Phoenix-2014T数据集上优于现有方法。

[102] DeepVideo-R1:通过难度感知回归GRPO进行视频强化微调
标题: DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
作者: Jinyoung Park / Jeehye Na / Jinyoung Kim / Hyunwoo J. Kim
原文:   [英文]   [中文]  
备注: Work in progress
摘要:
最近的研究表明,基于强化学习(RL)的后训练在增强大型语言模型(LLMs)的推理能力方面非常有效。特别是,群体相对策略优化(GRPO)通过采用具有群体归一化奖励的PPO风格的强化算法,展示了令人印象深刻的成功。然而,GRPO在视频大型语言模型(Video LLMs)中的应用研究较少。在本文中,我们探索了视频LLMs的GRPO,并识别出阻碍其有效学习的两个主要问题:(1)对保护措施的依赖,以及(2)优势消失问题。为了解决这些挑战,我们提出了DeepVideo-R1,这是一种通过我们提出的回归GRPO(Reg-GRPO)和难度感知数据增强策略训练的视频大型语言模型。Reg-GRPO将GRPO目标重新表述为回归任务,直接预测GRPO中的优势。这种设计消除了对剪辑和最小函数等保护措施的需求,从而通过将模型与优势值对齐来促进更直接的策略指导。我们还设计了难度感知数据增强策略,该策略动态地在可解决的难度级别上增强训练样本,促进多样化和信息丰富的奖励信号。我们的综合实验表明,DeepVideo-R1在多个视频推理基准上显著提高了视频推理性能。

[103] 用于部分相关视频检索的模糊受限文本-视频表示学习
标题: Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval
作者: CH Cho / WJ Moon / W Jun / MS Jung / JP Heo
原文:   [英文]   [中文]  
备注: Accepted to AAAI 2025
摘要:
部分相关视频检索(PRVR)旨在检索与给定文本查询的特定片段相关的视频。PRVR的典型训练过程假设一种一对一的关系,即每个文本查询仅与一个视频相关。然而,我们指出基于概念范围的文本和视频内容之间存在固有的模糊性,并提出一个将这种模糊性纳入模型学习过程的框架。具体来说,我们提出了模糊性限制表示学习(ARL)来处理模糊的文本-视频对。最初,ARL基于两个标准检测模糊对:不确定性和相似性。不确定性表示实例是否包含数据集中常见的共享上下文,而相似性则表示成对的语义重叠。然后,通过检测到的模糊对,我们的ARL通过多正对比学习和双三元组边距损失分层学习语义关系。此外,我们深入研究视频实例中的细粒度关系。与在文本-视频级别进行的典型训练不同,在该级别提供成对信息,我们解决了同一未剪辑视频帧内的固有模糊性,这些帧通常包含多个上下文。这使我们能够在文本-帧级别进一步增强学习。最后,我们提出跨模型模糊性检测,以减轻在使用单一模型检测其训练的模糊对时发生的错误传播。结合所有组件,我们提出的方法在PRVR中展示了其有效性。

[104] CoCoA-Mix:一种用于上下文优化的混合模型,考虑混淆和置信度
标题: CoCoA-Mix: Confusion-and-Confidence-Aware Mixture Model for Context Optimization
作者: Dasol Hong / Wooju Lee / Hyun Myung
原文:   [英文]   [中文]  
备注: 8 pages, 5 figures; accepted at ICML 2025
摘要:
提示调优通过冻结模型参数并仅优化提示来适应视觉-语言模型,已被证明在特定任务的适应中有效。提示调优的核心挑战在于提高对特定任务的专门化和对未见领域的泛化。然而,冻结的编码器常常产生不对齐的特征,导致类别之间的混淆,限制了专门化。为了解决这个问题,我们提出了一种混淆感知损失(CoA-loss),通过优化混淆类别之间的决策边界来提高专门化。此外,我们从数学上证明了混合模型可以在不影响专门化的情况下增强泛化。这是通过使用置信度感知权重(CoA-weights)实现的,该权重根据每个预测在类别域内的置信度调整混合模型中每个预测的权重。大量实验表明,CoCoA-Mix,一种结合了CoA-loss和CoA-weights的混合模型,通过增强专门化和泛化,优于最先进的方法。我们的代码可以在这个https URL公开获取。

[105] 驱动任意网格:用于从视频进行网格变形的四维潜在扩散
标题: Drive Any Mesh: 4D Latent Diffusion for Mesh Deformation from Video
作者: Yahao Shi / Yang Liu / Yanmin Wu / Xing Liu / Chen Zhao / Jie Luo / Bin Zhou
原文:   [英文]   [中文]  
备注: technical report
摘要:
我们提出了DriveAnyMesh,一种通过单目视频驱动网格的方法。当前的4D生成技术在现代渲染引擎中面临挑战。隐式方法的渲染效率低,并且对基于光栅化的引擎不友好,而骨骼方法需要大量的人工努力,并且缺乏跨类别的泛化能力。动画化现有的3D资产,而不是从头创建4D资产,需要对输入的3D结构有深刻的理解。为了解决这些挑战,我们提出了一种4D扩散模型,该模型对潜在集序列进行去噪,然后解码以从点云轨迹序列生成网格动画。这些潜在集利用基于变压器的变分自编码器,同时捕捉3D形状和运动信息。通过采用时空变压器扩散模型,信息在多个潜在帧之间交换,提高了生成结果的效率和泛化能力。我们的实验结果表明,DriveAnyMesh可以快速生成复杂运动的高质量动画,并与现代渲染引擎兼容。该方法在游戏和电影行业中具有应用潜力。

[106] SpatialLM:训练用于结构化室内建模的大型语言模型
标题: SpatialLM: Training Large Language Models for Structured Indoor Modeling
作者: Yongsen Mao / Junhao Zhong / Chuan Fang / Jia Zheng / Rui Tang / Hao Zhu / Ping Tan / Zihan Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
SpatialLM 是一种大型语言模型,旨在处理 3D 点云数据并生成结构化的 3D 场景理解输出。这些输出包括建筑元素,如墙壁、门、窗户,以及带有语义类别的定向物体框。与以往利用特定任务网络设计的方法不同,我们的模型遵循标准的多模态大型语言模型架构,并直接从开源大型语言模型进行微调。 为了训练 SpatialLM,我们收集了一个大规模、高质量的合成数据集,该数据集包含 12,328 个室内场景(54,778 个房间)的点云及其真实的 3D 注释,并对各种建模和训练决策进行了仔细研究。在公共基准测试中,我们的模型在布局估计方面表现出色,并在 3D 物体检测中取得了具有竞争力的结果。通过这些成果,我们展示了一条可行的路径,以增强现代大型语言模型在增强现实、具身机器人等应用中的空间理解能力。

[107] 创世:具有时空和跨模态一致性的多模态驾驶场景生成
标题: Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency
作者: Xiangyu Guo / Zhanqian Wu / Kaixin Xiong / Ziyang Xu / Lijun Zhou / Gangwei Xu / Shaoqing Xu / Haiyang Sun / Bing Wang / Guang Chen / Hangjun Ye / Wenyu Liu / Xinggang Wang
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了Genesis,一个用于联合生成多视角驾驶视频和LiDAR序列的统一框架,具有时空和跨模态一致性。Genesis采用了一个两阶段架构,将基于DiT的视频扩散模型与3D-VAE编码相结合,并结合了具有NeRF渲染和自适应采样的BEV感知LiDAR生成器。两种模态通过共享的潜在空间直接耦合,实现了视觉和几何域的连贯演变。为了用结构化语义指导生成,我们引入了DataCrafter,一个基于视觉语言模型的字幕模块,提供场景级和实例级监督。在nuScenes基准上的大量实验表明,Genesis在视频和LiDAR指标(FVD 16.95,FID 4.24,Chamfer 0.611)上达到了最先进的性能,并有利于分割和3D检测等下游任务,验证了生成数据的语义保真度和实用性。

[108] MoQAE:通过量化感知专家混合实现长上下文大语言模型推理的混合精度量化
标题: MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts
作者: Wei Tao / Haocheng Lu / Xiaoyang Qu / Bin Zhang / Kai Lu / Jiguang Wan / Jianzong Wang
原文:   [英文]   [中文]  
备注: Accepted by the 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025)
摘要:
优化大型语言模型(LLMs)以进行长上下文推理的主要挑战之一在于键值(KV)缓存的高内存消耗。现有的方法,如量化,已在减少内存使用方面显示出良好的效果。然而,目前的量化方法无法同时兼顾效果和效率。在本文中,我们提出了MoQAE,一种通过量化感知专家混合的全新混合精度量化方法。首先,我们将不同的量化位宽配置视为专家,并使用传统的专家混合(MoE)方法来选择最佳配置。为了避免传统MoE方法中逐个输入令牌到路由器所导致的低效率,我们将令牌分块输入到路由器。其次,我们设计了一个轻量级的仅路由器微调过程,通过综合损失来训练MoQAE,以学习模型准确性和内存使用之间的权衡。最后,我们引入了路由冻结(RF)和路由共享(RS)机制,以进一步减少推理开销。对多个基准数据集进行的大量实验表明,我们的方法在效率和效果上均优于最先进的KV缓存量化方法。

[109] 使用合成数据进行制造应用中目标检测的领域随机化:一项综合研究
标题: Domain Randomization for Object Detection in Manufacturing Applications using Synthetic Data: A Comprehensive Study
作者: Xiaomeng Zhu / Jacob Henningsson / Duruo Li / Pär Mårtensson / Lars Hanson / Mårten Björkman / Atsuto Maki
原文:   [英文]   [中文]  
备注: This is accepted by 2025 IEEE International Conference on Robotics & Automation (ICRA), waiting for publication. 14 pages, 14 figures
摘要:
本文探讨了在制造物体检测应用中生成合成数据的领域随机化的关键方面。为此,我们提出了一个全面的数据生成流程,反映了不同的因素:物体特性、背景、光照、相机设置和后期处理。我们还引入了合成工业零件物体检测数据集(SIP15-OD),该数据集由三个工业用例中的15个物体在不同环境下组成,作为研究的测试平台,同时也使用了一个公开可用的用于机器人应用的工业数据集。在我们的实验中,我们展示了更丰富的结果和对从模拟到真实物体检测的可行性以及挑战的见解。特别是,我们确定了材料特性、渲染方法、后期处理和干扰因素作为重要因素。我们的方法利用这些因素,在仅使用合成数据训练的Yolov8模型上,在公共数据集上实现了顶级性能;机器人数据集的mAP@50得分为96.4%,在SIP15-OD的三个用例中分别为94.1%、99.5%和95.3%。结果展示了所提出的领域随机化的有效性,可能涵盖了接近真实数据的分布以用于应用。

[110] APTOS-2024挑战报告:从眼底照片生成合成3D OCT图像
标题: APTOS-2024 challenge report: Generation of synthetic 3D OCT images from fundus photographs
作者: Bowen Liu / Weiyi Zhang / Peranut Chotcomwongse / Xiaolan Chen / Ruoyu Chen / Pawin Pakaymaskul / Niracha Arjkongharn / Nattaporn Vongsa / Xuelian Cheng / Zongyuan Ge / Kun Huang / Xiaohui Li / Yiru Duan / Zhenbang Wang / BaoYe Xie / Qiang Chen / Huazhu Fu / Michael A. Mahr / Jiaqi Qu / Wangyiyang Chen / Shiye Wang / Yubo Tan / Yongjie Li / Mingguang He / Danli Shi / Paisan Ruamviboonsuk
原文:   [英文]  
备注: None
摘要:
光学相干断层扫描(OCT)能够提供视网膜层的高分辨率、三维和无创的在体可视化,是病变定位和疾病诊断的重要工具。然而,其广泛应用受到设备成本和对专业操作人员需求的限制。相比之下,二维彩色眼底摄影具有更快的获取速度和更高的可及性,对昂贵设备的依赖较小。尽管生成式人工智能在医学图像合成方面显示出良好前景,但将二维眼底图像转换为三维OCT图像由于模态之间数据维度和生物信息的固有差异而面临独特挑战。为了推进眼底到三维OCT场景中的生成模型,亚太远程眼科协会(APTOS-2024)组织了一项名为“基于人工智能的眼底图像OCT生成”的挑战。本文详细介绍了该挑战的框架(称为APTOS-2024挑战),包括:基准数据集、评估方法(包括两个保真度指标——基于图像的距离(像素级OCT B扫描相似性)和基于视频的距离(语义级体积一致性)),以及对表现最佳解决方案的分析。该挑战吸引了342个参赛团队,收到了42份初步提交和9个决赛入围者。领先的方法结合了在数据预处理或增强(跨模态协作范式)、在外部眼科成像数据集上的预训练、视觉基础模型的整合以及模型架构改进方面的创新。APTOS-2024挑战是第一个基准,展示了眼底到三维OCT合成的可行性,作为在资源匮乏的医疗环境中改善眼科护理可及性的潜在解决方案,同时有助于加速医学研究和临床应用。

[111] 通过私密文本中介合成隐私保护的高分辨率图像
标题: Synthesize Privacy-Preserving High-Resolution Images via Private Textual Intermediaries
作者: Haoxiang Wang / Zinan Lin / Da Yu / Huishuai Zhang
原文:   [英文]  
备注: None
摘要:
生成高保真、差分隐私(DP)合成图像提供了一条有前途的途径,可以在不泄露个人隐私的情况下共享和分析敏感的视觉数据。然而,现有的DP图像合成方法难以生成忠实于原始数据结构的高分辨率输出。在本文中,我们介绍了一种新方法,称为通过私有文本中介合成(SPTI),可以轻松生成高分辨率DP图像。其核心思想是通过利用最先进的DP文本生成方法,将DP图像合成的挑战从图像域转移到文本域。SPTI首先使用图像到文本模型将每个私有图像总结为简洁的文本描述,然后应用改进的私有进化算法生成DP文本,最后使用文本到图像模型重建图像。值得注意的是,SPTI不需要模型训练,只需使用现成的模型进行推理。给定一个私有数据集,SPTI生成的合成图像质量显著高于之前的DP方法。在LSUN卧室数据集上,SPTI在ε等于1.0时获得的FID小于或等于26.71,优于私有进化的FID 40.36。同样,在MM CelebA HQ数据集上,SPTI在ε等于1.0时实现的FID小于或等于33.27,相比之下DP微调基线为57.01。总体而言,我们的结果表明,通过私有文本中介合成提供了一种资源高效且与专有模型兼容的框架,用于生成高分辨率DP合成图像,大大扩展了对私有视觉数据集的访问。

[112] 跨通道感知学习用于H&E到IHC的虚拟染色
标题: Cross-channel Perception Learning for H&E-to-IHC Virtual Staining
作者: Hao Yang / JianYu Wu / Run Fang / Xuelian Zhao / Yuan Ji / Zhiyu Chen / Guibin He / Junceng Guo / Yang Liu / Xinhua Zeng
原文:   [英文]   [中文]  
备注: None
摘要:
随着数字病理学的快速发展,虚拟染色已成为多媒体医疗信息系统中的一项关键技术,为病理图像的分析和诊断提供了新的可能性。然而,现有的H&E到IHC的研究往往忽视了细胞核和细胞膜之间的跨通道相关性。为了解决这个问题,我们提出了一种新颖的跨通道感知学习(CCPL)策略。具体来说,CCPL首先将HER2免疫组化染色分解为对应于细胞核和细胞膜的苏木精和DAB染色通道。利用病理基础模型Gigapath的Tile Encoder,CCPL从生成图像和真实图像中提取双通道特征,并测量细胞核和细胞膜之间的跨通道相关性。通过Tile Encoder获得的生成和真实染色图像的特征也用于计算特征蒸馏损失,从而在不增加推理负担的情况下增强模型的特征提取能力。此外,CCPL对单通道的焦点光密度图进行统计分析,以确保染色分布和强度的一致性。基于PSNR、SSIM、PCC和FID等定量指标以及病理学家的专业评估,实验结果表明,CCPL有效地保留了病理特征,生成了高质量的虚拟染色图像,并为使用多媒体医疗数据的自动化病理诊断提供了有力支持。

[113] OpenDance:使用大规模互联网数据的多模态可控3D舞蹈生成
标题: OpenDance: Multimodal Controllable 3D Dance Generation Using Large-scale Internet Data
作者: Jinlu Zhang / Zixi Kang / Yizhou Wang
原文:   [英文]   [中文]  
备注: None
摘要:
音乐驱动的舞蹈生成具有显著的创造潜力,但也面临相当大的挑战。缺乏细粒度的多模态数据以及灵活的多条件生成的困难限制了以往作品在生成可控性和多样性方面的实际应用。在本文中,我们构建了OpenDance5D,这是一个广泛的人类舞蹈数据集,涵盖14个不同的舞蹈风格,总时长超过101小时。每个样本包含五种模态,以促进强大的跨模态学习:RGB视频、音频、2D关键点、3D动作以及来自人类艺术的细粒度文本描述。此外,我们提出了OpenDanceNet,这是一种统一的掩码建模框架,用于在音乐和任意组合的文本提示、关键点或角色定位的条件下进行可控的舞蹈生成。综合实验表明,OpenDanceNet实现了高保真度和灵活的可控性。

[114] 关于文本数量对作者检索影响的研究
标题: Towards the Influence of Text Quantity on Writer Retrieval
作者: Marco Peer / Robert Sablatnig / Florian Kleber
原文:   [英文]   [中文]  
备注: accepted for ICDAR2025
摘要:
本文研究了作者检索任务,该任务基于手写相似性识别数据集中由同一人撰写的文档。虽然现有的数据集和方法主要关注页面级检索,我们通过评估行级和词级检索来探索文本数量对作者检索性能的影响。我们考察了三种最先进的作者检索系统,包括手工设计和深度学习方法,并分析了它们在不同文本量下的性能。我们在CVL和IAM数据集上的实验表明,当仅使用一行文本作为查询和库时,性能下降了20-30%,但当至少包含四行时,检索准确率仍保持在全页性能的90%以上。我们进一步表明,在低文本场景中,文本依赖的检索可以保持强劲的性能。我们的研究结果还强调了在低文本场景中手工特征的局限性,深度学习方法如NetVLAD优于传统的VLAD编码。

[115] 通过缩放的人类对齐数据合成和多阶段偏好优化生成由大型语言模型驱动的室内场景布局
标题: LLM-driven Indoor Scene Layout Generation via Scaled Human-aligned Data Synthesis and Multi-Stage Preference Optimization
作者: Yixuan Yang / Zhen Luo / Tongsheng Ding / Junru Lu / Mingqi Gao / Jinyu Yang / Victor Sanchez / Feng Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
自动室内布局生成因其在室内设计、虚拟环境构建和具身人工智能中的潜力而受到越来越多的关注。现有的方法分为两类:利用专有大型语言模型(LLM)服务(例如,GPT API)的提示驱动方法和基于扩散模型的布局数据训练的学习方法。提示驱动方法通常存在空间不一致和高计算成本的问题,而学习方法通常受限于粗略的关系图和有限的数据集,限制了其在多样化房间类别中的泛化能力。在本文中,我们重新审视了基于LLM的室内布局生成,并提出了3D-SynthPlace,这是一个大型数据集,通过“GPT合成,人类检查”流程生成的合成布局,从3D-Front数据集升级而来。3D-SynthPlace包含近17,000个场景,涵盖四种常见房间类型——卧室、客厅、厨房和浴室——并丰富了多样化的物体和高级空间注释。我们进一步介绍了OptiScene,一个强大的开源LLM,针对室内布局生成进行了优化,基于我们的3D-SynthPlace数据集通过两阶段训练进行微调。在热身阶段I中,我们采用监督微调(SFT),首先生成高级空间描述,然后有条件地预测具体的物体放置。在增强阶段II中,为了更好地使生成的布局与人类设计偏好对齐,我们应用多轮直接偏好优化(DPO),显著提高了布局质量和生成成功率。大量实验表明,OptiScene优于传统的提示驱动和学习基线方法。此外,OptiScene在场景编辑和机器人导航等交互任务中显示出良好的潜力。

[116] 学习说话者无关的视觉特征以进行唇读
标题: Learning Speaker-Invariant Visual Features for Lipreading
作者: Yu Li / Feng Xue / Shujie Li / Jinrui Zhang / Shuang Yang / Dan Guo / Richang Hong
原文:   [英文]   [中文]  
备注: None
摘要:
唇读是一项具有挑战性的跨模态任务,旨在将视觉唇部动作转换为口语文本。现有的唇读方法通常提取包含说话者特定唇部属性(例如形状、颜色、纹理)的视觉特征,这些特征在视觉和文本之间引入了虚假的相关性。这些相关性导致唇读准确性不佳,并限制了模型的泛化能力。为了解决这一挑战,我们引入了SIFLip,一种说话者不变的视觉特征学习框架,通过两个互补的解耦模块(隐式解耦和显式解耦)来分离说话者特定属性,以提高泛化能力。具体来说,由于不同的说话者在发音相同的词时表现出唇部动作和语音文本之间的语义一致性,我们的隐式解耦模块利用稳定的文本嵌入作为监督信号来学习跨说话者的通用视觉表示,隐式地解耦说话者特定特征。此外,我们在主要唇读流程中设计了一个说话者识别子任务,以过滤说话者特定特征,然后通过梯度反转进一步从主干网络中显式解耦这些个性化视觉特征。实验结果表明,SIFLip显著增强了多个公共数据集上的泛化性能,优于最先进的方法。

[117] Uncertainty-o:一种用于揭示大型多模态模型中不确定性的模型无关框架
标题: Uncertainty-o: One Model-agnostic Framework for Unveiling Uncertainty in Large Multimodal Models
作者: Ruiyang Zhang / Hu Zhang / Hao Fei / Zhedong Zheng
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
大型多模态模型(LMMs)利用多种模态之间的互补性,通常被认为比纯语言大模型(LLMs)更具鲁棒性;然而,LMMs是否知道它们不知道的东西?目前仍有三个关键的开放性问题:(1)如何以统一的方式评估不同LMMs的不确定性,(2)如何提示LMMs展示其不确定性,以及(3)如何为下游任务量化不确定性。为了解决这些挑战,我们引入了Uncertainty-o:(1)一个与模型无关的框架,旨在揭示LMMs的不确定性,无论其模态、架构或能力如何,(2)对多模态提示扰动的实证探索,以揭示LMM的不确定性,提供见解和发现,以及(3)推导出多模态语义不确定性的公式,使得可以从多模态响应中量化不确定性。跨越18个基准测试的实验,涵盖各种模态和10个LMMs(包括开源和闭源),证明了Uncertainty-o在可靠估计LMM不确定性方面的有效性,从而增强了下游任务,如幻觉检测、幻觉缓解和不确定性感知的链式思维推理。

[118] 超级编码网络:多模态编码器的递归关联用于视频理解
标题: Super Encoding Network: Recursive Association of Multi-Modal Encoders for Video Understanding
作者: Boyu Chen / Siran Chen / Kunchang Li / Qinglin Xu / Yu Qiao / Yali Wang
原文:   [英文]   [中文]  
备注: None
摘要:
视频理解被认为是世界建模的一个关键步骤,这是人工智能研究中的一个重要长期问题。最近,多模态基础模型通过大规模预训练展示了这种潜力。然而,这些模型仅通过对比学习简单地对齐不同模态的编码器,而缺乏更深层次的多模态交互,这对于理解具有多样化视频场景的复杂目标运动至关重要。为了解决这一问题,我们提出了一种用于视频理解的统一超级编码网络(SEN),通过基础模型中多模态编码器的递归关联建立这种独特的交互。具体来说,我们创造性地将那些训练良好的编码器视为我们SEN中的“超级神经元”。通过设计一个递归关联(RA)模块,我们基于超级神经元的知识整合、分配和提示,以递归的方式逐步融合多模态与输入视频。通过这种方式,我们的SEN可以有效地编码更深层次的多模态交互,以促进下游的各种视频理解任务。大量实验表明,我们的SEN可以显著提升四个最具代表性的视频任务,包括跟踪、识别、聊天和编辑。例如,对于像素级跟踪,平均Jaccard指数提高了2.7%,与流行的CaDeX++方法相比,时间一致性(TC)下降了8.8%。对于一次性视频编辑,文本对齐提高了6.4%,帧一致性增加了4.1%,与流行的TuneA-Video方法相比。

[119] 通过扩散模型探索黑箱模型的脆弱性
标题: Explore the vulnerability of black-box models via diffusion models
作者: Jiacheng Shi / Yanfu Zhang / Huajie Shao / Ashley Gao
原文:   [英文]  
备注: None
摘要:
最近扩散模型的进展使得在各种应用中实现高保真和照片级真实感的图像生成成为可能。然而,这些模型也带来了安全和隐私风险,包括版权侵犯、敏感信息泄露以及可能被恶意利用的有害或冒犯性内容的创建。在本研究中,我们揭示了一种新的安全威胁,即攻击者利用扩散模型的API生成合成图像,然后用这些图像训练一个高性能的替代模型。这使得攻击者能够在无需访问原始训练数据的情况下,通过最少的查询对黑箱分类模型执行模型提取和基于迁移的对抗性攻击。生成的图像具有足够的高分辨率和多样性,可以训练出一个替代模型,其输出与目标模型的输出非常接近。在包括CIFAR和ImageNet子集的七个基准测试中,我们的方法在使用仅为查询预算0.01倍的情况下,比最先进的方法平均提高了27.37%,在对目标模型的对抗性攻击中达到了98.68%的成功率。

[120] SceneRAG:用于视频理解的场景级检索增强生成
标题: SceneRAG: Scene-level Retrieval-Augmented Generation for Video Understanding
作者: Nianbo Zeng / Haowen Hou / Fei Richard Yu / Si Shi / Ying Tiffany He
原文:   [英文]  
备注: None
摘要:
尽管在视频理解的检索增强生成(RAG)方面取得了近期的进展,但由于视频数据的庞大规模和高度复杂性,有效理解长篇视频内容仍然未被充分探索。目前的RAG方法通常将视频分割成固定长度的片段,这往往会破坏上下文信息的连续性,并且无法捕捉真实的场景边界。受到人类自然地将连续体验组织成连贯场景的能力的启发,我们提出了SceneRAG,一个统一的框架,通过处理自动语音识别(ASR)转录文本和时间元数据,将视频分割成叙事一致的场景。SceneRAG通过轻量级的启发式方法和迭代修正进一步优化这些初始边界。对于每个场景,该框架融合视觉和文本模态的信息,以提取实体关系并动态构建知识图谱,从而实现稳健的多跳检索和生成,考虑到长距离的依赖关系。在包含超过134小时多样内容的LongerVideos基准测试中,实验结果证实SceneRAG显著优于之前的基线,在生成任务中达到高达72.5%的胜率。

[121] SurgBench:用于外科手术视频分析的统一大型基准
标题: SurgBench: A Unified Large-Scale Benchmark for Surgical Video Analysis
作者: Jianhui Wei / Zikai Xiao / Danyu Sun / Luqi Gong / Zongxin Yang / Zuozhu Liu / Jian Wu
原文:   [英文]   [中文]  
备注: None
摘要:
手术视频理解对于实现自动化术中决策、技能评估和术后质量改进至关重要。然而,由于缺乏大规模、多样化的数据集用于预训练和系统评估,手术视频基础模型的发展仍然受到阻碍。在本文中,我们介绍了\textbf{SurgBench},一个统一的手术视频基准测试框架,包括一个预训练数据集\textbf{SurgBench-P}和一个评估基准\textbf{SurgBench-E}。SurgBench广泛涵盖了多样的手术场景,其中SurgBench-P包含了22种手术程序和11个专业领域的5300万帧,而SurgBench-E在六个类别(阶段分类、相机运动、工具识别、疾病诊断、动作分类和器官检测)中提供了72个细粒度任务的强大评估。大量实验表明,现有的视频基础模型难以在各种手术视频分析任务中实现泛化,而在SurgBench-P上进行预训练则显著提高了性能,并在未见过的程序和模式中实现了优越的跨领域泛化。我们的数据集和代码可根据请求提供。

[122] DragNeXt:重新思考基于拖拽的图像编辑
标题: DragNeXt: Rethinking Drag-Based Image Editing
作者: Yuan Zhou / Junbao Zhou / Qingshan Xu / Kesen Zhao / Yuxuan Wang / Hao Fei / Richang Hong / Hanwang Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
基于拖拽的图像编辑(DBIE)允许用户通过直接拖动图像中的对象来操控图像,最近在社区中引起了广泛关注。然而,它面临两个关键挑战:(\emph{\textcolor{magenta}{i}})基于点的拖拽通常高度模糊,难以与用户的意图对齐;(\emph{\textcolor{magenta}{ii}})当前的DBIE方法主要依赖于运动监督和点跟踪的交替进行,这不仅繁琐,而且无法产生高质量的结果。这些限制促使我们从一个新的角度探索DBIE——将其重新定义为用户指定的操控区域的变形、旋转和平移。因此,通过要求用户明确指定拖拽区域和类型,我们可以有效解决模糊性问题。此外,我们提出了一个简单而有效的编辑框架,称为\textcolor{SkyBlue}{\textbf{DragNeXt}}。它将DBIE统一为一个潜在区域优化(LRO)问题,并通过渐进式反向自我干预(PBSI)来解决它,简化了DBIE的整体过程,同时通过充分利用区域级结构信息和中间拖拽状态的渐进指导来进一步提高质量。我们在我们的NextBench上验证了\textcolor{SkyBlue}{\textbf{DragNeXt}},大量实验表明,我们提出的方法可以显著优于现有方法。代码将在github上发布。

[123] 扩展人类活动识别:合成数据生成与增强技术的比较评估
标题: Scaling Human Activity Recognition: A Comparative Evaluation of Synthetic Data Generation and Augmentation Techniques
作者: Zikang Leng / Archith Iyer / Thomas Plötz
原文:   [英文]   [中文]  
备注: None
摘要:
人类活动识别(HAR)通常受到标记数据集稀缺的限制,因为真实世界数据收集的成本高且复杂。为了解决这个问题,最近的研究探索了通过跨模态转换生成虚拟惯性测量单元(IMU)数据。虽然基于视频和基于语言的管道各自显示出潜力,但它们在假设和计算成本上有所不同。此外,相对于传统的传感器级数据增强,它们的有效性仍不明确。在本文中,我们直接比较了这两种虚拟IMU生成方法与经典数据增强技术。我们构建了一个大规模的虚拟IMU数据集,涵盖了来自Kinetics-400的100种不同活动,并模拟了22个身体部位的传感器信号。三种数据生成策略在基准HAR数据集(UTD-MHAD、PAMAP2、HAD-AW)上使用四种流行模型进行评估。结果表明,虚拟IMU数据在有限数据条件下显著提高了性能,优于仅使用真实或增强数据。我们提供了关于选择数据生成策略的实用指导,并强调了每种方法的独特优缺点。

[124] 基于事件先验的视觉-语言模型用于高效视觉理解
标题: Event-Priori-Based Vision-Language Model for Efficient Visual Understanding
作者: Haotong Qin / Cheng Hu / Michele Magno
原文:   [英文]   [中文]  
备注: None
摘要:
基于大型语言模型(LLM)的视觉-语言模型(VLMs)大大扩展了视觉理解能力的边界。然而,其高计算需求阻碍了在资源受限的边缘设备上的部署。效率低下的一个关键来源在于VLM需要处理密集且冗余的视觉信息。视觉输入包含大量与文本语义无关的区域,使得相关计算在推理中无效。本文介绍了一种新颖的基于事件先验的视觉-语言模型,称为EP-VLM。其核心贡献是一种新颖的机制,利用动态事件视觉中提取的运动先验来提高VLM的效率。受人类视觉认知的启发,EP-VLM首先使用事件数据来引导RGB视觉输入的逐块稀疏化,逐步将VLM的计算集中在视觉输入的显著区域。随后,我们为VLM架构中的视觉编码器构建了一种位置保留的标记化策略。该策略在处理事件引导的、非结构化的稀疏视觉输入的同时,准确保留视觉输入中的位置理解。实验结果表明,EP-VLM在与Qwen2-VL系列的基线模型相比时,实现了显著的效率提升,同时几乎不损失准确性。例如,相较于原始的Qwen2-VL-2B,EP-VLM在RealWorldQA数据集上实现了50%的FLOPs节省,同时保留了98%的原始准确性。这项工作展示了基于事件的视觉先验在提高VLM推理效率方面的潜力,为在边缘实现可持续视觉理解的更高效和可部署的VLMs铺平了道路。

[125] HuSc3D:用于3D物体重建的人体雕塑数据集
标题: HuSc3D: Human Sculpture dataset for 3D object reconstruction
作者: Weronika Smolak-Dyżewska / Dawid Malarz / Grzegorz Wilczyński / Rafał Tobiasz / Joanna Waczyńska / Piotr Borycki / Przemysław Spurek
原文:   [英文]   [中文]  
备注: None
摘要:
从2D图像进行3D场景重建是计算机图形学中最重要的任务之一。不幸的是,现有的数据集和基准测试主要集中在理想化的合成数据或精心捕捉的真实数据上。这些基准测试未能传达新获取的真实世界场景中所遇到的固有复杂性。在这些场景中,尤其是那些在室外获取的场景中,背景通常是动态的,并且由于手机相机的广泛使用,可能会出现例如白平衡方面的差异。为了解决这一差距,我们提出了HuSc3D,这是一个专门为在现实采集挑战下对3D重建模型进行严格基准测试而设计的新数据集。我们的数据集独特地展示了六个高度详细、完全白色的雕塑,其特点是复杂的穿孔以及极少的纹理和颜色变化。此外,每个场景的图像数量差异显著,为某些实例引入了有限训练数据的额外挑战,同时也有场景具有标准数量的视图。通过在这个多样化的数据集上评估流行的3D重建方法,我们展示了HuSc3D在有效区分模型性能方面的独特性,特别强调了方法对精细几何细节、颜色模糊性和数据可用性变化的敏感性——这些限制通常被更传统的数据集所掩盖。

[126] HieraEdgeNet:一种用于自动化花粉识别的多尺度边缘增强框架
标题: HieraEdgeNet: A Multi-Scale Edge-Enhanced Framework for Automated Pollen Recognition
作者: Yuchong Long / Wen Sun / Ningxiao Sun / Wenxiao Wang / Chao Li / Shan Yin
原文:   [英文]   [中文]  
备注: 16 pages, 5 figures, 2 tables. The dataset at this https URL. The models at this https URL. The source code in at this https URL
摘要:
自动化花粉识别对于古气候学、生物多样性监测和公共健康至关重要,但传统方法因效率低下和主观性而受到阻碍。现有的深度学习模型通常难以实现对花粉等微观目标所需的定位精度,这些目标的特征是尺寸微小、边缘模糊且背景复杂。为克服这一限制,我们引入了HieraEdgeNet,一个多尺度边缘增强框架。该框架的核心创新在于引入了三个协同模块:层次边缘模块(HEM),在网络早期阶段明确提取与语义层次对应的多尺度边缘特征金字塔;协同边缘融合(SEF)模块,用于在各自尺度上深度融合这些边缘先验与语义信息;以及跨阶段部分全核模块(CSPOKM),通过全核算子——包括各向异性大核卷积和混合域注意力——在计算高效的跨阶段部分(CSP)框架内最大限度地优化最具细节的特征层。在包含120个花粉类别的大规模数据集上,HieraEdgeNet实现了0.9501的平均精度(mAP@.5),显著优于YOLOv12n和RT-DETR等最先进的基线模型。此外,定性分析证实我们的方法生成的特征表示更精确地聚焦于物体边界。通过系统地整合边缘信息,HieraEdgeNet为高精度、高效率的微观物体自动检测提供了一个强大而有效的解决方案。

[127] 合成视觉基因组
标题: Synthetic Visual Genome
作者: Jae Sung Park / Zixian Ma / Linjie Li / Chenhao Zheng / Cheng-Yu Hsieh / Ximing Lu / Khyathi Chandu / Quan Kong / Norimasa Kobori / Ali Farhadi / Yejin Choi / Ranjay Krishna
原文:   [英文]   [中文]  
备注: CVPR 2025
摘要:
推理视觉关系——空间的、功能的、互动的、社会的等——被认为是人类认知的基本组成部分。然而,尽管多模态语言模型(MLMs)在视觉理解方面取得了重大进展,但对关系及其生成的精确推理仍然是一个挑战。我们介绍了ROBIN:一个经过密集注释关系指令调优的MLM,能够大规模构建高质量的密集场景图。为了训练ROBIN,我们策划了SVG,这是一个合成场景图数据集,通过使用教师MLM和精心设计的过滤过程来完成现有场景图中选定对象的缺失关系,以确保高质量。为了为任何图像生成更准确和丰富的场景图,我们引入了SG-EDIT:一个自蒸馏框架,其中GPT-4o通过去除不太可能的关系和/或建议相关关系进一步优化ROBIN预测的场景图。总的来说,我们的数据集包含146K张图像和560万个关系,涉及260万个对象。结果表明,我们的ROBIN-3B模型尽管仅在不到300万个实例上训练,但在关系理解基准测试中优于在超过3亿个实例上训练的相似规模模型,甚至超过了参数高达13B的更大模型。值得注意的是,它在指称表达理解方面达到了88.9的最新性能,超过了之前的87.4的最佳成绩。我们的结果表明,在精炼的场景图数据上进行训练对于在各种视觉推理任务中保持高性能至关重要。

[128] FMaMIL:基于频率驱动的曼巴多实例学习用于医学图像中的弱监督病变分割
标题: FMaMIL: Frequency-Driven Mamba Multi-Instance Learning for Weakly Supervised Lesion Segmentation in Medical Images
作者: Hangbei Cheng / Xiaorong Dong / Xueyu Liu / Jianan Zhang / Xuetao Ma / Mingqiang Wei / Liansheng Wang / Junxin Chen / Yongfei Wu
原文:   [英文]   [中文]  
备注: None
摘要:
在组织病理学图像中,准确的病变分割对于诊断解释和定量分析至关重要,但由于昂贵的像素级标注的有限可用性,这仍然是一个挑战。为了解决这个问题,我们提出了FMaMIL,这是一种仅基于图像级标签的弱监督病变分割的新颖两阶段框架。在第一阶段,引入了一种轻量级的基于Mamba的编码器,以在MIL范式下捕获图像块之间的长程依赖性。为了增强空间敏感性和结构意识,我们设计了一个可学习的频域编码模块,以频谱信息补充空间域特征。在这一阶段生成的CAMs用于指导分割训练。在第二阶段,我们通过CAM引导的软标签监督和自我校正机制来优化初始伪标签,即使在标签噪声下也能实现稳健的训练。在公共和私有组织病理学数据集上的大量实验表明,FMaMIL在不依赖像素级标注的情况下优于最先进的弱监督方法,验证了其在数字病理学应用中的有效性和潜力。

[129] ProSplat:改进的前馈3D高斯点云投影用于宽基线稀疏视图
标题: ProSplat: Improved Feed-Forward 3D Gaussian Splatting for Wide-Baseline Sparse Views
作者: Xiaohan Lu / Jiaye Fu / Jiaqi Zhang / Zetian Song / Chuanmin Jia / Siwei Ma
原文:   [英文]   [中文]  
备注: None
摘要:
前馈式3D高斯喷溅(3DGS)最近在从稀疏输入视图进行新视图合成(NVS)方面展示了令人鼓舞的结果,特别是在窄基线条件下。然而,在宽基线场景中,由于视图之间的纹理细节有限和几何不一致,其性能显著下降。为了解决这些挑战,本文提出了ProSplat,这是一种为宽基线条件下的高保真渲染而设计的两阶段前馈框架。第一阶段涉及通过3DGS生成器生成3D高斯原语。在第二阶段,通过改进模型增强从这些原语渲染的视图。具体来说,这个改进模型基于一步扩散模型,并通过我们提出的最大重叠参考视图注入(MORI)和距离加权极线注意(DWEA)进一步优化。MORI通过战略性地选择具有最大视点重叠的参考视图来补充缺失的纹理和颜色,而DWEA则使用极线约束来加强几何一致性。此外,我们引入了一种分而治之的训练策略,通过联合优化来对齐两个阶段之间的数据分布。我们在RealEstate10K和DL3DV-10K数据集的宽基线设置下评估了ProSplat。实验结果表明,与最近的SOTA方法相比,ProSplat在PSNR方面平均提高了1 dB。

[130] OpenSplat3D:使用高斯喷溅进行开放词汇的3D实例分割
标题: OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting
作者: Jens Piekenbrinck / Christian Schmidt / Alexander Hermans / Narunas Vaskevicius / Timm Linder / Bastian Leibe
原文:   [英文]  
备注: None
摘要:
3D Gaussian Splatting(3DGS)作为一种强大的神经场景重建表示方法,能够在保持计算效率的同时提供高质量的新视角合成。在本文中,我们通过引入一种无需手动标注的开放词汇3D实例分割方法,扩展了3DGS的能力,称为OpenSplat3D。我们的方法利用特征喷洒技术将语义信息与单个高斯关联,从而实现细粒度的场景理解。我们结合“Segment Anything Model”实例掩码和对比损失公式,作为实例特征的指导,以实现精确的实例级分割。此外,我们利用视觉-语言模型的语言嵌入,允许灵活的、基于文本的实例识别。这种组合使我们的系统能够根据自然语言描述识别和分割3D场景中的任意对象。我们在LERF-mask和LERF-OVS以及完整的ScanNet++验证集上展示了结果,证明了我们方法的有效性。

[131] NOVA3D:用于单张图像到3D生成的法线对齐视频扩散模型
标题: NOVA3D: Normal Aligned Video Diffusion Model for Single Image to 3D Generation
作者: Yuxiao Yang / Peihao Li / Yuhong Zhang / Junzhe Lu / Xianglong He / Minghan Qin / Weitao Wang / Haoqian Wang
原文:   [英文]   [中文]  
备注: 8 pages, 7 figures, accepted by ICME 2025
摘要:
3D AI生成内容(AIGC)使得任何人都可以更轻松地成为3D内容创作者。尽管最近的方法利用得分蒸馏采样从预训练的图像扩散模型中提取3D对象,但它们通常由于缺乏足够的3D先验知识而导致多视图一致性不足。在这项工作中,我们介绍了NOVA3D,这是一种创新的单图像到3D生成框架。我们的关键见解在于利用预训练的视频扩散模型中的强3D先验知识,并在多视图视频微调过程中整合几何信息。为了促进颜色和几何域之间的信息交换,我们提出了几何-时间对齐(GTA)注意机制,从而提高了泛化能力和多视图一致性。此外,我们引入了解决冲突的几何融合算法,通过解决多视图不准确性和姿态对齐中的差异来提高纹理保真度。大量实验验证了NOVA3D相较于现有基线的优越性。

[132] 自适应盲超分辨率网络用于空间特定和空间无关的退化
标题: Adaptive Blind Super-Resolution Network for Spatial-Specific and Spatial-Agnostic Degradations
作者: Weilei Wen / Chunle Guo / Wenqi Ren / Hongpeng Wang / Xiuli Shao
原文:   [英文]   [中文]  
备注: IEEE TRANSACTIONS ON IMAGE PROCESSING
摘要:
以往的方法在图像重建过程中忽视了不同退化类型之间的差异,采用统一的网络模型来处理多种退化。然而,我们发现常见的退化模式,包括采样、模糊和噪声,可以大致分为两类。我们将第一类归类为空间无关的主导退化,这类退化较少受到图像空间区域变化的影响,例如降采样和噪声退化。第二类退化类型与图像的空间位置密切相关,例如模糊,我们将其识别为空间特定的主导退化。我们引入了一个动态滤波网络,结合全局和局部分支来应对这两种退化类型。该网络可以极大地缓解实际的退化问题。具体而言,全局动态滤波层通过将注意力机制生成的权重应用于多个并行的标准卷积核,能够感知不同图像中的空间无关主导退化,从而增强网络的表示能力。同时,局部动态滤波层将图像的特征图转换为空间特定的动态滤波算子,对图像特征进行空间特定的卷积操作,以处理空间特定的主导退化。通过有效整合全局和局部动态滤波算子,我们提出的方法在合成和真实图像数据集上均优于最先进的盲超分辨率算法。

[133] 一致性视频编辑作为流驱动的图像到视频生成
标题: Consistent Video Editing as Flow-Driven Image-to-Video Generation
作者: Ge Wang / Songlin Fan / Hangxu Liu / Quanjian Song / Hewei Wang / Jinfeng Xu
原文:   [英文]   [中文]  
备注: 16 pages, 12 figures
摘要:
随着视频扩散模型的兴起,下游应用如视频编辑在不消耗大量计算成本的情况下得到了显著提升。此任务中的一个特殊挑战在于将运动从源视频转移到编辑后的视频,这需要考虑形状变形,同时保持生成视频序列的时间一致性。然而,现有方法未能为视频编辑建模复杂的运动模式,基本上局限于对象替换,而对于多对象和肖像编辑等具有非刚性对象运动的任务则大多被忽视。在本文中,我们观察到光流在复杂运动建模中提供了一种有前途的替代方案,并提出了FlowV2V,将视频编辑重新审视为一个由光流驱动的图像到视频(I2V)生成任务。具体来说,FlowV2V将整个流程分解为首帧编辑和条件I2V生成,并模拟与变形形状对齐的伪光流序列,从而确保编辑过程中的一致性。在DAVIS-EDIT上的实验结果显示,FlowV2V在DOVER和扭曲误差上分别提高了13.67%和50.66%,相比现有的最先进方法,展现了优越的时间一致性和样本质量。此外,我们进行了全面的消融研究,以分析所提出方法中首帧范式和光流对齐的内部功能。

[134] ReverB-SNN:反转脉冲神经网络的权重和激活位
标题: ReverB-SNN: Reversing Bit of the Weight and Activation for Spiking Neural Networks
作者: Yufei Guo / Yuhan Zhang / Zhou Jie / Xiaode Liu / Xin Tong / Yuanpei Chen / Weihang Peng / Zhe Ma
原文:   [英文]   [中文]  
备注: Accpeted by ICML2024
摘要:
脉冲神经网络(SNN)是一种受生物启发的神经网络架构,近年来引起了广泛关注。SNN利用二进制脉冲激活进行高效的信息传输,用加法代替乘法,从而提高了能量效率。然而,二进制脉冲激活图通常无法捕捉足够的数据信息,导致准确性下降。为了解决这一挑战,我们提出了一种称为\textbf{ReverB-SNN}的方法,灵感来自于最近的研究发现,即量化激活比量化权重对准确性的影响更大。具体来说,我们的方法在SNN中使用实值脉冲激活和二进制权重。这保留了标准SNN的事件驱动和无乘法的优势,同时增强了激活的信息容量。此外,我们在二进制权重中引入了一个可训练因子,以在训练过程中自适应地学习合适的权重幅度,从而增加网络容量。为了保持与原始\textbf{ReverB-SNN}相似的效率,我们的可训练二进制权重SNN在推理过程中通过重新参数化技术转换回标准形式。通过在各种网络架构和数据集(包括静态和动态)上的广泛实验,我们的方法始终优于最先进的方法。

[135] ETA:通过前瞻思维实现效率,一种基于大型模型的自动驾驶双重方法
标题: ETA: Efficiency through Thinking Ahead, A Dual Approach to Self-Driving with Large Models
作者: Shadi Hamdan / Chonghao Sima / Zetong Yang / Hongyang Li / Fatma Güney
原文:   [英文]  
备注: ICCV 2025 submission. For code, see this https URL
摘要:
我们如何在不牺牲推理速度的情况下利用大型模型,这是自动驾驶系统中常见的困境?一种普遍的解决方案是双系统架构,使用小模型进行快速、反应性的决策,而使用大模型进行较慢但信息更丰富的分析。现有的双系统设计通常实现并行架构,其中推理要么直接在每个当前帧上使用大模型进行,要么从先前存储的推理结果中检索。然而,这些方法仍然难以使大模型对每个在线帧及时响应。我们的关键见解是将当前帧的密集计算转移到先前的时间步骤,并对多个时间步骤进行批量推理,以使大模型能够及时响应每个时间步骤。为了实现这种转移,我们引入了“前瞻性思考效率”(ETA),这是一种异步系统,旨在:(1) 使用大模型的未来预测将有用的特征从过去传播到当前帧,(2) 使用小模型提取当前帧特征以实现实时响应,(3) 通过动作掩码机制整合这些双重特征,强调动作关键的图像区域。在Bench2Drive CARLA Leaderboard-v2基准测试中,ETA在驾驶得分为69.53的情况下,将最先进的性能提高了8%,同时保持了接近实时的50毫秒推理速度。

[136] SpikeSMOKE:用于单目3D目标检测的跨尺度门控编码脉冲神经网络
标题: SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding
作者: Xuemei Chen / Huamin Wang / Hangchi Shen / Shukai Duan / Shiping Wen / Tingwen Huang
原文:   [英文]   [中文]  
备注: None
摘要:
3D目标检测的低能耗是一个重要的研究领域,因为随着其在自动驾驶等领域的广泛应用,能耗也在不断增加。具有低功耗特性的脉冲神经网络(SNNs)为这一研究提供了一种新颖的解决方案。因此,我们在本文中将SNNs应用于单目3D目标检测,并提出了SpikeSMOKE架构,这是低功耗单目3D目标检测的一次新尝试。众所周知,与人工神经网络(ANNs)相比,SNNs的离散信号会导致信息丢失,限制其特征表达能力。为了解决这个问题,我们受到生物神经元突触过滤机制的启发,提出了一种跨尺度门控编码机制(CSGC),通过结合注意力方法的跨尺度融合和门控过滤来增强特征表示。此外,为了减少计算量并提高训练速度,我们提出了一种新颖的轻量级残差块,可以保持脉冲计算范式并达到尽可能高的检测性能。与基线SpikeSMOKE在3D目标检测下相比,提出的带有CSGC的SpikeSMOKE在KITTI自动驾驶数据集上以0.7 IoU阈值的AP|R11分别可以达到11.78(+2.82,简单)、10.69(+3.2,中等)和10.48(+3.17,困难)。值得注意的是,与SMOKE的结果相比,SpikeSMOKE的结果可以显著降低能耗。例如,在困难类别上能耗可以减少72.2%,而检测性能仅降低4%。SpikeSMOKE-L(轻量级)相比于SMOKE可以进一步减少3倍的参数量和10倍的计算量。

[137] AssetDropper:通过扩散模型与奖励驱动优化进行资产提取
标题: AssetDropper: Asset Extraction via Diffusion Models with Reward-Driven Optimization
作者: Lanjiong Li / Guanhua Zhao / Lingting Zhu / Zeyu Cai / Lequan Yu / Jian Zhang / Zeyu Wang
原文:   [英文]   [中文]  
备注: SIGGRAPH 2025. 11 pages, 12 figures
摘要:
最近关于生成模型的研究主要集中在创建可用于产品的视觉输出;然而,设计师通常更喜欢访问标准化的素材库,而这一领域尚未通过生成能力得到显著提升。尽管开放世界场景为设计师提供了丰富的原材料,但高效提取高质量、标准化的素材仍然是一个挑战。为了解决这个问题,我们引入了AssetDropper,这是第一个旨在从参考图像中提取素材的框架,为艺术家提供开放世界的素材调色板。我们的模型能够熟练地从输入图像中提取所选主体的正面视图,有效处理诸如透视失真和主体遮挡等复杂场景。我们建立了一个包含超过20万对图像-主体对的合成数据集,以及一个包含数千对的真实世界基准用于评估,促进未来在下游任务中研究的探索。此外,为了确保精确的素材提取与图像提示高度一致,我们采用了一个预训练的奖励模型来实现带有反馈的闭环。我们设计奖励模型来执行一个逆向任务,将提取的素材粘贴回参考来源,这有助于通过额外的一致性进行训练并减轻幻觉。大量实验表明,在奖励驱动优化的帮助下,AssetDropper在素材提取方面达到了最先进的结果。项目页面:this http URL。

[138] ArchiLense:基于视觉大型语言模型的建筑风格定量分析框架
标题: ArchiLense: A Framework for Quantitative Analysis of Architectural Styles Based on Vision Large Language Models
作者: Jing Zhong / Jun Yin / Peilin Li / Pengyu Zeng / Miao Zhang / Shuai Lu / Ran Luo
原文:   [英文]  
备注: None
摘要:
各地区的建筑文化以风格多样性为特征,这种多样性不仅由地理条件塑造,还受到历史、社会和技术背景的影响。理解建筑风格需要具备通过对建筑图像的视觉观察来描述和分析来自不同地区的建筑师的风格特征的能力。然而,传统的建筑文化研究主要依赖于主观的专家解释和历史文献回顾,往往存在区域偏见和解释范围有限的问题。为了解决这些挑战,本研究提出了三个核心贡献:(1)我们构建了一个名为 ArchDiffBench 的专业建筑风格数据集,该数据集包含 1,765 张高质量的建筑图像及其相应的风格注释,这些图像和注释来自不同地区和历史时期。(2)我们提出了 ArchiLense,这是一种基于视觉语言模型并使用 ArchDiffBench 数据集构建的分析框架。通过整合先进的计算机视觉技术、深度学习和机器学习算法,ArchiLense 能够自动识别、比较和精确分类建筑图像,生成描述性语言输出以阐明风格差异。(3)广泛的评估表明,ArchiLense 在建筑风格识别方面表现出色,与专家注释的一致性率达到 92.4%,分类准确率为 84.5%,有效捕捉了图像之间的风格差异。所提出的方法超越了传统分析中固有的主观性,为建筑文化的比较研究提供了更客观和准确的视角。

[139] 流动万物:从大规模单视图图像中学习真实世界的光流估计
标题: Flow-Anything: Learning Real-World Optical Flow Estimation from Large-Scale Single-view Images
作者: Yingping Liang / Ying Fu / Yutao Hu / Wenqi Shao / Jiaming Liu / Debing Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
光流估计是计算机视觉的一个关键子领域,是视频任务的基础。然而,现实世界的鲁棒性受到用于训练的动画合成数据集的限制。这在应用于现实世界时引入了领域差距,并限制了数据集扩展的好处。为了解决这些挑战,我们提出了\textbf{Flow-Anything},一个大规模数据生成框架,旨在从现实世界的任意单视图图像中学习光流估计。我们采用了两个有效步骤来使数据扩展变得有前景。首先,我们使用先进的单目深度估计网络将单视图图像转换为3D表示。这使我们能够在虚拟相机下渲染光流和新视图图像。其次,我们开发了一个对象无关的体渲染模块和一个深度感知的修复模块,以在3D表示中建模动态对象。这两个步骤使我们能够从大规模单视图图像中生成用于训练的逼真数据集,即\textbf{FA-Flow Dataset}。我们首次展示了从大规模现实世界图像生成光流训练数据的好处,超越了最先进的无监督方法和合成数据集上的监督方法。此外,我们的模型作为基础模型,提升了各种下游视频任务的性能。

[140] 差异反演:通过令牌一致性插值和隔离差异以生成图像类比
标题: Difference Inversion: Interpolate and Isolate the Difference with Token Consistency for Image Analogy Generation
作者: Hyunsoo Kim / Donghyun Kim / Suhyun Kim
原文:   [英文]  
备注: Published at CVPR 2025
摘要:
我们如何生成一个图像 B',使其满足 A:A'::B:B',给定输入图像 A, A' 和 B?最近的研究通过视觉上下文学习或视觉指令等方法解决了这一挑战。然而,这些方法通常仅限于特定模型(例如 InstructPix2Pix、修复模型),而不是通用扩散模型(例如 Stable Diffusion, SDXL)。这种依赖可能导致继承的偏见或较低的编辑能力。在本文中,我们提出了差异反演(Difference Inversion)方法,该方法仅隔离 A 和 A' 之间的差异并将其应用于 B,以生成合理的 B'。为了解决模型依赖性问题,关键在于将提示结构化为适合输入稳定扩散模型的“完整提示”,而不是使用“指令提示”。为此,我们准确提取 A 和 A' 之间的差异,并将其与 B 的提示结合,从而实现差异的即插即用应用。为了提取精确的差异,我们首先通过 1)Delta 插值来识别它。此外,为了确保准确的训练,我们提出了 2)令牌一致性损失和 3)令牌嵌入的零初始化。我们的大量实验表明,差异反演在定量和定性上都优于现有的基线,表明其能够以与模型无关的方式生成更可行的 B'。

[141] 基于视觉分割和语义相似度的趋势感知时尚推荐
标题: Trend-Aware Fashion Recommendation with Visual Segmentation and Semantic Similarity
作者: Mohamed Djilani / Nassim Ali Ousalah / Nidhal Eddine Chenni
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了一种趋势感知和视觉基础的时尚推荐系统,该系统集成了深度视觉表示、服装感知分割、语义类别相似性和用户行为模拟。我们的流程通过语义分割屏蔽非服装区域,然后使用预训练的CNN骨干网络(ResNet-50、DenseNet-121、VGG16)进行特征提取,以提取集中的视觉嵌入。为了模拟真实的购物行为,我们生成了受用户特定趋势性和商品受欢迎程度影响的合成购买历史。推荐是通过融合视觉相似性、语义一致性和受欢迎程度对齐的加权评分函数计算得出的。在DeepFashion数据集上的实验表明,我们的方法在性别对齐和类别相关性方面表现出一致性,其中ResNet-50实现了64.95%的类别相似性和最低的受欢迎程度MAE。消融研究证实了视觉和受欢迎程度提示的互补作用。我们的方法提供了一个可扩展的个性化时尚推荐框架,能够在平衡个人风格和新兴趋势之间取得平衡。我们的实现可以在这个https URL上获得。

[142] 用于文本到视觉推理的语言-视觉规划器和执行器
标题: Language-Vision Planner and Executor for Text-to-Visual Reasoning
作者: Yichang Xu / Gaowen Liu / Ramana Rao Kompella / Sihao Hu / Tiansheng Huang / Fatih Ilhan / Selim Furkan Tekin / Zachary Yahn / Ling Liu
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)和大型视觉模型的进步推动了多模态视觉-文本推理能力的快速发展。然而,现有的视觉-语言模型(VLMs)在泛化性能上仍存在不足。受最近在视觉推理方面的LLMs发展的启发,本文提出了VLAgent,这是一种AI系统,可以创建逐步的视觉推理计划,并通过VLAgent支持的自动化过程,将计划脚本与执行验证相结合,实时执行计划的每一步。在任务规划阶段,VLAgent通过上下文学习微调LLM,为每个用户提交的文本-视觉推理任务生成逐步的计划。在计划执行阶段,VLAgent逐步优化神经符号可执行模块的组合,以生成高置信度的推理结果。VLAgent具有三个独特的设计特点:首先,我们通过上下文学习提高计划生成的质量,通过减少错误的逻辑步骤、错误的程序和LLM幻觉来改善逻辑推理。其次,我们设计了一个语法-语义解析器,在启动计划执行器之前识别并纠正LLM生成的计划脚本中的额外逻辑错误。最后,我们采用集成方法来提高步骤执行器的泛化性能。通过四个视觉推理基准(GQA、MME、NLVR2、VQAv2)的广泛实验表明,与现有的代表性VLMs和基于LLM的视觉组合方法(如ViperGPT和VisProg)相比,VLAgent在多模态文本-视觉推理应用中实现了显著的性能提升,这得益于VLAgent后端引擎的创新优化模块(SS-Parser、Plan Repairer、Output Verifiers)。代码和数据将在论文接受后提供。

[143] 基于深度学习的双光谱图像融合方法的设计与评估
标题: Design and Evaluation of Deep Learning-Based Dual-Spectrum Image Fusion Methods
作者: Beining Xu / Junxian Li
原文:   [英文]   [中文]  
备注: 11 pages, 13 figures
摘要:
可见光图像提供丰富的纹理细节,而红外图像则强调显著目标。融合这些互补的模态可以增强场景理解,特别是在具有挑战性的条件下进行高级视觉任务时。最近,基于深度学习的融合方法受到了关注,但当前的评估主要依赖于通用指标,缺乏标准化的基准或下游任务性能。此外,缺乏完善的双光谱数据集和公平的算法比较也阻碍了进展。 为了解决这些问题,我们构建了一个高质量的双光谱数据集,该数据集在校园环境中捕获,包括1,369对对齐良好的可见光-红外图像,涵盖四种典型场景:白天、夜晚、烟雾遮挡和地下通道。我们还提出了一个综合且公平的评估框架,该框架结合了融合速度、通用指标和使用lang-segment-anything模型的目标检测性能,以确保下游评估的公平性。 在此框架下,我们对几种最先进的融合算法进行了广泛的实验基准测试。结果表明,为下游任务优化的融合模型在目标检测中表现出色,尤其是在低光和遮挡场景中。值得注意的是,一些在通用指标上表现良好的算法并未在下游性能上表现出色,这突显了当前评估实践的局限性,并验证了我们所提出框架的必要性。 这项工作的主要贡献是:(1) 一个面向校园的双光谱数据集,具有多样且具有挑战性的场景;(2) 一个任务感知的综合评估框架;(3) 对多个数据集上的领先融合方法进行的全面比较分析,为未来的发展提供了见解。

[144] 使用树搜索对推理上下文进行重新排序使大型视觉语言模型更强大
标题: Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger
作者: Qi Yang / Chenghao Zhang / Lubin Fan / Kun Ding / Jieping Ye / Shiming Xiang
原文:   [英文]   [中文]  
备注: ICML 2025 Spotlight. 22 pages, 16 figures
摘要:
最近在大型视觉语言模型(LVLMs)方面的进展,通过多模态检索增强生成(RAG)显著提高了视觉问答(VQA)任务的性能。然而,现有方法仍面临一些挑战,例如缺乏带有推理示例的知识以及从检索知识中得到不稳定的响应。为了解决这些问题,在本研究中,我们提出了一种多模态RAG框架,称为RCTS,通过构建一个推理上下文丰富的知识库和树搜索重排序方法来增强LVLMs。具体来说,我们引入了一种自我一致的评估机制,以内在推理模式丰富知识库。我们进一步提出了一种带有启发式奖励的蒙特卡罗树搜索(MCTS-HR),以优先选择最相关的示例。这确保了LVLMs能够利用高质量的上下文推理来获得更好和更一致的响应。大量实验表明,我们的框架在多个VQA数据集上达到了最先进的性能,显著优于上下文学习(ICL)和Vanilla-RAG方法。这突出了我们的知识库和重排序方法在改进LVLMs方面的有效性。我们的代码可在此https URL获取。

[145] 图像重建作为特征分析的工具
标题: Image Reconstruction as a Tool for Feature Analysis
作者: Eduard Allakhverdov / Dmitrii Tarasov / Elizaveta Goncharova / Andrey Kuznetsov
原文:   [英文]   [中文]  
备注: 23 pages, 14 figures
摘要:
视觉编码器在现代应用中越来越多地被使用,从仅依赖视觉的模型到多模态系统,如视觉-语言模型。尽管它们取得了显著的成功,但这些架构如何在内部表示特征仍不清楚。在此,我们提出了一种通过图像重建来解释视觉特征的新方法。我们比较了两个相关的模型家族,SigLIP 和 SigLIP2,它们仅在训练目标上有所不同,并表明在图像任务上预训练的编码器比在非图像任务(如对比学习)上训练的编码器保留了显著更多的图像信息。我们进一步将我们的方法应用于一系列视觉编码器,并根据其特征表示的信息量对它们进行排名。最后,我们展示了操控特征空间会导致重建图像的可预测变化,揭示了正交旋转(而非空间变换)控制颜色编码。我们的方法可以应用于任何视觉编码器,揭示其特征空间的内部结构。用于重现实验的代码和模型权重已在 GitHub 上提供。

[146] 结合不确定性引导和Top-k码本匹配的真实世界盲图像超分辨率
标题: Incorporating Uncertainty-Guided and Top-k Codebook Matching for Real-World Blind Image Super-Resolution
作者: Weilei Wen / Tianyi Zhang / Qianqian Zhao / Zhaohui Zheng / Chunle Guo / Xiuli Shao / Chongyi Li
原文:   [英文]   [中文]  
备注: None
摘要:
最近在基于码本的真实图像超分辨率(SR)方面的进展在实际应用中显示出了良好的效果。其核心思想是基于低分辨率(LR)图像特征从码本中匹配高质量的图像特征。然而,现有方法面临两个主要挑战:与码本的特征匹配不准确和纹理细节重建效果差。为了解决这些问题,我们提出了一种新颖的不确定性引导和Top-k码本匹配超分辨率(UGTSR)框架,该框架包含三个关键组件:(1)一种不确定性学习机制,引导模型关注纹理丰富的区域,(2)一种Top-k特征匹配策略,通过融合多个候选特征来提高特征匹配的准确性,以及(3)一个对齐注意模块,增强LR和HR特征之间信息的对齐。实验结果表明,与现有方法相比,该方法在纹理真实感和重建保真度方面有显著提高。我们将在正式发表后发布代码。

[147] 超越可见线索:通过双线索推理进行隐式视频问答
标题: Looking Beyond Visible Cues: Implicit Video Question Answering via Dual-Clue Reasoning
作者: Tieyuan Chen / Huabin Liu / Yi Wang / Chaofan Gan / Mingxi Lyu / Gui Zou / Weiyao Lin
原文:   [英文]   [中文]  
备注: Preprint
摘要:
视频问答(VideoQA)旨在根据给定的视频回答自然语言问题,之前的工作主要集中在识别相关片段的持续时间,即所谓的显式视觉证据。然而,显式视觉证据并不总是直接可用,特别是当问题涉及象征意义或更深层次意图时,这会导致显著的性能下降。为了解决这一问题,我们引入了一项新任务和数据集,称为隐式视频问答(I-VQA),其重点是在显式视觉证据不可访问的情况下回答问题。给定一个隐式问题及其对应的视频,I-VQA需要基于视频中的上下文视觉线索进行回答。为了解决I-VQA,我们提出了一种新颖的推理框架,称为隐式推理模型(IRM),该模型结合了上下文动作和意图线索的双流建模作为隐式推理链。IRM包括动作-意图模块(AIM)和视觉增强模块(VEM)。AIM通过生成线索候选并进行关系推导来推断和保留与问题相关的双重线索。VEM通过利用关键上下文线索来增强上下文视觉表示。大量实验验证了我们的IRM在I-VQA任务中的有效性,分别比GPT-4o、OpenAI-o3和微调的VideoChat2高出0.76%、1.37%和4.87%。此外,IRM在类似的隐式广告理解和交通VQA中的未来预测任务上表现出色。数据集和代码可在匿名仓库中进行双盲评审:此https URL。

[148] 用于任意尺度图像超分辨率的自级联扩散模型
标题: Self-Cascaded Diffusion Models for Arbitrary-Scale Image Super-Resolution
作者: Junseo Bang / Joonhee Lee / Kyeonghyun Lee / Haechang Lee / Dong Un Kang / Se Young Chun
原文:   [英文]   [中文]  
备注: None
摘要:
任意比例图像超分辨率旨在将图像放大到任何所需的分辨率,比传统的固定比例超分辨率提供了更大的灵活性。该领域的最新方法利用基于回归或生成模型,但其中许多是单阶段的放大过程,这可能在学习广泛、连续的缩放因子分布时具有挑战性。渐进式放大策略在缓解这一问题上显示出希望,但其与扩散模型结合以实现灵活放大仍未得到充分探索。在此,我们提出了CasArbi,一种新颖的自级联扩散框架,用于任意比例图像超分辨率。CasArbi通过将不同的缩放需求分解为较小的连续因子,并在每一步逐步增强图像分辨率,实现了任意比例的无缝过渡。我们新颖的坐标引导残差扩散模型允许学习连续的图像表示,同时实现高效的扩散采样。大量实验表明,我们的CasArbi在各种任意比例超分辨率基准测试中,在感知和失真性能指标上均优于现有技术。

[149] M2Restore:基于专家混合的Mamba-CNN融合框架用于一体化图像修复
标题: M2Restore: Mixture-of-Experts-based Mamba-CNN Fusion Framework for All-in-One Image Restoration
作者: Yongzhen Wang / Yongjun Li / Zhuoran Zheng / Xiao-Ping Zhang / Mingqiang Wei
原文:   [英文]   [中文]  
备注: 13 pages, 8 figures, 3 tables
摘要:
自然图像常常受到复杂的复合退化影响,如雨、雪和雾,这对后续的视觉应用产生不利影响。尽管现有的图像修复工作取得了显著的成功,但仍然面临两个关键挑战:在动态变化的退化场景中泛化能力有限,以及在保持局部细节和建模全局依赖之间的平衡不够理想。为了解决这些挑战,我们提出了M2Restore,这是一种基于专家混合(MoE)的Mamba-CNN融合框架,用于高效且稳健的全能图像修复。M2Restore引入了三个关键贡献:首先,为了提高模型在多样化退化条件下的泛化能力,我们利用了一个CLIP引导的MoE门控机制,该机制将任务条件提示与CLIP派生的语义先验融合。通过跨模态特征校准进一步优化该机制,使其能够为各种退化类型进行精确的专家选择。其次,为了同时捕捉全局上下文依赖和细粒度的局部细节,我们设计了一种双流架构,将CNN的局部表征能力与Mamba的长程建模效率相结合。这种整合实现了全局语义关系和局部结构保真度的协同优化,在增强细节修复的同时保持全局一致性。第三,我们引入了一种边缘感知的动态门控机制,通过将计算注意力重新分配到对退化敏感的区域,自适应地平衡全局建模和局部增强。这种有针对性的关注导致了更高效和精确的修复。在多个图像修复基准上的广泛实验验证了M2Restore在视觉质量和定量性能上的优越性。

[150] R3D2:通过扩散实现自动驾驶仿真的真实3D资产插入
标题: R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation
作者: William Ljungbergh / Bernardo Taveira / Wenzhao Zheng / Adam Tonderski / Chensheng Peng / Fredrik Kahl / Christoffer Petersson / Michael Felsberg / Kurt Keutzer / Masayoshi Tomizuka / Wei Zhan
原文:   [英文]   [中文]  
备注: None
摘要:
验证自动驾驶(AD)系统需要多样且安全关键的测试,这使得逼真的虚拟环境变得至关重要。传统的仿真平台虽然可控,但在扩展时资源密集,并且常常与真实世界数据存在领域差距。相比之下,像3D高斯散点(3DGS)这样的神经重建方法为创建真实世界驾驶场景的逼真数字孪生体提供了一种可扩展的解决方案。然而,由于其基于每个场景优化的方法,导致动态对象操作和可重用性方面存在困难,通常会产生不完整的对象模型并集成光照效果。本文介绍了R3D2,这是一种轻量级的一步扩散模型,旨在克服这些限制,并通过实时生成合理的渲染效果(如阴影和一致的光照)来实现完整3D资产在现有场景中的逼真插入。这是通过在一个新颖的数据集上训练R3D2实现的:3DGS对象资产是使用图像条件的3D生成模型从野外AD数据生成的,然后合成地放置到基于神经渲染的虚拟环境中,使R3D2能够学习逼真的集成。定量和定性评估表明,R3D2显著增强了插入资产的真实感,使得文本到3D资产插入和跨场景/数据集对象转移等用例成为可能,从而实现AD验证的真正可扩展性。为了促进在可扩展和逼真的AD仿真方面的进一步研究,我们将发布我们的数据集和代码,详见此HTTPS URL。

[151] 低噪声条件下的扩散模型
标题: Diffusion models under low-noise regime
作者: Elizabeth Pavlova / Xue-Xin Wei
原文:   [英文]   [中文]  
备注: None
摘要:
最近关于扩散模型的研究提出,这些模型在两种模式下运行:记忆模式,即模型重现其训练数据;以及泛化模式,即生成新颖的样本。虽然在高噪声环境中对此进行了测试,但当损坏程度较小时,扩散模型作为有效去噪器的行为仍不清楚。为了解决这一差距,我们系统地研究了低噪声扩散动态下扩散模型的行为,这对模型的鲁棒性和可解释性有重要意义。通过使用 (i) 不同样本量的 CelebA 子集和 (ii) 分析高斯混合基准,我们揭示了即使在高噪声输出收敛的情况下,训练于不相交数据上的模型在数据流形附近会出现分歧。我们量化了训练集大小、数据几何形状和模型目标选择如何塑造去噪轨迹并影响评分准确性,从而提供了关于这些模型如何实际学习数据分布表示的见解。这项工作开始解决我们对生成模型在小扰动常见的实际应用中可靠性理解的不足。

[152] F2Net:一种用于超高分辨率遥感分割的频率融合网络
标题: F2Net: A Frequency-Fused Network for Ultra-High Resolution Remote Sensing Segmentation
作者: Hengzhi Chen / Liqian Feng / Wenhua Wu / Xiaogang Zhu / Shawn Leo / Kun Hu
原文:   [英文]   [中文]  
备注: None
摘要:
超高分辨率(UHR)遥感图像的语义分割对于环境监测和城市规划等应用至关重要,但面临计算和优化的挑战。传统方法要么通过下采样丢失细节,要么通过分块处理破坏全局上下文。虽然多分支网络解决了这一权衡,但在训练过程中它们存在计算效率低下和梯度动态冲突的问题。我们提出了F2Net,一种频率感知框架,将UHR图像分解为高频和低频分量进行专门处理。高频分支保留全分辨率的结构细节,而低频分支通过双子分支处理下采样输入,捕获短程和长程依赖关系。混合频率融合模块整合这些观察结果,并由两个新颖的目标指导:跨频率对齐损失确保频率分量之间的语义一致性,跨频率平衡损失调节各分支的梯度幅度以稳定训练。在DeepGlobe和Inria Aerial基准上进行评估,F2Net分别实现了80.22和83.39的mIoU,达到了最先进的性能。我们的代码将公开发布。

[153] PolyVivid:通过跨模态交互与增强实现生动的多主体视频生成
标题: PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement
作者: Teng Hu / Zhentao Yu / Zhengguang Zhou / Jiangning Zhang / Yuan Zhou / Qinglin Lu / Ran Yi
原文:   [英文]   [中文]  
备注: None
摘要:
尽管视频生成技术近年来取得了进展,但现有模型在细粒度可控性方面仍然不足,尤其是在多主体定制中难以保持一致的身份和交互。在本文中,我们提出了PolyVivid,这是一种多主体视频定制框架,能够实现灵活且身份一致的生成。为了在主体图像和文本实体之间建立准确的对应关系,我们设计了一个基于VLLM的文本-图像融合模块,将视觉身份嵌入到文本空间中以实现精确的定位。为了进一步增强身份保留和主体交互,我们提出了一个基于3D-RoPE的增强模块,支持文本和图像嵌入之间的结构化双向融合。此外,我们开发了一个注意力继承的身份注入模块,有效地将融合的身份特征注入到视频生成过程中,减轻身份漂移。最后,我们构建了一个基于MLLM的数据管道,结合了基于MLLM的定位、分割和基于团体的主体整合策略,以生成高质量的多主体数据,有效增强主体区分并减少下游视频生成中的歧义。大量实验表明,PolyVivid在身份保真度、视频真实感和主体对齐方面表现优异,优于现有的开源和商业基准。

[154] SAM2Auto:使用FLASH进行自动标注
标题: SAM2Auto: Auto Annotation Using FLASH
作者: Arash Rocky / Q.M. Jonathan Wu
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)由于标注数据集的稀缺而落后于大型语言模型,因为创建配对的视觉-文本标注既费力又昂贵。为了解决这一瓶颈,我们引入了SAM2Auto,这是第一个完全自动化的视频数据集标注流程,不需要人工干预或数据集特定的训练。我们的方法由两个关键组件组成:SMART-OD,一个结合自动掩码生成和开放世界目标检测能力的强大目标检测系统,以及FLASH(帧级标注和分割处理器),一个多目标实时视频实例分割(VIS)系统,即使在检测间隙中断的情况下也能在视频帧之间保持一致的目标识别。与现有的需要帧特定超参数调整并且存在大量误报的开放世界检测方法不同,我们的系统采用统计方法来最小化检测错误,同时确保在整个视频序列中一致的目标跟踪。广泛的实验验证表明,SAM2Auto在显著减少标注时间和消除人工成本的同时,实现了与手动标注相当的准确性。该系统成功处理了多样化的数据集,无需重新训练或广泛的参数调整,使其成为大规模数据集创建的实用解决方案。我们的工作为自动化视频标注建立了新的基准,并通过解决限制视觉-语言理解进展的基本数据集瓶颈,为加速VLM开发提供了一条途径。

[155] LogoSP:用于三维点云无监督语义分割的超点局部-全局分组
标题: LogoSP: Local-global Grouping of Superpoints for Unsupervised Semantic Segmentation of 3D Point Clouds
作者: Zihui Zhang / Weisheng Dai / Hongtao Wen / Bo Yang
原文:   [英文]  
备注: CVPR 2025. Code and data are available at: this https URL
摘要:
我们研究了在未经训练的人类标签的情况下,对原始点云进行无监督3D语义分割的问题。现有的方法通常将这个问题表述为学习每个点的局部特征,然后通过简单的分组策略进行处理,这种方法缺乏发现超越局部特征的额外且可能更丰富的语义先验的能力。在本文中,我们引入了LogoSP,以从局部和全局点特征中学习3D语义。我们方法的关键在于通过在频域中根据全局模式对超级点进行分组来发现3D语义信息,从而生成高度准确的语义伪标签,用于训练分割网络。在两个室内和一个室外数据集上的大量实验表明,我们的LogoSP大幅超越了所有现有的无监督方法,实现了无监督3D语义分割的最新性能。值得注意的是,我们对学习到的全局模式的研究表明,在训练过程中没有人类标签的情况下,它们确实代表了有意义的3D语义。

[156] 基于自我中心事件视觉的乒乓球轨迹预测
标题: Egocentric Event-Based Vision for Ping Pong Ball Trajectory Prediction
作者: Ivan Alberico / Marco Cannici / Giovanni Cioffi / Davide Scaramuzza
原文:   [英文]   [中文]  
备注: IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Nashville (TN), USA, 2025; 5th International Workshop on Event-Based Vision
摘要:
在本文中,我们提出了一种使用事件相机进行乒乓球实时自我中心轨迹预测的系统。与在高速球运动下容易出现高延迟和运动模糊的标准相机不同,事件相机提供了更高的时间分辨率,允许更频繁的状态更新,对异常值具有更强的鲁棒性,并且在对手击球后仅需短时间窗口即可进行准确的轨迹预测。我们收集了一组乒乓球比赛序列数据集,其中包括球的3D真实轨迹,与Meta Project Aria眼镜的传感器数据和事件流同步。我们的系统利用中央凹视觉,使用眼镜的眼动数据仅处理观众中央凹中的事件。这种生物启发的方法提高了球的检测性能,并显著降低了计算延迟,因为它有效地将资源分配到最具感知相关性的区域,实现了对收集轨迹的10.81倍的减少。我们的检测流程在最坏情况下的总延迟为4.5毫秒,包括计算和感知——这显著低于基于帧的30 FPS系统,在最坏情况下,仅感知就需要66毫秒。最后,我们将轨迹预测模型拟合到球的估计状态上,从而实现未来的3D轨迹预测。据我们所知,这是第一个使用事件相机从自我中心视角预测乒乓球轨迹的方法。

[157] VIVAT:通过伪影缓解提升VAE训练的美德
标题: VIVAT: Virtuous Improving VAE Training through Artifact Mitigation
作者: Lev Novitskiy / Viacheslav Vasilev / Maria Kovaleva / Vladimir Arkhipkin / Denis Dimitrov
原文:   [英文]   [中文]  
备注: None
摘要:
变分自编码器(VAEs)仍然是生成计算机视觉领域的基石,但其训练过程常常受到伪影的困扰,这些伪影会降低重建和生成的质量。本文介绍了VIVAT,这是一种系统的方法,用于在KL-VAE训练中减轻常见伪影,而无需进行激进的架构更改。我们详细分类了五种常见的伪影——颜色偏移、网格图案、模糊、角落和水滴伪影,并分析了它们的根本原因。通过简单的修改,包括调整损失权重、填充策略以及整合空间条件归一化,我们展示了VAE性能的显著提升。我们的方法在多个基准测试中实现了图像重建指标(PSNR和SSIM)的最新成果,并通过更高的CLIP分数提升了文本到图像生成的质量。通过在解决实际挑战的同时保持KL-VAE框架的简单性,VIVAT为研究人员和从业者提供了可操作的见解,旨在优化VAE训练。

[158] FreeGave:通过高斯速度从动态视频中学习3D物理
标题: FreeGave: 3D Physics Learning from Dynamic Videos by Gaussian Velocity
作者: Jinxi Li / Ziyang Song / Siyuan Zhou / Bo Yang
原文:   [英文]   [中文]  
备注: CVPR 2025. Code and data are available at: this https URL
摘要:
在本文中,我们旨在仅通过多视角视频来建模三维场景的几何、外观和潜在物理特性。现有的方法通过将各种控制偏微分方程(PDEs)作为物理信息神经网络(PINN)损失应用,或将物理模拟融入神经网络中,往往无法在边界处学习复杂的物理运动,或者需要对象先验信息,如掩码或类型。在本文中,我们提出了FreeGave方法,以在不需要任何对象先验的情况下学习复杂动态三维场景的物理特性。我们方法的关键在于引入一个物理编码,随后通过精心设计的无散度模块来估计每个高斯的速度场,而不依赖于低效的PINN损失。在三个公共数据集和一个新收集的具有挑战性的真实世界数据集上的大量实验表明,我们的方法在未来帧外推和运动分割方面表现优越。最值得注意的是,我们对学习到的物理编码的研究表明,即使在训练中没有任何人工标签的情况下,它们确实学习到了有意义的三维物理运动模式。

[159] 用于高效事件驱动光流的时空状态空间模型
标题: Spatio-Temporal State Space Model For Efficient Event-Based Optical Flow
作者: Muhammad Ahmed Humais / Xiaoqian Huang / Hussain Sajwani / Sajid Javed / Yahya Zweiri
原文:   [英文]  
备注: None
摘要:
事件相机开启了标准帧相机无法想象的新前沿。其中一个显著的例子是低延迟运动估计(光流),这对于许多实时应用至关重要。在这些应用中,算法的计算效率至关重要。尽管最近的深度学习范式如CNN、RNN或ViT表现出色,但它们通常缺乏所需的计算效率。相反,异步事件方法包括SNN和GNN在计算上是高效的;然而,这些方法未能捕捉足够的时空信息,而这是实现更好光流估计性能所需的强大特性。在这项工作中,我们引入了时空状态空间模型(STSSM)模块以及一种新颖的网络架构,以开发一种具有竞争性能的极高效解决方案。我们的STSSM模块利用状态空间模型有效捕捉事件数据中的时空相关性,在类似设置下提供比ViT、基于CNN的架构更高的性能和更低的复杂度。我们的模型在DSEC基准测试中实现了比TMA快4.5倍的推理速度和8倍更低的计算量,以及比EV-FlowNet低2倍的计算量,同时具有竞争力的性能。我们的代码将在此https URL上提供。

[160] CrosswalkNet:一种用于行人斑马线检测的优化深度学习框架,基于高性能计算的航拍图像
标题: CrosswalkNet: An Optimized Deep Learning Framework for Pedestrian Crosswalk Detection in Aerial Images with High-Performance Computing
作者: Zubin Bhuyan / Yuanchang Xie / AngkeaReach Rith / Xintong Yan / Nasko Apostolov / Jimi Oke / Chengbo Ai
原文:   [英文]  
备注: None
摘要:
随着航空和卫星影像的日益普及,深度学习在交通资产管理、安全分析和城市规划中展现出显著潜力。本研究介绍了CrosswalkNet,这是一种强大且高效的深度学习框架,旨在从15厘米分辨率的航空图像中检测各种类型的行人斑马线。CrosswalkNet采用了一种新颖的检测方法,通过使用定向边界框(OBB)改进了传统的目标检测策略,无论斑马线的方向如何,都能准确捕捉,从而提高检测精度。为了最大化性能和效率,实施了多种优化技术,包括卷积块注意力、双分支空间金字塔池化-快速模块和余弦退火。一个包含超过23,000个标注斑马线实例的综合数据集被用于训练和验证所提出的框架。表现最佳的模型在来自马萨诸塞州的航空影像上实现了96.5%的精度和93.3%的召回率,展示了其准确性和有效性。CrosswalkNet还成功应用于新罕布什尔州、弗吉尼亚州和缅因州的数据集,无需迁移学习或微调,展示了其稳健性和强大的泛化能力。此外,使用高性能计算(HPC)平台处理并以多边形shapefile格式提供的斑马线检测结果,已被证明可以加速数据处理和检测,支持安全和移动性应用的实时分析。这一集成为政策制定者、交通工程师和城市规划者提供了一种有效工具,以增强行人安全和改善城市交通。

[161] EgoM2P:以自我为中心的多模态多任务预训练
标题: EgoM2P: Egocentric Multimodal Multitask Pretraining
作者: Gen Li / Yutong Chen / Yiqian Wu / Kaifeng Zhao / Marc Pollefeys / Siyu Tang
原文:   [英文]   [中文]  
备注: None
摘要:
理解自我中心视觉中的多模态信号(如RGB视频、深度、相机姿态和视线)对于增强现实、机器人技术和人机交互等应用至关重要。这些能力使系统能够更好地解释佩戴相机者的动作、意图和周围环境。然而,构建大规模的自我中心多模态和多任务模型面临独特的挑战。自我中心数据本质上是异质的,在设备和设置之间的模态覆盖范围存在很大差异。为缺失的模态(如视线或头戴式相机轨迹)生成伪标签通常是不可行的,这使得标准的监督学习方法难以扩展。此外,动态相机运动和第一人称视频的复杂时空结构为现有多模态基础模型的直接应用带来了额外的挑战。 为了解决这些挑战,我们引入了一组高效的时间标记器,并提出了EgoM2P,这是一种掩码建模框架,通过时间感知的多模态标记进行学习,以训练一个用于自我中心4D理解的大型通用模型。这种统一设计支持跨多种自我中心感知和合成任务的多任务处理,包括视线预测、自我中心相机跟踪和从自我中心视频中进行单目深度估计。EgoM2P还可以作为条件自我中心视频合成的生成模型。在这些任务中,EgoM2P的表现与专业模型相当或更优,同时速度快一个数量级。我们将完全开源EgoM2P,以支持社区并推动自我中心视觉研究。项目页面:this https URL

[162] 通过低秩拒绝向量进行视频去学习
标题: Video Unlearning via Low-Rank Refusal Vector
作者: Simone Facchiano / Stefano Saravalle / Matteo Migliarini / Edoardo De Matteis / Alessio Sampieri / Andrea Pilzer / Emanuele Rodolà / Indro Spinelli / Luca Franco / Fabio Galasso
原文:   [英文]   [中文]  
备注: None
摘要:
视频生成模型通过直观的指令跟随来普及视觉内容的创作,但它们也继承了其大规模网络训练数据中嵌入的偏见和有害概念。这种继承带来了显著的风险,因为用户可以轻易生成不良甚至非法的内容。本文介绍了首个专门为视频扩散模型设计的去学习技术,以解决这一关键问题。我们的方法仅需要5对多模态提示对。每对包含一个“安全”和一个“不安全”的示例,它们仅在目标概念上有所不同。通过平均它们每层潜在差异生成一个“拒绝向量”,一旦从模型参数中减去该向量,就可以中和不安全的概念。我们引入了一种新颖的低秩分解方法,应用于嵌入的协方差差异,产生稳健的拒绝向量。这种方法在隔离目标概念的同时,最大限度地减少了对其他语义的附带去学习,从而保留了生成视频的视觉质量。我们的方法在不重新训练或访问原始训练数据的情况下,保持了模型的生成质量。通过将拒绝方向直接嵌入模型的权重中,与表面级别的输入输出过滤器相比,该抑制机制在对抗规避尝试中变得更加稳健。在全面的定性和定量评估中,我们展示了可以中和各种有害内容,包括裸露、暴力、版权和商标。项目页面:this https URL。

[163] WeThink:通过强化学习实现通用视觉-语言推理
标题: WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning
作者: Jie Yang / Feipeng Ma / Zitian Wang / Dacheng Yin / Kang Rong / Fengyun Rao / Ruimao Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
在文本推理模型如 DeepSeek-R1 取得成功的基础上,将这些能力扩展到多模态推理领域具有巨大潜力。尽管最近的研究尝试将 DeepSeek-R1 风格的强化学习(RL)训练范式适应于多模态大语言模型(MLLM),并专注于数学和视觉感知等特定领域任务,但一个关键问题仍然存在:我们如何通过 RL 实现通用的视觉-语言推理?为了解决这一挑战,我们做出了三个关键努力:(1)一个新颖的可扩展多模态问答合成管道,该管道能够自主地从给定图像中生成具有上下文意识和推理为中心的问题-答案(QA)对。(2)开源的 WeThink 数据集,包含超过 12 万个多模态 QA 对,并附有推理路径注释,这些数据从 18 个不同的数据集来源中精心挑选,涵盖各种问题领域。(3)在我们的数据集上进行全面的 RL 探索,结合基于规则的验证和基于模型的评估的混合奖励机制,以优化 RL 训练在各种任务领域的效率。在 14 个不同的 MLLM 基准测试中,我们证明了我们的 WeThink 数据集显著提升了从数学推理到多样化通用多模态任务的性能。此外,我们展示了我们的自动化数据管道可以持续增加数据多样性,以进一步提高模型性能。

[164] U-Net架构在卫星图像变化检测中的比较研究
标题: A Comparative Study of U-Net Architectures for Change Detection in Satellite Images
作者: Yaxita Amin / Naimisha S Trivedi / Rashmi Bhattad
原文:   [英文]  
备注: None
摘要:
遥感变化检测对于监测地球不断变化的景观至关重要。U-Net架构因其捕捉空间信息和执行像素级分类的能力而受到欢迎。然而,其在遥感领域的应用仍然很大程度上未被深入探索。因此,本文通过对34篇论文的综合分析填补了这一空白。本研究对18种不同的U-Net变体进行了比较和分析,评估它们在遥感变化检测中的潜力。我们在这一特定应用框架内评估了每种变体的优缺点。我们强调了专门为变化检测构建的变体,例如使用Siamese架构的Siamese Swin-U-Net。分析突出了管理不同时期数据和收集长距离关系等方面的重要性,以提高变化检测的精度。本研究为选择U-Net版本用于遥感变化检测任务的研究人员和从业者提供了宝贵的见解。

[165] 模仿还是推理:重新思考视觉-语言模型中的多模态上下文学习
标题: Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models
作者: Chengyue Huang / Yuchen Zhu / Sichen Zhu / Jingyun Xiao / Moises Andrade / Shivang Chopra / Zsolt Kira
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)被广泛认为具备上下文学习(ICL)的能力,这一特性与仅限语言的模型相似。尽管最近的研究表明,VLMs 可以执行多模态上下文学习(MM-ICL),但研究显示它们往往依赖于浅层启发式方法——如复制或多数投票——而非真正理解任务。我们通过在分布转移的情况下评估 VLMs 来重新审视这一假设,其中支持示例来自与查询不同的数据集。令人惊讶的是,随着演示数量的增加,性能往往下降,模型倾向于复制答案而不是从中学习。为了进一步研究,我们提出了一种新的带有推理的 MM-ICL 管道,该管道在每个演示中增加了生成的理由以及答案。我们在需要感知和推理的数据集上,使用从 3B 到 72B 的开源 VLMs 以及像 Gemini 2.0 这样的专有模型进行了广泛而全面的实验。我们进行了控制研究,改变了示例数量、检索方法、理由质量和分布。我们的结果显示,在这些因素中,性能敏感性有限,这表明当前的 VLMs 并未有效利用 MM-ICL 中预期的演示级信息。

[166] 将图像感知与多模态推理解耦以通过数字孪生表示进行推理分割
标题: Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations
作者: Yizhen Li / Dell Zhang / Xuelong Li / Yiqing Shen
原文:   [英文]   [中文]  
备注: None
摘要:
推理分割(RS)是一项多模态视觉-文本任务,要求根据隐含的文本查询对对象进行分割,这需要精确的视觉感知和视觉-文本推理能力。目前的RS方法依赖于微调视觉语言模型(VLMs)来进行感知和推理,但其对图像的标记化从根本上破坏了对象之间的连续空间关系。我们引入了DTwinSeger,这是一种新颖的RS方法,利用数字孪生(DT)表示作为中间层,将感知与推理解耦。创新地,DTwinSeger将RS重新表述为一个两阶段过程,首先将图像转换为保留空间关系和语义属性的结构化DT表示,然后利用大型语言模型(LLM)在此表示上进行显式推理以识别目标对象。我们提出了一种专门针对具有DT表示的LLM的监督微调方法,以及相应的微调数据集Seg-DT,以增强LLM在DT表示上的推理能力。实验表明,我们的方法在两个图像RS基准和三个图像指代分割基准上可以达到最先进的性能。这表明DT表示作为视觉和文本之间的有效桥梁,使得复杂的多模态推理任务仅通过LLM即可完成。

[167] 从芬兰教会记录中创建1800-1920年的历史迁移数据集
标题: Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920
作者: Ari Vesalainen / Jenna Kanerva / Aida Nitsch / Kiia Korsu / Ilari Larkiola / Laura Ruotsalainen / Filip Ginter
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了一项大规模的工作,旨在利用数字化的教会迁移记录创建一个关于1800年至1920年间芬兰国内迁移的结构化数据集。这些记录由福音路德教会的教区保存,记录了个人和家庭的迁移情况,为研究历史人口模式提供了宝贵的资料。该数据集包括从大约20万张手写迁移记录图像中提取的超过六百万条记录。 数据提取过程通过一个深度学习管道自动化完成,该管道包括版面分析、表格检测、单元格分类和手写识别。完整的管道应用于所有图像,生成了适合研究的结构化数据集。 该数据集可用于研究国内迁移、城市化、家庭迁移以及前工业化芬兰的疾病传播。来自Elimäki教区的一个案例研究展示了如何重建地方迁移历史。该工作展示了如何将大量手写档案材料转化为结构化数据,以支持历史和人口研究。

[168] SlideCoder:基于布局感知的RAG增强型层次化幻灯片生成设计
标题: SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design
作者: Wenxin Tang / Jingyu Xiao / Wenxuan Jiang / Xi Xiao / Yuhang Wang / Xuxin Tang / Qing Li / Yuehe Ma / Junliang Liu / Shisong Tang / Michael R. Lyu
原文:   [英文]   [中文]  
备注: None
摘要:
手动创建幻灯片需要大量的劳动,并且需要专家的先验知识。现有的基于自然语言的大型语言模型生成方法难以捕捉幻灯片设计的视觉和结构细微差别。为了解决这个问题,我们正式提出了参考图像到幻灯片生成任务,并提出了Slide2Code,这是第一个基于新颖的幻灯片复杂性指标进行难度分级的基准。我们介绍了SlideCoder,这是一种布局感知、检索增强的框架,用于从参考图像生成可编辑的幻灯片。SlideCoder集成了一种基于颜色渐变的分割算法和一种分层检索增强生成方法,以分解复杂任务并增强代码生成。我们还发布了SlideMaster,这是一个经过改进的逆向工程数据微调的7B开源模型。实验表明,SlideCoder在布局保真度、执行准确性和视觉一致性方面的表现优于最先进的基线,最高可提高40.5分。我们的代码可在此https URL获取。

[169] SpaCE-10:多模态大型语言模型在组合空间智能中的综合基准
标题: SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence
作者: Ziyang Gong / Wenhao Li / Oliver Ma / Songyuan Li / Jiayi Ji / Xue Yang / Gen Luo / Junchi Yan / Rongrong Ji
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大语言模型(MLLMs)在各种多模态任务中取得了显著进展。为了在空间中追求更高的智能,MLLMs需要整合多种原子空间能力以处理复杂和动态的任务。然而,现有的基准测试难以从原子级到组合级全面评估常见MLLMs的空间智能。为填补这一空白,我们提出了SpaCE-10,这是一个用于组合空间评估的综合基准。在SpaCE-10中,我们定义了10种原子空间能力,并将其组合形成8种组合能力。基于这些定义,我们提出了一种新颖的分层注释流程,以生成高质量和多样化的问答(QA)对。通过超过150小时的人类专家努力,我们为SpaCE-10中的811个真实室内场景获得了超过5000个QA对,涵盖了点云输入和多选QA等各种评估设置。我们对常见的MLLMs在SpaCE-10上进行了广泛的评估,发现即使是最先进的MLLM与人类相比仍有很大差距。通过我们的细致研究,我们还得出了一些对MLLM社区有益的重要发现。例如,我们揭示了计数能力的不足极大地限制了现有MLLMs的组合空间能力。评估代码和基准数据集可在此https URL获取。

[170] CyberV:用于视频理解的测试时缩放的控制论
标题: CyberV: Cybernetics for Test-time Scaling in Video Understanding
作者: Jiahao Meng / Shuyang Sun / Yue Tan / Lu Qi / Yunhai Tong / Xiangtai Li / Longyin Wen
原文:   [英文]   [中文]  
备注: None
摘要:
当前的多模态大语言模型(MLLMs)在理解长时间或复杂视频时可能会遇到困难,这主要是由于测试时的计算需求、缺乏鲁棒性和有限的准确性,这些问题主要源于其前馈处理的特性。对于参数较少的模型,这些限制可能更为严重。为了解决这些限制,我们提出了一个受控制论原则启发的新框架,将视频MLLMs重新设计为能够在推理过程中进行自我监控、自我校正和动态资源分配的自适应系统。我们的方法,CyberV,引入了一个由MLLM推理系统、传感器和控制器组成的控制论循环。具体来说,传感器监控MLLM的前向过程并收集中间解释,如注意力漂移,然后控制器决定何时以及如何触发自我校正并生成反馈以指导下一轮。这个测试时自适应扩展框架在不需要重新训练或额外组件的情况下增强了冻结的MLLMs。实验表明显著的改进:CyberV在VideoMMMU上将Qwen2.5-VL-7B提升了8.3%,将InternVL3-8B提升了5.5%,超越了竞争性的专有模型GPT-4o。当应用于Qwen2.5-VL-72B时,其提升了10.0%,实现了甚至可与人类专家相媲美的性能。此外,我们的方法在通用基准测试(如VideoMME和WorldSense)上表现出一致的增益,突显了其在使MLLMs在动态视频理解中更具鲁棒性和准确性的有效性和泛化能力。代码已在此https URL发布。

[171] OneIG-Bench:用于图像生成的全维度细致评估
标题: OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation
作者: Jingjing Chang / Yixiao Fang / Peng Xing / Shuhan Wu / Wei Cheng / Rui Wang / Xianfang Zeng / Gang Yu / Hai-Bao Chen
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像(T2I)模型因其能够生成与文本提示相符的高质量图像而受到广泛关注。然而,T2I模型的快速发展揭示了早期基准测试的局限性,这些测试缺乏全面的评估,例如在推理、文本渲染和风格方面的评估。值得注意的是,最近的最先进模型凭借其丰富的知识建模能力,在需要强大推理能力的图像生成问题上显示出令人鼓舞的结果,但现有的评估系统尚未充分解决这一前沿问题。为了系统地解决这些差距,我们引入了OneIG-Bench,这是一个精心设计的综合基准框架,用于在多个维度上对T2I模型进行细粒度评估,包括提示-图像对齐、文本渲染精度、推理生成内容、风格化和多样性。通过结构化评估,该基准测试能够深入分析模型性能,帮助研究人员和从业者在图像生成的完整流程中找出优势和瓶颈。具体而言,OneIG-Bench通过允许用户专注于特定评估子集,实现灵活评估。用户可以仅为与所选维度相关的提示生成图像,并相应地完成相应的评估,而不是为整个提示集生成图像。我们的代码库和数据集现已公开,以促进T2I研究社区内可重复的评估研究和跨模型比较。

[172] 从单个摄像头实时定位足球
标题: Real-time Localization of a Soccer Ball from a Single Camera
作者: Dmitrii Vorobev / Artem Prosvetov / Karim Elhadji Daou
原文:   [英文]   [中文]  
备注: 13 pages, 4 figures
摘要:
我们提出了一种计算效率高的方法,用于从单个广播摄像机实时重建三维足球轨迹。与以往的工作相比,我们的方法引入了一种具有 $W$ 个离散模式的多模式状态模型,在保持厘米级精度的同时显著加速了优化过程——即使在严重遮挡、运动模糊和复杂背景的情况下也是如此。该系统在标准CPU上运行,实现了适合直播环境的低延迟。在一个6K分辨率的俄罗斯超级联赛比赛的专有数据集上进行的广泛评估表明,其性能可与多摄像机系统相媲美,而无需专门或昂贵的基础设施。该工作为在职业足球环境中实现可访问且精确的3D球追踪提供了一种实用的方法。

[173] CXR-LT 2024:MICCAI挑战赛——基于胸部X光片的长尾、多标签和零样本疾病分类
标题: CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray
作者: Mingquan Lin / Gregory Holste / Song Wang / Yiliang Zhou / Yishu Wei / Imon Banerjee / Pengyi Chen / Tianjie Dai / Yuexi Du / Nicha C. Dvornek / Yuyan Ge / Zuowei Guo / Shouhei Hanaoka / Dongkyun Kim / Pablo Messina / Yang Lu / Denis Parra / Donghyun Son / Álvaro Soto / Aisha Urooj / René Vidal / Yosuke Yamagishi / Zefan Yang / Ruichi Zhang / Yang Zhou / Leo Anthony Celi / Ronald M. Summers / Zhiyong Lu / Hao Chen / Adam Flanders / George Shih / Zhangyang Wang / Yifan Peng
原文:   [英文]   [中文]  
备注: 17 pages, 3 figures
摘要:
CXR-LT 系列是一个由社区驱动的倡议,旨在通过胸部X光片(CXR)增强肺部疾病的分类。它解决了开放长尾肺部疾病分类中的挑战,并提高了最先进技术的可测量性。第一次活动,CXR-LT 2023,旨在通过提供高质量的基准CXR数据用于模型开发,并进行全面评估以识别影响肺部疾病分类性能的持续问题,从而实现这些目标。基于CXR-LT 2023的成功,CXR-LT 2024将数据集扩展到377,110张胸部X光片(CXR)和45种疾病标签,其中包括19种新的罕见疾病发现。它还引入了对零样本学习的新关注,以解决在先前活动中识别的局限性。具体来说,CXR-LT 2024设有三个任务:(i)在一个大型、噪声较大的测试集上进行长尾分类,(ii)在一个手动注释的“黄金标准”子集上进行长尾分类,以及(iii)对五种以前未见过的疾病发现进行零样本泛化。本文概述了CXR-LT 2024,详细介绍了数据整理过程并整合了最先进的解决方案,包括使用多模态模型进行罕见疾病检测、处理噪声标签的高级生成方法,以及针对未见疾病的零样本学习策略。此外,扩展的数据集增强了疾病覆盖范围,以更好地代表现实世界的临床环境,为未来的研究提供了宝贵的资源。通过综合参与团队的见解和创新,我们旨在推进胸部放射诊断模型的临床现实性和可推广性的发展。

[174] 重新思考神经元解释的众包评估
标题: Rethinking Crowd-Sourced Evaluation of Neuron Explanations
作者: Tuomas Oikarinen / Ge Yan / Akshay Kulkarni / Tsui-Wei Weng
原文:   [英文]   [中文]  
备注: None
摘要:
解释激活空间中的个体神经元或方向是机制可解释性的重要组成部分。因此,许多算法被提出用于自动生成神经元解释,但这些解释的可靠性往往不明确,或者不清楚哪些方法能产生最佳解释。这可以通过众包评估来衡量,但这些评估往往噪声大且成本高,导致结果不可靠。在本文中,我们仔细分析了评估流程,并开发了一种具有成本效益且高度准确的众包评估策略。与之前仅评估解释是否与最强激活输入匹配的人类研究不同,我们估计解释是否描述了所有输入的神经元激活。为了有效地进行估计,我们引入了一种重要性采样的新应用,以确定哪些输入对评估者最有价值,从而与均匀采样相比,成本降低约30倍。我们还分析了众包评估中存在的标签噪声,并提出了一种贝叶斯方法来聚合多个评分,从而在相同准确度下进一步减少约5倍的评分数量。最后,我们使用这些方法进行了一项大规模研究,比较了两种不同视觉模型中最流行方法生成的神经元解释的质量。

[175] 重新思考多模态扩散变换器中的跨模态交互
标题: Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers
作者: Zhengyao Lv / Tianlin Pan / Chenyang Si / Zhaoxi Chen / Wangmeng Zuo / Ziwei Liu / Kwan-Yee K. Wong
原文:   [英文]   [中文]  
备注: None
摘要:
多模态扩散变换器(MM-DiTs)在文本驱动的视觉生成方面取得了显著进展。然而,即使是最先进的MM-DiT模型如FLUX也难以实现文本提示与生成内容之间的精确对齐。我们识别出MM-DiT注意力机制中的两个关键问题,即1)由于视觉和文本模态之间的标记不平衡导致的跨模态注意力抑制,以及2)缺乏时间步感知的注意力加权,这些问题阻碍了对齐。为了解决这些问题,我们提出了\textbf{温度调整的跨模态注意力(TACA)},这是一种参数高效的方法,通过温度缩放和时间步依赖的调整动态重新平衡多模态交互。结合LoRA微调,TACA在T2I-CompBench基准上显著增强了文本-图像对齐,同时计算开销极小。我们在最先进的模型如FLUX和SD3.5上测试了TACA,证明了其在对象外观、属性绑定和空间关系方面提高图像-文本对齐的能力。我们的研究结果强调了在改进文本到图像扩散模型的语义保真度中平衡跨模态注意力的重要性。我们的代码在\href{this https URL}公开可用。

[176] PairEdit:学习基于示例的图像编辑的语义变化
标题: PairEdit: Learning Semantic Variations for Exemplar-based Image Editing
作者: Haoguang Lu / Jiacheng Chen / Zhenguo Yang / Aurele Tohokantche Gnanha / Fu Lee Wang / Li Qing / Xudong Mao
原文:   [英文]   [中文]  
备注: None
摘要:
最近在文本引导的图像编辑方面取得了显著的成功,通过利用自然语言提示实现细粒度的语义控制。然而,某些编辑语义仅靠文本描述难以精确指定。一种实用的替代方法是从成对的源-目标示例中学习编辑语义。现有的基于示例的编辑方法仍然依赖于描述成对示例中变化的文本提示或学习隐式的基于文本的编辑指令。在本文中,我们介绍了PairEdit,这是一种新颖的视觉编辑方法,旨在从有限数量的图像对甚至单个图像对中有效学习复杂的编辑语义,而无需使用任何文本指导。我们提出了一种目标噪声预测,通过引导方向项明确建模成对图像中的语义变化。此外,我们引入了一种内容保留的噪声调度,以促进更有效的语义学习。我们还提出优化不同的LoRA,以将语义变化的学习与内容分离开来。广泛的定性和定量评估表明,PairEdit在显著提高内容一致性的同时,成功学习了复杂的语义,与基线方法相比有显著改进。代码将在此https URL提供。

[177] UA-Pose:具有不确定性感知的6D物体姿态估计和基于部分参考的在线物体补全
标题: UA-Pose: Uncertainty-Aware 6D Object Pose Estimation and Online Object Completion with Partial References
作者: Ming-Feng Li / Xin Yang / Fu-En Wang / Hritam Basak / Yuyin Sun / Shreekant Gayaka / Min Sun / Cheng-Hao Kuo
原文:   [英文]  
备注: CVPR 2025
摘要:
6D物体姿态估计在新物体上的泛化能力表现出色。然而,现有方法通常需要一个完整、重建良好的3D模型或大量完全覆盖物体的参考图像。从仅捕捉物体外观和几何片段的部分参考中估计6D姿态仍然具有挑战性。为了解决这个问题,我们提出了UA-Pose,这是一种针对部分参考设计的不确定性感知6D物体姿态估计和在线物体补全方法。我们假设可以获取(1)一组有限的具有已知姿态的RGBD图像,或(2)一张2D图像。对于第一种情况,我们基于提供的图像和姿态初始化一个部分物体的3D模型,而对于第二种情况,我们使用图像到3D技术生成初始物体3D模型。我们的方法将不确定性整合到不完整的3D模型中,区分已见和未见区域。这种不确定性使得姿态估计的置信度评估成为可能,并指导一种不确定性感知的采样策略进行在线物体补全,从而增强姿态估计的准确性和提高物体的完整性。我们在YCB-Video、YCBInEOAT和HO3D数据集上评估了我们的方法,这些数据集包括由机器人和人手操控的YCB物体的RGBD序列。实验结果表明,与现有方法相比,我们的方法在物体观察不完整或部分捕获时表现出显著的性能提升。项目页面:this https URL

[178] MADFormer:用于连续图像生成的混合自回归和扩散变换器
标题: MADFormer: Mixed Autoregressive and Diffusion Transformers for Continuous Image Generation
作者: Junhao Chen / Yulia Tsvetkov / Xiaochuang Han
原文:   [英文]   [中文]  
备注: None
摘要:
最近在多模态生成方面的进展越来越多地结合了自回归(AR)和基于扩散的方法,利用它们的互补优势:AR模型能够捕捉长距离依赖关系并生成流畅、上下文感知的输出,而扩散模型则在连续的潜在空间中操作以优化高保真视觉细节。然而,现有的混合模型往往缺乏关于如何以及为何在这些范式之间分配模型容量的系统指导。在这项工作中,我们介绍了MADFormer,一种混合自回归和扩散变压器,作为分析AR-扩散权衡的试验平台。MADFormer将图像生成划分为空间块,使用AR层在块之间进行一次性全局条件设定,并使用扩散层在每个块内进行迭代的局部优化。通过在FFHQ-1024和ImageNet上的对照实验,我们发现了两个关键见解:(1)基于块的划分显著提高了高分辨率图像的性能,和(2)垂直混合AR和扩散层在质量-效率平衡上表现更佳——在受限推理计算下,FID提高了多达75%。我们的研究结果为未来的混合生成模型提供了实用的设计原则。

[179] 逐个标记对齐文本、图像和三维结构
标题: Aligning Text, Images, and 3D Structure Token-by-Token
作者: Aadarsh Sahoo / Vansh Tibrewal / Georgia Gkioxari
原文:   [英文]   [中文]  
备注: Project webpage: this https URL
摘要:
创建能够理解三维世界的机器对于帮助设计师构建和编辑三维环境以及机器人在三维空间中导航和交互至关重要。受语言和图像建模进展的启发,我们研究了自回归模型在一种新模态:结构化三维场景中的潜力。为此,我们提出了一个统一的LLM框架,将语言、图像和三维场景对齐,并提供了一个详细的“指南”,概述了实现最佳训练和性能的关键设计选择,解决了与数据表示、模态特定目标等相关的关键问题。我们在四个核心三维任务——渲染、识别、指令执行和问答——以及四个三维数据集(合成和真实世界)上评估了性能。我们通过量化形状编码丰富我们的三维模态,将我们的方法扩展到重建复杂的三维物体形状,并展示了我们模型在真实世界三维物体识别任务中的有效性。项目网页:this https URL

[180] 多流时序控制的音频同步视频生成
标题: Audio-Sync Video Generation with Multi-Stream Temporal Control
作者: Shuchen Weng / Haojie Zheng / Zheng Chang / Si Li / Boxin Shi / Xinlong Wang
原文:   [英文]   [中文]  
备注: None
摘要:
音频本质上是时间性的,并且与视觉世界紧密同步,使其成为可控视频生成(例如电影)的自然对齐和富有表现力的控制信号。除了控制之外,直接将音频转化为视频对于理解和可视化丰富的音频叙事(例如播客或历史录音)至关重要。然而,现有的方法在生成高质量视频以及实现精确的音频-视觉同步方面,尤其是在处理多样且复杂的音频类型时,表现不佳。在这项工作中,我们介绍了MTV,这是一种用于音频同步视频生成的多功能框架。MTV明确地将音频分为语音、效果和音乐轨道,从而分别实现对唇部动作、事件时序和视觉情绪的解耦控制,最终实现细粒度和语义对齐的视频生成。为了支持该框架,我们还提出了DEMIX,一个包含高质量电影视频和分离音轨的数据集。DEMIX被结构化为五个重叠的子集,支持多阶段的可扩展训练,以适应多样化的生成场景。大量实验表明,MTV在视频质量、文本-视频一致性和音频-视频对齐等六个标准指标上达到了最先进的性能。项目页面:this https URL。

[181] 动态视图合成作为一个逆问题
标题: Dynamic View Synthesis as an Inverse Problem
作者: Hidir Yesiltepe / Pinar Yanardag
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
在这项工作中,我们将从单目视频生成动态视图的问题视为一种无训练的逆问题。通过重新设计预训练视频扩散模型的噪声初始化阶段,我们实现了高保真度的动态视图合成,而无需进行权重更新或使用辅助模块。我们首先识别出一个由零终端信噪比(SNR)调度引起的确定性反演的基本障碍,并通过引入一种新颖的噪声表示——称为K阶递归噪声表示来解决这个问题。我们推导出这种表示的闭式表达式,从而实现VAE编码和DDIM反演潜变量之间的精确高效对齐。为了合成由于相机运动而新出现的可见区域,我们引入了随机潜变量调制,该方法在潜变量空间中执行可见性感知采样,以完成被遮挡的区域。综合实验表明,通过在噪声初始化阶段进行结构化的潜变量操作,可以有效地执行动态视图合成。

[182] ZeroVO:基于最小假设的视觉里程计
标题: ZeroVO: Visual Odometry with Minimal Assumptions
作者: Lei Lai / Zekai Yin / Eshed Ohn-Bar
原文:   [英文]  
备注: None
摘要:
我们介绍了ZeroVO,这是一种新颖的视觉里程计(VO)算法,能够在不同的相机和环境中实现零样本泛化,克服了现有方法依赖预定义或静态相机校准设置的局限性。我们的方法包含三个主要创新。首先,我们设计了一种无需校准的、几何感知的网络结构,能够处理估计深度和相机参数中的噪声。其次,我们引入了一种基于语言的先验知识,将语义信息注入以增强稳健的特征提取和对先前未见领域的泛化能力。第三,我们开发了一种灵活的半监督训练范式,利用未标记数据迭代适应新场景,进一步提升模型在各种真实世界场景中的泛化能力。我们分析了复杂的自动驾驶环境,在三个标准基准(KITTI、nuScenes和Argoverse 2)以及一个新引入的高保真合成数据集(源自侠盗猎车手(GTA))上,展示了相较于之前方法超过30%的改进。由于不需要微调或相机校准,我们的工作拓宽了VO的适用性,为大规模的真实世界部署提供了一个多功能的解决方案。

[183] 梦境:使用模拟器和生成模型的可控世界创建
标题: Dreamland: Controllable World Creation with Simulator and Generative Models
作者: Sicheng Mo / Ziyang Leng / Leon Liu / Weizhen Wang / Honglin He / Bolei Zhou
原文:   [英文]  
备注: Project Page: this https URL
摘要:
大规模视频生成模型可以为动态世界创建合成多样且逼真的视觉内容,但它们通常缺乏元素级的可控性,从而阻碍了它们在编辑场景和训练具身人工智能代理中的应用。我们提出了Dreamland,这是一种混合世界生成框架,结合了基于物理的模拟器的细粒度控制和大规模预训练生成模型的照片级真实内容输出。具体来说,我们设计了一种分层的世界抽象,将像素级和对象级的语义和几何编码为中间表示,以桥接模拟器和生成模型。这种方法增强了可控性,通过与真实世界分布的早期对齐来最小化适应成本,并支持现有和未来预训练生成模型的即插即用。我们进一步构建了一个D3Sim数据集,以促进混合生成管道的训练和评估。实验表明,Dreamland在图像质量上比现有基线提高了50.8%,在可控性上增强了17.9%,并且在增强具身代理训练方面具有巨大潜力。代码和数据将会公开。

[184] 隐藏在显而易见之处:视觉语言模型忽视了它们的视觉表征
标题: Hidden in plain sight: VLMs overlook their visual representations
作者: Stephanie Fu / Tyler Bonnen / Devin Guillory / Trevor Darrell
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
语言为指定和评估视觉任务的性能提供了一个自然的接口。为了实现这一可能性,视觉语言模型(VLMs)必须成功地整合视觉和语言信息。我们的工作将VLMs与其视觉编码器的直接读出进行比较,以了解它们跨越这些模态进行整合的能力。在一系列以视觉为中心的基准测试(例如,深度估计、对应性)中,我们发现VLMs的表现明显逊于其视觉编码器,几乎降至偶然水平。我们通过对整个VLM进行的一系列分析来研究这些结果,具体包括:1)视觉表征的退化,2)对任务提示的脆弱性,以及3)语言模型在解决任务中的作用。我们发现,执行这些以视觉为中心的任务的瓶颈在于第三类;VLMs没有有效利用在整个模型中易于获取的视觉信息,并且它们继承了大型语言模型(LLM)中存在的语言先验。我们的工作有助于诊断开源VLMs的失败模式,并提出了一系列对未来研究VLMs中的视觉理解有用的评估方法。

[185] 自我强制:弥合自回归视频扩散中的训练-测试差距
标题: Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
作者: Xun Huang / Zhengqi Li / Guande He / Mingyuan Zhou / Eli Shechtman
原文:   [英文]   [中文]  
备注: Project website: this http URL
摘要:
我们介绍了一种新的自回归视频扩散模型训练范式,称为自强(Self Forcing)。该方法解决了长期存在的曝光偏差问题,即模型在训练时基于真实上下文,而在推理时必须基于其自身不完美的输出生成序列。与之前基于真实上下文帧对未来帧进行去噪的方法不同,自强通过在训练期间执行带有键值(KV)缓存的自回归展开,使每一帧的生成基于先前自生成的输出。这一策略通过视频级别的整体损失进行监督,直接评估整个生成序列的质量,而不仅仅依赖于传统的逐帧目标。为了确保训练效率,我们采用了少步扩散模型以及随机梯度截断策略,有效平衡了计算成本和性能。我们进一步引入了一种滚动KV缓存机制,实现了高效的自回归视频外推。大量实验表明,我们的方法在单个GPU上实现了实时流视频生成,延迟不到一秒,同时生成质量与显著更慢且非因果的扩散模型相当,甚至更优。项目网站:this http URL

[186] 视觉Transformer不需要训练的寄存器
标题: Vision Transformers Don't Need Trained Registers
作者: Nick Jiang / Amil Dravid / Alexei Efros / Yossi Gandelsman
原文:   [英文]   [中文]  
备注: Project page and code: this https URL
摘要:
我们研究了视觉变换器中先前识别出的现象背后的机制——高范数标记的出现导致注意力图变得嘈杂。我们观察到在多个模型(例如,CLIP、DINOv2)中,一组稀疏的神经元负责将高范数激活集中在异常标记上,导致不规则的注意力模式并降低下游视觉处理的质量。虽然现有的解决方案是通过额外学习的寄存器标记从头开始重新训练模型以去除这些异常标记,但我们利用我们的发现创建了一种无需训练的方法来减轻这些伪影。通过将我们发现的寄存器神经元的高范数激活转移到一个额外的未训练标记中,我们可以在已经训练但没有寄存器的模型上模拟寄存器标记的效果。我们证明了我们的方法能够生成更干净的注意力和特征图,提升多个下游视觉任务中基础模型的性能,并实现与明确训练有寄存器标记的模型相当的结果。然后,我们将测试时寄存器扩展到现成的视觉语言模型,以提高其可解释性。我们的结果表明,测试时寄存器在测试时有效地承担了寄存器标记的角色,为任何未包含寄存器标记的预训练模型提供了一种无需训练的解决方案。

[187] 通过游戏来推广:通过游戏学习推理
标题: Play to Generalize: Learning to Reason Through Game Play
作者: Yunfei Xie / Yinsong Ma / Shiyi Lan / Alan Yuille / Junfei Xiao / Chen Wei
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
在多模态大语言模型(MLLMs)中开发可推广的推理能力仍然具有挑战性。受到认知科学文献中关于游戏玩法促进可转移认知技能的启发,我们提出了一种新颖的后训练范式,称为视觉游戏学习(ViGaL),其中MLLMs通过玩街机类游戏来发展跨领域的多模态推理能力。具体来说,我们展示了通过强化学习(RL)在简单的街机类游戏(例如贪吃蛇)上对一个拥有70亿参数的MLLM进行后训练,显著提升了其在多模态数学基准测试(如MathVista)和多学科问题(如MMMU)上的下游表现,而在RL过程中并未看到任何解题步骤、方程或图示,这表明模型捕捉到了可转移的推理技能。值得注意的是,我们的模型在多模态推理基准测试中优于那些在多模态推理数据上调优的专业模型,同时保留了基础模型在一般视觉基准测试上的表现,而这是专业模型常常难以做到的挑战。我们的研究结果表明了一种新的后训练范式:合成的、基于规则的游戏可以作为可控且可扩展的前置任务,解锁MLLMs中可推广的多模态推理能力。

[188] StableMTL:重新利用潜在扩散模型进行多任务学习,基于部分标注的合成数据集
标题: StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets
作者: Anh-Quan Cao / Ivan Lopes / Raoul de Charette
原文:   [英文]   [中文]  
备注: Code is available at this https URL
摘要:
多任务学习在密集预测中受到限制,因为每个任务都需要大量的标注,尽管最近的研究已经探索了使用部分任务标签进行训练。利用扩散模型的泛化能力,我们将部分学习设置扩展到零样本环境,在多个合成数据集上训练多任务模型,每个数据集仅标注了一部分任务。我们的方法,StableMTL,将图像生成器重新用于潜在回归。通过任务编码、每任务条件和定制的训练方案来调整去噪框架。我们采用统一的潜在损失,而不是需要仔细平衡的每任务损失,从而能够无缝扩展到更多任务。为了鼓励任务间的协同作用,我们引入了一个具有任务注意机制的多流模型,将N对N的任务交互转换为高效的1对N注意,促进有效的跨任务共享。StableMTL在8个基准测试中的7个任务上表现优于基线。

[189] 4DGT:使用真实世界单目视频学习4D高斯变换器
标题: 4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos
作者: Zhen Xu / Zhengqin Li / Zhao Dong / Xiaowei Zhou / Richard Newcombe / Zhaoyang Lv
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
我们提出了4DGT,这是一种基于4D高斯的Transformer模型,用于动态场景重建,完全在真实世界的单目姿态视频上进行训练。使用4D高斯作为归纳偏置,4DGT统一了静态和动态组件,使得能够对具有不同对象生命周期的复杂、随时间变化的环境进行建模。我们在训练中提出了一种新颖的密度控制策略,使我们的4DGT能够处理更长的时空输入,并在运行时保持高效渲染。我们的模型以滚动窗口的方式处理64个连续的姿态帧,预测场景中的一致4D高斯。与基于优化的方法不同,4DGT完全执行前馈推理,将重建时间从数小时减少到几秒,并有效扩展到长视频序列。仅在大规模单目姿态视频数据集上训练,4DGT在真实世界视频中可以显著优于先前的基于高斯的网络,并在跨域视频上达到与基于优化的方法相当的准确性。项目页面:this https URL