scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年6月3日更新论文179
[1] EgoVIS@CVPR:什么改变了,什么本可以改变?用于程序感知视频表示学习的状态变化反事实
标题: EgoVIS@CVPR: What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning
作者: Chi-Hsi Kung / Frangil Ramirez / Juhyung Ha / Yi-Ting Chen / David Crandall / Yi-Hsuan Tsai
原文:   [英文]   [中文]  
备注: 4 pages, 1 figure, 4 tables. Full paper is available at arXiv:2503.21055
摘要:
理解程序性活动需要对动作步骤如何改变场景以及不断变化的场景转换如何影响动作步骤的顺序进行建模,即使这些步骤是偶然或错误的。然而,现有关于程序感知视频表示的工作未能明确学习状态变化(场景转换)。在这项工作中,我们通过将由大型语言模型(LLMs)生成的状态变化描述作为视频编码器的监督信号来研究程序感知视频表示学习。此外,我们生成状态变化反事实,模拟假设的失败结果,使模型能够通过想象未见的“如果”场景来学习。这种反事实推理促进了模型理解活动中每个步骤的因果关系。为了验证我们模型的程序感知能力,我们在程序感知任务上进行了广泛的实验,包括时间动作分割、错误检测等。我们的结果证明了所提出的状态变化描述及其反事实的有效性,并在多个任务上取得了显著的改进。

[2] 视觉具身大脑:让多模态大型语言模型在空间中进行观察、思考和控制
标题: Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces
作者: Gen Luo / Ganlin Yang / Ziyang Gong / Guanzhou Chen / Haonan Duan / Erfei Cui / Ronglei Tong / Zhi Hou / Tianyi Zhang / Zhe Chen / Shenglong Ye / Lewei Lu / Jingbo Wang / Wenhai Wang / Jifeng Dai / Yu Qiao / Rongrong Ji / Xizhou Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大型语言模型(MLLMs)的显著进展吸引了越来越多的关注,以将其扩展到像腿式机器人这样的物理实体。这通常要求MLLMs不仅具备多模态理解能力,还要整合视觉空间推理和物理交互能力。然而,现有方法由于其基础性问题而难以统一这些能力。在本文中,我们提出了视觉具身大脑(VeBrain),一个用于现实世界中的感知、推理和控制的统一框架。VeBrain将机器人控制重新表述为二维视觉空间中的常见基于文本的MLLM任务,从而统一了不同任务的目标和映射空间。然后,提出了一种新颖的机器人适配器,将MLLMs的文本控制信号转换为真实机器人的运动策略。从数据的角度,我们进一步引入了VeBrain-600k,一个高质量的指令数据集,涵盖了VeBrain的各种能力。在VeBrain-600k中,我们花费数百小时来收集、策划和注释数据,并采用多模态思维链(CoT)将不同的能力混合到一个单一的对话中。在13个多模态基准和5个空间智能基准上的广泛实验表明,VeBrain在现有MLLMs如Qwen2.5-VL上表现出卓越的性能。当部署到腿式机器人和机器人手臂时,VeBrain显示出较强的适应性、灵活性和组合能力,与现有方法相比。例如,与Qwen2.5-VL相比,VeBrain不仅在MMVet上实现了+5.6%的显著提升,还在腿式机器人任务中以+50%的平均增益表现出色。

[3] Geo-Sign:用于几何感知手语翻译的双曲对比正则化
标题: Geo-Sign: Hyperbolic Contrastive Regularisation for Geometrically Aware Sign Language Translation
作者: Edward Fish / Richard Bowden
原文:   [英文]   [中文]  
备注: Under Review
摘要:
最近在手语翻译(SLT)方面的进展主要集中在提高大型语言模型的表示能力,以整合手语特征。本文探索了一种替代方向:增强骨架表示本身的几何特性。我们提出了Geo-Sign,这是一种利用双曲几何特性来建模手语运动学中固有的层次结构的方法。通过将从时空图卷积网络(ST-GCNs)中提取的骨架特征投射到庞加莱球模型中,我们旨在创建更具辨别力的嵌入,特别是针对手指关节等细粒度动作。我们引入了一个双曲投影层、加权Fréchet均值聚合方案以及直接在双曲空间中操作的几何对比损失。这些组件被集成到一个端到端的翻译框架中,作为正则化函数,以增强语言模型中的表示。本文展示了双曲几何在改进手语翻译的骨架表示方面的潜力,改进了现有RGB方法,同时保护隐私并提高计算效率。代码可在此处获取:this https URL。

[4] 使用无人机影像检测濒危鹿种:高效深度学习方法的比较研究
标题: Detection of Endangered Deer Species Using UAV Imagery: A Comparative Study Between Efficient Deep Learning Approaches
作者: Agustín Roca / Gastón Castro / Gabriel Torre / Leonardo J. Colombo / Ignacio Mas / Javier Pereira / Juan I. Giribet
原文:   [英文]   [中文]  
备注: None
摘要:
本研究比较了最先进的神经网络的性能,包括YOLOv11和RT-DETR模型的变体,用于在无人机影像中检测沼泽鹿,特别是在样本占据图像很小部分且被植被遮挡的场景中。我们在之前的分析基础上,增加了数据集的精确分割掩码,从而能够对包含分割头的YOLO模型进行细粒度训练。实验结果表明,结合分割头能够实现更优越的检测性能。本研究为通过可扩展且准确的AI驱动检测系统改进基于无人机的野生动物监测和保护策略提供了宝贵的见解。

[5] 利用无人机航拍图像和深度学习技术高效监测濒危鹿种
标题: Efficient Endangered Deer Species Monitoring with UAV Aerial Imagery and Deep Learning
作者: Agustín Roca / Gabriel Torre / Juan I. Giribet / Gastón Castro / Leonardo Colombo / Ignacio Mas / Javier Pereira
原文:   [英文]   [中文]  
备注: None
摘要:
本文研究了利用无人机(UAV)和深度学习技术在自然栖息地中检测濒危鹿种的方法。由于传统的识别过程需要经过培训的人工劳动,这在资源和时间上都可能代价高昂,因此需要更高效的解决方案。通过利用高分辨率的航拍图像,应用先进的计算机视觉技术来自动化识别阿根廷布宜诺斯艾利斯两个不同项目中的鹿。第一个项目是潘塔诺项目,涉及巴拉那三角洲的沼泽鹿,而第二个项目WiMoBo则专注于Campos del Tuyú国家公园的潘帕斯鹿。研究中开发了一种使用YOLO框架的定制算法,并在从无人机拍摄的图像中编制的大量数据集上进行了训练。研究结果表明,该算法能够以高精度识别沼泽鹿,并提供了其在潘帕斯鹿上的适用性的初步见解,尽管存在一些局限性。这项研究不仅支持了正在进行的保护工作,还强调了将人工智能与无人机技术相结合以增强野生动物监测和管理实践的潜力。

[6] FastCAR:用于多任务学习中任务整合的快速分类和回归,以建模检测对象类别的连续属性变量
标题: FastCAR: Fast Classification And Regression for Task Consolidation in Multi-Task Learning to Model a Continuous Property Variable of Detected Object Class
作者: Anoop Kini / Andreas Jansche / Timo Bernthaler / Gerhard Schneider
原文:   [英文]   [中文]  
备注: None
摘要:
FastCAR 是一种新颖的任务整合方法,适用于多任务学习(MTL)中的分类和回归任务,尽管任务异质性具有非平凡性且只有微妙的相关性。该方法解决了检测到的对象(占据整个图像框架)的分类问题和对象类实例的连续属性变量建模的回归问题,这是科学和工程中的一个关键用例。FastCAR 涉及一种标签转换方法,该方法适用于仅使用单任务回归网络架构。FastCAR 在同时考虑学习两个任务时,优于传统的 MTL 模型家族,这些模型在架构和损失加权方案的范围内进行参数化(分类准确率为 99.54%,回归平均绝对百分比误差为 2.4%)。实验使用了我们贡献的“高级钢材属性数据集”,该数据集包含 4536 张 224x224 像素的图像,标注有离散的对象类别及其可以取连续值的硬度属性。我们提出的 FastCAR 任务整合方法在训练时间效率(快 2.52 倍)和推理延迟(快 55%)方面优于基准 MTL 网络。

[7] Ctrl-Crash:可控扩散用于真实车祸模拟
标题: Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes
作者: Anthony Gosselin / Ge Ya Luo / Luis Lara / Florian Golemo / Derek Nowrouzezahrai / Liam Paull / Alexia Jolicoeur-Martineau / Christopher Pal
原文:   [英文]   [中文]  
备注: Under review
摘要:
近年来,视频扩散技术取得了显著进展;然而,由于大多数驾驶数据集中事故事件的稀缺性,这些技术在生成逼真的车祸图像方面仍面临挑战。提高交通安全需要逼真且可控的事故模拟。为了解决这个问题,我们提出了Ctrl-Crash,这是一种可控的车祸视频生成模型,它依赖于边界框、碰撞类型和初始图像帧等信号。我们的方法能够生成反事实场景,其中输入的微小变化可能导致截然不同的碰撞结果。为了在推理时支持细粒度控制,我们利用无分类器指导,并为每个条件信号提供独立可调的尺度。与之前基于扩散的方法相比,Ctrl-Crash在定量视频质量指标(如FVD和JEDi)和基于人类对物理现实主义和视频质量的评估的定性测量方面均达到了最先进的性能。

[8] ZeShot-VQA:用于自然灾害损害评估的零样本视觉问答框架与答案映射
标题: ZeShot-VQA: Zero-Shot Visual Question Answering Framework with Answer Mapping for Natural Disaster Damage Assessment
作者: Ehsan Karimi / Maryam Rahnemoonfar
原文:   [英文]  
备注: Accepted by the 2025 IEEE International Geoscience and Remote Sensing Symposium (IGARSS 2025)
摘要:
自然灾害通常会影响广泛的地区并破坏基础设施。及时有效的响应对于减少对受影响社区的影响至关重要,而数据驱动的方法是最佳选择。视觉问答(VQA)模型帮助管理团队深入了解损害情况。然而,最近发布的模型不具备回答开放性问题的能力,只能从预定义的答案列表中选择最佳答案。如果我们想提出具有新的额外可能答案的问题,而这些答案不存在于预定义列表中,则需要对模型进行微调/重新训练新的收集和标注的数据集,这是一项耗时的过程。近年来,大规模视觉语言模型(VLMs)获得了显著关注。这些模型在广泛的数据集上进行训练,并在单模态和多模态视觉/语言下游任务中表现出强大的性能,通常无需微调。在本文中,我们提出了一种基于VLM的零样本VQA(ZeShot-VQA)方法,并研究了其在灾后FloodNet数据集上的表现。由于所提出的方法利用了零样本学习,它可以在新的数据集上应用而无需微调。此外,ZeShot-VQA能够处理和生成在训练过程中未见过的答案,展示了其灵活性。

[9] 链式帧:通过帧感知推理提升多模态大语言模型的视频理解
标题: Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning
作者: Sara Ghazanfari / Francesco Croce / Nicolas Flammarion / Prashanth Krishnamurthy / Farshad Khorrami / Siddharth Garg
原文:   [英文]   [中文]  
备注: None
摘要:
最近的研究表明,在回答用户请求之前,引导大型语言模型(LLMs)生成自然语言的推理过程可以显著提高其在各类任务中的表现。这一方法已被扩展到多模态大型语言模型,其中模型可以对输入图像和视频的内容生成思维链(CoT)。在这项工作中,我们提出获取视频大型语言模型,其推理步骤是基于视频帧并明确参考相关视频帧的。为此,我们首先创建了CoF-Data,这是一个大型数据集,包含关于自然和合成视频的多样化问题、答案以及相应的帧基础推理过程,涵盖各种主题和任务。然后,我们在这个帧链(CoF)数据上微调现有的视频大型语言模型。我们的方法简单且自成一体,与现有的视频思维链方法不同,不需要辅助网络来选择或描述相关帧。我们展示了基于CoF的模型能够生成准确参考关键帧的思维链以回答给定问题。这反过来提高了多个视频理解基准的性能,例如,在Video-MME、MVBench和VSI-Bench上超越了领先的视频大型语言模型,并显著降低了幻觉率。代码可在此http URL获取。

[10] 通过利用基于不确定性的学习难点来改进光流和立体深度估计
标题: Improving Optical Flow and Stereo Depth Estimation by Leveraging Uncertainty-Based Learning Difficulties
作者: Jisoo Jeong / Hong Cai / Jamie Menjay Lin / Fatih Porikli
原文:   [英文]  
备注: CVPRW2025
摘要:
传统的光流和立体深度模型训练通常在所有像素上使用统一的损失函数。然而,这种一刀切的方法往往忽视了单个像素和上下文区域之间学习难度的显著差异。本文研究了基于不确定性的置信图,这些图捕捉了空间上变化的学习难度,并引入了量身定制的解决方案来应对这些难题。我们首先提出了难度平衡(DB)损失,该损失利用基于误差的置信度测量来鼓励网络更多地关注具有挑战性的像素和区域。此外,我们发现一些困难的像素和区域受到遮挡的影响,这是由于在缺乏真实对应关系的情况下固有的不适定匹配问题造成的。为了解决这个问题,我们提出了遮挡避免(OA)损失,旨在引导网络进入基于循环一致性的置信区域,在这些区域中特征匹配更加可靠。通过结合DB和OA损失,我们在训练过程中有效地管理了各种类型的具有挑战性的像素和区域。在光流和立体深度任务上的实验一致表明,应用我们提出的DB和OA损失组合时,性能显著提升。

[11] 利用扩散模型实现有效且高效的对抗防御以增强视觉跟踪的鲁棒性
标题: Towards Effective and Efficient Adversarial Defense with Diffusion Models for Robust Visual Tracking
作者: Long Xu / Peng Gao / Wen-Jia Tang / Fei Wang / Ru-Yue Yuan
原文:   [英文]   [中文]  
备注: None
摘要:
尽管基于深度学习的视觉跟踪方法取得了显著进展,但在面对精心设计的对抗攻击时,它们表现出脆弱性,可能导致跟踪性能急剧下降。为了解决这个问题,本文首次提出了一种基于去噪扩散概率模型的新型对抗防御方法,称为DiffDf,旨在有效提高现有视觉跟踪方法对抗攻击的鲁棒性。DiffDf通过结合像素级重建损失、语义一致性损失和结构相似性损失,建立了多尺度防御机制,通过逐步去噪过程有效抑制对抗扰动。在多个主流数据集上的大量实验结果表明,DiffDf方法对不同架构的跟踪器表现出卓越的泛化性能,显著提高了各种评估指标,同时实现了超过30 FPS的实时推理速度,展示了出色的防御性能和效率。代码可在此https URL获取。

[12] 扩散模型中用于感知评估的潜在引导
标题: Latent Guidance in Diffusion Models for Perceptual Evaluations
作者: Shreshth Saini / Ru-Ling Liao / Yan Ye / Alan C. Bovik
原文:   [英文]   [中文]  
备注: 24 Pages, 7 figures, 10 Tables
摘要:
尽管近年来潜在扩散模型在生成高维图像数据和执行各种下游任务方面取得了进展,但在这些模型中对无参考图像质量评估(NR-IQA)任务的感知一致性探索却很少。在本文中,我们假设潜在扩散模型在数据流形中隐含地表现出感知一致的局部区域。我们利用这一见解,通过感知特征和输入测量来指导流形上的采样。具体来说,我们提出了感知流形引导(PMG)算法,该算法利用预训练的潜在扩散模型和感知质量特征,从去噪U-Net中获得感知一致的多尺度和多时间步特征图。我们通过实验证明,这些超特征在IQA任务中与人类感知具有高度相关性。我们的方法可以应用于任何现有的预训练潜在扩散模型,并且易于集成。据我们所知,本文是首个利用感知特征指导扩散模型进行NR-IQA的工作。对IQA数据集的大量实验表明,我们的方法LGDM达到了最先进的性能,强调了扩散模型在NR-IQA任务中的卓越泛化能力。

[13] 测试时词汇适应用于语言驱动的目标检测
标题: Test-time Vocabulary Adaptation for Language-driven Object Detection
作者: Mingxuan Liu / Tyler L. Hayes / Massimiliano Mancini / Elisa Ricci / Riccardo Volpi / Gabriela Csurka
原文:   [英文]  
备注: Accepted as a conference paper at ICIP 2025
摘要:
开放词汇物体检测模型允许用户在测试时自由地用自然语言指定类别词汇,从而指导所需物体的检测。然而,词汇可能过于宽泛甚至被错误指定,从而阻碍检测器的整体性能。在这项工作中,我们提出了一种即插即用的词汇适配器(VocAda),用于优化用户定义的词汇,自动将其调整为与给定图像相关的类别。VocAda 不需要任何训练,它在推理时通过三个步骤操作:i)使用图像描述器来描述可见物体,ii)从这些描述中解析名词,iii)从用户定义的词汇中选择相关类别,丢弃不相关的类别。在 COCO 和 Objects365 数据集上进行的实验中,使用三种最先进的检测器表明,VocAda 始终如一地提高了性能,证明了其多功能性。代码是开源的。

[14] 特征融合与知识蒸馏的多模态多目标检测
标题: Feature Fusion and Knowledge-Distilled Multi-Modal Multi-Target Detection
作者: Ngoc Tuyen Do / Tri Nhu Do
原文:   [英文]   [中文]  
备注: None
摘要:
在监控和防御领域,多目标检测与分类(MTD)被认为是至关重要但具有挑战性的任务。这是由于来自不同数据源的异构输入以及为资源受限的嵌入式设备设计的算法的计算复杂性,特别是基于人工智能的解决方案。为了解决这些挑战,我们提出了一种特征融合和知识蒸馏框架,用于多模态MTD,该框架利用数据融合来提高准确性,并采用知识蒸馏来改善领域适应性。具体来说,我们的方法在一个新颖的基于融合的多模态模型中使用了RGB和热成像输入,并结合了蒸馏训练流程。我们将问题表述为一个后验概率优化任务,通过一个多阶段训练流程来解决,该流程由一个复合损失函数支持。这个损失函数有效地将知识从教师模型转移到学生模型。实验结果表明,我们的学生模型在推理时间减少约50%的情况下,达到了教师模型平均精度约95%的水平,突显了其在实际MTD部署场景中的适用性。

[15] 基于序列的第三人称视角中第一人称摄像机佩戴者识别
标题: Sequence-Based Identification of First-Person Camera Wearers in Third-Person Views
作者: Ziwei Zhao / Xizi Wang / Yuchen Wang / Feng Cheng / David Crandall
原文:   [英文]   [中文]  
备注: None
摘要:
随着自我中心摄像机的日益普及,人们对研究共享环境中的多摄像机交互产生了越来越大的兴趣。尽管像 Ego4D 和 Ego-Exo4D 这样的大型数据集推动了自我中心视觉研究,但多个摄像机佩戴者之间的交互仍然未被充分探索——这是沉浸式学习和协作机器人等应用的关键空白。为此,我们提出了 TF2025,这是一个扩展的数据集,包含同步的第一人称和第三人称视角。此外,我们引入了一种基于序列的方法,通过结合运动线索和人物重新识别来识别第三人称视频中的第一人称佩戴者。

[16] iDPA:用于增量医学目标检测的实例解耦提示注意力
标题: iDPA: Instance Decoupled Prompt Attention for Incremental Medical Object Detection
作者: Huahui Yi / Wei Xu / Ziyuan Qin / Xi Chen / Xiaohu Wu / Kang Li / Qicheng Lao
原文:   [英文]   [中文]  
备注: accepted to ICML 2025
摘要:
现有的基于提示的方法在持续学习中表现出色,利用预训练的大规模模型进行分类任务;然而,由于医学和自然领域之间的概念差距,前景-背景信息的紧密耦合以及提示与图像-文本标记之间的耦合注意力在增量医学目标检测任务中带来了显著挑战。为了解决这些挑战,我们引入了\method~框架,该框架由两个主要组件组成:1)实例级提示生成(\ipg),它从图像中解耦出细粒度的实例级知识,并生成专注于密集预测的提示;2)解耦提示注意力(\dpa),它解耦了原始提示注意力,使提示信息的传递更加直接和高效,同时减少内存使用并缓解灾难性遗忘。我们收集了13个临床、跨模态、多器官和多类别的数据集,称为\dataset,实验表明\method~在全数据、1-shot、10-shot和50-shot设置中分别比现有的SOTA方法提高了5.44%、4.83%、12.88%和4.59%的FAP。

[17] 潜在小波扩散:实现免费4K图像合成
标题: Latent Wavelet Diffusion: Enabling 4K Image Synthesis for Free
作者: Luigi Sigillo / Shengfeng He / Danilo Comminiello
原文:   [英文]   [中文]  
备注: None
摘要:
高分辨率图像合成在生成建模中仍然是一个核心挑战,特别是在平衡计算效率与保留细粒度视觉细节方面。我们提出了潜在小波扩散(LWD),这是一种轻量级框架,可以让任何潜在扩散模型免费扩展到超高分辨率图像生成(2K到4K)。LWD引入了三个关键组件:(1)一种尺度一致的变分自编码器目标,增强了潜在表示的光谱保真度;(2)小波能量图,用于识别和定位潜在空间中细节丰富的空间区域;(3)一种时间依赖的掩蔽策略,在训练期间将去噪监督集中在高频分量上。LWD不需要架构修改,也不增加额外的计算开销。尽管其简单性,它在超高分辨率图像合成中始终提高了感知质量并降低了FID,优于强大的基线模型。这些结果突出了频率感知、信号驱动监督作为高分辨率生成建模的一种原则性和高效的方法的有效性。

[18] 高效的三维脑肿瘤分割结合轴状-冠状-矢状嵌入
标题: Efficient 3D Brain Tumor Segmentation with Axial-Coronal-Sagittal Embedding
作者: Tuan-Luc Huynh / Thanh-Danh Le / Tam V. Nguyen / Trung-Nghia Le / Minh-Triet Tran
原文:   [英文]   [中文]  
备注: Accepted by PSIVT 2023. Best paper award. Repo: this https URL
摘要:
在本文中,我们探讨了医学影像中脑肿瘤分割这一关键任务,并提出了创新的方法来提升其性能。目前最先进的nnU-Net虽然显示出良好的结果,但存在训练要求过高和对预训练权重利用不足的问题。为克服这些限制,我们将轴状-冠状-矢状卷积和来自ImageNet的预训练权重整合到nnU-Net框架中,从而减少了训练周期、可训练参数,并提高了效率。我们提出了两种将2D预训练权重转移到3D领域的策略,以确保保留对有效信息传播至关重要的学习关系和特征表示。此外,我们探索了一种联合分类和分割模型,该模型利用来自脑胶质瘤等级分类代理任务的预训练编码器,从而提升了分割性能,特别是在处理具有挑战性的肿瘤标签时。实验结果表明,在快速训练设置中,我们提出的方法能够达到甚至超越交叉验证模型集成的效果,这在脑肿瘤分割文献中是一种常见做法。

[19] 孟加拉语手写字符和数字识别的少样本学习方法性能分析
标题: Performance Analysis of Few-Shot Learning Approaches for Bangla Handwritten Character and Digit Recognition
作者: Mehedi Ahamed / Radib Bin Kabir / Tawsif Tashwar Dipto / Mueeze Al Mushabbir / Sabbir Ahmed / Md. Hasanul Kabir
原文:   [英文]   [中文]  
备注: None
摘要:
本研究探讨了在使用有限标记数据识别孟加拉文手写字符和数字时,少样本学习(FSL)方法的表现。研究表明,这些方法适用于具有复杂结构的文字,而数据集稀缺是一个常见的挑战。鉴于孟加拉文字的复杂性,我们假设在这些字符上表现良好的模型可以有效地推广到结构复杂性相似或更低的语言。为此,我们引入了SynergiProtoNet,这是一种混合网络,旨在提高手写字符和数字的识别准确性。该模型结合了先进的聚类技术和强大的嵌入框架,以捕捉细粒度的细节和上下文细微差别。它在原型学习框架内利用多层次(包括高层和低层)特征提取。我们在多种评估设置下严格地将SynergiProtoNet与几种最先进的少样本学习模型进行基准测试:BD-CSPN、原型网络、关系网络、匹配网络和SimpleShot,包括单语内部数据集评估、单语跨数据集评估、跨语言迁移和分割数字测试。实验结果表明,SynergiProtoNet始终优于现有方法,在手写字符和数字识别的少样本学习中建立了新的基准。代码可在GitHub上获取:this https URL。

[20] BAGNet: 一种用于三维点云语义分割的边界感知图注意力网络
标题: BAGNet: A Boundary-Aware Graph Attention Network for 3D Point Cloud Semantic Segmentation
作者: Wei Tao / Xiaoyang Qu / Kai Lu / Jiguang Wan / Shenglin He / Jianzong Wang
原文:   [英文]   [中文]  
备注: Accepted by the 2025 International Joint Conference on Neural Networks (IJCNN 2025)
摘要:
由于点云数据本质上是不规则和无结构的,点云语义分割一直是一项具有挑战性的任务。基于图的方法尝试通过将点云表示为图来对其进行建模;然而,由于需要为大规模点云中的每个点构建图,这种方法会带来大量的计算成本。在本文中,我们观察到边界点具有更复杂的空间结构信息,并开发了一种新颖的图注意力网络,称为边界感知图注意力网络(BAGNet)。一方面,BAGNet包含一个边界感知图注意力层(BAGLayer),该层利用边缘顶点融合和注意力系数来捕捉边界点的特征,从而减少计算时间。另一方面,BAGNet采用轻量级注意力池化层来提取点云的全局特征,以保持模型的准确性。在标准数据集上的大量实验表明,BAGNet在点云语义分割中以更高的准确性和更少的推理时间优于最先进的方法。

[21] UNSURF:临床脑部MRI皮层表面重建的不确定性量化
标题: UNSURF: Uncertainty Quantification for Cortical Surface Reconstruction of Clinical Brain MRIs
作者: Raghav Mehta / Karthik Gopinath / Ben Glocker / Juan Eugenio Iglesias
原文:   [英文]   [中文]  
备注: Raghav Mehta and Karthik Gopinath contributed equally. Ben Glocker and Juan Eugenio Iglesias contributed equally. Paper under review at MICCAI 2025
摘要:
我们提出了UNSURF,这是一种用于临床脑部MRI扫描的皮层表面重建的新型不确定性度量方法,适用于任何方向、分辨率和对比度。该方法依赖于预测的体素级符号距离函数(SDF)与拟合表面的实际SDF之间的差异。我们在真实临床扫描上的实验表明,传统的不确定性度量方法(如体素级蒙特卡罗方差)不适合用于建模表面放置的不确定性。我们的结果表明,UNSURF估计值与真实误差高度相关,并且:\textit{(i)} 能够在个体、分区和网格节点级别实现表面重建的有效自动质量控制;\textit{(ii)} 提高了下游阿尔茨海默病分类任务的性能。

[22] SSAM: 用于测试时适应的自监督关联建模
标题: SSAM: Self-Supervised Association Modeling for Test-Time Adaption
作者: Yaxiong Wang / Zhenqiang Zhang / Lechao Cheng / Zhun Zhong / Dan Guo / Meng Wang
原文:   [英文]   [中文]  
备注: 10 papges
摘要:
测试时适应(TTA)在近年来取得了重要进展,现有的方法通常首先对图像和文本进行编码,并设计策略来建模它们之间的关联。同时,由于在TTA场景中缺乏明确的监督,图像编码器通常是冻结的。我们发现这一范式存在一个关键限制:尽管测试时的图像常常表现出与训练数据的分布偏移,现有方法由于在适应过程中缺乏明确的监督,仍然持续冻结图像编码器。这种做法忽视了图像编码器在弥合训练和测试之间分布偏移中的关键作用。为了解决这一挑战,我们提出了SSAM(自监督关联建模),这是一种新的TTA框架,通过双阶段关联学习实现动态编码器优化。我们的方法通过两个协同的组件运作:1)软原型估计(SPE),它估计概率类别关联以指导特征空间重组;2)原型锚定图像重建(PIR),通过集群条件的图像特征重建来加强编码器的稳定性。通过在各种基线方法和基准上的全面实验表明,SSAM可以在保持计算效率的同时,以明显的优势超越最先进的TTA基线。该框架的架构无关设计和对超参数的最小依赖性进一步增强了其实用性。

[23] SenseFlow: 基于流的文本到图像蒸馏的分布匹配扩展
标题: SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation
作者: Xingtong Ge / Xin Zhang / Tongda Xu / Yi Zhang / Xinjie Zhang / Yan Wang / Jun Zhang
原文:   [英文]   [中文]  
备注: under review
摘要:
分布匹配蒸馏(DMD)已成功应用于文本到图像扩散模型,如Stable Diffusion(SD)1.5。然而,原始的DMD在大规模基于流的文本到图像模型(如SD 3.5和FLUX)上存在收敛困难。在本文中,我们首先分析了在大规模模型上应用原始DMD时的问题。然后,为了克服可扩展性挑战,我们提出了隐式分布对齐(IDA),以规范生成器和伪分布之间的距离。此外,我们提出了段内指导(ISG),以重新定位来自教师模型的时间步重要性分布。仅使用IDA,DMD在SD 3.5上收敛;同时使用IDA和ISG,DMD在SD 3.5和FLUX.1 dev上收敛。结合其他改进,如放大判别器模型,我们的最终模型,称为\textbf{SenseFlow},在基于扩散的文本到图像模型(如SDXL)和流匹配模型(如SD 3.5 Large和FLUX)的蒸馏中实现了卓越的性能。源代码将在此https URL上提供。

[24] 基于异步摄像机的移动点三维轨迹重建
标题: 3D Trajectory Reconstruction of Moving Points Based on Asynchronous Cameras
作者: Huayu Huang / Banglei Guan / Yang Shang / Qifeng Yu
原文:   [英文]   [中文]  
备注: This paper has been accepted by Acta Mechanica Sinica
摘要:
光力学是固体力学的一个重要分支。点目标的定位是光学实验力学中的一个基本问题,在无人机的各种任务中有广泛的应用。定位移动目标对于分析其运动特性和动态特性至关重要。从异步相机中重建点的轨迹是一个重大挑战。它包含两个耦合的子问题:轨迹重建和相机同步。目前的方法通常仅单独解决这两个子问题中的一个。本文提出了一种基于异步相机的点目标三维轨迹重建方法,同时解决这两个子问题。首先,我们将轨迹交叉方法扩展到异步相机,以解决传统三角测量需要相机同步的限制。其次,我们基于成像机制和目标动态特性开发了相机时间信息和目标运动的模型。参数同时优化,以在没有精确时间参数的情况下实现轨迹重建。第三,我们在优化相机时间信息和目标运动参数的同时,优化相机旋转,对移动点施加更紧密和连续的约束。重建精度显著提高,尤其是在相机旋转不准确的情况下。最后,模拟和实际实验结果证明了所提出方法的可行性和准确性。实际结果表明,在15至20公里的观测范围内,所提出的算法实现了112.95米的定位误差。

[25] ViVo:用于体积视频重建和压缩的数据集
标题: ViVo: A Dataset for Volumetric VideoReconstruction and Compression
作者: Adrian Azzarelli / Ge Gao / Ho Man Kwan / Fan Zhang / Nantheera Anantrasirichai / Ollie Moolan-Feroze / David Bull
原文:   [英文]   [中文]  
备注: None
摘要:
随着神经体积视频重建和压缩研究的蓬勃发展,迫切需要多样化且真实的数据集,以用于开发和验证重建和压缩模型。然而,现有的体积视频数据集在语义和低级特征方面缺乏多样性,而这些特征在现实世界的制作流程中普遍存在。在此背景下,我们提出了一个新的数据集,ViVo,用于体积视频重建和压缩。该数据集忠实于真实世界的体积视频制作,并且是第一个将多样性的定义扩展到包括以人为中心的特征(如皮肤、头发等)和动态视觉现象(如透明、反射、液体等)的数据集。此数据库中的每个视频序列都包含原始数据,包括十四个多视角的RGB和深度视频对,以30FPS同步,并附有每帧的校准和音频数据,以及其相关的2D前景掩码和3D点云。为了展示该数据库的使用,我们对三种最先进的3D重建方法和两种体积视频压缩算法进行了基准测试。所得结果证明了所提出数据集的挑战性,以及现有数据集在体积视频重建和压缩任务中的局限性,强调了为这些应用开发更有效算法的必要性。该数据库和相关结果可在此https URL获取。

[26] SEED:用于序列面部属性编辑的扩散模型基准数据集
标题: SEED: A Benchmark Dataset for Sequential Facial Attribute Editing with Diffusion Models
作者: Yule Zhu / Ping Liu / Zhedong Zheng / Wei Liu
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型最近在广泛的语义属性范围内实现了精确且逼真的面部编辑。除了单步修改之外,越来越多的应用程序现在需要分析和跟踪渐进编辑序列的能力,例如对头发、化妆或配饰的逐步更改。然而,顺序编辑在编辑归因和检测鲁棒性方面引入了重大挑战,这一问题因缺乏专门针对该任务的大规模、精细注释的基准而更加复杂。我们引入了SEED,这是一个通过最先进的扩散模型构建的大规模顺序编辑面部数据集。SEED包含超过90,000张面部图像,每张图像具有一到四个顺序属性修改,使用多种基于扩散的编辑管道(LEdits、SDXL、SD3)生成。每张图像都附有详细的编辑序列、属性掩码和提示,便于对顺序编辑跟踪、视觉来源分析和操控鲁棒性评估的研究。为了对这一任务进行基准测试,我们提出了FAITH,这是一种基于频率感知变换器的模型,结合高频线索以增强对细微顺序变化的敏感性。包括多种频域方法的系统比较在内的综合实验,展示了FAITH的有效性以及SEED所带来的独特挑战。SEED为大规模研究渐进的基于扩散的编辑提供了一个具有挑战性和灵活性的资源。数据集和代码将在此URL公开发布。

[27] CReFT-CAD:通过强化微调提升计算机辅助设计的正投影推理
标题: CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning
作者: Ke Niu / Zhuofan Chen / Haiyang Yu / Yuwen Chen / Teng Fu / Mengyang Zhao / Bin Li / Xiangyang Xue
原文:   [英文]   [中文]  
备注: None
摘要:
计算机辅助设计(CAD)在工业制造中发挥着关键作用。正投影推理是整个CAD工作流程的基础,涵盖设计、制造和仿真。然而,目前流行的深度学习方法采用标准的3D重建管道作为替代方案,这通常会引入不精确的尺寸,并限制CAD工作流程所需的参数化可编辑性。最近,一些研究人员采用视觉语言模型(VLMs),特别是监督微调(SFT),来解决与CAD相关的挑战。SFT显示出潜力,但往往演变为模式记忆,在复杂推理任务上表现出较差的分布外性能。为了解决这些问题,我们引入了CReFT-CAD,这是一种两阶段微调范式,首先采用课程驱动的强化学习阶段,通过难度感知奖励稳步建立推理能力,然后应用监督后微调以磨练指令跟随和语义提取。作为补充,我们发布了TriView2CAD,这是第一个用于正投影推理的大规模开源基准,包含20万个合成和3000个真实世界的正投影,具有精确的尺寸注释和六种可互操作的数据模态。我们在正投影推理上对领先的VLMs进行了基准测试,并证明CReFT-CAD在现实场景中显著提高了推理准确性和分布外泛化能力,为推进CAD推理研究提供了宝贵的见解。

[28] 基于事件的多视图摄影测量用于高动态、高速度目标测量
标题: Event-based multi-view photogrammetry for high-dynamic, high-velocity target measurement
作者: Taihang Lei / Banglei Guan / Minzu Liang / Xiangyu Li / Jianbing Liu / Jing Tao / Yang Shang / Qifeng Yu
原文:   [英文]  
备注: 9 pages, 9 figures, 1 table. This paper was accepted by Acta Mechanica Sinica (Date:this http URL 2025)
摘要:
对于高动态、高速目标运动的机械性能表征在工业中至关重要。它为验证武器系统和精密制造工艺等提供了关键数据。然而,现有的测量方法面临动态范围有限、观测不连续以及成本高昂等挑战。本文提出了一种利用基于事件的多视角摄影测量系统的新方法,旨在解决上述挑战。首先,利用事件在时空分布上的单调性来提取目标的前沿特征,消除了使运动测量复杂化的拖尾效应。然后,使用重投影误差将事件与目标的轨迹关联起来,提供比传统交叉方法更多的数据。最后,采用目标速度衰减模型来拟合数据,通过我们的多视角数据联合计算实现精确的运动测量。在轻气炮碎片测试中,所提出的方法与电磁测速仪相比,测量偏差为4.47%。

[29] MR2US-Pro:基于扩散模型的前列腺磁共振到超声图像翻译与配准
标题: MR2US-Pro: Prostate MR to Ultrasound Image Translation and Registration Based on Diffusion Models
作者: Xudong Ma / Nantheera Anantrasirichai / Stefanos Bolomytis / Alin Achim
原文:   [英文]   [中文]  
备注: None
摘要:
前列腺癌的诊断越来越依赖于多模态成像,特别是磁共振成像(MRI)和经直肠超声(TRUS)。然而,由于维度和解剖表示的差异,这些模态之间的精确配准仍然是一个基本挑战。在这项工作中,我们提出了一个新颖的框架,通过一个两阶段的过程来解决这些挑战:TRUS 3D重建,随后是跨模态配准。与现有的严重依赖外部探头跟踪信息的TRUS 3D重建方法不同,我们提出了一种完全独立于探头位置的方法,该方法利用了矢状面和横断面TRUS视图之间的自然相关性。借助我们的基于聚类的特征匹配方法,我们能够在没有任何额外探头跟踪信息的情况下实现2D帧的空间定位。在配准阶段,我们引入了一种由模态翻译引导的无监督扩散框架。与现有方法将一种模态翻译为另一种模态不同,我们将MR和US都映射到一个伪中间模态。该设计使我们能够定制它以仅保留对配准至关重要的特征,从而大大简化了配准。为了进一步增强解剖对齐,我们结合了一种解剖感知的配准策略,该策略优先考虑内部结构的一致性,同时自适应地减少边界不一致性的影响。广泛的验证表明,我们的方法通过在完全无监督的情况下实现物理上真实变形的优越配准精度,优于最先进的方法。

[30] Seg2Any: 开集分割掩码到图像生成,具有精确的形状和语义控制
标题: Seg2Any: Open-set Segmentation-Mask-to-Image Generation with Precise Shape and Semantic Control
作者: Danfeng li / Hui Zhang / Sheng Wang / Jiacheng Li / Zuxuan Wu
原文:   [英文]   [中文]  
备注: None
摘要:
尽管扩散模型在最近取得了进展,顶级文本到图像(T2I)模型在实现精确的空间布局控制方面仍然存在困难,即准确生成具有指定属性和位置的实体。分割掩码到图像(S2I)生成通过结合像素级空间指导和区域文本提示,成为一种有前途的解决方案。然而,现有的S2I方法未能同时确保语义一致性和形状一致性。为了解决这些挑战,我们提出了Seg2Any,这是一种基于先进多模态扩散变压器(例如FLUX)的新颖S2I框架。首先,为了实现语义和形状的一致性,我们将分割掩码条件解耦为区域语义和高频形状组件。区域语义条件通过语义对齐注意掩码引入,确保生成的实体符合其分配的文本提示。高频形状条件,代表实体边界,被编码为实体轮廓图,然后通过多模态注意作为额外模态引入,以指导图像的空间结构。其次,为了防止多实体场景中属性的泄漏,我们引入了属性隔离注意掩码机制,该机制限制每个实体的图像标记在图像自注意期间仅关注自身。为了支持开放集S2I生成,我们构建了SACap-1M,一个包含100万张图像的大规模数据集,其中包含590万个分割实体和详细的区域字幕,以及一个用于综合S2I评估的SACap-Eval基准。大量实验表明,Seg2Any在开放集和封闭集S2I基准上均实现了最先进的性能,特别是在实体的细粒度空间和属性控制方面。

[31] XYZ-IBD:用于物体6D姿态估计的高精度抓取数据集,捕捉真实世界工业复杂性
标题: XYZ-IBD: High-precision Bin-picking Dataset for Object 6D Pose Estimation Capturing Real-world Industrial Complexity
作者: Junwen Huang / Jizhong Liang / Jiaqi Hu / Martin Sundermeyer / Peter KT Yu / Nassir Navab / Benjamin Busam
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了XYZ-IBD,这是一个用于6D姿态估计的料箱抓取数据集,捕捉了真实世界工业的复杂性,包括具有挑战性的物体几何形状、反光材料、严重遮挡和密集杂乱。该数据集反映了具有毫米级精确标注的真实机器人操作场景。与主要关注家庭物品且已趋于饱和的现有数据集不同,XYZ-IBD代表了尚未解决的真实工业条件。数据集包含15个无纹理、金属且大多对称的物体,形状和大小各异。这些物体被严重遮挡并以高密度随机排列在料箱中,复制了真实世界料箱抓取的挑战。XYZ-IBD使用两台高精度工业相机和一台市售相机收集,提供RGB、灰度和深度图像。它包含75个多视角真实场景,以及在模拟料箱抓取条件下渲染的大规模合成数据集。我们采用了细致的标注流程,包括防反射喷雾、多视角深度融合和半自动标注,实现了工业操作所需的毫米级姿态标注精度。在模拟环境中的量化验证了地面真实标注的可靠性。我们在数据集上对2D检测、6D姿态估计和深度估计任务的最先进方法进行了基准测试,揭示了与当前学术家庭基准相比,我们的设置中显著的性能下降。通过捕捉真实世界料箱抓取场景的复杂性,XYZ-IBD为未来研究引入了更真实和具有挑战性的问题。数据集和基准测试可在此https URL公开获取。

[32] SatDreamer360:从卫星影像生成几何一致的街景视频
标题: SatDreamer360: Geometry Consistent Street-View Video Generation from Satellite Imagery
作者: Xianghui Ze / Beiyi Zhu / Zhenbo Song / Jianfeng Lu / Yujiao Shi
原文:   [英文]   [中文]  
备注: None
摘要:
从卫星图像生成连续的地面视频是一项具有挑战性的任务,在模拟、自主导航和数字孪生城市等应用中具有重要潜力。现有的方法主要集中在合成单个地面视图图像,通常依赖于高度图或手工制作的投影等辅助输入,难以生成时间一致的序列。在本文中,我们提出了{SatDreamer360},这是一种新颖的框架,可以从单个卫星图像和预定义的轨迹生成几何和时间一致的地面视图视频。为了弥合大的视点差距,我们引入了一种紧凑的三平面表示,直接从卫星图像编码场景几何。基于光线的像素注意机制从三平面中检索视图相关特征,实现准确的跨视图对应,而无需额外的几何先验。为了确保多帧一致性,我们提出了一种极线约束的时间注意模块,利用已知的轨迹相对姿态对齐跨帧特征。为了支持评估,我们引入了{VIGOR++},这是一个用于跨视图视频生成的大规模数据集,具有密集的轨迹注释和高质量的地面视图序列。大量实验表明,SatDreamer360在多样化的城市场景中,在保真度、一致性和几何对齐方面实现了卓越的性能。

[33] ABCDEFGH:一种基于自适应卷积神经网络-CycleGAN的疾病进程演化框架,使用生成模型在健康教育中
标题: ABCDEFGH: An Adaptation-Based Convolutional Neural Network-CycleGAN Disease-Courses Evolution Framework Using Generative Models in Health Education
作者: Ruiming Min / Minghao Liu
原文:   [英文]   [中文]  
备注: None
摘要:
随着现代医学的进步以及MRI、CT和细胞分析等技术的发展,临床医生准确解读各种诊断图像变得越来越重要。然而,由于隐私问题和教育资源的短缺,现代医学教育常常面临获取高质量教学材料的挑战(Balogh等,2015)。在此背景下,由机器学习模型,特别是生成模型生成的图像数据,提供了一种有前景的解决方案。这些模型可以在不影响患者隐私的情况下创建多样且可比的影像数据集,从而支持现代医学教育。在本研究中,我们探讨了使用卷积神经网络(CNNs)和CycleGAN(Zhu等,2017)生成合成医学图像的方法。源代码可在此https URL获取。

[34] 并行重缩放:为个性化扩散模型重新平衡一致性指导
标题: Parallel Rescaling: Rebalancing Consistency Guidance for Personalized Diffusion Models
作者: JungWoo Chae / Jiyoon Kim / Sangheum Hwang
原文:   [英文]   [中文]  
备注: None
摘要:
将扩散模型个性化到特定用户或概念仍然具有挑战性,尤其是在只有少量参考图像的情况下。现有的方法,如DreamBooth和Textual Inversion,往往会对有限的数据过拟合,导致在尝试平衡身份保真度与提示一致性时,生成的图像与文本提示之间出现不匹配。虽然直接一致性优化(DCO)及其一致性引导采样在一定程度上缓解了这个问题,但在处理复杂或风格化的提示时仍然存在困难。在本文中,我们提出了一种用于个性化扩散模型的平行重缩放技术。我们的方法明确地将一致性引导信号分解为相对于无分类器引导(CFG)的平行和正交分量。通过重缩放平行分量,我们在保留主体身份的同时,最大限度地减少了对CFG的干扰。与之前的个性化方法不同,我们的技术不需要额外的训练数据或昂贵的注释。大量实验表明,与基线方法相比,即使在具有挑战性的风格化提示上,我们的方法也能改善提示对齐和视觉保真度。这些发现突显了平行重缩放引导在为多样化用户输入提供更稳定和准确的个性化方面的潜力。

[35] 通过置换不变的头尾特征融合进行长尾视觉识别
标题: Long-Tailed Visual Recognition via Permutation-Invariant Head-to-Tail Feature Fusion
作者: Mengke Li / Zhikai Hu / Yang Lu / Weichao Lan / Yiu-ming Cheung / Hui Huang
原文:   [英文]   [中文]  
备注: None
摘要:
长尾数据的不平衡分布对深度学习模型提出了重大挑战,导致模型优先考虑头部类别而忽视尾部类别。造成识别准确率低的两个关键因素是变形的表示空间和偏倚的分类器,这源于尾部类别中语义信息的不足。为了解决这些问题,我们提出了一种高度适应性的方法:置换不变和头尾特征融合(PI-H2T)。PI-H2T通过置换不变表示融合(PIF)增强表示空间,产生更聚集的特征和自动的类别边界。此外,它通过头尾融合(H2TF)将语义信息从头部类别转移到尾部类别,从而调整偏倚的分类器,提高尾部类别的多样性。理论分析和实验表明,PI-H2T优化了表示空间和决策边界。其即插即用的设计确保了与现有方法的无缝集成,为进一步提高性能提供了简单的途径。在长尾基准上的大量实验验证了PI-H2T的有效性。

[36] 通过对比视觉语言预训练的三维潜在扩散模型进行文本到CT生成
标题: Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining
作者: Daniele Molino / Camillo Maria Caruso / Filippo Ruffini / Paolo Soda / Valerio Guarrasi
原文:   [英文]   [中文]  
备注: None
摘要:
目标:尽管最近在文本条件生成模型方面的进展使得合成逼真的医学图像成为可能,但进展主要局限于二维模态,如胸部X光片。将文本到图像生成扩展到体积计算机断层扫描(CT)仍然是一个重大挑战,因为其高维度、解剖复杂性以及缺乏将视觉语言数据与三维医学成像对齐的稳健框架。方法:我们介绍了一种用于文本到CT生成的新颖架构,该架构结合了潜在扩散模型和三维对比视觉语言预训练方案。我们的方法利用了一个双编码器CLIP风格模型,该模型在配对的CT体积和放射学报告上进行训练,以建立一个共享的嵌入空间,作为生成的条件输入。CT体积通过预训练的体积VAE压缩到低维潜在空间,从而实现高效的三维去噪扩散,而无需外部超分辨率阶段。结果:我们在CT-RATE数据集上评估了我们的方法,并进行了图像保真度、临床相关性和语义对齐的全面评估。我们的模型在所有任务中均表现出竞争力,显著优于之前的文本到CT生成基线。此外,我们证明了由我们的框架合成的CT扫描可以有效地增强真实数据,提高下游诊断性能。结论:我们的结果表明,模态特定的视觉语言对齐是高质量三维医学图像生成的关键组成部分。通过整合对比预训练和体积扩散,我们的方法提供了一种可扩展且可控的解决方案,用于从文本合成临床意义的CT体积,为数据增强、医学教育和自动化临床模拟的新应用铺平了道路。

[37] 视频签名:用于潜在视频扩散模型的生成内水印
标题: Video Signature: In-generation Watermarking for Latent Video Diffusion Models
作者: Yu Huang / Junhao Chen / Qi Zheng / Hanqian Li / Shuliang Liu / Xuming Hu
原文:   [英文]   [中文]  
备注: None
摘要:
人工智能生成内容(AIGC)的快速发展在视频生成方面取得了显著进展,但也引发了对知识产权保护和可靠内容追踪的严重担忧。水印技术是解决这一问题的广泛采用的方案,但现有的视频生成方法主要遵循生成后处理的范式,这引入了额外的计算开销,并且常常无法有效平衡视频质量和水印提取之间的权衡。为了解决这些问题,我们提出了视频签名(VIDSIG),这是一种用于潜在视频扩散模型的生成中水印方法,能够在生成过程中实现隐式和自适应的水印集成。具体来说,我们通过部分微调潜在解码器来实现这一点,其中扰动感知抑制(PAS)预先识别并冻结感知敏感层以保持视觉质量。除了空间保真度之外,我们还通过引入一个轻量级的时间对齐模块来增强时间一致性,该模块在微调过程中引导解码器生成连贯的帧序列。实验结果表明,VIDSIG在水印提取、视觉质量和生成效率方面实现了最佳的整体性能。它还展示了对空间和时间篡改的强大鲁棒性,突显了其在现实场景中的实用性。

[38] 海报:使用LoRA适应预训练视觉Transformer以抵御攻击向量
标题: Poster: Adapting Pretrained Vision Transformers with LoRA Against Attack Vectors
作者: Richard E. Neddo / Sean Willis / Zander Blasingame / Chen Liu
原文:   [英文]   [中文]  
备注: Presented at IEEE MOST 2025
摘要:
图像分类器,例如用于自动驾驶车辆导航的分类器,通常被认为容易受到针对输入图像集的对抗性攻击。关于对抗性攻击的讨论非常广泛,包括那些通过扰动来改变输入图像以在不被察觉的情况下导致恶意错误分类的攻击。本文提出了一种针对这种攻击的对策,通过对预训练的视觉变换器的权重和类别进行低秩调整,使其在对抗性攻击下更加稳健,并允许在不重新训练的情况下进行可扩展的微调。

[39] 用于大规模视频分析的场景检测策略和关键帧提取策略
标题: Scene Detection Policies and Keyframe Extraction Strategies for Large-Scale Video Analysis
作者: Vasilii Korolkov
原文:   [英文]   [中文]  
备注: 24 pages, 8 figures, submitted as a preprint. ArXiv preprint only, not submitted to a journal yet
摘要:
稳健的场景分割和关键帧提取是视频理解流程中的重要预处理步骤,支持索引、摘要和语义检索等任务。然而,现有方法往往缺乏在不同视频类型和时长上的通用性。我们提出了一个统一的、自适应的框架,用于自动场景检测和关键帧选择,能够处理从短视频到长片、档案内容和监控录像等多种格式。我们的系统根据视频长度动态选择分割策略:对短视频采用自适应阈值法,对中等长度视频采用混合策略,对长时间录制的视频采用基于间隔的分割。这确保了在不同领域中一致的粒度和高效的处理。对于关键帧选择,我们使用一个轻量级模块,通过锐度、亮度和时间分布的复合指标对采样帧进行评分,避免了复杂的显著性模型,同时确保视觉相关性。该系统专为高吞吐量工作流程设计,已在商业视频分析平台中部署,处理了来自媒体、教育、研究和安全领域的内容。它提供了一种可扩展且可解释的解决方案,适用于UI预览、嵌入管道和内容过滤等下游应用。我们讨论了实际的实施细节,并概述了未来的增强措施,包括音频感知分割和基于强化学习的帧评分。

[40] CineMA:用于心脏电影磁共振成像的基础模型
标题: CineMA: A Foundation Model for Cine Cardiac MRI
作者: Yunguan Fu / Weixi Yi / Charlotte Manisty / Anish N Bhuva / Thomas A Treibel / James C Moon / Matthew J Clarkson / Rhodri Huw Davies / Yipeng Hu
原文:   [英文]   [中文]  
备注: None
摘要:
心脏磁共振成像(CMR)是临床心血管医学中的一项关键检查,并已广泛用于人群研究。然而,提取用于诊断心血管疾病的临床重要测量值(如射血分数)仍然耗时且主观。我们开发了CineMA,这是一种基础AI模型,能够在有限标签的情况下自动化这些任务。CineMA是一个自监督的自动编码器模型,训练于74,916个动态CMR研究,以从被遮蔽的输入中重建图像。经过微调后,它在八个数据集上针对来自四个类别的23项任务进行了评估:心室和心肌分割、左右心室射血分数计算、疾病检测和分类以及标志定位。CineMA是第一个在动态CMR中匹配或超越卷积神经网络(CNNs)的基础模型。CineMA展示了比CNNs更高的标签效率,在较少注释的情况下实现了相当或更好的性能。这减少了临床医生标注的负担,并支持在未来的心脏影像应用中用微调基础模型替代特定任务的训练。用于预训练和微调的模型和代码可在此https URL获取,民主化了对高性能模型的访问,这些模型通常需要大量计算资源,从而促进可重复性并加速临床转化。

[41] 面向向量量化生成模型的概念中心化标记解释
标题: Concept-Centric Token Interpretation for Vector-Quantized Generative Models
作者: Tianze Yang / Yucheng Shi / Mengnan Du / Xuansheng Wu / Qiaoyu Tan / Jin Sun / Ninghao Liu
原文:   [英文]   [中文]  
备注: 17 pages, 7 figures
摘要:
向量量化生成模型(VQGMs)已成为图像生成的强大工具。然而,VQGMs 的关键组成部分——离散标记的代码簿——仍然没有被很好地理解,例如,哪些标记对于生成某个概念的图像至关重要?本文介绍了概念导向标记解释(CORTEX),这是一种通过识别特定概念的标记组合来解释 VQGMs 的新方法。我们的框架采用了两种方法:(1)样本级解释方法,分析单个图像中标记的重要性评分;(2)代码簿级解释方法,探索整个代码簿以找到全局相关的标记。实验结果表明,CORTEX 在提供生成过程中标记使用的清晰解释方面表现出色,优于多个预训练 VQGMs 的基线。除了增强 VQGMs 的透明性之外,CORTEX 在目标图像编辑和捷径特征检测等应用中也很有用。我们的代码可在此 https URL 获取。

[42] 中央凹堆叠:具有动态局部像差校正的成像
标题: Fovea Stacking: Imaging with Dynamic Localized Aberration Correction
作者: Shi Mao / Yogeshwar Mishra / Wolfgang Heidrich
原文:   [英文]   [中文]  
备注: None
摘要:
最近,由于对更小尺寸相机的需求,推动了对计算成像系统的探索,这些系统具有较低的光学复杂性,例如较少的镜头元件。然而,这种简化的光学系统通常会遭受严重的像差,尤其是在离轴区域,这些像差仅靠软件纠正可能会很困难。在本文中,我们介绍了一种新的成像系统,称为Fovea Stacking,它利用新兴的动态光学组件——可变形相位板(DPPs),在图像传感器的任何位置进行局部像差校正。通过可微光学模型优化DPP的变形,离轴像差在局部得到校正,生成一个在注视点具有增强清晰度的凹状图像——类似于眼睛的中央凹。叠加多个这样的凹状图像,每个图像具有不同的注视点,产生一个无像差的复合图像。为了有效覆盖整个视野,我们提出在成像预算限制下对DPP变形进行联合优化。由于DPP设备的非线性行为,我们引入了基于神经网络的控制模型,以改善模拟与硬件性能之间的对齐。我们进一步证明,对于扩展景深成像,Fovea Stacking在图像质量上优于传统的焦点叠加。通过集成对象检测或眼动追踪,系统可以动态调整镜头以跟踪感兴趣的对象,从而实现适用于下游应用的实时凹状视频,例如监控或凹状虚拟现实显示。

[43] 从局部线索到整体感知:自监督视觉模型中的格式塔组织的涌现
标题: From Local Cues to Global Percepts: Emergent Gestalt Organization in Self-Supervised Vision Models
作者: Tianqin Li / Ziqi Wen / Leiran Song / Jun Liu / Zhi Jing / Tai Sing Lee
原文:   [英文]   [中文]  
备注: None
摘要:
人类视觉利用完形原则(如闭合性、接近性和图形-背景分配)将局部线索组织成连贯的整体形式,这些功能依赖于全局空间结构。我们研究了现代视觉模型是否表现出类似的行为,以及在什么训练条件下这些行为会出现。我们发现,使用掩码自编码(MAE)训练的视觉变换器(ViTs)表现出与完形法则一致的激活模式,包括幻觉轮廓的完成、凸性偏好和动态图形-背景分离。为了探究计算基础,我们假设建模全局依赖性是实现类似完形组织的必要条件。我们引入了扭曲空间关系测试平台(DiSRT),该平台在保留局部纹理的同时评估对全局空间扰动的敏感性。使用DiSRT,我们展示了自监督模型(如MAE、CLIP)优于监督基线,有时甚至超过人类表现。使用MAE训练的ConvNeXt模型也表现出与完形相兼容的表示,这表明这种敏感性可以在没有注意力架构的情况下出现。然而,分类微调会削弱这种能力。受生物视觉的启发,我们展示了一种Top-K激活稀疏机制可以恢复全局敏感性。我们的研究结果确定了促进或抑制类似完形感知的训练条件,并确立了DiSRT作为跨模型全局结构敏感性的诊断工具。

[44] 常见修复对象的内外语境
标题: Common Inpainted Objects In-N-Out of Context
作者: Tianze Yang / Tyson Jordan / Ninghao Liu / Jin Sun
原文:   [英文]   [中文]  
备注: 12 pages, 7 figures
摘要:
我们介绍了Common Inpainted Objects In-N-Out of Context (COinCO),这是一个新颖的数据集,旨在解决现有视觉数据集中缺乏上下文不一致示例的问题。通过基于扩散的图像修复技术系统地替换COCO图像中的对象,我们创建了97,722个独特的图像,这些图像包含上下文一致和不一致的场景,从而实现有效的上下文学习。每个修复的对象都经过仔细验证,并通过多模态大型语言模型评估被分类为上下文内或上下文外。我们的分析揭示了影响不同对象类别修复成功的语义先验中的显著模式。我们展示了COinCO支持的三个关键任务:(1) 训练上下文分类器,有效判断现有对象是否属于其上下文;(2) 一个新颖的“从上下文中预测对象”任务,确定哪些新对象自然属于给定场景中的实例和群体层面;(3) 在不进行微调的情况下,利用上下文增强的假检测来处理最先进的方法。COinCO提供了一个具有上下文变化的受控测试平台,为推进计算机视觉和图像取证中的上下文感知视觉理解奠定了基础。我们的代码和数据可以在这个URL上找到。

[45] 卷积注入的DenseNet结合两步压缩用于资源高效的植物病害分类
标题: Involution-Infused DenseNet with Two-Step Compression for Resource-Efficient Plant Disease Classification
作者: T. Ahmed / S. Jannat / Md. F. Islam / J. Noor
原文:   [英文]   [中文]  
备注: None
摘要:
农业对全球粮食安全至关重要,但作物易受影响产量和质量的疾病侵害。虽然卷积神经网络(CNN)能够通过叶片图像准确分类植物疾病,但其高计算需求阻碍了在资源受限环境中(如智能手机、边缘设备和实时监测系统)的部署。本研究提出了一种两步模型压缩方法,结合权重剪枝和知识蒸馏,并将DenseNet与卷积层混合。剪枝减少了模型大小和计算负担,而蒸馏通过从较大的教师网络转移知识来提高较小学生模型的性能。混合增强了模型高效捕捉空间特征的能力。这些压缩模型适用于实时应用,通过快速疾病识别和作物管理促进精准农业。结果显示,ResNet50在压缩后表现优异,在PlantVillage和PaddyLeaf数据集上分别实现了99.55%和98.99%的准确率。基于DenseNet的模型经过优化以提高效率,以最少的参数数量记录了99.21%和93.96%的准确率。此外,混合模型实现了98.87%和97.10%的准确率,支持能效设备的实际部署,以便及时进行疾病干预和可持续农业实践。

[46] ArtiScene:通过图像中介进行语言驱动的艺术3D场景生成
标题: ArtiScene: Language-Driven Artistic 3D Scene Generation Through Image Intermediary
作者: Zeqi Gu / Yin Cui / Zhaoshuo Li / Fangyin Wei / Yunhao Ge / Jinwei Gu / Ming-Yu Liu / Abe Davis / Yifan Ding
原文:   [英文]   [中文]  
备注: Accepted by CVPR
摘要:
设计3D场景传统上是一项具有挑战性的任务,需要艺术专业知识和复杂软件的熟练使用。最近的文本到3D生成技术的进步极大地简化了这一过程,使用户能够根据简单的文本描述创建场景。然而,由于这些方法通常需要额外的训练或上下文学习,其性能往往受到高质量3D数据有限可用性的限制。相比之下,从网络规模图像中学习的现代文本到图像模型可以生成具有多样化、可靠空间布局和一致、视觉上吸引人的风格的场景。我们的关键见解是,与其直接从3D场景中学习,我们可以利用生成的2D图像作为指导3D合成的中介。鉴于此,我们介绍了ArtiScene,一种无需训练的自动化场景设计流程,将自由形式的文本到图像生成的灵活性与2D中介布局的多样性和可靠性相结合。首先,我们从场景描述中生成2D图像,然后提取对象的形状和外观以创建3D模型。这些模型通过从同一中介图像中获得的几何、位置和姿态信息组装成最终场景。ArtiScene能够广泛适用于各种场景和风格,在布局和美学质量方面通过定量指标大幅超越最先进的基准。在广泛的用户研究中,它平均获得74.89%的胜率,在GPT-4o评估中达到95.07%。项目页面:这个https URL

[47] EcoLens:利用多目标贝叶斯优化实现边缘设备上的节能视频处理
标题: EcoLens: Leveraging Multi-Objective Bayesian Optimization for Energy-Efficient Video Processing on Edge Devices
作者: Benjamin Civjan / Bo Chen / Ruixiao Zhang / Klara Nahrstedt
原文:   [英文]   [中文]  
备注: None
摘要:
在资源受限的环境中进行实时视频分析时,如何平衡能耗和视频语义是一个重大挑战。本文通过提出一个系统来解决能效视频处理的问题,该系统能够动态优化处理配置,以在边缘设备上最小化能耗,同时保留深度学习推理所需的基本视频特征。我们首先收集了各种配置的广泛离线分析数据,这些配置包括设备的CPU频率、帧过滤特征、差异阈值和视频比特率,以建立它们对能耗和推理准确性影响的先验知识。利用这些见解,我们引入了一个在线系统,该系统采用多目标贝叶斯优化来智能地实时探索和调整配置。我们的方法不断优化处理设置,以在满足目标推理准确性的同时,将边缘设备的能耗降至最低。实验结果表明,该系统在减少视频处理能耗的同时保持了高水平的分析性能,为智能设备和边缘计算应用提供了一个实用的解决方案。

[48] 深度感知评分与层次对齐用于多目标跟踪
标题: Depth-Aware Scoring and Hierarchical Alignment for Multiple Object Tracking
作者: Milad Khanchi / Maria Amer / Charalambos Poullis
原文:   [英文]   [中文]  
备注: ICIP 2025
摘要:
当前基于运动的多目标跟踪(MOT)方法在对象关联上严重依赖于交并比(IoU)。在不使用3D特征的情况下,它们在遮挡或视觉上相似的对象场景中效果不佳。为了解决这个问题,我们的论文提出了一种新颖的深度感知MOT框架。我们使用零样本方法估计深度,并将其作为关联过程中的独立特征。此外,我们引入了一种分层对齐评分,通过整合粗略的边界框重叠和细粒度(像素级)对齐来改进IoU,从而提高关联准确性,而无需额外的可学习参数。据我们所知,这是第一个在关联步骤中将3D特征(单目深度)作为独立决策矩阵的MOT框架。我们的框架在具有挑战性的基准测试中实现了最先进的结果,无需任何训练或微调。代码可在此https URL获取。

[49] 通过图像合成与分类辅助医学诊断
标题: Aiding Medical Diagnosis through Image Synthesis and Classification
作者: Kanishk Choudhary
原文:   [英文]   [中文]  
备注: 8 pages, 6 figures. Under review
摘要:
医学专业人员,尤其是那些正在接受培训的人员,通常依赖视觉参考材料来支持准确的诊断并发展模式识别技能。然而,现有资源可能缺乏广度和有效临床学习所需的多样性和可及性。本文提出了一种系统,该系统旨在从文本描述生成逼真的医学图像,并通过分类模型验证其准确性。一个预训练的稳定扩散模型使用低秩适应(LoRA)在PathMNIST数据集上进行了微调,该数据集由九种结直肠组织病理学组织类型组成。生成模型在多次训练中使用不同的训练参数配置进行训练,并通过特定领域的提示来捕捉有意义的特征。为了确保质量控制,使用相同的数据集训练了一个ResNet-18分类模型,在检测结直肠组织病理学医学图像的正确标签时达到了99.76%的准确率。然后,使用训练好的分类器和迭代过程对生成的图像进行过滤,其中不准确的输出被丢弃并重新生成,直到它们被正确分类。实验中表现最好的生成模型版本达到了0.6727的F1分数,精确度和召回率分别为0.6817和0.7111。某些类型的组织,如脂肪组织和淋巴细胞,达到了完美的分类分数,而其他类型由于结构复杂性而更具挑战性。所创建的自我验证方法展示了一种可靠的合成特定领域医学图像的方法,因为在系统的生成和分类部分都具有高准确性,具有在诊断支持和临床教育中的潜在应用。未来的工作包括提高特定提示的准确性并将系统扩展到医学成像的其他领域。

[50] HSCR:用于对齐医学视觉语言模型的分层自对比奖励
标题: HSCR: Hierarchical Self-Contrastive Rewarding for Aligning Medical Vision Language Models
作者: Songtao Jiang / Yan Zhang / Yeying Jin / Zhihang Tang / Yangyang Wu / Yang Feng / Jian Wu / Zuozhu Liu
原文:   [英文]   [中文]  
备注: None
摘要:
医学视觉语言模型(Med-VLMs)在各种任务中取得了成功,但大多数现有方法忽视了可能导致临床环境中不可靠响应的模态失配问题。在本文中,我们提出了分层自对比奖励(HSCR),这是一种新颖的方法,解决了Med-VLM对齐中的两个关键挑战:1)高质量偏好数据的成本效益生成;2)捕捉细微且具有上下文意识的偏好以改善对齐。HSCR首先利用Med-VLMs的内在能力,以更高的采样概率生成不受偏好的响应。通过分析视觉标记丢失后的输出logit变化,我们识别出导致失配的模态耦合标记,并推导出隐式对齐奖励函数。该函数在解码过程中指导标记替换为虚构标记,生成高质量的不受偏好数据。此外,HSCR引入了一种多层次偏好优化策略,该策略超越了传统的相邻层次优化,通过利用不受偏好数据中的相对质量来捕捉细微的对齐线索,实现更精确和具有上下文意识的优化。通过在多个医学任务(包括医学问答、医学图像描述和指令遵循)中的广泛实验表明,HSCR不仅增强了零样本性能,还仅通过2,000个训练条目显著改善了模态对齐和可信度。

[51] TIME:用于稳健表格-图像学习的TabPFN集成多模态引擎
标题: TIME: TabPFN-Integrated Multimodal Engine for Robust Tabular-Image Learning
作者: Jiaqi Luo / Yuan Yuan / Shixin Xu
原文:   [英文]   [中文]  
备注: None
摘要:
表格-图像多模态学习结合了结构化表格数据和图像数据,在各种任务中,尤其是在医学应用中具有巨大潜力。然而,仍然存在两个关键挑战:(1)缺乏标准化的、预训练的表格数据表示,这在视觉和语言领域是常见的;(2)难以处理表格模态中的缺失值,这在现实世界的医学数据集中很常见。为了解决这些问题,我们提出了TabPFN-集成多模态引擎(TIME),这是一种新颖的多模态框架,基于最近引入的表格基础模型TabPFN构建。TIME利用TabPFN作为冻结的表格编码器来生成对缺失数据自然具有弹性的强健嵌入,并将其与预训练视觉骨干网的图像特征结合。我们探索了一系列融合策略和表格编码器,并在自然和医学数据集上评估了我们的方法。大量实验表明,TIME在完整和不完整的表格输入上始终优于竞争基线,强调了其在现实世界多模态学习场景中的实际价值。

[52] L3A:用于多标签类增量学习的标签增强分析适应
标题: L3A: Label-Augmented Analytic Adaptation for Multi-Label Class Incremental Learning
作者: Xiang Zhang / Run He / Jiao Chen / Di Fang / Ming Li / Ziqian Zeng / Cen Chen / Huiping Zhuang
原文:   [英文]   [中文]  
备注: Accepted by ICML2025
摘要:
类别增量学习(CIL)使模型能够在不断学习新类别的同时不遗忘先前获得的知识。多标签类别增量学习(MLCIL)将CIL扩展到一个现实世界的场景,其中每个样本可能属于多个类别,这引入了几个挑战:标签缺失,导致由于缺失标签而造成的历史信息不完整,以及类别不平衡,导致模型偏向多数类别。为了解决这些挑战,我们提出了标签增强分析适应(L3A),这是一种不存储过去样本的无样本方法。L3A集成了两个关键模块。伪标签(PL)模块通过为当前阶段样本生成伪标签来实现标签增强,从而解决标签缺失问题。加权分析分类器(WAC)为神经网络推导出一个闭式解。它引入了样本特定的权重,以自适应地平衡类别贡献并缓解类别不平衡。在MS-COCO和PASCAL VOC数据集上的实验表明,L3A在MLCIL任务中优于现有方法。我们的代码可在此URL获取。

[53] QuantFace:用于一步扩散人脸修复的低位后训练量化
标题: QuantFace: Low-Bit Post-Training Quantization for One-Step Diffusion Face Restoration
作者: Jiatong Li / Libo Zhu / Haotong Qin / Jingkai Wang / Linghe Kong / Guihai Chen / Yulun Zhang / Xiaokang Yang
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型在面部修复方面取得了显著的性能。然而,扩散模型的高计算量使得在智能手机等设备上部署它们变得困难。在这项工作中,我们提出了QuantFace,这是一种用于一步扩散面部修复模型的新型低位量化方法,其中全精度(即32位)的权重和激活被量化为4到6位。我们首先分析了激活中的数据分布,发现它们变化很大。为了保留原始数据信息,我们采用了旋转-缩放通道平衡。此外,我们提出了量化-蒸馏低秩适应(QD-LoRA),它联合优化量化和蒸馏性能。最后,我们提出了一种自适应位宽分配策略。我们将这种策略表述为一个整数规划问题,结合量化误差和感知指标来找到令人满意的资源分配。在合成和真实世界数据集上的大量实验表明,QuantFace在6位和4位下的有效性。QuantFace在面部修复方面相较于最近领先的低位量化方法取得了显著优势。代码可在此https URL获取。

[54] 通过灵巧聚焦提升自我视频中的关键步骤识别
标题: Improving Keystep Recognition in Ego-Video via Dexterous Focus
作者: Zachary Chavis / Stephen J. Guy / Hyun Soo Park
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们探讨了从自我中心视角理解人类活动的挑战。由于在许多活动中头部的高度动态特性,传统的活动识别技术在自我中心视频中面临独特的挑战。我们提出了一个框架,旨在通过将自我视频输入限制为稳定的、以手为中心的视频来解决这些挑战,而不依赖于网络架构。我们证明,仅仅通过这种简单的视频转换,就可以在Ego-Exo4D细粒度关键步骤识别基准上超越现有的自我中心视频基线,而无需对底层模型基础设施进行任何更改。

[55] SkyReels-Audio:全方位音频条件下的视频扩散变换器中的会说话肖像
标题: SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers
作者: Zhengcong Fei / Hao Jiang / Di Qiu / Baoxuan Gu / Youqiang Zhang / Jiahua Wang / Jialin Bai / Debang Li / Mingyuan Fan / Guibin Chen / Yahui Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
音频条件下的多模态输入(包括文本、图像和视频)指导的会说话的肖像生成和编辑仍然是一个未被充分探索的领域。在本文中,我们提出了SkyReels-Audio,一个用于合成高保真和时间一致的会说话的肖像视频的统一框架。该框架基于预训练的视频扩散变换器,支持无限长度的生成和编辑,同时通过多模态输入实现多样化和可控的条件。我们采用混合课程学习策略逐步对齐音频与面部动作,从而实现对长视频序列的细粒度多模态控制。为了增强局部面部一致性,我们引入了面部掩码损失和音频引导的无分类器指导机制。滑动窗口去噪方法进一步融合跨时间段的潜在表示,确保在延长的持续时间和多样化的身份下的视觉保真度和时间一致性。更重要的是,我们构建了一个专门的数据管道,用于策划由同步音频、视频和文本描述组成的高质量三元组。全面的基准评估表明,SkyReels-Audio在唇同步准确性、身份一致性和真实面部动态方面表现优越,特别是在复杂和具有挑战性的条件下。

[56] 通过利用计算机视觉从自动化光束线推进到自主光束线
标题: Advancing from Automated to Autonomous Beamline by Leveraging Computer Vision
作者: Baolu Li / Hongkai Yu / Huiming Sun / Jin Ma / Yuewei Lin / Lu Ma / Yonghua Du
原文:   [英文]   [中文]  
备注: None
摘要:
同步辐射光源作为一个尖端的大型用户设施,需要实现自主的同步辐射光束线操作,这是一项关键技术,应该能够在最少人工干预的情况下自动、可靠和安全地进行实验。然而,目前最先进的同步辐射光束线仍然严重依赖于人工安全监督。为了弥合自动化和自主操作之间的差距,提出了一种基于计算机视觉的系统,集成了深度学习和多视角摄像头,用于实时碰撞检测。该系统利用设备分割、跟踪和几何分析来评估潜在的碰撞,并通过迁移学习增强了鲁棒性。此外,还开发了一个交互式标注模块,以提高对新对象类别的适应性。在真实光束线数据集上的实验表明,该系统具有高精度、实时性能和实现自主同步辐射光束线操作的强大潜力。

[57] 面向在上下文中预测任何人类轨迹
标题: Towards Predicting Any Human Trajectory In Context
作者: Ryo Fujii / Hideo Saito / Ryo Hachiuma
原文:   [英文]   [中文]  
备注: None
摘要:
预测行人的未来轨迹对于自主系统至关重要,但由于需要在不同环境和领域中具备适应性,这仍然是一项具有挑战性的任务。常见的方法包括收集特定场景的数据并通过反向传播进行微调。然而,由于计算资源的限制,这一过程在边缘设备上通常不切实际。为了解决这一挑战,我们引入了TrajICL,一种用于行人轨迹预测的上下文学习(ICL)框架,能够在无需对特定场景数据进行微调的情况下实现快速适应。我们提出了一种基于时空相似性的示例选择(STES)方法,通过识别对应位置的相似运动模式,从同一场景中先前观察到的轨迹中选择相关示例。为了进一步优化这一选择,我们引入了预测引导的示例选择(PG-ES),该方法不仅基于过去的轨迹,还基于预测的未来轨迹来选择示例,而不是仅依赖过去的轨迹。此方法使模型在选择示例时能够考虑长期动态。最后,我们不是依赖于场景多样性有限的小型真实世界数据集,而是通过利用上下文示例在大规模合成数据集上训练我们的模型,以增强其预测能力。大量实验表明,TrajICL在域内和跨域场景中均实现了显著的适应性,甚至在多个公共基准上超越了微调方法。代码将在此https URL上发布。

[58] 打破检测器中潜在的先验偏差以实现可泛化的AIGC图像检测
标题: Breaking Latent Prior Bias in Detectors for Generalizable AIGC Image Detection
作者: Yue Zhou / Xinan He / KaiQing Lin / Bin Fan / Feng Ding / Bin Li
原文:   [英文]   [中文]  
备注: None
摘要:
当前的AIGC检测器在识别由用于训练的同一生成器生成的图像时通常能达到近乎完美的准确性,但在泛化到未见过的生成器的输出时却表现不佳。我们将这种失败部分归因于潜在的先验偏差:检测器学习了与初始噪声向量相关的模式捷径,而不是学习稳健的生成伪影。为了解决这个问题,我们提出了流形上的对抗训练(OMAT):通过在固定条件下优化扩散模型的初始潜在噪声,我们生成了流形上的对抗样本,这些样本仍然位于生成器的输出流形上——与像素空间攻击不同,后者引入了生成器本身无法再现的流形外扰动,并可能掩盖真实的判别伪影。为了测试最先进的生成模型,我们引入了GenImage++,这是一个仅用于测试的基准,包含来自高级生成器(Flux.1, SD3)的输出,具有扩展的提示和多样的风格。我们将我们的对抗训练范式应用于ResNet50和CLIP基线,并在现有的AIGC取证基准和最近的挑战数据集上进行评估。大量实验表明,对抗训练的检测器在不进行任何网络重新设计的情况下显著提高了跨生成器的性能。我们关于潜在先验偏差的发现为未来的数据集构建和检测器评估提供了宝贵的见解,指导了更稳健和更具泛化性的AIGC取证方法的发展。

[59] 不均匀事件建模用于部分相关视频检索
标题: Uneven Event Modeling for Partially Relevant Video Retrieval
作者: Sa Zhu / Huashan Chen / Wanqian Zhang / Jinchao Zhang / Zexian Yang / Xiaoshuai Hao / Bo Li
原文:   [英文]   [中文]  
备注: Accepted by ICME 2025
摘要:
给定一个文本查询,部分相关视频检索(PRVR)旨在检索包含相关时刻的未剪辑视频,其中事件建模对于将视频划分为与文本部分对应的较小时间事件至关重要。以往的方法通常将视频分割为固定数量的等长片段,导致事件边界模糊。此外,它们依赖于均值池化来计算事件表示,不可避免地引入了不必要的错位。为了解决这些问题,我们提出了一种用于PRVR的不均匀事件建模(UEM)框架。我们首先引入了渐进分组视频分割(PGVS)模块,以迭代地根据连续帧之间的时间依赖性和语义相似性来构建事件,从而实现清晰的事件边界。此外,我们还提出了上下文感知事件优化(CAER)模块,以在文本的交叉注意力条件下优化事件表示。这使得事件表示能够专注于给定文本的最相关帧,从而促进更精确的文本-视频对齐。大量实验表明,我们的方法在两个PRVR基准上达到了最先进的性能。

[60] 利用CLIP编码器进行多模态情感识别
标题: Leveraging CLIP Encoder for Multimodal Emotion Recognition
作者: Yehun Song / Sunyoung Cho
原文:   [英文]   [中文]  
备注: Accepted at IEEE/CVF WACV 2025, pp.6115-6124, 2025
摘要:
多模态情感识别(MER)旨在通过结合语言、音频和视觉等多种模态的数据来识别人的情感。尽管MER方法最近取得了进展,但获取大量数据集的限制阻碍了性能的提升。为了解决这个问题,我们利用基于对比语言-图像预训练(CLIP)的架构及其来自海量数据集的语义知识,以增强辨别性多模态表示。我们提出了一种基于CLIP的标签编码器引导的MER框架(MER-CLIP),以学习跨模态的情感相关表示。我们的方法引入了一个标签编码器,将标签视为文本嵌入,以整合其语义信息,从而学习更具代表性的情感特征。为了进一步利用标签语义,我们设计了一个跨模态解码器,通过基于标签编码器的情感相关输入顺序融合模态特征,将每个模态对齐到共享嵌入空间。最后,标签编码器引导的预测通过嵌入其语义信息以及词标签实现对不同标签的泛化。实验结果表明,我们的方法在基准数据集CMU-MOSI和CMU-MOSEI上优于最先进的MER方法。

[61] 使用监控摄像头在施工机械中进行基于边缘的空闲状态检测
标题: Towards Edge-Based Idle State Detection in Construction Machinery Using Surveillance Cameras
作者: Xander Küpers / Jeroen Klein Brinke / Rob Bemthuis / Ozlem Durmaz Incel
原文:   [英文]   [中文]  
备注: 18 pages, 6 figures, 3 tables; to appear in Intelligent Systems and Applications, Lecture Notes in Networks and Systems (LNNS), Springer, 2025. Part of the 11th Intelligent Systems Conference (IntelliSys 2025), 28-29 August 2025, Amsterdam, The Netherlands
摘要:
建筑行业在优化设备利用率方面面临重大挑战,因为未充分使用的机械会导致运营成本增加和项目延误。因此,准确及时地监控设备活动是识别闲置期和提高整体效率的关键。本文提出了用于检测闲置施工机械的Edge-IMI框架,该框架专为与监控摄像系统集成而设计。所提出的解决方案由三个组件组成:目标检测、跟踪和闲置状态识别,这些组件专为在资源受限的、基于CPU的边缘计算设备上执行而量身定制。Edge-IMI的性能通过从ACID和MOCS基准测试中提取的组合数据集进行评估。实验结果证实,目标检测器实现了71.75%的F1分数,表明其具有强大的实际检测能力。基于逻辑回归的闲置识别模块能够可靠地区分活跃和闲置的机械,误报率极低。通过集成所有三个模块,Edge-IMI实现了高效的现场推断,减少了对高带宽云服务和昂贵硬件加速器的依赖。我们还评估了在Raspberry Pi 5和Intel NUC平台上目标检测模型的性能,作为边缘计算平台的示例。我们评估了实时处理的可行性以及模型优化技术的影响。

[62] DS-VTON:通过解缠双尺度生成实现高质量虚拟试穿
标题: DS-VTON: High-Quality Virtual Try-on via Disentangled Dual-Scale Generation
作者: Xianbing Sun / Yan Hong / Jiahui Zhan / Jun Lan / Huijia Zhu / Weiqiang Wang / Liqing Zhang / Jianfu Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
尽管最近取得了一些进展,但大多数现有的虚拟试穿方法在同时解决两个核心挑战时仍然面临困难:即准确地将服装图像与目标人体对齐,以及保留细致的服装纹理和图案。在本文中,我们提出了DS-VTON,这是一种双尺度虚拟试穿框架,明确地将这些目标分离以实现更有效的建模。DS-VTON包括两个阶段:第一阶段生成低分辨率的试穿结果,以捕捉服装与人体之间的语义对应关系,其中减少的细节有助于稳健的结构对齐。第二阶段引入了一种残差引导的扩散过程,通过细化两个尺度之间的残差来重建高分辨率输出,重点关注纹理的保真度。此外,我们的方法采用了一种完全无掩码的生成范式,消除了对人体解析图或分割掩码的依赖。通过利用预训练扩散模型中嵌入的语义先验,这种设计更有效地保留了人物的外观和几何一致性。大量实验表明,DS-VTON在多个标准虚拟试穿基准上,在结构对齐和纹理保留方面均达到了最先进的性能。

[63] 基于3D骨架的动作识别:综述
标题: 3D Skeleton-Based Action Recognition: A Review
作者: Mengyuan Liu / Hong Liu / Qianshuo Hu / Bin Ren / Junsong Yuan / Jiaying Lin / Jiajun Wen
原文:   [英文]   [中文]  
备注: None
摘要:
由于骨架表示的固有优势,基于3D骨架的动作识别已成为计算机视觉领域的一个重要课题。然而,以往的综述主要采用模型导向的视角,往往忽视了骨架动作识别中涉及的基本步骤。这种忽视倾向于忽略骨架动作识别中除模型设计之外的关键组成部分,阻碍了对该任务更深入、更本质的理解。为了弥补这一差距,我们的综述旨在通过提出一个全面的、任务导向的框架来理解骨架动作识别,从而解决这些局限性。我们首先将任务分解为一系列子任务,特别强调预处理步骤,如模态推导和数据增强。随后的讨论深入探讨了关键子任务,包括特征提取和时空建模技术。除了基础的动作识别网络外,最近的先进框架,如混合架构、Mamba模型、大型语言模型(LLMs)和生成模型也得到了强调。最后,本文对公共3D骨架数据集进行了全面概述,并分析了在这些基准上评估的最新算法。通过整合任务导向的讨论、对子任务的全面审查以及对最新进展的强调,我们的综述为理解和推进3D骨架动作识别领域提供了一个基础且易于理解的结构化路线图。

[64] 视频语言模型中的深度时间推理:通过完成时对动作持续时间和完成度的跨语言评估
标题: Deep Temporal Reasoning in Video Language Models: A Cross-Linguistic Evaluation of Action Duration and Completion through Perfect Times
作者: Olga Loginova / Sofía Ortega Loguinova
原文:   [英文]   [中文]  
备注: None
摘要:
人类对事件的感知本质上与区分已完成(完成体和终结性)和正在进行(持续性)的动作密切相关,这一过程由语言结构和视觉线索共同调节。在这项工作中,我们引入了\textbf{Perfect Times}数据集,这是一个新颖的、四种语言(英语、意大利语、俄语和日语)的多项选择问答基准,旨在评估视频语言模型(VLMs)的时间推理能力。通过将日常活动视频与事件完成标签和专为完成体设计的干扰项配对,我们的数据集探究模型是否真正理解时间动态,还是仅仅依赖于表面的标记。实验结果表明,尽管当前最先进的模型在基于文本的任务中取得了成功,但在视频中反映类似人类的时间和因果推理方面仍然存在困难。这项研究强调了整合深层多模态线索以捕捉动作持续时间和完成度在时间和因果视频动态中的细微差别的必要性,为评估和推进VLMs中的时间推理设定了新的标准。

[65] 通过自动解码器和神经常微分方程进行主动脉解剖结构的可变形配准和生成建模
标题: Deformable registration and generative modelling of aortic anatomies by auto-decoders and neural ODEs
作者: Riccardo Tenderini / Luca Pegolotti / Fanwei Kong / Stefano Pagani / Francesco Regazzoni / Alison L. Marsden / Simone Deparis
原文:   [英文]   [中文]  
备注: 29 pages, 7 figures, 6 tables, 2 algorithms. Submitted to "npj Biological Physics and Mechanics". Dataset publicly available at this https URL
摘要:
本文介绍了 AD-SVFD,这是一种用于将血管形状变形配准到预定义参考形状并生成合成解剖结构的深度学习模型。AD-SVFD 通过将每个几何体表示为加权点云来操作,并将环境空间变形建模为常微分方程(ODEs)在单位时间的解,其时间不变的右侧通过人工神经网络表达。模型参数通过最小化变形点云和参考点云之间的 Chamfer 距离进行优化,而 ODE 的反向积分定义了逆变换。AD-SVFD 的一个显著特点是其自动解码器结构,使其能够在形状群体中实现泛化,并有利于高效的权重共享。特别地,每个解剖结构都与一个低维代码相关联,该代码充当自我调节场,并在训练期间与网络参数一起优化。在推理时,仅对潜在代码进行微调,从而大大减少了计算开销。此外,使用隐式形状表示使生成应用成为可能:可以通过适当地从潜在空间采样并将相应的逆变换应用于参考几何体来合成新的解剖结构。在健康主动脉解剖结构上进行的数值实验展示了 AD-SVFD 的高质量结果,其在具有竞争力的计算成本下提供了极其精确的近似。

[66] TIGeR:用于无模板手-物体交互的文本指导生成与优化
标题: TIGeR: Text-Instructed Generation and Refinement for Template-Free Hand-Object Interaction
作者: Yiyao Huang / Zhedong Zheng / Yu Ziwei / Yaxiong Wang / Tze Ho Elden Tse / Angela Yao
原文:   [英文]   [中文]  
备注: None
摘要:
预定义的三维对象模板在手-物交互的三维重建中被广泛使用。然而,它们通常需要大量的人工努力来捕捉或获取,并且固有地限制了模型在不受约束的交互场景中的适应性,例如严重遮挡的对象。为了克服这一瓶颈,我们提出了一种新的文本指导生成和优化(TIGeR)框架,利用直观的文本驱动先验来引导对象形状优化和姿态估计。我们使用一个两阶段框架:文本指导的先验生成和视觉引导的优化。顾名思义,我们首先利用现成的模型根据文本描述生成形状先验,而无需繁琐的三维制作。考虑到合成原型与手交互的真实对象之间的几何差距,我们进一步通过二维-三维协作注意力校准合成原型。TIGeR在广泛使用的Dex-YCB和Obman数据集上实现了竞争性表现,即1.979和5.468的对象Chamfer距离,超越了现有的无模板方法。值得注意的是,所提出的框架在遮挡情况下表现出鲁棒性,同时在实际部署场景中保持与异构先验源的兼容性,例如检索到的手工制作原型。

[67] Continual-MEGA:一个用于通用化持续异常检测的大规模基准
标题: Continual-MEGA: A Large-scale Benchmark for Generalizable Continual Anomaly Detection
作者: Geonu Lee / Yujeong Oh / Geonhui Jang / Soyoung Lee / Jeonghyo Song / Sungmin Cha / YoungJoon Yoo
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们引入了一个用于异常检测的持续学习新基准,旨在更好地反映现实世界的部署场景。我们的基准,Continual-MEGA,包括一个大型且多样化的数据集,通过结合精心策划的现有数据集和我们新提出的数据集ContinualAD,显著扩展了现有的评估设置。除了标准的持续学习和扩展数量外,我们还提出了一种新颖的场景,用于衡量对未见类别的零样本泛化,这些类别在持续适应过程中未被观察到。此设置提出了一个新的问题,即持续适应也增强了零样本性能。我们还提出了一个统一的基线算法,该算法提高了少样本检测的鲁棒性并保持了强大的泛化能力。通过广泛的评估,我们报告了三个关键发现:(1)现有方法在改进空间上仍有很大余地,特别是在像素级缺陷定位方面;(2)我们提出的方法始终优于先前的方法;(3)新引入的ContinualAD数据集提高了强大异常检测模型的性能。我们在此https URL中发布了基准和代码。

[68] 相机轨迹生成:方法、指标和未来方向的综合综述
标题: Camera Trajectory Generation: A Comprehensive Survey of Methods, Metrics, and Future Directions
作者: Zahra Dehghanian / Pouya Ardekhani / Amir Vahedi / Hamid Beigy / Hamid R. Rabiee
原文:   [英文]   [中文]  
备注: None
摘要:
相机轨迹生成是计算机图形学、机器人技术、虚拟现实和电影摄影中的基石,能够实现无缝且自适应的相机运动,从而增强视觉叙事和沉浸式体验。尽管其重要性日益增加,该领域仍缺乏一个系统且统一的综述来整合该领域的基本知识和进展。本文通过提供该领域的首次全面回顾来填补这一空白,涵盖从基础定义到高级方法论。我们介绍了不同的相机表示方法,并对现有的相机轨迹生成模型进行了深入的回顾,从基于规则的方法开始,逐步到基于优化的技术、机器学习的进步以及整合多种策略的混合方法。此外,我们收集并分析了常用于评估相机轨迹系统的指标和数据集,提供了关于这些工具如何衡量性能、美学质量和实际适用性的见解。最后,我们强调了现有的局限性、当前研究中的关键空白以及该领域中值得投资和创新的有前景的机会。本文不仅为进入该领域的研究人员提供了基础资源,还为在各种应用中推进自适应、高效和创造性的相机轨迹系统铺平了道路。

[69] CAPAA:基于投影器的分类器无关对抗攻击
标题: CAPAA: Classifier-Agnostic Projector-Based Adversarial Attack
作者: Zhan Li / Mingyu Zhao / Xin Dong / Haibin Ling / Bingyao Huang
原文:   [英文]   [中文]  
备注: None
摘要:
基于投影仪的对抗攻击旨在将精心设计的光模式(即对抗性投影)投射到场景中,以欺骗深度图像分类器。它在隐私保护和开发更健壮的分类器方面具有潜在应用。然而,现有方法主要关注单个分类器和固定的相机姿态,往往忽视了多分类器系统和相机姿态变化场景的复杂性。这一限制降低了在引入新分类器或相机姿态时的有效性。在本文中,我们引入了分类器无关的基于投影仪的对抗攻击(CAPAA)来解决这些问题。首先,我们开发了一种新颖的分类器无关的对抗性损失和优化框架,该框架聚合了来自多个分类器的对抗性和隐蔽性损失梯度。然后,我们提出了一种基于注意力的梯度加权机制,将扰动集中在高分类激活区域,从而提高对抗性投影在应用于相机姿态变化场景时的鲁棒性。我们广泛的实验评估表明,与现有基线相比,CAPAA在攻击成功率和隐蔽性方面均取得了更高的表现。代码可在此网址获取:this https URL。

[70] IVY-FAKE:用于图像和视频AIGC检测的统一可解释框架和基准
标题: IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
作者: Wayne Zhang / Changjiang Jiang / Zhonghao Zhang / Chenyang Si / Fengchang Yu / Wei Peng
原文:   [英文]   [中文]  
备注: 20pages,13figures,7 tables
摘要:
人工智能生成内容(AIGC)在视觉领域的快速发展,得益于诸如基于扩散的架构等复杂生成框架,已经产生了高度逼真的合成图像和视频。虽然这些突破带来了巨大的机遇,但同时也引发了关于内容真实性和完整性的重大担忧。许多现有的AIGC检测方法作为黑箱二元分类器运行,解释性有限,并且没有一种方法支持在统一框架中同时检测图像和视频。这种双重限制削弱了模型的透明性,降低了可信度,并阻碍了实际部署。为了解决这些挑战,我们引入了IVY-FAKE,这是一个新颖的、统一的、大规模的数据集,专为可解释的多模态AIGC检测而设计。与之前的基准测试不同,IVY-FAKE克服了模态覆盖的碎片化和注释稀疏的问题,包含超过150,000个丰富注释的训练样本(图像和视频)和18,700个评估示例,每个示例都附有详细的自然语言推理,而不仅仅是简单的二元标签。在此基础上,我们提出了常春藤可解释检测器(IVY-XDETECTOR),这是一种统一的AIGC检测和可解释架构,可以对图像和视频内容进行可解释的检测。我们的统一视觉-语言模型在多个图像和视频检测基准测试中实现了最先进的性能,突显了我们的数据集和建模框架所带来的显著进步。我们的数据可以在此https URL公开获取。

[71] GOBench:用于评估多模态大模型几何光学生成和理解的基准
标题: GOBench: Benchmarking Geometric Optics Generation and Understanding of MLLMs
作者: Xiaorong Zhu / Ziheng Jia / Jiarui Wang / Xiangyu Zhao / Haodong Duan / Xiongkuo Min / Jia Wang / Zicheng Zhang / Guangtao Zhai
原文:   [英文]   [中文]  
备注: 8 pages, 5 figures
摘要:
多模态大型语言模型(MLLMs)的快速发展正在推动视觉理解和生成方面的显著进步。然而,关于其在细粒度物理原理,特别是几何光学方面的能力的全面评估仍未得到充分探索。为了解决这一空白,我们引入了GOBench,这是第一个系统评估MLLMs能力的基准,涵盖两个任务:1)生成光学真实图像和2)理解潜在的光学现象。我们精心设计了几何光学场景的高质量提示,并使用MLLMs构建了GOBench-Gen-1k,然后组织主观实验,根据光学真实性、美学质量和指令忠实度评估生成的图像,揭示了MLLMs在生成中违反光学原理的缺陷。对于理解任务,我们应用精心设计的评估指令来测试十一种知名MLLMs的光学理解能力。实验结果表明,当前模型在光学生成和理解方面面临显著挑战。表现最好的生成模型GPT-4o-Image无法完美完成所有生成任务,而表现最佳的MLLM模型Gemini-2.5Pro在光学理解中仅达到37.35%的准确率。

[72] 商网络 - 一种类似于ResNet但学习商数的网络
标题: Quotient Network - A Network Similar to ResNet but Learning Quotients
作者: Peng Hui / Jiamuyang Zhao / Changxin Li / Qingzhen Zhu
原文:   [英文]   [中文]  
备注: This manuscript is the original version submitted to NeurIPS 2024, which was later revised and published as "Quotient Network: A Network Similar to ResNet but Learning Quotients" in Algorithms 2024, 17(11), 521 (this https URL). Please cite the journal version when referring to this work
摘要:
ResNet的出现为训练极深的网络提供了一个强大的工具。其核心思想是改变网络的学习目标。网络不再从零开始学习新特征,而是学习目标特征与现有特征之间的差异。然而,这两种特征之间的差异没有独立和明确的意义,学习的量是基于绝对差异而不是相对差异,这对现有特征的大小非常敏感。我们提出了一种新的网络,完美解决了这两个问题,同时仍然具有ResNet的优势。具体来说,它选择学习目标特征与现有特征的商,因此我们称之为商网络。为了使这个网络能够成功学习并实现更高的性能,我们为这个网络提出了一些设计规则,使其能够高效训练并实现比ResNet更好的性能。在CIFAR10、CIFAR100和SVHN数据集上的实验证明,通过对原始ResNet网络进行微小的相应修改而不增加新参数,这个网络可以稳定地实现比ResNet显著的改进。

[73] FlexSelect:灵活的令牌选择以高效理解长视频
标题: FlexSelect: Flexible Token Selection for Efficient Long Video Understanding
作者: Yunzhu Zhang / Yu Lu / Tianyi Wang / Fengyun Rao / Yi Yang / Linchao Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
长视频理解对于视频大语言模型(VideoLLMs)来说是一个显著的挑战,因为其计算和内存需求极高。在本文中,我们提出了FlexSelect,这是一种用于处理长视频的灵活且高效的标记选择策略。FlexSelect通过利用参考变换器层的跨模态注意模式来识别和保留最具语义相关性的内容。它包含两个关键组件:(1)一个无需训练的标记排序流程,利用真实的跨模态注意权重来估计每个视频标记的重要性;(2)一个排序监督的轻量级选择器,经过训练以复制这些排序并过滤冗余标记。这种通用方法可以无缝集成到各种VideoLLM架构中,如LLaVA-Video、InternVL和Qwen-VL,作为一个即插即用的模块来扩展其时间上下文长度。实验证明,FlexSelect在多个长视频基准测试中提供了强劲的提升,包括VideoMME、MLVU、LongVB和LVBench。此外,它实现了显著的加速(例如,在LLaVA-Video-7B模型上可达9倍),突显了FlexSelect在高效长视频理解中的潜力。项目页面可在此URL访问。

[74] 用于视频扩散模型多功能控制的时序上下文微调
标题: Temporal In-Context Fine-Tuning for Versatile Control of Video Diffusion Models
作者: Kinam Kim / Junha Hyung / Jaegul Choo
原文:   [英文]   [中文]  
备注: project page: this https URL
摘要:
最近在文本到视频扩散模型方面的进展使得高质量的视频合成成为可能,但可控生成仍然具有挑战性,特别是在数据和计算资源有限的情况下。现有的条件生成微调方法通常依赖于外部编码器或架构修改,这需要大量数据集,并且通常仅限于空间对齐的条件,限制了灵活性和可扩展性。在这项工作中,我们引入了时间上下文微调(TIC-FT),这是一种高效且多功能的方法,用于将预训练的视频扩散模型适应于多样的条件生成任务。我们的关键思路是沿时间轴连接条件帧和目标帧,并插入具有逐渐增加噪声水平的中间缓冲帧。这些缓冲帧能够实现平滑过渡,使微调过程与预训练模型的时间动态相一致。TIC-FT不需要架构更改,并且在仅需10-30个训练样本的情况下即可实现强大的性能。我们在一系列任务中验证了我们的方法,包括图像到视频和视频到视频生成,使用大规模基础模型如CogVideoX-5B和Wan-14B。大量实验表明,TIC-FT在条件保真度和视觉质量方面均优于现有基线,同时在训练和推理中保持高度高效。有关更多结果,请访问此https URL。

[75] 通过学习模式分析的伪标签驱动基准目标检测数据集的改进
标题: Pseudo-Labeling Driven Refinement of Benchmark Object Detection Datasets via Analysis of Learning Patterns
作者: Min Je Kim / Muhammad Munsif / Altaf Hussain / Hikmat Yar / Sung Wook Baik
原文:   [英文]  
备注: None
摘要:
基准目标检测(OD)数据集在推动计算机视觉应用(如自动驾驶和监控)以及训练和评估基于深度学习的最先进检测模型方面发挥着关键作用。其中,MS-COCO因其多样的对象类别和复杂的场景已成为标准基准。然而,尽管被广泛采用,MS-COCO仍存在各种标注问题,包括缺失标签、错误的类别分配、不准确的边界框、重复标签和组标注不一致。这些错误不仅阻碍了模型训练,还降低了OD模型的可靠性和泛化能力。为了解决这些挑战,我们提出了一个全面的改进框架,并推出了MJ-COCO,这是MS-COCO的一个重新标注版本。我们的方法首先通过基于损失和梯度的错误检测来识别可能标注错误或难以学习的样本。接下来,我们应用一个四阶段的伪标签改进过程:(1)使用可逆变换生成边界框,(2)基于IoU的重复移除和置信度合并,(3)通过专家对象识别器进行类别一致性验证,以及(4)基于对象区域激活图分析进行空间调整。这个集成的流程使得无需人工重新标注即可实现大规模且准确的标注错误修正。我们在四个验证数据集上进行了广泛的实验:MS-COCO、Sama COCO、Objects365和PASCAL VOC。基于MJ-COCO训练的模型在平均精度(AP)和APS指标上始终优于基于MS-COCO训练的模型。MJ-COCO在标注覆盖率上也表现出显著提升:例如,与MS-COCO相比,小目标标注的数量增加了超过20万。

[76] 运动感知概念对齐用于一致性视频编辑
标题: Motion-Aware Concept Alignment for Consistent Video Editing
作者: Tong Zhang / Juan C Leon Alcazar / Bernard Ghanem
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了 MoCA-Video(视频中的运动感知概念对齐),这是一种无需训练的框架,弥合了图像域语义混合与视频之间的差距。给定一个生成的视频和用户提供的参考图像,MoCA-Video 将参考图像的语义特征注入视频中的特定对象,同时保留原始的运动和视觉背景。我们的方法利用对角去噪计划和无类别分割来检测和跟踪潜在空间中的对象,并精确控制混合对象的空间位置。为了确保时间上的连贯性,我们结合了基于动量的语义校正和伽马残差噪声稳定,以实现平滑的帧过渡。我们使用标准的 SSIM、图像级 LPIPS、时间 LPIPS 评估 MoCA 的性能,并引入了一种新颖的指标 CASS(概念对齐偏移分数)来评估源提示与修改后视频帧之间视觉变化的一致性和有效性。使用自构建的数据集,MoCA-Video 在没有训练或微调的情况下,优于当前基线,实现了卓越的空间一致性、连贯的运动以及显著更高的 CASS 分数。MoCA-Video 展示了在扩散噪声轨迹中进行结构化操作可以实现可控的高质量视频合成。

[77] AuralSAM2:通过金字塔音频视觉特征提示使SAM2具备听觉能力
标题: AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting
作者: Yuyuan Liu / Yuanhong Chen / Chong Wang / Junlin Han / Junde Wu / Can Peng / Jingkun Chen / Yu Tian / Gustavo Carneiro
原文:   [英文]   [中文]  
备注: 18 pages, 18 Figures and 7 tables
摘要:
Segment Anything Model 2 (SAM2) 在视频片段的可提示分割方面表现出强大的泛化能力;然而,其与音频模态的整合仍未得到充分探索。现有的方法主要遵循两个方向:(1)在图像编码器中注入适配器以接收音频信号,这在提示工程中会带来效率成本;(2)利用额外的基础模型为发声物体生成视觉提示,这些提示通常定位不准确,导致在 SAM2 中产生误导。此外,这些方法忽视了层次化视觉特征与其他模态之间丰富的语义交互,导致次优的跨模态融合。在这项工作中,我们提出了 AuralSAM2,其中包含新颖的 AuralFuser 模块,该模块外部附加到 SAM2 上,以整合来自不同模态的特征并生成特征级提示,指导 SAM2 的解码器分割发声目标。这种整合通过特征金字塔得以实现,进一步完善了语义理解并增强了多模态场景中的物体感知。此外,引入了音频引导的对比学习,以显式对齐音频和视觉表示,并减轻由主导视觉模式引起的偏差。在公共基准上的结果表明,我们的方法在该领域相较于之前的方法取得了显著的改进。代码可在此 https URL 获取。

[78] 使用扩散模型进行磁共振和超声图像的模态转换与配准
标题: Modality Translation and Registration of MR and Ultrasound Images Using Diffusion Models
作者: Xudong Ma / Nantheera Anantrasirichai / Stefanos Bolomytis / Alin Achim
原文:   [英文]   [中文]  
备注: None
摘要:
多模态MR-US配准对于前列腺癌的诊断至关重要。然而,由于显著的模态差异,这项任务仍然具有挑战性。现有的方法往往无法对齐关键边界,同时对无关细节过于敏感。为了解决这个问题,我们提出了一种基于分层特征解耦设计的解剖一致模态翻译(ACMT)网络。我们利用浅层特征来保持纹理一致性,利用深层特征来保持边界完整性。与传统的模态翻译方法将一种模态转换为另一种模态不同,我们的ACMT引入了一个中间伪模态的定制设计。MR和US图像都被翻译到这个中间域,有效解决了传统翻译方法在下游配准任务中面临的瓶颈。实验表明,我们的方法在减少模态特异性差异的同时,保留了关键的解剖边界,以实现精确的配准。定量评估显示,与最先进的模态翻译方法相比,我们的方法在模态相似性上具有优势。此外,下游配准实验证实,我们翻译后的图像实现了最佳的对齐性能,突显了我们框架在多模态前列腺图像配准中的鲁棒性。

[79] NavBench:探测多模态大型语言模型在具身导航中的应用
标题: NavBench: Probing Multimodal Large Language Models for Embodied Navigation
作者: Yanyuan Qiao / Haodong Hong / Wenqi Lyu / Dong An / Siqi Zhang / Yutong Xie / Xinyu Wang / Qi Wu
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大型语言模型(MLLMs)在视觉-语言任务中表现出强大的泛化能力,但其在具身环境中理解和行动的能力仍未得到充分探索。我们提出了NavBench,这是一个在零样本设置下评估MLLMs具身导航能力的基准。NavBench由两个部分组成:(1)导航理解,通过三个认知基础任务进行评估,包括全局指令对齐、时间进度估计和局部观察-行动推理,涵盖3200个问答对;(2)在72个室内场景中分层的432个情节中逐步执行,按空间、认知和执行复杂性进行分层。为了支持实际部署,我们引入了一个将MLLMs输出转换为机器人动作的流程。我们评估了专有和开源模型,发现GPT-4o在各项任务中表现良好,而较轻量的开源模型在较简单的情况下取得成功。结果还显示,理解能力得分较高的模型往往在执行性能上表现更好。提供基于地图的上下文可以提高决策准确性,尤其是在中等难度的场景中。然而,大多数模型在时间理解上存在困难,特别是在导航过程中估计进度,这可能是一个关键挑战。

[80] 具有时空曼巴的自监督控制网络用于真实世界视频超分辨率
标题: Self-supervised ControlNet with Spatio-Temporal Mamba for Real-world Video Super-resolution
作者: Shijun Shi / Jing Xu / Lijing Lu / Zhihang Li / Kai Hu
原文:   [英文]  
备注: 11 pages, 10 figures, accepted by CVPR 2025
摘要:
现有的基于扩散的视频超分辨率(VSR)方法由于其固有的随机性,容易在高分辨率视频中引入复杂的退化和明显的伪影。在本文中,我们通过将自监督学习和Mamba引入预训练的潜在扩散模型,提出了一种抗噪的真实世界VSR框架。为了确保相邻帧之间的内容一致性,我们使用带有3D选择性扫描模块的视频状态空间块,通过全局时空注意机制增强扩散模型,从而在可承受的计算成本下加强连贯性。为了进一步减少生成细节中的伪影,我们引入了一种自监督的ControlNet,它利用高分辨率特征作为指导,并采用对比学习从低分辨率视频中提取对退化不敏感的特征。最后,提出了一种基于高低分辨率视频混合的三阶段训练策略,以稳定VSR训练。所提出的基于时空连续Mamba的自监督ControlNet VSR算法在真实世界VSR基准数据集上实现了优于现有技术的感知质量,验证了所提出的模型设计和训练策略的有效性。

[81] ECP-Mamba: 一种用于极化合成孔径雷达图像分类的高效多尺度自监督对比学习方法,结合状态空间模型
标题: ECP-Mamba: An Efficient Multi-scale Self-supervised Contrastive Learning Method with State Space Model for PolSAR Image Classification
作者: Zuzheng Kuang / Haixia Bi / Chen Xu / Jian Sun
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,极化合成孔径雷达(PolSAR)图像分类在深度神经网络的推动下取得了显著进展。然而,目前基于深度学习的PolSAR分类方法由于依赖大量标记数据以及像Transformer这样的架构计算效率低下而面临困难。本文提出了ECP-Mamba,这是一种高效的框架,将多尺度自监督对比学习与状态空间模型(SSM)主干网络相结合。具体而言,ECP-Mamba通过基于局部到全局特征对应的多尺度预测前置任务解决了标注稀缺问题,该任务使用简化的自蒸馏范式而不需要负样本对。为了提高计算效率,Mamba架构(一种选择性SSM)首次通过设计螺旋扫描策略为逐像素PolSAR分类任务量身定制。该策略优先考虑与中心像素因果相关的特征,利用逐像素分类任务的局部化特性。此外,提出了轻量级的Cross Mamba模块,以最小的开销促进互补的多尺度特征交互。通过四个基准数据集的大量实验表明,ECP-Mamba在高精度与资源效率之间实现了有效平衡。在Flevoland 1989数据集上,ECP-Mamba实现了最先进的性能,总体精度为99.70%,平均精度为99.64%,Kappa系数为99.62e-2。我们的代码将在此https URL上提供。

[82] AceVFI:视频帧插值进展的综合综述
标题: AceVFI: A Comprehensive Survey of Advances in Video Frame Interpolation
作者: Dahyeon Kye / Changhyun Roh / Sukhun Ko / Chanho Eom / Jihyong Oh
原文:   [英文]   [中文]  
备注: Please visit our project page at this https URL
摘要:
视频帧插值(VFI)是一个基础的低级视觉(LLV)任务,旨在合成现有帧之间的中间帧,同时保持空间和时间的一致性。VFI技术已经从经典的运动补偿方法发展到基于深度学习的方法,包括核、流、混合、相位、GAN、Transformer、Mamba,以及最近的扩散模型方法。我们介绍了AceVFI,这是迄今为止关于VFI最全面的综述,涵盖了这些方法的250多篇论文。我们系统地组织和描述了VFI的方法,详细介绍了每种方法的核心原理、设计假设和技术特征。我们将VFI方法的学习范式分类为中心时间帧插值(CTFI)和任意时间帧插值(ATFI)。我们分析了VFI的关键挑战,如大运动、遮挡、光照变化和非线性运动。此外,我们回顾了标准数据集、损失函数、评估指标。我们考察了VFI的应用,包括基于事件的、卡通、医学图像VFI以及与其他LLV任务的联合VFI。我们最后概述了支持该领域持续进展的未来研究方向。该综述旨在为新手和专家提供一个统一的参考,以深入理解现代VFI的全景。

[83] 以火攻火(F3):一种在大视觉语言模型中无需训练且高效的视觉对抗样本净化方法
标题: Fighting Fire with Fire (F3): A Training-free and Efficient Visual Adversarial Example Purification Method in LVLMs
作者: Yudong Zhang / Ruobing Xie / Yiqing Huang / Jiansheng Chen / Xingwu Sun / Zhanhui Kang / Di Wang / Yu Wang
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,大型视觉-语言模型(LVLMs)在各种多模态视觉-语言任务中展示了其卓越的能力。然而,这些模型仍然容易受到视觉对抗攻击的影响,这可能会显著削弱其性能。尽管对抗样本的潜在影响很大,但开发有效的方法来净化这些对抗样本的研究相对较少。在本文中,我们介绍了一种新颖的对抗净化框架F3,该框架采用了一种反直觉的“以毒攻毒”策略:故意对对抗样本引入简单的扰动,以减轻其有害影响。具体而言,F3利用从随机扰动的对抗样本中获得的跨模态注意力作为参考目标。通过向这些对抗样本注入噪声,F3有效地优化了它们的注意力,从而产生更清晰和更可靠的模型输出。值得注意的是,这种看似矛盾的使用噪声来对抗对抗攻击的方法取得了令人印象深刻的净化效果。此外,F3具有几个显著的优势:无需训练,易于实现,并且与现有的净化方法相比,表现出显著的计算效率提升。这些特性使得F3特别适合于大型工业应用,在这些应用中,稳健的性能和操作效率都是关键优先事项。代码将公开发布。

[84] 革命性血库:基于人工智能的指纹与血型关联以提升安全性
标题: Revolutionizing Blood Banks: AI-Driven Fingerprint-Blood Group Correlation for Enhanced Safety
作者: Malik A. Altayar / Muhyeeddin Alqaraleh / Mowafaq Salem Alzboon / Wesam T. Almagharbeh
原文:   [英文]  
备注: None
摘要:
在法医学、安全和医疗保健中,识别个人身份是核心问题。虹膜扫描和基因组分析等方法虽然更为准确,但成本高昂、耗时且实施难度较大。本研究着重于指纹图案与ABO血型之间的关系,作为一种生物识别工具。研究共纳入200名受试者,比较了指纹类型(环形、螺旋形和弓形)和血型。通过包括卡方检验和皮尔逊相关在内的统计测试评估关联性。研究发现,环形是最常见的指纹图案,而O+血型是最普遍的。尽管存在某些关联模式,但不同血型的指纹图案之间没有统计学上的显著差异。总体而言,结果表明,当与指纹识别结合使用时,血型数据并不能显著提高个人识别的准确性。尽管研究显示相关性较弱,但可能强调了基于多模态的生物识别系统在增强当前生物识别系统方面的努力。未来的研究可以集中于更大和更多样化的样本,并可能利用机器学习和其他生物识别技术来改进识别方法。本研究探讨了法医学和生物识别识别领域不断变化的一个要素,强调了在个人识别中使用稳健分析方法的重要性。

[85] 用于长尾识别的对齐对比损失
标题: Aligned Contrastive Loss for Long-Tailed Recognition
作者: Jiali Ma / Jiequan Cui / Maeno Kazuki / Lakshmi Subramanian / Karlekar Jayashree / Sugiri Pranata / Hanwang Zhang
原文:   [英文]   [中文]  
备注: Accepted by CVPR 2025 DG-EBF Workshop
摘要:
在本文中,我们提出了一种对齐对比学习(Aligned Contrastive Learning, ACL)算法,以解决长尾识别问题。我们的研究表明,尽管多视角训练可以提升性能,但随着视角数量的增加,对比学习并不总是能一致地增强模型的泛化能力。通过对监督对比学习(Supervised Contrastive Learning, SCL)的理论梯度分析,我们发现了梯度冲突,以及正负样本对之间吸引和排斥梯度的不平衡是潜在的问题。我们的ACL算法旨在消除这些问题,并在多个基准测试中表现出强劲的性能。我们通过在长尾CIFAR、ImageNet、Places和iNaturalist数据集上的实验验证了ACL的有效性。结果表明,ACL达到了新的最先进的性能。

[86] 用于妇科近距离放射治疗中临床靶区和多器官分割的大型卷积神经网络与多阶段学习
标题: A Large Convolutional Neural Network for Clinical Target and Multi-organ Segmentation in Gynecologic Brachytherapy with Multi-stage Learning
作者: Mingzhe Hu / Yuan Gao / Yuheng Li / Ricahrd LJ Qiu / Chih-Wei Chang / Keyur D. Shah / Priyanka Kapoor / Beth Bradshaw / Yuan Shao / Justin Roper / Jill Remick / Zhen Tian / Xiaofeng Yang
原文:   [英文]  
备注: None
摘要:
目的:临床靶区(CTV)和危及器官的精确分割对于优化妇科近距离放射治疗(GYN-BT)的治疗计划至关重要。然而,解剖结构的多样性、CT成像中软组织对比度低以及标注数据集的有限性构成了重大挑战。本研究提出了GynBTNet,这是一种新颖的多阶段学习框架,旨在通过自监督预训练和分层微调策略来提高分割性能。方法:GynBTNet采用三阶段训练策略:(1)在大规模CT数据集上进行自监督预训练,使用稀疏子流形卷积捕捉稳健的解剖表示,(2)在综合多器官分割数据集上进行监督微调,以优化特征提取,(3)在专用的GYN-BT数据集上进行任务特定的微调,以优化临床应用的分割性能。该模型使用Dice相似系数(DSC)、95百分位Hausdorff距离(HD95)和平均表面距离(ASD)与最先进的方法进行了评估。结果:我们的GynBTNet实现了卓越的分割性能,显著优于nnU-Net和Swin-UNETR。值得注意的是,它在CTV上获得了0.837 +/- 0.068的DSC,在膀胱上获得了0.940 +/- 0.052,在直肠上获得了0.842 +/- 0.070,在子宫上获得了0.871 +/- 0.047,并且与基线模型相比,HD95和ASD均有所减少。自监督预训练带来了持续的性能提升,特别是对于具有复杂边界的结构。然而,乙状结肠的分割仍然具有挑战性,这可能是由于解剖模糊性和患者间的差异性。统计显著性分析证实,与基线模型相比,GynBTNet的改进具有显著性。

[87] GThinker:通过线索引导的反思实现通用多模态推理
标题: GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking
作者: Yufei Zhan / Ziheng Wu / Yousong Zhu / Rongkun Xue / Ruipu Luo / Zhenghao Chen / Can Zhang / Yifan Li / Zhentao He / Zheming Yang / Ming Tang / Minghui Qiu / Jinqiao Wang
原文:   [英文]   [中文]  
备注: Tech report
摘要:
尽管在多模态推理方面取得了显著进展,但在一般场景下,领先的多模态大语言模型(MLLMs)在以视觉为中心的多模态推理任务中仍表现不佳。这一不足源于它们主要依赖于基于逻辑和知识的慢思考策略,虽然在数学和科学等领域有效,但在推理过程中未能有效整合视觉信息。因此,这些模型往往无法充分利用视觉线索,导致在需要多种合理视觉解释和推断的任务中表现不佳。为了解决这个问题,我们提出了GThinker(通用思考者),这是一种在一般场景、数学和科学中多模态推理表现出色的新型推理MLLM。GThinker引入了线索再思考(Cue-Rethinking),这是一种灵活的推理模式,将推断基于视觉线索并迭代地重新解释这些线索以解决不一致性。在此模式的基础上,我们进一步提出了一个两阶段的训练流程,包括模式引导的冷启动和激励强化学习,旨在实现跨领域的多模态推理能力。此外,为了支持训练,我们构建了GThinker-11K,包括7K高质量、迭代注释的推理路径和4K精心挑选的强化学习样本,填补了通用多模态推理的数据空白。大量实验表明,GThinker在具有挑战性的综合多模态推理基准M$^3$CoT上达到了81.5%,超越了最新的O4-mini模型。在一般场景多模态推理基准上也显示出平均2.1%的提升,同时在数学推理中保持与同类高级推理模型相当的表现。代码、模型和数据将很快在此https URL发布。

[88] 学习重要内容:通过相对误差驱动的样本选择实现优先概念学习
标题: Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection
作者: Shivam Chandhok / Qian Yang / Oscar Manas / Kanishk Jain / Leonid Sigal / Aishwarya Agrawal
原文:   [英文]   [中文]  
备注: Preprint
摘要:
指令微调在最近的视觉-语言模型(VLMs)的成功中起到了核心作用,但其代价高昂——需要大规模的数据集、高质量的标注和大量的计算预算。我们提出了一种名为通过相对误差驱动的样本选择进行优先概念学习(PROGRESS)的数据和计算高效的框架,该框架使VLMs能够根据其在训练过程中不断变化的需求动态选择接下来要学习的内容。在每个阶段,模型跟踪其在各项技能上的学习进展,并选择最具信息量的样本——即那些尚未掌握且在当前训练阶段不太难学习的样本。这一策略有效地控制了技能的获取以及技能学习的顺序。具体来说,我们从显示出最高学习进展的技能中进行采样,优先选择那些进步最快的技能。与之前的方法不同,PROGRESS不需要预先的答案标注,仅在需要时查询答案,避免依赖于辅助VLMs的额外监督,也不需要进行计算密集的梯度计算来进行数据选择。在多个不同规模的指令微调数据集上的实验表明,PROGRESS在使用更少的数据和监督的情况下,一贯优于最先进的基线。此外,我们展示了强大的跨架构泛化能力和向更大模型的可迁移性,验证了PROGRESS作为一种高效学习的可扩展解决方案。

[89] 从可解释性视角看多模态大型语言模型中的通用标记压缩
标题: Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective
作者: Lei Lei / Jie Gu / Xiaokang Ma / Chu Tang / Jingmin Chen / Tong Xu
原文:   [英文]   [中文]  
备注: None
摘要:
现有的多模态大型语言模型(MLLMs)处理大量视觉标记,导致显著的计算成本和效率低下。以往的研究通常假设在LLM的浅层中所有视觉标记都是必要的,因此标记压缩通常发生在中间层。相反,我们的研究揭示了一个有趣的见解:通过适当的选择,标记压缩在LLM的输入阶段是可行的,并且性能损失可以忽略不计。具体来说,我们揭示了解释性方法可以有效评估每个视觉标记相对于给定指令的重要性,这可以很好地指导标记压缩。此外,我们建议学习从第一个LLM层的注意力图到解释结果的映射,从而避免需要完整的推理过程并促进实际部署。有趣的是,这种映射可以通过一个简单且轻量的卷积网络来学习,其训练效率高且独立于MLLMs。我们在三个领先的MLLMs(Qwen2-VL、LLaVA-OneVision和VILA1.5)上的10个图像和视频基准测试中进行了广泛实验,证明了我们方法的有效性,例如,在所有这些MLLMs的所有基准测试中修剪50%的视觉标记,同时保留超过96%的原始性能。即使在推理中标记数量远远超过训练中使用的数量时,它也表现出强大的泛化能力。

[90] 使用图神经网络的关键步骤识别
标题: Keystep Recognition using Graph Neural Networks
作者: Julia Lee Romero / Kyle Min / Subarna Tripathi / Morteza Karimzadeh
原文:   [英文]  
备注: None
摘要:
我们将关键步骤识别视为一个节点分类任务,并提出了一种灵活的图学习框架,用于细粒度的关键步骤识别,该框架能够有效利用自我中心视频中的长期依赖关系。我们的方法称为GLEVR,包括构建一个图,其中自我中心视频的每个视频片段对应一个节点。构建的图是稀疏的且计算效率高,显著优于现有的大型模型。我们在训练过程中进一步利用自我中心视频和外部视频之间的对齐,以改进对自我中心视频的推断,并添加自动字幕作为额外的模态。在训练过程中,我们将每个外部视频的每个片段(如果可用)或视频字幕视为额外的节点。我们研究了几种定义这些节点之间连接的策略。我们在Ego-Exo4D数据集上进行了广泛的实验,结果表明我们提出的基于灵活图的框架显著优于现有方法。

[91] DeepVerse:作为世界模型的四维自回归视频生成
标题: DeepVerse: 4D Autoregressive Video Generation as a World Model
作者: Junyi Chen / Haoyi Zhu / Xianglong He / Yifan Wang / Jianjun Zhou / Wenzheng Chang / Yang Zhou / Zizun Li / Zhoujie Fu / Jiangmiao Pang / Tong He
原文:   [英文]   [中文]  
备注: None
摘要:
世界模型是通向通用人工智能(AGI)的重要构建模块,使智能体能够通过模拟复杂的物理交互来预测未来状态和规划行动。然而,现有的交互模型主要预测视觉观测,从而忽略了几何结构和空间一致性等关键的隐藏状态。这导致了快速的误差积累和时间不一致性。为了解决这些限制,我们引入了DeepVerse,这是一种新颖的4D交互世界模型,明确将先前时间步的几何预测纳入当前基于动作的预测中。实验表明,通过结合明确的几何约束,DeepVerse捕捉到了更丰富的时空关系和潜在的物理动态。这一能力显著减少了漂移并增强了时间一致性,使模型能够可靠地生成延长的未来序列,并在预测准确性、视觉真实感和场景合理性方面取得了显著的改进。此外,我们的方法为几何感知的记忆检索提供了有效的解决方案,有效地保持了长期的空间一致性。我们在各种场景中验证了DeepVerse的有效性,确立了其在基于几何感知动态的高保真、长时间预测中的能力。

[92] CountingFruit:基于语言引导的语义高斯喷溅的实时3D水果计数
标题: CountingFruit: Real-Time 3D Fruit Counting with Language-Guided Semantic Gaussian Splatting
作者: Fengze Li / Yangle Liu / Jieming Ma / Hai-Ning Liang / Yaochun Shen / Huangxiang Li / Zhijing Wu
原文:   [英文]   [中文]  
备注: None
摘要:
在真实的农业环境中进行精确的水果计数一直是一个长期的挑战,因为存在视觉遮挡、语义歧义以及3D重建的高计算需求。基于神经辐射场的现有方法存在推理速度慢、泛化能力有限以及不支持开放集语义控制的问题。本文提出了FruitLangGS,这是一种实时3D水果计数框架,通过空间重建、语义嵌入和语言引导的实例估计来解决这些限制。FruitLangGS首先使用自适应高斯喷洒管道进行果园规模场景的重建,结合半径感知修剪和基于瓦片的光栅化以实现高效渲染。为了实现语义控制,每个高斯编码一个压缩的与CLIP对齐的语言嵌入,形成一个紧凑且可查询的3D表示。在推理时,基于提示的语义过滤直接在3D空间中应用,而不依赖于图像空间分割或视图级融合。然后,通过分布感知采样将选定的高斯转换为密集点云,并进行聚类以估计水果数量。在真实果园数据上的实验结果表明,与之前的方法相比,FruitLangGS在渲染速度、语义灵活性和计数准确性方面都取得了更高的表现,为跨开放世界场景的语言驱动实时神经渲染提供了新的视角。

[93] 通过真实且高效的胸部X光报告生成革新放射学工作流程
标题: Revolutionizing Radiology Workflow with Factual and Efficient CXR Report Generation
作者: Pimchanok Sukjai / Apiradee Boonmee
原文:   [英文]   [中文]  
备注: None
摘要:
对医学影像解读需求的不断增长,凸显了需要先进的人工智能解决方案来提高放射诊断的效率和准确性。本文介绍了CXR-PathFinder,这是一种新颖的大型语言模型(LLM)为核心的基础模型,专为自动生成胸部X光(CXR)报告而设计。我们提出了一种独特的训练范式,即临床医生指导的对抗性微调(CGAFT),该方法精细地将临床专家反馈整合到对抗性学习框架中,以减少事实不一致性并提高诊断精度。与此互补的是,我们的知识图增强模块(KGAM)在推理时作为保障,动态地将生成的医学陈述与权威知识库进行验证,以减少幻觉并确保术语标准化。利用数百万对CXR图像和专家报告的综合数据集,我们的实验表明,CXR-PathFinder在各种定量指标上显著优于现有的最先进医学视觉语言模型,包括临床准确性(宏F1(14):46.5,微F1(14):59.5)。此外,由持证放射科医生进行的盲评确认了CXR-PathFinder在临床实用性、完整性和准确性方面的卓越表现,确立了其作为放射实践可靠且高效的辅助工具的潜力。所开发的方法有效地平衡了高诊断保真度与计算效率,为自动化医学报告生成提供了一个强有力的解决方案。

[94] MOOSE:通过光流关注时间动态以理解视频
标题: MOOSE: Pay Attention to Temporal Dynamics for Video Understanding via Optical Flows
作者: Hong Nguyen / Dung Tran / Hieu Hoang / Phong Nguyen / Shrikanth Narayanan
原文:   [英文]   [中文]  
备注: None
摘要:
许多以运动为中心的视频分析任务,例如原子动作、检测自闭症个体的非典型运动行为或分析人类语音实时MRI中的发音运动,都需要高效且可解释的时间建模。捕捉时间动态是视频分析中的一个核心挑战,通常需要大量的计算资源和不广泛可用的细粒度注释。本文提出了MOOSE(Motion Flow Over Spatial Space),这是一种新颖的以时间为中心的视频编码器,明确地将光流与空间嵌入结合,以高效地建模时间信息,灵感来源于人类对运动的感知。与之前的模型不同,MOOSE利用了丰富且广泛可用的预训练视觉和光流编码器,而不是从头开始训练视频模型。这大大降低了计算复杂性,同时增强了时间可解释性。我们的主要贡献包括:(1) 提出了一种计算高效的以时间为中心的视频理解架构;(2) 展示了在建模时间动态方面增强的可解释性;(3) 在包括临床、医学和标准动作识别数据集的多样基准上实现了最先进的性能,证实了我们方法的广泛适用性和有效性。

[95] ProstaTD:一个用于结构化手术三元组检测的大规模多源数据集
标题: ProstaTD: A Large-scale Multi-source Dataset for Structured Surgical Triplet Detection
作者: Yiliang Chen / Zhixi Li / Cheng Xu / Alex Qinyang Liu / Xuemiao Xu / Jeremy Yuen-Chun Teoh / Shengfeng He / Jing Qin
原文:   [英文]   [中文]  
备注: None
摘要:
手术三元组检测已成为手术视频分析中的一个关键任务,对性能评估和新手外科医生的培训具有重要意义。然而,现有的数据集如 CholecT50 存在严重的局限性:它们缺乏精确的空间边界框注释,提供不一致且临床上无依据的时间标签,并依赖于单一数据源,这限制了模型的泛化能力。为了解决这些问题,我们引入了 ProstaTD,这是一个用于手术三元组检测的大规模多机构数据集,来自技术要求高的机器人辅助前列腺切除术领域。ProstaTD 为每个结构化三元组动作提供了临床定义的时间边界和高精度的边界框注释。该数据集包含 60,529 帧视频和 165,567 个注释的三元组实例,收集自多个机构进行的 21 台手术,反映了广泛的手术实践和术中条件。注释过程在严格的医学监督下进行,涉及超过 50 名贡献者,包括执业外科医生和经过医学培训的注释员,通过多次迭代的标注和验证阶段完成。ProstaTD 是迄今为止最大和最多样化的手术三元组数据集,为公平的基准测试、可靠的手术 AI 系统的开发以及程序培训的可扩展工具提供了坚实的基础。

[96] FlowMo:基于方差的流动引导用于视频生成中的连贯运动
标题: FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation
作者: Ariel Shaulov / Itay Hazan / Lior Wolf / Hila Chefer
原文:   [英文]   [中文]  
备注: None
摘要:
文本到视频的扩散模型在建模时间方面(如运动、物理和动态交互)方面存在显著的局限性。现有的方法通过重新训练模型或引入外部条件信号来强制时间一致性,以解决这一限制。在这项工作中,我们探讨了是否可以直接从预训练模型的预测中提取有意义的时间表示,而无需额外的训练或辅助输入。我们引入了\textbf{FlowMo},这是一种新颖的无训练指导方法,仅使用模型在每个扩散步骤中的预测来增强运动连贯性。FlowMo首先通过测量对应于连续帧的潜在变量之间的距离,导出一种外观去偏的时间表示。这突出了模型预测的隐含时间结构。然后,它通过测量时间维度上的逐块方差来估计运动连贯性,并在采样过程中动态引导模型减少这种方差。跨多个文本到视频模型的大量实验表明,FlowMo在不牺牲视觉质量或提示对齐的情况下,显著提高了运动连贯性,为增强预训练视频扩散模型的时间保真度提供了一种有效的即插即用解决方案。

[97] SVarM:用于几何数据分类和回归的线性支持变体机
标题: SVarM: Linear Support Varifold Machines for Classification and Regression on Geometric Data
作者: Emmanuel Hartman / Nicolas Charon
原文:   [英文]   [中文]  
备注: 22 pages, 12 figures
摘要:
尽管几何深度学习领域发展迅速,但对几何数据进行统计分析仍然具有挑战性,因为每个观测值都是一个形状,如曲线、图或表面,而形状空间的非欧几里得性质使得分析复杂。这些空间被定义为在不变群下的等价类。构建能够包含这些不变性的机器学习框架,特别是对形状参数化的不变性,通常对于确保训练模型对新观测值的泛化能力至关重要。本文提出了SVarM方法,以利用形状的变体表示作为度量及其与测试函数$h:\mathbb{R}^n \times S^{n-1} \to \mathbb{R}$的对偶性。该方法提供了一个类似于线性支持向量机的通用框架,但在无限维的变体空间上运行。我们通过引入基于神经网络的可训练测试函数$h$的表示,在形状数据集上开发了分类和回归模型。该方法在各种形状图和表面数据集上表现出强大的性能和鲁棒性,取得了与最先进方法相当的结果,同时显著减少了可训练参数的数量。

[98] 感知归纳偏置是对比学习前所需的
标题: Perceptual Inductive Bias Is What You Need Before Contrastive Learning
作者: Tianqin Li / Junru Zhao / Dunhan Jiang / Shenghao Wu / Alan Ramirez / Tai Sing Lee
原文:   [英文]   [中文]  
备注: CVPR 2025. Tianqin Li and Junru Zhao contributed equally to this work. Due to a formatting error during the CVPR submission, the equal contribution note was omitted in the official proceedings. This arXiv version corrects that oversight. The author order follows alphabetical order by last name
摘要:
David Marr 的开创性人类感知理论规定,视觉处理是一个多阶段的过程,优先提取边界和表面属性,然后再形成语义对象表示。与此相反,对比表示学习框架通常绕过这种明确的多阶段方法,将其目标定义为直接学习对象的语义表示空间。虽然在一般情况下效果良好,但这种方法牺牲了视觉的归纳偏差,导致收敛速度较慢,并在学习中产生纹理偏差。在这项工作中,我们证明了利用 Marr 的多阶段理论——首先使用早期视觉处理阶段的感知构造来构建边界和表面级别的表示,然后再进行对象语义训练——可以使 ResNet18 的收敛速度提高两倍,并在语义分割、深度估计和对象识别中获得更好的最终表示,同时增强了鲁棒性和分布外能力。总之,我们提出在一般对比表示预训练之前增加一个预训练阶段,以通过人类视觉系统的归纳偏差进一步提高最终表示质量并减少整体收敛时间。

[99] 使用视觉-语言模型进行自监督多视图表示学习以识别3D/4D面部表情
标题: Self-Supervised Multi-View Representation Learning using Vision-Language Model for 3D/4D Facial Expression Recognition
作者: Muzammil Behzad
原文:   [英文]   [中文]  
备注: None
摘要:
面部表情识别(FER)是情感计算中的一项基础任务,应用于人机交互、心理健康分析和行为理解。在本文中,我们提出了SMILE-VLM,这是一种用于3D/4D FER的自监督视觉-语言模型,它将多视角视觉表示学习与自然语言监督相结合。SMILE-VLM通过提出三个核心组件来学习稳健、语义对齐且视角不变的嵌入:通过Barlow Twins风格损失实现多视角去相关、视觉-语言对比对齐以及跨模态冗余最小化。我们的框架在多个基准测试中达到了最先进的性能。我们进一步将SMILE-VLM扩展到4D微表情识别(MER)任务,以识别细微的情感线索。大量结果表明,SMILE-VLM不仅超越了现有的无监督方法,还能匹敌或超越有监督的基线,提供了一种可扩展且注释高效的面部表情行为理解解决方案。

[100] 粗到细粒度动物动作识别综述
标题: A Review on Coarse to Fine-Grained Animal Action Recognition
作者: Ali Zia / Renuka Sharma / Abdelwahed Khamis / Xuesong Li / Muhammad Husnain / Numan Shafi / Saeed Anwar / Sabine Schmoelzl / Eric Stone / Lars Petersson / Vivien Rolland
原文:   [英文]   [中文]  
备注: None
摘要:
这篇综述深入探讨了动物动作识别领域,重点关注粗粒度(CG)和细粒度(FG)技术。主要目的是考察动物行为识别研究的现状,并阐明在户外环境中识别细微动物动作所面临的独特挑战。这些挑战与人类动作识别中遇到的挑战有显著不同,原因包括非刚性身体结构、频繁的遮挡以及缺乏大规模标注数据集。综述首先讨论了人类动作识别的发展历程,这是一个更为成熟的领域,强调其如何从在受控环境中识别广泛的粗粒度动作,发展到在动态环境中对细粒度识别的需求。这一转变对于动物动作识别尤为相关,因为行为的多样性和环境的复杂性带来了人类中心模型无法完全解决的独特挑战。综述接着强调了人类与动物动作识别之间的关键差异,特别是物种内高变异性、非结构化数据集以及动物栖息地的自然复杂性。文章评估了诸如时空深度学习框架(例如,SlowFast)在动物行为分析中的有效性,以及现有数据集的局限性。通过评估当前方法的优缺点并介绍一个新近发布的数据集,综述为推进细粒度动作识别指明了未来方向,旨在提高跨物种行为分析的准确性和普遍性。

[101] 使用生成对抗网络判别器进行脏标签和干净标签攻击检测
标题: Dirty and Clean-Label attack detection using GAN discriminators
作者: John Smutny
原文:   [英文]  
备注: 13 pages total. Appendix starts on page 10
摘要:
收集足够的图像来训练深度计算机视觉模型一直是一个持续的挑战。不幸的是,从未知来源收集图像可能会使您的模型行为面临被脏标签或干净标签攻击操控的风险,除非对图像进行了适当的检查。手动检查每个图像-标签对是不切实际的,而常见的毒性检测方法涉及重新训练模型,这可能非常耗时。本研究使用GAN判别器来保护单个类别免受错误标记和不同程度修改的图像的影响。文中还包括了这种扰动对基本卷积神经网络分类器的影响作为参考。结果表明,在对单个类别进行训练后,GAN判别器的置信度评分可以提供一个阈值来识别错误标记的图像,并在经过类内样本的决策阈值校准后,从扰动ε值为0.20开始识别出100%的测试毒性。开发人员可以使用本报告作为基础,训练自己的判别器以保护其计算机视觉模型中高价值的类别。

[102] 傅里叶调制隐式神经表示用于多光谱卫星图像压缩
标题: Fourier-Modulated Implicit Neural Representation for Multispectral Satellite Image Compression
作者: Woojin Cho / Steve Andreas Immanuel / Junhyuk Heo / Darongsae Kwon
原文:   [英文]   [中文]  
备注: Accepted to IGARSS 2025 (Oral)
摘要:
多光谱卫星图像在农业、渔业和环境监测中起着至关重要的作用。然而,它们的高维性、大数据量以及跨多个通道的多样空间分辨率给数据压缩和分析带来了重大挑战。本文提出了ImpliSat,一个专门设计用于通过高效压缩和重建多光谱卫星数据来应对这些挑战的统一框架。ImpliSat利用隐式神经表示(INR)将卫星图像建模为坐标空间上的连续函数,捕捉不同空间分辨率下的精细空间细节。此外,我们引入了一种傅里叶调制算法,该算法动态调整每个波段的光谱和空间特性,确保在保留关键图像细节的同时实现最佳压缩。

[103] 视觉稀疏引导:通过稀疏性引导的引导向量提升零样本图像分类
标题: Visual Sparse Steering: Improving Zero-shot Image Classification with Sparsity Guided Steering Vectors
作者: Gerasimos Chatzoudis / Zhuowei Li / Gemma E. Moran / Hao Wang / Dimitris N. Metaxas
原文:   [英文]   [中文]  
备注: None
摘要:
在推理时无需重新训练或访问大型标记数据集来引导视觉基础模型是一个理想但具有挑战性的目标,特别是在动态或资源受限的环境中。在本文中,我们介绍了一种轻量级的测试时方法——视觉稀疏引导(VS2),该方法利用由top-$k$稀疏自编码器学习的稀疏特征导出的引导向量来引导视觉模型,而不需要对比数据。具体来说,VS2在CIFAR-100上比零样本CLIP高出4.12%,在CUB-200上高出1.08%,在Tiny-ImageNet上高出1.84%。我们进一步提出了VS2++,这是一种检索增强的变体,在推理时使用伪标记的邻居选择性地放大相关的稀疏特征。使用理想的正/负集合,VS2++在CIFAR-100上比CLIP零样本的绝对top-1提升高达21.44%,在CUB-200上高达7.08%,在Tiny-ImageNet上高达20.47%。有趣的是,VS2和VS2++分别将每类准确率提高了最多25%和38%,这表明稀疏引导通过消除视觉上或分类学上相近类别的歧义来惠及特定类别,而不是提供统一的提升。最后,为了更好地将通过SAE重建任务学习的稀疏特征与下游性能相关的特征对齐,我们提出了原型对齐稀疏引导(PASS)。通过在SAE训练期间引入原型对齐损失,仅在训练期间使用标签,同时在测试时保持完全无监督,PASS始终如一地(尽管适度地)优于VS2,仅在CIFAR-100上使用ViT-B/32实现了比VS2高出6.12%的增益。

[104] ReFoCUS:基于强化学习引导的帧优化用于情境理解
标题: ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding
作者: Hosu Lee / Junho Kim / Hyunjun Kim / Yong Man Ro
原文:   [英文]   [中文]  
备注: None
摘要:
最近在大型多模态模型(LMMs)方面的进展使得视觉-语言推理更加有效,但理解视频内容的能力仍然受到次优帧选择策略的限制。现有的方法通常依赖于静态启发式方法或外部检索模块,将帧信息输入到视频-LLMs中,这可能无法提供与查询相关的信息。在这项工作中,我们引入了ReFoCUS(用于上下文理解的强化引导帧优化),这是一种新颖的帧级策略优化框架,将优化目标从文本响应转移到视觉输入选择。ReFoCUS通过强化学习学习帧选择策略,使用从参考LMM中获得的奖励信号来反映模型对最佳支持时间上有依据的响应的帧的内在偏好。为了有效探索大型组合帧空间,我们采用了一种自回归的、条件选择的架构,确保时间一致性,同时降低复杂性。我们的方法不需要帧级的显式监督,并且在多个视频问答基准上持续提高推理性能,突出了将帧选择与模型内部效用对齐的好处。

[105] 多模态结构化知识的抽象视觉理解:MLLM评估的新视角
标题: Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation
作者: Yichi Zhang / Zhuo Chen / Lingbing Guo / Yajing Xu / Min Zhang / Wen Zhang / Huajun Chen
原文:   [英文]   [中文]  
备注: Work in progress
摘要:
多模态大型语言模型(MLLMs)将异质模态整合到LLMs中,使其能够全面理解多样化的场景和对象。尽管MLLMs的评估基准和排行榜大量涌现,但它们主要忽视了MLLMs理解以视觉形式出现的结构化抽象世界知识的关键能力。为了解决这一差距,我们提出了一种新的评估范式,并设计了M3STR,这是一种基于多模态地图的创新基准,用于结构化理解。该基准利用多模态知识图谱来合成图像,这些图像包含丰富多模态实体的子图架构。M3STR要求MLLMs不仅识别视觉输入中的多模态实体,还要解读它们之间复杂的关系拓扑结构。我们详细描述了基准的统计特征和自动化构建流程,并对26个最先进的MLLMs进行了广泛的实证分析。我们的研究结果揭示了在处理具有结构化知识的抽象视觉信息方面的持续不足,从而为提升MLLMs的整体推理能力指明了关键方向。我们的代码和数据已在此https URL发布。

[106] ReAgent-V:一种用于视频理解的奖励驱动多智能体框架
标题: ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding
作者: Yiyang Zhou / Yangfan He / Yaofeng Su / Siwei Han / Joel Jang / Gedas Bertasius / Mohit Bansal / Huaxiu Yao
原文:   [英文]   [中文]  
备注: 31 pages, 18 figures
摘要:
视频理解是动作识别、视频推理和机器人控制等任务的基础。早期基于大型视觉语言模型(LVLMs)的视频理解方法通常采用单次推理范式,没有动态反馈,限制了模型在复杂场景中自我纠正和适应的能力。最近的努力尝试通过结合奖励模型和强化学习来增强推理,或采用工具-代理框架来解决这一限制。然而,这些方法面临几个挑战,包括高昂的标注成本、无法捕捉实时推理状态的奖励信号以及低推理效率。为了解决这些问题,我们提出了ReAgent-V,这是一种新颖的代理性视频理解框架,在推理过程中整合了高效的帧选择和实时奖励生成。这些奖励信号不仅通过多视角反思机制指导迭代答案优化,从保守、中立和激进的视角调整预测,还能够自动过滤高质量数据用于监督微调(SFT)、直接偏好优化(DPO)和群体相对策略优化(GRPO)。ReAgent-V轻量、模块化且可扩展,支持灵活的工具集成以适应多样化任务。在12个数据集上的广泛实验涵盖了三个核心应用——视频理解、视频推理增强和视觉-语言-动作模型对齐——展示了在泛化和推理方面的显著提升,分别提高了6.9%、2.1%和9.8%,突显了所提出框架的有效性和多功能性。

[107] SAM-I2V:将SAM升级为支持可提示视频分割,训练成本不到0.2%
标题: SAM-I2V: Upgrading SAM to Support Promptable Video Segmentation with Less than 0.2% Training Cost
作者: Haiyang Mei / Pengyu Zhang / Mike Zheng Shou
原文:   [英文]  
备注: CVPR 2025
摘要:
基础模型如“分割任何东西模型”(SAM)在计算机视觉中的可提示图像分割方面取得了显著进展。然而,将这些能力扩展到视频中面临着巨大的挑战,特别是在动态场景中确保精确且时间一致的掩码传播。SAM 2 试图通过从头开始在大量图像和视频数据上训练模型来解决这一问题,以学习复杂的时空关联,但这导致了巨大的训练成本,阻碍了研究和实际部署。在本文中,我们介绍了 SAM-I2V,这是一种有效的图像到视频升级方法,用于培养可提示视频分割(PVS)模型。我们的方法战略性地升级了预训练的 SAM 以支持 PVS,显著降低了训练复杂性和资源需求。为此,我们引入了三个关键创新:(i)基于 SAM 的静态图像编码器构建的图像到视频特征提取升级器,以实现时空视频感知,(ii)一种记忆过滤策略,选择最相关的过去帧以更有效地利用历史信息,以及(iii)一种利用对象记忆的记忆即提示机制,以确保动态场景中时间一致的掩码传播。综合实验表明,我们的方法在仅使用 SAM 2 的 0.2% 训练成本的情况下,实现了超过 90% 的 SAM 2 性能。我们的工作为 PVS 提供了一条资源高效的途径,降低了 PVS 模型设计进一步研究的障碍,并在该领域实现了更广泛的应用和进步。代码和模型可在此 URL 获取。

[108] 超高分辨率图像合成:数据、方法与评估
标题: Ultra-High-Resolution Image Synthesis: Data, Method and Evaluation
作者: Jinjin Zhang / Qiuyu Huang / Junjie Liu / Xiefan Guo / Di Huang
原文:   [英文]   [中文]  
备注: None
摘要:
超高分辨率图像合成具有重要潜力,但由于缺乏标准化的基准和计算限制,仍然是一个未被充分探索的挑战。在本文中,我们建立了Aesthetic-4K,这是一个精心策划的数据集,包含专门用于超高分辨率图像合成全面研究的训练和评估子集。该数据集由高质量的4K图像组成,并附有由GPT-4o生成的描述性标题。此外,我们提出了Diffusion-4K,这是一种用于直接生成超高分辨率图像的创新框架。我们的方法结合了尺度一致变分自编码器(SC-VAE)和基于小波的潜在微调(WLF),旨在实现高效的视觉标记压缩和捕捉超高分辨率图像中的复杂细节,从而促进与真实感4K数据的直接训练。该方法适用于各种潜在扩散模型,并在合成高度详细的4K图像方面展示了其有效性。此外,我们提出了新的指标,即GLCM分数和压缩比,以评估局部区域的纹理丰富度和细节,与FID、美学和CLIPScore等整体度量结合,能够对超高分辨率图像合成进行全面和多方面的评估。因此,Diffusion-4K在超高分辨率图像合成中取得了令人印象深刻的性能,特别是在由最先进的大规模扩散模型(例如,Flux-12B)支持时。源代码可在此https URL公开获取。

[109] 用于车辆类别和方向检测的两阶段模型及照片级真实感图像生成
标题: A 2-Stage Model for Vehicle Class and Orientation Detection with Photo-Realistic Image Generation
作者: Youngmin Kim / Donghwa Kang / Hyeongboo Baek
原文:   [英文]   [中文]  
备注: Accepted to IEEE BigData Conference 2022
摘要:
我们旨在通过使用合成数据训练模型来检测车辆的类别和方向。然而,训练数据中的类别分布不平衡,并且在合成图像上训练的模型在真实世界图像中难以预测。我们提出了一种具有照片真实感图像生成的两阶段检测模型来解决这个问题。我们的模型主要通过四个步骤来检测车辆的类别和方向。(1) 构建一个包含图像、类别和图像中物体位置信息的表格,(2) 将合成图像转换为真实世界图像风格,并将其合并到元表中。(3) 使用来自元表的图像对车辆类别和方向进行分类。(4) 最后,通过结合预先提取的位置信息和预测的类别来检测车辆的类别和方向。我们的方法在IEEE BigData Challenge 2022车辆类别和方向检测(VOD)中获得了第四名。

[110] 重新思考用于图像分类的图像直方图匹配
标题: Rethinking Image Histogram Matching for Image Classification
作者: Rikuto Otsuka / Yuho Shoji / Yuka Ogino / Takahiro Toizumi / Atsushi Ito
原文:   [英文]  
备注: None
摘要:
本文重新思考了图像直方图匹配(HM),并为下游分类器提出了一种可微分和参数化的HM预处理。卷积神经网络在分类任务中表现出显著的成就。然而,在恶劣天气条件下拍摄的低对比度图像上,它们的性能往往会下降。为了在低对比度图像下保持分类器的性能,通常使用直方图均衡化(HE)。HE是使用均匀分布作为目标像素值分布的HM的一个特例。在本文中,我们关注目标像素值分布的形状。与均匀分布相比,单一的、设计良好的分布可能有潜力在各种恶劣天气条件下提高下游分类器的性能。基于这一假设,我们提出了一种可微分和参数化的HM,通过下游分类器的损失函数来优化目标分布。该方法通过将具有任意分布的输入图像转换为为分类器优化的目标分布来解决像素值不平衡的问题。我们的HM仅在正常天气图像上使用分类器进行训练。实验结果表明,使用我们提出的HM训练的分类器在恶劣天气条件下优于传统的预处理方法。

[111] 面向目标的自适应损失用于红外小目标检测
标题: Target Driven Adaptive Loss For Infrared Small Target Detection
作者: Yuho Shoji / Takahiro Toizumi / Atsushi Ito
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一种目标驱动自适应(TDA)损失,以提高红外小目标检测(IRSTD)的性能。之前的研究使用了诸如二元交叉熵损失和IoU损失等损失函数来训练IRSTD的分割模型。最小化这些损失函数引导模型提取像素级特征或全局图像上下文。然而,它们存在两个问题:提高目标周围局部区域的检测性能以及增强对小尺度和低局部对比度的鲁棒性。为了解决这些问题,所提出的TDA损失引入了一种基于补丁的机制,以及一种自适应调整策略来应对尺度和局部对比度。所提出的TDA损失使模型专注于目标周围的局部区域,并特别关注具有较小尺度和较低局部对比度的目标。我们在三个IRSTD数据集上评估了所提出的方法。结果表明,所提出的TDA损失在这些数据集上实现了比现有损失更好的检测性能。

[112] CLIP驱动的雨感知:具有模式感知网络路由和掩码引导交叉注意的自适应去雨
标题: CLIP-driven rain perception: Adaptive deraining with pattern-aware network routing and mask-guided cross-attention
作者: Cong Guan / Osamu Yoshie
原文:   [英文]   [中文]  
备注: None
摘要:
现有的去雨模型在单一网络中处理所有的雨天图像。然而,不同的雨水模式有显著的差异,这使得单一网络难以处理多种类型的雨滴和雨条。为了解决这一限制,我们提出了一种新颖的CLIP驱动的雨感知网络(CLIP-RPN),该网络利用CLIP通过计算视觉-语言匹配分数自动感知雨水模式,并自适应地路由到子网络以处理不同的雨水模式,如不同的雨滴密度、雨条方向和降雨强度。CLIP-RPN通过CLIP的跨模态视觉-语言对齐能力建立语义感知的雨水模式识别,实现了在不同雨水场景中自动识别降水特征。这种雨水模式感知驱动了一个自适应子网络路由机制,其中基于检测到的雨水类型动态激活专门的处理分支,显著增强了模型处理多样化降雨条件的能力。此外,在CLIP-RPN的子网络中,我们引入了一种掩码引导的交叉注意机制(MGCA),该机制在多尺度上预测精确的雨水掩码,以通过交叉注意促进雨水区域与干净背景区域之间的上下文交互。我们还引入了一种动态损失调度机制(DLS),以自适应地调整CLIP-RPN优化过程中的梯度。与常用的$l_1$或$l_2$损失相比,DLS更符合网络训练过程的内在动态,从而实现了增强的结果。我们的方法在多个数据集上实现了最先进的性能,尤其是在复杂的混合数据集上表现出色。

[113] 使用预训练扩散模型进行合成数据增强以解决长尾食品图像分类问题
标题: Synthetic Data Augmentation using Pre-trained Diffusion Models for Long-tailed Food Image Classification
作者: GaYeon Koh / Hyun-Jic Oh / Jeonghyun Noh / Won-Ki Jeong
原文:   [英文]   [中文]  
备注: 10 pages
摘要:
基于深度学习的食物图像分类能够精确识别食物类别,从而促进准确的营养分析。然而,现实世界中的食物图像往往呈现出不均衡的分布,一些食物类型比其他类型更为常见。这种类别不平衡可能会导致模型偏向多数(头部)类别,从而整体性能在较不常见(尾部)类别上下降。最近,使用基于扩散的生成模型进行合成数据增强已成为解决此问题的一个有前途的解决方案。通过生成高质量的合成图像,这些模型可以帮助均匀化数据分布,可能改善分类性能。然而,现有的方法面临挑战:基于微调的方法需要一个均匀分布的数据集,而基于预训练模型的方法往往忽视了合成数据中的类间分离。在本文中,我们提出了一个两阶段的合成数据增强框架,利用预训练的扩散模型进行长尾食物分类。我们生成一个参考集,该参考集由生成目标的正向提示条件生成,然后选择一个与生成目标具有相似特征的类别作为负向提示。随后,我们通过一种结合的采样策略,使用正向和负向提示条件生成一个合成增强集,以促进类内多样性和类间分离。我们在两个长尾食物基准数据集上展示了所提方法的有效性,在top-1准确率方面相比于之前的工作取得了更优的性能。

[114] PointT2I:基于大型语言模型的关键点文本到图像生成
标题: PointT2I: LLM-based text-to-image generation via keypoints
作者: Taekyung Lee / Donggyu Lee / Myungjoo Kang
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像(T2I)生成模型取得了显著进展,能够生成与输入提示对齐的高质量图像。然而,尽管T2I生成能够生成细粒度的图像,但在输入提示包含复杂概念时,尤其是人体姿势时,仍面临准确生成图像的挑战。在本文中,我们提出了PointT2I,这是一种通过使用大型语言模型(LLM)有效生成与提示中描述的人体姿势准确对应的图像的框架。PointT2I由三个组件组成:关键点生成、图像生成和反馈系统。关键点生成使用LLM直接生成与人体姿势对应的关键点,仅基于输入提示,而无需外部参考。随后,图像生成基于文本提示和生成的关键点生成图像,以准确反映目标姿势。为了优化前面阶段的输出,我们引入了一个基于LLM的反馈系统,该系统评估生成内容与给定提示之间的语义一致性。我们的框架是第一个利用LLM进行关键点引导的图像生成的方法,无需任何微调,仅基于文本提示生成准确的姿势对齐图像。

[115] SVQA-R1:通过视图一致的奖励优化加强多模态大模型中的空间推理
标题: SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization
作者: Peiyao Wang / Haibin Ling
原文:   [英文]   [中文]  
备注: 9 pages, 7 figures
摘要:
空间推理仍然是现有视觉语言模型(VLMs)中的一个关键但尚未充分发展的能力,特别是在需要理解相对位置、距离和物体配置的空间视觉问答(Spatial VQA)任务中。受到DeepSeek-R1中引入的R1范式的启发,该范式通过基于规则的强化学习(RL)增强语言模型的推理能力,我们提出了SVQA-R1,这是第一个将R1风格训练扩展到空间VQA的框架。特别是,我们引入了Spatial-GRPO,一种新颖的分组式RL策略,通过扰动物体之间的空间关系(例如镜像翻转)来构建视图一致的奖励,从而鼓励模型形成一致且扎实的空间理解。我们的模型SVQA-R1不仅在空间VQA基准测试中实现了显著提高的准确性,而且即使不使用监督微调(SFT)数据,也表现出可解释的推理路径。广泛的实验和可视化展示了SVQA-R1在多个空间推理基准测试中的有效性。

[116] 无需训练亦可获益:迈向体育及其他领域的通用多目标跟踪
标题: No Train Yet Gain: Towards Generic Multi-Object Tracking in Sports and Beyond
作者: Tomasz Stanczyk / Seongro Yoon / Francois Bremond
原文:   [英文]   [中文]  
备注: None
摘要:
多目标跟踪(MOT)对于体育分析至关重要,它能够进行性能评估和战术洞察。然而,由于快速移动、遮挡和摄像机转换,体育中的跟踪具有挑战性。传统的检测跟踪方法需要大量的调试,而基于分割的方法在轨迹处理上存在困难。我们提出了McByte,这是一种检测跟踪框架,它将时间传播的分割掩码作为关联线索,以提高鲁棒性,而无需针对每个视频进行调试。与许多现有方法不同,McByte不需要训练,仅依赖于社区中常用的预训练模型和对象检测器。在SportsMOT、DanceTrack、SoccerNet-tracking 2022和MOT17上进行评估时,McByte在体育和一般行人跟踪中表现出色。我们的结果突出了掩码传播对于更具适应性和可推广的MOT方法的优势。代码将在此https URL上提供。

[117] RadarSplat:用于高保真数据合成和自动驾驶场景三维重建的雷达高斯喷溅
标题: RadarSplat: Radar Gaussian Splatting for High-Fidelity Data Synthesis and 3D Reconstruction of Autonomous Driving Scenes
作者: Pou-Chun Kung / Skanda Harisha / Ram Vasudevan / Aline Eid / Katherine A. Skinner
原文:   [英文]   [中文]  
备注: None
摘要:
高保真3D场景重建在自动驾驶中发挥着至关重要的作用,因为它能够从现有数据集中生成新的数据。这使得在不增加额外数据收集成本的情况下模拟关键安全场景和扩充训练数据集成为可能。尽管最近在辐射场方面的进展在使用摄像头和LiDAR进行3D重建和传感器数据合成方面展示了令人鼓舞的结果,但它们在雷达方面的潜力仍然基本未被探索。雷达在自动驾驶中至关重要,因为它在雨、雾和雪等恶劣天气条件下具有很强的鲁棒性,而光学传感器常常难以应对。尽管最先进的基于雷达的神经表示在3D驾驶场景重建方面显示出希望,但在雷达噪声显著的场景中表现不佳,包括接收器饱和和多路径反射。此外,它仅限于合成预处理的、排除噪声的雷达图像,未能解决现实的雷达数据合成问题。为了解决这些限制,本文提出了RadarSplat,它将高斯喷溅与新颖的雷达噪声建模相结合,以实现现实的雷达数据合成和增强的3D重建。与最先进技术相比,RadarSplat在雷达图像合成方面取得了更优异的表现(+3.4 PSNR / 2.6倍SSIM)以及改进的几何重建(-40% RMSE / 1.5倍准确性),展示了其在生成高保真雷达数据和场景重建方面的有效性。项目页面可在此https URL访问。

[118] 通过下一帧扩散以每秒30帧以上的速度使用Transformer进行游戏
标题: Playing with Transformer at 30+ FPS via Next-Frame Diffusion
作者: Xinle Cheng / Tianyu He / Jiayi Xu / Junliang Guo / Di He / Jiang Bian
原文:   [英文]   [中文]  
备注: None
摘要:
自回归视频模型在创建交互式视频内容和支持任意时长的流媒体应用方面,相较于双向扩散模型具有独特优势。在这项工作中,我们提出了Next-Frame Diffusion (NFD),这是一种自回归扩散变换器,结合了块状因果注意力机制,能够在每一帧内通过并行生成令牌实现迭代采样和高效推理。然而,实现实时视频生成对于此类模型仍然是一个重大挑战,主要是由于扩散采样的高计算成本和自回归生成固有的硬件低效性。为了解决这个问题,我们引入了两个创新:(1) 我们将一致性蒸馏扩展到视频领域,并专门为视频模型进行了调整,使得通过少量采样步骤即可实现高效推理;(2) 为了充分利用并行计算,基于相邻帧通常共享相同动作输入的观察,我们提出了推测性采样。在这种方法中,模型使用当前动作输入生成接下来的几帧,如果输入动作不同,则丢弃推测生成的帧。在一个大规模动作条件视频生成基准上进行的实验表明,NFD在视觉质量和采样效率方面均优于自回归基线。我们首次在A100 GPU上使用310M模型实现了每秒超过30帧(FPS)的自回归视频生成。

[119] VRD-IU:从视觉丰富文档智能与理解中汲取的经验
标题: VRD-IU: Lessons from Visually Rich Document Intelligence and Understanding
作者: Yihao Ding / Soyeon Caren Han / Yan Li / Josiah Poon
原文:   [英文]   [中文]  
备注: Accepted at IJCAI 2025 Demonstrations Track
摘要:
视觉丰富文档理解(VRDU)已成为文档智能领域的关键领域,能够自动从医疗、金融和教育等领域的复杂文档中提取关键信息。然而,类似表格的文档由于其复杂的布局、多方参与以及高度的结构变异性,带来了独特的挑战。为了解决这些问题,VRD-IU竞赛被引入,专注于从Form-NLU数据集中的多格式表单中提取和定位关键信息,该数据集包括数字、印刷和手写文档。本文介绍了竞赛的见解,竞赛设有两个赛道:赛道A强调基于实体的关键信息检索,赛道B则针对从原始文档图像中进行端到端的关键信息定位。竞赛吸引了超过20个团队参与,展示了各种最先进的方法,包括分层分解、基于变压器的检索、多模态特征融合和先进的目标检测技术。表现最好的模型在VRDU领域设立了新的基准,为文档智能提供了宝贵的见解。

[120] 通过静态图案投影从多个视图进行神经形状重建
标题: Neural shape reconstruction from multiple views with static pattern projection
作者: Ryo Furukawa / Kota Nishihara / Hiroshi Kawasaki
原文:   [英文]  
备注: 6 pages, CVPR 2025 Workshop on Neural Fields Beyond Conventional Cameras
摘要:
基于主动立体的3D形状测量在工业检测、逆向工程和医疗系统等各种用途中至关重要,因为它能够准确获取无纹理物体的形状。主动立体系统通常由一个相机和一个图案投影仪组成,它们紧密固定在一起,并且需要对相机和投影仪进行精确校准,这反过来降低了系统的可用性。如果在形状扫描过程中相机和投影仪可以自由移动,将极大地提高系统的使用便利性。为实现这一点,我们提出了一种技术,通过在相机和投影仪都处于运动状态时捕获多张图像来恢复目标物体的形状,并通过我们使用新颖的体积微分渲染技术的神经签名距离场(NeuralSDF)自动校准它们的相对姿态。在实验中,我们通过使用合成图像和真实图像进行3D重建来评估所提出的方法。

[121] NTIRE 2025 第二届野外图像恢复模型挑战赛
标题: NTIRE 2025 the 2nd Restore Any Image Model (RAIM) in the Wild Challenge
作者: Jie Liang / Radu Timofte / Qiaosi Yi / Zhengqiang Zhang / Shuaizheng Liu / Lingchen Sun / Rongyuan Wu / Xindong Zhang / Hui Zeng / Lei Zhang
原文:   [英文]  
备注: None
摘要:
本文对NTIRE 2025挑战赛中第二届“野外恢复任意图像模型(RAIM)”进行了全面概述。该挑战赛为真实世界的图像修复建立了新的基准,涵盖了有参考地面实况和无参考地面实况的多种场景。参与者的任务是修复因复杂且未知的退化而受损的真实拍摄图像,其中感知质量和保真度都受到严格评估。挑战赛包括两个赛道:(1)低光联合去噪和去马赛克(JDD)任务,以及(2)图像细节增强/生成任务。每个赛道包含两个子任务。第一个子任务涉及有地面实况的配对数据,允许进行定量评估。第二个子任务处理真实世界但未配对的图像,强调修复效率和通过全面用户研究评估的主观质量。总共有近300人注册了挑战赛,51个团队提交了超过600个结果。表现最好的方法推动了图像修复领域的技术进步,并获得了20多位专家评委的一致认可。赛道1和赛道2中使用的数据集分别可在此https URL和此https URL获取。赛道1和赛道2的官方挑战页面可以在此https URL和此https URL找到。

[122] ViTA-PAR:用于行人属性识别的视觉和文本属性对齐与属性提示
标题: ViTA-PAR: Visual and Textual Attribute Alignment with Attribute Prompting for Pedestrian Attribute Recognition
作者: Minjeong Park / Hongbeen Park / Jinkyu Kim
原文:   [英文]   [中文]  
备注: Accepted to IEEE ICIP 2025
摘要:
行人属性识别(PAR)任务旨在识别个体的各种详细属性,如服装、配饰和性别。为了提高PAR的性能,模型必须捕捉从粗粒度的全局属性(例如,用于识别性别)到细粒度的局部细节(例如,用于识别配饰)的特征,这些特征可能出现在不同的区域。最近的研究表明,身体部位表示可以增强模型的鲁棒性和准确性,但这些方法通常局限于固定水平区域内的属性类别,当属性出现在不同或意外的身体位置时,性能会下降。在本文中,我们提出了一种用于行人属性识别的视觉和文本属性对齐与属性提示方法,称为ViTA-PAR,通过专门的多模态提示和视觉-语言对齐来增强属性识别。我们引入了视觉属性提示,捕捉从全局到局部的语义,实现多样的属性表示。为了丰富文本嵌入,我们设计了一个可学习的提示模板,称为人物和属性上下文提示,以学习人物和属性的上下文。最后,我们对视觉和文本属性特征进行对齐,以实现有效的融合。ViTA-PAR在四个PAR基准上进行了验证,取得了具有竞争力的性能和高效的推理。我们在此https URL上发布了我们的代码和模型。

[123] 激励推理以提升大型语言模型的高级指令遵循能力
标题: Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models
作者: Yulei Qin / Gang Li / Zongyi Li / Zihan Xu / Yuchen Shi / Zhekai Lin / Xiao Cui / Ke Li / Xing Sun
原文:   [英文]   [中文]  
备注: 10 pages of main body, 3 tables, 5 figures, 40 pages of appendix
摘要:
现有的大型语言模型(LLMs)在遵循复杂指令时面临挑战,特别是在存在多个约束并以并行、链式和分支结构组织时。一种直观的解决方案,即思维链(CoT),被期望能够普遍提高LLMs的能力。然而,我们发现原始的CoT由于其简单复述指令的表面推理模式,对性能产生了负面影响。它未能剖析约束的组成,以识别它们在类型和维度层次结构中的关系。为此,我们提出了一种系统的方法,通过激励推理以测试时计算扩展来增强LLMs处理复杂指令的能力。首先,我们从现有分类法下的复杂指令分解出发,提出了一种可复现的数据获取方法。其次,我们利用具有可验证规则中心奖励信号的强化学习(RL)来培养专门用于指令遵循的推理。我们通过样本对比来解决复杂指令下推理的浅层、非本质特性,以实现更优的CoT执行。我们还利用专家的行为克隆来促进从快速思考的LLMs到熟练推理者的稳定分布转变。在七个综合基准上的广泛评估证实了所提方法的有效性,其中一个1.5B的LLM实现了11.74%的增益,其性能可与一个8B的LLM相媲美。代码和数据可在此https URL获取。

[124] DNAEdit: 文本引导的校正流编辑的直接噪声对齐
标题: DNAEdit: Direct Noise Alignment for Text-Guided Rectified Flow Editing
作者: Chenxi Xie / Minghan Li / Shuai Li / Yuhui Wu / Qiaosi Yi / Lei Zhang
原文:   [英文]   [中文]  
备注: Project URL: this https URL
摘要:
利用大规模预训练文本到图像模型的强大生成能力,无需训练的方法已经展示了令人印象深刻的图像编辑效果。传统的基于扩散的方法以及最近的基于修正流(RF)的方法,通常通过逐渐向干净图像添加噪声来逆转合成轨迹,在此过程中,当前时间步的噪声潜在变量被用来近似下一个时间步的噪声潜在变量,这会引入累积漂移并降低重建精度。考虑到在RF中,噪声潜在变量是通过在每个时间步直接插值高斯噪声和干净图像来估计的,我们提出了直接噪声对齐(DNA),它直接在噪声域中优化所需的高斯噪声,显著减少了以往方法中的误差累积。具体来说,DNA估计每个时间步插值后的噪声潜在变量的速度场,并通过计算预测和期望速度场之间的差异来调整高斯噪声。我们验证了DNA的有效性,并揭示了其与现有基于RF的反演方法的关系。此外,我们引入了一种移动速度引导(MVG)来控制目标提示引导的生成过程,平衡图像背景保留和目标对象的可编辑性。DNA和MVG共同构成了我们提出的方法,即DNAEdit。最后,我们引入了DNA-Bench,一个长提示基准,用于评估先进图像编辑模型的性能。实验结果表明,我们的DNAEdit在性能上优于最先进的文本引导编辑方法。代码和基准将会在此网址提供。

[125] 语义调色板引导的颜色传播
标题: Semantic Palette-Guided Color Propagation
作者: Zi-Yu Zhang / Bing-Feng Seng / Ya-Feng Du / Kang Li / Zhe-Cheng Wang / Zheng-Jun Du
原文:   [英文]   [中文]  
备注: 6 pages,5 figures, IEEE ICME 2025
摘要:
颜色传播旨在将局部颜色编辑扩展到输入图像中的相似区域。传统方法通常依赖于颜色、纹理或亮度等低级视觉线索来衡量像素相似性,这使得实现内容感知的颜色传播变得困难。尽管一些最新的方法尝试在颜色编辑中引入语义信息,但往往导致颜色调整中的不自然的全局颜色变化。为克服这些限制,我们提出了一种语义调色板引导的颜色传播方法。我们首先从输入图像中提取语义调色板。然后,通过最小化基于用户编辑的精心设计的能量函数来求解编辑后的调色板。最后,通过求解的调色板,将局部编辑准确地传播到具有相似语义的区域。我们的方法能够实现高效且精确的像素级颜色编辑,并确保局部颜色变化以内容感知的方式传播。大量实验证明了我们方法的有效性。

[126] MS-RAFT-3D:一种用于基于图像的递归场景流的多尺度架构
标题: MS-RAFT-3D: A Multi-Scale Architecture for Recurrent Image-Based Scene Flow
作者: Jakob Schmid / Azin Jahedi / Noah Berenguel Senn / Andrés Bruhn
原文:   [英文]   [中文]  
备注: ICIP 2025
摘要:
尽管多尺度概念最近在光流和立体视觉领域的循环网络架构中被证明是有用的,但它们迄今尚未被考虑用于基于图像的场景流。因此,基于单尺度的循环场景流骨干网络,我们开发了一种多尺度方法,将光流中成功的分层思想推广到基于图像的场景流。通过考虑适合的特征和上下文编码器、整体的粗到细框架以及训练损失,我们成功设计了一种场景流方法,在KITTI和Spring数据集上分别超越了当前的最新技术8.7%(3.89对比4.26)和65.8%(9.13对比26.71)。我们的代码可以在这个HTTPS URL上获得。

[127] 一种用于高效声呐图像分类的阴影和高光区域的全新上下文自适应融合方法
标题: A Novel Context-Adaptive Fusion of Shadow and Highlight Regions for Efficient Sonar Image Classification
作者: Kamal Basha S / Anukul Kiran B / Athira Nambiar / Suresh Rajendran
原文:   [英文]   [中文]  
备注: None
摘要:
声呐成像是水下探测的基础,在国防、导航和海洋研究中具有重要应用。特别是阴影区域为物体检测和分类提供了重要线索,但现有研究主要集中在基于高光的分析上,阴影分类研究相对不足。为弥补这一差距,我们提出了一种上下文自适应的声呐图像分类框架,该框架利用先进的图像处理技术提取和整合具有辨别力的阴影和高光特征。我们的框架引入了一种新颖的阴影特定分类器和自适应阴影分割,能够基于主要区域进行有效分类。这种方法确保了最佳特征表示,提高了对噪声和遮挡的鲁棒性。此外,我们引入了一种区域感知去噪模型,通过保留关键结构细节同时抑制噪声来增强声呐图像质量。该模型结合了一种可解释性驱动的优化策略,确保去噪过程由特征重要性引导,从而提高了解释性和分类可靠性。此外,我们还提出了S3Simulator+,这是一个扩展的数据集,结合了物理信息噪声的海军水雷场景,专门为水下声呐领域量身定制,促进了鲁棒AI模型的发展。通过结合新颖的分类策略和增强的数据集,我们的工作解决了声呐图像分析中的关键挑战,推动了自主水下感知的进步。

[128] DiffuseSlide:无训练高帧率视频生成扩散
标题: DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion
作者: Geunmin Hwang / Hyun-kyu Ko / Younghyun Kim / Seungryong Lee / Eunbyung Park
原文:   [英文]   [中文]  
备注: None
摘要:
最近扩散模型的进展彻底改变了视频生成技术,使得高质量、时间一致性强的视频创作成为可能。然而,由于闪烁和长序列退化等问题,特别是在快速运动场景中,生成高帧率(FPS)视频仍然是一个重大挑战。现有的方法通常在长帧视频质量的维持上存在计算效率低下和局限性。在本文中,我们提出了一种新颖的、无需训练的高FPS视频生成方法,利用预训练的扩散模型。我们的方法,称为DiffuseSlide,引入了一种新的流程,利用低FPS视频的关键帧,并应用创新技术,包括噪声再注入和滑动窗口潜在去噪,以实现平滑、一致的视频输出,而无需额外的微调。通过大量实验,我们证明了我们的方法显著提高了视频质量,提供了增强的时间连贯性和空间保真度。该方法不仅计算效率高,而且适用于各种视频生成任务,使其成为虚拟现实、电子游戏和高质量内容创作等应用的理想选择。

[129] 面向可扩展的视频异常检索:一个合成视频-文本基准
标题: Towards Scalable Video Anomaly Retrieval: A Synthetic Video-Text Benchmark
作者: Shuyu Yang / Yilun Wang / Yaxiong Wang / Li Zhu / Zhedong Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
视频异常检索旨在使用自然语言查询定位视频中的异常事件,以促进公共安全。然而,现有的数据集存在严重的局限性:(1)由于现实世界异常事件的长尾特性,数据稀缺;(2)隐私限制阻碍了大规模收集。为了一次性解决上述问题,我们引入了SVTA(合成视频-文本异常基准),这是第一个用于跨模态异常检索的大规模数据集,利用生成模型来克服数据可用性挑战。具体来说,我们通过现成的大型语言模型(LLM)收集和生成视频描述,涵盖68个异常类别,例如投掷、偷窃和射击。这些描述涵盖了常见的长尾事件。我们采用这些文本来指导视频生成模型,以生成多样化和高质量的视频。最终,我们的SVTA包含41,315个视频(136万帧)及其配对的字幕,涵盖30种正常活动,例如站立、行走和运动,以及68种异常事件,例如跌倒、打斗、盗窃、爆炸和自然灾害。我们采用了三种广泛使用的视频-文本检索基准来全面测试我们的SVTA,揭示了SVTA的挑战性及其在评估稳健的跨模态检索方法中的有效性。SVTA消除了与现实世界异常收集相关的隐私风险,同时保持了现实场景。数据集演示可在以下网址获取:[此https URL]。

[130] 基于加权图神经网络的羊面部疼痛评估
标题: Sheep Facial Pain Assessment Under Weighted Graph Neural Networks
作者: Alam Noor / Luis Almeida / Mohamed Daoudi / Kai Li / Eduardo Tovar
原文:   [英文]   [中文]  
备注: 2025 19th International Conference on Automatic Face and Gesture Recognition (FG)
摘要:
准确识别和评估绵羊的疼痛对于辨别动物健康状况和减轻有害情况至关重要。然而,这种准确性受到自动监测这些动物疼痛能力的限制。面部表情评分是一种广泛使用且有效的方法,用于评估人类和其他生物的疼痛。研究人员还分析了绵羊的面部表情以评估其健康状况,并得出面部标志检测和疼痛水平预测是必不可少的。为此,我们提出了一种新颖的加权图神经网络(WGNN)模型,以连接绵羊检测到的面部标志并定义疼痛水平。此外,我们提出了一个新的绵羊面部标志数据集,该数据集遵循绵羊面部表情量表(SPFES)的参数。目前,还没有专门评估图神经网络(GNNs)在绵羊面部标志数据上检测和测量疼痛水平的综合性能基准。YOLOv8n检测器架构在绵羊面部标志数据集上实现了59.30%的平均精度(mAP),在其他七种检测模型中表现突出。WGNN框架在使用YOLOv8n轻量级设备部署模型时,对多个面部部位表情的跟踪准确率达到92.71%。

[131] 半监督视频变换器用于手术阶段识别的SemiVT-Surge
标题: SemiVT-Surge: Semi-Supervised Video Transformer for Surgical Phase Recognition
作者: Yiping Li / Ronald de Jong / Sahar Nasirihaghighi / Tim Jaspers / Romy van Jaarsveld / Gino Kuiper / Richard van Hillegersberg / Fons van der Sommen / Jelle Ruurda / Marcel Breeuwer / Yasmina Al Khalil
原文:   [英文]   [中文]  
备注: Accepted for MICCAI 2025
摘要:
准确的手术阶段识别对于计算机辅助干预和手术视频分析至关重要。为长时间的手术视频进行标注需要大量人力,这推动了研究朝着利用未标注数据以最少标注实现强大性能的方向发展。尽管自监督学习通过大规模预训练并在小型标注子集上进行微调而获得了广泛关注,但半监督方法在手术领域仍然很少被探索。在这项工作中,我们提出了一种基于视频变换器的模型,并结合了稳健的伪标签框架。我们的方法结合了未标注数据的时间一致性正则化和基于类原型的对比学习,利用标注数据和伪标签来优化特征空间。通过在私有的RAMIE(机器人辅助微创食管切除术)数据集和公共的Cholec80数据集上的广泛实验,我们展示了我们方法的有效性。通过结合未标注数据,我们在RAMIE上实现了最先进的性能,准确率提高了4.9%,并在Cholec80上仅使用1/4标注数据的情况下获得了与完全监督相当的结果。我们的研究结果为半监督手术阶段识别建立了一个强有力的基准,为该领域的未来研究铺平了道路。

[132] 通过强化学习解锁灵光乍现时刻:推进协作视觉理解与生成
标题: Unlocking Aha Moments via Reinforcement Learning: Advancing Collaborative Visual Comprehension and Generation
作者: Kaihang Pan / Yang Wu / Wendong Bu / Kai Shen / Juncheng Li / Yingting Wang / Yunfei Li / Siliang Tang / Jun Xiao / Fei Wu / Hang Zhao / Yueting Zhuang
原文:   [英文]  
备注: 21 pages, 7 figures
摘要:
最近在多模态大型语言模型(MLLMs)方面的努力旨在统一视觉理解和生成。然而,这两种能力在很大程度上仍然是独立的,仿佛它们是封装在同一模型中的两个独立功能。因此,视觉理解并没有增强视觉生成,LLM的推理机制也没有被充分整合来革新图像生成。在本文中,我们提出使视觉理解和生成的协同共同进化,将图像生成推进到一个迭代的内省过程。我们引入了一种两阶段的训练方法:监督微调教会MLLM生成视觉生成的真实思维链的基础能力,而强化学习通过探索-开发权衡激活其全部潜力。最终,我们在视觉生成中解锁了“啊哈”时刻,将MLLMs从文本到图像任务推进到统一的图像生成。大量实验表明,我们的模型不仅在文本到图像生成和图像编辑方面表现出色,而且还作为一个卓越的图像语义评估器,具有增强的视觉理解能力。项目页面:这个https URL。

[133] FDSG:动态场景图预测
标题: FDSG: Forecasting Dynamic Scene Graphs
作者: Yi Yang / Yuren Cong / Hao Cheng / Bodo Rosenhahn / Michael Ying Yang
原文:   [英文]   [中文]  
备注: 21 pages, 9 figures, 15 tables
摘要:
动态场景图生成通过建模实体关系及其时间演变,将场景图生成从图像扩展到视频。然而,现有的方法要么从观察到的帧生成场景图而没有明确建模时间动态,要么仅预测关系而假设实体标签和位置是静态的。这些限制阻碍了实体和关系动态的有效外推,限制了视频场景的理解。我们提出了预测动态场景图(FDSG),这是一种新颖的框架,可以预测未观察帧的未来实体标签、边界框和关系,同时也为观察帧生成场景图。我们的场景图预测模块利用查询分解和神经随机微分方程来建模实体和关系动态。一个时间聚合模块通过跨注意力整合预测和观察信息进一步优化预测。为了对FDSG进行基准测试,我们引入了场景图预测这一新的任务,用于完整的未来场景图预测。在Action Genome上的实验表明,FDSG在动态场景图生成、场景图预期和场景图预测方面优于最先进的方法。代码将在发表后发布。

[134] 效率与多样性兼得:利用CLIP辅助的文本到图像生成对抗网络
标题: Efficiency without Compromise: CLIP-aided Text-to-Image GANs with Increased Diversity
作者: Yuya Kobayashi / Yuhta Takida / Takashi Shibuya / Yuki Mitsufuji
原文:   [英文]   [中文]  
备注: Accepted at IJCNN 2025
摘要:
最近,生成对抗网络(GANs)已成功扩展到十亿级的大规模文本到图像数据集。然而,训练此类模型需要高昂的训练成本,限制了一些应用和研究的使用。为了降低成本,一个有前景的方向是结合预训练模型。现有利用预训练模型作为生成器的方法与其他大规模GANs相比显著降低了训练成本,但我们发现该模型在给定提示下生成的多样性大幅下降。为了在不妥协的情况下构建一个高效且高保真的文本到图像GAN,我们提出使用两个专门的判别器,并将切片对抗网络(SANs)适用于文本到图像任务。我们提出的模型称为SCAD,在给定提示下的多样性和样本保真度方面显示出显著的提升。我们还提出使用一种称为每提示多样性(PPD)的指标来定量评估文本到图像模型的多样性。SCAD在零样本FID上取得了与最新大规模GANs相当的竞争力,而训练成本降低了两个数量级。

[135] 通过对抗偏好对齐增强基于扩散的无约束对抗攻击
标题: Enhancing Diffusion-based Unrestricted Adversarial Attacks via Adversary Preferences Alignment
作者: Kaixun Jiang / Zhaoyu Chen / Haijing Guo / Jinglun Li / Jiyuan Fu / Pinxue Guo / Hao Tang / Bo Li / Wenqiang Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型中的偏好对齐主要集中在良性的人类偏好(例如,美学)上。在本文中,我们提出了一种新颖的视角:将不受限制的对抗样本生成框架化为与对手偏好对齐的问题。与良性对齐不同,对抗性对齐涉及两个本质上相互冲突的偏好:视觉一致性和攻击有效性,这通常导致不稳定的优化和奖励作弊(例如,降低视觉质量以提高攻击成功率)。为了解决这个问题,我们提出了APA(对手偏好对齐),一个两阶段的框架,解耦冲突的偏好并通过可微分的奖励优化每个偏好。在第一阶段,APA微调LoRA以使用基于规则的相似性奖励来提高视觉一致性。在第二阶段,APA根据替代分类器的反馈更新图像潜在变量或提示嵌入,指导轨迹级和逐步奖励。为了增强黑箱可转移性,我们进一步结合了一种扩散增强策略。实验表明,APA在保持高视觉一致性的同时,实现了显著更好的攻击可转移性,激励了从对齐视角研究对抗攻击的进一步研究。代码将在此https URL提供。

[136] 通过注意力感知的标记过滤加速视觉Transformer模型
标题: Speed-up of Vision Transformer Models by Attention-aware Token Filtering
作者: Takahiro Naruko / Hiroaki Akutsu
原文:   [英文]   [中文]  
备注: None
摘要:
视觉Transformer(ViT)模型在图像嵌入提取方面取得了突破,为零样本图像分类等任务提供了最先进的性能。然而,这些模型面临着较高的计算负担。在本文中,我们提出了一种名为注意力感知令牌过滤(ATF)的ViT模型加速方法。ATF由两个主要思想组成:一种新颖的令牌过滤模块和一种过滤策略。令牌过滤模块被引入到ViT模型的令牌生成器和Transformer编码器之间,而无需修改或微调Transformer编码器。该模块过滤输入到编码器的令牌,以便动态保留特定对象类型区域的令牌,并静态保留在Transformer编码器中接收高注意力的区域的令牌。该过滤策略在过滤输入到Transformer编码器的令牌的同时保持任务准确性。在检索任务上的评估结果表明,ATF为ViT模型SigLIP提供了2.8倍的加速,同时保持了检索召回率。

[137] 超越黑白:采用连续族裔标签的更细致面部识别方法
标题: Beyond black and white: A more nuanced approach to facial recognition with continuous ethnicity labels
作者: Pedro C. Neto / Naser Damer / Jaime S. Cardoso / Ana F. Sequeira
原文:   [英文]   [中文]  
备注: Under review
摘要:
面部识别模型中的偏见一直是一个常见问题。多年来,研究人员从模型和数据的角度对其进行了研究。然而,他们在缓解数据偏见方面的方法有限,缺乏对问题真实性质的深入理解。在本文中,我们建议将种族标签作为连续变量而不是每个身份的离散值来使用。我们通过实验和理论验证了我们的公式,展示了并非来自同一种族的所有身份对数据集的平衡贡献相同,因此,每个种族拥有相同数量的身份并不代表数据集是平衡的。我们进一步展示了在连续空间中平衡的数据集上训练的模型始终优于在离散空间中平衡的数据集上训练的模型。我们训练了超过65个不同的模型,并创建了原始数据集的20多个子集。

[138] G4Seg:使用扩散模型进行不精确分割优化的生成方法
标题: G4Seg: Generation for Inexact Segmentation Refinement with Diffusion Models
作者: Tianjiao Zhang / Fei Zhang / Jiangchao Yao / Ya Zhang / Yanfeng Wang
原文:   [英文]   [中文]  
备注: 16 pages, 12 figures, IEEE International Conference on Multimedia & Expo 2025
摘要:
本文研究了利用大规模文本到图像扩散模型来解决具有挑战性的非精确分割(IS)任务的问题。与传统方法严重依赖于基于判别模型的范式或从内部注意机制中导出的密集视觉表示不同,我们的方法侧重于稳定扩散(SD)中的内在生成先验。具体来说,我们利用原始图像和基于掩码生成的图像之间的模式差异,通过建立语义对应对齐和更新前景概率来促进从粗到细的分割细化。全面的定量和定性实验验证了我们即插即用设计的有效性和优越性,强调了利用生成差异来建模密集表示的潜力,并鼓励进一步探索生成方法来解决判别任务。

[139] LongDWM:用于构建长期驾驶世界模型的跨粒度蒸馏
标题: LongDWM: Cross-Granularity Distillation for Building a Long-Term Driving World Model
作者: Xiaodong Wang / Zhirong Wu / Peixi Peng
原文:   [英文]   [中文]  
备注: project homepage: this https URL
摘要:
驾驶世界模型用于通过视频生成来模拟未来,基于当前状态和动作的条件。然而,当前模型在预测长期未来时常常出现严重的误差累积,这限制了其实用性。最近的研究利用扩散变压器(DiT)作为驾驶世界模型的骨干,以提高学习的灵活性。然而,这些模型总是在短视频片段(高帧率和短时长)上进行训练,并且由于训练和推理之间的差距,多次展开生成难以产生一致且合理的长视频。为此,我们提出了几种解决方案来构建一个简单而有效的长期驾驶世界模型。首先,我们将世界模型学习分层解耦为大运动学习和双向连续运动学习。然后,考虑到驾驶场景的连续性,我们提出了一种简单的蒸馏方法,其中细粒度的视频流是粗粒度流的自监督信号。该蒸馏设计旨在提高无限视频生成的一致性。粗粒度和细粒度模块协调生成长期且时间一致的视频。在公共基准NuScenes中,与最先进的前视模型相比,我们的模型在生成110+帧的视频任务中将FVD提高了27%,并将推理时间减少了85%。更多视频(包括90秒时长)可在此https URL查看。

[140] EvolveNav:基于大型语言模型的视觉-语言导航的自我改进具身推理
标题: EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation
作者: Bingqian Lin / Yunshuang Nie / Khun Loun Zai / Ziming Wei / Mingfei Han / Rongtao Xu / Minzhe Niu / Jianhua Han / Liang Lin / Cewu Lu / Xiaodan Liang
原文:   [英文]   [中文]  
备注: None
摘要:
构建能够根据自然语言指令进行导航的视觉-语言导航(VLN)代理是人机交互应用中的一个长期目标。最近的研究揭示了训练开源大型语言模型(LLMs)的潜力,以释放LLMs的推理能力来改善导航,同时减轻LLMs的训练语料库与VLN任务之间的领域差距。然而,这些方法主要采用直接输入输出映射范式,导致映射学习困难且导航决策无法解释。链式思维(CoT)训练是一种有希望的方法,可以同时提高导航决策的准确性和可解释性,但导航任务的复杂性使得完美的CoT标签不可用,并可能通过纯CoT监督微调导致过拟合。在本文中,我们提出了一种新颖的自我改进的具身推理框架,以提升基于LLM的视觉语言导航,称为EvolveNav。我们的EvolveNav包括两个阶段:(1)形式化的CoT监督微调,我们使用形式化的CoT标签训练模型,以激活模型的导航推理能力并提高推理速度;(2)自我反思的后训练,模型通过其自身的推理输出作为自我丰富的CoT标签进行迭代训练,以增强监督的多样性。还引入了一项自我反思的辅助任务,通过与错误的推理模式进行对比,鼓励学习正确的推理模式。在流行的VLN基准测试上的实验结果表明,EvolveNav在之前基于LLM的VLN方法中具有优越性。代码可在此https URL获取。

[141] SAM2-LOVE:语言辅助的视听场景中的任意分割模型2
标题: SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual Scenes
作者: Yuji Wang / Haoran Xu / Yong Liu / Jiaze Li / Yansong Tang
原文:   [英文]   [中文]  
备注: CVPR 2025
摘要:
参考音视分割(Ref-AVS)旨在为语言辅助的音视场景(LAVS)提供逐像素的场景理解。该任务要求模型从视频中连续分割出由文本和音频指代的对象。以往的双模态方法由于缺乏第三种模态而总是失败,而现有的三模态方法在时空一致性上存在困难,导致不同帧的目标偏移。在这项工作中,我们引入了一个新颖的框架,称为SAM2-LOVE,它将文本、音频和视觉表示整合到一个可学习的标记中,以提示和对齐SAM2,从而在LAVS中实现Ref-AVS。从技术上讲,我们的方法包括一个多模态融合模块,旨在提高SAM2的多模态理解,以及标记传播和累积策略,旨在增强时空一致性而不遗忘历史信息。我们进行了广泛的实验,证明SAM2-LOVE在Ref-AVS基准上的$\mathcal{J\&F}$指标上比现有最先进方法提高了8.5\%,并展示了各组件的简单性和有效性。我们的代码将在此提供。

[142] HOSIG:基于层次场景感知的全身人体-物体-场景交互生成
标题: HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception
作者: Wei Yao / Yunlian Sun / Hongwen Zhang / Yebin Liu / Jinhui Tang
原文:   [英文]   [中文]  
备注: None
摘要:
在计算机图形学和动画中,生成与动态物体和静态场景的高保真全身人类交互仍然是一个关键挑战。现有的人物-物体交互方法往往忽视场景背景,导致不合理的穿透现象,而人物-场景交互方法则难以协调细粒度的操作与长距离的导航。为了解决这些局限性,我们提出了HOSIG,这是一种通过分层场景感知合成全身交互的新框架。我们的方法将任务分解为三个关键组件:1)一个场景感知的抓握姿势生成器,通过整合局部几何约束,确保无碰撞的全身姿势和精确的手-物接触;2)一个启发式导航算法,通过压缩的二维平面图和双组件空间推理,在复杂的室内环境中自主规划避障路径;3)一个场景引导的运动扩散模型,通过结合空间锚点和双空间无分类器指导,生成具有手指级精度的轨迹控制全身运动。在TRUMANS数据集上的大量实验表明,我们的方法在性能上优于最先进的方法。值得注意的是,我们的框架通过自回归生成支持无限运动长度,并且需要最少的人工干预。这项工作弥合了场景感知导航和灵巧物体操作之间的关键差距,推进了具身交互合成的前沿。代码将在发表后提供。项目页面:this http URL

[143] 野外多模态数据集蒸馏
标题: Multi-Modal Dataset Distillation in the Wild
作者: Zhuohang Dang / Minnan Luo / Chengyou Jia / Hangwei Qian / Xiaojun Chang / Ivor W. Tsang
原文:   [英文]   [中文]  
备注: None
摘要:
最近的多模态模型在现实世界应用中表现出显著的多功能性。然而,它们的快速发展面临两个关键的数据挑战。首先,训练过程需要大规模数据集,导致巨大的存储和计算成本。其次,这些数据通常是从网络抓取的,难免存在噪声,即部分不匹配的对,严重降低了模型性能。为此,我们提出了“野外多模态数据集蒸馏”(MDW),这是第一个将噪声多模态数据集蒸馏成紧凑干净数据集的框架,以实现有效和高效的模型训练。具体来说,MDW在蒸馏过程中引入可学习的细粒度对应关系,并自适应地优化蒸馏数据以强调对应关系的辨别区域,从而增强蒸馏数据的信息密度和效能。此外,为了从真实数据中捕获稳健的跨模态对应先验知识,MDW提出了双轨协同学习,以避免风险数据噪声,并通过可认证的噪声容忍度缓解信息损失。大量实验验证了MDW的理论和实证效能,具有显著的可扩展性,在各种压缩比上超过了之前的方法15%以上,突显了其在具有多样效能和资源需求的应用中的吸引力。

[144] EPFL智能厨房30:密集标注的烹饪数据集,包含3D运动学,用于挑战视频和语言模型
标题: EPFL-Smart-Kitchen-30: Densely annotated cooking dataset with 3D kinematics to challenge video and language models
作者: Andy Bonnetto / Haozhe Qi / Franklin Leong / Matea Tashkovska / Mahdi Rad / Solaiman Shokur / Friedhelm Hummel / Silvestro Micera / Marc Pollefeys / Alexander Mathis
原文:   [英文]   [中文]  
备注: Code and data at: this https URL
摘要:
理解行为需要能够捕捉人类执行复杂任务的数据集。厨房是评估人类运动和认知功能的绝佳环境,因为在厨房中自然会展示许多复杂的动作,从切菜到清洁。在此,我们介绍了EPFL-Smart-Kitchen-30数据集,该数据集是在厨房环境中的非侵入式动作捕捉平台上收集的。我们使用了九个静态RGB-D摄像头、惯性测量单元(IMUs)和一个头戴式HoloLens 2头显来捕捉3D手部、身体和眼睛的运动。EPFL-Smart-Kitchen-30数据集是一个多视角动作数据集,包含同步的外部视角、第一人称视角、深度、IMUs、眼动、身体和手部运动学,涵盖了16名受试者烹饪四种不同食谱的29.7小时。动作序列被密集标注,每分钟有33.78个动作片段。利用这个多模态数据集,我们提出了四个基准,以推进行为理解和建模:1)视觉-语言基准,2)语义文本到动作生成基准,3)多模态动作识别基准,4)基于姿态的动作分割基准。我们期望EPFL-Smart-Kitchen-30数据集能够为更好的方法以及对生态有效的人类行为的理解提供新的途径。代码和数据可在此https URL获取。

[145] 通过相似特征激活进行度量学习的视觉解释
标题: Visual Explanation via Similar Feature Activation for Metric Learning
作者: Yi Liao / Ugochukwu Ejike Akpudo / Jue Zhang / Yongsheng Gao / Jun Zhou / Wenyi Zeng / Weichuan Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
视觉解释图增强了深度学习模型决策的可信度,并为图像识别任务中新算法的开发提供了宝贵的指导。类激活图(CAM)及其变体(例如,Grad-CAM 和 Relevance-CAM)已被广泛用于探索基于 softmax 的卷积神经网络的可解释性,这些网络需要一个全连接层作为决策的分类器。然而,这些方法不能直接应用于度量学习模型,因为此类模型缺乏作为分类器的全连接层。为了解决这一限制,我们提出了一种新颖的视觉解释方法,称为相似特征激活图(SFAM)。该方法引入了通道贡献重要性分数(CIS)来衡量特征的重要性,该分数是从两个图像嵌入之间的相似性测量中得出的。解释图通过将所提出的重要性权重与 CNN 模型的特征图线性组合来构建。定量和定性实验表明,SFAM 为使用欧几里得距离或余弦相似度作为相似性度量的 CNN 模型提供了高度有前途的可解释视觉解释。

[146] Zoom-Refine:通过局部缩放和自我精炼提升高分辨率多模态理解
标题: Zoom-Refine: Boosting High-Resolution Multimodal Understanding via Localized Zoom and Self-Refinement
作者: Xuan Yu / Dayan Guan / Michael Ying Yang / Yanfeng Gu
原文:   [英文]   [中文]  
备注: Code is available at this https URL
摘要:
多模态大语言模型(MLLM)通常难以准确解读高分辨率图像,而在复杂的视觉理解中,细粒度的细节至关重要。我们介绍了一种名为Zoom-Refine的新颖无训练方法,以增强MLLM在这方面的能力。Zoom-Refine通过“局部放大”和“自我精炼”的协同过程来运行。在“局部放大”步骤中,Zoom-Refine利用MLLM对输入查询提供初步响应,并通过预测其边界框坐标来识别与任务最相关的图像区域。在“自我精炼”步骤中,Zoom-Refine将高分辨率裁剪(由“局部放大”识别)的细粒度细节与其初始推理相结合,以重新评估和完善其初步响应。我们的方法利用MLLM固有的空间定位、上下文推理和比较分析能力,而无需额外的训练或外部专家。全面的实验展示了Zoom-Refine在两个具有挑战性的高分辨率多模态基准上的有效性。代码可在此链接获取:\href{this https URL}{\color{magenta}this http URL}

[147] 地球心智:利用大型多模态模型实现多粒度和多传感器的地球观测
标题: EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models
作者: Yan Shu / Bin Ren / Zhitong Xiong / Danda Pani Paudel / Luc Van Gool / Begum Demir / Nicu Sebe / Paolo Rota
原文:   [英文]   [中文]  
备注: None
摘要:
大型多模态模型(LMMs)在各种视觉-语言任务中表现出色。然而,它们往往难以全面理解地球观测(EO)数据,而这对于监测环境及人类活动对环境的影响至关重要。在这项工作中,我们提出了EarthMind,这是一种用于多粒度和多传感器EO数据理解的新型视觉-语言框架。EarthMind具有两个核心组件:(1)空间注意力提示(SAP),它在大型语言模型(LLM)中重新分配注意力以增强像素级理解;(2)跨模态融合,它将异构模态对齐到一个共享空间,并根据信息密度自适应地重新加权标记以实现有效融合。为了促进多传感器融合评估,我们提出了EarthMind-Bench,这是一个综合基准,包含超过2000个人工标注的多传感器图像-问题对,涵盖广泛的感知和推理任务。大量实验表明了EarthMind的有效性。它在EarthMind-Bench上实现了最先进的性能,尽管规模仅为4B,却超越了GPT-4o。此外,EarthMind在多个公共EO基准上优于现有方法,展示了其在统一框架中处理多粒度和多传感器挑战的潜力。

[148] MotionSight:提升多模态大型语言模型中的细粒度运动理解
标题: MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs
作者: Yipeng Du / Tiehan Fan / Kepan Nan / Rui Xie / Penghao Zhou / Xiang Li / Jian Yang / Zhenheng Yang / Ying Tai
原文:   [英文]   [中文]  
备注: None
摘要:
尽管多模态大型语言模型(MLLMs)取得了进展,但它们在细粒度视频运动理解方面的能力仍然严重受限。它们通常缺乏帧间差分,并倾向于平均化或忽略细微的视觉线索。此外,虽然视觉提示在静态图像中显示出潜力,但其在视频的时间复杂性应用,特别是细粒度运动理解方面,仍然基本未被探索。我们研究是否可以解锁内在能力,提升MLLMs的运动感知,并使其能够识别出与对象和摄像机运动线索分离的独特视觉特征。在这项研究中,我们引入了MotionSight,这是一种创新的零样本方法,开创了以对象为中心的视觉聚焦和运动模糊作为视觉提示,以有效提高细粒度运动理解而无需训练。为了将其转化为有价值的数据资产,我们策划了MotionVid-QA,这是第一个用于细粒度视频运动理解的大规模数据集,具有分层注释,包括SFT和偏好数据,约40K个视频片段和约87K个问答。实验表明,MotionSight在开源性能方面达到了最先进的水平,并具有与商业模型竞争的能力。特别是对于细粒度运动理解,我们提出了一种新颖的零样本技术和一个大规模、高质量的数据集。所有代码和注释将公开提供。

[149] SteerPose:通过关节运动同时进行外部相机校准和匹配
标题: SteerPose: Simultaneous Extrinsic Camera Calibration and Matching from Articulation
作者: Sang-Eun Lee / Ko Nishino / Shohei Nobuhara
原文:   [英文]   [中文]  
备注: 13 pages
摘要:
自由移动的人类或动物本身能否在多摄像机系统中作为校准目标,同时估计它们在不同视角下的对应关系?我们人类可以通过在脑海中旋转观察到的二维姿态,并将其与目标视角中的姿态对齐来解决这个问题。受这种认知能力的启发,我们提出了SteerPose,这是一种神经网络,可以将二维姿态旋转到另一个视角。通过整合可微分匹配,SteerPose在一个统一的框架内同时执行外部摄像机校准和对应关系搜索。我们还引入了一种新的几何一致性损失,明确确保估计的旋转和对应关系能够产生有效的平移估计。在各种真实环境下的人类和动物数据集上的实验结果验证了所提方法的有效性和鲁棒性。此外,我们展示了我们的方法可以通过利用现成的二维姿态估计器和我们的类别无关模型,在多摄像机设置中重建新动物的三维姿态。

[150] 通过信息最大化的数据剪枝
标题: Data Pruning by Information Maximization
作者: Haoru Tan / Sitong Wu / Wei Huang / Shizhen Zhao / Xiaojuan Qi
原文:   [英文]   [中文]  
备注: ICLR 2025
摘要:
在本文中,我们提出了一种名为InfoMax的新型数据剪枝方法,也称为核心集选择,旨在最大化所选样本的信息含量,同时最小化冗余。通过这样做,InfoMax增强了核心集的整体信息性。单个样本的信息通过重要性分数来衡量,这些分数捕捉了它们在模型学习中的影响或难度。为了量化冗余,我们使用成对样本相似性,基于相似样本在学习过程中贡献相似的前提。我们将核心集选择问题形式化为一个离散二次规划(DQP)任务,目标是最大化总信息含量,表示为单个样本贡献之和减去核心集中相似样本引入的冗余。为了确保实际的可扩展性,我们引入了一种高效的基于梯度的求解器,并辅以应用于相似性矩阵的稀疏化技术和数据集分区策略。这使得InfoMax能够无缝扩展到包含数百万样本的数据集。大量实验表明,InfoMax在各种数据剪枝任务中表现优越,包括图像分类、视觉-语言预训练和大语言模型的指令微调。

[151] 通过开放数据进行视觉-语言模型适应的主动学习
标题: Active Learning via Vision-Language Model Adaptation with Open Data
作者: Tong Wang / Jiaqi Wang / Shu Kong
原文:   [英文]  
备注: Here is the project webpage: this https URL
摘要:
在网络规模的开放数据上进行预训练后,视觉语言模型(VLMs)在适应特定任务的标注数据后,能够强有力地解决下游任务。然而,数据标注可能成本高昂,并且可能需要领域专业知识。主动学习(AL)旨在通过战略性地选择最具信息量的数据进行标注和模型训练,以减少这种开销。最近的主动学习方法已经探索了VLMs,但尚未利用公开可用的开放数据,例如VLM的预训练数据。在这项工作中,我们通过检索与任务相关的示例来增强特定任务的示例,从而利用这些数据。如预期的那样,结合这些数据显著改善了主动学习。鉴于我们的方法利用了开源的VLM和开放数据,我们称之为使用开放资源的主动学习(ALOR)。此外,大多数基于VLM的主动学习方法使用提示调优(PT)进行模型适应,可能是因为它能够直接利用预训练参数,并假设这样做可以降低过拟合于有限标注数据的风险。我们严格比较了流行的适应方法,包括线性探测(LP)、微调(FT)和对比调优(CT)。我们揭示了两个关键发现:(1)所有适应方法都从结合检索数据中受益,并且(2)CT在所有主动学习方法中显著优于其他方法。对检索数据的进一步分析揭示了任务相关类别的自然不平衡分布,暴露了VLM内在的偏见。这激发了我们提出一种新颖的尾部优先采样(TFS)策略用于主动学习,这是一种极其简单但有效的方法,优先从代表性不足的类别中采样数据进行标注。大量实验表明,我们的最终方法,即在检索和TFS选择的标注数据上对VLM进行对比微调,显著优于现有方法。

[152] VideoCap-R1:通过结构化思维增强多模态大模型的视频字幕生成能力
标题: VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking
作者: Desen Meng / Rui Huang / Zhilin Dai / Xinhao Li / Yifan Xu / Jun Zhang / Zhenpeng Huang / Meng Zhang / Lingshu Zhang / Yi Liu / Limin Wang
原文:   [英文]   [中文]  
备注: None
摘要:
尽管近年来强化学习的进步显著增强了大型语言模型(LLMs)的推理能力,但这些技术在用于视频字幕的多模态LLMs中仍未得到充分探索。本文首次系统性地研究了基于GRPO的RL后训练在视频MLLMs中的应用,旨在提升视频MLLMs描述视频中动作的能力。具体而言,我们开发了VideoCap-R1,该模型首先被提示进行结构化思考,分析视频主体及其属性和动作,然后生成完整的字幕,并辅以两种专门的奖励机制:一个无需LLM的思考评分器评估结构化思考的质量,以及一个LLM辅助的字幕评分器评估输出质量。RL训练框架有效地建立了结构化推理与全面描述生成之间的联系,使模型能够生成动作更准确的字幕。我们的实验表明,VideoCap-R1在多个视频字幕基准测试中(DREAM1K: +4.4事件F1,VDC: +4.2准确率,CAREBENCH: +3.1动作F1,+6.9对象F1)使用有限样本(1.5k)显著优于Qwen2VL-7B基线,同时始终超越SFT训练的对照组,证实了GRPO在增强MLLMs字幕能力方面的优越性。

[153] STORM:使用综合有序回归数据集对多模态大模型的视觉评分进行基准测试
标题: STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset
作者: Jinhong Wang / Shuo Tong / Jian liu / Dongqi Tang / Jintai Chen / Haochao Ying / Hongxia Xu / Danny Chen / Jian Wu
原文:   [英文]   [中文]  
备注: underreview of NIPS2025 D&B track
摘要:
视觉评分是人工智能(AI)在视觉内容多维量化中的一项重要能力,主要应用于图像质量评估、面部年龄估计和医学图像分级等序数回归(OR)任务。然而,目前的多模态大语言模型(MLLMs)在这种视觉评分能力上表现不佳,同时也缺乏相关的数据集和基准。在这项工作中,我们收集并提出了STORM,这是一个用于刺激MLLMs在通用视觉评分中可信序数回归能力的数据集和基准。STORM涵盖了五个常见视觉评分领域的14个序数回归数据集,包括65.5万对图像级别的对比及相应精心策划的视觉问答。重要的是,我们还提出了一种由粗到细的处理流程,该流程动态考虑标签候选项并提供可解释的思路,为MLLMs提供了一种通用且可信的序数思维范式。该基准旨在评估MLLMs在需要理解评分标签基本常见序数关系的场景中的一体化和零样本性能。大量实验表明,我们的框架是有效的,并为更好的微调策略提供了启示。STORM数据集、基准和预训练模型可在以下网页上获取,以支持该领域的进一步研究。数据集和代码已在项目页面上发布:this https URL。

[154] 利用多模态数据的高效自我中心动作识别
标题: Efficient Egocentric Action Recognition with Multimodal Data
作者: Marco Calzavara / Ard Kastrati / Matteo Macchini / Dushan Vasilevski / Roger Wattenhofer
原文:   [英文]   [中文]  
备注: Accepted as an extended abstract at the Second Joint Egocentric Vision (EgoVis) Workshop, 2025
摘要:
可穿戴XR设备的日益普及为自我中心动作识别(EAR)系统开辟了新的视角,这些系统可以提供更深入的人类理解和情境感知。然而,由于便携性、电池寿命和计算资源之间的固有权衡,在这些设备上部署实时算法可能具有挑战性。在这项工作中,我们系统地分析了不同输入模态——RGB视频和3D手势——的采样频率对自我中心动作识别性能和CPU使用情况的影响。通过探索一系列配置,我们全面描述了准确性与计算效率之间的权衡。我们的研究结果表明,降低RGB帧的采样率,同时配合更高频率的3D手势输入,可以在显著降低CPU需求的同时保持高准确性。值得注意的是,我们观察到CPU使用量最多可减少3倍,而识别性能几乎没有损失。这突显了多模态输入策略作为在XR设备上实现高效实时EAR的可行方法的潜力。

[155] 多对多:统一训练多种视频和图像生成与操作任务
标题: Many-for-Many: Unify the Training of Multiple Video and Image Generation and Manipulation Tasks
作者: Tao Yang / Ruibin Li / Yangming Shi / Yuqi Zhang / Qide Dong / Haoran Cheng / Weiguo Feng / Shilei Wen / Bingyue Peng / Lei Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型在许多视觉生成和操作任务中表现出色。许多现有方法专注于为特定任务训练模型,尤其是文本到视频(T2V)生成,而其他许多工作则专注于微调预训练的T2V模型以用于图像到视频(I2V)、视频到视频(V2V)、图像和视频操作任务等。然而,训练一个强大的T2V基础模型需要大量高质量的注释,这非常昂贵。此外,许多现有模型只能执行一个或几个任务。在这项工作中,我们介绍了一个统一框架,即多对多,该框架利用来自许多不同视觉生成和操作任务的可用训练数据来训练一个单一模型以执行这些不同任务。具体来说,我们设计了一个轻量级适配器来统一不同任务中的不同条件,然后采用联合图像-视频学习策略从头开始逐步训练模型。我们的联合学习导致了一个统一的视觉生成和操作模型,并提高了视频生成性能。此外,我们引入深度图作为条件,以帮助我们的模型更好地感知视觉生成中的3D空间。我们的模型有两个版本,分别采用不同的模型规模(8B和2B),每个版本都可以执行超过10个不同的任务。特别是,我们的8B模型在视频生成任务中表现出高度竞争力,与开源甚至商业引擎相比。我们的模型和源代码可在此https URL获取。

[156] unMORE:通过中心边界推理进行无监督多目标分割
标题: unMORE: Unsupervised Multi-Object Segmentation via Center-Boundary Reasoning
作者: Yafei Yang / Zihui Zhang / Bo Yang
原文:   [英文]   [中文]  
备注: ICML 2025. Code and data are available at: this https URL
摘要:
我们研究了单张图像中无监督多目标分割的挑战性问题。现有的方法依赖于图像重建目标来学习物体性,或利用预训练的图像特征来聚合相似像素,通常只能成功分割简单的合成物体或发现有限数量的真实世界物体。在本文中,我们介绍了unMORE,这是一种新颖的两阶段流程,旨在识别真实世界图像中的许多复杂物体。我们方法的关键在于在第一阶段明确学习三个精心定义的以物体为中心的表示。随后,我们的多目标推理模块利用这些学习到的物体先验在第二阶段发现多个物体。值得注意的是,这个推理模块完全不依赖于网络,也不需要人工标注。大量实验表明,unMORE在包括具有挑战性的COCO数据集在内的6个真实世界基准数据集上,显著优于所有现有的无监督方法,实现了最先进的目标分割结果。值得一提的是,我们的方法在所有基线方法失效的拥挤图像中表现出色。

[157] FaceCoT:用于面部防伪的链式思维推理基准数据集
标题: FaceCoT: A Benchmark Dataset for Face Anti-Spoofing with Chain-of-Thought Reasoning
作者: Honglu Zhang / Zhiqin Fang / Ningning Zhao / Saihui Hou / Long Ma / Renwang Pei / Zhaofeng He
原文:   [英文]   [中文]  
备注: None
摘要:
面部防伪(FAS)通常依赖单一视觉模态来防御诸如打印攻击、屏幕重播和3D面具等展示攻击,这导致在设备、环境和攻击类型之间的泛化能力有限。同时,多模态大型语言模型(MLLMs)最近在图像-文本理解和语义推理方面取得了突破,这表明将视觉和语言的共同推理整合到FAS中可以显著提高其鲁棒性和可解释性。然而,缺乏高质量的视觉-语言多模态数据集一直是一个关键瓶颈。为了解决这个问题,我们引入了FaceCoT(面部思维链),这是第一个专为FAS量身定制的大规模视觉问答(VQA)数据集。FaceCoT涵盖了14种欺骗攻击类型,并通过高质量的思维链VQA注释丰富了模型学习。同时,我们开发了一种通过强化学习优化的字幕模型,以扩展数据集并提高注释质量。此外,我们引入了一种思维链增强渐进学习(CEPL)策略,以更好地利用思维链数据并提升模型在FAS任务上的表现。大量实验表明,使用FaceCoT和CEPL训练的模型在多个基准数据集上优于最先进的方法。

[158] R2SM:用于选择性掩码的指代与推理
标题: R2SM: Referring and Reasoning for Selective Masks
作者: Yu-Lin Shih / Wei-En Tai / Cheng Sun / Yu-Chiang Frank Wang / Hwann-Tzong Chen
原文:   [英文]   [中文]  
备注: None
摘要:
我们引入了一项新任务,称为选择性掩码的指代与推理(R2SM),通过结合用户意图驱动的掩码类型选择来扩展文本引导的分割。这项任务挑战视觉语言模型,仅基于自然语言提示来确定是生成模态(可见)还是非模态(完整)分割掩码。为了支持R2SM任务,我们提出了R2SM数据集,该数据集通过增强COCOA-cls、D2SA和MUVA的注释构建而成。R2SM数据集由模态和非模态文本查询组成,每个查询都与相应的真实掩码配对,支持模型微调和评估其根据用户意图分割图像的能力。具体来说,该任务要求模型解释给定的提示是仅指代对象的可见部分,还是包括遮挡区域在内的完整形状,然后生成适当的分割。例如,如果提示明确要求部分隐藏对象的完整形状,模型应输出一个完成遮挡部分的非模态掩码。相反,没有明确提及隐藏区域的提示应生成标准的模态掩码。R2SM基准为推进多模态推理和意图感知分割的研究提供了一个具有挑战性和启发性的测试平台。

[159] WorldExplorer:迈向生成完全可导航的3D场景
标题: WorldExplorer: Towards Generating Fully Navigable 3D Scenes
作者: Manuel-Andreas Schneider / Lukas Höllein / Matthias Nießner
原文:   [英文]   [中文]  
备注: project page: see this https URL, video: see this https URL
摘要:
从文本生成3D世界是计算机视觉领域一个备受期待的目标。现有的工作在场景内部的探索程度上受到限制,即在超出中心或全景视角时会产生拉伸和噪声伪影。为此,我们提出了WorldExplorer,这是一种基于自回归视频轨迹生成的新方法,可以在广泛的视角范围内构建具有一致视觉质量的完全可导航3D场景。我们通过创建与360度全景相对应的多视图一致图像来初始化我们的场景。然后,我们通过在迭代场景生成管道中利用视频扩散模型来扩展它。具体来说,我们沿着短的预定义轨迹生成多个视频,深入探索场景,包括围绕物体的运动。我们新颖的场景记忆机制使每个视频都基于最相关的先前视图,而碰撞检测机制防止了退化结果,例如进入物体内部。最后,我们通过3D高斯点优化将所有生成的视图融合成一个统一的3D表示。与之前的方法相比,WorldExplorer生成的高质量场景在大范围的相机运动下仍然保持稳定,首次实现了真实且不受限制的探索。我们相信这标志着生成沉浸式和真正可探索的虚拟3D环境的重要一步。

[160] OmniV2V:通过动态内容操控实现多功能视频生成与编辑
标题: OmniV2V: Versatile Video Generation and Editing via Dynamic Content Manipulation
作者: Sen Liang / Zhentao Yu / Zhengguang Zhou / Teng Hu / Hongmei Wang / Yi Chen / Qin Lin / Yuan Zhou / Xin Li / Qinglin Lu / Zhibo Chen
原文:   [英文]   [中文]  
备注: None
摘要:
扩散变压器(DiT)的出现为视频生成带来了显著的进步,特别是在文本到视频和图像到视频的任务中。尽管视频生成在各个领域得到了广泛应用,但大多数现有模型仅限于单一场景,无法通过动态内容操作实现多样化的视频生成和编辑。我们提出了OmniV2V,这是一种能够基于多种操作在不同场景中生成和编辑视频的视频模型,包括:对象移动、对象添加、基于掩码的视频编辑、试穿、修复、扩展、人类动画和可控角色视频合成。我们探索了一种统一的动态内容操作注入模块,有效整合了上述任务的需求。此外,我们设计了一个基于LLaVA的视觉-文本指令模块,使模型能够有效理解视觉内容与指令之间的对应关系。此外,我们构建了一个全面的多任务数据处理系统。由于各种任务之间存在数据重叠,该系统可以高效地提供数据增强。利用该系统,我们构建了一个多类型、多场景的OmniV2V数据集及其对应的OmniV2V-Test基准。大量实验表明,OmniV2V在许多视频生成和编辑任务中表现与现有的最佳开源和商业模型一样好,有时甚至更好。

[161] UMA:通过多层次表面对齐实现超精细人类化身
标题: UMA: Ultra-detailed Human Avatars via Multi-level Surface Alignment
作者: Heming Zhu / Guoxing Sun / Christian Theobalt / Marc Habermann
原文:   [英文]   [中文]  
备注: For video results, see this https URL
摘要:
从多视角视频中学习具有生动动态和逼真外观的可动画着装人类头像模型是计算机图形学和视觉中的一个重要基础研究问题。受益于隐式表示的最新进展,通过将隐式表示附加到可驱动的人体模板网格上,可动画头像的质量达到了前所未有的水平。然而,它们通常无法保持最高级别的细节,特别是在虚拟相机放大和以4K分辨率及更高分辨率渲染时尤为明显。我们认为,这一限制源于不准确的表面跟踪,具体表现为角色几何与真实表面之间的深度不对齐和表面漂移,这迫使详细的外观模型来补偿几何误差。为了解决这个问题,我们提出了一种潜在变形模型,并利用基础2D视频点跟踪器的指导来监督可动画角色的3D变形,这些跟踪器在阴影和表面变化方面具有更好的鲁棒性,并且比可微渲染更不容易陷入局部极小值。为了减轻随时间的漂移和2D点跟踪器缺乏3D意识的问题,我们引入了一种级联训练策略,通过将点跟踪锚定到渲染的头像上生成一致的3D点跟踪,最终在顶点和纹素级别监督我们的头像。为了验证我们方法的有效性,我们引入了一个新颖的数据集,包括五个多视角视频序列,每个序列的时长超过10分钟,使用40台校准的6K分辨率相机拍摄,拍摄对象穿着具有挑战性纹理图案和皱褶变形的服装。与之前的最先进技术相比,我们的方法在渲染质量和几何精度方面表现出显著的改进。

[162] Ridgeformer:用于细粒度跨域指纹识别的多阶段对比训练
标题: Ridgeformer: Mutli-Stage Contrastive Training For Fine-grained Cross-Domain Fingerprint Recognition
作者: Shubham Pandey / Bhavin Jawade / Srirangaraj Setlur
原文:   [英文]   [中文]  
备注: Accepted to IEEE International Conference on Image Processing 2025
摘要:
随着对卫生和便携式生物识别系统需求的增加,推动了无接触指纹识别技术进步的关键需求。尽管这种技术具有潜力,但它面临着显著的挑战,包括图像获取时的失焦、指纹脊和谷之间对比度降低、手指位置变化以及透视失真。这些因素严重影响了无接触指纹匹配的准确性和可靠性。为了解决这些问题,我们提出了一种新颖的基于多阶段变压器的无接触指纹匹配方法,该方法首先捕捉全局空间特征,然后在指纹样本之间细化局部特征对齐。通过采用分层特征提取和匹配流程,我们的方法在确保全局特征表示稳健性的同时,实现了细粒度的跨样本对齐。我们在不同的评估协议下(如无接触到接触匹配和无接触到无接触匹配),对HKPolyU和RidgeBase等公开数据集进行了广泛评估,结果表明我们提出的方法优于现有方法,包括商用现成解决方案。

[163] GSCodec Studio:一个用于高斯斑点压缩的模块化框架
标题: GSCodec Studio: A Modular Framework for Gaussian Splat Compression
作者: Sicheng Li / Chengzhen Wu / Hao Li / Xiang Gao / Yiyi Liao / Lu Yu
原文:   [英文]   [中文]  
备注: Repository of the project: this https URL
摘要:
3D高斯散点及其在4D动态场景中的扩展能够实现从现实世界捕获的照片级真实感的实时渲染,使高斯散点(GS)成为下一代沉浸式媒体的有前途的格式。然而,其高存储需求在共享、传输和存储的实际应用中带来了显著挑战。尽管有各种研究从不同角度探索GS压缩,这些努力仍然分散在不同的代码库中,给基准测试和最佳实践的整合带来了困难。为了解决这一差距,我们提出了GSCodec Studio,一个统一且模块化的GS重建、压缩和渲染框架。该框架将多种3D/4D GS重建方法和GS压缩技术作为模块化组件,便于灵活组合和全面比较。通过整合社区研究的最佳实践和我们自己的探索,GSCodec Studio支持开发静态和动态高斯散点的紧凑表示和压缩解决方案,即我们的静态和动态GSCodec,在静态和动态GS压缩中实现了具有竞争力的率失真性能。我们的框架代码已在此https URL上公开,以推动高斯散点压缩的研究。

[164] MoDA:用于指令性多模态大模型中细粒度视觉定位的调制适配器
标题: MoDA: Modulation Adapter for Fine-Grained Visual Grounding in Instructional MLLMs
作者: Wayner Barrios / Andrés Villa / Juan León Alcázar / SouYoung Jin / Bernard Ghanem
原文:   [英文]   [中文]  
备注: None
摘要:
最近,多模态大型语言模型(MLLMs)通过将预训练的视觉编码器与大型语言模型(LLMs)结合,在指令跟随任务中表现出色。然而,现有的方法往往难以在复杂场景中实现细粒度视觉概念的落地。在本文中,我们提出了MoDA(调制适配器),这是一种轻量但有效的模块,旨在通过指令引导的调制来优化预对齐的视觉特征。我们的方法遵循标准的LLaVA训练协议,包括两个阶段的过程:(1)通过冻结的视觉编码器和适配器层将图像特征对齐到LLMs的输入空间;(2)在指令调优阶段使用MoDA适配器优化这些特征。MoDA采用基于Transformer的交叉注意力机制,在对齐的视觉标记上生成调制掩码,从而根据语言指令强调语义相关的嵌入维度。调制后的特征随后被传递给LLM进行自回归语言生成。我们的实验评估表明,MoDA改善了视觉落地,并生成了更具上下文适应性的响应,展示了其作为基于图像的MLLMs通用增强的有效性。

[165] ShapeLLM-Omni:用于3D生成和理解的原生多模态大型语言模型
标题: ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding
作者: Junliang Ye / Zhengyi Wang / Ruowen Zhao / Shenghao Xie / Jun Zhu
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
最近,ChatGPT-4o 强大的文本到图像能力使得人们对原生多模态大型语言模型的关注日益增加。然而,其多模态能力仍然局限于图像和文本。然而,除了图像之外,理解和生成三维内容的能力同样重要。为了解决这一差距,我们提出了 ShapeLLM-Omni——一种能够理解和生成三维资产和文本的原生三维大型语言模型。首先,我们训练了一个三维向量量化变分自编码器(VQVAE),将三维对象映射到离散潜在空间,以实现高效且准确的形状表示和重建。在三维感知的离散标记的基础上,我们创新性地构建了一个名为 3D-Alpaca 的大规模连续训练数据集,涵盖生成、理解和编辑,从而为未来的研究和训练提供丰富的资源。最后,通过在 3D-Alpaca 数据集上对 Qwen-2.5-vl-7B-Instruct 模型进行基于指令的训练。我们的工作为扩展具有基本三维能力的多模态模型提供了一次有效的尝试,这有助于未来三维原生人工智能的研究。项目页面:this https URL

[166] 通过多尺度预训练和扰动报告判别增强生物医学多模态表示学习
标题: Enhancing Biomedical Multi-modal Representation Learning with Multi-scale Pre-training and Perturbed Report Discrimination
作者: Xinliu Zhong / Kayhan Batmanghelich / Li Sun
原文:   [英文]   [中文]  
备注: 6 pages, 1 figure, accepted by 2024 IEEE Conference on Artificial Intelligence (CAI)
摘要:
预训练在大规模未标记的生物医学图像和相关报告上的视觉-语言模型能够学习可泛化的语义表示。这些多模态表示可以为生物医学领域的各种下游任务带来益处。对比学习被广泛用于预训练一般自然图像及其相关标题的视觉-语言模型。尽管其受欢迎,我们发现生物医学文本具有复杂且领域特定的语义,这些常见的对比方法往往忽略了这些语义。为了解决这个问题,我们提出了一种新方法,扰动报告辨别,用于预训练生物医学视觉-语言模型。首先,我们策划了一组文本扰动方法,这些方法保持相同的词汇,但破坏句子的语义结构。接下来,我们对报告应用不同类型的扰动,并使用模型在给定相关图像的情况下区分原始报告和扰动报告。与此并行,我们通过对比图像-文本对中的注意力加权图像子区域和子词来增强我们方法对两种模态更高层次细粒度的敏感性。我们在多个下游任务上进行了广泛的实验,我们的方法优于强基线方法。结果表明,我们的方法学习到了更具语义意义和鲁棒性的多模态表示。

[167] 视频大语言模型的强化学习调优:奖励设计与数据效率
标题: Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency
作者: Hongyu Li / Songhao Han / Yue Liao / Junfeng Luo / Jialin Gao / Shuicheng Yan / Si Liu
原文:   [英文]   [中文]  
备注: None
摘要:
理解具有复杂语义和长时间依赖的真实世界视频仍然是计算机视觉中的一个基本挑战。最近在多模态大语言模型(MLLMs)方面的进展展示了其在视觉-语言任务中的强大能力,而强化学习调优(RLT)进一步提升了它们的推理能力。在这项工作中,我们探索了RLT作为一种后训练策略,以增强MLLMs的视频特定推理能力。基于群体相对策略优化(GRPO)框架,我们提出了一种双重奖励公式,通过离散和连续奖励信号监督语义和时间推理。为了促进有效的基于偏好的优化,我们引入了一种基于重复推理的方差感知数据选择策略,以识别提供信息学习信号的样本。我们在八个具有代表性的视频理解任务中评估了我们的方法,包括视频问答(VideoQA)、时间视频定位和基础视频问答(Grounded VideoQA)。我们的方法在显著减少训练数据的情况下,一贯优于监督微调和现有的RLT基线,取得了卓越的性能。这些结果强调了奖励设计和数据选择在推进以推理为中心的视频理解中的重要性。值得注意的是,最初的代码发布(两个月前)现已通过更新得到扩展,包括优化的奖励机制和额外的数据集。最新版本可在此https URL获取。

[168] 阐明无条件扩散模型去噪器中图像的表示
标题: Elucidating the representation of images within an unconditional diffusion model denoiser
作者: Zahra Kadkhodaie / Stéphane Mallat / Eero Simoncelli
原文:   [英文]   [中文]  
备注: None
摘要:
生成扩散模型通过使用神经网络估计分数来学习多样化图像数据集的概率密度,该神经网络经过训练以去除噪声。尽管在生成高质量图像方面取得了显著成功,但其底层分数网络的内部机制尚未被充分理解。在此,我们研究了一个在ImageNet数据集上训练用于去噪的UNet,以更好地理解其内部表示和分数的计算。我们展示了UNet的中间块如何将单个图像分解为稀疏的活跃通道子集,并且这些通道的空间平均向量可以提供底层干净图像的非线性表示。我们开发了一种新颖的算法,用于从这种表示中随机重建图像,并证明它可以从由目标图像表示定义的一组图像中恢复样本。随后,我们研究了这种表示的性质,并证明潜在空间中的欧几里得距离对应于由表示引起的条件密度之间的距离以及图像空间中的语义相似性。在表示空间中应用聚类算法会产生一组图像,这些图像不仅共享细节(例如,专门的特征、纹理区域、小物体),还共享全局结构,但与对象身份只有部分对齐。因此,我们首次展示了一个仅在去噪上训练的网络包含丰富且可访问的图像稀疏表示。

[169] MedEBench:重访文本指导的图像编辑
标题: MedEBench: Revisiting Text-instructed Image Editing
作者: Minghao Liu / Zhitao He / Zhiyuan Fan / Qingyun Wang / Yi R. Fung
原文:   [英文]   [中文]  
备注: None
摘要:
文本引导的图像编辑在自然图像领域取得了快速进展,但其在医学影像中的应用仍然有限,缺乏标准化的评估。在临床上,这种编辑有望用于模拟手术结果、创建个性化教学材料以及增强患者沟通。为了弥合这一差距,我们介绍了\textbf{MedEBench},一个用于评估文本引导医学图像编辑的综合基准。它由1,182个临床来源的图像-提示三元组组成,涵盖13个解剖区域的70项任务。MedEBench提供了三个关键贡献:(1)一个临床相关的评估框架,涵盖编辑准确性、上下文保留和视觉质量,并提供预期变化的详细描述和ROI(感兴趣区域)掩码;(2)对七个最先进模型的系统比较,揭示了常见的失败模式;(3)基于注意力定位的失败分析协议,使用注意力图与ROI之间的IoU来识别定位错误。MedEBench为开发和评估可靠、具有临床意义的医学图像编辑系统提供了坚实的基础。

[170] TaxaDiffusion:逐步训练的扩散模型用于细粒度物种生成
标题: TaxaDiffusion: Progressively Trained Diffusion Model for Fine-Grained Species Generation
作者: Amin Karimi Monsefi / Mridul Khurana / Rajiv Ramnath / Anuj Karpatne / Wei-Lun Chao / Cheng Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了TaxaDiffusion,这是一种利用分类学信息的扩散模型训练框架,用于生成具有高形态和身份准确性的细粒度动物图像。与将每个物种视为独立类别的标准方法不同,TaxaDiffusion结合了领域知识,即许多物种在视觉上表现出强烈的相似性,其区别通常在于形状、图案和颜色的细微变化。为了利用这些关系,TaxaDiffusion在不同的分类层次上逐步训练条件扩散模型——从广泛的分类如纲和目开始,通过科和属进行细化,最终在种的层次上进行区分。这种分层学习策略首先捕捉具有共同祖先的物种共享的粗粒度形态特征,在细化物种级别的细粒度差异之前促进知识转移。因此,即使每个物种的训练样本有限,TaxaDiffusion也能实现准确的生成。在三个细粒度动物数据集上的大量实验表明,该方法优于现有方法,在细粒度动物图像生成中实现了更高的保真度。项目页面:this https URL

[171] E3D-Bench:一个用于端到端三维几何基础模型的基准
标题: E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models
作者: Wenyan Cong / Yiqing Liang / Yancheng Zhang / Ziyi Yang / Yan Wang / Boris Ivanovic / Marco Pavone / Chen Chen / Zhangyang Wang / Zhiwen Fan
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
空间智能,包括3D重建、感知和推理,是机器人技术、航空成像和扩展现实等应用的基础。一个关键的推动因素是从非结构化或流媒体图像中实时、准确地估计核心3D属性(相机参数、点云、深度图和3D点轨迹)。受大型基础模型在语言和二维视觉领域成功的启发,一类新的端到端3D几何基础模型(GFMs)应运而生,能够在单次前馈过程中直接预测密集的3D表示,无需缓慢或不可用的预计算相机参数。自2023年底以来,该领域出现了多种多样的变体,但缺乏系统的评估。在这项工作中,我们提出了第一个针对3D GFMs的全面基准测试,涵盖五个核心任务:稀疏视图深度估计、视频深度估计、3D重建、多视图姿态估计、新视图合成,并跨越标准和具有挑战性的分布外数据集。我们的标准化工具包自动化了数据集处理、评估协议和指标计算,以确保公平、可重复的比较。我们评估了16个最先进的GFMs,揭示了它们在任务和领域中的优势和局限性,并得出关键见解以指导未来模型的扩展和优化。所有代码、评估脚本和处理过的数据将公开发布,以加速3D空间智能领域的研究。

[172] 使用寄存器的低秩头像个性化
标题: Low-Rank Head Avatar Personalization with Registers
作者: Sai Tanmay Reddy Chakkera / Aggelina Chatziagapi / Md Moniruzzaman / Chen-Ping Yu / Yi-Hsuan Tsai / Dimitris Samaras
原文:   [英文]   [中文]  
备注: 23 pages, 16 figures. Project page: this https URL
摘要:
我们介绍了一种新颖的方法,用于低秩个性化通用模型以生成头部头像。先前的工作提出了通用模型,通过利用大规模的多身份数据集实现高质量的面部动画。然而,这些通用模型通常无法合成独特的身份特定细节,因为它们学习的是一般的领域先验。为了适应特定主体,我们发现通过流行的解决方案(如低秩适应(LoRA))捕捉高频面部细节仍然具有挑战性。这促使我们提出了一种特定的架构,即寄存器模块,该模块在仅需少量参数适应未见身份的情况下,增强了LoRA的性能。我们的模块应用于预训练模型的中间特征,在可学习的三维特征空间中存储和重新利用信息。为了展示我们个性化方法的有效性,我们收集了具有独特面部细节(如皱纹和纹身)个体的说话视频数据集。我们的方法忠实地捕捉了未见的面孔,在定量和定性上均优于现有方法。我们将向公众发布代码、模型和数据集。

[173] 快速且稳健的旋转平均:各向异性坐标下降法
标题: Fast and Robust Rotation Averaging with Anisotropic Coordinate Descent
作者: Yaroslava Lochman / Carl Olsson / Christopher Zach
原文:   [英文]   [中文]  
备注: None
摘要:
各向异性旋转平均最近被探索为各向同性方法的自然扩展。在各向异性公式中,通过标准的双视图优化获得的估计相对旋转的不确定性被传播到绝对旋转的优化中。由此产生的半定松弛能够恢复全局最小值,但在问题规模上扩展性较差。局部方法速度快,也允许稳健估计,但对初始化敏感。它们通常采用最小生成树,因此容易受到漂移累积的影响,并可能陷入较差的局部最小值。在本文中,我们尝试在各向异性旋转平均的最优性、稳健性和效率之间架起桥梁。我们分析了一类最初被提议用于优化标准弦距离的块坐标下降方法,并推导出一个更简单的公式和一个各向异性扩展,获得一个快速的通用求解器。我们将此求解器集成到扩展的各向异性大规模稳健旋转平均管道中。最终算法在公共结构-从-运动数据集上实现了最先进的性能。项目页面:this https URL

[174] OD3:无优化的数据蒸馏用于目标检测
标题: OD3: Optimization-free Dataset Distillation for Object Detection
作者: Salwa K. Al Khatib / Ahmed ElHagry / Shitong Shao / Zhiqiang Shen
原文:   [英文]   [中文]  
备注: Equal Contribution of the first three authors
摘要:
在大规模数据集上训练大型神经网络需要大量的计算资源,特别是对于目标检测等密集预测任务。尽管数据集蒸馏(DD)已被提出以通过从较大数据集中合成紧凑数据集来缓解这些需求,但大多数现有工作仅专注于图像分类,而对更复杂的检测设置则基本未进行探索。在本文中,我们介绍了OD3,这是一种专为目标检测设计的新颖的无优化数据蒸馏框架。我们的方法包括两个阶段:首先是候选选择过程,其中对象实例根据其合适的位置被迭代地放置在合成图像中;其次是使用预训练的观察者模型进行候选筛选过程,以去除低置信度的对象。我们在MS COCO和PASCAL VOC这两个流行的检测数据集上执行了我们的数据合成框架,压缩率从0.25%到5%不等。与之前仅有的检测数据集蒸馏方法和传统的核心集选择方法相比,OD3提供了更高的准确性,建立了新的最先进的结果,在COCO mAP50上以1.0%的压缩率超过了之前最佳方法超过14%。代码和压缩数据集可在此https URL获取。

[175] 通过协同轨迹控制学习用于机器人操作的视频生成
标题: Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control
作者: Xiao Fu / Xintao Wang / Xian Liu / Jianhong Bai / Runsen Xu / Pengfei Wan / Di Zhang / Dahua Lin
原文:   [英文]   [中文]  
备注: Project Page: this https URL Code: this https URL
摘要:
最近在视频扩散模型方面的进展显示出在生成机器人决策数据方面的强大潜力,轨迹条件进一步实现了精细化控制。然而,现有的基于轨迹的方法主要关注单个物体的运动,难以捕捉在复杂机器人操作中至关重要的多物体交互。这一局限性源于重叠区域的多特征纠缠,导致视觉保真度下降。为了解决这个问题,我们提出了RoboMaster,这是一种通过协作轨迹公式建模物体间动态的新框架。与之前分解物体的方法不同,我们的核心是将交互过程分解为三个子阶段:交互前、交互中和交互后。每个阶段都使用主导物体的特征进行建模,具体来说,在交互前和交互后阶段使用机器人手臂的特征,而在交互中使用被操控物体的特征,从而减轻了之前工作中交互期间多物体特征融合的缺点。为了进一步确保视频中主体语义的一致性,我们为物体引入了外观和形状感知的潜在表示。在具有挑战性的Bridge V2数据集以及野外评估中进行的大量实验表明,我们的方法优于现有方法,在轨迹控制的视频生成用于机器人操作方面建立了新的最先进的性能。

[176] 多模态语言模型需要三维感知表示监督以理解场景
标题: MLLMs Need 3D-Aware Representation Supervision for Scene Understanding
作者: Xiaohu Huang / Jingjing Wu / Qunyi Xie / Kai Han
原文:   [英文]   [中文]  
备注: None
摘要:
最近在场景理解方面的进展利用了多模态大语言模型(MLLMs)通过其强大的二维预训练来进行三维推理。然而,由于MLLM预训练期间缺乏显式的三维数据,限制了其三维表示能力。在本文中,我们通过评估多视图对应性来研究MLLMs的三维感知能力,并揭示了三维感知表示的质量与下游任务性能之间的强正相关性。受此启发,我们提出了3DRS,一个通过引入预训练三维基础模型的监督来增强MLLM三维表示学习的框架。我们的方法将MLLM的视觉特征与从三维模型中提取的丰富三维知识对齐,有效地提高了场景理解能力。跨多个基准和MLLMs的广泛实验——包括视觉定位、字幕生成和问答——展示了一致的性能提升。项目页面:this https URL

[177] 从智能手机的RGB图像重建RAW图像。NTIRE 2025挑战赛报告
标题: RAW Image Reconstruction from RGB on Smartphones. NTIRE 2025 Challenge Report
作者: Marcos V. Conde / Radu Timofte / Radu Berdan / Beril Besbinar / Daisuke Iso / Pengzhou Ji / Xiong Dun / Zeying Fan / Chen Wu / Zhansheng Wang / Pengbo Zhang / Jiazi Huang / Qinglin Liu / Wei Yu / Shengping Zhang / Xiangyang Ji / Kyungsik Kim / Minkyung Kim / Hwalmin Lee / Hekun Ma / Huan Zheng / Yanyan Wei / Zhao Zhang / Jing Fang / Meilin Gao / Xiang Yu / Shangbin Xie / Mengyuan Sun / Huanjing Yue / Jingyu Yang Huize Cheng / Shaomeng Zhang / Zhaoyang Zhang / Haoxiang Liang
原文:   [英文]   [中文]  
备注: CVPR 2025 - New Trends in Image Restoration and Enhancement (NTIRE)
摘要:
由于其线性特性、位深度和传感器设计,许多低级视觉任务在RAW域中进行操作。尽管如此,RAW图像数据集仍然稀缺,并且比已经很大且公开的sRGB数据集更难以收集。因此,许多方法尝试使用传感器信息和sRGB图像生成逼真的RAW图像。本文探讨了从sRGB进行RAW重建(反向ISP)的第二个挑战。我们的目标是在没有元数据的情况下,从智能手机提供的对应sRGB图像中恢复RAW传感器图像,并通过这样做“逆转”ISP转换。超过150名参与者加入了这项NTIRE 2025挑战并提交了高效的模型。所提出的方法和基准确立了生成逼真RAW数据的最新技术水平。

[178] IMAGHarmony:具有一致对象数量和布局的可控图像编辑
标题: IMAGHarmony: Controllable Image Editing with Consistent Object Quantity and Layout
作者: Fei Shen / Xiaoyu Du / Yutong Gao / Jian Yu / Yushe Cao / Xing Lei / Jinhui Tang
原文:   [英文]  
备注: None
摘要:
最近的扩散模型通过增强视觉质量和控制能力,推动了图像编辑的发展,支持在创意和个性化领域的广泛应用。然而,目前的图像编辑在多物体场景中仍然存在不足,在这些场景中,对物体类别、数量和空间布局的精确控制仍然是一个重大挑战。为了解决这个问题,我们引入了一项新任务,称为数量和布局一致的图像编辑(QL-Edit),旨在实现对复杂场景中物体数量和空间结构的细粒度控制。我们进一步提出了IMAGHarmony,这是一种结构感知框架,结合了和谐感知注意力(HA),以整合多模态语义,明确建模物体数量和布局,以提高编辑的准确性和结构一致性。此外,我们观察到扩散模型容易受到初始噪声的影响,并对特定的噪声模式表现出强烈的偏好。受此启发,我们提出了一种偏好引导的噪声选择(PNS)策略,该策略基于视觉-语言匹配选择语义对齐的初始噪声样本,从而提高多物体编辑中的生成稳定性和布局一致性。为了支持评估,我们构建了HarmonyBench,这是一个涵盖多样化数量和布局控制场景的综合基准。大量实验表明,IMAGHarmony在结构对齐和语义准确性方面始终优于最先进的方法。代码和模型可在此https URL获取。

[179] 双重过程图像生成
标题: Dual-Process Image Generation
作者: Grace Luo / Jonathan Granskog / Aleksander Holynski / Trevor Darrell
原文:   [英文]   [中文]  
备注: None
摘要:
以往用于控制图像生成的方法在学习新任务的能力上存在局限性。相比之下,视觉语言模型(VLMs)能够在上下文中学习任务,并为给定输入生成正确的输出。我们提出了一种双重过程蒸馏方案,使前馈图像生成器能够从深思熟虑的VLMs中学习新任务。我们的方案使用VLM对生成的图像进行评分,并通过反向传播该梯度来更新图像生成器的权重。我们的通用框架通过相同的文本和图像接口实现了多种新的控制任务。我们展示了该技术在不同类型控制信号上的一些应用,例如常识推理和视觉提示。使用我们的方法,用户可以在几分钟内实现对颜色调色板、线条粗细、地平线位置和相对深度等属性的多模态控制。项目页面:this https URL。