scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年7月31日更新论文69
[1] 物理引擎软件系统的运行时故障捕捉:我们能走多远?
标题: Runtime Failure Hunting for Physics Engine Based Software Systems: How Far Can We Go?
作者: Shuqing Li / Qiang Chen / Xiaoxue Ren / Michael R. Lyu
原文:   [英文]   [中文]  
备注: None
摘要:
物理引擎(PEs)是模拟物理交互的基础软件框架,应用范围从娱乐到安全关键系统。尽管其重要性不言而喻,物理引擎却存在物理失效的问题,即偏离预期物理行为的现象,这可能会影响软件可靠性,降低用户体验,甚至在自动驾驶车辆或医疗机器人中导致严重故障。目前针对基于物理引擎的软件的测试方法并不充分,通常需要白盒访问,并且主要关注崩溃检测,而非语义复杂的物理失效。本文首次进行大规模实证研究,描述基于物理引擎的软件中的物理失效。我们探讨了三个研究问题,涉及物理失效的表现形式、检测技术的有效性以及开发者对当前检测实践的看法。我们的贡献包括:(1)物理失效表现形式的分类;(2)对检测方法的全面评估,包括深度学习、基于提示的技术和大型多模态模型;(3)从开发者经验中获得的可操作见解,以改进检测方法。为了支持未来的研究,我们在此 https URL 上发布了 PhysiXFails、代码和其他材料。

[2] 图像生成中的权衡:不同维度如何相互作用?
标题: Trade-offs in Image Generation: How Do Different Dimensions Interact?
作者: Sicheng Zhang / Binzhu Xie / Zhonghao Yan / Yuli Zhang / Donghao Zhou / Xiaofei Chen / Shi Qiu / Jiaqi Liu / Guoyang Xie / Zhichao Lu
原文:   [英文]   [中文]  
备注: Accepted in ICCV 2025, Codebase: this https URL
摘要:
文本到图像(T2I)和图像到图像(I2I)生成中的模型性能通常取决于多个方面,包括质量、对齐、多样性和鲁棒性。然而,由于(1)缺乏能够细粒度量化这些权衡的数据集,以及(2)使用单一指标来衡量多个维度,模型在这些维度之间的复杂权衡很少被探索。为弥补这一差距,我们引入了TRIG-Bench(图像生成中的权衡),它涵盖了10个维度(现实性、原创性、美学、内容、关系、风格、知识、模糊性、毒性和偏见),包含40,200个样本,并覆盖了132个成对维度子集。此外,我们开发了TRIGScore,这是一种VLM-as-judge指标,可以自动适应各种维度。基于TRIG-Bench和TRIGScore,我们评估了14个跨T2I和I2I任务的模型。此外,我们提出了关系识别系统,以生成维度权衡图(DTM),可视化模型特定能力之间的权衡。我们的实验表明,DTM始终为每种类型的生成模型提供了对维度之间权衡的全面理解。值得注意的是,我们展示了通过在DTM上进行微调可以减轻模型在特定维度上的弱点,从而提高整体性能。代码可在此URL获取:this https URL

[3] 农业中的人工智能:作物、渔业和畜牧业深度学习技术综述
标题: AI in Agriculture: A Survey of Deep Learning Techniques for Crops, Fisheries and Livestock
作者: Umair Nawaz / Muhammad Zaigham Zaheer / Fahad Shahbaz Khan / Hisham Cholakkal / Salman Khan / Rao Muhammad Anwer
原文:   [英文]   [中文]  
备注: None
摘要:
农作物、渔业和畜牧业构成了全球粮食生产的支柱,对于养活不断增长的全球人口至关重要。然而,这些领域面临着诸多挑战,包括气候变化、资源限制以及可持续管理的需求。解决这些问题需要高效、准确且可扩展的技术解决方案,这突显了人工智能(AI)的重要性。本综述系统且全面地回顾了200多项研究工作,涵盖了传统的机器学习方法、先进的深度学习技术(如视觉变换器)以及农业领域中最新的视觉-语言基础模型(如CLIP),重点关注多种任务,如作物病害检测、牲畜健康管理和水生物种监测。我们还讨论了主要的实施挑战,如数据的多样性和实验方面:数据集、性能评估指标和地理重点。我们在综述的最后讨论了潜在的开放研究方向,强调了多模态数据集成、高效的边缘设备部署以及适应不同农业环境的领域适应性AI模型的需求。可以在我们的项目页面上积极跟踪该领域快速发展的动态:this https URL

[4] 颜色作为动力:变革少样本学习者
标题: Color as the Impetus: Transforming Few-Shot Learner
作者: Chaofei Qi / Zhitai Liu / Jianbin Qiu
原文:   [英文]   [中文]  
备注: None
摘要:
人类拥有天生的元学习能力,这部分归因于他们卓越的色彩感知能力。在本文中,我们通过模拟人类色彩感知机制,开创了一种关于小样本学习的创新视角。我们提出了ColorSense Learner,这是一种生物启发的元学习框架,利用跨通道特征提取和交互学习。通过战略性地强调不同通道的独特色彩信息,我们的方法有效地过滤了不相关的特征,同时捕捉到辨别性特征。色彩信息代表了最直观的视觉特征,然而传统的元学习方法主要忽略了这一方面,而是专注于跨类别的抽象特征区分。我们的框架通过协同的色彩通道交互弥合了这一差距,使得更好地提取类内共性和扩大类间差异成为可能。此外,我们引入了一种基于知识蒸馏的元蒸馏器,ColorSense Distiller,它结合了教师的先验知识以增强学生网络的元学习能力。我们在十一项小样本基准上进行了全面的粗粒度/细粒度和跨域实验以进行验证。众多实验表明,我们的方法具有极强的泛化能力、鲁棒性和可迁移性,并且能够轻松地从色彩感知的角度处理小样本分类问题。

[5] 利用病理多样的单中心临床数据集提高儿童脑肿瘤分割的效率
标题: Enhancing efficiency in paediatric brain tumour segmentation using a pathologically diverse single-center clinical dataset
作者: A. Piffer / J. A. Buchner / A. G. Gennari / P. Grehten / S. Sirin / E. Ross / I. Ezhov / M. Rosier / J. C. Peeken / M. Piraud / B. Menze / A. Guerreiro Stücklin / A. Jakab / F. Kofler
原文:   [英文]  
备注: A. Jakab and F. Kofler have shared last authorship
摘要:
背景 脑肿瘤是儿童中最常见的实体恶性肿瘤,涵盖了多种组织学、分子亚型以及影像特征和预后。小儿脑肿瘤(PBTs),包括高、低级别胶质瘤(HGG, LGG)、髓母细胞瘤(MB)、室管膜瘤以及更为罕见的类型,带来了诊断和治疗的挑战。基于深度学习(DL)的分割为肿瘤描绘提供了有前景的工具,但其在异质性PBT亚型和MRI协议中的表现仍不确定。方法 使用了一个回顾性单中心队列,包括174名患有HGG、LGG、髓母细胞瘤(MB)、室管膜瘤和其他罕见亚型的小儿患者。MRI序列包括T1、T1增强(T1-C)、T2和FLAIR。为四个肿瘤子区域提供了手动标注:全肿瘤(WT)、T2高信号(T2H)、增强肿瘤(ET)和囊性成分(CC)。训练并测试了一个3D nnU-Net模型(121/53分割),使用Dice相似系数(DSC)评估分割性能,并与内部和跨评估者的变异性进行比较。结果 该模型在WT和T2H上表现出稳健的性能(平均DSC:0.85),与人类标注者的变异性相当(平均DSC:0.86)。ET分割的准确性中等(平均DSC:0.75),而CC的表现较差。分割准确性因肿瘤类型、MRI序列组合和位置而异。值得注意的是,仅使用T1、T1-C和T2就能产生几乎等同于完整协议的结果。结论 DL在PBTs中是可行的,特别是在T2H和WT方面。ET和CC分割仍面临挑战,强调了进一步改进的必要性。这些发现支持简化协议和自动化的潜力,以增强体积评估并简化小儿神经肿瘤学工作流程。

[6] 用于移动机器人感知的时间一致性无监督分割
标题: Temporally Consistent Unsupervised Segmentation for Mobile Robot Perception
作者: Christian Ellis / Maggie Wigness / Craig Lennon / Lance Fiondella
原文:   [英文]   [中文]  
备注: None
摘要:
地形感知自主地面导航的快速进展得益于监督语义分割的进步。然而,这些方法依赖于昂贵的数据收集和劳动密集型的地面实况标注来训练深度模型。此外,自主系统越来越多地部署在未经排练的、非结构化的环境中,在这些环境中没有标记数据存在,语义类别可能是模糊的或特定于领域的。最近的零样本无监督分割方法在这种环境中显示出希望,但通常在单个帧上操作,缺乏时间一致性——这是在非结构化环境中实现稳健感知的关键属性。为了解决这一差距,我们引入了Frontier-Seg,这是一种从移动机器人视频流中进行时间一致的无监督地形分割的方法。Frontier-Seg对从基础模型骨干(特别是DINOv2)中提取的超像素级特征进行聚类,并在帧间强制时间一致性,以识别持久的地形边界或前沿,而无需人工监督。我们在包括RUGD和RELLIS-3D在内的多样化基准数据集上评估了Frontier-Seg,展示了其在非结构化越野环境中执行无监督分割的能力。

[7] SmartCLIP:具有识别保证的模块化视觉-语言对齐
标题: SmartCLIP: Modular Vision-language Alignment with Identification Guarantees
作者: Shaoan Xie / Lingjing Kong / Yujia Zheng / Yu Yao / Zeyu Tang / Eric P. Xing / Guangyi Chen / Kun Zhang
原文:   [英文]  
备注: CVPR2025
摘要:
对比语言-图像预训练(CLIP)~\citep{radford2021learning}已经成为计算机视觉和多模态学习中的一个关键模型,通过对比学习实现了视觉和文本表示的最先进的对齐性能。然而,CLIP在许多图像-文本数据集中存在潜在的信息错位问题,并且表现出纠缠的表示。一方面,像MSCOCO这样的数据集中的单个图像的简短标题可能描述图像中的不相连区域,使得模型不确定应该保留或忽略哪些视觉特征。另一方面,直接将长标题与图像对齐可能导致保留纠缠的细节,阻碍模型学习解纠缠的原子概念——最终限制其在涉及简短提示的某些下游任务中的泛化能力。在本文中,我们建立了理论条件,使得能够在不同粒度水平上灵活对齐文本和视觉表示。具体来说,我们的框架确保模型不仅能够\emph{保留}跨模态语义信息的完整性,还能够\emph{解纠缠}视觉表示以捕捉细粒度的文本概念。在此基础上,我们介绍了\ours,一种新颖的方法,以模块化方式识别和对齐最相关的视觉和文本表示。在各种任务上的卓越表现展示了其处理信息错位的能力,并支持我们的识别理论。代码可在此https URL获取。

[8] HOG-CNN:将方向梯度直方图与卷积神经网络相结合用于视网膜图像分类
标题: HOG-CNN: Integrating Histogram of Oriented Gradients with Convolutional Neural Networks for Retinal Image Classification
作者: Faisal Ahmed
原文:   [英文]   [中文]  
备注: 13 pages; 5 figures
摘要:
眼底图像的分析对于早期检测和诊断视网膜疾病如糖尿病视网膜病变(DR)、青光眼和年龄相关性黄斑变性(AMD)至关重要。然而,传统的诊断流程通常依赖于人工解读,既耗时又耗费资源。为了解决这些限制,我们提出了一种基于混合特征提取模型HOG-CNN的自动化且可解释的临床决策支持框架。我们的主要贡献在于将手工制作的定向梯度直方图(HOG)特征与深度卷积神经网络(CNN)表示相结合。这种融合使我们的模型能够从视网膜眼底图像中捕捉局部纹理模式和高级语义特征。我们在三个公共基准数据集上评估了我们的模型:APTOS 2019(用于二分类和多分类DR分类)、ORIGA(用于青光眼检测)和IC-AMD(用于AMD诊断);HOG-CNN表现出持续的高性能。它在二分类DR分类中实现了98.5%的准确率和99.2的AUC,在五分类DR分类中实现了94.2的AUC。在IC-AMD数据集上,它达到了92.8%的准确率、94.8%的精确度和94.5的AUC,优于多个先进模型。在ORIGA上的青光眼检测中,我们的模型实现了83.9%的准确率和87.2的AUC,尽管数据集有限,仍表现出竞争力。通过全面的附录研究,我们展示了结合HOG和CNN特征的互补优势。模型的轻量化和可解释设计使其特别适合在资源受限的临床环境中部署。这些结果使HOG-CNN成为自动化视网膜疾病筛查的强大且可扩展的工具。

[9] AlphaEarth基础:一种用于从稀疏标签数据进行准确且高效全球映射的嵌入场模型
标题: AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
作者: Christopher F. Brown / Michal R. Kazmierski / Valerie J. Pasquarella / William J. Rucklidge / Masha Samsikova / Chenhui Zhang / Evan Shelhamer / Estefania Lahera / Olivia Wiles / Simon Ilyushchenko / Noel Gorelick / Lihui Lydia Zhang / Sophia Alj / Emily Schechter / Sean Askay / Oliver Guinan / Rebecca Moore / Alexis Boukouvalas / Pushmeet Kohli
原文:   [英文]   [中文]  
备注: None
摘要:
全球范围内不断收集到前所未有的地球观测数据量,但由于进行物理测量和观测所需的努力,高质量的标签仍然稀缺。这导致了大量投资于将稀疏标签转化为地图的定制建模工作。在此,我们介绍了AlphaEarth Foundations,这是一种嵌入场模型,提供了一种高度通用的地理空间表示,能够整合来自多个来源的空间、时间和测量背景,从而实现从局部到全球范围内地图和监测系统的准确高效生产。AlphaEarth Foundations生成的嵌入是唯一能够在多样化的地图评估中一致优于所有先前特征化方法的嵌入,而无需重新训练。我们将发布一套从2017年到2024年的全球年度分析就绪嵌入场层数据集。

[10] LAMA-Net:一种用于双域重建的收敛网络架构
标题: LAMA-Net: A Convergent Network Architecture for Dual-Domain Reconstruction
作者: Chi Ding / Qingchao Zhang / Ge Wang / Xiaojing Ye / Yunmei Chen
原文:   [英文]   [中文]  
备注: arXiv admin note: substantial text overlap with arXiv:2410.21111
摘要:
我们提出了一种可学习的变分模型,该模型通过学习特征并利用图像域和测量域的互补信息来进行图像重建。特别地,我们引入了我们之前工作的一个学习交替最小化算法(LAMA),该算法通过在近端交替框架中结合残差学习架构来解决两块非凸和非光滑优化问题。在这项工作中,我们的目标是提供LAMA的完整且严格的收敛性证明,并表明LAMA的特定子序列的所有累积点必须是问题的Clarke驻点。LAMA直接产生了一种高度可解释的神经网络架构,称为LAMA-Net。值得注意的是,除了我们之前工作中展示的结果外,我们在这项工作中证明了LAMA的收敛性特性赋予了LAMA-Net卓越的稳定性和鲁棒性。我们还表明,通过集成一个适当设计的网络来生成合适的初始值,可以进一步提高LAMA-Net的性能,我们称之为iLAMA-Net。为了评估LAMA-Net/iLAMA-Net,我们进行了若干实验,并在稀疏视图计算机断层扫描的流行基准数据集上与几种最先进的方法进行了比较。

[11] 通过协作域适应从异构结构MRI中学习用于晚年抑郁症评估
标题: Learning from Heterogeneous Structural MRI via Collaborative Domain Adaptation for Late-Life Depression Assessment
作者: Yuzhen Gao / Qianqian Wang / Yongheng Sun / Cui Wang / Yongquan Liang / Mingxia Liu
原文:   [英文]   [中文]  
备注: None
摘要:
使用结构性脑部MRI准确识别晚年抑郁症(LLD)对于监测疾病进展和促进及时干预至关重要。然而,现有基于学习的方法在检测LLD时常常受到样本量有限(例如,几十个)的限制,这对可靠的模型训练和泛化能力构成了重大挑战。尽管引入辅助数据集可以扩展训练集,但显著的领域异质性,例如成像协议、扫描仪硬件和人口统计学的差异,常常削弱跨领域的可迁移性。为了解决这个问题,我们提出了一种用于LLD检测的协作域适应(CDA)框架,使用T1加权MRI。CDA利用视觉变换器(ViT)捕捉全局解剖学上下文,并使用卷积神经网络(CNN)提取局部结构特征,每个分支都包含一个编码器和一个分类器。CDA框架包括三个阶段:(a)在有标签的源数据上进行监督训练,(b)自监督目标特征适应和(c)在无标签目标数据上进行协作训练。我们首先在源数据上训练ViT和CNN,然后通过最小化两个分支的分类器输出之间的差异进行自监督目标特征适应,以使类别边界更加清晰。协作训练阶段使用伪标签和增强的目标域MRI,强制在强和弱增强下保持预测一致性,以增强领域的鲁棒性和泛化能力。在多站点T1加权MRI数据上进行的大量实验表明,CDA始终优于最先进的无监督域适应方法。

[12] UFV-Splatter:适用于不利视角的无姿态前馈3D高斯喷溅
标题: UFV-Splatter: Pose-Free Feed-Forward 3D Gaussian Splatting Adapted to Unfavorable Views
作者: Yuki Fujimura / Takahiro Kushida / Kazuya Kitano / Takuya Funatomi / Yasuhiro Mukaigawa
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
本文提出了一种无姿态、前馈的3D高斯喷溅(3DGS)框架,旨在处理不利的输入视角。训练前馈方法的常见渲染设置是将3D对象放置在世界原点,并从指向原点的相机进行渲染——即从有利的视角进行渲染,这限制了这些模型在涉及变化和未知相机姿态的真实场景中的适用性。为克服这一限制,我们引入了一个新颖的适应框架,使预训练的无姿态前馈3DGS模型能够处理不利的视角。我们通过将重新居中的图像输入到一个带有低秩适应(LoRA)层的预训练模型中,利用从有利图像中学习到的先验知识。我们进一步提出了一个高斯适配器模块,以增强从重新居中输入中导出的高斯的几何一致性,并提出了一种高斯对齐方法,以渲染准确的目标视图用于训练。此外,我们引入了一种新的训练策略,利用一个仅由有利图像组成的现成数据集。在Google扫描对象数据集的合成图像和OmniObject3D数据集的真实图像上的实验结果验证了我们的方法在处理不利输入视角方面的有效性。

[13] DeltaVLM:通过指令引导的差异感知进行交互式遥感图像变化分析
标题: DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception
作者: Pei Deng / Wenqian Zhou / Hanlin Wu
原文:   [英文]   [中文]  
备注: 12 pages, 5 figures. Submitted to IEEE Transactions on Geoscience and Remote Sensing (TGRS). Code and dataset are available at this https URL
摘要:
在多时相卫星影像中准确解读土地覆盖变化对于实际场景至关重要。然而,现有方法通常仅提供一次性变化掩码或静态描述,限制了其支持交互式、查询驱动分析的能力。在这项工作中,我们引入了遥感图像变化分析(RSICA)作为一种新范式,结合了变化检测和视觉问答的优势,以实现对双时相遥感图像变化的多轮、指令引导的探索。为支持这一任务,我们构建了ChangeChat-105k,这是一个大规模的指令跟随数据集,通过混合规则和GPT辅助过程生成,涵盖六种交互类型:变化描述、分类、量化、定位、开放式问答和多轮对话。在此数据集的基础上,我们提出了DeltaVLM,这是一种专为交互式RSICA设计的端到端架构。DeltaVLM具有三个创新点:(1)一个经过微调的双时相视觉编码器,用于捕捉时间差异;(2)一个带有跨语义关系测量(CSRM)机制的视觉差异感知模块,用于解读变化;(3)一个指令引导的Q-former,用于有效提取与查询相关的视觉变化信息,并将其与文本指令对齐。我们在ChangeChat-105k上训练DeltaVLM,使用冻结的大型语言模型,仅调整视觉和对齐模块以优化效率。广泛的实验和消融研究表明,DeltaVLM在单轮描述和多轮交互变化分析中均达到了最先进的性能,优于现有的多模态大型语言模型和遥感视觉语言模型。代码、数据集和预训练权重可在此https URL获取。

[14] FaceGCD:通过动态前缀生成实现广义人脸发现
标题: FaceGCD: Generalized Face Discovery via Dynamic Prefix Generation
作者: Yunseok Oh / Dong-Wan Choi
原文:   [英文]   [中文]  
备注: BMVC 2025 Accepted
摘要:
识别和区分熟悉和不熟悉的面孔是人脸识别系统的一项关键能力,也是迈向通用人工智能(AGI)的重要一步。受这种能力的启发,本文介绍了一种新颖的开放世界人脸识别任务,称为广义人脸发现(GFD),它将传统的人脸识别与广义类别发现(GCD)相结合。GFD要求识别已标记和未标记的已知身份(ID),同时发现新的、以前未见过的ID。与典型的GCD设置不同,GFD由于人脸ID的高基数和细粒度特性而提出了独特的挑战,使得现有的GCD方法无效。为了解决这个问题,我们提出了FaceGCD,这是一种使用轻量级、逐层前缀动态构建实例特定特征提取器的方法。这些前缀由一个超网络动态生成,该网络根据每个输入图像自适应地输出一组前缀生成器。这种动态设计使FaceGCD能够捕捉细微的身份特定线索,而无需依赖高容量的静态模型。大量实验表明,FaceGCD显著优于现有的GCD方法和一个强大的人脸识别基线ArcFace,在GFD任务上取得了最先进的结果,并朝着开放世界人脸识别迈进。

[15] GVD:用于可扩展视频蒸馏的引导视频扩散模型
标题: GVD: Guiding Video Diffusion Model for Scalable Video Distillation
作者: Kunyang Li / Jeffrey A Chan Santiago / Sarinda Dhanesh Samarasinghe / Gaowen Liu / Mubarak Shah
原文:   [英文]   [中文]  
备注: None
摘要:
为了应对与大型视频数据集相关的更大计算和存储需求,视频数据集蒸馏旨在通过显著缩小数据集来捕获空间和时间信息,使得在蒸馏数据上训练的性能与在所有数据上训练的性能相当。我们提出了GVD:引导视频扩散,这是首个基于扩散的视频蒸馏方法。GVD联合蒸馏空间和时间特征,确保在捕获关键运动信息的同时实现高保真视频生成,涵盖多样化的动作。我们的方法在MiniUCF和HMDB51数据集上,在每类5、10和20个实例(IPC)方面显著优于之前的最先进方法。具体而言,我们的方法在MiniUCF中仅使用总帧数的1.98%就达到了原始数据集性能的78.29%。此外,在HMDB51中仅使用3.30%的帧数就达到了73.83%的性能。跨基准视频数据集的实验结果表明,GVD不仅实现了最先进的性能,还能够生成更高分辨率的视频和更高的IPC,而不会显著增加计算成本。

[16] 目标识别数据集与挑战:综述
标题: Object Recognition Datasets and Challenges: A Review
作者: Aria Salari / Abtin Djavadifar / Xiangrui Liu / Homayoun Najjaran
原文:   [英文]   [中文]  
备注: None
摘要:
物体识别是计算机视觉应用中的基本任务之一,为所有其他图像理解操作铺平了道路。在物体识别研究的每个进展阶段,人们都努力收集和标注新的数据集,以匹配最先进算法的能力。近年来,数据集的规模和质量的重要性愈加突出,因为新兴深度网络技术的实用性在很大程度上依赖于训练数据。此外,数据集为竞赛提供了公平的基准手段,并通过为开发的模型提供可量化的基准,证明了对物体识别研究进展的推动作用。仔细研究常用公共数据集的特征似乎是数据驱动和机器学习研究人员的重要第一步。在这篇综述中,我们对在广泛研究的物体识别领域中的数据集进行了详细分析。通过统计和描述,超过160个数据集被仔细审查。此外,我们概述了著名的物体识别基准和竞赛,并描述了计算机视觉社区中广泛采用的评估指标。所有介绍的数据集和挑战都可以在此网址在线找到。

[17] 探索视觉问答(VQA)在课堂活动监控中的应用
标题: Exploring the Application of Visual Question Answering (VQA) for Classroom Activity Monitoring
作者: Sinh Trong Vu / Hieu Trung Pham / Dung Manh Nguyen / Hieu Minh Hoang / Nhu Hoang Le / Thu Ha Pham / Tai Tan Mai
原文:   [英文]   [中文]  
备注: None
摘要:
课堂行为监测是教育研究中的一个关键方面,对学生的参与度和学习成果有着重要影响。近年来,视觉问答(VQA)模型的进展为自动分析课堂视频录制中的复杂互动提供了有前景的工具。在本文中,我们研究了几种最先进的开源VQA模型在课堂行为分析背景下的适用性,包括LLaMA2、LLaMA3、QWEN3和NVILA。为了进行严格的评估,我们引入了从越南银行学院的真实课堂视频录制中提取的BAV-Classroom-VQA数据集。我们介绍了数据收集、标注的方法,并对所选VQA模型在该数据集上的表现进行了基准测试。我们的初步实验结果表明,所有四个模型在回答与行为相关的视觉问题时都达到了有前景的性能水平,展示了它们在未来课堂分析和干预系统中的潜力。

[18] 宝石:通过多模态情境理解进行群体情感分析
标题: Gems: Group Emotion Profiling Through Multimodal Situational Understanding
作者: Anubhav Kataria / Surbhi Madan / Shreya Ghosh / Tom Gedeon / Abhinav Dhall
原文:   [英文]   [中文]  
备注: None
摘要:
理解个体、群体和事件层面的情感以及上下文信息对于分析多人的社会情境至关重要。为此,我们将情感理解框架化为预测从细粒度的个体情感到粗粒度的群体和事件层面的情感任务。我们引入了GEMS,它利用多模态swin-transformer和S3Attention为基础的架构,处理输入场景、群体成员和上下文信息以生成联合预测。现有的多人人情感相关基准主要关注基于时间和群体层面的情感感知的原子交互。为此,我们扩展并提出了VGAF-GEMS,以在现有VGAF数据集的群体层面注释基础上提供更细粒度和整体的分析。GEMS旨在预测基本的离散和连续情感(包括效价和唤醒)以及个体、群体和事件层面的感知情感。我们的基准工作整体地链接了个体、群体和情境的情感反应。与改进的最先进模型的定量和定性比较展示了GEMS框架在VGAF-GEMS基准上的有效性。我们相信这将为进一步研究铺平道路。代码和数据可在此URL获取。

[19] 关于视觉-语言模型在对抗性频域扰动下的可靠性
标题: On the Reliability of Vision-Language Models Under Adversarial Frequency-Domain Perturbations
作者: Jordan Vice / Naveed Akhtar / Yansong Gao / Richard Hartley / Ajmal Mian
原文:   [英文]   [中文]  
备注: Keywords: Vision-Language Models, Frequency-Domain Perturbations, Adversarial Robustness, Image Authenticity, Reliability
摘要:
视觉-语言模型(VLMs)越来越多地被用作视觉内容推理的感知模块,包括通过图像描述和DeepFake检测。在这项工作中,我们揭示了VLMs在频域中暴露于微妙的结构化扰动时的一个关键漏洞。具体来说,我们强调这些特征变换如何削弱真实性/DeepFake检测和自动图像描述任务。我们设计了针对性的图像变换,在频域中操作,以系统地调整VLM输出,当暴露于频率扰动的真实和合成图像时。我们证明了这种扰动注入方法可以在五个最先进的VLMs中泛化,包括不同参数的Qwen2/2.5和BLIP模型。在十个真实和生成的图像数据集上进行实验表明,VLM判断对基于频率的线索很敏感,可能与语义内容不完全一致。至关重要的是,我们展示了视觉上不可察觉的空间频率变换暴露了用于自动图像描述和真实性检测任务的VLMs的脆弱性。我们的发现在现实的黑箱约束下挑战了VLMs的可靠性,强调了需要建立稳健的多模态感知系统。

[20] MINR: 通过遮蔽图像建模实现隐式神经表示
标题: MINR: Implicit Neural Representations with Masked Image Modelling
作者: Sua Lee / Joonhun Lee / Myungjoo Kang
原文:   [英文]   [中文]  
备注: Accepted to the ICCV 2023 workshop on Out-of-Distribution Generalization in Computer Vision
摘要:
自监督学习方法,如掩码自动编码器(MAE),在学习鲁棒的特征表示方面表现出显著的潜力,特别是在基于图像重建的预训练任务中。然而,它们的性能通常在很大程度上依赖于训练期间使用的掩码策略,并且在应用于分布外数据时可能会下降。为了解决这些限制,我们引入了掩码隐式神经表示(MINR)框架,该框架将隐式神经表示与掩码图像建模相结合。MINR 学习一个连续函数来表示图像,从而实现更鲁棒和更具泛化能力的重建,而不受掩码策略的影响。我们的实验表明,MINR 不仅在域内场景中优于 MAE,而且在分布外设置中也表现出色,同时降低了模型复杂性。MINR 的多功能性扩展到各种自监督学习应用,证实了其作为现有框架的鲁棒且高效的替代方案的实用性。

[21] 莫尔零:一种高效且高性能的去莫尔纹神经架构
标题: Moiré Zero: An Efficient and High-Performance Neural Architecture for Moiré Removal
作者: Seungryong Lee / Woojeong Baek / Younghyun Kim / Eunwoo Kim / Haru Moon / Donggon Yoo / Eunbyung Park
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
莫尔条纹是由于精细重复结构与相机传感器的采样过程之间的频率混叠引起的,在诸如消费摄影和工业缺陷检测等各种实际应用中一直是一个显著的障碍。随着深度学习算法的进步,许多研究——主要基于卷积神经网络——提出了各种解决方案来解决这个问题。尽管有这些努力,现有的方法仍然难以有效消除由于莫尔条纹的多样化尺度、方向和颜色变化而产生的伪影,主要原因是基于CNN的架构的受限感受野限制了它们捕捉莫尔条纹复杂特征的能力。在本文中,我们提出了MZNet,一种U型网络,旨在通过有效去除莫尔条纹使图像更接近“零莫尔”状态。它集成了三个专门的组件:用于提取和优化多尺度特征的多尺度双注意力块(MSDAB),用于捕捉多样化莫尔结构的多形状大核卷积块(MSLKB),以及用于增强信息流的基于特征融合的跳跃连接。这些组件共同增强了局部纹理恢复和大规模伪影抑制。在基准数据集上的实验表明,MZNet在高分辨率数据集上实现了最先进的性能,并在低分辨率数据集上提供了具有竞争力的结果,同时保持较低的计算成本,表明它是一个高效且实用的实际应用解决方案。项目页面:this https URL

[22] UAVScenes:用于无人机的多模态数据集
标题: UAVScenes: A Multi-Modal Dataset for UAVs
作者: Sijie Wang / Siqi Li / Yawei Zhang / Shangshu Yu / Shenghai Yuan / Rui She / Quanjiang Guo / JinXuan Zheng / Ong Kang Howe / Leonrich Chandra / Shrivarshann Srijeyan / Aditya Sivadas / Toshan Aggarwal / Heyuan Liu / Hongming Zhang / Chujie Chen / Junyu Jiang / Lihua Xie / Wee Peng Tay
原文:   [英文]   [中文]  
备注: Accepted by ICCV 2025
摘要:
多模态感知对于无人机(UAV)操作至关重要,因为它能够全面理解无人机周围的环境。然而,大多数现有的多模态无人机数据集主要偏向于定位和3D重建任务,或者由于缺乏对相机图像和LiDAR点云的逐帧注释,仅支持地图级别的语义分割。这一限制使得它们无法用于高级场景理解任务。为了解决这一差距并推进多模态无人机感知,我们引入了UAVScenes,这是一个大规模数据集,旨在为2D和3D模态的各种任务提供基准。我们的基准数据集基于经过良好校准的多模态无人机数据集MARS-LVIG构建,该数据集最初仅用于同时定位与地图构建(SLAM)。我们通过为逐帧图像和LiDAR点云提供手动标注的语义注释以及精确的六自由度(6-DoF)位姿来增强该数据集。这些新增内容支持广泛的无人机感知任务,包括分割、深度估计、6-DoF定位、地点识别和新视图合成(NVS)。我们的数据集可在此https URL获取。

[23] 通过流匹配进行随机不确定性医学图像分割估计
标题: Aleatoric Uncertainty Medical Image Segmentation Estimation via Flow Matching
作者: Phi Van Nguyen / Ngoc Huynh Trinh / Duy Minh Lam Nguyen / Phu Loc Nguyen / Quoc Long Tran
原文:   [英文]  
备注: None
摘要:
在医学图像分割中量化随机不确定性至关重要,因为它反映了专家标注者之间观察到的自然变异性。传统方法是使用生成模型来模拟分割分布,但现有方法限制了生成模型的表达能力。虽然当前基于扩散的方法在逼近数据分布方面表现出色,但其固有的随机采样过程和无法建模精确密度的缺陷限制了其在准确捕捉不确定性方面的有效性。相比之下,我们提出的方法利用条件流匹配,这是一种无模拟的基于流的生成模型,可以学习精确密度,从而产生高度准确的分割结果。通过在输入图像上引导流模型并采样多个数据点,我们的方法合成了分割样本,其像素级方差可靠地反映了底层数据分布。这种采样策略捕捉了边界模糊区域的不确定性,提供了反映标注者之间差异的稳健量化。实验结果表明,我们的方法不仅实现了有竞争力的分割准确性,还生成了不确定性地图,提供了对分割结果可靠性更深入的见解。本文的代码可以在这个网址免费获取。

[24] 高效时空建模用于实时视频分析:动作识别与目标跟踪的统一框架
标题: Efficient Spatial-Temporal Modeling for Real-Time Video Analysis: A Unified Framework for Action Recognition and Object Tracking
作者: Shahla John
原文:   [英文]   [中文]  
备注: None
摘要:
实时视频分析在计算机视觉领域仍然是一个具有挑战性的问题,它需要在保持计算效率的同时高效处理空间和时间信息。现有的方法通常难以在准确性和速度之间取得平衡,特别是在资源受限的环境中。在这项工作中,我们提出了一个统一的框架,该框架利用先进的时空建模技术来同时进行动作识别和目标跟踪。我们的方法基于最近的并行序列建模进展,并引入了一种新颖的分层注意力机制,该机制能够自适应地关注时间序列中的相关空间区域。我们证明了我们的方法在标准基准测试中达到了最先进的性能,同时保持了实时推理速度。在 UCF-101、HMDB-51 和 MOT17 数据集上的大量实验表明,与现有方法相比,我们的方法在动作识别准确性上提高了 3.2%,在跟踪精度上提高了 2.8%,推理时间加快了 40%。

[25] HQ-CLIP:利用大型视觉-语言模型创建高质量图文数据集和CLIP模型
标题: HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models
作者: Zhixiang Wei / Guangting Wang / Xiaoxiao Ma / Ke Mei / Huaian Chen / Yi Jin / Fengyun Rao
原文:   [英文]   [中文]  
备注: None
摘要:
大规模但噪声较大的图文对数据为对比语言-图像预训练(CLIP)的成功铺平了道路。作为基础视觉编码器,CLIP反过来又成为大多数大型视觉语言模型(LVLMs)的基石。这种相互依赖自然引发了一个有趣的问题:我们能否反过来利用LVLMs来提高图文对数据的质量,从而开启一个自我强化的循环以实现持续改进?在这项工作中,我们朝着这个愿景迈出了重要一步,介绍了一种由LVLM驱动的数据优化流程。我们的框架利用LVLMs来处理图像及其原始替代文本,生成四种互补的文本形式:长的正面描述、长的负面描述、短的正面标签和短的负面标签。将此流程应用于精心策划的DFN-Large数据集,产生了VLM-150M,这是一个通过多层次注释丰富的数据集。在此数据集的基础上,我们进一步提出了一种训练范式,通过将负面描述和短标签作为额外的监督信号来扩展传统的对比学习。由此产生的模型,即HQ-CLIP,在各种基准测试中表现出显著的改进。在可比的训练数据规模下,我们的方法在零样本分类、跨模态检索和细粒度视觉理解任务中达到了最先进的性能。在检索基准测试中,HQ-CLIP甚至超越了在DFN-2B数据集上训练的标准CLIP模型,该数据集的训练数据量是我们的10倍。所有代码、数据和模型均可在此https URL获取。

[26] 从清晰到模糊:使用事件相机在极端运动模糊下进行2D人体姿态估计的无监督领域自适应
标题: From Sharp to Blur: Unsupervised Domain Adaptation for 2D Human Pose Estimation Under Extreme Motion Blur Using Event Cameras
作者: Youngho Kim / Hoonhee Cho / Kuk-Jin Yoon
原文:   [英文]  
备注: None
摘要:
人体姿态估计对于康复、体育分析和增强/虚拟现实系统等应用至关重要。然而,快速运动和低光条件常常引入运动模糊,由于清晰图像和模糊图像之间的域差异,这显著降低了姿态估计的效果。大多数数据集假设稳定的条件,使得在清晰图像上训练的模型在模糊环境中表现不佳。为了解决这个问题,我们引入了一种新颖的域适应方法,该方法利用事件相机捕捉高时间分辨率的运动数据,并且本质上对运动模糊具有鲁棒性。通过基于事件的增强,我们生成了运动感知的模糊图像,有效地弥合了清晰和模糊域之间的差距,而无需配对注释。此外,我们开发了一个学生-教师框架,迭代地优化伪标签,利用互相不确定性掩蔽来消除错误标签,从而实现更有效的学习。实验结果表明,我们的方法优于传统的域自适应人体姿态估计方法,在运动模糊下实现了稳健的姿态估计,而无需目标域中的注释。我们的研究结果突显了事件相机作为在真实世界运动模糊环境中进行域适应的可扩展且有效的解决方案的潜力。我们的项目代码可在此https URL获取。

[27] TopoLiDM:用于可解释和真实感LiDAR点云生成的拓扑感知LiDAR扩散模型
标题: TopoLiDM: Topology-Aware LiDAR Diffusion Models for Interpretable and Realistic LiDAR Point Cloud Generation
作者: Jiuming Liu / Zheng Huang / Mengmeng Liu / Tianchen Deng / Francesco Nex / Hao Cheng / Hesheng Wang
原文:   [英文]   [中文]  
备注: Accepted by IROS 2025. Code:this https URL
摘要:
LiDAR 场景生成对于降低真实世界 LiDAR 数据收集成本和增强自动驾驶中下游感知任务的鲁棒性至关重要。然而,现有方法通常难以捕捉几何真实感和全局拓扑一致性。最近的 LiDAR 扩散模型(LiDMs)主要将 LiDAR 点嵌入到潜在空间中以提高生成效率,这限制了它们在建模详细几何结构和保持全局拓扑一致性方面的可解释能力。为了解决这些挑战,我们提出了 TopoLiDM,这是一种新颖的框架,将图神经网络(GNNs)与拓扑正则化下的扩散模型相结合,以实现高保真度的 LiDAR 生成。我们的方法首先训练一个保持拓扑的 VAE,通过图构建和多个图卷积层提取潜在图表示。然后,我们冻结 VAE,并通过潜在扩散模型生成新的潜在拓扑图。我们还引入了 0 维持久性同调(PH)约束,确保生成的 LiDAR 场景符合真实世界的全局拓扑结构。在 KITTI-360 数据集上的大量实验表明,TopoLiDM 在最先进的方法上具有优越性,实现了 22.6% 更低的 Frechet Range Image Distance (FRID) 和 9.2% 更低的 Minimum Matching Distance (MMD) 的改进。值得注意的是,我们的模型还实现了快速生成速度,平均推理时间为 1.68 样本/秒,展示了其在真实世界应用中的可扩展性。我们将在此 https URL 上发布相关代码。

[28] 利用扩散先验进行任务驱动的图像修复
标题: Exploiting Diffusion Prior for Task-driven Image Restoration
作者: Jaeha Kim / Junghun Oh / Kyoung Mu Lee
原文:   [英文]  
备注: Accepted to ICCV 2025
摘要:
任务驱动的图像修复(TDIR)最近出现,旨在解决由于低质量(LQ)输入导致的高层次视觉任务性能下降的问题。以往的TDIR方法在处理图像因多种复杂因素退化而导致的实际场景时表现不佳,因而为修复留下的线索极少。这促使我们利用扩散先验,这是一种最强大的自然图像先验之一。然而,尽管扩散先验可以帮助生成视觉上合理的结果,但即使结合了最新的TDIR方法,利用其恢复与任务相关的细节仍然具有挑战性。为了解决这个问题,我们提出了EDTR,它有效地利用扩散先验的力量来恢复与任务相关的细节。具体来说,我们建议在扩散过程中直接利用LQ图像中的有用线索,通过从基于像素误差预修复的LQ图像中生成并添加轻微噪声来实现。此外,我们采用少量的去噪步骤,以防止生成稀释关键任务相关信息的冗余细节。我们证明了我们的方法有效地利用扩散先验进行TDIR,显著提升了在多种复杂退化任务中的任务性能和视觉质量。

[29] 浅层特征很重要:用于无监督视频对象分割的异构交互层次记忆
标题: Shallow Features Matter: Hierarchical Memory with Heterogeneous Interaction for Unsupervised Video Object Segmentation
作者: Zheng Xiangyu / He Songcheng / Li Wanyun / Li Xiaoqiang / Zhang Wei
原文:   [英文]  
备注: Accepted to ACM MM'25: The 33rd ACM International Conference on Multimedia Proceedings
摘要:
无监督视频对象分割(UVOS)旨在无需任何先验标注的情况下,为视频中最显著的对象预测像素级的掩码。尽管记忆机制在各种视频分割范式中被证明至关重要,但它们在UVOS中的应用尽管设计复杂,却仅带来微小的性能提升。我们的分析揭示了现有方法中的一个简单但根本的缺陷:过度依赖于记忆高级语义特征。由于缺乏像素级先验知识,UVOS本质上缺乏细粒度信息。因此,仅依赖于主要捕捉抽象语义线索的高级特征的记忆设计不足以生成精确的预测。为了解决这一根本问题,我们提出了一种新颖的分层记忆架构,以结合浅层和高级特征进行记忆,利用像素和语义信息的互补优势。此外,为了平衡像素和语义记忆特征的同时利用,我们提出了一种异质交互机制来执行像素-语义的相互交互,明确考虑它们固有的特征差异。通过像素引导的局部对齐模块(PLAM)和语义引导的全局集成模块(SGIM)的设计,我们实现了浅层记忆中的细粒度细节与高级记忆中的语义表示的精细整合。我们的具有异质交互的分层记忆网络(HMHI-Net)在所有UVOS和视频显著性检测基准上始终实现了最先进的性能。此外,HMHI-Net在不同的骨干网络上始终表现出高性能,进一步证明了其优越性和鲁棒性。项目页面:this https URL。

[30] 视觉语言模型作为零样本深度伪造检测器
标题: Visual Language Models as Zero-Shot Deepfake Detectors
作者: Viacheslav Pirogov
原文:   [英文]  
备注: Accepted to the ICML 2025 Workshop on Reliable and Responsible Foundation Models
摘要:
当代的深度伪造现象,利用生成对抗网络(GAN)或扩散模型进行人脸替换,在数字媒体、身份验证以及众多其他系统中构成了一个重大且不断演变的威胁。现有的大多数检测深度伪造的方法依赖于训练专门的分类器来区分真实和被操控的图像,仅关注图像领域,而没有结合任何可以增强鲁棒性的辅助任务。在本文中,我们受到视觉语言模型零样本能力的启发,提出了一种基于视觉语言模型的新颖图像分类方法,并评估其在深度伪造检测中的效果。具体而言,我们利用了一个包含60,000张图像的新高质量深度伪造数据集,在该数据集上,我们的零样本模型表现优于几乎所有现有方法。随后,我们将表现最佳的架构InstructBLIP在流行的深度伪造数据集DFDC-P上与传统方法进行比较,涉及两种场景:零样本和域内微调。我们的结果表明,视觉语言模型优于传统分类器。

[31] 激光雷达:用于结构裂缝多模态分割的轻量级自适应线索感知融合视觉曼巴
标题: LIDAR: Lightweight Adaptive Cue-Aware Fusion Vision Mamba for Multimodal Segmentation of Structural Cracks
作者: Hui Liu / Chen Jia / Fan Shi / Xu Cheng / Mengfei Shi / Xia Xie / Shengyong Chen
原文:   [英文]   [中文]  
备注: None
摘要:
使用多模态数据实现低计算成本的像素级分割仍然是裂缝分割任务中的一个关键挑战。现有方法缺乏自适应感知和高效交互融合跨模态特征的能力。为了解决这些挑战,我们提出了一种轻量级自适应线索感知视觉曼巴网络(LIDAR),该网络能够在多模态裂缝场景下高效感知和整合来自不同模态的形态和纹理线索,生成清晰的像素级裂缝分割图。具体来说,LIDAR由轻量级自适应线索感知视觉状态空间模块(LacaVSS)和轻量级双域动态协同融合模块(LD3CF)组成。LacaVSS通过提出的掩码引导高效动态引导扫描策略(EDG-SS)自适应地建模裂缝线索,而LD3CF则利用自适应频域感知器(AFDP)和双池融合策略有效捕捉跨模态的空间和频域线索。此外,我们设计了一种轻量级动态调制多核卷积(LDMK),以最小的计算开销感知复杂的形态结构,替代LIDAR中的大部分卷积操作。在三个数据集上的实验表明,我们的方法优于其他最新的(SOTA)方法。在光场深度数据集上,我们的方法在F1指标上达到0.8204,在mIoU指标上达到0.8465,参数量仅为5.35M。代码和数据集可在此网址获取。

[32] 使用混合运动基估计二维相机运动
标题: Estimating 2D Camera Motion with Hybrid Motion Basis
作者: Haipeng Li / Tianhao Zhou / Zhanglei Yang / Yi Wu / Yan Chen / Zijing Mao / Shen Cheng / Bing Zeng / Shuaicheng Liu
原文:   [英文]   [中文]  
备注: ICCV 2025
摘要:
估计二维相机运动是一个基本的计算机视觉任务,它模拟了三维相机运动在二维图像平面上的投影。当前的方法依赖于基于单应性的方式,这些方式仅限于平面场景,或者使用网格为基础的局部单应性的网格流技术,但在处理复杂的非线性变换时存在困难。我们工作的一个关键见解是,结合来自不同单应性的流场可以创建任何单一单应性无法表示的运动模式。我们引入了CamFlow,这是一种新颖的框架,使用混合运动基来表示相机运动:从相机几何中导出的物理基和用于复杂场景的随机基。我们的方法包括一个基于拉普拉斯分布的混合概率损失函数,以增强训练的鲁棒性。为了评估,我们通过在现有光流数据集中遮蔽动态物体来创建一个新的基准,以隔离纯粹的相机运动。实验表明,CamFlow在各种场景中优于最先进的方法,展示了在零样本设置中的卓越鲁棒性和泛化能力。代码和数据集可在我们的项目页面获取:this https URL。

[33] 通过基于光谱的空间分组实现稳健的恶劣天气去除
标题: Robust Adverse Weather Removal via Spectral-based Spatial Grouping
作者: Yuhwan Jeong / Yunseo Yang / Youngjo Yoon / Kuk-Jin Yoon
原文:   [英文]  
备注: accepted by ICCV25
摘要:
恶劣天气条件会导致多样且复杂的退化模式,这推动了全能型(AiO)模型的发展。然而,最近的AiO解决方案仍然难以捕捉多样的退化现象,因为像直接在频域上操作的全局过滤方法无法处理高度可变和局部化的失真。为了解决这些问题,我们提出了基于频谱的空间分组Transformer(SSGformer),这是一种利用频谱分解和分组注意力进行多天气图像修复的新方法。SSGformer使用传统的边缘检测将图像分解为高频边缘特征,并通过奇异值分解获取低频信息。我们利用多头线性注意力有效地建模这些特征之间的关系。融合的特征与输入结合生成一个分组掩码,该掩码根据空间相似性和图像纹理对区域进行聚类。为了充分利用这个掩码,我们引入了一种分组注意力机制,能够强有力地去除恶劣天气影响,并确保在各种天气条件下表现一致。我们还提出了一种空间分组Transformer块,使用通道注意力和空间注意力,有效平衡特征关系和空间依赖性。大量实验表明我们的方法具有优越性,验证了其在处理多样且复杂的恶劣天气退化方面的有效性。

[34] DACA-Net:一种用于水下图像增强的退化感知条件扩散网络
标题: DACA-Net: A Degradation-Aware Conditional Diffusion Network for Underwater Image Enhancement
作者: Chang Huang / Jiahang Cao / Jun Ma / Kieren Yu / Cong Li / Huayong Yang / Kaishun Wu
原文:   [英文]   [中文]  
备注: accepted by ACM MM 2025
摘要:
水下图像通常由于复杂的光学效应(如散射和吸收)而遭受严重的颜色失真、低可见度和结构清晰度降低,这极大地降低了它们的视觉质量,并限制了后续视觉感知任务的性能。现有的增强方法往往难以自适应地处理多样的退化条件,并且未能有效利用水下特定的物理先验。在本文中,我们提出了一种退化感知的条件扩散模型,以自适应且稳健地增强水下图像。给定一张退化的水下图像作为输入,我们首先使用一个轻量级的双流卷积网络预测其退化水平,生成一个连续的退化评分作为语义指导。基于此评分,我们引入了一种新颖的基于条件扩散的恢复网络,采用Swin UNet骨干网络,实现自适应噪声调度和分层特征细化。为了结合水下特定的物理先验,我们进一步提出了一种退化引导的自适应特征融合模块和一种结合感知一致性、直方图匹配和特征级对比的混合损失函数。在基准数据集上的综合实验表明,我们的方法能够有效恢复水下图像,具有卓越的色彩保真度、感知质量和结构细节。与现有的最先进方法相比,我们的框架在定量指标和定性视觉评估上均取得了显著的改进。

[35] AlphaDent:用于自动牙齿病理检测的数据集
标题: AlphaDent: A dataset for automated tooth pathology detection
作者: Evgeniy I. Sosnin / Yuriy L. Vasilev / Roman A. Solovyev / Aleksandr L. Stempkovskiy / Dmitry V. Telpukhov / Artem A. Vasilev / Aleksandr A. Amerikanov / Aleksandr Y. Romanov
原文:   [英文]  
备注: None
摘要:
在本文中,我们介绍了一个用于牙科研究的新独特数据集——AlphaDent。该数据集基于295名患者牙齿的DSLR相机照片,包含超过1200张图像。数据集被标注用于解决实例分割问题,并分为9个类别。文章详细描述了数据集和标注格式。文章还提供了使用该数据集进行实例分割问题的神经网络训练实验的详细信息。获得的结果显示出预测的高质量。该数据集以开放许可证发布,训练/推理代码和模型权重也以开放许可证提供。

[36] 从机器人视角识别动作以实现自然的人机交互
标题: Recognizing Actions from Robotic View for Natural Human-Robot Interaction
作者: Ziyi Wang / Peiming Li / Hong Liu / Zhichao Deng / Can Wang / Jun Liu / Junsong Yuan / Mengyuan Liu
原文:   [英文]   [中文]  
备注: 8 pages, 4 figures, Accepted to ICCV2025
摘要:
自然人机交互(N-HRI)要求机器人能够在不同距离和状态下识别人类动作,无论机器人本身是运动的还是静止的。这种设置比传统的人类动作识别任务更灵活和实用。然而,现有为传统动作识别设计的基准由于数据、模态、任务类别以及主体和环境的多样性有限,未能解决N-HRI中的独特复杂性。为了解决这些挑战,我们引入了ACTIVE(来自机器人视角的动作),这是一个专门为移动服务机器人中普遍存在的感知中心机器人视角量身定制的大规模数据集。ACTIVE包含30个复合动作类别、80名参与者和46,868个标注视频实例,涵盖RGB和点云模态。参与者在距离3米到50米的不同环境中执行各种人类动作,同时摄像平台也是移动的,模拟了由于地面不平而导致的不同摄像机高度的真实世界机器人感知场景。这个全面且具有挑战性的基准旨在推动N-HRI中的动作和属性识别研究。此外,我们提出了ACTIVE-PC,一种使用多级邻域采样、分层识别器、弹性椭圆查询以及精确解耦人类动作中的运动干扰的方法,以准确感知远距离的人类动作。实验结果证明了ACTIVE-PC的有效性。我们的代码可在此URL获取:this https URL。

[37] HRVVS:一种通过分层自回归残差先验进行高分辨率视频血管分割的网络
标题: HRVVS: A High-resolution Video Vasculature Segmentation Network via Hierarchical Autoregressive Residual Priors
作者: Xincheng Yao / Yijun Yang / Kangwei Guo / Ruiqiang Xiao / Haipeng Zhou / Haisu Tao / Jian Yang / Lei Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
在肝切除手术中,手术视频中肝脏血管的分割具有重要的临床意义。然而,由于缺乏合适的数据集以及任务本身的复杂性,这一领域的研究相对较少。为了解决这个问题,我们首先引入了一个高质量的逐帧标注的肝脏血管数据集,该数据集包含35个长肝切除手术视频和11442个高分辨率帧。在此基础上,我们提出了一种新颖的高分辨率视频血管分割网络,称为HRVVS。我们创新性地将预训练的视觉自回归建模(VAR)模型嵌入到分层编码器的不同层中,作为先验信息,以减少在下采样过程中产生的信息退化。此外,我们在多视图分割网络上设计了一个动态记忆解码器,以在保留帧间更多细节的同时,最小化冗余信息的传输。在手术视频数据集上的大量实验表明,我们提出的HRVVS显著优于现有的最先进方法。源代码和数据集将在\href{this https URL}{this https URL}公开提供。

[38] RainbowPrompt:增强多样性的提示进化用于持续学习
标题: RainbowPrompt: Diversity-Enhanced Prompt-Evolving for Continual Learning
作者: Kiseong Hong / Gyeong-hyeon Kim / Eunwoo Kim
原文:   [英文]   [中文]  
备注: Accepted by the 2025 IEEE/CVF International Conference on Computer Vision (ICCV 2025)
摘要:
基于提示的持续学习通过调整一小部分参数并保持预训练模型不变,提供了一种无需重演的解决方案。为了满足连续任务的复杂需求,关键在于有效地在提示中整合任务特定的知识。然而,现有的工作要么依赖于固定的学习提示(即在新任务学习期间表示保持不变的提示),要么依赖于从纠缠的任务共享空间生成的提示,这限制了整合提示的表示多样性。为了解决这个问题,我们提出了一种新颖的提示进化机制,以自适应地将基础提示(即任务特定提示)聚合成一个统一的提示,同时确保多样性。通过转换和对齐基础提示,包括先前学习的和新引入的,我们的方法不断进化积累的知识以促进新任务的学习。我们进一步引入了一个可学习的概率门,以自适应地确定在进化过程中激活哪些层。我们在类增量学习的图像分类和视频动作识别任务中验证了我们的方法,在所有场景中相较于现有方法平均提升了9.07%和7.40%。

[39] 通过基于生成增强的长尾识别在超声中对乳腺病变进行亚型分类
标题: Subtyping Breast Lesions via Generative Augmentation based Long-tailed Recognition in Ultrasound
作者: Shijing Chen / Xinrui Zhou / Yuhao Wang / Yuhao Huang / Ao Chang / Dong Ni / Ruobing Huang
原文:   [英文]   [中文]  
备注: MICCAI2025 Early Accept. 11 pages, 3 figures, 2 tables
摘要:
准确识别乳腺病变亚型可以促进个性化治疗和干预。超声(US)作为一种安全且易于获取的成像方式,被广泛用于乳腺异常的筛查和诊断。然而,不同亚型的发生率呈现出偏斜的长尾分布,这对自动识别提出了重大挑战。生成性增强为纠正数据分布提供了一个有前景的解决方案。受此启发,我们提出了一种用于长尾分类的双阶段框架,通过高保真数据合成来减轻分布偏差,同时避免过度使用导致整体性能下降。该框架结合了一个由强化学习驱动的自适应采样器,通过训练一个战略性多智能体动态校准合成-真实数据比例,以弥补真实数据的不足,同时确保稳定的辨别能力。此外,我们的类可控合成网络集成了一个基于草图的感知分支,利用解剖先验来保持独特的类别特征,同时实现无标注推理。在一个内部长尾和一个公共不平衡乳腺超声数据集上的大量实验表明,与最先进的方法相比,我们的方法取得了令人满意的性能。更多合成图像可以在此https URL中找到。

[40] COOkeD:零样本CLIP时代的基于集成的OOD检测
标题: COOkeD: Ensemble-based OOD detection in the era of zero-shot CLIP
作者: Galadrielle Humblot-Renaux / Gianni Franchi / Sergio Escalera / Thomas B. Moeslund
原文:   [英文]   [中文]  
备注: accepted at ICCVW'25 - Systematic Trust in AI Models: Ensuring Fairness, Reliability, Explainability, and Accountability in Machine Learning Frameworks
摘要:
分布外(OOD)检测是可信图像识别系统中的一个重要组成部分,因为在测试时可能会出现未知类别。OOD检测方法通常围绕单个分类器展开,导致研究领域在经典监督设置(例如,训练在CIFAR100上的ResNet18分类器)与零样本设置(将类别名称作为提示输入到CLIP)之间的分裂。在这两种情况下,一个总的挑战是OOD检测性能被分类器在分布内(ID)数据上的能力隐含地限制。在这项工作中,我们展示了只要双方稍微开放一点思维,通过创建一个异质集成体可以实现显著的OOD检测——COOkeD结合了在特定数据集上端到端训练的封闭世界分类器、零样本CLIP分类器以及在CLIP图像特征上训练的线性探测分类器的预测。虽然乍一看显得庞大,但这种方法是模块化的、后期的,并利用了预训练的视觉语言模型(VLM)的可用性,因此与训练单个标准分类器相比,几乎没有额外开销。我们在流行的CIFAR100和ImageNet基准上评估COOkeD,同时也考虑了更具挑战性、更现实的设置,从训练时标签噪声到测试时协变量漂移,再到之前被忽视的零样本漂移。尽管其简单性,COOkeD实现了最先进的性能和比经典及基于CLIP的OOD检测方法更大的鲁棒性。代码可在此https URL获取。

[41] 使用注册图像的电子客户身份验证系统的鲁棒深度伪造检测
标题: Robust Deepfake Detection for Electronic Know Your Customer Systems Using Registered Images
作者: Takuma Amada / Kazuya Kakizaki / Taiki Miyagawa / Akinori F. Ebihara / Kaede Shiohara / Toshihiko Yamasaki
原文:   [英文]   [中文]  
备注: Accepted to 19th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2025)
摘要:
在本文中,我们提出了一种专门为电子客户身份验证(eKYC)系统设计的深度伪造检测算法。为了确保eKYC系统在面对深度伪造攻击时的可靠性,开发一种能够识别面部交换和面部重演的强大深度伪造检测器,同时对图像降解具有鲁棒性是至关重要的。我们通过三个关键贡献来解决这些挑战:(1)我们的方法通过检测面部识别模型提取的身份向量中的时间不一致性来评估视频的真实性,从而全面检测面部交换和面部重演。(2)除了处理视频输入外,该算法还利用一个已注册的图像(假定为真实)来计算输入视频与注册图像之间的身份差异,从而显著提高检测准确性。(3)我们发现,使用在更大数据集上训练的面部特征提取器可以提高检测性能,并增强对图像降解的鲁棒性。我们的实验结果表明,我们提出的方法能够准确全面地检测面部交换和面部重演,并且对各种形式的未见图像降解具有鲁棒性。我们的源代码已公开可用,网址为this https URL。

[42] ShortFT:通过基于捷径的微调实现扩散模型对齐
标题: ShortFT: Diffusion Model Alignment via Shortcut-based Fine-Tuning
作者: Xiefan Guo / Miaomiao Cui / Liefeng Bo / Di Huang
原文:   [英文]  
备注: Accepted by ICCV 2025
摘要:
基于反向传播的方法旨在通过奖励梯度在去噪链中的端到端反向传播,将扩散模型与奖励函数对齐,提供了一个有前景的视角。然而,由于计算成本和与冗长去噪链相关的梯度爆炸风险,现有方法难以实现完整的梯度反向传播,导致结果不理想。在本文中,我们介绍了一种基于捷径的微调策略(ShortFT),这是一种利用较短去噪链的高效微调策略。更具体地说,我们采用了最近研究的轨迹保留的少步扩散模型,该模型能够在原始去噪链上提供捷径,并构建了一个较短长度的基于捷径的去噪链。在该链上的优化显著提高了微调基础模型的效率和效果。我们的方法经过严格测试,可以有效应用于各种奖励函数,显著提高对齐性能,超越最先进的替代方案。

[43] VL-Cogito:用于高级多模态推理的渐进式课程强化学习
标题: VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning
作者: Ruifeng Yuan / Chenghao Xiao / Sicong Leng / Jianyu Wang / Long Li / Weiwen Xu / Hou Pong Chan / Deli Zhao / Tingyang Xu / Zhongyu Wei / Hao Zhang / Yu Rong
原文:   [英文]   [中文]  
备注: 21 pages, 5 figures, 6 tables. Work in progress
摘要:
强化学习已被证明在增强大型语言模型的推理能力方面具有有效性。最近的研究工作逐步将这一范式扩展到多模态推理任务。由于多模态任务在语义内容和问题表述上的固有复杂性和多样性,现有模型在不同领域和难度级别上往往表现不稳定。为了解决这些局限性,我们提出了VL-Cogito,这是一种通过新颖的多阶段渐进课程强化学习(PCuRL)框架训练的先进多模态推理模型。PCuRL系统地引导模型完成难度逐渐增加的任务,大幅提升其在多样化多模态环境中的推理能力。该框架引入了两个关键创新:(1)在线难度软加权机制,动态调整连续强化学习训练阶段的训练难度;(2)动态长度奖励机制,鼓励模型根据任务复杂性自适应地调节其推理路径长度,从而在推理效率与正确性之间取得平衡。实验评估表明,VL-Cogito在数学、科学、逻辑和一般理解等主流多模态基准上,始终能够匹配或超越现有的面向推理的模型,验证了我们方法的有效性。

[44] 通过可控扩散模型进行长尾轨迹预测的生成式主动学习
标题: Generative Active Learning for Long-tail Trajectory Prediction via Controllable Diffusion Model
作者: Daehee Park / Monu Surana / Pranav Desai / Ashish Mehta / Reuben MV John / Kuk-Jin Yoon
原文:   [英文]   [中文]  
备注: Accepted at ICCV 2025
摘要:
尽管数据驱动的轨迹预测提高了自动驾驶系统的可靠性,但在很少观察到的长尾场景中仍然存在困难。先前的研究通过修改模型架构(例如使用超网络)来解决这个问题。相比之下,我们提出通过改进训练过程来释放每个模型的潜力,而不改变其结构。我们引入了用于轨迹预测的生成式主动学习(GALTraj),这是第一个成功将生成式主动学习应用于轨迹预测的方法。它能够主动识别模型失败的罕见尾部样本,并在训练过程中使用可控扩散模型增强这些样本。在我们的框架中,生成多样化、现实且保留尾部特征的场景至关重要。因此,我们设计了一种尾部感知生成方法,应用定制的扩散引导来生成既能捕捉罕见行为又遵循交通规则的轨迹。与之前仅关注场景多样性的模拟方法不同,GALTraj首次展示了模拟器驱动的增强如何有利于轨迹预测中的长尾学习。在多个轨迹数据集(WOMD, Argoverse2)上使用流行的骨干网络(QCNet, MTR)进行的实验证实,我们的方法显著提升了尾部样本的性能,同时也提高了头部样本的准确性。

[45] 弥合缺失模态的差距:利用知识蒸馏和风格匹配进行脑肿瘤分割
标题: Bridging the Gap in Missing Modalities: Leveraging Knowledge Distillation and Style Matching for Brain Tumor Segmentation
作者: Shenghao Zhu / Yifei Chen / Weihong Chen / Yuanhan Wang / Chang Liu / Shuo Jiang / Feiwei Qin / Changmiao Wang
原文:   [英文]   [中文]  
备注: 11 pages, 2 figures
摘要:
准确可靠的脑肿瘤分割,特别是在处理缺失模态时,仍然是医学图像分析中的一个关键挑战。以往的研究尚未完全解决在缺乏关键成像模态时肿瘤边界分割不敏感性和特征转移的问题。在本研究中,我们引入了MST-KDNet,旨在解决这些关键问题。我们的模型具有多尺度Transformer知识蒸馏,可以有效捕捉不同分辨率下的注意力权重,双模式Logit蒸馏以改善知识转移,以及一个结合特征匹配与对抗学习的全局风格匹配模块。在BraTS和FeTS 2024数据集上进行的综合实验表明,MST-KDNet在Dice和HD95分数上均超越了当前领先的方法,特别是在模态丢失严重的情况下。我们的方法表现出卓越的鲁棒性和泛化潜力,使其成为现实临床应用的有前途的候选者。我们的源代码可在此https URL获取。

[46] 大量时尚!通过草图-文本配对进行图像生成的多条件处理
标题: LOTS of Fashion! Multi-Conditioning for Image Generation via Sketch-Text Pairing
作者: Federico Girella / Davide Talon / Ziyue Liu / Zanxi Ruan / Yiming Wang / Marco Cristani
原文:   [英文]   [中文]  
备注: Accepted at ICCV25 (Oral). Project page: this https URL
摘要:
时尚设计是一个复杂的创作过程,融合了视觉和文本表达。设计师通过草图传达想法,这些草图定义了空间结构和设计元素,而文本描述则捕捉材料、质地和风格细节。在本文中,我们提出了一种用于时尚图像生成的局部化文本和草图方法(LOTS),这是一种基于组合草图和文本生成完整时尚外观的方法。LOTS利用全局描述与配对的局部化草图+文本信息进行条件设定,并引入了一种新颖的基于步骤的合并策略进行扩散适应。首先,模块化的以对为中心的表示将草图和文本编码到共享的潜在空间,同时保留独立的局部特征;然后,在扩散对引导阶段,通过注意力引导在扩散模型的多步骤去噪过程中整合局部和全局条件。为了验证我们的方法,我们基于Fashionpedia发布了Sketchy,这是第一个为每张图像提供多个文本-草图对的时尚数据集。定量结果显示,LOTS在全局和局部指标上实现了最先进的图像生成性能,而定性示例和人类评估研究则突出了其前所未有的设计定制化水平。

[47] SpectraSentinel:轻量级双流实时无人机检测、跟踪与载荷识别
标题: SpectraSentinel: LightWeight Dual-Stream Real-Time Drone Detection, Tracking and Payload Identification
作者: Shahriar Kabir / Istiak Ahmmed Rifti / H.M. Shadman Tabib / Mushfiqur Rahman / Sadatul Islam Sadi / Hasnaen Adil / Ahmed Mahir Sultan Rumi / Ch Md Rakin Haider
原文:   [英文]   [中文]  
备注: None
摘要:
无人机在民用空域的激增引发了紧迫的安全问题,迫切需要强大的实时监控系统。针对2025年VIP杯挑战任务——无人机检测、跟踪和载荷识别——我们提出了一种双流无人机监控框架。我们的方法在红外(热成像)和可见光(RGB)数据流上部署了独立的You Only Look Once v11-nano (YOLOv11n) 目标检测器,故意避免早期融合。这种分离使每个模型能够针对其输入模式的独特特性进行专门优化,从而应对在多样化环境条件下小型空中物体所带来的独特挑战。我们根据领域定制数据预处理和增强策略——例如限制红外图像的颜色抖动——并微调训练超参数,以提高在高噪声、低光和运动模糊条件下的检测性能。最终得到的轻量级YOLOv11n模型在区分无人机与鸟类以及分类载荷类型方面表现出高精度,同时保持实时性能。本文详细介绍了双模态设计的原理、专门的训练流程以及架构优化,这些共同实现了在RGB和IR通道上高效且准确的无人机监控。

[48] 图引导的双层增强用于3D场景分割
标题: Graph-Guided Dual-Level Augmentation for 3D Scene Segmentation
作者: Hongbin Lin / Yifan Jiang / Juangui Xu / Jesse Jiaxi Xu / Yi Lu / Zhengyu Hu / Ying-Cong Chen / Hao Wang
原文:   [英文]   [中文]  
备注: 15 pages, 11 figures, to be published in ACMMM 2025 Conference
摘要:
3D点云分割旨在为场景中的各个点分配语义标签,以实现细粒度的空间理解。现有方法通常采用数据增强来减轻大规模标注的负担。然而,大多数增强策略仅关注局部变换或语义重组,缺乏对场景中全局结构依赖性的考虑。为了解决这一限制,我们提出了一种具有双重约束的图引导数据增强框架,用于逼真的3D场景合成。我们的方法从真实世界数据中学习对象关系统计信息,以构建用于场景生成的引导图。局部级别的约束确保对象之间的几何合理性和语义一致性,而全局级别的约束通过将生成的布局与引导图对齐来维护场景的拓扑结构。在室内和室外数据集上的大量实验表明,我们的框架生成了多样且高质量的增强场景,从而在各种模型的点云分割性能上实现了一致的提升。

[49] MergeSAM:基于“分割万物模型”的遥感图像无监督变化检测
标题: MergeSAM: Unsupervised change detection of remote sensing images based on the Segment Anything Model
作者: Meiqi Hu / Lingzhi Lu / Chengxi Han / Xiaoping Liu
原文:   [英文]  
备注: 4 pages
摘要:
近年来,在大规模数据集上训练的大型基础模型在特征提取和通用特征表示方面展示了卓越的能力。深度学习驱动的大型模型的持续进步显示出在加速无监督变化检测方法方面的巨大潜力,从而增强了变化检测技术的实际应用性。在这一进展的基础上,本文介绍了MergeSAM,这是一种基于“Segment Anything Model”(SAM)的创新型高分辨率遥感影像无监督变化检测方法。我们设计了两种新策略,MaskMatching和MaskSplitting,以应对现实世界中的复杂情况,如对象分裂、合并及其他复杂变化。所提出的方法充分利用了SAM的对象分割能力,构建了多时相掩码以捕捉复杂变化,将地物覆盖的空间结构嵌入到变化检测过程中。

[50] Hydra-Bench:多模态叶片湿度感知的基准测试
标题: Hydra-Bench: A Benchmark for Multi-Modal Leaf Wetness Sensing
作者: Yimeng Liu / Maolin Gan / Yidong Ren / Gen Li / Jingkai Lin / Younsuk Dong / Zhichao Cao
原文:   [英文]   [中文]  
备注: None
摘要:
叶片湿度检测是农业监测中的一项关键任务,因为它直接影响植物病害的预测和防护。然而,现有的传感系统在应用于动态现实条件下的自然叶片时,在稳健性、准确性和环境适应性方面存在局限性。为了解决这些挑战,我们引入了一个新的多模态数据集,专门用于评估和推进叶片湿度检测中的机器学习算法。我们的数据集包括同步的毫米波原始数据、合成孔径雷达(SAR)图像和在六个月内从五种不同植物物种中收集的RGB图像,这些数据来自于受控和户外田间环境。我们使用Hydra模型提供了详细的基准测试,包括与单一模态基线和多种融合策略的比较,以及在不同扫描距离下的性能表现。此外,我们的数据集可以作为未来SAR成像算法优化的基准,支持在多样化条件下对检测准确性进行系统评估。

[51] 使用生成基础模型的零样本图像异常检测
标题: Zero-Shot Image Anomaly Detection Using Generative Foundation Models
作者: Lemar Abdi / Amaan Valiuddin / Francisco Caetano / Christiaan Viviers / Fons van der Sommen
原文:   [英文]  
备注: Accepted at the workshop of Anomaly Detection with Foundation Models, ICCV 2025
摘要:
检测分布外(OOD)输入对于在开放世界环境中部署安全的视觉系统至关重要。我们重新审视扩散模型,不是作为生成器,而是作为用于OOD检测的通用感知模板。本研究探讨了将基于分数的生成模型用作跨未见数据集进行语义异常检测的基础工具。具体而言,我们利用去噪扩散模型(DDMs)的去噪轨迹作为丰富的纹理和语义信息来源。通过分析Stein分数误差,并通过结构相似性指数度量(SSIM)进行放大,我们引入了一种无需在每个目标数据集上重新训练即可识别异常样本的新方法。我们的方法优于现有的最先进技术,并依赖于在一个数据集——CelebA上训练单一模型,我们发现它是一个有效的基础分布,甚至在某些情况下优于更常用的数据集如ImageNet。实验结果显示在某些基准测试上接近完美的表现,并在其他测试上有显著的提升空间,突显了生成基础模型在异常检测中的优势和未来潜力。

[52] 基于图像引导的模板形状重建:使用网格不可延展性约束
标题: Image-Guided Shape-from-Template Using Mesh Inextensibility Constraints
作者: Thuy Tran / Ruochen Chen / Shaifali Parashar
原文:   [英文]  
备注: Accepted to ICCV 2025. Total 13 pages, 9 figures, 9 tables
摘要:
形状模板恢复(SfT)指的是一类通过使用三维模板从图像/视频中重建变形物体的三维形状的方法。传统的SfT方法需要图像与三维模板纹理之间的点对应关系,以便实时从图像/视频中重建三维形状。当图像中出现严重遮挡导致无法获得对应关系时,它们的性能会严重下降。相比之下,现代SfT方法通过结合深度神经网络来重建三维物体,采用无对应关系的方法,因此需要大量数据进行监督。最近的进展通过结合可微分物理和图形学,采用完全无监督或自监督的方法来变形三维模板以匹配输入图像。在本文中,我们提出了一种无监督的SfT方法,该方法仅使用图像观测:颜色特征、梯度和轮廓,以及网格不可延展性约束,以比(表现最佳的)无监督SfT快400倍的速度进行重建。此外,在生成更精细的细节和处理严重遮挡方面,我们的方法比现有方法表现出色。代码可在此https URL获取。

[53] 一种用于从异步轨迹中求解结构和运动的线性N点求解器
标题: A Linear N-Point Solver for Structure and Motion from Asynchronous Tracks
作者: Hang Su / Yunlong Feng / Daniel Gehrig / Panfeng Jiang / Ling Gao / Xavier Lagorce / Laurent Kneip
原文:   [英文]   [中文]  
备注: None
摘要:
从点对应关系中进行结构和连续运动估计是计算机视觉中的一个基本问题,著名的算法如熟悉的5点或8点算法为其提供了动力。然而,尽管这些算法备受赞誉,它们仅限于处理来自一对视图的点对应关系,每个视图代表场景的瞬时捕获。然而,在滚动快门相机或最近的事件相机的情况下,这种同步被打破。在这项工作中,我们提出了一种统一的方法,用于从具有任意时间戳的2D点对应关系中进行结构和线性运动估计,来自任意一组视图。通过将问题表述为一阶动态并利用恒定速度运动模型,我们推导出一种新颖的线性点关联关系,允许有效恢复线性速度和3D点,并具有可预测的退化和解的多样性。由于其通用的表述,它可以处理来自广泛传感模式的对应关系,如全局快门、滚动快门和事件相机,甚至可以结合来自不同共置传感器的对应关系。我们在模拟和真实数据上验证了我们求解器的有效性,与最近的方法相比,我们在所有模式上显示出一致的改进。我们相信我们的工作为从异步数据中进行高效的结构和运动估计打开了大门。代码可以在这个https URL找到。

[54] Social-Pose:通过人体姿态增强轨迹预测
标题: Social-Pose: Enhancing Trajectory Prediction with Human Body Pose
作者: Yang Gao / Saeed Saadatnejad / Alexandre Alahi
原文:   [英文]   [中文]  
备注: Accepted to IEEE Transactions on Intelligent Transportation Systems (T-ITS)
摘要:
准确的人类轨迹预测是自动驾驶中最关键的任务之一,以确保其安全性。然而,现有模型往往未能充分利用人类在导航空间时下意识传达的视觉线索。在这项工作中,我们研究了使用人体姿态而非仅仅依赖其在时间上的笛卡尔空间位置来预测人类轨迹的好处。我们提出了“Social-pose”,这是一种基于注意力机制的姿态编码器,可以有效捕捉场景中所有人的姿态及其社交关系。我们的方法可以集成到各种轨迹预测架构中。我们在最先进的模型(基于LSTM、GAN、MLP和Transformer)上进行了广泛的实验,并在合成数据集(Joint Track Auto)和真实数据集(Human3.6M、道路交通中的行人和骑自行车者以及JRDB)上均显示出改进。我们还探讨了使用2D与3D姿态的优势,以及噪声姿态的影响和我们基于姿态的预测器在机器人导航场景中的应用。

[55] HOLA:通过分层上下文聚合和高效预训练增强视听深度伪造检测
标题: HOLA: Enhancing Audio-visual Deepfake Detection via Hierarchical Contextual Aggregations and Efficient Pre-training
作者: Xuecheng Wu / Danlei Huang / Heli Sun / Xinyi Yin / Yifan Wang / Hao Wang / Jia Zhang / Fei Wang / Peihao Guo / Suyu Xing / Junxiao Xue / Liang He
原文:   [英文]   [中文]  
备注: None
摘要:
生成式人工智能的进步使得视频级深度伪造检测变得越来越具有挑战性,暴露了当前检测技术的局限性。在本文中,我们提出了HOLA,这是我们为2025年1M-Deepfakes检测挑战赛的视频级深度伪造检测赛道提供的解决方案。受大规模预训练在通用领域成功的启发,我们首先在多模态视频级深度伪造检测中扩展了音视频自监督预训练,利用我们自建的181万样本的数据集,从而形成了一个统一的两阶段框架。具体来说,HOLA具有一个迭代感知的跨模态学习模块,用于选择性音视频交互,具有门控聚合的层次化上下文建模,从局部-全局视角出发,以及一个金字塔式的精炼器,用于尺度感知的跨粒度语义增强。此外,我们提出了伪监督信号注入策略,以进一步提升模型性能。大量跨专家模型和MLLMs的实验令人印象深刻地证明了我们提出的HOLA的有效性。我们还进行了一系列消融研究,以探索我们引入组件的关键设计因素。值得注意的是,我们的HOLA在TestA集上排名第一,超出第二名0.0476的AUC。

[56] 模态感知特征匹配:单模态与跨模态技术的综合综述
标题: Modality-Aware Feature Matching: A Comprehensive Review of Single- and Cross-Modality Techniques
作者: Weide Liu / Wei Zhou / Jun Liu / Ping Hu / Jun Cheng / Jungong Han / Weisi Lin
原文:   [英文]   [中文]  
备注: None
摘要:
特征匹配是计算机视觉中的一个基石任务,对于图像检索、立体匹配、3D重建和SLAM等应用至关重要。本文综述了基于模态的特征匹配,全面探讨了传统的手工方法,并着重强调了在各种模态下的现代深度学习方法,包括RGB图像、深度图像、3D点云、LiDAR扫描、医学图像和视觉-语言交互。传统方法利用如Harris角点检测器和SIFT、ORB等描述符,在中等模态内变化下表现出稳健性,但在显著的模态差异下则显得力不从心。现代基于深度学习的方法,例如基于CNN的SuperPoint和基于Transformer的LoFTR等无检测器策略,大大提高了跨模态的稳健性和适应性。我们强调了模态感知的进展,如针对深度图像的几何和深度特定描述符、针对3D点云的稀疏和密集学习方法、针对LiDAR扫描的注意力增强神经网络,以及如MIND描述符等用于复杂医学图像匹配的专门解决方案。跨模态应用,特别是在医学图像配准和视觉-语言任务中,突显了特征匹配在处理日益多样化的数据交互方面的演变。

[57] 视频中的任意分割:视频对象分割与跟踪的全面回顾与展望
标题: Segment Anything for Video: A Comprehensive Review of Video Object Segmentation and Tracking from Past to Future
作者: Guoping Xu / Jayaram K. Udupa / Yajun Yu / Hua-Chieh Shao / Songlin Zhao / Wei Liu / You Zhang
原文:   [英文]  
备注: 45 pages, 21 figures
摘要:
视频对象分割与跟踪(VOST)在计算机视觉领域中提出了一个复杂但至关重要的挑战,需要在时间动态帧中稳健地整合分割与跟踪。传统方法在领域泛化、时间一致性和计算效率方面一直存在困难。基础模型的出现,如Segment Anything Model(SAM)及其后继者SAM2,引入了一种范式转变,使得基于提示的分割具有强大的泛化能力。在这些进展的基础上,本综述提供了基于SAM/SAM2方法的VOST的全面回顾,结构化为三个时间维度:过去、现在和未来。我们研究了保留和更新历史信息(过去)的策略,提取和优化当前帧的判别特征(现在)的方法,以及预测对象动态的运动预测和轨迹估计机制(未来)。在此过程中,我们强调了从早期基于记忆的架构到SAM2的流式记忆和实时分割能力的演变。我们还讨论了最近的创新,如运动感知记忆选择和轨迹引导提示,这些创新旨在提高准确性和效率。最后,我们识别了仍然存在的挑战,包括记忆冗余、错误积累和提示效率低下,并提出了未来研究的有前景方向。本综述提供了对该领域的及时和结构化的概述,旨在通过基础模型的视角指导研究人员和实践者推进VOST的研究状态。

[58] 在资源匮乏环境中推进胎儿超声图像质量评估
标题: Advancing Fetal Ultrasound Image Quality Assessment in Low-Resource Settings
作者: Dongli He / Hu Wang / Mohammad Yaqub
原文:   [英文]   [中文]  
备注: Accepted to the MICCAI 2025 MIRASOL Workshop
摘要:
准确的胎儿生物测量,如腹围,在产前护理中起着至关重要的作用。然而,获取用于这些测量的高质量超声图像在很大程度上依赖于超声技师的专业技能,这在低收入国家由于训练有素的人员稀缺而构成了重大挑战。为了解决这个问题,我们利用FetalCLIP,这是一种在超过210,000对胎儿超声图像-字幕数据集上预训练的视觉-语言模型,用于对盲扫超声数据进行自动胎儿超声图像质量评估(IQA)。我们引入了FetalCLIP$_{CLS}$,这是一种使用低秩适配(LoRA)从FetalCLIP改编的IQA模型,并在ACOUSLIC-AI数据集上与六个CNN和Transformer基线进行评估。FetalCLIP$_{CLS}$实现了最高的F1得分0.757。此外,我们展示了一种改编的分割模型在重新用于分类时进一步提高了性能,达到了0.771的F1得分。我们的工作展示了如何通过参数高效的微调胎儿超声基础模型来实现特定任务的适应,从而在资源有限的环境中推进产前护理。实验代码可在此URL获取。

[59] MoCHA:使用专家混合连接器和层次化组注意力的高级视觉-语言推理
标题: MoCHA: Advanced Vision-Language Reasoning with MoE Connector and Hierarchical Group Attention
作者: Yuqi Pang / Bowen Yang / Yun Cao / Fan Rong / Xiaoyu Li / Chen He
原文:   [英文]   [中文]  
备注: None
摘要:
视觉大语言模型(VLLMs)主要通过结合先进的视觉编码器和扩大视觉模型规模来处理复杂和细粒度的视觉信息。然而,这些方法面临着高昂的训练和推理成本,以及在提取视觉细节和有效跨模态连接方面的挑战。在这项工作中,我们提出了一种新颖的视觉框架MoCHA来解决这些问题。我们的框架整合了四个视觉骨干网络(即CLIP、SigLIP、DINOv2和ConvNeXt)以提取互补的视觉特征,并配备了稀疏专家混合连接器(MoECs)模块,以动态选择适合不同视觉维度的专家。为了缓解MoECs模块编码的视觉信息的冗余或不足使用,我们进一步设计了具有组内和组间操作的分层组注意力(HGA)和用于编码视觉特征的自适应门控策略。我们在两个主流LLM(例如Phi2-2.7B和Vicuna-7B)上训练MoCHA,并在各种基准测试中评估其性能。值得注意的是,MoCHA在各种任务上优于最先进的开源权重模型。例如,与CuMo(Mistral-7B)相比,我们的MoCHA(Phi2-2.7B)在减轻幻觉方面表现出色,在POPE上提高了3.25%,并通过在MME上提高153分来更好地遵循视觉指令。最后,消融研究进一步证实了所提出的MoECs和HGA在提高MoCHA整体性能方面的有效性和鲁棒性。

[60] DISTIL:通过潜在扩散对可疑特洛伊木马输入进行无数据反演
标题: DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion
作者: Hossein Mirzaei / Zeinab Taghavi / Sepehr Rezaee / Masoud Hadi / Moein Madadi / Mackenzie W. Mathis
原文:   [英文]   [中文]  
备注: ICCV 2025
摘要:
深度神经网络在众多任务中展示了显著的成功,但它们仍然容易受到特洛伊木马(后门)攻击,这对其在现实世界关键任务应用中的安全性提出了严重的担忧。一个常见的对策是触发器反演——重建对手在训练期间插入的恶意“捷径”模式(触发器)。当前的触发器反演方法通常在特定假设下搜索完整的像素空间,但无法保证估计的触发器不仅仅是一个翻转模型输出的对抗性扰动。在此,我们提出了一种无数据、零样本的触发器反演策略,该策略限制了搜索空间,同时避免对触发器外观的强假设。具体而言,我们结合了一个由目标分类器引导的基于扩散的生成器;通过迭代生成,我们产生与模型依赖于恶意行为的内部表示对齐的候选触发器。定量和定性实证评估表明,我们的方法重建了有效区分干净模型与被特洛伊木马攻击的模型的触发器。DISTIL以较大优势超越了其他方法,在BackdoorBench数据集上实现了高达7.1%的准确率提升,并在特洛伊木马对象检测模型扫描中提高了9.4%,为可靠的后门防御提供了一个有前途的新方向,而无需依赖大量数据或对触发器的强先验假设。代码可在此https URL获取。

[61] 腹主动脉瘤中的壁面剪应力估计:迈向可推广的神经代理模型
标题: Wall Shear Stress Estimation in Abdominal Aortic Aneurysms: Towards Generalisable Neural Surrogate Models
作者: Patryk Rygiel / Julian Suk / Christoph Brune / Kak Khee Yeung / Jelmer M. Wolterink
原文:   [英文]   [中文]  
备注: None
摘要:
腹主动脉瘤(AAA)是腹主动脉的病理性扩张,一旦破裂会带来极高的致死风险。研究AAA的进展和破裂风险通常涉及使用计算流体动力学(CFD)进行体内血流建模,并提取诸如时间平均壁面剪切应力(TAWSS)或振荡剪切指数(OSI)等血流动力学因素。然而,众所周知,CFD模拟在计算上要求很高。因此,近年来,直接在3D形状上操作的几何深度学习方法被提出作为有力的替代方案,可以在短短几秒钟内估算血流动力学参数。在这项工作中,我们提出了一种几何深度学习方法来估算AAA患者的血流动力学,并研究其对现实世界常见变化因素的泛化能力。我们提出了一种E(3)等变深度学习模型,利用新颖的稳健几何描述符和投影几何代数。我们的模型通过100名AAA患者的CT扫描数据集进行训练,从中提取出腔体几何形状,并获得具有不同边界条件的参考CFD模拟。结果表明,该模型在分布内以及对外部测试集的泛化效果良好。此外,该模型能够准确估算几何重塑和边界条件变化下的血流动力学。此外,我们发现训练好的模型可以应用于不同的动脉树拓扑结构,在推理过程中添加新的和未见过的分支。最后,我们发现该模型在很大程度上对网格分辨率不敏感。这些结果显示了所提出模型的准确性和泛化能力,并突显了其在临床实践中对血流动力学参数估算的潜力。

[62] 自监督AI生成的人脸检测的双层优化
标题: Bi-Level Optimization for Self-Supervised AI-Generated Face Detection
作者: Mian Zou / Nan Zhong / Baosheng Yu / Yibing Zhan / Kede Ma
原文:   [英文]   [中文]  
备注: None
摘要:
通过监督学习训练的AI生成面部检测器通常依赖于特定生成器生成的合成图像,这限制了它们对新兴生成技术的泛化能力。为了解决这一限制,我们引入了一种基于双层优化的自监督方法。在内循环中,我们仅使用摄影面部图像预训练视觉编码器,采用一组线性加权的预设任务:分类可交换图像文件格式(EXIF)标签、排序EXIF标签,以及检测人工面部操控。外循环则优化这些预设任务的相对权重,以增强对操控面部的粗粒度检测,作为识别AI生成面部的代理任务。通过这样做,它使自监督学习更紧密地与AI生成面部检测的最终目标对齐。一旦预训练完成,编码器保持固定,AI生成面部要么作为高斯混合模型拟合到摄影面部特征下的异常检测,要么通过轻量级的两层感知器作为二元分类器进行检测。大量实验表明,我们的检测器在单类和二元分类设置中显著优于现有方法,表现出对未见过的生成器的强泛化能力。

[63] DepR: 深度引导的单视图场景重建与实例级扩散
标题: DepR: Depth Guided Single-view Scene Reconstruction with Instance-level Diffusion
作者: Qingcheng Zhao / Xiang Zhang / Haiyang Xu / Zeyuan Chen / Jianwen Xie / Yuan Gao / Zhuowen Tu
原文:   [英文]  
备注: ICCV 2025
摘要:
我们提出了DepR,这是一种深度引导的单视图场景重建框架,在组合范式中整合了实例级扩散。与其整体重建整个场景,DepR生成单个对象,然后将它们组合成一个连贯的3D布局。与之前仅在推理过程中使用深度进行对象布局估计的方法不同,DepR在训练和推理过程中都充分利用了深度的丰富几何信息。具体来说,我们引入了深度引导的条件来有效地将形状先验编码到扩散模型中。在推理过程中,深度进一步引导DDIM采样和布局优化,增强重建与输入图像之间的对齐。尽管仅在有限的合成数据上进行了训练,DepR在单视图场景重建中达到了最先进的性能,并在合成和真实世界数据集的评估中展示了强大的泛化能力。

[64] ScreenCoder:通过模块化多模态代理推进前端自动化的视觉到代码生成
标题: ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents
作者: Yilei Jiang / Yaozhi Zheng / Yuxuan Wan / Jiaming Han / Qunzhong Wang / Michael R. Lyu / Xiangyu Yue
原文:   [英文]   [中文]  
备注: None
摘要:
将用户界面(UI)设计自动转换为前端代码在加速软件开发和普及设计工作流程方面具有重要潜力。尽管最近的大型语言模型(LLMs)在文本到代码生成方面取得了进展,但许多现有方法仅依赖于自然语言提示,限制了它们在捕捉空间布局和视觉设计意图方面的有效性。相比之下,实际的UI开发本质上是多模态的,通常从视觉草图或模型开始。为了解决这一差距,我们引入了一个模块化多代理框架,该框架在三个可解释的阶段执行UI到代码的生成:基础、规划和生成。基础代理使用视觉语言模型来检测和标记UI组件,规划代理利用前端工程先验构建分层布局,而生成代理通过自适应提示合成生成HTML/CSS代码。与端到端黑箱方法相比,这种设计提高了稳健性、可解释性和保真度。此外,我们将该框架扩展为一个可扩展的数据引擎,自动生成大规模的图像-代码对。利用这些合成示例,我们微调并强化了一个开源的视觉语言模型(VLM),在UI理解和代码质量方面取得了显著提升。大量实验表明,我们的方法在布局准确性、结构一致性和代码正确性方面达到了最先进的性能。我们的代码已在此https URL公开提供。

[65] CapRecover: 一种针对视觉语言模型的跨模态特征反演攻击框架
标题: CapRecover: A Cross-Modality Feature Inversion Attack Framework on Vision Language Models
作者: Kedong Xiu / Saiqian Zhang
原文:   [英文]   [中文]  
备注: 9 pages, accepted by the 2025 ACM Multimedia Conference
摘要:
随着视觉语言模型(VLMs)越来越多地在分布式DNN配置中部署——视觉编码器(例如,ResNet, ViT)在用户设备上运行并将中间特征发送到云端——语义信息泄露的隐私风险也在增加。现有从这些中间特征重建图像的方法通常会导致模糊、语义模糊的图像。为了直接解决语义泄露问题,我们提出了CapRecover,这是一种跨模态反演框架,可以直接从中间特征中恢复高级语义内容,如标签或字幕,而无需图像重建。我们在多个数据集和受害模型上评估了CapRecover,展示了其在语义恢复方面的强大性能。具体而言,CapRecover在CIFAR-10上实现了高达92.71%的Top-1标签准确率,并从COCO2017的ResNet50特征中生成流畅的字幕,ROUGE-L得分高达0.52。我们的分析进一步揭示了较深的卷积层相比浅层编码了显著更多的语义信息。为了减轻语义泄露,我们引入了一种简单而有效的保护方法:在每一层的中间特征中添加随机噪声,并在下一层去除噪声。实验结果表明,这种方法可以在不增加训练成本的情况下防止语义泄露。

[66] TR-PTS:用于高效调优的任务相关参数和标记选择
标题: TR-PTS: Task-Relevant Parameter and Token Selection for Efficient Tuning
作者: Siqi Luo / Haoran Yang / Yi Xin / Mingyang Yi / Guangyang Wu / Guangtao Zhai / Xiaohong Liu
原文:   [英文]   [中文]  
备注: Accepted by ICCV 2025
摘要:
大型预训练模型在视觉任务中表现出色,但由于高计算和存储成本,微调这些模型并不实际。参数高效微调(PEFT)方法通过仅更新部分参数来缓解这一问题;然而,大多数现有方法与任务无关,未能充分利用特定任务的适应性,导致效率和性能不佳。为了解决这一限制,我们提出了任务相关参数和令牌选择(TR-PTS),这是一种任务驱动的框架,能够提高计算效率和准确性。具体来说,我们引入了任务相关参数选择,利用费舍尔信息矩阵(FIM)以分层方式识别和微调最具信息量的参数,同时保持其余参数不变。同时,任务相关令牌选择动态保留最具信息量的令牌并合并冗余令牌,从而减少计算开销。通过联合优化参数和令牌,TR-PTS使模型能够专注于任务区分信息。我们在基准测试中评估了TR-PTS,包括FGVC和VTAB-1k,其中它分别超过了完整微调3.40%和10.35%,达到了最先进的性能。代码可在此https URL获取。

[67] LCS:一种基于人工智能的低复杂度缩放器,用于游戏内容的高效能超分辨率
标题: LCS: An AI-based Low-Complexity Scaler for Power-Efficient Super-Resolution of Game Content
作者: Simon Pochinda / Momen K. Tageldeen / Mark Thompson / Tony Rinaldi / Troy Giorshev / Keith Lee / Jie Zhou / Frederick Walls
原文:   [英文]   [中文]  
备注: 8 pages, 3 figures
摘要:
现代游戏中内容渲染的复杂性日益增加,导致GPU的工作负载出现了问题性的增长。在本文中,我们提出了一种基于AI的低复杂度缩放器(LCS),其灵感来源于最先进的高效超分辨率(ESR)模型,可以将GPU的工作负载转移到低功耗设备,如神经处理单元(NPU)上。LCS在本地以低分辨率和高分辨率渲染的GameIR图像对上进行训练。我们利用对抗训练来鼓励感知上重要细节的重建,并应用重新参数化和量化技术来降低模型的复杂性和大小。在我们的比较分析中,我们将LCS与公开可用的AMD硬件基础的边缘自适应缩放功能(EASF)和AMD FidelityFX超级分辨率1(FSR1)在五个不同的指标上进行评估,发现LCS在感知质量上表现更好,展示了ESR模型在资源受限设备上进行放大处理的潜力。

[68] Viser:基于命令式的 Python 网络 3D 可视化
标题: Viser: Imperative, Web-based 3D Visualization in Python
作者: Brent Yi / Chung Min Kim / Justin Kerr / Gina Wu / Rebecca Feng / Anthony Zhang / Jonas Kulhanek / Hongsuk Choi / Yi Ma / Matthew Tancik / Angjoo Kanazawa
原文:   [英文]   [中文]  
备注: Code and docs: this https URL
摘要:
我们介绍了Viser,一个用于计算机视觉和机器人技术的3D可视化库。Viser旨在为Python带来简单且可扩展的3D可视化:我们提供了一套全面的3D场景和2D GUI原语,这些原语可以独立使用,设置要求极少,或者组合起来构建专门的界面。本文技术报告描述了Viser的功能、接口和实现。关键的设计选择包括命令式风格的API和基于网络的查看器,这提高了与现代编程模式和工作流程的兼容性。

[69] 面向指称音视频分割的全模态表达与推理
标题: Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation
作者: Kaining Ying / Henghui Ding / Guanquan Jie / Yu-Gang Jiang
原文:   [英文]  
备注: ICCV 2025, Project Page: this https URL
摘要:
指代音视频分割(RAVS)最近取得了显著进展,但在整合多模态信息以及深入理解和推理音视频内容方面仍然存在挑战。为了扩展RAVS的边界并促进该领域未来的研究,我们提出了全模态指代音视频分割(OmniAVS),这是一个包含2,098个视频和59,458个多模态指代表达的新数据集。OmniAVS具有三个关键创新:(1)8种多模态表达类型,灵活结合文本、语音、声音和视觉线索;(2)强调理解音频内容,而不仅仅是检测其存在;(3)在表达中包含复杂的推理和世界知识。此外,我们引入了全模态指令分割助手(OISA),以应对OmniAVS中多模态推理和音视频内容细粒度理解的挑战。OISA使用多模态大语言模型(MLLM)来理解复杂线索并执行基于推理的分割。大量实验表明,OISA在OmniAVS上优于现有方法,并在其他相关任务中取得了竞争性结果。