scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年4月17日更新论文92
[1] 语义重要性:用于情感分析的多模态特征
标题: Semantic Matters: Multimodal Features for Affective Analysis
作者: Tobias Hallmen / Robin-Nico Kampa / Fabian Deuser / Norbert Oswald / Elisabeth André
原文:   [英文]   [中文]  
备注: None
摘要:
在本研究中,我们介绍了我们在两个任务中的方法:行为矛盾/犹豫(BAH)识别挑战和情感模仿强度(EMI)估计挑战,这两个任务都是作为第八届野外情感与行为分析研讨会和竞赛的一部分进行的。基于之前的工作,我们利用在大型播客数据集上预训练的Wav2Vec 2.0模型来提取各种音频特征,捕捉语言和副语言信息。我们的方法结合了从Wav2Vec 2.0派生的效价-唤醒-支配(VAD)模块、类似BERT的编码器和视觉变换器(ViT),随后通过长短期记忆(LSTM)架构进行时间建模处理预测。在这一迭代中,我们将文本和视觉模态整合到我们的分析中,认识到语义内容提供了有价值的上下文线索,并强调言语的意义往往比其声学特征本身传达更重要的见解。在某些情况下,融合视觉模态有助于更准确地解释文本模态。这种结合的方法在性能上显著优于基线方法。

[2] 多核+TPU加速的多模态TinyML用于牲畜行为识别
标题: MultiCore+TPU Accelerated Multi-Modal TinyML for Livestock Behaviour Recognition
作者: Qianxue Zhang / Eiman Kanjo
原文:   [英文]   [中文]  
备注: 11 pages, 10 figures
摘要:
技术的进步已经彻底改变了农业行业,使其从劳动密集型的耕作方式转变为自动化、人工智能驱动的管理系统。近年来,提出了更智能的牲畜监测解决方案,以提高农业效率和生产力。本文提出了一种新颖的动物活动识别和运动跟踪方法,利用微型机器学习(TinyML)技术、无线通信框架和微控制器平台,开发出一种高效、经济的牲畜感知系统。该系统收集并融合加速度计数据和视觉输入,构建了一个用于图像分类、目标检测和行为识别的多模态网络。系统在商用微控制器上部署并评估,通过嵌入式应用实现实时推理,展示了高达270倍的模型尺寸缩减、低于80毫秒的响应延迟,以及与现有方法相当的性能。TinyML技术的引入实现了设备间无缝的数据传输,有利于在互联网连接不佳的偏远地区的应用。该工作提供了一种强大、可扩展的物联网边缘牲畜监测解决方案,能够适应多样化的农业需求,并为未来的扩展提供灵活性。

[3] SO-DETR:利用双域特征和知识蒸馏进行小目标检测
标题: SO-DETR: Leveraging Dual-Domain Features and Knowledge Distillation for Small Object Detection
作者: Huaxiang Zhang / Hao Zhang / Aoran Mei / Zhongxue Gan / Guo-Niu Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
基于检测Transformer的方法在通用目标检测方面取得了显著进展。然而,在有效检测小目标方面仍然存在挑战。一个关键困难是现有的编码器难以有效融合低层特征。此外,查询选择策略未能有效地针对小目标进行调整。为了解决这些挑战,本文提出了一种高效模型——小目标检测Transformer(SO-DETR)。该模型由三个关键组件组成:双域混合编码器、增强的查询选择机制和知识蒸馏策略。双域混合编码器集成了空间和频率域,以有效融合多尺度特征。这种方法在保持相对较低计算开销的同时增强了高分辨率特征的表示。增强的查询选择机制通过使用扩展的IoU动态选择高分数的锚框来优化查询初始化,从而改善查询资源的分配。此外,通过结合轻量级骨干网络和实施知识蒸馏策略,我们开发了一种高效的小目标检测器。在VisDrone-2019-DET和UAVVaste数据集上的实验结果表明,SO-DETR在类似计算需求下优于现有方法。项目页面可在此URL访问。

[4] 用于自动驾驶中稳健目标检测的高动态范围模数成像
标题: High Dynamic Range Modulo Imaging for Robust Object Detection in Autonomous Driving
作者: Kebin Contreras / Brayan Monroy / Jorge Bacca
原文:   [英文]  
备注: None
摘要:
物体检测精度对于确保自动驾驶系统的安全性和有效性至关重要。获取图像的质量直接影响自动驾驶系统在实时中正确识别和响应其他车辆、行人和障碍物的能力。然而,真实环境中存在极端的光照变化,导致饱和问题,并导致检测所需的关键细节丢失。传统上,高动态范围(HDR)图像因其能够捕捉广泛的光强度而受到青睐,但构建HDR图像需要多次拍摄,这对于自动驾驶车辆的实时应用来说效率不高。为了解决这些问题,本研究引入了使用模数传感器进行稳健的物体检测。模数传感器允许像素在达到饱和水平时“重置/环绕”,通过获取辐照度编码图像,然后可以使用解包算法进行恢复。应用的重建技术能够在极端光照条件下恢复颜色强度和图像细节的HDR,确保更好的视觉质量,代价是额外的时间。使用YOLOv10模型的实验表明,使用模数图像处理的图像在物体检测准确性方面达到与HDR图像相当的性能,并显著超过饱和图像。此外,所提出的模数成像步骤结合HDR图像重建所需的时间比传统HDR图像获取所需的时间更短。

[5] 视觉道德推理与交流
标题: Visual moral inference and communication
作者: Warren Zhu / Aida Ramezani / Yang Xu
原文:   [英文]   [中文]  
备注: None
摘要:
人类可以从多种输入来源进行道德推断。相比之下,人工智能中的自动道德推断通常依赖于具有文本输入的语言模型。然而,道德是通过超越语言的多种方式传达的。我们提出了一个支持从自然图像进行道德推断的计算框架,并在两个相关任务中进行了演示:1)推断人类对视觉图像的道德判断,2)分析通过公共新闻中的图像传达的道德内容模式。我们发现,仅基于文本的模型无法捕捉人类对视觉刺激的细致道德判断,但语言-视觉融合模型在视觉道德推断中提供了更好的精确性。此外,我们的框架在新闻数据中的应用揭示了新闻类别和地缘政治讨论中的隐性偏见。我们的工作为自动化视觉道德推断和发现公共媒体中视觉道德交流的模式开辟了新的途径。

[6] SDIGLM:利用大型语言模型和多模态思维链进行结构损伤识别
标题: SDIGLM: Leveraging Large Language Models and Multi-Modal Chain of Thought for Structural Damage Identification
作者: Yunkai Zhang / Shiyin Wei / Yong Huang / Yawu Su / Shanshan Lu / Hui Li
原文:   [英文]  
备注: None
摘要:
现有基于计算机视觉(CV)的结构损伤识别模型在损伤分类和定位方面表现出显著的准确性。然而,这些模型存在若干关键限制,阻碍了其在土木工程(CE)中的实际应用。首先,它们识别损伤类型的能力仍然有限,无法对现实世界中土木工程结构中遇到的高度多样化和复杂的条件进行全面分析。其次,这些模型缺乏语言能力,无法通过自然语言描述来表达结构损伤特征。随着人工智能(AI)的不断进步,大型多模态模型(LMMs)作为一种变革性解决方案出现,能够统一编码和对齐文本和视觉数据。这些模型可以自主生成结构损伤的详细描述性叙述,同时在不同场景和任务中表现出强大的泛化能力。本研究介绍了SDIGLM,这是一种用于结构损伤识别的创新型LMM,基于开源的VisualGLM-6B架构开发。为了解决LMMs在适应土木工程中复杂多变的操作条件时的挑战,本研究集成了一个基于U-Net的语义分割模块,以生成缺陷分割图作为视觉思维链(CoT)。此外,构建了一个多轮对话微调数据集以增强逻辑推理,并通过提示工程形成语言思维链。通过利用这种多模态思维链,SDIGLM在结构损伤识别方面超越了通用LMMs,在各种基础设施类型中实现了95.24%的准确率。此外,该模型能够有效描述损伤特征,如孔洞大小、裂缝方向和腐蚀严重程度。

[7] 通量已知 - 无需训练即可激活主体驱动的图像生成
标题: Flux Already Knows - Activating Subject-Driven Image Generation without Training
作者: Hao Kang / Stathi Fotiadis / Liming Jiang / Qing Yan / Yumin Jia / Zichuan Liu / Min Jin Chong / Xin Lu
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一种简单但有效的零样本框架,用于使用普通Flux模型进行主题驱动的图像生成。通过将任务框定为基于网格的图像补全,并简单地在马赛克布局中复制主题图像,我们在不需要任何额外数据、训练或推理时微调的情况下激活了强大的身份保留能力。这种“免费午餐”方法通过一种新颖的级联注意力设计和元提示技术进一步增强,提高了保真度和多功能性。实验结果表明,我们的方法在基准测试和人类偏好研究中的多个关键指标上优于基线方法,但在某些方面存在权衡。此外,它支持多样化的编辑,包括插入徽标、虚拟试穿以及主题替换或插入。这些结果表明,预训练的基础文本到图像模型可以实现高质量、资源高效的主题驱动生成,为下游应用中的轻量级定制开辟了新的可能性。

[8] snnTrans-DHZ:一种用于水下图像去雾的轻量级脉冲神经网络架构
标题: snnTrans-DHZ: A Lightweight Spiking Neural Network Architecture for Underwater Image Dehazing
作者: Vidya Sudevan / Fakhreddine Zayer / Rizwana Kausar / Sajid Javed / Hamad Karki / Giulia De Masi / Jorge Dias
原文:   [英文]   [中文]  
备注: None
摘要:
水下图像去雾对于基于视觉的海洋操作至关重要,因为光的散射和吸收会严重降低能见度。本文介绍了snnTrans-DHZ,这是一种专为水下去雾设计的轻量级脉冲神经网络(SNN)。通过利用SNN的时间动态特性,snnTrans-DHZ能够高效处理时间相关的原始图像序列,同时保持低功耗。静态水下图像首先通过在用户定义的时间步长内重复输入相同图像转换为时间相关序列。这些RGB序列随后被转换为LAB颜色空间表示并同时处理。该架构具有三个关键模块:(i)一个K估计器,从多种颜色空间表示中提取特征;(ii)一个背景光估计器,从RGB-LAB图像中联合推断背景光分量;以及(iii)一个软图像重建模块,生成无雾、能见度增强的输出。snnTrans-DHZ模型通过时间上的替代梯度反向传播(BPTT)策略以及一种新颖的组合损失函数直接进行训练。在UIEB基准上评估时,snnTrans-DHZ实现了21.68 dB的PSNR和0.8795的SSIM;在EUVP数据集上,它实现了23.46 dB的PSNR和0.8439的SSIM。该算法仅有0.5670百万个网络参数,仅需7.42 GSOPs和0.0151 J的能量,在效率方面显著优于现有的最先进方法。这些特性使得snnTrans-DHZ非常适合用于水下机器人、海洋探索和环境监测。

[9] 使用k稀疏自编码器揭示InceptionV1中的分支专门化
标题: Uncovering Branch specialization in InceptionV1 using k sparse autoencoders
作者: Matthew Bozoukov
原文:   [英文]   [中文]  
备注: Accepted to CVPR MIV workshop. 9 pages with an appendix
摘要:
稀疏自编码器(SAEs)已被证明能够在神经网络中从由叠加引起的多语义神经元中找到可解释的特征。先前的研究表明,SAEs 是从 InceptionV1 的早期层中提取可解释特征的有效工具。自那时以来,SAEs 已有许多改进,但分支专门化在 InceptionV1 的后期层中仍然是一个谜。我们展示了在 mixed4a-4e 分支的每一层、5x5 分支以及一个 1x1 分支中发生的分支专门化的各种示例。我们还提供了证据表明,分支专门化似乎在各层之间是一致的,模型中相似的特征将在其各自层中的相同卷积大小分支中被定位。

[10] TransitReID:具有抗遮挡动态乘客重新识别的交通出行数据收集
标题: TransitReID: Transit OD Data Collection with Occlusion-Resistant Dynamic Passenger Re-Identification
作者: Kaicong Huang / Talha Azfar / Jack Reilly / Ruimin Ke
原文:   [英文]   [中文]  
备注: None
摘要:
公交出行起讫点(OD)数据对于公交规划至关重要,尤其是在路线优化和需求响应的辅助公交系统中。传统方法如人工调查成本高且效率低,而基于蓝牙和WiFi的方法需要乘客携带特定设备,限制了数据覆盖范围。另一方面,大多数公交车辆都配备了用于监控的车载摄像头,这为通过视觉人员重识别(ReID)进行边缘OD数据收集提供了机会。然而,这种方法面临重大挑战,包括公交环境中的严重遮挡和视角变化,这极大地降低了匹配准确性并阻碍了其采用。此外,设计能够在边缘设备上高效运行的有效算法仍然是一个开放的挑战。为了解决这些问题,我们提出了TransitReID,一种用于个体级公交OD数据收集的新框架。TransitReID由两个关键组件组成:(1)一种具有变分自编码器引导区域注意机制的抗遮挡ReID算法,通过重建损失优化的权重分配自适应地关注可见身体区域;(2)一种专为高效和稳健的公交OD匹配而设计的分层存储和动态匹配(HSDM)机制,平衡了存储、速度和准确性。此外,多线程设计支持在边缘设备上的近实时操作,同时确保隐私保护。我们还引入了一个专为复杂公交环境量身定制的ReID数据集,以解决相关训练数据的缺乏。实验结果表明,TransitReID在ReID任务中实现了最先进的性能,在公交路线模拟中准确率约为90%。

[11] 基于图驱动的多模态特征学习框架用于表面人格评估
标题: Graph-Driven Multimodal Feature Learning Framework for Apparent Personality Assessment
作者: Kangsheng Wang / Chengwei Ye / Huanzhen Zhang / Linuo Xu / Shuyan Liu
原文:   [英文]   [中文]  
备注: None
摘要:
自动预测个性特征已成为计算机视觉领域的一个挑战性问题。本文介绍了一种创新的多模态特征学习框架,用于分析短视频片段中的个性特征。在视觉处理方面,我们构建了一个面部图,并设计了一个基于地理的双流网络,结合注意力机制,利用图卷积网络(GCN)和卷积神经网络(CNN)来捕捉静态面部表情。此外,我们采用ResNet18和VGGFace网络在帧级别提取全局场景和面部外观特征。为了捕捉动态时间信息,我们整合了一个带有时间注意模块的双向门控循环单元(BiGRU),用于提取显著的帧表示。为了增强模型的鲁棒性,我们引入了VGGish CNN用于音频特征,并使用XLM-Roberta用于文本特征。最后,我们引入了一种多模态通道注意机制来整合不同的模态,并使用多层感知器(MLP)回归模型来预测个性特征。实验结果证实,我们提出的框架在性能上超越了现有的最先进方法。

[12] ConvShareViT:通过卷积注意力机制增强自由空间光学加速器的视觉变换器
标题: ConvShareViT: Enhancing Vision Transformers with Convolutional Attention Mechanisms for Free-Space Optical Accelerators
作者: Riad Ibadulla / Thomas M. Chen / Constantino Carlos Reyes-Aldasoro
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了ConvShareViT,这是一种新颖的深度学习架构,将视觉Transformer(ViTs)适应于4f自由空间光学系统。ConvShareViT用跨输入通道共享权重的深度卷积层替换了多头自注意力(MHSA)和多层感知器(MLPs)中的线性层。通过开发ConvShareViT,系统地分析了卷积在MHSA中的行为及其在学习注意力机制中的有效性。实验结果表明,某些配置,特别是使用有效填充共享卷积的配置,可以成功学习注意力,获得与标准ViTs相当的注意力分数。然而,其他配置,如使用相同填充卷积的配置,在注意力学习上表现出局限性,操作起来更像常规CNN而不是Transformer模型。ConvShareViT架构专门针对4f光学系统进行了优化,该系统利用了光学系统的并行性和高分辨率能力。结果表明,ConvShareViT理论上可以实现比基于GPU的系统快达3.04倍的推理速度。这种潜在的加速使ConvShareViT成为未来光学深度学习应用的有吸引力的候选者,并证明我们的ViT(ConvShareViT)可以仅通过卷积操作来使用,通过必要的ViT优化来平衡性能和复杂性。

[13] 深度学习方法在不同标签可用程度下的医学影像应用:全面综述
标题: Deep Learning Approaches for Medical Imaging Under Varying Degrees of Label Availability: A Comprehensive Survey
作者: Siteng Ma / Honghui Du / Yu An / Jing Wang / Qinqin Wang / Haochang Wu / Aonghus Lawlor / Ruihai Dong
原文:   [英文]   [中文]  
备注: 33 pages, 10 figures, 8 tables. Will be submit to Medical Image Analysis
摘要:
深度学习在医学影像领域取得了显著突破,但这些进展往往依赖于大型且标注良好的数据集。然而,获取此类数据集面临重大挑战,因为这需要医学专家进行耗时且费力的标注。因此,人们对不完整、不精确和缺失监督等学习范式的兴趣日益增长,这些范式旨在有限、不精确或缺失标签的情况下进行操作。本文综述了这些领域不断发展的研究,自2018年以来分析了大约600项重要贡献。它涵盖了各种医学应用领域的图像分类、分割和检测任务,包括但不限于脑部、胸部和心脏影像。我们尝试建立相关领域现有研究之间的关系。我们提供了不同学习范式的正式定义,并对各种学习机制和策略进行了全面总结和解释,帮助读者更好地理解当前的研究格局和思路。我们还讨论了未来潜在的研究挑战。

[14] DamageCAT:一种基于深度学习Transformer框架的灾后建筑损坏类型分类方法
标题: DamageCAT: A Deep Learning Transformer Framework for Typology-Based Post-Disaster Building Damage Categorization
作者: Yiming Xiao / Ali Mostafavi
原文:   [英文]   [中文]  
备注: 23 pages, 6 figures
摘要:
自然灾害日益威胁全球各地的社区,因此迫切需要快速、可靠的建筑损坏评估来指导紧急响应和恢复工作。目前的方法通常以二元(损坏/未损坏)或有序严重性术语对损坏进行分类,限制了其实用性。事实上,损坏类型的确定对于响应和恢复工作至关重要。为了解决这一重要空白,本文介绍了DamageCAT,这是一种新颖的框架,提供基于类型的分类损坏描述,而不是简单的严重性评级。因此,本研究提出了两个关键贡献:(1)BD-TypoSAT数据集,其中包含来自飓风艾达的卫星图像三元组(灾前、灾后和损坏掩膜),具有四种损坏类别(部分屋顶损坏、完全屋顶损坏、部分结构倒塌和完全结构倒塌);(2)一种基于U-Net的分层变压器架构,能够有效处理灾前后图像对,以识别和分类建筑损坏。尽管训练数据中存在显著的类别不平衡,我们的模型在所有类别中实现了稳健的性能,总体指标为0.7921的交并比(IoU)和0.8835的F1分数。模型在识别不常见类别中的复杂损坏类型方面的能力尤其值得注意。与传统的基于严重性的方法相比,DamageCAT框架通过提供可操作的、类型化的信息,改进了自动化损坏评估,更好地支持灾害响应决策和资源分配。

[15] 通过计算机视觉和边缘计算实现实时对象和事件检测服务
标题: Real-time Object and Event Detection Service through Computer Vision and Edge Computing
作者: Marcos Mendes / Gonçalo Perna / Pedro Rito / Duarte Raposo / Susana Sargento
原文:   [英文]   [中文]  
备注: 30th ITS World Congress, Dubai, UAE, 16-20 September 2024
摘要:
世界卫生组织建议,全球每年因道路交通事故造成的损失约为5180亿美元,占大多数国家国内生产总值的3%。在城市地区,大多数致命的道路事故涉及弱势道路使用者(VRUs)。智慧城市环境提供了创新的方法来应对事故,这些方法包括先进的传感器、广泛的数据集、机器学习(ML)模型、通信系统和边缘计算。本文提出了一种基于计算机视觉(CV)和边缘计算的智慧城市道路监控和安全系统的策略和实现。在智慧城市试验平台Aveiro Tech City Living Lab(ATCLL)中,通过使用监控摄像头实现视觉算法和跟踪,获得了有前景的结果。该算法能够准确检测和跟踪汽车、行人和自行车,同时预测道路状态、移动物体之间的距离,并推断碰撞事件以防止碰撞,几乎实时地进行。

[16] Co-STAR:用于无源视频领域适应的协作课程自训练与自适应正则化
标题: Co-STAR: Collaborative Curriculum Self-Training with Adaptive Regularization for Source-Free Video Domain Adaptation
作者: Amirhossein Dadashzadeh / Parsa Esmati / Majid Mirmehdi
原文:   [英文]   [中文]  
备注: None
摘要:
最近在无源无监督视频领域自适应(SFUVDA)方面的进展利用视觉-语言模型来增强伪标签生成。然而,诸如噪声伪标签和过度自信的预测等挑战限制了它们在跨领域适应中的有效性。我们提出了Co-STAR,这是一种新颖的框架,将课程学习与源训练教师和对比视觉-语言模型(CLIP)之间的协作自我训练相结合。我们的课程学习方法采用了一种基于可靠性的权重函数,该函数测量教师和CLIP之间的双向预测一致性,在自信和不确定的预测之间取得平衡。该函数在处理困难样本时保留不确定性,而当两个模型的预测高度一致时优先考虑可靠的伪标签。为了进一步改善适应性,我们提出了自适应课程正则化,它根据样本的置信度分数和预测稳定性,以概率和自适应的方式修改样本的学习优先级,从而减轻对噪声和过度自信样本的过拟合。在多个视频领域自适应基准上的广泛实验表明,Co-STAR始终优于最先进的SFUVDA方法。代码可在此URL获取:this https URL

[17] GPT能告诉我们这些图像为何被合成吗?增强多模态大型语言模型用于法证分析
标题: Can GPT tell us why these images are synthesized? Empowering Multimodal Large Language Models for Forensics
作者: Yiran He / Yun Cao / Bowen Yang / Zeyu Zhang
原文:   [英文]   [中文]  
备注: 12 pages, 11 figures, 13IHMMSec2025
摘要:
生成式人工智能的快速发展促进了内容创作,使得图像操控变得更加容易且更难以检测。尽管多模态大型语言模型(LLMs)已经编码了丰富的世界知识,但它们并非天生适合对抗人工智能生成内容(AIGC),并且难以理解局部伪造细节。在这项工作中,我们研究了多模态LLMs在伪造检测中的应用。我们提出了一个框架,能够评估图像的真实性、定位被篡改的区域、提供证据,并根据语义篡改线索追踪生成方法。我们的方法表明,通过精心的提示工程和少样本学习技术的应用,可以有效释放LLMs在伪造分析中的潜力。我们进行了定性和定量实验,结果显示GPT4V在Autosplice中可以达到92.1%的准确率,在LaMa中达到86.3%的准确率,这与最先进的AIGC检测方法具有竞争力。我们进一步讨论了多模态LLMs在此类任务中的局限性,并提出了潜在的改进方向。

[18] 解释视觉-语言模型嵌入空间的线性结构
标题: Interpreting the Linear Structure of Vision-language Model Embedding Spaces
作者: Isabel Papadimitriou / Huangyuan Su / Thomas Fel / Naomi Saphra / Sham Kakade / Stephanie Gil
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型在一个联合空间中编码图像和文本,最小化对应图像和文本对之间的距离。语言和图像在这个联合空间中是如何组织的,模型又是如何编码意义和模态的?为了研究这个问题,我们在四个视觉-语言模型(CLIP、SigLIP、SigLIP2 和 AIMv2)的嵌入空间上训练并发布了稀疏自编码器(SAEs)。SAEs 将模型嵌入近似为学习方向或“概念”的稀疏线性组合。我们发现,与其他线性特征学习方法相比,SAEs 更擅长重构真实嵌入,同时还能保持最大的稀疏性。用不同的种子或不同的数据集重新训练 SAEs 导致了两个发现:SAEs 捕获的稀有、特定概念可能会发生剧烈变化,但我们也表明,SAEs 提取的关键常见激活概念在多次运行中表现出显著的稳定性。有趣的是,尽管大多数概念在激活时是强烈单模态的,我们发现它们并不仅仅是在编码模态本身。许多概念接近于——但不完全在——定义模态的子空间,表明它们在单模态使用的情况下编码了跨模态语义。为了量化这种桥接行为,我们引入了桥接分数,这是一种识别概念对的度量,这些概念对在对齐的图像-文本输入中同时激活并在共享空间中几何对齐。这揭示了即使是单模态概念也可以协作支持跨模态整合。我们发布了所有模型的 SAEs 交互式演示,允许研究人员探索概念空间的组织。总体而言,我们的研究发现揭示了 VLM 嵌入空间内由模态塑造但通过潜在桥梁连接在一起的稀疏线性结构,为多模态意义的构建提供了新的见解。

[19] 通过局部流形分布进行非均匀点云上采样
标题: Non-uniform Point Cloud Upsampling via Local Manifold Distribution
作者: Yaohui Fang / Xingce Wang
原文:   [英文]   [中文]  
备注: None
摘要:
现有的基于学习的点云上采样方法往往忽视了点云的内在数据分布特性,这在处理稀疏和非均匀点云时导致了次优结果。我们提出了一种新颖的点云上采样方法,通过从流形分布的角度施加约束。利用高斯函数的强大拟合能力,我们的方法采用一个网络来迭代优化高斯成分及其权重,准确地表示局部流形。通过利用高斯函数的概率分布特性,我们构建了一个统一的统计流形,以对点云施加分布约束。多个数据集上的实验结果表明,在处理稀疏和非均匀输入时,我们的方法生成了质量更高且分布更均匀的稠密点云,优于最先进的点云上采样技术。

[20] 学习不该计数的内容
标题: Learning What NOT to Count
作者: Adriano D'Alessandro / Ali Mahdavi-Amiri / Ghassan Hamarneh
原文:   [英文]   [中文]  
备注: None
摘要:
少样本/零样本目标计数方法减少了对大量标注的需求,但通常难以区分细粒度类别,尤其是在同一场景中出现多个相似目标时。为了解决这一限制,我们提出了一种无需标注的方法,使得新的细粒度类别能够无缝集成到现有的少样本/零样本计数模型中。通过利用潜在生成模型,我们合成了高质量、特定类别的拥挤场景,为适应新类别提供了丰富的训练资源,而无需人工标注。我们的方法引入了一种注意力预测网络,该网络仅使用合成的伪标注数据进行训练,以识别细粒度类别边界。在推理时,这些细粒度的注意力估计可以优化现有少样本/零样本计数网络的输出。为了对我们的方法进行基准测试,我们进一步引入了FGTC数据集,这是一个针对自然图像的分类特定细粒度目标计数数据集。我们的方法在细粒度分类计数任务中显著提升了预训练的最先进模型的性能,同时仅使用合成数据。代码和数据将在论文被接受后发布。

[21] 迈向安全的网络合成图像生成:一种多模态稳健的NSFW防御及百万规模数据集
标题: Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset
作者: Muhammad Shahid Muneer / Simon S. Woo
原文:   [英文]   [中文]  
备注: Short Paper The Web Conference
摘要:
近年来,我们见证了文本生成图像(T2I)模型的显著成功及其在网络上的广泛应用。大量研究致力于使T2I模型生成超现实的图像,但这也引发了新的担忧,例如生成不适合工作场合(NSFW)的网络内容以及污染网络社会。为了帮助防止T2I模型的滥用并为用户创造一个更安全的网络环境,这些模型中使用了NSFW过滤器和事后安全检查等功能。然而,最近的研究揭示了这些方法如何容易地在防止滥用方面失效。特别是,针对文本和图像模态的对抗性攻击可以轻易地突破防御措施。利用这些漏洞导致了对防止文本和图像模态对抗性攻击的日益关注。此外,目前还没有一个包含提示和图像对及对抗性示例的强健的多模态NSFW数据集。本文提出了一个使用开源扩散模型生成的百万级提示和图像数据集。其次,我们开发了一种多模态防御方法,以区分安全和NSFW文本和图像,该方法对抗对抗性攻击具有鲁棒性,并直接缓解了当前的挑战。我们的大量实验表明,我们的模型在准确性和召回率方面相较于现有的最先进的NSFW检测方法表现良好,并在多模态对抗性攻击场景中大幅降低了攻击成功率(ASR)。代码:此https URL。

[22] 自我外部生成:通过观看外部视频进行自我中心视频预测
标题: EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos
作者: Jilan Xu / Yifei Huang / Baoqi Pei / Junlin Hou / Qingqiu Li / Guo Chen / Yuejie Zhang / Rui Feng / Weidi Xie
原文:   [英文]   [中文]  
备注: ICLR 2025
摘要:
在增强现实和具身智能领域,生成第一人称视角的视频具有广阔的应用前景。在这项工作中,我们探索了跨视角视频预测任务,其中给定一个外部视角的视频、对应的第一人称视角视频的第一帧以及文本指令,目标是生成该第一人称视角视频的未来帧。受到第一人称视角视频中的手-物体交互(HOI)代表当前演员主要意图和动作的概念启发,我们提出了EgoExo-Gen,它通过显式建模手-物体动态来进行跨视角视频预测。EgoExo-Gen包括两个阶段。首先,我们设计了一个跨视角HOI掩码预测模型,通过建模时空上的自我-外部对应关系来预测未来自我帧中的HOI掩码。接下来,我们采用视频扩散模型,利用第一帧自我帧和文本指令来预测未来的自我帧,同时结合HOI掩码作为结构指导以提高预测质量。为了促进训练,我们开发了一条自动化流程,通过利用视觉基础模型为自我和外部视频生成伪HOI掩码。大量实验表明,与之前的视频预测模型相比,我们提出的EgoExo-Gen在Ego-Exo4D和H2O基准数据集上实现了更好的预测性能,其中HOI掩码显著改善了第一人称视角视频中手和交互物体的生成。

[23] DVLTA-VQA:盲视频质量评估的解耦视觉语言建模与文本引导适应
标题: DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment
作者: Li Yu / Situo Wang / Wei Zhou / Moncef Gabbouj
原文:   [英文]   [中文]  
备注: None
摘要:
受人类视觉系统(HVS)双流理论的启发——其中腹侧流负责物体识别和细节分析,而背侧流专注于空间关系和运动感知——越来越多基于该框架的视频质量评估(VQA)研究被提出。最近在大型多模态模型方面的进展,特别是对比语言-图像预训练(CLIP),激励研究人员将CLIP整合到基于双流的VQA方法中。这种整合旨在利用模型卓越的语义理解能力来模拟腹侧流中的物体识别和细节分析,以及背侧流中的空间关系分析。然而,CLIP最初是为图像设计的,缺乏捕捉视频中固有的时间和运动信息的能力。此外,现有的无参考视频质量评估(NR-VQA)中的特征融合策略通常依赖于固定的加权方案,无法自适应地调整特征的重要性。为了解决这一限制,本文提出了一种用于盲视频质量评估的文本引导自适应解耦视觉-语言建模(DVLTA-VQA),该方法解耦了CLIP的视觉和文本组件,并将它们整合到NR-VQA流程的不同阶段。

[24] 魔鬼藏在提示中:用于文本到视频生成的检索增强提示优化
标题: The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation
作者: Bingjie Gao / Xinyu Gao / Xiaoxue Wu / Yujie Zhou / Yu Qiao / Li Niu / Xinyuan Chen / Yaohui Wang
原文:   [英文]  
备注: accepted by CVPR2025
摘要:
文本到视频(T2V)生成模型的发展,在大规模数据集的训练下,取得了显著的进展。然而,T2V生成模型对输入提示的敏感性突显了提示设计在影响生成结果中的关键作用。先前的研究主要依赖大型语言模型(LLMs)来使用户提供的提示与训练提示的分布对齐,但未能提供涵盖提示词汇和句子结构细微差别的定制指导。为此,我们引入了一种新颖的检索增强提示优化框架,称为RAPO。RAPO通过双重优化分支来优化初始提示,以解决LLM生成提示可能产生的不准确和模糊细节,并选择出更优的提示用于T2V生成。第一个分支通过从学习的关系图中提取的多样化修饰符来增强用户提示,并通过微调的LLM将其调整为与训练提示格式对齐。相反,第二个分支使用预训练的LLM按照定义明确的指令集重写初始提示。大量实验表明,RAPO能够有效增强生成视频的静态和动态维度,证明了提示优化对于用户提供提示的重要性。项目网站:GitHub。

[25] SkeletonX:通过跨样本特征聚合实现数据高效的基于骨架的动作识别
标题: SkeletonX: Data-Efficient Skeleton-based Action Recognition via Cross-sample Feature Aggregation
作者: Zongye Zhang / Wenrui Cai / Qingjie Liu / Yunhong Wang
原文:   [英文]  
备注: Accepted by IEEE Transactions on Multimedia (TMM). 13 pages, 7 figures, 11 tables
摘要:
尽管当前的骨架动作识别模型在大规模数据集上表现出色,但它们在适应新的应用场景时仍面临挑战。这些挑战在面对新的动作类别、多样化的表演者和不同的骨架布局时尤为明显,导致性能显著下降。此外,收集骨架数据的高成本和困难使得大规模数据收集变得不切实际。本文研究了一次性学习和有限规模学习设置,以实现用最少数据进行高效适应。现有方法常常忽视了标记样本之间丰富的互信息,导致在低数据场景下表现不佳。为了提高标记数据的效用,我们识别出表演者之间的差异性和每个动作内的共性为两个关键属性。我们提出SkeletonX,这是一种轻量级训练流程,可以无缝集成到现有基于GCN的骨架动作识别器中,促进在有限标记数据下的有效训练。首先,我们提出了一种针对两个关键属性的定制样本对构建策略,以形成和聚合样本对。接下来,我们开发了一个简洁有效的特征聚合模块来处理这些样本对。在NTU RGB+D、NTU RGB+D 120和PKU-MMD上进行了广泛的实验,使用各种GCN骨架,证明该流程在从零开始训练时有效提高了性能。此外,它在一次性学习设置中超越了之前的最先进方法,仅使用1/10的参数和更少的FLOPs。代码和数据可在此https URL获取。

[26] GrabS:用于3D对象分割的生成式具身代理,无需场景监督
标题: GrabS: Generative Embodied Agent for 3D Object Segmentation without Scene Supervision
作者: Zihui Zhang / Yafei Yang / Hongtao Wen / Bo Yang
原文:   [英文]  
备注: ICLR 2025 Spotlight. Code and data are available at: this https URL
摘要:
我们研究了在复杂点云中进行3D对象分割的难题,而不需要3D场景的人为标注进行监督。现有的无监督方法通常依赖于预训练的2D特征的相似性或外部信号(如运动)来将3D点分组为对象,但通常仅限于识别简单对象(如汽车),或者由于预训练特征中缺乏对象性,其分割的对象往往较差。在本文中,我们提出了一种新的两阶段流程,称为GrabS。我们方法的核心概念是在第一阶段从对象数据集中学习生成和判别的以对象为中心的先验作为基础,然后在第二阶段设计一个具身智能体,通过查询预训练的生成先验来学习发现多个对象。我们在两个真实世界数据集和一个新创建的合成数据集上对我们的方法进行了广泛评估,展示了显著的分割性能,明显超越了所有现有的无监督方法。

[27] 用于快速和通用服装模拟的扩展短程和长程网格学习
标题: Extended Short- and Long-Range Mesh Learning for Fast and Generalized Garment Simulation
作者: Aoran Liu / Kun Hu / Clinton Mo / Changyang Li / Zhiyong Wang
原文:   [英文]   [中文]  
备注: None
摘要:
3D服装模拟是生成基于布料的图形的关键组成部分。图神经网络(GNN)的最新进展为高效的服装模拟提供了一种有前景的方法。然而,GNN需要广泛的信息传递,以传播物理力等信息,并在整个服装网格中保持接触感知,这在高分辨率下会变得计算效率低下。为了解决这个问题,我们设计了一种新颖的基于GNN的网格学习框架,具有两个关键组件,以最小的开销扩展信息传递范围,即拉普拉斯平滑双重信息传递(LSDMP)和测地自注意力(GSA)模块。LSDMP通过拉普拉斯特征平滑过程增强信息传递,有效地将每个顶点的影响传播到附近的顶点。同时,GSA引入测地距离嵌入来表示顶点之间的空间关系,并利用注意力机制捕捉全局网格信息。这两个模块并行运行,以确保短程和长程网格建模。大量实验表明,我们的方法在需要更少层数和更低推理延迟的情况下,达到了最先进的性能。

[28] TacoDepth: 迈向高效的雷达-相机深度估计与单阶段融合
标题: TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion
作者: Yiran Wang / Jiaqi Li / Chaoyi Hong / Ruibo Li / Liusheng Sun / Xiao Song / Zhe Wang / Zhiguo Cao / Guosheng Lin
原文:   [英文]   [中文]  
备注: Accepted by CVPR 2025 (Oral Presentation)
摘要:
雷达-相机深度估计旨在通过融合输入图像和雷达数据来预测密集且精确的度量深度。为了在自动驾驶车辆和机器人平台上实现实时处理,模型效率对于这一任务至关重要。然而,由于雷达回波的稀疏性,现有方法采用多阶段框架并生成中间准密集深度,这既耗时又不够稳健。为了解决这些问题,我们提出了TacoDepth,这是一种高效且准确的雷达-相机深度估计模型,采用单阶段融合。具体而言,设计了基于图的雷达结构提取器和基于金字塔的雷达融合模块,以捕获和整合雷达点云的图结构,从而在不依赖中间深度结果的情况下提供卓越的模型效率和稳健性。此外,TacoDepth可以灵活适应不同的推理模式,在速度和精度之间提供更好的平衡。我们进行了大量实验以证明我们方法的有效性。与之前的最先进方法相比,TacoDepth将深度精度和处理速度分别提高了12.8%和91.8%。我们的工作为高效的雷达-相机深度估计提供了新的视角。

[29] 弥合语义差距:通过LLM增强的问题集提高医学VQA的一致性
标题: Bridging the Semantic Gaps: Improving Medical VQA Consistency with LLM-Augmented Question Sets
作者: Yongpei Ma / Pengyu Wang / Adam Dunn / Usman Naseem / Jinman Kim
原文:   [英文]   [中文]  
备注: The first two listed authors contributed equally to this work
摘要:
医学视觉问答(MVQA)系统可以根据自然语言查询解释医学图像。然而,问题措辞的语言多样性常常削弱这些系统的一致性。为了解决这一挑战,我们提出了一个语义等价问题增强(SEQA)框架,该框架利用大型语言模型(LLMs)生成多样但语义等价的问题重述。具体来说,这种方法在保持语义不变的同时丰富了语言多样性。我们进一步引入了一个评估指标,即语义等价输入与正确答案的总一致率(TAR-SC),用于评估模型在面对语义等价的语言变体时生成一致且正确响应的能力。此外,我们还提出了另外三个多样性指标——每张图像的平均问答项数(ANQI)、每张图像具有相同答案的问题平均数(ANQA)以及每张图像具有相同语义的开放式问题平均数(ANQS)。使用SEQA框架,我们增强了SLAKE、VQA-RAD和PathVQA的基准MVQA公共数据集。结果显示,通过加入更多语义等价的问题,所有三个数据集都取得了显著的改进:ANQI平均增加了86.1,ANQA增加了85.1,ANQS增加了46。后续实验在增强的数据集上评估了三种MVQA模型(M2I2、MUMC和BiomedGPT)在零样本和微调设置下的表现。MVQA数据集的实验结果表明,微调后的模型平均准确率提高了19.35%,而我们提出的TAR-SC指标显示平均提高了11.61%,表明模型一致性得到了显著增强。

[30] 多模态时空图学习用于无对齐的RGBT视频目标检测
标题: Multimodal Spatio-temporal Graph Learning for Alignment-free RGBT Video Object Detection
作者: Qishun Wang / Zhengzheng Tu / Chenglong Li / Bo Jiang
原文:   [英文]   [中文]  
备注: None
摘要:
RGB-热成像视频目标检测(RGBT VOD)可以解决传统基于RGB的视频目标检测在光照条件不佳情况下的局限性,使其在许多应用中更加实用和有效。然而,与大多数RGBT融合任务类似,它仍然主要依赖于手动对齐的多模态图像对。在本文中,我们提出了一种新颖的多模态时空图学习网络(MSGNet),通过利用稳健的图表示学习模型来解决无需对齐的RGBT VOD问题。具体来说,我们首先设计了一个自适应分区层(APL),以估计热成像图像在RGB图像(高分辨率)中的对应区域,实现初步的不精确对齐。然后,我们引入了空间稀疏图学习模块(S-SGLM),该模块在估计的不精确对齐上采用稀疏信息传递机制,以实现不同模态之间可靠的信息交互。此外,为了充分利用RGBT VOD问题的时间线索,我们引入了混合结构时间建模(HSTM),其中包括时间稀疏图学习模块(T-SGLM)和时间星块(TSB)。T-SGLM旨在通过在时间图上采用稀疏聚合机制来过滤掉相邻帧之间的一些冗余信息。同时,TSB专注于实现局部空间关系的互补学习。在对齐数据集VT-VOD50和未对齐数据集UVT-VOD2024上进行的大量对比实验表明,我们提出的方法的有效性和优越性。我们的项目将在我们的网站上免费公开访问。

[31] ACMamba:通过不对称共识状态空间模型实现快速无监督异常检测
标题: ACMamba: Fast Unsupervised Anomaly Detection via An Asymmetrical Consensus State Space Model
作者: Guanchun Wang / Xiangrong Zhang / Yifei Zhang / Zelin Peng / Tianyang Zhang / Xu Tang / Licheng Jiao
原文:   [英文]   [中文]  
备注: 15 pages, 9 figures
摘要:
在高光谱图像(HSI)中进行无监督异常检测,旨在从背景中检测未知目标,这对于地表监测来说是一个挑战。然而,由于HSI的高维特性和基于密集采样的训练范式,当前的研究受到高昂计算成本的阻碍,限制了其快速部署。我们的关键观察是,在训练过程中,同一均质区域内的所有样本并非不可或缺,而巧妙的采样可以成为降低成本的有力替代。受此启发,我们提出了一种不对称共识状态空间模型(ACMamba),在不影响准确性的情况下显著降低计算成本。具体来说,我们设计了一种不对称异常检测范式,利用区域级实例作为密集像素级样本的高效替代。在该范式中,引入了一个低成本的基于Mamba的模块,以发现对HSI重建至关重要的区域的全局上下文属性。此外,我们从优化的角度开发了一种共识学习策略,以同时促进背景重建和异常压缩,进一步缓解异常重建的负面影响。理论分析和在八个基准上的广泛实验验证了ACMamba的优越性,展示了其在速度和性能上优于最先进技术。

[32] DART:面向疾病的图像-文本对齐与自校正重对齐,用于生成可信的放射学报告
标题: DART: Disease-aware Image-Text Alignment and Self-correcting Re-alignment for Trustworthy Radiology Report Generation
作者: Sang-Jun Park / Keun-Soo Heo / Dong-Hee Shin / Young-Han Son / Ji-Hye Oh / Tae-Eui Kam
原文:   [英文]   [中文]  
备注: The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2025
摘要:
自动生成放射学报告已成为一种有前景的解决方案,可以减少耗时的任务,并准确捕捉X光图像中的关键疾病相关发现。之前的放射学报告生成方法表现出令人印象深刻的性能。然而,通过确保检索到的报告包含与X光图像中相似的疾病相关发现,并通过改进生成的报告,仍有显著的潜力来提高准确性。在这项研究中,我们提出了一种名为DART(Disease-aware image-text Alignment and self-correcting Re-alignment for Trustworthy radiology report generation)的框架。在第一阶段,我们基于疾病匹配的图像到文本检索生成初始报告,通过对比学习将图像和文本嵌入到共享的嵌入空间中。该方法确保检索到的报告具有与输入X光图像紧密对齐的相似疾病相关发现。在第二阶段,我们通过引入一个自我校正模块进一步增强初始报告,使其与X光图像重新对齐。我们提出的框架在两个广泛使用的基准上实现了最先进的结果,在报告生成和临床效能指标上均超越了之前的方法,从而提高了放射学报告的可信度。

[33] 基于邻居的特征和索引增强用于行人重识别
标题: Neighbor-Based Feature and Index Enhancement for Person Re-Identification
作者: Chao Yuan / Tianyi Zhang / Guanglin Niu
原文:   [英文]   [中文]  
备注: Comment: This paper has been accepted for publication in the 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)
摘要:
行人重识别(Re-ID)旨在通过不同的摄像头和视角在大型图库中匹配同一行人。增强提取特征表示的鲁棒性是Re-ID中的主要挑战。现有方法通常通过改进模型架构来提高特征表示,但大多数方法忽略了潜在的上下文信息,这限制了特征表示的有效性和检索性能。邻域信息,特别是多阶邻域的潜在信息,可以有效丰富特征表达并提高检索准确性,但这在现有研究中尚未得到充分探索。因此,我们提出了一种新颖的模型DMON-ARO,该模型利用潜在的邻域信息来增强特征表示和索引性能。我们的方法建立在两个互补模块之上:动态多阶邻域建模(DMON)和非对称关系优化(ARO)。DMON模块动态聚合多阶邻域关系,使其能够通过自适应邻域建模捕获更丰富的上下文信息并增强特征表示。同时,ARO通过优化查询到图库的关系来优化距离矩阵,提高索引准确性。在三个基准数据集上的大量实验表明,我们的方法在基线模型上实现了性能提升,证明了我们模型的有效性。具体来说,我们的模型在Rank-1准确率和mAP方面表现出改进。此外,该方法还可以直接扩展到其他重识别任务。

[34] 通过结构不确定性建模和不准确的GT深度拟合实现真实世界的深度恢复
标题: Real-World Depth Recovery via Structure Uncertainty Modeling and Inaccurate GT Depth Fitting
作者: Delong Suzhang / Meng Yang
原文:   [英文]   [中文]  
备注: None
摘要:
在真实世界的RGB-D数据集中,原始深度图中的低质量结构普遍存在,这使得真实世界的深度恢复成为近年来的关键任务。然而,缺乏真实世界中成对的原始-真实值(raw-GT)数据对广义深度恢复构成了挑战。现有方法未充分考虑原始深度图中结构错位的多样性,导致在真实世界深度恢复中的泛化能力较差。值得注意的是,随机结构错位不仅限于原始深度数据,还影响真实世界数据集中的GT深度。在所提出的方法中,我们从输入和输出两个角度解决泛化问题。对于输入,我们通过设计新的原始深度生成流程来丰富原始深度图中结构错位的多样性,这有助于网络避免对特定条件的过拟合。此外,设计了一个结构不确定性模块,明确识别输入原始深度图中的错位结构,以便在未见过的场景中更好地泛化。值得注意的是,训练良好的深度基础模型(DFM)可以帮助结构不确定性模块更好地估计结构不确定性。对于输出,设计了一个鲁棒的特征对齐模块,以精确对齐RGB图像的准确结构,避免不准确的GT深度的干扰。多个数据集上的广泛实验表明,所提出的方法在各种具有挑战性的原始深度图中实现了具有竞争力的准确性和泛化能力。

[35] 用于少样本细粒度产品分类的视觉RAG流程
标题: A Visual RAG Pipeline for Few-Shot Fine-Grained Product Classification
作者: Bianca Lamm / Janis Keuper
原文:   [英文]  
备注: None
摘要:
尽管学习和计算机视觉算法迅速发展,细粒度分类(FGC)在许多实际相关应用中仍然是一个未解决的问题。例如,在零售领域,识别快速变化且视觉上高度相似的产品及其属性对于自动化价格监控和产品推荐至关重要。本文提出了一种新颖的视觉RAG管道,该管道结合了检索增强生成(RAG)方法和视觉语言模型(VLMs)用于少样本细粒度分类。该视觉RAG管道从各种零售商的广告传单中提取产品和促销数据,并同时预测细粒度产品ID以及价格和折扣信息。与之前的方法相比,视觉RAG管道的关键特征在于它允许预测新产品而无需重新训练,只需将几个类别样本添加到RAG数据库中即可。通过比较几个VLM后端,如GPT-4o [23]、GPT-4o-mini [24]和Gemini 2.0 Flash [10],我们的方法在一个多样化的数据集上实现了86.8%的准确率。

[36] 在缺乏真实世界标签的情况下,通过深度基础模型提升多视图立体匹配
标题: Boosting Multi-View Stereo with Depth Foundation Model in the Absence of Real-World Labels
作者: Jie Zhu / Bo Peng / Zhe Zhang / Bingzheng Liu / Jianjun Lei
原文:   [英文]  
备注: None
摘要:
基于学习的多视图立体(MVS)方法近年来取得了显著进展。然而,如何在不使用真实世界标签的情况下有效地训练网络仍然是一个具有挑战性的问题。在本文中,受视觉基础模型最新进展的驱动,提出了一种新颖的方法,称为DFM-MVS,旨在利用深度基础模型生成有效的深度先验,从而在没有真实世界标签的情况下提升MVS。具体而言,开发了一种基于深度先验的伪监督训练机制,利用生成的深度先验模拟真实的立体对应关系,从而为MVS网络构建有效的监督。此外,提出了一种深度先验引导的误差校正策略,利用深度先验作为指导,缓解广泛使用的粗到细网络结构中固有的误差传播问题。在DTU和Tanks & Temples数据集上的实验结果表明,所提出的DFM-MVS在不使用真实世界标签的情况下显著优于现有的MVS方法。

[37] ACE:扩散模型中的注意力概念消除
标题: ACE: Attentional Concept Erasure in Diffusion Models
作者: Finn Carter
原文:   [英文]   [中文]  
备注: Under Review
摘要:
大型文本到图像扩散模型展示了卓越的图像合成能力,但由于在互联网规模的数据上进行不加区分的训练,导致学习到的概念能够生成有害、受版权保护或其他不良内容。我们解决扩散模型中的概念消除任务,即从预训练模型中移除指定概念,使得在提示该概念(或相关同义词)时不再生成其图像,同时保留模型生成其他内容的能力。我们提出了一种新方法,注意力概念消除(ACE),它结合了封闭形式的注意力操控与轻量级微调。从理论上讲,我们将概念消除表述为将模型在目标概念上的条件分布与中性分布对齐。我们的方法通过门控低秩适应识别并消除交叉注意力模块中的概念特定潜在方向,随后进行对抗性增强微调,以确保彻底消除该概念及其同义词。实证上,我们在多个基准测试中展示,包括对象类别、名人面孔、显式内容和艺术风格,ACE在概念移除的效果和鲁棒性上达到了最先进的水平。与之前的方法相比,ACE更好地平衡了通用性(消除概念及相关术语)和特异性(保留无关内容),可扩展到数十个概念,并且高效,每个概念只需几秒钟的适应时间。我们将发布代码以促进扩散模型的更安全部署。

[38] 跨频协作训练网络与数据集用于半监督第一磨牙根管分割
标题: Cross-Frequency Collaborative Training Network and Dataset for Semi-supervised First Molar Root Canal Segmentation
作者: Zhenhuan Zhou / Yuchen Zhang / Along He / Peng Wang / Xueshuo Xie / Tao Li
原文:   [英文]   [中文]  
备注: 12 pages, Initial submission time 25 December 2024, Now Under Review
摘要:
根管(RC)治疗在临床实践中是一项非常精细且技术复杂的操作,受到临床医生经验和主观判断的极大影响。深度学习在计算机辅助诊断(CAD)领域取得了显著进展,因为它可以提供更客观和准确的诊断结果。然而,其在RC治疗中的应用仍然相对较少,主要是由于该领域缺乏公共数据集。为了解决这个问题,本文建立了一个名为FMRC-2025的第一磨牙根管分割数据集。此外,为了减轻牙医手动标注的工作量并充分利用未标记的数据,我们设计了一种名为CFC-Net的跨频协作训练半监督学习(SSL)网络。它由两个部分组成:(1)跨频协作平均教师(CFC-MT),引入了两个专门的学生(SS)和一个综合教师(CT)进行协作多频训练。CT和SS在不同的频率成分上进行训练,同时通过跨频和全频一致性监督充分整合多频知识。(2)不确定性引导的跨频混合(UCF-Mix)机制使网络能够生成高置信度的伪标签,同时学习整合多频信息并保持目标的结构完整性。在FMRC-2025和三个公共牙科数据集上的大量实验表明,CFC-MT在RC分割中是有效的,并且在其他牙科分割任务中也表现出强大的泛化能力,优于最先进的SSL医学图像分割方法。代码和数据集将会发布。

[39] 用于血管网络提取的合成数据
标题: Synthetic Data for Blood Vessel Network Extraction
作者: Joël Mathys / Andreas Plesner / Jorel Elmiger / Roger Wattenhofer
原文:   [英文]  
备注: Presented at SynthData Workshop at ICLR 2025
摘要:
大脑中的血管网络在中风研究中起着至关重要的作用,理解其拓扑结构对于分析血流动力学至关重要。然而,从显微镜数据中提取详细的拓扑血管网络信息仍然是一个重大挑战,主要原因是标记训练数据的稀缺性以及对高拓扑精度的需求。本文结合合成数据生成与深度学习,从体积显微镜数据中自动提取血管网络为图形。为了解决数据稀缺问题,我们引入了一个全面的流程,用于生成大规模合成数据集,这些数据集反映了真实血管网络的特征。我们的三阶段方法从抽象图生成、血管掩膜创建到逼真的医学图像合成逐步推进,在每个阶段都结合了生物学约束和成像伪影。利用这些合成数据,我们开发了一个基于3D U-Net模型的两阶段深度学习流程,用于节点检测和边缘预测。在真实显微镜数据上进行微调显示出有希望的适应性,通过仅训练5个手动标记的样本,将边缘预测的F1分数从0.496提高到0.626。这些结果表明,自动化血管网络提取正在变得切实可行,为中风研究中的大规模血管分析开辟了新的可能性。

[40] 用于X射线图像中骨盆骨折分割的类别-片段分割框架
标题: A Category-Fragment Segmentation Framework for Pelvic Fracture Segmentation in X-ray Images
作者: Daiqi Liu / Fuxin Fan / Andreas Maier
原文:   [英文]   [中文]  
备注: 5 pages, 2 figures, 1 table
摘要:
骨盆骨折通常由高冲击创伤引起,往往需要手术干预。CT和二维X射线成像等成像技术用于通过图像配准将手术计划转移到手术室,从而实现快速的术中调整。具体来说,从二维X射线成像中分割骨盆骨折可以帮助准确定位骨碎片,并指导螺钉或金属板的放置。在本研究中,我们提出了一种新颖的基于深度学习的类别和碎片分割(CFS)框架,用于二维X射线图像中骨盆骨碎片的自动分割。该框架由三个连续步骤组成:类别分割、碎片分割和后处理。我们最好的模型在解剖结构的IoU上达到0.91,在骨折分割上达到0.78。结果表明,CFS框架是有效且准确的。

[41] 学习兼容的多奖子网络用于非对称检索
标题: Learning Compatible Multi-Prize Subnetworks for Asymmetric Retrieval
作者: Yushuai Sun / Zikun Zhou / Dongmei Jiang / Yaowei Wang / Jun Yu / Guangming Lu / Wenjie Pei
原文:   [英文]  
备注: Accepted to CVPR 2025
摘要:
非对称检索是现实世界检索系统中的典型场景,其中具有不同容量的兼容模型部署在具有不同资源配置的平台上。现有方法通常使用兼容学习来训练专门为预定平台设计的预定义网络或子网络。然而,这些方法在多平台部署方面的灵活性有限。例如,当在检索系统中引入新平台时,开发人员必须通过向后兼容学习训练一个额外的模型,以适当的容量与现有模型兼容。在本文中,我们提出了一种具有自兼容性的可剪裁网络,使开发人员能够通过后训练剪枝在任何所需容量下生成兼容子网络。因此,它允许创建一个稀疏子网络以匹配新平台的资源,而无需额外训练。具体来说,我们在兼容学习中优化了密集网络中不同容量子网络的架构和权重。我们还设计了一种冲突感知梯度集成方案,以处理兼容学习期间密集网络和子网络之间的梯度冲突。在各种基准和视觉骨干上的广泛实验证明了我们方法的有效性。我们的代码和模型可在此https URL获取。

[42] CAGS:基于上下文感知高斯喷溅的开放词汇3D场景理解
标题: CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting
作者: Wei Sun / Yanzhao Zhou / Jianbin Jiao / Yuan Li
原文:   [英文]  
备注: None
摘要:
开放词汇的3D场景理解对于需要自然语言驱动的空间解释的应用(如机器人和增强现实)至关重要。虽然3D高斯喷溅(3DGS)为场景重建提供了一种强大的表示方法,但将其与开放词汇框架结合时揭示了一个关键挑战:跨视图粒度不一致。这个问题源于2D分割方法(如SAM),导致在不同视图中对象分割不一致(例如,在一个视图中“咖啡套装”被分割为一个实体,而在另一个视图中被分割为“杯子+咖啡+勺子”)。现有的基于3DGS的方法通常依赖于孤立的每个高斯特征学习,忽视了连贯对象推理所需的空间上下文,导致分割表示的碎片化。我们提出了上下文感知高斯喷溅(CAGS),这是一种通过将空间上下文融入3DGS来解决这一挑战的新框架。CAGS构建局部图以在高斯之间传播上下文特征,减少不一致粒度带来的噪声,采用以掩码为中心的对比学习来平滑跨视图的SAM衍生特征,并利用预计算策略通过预计算邻域关系来降低计算成本,从而在大规模场景中实现高效训练。通过整合空间上下文,CAGS显著改善了3D实例分割,并减少了在LERF-OVS和ScanNet等数据集上的碎片化错误,从而实现了稳健的语言引导3D场景理解。

[43] 搜索是小样本异常检测所需的一切
标题: Search is All You Need for Few-shot Anomaly Detection
作者: Qishan Wang / Jia Guo / Shuyong Gao / Haofen Wang / Li Xiong / Junjie Hu / Hanqi Guo / Wenqiang Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
少样本异常检测(FSAD)在工业检测中已成为一项重要但具有挑战性的任务,其中正常分布建模必须仅通过少量正常图像来完成。现有方法通常采用结合语言和视觉模态的多模态基础模型进行提示引导的异常检测,但这些方法往往需要复杂的提示工程和大量的手动调整。在本文中,我们展示了一种简单的最近邻搜索框架可以在单类和多类FSAD场景中超越最新的性能。我们提出的方法,VisionAD,由四个简单但重要的组件组成:(1)可扩展的视觉基础模型,用于提取通用且具有辨别力的特征;(2)双重增强策略——支持增强以提高特征匹配的适应性和查询增强以解决单视图预测的不足;(3)多层特征集成,以最小的计算开销捕获低频全局上下文和高频局部细节;(4)一个类别感知的视觉记忆库,实现高效的一对多多类检测。在MVTec-AD、VisA和Real-IAD基准上的广泛评估显示了VisionAD的卓越性能。仅使用1张正常图像作为支持,我们的方法分别在图像级别上实现了97.4%、94.8%和70.8%的AUROC分数,显著超越了当前的最新方法(分别提高了+1.6%、+3.2%和+1.4%)。VisionAD无需训练的特性和卓越的少样本能力使其在样本稀缺或获取成本高昂的实际应用中尤为吸引人。代码可在此https URL获取。

[44] 学习物理信息驱动的颜色感知变换用于低光图像增强
标题: Learning Physics-Informed Color-Aware Transforms for Low-Light Image Enhancement
作者: Xingxing Yang / Jie Chen / Zaifeng Yang
原文:   [英文]   [中文]  
备注: Accepted by ICME 2025
摘要:
图像分解为视觉数据的成像因素提供了深刻的见解,并显著增强了各种高级计算机视觉任务。在这项工作中,我们介绍了一种基于分解的物理信息先验的低光图像增强新方法。现有方法直接在sRGB色彩空间中将低光图像映射到正常光图像,存在颜色预测不一致和对光谱功率分布(SPD)变化高度敏感的问题,导致在不同光照条件下性能不稳定。为了解决这些挑战,我们引入了一种物理信息的颜色感知变换(PiCat),这是一种基于学习的框架,通过我们提出的颜色感知变换(CAT)将低光图像从sRGB色彩空间转换为深度照明不变描述符。此变换能够稳健地处理复杂的光照和SPD变化。与此互补,我们提出了内容-噪声分解网络(CNDN),通过减轻噪声和其他失真来优化描述符分布,使其更好地与良好光照条件对齐,从而有效地恢复低光图像的内容表示。CAT和CNDN共同作为物理先验,引导从低光到正常光域的转换过程。我们提出的PiCat框架在五个基准数据集上展示了优于最新方法的卓越性能。

[45] AnomalyR1:一种基于GRPO的端到端多层次学习模型用于工业异常检测
标题: AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection
作者: Yuhao Chao / Jie Liu / Jie Tang / Gangshan Wu
原文:   [英文]   [中文]  
备注: None
摘要:
工业异常检测(IAD)由于缺乏缺陷样本而面临巨大挑战,因此必须部署能够强大泛化的模型,以有效检测未见的异常。传统方法通常受限于手工设计的特征或特定领域的专家模型,难以解决这一限制,强调了范式转变的必要性。我们介绍了AnomalyR1,这是一种开创性的框架,利用VLM-R1,一种以卓越的泛化和可解释性著称的多模态大型语言模型(MLLM),来革新IAD。通过将MLLM与群体相对策略优化(GRPO)相结合,并通过我们新颖的推理结果对齐度量(ROAM)进行增强,AnomalyR1实现了一个完全端到端的解决方案,能够自主处理图像和领域知识的输入,进行分析推理,并生成精确的异常定位和掩码。基于最新的多模态IAD基准,我们紧凑的30亿参数模型优于现有方法,建立了最先进的结果。随着MLLM能力的不断进步,本研究首次提供了一个基于VLM的端到端IAD解决方案,展示了ROAM增强的GRPO的变革潜力,将我们的框架定位为下一代智能异常检测系统在缺乏缺陷数据的工业应用中的前瞻性基石。

[46] 聚焦伪造:一种用于局部化AI生成图像检测的新型数据集及伪造放大方法
标题: Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach
作者: Lvpan Cai / Haowei Wang / Jiayi Ji / YanShu ZhouMen / Yiwei Ma / Xiaoshuai Sun / Liujuan Cao / Rongrong Ji
原文:   [英文]   [中文]  
备注: None
摘要:
随着人工智能生成的图像编辑工具的兴起,局部伪造变得越来越逼真,对视觉内容的完整性构成了挑战。尽管最近的研究已经探索了局部的人工智能生成内容(AIGC)检测,但现有的数据集主要集中在对象级别的伪造,而忽视了如天空或地面等区域的更广泛场景编辑。为了解决这些局限性,我们引入了\textbf{BR-Gen},这是一个包含150,000张局部伪造图像的大规模数据集,具有多样的场景感知注释,这些注释基于语义校准以确保高质量样本。BR-Gen通过一个完全自动化的感知-创建-评估流程构建,以确保语义一致性和视觉真实性。此外,我们进一步提出了\textbf{NFA-ViT},一种噪声引导的伪造放大视觉变换器,通过在整个图像中放大与伪造相关的特征来增强局部伪造的检测。NFA-ViT通过噪声指纹挖掘图像中的异质区域,即潜在编辑区域。随后,引入注意力机制以强制正常和异常特征之间的交互,从而在整个图像中传播泛化痕迹,使细微的伪造影响更广泛的上下文,并提高整体检测的鲁棒性。大量实验表明,BR-Gen构建了现有方法未覆盖的全新场景。更进一步,NFA-ViT在BR-Gen上优于现有方法,并在当前基准测试中表现良好。所有数据和代码可在此https URL获取。

[47] 超越词汇:通过扩散在无监督提示学习中增强判别丰富性
标题: Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt Learning
作者: Hairui Ren / Fan Tang / He Zhao / Zixuan Wang / Dandan Guo / Yi Chang
原文:   [英文]  
备注: None
摘要:
最近,使用大量未标记数据微调视觉-语言模型(VLMs)引起了广泛关注。然而,一个关键挑战仍然是缺乏高质量的伪标记数据。目前的伪标记策略常常在语义和视觉信息之间出现不匹配,导致无监督提示学习(UPL)方法的性能不佳。在本文中,我们介绍了一种简单但有效的方法,称为通过扩散增强判别丰富性(AiR),旨在学习一种更丰富的判别方式来全面表示类别,从而促进分类。具体来说,我们的方法包括一个伪标签生成模块,该模块利用高保真度的合成样本创建一个辅助分类器,捕捉更丰富的视觉变化,将文本-图像对分类桥接到更稳健的图像-图像对分类。此外,我们利用基于扩散的合成样本的多样性来增强提示学习,为语义-视觉对齐提供更多信息。在五个公共基准测试(包括RESISC45和Flowers102)以及三种学习范式(UL、SSL和TRZSL)上的广泛实验表明,AiR在无监督提示学习方法上实现了显著且一致的性能提升。

[48] R-Meshfusion:基于强化学习的稀疏视图网格重建与扩散先验
标题: R-Meshfusion: Reinforcement Learning Powered Sparse-View Mesh Reconstruction with Diffusion Priors
作者: Haoyang Wang / Liming Liu / Peiheng Wang / Junlin Hao / Jiangkai Wu / Xinggong Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
从多视图图像进行网格重建是计算机视觉中的一个基本问题,但在稀疏视图条件下,其性能会显著下降,尤其是在没有真实观测的未知区域。尽管最近扩散模型的进展在从有限输入中合成新视图方面表现出强大的能力,但其输出往往存在视觉伪影且缺乏三维一致性,这为可靠的网格优化带来了挑战。本文提出了一种新颖的框架,利用扩散模型以系统且可靠的方式增强稀疏视图网格重建。为了解决扩散输出的不稳定性,我们提出了一个共识扩散模块,通过四分位距(IQR)分析过滤不可靠的生成,并执行方差感知的图像融合以产生稳健的伪监督。在此基础上,我们设计了一种基于上置信界(UCB)的在线强化学习策略,根据扩散损失自适应地选择最具信息量的视点进行增强。最后,融合后的图像用于与稀疏视图的真实数据一起监督基于NeRF的模型,确保几何和外观的一致性。大量实验表明,我们的方法在几何质量和渲染质量上都取得了显著的改进。

[49] 流动智能:通过时间特征相关性实现稳健的特征匹配
标题: Flow Intelligence: Robust Feature Matching via Temporal Signature Correlation
作者: Jie Wang / Chen Ye Gan / Caoqi Wei / Jiangtao Wen / Yuxing Han
原文:   [英文]   [中文]  
备注: None
摘要:
在视频流中进行特征匹配仍然是计算机视觉领域的一个核心挑战。越来越多的情况下,稳健的多模态匹配在机器人技术、监控、遥感和医学成像中引起了广泛关注。传统方法依赖于检测和匹配空间特征,但在面对噪声、未对齐或跨模态数据时会失效。最近的深度学习方法通过学习表示提高了稳健性,但仍受限于对大量训练数据和计算需求的依赖。我们提出了流动智能(Flow Intelligence),这是一种突破性的方式,专注于时间运动模式而非空间特征。我们的方法不再检测传统的关键点,而是从连续帧中的像素块中提取运动特征,并在视频之间提取时间运动特征。这些基于运动的描述符自然地对平移、旋转和尺度变化具有不变性,同时在不同的成像模态中保持稳健。这种新颖的方法无需预训练数据,消除了空间特征检测的需要,仅使用时间运动即可实现跨模态匹配,并在传统方法失效的挑战场景中表现优于现有方法。通过利用运动而非外观,流动智能在多样化环境中实现了稳健的实时视频特征匹配。

[50] 探索基于视频的驾驶员活动识别在噪声标签下的表现
标题: Exploring Video-Based Driver Activity Recognition under Noisy Labels
作者: Linjuan Fan / Di Wen / Kunyu Peng / Kailun Yang / Jiaming Zhang / Ruiping Liu / Yufan Chen / Junwei Zheng / Jiamin Wu / Xudong Han / Rainer Stiefelhagen
原文:   [英文]   [中文]  
备注: The source code is available at this https URL
摘要:
作为深度学习领域的一个开放研究课题,带有噪声标签的学习在过去十年中引起了广泛关注并迅速发展。带有标签噪声的学习对于驾驶员分心行为识别至关重要,因为现实世界的视频数据通常包含错误标记的样本,这会影响模型的可靠性和性能。然而,在驾驶员活动识别领域,标签噪声学习几乎没有被探索。在本文中,我们提出了第一个用于驾驶员活动识别任务的标签噪声学习方法。基于聚类假设,我们最初使模型能够从给定的视频中学习聚类友好的低维表示,并将生成的嵌入分配到聚类中。随后,我们在每个聚类内执行共同细化,以平滑分类器输出。此外,我们提出了一种灵活的样本选择策略,该策略结合了两个选择标准,而不依赖于任何超参数,以从训练数据集中筛选出干净的样本。我们还在样本选择过程中加入了一个自适应参数,以强制实现各类之间的平衡。在公共Drive&Act数据集上针对所有粒度级别进行的多种综合实验表明,与从图像分类领域衍生的其他标签去噪方法相比,我们的方法具有优越的性能。源代码可在此https URL获取。

[51] 保卫天空:反无人机方法的综合调查、基准测试及未来方向
标题: Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions
作者: Yifei Dong / Fengyi Wu / Sanjian Zhang / Guangyu Chen / Yuzhi Hu / Masumi Yano / Jingdong Sun / Siyu Huang / Feng Liu / Qi Dai / Zhi-Qi Cheng
原文:   [英文]   [中文]  
备注: Accepted at CVPR Workshop Anti-UAV 2025. 15 pages
摘要:
无人机(UAV)在基础设施检查、监视和相关任务中不可或缺,但它们也带来了关键的安全挑战。这篇综述广泛地审视了反无人机领域,重点关注三个核心目标——分类、检测和跟踪,同时详细介绍了新兴的方法,如基于扩散的数据合成、多模态融合、视觉语言建模、自监督学习和强化学习。我们系统地评估了单模态和多传感器管道(涵盖RGB、红外、音频、雷达和射频)的最新解决方案,并讨论了大规模以及对抗性基准。我们的分析揭示了实时性能、隐形检测和基于群体的场景中的持续差距,强调了对强大、适应性强的反无人机系统的迫切需求。通过突出开放的研究方向,我们旨在促进创新并指导在无人机广泛使用的时代中下一代防御策略的发展。

[52] YOLOv12综述:基于注意力的增强与之前版本的比较
标题: A Review of YOLOv12: Attention-Based Enhancements vs. Previous Versions
作者: Rahima Khanam / Muhammad Hussain
原文:   [英文]   [中文]  
备注: None
摘要:
YOLO(You Only Look Once)系列一直是实时目标检测的领先框架,不断改善速度和准确性之间的平衡。然而,由于注意力机制的高计算开销,将其整合到YOLO中一直是一个挑战。YOLOv12引入了一种新颖的方法,成功地结合了基于注意力的增强,同时保持了实时性能。本文全面回顾了YOLOv12的架构创新,包括用于计算高效自注意力的区域注意力、用于改进特征聚合的残差高效层聚合网络,以及用于优化内存访问的闪存注意力。此外,我们将YOLOv12与之前的YOLO版本和竞争对手的目标检测器进行了基准测试,分析了其在准确性、推理速度和计算效率方面的改进。通过这一分析,我们展示了YOLOv12如何通过优化延迟-准确性权衡和计算资源来推进实时目标检测。

[53] 基于物理启发表示学习的复值SAR基础模型
标题: A Complex-valued SAR Foundation Model Based on Physically Inspired Representation Learning
作者: Mengyu Wang / Hanbo Bi / Yingchao Feng / Linlin Xin / Shuo Gong / Tianqi Wang / Zhiyuan Yan / Peijin Wang / Wenhui Diao / Xian Sun
原文:   [英文]   [中文]  
备注: None
摘要:
由于在各种下游任务上的优越泛化能力,遥感领域的视觉基础模型已经被广泛研究。合成孔径雷达(SAR)提供全天候成像能力,为地球观测带来了显著优势。然而,建立一个用于SAR图像解释的基础模型不可避免地会遇到信息利用不足和可解释性差的挑战。在本文中,我们提出了一种基于复值SAR数据的遥感基础模型,该模型模拟极化分解过程进行预训练,即将像素散射强度表征为散射基和散射系数的加权组合,从而赋予基础模型物理可解释性。具体来说,我们构建了一系列散射查询,每个查询代表一个独立且有意义的散射基,它们在散射查询解码器中与SAR特征交互并输出相应的散射系数。为了指导预训练过程,我们构建了极化分解损失和功率自监督损失。前者将预测的系数与Yamaguchi系数对齐,而后者则从预测的系数中重建功率并与输入图像的功率进行比较。我们的基础模型在六个典型的下游任务中验证了其性能,达到了最先进的结果。值得注意的是,即使在数据稀缺的条件下,基础模型也能提取稳定的特征表示并表现出强大的泛化能力。

[54] 指令增强的多模态对齐用于图文和元素匹配
标题: Instruction-augmented Multimodal Alignment for Image-Text and Element Matching
作者: Xinli Yue / JianHui Sun / Junda Lu / Liangchao Yao / Fan Xia / Tianyi Wang / Fengyun Rao / Jing Lyu / Yuetang Deng
原文:   [英文]  
备注: Accepted to CVPR 2025 Workshop
摘要:
随着文本到图像(T2I)生成模型的快速发展,评估生成图像与文本描述之间的语义对齐已成为一个重要的研究挑战。目前的方法,包括基于视觉问答(VQA)的方法,仍然在细粒度评估和图像-文本对齐的精确量化方面存在困难。本文提出了一种改进的评估方法,名为用于图像-文本和元素匹配的指令增强多模态对齐(iMatch),通过微调多模态大型语言模型来评估图像-文本的语义对齐。我们引入了四种创新的增强策略:首先,QAlign策略创建了一个精确的概率映射,将多模态大型语言模型的离散评分转换为连续的匹配评分。其次,验证集增强策略使用模型预测的伪标签来扩展训练数据,提高模型的泛化性能。第三,元素增强策略整合元素类别标签,以优化模型对图像-文本匹配的理解。第四,图像增强策略采用随机光照等技术来提高模型的鲁棒性。此外,我们提出了提示类型增强和评分扰动策略,以进一步提高元素评估的准确性。我们的实验结果表明,iMatch方法显著超越了现有方法,证实了其有效性和实用价值。此外,我们的iMatch在CVPR NTIRE 2025文本到图像生成模型质量评估 - 赛道1图像-文本对齐中获得了第一名。

[55] MixSignGraph:符号序列等于节点的混合图
标题: MixSignGraph: A Sign Sequence is Worth Mixed Graphs of Nodes
作者: Shiwei Gan / Yafeng Yin / Zhiwei Jiang / Hongkai Wen / Lei Xie / Sanglu Lu
原文:   [英文]  
备注: 17 pages, 9 figures, submitted to IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI). This is a regular paper submission
摘要:
最近的手语研究进展得益于基于CNN的骨干网络,这些网络主要是从传统计算机视觉任务(例如,物体识别、图像识别)中转移过来的。然而,这些基于CNN的骨干网络通常擅长提取轮廓和纹理等特征,但可能难以捕捉与手语相关的特征。实际上,手语任务需要关注与手语相关的区域,包括不同区域之间的协作(例如,左手区域和右手区域)以及单个区域内的有效内容。为了捕捉这些与区域相关的特征,我们引入了MixSignGraph,它将手语序列表示为一组混合图,并设计了以下三个图模块用于特征提取,即局部手语图(LSG)模块、时间手语图(TSG)模块和层次手语图(HSG)模块。具体来说,LSG模块学习一个帧内跨区域特征的相关性,即关注空间特征。TSG模块跟踪相邻帧之间跨区域特征的交互,即关注时间特征。HSG模块聚合来自一个帧的不同粒度特征图的同一区域特征,即关注层次特征。此外,为了在没有词汇注释的情况下进一步提高手语任务的性能,我们提出了一种简单但反直觉的文本驱动CTC预训练(TCP)方法,该方法从文本标签生成伪词汇标签用于模型预训练。在当前五个公共手语数据集上进行的大量实验表明,所提出的模型具有优越的性能。值得注意的是,我们的模型在多个数据集上的多个手语任务中超越了SOTA模型,而无需依赖任何额外的线索。

[56] 从SoccerNet足球视频转播中预测动作
标题: Action Anticipation from SoccerNet Football Video Broadcasts
作者: Mohamad Dalal / Artur Xarles / Anthony Cioppa / Silvio Giancola / Marc Van Droogenbroeck / Bernard Ghanem / Albert Clapés / Sergio Escalera / Thomas B. Moeslund
原文:   [英文]  
备注: 15 pages, 14 figures. To be published in the CVSports CVPR workshop
摘要:
人工智能已经彻底改变了我们分析体育视频的方式,无论是理解长时间未剪辑视频中的比赛动作,还是预测未来帧中球员的动作。尽管在这些方面取得了进展,但对比赛动作发生前的预测关注较少。在这项工作中,我们引入了足球转播视频的动作预测任务,该任务包括在五秒或十秒的预测窗口内预测未观察到的未来帧中的动作。为了对这一任务进行基准测试,我们发布了一个新的数据集,即基于SoccerNet Ball Action Spotting的SoccerNet Ball Action Anticipation数据集。此外,我们提出了一种足球动作预测转换器(FAANTRA),这是一种基线方法,适应了最先进的动作预测模型FUTR,以预测与球相关的动作。为了评估动作预测,我们引入了新的指标,包括mAP@$\delta$,用于评估预测的未来动作的时间精度,以及mAP@$\infty$,用于评估它们在预测窗口内的发生情况。我们还进行了广泛的消融研究,以检查各种任务设置、输入配置和模型架构的影响。实验结果突出了足球视频中动作预测的可行性和挑战,为体育分析预测模型的设计提供了宝贵的见解。通过在动作展开前进行预测,我们的工作将促进自动化广播、战术分析和球员决策制定等应用。我们的数据集和代码可在此https URL公开获取。

[57] 理解视频扩散模型中的注意力机制
标题: Understanding Attention Mechanism in Video Diffusion Models
作者: Bingyan Liu / Chengyu Wang / Tongtong Su / Huan Ten / Jun Huang / Kailing Guo / Kui Jia
原文:   [英文]   [中文]  
备注: None
摘要:
文本到视频(T2V)合成模型,如OpenAI的Sora,由于其能够从文本提示生成高质量视频而受到广泛关注。在基于扩散的T2V模型中,注意力机制是一个关键组件。然而,目前尚不清楚这些模型学习了哪些中间特征,以及T2V模型中的注意力模块如何影响视频合成的各个方面,如图像质量和时间一致性。在本文中,我们使用信息论方法对T2V模型的空间和时间注意力模块进行了深入的扰动分析。我们的结果表明,时间和空间注意力图不仅影响视频的时间安排和布局,还影响时空元素的复杂性以及合成视频的美学质量。值得注意的是,高熵注意力图通常是与优质视频相关的关键元素,而低熵注意力图则与视频的帧内结构相关。基于我们的研究结果,我们提出了两种新方法来提高视频质量并实现文本引导的视频编辑。这些方法完全依赖于对T2V模型中的注意力矩阵进行轻量级操作。我们的方法的有效性和效果通过多个数据集的实验评估得到了进一步验证。

[58] 任意物体的放置
标题: Object Placement for Anything
作者: Bingjie Gao / Bo Zhang / Li Niu
原文:   [英文]   [中文]  
备注: accepted by ICME 2025
摘要:
物体放置旨在确定前景物体在背景图像上放置时的适当位置(例如,位置和大小)。大多数以往的工作受限于小规模标注数据集,这阻碍了物体放置在现实世界中的应用。在这项工作中,我们设计了一个半监督框架,可以利用大规模未标注数据集来提升判别性物体放置模型的泛化能力。判别性模型预测给定前景-背景对的每个前景放置的合理性标签。为了更好地利用标注数据,在半监督框架下,我们进一步提出将合理性变化的知识,即前景放置的变化是否会导致合理性标签的变化,从标注数据转移到未标注数据。大量实验表明,我们的框架可以有效增强判别性物体放置模型的泛化能力。

[59] RadMamba:通过基于雷达的微多普勒导向曼巴状态空间模型实现高效的人体活动识别
标题: RadMamba: Efficient Human Activity Recognition through Radar-based Micro-Doppler-Oriented Mamba State-Space Model
作者: Yizhuo Wu / Francesco Fioranelli / Chang Gao
原文:   [英文]   [中文]  
备注: Under Review
摘要:
基于雷达的人体动作识别(HAR)因其独特的隐私保护和鲁棒性优势,已成为传统监测方法(如可穿戴设备和基于摄像头的系统)的有前途的替代方案。然而,现有基于卷积和递归神经网络的解决方案虽然有效,但在部署时计算需求较高。这限制了它们在资源受限或需要多个传感器的场景中的适用性。先进的架构,如ViT和SSM架构,提供了改进的建模能力,并在轻量化设计方面做出了努力。然而,它们的计算复杂性仍然相对较高。为了利用transformer架构的优势,同时提高准确性并降低计算复杂性,本文介绍了RadMamba,这是一种参数高效、专门针对雷达微多普勒设计的Mamba SSM,专门用于雷达基础的HAR。在三个不同的数据集上,RadMamba在数据集DIAT上以仅1/400的参数量匹配了表现最佳的先前模型的99.8%分类准确率,并在数据集CI4R上以仅1/10的参数量达到了领先模型的92.0%准确率。在数据集UoG2020上评估的连续动作序列场景中,RadMamba以至少3%的优势超过了其他参数量显著更高的模型,仅使用了6.7k参数。我们的代码可在此网址获取:this https URL。

[60] pix2pockets:从自然环境中的单张图像中提供8球台球的击球建议
标题: pix2pockets: Shot Suggestions in 8-Ball Pool from a Single Image in the Wild
作者: Jonas Myhre Schiøtt / Viktor Sebastian Petersen / Dimitrios P. Papadopoulos
原文:   [英文]   [中文]  
备注: 15 pages, 7 figures, to be published in SCIA 2025
摘要:
计算机视觉模型在体育运动中的应用越来越广泛,而强化学习(RL)因在国际象棋和围棋等策略游戏中击败人类而闻名。在本文中,我们希望在这些进展的基础上,研究经典的8球台球游戏。我们介绍了pix2pockets,这是一个RL辅助台球教练的基础。给定台球桌的单张图像,我们首先旨在检测台球桌和球,然后提出最佳击球建议。对于第一个任务,我们构建了一个包含195张多样化图像的数据集,在其中我们手动标注了所有球和台球桌上的点,生成了5748个对象分割掩码。对于第二个任务,我们构建了一个标准化的RL环境,允许任何RL算法的轻松开发和基准测试。我们的对象检测模型达到了91.2的AP50,而我们的球位置管道的误差仅为0.4厘米。此外,我们比较了标准的RL算法,为击球建议任务设定了基准,并显示所有算法在不犯规的情况下都无法将所有球击入袋中。我们还提出了一个简单的基准,其每次击球的成功率为94.7%,并且在30%的情况下可以在一个回合中清除整个游戏。

[61] Modular-Cam:使用大型语言模型进行模块化动态摄像机视角视频生成
标题: Modular-Cam: Modular Dynamic Camera-view Video Generation with LLM
作者: Zirui Pan / Xin Wang / Yipeng Zhang / Hong Chen / Kwan Man Cheng / Yaofei Wu / Wenwu Zhu
原文:   [英文]   [中文]  
备注: AAAI 2025 Poster
摘要:
文本到视频生成技术利用提供的文本提示生成高质量视频,近年来由于扩散模型的发展而受到越来越多的关注并取得了巨大成功。现有的方法主要依赖于预训练的文本编码器来捕捉语义信息,并与编码后的文本提示进行交叉注意,以指导视频的生成。然而,当涉及到包含动态场景和多视角转换的复杂提示时,这些方法无法将整体信息分解为独立的场景,也无法根据相应的视角平滑地改变场景。为了解决这些问题,我们提出了一种新方法,即Modular-Cam。具体来说,为了更好地理解给定的复杂提示,我们利用大型语言模型来分析用户指令,并将其解耦为多个场景及过渡动作。为了生成包含与给定视角匹配的动态场景的视频,我们将广泛使用的时间变换器整合到扩散模型中,以确保单个场景内的连续性,并提出了CamOperator,这是一种模块化网络模块,可以很好地控制相机运动。此外,我们提出了AdaControlNet,它利用ControlNet确保跨场景的一致性,并自适应地调整生成视频的色调。大量的定性和定量实验证明了我们提出的Modular-Cam在生成多场景视频方面的强大能力,以及其实现相机运动细粒度控制的能力。生成的结果可在此https URL查看。

[62] 基于星形凸多边形的单次实例分割用于空间相关的生物医学对象
标题: Single-shot Star-convex Polygon-based Instance Segmentation for Spatially-correlated Biomedical Objects
作者: Trina De / Adrian Urbanski / Artur Yakimovich
原文:   [英文]   [中文]  
备注: 12 pages, 8 figures
摘要:
生物医学图像通常包含由于其固有特性而已知在空间上相关或嵌套的对象,从而导致语义关系。例如,细胞核嵌套在真核细胞内,菌落仅在其培养皿内生长。尽管这些语义关系具有重要意义,但检测任务通常是独立制定的,需要多次分析流程。重要的是,空间相关性可以构成一个基本的先验,有助于为实例分割等任务学习更有意义的表示。到目前为止,这一知识尚未被生物医学计算机视觉界所利用。我们认为,两种或多种类别对象的实例分割可以并行实现。我们通过两种架构HydraStarDist (HSD)和新颖的(HSD-WBR)实现这一点,这两种架构基于广泛使用的StarDist (SD),以利用目标对象的星形凸性。HSD和HSD-WBR被构建为能够将其交互作为约束纳入考虑。HSD通过联合编码器隐式地结合了基于对象交互的空间相关性先验。HSD-WBR在我们提出的名为边界内正则化惩罚(WBR)的惩罚的正则化层中进一步加强了这一先验。两种架构都在单次操作中实现了嵌套实例分割。我们基于$IoU_R$和AP展示了它们的竞争力,并在新的、与任务相关的标准联合真阳性率(JTPR)上展示了其相对于基线SD和Cellpose的优越性。我们的方法可以进一步修改,以捕捉荧光或明场显微镜或数字成像中多对象交互的部分包含/排除。最后,我们的策略表明,通过使这种学习成为单次操作且计算效率高,可以获得收益。

[63] DC-SAM:通过双重一致性在图像和视频中进行上下文分割
标题: DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency
作者: Mengshi Qi / Pengfei Zhu / Xiangtai Li / Xiaoyang Bi / Lu Qi / Huadong Ma / Ming-Hsuan Yang
原文:   [英文]   [中文]  
备注: None
摘要:
给定一个单一标注的样本,情境分割旨在分割相应的对象。这种设置在少样本学习中被称为一次性分割,探索了分割模型的泛化能力,并已应用于包括场景理解和图像/视频编辑在内的各种视觉任务。尽管最近的“Segment Anything Models”在交互式分割中取得了最先进的成果,但这些方法不能直接应用于情境分割。在这项工作中,我们提出了基于提示微调的双重一致性SAM(DC-SAM)方法,以适应SAM和SAM2在图像和视频的情境分割。我们的关键见解是通过提供高质量的视觉提示来增强SAM提示编码器在分割中的特征。在生成掩码先验时,我们融合SAM特征以更好地对齐提示编码器。然后,我们设计了一个在融合特征和初始视觉提示上的循环一致性交叉注意力。接下来,通过在提示编码器中使用区分性的正负提示,我们提供了一个双分支设计。此外,我们设计了一种简单的掩码管训练策略,以将我们提出的双重一致性方法应用于掩码管。尽管提出的DC-SAM主要是为图像设计的,但在SAM2的支持下,它可以无缝扩展到视频领域。鉴于视频领域缺乏情境分割,我们从现有的视频分割数据集中手动策划并构建了第一个基准,命名为情境视频对象分割(IC-VOS),以更好地评估模型的情境能力。大量实验表明,我们的方法在COCO-20i上实现了55.5(+1.4)的mIoU,在PASCAL-5i上实现了73.0(+1.1)的mIoU,并在提出的IC-VOS基准上实现了71.52的J&F得分。我们的源代码和基准可在此https URL获得。

[64] 大型视频语言模型的自我对齐与精细正则化偏好优化
标题: Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization
作者: Pritam Sarkar / Ali Etemad
原文:   [英文]   [中文]  
备注: None
摘要:
尽管大型视频语言模型(LVLMs)在最近取得了进展,但它们在细粒度的时间理解上仍然存在困难,容易产生幻觉,并且在简单的视频问答任务中常常犯简单的错误,这些问题对其在现实应用中的安全和可靠部署构成了重大挑战。为了解决这些局限性,我们提出了一种自我对齐框架,使LVLMs能够从自身的错误中学习。我们提出的框架首先获得一组偏好和非偏好响应对的训练集,其中非偏好响应是通过结合常见的错误模式生成的,这些错误模式通常由于空间-时间理解不足、共同出现概念之间的虚假相关性以及过度依赖语言线索而忽视视觉模态等原因而发生。为了促进LVLMs与构建的偏好和非偏好响应对的自我对齐,我们引入了精炼正则化偏好优化(RRPO),这是一种新颖的偏好优化方法,利用子序列级别的精炼奖励和逐字KL正则化来解决直接偏好优化(DPO)的局限性。我们证明,与DPO相比,RRPO实现了更精确的对齐和更稳定的训练。我们的实验和分析验证了我们的方法在各种视频任务中的有效性,包括视频幻觉、短视频和长视频理解以及细粒度的时间推理。

[65] AttentionDrop:一种用于Transformer模型的新型正则化方法
标题: AttentionDrop: A Novel Regularization Method for Transformer Models
作者: Mirza Samad Ahmed Baig / Syeda Anshrah Gillani / Abdul Akbar Khan / Shahid Munir Shah
原文:   [英文]   [中文]  
备注: 26 pages
摘要:
基于Transformer的架构在自然语言处理、计算机视觉和语音等广泛任务中实现了最先进的性能。然而,它们的巨大容量往往导致过拟合,特别是在训练数据有限或噪声较大的情况下。我们提出了AttentionDrop,这是一组直接作用于自注意力分布的统一随机正则化技术。我们引入了三种变体:1. 硬注意力掩蔽:随机将每个查询的前k个注意力logits置零,以鼓励多样化的上下文利用。2. 模糊注意力平滑:对注意力logits应用动态高斯卷积,以扩散过于尖锐的分布。3. 一致性正则化的AttentionDrop:通过基于KL的一致性损失,在多个独立的AttentionDrop扰动下强制输出稳定性。

[66] 使用扩散模型的广义视觉关系检测
标题: Generalized Visual Relation Detection with Diffusion Models
作者: Kaifeng Gao / Siqi Chen / Hanwang Zhang / Jun Xiao / Yueting Zhuang / Qianru Sun
原文:   [英文]   [中文]  
备注: Under review at IEEE TCSVT. The Appendix is provided additionally
摘要:
视觉关系检测(VRD)旨在识别图像中对象对之间的关系(或交互)。尽管最近的VRD模型取得了令人印象深刻的性能,但它们都局限于预定义的关系类别,而未能考虑视觉关系的语义模糊特性。与对象不同,视觉关系的外观总是微妙的,可以从不同的角度用多个谓词词语来描述,例如,“ride”可以从运动和空间位置的角度分别描述为“race”和“sit on”。为此,我们提出将视觉关系建模为连续嵌入,并设计扩散模型以条件生成的方式实现广义VRD,称为Diff-VRD。我们在潜在空间中建模扩散过程,并生成图像中所有可能的关系作为嵌入序列。在生成过程中,主体-对象对的视觉和文本嵌入作为条件信号通过交叉注意力注入。生成后,我们设计了一个后续匹配阶段,通过考虑它们的语义相似性,将关系词分配给主体-对象对。得益于基于扩散的生成过程,我们的Diff-VRD能够生成超出数据集预定义类别标签的视觉关系。为了正确评估这一广义VRD任务,我们引入了两个评估指标,即文本到图像检索和受图像字幕启发的SPICE PR曲线。在人体-物体交互(HOI)检测和场景图生成(SGG)基准上的大量实验证明了Diff-VRD的优越性和有效性。

[67] Metric-Solver:从单张图像进行滑动锚定度量深度估计
标题: Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image
作者: Tao Wen / Jiepeng Wang / Yabo Chen / Shugong Xu / Chi Zhang / Xuelong Li
原文:   [英文]   [中文]  
备注: Our project page: this https URL
摘要:
准确且具有普适性的度量深度估计对于各种计算机视觉应用至关重要,但由于室内和室外环境中深度尺度的多样性,这一任务仍然具有挑战性。在本文中,我们介绍了一种新颖的滑动锚点度量深度估计方法——Metric-Solver,该方法能够动态适应不同场景尺度。我们的方法利用了一种基于锚点的表示,其中一个参考深度作为锚点,用于分离和规范化场景深度为两个部分:缩放的近场深度和渐变的远场深度。锚点作为一个规范化因子,使得近场深度可以在一个一致的范围内进行规范化,同时将远场深度平滑地映射到零。通过这种方法,场景中从零到无穷大的任何深度都可以在一个统一的表示中被表示,从而有效地消除了手动考虑场景尺度变化的需要。更重要的是,对于同一场景,锚点可以沿深度轴滑动,动态调整到不同的深度尺度。较小的锚点在近场提供更高的分辨率,提高了对近距离物体的深度精度,而较大的锚点则改善了远距离区域的深度估计。这种适应性使得模型能够处理不同距离的深度预测,并确保在不同数据集上的强泛化能力。我们的设计实现了在多样化环境中的统一和自适应深度表示。大量实验表明,Metric-Solver在准确性和跨数据集泛化方面均优于现有方法。

[68] 使用CLIP进行少样本学习的Logits去混淆
标题: Logits DeConfusion with CLIP for Few-Shot Learning
作者: Shuo Li / Fang Liu / Zehua Hao / Xinyi Wang / Lingling Li / Xu Liu / Puhua Chen / Wenping Ma
原文:   [英文]  
备注: CVPR 2025
摘要:
CLIP凭借其强大的视觉-语言对齐能力,在零样本和少样本学习任务中表现出色。然而,我们在实验中发现,CLIP的logits在下游任务中存在严重的类间混淆问题,类别之间的模糊性严重影响了准确性。为了解决这一挑战,我们提出了一种新方法,称为Logits DeConfusion。该方法通过结合我们的多层次适配器融合(MAF)模块和类间去混淆(ICD)模块,有效地学习并消除logits中的类间混淆。我们的MAF从不同层次提取特征并均匀融合,以增强特征表示。我们的ICD通过残差结构可学习地消除logits中的类间混淆。实验结果表明,我们的方法可以显著提高分类性能并缓解类间混淆问题。代码可在此HTTPS URL获取。

[69] 一种基于扩散的地形感知遥感图像重建框架
标题: A Diffusion-Based Framework for Terrain-Aware Remote Sensing Image Reconstruction
作者: Zhenyu Yu / Mohd Yamani Inda Idris / Pei Wang
原文:   [英文]  
备注: None
摘要:
遥感影像在环境监测、农业管理和灾害响应中至关重要。然而,由于云层覆盖、传感器故障或不完整的获取,尤其是在高分辨率和高频率任务中,数据丢失严重限制了卫星影像的有效性。传统的插值方法在处理大面积缺失和复杂结构时表现不佳。遥感影像由多个波段组成,每个波段具有不同的意义,确保波段间的一致性对于避免合成图像中的异常至关重要。本文提出了一种基于扩散的方法,称为SatelliteMaker,该方法在不同程度的数据丢失情况下重建缺失数据,同时保持空间、光谱和时间的一致性。我们还提出使用数字高程模型(DEM)作为条件输入,并使用定制的提示生成逼真的图像,使扩散模型适用于定量遥感任务。此外,我们提出了一种基于分布损失的VGG-Adapter模块,减少分布差异并确保风格一致性。大量实验表明,SatelliteMaker在多项任务中达到了最先进的性能。

[70] 大型食草哺乳动物路径的遥感彩色图像语义分割
标题: Remote sensing colour image semantic segmentation of trails created by large herbivorous Mammals
作者: Jose Francisco Diez-Pastor / Francisco Javier Gonzalez-Moya / Pedro Latorre-Carmona / Francisco Javier Perez-Barbería / Ludmila I.Kuncheva / Antonio Canepa-Oneto / Alvar Arnaiz-González / Cesar Garcia-Osorio
原文:   [英文]   [中文]  
备注: 24 pages, 6 figures. Submitted to Computers and Geosciences
摘要:
检测生物多样性面临风险的空间区域对于生态系统的保护和监测至关重要。大型陆地哺乳动物食草动物是关键物种,因为它们的活动不仅对土壤、植物和动物产生深远影响,还通过作为异源生态系统工程师来塑造景观。一个表明食草动物活动强度并可能影响生物多样性的关键景观特征是放牧小径的形成。放牧小径是由大型食草动物持续踩踏活动形成的,可能产生复杂的裸土轨迹网络。在此,我们评估了基于机器学习技术的不同算法来识别放牧小径。我们的目标是自动检测可能存在强烈食草活动的区域,这可能有利于保护和管理计划。 我们应用了五种语义分割方法结合十四种编码器,旨在对航空图像中的放牧小径进行映射。我们的结果表明,在大多数情况下,所选择的方法成功地映射了小径,尽管在少数情况下实际的小径结构被低估了。使用MambaOut编码器的UNet架构是映射小径的最佳架构。所提出的方法可以应用于开发工具,以映射和监测这些景观结构的时间变化,从而支持栖息地保护和土地管理计划。据我们所知,这是首次在大型食草哺乳动物小径的检测和描绘中获得具有竞争力的图像分割结果。

[71] 反美学:保护面部隐私免受定制文本到图像合成的侵害
标题: Anti-Aesthetics: Protecting Facial Privacy against Customized Text-to-Image Synthesis
作者: Songping Wang / Yueming Lyu / Shiqi Liu / Ning Li / Tong Tong / Hao Sun / Caifeng Shan
原文:   [英文]   [中文]  
备注: None
摘要:
定制化扩散模型的兴起推动了个性化视觉内容创作的繁荣,但也带来了恶意滥用的风险,严重威胁个人隐私和版权保护。一些研究表明,图像的美学属性与人类对图像质量的感知高度正相关。受此启发,我们从一个新颖且有趣的美学角度出发,解决问题,以降低恶意定制模型的生成质量,从而更好地保护面部身份。具体而言,我们提出了一个分层反美学(HAA)框架,以充分探索美学线索,该框架由两个关键分支组成:1)全局反美学:通过建立全局反美学奖励机制和全局反美学损失,可以降低生成内容的整体美学;2)局部反美学:设计了局部反美学奖励机制和局部反美学损失,以引导对抗性扰动破坏局部面部身份。通过无缝整合这两个分支,我们的HAA在定制生成过程中有效地实现了从全局到局部的反美学目标。大量实验表明,HAA在身份移除方面大大优于现有的SOTA方法,为保护面部隐私和版权提供了强有力的工具。

[72] 通过两级交叉一致性监督的弱半监督全切片图像分类
标题: Weakly Semi-supervised Whole Slide Image Classification by Two-level Cross Consistency Supervision
作者: Linhao Qu / Shiman Li / Xiaoyuan Luo / Shaolei Liu / Qinhao Guo / Manning Wang / Zhijian Song
原文:   [英文]   [中文]  
备注: None
摘要:
计算机辅助全切片图像(WSI)分类有潜力提高临床病理诊断的准确性和效率。通常,它被表述为一个多实例学习(MIL)问题,其中每个WSI被视为一个“袋子”,而从WSI中提取的小块则被视为该袋子中的实例。然而,为大量袋子获取标签是一个昂贵且耗时的过程,特别是在利用现有WSI进行新的分类任务时。这一限制使得大多数现有的WSI分类方法无效。为了解决这个问题,我们提出了一种新的WSI分类问题设置,更符合临床实践,称为弱半监督全切片图像分类(WSWC)。在WSWC中,只有少量袋子被标记,而大量袋子仍未标记。WSWC问题的MIL性质,加上缺乏块标签,使其区别于典型的半监督图像分类问题,使得现有的自然图像算法不适合直接解决WSWC问题。在本文中,我们提出了一个简洁高效的框架,名为CroCo,通过两级交叉一致性监督来解决WSWC问题。CroCo包含两个异构分类器分支,能够执行实例分类和袋子分类。其基本思想是在训练过程中在袋子级别和实例级别之间建立两个分支的交叉一致性监督。在四个数据集上进行的大量实验表明,当有限的WSI具有袋子标签时,CroCo在袋子分类和实例分类性能上优于其他比较方法。据我们所知,本文首次提出了WSWC问题并给出了成功的解决方案。

[73] 高效对比解码与概率幻觉检测 - 缓解大型视觉语言模型中的幻觉 -
标题: Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models -
作者: Laura Fieback / Nishilkumar Balar / Jakob Spiegelberg / Hanno Gottschalk
原文:   [英文]   [中文]  
备注: None
摘要:
尽管大型视觉语言模型(LVLMs)在最近取得了进展,这些模型仍然存在生成与提供的视觉输入不一致的幻觉性响应的问题。为了减轻这种幻觉,我们引入了高效对比解码(ECD),这是一种简单的方法,利用概率幻觉检测在推理时将输出分布转向上下文准确的答案。通过对比标记概率和幻觉分数,ECD从原始分布中减去幻觉概念,有效地抑制了幻觉。值得注意的是,我们提出的方法可以应用于任何开源的LVLM,并且不需要额外的LVLM训练。我们在多个基准数据集和不同的LVLM上评估了我们的方法。我们的实验表明,ECD有效地减轻了幻觉,在LVLM基准测试的性能和计算时间方面优于最先进的方法。

[74] FocusedAD:以角色为中心的电影音频描述
标题: FocusedAD: Character-centric Movie Audio Description
作者: Xiaojun Ye / Chun Wang / Yiren Song / Sheng Zhou / Liangcheng Li / Jiajun Bu
原文:   [英文]   [中文]  
备注: Code and Demo link: this https URL
摘要:
电影音频描述(AD)旨在通过在无对话片段中叙述视觉内容,特别是为盲人和视障观众提供帮助。与一般视频字幕相比,AD需要与剧情相关的叙述,并明确提及角色名称,这在电影中提出了独特的挑战。为了识别活跃的主要角色并关注与故事情节相关的区域,我们提出了FocusedAD,这是一种提供以角色为中心的电影音频描述的新框架。它包括:(i) 一个角色感知模块(CPM),用于跟踪角色区域并将其与名称关联;(ii) 一个动态先验模块(DPM),通过可学习的软提示注入来自先前AD和字幕的上下文线索;以及(iii) 一个聚焦字幕模块(FCM),生成富含剧情相关细节和命名角色的叙述。为了克服角色识别的局限性,我们还引入了一个自动化流程来构建角色查询库。FocusedAD在多个基准测试中实现了最先进的性能,包括在MAD-eval-Named和我们新提出的Cinepile-AD数据集上的强零样本结果。代码和数据将在此网址发布。

[75] CodingHomo: 利用视频编码自举深度单应性
标题: CodingHomo: Bootstrapping Deep Homography With Video Coding
作者: Yike Liu / Haipeng Li / Shuaicheng Liu / Bing Zeng
原文:   [英文]   [中文]  
备注: None
摘要:
单应性估计是计算机视觉中的一项基础任务,应用于多个领域。近年来,深度学习的进步提高了单应性估计的效果,特别是无监督学习方法,提供了更高的鲁棒性和泛化能力。然而,准确预测单应性,尤其是在复杂运动中,仍然是一个挑战。为此,本文提出了一种新颖的方法,利用视频编码,特别是通过利用视频中固有的运动矢量(MVs)。我们提出了CodingHomo,一个用于单应性估计的无监督框架。我们的框架具有一个掩码引导融合(MGF)模块,该模块识别并利用MVs中的有益特征,从而提高单应性预测的准确性。此外,还提出了掩码引导单应性估计(MGHE)模块,用于在由粗到细的单应性细化过程中消除不需要的特征。CodingHomo优于现有的最先进的无监督方法,提供了良好的鲁棒性和泛化能力。代码和数据集可在以下网址获取:\href{github}{this https URL}

[76] RADLER:利用语义3D城市模型和自监督雷达图像学习的雷达目标检测
标题: RADLER: Radar Object Detection Leveraging Semantic 3D City Models and Self-Supervised Radar-Image Learning
作者: Yuan Luo / Rudolf Hoffmann / Yan Xia / Olaf Wysocki / Benedikt Schwab / Thomas H. Kolbe / Daniel Cremers
原文:   [英文]  
备注: The paper accepted for CVPRW '25 (PBVS 2025 - the Perception Beyond the Visible Spectrum)
摘要:
语义3D城市模型在全球范围内易于获取,提供了精确、面向对象和语义丰富的3D先验知识。迄今为止,它们在减轻雷达目标检测中的噪声影响方面的潜力尚未得到充分探索。在本文中,我们首先介绍了一个独特的数据集RadarCity,该数据集包含54,000对同步的雷达图像对和语义3D城市模型。此外,我们提出了一种新颖的神经网络RADLER,利用对比自监督学习(SSL)和语义3D城市模型的有效性来增强行人、骑车人和汽车的雷达目标检测。具体来说,我们首先通过雷达图像的预训练任务中的SSL网络获取稳健的雷达特征。然后,我们使用一种简单而有效的特征融合策略来结合来自语义3D城市模型的语义深度特征。在具有先验3D信息的指导下,RADLER获得了更细粒度的细节以增强雷达目标检测。我们在收集的RadarCity数据集上对RADLER进行了广泛评估,并展示了在平均精度(mAP)上提高了5.46%和在平均召回率(mAR)上提高了3.51%的效果,优于之前的雷达目标检测方法。我们相信这项工作将促进关于语义引导和地图支持的雷达目标检测的进一步研究。我们的项目页面可在https://gppthis http URL上公开获取。

[77] 面向通用零样本合成低光图像和视频处理流程
标题: Towards a General-Purpose Zero-Shot Synthetic Low-Light Image and Video Pipeline
作者: Joanne Lin / Crispian Morris / Ruirui Lin / Fan Zhang / David Bull / Nantheera Anantrasirichai
原文:   [英文]   [中文]  
备注: None
摘要:
低光条件对人类和机器标注都构成了重大挑战。这导致了对低光图像和(尤其是)视频的机器理解研究的缺乏。常见的方法是将从高质量数据集获得的标注应用于合成创建的低光版本。此外,这些方法通常由于使用不现实的噪声模型而受到限制。在本文中,我们提出了一种新的退化估计网络(DEN),它可以在不需要相机元数据的情况下合成生成现实的标准RGB(sRGB)噪声。这是通过估计物理信息噪声分布的参数来实现的,并以自监督的方式进行训练。这种零样本方法使我们的方法能够生成具有多样化现实噪声特性的合成噪声内容,与其他方法专注于重现训练数据的噪声特性不同。我们使用各种方法评估我们提出的合成管道,这些方法在其合成数据上进行训练,用于典型的低光任务,包括合成噪声复制、视频增强和目标检测,分别显示出高达24% KLD、21% LPIPS和62% AP$_{50-95}$的改进。

[78] CoMotion:多人的并发3D动作
标题: CoMotion: Concurrent Multi-person 3D Motion
作者: Alejandro Newell / Peiyun Hu / Lahav Lipson / Stephan R. Richter / Vladlen Koltun
原文:   [英文]   [中文]  
备注: Accepted at ICLR 2025, for code and weights go to this https URL
摘要:
我们介绍了一种从单个单目摄像机流中检测和跟踪多个人详细3D姿态的方法。我们的系统在充满困难姿态和遮挡的拥挤场景中保持时间上的一致预测。我们的模型不仅进行强大的逐帧检测,还通过学习的姿态更新来跟踪从一帧到另一帧的人。与其在时间上匹配检测结果,姿态是直接从新的输入图像更新的,这使得通过遮挡进行在线跟踪成为可能。我们在众多图像和视频数据集上进行训练,利用伪标注的注释,生成一个在3D姿态估计准确性上与最先进的系统相匹配的模型,同时在时间上跟踪多个人时更快且更准确。代码和权重可以在这个https URL上获取。

[79] 超越补丁:挖掘可解释的部分原型以实现可解释的人工智能
标题: Beyond Patches: Mining Interpretable Part-Prototypes for Explainable AI
作者: Mahdi Alehdaghi / Rajarshi Bhattacharya / Pourya Shamsolmoali / Rafael M.O. Cruz / Maguelonne Heritier / Eric Granger
原文:   [英文]  
备注: None
摘要:
深度学习为多媒体系统提供了显著的进步,但深度模型的可解释性仍然是一个挑战。最先进的事后解释方法,如GradCAM,基于热图提供视觉解释,但缺乏概念上的清晰性。基于原型的方法,如ProtoPNet和PIPNet,提供了更结构化的解释,但依赖于固定的补丁,限制了其鲁棒性和语义一致性。 为了解决这些限制,提出了一种部分原型概念挖掘网络(PCMNet),该网络从有意义的区域动态学习可解释的原型。PCMNet将原型聚类到概念组中,创建语义上有依据的解释,而无需额外的注释。通过无监督部分发现和概念激活向量提取的联合过程,PCMNet有效地捕捉了辨别性概念,并做出可解释的分类决策。 我们在多个数据集上进行的广泛实验将PCMNet与最先进的方法进行比较,结果表明它在干净和遮挡场景下能够提供高水平的可解释性、稳定性和鲁棒性。

[80] 通过ISP驱动的数据建模实现逼真的低光图像增强
标题: Towards Realistic Low-Light Image Enhancement via ISP Driven Data Modeling
作者: Zhihua Wang / Yu Long / Qinghua Lin / Kai Zhang / Yazhu Zhang / Yuming Fang / Li Liu / Xiaochun Cao
原文:   [英文]   [中文]  
备注: 17 pages, 11 tables, 10 figures
摘要:
深度神经网络(DNNs)最近已成为低光图像增强(LLIE)的主流方法。然而,尽管取得了显著进展,其输出在实际应用中仍可能出现放大噪声、错误的白平衡或不自然的增强等问题。一个关键挑战是缺乏多样化的大规模训练数据,这些数据能够捕捉低光条件和成像流程的复杂性。在本文中,我们提出了一种新颖的图像信号处理(ISP)驱动的数据合成流程,通过生成无限的配对训练数据来应对这些挑战。具体来说,我们的流程从易于收集的高质量正常光图像开始,首先通过反向ISP将其转换为RAW格式。然后,我们直接在RAW域中合成低光退化。生成的数据随后经过一系列ISP阶段处理,包括白平衡调整、色彩空间转换、色调映射和伽马校正,并在每个阶段引入受控的变化。这拓宽了退化空间并增强了训练数据的多样性,使生成的数据能够捕捉到广泛的退化和ISP流程中固有的复杂性。为了证明我们合成流程的有效性,我们使用一个仅由卷积层、组归一化、GeLU激活和卷积块注意模块(CBAMs)组成的基础UNet模型进行了广泛实验。对多个数据集的广泛测试表明,使用我们的数据合成流程训练的基础UNet模型提供了高保真、视觉上令人满意的增强结果,在定量和定性上均超越了最先进的方法(SOTA)。

[81] 不确定性引导的粗到细肿瘤分割与解剖感知后处理
标题: Uncertainty-Guided Coarse-to-Fine Tumor Segmentation with Anatomy-Aware Post-Processing
作者: Ilkin Sevgi Isler / David Mohaisen / Curtis Lisle / Damla Turgut / Ulas Bagci
原文:   [英文]   [中文]  
备注: 6 pages, 2 figures, to appear in IEEE ADSCA 2025
摘要:
在胸部计算机断层扫描(CT)中进行可靠的肿瘤分割仍然具有挑战性,因为存在边界模糊、类别不平衡和解剖结构变化的问题。我们提出了一种不确定性引导的粗到细分割框架,该框架结合了全体积肿瘤定位与精细的感兴趣区域(ROI)分割,并通过解剖学感知的后处理进行增强。第一阶段模型生成粗略预测,然后根据肺重叠、与肺表面的接近程度以及组件大小进行解剖学信息过滤。生成的ROI由第二阶段模型进行分割,该模型通过不确定性感知损失函数进行训练,以提高在模糊区域的准确性和边界校准。在私有和公共数据集上的实验显示了Dice和Hausdorff分数的改进,减少了误报并增强了空间可解释性。这些结果突出了在级联分割管道中结合不确定性建模和解剖学先验的价值,以实现稳健且临床意义重大的肿瘤描绘。在Orlando数据集上,我们的框架将Swin UNETR的Dice从0.4690提高到0.6447。虚假组件的减少与分割增益强烈相关,强调了解剖学信息后处理的价值。

[82] 基于编码先验引导的扩散网络用于视频去模糊
标题: Coding-Prior Guided Diffusion Network for Video Deblurring
作者: Yike Liu / Jianhui Zhang / Haipeng Li / Shuaicheng Liu / Bing Zeng
原文:   [英文]   [中文]  
备注: None
摘要:
尽管最近的视频去模糊方法取得了显著进展,但它们往往忽视了两个有价值的先验信息:(1)来自视频编解码器的运动矢量(MVs)和编码残差(CRs),它们提供了高效的帧间对齐线索,以及(2)预训练扩散生成模型中嵌入的丰富的现实世界知识。我们提出了CPGDNet,这是一种新颖的两阶段框架,能够有效利用编码先验和生成扩散先验来实现高质量的去模糊。首先,我们的编码先验特征传播(CPFP)模块利用MVs进行高效的帧对齐,并使用CRs生成注意力掩码,以解决运动不准确和纹理变化的问题。其次,编码先验控制生成(CPC)模块网络将编码先验整合到预训练的扩散模型中,引导其增强关键区域并合成逼真的细节。实验表明,我们的方法在感知质量上达到了最先进的水平,IQA指标提高了多达30%。代码和编码先验增强的数据集都将开源。

[83] 眼镜蛇:利用更广泛的参考进行高效线稿上色
标题: Cobra: Efficient Line Art COlorization with BRoAder References
作者: Junhao Zhuang / Lingen Li / Xuan Ju / Zhaoyang Zhang / Chun Yuan / Ying Shan
原文:   [英文]   [中文]  
备注: Project page with code: this https URL
摘要:
漫画制作行业需要基于参考的线稿上色,要求高精度、高效率、上下文一致性和灵活的控制。一本漫画页通常涉及多样化的人物、物体和背景,这使得上色过程变得复杂。尽管扩散模型在图像生成方面取得了进展,但它们在线稿上色中的应用仍然有限,面临处理大量参考图像、推理耗时和灵活控制等挑战。我们研究了广泛的上下文图像指导对线稿上色质量的必要性。为了解决这些挑战,我们引入了Cobra,这是一种高效且多功能的方法,支持颜色提示并利用超过200张参考图像,同时保持低延迟。Cobra的核心是一个因果稀疏DiT架构,它利用专门设计的位置编码、因果稀疏注意力和键值缓存来有效管理长上下文参考,并确保颜色身份的一致性。结果表明,Cobra通过广泛的上下文参考实现了精确的线稿上色,显著提高了推理速度和交互性,从而满足了关键的工业需求。我们在项目页面上发布了我们的代码和模型:这个https URL。

[84] SIDME:通过掩码编码器-解码器重建的自监督图像去摩尔纹
标题: SIDME: Self-supervised Image Demoiréing via Masked Encoder-Decoder Reconstruction
作者: Xia Wang / Haiyang Sun / Tiantian Cao / Yueying Sun / Min Feng
原文:   [英文]  
备注: 21 pages, 13 figures
摘要:
莫尔条纹是由于物体光信号与相机采样频率之间的混叠而产生的,常常在拍摄过程中降低图像质量。传统的去莫尔化方法通常将图像作为一个整体进行处理和训练,忽视了不同颜色通道的独特信号特性。此外,莫尔条纹生成的随机性和变化性在应用于真实世界数据时对现有方法的鲁棒性构成了挑战。为了解决这些问题,本文提出了SIDME(通过掩码编码器-解码器重建进行自监督图像去莫尔化),这是一种旨在通过有效处理莫尔条纹来生成高质量视觉图像的新模型。SIDME结合了掩码编码器-解码器架构与自监督学习,使模型能够利用相机采样频率的固有特性来重建图像。一个关键创新是随机掩码图像重建器,它利用编码器-解码器结构来处理重建任务。此外,由于相机采样中的绿色通道相比红色和蓝色通道具有更高的采样频率,设计了一种专门的自监督损失函数以提高训练效率和效果。为了确保模型的泛化能力,开发了一种自监督莫尔图像生成方法,以生成一个与真实世界条件紧密模拟的数据集。大量实验表明,SIDME在处理真实莫尔条纹数据方面优于现有方法,显示出其卓越的泛化性能和鲁棒性。

[85] 面向人类对齐压缩的鲁棒模型
标题: Human Aligned Compression for Robust Models
作者: Samuel Räber / Andreas Plesner / Till Aczel / Roger Wattenhofer
原文:   [英文]   [中文]  
备注: Presented at the Workshop AdvML at CVPR 2025
摘要:
对图像模型的对抗攻击通过引入不可察觉的扰动来导致错误的预测,从而威胁系统的鲁棒性。我们研究了与人类对齐的有损压缩作为一种防御机制,比较了两种学习模型(HiFiC 和 ELIC)与传统 JPEG 在不同质量水平下的表现。我们在 ImageNet 子集上的实验表明,学习压缩方法优于 JPEG,特别是在 Vision Transformer 架构中,通过保留语义上有意义的内容同时去除对抗性噪声。即使在攻击者可以访问防御的白盒设置中,这些方法仍然保持了显著的有效性。我们还表明,顺序压缩——应用多轮压缩/解压缩——显著增强了防御效果,同时保持了分类性能。我们的研究结果表明,与人类对齐的压缩提供了一种有效且计算效率高的防御,保护了对人类和机器理解最相关的图像特征。这为提高模型对抗对抗性威胁的鲁棒性提供了一种实用的方法。

[86] FLIP推理挑战
标题: FLIP Reasoning Challenge
作者: Andreas Plesner / Turlan Kuzhagaliyev / Roger Wattenhofer
原文:   [英文]   [中文]  
备注: Published at First Workshop on Open Science for Foundation Models at ICLR 2025
摘要:
近年来,人工智能(AI)的进步展示了AI如何解决许多感知和生成任务,例如图像分类和文本写作,但推理仍然是一个挑战。本文介绍了FLIP数据集,这是一个基于Idena区块链上的人类验证任务来评估AI推理能力的基准。FLIP挑战向用户展示两组4张图片的排序,要求他们识别出逻辑上连贯的一组。通过强调顺序推理、视觉叙事和常识,FLIP为多模态AI系统提供了一个独特的测试平台。我们的实验评估了最先进的模型,利用了视觉-语言模型(VLMs)和大型语言模型(LLMs)。结果显示,即使是最好的开源和闭源模型在零样本设置中分别达到75.5%和77.9%的最高准确率,而人类表现为95.3%。字幕模型通过提供图像的文本描述来帮助推理模型,产生比直接使用原始图像更好的结果,Gemini 1.5 Pro的准确率为69.6%对比75.2%。结合15个模型的预测形成一个集成,准确率提高到85.2%。这些发现突出了现有推理模型的局限性以及像FLIP这样的强大多模态基准的必要性。完整的代码库和数据集将在此https URL上提供。

[87] VGDFR:基于扩散的视频生成与动态潜在帧率
标题: VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate
作者: Zhihang Yuan / Rui Xie / Yuzhang Shang / Hanling Zhang / Siyuan Wang / Shengen Yan / Guohao Dai / Yu Wang
原文:   [英文]   [中文]  
备注: None
摘要:
扩散变压器(DiT)基础的生成模型在视频生成方面取得了显著成功。然而,它们固有的计算需求带来了显著的效率挑战。在本文中,我们利用真实视频的固有时间非均匀性,观察到视频表现出动态信息密度,高运动片段需要比静态场景更高的细节保留。受这种时间非均匀性的启发,我们提出了VGDFR,一种用于基于扩散的视频生成的动态潜在帧率的无训练方法。VGDFR根据潜在空间内容的运动频率自适应地调整潜在空间中的元素数量,使用较少的标记来处理低频段,同时在高频段保留细节。具体来说,我们的主要贡献是:(1)一种用于DiT视频生成的动态帧率调度器,自适应地为视频片段分配帧率。(2)一种新颖的潜在空间帧合并方法,在合并低分辨率空间中冗余的帧之前,将潜在表示与其去噪对应物对齐。(3)对DiT层中旋转位置嵌入(RoPE)的偏好分析,提供了一种优化的RoPE策略,以优化语义和局部信息捕获。实验表明,VGDFR可以在视频生成中实现最高3倍的加速,同时质量下降最小。

[88] 朝着学习在激光雷达中完成任何任务的方向
标题: Towards Learning to Complete Anything in Lidar
作者: Ayca Takmaz / Cristiano Saltori / Neehar Peri / Tim Meinhardt / Riccardo de Lutio / Laura Leal-Taixé / Aljoša Ošep
原文:   [英文]  
备注: None
摘要:
我们提出了CAL(Complete Anything in Lidar),用于野外环境中的基于激光雷达的形状补全。这与基于激光雷达的语义/全景场景补全密切相关。然而,当代方法只能补全和识别现有激光雷达数据集中标记的封闭词汇中的对象。与此不同的是,我们的零样本方法利用多模态传感器序列的时间上下文来挖掘观察到的对象的形状和语义特征。然后,这些特征被提炼成一个仅基于激光雷达的实例级补全和识别模型。尽管我们只挖掘了部分形状补全,但我们发现我们的提炼模型学会了从数据集中多个这样的部分观察中推断完整的对象形状。我们展示了我们的模型可以在语义和全景场景补全的标准基准上进行提示,定位对象为(非模态)3D边界框,并识别超出固定类别词汇的对象。我们的项目页面是这个https URL。

[89] 超越重建:基于物理的神经延迟着色器用于照片级真实感渲染
标题: Beyond Reconstruction: A Physics Based Neural Deferred Shader for Photo-realistic Rendering
作者: Zhuo He / Paul Henderson / Nicolas Pugeault
原文:   [英文]   [中文]  
备注: None
摘要:
基于深度学习的渲染在照片级真实感图像合成方面展示了显著的改进,适用于包括电影中的视觉效果和视频游戏中的照片级真实感场景构建在内的各种应用。然而,一个显著的限制是难以分解光照和材质参数,这限制了此类方法在重建输入场景时无法控制这些参数。本文介绍了一种新颖的基于物理的神经延迟着色管道,以分解数据驱动的渲染过程,学习一个可推广的着色函数,以生成照片级真实感的着色和重新照明任务的结果,我们还提供了一个阴影估计器,以高效地模拟阴影效果。与经典模型和一种最新的神经着色模型相比,我们的模型实现了性能的提升,并能够从任意光照输入中实现可推广的照片级真实感着色。

[90] 第十届NTIRE 2025图像去噪挑战赛报告
标题: The Tenth NTIRE 2025 Image Denoising Challenge Report
作者: Lei Sun / Hang Guo / Bin Ren / Luc Van Gool / Radu Timofte / Yawei Li / Xiangyu Kong / Hyunhee Park / Xiaoxuan Yu / Suejin Han / Hakjae Jeon / Jia Li / Hyung-Ju Chun / Donghun Ryou / Inju Ha / Bohyung Han / Jingyu Ma / Zhijuan Huang / Huiyuan Fu / Hongyuan Yu / Boqi Zhang / Jiawei Shi / Heng Zhang / Huadong Ma / Deepak Kumar Tyagi / Aman Kukretti / Gajender Sharma / Sriharsha Koundinya / Asim Manna / Jun Cheng / Shan Tan / Jun Liu / Jiangwei Hao / Jianping Luo / Jie Lu / Satya Narayan Tazi / Arnim Gautam / Aditi Pawar / Aishwarya Joshi / Akshay Dudhane / Praful Hambadre / Sachin Chaudhary / Santosh Kumar Vipparthi / Subrahmanyam Murala / Jiachen Tu / Nikhil Akalwadi / Vijayalaxmi Ashok Aralikatti / Dheeraj Damodar Hegde / G Gyaneshwar Rao / Jatin Kalal / Chaitra Desai / Ramesh Ashok Tabib / Uma Mudenagudi / Zhenyuan Lin / Yubo Dong / Weikun Li / Anqi Li / Ang Gao / Weijun Yuan / Zhan Li / Ruting Deng / Yihang Chen / Yifan Deng / Zhanglu Chen / Boyang Yao / Shuling Zheng / Feng Zhang / Zhiheng Fu / Anas M. Ali / Bilel Benjdira / Wadii Boulila / Jan Seny / Pei Zhou / Jianhua Hu / K. L. Eddie Law / Jaeho Lee / M. J. Aashik Rasool / Abdur Rehman / SMA Sharif / Seongwan Kim / Alexandru Brateanu / Raul Balmez / Ciprian Orhei / Cosmin Ancuti / Zeyu Xiao / Zhuoyuan Li / Ziqi Wang / Yanyan Wei / Fei Wang / Kun Li / Shengeng Tang / Yunkai Zhang / Weirun Zhou / Haoxuan Lu
原文:   [英文]  
备注: None
摘要:
本文概述了NTIRE 2025图像去噪挑战赛({\sigma} = 50),重点介绍了所提出的方法及其相应结果。主要目标是开发一种能够实现高质量去噪性能的网络架构,并通过PSNR进行定量评估,而不受计算复杂性或模型大小的限制。该任务假设独立的加性白高斯噪声(AWGN),噪声水平固定为50。共有290名参与者注册了该挑战赛,其中20个团队成功提交了有效结果,提供了当前图像去噪领域的最新技术见解。

[91] 我该怎么做?合成日常互动的3D手部动作和接触
标题: How Do I Do That? Synthesizing 3D Hand Motion and Contacts for Everyday Interactions
作者: Aditya Prakash / Benjamin Lundell / Dmitry Andreychuk / David Forsyth / Saurabh Gupta / Harpreet Sawhney
原文:   [英文]   [中文]  
备注: CVPR 2025, Project page: this https URL
摘要:
我们解决了一个新颖的问题,即在给定单个RGB视图、动作文本和对象上的3D接触点作为输入的情况下预测3D手部运动和接触图(或交互轨迹)。我们的方法包括:(1) 交互代码簿:一个VQVAE模型,用于学习手部姿势和接触点的潜在代码簿,有效地将交互轨迹进行标记;(2) 交互预测器:一个transformer解码器模块,通过使用索引模块从学习到的代码簿中检索潜在的可供性来预测测试时输入的交互轨迹。为了训练我们的模型,我们开发了一个数据引擎,从多样化的HoloAssist数据集中提取3D手部姿势和接触轨迹。我们在一个基准上评估我们的模型,该基准在观察到的对象和交互的多样性方面比现有工作大2.5-10倍,并测试模型在对象类别、动作类别、任务和场景中的泛化能力。实验结果显示,在所有设置中,我们的方法在transformer和扩散基线之上表现出有效性。

[92] SHeaP:通过二维高斯学习的自监督头部几何预测器
标题: SHeaP: Self-Supervised Head Geometry Predictor Learned via 2D Gaussians
作者: Liam Schoneveld / Zhe Chen / Davide Davoli / Jiapeng Tang / Saimon Terazawa / Ko Nishino / Matthias Nießner
原文:   [英文]   [中文]  
备注: For video demonstrations and additional materials please see this https URL
摘要:
从单目图像和视频中进行准确的实时3D人头重建是众多视觉应用的基础。由于3D真实数据难以大规模获取,以往的方法尝试通过丰富的2D视频以自监督的方式进行学习。通常,这涉及使用可微分的网格渲染,这种方法有效但存在局限性。为了改进这一点,我们提出了SHeaP(通过2D高斯学习的自监督头部几何预测器)。给定一个源图像,我们预测一个3DMM网格和一组与该网格绑定的高斯。然后,我们重新动画化这个绑定的头部头像以匹配目标帧,并将光度损失反向传播到3DMM和高斯预测网络。我们发现使用高斯进行渲染显著提高了这种自监督方法的有效性。仅在2D数据上进行训练,我们的方法在NoW基准测试中对中性面孔的几何评估以及一个新的非中性表情基准测试中超越了现有的自监督方法。我们的方法还生成了高度表现力的网格,在情感分类方面优于最新技术。