![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年7月22日更新论文141篇
|
[1] 三维图像数据镶嵌拟合算法的比较分析 标题: Comparative Analysis of Algorithms for the Fitting of Tessellations to 3D Image Data 作者: Andreas Alpers / Orkun Furat / Christian Jung / Matthias Neumann / Claudia Redenbach / Aigerim Saken / Volker Schmidt 原文: [英文] [中文] 备注: 31 pages, 16 figures, 8 tables 摘要: 本文对拟合镶嵌模型到材料(如多晶体和泡沫)的三维图像数据的算法策略进行了比较分析。在这个不断发展的领域中,我们回顾并评估了基于优化的方法——包括线性和非线性规划、通过交叉熵方法的随机优化以及梯度下降——用于生成近似基于体素的晶粒结构的Voronoi、Laguerre和广义平衡功率图(GBPDs)。通过量化晶粒体积、表面积和拓扑差异的差异度量,我们在真实数据集上评估了拟合质量。我们的结果突出了模型复杂性、所涉及的优化程序的复杂性以及近似质量之间的权衡,为根据数据特征和应用需求选择合适的方法提供了指导。 |
[2] 基于语义分割的自动驾驶车辆场景理解 标题: Semantic Segmentation based Scene Understanding in Autonomous Vehicles 作者: Ehsan Rassekh 原文: [英文] 备注: 74 pages, 35 figures, Master's Thesis, Institute for Advanced Studies in Basic Sciences (IASBS), Zanjan, Iran, 2023 摘要: 近年来,人工智能(AI)的概念成为一个显著的关键词,因为它在解决复杂任务方面展现出很大的潜力。在某些特定领域中对人类专业知识的需求可能不再必要,因为机器通过人工智能已经取得了成功的成果,并能够在关键情况下做出正确的决策。这一过程得以实现是借助于深度学习(DL),这是一种最受欢迎的人工智能技术之一。深度学习的应用领域之一是自动驾驶汽车的开发,这一领域非常有效且重要。在这项工作中,我们提出了几种高效的模型,通过语义分割来研究场景理解。我们使用BDD100k数据集来研究这些模型。此项工作的另一个贡献是使用多种骨干网络作为模型的编码器。获得的结果表明,选择合适的骨干网络对模型在语义分割中的性能有很大影响。语义分割性能的提升使我们能够更好地理解代理周围的场景和环境。最后,我们从准确性、平均交并比(mean IoU)和损失函数等方面分析和评估了所提出的模型,结果表明这些指标得到了改善。 |
[3] CLIPTTA: 强健的对比视觉语言测试时适应 标题: CLIPTTA: Robust Contrastive Vision-Language Test-Time Adaptation 作者: Marc Lafon / Gustavo Adolfo Vargas Hakim / Clément Rambour / Christian Desrosier / Nicolas Thome 原文: [英文] [中文] 备注: None 摘要: 像CLIP这样的视觉-语言模型(VLMs)表现出强大的零样本能力,但在分布变化下往往难以泛化。测试时适应(TTA)允许模型在推理时无需标注数据进行更新,通常通过熵最小化实现。然而,这一目标与VLMs的对比图像-文本训练根本不一致,限制了适应性能,并引入了伪标签漂移和类别崩溃等失败模式。我们提出了CLIPTTA,一种新的基于梯度的视觉-语言模型测试时适应方法,利用与CLIP预训练目标一致的软对比损失。我们提供了CLIPTTA梯度的理论分析,展示了其批量感知设计如何减轻崩溃风险。我们进一步将CLIPTTA扩展到开放集环境,在这种环境中会遇到分布内(ID)和分布外(OOD)样本,使用异常对比曝光(OCE)损失来改善OOD检测。在评估的75个数据集上,CLIPTTA在各种分布变化中始终优于基于熵的目标,并且在与最先进的TTA方法竞争时表现出色,在大量数据集上超越它们,并在各种变化中表现出更稳定的性能。 |
[4] 广义类别发现中的一个隐藏绊脚石:分散的注意力 标题: A Hidden Stumbling Block in Generalized Category Discovery: Distracted Attention 作者: Qiyu Xu / Zhanxuan Hu / Yu Duan / Ercheng Pei / Yonghang Tai 原文: [英文] 备注: None 摘要: 广义类别发现(GCD)旨在通过利用已知类别的标注知识,对来自已知和未知类别的未标注数据进行分类。尽管现有方法取得了显著进展,但它们往往忽视了GCD中的一个隐藏障碍:注意力分散。具体来说,在处理未标注数据时,模型不仅关注图像中的关键对象,还关注与任务无关的背景区域,导致特征提取效果不佳。为了解除这一障碍,我们提出了注意力聚焦(AF),这是一种自适应机制,旨在通过修剪无信息的标记来增强模型的关注度。AF由两个简单而有效的组件组成:标记重要性测量(TIME)和标记自适应修剪(TAP),以级联方式工作。TIME在多个尺度上量化标记的重要性,而TAP则利用TIME提供的多尺度重要性分数修剪无信息的标记。AF是一个轻量级的、即插即用的模块,可以无缝集成到现有的GCD方法中,计算开销极小。当集成到一个著名的GCD方法SimGCD中时,AF在计算开销极小的情况下,相较于基线实现了高达15.4%的性能提升。实现代码在此https URL中提供。 |
[5] 幻觉评分:旨在缓解生成图像超分辨率中的幻觉问题 标题: Hallucination Score: Towards Mitigating Hallucinations in Generative Image Super-Resolution 作者: Weiming Ren / Raghav Goyal / Zhiming Hu / Tristan Ty Aumentado-Armstrong / Iqbal Mohomed / Alex Levinshtein 原文: [英文] [中文] 备注: 12 pages, 17 figures and 7 tables 摘要: 生成超分辨率(GSR)目前在感知图像质量方面处于最先进的水平,克服了先前非生成模型的“均值回归”模糊。然而,从人类的角度来看,这些模型并未完全达到质量与保真度之间的最佳平衡。相反,生成的细节未能在感知上与低分辨率图像(LRI)或真实图像(GTI)匹配的另一类伪影是GSR中的一个关键但未充分研究的问题,限制了其实际应用。在这项工作中,我们专注于测量、分析和减轻这些伪影(即“幻觉”)。我们观察到幻觉无法通过现有的图像度量或质量模型很好地表征,因为它们与精确保真度和无参考质量都是正交的。相反,我们通过构建一个评估幻觉视觉元素并生成“幻觉评分”(HS)的提示来利用多模态大型语言模型(MLLM)。我们发现我们的HS与人类评估紧密一致,并为先前用于超分辨率(SR)模型的图像度量提供了补充见解。此外,我们发现某些深度特征距离与HS有很强的相关性。因此,我们建议使用这些特征作为可微分奖励函数来调整GSR模型,以减轻幻觉。 |
[6] DUSTrack:超声视频中的半自动点跟踪 标题: DUSTrack: Semi-automated point tracking in ultrasound videos 作者: Praneeth Namburi / Roger Pallarès-López / Jessica Rosendorf / Duarte Folgado / Brian W. Anthony 原文: [英文] 备注: None 摘要: 超声波技术能够安全、无创地成像动态组织行为,使其成为医学、生物力学和运动科学中的宝贵工具。然而,由于散斑噪声、低边缘对比度和平面外运动,准确跟踪 B 模式超声中的组织运动仍然具有挑战性。这些挑战使得随着时间推移跟踪解剖标志变得复杂,而这对于在许多临床和研究应用中量化组织动态至关重要。本文介绍了 DUSTrack(基于深度学习和光流的超声跟踪工具包),这是一个用于在 B 模式超声视频中跟踪任意点的半自动化框架。我们结合深度学习和光流技术,提供高质量且稳健的跟踪,适用于多种解剖结构和运动模式。该工具包包括一个图形用户界面,简化了高质量训练数据的生成,并支持迭代模型优化。它还实现了一种新颖的基于光流的滤波技术,能够在保留快速组织运动的同时减少帧间高频噪声。DUSTrack 展现出优于当代零样本点跟踪器的精度,并且与专门方法表现相当,确立了其作为临床和生物力学研究通用和基础工具的潜力。我们通过三个用例展示了 DUSTrack 的多功能性:超声心动图中的心脏壁运动跟踪、到达任务期间的肌肉变形分析以及踝关节跖屈期间的肌束跟踪。作为一个开源解决方案,DUSTrack 提供了一个强大而灵活的框架,用于从超声视频中跟踪点以量化组织运动。DUSTrack 可在此 https URL 获取。 |
[7] CRAFT:一种用于视觉功能可供性基础的神经符号框架 标题: CRAFT: A Neuro-Symbolic Framework for Visual Functional Affordance Grounding 作者: Zhou Chen / Joe Lin / Sathyanarayanan N. Aakur 原文: [英文] [中文] 备注: Accepted to NeSy 2025 摘要: 我们介绍了CRAFT,这是一种用于可解释的可供性基础的神经符号框架,它识别场景中能够执行给定动作(例如“切割”)的对象。CRAFT将来自ConceptNet和语言模型的结构化常识先验与来自CLIP的视觉证据相结合,使用基于能量的推理循环来迭代地优化预测。这个过程产生透明的、目标驱动的决策,以实现符号和感知结构的基础。在多对象、无标签的环境中进行的实验表明,CRAFT在提高准确性的同时改善了解释性,为实现稳健和可信的场景理解迈出了一步。 |
[8] 自适应三维高斯点视频流传输 标题: Adaptive 3D Gaussian Splatting Video Streaming 作者: Han Gong / Qiyue Li / Zhi Liu / Hao Zhou / Peng Yuan Zhou / Zhu Li / Jie Li 原文: [英文] [中文] 备注: None 摘要: 3D高斯喷溅(3DGS)的出现显著提升了体积视频表示的质量。然而,与传统体积视频相比,3DGS视频在流媒体传输方面面临重大挑战,因为其数据量大幅增加,且压缩和传输的复杂性更高。为了解决这些问题,我们引入了一种创新的3DGS体积视频流媒体框架。具体来说,我们设计了一种基于高斯变形场的3DGS视频构建方法。通过采用混合显著性切片和3DGS视频的差异化质量建模,我们在确保高传输质量的同时,实现了高效的数据压缩和对带宽波动的适应。随后,我们构建了一个完整的3DGS视频流媒体系统,并验证了其传输性能。通过实验评估,我们的方法在视频质量、压缩效果和传输速率等各个方面均优于现有方法。 |
[9] IRGPT:通过大规模基准上的双跨模态课程理解真实世界红外图像 标题: IRGPT: Understanding Real-world Infrared Image with Bi-cross-modal Curriculum on Large-scale Benchmark 作者: Zhe Cao / Jin Zhang / Ruiheng Zhang 原文: [英文] 备注: 11 pages, 7 figures. This paper is accepted by ICCV 2025 摘要: 现实世界的红外图像由于缺乏对齐的文本数据和特定领域的特征,对视觉-语言模型提出了独特的挑战。尽管现有方法在该领域取得了进展,但它们依赖于通过风格迁移从可见图像生成的合成红外图像,这限制了它们捕捉红外模态独特特征的能力。为了解决这个问题,我们提出了IRGPT,这是第一个针对现实世界红外图像的多模态大型语言模型,基于一个大规模的红外-文本数据集(IR-TD),该数据集包含超过26万对真实图像-文本对。所提出的IR-TD数据集包含真实的红外图像与精心手工制作的文本配对,其中初稿来源于两个互补的过程:(1)由大型语言模型生成的可见图像描述,以及(2)基于规则的注释描述。此外,我们引入了一种双交叉模态课程迁移学习策略,通过考虑红外-可见和红外-文本的难度评分,系统地将知识从可见域转移到红外域。在9项任务(例如识别、定位)的基准测试中进行评估时,IRGPT即使与更大规模的模型相比,也实现了最先进的性能。 |
[10] GPI-Net:通过正交几何一致性进行鲁棒点云配准的格式塔引导并行交互网络 标题: GPI-Net: Gestalt-Guided Parallel Interaction Network via Orthogonal Geometric Consistency for Robust Point Cloud Registration 作者: Weikang Gu / Mingyue Han / Li Xue / Heng Dong / Changcai Yang / Riqing Chen / Lifang Wei 原文: [英文] [中文] 备注: 9 pages, 4 figures. Accepted to IJCAI 2025 摘要: 高质量对应关系的准确识别是基于特征的点云配准中的一个先决任务。然而,由于特征冗余和复杂的空间关系,处理局部和全局特征的融合极具挑战性。鉴于格式塔原理在分析局部和全局关系中提供了关键优势,我们在本文中提出了一种通过正交几何一致性的格式塔引导并行交互网络(GPI-Net)。它利用格式塔原理促进局部和全局信息之间的互补交流。具体而言,我们引入了一种正交集成策略,以最佳方式减少冗余信息,并为高质量对应关系生成更紧凑的全局结构。为了捕捉对应关系中的几何特征,我们通过自注意力和交叉注意力机制的混合利用,引入了格式塔特征注意力(GFA)模块。此外,为了促进局部细节信息与全局结构的整合,我们设计了一种创新的双路径多粒度并行交互聚合(DMG)模块,以促进不同粒度间的信息交换。在各种具有挑战性的任务上进行的大量实验表明,我们提出的GPI-Net在性能上优于现有方法。代码将在此https URL上发布。 |
[11] 自适应3D高斯点视频流:视觉显著性感知的分块和基于元学习的码率自适应 标题: Adaptive 3D Gaussian Splatting Video Streaming: Visual Saliency-Aware Tiling and Meta-Learning-Based Bitrate Adaptation 作者: Han Gong / Qiyue Li / Jie Li / Zhi Liu 原文: [英文] [中文] 备注: None 摘要: 3D 高斯散点视频(3DGS)流媒体最近在学术界和工业界成为研究热点,因为它在提供沉浸式3D视频体验方面表现出色。然而,该领域的研究仍处于早期阶段,诸如切片、质量评估和码率自适应等几个基本挑战需要进一步研究。在本文中,我们通过提出一套全面的解决方案来应对这些挑战。具体而言,我们提出了一种由显著性分析引导的自适应3DGS切片技术,该技术整合了空间和时间特征。每个切片被编码成具有专用变形场和多个质量级别的版本,以便进行自适应选择。我们还引入了一种新颖的3DGS视频质量评估框架,该框架在流媒体过程中联合评估3DGS表示中的空间域退化以及生成的2D渲染图像的质量。此外,我们开发了一种基于元学习的自适应码率算法,专门为3DGS视频流媒体量身定制,在不同网络条件下实现最佳性能。大量实验表明,我们提出的方法显著优于最先进的方法。 |
[12] GEMINUS:面向端到端自动驾驶的双重感知全局与场景自适应专家混合模型 标题: GEMINUS: Dual-aware Global and Scene-Adaptive Mixture-of-Experts for End-to-End Autonomous Driving 作者: Chi Wan / Yixin Cui / Jiatong Du / Shuo Yang / Yulong Bai / Yanjun Huang 原文: [英文] [中文] 备注: None 摘要: 端到端自动驾驶需要适应性和鲁棒性来处理复杂多样的交通环境。然而,普遍的单模式规划方法试图学习整体策略,却难以获得多样化的驾驶技能以应对不同场景。因此,本文提出了GEMINUS,一种专家混合的端到端自动驾驶框架,具有全局专家、场景自适应专家组,并配备双感知路由器。具体来说,全局专家在整体数据集上进行训练,具有鲁棒性能。场景自适应专家在相应的场景子集上进行训练,实现自适应性能。双感知路由器同时考虑场景级特征和路由不确定性,以动态激活专家模块。通过双感知路由器有效耦合全局专家和场景自适应专家组,GEMINUS在多样化场景中实现了自适应和鲁棒性能。GEMINUS在Bench2Drive闭环基准测试中优于现有方法,并在驾驶评分和成功率方面实现了最先进的性能,即使仅使用单目视觉输入。此外,消融研究显示与原始单专家基线相比有显著提升:驾驶评分提高了7.67%,成功率提高了22.06%,多能力均值提高了19.41%。代码将在此https URL上提供。 |
[13] VisGuard:通过防篡改数据检索保护可视化传播 标题: VisGuard: Securing Visualization Dissemination through Tamper-Resistant Data Retrieval 作者: Huayuan Ye / Juntong Chen / Shenzhuo Zhang / Yipeng Zhang / Changbo Wang / Chenhui Li 原文: [英文] [中文] 备注: 9 pages, IEEE VIS 2025 摘要: 可视化的传播主要以光栅图像的形式进行,这通常导致关键信息的丢失,如源代码、交互功能和元数据。虽然之前的方法提出了将元数据嵌入图像中以促进可视化图像数据检索(VIDR),但大多数现有方法缺乏实用性,因为它们在在线分发过程中容易受到常见图像篡改(如裁剪和编辑)的影响。为了解决这个问题,我们提出了VisGuard,这是一种防篡改的VIDR框架,可以可靠地将元数据链接嵌入到可视化图像中。即使在图像经过大量篡改后,嵌入的数据链接仍然可以恢复。我们提出了几种增强鲁棒性的技术,包括重复数据平铺、可逆信息广播和基于锚点的裁剪定位方案。VisGuard支持多种应用,包括交互式图表重建、篡改检测和版权保护。我们进行了全面的实验,验证了VisGuard在数据检索准确性、嵌入容量以及抵抗篡改和隐写分析方面的优越性能,展示了VisGuard在促进和保护可视化传播及信息传递方面的能力。 |
[14] OptiCorNet:优化基于序列的上下文相关性用于视觉位置识别 标题: OptiCorNet: Optimizing Sequence-Based Context Correlation for Visual Place Recognition 作者: Zhenyu Li / Tianyi Shang / Pengjie Xu / Ruirui Zhang / Fanchen Kong 原文: [英文] [中文] 备注: 5 figures 摘要: 在动态和感知混淆的环境中进行视觉地点识别(VPR)仍然是长期定位的一个基本挑战。现有的基于深度学习的解决方案主要关注单帧嵌入,忽视了图像序列中存在的时间一致性。本文提出了OptiCorNet,这是一种新颖的序列建模框架,将空间特征提取和时间差分统一到一个可微的、端到端可训练的模块中。我们的方法的核心是一个轻量级的1D卷积编码器,结合了一个可学习的差分时间算子,称为可微序列差分(DSD),它共同捕捉短期空间上下文和长期时间过渡。DSD模块通过一个固定权重的差分核对序列进行方向性差分建模,随后进行基于LSTM的细化和可选的残差投影,生成紧凑的、具有辨别力的描述符,能够抵抗视角和外观变化。为了进一步增强类间可分性,我们引入了一个四元组损失,在每个批次中优化正对齐和多负发散。与将时间聚合视为后处理的先前VPR方法不同,OptiCorNet直接学习序列级嵌入,从而实现更有效的端到端地点识别。在多个公共基准上的全面评估表明,我们的方法在具有挑战性的季节和视角变化下优于最先进的基线。 |
[15] DFQ-ViT:无需微调的视觉Transformer数据无损量化 标题: DFQ-ViT: Data-Free Quantization for Vision Transformers without Fine-tuning 作者: Yujia Tong / Jingling Yuan / Tian Zhang / Jianquan Liu / Chuang Hu 原文: [英文] 备注: None 摘要: 无数据量化(DFQ)使得视觉变换器(ViTs)的量化无需访问数据,从而可以在资源有限的设备上部署ViTs。在DFQ中,量化模型必须使用合成样本进行校准,因此这些合成样本的质量至关重要。现有方法未能充分捕捉和平衡样本中的全局和局部特征,导致合成数据质量有限。此外,我们发现,在推理过程中,量化模型和全精度模型的中间层激活分布存在显著差异。这些问题导致量化模型的性能严重下降。为了解决这些问题,我们提出了一种用于视觉变换器的无数据量化(DFQ-ViT)流程。具体来说,我们按难度递增的顺序合成样本,有效提高合成数据的质量。在校准和推理阶段,我们为量化模型引入激活校正矩阵,以使中间层激活与全精度模型对齐。大量实验表明,DFQ-ViT在现有DFQ方法中表现出显著的优越性,其性能与通过真实数据量化的模型相当。例如,DeiT-T在3位权重量化下的性能比最先进的方法高出4.29%。我们的方法消除了微调的需要,这不仅减少了计算开销,还降低了边缘设备的部署障碍。这一特性通过提高能源效率和促进资源受限环境中的实际应用,符合绿色学习的原则。 |
[16] 从参考中获益:检索增强的跨模态点云补全 标题: Benefit from Reference: Retrieval-Augmented Cross-modal Point Cloud Completion 作者: Hongye Hou / Liu Zhan / Yang Yang 原文: [英文] [中文] 备注: None 摘要: 基于不完整点云完成整个3D结构是一项具有挑战性的任务,尤其是当剩余点云缺乏典型的结构特征时。最近基于跨模态学习的方法尝试引入实例图像来辅助结构特征学习。然而,它们仍然专注于每个特定的输入类别,限制了它们的生成能力。在这项工作中,我们提出了一种新颖的检索增强点云完成框架。核心思想是将跨模态检索融入完成任务中,从相似的参考样本中学习结构先验信息。具体来说,我们设计了一个结构共享特征编码器(SSFE),以联合提取跨模态特征并重建参考特征作为先验。得益于编码器中的双通道控制门,参考样本中的相关结构特征得到了增强,而不相关的信息干扰被抑制。此外,我们提出了一种渐进式检索增强生成器(PRAG),采用分层特征融合机制,将参考先验信息与输入特征从全局到局部进行整合。通过在多个数据集和真实场景中的广泛评估,我们的方法显示了其在生成细粒度点云方面的有效性,以及在处理稀疏数据和未见类别时的泛化能力。 |
[17] 通过标记压缩实现高效的全片病理学视觉问答 标题: Efficient Whole Slide Pathology VQA via Token Compression 作者: Weimin Lyu / Qingqiao Hu / Kehan Qi / Zhan Shi / Wentao Huang / Saumya Gupta / Chao Chen 原文: [英文] 备注: None 摘要: 病理学中的全切片图像(WSI)可以达到10,000 x 10,000像素,这对多模态大语言模型(MLLM)来说,由于上下文长度长和计算需求高,带来了显著的挑战。以往的方法通常集中于使用基于CLIP的模型进行多实例学习的补丁级分析或切片级分类,但它们缺乏视觉问答(VQA)所需的生成能力。最近的基于MLLM的方法通过将数千个补丁标记直接输入语言模型来解决VQA问题,这导致了过度的资源消耗。为了解决这些限制,我们提出了Token Compression Pathology LLaVA(TCP-LLaVA),这是第一个通过标记压缩执行WSI VQA的MLLM架构。TCP-LLaVA引入了一组可训练的压缩标记,通过模态压缩模块聚合视觉和文本信息,灵感来自于BERT中的[CLS]标记机制。只有压缩后的标记被传递给LLM进行答案生成,从而显著减少了输入长度和计算成本。在十个TCGA肿瘤亚型上的实验表明,TCP-LLaVA在VQA准确性上优于现有的MLLM基线,同时大幅减少了训练资源消耗。 |
[18] 基于事件的法向流的运动分割和自运动估计 标题: Motion Segmentation and Egomotion Estimation from Event-Based Normal Flow 作者: Zhiyuan Hua / Dehao Yuan / Cornelia Fermüller 原文: [英文] [中文] 备注: None 摘要: 本文介绍了一种使用基于事件的法向流进行运动分割和自运动估计的稳健框架,专为神经形态视觉传感器设计。与传统方法严重依赖光流或显式深度估计不同,我们的方法利用稀疏的高时间分辨率事件数据,并结合法向流、场景结构和惯性测量之间的几何约束。所提出的基于优化的流程通过事件过分割迭代执行,通过残差分析隔离独立运动的物体,并使用由运动相似性和时间一致性指导的层次聚类来细化分割。在EVIMO2v2数据集上的实验结果验证了我们的方法在不需要完整光流计算的情况下实现了准确的分割和平移运动估计。该方法在物体边界处表现出显著优势,并为可扩展的实时机器人和导航应用提供了巨大的潜力。 |
[19] 前馈式3D重建与视图合成的进展:综述 标题: Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey 作者: Jiahui Zhang / Yuelei Li / Anpei Chen / Muyu Xu / Kunhao Liu / Jianyuan Wang / Xiao-Xiao Long / Hanxue Liang / Zexiang Xu / Hao Su / Christian Theobalt / Christian Rupprecht / Andrea Vedaldi / Hanspeter Pfister / Shijian Lu / Fangneng Zhan 原文: [英文] [中文] 备注: A project page associated with this survey is available at this https URL 摘要: 3D重建和视图合成是计算机视觉、图形学以及增强现实(AR)、虚拟现实(VR)和数字孪生等沉浸式技术中的基础性问题。传统方法依赖于复杂链条中的计算密集型迭代优化,限制了其在现实场景中的适用性。最近,受深度学习驱动的前馈方法的进步彻底改变了这一领域,使得快速且具有普适性的3D重建和视图合成成为可能。本文综述了用于3D重建和视图合成的前馈技术,并根据其底层表示架构进行分类,包括点云、3D高斯散射(3DGS)、神经辐射场(NeRF)等。我们研究了关键任务,如无姿态重建、动态3D重建以及3D感知的图像和视频合成,强调了它们在数字人、SLAM、机器人等领域的应用。此外,我们还回顾了常用数据集的详细统计信息,以及各种下游任务的评估协议。最后,我们讨论了开放的研究挑战和未来工作的有前景方向,强调了前馈方法在推动3D视觉领域技术进步中的潜力。 |
[20] DCHM:用于多视图检测的深度一致性人体建模 标题: DCHM: Depth-Consistent Human Modeling for Multiview Detection 作者: Jiahao Ma / Tianyu Wang / Miaomiao Liu / David Ahmedt-Aristizabal / Chuong Nguyen 原文: [英文] [中文] 备注: multi-view detection, sparse-view reconstruction 摘要: 多视角行人检测通常包括两个阶段:人体建模和行人定位。人体建模通过融合多视角信息在三维空间中表示行人,其质量对检测准确性至关重要。然而,现有方法通常会引入噪声且精度较低。虽然一些方法通过拟合昂贵的多视角三维标注来减少噪声,但它们往往难以在不同场景中泛化。为了消除对人工标注的依赖并准确建模人类,我们提出了深度一致性人体建模(DCHM),这是一个旨在实现全局坐标中一致深度估计和多视角融合的框架。具体来说,我们提出的管道通过超像素级的高斯喷洒在稀疏视角、大规模和拥挤场景中实现多视角深度一致性,生成精确的点云用于行人定位。大量验证表明,我们的方法在人体建模过程中显著减少了噪声,优于之前的最先进基线。此外,据我们所知,DCHM是第一个在如此具有挑战性的环境中重建行人并执行多视角分割的方法。代码可在项目页面上获取。 |
[21] ArtiMuse:结合评分与专家级理解的细粒度图像美学评估 标题: ArtiMuse: Fine-Grained Image Aesthetics Assessment with Joint Scoring and Expert-Level Understanding 作者: Shuo Cao / Nan Ma / Jiayang Li / Xiaohui Li / Lihao Shao / Kaiwen Zhu / Yu Zhou / Yuandong Pu / Jiarui Wu / Jiaquan Wang / Bo Qu / Wenhai Wang / Yu Qiao / Dajuin Yao / Yihao Liu 原文: [英文] [中文] 备注: 43 pages, 31 figures, 13 tables 摘要: 随着教育应用、艺术创作和人工智能生成内容(AIGC)技术的快速发展,对全面的图像美学评估(IAA)的实际需求显著增加,特别是需要能够提供定量评分和专业理解的方法。基于多模态大语言模型(MLLM)的IAA方法相比传统方法展示了更强的感知和泛化能力,但它们存在模态偏差(仅评分或仅文本)且缺乏细粒度的属性分解,因此无法支持进一步的美学评估。在本文中,我们提出:(1)ArtiMuse,一种创新的基于MLLM的IAA模型,具备联合评分和专家级理解能力;(2)ArtiMuse-10K,第一个由专家策划的图像美学数据集,包含10,000张图像,涵盖5个主要类别和15个子类别,每张图像由专业专家进行8维属性分析和整体评分。我们将公开该模型和数据集以推动该领域的发展。 |
[22] 视频会议中手语手势的实时字幕生成 标题: Real Time Captioning of Sign Language Gestures in Video Meetings 作者: Sharanya Mukherjee / Md Hishaam Akhtar / Kannadasan R 原文: [英文] [中文] 备注: 7 pages, 2 figures, 1 table, Presented at ICCMDE 2021 摘要: 与听力障碍人士进行交流一直是一项相当艰巨的任务。建立这种交流的最常用方法之一是使用基于手语的语言。然而,许多人并不了解手语中涉及的细微差别。利用计算机视觉进行手语识别旨在消除聋哑人与普通人之间的沟通障碍,以便他们能够与他人正常交流。最近,疫情使整个世界震动,并改变了我们的交流方式。视频会议已成为每个人的必需品,即使是有听力障碍的人。在最近的研究中发现,有听力障碍的人在这些视频通话中更喜欢使用手语而不是打字。在本文中,我们提出了一种浏览器扩展程序,该程序将自动将手语翻译为视频通话中其他人的字幕。我们将使用一个大型数据集,其中包含由100多名手语者表演的2000多个单词级别的美国手语视频。 |
[23] 多模态人工智能在胃肠道诊断中的应用:应对MEDVQA-GI 2025中的视觉问答 标题: Multimodal AI for Gastrointestinal Diagnostics: Tackling VQA in MEDVQA-GI 2025 作者: Sujata Gaihre / Amir Thapa Magar / Prasuna Pokharel / Laxmi Tiwari 原文: [英文] [中文] 备注: accepted to ImageCLEF 2025, to be published in the lab proceedings 摘要: 本文描述了我们在 ImageCLEFmed MEDVQA 2025 挑战赛的子任务 1 中的方法,该任务针对胃肠内镜的视觉问答(VQA)。我们采用 Florence 模型——一个大规模多模态基础模型——作为我们 VQA 流水线的骨干,将强大的视觉编码器与文本编码器配对,以解读内镜图像并生成临床相关的答案。为了提高泛化能力,我们应用了领域特定的增强技术,这些技术在增加训练多样性的同时保留了医学特征。在 KASVIR 数据集上的实验表明,微调 Florence 可以在官方挑战指标上产生准确的响应。我们的结果突显了大型多模态模型在医学 VQA 中的潜力,并为未来在可解释性、鲁棒性和临床整合方面的工作提供了一个强有力的基线。代码可在以下网址公开获取:this https URL |
[24] 在人工神经网络的感知边界上合成图像,以揭示人类对面部表情的感知差异 标题: Synthesizing Images on Perceptual Boundaries of ANNs for Uncovering Human Perceptual Variability on Facial Expressions 作者: Haotian Deng / Chi Zhang / Chen Wei / Quanying Liu 原文: [英文] [中文] 备注: Accepted by IJCNN 2025 摘要: 情感认知科学中的一个基本挑战是开发能够准确捕捉外部情感刺激与人类内在体验之间关系的模型。虽然人工神经网络(ANNs)在面部表情识别方面表现出显著的准确性,但其在模拟人类感知的个体差异方面的能力仍未得到充分探索。本研究调查了高感知变异现象——即使在观看相同刺激时,个体在情感分类上表现出显著差异。受ANNs与人类感知之间相似性的启发,我们假设对于ANN分类器来说模糊的面部表情样本也会在人类观察者中引发不同的感知判断。为了检验这一假设,我们引入了一种新颖的感知边界采样方法,以生成位于ANN决策边界上的面部表情刺激。这些模糊样本构成了varEmotion数据集的基础,该数据集通过大规模人类行为实验构建。我们的分析表明,这些令ANN困惑的刺激也在人类参与者中引发了更高的感知不确定性,突出了情感感知中的共同计算原则。最后,通过使用行为数据微调ANN表示,我们实现了ANN预测与群体层面和个体层面人类感知模式之间的一致性。我们的研究结果建立了ANN决策边界与人类感知变异性之间的系统联系,为情感解释的个性化建模提供了新的见解。 |
[25] 通过多目标分析进行摄影指导中的杂乱检测与去除 标题: Clutter Detection and Removal by Multi-Objective Analysis for Photographic Guidance 作者: Xiaoran Wu 原文: [英文] [中文] 备注: None 摘要: 照片中的杂乱是摄影师传达预期情感或故事给观众的障碍。摄影爱好者常常由于无意识的疏忽或缺乏创造一个整洁、美观的拍摄场景的经验而在照片中包含杂乱。因此,我们受到启发开发一个相机指导系统,提供识别和去除杂乱的解决方案和指导。我们估计并可视化物体对照片整体美感和内容的贡献,用户可以基于此交互式地识别杂乱。系统提供去除杂乱的建议,以及一个计算去除杂乱物体的工具,以指导用户处理不同类型的杂乱并改善他们的摄影作品。我们的系统中有两项技术创新支撑交互:一个带有物体美学评估的杂乱区分算法,以及一个基于生成对抗网络的迭代图像修复算法,用于重建高分辨率图像中被移除物体的缺失区域。用户研究表明,我们的系统提供了灵活的界面和准确的算法,使用户能够更好地识别干扰,并在更短的时间内拍摄出更高质量的图像。 |
[26] Descrip3D:通过对象级文本描述增强基于大型语言模型的3D场景理解 标题: Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions 作者: Jintang Xue / Ganning Zhao / Jie-En Yao / Hong-En Chen / Yue Hu / Meida Chen / Suya You / C.-C. Jay Kuo 原文: [英文] [中文] 备注: None 摘要: 理解三维场景不仅仅是识别物体;它需要推理物体之间的空间和语义关系。目前的三维场景语言模型在这种关系理解上常常表现不佳,特别是在仅靠视觉嵌入无法充分传达物体的角色和交互时。在本文中,我们介绍了Descrip3D,这是一种新颖而强大的框架,能够使用自然语言显式编码物体之间的关系。与之前仅依赖于二维和三维嵌入的方法不同,Descrip3D通过文本描述增强每个物体,捕捉其内在属性和上下文关系。这些关系线索通过双层集成方式融入模型:嵌入融合和提示级注入。这使得模型能够在各种任务中进行统一推理,如定位、描述生成和问答,而无需特定任务的头部或额外的监督。在五个基准数据集上的评估中,包括ScanRefer、Multi3DRefer、ScanQA、SQA3D和Scan2Cap,Descrip3D始终优于强基线模型,展示了语言引导的关系表示在理解复杂室内场景中的有效性。 |
[27] LEAD:探索对数空间演化以进行模型选择 标题: LEAD: Exploring Logit Space Evolution for Model Selection 作者: Zixuan Hu / Xiaotong Li / Shixiang Tang / Jun Liu / Yichun Hu / Ling-Yu Duan 原文: [英文] [中文] 备注: Accepted by CVPR 2024 摘要: 预训练-微调范式的显著成功导致了大量可用于视觉任务的预训练模型的出现。这一激增带来了一个重大挑战,即如何高效地选择最适合下游任务的预训练模型。这个挑战的关键在于通过考虑潜在的微调动态来有效预测模型的可迁移性。现有方法通常在特征空间中使用线性变换来建模微调动态,这与微调目标不完全一致,未能把握优化中的基本非线性。为此,我们提出了LEAD,一种基于网络输出logits的微调对齐方法。LEAD提出了一个理论框架来建模优化过程,并推导出一个常微分方程(ODE)来描述向最终logit状态的非线性演变。此外,我们设计了一种类感知分解方法,以考虑不同类别的演变动态,并进一步确保其实用性。通过结合与优化目标紧密对齐的非线性建模能力,我们的方法提供了一种简洁的解决方案,可以在单步中有效弥合优化差距,绕过冗长的微调过程。在24个监督和自监督预训练模型上进行的全面实验,涵盖10个下游数据集,展示了令人印象深刻的性能,并展示了其在低数据场景下的广泛适应性。 |
[28] 基准测试GANs、扩散模型和流匹配用于T1w到T2w MRI转换 标题: Benchmarking GANs, Diffusion Models, and Flow Matching for T1w-to-T2w MRI Translation 作者: Andrea Moschetto / Lemuel Puglisi / Alec Sargood / Pierluigi Dell'Acqua / Francesco Guarnera / Sebastiano Battiato / Daniele Ravì 原文: [英文] 备注: None 摘要: 磁共振成像(MRI)能够获取多种图像对比度,例如T1加权(T1w)和T2加权(T2w)扫描,每种对比度都提供了不同的诊断见解。然而,获取所有所需的模态会增加扫描时间和成本,这促使人们研究跨模态合成的计算方法。为了解决这个问题,最近的方法旨在从已获取的模态中合成缺失的MRI对比度,从而减少获取时间,同时保持诊断质量。图像到图像(I2I)翻译为这一任务提供了一个有前景的框架。在本文中,我们对生成模型进行了全面的基准测试——具体来说,生成对抗网络(GANs)、扩散模型和流匹配(FM)技术——用于T1w到T2w的2D MRI I2I翻译。所有框架均在可比的设置下实现,并在三个公开可用的健康成人MRI数据集上进行评估。我们的定量和定性分析表明,基于GAN的Pix2Pix模型在结构保真度、图像质量和计算效率方面优于基于扩散和FM的方法。与现有文献一致,这些结果表明基于流的模型容易在小数据集和简单任务上过拟合,可能需要更多数据才能匹配或超越GAN的性能。这些发现为在实际MRI工作流程中部署I2I翻译技术提供了实用指导,并为未来跨模态医学图像合成研究指明了有前景的方向。代码和模型可在此https URL公开获取。 |
[29] 使用 TensorFlow Keras、PyTorch 和 JAX 的医学图像分类系统性能比较 标题: Performance comparison of medical image classification systems using TensorFlow Keras, PyTorch, and JAX 作者: Merjem Bećirović / Amina Kurtović / Nordin Smajlović / Medina Kapo / Amila Akagić 原文: [英文] [中文] 备注: None 摘要: 医学影像在早期疾病诊断和监测中起着至关重要的作用。具体来说,血液显微镜检查为血细胞形态和血液疾病的检测提供了宝贵的见解。近年来,基于深度学习的自动分类系统在提高血液图像分析的准确性和效率方面展示了巨大的潜力。然而,针对特定深度学习框架的详细性能分析似乎仍然不足。本文比较了三个流行的深度学习框架——TensorFlow与Keras、PyTorch和JAX——在分类来自公开可用的BloodMNIST数据集的血细胞图像时的性能。研究主要关注推理时间的差异,但也包括不同图像大小的分类性能。结果显示,不同框架的性能存在差异,受图像分辨率和框架特定优化等因素的影响。JAX和PyTorch的分类准确性与当前基准相当,展示了这些框架在医学图像分类中的效率。 |
[30] DiSCO-3D:从 NeRF 中的开放词汇查询中发现和分割子概念 标题: DiSCO-3D : Discovering and segmenting Sub-Concepts from Open-vocabulary queries in NeRF 作者: Doriand Petit / Steve Bourgeois / Vincent Gay-Bellile / Florian Chabot / Loïc Barthe 原文: [英文] 备注: Published at ICCV'25 摘要: 3D语义分割为机器人、自主系统等应用提供了高级场景理解。传统方法通常仅适应于特定任务目标(开放词汇分割)或场景内容(无监督语义分割)。我们提出了DiSCO-3D,这是第一个解决3D开放词汇子概念发现这一更广泛问题的方法,旨在提供一种既能适应场景又能响应用户查询的3D语义分割。我们在神经场表示的基础上构建了DiSCO-3D,将无监督分割与弱开放词汇引导相结合。我们的评估表明,DiSCO-3D在开放词汇子概念发现中表现出色,并在开放词汇和无监督分割的边缘案例中展示了最先进的结果。 |
[31] Exp-Graph:图形表达识别中连接如何学习面部属性 标题: Exp-Graph: How Connections Learn Facial Attributes in Graph-based Expression Recognition 作者: Nandani Sharma / Dinesh Singh 原文: [英文] [中文] 备注: None 摘要: 面部表情识别对于人机交互应用至关重要,例如面部动画、视频监控、情感计算、医学分析等。由于面部属性的结构会随着面部表情的变化而变化,将结构信息融入面部属性对于面部表情识别至关重要。在本文中,我们提出了Exp-Graph,这是一种新颖的框架,旨在通过基于图的建模来表示面部属性之间的结构关系,以进行面部表情识别。对于面部属性的图表示,面部标志被用作图的顶点。同时,边缘是根据面部标志的接近程度和使用视觉变换器编码的面部属性的局部外观相似性来确定的。此外,图卷积网络被用来捕捉和整合这些结构依赖性到面部属性的编码中,从而提高表情识别的准确性。因此,Exp-Graph从面部属性图中学习到高度表达的语义表示。另一方面,视觉变换器和图卷积模块帮助框架利用面部属性之间的局部和全局依赖性,这对于面部表情的识别至关重要。我们在三个基准数据集上对提出的Exp-Graph模型进行了全面评估:Oulu-CASIA、eNTERFACE05和AFEW。该模型分别实现了98.09%、79.01%和56.39%的识别准确率。这些结果表明,Exp-Graph在受控实验室环境和现实世界的非受限环境中都保持了强大的泛化能力,强调了其在实际面部表情识别应用中的有效性。 |
[32] 用于医学对象跟踪和分割的深度可分膨胀卷积适配器:使用Segment Anything Model 2 标题: Depthwise-Dilated Convolutional Adapters for Medical Object Tracking and Segmentation Using the Segment Anything Model 2 作者: Guoping Xu / Christopher Kabat / You Zhang 原文: [英文] 备注: 24 pages, 6 figures 摘要: 最近,医学图像分割的进展主要由深度学习推动;然而,大多数现有方法仍然受限于特定模态的设计,并且在动态医学成像场景中表现出较差的适应性。Segment Anything Model 2 (SAM2)及其相关变体引入了一种用于实时视频分割的流式记忆机制,为基于提示的通用解决方案提供了新的机会。然而,将这些模型适应于医学视频场景通常需要大规模数据集进行再训练或迁移学习,这导致了高计算成本和灾难性遗忘的风险。为了解决这些挑战,我们提出了DD-SAM2,这是一种针对SAM2的高效适应框架,结合了深度可分离膨胀适配器(DD-Adapter),以最小的参数开销增强多尺度特征提取。该设计使得在有限的训练数据下对医学视频进行有效的SAM2微调成为可能。与现有仅专注于静态图像的适配器方法不同,DD-SAM2充分利用了SAM2的流式记忆用于医学视频对象跟踪和分割。在TrackRad2025(肿瘤分割)和EchoNet-Dynamic(左心室跟踪)数据集上的全面评估显示出卓越的性能,分别实现了0.93和0.97的Dice分数。据我们所知,这项工作首次系统地探索了基于适配器的SAM2微调在医学视频分割和跟踪中的应用。代码、数据集和模型将在此https URL上公开提供。 |
[33] BusterX++:迈向统一的跨模态AI生成内容检测与解释,结合多模态大语言模型(MLLM) 标题: BusterX++: Towards Unified Cross-Modal AI-Generated Content Detection and Explanation with MLLM 作者: Haiquan Wen / Tianxiao Li / Zhenglin Huang / Yiwei He / Guangliang Cheng 原文: [英文] [中文] 备注: None 摘要: 最近生成式人工智能的进步极大地提升了图像和视频合成的能力,显著增加了通过复杂的虚假内容传播错误信息的风险。作为回应,检测方法已经从传统方法发展到多模态大语言模型(MLLMs),在识别合成媒体方面提供了更高的透明度和可解释性。然而,当前的检测系统由于其单一模态设计而存在根本性的局限性。这些方法分别分析图像或视频,使其在面对结合多种媒体格式的合成内容时无效。为了解决这些挑战,我们引入了\textbf{BusterX++},一个专为跨模态检测和解释合成媒体而设计的新框架。我们的方法结合了一种先进的强化学习(RL)后训练策略,消除了冷启动问题。通过多阶段训练、思维奖励和混合推理,BusterX++实现了稳定且显著的性能提升。为了实现全面评估,我们还提出了\textbf{GenBuster++},一个利用最先进的图像和视频生成技术的跨模态基准。该基准包括4000张图像和视频片段,由人类专家使用一种新颖的过滤方法精心策划,以确保高质量、多样性和现实世界的适用性。大量实验表明了我们方法的有效性和普遍适用性。 |
[34] 多光谱状态空间特征融合:桥接共享和跨参数交互以进行目标检测 标题: Multispectral State-Space Feature Fusion: Bridging Shared and Cross-Parametric Interactions for Object Detection 作者: Jifeng Shen / Haibo Zhan / Shaohua Dong / Xin Zuo / Wankou Yang / Haibin Ling 原文: [英文] [中文] 备注: submitted on 30/4/2025, Under Major Revision 摘要: 现代多光谱特征融合在目标检测中面临两个关键限制:(1)过度偏向局部互补特征而非跨模态共享语义,影响了泛化性能;(2)感受野大小与计算复杂度之间的权衡成为可扩展特征建模的关键瓶颈。为了解决这些问题,提出了一种新颖的多光谱状态空间特征融合框架,称为MS2Fusion,该框架基于状态空间模型(SSM),通过双路径参数交互机制实现高效且有效的融合。更具体地说,第一个跨参数交互分支继承了跨注意力在挖掘互补信息方面的优势,通过SSM中的跨模态隐藏状态解码。第二个共享参数分支通过SSM中的参数共享,利用联合嵌入探索跨模态对齐,以获得跨模态相似的语义特征和结构。最后,这两个路径与SSM共同优化,以在统一框架中融合多光谱特征,使我们的MS2Fusion能够同时享有功能互补性和共享语义空间。在包括FLIR、M3FD和LLVIP在内的主流基准上的广泛实验中,我们的MS2Fusion显著优于其他最先进的多光谱目标检测方法,证明了其优越性。此外,MS2Fusion具有通用性,适用于其他多光谱感知任务。我们展示了即使没有特定设计,MS2Fusion在RGB-T语义分割和RGBT显著目标检测上也能取得最先进的结果,显示了其通用性。源代码将在此https URL上提供。 |
[35] 人工智能驱动的跆拳道精准化:提升比赛的公平性、速度和信任(FST.ai) 标题: AI-Powered Precision in Sport Taekwondo: Enhancing Fairness, Speed, and Trust in Competition (FST.ai) 作者: Keivan Shariatmadar / Ahmad Osman 原文: [英文] [中文] 备注: 24 pages, 9 figures 摘要: 将人工智能(AI)整合到体育裁判中,代表了在竞争环境中决策方式的范式转变。即使有即时视频回放(IVR)支持,传统的人工系统往往因延迟、主观性和执行不一致而受到影响,从而削弱了公平性和运动员的信任。本文介绍了一个新颖的AI驱动框架,旨在提升跆拳道比赛中的裁判工作,特别是针对实时头部踢击检测和评分这一复杂任务。通过利用计算机视觉、深度学习和边缘推理,该系统自动识别和分类关键动作,将决策时间从几分钟显著缩短到几秒钟,同时提高了一致性和透明度。重要的是,这一方法不仅限于跆拳道。基于姿态估计、动作分类和冲击分析的基础框架可以适应需要动作检测的各种运动,如柔道、空手道、击剑,甚至是足球和篮球等团队运动,其中犯规识别或表现跟踪至关重要。通过解决跆拳道中最具挑战性的场景之一——头部踢击评分,我们展示了该框架在多个学科中改变裁判标准的稳健性、可扩展性和运动无关的潜力。 |
[36] 人工智能在食品工业中的应用:基于计算机视觉的食品浪费估算——大学食堂的简要案例研究 标题: Artificial Intelligence in the Food Industry: Food Waste Estimation based on Computer Vision, a Brief Case Study in a University Dining Hall 作者: Shayan Rokhva / Babak Teimourpour 原文: [英文] 备注: Questions & Recommendations: shayanrokhva1999@gmail.com; shayan1999rokh@yahoo.com 摘要: 在机构餐饮环境中量化消费者餐后食物浪费对于支持数据驱动的可持续发展策略至关重要。本研究提出了一种具有成本效益的计算机视觉框架,通过对用餐前后拍摄的RGB图像进行语义分割,估算盘级食物浪费,研究对象为五种伊朗菜肴。四种完全监督的模型(U-Net、U-Net++及其轻量级变体)使用封顶动态逆频率损失和AdamW优化器进行训练,然后通过一套全面的指标进行评估,包括像素准确率、Dice系数、IoU以及专门为该任务定制的分布像素一致性(DPA)指标。所有模型均表现出令人满意的性能,对于每种食物类型,至少有一个模型接近或超过90%的DPA,显示出在像素级比例估计上的高度一致性。参数较少的轻量级模型提供了更快的推理速度,在NVIDIA T4 GPU上实现了实时吞吐量。进一步分析显示,对于干燥和较硬的成分(如米饭和薯条),分割性能更优,而对于更复杂、碎片化或粘稠的菜肴,如炖菜,尤其是在食用后,性能有所下降。尽管存在诸如依赖二维成像、食物种类有限以及手动数据收集等限制,该框架具有开创性,代表了一种可扩展的、非接触式的解决方案,用于持续监测食物消费。本研究为大型食品服务环境中的自动化、实时废物跟踪系统奠定了基础,并为旨在减少机构食物浪费的餐厅管理者和政策制定者提供了可操作的见解和可行的未来方向。 |
[37] Gene-DML:基于组织病理学图像的基因表达预测的双路径多层次判别 标题: Gene-DML: Dual-Pathway Multi-Level Discrimination for Gene Expression Prediction from Histopathology Images 作者: Yaxuan Song / Jianan Fan / Hang Chang / Weidong Cai 原文: [英文] [中文] 备注: 16 pages, 15 tables, 8 figures 摘要: 从组织病理学图像中准确预测基因表达提供了一种可扩展且无创的分子分析方法,对精准医学和计算病理学具有重要意义。然而,现有方法往往未能充分利用组织病理学图像与基因表达谱在多个表示层次上的跨模态表示对齐,从而限制了其预测性能。为了解决这一问题,我们提出了Gene-DML,一个通过双路径多层次判别来构建潜在空间的统一框架,以增强形态学和转录模态之间的对应关系。多尺度实例级判别路径将局部、邻域和全局层次提取的分层组织病理学表示与基因表达谱对齐,捕捉具有尺度感知的形态-转录关系。同时,跨层次实例-组判别路径在个体(图像/基因)实例和模态交叉(基因/图像)组之间强制结构一致性,加强了跨模态的对齐。通过联合建模细粒度和结构层次的判别,Gene-DML能够学习稳健的跨模态表示,提高在不同生物学背景下的预测准确性和泛化能力。在公共空间转录组学数据集上的大量实验表明,Gene-DML在基因表达预测中达到了最先进的性能。代码和检查点将很快发布。 |
[38] Docopilot:提升文档级理解的多模态模型 标题: Docopilot: Improving Multimodal Models for Document-Level Understanding 作者: Yuchen Duan / Zhe Chen / Yusong Hu / Weiyun Wang / Shenglong Ye / Botian Shi / Lewei Lu / Qibin Hou / Tong Lu / Hongsheng Li / Jifeng Dai / Wenhai Wang 原文: [英文] 备注: None 摘要: 尽管多模态大型语言模型(MLLMs)取得了显著进展,但它们在复杂的多页文档理解方面的表现仍然不足,主要原因是缺乏高质量的文档级数据集。虽然当前的检索增强生成(RAG)方法提供了部分解决方案,但它们存在一些问题,如检索上下文的碎片化、多阶段错误积累以及检索的额外时间成本。在这项工作中,我们提出了一个高质量的文档级数据集Doc-750K,旨在支持对多模态文档的深入理解。该数据集包括多样化的文档结构、广泛的跨页依赖关系以及从原始文档中提取的真实问答对。在此数据集的基础上,我们开发了一种原生多模态模型Docopilot,该模型能够准确处理文档级依赖关系,而无需依赖RAG。实验表明,Docopilot在文档理解任务和多轮交互中实现了卓越的连贯性、准确性和效率,为文档级多模态理解设定了新的基准。数据、代码和模型已在此https URL发布。 |
[39] WSI-Agents:用于多模态全切片图像分析的协作多智能体系统 标题: WSI-Agents: A Collaborative Multi-Agent System for Multi-Modal Whole Slide Image Analysis 作者: Xinheng Lyu / Yuci Liang / Wenting Chen / Meidan Ding / Jiaqi Yang / Guolin Huang / Daokun Zhang / Xiangjian He / Linlin Shen 原文: [英文] [中文] 备注: None 摘要: 全片图像(WSIs)在数字病理学中至关重要,能够在各种病理任务中实现千兆像素级的组织分析。尽管最近在多模态大语言模型(MLLMs)方面的进展允许通过自然语言进行多任务WSI分析,但它们的表现往往不如特定任务的模型。协作多代理系统在医疗保健中已成为平衡多功能性和准确性的有前途的解决方案,但其在病理学特定领域的潜力仍未得到充分探索。为了解决这些问题,我们提出了WSI-Agents,这是一种用于多模态WSI分析的新型协作多代理系统。WSI-Agents通过三个组件集成了专门的功能代理以及强大的任务分配和验证机制,以增强特定任务的准确性和多任务的多功能性:(1)任务分配模块,使用补丁和WSI级别的MLLMs模型库将任务分配给专家代理,(2)验证机制,通过内部一致性检查和使用病理知识库及领域特定模型的外部验证来确保准确性,以及(3)总结模块,综合最终总结并提供视觉解释图。在多模态WSI基准上的广泛实验表明,WSI-Agents在各种任务中优于当前的WSI MLLMs和医疗代理框架。 |
[40] 从语义、场景到实例感知:蒸馏基础模型以实现开放词汇情境识别 标题: From Semantics, Scene to Instance-awareness: Distilling Foundation Model for Open-vocabulary Situation Recognition 作者: Chen Cai / Tianyi Liu / Jianjun Gao / Wenyang Liu / Kejun Wu / Ruoyu Wang / Yi Wang / Soo Chin Liew 原文: [英文] [中文] 备注: None 摘要: 最近的多模态大型语言模型(MLLMs)表现出强大的零样本能力,但在复杂的情境识别(GSR)方面表现不佳,并且在边缘设备部署时资源消耗较大。同时,传统的GSR模型通常缺乏泛化能力,在识别未见和罕见情境时表现不足。在本文中,我们通过将教师MLLM的知识转移到一个小型GSR模型中来增强其泛化和零样本能力,从而引入了开放词汇情境识别(Ov-GSR)任务。为实现这一目标,我们提出了多模态交互提示蒸馏(MIPD),这是一种新颖的框架,通过基础模型蒸馏丰富的多模态知识,使学生Ov-GSR模型能够识别未见情境,并更好地感知罕见情境。具体而言,MIPD框架首先利用基于LLM的判断性理由生成器(JRG)构建正面和负面的视角和凝视理由,这些理由富含上下文语义信息。然后引入场景感知和实例感知提示,通过负导向多模态提示对齐(NMPA)模块,将理由与来自MLLM教师的视觉信息对齐,有效捕捉整体和感知的多模态知识。最后,将对齐的多模态知识蒸馏到学生Ov-GSR模型中,为泛化提供更强的基础,增强情境理解,弥合已见和未见场景之间的差距,并减轻罕见情况下的预测偏差。我们在精炼的Ov-SWiG数据集上评估MIPD,在已见、罕见和未见情境上取得了优异的表现,并进一步在HICO-DET数据集上展示了改进的未见检测能力。 |
[41] GTPBD:精细化全球梯田地块和边界数据集 标题: GTPBD: A Fine-Grained Global Terraced Parcel and Boundary Dataset 作者: Zhiwei Zhang / Zi Ye / Yibin Wen / Shuai Yuan / Haohuan Fu / Jianxi Huang / Juepeng Zheng 原文: [英文] [中文] 备注: 38 pages, 18 figures, submitted to NeurIPS 2025 摘要: 农业地块是进行农业实践和应用的基本单位,对于土地所有权登记、粮食安全评估、土壤侵蚀监测等至关重要。然而,现有的农业地块提取研究仅关注中等分辨率的制图或规则的平原农田,而缺乏对复杂梯田地形的代表性,因为这需要更高的精度。在本文中,我们引入了一个更精细的梯田地块数据集,名为GTPBD(全球梯田地块和边界数据集),这是第一个覆盖全球主要梯田地区的精细数据集,包含超过20万个复杂梯田地块的人工标注。GTPBD由47,537张高分辨率图像组成,具有三级标签,包括像素级边界标签、掩码标签和地块标签。它覆盖了中国的七个主要地理区域和跨大陆的气候区域。与现有数据集相比,GTPBD数据集带来了相当大的挑战,原因在于:(1) 地形多样性;(2) 复杂和不规则的地块对象;(3) 多种领域风格。我们提出的GTPBD数据集适用于四种不同的任务,包括语义分割、边缘检测、梯田地块提取和无监督领域适应(UDA)。此外,我们在八种语义分割方法、四种边缘提取方法、三种地块提取方法和五种UDA方法上对GTPBD数据集进行了基准测试,并结合了一个多维度的评估框架,整合了像素级和对象级指标。GTPBD填补了梯田遥感研究中的一个关键空白,为精细农业地形分析和跨场景知识转移提供了基础设施。 |
[42] MultiRetNet:一种用于分期糖尿病视网膜病变的多模态视觉模型和推迟系统 标题: MultiRetNet: A Multimodal Vision Model and Deferral System for Staging Diabetic Retinopathy 作者: Jeannie She / Katie Spivakovsky 原文: [英文] [中文] 备注: None 摘要: 糖尿病视网膜病变(DR)是可预防失明的主要原因,影响全球超过1亿人。在美国,低收入社区的个人在确诊前面临更高的进展到晚期阶段的风险,这主要是由于筛查机会有限。合并症进一步加速了疾病的进展。我们提出了MultiRetNet,这是一种结合视网膜成像、社会经济因素和合并症状况的新型流程,以提高DR分期的准确性,并与临床推迟系统集成,实现临床人机协作的实施。我们尝试了三种多模态融合方法,并确定通过全连接层的融合是最通用的方法。我们合成对抗性、低质量的图像,并使用对比学习来训练推迟系统,引导模型识别需要临床医生审查的分布外样本。通过在次优图像上保持诊断准确性并整合关键健康数据,我们的系统可以改善早期检测,特别是在通常首次识别出晚期DR的服务不足人群中。这种方法可能降低医疗成本,提高早期检测率,并解决护理获取的不平等问题,促进医疗公平。 |
[43] InterAct-Video:面向城市交通的推理丰富视频问答 标题: InterAct-Video: Reasoning-Rich Video QA for Urban Traffic 作者: Joseph Raj Vishal / Rutuja Patil / Manas Srinivas Gowda / Katha Naik / Yezhou Yang / Bharatesh Chakravarthi 原文: [英文] [中文] 备注: None 摘要: 交通监控对于城市交通流动、道路安全和智能交通系统(ITS)至关重要。深度学习通过视频问答(VideoQA)模型推动了基于视频的交通监控,使得从交通视频中提取结构化洞察成为可能。然而,现有的VideoQA模型在处理现实世界交通场景的复杂性时表现不佳,因为在这些场景中,多个并发事件在时空维度上展开。为了解决这些挑战,本文介绍了\textbf{InterAct VideoQA},这是一个精心设计的数据集,旨在为交通监控任务的VideoQA模型提供基准和提升。InterAct VideoQA数据集包含8小时从不同交叉路口收集的真实交通录像,分割成10秒的视频片段,拥有超过25,000个问答(QA)对,涵盖时空动态、车辆交互、事件检测及其他关键交通属性。最先进的VideoQA模型在InterAct VideoQA上进行了评估,揭示了在复杂交通场景中推理细粒度时空依赖关系的挑战。此外,对这些模型在InterAct VideoQA上的微调显著提高了性能,证明了领域特定数据集对于VideoQA的必要性。InterAct VideoQA作为一个基准数据集公开提供,以促进未来在智能交通系统中可实际部署的VideoQA模型的研究。GitHub仓库:this https URL |
[44] LeAdQA:基于大型语言模型的上下文感知视频问答时间定位 标题: LeAdQA: LLM-Driven Context-Aware Temporal Grounding for Video Question Answering 作者: Xinxin Dong / Baoyun Peng / Haokai Ma / Yufei Wang / Zixuan Dong / Fei Hu / Xiaodong Wang 原文: [英文] [中文] 备注: None 摘要: 视频问答(VideoQA)需要在长视频中识别稀疏的关键时刻,并推理它们的因果关系,以回答语义复杂的问题。尽管多模态学习的最新进展改善了对齐和融合,但当前的方法仍然受到两种普遍但根本上有缺陷的策略的限制:(1)任务无关的采样不加区分地处理所有帧,使关键事件被无关内容淹没;(2)启发式检索捕捉到表面模式,但错过了复杂推理所需的因果-时间结构。为了解决这些挑战,我们引入了LeAdQA,这是一种通过协同因果感知的查询优化与细粒度视觉定位来弥合这些差距的创新方法。我们的方法首先利用大型语言模型(LLMs)重新构建问题-选项对,解决因果歧义并增强时间焦点。这些优化后的查询随后引导时间定位模型精确检索最显著的片段,并通过自适应融合机制动态整合证据以最大化相关性。集成的视觉-文本线索随后由多模态语言模型(MLLM)处理,以生成准确且具有上下文基础的答案。在NExT-QA、IntentQA和NExT-GQA上的实验表明,我们方法的精确视觉定位显著增强了对视频-问题关系的理解,在复杂推理任务上实现了最先进的(SOTA)性能,同时保持了计算效率。 |
[45] FOCUS:融合通道观测以揭示光谱 标题: FOCUS: Fused Observation of Channels for Unveiling Spectra 作者: Xi Xiao / Aristeidis Tsaris / Anika Tabassum / John Lagergren / Larry M. York / Tianyang Wang / Xiao Wang 原文: [英文] [中文] 备注: None 摘要: 高光谱成像(HSI)捕捉数百个狭窄且连续的波长带,使其成为生物学、农业和环境监测中的强大工具。然而,在这种背景下解释视觉变换器(ViTs)仍然基本未被探索,主要由于两个关键挑战:(1)现有的显著性方法难以捕捉有意义的光谱线索,通常将注意力集中在类别标记上;(2)由于HSI数据的高维特性,全光谱ViTs在可解释性方面计算成本过高。我们提出了FOCUS,这是第一个能够为冻结的ViTs提供可靠且高效的空间-光谱可解释性的框架。FOCUS引入了两个核心组件:类别特定的光谱提示,引导注意力集中在语义上有意义的波长组上,以及一个通过吸引损失训练的可学习[SINK]标记,用于吸收噪声或冗余的注意力。这些设计使得在单次前向传递中生成稳定且可解释的3D显著性图和光谱重要性曲线成为可能,无需任何梯度反向传播或主干修改。FOCUS将波段级IoU提高了15%,将注意力崩溃减少了40%以上,并产生与专家注释高度一致的显著性结果。我们的方法参数开销不到1%,使得高分辨率ViT的可解释性在实际高光谱应用中变得切实可行,弥合了黑箱建模与可信HSI决策之间长期存在的差距。 |
[46] 一种基于信息互补性的医学图像分割新型降采样策略 标题: A Novel Downsampling Strategy Based on Information Complementarity for Medical Image Segmentation 作者: Wenbo Yue / Chang Li / Guoping Xu 原文: [英文] 备注: 6 pages, 6 figures 摘要: 在卷积神经网络(CNNs)中,下采样操作对模型性能至关重要。尽管传统的下采样方法(如最大池化和跨行卷积)在特征聚合、感受野扩展和计算量减少方面表现良好,但它们可能导致语义分割任务中关键空间信息的丢失,从而影响逐像素的预测。为此,本研究提出了一种基于信息互补性的新下采样方法——混合池化下采样(HPD)。其核心是用最小最大池化(MinMaxPooling)替代传统方法,并通过提取局部最大值信息,有效保留图像的明暗对比和细节特征。在ACDC和Synapse数据集上的各种CNN架构实验表明,HPD在分割性能上优于传统方法,平均提高了0.5%的DSC系数。结果表明,HPD模块为语义分割任务提供了一种高效的解决方案。 |
[47] 蒸馏并行梯度以加速扩散模型的常微分方程求解器 标题: Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models 作者: Beier Zhu / Ruoyu Wang / Tong Zhao / Hanwang Zhang / Chi Zhang 原文: [英文] 备注: To appear in ICCV 2025 摘要: 扩散模型(DMs)在生成性能上达到了最先进的水平,但由于其顺序去噪的特性,存在较高的采样延迟。现有的基于求解器的加速方法在低延迟预算下通常会面临图像质量下降的问题。在本文中,我们提出了集成并行方向求解器(简称为\ours),这是一种新颖的常微分方程(ODE)求解器,通过在每个ODE步骤中结合多个并行梯度评估来减轻截断误差。重要的是,由于额外的梯度计算是独立的,它们可以完全并行化,从而保持低延迟采样。我们的方法通过蒸馏的方式优化一小组可学习参数,确保训练开销最小。此外,我们的方法可以作为插件来改进现有的ODE采样器。在各种图像合成基准上的大量实验表明,我们的\ours~在实现高质量和低延迟采样方面的有效性。例如,在相同的5 NFE延迟水平下,EPD在CIFAR-10上实现了4.47的FID,在FFHQ上实现了7.97,在ImageNet上实现了8.17,在LSUN Bedroom上实现了8.26,显著超越了现有的基于学习的求解器。代码可在此https URL获取。 |
[48] DUSt3R/MASt3R/VGGT三维重建在摄影测量航拍块上的评估 标题: An Evaluation of DUSt3R/MASt3R/VGGT 3D Reconstruction on Photogrammetric Aerial Blocks 作者: Xinyi Wu / Steven Landgraf / Markus Ulrich / Rongjun Qin 原文: [英文] 备注: 23 pages, 6 figures, this manuscript has been submitted to Geo-spatial Information Science for consideration 摘要: 最先进的3D计算机视觉算法在处理稀疏、无序的图像集方面不断取得进展。最近开发的用于3D重建的基础模型,如密集和无约束立体3D重建(DUSt3R)、匹配和立体3D重建(MASt3R)以及视觉几何基础变压器(VGGT),因其能够处理非常稀疏的图像重叠而受到关注。在典型的航空图像上评估DUSt3R/MASt3R/VGGT很重要,因为这些模型可能处理极低的图像重叠、立体遮挡和无纹理区域。对于冗余的图像集合,它们可以通过使用极度稀疏的图像集来加速3D重建。尽管在各种计算机视觉基准上进行了测试,但它们在摄影测量航空块上的潜力仍未被探索。本文对预训练的DUSt3R/MASt3R/VGGT模型在UseGeo数据集的航空块上进行姿态估计和密集3D重建的全面评估。结果表明,这些方法可以从非常稀疏的图像集(少于10张图像,分辨率高达518像素)中准确重建密集点云,完整性比COLMAP提高了多达50%。VGGT还展示了更高的计算效率、可扩展性和更可靠的相机姿态估计。然而,所有方法在处理高分辨率图像和大型集合时都表现出局限性,因为随着图像数量和几何复杂性的增加,姿态可靠性下降。这些发现表明,基于变压器的方法不能完全取代传统的结构从运动(SfM)和多视图立体(MVS),但在具有挑战性的低分辨率和稀疏场景中作为补充方法具有前景。 |
[49] 探索通用低级视觉的可扩展统一建模 标题: Exploring Scalable Unified Modeling for General Low-Level Vision 作者: Xiangyu Chen / Kaiwen Zhu / Yuandong Pu / Shuo Cao / Xiaohui Li / Wenlong Zhang / Yihao Liu / Yu Qiao / Jiantao Zhou / Chao Dong 原文: [英文] [中文] 备注: None 摘要: 低级视觉涉及广泛的任务,包括图像修复、增强、风格化和特征提取,这些任务在任务形式和输出领域上有显著差异。为了解决在如此多样化任务中实现统一建模的挑战,我们提出了一种基于视觉任务提示的图像处理(VPIP)框架,该框架利用输入-目标图像对作为视觉提示,引导模型执行各种低级视觉任务。该框架包括一个端到端的图像处理骨干网、一个提示编码器和一个提示交互模块,能够灵活地与各种架构集成,并有效利用任务特定的视觉表示。基于这一设计,我们开发了一个统一的低级视觉模型GenLV,并在多个代表性任务中评估其性能。为了探索这种方法的可扩展性,我们在两个维度上扩展了框架:模型容量和任务多样性。我们构建了一个由超过100个低级视觉任务组成的大规模基准,并训练了多个具有不同规模的模型版本。实验结果表明,所提出的方法在广泛的任务中实现了相当的性能。值得注意的是,增加训练任务的数量提高了泛化能力,特别是对于数据有限的任务,这表明模型能够通过联合训练学习可迁移的表示。在零样本泛化、少样本迁移和任务特定微调场景中的进一步评估展示了模型的强适应性,证实了所提出框架作为通用低级视觉建模统一基础的有效性、可扩展性和潜力。 |
[50] 透视深度伪造:一种基于人类启发的多面检测框架 标题: Seeing Through Deepfakes: A Human-Inspired Framework for Multi-Face Detection 作者: Juan Hu / Shaojing Fan / Terence Sim 原文: [英文] [中文] 备注: None 摘要: 多脸深度伪造视频变得越来越普遍,通常出现在自然的社交环境中,这对现有的检测方法构成了挑战。大多数当前的方法在单脸检测方面表现出色,但在多脸场景中却表现不佳,因为它们缺乏对关键上下文线索的感知。在这项工作中,我们开发了一种新颖的方法,利用人类认知来分析和防御多脸深度伪造视频。通过一系列人类研究,我们系统地研究了人们如何在社交环境中检测深度伪造面孔。我们的定量分析揭示了人类依赖的四个关键线索:场景运动一致性、面部间外观兼容性、人际间目光对齐和面部与身体的一致性。在这些见解的指导下,我们引入了\textsf{HICOM},一个旨在检测多脸场景中每个伪造面孔的新框架。在基准数据集上的大量实验表明,\textsf{HICOM}在数据集内检测的平均准确率提高了3.3%,在真实世界扰动下提高了2.8%。此外,它在未见过的数据集上比现有方法高出5.8%,展示了人类启发线索的泛化能力。\textsf{HICOM}通过结合大型语言模型(LLM)提供人类可读的解释,进一步增强了解释性,使检测结果更加透明和令人信服。我们的工作揭示了涉及人类因素以增强对深度伪造的防御的重要性。 |
[51] 光明未来:通过InstructPix2Pix进行多模态动作帧预测 标题: Light Future: Multimodal Action Frame Prediction via InstructPix2Pix 作者: Zesen Zhong / Duomin Zhang / Yijia Li 原文: [英文] [中文] 备注: 9 pages including appendix, 5 tables, 8 figures, to be submitted to WACV 2026 摘要: 预测未来的运动轨迹是机器人、自主系统和人类活动预测等领域中的一项关键能力,它能够实现更安全和更智能的决策。本文提出了一种新颖、高效且轻量级的机器人动作预测方法,与传统的视频预测模型相比,显著降低了计算成本和推理延迟。重要的是,本文开创性地将InstructPix2Pix模型适用于机器人任务中的未来视觉帧预测,扩展了其在静态图像编辑之外的应用。我们实现了一个基于深度学习的视觉预测框架,该框架在给定当前图像和文本指令的情况下,预测机器人在未来100帧(10秒)内将观察到的内容。我们重新调整并微调了InstructPix2Pix模型,使其能够接受视觉和文本输入,从而实现多模态的未来帧预测。在基于真实场景生成的RoboTWin数据集上的实验表明,与最先进的基线相比,我们的方法在机器人动作预测任务中取得了更优的SSIM和PSNR。与传统的视频预测模型需要多个输入帧、繁重的计算和缓慢的推理延迟不同,我们的方法只需一个图像和一个文本提示作为输入。这种轻量级设计实现了更快的推理、降低了GPU需求,并提供了灵活的多模态控制,特别适用于机器人和运动轨迹分析等应用,在这些应用中,运动轨迹的精确性比视觉保真度更为重要。 |
[52] SegQuant: 一种面向语义且具有广泛适应性的扩散模型量化框架 标题: SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models 作者: Jiaji Zhang / Ruichao Sun / Hailiang Zhao / Jiaju Wu / Peng Chen / Hao Li / Xinkui Zhao / Kingsum Chow / Gang Xiong / Lin Ye / Shuiguang Deng 原文: [英文] [中文] 备注: None 摘要: 扩散模型展现了卓越的生成能力,但计算密集型的特性在资源受限或对延迟敏感的环境中部署时带来了显著挑战。量化提供了一种有效的方法来减少模型大小和计算成本,其中后训练量化(PTQ)因其与预训练模型的兼容性而特别吸引人,无需重新训练或训练数据。然而,现有的针对扩散模型的PTQ方法通常依赖于特定架构的启发式方法,这限制了其通用性并阻碍了与工业部署管道的集成。为了解决这些限制,我们提出了SegQuant,一个统一的量化框架,它自适应地结合了互补技术以增强跨模型的多功能性。SegQuant由一个段感知的、基于图的量化策略(SegLinear)组成,该策略捕捉结构语义和空间异质性,以及一个双尺度量化方案(DualScale),该方案保留了极性不对称激活,这对于保持生成输出的视觉保真度至关重要。SegQuant不仅适用于基于Transformer的扩散模型,还能在确保与主流部署工具无缝兼容的同时实现强大的性能。 |
[53] FinChart-Bench:视觉语言模型中的金融图表理解基准测试 标题: FinChart-Bench: Benchmarking Financial Chart Comprehension in Vision-Language Models 作者: Dong Shu / Haoyang Yuan / Yuchen Wang / Yanguang Liu / Huopu Zhang / Haiyan Zhao / Mengnan Du 原文: [英文] [中文] 备注: 20 Pages, 18 Figures 摘要: 大型视觉语言模型(LVLMs)在图表理解方面取得了显著进展。然而,金融图表由于其复杂的时间结构和特定领域术语,仍然是一个未被充分探索的领域。我们介绍了FinChart-Bench,这是首个专注于真实世界金融图表的基准。FinChart-Bench包含从2015年到2024年收集的1,200张金融图表图像,每张图像都标注了是非题(TF)、选择题(MC)和问答题(QA),总计7,016个问题。我们对25个最先进的LVLMs在FinChart-Bench上进行了全面评估。我们的评估揭示了关键见解:(1)开源模型与闭源模型之间的性能差距正在缩小,(2)在同一系列中升级的模型出现性能下降,(3)许多模型在指令遵循方面存在困难,(4)先进模型在空间推理能力上表现出显著的局限性,以及(5)当前的LVLMs不够可靠,无法作为自动评估器。这些发现突出了当前LVLM在金融图表理解能力上的重要局限性。FinChart-Bench数据集可在此https URL获取。 |
[54] PHATNet:一种物理引导的雾霾传输网络,用于领域自适应的真实世界图像去雾 标题: PHATNet: A Physics-guided Haze Transfer Network for Domain-adaptive Real-world Image Dehazing 作者: Fu-Jen Tsai / Yan-Tsung Peng / Yen-Yu Lin / Chia-Wen Lin 原文: [英文] [中文] 备注: ICCV 2025 摘要: 图像去雾旨在去除图像中不需要的雾霾伪影。尽管先前的研究已经收集了真实世界中成对的有雾和无雾图像,以提高去雾模型在真实场景中的性能,但由于训练数据有限,这些模型在处理未见过的真实世界有雾图像时通常会出现显著的性能下降。这个问题促使我们开发一种灵活的领域适应方法,以在测试期间增强去雾性能。我们观察到,预测雾霾模式通常比恢复清晰内容更容易,因此我们提出了物理引导的雾霾转移网络(PHATNet),该网络将未见目标域的雾霾模式转移到源域的无雾图像上,创建领域特定的微调集,以更新去雾模型,实现有效的领域适应。此外,我们引入了雾霾转移一致性损失和内容泄漏损失,以增强PHATNet的解耦能力。实验结果表明,PHATNet显著提升了在基准真实世界图像去雾数据集上的最新去雾模型的性能。 |
[55] 使用扩散引导扩散模型进行成对图像生成 标题: Paired Image Generation with Diffusion-Guided Diffusion Models 作者: Haoxuan Zhang / Wenju Cui / Yuzhu Cao / Tao Tan / Jie Liu / Yunsong Peng / Jian Zheng 原文: [英文] [中文] 备注: None 摘要: 数字乳腺断层合成(DBT)图像中肿块病变的分割对于乳腺癌的早期筛查非常重要。然而,高密度的乳腺组织常常导致肿块病变的高度隐蔽性,这使得人工标注变得困难且耗时。因此,缺乏用于模型训练的标注数据。扩散模型通常用于数据增强,但现有方法面临两个挑战。首先,由于病变的高度隐蔽性,模型难以学习病变区域的特征。这导致病变区域的生成质量较低,从而限制了生成图像的质量。其次,现有方法只能生成图像,无法生成相应的标注,这限制了生成图像在监督训练中的可用性。在这项工作中,我们提出了一种成对图像生成方法。该方法不需要外部条件,通过为条件扩散模型训练一个额外的扩散引导器来实现成对图像的生成。在实验阶段,我们生成了成对的DBT切片和肿块病变掩码。然后,我们将它们纳入肿块病变分割任务的监督训练过程中。实验结果表明,我们的方法可以在没有外部条件的情况下提高生成质量。此外,它有助于缓解标注数据的短缺,从而提高下游任务的性能。 |
[56] 使用稀疏测量和单张图像进行自监督深度补全训练 标题: Training Self-Supervised Depth Completion Using Sparse Measurements and a Single Image 作者: Rizhao Fan / Zhigen Li / Heping Li / Ning An 原文: [英文] [中文] 备注: None 摘要: 深度补全是一个重要的视觉任务,许多研究致力于提高从稀疏深度测量中获得的深度图的质量。尽管取得了显著进展,但训练这些模型以从稀疏测量中恢复密集深度仍然是一个具有挑战性的问题。监督学习方法依赖于密集深度标签来预测未观测区域,而自监督方法则需要图像序列来在帧之间施加几何约束和光度一致性。然而,获取密集标注代价高昂,多帧依赖性限制了自监督方法在静态或单帧场景中的适用性。为了解决这些挑战,我们提出了一种新颖的自监督深度补全范式,该范式仅需要稀疏深度测量及其对应的图像进行训练。与现有方法不同,我们的方法不需要密集深度标签或从相邻视点捕获的额外图像。通过利用深度分布的特性,我们设计了新颖的损失函数,有效地将深度信息从观测点传播到未观测区域。此外,我们结合了由视觉基础模型生成的分割图,以进一步增强深度估计。大量实验表明了我们提出方法的有效性。 |
[57] 将自然语言中的退化现象应用于一体化视频修复 标题: Grounding Degradations in Natural Language for All-In-One Video Restoration 作者: Muhammad Kamran Janjua / Amirhosein Ghasemabadi / Kunlin Zhang / Mohammad Salameh / Chao Gao / Di Niu 原文: [英文] [中文] 备注: 17 pages 摘要: 在这项工作中,我们提出了一种全能的视频修复框架,该框架通过基础模型将视频帧的退化感知语义上下文以自然语言形式表达,提供可解释且灵活的指导。与之前的技术不同,我们的方法在训练或测试时不假设任何退化知识,并学习对基础知识的近似,使得基础模型在推理过程中可以安全地解耦,不增加额外成本。此外,我们呼吁在全能视频修复中对基准进行标准化,并在多重退化设置中提出了两个基准:三任务(3D)和四任务(4D),以及两个时间变化的复合退化基准;其中一个是我们提出的数据集,具有变化的降雪强度,模拟天气退化如何自然地影响视频。我们将我们的方法与之前的工作进行比较,并在所有基准上报告了最先进的性能。 |
[58] 一种面向不确定性的DETR增强框架用于目标检测 标题: An Uncertainty-aware DETR Enhancement Framework for Object Detection 作者: Xingshu Chen / Sicheng Yu / Chong Cheng / Hao Wang / Ting Tian 原文: [英文] [中文] 备注: None 摘要: 本文研究了目标检测问题,重点在于提高边界框的定位精度和明确建模预测不确定性。传统的检测器依赖于确定性的边界框回归,忽略了预测中的不确定性,限制了模型的鲁棒性。在本文中,我们提出了一种针对基于DETR的目标检测器的不确定性感知增强框架。我们将边界框建模为多元高斯分布,并将Gromov-Wasserstein距离引入损失函数,以更好地对齐预测分布和真实分布。在此基础上,我们推导出一个贝叶斯风险公式,以过滤高风险信息并提高检测可靠性。我们还提出了一种简单的算法,通过置信区间量化定位不确定性。在COCO基准上的实验表明,我们的方法可以有效地集成到现有的DETR变体中,提升其性能。我们进一步将框架扩展到白细胞检测任务,在LISC和WBCDD数据集上取得了最先进的结果。这些结果证实了我们的框架在通用和特定领域检测任务中的可扩展性。代码页面:this https URL。 |
[59] 基于微手势的情感识别的混合监督超图增强Transformer 标题: Hybrid-supervised Hypergraph-enhanced Transformer for Micro-gesture Based Emotion Recognition 作者: Zhaoqiang Xia / Hexiang Huang / Haoyu Chen / Xiaoyi Feng / Guoying Zhao 原文: [英文] [中文] 备注: None 摘要: 微手势是无意识进行的身体动作,可以传达人的情感状态,并作为一个新兴话题开始在人类行为理解和情感计算领域吸引更多的研究关注。然而,基于微手势的人类情感建模尚未得到充分探索。在这项工作中,我们提出通过在混合监督框架中使用超图增强的Transformer重建行为模式来识别基于微手势的情感状态。在该框架中,超图Transformer的编码器和解码器通过堆叠超图增强的自注意力和多尺度时间卷积模块分别设计。特别是,为了更好地捕捉微手势的细微动作,我们构建了一个解码器,通过自监督学习方式进行重建任务,增加了上采样操作。我们进一步提出了一个超图增强的自注意力模块,其中骨架关节之间的超边逐步更新,以呈现身体关节的关系,从而建模细微的局部运动。最后,为了利用情感状态与微手势局部运动之间的关系,从编码器输出中设计了一个情感识别头,采用浅层架构并以监督方式进行学习。端到端框架通过全面利用自重建和监督信息以单阶段方式联合训练。所提出的方法在两个公开可用的数据集上进行评估,即iMiGUE和SMG,并在多个指标下实现最佳性能,优于现有方法。 |
[60] 区域感知的深度尺度适应与稀疏测量 标题: Region-aware Depth Scale Adaptation with Sparse Measurements 作者: Rizhao Fan / Tianfang Ma / Zhigen Li / Ning An / Jian Cheng 原文: [英文] [中文] 备注: None 摘要: 近年来,基础模型在深度预测领域的出现带来了显著进展,特别是在零样本单目深度估计方面。这些模型生成了令人印象深刻的深度预测;然而,它们的输出通常是相对尺度而非度量尺度。这一限制给在实际应用中的直接部署带来了挑战。为了解决这个问题,已经提出了几种尺度适应方法,以使基础模型能够生成度量深度。然而,这些方法通常代价高昂,因为它们需要在新领域和数据集上进行额外训练。此外,对这些模型进行微调往往会削弱其原有的泛化能力,限制其在不同场景中的适应性。在本文中,我们介绍了一种非学习型方法,该方法利用稀疏深度测量将基础模型的相对尺度预测调整为度量尺度深度。我们的方法既不需要重新训练也不需要微调,从而在使其能够生成度量深度的同时,保留了原始基础模型的强泛化能力。实验结果证明了我们方法的有效性,突显了其在不增加额外计算成本或牺牲泛化能力的情况下弥合相对深度与度量深度之间差距的潜力。 |
[61] BeatFormer:通过无监督光谱缩放注意力滤波器实现高效抗运动的远程心率估计 标题: BeatFormer: Efficient motion-robust remote heart rate estimation through unsupervised spectral zoomed attention filters 作者: Joaquim Comas / Federico Sukno 原文: [英文] [中文] 备注: None 摘要: 远程光电容积描记术(rPPG)通过面部视频捕捉心脏信号,并因其多样化的应用而受到关注。虽然深度学习推动了rPPG估计的发展,但它依赖于大型、多样化的数据集以实现有效的泛化。相比之下,手工设计的方法利用生理先验知识在未见过的场景中(如运动)实现更好的泛化,同时保持计算效率。然而,它们的线性假设限制了在复杂条件下的性能,而深度学习在脉动信息提取方面表现出色。这突显了结合两种方法优势的混合方法的必要性。为此,我们提出了BeatFormer,一种轻量级的光谱注意力模型用于rPPG估计,它结合了缩放正交复数注意力和频域能量测量,实现了高效的模型。此外,我们引入了光谱对比学习(SCL),使BeatFormer能够在没有任何PPG或HR标签的情况下进行训练。我们在PURE、UBFC-rPPG和MMPD数据集上验证了BeatFormer,展示了其鲁棒性和性能,特别是在运动场景下的跨数据集评估中。 |
[62] TriCLIP-3D:基于CLIP的三模态3D视觉定位统一参数高效框架 标题: TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP 作者: Fan Li / Zanyi Wang / Zeyi Huang / Guang Dai / Jingdong Wang / Mengmeng Wang 原文: [英文] [中文] 备注: None 摘要: 3D视觉定位使具身智能体能够基于人类指令理解真实世界3D环境中的视觉信息,这对于具身智能至关重要。现有的3D视觉定位方法通常依赖于为不同模态(如RGB图像、文本和3D点云)设计的独立编码器,导致模型庞大复杂,训练效率低下。虽然一些方法使用预训练的2D多模态模型(如CLIP)来处理3D任务,但它们在将点云数据与2D编码器对齐时仍然面临困难。因此,这些方法仍然依赖于3D编码器进行特征提取,进一步增加了模型的复杂性和训练效率低下。在本文中,我们提出了一种统一的2D预训练多模态网络来处理所有三种模态(RGB图像、文本和点云),显著简化了架构。通过利用带有适配器微调的2D CLIP双模态模型,该框架有效地适应了三模态设置,提高了跨模态的适应性和性能。我们的几何感知2D-3D特征恢复与融合(GARF)模块旨在融合来自点云和图像的几何多尺度特征。然后,我们整合文本特征进行最终的模态融合,并引入多模态解码器以促进深度跨模态理解。结合起来,我们的方法实现了三种模态的统一特征提取和融合,使得端到端的3D视觉定位模型成为可能。与基线相比,我们的方法将可训练参数的数量减少了约58%,同时在3D检测任务中提高了6.52%,在3D视觉定位任务中提高了6.25%。 |
[63] 面向多标签图像分类的语义感知表示学习 标题: Semantic-Aware Representation Learning for Multi-label Image Classification 作者: Ren-Dong Xie / Zhi-Fen He / Bo Li / Bin Liu / Jin-Yan Hu 原文: [英文] [中文] 备注: None 摘要: 多标签图像分类是计算机视觉中的一个重要研究领域,专注于识别图像中的多个标签或概念。现有的方法通常采用注意力机制或图卷积网络(GCNs)来学习图像表示。然而,这种表示可能包含噪声,并且可能无法精确定位对象。因此,本文提出了一种用于多标签图像分类的语义感知表示学习(SARL)。首先,使用一个标签语义相关特征学习模块来提取语义相关特征。然后,设计了一种基于最优传输的注意力机制,以获得语义对齐的图像表示。最后,采用区域得分聚合策略进行多标签预测。在两个基准数据集PASCAL VOC 2007和MS-COCO上的实验结果表明,SARL优于现有方法。 |
[64] Stereo-GS:用于通用化3D高斯喷溅重建的多视图立体视觉模型 标题: Stereo-GS: Multi-View Stereo Vision Model for Generalizable 3D Gaussian Splatting Reconstruction 作者: Xiufeng Huang / Ka Chun Cheung / Runmin Cong / Simon See / Renjie Wan 原文: [英文] [中文] 备注: ACMMM2025. Non-camera-ready version 摘要: 可推广的3D高斯点云重建展示了先进的图像到3D内容创建,但需要大量的计算资源和大型数据集,这给从头训练模型带来了挑战。目前的方法通常将3D高斯几何和外观的预测纠缠在一起,严重依赖于数据驱动的先验知识,导致回归速度缓慢。为了解决这个问题,我们提出了\method,一种用于高效3D高斯预测的解耦框架。我们的方法使用立体视觉骨干从局部图像对中提取特征,并通过全局注意力块融合这些特征。专用的点和高斯预测头生成几何的多视点图和外观的高斯特征,结合为GS图以表示3DGS对象。一个细化网络增强这些GS图以实现高质量重建。与依赖于相机参数的现有方法不同,我们的方法实现了无姿态的3D重建,提高了鲁棒性和实用性。在减少资源需求的同时保持高质量输出,\method为现实世界的3D内容生成提供了一种高效、可扩展的解决方案。 |
[65] 三维冷冻电镜姿态估计与偏移校正流程 标题: 3-Dimensional CryoEM Pose Estimation and Shift Correction Pipeline 作者: Kaishva Chintan Shah / Virajith Boddapati / Karthik S. Gurumoorthy / Sandip Kaledhonkar / Ajit Rajwade 原文: [英文] [中文] 备注: None 摘要: 在冷冻电子显微镜(cryo-EM)中,由于信噪比(SNR)非常低,准确的姿态估计和位移校正是关键挑战,这直接影响到三维重建的保真度。我们提出了一种用于cryo-EM中姿态估计的方法,该方法利用多维尺度(MDS)技术,以一种稳健的方式从二面角对中估计每个粒子的三维旋转矩阵。我们将旋转矩阵表示为旋转轴和垂直于该轴的平面内的单位向量的形式。该技术利用了从投影进行三维重建中的公共线概念。然而,由于cryo-EM投影图像的信噪比非常低,公共线估计存在较大误差。为了解决这一挑战,我们引入了两个互补的组件:(i)基于$\ell_1$-范数目标或类似稳健范数的稳健联合优化框架,用于姿态估计,该框架同时估计旋转轴和平面内向量,并通过投影坐标下降精确地执行单位范数和正交性约束;(ii)一个迭代位移校正算法,通过全局最小二乘公式估计一致的平面内平移。虽然先前的方法已经利用了这种嵌入和公共线几何进行方向恢复,但现有的公式通常依赖于对噪声敏感的$\ell_2$-基目标,并且仅近似地执行几何约束。这些选择,加上顺序管道结构,可能导致在低信噪比环境中误差累积和次优重建。我们的管道在欧拉角精度和重建保真度方面始终优于先前的方法,重建保真度通过傅里叶壳相关(FSC)进行测量。 |
[66] 用于医学影像深度多实例学习的概率平滑注意机制 标题: Probabilistic smooth attention for deep multiple instance learning in medical imaging 作者: Francisco M. Castro-Macías / Pablo Morales-Álvarez / Yunan Wu / Rafael Molina / Aggelos K. Katsaggelos 原文: [英文] [中文] 备注: None 摘要: 多实例学习(MIL)范式在医学影像分类中引起了广泛关注,尤其是在标注数据稀缺的情况下。MIL方法将医学图像视为实例的集合(例如,整片图像中的小块,或CT扫描中的切片),训练时只需要集合的标签。深度MIL方法通过注意力机制聚合实例级表示来计算集合级预测,取得了令人鼓舞的结果。这些方法通常通过各种机制捕捉相邻实例之间的局部交互以及全局的长程依赖。然而,它们以确定性的方式处理注意力值,可能忽略了单个实例贡献的不确定性。在这项工作中,我们提出了一种新颖的概率框架,该框架估计注意力值的概率分布,并考虑全局和局部交互。在涉及十一种最先进的基线方法和三个医学数据集的综合评估中,我们展示了我们的方法在不同指标上实现了顶级预测性能。此外,注意力的概率处理提供了不确定性图,这在疾病定位方面是可解释的。 |
[67] 通过多模态统一表示实现开放集跨模态泛化 标题: Open-set Cross Modal Generalization via Multimodal Unified Representation 作者: Hai Huang / Yan Xia / Shulei Wang / Hanting Wang / Minghui Fang / Shengpeng Ji / Sashuai Zhou / Tao Jin / Zhou Zhao 原文: [英文] [中文] 备注: Accepted by ICCV 2025 摘要: 本文通过提出更具挑战性的开放集跨模态泛化(OSCMG)任务,将跨模态泛化(CMG)扩展到开放集环境。该任务在开放集条件下评估多模态统一表示,解决了之前封闭集跨模态评估的局限性。OSCMG不仅需要跨模态知识转移,还需要在新模态中对未见类别进行稳健的泛化,这种情况在现实应用中经常遇到。现有的多模态统一表示工作缺乏对开放集环境的考虑。为了解决这个问题,我们提出了MICU,包括两个关键组件:细粗掩码多模态InfoNCE(FCMI)和跨模态统一拼图(CUJP)。FCMI通过在整体语义和时间层面应用对比学习来增强多模态对齐,结合掩码以增强泛化能力。CUJP通过将模态无关的特征选择与自监督学习相结合,增强了特征多样性和模型不确定性,从而加强了模型在开放集任务中处理未知类别的能力。在CMG和新提出的OSCMG上的大量实验验证了我们方法的有效性。代码可在此https URL获取。 |
[68] Polymorph:嵌入式设备上视频流的节能多标签分类 标题: Polymorph: Energy-Efficient Multi-Label Classification for Video Streams on Embedded Devices 作者: Saeid Ghafouri / Mohsen Fayyaz / Xiangchen Li / Deepu John / Bo Ji / Dimitrios Nikolopoulos / Hans Vandierendonck 原文: [英文] 备注: None 摘要: 嵌入式设备上的实时多标签视频分类受到计算能力和能量预算的限制。然而,视频流展示了结构性特征,如标签稀疏性、时间连续性和标签共现性,这些特征可以用于更高效的推理。我们介绍了Polymorph,这是一种上下文感知框架,它在每帧激活一组最小的轻量级低秩适配器(LoRA)。每个适配器专注于从共现模式中派生的一部分类别,并作为共享骨干上的LoRA权重实现。在运行时,Polymorph动态选择并组合仅覆盖活动标签所需的适配器,避免了全模型切换和权重合并。这种模块化策略提高了可扩展性,同时减少了延迟和能量开销。Polymorph在TAO数据集上比强基线降低了40%的能量消耗,并将mAP提高了9个点。Polymorph是开源的,可以在这个https URL上找到。 |
[69] 决策PCR:点云配准任务的决策版本 标题: Decision PCR: Decision version of the Point Cloud Registration task 作者: Yaojie Zhang / Tianlun Huang / Weijun Wang / Wei Feng 原文: [英文] [中文] 备注: None 摘要: 低重叠点云配准(PCR)在3D视觉中仍然是一个重大挑战。传统的评估指标,如最大内点计数,在极低内点比率下变得无效。在本文中,我们重新审视了配准结果的评估问题,并将PCR任务的决策版本识别为基本问题。为了解决这个决策PCR任务,我们提出了一种数据驱动的方法。首先,我们基于3DMatch数据集构建了一个相应的数据集。然后,训练一个基于深度学习的分类器,以可靠地评估配准质量,从而克服传统指标的局限性。据我们所知,这是首次通过深度学习框架全面研究这一任务。我们将此分类器整合到标准的PCR流程中。当与我们的方法结合时,现有的最先进PCR方法表现出显著增强的配准性能。例如,将我们的框架与GeoTransformer结合,在具有挑战性的3DLoMatch基准上实现了新的SOTA配准召回率86.97%。我们的方法还在未见过的户外ETH数据集上展示了强大的泛化能力。 |
[70] 用于视觉-语言模型的分层跨模态提示学习 标题: Hierarchical Cross-modal Prompt Learning for Vision-Language Models 作者: Hao Zheng / Shunzhi Yang / Zhuoxin He / Jinfeng Yang / Zhenhua Huang 原文: [英文] [中文] 备注: Accepted by ICCV2025 摘要: 预训练的视觉-语言模型(VLMs),如CLIP,展示了出色的泛化能力。然而,在保持其泛化能力的同时,将这些大规模模型适应下游任务仍然具有挑战性。尽管提示学习方法显示出希望,但它们存在两个限制泛化的基本瓶颈:(a)模态隔离,以及(b)层次语义衰减。为了解决这些限制,我们提出了HiCroPL,一种层次跨模态提示学习框架,该框架在文本和视觉模态之间建立双向知识流,使它们能够相互优化语义。HiCroPL通过利用文本和视觉的互补优势来引导知识流。在早期层次中,文本提示通过层次知识映射器将相对清晰的语义注入视觉提示中,增强低级视觉语义的表示。在后期层次中,编码特定任务相关对象的视觉提示回流以优化文本提示,实现更深层次的对齐。关键是,我们的层次知识映射器允许多尺度的表示融合,确保更深层次的表示保留可迁移的浅层语义,从而增强泛化能力。我们进一步引入了一个轻量级的层特定知识代理,以实现高效的跨模态交互。对四个任务的广泛评估表明,HiCroPL的性能优越,在11个基准上取得了显著的改进,达到了最新的研究水平。代码可在此网址获取:this https URL。 |
[71] 在图像回归中微调多模态大型语言模型的语言整合 标题: Language Integration in Fine-Tuning Multimodal Large Language Models for Image-Based Regression 作者: Roy H. Jennings / Genady Paikin / Roy Shaul / Evgeny Soloveichik 原文: [英文] [中文] 备注: None 摘要: 多模态大型语言模型(MLLMs)在基于图像的回归任务中显示出潜力,但当前的方法存在关键限制。最近的方法通过使用预设输出词汇表和通用任务级提示(例如,“你会如何评价这张图片?”)来微调MLLMs,假设这模仿了人类的评分行为。我们的分析表明,这些方法相比仅使用图像训练没有任何优势。使用预设词汇表和通用提示的模型与仅使用图像的模型表现相当,未能利用文本输入的语义理解。我们提出了基于Transformer的分类回归(RvTC),用灵活的基于区间的方法替代词汇表约束的分类。与通过复杂的分布建模解决离散化误差的方法不同,RvTC通过简单增加区间数量消除了手动词汇表设计,仅使用图像在四个图像评估数据集上实现了最先进的性能。更重要的是,我们证明了数据特定的提示显著提高了性能。与通用任务描述不同,包含特定图像语义信息的提示使MLLMs能够利用跨模态理解。在AVA数据集上,向提示中添加挑战标题将相关性从0.83提高到0.90,创造了新的最先进水平。我们通过AVA和AGIQA-3k数据集的实证证据证明,MLLMs从超越单纯统计偏差的语义提示信息中受益。这强调了在多模态回归任务中结合有意义的文本上下文的重要性。 |
[72] 轴对齐文档去卷曲 标题: Axis-Aligned Document Dewarping 作者: Chaoyun Wang / I-Chao Shen / Takeo Igarashi / Nanning Zheng / Caigui Jiang 原文: [英文] [中文] 备注: None 摘要: 文档去扭曲在许多应用中至关重要。然而,现有的基于学习的方法主要依赖于带注释数据的监督回归,而没有在去扭曲过程中利用物理文档中固有的几何特性。我们的关键见解是,一个良好去扭曲的文档的特征在于将扭曲的特征线转换为轴对齐的线。这一特性与平面文档中离散网格几何的固有轴对齐特性相一致。在训练阶段,我们提出了一种轴对齐几何约束来增强文档去扭曲。在推理阶段,我们提出了一种轴对齐预处理策略以降低去扭曲的难度。在评估阶段,我们引入了一种新的度量标准,轴对齐失真(AAD),它不仅包含几何意义并与人类视觉感知一致,而且表现出更大的鲁棒性。因此,我们的方法在多个现有基准上达到了SOTA(最先进)结果,并在AAD指标上实现了18.2%~34.5%的改进。 |
[73] FastSmoothSAM:一种用于分割任意模型的快速平滑方法 标题: FastSmoothSAM: A Fast Smooth Method For Segment Anything Model 作者: Jiasheng Xu / Yewang Chen 原文: [英文] [中文] 备注: None 摘要: 准确识别和表示物体边缘是计算机视觉和图像处理中的一项挑战性任务。Segment Anything Model(SAM)在图像分割领域产生了重大影响,但其高内存消耗和长推理时间限制了其在实时应用中的效率。为了解决这些限制,提出了Fast Segment Anything(FastSAM),实现了实时分割。然而,FastSAM经常生成与真实物体形状偏离的锯齿状边缘。因此,本文引入了一种新颖的改进方法,使用B样条曲线拟合技术来增强FastSAM的边缘质量。利用B样条的强大形状控制和灵活的几何构造,采用了一个包含两轮曲线拟合的四阶段精炼过程,有效地平滑了锯齿状边缘。这种方法显著提高了物体边缘的视觉质量和分析精度,同时不损害关键的几何信息。所提出的方法通过提高分割精度而保持实时处理能力,改善了FastSAM的实用性。这一进步为FastSAM技术在各种现实场景中释放了更大的潜力,如工业自动化、医学成像和自主系统,其中精确和高效的边缘识别至关重要。 |
[74] 面向视频思维测试:高级视频推理与理解的整体基准 标题: Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding 作者: Yuanhan Zhang / Yunice Chew / Yuhao Dong / Aria Leo / Bo Hu / Ziwei Liu 原文: [英文] [中文] 备注: ICCV 2025; Project page: this https URL 摘要: 人类智能需要正确性和鲁棒性,其中正确性是鲁棒性的基础。在视频理解中,正确性确保对视觉内容的准确解释,而鲁棒性则在挑战性条件下保持一致的表现。尽管视频大语言模型(video LLMs)取得了进展,但现有的基准测试未能充分反映这些模型在保持视频解释的正确性和鲁棒性方面与人类智能之间的差距。我们引入了视频思维测试(Video-TT),以评估视频大语言模型是否能够像人类一样有效地解释真实世界的视频。Video-TT反映了在理解复杂视觉叙事方面的真实差距,并评估了对自然对抗性问题的鲁棒性。Video-TT包含1000个YouTube Shorts视频,每个视频都有一个开放性问题和四个探测视觉和叙事复杂性的对抗性问题。我们的评估显示视频大语言模型与人类表现之间存在显著差距。 |
[75] OpenBreastUS:使用乳腺超声计算机断层扫描对波成像的神经算子进行基准测试 标题: OpenBreastUS: Benchmarking Neural Operators for Wave Imaging Using Breast Ultrasound Computed Tomography 作者: Zhijun Zeng / Youjia Zheng / Hao Hu / Zeyuan Dong / Yihang Zheng / Xinliang Liu / Jinzhuo Wang / Zuoqiang Shi / Linfeng Zhang / Yubing Li / He Sun 原文: [英文] [中文] 备注: None 摘要: 在计算波成像应用中,波动方程的准确高效模拟至关重要,例如超声计算机断层扫描(USCT),其通过观测到的散射波重建组织材料特性。传统的波动方程数值求解器计算量大且常常不稳定,限制了其在准实时图像重建中的实际应用。神经算子通过使用神经网络加速偏微分方程求解提供了一种创新的方法;然而,由于现有数据集过于简化真实世界的复杂性,其在现实成像中的效果有限。在本文中,我们提出了OpenBreastUS,这是一个大规模的波动方程数据集,旨在弥合理论方程与实际成像应用之间的差距。OpenBreastUS包含8,000个解剖学上逼真的人类乳房模型和超过1600万次使用真实USCT配置的频域波模拟。它能够对流行的神经算子进行全面的基准测试,涵盖正向模拟和逆向成像任务,允许分析其性能、可扩展性和泛化能力。通过提供一个现实且广泛的数据集,OpenBreastUS不仅作为开发创新神经PDE求解器的平台,还促进了它们在现实世界医学成像问题中的部署。我们首次展示了使用神经算子求解器对人类乳房进行高效的体内成像。 |
[76] EBA-AI:伦理引导的偏见感知人工智能,用于高效的水下图像增强和珊瑚礁监测 标题: EBA-AI: Ethics-Guided Bias-Aware AI for Efficient Underwater Image Enhancement and Coral Reef Monitoring 作者: Lyes Saad Saoud / Irfan Hussain 原文: [英文] [中文] 备注: None 摘要: 水下图像增强对于海洋保护,特别是珊瑚礁监测至关重要。然而,基于人工智能的增强模型常常面临数据集偏差、高计算成本和缺乏透明度的问题,导致潜在的误解。本文介绍了EBA-AI,这是一种伦理指导的偏差感知AI框架,用于解决这些挑战。EBA-AI利用CLIP嵌入来检测和减轻数据集偏差,确保在各种水下环境中实现平衡的表示。它还集成了自适应处理以优化能效,在保持竞争性增强质量的同时显著减少GPU使用。在LSUI400、Oceanex和UIEB100上的实验表明,尽管PSNR控制在下降1.0 dB,但计算节省使大规模海洋监测的实时可行性成为可能。此外,不确定性估计和可解释性技术增强了对AI驱动的环境决策的信任。与CycleGAN、FunIEGAN、RAUNENet、WaterNet、UGAN、PUGAN和UTUIE的比较验证了EBA-AI在水下图像处理中的效率、公平性和可解释性之间的平衡。通过解决AI驱动增强的关键限制,这项工作为可持续的、偏差感知的和计算效率高的海洋保护工作做出了贡献。有关交互式可视化、动画、源代码和预印本的访问,请访问:this https URL |
[77] OmniVTON:无需训练的通用虚拟试穿 标题: OmniVTON: Training-Free Universal Virtual Try-On 作者: Zhaotong Yang / Yuhui Li / Shengfeng He / Xinzhe Li / Yangyang Xu / Junyu Dong / Yong Du 原文: [英文] 备注: Accepted by ICCV2025 摘要: 基于图像的虚拟试穿(VTON)技术依赖于有监督的店内方法,这些方法确保了高保真度,但在跨域泛化方面存在困难;或者依赖于无监督的自然环境方法,这些方法提高了适应性,但仍受限于数据偏差和有限的普适性。一个能够在这两种场景中都有效的统一、无需训练的解决方案仍然是一个未解决的挑战。我们提出了OmniVTON,这是第一个无需训练的通用VTON框架,通过解耦服装和姿势条件,在多样化的环境中实现了纹理保真度和姿势一致性。为了保留服装细节,我们引入了一种服装先验生成机制,将衣物与身体对齐,随后通过连续边界缝合技术实现细粒度的纹理保留。为了精确的姿势对齐,我们利用DDIM反演来捕捉结构线索,同时抑制纹理干扰,确保身体对齐的准确性而不依赖于原始图像纹理。通过解耦服装和姿势约束,OmniVTON消除了扩散模型在同时处理多个条件时固有的偏差。实验结果表明,OmniVTON在不同的数据集、服装类型和应用场景中实现了卓越的性能。值得注意的是,这是第一个能够进行多人物VTON的框架,能够在单个场景中实现多个个体之间的真实服装转移。代码可在此https URL获取。 |
[78] 重新思考全色锐化:原则性设计、统一训练和通用损失超越蛮力缩放 标题: Rethinking Pan-sharpening: Principled Design, Unified Training, and a Universal Loss Surpass Brute-Force Scaling 作者: Ran Zhang / Xuanhua He / Li Xueheng / Ke Cao / Liu Liu / Wenbo Xu / Fang Jiabin / Yang Qize / Jie Zhang 原文: [英文] [中文] 备注: None 摘要: 近年来,全色锐化领域出现了向越来越大和复杂的模型发展的趋势,这些模型通常在单一、特定的卫星数据集上进行训练。然而,这种方法导致了高计算开销,并且在全分辨率数据上的泛化能力较差,这是我们在本文中所挑战的范式。针对这一问题,我们提出了PanTiny,这是一种轻量级的、单步的全色锐化框架,旨在实现高效且稳健的性能。更为重要的是,我们引入了多合一训练范式,即在一个紧凑的模型中同时训练三种不同的卫星数据集(WV2、WV3和GF2),这些数据集具有不同的分辨率和光谱信息。我们的实验表明,这种统一的训练策略不仅简化了部署,还显著提升了全分辨率数据上的泛化能力。此外,我们引入了一种通用的强大复合损失函数,提升了几乎所有全色锐化模型的性能,将最先进的指标推向了一个新的时代。我们的PanTiny模型受益于这些创新,实现了卓越的性能与效率平衡,超越了大多数更大、更专业的模型。通过广泛的消融研究,我们验证了在模型设计、训练范式和损失函数中的原则性工程可以超越简单的规模扩展。我们的工作倡导全社区转向创建高效、可泛化和数据意识的全色锐化模型。代码可在此https URL获取。 |
[79] StableAnimator++:克服姿势错位和面部扭曲的人像动画 标题: StableAnimator++: Overcoming Pose Misalignment and Face Distortion for Human Image Animation 作者: Shuyuan Tu / Zhen Xing / Xintong Han / Zhi-Qi Cheng / Qi Dai / Chong Luo / Zuxuan Wu / Yu-Gang Jiang 原文: [英文] [中文] 备注: arXiv admin note: substantial text overlap with arXiv:2411.17697 摘要: 当前的人像动画扩散模型通常难以保持身份(ID)一致性,尤其是在参考图像和驱动视频在体型或位置上差异显著的情况下。我们介绍了StableAnimator++,这是第一个具有可学习姿态对齐功能的ID保持视频扩散框架,能够在不进行任何后处理的情况下生成基于参考图像和姿态序列的高质量视频。基于视频扩散模型,StableAnimator++包含精心设计的训练和推理模块,力求实现身份一致性。特别地,StableAnimator++首先使用可学习层通过注入奇异值分解(SVD)的指导来预测参考图像和驱动姿态之间的相似变换矩阵。这些矩阵将驱动姿态与参考图像对齐,在很大程度上减轻了错位。然后,StableAnimator++使用现成的编码器计算图像和面部嵌入,通过全局内容感知面部编码器优化面部嵌入。为了进一步保持ID,我们引入了一个分布感知的ID适配器,通过分布对齐来抵消时间层引起的干扰,同时保持ID。在推理阶段,我们提出了一种新颖的基于Hamilton-Jacobi-Bellman(HJB)的面部优化方法,将其集成到去噪过程中,引导扩散轨迹以增强面部保真度。在基准测试上的实验表明,StableAnimator++在定性和定量上都表现出了有效性。 |
[80] 美学很便宜,给我看文本:对最先进生成模型用于光学字符识别的实证评估 标题: Aesthetics is Cheap, Show me the Text: An Empirical Evaluation of State-of-the-Art Generative Models for OCR 作者: Peirong Zhang / Haowei Xu / Jiaxin Zhang / Guitao Xu / Xuhan Zheng / Zhenhua Yang / Junle Liu / Yuyi Zhang / Lianwen Jin 原文: [英文] [中文] 备注: None 摘要: 文本图像是一种独特且重要的信息媒介,在现代电子社会中融合了视觉美学和语言语义。由于其微妙性和复杂性,文本图像的生成代表了图像生成领域中一个具有挑战性且不断发展的前沿。最近专用图像生成器(例如,Flux系列)和统一生成模型(例如,GPT-4o)的激增,展示了卓越的逼真度,这引发了一个自然的问题:它们能否掌握文本图像生成和编辑的复杂性?基于此动机,我们评估了当前最先进的生成模型在文本图像生成和编辑方面的能力。我们将各种典型的光学字符识别(OCR)任务纳入我们的评估,并将基于文本的生成任务的概念扩展为OCR生成任务。我们选择了33个具有代表性的任务,并将其分为五类:文档、手写文本、场景文本、艺术文本以及复杂和布局丰富的文本。为了进行全面评估,我们在闭源和开源领域中检查了六个模型,使用量身定制的高质量图像输入和提示。通过这次评估,我们得出了关键观察结果,并识别了当前生成模型在OCR任务中的弱点。我们认为,逼真的文本图像生成和编辑应该作为基础技能内化到通用领域的生成模型中,而不是委托给专用解决方案。我们希望这次实证分析能为社区提供有价值的见解,以实现这一目标。此次评估在线进行,并将在我们的GitHub仓库中持续更新。 |
[81] 大规模无人机应用的视觉位置识别 标题: Visual Place Recognition for Large-Scale UAV Applications 作者: Ioannis Tsampikos Papapetros / Ioannis Kansizoglou / Antonios Gasteratos 原文: [英文] [中文] 备注: None 摘要: 视觉位置识别(vPR)在无人机(UAV)导航中起着至关重要的作用,使其能够在多样化的环境中实现稳健的定位。尽管取得了显著进展,航空vPR由于缺乏大规模、高空数据集而面临独特的挑战,这限制了模型的泛化能力,同时无人机图像中固有的旋转模糊也带来了困难。为了解决这些挑战,我们引入了LASED,一个包含大约一百万张图像的大规模航空数据集,系统地从爱沙尼亚的170,000个独特地点在十年间采样,提供了广泛的地理和时间多样性。其结构化设计确保了清晰的地点分离,显著增强了航空场景的模型训练。此外,我们提出整合可控卷积神经网络(CNNs)以明确处理旋转变化,利用其固有的旋转等变性来生成稳健的、方向不变的特征表示。我们的广泛基准测试表明,与在较小、较不多样化的数据集上训练的模型相比,在LASED上训练的模型显著提高了召回率,突出了广泛的地理覆盖和时间多样性的好处。此外,可控CNNs有效解决了航空图像中固有的旋转模糊问题,持续优于传统卷积架构,平均比表现最佳的非可控网络提高了12%的召回率。通过结合结构化的大规模数据集与旋转等变神经网络,我们的方法显著增强了航空vPR的模型稳健性和泛化能力。 |
[82] BleedOrigin:通过双阶段检测和跟踪在内镜下黏膜下层剥离术中动态定位出血源 标题: BleedOrigin: Dynamic Bleeding Source Localization in Endoscopic Submucosal Dissection via Dual-Stage Detection and Tracking 作者: Mengya Xu / Rulin Zhou / An Wang / Chaoyang Lyu / Zhen Li / Ning Zhong / Hongliang Ren 原文: [英文] [中文] 备注: 27 pages, 14 figures 摘要: 在内镜黏膜下剥离术(ESD)过程中,术中出血带来了显著的风险,需要精确、实时地定位和持续监测出血源,以进行有效的止血干预。特别是,内镜医师必须反复冲洗以清除血液,这仅允许在毫秒内识别出血源,这一低效过程延长了手术时间并增加了患者风险。然而,目前的人工智能(AI)方法主要集中在出血区域分割上,忽视了在具有频繁视觉障碍和动态场景变化的挑战性ESD环境中,准确检测出血源和时间跟踪的关键需求。由于缺乏专门的数据集,这一差距进一步扩大,阻碍了强大的AI辅助引导系统的发展。为了解决这些挑战,我们引入了BleedOrigin-Bench,这是第一个全面的ESD出血源数据集,包含来自44个手术的106,222帧中1,771个专家标注的出血源,并补充了39,755个伪标记帧。该基准涵盖了8个解剖部位和6个具有挑战性的临床场景。我们还提出了BleedOrigin-Net,这是一种新颖的双阶段检测跟踪框架,用于ESD手术中的出血源定位,解决了从出血开始检测到持续空间跟踪的完整工作流程。我们与广泛使用的目标检测模型(YOLOv11/v12)、多模态大语言模型和点跟踪方法进行了比较。广泛的评估显示了最先进的性能,在出血开始检测中实现了96.85%的帧级准确率($\pm\leq8$帧),在初始源检测中实现了70.24%的像素级准确率($\leq100$ px),在点跟踪中实现了96.11%的像素级准确率($\leq100$ px)。 |
[83] LoopNet:一种用于大规模SLAM中回环检测的多任务小样本学习方法 标题: LoopNet: A Multitasking Few-Shot Learning Approach for Loop Closure in Large Scale SLAM 作者: Mohammad-Maher Nakshbandi / Ziad Sharawy / Sorin Grigorescu 原文: [英文] [中文] 备注: None 摘要: 同时定位与地图构建(SLAM)中的闭环问题的主要挑战之一是识别之前访问过的地点。在这项工作中,我们解决了实时SLAM系统的两个主要问题:1)闭环检测的准确性和2)嵌入式硬件上的实时计算约束。我们的LoopNet方法基于经典ResNet架构的多任务变体,适用于动态视觉数据集的在线再训练,并针对嵌入式设备进行了优化。在线再训练采用少样本学习方法设计。该架构不仅提供了查询视觉数据集的索引,还提供了预测质量的测量。此外,通过利用DISK(DIStinctive Keypoints)描述符,LoopNet超越了手工特征和传统深度学习方法的限制,在不同条件下提供了更好的性能。代码可在此https URL获取。此外,我们引入了一个新的闭环基准数据集,称为LoopDB,可在此https URL获取。 |
[84] 通过辅助任务和多标记预测增强视觉规划 标题: Enhancing Visual Planning with Auxiliary Tasks and Multi-token Prediction 作者: Ce Zhang / Yale Song / Ruta Desai / Michael Louis Iuzzolino / Joseph Tighe / Gedas Bertasius / Satwik Kottur 原文: [英文] [中文] 备注: None 摘要: 视觉辅助规划(VPA)旨在根据展示用户进度的视频预测实现特定目标所需的一系列用户动作。尽管多模态大型语言模型(MLLMs)的最新进展在视频理解方面显示出良好效果,但长时间跨度的视觉规划仍然是一个具有挑战性的问题。我们在为基于视频的规划任务训练大型MLLMs时识别出两个挑战:(1)程序性注释的稀缺性,限制了模型有效学习程序性任务动态的能力;(2)与自由形式的自然语言相比,下一标记预测目标在明确捕捉视觉规划的结构化动作空间方面效率低下。为了解决数据稀缺问题,我们引入了辅助任务增强。我们设计并在与长时间跨度视频规划相关的辅助任务(例如,目标预测)上训练我们的模型,以增强模型的规划能力。为了更明确地建模视觉规划任务独特的结构化动作空间,我们利用多标记预测,通过使用多个头在训练期间预测多个未来标记来扩展传统的下一标记预测。我们的方法,VideoPlan,在COIN和CrossTask数据集上实现了最先进的VPA性能,分别在预测3个未来动作时超过了之前的方法7.3%和3.4%。我们进一步将我们的方法扩展到具有挑战性的Ego4D长期动作预测任务,并表明尽管没有使用专门的自我中心特征,它仍然与最先进的方法相当。代码将会公开。 |
[85] 基于事件的图表示:结合空间和运动向量的异步目标检测 标题: Event-based Graph Representation with Spatial and Motion Vectors for Asynchronous Object Detection 作者: Aayush Atul Verma / Arpitsinh Vaghela / Bharatesh Chakravarthi / Kaustav Chanda / Yezhou Yang 原文: [英文] [中文] 备注: None 摘要: 事件传感器通过生成稀疏的异步数据,提供了高时间分辨率和低延迟。然而,将这种不规则数据转换为标准神经网络使用的密集张量会削弱这些固有优势,这激发了对图表示的研究。虽然此类方法保留了稀疏性并支持异步推理,但由于对时空动态的建模不佳,其在下游任务中的表现仍然有限。在这项工作中,我们提出了一种新颖的时空多重图表示,以更好地捕捉空间结构和时间变化。我们的方法构建了两个解耦的图:一个利用B样条基函数建模全局结构的空间图,以及一个利用基于运动矢量注意力捕捉局部动态变化的时间图。该设计使得可以使用高效的2D卷积核代替计算量大的3D卷积核。我们在Gen1汽车和eTraM数据集上评估了我们的方法,用于基于事件的目标检测,与之前的基于图的方法相比,检测准确率提高了超过6%,速度提高了5倍,参数数量减少,且计算成本没有增加。这些结果突显了结构化图建模在异步视觉中的有效性。项目页面:this http URL。 |
[86] MeshMamba:用于关节3D网格生成和重建的状态空间模型 标题: MeshMamba: State Space Models for Articulated 3D Mesh Generation and Reconstruction 作者: Yusuke Yoshiyasu / Leyuan Sun / Ryusuke Sagawa 原文: [英文] [中文] 备注: Accepted at ICCV2025 摘要: 在本文中,我们介绍了MeshMamba,这是一种通过使用最近提出的Mamba状态空间模型(Mamba-SSMs)来学习3D关节网格模型的神经网络模型。MeshMamba在处理大量输入标记时高效且可扩展,能够生成和重建具有超过10,000个顶点的身体网格模型,捕捉衣物和手部几何形状。有效学习MeshMamba的关键在于将网格顶点序列化为Mamba易于处理的顺序。这是通过根据身体部位注释或模板网格的3D顶点位置对顶点进行排序来实现的,以便顺序尊重关节形状的结构。基于MeshMamba,我们设计了1)MambaDiff3D,一种用于生成3D关节网格的去噪扩散模型,以及2)Mamba-HMR,一种从单张图像重建人体形状和姿势的3D人体网格恢复模型。实验结果表明,MambaDiff3D可以生成穿着衣物、握持手等的密集3D人体网格,并在3D人体形状生成任务中优于以往的方法。此外,Mamba-HMR扩展了以前非参数人体网格恢复方法的能力,这些方法仅限于使用约500个顶点标记处理仅身体姿势,而Mamba-HMR则能够处理包括面部和手部的全身设置,同时在(接近)实时中实现了具有竞争力的性能。 |
[87] 通过扩散噪声改进联合嵌入预测架构 标题: Improving Joint Embedding Predictive Architecture with Diffusion Noise 作者: Yuping Qiu / Rui Zhu / Ying-cong Chen 原文: [英文] [中文] 备注: None 摘要: 自监督学习已成为特征学习的一种极为成功的方法,被广泛应用于许多下游任务。它在判别任务中表现尤为出色,超越了当前流行的生成模型。然而,生成模型在图像生成和细节增强方面表现更佳。因此,我们自然希望在自监督学习(SSL)和生成模型之间找到一种联系,以进一步增强SSL的表示能力。由于生成模型可以通过逼近数据分布来创建新样本,这种建模也应导致对原始视觉数据的语义理解,这对于识别任务是必要的。这启发我们将扩散模型的核心原理:扩散噪声,与SSL结合,以学习一个具有竞争力的识别模型。具体来说,扩散噪声可以被视为一种特殊的掩码状态,揭示了掩码图像建模(MIM)与扩散模型之间的密切关系。在本文中,我们提出了N-JEPA(基于噪声的JEPA),通过掩码标记的位置嵌入将扩散噪声引入MIM。多级噪声调度是一系列特征增强,以进一步提高我们模型的鲁棒性。我们进行了全面的研究,以确认其在下游任务分类中的有效性。代码将很快公开发布。 |
[88] 用于逼真3D血管的分层部件生成模型 标题: Hierarchical Part-based Generative Model for Realistic 3D Blood Vessel 作者: Siqi Chen / Guoqing Zhang / Jiahao Lai / Bingzhi Shen / Sihong Zhang / Caixia Dong / Xuejin Chen / Yang Li 原文: [英文] [中文] 备注: None 摘要: 3D视觉的进步增加了血管建模在医学应用中的影响。然而,由于血管复杂的分支模式、曲率和不规则形状,准确表示其复杂的几何和拓扑结构仍然是一个挑战。在本研究中,我们提出了一种分层的基于部件的3D血管生成框架,该框架将全局的二叉树状拓扑结构与局部几何细节分开。我们的方法分为三个阶段:(1)关键图生成以建模整体的分层结构,(2)基于几何属性生成血管段,以及(3)通过根据全局关键图整合局部段进行分层血管组装。我们在真实世界的数据集上验证了我们的框架,展示了在复杂血管网络建模方面优于现有方法的性能。这项工作标志着首次成功应用基于部件的生成方法进行3D血管建模,为血管数据生成设立了新的基准。代码可在此网址获取:this https URL。 |
[89] Mammo-SAE:使用稀疏自编码器解释乳腺癌概念学习 标题: Mammo-SAE: Interpreting Breast Cancer Concept Learning with Sparse Autoencoders 作者: Krishna Kanth Nakka 原文: [英文] [中文] 备注: Preprint. Under review 摘要: 在高风险领域如医学影像中,可解释性至关重要,因为理解模型决策对于临床应用是必不可少的。在这项工作中,我们通过分析 {Mammo-CLIP},将基于稀疏自编码器(SAE)的可解释性引入乳腺影像。{Mammo-CLIP} 是一个在大规模乳腺X光图像和报告对上预训练的视觉-语言基础模型。我们在 Mammo-CLIP 上训练了一个补丁级别的 \texttt{Mammo-SAE},以识别和探测与临床相关的乳腺概念(如 \textit{肿块} 和 \textit{可疑钙化})相关的潜在特征。我们的研究结果表明,SAE 潜在空间中激活度最高的类别级别潜在神经元往往与真实区域对齐,并揭示了影响模型决策过程的若干混杂因素。此外,我们分析了模型在下游微调过程中依赖哪些潜在神经元来改善乳腺概念的预测。该研究强调了可解释的 SAE 潜在表示在为乳腺影像的基础模型每一层提供更深入的内部工作机制洞察方面的潜力。 |
[90] 跨领域小样本学习:融合投影与潜在空间保留 标题: Cross-Domain Few-Shot Learning with Coalescent Projections and Latent Space Reservation 作者: Naeem Paeedeh / Mahardhika Pratama / Wolfgang Mayer / Jimmy Cao / Ryszard Kowlczyk 原文: [英文] 备注: None 摘要: 尽管跨域小样本学习(CD-FSL)取得了进展,但结合原型分类器的DINO预训练模型仍然优于最新的SOTA方法。一个需要克服的关键限制是,更新过多的变压器参数会导致过拟合,因为标记样本稀缺。为了解决这一挑战,我们提出了一个新概念,合并投影(CP),作为软提示的有效继承者。此外,我们提出了一种新颖的伪类生成方法,结合自监督转换(SSTs),仅依赖基础域来准备网络以应对来自不同域的未见样本。所提出的方法在BSCD-FSL基准的极端域转移场景中表现出其有效性。我们的代码已发布在这个https URL。 |
[91] FreeCus:扩散变压器中的免费午餐主体驱动定制 标题: FreeCus: Free Lunch Subject-driven Customization in Diffusion Transformers 作者: Yanbing Zhang / Zhe Wang / Qin Zhou / Mengping Yang 原文: [英文] 备注: Accepted by ICCV 2025 摘要: 鉴于最近在文本到图像(T2I)生成领域的突破,特别是扩散变压器(DiT)的应用,基于主体的技术越来越多地被用于高保真定制化生产,这种生产能够从参考输入中保留主体身份,从而实现令人兴奋的设计工作流程和引人入胜的娱乐。现有的替代方案通常需要通过可训练的文本嵌入进行每个主体的优化,或者在大规模数据集上训练专门的编码器以提取主体特征。这种对训练过程的依赖从根本上限制了它们的实际应用。更重要的是,当前的方法未能充分利用现代扩散变压器(例如,Flux系列)固有的零样本潜力来进行真实的主体驱动合成。为弥补这一差距,我们提出了FreeCus,这是一种真正无需训练的框架,通过三个关键创新激活DiT的能力:1)我们引入了一种关键的注意力共享机制,该机制在保持重要编辑灵活性的同时捕捉主体的布局完整性。2)通过对DiT动态变化的简单分析,我们提出了一种升级版本,显著提高了细粒度特征提取。3)我们进一步整合了先进的多模态大语言模型(MLLMs),以丰富跨模态语义表示。大量实验表明,我们的方法成功地激发了DiT在不同背景下进行一致主体合成的零样本能力,取得了与需要额外训练的方法相比的最新或可比结果。值得注意的是,我们的框架与现有的修复管道和控制模块无缝兼容,促进了更具吸引力的体验。我们的代码可在此URL获取:this https URL。 |
[92] MinCD-PnP:通过近似盲PnP学习2D-3D对应关系 标题: MinCD-PnP: Learning 2D-3D Correspondences with Approximate Blind PnP 作者: Pei An / Jiaqi Yang / Muyao Peng / You Yang / Qiong Liu / Xiaolin Wu / Liangliang Nan 原文: [英文] [中文] 备注: Accepted by ICCV 2025 摘要: 图像到点云(I2P)配准是计算机视觉中的一个基本问题,重点在于建立图像与点云之间的2D-3D对应关系。微分透视-n-点(PnP)方法已被广泛用于监督I2P配准网络,通过对2D-3D对应关系施加投影约束。然而,微分PnP对预测的对应关系中的噪声和异常值高度敏感,这个问题阻碍了对应关系学习的有效性。受到盲PnP在对应关系中的噪声和异常值方面的鲁棒性启发,我们提出了一种基于近似盲PnP的对应关系学习方法。为了减轻盲PnP的高计算成本,我们将盲PnP简化为一个易处理的任务,即最小化学习到的2D和3D关键点之间的Chamfer距离,称为MinCD-PnP。为了有效解决MinCD-PnP,我们设计了一个轻量级的多任务学习模块,命名为MinCD-Net,可以轻松集成到现有的I2P配准架构中。在7-Scenes、RGBD-V2、ScanNet和自收集的数据集上的大量实验表明,MinCD-Net在跨场景和跨数据集设置中优于最先进的方法,并实现了更高的内点比率(IR)和配准召回率(RR)。 |
[93] 用于高效视频压缩的条件视频生成 标题: Conditional Video Generation for High-Efficiency Video Compression 作者: Fangqiu Yi / Jingyu Xu / Jiawei Shao / Chi Zhang / Xuelong Li 原文: [英文] [中文] 备注: None 摘要: 感知研究表明,条件扩散模型在重建与人类视觉感知一致的视频内容方面表现出色。基于这一见解,我们提出了一种视频压缩框架,该框架利用条件扩散模型实现感知优化的重建。具体来说,我们将视频压缩重新构建为一个条件生成任务,其中生成模型从稀疏但信息丰富的信号中合成视频。我们的方法引入了三个关键模块:(1)多粒度条件,捕捉静态场景结构和动态时空线索;(2)紧凑表示,旨在高效传输的同时不牺牲语义丰富性;(3)具有模态丢弃和角色感知嵌入的多条件训练,防止过度依赖任何单一模态并增强鲁棒性。大量实验表明,我们的方法在感知质量指标(如Fréchet视频距离(FVD)和LPIPS)上显著优于传统和神经编解码器,尤其是在高压缩比下。 |
[94] 面向面部识别系统的物理和数字攻击检测的视觉语言模型的上下文学习 标题: In-context Learning of Vision Language Models for Detection of Physical and Digital Attacks against Face Recognition Systems 作者: Lazaro Janier Gonzalez-Soler / Maciej Salwowski / Christoph Busch 原文: [英文] [中文] 备注: Submitted to IEEE-TIFS 摘要: 最近在生物识别系统方面的进展显著提高了对欺诈活动的检测和预防。然而,随着检测方法的改进,攻击技术也变得越来越复杂。对人脸识别系统的攻击可以大致分为物理和数字方法。传统上,深度学习模型一直是抵御此类攻击的主要防线。虽然这些模型在其训练的场景中表现出色,但它们往往难以适应不同类型的攻击或变化的环境条件。这些子系统需要大量的训练数据才能实现可靠的性能,但生物识别数据的收集面临重大挑战,包括隐私问题和在受控条件下捕捉多样化攻击场景的后勤困难。本文研究了视觉语言模型(VLM)的应用,并提出了一种用于检测生物识别系统中物理呈现攻击和数字变形攻击的上下文学习框架。通过上下文学习技术,首次建立了在安全关键场景中对VLM进行定量评估的系统框架,重点关注开源模型。在免费数据库上进行的实验评估表明,所提出的子系统在物理和数字攻击检测方面实现了具有竞争力的性能,优于一些传统的卷积神经网络(CNN),而无需资源密集型训练。实验结果验证了所提出的框架作为提高攻击检测泛化能力的一个有前途的工具。 |
[95] 基于细节点锚定的局部密集表示用于指纹匹配 标题: Minutiae-Anchored Local Dense Representation for Fingerprint Matching 作者: Zhiyu Pan / Xiongjun Guan / Yongjie Duan / Jianjiang Feng / Jie Zhou 原文: [英文] [中文] 备注: Under review 摘要: 在不同采集条件下进行指纹匹配仍然是生物识别中的一个基本挑战。为了在这种情况下实现稳健和准确的性能,我们提出了DMD,一种基于细节点的局部密集表示方法,该方法以空间结构化的方式捕捉细粒度的脊纹纹理和具有辨别力的细节点特征。具体来说,从以每个检测到的细节点为中心并定向的局部区域中提取描述符,形成一个三维张量,其中两个维度表示指纹平面上的空间位置,第三个维度编码语义特征。这种表示方法明确地捕捉了局部图像块的抽象特征,使得能够进行多层次、细粒度的描述,聚合来自多个细节点及其周围脊结构的信息。此外,由于其与图像块的强空间对应性,DMD允许使用前景分割掩码来识别有效的描述符区域。在匹配过程中,比较仅限于重叠的前景区域,从而提高了效率和稳健性。在滚动、平面、部分、无接触和潜在指纹数据集上的大量实验表明了该方法的有效性和普适性。它在多个基准上实现了最先进的准确性,同时保持了高计算效率,显示出在大规模指纹识别中的强大潜力。相关代码可在此https URL获取。 |
[96] 通过空间-通道状态空间模型进行小样本目标检测 标题: Few-Shot Object Detection via Spatial-Channel State Space Model 作者: Zhimeng Xin / Tianxu Wu / Yixiong Zou / Shiming Chen / Dingjie Fu / Xinge You 原文: [英文] [中文] 备注: None 摘要: 由于少样本目标检测(FSOD)中的训练样本有限,我们观察到当前的方法可能难以准确地从每个通道中提取有效特征。具体来说,这个问题体现在两个方面:i) 权重高的通道不一定有效,ii) 权重低的通道可能仍然具有重要价值。为了解决这个问题,我们考虑利用通道间的相关性来促进新模型对新条件的适应过程,确保模型能够正确突出有效通道并纠正那些不正确的通道。由于通道序列也是一维的,其与时间序列的相似性启发我们使用Mamba来建模通道序列中的相关性。基于这一概念,我们提出了一种空间-通道状态空间建模(SCSM)模块,用于空间-通道状态建模,突出特征通道中的有效模式并纠正那些无效的模式。在SCSM中,我们设计了空间特征建模(SFM)模块,以平衡空间关系和通道关系的学习,然后基于Mamba引入通道状态建模(CSM)模块,以学习通道中的相关性。在VOC和COCO数据集上的大量实验表明,SCSM模块使新颖的检测器能够提高通道中聚焦特征表示的质量,并实现最先进的性能。 |
[97] BenchDepth:我们在评估深度基础模型的正确道路上吗? 标题: BenchDepth: Are We on the Right Way to Evaluate Depth Foundation Models? 作者: Zhenyu Li / Haotong Lin / Jiashi Feng / Peter Wonka / Bingyi Kang 原文: [英文] [中文] 备注: Webpage: this https URL 摘要: 深度估计是计算机视觉中的一项基础任务,具有多种应用。最近深度学习的进步催生了强大的深度基础模型(DFMs),但由于现有评估协议的不一致性,其评估仍然具有挑战性。传统的基准测试依赖于基于对齐的指标,这些指标引入了偏差,偏向某些深度表示,并使公平比较变得复杂。在这项工作中,我们提出了BenchDepth,一个通过五个精心选择的下游代理任务来评估DFMs的新基准:深度补全、立体匹配、单目前馈3D场景重建、SLAM和视觉-语言空间理解。与传统评估协议不同,我们的方法基于DFMs在实际应用中的实用性进行评估,绕过了有问题的对齐程序。我们对八个最先进的DFMs进行了基准测试,并提供了关键发现和观察的深入分析。我们希望我们的工作能在社区中引发关于深度模型评估最佳实践的进一步讨论,并为未来的研究和深度估计的进步铺平道路。 |
[98] ExDD:通过扩散合成进行表面缺陷检测的显式双重分布学习 标题: ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis 作者: Muhammad Aqeel / Federico Leonardi / Francesco Setti 原文: [英文] 备注: Accepted to ICIAP 2025 摘要: 工业缺陷检测系统在仅限于单类异常检测范式时面临关键限制,这种范式假设异常分布是均匀的,并且在现实世界的制造环境中难以应对数据稀缺的问题。我们提出了ExDD(显式双分布),这是一种新颖的框架,通过显式建模双特征分布来超越这些限制。我们的方法利用并行内存库来捕捉正常和异常模式的不同统计特性,从而解决了均匀异常假设的根本缺陷。为了克服数据稀缺问题,我们采用具有领域特定文本条件的潜在扩散模型,生成保持工业背景的分布内合成缺陷。我们的邻域感知比率评分机制巧妙地融合了互补的距离度量,增强了在偏离正常性和与已知缺陷模式相似的区域中的信号。在KSDD2上的实验验证显示出卓越的性能(94.2% I-AUROC,97.7% P-AUROC),在100个合成样本时达到最佳增强效果。 |
[99] RoadFusion:用于路面缺陷检测的潜在扩散模型 标题: RoadFusion: Latent Diffusion Model for Pavement Defect Detection 作者: Muhammad Aqeel / Kidus Dagnaw Bellete / Francesco Setti 原文: [英文] 备注: Accepted to ICIAP 2025 摘要: 路面缺陷检测面临着关键挑战,包括有限的标注数据、训练和部署环境之间的领域转移,以及不同道路条件下缺陷外观的高度变化。我们提出了RoadFusion,一个通过合成异常生成和双路径特征适应来解决这些限制的框架。一个潜在扩散模型使用文本提示和空间掩码合成多样化、逼真的缺陷,从而在数据稀缺的情况下实现有效训练。两个独立的特征适配器专门化正常和异常输入的表示,提高了对领域转移和缺陷多样性的鲁棒性。一个轻量级的判别器学习在补丁级别区分细粒度的缺陷模式。在六个基准数据集上进行评估,RoadFusion在分类和定位任务中均表现出一致的强劲性能,在多个与实际道路检测相关的指标上设定了新的最先进水平。 |
[100] DAViD:从合成数据中获取数据高效且准确的视觉模型 标题: DAViD: Data-efficient and Accurate Vision Models from Synthetic Data 作者: Fatemeh Saleh / Sadegh Aliakbarian / Charlie Hewitt / Lohit Petikam / Xiao-Xian / Antonio Criminisi / Thomas J. Cashman / Tadas Baltrušaitis 原文: [英文] 备注: Accepted at ICCV 2025 摘要: 当前人类中心计算机视觉领域的技术在各种任务中实现了高精度和高鲁棒性。该领域中最有效的模型拥有数十亿个参数,因此需要极其庞大的数据集、昂贵的训练过程和计算密集型的推理。在本文中,我们展示了可以在更小但高保真的合成数据集上训练模型,而不损失精度并提高效率。使用合成训练数据为我们提供了极高的细节水平和完美的标签,同时为数据来源、使用权和用户同意提供了强有力的保证。程序化数据合成还使我们能够明确控制数据多样性,从而可以用来解决我们训练的模型中的不公平性。在真实输入图像上的广泛定量评估表明,我们的模型在三个密集预测任务中的准确性:深度估计、表面法线估计和软前景分割。与具有类似精度的基础模型相比,我们的模型只需一小部分训练和推理成本。我们的人类中心合成数据集和训练模型可在此https URL获取。 |
[101] 重新思考面部表情识别中的遮挡问题:一种语义感知的视角及超越 标题: Rethinking Occlusion in FER: A Semantic-Aware Perspective and Go Beyond 作者: Huiyu Zhai / Xingxing Yang / Yalan Ye / Chenyang Li / Bin Fan / Changze Li 原文: [英文] [中文] 备注: None 摘要: 面部表情识别(FER)由于普遍存在的遮挡和数据集偏差而成为一项具有挑战性的任务。特别是当面部信息部分被遮挡时,现有的FER模型难以提取有效的面部特征,导致分类不准确。对此,我们提出了ORSANet,它引入了以下三个关键贡献:首先,我们引入辅助多模态语义指导来消除面部遮挡的歧义并学习高级语义知识,这包括两个方面:1)我们引入语义分割图作为密集语义先验,以生成语义增强的面部表示;2)我们引入面部标志点作为稀疏几何先验,以减轻FER中的内在噪声,如身份和性别偏差。其次,为了有效整合这两种多模态先验,我们定制了一个多尺度交叉交互模块(MCM),以在不同尺度内自适应地融合标志点特征和语义增强表示。第三,我们设计了一种动态对抗排斥增强损失(DARELoss),动态调整模糊类别的边界,进一步增强模型区分相似表情的能力。我们还构建了第一个面向遮挡的FER数据集,以促进对各种现实世界遮挡条件的专门鲁棒性分析,称为Occlu-FER。在公共基准和Occlu-FER上的大量实验表明,我们提出的ORSANet实现了SOTA识别性能。代码可在此https URL公开获取。 |
[102] SurgX:用于可解释的手术阶段识别的神经元-概念关联 标题: SurgX: Neuron-Concept Association for Explainable Surgical Phase Recognition 作者: Ka Young Kim / Hyeon Bae Kim / Seong Tae Kim 原文: [英文] [中文] 备注: Accepted to MICCAI 2025 摘要: 手术阶段识别在手术工作流分析中起着至关重要的作用,能够支持手术监控、技能评估和工作流优化等多种应用。尽管基于深度学习的手术阶段识别取得了显著进展,这些模型仍然本质上不透明,使得理解它们如何做出决策变得困难。这种缺乏可解释性的问题阻碍了信任,并使得调试模型变得具有挑战性。为了解决这一挑战,我们提出了SurgX,这是一种新颖的基于概念的解释框架,通过将神经元与相关概念关联来增强手术阶段识别模型的可解释性。在本文中,我们介绍了为神经元选择代表性示例序列的过程,构建了一个针对手术视频数据集的概念集,将神经元与概念关联,并识别出对预测至关重要的神经元。通过对两个手术阶段识别模型进行广泛的实验,我们验证了我们的方法并分析了预测的解释。这突显了我们的方法在解释手术阶段识别方面的潜力。代码可在此https URL获取。 |
[103] EgoPrune:用于具身智能体自运动视频推理的高效标记剪枝 标题: EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent 作者: Jiaao Li / Kaiyuan Li / Chen Gao / Yong Li / Xinlei Chen 原文: [英文] [中文] 备注: None 摘要: 自我运动视频是第一人称录制的视频,由于主体的移动,视角会不断变化。作为具身人工智能代理的主要视觉输入,使自我运动视频推理更高效对于实际应用至关重要。近期在视觉-语言模型方面的进展使得强大的多模态推理能力成为可能,但对于冗长且冗余的视频输入,其计算成本仍然过高。现有的令牌剪枝方法通常是为第三人称视频设计的,未能利用自我运动环境中固有的时空连续性和运动约束。为了解决这个问题,我们提出了EgoPrune,一种专为自我运动视频推理设计的无训练令牌剪枝方法。EgoPrune由三个组件组成:从EmbodiedR改编的关键帧选择器,用于时间上高效的采样;视角感知冗余过滤(PARF),通过视角变换对齐视觉令牌并去除冗余令牌;以及基于最大边际相关性(MMR)的令牌选择器,综合考虑视觉-文本相关性和帧内多样性。在两个自我运动视频基准上的实验表明,EgoPrune在各种剪枝比率下始终优于现有的无训练方法,同时显著减少了FLOPs、内存使用和延迟。此外,我们将EgoPrune部署在配备Jetson Orin NX 16GB边缘设备的具身代理上,展示了其在实际应用中的效率和适合性。 |
[104] 为您的视觉-语言模型提供最后一次注意 标题: One Last Attention for Your Vision-Language Model 作者: Liang Chen / Ghazi Shazan Ahmad / Tianjun Yao / Lingqiao Liu / Zhiqiang Shen 原文: [英文] 备注: Accepted by ICCV 2025 摘要: 预训练的视觉-语言模型(VLMs),如CLIP,在零样本任务中表现出色,但其在下游任务中的潜力依赖于有效的微调。大多数适应方法通常专注于从单独的模态(文本或视觉)中优化表示,但忽视了它们融合表示在决策过程中的关键作用,即驱动最终预测的理性矩阵。为弥补这一差距,我们提出了一种简单而有效的理性适应(RAda),在微调过程中显式利用最终的融合表示。RAda 通过在 VLM 末端附加的轻量级注意力层获得的学习掩码,动态校准理性矩阵中每个元素的贡献,从而在不对中间特征进行昂贵修改的情况下,实现对最终跨模态交互的有针对性调整。在不同设置下的实验(即更新或冻结预训练编码器进行适应,以及只能访问未标记测试数据的测试时训练)表明,RAda 作为一种多功能的微调技术,以最少的代码改进基线,并在大多数设置中与当前技术水平相当。代码可在此网址获取。 |
[105] 用于复杂森林地形搜索任务的航空彩色图像异常数据集 标题: An aerial color image anomaly dataset for search missions in complex forested terrain 作者: Rakesh John Amala Arokia Nathan / Matthias Gessner / Nurullah Özkan / Marius Bock / Mohamed Youssef / Maximilian Mews / Björn Piltz / Ralf Berger / Oliver Bimber 原文: [英文] [中文] 备注: 17 pages 摘要: 在德国乡村发生一起家庭谋杀案后,尽管进行了大规模搜寻,执法机关仍未能在广阔的森林中找到嫌疑犯。为了协助搜寻,一架研究飞机拍摄了高分辨率的航拍图像。由于茂密的植被遮挡了小线索,自动化分析未能奏效,这促使了一项群众搜寻行动。该行动产生了一个独特的数据集,其中标记了在遮挡的现实条件下难以检测的异常。这可以作为一个基准,用于改善复杂森林环境中的异常检测方法,支持追捕和救援行动。初步基准测试显示现有方法表现不佳,突显了需要上下文感知的方法。该数据集可公开访问以进行离线处理。一个额外的互动网络界面支持在线查看和动态增长,允许用户标注和提交新发现。 |
[106] 稠密深度图引导的稀疏点云和图像深度激光雷达-视觉里程计 标题: Dense-depth map guided deep Lidar-Visual Odometry with Sparse Point Clouds and Images 作者: JunYing Huang / Ao Xu / DongSun Yong / KeRen Li / YuanFeng Wang / Qi Qin 原文: [英文] [中文] 备注: None 摘要: 里程计是自主系统进行自我定位和导航的关键任务。我们提出了一种新颖的LiDAR-视觉里程计框架,该框架集成了LiDAR点云和图像,以实现精确且稳健的位姿估计。我们的方法利用通过深度补全从点云和图像估计的密集深度图,并结合具有注意力机制的多尺度特征提取网络,从而实现自适应的深度感知表示。此外,我们利用密集深度信息来优化流估计,并减轻在易遮挡区域的误差。我们的分层位姿优化模块逐步优化运动估计,确保在动态环境和尺度模糊情况下的稳健预测。在KITTI里程计基准上的综合实验表明,与最先进的视觉和LiDAR里程计方法相比,我们的方法在精度和稳健性方面达到了相似或更优的表现。 |
[107] 量化和缩小未知:通过不确定性最小化进行交互式文本到视频检索 标题: Quantifying and Narrowing the Unknown: Interactive Text-to-Video Retrieval via Uncertainty Minimization 作者: Bingqing Zhang / Zhuo Cao / Heming Du / Yang Li / Xue Li / Jiajun Liu / Sen Wang 原文: [英文] 备注: Accepted by ICCV 2025 摘要: 尽管近年来取得了一些进展,文本到视频检索(TVR)仍然受到多种固有不确定性的阻碍,例如模糊的文本查询、不明确的文本-视频映射以及低质量的视频帧。虽然交互式系统已经出现,通过澄清问题来细化用户意图以应对这些挑战,但当前的方法通常依赖于启发式或临时策略,而没有明确量化这些不确定性,限制了其有效性。受到这一差距的启发,我们提出了UMIVR,一种不确定性最小化的交互式文本到视频检索框架,该框架通过原则性、无需训练的指标明确量化三个关键不确定性——文本模糊性、映射不确定性和帧不确定性:基于语义熵的文本模糊性评分(TAS)、基于Jensen-Shannon散度的映射不确定性评分(MUS)以及基于时间质量的帧采样器(TQFS)。通过这些不确定性度量指导自适应生成针对性的澄清问题,UMIVR迭代地细化用户查询,显著减少检索模糊性。在多个基准上的广泛实验验证了UMIVR的有效性,在MSR-VTT-1k数据集上经过10轮交互后在Recall@1上取得了显著的提升(69.2%),从而为交互式TVR建立了一个不确定性最小化的基础。 |
[108] SAIGFormer:一种用于低光图像增强的空间自适应光照引导网络 标题: SAIGFormer: A Spatially-Adaptive Illumination-Guided Network for Low-Light Image Enhancement 作者: Hanting Li / Fei Zhou / Xin Sun / Yang Hua / Jungong Han / Liang-Jie Zhang 原文: [英文] [中文] 备注: 11 pages, 10 figures, 6 tables 摘要: 最近基于Transformer的低光增强方法在恢复全局照明方面取得了可喜的进展。然而,它们在处理非均匀光照场景(如逆光和阴影)时仍然存在困难,这些场景表现为过度曝光或亮度恢复不足。为了解决这一挑战,我们提出了一种空间自适应照明引导Transformer(SAIGFormer)框架,以实现精确的照明恢复。具体来说,我们提出了一种动态积分图像表示来建模空间变化的照明,并进一步构建了一种新颖的空间自适应积分照明估计器($\text{SAI}^2\text{E}$)。此外,我们引入了一种照明引导的多头自注意力(IG-MSA)机制,该机制利用照明来校准与亮度相关的特征,以实现视觉上令人满意的照明增强。在五个标准低光数据集和一个跨域基准(LOL-Blur)上的大量实验表明,我们的SAIGFormer在定量和定性指标上显著优于最先进的方法。特别是,我们的方法在非均匀照明增强方面表现出色,同时在多个数据集上表现出强大的泛化能力。代码可在此https URL获取。 |
[109] 通过正则化Gromov-Wasserstein最优传输进行过程学习 标题: Procedure Learning via Regularized Gromov-Wasserstein Optimal Transport 作者: Syed Ahmed Mahmood / Ali Shah Ali / Umer Ahmed / Fawad Javed Fateh / M. Zeeshan Zia / Quoc-Huy Tran 原文: [英文] [中文] 备注: None 摘要: 我们研究了自监督程序学习的问题,该问题从一组未标记的程序视频中发现关键步骤并确定其顺序。以前的程序学习方法通常在确定关键步骤及其顺序之前,学习视频之间的帧对帧对应关系。然而,它们的性能常常受到顺序变化、背景/冗余帧和重复动作的影响。为了解决这些挑战,我们提出了一种自监督程序学习框架,该框架利用融合的Gromov-Wasserstein最优传输公式和结构先验来计算视频之间的帧对帧映射。然而,仅针对上述时间对齐项进行优化可能导致退化的解决方案,其中所有帧都映射到嵌入空间中的一个小簇,因此每个视频仅与一个关键步骤相关联。为了解决这一限制,我们进一步整合了对比正则化项,该项将不同的帧映射到嵌入空间中的不同点,避免陷入平凡的解决方案。最后,我们在大规模的第一人称(即EgoProceL)和第三人称(即ProceL和CrossTask)基准上进行了广泛的实验,以证明我们的方法相对于以前的方法(包括依赖于传统Kantorovich最优传输公式和最优性先验的OPEL)具有优越的性能。 |
[110] 走向整体化的手术场景图 标题: Towards Holistic Surgical Scene Graph 作者: Jongmin Shin / Enki Cho / Ka Yong Kim / Jung Yong Kim / Seong Tae Kim / Namkee Oh 原文: [英文] [中文] 备注: Accepted to MICCAI 2025 摘要: 手术场景理解对于计算机辅助干预系统至关重要,它需要对手术场景进行视觉理解,其中涉及多种元素,如手术工具、解剖结构及其相互作用。为了有效地表示手术场景中的复杂信息,研究人员探索了基于图的方式来结构化地建模手术实体及其关系。先前的手术场景图研究已经证明了使用图来表示手术场景的可行性。然而,手术场景中的某些方面——例如工具-动作-目标的多样组合以及操作工具的手的身份——在基于图的表示中仍未得到充分探索,尽管它们非常重要。为了将这些方面纳入图表示中,我们提出了Endoscapes-SG201数据集,其中包括工具-动作-目标组合和手的身份的注释。我们还介绍了SSG-Com,这是一种基于图的方法,旨在学习和表示这些关键元素。通过在安全评估的关键视图和动作三元组识别等下游任务上的实验,我们证明了整合这些基本场景图组件的重要性,突出了它们对手术场景理解的显著贡献。代码和数据集可在此https URL获取。 |
[111] HOLa:通过低秩分解的视觉语言模型特征适配实现零样本人机交互检测 标题: HOLa: Zero-Shot HOI Detection with Low-Rank Decomposed VLM Feature Adaptation 作者: Qinqian Lei / Bo Wang / Robby T. Tan 原文: [英文] [中文] 备注: Accepted by ICCV 2025 摘要: 零样本人类-物体交互(HOI)检测仍然是一个具有挑战性的任务,特别是在推广到未见过的动作时。现有的方法通过利用视觉-语言模型(VLMs)来获取超出训练数据的知识,以应对这一挑战。然而,它们要么难以区分涉及相同物体的动作,要么在推广到未见类别时表现出有限的泛化能力。在本文中,我们介绍了HOLa(通过低秩分解的VLM特征适应进行零样本HOI检测),这是一种新颖的方法,既增强了对未见类别的泛化能力,又改善了动作区分。在训练中,HOLa通过低秩分解对给定HOI类别的VLM文本特征进行分解,生成类别共享的基础特征和可适应的权重。这些特征和权重形成了一个紧凑的HOI表示,保留了跨类别的共享信息,增强了对未见类别的泛化能力。随后,我们通过为每个HOI类别调整权重并引入人类-物体标记来丰富视觉交互表示,从而改进动作区分。为了进一步区分未见动作,我们通过LLM导出的动作正则化来指导权重适应。实验结果表明,我们的方法在HICO-DET的零样本HOI设置中设定了新的最先进水平,在未见动词设置中实现了27.91的未见类别mAP。我们的代码可在此https URL获取。 |
[112] DynImg:带有视觉提示的关键帧是多模态视频理解的良好表示 标题: DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding 作者: Xiaoyi Bao / Chenwei Xie / Hao Tang / Tingyu Weng / Xiaofeng Wang / Yun Zheng / Xingang Wang 原文: [英文] 备注: Accepted by ICCV 2025 摘要: 近年来,多模态大语言模型(MLLMs)在视频理解任务中的应用变得越来越普遍。然而,如何有效整合时间信息仍然是一个关键的研究重点。传统方法通常将空间和时间信息分开处理。由于运动模糊等问题,准确表示快速移动物体的空间信息具有挑战性。这可能导致在空间特征提取过程中,时间上重要的区域被忽视,从而阻碍了准确的时空交互和视频理解。为了解决这一限制,我们提出了一种创新的视频表示方法,称为动态图像(DynImg)。具体来说,我们引入了一组非关键帧作为时间提示,以突出包含快速移动物体的空间区域。在视觉特征提取过程中,这些提示引导模型对这些区域对应的细粒度空间特征给予额外关注。此外,为了保持 DynImg 的正确顺序,我们采用了相应的四维视频旋转位置嵌入。这保留了 DynImg 的时间和空间邻接性,帮助 MLLM 理解这种组合格式中的时空顺序。实验评估表明,DynImg 在多个视频理解基准上超越了最先进的方法约 2%,证明了我们的时间提示在增强视频理解方面的有效性。 |
[113] GeMix:基于条件生成对抗网络的混合增强技术用于改进医学图像增强 标题: GeMix: Conditional GAN-Based Mixup for Improved Medical Image Augmentation 作者: Hugo Carlesso / Maria Eliza Patulea / Moncef Garouani / Radu Tudor Ionescu / Josiane Mothe 原文: [英文] [中文] 备注: None 摘要: Mixup 已成为图像分类中一种流行的数据增强策略,但其简单的像素级插值常常会产生不真实的图像,可能会阻碍学习,尤其是在高风险的医学应用中。我们提出了 GeMix,这是一种两阶段框架,用学习到的、标签感知的插值替代了启发式的混合,利用类条件生成对抗网络(GANs)实现。首先,我们在目标数据集上训练一个 StyleGAN2-ADA 生成器。在增强过程中,我们从偏向不同类别的 Dirichlet 先验中采样两个标签向量,并通过 Beta 分布系数对它们进行混合。然后,我们将生成器置于这个软标签的条件下,以合成视觉上连贯的图像,这些图像位于连续的类别流形上。我们在大规模 COVIDx-CT-3 数据集上使用三种骨干网络(ResNet-50、ResNet-101、EfficientNet-B0)对 GeMix 进行了基准测试。当与真实数据结合时,我们的方法在所有骨干网络上都提高了传统 mixup 的宏观 F1 分数,降低了 COVID-19 检测的假阴性率。因此,GeMix 可以作为像素空间 mixup 的直接替代,提供更强的正则化和更高的语义保真度,而不会干扰现有的训练流程。我们在此 https URL 上公开发布了我们的代码,以促进可重复性和进一步研究。 |
[114] 压缩-对齐-检测:基于未配准图像的机载变化检测 标题: Compress-Align-Detect: onboard change detection from unregistered images 作者: Gabriele Inzerillo / Diego Valsesia / Aniello Fiengo / Enrico Magli 原文: [英文] [中文] 备注: None 摘要: 从卫星图像进行变化检测通常会因为下行传输已获取图像和在地面站生成正射校正图像产品的延迟而导致延迟,时间范围从几小时到几天不等;这可能会妨碍实时或近实时应用。为克服这一限制,我们提出将整个变化检测工作流程转移到卫星上进行。这需要在数据存储、图像配准和变化检测方面同时解决具有严格复杂性约束的挑战。在本文中,我们提出了一种新颖且高效的卫星载荷变化检测框架,该框架通过一个由三个相互关联的子模块组成的深度神经网络以端到端的方式解决上述挑战:(1)图像压缩,旨在最大限度地减少卫星载荷数据存储资源;(2)轻量级的非正射校正多时相图像对的配准;(3)一种新颖的时间不变且计算高效的变化检测模型。这是文献中首次将所有这些任务结合在一个单一的端到端框架中,并符合卫星载荷处理所需的约束。实验结果将每个子模块与当前最先进技术进行比较,并在低功耗硬件的实际环境中评估整个集成系统的性能。在压缩率作为函数的F1得分方面获得了令人信服的变化检测结果,在15W加速器上维持0.7 Mpixel/s的吞吐量。 |
[115] SegDT:一种基于扩散变换器的医学影像分割模型 标题: SegDT: A Diffusion Transformer-Based Segmentation Model for Medical Imaging 作者: Salah Eddine Bekhouche / Gaby Maroun / Fadi Dornaika / Abdenour Hadid 原文: [英文] [中文] 备注: None 摘要: 医学图像分割对于许多医疗任务至关重要,包括疾病诊断和治疗规划。其中一个关键领域是皮肤病变的分割,这对于诊断皮肤癌和监测患者至关重要。在此背景下,本文介绍了SegDT,这是一种基于扩散变压器(DiT)的新分割模型。SegDT旨在在低成本硬件上运行,并结合了Rectified Flow,这提高了生成质量,同时减少了推理步骤,并保持了标准扩散模型的灵活性。我们的方法在三个基准数据集上进行了评估,并与几种现有方法进行了比较,取得了最先进的结果,同时保持了快速的推理速度。这使得所提出的模型对于实际医疗应用具有吸引力。这项工作提高了深度学习模型在医学图像分析中的性能和能力,使医疗专业人员能够使用更快、更准确的诊断工具。代码已在 \href{this https URL}{GitHub} 上公开提供。 |
[116] Being-H0:从大规模人类视频中进行视觉-语言-动作预训练 标题: Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos 作者: Hao Luo / Yicheng Feng / Wanpeng Zhang / Sipeng Zheng / Ye Wang / Haoqi Yuan / Jiazheng Liu / Chaoyi Xu / Qin Jin / Zongqing Lu 原文: [英文] [中文] 备注: 37 pages 摘要: 我们介绍了Being-H0,这是一种灵巧的视觉-语言-动作模型(VLA),在大规模人类视频上进行训练。现有的VLA在处理需要高灵巧度的复杂操作任务时表现不佳,并且在新场景和任务上的泛化能力较差,主要是因为它们依赖于具有显著模拟到现实差距的合成数据或缺乏规模和多样性的远程操作演示。为了解决这一数据瓶颈,我们提出利用人类手作为基础操控器,利用网络数据中丰富的灵巧性和可扩展性。我们的方法以物理指令调优为核心,这是一种新颖的训练范式,结合了来自人类视频的大规模VLA预训练、用于3D推理的物理空间对齐以及用于机器人任务的后训练适应。此外,我们引入了一种部件级运动标记化方法,实现了毫米级重建精度,以建模精确的手部轨迹进行动作学习。为了支持我们提出的范式,我们进一步开发了一个综合的数据策划管道,将包括动作捕捉、VR和仅RGB视频在内的异构来源整合到一个拥有数百万基于运动的指令实例的大规模数据集中。我们通过实验证明了Being-H0在手部运动生成和指令跟随方面的卓越表现,并且在模型和数据规模上具有良好的扩展性。重要的是,我们观察到在应用物理指令调优时,Being-H0在现实世界机器人操作中的预期收益。更多细节请访问此https URL。 |
[117] SurfaceSplat:连接表面重建与高斯点绘 标题: SurfaceSplat: Connecting Surface Reconstruction and Gaussian Splatting 作者: Zihui Gao / Jia-Wang Bian / Guosheng Lin / Hao Chen / Chunhua Shen 原文: [英文] 备注: None 摘要: 从稀疏视图图像进行表面重建和新视图渲染是一个具有挑战性的任务。基于符号距离函数(SDF)的方法在处理细节方面存在困难,而基于三维高斯散点(3DGS)的方法则缺乏全局几何一致性。我们提出了一种新颖的混合方法,结合了这两种方法的优点:SDF 捕捉粗略几何形状以增强基于 3DGS 的渲染,而从 3DGS 新渲染的图像则细化 SDF 的细节以实现精确的表面重建。因此,我们的方法在 DTU 和 MobileBrick 数据集上的表面重建和新视图合成方面超越了最先进的方法。代码将在此 https URL 发布。 |
[118] CylinderPlane:用于三维感知图像生成的嵌套圆柱体表示 标题: CylinderPlane: Nested Cylinder Representation for 3D-aware Image Generation 作者: Ru Jia / Xiaozhuang Ma / Jianji Wang / Nanning Zheng 原文: [英文] [中文] 备注: 5 pages, 4 figures, to be published 摘要: 虽然三平面(Tri-plane)表示法的提出推动了三维感知图像生成模型的发展,但其固有结构中存在的问题,如由于对称区域共享相同特征而导致的多面伪影,限制了其生成360度视图图像的能力。在本文中,我们提出了CylinderPlane,一种基于圆柱坐标系的新型隐式表示法,以消除特征歧义问题并确保360度多视图一致性。与基于笛卡尔坐标的三平面表示法中不可避免的特征纠缠不同,圆柱坐标系明确地分离了不同角度的特征,使得我们的圆柱表示法能够实现高质量、无伪影的360度图像合成。我们进一步引入了嵌套圆柱表示法,该方法在不同尺度上组合多个圆柱,从而使模型更适应复杂的几何形状和变化的分辨率。不同分辨率的圆柱组合可以有效捕捉更多关键位置和多尺度特征,大大促进了细节学习的精细化和对不同分辨率的鲁棒性。此外,我们的表示法与隐式渲染方法无关,可以轻松集成到任何神经渲染管道中。在合成数据集和非结构化的自然图像上的大量实验表明,我们提出的表示法在性能上优于以往的方法。 |
[119] 基于深度神经网络的视频分析效率优化技术综述:处理系统、算法与应用 标题: A Survey on Efficiency Optimization Techniques for DNN-based Video Analytics: Process Systems, Algorithms, and Applications 作者: Shanjiang Tang / Rui Huang / Hsinyu Luo / Chunjiang Wang / Ce Yu / Yusen Li / Hao Fu / Chao Sun / and Jian Xiao 原文: [英文] [中文] 备注: None 摘要: 近年来,视频数据的爆炸性增长对视频分析提出了更高的要求,其中准确性和效率仍然是两个主要关注点。深度神经网络(DNNs)已被广泛采用以确保准确性;然而,提高其在视频分析中的效率仍然是一个未解决的挑战。不同于现有的主要从准确性优化方面对基于DNN的视频进行总结的综述,在本综述中,我们旨在对聚焦于提高DNN在视频分析中效率的优化技术进行全面回顾。我们以自下而上的方式组织现有方法,涵盖多个视角,如硬件支持、数据处理、操作部署等。最后,基于优化框架和现有工作,我们分析并讨论了基于DNN的视频分析在性能优化中存在的问题和挑战。 |
[120] 在中世纪音乐手稿中实验主动学习和序列学习 标题: Experimenting active and sequential learning in a medieval music manuscript 作者: Sachin Sharma / Federico Simonetta / Michele Flammini 原文: [英文] 备注: 6 pages, 4 figures, accepted at IEEE MLSP 2025 (IEEE International Workshop on Machine Learning for Signal Processing). Special Session: Applications of AI in Cultural and Artistic Heritage 摘要: 光学音乐识别(OMR)是文化遗产音乐数字化项目的基石,但由于注释数据的稀缺性和历史手稿的复杂性,其发展仍然受到限制。在本文中,我们对适用于古代中世纪音乐手稿中的目标检测和布局识别的主动学习(AL)和序列学习(SL)进行了初步研究。利用YOLOv8,我们的系统选择不确定性最高(预测置信度最低)的样本进行迭代标注和再训练。我们的方法从单个标注图像开始,在最小化人工标注的同时成功提升了性能。实验结果表明,与完全监督训练相比,可以用显著更少的标注样本实现相当的准确性。我们在Anonymous项目提供给社区的新数据集上测试了这一方法,该项目研究了12至16世纪在意大利广泛传播的诗歌音乐体裁laude。我们展示了在手头的手稿中,基于不确定性的主动学习并不有效,并倡导在数据稀缺情境中使用更实用的方法。 |
[121] 通过彩票票据假说揭示深度伪造检测的关键特征 标题: Uncovering Critical Features for Deepfake Detection through the Lottery Ticket Hypothesis 作者: Lisan Al Amin / Md. Ismail Hossain / Thanh Thi Nguyen / Tasnim Jahan / Mahbubul Islam / Faisal Quader 原文: [英文] [中文] 备注: Accepted for publication at the 2025 IEEE International Conference on Systems, Man, and Cybernetics (SMC) 摘要: 最近深度伪造技术的进步创造了越来越逼真的合成媒体,这对信息完整性和社会信任构成了重大挑战。虽然当前的检测方法显示出希望,但其基本机制仍然理解不透彻,并且其模型的庞大规模使得在资源有限的环境中部署变得困难。本研究探讨了彩票票据假设(LTH)在深度伪造检测中的应用,旨在识别识别深度伪造的关键特征。我们研究了如何在保持高检测准确率的同时有效地修剪神经网络。通过在OpenForensic和FaceForensics++数据集上对MesoNet、CNN-5和ResNet-18架构进行广泛实验,我们发现深度伪造检测网络包含获胜票据,即子网络,即使在相当大的稀疏水平下也能保持性能。我们的结果表明,MesoNet在OpenForensic数据集上以80%的稀疏度保持56.2%的准确率,仅有3,000个参数,这大约是其基线准确率(62.6%)的90%。结果还显示,我们提出的基于LTH的迭代幅度修剪方法始终优于一次性修剪方法。使用Grad-CAM可视化,我们分析了修剪后的网络如何保持对深度伪造检测关键面部区域的关注。此外,我们展示了获胜票据在数据集之间的可转移性,表明了高效、可部署的深度伪造检测系统的潜力。 |
[122] 从中间层提取视觉事实以缓解多模态大型语言模型中的幻觉 标题: Extracting Visual Facts from Intermediate Layers for Mitigating Hallucinations in Multimodal Large Language Models 作者: Haoran Zhou / Zihan Zhang / Hao Chen 原文: [英文] [中文] 备注: None 摘要: 多模态大型语言模型(MLLMs)通过结合视觉识别和语言理解,在生成连贯且上下文准确的内容方面取得了显著进展。然而,MLLMs仍然面临对象幻觉的问题,即模型生成看似合理但实际上不正确的输出,包括图像中不存在的对象。最近的研究表明,MLLMs中的先验知识在深层显著抑制了视觉信息,导致幻觉输出。然而,这些先验知识如何在MLLMs的中间层阶段抑制视觉信息仍不清楚。我们观察到,视觉事实知识和中间层先验/原始概率分布之间的差异在中间层中表现出相似的演变趋势。受此启发,我们引入了一种简单且无需训练的方法,称为通过提取视觉事实进行解码(EVA),该方法动态选择具有最显著视觉事实信息的中间层。通过对比从原始输入和纯文本输入中选定层的输出分布,EVA提取视觉事实知识,并将其按比例整合到最终层中以校正输出logits。重要的是,EVA与模型无关,可以无缝集成到各种经典解码策略中,并适用于不同的MLLMs。我们在广泛使用的基准上验证了EVA,结果表明,与基线方法相比,它显著降低了幻觉率,强调了其在减轻幻觉方面的有效性。 |
[123] HW-MLVQA:通过全面的VQA基准阐明多语言手写文档理解 标题: HW-MLVQA: Elucidating Multilingual Handwritten Document Understanding with a Comprehensive VQA Benchmark 作者: Aniket Pal / Ajoy Mondal / Minesh Mathew / C.V. Jawahar 原文: [英文] [中文] 备注: This is a minor revision of the original paper submitted to IJDAR 摘要: 多语言视觉问答(MLVQA)基准的激增增强了大型语言模型(LLMs)和多模态LLMs的能力,从而使它们能够熟练地捕捉不同语言中固有的复杂语言细微差别和视觉复杂性。尽管具有潜力,但当前的MLVQA模型在处理大量手写文档时难以充分发挥其能力。本文介绍了HW-MLVQA,这是一种前沿的VQA基准,精心设计以缓解真实多语言手写文档理解的不足。HW-MLVQA包含了1600页手写文档以及2400个问答。此外,它提供了一个强大的基准评估框架,涵盖三种不同的模态:文本、图像以及集成的图像和文本模态。为了模拟没有真实文本转录的真实世界情境,我们促进了对专有和开源OCR模型的严格评估。该基准旨在促进多语言手写文档解释的关键进展,推动该专业领域的创新和学术研究。 |
[124] 用于图像质量评估的视觉-语言模型知识蒸馏方法 标题: Visual-Language Model Knowledge Distillation Method for Image Quality Assessment 作者: Yongkang Hou / Jiarun Song 原文: [英文] 备注: None 摘要: 图像质量评估(IQA)是计算机视觉中的核心任务。基于视觉-语言模型(如CLIP)的多模态方法在IQA任务中展示了卓越的泛化能力。为了解决CLIP在IQA中参数负担过重和识别局部失真特征能力不足的问题,本研究提出了一种视觉-语言模型知识蒸馏方法,旨在利用CLIP的IQA知识指导具有架构优势的模型训练。首先,设计了质量分级的提示模板以引导CLIP输出质量分数。然后,对CLIP进行微调以增强其在IQA任务中的能力。最后,提出了一种模态自适应知识蒸馏策略,以实现从CLIP教师模型到学生模型的指导。我们的实验在多个IQA数据集上进行,结果表明,所提出的方法在显著降低模型复杂度的同时,性能优于现有的IQA方法,展示了强大的实际部署潜力。 |
[125] Hi^2-GSLoc:用于遥感的双层次高斯特定视觉重定位 标题: Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing 作者: Boni Hu / Zhenyu Xia / Lin Chen / Pengcheng Han / Shuhui Bu 原文: [英文] [中文] 备注: 17 pages, 11 figures 摘要: 视觉重定位是从查询图像中估计六自由度(6-DoF)相机位姿的技术,对于遥感和无人机应用至关重要。现有方法面临固有的权衡:基于图像的检索和位姿回归方法缺乏精度,而将查询注册到结构化运动(SfM)模型的结构化方法则存在计算复杂性和可扩展性有限的问题。在遥感场景中,由于场景规模大、高度变化大以及现有视觉先验的领域差异,这些挑战尤为突出。为克服这些限制,我们利用3D高斯散射(3DGS)作为一种新颖的场景表示,紧凑地编码了3D几何和外观。我们引入了$\mathrm{Hi}^2$-GSLoc,这是一种双层次重定位框架,遵循从稀疏到密集和从粗到细的范式,充分利用高斯基元中固有的丰富语义信息和几何约束。为处理大规模遥感场景,我们结合了分区高斯训练、GPU加速的并行匹配和动态内存管理策略。我们的方法包括两个阶段:(1)稀疏阶段,具有高斯特定的一致渲染感知采样策略和地标引导检测器,以实现稳健和准确的初始位姿估计;(2)密集阶段,通过粗到细的密集光栅化匹配迭代地优化位姿,同时结合可靠性验证。通过对模拟数据、公共数据集和真实飞行实验的综合评估,我们证明了我们的方法在定位精度、召回率和计算效率方面具有竞争力,同时有效过滤不可靠的位姿估计。结果证实了我们的方法在实际遥感应用中的有效性。 |
[126] LINR-PCGC:用于点云几何压缩的无损隐式神经表示 标题: LINR-PCGC: Lossless Implicit Neural Representations for Point Cloud Geometry Compression 作者: Wenjie Huang / Qi Yang / Shuting Xia / He Huang / Zhu Li / Yiling Xu 原文: [英文] 备注: Accepted to ICCV 2025 摘要: 现有的基于人工智能的点云压缩方法在依赖特定训练数据分布方面存在困难,这限制了它们在现实世界中的应用。隐式神经表示(INR)方法通过将过拟合的网络参数编码到比特流中解决了上述问题,从而产生更具分布无关性的结果。然而,由于编码时间和解码器大小的限制,目前基于INR的方法仅考虑有损几何压缩。在本文中,我们提出了首个基于INR的无损点云几何压缩方法,称为点云几何压缩的无损隐式神经表示(LINR-PCGC)。为了加速编码速度,我们设计了一组点云级编码框架,并采用有效的网络初始化策略,可以减少约60%的编码时间。我们提出了一种基于多尺度SparseConv的轻量级编码网络,包括尺度上下文提取、子节点预测和模型压缩模块,以实现快速推理和紧凑的解码器大小。实验结果表明,我们的方法始终优于传统和基于AI的方法:例如,在MVUB数据集的收敛时间内,我们的方法比G-PCC TMC13v23减少了约21.21%的比特流,比SparsePCGC减少了21.95%。我们的项目可以在这个https URL上查看。 |
[127] DWTGS:重新思考稀疏视图3D高斯点云的频率正则化 标题: DWTGS: Rethinking Frequency Regularization for Sparse-view 3D Gaussian Splatting 作者: Hung Nguyen / Runfa Li / An Le / Truong Nguyen 原文: [英文] [中文] 备注: 6 pages, 4 figures 摘要: 稀疏视图的三维高斯散点(3DGS)在重建高质量的新视图时面临显著挑战,因为它常常对稀疏训练视图中变化较大的高频(HF)细节过度拟合。虽然频率正则化可能是一种有前途的方法,但其通常依赖于傅里叶变换,导致参数调整困难,并倾向于不利的高频学习。我们提出了DWTGS,一个重新思考频率正则化的框架,通过利用小波空间损失提供额外的空间监督。具体来说,我们仅在多个离散小波变换(DWT)级别上监督低频(LF)LL子带,同时以自监督的方式在高频HH子带上施加稀疏性。跨基准的实验表明,DWTGS始终优于基于傅里叶的对比方法,因为这种以低频为中心的策略改善了泛化能力并减少了高频幻觉。 |
[128] 通过自训练和知识蒸馏实现高效的人脸图像质量评估 标题: Efficient Face Image Quality Assessment via Self-training and Knowledge Distillation 作者: Wei Sun / Weixia Zhang / Linhan Cao / Jun Jia / Xiangyang Zhu / Dandan Zhu / Xiongkuo Min / Guangtao Zhai 原文: [英文] [中文] 备注: Efficient-FIQA achieved first place in the ICCV VQualA 2025 Face Image Quality Assessment Challenge 摘要: 人脸图像质量评估(FIQA)对于各种与人脸相关的应用至关重要。尽管FIQA已经被广泛研究并取得了显著进展,但FIQA算法的计算复杂性仍然是确保其在实际系统中可扩展性和实用部署的关键问题。在本文中,我们旨在开发一种计算效率高的FIQA方法,以便能够轻松部署在实际应用中。具体来说,我们的方法包括两个阶段:训练一个强大的教师模型,并从中提炼出一个轻量级的学生模型。为了构建一个强大的教师模型,我们采用自训练策略来提高其能力。我们首先使用标记的人脸图像训练教师模型,然后用它为一组未标记的图像生成伪标签。这些伪标记样本有两种用途:(1)将知识提炼到学生模型中,以及(2)与原始标记图像结合,通过自训练进一步增强教师模型。增强后的教师模型用于进一步为另一组未标记图像生成伪标签,以提炼学生模型。学生模型的训练结合了标记图像、来自原始教师模型的伪标记图像以及来自增强教师模型的伪标记图像。实验结果表明,我们的学生模型在极低的计算开销下实现了与教师模型相当的性能。此外,我们的方法在ICCV 2025 VQualA FIQA挑战赛中获得了第一名。代码可在此https URL获取。 |
[129] 使用变压器进行空间控制图像生成的实用研究 标题: A Practical Investigation of Spatially-Controlled Image Generation with Transformers 作者: Guoxuan Xia / Harleen Hanspal / Petru-Daniel Tudosiu / Shifeng Zhang / Sarah Parisot 原文: [英文] 备注: preprint 摘要: 使图像生成模型能够进行空间控制是一个重要的研究领域,这使用户能够通过例如边缘图、姿势等更好地根据自己的细粒度规格生成图像。尽管这一任务在最近取得了显著的进展,但快速推出更强大的模型的关注却以详细和公正的科学比较为代价。不同的训练数据、模型架构和生成范式使得难以理清对性能有贡献的因素。同时,某些方法的动机和细微差别在文献中变得模糊不清。在这项工作中,我们旨在为希望开发基于变压器的空间控制生成系统的从业者提供清晰的生成范式结论,澄清文献并解决知识空白。我们在ImageNet上对基于扩散/流和自回归(AR)模型进行了控制实验。首先,我们建立了控制标记预填充作为变压器的一种简单、通用且性能良好的基线方法。然后,我们研究了以前未充分探索的采样时间增强,显示将无分类器指导扩展到控制以及softmax截断对控制生成一致性有很大影响。最后,我们重新阐明了基于适配器的方法的动机,证明它们在有限的下游数据训练时可以减轻“遗忘”并保持生成质量,但在生成控制一致性方面不如完全训练。代码将在发表时发布。 |
[130] TokensGen:利用压缩标记进行长视频生成 标题: TokensGen: Harnessing Condensed Tokens for Long Video Generation 作者: Wenqi Ouyang / Zeqi Xiao / Danni Yang / Yifan Zhou / Shuai Yang / Lei Yang / Jianlou Si / Xingang Pan 原文: [英文] 备注: Project page: this https URL 摘要: 生成一致的长视频是一个复杂的挑战:尽管基于扩散的生成模型可以生成视觉上令人印象深刻的短片,但将其扩展到更长的持续时间往往会导致内存瓶颈和长期不一致。在本文中,我们提出了TokensGen,这是一种新颖的两阶段框架,利用浓缩的标记来解决这些问题。我们的方法将长视频生成分解为三个核心任务:(1)片内语义控制,(2)长期一致性控制,以及(3)片间平滑过渡。首先,我们训练了To2V(Token-to-Video),这是一种由文本和视频标记引导的短视频扩散模型,使用视频标记器将短片浓缩为语义丰富的标记。其次,我们引入了T2To(Text-to-Token),这是一种视频标记扩散变换器,可以一次性生成所有标记,确保跨片的全局一致性。最后,在推理过程中,自适应FIFO-Diffusion策略无缝连接相邻片段,减少边界伪影并增强平滑过渡。实验结果表明,我们的方法显著增强了长期时间和内容的一致性,而不会带来过高的计算开销。通过利用浓缩标记和预训练的短视频模型,我们的方法为长视频生成提供了一种可扩展的、模块化的解决方案,为讲故事、电影制作和沉浸式模拟开辟了新的可能性。请访问我们的项目页面,网址为此HTTPS URL。 |
[131] 通过使用变压器进行双边网格预测实现外观协调用于3DGS 标题: Appearance Harmonization via Bilateral Grid Prediction with Transformers for 3DGS 作者: Jisu Shin / Richard Shaw / Seunghyun Shin / Anton Pelykh / Zhensong Zhang / Hae-Gon Jeon / Eduardo Perez-Pellitero 原文: [英文] [中文] 备注: 10 pages, 3 figures, NeurIPS 2025 under review 摘要: 现代相机处理流程在设备上应用了广泛的处理技术,如曝光调整、白平衡和颜色校正,这些技术虽然各自有益,但往往会在不同视图之间引入光度不一致。这些外观变化违反了多视图一致性,并降低了新视图合成的质量。为了解决这个问题,已经提出了场景表示和每张图像外观嵌入的联合优化方法,但这增加了计算复杂性并减慢了训练速度。在这项工作中,我们提出了一种基于变压器的方法,该方法预测空间自适应双边网格,以多视图一致的方式校正光度变化,从而实现稳健的跨场景泛化,而无需针对特定场景重新训练。通过将学习到的网格整合到3D高斯散点管道中,我们在保持高训练效率的同时提高了重建质量。大量实验表明,我们的方法在重建保真度和收敛速度上优于或匹配现有的场景特定优化方法。 |
[132] 从异质性中学习:通过分布鲁棒优化实现动态面部表情识别的泛化 标题: Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization 作者: Feng-Qi Cui / Anyang Tong / Jinyang Huang / Jie Zhang / Dan Guo / Zhi Liu / Meng Wang 原文: [英文] [中文] 备注: Accepted by ACM MM'25 摘要: 动态面部表情识别(DFER)在情感计算和人机交互中起着关键作用。尽管现有方法取得了相当的性能,但在多源数据和个体表情变化导致的样本异质性下,它们不可避免地会遭遇性能下降。为了解决这些挑战,我们提出了一种新颖的框架,称为异质性感知分布框架(HDF),并设计了两个即插即用模块,以增强时频建模并缓解由困难样本引起的优化不平衡。具体而言,时频分布注意模块(DAM)通过双分支注意设计捕捉时间一致性和频率鲁棒性,提高了对序列不一致性和视觉风格变化的容忍度。然后,基于梯度敏感性和信息瓶颈原理,引入了自适应优化模块分布感知缩放模块(DSM),以动态平衡分类和对比损失,从而实现更稳定和更具辨别力的表示学习。在两个广泛使用的数据集DFEW和FERV39k上的大量实验表明,HDF显著提高了识别准确性和鲁棒性。我们的方法在保持对多样化和不平衡场景的强泛化能力的同时,实现了优越的加权平均召回率(WAR)和非加权平均召回率(UAR)。代码已在此https URL发布。 |
[133] 用于丰富多类别医学图像分割的标签树语义损失 标题: Label tree semantic losses for rich multi-class medical image segmentation 作者: Junwen Wang / Oscar MacCormac / William Rochford / Aaron Kujawa / Jonathan Shapey / Tom Vercauteren 原文: [英文] [中文] 备注: arXiv admin note: text overlap with arXiv:2506.21150 摘要: 丰富而准确的医学图像分割有望通过描绘关键解剖结构来支持下一代由人工智能定义的临床实践,这包括术前规划、指导实时术中导航以及支持精确的术后评估。然而,常用的医学和外科影像分割任务的学习方法对所有错误进行等同惩罚,因此未能利用标签空间中的任何类别间语义。当标签的数量和丰富性增加以包含细微不同的类别时,这个问题尤为突出。在这项工作中,我们提出了两种基于树的语义损失函数,这些函数利用了标签的层次结构。我们进一步将我们的损失函数整合到最近提出的一种使用稀疏、无背景注释进行训练的方法中,以扩展我们所提损失函数的适用性。我们在两个医学和外科图像分割任务上进行了广泛的实验,即在全监督下的头部MRI全脑分区(WBP)和使用稀疏注释进行场景理解的神经外科高光谱成像(HSI)。结果表明,我们提出的方法在这两种情况下均达到了最先进的性能。 |
[134] 正则化低秩适应用于小样本器官分割 标题: Regularized Low-Rank Adaptation for Few-Shot Organ Segmentation 作者: Ghassen Baklouti / Julio Silva-Rodríguez / Jose Dolz / Houda Bahig / Ismail Ben Ayed 原文: [英文] 备注: Accepted at MICCAI 2025 摘要: 参数高效微调(PEFT)预训练基础模型在医学影像领域因其有效性和计算效率而越来越受到关注。在这些方法中,低秩适应(LoRA)是一种基于适应固有发生在低维子空间假设的显著方法。虽然它表现良好,但其实现需要一个固定且不可改变的秩,这可能在每个医学影像下游任务的独特复杂性和需求下难以选择。受自然图像处理进展的启发,我们引入了一种用于医学图像分割的新方法,该方法在适应过程中动态调整内在秩。将可训练权重矩阵的低秩表示视为奇异值分解,我们在损失函数中引入了一个l_1稀疏正则化器,并用近端优化器处理它。该正则化器可以视为对分解秩的惩罚。因此,其最小化能够自动找到任务适应的秩。我们的方法在一个现实的少样本微调环境中进行了评估,首先将其与标准LoRA进行比较,然后在两个不同的任务:基础器官和新器官上与其他几种PEFT方法进行比较。我们广泛的实验展示了我们方法所驱动的显著性能提升,突出了其在次优秩初始化情况下的效率和鲁棒性。我们的代码是公开可用的:这个https URL |
[135] 探索低参数视觉模型中的叠加和干涉 标题: Exploring Superposition and Interference in State-of-the-Art Low-Parameter Vision Models 作者: Lilian Hollard / Lucas Mohimont / Nathalie Gaveau / Luiz-Angelo Steffenel 原文: [英文] [中文] 备注: None 摘要: 本文研究了最先进的低参数深度神经网络在计算机视觉中的性能,重点关注瓶颈架构及其在使用超线性激活函数时的行为。我们解决了特征图中的干扰问题,这是一种与叠加相关的现象,其中神经元同时编码多个特征。我们的研究表明,限制干扰可以提高非常低规模网络(参数少于150万)的扩展性和准确性。通过研究各种瓶颈架构,我们识别出减少干扰的关键设计元素,从而形成更高效的神经网络。因此,我们提出了一种概念验证架构,名为NoDepth Bottleneck,该架构基于我们实验中的机械洞察,展示了在ImageNet数据集上的强大扩展准确性。这些发现有助于在低参数范围内实现更高效和可扩展的神经网络,并推进对计算机视觉中瓶颈的理解。 |
[136] ConformalSAM:通过保形预测释放基础分割模型在半监督语义分割中的潜力 标题: ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction 作者: Danhui Chen / Ziquan Liu / Chuxi Yang / Dan Wang / Yan Yan / Yi Xu / Xiangyang Ji 原文: [英文] [中文] 备注: ICCV 2025 摘要: 像素级视觉任务(如语义分割)需要大量且高质量的标注数据,而获取这些数据的成本很高。半监督语义分割(SSSS)通过利用标注和未标注数据的自训练技术,成为减轻标注负担的解决方案。同时,基于海量数据预训练的基础分割模型的出现,显示了跨领域有效泛化的潜力。本研究探讨了基础分割模型是否可以作为未标注图像的标注工具,解决像素级视觉任务中的标注稀缺问题。具体而言,我们研究了使用SEEM(一种针对文本输入微调的“分割任何东西”模型(SAM)变体)为未标注数据生成预测掩码的效果。为了解决使用SEEM生成的掩码作为监督的不足,我们提出了ConformalSAM,这是一种新颖的SSSS框架,首先使用目标领域的标注数据校准基础模型,然后过滤掉未标注数据中不可靠的像素标签,仅使用高置信度的标签作为监督。通过利用保形预测(CP)对基础模型进行不确定性校准以适应目标数据,ConformalSAM可靠地利用了基础分割模型的强大能力,这有利于早期阶段的学习,而后续的自我依赖训练策略则在后期训练阶段缓解了对SEEM生成掩码的过拟合。我们的实验表明,在三个标准的SSSS基准上,ConformalSAM相比于最近的SSSS方法表现更优,并且作为插件有助于提升这些方法的性能。 |
[137] 真正的多模态上下文学习需要关注视觉上下文 标题: True Multimodal In-Context Learning Needs Attention to the Visual Context 作者: Shuo Chen / Jianzhe Liu / Zhen Han / Yan Xia / Daniel Cremers / Philip Torr / Volker Tresp / Jindong Gu 原文: [英文] [中文] 备注: accepted to COLM 2025 摘要: 多模态大语言模型(MLLMs)基于强大的语言基础,已经实现了多模态上下文学习(MICL)——通过少量包含图像、问题和答案的多模态示例适应新任务。尽管在标准视觉语言数据集上显示出显著的改进,当前的MLLMs在利用示例中的视觉信息方面仍然存在困难。具体来说,它们往往忽视视觉线索,过度依赖文本模式,导致仅仅是文本模仿而非真正的多模态适应。这种行为使得MICL仍然是单模态的,并在很大程度上限制了其实用性。更重要的是,这一限制常常被在不需要理解视觉上下文的任务上表现出的改进所掩盖。因此,如何有效增强MICL能力并可靠地评估MICL性能仍然未被充分探索。为了解决这些问题,我们首先引入了动态注意力再分配(DARA),这是一种高效的微调策略,通过重新平衡视觉和文本标记之间的注意力,鼓励模型关注视觉上下文。此外,我们提出了TrueMICL,这是一个专门用于MICL的数据集,包含支持集和测试集,明确要求整合多模态信息,特别是视觉内容,以正确完成任务。大量实验表明,我们的整体解决方案的有效性,展示了在真正的多模态上下文学习能力上的显著提升。代码和数据集可在此https URL获取。 |
[138] 用于多变量地下生成和高效概率反演的扩散模型 标题: Diffusion models for multivariate subsurface generation and efficient probabilistic inversion 作者: Roberto Miele / Niklas Linde 原文: [英文] [中文] 备注: None 摘要: 扩散模型为深度生成建模任务提供了稳定的训练和最先进的性能。在此,我们考虑在多变量地下建模和概率反演的背景下使用它们。我们首先证明,与变分自编码器和生成对抗网络相比,扩散模型增强了多变量建模能力。在扩散建模中,生成过程涉及相对较多的时间步长,其更新规则可以修改以考虑条件数据。我们提出了对Chung等人(2023)提出的流行的扩散后验采样方法的不同修正。特别是,我们引入了一种似然近似,考虑了扩散建模中固有的噪声污染。我们在涉及相和相关声阻抗的多变量地质场景中评估性能。使用局部硬数据(测井)和非线性地球物理(全叠地震数据)演示了条件建模。我们的测试显示,与原始方法相比,统计稳健性显著提高,后验概率密度函数的采样增强,计算成本降低。该方法可以单独或同时使用硬条件数据和间接条件数据。由于反演包含在扩散过程中,因此比需要在生成模型外部循环的方法(如马尔可夫链蒙特卡罗)更快。 |
[139] 你的模型能用水瓶分离蛋黄吗?视频生成模型中的物理常识理解基准测试 标题: Can Your Model Separate Yolks with a Water Bottle? Benchmarking Physical Commonsense Understanding in Video Generation Models 作者: Enes Sanli / Baris Sarper Tezcan / Aykut Erdem / Erkut Erdem 原文: [英文] [中文] 备注: None 摘要: 最近在文本到视频(T2V)生成方面的进展使得从自然语言合成视觉上引人注目且时间上连贯的视频成为可能。然而,这些模型在基本的物理常识方面往往表现不足,生成的输出违反了关于因果关系、物体行为和工具使用的直观预期。为了解决这一差距,我们提出了PhysVidBench,这是一个旨在评估T2V系统物理推理能力的基准。该基准包括383个精心策划的提示,强调工具使用、材料特性和程序交互,以及物理合理性至关重要的领域。对于每个提示,我们使用多种最先进的模型生成视频,并采用三阶段评估流程:(1)从提示中制定有根据的物理问题,(2)使用视觉语言模型为生成的视频生成字幕,以及(3)让语言模型仅使用字幕回答几个涉及物理的问题。这种间接策略规避了直接基于视频评估中常见的幻觉问题。通过突出可供性和工具介导的动作,PhysVidBench提供了一个结构化、可解释的框架,用于评估生成视频模型中的物理常识,这些领域在当前的T2V评估中被忽视。 |
[140] SeC:通过渐进概念构建推进复杂视频对象分割 标题: SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction 作者: Zhixiong Zhang / Shuangrui Ding / Xiaoyi Dong / Songxin He / Jianfan Lin / Junsong Tang / Yuhang Zang / Yuhang Cao / Dahua Lin / Jiaqi Wang 原文: [英文] [中文] 备注: project page: this https URL code: this https URL dataset: this https URL 摘要: 视频对象分割(VOS)是计算机视觉中的核心任务,需要模型在视频帧中跟踪和分割目标对象。尽管最近的努力取得了显著进展,但当前技术在处理剧烈的视觉变化、遮挡和复杂场景变化方面仍然落后于人类能力。这一局限性源于它们依赖于外观匹配,忽视了人类般的对象概念理解,这种理解能够在时间动态中实现稳健的识别。受到这一差距的启发,我们提出了Segment Concept(SeC),这是一种概念驱动的分割框架,从传统的特征匹配转向高层次、以对象为中心的表示的逐步构建和利用。SeC利用大型视觉语言模型(LVLMs)整合不同帧中的视觉线索,构建稳健的概念先验。在推理过程中,SeC基于处理过的帧形成目标的全面语义表示,实现后续帧的稳健分割。此外,SeC自适应地平衡基于LVLM的语义推理与增强的特征匹配,根据场景复杂性动态调整计算努力。为了严格评估在需要高层次概念推理和稳健语义理解的场景中VOS方法的表现,我们引入了语义复杂场景视频对象分割基准(SeCVOS)。SeCVOS由160个手动标注的多场景视频组成,旨在通过显著的外观变化和动态场景转换挑战模型。特别是,SeC在SeCVOS上比SAM 2.1提高了11.8分,建立了概念感知视频对象分割的新标杆。 |
[141] 潜在去噪造就优秀的视觉分词器 标题: Latent Denoising Makes Good Visual Tokenizers 作者: Jiawei Yang / Tianhong Li / Lijie Fan / Yonglong Tian / Yue Wang 原文: [英文] [中文] 备注: Code is available at: this https URL 摘要: 尽管视觉分词器在生成建模中起着基础性作用,但尚不清楚哪些特性可以使其更有效。我们观察到,现代生成模型在概念上共享一个相似的训练目标——从被高斯噪声或掩码等损坏的输入中重建干净的信号——我们称之为去噪。基于这一见解,我们提出将分词器的嵌入直接与下游去噪目标对齐,鼓励潜在嵌入即使在严重损坏时也能更容易地重建。为此,我们引入了潜在去噪分词器(l-DeTok),这是一种简单而有效的分词器,训练其从被插值噪声和随机掩码损坏的潜在嵌入中重建干净图像。在ImageNet 256x256上的大量实验表明,我们的分词器在六个具有代表性的生成模型中始终优于标准分词器。我们的研究结果强调了去噪作为分词器开发的一个基本设计原则,并希望它能为未来的分词器设计带来新的视角。 |