scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年7月17日更新论文89
[1] 一种基于神经架构搜索的可变形Transformer内存高效框架
标题: An Memory-Efficient Framework for Deformable Transformer with Neural Architecture Search
作者: Wendong Mao / Mingfan Zhao / Jianfeng Guan / Qiwei Dong / Zhongfeng Wang
原文:   [英文]   [中文]  
备注: None
摘要:
可变形注意力变压器(DAT)在计算机视觉任务中通过自适应地关注信息丰富的图像区域表现出显著的性能。然而,其数据依赖的采样机制引入了不规则的内存访问模式,对高效硬件部署构成了重大挑战。现有的加速方法要么导致高硬件开销,要么损害模型准确性。为了解决这些问题,本文提出了一种面向硬件友好的DAT优化框架。首先,提出了一种基于神经架构搜索(NAS)的新切片策略方法,在推理过程中自动将输入特征划分为均匀的块,避免内存冲突而不修改模型架构。该方法通过联合优化硬件成本和推理准确性来探索最佳切片配置。其次,设计了一个基于FPGA的验证系统,以测试该框架在边缘侧硬件上的性能。在ImageNet-1K数据集上的算法实验表明,我们的硬件友好框架相比基线DAT仅有0.2%的准确性下降。在Xilinx FPGA上的硬件实验显示,所提出的方法将DRAM访问次数减少到现有DAT加速方法的18%。

[2] 用于准确且高效的时空交通预测的可变形动态卷积
标题: Deformable Dynamic Convolution for Accurate yet Efficient Spatio-Temporal Traffic Prediction
作者: Hyeonseok Jin / Geonmin Kim / Kyungbaek Kim
原文:   [英文]   [中文]  
备注: 7 pages
摘要:
时空交通预测在智能交通系统中起着关键作用,因为它能够在复杂的城市区域中进行准确的预测。尽管不仅准确性而且可扩展性的效率都很重要,但一些先前的方法在捕捉异质性方面存在困难,例如不同区域和时间段的交通模式变化。此外,图神经网络(GNNs)作为交通预测的主流方法,不仅需要预定义的邻接矩阵,而且由于其固有的复杂性,限制了其在包含大量节点的大规模数据上的可扩展性。为克服这些限制,我们提出了可变形动态卷积网络(DDCN),以实现准确且高效的交通预测。传统的卷积神经网络(CNNs)在建模非欧几里得空间结构和时空异质性方面存在局限性,DDCN通过基于偏移动态应用可变形滤波器克服了这些挑战。具体而言,DDCN将类Transformer的CNN分解为编码器-解码器结构,并将提出的方法应用于编码器的空间和时空注意力模块,以强调重要特征。由前馈模块组成的解码器补充了编码器的输出。这种新颖的结构使得DDCN能够进行准确且高效的交通预测。在四个真实世界数据集上的综合实验中,DDCN取得了具有竞争力的性能,强调了基于CNN的方法在时空交通预测中的潜力和有效性。

[3] Inversion-DPO:扩散模型的精确高效后训练
标题: Inversion-DPO: Precise and Efficient Post-Training for Diffusion Models
作者: Zejian Li / Yize Li / Chenye Meng / Zhongni Liu / Yang Ling / Shengyuan Zhang / Guang Yang / Changyuan Yang / Zhiyuan Yang / Lingyun Sun
原文:   [英文]   [中文]  
备注: None
摘要:
最近,扩散模型(DMs)的进展得益于对齐方法,这些方法通过后训练模型来更好地符合人类偏好。然而,这些方法通常需要对基础模型和奖励模型进行计算密集型的训练,这不仅带来了巨大的计算开销,还可能损害模型的准确性和训练效率。为了解决这些限制,我们提出了Inversion-DPO,这是一种新颖的对齐框架,通过使用DDIM反演重新构建直接偏好优化(DPO)来规避奖励建模。我们的方法在Diffusion-DPO中通过从胜出和失败样本到噪声的确定性反演进行难以处理的后验采样,从而得出一种新的后训练范式。该范式消除了对辅助奖励模型或不准确近似的需求,显著提高了训练的精度和效率。我们将Inversion-DPO应用于文本到图像生成的基本任务和组合图像生成的挑战性任务。大量实验表明,与现有的后训练方法相比,Inversion-DPO实现了显著的性能提升,并突出了训练后的生成模型生成高保真度、组合一致的图像的能力。对于组合图像生成的后训练,我们策划了一个包含11,140张图像的配对数据集,具有复杂的结构注释和综合评分,旨在增强生成模型的组合能力。Inversion-DPO为扩散模型中的高效、高精度对齐探索了一条新途径,推进了其在复杂现实生成任务中的应用。我们的代码可在此URL获取。

[4] 重编程视觉基础模型用于时空预测
标题: Reprogramming Vision Foundation Models for Spatio-Temporal Forecasting
作者: Changlu Chen / Yanbin Liu / Chaoxi Niu / Ling Chen / Tianqing Zhu
原文:   [英文]   [中文]  
备注: None
摘要:
基础模型在自然语言处理和计算机视觉领域取得了显著成功,展现了在建模复杂模式方面的强大能力。尽管最近的研究尝试将大型语言模型(LLMs)应用于时间序列预测,但LLMs主要捕捉一维的序列依赖性,在建模准确的时空(ST)预测所需的更丰富的时空相关性方面存在困难。在本文中,我们提出了\textbf{ST-VFM},一个系统性地重新编程视觉基础模型(VFMs)以用于通用时空预测的新框架。尽管VFMs提供了强大的空间先验,但在将其应用于ST任务时面临两个关键挑战:(1)缺乏固有的时间建模能力和(2)视觉与ST数据之间的模态差距。为了解决这些问题,ST-VFM采用了\emph{双分支架构},将原始ST输入与辅助ST流输入相结合,其中流编码为可解释为动态空间线索的轻量级时间差异信号。为了有效处理这些双分支输入,ST-VFM引入了两个专门的重新编程阶段。\emph{VFM前重新编程}阶段应用了时间感知令牌适配器,以嵌入时间上下文并将两个分支对齐到VFM兼容的特征空间。\emph{VFM后重新编程}阶段引入了双边交叉提示协调模块,通过基于提示的条件化实现分支之间的动态交互,从而在不修改冻结的VFM骨干的情况下丰富联合表示学习。在十个时空数据集上的广泛实验表明,ST-VFM优于最先进的基线,展示了其在VFM骨干(例如,DINO、CLIP、DEIT)和消融研究中的有效性和鲁棒性,确立了其作为时空预测的强大通用框架的地位。

[5] 专家操作生成对抗网络:迈向真实色彩的水下图像修复
标题: Expert Operational GANS: Towards Real-Color Underwater Image Restoration
作者: Ozer Can Devecioglu / Serkan Kiranyaz / Mehmet Yamac / Moncef Gabbouj
原文:   [英文]  
备注: 6 pages
摘要:
由于复杂的光传播、散射和深度相关的衰减导致的各种变形伪影,使得水下图像恢复仍然是一个具有挑战性的问题。与其他单一深度回归网络类似,传统的基于GAN的恢复方法在这个异质领域中表现不佳,因为单一生成器网络通常不足以捕捉全部的视觉退化范围。为了克服这一限制,我们提出了xOp-GAN,这是一种新颖的GAN模型,具有多个专家生成器网络,每个网络仅在具有特定图像质量的特定子集上进行训练。因此,每个生成器可以学习在特定质量范围内最大化其恢复性能。一旦xOp-GAN训练完成,每个生成器可以恢复输入图像,然后由判别器根据其感知置信度分数选择最佳恢复图像。因此,xOp-GAN是第一个具有多个生成器的GAN模型,其中判别器在回归任务的推理过程中被使用。基准大型水下图像(LSUI)数据集的实验结果表明,xOp-GAN实现了高达25.16 dB的PSNR水平,甚至在复杂性降低的情况下,仍然大幅超越所有单一回归模型。

[6] 基于传感器的步态年龄估计的数据驱动元分析与公共数据集评估
标题: Data-Driven Meta-Analysis and Public-Dataset Evaluation for Sensor-Based Gait Age Estimation
作者: Varun Velankar
原文:   [英文]  
备注: None
摘要:
从步态估计一个人的年龄在医疗保健、安全和人机交互中有重要的应用。在这项工作中,我们回顾了五十九项研究,这些研究涉及超过七万五千名受试者,这些受试者通过视频、可穿戴设备和雷达传感器记录。我们观察到卷积神经网络的平均误差约为4.2岁,惯性传感器模型约为4.5岁,多传感器融合的误差最低可达3.4岁,且实验室数据和真实世界数据之间存在显著差异。然后,我们分析了来自OU-ISIR大规模人群数据集的六万三千八百四十六个步态周期,以量化年龄与五个关键指标之间的相关性:步幅长度、行走速度、步伐节奏、步时间变异性和关节角熵,相关系数至少为0.27。接下来,我们微调了一个ResNet34模型,并应用Grad-CAM揭示网络关注膝盖和骨盆区域,这与已知的年龄相关步态变化一致。最后,在VersatileGait数据库的十万样本子集上,我们比较了支持向量机、决策树、随机森林、多层感知器和卷积神经网络,发现深度网络在处理每个样本不到0.1秒的情况下,准确率高达96%。通过结合广泛的元分析、新的大规模实验和可解释的可视化,我们建立了稳固的性能基准,并为在真实世界场景中将步态年龄误差降低到三年以下提供了实用指南。

[7] 这是什么猫?一种用于野猫身份再识别的模型
标题: What cat is that? A re-id model for feral cats
作者: Victor Caquilpan
原文:   [英文]  
备注: Master's project
摘要:
野猫对澳大利亚野生动物造成了重大且有害的影响,使其成为全球最危险的入侵物种之一。因此,密切监测这些猫是减少其影响的重要工作。在此背景下,重新识别(re-ID)的潜在应用出现,以利用相机陷阱捕获的图像增强对这些动物的监测活动。本项目探索了不同的计算机视觉方法,以创建一个能够识别野外个体野猫的重新识别模型。主要方法包括修改一个最初用于阿穆尔虎重新识别的部分姿态引导网络(PPGNet)模型,使其适用于野猫。这一改编产生了PPGNet-Cat,结合了特定的修改以适应野猫图像的特征。此外,还进行了各种实验,特别是探索了对比学习方法,如ArcFace损失。主要结果表明,PPGNet-Cat在识别野猫方面表现出色,取得了平均精度(mAP)0.86和rank-1准确率0.95的高性能。这些结果确立了PPGNet-Cat作为重新识别领域的一个有竞争力的模型。

[8] SketchDNN:用于CAD草图生成的连续-离散联合扩散
标题: SketchDNN: Joint Continuous-Discrete Diffusion for CAD Sketch Generation
作者: Sathvik Chereddy / John Femiani
原文:   [英文]   [中文]  
备注: 17 pages, 63 figures, Proceedings of the 42nd International Conference on Machine Learning (ICML2025)
摘要:
我们介绍了 SketchDNN,这是一种生成模型,用于合成 CAD 草图,通过统一的连续-离散扩散过程共同建模连续参数和离散类别标签。我们的核心创新是高斯-Softmax 扩散,其中被高斯噪声扰动的 logits 通过 softmax 变换投射到概率单纯形上,从而促进离散变量的混合类别标签。该公式解决了两个关键挑战,即原始参数化的异质性和 CAD 草图中原始的排列不变性。我们的方法显著提高了生成质量,将 Fréchet Inception Distance (FID) 从 16.04 降低到 7.80,将负对数似然 (NLL) 从 84.8 降低到 81.33,在 SketchGraphs 数据集上的 CAD 草图生成中建立了新的最先进水平。

[9] 使用变分自编码器对直肠癌MRI中的淋巴结转移进行可解释性预测
标题: Interpretable Prediction of Lymph Node Metastasis in Rectal Cancer MRI Using Variational Autoencoders
作者: Benjamin Keel / Aaron Quyn / David Jayne / Maryam Mohsin / Samuel D. Relton
原文:   [英文]   [中文]  
备注: Published in Medical Image Understanding and Analysis (MIUA) 2025
摘要:
直肠癌的有效治疗依赖于准确的淋巴结转移(LNM)分期。然而,基于淋巴结(LN)大小、形状和纹理形态的放射学标准具有有限的诊断准确性。在这项工作中,我们研究了应用变分自编码器(VAE)作为特征编码模型,以替代现有方法中使用的大型预训练卷积神经网络(CNN)。使用VAE的动机在于生成模型旨在重建图像,因此它直接编码视觉特征和数据中的有意义模式。这导致了一个解耦且结构化的潜在空间,比CNN更具可解释性。模型部署在一个内部MRI数据集上,该数据集包含168名未接受新辅助治疗的患者。术后病理N分期被用作评估模型预测的真实标准。我们提出的模型“VAE-MLP”在MRI数据集上实现了最先进的性能,交叉验证指标为AUC 0.86 +/- 0.05,敏感性0.79 +/- 0.06,特异性0.85 +/- 0.05。代码可在此URL获取。

[10] 基于姿势驱动的动作意图推断用于打法风格和疲劳评估
标题: Posture-Driven Action Intent Inference for Playing style and Fatigue Assessment
作者: Abhishek Jaiswal / Nisheeth Srivastava
原文:   [英文]   [中文]  
备注: None
摘要:
基于姿势的心理状态推断在诊断疲劳、预防伤害和提升各领域的表现方面具有显著潜力。在实际应用之前,这类工具必须通过大数据集进行研究验证。不幸的是,由于人类受试者数据的敏感性,这种视觉诊断面临严重挑战。为了解决这个问题,我们将体育环境视为从经历多种情绪状态的人类受试者中积累数据的可行替代方案。我们在板球运动中测试了我们的假设,并提出了一种基于姿势的解决方案,以从活动视频中识别人的意图。通过运动分析,我们的方法在区分攻击性和防御性击球意图方面实现了超过75%的F1分数和超过80%的AUC-ROC。这些发现表明,即使在数据管道中存在固有噪声,姿势也能泄露出强烈的意图推断信号。此外,我们利用现有的数据统计作为弱监督来验证我们的发现,为克服数据标注限制提供了一种潜在解决方案。这项研究为体育分析提供了可推广的技术,并为在人类行为分析的各个领域中的应用开辟了可能性。

[11] VISTA:基于单目分割的外观和视图不变的全球定位映射
标题: VISTA: Monocular Segmentation-Based Mapping for Appearance and View-Invariant Global Localization
作者: Hannah Shafferman / Annika Thomas / Jouko Kinnari / Michael Ricard / Jose Nino / Jonathan How
原文:   [英文]   [中文]  
备注: 9 pages, 6 figures. This work has been submitted to the IEEE for possible publication
摘要:
全球定位对于自主导航至关重要,特别是在代理必须在不同会话中生成的地图或由其他代理生成的地图中进行定位的场景中,因为代理通常对参考框架之间的关联没有先验知识。然而,由于视点变化、季节变化、空间混叠和遮挡引起的外观变化——这些都是传统地点识别方法的已知失败模式——在非结构化环境中,这项任务仍然具有挑战性。为了解决这些挑战,我们提出了VISTA(基于视图不变分割的帧对齐跟踪),这是一种新颖的开放集单目全球定位框架,结合了:1)前端基于对象的分割和跟踪流程,随后是2)子地图对应搜索,利用环境地图之间的几何一致性来对齐车辆参考框架。VISTA能够在不同的相机视点和季节变化中实现一致的定位,而无需任何特定领域的训练或微调。我们在季节性和倾斜角度的航空数据集上评估了VISTA,与基线方法相比,召回率提高了多达69%。此外,我们维护了一个仅为最节省内存的基线大小0.6%的紧凑对象地图,使我们的方法能够在资源受限的平台上实时实现。

[12] 看见标志:用于广告牌可见性分析的边缘可部署OCR模型调查
标题: Seeing the Signs: A Survey of Edge-Deployable OCR Models for Billboard Visibility Analysis
作者: Maciej Szankin / Vidhyananth Venkatasamy / Lihang Ying
原文:   [英文]   [中文]  
备注: None
摘要:
户外广告仍然是现代营销的重要媒介,但在真实世界条件下准确验证广告牌文字的可见性仍然具有挑战性。传统的光学字符识别(OCR)流程在裁剪文本识别方面表现出色,但在复杂的户外场景、变化的字体和天气引起的视觉噪声下往往表现不佳。最近,多模态视觉-语言模型(VLMs)作为有前途的替代方案出现,提供了无需显式检测步骤的端到端场景理解。本文系统地对代表性VLMs(包括Qwen 2.5 VL 3B、InternVL3和SmolVLM2)与基于紧凑CNN的OCR基线(PaddleOCRv4)进行了基准测试,测试在两个公共数据集(ICDAR 2015和SVT)上进行,并通过合成天气失真来模拟真实的退化。我们的结果显示,尽管选定的VLMs在整体场景推理方面表现出色,但轻量级CNN流程仍能以极低的计算成本实现对裁剪文本的竞争性准确性——这是边缘部署的重要考虑因素。为了促进未来的研究,我们公开发布了我们的天气增强基准和评估代码。

[13] 超越任务特定推理:一种用于抽象视觉推理的统一条件生成框架
标题: Beyond Task-Specific Reasoning: A Unified Conditional Generative Framework for Abstract Visual Reasoning
作者: Fan Shi / Bin Li / Xiangyang Xue
原文:   [英文]   [中文]  
备注: None
摘要:
抽象视觉推理(AVR)使人类能够快速发现并将抽象规则推广到新场景。设计具有人类般AVR能力的智能系统一直是人工智能领域的长期课题。最近,深度AVR求解器在各种AVR任务中取得了显著成功。然而,它们通常在不同任务中使用特定于任务的设计或参数。在这种范式下,解决新任务通常意味着重新训练模型,有时还需要重新调整模型架构,这增加了解决AVR问题的成本。与特定于任务的方法相比,本文提出了一种新颖的统一条件生成求解器(UCGS),旨在在统一框架下解决多个AVR任务。首先,我们证明了一些知名的AVR任务可以重新表述为估计问题面板中目标图像可预测性的问题。然后,我们说明在所提出的框架下,训练一个条件生成模型可以解决各种AVR任务。实验表明,通过一次多任务训练,UCGS在各种AVR任务中展示了抽象推理能力。特别是,UCGS表现出零样本推理能力,使其能够在测试阶段对未见过的AVR任务的问题进行抽象推理。

[14] CorrMoE: 用去风格化学习进行跨场景和跨域对应剪枝的专家混合
标题: CorrMoE: Mixture of Experts with De-stylization Learning for Cross-Scene and Cross-Domain Correspondence Pruning
作者: Peiwen Xia / Tangfei Liao / Wei Zhu / Danhuai Zhao / Jianjun Ke / Kaihao Zhang / Tong Lu / Tao Wang
原文:   [英文]   [中文]  
备注: Accepted by ECAI 2025
摘要:
在计算机视觉中,建立图像对之间的可靠对应关系是一项基础任务,支撑着诸如三维重建和视觉定位等应用。尽管最近的方法在从密集对应集中剔除离群值方面取得了进展,但它们通常假设一致的视觉域,并忽视了多样化场景结构带来的挑战。在本文中,我们提出了CorrMoE,这是一种新颖的对应关系修剪框架,能够在跨域和跨场景变化下增强鲁棒性。为了解决域偏移问题,我们引入了一种去风格化双分支,在隐式和显式图特征上执行风格混合,以减轻域特定表示的不利影响。针对场景多样性,我们设计了一个双融合专家混合模块,通过线性复杂度注意力和动态专家路由自适应地整合多视角特征。基准数据集上的大量实验表明,CorrMoE在准确性和泛化能力方面优于最先进的方法。代码和预训练模型可在此https URL获取。

[15] ProtoConNet:用于开放集小样本图像分类的原型增强与对齐
标题: ProtoConNet: Prototypical Augmentation and Alignment for Open-Set Few-Shot Image Classification
作者: Kexuan Shi / Zhuang Qi / Jingjing Zhu / Lei Meng / Yaochen Zhang / Haibei Huang / Xiangxu Meng
原文:   [英文]   [中文]  
备注: Accepted in ChinaMM and recommended to Displays
摘要:
开放集小样本图像分类旨在使用少量标记数据训练模型,使其在面对未知环境时能够实现良好的泛化能力。现有方法主要利用单张图像的视觉信息来学习类别表示,以区分已知类别和未知类别。然而,这些方法往往忽视了整合丰富上下文信息的好处。为了解决这个问题,本文提出了一种原型增强和对齐方法,称为ProtoConNet,该方法结合了来自不同样本的背景信息,以增强特征空间的多样性,打破小样本场景中上下文与图像主体之间的虚假关联。具体来说,它由三个主要模块组成:基于聚类的数据选择(CDS)模块在保留核心特征的同时挖掘多样的数据模式;上下文增强语义细化(CSR)模块构建上下文字典以整合到图像表示中,从而提高模型在各种场景中的鲁棒性;原型对齐(PA)模块缩小图像表示与类别原型之间的差距,放大已知和未知类别的特征距离。两个数据集的实验结果验证了ProtoConNet在小样本场景中增强了表示学习的有效性,并识别开放集样本,使其优于现有方法。

[16] 从粗略到细致:跨模态对齐细粒度语言线索和视觉显著区域以实现动态情感识别
标题: From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition
作者: Yu Liu / Leyuan Qu / Hanlei Shi / Di Gao / Yuhua Zheng / Taihao Li
原文:   [英文]   [中文]  
备注: None
摘要:
动态面部表情识别(DFER)旨在从时间上演变的面部动作中识别人的情感,在情感计算中起着关键作用。尽管最近的视觉-语言方法引入了语义文本描述来指导表情识别,但现有方法仍面临两个关键限制:它们往往未充分利用生成文本中嵌入的细微情感线索,并且尚未结合足够有效的机制来过滤与情感表达无关的面部动态。为了解决这些问题,我们提出了GRACE(跨模态情感识别的细粒度表示对齐),该方法整合了动态运动建模、语义文本优化和基于标记的跨模态对齐,以促进情感显著的时空特征的精确定位。我们的方法通过粗到细的情感文本增强(CATE)模块构建情感感知的文本描述,并通过运动差异加权机制突出与表情相关的面部运动。这些优化的语义和视觉信号通过熵正则化的最优传输在标记级别上进行对齐。在三个基准数据集上的实验表明,我们的方法显著提高了识别性能,特别是在具有模糊或不平衡情感类别的挑战性环境中,建立了新的最先进(SOTA)结果,无论是在UAR还是WAR方面。

[17] 空间频率调制用于语义分割
标题: Spatial Frequency Modulation for Semantic Segmentation
作者: Linwei Chen / Ying Fu / Lin Gu / Dezhi Zheng / Jifeng Dai
原文:   [英文]   [中文]  
备注: Accept by TPAMI 2025
摘要:
高空间频率信息,包括纹理等细节,对语义分割的准确性有显著贡献。然而,根据奈奎斯特-香农采样定理,高频分量在通过如步幅卷积等下采样层时容易受到混叠或失真的影响。在此,我们提出了一种新颖的空间频率调制(SFM)方法,该方法在下采样之前将高频特征调制为低频,并在上采样时将其解调回去。具体而言,我们通过自适应重采样(ARS)实现调制,并设计了一个轻量级的附加模块,可以密集采样高频区域以放大信号,从而根据频率缩放特性降低其频率。我们还提出了多尺度自适应上采样(MSAU)来解调调制后的特征,并通过非均匀上采样恢复高频信息。该模块通过在多个尺度上显式利用密集和稀疏重采样区域之间的信息交互,进一步提高了分割效果。这两个模块可以无缝集成到各种架构中,从卷积神经网络到变压器。特征可视化和分析证实了我们的方法在有效缓解混叠的同时,成功保留了解调后的细节。最后,我们通过将SFM扩展到图像分类、对抗鲁棒性、实例分割和全景分割任务,验证了其广泛的适用性和有效性。代码可在\href{this https URL}{this https URL}获取。

[18] CompressedVQA-HDR:用于压缩高动态范围视频的广义全参考和无参考质量评估模型
标题: CompressedVQA-HDR: Generalized Full-reference and No-reference Quality Assessment Models for Compressed High Dynamic Range Videos
作者: Wei Sun / Linhan Cao / Kang Fu / Dandan Zhu / Jun Jia / Menghan Hu / Xiongkuo Min / Guangtao Zhai
原文:   [英文]   [中文]  
备注: CompressedVQA-HDR won first place in the FR track of the Generalizable HDR & SDR Video Quality Measurement Grand Challenge at IEEE ICME 2025
摘要:
视频压缩是一种标准程序,应用于所有视频,以尽可能减少存储和传输需求,同时尽量保持视觉质量。因此,评估压缩视频的视觉质量对于指导视频压缩算法的实际应用和进一步发展至关重要。尽管已经提出了许多压缩视频质量评估(VQA)方法,但它们通常缺乏处理日益多样化的视频类型(特别是高动态范围(HDR)内容)所需的泛化能力。在本文中,我们介绍了CompressedVQA-HDR,这是一种有效的VQA框架,旨在解决HDR视频质量评估的挑战。具体而言,我们采用Swin Transformer和SigLip 2作为所提出的全参考(FR)和无参考(NR)VQA模型的主干网络。对于FR模型,我们使用从Swin Transformer中提取的中间层特征作为其质量感知特征表示,计算参考帧和失真帧之间的深度结构和纹理相似性。对于NR模型,我们提取SigLip 2最终层特征图的全局均值作为其质量感知表示。为缓解HDR训练数据有限的问题,我们在大规模标准动态范围(SDR)VQA数据集上预训练FR模型,并在HDRSDR-VQA数据集上进行微调。对于NR模型,我们采用跨多个压缩VQA数据集的迭代混合数据集训练策略,然后在HDRSDR-VQA数据集上进行微调。实验结果表明,与现有的FR和NR VQA模型相比,我们的模型达到了最先进的性能。此外,CompressedVQA-HDR-FR在IEEE ICME 2025的可泛化HDR和SDR视频质量测量大赛的FR赛道中获得了第一名。代码可在此https URL获取。

[19] SEPose:用于行人监控的合成事件驱动人体姿态估计数据集
标题: SEPose: A Synthetic Event-based Human Pose Estimation Dataset for Pedestrian Monitoring
作者: Kaustav Chanda / Aayush Atul Verma / Arpitsinh Vaghela / Yezhou Yang / Bharatesh Chakravarthi
原文:   [英文]   [中文]  
备注: Accepted at the 28th IEEE International Conference on Intelligent Transportation Systems (ITSC 2025)
摘要:
事件传感器在行人和交通监控系统中,针对复杂条件的解决方案中展现出很大的潜力。它们的低延迟和高动态范围使得在因分心行走或其他异常动作引发的安全关键情况下,响应时间得以改善。然而,涵盖此类场景的数据仍然有限。为了解决这一问题,我们提出了SEPose——一个全面的合成事件驱动的人体姿态估计数据集,专为使用动态视觉传感器在CARLA模拟器中生成的固定行人感知而设计。SEPose包含近35万名带有身体姿态关键点注释的行人数据,从固定交通摄像头的视角出发,是一个全面的合成多人姿态估计数据集,涵盖了城市、郊区和农村环境中四路交叉口的繁忙和稀疏人群及交通,适用于各种光照和天气条件。我们在该数据集上训练了现有的最先进模型,如RVT和YOLOv8,并在真实的事件数据上对其进行评估,以展示所提数据集的模拟到真实的泛化能力。

[20] Dark-EvGS:事件相机作为黑暗中辐射场的眼睛
标题: Dark-EvGS: Event Camera as an Eye for Radiance Field in the Dark
作者: Jingqian Wu / Peiqi Duan / Zongqiang Wang / Changwei Wang / Boxin Shi / Edmund Y. Lam
原文:   [英文]   [中文]  
备注: None
摘要:
在低光环境中,由于动态范围的限制和长曝光导致的运动模糊,传统相机往往难以捕捉到清晰的多视角物体图像。事件相机具有高动态范围和高速特性,能够缓解这些问题。此外,3D 高斯散射(GS)可以实现辐射场重建,从而在低光条件下从多个视角合成明亮的帧。然而,简单地使用事件辅助的3D GS方法仍然面临挑战,因为在低光下,事件噪声较大,帧质量欠佳,且色调可能不一致。为了解决这些问题,我们提出了Dark-EvGS,这是第一个事件辅助的3D GS框架,能够从相机轨迹的任意视角重建明亮的帧。我们提出了三重监督机制,以获取整体知识、细粒度细节和清晰的场景渲染。色调匹配模块被提出以保证渲染帧的色彩一致性。此外,我们引入了第一个用于事件引导的明亮帧合成任务的真实捕获数据集,该任务通过基于3D GS的辐射场重建实现。实验表明,我们的方法在低光条件下的辐射场重建方面优于现有方法。代码和示例数据包含在补充材料中。

[21] 超幻象:评估多模态大型语言模型心智可视化能力的基准
标题: Hyperphantasia: A Benchmark for Evaluating the Mental Visualization Capabilities of Multimodal LLMs
作者: Mohammad Shahab Sepehri / Berk Tinaz / Zalan Fabian / Mahdi Soltanolkotabi
原文:   [英文]   [中文]  
备注: None
摘要:
心理可视化,即在内部构建和操控视觉表征的能力,是人类认知的核心组成部分,在涉及推理、预测和抽象的任务中发挥着至关重要的作用。尽管多模态大型语言模型(MLLMs)取得了快速进展,目前的基准测试主要评估被动的视觉感知,对支持问题解决的内部构建视觉模式的更主动能力提供的见解有限。然而,心理可视化是人类的一项关键认知技能,支持空间导航、预测物理轨迹以及通过想象模拟解决复杂视觉问题等能力。为弥补这一差距,我们引入了Hyperphantasia,这是一个合成基准,旨在通过四个精心设计的谜题评估MLLMs的心理可视化能力。每个任务都是程序生成的,并以三个难度级别呈现,从而能够对模型在复杂性增加情况下的表现进行控制分析。我们对最先进模型的全面评估显示出人类与MLLMs表现之间的显著差距。此外,我们探索了强化学习在提高视觉模拟能力方面的潜力。我们的研究结果表明,尽管一些模型在识别视觉模式方面表现出部分能力,但稳健的心理可视化对于当前的MLLMs仍然是一个未解决的挑战。

[22] RaDL:面向多实例文本到图像生成的关系感知解耦学习
标题: RaDL: Relation-aware Disentangled Learning for Multi-Instance Text-to-Image Generation
作者: Geon Park / Seon Bin Kim / Gunho Jung / Seong-Whan Lee
原文:   [英文]   [中文]  
备注: 6 Pages
摘要:
随着文本到图像(T2I)模型的最新进展,在单个图像提示中有效生成多个实例已成为一个关键挑战。现有的方法虽然在生成单个实例的位置方面取得了一定成功,但往往难以解决关系差异和多属性泄漏的问题。为了解决这些局限性,本文提出了关系感知解耦学习(RaDL)框架。RaDL通过可学习参数增强特定实例的属性,并通过关系注意力生成关系感知的图像特征,利用从全局提示中提取的动作动词。通过在COCO-Position、COCO-MIG和DrawBench等基准上的广泛评估,我们证明了RaDL优于现有方法,在位置准确性、多属性考虑以及实例之间的关系方面显示出显著的改进。我们的结果表明,RaDL是生成考虑多实例图像中每个实例的关系和多属性的图像的解决方案。

[23] 用于可推广语义分割的原型渐进对齐与重加权
标题: Prototypical Progressive Alignment and Reweighting for Generalizable Semantic Segmentation
作者: Yuhang Zhang / Zhengyu Zhang / Muxin Liao / Shishun Tian / Wenbin Zou / Lu Zhang / Chen Xu
原文:   [英文]   [中文]  
备注: This paper was accepted by IEEE Transactions on Intelligent Transportation Systems
摘要:
可泛化的语义分割旨在对未见过的目标域表现良好,这是一个关键挑战,因为现实世界的应用需要高度的泛化能力。类级原型,代表类的中心,作为域不变的线索,由于其稳定性和语义一致性,有助于泛化。然而,这种方法面临三个挑战。首先,现有方法通常采用粗略的原型对齐策略,这可能会阻碍性能。其次,通过对源批次特征进行平均计算的简单原型容易过拟合,并可能受到不相关源数据的负面影响。第三,大多数方法对所有源样本一视同仁,忽略了不同特征具有不同适应难度的事实。为了解决这些限制,我们提出了一种新颖的可泛化语义分割框架:原型渐进对齐和重加权(PPAR),利用CLIP模型的强大泛化能力。具体来说,我们定义了两个原型:原始文本原型(OTP)和视觉文本原型(VTP),通过CLIP生成,作为对齐的坚实基础。然后,我们引入了一种渐进对齐策略,以从易到难的方式对齐特征,逐步减少域间差距。此外,我们提出了一种原型重加权机制,估计源数据的可靠性并调整其贡献,减轻不相关或有害特征的影响(即减少负迁移)。我们还提供了理论分析,展示了我们的方法与域泛化理论之间的对齐。在多个基准上的广泛实验表明,PPAR实现了最先进的性能,验证了其有效性。

[24] 语言引导的对比音视频掩码自动编码器:从视频中自动生成音视频文本三元组
标题: Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos
作者: Yuchi Ishikawa / Shota Nakada / Hokuto Munakata / Kazuhiro Saito / Tatsuya Komatsu / Yoshimitsu Aoki
原文:   [英文]   [中文]  
备注: Interspeech 2025
摘要:
在本文中,我们提出了语言引导的对比音视频掩码自动编码器(LG-CAV-MAE),以改进音视频表示学习。LG-CAV-MAE将预训练的文本编码器集成到对比音视频掩码自动编码器中,使模型能够在音频、视觉和文本模态之间进行学习。为了训练LG-CAV-MAE,我们引入了一种自动方法,从未标记的视频中生成音视频文本三元组。我们首先使用图像字幕生成模型生成帧级字幕,然后应用基于CLAP的过滤,以确保音频和字幕之间的强对齐。这种方法无需人工标注即可产生高质量的音视频文本三元组。我们在音视频检索任务以及音视频分类任务上评估了LG-CAV-MAE。我们的方法显著优于现有方法,在检索任务的recall@10上提高了最多5.6%,在分类任务上提高了3.2%。

[25] 观看、聆听、理解、误导:针对短视频内容适宜性评估的三模态对抗攻击
标题: Watch, Listen, Understand, Mislead: Tri-modal Adversarial Attacks on Short Videos for Content Appropriateness Evaluation
作者: Sahid Hossain Mustakim / S M Jishanul Islam / Ummay Maria Muna / Montasir Chowdhury / Mohammed Jawwadul Islam / Sadia Ahmmed / Tashfia Sikder / Syed Tasdid Azam Dhrubo / Swakkhar Shatabda
原文:   [英文]   [中文]  
备注: Accepted as long paper, SVU Workshop at ICCV 2025
摘要:
多模态大语言模型(MLLMs)在内容审核中被越来越多地使用,但其在短视频环境中的稳健性仍未得到充分探索。目前的安全评估通常依赖于单模态攻击,未能解决组合攻击的脆弱性。在本文中,我们引入了一个全面的框架来评估MLLMs的三模态安全性。首先,我们提出了短视频多模态对抗(SVMA)数据集,其中包含多样化的短视频和人类引导的合成对抗攻击。其次,我们提出了ChimeraBreak,这是一种新颖的三模态攻击策略,同时挑战视觉、听觉和语义推理路径。在对最先进的MLLMs进行的大量实验中,我们发现了显著的脆弱性,具有高攻击成功率(ASR)。我们的研究揭示了不同的失败模式,显示出模型在错误分类良性或违反政策的内容方面的偏见。我们使用LLM-as-a-judge评估结果,展示了攻击推理的有效性。我们的数据集和研究结果为开发更稳健和安全的MLLMs提供了重要的见解。

[26] GS-Bias:用于视觉语言模型单图像测试时自适应的全局空间偏差学习器
标题: GS-Bias: Global-Spatial Bias Learner for Single-Image Test-Time Adaptation of Vision-Language Models
作者: Zhaohong Huang / Yuxin Zhang / Jingjing Xie / Fei Chao / Rongrong Ji
原文:   [英文]   [中文]  
备注: None
摘要:
最近在视觉语言模型(VLMs)的测试时适应(TTA)方面的进展引起了越来越多的关注,特别是通过使用单个图像的多个增强视图来提升零样本泛化能力。不幸的是,现有方法未能在性能和效率之间取得令人满意的平衡,要么是由于调整文本提示的过多开销,要么是由于手工制作的、无需训练的视觉特征增强带来的不稳定收益。在本文中,我们提出了全局-空间偏置学习器(GS-Bias),这是一种高效且有效的TTA范式,在TTA期间引入了两个可学习的偏置,分别展开为全局偏置和空间偏置。特别地,全局偏置通过学习增强视图之间的一致性来捕捉测试图像的全局语义特征,而空间偏置则学习图像空间视觉表示中区域之间的语义一致性。值得强调的是,这两组偏置直接添加到预训练VLMs输出的logits中,从而避免了通过VLM的全反向传播,这阻碍了现有TTA方法的效率。这使得GS-Bias在实现15个基准数据集上的最新性能的同时,具备极高的效率。例如,它在跨数据集泛化方面比TPT提高了2.23%,在领域泛化方面提高了2.72%,而在ImageNet上仅需TPT内存使用量的6.5%。

[27] EC-Diff:快速且高质量的边缘-云协作推理用于扩散模型
标题: EC-Diff: Fast and High-Quality Edge-Cloud Collaborative Inference for Diffusion Models
作者: Jiajian Xie / Shengyu Zhang / Zhou Zhao / Fan Wu / Fei Wu
原文:   [英文]   [中文]  
备注: 21 pages, 8 figures
摘要:
扩散模型在图像和视频合成方面表现出卓越的能力。随着模型规模和延迟的增加限制了用户体验,最近提出了一种混合边缘-云协作框架,以实现快速推理和高质量生成,其中云模型启动高质量的语义规划,边缘模型加速后期阶段的细化。然而,过多的云去噪会延长推理时间,而不足的步骤会导致语义模糊,从而导致边缘模型输出不一致。为了解决这些挑战,我们提出了EC-Diff,通过基于梯度的噪声估计加速云推理,同时识别云-边缘切换的最佳点以保持生成质量。具体来说,我们设计了一种K步噪声近似策略,通过使用步骤之间的噪声梯度并定期应用云推理来调整误差,从而减少云推理频率。然后,我们设计了一种两阶段贪婪搜索算法,以有效地找到噪声近似和边缘模型切换的最佳参数。大量实验表明,与边缘推理相比,我们的方法显著提高了生成质量,同时与云推理相比,推理速度平均提高了2倍。视频样本和源代码可在此HTTPS URL获取。

[28] 通过基于描述符的遮蔽图像修复与优化约束进行无监督部件发现
标题: Unsupervised Part Discovery via Descriptor-Based Masked Image Restoration with Optimized Constraints
作者: Jiahao Xia / Yike Wu / Wenjian Huang / Jianguo Zhang / Jian Zhang
原文:   [英文]  
备注: Accepted to ICCV 2025
摘要:
部分级特征对于图像理解至关重要,但由于缺乏细粒度标签,鲜有研究关注这一领域。尽管无监督的部分发现可以消除对标签的依赖,但大多数方法无法在各种类别和场景中保持鲁棒性,这限制了它们的应用范围。为克服这一限制,我们提出了一种更有效的无监督部分发现范式,称为掩码部分自编码器(MPAE)。该方法首先从输入中学习部分描述符以及特征图,并从原始图像的掩码版本中生成补丁特征。然后,根据局部特征与描述符之间的相似性,用学习到的部分描述符填充掩码区域。通过使用部分描述符恢复这些掩码补丁,它们在未掩码补丁的外观特征引导下,与其部分形状更好地对齐。最终,MPAE 能够在复杂场景中稳健地发现与实际物体形状紧密匹配的有意义部分。此外,我们提出了几种更宽松但更有效的约束,使 MPAE 能够在无监督的情况下识别各种场景和类别中的部分存在。这为解决遮挡带来的挑战以及探索跨多个类别的部分相似性提供了基础。大量实验表明,我们的方法能够在各种类别和场景中稳健地发现有意义的部分。代码可在项目的此 URL 获取。

[29] 在不同LoRA模块中进行传统艺术的风格组合
标题: Style Composition within Distinct LoRA modules for Traditional Art
作者: Jaehyun Lee / Wonhark Park / Wonsik Shin / Hyunho Lee / Hyoung Min Na / Nojun Kwak
原文:   [英文]   [中文]  
备注: None
摘要:
基于扩散的文本到图像模型在从文本提示合成多样化图像方面取得了显著成果,并且可以通过风格个性化捕捉特定的艺术风格。然而,它们纠缠的潜在空间和缺乏平滑插值使得难以以受控的、区域性的方式应用不同的绘画技术,通常导致一种风格占主导地位。为了解决这个问题,我们提出了一种零样本扩散管道,通过在单独训练的风格专用模型的流匹配去噪过程中预测的去噪潜在变量上执行风格组合,自然地融合多种风格。我们利用低噪声潜在变量携带更强风格信息的事实,并使用空间掩码在异质扩散管道之间融合它们,实现精确的区域特定风格控制。这种机制在允许用户引导混合的同时,保留了每种风格的真实性。此外,为了确保不同模型之间的结构一致性,我们在扩散框架中通过ControlNet引入深度图条件。定性和定量实验表明,我们的方法成功地根据给定的掩码实现了区域特定的风格混合。

[30] ID-EA:基于身份驱动的文本增强与适应,通过文本反转实现个性化文本到图像生成
标题: ID-EA: Identity-driven Text Enhancement and Adaptation with Textual Inversion for Personalized Text-to-Image Generation
作者: Hyun-Jun Jin / Young-Eun Kim / Seong-Whan Lee
原文:   [英文]   [中文]  
备注: None
摘要:
最近,个性化肖像生成在文本到图像扩散模型的帮助下取得了显著进展,其中文本反演(Textual Inversion)成为创建高保真个性化图像的一种有前途的方法。尽管具有潜力,但当前的文本反演方法由于文本和视觉嵌入空间在身份方面的语义不对齐,难以保持一致的面部身份。我们引入了ID-EA,这是一种新颖的框架,旨在引导文本嵌入与视觉身份嵌入对齐,从而改善个性化生成中的身份保留。ID-EA由两个关键组件组成:ID驱动增强器(ID-Enhancer)和ID条件适配器(ID-Adapter)。首先,ID-Enhancer将身份嵌入与文本ID锚点整合,利用代表性文本嵌入来优化从人脸识别模型中提取的视觉身份嵌入。然后,ID-Adapter利用身份增强的嵌入来调整文本条件,通过调整预训练UNet模型中的交叉注意力模块来确保身份保留。此过程鼓励文本特征在前景片段中找到最相关的视觉线索。广泛的定量和定性评估表明,ID-EA在身份保留指标上显著优于最先进的方法,同时实现了卓越的计算效率,生成个性化肖像的速度比现有方法快约15倍。

[31] SAMST:一种基于SAM伪标签过滤的遥感半监督语义分割Transformer框架
标题: SAMST: A Transformer framework based on SAM pseudo label filtering for remote sensing semi-supervised semantic segmentation
作者: Jun Yin / Fei Wu / Yupeng Ren / Jisheng Huang / Qiankun Li / Heng jin / Jianhai Fu / Chanjie Cui
原文:   [英文]   [中文]  
备注: IGARSS2025 accepted, Correspondence: fujianhai2024@gmail.com (J.F.), cuichj@mail2.this http URL (C.C.)
摘要:
公共遥感数据集由于分辨率的变化和不一致的地物覆盖类别定义,通常在通用性方面面临限制。为了利用大量未标记的遥感数据,我们提出了SAMST,一种半监督语义分割方法。SAMST利用了Segment Anything Model (SAM)在零样本泛化和边界检测方面的优势。SAMST通过两个主要组件迭代地优化伪标签:使用标记和伪标记数据进行的监督模型自训练,以及基于SAM的伪标签优化器。伪标签优化器由三个模块组成:用于预处理的阈值过滤模块、用于提取连接区域和为SAM生成提示的提示生成模块,以及用于最终标签拼接的标签优化模块。通过结合大型模型的泛化能力和小型模型的训练效率,SAMST提高了伪标签的准确性,从而增强了整体模型性能。在Potsdam数据集上的实验验证了SAMST的有效性和可行性,展示了其解决遥感语义分割中有限标记数据挑战的潜力。

[32] 用于细粒度风格化3D面部表情操控的AU-混合形状
标题: AU-Blendshape for Fine-grained Stylized 3D Facial Expression Manipulation
作者: Hao Li / Ju Dai / Feng Zhou / Kaida Ning / Lei Li / Junjun Pan
原文:   [英文]   [中文]  
备注: ICCV 2025
摘要:
尽管3D面部动画取得了显著进展,但由于缺乏合适的数据集,实现细粒度风格化3D面部表情操控仍然存在挑战。在本文中,我们介绍了AUBlendSet,这是一个基于AU-Blendshape表示的3D面部数据集,用于跨身份的细粒度面部表情操控。AUBlendSet是一个基于32个标准面部动作单元(AUs)的Blendshape数据集合,涵盖500个身份,并附有一组详细标注AUs的面部姿态。基于AUBlendSet,我们提出了AUBlendNet,用于学习不同角色风格的AU-Blendshape基向量。AUBlendNet并行预测给定身份网格的相应风格的AU-Blendshape基向量,从而实现风格化的3D情感面部操控。我们通过风格化面部表情操控、语音驱动的情感面部动画和情感识别数据增强等任务全面验证了AUBlendSet和AUBlendNet的有效性。通过一系列定性和定量实验,我们展示了AUBlendSet和AUBlendNet在3D面部动画任务中的潜力和重要性。据我们所知,AUBlendSet是第一个数据集,AUBlendNet是第一个网络,通过面部AUs实现任何身份的连续3D面部表情操控。我们的源代码可在此https URL获取。

[33] 频率动态注意力调制用于密集预测
标题: Frequency-Dynamic Attention Modulation for Dense Prediction
作者: Linwei Chen / Lin Gu / Ying Fu
原文:   [英文]   [中文]  
备注: Accepted by ICCV 2025
摘要:
视觉Transformer(ViTs)在计算机视觉领域取得了显著进展,在各种任务中表现出强大的性能。然而,ViTs中的注意力机制使得每一层都像一个低通滤波器,而现有Transformer中的堆叠层架构则存在频率消失的问题。这导致了关键细节和纹理的丢失。我们提出了一种新颖的、受电路理论启发的策略,称为频率动态注意力调制(FDAM),可以轻松地集成到ViTs中。FDAM直接调节ViTs的整体频率响应,由两种技术组成:注意力反转(AttInv)和频率动态缩放(FreqScale)。由于电路理论使用低通滤波器作为基本元素,我们引入了AttInv,这是一种通过反转注意力矩阵中的低通滤波器来生成互补高通滤波的方法,并动态结合两者。我们进一步设计了FreqScale,以对不同的频率成分进行加权,从而对目标响应函数进行细粒度调整。通过特征相似性分析和有效秩评估,我们证明了我们的方法避免了表示崩溃,从而在包括SegFormer、DeiT和MaskDINO在内的各种模型中实现了一致的性能提升。这些改进在语义分割、目标检测和实例分割等任务中尤为明显。此外,我们将我们的方法应用于遥感检测,在单尺度设置中实现了最先进的结果。代码可在\href{this https URL}{this https URL}获取。

[34] 双重形式互补掩模用于领域自适应图像分割
标题: Dual form Complementary Masking for Domain-Adaptive Image Segmentation
作者: Jiawen Wang / Yinda Chen / Xiaoyu Liu / Che Liu / Dong Liu / Jianqing Gao / Zhiwei Xiong
原文:   [英文]   [中文]  
备注: Accepted by ICML 2025
摘要:
最近的研究将掩码图像建模(MIM)与无监督领域自适应(UDA)中的一致性正则化联系起来。然而,它们仅仅将掩码视为对输入图像的一种特殊变形形式,并忽视了理论分析,这导致对掩码重建的理解流于表面,未能充分利用其在增强特征提取和表示学习方面的潜力。在本文中,我们将掩码重建重新框定为一个稀疏信号重建问题,并从理论上证明互补掩码的对偶形式在提取领域无关的图像特征方面具有优越的能力。基于这一有力的见解,我们提出了MaskTwins,这是一种简单而有效的UDA框架,将掩码重建直接整合到主要训练流程中。MaskTwins通过在以互补方式掩码的图像预测之间强制一致性,揭示了跨不同领域持久存在的内在结构模式,从而以端到端的方式实现领域泛化。大量实验验证了MaskTwins在自然和生物图像分割中相对于基线方法的优越性。这些结果展示了MaskTwins在无需单独预训练的情况下提取领域不变特征的显著优势,为领域自适应分割提供了一种新的范式。

[35] 深度神经编码器-解码器模型用于关联fMRI脑活动与自然刺激
标题: Deep Neural Encoder-Decoder Model to Relate fMRI Brain Activity with Naturalistic Stimuli
作者: Florian David / Michael Chan / Elenor Morgenroth / Patrik Vuilleumier / Dimitri Van De Ville
原文:   [英文]   [中文]  
备注: Accepted in International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC) 2025
摘要:
我们提出了一种端到端深度神经编码-解码模型,利用功能性磁共振成像(fMRI)数据来编码和解码大脑对自然刺激的反应。通过利用连续电影帧的时间相关输入,我们在架构中采用了时间卷积层,这有效地弥合了自然电影刺激与fMRI采集之间的时间分辨率差距。我们的模型预测视觉皮层内及周围体素的活动,并从神经活动中重建相应的视觉输入。最后,我们通过显著性图研究了对视觉解码有贡献的大脑区域。我们发现,贡献最大的区域是中枕区、梭状回和距状沟,分别用于形状感知、复杂识别(特别是面部感知)以及基本视觉特征如边缘和对比度。这些功能的强烈需求与解码器重建边缘、面部和对比度的能力一致。总而言之,这表明可以通过深度学习模型(如本文提出的模型)的行为来探测我们对电影中视觉处理的理解。

[36] 识别图像表型特征以追踪肝病治疗反应
标题: Identifying Signatures of Image Phenotypes to Track Treatment Response in Liver Disease
作者: Matthias Perkonigg / Nina Bastati / Ahmed Ba-Ssalamah / Peter Mesenbrink / Alexander Goehler / Miljen Martic / Xiaofei Zhou / Michael Trauner / Georg Langs
原文:   [英文]   [中文]  
备注: None
摘要:
与疾病进展和治疗反应相关的可量化图像模式是指导个体治疗和开发新疗法的关键工具。在此,我们展示了无监督机器学习可以识别磁共振图像中肝组织的模式词汇,从而量化弥漫性肝病的治疗反应。深度聚类网络同时对医学图像的补丁进行编码和聚类,将其转化为低维潜在空间,以建立组织词汇。由此产生的组织类型捕捉了与治疗反应相关的肝脏中不同的组织变化及其位置。我们在一项非酒精性脂肪性肝炎患者的随机对照试验队列中展示了该词汇的实用性。首先,我们使用该词汇比较安慰剂组和治疗组的纵向肝脏变化。结果表明,该方法识别出与治疗相关的特定肝组织变化路径,并能够比现有的非成像测量方法更好地区分治疗组。此外,我们展示了该词汇可以从非侵入性成像数据中预测活检衍生特征。我们在一个单独的复制队列上验证了该方法,以证明所提出方法的适用性。

[37] SS-DC:跨可见光-红外间隙的空间-光谱解耦与耦合用于领域自适应目标检测
标题: SS-DC: Spatial-Spectral Decoupling and Coupling Across Visible-Infrared Gap for Domain Adaptive Object Detection
作者: Xiwei Zhang / Chunjin Yang / Yiming Xiao / Runtong Zhang / Fanman Meng
原文:   [英文]   [中文]  
备注: 8 main-pages, 3 reference-pages, 5 figures, 6 tables
摘要:
从可见光域到红外域(RGB-IR)的无监督域自适应目标检测(UDAOD)具有挑战性。现有方法将RGB域视为一个统一的域,忽视了其中的多个子域,如白天、夜晚和雾天场景。我们认为,在这些多个子域中解耦域不变(DI)和域特定(DS)特征有利于RGB-IR域适应。为此,本文提出了一种基于解耦-耦合策略的新SS-DC框架。在解耦方面,我们设计了一个光谱自适应幂等解耦(SAID)模块,从光谱分解的角度出发。由于风格和内容信息高度嵌入在不同的频带中,该模块可以更准确和可解释地解耦DI和DS成分。提出了一种新颖的基于滤波器组的光谱处理范式和自蒸馏驱动的解耦损失,以改善光谱域解耦。在耦合方面,提出了一种新的空间-光谱耦合方法,通过空间和光谱DI特征金字塔实现联合耦合。同时,本文引入了解耦中的DS以减少域偏差。大量实验表明,我们的方法可以显著提高基线性能,并在多个RGB-IR数据集上优于现有的UDAOD方法,包括本文基于FLIR-ADAS数据集提出的新实验协议。

[38] 预训练掩码模型的数据集所有权验证
标题: Dataset Ownership Verification for Pre-trained Masked Models
作者: Yuechen Xie / Jie Song / Yicheng Shan / Xiaoyan Zhang / Yuanyu Wan / Shengxuming Zhang / Jiarui Duan / Mingli Song
原文:   [英文]   [中文]  
备注: Accepted by ICCV 2025
摘要:
高质量的开源数据集已经成为推动深度学习快速发展的关键催化剂,但同时也面临潜在被滥用的威胁。保护这些数据集对于其所有者的利益至关重要。数据集所有权的验证已经演变为该领域的一个重要方法;然而,现有的验证技术主要针对监督模型和对比预训练模型,因而不适合直接应用于日益普及的掩码模型。在这项工作中,我们引入了首个解决这一关键但未解决挑战的方法,称为掩码建模的数据集所有权验证(DOV4MM)。其核心目标是确定一个可疑的黑箱模型是否在特定的无标签数据集上进行了预训练,从而帮助数据集所有者维护其权利。DOV4MM基于我们的实证观察:当一个模型在目标数据集上进行预训练时,在嵌入空间中重建掩码信息的难度与未在该数据集上预训练的模型表现出显著差异。我们通过在ImageNet-1K上的十个掩码图像模型和在WikiText-103上的四个掩码语言模型验证了DOV4MM的有效性。结果表明,DOV4MM拒绝了原假设,其$p$值显著低于0.05,超越了所有先前的方法。代码可在此https URL获取。

[39] MVAR:多变量自回归空气污染物预测模型
标题: MVAR: MultiVariate AutoRegressive Air Pollutants Forecasting Model
作者: Xu Fan / Zhihao Wang / Yuetan Lin / Yan Zhang / Yang Xiang / Hao Li
原文:   [英文]   [中文]  
备注: None
摘要:
空气污染物对环境和人类健康构成了重大威胁,因此准确预测污染物浓度对于污染预警和政策制定至关重要。现有研究主要集中于单一污染物的预测,忽视了不同污染物之间的相互作用及其多样的空间响应。为满足多变量空气污染物预测的实际需求,我们提出了多变量自回归空气污染物预测模型(MVAR),该模型减少了对长时间窗口输入的依赖,提高了数据利用效率。我们还设计了多变量自回归训练范式,使MVAR能够实现120小时的长期序列预测。此外,MVAR开发了气象耦合空间变换器模块,能够灵活耦合基于AI的气象预测,同时学习污染物之间的相互作用及其多样的空间响应。针对空气污染物预测中缺乏标准化数据集的问题,我们构建了一个综合数据集,涵盖了2018年至2023年间中国北方75个城市的6种主要污染物,包括ERA5再分析数据和FuXi-2.0预测数据。实验结果表明,所提出的模型优于最先进的方法,并验证了所提架构的有效性。

[40] 3D-MoRe:用于具身问答的统一模态-上下文推理
标题: 3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering
作者: Rongtao Xu / Han Gao / Mingming Yu / Dong An / Shunpeng Chen / Changwei Wang / Li Guo / Xiaodan Liang / Shibiao Xu
原文:   [英文]   [中文]  
备注: Accepted by IROS 2025
摘要:
随着室内场景任务(如问答和密集描述)对多样化和可扩展数据的需求不断增长,我们提出了3D-MoRe,这是一种新颖的范式,旨在通过利用基础模型的优势生成大规模的3D语言数据集。该框架集成了多模态嵌入、跨模态交互和语言模型解码器等关键组件,以处理自然语言指令和3D场景数据。这种方法促进了在复杂3D环境中的增强推理和响应生成。利用ScanNet 3D场景数据集以及来自ScanQA和ScanRefer的文本注释,3D-MoRe在1,513个场景中生成了62,000个问答(QA)对和73,000个对象描述。我们还采用了各种数据增强技术并实施了语义过滤以确保高质量数据。在ScanQA上的实验表明,3D-MoRe显著优于最先进的基线,CIDEr得分提高了2.15%。同样,在ScanRefer上,我们的方法在CIDEr@0.5上取得了1.84%的显著提升,突显了其在这两项任务中的有效性。我们的代码和生成的数据集将公开发布以惠及社区,均可通过此https URL访问。

[41] SGLoc:用于相机姿态估计的3D高斯散点表示语义定位系统
标题: SGLoc: Semantic Localization System for Camera Pose Estimation from 3D Gaussian Splatting Representation
作者: Beining Xu / Siting Zhu / Hesheng Wang
原文:   [英文]   [中文]  
备注: 8 pages, 2 figures, IROS 2025
摘要:
我们提出了SGLoc,这是一种新颖的定位系统,通过利用语义信息直接从3D高斯散点(3DGS)表示中回归相机姿态。我们的方法利用2D图像和3D场景表示之间的语义关系来估计6自由度姿态,而无需先验的姿态信息。在该系统中,我们引入了一种多级姿态回归策略,该策略逐步从全局3DGS地图中估计和细化查询图像的姿态,而不需要初始姿态先验。此外,我们引入了一种基于语义的全局检索算法,该算法在2D(图像)和3D(3DGS地图)之间建立对应关系。通过匹配2D查询图像和3DGS语义表示的提取场景语义描述符,我们将图像与全局3DGS地图的局部区域对齐,从而获得粗略的姿态估计。随后,我们通过迭代优化查询图像与3DGS渲染图像之间的差异来细化粗略姿态。我们的SGLoc在12scenes和7scenes数据集上表现出优于基线的性能,显示出在没有初始姿态先验的情况下出色的全局定位能力。代码将在此https URL提供。

[42] 基于视图内和视图间相关性引导的多视图新类发现
标题: Intra-view and Inter-view Correlation Guided Multi-view Novel Class Discovery
作者: Xinhang Wan / Jiyuan Liu / Qian Qu / Suyuan Liu / Chuyu Zhang / Fangdi Wang / Xinwang Liu / En Zhu / Kunlun He
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们解决了新类发现(NCD)的问题,该问题旨在通过利用不相交的已知类的知识来聚类新类。尽管最近的进展在这一领域取得了显著的进步,但现有的NCD方法面临两个主要限制。首先,它们主要关注单视图数据(例如图像),忽视了日益普遍的多视图数据,例如用于疾病诊断的多组学数据。其次,它们依赖伪标签来监督新类聚类,这通常导致性能不稳定,因为伪标签质量对数据噪声和特征维度等因素高度敏感。为了解决这些挑战,我们提出了一种新颖的框架,名为“视内和视间相关性引导的多视图新类发现”(IICMVNCD),这是迄今为止首次尝试在多视图环境中探索NCD。具体来说,在视内层面上,利用已知类和新类之间的分布相似性,我们采用矩阵分解将特征分解为视图特定的共享基矩阵和因子矩阵。基矩阵捕捉两个数据集之间的分布一致性,而因子矩阵则建模样本之间的成对关系。在视间层面上,我们利用已知类之间的视图关系来指导新类的聚类。这包括通过因子矩阵的加权融合生成预测标签,并根据监督损失动态调整已知类的视图权重,然后将其转移到新类学习中。实验结果验证了我们提出的方法的有效性。

[43] MoViAD:模块化视觉异常检测
标题: MoViAD: Modular Visual Anomaly Detection
作者: Manuel Barusco / Francesco Borsatti / Arianna Stropeni / Davide Dalle Pezze / Gian Antonio Susto
原文:   [英文]  
备注: None
摘要:
VAD(异常检测)是机器学习中的一个关键领域,专注于识别图像中偏离正常模式的异常,通常面临异常数据稀缺和需要无监督训练的挑战。为了加速该领域的研究和部署,我们引入了MoViAD,这是一个全面且高度模块化的库,旨在提供快速且便捷的访问,以获取最先进的VAD模型、训练器、数据集和VAD工具。MoViAD支持多种场景,包括持续学习、半监督、少样本、噪声等。此外,它通过专用的边缘和物联网设置解决了实际部署中的挑战,提供了优化的模型和骨干网络,以及用于高效设备端执行和分布式推理的量化和压缩工具。MoViAD集成了一系列骨干网络、稳健的VAD评估指标(像素级和图像级)以及用于效率分析的有用分析工具。该库旨在实现快速、轻松的部署,使机器学习工程师能够轻松地在其特定设置中使用自定义模型、数据集和骨干网络。同时,它提供了研究人员开发和实验新方法所需的灵活性和可扩展性。

[44] InstructFLIP:探索用于人脸防伪的统一视觉语言模型
标题: InstructFLIP: Exploring Unified Vision-Language Model for Face Anti-spoofing
作者: Kun-Hsiang Lin / Yu-Wen Tseng / Kang-Yang Huang / Jhih-Ciang Wu / Wen-Huang Cheng
原文:   [英文]  
备注: Accepted by MM'25
摘要:
人脸防伪(FAS)旨在构建一个能够抵御多种攻击的鲁棒系统。尽管最近的努力主要集中在跨域泛化上,但仍然存在两个显著的挑战:对攻击类型的语义理解有限以及跨域训练的冗余。我们通过整合视觉-语言模型(VLMs)来增强对视觉输入的感知,以解决第一个问题。对于第二个挑战,我们采用元域策略来学习一个在多个域中具有良好泛化能力的统一模型。我们提出的InstructFLIP是一个新颖的指令调优框架,通过在单一域上训练的文本指导,利用VLMs来增强泛化能力。InstructFLIP的核心在于明确地将指令解耦为内容和风格组件,其中基于内容的指令专注于欺骗的基本语义,而基于风格的指令则考虑与环境和摄像头特性相关的变化。大量实验表明,InstructFLIP在准确性上优于现有的最先进模型,并在FAS的不同域中显著减少了训练冗余。项目网站可通过此HTTPS URL访问。

[45] MS-DETR:通过联合运动-语义学习实现有效的视频片段检索和精彩片段检测
标题: MS-DETR: Towards Effective Video Moment Retrieval and Highlight Detection by Joint Motion-Semantic Learning
作者: Hongxu Ma / Guanshuo Wang / Fufu Yu / Qiong Jia / Shouhong Ding
原文:   [英文]   [中文]  
备注: Accepted by ACM MM'25
摘要:
视频时刻检索(MR)和精彩片段检测(HD)旨在根据文本查询定位特定时刻并评估剪辑的相关性。尽管基于DETR的联合框架取得了显著进展,但在利用视频内容中时间运动和空间语义之间的复杂关系方面仍有未开发的潜力。在本文中,我们提出了运动-语义DETR(MS-DETR),这是一个通过统一学习为MR/HD任务捕捉丰富运动-语义特征的框架。编码器首先在给定文本查询的指导下,明确建模运动和语义维度内的解耦内模态相关性。随后,解码器利用时间运动和空间语义维度之间的任务相关性,实现MR的精确查询引导定位和HD的精细化精彩片段边界划分。此外,我们观察到MR/HD数据集中运动和语义维度内在的稀疏性困境。为了解决这个问题,我们通过生成策略从这两个维度丰富语料库,并提出对比去噪学习,以确保上述组件能够稳健有效地学习。在四个MR/HD基准上的大量实验表明,我们的方法在性能上超越了现有的最先进模型。我们的代码可在此https URL获取。

[46] 运动中的前瞻性:通过奖励启发强化轨迹预测
标题: Foresight in Motion: Reinforcing Trajectory Prediction with Reward Heuristics
作者: Muleilan Pei / Shaoshuai Shi / Xuesong Chen / Xu Liu / Shaojie Shen
原文:   [英文]   [中文]  
备注: Accepted by ICCV 2025
摘要:
针对道路交通参与者的运动预测既是一个重大挑战,也是确保自动驾驶系统安全的关键需求。与大多数直接预测未来轨迹的现有数据驱动方法不同,我们从规划的角度重新思考这一任务,倡导“先推理,再预测”的策略,明确将行为意图作为轨迹预测的空间指导。为此,我们引入了一种可解释的、基于奖励的意图推理器,该推理器基于一种新颖的以查询为中心的逆向强化学习(IRL)方案。我们的方法首先将交通参与者和场景元素编码为统一的向量化表示,然后通过以查询为中心的范式聚合上下文特征。这使得可以通过IRL推导出奖励分布,这是一种紧凑但信息丰富的目标参与者在给定场景上下文中的行为表示。在这种奖励启发的指导下,我们进行策略展开,以推理多种可能的意图,为后续的轨迹生成提供有价值的先验信息。最后,我们开发了一种分层的类似DETR的解码器,结合双向选择状态空间模型,以生成准确的未来轨迹及其相关概率。在大规模Argoverse和nuScenes运动预测数据集上的大量实验表明,我们的方法显著增强了轨迹预测的置信度,相对于最先进的方法实现了高度竞争的性能。

[47] YOLOv8-SMOT:一种通过切片辅助训练和自适应关联实现实时小物体跟踪的高效且稳健的框架
标题: YOLOv8-SMOT: An Efficient and Robust Framework for Real-Time Small Object Tracking via Slice-Assisted Training and Adaptive Association
作者: Xiang Yu / Xinyao Liu / Guang Liang
原文:   [英文]   [中文]  
备注: None
摘要:
从无人机(UAV)的视角追踪小型、敏捷的多目标(SMOT),如鸟类,是一项极具挑战性的计算机视觉任务。其难点主要来自三个方面:目标外观特征极其稀缺、由于相机和目标自身的动态结合导致的复杂运动纠缠,以及由于密集群体行为引起的频繁遮挡和身份模糊。本文详细介绍了我们在MVA 2025“寻找鸟类”小型多目标追踪挑战赛(SMOT4SB)中获胜的解决方案,该方案采用了检测-追踪范式,并在检测和关联层面进行了有针对性的创新。在检测方面,我们提出了一个名为\textbf{SliceTrain}的系统化训练增强框架。该框架通过“确定性全覆盖切片”和“切片级随机增强”的协同作用,有效解决了高分辨率图像训练中小目标学习不足的问题。在追踪方面,我们设计了一个完全独立于外观信息的鲁棒追踪器。通过将\textbf{运动方向维护(EMA)}机制和结合\textbf{边界框扩展和距离惩罚}的\textbf{自适应相似度度量}集成到OC-SORT框架中,我们的追踪器能够稳定处理不规则运动并保持目标身份。我们的方法在SMOT4SB公共测试集上达到了最先进的性能,获得了\textbf{55.205}的SO-HOTA分数,充分验证了我们框架在解决复杂现实世界SMOT问题上的有效性和先进性。源代码将在此https URL上提供。

[48] 多发性硬化症中深度学习皮层病变MRI分割的基准测试与解释
标题: Benchmarking and Explaining Deep Learning Cortical Lesion MRI Segmentation in Multiple Sclerosis
作者: Nataliia Molchanova / Alessandro Cagol / Mario Ocampo-Pineda / Po-Jui Lu / Matthias Weigel / Xinjie Chen / Erin Beck / Charidimos Tsagkas / Daniel Reich / Colin Vanden Bulcke / Anna Stolting / Serena Borrelli / Pietro Maggi / Adrien Depeursinge / Cristina Granziera / Henning Mueller / Pedro M. Gordaliza / Meritxell Bach Cuadra
原文:   [英文]   [中文]  
备注: None
摘要:
皮层病变(CLs)已成为多发性硬化症(MS)中有价值的生物标志物,具有高诊断特异性和预后相关性。然而,由于其在磁共振成像(MRI)中表现微弱、专家标注困难以及缺乏标准化的自动化方法,CLs在常规临床中的应用仍然有限。我们提出了一个全面的多中心基准,用于MRI中的CL检测和分割。总共收集了656份MRI扫描数据,包括来自四个机构的临床试验和研究数据,这些数据使用MP2RAGE和MPRAGE序列在3T和7T下获取,并附有专家共识标注。我们依赖于为医学影像分割设计的自配置nnU-Net框架,并提出了针对改进CL检测的调整。我们通过分布外测试评估了模型的泛化能力,显示出强大的病变检测能力,域内和域外的F1分数分别为0.64和0.5。我们还分析了内部模型特征和模型错误,以更好地理解AI决策过程。我们的研究考察了数据变异性、病变模糊性和协议差异如何影响模型性能,并提供了未来建议以解决这些临床应用障碍。为了加强可重复性,实施和模型将在此https URL和此https URL上公开访问并可供使用。

[49] BRUM:从360度稀疏图像中进行稳健的3D车辆重建
标题: BRUM: Robust 3D Vehicle Reconstruction from 360 Sparse Images
作者: Davide Di Nucci / Matteo Tomei / Guido Borghi / Luca Ciuffreda / Roberto Vezzani / Rita Cucchiara
原文:   [英文]   [中文]  
备注: None
摘要:
精确的车辆三维重建对于车辆检测、预测性维护和城市规划等应用至关重要。现有的方法如神经辐射场和高斯散射虽然展示了令人印象深刻的结果,但由于依赖于密集的输入视图,限制了其在现实世界中的适用性。本文解决了从稀疏视图输入重建车辆的挑战,利用深度图和稳健的姿态估计架构来合成新视图并增强训练数据。具体而言,我们通过集成选择性光度损失(仅应用于高置信度像素)来增强高斯散射,并用DUSt3R架构替代标准的结构化运动管道以改进相机姿态估计。此外,我们提出了一个包含合成和真实世界公共交通车辆的新数据集,使我们的方法能够进行广泛的评估。实验结果在多个基准测试中展示了最先进的性能,表明该方法即使在受限的输入条件下也能实现高质量的重建。

[50] DeepShade:通过文本条件图像生成实现阴影模拟
标题: DeepShade: Enable Shade Simulation by Text-conditioned Image Generation
作者: Longchao Da / Xiangrui Liu / Mithun Shivakoti / Thirulogasankar Pranav Kutralingam / Yezhou Yang / Hua Wei
原文:   [英文]   [中文]  
备注: 7pages, 4 figures. Accepted to IJCAI 2025
摘要:
热浪对公共健康构成了重大威胁,尤其是在全球变暖加剧的情况下。然而,目前的路径规划系统(例如,在线地图)由于难以直接从噪声卫星图像中估算阴影信息以及生成模型的训练数据有限,未能纳入阴影信息。在本文中,我们通过两个主要贡献来解决这些挑战。首先,我们构建了一个广泛的数据集,涵盖了不同经纬度区域、不同建筑密度水平和不同城市布局。利用基于Blender的3D模拟以及建筑轮廓,我们捕捉了一年中不同时间和不同太阳天顶角下的建筑阴影。这些模拟的阴影与卫星图像对齐,为学习阴影模式提供了丰富的资源。其次,我们提出了DeepShade,这是一种基于扩散的模型,旨在学习和合成随时间变化的阴影。它通过结合RGB与Canny边缘层来强调边缘特征的细微差别,并结合对比学习以捕捉阴影的时间变化规律。然后,通过基于已知条件(例如,一天中的时间、太阳角度)的文本描述进行条件化,我们的框架在生成阴影图像方面提供了更好的性能。我们通过使用我们的阴影预测来计算亚利桑那州坦佩市的实际路线规划中的阴影比例,展示了我们方法的实用性。我们相信这项工作将通过为极端高温天气下的城市规划提供参考以及其在环境中的潜在实际应用而造福社会。

[51] 面向生物医学语义分割的分布外数据监督
标题: Out-of-distribution data supervision towards biomedical semantic segmentation
作者: Yiquan Gao / Duohui Xu
原文:   [英文]  
备注: This paper was published in Proceedings of SPIE Volume 13442 and is reprinted with permission. The official version is available at this https URL. One personal copy is allowed. Reproduction, distribution, or commercial use is prohibited
摘要:
生物医学分割网络在有限且不完美的医学数据集上学习时,容易在前景和背景对象之间出现意外的错误分类。受到异常分布(OoD)数据在其他视觉任务中强大作用的启发,我们提出了一种以数据为中心的框架,Med-OoD,通过将OoD数据监督引入完全监督的生物医学分割中来解决这一问题,而无需以下任何需求:(i) 外部数据源,(ii) 特征正则化目标,(iii) 额外的标注。我们的方法可以无缝集成到分割网络中,而无需对架构进行任何修改。大量实验表明,Med-OoD在很大程度上防止了各种分割网络在医学图像上的像素错误分类,并在Lizard数据集上实现了显著的性能提升。我们还展示了一种新兴的学习范式,即完全使用没有前景类别标签的OoD数据训练医学分割网络,令人惊讶地取得了76.1%的mIoU测试结果。我们希望这种学习范式能吸引人们重新思考OoD数据的角色。代码可在此https URL获取。

[52] 非自适应对抗性人脸生成
标题: Non-Adaptive Adversarial Face Generation
作者: Sunpill Kim / Seunghun Paik / Chanwoo Hwang / Minsu Kim / Jae Hong Seo
原文:   [英文]   [中文]  
备注: None
摘要:
对人脸识别系统(FRS)的对抗性攻击构成了严重的安全和隐私威胁,尤其是在这些系统用于身份验证时。在本文中,我们提出了一种生成对抗性人脸的新方法——这些合成的人脸图像在视觉上与目标身份明显不同,但被FRS识别为目标身份。与基于迭代优化的方法(例如,梯度下降或其他迭代求解器)不同,我们的方法利用了FRS特征空间的结构特征。我们发现,共享相同属性(例如,性别或种族)的个体形成了一个属性子球。通过利用这些子球,我们的方法实现了非自适应性和极少的查询次数。这消除了依赖可迁移性和开源替代模型的需要,这在无法对商业FRS进行重复自适应查询时是一种典型策略。尽管只需进行一次由100张人脸图像组成的非自适应查询,我们的方法在AWS的CompareFaces API的默认阈值下实现了超过93%的高成功率。此外,与许多现有的通过扰动给定图像进行的攻击不同,我们的方法可以故意生成对抗性人脸,这些人脸在模仿目标身份的同时,展示出由攻击者选择的高级属性。

[53] 激光雷达画家:从任意激光雷达视图到新颖引导仅一步之遥
标题: LidarPainter: One-Step Away From Any Lidar View To Novel Guidance
作者: Yuzhou Ji / Ke Ma / Hong Cai / Anchun Zhang / Lizhuang Ma / Xin Tan
原文:   [英文]   [中文]  
备注: None
摘要:
动态驾驶场景重建在数字孪生系统和自动驾驶模拟等领域具有重要意义。然而,当视角偏离输入轨迹时,会出现不可接受的退化,导致背景和车辆模型损坏。为了提高新轨迹上的重建质量,现有方法受到各种限制,包括不一致、变形和耗时。本文提出了LidarPainter,这是一种一步扩散模型,可以从稀疏的LiDAR条件和伪影损坏的渲染中实时恢复一致的驾驶视图,从而在驾驶场景重建中实现高保真的车道变换。大量实验表明,LidarPainter在速度、质量和资源效率方面优于最先进的方法,速度比StreetCrafter快7倍,仅需五分之一的GPU内存。LidarPainter还支持使用诸如“雾天”和“夜晚”等文本提示进行风格化生成,允许对现有资产库进行多样化扩展。

[54] 使用三维层次场景图进行开放词汇室内物体定位
标题: Open-Vocabulary Indoor Object Grounding with 3D Hierarchical Scene Graph
作者: Sergey Linok / Gleb Naumov
原文:   [英文]  
备注: 13 pages, 5 figures, 2 tables
摘要:
我们提出了OVIGo-3DHSG方法——使用3D层次场景图进行开放词汇室内物体定位。OVIGo-3DHSG通过利用一系列开放词汇基础模型和传感器数据处理,从RGB-D帧序列中提取的层次场景图来表示广泛的室内环境。该层次表示明确地建模了楼层、房间、位置和物体之间的空间关系。为了有效解决涉及对其他物体的空间引用的复杂查询,我们将层次场景图与大型语言模型集成,以实现多步推理。此集成利用了层间(例如,房间到物体)和层内(例如,物体到物体)的连接,增强了空间上下文理解。我们在Habitat Matterport 3D语义多楼层场景中研究了层次表示的语义和几何精度。与现有方法相比,我们的方法展示了高效的场景理解和稳健的物体定位能力。总体而言,OVIGo-3DHSG在需要空间推理和室内环境理解的应用中表现出强大的潜力。相关材料可以在此HTTPS URL中找到。

[55] 基于块的对称剪枝与融合用于高效视觉Transformer
标题: Block-based Symmetric Pruning and Fusion for Efficient Vision Transformers
作者: Yi-Kuan Hsieh / Jun-Wei Hsieh / Xin Li / Yu-Ming Chang / Yu-Chee Tseng
原文:   [英文]   [中文]  
备注: None
摘要:
视觉Transformer(ViT)在各种视觉任务中取得了令人印象深刻的成果,但其高计算成本限制了实际应用。最近的方法旨在通过剪枝不重要的tokens来降低ViT的$O(n^2)$复杂度。然而,这些技术通常通过独立剪枝查询(Q)和键(K)tokens而牺牲了准确性,导致由于忽视token交互而出现性能下降。为了解决这一限制,我们引入了一种新颖的高效ViT的{\bf 基于块的对称剪枝与融合}(BSPF-ViT),该方法优化了Q/K tokens的联合剪枝。与之前仅考虑单一方向的方法不同,我们的方法评估每个token及其邻居,通过考虑token交互来决定保留哪些tokens。保留的tokens通过相似性融合步骤进行压缩,在减少计算成本的同时保留关键信息。Q/K tokens的共享权重创建了一个对称的注意力矩阵,仅剪枝上三角部分以加速。BSPF-ViT在所有剪枝级别上始终优于最先进的ViT方法,在DeiT-T上将ImageNet分类准确率提高了1.3%,在DeiT-S上提高了2.0%,同时将计算开销减少了50%。在提高各种ViT的准确性的同时,实现了40%的加速。

[56] 学习像素自适应多层感知器用于实时图像增强
标题: Learning Pixel-adaptive Multi-layer Perceptrons for Real-time Image Enhancement
作者: Junyu Lou / Xiaorui Zhao / Kexuan Shi / Shuhang Gu
原文:   [英文]   [中文]  
备注: Accepted to ICCV 2025
摘要:
基于深度学习的双边网格处理已成为图像增强的一个有前途的解决方案,它本质上编码了空间和强度信息,同时通过切片操作实现高效的全分辨率处理。然而,现有的方法仅限于线性仿射变换,限制了它们建模复杂颜色关系的能力。同时,虽然多层感知器(MLPs)在非线性映射方面表现出色,但传统的基于MLP的方法采用全局共享参数,这难以处理局部变化。为克服这两个挑战,我们提出了一种基于双边网格的像素自适应多层感知器(BPAM)框架。我们的方法将双边网格的空间建模与MLPs的非线性能力相结合。具体来说,我们生成包含MLP参数的双边网格,其中每个像素动态检索其独特的变换参数,并基于空间坐标和强度值获得用于颜色映射的独特MLP。此外,我们提出了一种新颖的网格分解策略,将MLP参数分类为存储在不同子网格中的不同类型。多通道引导图用于从相应的子网格中提取特定类别的参数,确保在切片过程中有效利用颜色信息,同时指导精确的参数生成。在公共数据集上的大量实验表明,我们的方法在性能上优于最先进的方法,同时保持实时处理能力。

[57] AD-GS:面向对象的B样条高斯喷溅用于自监督自动驾驶
标题: AD-GS: Object-Aware B-Spline Gaussian Splatting for Self-Supervised Autonomous Driving
作者: Jiawei Xu / Kai Deng / Zexin Fan / Shenlong Wang / Jin Xie / Jian Yang
原文:   [英文]   [中文]  
备注: Accepted by ICCV 2025
摘要:
对动态城市驾驶场景进行建模和渲染对于自动驾驶模拟至关重要。目前的高质量方法通常依赖于昂贵的手动对象轨迹注释,而自监督方法无法准确捕捉动态对象的运动并正确分解场景,导致渲染伪影。我们介绍了AD-GS,这是一种新颖的自监督框架,用于从单个日志中高质量的自由视点渲染驾驶场景。其核心是一个新颖的可学习运动模型,该模型将局部感知的B样条曲线与全局感知的三角函数相结合,实现灵活而精确的动态对象建模。AD-GS无需全面的语义标注,而是通过简化的伪2D分割自动将场景分割为对象和背景,使用动态高斯和双向时间可见性掩码来表示对象。此外,我们的模型结合了可见性推理和物理刚性正则化以增强鲁棒性。广泛的评估表明,我们的无注释模型显著优于当前最先进的无注释方法,并且与依赖注释的方法具有竞争力。

[58] 神经人体姿态先验
标题: Neural Human Pose Prior
作者: Michal Heker / Sefy Kararlitsky / David Tolpin
原文:   [英文]   [中文]  
备注: Work in progress
摘要:
我们引入了一种基于数据的原则性方法,使用正规化流来建模人类身体姿势的神经先验。与启发式或低表达性替代方法不同,我们的方法利用RealNVP来学习以6D旋转格式表示的姿势的灵活密度。我们通过在训练过程中反转Gram-Schmidt过程来解决在有效6D旋转流形上建模分布的挑战,从而实现稳定的学习,同时保持与基于旋转的框架的下游兼容性。我们的架构和训练流程与框架无关且易于复现。我们通过定性和定量评估展示了所学先验的有效性,并通过消融研究分析了其影响。这项工作为将姿势先验整合到人体运动捕捉和重建流程中提供了可靠的概率基础。

[59] 从头开始通过教师引导的数据增强进行细粒度图像识别
标题: Fine-Grained Image Recognition from Scratch with Teacher-Guided Data Augmentation
作者: Edwin Arkel Rios / Fernando Mikael / Oswin Gosal / Femiloye Oyerinde / Hao-Chun Liang / Bo-Cheng Lai / Min-Chun Hu
原文:   [英文]   [中文]  
备注: Main: 10 pages, 2 figures, 4 tables
摘要:
细粒度图像识别(FGIR)旨在区分更广泛类别中的视觉上相似的子类别,例如识别鸟类物种。虽然大多数现有的FGIR方法依赖于在大规模数据集(如ImageNet)上预训练的骨干网络,但这种依赖性限制了在资源受限环境中的适应性,并阻碍了针对FGIR独特挑战的任务特定架构的发展。在这项工作中,我们通过展示可以完全从头开始训练高性能的FGIR系统,挑战了对预训练模型的传统依赖。我们引入了一个新颖的训练框架TGDA,该框架通过知识蒸馏实现的细粒度感知教师模型,将数据感知增强与弱监督相结合。该框架解锁了任务特定和硬件感知架构的设计,包括用于低分辨率FGIR的LRNets和优化高效推理的Vision Transformers家族ViTFS。 在涉及低分辨率和高分辨率输入的多种设置下,我们在三个FGIR基准上的广泛实验表明,我们的方法始终与或超过了最先进的预训练对手。特别是在低分辨率设置中,使用TGDA训练的LRNets在准确性上比先前的方法提高了高达23%,同时需要的参数减少了高达20.6倍,FLOPs更低,训练数据显著减少。同样,ViTFS-T可以在使用15.3倍更少的可训练参数和数量级更少的数据的情况下,达到在ImageNet-21k上预训练的ViT B-16的性能。这些结果突显了TGDA作为预训练的适应性替代方案的潜力,为更高效的细粒度视觉系统铺平了道路。

[60] 混合集成方法:优化深度特征融合与超参数调优分类器集成以增强脑肿瘤分类
标题: Hybrid Ensemble Approaches: Optimal Deep Feature Fusion and Hyperparameter-Tuned Classifier Ensembling for Enhanced Brain Tumor Classification
作者: Zahid Ullah / Dragan Pamucar / Jihie Kim
原文:   [英文]   [中文]  
备注: None
摘要:
磁共振成像(MRI)因其能够生成详细图像以揭示肿瘤的存在而被广泛认为是检测肿瘤的最可靠工具。然而,当人类专家评估这些图像时,诊断的准确性可能会受到影响。疲劳、专业知识有限以及图像细节不足等因素可能导致错误。例如,小肿瘤可能会被忽视,或与健康脑区域重叠可能导致误识别。为了解决这些挑战并提高诊断精度,本研究提出了一种新颖的双重集成框架,包括用于特征提取的集成预训练深度学习(DL)模型和用于有效分类脑肿瘤的集成微调超参数机器学习(ML)模型。具体而言,我们的方法包括广泛的预处理和增强,通过利用各种预训练深度卷积神经网络和视觉变换器网络来提取脑MRI的深度特征,并微调ML分类器的超参数。我们的实验使用了三个不同的公开可用的Kaggle MRI脑肿瘤数据集来评估预训练DL特征提取模型、ML分类器,以及深度特征集成与ML分类器集成在脑肿瘤分类中的有效性。我们的结果表明,所提出的特征融合和分类器融合优于现有技术,超参数微调在集成方法上提供了显著的增强。此外,我们还进行了消融研究,以说明每个组件如何促进准确的脑肿瘤分类。

[61] 基于小波的低光立体图像增强解耦框架
标题: Wavelet-based Decoupling Framework for low-light Stereo Image Enhancement
作者: Shuangli Du / Siming Yan / Zhenghao Shi / Zhenzhen You / Lu Sun
原文:   [英文]   [中文]  
备注: None
摘要:
低光图像存在复杂的退化问题,现有的增强方法通常将所有退化因素编码在一个单一的潜在空间中。这导致特征高度纠缠和强烈的黑箱特性,使得模型容易出现捷径学习。为了解决上述问题,本文提出了一种基于小波的低光立体图像增强方法,具有特征空间解耦的特点。我们的见解来自以下发现:(1) 小波变换能够独立处理低频和高频信息。(2) 通过多级小波分解提取低光图像的低频分量,可以实现光照调整。因此,通过使用小波变换,特征空间被分解为用于光照调整的低频分支和用于纹理增强的多个高频分支。此外,立体低光图像增强可以从另一个视角提取有用的线索以改善增强效果。为此,我们提出了一种新颖的高频引导跨视图交互模块(HF-CIM),该模块在高频分支内操作,而不是在整个特征空间中操作,有效地从另一个视角提取有价值的图像细节。此外,为了增强高频信息,基于交叉注意力机制提出了细节和纹理增强模块(DTEM)。该模型在由均匀光照图像和非均匀光照图像组成的数据集上进行训练。对真实和合成图像的实验结果表明,我们的算法在光照调整方面具有显著优势,同时有效恢复高频信息。代码和数据集可在此网址公开获取:this https URL。

[62] 揭示古代之美:利用计算机视觉进行寺庙瓦片的数字重建
标题: Revealing the Ancient Beauty: Digital Reconstruction of Temple Tiles using Computer Vision
作者: Arkaprabha Basu
原文:   [英文]   [中文]  
备注: None
摘要:
现代数字化方法极大地改变了文化瑰宝的保存和修复,使计算机科学家能够轻松融入多学科项目。机器学习、深度学习和计算机视觉技术在计算机科学家参与的多学科项目中,彻底革新了3D重建、图像修复、基于物联网的方法、遗传算法和图像处理等新兴领域。我们针对以建筑技艺和美学吸引力闻名的印度古迹,提出了三种尖端技术。首先是分形卷积方法,这是一种基于图像处理的分割方法,能够成功揭示这些不可替代的文化建筑中的微妙建筑图案。第二种是革命性的自敏感瓷砖填充(SSTF)方法,专为西孟加拉邦迷人的班库拉陶土寺庙设计,并结合了一种全新的数据增强方法,称为MosaicSlice。我们还深入研究了超分辨率策略,以在不损失显著质量的情况下放大图像。我们的方法允许在保持真实性的同时,通过一种新颖的数据增强策略,以可承受的成本实现自动化,开发出无缝的区域填充和高度详细的瓷砖。通过提供有效的解决方案,保持传统与创新之间的微妙平衡,本研究改善了这一领域,并最终确保在文化遗产保护中实现无与伦比的效率和美学卓越。所提出的方法将该领域推进到一个无与伦比的效率和美学质量的时代,同时谨慎地维护传统与创新之间的微妙平衡。

[63] RODS:检测和减少生成模型幻觉的鲁棒优化启发扩散采样
标题: RODS: Robust Optimization Inspired Diffusion Sampling for Detecting and Reducing Hallucination in Generative Models
作者: Yiqi Tian / Pengfei Jin / Mingze Yuan / Na Li / Bo Zeng / Quanzheng Li
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型在生成建模中已达到最先进的性能,但其采样过程仍易受到幻觉的影响,这通常源于分数近似的不准确。在这项工作中,我们通过优化的视角重新解释扩散采样,并引入RODS(鲁棒优化启发的扩散采样器),这是一种新方法,利用损失景观的几何线索检测和纠正高风险采样步骤。RODS强制执行更平滑的采样轨迹,并自适应地调整扰动,在不重新训练的情况下减少幻觉,并且额外的推理成本极小。在AFHQv2、FFHQ和11k-hands上的实验表明,RODS提高了采样的保真度和鲁棒性,检测到超过70%的幻觉样本并纠正了超过25%,同时避免了引入新的伪影。

[64] MGFFD-VLM:基于VLM的多粒度提示学习用于人脸伪造检测
标题: MGFFD-VLM: Multi-Granularity Prompt Learning for Face Forgery Detection with VLM
作者: Tao Chen / Jingyi Zhang / Decheng Liu / Chunlei Peng
原文:   [英文]   [中文]  
备注: None
摘要:
最近的研究利用视觉大语言模型(VLMs)不仅回答“这张脸是伪造的吗?”还回答“为什么这张脸是伪造的?”这些研究引入了与伪造相关的属性,如伪造位置和类型,以构建深度伪造问答(VQA)数据集并训练VLMs,在提供人类可理解的解释性文本描述的同时实现了高准确率。然而,这些方法仍然存在局限性。例如,它们没有充分利用与面部质量相关的属性,而这些属性在伪造的面孔中通常是异常的,并且缺乏有效的伪造感知VLMs的训练策略。在本文中,我们扩展了VQA数据集,创建了DD-VQA+,其特点是更丰富的属性集和更广泛的样本范围。此外,我们引入了一种新颖的伪造检测框架MGFFD-VLM,该框架集成了一种属性驱动的混合LoRA策略,以增强视觉大语言模型(VLMs)的能力。此外,我们的框架结合了多粒度提示学习和伪造感知训练策略。通过将分类和伪造分割结果转化为提示,我们的方法不仅提高了伪造分类的准确性,还增强了解释性。为了进一步提升检测性能,我们设计了多种与伪造相关的辅助损失。实验结果表明,我们的方法在基于文本的伪造判断和分析中均优于现有方法,达到了更高的准确性。

[65] 生成到定位:多模态文本条件提升医学视觉语言模型中的短语定位
标题: Generate to Ground: Multimodal Text Conditioning Boosts Phrase Grounding in Medical Vision-Language Models
作者: Felix Nützel / Mischa Dombrowski / Bernhard Kainz
原文:   [英文]   [中文]  
备注: 20 pages, 6 figures. To appear in Proc. MIDL 2025 (PMLR)
摘要:
短语定位,即将自然语言短语映射到特定的图像区域,在通过临床报告进行医学影像中的疾病定位方面具有重要潜力。虽然当前最先进的方法依赖于判别性的自监督对比模型,但我们证明了生成性的文本到图像扩散模型,通过利用交叉注意力图,可以实现更优越的零样本短语定位性能。与之前的假设相反,我们展示了通过使用冻结的、特定领域的语言模型(如CXR-BERT)微调扩散模型,能够显著优于领域无关的对手。这一设置实现了显著的改进,mIoU分数是当前判别方法的两倍。这些发现突显了生成模型在短语定位任务中未被充分探索的潜力。为了进一步提高性能,我们引入了双模态偏差合并(BBM),这是一种新颖的后处理技术,通过对齐文本和图像的偏差来识别高确定性区域。BBM优化了交叉注意力图,实现了更高的定位准确性。我们的结果确立了生成方法作为医学影像领域短语定位的更有效范式,为临床实践中更稳健和可解释的应用铺平了道路。源代码和模型权重可在此https URL获取。

[66] 徒手健身技能的时间视频分割
标题: Calisthenics Skills Temporal Video Segmentation
作者: Antonio Finocchiaro / Giovanni Maria Farinella / Antonino Furnari
原文:   [英文]   [中文]  
备注: 9 pages, 6 figures, In Proceedings of the 19th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - Volume 2
摘要:
徒手健身是一种快速发展的自身体重训练项目,包含不同的类别,其中之一专注于技能。徒手健身中的技能包括运动员表演的静态和动态元素。静态技能的评估基于其难度级别和保持的时间。能够通过视频分割来识别等长技能并估计其持续时间的自动化工具将有助于运动员的训练和比赛中的裁判。尽管在通过身体姿态分析进行动作识别的视频理解文献中有丰富的研究,但之前没有工作专门解决徒手健身技能的时间视频分割问题。本研究旨在为在徒手健身领域内实现自动化工具提供初步步骤。为了在这一背景下推进知识,我们提出了一个由运动员表演的静态徒手健身技能的视频数据集。每个视频都带有时间分割注释,以确定每项技能的范围。因此,我们报告了在所提出的数据集上解决技能时间分割问题的基线方法的结果。结果突出了所提出问题的可行性,但仍有改进的空间。

[67] 在PathMNIST上Keras、PyTorch和JAX中CNN性能的比较分析
标题: Comparative Analysis of CNN Performance in Keras, PyTorch and JAX on PathMNIST
作者: Anida Nezović / Jalal Romano / Nada Marić / Medina Kapo / Amila Akagić
原文:   [英文]  
备注: None
摘要:
深度学习显著推动了医学图像分类领域的发展,特别是在采用卷积神经网络(CNNs)方面。Keras、PyTorch 和 JAX 等各种深度学习框架在模型开发和部署中提供了独特的优势。然而,它们在医学成像任务中的比较性能仍未得到充分探索。本研究通过使用 PathMNIST 数据集作为基准,对这些框架中的 CNN 实现进行了全面分析。我们评估了训练效率、分类准确性和推理速度,以评估它们在实际应用中的适用性。我们的研究结果突出了计算速度和模型准确性之间的权衡,为医学图像分析领域的研究人员和从业者提供了宝贵的见解。

[68] 逐层冻结的站点级微调:旨在从第一天的胸部X光片中对极早产儿支气管肺发育不良进行稳健预测
标题: Site-Level Fine-Tuning with Progressive Layer Freezing: Towards Robust Prediction of Bronchopulmonary Dysplasia from Day-1 Chest Radiographs in Extremely Preterm Infants
作者: Sybelle Goedicke-Fritz / Michelle Bous / Annika Engel / Matthias Flotho / Pascal Hirsch / Hannah Wittig / Dino Milanovic / Dominik Mohr / Mathias Kaspar / Sogand Nemat / Dorothea Kerner / Arno Bücker / Andreas Keller / Sascha Meyer / Michael Zemlin / Philipp Flotho
原文:   [英文]  
备注: S.G.-F., M.B., and A.E. contributed equally to this work and share first authorship. M.Z. and P.F. contributed equally to this work and share senior authorship
摘要:
支气管肺发育不良(BPD)是一种慢性肺病,影响着35%的极低出生体重婴儿。其定义为在胎龄36周时仍需依赖氧气,导致终生的呼吸系统并发症。然而,预防性干预措施存在严重风险,包括神经发育障碍、呼吸机引起的肺损伤和全身性并发症。因此,早期预测BPD及其结果对于避免低风险婴儿的不必要毒性至关重要。极早产婴儿的入院X光片通常在出生后24小时内获取,可以作为一种无创的预后工具。在这项研究中,我们开发并研究了一种深度学习方法,使用了163名极低出生体重婴儿(胎龄≤32周,体重401-999克)在出生后24小时内获得的胸部X光片。我们对专门在成人胸部X光片上预训练的ResNet-50进行了微调,采用渐进层冻结和判别学习率以防止过拟合,并评估了CutMix增强和线性探测。对于中度/重度BPD结果预测,我们表现最佳的模型通过渐进冻结、线性探测和CutMix实现了0.78 ± 0.10的AUROC,0.69 ± 0.10的平衡准确率,以及0.67 ± 0.11的F1分数。领域内预训练显著优于ImageNet初始化(p = 0.031),这证实了领域特定预训练对于BPD结果预测的重要性。常规IRDS评分显示有限的预后价值(AUROC 0.57 ± 0.11),确认了学习标记的必要性。我们的研究表明,领域特定的预训练使得从常规第一天的X光片中准确预测BPD成为可能。通过渐进冻结和线性探测,该方法在计算上可行,适合于现场级别的实施和未来的联邦学习部署。

[69] FADE:流模型中的对抗性概念消除
标题: FADE: Adversarial Concept Erasure in Flow Models
作者: Zixuan Fu / Yan Ren / Finn Carter / Chenyue Wang / Ze Niu / Dacheng Yu / Emily Davis / Bo Zhang
原文:   [英文]   [中文]  
备注: Camera Ready
摘要:
扩散模型在图像生成方面展示了卓越的能力,但也因记住敏感概念或延续偏见而带来了隐私和公平性风险。我们提出了一种新颖的文本到图像扩散模型的\textbf{概念消除}方法,旨在从模型的生成能力中移除指定的概念(例如,私人个体或有害的刻板印象)。我们的方法称为\textbf{FADE}(公平对抗扩散消除),结合了轨迹感知的微调策略和对抗性目标,以确保概念被可靠地移除,同时保持整体模型的保真度。从理论上讲,我们证明了我们的方法在形式上保证最小化被消除概念与模型输出之间的互信息,从而确保隐私和公平性。在实证上,我们在Stable Diffusion和FLUX上评估了FADE,使用了先前工作的基准(例如,来自MACE的对象、名人、显式内容和风格消除任务)。FADE在概念移除性能上达到了最先进的水平,超越了最近的基线如ESD、UCE、MACE和ANT,在移除效果和图像质量方面表现出色。值得注意的是,FADE在概念移除和保真度的调和平均值上比最佳的先前方法提高了5-10%。我们还进行了消融研究以验证FADE的每个组成部分,确认我们的对抗性和轨迹保持目标各自对其卓越性能的贡献。我们的工作为安全和公平的生成建模设定了新标准,通过不从头再训练来“遗忘”指定的概念。

[70] 通过前景实例选择和深度估计实现高效的体操技能分类
标题: Efficient Calisthenics Skills Classification through Foreground Instance Selection and Depth Estimation
作者: Antonio Finocchiaro / Giovanni Maria Farinella / Antonino Furnari
原文:   [英文]  
备注: 13 pages, 4 figures, In International Conference on Image Analysis and Processing
摘要:
徒手健身技能分类是一项计算机视觉任务,其目的是从图像中推断运动员所执行的技能,从而实现自动化的表现评估和个性化分析。传统的徒手健身技能识别方法基于姿态估计方法,从图像中确定骨骼数据的位置,然后将其输入到分类算法中以推断所执行的技能。尽管人类姿态估计算法取得了进展,但它们仍然涉及高计算成本、长推理时间和复杂的设置,这限制了这些方法在实时应用或移动设备中的适用性。本文提出了一种直接的徒手健身技能识别方法,该方法利用深度估计和运动员补丁检索来避免计算成本高昂的人体姿态估计模块。我们使用Depth Anything V2进行深度估计,使用YOLOv10进行运动员定位,通过将主体从背景中分割出来,而不是依赖传统的姿态估计技术。这一策略提高了效率,减少了推理时间,并提高了分类准确性。我们的方法显著优于基于骨骼的方法,实现了38.3倍的推理速度提升,并通过深度补丁提高了分类准确性(0.837对比0.815)。除了这些性能提升之外,我们的流水线的模块化设计允许灵活替换组件,从而实现未来的增强和适应实际应用。

[71] 用于高保真、高效扩散模型的组合离散潜码
标题: Compositional Discrete Latent Code for High Fidelity, Productive Diffusion Models
作者: Samuel Lavoie / Michael Noukhovitch / Aaron Courville
原文:   [英文]   [中文]  
备注: In submission, 22 pages, 7 tables, 12 figures
摘要:
我们认为,扩散模型在建模复杂分布方面的成功主要来自于其输入条件化。本文从理想表示应提高样本保真度、易于生成且具有组合性以允许生成训练外样本的角度,研究了用于条件化扩散模型的表示。我们引入了离散潜码(DLC),这是一种从通过自监督学习目标训练的单纯形嵌入中导出的图像表示。DLC 是离散标记的序列,与标准的连续图像嵌入不同。它们易于生成,其组合性使得可以采样超出训练分布的新颖图像。使用 DLC 训练的扩散模型具有更高的生成保真度,在 ImageNet 上的无条件图像生成中建立了新的最先进水平。此外,我们展示了组合 DLC 可以使图像生成器以多种方式连贯地结合图像语义,从而生成分布外样本。最后,我们展示了如何通过利用大规模预训练语言模型,使用 DLC 实现文本到图像的生成。我们高效地微调了一个文本扩散语言模型,以生成 DLC,从而产生超出图像生成器训练分布的新颖样本。

[72] 从多视角扩散先验中无监督单目三维关键点发现
标题: Unsupervised Monocular 3D Keypoint Discovery from Multi-View Diffusion Priors
作者: Subin Jeon / In Cho / Junyoung Hong / Seon Joo Kim
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了KeyDiff3D,这是一种用于无监督单目3D关键点估计的框架,可以从单张图像中准确预测3D关键点。以往的方法依赖于手动标注或校准的多视图图像,这两者的收集成本都很高,而我们的方法仅使用单视图图像集合即可实现单目3D关键点估计。为此,我们利用了预训练的多视图扩散模型中嵌入的强大几何先验。在我们的框架中,该模型从单张图像生成多视图图像,作为监督信号为我们的模型提供3D几何线索。我们还将扩散模型用作强大的2D多视图特征提取器,并从其中间表示构建3D特征体。这将扩散模型学习的隐式3D先验转化为显式3D特征。除了准确的关键点估计之外,我们还引入了一个管道,使得可以操控由扩散模型生成的3D对象。在包括Human3.6M、Stanford Dogs以及若干野外和域外数据集的多方面实验结果中,我们的方法在准确性、泛化能力以及从单张图像生成的3D对象操控能力方面的有效性得到了验证。

[73] 通过知识蒸馏提升轻量级杂草检测
标题: Improving Lightweight Weed Detection via Knowledge Distillation
作者: Ahmet Oğuz Saltık / Max Voigt / Sourav Modak / Mike Beckworth / Anthony Stein
原文:   [英文]   [中文]  
备注: None
摘要:
杂草检测是精准农业的关键组成部分,有助于实现针对性的除草剂施用并减少环境影响。然而,在资源有限的平台上部署准确的目标检测模型仍然具有挑战性,特别是在植物表型分析应用中区分视觉上相似的杂草种类时。在这项工作中,我们研究了通道知识蒸馏(CWD)和掩码生成蒸馏(MGD),以提高轻量级模型在实时智能喷洒系统中的性能。我们使用YOLO11x作为教师模型,YOLO11n作为参考和学生模型,CWD和MGD都能有效地将知识从教师模型传递到学生模型。我们的实验在一个包含甜菜作物和四种杂草类型(蓟属、旋花属、蓼属和稗属)的真实数据集上进行,结果显示所有类别的AP50均有所提高。经过蒸馏的CWD学生模型在mAP50上比基线提高了2.5%,而MGD提高了1.9%,且没有增加模型复杂性。此外,我们通过在Jetson Orin Nano和Raspberry Pi 5嵌入式设备上评估学生YOLO11n模型,进行了五次独立运行以评估性能稳定性,从而验证了实时部署的可行性。这些研究结果证实了CWD和MGD是提高精准农业和植物表型分析场景中基于深度学习的杂草检测准确性的一种有效、高效且实用的方法。

[74] 无监督视觉表示学习的聚类对比
标题: Cluster Contrast for Unsupervised Visual Representation Learning
作者: Nikolaos Giakoumoglou / Tania Stathaki
原文:   [英文]   [中文]  
备注: ICIP 2025
摘要:
我们介绍了Cluster Contrast (CueCo),这是一种新颖的无监督视觉表示学习方法,有效结合了对比学习和聚类方法的优势。受最近进展的启发,CueCo旨在同时在特征空间中分散和对齐特征表示。该方法使用两个神经网络:一个查询网络和一个键网络,其中键网络通过查询输出的慢速移动平均进行更新。CueCo采用对比损失来将不相似的特征分开,增强类间分离,并使用聚类目标将同一聚类的特征聚拢,促进类内紧凑性。我们的方法在CIFAR-10上实现了91.40%的top-1分类准确率,在CIFAR-100上实现了68.56%,在ImageNet-100上实现了78.65%,使用ResNet-18骨干进行线性评估。通过将对比学习与聚类相结合,CueCo为推进无监督视觉表示学习开辟了新的方向。

[75] 基于文本驱动的多平面视觉交互用于半监督医学图像分割
标题: Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation
作者: Kaiwen Huang / Yi Zhou / Huazhu Fu / Yizhe Zhang / Chen Gong / Tao Zhou
原文:   [英文]   [中文]  
备注: 10 pages; 2 figures; Have been accepted by MICCAI 2025
摘要:
半监督医学图像分割是一项关键技术,可以缓解数据标注的高成本。当标注数据有限时,文本信息可以提供额外的上下文来增强视觉语义理解。然而,探索使用文本数据来增强3D医学成像任务中的视觉语义嵌入的研究仍然很少。在本文中,我们提出了一种新颖的文本驱动多平面视觉交互框架用于半监督医学图像分割(称为Text-SemiSeg),该框架由三个主要模块组成:文本增强多平面表示(TMR)、类别感知语义对齐(CSA)和动态认知增强(DCA)。具体来说,TMR通过平面映射促进文本与视觉的交互,从而增强视觉特征的类别感知。CSA在引入可学习变量的文本特征与视觉特征的中间层之间执行跨模态语义对齐。DCA通过它们的交互减少标注数据和未标注数据之间的分布差异,从而提高模型的鲁棒性。最后,在三个公共数据集上的实验表明,我们的模型有效地利用文本信息增强了视觉特征,并且优于其他方法。我们的代码可在此https URL获取。

[76] OD-VIRAT:用于现实监控环境中目标检测的大规模基准
标题: OD-VIRAT: A Large-Scale Benchmark for Object Detection in Realistic Surveillance Environments
作者: Hayat Ullah / Abbas Khan / Arslan Munir / Hari Kalva
原文:   [英文]   [中文]  
备注: 14 pages
摘要:
现实的人体监控数据集对于在真实世界条件下训练和评估计算机视觉模型至关重要,有助于开发出在复杂环境中进行人体和人机交互物体检测的稳健算法。这些数据集需要提供多样且具有挑战性的数据,以便全面评估模型性能,并创建更可靠的公共安全监控系统。为此,我们提出了两个视觉物体检测基准,分别命名为 OD-VIRAT Large 和 OD-VIRAT Tiny,旨在推进监控图像中的视觉理解任务。这两个基准中的视频序列涵盖了从较高和较远距离记录的10个不同的人体监控场景。所提出的基准提供了丰富的边界框和类别注释,其中 OD-VIRAT Large 在599,996张图像中有870万标注实例,而 OD-VIRAT Tiny 在19,860张图像中有288,901个标注实例。此项工作还专注于对最先进的物体检测架构进行基准测试,包括 RETMDET、YOLOX、RetinaNet、DETR 和 Deformable-DETR,针对 VIRAT 数据集的这一物体检测特定变体。据我们所知,这是首次在具有挑战性的条件下(如复杂背景、遮挡物体和小尺度物体)检验这些新近发布的最先进物体检测架构在现实监控图像中的性能。所提出的基准测试和实验设置将有助于提供关于所选物体检测模型性能的见解,并为开发更高效和稳健的物体检测架构奠定基础。

[77] AutoVDC:使用视觉语言模型的自动化视觉数据清理
标题: AutoVDC: Automated Vision Data Cleaning Using Vision-Language Models
作者: Santosh Vasa / Aditi Ramadwar / Jnana Rama Krishna Darabattula / Md Zafar Anwar / Stanislaw Antol / Andrei Vatavu / Thomas Monninger / Sihao Ding
原文:   [英文]   [中文]  
备注: None
摘要:
自动驾驶系统的训练需要大量具有精确标注的数据集,以实现稳健的性能。人工标注存在不完美之处,通常需要多次迭代才能生成高质量的数据集。然而,手动审核大型数据集既费力又昂贵。在本文中,我们介绍了AutoVDC(自动化视觉数据清理)框架,并研究了利用视觉-语言模型(VLMs)自动识别视觉数据集中的错误标注,从而使用户能够消除这些错误并提高数据质量。我们使用包含自动驾驶目标检测基准的KITTI和nuImages数据集验证了我们的方法。为了测试AutoVDC的有效性,我们创建了故意注入错误标注的数据集变体,并观察我们方法的错误检测率。此外,我们比较了使用不同VLMs的检测率,并探讨了VLM微调对我们流程的影响。结果表明,我们的方法在错误检测和数据清理实验中表现出色,表明其在显著提高自动驾驶大规模生产数据集的可靠性和准确性方面具有潜力。

[78] QuRe:通过困难负样本采样在组合图像检索中实现查询相关检索
标题: QuRe: Query-Relevant Retrieval through Hard Negative Sampling in Composed Image Retrieval
作者: Jaehyun Kwak / Ramahdani Muhammad Izaaz Inhar / Se-Young Yun / Sung-Ju Lee
原文:   [英文]   [中文]  
备注: Accepted to ICML 2025
摘要:
组合图像检索(CIR)基于参考图像和描述所需修改的文本来检索相关图像。然而,现有的CIR方法仅关注检索目标图像,而忽视了其他图像的相关性。这一局限性是由于大多数方法采用对比学习,将目标图像视为正样本,而将批次中的所有其他图像视为负样本,这可能无意中包含了错误的负样本。这可能导致检索到不相关的图像,即使目标图像被检索到,也会降低用户满意度。为了解决这个问题,我们提出了通过困难负样本采样进行查询相关检索(QuRe),该方法优化奖励模型目标以减少错误负样本。此外,我们引入了一种困难负样本采样策略,该策略选择在目标图像之后相关性分数急剧下降之间的图像,以有效过滤错误负样本。为了评估CIR模型与人类满意度的对齐程度,我们创建了Human-Preference FashionIQ(HP-FashionIQ),这是一个新数据集,明确捕捉了超越目标检索的用户偏好。大量实验表明,QuRe在FashionIQ和CIRR数据集上实现了最先进的性能,同时在HP-FashionIQ数据集上表现出与人类偏好最强的对齐。源代码可在此https URL获取。

[79] InterpIoU:通过插值式IoU优化重新思考边界框回归
标题: InterpIoU: Rethinking Bounding Box Regression with Interpolation-Based IoU Optimization
作者: Haoyuan Liu / Hiroshi Watanabe
原文:   [英文]   [中文]  
备注: None
摘要:
边界框回归(BBR)是目标检测的基础,其中回归损失对于准确定位至关重要。现有的基于IoU的损失通常结合手工设计的几何惩罚,以解决IoU在非重叠情况下的不可微性问题,并提高BBR性能。然而,这些惩罚对框的形状、大小和分布敏感,常常导致对小物体的优化效果不佳,以及由于与IoU目标不一致而导致边界框扩大等不良行为。为了解决这些限制,我们提出了InterpIoU,一种新颖的损失函数,用基于插值框与目标之间的IoU的项替代手工设计的几何惩罚。通过使用插值框来弥合预测与真实值之间的差距,InterpIoU在非重叠情况下提供了有意义的梯度,并从根本上避免了由于惩罚不一致导致的框扩大问题。模拟结果进一步表明,IoU本身是理想的回归目标,而现有的几何惩罚既不必要也不理想。在InterpIoU的基础上,我们引入了动态InterpIoU,它根据IoU值动态调整插值系数,提高了对多样化物体分布场景的适应性。在COCO、VisDrone和PASCAL VOC上的实验表明,我们的方法在各种检测框架中始终优于最先进的基于IoU的损失,尤其是在小物体检测方面有显著的改进,证实了其有效性。

[80] DVFL-Net:一种用于时空动作识别的轻量级蒸馏视频焦点调制网络
标题: DVFL-Net: A Lightweight Distilled Video Focal Modulation Network for Spatio-Temporal Action Recognition
作者: Hayat Ullah / Muhammad Ali Shafique / Abbas Khan / Arslan Munir
原文:   [英文]   [中文]  
备注: 17 pages
摘要:
视频识别领域已经发生了显著的演变,从传统的卷积神经网络(CNN)转向基于Transformer的架构以提高准确性。虽然3D CNN在捕捉时空动态方面表现有效,但最近的Transformer模型利用自注意力机制来建模长距离的空间和时间依赖性。尽管在主要基准测试中取得了最先进的性能,Transformers在处理密集视频数据时仍然计算量大。为了解决这个问题,我们提出了一种轻量级的视频焦点调制网络,DVFL-Net,它将一个大型预训练教师模型的时空知识提炼到一个紧凑的纳米学生模型中,从而实现高效的设备端部署。DVFL-Net利用知识蒸馏和时空特征调制,在显著减少计算量的同时保持高识别性能。我们采用前向Kullback-Leibler(KL)散度以及时空焦点调制,有效地将Video-FocalNet Base(教师)的局部和全局上下文转移到所提出的VFL-Net(学生)。我们在UCF50、UCF101、HMDB51、SSV2和Kinetics-400上评估DVFL-Net,并与最近的人类动作识别(HAR)领域的最先进方法进行对比。此外,我们进行了详细的消融研究,分析了前向KL散度的影响。结果证实了DVFL-Net在性能和效率之间实现最佳平衡的优越性,表现出更低的内存使用、更少的GFLOPs和强大的准确性,使其成为实时HAR应用的实用解决方案。

[81] 交通感知的行人意图预测
标题: Traffic-Aware Pedestrian Intention Prediction
作者: Fahimeh Orvati Nia / Hai Lin
原文:   [英文]   [中文]  
备注: 6 pages, 4 figures. Accepted to the American Control Conference (ACC) 2025
摘要:
准确的行人意图估计对于自动驾驶车辆的安全导航至关重要,因此吸引了大量研究关注。然而,当前的模型往往未能充分考虑动态交通信号和场景上下文信息,而这些对于实际应用至关重要。本文提出了一种交通感知时空图卷积网络(TA-STGCN),将交通标志及其状态(红、黄、绿)整合到行人意图预测中。我们的方法引入了动态交通信号状态和边界框大小作为关键特征,使模型能够在复杂的城市环境中捕捉空间和时间依赖性。该模型在准确性上超过了现有方法。具体而言,TA-STGCN在PIE数据集上比基线模型的准确性提高了4.75%,展示了其在改善行人意图预测方面的有效性。

[82] 用于文本丰富图像的视觉问答的描述任意事物模型
标题: Describe Anything Model for Visual Question Answering on Text-rich Images
作者: Yen-Linh Vu / Dinh-Thang Duong / Truong-Binh Duong / Anh-Khoi Nguyen / Thanh-Huy Nguyen / Le Thien Phuc Nguyen / Jianhua Xing / Xingjian Li / Tianyang Wang / Ulas Bagci / Min Xu
原文:   [英文]   [中文]  
备注: 11 pages, 5 figures. Accepted to VisionDocs @ ICCV 2025
摘要:
最近在区域感知的视觉语言建模方面取得了进展,特别是随着描述任何事物模型(DAM)的出现。DAM能够生成任何特定图像区域或对象的详细描述,而无需额外的局部图像-文本对齐监督。我们假设这种区域级描述能力对于视觉问答(VQA)任务是有益的,特别是在涉及密集文本图像的挑战性场景中。在这种情况下,细粒度的文本信息提取对于生成正确答案至关重要。受此启发,我们引入了DAM-QA,这是一个具有定制评估协议的框架,旨在研究和利用DAM的区域感知能力来解决需要在图像中基于文本信息进行推理的文本丰富的VQA问题。DAM-QA结合了一种机制,可以从图像内容的多个区域视图中聚合答案,从而更有效地识别可能与文本相关的元素的证据。在六个VQA基准测试上的实验表明,我们的方法始终优于基线DAM,在DocVQA上取得了显著的7+点增益。DAM-QA在参数更少的区域感知模型中也实现了最佳的整体性能,显著缩小了与强大的通用视觉语言模型的差距。这些结果突显了DAM类模型在文本丰富和更广泛的VQA任务中与高效使用和集成策略相结合的潜力。我们的代码在此https URL上公开可用。

[83] 基于视觉感知的自动驾驶车辆在避障场景中的应用
标题: Vision-based Perception for Autonomous Vehicles in Obstacle Avoidance Scenarios
作者: Van-Hoang-Anh Phan / Chi-Tam Nguyen / Doan-Trung Au / Thanh-Danh Phan / Minh-Thien Duong / My-Ha Le
原文:   [英文]   [中文]  
备注: 7 pages, 6 figures, 4 tables, HSI 2025
摘要:
障碍物规避对于确保自动驾驶车辆的安全至关重要。准确的感知和运动规划对于使车辆在复杂环境中导航并避免碰撞至关重要。在本文中,我们提出了一种高效的障碍物规避流程,该流程利用仅基于摄像头的感知模块和基于Frenet-Pure Pursuit的规划策略。通过整合计算机视觉的进展,系统使用YOLOv11进行物体检测,并使用最先进的单目深度估计模型,如Depth Anything V2,来估计物体距离。这些模型的比较分析为其在真实世界条件下的准确性、效率和鲁棒性提供了宝贵的见解。该系统在大学校园的多种场景中进行了评估,展示了其在处理各种障碍物和增强自动导航方面的有效性。障碍物规避实验结果的视频可在此URL观看:this https URL

[84] 通过句子级早期干预缓解对象幻觉
标题: Mitigating Object Hallucinations via Sentence-Level Early Intervention
作者: Shangpin Peng / Senqiao Yang / Li Jiang / Zhuotao Tian
原文:   [英文]  
备注: None
摘要:
多模态大语言模型(MLLMs)在跨模态理解方面取得了革命性进展,但仍然在幻觉问题上存在困难——即生成的内容与视觉输入相矛盾。现有的幻觉缓解方法要么导致计算成本过高,要么在训练数据和模型输出之间引入分布不匹配。我们发现一个关键的见解:幻觉主要在文本生成的早期阶段出现,并通过后续输出传播。为了解决这个问题,我们提出了**SENTINEL**(**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning),一个不依赖人工标注的框架。具体来说,我们首先通过迭代采样模型输出,使用两个开放词汇检测器交叉验证对象存在性,并将句子分类为幻觉/非幻觉类别,来引导生成高质量的域内偏好对。随后,我们使用上下文一致的正样本和幻觉的负样本迭代构建上下文感知的偏好数据。最后,我们使用上下文感知的偏好损失(C-DPO)训练模型,强调在幻觉最初出现的句子层面进行判别学习。实验结果表明,与原始模型相比,SENTINEL可以减少超过90%的幻觉,并在幻觉基准和一般能力基准上优于之前的最新方法,展示了其优越性和泛化能力。模型、数据集和代码可在此https URL获取。

[85] 从眼动中解读放射科医生在胸部X光诊断中的意图
标题: Interpreting Radiologist's Intention from Eye Movements in Chest X-ray Diagnosis
作者: Trong-Thang Pham / Anh Nguyen / Zhigang Deng / Carol C. Wu / Hien Van Nguyen / Ngan Le
原文:   [英文]   [中文]  
备注: ACM MM 2025
摘要:
放射科医生依赖眼动来导航和解读医学图像。经过训练的放射科医生具备关于图像中可能存在的潜在疾病的知识,并在搜索时遵循一个心理清单,通过注视来定位它们。这是一个关键的观察点,但现有模型未能捕捉到每次注视背后的潜在意图。在本文中,我们介绍了一种基于深度学习的方法,称为RadGazeIntent,旨在模拟这种行为:有意图地寻找某物并积极地搜索它。我们的基于Transformer的架构同时处理注视数据的时间和空间维度,将细粒度的注视特征转化为粗略且有意义的诊断意图表示,以解读放射科医生的目标。为了捕捉放射科医生多样化的意图驱动行为的细微差别,我们处理了现有的医学眼动追踪数据集,创建了三个意图标记的子集:RadSeq(系统顺序搜索)、RadExplore(不确定性驱动的探索)和RadHybrid(混合模式)。实验结果表明,RadGazeIntent能够预测放射科医生在特定时刻正在检查哪些发现,在所有意图标记的数据集上均优于基线方法。

[86] SpatialTrackerV2:轻松实现3D点追踪
标题: SpatialTrackerV2: 3D Point Tracking Made Easy
作者: Yuxi Xiao / Jianyuan Wang / Nan Xue / Nikita Karaev / Yuri Makarov / Bingyi Kang / Xing Zhu / Hujun Bao / Yujun Shen / Xiaowei Zhou
原文:   [英文]   [中文]  
备注: International Conference on Computer Vision, ICCV 2025. Huggingface Demo: this https URL, Code: this https URL
摘要:
我们介绍了SpatialTrackerV2,这是一种用于单目视频的前馈3D点跟踪方法。我们的方法超越了基于现成组件的模块化3D跟踪流程,将点跟踪、单目深度和相机姿态估计之间的内在联系统一为一个高性能的前馈3D点跟踪器。它将世界空间的3D运动分解为场景几何、相机自运动和像素级对象运动,采用完全可微分的端到端架构,允许在广泛的数据集上进行可扩展的训练,包括合成序列、带姿态的RGB-D视频和未标注的自然环境视频。通过从这些异构数据中联合学习几何和运动,SpatialTrackerV2的性能比现有的3D跟踪方法提高了30%,并且在运行速度上比领先的动态3D重建方法快50倍,同时匹配其准确性。

[87] MMHU:用于人类行为理解的大规模多模态基准
标题: MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding
作者: Renjie Li / Ruijie Ye / Mingyang Wu / Hao Frank Yang / Zhiwen Fan / Hezhen Hu / Zhengzhong Tu
原文:   [英文]   [中文]  
备注: None
摘要:
人类是交通生态系统中不可或缺的组成部分,理解他们的行为对于促进安全驾驶系统的发展至关重要。尽管最近的进展已经探索了人类行为的各个方面——例如运动、轨迹和意图——但用于评估自动驾驶中人类行为理解的综合基准仍然不可用。在这项工作中,我们提出了 $\textbf{MMHU}$,一个用于人类行为分析的大规模基准,具有丰富的注释,例如人类运动和轨迹、运动的文本描述、人类意图以及与驾驶安全相关的关键行为标签。我们的数据集包含了57,000个运动片段和173万帧,收集自多种来源,包括成熟的驾驶数据集如Waymo、来自YouTube的野外视频以及自我收集的数据。我们开发了一个人类参与的注释流程,以生成丰富的行为描述。我们提供了详尽的数据集分析,并对多项任务进行基准测试——从运动预测到运动生成以及人类行为问答——从而提供了广泛的评估套件。项目页面:this https URL。

[88] CytoSAE:用于血液学的可解释细胞嵌入
标题: CytoSAE: Interpretable Cell Embeddings for Hematology
作者: Muhammed Furkan Dasdelen / Hyesu Lim / Michele Buck / Katharina S. Götze / Carsten Marr / Steffen Schneider
原文:   [英文]   [中文]  
备注: 11 pages, 5 figures
摘要:
稀疏自编码器(SAEs)作为一种有前途的工具,能够对基于变压器的基础模型进行机制解释。最近,SAEs也被应用于视觉领域,使得能够发现视觉概念及其在变压器模型中对标记的逐块归因。尽管越来越多的基础模型在医学影像领域出现,但用于解释其推理的工具仍然缺乏。在这项工作中,我们展示了SAEs在血液学中的适用性。我们提出了CytoSAE,这是一种稀疏自编码器,训练于超过40,000张外周血单细胞图像。CytoSAE能够推广到多样化和域外的数据集,包括骨髓细胞学,在这些数据集中它识别出形态学上相关的概念,并通过医学专家进行了验证。此外,我们展示了CytoSAE可以生成患者特异性和疾病特异性概念的场景,从而能够在块级别检测出病理特征细胞和局部细胞异常。我们量化了概念对患者级别AML亚型分类任务的影响,并展示了CytoSAE概念达到了与最先进技术相当的性能,同时在亚细胞水平上提供了解释性。源代码和模型权重可在此https URL获取。

[89] PhysX:基于物理的3D资产生成
标题: PhysX: Physical-Grounded 3D Asset Generation
作者: Ziang Cao / Zhaoxi Chen / Linag Pan / Ziwei Liu
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
3D建模正在从虚拟走向现实。现有的3D生成主要强调几何和纹理,而忽视了基于物理的建模。因此,尽管3D生成模型发展迅速,合成的3D资产往往忽略了丰富且重要的物理属性,阻碍了它们在物理领域如仿真和具身人工智能中的实际应用。作为解决这一挑战的初步尝试,我们提出了\textbf{PhysX},一种用于基于物理的3D资产生成的端到端范式。1)为了弥合物理标注3D数据集的关键差距,我们提出了PhysXNet——第一个在五个基础维度上系统标注的基于物理的3D数据集:绝对尺度、材料、可供性、运动学和功能描述。特别是,我们设计了一种基于视觉-语言模型的可扩展的人机协作标注流程,使得从原始3D资产高效创建以物理为先的资产成为可能。2)此外,我们提出了\textbf{PhysXGen},一种用于基于物理的图像到3D资产生成的前馈框架,将物理知识注入预训练的3D结构空间。具体而言,PhysXGen采用双分支架构,明确建模3D结构与物理属性之间的潜在关联,从而在保留原生几何质量的同时生成具有合理物理预测的3D资产。大量实验验证了我们框架的卓越性能和有前景的泛化能力。所有代码、数据和模型将被发布,以促进生成物理人工智能领域的未来研究。