![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年7月16日更新论文68篇
|
[1] CWNet:用于低光图像增强的因果小波网络 标题: CWNet: Causal Wavelet Network for Low-Light Image Enhancement 作者: Tongshun Zhang / Pingping Liu / Yubing Lu / Mengen Cai / Zijian Zhang / Zhe Zhang / Qiuzhan Zhou 原文: [英文] [中文] 备注: Accepted by ICCV 2025 摘要: 传统的低光图像增强(LLIE)方法主要关注于均匀的亮度调整,往往忽视了实例级的语义信息和不同特征的固有特性。为了解决这些局限性,我们提出了CWNet(因果小波网络),这是一种利用小波变换进行因果推理的新颖架构。具体来说,我们的方法包括两个关键组件:1)受因果干预概念的启发,我们采用因果推理的视角来揭示低光增强中的潜在因果关系。从全局角度来看,我们采用度量学习策略来确保因果嵌入遵循因果原则,将其与非因果混杂因素分离,同时关注因果因素的不变性。在局部层面,我们引入了实例级的CLIP语义损失,以精确保持因果因素的一致性。2)基于我们的因果分析,我们提出了一种基于小波变换的主干网络,有效优化频率信息的恢复,确保精确增强以适应小波变换的特定属性。大量实验表明,CWNet在多个数据集上显著优于当前的最先进方法,展示了其在不同场景中的强大性能。代码可在此https URL获取。 |
[2] 整合生物学知识以实现对新型细胞系的稳健显微图像分析 标题: Integrating Biological Knowledge for Robust Microscopy Image Profiling on De Novo Cell Lines 作者: Jiayuan Chen / Thai-Hoang Pham / Yuanlong Wang / Ping Zhang 原文: [英文] 备注: ICCV 2025 摘要: 高通量筛选技术,如显微成像技术用于检测细胞对基因和化学扰动的反应,在药物发现和生物医学研究中起着至关重要的作用。然而,由于不同细胞系之间显著的形态和生物学异质性,对于\textit{de novo}细胞系的稳健扰动筛选仍然具有挑战性。为了解决这个问题,我们提出了一个新颖的框架,将外部生物学知识整合到现有的预训练策略中,以增强显微图像分析模型。我们的方法利用外部生物信息,明确地解耦扰动特异性和细胞系特异性的表示。具体来说,我们构建了一个知识图谱,利用来自STRING和Hetionet数据库的蛋白质相互作用数据,在预训练过程中引导模型关注扰动特异性特征。此外,我们结合了来自单细胞基础模型的转录组特征,以捕捉细胞系特异性的表示。通过学习这些解耦的特征,我们的方法提高了成像模型对\textit{de novo}细胞系的泛化能力。我们在RxRx数据库上评估了我们的框架,通过在RxRx1细胞系上的一次性微调和在RxRx19a数据集中的细胞系上的少量微调。实验结果表明,我们的方法增强了\textit{de novo}细胞系的显微图像分析,突显了其在基于表型的药物发现实际应用中的有效性。 |
[3] 审查面部情感识别数据集中的摆拍表情和种族偏见 标题: Auditing Facial Emotion Recognition Datasets for Posed Expressions and Racial Bias 作者: Rina Khan / Catherine Stinson 原文: [英文] [中文] 备注: None 摘要: 面部表情识别(FER)算法将面部表情分类为诸如快乐、悲伤或愤怒等情绪。FER算法面临的一个评估挑战是,在检测自发表情时,其性能比检测摆拍表情时下降。FER算法面临的一个伦理(和评估)挑战是,它们在某些种族和肤色的人群中表现不佳。这些挑战与创建FER数据集时采用的数据收集实践有关。在本研究中,我们审查了两个最先进的FER数据集。我们从每个数据集中随机抽取样本,并检查图像是自发的还是摆拍的。在此过程中,我们提出了一种识别自发或摆拍图像的方法。我们发现,在声称由自然环境图像组成的数据集中,有相当数量的图像是摆拍的。由于FER模型在自发和摆拍图像之间的性能不同,因此如果将这些数据集上训练的模型应用于自然环境中,其性能将无法代表真实表现。我们还观察了样本中个体的肤色,并测试了在每个数据集上训练的三个模型,以预测来自不同种族和肤色的人的面部表情。我们发现,被审查的FER模型更有可能预测被标记为非白人或肤色较深的人表现出负面情绪,如愤怒或悲伤,即使他们在微笑。这种偏见使得这些模型在实际应用中容易造成伤害。 |
[4] FPC-Net:通过特征金字塔和基于一致性的隐式匹配重新审视SuperPoint的无描述符关键点检测 标题: FPC-Net: Revisiting SuperPoint with Descriptor-Free Keypoint Detection via Feature Pyramids and Consistency-Based Implicit Matching 作者: Ionuţ Grigore / Călin-Adrian Popa / Claudiu Leoveanu-Condrei 原文: [英文] [中文] 备注: None 摘要: 兴趣点的提取和匹配是许多几何计算机视觉任务的基础。传统上,匹配是通过为兴趣点分配描述符并基于描述符相似性识别对应关系来进行的。本文介绍了一种技术,在检测过程中本质上关联兴趣点,从而无需计算、存储、传输或匹配描述符。尽管匹配精度略低于传统方法,但我们的方法完全消除了对描述符的需求,从而大幅减少了定位系统的内存使用。我们通过与经典的手工方法和现代的学习方法进行比较来评估其有效性。 |
[5] 用于机载飞行计算机实时航天器分割的新数据集和性能基准 标题: A New Dataset and Performance Benchmark for Real-time Spacecraft Segmentation in Onboard Flight Computers 作者: Jeffrey Joan Sam / Janhavi Sathe / Nikhil Chigali / Naman Gupta / Radhey Ruparel / Yicheng Jiang / Janmajay Singh / James W. Berck / Arko Barman 原文: [英文] [中文] 备注: None 摘要: 部署在外太空的航天器由于暴露在危险环境中,常常遭受各种形式的损害。此外,通过人类舱外活动或机器人操作进行太空维修的后续过程也存在显著风险,并产生大量的运营成本。最近在图像分割方面的发展可能使得开发可靠且具有成本效益的自主检测系统成为可能。尽管这些模型通常需要大量的训练数据才能取得令人满意的结果,但公开可用的带注释的航天器分割数据却非常稀缺。在此,我们展示了一个新的数据集,其中包含近64,000张带注释的航天器图像,这些图像是使用真实的航天器模型创建的,并叠加在由NASA的TTALOS管道生成的真实和合成背景的混合体上。为了模拟真实世界图像采集中的相机失真和噪声,我们还在图像中添加了不同类型的噪声和失真。最后,我们微调了YOLOv8和YOLOv11分割模型,以在定义良好的硬件和推理时间限制下生成数据集的性能基准,以模拟NASA检查航天器上用于实时车载应用的真实世界图像分割挑战。在这些限制下测试的模型取得了0.92的Dice分数、0.69的Hausdorff距离和约0.5秒的推理时间。该数据集和性能基准模型可在此https URL获取。 |
[6] 使用大型语言模型代理进行仓库空间问答 标题: Warehouse Spatial Question Answering with LLM Agent 作者: Hsiang-Wei Huang / Jen-Hao Cheng / Kuang-Ming Chen / Cheng-Yen Yang / Bahaa Alattar / Yi-Ru Lin / Pyongkun Kim / Sangwon Kim / Kwangju Kim / Chung-I Huang / Jenq-Neng Hwang 原文: [英文] [中文] 备注: 1st Place Solution of the 9th AI City Challenge Track 3 摘要: 空间理解一直是现有多模态大型语言模型(MLLMs)的一个挑战性任务。以往的方法通过大规模的MLLM微调来增强MLLM的空间理解能力。在本文中,我们提出了一种数据高效的方法。我们提出了一个具有强大和先进空间推理能力的LLM代理系统,可以用于解决复杂室内仓库场景中的挑战性空间问答任务。我们的系统集成了多种工具,使LLM代理能够进行空间推理和API工具交互,以回答给定的复杂空间问题。在2025年AI城市挑战物理AI空间智能仓库数据集上的广泛评估表明,我们的系统在对象检索、计数和距离估算等任务中实现了高准确性和效率。代码可在此URL获取:this https URL |
[7] ThinkingViT: 用于弹性推理的套娃思维视觉变换器 标题: ThinkingViT: Matryoshka Thinking Vision Transformer for Elastic Inference 作者: Ali Hojjat / Janek Haberer / Soren Pirk / Olaf Landsiedel 原文: [英文] 备注: Under Review 摘要: 视觉Transformer提供了最先进的性能,但其固定的计算预算限制了在异构硬件上的可扩展部署。最近的嵌套Transformer架构通过在单个模型中嵌入嵌套子网络来实现可扩展推理,从而缓解了这一问题。然而,这些模型对所有输入分配相同的计算量,而不考虑其复杂性,这导致了低效。为了解决这个问题,我们引入了ThinkingViT,这是一种嵌套的ViT架构,采用渐进思维阶段,根据输入难度动态调整推理计算。ThinkingViT通过激活一小部分最重要的注意力头开始推理,并在预测达到足够确定性时提前终止。否则,它会激活更多的注意力头并重新评估输入。ThinkingViT的核心是我们的Token Recycling机制,它使每个后续推理阶段基于前一阶段的嵌入进行条件化,从而实现渐进改进。由于其保持骨干网络的设计,ThinkingViT也可以作为普通ViT的插件升级。实验表明,在ImageNet-1K上,ThinkingViT在相同吞吐量下的准确率比嵌套基线高出最多2.0个百分点(p.p.),在相同GMACs下高出最多2.9个百分点。源代码可在此https URL获取。 |
[8] 用于开放世界理解的LLM引导代理物体检测 标题: LLM-Guided Agentic Object Detection for Open-World Understanding 作者: Furkan Mumcu / Michael J. Jones / Anoop Cherian / Yasin Yilmaz 原文: [英文] [中文] 备注: None 摘要: 物体检测传统上依赖于固定的类别集,需要昂贵的重新训练来处理新颖的物体。虽然开放世界和开放词汇物体检测(OWOD 和 OVOD)提高了灵活性,但 OWOD 缺乏对未知物体的语义标签,而 OVOD 依赖于用户提示,限制了自主性。我们提出了一种 LLM 引导的自主物体检测(LAOD)框架,通过提示大型语言模型(LLM)生成场景特定的物体名称,实现完全无标签的零样本检测。这些名称被传递给开放词汇检测器进行定位,使系统能够动态调整其目标。我们引入了两个新的指标,类别无关平均精度(CAAP)和语义命名平均精度(SNAP),分别评估定位和命名。在 LVIS、COCO 和 COCO-OOD 上的实验验证了我们的方法,显示出在检测和命名新颖物体方面的强大性能。我们的方法为开放世界理解提供了增强的自主性和适应性。 |
[9] Winsor-CAM:通过逐层温莎化从深度网络生成可由人调节的视觉解释 标题: Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization 作者: Casey Wall / Longwei Wang / Rodrigue Rizk / KC Santosh 原文: [英文] [中文] 备注: 15 pages, 10 figures, 7 tables. Submitted to IEEE Transactions on Pattern Analysis and Machine Intelligence 摘要: 解释卷积神经网络(CNNs)决策过程对于在高风险领域部署模型至关重要。梯度加权类激活映射(Grad-CAM)是一种广泛使用的视觉解释方法,但它通常只关注最后的卷积层或简单地在层间平均,这些策略可能会掩盖重要的语义线索或放大无关的噪声。我们提出了Winsor-CAM,这是一种Grad-CAM的新颖且可人为调节的扩展方法,通过聚合所有卷积层的信息生成稳健且连贯的显著性图。为了减轻噪声或极端归因值的影响,Winsor-CAM应用了Winsor化,这是一种基于百分位数的异常值衰减技术。用户可控的阈值允许在语义层面进行调节,从而能够灵活地探索模型在表示层次结构中的行为。在使用PASCAL VOC 2012数据集对标准架构(ResNet50、DenseNet121、VGG16、InceptionV3)进行的评估中,Winsor-CAM生成了更具可解释性的热图,并在定位指标(包括交并比和质心对齐)上实现了优于Grad-CAM和统一层平均基线的性能。Winsor-CAM通过提供可解释的、多层次的见解以及人机交互控制,推进了可信AI的目标。 |
[10] 用于生成任务的变换器稀疏微调 标题: Sparse Fine-Tuning of Transformers for Generative Tasks 作者: Wei Chen / Jingxi Yu / Zichen Miao / Qiang Qiu 原文: [英文] [中文] 备注: Accepted by International Conference on Computer Vision 2025 摘要: 大型预训练变压器在各个领域彻底改变了人工智能,而微调仍然是将这些模型适应下游任务的主要方法,因为从头开始训练的成本很高。然而,在现有的微调方法中,更新的表示形式是修改参数的密集组合,这使得解释它们的贡献以及理解模型如何适应新任务变得具有挑战性。在这项工作中,我们引入了一种受稀疏编码启发的微调框架,其中微调特征表示为基本元素(即特征字典原子)的稀疏组合。特征字典原子作为表示的基本构建块,通过调整原子可以无缝适应下游任务。稀疏系数则作为原子重要性的指示器,识别每个原子对更新表示的贡献。利用稀疏系数的原子选择能力,我们首先证明了我们的方法通过去除不重要的特征字典原子来提高文本对齐,从而增强了图像编辑性能。此外,我们验证了我们的方法在文本到图像概念定制任务中的有效性,在该任务中,我们的方法通过特征字典原子的稀疏组合有效地构建目标概念,优于各种基线微调方法。 |
[11] 一种基于LOF预处理和YOLO-v11n的轻量级且稳健的实时结直肠息肉检测框架 标题: A Lightweight and Robust Framework for Real-Time Colorectal Polyp Detection Using LOF-Based Preprocessing and YOLO-v11n 作者: Saadat Behzadi / Danial Sharifrazi / Bita Mesbahzadeh / Javad Hassannataj Joloudarid / Roohallah Alizadehsani 原文: [英文] 备注: None 摘要: 目标:及时准确地检测结直肠息肉在诊断和预防结直肠癌中起着至关重要的作用,而结直肠癌是全球主要的死亡原因之一。本研究介绍了一种新的、轻量级且高效的息肉检测框架,该框架结合了用于过滤噪声数据的局部异常因子(LOF)算法和YOLO-v11n深度学习模型。 研究设计:这是一项利用深度学习和异常值去除技术的实验研究,涉及多个公共数据集。 方法:该方法在五个多样化且公开可用的数据集上进行了测试:CVC-ColonDB、CVC-ClinicDB、Kvasir-SEG、ETIS和EndoScene。由于这些数据集最初缺乏边界框注释,我们将其分割掩码转换为合适的检测标签。为了增强模型的鲁棒性和泛化能力,我们应用了5折交叉验证,并使用配置了30个邻居和5%污染率的LOF方法去除异常样本。清理后的数据被输入到YOLO-v11n中,这是一种快速且资源高效的物体检测架构,针对实时应用进行了优化。我们结合现代增强策略训练模型,以提高在多种条件下的检测准确性。 结果:我们的方法显著提高了息肉定位性能,达到了95.83%的精确度、91.85%的召回率、93.48%的F1分数、96.48%的mAP@0.5和77.75%的mAP@0.5:0.95。与之前基于YOLO的方法相比,我们的模型表现出更高的准确性和效率。 结论:这些结果表明,所提出的方法非常适合在临床环境中用于实时结肠镜检查支持。总体而言,该研究强调了在设计有效的医学影像AI系统时,数据预处理和模型效率的重要性。 |
[12] Trexplorer Super:CT 体积中管状物体的拓扑正确中心线树追踪 标题: Trexplorer Super: Topologically Correct Centerline Tree Tracking of Tubular Objects in CT Volumes 作者: Roman Naeem / David Hagerman / Jennifer Alvén / Lennart Svensson / Fredrik Kahl 原文: [英文] [中文] 备注: Submitted Version. Accepted at MICCAI 2025 摘要: 管状树状结构,如血管和气道,是人体解剖学中的重要组成部分,准确追踪它们并保持其拓扑结构对于各种后续任务至关重要。Trexplorer 是一种为 3D 医学图像中的中心线追踪而设计的递归模型,但它在预测重复分支和过早终止追踪方面存在困难。为了解决这些问题,我们提出了 Trexplorer Super,这是一个增强版本,通过新颖的改进显著提高了性能。然而,由于缺乏公共数据集,评估中心线追踪模型具有挑战性。为了进行全面评估,我们开发了三个中心线数据集,一个是合成的,两个是真实的,难度逐渐增加。利用这些数据集,我们对现有的最先进(SOTA)模型进行了全面评估,并将它们与我们的方法进行了比较。Trexplorer Super 在每个数据集上都优于之前的 SOTA 模型。我们的结果还强调,在合成数据上的强劲表现不一定能转化为真实数据集的表现。代码和数据集可在此 https URL 获取。 |
[13] 现代化基于卷积神经网络的天气预报模型以提高计算效率 标题: Modernizing CNN-based Weather Forecast Model towards Higher Computational Efficiency 作者: Minjong Cheon / Eunhan Goo / Su-Hyeon Shin / Muhammad Ahmed / Hyungjun Kim 原文: [英文] [中文] 备注: 26pages, 9 Figures 摘要: 近年来,基于人工智能的天气预报模型取得了显著进展。这些模型的准确性已达到与传统数值天气预报(NWP)系统相当的水平,标志着数据驱动天气预测的一个重要里程碑。然而,它们大多利用基于Transformer的架构,这通常导致由于参数规模庞大而带来的高训练复杂性和资源需求。在本研究中,我们引入了一种现代化的基于卷积神经网络(CNN)的全球天气预报模型,该模型在显著降低计算需求的同时提供了具有竞争力的准确性。为了呈现一个系统的现代化路线图,我们强调了从早期的CNN方法中跨多个设计尺度的关键架构增强。KAI-a结合了一个尺度不变的架构和基于InceptionNeXt的模块,采用地球物理感知设计,专门针对地球系统数据的结构进行优化。该模型在ERA5每日数据集上进行训练,包含67个大气变量,约有700万参数,并在单个NVIDIA L40s GPU上仅需12小时即可完成训练。我们的评估显示,KAI-a在中期天气预报中与最先进的模型表现相当,同时提供了一个显著轻量化的设计。此外,关于2018年欧洲热浪和东亚夏季季风的案例研究展示了KAI-a在捕捉极端事件方面的强大能力,进一步强化了其实际应用价值。 |
[14] 通勤距离正则化用于EEG情感识别中时间尺度依赖的标签不一致性 标题: Commuting Distance Regularization for Timescale-Dependent Label Inconsistency in EEG Emotion Recognition 作者: Xiaocong Zeng / Craig Michoski / Yan Pang / Dongyang Kuang 原文: [英文] [中文] 备注: None 摘要: 在这项工作中,我们解决了在基于EEG的人类情感识别中训练神经网络模型时常被忽视的时间尺度依赖标签不一致性(TsDLI)问题。为了缓解TsDLI并增强模型的泛化能力和可解释性,我们提出了两种新颖的正则化策略:局部变化损失(LVL)和局部-全局一致性损失(LGCL)。这两种方法都在图论框架中结合了经典的数学原理——特别是有界变差函数和通勤时间距离。为了配合我们的正则化方法,我们引入了一套新的评估指标,更好地捕捉时间局部预测与其相关的全局情感标签之间的一致性。我们通过在两个广泛使用的EEG情感数据集DREAMER和DEAP上的综合实验验证了我们的方法,实验涵盖了一系列神经网络架构,包括LSTM和基于transformer的模型。性能评估使用了五种不同的指标,涵盖了定量准确性和定性一致性。结果一致表明,我们提出的方法优于最先进的基线,提供了更优的整体性能,并在标签不一致的情况下提供了解释性和预测能力之间的合理权衡。值得注意的是,LVL在所有基准骨干和指标中获得了最佳的综合排名,而LGCL则经常排名第二,突显了我们框架的有效性。 |
[15] GeoDistill:几何引导的自蒸馏用于弱监督的跨视角定位 标题: GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization 作者: Shaowen Tong / Zimin Xia / Alexandre Alahi / Xuming He / Yujiao Shi 原文: [英文] 备注: accepted by ICCV2025 摘要: 跨视图定位是一项通过将地面图像与卫星图像对齐来估计相机三自由度(3-DoF)姿态的任务,对于自动导航和增强现实等大规模户外应用至关重要。现有方法通常依赖于完全监督学习,这需要昂贵的真实姿态标注。在这项工作中,我们提出了GeoDistill,一种几何引导的弱监督自蒸馏框架,该框架使用基于视场(FoV)的掩蔽进行师生学习,以增强局部特征学习,从而实现稳健的跨视图定位。在GeoDistill中,教师模型定位全景图像,而学生模型则从通过FoV掩蔽创建的有限FoV对应图像中预测位置。通过将学生的预测与教师的预测对齐,学生能够专注于关键特征,如车道线,并忽略无纹理区域,如道路。这导致了更准确的预测和减少的不确定性,无论查询图像是全景图像还是有限FoV图像。我们的实验表明,GeoDistill显著提高了不同框架下的定位性能。此外,我们引入了一种新颖的方向估计网络,该网络无需精确的平面位置真实值即可预测相对方向。GeoDistill为现实世界的跨视图定位挑战提供了一种可扩展且高效的解决方案。代码和模型可以在此HTTPS URL中找到。 |
[16] 用于遥感语义变化检测的图聚合原型学习 标题: Graph Aggregation Prototype Learning for Semantic Change Detection in Remote Sensing 作者: Zhengyi Xu / Haoran Wu / Wen Jiang / Jie Geng 原文: [英文] [中文] 备注: None 摘要: 语义变化检测(SCD)将二元变化检测任务扩展为不仅提供变化位置,还提供多时相遥感数据中的详细“从-到”类别。这种对变化的详细语义洞察为广泛的应用提供了显著优势。然而,由于SCD涉及多个任务的同时优化,模型容易因任务特定的学习困难和冲突的梯度流而产生负迁移。为了解决这个问题,我们提出了一种用于遥感语义变化检测的图聚合原型学习方法(GAPL-SCD)。在该框架中,设计了一种多任务联合优化方法,以优化语义分割和变化检测的主要任务,以及图聚合原型学习的辅助任务。自适应权重分配和梯度旋转方法用于缓解训练任务之间的冲突,提高多任务学习能力。具体而言,图聚合原型学习模块使用高级特征构建交互图。原型作为类代理,能够在时间点之间实现类别级域对齐,减少无关变化的干扰。此外,所提出的自查询多级特征交互和双时相特征融合模块进一步增强了多尺度特征表示,提高了复杂场景中的性能。在SECOND和Landsat-SCD数据集上的实验结果表明,我们的方法在SCD任务中实现了最先进的性能,在准确性和鲁棒性方面有显著提高。 |
[17] 通过对齐学习实现稳健的身份特定人脸修复 标题: Robust ID-Specific Face Restoration via Alignment Learning 作者: Yushun Fang / Lu Liu / Xiang Gao / Qiang Hu / Ning Cao / Jianghe Cui / Gang Chen / Xiaoyun Zhang 原文: [英文] [中文] 备注: 17 pages, 8 figures 摘要: 面部修复的最新发展通过利用多样的扩散先验在视觉质量上取得了显著进展。然而,由身份模糊的输入和随机生成过程引入的面部身份不确定性仍未得到解决。为了解决这一挑战,我们提出了鲁棒的特定身份面部修复(RIDFR),这是一种基于扩散模型的新颖特定身份面部修复框架。具体来说,RIDFR结合了一个预训练的扩散模型和两个并行的条件模块。内容注入模块输入严重退化的图像,而身份注入模块则整合来自给定图像的特定身份。随后,RIDFR引入了对齐学习,通过对齐来自多个具有相同身份的参考的修复结果,以抑制与身份无关的面部语义(例如姿势、表情、化妆、发型)的干扰。实验表明,我们的框架优于最先进的方法,能够重建具有高身份保真度的高质量特定身份结果,并表现出强大的鲁棒性。 |
[18] 女性体育动作数据集:使用小规模训练数据进行视觉分类 标题: Women Sport Actions Dataset for Visual Classification Using Small Scale Training Data 作者: Palash Ray / Mahuya Sasmal / Asish Bera 原文: [英文] 备注: None 摘要: 体育动作分类是图像基础体育分析中的一个新兴领域,它涉及复杂的身体姿势和运动员与物体的互动。过去几十年中,一些研究工作利用机器学习技术对自动化体育动作识别做出了贡献。然而,代表女性体育动作并具有足够类内和类间变化的图像数据集对研究人员来说仍然不足。为了解决这一限制,本文提出了一个名为WomenSports的新数据集,用于女性体育分类,采用小规模训练数据。该数据集包括各种体育活动,涵盖了运动、环境和运动员之间互动的广泛变化。此外,本研究提出了一种卷积神经网络(CNN)用于深度特征提取。在局部上下文区域上应用通道注意机制,以优化和增强特征表示。实验在三个不同的体育数据集和一个舞蹈数据集上进行,以验证所提算法的通用性,并且在这些数据集上的表现值得注意。该深度学习方法在所提出的WomenSports数据集上使用ResNet-50实现了89.15%的top-1分类准确率,该数据集已在Mendeley Data上公开供研究使用。 |
[19] 多尺度小波注意力与基于射线编码的人物-物体交互检测的概念化 标题: Conceptualizing Multi-scale Wavelet Attention and Ray-based Encoding for Human-Object Interaction Detection 作者: Quan Bi Pay / Vishnu Monn Baskaran / Junn Yong Loo / KokSheik Wong / Simon See 原文: [英文] [中文] 备注: Accepted at International Joint Conference on Neural Networks (IJCNN 2025) 摘要: 人物-物体交互(HOI)检测对于准确定位和表征人类与物体之间的交互至关重要,它能够在各个领域中提供对复杂视觉场景的全面理解。然而,现有的HOI检测器通常难以高效地提供可靠的预测,依赖于资源密集型的训练方法和低效的架构。为了解决这些挑战,我们构思了一种类似小波注意力的主干网络和一种新颖的基于射线的编码器架构,专为HOI检测设计。我们的小波主干网络通过聚合从不同卷积滤波器中提取的低阶和高阶交互的判别特征,解决了中阶交互表达的局限性。同时,基于射线的编码器通过优化解码器对相关兴趣区域的关注,促进了多尺度注意力,并减轻了计算开销。通过利用可学习射线起点的衰减强度,我们的解码器将查询嵌入与强调的兴趣区域对齐,以实现准确的预测。在包括ImageNet和HICO-DET在内的基准数据集上的实验结果展示了我们提出的架构的潜力。代码可在[此https URL]公开获取。 |
[20] 注意差距:通过残差差距校正弥合步态识别中的遮挡 标题: Mind the Gap: Bridging Occlusion in Gait Recognition via Residual Gap Correction 作者: Ayush Gupta / Siyuan Huang / Rama Chellappa 原文: [英文] [中文] 备注: Accepted at IJCB 2025 摘要: 步态识别因其能够在远距离识别个体的能力而逐渐成为一种流行的人体再识别方法。然而,目前大多数步态识别的研究并未解决遮挡这一实际问题。在那些涉及遮挡问题的研究中,有些方法需要成对的遮挡和完整序列,这在现实世界中难以收集。此外,这些方法虽然在处理遮挡方面有效,但在完整输入上的表现却不尽如人意。为了解决这些挑战,我们提出了RG-Gait,这是一种用于遮挡步态识别的残差校正方法,同时保留完整性。我们将问题建模为一个残差学习任务,将遮挡步态特征视为对完整步态表示的残差偏差。我们提出的网络自适应地整合了学习到的残差,在不影响完整识别准确性的情况下,显著提高了遮挡步态序列的识别性能。我们在具有挑战性的Gait3D、GREW和BRIAR数据集上评估了我们的方法,结果表明,学习残差可以成为解决遮挡步态识别问题并保留完整性的有效技术。 |
[21] SpaRTAN:用于视觉识别的空间强化令牌聚合网络 标题: SpaRTAN: Spatial Reinforcement Token-based Aggregation Network for Visual Recognition 作者: Quan Bi Pay / Vishnu Monn Baskaran / Junn Yong Loo / KokSheik Wong / Simon See 原文: [英文] [中文] 备注: Accepted at International Joint Conference on Neural Networks (IJCNN 2025) 摘要: 卷积神经网络(CNN)在视觉识别任务中的复兴,以ConvNeXt为例,展示了通过先进的训练方法和受ViT启发的设计原则,它们能够与基于transformer的架构相媲美。然而,CNN和transformer都表现出一种简单性偏向,倾向于简单特征而非复杂结构表示。此外,现代CNN通常集成类似transformer中的MLP模块,但这些模块存在显著的信息冗余,需要较高的扩展比才能维持竞争力。为了解决这些限制,我们提出了SpaRTAN,这是一种轻量级的架构设计,增强了空间和通道信息处理。SpaRTAN采用具有不同感受野的核,通过核大小和膨胀因子控制,有效捕捉判别性多阶空间特征。基于波的通道聚合模块进一步调节和增强像素交互,减轻通道冗余。结合这两个模块,所提出的网络可以高效地收集和动态地情境化判别特征。在ImageNet和COCO上的实验结果表明,SpaRTAN在保持竞争性能的同时实现了显著的参数效率。特别是在ImageNet-1k基准上,SpaRTAN仅用3.8M参数和大约1.0 GFLOPs就实现了77.7%的准确率,展示了其通过高效设计提供强大性能的能力。在COCO基准上,它实现了50.0%的AP,以仅21.5M参数超越了之前的基准1.2%。代码在[此https URL]公开可用。 |
[22] 桥接特征匹配与跨模态对齐的互滤波零样本异常检测 标题: Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection 作者: Yuhu Bai / Jiangning Zhang / Yunkang Cao / Guangyuan Lu / Qingdong He / Xiangtai Li / Guanzhong Tian 原文: [英文] [中文] 备注: None 摘要: 随着视觉-语言模型(例如 CLIP)在零样本和少样本环境中的出现,CLIP 在最近的研究中被广泛应用于零样本异常检测(ZSAD),其中稀有类别在许多应用中是至关重要且被期待的。本研究引入了用于 ZSAD 的 \textbf{FiSeCLIP},结合了无训练的 \textbf{CLIP},将特征匹配与跨模态对齐相结合。对整个数据集进行测试是不切实际的,而基于批次的测试更符合实际工业需求,并且批次内的图像可以作为相互参考点。因此,FiSeCLIP 利用同一批次中的其他图像作为当前图像的参考信息。然而,这些参考的缺乏标签可能会引入歧义,我们应用文本信息来\textbf{过滤}掉噪声特征。此外,我们进一步探索了 CLIP 的内在潜力,以恢复其局部\textbf{语义}相关性,使其适应于细粒度异常检测任务,从而实现更准确的过滤过程。我们的方法在异常检测基准上的异常分类和分割方面表现出色,为该方向建立了更强的基线,例如,在 MVTec-AD 上,FiSeCLIP 在分割指标 AU-ROC/$F_1$-max 上比最先进的 AdaCLIP 提高了 +4.6\%$\uparrow$/+5.7\%$\uparrow$。 |
[23] 语义信息引导的显著区域指导放射学报告生成 标题: Semantically Informed Salient Regions Guided Radiology Report Generation 作者: Zeyi Hou / Zeqiang Wei / Ruixin Yan / Ning Lang / Xiuzhuang Zhou 原文: [英文] [中文] 备注: None 摘要: 最近,利用深度学习算法从胸部X光片中自动生成放射学报告的进展,有可能显著减少放射科医生繁重的工作量。然而,由于放射学图像中固有的大量数据偏差,异常通常是微妙且稀疏分布的,现有方法往往生成流畅但医学上不准确的报告,限制了其在临床实践中的适用性。为有效解决这一问题,我们提出了一种语义信息显著区域引导的报告生成方法(SISRNet)。具体来说,我们的方法通过细粒度的跨模态语义明确识别具有医学关键特征的显著区域。然后,SISRNet在图像建模和报告生成过程中系统地关注这些高信息区域,有效捕捉微妙的异常发现,减轻数据偏差的负面影响,最终生成临床准确的报告。与同类方法相比,SISRNet在广泛使用的IU-Xray和MIMIC-CXR数据集上表现出色。 |
[24] 通过带条件扩散的薛定谔桥在人类引导下抑制CBCT到MDCT转换中的阴影伪影 标题: Human-Guided Shade Artifact Suppression in CBCT-to-MDCT Translation via Schrödinger Bridge with Conditional Diffusion 作者: Sung Ho Kang / Hyun-Cheol Park 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种用于CBCT到MDCT转换的新框架,该框架基于薛定谔桥(SB)公式,结合了GAN衍生的先验知识和人类引导的条件扩散。与传统的GAN或扩散模型不同,我们的方法明确地在CBCT输入和伪目标之间强制执行边界一致性,确保解剖结构的保真度和感知可控性。通过无分类器引导(CFG)整合二元人类反馈,有效地将生成过程引导至临床偏好的结果。通过迭代优化和基于锦标赛的偏好选择,模型在不依赖奖励模型的情况下内化人类偏好。减影图像可视化显示,所提出的方法在保留细微结构细节的同时,选择性地减弱了关键解剖区域的阴影伪影。定量评估进一步证明了在临床数据集上的RMSE、SSIM、LPIPS和Dice指标方面的优越性能——优于先前基于GAN和微调的反馈方法——同时仅需10个采样步骤。这些发现强调了我们框架在实时、偏好对齐的医学图像翻译中的有效性和效率。 |
[25] 个性化OVSS:理解开放词汇语义分割中的个人概念 标题: Personalized OVSS: Understanding Personal Concept in Open-Vocabulary Semantic Segmentation 作者: Sunghyun Park / Jungsoo Lee / Shubhankar Borse / Munawar Hayat / Sungha Choi / Kyuwoong Hwang / Fatih Porikli 原文: [英文] 备注: Accepted to ICCV 2025; 15 pages 摘要: 尽管开放词汇语义分割(OVSS)可以根据任意给定的文本描述将图像分割为语义区域,即使是训练期间未见过的类别,它在理解个人文本(例如“我的马克杯”)以分割用户特定兴趣区域时却表现不佳。本文解决了诸如在“多个马克杯”中识别“我的马克杯”之类的挑战。为克服这一挑战,我们引入了一项新任务,称为“个性化开放词汇语义分割”,并提出了一种基于文本提示微调的插件方法,该方法旨在使用少量图像和掩码对来识别个人视觉概念,同时保持原始OVSS的性能。基于减少错误预测在将文本提示微调应用于此任务时至关重要的观察,我们提出的方法采用“负掩码提议”,以捕捉个性化概念以外的视觉概念。通过将个人概念的视觉嵌入注入文本提示中,我们进一步丰富了文本提示的表示,从而提高了性能。这种方法在不影响原始OVSS性能的情况下增强了个性化OVSS。我们在为此任务新建立的基准上展示了我们方法的优越性,包括FSS$^\text{per}$、CUB$^\text{per}$和ADE$^\text{per}$。 |
[26] 高效的双域图像去雾与雾霾先验感知 标题: Efficient Dual-domain Image Dehazing with Haze Prior Perception 作者: Lirong Zheng / Yanshan Li / Rui Yu / Kaihao Zhang 原文: [英文] [中文] 备注: 12 pages 摘要: 基于Transformer的模型在单图像去雾中表现出强大的全局建模能力,但其高计算成本限制了实时应用的可能性。现有方法主要依赖于空间域特征来捕捉长距离依赖关系,这在计算上是昂贵的,并且在复杂的雾霾条件下往往不够充分。虽然一些方法引入了频域线索,但空间和频率分支之间的弱耦合限制了整体性能。为克服这些限制,我们提出了暗通道引导的频率感知去雾网络(DGFDNet),这是一种新颖的双域框架,在空间和频率域中执行物理引导的退化对齐。其核心是DGFDBlock,由两个关键模块组成:1)雾霾感知频率调制器(HAFM),它从暗通道先验生成像素级雾霾置信图,以自适应地增强与雾霾相关的频率成分,从而实现全局退化感知的光谱调制;2)多级门控聚合模块(MGAM),通过多样的卷积核和混合门控机制融合多尺度特征,以恢复精细的结构细节。此外,先验校正引导分支(PCGB)结合了闭环反馈机制,使得通过中间去雾特征对先验进行迭代优化,大大提高了雾霾定位的准确性,尤其是在具有挑战性的户外场景中。在四个基准雾霾数据集上的大量实验表明,DGFDNet实现了最先进的性能,具有卓越的鲁棒性和实时效率。代码可在此URL获取:this https URL。 |
[27] 用于遮挡鲁棒的三维补全的步态过程中多视角高分辨率足-踝复合体点云数据集 标题: A Multi-View High-Resolution Foot-Ankle Complex Point Cloud Dataset During Gait for Occlusion-Robust 3D Completion 作者: Jie-Wen Li / Zi-Han Ye / Qingyuan Zhou / Jiayi Song / Ying He / Ben Fei / Wen-Ming Chen 原文: [英文] [中文] 备注: 15 pages, 10 figures, 2 tables 摘要: 步态过程中足-踝复合体的运动学分析对于推进生物力学研究和临床评估至关重要。在动态步态条件下收集足部和踝部的精确表面几何数据具有挑战性,因为摆动足的遮挡和视角限制。因此,本文介绍了FootGait3D,这是一种在自然步态中捕获的高分辨率踝-足表面点云的多视角新型数据集。与通常针对全身或下肢运动的现有步态数据集不同,FootGait3D专注于踝-足区域的详细建模,提供更精细的运动数据粒度。为此,FootGait3D由使用定制的五摄像头深度传感系统从46名受试者中收集的8,403帧点云组成。每帧包括足部和踝部的完整五视图重建(作为基准)以及仅从四个、三个或两个视图获得的部分点云。这种结构化的变化使得在不同遮挡水平和视角下对3D点云补全方法进行严格评估成为可能。我们的数据集专为形状补全任务设计,促进了对最先进的单模态(例如,PointTr、SnowflakeNet、Anchorformer)和多模态(例如,SVDFormer、PointSea、CSDN)补全网络在从遮挡输入中恢复完整足部几何形状挑战上的基准测试。FootGait3D在推进生物力学和多段足部建模研究方面具有重大潜力,为需要详细3D足部运动模型的临床步态分析、假肢设计和机器人应用提供了宝贵的测试平台。该数据集现已在此https URL上提供。 |
[28] 结合Transformer和CNN用于高分辨率卫星影像的高效目标检测 标题: Combining Transformers and CNNs for Efficient Object Detection in High-Resolution Satellite Imagery 作者: Nicolas Drapier / Aladine Chetouani / Aurélien Chateigner 原文: [英文] [中文] 备注: 11 pages, 9 figures 摘要: 我们介绍了GLOD,这是一种用于高分辨率卫星图像中目标检测的以Transformer为核心的架构。GLOD用Swin Transformer替代了CNN骨干网络进行端到端特征提取,并结合了新颖的UpConvMixer模块进行稳健的上采样,以及用于多尺度特征整合的融合模块。我们的方法在xView数据集上达到了32.95%的性能,超越了当前最先进的方法11.46%。关键创新包括带有CBAM注意力的非对称融合和多路径头设计,以捕捉跨尺度的目标。该架构针对卫星图像的挑战进行了优化,利用空间先验的同时保持计算效率。 |
[29] 通过原型驱动的语义逼近缓解医学语言引导分割中的文本依赖 标题: Alleviating Textual Reliance in Medical Language-guided Segmentation via Prototype-driven Semantic Approximation 作者: Shuchang Ye / Usman Naseem / Mingyuan Meng / Jinman Kim 原文: [英文] 备注: Accepted to ICCV 2025 摘要: 医学语言引导的分割通过将文本临床报告作为辅助指导来增强图像分割,与单模态方法相比,已显示出显著的改进。然而,其固有的对配对图像-文本输入的依赖,我们称之为“文本依赖”,存在两个基本限制:1)许多医学分割数据集缺乏配对报告,导致大量仅有图像的数据在训练中未被充分利用;2)推理仅限于对具有配对报告的病例进行回顾性分析,限制了其在大多数临床场景中的适用性,在这些场景中,分割通常先于报告。为了解决这些限制,我们提出了ProLearn,这是第一个用于语言引导分割的原型驱动学习框架,从根本上缓解了文本依赖。在ProLearn的核心,我们引入了一种新颖的原型驱动语义近似(PSA)模块,以实现从文本输入中语义指导的近似。PSA通过从文本报告中提炼与分割相关的语义来初始化一个离散且紧凑的原型空间。一旦初始化,它支持一种查询和响应机制,为没有文本输入的图像近似语义指导,从而缓解文本依赖。在QaTa-COV19、MosMedData+和Kvasir-SEG上的大量实验表明,当可用文本有限时,ProLearn优于最先进的语言引导方法。 |
[30] 在3D高斯散射中通过正则化得分蒸馏采样实现稳健的3D掩膜部件级编辑 标题: Robust 3D-Masked Part-level Editing in 3D Gaussian Splatting with Regularized Score Distillation Sampling 作者: Hayeon Kim / Ji Ha Jang / Se Young Chun 原文: [英文] 备注: None 摘要: 最近在3D神经表示和实例级编辑模型方面的进展使得高质量3D内容的高效创建成为可能。然而,实现精确的局部3D编辑仍然具有挑战性,特别是对于高斯点云来说,由于多视图2D部分分割的不一致性和得分蒸馏采样(SDS)损失本质上的模糊性。为了解决这些限制,我们提出了RoMaP,一种新颖的局部3D高斯编辑框架,可以实现精确和显著的部分级修改。首先,我们引入了一个稳健的3D掩码生成模块,采用我们的3D几何感知标签预测(3D-GALP),该模块使用球谐函数(SH)系数来建模视图相关的标签变化和软标签属性,从而在各个视点上产生准确且一致的部分分割。其次,我们提出了一种正则化的SDS损失,将标准SDS损失与额外的正则项结合。特别地,通过我们的计划潜在混合和部分(SLaMP)编辑方法引入了L1锚点损失,该方法生成高质量的部分编辑2D图像,并将修改限制在目标区域,同时保持上下文的一致性。额外的正则项,如高斯先验移除,通过允许超出现有上下文的更改进一步提高了灵活性,而稳健的3D掩码防止了意外的编辑。实验结果表明,我们的RoMaP在重建和生成的高斯场景和对象上实现了定性和定量的最先进的局部3D编辑,使得更稳健和灵活的部分级3D高斯编辑成为可能。 |
[31] 基于关节角度模型的学习以优化运动学人体姿态估计 标题: Joint angle model based learning to refine kinematic human pose estimation 作者: Chang Peng / Yifei Zhou / Huifeng Xi / Shiqing Huang / Chuangye Chen / Jianming Yang / Bao Yang / Zhenyu Jiang 原文: [英文] 备注: None 摘要: 无标记的人体姿态估计(HPE)在各个领域中有着越来越多的应用。目前的HPE在分析人体运动姿态时,存在关键点识别偶尔出错和关键点轨迹随机波动的问题。现有基于深度学习的HPE优化模型的性能受到训练数据集不准确的限制,这些数据集中的关键点是手动标注的。本文提出了一种新方法,通过基于关节角度的建模来克服这一难题。关键技术包括:(i)一种基于关节角度的人体姿态模型,该模型能够稳健地描述人体运动姿态;(ii)通过高阶傅里叶级数逼近关节角度的时间变化,以获得可靠的“真实值”;(iii)设计了一个双向递归网络作为后处理模块,以优化成熟的HRNet的估计。使用我们的方法构建的高质量数据集进行训练后,该网络在纠正错误识别的关节和平滑其时空轨迹方面表现出色。测试表明,基于关节角度的优化(JAR)在花样滑冰和霹雳舞等具有挑战性的情况下,优于最先进的HPE优化网络。 |
[32] GKNet:基于图的关键点网络用于非合作航天器的单目姿态估计 标题: GKNet: Graph-based Keypoints Network for Monocular Pose Estimation of Non-cooperative Spacecraft 作者: Weizhao Ma / Dong Zhou / Yuhui Hu / Zipeng He 原文: [英文] [中文] 备注: None 摘要: 单目姿态估计对于非合作航天器的在轨服务任务(如卫星维护、太空垃圾清除和空间站组装)具有重要意义。考虑到对姿态估计精度的高要求,主流的单目姿态估计方法通常由关键点检测器和PnP求解器组成。然而,当前的关键点检测器在面对非合作航天器的结构对称性和部分遮挡时仍然容易受到影响。为此,我们提出了一种基于图的关键点网络,用于非合作航天器的单目姿态估计,称为GKNet,该网络利用了关键点图的几何约束。为了更好地验证关键点检测器,我们提供了一个中等规模的数据集用于航天器关键点检测,称为SKD,该数据集由3个航天器目标、90,000张模拟图像和相应的高精度关键点标注组成。大量实验和消融研究表明,与最先进的航天器关键点检测器相比,我们的GKNet具有高精度和高效性。GKNet的代码和SKD数据集可在此https URL获取。 |
[33] 使用基于深度学习的交叉验证从探地雷达图像中自动识别道路地下损伤 标题: Automatic Road Subsurface Distress Recognition from Ground Penetrating Radar Images using Deep Learning-based Cross-verification 作者: Chang Peng / Bao Yang / Meiqi Li / Ge Zhang / Hui Sun / Zhenyu Jiang 原文: [英文] 备注: None 摘要: 探地雷达(GPR)已成为检测道路地下病害(RSD)的快速且无损的解决方案。然而,从GPR图像中识别RSD需要大量人工劳动,并且严重依赖检查员的专业知识。深度学习为自动RSD识别提供了可能性,但其当前性能受限于两个因素:用于网络训练的高质量数据集的稀缺性和网络区分RSD的能力不足。在本研究中,通过现场扫描构建了一个经过严格验证的3D GPR数据集,包含2134个多样类型的样本。基于发现用三次GPR图像扫描之一训练的YOLO模型对特定类型RSD表现出不同的敏感性,我们提出了一种新颖的交叉验证策略,在RSD识别中表现出卓越的准确性,在现场测试中实现了超过98.6%的召回率。该方法集成到一个在线RSD检测系统中,可以减少约90%的检查劳动。 |
[34] Atmos-Bench:用于气候洞察的三维大气结构 标题: Atmos-Bench: 3D Atmospheric Structures for Climate Insight 作者: Tianchi Xu 原文: [英文] [中文] 备注: None 摘要: 大气结构由卫星激光雷达衰减后向散射(ATB)恢复的后向散射系数(BC)表示,提供了云、气溶胶和分子的体积视图,在人类活动、气候理解和极端天气预报中起着关键作用。现有方法通常依赖辅助输入和简化的基于物理的近似,并且缺乏用于公平评估的标准化3D基准。然而,这些方法可能引入额外的不确定性,并且不足以捕捉真实的辐射传输和大气散射-吸收效应。为弥补这些差距,我们提出了Atmos-Bench:第一个3D大气基准,以及一种新颖的FourCastX:频率增强的时空专家混合网络,该网络(a)通过将WRF与增强的COSP模拟器耦合,在384个陆地-海洋时间步长上模拟532 nm和355 nm的3D散射体积,生成921,600个图像切片,提供高质量的体素级参考;(b)将ATB-BC物理约束嵌入模型架构中,促进恢复过程中的能量一致性;(c)在Atmos-Bench数据集上,在355 nm和532 nm波段均实现了一致的改进,优于不依赖辅助输入的最先进基线模型。Atmos-Bench为基于卫星的3D大气结构恢复建立了新标准,并为更深入的气候洞察铺平了道路。 |
[35] 视觉识别中可解释性研究综述 标题: A Survey on Interpretability in Visual Recognition 作者: Qiyang Wan / Chengzhi Gao / Ruiping Wang / Xilin Chen 原文: [英文] [中文] 备注: 20 pages, 7 figures, 2 tables. Under review 摘要: 近年来,视觉识别方法取得了显著进展,并在各个领域找到了应用。尽管研究人员试图理解这些模型成功背后的机制,但也有越来越多的动力将它们部署在自动驾驶和医学诊断等关键领域,以更好地诊断故障,这促进了解释性研究的发展。本文系统地回顾了现有关于视觉识别模型可解释性的研究,并从以人为中心的视角提出了一种方法分类法。所提出的分类法根据意图、对象、呈现和方法对可解释的识别方法进行分类,从而为这些可解释人工智能(XAI)方法建立了一套系统且连贯的分组标准。此外,我们总结了评估指标的要求,并探索了由最近技术(如大型多模态模型)所带来的新机遇。我们的目标是整理该领域的现有研究,并激发对视觉识别模型可解释性的未来研究。 |
[36] KptLLM++:迈向通用关键点理解的大型语言模型 标题: KptLLM++: Towards Generic Keypoint Comprehension with Large Language Model 作者: Jie Yang / Wang Zeng / Sheng Jin / Lumin Xu / Wentao Liu / Chen Qian / Zhen Li / Ruimao Zhang 原文: [英文] [中文] 备注: Extended Version of KptLLM. arXiv admin note: text overlap with arXiv:2411.01846 摘要: 多模态大型语言模型(MLLMs)的出现通过连接文本和视觉模态彻底改变了图像理解。然而,这些模型通常难以捕捉细粒度的语义信息,例如精确识别和分析对象关键点。关键点作为结构感知、像素级和紧凑的对象表示,特别是关节对象,在细粒度图像分析、对象检索和行为识别等应用中发挥着至关重要的作用。在本文中,我们提出了KptLLM++,这是一种新颖的多模态大型语言模型,专为通过用户定义的指令指导的多样化输入模态集成而设计的通用关键点理解。通过统一不同背景下的关键点检测,KptLLM++建立了一个先进的界面,促进了更有效的人机协作。该模型基于一种新颖的识别-然后-检测范式,首先解释关键点语义,然后通过结构化的思维链推理机制定位其精确位置。为了推动性能的界限,我们将训练数据集扩展到超过50万样本,涵盖多样化的对象、关键点类别、图像风格和复杂遮挡场景。这种广泛的扩展使KptLLM++能够释放其潜力,实现显著的准确性和泛化能力。在多个关键点检测基准上的综合实验展示了其最先进的性能,强调了其作为细粒度图像理解的统一解决方案的潜力及其对人机交互的变革性影响。 |
[37] 水母种类识别:基于卷积神经网络的人工神经网络方法 标题: Jellyfish Species Identification: A CNN Based Artificial Neural Network Approach 作者: Md. Sabbir Hossen / Md. Saiduzzaman / Pabon Shaha / Mostofa Kamal Nasir 原文: [英文] [中文] 备注: This paper has been accepted at the IEEE QPAIN 2025. The final version will be available in the IEEE Xplore Digital Library 摘要: 水母是一类多样的胶质海洋生物,在维持海洋生态系统中起着至关重要的作用,但由于其快速繁殖和生态影响,对生物多样性和保护工作构成了重大挑战。准确识别水母物种对于生态监测和管理至关重要。在本研究中,我们提出了一种基于深度学习的框架,用于利用水下图像数据集进行水母物种的检测和分类。该框架整合了先进的特征提取技术,包括MobileNetV3、ResNet50、EfficientNetV2-B0和VGG16,并结合了七种传统机器学习分类器和三种前馈神经网络分类器,以实现精确的物种识别。此外,我们激活了softmax函数,直接使用卷积神经网络模型对水母物种进行分类。我们最优的模型是将人工神经网络与MobileNetV3结合,达到了98%的卓越准确率,显著优于其他特征提取器-分类器组合。本研究展示了深度学习和混合框架在应对生物多样性挑战和推进海洋环境物种检测方面的有效性。 |
[38] 再接再厉:服装更换行人再识别中的困难样本生成与学习 标题: Try Harder: Hard Sample Generation and Learning for Clothes-Changing Person Re-ID 作者: Hankun Liu / Yujian Zhao / Guanglin Niu 原文: [英文] [中文] 备注: None 摘要: 在行人再识别(ReID)任务中,尤其是在换装行人再识别(CC-ReID)中,难样本构成了一个显著的挑战。它们固有的模糊性或相似性,加上缺乏明确的定义,使其成为一个根本性的瓶颈。这些问题不仅限制了针对性学习策略的设计,还削弱了模型在服装或视角变化下的鲁棒性。在本文中,我们提出了一种新颖的多模态引导的难样本生成与学习(HSGL)框架,这是首次尝试在统一的范式下结合文本和视觉模态来明确定义、生成和优化难样本。HSGL包括两个核心组件:(1)双粒度难样本生成(DGHSG),利用多模态线索合成语义一致的样本,包括粗粒度和细粒度的难正样本和负样本,以有效增加训练数据的难度和多样性。(2)难样本自适应学习(HSAL),引入了一种难度感知的优化策略,该策略基于文本语义标签调整特征距离,鼓励在嵌入空间中分离难正样本并拉近难负样本,以增强模型对难样本的判别能力和鲁棒性。在多个CC-ReID基准上的大量实验表明了我们方法的有效性,并突出了多模态引导的难样本生成与学习在增强CC-ReID鲁棒性方面的潜力。值得注意的是,HSAL显著加速了目标学习过程的收敛,并在PRCC和LTCC数据集上达到了最新的性能。代码可在此https URL获取。 |
[39] MMOne:在一个场景中表示多种模态 标题: MMOne: Representing Multiple Modalities in One Scene 作者: Zhifeng Gu / Bing Wang 原文: [英文] 备注: Accepted to ICCV 2025 摘要: 人类通过多模态线索感知世界,以理解和与环境互动。为多种模态学习场景表示可以增强对物理世界的理解。然而,由于不同模态之间固有的差异,模态冲突带来了两个关键挑战:属性差异和粒度差异。为了解决这些挑战,我们提出了一个通用框架,称为MMOne,用于在一个场景中表示多种模态,并且可以轻松扩展到其他模态。具体来说,我们提出了一种带有新颖模态指示器的模态建模模块,以捕捉每种模态的独特属性。此外,我们设计了一种多模态分解机制,根据模态差异将多模态高斯分解为单模态高斯。我们通过将多模态信息解构为共享和模态特定的组件,解决了模态之间的基本区别,从而实现了更紧凑和高效的多模态场景表示。大量实验表明,我们的方法始终增强了每种模态的表示能力,并且可以扩展到其他模态。代码可在此https URL获取。 |
[40] RMAU-NET:一种用于滑坡分割和检测的残差多头注意力U-Net架构,基于遥感图像 标题: RMAU-NET: A Residual-Multihead-Attention U-Net Architecture for Landslide Segmentation and Detection from Remote Sensing Images 作者: Lam Pham / Cam Le / Hieu Tang / Khang Truong / Truong Nguyen / Jasmin Lampert / Alexander Schindler / Martin Boyer / Son Phan 原文: [英文] [中文] 备注: None 摘要: 近年来,由于干旱、洪水、风暴等极端天气事件或人类活动如森林砍伐、过度开采自然资源的影响,滑坡灾害频繁报道。然而,由于观测区域极其广阔且地形崎岖(如山地或高原),自动观测滑坡具有挑战性。这促使我们提出了一种基于深度学习的端到端模型,该模型利用遥感图像自动观测滑坡事件。通过将遥感图像作为输入数据,我们可以获得免费的资源,并随时间观察大面积和崎岖的地形。为了探索遥感图像,我们提出了一种新颖的神经网络架构,用于滑坡检测和滑坡分割两个任务。我们在LandSlide4Sense、毕节和尼泊尔三个不同的基准数据集上评估了我们提出的模型。通过进行广泛的实验,我们在LandSlide4Sense和毕节数据集上的滑坡检测任务中分别获得了98.23和93.83的F1分数;在LandSlide4Sense和尼泊尔数据集上的分割任务中分别获得了63.74和76.88的mIoU分数。这些实验结果证明了将我们提出的模型集成到现实生活中的滑坡观测系统中的潜力。 |
[41] 稀疏视图CT重建的潜在空间一致性 标题: Latent Space Consistency for Sparse-View CT Reconstruction 作者: Duoyou Chen / Yunqing Chen / Can Zhang / Zhou Wang / Cheng Chen / Ruoxiu Xiao 原文: [英文] [中文] 备注: ACMMM2025 Accepted 摘要: 计算机断层扫描(CT)是一种在临床环境中广泛使用的成像方式。通过密集采集的旋转X射线阵列,CT可以捕捉三维空间特征。然而,它面临着显著的时间消耗和高辐射暴露等挑战。基于稀疏视图X射线图像的CT重建方法因其能够降低成本和风险而受到研究人员的广泛关注。近年来,扩散模型,特别是潜在扩散模型(LDM),在三维CT重建领域展示了良好的潜力。然而,由于X射线模态的二维潜在表示与CT模态的三维潜在表示之间存在显著差异,普通的LDM无法在潜在空间中实现有效对齐。为了解决这个问题,我们提出了一种一致潜在空间扩散模型(CLS-DM),该模型结合了跨模态特征对比学习,以有效地从二维X射线图像中提取潜在三维信息,并实现模态之间的潜在空间对齐。实验结果表明,CLS-DM在LIDC-IDRI和CTSpine1K数据集上的标准体素级指标(PSNR、SSIM)方面优于经典和最新的生成模型。这种方法不仅有助于提高稀疏X射线重建CT的有效性和经济可行性,还可以推广到其他跨模态转换任务,如文本到图像合成。我们已在此https URL上公开了我们的代码,以促进其他领域的进一步研究和应用。 |
[42] 评估大型视觉语言模型中的色觉测试 标题: Assessing Color Vision Test in Large Vision-language Models 作者: Hongfei Ye / Bin Chen / Wenxi Liu / Yu Zhang / Zhao Li / Dandan Ni / Hongyang Chen 原文: [英文] [中文] 备注: None 摘要: 随着大型视觉语言模型的广泛应用,这些模型的色觉能力变得至关重要。然而,大型视觉语言模型的色觉能力尚未得到充分探索。为了解决这一问题,我们为大型视觉语言模型定义了一项色觉测试任务,并构建了一个数据集\footnote{Anonymous Github Showing some of the data this https URL},该数据集涵盖了多种类别的测试问题和不同难度级别的任务。此外,我们分析了大型视觉语言模型所犯错误的类型,并提出了微调策略以提高其在色觉测试中的表现。 |
[43] 基于聚类引导的多层对比表示学习用于柑橘病害分类 标题: Clustering-Guided Multi-Layer Contrastive Representation Learning for Citrus Disease Classification 作者: Jun Chen / Yonghua Yu / Weifu Li / Yaohui Chen / Hong Chen 原文: [英文] [中文] 备注: 11 pages, 5 figures 摘要: 柑橘作为全球最重要的经济水果作物之一,由于各种疾病而遭受严重的产量下降。准确的疾病检测和分类是实施针对性控制措施的关键前提。人工智能的最新进展,特别是基于深度学习的计算机视觉算法,在保持检测和分类准确性的同时,大大减少了时间和劳动力需求。然而,这些方法主要依赖于大量高质量的标注训练样本以获得良好的性能。本文通过引入两个关键设计:与聚类中心对比和多层对比训练(MCT)范式,提出了一种新颖的聚类引导的自监督多层对比表示学习(CMCRL)算法。所提出的方法相较于现有方法展示了几个优势:(1)利用大量未标注样本进行优化;(2)有效适应不同柑橘疾病之间的症状相似性;(3)分层特征表示学习。该方法在公共柑橘图像集CDD上实现了最先进的性能,准确率比现有方法高出4.5\%-30.1\%。值得注意的是,我们的方法缩小了与完全监督方法(所有样本均有标注)之间的性能差距。除了分类准确性之外,我们的方法在其他评估指标(F1分数、精确率和召回率)上也表现出色,突显了其在应对类别不平衡挑战方面的鲁棒性。 |
[44] 医学视觉语言模型发展到什么程度了?一项全面的基准测试研究 标题: How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study 作者: Che Liu / Jiazhen Pan / Weixiang Shen / Wenjia Bai / Daniel Rueckert / Rossella Arcucci 原文: [英文] 备注: Accepted by the International Conference on AI in Healthcare 2025 摘要: 视觉-语言模型(VLMs)在网络规模语料库上训练后,在自然图像任务中表现出色,并越来越多地被重新用于医疗保健领域;然而,它们在医学任务中的能力仍未被充分探索。我们对开源的通用和医学专用VLMs进行了全面评估,这些模型的参数范围从3B到72B,涵盖八个基准:MedXpert、OmniMedVQA、PMC-VQA、PathVQA、MMMU、SLAKE和VQA-RAD。为了观察模型在不同方面的表现,我们首先将其分为理解和推理两个组成部分。三个显著的发现浮现出来。首先,大型通用模型在几个基准上已经匹配或超越了医学专用模型,展示了从自然图像到医学图像的强大零样本迁移能力。其次,推理性能始终低于理解性能,这突显了安全决策支持的一个关键障碍。第三,性能在不同基准之间差异很大,反映了任务设计、注释质量和知识需求的差异。尚无模型达到临床部署的可靠性门槛,这强调了需要更强的多模态对齐和更严格、细粒度的评估协议。 |
[45] 一种用于情感识别的鲁棒不完整多模态低秩适应方法 标题: A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition 作者: Xinkui Zhao / Jinsong Shu / Yangyang Wu / Guanjie Cheng / Zihe Liu / Naibo Wang / Shuiguang Deng / Zhongle Xie / Jianwei Yin 原文: [英文] [中文] 备注: None 摘要: 多模态情感识别(MER)在实际应用中由于传感器故障或隐私保护要求,常常遇到不完整的多模态问题。现有的方法试图通过额外的梯度来平衡每种模态组合的训练,以应对各种不完整的多模态场景,但这些方法面临一个关键限制:来自不同模态组合的训练梯度相互冲突,最终降低了最终预测模型的性能。在本文中,我们提出了一种基于模态组合的单模态解耦动态低秩适应方法,称为MCULoRA,这是一种用于不完整多模态学习模型的参数高效训练的新框架。MCULoRA由两个关键模块组成:模态组合感知低秩适应(MCLA)和动态参数微调(DPFT)。MCLA模块有效地将共享信息与各个模态组合的独特特征解耦。DPFT模块根据每个模态表示空间的可分性调整模态组合的训练比例,从而优化不同模态组合的学习效率。我们在多个基准数据集上的广泛实验评估表明,MCULoRA在下游任务准确性方面显著优于以往的不完整多模态学习方法。 |
[46] NarrLV:面向长视频生成模型的综合叙事中心评估 标题: NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation Models 作者: X. Feng / H. Yu / M. Wu / S. Hu / J. Chen / C. Zhu / J. Wu / X. Chu / K. Huang 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: 随着基础视频生成技术的快速发展,长视频生成模型因其扩展的内容创作空间而展现出令人期待的研究潜力。最近的研究表明,长视频生成任务的目标不仅是延长视频时长,还要在更长的视频中准确表达更丰富的叙事内容。然而,由于缺乏专门为长视频生成模型设计的评估基准,目前对这些模型的评估主要依赖于具有简单叙事提示的基准(例如,VBench)。据我们所知,我们提出的NarrLV是第一个全面评估长视频生成模型叙事表达能力的基准。受电影叙事理论的启发,(i)我们首先引入了在视频中保持连续视觉呈现的基本叙事单元,称为时间叙事原子(TNA),并使用其数量来定量衡量叙事丰富性。在三个影响TNA变化的关键电影叙事元素的指导下,我们构建了一个自动提示生成流程,能够生成具有灵活可扩展TNA数量的评估提示。(ii)然后,基于叙事内容表达的三个渐进层次,我们设计了一种有效的评估指标,使用基于MLLM的问题生成和回答框架。(iii)最后,我们对现有的长视频生成模型和基础生成模型进行了广泛的评估。实验结果表明,我们的指标与人类判断高度一致。得出的评估结果揭示了当前视频生成模型在叙事内容表达方面的详细能力边界。 |
[47] 面向连续敏感变量的公平性分组:应用于面部分析中针对肤色的去偏 标题: Fairness-Aware Grouping for Continuous Sensitive Variables: Application for Debiasing Face Analysis with respect to Skin Tone 作者: Veronika Shilova / Emmanuel Malherbe / Giovanni Palma / Laurent Risser / Jean-Michel Loubes 原文: [英文] [中文] 备注: None 摘要: 在法律框架内,数据集和模型的公平性通常通过将观察结果划分为预定义的组,然后计算公平性指标(例如,性别方面的不平等影响或机会均等)来评估。然而,当敏感属性如肤色是连续的时,划分为默认组可能会忽视或掩盖某些少数群体所经历的歧视。为了解决这一限制,我们提出了一种针对连续(可能是多维)敏感属性的基于公平性的分组方法。通过根据观察到的歧视水平对数据进行分组,我们的方法识别出最大化基于组间歧视差异的新标准的划分,从而隔离出最关键的子群体。我们使用多个合成数据集验证了所提出的方法,并展示了其在变化的人口分布下的稳健性——揭示了歧视如何在敏感属性空间中表现出来。此外,我们研究了肤色情况下的单调公平性专门设置。我们在CelebA和FFHQ数据集上的实证结果,利用工业专有算法预测的肤色,表明所提出的分割揭示了比之前报道更细致的歧视模式,并且这些发现对于给定模型在数据集之间保持稳定。最后,我们利用我们的分组模型进行去偏,旨在通过逐组后处理预测公平分数。结果表明,我们的方法在改善公平性的同时对准确性影响最小,从而确认了我们的划分方法,并为工业部署打开了大门。 |
[48] MFGDiffusion:基于掩码引导的烟雾合成以增强森林火灾检测 标题: MFGDiffusion: Mask-Guided Smoke Synthesis for Enhanced Forest Fire Detection 作者: Guanghao Wu / Chen Xu / Hai Song / Chong Wang / Qixing Zhang 原文: [英文] [中文] 备注: 18 pages, 11 figures 摘要: 烟雾是森林火灾的第一个可见指示器。随着深度学习的进步,基于图像的烟雾检测已成为检测和预防森林火灾的重要方法。然而,森林火灾烟雾图像数据的稀缺是阻碍森林火灾烟雾检测的一个重要因素。图像生成模型为合成逼真的烟雾图像提供了一个有前途的解决方案。然而,当前的图像修复模型在生成高质量烟雾表现方面存在局限性,特别是在合成烟雾与背景环境之间表现出不一致性。为了解决这些问题,我们提出了一个生成森林火灾烟雾图像的综合框架。首先,我们使用预训练的分割模型和多模态模型来获取烟雾掩码和图像。为了解决修复模型对掩码和掩码图像利用不足的问题,我们引入了一种由掩码和掩码图像特征引导的网络架构。我们还提出了一种新的损失函数,称为掩码随机差异损失,通过随机扩展和侵蚀掩码来增强生成效果在掩码周围的一致性。此外,为了使用随机掩码生成烟雾图像数据集以用于后续检测任务,我们结合了烟雾特征,并使用多模态大语言模型作为过滤工具来选择多样且合理的烟雾图像,从而提高合成数据集的质量。实验表明,我们生成的烟雾图像真实且多样,有效提升了森林火灾烟雾检测模型的性能。代码可在此网址获取。 |
[49] ViewSRD:通过结构化多视图分解实现3D视觉定位 标题: ViewSRD: 3D Visual Grounding via Structured Multi-View Decomposition 作者: Ronggang Huang / Haoxin Yang / Yan Cai / Xuemiao Xu / Huaidong Zhang / Shengfeng He 原文: [英文] [中文] 备注: Accepted by ICCV 2025 摘要: 3D视觉定位旨在根据文本描述识别和定位3D空间中的物体。然而,现有方法在处理复杂多锚点查询中将目标与锚点分离,以及解决因视角变化导致的空间描述不一致性方面存在困难。为了解决这些挑战,我们提出了ViewSRD,一个将3D视觉定位表述为结构化多视图分解过程的框架。首先,简单关系解耦(SRD)模块将复杂的多锚点查询重组为一组有针对性的单锚点陈述,生成一组结构化的视角感知描述,以澄清位置关系。这些分解的表示形式为多视图文本-场景交互(Multi-TSI)模块奠定了基础,该模块使用共享的跨模态一致视图标记(CCVTs)在多个视点上整合文本和场景特征,以保持空间相关性。最后,文本-场景推理模块将多视图预测综合为统一且稳健的3D视觉定位。在3D视觉定位数据集上的实验表明,ViewSRD在需要精确空间区分的复杂查询中显著优于最先进的方法。 |
[50] YOLOatr:基于深度学习的热红外图像自动目标检测与定位 标题: YOLOatr : Deep Learning Based Automatic Target Detection and Localization in Thermal Infrared Imagery 作者: Aon Safdar / Usman Akram / Waseem Anwar / Basit Malik / Mian Ibad Ali 原文: [英文] 备注: Published in 25th Irish Machine Vision and Image Processing Conf., Galway, Ireland, Aug 30-Sep 1 2023 Also available at this https URL 摘要: 在国防和监控领域,从热红外(TI)图像中进行自动目标检测(ATD)和识别(ATR)相比于商业自动驾驶车辆感知领域是一个具有挑战性的计算机视觉(CV)任务。有限的数据集、特定领域和TI模式的特殊挑战,即有限的硬件、由于更远的距离导致的尺度不变性问题、战术车辆故意遮挡、较低的传感器分辨率以及目标结构信息的缺乏、天气、温度和一天中时间变化的影响,以及变化的目标与杂波比率,所有这些都导致类内变异性增加和类间相似性更高,使得准确的实时ATR成为一个具有挑战性的CV任务。因此,当代最先进的(SOTA)深度学习架构在ATR领域表现不佳。我们提出了一种基于修改后的YOLOv5s的改进锚点单阶段检测器,称为YOLOatr,对检测头、颈部的特征融合进行了最佳修改,并采用了自定义增强配置文件。我们在一个全面的DSIAC MWIR数据集上评估了我们提出的模型在相关和去相关测试协议下的实时ATR性能。结果表明,我们提出的模型实现了高达99.6%的最先进ATR性能。 |
[51] 用于细粒度表型分析的番茄多角度多姿态数据集 标题: Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping 作者: Yujie Zhang / Sabine Struckmeyer / Andreas Kolb / Sven Reichardt 原文: [英文] [中文] 备注: None 摘要: 传统植物表型分析方法中的观察者偏差和不一致性限制了细粒度植物分析的准确性和可重复性。为克服这些挑战,我们开发了TomatoMAP,这是一个针对番茄(Solanum lycopersicum)的综合数据集,使用基于物联网(IoT)的成像系统和标准化的数据采集协议。我们的数据集包含64,464张RGB图像,捕捉了来自四个相机仰角的12种不同植物姿态。每张图像都包括手动标注的七个感兴趣区域(ROIs)的边界框,包括叶子、花序、花簇、果簇、腋芽、枝条和整个植物区域,并基于BBCH尺度提供50个细粒度生长阶段分类。此外,我们提供了3,616张高分辨率图像子集,具有像素级语义和实例分割注释,用于细粒度表型分析。我们使用级联模型深度学习框架验证了我们的数据集,该框架结合了用于分类的MobileNetv3、用于目标检测的YOLOv11和用于分割的MaskRCNN。通过涉及五位领域专家的AI与人类分析,我们证明了在我们数据集上训练的模型在准确性和速度上可与专家媲美。Cohen's Kappa和评审者间一致性热图证实了使用我们的方法进行自动化细粒度表型分析的可靠性。 |
[52] 通过上下文和任务感知扩散器进行面向任务的人体抓取合成 标题: Task-Oriented Human Grasp Synthesis via Context- and Task-Aware Diffusers 作者: An-Lun Liu / Yu-Wei Chao / Yi-Ting Chen 原文: [英文] 备注: Accepted by ICCV 2025 摘要: 在本文中,我们研究了面向任务的人体抓取合成,这是一项需要同时具备任务和情境意识的新型抓取合成任务。我们方法的核心是任务感知接触图。与传统的仅考虑被操控物体及其与手的关系的接触图不同,我们增强的接触图考虑了场景和任务信息。这种综合图对于手物交互至关重要,使得抓取姿势能够准确地与任务对齐。我们提出了一个两阶段的流程,首先构建一个由场景和任务信息指导的任务感知接触图。在随后的阶段中,我们利用这个接触图来合成面向任务的人体抓取。我们引入了一个新的数据集和一个用于评估我们方法的指标。我们的实验验证了同时建模场景和任务的重要性,显示出在抓取质量和任务性能方面相较于现有方法的显著改进。有关更多详细信息,请参见我们的项目页面:this https URL |
[53] 用于单段磁场图像的三维磁逆例程 标题: 3D Magnetic Inverse Routine for Single-Segment Magnetic Field Images 作者: J. Senthilnath / Chen Hao / F. C. Wellstood 原文: [英文] [中文] 备注: copyright 2025 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works 摘要: 在半导体封装中,准确恢复三维信息对于无损检测(NDT)以定位电路缺陷至关重要。本文提出了一种新颖的方法,称为三维磁逆例程(3D MIR),该方法利用磁场图像(MFI)来检索单段三维电流流动的参数。3D MIR结合了基于深度学习(DL)的卷积神经网络(CNN)、基于空间物理的约束和优化技术。该方法分为三个阶段:i)CNN模型处理MFI数据以预测($\ell/z_o$),其中$\ell$是导线长度,$z_o$是导线在磁传感器下的垂直深度,并分类段类型($c$)。ii)通过利用基于空间物理的约束,该例程为电流段的位置($x_o$,$y_o$,$z_o$)、长度($\ell$)、电流($I$)和电流流动方向(正或负)提供初步估计。iii)优化器随后调整这五个参数($x_o$,$y_o$,$z_o$,$\ell$,$I$)以最小化重建的MFI与实际MFI之间的差异。结果表明,3D MIR方法能够以高精度准确恢复三维信息,为半导体封装中的磁图像重建设定了新的基准。该方法突出了在实际应用中结合DL和物理驱动优化的潜力。 |
[54] 利用计算机视觉进行河流侵蚀的检测与量化 标题: Detección y Cuantificación de Erosión Fluvial con Visión Artificial 作者: Paúl Maji / Marlon Túquerres / Stalin Valencia / Marcela Valenzuela / Christian Mejia-Escobar 原文: [英文] [中文] 备注: 18 pages, in Spanish language, 13 figures, 4 tables 摘要: 河流侵蚀是一种自然过程,可能对土壤稳定性和战略基础设施产生重大影响。传统上,这一现象的检测和监测是通过摄影测量方法和地理信息系统分析来实现的。这些任务需要特定的知识和大量的人工处理。本研究提出了一种基于人工智能的方法,用于自动识别侵蚀区域并估算其面积。使用了最先进的计算机视觉模型YOLOv11,通过微调并使用照片和LiDAR图像进行训练。这个组合数据集通过Roboflow平台进行了分割和标注。实验结果表明,该方法能够以70%的准确率有效检测侵蚀模式,精确识别侵蚀区域,并可靠地计算其像素和平方米范围。作为最终产品,开发了EROSCAN系统,这是一款交互式网络应用程序,允许用户上传图像并自动获取河流侵蚀的分割结果以及估算的面积。该工具优化了现象的检测和量化,促进了风险管理和区域规划中的决策制定。 |
[55] 一种基于混合原语的高斯散点表面重建方法 标题: A Mixed-Primitive-based Gaussian Splatting Method for Surface Reconstruction 作者: Haoxuan Qu / Yujun Cai / Hossein Rahmani / Ajay Kumar / Junsong Yuan / Jun Liu 原文: [英文] [中文] 备注: None 摘要: 最近,高斯喷溅(Gaussian Splatting, GS)在表面重建领域受到了广泛关注。然而,尽管现实世界中的三维物体可能具有复杂多样的形状,现有基于GS的方法在重建过程中仅限于使用单一类型的喷溅基元(高斯椭圆或高斯椭球)来表示物体表面。本文指出,这种方法可能不足以高质量地表示物体表面。因此,我们提出了一个新颖的框架,首次使高斯喷溅能够在其表面重建过程中结合多种类型的(几何)基元。具体来说,在我们的框架中,我们首先提出了一种组合喷溅策略,使得在高斯喷溅管道中可以喷溅和渲染不同类型的基元。此外,我们还设计了基于混合基元的初始化策略和顶点修剪机制,以进一步促进其表面表示学习过程的良好执行,充分利用不同类型的基元。大量实验表明,我们的框架具有高效性及其精确的表面重建性能。 |
[56] HANS-Net:用于CT成像中肝脏和肿瘤精确且可推广分割的双曲卷积与自适应时间注意力 标题: HANS-Net: Hyperbolic Convolution and Adaptive Temporal Attention for Accurate and Generalizable Liver and Tumor Segmentation in CT Imaging 作者: Arefin Ittesafun Abian / Ripon Kumar Debnath / Md. Abdur Rahman / Mohaimenul Azam Khan Raiaan / Md Rafiqul Islam / Asif Karim / Reem E. Mohamed / Sami Azam 原文: [英文] [中文] 备注: 10 figures. Will be submitted to IEEE Transactions on Radiation and Plasma Medical Sciences 摘要: 在腹部CT图像上进行准确的肝脏和肿瘤分割对于可靠的诊断和治疗计划至关重要,但由于复杂的解剖结构、肿瘤外观的多样性以及有限的标注数据,这一任务仍然具有挑战性。为了解决这些问题,我们引入了超曲面卷积自适应时间注意力与神经表示和突触可塑性网络(HANS-Net),这是一种新颖的分割框架,协同结合了用于分层几何表示的超曲面卷积、用于多尺度纹理学习的基于小波的分解模块、用于自适应特征增强的生物启发的突触可塑性机制,以及用于建模细粒度和连续解剖边界的隐式神经表示分支。此外,我们结合了不确定性感知的蒙特卡罗dropout来量化预测置信度,并采用轻量级时间注意力来提高切片间的一致性而不牺牲效率。对LiTS数据集的广泛评估表明,HANS-Net实现了平均Dice系数93.26%、IoU为88.09%、平均对称表面距离(ASSD)为0.72毫米,以及体积重叠误差(VOE)为11.91%。此外,在3D-IRCADb-01数据集上的跨数据集验证获得了平均Dice系数87.45%、IoU为80.30%、ASSD为1.525毫米,以及VOE为19.71%,表明在不同数据集上的强泛化能力。这些结果证实了HANS-Net在提供解剖一致、准确且置信的肝脏和肿瘤分割方面的有效性和鲁棒性。 |
[57] MonoMVSNet: 单目先验引导的多视图立体网络 标题: MonoMVSNet: Monocular Priors Guided Multi-View Stereo Network 作者: Jianfei Jiang / Qiankun Liu / Haochen Yu / Hongyuan Liu / Liyong Wang / Jiansheng Chen / Huimin Ma 原文: [英文] [中文] 备注: Accepted by ICCV 2025 摘要: 基于学习的多视图立体(MVS)方法旨在为一系列校准图像预测深度图,以恢复密集的点云。然而,现有的MVS方法在处理具有挑战性的区域时往往表现不佳,例如在无纹理区域和反射表面上,特征匹配会失败。相比之下,单目深度估计本质上不需要特征匹配,使其能够在这些区域实现稳健的相对深度估计。为弥合这一差距,我们提出了MonoMVSNet,这是一种新颖的单目特征和深度引导的MVS网络,将单目基础模型中的强大先验整合到多视图几何中。首先,参考视图的单目特征通过注意力机制与新设计的跨视图位置编码被整合到源视图特征中。然后,参考视图的单目深度被对齐,以在采样过程中动态更新边缘区域的深度候选。最后,基于单目深度进一步设计了一种相对一致性损失,以监督深度预测。大量实验表明,MonoMVSNet在DTU和Tanks-and-Temples数据集上实现了最先进的性能,在Tanks-and-Temples中级和高级基准测试中排名第一。源代码可在此https URL获取。 |
[58] UGC-VideoCaptioner:一个全方位UGC视频细节字幕模型及新基准 标题: UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks 作者: Peiran Wu / Yunze Liu / Zhengdong Zhu / Enmin Zhou / Shawn Shen 原文: [英文] [中文] 备注: None 摘要: 现实世界中用户生成的视频,尤其是在像 TikTok 这样的平台上,通常具有丰富且交织的视听内容。然而,现有的视频字幕基准和模型仍然主要以视觉为中心,忽视了音频在传达场景动态、说话者意图和叙述背景中的关键作用。这种缺乏全方位数据集和轻量级、强大模型的现状阻碍了细粒度、多模态视频理解的进展。为了解决这些挑战,我们引入了 UGC-VideoCap,这是一个专门为短视频用户生成视频的详细全模态字幕设计的新基准和模型框架。与之前的数据集不同,UGC-VideoCap 强调音频和视觉模态的平衡整合,包含了 1000 个通过结构化三阶段人机交互流程注释的 TikTok 视频,涵盖仅音频、仅视觉和联合视听语义。该基准还包括 4000 个精心设计的问答对,以探测单模态和跨模态理解。除了数据集之外,我们还提出了 UGC-VideoCaptioner(3B),一个从 Gemini 2.5 Flash 蒸馏而来的 3B 参数字幕模型。通过一种新颖的两阶段训练策略,即监督微调后接组相对策略优化(GRPO),我们的方法能够在有限数据的情况下实现高效适应,同时保持竞争性能。我们的基准和模型共同为在不受限制的现实世界用户生成内容环境中推进全模态视频字幕提供了高质量的基础和数据高效的解决方案。 |
[59] 属性塑造人脸识别模型的嵌入空间 标题: Attributes Shape the Embedding Space of Face Recognition Models 作者: Pierrick Leroy / Antonio Mastropietro / Marco Nurisso / Francesco Vaccarino 原文: [英文] [中文] 备注: None 摘要: 随着深度神经网络的出现,面部识别(FR)任务取得了显著进展,特别是通过基于边距的三元组损失,将面部图像嵌入到高维特征空间中。在训练过程中,这些对比损失专注于将身份信息作为标签。然而,我们观察到嵌入空间中出现了一个多尺度的几何结构,这一结构受到可解释的面部(例如,发色)和图像属性(例如,对比度)的影响。我们提出了一种几何方法来描述FR模型对这些属性的依赖性或不变性,并引入了一种受物理启发的对齐度量。我们在受控的简化模型和使用合成数据进行目标属性增强微调的广泛使用的FR模型上评估了所提出的度量。我们的研究结果表明,模型在不同属性上表现出不同程度的不变性,这为其优缺点提供了见解,并实现了更深入的可解释性。代码可在此处获取:this https URL}{this https URL |
[60] 实现视觉自回归模型的适应 标题: Implementing Adaptations for Vision AutoRegressive Model 作者: Kaif Shaikh / Antoni Kowalczuk / Franziska Boenisch / Adam Dziedzic 原文: [英文] [中文] 备注: Accepted at DIG-BUGS: Data in Generative Models Workshop @ ICML 2025 摘要: 视觉自回归模型(Vision AutoRegressive model,VAR)最近被引入作为图像生成领域中扩散模型(Diffusion Models,DMs)的替代方案。在这项工作中,我们专注于其适应性调整,旨在微调预训练模型以执行特定的下游任务,如医学数据生成。虽然对于DMs已经存在许多技术,但VAR的适应性调整仍然未被充分探索。同样,旨在保护适应性数据隐私的差分隐私(Differentially Private,DP)调整已经在DMs中被广泛研究,而VAR缺乏这样的解决方案。在我们的工作中,我们实现并基准测试了多种VAR策略,并将其与最先进的DM适应性策略进行比较。我们观察到VAR在非DP调整中优于DMs,然而,DP的性能受到影响,这需要在VAR的隐私调整方面进行进一步研究。代码可在此https URL获取。 |
[61] COLI:一种用于大图像的分层高效压缩器 标题: COLI: A Hierarchical Efficient Compressor for Large Images 作者: Haoran Wang / Hanyu Pei / Yang Lyu / Kai Zhang / Li Li / Feng-Lei Fan 原文: [英文] [中文] 备注: None 摘要: 高分辨率、大视野图像的日益普及加剧了对高效压缩方法的需求。传统技术往往无法保留关键的图像细节,而数据驱动的方法则表现出有限的泛化能力。隐式神经表示(INRs)通过为单个图像学习从空间坐标到像素强度的连续映射,提供了一种有前景的替代方案,从而存储网络权重而不是原始像素,避免了泛化问题。然而,基于INR的大图像压缩面临着压缩速度慢和压缩比不理想的挑战。为了解决这些限制,我们引入了COLI(大图像压缩器),这是一个利用视频神经表示(NeRV)的新框架。首先,认识到基于INR的压缩构成了一个训练过程,我们通过预训练-微调范式、混合精度训练以及将顺序损失重新表述为可并行化的目标来加速其收敛。其次,利用INRs将图像存储约束转化为权重存储的特性,我们实施了超压缩,这是一种新的后训练技术,可以在保持输出失真最小的同时显著提高压缩比。在两个医学影像数据集上的评估表明,COLI在显著降低每像素比特数(bpp)的同时,一致地实现了具有竞争力或更优的PSNR和SSIM指标,并将NeRV训练加速了多达4倍。 |
[62] HUG-VAS:一种基于分层NURBS的主动脉几何合成与可控编辑生成模型 标题: HUG-VAS: A Hierarchical NURBS-Based Generative Model for Aortic Geometry Synthesis and Controllable Editing 作者: Pan Du / Mingqi Xu / Xiaozhi Zhu / Jian-xun Wang 原文: [英文] [中文] 备注: 59 pages, 9 figures 摘要: 准确刻画血管几何形状对于心血管诊断和治疗规划至关重要。传统的统计形状建模(SSM)方法依赖于线性假设,限制了其对复杂拓扑结构(如多分支血管结构)的表现力和可扩展性。我们介绍了HUG-VAS,一种用于血管几何合成的分层NURBS生成模型,该模型将NURBS曲面参数化与基于扩散的生成建模相结合,以合成逼真、细致的主动脉几何形状。通过21个特定患者样本进行训练,HUG-VAS生成的主动脉具有解剖学上真实的主动脉上分支,其生物标志物分布与原始数据集非常匹配。HUG-VAS采用分层架构,包括生成中心线的去噪扩散模型和在这些中心线条件下合成径向剖面的引导扩散模型,从而捕捉解剖变异的两个层次。关键的是,该框架支持从图像衍生先验的零样本条件生成,使其能够在实际应用中发挥作用,如交互式半自动分割、在成像条件恶化下的稳健重建以及植入设备优化。据我们所知,HUG-VAS是第一个通过NURBS参数化和分层扩散过程的统一集成,将图像衍生先验与生成形状建模相结合的SSM框架。 |
[63] C-FBI: 一种使用卷积的组合方法用于模糊图像中的圆拟合 标题: C-FBI: A Combinatorial method using Convolutions for Circle Fitting in Blurry Images 作者: Esteban Román Catafau / Torbjörn E.M. Nordling 原文: [英文] [中文] 备注: 22 pages, 16 figures 摘要: 本文解决了在退化成像条件下鲁棒圆检测和拟合的计算机视觉基本挑战。我们提出了一种基于组合卷积的模糊图像圆拟合算法(3C-FBI),该算法通过结合(1)高效的组合边缘像素(edgel)采样和(2)参数空间中的卷积密度估计,弥合了圆检测和精确参数拟合之间的差距。 我们在三个实验框架中评估了3C-FBI:(1)来自帕金森病评估的真实世界医学数据(36个视频中的144帧),(2)遵循既定圆拟合基准的受控合成数据,以及(3)在不同空间分辨率和离群值污染水平下的系统分析。结果表明,3C-FBI在保持实时性能(40.3 fps)的同时,实现了最先进的准确性(Jaccard指数0.896),显著优于经典方法如RCD(6.8 fps)在标准CPU(i7-10875H)上的表现。在高分辨率(480x480)下,它保持了近乎完美的准确性(Jaccard接近1.0),并且在分辨率降至160x160且离群值高达20%的情况下,仍能保持可靠的性能(Jaccard高于0.95)。 在广泛的合成测试中,3C-FBI在污染水平上实现了0.989的平均Jaccard指数,与现代方法如Qi等(2024,0.991)相当,并超过了RHT(0.964)。这种准确性、速度和鲁棒性的结合使得3C-FBI在具有挑战性的条件下,成为医学成像、机器人技术和工业检测的理想选择。 |
[64] COLIBRI 模糊模型:基于颜色语言的表示和解释 标题: COLIBRI Fuzzy Model: Color Linguistic-Based Representation and Interpretation 作者: Pakizar Shamoi / Nuray Toganas / Muragul Muratbekova / Elnara Kadyrgali / Adilet Yerkin / Ayan Igali / Malika Ziyada / Ayana Adilova / Aron Karatayev / Yerdauit Torekhan 原文: [英文] [中文] 备注: submitted to IEEE for consideration 摘要: 颜色在当今世界无处不在,并在人类感知和与周围环境的互动中起着至关重要的作用。然而,计算机模仿人类的颜色感知是具有挑战性的。本文介绍了一种基于人类感知的模糊颜色模型,COLIBRI(基于颜色语言的表示和解释),旨在弥合计算颜色表示与人类视觉感知之间的差距。该模型使用模糊集和逻辑创建了一个颜色分类的框架。通过三阶段实验方法,研究首先通过初步实验识别出色调、饱和度和强度的可区分颜色刺激,随后进行了一项涉及超过1000名受试者的大规模人类分类调查。所得数据用于提取模糊分区并生成反映现实世界感知不确定性的隶属函数。该模型包含一种适应机制,允许根据反馈和上下文变化进行改进。比较评估表明,与传统颜色模型(如RGB、HSV和LAB)相比,该模型与人类感知的对齐程度更高。据我们所知,之前的研究中没有记录基于如此大规模样本或可比人群样本(n = 2496)构建颜色属性规范模型的情况。我们的研究结果对于设计、人工智能、市场营销和人机交互等领域具有重要意义,在这些领域中,感知相关的颜色表示至关重要。 |
[65] CATVis: 上下文感知的思维可视化 标题: CATVis: Context-Aware Thought Visualization 作者: Tariq Mehmood / Hamza Ahmad / Muhammad Haroon Shakeel / Murtaza Taj 原文: [英文] [中文] 备注: Accepted at MICCAI 2025. This is the submitted version prior to peer review. The final Version of Record will appear in the MICCAI 2025 proceedings (Springer LNCS) 摘要: 基于脑电图(EEG)的脑机接口(BCIs)在运动想象和认知状态监测等多种应用中显示出潜力。然而,由于EEG信号的复杂性和噪声特性,从中解码视觉表征仍然是一个重大挑战。因此,我们提出了一种新颖的五阶段框架,用于从EEG信号中解码视觉表征:(1)用于概念分类的EEG编码器,(2)在CLIP特征空间中对EEG和文本嵌入进行跨模态对齐,(3)通过重新排序进行字幕优化,(4)概念和字幕嵌入的加权插值以获得更丰富的语义,(5)使用预训练的稳定扩散模型进行图像生成。我们通过跨模态对齐和重新排序实现了上下文感知的EEG到图像生成。实验结果表明,我们的方法生成的图像与视觉刺激高度一致,在分类准确率上比最先进的方法高出13.43%,在生成准确率上高出15.21%,并将Fréchet Inception Distance降低了36.61%,表明具有更优越的语义对齐和图像质量。 |
[66] CharaConsist:细粒度一致性角色生成 标题: CharaConsist: Fine-Grained Consistent Character Generation 作者: Mengyu Wang / Henghui Ding / Jianing Peng / Yao Zhao / Yunpeng Chen / Yunchao Wei 原文: [英文] [中文] 备注: ICCV 2025 accepted paper, project page: this https URL 摘要: 在文本到图像生成中,生成一系列保持相同身份的一致内容对于实际应用具有很高的价值。尽管一些工作已经探索了无需训练的方法来增强生成主体的一致性,但我们观察到它们存在以下问题。首先,它们未能保持一致的背景细节,这限制了它们的适用性。此外,当前景角色经历大幅度运动变化时,身份和服装细节的不一致变得明显。为了解决这些问题,我们提出了CharaConsist,它采用点跟踪注意力和自适应令牌合并,并对前景和背景进行解耦控制。CharaConsist能够实现前景和背景的细粒度一致性,支持在固定场景中的连续镜头或不同场景中的离散镜头中生成一个角色。此外,CharaConsist是第一个为文本到图像DiT模型量身定制的一致生成方法。其保持细粒度一致性的能力,加上最新基础模型的更大容量,使其能够生成高质量的视觉输出,拓宽了其在更广泛的实际场景中的适用性。源代码已在此https URL发布。 |
[67] 流式4D视觉几何变换器 标题: Streaming 4D Visual Geometry Transformer 作者: Dong Zhuo / Wenzhao Zheng / Jiahe Guo / Yuqi Wu / Jie Zhou / Jiwen Lu 原文: [英文] [中文] 备注: Code is available at: this https URL 摘要: 从视频中感知和重建四维时空几何是计算机视觉中的一个基本但具有挑战性的任务。为了促进交互式和实时应用,我们提出了一种流式四维视觉几何变换器,其理念与自回归大型语言模型相似。我们探索了一种简单而高效的设计,并采用因果变换器架构以在线方式处理输入序列。我们使用时间因果注意力并将历史键和值缓存为隐式记忆,以实现高效的流式长期四维重建。该设计可以通过逐步整合历史信息来处理实时四维重建,同时保持高质量的空间一致性。为了高效训练,我们提出从密集的双向视觉几何基础变换器(VGGT)向我们的因果模型提炼知识。在推理过程中,我们的模型支持从大型语言模型领域迁移优化的高效注意力算子(例如,FlashAttention)。在各种四维几何感知基准上的大量实验表明,我们的模型在在线场景中提高了推理速度,同时保持了竞争性能,为可扩展和交互式四维视觉系统铺平了道路。代码可在此网址获取:this https URL。 |
[68] 走向深度基础模型:基于视觉的深度估计的最新趋势 标题: Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation 作者: Zhen Xu / Hongyu Zhou / Sida Peng / Haotong Lin / Haoyu Guo / Jiahao Shao / Peishan Yang / Qinglin Yang / Sheng Miao / Xingyi He / Yifan Wang / Yue Wang / Ruizhen Hu / Yiyi Liao / Xiaowei Zhou / Hujun Bao 原文: [英文] 备注: None 摘要: 深度估计是3D计算机视觉中的一项基础任务,对于3D重建、自由视点渲染、机器人技术、自动驾驶以及AR/VR技术等应用至关重要。传统依赖于硬件传感器(如LiDAR)的方法通常受到高成本、低分辨率和环境敏感性的限制,从而限制了它们在现实场景中的适用性。最近在基于视觉的方法方面的进展提供了一种有前景的替代方案,但由于模型架构容量低或依赖于特定领域的小规模数据集,这些方法在泛化和稳定性方面面临挑战。其他领域中规模法则和基础模型的出现激发了“深度基础模型”的发展:在大规模数据集上训练的深度神经网络,具有强大的零样本泛化能力。本文综述了深度学习架构和范式在单目、立体、多视图和单目视频环境下的深度估计演变。我们探讨了这些模型解决现有挑战的潜力,并全面概述了可以促进其发展的大型数据集。通过识别关键架构和训练策略,我们旨在突出通向稳健深度基础模型的路径,并为其未来的研究和应用提供见解。 |