scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年4月7日更新论文81
[1] 计算机视觉与深度学习在四维增强现实中的应用
标题: Computer Vision and Deep Learning for 4D Augmented Reality
作者: Karthik Shivashankar
原文:   [英文]  
备注: My Master Thesis , University of Surrey 2019
摘要:
4D视频在扩展现实(XR)平台上的前景广阔而令人兴奋,它开启了一种全新的方式来进行人机交互,以及我们感知现实和消费多媒体的方式。在本论文中,我们展示了在微软混合现实平台上渲染4D视频的可行性。这使我们能够相对轻松地将任何来自CVSSP的3D表演捕捉移植到XR产品中,如HoloLens设备。然而,如果3D模型过于复杂,由数百万个顶点组成,那么在当前的硬件和通信系统下,移植模型所需的数据带宽是一个严重的限制。因此,在本项目中,我们还开发了一种使用深度学习模型的4D视频序列的形状和外观的紧凑表示,以有效地学习4D视频序列的紧凑表示,并在不影响视频序列的形状和外观的情况下重建它。

[2] 探索大型视觉-语言模型中知识演化的机制
标题: Towards Understanding How Knowledge Evolves in Large Vision-Language Models
作者: Sudong Wang / Yunjian Zhang / Yao Zhu / Jianing Li / Zizhe Wang / Yanwei Liu / Xiangyang Ji
原文:   [英文]   [中文]  
备注: None
摘要:
大型视觉语言模型(LVLMs)逐渐成为许多人工智能应用的基础。然而,理解其内部工作机制一直困扰着研究人员,这反过来限制了其能力的进一步提升。在本文中,我们试图探讨多模态知识如何在LVLMs中演变并最终引发自然语言。我们设计了一系列新颖的策略来分析LVLMs内部的知识,并从三个层次深入研究多模态知识的演变,包括单个标记概率、标记概率分布和特征编码。在此过程中,我们识别出知识演变中的两个关键节点:关键层和突变层,将演变过程分为三个阶段:快速演变、稳定化和突变。我们的研究首次揭示了LVLMs中知识演变的轨迹,为理解其基本机制提供了新的视角。我们的代码可在此https URL获取。

[3] OpenFACADES:通过街景图像进行建筑描述和属性数据丰富的开放框架
标题: OpenFACADES: An Open Framework for Architectural Caption and Attribute Data Enrichment via Street View Imagery
作者: Xiucheng Liang / Jinheng Xie / Tianhong Zhao / Rudi Stouffs / Filip Biljecki
原文:   [英文]  
备注: None
摘要:
建筑属性,如高度、用途和材料组成,在空间数据基础设施中起着至关重要的作用,支持能源模拟、风险评估和环境建模等应用。尽管其重要性不言而喻,但在许多城市地区,全面且高质量的建筑属性数据仍然稀缺。最近的进展使得利用遥感和街景图像提取和标记客观建筑属性成为可能。然而,建立一种方法和流程来整合多样的开放数据集、大规模获取全面的建筑图像,并推断出全面的建筑属性,仍然是一个重大挑战。本研究率先通过引入OpenFACADES来弥合这些差距,这是一种开放框架,利用多模态众包数据,通过多模态大型语言模型丰富建筑档案,包含客观属性和语义描述。我们的方法分为三个主要步骤。首先,我们通过视域分析将Mapillary的街景图像元数据与OpenStreetMap的几何数据整合,有效识别出提供观察目标建筑合适视角的图像。其次,我们自动检测全景图像中的建筑立面,并定制了一种重投影方法,将对象转换为接近真实世界观察的整体透视视图。第三,我们引入了一种创新方法,利用并系统地研究开源大型视觉语言模型(VLMs)的能力,用于建筑级分析中的多属性预测和开放词汇描述,利用来自七个城市的30,180张标记图像的全球数据集。评估显示,经过微调的VLM在多属性推断中表现出色,优于单一属性计算机视觉模型和零样本的ChatGPT-4o。

[4] 多模态参考视觉定位
标题: Multimodal Reference Visual Grounding
作者: Yangxiao Lu / Ruosen Li / Liqiang Jing / Jikai Wang / Xinya Du / Yunhui Guo / Nicholas Ruozzi / Yu Xiang
原文:   [英文]   [中文]  
备注: Project page with our code and dataset: this https URL
摘要:
视觉指向(Visual grounding)专注于基于语言表达从图像中检测对象。最近的大型视觉语言模型(LVLMs)通过使用大规模数据集训练大型模型,显著提升了视觉指向的性能。然而,这一问题仍然具有挑战性,尤其是在输入图像中出现相似对象时。例如,一个LVLM可能无法在图像中区分健怡可乐和普通可乐。在这种情况下,如果有健怡可乐和普通可乐的额外参考图像,就可以帮助区分相似对象的视觉指向。 在这项工作中,我们引入了一项名为多模态参考视觉指向(MRVG)的新任务。在这个任务中,模型可以访问数据库中对象的一组参考图像。基于这些参考图像和语言表达,模型需要从查询图像中检测目标对象。我们首先引入了一个新的数据集来研究MRVG问题。然后,我们介绍了一种新颖的方法,名为MRVG-Net,以解决这一视觉指向问题。我们展示了通过有效利用参考图像进行小样本对象检测,并使用大型语言模型(LLMs)进行对象匹配,我们的方法在视觉指向性能上优于最先进的LVLMs,如Qwen2.5-VL-7B。我们的方法弥合了小样本检测和视觉指向之间的差距,为视觉理解解锁了新的能力。项目页面包含我们的代码和数据集:这个URL

[5] 探索大型语言模型在基于IMU的细粒度人类活动理解中的能力
标题: Exploring the Capabilities of LLMs for IMU-based Fine-grained Human Activity Understanding
作者: Lilin Xu / Kaiyuan Hou / Xiaofan Jiang
原文:   [英文]   [中文]  
备注: Accepted to The 2nd International Workshop on Foundation Models for Cyber-Physical Systems & Internet of Things (FMSys 2025)
摘要:
使用惯性测量单元(IMUs)进行的人类活动识别(HAR)越来越多地利用大型语言模型(LLMs),但现有的方法主要集中在步行或跑步等粗略活动上。我们的初步研究表明,预训练的LLMs在诸如空中书写字母识别等细粒度HAR任务上表现不佳,仅能达到接近随机猜测的准确率。在这项工作中,我们首先弥合了平面书写场景中的这一差距:通过使用自收集的数据集和少样本学习对LLMs进行微调,我们在二维数据上实现了高达129倍的改进。为了将其扩展到三维场景,我们设计了一种基于编码器的流程,将三维数据映射为二维等效数据,保留时空信息以实现稳健的字母预测。我们的端到端流程在空中书写场景中实现了78%的单词识别准确率(最多5个字母),确立了LLMs作为细粒度HAR的可行工具。

[6] 基于Yolov8提升交通标志识别性能
标题: Enhancing Traffic Sign Recognition On The Performance Based On Yolov8
作者: Baba Ibrahim / Zhou Kui
原文:   [英文]  
备注: 27 Pages, 6 Figures, 10 Tables and 20 References
摘要:
本文中,交通标志识别在自动驾驶汽车和高级驾驶辅助系统(ADAS)的发展中起着至关重要的作用。尽管深度学习和目标检测取得了显著进展,但由于交通标志的尺寸较小、环境条件多变、遮挡以及类别不平衡,准确检测和分类交通标志仍然具有挑战性。本文提出了一种增强的基于YOLOv8的检测系统,该系统集成了先进的数据增强技术、新颖的架构增强,包括坐标注意力(CA)、双向特征金字塔网络(BiFPN),以及动态模块如ODConv和LSKA,并结合了精细化的损失函数(EIoU和WIoU结合Focal Loss)。在包括GTSRB、TT100K和GTSDB的数据集上进行的大量实验表明,该系统在检测准确性、恶劣条件下的鲁棒性以及边缘设备上的实时推理方面取得了显著的改进。研究结果为在现实世界自动驾驶场景中部署可靠的交通标志识别系统提供了可操作的见解。

[7] UAC:用于手势检测的神经网络不确定性感知校准
标题: UAC: Uncertainty-Aware Calibration of Neural Networks for Gesture Detection
作者: Farida Al Haddad / Yuxin Wang / Malcolm Mielle
原文:   [英文]   [中文]  
备注: 12 pages, 2 figures
摘要:
人工智能在建筑、制造和医疗等安全关键领域具有影响安全性和效率的潜力。例如,使用来自可穿戴设备(如惯性测量单元,IMU)的传感器数据,可以在保持隐私的同时检测人类手势,从而确保遵循安全协议。然而,这些领域的严格安全要求限制了人工智能的采用,因为需要对预测概率进行准确校准,并且需要对分布外(OOD)数据具有鲁棒性。 本文提出了一种名为UAC(不确定性感知校准)的新颖两步方法,以解决基于IMU的手势识别中的这些挑战。首先,我们提出了一种不确定性感知的手势网络架构,该架构可以从IMU数据中预测手势概率及其相关的不确定性。然后利用这种不确定性来校准每个潜在手势的概率。其次,使用多个IMU数据窗口的预测的熵加权期望来提高准确性,同时保持正确的校准。 我们的方法使用三个公开可用的IMU数据集进行手势检测评估,并与三种最先进的神经网络校准方法进行比较:温度缩放、熵最大化和拉普拉斯近似。UAC优于现有方法,在OOD和分布内场景中实现了更高的准确性和校准。此外,我们发现,与我们的方法不同,没有一种最先进的方法显著改善了基于IMU的手势识别模型的校准。总之,我们的工作突出了神经网络不确定性感知校准的优势,展示了在使用IMU数据进行手势检测时校准和准确性的改进。

[8] 深度伪造检测模型的比较分析:新方法与视角
标题: Comparative Analysis of Deepfake Detection Models: New Approaches and Perspectives
作者: Matheus Martins Batista
原文:   [英文]   [中文]  
备注: Bachelor's thesis
摘要:
深度伪造视频日益增长的威胁能够操控现实并传播错误信息,这推动了对有效检测方法的迫切需求。本文研究并比较了识别深度伪造的不同方法,重点关注GenConViT模型及其相对于DeepfakeBenchmark中其他架构的表现。为研究提供背景,本文讨论了深度伪造的社会和法律影响,以及其创建和检测的技术基础,包括数字图像处理、机器学习和人工神经网络,特别强调卷积神经网络(CNNs)、生成对抗网络(GANs)和Transformers。模型的性能评估使用了相关指标和文献中建立的新数据集,如WildDeepfake和DeepSpeak,旨在识别对抗错误信息和媒体操控的最有效工具。结果表明,经过微调的GenConViT在准确性(93.82%)和泛化能力方面表现优越,超越了DeepfakeBenchmark中其他架构在DeepSpeak数据集上的表现。本研究为深度伪造检测技术的进步做出了贡献,提供了开发更强大和有效的解决方案以对抗虚假信息传播的支持。

[9] 在线学习中作为图像的偶然输入
标题: Haphazard Inputs as Images in Online Learning
作者: Rohit Agarwal / Aryan Dessai / Arif Ahmed Sekh / Krishna Agarwal / Alexander Horsch / Dilip K. Prasad
原文:   [英文]   [中文]  
备注: Accepted at IJCNN 2025
摘要:
在在线学习环境中,变化特征空间(也称为杂乱输入)领域由于其在各个领域的应用而变得非常突出。然而,目前对杂乱输入的解决方案依赖于模型,无法从现有的先进深度学习方法中受益,因为这些方法需要固定维度的输入。因此,我们提出在在线学习环境中将变化特征空间即时转换为固定维度的图像表示。这种简单但新颖的方法与模型无关,使得任何基于视觉的模型都可以适用于杂乱输入,正如我们使用ResNet和ViT所展示的那样。图像表示无缝处理不一致的输入数据,使我们提出的方法具有可扩展性和鲁棒性。我们在四个公开可用的数据集上展示了我们方法的有效性。代码可在此https URL获取。

[10] 莫尔菲斯:通过真实物理实验对视频生成模型的物理推理进行基准测试
标题: Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments
作者: Chenyu Zhang / Daniil Cherniavskii / Andrii Zadaianchuk / Antonios Tragoudaras / Antonios Vozikis / Thijmen Nijdam / Derck W. E. Prinzhorn / Mark Bodracska / Nicu Sebe / Efstratios Gavves
原文:   [英文]   [中文]  
备注: None
摘要:
最近在图像和视频生成方面的进展让人们对这些模型具备世界建模能力充满希望,即生成逼真且符合物理规律的视频的能力。这可能会在机器人技术、自动驾驶和科学模拟等应用中带来革命性变化。然而,在将这些模型视为世界模型之前,我们必须问:它们是否遵循物理守恒定律?为了解答这个问题,我们引入了Morpheus,这是一个用于评估视频生成模型物理推理能力的基准。它包含80个捕捉物理现象的真实视频,并以守恒定律为指导。由于人工生成缺乏真实数据,我们使用物理启发的指标来评估物理合理性,这些指标是根据每个物理环境中已知的无误守恒定律进行评估的,并利用了物理启发神经网络和视觉-语言基础模型的进展。我们的研究结果表明,即使在高级提示和视频条件下,当前的模型在生成美观视频的同时,仍难以编码物理原理。所有数据、排行榜和代码都在我们的项目页面上开源。

[11] 基于LiDAR的实时语音规格物体检测
标题: LiDAR-based Object Detection with Real-time Voice Specifications
作者: Anurag Kulkarni
原文:   [英文]   [中文]  
备注: 10 pages, 4 figures, submitted as part of MSc research
摘要:
本文提出了一种基于LiDAR的物体检测系统,具有实时语音说明功能,通过多模态PointNet框架集成了KITTI的3D点云和RGB图像。在3000个样本的子集上实现了87.0%的验证准确率,超越了200个样本基线的67.5%。该系统通过结合空间和视觉数据、使用加权损失解决类别不平衡问题,并通过自适应技术优化训练。一个Tkinter原型使用Edge TTS(en-IN-PrabhatNeural)提供自然的印度男性语音输出,结合3D可视化和实时反馈,提升了自主导航、辅助技术等领域的可访问性和安全性。该研究提供了详细的方法论、全面的实验分析,以及对应用和挑战的广泛回顾,使这项工作成为人机交互和环境感知领域中符合当前研究趋势的可扩展进展。

[12] VARGPT-v1.1:通过迭代指令微调和强化学习改进视觉自回归大型统一模型
标题: VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning
作者: Xianwei Zhuang / Yuxin Xie / Yufan Deng / Dongchao Yang / Liming Liang / Jinghan Ru / Yuguo Yin / Yuexian Zou
原文:   [英文]   [中文]  
备注: Code is available at: this https URL. arXiv admin note: text overlap with arXiv:2501.12327
摘要:
在这项工作中,我们介绍了VARGPT-v1.1,这是一种先进的统一视觉自回归模型,基于我们之前的框架VARGPT构建。该模型保留了视觉理解的下一个标记预测和图像合成的下一个尺度生成的双重范式。具体而言,VARGPT-v1.1集成了:(1)一种结合迭代视觉指令微调与通过直接偏好优化(DPO)的强化学习的新颖训练策略,(2)一个扩展的训练语料库,包含830万视觉生成指令对,(3)使用Qwen2升级的语言模型骨干,(4)增强的图像生成分辨率,以及(5)无需架构修改的图像编辑能力。这些进步使VARGPT-v1.1在多模态理解和文本到图像指令跟随任务中实现了最先进的性能,在理解和生成指标上均表现出显著的改进。值得注意的是,通过视觉指令微调,模型在保持与前代架构一致的同时获得了图像编辑功能,揭示了统一视觉理解、生成和编辑的潜力。我们的研究结果表明,设计良好的统一视觉自回归模型可以有效地采用来自大型语言模型(LLMs)的灵活训练策略,表现出良好的可扩展性。代码库和模型权重已在此https URL公开提供。

[13] QID:在数据稀缺环境中用于无OCR视觉文档理解的高效查询知情ViTs
标题: QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding
作者: Binh M. Le / Shaoyuan Xu / Jinmiao Fu / Zhishen Huang / Moyan Li / Yanhui Guo / Hongdong Li / Sameera Ramasinghe / Bryan Wang
原文:   [英文]  
备注: 8 pages, accepted by CVPR 2025 MULA
摘要:
在视觉文档理解(VDU)任务中,使用新数据集微调预训练的视觉语言模型(VLM)通常难以优化视觉编码器,以识别文本丰富的文档图像中的查询特定区域。现有方法通过修改网络架构直接将查询注入模型层,往往难以适应具有有限注释的新数据集。为了解决这个问题,我们引入了QID,一种新颖的、简化的、保持架构的方法,将查询嵌入集成到视觉编码器中,尤其在数据稀缺的微调场景中带来了显著的性能提升。具体来说,我们的方法引入了一个双模块框架:一个查询感知模块生成一个独特的查询向量,以精确引导模型的关注,以及一个查询无关模块捕捉标记之间的位置关系,确保稳健的空间理解。值得注意的是,这两个模块独立于视觉注意力块运行,促进了查询嵌入的针对性学习,并增强了视觉语义识别。我们的方法在多个数据集上使用无OCR的VLM进行实验,尤其是在处理数据稀缺环境中的文本丰富文档时,表现出显著的性能提升。

[14] DiSRT-In-Bed: 基于扩散的床上人体网格恢复仿真到现实转移框架
标题: DiSRT-In-Bed: Diffusion-Based Sim-to-Real Transfer Framework for In-Bed Human Mesh Recovery
作者: Jing Gao / Ce Zheng / Laszlo A. Jeni / Zackory Erickson
原文:   [英文]  
备注: 16 pages, 19 figures. Accepted to CVPR 2025
摘要:
床上人体网格恢复对于多个医疗保健应用至关重要,包括睡眠模式监测、康复支持和压疮预防。然而,由于隐私和费用限制,在该领域收集大量真实世界视觉数据集是困难的,这反过来给训练和部署深度学习模型带来了重大挑战。现有的床上人体网格估计方法通常严重依赖于真实世界数据,限制了它们在不同床上场景中的泛化能力,例如不同的覆盖物和环境设置。为了解决这个问题,我们提出了一种床上人体网格恢复的模拟到真实转移框架,该框架从头顶深度图像中恢复人体网格,利用大规模合成数据以及有限或没有真实世界样本。我们引入了一种扩散模型,以弥合合成数据和真实数据之间的差距,以支持在真实世界床上姿势和身体推断场景中的泛化。广泛的实验和消融研究验证了我们框架的有效性,显示出在各种医疗保健场景中的鲁棒性和适应性显著提高。

[15] 使用卷积神经网络进行情感识别
标题: Emotion Recognition Using Convolutional Neural Networks
作者: Shaoyuan Xu / Yang Cheng / Qian Lin / Jan P. Allebach
原文:   [英文]   [中文]  
备注: None
摘要:
情感在日常生活中扮演着重要角色,因为它帮助人们更高效地交流和理解彼此。面部表情可以分为七类:愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶。如何检测和识别这七种情感在过去十年中成为一个热门话题。在本文中,我们开发了一种情感识别系统,该系统可以通过深度学习在静态图像和实时视频上应用情感识别。 我们从头开始构建了自己的情感识别分类和回归系统,包括数据集收集、数据预处理、模型训练和测试。对于给定的某张图像或实时视频,我们的系统能够显示所有七种情感的分类和回归结果。该系统在两个不同的数据集上进行了测试,准确率超过80%。此外,实时测试结果证明了在实时中实施卷积神经网络以准确高效地检测情感的可行性。

[16] 全面重光:可泛化且一致的单目人像重光与协调
标题: Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization
作者: Junying Wang / Jingyuan Liu / Xin Sun / Krishna Kumar Singh / Zhixin Shu / He Zhang / Jimei Yang / Nanxuan Zhao / Tuanfeng Y. Wang / Simon S. Chen / Ulrich Neumann / Jae Shin Yoon
原文:   [英文]  
备注: Project page:this https URL. Accepted by CVPR 2025
摘要:
本文介绍了综合重光技术,这是第一个能够同时控制和协调来自任何场景中人类图像或视频的任意身体部位的光照的全能方法。由于缺乏数据集,构建这样一个具有广泛适应性的模型极具挑战性,这限制了现有基于图像的重光模型只能应用于特定场景(例如,面部或静态人像)。为了解决这一挑战,我们重新利用了一个预训练的扩散模型作为通用图像先验,并在粗到细的框架中联合建模人类重光和背景协调。为了进一步增强重光的时间一致性,我们引入了一种无监督的时间光照模型,该模型从许多真实世界的视频中学习光照循环一致性,而无需任何真实数据。在推理阶段,我们的时间光照模块通过时空特征混合算法与扩散模型结合,无需额外训练;我们还应用了一种新的引导细化作为后处理,以保留输入图像中的高频细节。在实验中,综合重光技术展示了强大的广泛适应性和光照时间一致性,优于现有的基于图像的人类重光和协调方法。

[17] 用于打印成像流程的页面分类
标题: Page Classification for Print Imaging Pipeline
作者: Shaoyuan Xu / Cheng Lu / Mark Shaw / Peter Bauer / Jan P. Allebach
原文:   [英文]   [中文]  
备注: None
摘要:
如今,数字复印机和打印机被广泛使用。人们最关心的事情之一是复印或打印质量。为了提高质量,我们之前提出了一种基于支持向量机(SVM)的分类方法,用于根据现代复印机和打印机配备的专门为不同类型图像设计的处理管道,将图像分类为仅文本、仅图片或两者混合。然而,在某些其他应用中,我们需要区分超过三类。在本文中,我们开发了一种更先进的基于SVM的分类方法,使用四个新的特征来分类五种类型的图像:文本、图片、混合、收据和高亮。

[18] HALO:基于分层变换的人类对齐端到端图像重定向
标题: HALO: Human-Aligned End-to-end Image Retargeting with Layered Transformations
作者: Yiran Xu / Siqi Xie / Zhuofang Li / Harris Shadmany / Yinxiao Li / Luciano Sbaiz / Miaosen Wang / Junjie Ke / Jose Lezama / Hang Qi / Han Zhang / Jesse Berent / Ming-Hsuan Yang / Irfan Essa / Jia-Bin Huang / Feng Yang
原文:   [英文]  
备注: None
摘要:
图像重定目标在于改变图像的纵横比,同时尽量保持其内容和结构不出现明显的视觉伪影。现有的方法仍然会产生许多伪影,或者无法保持原始内容或结构。为了解决这个问题,我们引入了HALO,这是一种用于图像重定目标的端到端可训练解决方案。由于人类对图像中显著区域的失真比非显著区域更为敏感,HALO将输入图像分解为显著/非显著层,并对不同层应用不同的变形场。为了进一步减少输出图像中的结构失真,我们提出了感知结构相似性损失,该损失衡量输入和输出图像之间的结构相似性,并与人类感知一致。对RetargetMe数据集的定量结果和用户研究表明,HALO达到了最新的技术水平。特别是,我们的方法在用户偏好上平均比基线高出18.4%。

[19] VIP:用于现实世界中人像移除的视频修复流程
标题: VIP: Video Inpainting Pipeline for Real World Human Removal
作者: Huiming Sun / Yikang Li / Kangning Yang / Ruineng Li / Daitao Xing / Yangbo Xie / Lan Fu / Kaiyu Zhang / Ming Chen / Jiaming Ding / Jiang Geng / Jie Cai / Zibo Meng / Chiuman Ho
原文:   [英文]   [中文]  
备注: None
摘要:
在高分辨率视频片段中进行真实世界的人物和行人去除的修复面临重大挑战,特别是在实现高质量结果、确保时间一致性以及处理涉及人类、他们的物品和阴影的复杂对象交互方面。在本文中,我们介绍了VIP(视频修复管道),这是一种用于真实世界人物去除应用的新颖的无提示视频修复框架。VIP通过运动模块增强了最先进的文本到视频模型,并在潜在空间中采用变分自编码器(VAE)进行渐进去噪。此外,我们实施了一种高效的人物及其物品分割方法,以生成精确的掩码。充分的实验结果表明,VIP在各种真实世界场景中实现了卓越的时间一致性和视觉保真度,在具有挑战性的数据集上超越了最先进的方法。我们的主要贡献包括开发了VIP管道、参考帧集成技术以及双融合潜在段精炼方法,所有这些都解决了长时间、高分辨率视频序列中修复的复杂性。

[20] 切片Wasserstein差异在无监督领域自适应的解耦表示和适应网络中的应用
标题: Sliced Wasserstein Discrepancy in Disentangling Representation and Adaptation Networks for Unsupervised Domain Adaptation
作者: Joel Sol / Shadi Alijani / Homayoun Najjaran
原文:   [英文]   [中文]  
备注: 6 pages, 3 figures, submitted to IEEE conference
摘要:
本文介绍了DRANet-SWD,这是一项现有工作的扩展,旨在为无监督领域适应(UDA)解开图像的内容和风格表示。该方法基于DRANet,通过引入切片Wasserstein差异(SWD)作为风格损失来替代传统的Gram矩阵损失。研究了SWD相对于Gram矩阵损失在捕捉领域适应中的风格变化方面的潜在优势。使用数字分类数据集和驾驶场景分割的实验验证了该方法,结果表明DRANet-SWD提高了性能。结果表明,SWD提供了更稳健的特征分布统计比较,从而实现更好的风格适应。这些发现突出了SWD在优化特征对齐和改善跨这些基准的领域适应任务中的有效性。我们的代码可以在这里找到。

[21] 注意力感知的多视角行人跟踪
标题: Attention-Aware Multi-View Pedestrian Tracking
作者: Reef Alturki / Adrian Hilton / Jean-Yves Guillemaut
原文:   [英文]   [中文]  
备注: None
摘要:
尽管多目标跟踪技术最近取得了进展,但遮挡仍然是一个显著的挑战。多摄像头设置通过提供场景的全面覆盖来解决这一挑战。最近的多视角行人检测模型强调了早期融合策略的潜力,将所有视角的特征图投射到一个公共地面平面或鸟瞰视图(BEV),然后进行检测。这一策略已被证明可以提高检测和跟踪性能。然而,透视变换在地面平面上导致显著的失真,影响了行人外观特征的鲁棒性。为了解决这一限制,我们提出了一种新颖的模型,该模型在多视角行人跟踪场景中结合了注意力机制。我们的模型利用早期融合策略进行检测,并采用交叉注意力机制在不同帧中的行人之间建立稳健的关联,同时有效地在帧间传播行人特征,从而为每个行人提供更稳健的特征表示。大量实验表明,我们的模型在Wildtrack数据集上取得了96.1%的IDF1分数,在MultiviewX数据集上取得了85.7%的IDF1分数,优于最先进的模型。

[22] 多设备边缘网络中实时3D人体姿态估计的协作推理
标题: Cooperative Inference for Real-Time 3D Human Pose Estimation in Multi-Device Edge Networks
作者: Hyun-Ho Choi / Kangsoo Kim / Ki-Ho Lee / Kisong Lee
原文:   [英文]   [中文]  
备注: 13 pages, 12 figures
摘要:
在资源受限和动态环境中,由于其高计算复杂度,准确且实时的三维(3D)姿态估计具有挑战性。为了解决这个问题,本研究提出了一种用于移动边缘计算(MEC)网络中实时3D人体姿态估计的新型协同推理方法。在所提出的方法中,多个配备轻量级推理模型的终端设备使用双重置信度阈值来过滤模糊图像。只有经过过滤的图像才会被卸载到具有更强推理模型的边缘服务器进行重新评估,从而在计算和通信限制下提高估计精度。我们从推理精度和端到端延迟的角度对所提出的推理方法的性能进行了数值分析,并制定了一个联合优化问题,以推导出每个设备的最佳置信度阈值和传输时间,目标是在满足所需的端到端延迟约束的同时,最小化平均每关节位置误差(MPJPE)。为了解决这个问题,我们证明了最小化MPJPE等同于最大化所有设备的推理精度之和,将问题分解为可管理的子问题,并提出了一种低复杂度的优化算法以获得近似最优解。实验结果表明,MPJPE和端到端延迟之间存在权衡关系,具体取决于置信度阈值。此外,结果证实,通过最佳选择置信度阈值和传输时间,所提出的协同推理方法在各种MEC环境中始终满足端到端延迟要求的同时,实现了MPJPE的显著降低。

[23] 通过噪声替代矢量量化压缩三维高斯喷射
标题: Compressing 3D Gaussian Splatting by Noise-Substituted Vector Quantization
作者: Haishan Wang / Mohammad Hassan Vali / Arno Solin
原文:   [英文]  
备注: None
摘要:
3D Gaussian Splatting(3DGS)在3D重建中表现出显著的效果,能够实现高质量的实时辐射场渲染。然而,一个主要的挑战是其巨大的存储成本:重建一个单一场景通常需要数百万个高斯斑点,每个斑点由59个浮点参数表示,导致大约1 GB的内存消耗。为了解决这个问题,我们提出了一种压缩方法,通过构建独立的属性码本并仅存储离散的码索引。具体来说,我们采用噪声替代的矢量量化技术来联合训练码本和模型特征,确保梯度下降优化与参数离散化之间的一致性。我们的方法在保持标准3D基准场景的竞争性重建质量的同时,有效地减少了内存消耗(大约45倍)。在不同码本大小上的实验显示了压缩率与图像质量之间的权衡。此外,训练后的压缩模型完全兼容流行的3DGS查看器,并实现了更快的渲染速度,使其非常适合实际应用。

[24] 如何扭曲你的噪声:扩散模型的时间相关噪声先验
标题: How I Warped Your Noise: a Temporally-Correlated Noise Prior for Diffusion Models
作者: Pascal Chang / Jingwei Tang / Markus Gross / Vinicius C. Azevedo
原文:   [英文]   [中文]  
备注: Accepted at ICLR 2024 (Oral)
摘要:
视频编辑和生成方法通常依赖于预训练的基于图像的扩散模型。然而,在扩散过程中,依赖于不能保留视频后续帧中存在的相关性的基本噪声采样技术,会对结果质量产生不利影响。这要么会产生高频闪烁,要么会产生不利于后期处理的纹理粘连伪影。考虑到这一点,我们提出了一种新方法,用于在一系列噪声样本中保留时间相关性。该方法通过一种新颖的噪声表示实现,称为$\int$-噪声(积分噪声),它将单个噪声样本重新解释为一个连续积分的噪声场:像素值不代表离散值,而是像素区域下的无限分辨率噪声的积分。此外,我们提出了一种精心设计的传输方法,使用$\int$-噪声在一系列帧中准确地输送噪声样本,最大化不同帧之间的相关性,同时也保留了噪声特性。我们的结果表明,所提出的$\int$-噪声可用于多种任务,如视频修复、替代渲染和条件视频生成。视频结果请参见此https URL。

[25] SLACK:通过对抗性点注入攻击基于激光雷达的SLAM
标题: SLACK: Attacking LiDAR-based SLAM with Adversarial Point Injections
作者: Prashant Kumar / Dheeraj Vattikonda / Kshitij Madhav Bhat / Kunal Dargan / Prem Kalra
原文:   [英文]   [中文]  
备注: None
摘要:
基于学习的方法在激光雷达中的广泛应用使得自动驾驶车辆容易受到通过对抗性\textit{点注入(PiJ)}的攻击。这对导航和地图生成构成了严重的安全挑战。尽管其重要性显著,但目前尚无主要研究专注于基于学习的对激光雷达SLAM的攻击。我们的工作提出了SLACK,这是一种端到端的深度生成对抗模型,用于在不降低激光雷达质量的情况下攻击激光雷达扫描中的多个点注入。为了实现SLACK,我们设计了一种新颖而简单的自编码器,该自编码器结合了基于分割的注意力的对比学习以实现精确重建。SLACK在\textit{点注入(PiJ)}任务中表现出优于KITTI和CARLA-64数据集上最佳基线的性能,同时保持了准确的扫描质量。我们从定性和定量上展示了使用少量激光雷达点进行的PiJ攻击。它在不降低激光雷达扫描质量的情况下严重降低了导航和地图质量。

[26] 扩展开放词汇动作检测
标题: Scaling Open-Vocabulary Action Detection
作者: Zhen Hao Sia / Yogesh Singh Rawat
原文:   [英文]   [中文]  
备注: None
摘要:
在这项工作中,我们专注于扩展开放词汇的动作检测。现有的动作检测方法主要局限于封闭集场景,并依赖于复杂且参数繁重的架构。将这些模型扩展到开放词汇环境中面临两个关键挑战:(1)缺乏具有大量动作类别的大规模数据集以进行稳健训练,以及(2)对预训练的视觉-语言对比模型进行参数繁重的调整以将其转换为检测模型,存在将额外的非预训练参数过拟合到基础动作类别的风险。首先,我们引入了一种仅使用编码器的多模态视频动作检测模型,减少了对参数繁重的附加组件的依赖。其次,我们引入了一种简单的弱监督训练策略,以利用现有的封闭集动作检测数据集进行预训练。最后,我们摒弃了先前工作中在开放词汇动作检测中使用的基础到新颖的基准,设计了一个新的基准,以在现有的封闭集动作检测数据集上进行评估,而无需将其用于训练,展示了新颖的结果,以作为未来工作的基准。

[27] 具有融合机制的多粒度视觉快速变换器用于皮肤病变分割
标题: Multi-Granularity Vision Fastformer with Fusion Mechanism for Skin Lesion Segmentation
作者: Xuanyu Liu / Huiyun Yao / Jinggui Gao / Zhongyi Guo / Xue Zhang / Yulin Dong
原文:   [英文]   [中文]  
备注: None
摘要:
背景:卷积神经网络(CNN)和视觉变换器(ViT)是医学图像分割中使用的主要技术。然而,CNN局限于局部上下文信息,而ViT的二次复杂性导致显著的计算成本。同时,使模型能够区分不同严重程度的病变边界也是皮肤病变分割中遇到的挑战。目的:本研究旨在优化计算成本与长距离依赖建模之间的平衡,并在不同严重程度的病变中实现出色的泛化能力。方法:我们提出了一种轻量级的U形网络,利用具有融合机制的视觉快速变换器(VFFM-UNet)。我们继承了快速变换器的加性注意机制的优势,结合元素级乘积和矩阵乘积进行全面的特征提取和通道缩减,以节省计算成本。为了准确识别不同严重程度的病变边界,我们设计了融合机制,包括多粒度融合和通道融合,可以在粒度和通道层面处理特征图,以获得不同的上下文信息。结果:在ISIC2017、ISIC2018和PH2数据集上的综合实验表明,VFFM-UNet在参数数量、计算复杂性和分割性能方面优于现有的最先进模型。简而言之,与MISSFormer相比,我们的模型在分割性能上表现更优,同时分别减少了101倍和15倍的参数和计算成本。结论:定量和定性分析均表明,VFFM-UNet通过在参数数量、计算复杂性和分割性能之间达到理想平衡,设立了新的基准,与现有的最先进模型相比。

[28] NuWa: 为边缘设备设计轻量化任务特定视觉变换器
标题: NuWa: Deriving Lightweight Task-Specific Vision Transformers for Edge Devices
作者: Ziteng Wei / Qiang He / Bing Li / Feifei Chen / Yun Yang
原文:   [英文]   [中文]  
备注: 8 pages, 12 figures, 6 tables
摘要:
视觉变换器(ViTs)在计算机视觉任务中表现出色,但在满足边缘设备的多样化需求方面缺乏灵活性。一个重要问题是,ViTs经过预训练以涵盖广泛的任务,对于通常只需要ViT部分知识来完成特定任务的边缘设备来说是\textit{过度合格}的。它们在这些边缘设备上的任务特定准确性表现不佳。我们发现,专注于设备特定任务的小型ViTs可以提高模型准确性,同时加速模型推理。本文提出了NuWa,一种从基础ViT中派生出小型ViTs以满足边缘设备特定任务需求的方法。NuWa可以将从基础ViT中提取的任务特定知识转移到小型ViTs中,充分利用边缘设备上的有限资源,以最大化模型准确性并确保推理延迟。对三个基础ViTs在三个公共数据集上的实验表明,与最先进的解决方案相比,NuWa将模型准确性提高了最多$\text{11.83}\%$,并将模型推理加速了1.29$\times$ - 2.79$\times$。代码可在此https URL上获取以进行复现。

[29] FontGuard:一种利用深度字体知识的稳健字体水印方法
标题: FontGuard: A Robust Font Watermarking Approach Leveraging Deep Font Knowledge
作者: Kahim Wong / Jicheng Zhou / Kemou Li / Yain-Whar Si / Xiaowei Wu / Jiantao Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
随着人工智能生成内容的激增,源追踪、版权保护等取证和安全问题引发了重大关注,这突显了有效水印技术的必要性。基于字体的文本水印已成为嵌入信息的有效解决方案,可以确保生成文本内容的版权、可追溯性和合规性。现有的字体水印方法通常忽视了基本的字体知识,导致水印字体质量低下和嵌入容量有限。这些方法也容易受到现实世界的失真、低分辨率字体和不准确字符分割的影响。在本文中,我们介绍了FontGuard,这是一种新颖的字体水印模型,利用了字体模型和语言引导的对比学习的能力。与之前仅关注像素级别改变的方法不同,FontGuard通过改变隐藏的风格特征来修改字体,从而在嵌入水印时获得更好的字体质量。我们还利用字体流形来增加我们提出的方法的嵌入容量,通过生成与原始字体非常相似的大量字体变体。此外,在解码器中,我们采用图像-文本对比学习来重建嵌入的比特,这可以在各种现实世界的传输失真中实现理想的鲁棒性。FontGuard在合成、跨媒体和在线社交网络失真下的解码准确性分别提高了5.4%、7.4%和5.8%,同时在LPIPS指标上提高了视觉质量52.7%。此外,FontGuard独特地允许为未见过的字体生成水印字体,而无需重新训练网络。代码和数据集可在此https URL获取。

[30] 使用基于注意力的深度学习模型联合检索云特性
标题: Joint Retrieval of Cloud properties using Attention-based Deep Learning Models
作者: Zahid Hassan Tushar / Adeleke Ademakinwa / Jianwu Wang / Zhibo Zhang / Sanjay Purushotham
原文:   [英文]   [中文]  
备注: 6 Pages, 4 figures, to be published in 2025 IEEE International Geoscience and Remote Sensing Symposium (IGARSS 2025)
摘要:
准确的云属性反演对于理解云的行为及其对气候的影响至关重要,包括在天气预报、气候建模和估算地球辐射平衡中的应用。独立像素近似(IPA)是一种广泛使用的基于物理的简化辐射传输计算的方法,它假设每个像素与其邻居是独立的。虽然计算效率高,但IPA有显著的局限性,例如来自三维辐射效应的不准确性、云边缘的误差以及对重叠或异质云场的无效性。最近基于人工智能/机器学习的深度学习模型通过利用像素间的空间关系提高了反演精度。然而,这些模型通常内存密集,仅反演单一云属性,或在联合属性反演时表现不佳。为了解决这些挑战,我们引入了带注意力模块的CloudUNet(CAM),这是一种紧凑的基于UNet的模型,采用注意力机制来减少厚重、重叠云区域的误差,并使用专门的损失函数进行云光学厚度(COT)和云有效半径(CER)的联合反演。在大涡模拟(LES)数据集上的实验表明,我们的CAM模型优于最先进的深度学习方法,将COT的平均绝对误差(MAE)减少了34%,CER减少了42%,并且与IPA方法相比,COT和CER反演的MAE分别降低了76%和86%。

[31] 用于医学视觉问答的层次化建模与交叉注意力融合
标题: Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion
作者: Junkai Zhang / Bin Li / Shoujun Zhou / Yue Du
原文:   [英文]  
备注: None
摘要:
医学视觉问答(Med-VQA)通过使用医学图像回答临床问题,从而辅助诊断。设计MedVQA系统在协助临床诊断和提高诊断准确性方面具有重要意义。在此基础上,分层医学VQA通过将医学问题组织成分层结构并进行特定层级的预测来处理细粒度的区分,从而扩展了医学VQA。最近,许多研究提出了分层MedVQA任务并建立了数据集,但仍然存在几个问题:(1)不完善的分层建模导致问题层级之间的区分不佳,造成语义在层级间的碎片化。(2)过度依赖基于Transformer的跨模态自注意力融合方法中的隐式学习,这在医学场景中模糊了关键的局部语义关联。为了解决这些问题,本研究提出了一种HiCA-VQA方法,包括两个模块:用于细粒度医学问题的分层提示和分层答案解码器。分层提示模块预先将分层文本提示与图像特征对齐,以指导模型根据问题类型关注特定的图像区域,而分层解码器则对不同层级的问题进行单独预测,以提高各个粒度的准确性。该框架还结合了一个交叉注意力融合模块,其中图像作为查询,文本作为键值对。在Rad-Restruct基准上的实验表明,HiCA-VQA框架在回答分层细粒度问题方面优于现有的最先进方法。本研究为分层视觉问答系统提供了一条有效的途径,推进了医学图像理解。

[32] 在机器学习世界中的经典视频去噪:稳健、快速且可控
标题: Classic Video Denoising in a Machine Learning World: Robust, Fast, and Controllable
作者: Xin Jin / Simon Niklaus / Zhoutong Zhang / Zhihao Xia / Chunle Guo / Yuting Yang / Jiawen Chen / Chongyi Li
原文:   [英文]  
备注: Homepage: this https URL
摘要:
去噪是许多视频处理流程中的关键步骤,例如在交互式编辑中,高质量、速度和用户控制是至关重要的。尽管最近的方法通过深度学习在去噪质量上取得了显著的改进,但由于训练数据分布与真实世界视频中各种噪声模式之间的差异,这些方法容易出现意外的失败。这些方法也往往较慢且缺乏用户控制。相比之下,传统的去噪方法在自然视频上表现可靠,并且在现代硬件上运行相对较快。然而,它们需要为每个输入视频手动调整参数,这不仅繁琐而且需要技巧。我们通过提出一种基于传统方法的可微去噪流程来弥合这两种范式之间的差距。然后训练一个神经网络来预测每个特定输入的最佳去噪参数,从而实现一种既稳健又高效的方法,同时支持用户控制。

[33] 模型揭示缓存内容:基于剖析的特征重用用于视频扩散模型
标题: Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models
作者: Xuran Ma / Yexin Liu / Yaofu Liu / Xianfeng Wu / Mingzhe Zheng / Zihao Wang / Ser-Nam Lim / Harry Yang
原文:   [英文]   [中文]  
备注: None
摘要:
最近在扩散模型方面的进展展示了其在视频生成中的显著能力。然而,计算强度仍然是实际应用中的一个重大挑战。虽然特征缓存已被提出以减少扩散模型的计算负担,但现有方法通常忽视了各个模块的重要性差异,导致次优的重用和输出质量下降。为此,我们通过引入ProfilingDiT来解决这一差距,这是一种新颖的自适应缓存策略,明确区分了前景和背景集中的模块。通过对扩散模型中注意力分布的系统分析,我们揭示了一个关键观察:1)大多数层对前景或背景区域表现出一致的偏好。2)预测噪声在初始阶段显示出较低的跨步相似性,但随着去噪的进行而趋于稳定。这一发现启发我们制定了一种选择性缓存策略,该策略在动态前景元素上保留完整计算,同时高效缓存静态背景特征。我们的方法在保持视觉保真度的同时大幅减少了计算开销。大量实验表明,我们的框架在保持全面质量指标的视觉保真度的同时,实现了显著的加速(例如,Wan2.1加速2.01倍),确立了一种高效视频生成的可行方法。

[34] TokenFLEX:灵活视觉标记推理的统一VLM训练
标题: TokenFLEX: Unified VLM Training for Flexible Visual Tokens Inference
作者: Junshan Hu / Jialiang Mao / Zhikang Liu / Zhongpu Xia / Peng Jia / Xianpeng Lang
原文:   [英文]   [中文]  
备注: None
摘要:
传统的视觉-语言模型(VLMs)通常使用固定数量的视觉标记,而不考虑任务的复杂性。这种一刀切的策略带来了显著的低效:在较简单的任务中使用过多的标记会导致不必要的计算开销,而在更复杂的情境中标记不足则会影响细粒度的视觉理解。为了解决这些限制,我们提出了TokenFLEX,这是一种创新且可适应的视觉-语言框架,可以将图像编码为可变数量的标记,以便与大型语言模型(LLM)高效集成。我们的方法基于两个关键创新。首先,我们提出了一种新颖的训练范式,通过在训练过程中随机调节标记数量来提高在不同数量视觉标记下的性能。其次,我们设计了一个轻量级的视觉标记投影器,结合了自适应池化层和SwiGLU,允许灵活地对视觉标记进行下采样,并自适应地选择适合特定标记数量的特征。全面的实验表明,TokenFLEX在各种标记数量下始终优于其固定标记的对手,在八个视觉-语言基准上平均提升了1.6%、1.0%和0.4%(分别对应64、144和256个标记)。这些结果强调了TokenFLEX在保持高性能视觉-语言理解的同时,具有显著的灵活性。

[35] NuScenes-SpatialQA:用于自动驾驶中视觉语言模型的空间理解和推理基准
标题: NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving
作者: Kexin Tian / Jingrui Mao / Yunlong Zhang / Jiwan Jiang / Yang Zhou / Zhengzhong Tu
原文:   [英文]   [中文]  
备注: None
摘要:
最近在视觉-语言模型(VLMs)方面的进展显示出在自动驾驶任务中的巨大潜力。然而,它们在空间理解和推理——自动驾驶的关键能力方面仍然表现出显著的局限性。值得注意的是,目前没有任何现有的基准系统性地评估VLMs在驾驶场景中的空间推理能力。为填补这一空白,我们提出了NuScenes-SpatialQA,这是第一个大规模的基于真实数据的问答(QA)基准,专门用于评估VLMs在自动驾驶中的空间理解和推理能力。该基准建立在NuScenes数据集之上,通过自动化的3D场景图生成管道和QA生成管道构建。该基准系统性地评估了VLMs在多个维度上的空间理解和推理性能。利用这个基准,我们对各种VLMs进行了广泛的实验,包括一般模型和空间增强模型,提供了它们在自动驾驶中的空间能力的首次全面评估。令人惊讶的是,实验结果显示空间增强的VLM在定性QA中表现优异,但在定量QA中并未表现出竞争力。总体而言,VLMs在空间理解和推理方面仍面临相当大的挑战。

[36] RingMoE: 用于通用遥感图像解读的多模态专家混合多模态基础模型
标题: RingMoE: Mixture-of-Modality-Experts Multi-Modal Foundation Models for Universal Remote Sensing Image Interpretation
作者: Hanbo Bi / Yingchao Feng / Boyuan Tong / Mengyu Wang / Haichen Yu / Yongqiang Mao / Hao Chang / Wenhui Diao / Peijin Wang / Yue Yu / Hanyang Peng / Yehong Zhang / Kun Fu / Xian Sun
原文:   [英文]   [中文]  
备注: None
摘要:
基础模型的快速发展以自监督的方式革新了视觉表示学习。然而,它们在遥感(RS)中的应用仍然受到一个基本差距的限制:现有模型主要处理单一或有限的模态,忽视了RS观测本质上的多模态特性。光学、合成孔径雷达(SAR)和多光谱数据提供了互补的见解,显著减少了单一来源分析中固有的模糊性和不确定性。为弥合这一差距,我们引入了RingMoE,一个统一的多模态RS基础模型,拥有147亿参数,基于来自九颗卫星的4亿多模态RS图像进行预训练。RingMoE包含三个关键创新:(1)分层专家混合(MoE)架构,包括模态专用、协作和共享专家,有效地建模模态内知识,同时捕捉跨模态依赖关系,以减轻模态表示之间的冲突;(2)物理信息自监督学习,将传感器特定的辐射特性明确嵌入到预训练目标中;(3)动态专家剪枝,实现从147亿到10亿参数的自适应模型压缩,同时保持性能,促进地球观测应用中的高效部署。在跨越六个关键RS任务(即分类、检测、分割、跟踪、变化检测和深度估计)的23个基准上进行评估,RingMoE优于现有的基础模型并设定了新的SOTA,展示了从单模态到多模态场景的显著适应性。除了理论进展,它已在多个领域部署和试验,包括应急响应、土地管理、海洋科学和城市规划。

[37] 寻找反射点:去除大规模开源图像数据集中数据增强伪影的图像去填充方法
标题: Finding the Reflection Point: Unpadding Images to Remove Data Augmentation Artifacts in Large Open Source Image Datasets for Machine Learning
作者: Lucas Choi / Ross Greer
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们解决了一个与机器学习数据集整理相关的新颖图像修复问题:检测和去除噪声镜像填充伪影。虽然像填充这样的数据增强技术对于标准化图像尺寸是必要的,但它们可能会引入伪影,从而在数据集跨领域使用时降低模型评估的质量。我们提出了一种系统算法,通过最小均方误差方法结合阈值处理来精确划定反射边界,并去除反射填充。我们的方法能够有效识别真实内容与其镜像部分之间的过渡,即使在存在压缩或插值噪声的情况下。我们在SHEL5k数据集上展示了我们算法的有效性,在使用OWLv2进行零样本目标检测任务时表现出显著的性能提升,硬帽检测的平均精度从0.47提高到0.61,人物检测从0.68提高到0.73。通过解决填充区域中的标注不一致和扭曲对象问题,我们的方法增强了数据集的完整性,使得在计算机视觉任务中能够进行更可靠的模型评估。

[38] REJEPA:一种用于高效遥感图像检索的新型联合嵌入预测架构
标题: REJEPA: A Novel Joint-Embedding Predictive Architecture for Efficient Remote Sensing Image Retrieval
作者: Shabnam Choudhury / Yash Salunkhe / Sarthak Mehrotra / Biplab Banerjee
原文:   [英文]   [中文]  
备注: 14 pages
摘要:
遥感图像档案的快速扩展要求开发强大且高效的基于内容的图像检索技术(RS-CBIR)。本文介绍了REJEPA(联合嵌入预测架构检索),这是一种创新的自监督框架,专为单模态RS-CBIR设计。REJEPA利用空间分布的上下文标记编码来预测目标标记的抽象表示,有效捕捉高层语义特征并消除不必要的像素级细节。与专注于像素重建的生成方法或依赖负样本对的对比技术不同,REJEPA在特征空间中运行,与像素重建基线如掩码自动编码器(MAE)相比,计算复杂度降低了40-60%。为了保证强大且多样的表示,REJEPA结合了方差-不变性-协方差正则化(VICReg),通过促进特征多样性和减少冗余来防止编码器崩溃。该方法在广泛的RS基准BEN-14K(多光谱和SAR数据)、FMoW-RGB和FMoW-Sentinel上,与包括CSMAE-SESD、Mask-VLM、SatMAE、ScaleMAE和SatMAE++在内的著名SSL技术相比,检索准确率估计提高了5.1%(BEN-14K S1)、7.4%(BEN-14K S2)、6.0%(FMoW-RGB)和10.1%(FMoW-Sentinel)。通过在传感器模态上的有效泛化,REJEPA确立了自己作为高效、可扩展和精确的RS-CBIR的传感器无关基准,解决了如分辨率变化、高目标密度和复杂背景等挑战,同时具备计算效率。

[39] 使用深度学习和多传感器融合的电动滑板车实时道路障碍物检测
标题: Real-Time Roadway Obstacle Detection for Electric Scooters Using Deep Learning and Multi-Sensor Fusion
作者: Zeyang Zheng / Arman Hosseini / Dong Chen / Omid Shoghli / Arsalan Heydarian
原文:   [英文]  
备注: Accepted at ASCE International Conference on Computing in Civil Engineering (i3ce)
摘要:
随着电动滑板车在城市地区的普及,交通事故和伤害的发生率也在上升,这主要是由于其小轮子、缺乏悬挂系统以及对不平路面的敏感性。尽管基于深度学习的目标检测已被广泛用于提高汽车安全性,但其在电动滑板车障碍物检测中的应用尚未被探索。本研究介绍了一种新颖的电动滑板车地面障碍物检测系统,该系统集成了RGB相机和深度相机,以增强实时道路危险检测。此外,惯性测量单元(IMU)测量线性垂直加速度以识别表面振动,从而指导选择六种障碍物类别:树枝、井盖、坑洞、松果、无方向裂缝和截断圆顶。所有传感器,包括RGB相机、深度相机和IMU,均集成在Intel RealSense Camera D435i中。一个由YOLO驱动的深度学习模型检测道路危险,并利用深度数据估计障碍物的接近程度。在七小时的自然骑行数据集上进行评估,该系统实现了0.827的高平均精度(mAP),并展示了出色的实时性能。该方法通过先进的计算机视觉和数据融合为提高电动滑板车的安全性提供了有效的解决方案。数据集可通过此https URL访问,项目代码托管在此https URL上。

[40] 基于检测的单个RGBD图像的部件级可动物体重建
标题: Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image
作者: Yuki Kawana / Tatsuya Harada
原文:   [英文]   [中文]  
备注: Accepted to NeurIPS 2023
摘要:
我们提出了一种端到端可训练的跨类别方法,用于从单个RGBD图像重建多个人工关节物体,重点在于部件级别的形状重建以及姿态和运动学估计。我们不同于以往依赖于学习实例级潜在空间的方法,这些方法专注于具有预定义部件数量的人工关节物体。相反,我们提出了一种新颖的替代方法,采用部件级别的表示,将实例表示为检测到的部件的组合。虽然我们的“检测后分组”方法能够有效处理具有多样部件结构和不同部件数量的实例,但它面临着误报、部件大小和比例变化以及由于端到端训练导致的模型规模增加等问题。为了解决这些挑战,我们提出了1)测试时运动学感知的部件融合,以提高检测性能并抑制误报,2)各向异性尺度归一化用于部件形状学习,以适应各种部件大小和比例,3)在特征空间和输出空间之间进行交叉细化的平衡策略,以提高部件检测同时保持模型规模。在合成数据和真实数据上的评估表明,我们的方法成功重建了以往工作无法处理的多种结构的多个实例,并在形状重建和运动学估计方面优于之前的工作。

[41] MIMRS:遥感中掩码图像建模的综述
标题: MIMRS: A Survey on Masked Image Modeling in Remote Sensing
作者: Shabnam Choudhury / Akhil Vasim / Michael Schmitt / Biplab Banerjee
原文:   [英文]   [中文]  
备注: 6 pages
摘要:
掩码图像建模(MIM)是一种自监督学习技术,涉及对图像的部分进行掩码处理,例如像素、图块或潜在表示,并训练模型通过可见的上下文来预测缺失的信息。这种方法已经成为自监督学习的基石,通过利用未标注的数据进行预训练,开启了视觉理解的新可能性。在遥感领域,MIM解决了由于云层覆盖、遮挡和传感器限制导致的数据不完整问题,使得云层去除、多模态数据融合和超分辨率等应用成为可能。通过综合和批判性地分析最近的进展,这项调查(MIMRS)是首次努力绘制遥感领域掩码图像建模的全景。我们重点介绍了最先进的方法、应用和未来的研究方向,提供了一个基础性的综述,以指导这一快速发展的领域中的创新。

[42] JPEG AI图像的三种取证线索
标题: Three Forensic Cues for JPEG AI Images
作者: Sandra Bergmann / Fabian Brand / Christian Riess
原文:   [英文]  
备注: None
摘要:
JPEG标准取得了巨大的成功。目前,第一个基于AI的压缩方法“JPEG AI”将被标准化。JPEG AI带来了显著的好处。JPEG AI图像在比传统JPEG压缩图像低一个数量级的比特率下表现出令人印象深刻的图像质量。然而,对JPEG AI的取证分析必须完全重新考虑:传统JPEG的取证工具无法转移到JPEG AI上,并且JPEG AI的伪影很容易与人工生成图像(“深度伪造”)的伪影混淆。这就需要新的取证方法来检测和区分JPEG AI图像。在这项工作中,我们迈出了构建JPEG AI取证工具集的第一步。我们为JPEG AI的取证算法提出了三个线索。这些算法解决了三个取证问题:首先,我们展示了JPEG AI的预处理在颜色通道中引入了未压缩图像中不存在的相关性。其次,我们展示了JPEG AI图像的重复压缩导致失真差异的减小。这可以用于检测重新压缩,其精神类似于一些经典的JPEG取证方法。第三,我们展示了JPEG AI图像在潜在空间中的量化可以用来区分经过JPEG AI压缩的真实图像和合成生成的图像。所提出的方法对于取证分析师是可解释的,我们希望它们能激发对AI压缩图像取证的进一步研究。

[43] Mamba 作为桥梁:视觉基础模型与视觉语言模型在领域泛化语义分割中的结合
标题: Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation
作者: Xin Zhang / Robby T. Tan
原文:   [英文]   [中文]  
备注: Accepted to CVPR 2025
摘要:
视觉基础模型(VFMs)和视觉-语言模型(VLMs)由于其强大的泛化能力,在领域泛化语义分割(DGSS)中受到关注。然而,现有的DGSS方法通常仅依赖于VFMs或VLMs中的一种,忽视了它们的互补优势。VFMs(例如DINOv2)擅长捕捉细粒度特征,而VLMs(例如CLIP)提供强大的文本对齐能力,但在粗粒度上表现不佳。尽管它们具有互补优势,但通过注意力机制有效整合VFMs和VLMs是具有挑战性的,因为增加的补丁标记使长序列建模变得复杂。为了解决这个问题,我们提出了MFuser,一种新颖的基于Mamba的融合框架,能够有效结合VFMs和VLMs的优势,同时在序列长度上保持线性可扩展性。MFuser由两个关键组件组成:MVFuser,作为一个共同适配器,通过捕捉序列和空间动态来联合微调两个模型;以及MTEnhancer,一个混合注意力-Mamba模块,通过结合图像先验来优化文本嵌入。我们的方法在不产生显著计算开销的情况下实现了精确的特征定位和强大的文本对齐。大量实验表明,MFuser显著优于最先进的DGSS方法,在合成到真实和真实到真实基准上分别实现了68.20 mIoU和71.87 mIoU。代码可在此https URL获取。

[44] Endo3R:从动态单目内窥镜视频进行统一在线重建
标题: Endo3R: Unified Online Reconstruction from Dynamic Monocular Endoscopic Video
作者: Jiaxin Guo / Wenzhen Dong / Tianyu Huang / Hao Ding / Ziyi Wang / Haomin Kuang / Qi Dou / Yun-Hui Liu
原文:   [英文]   [中文]  
备注: None
摘要:
从单目手术视频重建三维场景可以增强外科医生的感知,因此在各种计算机辅助手术任务中起着至关重要的作用。然而,由于内窥镜视频中固有的问题,如动态变形和无纹理表面,实现尺度一致的重建仍然是一个未解决的挑战。尽管最近取得了一些进展,目前的方法要么依赖于校准或仪器先验来估计尺度,要么采用类似SfM的多阶段流程,导致误差累积并需要离线优化。在本文中,我们提出了Endo3R,这是一种用于从单目手术视频进行在线尺度一致重建的统一三维基础模型,无需任何先验或额外优化。我们的模型通过预测全局对齐的点图、尺度一致的视频深度和相机参数来统一任务,而无需任何离线优化。我们方法的核心贡献是通过一种不确定性感知的双重记忆机制,将最近的成对重建模型的能力扩展到长期增量动态重建。该机制维护了短期动态和长期空间一致性的历史标记。值得注意的是,为了解决手术场景的高度动态特性,我们通过Sampson距离测量标记的不确定性,并过滤掉不确定性高的标记。关于缺乏具有真实深度和相机姿态的内窥镜数据集,我们进一步设计了一种具有新颖动态感知流损失的自监督机制。在SCARED和Hamlyn数据集上的大量实验表明,我们在零样本手术视频深度预测和相机姿态估计方面具有优越的性能和在线效率。项目页面:this https URL。

[45] 从ChatGPT到DeepSeek AI:AI语言模型的演变、偏离及未来影响的综合分析
标题: From ChatGPT to DeepSeek AI: A Comprehensive Analysis of Evolution, Deviation, and Future Implications in AI-Language Models
作者: Simrandeep Singh / Shreya Bansal / Abdulmotaleb El Saddik / Mukesh Saini
原文:   [英文]   [中文]  
备注: 10 pages, 1 figure, 4 tables
摘要:
人工智能(AI)的快速发展已经重塑了自然语言处理(NLP)领域,出现了像OpenAI的ChatGPT和DeepSeek AI这样的模型。虽然ChatGPT为会话式AI奠定了坚实的基础,但DeepSeek AI在架构、性能和伦理考虑方面引入了显著的改进。本文详细分析了从ChatGPT到DeepSeek AI的演变过程,重点介绍了它们的技术差异、实际应用以及对AI发展的更广泛影响。为了评估它们的能力,我们使用预定义的多选题集在多个领域进行了案例研究,评估了每个模型的优点和局限性。通过审视这些方面,我们提供了关于AI未来发展轨迹的宝贵见解,探讨了其变革行业的潜力以及改进AI驱动语言模型的关键研究方向。

[46] 基于肌电图的手势识别:用于增强时空动态的层次特征提取
标题: Electromyography-Based Gesture Recognition: Hierarchical Feature Extraction for Enhanced Spatial-Temporal Dynamics
作者: Jungpil Shin / Abu Saleh Musa Miah / Sota Konnai / Shu Hoshitaka / Pankoo Kim
原文:   [英文]   [中文]  
备注: None
摘要:
使用多通道表面肌电图(sEMG)进行手势识别具有挑战性,因为预测不稳定且时间变化特征增强效率低下。为了克服基于信号的时间变化特征问题,我们提出了一种轻量级的挤压-激励深度学习多流空间时间动态时间变化特征提取方法,以构建一个有效的基于sEMG的手势识别系统。所提出模型的每个分支都旨在提取层次特征,捕捉全局和详细的时空关系,以确保特征的有效性。第一个分支利用双向时间卷积网络(Bi-TCN),专注于通过建模过去和未来的时间上下文来捕捉长期时间依赖性,提供手势动态的整体视图。第二个分支结合了一维卷积层、可分离卷积神经网络(CNN)和挤压-激励(SE)块,有效地提取时空特征,同时强调关键特征通道,增强特征相关性。第三个分支结合了时间卷积网络(TCN)和双向长短时记忆网络(BiLSTM),捕捉双向时间关系和时间变化模式。所有分支的输出通过连接融合,以捕捉数据中的细微变化,然后通过通道注意模块进行优化,选择性地关注最具信息量的特征,同时提高计算效率。所提出的模型在Ninapro DB2、DB4和DB5数据集上进行了测试,分别达到了96.41%、92.40%和93.34%的准确率。这些结果展示了该系统处理复杂sEMG动态的能力,为假肢控制和人机界面技术提供了进步,并对辅助技术具有重要意义。

[47] 解锁神经透明性:用于阿尔茨海默症检测的可解释人工智能的雅可比映射
标题: Unlocking Neural Transparency: Jacobian Maps for Explainable AI in Alzheimer's Detection
作者: Yasmine Mustafa / Mohamed Elmahallawy / Tie Luo
原文:   [英文]   [中文]  
备注: None
摘要:
阿尔茨海默病(AD)导致认知能力逐渐下降,因此早期检测对于有效干预至关重要。尽管深度学习模型在AD诊断中表现出高准确性,但其缺乏可解释性限制了临床信任和应用。本文介绍了一种新颖的预模型方法,在多模态框架中利用雅可比映射(JM)来增强AD检测的可解释性和可信度。通过捕捉局部脑容量变化,JM在模型预测与AD的已知神经解剖学生物标志物之间建立了有意义的关联。我们通过实验验证了JM,比较了在JM上训练的3D CNN与在传统预处理数据上训练的3D CNN,结果显示前者具有更高的准确性。我们还采用3D Grad-CAM分析提供视觉和定量见解,进一步展示了改进的可解释性和诊断可靠性。

[48] 撞击时刻很重要:HybridMamba用于交通监控视频中的细粒度时间定位
标题: Crash Time Matters: HybridMamba for Fine-Grained Temporal Localization in Traffic Surveillance Footage
作者: Ibne Farabi Shihab / Anuj Sharma
原文:   [英文]   [中文]  
备注: None
摘要:
在长时监控视频中检测交通事故对于紧急响应和基础设施规划至关重要,但由于事故事件的短暂和稀有性,这一任务仍然困难。我们介绍了HybridMamba,这是一种新颖的架构,将视觉变压器与状态空间时间建模相结合,以实现精确的事故时间定位。我们的方法使用多级令牌压缩和分层时间处理,在保持计算效率的同时不牺牲时间分辨率。在爱荷华州交通运输部的大规模数据集上进行评估,HybridMamba实现了1.50秒的平均绝对误差,其中65.2%的预测在真实值的一秒内。它比最近的视频-语言模型如TimeChat和VideoLLaMA2的表现高出最多2.8秒,同时使用的参数显著更少。我们的结果表明,在从2到40分钟的不同条件下的视频中,HybridMamba具有很强的泛化能力。HybridMamba为交通监控中的细粒度时间定位提供了一种稳健且高效的解决方案。代码将在发表时发布。

[49] 使用Zernike矩在平面图数字化中的旋转不变性
标题: Rotation Invariance in Floor Plan Digitization using Zernike Moments
作者: Marius Graumann / Jan Marius Stürmer / Tobias Koch
原文:   [英文]   [中文]  
备注: 17 pages, 5 figures
摘要:
如今,许多旧的平面图以打印形式存在或存储为扫描的光栅图像。在扫描过程中可能会出现轻微的旋转或偏移。将这种形式的平面图转换为机器可读的形式以便进一步使用,仍然是一个问题。因此,我们提出了一个端到端的流程,该流程对图像进行预处理,并利用一种新方法从预处理后的图像中创建区域邻接图(RAG)并预测其节点。通过在RAG特征提取中加入归一化步骤,我们显著提高了RAG特征计算的旋转不变性。此外,应用我们的方法可以提高旋转数据的F1分数和IoU。此外,我们提出了一种墙体分割算法,用于将墙体划分为与相应房间相关的段。

[50] 使用学习的关键点检测器和描述符,通过地面摄像头和特征丰富的工业地面进行机器人定位
标题: Robot Localization Using a Learned Keypoint Detector and Descriptor with a Floor Camera and a Feature Rich Industrial Floor
作者: Piet Brömmel / Dominik Brämer / Oliver Urbann / Diana Kleingarn
原文:   [英文]  
备注: None
摘要:
移动机器人定位依赖于环境中良好特征的可用性。像激光雷达这样的传感器系统很受欢迎,但也可以从地面图像中提取独特的特征。本文提出了关键点定位框架(KOALA),该框架利用深度神经网络从工业地板中提取足够的特征,以实现无需可读标记的精确定位。为此,我们使用了一种可以像普通工业地板一样廉价生产的地板覆盖物。尽管我们没有使用任何过滤、先验或时间信息,但我们可以在75.7%的图像中估计出我们的位置,平均位置误差为2厘米,旋转误差为2.4%。因此,即使在机器人移动时,机器人绑架问题也可以在每一帧中以高精度解决。此外,我们展示了我们的框架结合我们的检测器和描述符能够优于可比的方法。

[51] SARLANG-1M:SAR图像理解中视觉-语言建模的基准
标题: SARLANG-1M: A Benchmark for Vision-Language Modeling in SAR Image Understanding
作者: Yimin Wei / Aoran Xiao / Yexian Ren / Yuting Zhu / Hongruixuan Chen / Junshi Xia / Naoto Yokoya
原文:   [英文]   [中文]  
备注: None
摘要:
合成孔径雷达(SAR)是一种重要的遥感技术,能够在任何天气条件下进行昼夜观测,具有强大的地表穿透能力,用于精确和连续的环境监测和分析。然而,由于其复杂的物理成像机制和与人类感知的显著视觉差异,SAR图像的解读仍然具有挑战性。最近,视觉-语言模型(VLMs)在RGB图像理解方面表现出显著的成功,提供了强大的开放词汇解释和灵活的语言交互能力。然而,由于训练分布中缺乏SAR特定知识,它们在SAR图像上的应用受到严重限制,导致性能不佳。为了解决这一限制,我们引入了SARLANG-1M,这是一个专为多模态SAR图像理解而设计的大规模基准,主要侧重于将SAR与文本模态相结合。SARLANG-1M包含来自全球59个以上城市的超过100万对高质量SAR图像-文本对。它具有分层分辨率(从0.1到25米不等)、细粒度语义描述(包括简洁和详细的标题)、多样的遥感类别(1,696种对象类型和16种地表覆盖类别),以及跨越七个应用和1,012种问题类型的多任务问答对。在主流VLMs上的广泛实验表明,通过SARLANG-1M进行微调显著提升了它们在SAR图像解读中的性能,达到了与人类专家相当的水平。数据集和代码将在此https URL上公开提供。

[52] TQD-Track:用于3D多目标跟踪的时间查询去噪
标题: TQD-Track: Temporal Query Denoising for 3D Multi-Object Tracking
作者: Shuxiao Ding / Yutong Yang / Julian Wiederer / Markus Braun / Peizheng Li / Juergen Gall / Bin Yang
原文:   [英文]   [中文]  
备注: None
摘要:
查询去噪已成为基于DETR检测器的标准训练策略,通过解决收敛速度慢的问题。此外,查询去噪可以用于增加训练样本的多样性,以模拟复杂场景,这对于多目标跟踪(MOT)至关重要,显示出其在MOT应用中的潜力。现有方法将查询去噪整合到基于注意力的跟踪范式中。然而,由于去噪过程仅发生在单帧内,它无法帮助跟踪器学习与时间相关的信息。此外,查询去噪中的注意力掩码阻止了去噪和对象查询之间的信息交换,限制了其在使用自注意力改善关联方面的潜力。为了解决这些问题,我们提出了TQD-Track,它引入了专为MOT设计的时间查询去噪(TQD),使去噪查询能够携带时间信息和实例特定的特征表示。我们在去噪查询上引入了多种噪声类型,以模拟MOT中的现实世界挑战。我们分析了我们提出的TQD在不同跟踪范式中的表现,发现具有显式学习数据关联模块的范式,例如基于检测的跟踪或交替检测和关联,受益于TQD的幅度更大。对于这些范式,我们进一步在关联模块中设计了一个关联掩码,以确保在推理过程中轨迹和检测查询之间的一致交互。在nuScenes数据集上的大量实验表明,我们的方法通过仅改变训练过程,持续增强了不同的跟踪方法,尤其是具有显式关联模块的范式。

[53] FaR:通过概念融合和局部优化增强多概念文本到图像的扩散
标题: FaR: Enhancing Multi-Concept Text-to-Image Diffusion via Concept Fusion and Localized Refinement
作者: Gia-Nghia Tran / Quang-Huy Che / Trong-Tai Dam Vu / Bich-Nga Pham / Vinh-Tiep Nguyen / Trung-Nghia Le / Minh-Triet Tran
原文:   [英文]   [中文]  
备注: None
摘要:
在文本到图像任务中生成多个新概念仍然是一个具有挑战性的问题。当前的方法在少量样本训练时常常过拟合,并且在属性泄漏方面表现不佳,特别是对于类别相似的主体(例如,两只特定的狗)。在本文中,我们介绍了Fuse-and-Refine (FaR),这是一种通过两个关键贡献来解决这些挑战的新方法:概念融合技术和局部精细化损失函数。概念融合通过将参考主体从背景中分离并将它们重新组合成复合图像来系统地增强训练数据,以增加多样性。这种增强技术通过缓解有限训练样本的狭窄分布来解决过拟合问题。此外,引入了局部精细化损失函数,通过将每个概念的注意力图与其正确区域对齐来保留主体的代表性属性。这种方法通过确保扩散模型在去噪过程中区分相似主体而不混合它们的注意力图,有效地防止了属性泄漏。通过同时微调特定模块,FaR在学习新概念与保留先前学习知识之间取得了平衡。实证结果表明,FaR不仅在保持照片真实感的同时防止了过拟合和属性泄漏,还优于其他最先进的方法。

[54] 多流:用于工业异常检测的多视图增强归一化流
标题: Multi-Flow: Multi-View-Enriched Normalizing Flows for Industrial Anomaly Detection
作者: Mathis Kruse / Bodo Rosenhahn
原文:   [英文]   [中文]  
备注: Visual Anomaly and Novelty Detection 3.0 Workshop at CVPR 2025
摘要:
随着越来越多表现良好的异常检测方法被提出,许多单视图任务已经得到了相对较好的解决。然而,现实世界的生产场景通常涉及复杂的工业产品,其特性可能无法通过单一图像完全捕捉。虽然基于归一化流的方法在单摄像头场景中已经表现良好,但它们目前并未利用多视图数据中的先验信息。我们旨在通过使用这些基于流的模型作为强大的基础来弥合这一差距,并提出Multi-Flow,一种新颖的多视图异常检测方法。Multi-Flow利用了一种新颖的多视图架构,通过融合不同视图的信息来增强其精确的似然估计。为此,我们提出了一种新的跨视图信息传递方案,使信息在相邻视图之间流动。我们在真实世界的多视图数据集Real-IAD上进行了实证验证,并达到了新的最先进水平,在图像级和样本级异常检测任务中均超越了当前的基线。

[55] 可控的解剖形状合成与隐式神经表示
标题: Steerable Anatomical Shape Synthesis with Implicit Neural Representations
作者: Bram de Wilde / Max T. Rietberg / Guillaume Lajoinie / Jelmer M. Wolterink
原文:   [英文]   [中文]  
备注: None
摘要:
解剖结构的生成建模在虚拟成像试验中起着至关重要的作用,这使研究人员能够在不受体内和幻影研究固有成本和限制的情况下进行研究。为了具有临床相关性,生成模型应允许有针对性的控制,以模拟特定的患者群体,而不是仅依赖于纯随机采样。在这项工作中,我们提出了一种基于隐式神经表示的可操控生成模型。隐式神经表示自然支持拓扑变化,使其非常适合用于拓扑结构变化的解剖结构,例如甲状腺。我们的模型学习了一种解耦的潜在表示,从而能够对形状变化进行细粒度的控制。评估包括重建精度和解剖合理性。我们的结果表明,所提出的模型在实现高质量形状生成的同时,能够进行有针对性的解剖修改。

[56] QIRL:通过优化问题-图像关系学习提升视觉问答
标题: QIRL: Boosting Visual Question Answering via Optimized Question-Image Relation Learning
作者: Quanxing Xu / Ling Zhou / Xian Zhong / Feifei Zhang / Rubing Huang / Chia-Wen Lin
原文:   [英文]   [中文]  
备注: None
摘要:
在视觉问答(VQA)领域,现有的去偏方法主要集中在增强视觉学习、整合辅助模型或采用数据增强策略。然而,这些方法存在两个主要缺陷。首先,当前的去偏技术未能捕捉图像和文本之间的高级关系,因为现有的学习框架无法使模型从高度对比的样本中提取更深层次的关联。其次,它们在推理过程中未能评估输入问题与图像之间的相关性,因为之前的研究中没有探讨输入相关性在去偏研究中的重要性。基于这些局限性,我们提出了一种新颖的框架,优化问题-图像关系学习(QIRL),该框架采用基于生成的自监督学习策略。具体来说,引入了两个模块来解决上述问题。负图像生成(NIG)模块在训练过程中自动生成高度不相关的问题-图像对,以增强关联学习,而不相关样本识别(ISI)模块通过检测和过滤不相关输入来提高模型的鲁棒性,从而减少预测错误。此外,为了验证通过过滤不相关问题-图像输入来减少输出错误的概念,我们提出了一种专门的指标来评估ISI模块的性能。值得注意的是,我们的方法与模型无关,可以与各种VQA模型集成。在VQA-CPv2和VQA-v2上的大量实验表明了我们方法的有效性和泛化能力。在数据增强策略中,我们的方法达到了最先进的结果。

[57] EOOD:基于熵的分布外检测
标题: EOOD: Entropy-based Out-of-distribution Detection
作者: Guide Yang / Chao Hou / Weilong Peng / Xiang Fang / Yongwei Nie / Peican Zhu / Keke Tang
原文:   [英文]   [中文]  
备注: IJCNN 2025
摘要:
深度神经网络(DNNs)在遇到分布外(OOD)样本时通常表现出过度自信,这对其部署带来了重大挑战。由于DNNs是在分布内(ID)数据集上训练的,ID样本通过DNNs的信息流不可避免地与OOD样本的信息流不同。在本文中,我们提出了一种基于熵的分布外检测(EOOD)框架。EOOD首先使用ID和伪OOD样本识别出ID和OOD样本之间信息流差异更明显的特定模块。然后,它在选定的模块上计算条件熵作为OOD置信度分数。在各种ID和OOD设置下进行的综合实验表明,EOOD在OOD检测中的有效性及其相对于最新方法的优越性。

[58] Meta-DAN:一种高效的页面级手写文本识别预测策略
标题: Meta-DAN: towards an efficient prediction strategy for page-level handwritten text recognition
作者: Denis Coquenet
原文:   [英文]   [中文]  
备注: None
摘要:
最近在文本识别领域的进展导致了页面级识别的范式转变,从多步骤的基于分割的方法转向端到端的基于注意力的方法。然而,简单的字符级自回归解码过程导致了较长的预测时间:在现代GPU上处理单个页面图像需要几秒钟。我们提出了元文档注意网络(Meta-DAN)作为一种新颖的解码策略,以减少预测时间,同时实现更好的上下文建模。它依赖于两个主要组件:窗口查询,用于同时处理多个变压器查询,扩大与近期未来的上下文建模;以及多标记预测,其目标是每个查询预测多个标记,而不仅仅是下一个标记。我们在10个整页手写数据集上评估了所提出的方法,并在字符错误率方面平均展示了最先进的结果。训练模型的源代码和权重可在此https URL获取。

[59] FLAIRBrainSeg:仅使用FLAIR MRI进行细粒度脑分割
标题: FLAIRBrainSeg: Fine-grained brain segmentation using FLAIR MRI only
作者: Edern Le Bot / Rémi Giraud / Boris Mansencal / Thomas Tourdias / Josè V. Manjon / Pierrick Coupé
原文:   [英文]   [中文]  
备注: 9 pages, 6 figures
摘要:
本文介绍了一种仅使用FLAIR MRI进行脑分割的新方法,专门针对无法获取其他成像模式的情况。通过利用现有的自动分割方法,我们训练了一个网络来近似通常从T1加权MRI获得的分割。我们的方法称为FLAIRBrainSeg,可以对132个结构进行分割,并且对多发性硬化病变具有鲁棒性。在域内和域外数据集上的实验表明,我们的方法优于基于图像合成的模式无关方法,这是目前唯一可用的仅使用FLAIR MRI进行脑分区的替代方案。这项技术在无法获得T1加权MRI的情况下具有很大潜力,为需要可靠解剖分割的临床医生和研究人员提供了一个有价值的替代方案。

[60] ZFusion:一种用于自动驾驶中3D物体感知的有效摄像头和4D雷达融合器
标题: ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving
作者: Sheng Yang / Tong Zhan / Shichen Qiao / Jicheng Gong / Qing Yang / Yanfeng Lu / Jian Wang
原文:   [英文]   [中文]  
备注: CVPR 2025 WDFM-AD
摘要:
可靠的三维物体感知在自动驾驶中至关重要。由于其在各种天气条件下的感知能力,4D雷达最近受到了广泛关注。然而,与LiDAR相比,4D雷达提供的点云要稀疏得多。在本文中,我们提出了一种名为ZFusion的三维物体检测方法,该方法融合了4D雷达和视觉模式。作为ZFusion的核心,我们提出的FP-DDCA(特征金字塔-双可变形交叉注意力)融合器有效地补充了(稀疏的)雷达信息和(密集的)视觉信息。具体来说,FP-DDCA融合器采用特征金字塔结构,结合Transformer模块以交互方式在不同尺度上融合多模态特征,从而提高感知精度。此外,我们利用深度-上下文-分割视图变换模块,以适应4D雷达的物理特性。考虑到4D雷达的成本远低于LiDAR,ZFusion是LiDAR方法的一个有吸引力的替代方案。在典型的交通场景中,如VoD(View-of-Delft)数据集,实验表明,ZFusion在合理的推理速度下,在感兴趣区域内实现了最先进的mAP(平均精度均值),同时在整个区域的mAP上与基线方法相比具有竞争力,这表明其性能接近于LiDAR,并且远远优于仅使用摄像头的方法。

[61] 知晓未知:视觉语言模型中语义化不确定性估计在受损图像上的鲁棒性
标题: Know What You do Not Know: Verbalized Uncertainty Estimation Robustness on Corrupted Images in Vision-Language Models
作者: Mirko Borszukovszki / Ivo Pascal de Jong / Matias Valdenegro-Toro
原文:   [英文]   [中文]  
备注: 10 pages, 11 figures, TrustNLP Workshop @ NAACL 2025 Camera ready
摘要:
为了充分发挥大型语言模型(LLMs)的潜力,了解其答案的不确定性是至关重要的。这意味着模型必须能够量化其对给定回答的正确性的确信程度。不良的不确定性估计可能导致过于自信的错误答案,从而削弱对这些模型的信任。虽然已经有相当多的研究集中在处理文本输入并提供文本输出的语言模型上,但由于视觉能力最近才被添加到这些模型中,因此在视觉语言模型(VLMs)不确定性方面的进展不多。我们在损坏的图像数据上测试了三种最先进的VLMs。我们发现,损坏的严重程度对模型估计其不确定性的能力产生了负面影响,并且在大多数实验中,模型表现出过度自信。

[62] 基于金字塔的 Mamba 多类别无监督异常检测
标题: Pyramid-based Mamba Multi-class Unsupervised Anomaly Detection
作者: Nasar Iqbal / Niki Martinel
原文:   [英文]   [中文]  
备注: None
摘要:
最近在卷积神经网络(CNNs)和基于变压器的方法方面的进展提高了异常检测和定位的能力,但在精确定位小异常方面仍然存在挑战。虽然CNN在捕捉长距离依赖关系方面存在局限性,但变压器架构通常会面临巨大的计算开销。我们引入了一种基于状态空间模型(SSM)的金字塔扫描策略(PSS),用于多类别异常检测和定位——这是一种旨在解决小异常定位挑战的新方法。通过将PSS与预训练编码器相结合进行多尺度特征提取,以及特征级别的合成异常生成器,我们的方法能够在多个尺度上捕捉细粒度的细节。在MVTec基准测试中,我们的方法在多类别异常定位上提高了1%的AP,并在AU-PRO上提高了1%,展示了我们的方法在各种工业场景中精确异常定位的优越性。代码可在此https URL Mamba获取。

[63] D-Garment:用于动态服装变形的物理条件潜在扩散
标题: D-Garment: Physics-Conditioned Latent Diffusion for Dynamic Garment Deformations
作者: Antoine Dumoulin / Adnane Boukhayma / Laurence Boissieux / Bharath Bhushan Damodaran / Pierre Hellier / Stefanie Wuhrer
原文:   [英文]   [中文]  
备注: 11 pages, 7 figures
摘要:
在虚拟和增强现实中,调整和变形3D服装以适应身体形状、身体运动和布料材质是一个重要的问题。其应用广泛,从虚拟试衣间到娱乐和游戏行业。这个问题具有挑战性,因为服装的动态会影响几何细节,如皱纹图案,这些细节依赖于物理输入,包括穿戴者的身体形状和运动,以及布料材质特征。现有的研究探讨了基于学习的建模技术,以从示例数据生成服装变形,以及受物理启发的模拟器以生成逼真的服装动态。我们在此提出一种基于学习的方法,该方法在使用基于物理的模拟器生成的数据上进行训练。与之前的工作相比,我们的3D生成模型学习宽松布料几何的服装变形,特别是由身体运动和布料材质驱动的大变形和动态皱纹。此外,该模型可以高效地适配使用视觉传感器捕获的观测数据。我们建议利用扩散模型学习细尺度细节的能力:我们在二维参数空间中建模3D服装,并使用这种与网格分辨率无关的表示学习潜在扩散模型。这使得可以用身体和材质信息来调节全局和局部几何信息。我们在模拟数据和使用多视角采集平台捕获的数据上对我们的方法进行了定量和定性评估。与强基线相比,我们的方法在Chamfer距离方面更为准确。

[64] 扩散U-Net中动态重要性用于增强图像合成
标题: Dynamic Importance in Diffusion U-Net for Enhanced Image Synthesis
作者: Xi Wang / Ziqi He / Yang Zhou
原文:   [英文]   [中文]  
备注: Accepted to ICME 2025. Appendix & Code: this https URL
摘要:
传统扩散模型通常采用 U-Net 架构。先前的研究揭示了 U-Net 中注意力模块的作用。然而,它们忽视了在推理过程中其重要性的动态演变,这阻碍了进一步利用它们来改善图像应用。在本研究中,我们首先从理论上证明了在采样过程中重新加权 U-Net 中 Transformer 模块的输出是提高信噪比的“免费午餐”。接下来,我们提出了重要性探针,以揭示和量化 Transformer 模块在去噪过程中的重要性动态变化。最后,我们设计了一种基于重要性的自适应重新加权方案,专门用于特定的图像生成和编辑任务。实验结果表明,我们的方法显著提高了推理过程的效率,并增强了样本的美学质量和身份一致性。我们的方法可以无缝集成到任何基于 U-Net 的架构中。代码:this https URL

[65] 多编码器 nnU-Net 在自监督预训练的 Transformer 模型中表现更优
标题: Multi-encoder nnU-Net outperforms Transformer models with self-supervised pretraining
作者: Seyedeh Sahar Taheri Otaghsara / Reza Rahmanzadeh
原文:   [英文]   [中文]  
备注: None
摘要:
本研究探讨了医学图像分割这一重要任务,该任务涉及自动识别和描绘医学图像中的解剖结构和病理区域。准确的分割在放射学中至关重要,因为它有助于精确定位异常,如肿瘤,从而实现有效的诊断、治疗计划和疾病进展监测。具体来说,肿瘤的大小、形状和位置可以显著影响临床决策和治疗策略,使得准确的分割成为放射学工作流程的关键组成部分。然而,MRI模态的变化、图像伪影以及标记数据的稀缺性带来的挑战使得分割任务复杂化,并影响传统模型的性能。为了克服这些限制,我们提出了一种新颖的自监督学习多编码器nnU-Net架构,旨在通过独立的编码器处理多种MRI模态。该方法允许模型在融合最终分割之前捕捉模态特定特征,从而提高准确性。我们的多编码器nnU-Net表现出卓越的性能,达到了93.72%的Dice相似系数(DSC),超过了其他模型,如vanilla nnU-Net、SegResNet和Swin UNETR。通过利用每种模态提供的独特信息,该模型增强了分割任务,特别是在标注数据有限的情况下。评估结果突出了该架构在改善肿瘤分割结果方面的有效性。

[66] ATM-Net:解剖感知的文本引导多模态融合用于细粒度腰椎分割
标题: ATM-Net: Anatomy-Aware Text-Guided Multi-Modal Fusion for Fine-Grained Lumbar Spine Segmentation
作者: Sheng Lian / Dengfeng Pan / Jianlong Cai / Guang-Yong Chen / Zhun Zhong / Zhiming Luo / Shen Zhao / Shuo Li
原文:   [英文]   [中文]  
备注: None
摘要:
准确的腰椎分割对于诊断脊柱疾病至关重要。现有的方法通常使用粗粒度的分割策略,缺乏精确诊断所需的细节。此外,它们对仅依赖视觉模型的使用阻碍了解剖语义的捕捉,导致类别误分类和分割细节不佳。为了解决这些限制,我们提出了ATM-Net,这是一种创新框架,采用解剖感知、文本引导的多模态融合机制,用于腰椎子结构的细粒度分割,即椎体(VBs)、椎间盘(IDs)和椎管(SC)。ATM-Net采用解剖感知文本提示生成器(ATPG),自适应地将图像注释转换为不同视图中的解剖感知提示。这些见解通过整体解剖感知语义融合(HASF)模块与图像特征进一步整合,构建全面的解剖上下文。通道对比解剖感知增强(CCAE)模块通过类级通道级多模态对比学习进一步增强类别区分并优化分割。在MRSpineSeg和SPIDER数据集上的大量实验表明,ATM-Net在类别区分和分割细节方面显著优于最先进的方法。例如,ATM-Net在SPIDER上实现了79.39%的Dice系数和9.91像素的HD95,分别比竞争对手SpineParseNet高出8.31%和4.14像素。

[67] BUFF:贝叶斯不确定性引导的扩散概率模型用于单图像超分辨率
标题: BUFF: Bayesian Uncertainty Guided Diffusion Probabilistic Model for Single Image Super-Resolution
作者: Zihao He / Shengchuan Zhang / Runze Hu / Yunhang Shen / Yan Zhang
原文:   [英文]   [中文]  
备注: 9 pages, 5 figures, AAAI 2025
摘要:
超分辨率(SR)技术对于提升图像质量至关重要,尤其是在高分辨率图像必不可少但受限于硬件条件的情况下。现有的用于SR的扩散模型主要依赖于高斯模型进行噪声生成,这在处理自然场景中复杂多变的纹理时常常显得不足。为了解决这些不足,我们引入了贝叶斯不确定性引导扩散概率模型(BUFF)。BUFF的独特之处在于结合了贝叶斯网络来生成高分辨率不确定性掩码。这些掩码引导扩散过程,使得噪声强度的调整既能感知上下文又具有适应性。这一新颖的方法不仅提高了超分辨图像与其原始高分辨率图像的相似度,还显著减少了在复杂纹理和细节丰富区域的伪影和模糊。该模型在应对复杂噪声模式方面表现出卓越的鲁棒性,并展示了在处理图像纹理和边缘时的优越适应性。实验证据和视觉结果支持了该模型的鲁棒性,尤其是在具有挑战性的场景中,以及其在解决常见SR问题如模糊方面的有效性。在DIV2K数据集上进行的实验评估显示,BUFF在BSD100上的SSIM相比基线提高了+0.61,平均比传统扩散方法多获得+0.20dB的PSNR增益。这些发现强调了贝叶斯方法在增强SR扩散过程中的潜力,为该领域的未来进步铺平了道路。

[68] LV-MAE:通过掩码嵌入自编码器学习长视频表示
标题: LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders
作者: Ilan Naiman / Emanuel Ben-Baruch / Oron Anschel / Alon Shoshan / Igor Kviatkovsky / Manoj Aggarwal / Gerard Medioni
原文:   [英文]   [中文]  
备注: None
摘要:
在这项工作中,我们介绍了长视频掩码嵌入自编码器(LV-MAE),这是一种用于长视频表示的自监督学习框架。我们的方法将短期和长期依赖视为两个独立的任务。这样的解耦允许更直观的视频处理,其中首先编码短期时空原语,然后用于捕捉跨连续视频片段的长程依赖。为此,我们利用先进的现成多模态编码器从长视频中的短片段中提取表示,然后通过预训练一个掩码嵌入自编码器来捕捉跨片段的高级交互。LV-MAE 训练效率极高,并通过减轻输入帧数量的限制,使得处理更长的视频成为可能。此外,与通常在短视频数据集上进行预训练的现有方法不同,我们的方法提供了使用长视频样本(例如,20 分钟以上的视频片段)进行大规模自监督预训练。使用 LV-MAE 表示,我们在三个长视频基准测试——LVU、COIN 和 Breakfast 上取得了最先进的结果,仅使用简单的分类头进行注意力或线性探测。最后,为了评估 LV-MAE 的预训练并可视化其重建质量,我们利用短视频表示的视频-语言对齐空间,通过视频-文本检索来监控 LV-MAE。

[69] FADConv:一种用于农田非农业化识别与分割的频率感知动态卷积
标题: FADConv: A Frequency-Aware Dynamic Convolution for Farmland Non-agriculturalization Identification and Segmentation
作者: Tan Shu / Li Shen
原文:   [英文]   [中文]  
备注: None
摘要:
农地非农业化是指将可耕地转变为非农业用途,如森林、住宅区和建筑工地。这一现象不仅直接导致农地资源的流失,还对粮食安全和农业可持续性构成系统性威胁。准确识别农地和非农地区域对于检测和解决这一问题至关重要。传统的卷积神经网络(CNN)使用静态卷积层,而动态卷积研究表明,通过注意力机制自适应地加权多个卷积核可以提高准确性。然而,现有依赖全局平均池化(GAP)进行注意力权重分配的动态卷积方法存在信息损失,限制了分割精度。本文提出了频率感知动态卷积(FADConv)和频率注意力(FAT)模块来解决这些限制。在动态卷积的基础结构上,我们通过集成二维离散余弦变换(2D DCT)来捕捉频域特征并融合它们,从而设计了FADConv。FAT模块生成高质量的注意力权重,取代了传统的GAP方法,使动态卷积核之间的组合更加有效。在GID和Hi-CNA数据集上的实验表明,FADConv在几乎不增加计算开销的情况下显著提高了分割精度。例如,使用FADConv的ResNet18在GID上的农地分割中F1-score和IoU分别提高了1.9%和2.7%,仅增加了58.87M的乘加运算。与其他动态卷积方法相比,FADConv在农地分割任务中表现出更优越的性能。

[70] RANa:检索增强导航
标题: RANa: Retrieval-Augmented Navigation
作者: Gianluca Monaci / Rafael S. Rezende / Romain Deffayet / Gabriela Csurka / Guillaume Bono / Hervé Déjean / Stéphane Clinchant / Christian Wolf
原文:   [英文]   [中文]  
备注: None
摘要:
基于大规模学习的导航方法通常将每个情景视为一个新问题,其中代理在未知环境中以清晰的记忆开始。虽然这些对未知环境的泛化能力极为重要,但我们认为,在现实环境中,代理应该能够利用在早期机器人操作中收集的信息。我们通过引入一种新的检索增强代理来解决这个问题,该代理通过强化学习训练,能够查询在同一环境中从之前情景中收集的数据库,并学习如何整合这些额外的上下文信息。我们为通用导航任务引入了一种独特的代理架构,并在ObjectNav、ImageNav和Instance-ImageNav上进行了评估。我们的检索和上下文编码方法是数据驱动的,并大量使用视觉基础模型(FM)来实现语义和几何理解。我们为这些设置提出了新的基准,并展示了检索如何在任务和环境之间实现零样本迁移,同时显著提高性能。

[71] HumanDreamer-X:通过高斯修复实现逼真单图像人类化身重建
标题: HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration
作者: Boyuan Wang / Runqi Ouyang / Xiaofeng Wang / Zheng Zhu / Guosheng Zhao / Chaojun Ni / Guan Huang / Lihong Liu / Xingang Wang
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
单张图像的人体重建对于数字人建模应用至关重要,但仍然是一个极具挑战性的任务。目前的方法依赖生成模型来合成多视图图像,以进行后续的三维重建和动画。然而,直接从单张人体图像生成多个视图会导致几何不一致性,导致重建模型中出现肢体破碎或模糊等问题。为了解决这些限制,我们引入了\textbf{HumanDreamer-X},这是一种将多视图人体生成和重建整合到统一流程中的新框架,显著增强了重建三维模型的几何一致性和视觉逼真度。在此框架中,三维高斯散点作为显式三维表示,提供初始几何和外观优先级。在此基础上,\textbf{HumanFixer}经过训练以恢复3DGS渲染,确保照片级真实效果。此外,我们深入研究了多视图人体生成中与注意力机制相关的固有挑战,并提出了一种注意力调制策略,有效增强了多视图之间几何细节身份的一致性。实验结果表明,我们的方法显著提高了生成和重建的PSNR质量指标,分别提高了16.45%和12.65%,达到最高25.62 dB的PSNR,同时展示了在自然环境数据上的泛化能力以及对各种人体重建基础模型的适用性。

[72] PF3Det: 一种基于提示的基础特征辅助视觉LiDAR 3D检测器
标题: PF3Det: A Prompted Foundation Feature Assisted Visual LiDAR 3D Detector
作者: Kaidong Li / Tianxiao Zhang / Kuan-Chuan Peng / Guanghui Wang
原文:   [英文]   [中文]  
备注: This paper is accepted to the CVPR 2025 Workshop on Distillation of Foundation Models for Autonomous Driving (WDFM-AD)
摘要:
3D目标检测在自动驾驶中至关重要,它利用LiDAR点云提供精确的深度信息和摄像头图像提供丰富的语义信息。因此,结合这两种模态的多模态方法可以提供更稳健的检测结果。然而,由于领域差异,有效地融合LiDAR点和图像仍然具有挑战性。此外,许多模型的性能受到高质量标注数据量的限制,而这些数据的创建成本很高。最近在基础模型方面的进展,通过对不同模态的大规模预训练,实现了更好的多模态融合。结合提示工程技术以实现高效训练,我们提出了提示基础3D检测器(PF3Det),它集成了基础模型编码器和软提示,以增强LiDAR-摄像头特征融合。在有限的训练数据下,PF3Det在nuScenes数据集上实现了最先进的结果,将NDS提高了1.19%,mAP提高了2.42%,展示了其在3D检测中的效率。

[73] AutoSSVH: 探索自动帧采样以实现高效的自监督视频哈希
标题: AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing
作者: Niu Lian / Jun Li / Jinpeng Wang / Ruisheng Luo / Yaowei Wang / Shu-Tao Xia / Bin Chen
原文:   [英文]   [中文]  
备注: Accepted by CVPR'25. 11 pages, 5 figures, 3 tables
摘要:
自监督视频哈希(SSVH)通过使用未标记的训练视频将视频压缩为哈希码,以实现高效的索引和检索。现有的方法依赖于随机帧采样来学习视频特征,并且对所有帧一视同仁。这导致了次优的哈希码,因为它忽略了帧特定的信息密度和重建难度。为了解决这一限制,我们提出了一个新的框架,称为AutoSSVH,该框架采用基于哈希的对比学习的对抗性帧采样。我们的对抗性采样策略自动识别并选择具有更丰富信息的挑战性帧进行重建,从而增强编码能力。此外,我们引入了哈希组件投票策略和点到集合(P2Set)哈希对比目标,这有助于在汉明空间中捕获复杂的跨视频语义关系,并提高学习到的哈希码的可辨识性。大量实验表明,AutoSSVH在检索效果和效率方面优于最先进的方法。代码可在此https URL获取。

[74] 在噪声点云上进行人体部位分割的鲁棒人体配准
标题: Robust Human Registration with Body Part Segmentation on Noisy Point Clouds
作者: Kai Lascheit / Daniel Barath / Marc Pollefeys / Leonidas Guibas / Francis Engelmann
原文:   [英文]   [中文]  
备注: None
摘要:
将人体网格注册到3D点云对于增强现实和人机交互等应用至关重要,但由于真实世界数据中的噪声和背景杂乱,通常会产生不精确的结果。我们引入了一种混合方法,将身体部位分割纳入网格拟合过程,从而提高人体姿态估计和分割的准确性。我们的方法首先为各个点分配身体部位标签,然后引导两步SMPL-X拟合:首先使用身体部位质心进行初始姿态和方向估计,然后进行点云对齐的全局优化。此外,我们证明了拟合的人体网格可以优化身体部位标签,从而改善分割效果。在杂乱和噪声较多的真实世界数据集InterCap、EgoBody和BEHAVE上的评估显示,我们的方法在姿态估计和分割准确性方面显著优于现有方法。代码和结果可在我们的项目网站上获取:this https URL

[75] 基于注意力的合成孔径雷达融合的多模态扩散桥用于卫星图像云层去除
标题: Multimodal Diffusion Bridge with Attention-Based SAR Fusion for Satellite Image Cloud Removal
作者: Yuyang Hu / Suhas Lohit / Ulugbek S. Kamilov / Tim K. Marks
原文:   [英文]   [中文]  
备注: None
摘要:
深度学习通过与合成孔径雷达(SAR)图像融合,在解决光学卫星图像中的云去除挑战方面取得了一些成功。最近,扩散模型作为云去除的强大工具出现,通过从无云分布中采样,提供了比早期方法更高质量的估计。然而,扩散模型从纯高斯噪声开始采样,这使得采样轨迹复杂化,导致性能不佳。此外,当前的方法在有效融合SAR和光学数据方面也存在不足。为了解决这些限制,我们提出了用于云去除的扩散桥(DB-CR),它直接在有云和无云图像分布之间架起桥梁。此外,我们提出了一种新颖的多模态扩散桥架构,具有双分支骨干,用于多模态图像恢复,结合了高效的骨干和专用的跨模态融合模块,以有效提取和融合合成孔径雷达(SAR)和光学图像的特征。通过将云去除表述为扩散桥问题并利用这种定制的架构,DB-CR在计算效率高的同时实现了高保真度的结果。我们在SEN12MS-CR云去除数据集上评估了DB-CR,结果表明它达到了最先进的水平。

[76] 用于合成媒体检测和归因的自主自适应系统
标题: Autonomous and Self-Adapting System for Synthetic Media Detection and Attribution
作者: Aref Azizpour / Tai D. Nguyen / Matthew C. Stamm
原文:   [英文]   [中文]  
备注: None
摘要:
生成式人工智能的快速发展使得创建高度逼真的合成图像成为可能,这在许多领域具有益处,但同时也在虚假信息、欺诈和其他恶意应用方面带来了严重风险。目前的合成图像识别系统通常是静态的,依赖于从已知生成器学习的特征表示;随着新的生成模型的出现,这些系统的性能会严重下降。在本文中,我们引入了自主自适应合成媒体识别系统的概念——这种系统不仅能够检测合成图像并将其归因于已知来源,还能够自主识别和整合新的生成器而无需人工干预。我们的方法利用开放集识别策略和可演化的嵌入空间来区分已知和未知来源。通过采用无监督聚类方法将未知样本聚合成高置信度的簇,并不断优化其决策边界,我们的系统在生成领域不断变化的情况下仍能保持强大的检测和归因性能。大量实验表明,我们的方法显著优于现有方法,标志着在快速发展的生成模型时代向通用、可适应的取证系统迈出了关键一步。

[77] VISTA-OCR:迈向生成式和交互式的端到端OCR模型
标题: VISTA-OCR: Towards generative and interactive end to end OCR models
作者: Laziz Hamdi / Amine Tamasna / Pascal Boisson / Thierry Paquet
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了\textbf{VISTA-OCR}(视觉和空间感知文本分析OCR),这是一种轻量级架构,将文本检测和识别统一在一个生成模型中。与传统方法需要为文本识别和检测设置独立参数的分支不同,我们的方法利用Transformer解码器在统一分支中顺序生成文本转录和其空间坐标。VISTA-OCR基于编码器-解码器架构进行逐步训练,首先进行视觉特征提取阶段,然后通过多模态令牌生成进行多任务学习。为了应对对能够执行高级任务的多功能OCR系统的日益增长的需求,例如基于内容的文本定位\ref{content_based_localization},我们在此过程中引入了新的提示可控OCR任务。为了增强模型的能力,我们构建了一个由真实世界示例组成的新数据集,丰富了边界框注释和合成样本。尽管最近的视觉大型语言模型(VLLMs)可以高效地执行这些任务,但其高计算成本仍然是实际部署的障碍。相比之下,我们的VISTA$_{\text{omni}}$变体仅使用150M参数,通过提示交互地处理手写和打印文档。在多个数据集上的广泛实验表明,VISTA-OCR在标准OCR任务上比最先进的专业模型表现更好,同时在更复杂的OCR应用中显示出强大的潜力,满足了对交互式OCR系统日益增长的需求。所有VISTA-OCR的代码和注释将在接受后公开发布。

[78] 量化基于模型的合成图像质量指标的不确定性
标题: Quantifying the uncertainty of model-based synthetic image quality metrics
作者: Ciaran Bench / Spencer A. Thomas
原文:   [英文]   [中文]  
备注: None
摘要:
合成生成图像的质量(例如由扩散模型生成的图像)通常使用预训练的辅助模型编码的图像内容信息进行评估。例如,Fréchet Inception Distance(FID)使用从预训练以分类ImageNet的InceptionV3模型中提取的嵌入。该特征嵌入模型的有效性对计算指标的可信度有相当大的影响(影响其在包括医学成像在内的多个领域的适用性)。在此,使用不确定性量化(UQ)来提供特征嵌入模型和一种类似FID的指标,称为Fréchet Autoencoder Distance(FAED)的可信度的启发式度量。我们对特征嵌入模型(卷积自编码器)应用蒙特卡罗dropout,以对其嵌入的不确定性进行建模。然后使用每个输入的嵌入分布来计算FAED值的分布。我们将不确定性表示为嵌入的预测方差以及计算的FAED值的标准差。我们发现它们的大小与输入相对于模型训练数据的分布外程度相关,从而在一定程度上验证了其评估FAED可信度的能力。

[79] 一种代数几何方法来观察图的可解性
标题: An Algebraic Geometry Approach to Viewing Graph Solvability
作者: Federica Arrigoni / Kathlén Kohn / Andrea Fusiello / Tomas Pajdla
原文:   [英文]  
备注: None
摘要:
在运动结构恢复的背景下,观察图的可解性概念引起了极大的关注。观察图是一种数学结构,其中节点与相机相关联,边则表示连接重叠视图的极线几何。可解性研究在何种条件下相机可以由图唯一确定。在本文中,我们提出了一种基于代数几何的新框架,用于分析可解性问题,展示了其在理解运动结构恢复图方面的潜力,并证明了之前提出的一个猜想。

[80] 塑造我的动作:基于文本驱动的形状感知人类动作合成
标题: Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions
作者: Ting-Hsuan Liao / Yi Zhou / Yu Shen / Chun-Hao Paul Huang / Saayan Mitra / Jia-Bin Huang / Uttaran Bhattacharya
原文:   [英文]  
备注: CVPR 2025. Project page: this https URL
摘要:
我们探讨了身体形状如何影响人类动作合成,这一方面在现有的文本到动作生成方法中常常被忽视,因为学习统一的、标准化的身体形状相对容易。然而,这种标准化可能会扭曲不同身体形状与其动作动态之间的自然关联。我们的方法通过自然语言提示生成与身体形状相关的人类动作来解决这一问题。我们利用基于有限标量量化的变分自编码器(FSQ-VAE)将动作量化为离散的标记,然后利用连续的身体形状信息将这些标记解量化回连续的、详细的动作。此外,我们利用预训练语言模型的能力来预测连续的形状参数和动作标记,从而促进文本对齐动作的合成,并将其解码为与形状相关的动作。我们对该方法进行了定量和定性评估,并进行了全面的感知研究,以证明其在生成与形状相关的动作方面的有效性。

[81] MME-Unify:统一多模态理解与生成模型的综合基准
标题: MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models
作者: Wulin Xie / Yi-Fan Zhang / Chaoyou Fu / Yang Shi / Bingyan Nie / Hongkai Chen / Zhang Zhang / Liang Wang / Tieniu Tan
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
现有的多模态大语言模型(MLLM)基准在评估统一多模态大语言模型(U-MLLMs)时面临重大挑战,原因包括:1)缺乏传统任务的标准化基准,导致比较不一致;2)缺乏混合模态生成的基准,无法评估多模态推理能力。我们提出了一个综合评估框架,旨在系统地评估U-MLLMs。我们的基准包括:标准化的传统任务评估。我们从12个数据集中抽样,涵盖10个任务和30个子任务,确保跨研究的一致和公平比较。2. 统一任务评估。我们引入了五个测试多模态推理的新任务,包括图像编辑、带有图像生成的常识问答和几何推理。3. 综合模型基准测试。我们评估了12个领先的U-MLLMs,如Janus-Pro、EMU3、VILA-U和Gemini2-flash,以及专门的理解(例如Claude-3.5-Sonnet)和生成模型(例如DALL-E-3)。我们的研究结果揭示了现有U-MLLMs在性能上的显著差距,强调了需要更强大的模型来有效处理混合模态任务。代码和评估数据可以在这个https URL中找到。