![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年5月26日更新论文129篇
|
[1] 合成历史:评估扩散模型中对过去的视觉表现 标题: Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models 作者: Maria-Teresa De Rosa Palmini / Eva Cetinic 原文: [英文] [中文] 备注: None 摘要: 随着文本到图像(TTI)扩散模型在内容创作中变得越来越有影响力,人们对其社会和文化影响的关注也在不断增加。尽管先前的研究主要考察了人口和文化偏见,但这些模型准确再现历史背景的能力仍然很少被探索。在这项工作中,我们提出了一种系统且可重复的方法,用于评估TTI系统如何描绘不同的历史时期。为此,我们引入了HistVis数据集,这是一个经过精心策划的集合,包含由三个最先进的扩散模型使用精心设计的提示生成的30,000张合成图像,这些提示描绘了不同时期的普遍人类活动。我们从三个关键方面评估生成的图像:(1)隐含的风格关联:检查与特定时代相关的默认视觉风格;(2)历史一致性:识别如现代物品出现在前现代背景中的时代错误;(3)人口代表性:将生成的种族和性别分布与历史上合理的基线进行比较。我们的研究结果揭示了历史主题生成图像中的系统性不准确,因为TTI模型经常通过加入未说明的风格线索来刻板化过去的时代,引入时代错误,并未能反映合理的人口模式。通过提供一种可扩展的方法和评估生成图像中历史再现的基准,这项工作为构建更具历史准确性和文化一致性的TTI模型提供了初步步骤。 |
[2] EmoSign:用于理解美国手语中情感的多模态数据集 标题: EmoSign: A Multimodal Dataset for Understanding Emotions in American Sign Language 作者: Phoebe Chua / Cathy Mengying Fang / Takehiko Ohkawa / Raja Kushalnagar / Suranga Nanayakkara / Pattie Maes 原文: [英文] [中文] 备注: None 摘要: 与口语中使用韵律特征来传达情感的研究相对成熟不同,手语中情感的指示仍然理解不足,这在关键场合中造成了沟通障碍。手语呈现出独特的挑战,因为面部表情和手部动作同时具有语法和情感功能。为了解决这一差距,我们引入了EmoSign,这是第一个包含情感和情绪标签的200个美国手语(ASL)视频的数据集。我们还收集了关于情感线索的开放式描述。注释由3位具有专业翻译经验的聋人ASL手语者完成。除了注释之外,我们还提供了情感和情绪分类的基线模型。该数据集不仅填补了现有手语研究中的一个关键空白,还为理解手语多模态情感识别中的模型能力建立了新的基准。该数据集可在此https URL获取。 |
[3] CAMA:通过上下文感知调制注意力增强多模态上下文学习 标题: CAMA: Enhancing Multimodal In-Context Learning with Context-Aware Modulated Attention 作者: Yanshu Li / JianJiang Yang / Bozheng Li / Ruixiang Tang 原文: [英文] [中文] 备注: 10 pages, 2 figures, 6 tables 摘要: 多模态上下文学习(ICL)使大型视觉语言模型(LVLMs)能够高效地适应新任务,支持广泛的现实应用。然而,多模态ICL仍然不稳定,目前的研究主要集中在优化序列配置,而忽视了LVLMs的内部机制。在这项工作中,我们首先对多模态ICL中的注意力动态进行了理论分析,并识别出标准注意力的三个核心限制,这些限制削弱了ICL的性能。为了解决这些挑战,我们提出了上下文感知调制注意力(CAMA),这是一种简单而有效的即插即用方法,用于直接校准LVLM的注意力对数。CAMA无需训练,可以无缝应用于各种开源LVLMs。我们在四个LVLMs上通过六个基准测试评估了CAMA,证明了其有效性和通用性。CAMA为更深入地探索和有针对性地利用LVLM的注意力动态以推进多模态推理开辟了新的机会。 |
[4] 像素与先验:通过视觉反事实控制视觉-语言模型中的知识先验 标题: Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts 作者: Michal Golovanevsky / William Rudman / Michael Lepori / Amir Bar / Ritambhara Singh / Carsten Eickhoff 原文: [英文] [中文] 备注: None 摘要: 多模态大型语言模型(MLLMs)在视觉问答等任务上表现良好,但尚不清楚它们的推理更多依赖于记忆的世界知识还是输入图像中的视觉信息。为此,我们引入了Visual CounterFact,这是一个包含视觉真实感反事实的新数据集,将世界知识先验(例如,红色草莓)与视觉输入(例如,蓝色草莓)直接对立起来。使用Visual CounterFact,我们发现模型预测最初反映了记忆的先验,但在中后期层中转向视觉证据。这种动态揭示了两种模态之间的竞争,最终在评估过程中视觉输入会覆盖先验。为了控制这种行为,我们提出了Pixels Versus Priors(PvP)引导向量,这是一种通过激活级干预来控制模型输出朝向世界知识或视觉输入的机制。平均而言,PvP成功地将92.5%的颜色和74.6%的大小预测从先验转向反事实。这些发现共同为解释和控制多模态模型中的事实行为提供了新工具。 |
[5] 通过动态标记重加权增强视觉-语言模型的鲁棒性 标题: Robustifying Vision-Language Models via Dynamic Token Reweighting 作者: Tanqiu Jiang / Jiacheng Liang / Rongyi Zhu / Jiawei Zhou / Fenglong Ma / Ting Wang 原文: [英文] [中文] 备注: None 摘要: 大型视觉-语言模型(VLMs)极易受到利用视觉-文本交互来绕过安全防护的越狱攻击。在本文中,我们提出了DTR,这是一种新颖的推理时防御方法,通过优化模型的键值(KV)缓存来减轻多模态越狱攻击。我们不依赖于精心策划的安全特定数据或昂贵的图像到文本转换,而是引入了一种新的安全相关分布转移的公式,该转移由视觉模态引起。这个公式使得DTR能够动态调整视觉标记权重,最大限度地减少对抗性视觉输入的影响,同时保留模型的通用能力和推理效率。对各种VLMs和攻击基准的广泛评估表明,\sys在攻击鲁棒性和良性任务性能方面均优于现有防御措施,标志着首次成功应用KV缓存优化来增强多模态基础模型的安全性。用于复制DTR的代码可在此URL获取(警告:本文包含由VLMs生成的潜在有害内容)。 |
[6] 一种使用单视图多目标跟踪器在鱼类数据上进行多视图多目标跟踪的框架 标题: A Framework for Multi-View Multiple Object Tracking using Single-View Multi-Object Trackers on Fish Data 作者: Chaim Chai Elchik / Fatemeh Karimi Nejadasl / Seyed Sahand Mohammadi Ziabari / Ali Mohammed Mansoor Alsahag 原文: [英文] [中文] 备注: None 摘要: 计算机视觉中的多目标跟踪(MOT)已经取得了显著进展,但在水下环境中跟踪小鱼由于复杂的三维运动和数据噪声而面临独特的挑战。传统的单视角MOT模型在这些环境中往往表现不佳。本文通过改进最先进的单视角MOT模型FairMOT和YOLOv8,解决了生态研究中水下鱼类检测和跟踪的挑战。该研究的核心贡献是开发了一个多视角框架,利用立体视频输入来提高跟踪精度和鱼类行为模式识别。通过在水下鱼类视频数据集上集成和评估这些模型,研究旨在展示与单视角方法相比,在精度和可靠性方面的显著提升。所提出的框架以47%的相对精度检测鱼类实体,并采用立体匹配技术生成新颖的三维输出,从而提供对鱼类运动和交互的更全面理解。 |
[7] REACT 2025:第三届多重适当面部反应生成挑战赛 标题: REACT 2025: the Third Multiple Appropriate Facial Reaction Generation Challenge 作者: Siyang Song / Micol Spitale / Xiangyu Kong / Hengde Zhu / Cheng Luo / Cristina Palmero / German Barquero / Sergio Escalera / Michel Valstar / Mohamed Daoudi / Tobias Baur / Fabien Ringeval / Andrew Howes / Elisabeth Andre / Hatice Gunes 原文: [英文] [中文] 备注: None 摘要: 在二元互动中,人类面部反应的广泛谱系可能适合于回应每个说话者的行为。继成功举办REACT 2023和REACT 2024挑战赛之后,我们提出了REACT 2025挑战赛,鼓励开发和基准测试机器学习(ML)模型,这些模型可以用于生成多种适当的、多样的、逼真的和同步的人类风格面部反应,这些反应由人类听者表达,以响应输入刺激(即,他们对应的说话者所表达的视听行为)。作为挑战的关键,我们为挑战参与者提供了第一个自然且大规模的多模态MAFRG数据集(称为MARS),记录了137个人与人之间的二元互动,总共包含2856个互动会话,涵盖五个不同的主题。此外,本文还介绍了挑战指南以及我们基线在两个提议的子挑战:离线MAFRG和在线MAFRG上的表现。挑战基线代码可在此https URL公开获取。 |
[8] CHAOS:使用异常样本进行图表分析 标题: CHAOS: Chart Analysis with Outlier Samples 作者: Omar Moured / Yufan Chen / Ruiping Liu / Simon Reiß / Philip Torr / Jiaming Zhang / Rainer Stiefelhagen 原文: [英文] 备注: Data and code are publicly available at: this http URL 摘要: 图表在数据分析和可视化中起着至关重要的作用,但现实世界的应用中常常出现具有挑战性或噪声特征的图表。然而,“异常图表”即使对于多模态大型语言模型(MLLMs)来说也是一个重大挑战,这些模型可能难以解释被扰动的图表。在这项工作中,我们引入了CHAOS(异常样本的图表分析),这是一个稳健性基准,用于系统地评估MLLMs在图表扰动方面的表现。CHAOS包含五种文本扰动和十种视觉扰动,每种扰动都分为三个严重程度(简单、中等、困难),灵感来自于人类评估的研究结果。该基准包括13个最先进的MLLMs,根据训练范围和数据分为三组(即通用模型、文档模型和图表特定模型)。综合分析涉及两个下游任务(ChartQA和图表到文本)。广泛的实验和案例研究揭示了模型在图表扰动方面的稳健性关键见解,旨在指导未来在图表理解领域的研究。数据和代码可在此网址公开获取。 |
[9] 将数据集剪枝扩展到目标检测:一种基于方差的方法 标题: Extending Dataset Pruning to Object Detection: A Variance-based Approach 作者: Ryota Yagi 原文: [英文] [中文] 备注: None 摘要: 数据集剪枝——选择一个小而信息丰富的训练数据子集——作为一种高效的机器学习策略已经展现出很大的潜力,与数据集蒸馏等替代方法相比,它在计算成本和存储方面提供了显著的减少。虽然剪枝方法在图像分类中表现出色,但它们在更复杂的计算机视觉任务,特别是目标检测中的扩展仍然相对未被充分探索。在本文中,据我们所知,我们首次将分类剪枝技术系统地扩展到目标检测领域。我们识别并解决了阻碍这一转变的三个关键挑战:目标级归因问题、评分策略问题和图像级聚合问题。为了解决这些问题,我们提出了量身定制的解决方案,包括一种新颖的评分方法,称为基于方差的预测评分(VPS)。VPS利用交并比(IoU)和置信度评分,有效识别出特定于检测任务的信息丰富的训练样本。在PASCAL VOC和MS COCO上的大量实验表明,我们的方法在平均精度(mAP)方面始终优于现有的数据集剪枝方法。我们还表明,注释数量和类别分布的变化会影响检测性能,但选择信息丰富的样本比数据集的大小或平衡性更为关键。我们的工作架起了数据集剪枝与目标检测之间的桥梁,为复杂视觉任务中的数据集剪枝铺平了道路。 |
[10] ExpertGen:无需训练的专家指导可控文本到人脸生成 标题: ExpertGen: Training-Free Expert Guidance for Controllable Text-to-Face Generation 作者: Liang Shi / Yun Fu 原文: [英文] [中文] 备注: None 摘要: 最近在扩散模型方面的进展显著提升了文本到人脸的生成能力,但在面部特征的细粒度控制上仍然存在挑战。现有的方法通常需要训练额外的模块来处理特定的控制,如身份、属性或年龄,这使得它们不够灵活且资源密集。我们提出了ExpertGen,这是一种无需训练的框架,利用预训练的专家模型,如人脸识别、面部属性识别和年龄估计网络,以实现精细控制的生成。我们的方法使用潜在一致性模型来确保在每个扩散步骤中生成真实且符合分布的预测,从而使准确的引导信号能够有效地引导扩散过程。我们从定性和定量的角度展示了专家模型可以高精度地引导生成过程,并且多个专家可以协作实现对多种面部特征的同时控制。通过允许直接集成现成的专家模型,我们的方法将任何此类模型转变为可控人脸生成的即插即用组件。 |
[11] 缓解一个,偏斜另一个?应对文本到图像模型中的交叉偏见 标题: Mitigate One, Skew Another? Tackling Intersectional Biases in Text-to-Image Models 作者: Pushkar Shukla / Aditya Chinchure / Emily Diana / Alexander Tolbert / Kartik Hosanagar / Vineeth N Balasubramanian / Leonid Sigal / Matthew Turk 原文: [英文] [中文] 备注: None 摘要: 文本到图像(TTI)模型所表现出的偏见通常被视为独立的,然而实际上,它们可能是深度相互关联的。在一个维度上解决偏见问题——例如种族或年龄——可能会无意中影响另一个维度,如性别,从而减轻或加剧现有的不平等。理解这些相互依赖性对于设计更公平的生成模型至关重要,但定量测量这些效应仍然是一个挑战。为了解决这个问题,我们引入了BiasConnect,这是一种用于分析和量化TTI模型中偏见交互的新工具。BiasConnect使用不同偏见轴上的反事实干预来揭示这些交互的潜在结构,并估计缓解一个偏见轴对另一个偏见轴的影响。这些估计与观察到的缓解后结果表现出很强的相关性(+0.65)。在BiasConnect的基础上,我们提出了InterMit,这是一种由用户定义的目标分布和优先权重指导的交叉偏见缓解算法。InterMit在较少的缓解步骤(平均2.38步对比3.15步)下实现了更低的偏见(0.33对比0.52),并且与传统技术相比,产生了更高质量的图像。尽管我们的实现是无需训练的,InterMit是模块化的,可以与许多现有的TTI模型去偏方法集成,使其成为一个灵活且可扩展的解决方案。 |
[12] 利用电子健康记录进行基于扩散的胸部X光异常检测 标题: Harnessing EHRs for Diffusion-based Anomaly Detection on Chest X-rays 作者: Harim Kim / Yuhan Wang / Minkyu Ahn / Heeyoul Choi / Yuyin Zhou / Charmgil Hong 原文: [英文] [中文] 备注: MICCAI 2025 early accept 摘要: 无监督异常检测(UAD)在医学影像中对于识别病理异常至关重要,而无需大量标注数据。然而,现有的基于扩散的UAD模型仅依赖于影像特征,限制了它们区分正常解剖变异和病理异常的能力。为了解决这个问题,我们提出了Diff3M,这是一种多模态的基于扩散的框架,整合了胸部X光片和结构化电子健康记录(EHRs)以增强异常检测。具体来说,我们引入了一种新颖的图像-EHR交叉注意模块,将结构化临床背景融入图像生成过程中,提高模型区分正常与异常特征的能力。此外,我们开发了一种静态掩蔽策略,以增强从异常中重建正常图像的能力。在CheXpert和MIMIC-CXR/IV上的广泛评估表明,Diff3M达到了最先进的性能,优于现有的医学影像UAD方法。我们的代码可在此http URL此https URL获取。 |
[13] 分析细粒度对齐并增强多模态语言模型中的视觉理解 标题: Analyzing Fine-Grained Alignment and Enhancing Vision Understanding in Multimodal Language Models 作者: Jiachen Jiang / Jinxin Zhou / Bo Peng / Xia Ning / Zhihui Zhu 原文: [英文] [中文] 备注: None 摘要: 在视觉嵌入和大型语言模型(LLMs)之间实现更好的对齐对于增强多模态大型语言模型(MLLMs)的能力至关重要,特别是对于依赖于强大的预训练视觉编码器和LLMs的最新模型。将预训练的视觉编码器和LLM连接起来的一种常见方法是通过在视觉编码器之后应用一个投影器。然而,投影器通常被训练用于使LLM生成字幕,因此LLM理解每个视觉标记的机制仍不清楚。在这项工作中,我们首先研究了投影器在压缩视觉嵌入和将其与词嵌入对齐中的作用。我们表明,投影器显著压缩了视觉信息,去除了冗余细节,同时保留了LLM理解视觉内容所需的基本元素。然后,我们研究了补丁级对齐——即每个视觉补丁与其对应语义词之间的对齐——并提出了一个*多语义对齐假设*。我们的分析表明,通过字幕损失训练的投影器改善了补丁级对齐,但程度有限,导致对齐较弱且粗糙。为了解决这个问题,我们提出了*补丁对齐训练*,以有效增强补丁级对齐。我们的实验表明,补丁对齐训练(1)实现了更强的压缩能力和改进的补丁级对齐,使MLLM能够生成更高质量的字幕,(2)在使用相同的监督微调(SFT)设置时,将MLLM在指称表达定位任务上的性能提高了16%,在问答任务上提高了4%,在现代指令遵循基准上提高了3%。所提出的方法可以轻松扩展到其他多模态模型。 |
[14] 优化图像捕获以实现计算机视觉驱动的生物多样性标本分类鉴定和特征识别 标题: Optimizing Image Capture for Computer Vision-Powered Taxonomic Identification and Trait Recognition of Biodiversity Specimens 作者: Alyson East / Elizabeth G. Campolongo / Luke Meyers / S M Rayeed / Samuel Stevens / Iuliia Zarubiieva / Isadora E. Fluck / Jennifer C. Girón / Maximiliane Jousse / Scott Lowe / Kayla I Perry / Isabelle Betancourt / Noah Charney / Evan Donoso / Nathan Fox / Kim J. Landsbergen / Ekaterina Nepovinnykh / Michelle Ramirez / Parkash Singh / Khum Thapa-Magar / Matthew Thompson / Evan Waite / Tanya Berger-Wolf / Hilmar Lapp / Paula Mabee / Graham Taylor / Sydne Record 原文: [英文] 备注: None 摘要: 生物收藏馆保存着数百万个标本,记录了地球的生物多样性,数字图像通过开放访问平台越来越多地可用。大多数成像协议是为人类视觉解释而开发的,没有考虑计算分析的要求。本文旨在通过提出优化计算机视觉应用的生物标本图像创建的关键考虑因素,弥合当前成像实践与自动化分析潜力之间的差距。我们提供了概念性计算机视觉主题以提供背景,解决了包括模型泛化、数据泄漏和全面元数据文档在内的基本问题,并概述了标本成像和数据存储的实用指导。这些建议是通过分类学家、收藏经理、生态学家和计算机科学家之间的跨学科合作综合而成。通过这种综合,我们识别了十个相互关联的考虑因素,这些因素构成了成功将生物标本图像整合到计算机视觉管道中的框架。关键要素包括:(1)全面的元数据文档,(2)标准化的标本定位,(3)一致的尺寸和颜色校准,(4)处理一张图像中多个标本的协议,(5)统一的背景选择,(6)受控的照明,(7)适当的分辨率和放大倍数,(8)最佳文件格式,(9)强大的数据存档策略,以及(10)可访问的数据共享实践。通过实施这些建议,收藏经理、分类学家和生物多样性信息学家可以生成支持自动特征提取、物种识别以及前所未有规模的新生态和进化分析的图像。成功实施的关键在于对方法选择的详细文档记录。 |
[15] 通过对比学习和领域对抗学习实现游戏不变特征 标题: Game-invariant Features Through Contrastive and Domain-adversarial Learning 作者: Dylan Kline 原文: [英文] [中文] 备注: None 摘要: 基础游戏图像编码器往往会过拟合于特定游戏的视觉风格,当应用于新游戏时,这会削弱其在下游任务中的表现。我们提出了一种方法,将对比学习与领域对抗训练相结合,以学习游戏不变的视觉特征。通过同时鼓励相似内容聚类并通过对抗领域分类器抑制特定游戏的线索,我们的方法生成的嵌入能够在不同游戏中泛化。在Bingsu游戏图像数据集(来自10个游戏的10,000张截图)上的实验表明,仅经过几个训练周期后,我们模型的特征不再按游戏聚类,这表明成功实现了不变性,并且在最小微调的情况下具有改进跨游戏迁移(例如,故障检测)的潜力。这一能力为开发更具普遍性的游戏视觉模型铺平了道路,这些模型在新游戏上几乎不需要重新训练。 |
[16] FS-DAG:用于视觉丰富文档理解的少样本领域自适应图网络 标题: FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding 作者: Amit Agarwal / Srikant Panda / Kulbhushan Pachauri 原文: [英文] [中文] 备注: Published in the Proceedings of the 31st International Conference on Computational Linguistics (COLING 2025), Industry Track, pages 100-114 摘要: 在这项工作中,我们提出了少样本领域自适应图(FS-DAG),这是一种可扩展且高效的模型架构,适用于少样本环境下的视觉丰富文档理解(VRDU)。FS-DAG在模块化框架中利用特定领域和语言/视觉的骨干网络,以最少的数据适应多样化的文档类型。该模型对实际挑战具有鲁棒性,例如处理OCR错误、拼写错误和领域转移,这些在现实世界的部署中至关重要。FS-DAG的参数少于90M,非常适合在计算资源有限的情况下用于信息提取(IE)任务的复杂现实应用。我们通过广泛的实验展示了FS-DAG在信息提取任务中的能力,与最先进的方法相比,显著提高了收敛速度和性能。此外,这项工作强调了在开发更小、更高效的模型方面的持续进展,而不牺牲性能。代码:这个https URL |
[17] 通过图像到视频合成的时间差分场进行四维运动建模 标题: Temporal Differential Fields for 4D Motion Modeling via Image-to-Video Synthesis 作者: Xin You / Minghui Zhang / Hanxiao Zhang / Jie Yang / Nassir Navab 原文: [英文] [中文] 备注: early accepted by MICCAI 摘要: 对由呼吸引起的规律性运动进行时间建模对于图像引导的临床应用至关重要。现有的方法无法模拟时间运动,除非同时存在包括起始和结束帧的高剂量成像扫描。然而,在术前数据采集阶段,患者的轻微移动可能导致呼吸周期内首尾帧之间的动态背景。这种额外的偏差很难通过图像配准去除,从而影响时间建模。为了解决这一限制,我们开创性地通过图像到视频(I2V)合成框架模拟规律运动过程,该框架以第一帧进行动画处理,以预测给定长度的未来帧。此外,为了促进动画视频的时间一致性,我们设计了时间差分扩散模型来生成时间差分场,这些场测量相邻帧之间的相对差分表示。我们设计了提示注意层用于细粒度差分场,并采用场增强层以更好地将这些场与I2V框架进行交互,促进合成视频的更准确时间变化。在ACDC心脏和4D肺部数据集上的大量结果表明,我们的方法沿着内在运动轨迹模拟4D视频,在感知相似性和时间一致性方面可与其他竞争方法媲美。代码将很快发布。 |
[18] Render-FM:用于实时真实感体积渲染的基础模型 标题: Render-FM: A Foundation Model for Real-time Photorealistic Volumetric Rendering 作者: Zhongpai Gao / Meng Zheng / Benjamin Planche / Anwesa Choudhuri / Terrence Chen / Ziyan Wu 原文: [英文] [中文] 备注: None 摘要: 计算机断层扫描(CT)扫描的体积渲染对于在医学成像中可视化复杂的三维解剖结构至关重要。目前的高保真方法,尤其是神经渲染技术,需要耗时的每场景优化,由于计算需求和泛化能力差,限制了其临床应用。我们提出了Render-FM,这是一种用于CT扫描直接实时体积渲染的新型基础模型。Render-FM采用编码器-解码器架构,直接从CT体积回归6D高斯散射(6DGS)参数,通过在多样化医学数据上的大规模预训练,消除了每次扫描的优化。通过将强大的特征提取与6DGS的表现力相结合,我们的方法能够高效地生成高质量、实时交互的三维可视化,适用于各种临床CT数据。实验表明,Render-FM在视觉保真度上可与专门的每次扫描方法相媲美或更优,同时将单次推理步骤的准备时间从近一个小时大幅缩短到几秒钟。这一进步使其能够无缝集成到实时手术规划和诊断工作流程中。项目页面为:this https URL。 |
[19] 眼动认证:凝视与眼周特征的融合 标题: Ocular Authentication: Fusion of Gaze and Periocular Modalities 作者: Dillon Lohr / Michael J. Proulx / Mehedi Hasan Raju / Oleg V. Komogortsev 原文: [英文] [中文] 备注: Supplementary material is available 摘要: 本文研究了在一个无需校准的认证系统中融合两种以眼为中心的认证方式——眼动和眼周图像的可行性。虽然每种方式单独用于用户认证时都显示出良好的前景,但在一个统一的视线估计流程中结合这两种方式的大规模探索尚未充分进行。在本报告中,我们提出了一种多模态认证系统,并使用一个包含9202名受试者的大规模内部数据集对其进行评估,该数据集的眼动追踪(ET)信号质量相当于面向消费者的虚拟现实(VR)设备。我们的结果表明,多模态方法在所有场景中始终优于两种单模态系统,超越了FIDO基准。集成的最先进的机器学习架构显著提升了大规模认证性能,这得益于模型捕捉认证表示的能力以及融合模态的互补判别特性。 |
[20] 通过强化学习和奖励建模实现扩散模型的对齐和安全性:一项综述 标题: Alignment and Safety of Diffusion Models via Reinforcement Learning and Reward Modeling: A Survey 作者: Preeti Lamba / Kiran Ravish / Ankita Kushwaha / Pawan Kumar 原文: [英文] [中文] 备注: None 摘要: 扩散模型已经成为图像和其他模态的领先生成模型,但使其输出与人类偏好和安全约束对齐仍然是一个关键挑战。本文的研究计划探讨了使用强化学习(RL)和奖励建模来对齐扩散模型的方法。我们调查了最近在文本到图像扩散模型中通过人类反馈进行微调的进展,包括来自人类和人工智能反馈的强化学习、直接偏好优化和可微分奖励方法。我们根据反馈类型(人类、自动化、二元或排序偏好)、微调技术(策略梯度、奖励加权似然、直接反向传播等)以及它们的效率和安全结果对这些方法进行分类。我们比较了关键算法和框架,强调了它们如何改善与用户意图或安全标准的对齐,并讨论了它们之间的相互关系,例如新方法如何建立在早期方法之上或与之不同。基于调查,我们确定了未来两年内五个有前景的研究方向:(1)结合奖励的多目标对齐,(2)高效的人类反馈使用和主动学习,(3)针对对抗性输入的稳健安全对齐,(4)扩散模型的持续和在线对齐,以及(5)生成图像的可解释和可信的奖励建模。每个方向都详细阐述了其问题陈述、挑战、相关工作和拟议的研究计划。该提案组织为一份全面的文件,包含文献综述、方法的比较表格和详细的研究计划,旨在为更安全和价值对齐的基于扩散的生成式人工智能贡献新的见解和技术。 |
[21] 逆问题的双重上升扩散 标题: Dual Ascent Diffusion for Inverse Problems 作者: Minseo Kim / Axel Levy / Gordon Wetzstein 原文: [英文] [中文] 备注: 23 pages, 15 figures, 5 tables 摘要: 病态逆问题在许多领域中都是基础性的,从天体物理学到医学成像。新兴的扩散模型为解决这些问题提供了强大的先验。然而,现有的最大后验(MAP)或后验采样方法依赖于不同的计算近似,导致样本不准确或次优。为了解决这个问题,我们引入了一种新的方法,使用对偶上升优化框架解决具有扩散模型先验的MAP问题。我们的框架在图像恢复问题中,通过各种指标测量,达到了更好的图像质量,对高水平的测量噪声更具鲁棒性,速度更快,并且估计的解决方案比现有技术更忠实地代表了观测结果。 |
[22] 通过散焦模糊线索重新利用万寿菊进行零样本度量深度估计 标题: Repurposing Marigold for Zero-Shot Metric Depth Estimation via Defocus Blur Cues 作者: Chinmay Talegaonkar / Nikhil Gandudi Suresh / Zachary Novack / Yash Belhe / Priyanka Nagasamudra / Nicholas Antipa 原文: [英文] [中文] 备注: None 摘要: 最近的单目度量深度估计(MMDE)方法在零样本泛化方面取得了显著进展。然而,它们在分布外数据集上仍然表现出显著的性能下降。我们通过在推理时向 Marigold 注入散焦模糊线索来解决这一限制,Marigold 是一个用于零样本、尺度不变单目深度估计(MDE)的\textit{预训练}扩散模型。我们的方法有效地将 Marigold 转变为一种无需训练的度量深度预测器。为了结合散焦线索,我们从同一视点捕获两个具有小光圈和大光圈的图像。为了恢复度量深度,我们在推理时使用基于散焦模糊图像形成模型的损失函数的梯度来优化 Marigold 的度量深度缩放参数和噪声潜变量。我们在一个自收集的真实数据集上将我们的方法与现有的最先进的零样本 MMDE 方法进行比较,显示出定量和定性的改进。 |
[23] GNN 值得用于物联网僵尸网络检测的努力吗?VAE-GNN 与 ViT-MLP 和 VAE-MLP 方法的比较研究 标题: Are GNNs Worth the Effort for IoT Botnet Detection? A Comparative Study of VAE-GNN vs. ViT-MLP and VAE-MLP Approaches 作者: Hassan Wasswa / Hussein Abbass / Timothy Lynar 原文: [英文] 备注: None 摘要: 由于基于物联网的僵尸网络攻击呈指数级增长,研究人员探索了各种先进技术以进行维度缩减和攻击检测,以增强物联网安全性。在这些技术中,变分自编码器(VAE)、视觉变换器(ViT)和图神经网络(GNN),包括图卷积网络(GCN)和图注意网络(GAT),在攻击检测领域引起了显著的研究关注。本研究评估了四种最先进的深度学习架构在物联网僵尸网络检测中的有效性:一个带有多层感知器(MLP)的VAE编码器、一个带有GCN的VAE编码器、一个带有GAT的VAE编码器,以及一个带有MLP的ViT编码器。评估是在一个广泛研究的物联网基准数据集——N-BaIoT数据集上进行的,涵盖了二元和多类任务。在二元分类任务中,所有模型在准确率、召回率、精确率和F1分数上均超过99.93%,性能没有显著差异。相比之下,在多类分类任务中,基于GNN的模型表现明显低于VAE-MLP和ViT-MLP,VAE-GCN、VAE-GAT、VAE-MLP和ViT-MLP的准确率分别为86.42%、89.46%、99.72%和98.38%。 |
[24] 优化YOLOv8用于停车位检测:自定义YOLOv8架构的比较分析 标题: Optimizing YOLOv8 for Parking Space Detection: Comparative Analysis of Custom YOLOv8 Architecture 作者: Apar Pokhrel / Gia Dao 原文: [英文] [中文] 备注: 9 pages 摘要: 停车位占用检测是智能停车管理系统开发中的关键组成部分。传统的目标检测方法,如YOLOv8,能够在停车场中快速准确地检测车辆,但在边界情况下可能会遇到困难,例如部分可见的车辆、小型车辆(如摩托车)以及光线不佳的条件。在这项工作中,我们对与YOLOv8集成的定制骨干架构进行了全面的比较分析。具体来说,我们在PKLot数据集上评估了各种骨干网络——ResNet-18、VGG16、EfficientNetV2、Ghost——在检测准确性和计算效率方面的表现。实验结果突出了每种架构的优势和权衡,为选择适合的停车占用检测模型提供了见解。 |
[25] EVM-Fusion: 一种具有神经算法融合的可解释视觉曼巴架构 标题: EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion 作者: Zichuan Yang 原文: [英文] [中文] 备注: 16 pages, 4 figures 摘要: 医学图像分类对于临床决策至关重要,但对准确性、可解释性和泛化能力的要求仍然具有挑战性。本文介绍了EVM-Fusion,这是一种可解释的Vision Mamba架构,具有用于多器官医学图像分类的新型神经算法融合(NAF)机制。EVM-Fusion利用多路径设计,其中基于DenseNet和U-Net的路径通过Vision Mamba(Vim)模块增强,与传统特征路径并行运行。这些多样化的特征通过两阶段融合过程动态集成:跨模态注意力,随后是迭代NAF块,学习自适应融合算法。内在的可解释性通过路径特定的空间注意力、Vim Δ值图、传统特征SE注意力和跨模态注意力权重嵌入。对一个多样化的9类多器官医学图像数据集的实验表明,EVM-Fusion具有强大的分类性能,测试准确率达到99.75%,并提供其决策过程的多方面见解,突显其在医学诊断中作为可信AI的潜力。 |
[26] 双感知驾驶检测模型 标题: Dual-sensing driving detection model 作者: Leon C.C.K / Zeng Hui 原文: [英文] [中文] 备注: 19 pages 摘要: 本文提出了一种新颖的双感知驾驶员疲劳检测方法,该方法结合了计算机视觉和生理信号分析。该系统利用了这两种感知模式的互补优势,突破了现有单一模式方法的局限性。我们引入了一种创新的架构,将实时面部特征分析与生理信号处理相结合,并结合先进的融合策略,实现了稳健的疲劳检测。该系统设计为能够在现有硬件上高效运行,同时保持高精度和可靠性。通过全面的实验,我们证明了我们的方法在受控环境和真实世界条件下均优于传统方法,同时保持高精度。该系统的实际适用性已通过在各种驾驶场景中的广泛测试得到验证,并显示出在减少疲劳相关事故方面的巨大潜力。本研究通过提供一种更可靠、成本效益更高且更人性化的驾驶员疲劳检测解决方案,为该领域做出了贡献。 |
[27] 使用视觉变换器和野火数据集进行野火检测 标题: Wildfire Detection Using Vision Transformer with the Wildfire Dataset 作者: Gowtham Raj Vuppari / Navarun Gupta / Ahmed El-Sayed / Xingguo Xiong 原文: [英文] 备注: Published at ASEE NE 2025 摘要: 美国,尤其是加利福尼亚州,野火的频率和强度不断上升,突显出对复杂检测技术的迫切需求。2023年,野火在全国范围内造成了130人死亡,这是自1990年以来的最高记录。2025年1月,洛杉矶的野火,包括帕利塞德和伊顿火灾,烧毁了大约40,000英亩的土地和12,000栋建筑物,并造成人员伤亡。这种破坏强调了有效检测和预防策略的紧迫性。深度学习模型,如视觉变换器(ViTs),可以通过高精度处理复杂的图像数据来增强早期检测。然而,野火检测面临挑战,包括高质量、实时数据的可用性。野火通常发生在传感器覆盖有限的偏远地区,烟雾和云层等环境因素可能会阻碍检测。此外,训练深度学习模型计算成本高,误报/漏报和扩展性等问题仍然是关注点。将检测系统与实时警报机制集成也存在困难。在这项工作中,我们使用了一个包含10.74 GB高分辨率图像的野火数据集,这些图像被分类为“火灾”和“无火灾”类别,用于训练ViT模型。为了准备数据,图像被调整为224 x 224像素,转换为张量格式,并使用ImageNet统计数据进行归一化。 |
[28] Direct3D-S2:通过空间稀疏注意力简化千兆级3D生成 标题: Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention 作者: Shuang Wu / Youtian Lin / Feihu Zhang / Yifei Zeng / Yikang Yang / Yajie Bao / Jiachen Qian / Siyu Zhu / Philip Torr / Xun Cao / Yao Yao 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 使用体积表示(如符号距离函数)生成高分辨率的3D形状面临着巨大的计算和内存挑战。我们介绍了Direct3D S2,这是一种基于稀疏体积的可扩展3D生成框架,能够以显著降低的训练成本实现卓越的输出质量。我们的关键创新是空间稀疏注意力机制(Spatial Sparse Attention),它极大地提高了稀疏体积数据上扩散变压器计算的效率。SSA使模型能够有效处理稀疏体积中的大量标记集,显著减少计算开销,在前向传递中实现了3.9倍的加速,在反向传递中实现了9.6倍的加速。我们的框架还包括一个变分自编码器,在输入、潜在和输出阶段保持一致的稀疏体积格式。与之前在3D VAE中使用异构表示的方法相比,这种统一的设计显著提高了训练效率和稳定性。我们的模型在公开可用的数据集上进行训练,实验表明,Direct3D S2不仅在生成质量和效率上超越了最先进的方法,还能够仅使用8个GPU在1024分辨率下进行训练,而通常情况下,256分辨率的体积表示至少需要32个GPU,从而使千兆级3D生成变得既实用又可行。项目页面:this https URL。 |
[29] VIBE:用于TL;DR的视频到文本信息瓶颈评估 标题: VIBE: Video-to-Text Information Bottleneck Evaluation for TL;DR 作者: Shenghui Chen / Po-han Li / Sandeep Chichali / Ufuk Topcu 原文: [英文] [中文] 备注: None 摘要: 许多在准确性和效率都很重要的决策任务仍然需要人工监督。例如,交通警察审查长达一小时的行车记录仪视频或研究人员筛选会议视频等任务,可以从减少认知负担和节省时间的简洁摘要中受益。然而,目前的视觉语言模型(VLMs)往往产生冗长、重复的输出,妨碍任务的执行。现有的视频字幕评估依赖于昂贵的人为注释,并忽视了摘要在下游任务中的实用性。我们通过视频到文本信息瓶颈评估(VIBE)来解决这些问题,这是一种无需注释的方法,通过两个指标对VLM输出进行评分:基础性(摘要与视觉内容的对齐程度)和实用性(对任务的有用信息程度)。VIBE通过根据这两个评分对随机采样的VLM输出进行排序来选择摘要,以支持有效的人类决策。在LearningPaper24、SUTD-TrafficQA和LongVideoBench上的人类研究表明,与简单的VLM摘要或原始视频相比,VIBE选择的摘要能一致地提高性能,将任务准确性提高最多61.23%,并将响应时间减少75.77%。 |
[30] 去偏CLIP:解释和纠正注意力头中的偏差 标题: Debiasing CLIP: Interpreting and Correcting Bias in Attention Heads 作者: Wei Jie Yeo / Rui Mao / Moloud Abdar / Erik Cambria / Ranjan Satapathy 原文: [英文] [中文] 备注: Under review 摘要: 像 CLIP 这样的多模态模型由于其在各种任务中的显著零样本性能而受到广泛关注。然而,研究表明,CLIP 可能会无意中学习目标变量与混杂因素之间的虚假关联。为了解决这个问题,我们引入了 \textsc{Locate-Then-Correct} (LTC),这是一种对比框架,通过机械洞察识别视觉变换器中的虚假注意力头,并通过有针对性的消融来减轻它们的影响。此外,LTC 还识别出显著的、与任务相关的注意力头,从而通过正交投影整合判别特征以提高分类性能。我们在具有固有背景和性别偏见的基准上评估 LTC,与非训练的事后基线相比,最差组准确率提高了超过 50%。此外,我们可视化了所选注意力头的表示,发现所呈现的解释证实了我们用于识别虚假和显著注意力头的对比机制。代码可在此 https URL 获取。 |
[31] 从全语义监督中学习广义且灵活的轨迹模型 标题: Learning Generalized and Flexible Trajectory Models from Omni-Semantic Supervision 作者: Yuanshao Zhu / James Jianqiao Yu / Xiangyu Zhao / Xiao Han / Qidong Liu / Xuetao Wei / Yuxuan Liang 原文: [英文] [中文] 备注: Accepted as a full paper by KDD'25 - Research Track 摘要: 移动设备和数据收集技术的广泛应用导致了轨迹数据的指数级增长,这在时空数据挖掘中带来了重大挑战,特别是在高效和准确的轨迹检索方面。然而,现有的轨迹检索方法面临显著的局限性,包括在大规模数据中的低效、对基于条件查询的支持不足以及对轨迹相似性度量的依赖。为了解决上述挑战,我们提出了OmniTraj,一个通用且灵活的全语义轨迹检索框架,该框架将四种互补的模态或语义——原始轨迹、拓扑、道路段和区域——整合到一个统一的系统中。与传统方法仅限于将轨迹作为单一模态进行计算和处理不同,OmniTraj为每种模态设计了专用的编码器,这些编码器被嵌入并融合到一个共享的表示空间中。该设计使OmniTraj能够基于任何单一模态或其组合支持准确且灵活的查询,从而克服了传统基于相似性方法的僵化性。在两个真实世界数据集上的大量实验表明,OmniTraj在处理大规模数据、提供灵活的多模态查询以及支持下游任务和应用方面的有效性。 |
[32] VEAttack: 针对大型视觉语言模型的下游无关视觉编码器攻击 标题: VEAttack: Downstream-agnostic Vision Encoder Attack against Large Vision Language Models 作者: Hefei Mei / Zirui Wang / Shen You / Minjing Dong / Chang Xu 原文: [英文] [中文] 备注: None 摘要: 大型视觉-语言模型(LVLMs)在多模态理解和生成方面展示了显著的能力,但其对对抗攻击的脆弱性引发了重要的鲁棒性问题。尽管现有的有效攻击总是集中在特定任务的白盒设置上,但这些方法在LVLMs的背景下是有限的,因为LVLMs是为多样的下游任务设计的,并且需要昂贵的全模型梯度计算。受到视觉编码器在LVLMs中关键角色和广泛应用的启发,我们提出了一种简单而有效的视觉编码器攻击(VEAttack),该方法仅针对LVLMs的视觉编码器。具体来说,我们建议通过最小化干净和扰动视觉特征之间的余弦相似性来生成对抗样本,而无需访问后续的大型语言模型、任务信息和标签。这显著减少了计算开销,同时消除了传统白盒攻击在LVLMs中的任务和标签依赖性。为了使这种简单的攻击有效,我们建议通过优化图像标记而不是分类标记来扰动图像。我们提供了实证和理论证据表明VEAttack可以轻松推广到各种任务。VEAttack在图像字幕任务上实现了94.5%的性能下降,在视觉问答任务上实现了75.7%的性能下降。我们还揭示了一些关键观察结果,以提供对LVLM攻击/防御的见解:1)LLM的隐藏层变化,2)标记注意力差异,3)转移攻击中的莫比乌斯带,4)对攻击步骤的低敏感性。代码可在此https URL获取。 |
[33] 基于反射率预测的知识蒸馏用于压缩点云中稳健的3D物体检测 标题: Reflectance Prediction-based Knowledge Distillation for Robust 3D Object Detection in Compressed Point Clouds 作者: Hao Jing / Anhong Wang / Yifan Zhang / Donghan Bu / Junhui Hou 原文: [英文] [中文] 备注: None 摘要: 关于车辆网络的智能交通系统,通过有损点云压缩进行低比特率传输对于在带宽受限的车辆之间实现实时协同感知至关重要。在现有的压缩传输系统中,发送方对点坐标和反射率进行有损压缩以生成传输码流,这面临着反射率编码的传输负担以及由于信息丢失导致的检测鲁棒性有限的问题。为了解决这些问题,本文提出了一种基于反射率预测知识蒸馏(RPKD)的3D目标检测框架。我们在低比特率传输中压缩点坐标并丢弃反射率,并将解码后的无反射率压缩点云输入到学生检测器中。丢弃的反射率随后由学生检测器内的基于几何的反射率预测(RP)模块重建,以实现精确检测。我们设计了一个与学生检测器结构相同的教师检测器,用于从原始点云到压缩点云进行反射率知识蒸馏(RKD)和检测知识蒸馏(DKD)。我们的RPKD框架在原始和压缩点云上联合训练检测器,以提高学生检测器的鲁棒性。在KITTI数据集和Waymo开放数据集上的实验结果表明,我们的方法可以在多个码率下提高压缩点云的检测精度。值得注意的是,在KITTI数据集上以2.146 Bpp的低码率下,我们的RPKD-PV实现了73.6的最高mAP,优于现有的以PV-RCNN为基线的检测方法。 |
[34] 爪印:这些足迹是谁的?通过足迹识别动物个体 标题: PawPrint: Whose Footprints Are These? Identifying Animal Individuals by Their Footprints 作者: Inpyo Song / Hyemin Hwang / Jangwon Lee 原文: [英文] [中文] 备注: Accepted to ICIP 2025 摘要: 截至2023年,美国的宠物拥有率已达到66%的家庭,并且每年持续增长。这一趋势强调了有效的宠物识别和监测方法的关键需求,特别是每年有近1000万只猫和狗被报告为被盗或丢失。然而,传统的寻找丢失动物的方法如GPS标签或ID照片存在局限性——它们可以被移除,面临信号问题,并依赖于有人发现并报告宠物。为了解决这些局限性,我们引入了PawPrint和PawPrint+,这是首个公开可用的专注于狗和猫个体足迹识别的数据集。通过对现代深度神经网络(例如CNN、Transformers)和经典局部特征的全面基准测试,我们观察到根据基质复杂性和数据可用性存在不同的优势和缺点。这些见解为结合学习的全局表示与局部描述符以增强在多样化的现实条件下的可靠性提供了未来方向。由于这种方法提供了传统ID标签的非侵入性替代方案,我们预计在伦理宠物管理和野生动物保护工作中有着良好的应用前景。 |
[35] 实时交通事故预测中的特征重用 标题: Real-time Traffic Accident Anticipation with Feature Reuse 作者: Inpyo Song / Jangwon Lee 原文: [英文] [中文] 备注: Accepted to ICIP 2025 摘要: 本文探讨了预测交通事故的问题,旨在在事故发生之前预测潜在的事故。实时预测对于安全的自动驾驶至关重要,但大多数方法依赖于计算量大的模块,如光流和中间特征提取器,使得实际部署具有挑战性。因此,在本文中,我们介绍了RARE(实时事故预测与重用嵌入),这是一种轻量级框架,利用单个预训练对象检测器的中间特征。通过消除额外的特征提取流程,RARE显著降低了延迟。此外,我们引入了一种新的注意力评分排序损失,该损失优先关注与事故相关的对象而非无关对象。此损失提高了准确性和可解释性。RARE在DAD和CCD基准测试中比现有方法快4-8倍,在RTX 6000上实现了每帧13.6毫秒(73.3 FPS)的延迟。此外,尽管其复杂性降低,它仍然达到了最先进的平均精度,并能够可靠地实时预测即将发生的碰撞。这些结果突显了RARE在安全关键应用中及时且可解释预测的潜力。 |
[36] 用于高效全切片图像理解的图形曼巴 标题: Graph Mamba for Efficient Whole Slide Image Understanding 作者: Jiaxuan Lu / Junyan Shi / Yuhui Lin / Fang Yan / Yue Gao / Shaoting Zhang / Xiaosong Wang 原文: [英文] [中文] 备注: None 摘要: 在组织病理学中,全切片图像(WSIs)由于其高分辨率、大尺寸和复杂的切片关系,对大规模医学图像分析提出了重大挑战。现有的多实例学习(MIL)方法,如图神经网络(GNNs)和基于Transformer的模型,在可扩展性和计算成本方面面临限制。为了解决这一问题,我们提出了WSI-GMamba框架,该框架将GNNs的关系建模优势与Mamba的效率相结合,Mamba是为序列学习设计的状态空间模型。所提出的GMamba模块通过双向状态空间模型(Bi-SSM)整合消息传递、图扫描与展平以及特征聚合,实现了与Transformer相当的性能,但计算量减少了7倍。通过利用轻量级GNNs和Mamba的互补优势,WSI-GMamba框架为大规模WSI分析提供了一个可扩展的解决方案,提供了高准确性和计算效率的切片级分类。 |
[37] 通过利用人类色觉缺陷诊断方法来诊断视觉语言模型的感知能力 标题: Diagnosing Vision Language Models' Perception by Leveraging Human Methods for Color Vision Deficiencies 作者: Kazuki Hayashi / Shintaro Ozaki / Yusuke Sakai / Hidetaka Kamigaito / Taro Watanabe 原文: [英文] [中文] 备注: None 摘要: 大规模视觉语言模型(LVLMs)正越来越多地应用于各种现实世界的多模态应用中,这些应用涉及复杂的视觉和语言推理。随着这些模型在实际使用中的整合,它们被期望能够处理人类互动中的复杂方面。其中,颜色感知是视觉理解中一个基本但高度可变的方面。由于生物因素(如色觉缺陷,CVDs)以及文化和语言的差异,颜色感知在个体之间存在差异。尽管其重要性显著,但感知多样性却很少受到关注。在我们的研究中,我们使用石原测试(一种广泛用于检测色觉缺陷的方法)来评估LVLMs在解释个体感知差异方面的能力。我们的结果表明,LVLMs能够用自然语言解释色觉缺陷,但无法在基于图像的任务中模拟色觉缺陷者如何感知颜色。这些发现强调了需要能够考虑颜色感知多样性的多模态系统,并支持在多模态人工智能中关于感知包容性和公平性的更广泛讨论。 |
[38] OrionBench:信息图中图表和人类可识别物体检测的基准 标题: OrionBench: A Benchmark for Chart and Human-Recognizable Object Detection in Infographics 作者: Jiangning Zhu / Yuxing Zhou / Zheng Wang / Juntao Yao / Yima Gu / Yuhui Yuan / Shixia Liu 原文: [英文] [中文] 备注: None 摘要: 鉴于图表在科学、商业和交流环境中的核心作用,增强视觉语言模型(VLMs)的图表理解能力变得越来越重要。现有VLMs的一个关键限制在于它们对信息图元素(包括图表和人类可识别对象如图标和图像)的视觉定位不准确。然而,图表理解通常需要识别相关元素并对其进行推理。为了解决这一限制,我们引入了OrionBench,这是一个基准,旨在支持开发用于信息图中图表和人类可识别对象的精确目标检测模型。它包含26,250个真实和78,750个合成信息图,具有超过690万个边界框注释。这些注释是通过结合模型循环和程序化方法创建的。我们通过三个应用展示了OrionBench的实用性:1)构建一个“Thinking-with-Boxes”方案以提升VLMs的图表理解性能,2)比较现有的目标检测模型,以及3)将开发的检测模型应用于文档布局和UI元素检测。 |
[39] PoseBH:超越人体姿态估计的原型多数据集训练 标题: PoseBH: Prototypical Multi-Dataset Training Beyond Human Pose Estimation 作者: Uyoung Jeong / Jonathan Freer / Seungryul Baek / Hyung Jin Chang / Kwang In Kim 原文: [英文] 备注: accepted to CVPR 2025 摘要: 我们研究了姿态估计中的多数据集训练(MDT),其中骨架的异质性带来了现有方法尚未解决的独特挑战。在传统领域,例如回归和分类,MDT通常依赖于数据集合并或多头监督。然而,骨架类型的多样性和有限的跨数据集监督使得在姿态估计中的整合变得复杂。为了解决这些挑战,我们引入了PoseBH,这是一种新的MDT框架,通过两个关键技术解决关键点异质性和有限监督问题。首先,我们提出了非参数关键点原型,它们在统一的嵌入空间中学习,实现了跨骨架类型的无缝整合。其次,我们开发了一种跨类型自监督机制,将关键点预测与关键点嵌入原型对齐,提供了无需依赖教师-学生模型或额外增强的监督。PoseBH显著提高了在全身和动物姿态数据集(包括COCO-WholeBody、AP-10K和APT-36K)上的泛化能力,同时保持了在标准人体姿态基准(COCO、MPII和AIC)上的性能。此外,我们学习到的关键点嵌入有效地转移到了手形状估计(InterHand2.6M)和人体形状估计(3DPW)。PoseBH的代码可在此URL获取:this https URL。 |
[40] 连贯性陷阱:当多模态大语言模型编写的叙述利用被操控的视觉上下文 标题: The Coherence Trap: When MLLM-Crafted Narratives Exploit Manipulated Visual Contexts 作者: Yuchen Zhang / Yaxiong Wang / Yujiao Wu / Lianwei Wu / Li Zhu 原文: [英文] [中文] 备注: None 摘要: 多媒体操控的检测和定位已成为打击人工智能生成虚假信息的关键挑战。尽管现有方法近年来取得了一定进展,但我们发现当前方法存在两个根本性限制:(1)低估了由多模态大语言模型(MLLM)驱动的欺骗风险:现有技术主要处理基于规则的文本操控,却未能考虑由多模态大语言模型合成的复杂虚假信息,这些信息可以根据被操控的图像动态生成语义连贯、情境合理但具有欺骗性的叙述;(2)不切实际的失配伪影:当前关注的场景依赖于缺乏语义连贯性的人工失配内容,使其易于检测。为全面解决这些问题,我们提出了一种新的对抗性流程,利用MLLM生成高风险虚假信息。我们的方法首先构建了MLLM驱动的合成多模态(MDSM)数据集,其中图像首先使用最先进的编辑技术进行修改,然后与MLLM生成的保持与视觉操控语义一致的欺骗性文本配对。在此基础上,我们提出了通过MLLM进行伪影感知操控诊断(AMD)框架,具有两个关键创新:伪影预感知编码策略和面向操控的推理,以解决MDSM问题的MLLM。综合实验验证了我们框架作为检测MLLM驱动的多模态欺骗的统一架构的卓越泛化能力。 |
[41] 基于图像处理的电机控制板缺陷检测方法研究 标题: Research on Defect Detection Method of Motor Control Board Based on Image Processing 作者: Jingde Huang / Zhangyu Huang / Chenyu Li / Jiantong Liu 原文: [英文] 备注: None 摘要: 电机控制板存在各种缺陷,如颜色差异不一致、插件位置错误、焊接短路等。这些缺陷直接影响电机控制板的性能和稳定性,从而对产品质量产生负面影响。因此,研究电机控制板的缺陷检测技术是提高电机控制板质量控制水平的重要手段。首先,研究了关于电机控制板的数字图像处理方法,并分析了影响图像特征提取的噪声抑制方法。其次,建立了一个用于被测电机控制板缺陷特征提取和颜色差异识别的特定模型,并根据特征阈值判断合格或不合格产品。第三,优化了缺陷图像的搜索算法。最后,对典型的电机控制板进行了对比实验,实验结果表明,本文建立的基于图像处理的电机控制板缺陷检测模型的准确率超过99%。该方法适用于生产线上大量电机控制板的及时图像处理,实现了高效的缺陷检测。该缺陷检测方法不仅可用于电机控制板缺陷的在线检测,还为行业提供了集成电路板缺陷处理的解决方案。 |
[42] RoHyDR:用于不完整多模态情感识别的鲁棒混合扩散恢复 标题: RoHyDR: Robust Hybrid Diffusion Recovery for Incomplete Multimodal Emotion Recognition 作者: Yuehan Jin / Xiaoqing Liu / Yiyuan Yang / Zhiwen Yu / Tong Zhang / Kaixiang Yang 原文: [英文] [中文] 备注: None 摘要: 多模态情感识别通过结合来自多个来源的数据来分析情感。然而,现实世界中的噪声或传感器故障常常导致数据缺失或损坏,从而产生不完整多模态情感识别(IMER)挑战。在本文中,我们提出了一种新的框架——鲁棒混合扩散恢复(RoHyDR),该框架在单模态、多模态、特征和语义层面进行缺失模态的恢复。对于缺失模态的单模态表示恢复,RoHyDR利用基于扩散的生成器从高斯噪声中生成分布一致且语义对齐的表示,并使用可用的模态作为条件。对于多模态融合恢复,我们引入了对抗学习,以生成逼真的融合多模态表示并恢复缺失的语义内容。我们进一步提出了一种多阶段优化策略,以增强训练的稳定性和效率。与之前的工作相比,RoHyDR中的混合扩散和对抗学习基础的恢复机制允许在特征和语义层面上恢复单模态表示和多模态融合中的缺失信息,有效缓解由次优优化导致的性能下降。在两个广泛使用的多模态情感识别基准上进行的全面实验表明,我们提出的方法在各种缺失模态场景下的鲁棒识别性能优于最先进的IMER方法。我们的代码将在论文接受后公开。 |
[43] 通过对抗混合提示调优增强视觉语言模型的对抗鲁棒性 标题: Enhancing Adversarial Robustness of Vision Language Models via Adversarial Mixture Prompt Tuning 作者: Shiji Zhao / Qihui Zhu / Shukun Xiong / Shouwei Ruan / Yize Fan / Ranjie Duan / Qing Guo / Xingxing Wei 原文: [英文] [中文] 备注: None 摘要: 大型预训练视觉语言模型(VLMs)具有出色的泛化能力,但对抗性样本的攻击非常敏感,存在潜在的安全风险。为了提高VLMs对抗对抗性样本的鲁棒性,提出了对抗性提示调优方法,以在不改变模型参数的情况下,将文本特征与对抗性图像特征对齐。然而,当面对各种对抗性攻击时,单一的可学习文本提示在对齐所有对抗性图像特征方面的泛化能力不足,最终导致过拟合现象。为了解决上述挑战,本文通过实验证明,增加学习提示的数量比延长提示长度能带来更多的鲁棒性提升。然后,我们提出了一种名为对抗性混合提示调优(AMPT)的对抗性调优方法,以增强VLMs对各种对抗性攻击的泛化能力。AMPT旨在学习混合文本提示,以获得更鲁棒的文本特征。为了进一步增强适应性,我们提出了一种基于输入对抗性图像的条件权重路由器,用于预测多个学习提示的混合权重,这有助于获得与不同对抗性图像特征对齐的样本特定聚合文本特征。一系列实验表明,我们的方法在11个数据集上的不同实验设置下,比最先进的方法实现了更好的对抗性鲁棒性。 |
[44] 你关注我所问的吗?通过注意力引导的集成解码来缓解多模态幻觉 标题: Do You Keep an Eye on What I Ask? Mitigating Multimodal Hallucination via Attention-Guided Ensemble Decoding 作者: Yeongjae Cho / Keonwoo Kim / Taebaek Hwang / Sungzoon Cho 原文: [英文] [中文] 备注: None 摘要: 最近,大型视觉语言模型(LVLMs)的进展显著扩展了其在图像描述和视觉问答等任务中的应用。然而,它们仍然面临对象幻觉的问题,即模型生成的描述不准确地反映视觉内容,包含不存在的对象或错误描述现有对象。尽管之前的方法,如数据增强和无训练方法,努力解决这一问题,但它们仍然遇到可扩展性挑战,并且通常依赖于额外的外部模块。在这项工作中,我们提出了集成解码(ED),这是一种新颖的策略,将输入图像分割成子图像,并通过注意力图分配权重来组合logit分布。此外,我们引入了ED自适应合理性约束来校准logit分布,以及FastED,一种为速度关键应用设计的变体。跨越幻觉基准的广泛实验表明,我们提出的方法达到了最先进的性能,验证了我们方法的有效性。 |
[45] 用于统一多模态理解与生成的协同强化学习 标题: Co-Reinforcement Learning for Unified Multimodal Understanding and Generation 作者: Jingjing Jiang / Chongjie Si / Jun Luo / Hanwang Zhang / Chao Ma 原文: [英文] [中文] 备注: None 摘要: 本文首次探索了通过群体相对策略优化进行统一多模态大型语言模型(ULMs)的强化学习(RL),旨在同时增强生成和理解能力。通过系统的初步研究,我们揭示了ULMs在共享策略优化框架内实现双重能力协同进化的巨大潜力。基于这一洞察,我们引入了\textbf{CoRL},一个包含联合优化的统一RL阶段和任务特定增强的精细RL阶段的协同强化学习框架。通过提出的CoRL,我们的模型\textbf{ULM-R1}在三个文本到图像生成数据集上平均提高了\textbf{7%},在九个多模态理解基准上提高了\textbf{23%}。这些结果证明了CoRL的有效性,并突出了强化学习在促进跨任务协同和优化ULMs方面的显著益处。 |
[46] RePrompt:通过强化学习进行文本到图像生成的推理增强再提示 标题: RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning 作者: Mingrui Wu / Lu Wang / Pu Zhao / Fangkai Yang / Jianjin Zhang / Jianfeng Liu / Yuefeng Zhan / Weihao Han / Hao Sun / Jiayi Ji / Xiaoshuai Sun / Qingwei Lin / Weiwei Deng / Dongmei Zhang / Feng Sun / Qi Zhang / Rongrong Ji 原文: [英文] [中文] 备注: Code is available at: this https URL 摘要: 尽管文本到图像(T2I)生成技术最近取得了进展,现有模型在从简短且不明确的提示中忠实捕捉用户意图方面仍常常表现不佳。虽然先前的工作尝试使用大型语言模型(LLMs)增强提示,但由于缺乏对视觉语义和现实世界构图的充分基础,这些方法经常生成风格化或不现实的内容。受最近在语言模型推理方面进展的启发,我们提出了RePrompt,这是一种新颖的重新提示框架,通过强化学习将明确的推理引入提示增强过程。我们的方法不依赖于手工制作的规则或风格化的重写,而是通过优化图像级结果来训练语言模型生成结构化的、自我反思的提示。定制的奖励模型从人类偏好、语义对齐和视觉构图的角度评估生成的图像,提供间接监督以改进提示生成。我们的方法实现了无需人工标注数据的端到端训练。在GenEval和T2I-Compbench上的实验表明,RePrompt显著提升了空间布局的保真度和在不同T2I骨干网络上的组合泛化能力,建立了新的最先进的结果。 |
[47] T2VUnlearning:一种用于文本到视频扩散模型的概念消除方法 标题: T2VUnlearning: A Concept Erasing Method for Text-to-Video Diffusion Models 作者: Xiaoyu Ye / Songjie Cheng / Yongtao Wang / Yajiao Xiong / Yishen Li 原文: [英文] [中文] 备注: None 摘要: 最近在文本到视频(T2V)扩散模型方面的进展显著提升了生成视频的质量。然而,它们生成明确或有害内容的能力引发了对滥用和潜在权利侵犯的担忧。受文本到图像(T2I)模型中消除不良概念的去学习技术成功的启发,我们将去学习扩展到T2V模型,并提出了一种稳健且精确的去学习方法。具体来说,我们采用负向引导的速度预测微调,并通过提示增强来确保对经过大语言模型(LLM)优化的提示的稳健性。为了实现精确的去学习,我们结合了定位和保留正则化,以保留模型生成非目标概念的能力。大量实验表明,我们的方法能够有效地消除特定概念,同时保留模型生成所有其他概念的能力,优于现有方法。我们在\href{this https URL}{this https URL}提供了去学习后的模型。 |
[48] 面向多类别工业异常检测的中心感知残差异常合成 标题: Center-aware Residual Anomaly Synthesis for Multi-class Industrial Anomaly Detection 作者: Qiyu Chen / Huiyuan Luo / Haiming Yao / Wei Luo / Zhen Qu / Chengkan Lv / Zhengtao Zhang 原文: [英文] [中文] 备注: Accepted by IEEE Transactions on Industrial Informatics (TII) 摘要: 异常检测在工业图像的检测中起着至关重要的作用。大多数现有方法需要为每个类别单独建立模型,导致部署成本成倍增加。这突显了开发用于多类别异常检测的统一模型的挑战。然而,类别间干扰的显著增加导致严重的漏检。此外,正常和异常样本之间的类内重叠,特别是在基于合成的方法中,不能被忽视,可能导致过度检测。为了解决这些问题,我们提出了一种新颖的中心感知残差异常合成(CRAS)方法,用于多类别异常检测。CRAS利用中心感知残差学习将来自不同类别的样本耦合到一个统一的中心,减轻类别间干扰的影响。为了进一步减少类内重叠,CRAS引入了距离引导的异常合成,根据正常数据分布自适应调整噪声方差。多样化数据集和真实工业应用的实验结果表明,CRAS具有卓越的检测精度和竞争力的推理速度。源代码和新构建的数据集可在此https URL公开获取。 |
[49] 更深层的扩散模型放大偏见 标题: Deeper Diffusion Models Amplify Bias 作者: Shahin Hakemi / Naveed Akhtar / Ghulam Mubashar Hassan / Ajmal Mian 原文: [英文] [中文] 备注: None 摘要: 尽管生成扩散模型(DMs)表现出色,但其内部工作原理仍未被充分理解,这可能会带来问题。本文着重探讨扩散模型中偏差-方差权衡的重要概念。为这一探索提供系统基础,本文确立了在一个极端情况下,扩散模型可能会放大训练数据中固有的偏差,而在另一个极端情况下,它们可能会损害训练样本的假定隐私。我们的探索与生成模型的记忆-泛化理解相一致,但也在这一光谱上超越了“泛化”,揭示了更深层模型中偏差放大的风险。基于这些见解,我们还引入了一种无需训练的方法,以提高文本到图像和图像到图像生成的输出质量。通过在生成过程中逐步鼓励临时高方差,并部分绕过中间块在DMs去噪过程中的贡献,我们的方法在不增加训练成本的情况下持续提高生成图像的质量。我们的主张在理论和实证上都得到了验证。 |
[50] 模型已经知道最佳噪声:视频扩散模型中的注意力引导贝叶斯主动噪声选择 标题: Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model 作者: Kwanyoung Kim / Sanghyun Kim 原文: [英文] [中文] 备注: 19 pages, 10 figures 摘要: 初始噪声的选择显著影响视频扩散模型的质量和提示对齐,其中相同提示的不同噪声种子可能导致截然不同的生成结果。尽管最近的方法依赖于外部设计的先验知识,如频率滤波器或帧间平滑,但它们往往忽视了内部模型信号,这些信号表明哪些噪声种子本质上更优。为了解决这个问题,我们提出了ANSE(生成的主动噪声选择),这是一种模型感知框架,通过量化基于注意力的不确定性来选择高质量的噪声种子。其核心是BANSA(通过注意力的贝叶斯主动噪声选择),这是一种获取函数,通过测量多个随机注意力样本之间的熵分歧来估计模型的置信度和一致性。为了实现高效的推理时部署,我们引入了BANSA的伯努利掩码近似,这使得可以使用单个扩散步骤和部分注意力层进行分数估计。在CogVideoX-2B和5B上的实验表明,ANSE在推理时间仅增加8%和13%的情况下,改善了视频质量和时间一致性,为视频扩散中的噪声选择提供了一种有原则且可推广的方法。请参阅我们的项目页面:this https URL |
[51] 利用扩散模型增强基于傅里叶的多普勒分辨率 标题: Enhancing Fourier-based Doppler Resolution with Diffusion Models 作者: Denisa Qosja / Kilian Barth / Simon Wagner 原文: [英文] [中文] 备注: Published at International Radar Symposium (IRS) 2025 摘要: 在雷达系统中,多普勒维度的高分辨率对于检测缓慢移动的目标非常重要,因为它可以更清晰地将这些目标与杂波或静止物体区分开。然而,实现足够的分辨率受到硬件能力和物理因素的限制,这促使人们开发处理技术以在数据采集后增强分辨率。在这项工作中,我们利用人工智能来提高距离-多普勒图中的多普勒分辨率。基于零填充的快速傅里叶变换(FFT),通过扩散模型的生成神经网络实现了分辨率的改进。我们证明了我们的方法克服了传统FFT的局限性,能够有效地分离紧密间隔的目标。 |
[52] InfLVG:使用GRPO增强推理时一致的长视频生成 标题: InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO 作者: Xueji Fang / Liyuan Ma / Zhiyang Chen / Mingyuan Zhou / Guo-jun Qi 原文: [英文] [中文] 备注: Preprint. Under review 摘要: 最近在文本到视频生成领域的进展,特别是自回归模型的进步,使得合成高质量的单个场景视频成为可能。然而,将这些模型扩展到生成长篇、跨场景的视频仍然是一个重大挑战。随着自回归解码过程中上下文长度的增加,计算成本急剧上升,模型保持一致性和遵循不断变化的文本提示的能力也会下降。我们介绍了InfLVG,这是一种推理时框架,可以在不需要额外的长篇视频数据的情况下实现连贯的长视频生成。InfLVG利用可学习的上下文选择策略,通过群体相对策略优化(GRPO)进行优化,以动态识别和保留在生成过程中最语义相关的上下文。该策略不是累积整个生成历史,而是对上下文相关性最高的前$K$个标记进行排序和选择,使模型在保持固定计算预算的同时,保持内容一致性和提示对齐。为了优化该策略,我们设计了一个混合奖励函数,能够共同捕捉语义对齐、跨场景一致性和伪影减少。为了评估性能,我们引入了跨场景视频基准(CsVBench)以及事件提示集(EPS),模拟涉及共享主体和多样化动作/背景的复杂多场景转换。实验结果表明,InfLVG可以将视频长度扩展至9倍,实现在场景间的强一致性和语义保真度。我们的代码可在此https URL获取。 |
[53] MODEM:一种用于恶劣天气图像恢复的Morton顺序退化估计机制 标题: MODEM: A Morton-Order Degradation Estimation Mechanism for Adverse Weather Image Recovery 作者: Hainuo Wang / Qiming Hu / Xiaojie Guo 原文: [英文] 备注: None 摘要: 恢复因恶劣天气而退化的图像仍然是一个重大挑战,因为天气引起的伪影具有高度不均匀和空间异质的特性,例如细粒度的雨条纹与广泛的雾霾。准确估计潜在的退化可以直观地为恢复模型提供更有针对性和有效的指导,从而实现自适应处理策略。为此,我们提出了一种用于恶劣天气图像恢复的Morton序退化估计机制(MODEM)。MODEM的核心是Morton序二维选择扫描模块(MOS2D),该模块结合了Morton编码的空间排序与选择性状态空间模型,以捕捉长程依赖性,同时保持局部结构的一致性。为了补充MOS2D,我们引入了一个双重退化估计模块(DDEM),该模块解耦并估计全局和局部退化先验。这些先验动态地调节MOS2D模块,促进自适应和上下文感知的恢复。大量实验和消融研究表明,MODEM在多个基准和天气类型中实现了最先进的结果,突显了其在建模复杂退化动态方面的有效性。我们的代码将在此https URL发布。 |
[54] CGS-GAN:用于高分辨率人类头部合成的三维一致高斯喷溅生成对抗网络 标题: CGS-GAN: 3D Consistent Gaussian Splatting GANs for High Resolution Human Head Synthesis 作者: Florian Barthel / Wieland Morgenstern / Paul Hinzer / Anna Hilsmann / Peter Eisert 原文: [英文] [中文] 备注: Main paper 12 pages, supplementary materials 8 pages 摘要: 最近,基于3D高斯点云的3D GANs被提出用于高质量的人头合成。然而,现有的方法通过将随机潜在向量与当前相机位置相结合来稳定训练并增强从陡峭视角的渲染质量。这会损害3D一致性,因为我们观察到每次相机移动时重新合成人头时会出现显著的身份变化。相反,将相机固定在单一视角可以为该视角生成高质量的渲染,但对于新视角的表现较差。去除视角条件通常会使GAN训练不稳定,常常导致训练崩溃。针对这些挑战,我们引入了CGS-GAN,这是一种新颖的3D高斯点云GAN框架,能够在不依赖视角条件的情况下实现稳定的训练和高质量的3D一致性人头合成。为了确保训练的稳定性,我们引入了一种多视角正则化技术,以最小的计算开销增强生成器的收敛性。此外,我们调整了现有3D高斯点云GANs中使用的条件损失,并提出了一种生成器架构,旨在不仅稳定训练,还促进高效渲染和简单的扩展,支持高达$2048^2$的输出分辨率。为了评估CGS-GAN的能力,我们整理了一个从FFHQ派生的新数据集。该数据集支持非常高的分辨率,关注人头的更大部分,减少视角依赖的伪影以改善3D一致性,并排除被手或其他物体遮挡的图像。因此,我们的方法在确保一致的3D场景生成的同时,实现了非常高的渲染质量,并获得了具有竞争力的FID分数。请查看我们的项目页面:this https URL |
[55] PathoSCOPE:通过自监督对比学习和病理信息合成嵌入进行少样本病理检测 标题: PathoSCOPE: Few-Shot Pathology Detection via Self-Supervised Contrastive Learning and Pathology-Informed Synthetic Embeddings 作者: Sinchee Chin / Yinuo Ma / Xiaochen Yang / Jing-Hao Xue / Wenming Yang 原文: [英文] [中文] 备注: None 摘要: 无监督病理检测在非病理数据上训练模型,以将偏差标记为病理,从而在识别新疾病方面提供强大的泛化能力,并避免昂贵的标注。然而,构建可靠的正常模型需要大量健康数据集,因为医院的数据本质上偏向于有症状的人群,而隐私法规又阻碍了代表性健康群体的组建。为了解决这一限制,我们提出了PathoSCOPE,这是一种少样本无监督病理检测框架,仅需一小组非病理样本(至少2个样本),显著提高了数据效率。我们引入了全局-局部对比损失(GLCL),由局部对比损失组成,以减少非病理嵌入的变异性,以及全局对比损失,以增强病理区域的区分能力。我们还提出了一种病理信息嵌入生成(PiEG)模块,该模块通过全局损失引导合成病理嵌入,更好地利用有限的非病理样本。在BraTS2020和ChestXray8数据集上的评估表明,PathoSCOPE在无监督方法中实现了最先进的性能,同时保持了计算效率(2.48 GFLOPs,166 FPS)。 |
[56] 通过测试时进化搜索扩展图像和视频生成 标题: Scaling Image and Video Generation via Test-Time Evolutionary Search 作者: Haoran He / Jiajun Liang / Xintao Wang / Pengfei Wan / Di Zhang / Kun Gai / Ling Pan 原文: [英文] [中文] 备注: 37 pages. Project: this https URL 摘要: 随着模型预训练期间计算(数据和参数)扩展的边际成本显著增加,测试时扩展(TTS)已成为通过在推理时分配额外计算来提高生成模型性能的一个有前途的方向。虽然TTS在多个语言任务中表现出显著成功,但在理解图像和视频生成模型(基于扩散或流模型)的测试时扩展行为方面仍存在显著差距。尽管最近的工作已经开始探索视觉任务的推理时策略,但这些方法面临关键限制:受限于特定任务领域、表现出较差的可扩展性,或陷入奖励过度优化而牺牲样本多样性。在本文中,我们提出了一种新颖、通用且高效的TTS方法——进化搜索(EvoSearch),它有效地增强了图像和视频生成在扩散和流模型中的可扩展性,而无需额外的训练或模型扩展。EvoSearch将扩散和流模型的测试时扩展重新表述为一个进化搜索问题,利用生物进化的原理来高效地探索和优化去噪轨迹。通过结合精心设计的选择和变异机制,针对随机微分方程去噪过程进行调整,EvoSearch迭代生成更高质量的后代,同时保持种群多样性。通过对图像和视频生成任务的扩散和流架构进行广泛评估,我们证明了我们的方法始终优于现有方法,获得更高的多样性,并显示出对未见评估指标的强泛化能力。我们的项目可在此网址访问。 |
[57] CAS-IQA: 教授视觉语言模型进行合成血管造影质量评估 标题: CAS-IQA: Teaching Vision-Language Models for Synthetic Angiography Quality Assessment 作者: Bo Wang / De-Xing Huang / Xiao-Hu Zhou / Mei-Jiang Gui / Nu-Fang Xiao / Jian-Long Hao / Ming-Yuan Liu / Zeng-Guang Hou 原文: [英文] [中文] 备注: Under review 摘要: 现代生成模型生成的合成X射线血管造影在减少血管介入手术中造影剂的使用方面具有巨大潜力。然而,低质量的合成血管造影可能显著增加手术风险,这突显了可靠的图像质量评估(IQA)方法的必要性。然而,现有的IQA模型未能在评估过程中利用辅助图像作为参考,并且缺乏临床相关性所需的细粒度、任务特定的指标。为了解决这些限制,本文提出了CAS-IQA,这是一种基于视觉-语言模型(VLM)的框架,通过有效整合相关图像的辅助信息来预测细粒度的质量评分。在缺乏血管造影数据集的情况下,构建了CAS-3K,包括3,565个合成血管造影及其评分注释。为了确保临床上有意义的评估,定义了三个任务特定的评估指标。此外,设计了一个多路径特征融合和路由(MUST)模块,通过自适应地融合和路由视觉标记到特定指标的分支来增强图像表示。在CAS-3K数据集上的大量实验表明,CAS-IQA在很大程度上显著优于最先进的IQA方法。 |
[58] HoloLLM:用于语言基础的人体感知和推理的多感官基础模型 标题: HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning 作者: Chuhao Zhou / Jianfei Yang 原文: [英文] [中文] 备注: 18 pages, 13 figures, 6 tables 摘要: 在智能家居中运行的具身代理需要通过多种感官输入理解人类行为,并通过自然语言进行交流。虽然视觉-语言模型(VLMs)已经实现了令人印象深刻的语言基础感知,但它们对视觉数据的依赖在存在遮挡、光线不佳或隐私限制的现实场景中限制了其鲁棒性。在本文中,我们介绍了HoloLLM,一种多模态大型语言模型(MLLM),它集成了不常见但强大的感知模态,如LiDAR、红外、毫米波雷达和WiFi,以实现跨异构环境的无缝人类感知和推理。我们解决了两个关键挑战:(1)稀有传感器的模态-文本数据的稀缺性,以及(2)其物理信号表示的异质性。为了解决这些问题,我们设计了一个通用模态注入投影器(UMIP),通过粗到细的交叉注意力,将预对齐的模态嵌入与来自定制编码器的细粒度、文本对齐特征增强,而不会引入显著的对齐开销。我们进一步引入了一个人类-VLM协作数据策划管道,为感知数据集生成配对的文本注释。在两个新构建的基准上的广泛实验表明,HoloLLM显著优于现有的MLLMs,将语言基础的人类感知准确性提高了最多30%。这项工作为现实世界中语言知情的多感官具身智能建立了新的基础。 |
[59] Instruct2See:学习去除跨分布的任何障碍物 标题: Instruct2See: Learning to Remove Any Obstructions Across Distributions 作者: Junhang Li / Yu Guo / Chuhua Xian / Shengfeng He 原文: [英文] [中文] 备注: None 摘要: 图像常常由于拍摄限制而被各种障碍物遮挡,妨碍了对感兴趣物体的观察。大多数现有方法针对特定元素如栅栏或雨滴来处理遮挡问题,但由于现实世界中障碍物种类繁多,全面的数据收集变得不切实际。为克服这些挑战,我们提出了Instruct2See,这是一种新颖的零样本框架,能够处理已知和未知的障碍物。我们方法的核心思想是通过将障碍物去除视为软硬掩码恢复问题来统一处理,其中任何障碍物都可以用多模态提示表示,如视觉语义和文本指令,通过交叉注意单元进行处理,以增强上下文理解并改善模式控制。此外,一个可调节的掩码适配器允许动态软掩码,实现对不准确掩码的实时调整。对分布内和分布外障碍物进行的大量实验表明,Instruct2See在障碍物去除方面始终表现出强大的性能和泛化能力,无论这些障碍物是否在训练阶段出现。代码和数据集可在此https URL获取。 |
[60] EMRA-proxy:通过注意力代理增强遥感图像中的多类别区域语义分割 标题: EMRA-proxy: Enhancing Multi-Class Region Semantic Segmentation in Remote Sensing Images with Attention Proxy 作者: Yichun Yu / Yuqing Lan / Zhihuan Xing / Xiaoyi Yang / Tingyue Tang / Dan Yu 原文: [英文] 备注: Proceedings of the 20th International Conference on Intelligent Computing (ICIC 2024): Poster Volume I. Tianjin, China, 2024: 538-562 摘要: 高分辨率遥感(HRRS)图像分割由于复杂的空间布局和多样的物体外观而具有挑战性。虽然卷积神经网络(CNN)擅长捕捉局部特征,但它们在处理长距离依赖关系时表现不佳,而Transformer能够建模全局上下文,但常常忽略局部细节且计算量大。我们提出了一种新颖的方法,区域感知代理网络(RAPNet),由两个组件组成:上下文区域注意(CRA)和全局类别细化(GCR)。与传统方法依赖于基于网格的布局不同,RAPNet在区域级别操作,实现更灵活的分割。CRA模块使用Transformer捕捉区域级别的上下文依赖关系,生成语义区域掩码(SRM)。GCR模块学习全局类别注意图以细化多类别信息,将SRM和注意图结合以实现准确的分割。在三个公共数据集上的实验结果表明,RAPNet优于最先进的方法,实现了卓越的多类别分割准确性。 |
[61] Proto-FG3D:基于原型的可解释细粒度3D形状分类 标题: Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification 作者: Shuxian Ma / Zihao Dong / Runmin Cong / Sam Kwong / Xiuli Shao 原文: [英文] [中文] 备注: 11 pages, 2 figures, 5 tablets; Submitted to BMVC2025 摘要: 基于深度学习的多视图粗粒度3D形状分类在过去十年中取得了显著成功,这得益于基于CNN和ViT的骨干网络强大的特征学习能力。然而,作为一个对详细形状理解至关重要的具有挑战性的研究领域,细粒度3D分类由于在多视图特征聚合过程中捕获的区分信息有限,特别是在细微的类间差异、类别不平衡以及参数模型固有的可解释性限制方面,仍然研究不足。为了解决这些问题,我们提出了第一个基于原型的框架,名为Proto-FG3D,用于细粒度3D形状分类,实现了从参数化softmax到非参数化原型学习的范式转变。首先,Proto-FG3D通过原型关联建立了联合的多视图和多类别表示学习。其次,通过在线聚类对原型进行优化,提高了多视图特征分配的鲁棒性和子类间的平衡性。最后,建立了原型引导的监督学习,通过原型-视图相关性分析增强细粒度区分能力,并通过透明的基于案例的推理实现了特设的可解释性。在FG3D和ModelNet40上的实验表明,Proto-FG3D在准确性、透明预测和可视化的特设可解释性方面超越了最先进的方法,挑战了传统的细粒度3D识别方法。 |
[62] SVL:基于脉冲的视觉-语言预训练,用于高效的3D开放世界理解 标题: SVL: Spike-based Vision-language Pretraining for Efficient 3D Open-world Understanding 作者: Xuerui Qiu / Peixi Wu / Yaozhi Wen / Shaowei Gu / Yuqi Pan / Xinhao Luo / Bo XU / Guoqi Li 原文: [英文] [中文] 备注: None 摘要: 脉冲神经网络(SNNs)提供了一种能量高效的方式来提取三维时空特征。然而,由于缺乏充分的预训练策略,现有的SNNs在性能上仍与人工神经网络(ANNs)存在显著差距。这些限制表现为泛化能力受限、任务特异性以及缺乏多模态理解,特别是在多模态问答和零样本三维分类等具有挑战性的任务中。为了解决这些挑战,我们提出了一种基于脉冲的视觉-语言(SVL)预训练框架,该框架在保持脉冲驱动效率的同时,赋予SNNs开放世界的三维理解能力。SVL引入了两个关键组件:(i)多尺度三重对齐(MTA),用于跨三维、图像和文本模态的无标签三元对比学习;(ii)可重参数化的视觉-语言集成(Rep-VLI),以实现轻量级推理而无需依赖大型文本编码器。大量实验表明,SVL在零样本三维分类中实现了85.4%的top-1准确率,超越了先进的ANN模型,并在下游任务中持续优于先前的SNNs,包括三维分类(+6.1%)、DVS动作识别(+2.1%)、三维检测(+1.1%)和三维分割(+2.1%),且效率显著。此外,SVL使SNNs能够执行开放世界的三维问答,有时甚至优于ANNs。据我们所知,SVL代表了第一个可扩展、可泛化且硬件友好的三维开放世界理解范式,有效地弥合了SNNs和ANNs在复杂开放世界理解任务中的差距。代码可在此URL获取。 |
[63] 朝向眼科手术中手-器械交互的动态3D重建 标题: Towards Dynamic 3D Reconstruction of Hand-Instrument Interaction in Ophthalmic Surgery 作者: Ming Hu / Zhendi Yu / Feilong Tang / Kaiwen Chen / Yulong Li / Imran Razzak / Junjun He / Tolga Birdal / Kaijing Zhou / Zongyuan Ge 原文: [英文] [中文] 备注: None 摘要: 对于眼科显微手术的视觉分析来说,手部和器械的精确3D重建至关重要,但由于缺乏逼真、大规模的数据集和可靠的标注工具,进展一直受阻。在这项工作中,我们引入了OphNet-3D,这是首个用于眼科手术的广泛RGB-D动态3D重建数据集,包括来自40位外科医生的41个序列,总计710万帧,具有12个手术阶段、10个器械类别的细粒度注释、密集的MANO手部网格和完整的6自由度器械姿态。为了大规模生成高保真标签,我们设计了一个多阶段自动标注流水线,该流水线整合了多视角数据观察、数据驱动的运动先验与跨视角几何一致性和生物力学约束,以及结合了碰撞感知的器械交互约束。基于OphNet-3D,我们建立了两个具有挑战性的基准——双手姿态估计和手-器械交互重建,并提出了两个专用架构:用于双手网格恢复的H-Net和用于双手-双器械交互联合重建的OH-Net。这些模型利用了一种新颖的空间推理模块,具有弱透视相机建模和碰撞感知的基于中心的表示。两种架构均大幅超越现有方法,在手部和器械重建的平均每关节位置误差(MPJPE)上提高了超过2毫米,在ADD-S指标上提高了高达23%。 |
[64] 5G-DIL:用于动态5G室内定位的具有相似性感知采样的领域增量学习 标题: 5G-DIL: Domain Incremental Learning with Similarity-Aware Sampling for Dynamic 5G Indoor Localization 作者: Nisha Lakshmana Raichur / Lucas Heublein / Christopher Mutschler / Felix Ott 原文: [英文] [中文] 备注: 7 pages, 6 figures 摘要: 基于5G数据的室内定位通过采用最新的机器学习(ML)技术已经实现了高精度。然而,当环境条件发生变化时,基于学习的方法性能会显著下降,从而阻碍其在新场景中的应用。为每次环境变化获取新的训练数据并微调ML模型既耗时又耗费资源。本文介绍了一种用于动态5G室内定位的领域增量学习(DIL)方法,称为5G-DIL,能够快速适应环境变化。我们提出了一种基于切比雪夫距离的新颖相似性感知采样技术,旨在有效地从先前环境中选择特定样本,同时仅在新环境的修改区域进行训练。这避免了在整个区域进行训练的需要,显著减少了适应所需的时间和资源,同时不影响定位精度。该方法在适应域中仅需50个样本,显著减少了训练时间,同时在先前环境中保持高定位精度。在一个具有挑战性的真实室内数据集上,与最先进的DIL技术进行的比较评估证明了所提出的样本选择方法的有效性。我们的方法适用于真实世界的非视距传播场景,即使在动态环境条件下也能实现0.261米的MAE定位误差。代码:this https URL |
[65] 未来视界驱动:通过时空链式思维实现自动驾驶 标题: FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving 作者: Shuang Zeng / Xinyuan Chang / Mengwei Xie / Xinran Liu / Yifan Bai / Zheng Pan / Mu Xu / Xing Wei 原文: [英文] [中文] 备注: None 摘要: 视觉语言模型(VLMs)因其强大的推理能力在自动驾驶领域引起了越来越多的关注。然而,现有的VLMs通常利用离散的文本思维链(CoT),这通常是针对当前场景量身定制的,实质上代表了视觉信息的高度抽象和符号化压缩,这可能导致时空关系的模糊和细粒度信息的丢失。自动驾驶是否更适合基于现实世界的模拟和想象,而不是纯粹的符号逻辑?在本文中,我们提出了一种时空思维链推理方法,使模型能够进行视觉思考。首先,VLM作为一个世界模型生成统一的图像帧,用于预测未来的世界状态:感知结果(例如,车道分隔线和3D检测)代表未来的空间关系,而普通的未来帧代表时间演变关系。这个时空思维链然后作为中间推理步骤,使VLM能够作为逆动力学模型,根据当前观察和未来预测进行轨迹规划。为了在VLMs中实现视觉生成,我们提出了一种统一的预训练范式,整合了视觉生成和理解,并通过渐进的视觉思维链增强自回归图像生成。大量实验结果证明了所提方法的有效性,推动自动驾驶向视觉推理方向发展。 |
[66] 通过双网络进行半监督医学图像分割 标题: Semi-Supervised Medical Image Segmentation via Dual Networks 作者: Yunyao Lu / Yihang Wu / Reem Kateb / Ahmad Chaddad 原文: [英文] [中文] 备注: Accepted in ISBI2025 摘要: 传统的监督式医学图像分割模型需要大量标注数据进行训练;然而,在现实世界中获取如此大规模的标注数据集极具挑战性。最近的半监督分割模型也面临着伪标签噪声问题和特征空间中有限监督的问题。为了解决这些挑战,我们提出了一种创新的半监督3D医学图像分割方法,以减少对大量专家标注数据集的依赖。此外,我们引入了一种双网络架构,以解决现有方法在使用上下文信息和生成可靠伪标签方面的局限性。此外,采用了一种自监督对比学习策略,通过区分可靠和不可靠的预测来增强网络的表示能力并减少预测的不确定性。在临床磁共振成像上的实验表明,我们的方法优于现有的最先进技术。我们的代码可在此https URL获取。 |
[67] ViP$^2$-CLIP:用于零样本异常检测的统一对齐视觉感知提示 标题: ViP$^2$-CLIP: Visual-Perception Prompting with Unified Alignment for Zero-Shot Anomaly Detection 作者: Ziteng Yang / Jingzehua Xu / Yanshu Li / Zepeng Li / Yeqiang Wang / Xinghui Li 原文: [英文] [中文] 备注: None 摘要: 零样本异常检测(ZSAD)旨在无需任何目标域训练样本的情况下检测异常,仅依赖外部辅助数据。现有的基于CLIP的方法尝试通过手工制作或静态可学习的提示来激活模型的ZSAD潜力。前者需要高昂的工程成本且语义覆盖有限,而后者在不同的异常类型中应用相同的描述,因此无法适应复杂的变化。此外,由于CLIP最初是在大规模分类任务上预训练的,其异常分割质量对类别名称的确切措辞非常敏感,严重限制了依赖类别标签的提示策略。为了解决这些挑战,我们引入了ViP$^{2}$-CLIP。ViP$^{2}$-CLIP的关键见解是视觉感知提示(ViP-Prompt)机制,该机制融合了全局和多尺度局部视觉上下文,以自适应地生成细粒度的文本提示,消除了手动模板和类别名称先验。这一设计使我们的模型能够专注于精确的异常区域,特别在类别标签模糊或隐私受限的情况下显得尤为有价值。在15个工业和医学基准上的大量实验表明,ViP$^{2}$-CLIP实现了最先进的性能和稳健的跨域泛化能力。 |
[68] Seek-CAD:一种通过DeepSeek进行局部推理的3D参数化CAD自我优化生成建模 标题: Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek 作者: Xueyang Li / Jiahao Li / Yu Song / Yunzhong Lou / Xiangdong Zhou 原文: [英文] [中文] 备注: None 摘要: 计算机辅助设计(CAD)生成建模的出现将显著改变工业产品的设计。最近的研究努力已经扩展到大型语言模型(LLMs)的领域。与微调方法相比,无需训练的方法通常利用先进的闭源LLMs,从而在开发用于生成CAD参数模型的AI代理时提供了更高的灵活性和效率。然而,顶级闭源LLMs的本地部署的高成本和限制在实际应用中带来了挑战。Seek-CAD是首次探索本地部署的开源推理LLM DeepSeek-R1用于CAD参数模型生成的无需训练的方法。本研究首次调查了在自我优化机制中结合视觉和思维链(CoT)反馈以生成CAD模型。具体来说,初始生成的参数CAD模型被渲染为一系列逐步的透视图像,随后由视觉语言模型(VLM)处理,并结合从DeepSeek-R1派生的相应CoTs来评估CAD模型生成。然后,反馈被DeepSeek-R1用于优化初始生成的模型,以进行下一轮生成。此外,我们提出了一个创新的3D CAD模型数据集,该数据集围绕SSR(三重设计范式:草图、基于草图的特征和优化)结构。该数据集涵盖了广泛的CAD命令,从而有效地与工业应用需求对齐,并证明适合于LLMs的生成。大量实验验证了Seek-CAD在各种指标下的有效性。 |
[69] SeaLion:用于3D生成的语义部件感知潜在点扩散模型 标题: SeaLion: Semantic Part-Aware Latent Point Diffusion Models for 3D Generation 作者: Dekai Zhu / Yan Di / Stefan Gavranovic / Slobodan Ilic 原文: [英文] 备注: None 摘要: 去噪扩散概率模型在点云生成方面取得了显著成功,支持了许多下游应用,如生成数据增强和3D模型编辑。然而,对于生成具有逐点分割标签的点云以及为此任务开发评估指标的关注较少。因此,在本文中,我们提出了SeaLion,这是一种新颖的扩散模型,旨在生成具有精细分割标签的高质量和多样化的点云。具体来说,我们引入了语义部件感知的潜在点扩散技术,该技术利用生成模型的中间特征,在去噪过程中联合预测扰动潜在点的噪声和相关的部件分割标签,随后根据部件分割标签将潜在点解码为点云。为了有效评估生成点云的质量,我们引入了一种新颖的点云成对距离计算方法,称为部件感知的Chamfer距离(p-CD)。这种方法使现有指标(如1-NNA)能够测量生成点云的局部结构质量和部件间的一致性。在大规模合成数据集ShapeNet和真实世界医学数据集IntrA上的实验表明,SeaLion在生成质量和多样性方面取得了显著的性能,分别在两个数据集上比现有的最先进模型DiffFacto在1-NNA(p-CD)上提高了13.33%和6.52%。实验分析表明,SeaLion可以进行半监督训练,从而减少标注工作的需求。最后,我们验证了SeaLion在生成数据增强用于训练分割模型中的适用性,以及SeaLion作为部件感知3D形状编辑工具的能力。 |
[70] Slot-MLLM:面向对象的多模态大语言模型的视觉标记化 标题: Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM 作者: Donghwan Chi / Hyomin Kim / Yoonjin Oh / Yongjin Kim / Donghoon Lee / Daejin Jo / Jongmin Kim / Junyeob Baek / Sungjin Ahn / Sungwoong Kim 原文: [英文] [中文] 备注: None 摘要: 最近,多模态大型语言模型(MLLMs)已成为实现人工通用智能的关键方法。特别是,视觉-语言MLLMs已经被开发出来,不仅可以从多模态输入生成文本,还可以生成视觉输出。这一进展需要高效的图像标记,使得LLMs能够在输入和输出中有效处理。然而,现有的MLLMs图像标记方法通常仅捕捉全局抽象概念或均匀分割的图像块,限制了MLLMs在对象层面上有效理解或生成详细视觉内容的能力。为了解决这一限制,我们提出了一种基于Slot Attention的面向对象的视觉标记器,专门用于MLLMs。特别是,基于Q-Former编码器、扩散解码器和残差矢量量化,我们提出的离散化槽标记可以编码局部视觉细节,同时保持高级语义,并与文本数据对齐,以便在LLMs的统一下一个标记预测框架中无缝集成。最终的Slot-MLLM在各种需要局部详细理解和生成的视觉-语言任务中,表现出比以前的视觉标记器基线显著的性能提升。值得注意的是,这项工作首次展示了在MLLMs和自然环境中的图像中进行面向对象的槽注意力的可行性。 |
[71] SafeMVDrive:真实世界领域中的多视角安全关键驾驶视频合成 标题: SafeMVDrive: Multi-view Safety-Critical Driving Video Synthesis in the Real World Domain 作者: Jiawei Zhou / Linye Lyu / Zhuotao Tian / Cheng Zhuo / Yu Li 原文: [英文] [中文] 备注: None 摘要: 安全关键场景虽然罕见,但对于评估和增强自动驾驶系统的稳健性至关重要。现有方法虽然能够生成安全关键的驾驶轨迹、模拟或单视角视频,但无法满足先进的端到端自动驾驶系统(E2E AD)对真实世界多视角视频数据的需求。为弥补这一差距,我们引入了SafeMVDrive,这是第一个旨在生成高质量、安全关键、多视角驾驶视频的框架,基于真实世界领域。SafeMVDrive战略性地将安全关键轨迹生成器与先进的多视角视频生成器相结合。为了解决这种整合中固有的挑战,我们首先通过引入视觉上下文——这是之前此类生成器所不具备的——并利用经过GRPO微调的视觉语言模型,增强轨迹生成器的场景理解能力,以实现更真实和上下文感知的轨迹生成。其次,鉴于现有的多视角视频生成器难以呈现真实的碰撞事件,我们引入了一个两阶段的可控轨迹生成机制,生成避碰轨迹,确保视频质量和安全关键的真实性。最后,我们采用基于扩散的多视角视频生成器,从生成的轨迹中合成高质量的安全关键驾驶视频。在E2E AD规划器上进行的实验表明,使用我们生成的数据进行测试时,碰撞率显著增加,验证了SafeMVDrive在压力测试规划模块中的有效性。我们的代码、示例和数据集可在此网址公开获取:this https URL。 |
[72] RQR3D:重新参数化基于鸟瞰图的三维目标检测的回归目标 标题: RQR3D: Reparametrizing the regression targets for BEV-based 3D object detection 作者: Ozsel Kilinc / Cem Tarhan 原文: [英文] [中文] 备注: None 摘要: 准确、快速且可靠的三维感知对于自动驾驶至关重要。最近,基于鸟瞰图(BEV)的感知方法作为优于透视图解决方案的替代方案出现,提供了增强的空间理解和更自然的规划输出。现有的基于BEV的三维目标检测方法通常遵循基于角度的表示,直接估计旋转边界框的大小和方向。我们观察到,基于BEV的三维目标检测类似于空中定向目标检测,其中基于角度的方法因其损失函数中的不连续性而受到影响。受此领域的启发,我们提出了限制四边形表示来定义三维回归目标。RQR3D回归包含定向框的最小水平边界框,以及这两个框的角之间的偏移,从而将定向目标检测问题转化为关键点回归任务。RQR3D与任何三维目标检测方法兼容。我们在一个无锚单阶段目标检测方法中应用RQR3D,并引入一个目标性头来解决类别不平衡问题。此外,我们引入了一个简化的雷达融合骨干网络,消除了对体素分组的需求,并使用标准的二维卷积而非稀疏卷积来处理BEV映射的点云。在nuScenes数据集上的广泛评估表明,RQR3D在相机-雷达三维目标检测中实现了最先进的性能,在NDS上比之前的最佳方法提高了4%,在mAP上提高了2.4%,并显著减少了平移和方向误差,这对于安全的自动驾驶至关重要。这些一致的提升突显了我们方法的稳健性、精确性和实际应用准备性。 |
[73] R-Genie:基于推理引导的生成式图像编辑 标题: R-Genie: Reasoning-Guided Generative Image Editing 作者: Dong Zhang / Lingfeng He / Rui Yan / Fei Shen / Jinhui Tang 原文: [英文] [中文] 备注: this https URL 摘要: 尽管最近在图像编辑方面的进展使得视觉合成能力得到了显著提升,但当前的方法仍然受到明确文本指令和有限编辑操作的限制,缺乏对隐含用户意图和上下文推理的深刻理解。在这项工作中,我们引入了一种新的图像编辑范式:推理引导的生成编辑,它基于复杂的、多方面的文本查询来合成图像,接受世界知识和意图推断。为了促进这一任务,我们首先构建了一个综合数据集,包含超过1000个图像-指令-编辑三元组,结合了丰富的推理背景和现实世界知识。然后我们提出了R-Genie:一种推理引导的生成图像编辑器,它将扩散模型的生成能力与多模态大型语言模型的高级推理能力相结合。R-Genie采用推理注意机制来连接语言理解与视觉合成,使其能够处理涉及抽象用户意图和上下文推理关系的复杂编辑请求。广泛的实验结果验证了R-Genie可以为扩散模型提供基于高级推理的编辑能力,释放智能图像合成的新潜力。 |
[74] TopoPoint:通过端点检测增强自动驾驶中的拓扑推理 标题: TopoPoint: Enhance Topology Reasoning via Endpoint Detection in Autonomous Driving 作者: Yanping Fu / Xinyuan Liu / Tianyu Li / Yike Ma / Yucheng Zhang / Feng Dai 原文: [英文] [中文] 备注: None 摘要: 拓扑推理结合了感知和结构化推理,在自动驾驶的交叉路口理解中起着至关重要的作用。然而,其性能在很大程度上依赖于车道检测的准确性,特别是在连接车道的端点处。现有的方法常常受到车道端点偏差的影响,导致拓扑结构构建不正确。为了解决这个问题,我们提出了TopoPoint,这是一种新颖的框架,能够明确检测车道端点,并在端点和车道上进行联合推理,以实现稳健的拓扑推理。在训练过程中,我们独立初始化点和车道查询,并提出了点-车道合并自注意力机制,通过将点和车道之间的几何距离作为注意力掩码来增强全局上下文共享。我们进一步设计了点-车道图卷积网络,以实现点和车道查询之间的相互特征聚合。在推理过程中,我们引入了点-车道几何匹配算法,该算法计算检测到的点和车道之间的距离,以优化车道端点,有效减轻端点偏差。在OpenLane-V2基准上的大量实验表明,TopoPoint在拓扑推理中达到了最先进的性能(OLS上为48.8)。此外,我们提出了DET$_p$来评估端点检测,在此标准下,我们的方法显著优于现有方法(DET$_p$上为52.6对比45.2)。代码已在此https URL发布。 |
[75] TextFlux:一种用于高保真多语言场景文本合成的无OCR DiT模型 标题: TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis 作者: Yu Xie / Jielei Zhang / Pengyu Chen / Ziyue Wang / Weihang Wang / Longwen Gao / Peiyi Li / Huyang Sun / Qiang Zhang / Qian Qiao / Jiaqing Fan / Zhouhui Lian 原文: [英文] [中文] 备注: None 摘要: 基于扩散的场景文本合成技术发展迅速,但现有方法通常依赖额外的视觉条件模块,并需要大规模标注数据来支持多语言生成。在这项工作中,我们重新审视复杂辅助模块的必要性,并进一步探索一种方法,该方法通过利用扩散模型的上下文推理能力,同时确保字形准确性和实现高保真场景集成。为此,我们介绍了TextFlux,一种基于DiT的框架,能够进行多语言场景文本合成。TextFlux的优势可以总结如下:(1)无OCR模型架构。TextFlux消除了专门用于提取视觉文本相关特征的OCR编码器(额外的视觉条件模块)的需求。(2)强大的多语言扩展性。TextFlux在资源匮乏的多语言环境中表现出色,并在新增语言中以少于1,000个样本实现强劲性能。(3)简化的训练设置。TextFlux仅使用竞争方法所需训练数据的1%进行训练。(4)可控的多行文本生成。TextFlux提供灵活的多行合成,并具有精确的行级控制,优于仅限于单行或固定布局的方法。广泛的实验和可视化结果表明,TextFlux在定性和定量评估中均优于以往方法。 |
[76] U2-BENCH:超声波理解中大型视觉语言模型的基准测试 标题: U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding 作者: Anjie Le / Henan Liu / Yue Wang / Zhenyu Liu / Rongkun Zhu / Taohan Weng / Jinze Yu / Boyang Wang / Yalun Wu / Kaiwen Yan / Quanlin Sun / Meirui Jiang / Jialun Pei / Siya Liu / Haoyun Zheng / Zhoujun Li / Alison Noble / Jacques Souquet / Xiaoqing Guo / Manxi Lin / Hongcheng Guo 原文: [英文] [中文] 备注: None 摘要: 超声波是一种广泛使用的成像方式,对全球医疗保健至关重要。然而,由于操作人员的图像质量差异、噪声和解剖结构的复杂性,其解释仍然具有挑战性。尽管大型视觉语言模型(LVLMs)在自然和医学领域展示了令人印象深刻的多模态能力,但其在超声波上的表现仍然很少被探索。我们介绍了U2-BENCH,这是第一个全面的基准,用于评估LVLMs在超声波理解方面的分类、检测、回归和文本生成任务。U2-BENCH汇集了7,241个案例,涵盖15个解剖区域,并定义了8个临床启发任务,如诊断、视图识别、病变定位、临床价值估计和报告生成,涉及50个超声应用场景。我们评估了20个最先进的LVLMs,包括开源和闭源、通用和医学专用的模型。我们的结果显示在图像级别分类上表现强劲,但在空间推理和临床语言生成方面仍面临持续挑战。U2-BENCH建立了一个严格且统一的测试平台,以评估和加速LVLM在医学超声成像这一独特多模态领域的研究。 |
[77] 赫菲斯托斯微立方体:用于火山动荡监测的全球多模态数据集 标题: Hephaestus Minicubes: A Global, Multi-Modal Dataset for Volcanic Unrest Monitoring 作者: Nikolas Papadopoulos / Nikolaos Ioannis Bountos / Maria Sdraka / Andreas Karavias / Ioannis Papoutsis 原文: [英文] [中文] 备注: None 摘要: 地面变形在火山学中被视为火山喷发前的关键前兆信号。基于卫星的干涉合成孔径雷达(InSAR)能够实现一致的、全球范围的变形跟踪;然而,由于缺乏精心整理的机器学习数据集,深度学习方法在这一领域仍然基本未被探索。在这项工作中,我们在现有的Hephaestus数据集基础上,推出了Hephaestus Minicubes,这是一套全球范围的38个时空数据立方体,提供高分辨率、多源和多时态信息,涵盖了全球44座最活跃火山的7年数据。每个时空数据立方体整合了InSAR产品、地形数据以及已知会引入信号延迟的气象变量,这些延迟可能在InSAR图像中模拟地面变形。此外,我们提供了专家注释,详细说明了变形事件的类型、强度和空间范围,并附有对观测场景的丰富文本描述。最后,我们展示了一个全面的基准,证明Hephaestus Minicubes能够支持火山不安监测,作为多模态、多时态分类和语义分割任务,利用最先进的架构建立了强有力的基线。此项工作旨在推进火山监测中的机器学习研究,促进数据驱动方法在地球科学应用中的日益整合。 |
[78] 用于物体点云分割的生成式数据增强 标题: Generative Data Augmentation for Object Point Cloud Segmentation 作者: Dekai Zhu / Stefan Gavranovic / Flavien Boussuge / Benjamin Busam / Slobodan Ilic 原文: [英文] [中文] 备注: None 摘要: 数据增强被广泛用于训练深度学习模型以解决数据稀缺问题。然而,传统的数据增强(TDA)通常依赖于简单的几何变换,如随机旋转和缩放,这导致数据多样性增加有限,模型性能提升也有限。最先进的3D形状生成生成模型依赖于去噪扩散概率模型,能够生成逼真的新颖点云,用于3D内容创建和操作。然而,生成的3D形状缺乏相关的逐点语义标签,限制了它们在扩大点云分割任务训练数据中的使用。为了弥合数据增强技术与先进扩散模型之间的差距,我们扩展了最先进的3D扩散模型Lion,将其发展为一个部件感知生成模型,可以根据给定的分割掩码生成高质量的点云。利用这一新颖的生成模型,我们引入了一个用于点云分割训练的三步生成数据增强(GDA)流程。我们的GDA方法仅需少量标记样本,但通过生成的变体和伪标记样本丰富了训练数据,这些样本通过一种新颖的基于扩散的伪标签过滤方法进行了验证。在两个大规模合成数据集和一个真实世界的医学数据集上的大量实验表明,我们的GDA方法优于TDA方法以及相关的半监督和自监督方法。 |
[79] DetailFusion: 一种用于合成图像检索的细节增强双分支框架 标题: DetailFusion: A Dual-branch Framework with Detail Enhancement for Composed Image Retrieval 作者: Yuxin Yang / Yinan Zhou / Yuxin Chen / Ziqi Zhang / Zongyang Ma / Chunfeng Yuan / Bing Li / Lin Song / Jun Gao / Peng Li / Weiming Hu 原文: [英文] [中文] 备注: 20 pages, 6 figures 摘要: 组合图像检索(CIR)旨在基于参考图像和修改文本作为组合查询,从图库中检索目标图像。最近的方法侧重于平衡来自两种模态的全局信息,并将查询编码为统一特征以进行检索。然而,由于对细粒度细节关注不足,这些粗略融合方法往往难以处理细微的视觉变化或复杂的文本指令。在这项工作中,我们提出了DetailFusion,这是一种新颖的双分支框架,可以有效协调全局和细节粒度的信息,从而实现细节增强的CIR。我们的方法利用从图像编辑数据集中提取的原子细节变化先验,并通过细节导向的优化策略开发出一个细节导向的推理分支。此外,我们设计了一种自适应特征合成器,能够根据每个独特多模态查询的细粒度信息动态融合全局和细节特征。广泛的实验和消融分析不仅证明了我们的方法在CIRR和FashionIQ数据集上达到了最新的性能,还验证了细节增强在CIR中的有效性和跨领域适应性。 |
[80] 具有背景混合的动作识别中时间一致性约束的可迁移对抗攻击 标题: Temporal Consistency Constrained Transferable Adversarial Attacks with Background Mixup for Action Recognition 作者: Ping Li / Jianan Ni / Bo Pang 原文: [英文] 备注: Accepted in IJCAI'25 摘要: 使用深度学习的动作识别模型容易受到对抗样本的攻击,这些对抗样本可以在同一数据模态上训练的其他模型之间转移。现有的可转移攻击方法面临两个主要挑战:1)它们严重依赖于替代(即源)模型和目标模型的决策边界相似的假设,这限制了对抗的可转移性;2)它们的决策边界差异使得攻击方向不确定,这可能导致梯度振荡,削弱对抗攻击。这促使我们提出了一种用于动作识别的背景混合诱导的时间一致性(BMTC)攻击方法。从输入变换的角度来看,我们设计了一个与模型无关的背景对抗混合模块,以减少替代-目标模型的依赖性。具体来说,我们从每个类别中随机抽取一个视频,并将其背景帧作为基础,同时通过强化学习选择攻击能力最强的背景帧与干净帧进行混合。此外,为了确保明确的攻击方向,我们利用背景类别作为指导来更新对抗样本的梯度,并设计了一个时间梯度一致性损失,以增强后续帧上攻击方向的稳定性。在两个视频数据集(即UCF101和Kinetics-400)和一个图像数据集(即ImageNet)上的实证研究表明,我们的方法显著提高了对抗样本在多个动作/图像识别模型之间的可转移性。我们的代码可在此https URL获取。 |
[81] 一种结合注意力机制的深度学习系统及其Grad-CAM可视化用于青光眼的早期筛查 标题: An Attention Infused Deep Learning System with Grad-CAM Visualization for Early Screening of Glaucoma 作者: Ramanathan Swaminathan 原文: [英文] [中文] 备注: 6 pages in general IEEE format, 8 figures, 4 tables, pdflatex 摘要: 本研究揭示了混合迷宫深度学习模型的智慧,这种智慧源于将开创性的卷积神经网络与颠覆性的视觉Transformer结合在一起,并通过一个激进的交叉注意力模块将它们交织在一起。在这里,使用了两个高产的人工智能模型数据集来检测青光眼,即ACRIMA和Drishti。 |
[82] 看见还是没看见?可解释的视觉感知潜在引导以减轻物体幻觉 标题: Seeing It or Not? Interpretable Vision-aware Latent Steering to Mitigate Object Hallucinations 作者: Boxu Chen / Ziwei Zheng / Le Yang / Zeyu Geng / Zhengyu Zhao / Chenhao Lin / Chao Shen 原文: [英文] [中文] 备注: None 摘要: 大型视觉-语言模型(LVLMs)取得了显著的成功,但在对象幻觉(OH)方面仍然存在困难,即生成与视觉输入不一致的输出。尽管之前的工作提出了减少OH的方法,但导致幻觉的视觉决策机制仍然理解不足。在本文中,我们提出了VaLSe,一种视觉感知潜在引导框架,采用解释然后缓解的策略来解决LVLMs中的OH问题。通过解决复杂的视觉-语言交互建模和消除虚假激活伪影的双重挑战,VaLSe可以生成视觉贡献图,追踪特定视觉输入如何影响单个输出标记。这些图揭示了模型的视觉感知聚焦区域,然后用于执行潜在空间引导,将内部表示重新对准语义相关内容,减少幻觉输出。大量实验表明,VaLSe是一个强大的可解释性工具,也是增强模型在多个基准测试中对抗OH的有效方法。此外,我们的分析揭示了现有OH评估指标的局限性,强调了未来工作中需要更细致、可解释和视觉基础的OH基准。代码可在此URL获取:this https URL。 |
[83] ICPL-ReID:用于多光谱目标重新识别的身份条件提示学习 标题: ICPL-ReID: Identity-Conditional Prompt Learning for Multi-Spectral Object Re-Identification 作者: Shihao Li / Chenglong Li / Aihua Zheng / Jin Tang / Bin Luo 原文: [英文] [中文] 备注: Accepted by IEEE Transactions on Multimedia (TMM) 摘要: 多光谱目标重识别(ReID)为智慧城市和智能交通应用带来了新的感知视角,有效解决了复杂光照和恶劣天气带来的挑战。然而,异构光谱之间复杂的模态差异对高效利用光谱信息的互补性和差异性构成了挑战。大多数现有方法通过复杂的模态交互模块融合光谱数据,缺乏对光谱信息的细粒度语义理解(例如,文本描述、部分掩码和目标关键点)。为了解决这一挑战,我们提出了一种新颖的身份条件文本提示学习框架(ICPL),利用CLIP强大的跨模态对齐能力,从文本语义中统一不同光谱的视觉特征。具体来说,我们首先提出使用可学习的文本提示作为身份级语义中心的在线提示学习,以在线方式桥接不同光谱的身份语义。然后,在缺乏具体文本描述的情况下,我们提出多光谱身份条件模块,使用身份原型作为光谱身份条件来约束提示学习。同时,我们构建了一个对齐循环,互相优化可学习的文本提示和光谱视觉编码器,以避免在线提示学习破坏预训练的文本-图像对齐分布。此外,为了适应小规模多光谱数据并减轻光谱之间的风格差异,我们提出了多光谱适配器,采用低秩适配方法来学习光谱特定特征。在包括RGBNT201、Market-MM、MSVR310、RGBN300和RGBNT100的5个基准上的综合实验表明,所提出的方法优于最先进的方法。 |
[84] VLM模型与特应性皮炎的自动评分 标题: VLM Models and Automated Grading of Atopic Dermatitis 作者: Marc Lalonde / Hamed Ghodrati 原文: [英文] [中文] 备注: 10 pages 摘要: 对于训练有素的皮肤科医生来说,从患者图像中评估特应性皮炎(或称AD,一种湿疹)的严重程度是一项困难的任务。近年来,随着深度学习解决方案的发展,自动化这一任务的研究取得了进展;然而,多模态模型,特别是视觉-语言模型(VLMs)的快速发展,为医学图像的可解释性评估,包括皮肤病学,打开了新的可能性。本文描述了为评估七种VLMs在一组测试图像上评估AD严重程度的能力而进行的实验。 |
[85] 用于对比学习中高效困难负样本采样的局部敏感哈希 标题: Locality-Sensitive Hashing for Efficient Hard Negative Sampling in Contrastive Learning 作者: Fabian Deuser / Philipp Hausenblas / Hannah Schieber / Daniel Roth / Martin Werner / Norbert Oswald 原文: [英文] 备注: None 摘要: 对比学习是一种表示学习范式,其中神经网络将数据元素映射到特征向量。它通过使用一个锚点和基于类别相似性的正例或负例来改进特征空间。难负例是指在特征空间中接近锚点但来自不同类别的例子,它们可以提高学习性能。在大型高维数据集中高效地找到这种高质量的例子是计算上具有挑战性的。在本文中,我们提出了一种适合GPU的局部敏感哈希(LSH)方案,该方案将实值特征向量量化为二进制表示,以进行近似最近邻搜索。我们研究了其理论性质,并在多个文本和视觉领域的数据集上进行了评估。我们的方法在需要显著更少计算的情况下,实现了与现有难负例挖掘策略相当或更好的性能。 |
[86] 多任务学习用于联合动作和手势识别 标题: Multi-task Learning For Joint Action and Gesture Recognition 作者: Konstantinos Spathis / Nikolaos Kardaris / Petros Maragos 原文: [英文] [中文] 备注: None 摘要: 在实际应用中,计算机视觉任务通常需要同时解决。多任务学习通常通过联合训练单个深度神经网络来学习共享表示,从而提高效率和改善泛化能力。尽管动作识别和手势识别是密切相关的任务,因为它们都关注身体和手部动作,但当前最先进的方法是分别处理它们。在本文中,我们展示了采用多任务学习范式进行动作和手势识别可以通过利用这些任务之间的协同作用,获得更高效、更稳健和更具泛化能力的视觉表示。在多个动作和手势数据集上的大量实验表明,在单一架构中处理动作和手势可以在两个任务上实现比单任务学习变体更好的性能。 |
[87] 融合统一非凸张量环因子正则化的高光谱异常检测 标题: Hyperspectral Anomaly Detection Fused Unified Nonconvex Tensor Ring Factors Regularization 作者: Wenjin Qin / Hailin Wang / Hao Shu / Feng Zhang / Jianjun Wang / Xiangyong Cao / Xi-Le Zhao / Gemine Vivone 原文: [英文] [中文] 备注: None 摘要: 近年来,基于张量分解的高光谱异常检测(HAD)方法在遥感领域引起了广泛关注。然而,现有方法往往未能充分利用高光谱图像(HSIs)中背景成分在光谱和空间域中的全局相关性和局部平滑性。这一局限性导致检测性能不佳。为了解决这一关键问题,我们提出了一种新颖的HAD方法,名为HAD-EUNTRFR,该方法结合了增强的统一非凸张量环(TR)因子正则化。在HAD-EUNTRFR框架中,首先将原始HSIs分解为背景和异常成分。然后采用TR分解来捕捉背景成分中的空间-光谱相关性。此外,我们引入了一种由张量奇异值分解(TSVD)引导的统一高效的非凸正则化器,以同时将3D梯度TR因子的低秩性和稀疏性编码为一种独特的简洁形式。上述特征化方案使得可解释的梯度TR因子继承了原始背景的低秩性和平滑性。为了进一步增强异常检测,我们设计了一种广义非凸正则化项,以利用异常成分的组稀疏性。为了解决由此产生的双重非凸模型,我们开发了一种基于交替方向乘子法(ADMM)框架的高效优化算法。在多个基准数据集上的实验结果表明,我们提出的方法在检测准确性方面优于现有的最先进(SOTA)方法。 |
[88] 跟踪任何注释:计算机视觉模型的视频注释和数据集生成 标题: Track Anything Annotate: Video annotation and dataset generation of computer vision models 作者: Nikita Ivanov / Mark Klimov / Dmitry Glukhikh / Tatiana Chernysheva / Igor Glukhikh 原文: [英文] [中文] 备注: 9 pages, 11 figures 摘要: 现代机器学习方法需要大量标记数据,这使得准备过程耗时且资源密集。在本文中,我们提出考虑一种工具的原型设计过程,该工具用于基于视频跟踪和分割的标注和生成训练数据集。我们研究了解决这一问题的不同方法,从技术选择到最终实施。开发的原型与手动标注相比显著加快了数据集生成。所有资源均可在此https URL获取。 |
[89] 从像素到预后:跨多中心非小细胞肺癌数据的多区域CT放射组学与基础模型特征的协调 标题: Pixels to Prognosis: Harmonized Multi-Region CT-Radiomics and Foundation-Model Signatures Across Multicentre NSCLC Data 作者: Shruti Atul Mali / Zohaib Salahuddin / Danial Khan / Yumeng Zhang / Henry C. Woodruff / Eduardo Ibor-Crespo / Ana Jimenez-Pastor / Luis Marti-Bonmati / Philippe Lambin 原文: [英文] 备注: None 摘要: 目的:评估在多中心数据集中,使用手工放射组学、预训练基础模型(FM)特征和临床数据,通过协调和多区域CT图像特征整合对非小细胞肺癌(NSCLC)患者生存预测的影响。 方法:我们分析了来自五个中心的876名NSCLC患者(604名用于训练,272名用于测试)的CT扫描和临床数据。特征从整个肺部、肿瘤、纵隔淋巴结、冠状动脉和冠状动脉钙化(CAC)中提取。使用ComBat、重建核归一化(RKN)和RKN+ComBat对手工放射组学和FM深度特征进行协调。通过正则化Cox模型预测总体生存率;使用一致性指数(C-index)、5年时间依赖曲线下面积(t-AUC)和风险比(HR)评估性能。SHapley加性解释(SHAP)值用于解释特征贡献。共识模型使用顶级感兴趣区域(ROI)模型的一致性来对患者风险进行分层。 结果:TNM分期显示出预后效用(C-index = 0.67;HR = 2.70;t-AUC = 0.85)。使用ComBat的临床+肿瘤放射组学模型达到了0.7552的C-index和0.8820的t-AUC。FM特征(50体素立方体)与临床数据结合,表现出最高性能(C-index = 0.7616;t-AUC = 0.8866)。所有ROI和FM特征的集成达到0.7142的C-index和0.7885的t-AUC。覆盖78%有效测试病例的共识模型实现了0.92的t-AUC,97.6%的敏感性和66.7%的特异性。 结论:协调和多区域特征整合提高了多中心NSCLC数据的生存预测。结合可解释的放射组学、FM特征和共识建模,能够在影像中心之间实现稳健的风险分层。 |
[90] 带有奖励的语义分割 标题: Semantic segmentation with reward 作者: Xie Ting / Ye Huang / Zhilin Liu / Lixin Duan 原文: [英文] 备注: Tech report 摘要: 在现实世界的场景中,像素级的标注并不总是可用的。有时,我们需要一个语义分割网络,甚至一个视觉编码器能够具有高度的兼容性,并且可以使用超越传统标签的各种反馈进行训练,例如指示解析结果质量的反馈。为了解决这个问题,我们提出了RSS(语义分割中的奖励),这是首次在纯语义分割中应用基于奖励的强化学习的实际应用,提供了两种粒度级别(像素级和图像级)。RSS结合了多种新技术,如渐进尺度奖励(PSR)和成对空间差异(PSD),以确保奖励能够促进语义分割网络的收敛,特别是在图像级奖励下。基准数据集上的实验和可视化结果表明,所提出的RSS可以成功确保语义分割网络在两种奖励级别上的收敛。此外,利用图像级奖励的RSS在训练期间仅依赖图像级信号的现有弱监督方法中表现优于其他方法。 |
[91] DiffusionReward:通过奖励反馈学习增强盲脸修复 标题: DiffusionReward: Enhancing Blind Face Restoration through Reward Feedback Learning 作者: Bin Wu / Wei Wang / Yahui Liu / Zixiang Li / Yao Zhao 原文: [英文] [中文] 备注: 22 pages, 13 figures, 5 tables 摘要: 奖励反馈学习(ReFL)最近在将模型输出与人类偏好对齐的各种生成任务中显示出巨大潜力。在这项工作中,我们首次将一种名为DiffusionReward的ReFL框架引入到盲脸修复任务中。DiffusionReward有效克服了基于扩散的方法的局限性,这些方法通常无法生成逼真的面部细节,并且表现出较差的身份一致性。我们框架的核心是面部奖励模型(FRM),它使用精心标注的数据进行训练。FRM提供反馈信号,在引导修复网络的优化过程中发挥关键作用。特别是,我们的ReFL框架将梯度流引入现成的面部修复方法的去噪过程中,以指导模型参数的更新。指导梯度由三个方面协同确定:(i)FRM以确保修复面部的感知质量;(ii)作为保护措施的正则化项以保持生成多样性;以及(iii)结构一致性约束以维持面部真实性。此外,FRM在整个过程中进行动态优化。它不仅确保修复网络精确对齐真实面部流形,还有效防止奖励作弊。在合成和野生数据集上的实验表明,我们的方法优于最先进的方法,显著提高了身份一致性和面部细节。源代码、数据和模型可在此https URL获取。 |
[92] 基于位置增强和多头交叉注意的对象级跨视角地理定位 标题: Object-level Cross-view Geo-localization with Location Enhancement and Multi-Head Cross Attention 作者: Zheyang Huang / Jagannath Aryal / Saeid Nahavandi / Xuequan Lu / Chee Peng Lim / Lei Wei / Hailing Zhou 原文: [英文] [中文] 备注: None 摘要: 跨视角地理定位通过将无人机或地面摄像机拍摄的查询图像与地理参考的卫星图像进行匹配来确定其位置。虽然传统方法侧重于图像级定位,但许多应用,如搜索和救援、基础设施检查和精准投递,要求对象级精度。这使用户能够通过在无人机图像上单击特定对象来获取该对象的精确地理标记信息。然而,视角、时间和成像条件的变化带来了重大挑战,尤其是在广泛的卫星图像中识别视觉上相似的对象时。为了解决这些挑战,我们提出了一种对象级跨视角地理定位网络(OCGNet)。它使用高斯核传递(GKT)集成用户指定的点击位置,以在整个网络中保留位置信息。该提示被双重嵌入到特征编码器和特征匹配模块中,确保稳健的对象特定定位。此外,OCGNet结合了位置增强(LE)模块和多头交叉注意力(MHCA)模块,以在必要时自适应地强调对象特定特征或扩展关注到相关的上下文区域。OCGNet在公共数据集CVOGL上实现了最先进的性能。它还展示了少样本学习能力,能够从有限的示例中有效泛化,使其适用于多种应用(此https URL)。 |
[93] 尿道镜中肾结石类型识别的少样本学习方法评估 标题: Evaluation of Few-Shot Learning Methods for Kidney Stone Type Recognition in Ureteroscopy 作者: Carlos Salazar-Ruiz / Francisco Lopez-Tiro / Ivan Reyes-Amezcua / Clement Larose / Gilberto Ochoa-Ruiz / Christian Daul 原文: [英文] [中文] 备注: 6 pages, 3 figures, 3 tables, conference, cbms25 摘要: 确定肾结石的类型对于开出适当的治疗方案以防止复发至关重要。目前,存在多种方法来识别肾结石的类型。然而,通过参考体外识别程序获得结果可能需要数周时间,而体内视觉识别则需要高度训练的专家。基于此原因,已经开发了深度学习模型,以便在输尿管镜检查期间为泌尿科医生提供肾结石的自动分类。然而,这些模型的一个常见问题是缺乏训练数据。本文提出了一种基于小样本学习的深度学习方法,旨在生成足够区分性的特征,以便在内窥镜图像中识别肾结石类型,即使样本数量非常有限。这种方法专为内窥镜图像稀缺或存在不常见类别的场景而设计,使得即使在训练数据集有限的情况下也能进行分类。结果表明,使用多达25%训练数据的原型网络可以达到与使用完整数据集训练的传统深度学习模型相等或更好的性能。 |
[94] AutoMiSeg:通过基础模型的测试时适应进行自动医学图像分割 标题: AutoMiSeg: Automatic Medical Image Segmentation via Test-Time Adaptation of Foundation Models 作者: Xingjian Li / Qifeng Wu / Colleen Que / Yiran Ding / Adithya S. Ubaradka / Jianhua Xing / Tianyang Wang / Min Xu 原文: [英文] [中文] 备注: None 摘要: 医学图像分割对于临床诊断至关重要,但当前的深度学习方法通常需要大量专家的努力,即通过标注大量训练数据集或在推理时为每个新案例提供提示。本文介绍了一种零样本和自动分割流程,该流程结合了现成的视觉语言和分割基础模型。给定一个医学图像和任务定义(例如,“分割眼底图像中的视盘”),我们的方法使用一个定位模型生成初始边界框,然后通过视觉提示增强模块来增强提示,这些提示随后由可提示的分割模型处理以生成最终的掩膜。为了解决领域差距和结果验证的挑战,我们引入了一个测试时适应框架,该框架具有一组可学习的适配器,将医学输入与基础模型表示对齐。其超参数通过贝叶斯优化进行优化,由代理验证模型指导,无需真实标签。我们的流程为跨多种任务的零样本医学图像分割提供了一种注释高效且可扩展的解决方案。我们的流程在七个不同的医学成像数据集上进行了评估,并显示出有希望的结果。通过适当的分解和测试时适应,我们的全自动流程在与弱提示的交互式基础模型竞争时表现出色。 |
[95] SplatCo:用于细节保留渲染大规模无限场景的结构视图协作高斯喷溅 标题: SplatCo: Structure-View Collaborative Gaussian Splatting for Detail-Preserving Rendering of Large-Scale Unbounded Scenes 作者: Haihong Xiao / Jianan Zou / Yuxin Zhou / Ying He / Wenxiong Kang 原文: [英文] [中文] 备注: None 摘要: 我们介绍了SplatCo,一种用于复杂户外环境高保真渲染的结构视图协作高斯喷溅框架。SplatCo基于两个新颖的组件:(1)一个跨结构协作模块,该模块结合了全球三平面表示,捕捉粗略场景布局,以及表示精细表面细节的局部上下文网格特征。通过一种新颖的分层补偿策略实现这种融合,确保全球一致性和局部细节保留;(2)一种跨视图辅助训练策略,通过同步视点间的梯度更新、应用可见性感知的密集化以及根据结构一致性修剪过拟合或不准确的高斯,增强多视图一致性。通过结构表示和多视图一致性的联合优化,SplatCo有效地重建了大规模场景中的细粒度几何结构和复杂纹理。在包括Mill19、MatrixCity、Tanks & Temples、WHU和定制航拍在内的13个多样化的大规模场景上的全面评估表明,SplatCo始终比最先进的方法实现更高的重建质量,PSNR提高1-2 dB,SSIM提升0.1到0.2。这些结果为大规模无界场景的高保真渲染建立了新的基准。代码和更多信息可在此https URL获取。 |
[96] 扩散分类器理解组合性,但有条件限制 标题: Diffusion Classifiers Understand Compositionality, but Conditions Apply 作者: Yujin Jeong / Arnas Uselis / Seong Joon Oh / Anna Rohrbach 原文: [英文] [中文] 备注: None 摘要: 理解视觉场景是人类智能的基础。虽然判别模型在计算机视觉领域取得了显著进展,但它们在组合理解方面往往表现不佳。相比之下,最近的生成性文本到图像扩散模型在合成复杂场景方面表现出色,显示出内在的组合能力。在此基础上,零样本扩散分类器被提出用于将扩散模型重新用于判别任务。尽管先前的工作在判别组合场景中提供了有希望的结果,但由于基准数量较少以及对模型成功条件的分析相对浅显,这些结果仍然是初步的。为了解决这个问题,我们对扩散分类器在广泛的组合任务中的判别能力进行了全面研究。具体来说,我们的研究涵盖了三个扩散模型(SD 1.5、2.0,以及首次引入的3-m),跨越10个数据集和超过30个任务。此外,我们揭示了目标数据集领域在相应性能中所起的作用;为了隔离领域效应,我们引入了一个新的诊断基准Self-Bench,该基准由扩散模型自身创建的图像组成。最后,我们探讨了时间步权重的重要性,并揭示了领域差距与时间步敏感性之间的关系,特别是对于SD3-m。总而言之,扩散分类器理解组合性,但条件适用!代码和数据集可在此https URL获取。 |
[97] 注意域间差距:测量真实世界与合成点云之间的域间差距以促进自动驾驶开发 标题: Mind the Domain Gap: Measuring the Domain Gap Between Real-World and Synthetic Point Clouds for Automated Driving Development 作者: Nguyen Duc / Yan-Ling Lai / Patrick Madlindl / Xinyuan Zhu / Benedikt Schwab / Olaf Wysocki / Ludwig Hoegner / Thomas H. Kolbe 原文: [英文] [中文] 备注: Submitted to PFG Journal of Photogrammetry, Remote Sensing and Geoinformation Science 摘要: 由于典型的长尾数据分布问题,在机器人、摄影测量和计算机视觉研究中,模拟无域间差异的合成数据至关重要。根本的挑战在于如何可信地衡量真实数据与模拟数据之间的差异。这样的衡量对于安全关键应用(如自动驾驶)至关重要,因为域外样本可能会影响汽车的感知并导致致命事故。以往的工作通常集中在模拟一个场景的数据并在不同的真实场景中分析性能,这妨碍了对来自网络缺陷、类别定义和对象表示的域间差异的独立分析。在本文中,我们提出了一种新方法来测量真实世界传感器观测与表示相同位置的模拟数据之间的域间差异,从而实现全面的域间差异分析。为了测量这种域间差异,我们引入了一种新的度量标准DoGSS-PCL,并进行评估以评估模拟点云的几何和语义质量。我们的实验证实了所引入的方法可以用于测量域间差异。测试还表明,合成语义点云可以用于训练深度神经网络,并在50/50的真实与合成比例下保持性能。我们坚信,这项工作将促进可信数据模拟的研究,并允许在自动驾驶测试和数字孪生中进行大规模部署。 |
[98] MR-EEGWaveNet:用于从长时间脑电图记录中检测癫痫发作的多分辨率EEGWaveNet 标题: MR-EEGWaveNet: Multiresolutional EEGWaveNet for Seizure Detection from Long EEG Recordings 作者: Kazi Mahmudul Hassan / Xuyang Zhao / Hidenori Sugano / Toshihisa Tanaka 原文: [英文] [中文] 备注: 26 pages, 6 figures, 12 tables 摘要: 广义癫痫发作检测模型的特征工程仍然是一个重大挑战。最近提出的模型在性能上因训练数据的不同而有所变化,并且在准确区分伪影和癫痫发作数据方面仍然效果不佳。在本研究中,我们提出了一种新颖的端到端模型“多分辨率EEGWaveNet(MR-EEGWaveNet)”,该模型通过捕捉不同时间帧之间的时间依赖性和通道之间的空间关系,有效地区分癫痫发作事件与背景脑电图(EEG)及伪影/噪声。该模型包含三个模块:卷积、特征提取和预测器。卷积模块通过深度卷积和时空卷积提取特征。特征提取模块分别减少从EEG片段及其子片段中提取的特征维度。随后,提取的特征被连接成一个单一向量,以使用称为预测器模块的全连接分类器进行分类。此外,引入了一种基于异常分数的后分类处理技术,以降低模型的误报率。实验结果在不同参数设置和数据集(Siena(公共)和Juntendo(私有))上进行了报告和分析。所提出的MR-EEGWaveNet显著优于传统的非多分辨率方法,将Siena的数据集的F1分数从0.177提高到0.336,将Juntendo的数据集的F1分数从0.327提高到0.488,精确度分别提高了15.9%和20.62%。 |
[99] 粘合还是不粘合?用于移动测绘相机与纹理化语义三维建筑模型的经典与学习图像匹配 标题: To Glue or Not to Glue? Classical vs Learned Image Matching for Mobile Mapping Cameras to Textured Semantic 3D Building Models 作者: Simone Gaisbauer / Prabin Gyawali / Qilin Zhang / Olaf Wysocki / Boris Jutzi 原文: [英文] [中文] 备注: Accepted to MMT, Xiamen, China; ISPRS Annals 摘要: 特征匹配是许多计算机视觉和摄影测量应用的必要步骤,例如图像配准、结构从运动以及视觉定位。经典的手工方法,如SIFT特征检测和描述结合最近邻匹配和RANSAC异常值去除,一直是移动测绘相机的最新技术。随着深度学习的最新进展,可学习的方法被引入并证明在复杂条件下具有更好的鲁棒性和性能。尽管这些方法的采用率不断增长,但针对语义3D建筑相机到模型匹配这一特定任务,经典与可学习特征匹配方法之间的全面比较仍然缺失。本文系统地评估了不同特征匹配技术在使用纹理化CityGML LoD2模型进行视觉定位中的有效性。我们使用标准基准数据集(HPatches, MegaDepth-1500)以及由立面纹理和相应相机图像(地面和无人机)组成的自定义数据集。对于后者,我们评估了使用透视n点(PnP)算法估计的绝对姿态的可实现精度,几何真值来自地理参考的轨迹数据。结果表明,在我们具有挑战性的自定义数据集上,可学习特征匹配方法在精度和鲁棒性方面远远优于传统方法,RANSAC内点数为零到12,曲线下面积为零到0.16。我们相信这项工作将促进基于模型的视觉定位方法的发展。代码链接:this https URL\_Glue\_or\_not\_to\_Glue |
[100] 通过分层视觉-语言对齐和建模从千兆像素图像中进行小样本学习 标题: Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling 作者: Bryan Wong / Jong Woo Kim / Huazhu Fu / Mun Yong Yi 原文: [英文] [中文] 备注: None 摘要: 视觉-语言模型(VLMs)最近被整合到多实例学习(MIL)框架中,以解决全切片图像(WSIs)的少样本、弱监督分类挑战。一个关键趋势是利用多尺度信息更好地表示分层的组织结构。然而,现有方法通常面临两个关键限制:(1)在同一模态内跨尺度的交互建模不足(例如,5倍和20倍),以及(2)在同一尺度上视觉和文本模态之间的对齐不足。为了解决这些问题,我们提出了HiVE-MIL,这是一种分层视觉-语言框架,它构建了一个统一的图,包括(1)粗(5倍)和细(20倍)视觉/文本节点之间的父子链接,以捕捉层次关系,以及(2)在同一尺度上连接视觉和文本节点的异构内部尺度边缘。为了进一步增强语义一致性,HiVE-MIL引入了一个两阶段的、文本引导的动态过滤机制,去除弱相关的补丁-文本对,并引入分层对比损失以跨尺度对齐文本语义。在TCGA乳腺、肺和肾癌数据集上的大量实验表明,HiVE-MIL在16次样本设置下的宏F1中,始终优于传统的MIL和最近的基于VLM的MIL方法,取得了高达4.1%的提升。我们的结果证明了联合建模层次结构和多模态对齐对于从有限病理数据中进行高效和可扩展学习的价值。代码可在此https URL获取。 |
[101] 从单个深度图像重建规范姿态以在有限数据集上进行三维非刚性姿态恢复 标题: Canonical Pose Reconstruction from Single Depth Image for 3D Non-rigid Pose Recovery on Limited Datasets 作者: Fahd Alhamazani / Yu-Kun Lai / Paul L. Rosin 原文: [英文] [中文] 备注: None 摘要: 从二维输入进行三维重建,尤其是对于像人类这样的非刚性物体,由于可能的变形范围广泛,带来了独特的挑战。传统方法通常在处理非刚性形状时表现不佳,因为这需要大量的训练数据来覆盖整个变形空间。本研究通过提出一种规范姿态重建模型来解决这些限制,该模型将可变形形状的单视图深度图像转换为规范形式。这种对齐方式通过使刚性物体重建技术的应用成为可能,从而促进了形状重建,并支持在重建任务中以体素表示恢复输入姿态,利用原始和变形的深度图像。值得注意的是,我们的模型仅使用大约300个样本的小型数据集就实现了有效的结果。在动物和人类数据集上的实验结果表明,我们的模型优于其他最先进的方法。 |
[102] 分割任意词:用于开放集定位分割的掩码提示反转 标题: Segment Anyword: Mask Prompt Inversion for Open-Set Grounded Segmentation 作者: Zhihua Liu / Amrutha Saseendran / Lei Tong / Xilin He / Fariba Yousefi / Nikolay Burlutskiy / Dino Oglic / Tom Diethe / Philip Teare / Huiyu Zhou / Chen Jin 原文: [英文] [中文] 备注: None 摘要: 开放集图像分割是一个重大挑战,因为现有方法通常需要大量的训练或微调,并且通常难以在不同的文本参考表达中一致地分割统一的对象。受此启发,我们提出了Segment Anyword,这是一种新颖的、无需训练的视觉概念提示学习方法,用于开放集语言基础的分割。该方法依赖于冻结扩散模型的令牌级交叉注意力图来生成分割替代物或掩码提示,然后将其细化为目标对象掩码。初始提示通常缺乏连贯性和一致性,随着图像-文本复杂性的增加,导致次优的掩码碎片。为了解决这个问题,我们进一步引入了一种新颖的语言引导的视觉提示正则化方法,该方法基于句子依赖性和句法结构信息绑定和聚类视觉提示,从而能够提取出稳健的、抗噪的掩码提示,并显著提高分割精度。所提出的方法是有效的,能够在不同的开放集分割任务中进行泛化,并在Pascal Context 59上实现了52.5(相对提高6.8)mIoU,在gRefCOCO上实现了67.73(相对提高25.73)cIoU,在GranDf上实现了67.4(相对于微调方法提高1.1)mIoU,GranDf是该领域最复杂的开放集基础分割任务。 |
[103] 使用光谱成像进行实时组织氧合估计的深度学习临床验证 标题: Clinical Validation of Deep Learning for Real-Time Tissue Oxygenation Estimation Using Spectral Imaging 作者: Jens De Winne / Siri Willems / Siri Luthman / Danilo Babin / Hiep Luong / Wim Ceelen 原文: [英文] [中文] 备注: Provisionally accepted to the MICCAI 2025 conference 摘要: 准确的实时监测组织缺血对于了解组织健康和指导手术至关重要。光谱成像在无接触和术中组织氧合监测方面显示出巨大潜力。由于难以获得直接的氧合参考值,传统方法基于线性分解技术。这些方法容易受到假设的影响,并且这些线性关系在实际中可能并不总是成立。在这项工作中,我们提出了使用蒙特卡罗模拟光谱进行实时组织氧合估计的深度学习方法。我们为此任务训练了一个全连接神经网络(FCN)和一个卷积神经网络(CNN),并提出了一种领域对抗训练方法,以弥合模拟光谱数据与真实临床光谱数据之间的差距。结果表明,与传统的线性分解方法相比,这些深度学习模型与在手术中光谱成像获得的毛细血管乳酸测量(一个众所周知的缺氧标志)具有更高的相关性。值得注意的是,领域对抗训练有效地减少了领域差距,优化了在真实临床环境中的性能。 |
[104] SemSegBench & DetecBench:超越分类的可靠性和泛化能力基准测试 标题: SemSegBench & DetecBench: Benchmarking Reliability and Generalization Beyond Classification 作者: Shashank Agnihotri / David Schader / Jonas Jakubassa / Nico Sharei / Simon Kral / Mehmet Ege Kaçar / Ruben Weber / Margret Keuper 原文: [英文] [中文] 备注: First seven listed authors have equal contribution. GitHub: this https URL. arXiv admin note: text overlap with arXiv:2505.05091 摘要: 深度学习中的可靠性和泛化性研究主要集中在图像分类领域。然而,现实世界中安全关键领域的应用涉及更广泛的语义任务,例如语义分割和目标检测,这些任务伴随着一系列专用的模型架构。为了促进在分割和检测领域的稳健模型设计研究,我们的主要目标是提供关于分布变化和对抗性操控的鲁棒性基准工具。我们提出了基准工具SEMSEGBENCH和DETECBENCH,并进行了迄今为止最广泛的语义分割和目标检测模型的可靠性和泛化性评估。特别是,我们在四个数据集上对76个分割模型进行基准测试,并在两个数据集上对61个目标检测器进行基准测试,评估它们在各种对抗性攻击和常见损坏下的性能。我们的研究结果揭示了最先进模型的系统性弱点,并根据架构、骨干网络和模型容量揭示了关键趋势。SEMSEGBENCH和DETECBENCH在我们的GitHub仓库(此https URL)中开源,包含我们完整的6139次评估。我们预计收集的数据将促进和鼓励未来关于提高模型可靠性超越分类的研究。 |
[105] 从众包街景图像中估计建筑楼层数:慕尼黑数据集和基线方法 标题: Building Floor Number Estimation from Crowdsourced Street-Level Images: Munich Dataset and Baseline Method 作者: Yao Sun / Sining Chen / Yifan Tian / Xiao Xiang Zhu 原文: [英文] [中文] 备注: Code and data: this https URL 摘要: 准确的建筑楼层数或地上层数信息对于家庭估算、公共设施提供、风险评估、疏散规划和能源建模至关重要。然而,大规模的楼层计数数据在地籍和三维城市数据库中很少可用。本研究提出了一种端到端的深度学习框架,该框架直接从不受限制的、众包的街景图像中推断楼层数,避免了手工设计的特征,并能够在不同的建筑立面风格中进行泛化。为了进行基准测试,我们发布了慕尼黑建筑楼层数据集,这是一个公共数据集,包含从Mapillary和目标现场摄影收集的超过6800张地理标记图像,每张图像都配有经过验证的楼层标签。在该数据集上,所提出的分类回归网络达到了81.2%的准确率,并预测了97.9%的建筑物楼层数在±1层范围内。该方法和数据集共同提供了一种可扩展的途径,以垂直信息丰富三维城市模型,并为城市信息学、遥感和地理信息科学的未来工作奠定了基础。源代码和数据将在一个开放许可证下发布于此https URL。 |
[106] RemoteSAM:迈向地球观测的任意分割 标题: RemoteSAM: Towards Segment Anything for Earth Observation 作者: Liang Yao / Fan Liu / Delong Chen / Chuanyi Zhang / Yijun Wang / Ziyun Chen / Wei Xu / Shimin Di / Yuhui Zheng 原文: [英文] [中文] 备注: None 摘要: 我们旨在开发一个稳健且灵活的地球观测视觉基础模型。该模型应具备强大的能力来识别和定位多样的视觉目标,同时能够兼容不同任务场景所需的各种输入输出接口。目前的系统无法满足这些要求,因为它们通常使用在狭窄数据领域上训练的特定任务架构,语义覆盖范围有限。我们的研究从数据和建模两个方面解决了这些限制。我们首先引入了一个自动化数据引擎,与之前的人类标注或基于规则的方法相比,它具有显著更好的可扩展性。这使我们能够创建迄今为止同类中最大的数据库,包含27万张图像-文本-掩码三元组,涵盖了前所未有的多样语义类别和属性规格。在此数据基础上,我们进一步提出了一种以指代表达分割为中心的任务统一范式。它能够有效处理包括分类、检测、分割、定位等在内的广泛视觉中心感知任务,使用单一模型而无需任何特定任务的头部。结合这些在数据和建模上的创新,我们推出了RemoteSAM,一个在多个地球观测感知基准上建立了新的最先进水平的基础模型,其效率显著高于其他基础模型如Falcon、GeoChat和LHRS-Bot。模型和数据可在此https URL公开获取。 |
[107] 一种基于小波的立体匹配框架,用于解决频率收敛不一致问题 标题: A Wavelet-based Stereo Matching Framework for Solving Frequency Convergence Inconsistency 作者: Xiaobao Wei / Jiawei Liu / Dongbo Yang / Junda Cheng / Changyong Shu / Wei Wang 原文: [英文] [中文] 备注: None 摘要: 我们发现,RAFT-stereo的EPE评估指标在低频和高频区域的收敛不一致,导致在迭代过程中高频退化(例如,边缘和细小物体)。当前迭代方法性能受限的根本原因在于它在优化时没有区分高频和低频,而是将所有频率成分一起处理。我们提出了一种基于小波的立体匹配框架(Wavelet-Stereo)来解决频率收敛不一致的问题。具体来说,我们首先使用离散小波变换将图像显式分解为高频和低频成分。然后,将高频和低频成分输入到两个不同的多尺度频率特征提取器中。最后,我们提出了一种新颖的基于LSTM的高频保留更新算子,其中包含一个迭代频率适配器,通过微调初始高频特征,在不同的迭代步骤中提供自适应的精细化高频特征。通过分别处理高频和低频成分,我们的框架可以同时优化边缘的高频信息和平滑区域的低频信息,这对于具有细节和远处纹理的复杂场景尤其适用。大量实验表明,我们的Wavelet-Stereo优于最先进的方法,并在KITTI 2015和KITTI 2012排行榜上几乎所有指标中排名第一。我们将提供代码和预训练模型,以鼓励对我们创新框架的进一步探索、应用和发展(此https URL)。 |
[108] 3D人脸重建误差分解:一种用于公平和快速方法评估的模块化基准 标题: 3D Face Reconstruction Error Decomposed: A Modular Benchmark for Fair and Fast Method Evaluation 作者: Evangelos Sariyanidi / Claudio Ferrari / Federico Nocentini / Stefano Berretti / Andrea Cavallaro / Birkan Tunc 原文: [英文] 备注: To be published in IEEE International Conference on Automatic Face and Gesture Recognition, 2025 摘要: 计算3D人脸重建的标准基准指标,即几何误差,需要多个步骤,例如网格裁剪、刚性对齐或点对应。当前的基准工具是单一的(它们实现了这些步骤的特定组合),即使在如何最佳地测量误差方面没有共识。我们提出了一个模块化3D人脸重建基准工具包(M3DFB),其中误差计算的基本组件是分离且可互换的,从而可以量化每个组件的影响。此外,我们提出了一个新的组件,即校正,并提出了一种计算效率高的方法来惩罚网格拓扑不一致。使用这个工具包,我们在两个真实和两个合成数据集上测试了16种误差估计器和10种重建方法。关键的是,广泛使用的基于ICP的估计器提供了最差的基准性能,因为它显著改变了前五种重建方法的真实排名。值得注意的是,ICP与真实误差的相关性可能低至0.41。此外,非刚性对齐导致显著的改进(相关性大于0.90),这突出了在数据集上标注3D标志点的重要性。最后,所提出的校正方案与非刚性变形结合,达到了与最佳非刚性ICP基估计器相当的精度,但运行速度快了一个数量级。我们的开源代码库旨在让研究人员轻松比较每个组件的替代方案,从而帮助加速3D人脸重建基准测试的进展,并进一步支持学习重建方法的改进,这些方法依赖于准确的误差估计以进行有效的训练。 |
[109] CAMME:基于多模态交叉注意力的自适应深度伪造图像检测 标题: CAMME: Adaptive Deepfake Image Detection with Multi-Modal Cross-Attention 作者: Naseem Khan / Tuan Nguyen / Amine Bermak / Issa Khalil 原文: [英文] [中文] 备注: 20 pages, 8 figures, 12 Tables 摘要: 复杂的AI生成的深度伪造技术的激增对数字媒体认证和社会安全构成了重大挑战。虽然现有的检测方法在特定生成领域内表现良好,但当应用于由未见过的架构生成的操控时,其性能显著下降——这是一个根本性的限制,因为生成技术正在迅速发展。我们提出了CAMME(跨注意多模态嵌入)框架,该框架通过多头跨注意机制动态整合视觉、文本和频域特征,以建立稳健的跨域泛化能力。大量实验表明,CAMME在自然场景和面部深度伪造上分别比最先进的方法提高了12.56%和13.25%。该框架表现出卓越的弹性,在自然图像扰动下保持超过91%的准确率,并在PGD和FGSM对抗攻击下分别达到89.01%和96.14%的准确率。我们的研究结果验证了通过跨注意整合互补模态能够更有效地重新调整决策边界,从而在异构生成架构中实现可靠的深度伪造检测。 |
[110] Clip4Retrofit:通过跨架构CLIP蒸馏实现边缘设备的实时图像标注 标题: Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP Distillation 作者: Li Zhong / Ahmed Ghazal / Jun-Jun Wan / Frederik Zilly / Patrick Mackens / Joachim E. Vollrath / Bogdan Sorin Coseriu 原文: [英文] [中文] 备注: None 摘要: 像CLIP(对比语言-图像预训练)这样的基础模型通过跨模态对齐实现了零样本和少样本学习,彻底改变了视觉-语言任务。然而,它们的计算复杂性和巨大的内存占用使得它们不适合在资源受限的边缘设备上部署,例如用于图像采集和实时处理的车载摄像头。为了解决这一挑战,我们提出了Clip4Retrofit,这是一种高效的模型蒸馏框架,可以在边缘设备上实现实时图像标注。该框架部署在Retrofit摄像头上,这是一种经济高效的边缘设备,已被改装到数千辆汽车中,尽管在计算性能和内存方面有严格的限制。我们的方法将CLIP模型的知识蒸馏到一个轻量级的学生模型中,结合EfficientNet-B3和多层感知器(MLP)投影头,以在显著降低计算需求的同时保持跨模态对齐。我们证明了我们的蒸馏模型在效率和性能之间达到了平衡,使其非常适合在现实场景中部署。实验结果表明,Clip4Retrofit可以在资源有限的边缘设备上执行实时图像标注和物体识别,为自动驾驶和改装现有系统等应用提供了实用的解决方案。这项工作弥合了最先进的视觉-语言模型与其在资源受限环境中部署之间的差距,为基础模型在边缘计算中的更广泛应用铺平了道路。 |
[111] RestoreVAR:用于一体化图像修复的视觉自回归生成 标题: RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration 作者: Sudarshan Rajagopalan / Kartik Narayan / Vishal M. Patel 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 使用潜在扩散模型(LDMs),如Stable Diffusion,显著提高了全能图像修复(AiOR)方法的感知质量,同时也增强了其泛化能力。然而,这些基于LDM的框架由于其迭代去噪过程导致推理速度缓慢,使其在时间敏感的应用中不切实际。为了解决这个问题,我们提出了RestoreVAR,这是一种新颖的生成方法,用于AiOR,在修复性能上显著优于基于LDM的模型,同时实现了超过10倍的推理速度提升。RestoreVAR利用了视觉自回归建模(VAR),这是一种新近引入的方法,通过尺度空间自回归进行图像生成。VAR在大幅降低计算成本的同时,达到了与最先进的扩散变压器相当的性能。为了最佳利用VAR在AiOR中的优势,我们提出了架构上的修改和改进,包括精心设计的交叉注意力机制和一个潜在空间优化模块,专为AiOR任务量身定制。大量实验表明,RestoreVAR在生成AiOR方法中达到了最先进的性能,同时也表现出强大的泛化能力。 |
[112] SHARDeg:退化场景下骨骼人类动作识别的基准 标题: SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios 作者: Simon Malzard / Nitish Mital / Richard Walters / Victoria Nockles / Raghuveer Rao / Celso M. De Melo 原文: [英文] [中文] 备注: 19 pages, 2 images 摘要: 计算机视觉(CV)模型用于检测、预测或分类任务时,通常在现实世界中处理的视频数据流会因实时部署或资源受限的硬件而退化。因此,这些模型对退化数据的鲁棒性至关重要,但最先进的(SoTA)模型在考虑这些现实世界约束时往往评估不足。以骨架人类动作识别(SHAR)为例,它在许多实时和边缘操作的CV管道中至关重要,但对退化数据的鲁棒性评估之前仅是肤浅且不一致的。在此,我们通过提供一个重要的首个数据退化基准来解决SHAR的这一问题,该基准基于最详细和最大的3D开放数据集NTU-RGB+D-120,并评估五个领先的SHAR模型对三种代表现实世界问题的退化形式的鲁棒性。我们通过展示一种之前未考虑的退化形式对模型准确性有巨大影响来证明该基准的必要性;在相同的有效帧率下,模型准确性可能因退化类型而变化超过40%。我们还发现退化SHAR数据中帧的时间规律性可能是导致模型性能差异的主要因素,并利用这一点通过采用基于插值的简单缓解方法来提高现有模型的性能,最高可达40%以上。最后,我们强调我们的基准如何帮助识别一个重要的抗退化SHAR模型,该模型基于粗路径理论;LogSigRNN SHAR模型在低帧率下在六种情况下中的五种中平均准确性比SoTA DeGCN模型高6%,尽管在高帧率(30 FPS)未退化数据上落后于SoTA模型11-12%。 |
[113] SpikeGen:用于视觉脉冲流处理的生成框架 标题: SpikeGen: Generative Framework for Visual Spike Stream Processing 作者: Gaole Dai / Menghang Dong / Rongyu Zhang / Ruichuan An / Shanghang Zhang / Tiejun Huang 原文: [英文] [中文] 备注: None 摘要: 神经形态视觉系统(如脉冲相机)因其在动态条件下捕捉清晰纹理的能力而受到广泛关注。这种能力有效地缓解了与运动和光圈模糊相关的问题。然而,与提供密集空间信息的传统RGB模式相比,这些系统生成的是二进制、空间稀疏的帧,以换取时间上丰富的视觉流。在这种背景下,生成模型成为解决稀疏数据固有局限性的有前途的解决方案。这些模型不仅有助于脉冲和RGB模式现有信息的条件融合,还能基于潜在先验进行条件生成。在本研究中,我们引入了一种名为SpikeGen的强大生成处理框架,专为脉冲相机捕获的视觉脉冲流设计。我们在涉及混合脉冲-RGB模式的多项任务中评估了这一框架,包括条件图像/视频去模糊、从脉冲流重建密集帧以及高速场景新视图合成。通过全面的实验结果,我们证明了利用生成模型的潜在空间操作能力,可以有效解决空间信息的稀疏性,同时充分利用脉冲流的时间丰富性,从而促进不同视觉模式的协同增强。 |
[114] 看哪里?通过自监督学习在哪里看和看到什么来实现高效视觉识别 标题: LookWhere? Efficient Visual Recognition by Learning Where to Look and What to See from Self-Supervision 作者: Anthony Fuller / Yousef Yassin / Junfeng Wen / Daniel G. Kyrollos / Tarek Ibrahim / James R. Green / Evan Shelhamer 原文: [英文] [中文] 备注: None 摘要: 视觉Transformer模型变得越来越大、越来越精确,但计算成本也越来越高。在高分辨率下,这种成本尤为显著,因为令牌数量随着图像大小呈二次增长。我们采用自适应计算来应对这一成本,通过学习预测计算的位置。我们的LookWhere方法将计算分为低分辨率选择器和高分辨率提取器,而无需处理完整的高分辨率输入。我们通过从自监督教师模型蒸馏的方式,在没有任务监督的情况下联合预训练选择器和提取器,从而同时学习计算的位置和内容。与之前的令牌减少方法不同,这些方法通过修剪已计算的令牌来节省成本;与之前的令牌选择方法不同,这些方法需要复杂且昂贵的每任务优化,LookWhere能够经济且准确地选择和提取图像的可迁移表示。我们展示了LookWhere在高分辨率输入(如交通标志)的稀疏识别中表现出色,在保持准确性的同时,将浮点运算次数减少了最多34倍,时间减少了6倍。它在标准识别任务中也表现出色,无论是全局任务(ImageNet分类)还是局部任务(ADE20K分割),在提高准确性的同时将时间减少了1.36倍。 |
[115] BOTM:通过双向最优标记匹配进行超声心动图分割 标题: BOTM: Echocardiography Segmentation via Bi-directional Optimal Token Matching 作者: Zhihua Liu / Lei Tong / Xilin He / Che Liu / Rossella Arcucci / Chen Jin / Huiyu Zhou 原文: [英文] [中文] 备注: None 摘要: 现有的超声心动图分割方法常常面临解剖不一致的挑战,这种挑战是由形状变化、部分观察以及在二维超声心动图序列中具有相似强度的区域模糊性引起的,导致在低信噪比条件下出现解剖结构错误的假阳性分割。为了在不同的超声心动图帧中提供强有力的解剖保证,我们提出了一种名为BOTM(双向最优标记匹配)的新型分割框架,该框架同时执行超声心动图分割和最优解剖传输。给定成对的超声心动图图像,BOTM通过从一种新颖的解剖传输视角寻找最佳对应关系,学习匹配两组离散图像标记。我们进一步将标记匹配扩展为双向交叉传输注意代理,以调节时间域内心脏周期性变形中保留的解剖一致性。大量实验结果表明,BOTM可以生成稳定且准确的分割结果(例如,CAMUS2H LV上-1.917 HD,TED上+1.9% Dice),并提供具有解剖一致性保证的更好匹配解释。 |
[116] FDBPL:用于区域感知视觉语言模型适应的更快蒸馏式提示学习 标题: FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation 作者: Zherui Zhang / Jiaxin Wu / Changwei Wang / Rongtao Xu / Longzhao Huang / Wenhao Xu / Wenbo Xu / Li Guo / Shibiao Xu 原文: [英文] 备注: None 摘要: 提示学习作为一种参数高效的方法,已被广泛采用来使视觉-语言模型(VLMs)适应下游任务。虽然硬提示设计需要领域专业知识和迭代优化,软提示方法则严重依赖于任务特定的硬标签,限制了其对未见类别的泛化能力。最近流行的基于蒸馏的提示学习方法通过利用更大的教师VLMs和无监督知识转移来提高泛化能力,但其重复的教师模型在线推理牺牲了提示学习固有的训练效率优势。在本文中,我们提出了{\large {\textbf{F}}}aster {\large {\textbf{D}}}istillation-{\large {\textbf{B}}}ased {\large {\textbf{P}}}rompt {\large {\textbf{L}}}earning (\textbf{FDBPL}),通过在多个训练阶段共享软监督上下文和实施加速的I/O来解决这些问题。此外,FDBPL引入了一种区域感知的提示学习范式,具有双正负提示空间,以充分利用包含多层次信息的随机裁剪区域。我们提出了一种基于相似性-差异学习的正负空间互学习机制,使学生CLIP模型能够识别正确的语义,同时学习拒绝弱相关的概念,从而提高零样本性能。与现有的基于蒸馏的提示学习方法牺牲参数效率以换取泛化能力不同,FDBPL保持了参数效率和强大的下游泛化的双重优势。对11个数据集的全面评估显示,在基础到新类别泛化、跨数据集迁移和鲁棒性测试中表现优越,实现了$2.2\times$更快的训练速度。 |
[117] 语义对应:统一基准测试和一个强大的基线 标题: Semantic Correspondence: Unified Benchmarking and a Strong Baseline 作者: Kaiyan Zhang / Xinghui Li / Jingyi Lu / Kai Han 原文: [英文] [中文] 备注: None 摘要: 建立语义对应是计算机视觉中的一项具有挑战性的任务,旨在跨不同图像匹配具有相同语义信息的关键点。得益于深度学习的快速发展,过去十年中取得了显著进展。然而,对这一任务的全面回顾和分析仍然缺乏。在本文中,我们首次对语义对应方法进行了广泛的综述。我们首先提出了一种分类法,根据方法设计的类型对现有方法进行分类。然后,我们对这些方法进行分类,并对每种方法进行详细分析。此外,我们将文献中各种基准测试中的方法结果汇总并总结到一个统一的比较表中,并提供详细的配置以突出性能差异。此外,为了深入了解现有的语义匹配方法,我们进行了严格的对照实验,以分析不同方法组件的有效性。最后,我们提出了一个简单而有效的基线,在多个基准测试中实现了最先进的性能,为该领域的未来研究提供了坚实的基础。我们希望这篇综述能作为未来发展的全面参考和整合基线。代码可在此 https URL 公开获取。 |
[118] 一起舞动!身份保留的多人互动视频生成 标题: DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation 作者: Junhao Chen / Mingjin Chen / Jianjin Xu / Xiang Li / Junting Dong / Mingze Sun / Puhua Jiang / Hongxiang Li / Yuhang Yang / Hao Zhao / Xiaoxiao Long / Ruqi Huang 原文: [英文] [中文] 备注: Our video demos and code are available at this https URL 摘要: 可控视频生成(CVG)技术发展迅速,但当前系统在多个演员需要移动、互动并在嘈杂的控制信号下交换位置时表现不佳。我们通过DanceTogether解决了这一问题,这是第一个端到端扩散框架,可以将单个参考图像加上独立的姿态-掩码流转换为长时间的、逼真的视频,同时严格保持每个身份的完整性。一个新颖的MaskPoseAdapter在每个去噪步骤中通过融合稳健的跟踪掩码和语义丰富但嘈杂的姿态热图来绑定“谁”和“如何”,消除了困扰逐帧管道的身份漂移和外观渗透。为了大规模训练和评估,我们引入了(i) PairFS-4K,包含26小时的双滑冰者视频,拥有7000多个不同的ID,(ii) HumanRob-300,一个用于快速跨域迁移的一小时人形机器人交互集,以及(iii) TogetherVideoBench,一个以DanceTogEval-100测试套件为中心的三轨基准,涵盖舞蹈、拳击、摔跤、瑜伽和花样滑冰。在TogetherVideoBench上,DanceTogether以显著优势超越了现有技术。此外,我们展示了一小时的微调可以生成令人信服的人机交互视频,强调了对具身AI和人机交互任务的广泛泛化。广泛的消融实验证实,持久的身份-动作绑定对这些提升至关重要。总之,我们的模型、数据集和基准将CVG从单主体编舞提升到可组合控制的多演员互动,为数字制作、模拟和具身智能开辟了新途径。我们的视频演示和代码可在此https URL获取。 |
[119] 深度视频发现:通过工具使用进行主动搜索以理解长篇视频 标题: Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding 作者: Xiaoyi Zhang / Zhaoyang Jia / Zongyu Guo / Jiahao Li / Bin Li / Houqiang Li / Yan Lu 原文: [英文] [中文] 备注: Under review 摘要: 长视频理解由于其广泛的时空复杂性以及在如此扩展的上下文中进行问答的难度,带来了显著的挑战。尽管大型语言模型(LLMs)在视频分析能力和长上下文处理方面展示了相当大的进步,但在处理信息密集的长达数小时的视频时,它们仍然表现出局限性。为克服这些限制,我们提出了深度视频发现(DVD)代理,通过对分段视频片段进行代理搜索策略。与之前手动设计固定工作流程的视频代理不同,我们的方法强调代理的自主性。通过在多粒度视频数据库上提供一组以搜索为中心的工具,我们的DVD代理利用LLM的高级推理能力来规划其当前观察状态,战略性地选择工具,制定适当的行动参数,并根据收集到的信息迭代地完善其内部推理。我们在多个长视频理解基准上进行了全面评估,展示了整个系统设计的优势。我们的DVD代理在具有挑战性的LVBench数据集上实现了SOTA性能,显著超越了之前的工作。还提供了全面的消融研究和深入的工具分析,为进一步推进针对长视频理解任务的智能代理提供了见解。代码将在稍后发布。 |
[120] CXReasonBench:用于评估胸部X光片结构化诊断推理的基准 标题: CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays 作者: Hyungyung Lee / Geon Choi / Jung-Oh Lee / Hangyul Yoon / Hyuk Gi Hong / Edward Choi 原文: [英文] [中文] 备注: None 摘要: 近年来,大型视觉语言模型(LVLMs)的进展使其在医学任务中展现出有前景的应用,例如报告生成和视觉问答。然而,现有的基准测试主要关注最终的诊断答案,无法深入了解模型是否进行了临床上有意义的推理。为了解决这一问题,我们提出了CheXStruct和CXReasonBench,这是一种基于公开可用的MIMIC-CXR-JPG数据集构建的结构化流程和基准。CheXStruct能够自动从胸部X光片中推导出一系列中间推理步骤,例如分割解剖区域、推导解剖标志和诊断测量、计算诊断指数以及应用临床阈值。CXReasonBench利用这一流程来评估模型是否能够执行临床有效的推理步骤,以及在多大程度上能够从结构化指导中学习,从而实现对诊断推理的细粒度和透明评估。该基准包括12个诊断任务和1,200个病例的18,988个问答对,每个病例配有最多4个视觉输入,并支持多路径、多阶段评估,包括通过解剖区域选择和诊断测量进行的视觉定位。即使是评估的10个最强的LVLMs在结构化推理和泛化方面也表现困难,常常无法将抽象知识与基于解剖的视觉解释联系起来。代码可在此https URL获取。 |
[121] DualTalk:用于3D对话头像的双说话者互动 标题: DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations 作者: Ziqiao Peng / Yanbo Fan / Haoyu Wu / Xuan Wang / Hongyan Liu / Jun He / Zhaoxin Fan 原文: [英文] [中文] 备注: Accepted by CVPR 2025 摘要: 在面对面的对话中,个体需要无缝地在说话和倾听角色之间切换。现有的3D说话人生成模型仅关注于说话或倾听,忽视了互动对话的自然动态,这导致了不自然的互动和尴尬的过渡。为了解决这个问题,我们提出了一项新任务——用于3D说话人生成的多轮双说话人互动——这要求模型在连续对话中处理和生成说话和倾听行为。为了解决这一任务,我们引入了DualTalk,这是一种新颖的统一框架,整合了说话者和倾听者的动态行为,以模拟真实且连贯的对话互动。该框架不仅在说话时合成栩栩如生的说话人,还在倾听时生成连续而生动的非语言反馈,有效地捕捉角色之间的相互作用。我们还创建了一个新的数据集,包含50小时的多轮对话,涉及超过1000个角色,参与者在说话和倾听角色之间不断切换。大量实验表明,我们的方法显著增强了双说话人对话中3D说话人的自然性和表现力。我们建议观看补充视频:this https URL。 |
[122] F-ANcGAN:一种用于纳米粒子合成图像生成的注意力增强循环一致生成对抗架构 标题: F-ANcGAN: An Attention-Enhanced Cycle Consistent Generative Adversarial Architecture for Synthetic Image Generation of Nanoparticles 作者: Varun Ajith / Anindya Pal / Saumik Bhattacharya / Sayantari Ghosh 原文: [英文] [中文] 备注: 11 pages, 9 figures, 2 tables, conference paper 摘要: 纳米材料研究正在成为能源、医学和材料科学的重要领域,准确分析纳米粒子的拓扑结构对于确定其特性至关重要。不幸的是,缺乏高质量的标注数据集严重阻碍了强大的纳米级成像分割模型的创建。为了解决这个问题,我们引入了F-ANcGAN,这是一种注意力增强的循环一致生成对抗系统,可以使用有限数量的数据样本进行训练,并直接从分割图生成逼真的扫描电子显微镜(SEM)图像。我们的模型使用了Style U-Net生成器和配备自注意力的U-Net分割网络来捕捉结构关系,并应用增强方法来增加数据集的多样性。该架构在TiO$_2$数据集生成中达到了17.65的原始FID分数,通过使用有效的后处理技术进一步将FID分数降低到接近10.39。通过促进可扩展的高保真合成数据集生成,我们的方法可以提高下游分割任务训练的有效性,克服纳米粒子分析中的严重数据短缺问题,从而将其应用扩展到资源有限的领域。 |
[123] 将SAM 2应用于视觉目标跟踪:MMVPR挑战多模态跟踪的第一名解决方案 标题: Adapting SAM 2 for Visual Object Tracking: 1st Place Solution for MMVPR Challenge Multi-Modal Tracking 作者: Cheng-Yen Yang / Hsiang-Wei Huang / Pyong-Kun Kim / Chien-Kai Kuo / Jui-Wei Chang / Kwang-Ju Kim / Chung-I Huang / Jenq-Neng Hwang 原文: [英文] [中文] 备注: Accepted by ICPR Multi-Modal Visual Pattern Recognition Workshop 摘要: 我们提出了一种有效的方法,将Segment Anything Model 2 (SAM2) 适配到视觉目标跟踪 (VOT) 任务中。我们的方法利用了SAM2强大的预训练能力,并结合了几项关键技术来提升其在VOT应用中的性能。通过将SAM2与我们提出的优化方法相结合,我们在2024年ICPR多模态目标跟踪挑战赛中取得了89.4的AUC得分,位列第一,证明了我们方法的有效性。本文详细介绍了我们的方法论,对SAM2所做的具体增强,以及在VOT解决方案的背景下对我们结果的全面分析,同时考虑了数据集的多模态性。 |
[124] Instructify:解密元数据以实现视觉指令调优数据转换 标题: Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion 作者: Jacob Hansen / Wei Lin / Junmo Kang / Muhammad Jehanzeb Mirza / Hongyin Luo / Rogerio Feris / Alan Ritter / James Glass / Leonid Karlinsky 原文: [英文] [中文] 备注: None 摘要: 视觉指令调优(VisIT)数据,通常以人机对话的形式出现,其中人类的对话中夹杂着图像,是目前将强大的大语言模型(LLM)调整为理解视觉输入并转化为强大的多模态模型(LMM)的最广泛使用的工具。尽管有许多VisIT数据集可用,但大多数是由不同团队独立开发的临时技术构建的。它们通常文档不全,缺乏可重复的代码,并依赖于付费的、闭源的模型API,如GPT-4、Gemini或Claude,将图像元数据(标签)转换为VisIT指令。这导致了高昂的成本,并使得在新数据集上扩展、提高质量或生成VisIT数据变得具有挑战性。在这项工作中,我们解决了这些挑战,并提出了一种开放且统一的配方和方法,称为\method,用于使用开放的LLM将可用的元数据转换为VisIT指令。我们的多阶段\method提供了一个高效的框架,用于元数据分组、质量控制、数据和提示组织以及对话采样。我们展示了当应用于相同的图像数据和元数据源时,我们的方法可以再现或提高现有VisIT数据集的数据质量,使用开放模型(如Gemma 2 27B和LLaMa 3.1 70B)平均提高了约3%,在个别基准上提高了最多12%。此外,我们的方法通过在广泛的基准上提高生成的LMM性能,实现了有效的性能扩展——无论是在数量上还是质量上。我们还分析了各种因素的影响,包括对话格式、基础模型选择和重采样策略。我们的代码支持再现相同或更高质量的VisIT数据集,并为小众领域的元数据到VisIT数据转换提供便利,已在此https URL上发布。 |
[125] 一个RL看遍所有:视觉三重统一强化学习 标题: One RL to See Them All: Visual Triple Unified Reinforcement Learning 作者: Yan Ma / Linge Du / Xuyang Shen / Shaoxiang Chen / Pengfei Li / Qibing Ren / Lizhuang Ma / Yuchao Dai / Pengfei Liu / Junjie Yan 原文: [英文] [中文] 备注: Technical Report 摘要: 强化学习(RL)显著提升了视觉-语言模型(VLMs)的推理能力。然而,RL在推理任务之外的应用仍然很少被探索,尤其是在物体检测和定位等感知密集型任务中。我们提出了V-Triune,这是一种视觉三重统一强化学习系统,使VLMs能够在单一训练流程中联合学习视觉推理和感知任务。V-Triune由三个互补的组件组成:样本级数据格式化(用于统一多样的任务输入)、验证器级奖励计算(通过专门的验证器提供定制奖励)和源级指标监控(用于在数据源级别诊断问题)。我们进一步引入了一种新颖的动态IoU奖励,为V-Triune处理的感知任务提供自适应、渐进和明确的反馈。我们的方法在现成的RL训练框架中实现,使用开源的7B和32B主干模型。最终的模型被称为Orsta(One RL to See Them All),在推理和感知任务中均表现出一致的改进。这种广泛的能力主要得益于其在多样化数据集上的训练,该数据集围绕四个代表性的视觉推理任务(数学、拼图、图表和科学)和四个视觉感知任务(定位、检测、计数和OCR)构建。随后,Orsta在MEGA-Bench Core上取得了显著的提升,其各种7B和32B模型变体的改进范围从+2.1到令人印象深刻的+14.1,性能优势扩展到广泛的下游任务。这些结果突显了我们统一RL方法在VLMs中的有效性和可扩展性。V-Triune系统及Orsta模型可在此https URL公开获取。 |
[126] 更大步态:利用大型视觉模型的层级表示解锁步态识别 标题: BiggerGait: Unlocking Gait Recognition with Layer-wise Representations from Large Vision Models 作者: Dingqing Ye / Chao Fan / Zhanbo Huang / Chengwen Luo / Jianqiang Li / Shiqi Yu / Xiaoming Liu 原文: [英文] [中文] 备注: None 摘要: 基于大型视觉模型(LVM)的步态识别已经取得了令人瞩目的性能。然而,现有的基于LVM的方法可能过于强调步态先验,而忽视了LVM本身的内在价值,特别是其多层次中的丰富且独特的表示。为了充分挖掘LVM的潜力,本文研究了层次表示对下游识别任务的影响。我们的分析表明,LVM的中间层在不同任务中提供了互补的特性,整合这些特性即使在没有丰富且精心设计的步态先验的情况下也能带来显著的提升。基于这一见解,我们提出了一种简单且通用的基于LVM的步态识别基线,称为BiggerGait。在CCPG、CAISA-B*、SUSTech1K和CCGR_MINI上的全面评估验证了BiggerGait在域内和跨域任务中的优越性,确立了其作为步态表示学习的一个简单而实用的基线。所有模型和代码将公开提供。 |
[127] 通过调制表示学习提升开放集识别性能 标题: Boosting Open Set Recognition Performance through Modulated Representation Learning 作者: Amit Kumar Kundu / Vaishnavi Patil / Joseph Jaja 原文: [英文] [中文] 备注: None 摘要: 开放集识别(OSR)问题旨在识别来自新语义类别的测试样本,这些类别不属于训练类别,这在许多实际场景中是至关重要的任务。然而,现有的OSR方法在应用损失函数之前对logits使用一个恒定的缩放因子(温度),这阻碍了模型在表示学习中从实例级到语义级特征的探索。在本文中,我们通过使用新颖的负余弦调度方案实现温度调节的表示学习来解决这个问题。我们的调度方案使模型在训练开始时通过关注较少的邻居形成粗略的决策边界,并逐渐优先考虑更多的邻居以平滑粗糙的边缘。这种渐进的任务切换导致了更丰富和更具泛化能力的表示空间。虽然其他OSR方法通过包括正则化或辅助负样本(例如混合)来获益,从而增加了显著的计算开销,但我们的方案可以无开销地融入任何现有的OSR方法中。我们在多个基线之上实现了所提出的方案,使用交叉熵和对比损失函数以及其他一些OSR方法,发现我们的方案在大多数情况下提升了OSR性能和封闭集性能,尤其是在更具挑战性的语义转移基准上。 |
[128] TokBench: 在视觉生成之前评估您的视觉分词器 标题: TokBench: Evaluating Your Visual Tokenizer before Visual Generation 作者: Junfeng Wu / Dongliang Luo / Weizhi Zhao / Zhihao Xie / Yuanhao Wang / Junyi Li / Xudong Xie / Yuliang Liu / Xiang Bai 原文: [英文] [中文] 备注: Benchmark, homepagee: this https URL 摘要: 在这项工作中,我们揭示了视觉分词器和VAE在保留细粒度特征方面的局限性,并提出了一个基准来评估两种具有挑战性的视觉内容——文本和人脸的重建性能。图像分词在视觉生成和多模态建模方面取得了显著进展,特别是在自回归模型中,由于离散标记的建模简单性。自回归模型通常依赖图像分词器将图像压缩为离散标记以进行序列预测,而扩散模型则常在连续潜在空间中操作以降低计算成本。然而,这两种视觉压缩方法不可避免地会丢失视觉信息,从而限制了视觉生成质量的上限。为了评估这些压缩损失如何影响文本和人脸这两种对人类最敏感的视觉元素,我们首先从现有数据集中收集并整理了一组文本和人脸图像,确保其清晰度和多样性。在文本重建方面,我们采用OCR模型来评估重建文本的识别准确性,然后测量原始和重建人脸之间的特征相似性,从而量化人脸重建的保真度。我们的方法非常轻量化,仅需2GB内存和4分钟即可完成评估。通过我们的基准,我们分析了不同图像分词器和VAE在不同尺度下文本和人脸的重建质量。我们的结果表明,现代视觉分词器在保留细粒度特征方面仍然存在困难,特别是在较小的尺度上。此外,我们将这一评估框架扩展到视频领域,对视频分词器进行了全面分析。此外,我们发现传统指标未能准确反映人脸和文本的重建性能,而我们提出的指标则是一个有效的补充。 |
[129] REN:基于图像块编码器的快速高效区域编码 标题: REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders 作者: Savya Khosla / Sethuraman TV / Barnett Lee / Alexander Schwing / Derek Hoiem 原文: [英文] [中文] 备注: None 摘要: 我们介绍了区域编码网络(REN),这是一种快速有效的模型,用于使用点提示生成基于区域的图像表示。最近的方法将无类别的分割器(例如,SAM)与基于补丁的图像编码器(例如,DINO)结合起来,以生成紧凑且有效的区域表示,但由于分割步骤,它们面临高计算成本。REN通过一个轻量级模块直接生成区域标记,绕过了这一瓶颈,实现了60倍更快的标记生成和35倍更少的内存,同时提高了标记质量。它使用一些交叉注意力块,将点提示作为查询,将来自基于补丁的图像编码器的特征作为键和值,以生成与提示对象对应的区域标记。我们使用三个流行的编码器-DINO、DINOv2和OpenCLIP训练REN,并展示它可以扩展到其他编码器而无需专门训练。我们在语义分割和检索任务中评估REN,在性能和紧凑性方面,它始终优于原始编码器,并且与基于SAM的区域方法匹配或超越,同时显著更快。值得注意的是,REN在具有挑战性的Ego4D VQ2D基准测试中实现了最先进的结果,并在Visual Haystacks的单针挑战中超越了专有的LMMs。代码和模型可在此https URL获取。 |