scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年2月7日更新论文68
[1] 使用激光雷达基准标记进行映射和定位
标题: Mapping and Localization Using LiDAR Fiducial Markers
作者: Yibo Liu
原文:   [英文]   [中文]  
备注: PhD thesis
摘要:
LiDAR传感器对于自主系统至关重要,但LiDAR基准标记(LFM)的采用和实用性却落后于视觉基准标记(VFM)。弥合这一差距对于机器人技术和计算机视觉至关重要,但由于3D LiDAR数据的稀疏、非结构化特性以及以2D为中心的基准标记设计,这一任务充满挑战。本文提出了一种新颖的框架,利用LFM进行映射和定位,以惠及多种现实世界的应用,包括3D资产的收集、点云配准的训练数据、3D地图合并、增强现实(AR)等。 首先,介绍了一种基于强度图像的LiDAR基准标记(IFM)系统,使用与VFM兼容的薄型、信纸大小的标记。检测方法从强度图像中定位3D基准,支持LiDAR姿态估计。其次,增强算法将检测扩展到3D地图,增加标记范围并促进3D地图合并等任务。该方法利用强度和几何特性,克服了仅依赖几何检测方法的局限性。第三,提出了一种新的基于LFM的映射和定位方法,用于配准无序、低重叠的点云。它采用自适应阈值检测和两级图框架来解决最大后验(MAP)问题,优化点云和标记的姿态。此外,引入了Livox-3DMatch数据集,改进了基于学习的多视点云配准方法。 在各种LiDAR模型下进行的大量室内外场景实验表明,所提出的框架具有有效性和优越性。

[2] 克罗内克掩码和解释性提示是语言-动作视频学习者
标题: Kronecker Mask and Interpretive Prompts are Language-Action Video Learners
作者: Jingyi Yang / Zitong Yu / Xiuming Ni / Jia He / Hui Li
原文:   [英文]  
备注: None
摘要:
对比语言-图像预训练(CLIP)在基于图像的视觉学习中取得了显著进展。随之而来的一个紧迫话题是:我们如何有效地将CLIP适应到视频领域?最近的研究主要集中在调整CLIP的文本或视觉分支以进行动作识别。然而,我们认为两个分支的适应都是至关重要的。在本文中,我们提出了\textbf{CLAVER}:一种\textbf{C}ontrastive \textbf{L}anguage-\textbf{A}ction \textbf{V}ideo Learn\textbf{er},旨在将CLIP的重点从静态视觉对象和具体名词的对齐转向动态动作行为和抽象动词的对齐。具体来说,我们引入了一种新颖的克罗内克掩码注意力用于时间建模。我们定制的克罗内克掩码提供了三个好处:1)它扩展了每个标记的时间感受野,2)它作为一种有效的时空异质性归纳偏差,缓解了时空同质化问题,3)它可以无缝地嵌入基于变压器的模型中。关于文本分支,我们利用大型语言模型生成多样化的、句子级别的、语义丰富的动作解释提示,从而将模型的关注点转向动词理解。在各种基准和学习场景下的大量实验表明了我们方法的优越性和通用性。代码将很快发布。

[3] 高效的全局神经架构搜索
标题: Efficient Global Neural Architecture Search
作者: Shahid Siddiqui / Christos Kyrkou / Theocharis Theocharides
原文:   [英文]   [中文]  
备注: CAIP2023
摘要:
神经架构搜索(NAS)在自动化神经网络设计方面显示出潜力,但由于需要评估大量架构以找到最优架构的训练成本,其计算需求很高。为了加速NAS,最近的研究将搜索限制在网络构建模块(模块化搜索)上,而不是搜索整个架构(全局搜索),通过近似候选者的性能评估代替完整训练,并使用梯度下降而非自然适用的离散优化方法。然而,模块化搜索并不能确定网络的宏观架构,即深度和宽度,要求在搜索后进行手动试错,因此缺乏自动化。在这项工作中,我们重新审视NAS,设计了一个可导航但架构多样的宏观-微观搜索空间。此外,为了确定候选者的相对排名,现有方法在整个搜索空间中采用一致的近似,而不同的网络在一个训练协议下可能无法公平比较。因此,我们提出了一种架构感知的近似方法,为不同网络提供可变的训练方案。此外,我们通过分离宏观-微观网络设计开发了一种高效的搜索策略,在准确性和规模方面产生了具有竞争力的架构。我们提出的框架在EMNIST和KMNIST上达到了新的最先进水平,同时在CIFAR-10、CIFAR-100和FashionMNIST数据集上具有很强的竞争力,并且比最快的全局搜索方法快2-4倍。最后,我们通过为人脸识别应用发现具有竞争力的架构,展示了我们框架在真实世界计算机视觉问题上的可迁移性。

[4] CLIP在跨模态时表现得像一个词袋模型,但在单模态时则不然
标题: CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally
作者: Darina Koishigarina / Arnas Uselis / Seong Joon Oh
原文:   [英文]   [中文]  
备注: None
摘要:
CLIP(对比语言-图像预训练)已成为各种下游任务的热门选择。然而,最近的研究对其有效表示组合概念的能力提出了质疑。这些研究表明,CLIP通常表现得像一个词袋(BoW)模型,将图像和文本解释为一组独立的概念,而未能理解结构关系。特别是,当图像或文本中存在多个对象时,CLIP难以正确地将属性与其对应的对象绑定。在这项工作中,我们研究了为什么CLIP表现出这种类似BoW的行为。我们发现,正确的属性-对象绑定信息已经存在于单独的文本和图像模态中。问题在于依赖余弦相似度的跨模态对齐。为了解决这个问题,我们提出了线性属性绑定CLIP(LABCLIP)。它在计算余弦相似度之前对文本嵌入应用线性变换。这种方法显著提高了CLIP将属性绑定到正确对象的能力,从而增强了其组合理解能力。

[5] 具有基于惩罚的损失函数的胸部X光片临床启发分层多标签分类
标题: Clinically-Inspired Hierarchical Multi-Label Classification of Chest X-rays with a Penalty-Based Loss Function
作者: Mehrdad Asadi / Komi Sodoké / Ian J. Gerard / Marta Kersten-Oertel
原文:   [英文]   [中文]  
备注: 9 pages with 3 figures, for associated implementation see this https URL
摘要:
在这项工作中,我们提出了一种新颖的多标签胸部X光(CXR)图像分类方法,该方法在保持简化的单模型、单次运行训练流程的同时,增强了临床可解释性。我们利用CheXpert数据集和VisualCheXbert衍生的标签,结合层次化标签分组,以捕捉诊断之间具有临床意义的关系。为此,我们设计了一种自定义的层次化二元交叉熵(HBCE)损失函数,通过固定或数据驱动的惩罚类型来强化标签依赖性。我们的模型在测试集上实现了0.903的接收者操作特征曲线下面积(AUROC)均值。此外,我们提供了视觉解释和不确定性估计,以进一步增强模型的可解释性。所有代码、模型配置和实验细节均已公开。

[6] 通过定向目标检测进行太阳能板映射
标题: Solar Panel Mapping via Oriented Object Detection
作者: Conor Wallace / Isaac Corley / Jonathan Lwowski
原文:   [英文]   [中文]  
备注: None
摘要:
维护太阳能电站的完整性是应对当前气候危机的重要组成部分。这个过程始于分析人员创建电站的详细地图,其中包含每个太阳能电池板的坐标,从而可以快速定位和缓解潜在的故障太阳能电池板。然而,这项任务极其繁琐,并且无法适应全球太阳能发电容量不断增加的需求。因此,我们提出了一种端到端的深度学习框架,利用旋转目标检测架构来检测单个太阳能电池板。我们在一个从美国各地收集的多样化太阳能电站数据集上评估了我们的方法,并报告了83.3%的mAP得分。

[7] DynVFX:为真实视频添加动态内容
标题: DynVFX: Augmenting Real Videos with Dynamic Content
作者: Danah Yatim / Rafail Fridman / Omer Bar-Tal / Tali Dekel
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
我们提出了一种为真实世界视频添加新生成动态内容的方法。给定一个输入视频和用户提供的简单文本指令来描述所需内容,我们的方法可以合成动态物体或复杂场景效果,使其随着时间的推移自然地与现有场景互动。新内容的位置、外观和运动与原始视频无缝集成,同时考虑到摄像机运动、遮挡以及与场景中其他动态物体的交互,从而生成一个连贯且逼真的输出视频。我们通过一个零样本、无需训练的框架实现这一点,该框架利用预训练的文本到视频扩散变换器来合成新内容,并利用预训练的视觉语言模型来详细构想增强后的场景。具体来说,我们引入了一种新颖的基于推理的方法,该方法操控注意力机制中的特征,使新内容能够准确定位并无缝集成,同时保持原始场景的完整性。我们的方法是全自动的,仅需简单的用户指令。我们展示了其在应用于真实世界视频的各种编辑中的有效性,涵盖了涉及摄像机和物体运动的多样化物体和场景。

[8] 令牌的隐秘生活:通过视觉信息引导减少大型视觉语言模型的幻觉
标题: The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering
作者: Zhuowei Li / Haizhou Shi / Yunhe Gao / Di Liu / Zhenting Wang / Yuxiao Chen / Ting Liu / Long Zhao / Hao Wang / Dimitris N. Metaxas
原文:   [英文]   [中文]  
备注: None
摘要:
大型视觉-语言模型(LVLMs)能够有效地对文本和视觉输入进行推理,但它们往往会生成语法上连贯但在视觉上无依据的内容。在本文中,我们通过检查生成过程中标记的对数排名,研究了幻觉的内部动态,揭示了LVLMs处理信息的三个关键模式:(1)逐渐的视觉信息丢失——视觉上有依据的标记在整个生成过程中逐渐变得不受欢迎;(2)早期激活——语义上有意义的标记在比最终层更早的层中达到峰值激活;(3)隐藏的真实信息——尽管视觉上有依据的标记最终未被选中,但在推理中仍保持相对较高的排名。基于这些见解,我们提出了VISTA(通过标记对数增强的视觉信息引导),这是一种无需训练的推理时干预框架,能够减少幻觉并促进真实信息。VISTA通过结合两种互补的方法来工作:在激活空间中加强视觉信息,并利用早期层激活来促进语义上有意义的解码。与现有方法相比,VISTA不需要外部监督,并适用于各种解码策略。大量实验表明,VISTA在评估的开放式生成任务中平均减少了约40%的幻觉,并且在四个基准测试中跨四种架构在三种解码策略下始终优于现有方法。

[9] REALEDIT:Reddit编辑作为图像转换的大规模实证数据集
标题: REALEDIT: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations
作者: Peter Sushko / Ayana Bharadwaj / Zhi Yang Lim / Vasily Ilin / Ben Caffee / Dongping Chen / Mohammadreza Salehi / Cheng-Yu Hsieh / Ranjay Krishna
原文:   [英文]  
备注: None
摘要:
现有的图像编辑模型难以满足现实世界的需求。尽管在学术基准测试中表现出色,但它们尚未被广泛应用于满足真实用户需求。用于支持这些模型的数据集使用的是人工编辑,缺乏必要的规模和生态有效性,无法应对用户请求的真正多样性。我们引入了REALEDIT,这是一个大规模的图像编辑数据集,包含来自Reddit的真实用户请求和人工编辑。REALEDIT包括一个由9300个示例组成的测试集,用于评估模型在真实用户请求上的表现。我们的结果表明,现有模型在这些任务上表现不佳,突显出现实训练数据的必要性。为了解决这个问题,我们引入了48K个训练示例并训练了我们的REALEDIT模型,取得了显著的提升——在人类判断中比竞争对手高出最多165 Elo点,并在自动化VIEScore指标上实现了92%的相对改进。我们在Reddit上部署了我们的模型,对新请求进行了测试,并收到了积极的反馈。除了图像编辑之外,我们还探索了REALEDIT在检测编辑图像方面的潜力,与一个深度伪造检测非营利组织合作。通过在REALEDIT数据上微调他们的模型,其F1分数提高了14个百分点,强调了该数据集在广泛应用中的价值。

[10] 迈向视频生成中的物理理解:一种三维点正则化方法
标题: Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach
作者: Yunuo Chen / Junli Cao / Anil Kag / Vidit Goel / Sergei Korolev / Chenfanfu Jiang / Sergey Tulyakov / Jian Ren
原文:   [英文]   [中文]  
备注: Project Page: \url{this https URL}
摘要:
我们提出了一种新颖的视频生成框架,该框架结合了三维几何和动态感知。为此,我们通过三维点轨迹增强二维视频,并在像素空间中对其进行对齐。生成的三维感知视频数据集PointVid随后用于微调潜在扩散模型,使其能够使用三维笛卡尔坐标跟踪二维对象。在此基础上,我们对视频中对象的形状和运动进行正则化,以消除不希望的伪影,例如,非物理变形。因此,我们提高了生成的RGB视频的质量,并缓解了当前视频模型中由于缺乏形状感知而普遍存在的对象变形等常见问题。通过我们的三维增强和正则化,我们的模型能够处理接触丰富的场景,例如任务导向的视频。这些视频涉及固体的复杂交互,其中三维信息对于感知变形和接触至关重要。此外,我们的模型通过促进移动对象的三维一致性和减少形状和运动的突然变化来提高视频生成的整体质量。

[11] 一体化图像压缩与修复
标题: All-in-One Image Compression and Restoration
作者: Huimin Zeng / Jiacheng Li / Ziqiang Zheng / Zhiwei Xiong
原文:   [英文]  
备注: Accepted to WACV 2025 (oral)
摘要:
在实际的图像压缩中,常常会遇到被各种类型和程度的退化损坏的视觉图像。然而,大多数现有的图像压缩方法是为干净图像量身定制的,因此在处理这些图像时难以取得令人满意的结果。联合压缩和修复方法通常专注于单一类型的退化,无法解决实际中各种退化的问题。为此,我们提出了一个统一的框架,用于一体化的图像压缩和修复,将针对各种退化的图像修复能力融入到图像压缩过程中。关键挑战在于区分真实的图像内容和退化部分,并在没有先验知识的情况下灵活地消除各种退化。具体而言,所提出的框架从两个角度来应对这些挑战:即内容信息聚合和退化表示聚合。大量实验表明,我们的模型具有以下优点:1)在各种退化输入上具有优越的率失真(RD)性能,同时保持在干净数据上的性能;2)对真实世界和未见场景具有强大的泛化能力;3)与对比方法相比,具有更高的计算效率。我们的代码可在此https URL获取。

[12] 图像超分辨率的数据集蒸馏研究
标题: A Study in Dataset Distillation for Image Super-Resolution
作者: Tobias Dietz / Brian B. Moser / Tobias Nauen / Federico Raue / Stanislav Frolov / Andreas Dengel
原文:   [英文]   [中文]  
备注: None
摘要:
数据集蒸馏是将大型数据集浓缩为更小但高度代表性的合成样本的概念。尽管先前的研究主要集中在图像分类上,但其在图像超分辨率(SR)中的应用仍未被充分探索。这项探索性工作研究了多种应用于SR的数据集蒸馏技术,包括在不同方面的像素空间和潜在空间方法。我们的实验表明,可以在保持与完整数据集相当的SR性能的同时,实现91.12%的数据集大小缩减。我们进一步分析了初始化策略和蒸馏方法,以优化内存效率和计算成本。我们的研究结果为SR的数据集蒸馏提供了新的见解,并为未来的进步奠定了基础。

[13] 一项关于从卫星影像中检测小物体方法的实证研究
标题: An Empirical Study of Methods for Small Object Detection from Satellite Imagery
作者: Xiaohui Yuan / Aniv Chakravarty / Lichuan Gu / Zhenchun Wei / Elinor Lichtenberg / Tian Chen
原文:   [英文]   [中文]  
备注: None
摘要:
本文回顾了用于从遥感影像中检测小物体的目标检测方法,并对四种最先进的方法进行了实证评估,以深入了解方法的性能和技术挑战。特别是,我们使用城市卫星图像中的汽车检测和农业用地卫星图像中的蜂箱检测作为应用场景。通过现有的调查和文献,我们确定了几种表现优异的方法用于实证研究。我们的实验使用了公共的高分辨率卫星图像数据集。

[14] 条件扩散模型是提供免费可解释性和不确定性的医学图像分类器
标题: Conditional Diffusion Models are Medical Image Classifiers that Provide Explainability and Uncertainty for Free
作者: Gian Mario Favero / Parham Saremi / Emily Kaczmarek / Brennan Nichyporuk / Tal Arbel
原文:   [英文]   [中文]  
备注: None
摘要:
判别分类器已成为深度学习在医学影像中的基础工具,擅长学习复杂数据分布的可分离特征。然而,这些模型通常需要精心设计、数据增强和训练技术,以确保安全和可靠的部署。最近,扩散模型已成为二维生成建模的代名词。这些模型在一系列任务中展示了稳健性,包括自然图像分类,其中通过比较为每个可能的条件输入生成的图像的重建误差来进行分类。本文首次探索了类条件扩散模型在二维医学图像分类中的潜力。首先,我们开发了一种新颖的多数投票方案,证明可以提高医学扩散分类器的性能。接下来,在CheXpert和ISIC黑色素瘤皮肤癌数据集上的大量实验表明,基础和从头训练的扩散模型在无需显式监督的情况下,能够与最先进的判别分类器竞争。此外,我们展示了扩散分类器本质上是可解释的,并且可以用于量化其预测的不确定性,从而提高其在安全关键的临床环境中的可信度和可靠性。更多信息可在我们的项目页面上找到:this https URL

[15] 通用稀疏自编码器:可解释的跨模型概念对齐
标题: Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment
作者: Harrish Thasarathan / Julian Forsyth / Thomas Fel / Matthew Kowal / Konstantinos Derpanis
原文:   [英文]  
备注: None
摘要:
我们提出了通用稀疏自编码器(USAEs),这是一种揭示和对齐跨多个预训练深度神经网络的可解释概念的框架。与现有的基于概念的可解释性方法不同,这些方法专注于单个模型,而USAEs则共同学习一个通用概念空间,可以同时重建和解释多个模型的内部激活。我们的核心见解是训练一个单一的、过完备的稀疏自编码器(SAE),该编码器可以接收任何模型的激活,并将其解码以近似考虑中的任何其他模型的激活。通过优化一个共享目标,学习到的字典捕捉了不同任务、架构和数据集中的共同变化因素——概念。我们展示了USAEs在视觉模型中发现了语义连贯且重要的通用概念;这些概念从低级特征(例如颜色和纹理)到高级结构(例如部件和对象)不等。总体而言,USAEs为可解释的跨模型分析提供了一种强大的新方法,并提供了新的应用,例如协调激活最大化,为多模型AI系统中的更深入见解开辟了途径。

[16] MD-BERT:通过动态多流融合和时间建模在黑暗视频中进行动作识别
标题: MD-BERT: Action Recognition in Dark Videos via Dynamic Multi-Stream Fusion and Temporal Modeling
作者: Sharana Dharshikgan Suresh Dass / Hrishav Bakul Barua / Ganesh Krishnasamy / Raveendran Paramesran / Raphael C.-W. Phan
原文:   [英文]   [中文]  
备注: None
摘要:
在黑暗、低光(曝光不足)或噪声视频中进行动作识别是一项具有挑战性的任务,因为可见度下降可能会阻碍关键的时空细节。本文提出了MD-BERT,这是一种新颖的多流方法,结合了伽马校正和直方图均衡化等互补的预处理技术以及原始暗帧,以应对这些挑战。我们引入了动态特征融合(DFF)模块,将现有的注意力融合方法扩展到三流设置,从而在不同的亮度和对比度增强中捕获细粒度和全局上下文信息。融合的时空特征随后由基于BERT的时间模型处理,该模型利用其双向自注意力有效捕获帧之间的长程依赖关系和上下文关系。在ARID V1.0和ARID V1.5暗视频数据集上的大量实验表明,MD-BERT优于现有方法,建立了新的最先进性能。消融研究进一步突出了每个输入流的单独贡献以及所提出的DFF和BERT模块的有效性。该工作的官方网站可在此URL访问。

[17] DICE:将无分类器指导提炼为文本嵌入
标题: DICE: Distilling Classifier-Free Guidance into Text Embeddings
作者: Zhenyu Zhou / Defang Chen / Can Wang / Chun Chen / Siwei Lyu
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像的扩散模型能够生成高质量的图像,但这些图像往往无法与给定的文本提示紧密对齐。无分类器指导(CFG)是一种流行且有效的技术,用于在生成过程中改善文本与图像的对齐。然而,使用CFG会引入显著的计算开销,并偏离扩散模型的既定理论基础。在本文中,我们提出了通过增强文本嵌入来蒸馏CFG的方法(DICE),这是一种新颖的方法,可以在生成过程中去除对CFG的依赖,同时保持其带来的好处。DICE通过精炼文本嵌入来复制基于CFG的方向,将基于CFG的文本到图像扩散模型蒸馏为无CFG版本。通过这种方式,我们避免了CFG的计算和理论缺陷,实现了快速采样速度下的高质量、良好对齐的图像生成。在多个Stable Diffusion v1.5变体、SDXL和PixArt-$\alpha$上的广泛实验证明了我们方法的有效性。此外,DICE支持用于图像编辑的负面提示,以进一步提高图像质量。代码将很快发布。

[18] 补丁化中的缩放定律:一张图像价值50,176个标记及更多
标题: Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More
作者: Feng Wang / Yaodong Yu / Guoyizhe Wei / Wei Shao / Yuyin Zhou / Alan Yuille / Cihang Xie
原文:   [英文]   [中文]  
备注: None
摘要:
自从引入视觉变换器(ViT)以来,图像块化一直被视为纯视觉架构的事实上的图像标记化方法。通过压缩图像的空间尺寸,这种方法可以有效缩短标记序列并降低类似ViT的纯架构的计算成本。在这项工作中,我们旨在彻底检查这种基于块化的压缩编码范式所导致的信息损失及其如何影响视觉理解。我们进行了广泛的块大小缩放实验,并兴奋地观察到块化中的一个有趣的缩放规律:模型可以通过减小块大小持续受益,并获得更好的预测性能,直到达到最小块大小1x1,即像素标记化。这个结论在不同的视觉任务、各种输入尺度和多样的架构(如ViT和最近的Mamba模型)中普遍适用。此外,作为副产品,我们发现随着块的减小,特定任务的解码头对于密集预测变得不那么重要。在实验中,我们成功地将视觉序列扩展到50,176个标记的异常长度,在ImageNet-1k基准上使用基础大小的模型实现了84.6%的竞争性测试准确率。我们希望这项研究能够为未来构建非压缩视觉模型的工作提供见解和理论基础。代码可在此https URL获取。

[19] 使用改进的YOLOv8进行脑肿瘤识别
标题: Brain Tumor Identification using Improved YOLOv8
作者: Rupesh Dulal / Rabin Dulal
原文:   [英文]  
备注: None
摘要:
识别脑肿瘤的范围是脑癌治疗中的一个重大挑战。主要困难在于肿瘤大小的近似检测。磁共振成像(MRI)已成为一种关键的诊断工具。然而,手动从MRI扫描中检测脑肿瘤的边界是一项劳动密集型任务,需要丰富的专业知识。深度学习和计算机辅助检测技术在这一领域取得了显著进展。在本文中,我们提出了一种改进的YOLOv8模型,以准确检测MRI图像中的肿瘤。该模型在检测头中用实时检测Transformer(RT-DETR)替换了非极大值抑制(NMS)算法。NMS用于过滤掉检测到的肿瘤中的冗余或重叠的边界框,但它们是手工设计和预设的。RT-DETR去除了手工设计的组件。第二个改进是用ghost卷积替换了普通卷积块。Ghost卷积在保持高精度的同时减少了计算和内存成本,并实现了更快的推理,使其非常适合资源受限的环境和实时应用。第三个改进是在YOLOv8的主干中引入了视觉Transformer块,以提取上下文感知特征。我们在所提出的模型中使用了一个公开可用的脑肿瘤数据集。所提出的模型比原始YOLOv8模型表现更好,并且也优于其他目标检测器(Faster R-CNN、Mask R-CNN、YOLO、YOLOv3、YOLOv4、YOLOv5、SSD、RetinaNet、EfficientDet和DETR)。所提出的模型在0.5阈值下实现了0.91的平均精度(mAP)。

[20] 通过相位和振幅感知提示提高对抗鲁棒性
标题: Improving Adversarial Robustness via Phase and Amplitude-aware Prompting
作者: Yibo Xu / Dawei Zhou / Decheng Liu / Nannan Wang
原文:   [英文]   [中文]  
备注: None
摘要:
深度神经网络被发现容易受到对抗性噪声的影响。基于提示的防御由于其高效性而受到越来越多的研究。然而,现有的基于提示的防御主要利用混合提示模式,其中与对象语义密切相关的关键模式缺乏足够的关注。相位和振幅谱已被证明与特定语义模式高度相关,并且对鲁棒性至关重要。为此,本文提出了一种相位和振幅感知的提示(PAP)防御。具体来说,我们为每个类别构建了相位级和振幅级提示,并根据模型在这些提示下的鲁棒性能在训练过程中调整提示的权重。在测试过程中,我们使用每个图像的预测标签选择提示,以获得提示后的图像,并将其输入模型以获得最终预测。实验结果证明了我们方法的有效性。

[21] RAMOTS:基于深度学习和大数据技术的实时空中多目标跟踪系统
标题: RAMOTS: A Real-Time System for Aerial Multi-Object Tracking based on Deep Learning and Big Data Technology
作者: Nhat-Tan Do / Nhi Ngoc-Yen Nguyen / Dieu-Phuong Nguyen / Trong-Hop Do
原文:   [英文]   [中文]  
备注: None
摘要:
由于视角变化、低分辨率和小物体的存在,无人机视频中的多目标跟踪(MOT)具有挑战性。尽管其他关于航拍视频的MOT研究主要通过开发复杂的算法来关注学术方面,但对这些系统的实际应用方面关注不足。在本文中,我们提出了一种新颖的实时MOT框架,该框架集成了Apache Kafka和Apache Spark,以实现高效且容错的视频流处理,并结合了最先进的深度学习模型YOLOv8/YOLOv10和BYTETRACK/BoTSORT,以实现精确的目标检测和跟踪。我们的工作强调了不仅要有先进的算法,还要将这些方法与可扩展和分布式系统相结合的重要性。通过利用这些技术,我们的系统在Visdrone2019-MOT测试集上实现了48.14的HOTA和43.51的MOTA,同时在单个GPU上保持28 FPS的实时处理速度。我们的工作展示了大数据技术和深度学习在解决无人机应用中MOT挑战方面的潜力。

[22] 分层稀疏查询变压器辅助超声筛查早期肝细胞癌的回顾性系统研究
标题: A Retrospective Systematic Study on Hierarchical Sparse Query Transformer-assisted Ultrasound Screening for Early Hepatocellular Carcinoma
作者: Chaoyin She / Ruifang Lu / Danni He / Jiayi Lv / Yadan Lin / Meiqing Cheng / Hui Huang / Lida Chen / Wei Wang / Qinghua Huang
原文:   [英文]   [中文]  
备注: None
摘要:
肝细胞癌(HCC)是全球癌症相关死亡的第三大原因,早期检测对于提高患者生存率至关重要。然而,使用超声进行HCC早期筛查的敏感性不足,并且高度依赖于放射科医生的专业知识进行解读。利用人工智能(AI)在医学影像领域的最新进展,本研究提出了一种创新的分层稀疏查询变压器(HSQformer)模型,该模型结合了卷积神经网络(CNNs)和视觉变压器(ViTs)的优势,以提高超声筛查中HCC诊断的准确性。HSQformer利用稀疏潜在空间表示来捕捉不同粒度的分层细节,无需复杂的调整,并采用模块化、即插即用的设计理念,确保模型的多功能性和易用性。HSQformer的性能在三种不同的临床场景中进行了严格测试:单中心、多中心和高风险患者测试。在每种情况下,它都始终优于现有的最先进模型,如ConvNext和SwinTransformer。值得注意的是,HSQformer甚至与高级放射科医生的诊断能力相当,并全面超越了初级放射科医生的能力。本研究的实验结果强烈证明了AI辅助工具在HCC筛查中的有效性和临床潜力。完整代码可在此https URL获取。

[23] 多标签测试时自适应与边界熵最小化
标题: Multi-Label Test-Time Adaptation with Bound Entropy Minimization
作者: Xiangyu Wu / Feng Yu / Qing-Guo Chen / Yang Yang / Jianfeng Lu
原文:   [英文]   [中文]  
备注: Accepted for publication at ICLR 2025; 17 pages; 3 figures
摘要:
主流的测试时适应(TTA)技术通过熵最小化来缓解多类分类中的分布偏移,本质上增加了最有信心类别的概率。然而,当遇到多标签实例时,主要挑战来自于每张图像的标签数量不同,仅优先考虑概率最高的类别不可避免地削弱了其他正标签的适应性。为了解决这个问题,我们在多标签场景(ML--TTA)中研究TTA,开发了边界熵最小化(BEM)目标,以同时提高多个最高预测标签的置信度。具体来说,为了确定每个增强视图的标签数量,我们为该视图检索一个带有文本标签的配对标题。这些标签被分配给视图和标题,称为弱标签集和强标签集,大小相同为k。随后,提出的BEM将视图和标题中预测的最高top-k标签分别视为一个实体,同时学习视图和标题提示。通过绑定top-k预测标签,BEM克服了传统熵最小化的局限性,该方法仅优化最有信心的类别。在MSCOCO、VOC和NUSWIDE多标签数据集上,我们配备BEM的ML--TTA框架在各种模型架构、提示初始化和不同标签场景中,表现优于最新的SOTA方法。代码可在此https URL获取。

[24] 基于注视辅助的人类中心域适应的心脏超声图像分割
标题: Gaze-Assisted Human-Centric Domain Adaptation for Cardiac Ultrasound Image Segmentation
作者: Ruiyi Li / Yuting He / Rongjun Ge / Chong Wang / Daoqiang Zhang / Yang Chen / Shuo Li
原文:   [英文]   [中文]  
备注: None
摘要:
心脏超声图像分割的领域自适应(DA)在临床上具有重要意义和价值。然而,以往的领域自适应方法容易受到不完整的伪标签和低质量的目标到源图像的影响。以人为中心的领域自适应具有利用人类认知指导的巨大优势,可以帮助模型适应目标领域并减少对标签的依赖。医生的注视轨迹包含大量跨领域的人类指导。为了利用注视信息和人类认知来指导领域自适应,我们提出了注视辅助以人为中心的领域自适应(GAHCDA),该方法可靠地指导心脏超声图像的领域自适应。GAHCDA包括以下模块:(1)注视增强对齐(GAA):GAA使模型能够获得人类认知的通用特征,以便像人类一样识别心脏超声图像中不同领域的分割目标。(2)注视平衡损失(GBL):GBL将注视热图与输出融合,使分割结果在结构上更接近目标领域。实验结果表明,我们提出的框架能够在目标领域中比基于GAN的方法和其他自训练方法更有效地分割心脏超声图像,显示出在临床应用中的巨大潜力。

[25] DeblurDiff:使用生成扩散模型进行真实世界图像去模糊
标题: DeblurDiff: Real-World Image Deblurring with Generative Diffusion Models
作者: Lingshun Kong / Jiawei Zhang / Dongqing Zou / Jimmy Ren / Xiaohe Wu / Jiangxin Dong / Jinshan Pan
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型在图像生成方面取得了显著进展。预训练的稳定扩散(Stable Diffusion, SD)模型通过提供清晰的图像先验,有助于图像去模糊。然而,直接使用模糊图像或预去模糊图像作为SD的条件控制,要么会阻碍准确的结构提取,要么会使结果过于依赖去模糊网络。在这项工作中,我们提出了一种潜在核预测网络(Latent Kernel Prediction Network, LKPN),以实现稳健的真实世界图像去模糊。具体来说,我们在潜在空间中与条件扩散共同训练LKPN。LKPN学习一个空间变化的核,以指导潜在空间中清晰图像的恢复。通过应用逐元素自适应卷积(Element-wise Adaptive Convolution, EAC),学习到的核被用来自适应地处理输入特征,有效地保留输入的结构信息。这个过程从而更有效地指导稳定扩散(SD)的生成过程,增强去模糊效果和细节重建质量。此外,每个扩散步骤的结果被用来迭代地估计LKPN中的核,以通过EAC更好地恢复清晰的潜在图像。这种迭代优化增强了去模糊过程的准确性和稳健性。大量实验结果表明,所提出的方法在基准和真实世界图像上均优于最先进的图像去模糊方法。

[26] 带有注意力机制的优化Unet用于多尺度语义分割
标题: Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation
作者: Xuan Li / Quanchao Lu / Yankaiqi Li / Muqing Li / Yijiashun Qi
原文:   [英文]  
备注: None
摘要:
语义分割是计算机视觉领域的核心任务之一,其目标是准确地对图像中的每个像素进行分类。传统的Unet模型通过编码器-解码器结构实现高效的特征提取和融合,但在处理复杂背景、长距离依赖和多尺度目标时仍存在一定的局限性。为此,本文提出了一种结合注意力机制的改进Unet模型,引入了通道注意力和空间注意力模块,增强了模型关注重要特征的能力,并通过多尺度特征融合策略优化跳跃连接,从而改善了全局语义信息与细粒度特征的结合。实验基于Cityscapes数据集,并与FCN、SegNet、DeepLabv3+和PSPNet等经典模型进行比较。改进后的模型在mIoU和像素准确率(PA)方面表现良好,分别达到76.5%和95.3%。实验结果验证了该方法在处理复杂场景和模糊目标边界方面的优越性。此外,本文讨论了改进模型在实际应用中的潜力和未来扩展方向,表明其在自动驾驶、遥感图像分析和医学图像处理等领域具有广泛的应用价值。

[27] FairT2I:通过大型语言模型辅助检测和属性再平衡来缓解文本到图像生成中的社会偏见
标题: FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing
作者: Jinya Sakurai / Issei Sato
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像(T2I)模型的激增彻底改变了内容创作,为从艺术表达到教育材料开发和市场营销的多种应用提供了强大的工具。尽管这些技术取得了进步,但由于这些模型依赖于通常包含固有社会偏见的大规模数据集,因此引发了重大的伦理问题。当AI生成的内容被纳入训练数据时,这些偏见可能会被进一步放大,从而在生成的输出中强化和延续刻板印象。在本文中,我们介绍了FairT2I,这是一种新颖的框架,利用大型语言模型来检测和减轻T2I生成中的社会偏见。我们的框架包括两个关键组件:(1)基于LLM的偏见检测模块,该模块根据文本提示识别生成图像中的潜在社会偏见,以及(2)属性再平衡模块,该模块微调T2I模型中的敏感属性以减轻识别出的偏见。我们在各种T2I模型和数据集上的广泛实验表明,FairT2I可以在保持高质量图像生成的同时显著减少偏见。我们进行了定性用户研究和定量非参数分析,基于Stable Bias研究中引入的职业数据集。我们的结果表明,FairT2I成功减轻了社会偏见,并增强了生成图像中敏感属性的多样性。我们进一步使用P2数据集证明,我们的框架可以检测到人类观察者难以察觉的微妙偏见,超越了与职业相关的提示。基于这些发现,我们引入了一个新的基准数据集,用于评估T2I模型中的偏见。

[28] FE-UNet:具有分割任意物体能力的频域增强U-Net用于多功能图像分割
标题: FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation
作者: Guohao Huo / Ruiting Dai / Ling Shao / Hao Tang
原文:   [英文]   [中文]  
备注: None
摘要:
图像分割是视觉理解中的一项关键任务。卷积神经网络(CNN)倾向于捕捉图像中的高频特征,而Transformer则专注于低频特征。在本文中,我们通过实验量化了CNN的对比敏感度函数,并将其与人类视觉系统进行比较,这一研究受到Mannos和Sakrison开创性实验的启发。利用这些见解,我们提出了小波引导的频谱池化模块(WSPM),以增强和平衡频域中的图像特征。为了进一步模拟人类视觉系统,我们引入了频域增强感受野块(FE-RFB),该模块集成了WSPM以从频域中提取丰富的特征。基于这些创新,我们开发了FE-UNet模型,该模型使用SAM2作为其骨干网络,并结合Hiera-Large作为预训练块,旨在提高泛化能力,同时确保高分割精度。实验结果表明,FE-UNet在包括海洋动物和息肉分割在内的多种任务中实现了最先进的性能,突显了其多功能性和有效性。

[29] 通过平衡域多样性和不变性实现单域广义目标检测
标题: Single-Domain Generalized Object Detection by Balancing Domain Diversity and Invariance
作者: Zhenwei He / Hongsu Ni
原文:   [英文]  
备注: None
摘要:
单域泛化目标检测(S-DGOD)旨在将知识从单一源域转移到未见过的目标域。近年来,许多模型主要专注于实现特征不变性以增强鲁棒性。然而,由于域之间固有的多样性,过度强调不变性可能导致模型忽视图像之间的实际差异。这种过度强调可能会使训练过程复杂化,并导致有价值信息的丢失。为了解决这个问题,我们提出了多样性不变性检测模型(DIDM),该模型关注域特定多样性与跨域不变性之间的平衡。认识到域多样性会引入域特定特征的变化,我们引入了多样性学习模块(DLM)。DLM旨在通过提出的特征多样性损失来保留域特定信息的多样性,同时限制特征中的类别语义。此外,为了保持域不变性,我们引入了加权对齐模块(WAM),该模块在不损害特征多样性的情况下对齐特征。我们在五个不同的数据集上进行了模型测试,结果表明所提出模型的优越性能和有效性。

[30] 利用视觉-语言反馈调整人类网格恢复
标题: Adapting Human Mesh Recovery with Vision-Language Feedback
作者: Chongyang Xu / Buzhen Huang / Chengfang Zhang / Ziliang Feng / Yangang Wang
原文:   [英文]   [中文]  
备注: 6 pages, 7 figures
摘要:
人体网格恢复可以通过回归方法或优化方法来实现。回归模型在姿态精度上表现出色,但由于缺乏明确的2D-3D对应关系,在模型与图像的对齐上存在困难。相比之下,优化方法可以将3D模型与2D观测对齐,但容易陷入局部极小值并存在深度模糊问题。在这项工作中,我们利用大型视觉语言模型(VLMs)生成交互式身体部位描述,这些描述作为隐式约束来增强3D感知并限制优化空间。具体来说,我们将单目人体网格恢复表述为一个分布适应任务,通过整合2D观测和语言描述来实现。为了弥合文本与3D姿态信号之间的差距,我们首先训练一个文本编码器和一个姿态VQ-VAE,使用对比学习在共享的潜在空间中将文本与身体姿态对齐。随后,我们采用基于扩散的框架,通过从2D观测和文本描述中导出的梯度来优化初始参数。最终,该模型能够生成具有准确3D感知和图像一致性的姿态。在多个基准测试上的实验结果验证了其有效性。代码将公开发布。

[31] 通过类别信息量追求长尾目标检测的更佳决策边界
标题: Pursuing Better Decision Boundaries for Long-Tailed Object Detection via Category Information Amount
作者: Yanbiao Ma / Wei Dai / Jiayi Chen
原文:   [英文]   [中文]  
备注: Published as a conference paper at ICLR 2025
摘要:
在目标检测中,实例数量通常用于定义数据集是否呈现长尾分布,隐含地假设模型在实例较少的类别上表现不佳。这一假设导致了大量关于实例数量不平衡数据集的类别偏差研究。然而,即使在实例数量相对平衡的数据集中,模型仍然表现出类别偏差,这清楚地表明仅靠实例数量无法解释这一现象。在这项工作中,我们首先引入了类别信息量的概念和测量方法。我们观察到类别信息量与准确率之间存在显著的负相关关系,这表明类别信息量更准确地反映了类别的学习难度。基于这一观察,我们提出了信息量引导的角度边距(IGAM)损失。IGAM 的核心思想是根据每个类别的信息量动态调整其决策空间,从而减少长尾数据集中的类别偏差。IGAM 损失不仅在长尾基准数据集如 LVIS v1.0 和 COCO-LT 上表现良好,而且在非长尾数据集 Pascal VOC 中对代表性不足的类别也显示出显著的改进。综合实验展示了类别信息量作为工具的潜力以及我们所提方法的普适性。

[32] 半监督rPPG:基于课程伪标签的半监督远程生理测量
标题: Semi-rPPG: Semi-Supervised Remote Physiological Measurement with Curriculum Pseudo-Labeling
作者: Bingjie Wu / Zitong Yu / Yiping Xie / Wei Liu / Chaoqi Luo / Yong Liu / Rick Siow Mong Goh
原文:   [英文]   [中文]  
备注: Accepted by IEEE Transactions on Instrumentation and Measurement (TIM)
摘要:
远程光体积描记术(rPPG)是一种有前景的技术,可以通过面部视频监测心率等生理信号。然而,在这项研究中,标记的面部视频难以收集。目前的rPPG研究主要基于在简单环境中收集的几个小型公共数据集,这限制了AI模型的泛化能力和规模。利用少量标记数据和大量未标记数据的半监督方法可以填补rPPG学习的这一空白。在本研究中,提出了一种新颖的半监督学习方法,称为Semi-rPPG,该方法结合了课程伪标签和一致性正则化,以从未标记数据中提取内在的生理特征,同时避免模型受到噪声的影响。具体而言,提出了一种基于信噪比(SNR)标准的课程伪标签策略,用于标注未标记数据,同时自适应地过滤掉低质量的未标记数据。此外,还提出了一种针对准周期信号的新型一致性正则化项,通过弱和强增强的剪辑实现。为了促进半监督rPPG测量的研究,我们通过对四个公共数据集进行数据集内和跨数据集评估,建立了一个新颖的rPPG学习半监督基准。与三种经典的半监督方法相比,所提出的Semi-rPPG方法在不同协议下取得了最佳结果。进行了消融研究以证明所提出方法的有效性。

[33] 仔细观察交互对象:基于交互感知的开放词汇场景图生成
标题: Taking A Closer Look at Interacting Objects: Interaction-Aware Open Vocabulary Scene Graph Generation
作者: Lin Li / Chuhan Zhang / Dong Zhang / Chong Sun / Chen Li / Long Chen
原文:   [英文]   [中文]  
备注: None
摘要:
当今的开放词汇场景图生成(OVSGG)通过利用预训练的大规模模型的知识,扩展了传统的场景图生成(SGG),能够识别超出预定义类别的新颖对象和关系。大多数现有方法采用两阶段流程:使用图像字幕进行弱监督预训练,并在完全注释的场景图上进行监督微调(SFT)。然而,它们忽略了对交互对象的显式建模,并将所有对象视为相等,导致关系对不匹配。为此,我们提出了一种交互感知的OVSGG框架INOVA。在预训练期间,INOVA采用交互感知目标生成策略,以区分交互对象和非交互对象。在SFT中,INOVA设计了一种交互引导的查询选择策略,以在二分图匹配过程中优先考虑交互对象。此外,INOVA配备了交互一致的知识蒸馏,通过将交互对象对与背景分离来增强鲁棒性。在两个基准(VG和GQA)上的大量实验表明,INOVA实现了最先进的性能,展示了交互感知机制在现实应用中的潜力。

[34] 高级目标检测与姿态估计:结合混合任务级联和高分辨率网络
标题: Advanced Object Detection and Pose Estimation with Hybrid Task Cascade and High-Resolution Networks
作者: Yuhui Jin / Yaqiong Zhang / Zheyuan Xu / Wenqing Zhang / Jingyu Xu
原文:   [英文]   [中文]  
备注: None
摘要:
在计算机视觉领域,6D物体检测和姿态估计对于机器人、增强现实和自动驾驶等应用至关重要。传统方法通常难以同时在物体检测和精确姿态估计上取得高精度。本研究提出了一种改进的6D物体检测和姿态估计流程,该流程基于现有的6D-VNet框架,通过集成混合任务级联(HTC)和高分辨率网络(HRNet)骨干网络进行增强。通过利用HTC的多阶段细化过程的优势和HRNet保持高分辨率表示的能力,我们的方法显著提高了检测精度和姿态估计的精确性。此外,我们引入了先进的后处理技术和一种新颖的模型集成策略,这些共同为在公共和私有基准测试上的卓越性能做出了贡献。我们的方法在现有最先进的模型上表现出显著的改进,使其成为6D物体检测和姿态估计领域的宝贵贡献。

[35] 基于规则的低维数据建模:结合PCA和二进制粒子群优化(BPSO)在自适应神经模糊推理系统(ANFIS)中的应用
标题: Rule-Based Modeling of Low-Dimensional Data with PCA and Binary Particle Swarm Optimization (BPSO) in ANFIS
作者: Afnan Al-Ali / Uvais Qidwai
原文:   [英文]   [中文]  
备注: 41 pages, 9 figures
摘要:
基于模糊规则的系统在低维领域中解释数据,提供透明性和可解释性。相比之下,深度学习在图像和语音识别等复杂任务中表现出色,但在稀疏、非结构化或低维数据中容易过拟合。在医疗和金融等领域,这种可解释性至关重要。传统的基于规则的系统,尤其是使用网格划分的自适应神经模糊推理系统(ANFIS),随着维度的增加会遭遇规则数量的指数增长。我们提出了一种战略性的规则缩减模型,该模型对归一化的激活强度应用主成分分析(PCA),以获得线性不相关的成分。二进制粒子群优化(BPSO)选择性地优化这些成分,显著减少规则数量,同时保持决策的精确性。一个自定义的参数更新机制通过动态调整BPSO参数来微调特定的ANFIS层,避免陷入局部最小值。我们在标准的UCI呼吸、keel分类、回归数据集以及一个真实的缺血性中风数据集上验证了我们的方法,展示了其适应性和实用性。结果表明,规则更少,训练时间更短,且具有高精度,强调了该方法在低维可解释性和复杂数据场景中的有效性。这种模糊逻辑与优化的结合促进了稳健解决方案的发展。我们的方法为多个领域的可解释AI贡献了一个强大的框架。它解决了维度问题,确保了规则库的存在。

[36] LeAP:使用基础模型进行一致的多领域3D标注
标题: LeAP: Consistent multi-domain 3D labeling using Foundation Models
作者: Simon Gebraad / Andras Palffy / Holger Caesar
原文:   [英文]   [中文]  
备注: 9 pages, 4 figures. ICRA25 preprint
摘要:
数据集的可用性是推动3D语义理解研究的重要因素。尽管获取未标注的3D点云数据相对简单,但手动为这些数据添加语义标签既耗时又昂贵。最近,视觉基础模型(VFMs)在相机图像上实现了开放集语义分割,可能有助于自动标注。然而,3D数据的VFMs仅限于2D模型的改编,这可能导致3D标签的不一致。本文介绍了“标注任意点云”(LeAP),利用2D VFMs自动为3D数据标注任意类别的标签,适用于任何类型的应用,同时确保标签的一致性。通过贝叶斯更新,将点标签合并到体素中以提高时空一致性。一个新颖的3D一致性网络(3D-CN)利用3D信息进一步提高标签质量。通过各种实验,我们表明我们的方法可以在无需任何人工标注的情况下,在不同领域生成高质量的3D语义标签。此外,使用我们的标签适应新领域的模型在语义分割任务中显示出高达34.2 mIoU的提升。

[37] 标注中也没有免费的午餐:对基础模型在简化动物追踪标注中的客观评估
标题: No Free Lunch in Annotation either: An objective evaluation of foundation models for streamlining annotation in animal tracking
作者: Emil Mededovic / Valdy Laurentius / Yuli Wu / Marcin Kopaczka / Zhu Chen / Mareike Schulz / René Tolba / Johannes Stegmaier
原文:   [英文]   [中文]  
备注: \c{opyright} 2025 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works
摘要:
我们分析了基础模型在生成动物追踪注释这一繁琐任务中的能力。为大量数据进行注释至关重要,它可能成为追踪模型稳健性的决定性因素。在动物追踪中,稳健性尤为重要,因为在长时间范围内的准确追踪对于捕捉动物行为至关重要。然而,使用基础模型生成额外的注释可能适得其反,因为注释的质量同样重要。注释不佳的数据可能引入噪声和不准确性,最终损害训练模型的性能和准确性。在没有确保精确性的情况下过度依赖自动注释可能导致结果下降,因此在注释过程中进行仔细的监督和质量控制是必不可少的。最终,我们证明了自动注释与人工注释数据的深思熟虑的结合是一种有价值的策略,其IDF1得分为80.8,而盲目使用SAM2视频的IDF1得分为65.6。

[38] LR0.FM:基础模型的低分辨率零样本分类基准
标题: LR0.FM: Low-Resolution Zero-shot Classification Benchmark For Foundation Models
作者: Priyank Pathak / Shyam Marjit / Shruti Vyas / Yogesh S Rawat
原文:   [英文]   [中文]  
备注: Accepted to ICLR 2025
摘要:
视觉-语言基础模型(FMs)在不同任务中表现出显著的零样本泛化能力,这主要归功于在大规模数据集上的广泛预训练。然而,它们在低分辨率/像素化(LR)图像上的鲁棒性——这是现实世界中常见的挑战——仍未被充分探索。我们引入了一个全面的基准,用于评估低分辨率对10个基础模型在66个骨干网络和15个数据集上的零样本分类性能的影响。我们提出了一种新颖的指标,称为加权聚合鲁棒性,以解决现有指标的局限性,并更好地评估模型在不同分辨率和数据集上的性能。我们的主要发现表明:(i)模型大小与对分辨率退化的鲁棒性正相关,(ii)预训练数据集的质量比其规模更为重要,以及(iii)经过微调和更高分辨率的模型在面对低分辨率时鲁棒性较差。我们的分析进一步揭示,模型在低分辨率下做出的预测在语义上是合理的,而输入中缺乏细粒度细节对模型的初始层影响大于对深层的影响。我们利用这些见解并引入了一种简单的策略,LR-TK0,以增强模型的鲁棒性而不影响其预训练权重。我们展示了LR-TK0在多个数据集上对低分辨率鲁棒性的有效性及其在不同骨干网络和其他方法上的泛化能力。代码可在此网址获取。

[39] 通过使用对抗生成样本改进基于扰动的深度伪造检测器解释
标题: Improving the Perturbation-Based Explanation of Deepfake Detectors Through the Use of Adversarially-Generated Samples
作者: Konstantinos Tsigos / Evlampios Apostolidis / Vasileios Mezaris
原文:   [英文]   [中文]  
备注: Accepted for publication, AI4MFDD Workshop @ IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2025), Tucson, AZ, USA, Feb. 2025. This is the authors' "accepted version"
摘要:
在本文中,我们引入了一种利用对抗生成的输入图像样本的想法,这些样本被检测器分类为深度伪造,以形成扰动掩码,从而推断不同输入特征的重要性并生成视觉解释。我们基于自然进化策略生成这些样本,旨在翻转原始深度伪造检测器的决策,并将这些样本分类为真实。我们将这一想法应用于四种基于扰动的解释方法(LIME、SHAP、SOBOL 和 RISE),并使用一个最先进的深度伪造检测模型、一个基准数据集(FaceForensics++)以及相应的解释评估框架来评估所产生的修改方法的性能。我们的定量评估记录了所提出的扰动方法对解释方法性能的主要积极贡献。我们的定性分析显示,修改后的解释方法能够更准确地划定被操控的图像区域,从而提供更有用的解释。

[40] MultiFloodSynth:多标注洪水合成数据集生成
标题: MultiFloodSynth: Multi-Annotated Flood Synthetic Dataset Generation
作者: YoonJe Kang / Yonghoon Jung / Wonseop Shin / Bumsoo Kim / Sanghyun Seo
原文:   [英文]   [中文]  
备注: 6 pages, 6 figures. Accepted as Oral Presentation to AAAI 2025 Workshop on Good-Data
摘要:
在本文中,我们提出了一种用于洪水灾害检测系统的合成数据生成框架。为了实现高保真度和高质量,我们将多个现实世界的属性特征化到虚拟世界中,并通过控制这些属性来模拟洪水情境。为了提高效率,我们利用了最近在图像到3D和城市合成方面的生成模型,以便轻松合成洪水环境,从而避免由于手工制作方式导致的数据偏差。基于我们的框架,我们构建了一个具有5个级别的洪水合成数据集,称为MultiFloodSynth,该数据集包含丰富的注释类型,如法线图、分割、3D边界框,以支持多种下游任务。在实验中,我们的数据集展示了在洪水灾害检测中的增强性能,并且在逼真度上与真实数据集相当。

[41] RWKV-UI:具有增强感知和推理能力的用户界面理解
标题: RWKV-UI: UI Understanding with Enhanced Perception and Reasoning
作者: Jiaxi Yang / Haowen Hou
原文:   [英文]   [中文]  
备注: 10 pages, 5figures, conference
摘要:
现有的视觉语言模型在处理结合复杂视觉、文本和交互元素的高分辨率网页界面时,常常面临信息丢失和推理能力有限的问题。这些挑战在需要网页布局理解和多步骤交互推理的任务中尤为明显。为了解决这些问题,我们提出了RWKV-UI,这是一种基于RWKV架构的视觉语言模型,专门设计用于处理高分辨率的UI图像。在模型训练过程中,我们引入了布局检测作为视觉提示,以帮助模型更好地理解网页布局结构。此外,我们设计了一种基于思维链(Chain-of-Thought, CoT)机制的视觉提示,增强了模型通过推理链理解和推理网页内容的能力。实验结果表明,RWKV-UI在高分辨率UI理解和交互推理任务中表现出显著的性能提升。

[42] CAD-Editor:一种基于定位后填充框架的文本化CAD编辑自动训练数据合成方法
标题: CAD-Editor: A Locate-then-Infill Framework with Automated Training Data Synthesis for Text-Based CAD Editing
作者: Yu Yuan / Shizhao Sun / Qi Liu / Jiang Bian
原文:   [英文]   [中文]  
备注: None
摘要:
计算机辅助设计(CAD)在各个行业中都是不可或缺的。基于文本的CAD编辑可以根据文本指令自动修改CAD模型,具有巨大潜力,但尚未得到充分探索。现有的方法主要集中在设计变体生成或基于文本的CAD生成,要么缺乏对文本控制的支持,要么忽视了现有CAD模型作为约束条件。我们引入了\emph{CAD-Editor},这是第一个用于基于文本的CAD编辑的框架。为了解决训练中需要精确对应的三元组数据的挑战,我们提出了一种自动化数据合成流程。该流程利用设计变体模型生成原始和编辑后的CAD模型对,并使用大型视觉语言模型(LVLMs)总结它们的差异为编辑指令。为了解决基于文本的CAD编辑的复合性质,我们提出了一个“定位-然后填充”框架,将任务分解为两个专注的子任务:定位需要修改的区域,并用适当的编辑填充这些区域。大型语言模型(LLMs)作为这两个子任务的骨干,利用其在自然语言理解和CAD知识方面的能力。实验表明,CAD-Editor在定量和定性上都实现了卓越的性能。

[43] 通过利用高分辨率图像中的每个像素来增强无人机影像中的人员定位,以改善人群管理
标题: Enhancing people localisation in drone imagery for better crowd management by utilising every pixel in high-resolution images
作者: Bartosz Ptak / Marek Kraft
原文:   [英文]   [中文]  
备注: This is the pre-print. The article is submitted to the Engineering Applications of Artificial Intelligence journal
摘要:
使用无人机进行精确的人群定位对于有效的人群管理至关重要,这不仅适用于大型活动和公共集会期间,也适用于日常城市人群流动的监控。传统的使用高分辨率无人机图像进行微小物体定位的方法通常在精度和效率上面临限制,主要是由于图像缩放和滑动窗口技术的限制。为了解决这些挑战,本文提出了一种专注于点定位的新方法。与这种方法一起,引入了像素蒸馏模块,以通过一次性提取单个像素的空间信息来增强高清图像的处理。此外,本文分享了一个名为UP-COUNT的新数据集,专为现代无人机应用量身定制。该数据集解决了无人机图像中的一系列挑战,例如在图像采集过程中相机和物体的同时移动,推动了人群管理应用的能力。对所提出方法在所提数据集和常用的DroneCrowd数据集上的全面评估表明,我们的方法优于现有方法,并突出了其在基于无人机的人群物体定位任务中的有效性。这些改进显著提高了算法在现实场景中操作的适用性,使得在动态环境中更可靠地定位和计数个体成为可能。

[44] PartEdit:使用预训练扩散模型进行细粒度图像编辑
标题: PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models
作者: Aleksandar Cvejic / Abdelrahman Eldesokey / Peter Wonka
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
我们提出了基于预训练扩散模型的首个针对物体部件的文本图像编辑方法。基于扩散的图像编辑方法利用扩散模型对图像语义的深刻理解来执行各种编辑。然而,现有的扩散模型对许多物体部件的理解不足,阻碍了用户所需的细粒度编辑。为了解决这个问题,我们提出扩展预训练扩散模型的知识,使其能够理解各种物体部件,从而实现细粒度编辑。我们通过一种高效的令牌优化过程来学习与不同物体部件对应的特殊文本令牌来实现这一点。这些令牌经过优化,以在每个推理步骤中生成可靠的定位掩码,以定位编辑区域。利用这些掩码,我们设计了特征混合和自适应阈值策略,以无缝执行编辑。为了评估我们的方法,我们建立了一个基准和一个部件编辑的评估协议。实验表明,我们的方法在所有指标上都优于现有的编辑方法,并且在用户研究中有77-90%的用户更倾向于我们的方法。

[45] 用于科学研究的自动摄影中动物多分类的人工智能
标题: Inteligencia artificial para la multi-clasificaci\'on de fauna en fotograf\'ias autom\'aticas utilizadas en investigaci\'on cient\'ifica
作者: Federico Gonzalez / Leonel Viera / Rosina Soler / Lucila Chiarvetto Peralta / Matias Gel / Gimena Bustamante / Abril Montaldo / Brian Rigoni / Ignacio Perez
原文:   [英文]  
备注: in Spanish language, XXIV Workshop de Investigadores en Ciencias de la Computación (WICC 2022, Mendoza)
摘要:
无论是为了保护还是生产,自然环境的管理都需要对野生动物有深入的了解。野生动物的数量、位置和行为是生态学和野生动物研究的主要研究对象之一。使用相机陷阱可以快速收集大量捕捉野生动物在自然栖息地中的照片,从而避免可能改变其行为的因素。在阿根廷的火地岛,正在进行关于不同食草动物(原驼、牛、羊)对森林利用的研究,以优化管理并保护这些自然生态系统。尽管相机陷阱可以收集数百万张图像,但解释这些照片对于手动处理来说是一个可扩展性挑战。因此,存储在这些庞大数据存储库中的许多有价值的知识仍未被开发。神经网络和深度学习是人工智能中的研究领域。在过去的十年中,这两个学科在全球范围内对图像识别做出了重大贡献。生态和野生动物保护研究可以与这些新技术相结合,从相机陷阱获得的照片中提取重要信息,有助于理解各种自然过程并改善相关野生区域的管理。我们的项目旨在开发神经网络模型,以对相机陷阱拍摄的照片中的动物物种进行分类,解决科学研究中的大规模挑战。

[46] 3D先验即一切:跨任务小样本2D注视估计
标题: 3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation
作者: Yihua Cheng / Hengfei Wang / Zhongqun Zhang / Yang Yue / Bo Eun Kim / Feng Lu / Hyung Jin Chang
原文:   [英文]   [中文]  
备注: None
摘要:
3D 和 2D 视线估计虽然都以捕捉眼球运动为基本目标,但传统上被视为两个不同的研究领域。在本文中,我们介绍了一种新颖的跨任务小样本2D视线估计方法,旨在通过仅使用少量训练图像,将预训练的3D视线估计网络适配于未见设备上的2D视线预测。由于3D和2D视线之间的领域差异、未知的屏幕姿态以及有限的训练数据,这一任务极具挑战性。为了解决这些挑战,我们提出了一个新颖的框架来弥合3D和2D视线之间的差距。我们的框架包含一个基于物理的可微分投影模块,具有可学习的参数,用于建模屏幕姿态并将3D视线投影到2D视线。该框架是完全可微分的,可以在不修改原始架构的情况下集成到现有的3D视线网络中。此外,我们为翻转图像引入了一种动态伪标签策略,由于未知的屏幕姿态,这对于2D标签来说尤其具有挑战性。为了解决这个问题,我们通过将2D标签转换到3D空间来逆转投影过程,并在其中进行翻转。值得注意的是,这个3D空间并未与相机坐标系对齐,因此我们学习了一个动态变换矩阵来补偿这种未对齐。我们在MPIIGaze、EVE和GazeCapture数据集上评估了我们的方法,这些数据集分别在笔记本电脑、台式电脑和移动设备上收集。优越的性能突显了我们方法的有效性,并展示了其在实际应用中的强大潜力。

[47] 通过复杂文本对齐和运动感知一致性进行内容丰富的AIGC视频质量评估
标题: Content-Rich AIGC Video Quality Assessment via Intricate Text Alignment and Motion-Aware Consistency
作者: Shangkun Sun / Xiaoyu Liang / Bowen Qu / Wei Gao
原文:   [英文]   [中文]  
备注: None
摘要:
下一代视频生成模型如 \textit{Sora} 的出现对人工智能生成内容(AIGC)视频质量评估(VQA)提出了挑战。这些模型大大减轻了先前模型中常见的闪烁伪影,支持更长和更复杂的文本提示,并生成具有复杂多样运动模式的更长视频。传统的VQA方法设计用于简单文本和基本运动模式,难以评估这些内容丰富的视频。为此,我们提出了专门用于评估Sora时代AIGC视频的\textbf{CRAVE}(\underline{C}ontent-\underline{R}ich \underline{A}IGC \underline{V}ideo \underline{E}valuator)。CRAVE提出了多粒度文本-时间融合方法,将长篇复杂文本语义与视频动态对齐。此外,CRAVE利用混合运动保真度建模来评估时间伪影。此外,鉴于当前AIGC VQA数据集中提示和内容的简单性,我们引入了\textbf{CRAVE-DB},这是一个基准,包含来自下一代模型的内容丰富视频及其详细提示。大量实验表明,所提出的CRAVE在多个AIGC VQA基准上取得了优异的结果,显示出与人类感知的高度一致性。所有数据和代码将在此https URL上公开。

[48] 从多重18F-FDG PET图像分割中自动量化乳腺癌生物标志物
标题: Automatic quantification of breast cancer biomarkers from multiple 18F-FDG PET image segmentation
作者: Tewele W. Tareke / Neree Payan / Alexandre Cochet / Laurent Arnould / Benoit Presles / Jean-Marc Vrigneaud / Fabrice Meriaudeau / Alain Lalande
原文:   [英文]   [中文]  
备注: Submit soon to EJNMMI Research
摘要:
新辅助化疗(NAC)已成为乳腺癌中通过18F-FDG正电子发射断层扫描(PET)缩小肿瘤的标准临床实践。我们的工作旨在利用PET成像进行乳腺病变的分割。重点是开发一个自动化系统,能够准确分割原发肿瘤区域,并从这些区域提取关键生物标志物,以提供关于乳腺癌在首次NAC疗程后的演变的见解。研究中获取了243例基线18F-FDG PET扫描(PET_Bl)和180例在首次NAC疗程后进行的随访18F-FDG PET扫描(PET_Fu)。首先,开发了一种基于深度学习的乳腺肿瘤分割方法。最佳基线模型(在基线检查上训练的模型)在15次随访检查中进行了微调,并通过主动学习进行适应,以分割PET_Fu中的肿瘤区域。该流程计算了最大标准摄取值(SUVmax)、代谢肿瘤体积(MTV)和总病灶糖酵解(TLG)等生物标志物,以评估PET_Fu和PET_Bl之间的肿瘤演变。采用质量控制措施排除异常离群值。nnUNet深度学习模型在PET_Bl上的肿瘤分割表现优异,达到了0.89的Dice相似系数(DSC)和3.52毫米的Hausdorff距离(HD)。经过微调后,该模型在PET_Fu检查中表现出0.78的DSC和4.95毫米的HD。生物标志物分析显示,无论是哪种生物标志物,手动分割和自动预测区域之间都存在非常强的相关性。SUVmax、MTV和TLG的显著平均减少分别为5.22、11.79 cm3和19.23 cm3。所提出的方法展示了一种从18F-FDG PET中进行乳腺肿瘤分割的自动化系统。得益于提取的生物标志物,我们的方法能够自动评估癌症的进展。

[49] 高效的视觉-语言模型中的少样本持续学习
标题: Efficient Few-Shot Continual Learning in Vision-Language Models
作者: Aristeidis Panos / Rahaf Aljundi / Daniel Olmeda Reino / Richard E. Turner
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)在视觉问答和图像描述等任务中表现出色。然而,VLMs 通常受限于其使用的预训练图像编码器,如 CLIP,这导致图像理解错误,从而阻碍整体性能。此外,现实世界的应用通常要求模型在新的且通常有限的数据不断到来时进行持续适应。为了解决这个问题,我们提出了 LoRSU(具有结构化更新的低秩适应),这是一种稳健且计算高效的方法,用于选择性地更新 VLMs 中的图像编码器。LoRSU 引入了结构化和局部化的参数更新,有效地纠正了先前容易出错的数据的性能,同时保持模型的整体鲁棒性。我们的方法利用理论见解来识别和更新最关键的参数,从而实现显著的资源效率。具体来说,我们证明了 LoRSU 在不牺牲性能的情况下,将计算开销减少了超过 25 倍,相较于完整的 VLM 更新。在少样本持续学习环境下的 VQA 任务实验结果验证了 LoRSU 的可扩展性、效率和有效性,使其成为资源受限环境中图像编码器适应的一个引人注目的解决方案。

[50] 自适应边距对比学习用于模糊感知的3D语义分割
标题: Adaptive Margin Contrastive Learning for Ambiguity-aware 3D Semantic Segmentation
作者: Yang Chen / Yueqi Duan / Runzhong Zhang / Yap-Peng Tan
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们提出了一种用于3D点云语义分割的自适应边界对比学习方法,称为AMContrast3D。大多数现有方法使用等惩罚目标,这忽略了来自过渡区域的每个点的模糊性和较少区分的特征。然而,由于高度模糊的点即使对人类来说也可能难以区分,其人工标注的标签不太可靠,对这些点施加严格的约束会导致次优模型。为了解决这个问题,我们根据每个点的模糊程度设计了自适应目标,旨在确保低模糊点的正确性,同时允许高模糊点出现错误。具体来说,我们首先基于位置嵌入估计模糊性。然后,我们开发了一个边界生成器来调整对比特征嵌入的决策边界,因此随着模糊性的增加,边界会缩小,对于极高模糊性的点甚至会出现负边界。在大规模数据集S3DIS和ScanNet上的实验结果表明,我们的方法优于最先进的方法。

[51] 超越最终层:用于3D实例分割的层次化查询融合Transformer与代理插值初始化
标题: Beyond the Final Layer: Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization for 3D Instance Segmentation
作者: Jiahao Lu / Jiacheng Deng / Tianzhu Zhang
原文:   [英文]   [中文]  
备注: Under review
摘要:
3D实例分割旨在预测场景中的一组对象实例,并将它们表示为具有相应语义标签的二值前景掩码。目前,基于Transformer的方法由于其简洁的流程、减少了几何属性的手动选择以及卓越的性能,正受到越来越多的关注。然而,基于Transformer的方法在查询初始化过程中无法同时保持强大的位置信息和内容信息。此外,由于在每个解码器层进行监督,随着层数的加深,存在对象消失的现象。为了解决这些问题,我们引入了超越最终层:用于3D实例分割的层次化查询融合Transformer与代理插值初始化(BFL)。具体而言,设计了一个代理插值初始化模块,以生成能够在前景覆盖和内容学习之间实现平衡的弹性查询。此外,设计了一个层次化查询融合解码器,以保留低重叠查询,缓解随着层数加深而导致的召回率下降。在ScanNetV2、ScanNet200、ScanNet++和S3DIS数据集上的大量实验表明,BFL具有卓越的性能。

[52] HD-EPIC:一个高度详细的自我中心视频数据集
标题: HD-EPIC: A Highly-Detailed Egocentric Video Dataset
作者: Toby Perrett / Ahmad Darkhalil / Saptarshi Sinha / Omar Emara / Sam Pollard / Kranti Parida / Kaiting Liu / Prajwal Gatti / Siddhant Bansal / Kevin Flanagan / Jacob Chalk / Zhifan Zhu / Rhodri Guerrier / Fahd Abdelazim / Bin Zhu / Davide Moltisanti / Michael Wray / Hazel Doughty / Dima Damen
原文:   [英文]   [中文]  
备注: 29 pages. Project Webpage and Dataset: this http URL
摘要:
我们提供了一个验证数据集,其中包含新收集的厨房视角视频,并手动注释了高度详细且相互关联的真实标签,涵盖:食谱步骤、细粒度动作、具有营养价值的成分、移动物体和音频注释。重要的是,所有注释都通过场景的数字孪生、固定装置、物体位置以及注视方向在3D中进行定位。视频素材来自多样化家庭环境中的非脚本录制,使得HDEPIC成为第一个在自然环境中收集但具有与受控实验室环境中相匹配的详细注释的数据集。 我们通过一个具有挑战性的26K问题的VQA基准展示了我们高度详细注释的潜力,该基准评估识别食谱、成分、营养、细粒度动作、3D感知、物体运动和注视方向的能力。强大的长上下文Gemini Pro在此基准上仅达到38.5%,展示了其难度并突显了当前VLMs的不足。我们还评估了HD-EPIC上的动作识别、声音识别和长期视频对象分割。 HD-EPIC包含41小时的视频,拍摄于9个厨房,具有413个厨房固定装置的数字孪生,捕捉了69个食谱、59K细粒度动作、51K音频事件、20K物体移动和37K提升到3D的物体掩码。平均而言,我们的非脚本视频每分钟有263个注释。

[53] YOLOv4:实时目标检测的突破
标题: YOLOv4: A Breakthrough in Real-Time Object Detection
作者: Athulya Sundaresan Geetha
原文:   [英文]   [中文]  
备注: None
摘要:
YOLOv4通过结合用于回归(边界框定位)和分类(对象类别识别)的先进技术,并使用Darknet框架,在COCO数据集上实现了最佳性能。为了提高准确性和适应性,它采用了跨小批量归一化、跨阶段部分连接、自对抗训练和加权残差连接,以及CIoU损失、Mosaic数据增强和DropBlock正则化。通过Mosaic增强和多分辨率训练,YOLOv4在各种场景中实现了卓越的检测性能,在Tesla V100上以约65帧每秒的速度达到了43.5%的AP(相比之下,AP50为65.7%),确保了在真实环境中的效率、经济性和适应性。

[54] PixFoundation:我们在像素级视觉基础模型的方向上走对了吗?
标题: PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models?
作者: Mennatullah Siam
原文:   [英文]   [中文]  
备注: Under Review
摘要:
多项研究致力于推动多模态大语言模型(MLLMs)在像素级理解方面的界限。这些方法在指代表达分割和基础对话生成的基准测试中表现出色。目前,像素级MLLMs的趋势是通过大规模标注数据上的像素级定位监督进行训练。然而,我们发现,当在最近具有挑战性的以视觉为中心的基准上进行评估时,这些MLLMs在视觉问答方面表现出较弱的能力。令人惊讶的是,其中一些方法甚至降低了从未经过此类监督训练的MLLMs的定位能力。在这项工作中,我们提出了两个新的具有挑战性的基准,并展示了在评估像素级定位和视觉问答时,未经过像素级定位监督的MLLMs可以在这些任务中超越现有的最先进技术。我们提出了简单的基线方法来提取可以插入任何MLLM的定位信息,我们称之为PixFoundation。更重要的是,我们研究了一个研究问题:“在未经过像素级定位监督训练的MLLMs中,何时会出现定位能力?”我们展示了定位可以与对象部分或位置/外观信息相吻合。代码库在此https URL。

[55] 增强的基于特征的图像拼接用于儿童嗜酸性粒细胞性食管炎的内窥镜视频
标题: Enhanced Feature-based Image Stitching for Endoscopic Videos in Pediatric Eosinophilic Esophagitis
作者: Juming Xiong / Muyang Li / Ruining Deng / Tianyuan Yao / Regina N Tyree / Girish Hiremath / Yuankai Huo
原文:   [英文]   [中文]  
备注: None
摘要:
视频内窥镜检查在胃肠道疾病的研究中代表了一项重大进展。回顾内窥镜视频通常需要频繁的调整和重新定位,以拼凑出完整的视图,这既耗时又容易出错。图像拼接技术通过提供连续和完整的检查区域可视化来解决这个问题。然而,内窥镜图像,特别是食道的图像,提出了独特的挑战。光滑的表面、缺乏明显的特征点以及非水平的方向使得拼接过程复杂化,使得传统的基于特征的方法对这些类型的图像通常无效。在本文中,我们提出了一种新颖的预处理流程,旨在通过先进的计算技术增强内窥镜图像的拼接。我们的方法通过以下四个关键步骤将内窥镜视频数据转换为连续的二维图像:(1)关键帧选择,(2)图像旋转调整以校正失真,(3)使用极坐标变换进行表面展开以生成平面图像,以及(4)通过自适应直方图均衡增强的特征点匹配以改善特征检测。我们通过评估有效特征点匹配对来评估拼接质量。在20个儿科内窥镜视频上进行的实验表明,与传统技术相比,我们的方法显著提高了图像对齐和拼接质量,为更有效的全景图像创建奠定了坚实的基础。

[56] Éclair——提取具有集成阅读顺序的文档内容和布局
标题: \'Eclair -- Extracting Content and Layout with Integrated Reading Order for Documents
作者: Ilia Karmanov / Amala Sanjay Deshmukh / Lukas Voegtle / Philipp Fischer / Kateryna Chumachenko / Timo Roman / Jarno Seppänen / Jupinder Parmar / Joseph Jennings / Andrew Tao / Karan Sapra
原文:   [英文]   [中文]  
备注: None
摘要:
光学字符识别(OCR)技术被广泛用于从文档图像中提取文本,从而促进高效的数字化和数据检索。然而,在处理复杂文档时,仅仅提取文本是不够的。全面理解此类文档需要了解其结构——包括格式、公式、表格以及跨多个页面的多个块和列的阅读顺序——以及用于检测脚注和图片说明等元素的语义信息。这种全面的理解对于下游任务至关重要,例如检索、文档问答以及为训练大型语言模型(LLMs)和视觉语言模型(VLMs)进行数据整理。为此,我们介绍了Éclair,这是一种通用的文本提取工具,专为处理各种文档类型而设计。给定一张图像,Éclair能够按阅读顺序提取格式化文本,并提供边界框及其对应的语义类别。为了全面评估这些新功能,我们引入了多样化的人类标注基准,用于文档级OCR和语义分类。Éclair在这一基准上实现了最先进的准确性,在关键指标上优于其他方法。此外,我们还在既定基准上评估了Éclair,展示了其在多个评估标准上的多功能性和优势。

[57] 保持轻量化!通过无文本适配器简化图像聚类
标题: Keep It Light! Simplifying Image Clustering Via Text-Free Adapters
作者: Yicen Li / Haitz Sáez de Ocáriz Borde / Anastasis Kratsios / Paul D. McNicholas
原文:   [英文]   [中文]  
备注: None
摘要:
许多具有竞争力的聚类流程采用多模态设计,利用大型语言模型(LLMs)或其他文本编码器,以及文本-图像对,而这些在现实世界的下游应用中往往不可用。此外,这类框架通常训练复杂且需要大量计算资源,使得广泛采用具有挑战性。在这项工作中,我们展示了在深度聚类中,通过使用无文本且高度简化的训练流程,可以实现与更复杂的最先进方法相媲美的竞争性能。具体来说,我们的方法,称为通过预训练模型的简单聚类(SCP),仅训练一个小的聚类头,同时利用预训练的视觉模型特征表示和正样本对。在包括CIFAR-10、CIFAR-20、CIFAR-100、STL-10、ImageNet-10和ImageNet-Dogs的基准数据集上的实验表明,SCP实现了高度竞争的性能。此外,我们提供了一个理论结果,解释了为什么至少在理想条件下,额外的基于文本的嵌入可能不是实现强大视觉聚类性能所必需的。

[58] 一种基于运动特征的车道变换和超车检测的目标检测方法
标题: An object detection approach for lane change and overtake detection from motion profiles
作者: Andrea Benericetti / Niccolò Bellaccini / Henrique Piñeiro Monteagudo / Matteo Simoncini / Francesco Sambo
原文:   [英文]   [中文]  
备注: 6 pages, 3 figures
摘要:
在车队管理和驾驶员监控的应用领域中,从行车记录仪视频中获取相关的驾驶事件和活动,同时尽量减少存储和分析的信息量,是一项非常具有挑战性的任务。在本文中,我们通过一种新颖的对象检测方法应用于运动轮廓,解决了超车和变道动作的识别问题。运动轮廓是一种将驾驶视频压缩为单一图像的紧凑表示。为了训练和测试我们的模型,我们创建了一个内部数据集,该数据集由一组异构的行车记录仪视频生成的运动轮廓图像组成,并由自车的超车和变道动作手动标注。除了标准的对象检测方法外,我们还展示了如何通过加入CoordConvolution层进一步提高模型性能,在mAP和F1分数方面表现出色,与文献中的其他基线相比,达到了最先进的性能。所提出解决方案的极低计算要求使其特别适合在设备上运行。

[59] 跨越差距:通过模态反转揭示CLIP中的模态内失配
标题: Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion
作者: Marco Mistretta / Alberto Baldrati / Lorenzo Agnolucci / Marco Bertini / Andrew D. Bagdanov
原文:   [英文]   [中文]  
备注: Accepted for publication at ICLR 2025
摘要:
预训练的多模态视觉-语言模型(如CLIP)被广泛用于各种应用。在本文中,我们展示了单独利用这些强大多模态模型的文本或图像编码器进行任务处理的常见做法,对于图像到图像检索等单模态任务来说是非常不理想的。我们认为,这本质上是由于CLIP风格的跨模态对比损失没有施加任何单模态约束,导致了我们所称的单模态失配。为了证明这一点,我们利用了两种基于优化的模态反转技术,这些技术可以将表示从其输入模态映射到互补模态,而无需辅助数据或额外训练的适配器。我们通过实验证明,在图像到图像和文本到文本检索的单模态任务中,以跨模态方式处理这些任务,相较于单模态基线,在超过十五个数据集上显著提高了性能。此外,我们还展示了以单模态方式处理原生跨模态任务(例如零样本图像分类)会降低性能,进一步验证了我们的发现。最后,我们表明,在预训练目标中加入单模态项或缩小文本和图像特征嵌入空间之间的模态差距,有助于减少单模态失配。代码可在以下网址公开获取:this https URL。

[60] Point2RBox-v2:重新思考具有实例间空间布局的点监督定向目标检测
标题: Point2RBox-v2: Rethinking Point-supervised Oriented Object Detection with Spatial Layout Among Instances
作者: Yi Yu / Botao Ren / Peiyuan Zhang / Mingxin Liu / Junwei Luo / Shaofeng Zhang / Feipeng Da / Junchi Yan / Xue Yang
原文:   [英文]  
备注: 11 pages, 5 figures, 10 tables
摘要:
随着面向目标检测(OOD)需求的快速增长,最近涉及从点注释中学习OOD的弱监督检测器的研究受到了极大关注。在本文中,我们通过实例之间的布局重新思考这一具有挑战性的任务设置,并提出了Point2RBox-v2。其核心是三个原则:1)高斯重叠损失。通过将物体视为二维高斯分布并最小化它们的重叠来学习每个实例的上限。2)Voronoi分水岭损失。通过对Voronoi镶嵌进行分水岭处理来学习每个实例的下限。3)一致性损失。通过输入图像及其增强视图之间的两个输出集的大小/旋转变化来学习。通过一些设计的技术补充,例如边缘损失和复制粘贴,检测器进一步得到了改进。据我们所知,Point2RBox-v2是第一个探索实例之间空间布局以学习点监督OOD的方法。我们的解决方案优雅且轻量化,但预计在密集场景中能提供具有竞争力的性能:在DOTA/HRSC/FAIR1M上分别达到62.61%/86.15%/34.71%。代码可在此https URL获取。

[61] GCE-Pose:用于类别级物体姿态估计的全局上下文增强
标题: GCE-Pose: Global Context Enhancement for Category-level Object Pose Estimation
作者: Weihang Li / Hongli Xu / Junwen Huang / Hyunjun Jung / Peter KT Yu / Nassir Navab / Benjamin Busam
原文:   [英文]   [中文]  
备注: None
摘要:
无模型类别级姿态估计的一个关键挑战是提取上下文对象特征,以便在特定类别内的不同实例之间实现泛化。最近的方法利用基础特征从数据中捕捉语义和几何线索。然而,这些方法在部分可见性情况下会失效。我们通过一种先完成再聚合的特征提取策略,利用类别先验来克服这一问题。在本文中,我们提出了GCE-Pose,这是一种通过整合类别级全局上下文先验来增强新实例姿态估计的方法。GCE-Pose通过一个提出的语义形状重建(SSR)模块进行语义形状重建。对于一个未见过的部分RGB-D对象实例,我们的SSR模块通过一个学习的深度线性形状模型变形类别特定的3D语义原型,重建实例的全局几何和语义。我们进一步引入了一个全局上下文增强(GCE)特征融合模块,有效地融合了来自部分RGB-D观测和重建的全局上下文的特征。大量实验验证了我们的全局上下文先验的影响和GCE融合模块的有效性,表明GCE-Pose在具有挑战性的真实世界数据集HouseCat6D和NOCS-REAL275上显著优于现有方法。我们的项目页面可在此HTTPS URL上访问。

[62] MotionCanvas:具有可控图像到视频生成的电影镜头设计
标题: MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation
作者: Jinbo Xing / Long Mai / Cusuh Ham / Jiahui Huang / Aniruddha Mahapatra / Chi-Wing Fu / Tien-Tsin Wong / Feng Liu
原文:   [英文]   [中文]  
备注: It is best viewed in Acrobat. Project page: this https URL
摘要:
本文提出了一种方法,使用户能够在图像到视频生成的背景下设计电影视频镜头。镜头设计是电影制作的关键环节,涉及到对场景中摄像机运动和物体运动的精心规划。然而,在现代图像到视频生成系统中实现直观的镜头设计面临两个主要挑战:首先,有效捕捉用户在运动设计上的意图,其中摄像机运动和场景空间的物体运动必须共同指定;其次,表示运动信息,使其能够被视频扩散模型有效利用以合成图像动画。为了解决这些挑战,我们引入了MotionCanvas,这是一种将用户驱动的控制集成到图像到视频(I2V)生成模型中的方法,使用户能够以场景感知的方式控制场景中的物体和摄像机运动。通过结合经典计算机图形学和当代视频生成技术的见解,我们展示了在I2V合成中实现3D感知运动控制的能力,而无需昂贵的3D相关训练数据。MotionCanvas使用户能够直观地描绘场景空间的运动意图,并将其转化为视频扩散模型的时空运动条件信号。我们在广泛的真实世界图像内容和镜头设计场景中展示了我们方法的有效性,突显了其在数字内容创作中的创造性工作流程的增强潜力,并适应各种图像和视频编辑应用。

[63] 用于汽车计算流体动力学预测的因式分解隐式全局卷积
标题: Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction
作者: Chris Choy / Alexey Kamenev / Jean Kossaifi / Max Rietmann / Jan Kautz / Kamyar Azizzadenesheli
原文:   [英文]   [中文]  
备注: None
摘要:
计算流体动力学(CFD)对于汽车设计至关重要,需要分析大型三维点云以研究车辆几何形状如何影响压力场和阻力。然而,现有的深度学习方法在处理高分辨率三维数据时面临计算复杂度的挑战。我们提出了一种新的架构,称为因式分解隐式全局卷积(FIGConv),能够高效地解决具有任意输入和输出几何形状的超大三维网格的CFD问题。FIGConv实现了二次复杂度$O(N^2)$,相较于现有需要立方复杂度$O(N^3)$的三维神经CFD模型有显著的改进。我们的方法结合了因式分解隐式网格以近似高分辨率域,通过二维重新参数化实现高效的全局卷积,以及用于有效信息收集和整合的U型架构。我们在行业标准的Ahmed体数据集和大规模的DrivAerNet数据集上验证了我们的方法。在DrivAerNet中,我们的模型在阻力预测中实现了0.95的$R^2$值,显著超越了之前的最先进方法。这相较于之前的方法在相对均方误差上提高了40%,在绝对均方误差上提高了70%。

[64] sshELF:用于从稀疏视图进行3D重建的单次层次潜在特征外推
标题: sshELF: Single-Shot Hierarchical Extrapolation of Latent Features for 3D Reconstruction from Sparse-Views
作者: Eyvaz Najafli / Marius Kästingschäfer / Sebastian Bernhard / Thomas Brox / Andreas Geiger
原文:   [英文]   [中文]  
备注: Joint first authorship
摘要:
从稀疏的外向视角重建无限的户外场景,由于视角重叠最小,面临显著挑战。以往的方法通常缺乏跨场景理解,其以原始元素为中心的公式过度依赖局部特征来弥补缺失的全局上下文,导致场景中未见部分的模糊。我们提出了sshELF,这是一种快速的单次处理管道,通过潜在特征的层次外推进行稀疏视图的3D场景重建。我们的关键见解是,将信息外推与原始解码分离开来,可以高效地在训练场景之间转移结构模式。我们的方法:(1) 学习跨场景先验以生成中间虚拟视图,从而外推到未观察到的区域,(2) 提供一个两阶段的网络设计,将虚拟视图生成与3D原始解码分开,以实现高效训练和模块化模型设计,(3) 集成了一个预训练的基础模型,用于潜在特征和纹理的联合推理,提高场景理解和泛化能力。sshELF可以从六个稀疏输入视图重建360度场景,并在合成和真实世界数据集上取得了有竞争力的结果。我们发现sshELF能够忠实地重建被遮挡的区域,支持实时渲染,并为下游应用提供丰富的潜在特征。代码将会发布。

[65] 概念注意力:扩散变压器学习高度可解释的特征
标题: ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features
作者: Alec Helbling / Tuna Han Salih Meral / Ben Hoover / Pinar Yanardag / Duen Horng Chau
原文:   [英文]   [中文]  
备注: None
摘要:
多模态扩散变换器(DiTs)的丰富表示是否展现出独特的属性,从而增强其可解释性?我们介绍了一种新方法,称为ConceptAttention,该方法利用DiT注意力层的表达能力生成高质量的显著性图,能够精确定位图像中的文本概念。ConceptAttention无需额外训练,而是重新利用DiT注意力层的参数来生成高度情境化的概念嵌入。我们的主要发现是,在DiT注意力层的输出空间中执行线性投影,比常用的交叉注意力机制产生显著更清晰的显著性图。值得注意的是,ConceptAttention在零样本图像分割基准测试中甚至达到了最先进的性能,超越了在ImageNet-Segmentation数据集和PascalVOC的单类子集上其他11种零样本可解释性方法。我们的工作首次提供了证据,表明像Flux这样的多模态DiT模型的表示在视觉任务如分割中具有高度的可迁移性,甚至超越了像CLIP这样的多模态基础模型。

[66] WorldSense:评估多模态大型语言模型的真实世界全模态理解
标题: WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs
作者: Jack Hong / Shilin Yan / Jiayin Cai / Xiaolong Jiang / Yao Hu / Weidi Xie
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们介绍了WorldSense,这是第一个评估多模态视频理解的基准,能够同时涵盖视觉、音频和文本输入。与现有的基准相比,我们的WorldSense具有以下几个特点:(i) 全模态协作,我们设计的评估任务强调音频和视频的强耦合,要求模型有效利用全模态的协同感知;(ii) 视频和任务的多样性,WorldSense包含了1,662个音视频同步的视频,这些视频被系统地分类为8个主要领域和67个细分子类别,以涵盖广泛的场景,并包含3,172个多选问答对,分布在26个不同的任务中,以实现全面的评估;(iii) 高质量的注释,所有的问答对均由80位专家注释员手动标注,并经过多轮校正以确保质量。基于我们的WorldSense,我们对各种最先进的模型进行了广泛评估。实验结果表明,现有模型在理解真实世界场景时面临显著挑战(最佳准确率为48.0%)。我们希望我们的WorldSense能够提供一个平台,用于评估从全模态构建和理解连贯上下文的能力。

[67] Ola:通过渐进式模态对齐推动全模态语言模型的前沿
标题: Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment
作者: Zuyan Liu / Yuhao Dong / Jiahui Wang / Ziwei Liu / Winston Hu / Jiwen Lu / Yongming Rao
原文:   [英文]   [中文]  
备注: None
摘要:
最近在大型语言模型方面的进展,特别是在GPT-4o之后,激发了人们对开发能够理解更多模态的全模态模型的兴趣。虽然一些开源替代方案已经出现,但在性能上仍然明显落后于专门的单模态模型。在本文中,我们介绍了Ola,这是一种全模态语言模型,在图像、视频和音频理解方面与专门的对手相比表现出竞争力。Ola的核心设计在于其渐进的模态对齐策略,该策略逐步扩展语言模型的支持模态。我们的训练流程从最明显的模态开始:图像和文本,然后逐步利用连接语言和音频知识的语音数据以及连接所有模态的视频数据扩展模型的技能集。渐进的学习流程还使我们能够保持跨模态对齐数据的相对较小规模,从而使从现有的视觉-语言模型开发全模态模型变得简单且成本较低。此外,为了实现像GPT-4o那样的高级交互体验,我们进一步设计了一种逐句解码方案用于流式语音生成。大量实验表明,Ola在所有模态上都超越了现有的开源全模态大型语言模型,同时在与同类大小的最先进专用模型相比时表现出极具竞争力的性能。我们旨在使Ola成为一个完全开放的全模态理解解决方案,以推动这一新兴领域的未来研究。模型权重、代码和数据在此https URL上开源。

[68] SMART:推进可扩展地图先验以驱动拓扑推理
标题: SMART: Advancing Scalable Map Priors for Driving Topology Reasoning
作者: Junjie Ye / David Paz / Hengyuan Zhang / Yuliang Guo / Xinyu Huang / Henrik I. Christensen / Yue Wang / Liu Ren
原文:   [英文]   [中文]  
备注: Accepted by ICRA 2025. Project page: this https URL
摘要:
拓扑推理对于自动驾驶至关重要,因为它能够全面理解车道和交通元素之间的连接性和关系。尽管最近的方法在使用车载传感器感知驾驶拓扑方面取得了成功,但由于依赖于一致的传感器配置捕获的训练数据,其可扩展性受到限制。我们发现,可扩展的车道感知和拓扑推理的关键因素是消除这种依赖传感器的特性。为了解决这个问题,我们提出了SMART,这是一种可扩展的解决方案,利用易于获取的标准清晰度(SD)和卫星地图来学习地图先验模型,并由与传感器设置无关的大规模地理参考高清(HD)地图进行监督。得益于规模化的训练,SMART仅使用SD和卫星输入就能实现卓越的离线车道拓扑理解。大量实验进一步表明,SMART可以无缝集成到任何在线拓扑推理方法中,在OpenLane-V2基准测试中实现高达28%的显著改进。