scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年2月24日更新论文78
[1] KKA:通过大型语言模型的异常相关知识提升视觉异常检测
标题: KKA: Improving Vision Anomaly Detection through Anomaly-related Knowledge from Large Language Models
作者: Dong Chen / Zhengqing Hu / Peiguang Fan / Yueting Zhuang / Yafei Li / Qidong Liu / Xiaoheng Jiang / Mingliang Xu
原文:   [英文]   [中文]  
备注: None
摘要:
视觉异常检测,特别是在无监督环境中,常常难以区分正常样本和异常样本,因为异常样本的变化范围很广。最近,越来越多的研究集中在生成异常样本,以帮助检测器学习更有效的正常样本和异常样本之间的边界。然而,由于生成的异常样本通常来源于随机因素,它们往往缺乏真实性。此外,随机生成的异常样本通常在构建有效边界方面提供的支持有限,因为大多数异常样本与正常样本差异很大,远离边界。为了解决这些挑战,我们提出了关键知识增强(KKA)方法,该方法从大型语言模型(LLMs)中提取与异常相关的知识。更具体地说,KKA利用LLMs的广泛先验知识,基于正常样本生成有意义的异常样本。然后,KKA根据生成的异常样本与正常样本的相似性,将其分类为简单异常和困难异常。简单异常与正常样本有显著差异,而困难异常与正常样本非常相似。KKA通过迭代更新生成的异常样本,逐步增加困难异常的比例,以使检测器学习更有效的边界。实验结果表明,所提出的方法在保持低生成成本的同时,显著提高了各种视觉异常检测器的性能。CMG的代码可以在此https URL找到。

[2] 从16位到1位:用于内存高效多模态大型语言模型的视觉KV缓存量化
标题: From 16-Bit to 1-Bit: Visual KV Cache Quantization for Memory-Efficient Multimodal Large Language Models
作者: Zeliang Zhang / Yifan Zhu / Susan Liang / Zhiyuan Wang / Jiani Liu / Haiting Lin / Mingjie Zhao / Chenliang Xu / Kun Wan / Wentian Zhao
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大语言模型(MLLMs)在各种应用中取得了显著成功,但在部署过程中,其计算开销仍然是一个关键挑战。尽管键值(KV)缓存通过用内存换取计算来提高推理效率,但存储大量KV缓存所带来的内存占用增加了吞吐量,并限制了在GPU内存受限的设备上的长期执行。现有的方法主要集中在丢弃不重要的标记以减少KV缓存的大小,从而在一定程度上缓解内存限制,但可能导致信息丢失。相比之下,我们提出了一种简单而有效的视觉量化策略,该策略在显著减少内存消耗的同时保留所有视觉标记。为了实现极端的量化比率,即1位量化,我们提出了基于组的量化和基于分位数的量化方法,这些方法受到KV缓存固有模式的启发。我们的方法是即插即用的,可以无缝集成到各种MLLMs中,以提高内存效率而无需进行架构修改。大量实验表明,我们的方法在保持计算效率和多模态性能的同时,有效地减少了内存开销。

[3] LVLMs 和自动评估指标能否捕捉盲人和低视力人士对导航辅助工具的潜在偏好吗?
标题: Can LVLMs and Automatic Metrics Capture Underlying Preferences of Blind and Low-Vision Individuals for Navigational Aid?
作者: Na Min An / Eunki Kim / Wan Ju Kang / Sangryul Kim / Hyunjung Shim / James Thorne
原文:   [英文]   [中文]  
备注: 26 pages, 12 figures, 14 tables
摘要:
视觉是人类感知环境的主要方式,但盲人和低视力(BLV)人士在理解周围环境时需要帮助,尤其是在不熟悉的环境中。语义为基础的系统作为BLV用户的辅助工具的出现,激励了许多研究人员探索大型视觉语言模型(LVLMs)的响应。然而,尚未研究BLV用户对LVLMs提供的多种类型/风格响应的偏好,特别是在导航辅助方面。为填补这一空白,我们首先构建了Eye4B数据集,该数据集由经过人工验证的1.1k精选室外/室内场景组成,每个场景有5-10个相关请求。然后,我们对八位BLV用户进行了深入的用户研究,从五个角度评估他们对六个LVLMs的偏好:恐惧感、不可操作性、充分性和简洁性。最后,我们引入了Eye4B基准,用于评估广泛使用的基于模型的图像-文本指标与我们收集的BLV偏好之间的一致性。我们的工作可以作为开发BLV感知的LVLMs以实现无障碍AI系统的指导方针。

[4] SEM-CLIP:用于扫描电子显微镜图像中纳米级缺陷检测的精确小样本学习
标题: SEM-CLIP: Precise Few-Shot Learning for Nanoscale Defect Detection in Scanning Electron Microscope Image
作者: Qian Jin / Yuqi Jiang / Xudong Lu / Yumeng Liu / Yining Chen / Dawei Gao / Qi Sun / Cheng Zhuo
原文:   [英文]  
备注: Published in ACM/IEEE International Conference on Computer-Aided Design (ICCAD), 2024
摘要:
在集成电路制造领域,纳米级晶圆缺陷的检测和分类对于后续的根本原因分析和提高产量至关重要。扫描电子显微镜(SEM)图像中观察到的复杂背景模式以及缺陷的多样化纹理带来了显著的挑战。传统方法通常面临数据不足、标签缺乏和迁移能力差的问题。在本文中,我们提出了一种新颖的小样本学习方法,称为SEM-CLIP,用于精确的缺陷分类和分割。SEM-CLIP定制了对比语言-图像预训练(CLIP)模型,以更好地聚焦于缺陷区域并最小化背景干扰,从而提高分割精度。我们使用结合领域知识的文本提示作为先验信息来辅助精确分析。此外,我们的方法结合了带有文本指导的特征工程,以更有效地分类缺陷。SEM-CLIP需要很少的标注数据,大大减少了半导体行业的劳动需求。广泛的实验验证表明,我们的模型在小样本学习场景下实现了令人印象深刻的分类和分割结果。

[5] 基础人工智能模型时代的手术场景理解:一项综合综述
标题: Surgical Scene Understanding in the Era of Foundation AI Models: A Comprehensive Review
作者: Ufaq Khan / Umair Nawaz / Adnan Qayyum / Shazad Ashraf / Muhammad Bilal / Junaid Qadir
原文:   [英文]   [中文]  
备注: None
摘要:
最近,机器学习(ML)和深度学习(DL)的进步,特别是基础模型(FMs)的引入,显著提升了微创手术(MIS)中的手术场景理解。本文综述了最先进的ML和DL技术的整合,包括卷积神经网络(CNNs)、视觉变换器(ViTs)以及像“Segment Anything Model”(SAM)这样的基础模型在手术工作流程中的应用。这些技术提高了手术内窥镜视频分析中的分割精度、器械跟踪和阶段识别。本文探讨了这些技术面临的挑战,如数据多样性和计算需求,并讨论了在临床环境中的伦理考虑和整合障碍。通过强调基础模型的作用,我们将技术能力与临床需求相结合,并概述了未来的研究方向,以增强AI应用在手术中的适应性、效率和伦理一致性。我们的研究结果表明,尽管已经取得了实质性进展,但仍需更加集中地努力,以实现这些技术与临床工作流程的无缝整合,确保它们通过提高精度、降低风险和优化患者结果来补充手术实践。

[6] 通过潜在扩散模型的视觉增强时间序列预测
标题: Vision-Enhanced Time Series Forecasting via Latent Diffusion Models
作者: Weilin Ruan / Siru Zhong / Haomin Wen / Yuxuan Liang
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型最近成为生成高质量图像的强大框架。尽管最近的研究探索了它们在时间序列预测中的应用,但这些方法在跨模态建模和有效转换视觉信息以捕捉时间模式方面面临重大挑战。在本文中,我们提出了LDM4TS,这是一种新颖的框架,利用潜在扩散模型的强大图像重建能力来增强视觉的时间序列预测。我们首次使用互补变换技术将时间序列转换为多视图视觉表示,而不是引入外部视觉数据,从而使模型能够利用预训练视觉编码器的丰富特征提取能力。随后,这些表示通过具有跨模态条件机制和融合模块的潜在扩散模型进行重建。实验结果表明,LDM4TS在时间序列预测任务中优于各种专门的预测模型。

[7] 多模态表示中的多面单义性
标题: The Multi-Faceted Monosemanticity in Multimodal Representations
作者: Hanqi Yan / Xiangxiang Cui / Lu Yin / Paul Pu Liang / Yulan He / Yifei Wang
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们利用特征单义性方面的最新进展,从深度多模态模型中提取可解释的特征,以提供对模态差距的数据驱动理解。具体而言,我们研究了CLIP(对比语言-图像预训练),这是一种在大量图像-文本对上训练的著名视觉-语言表示模型。基于为单模态模型开发的可解释性工具,我们扩展了这些方法以评估CLIP特征的多模态可解释性。此外,我们引入了模态主导评分(MDS),以将每个特征的可解释性归因于其各自的模态。接下来,我们将CLIP特征转化为一个更具可解释性的空间,使我们能够将其分类为三种不同的类别:视觉特征(单模态)、语言特征(单模态)和视觉-语言特征(跨模态)。我们的研究结果表明,这种分类与人类对不同模态的认知理解高度一致。我们还展示了这种模态特定特征的显著用例,包括检测性别偏见、对抗攻击防御和文本到图像模型编辑。这些结果表明,配备有任务无关可解释性工具的大规模多模态模型,提供了对不同模态之间关键联系和区别的宝贵见解。

[8] 缩小信息瓶颈理论以提高多模态图文表示的可解释性
标题: Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability
作者: Zhiyu Zhu / Zhibo Jin / Jiayu Zhang / Nan Yang / Jiahao Huang / Jianlong Zhou / Fang Chen
原文:   [英文]   [中文]  
备注: Accepted by ICLR 2025
摘要:
识别多模态图文表示的任务引起了越来越多的关注,特别是像CLIP(对比语言-图像预训练)这样的模型,在学习图像和文本之间的复杂关联方面表现出色。尽管取得了这些进展,确保此类模型的可解释性对于其在现实世界应用中的安全部署至关重要,例如在医疗保健领域。虽然已经为单模态任务开发了许多可解释性方法,但由于表示结构的固有差异,这些方法往往难以有效地转移到多模态环境中。信息论中成熟的瓶颈方法已被应用于增强CLIP的可解释性。然而,它们常常受到强假设或内在随机性的限制。为克服这些挑战,我们提出了狭窄信息瓶颈理论,这是一种从根本上重新定义传统瓶颈方法的新框架。该理论专为满足当代归因公理而设计,为提高多模态模型的可解释性提供了更稳健和可靠的解决方案。在我们的实验中,与最先进的方法相比,我们的方法将图像可解释性平均提高了9%,文本可解释性平均提高了58.83%,并加速了63.95%的处理速度。我们的代码可以在这个https URL公开获取。

[9] WeedVision:使用DETR和RetinaNet进行精准农业中杂草的多阶段生长和分类
标题: WeedVision: Multi-Stage Growth and Classification of Weeds using DETR and RetinaNet for Precision Agriculture
作者: Taminul Islam / Toqi Tahamid Sarker / Khaled R Ahmed / Cristiana Bernardi Rankrape / Karla Gage
原文:   [英文]   [中文]  
备注: Accepted and Presented to ICMLA, 2024
摘要:
杂草管理仍然是农业中的一个关键挑战,杂草与作物争夺重要资源,导致显著的产量损失。在不同生长阶段准确检测杂草对于有效管理至关重要,但对农民来说具有挑战性,因为这需要在多个生长阶段识别不同的物种。本研究通过利用先进的目标检测模型来应对这些挑战,具体来说,使用了以ResNet50为骨干的Detection Transformer (DETR)和以ResNeXt101为骨干的RetinaNet,来识别和分类16种具有经济意义的杂草物种,涵盖其从幼苗到成熟的11周生长阶段,共174个类别。我们开发了一个由203,567张图像组成的强大数据集,精心标注了物种和生长阶段。模型经过严格的训练和评估,RetinaNet表现出优越的性能,在训练集上实现了0.907的平均精度(mAP),在测试集上实现了0.904的mAP,相比之下,DETR的mAP分别为0.854和0.840。RetinaNet在召回率和7.28 FPS的推理速度上也优于DETR,使其更适合实时应用。随着植物的成熟,两个模型的准确性都有所提高。本研究为开发精确、可持续和自动化的杂草管理策略提供了重要的见解,为实时物种特定检测系统铺平了道路,并通过在模型开发和早期检测准确性方面的持续创新推动了人工智能辅助农业的发展。

[10] CoDiff:用于协作3D目标检测的条件扩散模型
标题: CoDiff: Conditional Diffusion Model for Collaborative 3D Object Detection
作者: Zhe Huang / Shuo Wang / Yongcai Wang / Lei Wang
原文:   [英文]   [中文]  
备注: None
摘要:
协同3D目标检测在自动驾驶领域具有重要意义,因为它通过促进多个代理之间的信息交换,大大增强了每个单独代理的感知能力。然而,在实际应用中,由于姿态估计误差和时间延迟,跨代理的信息融合往往导致特征表示存在空间和时间噪声,从而导致检测错误。扩散模型自然具有将噪声样本去噪至理想数据的能力,这激励我们探索使用扩散模型来解决多代理系统之间的噪声问题。在这项工作中,我们提出了CoDiff,这是一种新颖的鲁棒协同感知框架,利用扩散模型的潜力生成更全面和更清晰的特征表示。据我们所知,这是首次将扩散模型应用于多代理协同感知。具体来说,我们将高维特征图投射到一个强大的预训练自动编码器的潜在空间中。在这个空间中,单个代理信息作为条件来指导扩散模型的采样。这个过程对粗糙的特征图进行去噪,并逐步优化融合特征。在模拟和真实世界数据集上的实验研究表明,所提出的CoDiff框架在协同目标检测性能方面始终优于现有相关方法,并在代理的姿态和延迟信息具有高水平噪声时表现出高度期望的鲁棒性。

[11] 自我发声:学习何时在真实环境中为自我中心对话代理发声
标题: EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild
作者: Junhyeok Kim / Min Soo Kim / Jiwan Chung / Jungbin Cho / Jisoo Kim / Sungwoong Kim / Gyeongbo Sim / Youngjae Yu
原文:   [英文]   [中文]  
备注: NAACL 2025 Findings. Project page at this https URL
摘要:
预测在现实环境中何时开始讲话仍然是对话代理面临的一个基本挑战。我们介绍了EgoSpeak,这是一种用于自我中心流视频中实时语音启动预测的新框架。通过从说话者的第一人称视角建模对话,EgoSpeak专为人类般的互动而设计,其中对话代理必须持续观察其环境并动态决定何时说话。我们的方法通过整合四个关键能力来弥合简化实验设置与复杂自然对话之间的差距:(1) 第一人称视角,(2) RGB处理,(3) 在线处理,和 (4) 未剪辑视频处理。我们还提出了YT-Conversation,这是一个来自YouTube的多样化的野外对话视频集合,作为大规模预训练的资源。在EasyCom和Ego4D上的实验表明,EgoSpeak在实时情况下优于随机和基于静音的基线。我们的结果还强调了多模态输入和上下文长度在有效决定何时说话中的重要性。

[12] NOTA: 面向视觉大型语言模型的多模态音乐符号理解
标题: NOTA: Multimodal Music Notation Understanding for Visual Large Language Model
作者: Mingni Tang / Jiajia Li / Lu Yang / Zhiqiang Zhang / Jinghao Tian / Zuchao Li / Lefei Zhang / Ping Wang
原文:   [英文]   [中文]  
备注: None
摘要:
符号音乐有两种不同的表现形式:二维的、视觉直观的乐谱图像和一维的、标准化的文本注释序列。虽然大型语言模型在音乐领域展示了非凡的潜力,但当前的研究主要集中在单模态的符号序列文本上。现有的通用领域视觉语言模型仍然缺乏对音乐符号的理解能力。认识到这一差距,我们提出了NOTA,这是第一个大规模综合多模态音乐符号数据集。该数据集由来自世界三个地区的1,019,237条记录组成,并包含三个任务。基于该数据集,我们训练了NotaGPT,一个音乐符号视觉大型语言模型。具体来说,我们引入了一个预对齐训练阶段,以实现音乐乐谱图像中描绘的音符与其ABC符号文本表示之间的跨模态对齐。后续的训练阶段专注于基础音乐信息提取,随后进行音乐符号分析的训练。实验结果表明,我们的NotaGPT-7B在音乐理解方面取得了显著的提升,展示了NOTA和训练流程的有效性。我们的数据集在此https URL上开源。

[13] 聚焦污染:一种用于地表水PFAS预测的具有噪声感知损失的地理空间深度学习框架
标题: FOCUS on Contamination: A Geospatial Deep Learning Framework with a Noise-Aware Loss for Surface Water PFAS Prediction
作者: Jowaria Khan / Alexa Friedman / Sydney Evans / Runzi Wang / Kaley Beins / David Andrews / Elizabeth Bondi-Kelly
原文:   [英文]   [中文]  
备注: None
摘要:
全氟和多氟烷基物质(PFAS)是一类化学物质,常见于不粘锅等产品中,不幸的是,它们是持久的环境污染物,具有严重的健康风险。准确绘制PFAS污染图对于指导有针对性的修复工作以及保护公众和环境健康至关重要。然而,由于检测成本高昂以及模拟其扩散的难度,在大范围内进行检测仍然具有挑战性。在这项工作中,我们引入了FOCUS,这是一种地理空间深度学习框架,具有标签噪声感知损失函数,用于预测大范围地表水中的PFAS污染。通过整合水文流动数据、土地覆盖信息以及与已知PFAS源的接近程度,我们的方法利用空间和环境背景来提高预测准确性。我们通过广泛的消融研究和与稀疏分割等基线以及现有科学方法(包括克里金法和污染物运输模拟)的比较分析来评估我们方法的性能。结果突显了我们框架在可扩展PFAS监测中的潜力。

[14] 使用时空相干高斯表示进行天气临近预报的高动态雷达序列预测
标题: High-Dynamic Radar Sequence Prediction for Weather Nowcasting Using Spatiotemporal Coherent Gaussian Representation
作者: Ziye Wang / Yiran Qin / Lin Zeng / Ruimao Zhang
原文:   [英文]   [中文]  
备注: Accepted as an Oral paper at ICLR 2025. Project page: this https URL
摘要:
天气临近预报是一项重要任务,涉及根据当前观测预测未来的雷达回波序列,为灾害管理、交通运输和城市规划提供显著的益处。目前的预测方法在训练和存储效率上受到限制,主要集中在特定高度的二维空间预测。同时,每个时间戳的三维体积预测仍然很少被探索。为了解决这一挑战,我们引入了一个全面的三维雷达序列预测框架,用于天气临近预报,采用新提出的时空相干高斯喷溅(STC-GS)进行动态雷达表示,并使用GauMamba进行高效且准确的预测。具体来说,STC-GS并不依赖于四维高斯进行动态场景重建,而是通过使用一组高斯来优化每帧的三维场景,同时有效捕捉它们在连续帧之间的运动。它确保了每个高斯随时间的一致跟踪,使其在预测任务中特别有效。在建立了时间相关的高斯组后,我们利用它们来训练GauMamba,该模型将记忆机制整合到Mamba框架中。这使得模型能够学习高斯组的时间演变,同时高效处理大量的高斯标记。因此,它在预测各种动态气象雷达信号方面实现了效率和准确性的双重提升。实验结果表明,我们的STC-GS可以以超过现有三维表示方法16倍的空间分辨率高效地表示三维雷达序列,而GauMamba在预测广泛的高动态天气条件方面优于最先进的方法。

[15] 文本到图像扩散模型中概念消除的综合调查
标题: A Comprehensive Survey on Concept Erasure in Text-to-Image Diffusion Models
作者: Changhoon Kim / Yanjun Qi
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像(T2I)模型在从自然语言提示生成高质量、多样化的视觉内容方面取得了显著进展。然而,它们在再现受版权保护的风格、敏感图像和有害内容方面的能力引发了重大的伦理和法律问题。概念消除通过修改T2I模型以防止生成不良内容,提供了一种主动替代外部过滤的方法。在这篇综述中,我们提供了一个关于概念消除的结构化概述,根据其优化策略和修改的架构组件对现有方法进行分类。我们将概念消除方法分为用于参数更新的微调、用于高效编辑的闭式解决方案,以及无需权重修改的推理时干预以限制内容。此外,我们还探讨了绕过消除技术的对抗性攻击,并讨论了新兴的防御措施。为了支持进一步的研究,我们整合了关键数据集、评估指标和用于评估消除效果和模型鲁棒性的基准。这篇综述作为一个全面的资源,提供了对概念消除不断发展的领域的见解、其挑战以及未来的发展方向。

[16] UPCMR:一种用于随机采样心脏MRI重建的通用提示引导模型
标题: UPCMR: A Universal Prompt-guided Model for Random Sampling Cardiac MRI Reconstruction
作者: Donghang Lyu / Chinmay Rao / Marius Staring / Matthias J.P. van Osch / Mariya Doneva / Hildo J. Lamb / Nicola Pezzotti
原文:   [英文]   [中文]  
备注: Accepted paper for STACOM 2024
摘要:
心脏磁共振成像(CMR)对于诊断心脏疾病至关重要,但较长的扫描时间仍然是一个主要缺点。为了解决这个问题,通过对k空间进行欠采样引入了加速成像技术,但这会降低生成图像的质量。最近的深度学习进展旨在加快扫描速度的同时保持图像质量,但适应各种采样模式和欠采样因子仍然具有挑战性。因此,构建一个通用模型是一个有前途的方向。在这项工作中,我们介绍了UPCMR,这是一种为CMR重建设计的通用展开模型。该模型结合了两种可学习的提示:欠采样特定提示和空间特定提示,并在每个模块中与UNet结构集成。总体而言,通过使用CMRxRecon2024挑战数据集进行训练和验证,UPCMR模型在所有随机采样场景中通过有效的训练策略显著提高了重建图像的质量,相较于一些传统方法,展示了在该任务中强大的适应潜力。

[17] KOALA:用于视觉语言模型鲁棒性的知识冲突增强
标题: KOALA: Knowledge Conflict Augmentations for Robustness in Vision Language Models
作者: Peter Carragher / Nikitha Rao / Abhinand Jha / R Raghav / Kathleen M. Carley
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)在单模态问答系统中对知识冲突的鲁棒性已经得到了充分研究。然而,信息源冲突对多模态环境中的视觉语言模型(VLMs)的影响尚未被探索。在这项工作中,我们提出了\segsub,一个通过对图像源进行有针对性的扰动来研究和提高VLMs对三种不同类型的知识冲突(即参数冲突、源冲突和反事实冲突)鲁棒性的框架。与之前的研究发现LLMs对由文本扰动引起的参数冲突敏感相反,我们发现VLMs对图像扰动具有很强的鲁棒性。另一方面,VLMs在反事实例子上的表现很差(准确率低于30%),并且在源冲突上的推理几乎失败(准确率低于1%)。我们还发现幻觉与图像上下文之间存在联系,当面对高度情境化的反事实例子时,GPT-4o容易产生幻觉。尽管在源冲突上仍然存在挑战,但微调模型显著提高了对反事实样本的推理能力。我们的研究结果强调了需要改进VLM训练方法,以增强其推理能力,特别是在解决多模态源之间复杂的知识冲突方面。

[18] PTB-Image:用于数字化和基于图像诊断的扫描纸质心电图数据集
标题: PTB-Image: A Scanned Paper ECG Dataset for Digitization and Image-based Diagnosis
作者: Cuong V. Nguyen / Hieu X. Nguyen / Dung D. Pham Minh / Cuong D. Do
原文:   [英文]   [中文]  
备注: None
摘要:
心电图(ECG)记录在纸上在临床实践中仍然很普遍,但它们的使用在自动化分析和数字存储方面带来了挑战。为了解决这个问题,我们引入了PTB-Image,这是一个包含扫描纸质心电图及其对应数字信号的数据集,旨在促进心电图数字化的研究。我们还提供了VinDigitizer,这是一种将纸质心电图转换为数字时间序列信号的数字化基线方法。该方法包括检测信号行,从背景中提取波形,并从数字化的轨迹中重建数值。我们将VinDigitizer应用于549个扫描的心电图,并将其性能与原始PTB数据集(经过修改以匹配打印信号)进行比较。结果显示平均信噪比(SNR)为0.01 dB,突显了心电图数字化的可行性和挑战,特别是在减轻打印和扫描过程中的失真方面。通过提供PTB-Image和基线数字化方法,这项工作旨在促进心电图数字化的进步,增强对历史心电图数据的访问,并支持远程医疗和自动心脏诊断的应用。

[19] 什么是好的图像说明?用于评估多模态大模型正确性和覆盖性的综合视觉说明基准
标题: What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Coverage of MLLMs
作者: Zhihang Liu / Chen-Wei Xie / Bin Wen / Feiwu Yu / Jixuan Chen / Boqiang Zhang / Nianzu Yang / Pandeng Li / Yun Zheng / Hongtao Xie
原文:   [英文]   [中文]  
备注: Work in progress
摘要:
最近在多模态大型语言模型(MLLMs)方面的进展使得传统的视觉描述基准变得过时,因为它们主要评估的是使用过时指标的简短描述。尽管最近的基准通过将描述分解为视觉元素并采用基于模型的评估来解决这些限制,但它们仍然不完整——忽视了关键方面,同时提供了模糊且缺乏解释性的分数。为弥补这一差距,我们提出了CV-CapBench,一个全面的视觉描述基准,系统地从6个视角和13个维度评估描述质量。CV-CapBench为每个维度引入了精确度、召回率和命中率指标,独特地评估了正确性和覆盖率。在领先的MLLMs上的实验揭示了显著的能力差距,特别是在动态和知识密集型维度。这些发现为未来的研究提供了可操作的见解。代码和数据将会发布。

[20] Sce2DriveX:一种用于场景到驾驶学习的广义多模态大模型框架
标题: Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning
作者: Rui Zhao / Qirui Yuan / Jinyu Li / Haofeng Hu / Yun Li / Chengyuan Zheng / Fei Gao
原文:   [英文]   [中文]  
备注: None
摘要:
端到端自动驾驶直接将原始传感器输入映射到低级车辆控制,是具身人工智能的重要组成部分。尽管在应用多模态大型语言模型(MLLMs)进行高层次交通场景语义理解方面取得了成功,但将这些概念语义理解有效地转化为低级运动控制命令,并在跨场景驾驶中实现泛化和一致性仍然具有挑战性。我们介绍了Sce2DriveX,这是一种类人驾驶的思维链(CoT)推理MLLM框架。Sce2DriveX利用来自局部场景视频和全局鸟瞰图(BEV)的多模态联合学习,深入理解长距离时空关系和道路拓扑结构,增强其在3D动态/静态场景中的综合感知和推理能力,实现跨场景的驾驶泛化。在此基础上,它重建了人类驾驶中固有的隐性认知链,涵盖场景理解、元动作推理、行为解释分析、运动规划和控制,从而进一步弥合自动驾驶与人类思维过程之间的差距。为了提升模型性能,我们开发了首个广泛的视觉问答(VQA)驾驶指令数据集,专为3D空间理解和长轴任务推理而设计。大量实验表明,Sce2DriveX在从场景理解到端到端驾驶方面实现了最先进的性能,并在CARLA Bench2Drive基准测试中表现出强大的泛化能力。

[21] RAPTOR:产品表格对象识别的精细方法
标题: RAPTOR: Refined Approach for Product Table Object Recognition
作者: Eliott Thomas / Mickael Coustaty / Aurelie Joseph / Elodie Carel / Vincent Poulain D'Andecy / Jean-Marc Ogier
原文:   [英文]   [中文]  
备注: Accepted for WACVW 2025 (VisionDocs)
摘要:
从文档中提取表格是各个行业中的一项关键任务,尤其是在处理发票和报告等商业文档时。基于检测转换器(DETR)的现有系统,如表格转换器(TATR),为表格检测(TD)和表格结构识别(TSR)提供了解决方案,但在处理多样的表格格式以及常见错误(如错误的区域检测和重叠的列)时面临挑战。本研究介绍了RAPTOR,这是一种模块化后处理系统,旨在增强最先进的模型以改进表格提取,特别是针对产品表格。RAPTOR解决了反复出现的TD和TSR问题,提高了精度和结构预测。对于TD,我们使用了DETR(在ICDAR 2019上训练)和TATR(在PubTables-1M和FinTabNet上训练),而TSR仅依赖于TATR。我们引入了一种遗传算法来优化RAPTOR的模块参数,使用一个私有的产品表格数据集以符合工业需求。我们在两个私有的产品表格数据集、公共的DOCILE数据集(其中包含与我们目标产品表格相似的表格)、以及ICDAR 2013和ICDAR 2019数据集上评估了我们的方法。结果表明,尽管我们的方法在产品表格上表现出色,但在处理多样的表格格式时也保持了合理的性能。一个消融研究进一步验证了我们系统中每个模块的贡献。

[22] GS-Cache:一种用于大规模高斯散点模型的GS-Cache推理框架
标题: GS-Cache: A GS-Cache Inference Framework for Large-scale Gaussian Splatting Models
作者: Miao Tao / Yuanzhen Zhou / Haoran Xu / Zeyu He / Zhenyu Yang / Yuchang Zhang / Zhongling Su / Linning Xu / Zhenxiang Ma / Rong Fu / Hengjie Li / Xingcheng Zhang / Jidong Zhai
原文:   [英文]   [中文]  
备注: None
摘要:
渲染大规模3D高斯点模型(3DGS)在消费级设备上实现实时、高保真性能面临显著挑战。要在虚拟现实(VR)等应用中充分发挥3DGS的潜力,需要解决关键的系统级挑战,以支持实时、沉浸式体验。我们提出了GS-Cache,这是一种端到端的框架,能够无缝集成3DGS的高级表示与高度优化的渲染系统。GS-Cache引入了一个以缓存为中心的流水线来消除冗余计算,一个面向效率的调度器用于弹性多GPU渲染,以及优化的CUDA内核以克服计算瓶颈。这种3DGS与系统设计之间的协同作用使GS-Cache能够实现高达5.35倍的性能提升,35%的延迟减少,以及42%的GPU内存使用降低,支持在超过120 FPS的高视觉质量下进行2K双目渲染。通过弥合3DGS的表示能力与VR系统需求之间的差距,GS-Cache为沉浸式环境中的实时神经渲染建立了一个可扩展且高效的框架。

[23] 使用持续图形变换器的在线手势识别
标题: Online hand gesture recognition using Continual Graph Transformers
作者: Rim Slama / Wael Rabah / Hazem Wannous
原文:   [英文]   [中文]  
备注: None
摘要:
在线连续动作识别由于其在现实世界应用中的实际意义,已成为一个关键的研究领域,例如在人机交互、医疗保健和机器人技术中。在各种模式中,基于骨架的方法因其在捕捉三维时间数据方面的有效性以及对环境变化的鲁棒性而获得了显著的关注。然而,大多数现有工作集中于基于片段的识别,使其不适合实时、连续识别场景。在本文中,我们提出了一种新颖的在线识别系统,专为实时骨架序列流设计。我们的方法利用了一种混合架构,结合了用于空间特征提取的空间图卷积网络(S-GCN)和用于跨帧捕捉时间依赖性的基于Transformer的图编码器(TGE)。此外,我们引入了一种持续学习机制,以增强模型对不断变化的数据分布的适应性,确保在动态环境中的鲁棒识别。我们在SHREC'21基准数据集上评估了我们的方法,展示了其在在线手势识别中的卓越性能。我们的方法不仅实现了最先进的准确性,还显著降低了误报率,使其成为实时应用的一个引人注目的解决方案。所提出的系统可以无缝集成到包括人机协作和辅助技术在内的各种领域,在这些领域中,自然和直观的交互至关重要。

[24] FacaDiffy:使用扩散模型修复未见的立面部分
标题: FacaDiffy: Inpainting Unseen Facade Parts Using Diffusion Models
作者: Thomas Froech / Olaf Wysocki / Yan Xia / Junyu Xie / Benedikt Schwab / Daniel Cremers / Thomas H. Kolbe
原文:   [英文]   [中文]  
备注: Accepted for GeoSpatial Week 2025, ISPRS Annals
摘要:
高细节语义3D建筑模型在机器人技术、地理信息学和计算机视觉中经常被使用。创建此类模型的一个关键方面是使用2D冲突图来检测建筑立面中开口的位置。然而,实际上,由于激光扫描过程中遇到的障碍物,这些图通常是不完整的。为了解决这一挑战,我们引入了FacaDiffy,这是一种通过使用个性化的稳定扩散模型来完成冲突图,从而修补未见立面部分的新方法。具体来说,我们首先提出了一种确定性射线分析方法,以从现有的3D建筑模型和相应的激光扫描点云中推导出2D冲突图。此外,我们通过个性化稳定扩散模型的潜力,促进了将未见立面对象修补到这些2D冲突图中。为了补充真实世界训练数据的稀缺性,我们还开发了一个可扩展的管道,使用随机城市模型生成器和带注释的立面图像来生成合成冲突图。大量实验表明,与各种修补基线相比,FacaDiffy在冲突图完成方面达到了最先进的性能,并且在应用完成的冲突图进行高清3D语义建筑重建时,检测率提高了22%。代码将在相应的GitHub存储库中公开提供:this https URL

[25] KITAB-Bench:一个用于阿拉伯文OCR和文档理解的综合多领域基准
标题: KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding
作者: Ahmed Heakl / Abdullah Sohail / Mukul Ranjan / Rania Hossam / Ghazi Ahmed / Mohamed El-Geish / Omar Maher / Zhiqiang Shen / Fahad Khan / Salman Khan
原文:   [英文]   [中文]  
备注: 17 pages, 5 figures, ACL 2025
摘要:
随着检索增强生成(RAG)在文档处理中的广泛应用,稳健的文本识别在知识提取中变得愈发重要。尽管英语和其他语言的光学字符识别(OCR)受益于大型数据集和成熟的基准测试,阿拉伯语OCR由于其连笔书写、从右到左的文本流动以及复杂的印刷和书法特征而面临独特的挑战。我们提出了KITAB-Bench,这是一个全面的阿拉伯语OCR基准,填补了当前评估系统的空白。我们的基准包括来自9个主要领域和36个子领域的8,809个样本,涵盖多种文档类型,包括手写文本、结构化表格,以及针对商业智能的21种图表类型的专业覆盖。我们的研究结果表明,现代视觉语言模型(如GPT-4、Gemini和Qwen)在字符错误率(CER)方面平均比传统OCR方法(如EasyOCR、PaddleOCR和Surya)高出60%。此外,我们强调了当前阿拉伯语OCR模型的显著局限性,特别是在PDF到Markdown的转换中,最佳模型Gemini-2.0-Flash仅达到65%的准确率。这突显了准确识别阿拉伯语文本的挑战,包括复杂字体、数字识别错误、单词延长和表格结构检测的问题。此项工作建立了一个严格的评估框架,可以推动阿拉伯语文档分析方法的改进,并缩小与英语OCR技术的性能差距。

[26] 小样本物种分布范围估计
标题: Few-shot Species Range Estimation
作者: Christian Lange / Max Hamilton / Elijah Cole / Alexander Shepard / Samuel Heinrich / Angela Zhu / Subhransu Maji / Grant Van Horn / Oisin Mac Aodha
原文:   [英文]   [中文]  
备注: None
摘要:
了解特定物种在地球上的分布位置对于生态研究和保护工作至关重要。通过绘制所有物种的空间分布范围图,我们可以更深入地了解全球生物多样性如何受到气候变化和栖息地丧失的影响。然而,目前只有相对较小比例的已知物种拥有准确的分布范围估计。对于大多数剩余物种,我们通常只有少量记录,标示出它们曾被观察到的空间位置。我们提出了一种新的少样本物种分布范围估计方法,以解决从有限数据中准确估计物种分布范围的挑战。在推理过程中,我们的模型将一组空间位置作为输入,并可选地包括诸如文本或图像等元数据,输出一种物种编码,该编码可用于以前馈方式预测先前未见过的物种的分布范围。我们在两个具有挑战性的基准上验证了我们的方法,与最近的替代方法相比,我们在计算时间的一小部分内获得了最先进的分布范围估计性能。

[27] LAVID:一种用于扩散生成视频检测的代理性LVLM框架
标题: LAVID: An Agentic LVLM Framework for Diffusion-Generated Video Detection
作者: Qingyuan Liu / Yun-Yun Tsai / Ruijian Zha / Victoria Li / Pengyuan Shi / Chengzhi Mao / Junfeng Yang
原文:   [英文]   [中文]  
备注: None
摘要:
生成模型在创建高质量视频方面的显著成就引发了对数字完整性和隐私漏洞的担忧。最近关于AI生成内容检测的研究在图像领域(例如,深度伪造)得到了广泛研究,但视频领域尚未被充分探索。大型视觉语言模型(LVLM)因其强大的推理和多模态能力,已成为AI生成内容检测的新兴工具。它突破了传统深度学习方法所面临的局限性,如缺乏透明性和无法识别新伪影。受此启发,我们提出了LAVID,这是一种基于LVLM的新型AI生成视频检测方法,具有显式知识增强功能。我们的见解如下:(1)领先的LVLM可以调用外部工具提取有用信息,以促进其自身的视频检测任务;(2)结构化提示可以影响LVLM的推理能力,以解释视频内容中的信息。我们提出的流程自动选择一组显式知识工具进行检测,然后通过自我重写自适应地调整结构提示。与之前的SOTA需要训练额外的检测器不同,我们的方法完全不需要训练,只需LVLM的推理即可进行检测。为了促进我们的研究,我们还创建了一个新的基准\vidfor,其中包含从多种视频生成工具生成的高质量视频。评估结果显示,LAVID在我们的数据集上相对于四个SOTA LVLM的顶级基线提高了6.2%到30.2%的F1分数。

[28] 人脸识别技术准确性和偏差的快速测试
标题: A Rapid Test for Accuracy and Bias of Face Recognition Technology
作者: Manuel Knott / Ignacio Serna / Ethan Mann / Pietro Perona
原文:   [英文]  
备注: Accepted as a conference paper for WACV 2025. Manuel Knott, Ignacio Serna, and Ethan Mann contributed equally
摘要:
衡量人脸识别(FR)系统的准确性对于提高性能和确保负责任的使用至关重要。准确性通常通过大型标注数据集来估计,这些数据集的获取成本高且难以获得。我们提出了一种新颖的1:1人脸验证方法,可以快速对FR系统进行基准测试,而无需人工标注,起始于近似标签(例如,来自网络搜索结果)。与之前用于训练集标签清理的方法不同,我们的方法利用了所评估模型的嵌入表示,在较小规模的测试数据集中实现了高准确性。我们的方法可以可靠地估计FR的准确性和排名,显著减少人工标注的时间和成本。我们还首次引入了五个FR云服务的公共基准,揭示了人口统计偏差,特别是对亚洲女性的准确性较低。我们快速的测试方法可以使FR测试民主化,促进对该技术的审查和负责任的使用。我们的方法作为一个公开可访问的工具提供在这个https URL。

[29] CrossOver:3D场景跨模态对齐
标题: CrossOver: 3D Scene Cross-Modal Alignment
作者: Sayan Deb Sarkar / Ondrej Miksik / Marc Pollefeys / Daniel Barath / Iro Armeni
原文:   [英文]  
备注: Project Page: this http URL
摘要:
多模态3D对象理解已经引起了广泛关注,但当前的方法通常假设所有模态的数据都是完整且严格对齐的。我们提出了CrossOver,这是一种通过灵活的场景级模态对齐进行跨模态3D场景理解的新框架。与传统方法需要每个对象实例的模态数据对齐不同,CrossOver通过对模态(RGB图像、点云、CAD模型、平面图和文本描述)进行对齐,学习一个统一的、与模态无关的场景嵌入空间,且对齐过程的约束较为宽松,并不需要显式的对象语义。通过利用特定维度的编码器、多阶段训练流程和新兴的跨模态行为,CrossOver即使在模态缺失的情况下,也能支持稳健的场景检索和对象定位。在ScanNet和3RScan数据集上的评估显示了其在各种指标上的卓越性能,突显了其在3D场景理解的实际应用中的适应性。

[30] 具有大型CLS标记的简化快速视觉Transformer
标题: Simpler Fast Vision Transformers with a Jumbo CLS Token
作者: Anthony Fuller / Yousef Yassin / Daniel G. Kyrollos / Evan Shelhamer / James R. Green
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了一种简单的增强方法,用于改进视觉变换器(ViTs)的全局处理,以在保持吞吐量的同时提高准确性。我们的方法称为Jumbo,它创建了一个更宽的CLS标记,在注意力处理之前将其拆分以匹配补丁标记的宽度,然后通过自注意力处理并重新组装。在注意力处理之后,Jumbo对这个标记应用了一个专用的、更宽的FFN。Jumbo在ImageNet-1K上以高速显著优于ViT+Registers(ViT-tiny提高了3.2%,ViT-nano提高了13.5%);这些Jumbo模型甚至在保持普通ViTs架构优势的同时,超越了专门的计算高效模型。尽管Jumbo在ImageNet-1K上对ViT-small没有提升,但在ImageNet-21K上相较于ViT+Registers提高了3.4%。这两项发现表明,当ViT对于任务来说过于狭窄时,Jumbo最为有用。最后,我们展示了Jumbo可以轻松适应并在超越图像的数据上表现出色,例如时间序列。

[31] 像KITTI一样合成:用于驾驶场景中目标检测的合成数据生成
标题: Synth It Like KITTI: Synthetic Data Generation for Object Detection in Driving Scenarios
作者: Richard Marcus / Christian Vogel / Inga Jatzkowski / Niklas Knoop / Marc Stamminger
原文:   [英文]   [中文]  
备注: Preprint, to appear in ROBOVIS 2025
摘要:
推动自动驾驶系统发展的一个重要因素是模拟。然而,在虚拟世界和现实世界之间的可转移性方面进展甚微。我们重新审视了这个问题,针对LiDAR点云的3D目标检测,提出了一种基于CARLA模拟器的数据集生成流程。通过利用领域随机化策略和精细的建模,我们能够在合成数据上训练一个目标检测器,并展示出对KITTI数据集的强泛化能力。此外,我们比较了不同的虚拟传感器变体,以获取哪些传感器属性可能导致普遍存在的领域差距的见解。最后,通过使用一小部分真实数据进行微调,几乎达到了基线水平,并且使用完整的训练集略微超越了基线。

[32] 面向硬件友好的视频扩散变换器静态量化方法
标题: Hardware-Friendly Static Quantization Method for Video Diffusion Transformers
作者: Sanghyun Yi / Qingfeng Liu / Mostafa El-Khamy
原文:   [英文]   [中文]  
备注: None
摘要:
自从SORA展现出令人印象深刻的性能以来,扩散变压器在视频生成领域引起了显著的研究兴趣。通过动态量化,已经在GPU上展示了此类生成式AI模型的高效部署。然而,资源受限的设备无法支持动态量化,需要对模型进行静态量化,以便在AI处理器上高效部署。在本文中,我们提出了一种新方法,用于OpenSora(一个视频扩散变压器)的训练后量化,而不依赖于动态量化技术。我们的方法采用静态量化,在CLIP和VQA指标下实现了与FP16和动态量化的ViDiT-Q方法相当的视频质量。特别是,我们利用每步校准数据为每个时间步提供适当的训练后静态量化模型,结合权重的通道级量化和激活的张量级量化。通过进一步应用平滑量化技术,我们可以使用静态量化模型获得高质量的视频输出。大量实验结果表明,静态量化可以成为视频扩散变压器动态量化的可行替代方案,提供了一种更高效的方法而不牺牲性能。

[33] 幻觉校正能否改善视频-语言对齐?
标题: Can Hallucination Correction Improve Video-Language Alignment?
作者: Lingjun Zhao / Mingyang Xie / Paola Cascante-Bonilla / Hal Daumé III / Kwonjoon Lee
原文:   [英文]   [中文]  
备注: None
摘要:
大型视觉-语言模型经常生成与其视觉输入不一致的幻觉内容。虽然之前的研究主要集中在减轻幻觉现象上,但我们则探索利用幻觉校正作为训练目标来改善视频-语言对齐。我们引入了HACA,这是一种自我训练框架,学习校正与视频内容不一致的描述中的幻觉。通过识别和校正不一致之处,HACA增强了模型在时空推理中对齐视频和文本表示的能力。我们的实验结果显示,在视频-字幕绑定和文本到视频检索任务中取得了一致的提升,表明以幻觉校正为灵感的任务是改善视觉和语言对齐的有效策略。

[34] DAM-Seg: Anatomically accurate cardiac segmentation using Dense Associative Networks
标题: DAM-Seg: Anatomically accurate cardiac segmentation using Dense Associative Networks
作者: Zahid Ullah / Jihie Kim
原文:   [英文]  
备注: 12 pages, 7 figures, 5 tables
摘要:
基于深度学习的心脏分割技术近年来取得了显著进展。许多研究通过引入辅助模块来解决解剖学上不正确的分割预测这一挑战。这些模块要么对分割输出进行后处理,要么在特定点之间强制一致性以确保解剖学正确性。然而,这些方法通常会增加网络的复杂性,需要对这些模块进行单独训练,并且在可见性较差的情况下可能缺乏鲁棒性。为了解决这些限制,我们提出了一种新颖的基于变压器的架构,该架构利用密集关联网络来学习和保留心脏输入固有的特定模式。与传统方法不同,我们的方法限制网络记忆有限的模式集。在前向传播过程中,使用这些模式的加权和来确保输出的解剖学正确性。由于这些模式与输入无关,该模型即使在可见性较差的情况下也表现出增强的鲁棒性。我们在两个公开可用的数据集CAMUS和CardiacNet上评估了所提出的流程。实验结果表明,我们的模型在所有指标上均优于基线方法,突显了其在心脏分割任务中的有效性和可靠性。

[35] TransMamba:从Transformer到Mamba的快速通用架构适配
标题: TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba
作者: Xiuwei Chen / Sihao Lin / Xiao Dong / Zisheng Chen / Meng Cao / Jianhua Han / Hang Xu / Xiaodan Liang
原文:   [英文]  
备注: None
摘要:
Transformer在单模态和多模态基础模型中因其注意力模块的灵活可扩展性而备受青睐。因此,许多预训练的Transformer模型,如LLaVA、CLIP和DEIT,已经公开可用。最近的研究引入了像Mamba这样的次二次架构,它以线性复杂度实现了全局感知。然而,从头开始为特定任务训练专门的次二次架构既耗费资源又耗时。作为一种激励,我们探索跨架构训练,将现有Transformer模型中的现成知识转移到替代架构Mamba中,称为TransMamba。我们的方法采用两阶段策略来加速新Mamba模型的训练,确保在单模态和跨模态任务中的有效性。针对架构差异,我们在转移知识之前将中间特征投射到对齐的潜在空间中。除此之外,我们引入了一种权重子克隆和自适应双向蒸馏方法(WSAB),用于在不受层数变化限制的情况下进行知识转移。对于跨模态学习,我们提出了一个跨Mamba模块,将语言感知整合到Mamba的视觉特征中,增强了Mamba架构的跨模态交互能力。尽管使用的训练数据不到从头训练所需的75%,TransMamba在各种网络架构和下游任务中表现出显著更强的性能,包括图像分类、视觉问答和文本视频检索。代码将公开提供。

[36] 置信加权边界感知学习用于半监督语义分割
标题: Confidence-Weighted Boundary-Aware Learning for Semi-Supervised Semantic Segmentation
作者: Ebenezer Tarubinga / Jenifer Kalafatovich Espinoza
原文:   [英文]   [中文]  
备注: 9 pages, 5 figures
摘要:
半监督语义分割(SSSS)旨在通过利用未标记数据和有限的标记样本来提高分割性能。现有的SSSS方法通常面临一些挑战,例如耦合问题,即过度依赖初始标记数据导致次优学习;确认偏差,即错误预测反复自我强化;以及由于边界意识不足和模糊的边缘信息导致的边界模糊。为了解决这些问题,我们提出了CW-BASS,一种用于SSSS的新框架。为了减轻错误预测的影响,我们为伪标签分配置信权重。此外,我们利用边界描绘技术,尽管在弱监督语义分割(WSSS)中被广泛探索,但在SSSS中仍未被充分研究。具体来说,我们的方法:(1)通过置信加权损失函数减少耦合,该函数根据伪标签的预测置信度调整其影响,(2)通过动态阈值机制缓解确认偏差,该机制学习根据模型性能过滤掉伪标签,(3)通过边界感知模块解决边界模糊问题,该模块提高了物体边界附近的分割精度,以及(4)通过置信度衰减策略减少标签噪声,该策略在训练过程中逐步优化伪标签。在Pascal VOC 2012和Cityscapes上的大量实验表明,我们的方法达到了最先进的性能。此外,仅使用1/8或12.5%的标记数据,我们的方法在Pascal VOC 2012上实现了75.81的mIoU,突显了其在有限标记环境中的有效性。

[37] HOpenCls:在其实际环境中训练高光谱图像开放集分类器
标题: HOpenCls: Training Hyperspectral Image Open-Set Classifiers in Their Living Environments
作者: Hengwei Zhao / Xinyu Wang / Zhuo Zheng / Jingtao Li / Yanfei Zhong
原文:   [英文]   [中文]  
备注: None
摘要:
高光谱图像(HSI)开放集分类对于部署在现实环境中的HSI分类模型至关重要,因为分类器必须同时对已知类别进行分类并拒绝未知类别。最近的方法利用辅助未知类别数据来提高分类性能。然而,辅助未知类别数据被强烈假设为与已知类别完全可分,并且需要耗费大量人力进行标注。为了解决这一限制,本文提出了一种新颖的框架HOpenCls,以利用未标记的野生数据——即已知和未知类别的混合。这种野生数据丰富且可以在分类器部署于其生活环境中时自由收集。关键的见解是将带有未标记野生数据的开放集HSI分类重新表述为一个正例-未标记(PU)学习问题。具体来说,引入多标签策略以桥接PU学习和开放集HSI分类,然后提出的梯度收缩和梯度扩展模块使得从与野生数据相关的异常梯度权重的观察中使这个PU学习问题变得可处理。大量实验结果表明,结合野生数据有可能显著增强复杂现实场景中的开放集HSI分类。

[38] M3-AGIQA:多模态、多轮次、多方面的AI生成图像质量评估
标题: M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment
作者: Chuan Cui / Kejiang Chen / Zhihua Wei / Wen Shen / Weiming Zhang / Nenghai Yu
原文:   [英文]   [中文]  
备注: 14 pages, 5 figures. This work has been submitted to the IEEE for possible publication
摘要:
人工智能生成图像(AGI)模型的快速发展在评估其质量方面引入了重大挑战,这需要考虑感知质量、提示对应性和真实性等多个维度。为了解决这些挑战,我们提出了M3-AGIQA,这是一个全面的AGI质量评估框架,具有多模态、多轮次和多方面的特点。我们的方法利用了多模态大语言模型(MLLMs)作为联合文本和图像编码器的能力,并通过低秩适应(LoRA)微调将在线MLLMs的高级字幕生成能力提炼到本地模型中。该框架包括一个结构化的多轮次评估机制,其中生成的中间图像描述提供了对质量、对应性和真实性方面的更深入见解。为了使预测与人类感知判断对齐,框架中结合了一个由xLSTM和回归头构建的预测器,用于处理序列逻辑并预测平均意见分数(MOSs)。在多个基准数据集上进行的大量实验表明,M3-AGIQA达到了最先进的性能,有效捕捉到了AGI质量的细微方面。此外,跨数据集验证证实了其强大的泛化能力。代码可在此https URL获取。

[39] 生成图像检测的方法与趋势:一项综合评述
标题: Methods and Trends in Detecting Generated Images: A Comprehensive Review
作者: Arpan Mahara / Naphtali Rishe
原文:   [英文]   [中文]  
备注: 30 pages, 4 Figures, 10 Tables
摘要:
生成模型的激增,例如生成对抗网络(GANs)、扩散模型和变分自编码器(VAEs),使得高质量多媒体数据的合成成为可能。然而,这些进步也引发了关于对抗性攻击、不道德使用和社会危害的重大担忧。认识到这些挑战,研究人员越来越多地专注于开发有效检测合成数据的方法,以减轻潜在风险。之前的综述主要集中在深度伪造检测上,往往缺乏对合成图像检测最新进展的覆盖,特别是利用多模态框架进行改进的法医分析的方法。为了解决这一空白,本次综述对由先进生成AI模型生成的合成图像的检测和分类的最新方法进行了全面回顾。该综述系统地审查了核心检测方法,识别了方法之间的共性,并将其分类为有意义的分类法。此外,鉴于大规模数据集在该领域的重要作用,我们还概述了可公开获取的数据集,以促进合成数据检测的进一步研究和基准测试。

[40] 用于头部跟踪和姿态估计的自动人脸标注的非线性动态系统
标题: Nonlinear Dynamical Systems for Automatic Face Annotation in Head Tracking and Pose Estimation
作者: Thoa Thieu / Roderick Melnik
原文:   [英文]   [中文]  
备注: 25 pages, 10 figures
摘要:
面部标志跟踪在面部识别、表情分析和医学诊断等应用中起着至关重要的作用。在本文中,我们研究了扩展卡尔曼滤波器(EKF)和无迹卡尔曼滤波器(UKF)在确定性和随机环境中跟踪三维面部运动的性能。我们首先分析了一个无噪声环境,其中状态转移是纯粹确定性的,结果表明由于UKF能够捕捉到更高阶的非线性,因而在均方误差(MSE)方面优于EKF。然而,当引入随机噪声时,EKF表现出更强的鲁棒性,保持了比UKF更低的均方误差(MSE),因为UKF对测量噪声和遮挡变得更加敏感。我们的结果表明,UKF更适合于在受控环境中需要高精度的应用,而EKF则更适合于具有不可预测噪声的真实场景。这些发现为在三维面部跟踪应用中选择合适的滤波技术提供了实用的见解,例如动作捕捉和面部识别。

[41] OccProphet:通过观察者-预测者-精炼者框架推动仅摄像头的4D占用预测的效率前沿
标题: OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework
作者: Junliang Chen / Huaiyuan Xu / Yi Wang / Lap-Pui Chau
原文:   [英文]   [中文]  
备注: Accepted by ICLR2025
摘要:
在复杂交通环境中预测变化对于自动驾驶的安全性至关重要。最近在占用预测方面的进展使得通过观察历史2D图像来预测驾驶环境中未来的3D占用状态成为可能。然而,高计算需求使得占用预测在训练和推理阶段的效率较低,阻碍了其在边缘设备上部署的可行性。在本文中,我们提出了一种新颖的框架,即OccProphet,以显著降低计算需求的同时提高预测准确性,从而高效且有效地学习占用预测。OccProphet由三个轻量级组件组成:观察者、预测者和精炼者。观察者使用我们提出的高效4D聚合与三重注意力融合从3D多帧体素中提取时空特征,而预测者和精炼者则有条件地预测和精炼未来的占用推断。在nuScenes、Lyft-Level5和nuScenes-Occupancy数据集上的实验结果表明,OccProphet在训练和推理方面都很友好。与最先进的Cam4DOcc相比,OccProphet减少了58\%$\sim$78\%的计算成本,并实现了2.6倍的速度提升。此外,它在预测准确性上相对提高了4\%$\sim$18\%。代码和模型可在此https URL公开获取。

[42] 用于多层次语义场景理解的分层上下文转换器
标题: Hierarchical Context Transformer for Multi-level Semantic Scene Understanding
作者: Luoying Hao / Yan Hu / Yang Yue / Li Wu / Huazhu Fu / Jinming Duan / Jiang Liu
原文:   [英文]   [中文]  
备注: This paper has been accepted by the IEEE TCSVT
摘要:
对手术场景的全面和明确理解在开发手术室中的上下文感知计算机辅助系统中起着至关重要的作用。然而,很少有工作提供系统化的分析以实现分层的手术场景理解。在这项工作中,我们提出将任务集[阶段识别 --> 步骤识别 --> 动作和器械检测]表示为多级语义场景理解(MSSU)。为此目标,我们提出了一种新颖的分层上下文变换器(HCT)网络,并深入探索不同层次任务之间的关系。具体来说,设计了一个分层关系聚合模块(HRAM),以同时关联多级交互信息中的条目,然后增强特定任务的特征。为了进一步提升不同任务的表示学习,提出了跨任务对比学习(ICL),以指导模型通过吸收其他任务的补充信息来学习任务特定的特征。此外,考虑到变换器的计算成本,我们提出了HCT+,通过集成空间和时间适配器,以显著更少的可调参数实现具有竞争力的性能。在我们白内障数据集和一个公开可用的内窥镜PSI-AVA数据集上的大量实验表明,我们的方法表现出色,始终大幅超越最先进的方法。代码可在此https URL获取。

[43] 基于图像翻译的无监督跨模态领域自适应用于医学图像分割
标题: Image Translation-Based Unsupervised Cross-Modality Domain Adaptation for Medical Image Segmentation
作者: Tao Yang / Lisheng Wang
原文:   [英文]  
备注: 5 pages, 1 figure. arXiv admin note: substantial text overlap with arXiv:2303.07674
摘要:
监督深度学习在医学图像中通常比在自然图像中面临更多挑战。因为医学图像的标注需要医生的专业知识,并且更加耗时和昂贵。因此,一些研究人员转向无监督学习方法,但这些方法通常会面临不可避免的性能下降。此外,医学图像可能是在不同的医疗中心使用不同的扫描仪和不同的图像采集协议获取的,因此医学图像的模态往往不一致。这种模态差异(领域转移)也降低了深度学习方法的适用性。为此,我们提出了一种基于图像翻译的无监督跨模态领域适应方法,通过将带有标注的源模态图像转换为未标注的目标模态,并使用其标注来实现对目标模态的监督学习。此外,通过自训练方法克服翻译的伪图像与真实图像之间的细微差异,以进一步提高深度学习的任务性能。所提出的方法在Cross-Modality Domain Adaptation (crossMoDA 2022)挑战验证阶段排行榜的前庭神经鞘瘤(VS)和耳蜗分割任务中,显示了前庭神经鞘瘤的平均Dice相似系数(DSC)和平均对称表面距离(ASSD)分别为$0.8351 \pm 0.1152$和$1.6712 \pm 2.1948$,耳蜗的分别为$0.8098 \pm 0.0233$和$0.2317 \pm 0.1577$。

[44] UrbanSAM:在城市建设中为任意分割模型学习不变性启发的适配器
标题: UrbanSAM: Learning Invariance-Inspired Adapters for Segment Anything Models in Urban Construction
作者: Chenyu Li / Danfeng Hong / Bing Zhang / Yuxuan Li / Gustau Camps-Valls / Xiao Xiang Zhu / Jocelyn Chanussot
原文:   [英文]   [中文]  
备注: None
摘要:
从遥感(RS)图像中提取和分割对象是城市环境监测中一项关键但具有挑战性的任务。城市形态本质上是复杂的,具有形状多样和尺度变化的各种不规则对象。这些挑战因RS数据源(包括传感器、平台和模式)之间的异质性和尺度差异而加剧,使得准确的对象分割尤其困难。尽管Segment Anything Model(SAM)在分割复杂场景方面显示出显著潜力,但由于需要手动交互提示,其在处理形态变化对象时的性能仍然有限。为此,我们提出了UrbanSAM,这是专门为分析复杂城市环境而设计的SAM定制版本,同时解决了遥感观测中的尺度效应。受多分辨率分析(MRA)理论的启发,UrbanSAM结合了一个新颖的可学习提示器,配备了符合不变性标准的Uscaling-Adapter,使模型能够捕捉对象的多尺度上下文信息,并以理论保证适应任意尺度变化。此外,通过掩码交叉注意力操作对齐Uscaling-Adapter和主干编码器的特征,使主干编码器继承适配器的多尺度聚合能力。这种协同作用增强了分割性能,产生更强大和准确的输出,并得到学习适配器的支持。广泛的实验结果证明了所提出的UrbanSAM在全球尺度数据集上的灵活性和优越的分割性能,涵盖了如建筑物、道路和水体等尺度变化的城市对象。

[45] FlipConcept:无需调参的多概念个性化文本到图像生成
标题: FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation
作者: Young Beom Woo / Sun Eung Kim
原文:   [英文]   [中文]  
备注: 9 pages, 4 figures
摘要:
最近,在文本生成图像(T2I)领域中,将多个个性化概念整合到单一图像中的方法引起了广泛关注。然而,现有方法在包含多个对象的复杂场景中,由于非个性化区域的失真,表现会有所下降。为了解决这个问题,我们提出了FlipConcept,这是一种无需额外调整即可将多个个性化概念无缝整合到单一图像中的新方法。我们引入了引导外观注意力,以准确模仿个性化概念的预期外观。此外,我们引入了掩码引导的噪声混合,以在编辑过程中保护非个性化区域。最后,我们应用背景稀释来最小化属性泄漏,即个性化概念属性与图像中其他对象的不必要混合。在我们的实验中,我们证明了所提出的方法即使不需要调整,也在单个和多个个性化概念推理中优于现有模型。

[46] AutoMR:通用时间序列运动识别流程
标题: AutoMR: A Universal Time Series Motion Recognition Pipeline
作者: Likun Zhang / Sicheng Yang / Zhuo Wang / Haining Liang / Junxiao Shen
原文:   [英文]   [中文]  
备注: 5 figures
摘要:
本文提出了一种针对多模态数据集的端到端自动化动作识别(AutoMR)流程。该框架无缝集成了数据预处理、模型训练、超参数调优和评估,能够在不同场景中实现稳健的性能。我们的方法解决了两个主要挑战:1)传感器数据格式和参数在不同数据集中的变化,这通常需要特定任务的机器学习实现,以及2)为了获得最佳模型性能而进行超参数调优的复杂性和耗时性。我们的库提供了一种一体化解决方案,包含以QuartzNet为核心模型的自动化超参数调优和全面的指标跟踪。大量实验表明,该方法在10个不同的数据集上表现出色,达到了最先进的性能。此项工作为在各种现实应用中部署动作捕捉解决方案奠定了坚实的基础。

[47] 一种海洋锋面检测和追踪算法
标题: An ocean front detection and tracking algorithm
作者: Yishuo Wang / Feng Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
海洋锋面被定义为不同水团之间的界面,在许多物理现象的演变中起着至关重要的作用。先前的检测方法基于直方图、Lyapunov指数、梯度和机器学习。然而,这些算法引入了不连续性、不准确性、使用的信息较少或仅仅接近传统结果。此外,前人的研究中自动锋面追踪算法并未开源。本文聚焦于大规模海洋锋面,提出了一种基于贝叶斯决策和度量空间的自动锋面检测和追踪算法。在此过程中,提出了锋面合并、填充和环删除以增强连续性。首次定义了不同日期锋面之间的距离,并在度量空间中进行了功能分析的良好定义。这些技术可以迁移到计算机视觉的其他领域,如边缘检测和追踪。

[48] SiMHand:挖掘相似手型用于大规模3D手部姿态预训练
标题: SiMHand: Mining Similar Hands for Large-Scale 3D Hand Pose Pre-training
作者: Nie Lin / Takehiko Ohkawa / Yifei Huang / Mingfang Zhang / Minjie Cai / Ming Li / Ryosuke Furuta / Yoichi Sato
原文:   [英文]   [中文]  
备注: ICLR 2025. arXiv admin note: text overlap with arXiv:2409.09714
摘要:
我们提出了一个名为SimHand的框架,用于从具有相似手部特征的自然环境手部图像中进行3D手部姿态估计的预训练。利用大规模图像进行预训练在各种任务中取得了可喜的成果,但之前的3D手部姿态预训练方法并未充分利用从自然环境视频中获取的多样化手部图像的潜力。为了促进可扩展的预训练,我们首先从自然环境视频中准备了大量的手部图像,并设计了基于对比学习的预训练方法。具体来说,我们从最近的人体中心视频(如100DOH和Ego4D)中收集了超过200万张手部图像。为了从这些图像中提取判别信息,我们专注于手部的相似性:具有相似手部姿态的非相同样本对。然后,我们提出了一种新颖的对比学习方法,将相似的手部对在特征空间中嵌入得更近。我们的方法不仅从相似样本中学习,还根据样本间距离自适应地加权对比学习损失,从而带来额外的性能提升。我们的实验表明,我们的方法优于传统的对比学习方法,这些方法仅通过单一图像的数据增强生成正样本对。在各种数据集上,我们相较于最先进的方法(PeCLR)取得了显著的改进,在FreiHand上提高了15%,在DexYCB上提高了10%,在AssemblyHands上提高了4%。我们的代码可以在这个URL上获取。

[49] 全方位图像质量描述:一个大规模数据库和一个新模型
标题: Omnidirectional Image Quality Captioning: A Large-scale Database and A New Model
作者: Jiebin Yan / Ziwen Tan / Yuming Fang / Junjie Chen / Wenhui Jiang / Zhou Wang
原文:   [英文]   [中文]  
备注: None
摘要:
全景图像的快速应用增长需要有效的方法来进行全景图像质量评估(OIQA)。现有的OIQA方法已经在均匀失真的全景图像上开发和测试,但很难将其成功直接转移到异质失真的全景图像上。在本文中,我们进行了迄今为止最大规模的OIQA研究,建立了一个名为OIQ-10K的大规模数据库,其中包含10,000张具有均匀和异质失真的全景图像。我们进行了全面的心理物理学研究,以收集每张全景图像的人类意见,以及失真的空间分布(在局部区域或全局)和受试者的头部和眼球运动。此外,我们提出了一种新颖的多任务导出的自适应特征定制OIQA模型,名为IQCaption360,该模型能够以文本模板的方式为全景图像生成质量说明。大量实验表明,IQCaption360的有效性在所提出的OIQ-10K数据库上显著优于最先进的方法。OIQ-10K数据库和相关的源代码可在此https URL获取。

[50] CopyJudge:文本到图像扩散模型中的自动版权侵权识别与缓解
标题: CopyJudge: Automated Copyright Infringement Identification and Mitigation in Text-to-Image Diffusion Models
作者: Shunchang Liu / Zhuan Shi / Lingjuan Lyu / Yaochu Jin / Boi Faltings
原文:   [英文]   [中文]  
备注: 17pages, 8 figures
摘要:
评估AI生成的图像是否与受版权保护的作品实质性相似是解决版权纠纷的关键步骤。在本文中,我们提出了CopyJudge,这是一种自动化的版权侵权识别框架,利用大型视觉语言模型(LVLMs)来模拟实际的法院流程,以确定受版权保护的图像与由文本到图像扩散模型生成的图像之间的实质性相似性。具体而言,我们采用了一个抽象-过滤-比较测试框架,并结合多LVLM辩论来评估侵权的可能性,并提供详细的判决理由。基于这些判决,我们进一步引入了一种通用的基于LVLM的缓解策略,该策略通过避免敏感表达同时保留非侵权内容,自动优化侵权提示。此外,我们的方法可以通过在扩散潜在空间中探索非侵权噪声向量来增强,即使不修改原始提示也能实现。实验结果表明,我们的识别方法达到了可比的最新性能,同时在各种形式的侵权中提供了更好的泛化性和可解释性,而我们的缓解方法能够更有效地缓解记忆和知识产权侵权,同时不丢失非侵权表达。

[51] 使用深度神经网络联合体在户外田地和室内实验室中进行大豆荚和种子的计数
标题: Soybean pod and seed counting in both outdoor fields and indoor laboratories using unions of deep neural networks
作者: Tianyou Jiang / Mingshun Shao / Tianyi Zhang / Xiaoyu Liu / Qun Yu
原文:   [英文]  
备注: None
摘要:
在户外田地中自动计数大豆荚和种子可以在收获前快速估算产量,而在室内实验室计数则提供了更高的准确性。这两种方法都可以显著加速育种过程。然而,在户外田地中准确计数荚和种子仍然具有挑战性,并且在实验室中仍然没有足够准确的工具来计数荚和种子。在这项研究中,我们开发了高效的深度学习模型,用于在户外田地和室内实验室中计数大豆荚和种子。对于户外田地,不仅标注可见的种子,还标注被遮挡的种子,使得YOLO能够估算被遮挡的大豆种子的数量。此外,我们通过将YOLO与HQ-SAM(YOLO-SAM)和领域适应技术(YOLO-DA)相结合,增强了YOLO架构,以提高模型在户外田地拍摄的大豆图像中的鲁棒性和泛化能力。在户外田地的大豆图像测试中,我们在荚计数上实现了6.13的平均绝对误差(MAE),在种子计数上实现了10.05的MAE。对于室内环境,我们使用了补充了Swin Transformer模块的Mask-RCNN(Mask-RCNN-Swin),模型仅在从一小部分标记数据生成的合成训练图像上进行训练。这种方法在两个不同研究的实际实验室图像中实现了接近完美的准确性,荚计数的MAE为1.07,种子计数的MAE为1.33。

[52] 一种用于极化SAR图像分类的新型黎曼稀疏表示学习网络
标题: A Novel Riemannian Sparse Representation Learning Network for Polarimetric SAR Image Classification
作者: Junfei Shi / Mengmeng Nie / Weisi Lin / Haiyan Jin / Junhuai Li / Rui Wang
原文:   [英文]   [中文]  
备注: 13 pages, 9 figures
摘要:
深度学习是一种用于极化合成孔径雷达(PolSAR)图像分类的有效端到端方法,但它缺乏相关数学原理的指导,本质上是一个黑箱模型。此外,现有的深度模型在欧几里得空间中学习特征,其中PolSAR复数矩阵通常被转换为复数向量作为网络输入,这会扭曲矩阵结构和通道关系。然而,复数协方差矩阵是厄米正定(HPD)的,并且位于黎曼流形上而不是欧几里得空间。现有方法无法测量HPD矩阵的几何距离,并且由于不适当的欧几里得度量,容易导致一些误分类。为了解决这些问题,我们提出了一种新颖的用于PolSAR图像的黎曼稀疏表示学习网络(SRSR CNN)。首先,设计了一个基于超像素的黎曼稀疏表示(SRSR)模型,以学习具有黎曼度量的稀疏特征。然后,推导出SRSR模型的优化过程,并进一步展开为SRSRnet,可以自动学习稀疏系数和字典原子。此外,为了学习上下文的高级特征,添加了一个CNN增强模块以提高分类性能。所提出的网络是一个稀疏表示(SR)引导的深度学习模型,可以直接利用协方差矩阵作为网络输入,并利用黎曼度量在黎曼空间中学习复杂矩阵的几何结构和稀疏特征。在三个真实的PolSAR数据集上的实验表明,所提出的方法在确保分类的准确边缘细节和正确区域均匀性方面优于最先进的技术。

[53] 使用结合高效卷积神经网络编码器的孪生网络的道路交通标志识别方法
标题: Road Traffic Sign Recognition method using Siamese network Combining Efficient-CNN based Encoder
作者: Zhenghao Xi / Yuchao Shao / Yang Zheng / Xiang Liu / Yaqi Liu / Yitong Cai
原文:   [英文]  
备注: None
摘要:
交通标志识别(TSR)在辅助驾驶和智能交通系统中起着至关重要的作用。然而,复杂环境中的噪声可能导致运动模糊或遮挡问题,这对高精度和鲁棒性的实时识别提出了严峻挑战。本文中,我们提出了IECES网络,该网络具有改进的编码器和孪生网络。我们的方法包括三个阶段:基于Efficient-CNN的编码器、孪生网络骨干和全连接层。我们首先使用卷积编码器来提取和编码增强训练样本和标准图像的交通标志特征。然后,我们设计了一个基于Efficient-CNN编码器和对比损失函数的孪生神经网络,通过计算输入和模板之间的距离来提高TSR问题在面对运动模糊和遮挡样本时的鲁棒性。此外,在训练后执行识别任务时,所提出网络的模板分支可以停止,以提高我们实时模型的处理速度,并减轻计算资源和参数规模。最后,我们重新组合特征编码和带有SoftMax函数的全连接层,以对样本的编码进行分类并识别交通标志的类别。在清华-腾讯100K数据集和德国交通标志识别基准数据集上的实验结果证明了所提出的IECES网络的性能。与其他最先进的方法相比,在运动模糊和遮挡环境下,所提出的方法实现了具有竞争力的性能,精确率-召回率和准确性指标平均分别为88.1%、86.43%和86.1%,且规模轻量化为2.9M。此外,我们模型的处理时间为每帧0.1秒,其速度比现有方法提高了1.5倍。

[54] 水产养殖中鱼类摄食行为识别与强度量化方法的研究进展
标题: Research advances on fish feeding behavior recognition and intensity quantification methods in aquaculture
作者: Shulong Zhang / Daoliang Li / Jiayin Zhao / Mingyuan Yao / Yingyi Chen / Yukang Huo / Xiao Liu / Haihua Wang
原文:   [英文]  
备注: 22 pages, 4 figures,
摘要:
作为水产养殖管理的关键部分,鱼类摄食行为识别和强度量化一直是研究人员极为关注的热点领域,它在监测鱼类健康、指导投饵工作和提高水产养殖效率方面起着至关重要的作用。为了在未来更好地开展相关工作,本文首先回顾了基于计算机视觉、声学和传感器的单一模态鱼类摄食行为识别和强度量化方法的研究进展。然后阐述了当前新兴的多模态融合在鱼类摄食行为识别和强度量化方法中的应用。最后,对各种技术的优缺点进行了比较和分析,并展望了未来的研究方向。

[55] SentiFormer:用于图像情感分析的元数据增强Transformer
标题: SentiFormer: Metadata Enhanced Transformer for Image Sentiment Analysis
作者: Bin Feng / Shulan Ruan / Mingzheng Yang / Dongxuan Han / Huijie Liu / Kai Zhang / Qi Liu
原文:   [英文]   [中文]  
备注: None
摘要:
随着越来越多的互联网用户通过在线发布图片来表达他们的日常情感,图像情感分析引起了越来越多的关注。最近,研究人员普遍倾向于设计不同的神经网络,从图像中提取视觉特征以进行情感分析。尽管取得了显著进展,但用于描述图像的数据(例如,文本描述和关键词标签)等元数据在这一任务中尚未得到充分探索。在本文中,我们提出了一种新颖的用于情感分析的元数据增强Transformer(SentiFormer),以将多种元数据和相应的图像融合到一个统一的框架中。具体来说,我们首先获取图像的多种元数据,并统一多样数据的表示。为了自适应地学习每种元数据的适当权重,我们设计了一个自适应相关性学习模块,以突出更有效的信息,同时抑制较弱的信息。此外,我们进一步开发了一个跨模态融合模块,以融合自适应学习的表示并做出最终预测。在三个公开可用的数据集上进行的大量实验表明了我们提出的方法的优越性和合理性。

[56] PFSD:用于半结构化环境中丰富任务的多模态行人聚焦场景数据集
标题: PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments
作者: Yueting Liu / Hanshi Wang / Yunfei Lei / Zhengjun Zha / Weiming Hu / Jin Gao
原文:   [英文]   [中文]  
备注: None
摘要:
最近在自动驾驶感知领域的进展显示了在以车辆交通为主的结构化环境中卓越的能力。然而,当前的感知模型在半结构化环境中表现出显著的局限性,在这些环境中,动态行人具有更为多样化的不规则运动和遮挡。我们将这一缺陷归因于半结构化场景中高质量数据集的稀缺,特别是在行人感知和预测方面。在这项工作中,我们提出了多模态行人聚焦场景数据集(PFSD),该数据集在半结构化场景中以nuScenes格式进行了严格的标注。PFSD提供了全面的多模态数据注释,包括点云分割、检测和用于跟踪的对象ID。它涵盖了超过130,000个行人实例,捕捉了不同场景中不同密度、运动模式和遮挡的情况。此外,为了展示解决更为多样化和复杂的半结构化环境所带来的挑战的重要性,我们提出了一种新颖的混合多尺度融合网络(HMFN)。具体来说,为了在人口密集和遮挡严重的场景中检测行人,我们的方法通过精心设计的混合框架有效地捕捉和融合多尺度特征,该框架整合了稀疏卷积和普通卷积。在PFSD上的大量实验表明,HMFN在平均精度(mAP)上相较于现有方法取得了提升,从而强调了其在解决复杂半结构化环境中3D行人检测挑战方面的有效性。代码和基准测试已开放。

[57] 通过自然语言监督的弱监督视频场景图生成
标题: Weakly Supervised Video Scene Graph Generation via Natural Language Supervision
作者: Kibum Kim / Kanghoon Yoon / Yeonjun In / Jaehyeong Jeon / Jinyoung Moon / Donghyun Kim / Chanyoung Park
原文:   [英文]   [中文]  
备注: 10 pages, ICLR 2025
摘要:
现有的视频场景图生成(VidSGG)研究是以完全监督的方式进行训练的,这要求视频中的所有帧都要进行标注,因此与图像场景图生成(ImgSGG)相比,标注成本很高。尽管可以通过采用常用于图像场景图生成的弱监督方法(WS-ImgSGG)来缓解VidSGG的标注成本,该方法使用图像字幕,但有两个关键原因阻碍了这种简单的采用:1)视频字幕中的时间性,即与图像字幕不同,视频字幕包含指示时间相关细节的时间标记(例如,之前、同时、然后、之后);2)动作持续时间的变化性,即与图像字幕中的人类动作不同,视频字幕中的人类动作在不同的持续时间内展开。为了解决这些问题,我们提出了一种基于自然语言的视频场景图生成(NL-VSGG)框架,该框架仅利用现成的视频字幕来训练VidSGG模型。NL-VSGG由两个关键模块组成:时间感知字幕分割(TCS)模块和动作持续时间变化感知字幕-帧对齐(ADV)模块。具体来说,TCS基于大型语言模型(LLM)将视频字幕按时间顺序分割成多个句子,而ADV则考虑动作持续时间的变化性,将每个分割的句子与适当的帧对齐。与简单地将WS-ImgSGG流程应用于Action Genome数据集上的VidSGG相比,我们的方法在性能上有显著提升。作为利用视频字幕进行弱监督的进一步好处,我们展示了通过NL-VSGG训练的VidSGG模型能够预测训练数据中未包含的更广泛的动作类别,这使得我们的框架在现实中具有实用性。

[58] MOVE:一种用于领域聚焦视觉语言处理的混合视觉编码器方法
标题: MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing
作者: Matvey Skripkin / Elizaveta Goncharova / Dmitrii Tarasov / Andrey Kuznetsov
原文:   [英文]  
备注: 10 pages, 6 figures, 4 tables
摘要:
多模态语言模型(MLMs)通过特定的适配器将视觉编码器与大型语言模型结合,从而整合视觉和文本信息。现有的方法通常依赖于单一的预训练视觉编码器,但实际上有许多专门化的编码器可以在不同领域提升模型的性能。在这项工作中,我们提出了MOVE(多视觉编码器混合),这是一种简单而有效的方法,可以利用多个预训练编码器来处理专门的多模态任务。MOVE能够自动将输入路由到最合适的编码器,如Unichat、InternViT和Texify,从而在包括ChartQA、MMBench和MMMU在内的多种基准测试中提升性能。实验结果表明,MOVE在不需要对高分辨率图像进行切片的情况下,达到了具有竞争力的准确性。

[59] 背景信息在减少视觉语言模型中对象幻觉中的作用:来自截断API提示的见解
标题: The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting
作者: Masayo Tomita / Katsuhiko Hayashi / Tomoyuki Kaneko
原文:   [英文]   [中文]  
备注: Under review
摘要:
视觉-语言模型(VLMs)有时会生成与输入图像相矛盾的输出,这限制了它们在实际应用中的可靠性。尽管有报告称通过在图像中增加相关区域的提示可以抑制幻觉,但在区域方面的有效性仍不确定。本研究分析了注意力驱动的视觉提示在对象幻觉中的成功和失败案例,揭示了保留背景上下文对于减轻对象幻觉至关重要。

[60] 长描述生成:释放大型多模态模型中长描述生成的潜力
标题: LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models
作者: Hongchen Wei / Zhihong Tan / Yaosi Hu / Changwen Chen / Zhenzhong Chen
原文:   [英文]   [中文]  
备注: None
摘要:
大型多模态模型(LMMs)在视频理解任务中表现出色,甚至可以处理超过一小时的视频。然而,尽管它们能够处理较长的输入,但生成具有相应丰富程度的输出仍然是一个挑战。在本文中,我们使用视频字幕生成作为代理任务,探讨LMMs在长输出方面的问题。我们发现,开源的LMMs难以稳定生成超过约300字的输出。通过控制实验,我们发现训练过程中缺乏带有长字幕的配对示例是限制模型输出长度的主要因素。然而,手动标注长字幕示例既耗时又昂贵。为了解决这个问题,我们提出了LongCaption-Agent,一个通过聚合多层次描述来合成长字幕数据的框架。使用LongCaption-Agent,我们策划了一个新的长字幕数据集,LongCaption-10K。我们还开发了LongCaption-Bench,一个旨在全面评估LMMs生成的长字幕质量的基准。通过将LongCaption-10K纳入训练,我们使LMMs能够生成超过1,000字的字幕,同时保持高输出质量。在LongCaption-Bench中,我们的8B参数模型达到了最先进的性能,甚至超越了更大的专有模型。我们将在发表后发布数据集和代码。

[61] 利用3D注意力模块增强车辆品牌和型号识别
标题: Enhancing Vehicle Make and Model Recognition with 3D Attention Modules
作者: Narges Semiromizadeh / Omid Nejati Manzari / Shahriar B. Shokouhi / Sattar Mirzakuchaki
原文:   [英文]   [中文]  
备注: None
摘要:
车辆品牌和型号识别(VMMR)是智能交通系统的重要组成部分,近年来备受关注。VMMR被广泛用于检测可疑车辆、监控城市交通以及自动驾驶系统。VMMR的复杂性源于车辆型号之间细微的视觉差异以及制造商生产的种类繁多的车型。卷积神经网络(CNNs)作为一种突出的深度学习模型,已广泛应用于包括VMMR在内的各种计算机视觉任务,并取得了显著的成果。由于VMMR是一个细粒度的分类问题,它主要面临类间相似性和类内变化的挑战。在本研究中,我们实施了一个注意力模块来应对这些挑战,并增强模型对包含区分特征的关键区域的关注。该模块不会增加原始模型的参数,而是生成三维(3-D)注意力权重以优化特征图。我们提出的模型将注意力模块集成到卷积模型中间部分的两个不同位置,这些部分的特征图提供了关于输入帧的充分信息,而不过于详细或过于粗略。我们使用斯坦福汽车数据集评估了我们提出的模型以及最先进的卷积和基于变压器的模型。我们提出的模型在比较的模型中达到了最高的准确率,为90.69%。

[62] LEAP:通过轻量级时空相关性增强基于视觉的占用网络
标题: LEAP: Enhancing Vision-Based Occupancy Networks with Lightweight Spatio-Temporal Correlation
作者: Fengcheng Yu / Haoran Xu / Canming Xia / Guang Tan
原文:   [英文]   [中文]  
备注: None
摘要:
基于视觉的占用网络提供了一种端到端的解决方案,通过从多视图图像中提取的语义占用体素来重建周围环境。该技术依赖于有效学习像素级视觉信息与体素之间的关联。尽管最近取得了一些进展,但由于遮挡和稀疏的视觉线索,占用结果的准确性仍然有限。为了解决这个问题,我们提出了一种轻量级时空相关(LEAP)方法,该方法在计算开销极小的情况下显著提升了现有占用网络的性能。LEAP可以无缝集成到各种基线网络中,实现即插即用的应用。LEAP的操作分为三个阶段:1)将最近的基线和运动特征的信息标记化为一个共享的、紧凑的潜在空间;2)通过三流融合架构建立完整的相关性;3)生成增强基线输出的占用结果。大量实验表明,我们的方法在效率和效果上均优于最新的基线模型。源代码和若干演示在补充材料中提供。

[63] MVIP -- 面向应用的多视角和多模态工业零件识别的数据集和方法
标题: MVIP -- A Dataset and Methods for Application Oriented Multi-View and Multi-Modal Industrial Part Recognition
作者: Paul Koch / Marian Schlüter / Jörg Krüger
原文:   [英文]   [中文]  
备注: Accepted to IMPROVE 2025
摘要:
我们介绍了 MVIP,这是一个用于多模态和多视角应用导向的工业零件识别的新型数据集。在此,我们首次将校准的 RGBD 多视角数据集与物理属性、自然语言和超类等附加对象上下文相结合。目前可用的数据集组合提供了广泛的表示形式,用于设计和基准测试相关方法。与现有的分类挑战相比,工业识别应用提供了受控的多模态环境,但同时也面临与传统 2D/3D 分类挑战不同的问题。工业应用通常必须处理少量或大量的训练数据、视觉上相似的零件和变化的物体尺寸,同时在成本和时间限制下需要接近 100% 的 top 5 准确率。当前的方法单独应对这些挑战,但在工业应用中直接采用这些方法是复杂的,并需要进一步研究。我们推出 MVIP 的主要目标是研究和推动各种最先进方法在相关下游任务中的可转移性,以实现工业分类器的高效部署。此外,我们还希望通过 MVIP 推动关于多模态融合主题、(自动化)合成数据生成和复杂数据采样的研究——这些都结合在一个面向应用的基准中。

[64] 记忆有助于理解,但虚构会误导:使用多模态大模型理解视频中的流事件
标题: Memory Helps, but Confabulation Misleads: Understanding Streaming Events in Videos with MLLMs
作者: Gengyuan Zhang / Mingcong Ding / Tong Liu / Yao Zhang / Volker Tresp
原文:   [英文]   [中文]  
备注: Short paper (5 pages)
摘要:
多模态大语言模型(MLLMs)在整体理解视频方面表现出色,但其处理流媒体视频(视频被视为一系列视觉事件)的能力仍未得到充分探索。直观地说,利用过去的事件作为记忆可以丰富对当前事件的上下文和时间理解。在本文中,我们展示了利用记忆作为上下文可以帮助MLLMs更好地理解视频事件。然而,由于这些记忆依赖于对前面事件的预测,它们可能包含错误信息,导致虚构和性能下降。为了解决这个问题,我们提出了一种虚构感知的记忆修改方法,以减轻虚构记忆对增强记忆的事件理解的影响。

[65] 使用图神经网络和3D卷积网络进行足球比赛状态和时空动作检测
标题: Game State and Spatio-temporal Action Detection in Soccer using Graph Neural Networks and 3D Convolutional Networks
作者: Jeremie Ochin / Guillaume Devineau / Bogdan Stanciulescu / Sotiris Manitsaris
原文:   [英文]   [中文]  
备注: None
摘要:
足球分析依赖于两个数据来源:球场上球员的位置和他们执行的事件序列。每场比赛大约有2000个球类事件,基于单目视频流对其进行精确和详尽的标注仍然是一项繁琐且昂贵的手动任务。虽然最先进的时空动作检测方法在自动化此任务方面显示出希望,但它们缺乏对比赛的上下文理解。假设职业球员的行为是相互依赖的,我们假设结合周围球员的信息(如位置、速度和队伍归属)可以增强纯视觉预测。我们提出了一种时空动作检测方法,通过图神经网络结合视觉和比赛状态信息,与最先进的3D卷积神经网络进行端到端训练,通过整合比赛状态展示了改进的指标。

[66] CondiQuant:基于条件数的低比特量化用于图像超分辨率
标题: CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution
作者: Kai Liu / Dehui Wang / Zhiteng Li / Zheng Chen / Yong Guo / Wenbo Li / Linghe Kong / Yulun Zhang
原文:   [英文]   [中文]  
备注: 10 pages, 5 figures. Code and models are released at this https URL
摘要:
低比特模型量化用于图像超分辨率(SR)是一个长期存在的任务,以其惊人的压缩和加速能力而闻名。然而,当将全精度(FP)模型压缩到超低比特宽度(2~4位)时,精度下降是不可避免的。实验表明,量化的退化主要归因于激活的量化,而不是模型权重。在数值分析中,权重的条件数可以衡量输入参数的微小变化对输出值的影响程度,从而本质上反映量化误差。因此,我们提出了CondiQuant,一种基于条件数的低比特后训练量化方法用于图像超分辨率。具体来说,我们将量化误差表述为权重度量的条件数。通过解耦表示能力和量化敏感性,我们设计了一种高效的近端梯度下降算法,以迭代地最小化条件数并保持输出不变。通过全面的实验,我们证明了CondiQuant在精度上优于现有的最先进的后训练量化方法,而没有计算开销,并在模型参数上获得了理论上最佳的压缩比。我们的代码和模型已在此https URL发布。

[67] 关于神经BRDF:对最先进方法的全面比较
标题: On Neural BRDFs: A Thorough Comparison of State-of-the-Art Approaches
作者: Florian Hofherr / Bjoern Haefner / Daniel Cremers
原文:   [英文]  
备注: Published in IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) 2025
摘要:
双向反射分布函数(BRDF)是捕捉光与物质复杂交互的基本工具。最近,一些研究采用神经网络方法进行BRDF建模,策略各异,从利用现有的参数模型到纯粹的神经参数化。尽管所有方法都取得了令人印象深刻的结果,但文献中缺乏对不同方法的全面比较。在这项工作中,我们对几种方法进行了深入评估,包括定性和定量重建质量的结果,以及对互易性和能量守恒的分析。此外,我们提出了两个可以添加到现有方法中的扩展:一种新的神经BRDF的加法组合策略,将反射分为漫反射和镜面反射部分,以及一种通过构造确保互易性精确的输入映射,而之前的方法仅通过软约束来确保互易性。

[68] 基于置信度的超声脑肿瘤标注
标题: Confidence-Based Annotation Of Brain Tumours In Ultrasound
作者: Alistair Weld / Luke Dixon / Alfie Roddan / Giulio Anichini / Sophie Camp / Stamatia Giannarou
原文:   [英文]   [中文]  
备注: None
摘要:
目的:研究在超声中对脑肿瘤进行离散分割标注的挑战,重点关注肿瘤边缘的偶然性不确定性问题,特别是对于弥漫性肿瘤。提出了一种分割协议和方法,该方法在减少主观性以降低标注者的认知不确定性的同时,结合了与边缘相关的不确定性。 方法:提出了一种基于计算机视觉和放射学理论设计的协议的稀疏置信度标注方法。 结果:使用所提出的方法生成的标注与观察者之间相应的专业离散标注差异进行了比较。在肿瘤边缘区域内测得线性关系,皮尔逊相关系数为0.8。探讨了下游应用,比较了使用置信标注作为软标签与使用最佳离散标注作为硬标签进行训练。在所有评估折中,软标签训练网络的Brier分数更优。 结论:构建了一个正式框架,以证明在B模式超声中对脑肿瘤进行离散标注的不可行性。随后,提出并评估了一种基于稀疏置信度的标注方法。 关键词:脑肿瘤,超声,置信度,标注。

[69] Q-PETR:用于多视角3D目标检测的量化感知位置嵌入变换
标题: Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection
作者: Jiangyong Yu / Changyong Shu / Dawei Yang / Zichen Yu / Xing Hu / Yan Chen
原文:   [英文]   [中文]  
备注: None
摘要:
基于PETR的方法在3D感知领域占据了主导地位,并且越来越成为现代自动驾驶系统中的关键组件。然而,当需要进行INT8推理时,其量化性能显著下降,在NuScenes数据集上的mAP下降了58.2%,NDS下降了36.9%。为了解决这个问题,我们提出了一种用于多视角3D目标检测的量化感知位置嵌入转换方法,称为Q-PETR。Q-PETR提供了一种对量化友好且易于部署的架构,同时保留了PETR的原始性能。它大大缩小了PETR系列方法在INT8和FP32推理之间的精度差距。在标准的每张量8位后训练量化下,我们的方法将mAP和NDS的下降幅度减少到1%以内。此外,我们的方法在浮点精度方面超过了原始PETR的性能。大量针对各种PETR系列模型的实验表明了其广泛的泛化能力。

[70] 基于图像和4D雷达频谱的深度感知融合方法用于3D目标检测
标题: Depth-aware Fusion Method based on Image and 4D Radar Spectrum for 3D Object Detection
作者: Yue Sun / Yeqiang Qian / Chunxiang Wang / Ming Yang
原文:   [英文]   [中文]  
备注: None
摘要:
安全性和可靠性对于公众接受自动驾驶至关重要。为了确保准确和可靠的环境感知,智能车辆必须在各种环境中表现出精确性和稳健性。毫米波雷达以其高穿透能力著称,能够在雨、雪、雾等恶劣天气条件下有效运行。传统的3D毫米波雷达只能为物体提供距离、多普勒和方位信息。尽管最近出现的4D毫米波雷达增加了仰角分辨率,但由于恒定虚警率(CFAR)操作,雷达点云仍然稀疏。相比之下,相机提供丰富的语义细节,但对光照和天气条件敏感。因此,本文利用这两种高度互补且具有成本效益的传感器:4D毫米波雷达和相机。通过将4D雷达频谱与深度感知相机图像相结合,并采用注意力机制,我们在鸟瞰图(BEV)视角中融合了纹理丰富的图像和深度丰富的雷达数据,从而增强了3D物体检测。此外,我们建议在没有深度传感器的情况下使用基于GAN的网络从雷达频谱生成深度图像,进一步提高检测精度。

[71] 使用RNN和Transformer估算道路车辆速度:一种基于视频的方法
标题: Estimating Vehicle Speed on Roadways Using RNNs and Transformers: A Video-based Approach
作者: Sai Krishna Reddy Mareddy / Dhanush Upplapati / Dhanush Kumar Antharam
原文:   [英文]   [中文]  
备注: None
摘要:
本项目探讨了高级机器学习模型的应用,特别是长短期记忆网络(LSTM)、门控循环单元(GRU)和Transformer,在使用视频数据进行车辆速度估计任务中的应用。传统的速度估计方法,如雷达和手动系统,通常受到高成本、覆盖范围有限和潜在干扰的限制。相比之下,利用现有的监控基础设施和最先进的神经网络架构提供了一种非侵入性、可扩展的解决方案。我们的方法利用LSTM和GRU有效管理视频帧时间序列中的长期依赖关系,而Transformer则通过其自注意力机制来处理整个序列,并专注于数据中最具信息量的部分。研究表明,由于其先进的门控机制,LSTM和GRU均优于基本的循环神经网络(RNN)。此外,增加输入数据的序列长度会持续提高模型的准确性,突显了在动态环境中上下文信息的重要性。特别是Transformer在不同序列长度和复杂性上表现出卓越的适应性和鲁棒性,使其非常适合于多样化交通条件下的实时应用。研究结果表明,整合这些复杂的神经网络模型可以显著提高自动速度检测系统的准确性和可靠性,从而有望革新交通管理和道路安全。

[72] 弥合视觉语言模型(VLM)评估差距的框架:实现可扩展且具成本效益的基准生成
标题: Bridging vision language model (VLM) evaluation gaps with a framework for scalable and cost-effective benchmark generation
作者: Tim Rädsch / Leon Mayer / Simon Pavicic / A. Emre Kavur / Marcel Knopp / Barış Öztürk / Klaus Maier-Hein / Paul F. Jaeger / Fabian Isensee / Annika Reinke / Lena Maier-Hein
原文:   [英文]   [中文]  
备注: None
摘要:
对AI模型进行可靠评估对于科学进步和实际应用至关重要。虽然现有的视觉语言模型(VLM)基准测试提供了对模型能力的一般性见解,但其异质设计和对少数成像领域的有限关注对跨领域性能比较和针对特定领域的评估构成了重大挑战。为了解决这个问题,我们提出了三个关键贡献:(1)一个资源高效的框架,用于通过任务扩展从单个现有任务创建多个多样化任务,从而创建特定领域的VLM基准;(2)发布了七个领域的新VLM基准,这些基准是根据相同的统一协议创建的,并包括162,946个经过彻底人工验证的答案;(3)对22个最先进的VLM进行了广泛的基准测试,总共涉及37,171个任务,揭示了跨领域和任务的性能差异,从而支持了定制VLM基准的必要性。采用我们的方法将为资源高效的领域特定模型选择铺平道路,并指导未来的研究工作以解决核心开放问题。

[73] WorldCraft:通过大型语言模型代理实现照片级真实感的3D世界创建和定制
标题: WorldCraft: Photo-Realistic 3D World Creation and Customization via LLM Agents
作者: Xinhang Liu / Chi-Keung Tang / Yu-Wing Tai
原文:   [英文]   [中文]  
备注: None
摘要:
构建逼真的虚拟世界在各个领域都有应用,但通常需要高技能专业人员花费大量精力来操作传统的3D建模软件。为了使这一过程更加大众化,我们引入了WorldCraft系统,其中大型语言模型(LLM)代理利用程序生成技术创建室内和室外场景,这些场景中充满了各种对象,用户可以使用直观的自然语言命令来控制单个对象的属性和场景布局。在我们的框架中,一个协调代理管理整个过程,并与两个专门的LLM代理合作完成场景创建:ForgeIt,通过自动验证集成不断增长的手册,以实现对单个对象的精确定制;ArrangeIt,制定分层优化问题,以实现符合人体工程学和美学考虑的布局。此外,我们的流程中还包含一个轨迹控制代理,允许用户通过自然语言交互来动画化场景和操作摄像机。我们的系统还兼容现成的深度3D生成器,以丰富场景资产。通过评估和与最先进方法的比较,我们展示了WorldCraft的多功能性,从单个对象的定制到复杂的大规模室内和室外场景设计。该系统使非专业人士能够实现他们的创意愿景。

[74] 使用脚步引起的地板振动在异构地板结构上进行持续的人体识别
标题: Continual Person Identification using Footstep-Induced Floor Vibrations on Heterogeneous Floor Structures
作者: Yiwen Dong / Hae Young Noh
原文:   [英文]   [中文]  
备注: None
摘要:
人员识别对于智能建筑提供个性化服务(如健康监测、活动跟踪和人员管理)非常重要。然而,以往的人员识别依赖于从每个人那里预先收集的数据,这在许多建筑和公共设施中是不切实际的,因为这些地方通常会有访客。这就需要一个能够逐步学习人们身份的持续人员识别系统。现有研究使用摄像头来实现这一目标,但它们需要直接的视线,并且在公共场合引发了隐私问题。其他方式如可穿戴设备和压力垫则受限于设备携带或密集部署的要求。因此,先前的研究引入了步态引起的结构振动感应,这种方法是非侵入性的,并被认为更具隐私友好性。然而,这种方法面临一个重大挑战:由于结构异质性和人类步态变化导致的振动数据高度可变性,这使得在线人员识别算法表现不佳。在本文中,我们对步态引起的结构振动数据的可变性进行了表征,以实现准确的在线人员识别。为此,我们量化并分解了不同来源的可变性,然后设计了一种特征变换函数,以减少每个人数据中的可变性,使不同人的数据更易于区分。我们通过对20人的现场实验评估了我们的方法。结果显示,可变性减少了70%,在线人员识别的准确率达到了90%。

[75] 仅使用RGB的高斯散点SLAM用于无限户外场景
标题: RGB-Only Gaussian Splatting SLAM for Unbounded Outdoor Scenes
作者: Sicheng Yu / Chong Cheng / Yifan Zhou / Xiaojun Yang / Hao Wang
原文:   [英文]   [中文]  
备注: ICRA 2025
摘要:
3D Gaussian Splatting(3DGS)在SLAM中已成为一种流行的解决方案,因为它可以生成高保真的新视图。然而,以往基于GS的方法主要针对室内场景,并依赖于RGB-D传感器或预训练的深度估计模型,因此在室外场景中表现不佳。为了解决这个问题,我们提出了一种仅使用RGB的高斯散点SLAM方法,适用于无限制的室外场景——OpenGS-SLAM。在技术上,我们首先采用一个点图回归网络来生成帧间一致的点图用于位姿估计。与常用的深度图相比,点图包含了多视图的空间关系和场景几何信息,从而实现稳健的相机位姿估计。然后,我们提出将估计的相机位姿与3DGS渲染集成为一个端到端可微分的管道。我们的方法实现了相机位姿和3DGS场景参数的同时优化,显著提高了系统的跟踪精度。具体来说,我们还设计了一个自适应尺度映射器用于点图回归网络,以提供更准确的点图到3DGS地图表示的映射。我们在Waymo数据集上的实验表明,OpenGS-SLAM将跟踪误差降低到以往3DGS方法的9.8\%,并在新视图合成中达到了最先进的结果。项目页面:this https URL

[76] Para-Lane:用于基准测试新视图合成的多车道数据集并行扫描注册
标题: Para-Lane: Multi-Lane Dataset Registering Parallel Scans for Benchmarking Novel View Synthesis
作者: Ziqian Ni / Sicong Du / Zhenghua Hou / Chenming Wu / Sheng Yang
原文:   [英文]   [中文]  
备注: None
摘要:
为了评估端到端的自动驾驶系统,基于新视图合成(NVS)技术的仿真环境是必不可少的,该技术可以在新的车辆姿态下,从先前记录的序列中合成逼真的图像和点云,特别是在跨车道场景中。因此,开发一个多车道数据集和基准是必要的。尽管最近基于合成场景的NVS数据集已为跨车道基准测试做好准备,但它们仍然缺乏捕获图像和点云的真实感。为了进一步评估基于NeRF和3DGS的现有方法的性能,我们提出了第一个多车道数据集,该数据集专门为新驾驶视图合成数据集注册了平行扫描,源自真实世界的扫描,包含25组相关序列,包括16,000张前视图图像、64,000张环视图图像和16,000帧LiDAR数据。所有帧都被标记以区分移动物体和静态元素。利用该数据集,我们在不同车道和距离的各种测试场景中评估现有方法的性能。此外,我们的方法提供了解决和评估多传感器姿态质量的解决方案,以实现多模态数据对齐,从而在现实世界中策划这样的数据集。我们计划不断添加新序列,以测试现有方法在不同场景中的泛化能力。数据集已在项目页面公开发布:this https URL。

[77] VaViM和VaVAM:通过视频生成建模实现自动驾驶
标题: VaViM and VaVAM: Autonomous Driving through Video Generative Modeling
作者: Florent Bartoccioni / Elias Ramzi / Victor Besnier / Shashanka Venkataramanan / Tuan-Hung Vu / Yihong Xu / Loick Chambon / Spyros Gidaris / Serkan Odabas / David Hurych / Renaud Marlet / Alexandre Boulch / Mickael Chen / Éloi Zablocki / Andrei Bursuc / Eduardo Valle / Matthieu Cord
原文:   [英文]   [中文]  
备注: Code and model: this https URL, project page: this https URL
摘要:
我们探讨了大规模生成视频模型在自动驾驶中的潜力,介绍了一种开源的自回归视频模型(VaViM)及其配套的视频动作模型(VaVAM),以研究视频预训练如何转移到现实世界的驾驶中。VaViM 是一个简单的自回归视频模型,通过时空标记序列预测帧。我们展示了它能够捕捉驾驶场景的语义和动态。视频动作模型 VaVAM 利用 VaViM 学到的表示,通过模仿学习生成驾驶轨迹。两个模型共同构成了一个完整的感知到行动的管道。我们在开放和闭环驾驶场景中评估了我们的模型,揭示了基于视频的预训练在自动驾驶中的前景。关键见解包括学到的表示的语义丰富性、视频合成的规模效益,以及在闭环评估中模型大小、数据和安全指标之间的复杂关系。我们在此 https URL 发布代码和模型权重。

[78] ELIP:用于图像检索的增强型视觉-语言基础模型
标题: ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval
作者: Guanqi Zhan / Yuanpei Liu / Kai Han / Weidi Xie / Andrew Zisserman
原文:   [英文]   [中文]  
备注: None
摘要:
本文的目标是提高文本到图像检索的性能。为此,我们引入了一个新的框架,可以提升大规模预训练视觉-语言模型的性能,使其可以用于文本到图像的重新排序。该方法称为增强语言-图像预训练(ELIP),利用文本查询来预测一组视觉提示,以调节ViT图像编码。ELIP可以轻松应用于常用的CLIP/SigLIP和最先进的BLIP-2架构。为了在有限的计算资源下训练该架构,我们开发了一种“学生友好”的最佳实践,包括全局困难样本挖掘,以及大规模数据集的选择和策划。在评估方面,我们建立了两个新的分布外基准,遮挡的COCO和ImageNet-R,以评估模型在不同领域的零样本泛化能力。得益于新颖的架构和数据策划,实验表明,我们增强的网络显著提升了CLIP/SigLIP的性能,并在文本到图像检索中超越了最先进的BLIP-2模型。