![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年4月24日更新论文65篇
|
[1] 音频和多尺度视觉线索驱动的跨模态变换器用于空转车辆检测 标题: Audio and Multiscale Visual Cues Driven Cross-modal Transformer for Idling Vehicle Detection 作者: Xiwen Li / Ross Whitaker / Tolga Tasdizen 原文: [英文] [中文] 备注: None 摘要: 怠速车辆检测(IVD)支持实时系统,通过动态向驾驶员发送信息来减少污染和排放,从而抑制过度怠速行为。在计算机视觉领域,IVD已成为一项新兴任务,它利用监控摄像头的视频和远程麦克风的音频来定位和分类每一帧中的车辆为移动、怠速或引擎关闭。与其他跨模态任务一样,关键挑战在于建模音频和视觉模态之间的对应关系,这两者在表示上有所不同但提供互补的线索——视频提供空间和运动背景,而音频传达超出视觉范围的引擎活动。之前的端到端模型使用基本的注意力机制,难以有效地对齐这些模态,常常漏掉车辆检测。为了解决这个问题,我们提出了AVIVDNetv2,这是一种基于变压器的端到端检测网络。它结合了具有全局补丁级学习的跨模态变压器、多尺度视觉特征融合模块和解耦检测头。大量实验表明,AVIVDNetv2在mAP上比分离基线提高了7.66,比E2E基线提高了9.42,并在所有车辆类别中实现了持续的AP增益。此外,AVIVDNetv2在发声物体定位方面优于最先进的方法,在AVIVD数据集上建立了新的性能基准。 |
[2] 塑造你的地面:超越平面表示的道路表面精细化 标题: Shape Your Ground: Refining Road Surfaces Beyond Planar Representations 作者: Oussema Dhaouadi / Johannes Meier / Jacques Kaiser / Daniel Cremers 原文: [英文] [中文] 备注: None 摘要: 从航拍图像中重建道路表面是自动驾驶、城市规划和虚拟仿真中的基础工作,其中平滑性、紧凑性和准确性是关键的质量因素。现有的重建方法常常产生限制可用性的伪影和不一致性,而下游任务倾向于将道路简化为平面,但这会牺牲准确性。我们介绍了FlexRoad,这是第一个通过将非均匀有理B样条(NURBS)曲面拟合到从摄影测量重建或地理数据提供商获得的3D道路点来直接解决道路表面平滑问题的框架。我们的方法核心利用了高程约束空间道路聚类(ECSRC)算法进行稳健的异常校正,显著减少了表面粗糙度和拟合误差。为了促进道路表面重建方法的定量比较,我们提出了GeoRoad数据集(GeRoD),这是一个从公开可访问的地理数据中提取的多样化道路表面和地形剖面集合。在GeRoD和基于摄影测量的DeepScenario开放3D数据集(DSC3D)上的实验表明,FlexRoad在各种指标上显著超越了常用的道路表面表示,同时对各种输入源、地形和噪声类型不敏感。通过进行消融研究,我们识别出每个组件在高质量重建性能中的关键作用,使FlexRoad成为现实道路表面建模的通用方法。 |
[3] 基于持久性的霍夫变换用于线检测 标题: Persistence-based Hough Transform for Line Detection 作者: Johannes Ferner / Stefan Huber / Saverio Messineo / Angel Pop / Martin Uray 原文: [英文] 备注: Accepted at iDSC'25, Salzburg, Austria 摘要: 霍夫变换是一种流行且经典的计算机视觉技术,用于检测线条(或更一般的对象)。它将像素映射到一个双空间——霍夫空间:每个像素被映射到通过该像素的线的集合,这在霍夫空间中形成一条曲线。线条的检测因此变成了一个投票过程,以找到那些获得许多像素投票的线。然而,这种投票是通过阈值处理完成的,容易受到噪声和其他伪影的影响。在这项工作中,我们提出了一种基于持久同调的替代投票技术,以检测霍夫空间中的峰值,这种方法自然地解决了简单阈值处理的局限性。对合成数据的实验表明,我们的方法显著优于原始方法,同时也展示了增强的鲁棒性。这项工作旨在激发未来研究的两个关键方向。首先,我们强调拓扑数据分析技术的未开发潜力,并倡导将其更广泛地整合到现有方法中,包括那些已经成熟的方法。其次,我们发起了关于霍夫变换数学稳定性的讨论,鼓励探索基于数学的改进,以增强其鲁棒性。 |
[4] 上下文感知和罕见事件的可解释性:关键故障模式的发现与形式化 标题: Context-Awareness and Interpretability of Rare Occurrences for Discovery and Formalization of Critical Failure Modes 作者: Sridevi Polavaram / Xin Zhou / Meenu Ravi / Mohammad Zarei / Anmol Srivastava 原文: [英文] [中文] 备注: Accepted to IEEE Conference for Artificial Intelligence, 2025 摘要: 视觉系统在监控、执法和交通等关键领域的应用日益增多。然而,它们在罕见或不可预见场景下的脆弱性带来了显著的安全风险。为应对这些挑战,我们引入了罕见事件的上下文感知和可解释性(CAIRO),这是一种基于本体的人机协作发现框架,用于检测和形式化失败案例(或称为关键现象,CP)。CAIRO 的设计鼓励人机交互,以测试和评估因误检、对抗性攻击和 AI 黑箱模型中的幻觉而引发的关键性。我们对自动驾驶系统(ADS)中目标检测模型失败的深入分析展示了在相机感知与现实世界上下文之间观察到的差距进行形式化的可扩展和可解释的方法,最终将测试案例存储为显式知识图(以 OWL/XML 格式),便于共享、下游分析、逻辑推理和问责。 |
[5] MonoTher-Depth:通过置信度感知蒸馏增强热深度估计 标题: MonoTher-Depth: Enhancing Thermal Depth Estimation via Confidence-Aware Distillation 作者: Xingxing Zuo / Nikhil Ranganathan / Connor Lee / Georgia Gkioxari / Soon-Jo Chung 原文: [英文] [中文] 备注: 8 Pages; The code will be available at this https URL 摘要: 从热成像单目深度估计(MDE)是机器人系统在雾、烟和低光等恶劣条件下操作的关键技术。与受益于数百万张多样场景图像数据集的基础RGB MDE模型相比,标记热数据的有限性限制了热MDE模型的泛化能力。为了解决这一挑战,我们引入了一种新颖的流程,通过从多功能RGB MDE模型进行知识蒸馏来增强热MDE。我们的方法具有一种置信度感知的蒸馏方法,该方法利用RGB MDE预测的置信度来有选择地加强热MDE模型,利用RGB模型的优势同时减轻其弱点。我们的方法显著提高了热MDE的准确性,与标记深度监督的可用性无关,并大大扩展了其在新场景中的适用性。在我们对没有标记深度的新场景的实验中,所提出的置信度感知蒸馏方法将热MDE的绝对相对误差比没有蒸馏的基线减少了22.88%。 |
[6] 通过注意力和对数蒸馏进行混合知识转移以用于农业物联网中的设备端视觉系统 标题: Hybrid Knowledge Transfer through Attention and Logit Distillation for On-Device Vision Systems in Agricultural IoT 作者: Stanley Mugisha / Rashid Kisitu / Florence Tushabe 原文: [英文] [中文] 备注: 12 pages and 4 figures 摘要: 将深度学习应用整合到农业物联网系统中面临着一个严峻的挑战,即在资源受限的边缘设备上平衡Vision Transformers (ViTs)的高精度与效率需求。像Swin Transformers这样的大型变换器模型在通过捕捉全局-局部依赖关系进行植物病害分类方面表现出色。然而,其计算复杂度(34.1 GFLOPs)限制了应用,使其在设备上进行实时推理变得不切实际。轻量级模型如MobileNetV3和TinyML适合设备上的推理,但缺乏进行细粒度病害检测所需的空间推理能力。为弥合这一差距,我们提出了一种混合知识蒸馏框架,该框架协同地将Swin Transformer教师模型的logit和注意力知识转移到MobileNetV3学生模型中。我们的方法包括引入自适应注意力对齐以解决跨架构不匹配(分辨率、通道)问题,并采用双重损失函数优化类别概率和空间聚焦。在lantVillage-Tomato数据集(18,160张图像)上,蒸馏后的MobileNetV3相对于Swin-L的95.9%精度达到了92.4%,但在PC上减少了95%的计算量,并在物联网设备上的推理延迟减少了82%以下。(在PC CPU上为23ms,在智能手机CPU上为86ms/图像)。关键创新包括以物联网为中心的验证指标(13 MB内存,0.22 GFLOPs)和动态分辨率匹配的注意力图。比较实验显示,与独立的CNN和先前的蒸馏方法相比,精度显著提高,相对于MobileNetV3基线提高了3.5%。显著的是,这项工作推进了精准农业中实时、节能的作物监测,并展示了如何在边缘设备上实现ViT级别的诊断精度。代码和模型将在接受后提供以供复现。 |
[7] 多模态大型语言模型在提升交通安全中的应用:综合评述与未来趋势 标题: Multimodal Large Language Models for Enhanced Traffic Safety: A Comprehensive Review and Future Trends 作者: Mohammad Abu Tami / Mohammed Elhenawy / Huthaifa I. Ashqar 原文: [英文] 备注: None 摘要: 交通安全仍然是一个全球性的关键挑战,传统的高级驾驶辅助系统(ADAS)在动态的现实场景中常常因传感器处理的碎片化和对对抗性条件的敏感性而表现不佳。本文回顾了多模态大型语言模型(MLLMs)在解决这些限制方面的变革潜力,通过整合视觉、空间和环境输入等跨模态数据,实现整体场景理解。通过对基于MLLM的方法的全面分析,我们强调了它们在增强感知、决策和对抗性鲁棒性方面的能力,同时也探讨了关键数据集(如KITTI、DRAMA、ML4RoadSafety)在推动研究中的作用。此外,我们概述了未来的发展方向,包括实时边缘部署、基于因果关系的推理和人机协作。通过将MLLMs定位为下一代交通安全系统的基石,这篇综述强调了它们在革新该领域的潜力,提供可扩展的、上下文感知的解决方案,主动降低风险并改善整体道路安全。 |
[8] 渐进式语言引导的视觉学习用于多任务视觉定位 标题: Progressive Language-guided Visual Learning for Multi-Task Visual Grounding 作者: Jingchao Wang / Hong Wang / Wenlong Zhang / Kunhua Ji / Dingjiang Huang / Yefeng Zheng 原文: [英文] [中文] 备注: None 摘要: 多任务视觉定位(MTVG)包括两个子任务,即指代表达理解(REC)和指代表达分割(RES)。现有的代表性方法通常遵循一个研究流程,该流程主要由三个核心步骤组成,包括分别为视觉和语言模态进行独立特征提取、跨模态交互模块以及针对不同子任务的独立预测头。尽管取得了显著的性能,这一研究方向存在两个局限性:1)语言内容没有被充分注入到整个视觉骨干中,以促进更有效的视觉特征提取,并且需要额外的跨模态交互模块;2)REC和RES任务之间的关系没有被有效利用,以帮助协同预测以获得更准确的输出。为了解决这些问题,本文提出了一种用于多任务视觉定位的渐进式语言引导视觉学习框架,称为PLVL,该框架不仅细致地挖掘视觉模态本身的固有特征表达,还逐步注入语言信息以帮助学习与语言相关的视觉特征。通过这种方式,我们的PLVL不需要额外的跨模态融合模块,同时充分引入了语言引导。此外,我们分析认为,REC的定位中心在某种程度上有助于识别RES的待分割对象区域。受此研究启发,我们设计了一个多任务头来完成这两个子任务的协同预测。在多个基准数据集上进行的大量实验全面证实,我们的PLVL在REC和RES任务中明显优于代表性方法。 |
[9] 通过拓扑特征对冰川积雪数据进行分类 标题: Classification of Firn Data via Topological Features 作者: Sarah Day / Jesse Dimino / Matt Jester / Kaitlin Keegan / Thomas Weighill 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们评估了拓扑特征在冰粒图像数据的可推广和稳健分类中的表现,其更广泛的目标是理解拓扑特征化的优势、缺陷和权衡。冰粒是指冰川中尚未压缩成冰的颗粒状雪层。这一压缩过程在冰粒中施加了随深度变化的独特拓扑和几何结构,使得拓扑数据分析(TDA)成为理解深度与结构之间联系的自然选择。我们使用两类拓扑特征:子水平集特征和距离变换特征,结合持久性曲线,从微CT图像中预测样本深度。一系列具有挑战性的训练-测试场景表明,没有一种方法在所有类别中占据主导地位,并揭示了准确性、可解释性和可推广性之间的复杂权衡关系。 |
[10] 一种检测任务特定的深度学习方法以提高稀疏视图心肌灌注SPECT图像的质量 标题: A detection-task-specific deep-learning method to improve the quality of sparse-view myocardial perfusion SPECT images 作者: Zezhang Yang / Zitong Yu / Nuri Choi / Abhinav K. Jha 原文: [英文] [中文] 备注: None 摘要: 心肌灌注成像(MPI)结合单光子发射计算机断层扫描(SPECT)是一种广泛使用且具有成本效益的冠状动脉疾病诊断工具。然而,在这一成像过程中,较长的扫描时间可能导致患者不适、运动伪影,以及由于SPECT扫描与用于衰减补偿的CT扫描之间的不对齐而导致的潜在不准确诊断。减少投影角度是缩短扫描时间的一种潜在方法,但这可能会对重建图像的质量产生不利影响。为了解决这个问题,我们提出了一种针对稀疏视角MPI SPECT图像的检测任务特定的深度学习方法。该方法整合了一个观察者损失项,该项惩罚类人通道特征的丢失,旨在提高灌注缺陷检测任务的性能。我们观察到,在检测心肌灌注缺陷的任务中,所提出的方法在接收者操作特征(ROC)曲线下面积(AUC)方面显著大于稀疏视角协议。此外,观察到该方法能够恢复左心室壁的结构,展示了克服稀疏采样伪影的能力。我们的初步结果激励了对该方法的进一步评估。 |
[11] CLIP-IT:基于CLIP的组织学图像分类配对 标题: CLIP-IT: CLIP-based Pairing for Histology Images Classification 作者: Banafsheh Karimian / Giulia Avanzato / Soufian Belharbi / Luke McCaffrey / Mohammadhadi Shateri / Eric Granger 原文: [英文] 备注: None 摘要: 多模态学习通过整合来自互补数据源的信息,在改善医学图像分析方面显示出显著的前景。这一方法广泛应用于基于组织学图像和文本报告的癌症检测视觉-语言模型(VLMs)的训练。然而,训练这些VLMs的主要限制之一是需要大量配对数据集,这引发了对隐私、数据收集、注释和维护成本的担忧。为了解决这一挑战,我们引入了CLIP-IT方法,通过将组织学图像与来自外部来源的特权文本信息配对,训练视觉主干模型以分类组织学图像。首先,模态配对步骤依赖于基于CLIP的模型,将组织学图像与来自外部来源的语义相关的文本报告数据匹配,创建一个增强的多模态数据集,而无需手动配对样本。然后,我们提出了一种多模态训练程序,将配对文本模态中的知识提炼到单模态图像分类器中,以提高性能,而在推理过程中无需文本数据。我们使用一种参数高效的微调方法来有效解决主要(图像)和配对(文本)模态之间的不对齐问题。在推理过程中,使用改进的单模态组织学分类器,仅需极少的额外计算复杂性。我们在具有挑战性的PCAM、CRC和BACH组织学图像数据集上的实验表明,CLIP-IT可以提供一种具有成本效益的方法来利用特权文本信息,并在组织学方面优于单模态分类器。 |
[12] DeepCS-TRD,一种基于深度学习的横截面年轮检测器 标题: DeepCS-TRD, a Deep Learning-based Cross-Section Tree Ring Detector 作者: Henry Marichal / Verónica Casaravilla / Candice Power / Karolain Mello / Joaquín Mazarino / Christine Lucas / Ludmila Profumo / Diego Passarella / Gregory Randall 原文: [英文] 备注: 12 pages, 6 figures. Accepted in ICIAP 2025 摘要: 在这篇论文中,我们提出了Deep CS-TRD,这是一种用于检测整个横截面树木年轮的新自动算法。它通过深度学习方法(U-Net)替代了CS-TRD的边缘检测步骤,使该方法能够应用于不同的图像领域:显微镜、扫描仪或智能手机获取的图像,以及不同的树种(火炬松、皂荚树和北极柳)。此外,我们向社区引入了两个公开可用的标注图像数据集。所提出的方法在宏观图像(火炬松和皂荚树)中优于现有的先进方法,而在北极柳的显微镜图像中表现略低。据我们所知,这是第一篇研究在如此不同的树种和采集条件下自动检测树木年轮的论文。数据集和源代码可通过此HTTPS URL获取。 |
[13] 在ResNet18的残差流中自然计算的尺度不变性 标题: Naturally Computed Scale Invariance in the Residual Stream of ResNet18 作者: André Longon 原文: [英文] [中文] 备注: None 摘要: 在视觉对象识别中,一个重要的能力是对那些改变图像但不改变对象身份的变量(如光照、旋转和尺度)的不变性。神经网络是如何实现这一点的呢?之前的机制可解释性研究揭示了InceptionV1中的一些构建不变性的电路,但结果有限,并且不同架构的网络仍然基本未被探索。本文研究了ResNet18,特别关注其残差流,这是InceptionV1所缺乏的一个架构组件。我们观察到中间块中的许多卷积通道表现出尺度不变性,这些是通过尺度等变表示的逐元素残差求和计算得出的:块输入的小尺度副本与块预和输出的大尺度副本。通过后续的消融实验,我们试图将这些神经特性与尺度稳健的对象识别行为进行因果关联。我们的初步发现表明残差流如何计算尺度不变性及其在行为中的可能作用。代码可在此网址获取:this https URL |
[14] MetaHarm:由领域专家、GPT-4-Turbo和众包工作者标注的有害YouTube视频数据集 标题: MetaHarm: Harmful YouTube Video Dataset Annotated by Domain Experts, GPT-4-Turbo, and Crowdworkers 作者: Wonjeong Jo / Magdalena Wojcieszak 原文: [英文] 备注: None 摘要: 短视频平台,如YouTube、Instagram或TikTok,被数十亿用户使用。这些平台让用户接触到有害内容,从标题党或身体伤害到仇恨或错误信息。然而,我们对短视频平台上的在线危害缺乏全面的理解和测量。为此,我们提出了两个大规模的多模态和多类别在线危害数据集:(1)60,906个系统选择的潜在有害YouTube视频和(2)19,422个由三类标注者标注的视频:经过培训的领域专家、GPT-4-Turbo(使用14个图像帧、1个缩略图和文本元数据)以及众包工人(Amazon Mechanical Turk的高级工人)。标注数据集包括(a)二元分类(有害与无害)和(b)六种危害类别的多标签分类:信息、仇恨和骚扰、成瘾、标题党、性和身体伤害。此外,标注数据集提供了(1)一致标注的真实数据,涵盖(a)所有三类标注者和(b)大多数标注者,以及(2)由个别标注者标注的三个数据子集。这些数据集有望促进未来关于在线危害的研究,帮助(多模态)分类工作,并推进视频平台上有害内容的识别和潜在缓解。 |
[15] SignX:手语识别的基础模型 标题: SignX: The Foundation Model for Sign Recognition 作者: Sen Fang / Chunyu Sui / Hongwei Yi / Carol Neidle / Dimitris N. Metaxas 原文: [英文] [中文] 备注: None 摘要: 手语数据处理的复杂性带来了许多挑战。目前的美式手语(ASL)识别方法旨在通过姿态信息将RGB手语视频翻译成基于英语的ID词汇,这些词汇用于唯一识别ASL手语。需要注意的是,没有统一的惯例来为ASL手语分配这些词汇,因此在所使用的数据集中,使用相同的词汇惯例是至关重要的。本文提出了SignX,一种用于手语识别的基础模型框架。这是一个简洁而强大的框架,适用于多种人体活动识别场景。首先,我们开发了一个基于逆扩散模型的Pose2Gloss组件,其中包含一个多轨姿态融合层,将五种最强大的姿态信息源——SMPLer-X、DWPose、Mediapipe、PrimeDepth和Sapiens Segmentation——统一为单一的潜在姿态表示。其次,我们训练了一个基于ViT的Video2Pose模块,可以直接将原始视频转换为手语者的姿态表示。通过这种两阶段训练框架,我们使手语识别模型能够兼容现有的姿态格式,为手语识别所需的通用姿态估计奠定了基础。实验结果表明,SignX能够从手语视频中识别手语,生成的预测词汇表示比以往的工作具有更高的准确性。 |
[16] 几乎正确:使第一层核接近正交以改善模型泛化 标题: Almost Right: Making First-layer Kernels Nearly Orthogonal Improves Model Generalization 作者: Colton R. Crum / Adam Czajka 原文: [英文] [中文] 备注: 8 pages, 1 figure, 3 tables 摘要: 在计算机视觉的多个领域中,一个持续的研究挑战是如何提高模型的泛化能力。许多尝试改善模型泛化性能的方法深受人类感知智能的启发,人类感知智能在泛化到未知样本方面的表现和效率都非常出色。许多这些方法试图使网络的某些部分正交,这一思路源于神经科学中与早期视觉过程相关的观察。在本文中,我们提出了一种损失组件,该组件对网络第一个卷积层中的滤波核进行正则化,使其接近正交。与以往的工作不同,我们赋予网络灵活性,让其选择哪些核对进行正交化,从而允许网络在更好的解决方案空间中导航,同时施加严格的惩罚。在不进行架构修改的情况下,我们报告了使用所提出的损失在泛化性能上相对于以往工作(包括正交化和显著性基础的正则化方法)的显著提升,测试了三种不同的架构(ResNet-50、DenseNet-121、ViT-b-16)以及两个困难的开放集识别任务:虹膜生物识别中的演示攻击检测和胸部X光图像中的异常检测。 |
[17] CLPSTNet:一种整合课程学习的渐进多尺度卷积隐写模型 标题: CLPSTNet: A Progressive Multi-Scale Convolutional Steganography Model Integrating Curriculum Learning 作者: Fengchun Liu / Tong Zhang / Chunying Zhang 原文: [英文] [中文] 备注: None 摘要: 近年来,大量研究将卷积神经网络(CNN)引入图像隐写术,将传统隐写方法(如手工特征和先验知识设计)转变为神经网络自主学习信息嵌入的隐写方法。然而,由于数字图像的固有复杂性,使用CNN模型进行信息嵌入时,隐蔽性和安全性问题仍然存在。在本文中,我们提出了课程学习渐进隐写网络(CLPSTNet)。该网络由多个渐进多尺度卷积模块组成,这些模块整合了Inception结构和膨胀卷积。模块包含多个分支路径,从较小的卷积核和膨胀率开始,从特征图中提取基本的局部特征信息,并逐渐扩展到具有较大卷积核和膨胀率的卷积,以感知较大感受野的特征信息,从而实现从浅到深、从精细到粗略的多尺度特征提取,使浅层的秘密信息特征在不同的融合阶段得到细化。实验结果表明,所提出的CLPSTNet在三个大型公共数据集ALASKA2、VOC2012和ImageNet上不仅具有较高的PSNR、SSIM指标和解码准确性,而且CLPSTNet生成的隐写图像具有较低的隐写分析性。您可以在\href{this https URL}{this https URL}找到我们的代码。 |
[18] 通过对比学习重新审视雷达与相机的对齐用于三维物体检测 标题: Revisiting Radar Camera Alignment by Contrastive Learning for 3D Object Detection 作者: Linhua Kong / Dongxia Chang / Lian Liu / Zisen Kong / Pengyuan Li / Yao Zhao 原文: [英文] [中文] 备注: None 摘要: 最近,基于雷达和摄像头融合的3D目标检测算法表现出色,为其在自动驾驶感知任务中的应用奠定了基础。现有方法主要集中在处理雷达和摄像头之间域差异导致的特征不对齐问题。然而,现有方法要么忽视了对齐过程中跨模态特征的交互,要么未能有效对齐跨模态在相同空间位置的特征。为了解决上述问题,我们提出了一种新的对齐模型,称为雷达摄像头对齐(RCAlign)。具体来说,我们设计了一个基于对比学习的双路对齐(DRA)模块,用于对齐和融合雷达和摄像头之间的特征。此外,考虑到雷达鸟瞰图(BEV)特征的稀疏性,我们提出了一个雷达特征增强(RFE)模块,通过知识蒸馏损失来提高雷达BEV特征的密集化。实验表明,RCAlign在公共nuScenes基准上的雷达摄像头融合3D目标检测中达到了新的最先进水平。此外,与最新的最先进方法(RCBEVDet)相比,RCAlign在实时3D检测中实现了显著的性能提升(4.3% NDS和8.4% mAP)。 |
[19] SaENeRF:抑制基于事件的神经辐射场中的伪影 标题: SaENeRF: Suppressing Artifacts in Event-based Neural Radiance Fields 作者: Yuanjian Wang / Yufei Deng / Rong Xiao / Jiahao Fan / Chenwei Tang / Deng Xiong / Jiancheng Lv 原文: [英文] [中文] 备注: Accepted by IJCNN 2025 摘要: 事件相机是一种神经形态视觉传感器,能够异步捕捉对数亮度变化,具有低延迟、低功耗、低带宽和高动态范围等显著优势。虽然这些特性使其在高速场景中表现出色,但从事件数据中重建几何一致和光度准确的三维表示仍然是一个根本性的挑战。目前基于事件的神经辐射场(NeRF)方法部分解决了这些挑战,但在早期阶段由于网络学习过于激进以及事件相机固有噪声导致的伪影问题仍然存在。为克服这些限制,我们提出了SaENeRF,这是一种新颖的自监督框架,能够有效抑制伪影,仅从事件流中实现静态场景的三维一致、密集和真实感的NeRF重建。我们的方法基于累积的事件极性来规范化预测的辐射变化,促进场景表示构建的渐进和快速学习。此外,我们引入了专门设计的正则化损失,以抑制光度变化低于事件阈值的区域中的伪影,同时增强非零事件的光强差异,从而提高重建场景的视觉逼真度。大量的定性和定量实验表明,与现有方法相比,我们的方法显著减少了伪影,并实现了更优的重建质量。代码可在此https URL获取。 |
[20] 评估基于互联网视频的自动牛跛行检测的可行性 标题: Assessing the Feasibility of Internet-Sourced Video for Automatic Cattle Lameness Detection 作者: Md Fahimuzzman Sohan 原文: [英文] [中文] 备注: None 摘要: 牛跛行通常由蹄部受伤或趾间皮炎引起,导致疼痛,并显著影响行走、进食和饮水等基本生理活动。本研究提出了一种基于深度学习的模型,利用公开可用的视频数据检测牛的跛行、疾病或步态异常。数据集由40头牛的50个独特视频组成,这些视频从不同角度在室内和室外环境中拍摄。数据集的一半代表自然行走(正常/非跛行)的牛,另一半则由表现出步态异常(跛行)的牛组成。为了增强模型的鲁棒性和泛化能力,对训练数据进行了数据增强处理。经过预处理的视频随后使用两种深度学习模型进行分类:ConvLSTM2D和3D CNN。结果的比较分析显示出强大的分类性能。具体而言,3D CNN模型实现了90%的视频级分类准确率,其精确率、召回率和f1分数分别为90.9%、90.9%和90.91%。ConvLSTM2D模型的准确率略低,为85%。本研究强调了直接应用分类模型从视频数据中学习时空特征的有效性,提供了一种替代传统多阶段方法的方案,这些传统方法通常涉及目标检测、姿态估计和特征提取。此外,研究结果表明,所提出的深度学习模型,特别是3D CNN,能够有效地分类和检测牛的跛行,同时简化了处理流程。 |
[21] PixelWeb:首个具有像素级标签的网页图形用户界面数据集 标题: PixelWeb: The First Web GUI Dataset with Pixel-Wise Labels 作者: Qi Yang / Weichen Bi / Haiyang Shen / Yaoqi Guo / Yun Ma 原文: [英文] [中文] 备注: None 摘要: 图形用户界面(GUI)数据集对于各种下游任务至关重要。然而,GUI 数据集通常通过自动标注生成注释信息,这通常导致不准确的 GUI 元素边界框(BBox)注释,包括缺失、重复或无意义的边界框。这些问题可能会降低在这些数据集上训练的模型的性能,限制其在实际应用中的有效性。此外,现有的 GUI 数据集仅在视觉上提供边界框注释,这限制了与视觉相关的 GUI 下游任务的发展。为了解决这些问题,我们引入了 PixelWeb,这是一个包含超过 100,000 个注释网页的大规模 GUI 数据集。PixelWeb 是通过一种新颖的自动注释方法构建的,该方法通过两个核心模块:通道推导和层分析,集成了视觉特征提取和文档对象模型(DOM)结构分析。通道推导通过提取 BGRA 四通道位图注释,确保在遮挡和重叠元素的情况下准确定位 GUI 元素。层分析使用 DOM 确定元素的可见性和堆叠顺序,提供精确的边界框注释。此外,PixelWeb 包括全面的元数据,如元素图像、轮廓和掩码注释。由三名独立注释者进行的人工验证确认了 PixelWeb 注释的高质量和准确性。在 GUI 元素检测任务上的实验结果表明,PixelWeb 在 mAP95 指标上的性能比现有数据集高出 3-7 倍。我们相信 PixelWeb 在 GUI 生成和自动化用户交互等下游任务的性能提升方面具有巨大潜力。 |
[22] FrogDogNet:用于CLIP在遥感领域泛化的傅里叶频率保留视觉提示输出指导 标题: FrogDogNet: Fourier frequency Retained visual prompt Output Guidance for Domain Generalization of CLIP in Remote Sensing 作者: Hariseetharam Gunduboina / Muhammad Haris Khan / Biplab Banerjee 原文: [英文] [中文] 备注: None 摘要: 近年来,像 CLIP 这样的大型视觉语言模型(VLMs)因其使用指令文本提示进行零样本推理而受到关注。虽然这些模型在一般计算机视觉中表现出色,但它们在遥感(RS)领域的领域泛化潜力仍未被充分探索。现有的方法通过生成视觉提示标记来增强提示学习,但依赖于全图像特征,这引入了噪声和背景伪影,这些在类内变化,导致误分类。为了解决这个问题,我们提出了 FrogDogNet,这是一种新颖的提示学习框架,结合了傅里叶频率过滤和自注意力机制,以改善 RS 场景分类和领域泛化。FrogDogNet 有选择地保留不变的低频成分,同时消除噪声和无关背景,确保跨领域的稳健特征表示。该模型首先通过投影和自注意力提取显著特征,然后应用基于频率的过滤以保留提示学习所需的基本结构信息。在四个 RS 数据集和三个领域泛化任务上的大量实验表明,FrogDogNet 始终优于最先进的提示学习方法,展示了在领域转移中的卓越适应性。我们的研究结果突出了基于频率的不变特征保留在泛化中的有效性,为更广泛的应用铺平了道路。我们的代码可在此 https URL 获取。 |
[23] 边缘化广义IoU (MGIoU):优化任意凸参数形状的统一目标函数 标题: Marginalized Generalized IoU (MGIoU): A Unified Objective Function for Optimizing Any Convex Parametric Shapes 作者: Duy-Tho Le / Trung Pham / Jianfei Cai / Hamid Rezatofighi 原文: [英文] [中文] 备注: 8 pages 摘要: 优化参数化形状之间的相似性对于众多计算机视觉任务至关重要,其中交并比(IoU)是标准的度量。然而,现有的优化方法存在显著缺陷:基于回归的损失如L1/L2与IoU缺乏相关性,基于IoU的损失不稳定且仅限于简单形状,任务特定的方法计算密集且无法在不同领域中泛化。因此,当前参数化形状目标函数的领域变得分散,每个领域都提出了不同的IoU近似。为了解决这个问题,我们通过引入边缘化广义IoU(MGIoU)统一参数化形状优化目标函数,这是一种新颖的损失函数,通过将结构化凸形状投影到其独特的形状法线来计算一维归一化GIoU,从而克服这些挑战。MGIoU提供了一种简单、高效、完全可微的近似,与IoU强相关。然后,我们将MGIoU扩展到MGIoU+,支持优化非结构化凸形状。MGIoU和MGIoU+共同统一了跨多个应用的参数化形状优化。在标准基准上的实验表明,MGIoU和MGIoU+始终优于现有损失,同时将损失计算延迟减少10-40倍。此外,MGIoU和MGIoU+满足度量属性和尺度不变性,确保作为目标函数的鲁棒性。我们进一步提出MGIoU-用于在无碰撞轨迹预测等任务中最小化重叠。代码可在此https URL获取。 |
[24] 用于图像去雨的跨范式表示与对齐转换器 标题: Cross Paradigm Representation and Alignment Transformer for Image Deraining 作者: Shun Zou / Yi Zou / Juncheng Li / Guangwei Gao / Guojun Qi 原文: [英文] 备注: code: this https URL 摘要: 基于Transformer的网络通过利用空间或通道自注意力机制在图像去雨等低级视觉任务中取得了强劲的性能。然而,不规则的雨水模式和复杂的几何重叠对单一范式架构提出了挑战,这需要一个统一的框架来整合互补的全局-局部和空间-通道表示。为此,我们提出了一种新颖的跨范式表示与对齐Transformer(CPRAformer)。其核心思想是分层表示与对齐,利用两种范式(空间-通道和全局-局部)的优势来辅助图像重建。它在范式内部和之间架起桥梁,对齐并协调它们,以实现特征的深度交互和融合。具体来说,我们在Transformer模块中使用了两种类型的自注意力:稀疏提示通道自注意力(SPC-SA)和空间像素细化自注意力(SPR-SA)。SPC-SA通过动态稀疏性增强全局通道依赖性,而SPR-SA则专注于空间雨水分布和细粒度纹理恢复。为了解决它们之间的特征错位和知识差异,我们引入了自适应对齐频率模块(AAFM),该模块以两阶段渐进的方式对齐和交互特征,实现自适应引导和互补性。这减少了范式内部和之间的信息差距。通过这个统一的跨范式动态交互框架,我们实现了从两种范式中提取最有价值的交互融合信息。大量实验表明,我们的模型在八个基准数据集上达到了最先进的性能,并进一步验证了CPRAformer在其他图像修复任务和下游应用中的鲁棒性。 |
[25] MTSGL:用于鲁棒和可解释的SAR飞机识别的多任务结构引导学习 标题: MTSGL: Multi-Task Structure Guided Learning for Robust and Interpretable SAR Aircraft Recognition 作者: Qishan He / Lingjun Zhao / Ru Luo / Siqian Zhang / Lin Lei / Kefeng Ji / Gangyao Kuang 原文: [英文] [中文] 备注: None 摘要: 合成孔径雷达(SAR)图像中的飞机识别在军事和民用应用中都是一项基本任务。最近,深度学习(DL)因其在提取判别特征方面的出色表现而成为一种主导范式。然而,当前的分类算法主要集中在学习决策超平面上,而对飞机结构知识的理解不足。受光学遥感图像(RSI)精细飞机标注方法的启发,我们首次引入了一种基于结构的SAR飞机标注方法,以提供结构和组成的补充信息。在此基础上,我们提出了一种多任务结构引导学习(MTSGL)网络,用于稳健且可解释的SAR飞机识别。除了分类任务外,MTSGL还包括一个结构语义感知(SSA)模块和一个结构一致性正则化(SCR)模块。SSA旨在捕捉结构语义信息,有助于获得类似人类对飞机知识的理解。SCR有助于保持SAR图像中飞机结构与所提标注之间的几何一致性。在此过程中,结构属性可以以几何上有意义的方式解耦。总之,MTSGL结合了专家级的飞机先验知识和结构引导学习范式,旨在以类似于人类认知过程的方式理解飞机概念。在一个自建的多任务SAR飞机识别数据集(MT-SARD)上进行了广泛的实验,实验结果有效地展示了所提出的MTSGL在稳健性和解释能力方面的优越性。 |
[26] 通过增强的多存储特征记忆进行RGB-D视频对象分割 标题: RGB-D Video Object Segmentation via Enhanced Multi-store Feature Memory 作者: Boyue Xu / Ruichao Hou / Tongwei Ren / Gangshan Wu 原文: [英文] [中文] 备注: None 摘要: RGB-深度(RGB-D)视频对象分割(VOS)旨在结合RGB的细粒度纹理信息与深度模态的空间几何线索,以提升分割性能。然而,现成的RGB-D分割方法未能充分挖掘跨模态信息,并在长期预测中出现对象漂移问题。在本文中,我们提出了一种通过多存储特征记忆实现稳健分割的新型RGB-D VOS方法。具体而言,我们设计了分层模态选择与融合,自适应地结合来自两种模态的特征。此外,我们开发了一个分割优化模块,该模块有效利用“分割任何东西模型”(SAM)来优化分割掩码,确保更可靠的结果作为记忆来指导后续的分割任务。通过利用时空嵌入和模态嵌入,混合提示和融合图像被输入到SAM中,以释放其在RGB-D VOS中的潜力。实验结果表明,该方法在最新的RGB-D VOS基准上达到了最先进的性能。 |
[27] 重新思考可推广的红外小目标检测:一个真实场景基准和跨视角表示学习 标题: Rethinking Generalizable Infrared Small Target Detection: A Real-scene Benchmark and Cross-view Representation Learning 作者: Yahao Lu / Yuehui Li / Xingyuan Guo / Shuai Yuan / Yukai Shi / Liang Lin 原文: [英文] [中文] 备注: A benchmark associated with real-world scenes for the Infrared Small Target Detection (ISTD) is presented 摘要: 红外小目标检测(ISTD)对传感器类型、观测条件以及目标的内在属性高度敏感。这些因素可能导致获取的红外图像数据分布出现显著变化,这种现象被称为域偏移。这种分布差异显著阻碍了ISTD模型在不同场景中的泛化能力。为了解决这一挑战,本文引入了一种通过域适应增强的ISTD框架。为了缓解数据集之间的分布偏移并实现跨样本对齐,我们引入了跨视图通道对齐(CCA)。此外,我们提出了跨视图Top-K融合策略,该策略将目标信息与多样化的背景特征相结合,增强了模型提取关键数据特征的能力。为了进一步减轻噪声对ISTD的影响,我们开发了一种噪声引导表示学习策略。该方法使模型能够学习更具抗噪性的特征表示,从而提高其在不同噪声域中的泛化能力。最后,我们开发了一个专门的红外小目标数据集,RealScene-ISTD。与最先进的方法相比,我们的方法在检测概率(Pd)、误报率(Fa)和交并比(IoU)方面表现出色。代码可在此https URL获取。 |
[28] PRaDA:投影径向畸变平均 标题: PRaDA: Projective Radial Distortion Averaging 作者: Daniil Sinitsyn / Linus Härenstam-Nielsen / Daniel Cremers 原文: [英文] 备注: Accepted at CVPR 2025. 8 pages + references 摘要: 我们解决了在具有挑战性条件下径向畸变相机的自动校准问题。准确确定畸变参数通常需要:1)解决涉及相机姿态、3D点和畸变参数的完整运动结构(SfM)问题,这只有在提供了许多具有足够重叠的图像时才可能,或2)严重依赖于相对不太准确的基于学习的方法。在这项工作中,我们展示了畸变校准可以与3D重建解耦,保持基于SfM方法的准确性,同时避免许多相关的复杂性。这是通过在射影空间中工作实现的,在射影空间中,几何形状在一个单应性上是唯一的,该单应性封装了除畸变之外的所有相机参数。我们提出的方法,射影径向畸变平均,在一个完全射影的框架中平均多个畸变估计,而无需创建3D点和完整的束调整。通过依赖成对的射影关系,我们的方法支持任何特征匹配方法,而无需在多张图像中构建点轨迹。 |
[29] TraveLLaMA:促进多模态大型语言模型理解城市场景并提供旅行协助 标题: TraveLLaMA: Facilitating Multi-modal Large Language Models to Understand Urban Scenes and Provide Travel Assistance 作者: Meng Chu / Yukang Chen / Haokun Gui / Shaozuo Yu / Yi Wang / Jiaya Jia 原文: [英文] [中文] 备注: None 摘要: 旅游和旅行规划越来越依赖于数字化辅助,但现有的多模态人工智能系统往往缺乏对城市环境的专业知识和上下文理解。我们提出了TraveLLaMA,这是一种专为城市场景理解和旅行辅助设计的多模态语言模型。我们的工作通过一个包含22万对问答的大规模新型数据集,解决了开发实用的AI旅行助手的基本挑战。这个综合数据集独特地结合了从真实旅行论坛精心策划的13万对文本问答对,并通过GPT增强了响应,此外还有9万对专注于地图理解和场景理解的视觉语言问答对。通过对最先进的视觉语言模型(LLaVA、Qwen-VL、Shikra)进行广泛的微调实验,我们展示了在纯文本旅行理解和视觉问答任务中显著的性能提升,范围从6.5%到9.4%。我们的模型在提供上下文旅行推荐、解释地图位置和理解特定地点图像方面表现出卓越的能力,同时提供实用信息,如营业时间和游客评论。比较评估显示,TraveLLaMA在旅行特定任务中显著优于通用模型,建立了多模态旅行辅助系统的新基准。 |
[30] 在边缘设备中具有可扩展精度和计算复杂度的低秩一次性图像检测模型的联邦学习 标题: Federated Learning of Low-Rank One-Shot Image Detection Models in Edge Devices with Scalable Accuracy and Compute Complexity 作者: Abdul Hannaan / Zubair Shah / Aiman Erbad / Amr Mohamed / Ali Safa 原文: [英文] [中文] 备注: accepted for publication at IEEE IWCMC 2025 摘要: 本文介绍了一种新颖的联邦学习框架,称为LoRa-FL,专为在边缘设备上训练低秩一次性图像检测模型而设计。通过将低秩适应技术融入一次性检测架构,我们的方法在保持可扩展精度的同时显著减少了计算和通信开销。该框架利用联邦学习协作训练轻量级图像识别模型,实现了在异构、资源受限设备上的快速适应和高效部署。在MNIST和CIFAR10基准数据集上的实验评估中,无论是在独立同分布(IID)还是非IID设置下,我们的方法都表现出具有竞争力的检测性能,同时显著降低了通信带宽和计算复杂性。这使其成为一种有前景的解决方案,可以自适应地减少通信和计算功耗开销,同时不牺牲模型精度。 |
[31] 分层思考,动态行动:视觉与语言导航的分层多模态融合与推理 标题: Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation 作者: Junrong Yue / Yifan Zhang / Chuan Qin / Bo Li / Xiaomin Lie / Xinlei Yu / Wenxin Zhang / Zhendong Zhao 原文: [英文] [中文] 备注: 11 pages, 4 figures, Submitted to ACM MM 2025 摘要: 视觉与语言导航(VLN)旨在使具身代理能够遵循自然语言指令并在现实环境中到达目标位置。尽管之前的方法通常依赖于全局场景表示或对象级特征,但这些方法不足以捕捉跨模态的复杂交互,这对于准确导航是必需的。在本文中,我们提出了一种多层次融合与推理架构(MFRA),以增强代理对视觉观察、语言指令和导航历史进行推理的能力。具体而言,MFRA引入了一种分层融合机制,该机制聚合了从低级视觉线索到高级语义概念的多层次特征,跨越多个模态。我们进一步设计了一个推理模块,该模块利用融合表示通过指令引导的注意力和动态上下文整合来推断导航动作。通过选择性地捕捉和结合相关的视觉、语言和时间信号,MFRA在复杂导航场景中提高了决策准确性。在包括REVERIE、R2R和SOON的基准VLN数据集上的广泛实验表明,MFRA相比于最先进的方法实现了卓越的性能,验证了多层次模态融合在具身导航中的有效性。 |
[32] 一种用于跨模态同神经元识别的双通道注意力少样本度量学习方法 标题: A Few-Shot Metric Learning Method with Dual-Channel Attention for Cross-Modal Same-Neuron Identification 作者: Wenwei Li / Liyi Cai / Wu Chen / Anan Li 原文: [英文] 备注: 23 pages, 9 figures, submitted to arXiv for public access 摘要: 在神经科学研究中,实现跨不同成像模态的单神经元匹配对于理解神经元结构与功能之间的关系至关重要。然而,模态差异和有限的注释带来了显著的挑战。我们提出了一种具有双通道注意机制和预训练视觉变换器的少样本度量学习方法,以实现稳健的跨模态神经元识别。局部和全局通道分别提取胞体形态和纤维背景,并通过门控机制融合它们的输出。为了增强模型的细粒度辨别能力,我们引入了一种基于MultiSimilarityMiner算法的困难样本挖掘策略,以及Circle Loss函数。在双光子和fMOST数据集上的实验表明,与现有方法相比,该方法在Top-K准确率和召回率上具有优越性。消融研究和t-SNE可视化验证了每个模块的有效性。该方法在不同的微调策略下也实现了准确性和训练效率之间的良好平衡。这些结果表明,所提出的方法为精确的单细胞级匹配和多模态神经影像集成提供了一种有前景的技术解决方案。 |
[33] 利用生成式人工智能进行街景分析(SAGAI):城市场景的视觉-语言评估与映射 标题: Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes 作者: Joan Perez / Giovanni Fusco 原文: [英文] [中文] 备注: 25 pages, 6 figures in main paper, 6 figures in appendices 摘要: 街景是城市空间的重要组成部分。目前,对街景的评估要么仅限于其形态结构的测量属性,要么需要耗费大量人力进行视觉感知质量的定性评估。本文介绍了SAGAI:利用生成式人工智能进行街景分析,这是一种使用开放数据和视觉语言模型对街道级城市场景进行评分的模块化工作流程。SAGAI整合了OpenStreetMap的几何数据、Google街景图像以及轻量版的LLaVA模型,通过可定制的自然语言提示从图像中生成结构化的空间指标。该流程包括一个自动化映射模块,可以在点和街道层面聚合视觉评分,从而实现直接的制图解释。它无需特定任务的训练或专有软件依赖,支持对城市环境进行可扩展且可解释的分析。在尼斯和维也纳的两个探索性案例研究中,SAGAI展示了其通过视觉语言推理生成地理空间输出的能力。初步结果显示,在城市-乡村场景的二元分类中表现出色,在商业特征检测中具有中等精度,并对人行道宽度的估计较低,但仍具有信息价值。SAGAI可以由任何用户全面部署,并且通过仅修改提示即可轻松适应广泛的城市研究主题,如步行性、安全性或城市设计。 |
[34] ToF-Splatting:使用稀疏飞行时间深度和多帧集成的密集SLAM 标题: ToF-Splatting: Dense SLAM using Sparse Time-of-Flight Depth and Multi-Frame Integration 作者: Andrea Conti / Matteo Poggi / Valerio Cambareri / Martin R. Oswald / Stefano Mattoccia 原文: [英文] [中文] 备注: None 摘要: 飞行时间(ToF)传感器在相对较低的功耗预算下提供高效的主动深度感应;在此类设计中,只有来自低分辨率传感器的非常稀疏的测量被认为可以满足移动和AR/VR设备日益严格的功耗限制。然而,如此极端的稀疏性限制了ToF深度在SLAM中的无缝使用。在这项工作中,我们提出了ToF-Splatting,这是第一个基于3D高斯Splatting的SLAM管道,专为有效使用非常稀疏的ToF输入数据而设计。我们的方法通过引入一个多帧集成模块来改进现有技术,该模块通过合并来自极稀疏ToF深度、单目颜色和多视角几何的线索来生成密集的深度图。在合成和真实稀疏ToF数据集上的大量实验表明,我们的方法是可行的,因为它在参考数据集上实现了最先进的跟踪和映射性能。 |
[35] 超越匿名化:用于隐私保护的二维和三维视觉任务的对象清理 标题: Beyond Anonymization: Object Scrubbing for Privacy-Preserving 2D and 3D Vision Tasks 作者: Murat Bilgehan Ertan / Ronak Sahu / Phuong Ha Nguyen / Kaleel Mahmood / Marten van Dijk 原文: [英文] [中文] 备注: Submitted to ICCV 2025 摘要: 我们介绍了ROAR(Robust Object Removal and Re-annotation),这是一个可扩展的隐私保护数据集模糊化框架,通过消除敏感对象而不是修改它们来实现隐私保护。我们的方法将实例分割与生成性修复相结合,以在保留场景完整性的同时去除可识别的实体。在基于2D COCO的目标检测中进行的广泛评估显示,ROAR实现了基线检测平均精度(AP)的87.5%,而图像丢弃仅实现了基线AP的74.2%,这突显了擦除在保留数据集实用性方面的优势。由于遮挡和细节损失,小物体的退化更加严重。此外,在基于NeRF的3D重建中,我们的方法在保持SSIM并改善LPIPS的同时,最多仅造成1.66 dB的PSNR损失,展示了卓越的感知质量。我们的研究结果确立了对象移除作为一种有效的隐私框架,以最小的性能折衷实现强大的隐私保证。结果突出了生成性修复、抗遮挡分割和任务特定擦除中的关键挑战,为未来隐私保护视觉系统的进步奠定了基础。 |
[36] SAIP-Net:通过光谱自适应信息传播增强遥感图像分割 标题: SAIP-Net: Enhancing Remote Sensing Image Segmentation via Spectral Adaptive Information Propagation 作者: Zhongtao Wang / Xizhe Cao / Yisong Chen / Guoping Wang 原文: [英文] [中文] 备注: None 摘要: 遥感影像的语义分割需要精确的空间边界和强大的类内一致性,这对传统的层次模型构成了挑战。为了解决空间域特征融合和感受野不足带来的局限性,本文提出了SAIP-Net,一种新颖的频率感知分割框架,利用频谱自适应信息传播。SAIP-Net采用自适应频率滤波和多尺度感受野增强,有效抑制类内特征不一致性并锐化边界线。综合实验表明,与最先进的方法相比,SAIP-Net在性能上有显著提升,突显了频谱自适应策略与扩展感受野相结合在遥感图像分割中的有效性。 |
[37] CountingDINO:一种使用无监督骨干网进行无类别限制计数的无训练流程 标题: CountingDINO: A Training-free Pipeline for Class-Agnostic Counting using Unsupervised Backbones 作者: Giacomo Pacini / Lorenzo Bianchi / Luca Ciampi / Nicola Messina / Giuseppe Amato / Fabrizio Falchi 原文: [英文] 备注: 13 pages, 2 figures, 2 tables. Project website: this https URL 摘要: 类别无关计数(CAC)旨在估计图像中物体的数量,而不受限于预定义的类别。然而,尽管当前基于示例的CAC方法在推理时提供了灵活性,但它们在训练时仍然严重依赖标注数据,这限制了其在许多下游应用中的可扩展性和泛化能力。在本文中,我们介绍了CountingDINO,这是第一个利用完全无监督特征提取器的无训练基于示例的CAC框架。具体来说,我们的方法采用自监督的仅视觉骨干网络来提取对象感知特征,并在整个提出的流程中消除了对标注数据的需求。在推理时,我们通过ROI-Align从DINO特征中提取潜在的对象原型,并将其用作卷积核以生成相似性图。这些相似性图随后通过一种简单而有效的归一化方案转化为密度图。我们在FSC-147基准上评估了我们的方法,在相同的无标签设置下,我们的表现优于基线。我们的方法还在与依赖监督骨干的无训练方法以及几种完全监督的最新方法的比较中取得了具有竞争力的——在某些情况下甚至是更优的——结果。这表明无训练的CAC既可以扩展又具有竞争力。网站:this https URL |
[38] JEPA用于强化学习:研究用于强化学习的联合嵌入预测架构 标题: JEPA for RL: Investigating Joint-Embedding Predictive Architectures for Reinforcement Learning 作者: Tristan Kenneweg / Philip Kenneweg / Barbara Hammer 原文: [英文] [中文] 备注: Published at ESANN 2025 摘要: 联合嵌入预测架构(JEPA)最近成为自监督学习中备受关注的架构。视觉变换器已经通过JEPA进行训练,以从图像和视频中生成嵌入,这些嵌入被证明非常适合用于分类和分割等下游任务。在本文中,我们展示了如何将JEPA架构适应于从图像中进行强化学习。我们讨论了模型崩溃的问题,展示了如何防止这种情况,并在经典的Cart Pole任务中提供了示例数据。 |
[39] 联邦EndoViT:通过联邦学习在内窥镜图像集上预训练视觉Transformer 标题: Federated EndoViT: Pretraining Vision Transformers via Federated Learning on Endoscopic Image Collections 作者: Max Kirchner / Alexander C. Jenke / Sebastian Bodenstedt / Fiona R. Kolbinger / Oliver Saldanha / Jakob N. Kather / Martin Wagner / Stefanie Speidel 原文: [英文] [中文] 备注: Preprint submitted to MEDIA 摘要: 目的:在本研究中,我们探讨了使用联邦学习训练基础模型,以解决数据共享的限制,并在无需数据传输的情况下实现微创手术的协作模型训练。方法:受EndoViT研究的启发,我们将Masked Autoencoder适用于联邦学习,并通过自适应锐度感知最小化(FedSAM)和随机权重平均(SWA)进行增强。我们的模型在Endo700k数据集上进行预训练,随后针对语义分割、动作三元组识别和手术阶段识别等任务进行微调和评估。结果:我们的研究结果表明,将自适应FedSAM整合到联邦MAE方法中可以改善预训练,减少每个补丁的重建损失。在手术下游任务中应用FL-EndoViT的性能与CEN-EndoViT相当。此外,在数据有限的情况下,FL-EndoViT在手术场景分割方面表现出优于CEN-EndoViT的优势,而在使用大型数据集时则在动作三元组识别方面表现出优势。结论:这些发现突出了联邦学习在隐私保护的手术基础模型训练中的潜力,提供了一个稳健且可推广的手术数据科学解决方案。有效的协作需要适应联邦学习方法,例如整合FedSAM,以适应机构间固有的数据异质性。未来,探索视频模型中的联邦学习可能通过结合时空动态来增强这些能力,这对于真实世界的手术环境至关重要。 |
[40] EHGCN:通过运动感知GCN进行混合事件流感知的分层欧几里得-双曲融合 标题: EHGCN: Hierarchical Euclidean-Hyperbolic Fusion via Motion-Aware GCN for Hybrid Event Stream Perception 作者: Haosheng Chen / Lian Luo / Mengjingcheng Mo / Zhanjie Wu / Guobao Xiao / Ji Gan / Jiaxu Leng / Xinbo Gao 原文: [英文] [中文] 备注: None 摘要: 事件相机具有微秒级时间分辨率和高动态范围(HDR)特性,能够为感知任务发出高速事件流。尽管基于GNN的感知方法最近取得了进展,但它们往往在纯欧几里得空间中使用简单的成对连接机制,这使得它们难以捕捉长距离依赖关系,并且无法有效地表征非均匀分布事件流的固有层次结构。为此,本文提出了一种名为EHGCN的新方法,这是在欧几里得和双曲空间中感知事件流的开创性工作。在EHGCN中,我们引入了一种自适应采样策略,以动态调节采样率,保留具有辨别力的事件,同时减弱混乱的噪声。然后,我们提出了一种基于马尔可夫矢量场(MVF)驱动的运动感知超边生成方法,该方法基于运动状态转移概率,从而消除跨目标的虚假关联,并在捕捉事件之间长距离依赖关系的同时提供关键的拓扑先验。最后,我们提出了一种欧几里得-双曲GCN,以分别在欧几里得和双曲空间中融合局部聚合和全局层次建模的信息,从而实现混合事件感知。在物体检测和识别等事件感知任务上的实验结果验证了我们方法的有效性。 |
[41] 双摄像头全聚焦神经辐射场 标题: Dual-Camera All-in-Focus Neural Radiance Fields 作者: Xianrui Luo / Zijin Wu / Juewen Peng / Huiqiang Sun / Zhiguo Cao / Guosheng Lin 原文: [英文] [中文] 备注: Published by IEEE TPAMI 2025 摘要: 我们提出了第一个能够从无需手动重新聚焦的输入中合成全焦点神经辐射场(NeRF)的框架。在不重新聚焦的情况下,相机将自动对所有视图中的固定物体进行聚焦,而当前通常使用单个相机的NeRF方法由于一致的散焦模糊和缺乏清晰的参考而失败。为了恢复全焦点NeRF,我们引入了智能手机中的双摄像头,其中超广角摄像头具有更宽的景深(DoF),而主摄像头具有更高的分辨率。双摄像头组合保存了来自主摄像头的高保真细节,并使用超广角摄像头的深景深作为全焦点恢复的参考。为此,我们首先实现空间变形和颜色匹配以对齐双摄像头,随后使用具有可学习散焦参数的散焦感知融合模块来预测散焦图并融合对齐的摄像头对。我们还构建了一个多视图数据集,其中包括智能手机中主摄像头和超广角摄像头的图像对。在该数据集上的大量实验验证了我们的解决方案,称为DC-NeRF,可以生成高质量的全焦点新视图,并在定量和定性上优于强基线。我们进一步展示了DC-NeRF的景深应用,包括可调节的模糊强度和焦平面,如重新聚焦和分离二极管。 |
[42] RouteWinFormer:一种用于图像修复中程注意力的路径窗口Transformer 标题: RouteWinFormer: A Route-Window Transformer for Middle-range Attention in Image Restoration 作者: Qifan Li / Tianyi Liang / Xingtao Wang / Xiaopeng Fan 原文: [英文] [中文] 备注: None 摘要: 近年来,Transformer 模型因其能够捕捉长距离像素依赖性而在图像修复领域引起了广泛关注。然而,长距离注意力通常会导致计算开销,而实际上并不总是必要的,因为图像的退化和上下文通常是局部化的。对各种退化数据集的归一化平均注意力距离的分析表明,中等范围的注意力足以用于图像修复。基于这一见解,我们提出了 RouteWinFormer,这是一种新颖的基于窗口的 Transformer,专为图像修复建模中等范围的上下文。RouteWinFormer 包含 Route-Windows 注意力模块,该模块根据区域相似性动态选择相关的邻近窗口进行注意力聚合,从而有效地将感受野扩展到中等范围。此外,我们在训练过程中引入了多尺度结构正则化,使 U 形网络的子尺度能够专注于结构信息,而原始尺度则基于广义图像结构先验学习退化模式。大量实验表明,RouteWinFormer 在各种图像修复任务中,在 9 个数据集上均优于最先进的方法。 |
[43] SSLR:一种用于孤立手语识别的半监督学习方法 标题: SSLR: A Semi-Supervised Learning Method for Isolated Sign Language Recognition 作者: Hasan Algafri / Hamzah Luqman / Sarah Alyami / Issam Laradji 原文: [英文] [中文] 备注: None 摘要: 手语是听力障碍人士的主要交流语言。手语识别(SLR)系统旨在识别手势并将其翻译成口语。SLR的主要挑战之一是标注数据集的稀缺。为了解决这个问题,我们提出了一种用于SLR的半监督学习(SSL)方法(SSLR),采用伪标签方法来标注未标记的样本。手势通过编码手语者骨骼关节点的姿态信息来表示。这些信息被用作所提出方法中使用的Transformer骨干模型的输入。为了展示SSL在不同标记数据规模下的学习能力,我们进行了多项实验,使用不同百分比的标记数据和不同数量的类别。SSL方法的性能与基于完全监督学习的模型在WLASL-100数据集上进行了比较。在许多情况下,SSL模型在标记数据较少的情况下优于基于监督学习的模型。 |
[44] 基于WiFi的人体跌倒与活动识别:使用基于Transformer的编码器-解码器和图神经网络 标题: WiFi based Human Fall and Activity Recognition using Transformer based Encoder Decoder and Graph Neural Networks 作者: Younggeol Cho / Elisa Motta / Olivia Nocentini / Marta Lagomarsino / Andrea Merello / Marco Crepaldi / Arash Ajoudani 原文: [英文] 备注: 8 pages, 4 figures 摘要: 人体姿态估计和动作识别因其在健康监测、康复和辅助技术中的关键作用而受到关注。在这项研究中,我们提出了一种新颖的架构,名为基于Transformer的编码解码网络(TED Net),用于从WiFi信道状态信息(CSI)中估计人体骨架姿态。TED Net结合了卷积编码器和基于Transformer的注意力机制,以捕捉CSI信号中的时空特征。估计出的骨架姿态被用作定制的有向图神经网络(DGNN)的输入,以进行动作识别。我们在两个数据集上验证了我们的模型:一个用于评估一般姿态估计的公开多模态数据集,以及一个新收集的专注于涉及20名参与者的跌倒相关场景的数据集。实验结果表明,TED Net在姿态估计方面优于现有方法,并且DGNN使用基于CSI的骨架实现了可靠的动作分类,其性能可与基于RGB的系统相媲美。值得注意的是,TED Net在跌倒和非跌倒情况下均保持了稳健的性能。这些发现突显了CSI驱动的人体骨架估计在有效动作识别中的潜力,特别是在家庭环境中如老年人跌倒检测。在此类环境中,WiFi信号通常易于获取,提供了一种保护隐私的替代方案,相较于可能引发对持续摄像头监控担忧的视觉方法。 |
[45] Skywork R1V2:用于推理的多模态混合强化学习 标题: Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning 作者: Chris / Yichen Wei / Yi Peng / Xiaokun Wang / Weijie Qiu / Wei Shen / Tianyidan Xie / Jiangbo Pei / Jianhao Zhang / Yunzhuo Hao / Xuchen Song / Yang Liu / Yahui Zhou 原文: [英文] [中文] 备注: None 摘要: 我们介绍了Skywork R1V2,这是一款新一代多模态推理模型,相较于其前身Skywork R1V实现了重大飞跃。R1V2的核心是引入了一种混合强化学习范式,该范式将奖励模型指导与基于规则的策略相结合,从而解决了长期以来在复杂推理能力与广泛泛化之间的平衡难题。为了进一步提高训练效率,我们提出了选择性样本缓冲机制(SSB),该机制通过在优化过程中优先考虑高价值样本,有效解决了群体相对策略优化(GRPO)中固有的“优势消失”困境。值得注意的是,我们观察到过多的强化信号可能会导致视觉幻觉——这一现象我们在整个训练过程中通过校准奖励阈值进行系统监控和缓解。实证结果证实了R1V2的卓越能力,其在多个基准测试中表现领先,如在OlympiadBench上得分62.6,在AIME2024上得分79.0,在LiveCodeBench上得分63.6,以及在MMMU上得分74.0。这些结果突显了R1V2相较于现有开源模型的优越性,并展示了在缩小与顶级专有系统(包括Gemini 2.5和OpenAI o4-mini)性能差距方面的显著进展。Skywork R1V2模型权重已公开发布,以促进开放性和可重复性。 |
[46] 大麦发芽过程的近红外光谱时间序列数据集及RGB和近红外高光谱成像 标题: A Time Series Dataset of NIR Spectra and RGB and NIR-HSI Images of the Barley Germination Process 作者: Ole-Christian Galbo Engstrøm / Erik Schou Dreier / Birthe Møller Jespersen / Kim Steenstrup Pedersen 原文: [英文] [中文] 备注: None 摘要: 我们提供了一个开源数据集,其中包含2242个单独的麦芽大麦籽粒的RGB和NIR-HSI(近红外高光谱成像)图像,以及相关的分割掩膜和NIR光谱。我们在每个籽粒暴露于水分之前进行成像,并在暴露于水分后每隔24小时进行成像,持续五天。在每次图像采集过程中,每个大麦籽粒都被标记为已发芽或未发芽。大麦籽粒的成像背景为黑色滤纸,便于直接进行基于强度阈值的分割,例如使用Otsu方法。该数据集有助于使用RGB图像分析、NIR光谱分析、NIR-HSI分析或其组合进行大麦籽粒发芽时间的时间序列分析。 |
[47] 一种基于差异注意力感知的状态空间融合模型用于遥感分类 标题: A Diff-Attention Aware State Space Fusion Model for Remote Sensing Classification 作者: Wenping Ma / Boyou Xue / Mengru Ma / Chuang Chen / Hekai Zhang / Hao Zhu 原文: [英文] [中文] 备注: 12 pages,9 figures 摘要: 多光谱(MS)和全色(PAN)图像描述了相同的地表,因此这些图像不仅各有优势,还包含大量相似信息。为了分离这些相似信息及其各自的优势,减少融合阶段的特征冗余,本文介绍了一种用于多模态遥感图像分类的差异注意力感知状态空间融合模型(DAS2F-Model)。基于选择性状态空间模型,设计了一个跨模态差异注意力模块(CMDA-Module),用于提取和分离MS和PAN图像的共同特征及其各自的主导特征。其中,空间保留视觉曼巴(SPVM)通过合理优化视觉曼巴的输入来保留图像空间特征并捕捉局部特征。考虑到在融合阶段,特征分离后会有较大的语义差异,简单的融合操作难以有效整合这些显著不同的特征,提出了一种注意力感知线性融合模块(AALF-Module)。该模块通过计算影响系数进行逐像素线性融合。这一机制可以在保持特征尺寸不变的情况下融合具有大语义差异的特征。实证评估表明,所提出的方法比其他方法取得了更好的结果。相关代码可以在此URL找到:this https URL |
[48] SemanticSugarBeets:用于检查甜菜收获和储存特性的多任务框架和数据集 标题: SemanticSugarBeets: A Multi-Task Framework and Dataset for Inspecting Harvest and Storage Characteristics of Sugar Beets 作者: Gerardus Croonen / Andreas Trondl / Julia Simon / Daniel Steininger 原文: [英文] 备注: Accepted at Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Code and dataset available at this https URL 摘要: 在加工之前,甜菜在储存过程中由于附着土壤中的微生物和过多的植被等因素会导致糖分流失。自动化的视觉检测有望帮助质量保证,从而提高糖生产加工链的效率。在这项工作中,我们提出了一个新颖的高质量标注数据集和两阶段方法,用于在单目RGB图像中检测、语义分割和质量估算收获后和储存后的甜菜。我们进行了广泛的消融实验,以检测甜菜及其在损坏、腐烂、土壤附着和过多植被方面的细粒度语义分割。对于这些任务,我们评估了多种图像尺寸、模型架构和编码器,以及环境条件的影响。我们的实验显示,甜菜检测的mAP50-95为98.8,表现最佳的分割模型的mIoU为64.0。 |
[49] 基于能量的伪标签优化用于无源域适应 标题: Energy-Based Pseudo-Label Refining for Source-free Domain Adaptation 作者: Xinru Meng / Han Sun / Jiamei Liu / Ningzhong Liu / Huiyu Zhou 原文: [英文] [中文] 备注: 8 pages, 3 figures, accepted by PRL. code at this https URL 摘要: 无源域适应(SFDA)涉及在无法访问源数据的情况下调整模型,这既要求高又具有挑战性。现有的SFDA技术通常依赖于从置信度生成的伪标签,这会由于显著的噪声导致负迁移。为了解决这个问题,提出了一种基于能量的伪标签优化(EBPR)方法用于SFDA。根据样本簇的能量得分为所有样本簇创建伪标签。计算全局和类别能量阈值以选择性地过滤伪标签。此外,引入了一种对比学习策略来过滤困难样本,将它们与其增强版本对齐,以学习更具辨别力的特征。我们的方法在Office-31、Office-Home和VisDA-C数据集上进行了验证,结果一致表明我们的模型优于现有的最先进方法。 |
[50] PMG:通过稀疏锚定姿势课程学习实现渐进式运动生成 标题: PMG: Progressive Motion Generation via Sparse Anchor Postures Curriculum Learning 作者: Yingjie Xi / Jian Jun Zhang / Xiaosong Yang 原文: [英文] [中文] 备注: None 摘要: 在计算机动画、游戏设计和人机交互领域,合成符合用户意图的人体动作仍然是一个重大挑战。现有的方法存在显著的局限性:文本方法提供高层次的语义指导,但难以准确描述复杂动作;基于轨迹的技术提供直观的全局运动方向,但往往难以生成精确或定制化的角色动作;而锚点姿势引导的方法通常仅限于合成简单的运动模式。为了生成更可控和精确的人体动作,我们提出了\textbf{ProMoGen(渐进式运动生成)},这是一种将轨迹引导与稀疏锚点运动控制相结合的新框架。全局轨迹确保空间方向和位移的一致性,而稀疏锚点运动仅提供精确的动作指导而不涉及位移。这种解耦使得两个方面的独立优化成为可能,从而实现更可控、高保真和复杂的运动合成。ProMoGen在统一的训练过程中支持双重和单一控制范式。此外,我们认识到直接从稀疏运动中学习本质上是不稳定的,因此我们引入了\textbf{SAP-CL(稀疏锚点姿势课程学习)},这是一种课程学习策略,通过逐步调整用于指导的锚点数量,从而实现更精确和稳定的收敛。大量实验表明,ProMoGen在合成由预定义轨迹和任意锚点帧引导的生动多样的动作方面表现出色。我们的方法无缝地将个性化运动与结构化指导相结合,在多个控制场景中显著优于最先进的方法。 |
[51] 通过字幕生成和视觉问答检测和理解表情包中的仇恨内容 标题: Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering 作者: Ali Anaissi / Junaid Akram / Kunal Chaturvedi / Ali Braytee 原文: [英文] [中文] 备注: 13 pages, 2 figures, 2025 International Conference on Computational Science 摘要: 表情包被广泛用于幽默和文化评论,但它们也越来越多地被用来传播仇恨内容。由于其多模态特性,仇恨表情包常常逃避传统的仅限文本或仅限图像的检测系统,特别是在它们使用微妙或编码的引用时。为了解决这些挑战,我们提出了一个多模态仇恨检测框架,该框架集成了关键组件:OCR用于提取嵌入的文本,字幕生成用于中性地描述视觉内容,子标签分类用于对仇恨内容进行细粒度分类,RAG用于上下文相关的检索,以及VQA用于符号和上下文线索的迭代分析。这使得该框架能够发现简单管道无法检测到的潜在信号。在Facebook仇恨表情包数据集上的实验结果表明,所提出的框架在准确性和AUC-ROC方面均超过了单模态和传统多模态模型的性能。 |
[52] V$^2$R-Bench:全面评估LVLM对基本视觉变化的鲁棒性 标题: V$^2$R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations 作者: Zhiyuan Fan / Yumeng Wang / Sandeep Polisetty / Yi R. / Fung 原文: [英文] [中文] 备注: None 摘要: 大型视觉语言模型(LVLMs)在各种视觉语言任务中表现出色。然而,由于视角和环境的变化,自然场景中的物体在位置、比例、方向和上下文方面不可避免地表现出视觉变化,而这些模型对这些变化的鲁棒性仍然很少被探索。为了弥补这一差距,我们引入了V$^2$R-Bench,这是一个全面的基准框架,用于评估LVLMs的视觉变化鲁棒性,包括自动化评估数据集生成和原则性指标,以进行彻底的鲁棒性评估。通过对21个LVLMs的广泛评估,我们揭示了一个令人惊讶的对视觉变化的脆弱性,即使是那些在复杂视觉语言任务中表现出色的先进模型,在简单任务如物体识别上也表现不佳。有趣的是,这些模型表现出一种与有效感受野理论相悖的独特视觉位置偏差,并表现出类似人类的视觉敏锐度阈值。为了识别这些脆弱性的来源,我们提出了一个系统的组件级分析框架,具有一种新颖的对齐视觉特征的可视化方法。结果表明,这些脆弱性源于管道架构中的错误积累和不充分的多模态对齐。与合成数据的补充实验进一步表明,这些限制基本上是架构上的缺陷,强调了未来LVLM设计中架构创新的必要性。 |
[53] 提示微调SAM:从通才到专家,仅需2048个参数和16张训练图像 标题: Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training Images 作者: Tristan Piater / Björn Barz / Alexander Freytag 原文: [英文] [中文] 备注: None 摘要: “分割任何东西模型”(SAM)广泛用于通过简单的用户提示(如点或边界框)在自然图像中分割各种对象。然而,当应用于非自然领域如显微成像时,SAM的性能显著下降。此外,由于SAM的交互式设计,它需要为每个图像和对象提供精确的提示,这在许多自动化生物医学应用中是不可行的。之前的解决方案通过微调模型的大部分或适配器层来训练数百万个参数以适应SAM。相比之下,我们展示了仅需2,048个额外参数就足以将SAM转变为特定下游任务的专业工具。我们新颖的PTSAM(提示调优SAM)方法使用提示调优,这是一种参数高效的微调技术,以适应特定任务。我们在多个显微镜和一个医学数据集上验证了我们方法的性能。我们的结果表明,仅对SAM的掩码解码器进行提示调优已经能够达到与最先进技术相当的性能,同时所需的可训练参数减少了约2,000倍。为解决领域差距,我们发现额外对SAM的图像编码器进行提示调优是有益的,进一步将分割准确性提高了最多18%,超过了最先进的结果。由于PTSAM可以可靠地用仅16个标注图像进行训练,我们发现它对于训练数据有限和领域转移的应用特别有帮助。 |
[54] 高斯喷溅是用于3D物体检测的有效数据生成器 标题: Gaussian Splatting is an Effective Data Generator for 3D Object Detection 作者: Farhad G. Zanjani / Davide Abati / Auke Wiggers / Dimitris Kalatzis / Jens Petersen / Hong Cai / Amirhossein Habibian 原文: [英文] [中文] 备注: None 摘要: 我们研究了自动驾驶中的3D目标检测的数据增强。我们利用基于高斯散射的3D重建的最新进展来进行驾驶场景中的3D目标放置。与现有的基于扩散的方法不同,这些方法在合成图像时依赖于鸟瞰图布局,我们的方法直接在重建的3D空间中放置3D目标,并明确施加几何变换。这确保了目标放置的物理合理性以及高度准确的3D姿态和位置标注。我们的实验表明,即使在真实场景中仅整合有限数量的外部3D目标,增强的数据也显著提高了3D目标检测性能,并优于现有的基于扩散的3D增强方法。对nuScenes数据集的广泛测试揭示了在目标放置中施加高几何多样性比目标的外观多样性影响更大。此外,我们展示了生成困难样本,无论是通过最大化检测损失还是在相机图像中施加高视觉遮挡,都不会导致更高效的基于相机的自动驾驶3D目标检测的数据增强。 |
[55] 用于检测腹腔镜 Roux-en-Y 胃旁路手术中术中不良事件的特征混合方法 标题: Feature Mixing Approach for Detecting Intraoperative Adverse Events in Laparoscopic Roux-en-Y Gastric Bypass Surgery 作者: Rupak Bose / Chinedu Innocent Nwoye / Jorge Lazo / Joël Lukas Lavanchy / Nicolas Padoy 原文: [英文] [中文] 备注: 9 pages, 7 figures, 8 tables, Release new dataset annotations 摘要: 术中不良事件(IAEs),如出血或热损伤,如果未被发现,可能导致严重的术后并发症。然而,由于其罕见性,导致数据集高度不平衡,给基于人工智能的检测和严重程度量化带来了挑战。我们提出了BetaMixer,这是一种新颖的深度学习模型,通过基于Beta分布的混合方法解决这些挑战,将离散的IAE严重程度评分转换为连续值,以实现精确的严重程度回归(0-5量表)。BetaMixer采用基于Beta分布的采样来增强代表性不足的类别,并对中间嵌入进行正则化以保持结构化的特征空间。生成方法使特征空间与采样的IAE严重程度对齐,从而通过变压器实现稳健的分类和严重程度回归。在我们用IAE标签扩展的MultiBypass140数据集上进行评估,BetaMixer实现了加权F1得分0.76,召回率0.81,阳性预测值(PPV)0.73,阴性预测值(NPV)0.84,展示了在不平衡数据上的强大性能。通过整合基于Beta分布的采样、特征混合和生成建模,BetaMixer为临床环境中的IAE检测和量化提供了稳健的解决方案。 |
[56] Tri-FusionNet:通过基于Transformer的融合网络和双重注意力机制增强图像描述生成 标题: Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism 作者: Lakshita Agarwal / Bindu Verma 原文: [英文] [中文] 备注: None 摘要: 图像描述生成对于视觉内容的可访问性和人工智能理解至关重要。近年来,深度学习的进步显著提升了自然语言处理和计算机视觉的能力。在这项工作中,我们提出了Tri-FusionNet,这是一种新颖的图像描述生成模型,集成了变压器模块:具有双重注意机制的视觉变压器(ViT)编码器模块、稳健优化的BERT方法(RoBERTa)解码器模块,以及对比语言-图像预训练(CLIP)集成模块。ViT编码器通过双重注意机制增强,专注于相关的空间区域和语言上下文,提高了图像特征提取能力。RoBERTa解码器用于生成精确的文本描述。CLIP的集成模块通过对比学习对齐视觉和文本数据,确保两种模态的有效结合。这种ViT、RoBERTa和CLIP的融合,加上双重注意机制,使得模型能够生成更准确、上下文丰富且灵活的描述。所提出的框架在Flickr30k和Flickr8k数据集上表现出竞争力,BLEU分数分别在0.767到0.456和0.784到0.479之间,CIDEr分数为1.679和1.483,METEOR分数为0.478和0.358,ROUGE-L分数为0.567和0.789。在MS-COCO上,该框架获得了BLEU分数0.893(B-1)、0.821(B-2)、0.794(B-3)和0.725(B-4)。结果表明,Tri-FusionNet在生成高质量图像描述方面的有效性。 |
[57] 迈向可解释的人工智能:用于基于视频的图像描述生成的多模态Transformer 标题: Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation 作者: Lakshita Agarwal / Bindu Verma 原文: [英文] [中文] 备注: None 摘要: 理解和分析视频动作对于生成有洞察力和上下文相关的描述至关重要,特别是对于视频应用,如智能监控和自主系统。本文提出了一种新颖的框架,通过结合文本和视觉模态,从视频数据集中生成自然语言描述。建议的架构利用ResNet50从微软研究视频描述语料库(MSVD)和伯克利深度驱动解释(BDD-X)数据集中提取视频帧的视觉特征。提取的视觉特征被转换为补丁嵌入,然后通过基于生成预训练转换器-2(GPT-2)的编码器-解码器模型进行处理。为了对齐文本和视觉表示并确保高质量的描述生成,系统使用了多头自注意力和交叉注意力技术。通过使用BLEU(1-4)、CIDEr、METEOR和ROUGE-L进行性能评估,证明了模型的有效性。建议的框架在传统方法中表现优异,BDD-X的BLEU-4得分为0.755,MSVD为0.778,BDD-X的CIDEr得分为1.235,MSVD为1.315,BDD-X的METEOR得分为0.312,MSVD为0.329,BDD-X的ROUGE-L得分为0.782,MSVD为0.795。通过生成类似人类的、上下文相关的描述,加强可解释性并改善实际应用,这项研究推进了解释性人工智能。 |
[58] 解耦的全局-局部对齐以提升组合理解 标题: Decoupled Global-Local Alignment for Improving Compositional Understanding 作者: Xiaoxing Hu / Kaicheng Yang / Jun Wang / Haoran Xu / Ziyong Feng / Yupei Wang 原文: [英文] [中文] 备注: None 摘要: 对比语言-图像预训练(CLIP)通过对齐图像和文本模态在多个下游任务中取得了成功。然而,全球对比学习的性质限制了CLIP理解组合概念(如关系和属性)的能力。尽管最近的研究采用全局困难负样本来提高组合理解,但这些方法通过在嵌入空间中强行将文本负样本与图像拉开距离,显著削弱了模型固有的通用能力。为克服这一限制,我们引入了一种解耦的全局-局部对齐(DeGLA)框架,该框架在显著减轻通用能力损失的同时提高了组合理解。为了优化模型固有能力的保留,我们在全局对齐过程中引入了自蒸馏机制,将可学习的图像-文本编码器与从指数移动平均中获得的冻结教师模型对齐。在自蒸馏的约束下,它有效地缓解了微调过程中预训练知识的灾难性遗忘。为了提高组合理解,我们首先利用大型语言模型(LLMs)的上下文学习能力构建了大约200万条高质量的负面标题,涵盖五种类型。随后,我们提出了图像基础对比(IGC)损失和文本基础对比(TGC)损失,以增强视觉-语言的组合性。大量实验结果证明了DeGLA框架的有效性。与之前的最先进方法相比,DeGLA在VALSE、SugarCrepe和ARO基准上平均提高了3.5%。同时,它在跨越11个数据集的零样本分类任务中平均性能提升了13.0%。我们的代码将在此https URL发布。 |
[59] 一种用于3D植物建模和表型分析的低成本摄影测量系统 标题: A Low-Cost Photogrammetry System for 3D Plant Modeling and Phenotyping 作者: Joe Hrzich / Michael A. Beck / Christopher P. Bidinosti / Christopher J. Henry / Kalhari Manawasinghe / Karen Tanino 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种开源、低成本的摄影测量系统,用于3D植物建模和表型分析。该系统采用结构光方法,通过点云重建植物的3D表示。以小麦为例,我们展示了如何从点云中轻松计算出各种表型特征。这些特征包括植物高度和半径等标准测量,以及手工测量较为繁琐的特征,如叶片角度和凸包。我们还通过研究特定指标展示了该系统的实用性,这些指标可能为直立型与平展型小麦冠层结构的客观分类提供依据。 |
[60] 用于从太空估算温室气体的高光谱视觉变换器 标题: Hyperspectral Vision Transformers for Greenhouse Gas Estimations from Space 作者: Ruben Gonzalez Avilés / Linus Scheibenreif / Nassim Ait Ali Braham / Benedikt Blumenstiel / Thomas Brunschwiler / Ranjini Guruprasad / Damian Borth / Conrad Albrecht / Paolo Fraccaro / Devyani Lambhate / Johannes Jakubik 原文: [英文] [中文] 备注: None 摘要: 高光谱成像提供了详细的光谱信息,在温室气体(GHGs)监测方面具有显著潜力。然而,其应用受到空间覆盖范围有限和重访时间不频繁的限制。相比之下,多光谱成像提供了更广泛的空间和时间覆盖,但通常缺乏可以增强温室气体检测的光谱细节。为了解决这些挑战,本研究提出了一种光谱转换模型,该模型从多光谱输入中合成高光谱数据。该模型通过逐波段掩码自编码器进行预训练,随后在时空对齐的多光谱-高光谱图像对上进行微调。生成的合成高光谱数据保留了多光谱图像的空间和时间优势,并在温室气体预测准确性方面相对于仅使用多光谱数据有所提高。这种方法有效地弥合了光谱分辨率和覆盖范围之间的权衡,突显了其通过结合高光谱和多光谱系统的优势与自监督深度学习来推进大气监测的潜力。 |
[61] 使用多时相SAR和受污染光学数据进行高质量无云光学图像合成 标题: High-Quality Cloud-Free Optical Image Synthesis Using Multi-Temporal SAR and Contaminated Optical Data 作者: Chenxi Duan 原文: [英文] [中文] 备注: None 摘要: 解决由云层覆盖和卫星长重访周期造成的数据缺口对于提供支持遥感应用的必要数据至关重要。本文针对缺失光学数据合成的挑战,特别是在云层覆盖的复杂场景中。我们提出了CRSynthNet,一种新颖的图像合成网络,结合了创新设计的模块,如DownUp Block和Fusion Attention,以提高准确性。实验结果验证了CRSynthNet的有效性,显示出在恢复结构细节、保持光谱一致性以及实现远超比较方法的视觉效果方面的显著改进。它在多个指标上实现了定量改进:峰值信噪比(PSNR)为26.978,结构相似性指数(SSIM)为0.648,均方根误差(RMSE)为0.050。此外,本研究创建了TCSEN12数据集,这是一个专门设计用于解决缺失光学数据合成研究中云层覆盖挑战的宝贵资源。该数据集独特地包含了云层覆盖的图像,并利用早期图像预测后期图像,提供了真实世界场景的现实表现。本研究为光学卫星图像合成任务提供了实用的方法和宝贵的资源。 |
[62] BadVideo:针对文本到视频生成的隐蔽后门攻击 标题: BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation 作者: Ruotong Wang / Mingli Zhu / Jiarong Ou / Rui Chen / Xin Tao / Pengfei Wan / Baoyuan Wu 原文: [英文] [中文] 备注: None 摘要: 文本到视频(T2V)生成模型迅速发展,并在娱乐、教育和营销等领域得到了广泛应用。然而,这些模型的对抗性脆弱性却很少被探索。我们观察到,在T2V生成任务中,生成的视频通常包含大量文本提示中未明确指定的冗余信息,如环境元素、次要对象和附加细节,这为恶意攻击者嵌入隐藏的有害内容提供了机会。利用这种固有的冗余性,我们引入了BadVideo,这是第一个专为T2V生成设计的后门攻击框架。我们的攻击专注于通过两种关键策略设计目标对抗性输出:(1)时空组合,结合不同的时空特征来编码恶意信息;(2)动态元素转换,随着时间的推移在冗余元素中引入转换以传达恶意信息。基于这些策略,攻击者的恶意目标与用户的文本指令无缝集成,提供了高度的隐蔽性。此外,通过利用视频的时间维度,我们的攻击成功规避了主要分析单个帧内空间信息的传统内容审核系统。大量实验表明,BadVideo在保持原始语义和对干净输入保持卓越性能的同时,实现了高攻击成功率。总体而言,我们的工作揭示了T2V模型的对抗性脆弱性,提醒人们注意潜在的风险和滥用。我们的项目页面在这个https URL。 |
[63] DreamO:图像定制的统一框架 标题: DreamO: A Unified Framework for Image Customization 作者: Chong Mou / Yanze Wu / Wenxu Wu / Zinan Guo / Pengze Zhang / Yufeng Cheng / Yiming Luo / Fei Ding / Shiwen Zhang / Xinghui Li / Mengtian Li / Songtao Zhao / Jian Zhang / Qian He / Xinglong Wu 原文: [英文] [中文] 备注: None 摘要: 最近,关于图像定制(例如身份、主题、风格、背景等)的广泛研究表明,大规模生成模型具有强大的定制能力。然而,大多数方法是为特定任务设计的,限制了它们结合不同类型条件的通用性。开发一个统一的图像定制框架仍然是一个未解决的挑战。在本文中,我们提出了DreamO,一个图像定制框架,旨在支持广泛的任务,同时促进多种条件的无缝集成。具体来说,DreamO利用扩散变压器(DiT)框架来统一处理不同类型的输入。在训练过程中,我们构建了一个包含各种定制任务的大规模训练数据集,并引入了特征路由约束,以促进从参考图像中精确查询相关信息。此外,我们设计了一种占位符策略,将特定占位符与特定位置的条件关联起来,从而能够控制生成结果中条件的放置。此外,我们采用了由三个阶段组成的渐进式训练策略:初始阶段专注于简单任务和有限数据以建立基线一致性,全面训练阶段全面增强定制能力,以及最终质量对齐阶段以纠正低质量数据引入的质量偏差。大量实验表明,所提出的DreamO可以高质量地有效执行各种图像定制任务,并灵活整合不同类型的控制条件。 |
[64] 广义邻域注意力:以光速实现多维稀疏注意力 标题: Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light 作者: Ali Hassani / Fengzhe Zhou / Aditya Kane / Jiannan Huang / Chieh-Yun Chen / Min Shi / Steven Walton / Markus Hoehnerbach / Vijay Thakkar / Michael Isaev / Qinsheng Zhang / Bing Xu / Haicheng Wu / Wen-mei Hwu / Ming-Yu Liu / Humphrey Shi 原文: [英文] [中文] 备注: this https URL 摘要: 许多稀疏注意力机制,如邻域注意力,通常未能在自注意力基线之上持续提供加速。这主要是由于注意力基础设施的复杂性以及AI硬件架构的快速演变。同时,许多最先进的基础模型,特别是在计算机视觉领域,严重依赖注意力,并需要可靠的稀疏性来摆脱O(n^2)的复杂性。在本文中,我们研究了一类有前途的稀疏注意力机制,这些机制专注于局部性,并旨在开发其性能改进的更好分析模型。我们首先介绍了广义邻域注意力(GNA),它可以描述滑动窗口、步进滑动窗口和分块注意力。然后,我们考虑实现这些方法的可能设计选择,并创建了一个模拟器,可以为任何给定设置提供更现实的加速上限。最后,我们在CUTLASS中为NVIDIA Blackwell架构设计的最先进的融合多头注意力(FMHA)内核上实现了GNA。我们的实现可以在许多完美的块稀疏情况下完全实现理论上可能的最大加速,并在FP16中实现了1.3 petaFLOPs/秒的有效利用率。此外,我们将各种GNA配置插入现成的生成模型中,如Cosmos-7B、HunyuanVideo和FLUX,并展示了在B200上无需微调即可实现28%到46%的端到端加速。我们将通过NATTEN项目直接开源我们的模拟器和Blackwell内核。 |
[65] 用于零样本立体匹配的程序化数据集生成 标题: Procedural Dataset Generation for Zero-Shot Stereo Matching 作者: David Yan / Alexander Raistrick / Jia Deng 原文: [英文] [中文] 备注: None 摘要: 合成数据集是训练立体匹配网络的重要组成部分,但关于什么使立体数据集有效的问题仍然很少被探索。我们通过改变程序数据集生成器的参数来研究合成数据集的设计空间,并报告其对使用标准基准进行零样本立体匹配性能的影响。我们收集最佳设置以生成Infinigen-Stereo,这是一种专门针对零样本立体数据集优化的程序生成器。仅在我们的系统数据上训练的模型优于在现有合成数据集组合上训练的强大基线,并且比先前工作的公共检查点具有更强的零样本立体匹配性能。我们在这个https URL上开源我们的系统,以促进对程序立体数据集的进一步研究。 |