scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年4月21日更新论文66
[1] 用于增强分类的有损压缩的通用表示
标题: Universal Representations for Classification-enhanced Lossy Compression
作者: Nam Nguyen
原文:   [英文]  
备注: None
摘要:
在有损压缩中,压缩率与重建失真之间的经典权衡传统上指导着算法设计。然而,Blau和Michaeli [5]引入了一个广义框架,称为率-失真-感知(RDP)函数,将感知质量作为评估的额外维度。最近,[19]研究了率-失真-分类(RDC)函数,通过考虑分类准确性与失真一起评估压缩性能。在本文中,我们探讨了通用表示,其中开发了一个单一编码器以在各种失真和分类(或感知)约束下实现多个解码目标。这种通用性避免了在这些权衡中的每个特定操作点上重新训练编码器。我们在MNIST数据集上的实验验证表明,与为感知图像压缩任务单独优化的编码器相比,通用编码器仅会导致性能的轻微下降,与[23]的先前结果一致。然而,我们也发现,在RDC设置中,重用为一个特定分类-失真权衡优化的编码器在应用于其他点时会导致显著的失真惩罚。

[2] 基于改进YOLOv8的智能道路裂缝检测与分析
标题: Intelligent road crack detection and analysis based on improved YOLOv8
作者: Haomin Zuo / Zhengyang Li / Jiangchuan Gong / Zhen Tian
原文:   [英文]  
备注: Accepted by IEEE - ICAACE 2025
摘要:
随着城市化进程加快和交通流量增加,路面损坏问题日益突出,对道路安全和使用寿命构成了严重威胁。传统的坑洞检测方法依赖于人工检查,这不仅效率低下,而且成本高昂。本文提出了一种基于增强型YOLOv8深度学习框架的智能道路裂缝检测与分析系统。通过对4029张图像的训练,开发了一种目标分割模型,能够高效准确地识别和分割道路中的裂缝区域。该模型还分析分割区域,以精确计算裂缝的最大和最小宽度及其确切位置。实验结果表明,ECA和CBAM注意力机制的引入显著提高了模型的检测准确性和效率,为道路维护和安全监测提供了一种新颖的解决方案。

[3] 镜像:多模态认知重构疗法应对阻力
标题: Mirror: Multimodal Cognitive Reframing Therapy for Rolling with Resistance
作者: Subin Kim / Hoonrae Kim / Jihyun Lee / Yejin Jeon / Gary Geunbae Lee
原文:   [英文]   [中文]  
备注: None
摘要:
最近的研究探索了在心理治疗中使用大型语言模型(LLMs);然而,基于文本的认知行为疗法(CBT)模型常常在面对来访者的抵触时表现不佳,这可能削弱治疗联盟。为了解决这个问题,我们提出了一种多模态方法,该方法结合了非语言线索,使得AI治疗师能够更好地调整其回应以配合来访者的负面情绪状态。具体来说,我们引入了一个新的合成数据集,名为多模态互动抵触滚动(Mirror),这是一个新颖的合成数据集,将来访者的陈述与相应的面部图像配对。利用这个数据集,我们训练了基线视觉-语言模型(VLMs),这些模型可以分析面部线索、推断情绪,并生成富有同理心的回应,以有效管理抵触情绪。然后,我们从治疗师的咨询技能和在来访者抵触情况下治疗联盟的强度两个方面对其进行评估。我们的结果表明,Mirror显著增强了AI治疗师处理抵触情绪的能力,优于现有的基于文本的CBT方法。

[4] 基于小波的变分自编码器用于高分辨率图像生成
标题: Wavelet-based Variational Autoencoders for High-Resolution Image Generation
作者: Andrew Kiruluta
原文:   [英文]   [中文]  
备注: None
摘要:
变分自编码器(VAEs)是一种强大的生成模型,能够学习紧凑的潜在表示。然而,传统的VAEs由于假设各向同性高斯潜在空间,并在捕捉高频细节方面存在限制,通常生成相对模糊的图像。在本文中,我们探索了一种新颖的基于小波的方法(Wavelet-VAE),其中潜在空间是使用多尺度Haar小波系数构建的。我们提出了一种全面的方法,将图像特征编码为多尺度的细节和近似系数,并引入一个可学习的噪声参数以保持随机性。我们深入讨论了如何重新制定重参数化技巧,处理KL散度项,并将小波稀疏性原则整合到训练目标中。我们在CIFAR-10和其他高分辨率数据集上的实验评估表明,与传统VAEs相比,Wavelet-VAE提高了视觉保真度并恢复了更高分辨率的细节。最后,我们讨论了基于小波的生成建模的优势、潜在的局限性和未来的研究方向。

[5] SSTAF:用于运动想象分类的空间-光谱-时间注意力融合Transformer
标题: SSTAF: Spatial-Spectral-Temporal Attention Fusion Transformer for Motor Imagery Classification
作者: Ummay Maria Muna / Md. Mehedi Hasan Shawon / Md Jobayer / Sumaiya Akter / Saifur Rahman Sabuj
原文:   [英文]   [中文]  
备注: 11 pages
摘要:
脑电图(EEG)基础上的脑机接口(BCI)在运动想象分类中,通过实现大脑与外部设备之间的通信,为神经康复和辅助技术提供了有前景的解决方案。然而,EEG信号的非平稳特性和显著的个体间差异为开发稳健的跨个体分类模型带来了重大挑战。本文介绍了一种新颖的空间-频谱-时间注意力融合(SSTAF)Transformer,专为上肢运动想象分类设计。我们的架构由一个频谱Transformer和一个空间Transformer组成,随后是一个Transformer模块和一个分类器网络。每个模块都集成了注意力机制,动态关注多个领域中最具辨别力的模式,如频谱频率、空间电极位置和时间动态。短时傅里叶变换被纳入以在时频域中提取特征,使模型更容易获得更好的特征区分。我们在两个公开可用的数据集上评估了我们的SSTAF Transformer模型,即EEGMMIDB数据集和BCI Competition IV-2a。SSTAF Transformer在这些数据集上的准确率分别达到了76.83%和68.30%,优于传统的基于CNN的架构和一些现有的基于Transformer的方法。

[6] ICAS:基于IP适配器和ControlNet的注意力结构用于多主体风格迁移优化
标题: ICAS: IP Adapter and ControlNet-based Attention Structure for Multi-Subject Style Transfer Optimization
作者: Fuwei Liu
原文:   [英文]  
备注: 10 pages, 6 figures
摘要:
生成多主体风格化图像仍然是一个显著的挑战,因为定义风格属性(例如颜色、纹理、氛围和结构)存在模糊性,并且在多个主体之间一致应用这些属性存在困难。尽管最近基于扩散的文本到图像模型取得了显著进展,现有方法通常依赖于计算成本高的反演程序或大规模风格化数据集。此外,这些方法通常难以保持多主体语义的忠实性,并受到高推理成本的限制。为了解决这些限制,我们提出了ICAS(基于IP-Adapter和ControlNet的注意力结构),一个用于高效且可控的多主体风格迁移的新框架。ICAS不是对整个模型进行调优,而是自适应地微调预训练扩散模型的内容注入分支,从而在增强风格可控性的同时保留特定身份的语义。通过结合用于自适应风格注入的IP-Adapter和用于结构调节的ControlNet,我们的框架确保了全球布局的忠实保留以及准确的局部风格合成。此外,ICAS引入了循环多主体内容嵌入机制,使得在有限数据环境下无需大量风格化语料库即可实现有效的风格迁移。大量实验表明,ICAS在结构保留、风格一致性和推理效率方面实现了卓越的性能,为现实应用中的多主体风格迁移建立了新的范式。

[7] WildFireCan-MMD:用于分类加拿大野火期间用户生成内容的多模态数据集
标题: WildFireCan-MMD: A Multimodal dataset for Classification of User-generated Content During Wildfires in Canada
作者: Braeden Sherritt / Isar Nejadgholi / Marzieh Amini
原文:   [英文]   [中文]  
备注: None
摘要:
在野火期间,快速获取信息至关重要,但传统数据源往往缓慢且成本高昂。社交媒体提供了实时更新,但提取相关见解仍然是一个挑战。我们提出了WildFireCan-MMD,这是一个新的多模态数据集,包含来自最近加拿大野火的X个帖子,并根据13个关键主题进行了注释。通过评估视觉语言模型和定制训练的分类器,我们发现尽管零样本提示可以快速部署,但在有标注数据的情况下,即使是简单的训练模型也能比它们表现更好,性能提升可达23%。我们的研究结果强调了定制数据集和特定任务训练的重要性。重要的是,这样的数据集应该是本地化的,因为灾害响应需求因地区和背景而异。

[8] 动态记忆增强型Transformer用于高光谱图像分类
标题: Dynamic Memory-enhanced Transformer for Hyperspectral Image Classification
作者: Muhammad Ahmad / Manuel Mazzara / Salvatore Distefano / Adil Mehmood Khan
原文:   [英文]   [中文]  
备注: None
摘要:
高光谱图像(HSI)分类由于复杂的空间-光谱相关性而仍然是一项具有挑战性的任务。现有的Transformer模型在捕捉长距离依赖关系方面表现出色,但往往受到信息冗余和注意力效率低下的影响,限制了它们对HSI分类至关重要的细粒度关系的建模能力。为克服这些限制,本文提出了一种轻量级且增强记忆的Transformer模型——MemFormer。MemFormer引入了一种增强记忆的多头注意力机制,该机制通过迭代地优化动态记忆模块来提高特征提取能力,同时减少层间的冗余。此外,动态记忆丰富策略逐步捕捉复杂的空间和光谱依赖关系,从而获得更具表现力的特征表示。为了进一步提高结构一致性,我们为HSI数据设计了一种空间-光谱位置编码(SSPE),确保连续性而不增加基于卷积方法的计算负担。在基准数据集上的大量实验表明,MemFormer在分类准确性方面优于现有的先进方法。

[9] ChartQA-X:为图表生成解释
标题: ChartQA-X: Generating Explanations for Charts
作者: Shamanthak Hegde / Pooyan Fazli / Hasti Seifi
原文:   [英文]  
备注: None
摘要:
解释和说明图表中视觉数据的复杂信息的能力对于数据驱动的决策至关重要。在这项工作中,我们解决了在回答关于图表图像的问题时提供解释的挑战。我们提出了ChartQA-X,这是一个综合数据集,包含各种图表类型以及28,299个具有上下文相关性的问题、答案和详细解释。这些解释是通过提示六种不同的模型生成的,并根据忠实性、信息量、连贯性和困惑度等指标选择最佳响应。我们的实验表明,在我们的数据集上微调的解释生成模型在各种指标上表现优异,并在新数据集上的问答任务中表现出更高的准确性。通过将答案与解释性叙述相结合,我们的方法增强了智能代理有效传达复杂信息的能力,提高了用户的理解,并增强了对生成响应的信任。

[10] LIFT+: 长尾学习的轻量级微调
标题: LIFT+: Lightweight Fine-Tuning for Long-Tail Learning
作者: Jiang-Xin Shi / Tong Wei / Yu-Feng Li
原文:   [英文]  
备注: None
摘要:
微调范式在基础模型时代已成为解决长尾学习任务的突出方法。然而,微调策略对长尾学习性能的影响仍未被探索。在这项工作中,我们揭示了现有范式在微调方法上的严重误用,留有显著的改进空间以提高效率和准确性。具体而言,我们发现重度微调(微调大量模型参数)可能导致尾类性能显著下降,而轻量微调则表现出更优的效果。通过全面的理论和实证验证,我们将这一现象归因于重度微调引起的不一致类条件分布。基于这一洞察,我们提出了LIFT+,一个创新的轻量微调框架,以优化一致的类条件。此外,LIFT+结合了语义感知初始化、极简数据增强和测试时集成,以增强基础模型的适应性和泛化能力。我们的框架提供了一个高效且准确的流程,促进快速收敛和模型紧凑性。大量实验表明,LIFT+显著减少了训练周期(从约100减少到不超过15)和学习参数(少于1%),同时以显著优势超越了最先进的方法。源代码可在此https URL获取。

[11] 弱立方体 R-CNN:仅使用二维边界框的弱监督三维检测
标题: Weak Cube R-CNN: Weakly Supervised 3D Detection using only 2D Bounding Boxes
作者: Andreas Lau Hansen / Lukas Wanzeck / Dim P. Papadopoulos
原文:   [英文]   [中文]  
备注: 14 pages, 5 figures. Accepted for 23rd Scandinavian Conference, SCIA 2025, Reykjavik, Iceland
摘要:
单目3D目标检测是计算机视觉中的一项重要任务,在机器人和虚拟现实中有多种应用。然而,3D目标检测器通常以完全监督的方式进行训练,严重依赖于3D标注数据,而这些数据的标注既费时又昂贵。本文的工作重点是弱监督3D检测,通过单目方法减少数据需求,该方法利用单摄像头系统而非昂贵的LiDAR传感器或多摄像头设置。我们提出了一种通用模型Weak Cube R-CNN,可以在推理时预测3D中的物体,仅需2D框注释进行训练,方法是利用3D立方体的2D投影之间的关系。我们的方法利用预训练的冻结基础2D模型来估计训练集上的深度和方向信息。在训练过程中,我们将这些估计值用作伪真实值。我们设计了损失函数,通过将外部模型的信息纳入损失中来避免使用3D标签。通过这种方式,我们旨在在没有3D边界框注释的情况下,隐式地从这些大型基础2D模型中转移知识。在SUN RGB-D数据集上的实验结果显示,与注释时间相等的Cube R-CNN基线相比,准确性有所提高。虽然在厘米级测量上不够精确,但该方法为进一步研究提供了坚实的基础。

[12] 使用自监督预训练和课程感知采样的SAR目标检测
标题: SAR Object Detection with Self-Supervised Pretraining and Curriculum-Aware Sampling
作者: Yasin Almalioglu / Andrzej Kucik / Geoffrey French / Dafni Antotsiou / Alexander Adam / Cedric Archambeau
原文:   [英文]  
备注: Accepted to ICLR 2025 ML4RS this https URL
摘要:
在卫星合成孔径雷达(SAR)图像中进行目标检测在城市监测和灾害响应等任务中具有巨大潜力。然而,SAR数据的固有复杂性和标注的稀缺性对该领域目标检测的进展构成了重大挑战。特别是,由于技术的相对低空间分辨率和固有噪声,卫星SAR图像中小目标的检测是一个特别复杂的问题。此外,缺乏大型标注的SAR数据集阻碍了基于监督深度学习的目标检测模型的发展。在本文中,我们介绍了TRANSAR,这是一种新颖的自监督端到端视觉Transformer基础的SAR目标检测模型,它结合了对超过25,700平方公里地面面积的未标注SAR图像数据集的掩码图像预训练。与传统的目标检测方法不同,我们的方法利用辅助的二值语义分割,旨在后期调优过程中将感兴趣的目标,特别是较小的目标,从背景中分离出来。此外,为了解决由于目标与图像大小不成比例而导致的固有类别不平衡问题,我们引入了一种自适应采样调度器,该调度器在训练过程中基于课程学习和模型反馈动态调整目标类别分布。这种方法使我们能够在基准SAR数据集上的广泛评估中,超越传统的监督架构如DeepLabv3或UNet,以及最先进的基于自监督学习的架构如DPT、SegFormer或UperNet。

[13] VLLFL:一种基于视觉-语言模型的轻量级联邦学习框架用于智慧农业
标题: VLLFL: A Vision-Language Model Based Lightweight Federated Learning Framework for Smart Agriculture
作者: Long Li / Jiajia Li / Dong Chen / Lina Pu / Haibo Yao / Yanbo Huang
原文:   [英文]   [中文]  
备注: None
摘要:
在现代智能农业中,目标检测通过实现自动化、精准农业和资源监控发挥着至关重要的作用。从识别作物健康和虫害侵袭到优化收割过程,准确的目标检测提高了生产力和可持续性。然而,训练目标检测模型通常需要大规模的数据收集,并引发隐私问题,特别是当敏感的农业数据分布在各个农场时。为了解决这些挑战,我们提出了VLLFL,一种基于视觉语言模型的轻量级联邦学习框架(VLLFL)。它利用视觉语言模型(VLM)的泛化和上下文感知检测能力,并利用联邦学习的隐私保护特性。通过训练一个紧凑的提示生成器来提升部署在不同农场的VLM的性能,VLLFL在减少通信开销的同时保护隐私。实验结果表明,VLLFL在提高VLM性能方面实现了14.53%的提升,同时减少了99.3%的通信开销。该框架涵盖了从识别各种水果到检测农业中有害动物的任务,提供了一种高效、可扩展且隐私保护的解决方案,专门针对农业应用量身定制。

[14] POET:通过自动扩展文本到图像生成来支持提示创造力和个性化
标题: POET: Supporting Prompting Creativity and Personalization with Automated Expansion of Text-to-Image Generation
作者: Evans Xu Han / Alice Qian Zhang / Hong Shen / Haiyi Zhu / Paul Pu Liang / Jane Hsieh
原文:   [英文]   [中文]  
备注: None
摘要:
最先进的视觉生成AI工具具有巨大的潜力,可以在创意任务的早期构思阶段帮助用户——提供生成(而不是搜索)新颖且前所未有的(而不是现有的)高质量图像的能力,同时遵循用户规范的无限组合。然而,许多大规模文本到图像系统设计用于广泛的适用性,产生的常规输出可能限制创意探索。它们还采用可能对初学者来说困难的交互方法。鉴于创意终端用户通常以多样化、特定于上下文的方式操作,这些方式通常是不可预测的,因此需要更多的变化和个性化。我们介绍了POET,这是一种实时交互工具,它(1)自动发现文本到图像生成模型中的同质性维度,(2)扩展这些维度以多样化生成图像的输出空间,以及(3)从用户反馈中学习以个性化扩展。对28名用户进行的评估涵盖四个创意任务领域,证明了POET能够生成具有更高感知多样性的结果,并帮助用户在创意任务中通过更少的提示达到满意,从而促使他们在协同创作过程中对更广泛的可能生成结果进行深思熟虑和反思。专注于视觉创意,POET首次展示了未来文本到图像生成工具的交互技术如何在用户工作构思阶段支持并符合更多多元化的价值观和终端用户的需求。

[15] 甲虫宇宙:地甲虫分类研究
标题: BeetleVerse: A study on taxonomic classification of ground beetles
作者: S M Rayeed / Alyson East / Samuel Stevens / Sydne Record / Charles V Stewart
原文:   [英文]   [中文]  
备注: None
摘要:
地甲虫是一种高度敏感且种类繁多的生物指示物,使其在生物多样性监测中至关重要。然而,由于需要分类学专家通过细微的形态差异进行复杂的物种区分,这一过程需要大量的人工努力,限制了其广泛应用,地甲虫目前是一种未被充分利用的资源。在本文中,我们评估了12种视觉模型在四个多样化的长尾数据集上的分类能力,这些数据集涵盖了超过230个属和1769个物种,图像范围从受控实验室环境到具有挑战性的现场采集(原位)照片。我们进一步在两个重要的现实世界背景中探索分类:样本效率和领域适应。我们的结果表明,结合MLP头的视觉和语言变换器是表现最好的模型,在属级别上达到97%的准确率,在物种级别上达到94%。样本效率分析表明,我们可以在性能几乎不受影响的情况下将训练数据需求减少多达50%。领域适应实验揭示了从实验室图像到原位图像转移模型时的显著挑战,突显了关键的领域差距。总体而言,我们的研究为甲虫的大规模自动分类奠定了基础,并在此基础上推进了多样化长尾生态数据集的样本高效学习和跨领域适应。

[16] 面向零样本新型危险物体检测的多智能体视觉-语言系统,以提高自动驾驶安全性
标题: Towards a Multi-Agent Vision-Language System for Zero-Shot Novel Hazardous Object Detection for Autonomous Driving Safety
作者: Shashank Shriram / Srinivasa Perisetla / Aryan Keskar / Harsha Krishnaswamy / Tonko Emil Westerhof Bossen / Andreas Møgelmose / Ross Greer
原文:   [英文]   [中文]  
备注: None
摘要:
在自动驾驶中,检测视觉数据中特别是视频流中的异常危险是一个关键挑战。现有模型由于依赖于预定义的对象类别,往往难以应对不可预测的、超出标签的危险。在本文中,我们提出了一种多模态方法,将视觉-语言推理与零样本目标检测相结合,以改进危险识别和解释。我们的流程包括一个视觉-语言模型(VLM)和一个大型语言模型(LLM),用于检测交通场景中的危险物体。我们通过结合OpenAI的CLIP模型来匹配预测的危险与边界框注释,从而提高定位精度。为了评估模型性能,我们通过去噪和扩展基础的COOOL(超出标签挑战)异常检测基准数据集,创建了一个包含完整自然语言描述的危险注释的真实数据集。我们在扩展的数据集上定义了一种使用余弦相似度进行危险检测和标注评估的方法。该评估考虑了每个视频中预测的危险描述与标注的真实情况之间的语义相似性。此外,我们发布了一套用于构建和管理大规模危险检测数据集的工具。我们的研究结果突出了当前基于视觉-语言的方法的优缺点,并为未来改进自动危险检测系统提供了见解。我们的模型、脚本和数据可以在此https URL找到。

[17] CytoFM:首个细胞学基础模型
标题: CytoFM: The first cytology foundation model
作者: Vedrana Ivezić / Ashwath Radhachandran / Ekaterina Redekop / Shreeram Athreya / Dongwoo Lee / Vivek Sant / Corey Arnold / William Speier
原文:   [英文]  
备注: None
摘要:
细胞学因其微创特性在癌症诊断和筛查中至关重要。然而,由于样本染色和制备方法的异质性、不同器官之间的差异以及大型、多样、带注释数据集的有限性,开发用于数字细胞学的强大深度学习模型具有挑战性。为每个细胞学应用开发特定任务的模型是不切实际的,而非细胞学特定的基础模型在这个领域的任务中难以泛化,因为这些任务强调细胞形态。为了解决这些挑战,我们引入了CytoFM,这是第一个细胞学自监督基础模型。我们使用iBOT,这是一种自监督的Vision Transformer (ViT) 训练框架,结合了掩码图像建模和自蒸馏技术,我们在多样化的细胞学数据集上预训练CytoFM,以学习稳健、可转移的表示。我们在多个下游细胞学任务上评估CytoFM,包括乳腺癌分类和细胞类型识别,使用基于注意力的多实例学习框架。我们的结果表明,CytoFM在三个下游任务中的两个任务上表现优于现有的基础模型,这些模型预训练于组织病理学(UNI)或自然图像(iBOT-Imagenet)。学习表示的可视化表明,我们的模型能够关注与细胞学相关的特征。尽管预训练数据集较小,CytoFM的有希望的结果突显了任务无关的预训练方法从细胞学数据中学习稳健和可泛化特征的能力。

[18] ProgRoCC:一种渐进式粗略人群计数方法
标题: ProgRoCC: A Progressive Approach to Rough Crowd Counting
作者: Shengqin Jiang / Linfei Li / Haokui Zhang / Qingshan Liu / Amin Beheshti / Jian Yang / Anton van den Hengel / Quan Z. Sheng / Yuankai Qi
原文:   [英文]   [中文]  
备注: Under review
摘要:
随着人群中个体数量的增加,基于枚举的方法变得越来越不可行,其估计结果也越来越不可靠。我们提出了一种基于估计的问题版本:我们称之为粗略人群计数,它基于更容易获取的训练数据提供更好的准确性。粗略人群计数只需要对图像中目标数量的粗略标注,而不是更传统且昂贵得多的每个目标的标注。我们提出了一种基于CLIP的粗略人群计数问题的方法,称为ProgRoCC。具体来说,我们引入了一种渐进估计学习策略,通过粗到细的方法确定物体数量。该方法能够快速给出答案,并在半监督和弱监督人群计数中优于现有的最先进技术。此外,我们设计了一个视觉-语言匹配适配器,通过挖掘两种模态的有效匹配来优化键值对,以细化视觉特征,从而提高最终性能。在三个广泛采用的人群计数数据集上的大量实验结果证明了我们方法的有效性。

[19] 基于LoRA的持续学习及对关键参数变化的约束
标题: LoRA-Based Continual Learning with Constraints on Critical Parameter Changes
作者: Shimou Ling / Liang Zhang / Jiangwei Zhao / Lili Pan / Hongliang Li
原文:   [英文]   [中文]  
备注: None
摘要:
基于LoRA的持续学习代表了一种利用预训练模型进行下游持续学习任务的有前途的途径。最近的研究表明,正交LoRA微调有效地减轻了遗忘。然而,本研究揭示了在正交LoRA微调下,前任务的关键参数在学习后任务后仍然发生显著变化。为了解决这个问题,我们直接提出在学习后任务之前冻结Vision Transformer (ViT)中最关键的前任务参数矩阵。此外,基于正交LoRA微调,我们提出了基于QR分解的正交LoRA组合(LoRAC),这可能进一步增强我们方法的灵活性。精细的消融研究和广泛的比较证明了我们提出方法的有效性。我们的结果表明,我们的方法在几个著名的持续学习基准上达到了最先进的(SOTA)性能。例如,在Split CIFAR-100数据集上,我们的方法相比之前的方法在准确率上提高了6.35%,在遗忘率上减少了3.24%。我们的代码可以在这个https URL上获得。

[20] 可学习网格如何在低维中恢复细节:多重网格参数编码的神经切线核分析
标题: How Learnable Grids Recover Fine Detail in Low Dimensions: A Neural Tangent Kernel Analysis of Multigrid Parametric Encodings
作者: Samuel Audia / Soheil Feizi / Matthias Zwicker / Dinesh Manocha
原文:   [英文]   [中文]  
备注: None
摘要:
在计算机图形学和科学计算中,映射低维空间的神经网络无处不在;然而,在其简单实现中,它们无法学习高频信息。我们对比分析了两种最常见的缓解这种频谱偏差的技术:傅里叶特征编码(FFE)和多重网格参数编码(MPE)。FFE被视为低维映射的标准,但MPE通常表现更好,并能学习到更高分辨率和更精细的细节。由于FFE根植于傅里叶变换,如果推得太远,容易出现混叠,而MPE使用的是学习到的网格结构,没有这种限制。为了理解性能差异,我们使用神经切线核(NTK)通过类似的核回归视角来评估这些编码。通过找到NTK最小特征值的下界,我们证明了MPE通过其网格结构而非其可学习的嵌入来提高网络性能。这一机制与FFE根本不同,后者仅依赖其嵌入空间来提高性能。结果在一个使用ImageNet的100个同义词集的图像进行的2D图像回归任务和斯坦福图形数据集中的对象进行的3D隐式表面回归任务中得到了实证验证。使用峰值信噪比(PSNR)和多尺度结构相似性(MS-SSIM)来评估细节学习的效果,我们显示MPE将最小特征值提高了8个数量级,相较于基线提高了2个数量级。频谱的增加对应于相较于基线15 dB(PSNR)/ 0.65(MS-SSIM)的提升,以及相较于FFE 12 dB(PSNR)/ 0.33(MS-SSIM)的提升。

[21] Mono3R:利用单目线索进行几何3D重建
标题: Mono3R: Exploiting Monocular Cues for Geometric 3D Reconstruction
作者: Wenyu Li / Sidun Liu / Peng Qiao / Yong Dou
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,数据驱动的几何多视角三维重建基础模型(例如,DUSt3R)在各种三维视觉任务中表现出色,这得益于大规模高质量三维数据集的发布。然而,我们观察到,由于受限于其基于匹配的原则,现有模型在匹配线索有限的挑战性区域(特别是纹理较弱的区域和低光照条件下)的重建质量显著下降。为了解决这些限制,我们提出利用单目几何估计的内在鲁棒性来弥补基于匹配方法的固有缺陷。具体而言,我们引入了一个单目引导的细化模块,将单目几何先验整合到多视角重建框架中。这种整合显著增强了多视角重建系统的鲁棒性,从而实现高质量的前馈重建。通过多个基准的综合实验表明,我们的方法在多视角相机位姿估计和点云精度方面均取得了显著的改进。

[22] HSACNet:分层尺度感知一致性正则化半监督变化检测
标题: HSACNet: Hierarchical Scale-Aware Consistency Regularized Semi-Supervised Change Detection
作者: Qi'ao Xu / Pengfei Wang / Yanjun Li / Tianwen Qian / Xiaoling Wang
原文:   [英文]   [中文]  
备注: 7 pages, 8 figures, accepted by ICME 2025
摘要:
半监督变化检测(SSCD)旨在通过利用有限的标记数据和大量未标记数据来检测双时相遥感图像之间的变化。现有方法在复杂场景中表现不佳,尤其在面对噪声数据时表现不佳。它们通常忽视了层内多尺度特征,而过于强调层间融合,损害了不同尺度变化对象的完整性。在本文中,我们提出了HSACNet,一种用于SSCD的分层尺度感知一致性正则化网络。具体来说,我们集成了Segment Anything Model 2(SAM2),使用其Hiera骨干作为编码器来提取层间多尺度特征,并应用适配器进行参数高效微调。此外,我们设计了一个尺度感知差异注意模块(SADAM),能够精确捕捉层内多尺度变化特征并抑制噪声。此外,采用了一种双增强一致性正则化策略来有效利用未标记数据。跨四个变化检测基准的广泛实验表明,我们的HSACNet实现了最先进的性能,同时减少了参数和计算成本。

[23] 使用拟共形几何的圆形图像去湍流
标题: Circular Image Deturbulence using Quasi-conformal Geometry
作者: Chu Chen / Han Zhang / Lok Ming Lui
原文:   [英文]   [中文]  
备注: None
摘要:
光学传感器与物体之间存在不均匀介质会导致成像输出失真,从而显著增加后续图像处理任务的复杂性。图像修复的一个关键挑战是缺乏用于训练监督模型的高质量、成对标注的图像。在本文中,我们介绍了循环准共形去湍流(CQCD)框架,这是一种通过循环架构去除图像失真的无监督方法。该设计确保了修复后的图像在几何上准确且视觉上真实,同时防止了错误累积。循环修复过程涉及正向和逆向映射。为了确保估计的非刚性变形的双射性,我们利用计算准共形几何理论来正则化映射,强制其保持同胚性质。这保证了一个定义良好的变换,保持结构完整性并防止不必要的伪影。此外,紧框块被集成以编码对失真敏感的特征,以实现精确恢复。为了验证我们方法的性能,我们在各种合成和真实捕获的图像上进行了评估。实验结果表明,CQCD不仅在图像修复质量方面优于现有的最先进的去湍流方法,还提供了高度准确的变形场估计。

[24] 用于手术场景分割的非对称特征金字塔的时间传播
标题: Temporal Propagation of Asymmetric Feature Pyramid for Surgical Scene Segmentation
作者: Cheng Yuan / Yutong Ban
原文:   [英文]   [中文]  
备注: None
摘要:
手术场景分割对于机器人辅助腹腔镜手术的理解至关重要。当前的方法面临两个挑战:(i)静态图像的局限性,包括模糊的局部特征相似性和细粒度的结构细节,以及(ii)动态视频的复杂性,源于快速的器械运动和持续的视觉遮挡。现有方法主要关注空间特征提取,基本上忽视了手术视频流中的时间依赖性。为了解决这个问题,我们提出了时间不对称特征传播网络,这是一种双向注意力架构,能够实现跨帧特征传播。所提出的方法包含一个时间查询传播器,该传播器整合了多方向一致性约束,以增强帧特定的特征表示,以及一个聚合的不对称特征金字塔模块,该模块保留了解剖结构和手术器械的判别特征。我们的框架独特地实现了手术场景理解的时间指导和上下文推理。在两个公共基准上的全面评估显示,所提出的方法在EndoVis2018上以+16.4%的mIoU和在Endoscapes2023上以+3.3%的mAP大幅超越了当前的SOTA方法。代码将在论文接受后公开。

[25] SatelliteCalculator:用于定量遥感反演的多任务视觉基础模型
标题: SatelliteCalculator: A Multi-Task Vision Foundation Model for Quantitative Remote Sensing Inversion
作者: Zhenyu Yu / Mohd. Yamani Idna Idris / Pei Wang
原文:   [英文]   [中文]  
备注: None
摘要:
定量遥感反演在环境监测中起着关键作用,使得植被指数、冠层结构和碳储量等关键生态变量的估算成为可能。尽管视觉基础模型在分类和分割任务中取得了显著进展,但其在物理可解释回归中的应用仍然很少被探索。此外,遥感数据的多光谱特性和地理空间异质性对模型的泛化和可迁移性构成了重大挑战。为了解决这些问题,我们引入了SatelliteCalculator,这是第一个专为定量遥感反演量身定制的视觉基础模型。通过利用物理定义的指数公式,我们自动构建了一个包含超过一百万对样本的大规模数据集,涵盖八个核心生态指标。该模型集成了冻结的Swin Transformer骨干网络和提示引导架构,具有跨注意力适配器和轻量级任务特定的MLP解码器。在Open-Canopy基准测试上的实验表明,SatelliteCalculator在所有任务中都实现了具有竞争力的准确性,同时显著降低了推理成本。我们的结果验证了将基础模型应用于定量反演的可行性,并提供了一个可扩展的任务自适应遥感估算框架。

[26] MicroFlow:用于地震事件中地面变形估计的领域特定光流
标题: MicroFlow: Domain-Specific Optical Flow for Ground Deformation Estimation in Seismic Events
作者: Juliette Bertrand / Sophie Giffard-Roisin / James Hollingsworth / Julien Mairal
原文:   [英文]   [中文]  
备注: None
摘要:
密集的地面位移测量对于地质研究至关重要,但直接收集这些数据是不切实际的。传统上,位移场是通过对不同时期获取的光学卫星图像进行块匹配来估计的。虽然基于深度学习的光流模型很有前景,但在地面变形分析中的应用受到诸多挑战的阻碍,例如缺乏真实的地面真值、需要亚像素精度以及由于地质或人为变化导致的时间变化。特别是,我们发现依赖显式相关层的深度学习模型在现实条件下难以估计小位移。相反,我们提出了一种模型,该模型采用具有显式扭曲层和独立于相关性的骨干网络的迭代细化方法,从而实现亚像素精度。此外,非凸变体的全变分正则化在保持其他地方平滑的同时保留了断层线的清晰度。我们的模型在半合成基准测试中显著优于广泛使用的地球物理方法,并且能够很好地推广到由中高分辨率传感器捕获的具有挑战性的真实场景。项目页面:this https URL。

[27] 神经节传感器:借鉴人类视网膜神经回路的任务特定事件相机学习
标题: Neural Ganglion Sensors: Learning Task-specific Event Cameras Inspired by the Neural Circuit of the Human Retina
作者: Haley M. So / Gordon Wetzstein
原文:   [英文]   [中文]  
备注: None
摘要:
受人眼中神经元数据高效尖峰机制的启发,事件相机被创造出来,以通过发出异步的、每像素的强度变化,而不是传统的固定帧率图像,实现高时间分辨率,同时满足最低的功率和带宽要求。然而,与人眼中的视网膜神经节细胞(RGCs)不同,传统的事件相机在决定触发哪些事件时并不利用局部空间上下文,而视网膜神经节细胞会整合来自感受野内多个光感受器的信号以提取时空特征。此外,眼睛包含大约20种不同类型的视网膜神经节细胞,它们并行工作,各自适应不同的特征或条件。受这种生物设计的启发,我们引入了神经节传感器,这是传统事件相机的扩展,能够学习特定任务的时空视网膜核(即RGC“事件”)。我们在两个具有挑战性的任务上评估了我们的设计:视频插值和光流。我们的结果表明,与传统事件相机相比,我们的生物启发传感器提高了性能,同时减少了整体事件带宽。这些发现突显了受RGC启发的事件传感器在边缘设备和其他需要高效、高分辨率视觉流的低功耗实时应用中的潜力。

[28] 从噪声伪标签中学习用于全天候地表覆盖制图
标题: Learning from Noisy Pseudo-labels for All-Weather Land Cover Mapping
作者: Wang Liu / Zhiyu Wang / Xin Guo / Puhong Duan / Xudong Kang / Shutao Li
原文:   [英文]   [中文]  
备注: None
摘要:
由于SAR传感器对多云天气和光照条件的免疫性,SAR图像的语义分割在遥感领域引起了广泛关注。然而,SAR图像缺乏详细信息,并受到显著斑点噪声的困扰,使得SAR图像的标注或分割成为一项艰巨的任务。最近的研究尝试通过使用光学图像分割网络对配对的光学-SAR图像进行标注,以生成伪标签。然而,这些伪标签充满噪声,导致SAR图像分割性能不佳。在本研究中,我们引入了一种更精确的生成伪标签的方法,通过结合半监督学习和一种新颖的图像分辨率对齐增强技术。此外,我们引入了一种对称交叉熵损失,以减轻噪声伪标签的影响。此外,我们还利用了一系列训练和测试技巧,以生成更好的地物覆盖图结果。我们在GRSS数据融合竞赛上的实验表明了所提方法的有效性,并获得了第一名。代码可在此https URL获取。

[29] 链式思维文本推理用于少样本时序动作定位
标题: Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization
作者: Hongwei Ji / Wulian Yun / Mengshi Qi / Huadong Ma
原文:   [英文]   [中文]  
备注: None
摘要:
传统的时间动作定位(TAL)方法依赖于大量详细的标注数据,而小样本TAL通过仅使用少量训练样本来识别未见过的动作类别,从而减少了这种依赖。然而,现有的小样本TAL方法通常仅关注视频级信息,忽视了文本信息,而文本信息可以为定位任务提供有价值的语义支持。因此,我们提出了一种新的小样本时间动作定位方法,通过链式思维文本推理来提高定位性能。具体来说,我们设计了一种新颖的小样本学习框架,利用文本语义信息来增强模型捕捉动作共性和变化的能力,其中包括一个语义感知的文本-视觉对齐模块,旨在在不同层次上对齐查询和支持视频。同时,为了更好地在文本层面表达动作之间的时间依赖性和因果关系以辅助动作定位,我们设计了一种类似链式思维(CoT)的推理方法,逐步引导视觉语言模型(VLM)和大型语言模型(LLM)为视频生成类似CoT的文本描述。生成的文本可以比视觉特征捕捉到更多的动作变化。我们在公开可用的ActivityNet1.3和THUMOS14数据集上进行了广泛的实验。我们引入了第一个名为人类相关异常定位的数据集,并探索了TAL任务在人类异常检测中的应用。实验结果表明,我们提出的方法在单实例和多实例场景中显著优于现有方法。我们将发布我们的代码、数据和基准。

[30] HMPE:基于热图嵌入的高效Transformer小目标检测
标题: HMPE:HeatMap Embedding for Efficient Transformer-Based Small Object Detection
作者: YangChen Zeng
原文:   [英文]   [中文]  
备注: None
摘要:
当前基于Transformer的小目标检测方法不断涌现,但它们仍然存在显著的不足。本文介绍了一种新的Transformer优化技术——热图位置嵌入(HMPE),通过热图引导的自适应方法,将位置编码与语义检测信息动态集成,从而提高目标检测性能。我们还创新性地对HMPE方法进行了可视化,提供了嵌入信息的清晰可视化,以便于参数分析。随后,我们创建了多尺度对象框-热图融合编码器(MOHFE)和用于解码器的热图引导高质量查询(HIDQ)模块。它们分别设计用于编码器和解码器,以生成高质量的查询并减少背景噪声。通过结合热图嵌入和线性蛇形卷积(LSConv)特征工程,我们增强了对大量多样化小目标类别的嵌入,并减少了解码器多头层,从而加速了推理和训练。在泛化实验中,我们的方法在小目标数据集(NWPU VHR-10)上比基线mAP提高了1.9%,在通用数据集(PASCAL VOC)上提高了1.2%。通过采用HMPE增强的嵌入,我们能够将解码器层数从八层减少到最少三层,显著降低了推理和训练成本。

[31] 用于指令引导图像编辑的早期时间步零样本候选选择
标题: Early Timestep Zero-Shot Candidate Selection for Instruction-Guided Image Editing
作者: Joowon Kim / Ziseok Lee / Donghyeon Cho / Sanghyun Jo / Yeonsung Jung / Kyungsu Kim / Eunho Yang
原文:   [英文]   [中文]  
备注: None
摘要:
尽管扩散模型在最近取得了进展,但由于采样过程中随机噪声引起的固有多样性,实现可靠的图像生成和编辑仍然具有挑战性。基于指令的扩散模型图像编辑提供了用户友好的功能,但编辑失败(如背景失真)经常发生。用户通常通过反复试验来调整种子或提示词以获得满意的结果,这效率不高。虽然存在用于文本到图像(T2I)生成的种子选择方法,但它们依赖于外部验证器,限制了适用性,并且评估多个种子增加了计算复杂性。为了解决这个问题,我们首先使用背景一致性评分建立了一个基于多种子的图像编辑基线,在没有监督的情况下实现了最佳的N次性能。在此基础上,我们引入了ELECT(早期时间步潜在评估候选选择),这是一种零样本框架,通过在早期扩散时间步估计背景不匹配来选择可靠的种子,识别出在仅修改前景的同时保留背景的种子。ELECT通过背景不一致评分对种子候选进行排序,基于背景一致性早期过滤不合适的样本,同时保留可编辑性。除了独立的种子选择,ELECT还集成到指令引导的编辑流程中,并扩展到多模态大语言模型(MLLMs)以进行联合种子和提示选择,当仅种子选择不足时进一步改善结果。实验表明,ELECT在提高背景一致性和指令遵循的同时,减少了计算成本(平均减少41%,最高可达61%),在先前失败的情况下实现了约40%的成功率——无需任何外部监督或训练。

[32] U-Shape Mamba:用于更快扩散的状态空间模型
标题: U-Shape Mamba: State Space Model for faster diffusion
作者: Alex Ergasti / Filippo Botti / Tomaso Fontanini / Claudio Ferrari / Massimo Bertozzi / Andrea Prati
原文:   [英文]   [中文]  
备注: Accepeted at CVPR 2025 eLVM workshop
摘要:
扩散模型已成为高质量图像生成的最流行方法,但其高计算成本仍然是一个显著的挑战。为了解决这个问题,我们提出了U-Shape Mamba(USM),这是一种新颖的扩散模型,它在类似U-Net的层次结构中利用基于Mamba的层。通过在编码器中逐步减少序列长度,并通过Mamba块在解码器中恢复,USM在保持强大生成能力的同时显著降低了计算开销。与目前最有效的基于Mamba的扩散模型Zigma的实验结果表明,USM实现了三分之一的GFlops,所需内存更少且速度更快,同时在图像质量上优于Zigma。在AFHQ、CelebAHQ和COCO数据集上的Frechet Inception Distance(FID)分别提高了15.3、0.84和2.7分。这些发现突显了USM作为一种高效且可扩展的扩散生成模型解决方案,使高质量图像合成对研究界更为可及,同时降低了计算成本。

[33] OBIFormer:一种用于甲骨文的快速注意去噪框架
标题: OBIFormer: A Fast Attentive Denoising Framework for Oracle Bone Inscriptions
作者: Jinhao Li / Zijian Chen / Tingzhu Chen / Zhiji Liu / Changbo Wang
原文:   [英文]   [中文]  
备注: None
摘要:
甲骨文是已知最早的汉字形式,是人类学和考古学研究的宝贵资源。然而,由于数千年的自然风化、腐蚀和人为破坏,大多数出土的甲骨文碎片严重退化,使得自动甲骨文识别极具挑战性。以往的方法要么专注于像素级信息,要么使用普通的变压器进行基于字形的甲骨文去噪,这导致了巨大的计算开销。因此,本文提出了一种快速注意力去噪框架用于甲骨文,即OBIFormer。它利用通道自注意力、字形提取和选择性核特征融合来精确重建去噪图像,同时具有计算效率。我们的OBIFormer在合成和原始甲骨文数据集上的PSNR和SSIM指标上实现了最先进的去噪性能。此外,在真实甲骨文数据集上的综合实验表明,我们的OBIFormer在辅助自动甲骨文识别方面具有巨大潜力。代码将在此https URL上提供。

[34] EG-Gaussian:极线几何和图网络增强的三维高斯点云
标题: EG-Gaussian: Epipolar Geometry and Graph Network Enhanced 3D Gaussian Splatting
作者: Beizhen Zhao / Yifan Zhou / Zijian Wang / Hao Wang
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们探讨了一个关于从图像重建3D场景的开放研究问题。最近的方法采用3D高斯散点(3DGS)来生成3D场景,因为其训练过程高效。然而,这些方法可能会生成不完整的3D场景或模糊的多视图。这是因为(1)3DGS点初始化不准确和(2)3DGS在稀疏视图输入下倾向于将3D高斯扁平化。为了解决这些问题,我们提出了一种新颖的框架EG-Gaussian,该框架利用极线几何和图网络进行3D场景重建。首先,我们将极线几何整合到3DGS初始化阶段,以增强初始3DGS点的构建。然后,我们专门设计了一个图学习模块来优化3DGS的空间特征,其中我们结合了邻近点之间的空间坐标和角度关系。在室内和室外基准数据集上的实验表明,与基于3DGS的方法相比,我们的方法显著提高了重建精度。

[35] 超越独热标签:用于模型校准的语义混合
标题: Beyond One-Hot Labels: Semantic Mixing for Model Calibration
作者: Haoyang Luo / Linwei Tao / Minjing Dong / Chang Xu
原文:   [英文]   [中文]  
备注: None
摘要:
模型校准旨在确保模型生成的置信度分数能够准确反映其预测正确的真实可能性。然而,现有的校准方法基本上依赖于一元标签的数据集,隐含地假设所有标注都具有完全的确定性。这样的数据集对于分类是有效的,但在模型校准中提供的关于不确定性的知识却不足,因此需要整理具有数值丰富的真实置信度值的数据集。然而,由于不确定视觉样本的稀缺,这样的样本作为真实数据集并不容易获得。在本文中,我们引入了校准感知的数据增强方法,以创建具有多样化样本及其真实不确定性值的合成数据集。具体来说,我们提出了校准感知语义混合(CSM),这是一种新颖的框架,通过扩散模型生成具有混合类别特征的训练样本,并为其标注不同的置信度分数。基于该框架,我们提出了校准重标注,以解决在扩散逆过程中的标注置信度分数与混合比例之间的不匹配问题。此外,我们探索了更适合新数据表示范式的损失函数。实验结果表明,与最先进的校准方法相比,CSM实现了更优的校准效果。代码可在此网址获取。

[36] 零样本工业异常分割与图像感知提示生成
标题: Zero-Shot Industrial Anomaly Segmentation with Image-Aware Prompt Generation
作者: SoYoung Park / Hyewon Lee / Mingyu Choi / Seunghoon Han / Jong-Ryul Lee / Sungsu Lim / Tae-Ho Kim
原文:   [英文]   [中文]  
备注: Accepted to PAKDD 2025, 12 pages
摘要:
异常分割对于工业质量、维护和稳定性至关重要。现有的文本引导零样本异常分割模型虽然有效,但依赖于固定的提示,限制了在多样化工业场景中的适应性。这突显了灵活、上下文感知提示策略的必要性。我们提出了图像感知提示异常分割(IAP-AS),通过使用图像标记模型和大型语言模型(LLM)生成动态、上下文感知的提示来增强异常分割。IAP-AS从图像中提取对象属性以生成上下文感知的提示,从而在动态和非结构化的工业环境中提高适应性和泛化能力。在我们的实验中,IAP-AS将F1-max指标提高了最多10%,展示了卓越的适应性和泛化能力。它为跨行业的异常分割提供了一个可扩展的解决方案。

[37] WeatherGen:通过蜘蛛曼巴扩散为LiDAR点云生成统一多样天气的生成器
标题: WeatherGen: A Unified Diverse Weather Generator for LiDAR Point Clouds via Spider Mamba Diffusion
作者: Yang Wu / Yun Zhu / Kaihua Zhang / Jianjun Qian / Jin Xie / Jian Yang
原文:   [英文]   [中文]  
备注: None
摘要:
3D场景感知需要大量的恶劣天气LiDAR数据,但LiDAR数据收集的成本带来了显著的扩展挑战。为此,一系列LiDAR模拟器被提出。然而,它们只能用单一的物理模型模拟单一的恶劣天气,生成数据的逼真度相当有限。本文提出了WeatherGen,这是第一个统一的多样天气LiDAR数据扩散生成框架,显著提高了逼真度。具体来说,我们首先设计了一个基于地图的数据生成器,可以为训练提供大量高质量的多样天气数据。然后,我们利用扩散-去噪范式构建了一个扩散模型。在其中,我们提出了一个蜘蛛曼巴生成器,以逐步恢复被扰乱的多样天气数据。蜘蛛曼巴通过扫描LiDAR光束圆或中心射线来建模特征交互,出色地保持了LiDAR数据的物理结构。随后,跟随生成器转移真实世界的知识,我们设计了一个潜在特征对齐器。之后,我们设计了一个基于对比学习的控制器,通过语言监督为天气控制信号配备紧凑的语义知识,引导扩散模型生成更具辨别力的数据。广泛的评估证明了WeatherGen的高生成质量。通过WeatherGen,我们构建了mini-weather数据集,提升了下游任务在恶劣天气条件下的性能。代码可在此URL获取。

[38] HDBFormer:采用异构双分支框架的高效RGB-D语义分割
标题: HDBFormer: Efficient RGB-D Semantic Segmentation with A Heterogeneous Dual-Branch Framework
作者: Shuobin Wei / Zhuang Zhou / Zhengan Lu / Zizhao Yuan / Binghua Su
原文:   [英文]  
备注: 6 pages, 4 figures, published to IEEE Signal Processing Letter
摘要:
在室内场景的RGB-D语义分割中,一个关键挑战是如何有效整合来自RGB图像的丰富色彩信息和来自深度图像的空间距离信息。然而,大多数现有方法忽视了RGB和深度图像在信息表达上的固有差异。正确区分RGB和深度图像的处理方式对于充分利用它们独特且重要的特性至关重要。为此,我们提出了一种新颖的异构双分支框架,称为HDBFormer,专门设计用于处理这些模态差异。对于包含丰富细节的RGB图像,我们使用基本编码器和细节编码器来提取局部和全局特征。对于较简单的深度图像,我们提出了LDFormer,这是一种轻量级的分层编码器,可以用更少的参数高效提取深度特征。此外,我们引入了模态信息交互模块(MIIM),该模块结合了变压器和大核卷积,以高效地跨模态交互全局和局部信息。大量实验表明,HDBFormer在NYUDepthv2和SUN-RGBD数据集上实现了最先进的性能。代码可在此URL获取:this https URL。

[39] 利用自动CAD注释进行3D场景理解中的监督学习
标题: Leveraging Automatic CAD Annotations for Supervised Learning in 3D Scene Understanding
作者: Yuchen Rao / Stefan Ainetter / Sinisa Stekovic / Vincent Lepetit / Friedrich Fraundorfer
原文:   [英文]   [中文]  
备注: Github Page: this https URL
摘要:
高级3D场景理解在许多应用中至关重要。然而,生成准确的3D标注的挑战使得深度学习模型的开发变得困难。我们借助于最近在自动检索合成CAD模型方面的进展,展示了由这些方法生成的数据可以用作训练监督深度学习模型的高质量真实数据。更具体地说,我们采用了一种类似于之前用于自动标注ScanNet场景中物体的9D姿态和CAD模型的流程。这次,我们将其应用于最近的ScanNet++ v1数据集,该数据集之前缺乏此类标注。我们的研究结果表明,不仅可以在这些自动获取的标注上训练深度学习模型,而且所得到的模型性能优于那些在手动标注数据上训练的模型。我们在两个不同的任务上验证了这一点:点云补全和单视图CAD模型检索与对齐。我们的结果强调了自动3D标注在提高模型性能的潜力,同时显著降低标注成本。为了支持未来在3D场景理解方面的研究,我们将发布我们的标注,称之为SCANnotate++,以及我们训练的模型。

[40] HAECcity:使用超级点图聚类进行城市规模点云的开放词汇场景理解
标题: HAECcity: Open-Vocabulary Scene Understanding of City-Scale Point Clouds with Superpoint Graph Clustering
作者: Alexander Rusnak / Frédéric Kaplan
原文:   [英文]   [中文]  
备注: Accepted for publication through the upcoming CVPR Workshop on open scene understanding with foundation models (OPENSUN3D)
摘要:
传统的3D场景理解技术通常依赖于人工标注的标签集,但近年来出现了一类新的开放词汇3D场景理解技术。尽管这种范式在小型场景中取得了成功,但现有的方法无法有效扩展到城市规模的3D数据集。在本文中,我们提出了分层词汇无关专家聚类(HAEC),其名称来源于拉丁词“these”,这是一种基于超级点图聚类的方法,利用了一种新颖的专家混合图变换器作为其骨干。我们将这种高度可扩展的方法应用于SensatUrban城市规模数据集上的首次开放词汇场景理解应用。我们还展示了一种完全从原始点云中派生的合成标注流程,无需人工标注。我们的技术可以帮助解锁对密集城市3D场景的复杂操作,并为数字孪生的处理开辟一条新路径。

[41] KAN还是MLP?点云指引前进方向
标题: KAN or MLP? Point Cloud Shows the Way Forward
作者: Yan Shi / Qingdong He / Yijun Liu / Xiaoyu Liu / Jingyong Su
原文:   [英文]   [中文]  
备注: None
摘要:
多层感知器(MLPs)由于其有效的特征学习机制,已成为点云分析中的基本架构组件之一。然而,在处理点云中的复杂几何结构时,MLPs 固定的激活函数难以有效捕捉局部几何特征,同时存在参数效率低和模型冗余高的问题。在本文中,我们提出了 PointKAN,它将 Kolmogorov-Arnold 网络(KANs)应用于点云分析任务,以研究其在层次特征表示中的有效性。首先,我们引入了几何仿射模块(GAM)来转换局部特征,提高模型对几何变化的鲁棒性。接着,在局部特征处理(LFP)中,采用并行结构提取组级特征和全局上下文,提供了丰富的细节和整体结构表示。最后,这些特征在全局特征处理(GFP)中被组合和处理。通过重复这些操作,感受野逐渐扩大,使模型能够捕捉点云的完整几何信息。为了克服标准 KANs 的高参数量和计算效率低的问题,我们在 PointKAN-elite 变体中开发了高效 KANs,大幅减少了参数量,同时保持了准确性。实验结果表明,PointKAN 在 ModelNet40、ScanObjectNN 和 ShapeNetPart 等基准数据集上优于 PointMLP,尤其在少样本学习任务中表现出色。此外,PointKAN 在参数量和计算复杂度(FLOPs)上实现了显著减少。这项工作突显了基于 KANs 的架构在 3D 视觉中的潜力,并为点云理解研究开辟了新途径。

[42] LMPOcc:利用历史遍历的长期记忆先验进行3D语义占用预测
标题: LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals
作者: Shanshuai Yuan / Julong Wei / Muer Tie / Xiangyun Ren / Zhongxue Gan / Wenchao Ding
原文:   [英文]   [中文]  
备注: None
摘要:
基于视觉的三维语义占用预测对于自动驾驶至关重要,它能够统一建模静态基础设施和动态代理。在实际应用中,自动驾驶车辆可能在不同的环境条件下(如天气变化和光照变化)反复穿越相同的地理位置。现有的三维占用预测方法主要整合相邻的时间上下文。然而,这些方法忽视了利用从相同地理位置的历史穿越中获取的感知信息。在本文中,我们提出了长期记忆先验占用(LMPOcc),这是第一个利用历史穿越感知输出中长期记忆先验的三维占用预测方法。我们引入了一种即插即用的架构,该架构整合长期记忆先验以增强局部感知,同时构建全局占用表示。为了自适应地聚合先验特征和当前特征,我们开发了一种高效的轻量级当前-先验融合模块。此外,我们提出了一种与模型无关的先验格式,以确保与各种占用预测基线的兼容性。LMPOcc在Occ3D-nuScenes基准上实现了最先进的性能,特别是在静态语义类别上。此外,实验结果表明,LMPOcc能够通过多车辆众包构建全局占用。

[43] FocusTrack:一种用于高效反无人机跟踪的自适应局部采样算法
标题: FocusTrack: A Self-Adaptive Local Sampling Algorithm for Efficient Anti-UAV Tracking
作者: Ying Wang / Tingfa Xu / Jianan Li
原文:   [英文]   [中文]  
备注: 13pages, 13 figures
摘要:
反无人机跟踪面临重大挑战,包括目标尺寸小、摄像机运动突然以及红外背景杂乱。现有的跟踪范式大致可分为基于全局和基于局部的方法。基于全局的跟踪器,如SiamDT,通过扫描整个视野来实现高精度,但由于计算开销过大,限制了其在实际中的应用。相比之下,基于局部的方法,包括OSTrack和ROMTrack,能够有效地限制搜索区域,但在目标因摄像机运动突然而发生显著位移时表现不佳。通过初步实验可以看出,当局部跟踪器与自适应搜索区域调整相结合时,可以显著提高跟踪精度,缩小局部和全局跟踪器之间的差距。为了解决这一挑战,我们提出了FocusTrack,这是一种新颖的框架,可以动态优化搜索区域并增强特征表示,实现计算效率和跟踪精度的最佳平衡。具体而言,我们的搜索区域调整(SRA)策略估计目标存在概率并自适应调整视野,确保目标始终处于焦点内。此外,为了对抗因搜索区域变化导致的特征退化,提出了注意力到掩码(ATM)模块。该模块整合了分层信息,丰富了目标表示的细节。实验结果表明,FocusTrack实现了最先进的性能,在AntiUAV上获得了67.7%的AUC,在AntiUAV410上获得了62.8%的AUC,分别比基线跟踪器高出8.5%和9.1%的AUC。在效率方面,FocusTrack超越了基于全局的跟踪器,仅需30G MACs,并在FocusTrack(SRA)下实现了143 fps,在完整版本下实现了44 fps,两者均支持实时跟踪。

[44] 用于细粒度视觉分类的跨层次双向一致性学习
标题: Cross-Hierarchical Bidirectional Consistency Learning for Fine-Grained Visual Classification
作者: Pengxiang Gao / Yihao Liang / Yanzhi Song / Zhouwang Yang
原文:   [英文]   [中文]  
备注: None
摘要:
细粒度视觉分类(FGVC)旨在对密切相关的子类进行分类,这项任务因类间差异极小和类内差异显著而变得复杂。现有方法通常依赖额外的注释进行图像分类,忽视了嵌入在树状层级结构中描绘层级标签关系的宝贵信息。为了利用这些知识提高分类准确性和一致性,我们提出了一种新颖的跨层级双向一致性学习(CHBC)框架。CHBC框架使用专门设计的模块来分解和增强注意力掩码和特征,从而在不同层级中提取判别特征。我们采用双向一致性损失来调节不同层级的分类结果,确保标签预测的一致性并减少误分类。在三个广泛使用的FGVC数据集上的实验验证了CHBC框架的有效性。消融研究进一步探讨了特征增强和一致性约束的应用策略,强调了所提出模块的显著贡献。

[45] 使用强化学习编译场景图
标题: Compile Scene Graphs with Reinforcement Learning
作者: Zuyao Chen / Jinlin Wu / Zhen Lei / Marc Pollefeys / Chang Wen Chen
原文:   [英文]   [中文]  
备注: None
摘要:
下一个标记预测是训练大型语言模型(LLMs)的基本原则,而强化学习(RL)进一步增强了它们的推理性能。作为一种有效的语言、图像、视频及其他模态建模方式,使用LLMs进行端到端提取结构化视觉表示(如场景图)仍然未被充分探索。这需要模型准确地产生一组对象和关系三元组,而不是逐个生成文本标记。为此,我们引入了R1-SGG,一种多模态LLM(M-LLM),最初通过场景图数据集上的监督微调(SFT)进行训练,随后通过强化学习进行优化,以增强其端到端生成场景图的能力。SFT遵循传统的提示-响应范式,而RL则需要设计有效的奖励信号。鉴于场景图的结构化特性,我们设计了一种以图为中心的奖励函数,整合了节点级奖励、边级奖励和格式一致性奖励。我们的实验表明,基于规则的RL显著提升了模型在SGG任务中的性能,实现了零失败率——而监督微调(SFT)则难以有效泛化。我们的代码可在此https URL获取。

[46] 以自我为中心的助手的视觉意图基础
标题: Visual Intention Grounding for Egocentric Assistants
作者: Pengzhan Sun / Junbin Xiao / Tze Ho Elden Tse / Yicong Li / Arjun Akula / Angela Yao
原文:   [英文]   [中文]  
备注: None
摘要:
视觉定位将文本描述与图像中的对象关联起来。传统方法针对第三人称图像输入和命名对象查询。在诸如人工智能助手的应用中,视角发生了变化——输入是以自我为中心的,对象可能通过需求和意图被隐含地提及。为弥合这一差距,我们引入了EgoIntention,这是第一个用于自我中心视觉意图定位的数据集。EgoIntention挑战多模态大型语言模型:1)理解并忽略无意的上下文对象,2)推理不常见的对象功能。基准测试结果表明,当前模型在自我中心视图中错误识别上下文对象,并缺乏对可供性(affordance)的理解。我们还提出了Reason-to-Ground(RoG)指令调优;它通过链式意图推理和对象定位机制,实现了正常描述和自我中心意图的混合训练。RoG在EgoIntention上显著优于简单微调和混合训练,同时保持或略微改善了简单描述定位。这一进步使得统一的视觉定位能够处理自我中心和外部中心的视觉输入,同时处理显式对象查询和隐含的人类意图。

[47] DenSe-AdViT:一种用于密集SAR目标检测的新型视觉Transformer
标题: DenSe-AdViT: A novel Vision Transformer for Dense SAR Object Detection
作者: Yang Zhang / Jingyi Cao / Yanan You / Yuanyuan Qiao
原文:   [英文]  
备注: None
摘要:
视觉Transformer(ViT)在合成孔径雷达(SAR)图像的目标检测中取得了显著的成果,这归功于其卓越的全局特征提取能力。然而,它在多尺度局部特征的提取上存在困难,导致在检测小目标时性能有限,尤其是在目标密集排列的情况下。因此,我们提出了具有自适应令牌的密度敏感视觉Transformer(DenSe-AdViT)用于密集SAR目标检测。我们设计了一个密度感知模块(DAM)作为初步组件,该模块基于目标分布生成密度张量。它由精心设计的目标度量引导,能够精确有效地捕捉物体的空间分布和密度。为了将卷积神经网络(CNNs)增强的多尺度信息与Transformer提取的全局特征相结合,我们提出了密度增强融合模块(DEFM)。该模块在密度掩码和多源特征的辅助下,有效地优化了对目标存活区域的关注。值得注意的是,我们的DenSe-AdViT在RSDD数据集上实现了79.8%的mAP,在SIVED数据集上实现了92.5%的mAP,这两个数据集都包含大量密集分布的车辆目标。

[48] 多模态医学图像分割和预后中的高效参数适应
标题: Efficient Parameter Adaptation for Multi-Modal Medical Image Segmentation and Prognosis
作者: Numan Saeed / Shahad Hardan / Muhammad Ridzuan / Nada Saadi / Karthik Nandakumar / Mohammad Yaqub
原文:   [英文]   [中文]  
备注: None
摘要:
癌症的检测和预后在很大程度上依赖于医学影像,特别是CT和PET扫描。深度神经网络(DNNs)通过融合这些模态的信息,在肿瘤分割方面显示出很大的潜力。然而,存在一个关键瓶颈:在训练和推理过程中同时依赖CT-PET数据,由于PET扫描的有限可用性,这构成了一个挑战。因此,迫切需要一个灵活且高效的框架,该框架可以通过广泛可用的CT扫描进行训练,并在PET扫描可用时进行适应。在这项工作中,我们提出了一种参数高效的多模态适应(PEMMA)框架,用于轻量级升级仅在CT扫描上训练的基于变压器的分割模型,以便在PET扫描可用时能够高效适应使用。该框架进一步扩展以执行预后任务,同时保持相同的高效跨模态微调方法。我们在两个知名的分割骨干网络上测试了所提出的方法,即UNETR和Swin UNETR。我们的方法提供了两个主要优势。首先,我们利用变压器架构的固有模块化,执行注意力权重的低秩适应(LoRA)以及分解低秩适应(DoRA),以实现参数高效的适应。其次,通过最小化跨模态纠缠,PEMMA允许仅使用一种模态进行更新,而不会在另一种模态中导致灾难性遗忘。我们的方法在仅使用8%的可训练参数的情况下,实现了与早期融合相当的性能,并在仅使用单一模态训练时,在PET扫描上显示出显著的+28% Dice分数提升。此外,在预后方面,当将CT预训练模型适应以包括PET扫描时,我们的方法将一致性指数提高了+10%,而在适应包括PET和EHR数据时提高了+23%。

[49] 增强坑洞检测与特征化:道路异常系统中的集成分割与深度估计
标题: Enhancing Pothole Detection and Characterization: Integrated Segmentation and Depth Estimation in Road Anomaly Systems
作者: Uthman Baroudi / Alala BaHamid / Yasser Elalfy / Ziad Al Alami
原文:   [英文]  
备注: None
摘要:
道路异常检测在道路维护以及提高驾驶员和车辆的安全性方面起着至关重要的作用。最近的机器学习方法已经克服了手动分析和异常计数的繁琐和耗时过程;然而,它们通常在提供道路坑洼的完整特征描述方面有所不足。在本文中,我们通过采用预训练的YOLOv8-seg模型进行迁移学习,以自动表征通过仪表盘安装的摄像头捕获的数字图像中的坑洼。我们的工作包括创建一个新颖的数据集,该数据集由在沙特阿拉伯的Al-Khobar市和KFUPM校园的不同道路环境中收集的图像及其对应的深度图组成。我们的方法执行坑洼检测和分割,以精确定位坑洼并计算其面积。随后,将分割后的图像与其深度图合并,以提取坑洼的详细深度信息。这种分割和深度数据的整合相比于之前基于深度学习的道路异常检测系统提供了更全面的特征描述。总体而言,这种方法不仅有可能通过改善道路危险的检测和表征来显著增强自动驾驶车辆的导航能力,还能帮助道路维护部门更有效地应对道路损坏。

[50] EyecareGPT:通过定制数据集、基准和模型提升全面眼科理解
标题: EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model
作者: Sijing Li / Tianwei Lin / Lingshuai Lin / Wenqiao Zhang / Jiang Liu / Xiaoda Yang / Juncheng Li / Yucheng He / Xiaohui Song / Jun Xiao / Yueting Zhuang / Beng Chin Ooi
原文:   [英文]   [中文]  
备注: None
摘要:
医学大规模视觉语言模型(Med-LVLMs)在医疗保健领域展现出显著潜力,但它们对一般医学数据的依赖以及粗粒度的全局视觉理解限制了其在智能眼科诊断中的应用。目前,智能眼科诊断面临三大挑战:(i)数据。缺乏深度标注的高质量多模态眼科视觉指令数据;(ii)基准。缺乏用于评估诊断性能的全面系统的基准;(iii)模型。难以将整体视觉架构适应于细粒度、区域特定的眼科病变识别。在本文中,我们提出了Eyecare Kit,系统地解决了上述三个关键挑战,提供了定制的数据集、基准和模型:首先,我们构建了一个多代理数据引擎,利用真实的眼科数据生成Eyecare-100K,一个高质量的眼科视觉指令数据集。随后,我们设计了Eyecare-Bench,一个全面评估LVLMs在智能眼科诊断任务中整体性能的基准,涵盖多个维度。最后,我们开发了EyecareGPT,经过优化以彻底实现细粒度的眼科视觉理解,结合了自适应分辨率机制和逐层密集连接器。大量实验结果表明,EyecareGPT在一系列眼科任务中达到了最先进的性能,突显了其在推动智能眼科诊断开放研究方面的巨大潜力。我们的项目可在此HTTPS URL获取。

[51] AnyTSR:用于无人机的任意尺度热超分辨率
标题: AnyTSR: Any-Scale Thermal Super-Resolution for UAV
作者: Mengyuan Li / Changhong Fu / Ziyu Lu / Zijie Zhang / Haobo Zuo / Liangliang Yao
原文:   [英文]   [中文]  
备注: None
摘要:
热成像可以极大地增强智能无人机在复杂环境中的应用。然而,热传感器固有的低分辨率导致细节不足和边界模糊。超分辨率(SR)提供了一个有前景的解决方案来解决这个问题,但现有的大多数SR方法是为固定比例的SR设计的,它们在实际应用中计算量大且不够灵活。为了解决上述问题,本文提出了一种新颖的单模型任意比例热超分辨率方法(AnyTSR)用于无人机。具体来说,提出了一种新的图像编码器,明确分配特定特征码以实现更准确和灵活的表示。此外,通过有效地将坐标偏移信息嵌入到局部特征集合中,提出了一种创新的任意比例上采样器,以更好地理解空间关系并减少伪影。此外,构建了一个新的数据集(UAV-TSR),涵盖陆地和水域场景,用于热超分辨率任务。实验结果表明,所提出的方法在所有缩放因子上始终优于最先进的方法,并生成更准确和详细的高分辨率图像。代码位于这个https URL。

[52] 分析视觉语言模型对常见损坏的鲁棒性
标题: Analysing the Robustness of Vision-Language-Models to Common Corruptions
作者: Muhammad Usama / Syeda Aisha Asim / Syed Bilal Ali / Syed Talal Wasim / Umair Bin Mansoor
原文:   [英文]   [中文]  
备注: arXiv admin note: text overlap with arXiv:2304.10592, arXiv:2301.12597 by other authors
摘要:
视觉-语言模型(VLMs)在理解和推理视觉及文本内容方面表现出令人印象深刻的能力。然而,它们对常见图像损坏的鲁棒性仍未得到充分探索。在这项工作中,我们首次对VLM在ImageNet-C基准测试中的19种损坏类型进行了全面分析,涵盖四个类别:噪声、模糊、天气和数字失真。我们引入了两个新的基准测试,TextVQA-C和GQA-C,以系统地评估损坏如何影响场景文本理解和基于对象的推理。我们的分析揭示了基于变压器的VLM在不同任务中表现出不同的脆弱性模式:文本识别在模糊和雪损坏下最为严重,而对象推理对霜冻和脉冲噪声等损坏表现出更高的敏感性。我们将这些观察结果与不同损坏的频域特性联系起来,揭示了变压器对低频处理的固有偏向如何解释其差异化的鲁棒性模式。我们的研究结果为开发更具损坏鲁棒性的视觉-语言模型以用于现实世界应用提供了宝贵的见解。

[53] 使用事件流数据进行斑马鱼计数
标题: Zebrafish Counting Using Event Stream Data
作者: Qianghua Chen / Huiyu Wang / Li Ming / Ying Zhao
原文:   [英文]  
备注: None
摘要:
斑马鱼与人类基因具有高度同源性,常被用作生物医学研究中的模式生物。对于医学实验室来说,数斑马鱼是日常任务。由于斑马鱼体型微小,人工目视计数具有挑战性。现有的计数方法要么不适用于小型鱼类,要么有太多限制。本文提出了一种基于事件流数据的斑马鱼计数算法。首先,使用事件相机进行数据采集。其次,依次进行相机校准和图像融合。然后,利用轨迹信息提高计数精度。最后,将计数结果在一个经验周期内取平均值并四舍五入得到最终结果。为了评估算法的准确性,将20条斑马鱼放入一个四升的养殖箱中。在100次计数试验中,平均准确率达到97.95%。与传统算法相比,所提出的算法实现更简单且精度更高。

[54] 通过实例序列匹配的跨模态亲和性进行少样本视频单对象和多对象指代分割
标题: Few-Shot Referring Video Single- and Multi-Object Segmentation via Cross-Modal Affinity with Instance Sequence Matching
作者: Heng Liu / Guanghui Li / Mingqi Gao / Xiantong Zhen / Feng Zheng / Yang Wang
原文:   [英文]  
备注: 23 pages, 10 figures
摘要:
指代视频对象分割(RVOS)旨在通过自然语言描述来分割视频中的对象。我们提出了FS-RVOS,这是一种基于Transformer的模型,具有两个关键组件:跨模态亲和模块和实例序列匹配策略,这使得FS-RVOS扩展到多对象分割(FS-RVMOS)。实验表明,FS-RVOS和FS-RVMOS在各种基准测试中优于最先进的方法,展示了卓越的鲁棒性和准确性。

[55] 人类一致性深度学习:可解释性、因果关系与生物启发
标题: Human-aligned Deep Learning: Explainability, Causality, and Biological Inspiration
作者: Gianluca Carloni
原文:   [英文]   [中文]  
备注: Personal adaptation and expansion of doctoral thesis (originally submitted in Oct 2024, revisioned in Jan 2025)
摘要:
这项工作将深度学习(DL)与人类推理能力和需求相结合,以实现更高效、可解释和稳健的图像分类。我们从三个角度来探讨这一问题:可解释性、因果关系和生物视觉。论文的引言和背景部分为这项工作奠定了基础,然后深入到具体的章节。首先,我们评估了神经网络在医学图像中的可视化技术,并验证了一种用于乳腺肿块分类的设计即解释方法。接下来是关于可解释人工智能(XAI)和因果关系交叉领域的综合评审,我们在此引入了一个通用框架来组织过去和未来的研究,为我们的第二个视角奠定基础。在因果关系方向上,我们提出了新的模块,这些模块利用医学图像中的特征共现,从而实现更有效和可解释的预测。我们进一步介绍了CROCODILE,一个整合因果概念、对比学习、特征解缠和先验知识的通用框架,以增强泛化能力。最后,我们探讨了生物视觉,研究人类如何识别物体,并提出了CoCoReco,一个受连接启发的网络,具有上下文感知的注意机制。总体而言,我们的主要发现包括:(i)简单的激活最大化对医学成像DL模型缺乏洞察力;(ii)原型部件学习是有效的,并与放射学对齐;(iii)XAI和因果机器学习紧密相连;(iv)可以在没有先验信息的情况下利用弱因果信号来提高性能和可解释性;(v)我们的框架在医学领域和分布外数据中具有泛化能力;(vi)结合生物电路图案可以改善与人类一致的识别。这项工作有助于实现与人类一致的DL,并强调了弥合研究与临床应用之间差距的途径,对提高信任、诊断准确性和安全部署具有重要意义。

[56] MLEP:用于通用AI生成图像检测的多粒度局部熵模式
标题: MLEP: Multi-granularity Local Entropy Patterns for Universal AI-generated Image Detection
作者: Lin Yuan / Xiaowan Li / Yan Zhang / Jiawei Zhang / Hongbo Li / Xinbo Gao
原文:   [英文]   [中文]  
备注: 9 pages, 6 figures
摘要:
图像生成技术的进步引发了对其潜在滥用的重大担忧,例如生成虚假信息和深度伪造。因此,迫切需要有效的方法来检测AI生成的图像(AIGI)。尽管在AIGI检测方面取得了一些进展,但由于现有方法缺乏源不变特征和有限的泛化能力,在不同生成模型和场景中实现可靠的性能仍然具有挑战性。在这项工作中,我们探索了使用图像熵作为AIGI检测线索的潜力,并提出了多粒度局部熵模式(MLEP),这是一组通过对多个图像尺度上的小块进行随机排列计算的熵特征图。MLEP全面捕捉了跨维度和尺度的像素关系,同时显著扰乱了图像语义,减少了潜在的内容偏差。利用MLEP,可以训练出一个基于CNN的稳健的AIGI检测分类器。在开放世界场景中进行的大量实验中,评估了由32种不同生成模型合成的图像,结果表明在准确性和泛化能力方面相较于最先进的方法有显著的改进。

[57] LimitNet:针对极弱设备和网络的渐进式、内容感知图像卸载
标题: LimitNet: Progressive, Content-Aware Image Offloading for Extremely Weak Devices & Networks
作者: Ali Hojjat / Janek Haberer / Tayyaba Zainab / Olaf Landsiedel
原文:   [英文]   [中文]  
备注: This is the author's accepted manuscript. The Version of Record is available at: this https URL
摘要:
物联网设备的硬件能力有限,通常部署在偏远地区。因此,先进的视觉模型超出了这些设备的处理和存储能力,需要将这些任务卸载到云端。然而,偏远地区通常依赖于带宽有限、数据包丢失率高、占空比极低的LPWAN技术,这使得快速卸载时间敏感的推理变得具有挑战性。当前可部署在弱设备上的方法生成非渐进式比特流,因此,当由于带宽限制或数据包丢失而导致数据在截止日期时仅部分可用时,其解码质量会受到严重影响。 在本文中,我们介绍了LimitNet,一种为极弱设备和网络设计的渐进式、内容感知的图像压缩模型。LimitNet的轻量级渐进编码器在传输过程中根据图像内容优先传输关键数据,使得云端即使在数据部分可用的情况下也能进行推理。 实验结果表明,与现有技术相比,LimitNet在ImageNet1000上平均提高了14.01个百分点的准确率,在CIFAR100上提高了18.01个百分点,在COCO上提高了0.1的mAP@0.5。此外,LimitNet在ImageNet1000上平均节省了61.24%的带宽,在CIFAR100上节省了83.68%,在COCO数据集上节省了42.25%的带宽,而其编码时间仅比JPEG(固定质量)在STM32F7(Cortex-M7)上多4%。

[58] ESPLoRA:在文本到图像扩散模型中通过低秩适应实现高精度空间定位以进行高清合成
标题: ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis
作者: Andrea Rigo / Luca Stornaiuolo / Mauro Martino / Bruno Lepri / Nicu Sebe
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型在文本到图像(T2I)合成方面取得了革命性进展,能够生成高质量、逼真的图像。然而,它们在正确呈现文本提示中描述的空间关系方面仍然存在困难。为了解决T2I生成中空间信息的缺乏,现有方法通常使用外部网络条件和预定义布局,这导致了更高的计算成本和灵活性降低。我们的方法基于一个精心策划的空间明确提示的数据集,该数据集从LAION-400M中精心提取和合成,以确保文本描述与空间布局之间的精确对齐。除了这个数据集,我们还提出了ESPLoRA,这是一种基于低秩适应的灵活微调框架,专门设计用于在不增加生成时间或降低输出质量的情况下增强生成模型的空间一致性。除了ESPLoRA,我们还提出了基于几何约束的精细评估指标,捕捉诸如“在前面”或“在后面”等三维空间关系。这些指标还揭示了T2I模型中的空间偏差,即使这些偏差未能完全消除,我们的TORE算法也可以策略性地利用这些偏差来进一步提高生成图像的空间一致性。我们的方法在既定的空间一致性基准上比当前最先进的框架CoMPaSS高出13.33%。

[59] DAM-Net: 用于变化检测的带有微标记微调的领域自适应网络
标题: DAM-Net: Domain Adaptation Network with Micro-Labeled Fine-Tuning for Change Detection
作者: Hongjia Chen / Xin Xu / Fangling Pu
原文:   [英文]   [中文]  
备注: 13 pages, 6 figures
摘要:
遥感图像中的变化检测(CD)在城市规划、损害评估和资源管理等各种应用中发挥着至关重要的作用。虽然深度学习方法显著提高了变化检测的性能,但当前的方法在领域适应性方面表现不佳,当应用于新场景时需要大量标记数据进行重新训练。这一限制严重限制了它们在不同数据集中的实际应用。在这项工作中,我们提出了DAM-Net:一种用于变化检测的微标记微调域适应网络。我们的网络引入了对抗域适应到变化检测中,利用专门设计的分割-判别器和交替训练策略实现领域间的有效转移。此外,我们提出了一种新颖的微标记微调方法,策略性地选择和标记极少量样本(少于1%)以增强领域适应。该网络结合了多时态变压器进行特征融合,并基于先前研究优化了骨干结构。在LEVIR-CD和WHU-CD数据集上进行的实验表明,DAM-Net显著优于现有的领域适应方法,使用仅0.3%的标记样本即可达到需要10%标记数据的半监督方法的可比性能。我们的方法显著推进了跨数据集的变化检测应用,并为遥感中的高效领域适应提供了新的范式。DAM-Net的源代码将在发表后公开。

[60] 通过对比多尺度病理图像分析实现准确且可解释的神经母细胞瘤诊断
标题: Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis
作者: Zhu Zhu / Shuo Jiang / Jingyuan Zheng / Yawen Li / Yifei Chen / Manli Zhao / Weizhong Gu / Feiwei Qin / Jinhu Wang / Gang Yu
原文:   [英文]   [中文]  
备注: 14pages, 8 figures
摘要:
神经母细胞瘤,源自肾上腺,是最常见的儿科实体恶性肿瘤之一,其临床表现具有显著的异质性。从苏木精和伊红染色的全片图像中及时准确的病理诊断对患者预后至关重要。然而,目前的诊断实践主要依赖于病理学家的主观人工检查,导致准确性不一致。现有的自动化全片图像分类方法面临诸如解释性差、特征提取能力有限以及计算成本高等挑战,限制了其在临床中的实际应用。为克服这些限制,我们提出了CMSwinKAN,这是一种基于对比学习的多尺度特征融合模型,专为病理图像分类而设计,通过在Swin Transformer架构中整合内核激活网络于其多层感知器和分类头模块,显著提高了解释性和准确性。通过融合多尺度特征并利用对比学习策略,CMSwinKAN模拟临床医生的综合方法,有效捕捉全局和局部组织特征。此外,我们引入了一种由临床见解指导的启发式软投票机制,以无缝连接从补丁级预测到全片图像级分类。我们在与合作医院共同建立的PpNTs数据集以及公开可访问的BreakHis数据集上验证了CMSwinKAN。结果表明,CMSwinKAN的表现优于现有的在大型数据集上预训练的病理学特定模型。我们的源代码可在此https URL获取。

[61] 使用深度隐写嵌入进行图像认证的脆弱水印
标题: Fragile Watermarking for Image Certification Using Deep Steganographic Embedding
作者: Davide Ghiani / Jefferson David Rodriguez Chivata / Stefano Lilliu / Simone Maurizio La Cava / Marco Micheletto / Giulia Orrù / Federico Lama / Gian Luca Marcialis
原文:   [英文]   [中文]  
备注: None
摘要:
现代身份验证系统越来越依赖嵌入在生物识别文件(如电子护照)中的面部图像。为了确保全球互操作性和安全性,这些图像必须符合国际民用航空组织(ICAO)定义的严格标准,这些标准规定了采集、质量和格式要求。然而,一旦签发,这些图像可能会经历无意的降级(例如压缩、调整大小)或恶意操控(例如变形),从而欺骗面部识别系统。在这项研究中,我们探讨了基于深度隐写嵌入的脆弱水印作为认证ICAO合规面部图像真实性的主动机制。通过在签发时在官方照片中嵌入隐藏图像,我们建立了一个完整性标记,对任何签发后的修改变得敏感。我们评估了一系列图像操作如何影响恢复的隐藏图像,并展示了降级伪影可以作为强大的法医线索。此外,我们提出了一个分类框架,分析揭示的内容以检测和分类所应用的操作类型。我们的实验展示了高检测准确性,包括使用多个基于深度隐写的模型的跨方法场景。这些发现支持通过隐写嵌入进行脆弱水印作为生物识别文件完整性验证的有价值工具的可行性。

[62] 解码视觉变换器:扩散引导透镜
标题: Decoding Vision Transformers: the Diffusion Steering Lens
作者: Ryota Takatsuki / Sonia Joseph / Ippei Fujisawa / Ryota Kanai
原文:   [英文]  
备注: 12 pages, 17 figures. Accepted to the CVPR 2025 Workshop on Mechanistic Interpretability for Vision (MIV)
摘要:
Logit Lens 是一种广泛采用的方法,用于基于变压器的语言模型的机械解释性分析,通过将内部表示投射到输出词汇空间,能够分析这些表示在各层之间的演变。尽管将 Logit Lens 应用于视觉变压器(ViTs)在技术上是简单的,但其直接使用在捕捉视觉表示的丰富性方面存在局限性。基于 Toker 等人(2024)引入的 Diffusion Lens,该方法用于可视化文本到图像扩散模型的文本编码器中的中间表示,我们证明了尽管 Diffusion Lens 可以有效地可视化图像编码器中的残差流表示,但它未能捕捉到各个子模块的直接贡献。为克服这一局限性,我们提出了 \textbf{Diffusion Steering Lens}(DSL),这是一种新颖的、无需训练的方法,可以引导子模块输出并修补后续的间接贡献。我们通过干预性研究验证了我们的方法,表明 DSL 提供了对 ViTs 内部处理的直观且可靠的解释。

[63] 从太空灭火:利用视觉变换器增强野火检测和特征化
标题: Fighting Fires from Space: Leveraging Vision Transformers for Enhanced Wildfire Detection and Characterization
作者: Aman Agarwal / James Gearon / Raksha Rank / Etienne Chenevert
原文:   [英文]   [中文]  
备注: None
摘要:
由于人为气候变化,世界大部分地区的野火在强度、频率和持续时间上都在增加。现代的野火检测和响应系统在应对持续的野火季节时装备不足。最近的研究证明,使用卷积神经网络(CNN)训练的卫星图像可以实现高精度的自动野火检测。然而,CNN的训练计算成本高,并且只包含局部图像上下文。最近,视觉变换器(ViTs)因其高效的训练能力以及包含局部和全局上下文信息的能力而受到欢迎。在这项工作中,我们展示了ViT可以在LandSat-8图像的先前发布的数据集上,超越训练良好且专业化的CNN来检测野火。我们的一种ViT比基线CNN的比较高出0.92%。然而,我们发现我们自己实现的基于CNN的UNet在每个类别中表现最佳,显示了它们在图像任务中的持续效用。总体而言,ViTs在检测野火方面与CNN同样出色,尽管调优良好的CNN仍然是检测野火的最佳技术,我们的UNet提供了93.58%的IoU,比基线UNet高出约4.58%。

[64] RefComp: 一种用于无配对点云补全的参考引导统一框架
标题: RefComp: A Reference-guided Unified Framework for Unpaired Point Cloud Completion
作者: Yixuan Yang / Jinyu Yang / Zixiang Zhao / Victor Sanchez / Feng Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
无配对点云补全任务旨在使用没有真实值的模型来完成部分点云。现有的无配对点云补全方法是类别感知的,即每个对象类别需要一个单独的模型。由于它们的泛化能力有限,这些方法在面对各种通用3D对象的点云时,在现实场景中表现不佳。在本文中,我们提出了一种新颖的无配对点云补全框架,即参考引导补全(RefComp)框架,该框架在类别感知和类别无关的训练设置中都表现出色。RefComp框架将无配对补全问题转化为形状翻译问题,该问题在部分点云的潜在特征空间中解决。为此,我们引入了使用部分-完整点云对的方法,这些对是通过使用待补全的部分点云作为模板检索得到的。这些点云对被用作参考数据来指导补全过程。我们的RefComp框架使用一个参考分支和一个目标分支,通过共享参数的潜在形状融合模块(LSFM)进行形状融合和形状翻译,以增强补全流程中的结构特征。大量实验表明,RefComp框架不仅在类别感知训练设置中达到了最先进的性能,而且在类别无关训练设置中,在虚拟扫描和现实世界数据集上也取得了有竞争力的结果。

[65] CheXWorld:探索用于放射影像表示学习的图像世界建模
标题: CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning
作者: Yang Yue / Yulin Wang / Chenxin Tao / Pan Liu / Shiji Song / Gao Huang
原文:   [英文]  
备注: Accepted by CVPR 2025
摘要:
人类可以发展出内部世界模型,这些模型编码常识知识,告诉他们世界如何运作,并预测他们行为的后果。这个概念在最近的初步研究中被认为是建立通用机器学习模型的一个有前途的方向,例如用于视觉表示学习。在本文中,我们介绍了CheXWorld,这是第一个针对放射影像的自监督世界模型的尝试。具体来说,我们的工作开发了一个统一的框架,同时建模了合格放射科医生所需的三方面医学知识,包括:1)描述局部组织细致特征(如结构、形状和纹理)的局部解剖结构;2)描述人体整体组织(如器官和骨骼布局)的全局解剖布局;以及3)鼓励CheXWorld建模放射影像不同外观域之间转换的领域变化(例如,由于从不同医院、设备或患者收集放射影像而导致的清晰度、对比度和曝光度的变化)。在实证上,我们设计了量身定制的定性和定量分析,揭示了CheXWorld成功捕捉了这三种医学知识维度。此外,跨八个医学图像分类和分割基准的迁移学习实验表明,CheXWorld显著优于现有的自监督学习方法和大规模医学基础模型。代码和预训练模型可在此https URL获取。

[66] 在量子退火器上进行异常值鲁棒的多模型拟合
标题: Outlier-Robust Multi-Model Fitting on Quantum Annealers
作者: Saurabh Pandey / Luca Magri / Federica Arrigoni / Vladislav Golyanik
原文:   [英文]   [中文]  
备注: Accepted at CVPR 2025 Workshop "Image Matching: Local Features & Beyond"
摘要:
多模型拟合(MMF)在计算机视觉中是一个重要的挑战,尤其是由于其组合性质。尽管量子计算的最新进展为解决NP难题提供了希望,但现有的基于量子的方法在模型拟合中要么仅限于单一模型,要么在无离群值的数据集中考虑多模型场景。本文介绍了一种新颖的方法,即鲁棒量子多模型拟合(R-QuMF)算法,旨在有效处理离群值。我们的方法利用量子硬件的内在能力来解决MMF任务中固有的组合挑战,并且不需要事先知道模型的确切数量,从而增强了其实用性。通过将问题表述为适用于绝热量子计算机(AQC)的最大集合覆盖任务,R-QuMF在各种合成和真实3D数据集上表现优于现有的量子技术,展示了卓越的性能。我们的研究结果强调了量子计算在解决MMF复杂性方面的潜力,特别是在具有噪声和易受离群值影响的数据的真实场景中。