![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年2月21日更新论文65篇
|
[1] 通过自合成数据增强多模态基础模型的认知能力和可解释性 标题: Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data 作者: Yucheng Shi / Quanzheng Li / Jin Sun / Xiang Li / Ninghao Liu 原文: [英文] [中文] 备注: Accepted by ICLR 2025. Code: this https URL 摘要: 大型多模态模型(LMMs)在广泛的视觉任务中展示了令人印象深刻的能力。然而,它们常常在细粒度视觉推理方面表现不佳,无法识别特定领域的目标并为其预测提供合理的解释。为了解决这个问题,我们提出了一种新颖的视觉拒绝采样框架,通过自合成数据来提高LMMs的认知能力和可解释性。具体来说,视觉微调需要图像、查询和目标答案。我们的方法首先合成可解释的答案,这些答案包括人类可验证的视觉特征。这些特征基于专家定义的概念,经过精心选择以确保与图像内容的一致性。在每轮微调之后,我们应用一种无奖励模型的过滤机制,选择最高质量的可解释答案用于下一轮微调。通过这种数据合成和微调的迭代过程,逐步提高模型生成准确且合理解释的能力。实验结果表明,我们的方法在提高专业视觉分类任务的准确性和可解释性方面是有效的。 |
[2] EfficientPose 6D:可扩展且高效的6D物体姿态估计 标题: EfficientPose 6D: Scalable and Efficient 6D Object Pose Estimation 作者: Zixuan Fang / Thomas Pöllabauer / Tristan Wirth / Sarah Berkei / Volker Knauthe / Arjan Kuijper 原文: [英文] [中文] 备注: None 摘要: 在需要实时反馈的工业应用中,如质量控制和机器人操作,对高速且准确的姿态估计的需求仍然至关重要。尽管在姿态估计的速度和准确性方面取得了进展,但在动态环境中找到计算效率和准确性之间的平衡仍然面临重大挑战。大多数现有算法在估计时间上缺乏可扩展性,尤其是对于多样化的数据集,而最先进的方法通常过于缓慢。本研究专注于开发一套基于GDRNPP的快速且可扩展的姿态估计器,以在准确性和鲁棒性上达到或超过当前基准,特别是解决在实时场景中效率与准确性之间的权衡。我们提出了AMIS算法,以根据应用特定的推理时间和准确性之间的权衡来定制所使用的模型。我们进一步展示了基于AMIS的模型选择在四个著名基准数据集(LM-O、YCB-V、T-LESS和ITODD)上的有效性。 |
[3] PedDet:用于多模态行人检测的自适应光谱优化 标题: PedDet: Adaptive Spectral Optimization for Multimodal Pedestrian Detection 作者: Rui Zhao / Zeyu Zhang / Yi Xu / Yi Yao / Yan Huang / Wenxin Zhang / Zirui Song / Xiuying Chen / Yang Zhao 原文: [英文] [中文] 备注: None 摘要: 在智能交通系统中,行人检测取得了显著进展,但仍面临两个关键挑战:(1)在复杂场景中,无法充分融合可见光和红外光谱之间的互补信息;(2)对光照变化敏感,如低光或过曝条件,导致性能下降。为了解决这些问题,我们提出了PedDet,这是一种专门为多光谱行人检测增强和优化的自适应光谱优化互补框架。PedDet引入了多尺度光谱特征感知模块(MSFPM),以自适应地融合可见光和红外特征,增强特征提取的鲁棒性和灵活性。此外,光照鲁棒性特征解耦模块(IRFDM)通过解耦行人和背景特征,提高了在不同光照条件下的检测稳定性。我们进一步设计了一种对比对齐方法,以增强跨模态特征的区分能力。在LLVIP和MSDS数据集上的实验表明,PedDet实现了最先进的性能,将mAP提高了6.6%,即使在低光条件下也具有卓越的检测精度,为道路安全迈出了重要一步。代码将在此https URL上提供。 |
[4] Triad:用于三维磁共振成像的视觉基础模型 标题: Triad: Vision Foundation Model for 3D Magnetic Resonance Imaging 作者: Shansong Wang / Mojtaba Safari / Qiang Li / Chih-Wei Chang / Richard LJ Qiu / Justin Roper / David S. Yu / Xiaofeng Yang 原文: [英文] 备注: None 摘要: 视觉基础模型(VFMs)在广泛的图像数据集上进行预训练,以学习多种数据类型的通用表示。这些模型随后可以针对特定的下游任务进行微调,从而显著提升在广泛应用中的性能。然而,现有声称适用于各种放射学任务的视觉基础模型大多是在3D计算机断层扫描(CT)上预训练的,这得益于大量3D CT数据库的可用性。CT和磁共振成像(MRI)在成像原理、信号特征和数据分布上的显著差异可能会阻碍它们在MRI特定应用中的实际性能和多功能性。在此,我们提出了Triad,一种用于3D MRI的视觉基础模型。Triad采用广泛使用的自编码器架构,从131,170个3D MRI体积中学习稳健的表示,并使用与器官无关的成像描述来约束视觉模态的语义分布。上述预训练数据集被称为Triad-131K,目前是最大的3D MRI预训练数据集。我们在三个任务中评估了Triad,即器官/肿瘤分割、器官/癌症分类和医学图像配准,在两种数据模态(域内和域外)设置下使用25个下游数据集。通过使用Triad的预训练权重初始化模型,nnUNet-Triad在17个数据集上的分割性能比nnUNet-Scratch提高了6.88%。Swin-B-Triad在五个数据集上的分类任务中比Swin-B-Scratch提高了3.97%。SwinUNETR-Triad在两个数据集上的配准任务中比SwinUNETR-Scratch提高了4.00%。我们的研究表明,当上游和下游任务的数据模态和器官一致时,预训练可以最大化性能。 |
[5] 用于自动驾驶赛车中赛道检测的赛车数据集和基线模型 标题: A Racing Dataset and Baseline Model for Track Detection in Autonomous Racing 作者: Shreya Ghosh / Yi-Huan Chen / Ching-Hsiang Huang / Abu Shafin Mohammad Mahdee Jameel / Chien Chou Ho / Aly El Gamal / Samuel Labi 原文: [英文] [中文] 备注: Currently Under Review 摘要: 在赛车相关研究中,一个显著的挑战是缺乏公开可用的数据集,这些数据集包含用于下游任务的原始图像及其对应的标注。在本文中,我们介绍了RoRaTrack,这是一个新颖的数据集,包含来自赛车场景的多摄像头图像数据的标注,用于赛道检测。数据是在印第安纳州的一个赛车赛道上,通过与印第安纳自动驾驶挑战赛(IAC)的合作,在Dallara AV-21赛车上收集的。RoRaTrack解决了常见的问题,如由于高速导致的图像模糊、摄像头的颜色反转以及赛道上缺乏车道标记。因此,我们提出了RaceGAN,这是一种基于生成对抗网络(GAN)的基线模型,可以有效解决这些挑战。与当前最先进的机器学习模型相比,所提出的模型在赛道检测中表现出色。该工作的数据集和代码可在此URL获取。 |
[6] DiffExp:文本到图像扩散模型中奖励微调的高效探索 标题: DiffExp: Efficient Exploration in Reward Fine-tuning for Text-to-Image Diffusion Models 作者: Daewon Chae / June Suk Choi / Jinkyu Kim / Kimin Lee 原文: [英文] [中文] 备注: AAAI 2025 摘要: 微调文本到图像扩散模型以最大化奖励已被证明可以有效提升模型性能。然而,由于在线样本生成的原因,奖励微调方法通常收敛较慢。因此,获得具有强奖励信号的多样化样本对于提高样本效率和整体性能至关重要。在这项工作中,我们介绍了DiffExp,这是一种用于文本到图像模型奖励微调的简单而有效的探索策略。我们的方法采用了两个关键策略:(a)动态调整无分类器引导的尺度以增强样本多样性,以及(b)随机加权文本提示的短语以利用高质量的奖励信号。我们证明了这些策略在在线样本生成过程中显著增强了探索能力,提高了最近奖励微调方法(如DDPO和AlignProp)的样本效率。 |
[7] 地球观测中的回归:视觉语言模型能否迎接挑战? 标题: Regression in EO: Are VLMs Up to the Challenge? 作者: Xizhe Xue / Xiao Xiang Zhu 原文: [英文] [中文] 备注: None 摘要: 地球观测(EO)数据涵盖了大量的遥感信息,具有多传感器和多时态的特点,在理解地球动态方面发挥着不可或缺的作用。最近,视觉语言模型(VLMs)在感知和推理任务中取得了显著成功,为EO领域带来了新的见解和机遇。然而,EO应用的潜力,特别是与科学回归相关的应用,仍然在很大程度上未被探索。本文通过系统地研究将VLMs应用于EO回归任务的挑战和机遇来弥补这一差距。讨论首先对比了EO数据与传统计算机视觉数据集的独特属性,然后识别出将VLMs应用于EO回归的四个核心障碍:1)缺乏专用基准,2)离散与连续表示的不匹配,3)累积误差积累,4)文本中心训练目标对数值任务的次优性。接下来,探讨了一系列方法论见解和潜在的细微陷阱。最后,我们提供了一些设计稳健、领域感知解决方案的有前景的未来方向。我们的研究结果突显了VLMs在EO科学回归中的潜力,为更精确和可解释的关键环境过程建模奠定了基础。 |
[8] 使用分辨率和质量条件潜变量概率估计器的点云几何可伸缩编码 标题: Point Cloud Geometry Scalable Coding Using a Resolution and Quality-conditioned Latents Probability Estimator 作者: Daniele Mari / André F. R. Guarda / Nuno M. M. Rodrigues / Simone Milani / Fernando Pereira 原文: [英文] 备注: Submitted to IEEE and currently under review 摘要: 在当今时代,用户在网络、硬件和显示能力非常异构的场景中消费多媒体内容。一个简单的解决方案是编码多个独立的流,每个流覆盖客户端的不同需求,但这显然会对存储和计算要求产生负面影响。这些缺点可以通过使用支持可伸缩性的编解码器来避免,即生成一个渐进的比特流,包含一个基础层和多个增强层,允许解码同一个比特流以满足多种重建和可视化规范。虽然可伸缩编码在传统图像和视频编解码器中是一个众所周知且已解决的功能,但本文关注的是一个全新且非常不同的问题,即为基于深度学习的点云(PC)编码开发可伸缩编码解决方案。这种3D表示的特殊性使得很难实现不影响编解码器其他功能的灵活解决方案。本文提出了一种联合质量和分辨率可伸缩性方案,称为可伸缩分辨率和质量超先验(SRQH),与之前的解决方案相反,它可以建模为不同RD权衡和/或不同分辨率训练的模型获得的潜变量之间的关系。通过将SRQH集成到新兴的JPEG Pleno基于学习的PC编码标准中获得的实验结果表明,SRQH允许在不同质量和分辨率下解码PC,仅需一个比特流,同时相对于非可伸缩的JPEG PCC(需要每个编码配置一个比特流)仅带来有限的RD损失和复杂性增加。 |
[9] 对比语言-图像预训练中的以对象为中心的绑定 标题: Object-centric Binding in Contrastive Language-Image Pretraining 作者: Rim Assouel / Pietro Astolfi / Florian Bordes / Michal Drozdzal / Adriana Romero-Soriano 原文: [英文] 备注: None 摘要: 最近在视觉语言模型(VLM)方面的进展主要由对比模型(如CLIP)推动,这些模型学习将视觉信息与其对应的文本描述关联起来。然而,这些模型在理解涉及多个对象及其空间关系的复杂组合场景时存在局限性。为了解决这些挑战,我们提出了一种新颖的方法,与常用的依赖于设计困难负样本增强的策略不同。我们的工作重点是将归纳偏差整合到预训练的类似CLIP的模型中,以提高其组合理解能力,而无需使用任何额外的困难负样本。为此,我们引入了一个绑定模块,该模块将从文本描述中得出的场景图与槽结构的图像表示连接起来,促进两种模态之间的结构化相似性评估。我们还利用关系作为文本条件的视觉约束,从而更有效地捕捉对象之间的复杂交互及其上下文关系。我们得到的模型不仅提高了基于CLIP的模型在多对象组合理解方面的性能,还为更准确和样本高效的复杂场景图文匹配铺平了道路。 |
[10] 模块化提示学习提升视觉-语言模型 标题: Modular Prompt Learning Improves Vision-Language Models 作者: Zhenhan Huang / Tejaswini Pedapati / Pin-Yu Chen / Jianxi Gao 原文: [英文] [中文] 备注: 2025 IEEE International Conference on Acoustics, Speech, and Signal Processing 摘要: 预训练的视觉-语言模型能够解释视觉概念和语言语义。提示学习是一种为文本编码器或图像编码器构建提示的方法,它激发了预训练模型的潜力,并使其能够轻松适应新场景。与微调相比,提示学习使模型能够使用更少的可训练参数实现相当或更好的性能。此外,提示学习冻结了预训练模型,避免了微调中的灾难性遗忘问题。在每个变换器层的输入中插入连续提示(即深度提示)可以提高预训练模型在下游任务中的性能。对于第 i 个变换器层,插入的提示替换了在第 (i-1) 层中插入的提示。尽管自注意力机制将新插入的提示与当前层的上下文以及来自前一层输出的嵌入进行上下文化,但从前一层中移除所有插入的提示不可避免地会丢失连续提示中包含的信息。在这项工作中,我们提出了模块化提示学习(MPL),旨在促进插入提示中信息的保留。我们在基础到新泛化和跨数据集任务中评估了所提出的方法。在 11 个数据集的平均结果中,我们的方法在基础到新泛化任务中比最先进的方法提高了 0.7% 的性能。单个数据集上的最大改进为 10.7%(EuroSAT 数据集)。 |
[11] GlossGau:使用各向异性球面高斯进行光泽表面高效逆向渲染 标题: GlossGau: Efficient Inverse Rendering for Glossy Surface with Anisotropic Spherical Gaussian 作者: Bang Du / Runfa Blark Li / Chen Du / Truong Nguyen 原文: [英文] [中文] 备注: None 摘要: 从校准照片重建三维物体是计算机图形学和视觉领域中的一个基本但复杂的挑战。尽管基于神经辐射场(NeRF)的神经重建方法展现了显著的能力,但其处理成本仍然很高。最近,三维高斯点绘(3D-GS)的出现大大提高了训练效率,并有助于实时生成逼真的渲染。然而,由于球谐函数(SH)在表示高频信息方面的能力有限,3D-GS在重建光滑物体时表现不足。研究人员转而通过逆向渲染来增强3D-GS的镜面表现力。然而,这些方法往往难以保持训练和渲染效率,从而削弱了高斯点绘技术的优势。在本文中,我们介绍了GlossGau,这是一种高效的逆向渲染框架,可以在保持与原始3D-GS相当的训练和渲染速度的同时,重建具有光滑表面的场景。具体来说,我们明确建模了表面法线、双向反射分布函数(BRDF)参数以及入射光,并使用各向异性球面高斯(ASG)来近似微面模型下的每个高斯法线分布函数。我们利用二维高斯点绘(2D-GS)作为基础原语,并应用正则化来显著缓解相关工作中遇到的法线估计挑战。实验表明,GlossGau在具有光滑表面的数据集上实现了具有竞争力或更优的重建效果。与之前基于GS的处理镜面表面的工作相比,我们的优化时间显著减少。 |
[12] ModSkill:物理角色技能模块化 标题: ModSkill: Physical Character Skill Modularization 作者: Yiming Huang / Zhiyang Dou / Lingjie Liu 原文: [英文] [中文] 备注: None 摘要: 人类运动具有高度的多样性和动态性,这对旨在推广运动技能以控制模拟角色的模仿学习算法提出了挑战。以往的方法通常依赖于一个通用的全身控制器来跟踪参考运动(基于跟踪的模型)或一个统一的全身技能嵌入空间(技能嵌入)。然而,这些方法往往难以推广并扩展到更大的运动数据集。在这项工作中,我们引入了一种新颖的技能学习框架,ModSkill,它将复杂的全身技能解耦为独立身体部位的组合模块化技能。我们的框架具有一个技能模块化注意层,该层将策略观察处理为模块化技能嵌入,以指导每个身体部位的低级控制器。我们还提出了一种具有生成自适应采样的主动技能学习方法,利用大型运动生成模型在具有挑战性的跟踪场景中自适应地增强策略学习。我们的结果表明,这种通过生成采样增强的模块化技能学习框架在精确的全身运动跟踪方面优于现有方法,并且能够为多样化的目标驱动任务提供可重用的技能嵌入。 |
[13] 通过侧图卷积进行标记适配,以实现3D点云Transformer的时空高效微调 标题: Token Adaptation via Side Graph Convolution for Temporally and Spatially Efficient Fine-tuning of 3D Point Cloud Transformers 作者: Takahiko Furuya 原文: [英文] 备注: Currently under review 摘要: 参数高效微调(PEFT)预训练的3D点云Transformer已成为3D点云分析的一个有前途的技术。尽管现有的PEFT方法试图最小化可调参数的数量,但在微调过程中仍然面临高时间和空间计算成本。本文提出了一种新颖的3D点云Transformer的PEFT算法,称为邻域图上的侧向令牌适应(STAG),以实现卓越的时间和空间效率。STAG采用一个图卷积侧网络,与冻结的主干Transformer并行运行,以适应下游任务的令牌。STAG的侧网络通过三个关键组件实现高效:与主干的连接以减少梯度计算、参数共享框架和高效的图卷积。此外,我们提出了点云分类13(PCC13),这是一个新的基准,包含多种公开可用的3D点云数据集,能够全面评估PEFT方法。使用多个预训练模型和PCC13进行的大量实验表明了STAG的有效性。具体而言,STAG在保持与现有方法相当的分类准确率的同时,将可调参数减少到仅0.43M,并在微调的计算时间和内存消耗上实现了显著的减少。代码和基准将可在此URL获得。 |
[14] PitVQA++:用于垂体手术中开放式视觉问答的向量矩阵低秩适应 标题: PitVQA++: Vector Matrix-Low-Rank Adaptation for Open-Ended Visual Question Answering in Pituitary Surgery 作者: Runlong He / Danyal Z. Khan / Evangelos B. Mazomenos / Hani J. Marcus / Danail Stoyanov / Matthew J. Clarkson / Mobarakol Islam 原文: [英文] [中文] 备注: 9 pages 摘要: 视觉问答(VQA)中的视觉语言模型(VLMs)为增强术中决策、促进直观交互以及显著推进外科教育提供了独特的机会。然而,由于数据集有限以及在对预训练权重进行全面微调时存在过拟合和灾难性遗忘的风险,开发用于外科VQA的VLMs具有挑战性。尽管低秩适应(LoRA)和秩矩阵适应(MoRA)等参数高效技术解决了适应性挑战,但其统一的参数分配忽视了深度网络中的特征层次结构,其中学习一般特征的早期层比后期层需要更多的参数。本文引入了PitVQA++,包括一个开放式PitVQA数据集和矢量矩阵低秩适应(Vector-MoLoRA),这是一种创新的VLM微调方法,用于将GPT-2适应于垂体手术。开放式PitVQA包含约101,803帧来自25个手术视频的图像,以及745,972个问答句子对,涵盖了关键的外科元素,如阶段和步骤识别、上下文理解、工具检测、定位和交互识别。Vector-MoLoRA结合了LoRA和MoRA的原理,开发了一种矩阵低秩适应策略,采用矢量排序为早期层分配更多参数,并在后期层逐渐减少。我们的方法在开放式PitVQA和EndoVis18-VQA数据集上的验证表明,它有效地缓解了灾难性遗忘,同时显著提升了相较于近期基线的性能。此外,我们的风险覆盖分析突出了其在处理不确定预测时增强的可靠性和可信度。我们的源代码和数据集可在~\url{this https URL}获取。 |
[15] 混合信号:用于异构激光雷达V2X协作的多样化点云数据集 标题: Mixed Signals: A Diverse Point Cloud Dataset for Heterogeneous LiDAR V2X Collaboration 作者: Katie Z Luo / Minh-Quan Dao / Zhenzhen Liu / Mark Campbell / Wei-Lun Chao / Kilian Q. Weinberger / Ezio Malis / Vincent Fremont / Bharath Hariharan / Mao Shan / Stewart Worrall / Julie Stephany Berrio Perez 原文: [英文] [中文] 备注: None 摘要: 车联网(V2X)协同感知已成为解决单车感知系统局限性的一个有前景的解决方案。然而,现有的V2X数据集在范围、多样性和质量上都存在局限性。为了解决这些问题,我们推出了Mixed Signals,一个综合的V2X数据集,包含45,100个点云和240,600个边界框,这些数据是从三辆配备两种不同类型LiDAR传感器的联网自动驾驶车辆(CAVs)以及一个配备双LiDAR的路边单元收集的。我们的数据集提供了精确对齐的点云和跨越10个类别的边界框注释,确保了感知训练的可靠数据。我们对数据集的质量进行了详细的统计分析,并在其上广泛地对现有的V2X方法进行了基准测试。Mixed Signals V2X数据集是目前公开可用的最高质量、大规模的V2X感知研究数据集之一。详情请访问网站此https URL。 |
[16] 基于深度学习的红外小目标分割:挑战与未来方向 标题: Deep learning based infrared small object segmentation: Challenges and future directions 作者: Zhengeng Yang / Hongshan Yu / Jianjun Zhang / Qiang Tang / Ajmal Mian 原文: [英文] [中文] 备注: This is a submitted version of a paper accepted by Information Fusion. If you want a better reading experience, please refer to the final published version of Information Fusion 摘要: 红外传感是支持无人系统(如自动驾驶汽车和无人机)的核心方法。近年来,红外传感器被广泛部署在移动和固定平台上,用于从远距离和宽视野中检测和分类物体。鉴于其在视觉图像分析领域的成功,深度学习也被应用于红外图像中的物体识别。然而,在可见光感知中取得成功的技术在红外领域面临新的挑战。这些挑战包括红外图像中极低的信噪比、非常小且模糊的目标物体,以及由于红外传感器的专业性质而导致的标记/未标记训练数据的有限可用性。文献中提出了许多方法用于红外图像中小物体的检测和分类,并取得了不同程度的成功。需要一篇综述论文来批判性地分析该领域现有技术,识别未解决的挑战并提供未来的研究方向。本文填补了这一空白,提供了对基于深度学习方法的简明而深刻的回顾。它还识别了现有红外物体分割方法面临的挑战,并从这些挑战的角度对现有红外感知方法进行了结构化的回顾,突出了各种方法背后的动机。最后,本综述基于该领域的最新进展提出了有前景的未来方向。 |
[17] 贝叶斯SegNet用于语义分割及材料辐照过程中微结构演化的改进解释 标题: Bayesian SegNet for Semantic Segmentation with Improved Interpretation of Microstructural Evolution During Irradiation of Materials 作者: Marjolein Oostrom / Alex Hagen / Nicole LaHaye / Karl Pazdernik 原文: [英文] [中文] 备注: None 摘要: 理解辐照LiAlO2颗粒的微观结构演变与氚的扩散、滞留和释放之间的关系,可以改善对氚产生可燃吸收棒性能的预测。基于专家标注的辐照和未辐照颗粒的分割图像,我们训练了深度卷积神经网络,将图像分割为缺陷、晶粒和边界类别。从这些分割图像中计算出定性微观结构信息,以便比较未辐照和辐照颗粒。我们测试了改进模型敏感度的修改方法,包括将元数据纳入模型和利用不确定性量化。预测的分割结果与专家标注的分割在大多数微观结构定性方法上相似,包括像素比例、缺陷面积和缺陷密度。总体而言,最佳模型在辐照和未辐照图像上的高性能指标表明,利用神经网络模型是专家标注图像的可行替代方案。 |
[18] 用于机器的立体图像编码及联合视觉特征压缩 标题: Stereo Image Coding for Machines with Joint Visual Feature Compression 作者: Dengchao Jin / Jianjun Lei / Bo Peng / Zhaoqing Pan / Nam Ling / Qingming Huang 原文: [英文] [中文] 备注: None 摘要: 二维图像编码技术在机器视觉领域取得了巨大的成功,但在立体图像领域的研究相对较少。为了提高立体图像压缩和智能分析的效率,本文提出并探讨了面向机器的立体图像编码(SICM)。具体而言,我们提出了一种面向机器视觉的立体特征压缩网络(MVSFC-Net),用于SICM,其中立体视觉特征被有效地提取、压缩并传输以用于3D视觉任务。为了在MVSFC-Net中高效压缩立体视觉特征,我们设计了一个立体多尺度特征压缩(SMFC)模块,该模块通过同时消除空间、视图间和跨尺度的冗余,逐步将稀疏的立体多尺度特征转化为紧凑的联合视觉表示。实验结果表明,与MPEG推荐的现有ICM基准和最先进的SIC方法相比,所提出的MVSFC-Net在压缩效率和3D视觉任务性能方面均表现出色。 |
[19] 多模态奖励基准:视觉语言模型奖励模型的整体评估 标题: Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models 作者: Michihiro Yasunaga / Luke Zettlemoyer / Marjan Ghazvininejad 原文: [英文] 备注: Dataset available at this https URL 摘要: 奖励模型在训练视觉-语言模型(VLMs)中起着至关重要的作用,通过评估输出质量来实现与人类偏好的对齐。尽管其重要性,研究界缺乏用于评估VLMs中多模态奖励模型的全面开放基准。为了解决这一空白,我们引入了Multimodal RewardBench,这是一个由专家注释的基准,涵盖六个领域:一般正确性、偏好、知识、推理、安全性和视觉问答。我们的数据集包括从各种VLMs收集的5,211个注释的(提示、选择的响应、拒绝的响应)三元组。在评估一系列VLM评判者时,我们发现即使是表现最好的模型,Gemini 1.5 Pro和Claude 3.5 Sonnet,总体准确率也仅为72%。值得注意的是,大多数模型在推理和安全性领域表现不佳。这些发现表明,Multimodal RewardBench为推进跨多个领域的奖励模型开发提供了一个具有挑战性的测试平台。我们在此https URL发布了该基准。 |
[20] 弥合文本与视觉:一种用于跨模态地点识别的多视角文本-视觉配准方法 标题: Bridging Text and Vision: A Multi-View Text-Vision Registration Approach for Cross-Modal Place Recognition 作者: Tianyi Shang / Zhenyu Li / Pengjie Xu / Jinwei Qiao / Gang Chen / Zihan Ruan / Weijun Hu 原文: [英文] 备注: 8 pages, 4 figures, conference 摘要: 移动机器人需要先进的自然语言理解能力,以准确识别位置并执行诸如包裹递送等任务。然而,传统的视觉位置识别(VPR)方法仅依赖于单视角的视觉信息,无法解释人类的语言描述。为了解决这一挑战,我们提出了一种多视角(360°环境视图)的文本-视觉配准方法,称为Text4VPR,用于位置识别任务。这是第一个专门利用文本描述来匹配图像数据库的方法。Text4VPR采用冻结的T5语言模型来提取全局文本嵌入。此外,它利用带有温度系数的Sinkhorn算法将局部标记分配到各自的簇,从而聚合图像中的视觉描述符。在训练阶段,Text4VPR强调单个文本-图像对之间的对齐,以实现精确的文本描述。在推理阶段,Text4VPR使用级联交叉注意力余弦对齐(CCCA)来解决文本和图像组之间的内部不匹配问题。随后,Text4VPR根据文本-图像组的描述进行精确的位置匹配。在我们创建的第一个文本到图像VPR数据集Street360Loc上,Text4VPR建立了一个强大的基线,在测试集上实现了领先的top-1准确率57%和top-10准确率92%(在5米半径内),这表明从文本描述到图像的定位不仅是可行的,而且具有进一步发展的巨大潜力,如图1所示。 |
[21] 用于图像去模糊的空间和频率域自适应融合网络 标题: Spatial and Frequency Domain Adaptive Fusion Network for Image Deblurring 作者: Hu Gao / Depeng Dang 原文: [英文] [中文] 备注: None 摘要: 图像去模糊旨在从相应的模糊图像中重建潜在的清晰图像。尽管现有方法已经取得了良好的性能,但大多数方法仅在空间域或频率域中独立操作,很少探索融合这两个域的解决方案。在本文中,我们提出了一种空间-频率域自适应融合网络(SFAFNet)来解决这一限制。具体来说,我们设计了一个门控空间-频率域特征融合块(GSFFBlock),它由三个关键组件组成:空间域信息模块、频率域信息动态生成模块(FDGM)和门控融合模块(GFM)。空间域信息模块采用NAFBlock来整合局部信息。同时,在FDGM中,我们设计了一个可学习的低通滤波器,动态地将特征分解为独立的频率子带,捕获图像范围的感受野,并实现全局上下文信息的自适应探索。此外,为了促进信息流动和互补表示的学习,在GFM中,我们提出了一种门控机制(GATE)来重新加权空间和频率域特征,然后通过交叉注意力机制(CAM)进行融合。实验结果表明,与常用基准上的最新方法相比,我们的SFAFNet表现良好。 |
[22] H3DE-Net:高效且准确的医学影像三维标志点检测 标题: H3DE-Net: Efficient and Accurate 3D Landmark Detection in Medical Imaging 作者: Zhen Huang / Ronghao Xu / Xiaoqian Zhou / Yangbo Wei / Suhua Wang / Xiaoxin Sun / Han Li / Qingsong Yao 原文: [英文] [中文] 备注: None 摘要: 3D标志点检测是医学图像分析中的一项关键任务,准确检测解剖标志点对于后续的医学成像任务至关重要。然而,该领域的主流深度学习方法在同时捕捉细粒度的局部特征和建模全局空间关系方面存在困难,同时还需在准确性和计算效率之间保持平衡。局部特征提取需要捕捉细粒度的解剖细节,而全局建模则需要理解复杂解剖结构中的空间关系。3D体积的高维特性进一步加剧了这些挑战,因为标志点分布稀疏,导致显著的计算成本。因此,实现高效且精确的3D标志点检测仍然是医学图像分析中的一个紧迫挑战。 在这项工作中,我们提出了一种\textbf{H}ybrid \textbf{3}D \textbf{DE}tection \textbf{Net}(H3DE-Net)的新框架,该框架结合了用于局部特征提取的卷积神经网络(CNN)和一种轻量级注意力机制,旨在高效捕捉3D体数据中的全局依赖性。该机制采用分层路由策略以降低计算成本,同时保持全局上下文建模。据我们所知,H3DE-Net是第一个将如此轻量级注意力机制与CNN结合的3D标志点检测模型。此外,集成多尺度特征融合进一步提高了检测的准确性和鲁棒性。在一个公共CT数据集上的实验结果表明,H3DE-Net达到了最新的(SOTA)性能,显著提高了准确性和鲁棒性,特别是在标志点缺失或解剖结构复杂变化的情况下。我们已经开源了我们的项目,包括代码、数据和模型权重。 |
[23] 使用蒸馏设计参数和计算高效的扩散变换器 标题: Designing Parameter and Compute Efficient Diffusion Transformers using Distillation 作者: Vignesh Sundaresha 原文: [英文] [中文] 备注: 4 pages 摘要: 扩散变压器(DiTs)具有数十亿的模型参数,是流行的图像和视频生成模型(如DALL.E、Stable-Diffusion和SORA)的核心。然而,尽管这些模型在许多低延迟应用(如增强/虚拟现实)中是必需的,但由于其巨大的计算复杂性,它们无法部署在资源受限的边缘设备(如Apple Vision Pro或Meta Ray-Ban眼镜)上。为了解决这个问题,我们转向知识蒸馏,并进行彻底的设计空间探索,以在给定参数大小的情况下实现最佳的DiT。特别是,我们提供了如何选择设计参数(如深度、宽度、注意力头和蒸馏设置)的原则。在此过程中,模型性能、大小和速度之间出现了一个三方权衡,这对于在边缘设备上实现扩散至关重要。我们还提出了两种蒸馏方法——教学助手(TA)方法和多合一(MI1)方法——以在DiT背景下进行特征蒸馏。与现有解决方案不同,我们在实际的边缘设备(如NVIDIA Jetson Orin Nano)上展示并基准测试了我们方法的有效性。 |
[24] OG-Gaussian:基于占用的街道高斯模型用于自动驾驶 标题: OG-Gaussian: Occupancy Based Street Gaussians for Autonomous Driving 作者: Yedong Shen / Xinran Zhang / Yifan Duan / Shiqi Zhang / Heng Li / Yilong Wu / Jianmin Ji / Yanyong Zhang 原文: [英文] [中文] 备注: None 摘要: 准确且逼真的三维场景重建能够栩栩如生地创建自动驾驶仿真环境。随着三维高斯散点技术(3DGS)的进步,先前的研究已将其应用于重建复杂的动态驾驶场景。这些方法通常需要昂贵的激光雷达传感器和动态物体的预标注数据集。为了解决这些挑战,我们提出了OG-Gaussian,这是一种新颖的方法,用占用预测网络(ONet)从环视摄像头图像生成的占用网格(OGs)替代激光雷达点云。我们的方法利用OGs中的语义信息,将动态车辆与静态街道背景分离,将这些网格转换为两组不同的初始点云,以重建静态和动态物体。此外,我们通过基于学习的方法估计动态物体的轨迹和姿态,消除了复杂手动标注的需求。在Waymo Open数据集上的实验表明,OG-Gaussian在重建质量和渲染速度方面与当前最先进技术相当,平均PSNR达到35.13,渲染速度为143 FPS,同时显著降低了计算成本和经济开销。 |
[25] 面向视障人士的钱币识别:斯里兰卡纸币的案例研究 标题: Money Recognition for the Visually Impaired: A Case Study on Sri Lankan Banknotes 作者: Akshaan Bandara 原文: [英文] [中文] 备注: None 摘要: 货币识别对于盲人来说是一个关键的无障碍需求,因为准确识别纸币会影响他们在金融交易中的独立性和安全性。迄今为止,已经采取了若干传统和技术措施。然而,这些方法不够用户友好,使得盲人更难识别纸币。本研究提出了一种用户友好的独立系统,用于识别斯里兰卡的纸币。研究使用了一个自定义创建的斯里兰卡纸币图像数据集来微调EfficientDet模型。该货币识别模型在验证数据集上达到了0.9847的AP,并在现实场景中表现出色。高精度和直观的界面使盲人能够快速准确地识别货币面额,从而最终促进了无障碍性和独立性。 |
[26] LLM-EvRep:使用自监督框架学习兼容LLM的事件表示 标题: LLM-EvRep: Learning an LLM-Compatible Event Representation Using a Self-Supervised Framework 作者: Zongyou Yu / Qiang Qu / Qian Zhang / Nan Zhang / Xiaoming Chen 原文: [英文] [中文] 备注: 6 pages, 2 figures,Companion Proceedings of the ACM Web Conference 2025 (WWW Companion '25) 摘要: 最近在基于事件的识别方面的进展显示出显著的前景,但大多数现有方法依赖于大量训练,限制了它们在高效处理事件驱动视觉内容方面的适应性。同时,大型语言模型(LLMs)在各个领域展示了卓越的零样本能力,但它们在基于事件的视觉识别中的应用仍然基本未被探索。为弥补这一差距,我们提出了\textbf{LLM-EvGen},一种事件表示生成器,可以生成与LLM兼容的事件表示\textbf{LLM-EvRep},从而提升LLM在事件识别任务中的表现。生成器通过自监督框架进行训练,使生成的表示在语义一致性和结构保真度上保持一致。在三个数据集上进行了全面的实验:N-ImageNet、N-Caltech101和N-MNIST。结果表明,我们的方法\textbf{LLM-EvRep}在使用GPT-4o进行评估时,在识别任务中分别比事件到视频方法E2VID高出15.93%、0.82%和50.21%。 |
[27] OrchardDepth:从单目相机图像精确估计果园场景的度量深度 标题: OrchardDepth: Precise Metric Depth Estimation of Orchard Scene from Monocular Camera Images 作者: Zhichao Zheng / Henry Williams / Bruce A MacDonald 原文: [英文] [中文] 备注: 10 pages, 5 figures, Australasian Conference on Robotics and Automation, ACRA, 2024 摘要: 单目深度估计是机器人感知中的一项基础任务。最近,随着更准确和更稳健的神经网络模型的发展以及不同类型数据集的出现,单目深度估计在性能和效率上有了显著的提升。然而,该领域的大多数研究都集中在非常集中的领域。特别是,大多数户外场景的基准测试都属于城市环境,以促进自动驾驶设备的改进,而这些基准测试与果园/葡萄园环境存在巨大差异,对第一产业的研究几乎没有帮助。因此,我们提出了OrchardDepth,填补了果园/葡萄园环境中单目相机的度量深度估计的空白。此外,我们提出了一种新的再训练方法,通过监控稠密深度图和稀疏点之间的一致正则化来改善训练结果。我们的方法将果园环境中深度估计的RMSE从1.5337提高到0.6738,证明了我们方法的有效性。 |
[28] PC-Agent:一种用于PC上复杂任务自动化的分层多智能体协作框架 标题: PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC 作者: Haowei Liu / Xi Zhang / Haiyang Xu / Yuyang Wanyan / Junyang Wang / Ming Yan / Ji Zhang / Chunfeng Yuan / Changsheng Xu / Weiming Hu / Fei Huang 原文: [英文] [中文] 备注: 14 pages, 7 figures 摘要: 在基于MLLM的GUI代理领域,与智能手机相比,PC场景不仅具有更复杂的交互环境,还涉及更复杂的应用内和应用间工作流程。为了解决这些问题,我们提出了一个名为PC-Agent的分层代理框架。具体来说,从感知的角度来看,我们设计了一个主动感知模块(APM),以克服当前MLLM在感知截图内容方面能力不足的问题。从决策的角度来看,为了更有效地处理复杂的用户指令和相互依赖的子任务,我们提出了一种分层多代理协作架构,将决策过程分解为指令-子任务-行动三个层次。在该架构中,设置了三个代理(即管理者、进度和决策)分别用于指令分解、进度跟踪和逐步决策。此外,还采用了一个反思代理,以实现及时的自下而上的错误反馈和调整。我们还引入了一个包含25个真实复杂指令的新基准PC-Eval。在PC-Eval上的实证结果表明,我们的PC-Agent在任务成功率上比之前的最先进方法提高了32个百分点。代码将公开发布。 |
[29] ODVerse33:新的YOLO版本总是更好吗?从YOLO v5到v11的多领域基准测试 标题: ODVerse33: Is the New YOLO Version Always Better? A Multi Domain benchmark from YOLO v5 to v11 作者: Tianyou Jiang / Yang Zhong 原文: [英文] 备注: 18 pages, 4 figures, 7 tables 摘要: YOLO(You Look Only Once)模型已被广泛用于构建各个领域的实时目标检测器。随着新版本YOLO的发布频率不断增加,出现了一些关键问题。新版本是否总是优于其前一版本?每个YOLO版本的核心创新是什么,这些变化如何转化为实际的性能提升?在本文中,我们总结了从YOLOv1到YOLOv11的关键创新,介绍了一个名为ODverse33的综合基准,该基准包括跨越11个不同领域(自动驾驶、农业、水下、医疗、电子游戏、工业、航空、野生动物、零售、显微镜和安全)的33个数据集,并通过广泛的实验结果探讨了模型改进在现实世界多领域应用中的实际影响。我们希望这项研究能够为目标检测模型的广大用户提供一些指导,并为未来的实时目标检测器开发提供一些参考。 |
[30] 具有3D扩散先验的纹理化三维再生变形 标题: Textured 3D Regenerative Morphing with 3D Diffusion Prior 作者: Songlin Yang / Yushi Lan / Honghua Chen / Xingang Pan 原文: [英文] [中文] 备注: None 摘要: 纹理化的3D变形在两个3D对象之间创建平滑且合理的插值序列,重点关注形状和纹理的过渡。这对于电影制作中的视觉效果等创意应用非常重要。以往的方法依赖于建立点对点的对应关系和确定平滑的变形轨迹,这本质上将它们限制在无纹理、拓扑对齐的数据集上的仅形状变形。这种限制导致了劳动密集的预处理和较差的泛化能力。为了解决这些挑战,我们提出了一种使用3D扩散先验的3D再生变形方法。与依赖显式对应关系和变形的先前方法不同,我们的方法消除了获取对应关系的额外需求,并使用3D扩散先验生成变形。具体来说,我们引入了一个3D扩散模型,并在三个层次上插值源和目标信息:初始噪声、模型参数和条件特征。然后,我们探索了一种注意力融合策略,以生成更平滑的变形序列。为了进一步提高语义插值的合理性和生成的3D表面的质量,我们提出了两种策略:(a)令牌重排序,通过基于语义分析匹配近似令牌来指导扩散模型去噪过程中的隐式对应关系;(b)低频增强,通过增强令牌中的低频信号来提高生成表面的质量。实验结果表明,我们的方法在不同类别对象对之间的3D变形中实现了卓越的平滑性和合理性,提供了一种具有纹理表示的3D变形的新型再生方法。 |
[31] 基于轻量级和大型模型的移动设备协作翡翠识别系统 标题: A Collaborative Jade Recognition System for Mobile Devices Based on Lightweight and Large Models 作者: Zhenyu Wang / Wenjia Li / Pengyu Zhu 原文: [英文] [中文] 备注: None 摘要: 随着移动设备的广泛采用和发展,基于视觉的识别应用已成为研究的热门话题。玉石作为重要的文化遗产和艺术品,在珠宝鉴定和文物保护等领域具有重要应用。然而,现有的玉石识别系统在移动实现方面仍面临挑战,如计算资源有限、实时性要求和准确性问题。为了解决这些挑战,本文提出了一种基于尺寸模型协作的玉石识别系统,旨在利用移动设备实现高效且准确的玉石识别。我们设计了一种基于多尺度图像处理的尺寸模型,通过分析玉石的尺寸、形状和表面纹理来提取关键视觉信息。然后,通过结合深度学习和传统计算机视觉算法,构建了一个协作多模型分类框架。该框架可以根据不同的玉石特征有效选择和调整模型,在各种环境中提供高准确性的结果。实验结果表明,所提出的系统能够在移动设备上提供高识别准确率和快速处理时间,同时消耗相对较低的计算资源。该系统不仅具有巨大的应用潜力,还为玉石识别的智能化发展提供了新的思路和技术支持。 |
[32] 迈向精确的二值脉冲神经网络:采用自适应梯度调制机制进行学习 标题: Towards Accurate Binary Spiking Neural Networks: Learning with Adaptive Gradient Modulation Mechanism 作者: Yu Liang / Wenjie Wei / Ammar Belatreche / Honglin Cao / Zijian Zhou / Shuai Wang / Malu Zhang / Yang Yang 原文: [英文] 备注: 9 pages, 8 figures, AAAI conference 摘要: 二值脉冲神经网络(BSNNs)继承了脉冲神经网络(SNNs)的事件驱动范式,同时也采用了二值化技术以减少存储负担。这些独特的优势赋予了BSNNs轻量级和高能效的特性,使其非常适合在资源受限的边缘设备上部署。然而,由于二值化的突触权重和不可微分的脉冲函数,有效地训练BSNNs仍然是一个未解决的问题。在本文中,我们深入分析了BSNN学习中的挑战,即频繁的权重符号翻转问题。为了解决这个问题,我们提出了一种自适应梯度调制机制(AGMM),旨在通过在学习过程中自适应地调整梯度来减少权重符号翻转的频率。所提出的AGMM可以使BSNNs实现更快的收敛速度和更高的准确性,有效地缩小了BSNNs与其全精度等价物之间的差距。我们在静态和神经形态数据集上验证了AGMM,结果表明它在BSNNs中达到了最先进的结果。这项工作大大减少了存储需求并增强了SNNs固有的能效,使其在资源受限的环境中具有很高的可行性。 |
[33] SegAnyPET:来自正电子发射断层扫描图像的通用可提示分割 标题: SegAnyPET: Universal Promptable Segmentation from Positron Emission Tomography Images 作者: Yichi Zhang / Le Xue / Wenbo Zhang / Lanlan Li / Yuchen Liu / Chen Jiang / Yuan Cheng / Yuan Qi 原文: [英文] [中文] 备注: None 摘要: 正电子发射断层扫描(PET)成像在现代医学诊断中起着至关重要的作用,它通过揭示患者体内的代谢过程,为治疗反应的量化和治疗进展的监测提供了必要的信息。然而,由于PET图像相较于其他结构性医学成像模式具有较低的对比度和不太明显的边界,其分割面临独特的挑战。最近,分割基础模型在各种自然图像分割任务中表现出卓越的多功能性。尽管在医学适应方面做出了努力,这些工作主要集中在具有详细生理结构信息的结构性医学图像上,当适用于分子PET成像时表现出较差的泛化能力。在本文中,我们收集并构建了迄今为止最大的PET分割数据集PETS-5k,该数据集包含5,731个三维全身PET图像和超过130万张二维图像。基于该数据集,我们开发了SegAnyPET,这是一种特定模态的三维基础模型,用于从PET图像中进行通用的可提示分割。为了解决PET图像标注质量不一致的问题,我们采用了一种交叉提示置信学习(CPCL)策略,并结合不确定性引导的自我校正过程,以稳健地从高质量标注数据和低质量噪声标注数据中学习分割。实验结果表明,SegAnyPET能够仅使用一个或几个提示点正确分割已知和未知目标,其准确性和通用分割的强泛化能力优于最先进的基础模型和任务特定的全监督模型。作为第一个针对PET图像的基础模型,我们相信SegAnyPET将推动其在分子成像的各种下游任务中的应用。 |
[34] 三重拉普拉斯尺度混合建模用于地震数据噪声抑制 标题: Triply Laplacian Scale Mixture Modeling for Seismic Data Noise Suppression 作者: Sirui Pan / Zhiyuan Zha / Shigang Wang / Yue Li / Zipei Fan / Gang Yan / Binh T. Nguyen / Bihan Wen / Ce Zhu 原文: [英文] [中文] 备注: None 摘要: 稀疏性基础的张量恢复方法在抑制地震数据噪声方面显示出巨大潜力。这些方法利用张量稀疏性度量来捕捉地震数据张量中固有的低维结构,通过软阈值或硬阈值操作施加稀疏性约束来去除噪声。然而,在这些方法中,考虑到真实的地震数据是非平稳的并受到噪声影响,张量系数的方差是未知的,并且可能难以从退化的地震数据中准确估计,导致不理想的噪声抑制性能。在本文中,我们提出了一种新颖的三重拉普拉斯尺度混合(TLSM)方法用于地震数据噪声抑制,该方法显著提高了稀疏张量系数和隐藏标量参数的估计精度。为了使优化问题易于处理,采用交替方向乘子法(ADMM)算法来解决所提出的基于TLSM的地震数据噪声抑制问题。对合成和实地地震数据的大量实验结果表明,所提出的TLSM算法在定量和定性评估中均优于许多最先进的地震数据噪声抑制方法,同时提供了卓越的计算效率。 |
[35] 使用卷积神经网络进行杂草检测 标题: Weed Detection using Convolutional Neural Network 作者: Santosh Kumar Tripathi / Shivendra Pratap Singh / Devansh Sharma / Harshavardhan U Patekar 原文: [英文] 备注: None 摘要: 在本文中,我们使用卷积神经网络(CNNs)来检测农业用地中的杂草。我们特别研究了两种CNN层类型,Conv2d和扩张Conv2d,在作物田地中进行杂草检测的应用。所建议的方法使用预训练模型从输入照片中提取特征,然后对其进行调整以进行杂草检测。实验结果使用了一个由15336个片段组成的大型数据集,其中包括3249个土壤片段,7376个大豆片段,3520个草片段和1191个阔叶杂草片段。结果表明,所建议的方法能够以94%的准确率准确且成功地检测杂草。这项研究对于减少有毒除草剂的使用和提高农业中杂草管理的效率具有重要意义。 |
[36] CrossVTON:通过三区域先验引导的跨类别虚拟试穿逻辑推理模拟 标题: CrossVTON: Mimicking the Logic Reasoning on Cross-category Virtual Try-on guided by Tri-zone Priors 作者: Donghao Luo / Yujie Liang / Xu Peng / Xiaobin Hu / Boyuan Jiang / Chengming Xu / Taisong Jin / Chengjie Wang / Yanwei Fu 原文: [英文] [中文] 备注: None 摘要: 尽管基于图像的虚拟试穿系统取得了显著进展,但生成逼真且稳健的跨类别虚拟试穿图像仍然是一项具有挑战性的任务。主要困难在于缺乏类似人类的推理能力,这涉及解决服装与模型之间的尺寸不匹配问题,同时识别并利用模型图像中各个区域的不同功能。为了解决这个问题,我们从人类认知过程中汲取灵感,将跨类别试穿所需的复杂推理分解为一个结构化框架。该框架系统地将模型图像分解为三个不同的区域:试穿区、重建区和想象区。每个区域在容纳服装和促进逼真合成方面发挥特定作用。为了赋予模型在跨类别场景中的稳健推理能力,我们提出了一种迭代数据构造器。该构造器涵盖了多种场景,包括类别内试穿、任意服装类别替换为连衣裙的转换(any-to-dress transformations),以及连衣裙替换为其他服装类别的转换(dress-to-any transformations)。利用生成的数据集,我们引入了一个三区域先验生成器,通过分析输入服装与模型图像的预期对齐方式,智能预测试穿区、重建区和想象区。在这些三区域先验的指导下,我们提出的方法CrossVTON实现了最先进的性能,在定性和定量评估中均超越了现有基线。值得注意的是,它在处理跨类别虚拟试穿方面表现出卓越的能力,满足了现实应用的复杂需求。 |
[37] RelaCtrl:基于相关性引导的高效扩散变换器控制 标题: RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers 作者: Ke Cao / Jing Wang / Ao Ma / Jiasong Feng / Zhanjie Zhang / Xuanhua He / Shanyuan Liu / Bo Cheng / Dawei Leng / Yuhui Yin / Jie Zhang 原文: [英文] [中文] 备注: 15 pages, 9 figures 摘要: 扩散变压器在文本到图像和文本到视频生成方面发挥了关键作用,这主要归功于其固有的可扩展性。然而,现有的受控扩散变压器方法带来了显著的参数和计算开销,并且由于未能考虑不同变压器层中控制信息相关性的变化,导致资源分配效率低下。为了解决这个问题,我们提出了相关性引导的高效可控生成框架,RelaCtrl,实现了控制信号在扩散变压器中的高效和资源优化的集成。首先,我们通过评估“ControlNet相关性评分”来评估扩散变压器中每一层与控制信息的相关性,即在推理过程中跳过每个控制层对生成质量和控制效果的影响。基于相关性的强度,我们调整控制层的位置、参数规模和建模能力,以减少不必要的参数和冗余计算。此外,为了进一步提高效率,我们用精心设计的二维洗牌混合器(TDSM)替换了常用复制块中的自注意力和FFN,从而实现了token混合器和通道混合器的高效实现。定性和定量实验结果均表明,与PixArt-delta相比,我们的方法仅使用其15%的参数和计算复杂度就实现了更优的性能。更多示例可在此https URL中查看。 |
[38] PhotoDoodle:从少量成对数据中学习艺术图像编辑 标题: PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data 作者: Shijie Huang / Yiren Song / Yuxuan Zhang / Hailong Guo / Xueyin Wang / Mike Zheng Shou / Jiaming Liu 原文: [英文] [中文] 备注: None 摘要: 我们介绍了PhotoDoodle,这是一种新颖的图像编辑框架,旨在通过使艺术家能够在照片上叠加装饰元素来促进照片涂鸦。照片涂鸦具有挑战性,因为插入的元素必须与背景无缝融合,这需要逼真的混合、透视对齐和上下文一致性。此外,背景必须在不失真的情况下保留,并且必须从有限的训练数据中高效捕捉艺术家的独特风格。这些要求并未被先前主要关注于全局风格迁移或局部修复的方法所解决。我们提出的方法,PhotoDoodle,采用了两阶段的训练策略。首先,我们使用大规模数据训练一个通用的图像编辑模型,OmniEditor。随后,我们使用EditLoRA对该模型进行微调,利用一个由艺术家策划的小型前后图像对数据集,以捕捉独特的编辑风格和技术。为了增强生成结果的一致性,我们引入了位置编码重用机制。此外,我们发布了一个包含六种高质量风格的PhotoDoodle数据集。大量实验表明,我们的方法在定制图像编辑中的先进性能和鲁棒性,为艺术创作开辟了新的可能性。 |
[39] 评估视觉语言模型的精确地理定位推断能力 标题: Evaluating Precise Geolocation Inference Capabilities of Vision Language Models 作者: Neel Jay / Hieu Minh Nguyen / Trung Dung Hoang / Jacob Haimes 原文: [英文] [中文] 备注: AAAI 2025 Workshop DATASAFE 摘要: 视觉-语言模型(VLMs)的普及在视觉信息日益丰富的时代引发了关于隐私的重要问题。尽管基础VLMs展示了广泛的知识和学习能力,我们特别研究了它们从未见过的图像数据中推断地理位置的能力。本文介绍了一个从Google街景收集的基准数据集,代表其全球覆盖的分布。基础模型在单图像地理定位推断上进行了评估,许多模型实现了小于300公里的中位距离误差。我们进一步评估了具有辅助工具访问权限的VLM“代理”,观察到距离误差最多减少了30.6%。我们的研究结果表明,现代基础VLMs可以作为强大的图像地理定位工具,而无需专门为此任务进行训练。随着这些模型的可访问性不断提高,我们的研究结果对在线隐私具有更大的影响。我们讨论了这些风险以及该领域的未来工作。 |
[40] 使用具有不确定性量化的深度集成学习对Landsat交叉轨道区域的每日地表温度进行重建 标题: Daily Land Surface Temperature Reconstruction in Landsat Cross-Track Areas Using Deep Ensemble Learning With Uncertainty Quantification 作者: Shengjie Liu / Siqin Wang / Lu Zhang 原文: [英文] [中文] 备注: None 摘要: 许多现实世界的应用依赖于高时空分辨率的地表温度(LST)数据。在复杂的城市地区,LST表现出显著的变化,在城市街区内和街区之间剧烈波动。Landsat提供100米的高空间分辨率数据,但受限于较长的重访时间,云层覆盖进一步干扰了数据收集。在此,我们提出DELAG,一种深度集成学习方法,结合年度温度周期和高斯过程,以重建复杂城市地区的Landsat LST。利用Landsat自2021年以来的跨轨特性和双卫星操作,我们进一步将数据可用性提高到每16天4个场景。我们选择纽约市、伦敦和香港这三个来自不同大陆的城市作为研究区域。实验表明,DELAG在晴空(RMSE = 0.73-0.96 K)和多云(RMSE = 0.84-1.62 K)情况下成功重建了这三个城市的LST,优于现有方法。此外,DELAG可以量化不确定性,从而提高LST重建的可靠性。我们进一步测试了重建的LST以估算近地表空气温度,取得了与晴空LST(RMSE = 1.63-2.02 K)相当的结果(RMSE = 1.48-2.11 K)。结果表明,通过DELAG成功实现了重建,并强调了LST重建在估算准确空气温度方面的广泛应用。因此,我们的研究提供了一种新颖且实用的Landsat LST重建方法,特别适用于Landsat跨轨区域内的复杂城市地区,向解决高时空分辨率的复杂气候事件迈出了一步。 |
[41] 随机共振提高了深度学习模型对低对比度图像的检测能力 标题: Stochastic Resonance Improves the Detection of Low Contrast Images in Deep Learning Models 作者: Siegfried Ludwig 原文: [英文] [中文] 备注: MSc Course Project 摘要: 随机共振描述了噪声在某些类型的系统中提高弱信号可检测性的作用。它在自然和工程环境中被广泛观察到,但其在基于速率的神经网络图像分类中的效用尚未被广泛研究。在本分析中,一个简单的LSTM递归神经网络被训练用于数字识别和分类。在测试阶段,图像对比度被降低到模型无法识别刺激存在的程度。通过添加受控噪声,部分恢复了分类性能。结果表明,在基于速率的递归神经网络中存在随机共振现象。 |
[42] 利用去模糊网络进行辐射场重建 标题: Exploiting Deblurring Networks for Radiance Fields 作者: Haeyun Choi / Heemin Yang / Janghyeok Han / Sunghyun Cho 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们提出了DeepDeblurRF,这是一种新颖的辐射场去模糊方法,可以从模糊的训练视图中合成高质量的新视图,并显著减少训练时间。DeepDeblurRF利用基于深度神经网络(DNN)的去模糊模块,以享受其去模糊性能和计算效率。为了有效结合基于DNN的去模糊和辐射场构建,我们提出了一种新颖的辐射场(RF)引导去模糊和迭代框架,该框架以交替的方式执行RF引导去模糊和辐射场构建。此外,DeepDeblurRF兼容各种场景表示,如体素网格和3D高斯,扩展了其适用性。我们还提出了BlurRF-Synth,这是第一个用于训练辐射场去模糊框架的大规模合成数据集。我们在相机运动模糊和散焦模糊上进行了广泛的实验,证明DeepDeblurRF在显著减少训练时间的情况下,实现了最先进的新视图合成质量。 |
[43] 整合额外模态有助于分割器更好地发现伪装物体 标题: Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well 作者: Chengyu Fang / Chunming He / Longxiang Tang / Yuelin Zhang / Chenyang Zhu / Yuqi Shen / Chubin Chen / Guoxia Xu / Xiu Li 原文: [英文] [中文] 备注: 12 pages, 5 figures, 6 tables 摘要: 伪装物体分割(COS)由于伪装物体与背景之间微妙的视觉差异,仍然是一个具有挑战性的问题。由于可见光谱中可用的视觉线索极其有限,以往的RGB单模态方法往往难以取得令人满意的结果,这促使人们探索多模态数据以提高检测准确性。在这项工作中,我们提出了UniCOS,这是一种新颖的框架,能够有效利用多样的数据模态来提高分割性能。UniCOS由两个关键组件组成:多模态分割器UniSEG和跨模态知识学习模块UniLearner。UniSEG采用状态空间融合机制,将跨模态特征整合到统一的状态空间中,增强上下文理解并提高异构数据整合的鲁棒性。此外,它还包括一个融合反馈机制,以促进特征提取。UniLearner利用与COS任务无关的多模态数据,通过生成伪模态内容和跨模态语义关联来提高COS模型的分割能力。大量实验表明,无论是否有真实或伪多模态COS数据,UniSEG都优于现有的多模态COS(MCOS)分割器。此外,在多模态COS数据不可用但多模态非COS数据可访问的情况下,UniLearner能够有效利用这些数据来提高分割性能。我们的代码将在GitHub上公开。 |
[44] CrossFuse:通过跨传感器Top-K视觉对齐及其扩展学习红外和可见光图像融合 标题: CrossFuse: Learning Infrared and Visible Image Fusion by Cross-Sensor Top-K Vision Alignment and Beyond 作者: Yukai Shi / Cidan Shi / Zhipeng Weng / Yin Tian / Xiaoyu Xian / Liang Lin 原文: [英文] [中文] 备注: IEEE T-CSVT. We mainly discuss the out-of-distribution challenges in infrared and visible image fusion 摘要: 红外与可见光图像融合(IVIF)在视频监控和自动驾驶系统等关键领域的应用日益增多。基于深度学习的融合方法取得了显著进展。然而,这些模型在实际应用中经常遇到分布外(OOD)场景,这严重影响了它们的性能和可靠性。因此,解决OOD数据的挑战对于在开放世界环境中安全部署这些模型至关重要。与现有研究不同,我们的重点是应对实际应用中OOD数据带来的挑战,并增强模型的鲁棒性和泛化能力。在本文中,我们提出了一种基于多视图增强的红外-可见光融合框架。对于外部数据增强,采用Top-k选择性视觉对齐,通过对可见光图像进行RGB-wise变换来缓解数据集之间的分布偏移。这一策略有效地引入了增强样本,提高了模型对复杂现实场景的适应性。此外,对于内部数据增强,使用弱-激进增强建立了自监督学习。这使得模型在融合过程中能够学习到更鲁棒和通用的特征表示,从而提高鲁棒性和泛化能力。大量实验表明,所提出的方法在各种条件和环境下表现出卓越的性能和鲁棒性。我们的方法显著增强了IVIF任务在实际应用中的可靠性和稳定性。 |
[45] 近岸水下目标检测遇上无人机搭载的高光谱遥感:一种新颖的混合级对比学习框架和基准数据集 标题: Nearshore Underwater Target Detection Meets UAV-borne Hyperspectral Remote Sensing: A Novel Hybrid-level Contrastive Learning Framework and Benchmark Dataset 作者: Jiahao Qi / Chuanhong Zhou / Xingyue Liu / Chen Chen / Dehui Zhu / Kangcheng Bin / Ping Zhong 原文: [英文] [中文] 备注: 18pages,13figures 摘要: 无人机搭载的高光谱遥感已成为水下目标检测(UTD)的一个有前景的方法。然而,其有效性在近岸环境中受到光谱失真的影响,这会影响依赖水深模型的传统高光谱UTD(HUTD)方法的准确性。这些失真导致目标和背景光谱的不确定性增加,给检测过程带来挑战。为了解决这个问题,我们提出了高光谱水下对比学习网络(HUCLNet),这是一种新颖的框架,将对比学习与自适应学习范式相结合,以实现近岸区域的稳健HUTD。HUCLNet通过对比学习从失真的高光谱数据中提取判别特征,而自适应学习策略则有选择地优先考虑最具信息量的样本。此外,基于可靠性的聚类策略增强了学习的鲁棒性。为了评估该方法的有效性,我们构建了一个新的近岸HUTD基准数据集ATR2-HUTD,涵盖了三种不同的场景,具有不同的水体类型、浊度和目标类型。大量实验表明,HUCLNet显著优于最先进的方法。数据集和代码将在以下网址公开:this https URL |
[46] LXLv2:增强型激光雷达排除的精简3D目标检测,通过融合4D雷达和摄像头 标题: LXLv2: Enhanced LiDAR Excluded Lean 3D Object Detection with Fusion of 4D Radar and Camera 作者: Weiyi Xiong / Zean Zou / Qiuchi Zhao / Fengchun He / Bing Zhu 原文: [英文] [中文] 备注: Accepted by IEEE Robotics and Automation Letters 摘要: 作为之前最先进的基于4D雷达-摄像头融合的3D目标检测方法,LXL利用预测的图像深度分布图和雷达3D占用网格来辅助基于采样的图像视图转换。然而,深度预测缺乏准确性和一致性,并且LXL中的基于拼接的融合阻碍了模型的鲁棒性。在这项工作中,我们提出了LXLv2,通过修改来克服这些限制并提高性能。具体来说,考虑到雷达测量中的位置误差,我们设计了一种通过雷达点进行的一对多深度监督策略,其中进一步利用雷达截面(RCS)值来调整监督区域,以实现对象级深度一致性。此外,引入了一个基于通道和空间注意力的融合模块,称为CSAFusion,以提高特征的适应性。在View-of-Delft和TJ4DRadSet数据集上的实验结果表明,所提出的LXLv2在检测精度、推理速度和鲁棒性方面可以优于LXL,证明了该模型的有效性。 |
[47] PLPHP:用于高效大型视觉语言模型的逐层逐头视觉令牌剪枝 标题: PLPHP: Per-Layer Per-Head Vision Token Pruning for Efficient Large Vision-Language Models 作者: Yu Meng / Kaiyuan Li / Chenran Huang / Chen Gao / Xinlei Chen / Yong Li / Xiaoping Zhang 原文: [英文] [中文] 备注: 12 pages, 8 figures 摘要: 大型视觉语言模型(LVLMs)在多模态任务中展示了卓越的能力。然而,它们的推理效率受到解码过程中处理的大量视觉标记的限制。为了解决这一挑战,我们提出了逐层逐头视觉标记剪枝(PLPHP),这是一种包括层级保留率分配和头级视觉标记剪枝的两级细粒度剪枝方法。受解码器层中视觉标记再注意现象的启发,我们动态调整每层的标记保留率。对视觉信息表现出更强注意力的层保留更多的视觉标记,而视觉注意力较低的层则被大幅剪枝。此外,PLPHP在注意力头级别应用剪枝,使同一层内的不同头能够独立保留关键上下文。在多个基准测试上的实验表明,PLPHP在解码速度上提高了18%,并将键值缓存(KV Cache)大小减少了50%以上,平均性能仅下降0.46%,同时在多图像任务中实现了显著的性能提升。这些结果突显了细粒度标记剪枝的有效性,并有助于提高LVLMs的效率和可扩展性。我们的源代码将公开发布。 |
[48] 通过光流引导学习时间序列三维语义场景补全 标题: Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance 作者: Meng Wang / Fan Wu / Ruihui Li / Yunchuan Qin / Zhuo Tang / Kenli Li 原文: [英文] [中文] 备注: None 摘要: 3D语义场景补全(SSC)为自动驾驶感知提供了全面的场景几何和语义信息,这对于实现准确和可靠的决策至关重要。然而,现有的SSC方法仅限于从当前帧捕获稀疏信息或简单地堆叠多帧时间特征,因此未能获取有效的场景上下文。这些方法忽略了关键的运动动态,并难以实现时间一致性。为了解决上述挑战,我们提出了一种新颖的时间SSC方法FlowScene:通过光流引导学习时间3D语义场景补全。通过利用光流,FlowScene可以整合运动、不同视角、遮挡和其他上下文线索,从而显著提高3D场景补全的准确性。具体来说,我们的框架引入了两个关键组件:(1)一个光流引导的时间聚合模块,使用光流对齐和聚合时间特征,捕捉运动感知的上下文和可变形结构;(2)一个遮挡引导的体素细化模块,将遮挡掩码和时间聚合特征注入3D体素空间,自适应地细化体素表示以进行显式几何建模。实验结果表明,FlowScene在SemanticKITTI和SSCBench-KITTI-360基准上实现了最先进的性能。 |
[49] 通过三元组挖掘增强对反射表面鲁棒性的自监督单目深度估计 标题: Self-supervised Monocular Depth Estimation Robust to Reflective Surface Leveraged by Triplet Mining 作者: Wonhyeok Choi / Kyumin Hwang / Wei Peng / Minwoo Choi / Sunghoon Im 原文: [英文] [中文] 备注: Accepted at ICLR 2025 摘要: 自监督单目深度估计(SSMDE)旨在通过学习来自RGB图像序列的深度,预测单目图像的密集深度图,从而消除对真实深度标签的需求。尽管与监督方法相比,这种方法简化了数据获取,但在处理反射表面时存在困难,因为这些表面违反了朗伯反射的假设,导致在这些表面上的训练不准确。为了解决这个问题,我们提出了一种新颖的SSMDE训练策略,通过利用三元组挖掘在像素级别定位反射区域,并由不同视点之间的相机几何指导。所提出的反射感知三元组挖掘损失专门惩罚在局部反射区域上的不当光度误差最小化,同时保持非反射区域的深度准确性。我们还结合了一种反射感知的知识蒸馏方法,使学生模型能够有选择地学习来自反射和非反射区域的像素级知识。这提高了各个区域的深度估计的鲁棒性。对多个数据集的评估结果表明,我们的方法有效地提高了反射表面上的深度质量,并优于最先进的SSMDE基线。 |
[50] 单目深度估计与分割:基于迭代语义与几何融合的透明物体处理 标题: Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion 作者: Jiangyuan Liu / Hongxuan Ma / Yuxin Guo / Yuhao Zhao / Chi Zhang / Wei Sui / Wei Zou 原文: [英文] [中文] 备注: Accepted by ICRA(2025). The code is accessible through: this https URL 摘要: 透明物体感知对于众多机器人任务来说是不可或缺的。然而,由于复杂的光学特性,准确分割和估计透明物体的深度仍然具有挑战性。现有方法主要通过额外的输入或专用传感器深入研究单一任务,忽视了任务之间的宝贵交互和随后的优化过程,导致预测结果次优且模糊。为了解决这些问题,我们提出了一种单目框架,这是第一个在透明物体的分割和深度估计两方面都表现出色的方法,仅需单张图像输入。具体来说,我们设计了一种新颖的语义和几何融合模块,有效整合任务之间的多尺度信息。此外,借鉴人类对物体的感知,我们进一步引入了一种迭代策略,逐步优化初始特征以获得更清晰的结果。在两个具有挑战性的合成和真实世界数据集上的实验表明,我们的模型仅凭单个RGB输入就能大幅超越最先进的单目、立体和多视图方法,领先约38.8%-46.2%。代码和模型可在此https URL公开获取。 |
[51] MAGO-SP:仅幅度VIBE MRI中的水脂交换检测与校正 标题: MAGO-SP: Detection and Correction of Water-Fat Swaps in Magnitude-Only VIBE MRI 作者: Robert Graf / Hendrik Möller / Sophie Starck / Matan Atad / Philipp Braun / Jonathan Stelter / Annette Peters / Lilian Krist / Stefan N. Willich / Henry Völzke / Robin Bülow / Klaus Berger / Tobias Pischon / Thoralf Niendorf / Johannes Paetzold / Dimitrios Karampinos / Daniel Rueckert / Jan Kirschke 原文: [英文] [中文] 备注: None 摘要: 体积内插屏气检查(VIBE)MRI生成适合水和脂肪信号成分估计的图像。虽然两点VIBE提供水脂分离的图像,但六点VIBE可以估计有效横向弛豫率R2*和质子密度脂肪分数(PDFF),这些是健康和疾病的成像标志。在信号重建过程中出现的模糊性可能导致水脂交换。这一缺陷对VIBE-MRI在大规模临床数据和人群研究中的自动PDFF分析应用构成挑战。本研究开发了一种自动化流程,用于检测和校正无对比增强VIBE图像中的水脂交换。我们的三步流程首先训练一个分割网络,将体积分类为“脂肪样”或“水样”,使用通过合并脂肪和水体积与Perlin噪声生成的合成水脂交换。接下来,一个去噪扩散图像到图像网络预测水体积作为校正的信号先验。最后,我们将此先验整合到一个物理约束模型中,以恢复准确的水和脂肪信号。我们的方法在六点VIBE的水脂交换检测中实现了<1%的错误率。值得注意的是,交换对体重过轻和肥胖3级BMI类别的个体影响尤为显著。我们的校正算法确保在化学相位MRI中选择准确的解决方案,从而实现可靠的PDFF估计。这为自动化大规模人群成像分析奠定了坚实的技术基础。 |
[52] BP-SGCN:行为伪标签指导的稀疏图卷积网络用于行人和异构轨迹预测 标题: BP-SGCN: Behavioral Pseudo-Label Informed Sparse Graph Convolution Network for Pedestrian and Heterogeneous Trajectory Prediction 作者: Ruochen Li / Stamos Katsigiannis / Tae-Kyun Kim / Hubert P. H. Shum 原文: [英文] [中文] 备注: None 摘要: 轨迹预测通过预测交通参与者的短期未来运动来改善自动驾驶车辆或监控应用中的决策。它被分为行人轨迹预测或异质轨迹预测。前者利用行人相对一致的行为,但在包含骑自行车者和车辆等异质交通参与者的真实场景中受到限制。后者通常依赖额外的类别标签信息来区分异质参与者,但此类标签的标注成本高昂,且无法推广以代表同一类别参与者的不同行为。在这项工作中,我们引入了行为伪标签,仅基于运动特征有效捕捉行人和异质参与者的行为分布,显著提高了轨迹预测的准确性。为了实现该框架,我们提出了行为伪标签知情稀疏图卷积网络(BP-SGCN),该网络学习伪标签并将其传递给轨迹预测器。为了优化,我们提出了一种级联训练方案,首先以无监督的方式学习伪标签,然后在增加轨迹预测准确性的方向上对标签进行端到端微调。实验表明,我们的伪标签有效地建模了不同的行为簇并提高了轨迹预测。我们提出的BP-SGCN在使用行人(ETH/UCY,仅行人SDD)和异质代理数据集(SDD,Argoverse 1)时均优于现有方法。 |
[53] 多数据集协同监督学习在壳体施工场景点云中预标记结构组件 标题: Multi-dataset synergistic in supervised learning to pre-label structural components in point clouds from shell construction scenes 作者: Lukas Rauch / Thomas Braml 原文: [英文] [中文] 备注: 18 pages, 8 figures, 7 tables 摘要: 为新训练数据集标注数据所需的大量工作阻碍了计算机视觉研究和建筑行业的机器学习。本文探讨了在壳体施工现场背景下,适应标准数据集和最新的变压器模型架构用于点云语义分割的方法。与常见的专注于建筑内部和家具对象分割的方法不同,本研究解决了在建筑、工程和施工(AEC)中分割复杂结构组件的挑战。我们通过监督训练和自定义验证数据集建立了一个基线,评估了使用大规模室内数据集的跨域推理,并利用迁移学习在最少的新数据下最大化分割性能。研究结果表明,经过最少的微调,预训练的变压器架构为建筑组件分割提供了一种有效的策略。我们的结果对于在创建更大训练资源时自动标注新的、以前未见过的数据以及分割经常出现的对象具有良好的前景。 |
[54] YOLOv12:关键架构特征解析 标题: YOLOv12: A Breakdown of the Key Architectural Features 作者: Mujadded Al Rabbani Alif / Muhammad Hussain 原文: [英文] [中文] 备注: None 摘要: 本文对YOLOv12进行了架构分析,这是一项在单阶段实时目标检测领域的重要进展,基于其前代的优势并引入了关键改进。该模型采用了优化的主干网络(R-ELAN)、7x7可分离卷积以及基于FlashAttention的区域注意力机制,提升了特征提取能力、效率和检测的稳健性。与其前代类似,YOLOv12提供了多种模型变体,为延迟敏感和高精度应用提供了可扩展的解决方案。实验结果显示,在平均精度(mAP)和推理速度上都有一致的提升,使得YOLOv12成为自动化系统、安全和实时分析应用的一个引人注目的选择。通过在计算效率和性能之间实现最佳平衡,YOLOv12为实时计算机视觉设定了新的基准,促进了从边缘设备到高性能集群的多样化硬件平台的部署。 |
[55] DC-ControlNet:在图像生成中使用扩散模型解耦元素间和元素内条件 标题: DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models 作者: Hongji Yang / Wencheng Han / Yucheng Zhou / Jianbing Shen 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们介绍了DC(Decouple)-ControlNet,这是一种高度灵活且精确可控的多条件图像生成框架。DC-ControlNet的核心思想是解耦控制条件,将全局控制转变为一个整合了不同元素、内容和布局的分层系统。这使用户能够更灵活地混合这些单独的条件,从而实现更高效和准确的图像生成控制。之前基于ControlNet的模型仅依赖于全局条件,这会影响整个图像,缺乏对特定元素或区域的控制能力。这一限制降低了灵活性,并可能在多条件图像生成中导致条件误解。为了解决这些挑战,我们在DC-ControlNet中提出了元素内控制器和元素间控制器。元素内控制器处理单个元素内的不同类型的控制信号,准确描述对象的内容和布局特征。对于元素之间的交互,我们引入了元素间控制器,该控制器基于用户定义的关系,准确处理多元素交互和遮挡。广泛的评估表明,DC-ControlNet在多条件控制的灵活性和精确性方面显著优于现有的ControlNet模型和从布局到图像的生成模型。 |
[56] SigLIP 2:具备改进的语义理解、定位和密集特征的多语言视觉-语言编码器 标题: SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features 作者: Michael Tschannen / Alexey Gritsenko / Xiao Wang / Muhammad Ferjad Naeem / Ibrahim Alabdulmohsin / Nikhil Parthasarathy / Talfan Evans / Lucas Beyer / Ye Xia / Basil Mustafa / Olivier Hénaff / Jeremiah Harmsen / Andreas Steiner / Xiaohua Zhai 原文: [英文] [中文] 备注: Model checkpoints are available at this https URL 摘要: 我们介绍了SigLIP 2,这是一系列新的多语言视觉-语言编码器,基于原始SigLIP的成功。在第二次迭代中,我们将原始的图像-文本训练目标与几个先前独立开发的技术结合成一个统一的方案——这包括基于字幕的预训练、自监督损失(自蒸馏、掩码预测)和在线数据整理。通过这些变化,SigLIP 2模型在所有模型规模上在核心能力方面都优于其SigLIP对应物,包括零样本分类、图像-文本检索以及在提取视觉表示以用于视觉-语言模型(VLMs)时的迁移性能。此外,新的训练方案在定位和密集预测任务上带来了显著的改进。我们还训练了支持多种分辨率并保留输入原始纵横比的变体。最后,我们在更具多样性的数据混合上进行训练,其中包括去偏技术,从而大大提高了多语言理解和改善了公平性。为了让用户在推理成本和性能之间进行权衡,我们发布了四种大小的模型检查点:ViT-B(86M)、L(303M)、So400m(400M)和g(1B)。 |
[57] 用于3D理解和编辑的结构解耦特征场蒸馏 标题: Structurally Disentangled Feature Fields Distillation for 3D Understanding and Editing 作者: Yoel Levy / David Shavin / Itai Lang / Sagie Benaim 原文: [英文] [中文] 备注: None 摘要: 最近的研究表明,可以利用或提炼通过大型预训练的二维模型获得的二维特征,将其转化为三维特征,从而仅使用二维监督实现令人印象深刻的三维编辑和理解能力。尽管这些成果令人瞩目,但这些模型通常假设三维特征是通过单一特征场捕获的,并且常常简化地假设特征是视图无关的。在这项工作中,我们提出了一种新的方法,即使用多个解耦的特征场来捕获三维特征,这些特征场捕捉了三维特征的不同结构组件,包括视图相关和视图无关的组件,这些组件仅通过二维特征监督即可学习。随后,每个元素都可以单独控制,从而实现语义和结构的理解与编辑能力。例如,通过用户点击,可以分割与给定对象对应的三维特征,然后分割、编辑或移除其视图相关(反射)属性。我们在三维分割任务上评估了我们的方法,并展示了一组新的理解和编辑任务。 |
[58] RendBEV:用于自监督鸟瞰图分割的语义新视图合成 标题: RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird's Eye View Segmentation 作者: Henrique Piñeiro Monteagudo / Leonardo Taccari / Aurel Pjetri / Francesco Sambo / Samuele Salti 原文: [英文] 备注: Accepted at WACV 2025 摘要: 鸟瞰图(BEV)语义地图最近因其作为环境表示来解决辅助和自动驾驶任务的有效性而受到广泛关注。然而,大多数现有工作集中在完全监督的设置上,即在大型标注数据集上训练网络。在这项工作中,我们提出了RendBEV,这是一种用于BEV语义分割网络的自监督训练的新方法,利用可微分的体积渲染从由2D语义分割模型计算的语义透视视图中获取监督。我们的方法实现了零样本BEV语义分割,并在这一具有挑战性的设置中已经提供了具有竞争力的结果。当用作预训练然后在标注的BEV真实数据上进行微调时,我们的方法在低标注情况下显著提升了性能,并在对所有可用标签进行微调时设定了新的技术水平。 |
[59] 基于文本驱动的360度全景图生成研究综述 标题: A Survey on Text-Driven 360-Degree Panorama Generation 作者: Hai Wang / Xiaoyu Xiang / Weihao Xia / Jing-Hao Xue 原文: [英文] [中文] 备注: None 摘要: 文本驱动的360度全景生成的出现,使得可以直接从文本描述中合成360度全景图像,这标志着沉浸式视觉内容创作的一个变革性进步。这一创新显著简化了传统上复杂的此类内容制作过程。最近在文本到图像扩散模型方面的进展加速了这一新兴领域的快速发展。本文综述了文本驱动的360度全景生成,深入分析了最先进的算法及其在360度3D场景生成中的不断扩展的应用。此外,我们批判性地审视了当前的局限性,并提出了未来研究的有前景的方向。一个包含相关资源和研究论文的精选项目页面可在此https URL获得。 |
[60] AVD2:事故视频扩散用于事故视频描述 标题: AVD2: Accident Video Diffusion for Accident Video Description 作者: Cheng Li / Keyuan Zhou / Tong Liu / Yu Wang / Mingqiao Zhuang / Huan-ang Gao / Bu Jin / Hao Zhao 原文: [英文] [中文] 备注: ICRA 2025, Project Page: this https URL 摘要: 交通事故为自动驾驶带来了复杂的挑战,通常表现为不可预测的场景,这些场景阻碍了系统的准确解释。现有的方法由于缺乏特定于事故的训练数据,无法有效阐明事故原因并提出预防措施。在这项工作中,我们引入了AVD2(事故视频扩散用于事故视频描述),这是一种新颖的框架,通过生成与详细自然语言描述和推理相一致的事故视频来增强事故场景理解,从而贡献了EMM-AU(增强多模态事故视频理解)数据集。实证结果表明,EMM-AU数据集的整合在自动化指标和人工评估方面均建立了最先进的性能,显著推进了事故分析和预防领域。项目资源可在此网址获取。 |
[61] 探索视觉问答的高级技术:全面比较 标题: Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison 作者: Aiswarya Baby / Tintu Thankom Koshy 原文: [英文] 备注: 8 pages, No figures 摘要: 视觉问答(VQA)作为计算机视觉与自然语言处理交叉领域中的一项关键任务,要求模型理解和推理视觉内容以响应自然语言问题。分析VQA数据集对于开发能够处理多模态推理复杂性的稳健模型至关重要。已经开发了多种方法来研究这些数据集,每种方法都从问题多样性、答案分布和视觉-文本相关性等方面提供了独特的视角。尽管取得了显著进展,现有的VQA模型仍面临与数据集偏差、模型复杂性有限、常识推理缺陷、僵化的评估方法以及向现实场景泛化相关的挑战。本文对五种先进的VQA模型进行了全面的比较研究:ABC-CNN、KICNLE、Masked Vision and Language Modeling、BLIP-2和OFA,每种模型采用不同的方法来应对这些挑战。 |
[62] 提高自编码器的可扩散性 标题: Improving the Diffusability of Autoencoders 作者: Ivan Skorokhodov / Sharath Girish / Benran Hu / Willi Menapace / Yanyu Li / Rameen Abdal / Sergey Tulyakov / Aliaksandr Siarohin 原文: [英文] 备注: 26 pages, 22 figures, 9 tables 摘要: 潜在扩散模型已成为生成高质量图像和视频的领先方法,利用压缩的潜在表示来减少扩散过程的计算负担。尽管最近的进展主要集中在扩展扩散主干和提高自编码器重建质量上,但这些组件之间的相互作用却相对较少受到关注。在这项工作中,我们对现代自编码器进行了频谱分析,并在其潜在空间中识别出过多的高频成分,这在具有大瓶颈通道大小的自编码器中尤为明显。我们假设这种高频成分干扰了扩散合成过程的由粗到细的特性,并阻碍了生成质量。为了解决这个问题,我们提出了尺度等变性:一种简单的正则化策略,通过在解码器中强制尺度等变性来对齐潜在空间和RGB空间的频率。它只需要最少的代码更改和最多20K次自编码器微调步骤,却显著提高了生成质量,在ImageNet-1K 256x256的图像生成中将FID降低了19%,在Kinetics-700 17x256x256的视频生成中将FVD至少降低了44%。 |
[63] LongWriter-V:在视觉语言模型中实现超长和高保真生成 标题: LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models 作者: Shangqing Tu / Yucheng Wang / Daniel Zhang-Li / Yushi Bai / Jifan Yu / Yuhao Wu / Lei Hou / Huiqin Liu / Zhiyuan Liu / Bin Xu / Juanzi Li 原文: [英文] [中文] 备注: None 摘要: 现有的大型视觉语言模型(LVLMs)可以处理长度达128k的视觉和文本标记的输入,但在生成超过1000字的连贯输出时表现不佳。我们发现主要的限制是在监督微调(SFT)过程中缺乏长输出示例。为了解决这个问题,我们引入了LongWriter-V-22k,这是一个包含22,158个示例的SFT数据集,每个示例都有多个输入图像、一个指令以及相应的输出,输出长度从0到10,000字不等。此外,为了实现与输入图像高度一致的长输出,我们对SFT模型应用了直接偏好优化(DPO)。鉴于收集长输出(例如3,000字)的人工反馈成本很高,我们提出了IterDPO,它将长输出分成多个片段,并使用迭代修正与原始输出形成偏好对。此外,我们开发了MMLongBench-Write,这是一个包含六个任务的基准,用于评估VLMs的长生成能力。我们的7B参数模型通过LongWriter-V-22k和IterDPO训练,在这个基准上表现出色,超越了像GPT-4o这样的更大规模的专有模型。代码和数据:此https URL |
[64] 通过代码引导的合成多模态数据生成扩展文本丰富图像理解 标题: Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation 作者: Yue Yang / Ajay Patel / Matt Deitke / Tanmay Gupta / Luca Weihs / Andrew Head / Mark Yatskar / Chris Callison-Burch / Ranjay Krishna / Aniruddha Kembhavi / Christopher Clark 原文: [英文] [中文] 备注: 20 pages, 19 figures, 9 tables, website: this https URL 摘要: 关于包含丰富文本的图像(如图表和文档)的推理是视觉语言模型(VLMs)的一个关键应用。然而,由于缺乏多样化的文本丰富的视觉语言数据,VLMs在这些领域往往表现不佳。为了解决这一挑战,我们提出了CoSyn,一个利用仅文本的大型语言模型(LLMs)的编码能力来自动创建合成文本丰富的多模态数据的框架。给定描述目标领域的输入文本(例如,“营养成分标签”),CoSyn提示LLM生成用于渲染合成图像的代码(Python、HTML、LaTeX等)。通过将底层代码作为合成图像的文本表示,CoSyn可以生成高质量的指令调优数据,再次依赖于仅文本的LLM。使用CoSyn,我们构建了一个包含40万张图像和270万行视觉语言指令调优数据的数据集。在七个基准上的综合实验表明,使用我们的合成数据训练的模型在竞争激烈的开源模型中实现了最先进的性能,包括Llama 3.2,并超越了专有模型如GPT-4V和Gemini 1.5 Flash。此外,CoSyn可以生成合成指点数据,使VLMs能够在输入图像中定位信息,展示了其开发能够在现实环境中行动的多模态代理的潜力。 |
[65] 时间旅行:评估大型语言模型在历史和文化遗产上的综合基准 标题: Time Travel: A Comprehensive Benchmark to Evaluate LMMs on Historical and Cultural Artifacts 作者: Sara Ghaboura / Ketan More / Ritesh Thawkar / Wafa Alghallabi / Omkar Thawakar / Fahad Shahbaz Khan / Hisham Cholakkal / Salman Khan / Rao Muhammad Anwer 原文: [英文] 备注: 4 pages, 6 figures 摘要: 理解历史和文化遗产需要人类的专业知识和先进的计算技术,但这一过程仍然复杂且耗时。尽管大型多模态模型提供了有前景的支持,但它们的评估和改进需要一个标准化的基准。为此,我们引入了TimeTravel,这是一个包含10,250个专家验证样本的基准,涵盖了10个主要历史区域的266个不同文化。TimeTravel专为人工智能驱动的手稿、艺术品、铭文和考古发现分析而设计,提供了一个结构化的数据集和强大的评估框架,用于评估AI模型在分类、解释和历史理解方面的能力。通过将AI与历史研究相结合,TimeTravel促进了为历史学家、考古学家、研究人员和文化游客提供AI支持的工具,以提取有价值的见解,同时确保技术对历史发现和文化遗产保护做出有意义的贡献。我们在TimeTravel上评估了当代AI模型,突出了它们的优势并确定了需要改进的领域。我们的目标是将AI确立为文化遗产保护的可靠伙伴,确保技术进步对历史发现做出有意义的贡献。我们的代码可在以下网址获取:\url{this https URL}。 |