![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年4月25日更新论文66篇
|
[1] 从稀疏的现场测量和卫星数据中估算密集空气污染 标题: Dense Air Pollution Estimation from Sparse in-situ Measurements and Satellite Data 作者: Ruben Gonzalez Avilés / Linus Scheibenreif / Damian Borth 原文: [英文] [中文] 备注: None 摘要: 本文探讨了估算环境二氧化氮(NO$_2$)浓度这一公共健康和环境政策中的关键环境挑战。现有的基于卫星的空气污染估算方法在选定的点位置上模拟卫星与现场测量之间的关系。尽管这些方法提高了我们在全球范围内提供空气质量估算的能力,但它们也存在固有的局限性。最显著的局限性是生成大面积综合估算所需的计算强度。受这些局限性的启发,本研究引入了一种新颖的密集估算技术。我们的方法旨在平衡高分辨率估算的准确性与计算约束的实用性,从而实现高效且可扩展的全球环境评估。通过使用均匀随机偏移采样策略,我们的方法将地面真实数据像素位置均匀分布在更大的区域内。在推理时,密集估算方法可以在单个步骤中生成估算网格,显著减少为更大区域提供估算所需的计算资源。值得注意的是,我们的方法在结果上也显著超越了现有的逐点方法,误差减少了$9.45\%$,实现了$4.98\ \mu\text{g}/\text{m}^3$的平均绝对误差(MAE)。这表明了高精度和计算效率,突出了我们方法在全球环境评估中的适用性。此外,我们通过将其应用于不同的地理区域展示了该方法的适应性和鲁棒性。我们的方法为大规模环境监测的计算挑战提供了可行的解决方案。 |
[2] DyMU:用于高效视觉语言模型的动态合并与虚拟解合并 标题: DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs 作者: Zhenhailong Wang / Senthil Purushwalkam / Caiming Xiong / Silvio Savarese / Heng Ji / Ran Xu 原文: [英文] [中文] 备注: None 摘要: 我们介绍了DyMU,这是一种高效且无需训练的框架,可以在保持高任务性能的同时动态减少视觉语言模型(VLMs)的计算负担。我们的方法包括两个关键组件。首先,动态令牌合并(DToMe)通过基于图像复杂性合并相似的令牌来减少视觉令牌嵌入的数量,从而解决了视觉变换器中固定长度输出的固有低效问题。其次,虚拟令牌拆分(VTU)通过高效重建完整序列的注意力动态来模拟大型语言模型(LLMs)的预期令牌序列,从而在不需要额外微调的情况下保持下游性能。与之前的方法不同,我们的方法根据图像内容动态调整令牌压缩,并且完全无需训练,使其可以轻松应用于大多数最先进的VLM架构。在图像和视频理解任务上的大量实验表明,DyMU可以在各种VLM架构中将平均视觉令牌数量减少32%-85%,同时在性能上与全长模型相当,包括最近流行的基于AnyRes的视觉编码器。此外,通过定性分析,我们证明了DToMe能够根据图像复杂性有效地调整令牌减少,并且与现有系统不同,为用户提供了更多对计算成本的控制。项目页面:this https URL。 |
[3] PPS-Ctrl:用于结肠镜深度估计的可控模拟到真实转换 标题: PPS-Ctrl: Controllable Sim-to-Real Translation for Colonoscopy Depth Estimation 作者: Xinqi Xiong / Andrea Dunn Beltran / Jun Myeong Choi / Marc Niethammer / Roni Sengupta 原文: [英文] [中文] 备注: None 摘要: 准确的深度估计可以增强内窥镜导航和诊断,但在临床环境中获取真实的深度数据具有挑战性。合成数据集常用于训练,但领域差异限制了对真实数据的泛化能力。我们提出了一种新颖的图像到图像翻译框架,该框架在生成临床数据的真实纹理时保留结构。我们的关键创新是将稳定扩散(Stable Diffusion)与ControlNet相结合,并以从每像素着色(PPS)图中提取的潜在表示为条件。PPS捕捉表面光照效果,提供比深度图更强的结构约束。实验表明,我们的方法比基于GAN的MI-CycleGAN产生更真实的翻译,并改善了深度估计。我们的代码可以在这个https URL上公开获取。 |
[4] 蒸馏语义感知顺序用于自回归图像生成 标题: Distilling semantically aware orders for autoregressive image generation 作者: Rishav Pramanik / Antoine Poupon / Juan A. Rodriguez / Masih Aminbeidokhti / David Vazquez / Christopher Pal / Zhaozheng Yin / Marco Pedersoli 原文: [英文] [中文] 备注: None 摘要: 自回归的基于补丁的图像生成最近在图像质量和可扩展性方面显示出竞争力的结果。它还可以轻松地集成到视觉-语言模型中并进行扩展。然而,自回归模型需要为补丁生成定义一个顺序。虽然基于单词顺序的自然顺序在文本生成中是合理的,但在图像生成中并不存在固有的生成顺序。传统上,自回归图像生成模型采用光栅扫描顺序(从左上到右下)。在本文中,我们认为这种顺序是次优的,因为它未能尊重图像内容的因果关系:例如,当以日落的视觉描述为条件时,自回归模型可能会在生成太阳之前生成云彩,即使云彩的颜色应该依赖于太阳的颜色,而不是相反。在这项工作中,我们首先展示了通过训练一个模型以任意给定顺序生成补丁,我们可以在生成过程中推断出每个补丁的内容和位置(顺序)。其次,我们使用这些提取的顺序来微调任意给定顺序的模型,以生成更高质量的图像。通过我们的实验,我们在两个数据集上展示了这种新的生成方法比传统的光栅扫描方法生成更好的图像,训练成本相似且无需额外的注释。 |
[5] 场景感知位置建模用于汽车目标检测中的数据增强 标题: Scene-Aware Location Modeling for Data Augmentation in Automotive Object Detection 作者: Jens Petersen / Davide Abati / Amirhossein Habibian / Auke Wiggers 原文: [英文] [中文] 备注: None 摘要: 生成图像模型在视觉任务的训练数据增强中被越来越多地使用。在汽车目标检测的背景下,方法通常侧重于生成看起来尽可能真实的增强帧,例如通过用生成的对象替换真实对象。其他方法则试图最大化增强帧的多样性,例如通过在现有背景上粘贴大量生成的对象。这两种观点都很少关注场景中对象的位置。帧布局要么在很少或没有修改的情况下重复使用,要么是随机的,完全不考虑真实性。在这项工作中,我们认为最佳的数据增强还应包括布局的真实增强。我们引入了一种场景感知的概率位置模型,该模型可以预测新对象在现有场景中可以真实放置的位置。然后通过在这些位置使用生成模型进行对象修复,我们获得了比现有方法更强的增强性能。我们在两个汽车目标检测任务上为生成数据增强设定了新的技术标准,获得了高达2.8倍的增益,相比之下,最佳竞争方法仅有0.5的mAP提升(+1.4 vs. +0.5 mAP提升)。我们还展示了实例分割的显著改进。 |
[6] 通过切空间对齐在运动想象脑机接口中转移空间滤波器 标题: Transferring Spatial Filters via Tangent Space Alignment in Motor Imagery BCIs 作者: Tekin Gunasar / Virginia de Sa 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种通过在黎曼流形上对齐协方差矩阵来改进运动想象脑机接口(BCI)中主体迁移的方法,随后计算出一种新的基于共同空间模式(CSP)的空间滤波器。我们探索了多种整合来自多个主体的信息的方法,并展示了与标准CSP相比的性能提升。在三个数据集上,我们的方法相较于标准CSP显示出微小的改进;然而,当训练数据有限时,改进变得更加显著。 |
[7] 潜在视频数据集蒸馏 标题: Latent Video Dataset Distillation 作者: Ning Li / Antai Andy Liu / Jingran Zhang / Justin Cui 原文: [英文] [中文] 备注: this https URL 摘要: 数据集蒸馏在图像数据集的高压缩场景中表现出了显著的效果。尽管视频数据集本身包含更多的冗余,现有的视频数据集蒸馏方法主要集中在像素空间的压缩,忽视了现代文本到图像和文本到视频模型中广泛采用的潜在空间的进展。在这项工作中,我们通过引入一种新颖的视频数据集蒸馏方法来弥合这一差距,该方法在潜在空间中使用最先进的变分编码器。此外,我们采用了一种多样性感知的数据选择策略,以选择具有代表性和多样性的样本。此外,我们引入了一种简单的、无需训练的方法来进一步压缩蒸馏后的潜在数据集。通过结合这些技术,我们的方法在数据集蒸馏中达到了新的最先进的性能,超越了所有数据集上的现有方法,例如在HMDB51 IPC 1上,我们实现了2.6%的性能提升;在MiniUCF IPC 5上,我们实现了7.8%的性能提升。 |
[8] 关于RNA亚细胞定位预测的综合评述 标题: A Comprehensive Review on RNA Subcellular Localization Prediction 作者: Cece Zhang / Xuehuan Zhu / Nick Peterson / Jieqiong Wang / Shibiao Wan 原文: [英文] 备注: None 摘要: RNA的亚细胞定位,包括长非编码RNA(lncRNA)、信使RNA(mRNA)、微小RNA(miRNA)以及其他较小的RNA,在决定其生物功能方面起着关键作用。例如,lncRNA主要与染色质相关,并作为基因转录和染色质结构的调节因子,而mRNA则分布在细胞核和细胞质中,促进遗传信息的运输以进行蛋白质合成。理解RNA定位有助于揭示基因表达调控等过程的空间和时间精确性。然而,传统的湿实验室方法,如原位杂交,用于确定RNA定位通常耗时、资源需求高且成本昂贵。为克服这些挑战,利用人工智能(AI)和机器学习(ML)的计算方法已成为强大的替代方案,能够大规模预测RNA的亚细胞定位。本文全面回顾了基于AI的RNA亚细胞定位预测的最新进展,涵盖各种RNA类型,并重点介绍基于序列、基于图像以及结合两种数据类型的混合方法。我们强调这些方法加速RNA研究、揭示分子途径以及指导针对性疾病治疗的潜力。此外,我们批判性地讨论了AI/ML方法在RNA亚细胞定位中的挑战,如数据稀缺和缺乏基准,以及解决这些问题的机会。本文旨在为寻求在RNA亚细胞定位及其他领域开发创新解决方案的研究人员提供有价值的资源。 |
[9] PhysioSync:受生理同步启发的用于基于脑电图的情感识别的时间和跨模态对比学习 标题: PhysioSync: Temporal and Cross-Modal Contrastive Learning Inspired by Physiological Synchronization for EEG-Based Emotion Recognition 作者: Kai Cui / Jia Li / Yu Liu / Xuesong Zhang / Zhenzhen Hu / Meng Wang 原文: [英文] [中文] 备注: The source code will be publicly available at this https URL 摘要: 脑电图(EEG)信号提供了一种有前途且非自愿的反映与情绪状态相关的大脑活动的方法,相较于面部表情等行为线索具有显著优势。然而,EEG信号通常噪声较大,受伪影影响,并且在个体之间存在差异,使得情绪识别变得复杂。尽管多模态方法已使用如皮肤电反应(GSR)等外围生理信号(PPS)来补充EEG,但它们往往忽视了模态之间的动态同步和一致的语义。此外,不同时间分辨率下PPS中情绪波动的时间动态仍未得到充分探索。为了解决这些挑战,我们提出了PhysioSync,这是一种利用时间和跨模态对比学习的新型预训练框架,灵感来自生理同步现象。PhysioSync结合了跨模态一致性对齐(CM-CA),以建模EEG与补充PPS之间的动态关系,实现模态间与情绪相关的同步。此外,它引入了长短期时间对比学习(LS-TCL),以捕捉模态内不同时间分辨率下的情绪同步。在预训练之后,跨分辨率和跨模态特征被分层融合和微调,以增强情绪识别。在DEAP和DREAMER数据集上的实验表明,PhysioSync在单模态和跨模态条件下表现出色,突显了其在以EEG为中心的情绪识别中的有效性。 |
[10] 遥感领域多传感器基础模型的谱系 标题: A Genealogy of Multi-Sensor Foundation Models in Remote Sensing 作者: Kevin Lane / Morteza Karimzadeh 原文: [英文] [中文] 备注: 20 pages, submitted to ACM SigSpatial, currently under peer review 摘要: 基础模型在遥感中的表示学习方面引起了越来越多的关注,主要采用在计算机视觉中取得成功的方法,并进行最小的领域特定修改。然而,这一领域的基础模型的开发和应用仍在萌芽阶段,因为存在多种竞争方法,每种方法都有显著的优点和缺点。本文研究了这些方法及其在计算机视觉领域的根源,以表征潜在的优势和陷阱,同时概述了未来改进遥感特定基础模型的方向。我们讨论了学习表示的质量以及减轻对大量计算资源需求的方法。我们强调了地球观测的多传感器方面,以及现有方法在训练基础模型时利用多传感器的程度,特别是在多模态基础模型方面。最后,我们识别了进一步利用大量未标记的、季节性的和多传感器遥感观测数据的机会。 |
[11] 我们将在后期修复:通过神经符号反馈改进文本到视频的生成 标题: We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback 作者: Minkyu Choi / S P Sharan / Harsh Goel / Sahil Shah / Sandeep Chinchali 原文: [英文] [中文] 备注: None 摘要: 目前的文本到视频(T2V)生成模型因其能够从文本提示中生成连贯的视频而越来越受欢迎。然而,当处理涉及多个对象或连续事件的较长、更复杂的提示时,这些模型往往难以生成语义和时间上一致的视频。此外,与训练或微调相关的高计算成本使得直接改进变得不切实际。为克服这些限制,我们引入了\(\projectname\),这是一种新颖的零训练视频优化流程,利用神经符号反馈自动增强视频生成,实现与提示的更好对齐。我们的方法首先通过分析正式的视频表示来获取神经符号反馈,并找出语义不一致的事件、对象及其对应的帧。然后,这些反馈指导对原始视频进行有针对性的编辑。对开源和专有T2V模型的广泛实证评估表明,\(\projectname\)显著增强了在各种提示下的时间和逻辑对齐,提升幅度接近40%。 |
[12] 通过心理图像模拟在视觉语言模型中实现视角感知推理 标题: Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation 作者: Phillip Y. Lee / Jihyeon Je / Chanho Park / Mikaela Angelina Uy / Leonidas Guibas / Minhyuk Sung 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: 我们提出了一个通过心理图像模拟在视觉语言模型(VLMs)中实现视角感知推理的框架。视角转换,即从不同的视点感知环境或情境的能力,是人类视觉理解的关键标准,对于与自主代理的环境交互和协作至关重要。尽管VLMs在空间推理方面取得了进展,最近的研究表明,现代VLMs在视角感知推理能力上显著不足,并表现出强烈的自我中心解释偏向。为了弥合VLMs与人类感知之间的差距,我们关注心理图像的作用,人类通过抽象表示感知世界,从而促进视角转换。受此启发,我们提出了一个名为抽象视角变化(APC)的视角感知推理框架,该框架有效利用视觉基础模型,如目标检测、分割和方向估计,来构建场景抽象并实现视角转换。我们在合成和真实图像基准上的实验,与各种VLMs相比,展示了我们的框架在视角感知推理方面的显著改进,进一步超越了微调的空间推理模型和基于新视图合成的方法。 |
[13] MCAF:通过多模态粗到细注意力聚焦的高效基于代理的视频理解框架 标题: MCAF: Efficient Agent-based Video Understanding Framework through Multimodal Coarse-to-Fine Attention Focusing 作者: Shiwen Cao / Zhaoxing Zhang / Junming Jiao / Juyi Qiao / Guowen Song / Rong Shen 原文: [英文] [中文] 备注: None 摘要: 即使在大模型快速发展的时代,视频理解,特别是长视频,仍然是一个极具挑战性的任务。与文本或基于图像的信息相比,视频通常包含更多的冗余信息,需要大型模型在全局层面上战略性地分配注意力以实现准确的理解。为了解决这个问题,我们提出了MCAF,这是一种基于代理、无需训练的框架,通过多模态粗到细的注意力聚焦来进行视频理解。其关键创新在于能够感知并优先处理与理解任务高度相关的视频片段。首先,MCAF通过多模态信息层次化地集中于高度相关的帧,增强所获取的上下文信息与查询之间的关联性。其次,它采用了一种扩张的时间扩展机制,以减轻从这些集中帧中提取信息时错过关键细节的风险。此外,我们的框架还结合了一种利用模型响应的置信度作为反馈的自我反思机制。通过迭代应用这两种创新的聚焦策略,它能够自适应地调整注意力以捕捉与查询高度相关的上下文,从而提高响应的准确性。MCAF在平均水平上优于可比的最先进方法。在EgoSchema数据集上,它比领先的方法实现了显著的5%的性能提升。同时,在Next-QA和IntentQA数据集上,它分别比当前最先进的标准高出0.2%和0.3%。在视频平均长度接近一小时的Video-MME数据集上,MCAF也优于其他基于代理的方法。 |
[14] 面向广泛适用的深度伪造检测:空间频率协同学习与层次跨模态融合 标题: Towards Generalizable Deepfake Detection with Spatial-Frequency Collaborative Learning and Hierarchical Cross-Modal Fusion 作者: Mengyu Qiao / Runze Tian / Yang Wang 原文: [英文] [中文] 备注: None 摘要: 深度生成模型的快速发展对深度伪造检测提出了严峻挑战,因为训练在特定伪造特征上的检测器在遇到未见过的伪造时往往会出现显著的性能下降。尽管现有方法主要依赖于空间域分析,频域操作主要局限于特征级增强,导致频域原生伪造特征和空间-频域交互未被充分利用。为了解决这一局限性,我们提出了一种新颖的检测框架,整合了多尺度空间-频域分析以实现通用的深度伪造检测。我们的框架包括三个关键组件:(1)一个局部光谱特征提取流程,结合块状离散余弦变换与级联多尺度卷积以捕捉细微的光谱伪造特征;(2)一个全局光谱特征提取流程,利用尺度不变的差分累积来识别整体的伪造分布模式;以及(3)一个多阶段跨模态融合机制,结合浅层注意力增强和深层动态调制以建模空间-频域交互。在广泛采用的基准测试上的大量评估表明,我们的方法在准确性和泛化能力上均优于最先进的深度伪造检测方法。 |
[15] 用于增强视频中情感识别的视觉和文本提示 标题: Visual and textual prompts for enhancing emotion recognition in video 作者: Zhifeng Wang / Qixuan Zhang / Peter Zhang / Wenjia Niu / Kaihao Zhang / Ramesh Sankaranarayana / Sabrina Caldwell / Tom Gedeon 原文: [英文] [中文] 备注: 12 pages, 10 figures 摘要: 视觉大语言模型(VLLMs)在多模态理解方面展现出令人期待的潜力,但其在基于视频的情感识别中的应用仍然受到空间和上下文意识不足的限制。传统方法通常优先考虑孤立的面部特征,往往忽视了诸如肢体语言、环境背景和社会互动等关键的非语言线索,从而导致在真实场景中的鲁棒性降低。为了解决这一问题,我们提出了一种名为视觉文本提示集(SoVTP)的新框架,通过将空间注释(例如,边界框、面部标志)、生理信号(面部动作单元)和上下文线索(身体姿势、场景动态、他人情感)整合到统一的提示策略中,来增强零样本情感识别。SoVTP在保留整体场景信息的同时,能够对面部肌肉运动和人际动态进行细粒度分析。大量实验表明,SoVTP在现有视觉提示方法上取得了显著的改进,证明了其在增强VLLMs视频情感识别能力方面的有效性。 |
[16] 基于距离图像的隐式神经压缩用于激光雷达点云 标题: Range Image-Based Implicit Neural Compression for LiDAR Point Clouds 作者: Akihiro Kuwabara / Sorachi Kato / Takuya Fujihashi / Toshiaki Koike-Akino / Takashi Watanabe 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种新颖的方案,用于高效压缩激光雷达(LiDAR)点云,从而实现高精度的3D场景存档,这样的存档为深入理解相应的3D场景铺平了道路。我们专注于将2D距离图像(RIs)作为表示3D LiDAR观测的轻量级格式。尽管传统的图像压缩技术可以被改编以提高RIs的压缩效率,但由于自然图像和RIs在位精度和像素值分布特性上的差异,其实际性能预计会受到限制。我们提出了一种新颖的基于隐式神经表示(INR)的RI压缩方法,该方法能够有效处理浮点值像素。所提出的方法将RIs分为深度图像和掩码图像,并分别使用基于模型剪枝和量化的分块和逐像素INR架构进行压缩。在KITTI数据集上的实验表明,所提出的方法在低比特率和解码延迟方面,在3D重建和检测质量上优于现有的图像、点云、RI和基于INR的压缩方法。 |
[17] 场景感知图像感知评分(SPIPS):结合全局和局部感知进行图像质量评估 标题: Scene Perceived Image Perceptual Score (SPIPS): combining global and local perception for image quality assessment 作者: Zhiqiang Lao / Heather Yu 原文: [英文] [中文] 备注: None 摘要: 人工智能的快速发展和智能手机的广泛使用导致了图像数据的指数级增长,包括真实的(相机拍摄的)和虚拟的(AI生成的)。这种激增突显了对能够准确反映人类视觉感知的强大图像质量评估(IQA)方法的关键需求。传统的IQA技术主要依赖于空间特征——如信噪比、局部结构失真和纹理不一致性——来识别伪影。虽然这些方法对未经处理或传统方式修改的图像有效,但在深度神经网络(DNNs)推动的现代图像后处理背景下却显得不足。基于DNN的图像生成、增强和修复模型的兴起显著提高了视觉质量,但也使得准确评估变得愈加复杂。为了解决这一问题,我们提出了一种新颖的IQA方法,弥合了深度学习方法与人类感知之间的差距。我们的模型将深度特征解构为高层语义信息和低层感知细节,并分别处理每个流。这些特征随后与传统的IQA指标结合,以提供更全面的评估框架。这种混合设计使模型能够评估全局上下文和复杂的图像细节,更好地反映人类视觉过程,即先解释整体结构再关注细粒度元素。最后阶段采用多层感知机(MLP)将集成特征映射为简明的质量评分。实验结果表明,与现有的IQA模型相比,我们的方法在与人类感知判断的一致性方面取得了更好的效果。 |
[18] DIVE:反转条件扩散模型以用于判别任务 标题: DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks 作者: Yinqi Li / Hong Chang / Ruibing Hou / Shiguang Shan / Xilin Chen 原文: [英文] [中文] 备注: Accepted by IEEE Transactions on Multimedia 摘要: 扩散模型在图像和视频生成等各种生成任务中表现出了显著的进展。本文研究了利用预训练的扩散模型来执行判别任务的问题。具体来说,我们通过“反转”一个预训练的布局到图像的扩散模型,将预训练的冻结生成扩散模型的判别能力从分类任务扩展到更复杂的目标检测任务。为此,我们分别提出了一种基于梯度的离散优化方法来替代繁重的预测枚举过程,以及一种先验分布模型以更准确地利用贝叶斯法则。实证结果表明,该方法在COCO数据集上与基本的判别目标检测基线相当。此外,我们的方法可以在不牺牲准确性的情况下,大大加快之前基于扩散的分类方法的速度。代码和模型可在此https URL获取。 |
[19] 通过可学习的自适应模块实现精确的神经网络量化 标题: Precision Neural Network Quantization via Learnable Adaptive Modules 作者: Wenqiang Zhou / Zhendong Yu / Xinyu Liu / Jiaming Yang / Rong Xiao / Tao Wang / Chenwei Tang / Jiancheng Lv 原文: [英文] [中文] 备注: None 摘要: 量化感知训练(Quantization Aware Training, QAT)是一种神经网络量化技术,它在有效保持模型性能的同时,压缩模型大小并提高操作效率。QAT的范式是在训练过程中引入伪量化算子,使模型能够自主补偿因量化导致的信息损失。使量化参数可训练可以显著提高QAT的性能,但代价是降低了推理时的灵活性,特别是在处理具有显著不同分布的激活值时。在本文中,我们提出了一种有效的可学习自适应神经网络量化方法,称为自适应步长量化(Adaptive Step Size Quantization, ASQ),以解决这一冲突。具体而言,所提出的ASQ方法首先通过一个能够适应不同激活的训练模块动态调整量化缩放因子。然后,为了解决二次幂(Power of Two, POT)量化固有的刚性分辨率问题,我们提出了一种高效的非均匀量化方案。我们利用平方根的幂(Power Of Square root of Two, POST)作为指数量化的基础,有效处理神经网络权重在不同位宽下的钟形分布,同时通过查找表方法(Look-Up Table, LUT)保持计算效率。大量实验结果表明,所提出的ASQ方法优于最先进的QAT方法。值得注意的是,ASQ甚至在与全精度基线相比时也具有竞争力,其4位量化的ResNet34模型在ImageNet上将准确率提高了1.2%。 |
[20] 走向广义化和无训练的文本引导语义操控 标题: Towards Generalized and Training-Free Text-Guided Semantic Manipulation 作者: Yu Hong / Xiao Cai / Pengpeng Zeng / Shuai Zhang / Jingkuan Song / Lianli Gao / Heng Tao Shen 原文: [英文] 备注: None 摘要: 文本引导的语义操作是指对从源提示生成的图像进行语义编辑,使其与目标提示相匹配,从而实现所需的语义变化(例如,添加、删除和风格转换),同时保留无关内容。借助扩散模型强大的生成能力,该任务显示出生成高保真视觉内容的潜力。然而,现有方法通常需要耗时的微调(效率低下)、无法完成多种语义操作(扩展性差)和/或缺乏对不同模态任务的支持(通用性有限)。经过进一步研究,我们发现扩散模型中噪声的几何特性与语义变化密切相关。受此启发,我们提出了一种新颖的$\textit{GTF}$用于文本引导的语义操作,具有以下吸引人的功能:1)$\textbf{通用性}$:我们的$\textit{GTF}$支持多种语义操作(例如,添加、删除和风格转换),并且可以无缝集成到所有基于扩散的方法中(即,即插即用),适用于不同模态(即,模态无关);2)$\textbf{无需训练}$:$\textit{GTF}$通过简单地控制噪声之间的几何关系来产生高保真结果,无需调优或优化。我们的大量实验验证了我们方法的有效性,突显了其在语义操作领域推进技术前沿的潜力。 |
[21] EdgePoint2:用于卓越效率和准确性的紧凑描述符 标题: EdgePoint2: Compact Descriptors for Superior Efficiency and Accuracy 作者: Haodi Yao / Fenghua He / Ning Hao / Chen Xie 原文: [英文] [中文] 备注: None 摘要: 关键点提取领域对于诸如运动结构(SfM)和同时定位与地图构建(SLAM)等视觉应用至关重要,该领域已经从依赖手工设计的方法发展到利用深度学习技术。尽管深度学习方法显著提高了性能,但它们通常会带来巨大的计算成本,限制了其在实时边缘应用中的部署。尽管创建轻量级神经网络的努力取得了一些成功,但它们通常在效率和准确性之间存在权衡。此外,这些网络生成的高维描述符对需要高效通信和协调的分布式应用构成了挑战,突显出需要紧凑但具有竞争力的准确性描述符。在本文中,我们提出了EdgePoint2,这是一系列专为嵌入式系统上的边缘计算应用量身定制的轻量级关键点检测和描述神经网络。网络架构经过优化,以提高效率而不牺牲准确性。为了训练紧凑的描述符,我们引入了正交Procrustes损失和相似性损失的组合,这可以作为超球体嵌入蒸馏任务的一般方法。此外,我们提供了14个子模型以满足多样化的应用需求。我们的实验表明,EdgePoint2在各种具有挑战性的场景中始终实现了最先进(SOTA)的准确性和效率,同时采用了较低维度的描述符(32/48/64)。除了其准确性之外,EdgePoint2在灵活性、鲁棒性和多功能性方面也具有显著优势。因此,EdgePoint2成为视觉任务的一个高度竞争的选择,特别是在需要适应多样化计算和通信约束的情况下。 |
[22] 使用DeepLabv3+对糖尿病视网膜病变病灶的高级分割 标题: Advanced Segmentation of Diabetic Retinopathy Lesions Using DeepLabv3+ 作者: Meher Boulaabi / Takwa Ben Aïcha Gader / Afef Kacem Echi / Sameh Mbarek 原文: [英文] [中文] 备注: This work was accepted at the ACS/IEEE International Conference on Computer Systems and Applications (AICCSA) 2024 摘要: 为了改善糖尿病视网膜病变病灶(微动脉瘤、出血、渗出物和软渗出物)的分割,我们针对每种病灶类型实施了特定的二元分割方法。作为分割后的处理,我们将各个模型的输出合并成一张图像,以便更好地分析病灶类型。这种方法促进了参数优化并提高了准确性,有效克服了与数据集限制和标注复杂性相关的挑战。具体的预处理步骤包括裁剪和对LAB图像的L通道应用对比度限制自适应直方图均衡。此外,我们采用了针对性的数据增强技术以进一步提高模型的效能。我们的方法使用了DeepLabv3+模型,实现了99%的分割准确率。这些发现突出了创新策略在推进医学图像分析方面的有效性,特别是在糖尿病视网膜病变病灶的精确分割中。我们使用了IDRID数据集来验证和展示我们方法的稳健性。 |
[23] DIMT25@ICDAR2025:HW-TSC的端到端文档图像机器翻译系统利用大型视觉语言模型 标题: DIMT25@ICDAR2025: HW-TSC's End-to-End Document Image Machine Translation System Leveraging Large Vision-Language Model 作者: Zhanglin Wu / Tengfei Song / Ning Xie / Weidong Zhang / Pengfei Li / Shuang Wu / Chong Li / Junhao Zhu / Hao Yang 原文: [英文] [中文] 备注: 7 pages, 1 figures, 2 tables 摘要: 本文介绍了华为翻译服务中心(HW-TSC)为第19届国际文档分析与识别会议(DIMT25@ICDAR2025)上的“复杂布局的端到端文档图像机器翻译”竞赛所提出的技术解决方案。我们利用最先进的开源大型视觉语言模型(LVLM),引入了一种结合多任务学习与感知链式思维的训练框架,以开发一个全面的端到端文档翻译系统。在推理阶段,我们应用最小贝叶斯解码和后处理策略,以进一步提升系统的翻译能力。我们的解决方案独特地在一个统一的框架内解决了基于OCR和无OCR的文档图像翻译任务。本文系统地详细介绍了训练方法、推理策略、LVLM基础模型、训练数据、实验设置和结果,展示了一种有效的文档图像机器翻译方法。 |
[24] TimeChat-Online:流媒体视频中80%的视觉标记自然冗余 标题: TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos 作者: Linli Yao / Yicheng Li / Yuancheng Wei / Lei Li / Shuhuai Ren / Yuanxin Liu / Kun Ouyang / Lean Wang / Shicheng Li / Sida Li / Lingpeng Kong / Qi Liu / Yuanxing Zhang / Xu Sun 原文: [英文] [中文] 备注: None 摘要: 在线视频平台的快速增长,尤其是直播服务,迫切需要实时视频理解系统。这些系统必须处理连续的视频流并即时响应用户查询,这对当前的视频大语言模型(VideoLLMs)提出了独特的挑战。虽然现有的VideoLLMs在处理完整视频方面表现出色,但在流媒体场景中由于无法有效处理密集、冗余的帧而面临显著限制。我们介绍了TimeChat-Online,一种革新实时视频交互的新型在线VideoLLM。其核心是我们创新的差异化令牌丢弃(DTD)模块,该模块解决了流媒体视频中视觉冗余的基本挑战。DTD从人类视觉感知的变化盲现象中汲取灵感,保留有意义的时间变化,同时过滤掉帧之间静态的冗余内容。值得注意的是,我们的实验表明,DTD在保持98%性能的同时,实现了视频令牌的82.8%减少,揭示了流媒体视频中超过80%的视觉内容在无需语言指导的情况下自然冗余。为了实现无缝的实时交互,我们推出了TimeChat-Online-139K,一个全面的流媒体视频数据集,具有多样化的交互模式,包括回溯、当前感知和未来响应场景。TimeChat-Online独特的主动响应能力,通过DTD持续监控视频场景转换自然实现,使其与传统方法区别开来。我们的广泛评估表明,TimeChat-Online在流媒体基准(StreamingBench和OvOBench)上表现优异,并在长视频任务如Video-MME和MLVU上保持竞争力。 |
[25] DRC:通过解缠表示组合增强个性化图像生成 标题: DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition 作者: Yiyan Xu / Wuqiang Zheng / Wenjie Wang / Fengbin Zhu / Xinting Hu / Yang Zhang / Fuli Feng / Tat-Seng Chua 原文: [英文] 备注: None 摘要: 个性化图像生成在多模态内容创作中已成为一个有前景的方向。它旨在通过利用用户交互的历史图像和多模态指令,合成符合个人风格偏好(例如,色彩方案、角色外观、布局)和语义意图(例如,情感、动作、场景背景)的图像。尽管取得了显著进展,现有的方法——无论是基于扩散模型、大型语言模型,还是大型多模态模型(LMMs)——都难以准确捕捉和融合用户的风格偏好和语义意图。特别是,基于LMM的最先进方法由于视觉特征的纠缠而遭受指导崩溃的问题,即生成的图像未能保留用户偏好的风格或反映指定的语义。 为了解决这些限制,我们引入了DRC,一种通过解缠表示组合增强LMMs的新型个性化图像生成框架。DRC明确地从历史图像和参考图像中提取用户风格偏好和语义意图,分别形成用户特定的潜在指令,以指导LMMs中的图像生成。具体来说,它涉及两个关键的学习阶段:1)解缠学习,采用双塔解缠器明确分离风格和语义特征,通过重建驱动的范式和难度感知的重要性采样进行优化;2)个性化建模,应用语义保留增强来有效地适应解缠表示,以实现稳健的个性化生成。在两个基准上的大量实验表明,DRC表现出竞争力的性能,同时有效缓解了指导崩溃问题,强调了解缠表示学习对于可控且有效的个性化图像生成的重要性。 |
[26] I-INR:迭代隐式神经表示 标题: I-INR: Iterative Implicit Neural Representations 作者: Ali Haider / Muhammad Salman Ali / Maryam Qamar / Tahir Khalil / Soo Ye Kim / Jihyong Oh / Enzo Tartaglione / Sung-Ho Bae 原文: [英文] [中文] 备注: None 摘要: 隐式神经表示(INRs)通过将信号建模为由神经网络参数化的连续、可微函数,彻底改变了信号处理和计算机视觉领域。然而,其作为回归问题的固有形式使其容易回归到均值,限制了其捕捉细节、保留高频信息和有效处理噪声的能力。为了解决这些挑战,我们提出了迭代隐式神经表示(I-INRs),这是一种新颖的即插即用框架,通过迭代细化过程增强信号重建。I-INRs 能够有效恢复高频细节,提高对噪声的鲁棒性,并实现卓越的重建质量。我们的框架可以无缝集成到现有的 INR 架构中,在各种任务中提供显著的性能提升。大量实验表明,I-INRs 在图像修复、图像去噪和物体占用预测等多种计算机视觉应用中,表现优于包括 WIRE、SIREN 和 Gauss 在内的基线方法。 |
[27] TimeSoccer:一种用于足球解说生成的端到端多模态大型语言模型 标题: TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation 作者: Ling You / Wenxuan Huang / Xinni Xie / Xiangyi Wei / Bangyan Li / Shaohui Lin / Yang Li / Changbo Wang 原文: [英文] [中文] 备注: None 摘要: 足球是一项全球流行的体育赛事,通常以长时间的比赛和独特的精彩时刻为特征。多模态大型语言模型(MLLMs)的最新进展在时间定位和视频理解方面提供了有前景的能力,而足球解说生成通常需要对长视频进行精确的时间定位和语义丰富的描述。然而,现有的足球MLLMs通常依赖于时间先验进行字幕生成,因此无法端到端地处理足球视频。而一些传统方法遵循复杂的两步范式,未能捕捉全局上下文,从而导致次优表现。为了解决上述问题,我们提出了TimeSoccer,这是第一个用于完整比赛足球视频中单锚点密集视频字幕生成(SDVC)的端到端足球MLLM。TimeSoccer在单次处理过程中联合预测时间戳并生成字幕,使得能够在45分钟的比赛中进行全局上下文建模。为了支持对足球比赛长视频的理解,我们引入了MoFA-Select,这是一种无需训练的、运动感知的帧压缩模块,通过粗到细的策略自适应选择代表帧,并结合互补的训练范式以增强模型处理长时间序列的能力。大量实验表明,我们的TimeSoccer在SDVC任务中以端到端的形式实现了最先进的(SoTA)性能,生成了具有准确时间对齐和强语义相关性的高质量解说。 |
[28] 高精度且多样化的交通数据:DeepScenario开放式3D数据集 标题: Highly Accurate and Diverse Traffic Data: The DeepScenario Open 3D Dataset 作者: Oussema Dhaouadi / Johannes Meier / Luca Wahl / Jacques Kaiser / Luca Scalerandi / Nick Wandelburg / Zhuolun Zhou / Nijanthan Berinpanathan / Holger Banzhaf / Daniel Cremers 原文: [英文] [中文] 备注: None 摘要: 准确的三维轨迹数据对于推进自动驾驶技术至关重要。然而,传统数据集通常由安装在汽车上的固定传感器捕获,容易受到遮挡的影响。此外,这种方法只能精确重建测量车辆附近的动态环境,而忽略了更远的物体。在本文中,我们介绍了DeepScenario开放三维数据集(DSC3D),这是一个通过新颖的单目相机无人机跟踪流程获取的高质量、无遮挡的六自由度边界框轨迹数据集。我们的数据集包括超过175,000条14种交通参与者的轨迹,在多样性和规模上显著超过现有数据集,包含许多前所未有的场景,如人口密集的城市街道上复杂的车辆与行人互动,以及从进入到退出的全面停车操作。DSC3D数据集在欧洲和美国的五个不同地点捕获,包括:一个停车场、一个拥挤的市中心、一个陡峭的城市交叉口、一条联邦高速公路和一个郊区交叉口。我们的三维轨迹数据集旨在通过提供详细的环境三维表示来增强自动驾驶系统,这可能会改善障碍物交互和安全性。我们展示了其在多种应用中的实用性,包括运动预测、运动规划、场景挖掘和生成反应式交通代理。我们的交互式在线可视化平台和完整数据集在此http URL上公开可用,促进了运动预测、行为建模和安全验证方面的研究。 |
[29] SDVPT:面向开放世界物体计数的语义驱动视觉提示微调 标题: SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting 作者: Yiming Zhao / Guorong Li / Laiyun Qing / Amin Beheshti / Jian Yang / Michael Sheng / Yuankai Qi / Qingming Huang 原文: [英文] [中文] 备注: None 摘要: 开放世界物体计数利用预训练视觉语言模型(VLMs)的强大文本-图像对齐能力,使得可以通过文本查询来计数图像中任意类别的物体。然而,广泛采用的简单微调策略仅专注于训练中包含的类别的文本-图像一致性,这导致对未见类别的泛化能力有限。在这项工作中,我们提出了一种即插即用的语义驱动视觉提示调优框架(SDVPT),以最小的参数和推理时间开销将训练集的知识转移到未见类别。首先,我们引入了一个由类别特定提示初始化(CSPI)和拓扑引导提示优化(TGPR)组成的两阶段视觉提示学习策略。CSPI生成类别特定的视觉提示,然后TGPR从VLM的文本编码器中提炼潜在的结构模式以优化这些提示。在推理过程中,我们根据未见类别与训练类别之间的语义相关性动态合成未见类别的视觉提示,从而促进未见类别的稳健文本-图像对齐。大量实验将SDVPT与所有可用的开放世界物体计数模型相结合,展示了其在三个广泛使用的数据集(FSC-147、CARPK和PUCPR+)上的有效性和适应性。 |
[30] 精调更聪明,而非更费力:地理空间基础模型的参数高效微调 标题: Fine-tune Smarter, Not Harder: Parameter-Efficient Fine-Tuning for Geospatial Foundation Models 作者: Francesc Marti-Escofet / Benedikt Blumenstiel / Linus Scheibenreif / Paolo Fraccaro / Konrad Schindler 原文: [英文] [中文] 备注: Code available at this https URL 摘要: 地球观测(EO)对于监测环境变化、应对灾害和管理自然资源至关重要。在此背景下,基础模型促进了遥感图像分析,以准确高效地检索相关地理信息。然而,随着这些模型规模的扩大,由于相关的计算资源和成本,微调变得越来越具有挑战性,限制了其可访问性和可扩展性。此外,全面微调可能导致遗忘预训练特征,甚至降低模型的泛化能力。为了解决这个问题,参数高效微调(PEFT)技术提供了一个有前途的解决方案。在本文中,我们对各种基础模型架构和PEFT技术进行了广泛的实验,以评估它们在五个不同EO数据集上的有效性。我们的结果提供了全面的比较,提供了关于何时以及如何使用PEFT方法支持预训练地理空间模型适应的见解。我们证明了PEFT技术可以匹配甚至超越全面微调的性能,并增强模型对未见地理区域的泛化能力,同时减少训练时间和内存需求。额外的实验研究了架构选择的影响,如解码器类型或元数据的使用,建议使用UNet解码器和不使用元数据的微调作为推荐配置。我们已将所有评估的基础模型和技术集成到开源软件包TerraTorch中,以支持快速、可扩展和成本效益高的模型适应。 |
[31] S2S-Net:解决基于激光雷达的集体感知中异构传感器系统的域差距问题 标题: S2S-Net: Addressing the Domain Gap of Heterogeneous Sensor Systems in LiDAR-Based Collective Perception 作者: Sven Teufel / Jörg Gamerdinger / Oliver Bringmann 原文: [英文] [中文] 备注: None 摘要: 集体感知(CP)在自动驾驶领域中作为一种有前途的方法出现,旨在克服单个感知的局限性。尽管已经提出了多种方法来实现集体感知,但由于在网联自动驾驶车辆(CAVs)中使用不同传感器系统而产生的传感器到传感器(Sensor2Sensor)领域差距仍然大多未得到解决。这主要是由于缺乏包含CAVs中异构传感器设置的数据集。最近发布的SCOPE数据集通过为每个CAV提供来自三种不同LiDAR传感器的数据,解决了这一问题。本研究首次解决了车辆到车辆(V2V)集体感知中的传感器到传感器领域差距。首先,我们提出了我们的传感器领域鲁棒架构S2S-Net。然后,对S2S-Net在SCOPE数据集上的传感器到传感器领域适应能力进行了深入分析。S2S-Net展示了在未见过的传感器领域中保持非常高性能的能力,并在SCOPE数据集上取得了最先进的结果。 |
[32] StereoMamba:通过长距离空间依赖实现实时且稳健的术中立体视差估计 标题: StereoMamba: Real-time and Robust Intraoperative Stereo Disparity Estimation via Long-range Spatial Dependencies 作者: Xu Wang / Jialang Xu / Shuai Zhang / Baoru Huang / Danail Stoyanov / Evangelos B. Mazomenos 原文: [英文] [中文] 备注: None 摘要: 立体视差估计对于机器人辅助微创手术(RAMIS)中的深度信息获取至关重要。尽管当前的深度学习方法取得了显著进展,但在准确性、鲁棒性和推理速度之间实现最佳平衡仍然存在挑战。为了解决这些挑战,我们提出了专为RAMIS中的立体视差估计设计的StereoMamba架构。我们的方法基于一种新颖的特征提取Mamba(FE-Mamba)模块,该模块增强了立体图像内和跨图像的长距离空间依赖性。为了有效整合来自FE-Mamba的多尺度特征,我们引入了一种新颖的多维特征融合(MFF)模块。在ex-vivo SCARED基准上的实验表明,StereoMamba在EPE为2.64像素和深度MAE为2.55毫米方面表现优异,在Bad2为41.49%和Bad3为26.99%方面表现第二好,同时在高分辨率图像(1280*1024)对的推理速度为21.28 FPS,达到了准确性、鲁棒性和效率之间的最佳平衡。此外,通过比较使用生成的视差图从左图像变形生成的合成右图像与实际右图像,StereoMamba在平均SSIM(0.8970)和PSNR(16.0761)方面取得了最佳成绩,展示了在in-vivo RIS2017和StereoMIS数据集上的强大零样本泛化能力。 |
[33] 3DV-TON:通过扩散模型实现纹理化3D引导的一致性视频试穿 标题: 3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models 作者: Min Wei / Chaohui Yu / Jingkai Zhou / Fan Wang 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 视频试穿技术将视频中的服装替换为目标服装。现有方法在处理复杂服装图案和多样化身体姿势时,难以生成高质量且时间一致的结果。我们提出了3DV-TON,这是一种新颖的基于扩散的框架,用于生成高保真且时间一致的视频试穿结果。我们的方法使用生成的可动画纹理3D网格作为显式的帧级指导,缓解了模型过于关注外观保真度而牺牲运动连贯性的问题。这是通过在整个视频序列中直接参考一致的服装纹理运动来实现的。所提出的方法具有生成动态3D指导的自适应流程:(1)选择一个关键帧进行初始2D图像试穿,然后(2)重建和动画化与原始视频姿势同步的纹理3D网格。我们进一步引入了一种稳健的矩形遮罩策略,成功减轻了在动态人类和服装运动过程中,由于服装信息泄漏而导致的伪影传播。为了推进视频试穿研究,我们引入了HR-VVT,这是一个包含130个视频的高分辨率基准数据集,涵盖多种服装类型和场景。定量和定性结果表明,我们的方法在性能上优于现有方法。项目页面在此链接this https URL |
[34] 打破模态障碍:使用多模态大型语言模型进行通用嵌入学习 标题: Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs 作者: Tiancheng Gu / Kaicheng Yang / Ziyong Feng / Xingjun Wang / Yanzhao Zhang / Dingkun Long / Yingda Chen / Weidong Cai / Jiankang Deng 原文: [英文] 备注: 13 pages, 8 figures, Project page: this https URL 摘要: 对比语言-图像预训练(CLIP)框架已成为多模态表示学习的广泛使用方法,特别是在图像-文本检索和聚类中。然而,其效能受到三个关键限制的约束:(1)文本标记截断,(2)孤立的图像-文本编码,以及(3)由于词袋行为导致的组合性不足。尽管最近的多模态大型语言模型(MLLMs)在通用视觉-语言理解方面取得了显著进展,但它们在学习可迁移的多模态表示方面的潜力仍然有限。在这项工作中,我们提出了UniME(通用多模态嵌入),这是一种新颖的两阶段框架,利用MLLMs学习用于多样化下游任务的判别性表示。在第一阶段,我们从一个强大的基于LLM的教师模型进行文本判别性知识蒸馏,以增强MLLMs语言组件的嵌入能力。在第二阶段,我们引入了硬负样本增强指令调优,以进一步推进判别性表示学习。具体来说,我们首先缓解了假负样本污染,然后在每个批次中为每个实例采样多个硬负样本,迫使模型关注具有挑战性的样本。这种方法不仅提高了判别能力,还增强了下游任务中的指令跟随能力。我们在MMEB基准和多个检索任务上进行了广泛的实验,包括短标题和长标题检索以及组合检索。结果表明,UniME在所有任务上均实现了持续的性能提升,表现出卓越的判别和组合能力。 |
[35] 预测-优化-蒸馏:用于4D对象理解的自我改进循环 标题: Predict-Optimize-Distill: A Self-Improving Cycle for 4D Object Understanding 作者: Mingxuan Wu / Huang Huang / Justin Kerr / Chung Min Kim / Anthony Zhang / Brent Yi / Angjoo Kanazawa 原文: [英文] [中文] 备注: See our website at: this https URL First two authors contributed equally 摘要: 人类可以通过长时间观察来建立直觉,以预测未见物体的三维配置。我们观察物体运动的时间越长,就越能立即预测其三维状态。现有系统要么通过多视角观察优化底层表示,要么从监督数据集中训练前馈预测器。我们引入了预测-优化-蒸馏(POD)框架,这是一种自我改进的框架,通过在预测和优化之间交替进行的相互增强循环,随着观察时间的增加,实现更好的四维物体理解。给定一个多视角物体扫描和一个长时间的单目人-物交互视频,POD迭代地训练神经网络从RGB帧中预测局部部件姿态,使用该预测器初始化全局优化,通过逆向渲染优化输出姿态,然后通过从新视角生成合成的自标记训练数据,将优化结果蒸馏回模型。每次迭代都改进了预测模型和优化的运动轨迹,创造了一个良性循环,自我引导生成训练数据以学习物体的姿态配置。我们还引入了一种准多视角挖掘策略,通过利用长视频来减少深度模糊。我们在14个真实世界和5个合成物体上评估了POD,这些物体具有各种关节类型,包括旋转关节和棱柱关节,以及部件可以独立分离或重新连接的多体配置。POD在长视频中表现出显著的改进,优于纯优化基线,后者容易陷入局部极小值。我们还发现,POD的性能随着视频长度和自我改进循环的连续迭代而提高,突显了其通过额外观察和循环优化来扩展性能的能力。 |
[36] FRAG:用于长视频和长文档理解的帧选择增强生成 标题: FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding 作者: De-An Huang / Subhashree Radhakrishnan / Zhiding Yu / Jan Kautz 原文: [英文] [中文] 备注: None 摘要: 大型多模态模型(LMMs)取得了令人瞩目的进展。最近的研究将这些模型扩展到长输入,包括多页文档和长视频。然而,由于训练和推理中的计算成本,这些长上下文模型的模型规模和性能仍然有限。在这项工作中,我们探索了一种正交方向,处理长输入而不依赖长上下文LMMs。我们提出了帧选择增强生成(FRAG),其中模型首先在输入中选择相关帧,然后仅基于选定的帧生成最终输出。选择过程的核心是独立地对每个帧进行评分,这不需要长上下文处理。得分最高的帧通过简单的Top-K选择被选中。我们展示了这一令人惊讶的简单框架适用于长视频和多页文档,且无需对现有LMMs进行微调。我们在实验中考虑了两个模型,LLaVA-OneVision和InternVL2,并展示了FRAG持续提高性能,并在长视频和长文档理解方面达到了最先进的性能。对于视频,FRAG使InternVL2-76B在MLVU上提高了5.8%,在Video-MME上提高了3.7%。对于文档,FRAG在MP-DocVQA上相比于最近专注于长文档理解的LMMs实现了超过20%的提升。代码可在此URL获取:this https URL |
[37] 通过对抗攻击揭示数字人类生成中的隐藏漏洞 标题: Unveiling Hidden Vulnerabilities in Digital Human Generation via Adversarial Attacks 作者: Zhiying Li / Yeying Jin / Fan Shen / Zhi Liu / Weibin Chen / Pengju Zhang / Xiaomei Zhang / Boyu Chen / Michael Shen / Kejian Wu / Zhaoxin Fan / Jin Dong 原文: [英文] [中文] 备注: 14 pages, 7 figures 摘要: 表达性人体姿态和形状估计(EHPS)对于数字人生成至关重要,尤其是在直播等应用中。尽管现有研究主要集中在减少估计误差上,但在很大程度上忽视了稳健性和安全性方面的问题,使这些系统容易受到对抗性攻击。为了解决这一重大挑战,我们提出了\textbf{Tangible Attack (TBA)},这是一种新颖的框架,旨在生成能够有效破坏任何数字人生成模型的对抗性样本。我们的方法引入了\textbf{双异质噪声生成器 (DHNG)},该生成器利用变分自编码器(VAE)和ControlNet来生成多样化的、针对性的噪声,以适应原始图像特征。此外,我们设计了一个定制的\textbf{对抗性损失函数}来优化噪声,确保高可控性和强大的破坏力。通过从噪声和最先进的EHPS模型中获取多重梯度信号,迭代地优化对抗性样本,TBA显著提高了对抗性攻击的有效性。大量实验表明,TBA的优越性,估计误差显著增加了41.0%,平均提高约17.0%。这些发现揭示了当前EHPS模型中存在的重大安全漏洞,并强调了在数字人生成系统中需要更强大的防御措施。 |
[38] 通过置信度追踪增强样本选择:在噪声数据中识别正确标记但难以学习的样本 标题: Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data 作者: Weiran Pan / Wei Wei / Feida Zhu / Yong Deng 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种新的样本选择方法,用于在存在噪声标签的情况下进行图像分类。现有方法通常将小损失样本视为标注正确的样本。然而,一些标注正确的样本对模型来说本质上难以学习,并且在训练的早期阶段可能表现出与错误标注样本相似的高损失。因此,通过设置每个样本损失的阈值来选择正确标签会导致样本选择中的精度和召回率之间的权衡:较低的阈值可能会错过许多标注正确但难以学习的样本(低召回率),而较高的阈值可能会包含许多错误标注的样本(低精度)。为了解决这个问题,我们的目标是准确区分标注正确但难以学习的样本与错误标注的样本,从而缓解这种权衡困境。我们通过考虑模型预测置信度的趋势,而不仅仅依赖于损失值来实现这一目标。实验证明,仅对于标注正确的样本,模型对标注标签的预测置信度通常比对其他类别的置信度增长更快。基于这一见解,我们提出在训练过程中跟踪标注标签与其他类别之间的置信度差距,并使用Mann-Kendall检验评估其趋势。如果一个样本的所有置信度差距都有增加的趋势,则认为该样本可能标注正确。我们的方法可以作为一个即插即用的组件,无缝集成到现有的样本选择技术中。在多个标准基准和真实世界数据集上的实验表明,我们的方法提高了现有噪声标签学习方法的性能。 |
[39] RefVNLI:迈向主体驱动文本到图像生成的可扩展评估 标题: RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation 作者: Aviv Slobodkin / Hagai Taitelbaum / Yonatan Bitton / Brian Gordon / Michal Sokolik / Nitzan Bitton Guetta / Almog Gueta / Royi Rassin / Itay Laish / Dani Lischinski / Idan Szpektor 原文: [英文] [中文] 备注: None 摘要: 以主体为驱动的文本到图像(T2I)生成旨在生成与给定文本描述相符的图像,同时保留参考主体图像的视觉特征。尽管该领域在下游应用中具有广泛的适用性——从图像生成中的个性化增强到视频渲染中的一致角色表现——但由于缺乏可靠的自动评估,进展有限。现有方法要么仅评估任务的一个方面(即文本对齐或主体保留),要么与人类判断不一致,或者依赖于昂贵的基于API的评估。为了解决这一问题,我们引入了RefVNLI,这是一种成本效益高的度量标准,可以在单次预测中评估文本对齐和主体保留。RefVNLI在从视频推理基准和图像扰动中派生的大规模数据集上进行训练,在多个基准和主体类别(例如,\emph{动物}、\emph{物体})中表现优于或匹配现有基线,在文本对齐方面实现了高达6.4点的提升,在主体一致性方面实现了高达8.5点的提升。它在较不知名的概念上也表现出色,与人类偏好对齐的准确率超过87%。 |
[40] Mamba-Sea:一种基于Mamba的框架,结合全局到局部序列增强,用于可推广的医学图像分割 标题: Mamba-Sea: A Mamba-based Framework with Global-to-Local Sequence Augmentation for Generalizable Medical Image Segmentation 作者: Zihan Cheng / Jintao Guo / Jian Zhang / Lei Qi / Luping Zhou / Yinghuan Shi / Yang Gao 原文: [英文] [中文] 备注: Accepted by IEEE TMI 2025. The code is available at this https URL 摘要: 为了对具有分布偏移的医学图像进行分割,领域泛化(DG)作为一种有前景的设置出现,旨在训练能够推广到未见目标领域的源领域模型。现有的DG方法主要基于CNN或ViT架构。最近,以Mamba为代表的先进状态空间模型在各种监督医学图像分割中显示出良好的效果。Mamba的成功主要归功于其在保持输入序列长度线性复杂度的同时捕捉长程依赖的能力,使其成为CNN和ViT的有前景的替代方案。受此成功的启发,本文探讨了Mamba架构在医学图像分割的DG中应对分布偏移的潜力。具体而言,我们提出了一种新颖的基于Mamba的框架,Mamba-Sea,结合了全局到局部的序列增强,以提高模型在领域偏移问题下的泛化能力。我们的Mamba-Sea引入了一种全局增强机制,旨在模拟不同站点之间外观的潜在变化,旨在抑制模型对领域特定信息的学习。在局部层面上,我们提出了一种沿输入序列的序列增强,通过建模和重采样与领域偏移相关的风格统计数据,扰动随机连续子序列内标记的风格。据我们所知,Mamba-Sea是第一个探索Mamba在医学图像分割中泛化的工作,提供了一种先进且有前景的基于Mamba的架构,具有对领域偏移的强鲁棒性。值得注意的是,我们提出的方法是第一个在前列腺数据集上超过90% Dice系数的,超过了之前的SOTA 88.61%。代码可在此https URL获取。 |
[41] 面向多样化场景的单阶段端到端表格结构识别与并行回归 标题: Towards One-Stage End-to-End Table Structure Recognition with Parallel Regression for Diverse Scenarios 作者: Anyi Xiao / Cihui Yang 原文: [英文] [中文] 备注: None 摘要: 表格结构识别旨在将非结构化数据中的表格解析为机器可理解的格式。最近的方法通过两阶段过程或优化的一阶段方法来解决这个问题。然而,这些方法要么需要多个网络串行训练并执行更耗时的顺序解码,要么依赖复杂的后处理算法来解析表格的逻辑结构。它们难以在跨场景适应性、鲁棒性和计算效率之间取得平衡。在本文中,我们提出了一种称为TableCenterNet的一阶段端到端表格结构解析网络。该网络首次将表格空间和逻辑结构的预测统一为并行回归任务,并通过共享特征提取层和任务特定解码的协同架构隐式学习单元的空间-逻辑位置映射规律。与两阶段方法相比,我们的方法更易于训练且推理速度更快。在基准数据集上的实验表明,TableCenterNet可以有效解析多种场景下的表格结构,并在TableGraph-24k数据集上实现了最先进的性能。代码可在此https URL获取。 |
[42] ESDiff:基于编码策略启发的扩散模型与少样本学习用于彩色图像修复 标题: ESDiff: Encoding Strategy-inspired Diffusion Model with Few-shot Learning for Color Image Inpainting 作者: Junyan Zhang / Yan Li / Mengxiao Geng / Liu Shi / Qiegen Liu 原文: [英文] 备注: 11 pages,10 figures,Submit to tcsvt 摘要: 图像修复是一种用于恢复图像中缺失或损坏区域的技术。传统方法主要利用相邻像素的信息来重建缺失区域,但在保留复杂细节和结构方面存在困难。同时,基于深度学习的模型需要大量的训练数据。为了解决这一挑战,本文提出了一种基于编码策略启发的扩散模型,并结合少样本学习用于彩色图像修复。这种新颖编码策略的主要思想是通过通道之间的相互扰动部署“虚拟掩码”来构建高维对象。该方法使扩散模型能够从有限的训练样本中捕获多样的图像表示和详细特征。此外,编码策略利用通道之间的冗余,在迭代修复过程中结合低秩方法,并结合扩散模型以实现精确的信息输出。实验结果表明,我们的方法在定量指标上优于当前技术,重建图像的质量在纹理和结构完整性方面得到了改善,从而产生更精确和连贯的结果。 |
[43] 通过步骤选择在基于去噪的模型中实现文本到图像的对齐 标题: Text-to-Image Alignment in Denoising-Based Models through Step Selection 作者: Paul Grimal / Hervé Le Borgne / Olivier Ferret 原文: [英文] [中文] 备注: None 摘要: 视觉生成AI模型通常在文本-图像对齐和推理能力方面面临挑战。本文提出了一种新方法,通过在关键去噪步骤中选择性地增强信号,根据输入语义优化图像生成。我们的方法解决了早期信号修改的不足,证明在后期阶段进行调整可以产生更优的结果。我们进行了广泛的实验,以验证我们的方法在扩散和流匹配模型上生成语义对齐图像的有效性,达到了最先进的性能。我们的结果强调了明智选择采样阶段以提高性能和整体图像对齐的重要性。 |
[44] 一种用于猴痘诊断的可解释自然启发框架:结合Xception特征、NGBoost和非洲秃鹫优化算法 标题: An Explainable Nature-Inspired Framework for Monkeypox Diagnosis: Xception Features Combined with NGBoost and African Vultures Optimization Algorithm 作者: Ahmadreza Shateri / Negar Nourani / Morteza Dorrigiv / Hamid Nasiri 原文: [英文] [中文] 备注: None 摘要: 最近猴痘在全球范围内的传播,尤其是在历史上并不常见的地区,引起了重大的公共卫生关注。早期和准确的诊断对于有效的疾病管理和控制至关重要。为此,本研究提出了一种基于深度学习的新框架,用于从皮肤病变图像中自动检测猴痘,利用迁移学习、降维和先进的机器学习技术的力量。我们使用新开发的猴痘皮肤病变数据集(MSLD),其中包括猴痘、水痘和麻疹的图像,以训练和评估我们的模型。所提出的框架采用Xception架构进行深度特征提取,随后使用主成分分析(PCA)进行降维,并使用自然梯度提升(NGBoost)算法进行分类。为了优化模型的性能和泛化能力,我们引入了非洲秃鹫优化算法(AVOA)进行超参数调优,确保高效探索参数空间。我们的结果表明,所提出的AVOA-NGBoost模型达到了最先进的性能,准确率为97.53%,F1得分为97.72%,AUC为97.47%。此外,我们使用Grad-CAM和LIME技术增强了模型的可解释性,提供了对决策过程的洞察,并突出显示了影响分类的关键特征。该框架提供了一种高度精确和高效的诊断工具,可能有助于医疗服务提供者进行早期检测和诊断,特别是在资源有限的环境中。 |
[45] 当高斯遇上Surfel:超快速高保真辐射场渲染 标题: When Gaussian Meets Surfel: Ultra-fast High-fidelity Radiance Field Rendering 作者: Keyang Ye / Tianjia Shao / Kun Zhou 原文: [英文] [中文] 备注: None 摘要: 我们介绍了高斯增强Surfels(GESs),这是一种用于辐射场渲染的双尺度表示,其中一组具有视角依赖颜色的二维不透明surfels表示场景的粗尺度几何和外观,而围绕surfels的一些三维高斯则补充了细尺度的外观细节。使用GESs进行渲染包括两个步骤——首先通过标准图形管线对surfels进行光栅化以生成深度和颜色图,然后在每个像素顺序独立地进行深度测试和颜色累积来喷洒高斯。通过精细的粗到细程序从多视图图像优化GESs,忠实地捕捉丰富的场景外观。GESs的完全无排序渲染不仅实现了非常快的速度,还生成了视角一致的图像,成功避免了视角变化下的弹出伪影。基本的GES表示可以轻松扩展以实现渲染中的抗锯齿(Mip-GES)、提升渲染速度(Speedy-GES)和紧凑存储(Compact-GES),并通过用二维高斯替换三维高斯来重建更好的场景几何(2D-GES)。实验结果表明,GESs作为超快高保真辐射场渲染的引人注目的表示推进了现有技术的水平。 |
[46] 知识驱动的视觉问答系统综合调查:视觉推理任务中知识的生命周期 标题: A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task 作者: Jiaqi Deng / Zonghan Wu / Huan Huo / Guandong Xu 原文: [英文] [中文] 备注: 20 pages, 5 figures, 4 tables 摘要: 知识驱动的视觉问答(KB-VQA)扩展了普通的视觉问答(VQA),不仅需要理解视觉和文本输入,还需要广泛的知识,从而在各种现实应用中实现显著进步。KB-VQA引入了独特的挑战,包括对来自不同模态和来源的异构信息的对齐,从嘈杂或大规模的知识库中检索相关知识,以及执行复杂的推理以从组合的上下文中推导出答案。随着大型语言模型(LLMs)的进步,KB-VQA系统也经历了显著的转变,其中LLMs作为强大的知识库、增强检索的生成器和强大的推理工具。尽管取得了实质性进展,目前尚无系统组织和审查现有KB-VQA方法的综合综述。本文旨在填补这一空白,通过建立KB-VQA方法的结构化分类法,并将系统分为主要阶段:知识表示、知识检索和知识推理。通过探索各种知识整合技术并识别持续存在的挑战,本文还概述了有前景的未来研究方向,为推进KB-VQA模型及其应用提供了基础。 |
[47] 利用街景对比聚类和地理先验的无监督城市土地利用制图 标题: Unsupervised Urban Land Use Mapping with Street View Contrastive Clustering and a Geographical Prior 作者: Lin Che / Yizi Chen / Tanhua Jin / Martin Raubal / Konrad Schindler / Peter Kiefer 原文: [英文] [中文] 备注: 11 pages, 7 figures, preprint version 摘要: 城市土地利用分类和制图对于城市规划、资源管理和环境监测至关重要。现有的遥感技术由于缺乏地面细节,在复杂的城市环境中往往缺乏精确性。与空中视角不同,街景图像提供了地面视角,能够捕捉更多与复杂城市场景中土地利用相关的人类和社会活动。现有的基于街景的分类方法主要依赖于监督分类,这受到高质量标注数据稀缺和难以在多样化城市景观中泛化的挑战。本研究引入了一种用于街景图像的无监督对比聚类模型,结合内置的地理先验,以提高聚类性能。通过简单的视觉分配聚类,我们的方法为土地利用制图提供了一种灵活且可定制的解决方案,适合城市规划者的具体需求。我们的实验表明,该方法可以从两个城市的地理标记街景图像数据集中生成土地利用地图。由于我们的方法依赖于地理空间数据的普遍空间一致性(“托布勒定律”),它可以适应各种有街景图像的环境,以实现可扩展的无监督土地利用制图和更新。代码将在此https URL提供。 |
[48] 遮挡感知的自监督单目深度估计用于弱纹理内窥镜图像 标题: Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images 作者: Zebo Huang / Yinghui Wang 原文: [英文] 备注: None 摘要: 我们提出了一种自监督单目深度估计网络,专为内窥镜场景设计,旨在从单目图像中推断胃肠道内的深度。现有方法虽然准确,但通常假设光照一致,这一假设常因胃肠道运动引起的动态光照和遮挡而被打破。这些变化导致几何解释错误和不可靠的自监督信号,降低了深度重建的质量。为了解决这个问题,我们引入了一个遮挡感知的自监督框架。首先,我们通过数据增强引入遮挡掩码,通过模拟视点相关的遮挡场景生成伪标签。这增强了模型在部分可见性下学习稳健深度特征的能力。其次,我们利用非负矩阵分解引导的语义分割,通过聚类卷积激活在纹理缺乏的区域生成伪标签,从而提高分割精度并减轻光照变化带来的信息损失。在SCARED数据集上的实验结果表明,我们的方法在自监督深度估计中达到了最先进的性能。此外,在Endo-SLAM和SERV-CT数据集上的评估显示出在不同内窥镜环境中的强泛化能力。 |
[49] 使用JPEG固定点的防篡改图像 标题: Tamper-evident Image using JPEG Fixed Points 作者: Zhaofeng Si / Siwei Lyu 原文: [英文] [中文] 备注: 6 pages, 6 figures 摘要: 自二十年前以来,人们观察到一个关于JPEG压缩的有趣现象——经过多次JPEG压缩和解压缩后,会得到一个不再变化的稳定图像,即一个不动点。在这项工作中,我们证明了在基本的JPEG程序中不动点的存在。我们分析了JPEG压缩和解压缩过程,揭示了可以在几次迭代内达到的不动点的存在。这些不动点是多样的,并且保留了图像的视觉质量,确保了最小的失真。这个结果被用来开发一种方法,从原始真实图像创建一个防篡改图像,通过显示与不动点图像的偏差来揭示篡改操作。 |
[50] 通过层次模态聚合和分布网络进行RGB-D跟踪 标题: RGB-D Tracking via Hierarchical Modality Aggregation and Distribution Network 作者: Boyue Xu / Yi Xu / Ruichao Hou / Jia Bei / Tongwei Ren / Gangshan Wu 原文: [英文] [中文] 备注: None 摘要: 双模态特征的整合在推动RGB-深度(RGB-D)跟踪方面起到了关键作用。然而,目前的跟踪器效率较低,并且仅关注于单一层次的特征,导致在特征融合上的鲁棒性较弱,速度较慢,无法满足实际应用的需求。在本文中,我们引入了一种新颖的网络,称为HMAD(分层模态聚合与分配),以应对这些挑战。HMAD利用RGB和深度模态的独特特征表示优势,强调一种分层的方法进行特征分配和融合,从而增强RGB-D跟踪的鲁棒性。各种RGB-D数据集上的实验结果表明,HMAD达到了最先进的性能。此外,实际环境中的实验进一步验证了HMAD在实时场景中有效处理各种跟踪挑战的能力。 |
[51] STCL:深度学习图像隐写模型的课程学习策略 标题: STCL:Curriculum learning Strategies for deep learning image steganography models 作者: Fengchun Liu / Tong Zhang / Chunying Zhang 原文: [英文] [中文] 备注: None 摘要: 针对基于深度学习的图像隐写模型隐写图像质量差和网络收敛速度慢的问题,本文提出了一种用于深度学习图像隐写模型的隐写课程学习训练策略(STCL)。该策略使得在模型初期拟合能力较差时,仅选择简单图像进行训练,并逐步扩展到更难的图像。该策略包括基于教师模型的难度评估策略和基于拐点的训练调度策略。首先,训练多个教师模型,并利用多个教师模型下隐写图像质量的一致性作为难度评分,从而构建从简单到困难的训练子集。其次,提出了一种基于拐点的训练控制策略,以减少在小训练集上过拟合的可能性并加速训练过程。在三个大型公共数据集ALASKA2、VOC2012和ImageNet上的实验结果表明,所提出的图像隐写方案能够在多种算法框架下提高模型性能,不仅具有较高的PSNR、SSIM分数和解码准确率,而且在STCL策略训练下生成的隐写图像具有较低的隐写分析分数。您可以在\href{this https URL}{this https URL}找到我们的代码。 |
[52] 利用生物启发滤波器进行边界补全以增强卷积神经网络对遮挡的鲁棒性 标题: Enhancing CNNs robustness to occlusions with bioinspired filters for border completion 作者: Catarina P. Coutinho / Aneeqa Merhab / Janko Petkovic / Ferdinando Zanchetta / Rita Fioresi 原文: [英文] [中文] 备注: Submitted to the 7th International Conference on Geometric Science of Information 摘要: 我们利用视觉皮层机制中边界补全的数学建模来为卷积神经网络(CNN)定义自定义滤波器。我们观察到性能的持续提升,特别是在准确性方面,当我们修改后的LeNet 5在被遮挡的MNIST图像上进行测试时。 |
[53] 通过发现背景来改善开放世界对象定位 标题: Improving Open-World Object Localization by Discovering Background 作者: Ashish Singh / Michael J. Jones / Kuan-Chuan Peng / Anoop Cherian / Moitreya Chatterjee / Erik Learned-Miller 原文: [英文] 备注: None 摘要: 我们的研究解决了在开放世界环境中学习定位物体的问题,即在训练期间给定有限数量的物体类别的边界框信息,目标是在推理过程中定位图像中属于训练和未见类别的所有物体。为此,该领域的最新研究集中在通过显式地提出新的目标函数(定位质量)或隐式地使用以物体为中心的辅助信息(如深度信息、像素/区域亲和图等)来改善物体的特征化。在这项工作中,我们通过结合背景信息来指导物体性的学习来解决这个问题。具体来说,我们提出了一个新颖的框架来发现图像中的背景区域,并训练一个物体提议网络,使其在这些区域中不检测任何物体。我们将背景发现任务表述为识别那些不具辨别性的图像区域,即那些冗余且信息含量低的区域。我们在标准基准上进行了实验,以展示我们提出的方法的有效性,并观察到在该任务上相较于之前的最先进方法有显著的改进。 |
[54] 无结构视觉定位指南 标题: A Guide to Structureless Visual Localization 作者: Vojtech Panek / Qunjie Zhou / Yaqing Ding / Sérgio Agostinho / Zuzana Kukelova / Torsten Sattler / Laura Leal-Taixé 原文: [英文] [中文] 备注: None 摘要: 视觉定位算法,即在已知场景中估计查询图像的相机姿态的方法,是许多应用的核心组件,包括自动驾驶汽车和增强/混合现实系统。最先进的视觉定位算法是基于结构的,即它们存储场景的3D模型,并使用查询图像与模型中3D点之间的2D-3D对应关系进行相机姿态估计。虽然这种方法具有很高的准确性,但在场景变化后调整底层3D模型时,它们也相当不灵活。无结构定位方法将场景表示为具有已知姿态的图像数据库,因此提供了一种更灵活的表示,可以通过添加或删除图像轻松更新。尽管关于基于结构的方法有大量文献,但关于无结构方法的研究却显著较少。因此,本文致力于提供据我们所知的首次对无结构方法的全面讨论和比较。大量实验表明,使用更高程度经典几何推理的方法通常能获得更高的姿态准确性。特别是,基于经典绝对或半广义相对姿态估计的方法远远优于基于姿态回归的最新方法。与最先进的基于结构的方法相比,无结构方法的灵活性是以(略微)较低的姿态准确性为代价的,这表明了未来研究的一个有趣方向。 |
[55] CLIPSE——一个基于CLIP的极简图像搜索引擎用于研究 标题: CLIPSE -- a minimalistic CLIP-based image search engine for research 作者: Steve Göring 原文: [英文] [中文] 备注: None 摘要: 本文简要介绍了CLIPSE,这是一款主要用于研究的自托管图像搜索引擎。总体而言,CLIPSE使用CLIP嵌入来处理图像和文本查询。整个框架设计简洁,以便于扩展和使用。文中描述并评估了两个基准场景,涵盖了索引和查询时间。结果表明,CLIPSE能够处理较小的数据集;对于较大的数据集,应考虑使用多个实例的分布式方法。 |
[56] DiMeR: 解耦网格重建模型 标题: DiMeR: Disentangled Mesh Reconstruction Model 作者: Lutao Jiang / Jiantao Lin / Kanghao Chen / Wenhang Ge / Xin Yang / Yifan Jiang / Yuanhuiyi Lyu / Xu Zheng / Yingcong Chen 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: 随着大规模3D数据集的出现,前馈3D生成模型(如大型重建模型 LRM)受到了极大的关注并取得了显著的成功。然而,我们观察到RGB图像常常导致训练目标冲突,并且缺乏几何重建所需的清晰度。在本文中,我们重新审视了与网格重建相关的归纳偏差,并引入了DiMeR,这是一种新颖的解耦双流前馈模型,用于稀疏视图网格重建。其核心思想是将输入和框架解耦为几何和纹理部分,从而根据奥卡姆剃刀原理降低每个部分的训练难度。鉴于法线贴图与几何严格一致并能准确捕捉表面变化,我们利用法线贴图作为几何分支的独占输入,以减少网络输入和输出之间的复杂性。此外,我们改进了网格提取算法以引入3D真实值监督。至于纹理分支,我们使用RGB图像作为输入以获得纹理化网格。总体而言,DiMeR在各种任务中表现出强大的能力,包括稀疏视图重建、单图像到3D以及文本到3D。大量实验表明,DiMeR显著优于以往的方法,在GSO和OmniObject3D数据集上的Chamfer距离上实现了超过30%的改进。 |
[57] PICO:重建与物体接触的三维人物 标题: PICO: Reconstructing 3D People In Contact with Objects 作者: Alpár Cseke / Shashank Tripathi / Sai Kumar Dwivedi / Arjun Lakshmipathy / Agniv Chatterjee / Michael J. Black / Dimitrios Tzionas 原文: [英文] [中文] 备注: Accepted in CVPR'25. Project Page: this https URL 摘要: 从单张彩色图像中恢复三维人-物交互(HOI)具有挑战性,因为存在深度模糊、遮挡以及物体形状和外观的巨大变化。因此,过去的工作需要受控的设置,例如已知的物体形状和接触点,并且仅处理有限的物体类别。相反,我们需要能够推广到自然图像和新颖物体类别的方法。我们通过两种主要方式来解决这个问题:(1)我们收集了PICO-db,这是一个新的自然图像数据集,独特地与身体和物体网格上的密集三维接触配对。为此,我们使用了最近的DAMON数据集中的图像,这些图像与接触点配对,但这些接触点仅在一个标准的三维人体上进行了标注。相反,我们寻求在身体和物体上都标注接触点。为了根据图像推断这些接触点,我们通过利用视觉基础模型从数据库中检索合适的三维物体网格。然后,我们通过一种新颖的方法将DAMON的人体接触补丁投影到物体上,该方法每个补丁只需2次点击。这种最小的人为输入建立了身体和物体之间丰富的接触对应关系。(2)我们在一种新颖的渲染与比较拟合方法中利用了我们新的接触对应关系数据集,称为PICO-fit,以恢复交互中的三维身体和物体网格。PICO-fit为SMPL-X身体推断接触点,从PICO-db中检索该物体的可能三维物体网格和接触点,并使用接触点通过优化迭代地将三维身体和物体网格拟合到图像证据中。独特的是,PICO-fit在许多现有方法无法处理的物体类别上表现良好。这对于在自然环境中扩展HOI理解至关重要。我们的数据和代码可在此https URL获取。 |
[58] 用于日常活动理解的分层和多模态数据 标题: Hierarchical and Multimodal Data for Daily Activity Understanding 作者: Ghazal Kaviani / Yavuz Yarici / Seulgi Kim / Mohit Prabhushankar / Ghassan AlRegib / Mashhour Solh / Ameya Patil 原文: [英文] 备注: None 摘要: 人工智能日常活动记录(DARai,发音为“Dahr-ree”)是一个多模态、分层注释的数据集,旨在理解现实环境中的人类活动。DARai由50名参与者在10个不同环境中的连续有脚本和无脚本录音组成,总计超过200小时的数据,来自20个传感器,包括多个摄像机视角、深度和雷达传感器、可穿戴惯性测量单元(IMU)、肌电图(EMG)、鞋垫压力传感器、生物监测传感器和视线追踪器。 为了捕捉人类活动的复杂性,DARai在三个层次上进行了注释:(i)高层次活动(L1),即独立任务,(ii)低层次动作(L2),即活动之间共享的模式,以及(iii)细粒度程序(L3),即详细说明动作的具体执行步骤。数据集的注释和录音设计使得22.7%的L2动作在L1活动之间共享,14.2%的L3程序在L2动作之间共享。DARai的重叠和无脚本特性允许数据集中存在反事实活动。 通过各种机器学习模型的实验展示了DARai在揭示以人为中心的应用中的重要挑战方面的价值。具体而言,我们进行了单模态和多模态传感器融合实验,以识别、时间定位和预测未来动作,涵盖所有分层注释级别。为了突出单个传感器的局限性,我们还进行了由DARai的多传感器和反事实活动设计设置所支持的领域变异实验。 代码、文档和数据集可在专用的DARai网站上获取:this https URL |
[59] 生成场:通过反转感受野揭示StyleGAN的层次特征控制 标题: Generative Fields: Uncovering Hierarchical Feature Control for StyleGAN via Inverted Receptive Fields 作者: Zhuo He / Paul Henderson / Nicolas Pugeault 原文: [英文] [中文] 备注: None 摘要: StyleGAN展示了GANs能够从随机噪声中合成高度逼真的虚构人物面孔的能力。基于GAN的图像生成的一个限制是难以控制生成图像的特征,因为低维潜在空间的强耦合性。之前旨在通过图像或文本提示控制StyleGAN的工作是在W潜在空间中进行采样调制,该空间比Z潜在空间更具表现力。然而,W空间的表现力仍然有限,因为它不能直接控制特征合成;此外,W空间中的特征嵌入需要一个预训练过程来重建风格信号,这限制了其应用。本文引入了“生成场”的概念来解释StyleGAN中的层次特征合成,灵感来自卷积神经网络(CNNs)的感受野。此外,我们提出了一种新的StyleGAN图像编辑流程,利用生成场理论和通道式风格潜在空间S,利用CNNs的内在结构特征在合成时实现特征合成的解耦控制。 |
[60] DPMambaIR:通过退化感知提示状态空间模型实现一体化图像修复 标题: DPMambaIR:All-in-One Image Restoration via Degradation-Aware Prompt State Space Model 作者: Zhanwen Liu / Sai Zhou / Yuchao Dai / Yang Wang / Yisheng An / Xiangmo Zhao 原文: [英文] [中文] 备注: None 摘要: 一体化图像修复旨在使用单一模型解决多种图像退化问题,与为每种退化类型设计专用模型的传统方法相比,显著降低了训练成本和部署复杂性。现有方法通常依赖于特定退化模型或粗粒度的退化提示来指导图像修复。然而,它们缺乏对退化信息的细粒度建模,并在平衡多任务冲突方面面临限制。为克服这些限制,我们提出了DPMambaIR,一种新颖的一体化图像修复框架。通过整合退化感知提示状态空间模型(DP-SSM)和高频增强模块(HEB),DPMambaIR能够对复杂退化信息进行细粒度建模和高效的全局整合,同时缓解任务竞争导致的高频细节损失。具体而言,DP-SSM利用预训练的退化提取器捕获细粒度的退化特征,并将其动态地融入状态空间建模过程中,增强模型对多样化退化类型的适应性。同时,HEB补充高频信息,有效解决多任务图像修复场景中关键细节(如边缘和纹理)的损失。在包含七种退化类型的混合数据集上的大量实验表明,DPMambaIR在PSNR和SSIM上分别达到了27.69dB和0.893的最佳性能。这些结果突显了DPMambaIR作为一体化图像修复统一解决方案的潜力和优越性。 |
[61] EgoCHARM:使用自我中心IMU传感器的资源高效分层活动识别 标题: EgoCHARM: Resource-Efficient Hierarchical Activity Recognition using an Egocentric IMU Sensor 作者: Akhil Padmanabha / Saravanan Govindarajan / Hwanmun Kim / Sergio Ortiz / Rahul Rajan / Doruk Senkal / Sneha Kadetotad 原文: [英文] [中文] 备注: None 摘要: 人类活动识别(HAR)在智能眼镜上有多种应用场景,包括健康/健身追踪和为情境感知的人工智能助手提供输入。然而,目前用于自我中心活动识别的方法要么性能较低,要么资源消耗较大。在这项工作中,我们介绍了一种资源(内存、计算、功耗、样本)高效的机器学习算法EgoCHARM,用于使用单个自我中心(头戴式)惯性测量单元(IMU)识别高层次和低层次活动。我们的分层算法采用半监督学习策略,主要需要高层次活动标签进行训练,以学习可广泛应用于低层次活动识别的通用低层次运动嵌入。我们在9种高层次活动和3种低层次活动上评估了我们的方法,分别在高层次和低层次活动识别上达到了0.826和0.855的F1分数,仅使用了63k高层次和22k低层次模型参数,使得低层次编码器可以直接部署在当前具有计算能力的IMU芯片上。最后,我们展示了灵敏度分析的结果和见解,并强调了使用自我中心IMU进行活动识别的机会和局限性。 |
[62] Step1X-Edit:通用图像编辑的实用框架 标题: Step1X-Edit: A Practical Framework for General Image Editing 作者: Shiyu Liu / Yucheng Han / Peng Xing / Fukun Yin / Rui Wang / Wei Cheng / Jiaqi Liao / Yingming Wang / Honghao Fu / Chunrui Han / Guopeng Li / Yuang Peng / Quan Sun / Jingwei Wu / Yan Cai / Zheng Ge / Ranchen Ming / Lei Xia / Xianfang Zeng / Yibo Zhu / Binxing Jiao / Xiangyu Zhang / Gang Yu / Daxin Jiang 原文: [英文] [中文] 备注: code: this https URL 摘要: 近年来,图像编辑模型取得了显著而快速的发展。最近推出的尖端多模态模型,如GPT-4o和Gemini2 Flash,展示了极具前景的图像编辑能力。这些模型在满足用户驱动的编辑需求方面表现出色,标志着图像处理领域的重大进步。然而,开源算法与这些闭源模型之间仍存在较大差距。因此,在本文中,我们旨在发布一个名为Step1X-Edit的最先进图像编辑模型,其性能可与GPT-4o和Gemini2 Flash等闭源模型相媲美。更具体地说,我们采用多模态大语言模型(Multimodal LLM)来处理参考图像和用户的编辑指令。通过提取潜在嵌入并与扩散图像解码器集成,以获得目标图像。为了训练模型,我们构建了一个数据生成管道以生成高质量的数据集。在评估方面,我们开发了GEdit-Bench,这是一个基于真实用户指令的新基准。GEdit-Bench上的实验结果表明,Step1X-Edit在很大程度上优于现有的开源基线,并接近领先的专有模型的性能,从而为图像编辑领域做出了重大贡献。 |
[63] 第四届单目深度估计挑战赛 标题: The Fourth Monocular Depth Estimation Challenge 作者: Anton Obukhov / Matteo Poggi / Fabio Tosi / Ripudaman Singh Arora / Jaime Spencer / Chris Russell / Simon Hadfield / Richard Bowden / Shuaihang Wang / Zhenxin Ma / Weijie Chen / Baobei Xu / Fengyu Sun / Di Xie / Jiang Zhu / Mykola Lavreniuk / Haining Guan / Qun Wu / Yupei Zeng / Chao Lu / Huanran Wang / Guangyuan Zhou / Haotian Zhang / Jianxiong Wang / Qiang Rao / Chunjie Wang / Xiao Liu / Zhiqiang Lou / Hualie Jiang / Yihao Chen / Rui Xu / Minglang Tan / Zihan Qin / Yifan Mao / Jiayang Liu / Jialei Xu / Yifan Yang / Wenbo Zhao / Junjun Jiang / Xianming Liu / Mingshuai Zhao / Anlong Ming / Wu Chen / Feng Xue / Mengying Yu / Shida Gao / Xiangfeng Wang / Gbenga Omotara / Ramy Farag / Jacket Demby / Seyed Mohamad Ali Tousi / Guilherme N DeSouza / Tuan-Anh Yang / Minh-Quang Nguyen / Thien-Phuc Tran / Albert Luginov / Muhammad Shahzad 原文: [英文] 备注: To appear in CVPRW2025 摘要: 本文介绍了第四届单目深度估计挑战赛(MDEC)的结果,该挑战赛专注于对SYNS-Patches基准的零样本泛化,该数据集包含了自然和室内环境中的挑战性场景。在本届比赛中,我们修订了评估协议,采用具有两个自由度的最小二乘对齐,以支持视差和仿射不变的预测。我们还修订了基准,并纳入了流行的现成方法:Depth Anything v2和Marigold。挑战赛共收到24份提交,这些提交在测试集上表现优于基准;其中10份提交包含了描述其方法的报告,大多数领先的方法依赖于仿射不变的预测。挑战赛的获胜者将3D F-Score从上一届的最佳结果22.58%提高到了23.05%。 |
[64] 动态相机姿态及其寻找方法 标题: Dynamic Camera Poses and Where to Find Them 作者: Chris Rockwell / Joseph Tung / Tsung-Yi Lin / Ming-Yu Liu / David F. Fouhey / Chen-Hsuan Lin 原文: [英文] [中文] 备注: Accepted to CVPR 2025. Project Page: this https URL 摘要: 在大规模动态互联网视频上标注相机姿态对于推进诸如逼真视频生成和模拟等领域至关重要。然而,收集这样一个数据集是困难的,因为大多数互联网视频不适合姿态估计。此外,即使对于最先进的方法来说,标注动态互联网视频也存在显著挑战。在本文中,我们介绍了DynPose-100K,这是一个大规模的动态互联网视频数据集,标注了相机姿态。我们的收集流程通过精心组合的任务特定和通用模型集解决了过滤问题。对于姿态估计,我们结合了最新的点跟踪、动态遮罩和结构从运动技术,以实现对最先进方法的改进。我们的分析和实验表明,DynPose-100K在几个关键属性上既是大规模的又是多样化的,为各种下游应用的进步开辟了途径。 |
[65] Token-Shuffle:通过自回归模型实现高分辨率图像生成 标题: Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models 作者: Xu Ma / Peize Sun / Haoyu Ma / Hao Tang / Chih-Yao Ma / Jialiang Wang / Kunpeng Li / Xiaoliang Dai / Yujun Shi / Xuan Ju / Yushi Hu / Artsiom Sanakoyeu / Felix Juefei-Xu / Ji Hou / Junjiao Tian / Tao Xu / Tingbo Hou / Yen-Cheng Liu / Zecheng He / Zijian He / Matt Feiszli / Peizhao Zhang / Peter Vajda / Sam Tsai / Yun Fu 原文: [英文] [中文] 备注: None 摘要: 自回归(AR)模型长期以来在语言生成中占据主导地位,近年来越来越多地应用于图像合成,但通常被认为不如基于扩散的模型具有竞争力。一个主要的限制是AR模型所需的图像标记数量庞大,这限制了训练和推理效率以及图像分辨率。为了解决这个问题,我们提出了Token-Shuffle,这是一种新颖而简单的方法,可以减少Transformer中的图像标记数量。我们的关键见解是多模态大型语言模型(MLLMs)中视觉词汇的维度冗余,其中来自视觉编码器的低维视觉代码直接映射到高维语言词汇。利用这一点,我们考虑了两个关键操作:token-shuffle,它沿着通道维度合并空间局部标记以减少输入标记数量,以及token-unshuffle,它在Transformer块之后解开推断的标记以恢复输出的空间排列。与文本提示联合训练,我们的策略不需要额外的预训练文本编码器,并使MLLMs能够以统一的下一个标记预测方式支持极高分辨率的图像合成,同时保持高效的训练和推理。我们首次将AR文本到图像生成的分辨率推到了2048x2048,并取得了令人满意的生成性能。在GenAI基准测试中,我们的2.7B模型在困难提示上获得了0.77的总体得分,超过了AR模型LlamaGen 0.18和扩散模型LDM 0.15。详尽的大规模人工评估也展示了我们在文本对齐、视觉缺陷和视觉外观方面突出的图像生成能力。我们希望Token-Shuffle可以作为MLLMs中高效高分辨率图像生成的基础设计。 |
[66] LiDPM:重新思考用于激光雷达场景补全的点扩散 标题: LiDPM: Rethinking Point Diffusion for Lidar Scene Completion 作者: Tetiana Martyniuk / Gilles Puy / Alexandre Boulch / Renaud Marlet / Raoul de Charette 原文: [英文] [中文] 备注: Accepted to IEEE IV 2025 摘要: 在室外场景尺度上直接对激光雷达点进行扩散模型训练是具有挑战性的,因为在广阔的视野中从白噪声生成细粒度细节非常困难。最新的研究通过将原始的DDPM重新表述为局部扩散过程来解决使用扩散模型进行场景补全的问题。这与通常在对象层面操作的做法形成对比,目前在对象层面使用的是普通的DDPM。在这项工作中,我们弥合了这两种工作之间的差距。我们识别出局部扩散表述中的近似,表明在场景层面操作时不需要这些近似,并且一个选择良好的起始点的普通DDPM就足以完成任务。最后,我们证明了我们的方法LiDPM在SemanticKITTI上的场景补全中取得了更好的结果。项目页面是这个https URL。 |