scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年4月16日更新论文117
[1] ColorBench:视觉语言模型能否看见并理解多彩的世界?一个关于颜色感知、推理和鲁棒性的综合基准
标题: ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
作者: Yijun Liang / Ming Li / Chenrui Fan / Ziyue Li / Dang Nguyen / Kwesi Cobbina / Shweta Bhardwaj / Jiuhai Chen / Fuxiao Liu / Tianyi Zhou
原文:   [英文]   [中文]  
备注: 33 pages, including references and appendix. Code is available at this https URL
摘要:
颜色在人的感知中起着重要作用,通常在视觉推理中提供关键线索。然而,目前尚不清楚视觉-语言模型(VLMs)是否以及如何像人类一样感知、理解和利用颜色。本文介绍了ColorBench,这是一项创新的基准测试,精心设计用于评估VLMs在颜色理解方面的能力,包括颜色感知、推理和鲁棒性。通过策划一系列多样化的测试场景,并以实际应用为基础,ColorBench评估这些模型如何感知颜色、从基于颜色的线索中推断意义,并在不同的颜色转换下保持一致的性能。通过对32个具有不同语言模型和视觉编码器的VLMs进行广泛评估,我们的论文揭示了一些未被发现的发现:(i)在ColorBench上,规模法则(模型越大越好)仍然成立,而语言模型比视觉编码器起更重要的作用。(ii)然而,模型之间的性能差距相对较小,表明现有的VLMs在颜色理解方面被大大忽视。(iii)尽管它们是以视觉为中心的任务,CoT推理提高了颜色理解的准确性和鲁棒性。(iv)VLMs确实在ColorBench上利用了颜色线索,但在某些任务中它们也可能误导模型。这些发现突出了当前VLMs的关键局限性,并强调了增强颜色理解的必要性。我们的ColorBench可以作为推进多模态AI的人类水平颜色理解研究的基础工具。

[2] 通过学习具有丰富上下文和精确细节的特征来增强图像修复
标题: Enhancing Image Restoration through Learning Context-Rich and Detail-Accurate Features
作者: Hu Gao / Depeng Dang
原文:   [英文]   [中文]  
备注: None
摘要:
图像修复涉及从损坏的版本中恢复高质量图像,需要在空间细节和上下文信息之间取得微妙的平衡。虽然某些方法解决了这种平衡,但它们主要强调空间方面,忽视了对频率变化的理解。在本文中,我们提出了一种多尺度设计,能够最佳地平衡这些竞争目标,完美地整合空间和频域知识,以选择性地恢复最具信息量的信息。具体来说,我们开发了一种混合尺度频率选择模块(HSFSBlock),不仅能够从空间域捕获多尺度信息,还能在频域中选择最具信息量的成分用于图像修复。此外,为了减轻仅使用加法或拼接的跳跃连接引入的固有噪声,我们引入了一种跳跃连接注意机制(SCAM),以选择性地确定应通过跳跃连接传播的信息。最终形成的紧密互联的架构被命名为LCDNet。通过在各种图像修复任务中进行的大量实验表明,我们的模型达到了优于或可与最先进算法相媲美的性能水平。

[3] 通过随机样式替换进行数据增强
标题: Data Augmentation Through Random Style Replacement
作者: Qikai Yang / Cheng Ji / Huaiying Luo / Panfeng Li / Zhicheng Ding
原文:   [英文]   [中文]  
备注: Accepted by 2025 6th International Conference on Computer Vision, Image and Deep Learning
摘要:
在本文中,我们介绍了一种新颖的数据增强技术,该技术结合了风格增强和随机擦除的优点,通过选择性地用风格迁移的图像块替换图像子区域。我们的方法首先对训练图像应用随机风格迁移,然后随机用从风格迁移版本中提取的图像块替换这些图像的选定区域。该方法能够无缝兼容多种现有的风格迁移算法,并可以轻松集成到各种数据增强流程中。通过采用我们的策略,训练过程变得更加稳健,并且不易过拟合。对比实验表明,与以往的风格增强方法相比,我们的技术在性能和收敛速度上均取得了更好的表现。

[4] H3AE:用于视频扩散模型的高压缩、高速度和高质量自动编码器
标题: H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models
作者: Yushu Wu / Yanyu Li / Ivan Skorokhodov / Anil Kag / Willi Menapace / Sharath Girish / Aliaksandr Siarohin / Yanzhi Wang / Sergey Tulyakov
原文:   [英文]   [中文]  
备注: 8 pages, 4 figures, 6 tables
摘要:
自编码器(AE)是图像和视频生成中潜在扩散模型成功的关键,能够降低去噪分辨率并提高效率。然而,在网络设计、压缩比和训练策略方面,自编码器的潜力长期以来未被充分探索。在这项工作中,我们系统地研究了架构设计选择,并优化了计算分布,以获得一系列高效且高压缩的视频自编码器,这些自编码器可以在移动设备上实时解码。我们还统一了普通自编码器和图像条件的I2V VAE的设计,实现了单一网络的多功能性。此外,我们发现广泛采用的判别损失(如GAN、LPIPS和DWT损失)在大规模训练自编码器时并没有显著的改进。我们提出了一种新颖的潜在一致性损失,不需要复杂的判别器设计或超参数调整,但在重建质量上提供了稳定的改进。我们的自编码器在移动设备上实现了超高的压缩比和实时解码速度,同时在重建指标上大幅超越了现有技术。最后,我们通过在其潜在空间上训练DiT验证了我们的自编码器,并展示了快速、高质量的文本到视频生成能力。

[5] AgMMU:全面的农业多模态理解与推理基准
标题: AgMMU: A Comprehensive Agricultural Multimodal Understanding and Reasoning Benchmark
作者: Aruna Gauba / Irene Pi / Yunze Man / Ziqi Pang / Vikram S. Adve / Yu-Xiong Wang
原文:   [英文]   [中文]  
备注: Project Website: this https URL Huggingface: this https URL
摘要:
我们整理了一个名为 AgMMU 的数据集,用于评估和开发视觉语言模型(VLMs),以在知识密集型的专业领域中生成事实准确的答案。我们的 AgMMU 专注于农业这一对社会最有益的领域之一,该领域需要将详细的视觉观察与精确的知识相结合来进行诊断,例如害虫识别、管理指导等。作为我们数据集的核心独特性,所有事实、问题和答案均来自于116,231次真实用户与授权农业专家之间的对话。经过使用 GPT-4o、LLaMA 模型和人工验证的三步数据集整理流程后,AgMMU 提供了一个包含5,460道多项选择题(MCQs)和开放性问题(OEQs)的评估集。我们还提供了一个开发集,其中包含205,399条农业知识信息,包括疾病识别、症状描述、管理指导、昆虫和害虫识别以及物种识别。作为一个多模态事实数据集,它揭示了现有 VLMs 在处理需要详细感知和事实知识的问题时面临的重大挑战。此外,开源 VLMs 与专有 VLMs 相比仍表现出显著的性能差距。为了推进知识密集型 VLMs 的发展,我们使用我们的开发集进行微调实验,使 LLaVA-1.5 的评估准确率提高了最多3.1%。我们希望 AgMMU 能够作为一个专注于农业的评估基准,同时也作为一个开发套件,将知识密集型专业知识融入通用 VLMs 中。

[6] 基于骨架的摄入手势检测:时空图卷积网络
标题: Skeleton-Based Intake Gesture Detection With Spatial-Temporal Graph Convolutional Networks
作者: Chunzhuo Wang / Zhewen Xue / T. Sunil Kumar / Guido Camps / Hans Hallez / Bart Vanrumste
原文:   [英文]   [中文]  
备注: The manuscript has been accepted in 47th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (IEEE EMBC 2025)
摘要:
超重和肥胖已成为广泛的社会挑战,通常与不健康的饮食习惯有关。一个有前景的方法是通过自动检测进食手势来增强日常生活中的饮食监测。本研究介绍了一种基于骨架的方法,该方法使用结合了膨胀时空图卷积网络(ST-GCN)和双向长短期记忆(BiLSTM)框架的模型,称为ST-GCN-BiLSTM,用于检测进食手势。基于骨架的方法提供了关键优势,包括环境鲁棒性、减少数据依赖性和增强隐私保护。研究使用了两个数据集进行模型验证。OREBA数据集由实验室录制的视频组成,在识别进食和饮水手势方面分别达到了86.18%和74.84%的分段F1分数。此外,在更具适应性的实验条件下,使用智能手机录制的自收集数据集也进行了评估,使用在OREBA上训练的模型,检测进食和饮水手势的F1分数分别为85.40%和67.80%。结果不仅证实了利用骨架数据进行进食手势检测的可行性,还强调了所提出方法在跨数据集验证中的鲁棒性。

[7] SilVar-Med:一种用于医学影像中可解释异常检测的语音驱动视觉语言模型
标题: SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging
作者: Tan-Hanh Pham / Chris Ngo / Trong-Duong Bui / Minh Luu Quang / Tan-Huong Pham / Truong-Son Hy
原文:   [英文]   [中文]  
备注: CVPR Multimodal Algorithmic Reasoning Workshop 2025 - SilVarMed
摘要:
医学视觉语言模型在各种医疗应用中显示出巨大潜力,包括医学图像描述和诊断辅助。然而,大多数现有模型依赖于基于文本的指令,这限制了它们在实际临床环境中的可用性,尤其是在手术等场景中,基于文本的交互对医生来说往往不切实际。此外,目前的医学图像分析模型通常缺乏对其预测的全面推理,这降低了它们在临床决策中的可靠性。鉴于医学诊断错误可能会带来改变生活的后果,迫切需要可解释和合理的医疗辅助。为了解决这些挑战,我们引入了一种端到端的语音驱动医学视觉语言模型,SilVar-Med,这是一种多模态医学图像助手,将语音交互与视觉语言模型相结合,开创了基于语音的医学图像分析交流任务。此外,我们专注于解释每个医学异常预测背后的推理,并提出了一个推理数据集。通过广泛的实验,我们展示了一个概念验证研究,用于通过端到端语音交互进行推理驱动的医学图像解释。我们相信这项工作将通过促进更透明、互动和临床可行的诊断支持系统来推动医学人工智能领域的发展。我们的代码和数据集在SiVar-Med上公开提供。

[8] 用于视觉信息提取的关系丰富型视觉文档生成器
标题: Relation-Rich Visual Document Generator for Visual Information Extraction
作者: Zi-Han Jiang / Chien-Wei Lin / Wei-Hua Li / Hsuan-Tung Liu / Yi-Ren Yeh / Chu-Song Chen
原文:   [英文]   [中文]  
备注: CVPR 2025
摘要:
尽管在视觉文档理解(VDU)的大型语言模型(LLMs)和多模态LLMs(MLLMs)方面取得了进展,但从关系丰富的文档中进行视觉信息提取(VIE)仍然具有挑战性,因为布局多样性和训练数据有限。现有的合成文档生成器试图解决数据稀缺问题,但它们要么依赖于人工设计的布局和模板,要么采用基于规则的方法,限制了布局的多样性。此外,目前的布局生成方法仅关注拓扑模式,而不考虑文本内容,使得它们在生成内容与布局之间具有复杂关联的文档时不切实际。在本文中,我们提出了一种关系丰富的视觉文档生成器(RIDGE),通过两阶段方法解决这些限制:(1)内容生成,利用LLMs生成文档内容,采用精心设计的层次结构文本格式来捕捉实体类别和关系;(2)内容驱动的布局生成,学习仅从易于获取的光学字符识别(OCR)结果中创建多样化、合理的文档布局,无需人工标注或注释工作。实验结果表明,我们的方法显著提高了文档理解模型在各种VIE基准上的性能。代码和模型将在此https URL上提供。

[9] 用于事件相机光流的扰动状态空间特征编码器
标题: Perturbed State Space Feature Encoders for Optical Flow with Event Cameras
作者: Gokul Raju Govinda Raju / Nikola Zubić / Marco Cannici / Davide Scaramuzza
原文:   [英文]  
备注: 10 pages, 4 figures, 4 tables. Equal contribution by Gokul Raju Govinda Raju and Nikola Zubić
摘要:
事件相机由于其对运动的响应特性,在光流估计方面相较于传统相机具有显著优势。尽管深度学习在传统方法的基础上有所改进,但当前用于基于事件的光流估计的神经网络仍然面临时间和空间推理的限制。我们提出了扰动状态空间特征编码器(P-SSE),用于多帧事件相机光流,以应对这些挑战。P-SSE 自适应地处理具有大感受野的时空特征,类似于基于 Transformer 的方法,同时保持 SSMs 的线性计算复杂度。然而,使我们的模型达到最先进性能的关键创新在于我们对控制 SSM 系统的状态动态矩阵应用的扰动技术。该方法显著提高了模型的稳定性和性能。我们将 P-SSE 集成到一个利用双向流和循环连接的框架中,扩展了流预测的时间上下文。在 DSEC-Flow 和 MVSEC 数据集上的评估显示,P-SSE 的优越性,EPE 性能分别提高了 8.48% 和 11.86%。

[10] H-MoRe:学习以人为中心的动作表示用于动作分析
标题: H-MoRe: Learning Human-centric Motion Representation for Action Analysis
作者: Zhanbo Huang / Xiaoming Liu / Yu Kong
原文:   [英文]   [中文]  
备注: 15 pages, 14 figures, 7 tables, accepted to CVPR 2025 (Highlight)
摘要:
在本文中,我们提出了H-MoRe,这是一种用于学习精确以人为中心的运动表示的新颖流程。我们的方法动态地保留了相关的人体运动,同时过滤掉背景运动。值得注意的是,与以往依赖于合成数据的完全监督学习的方法不同,H-MoRe直接从真实世界场景中以自监督的方式学习,结合了人体姿态和体型信息。受运动学启发,H-MoRe以矩阵格式表示每个身体点的绝对和相对运动,捕捉细微的运动细节,称为世界-局部流。H-MoRe提供了对人体运动的精细洞察,可以无缝集成到各种与动作相关的应用中。实验结果表明,H-MoRe在各种下游任务中带来了显著的改进,包括步态识别(CL@R1:+16.01%)、动作识别(Acc@1:+8.92%)和视频生成(FVD:-67.07%)。此外,H-MoRe表现出高推理效率(34 fps),使其适用于大多数实时场景。模型和代码将在发表时发布。

[11] NTIRE 2025跨域小样本目标检测挑战赛:方法与结果
标题: NTIRE 2025 Challenge on Cross-Domain Few-Shot Object Detection: Methods and Results
作者: Yuqian Fu / Xingyu Qiu / Bin Ren / Yanwei Fu / Radu Timofte / Nicu Sebe / Ming-Hsuan Yang / Luc Van Gool / Kaijin Zhang / Qingpeng Nong / Xiugang Dong / Hong Gao / Xiangsheng Zhou / Jiancheng Pan / Yanxing Liu / Xiao He / Jiahao Li / Yuze Sun / Xiaomeng Huang / Zhenyu Zhang / Ran Ma / Yuhan Liu / Zijian Zhuang / Shuai Yi / Yixiong Zou / Lingyi Hong / Mingxi Chen / Runze Li / Xingdong Sheng / Wenqiang Zhang / Weisen Chen / Yongxin Yan / Xinguo Chen / Yuanjie Shao / Zhengrong Zuo / Nong Sang / Hao Wu / Haoran Sun / Shuming Hu / Yan Zhang / Zhiguang Shi / Yu Zhang / Chao Chen / Tao Wang / Da Feng / Linhai Zhuo / Ziming Lin / Yali Huang / Jie Me / Yiming Yang / Mi Guo / Mingyuan Jiu / Mingliang Xu / Maomao Xiong / Qunshu Zhang / Xinyu Cao / Yuqing Yang / Dianmo Sheng / Xuanpu Zhao / Zhiyu Li / Xuyang Ding / Wenqian Li
原文:   [英文]  
备注: accepted by CVPRW 25 @ NTIRE
摘要:
跨域小样本目标检测(CD-FSOD)在跨域应用时对现有的目标检测和小样本检测模型提出了重大挑战。结合NTIRE 2025,我们组织了第一届CD-FSOD挑战赛,旨在提升当前目标检测器在全新目标域上仅有有限标注数据情况下的性能。该挑战赛吸引了152名注册参与者,收到了42个团队的提交,并最终有13个团队进行了有效的最终提交。参与者从不同的角度出发,提出了新颖的模型,在开源和闭源环境下均达到了新的最先进(SOTA)结果。在本报告中,我们概述了第一届NTIRE 2025 CD-FSOD挑战赛,重点介绍了所提出的解决方案并总结了参与者提交的结果。

[12] 第十届NTIRE 2025高效超分辨率挑战报告
标题: The Tenth NTIRE 2025 Efficient Super-Resolution Challenge Report
作者: Bin Ren / Hang Guo / Lei Sun / Zongwei Wu / Radu Timofte / Yawei Li / Yao Zhang / Xinning Chai / Zhengxue Cheng / Yingsheng Qin / Yucai Yang / Li Song / Hongyuan Yu / Pufan Xu / Cheng Wan / Zhijuan Huang / Peng Guo / Shuyuan Cui / Chenjun Li / Xuehai Hu / Pan Pan / Xin Zhang / Heng Zhang / Qing Luo / Linyan Jiang / Haibo Lei / Qifang Gao / Yaqing Li / Weihua Luo / Tsing Li / Qing Wang / Yi Liu / Yang Wang / Hongyu An / Liou Zhang / Shijie Zhao / Lianhong Song / Long Sun / Jinshan Pan / Jiangxin Dong / Jinhui Tang / Jing Wei / Mengyang Wang / Ruilong Guo / Qian Wang / Qingliang Liu / Yang Cheng / Davinci / Enxuan Gu / Pinxin Liu / Yongsheng Yu / Hang Hua / Yunlong Tang / Shihao Wang / Yukun Yang / Zhiyu Zhang / Yukun Yang / Jiyu Wu / Jiancheng Huang / Yifan Liu / Yi Huang / Shifeng Chen / Rui Chen / Yi Feng / Mingxi Li / Cailu Wan / Xiangji Wu / Zibin Liu / Jinyang Zhong / Kihwan Yoon / Ganzorig Gankhuyag / Shengyun Zhong / Mingyang Wu / Renjie Li / Yushen Zuo / Zhengzhong Tu / Zongang Gao / Guannan Chen / Yuan Tian / Wenhui Chen / Weijun Yuan / Zhan Li / Yihang Chen / Yifan Deng / Ruting Deng / Yilin Zhang / Huan Zheng / Yanyan Wei / Wenxuan Zhao / Suiyi Zhao / Fei Wang / Kun Li / Yinggan Tang / Mengjie Su / Jae-hyeon Lee / Dong-Hyeop Son / Ui-Jin Choi / Tiancheng Shao / Yuqing Zhang / Mengcheng Ma
原文:   [英文]  
备注: Accepted by CVPR2025 NTIRE Workshop, Efficient Super-Resolution Challenge Report. 50 pages
摘要:
本文对NTIRE 2025单图像高效超分辨率(ESR)挑战赛进行了全面回顾。该挑战赛旨在推动深度模型的发展,以优化关键计算指标,即运行时间、参数和浮点运算次数(FLOPs),同时在$\operatorname{DIV2K\_LSDIR\_valid}$数据集上达到至少26.90 dB的PSNR,在$\operatorname{DIV2K\_LSDIR\_test}$数据集上达到26.99 dB的PSNR。挑战赛吸引了\textbf{244}名注册参赛者,其中\textbf{43}个团队提交了有效作品。本文详细分析了这些方法和结果,强调了单图像ESR技术在当前最先进水平上的突破性进展。分析中突出了创新方法,并为该领域未来的研究建立了基准。

[13] SpinMeRound:使用扩散模型生成一致的多视图身份
标题: SpinMeRound: Consistent Multi-View Identity Generation Using Diffusion Models
作者: Stathis Galanakis / Alexandros Lattas / Stylianos Moschoglou / Bernhard Kainz / Stefanos Zafeiriou
原文:   [英文]   [中文]  
备注: None
摘要:
尽管扩散模型最近取得了进展,但从新视角生成逼真的头像仍然是一个重大挑战。目前的大多数方法都局限于有限的角度范围,主要集中在正面或近正面的视角。此外,尽管最近新兴的大规模扩散模型已被证明在处理3D场景方面具有鲁棒性,但由于面部数据的复杂结构和恐怖谷效应,这些模型在面部数据上的表现不佳。在本文中,我们提出了SpinMeRound,这是一种基于扩散的方法,旨在从新视角生成一致且准确的头像。通过利用多个输入视图以及身份嵌入,我们的方法能够有效地合成主体的多样化视角,同时稳健地保持其独特的身份特征。通过实验,我们展示了我们的模型在360度头像合成中的生成能力,同时超越了当前最先进的多视图扩散模型。

[14] 遥感基础模型:多模态大模型在目标定位中的分析
标题: Foundation Models for Remote Sensing: An Analysis of MLLMs for Object Localization
作者: Darryl Hannan / John Cooper / Dylan White / Timothy Doster / Henry Kvinge / Yijing Watkins
原文:   [英文]   [中文]  
备注: 26 pages, CVPR MORSE Workshop 2025
摘要:
多模态大型语言模型(MLLMs)已经改变了计算机视觉的格局,在广泛的任务中取得了令人印象深刻的成果,尤其是在零样本设置中。然而,它们的强大性能并不总是能够转移到分布外领域,例如地球观测(EO)图像。先前的研究表明,MLLMs在某些EO任务中表现出色,例如图像描述和场景理解,但在需要更细致空间推理的任务中表现不佳,例如对象定位。然而,MLLMs正在迅速发展,洞察力很快就会过时。在这项工作中,我们分析了最近经过明确训练以包括细致空间推理能力的MLLMs,并在EO对象定位任务中对其进行基准测试。我们证明这些模型在某些设置中表现良好,使其非常适合零样本场景。此外,我们提供了详细的讨论,重点关注提示选择、地面样本距离(GSD)优化以及分析失败案例。我们希望这项工作能够为其他人评估MLLM是否适合特定的EO定位任务以及如何优化它提供有价值的参考。

[15] CleanMAP:提炼多模态大型语言模型以驱动基于信心的众包高清地图更新
标题: CleanMAP: Distilling Multimodal LLMs for Confidence-Driven Crowdsourced HD Map Updates
作者: Ankit Kumar Shaw / Kun Jiang / Tuopu Wen / Chandan Kumar Sah / Yining Shi / Mengmeng Yang / Diange Yang / Xiaoli Lian
原文:   [英文]  
备注: Kun Jiang, Mengmeng Yang and Diange Yang are Corresponding Author. The main paper and supplementary material are both included here, total 23 pages (main paper is 10 pages and supplementary material is 13 pages), total 17 figures (6 figures in main paper and 11 figures in supplementary material), this paper is Accepted to CVPR WDFM-AD Workshop 2025, The code will be available at this https URL
摘要:
智能网联汽车(ICVs)和集成车路云系统的快速发展增加了对准确、实时高清地图更新的需求。然而,由于众包数据中的不一致性,确保地图的可靠性仍然具有挑战性,这些数据受到运动模糊、光照变化、恶劣天气和车道标记退化的影响。本文介绍了CleanMAP,这是一种基于多模态大语言模型(MLLM)的蒸馏框架,旨在过滤和优化众包数据,以实现高置信度的高清地图更新。CleanMAP利用一个由MLLM驱动的车道可见性评分模型,系统地量化关键视觉参数,并根据其对车道检测的影响分配置信度分数(0-10)。一种新颖的动态分段置信度评分函数根据车道可见性调整分数,确保与人工评估高度一致,同时有效过滤不可靠的数据。为了进一步优化地图精度,一种基于置信度的局部地图融合策略对局部地图进行排名,并在最佳置信度范围内(最佳分数减去10%)选择得分最高的前k个局部地图,在数据质量和数量之间取得平衡。在真实世界自动驾驶汽车数据集上的实验评估验证了CleanMAP的有效性,结果表明融合前三个局部地图实现了最低的平均地图更新误差0.28米,优于基线(0.37米),并满足严格的精度阈值(<= 0.32米)。进一步使用真实车辆数据的验证显示与人工评估者的对齐度为84.88%,加强了模型的稳健性和可靠性。这项工作确立了CleanMAP作为一种可扩展和可部署的众包高清地图更新解决方案,确保更精确和可靠的自动驾驶导航。代码将在此https URL上提供。

[16] 在任何环境中随时聆听
标题: Hearing Anywhere in Any Environment
作者: Xiulong Liu / Anurag Kumar / Paul Calamia / Sebastia V. Amengual / Calvin Murdock / Ishwarya Ananthabhotla / Philip Robinson / Eli Shlizerman / Vamsi Krishna Ithapu / Ruohan Gao
原文:   [英文]   [中文]  
备注: CVPR 2025
摘要:
在混合现实应用中,空间环境中的真实声学体验与视觉体验同样重要,以实现真正的沉浸感。尽管最近在房间脉冲响应(RIR)估计的神经方法上取得了进展,但大多数现有方法仅限于它们训练的单一环境,缺乏推广到具有不同几何形状和表面材料的新房间的能力。我们旨在开发一个统一的模型,能够以最少的额外测量重建任何环境的空间声学体验。为此,我们提出了xRIR,一个用于跨房间RIR预测的框架。我们可推广方法的核心在于结合几何特征提取器,该提取器从全景深度图像中捕获空间上下文,以及RIR编码器,该编码器仅从少量参考RIR样本中提取详细的声学特征。为了评估我们的方法,我们引入了ACOUSTICROOMS,一个新数据集,包含来自260个房间的超过300,000个RIR的高保真模拟。实验表明,我们的方法显著优于一系列基线。此外,我们通过在四个现实环境中评估我们的模型,成功地进行了模拟到现实的转移,展示了我们方法的可推广性和数据集的真实性。

[17] 实时海底分割与测绘
标题: Real-time Seafloor Segmentation and Mapping
作者: Michele Grimaldi / Nouf Alkaabi / Francesco Ruscio / Sebastian Realpe Rua / Rafael Garcia / Nuno Gracias
原文:   [英文]  
备注: None
摘要:
海草中的地中海波喜荡草(Posidonia oceanica)草甸是一种高度依赖岩石生存和保护的物种。近年来,这一物种在全球范围内出现了令人担忧的下降趋势,强调了对高效监测和评估工具的迫切需求。尽管基于深度学习的语义分割和视觉自动化监测系统在各种应用中显示出潜力,但由于复杂的水下环境和有限的数据集,它们在水下环境中的表现仍然具有挑战性。本文介绍了一个结合机器学习和计算机视觉技术的框架,使自主水下机器人(AUV)能够自主检查地中海波喜荡草草甸的边界。该框架结合了使用现有的Mask R-CNN模型的图像分割模块和地中海波喜荡草草甸边界跟踪策略。此外,引入了一个专门用于岩石的新类别,以增强现有模型,旨在为全面的监测方法做出贡献,并提供对草甸及其周围环境之间复杂相互作用的更深入理解。图像分割模型使用真实的水下图像进行了验证,而整体检查框架则在一个逼真的模拟环境中进行了评估,复制了使用真实水下图像的实际监测场景。结果表明,所提出的框架使AUV能够自主完成水下检查和岩石分割的主要任务。因此,这项工作在海洋环境的保护和保护方面具有重要潜力,为地中海波喜荡草草甸的状况提供了宝贵的见解,并支持有针对性的保护努力。

[18] ReasonDrive:通过增强推理的小型视觉语言模型实现高效的自动驾驶车辆视觉问答
标题: ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models
作者: Amirhosein Chahe / Lifeng Zhou
原文:   [英文]  
备注: None
摘要:
视觉-语言模型(VLMs)在自动驾驶领域展现出潜力,但通常缺乏对安全至关重要的透明推理能力。我们研究了在微调过程中显式建模推理是否能提升VLM在驾驶决策任务上的表现。使用GPT-4o,我们为DriveLM基准中的驾驶场景生成结构化推理链,并采用类别特定的提示策略。我们在多个小型VLM系列(Llama 3.2、Llava 1.5和Qwen 2.5VL)中比较了基于推理的微调、仅答案微调和基线指令微调模型。我们的结果表明,基于推理的微调始终优于其他方法,其中Llama3.2-11B-reason取得了最高性能。通过推理微调的模型在准确性和文本生成质量上表现出显著提升,表明显式推理增强了驾驶决策的内部表示。这些发现强调了在安全关键领域中透明决策过程的重要性,并为开发更具可解释性的自动驾驶系统提供了一个有前景的方向。

[19] SeeTree——一种用于树木检测和果园定位的模块化开源系统
标题: SeeTree -- A modular, open-source system for tree detection and orchard localization
作者: Jostan Brown / Cindy Grimm / Joseph R. Davidson
原文:   [英文]   [中文]  
备注: 26 pages, 12 figures
摘要:
精确定位是精准果园管理的重要功能需求。然而,目前市场上可供种植者使用的现成商业解决方案很少。在本文中,我们介绍了SeeTree,这是一种模块化、开源的嵌入式系统,用于树干检测和果园定位,可以部署在任何车辆上。基于我们之前关于使用粒子滤波器的视觉行内定位的工作,SeeTree增加了几个新功能。首先,它提供了包括行外地头转弯在内的完整果园定位能力。其次,它具有灵活性,可以在运动模型中集成视觉、GNSS或轮式里程计。在商业果园的田间实验中,即使在初始粒子位置存在较大不确定性的情况下,该系统在800次试验中99%的时间收敛到正确位置。在行外转弯时,系统正确跟踪了99%的转弯(860次试验代表43次独特的行更换)。为了支持采用以及未来的研究和开发,我们将数据集、设计文件和源代码免费提供给社区。

[20] 太阳能板定向的最小传感
标题: Minimal Sensing for Orienting a Solar Panel
作者: Jeremy Klotz / Shree K. Nayar
原文:   [英文]   [中文]  
备注: 12 pages, 9 figures
摘要:
当太阳能板朝向能够最大化其接收到的总光照(辐照度)的方向时,它能够收集到最多的能量。针对太阳能板的任意朝向和任意环境光照,我们研究了如何找到最大总辐照度方向的问题。我们开发了一种最小化传感的方法,仅使用四个光电探测器的测量值,通过迭代调整太阳能板的倾斜角度来最大化辐照度。许多环境会产生具有多个局部最大值的辐照度函数。因此,仅仅测量辐照度函数的梯度并应用梯度上升法是行不通的。我们展示了探测器与面板之间较大的、优化的倾斜角度等同于对辐照度函数进行模糊处理。这种处理消除了局部最大值,并将辐照度函数转变为单峰函数,其最大值可以通过梯度上升法找到。我们展示了我们的方法与尺度空间理论之间的密切关系。我们在纽约市收集了一个名为\textit{UrbanSky}的大型高动态范围光照环境数据集。我们使用该数据集进行模拟,以验证我们方法的鲁棒性。最后,我们构建了一个便携式太阳能板,配备四个紧凑型探测器和一个执行器,以在各种现实环境中进行实验:直射阳光、阴天、城市环境中的遮挡和阴影,以及复杂的室内照明。在所有情况下,与标准的太阳能板朝向控制方法相比,我们的方法在收集能量方面显示出显著的改进。

[21] Rainy:解锁卫星校准以用于降水深度学习
标题: Rainy: Unlocking Satellite Calibration for Deep Learning in Precipitation
作者: Zhenyu Yu / Hanqing Chen / Mohd Yamani Idna Idris / Pei Wang
原文:   [英文]   [中文]  
备注: None
摘要:
降水在地球水文循环中起着至关重要的作用,直接影响生态系统、农业和水资源管理。准确的降水估算和预测对于理解气候动态、灾害准备和环境监测至关重要。近年来,人工智能(AI)在定量遥感(QRS)中受到越来越多的关注,使得数据分析更加先进,并提高了降水估算的准确性。尽管传统方法已被广泛用于降水估算,但由于数据获取困难和捕捉复杂特征关系的挑战,它们面临着局限性。此外,缺乏标准化的多源卫星数据集,并且在大多数情况下,过于依赖站点数据,显著阻碍了先进AI模型的有效应用。为了解决这些挑战,我们提出了Rainy数据集,这是一个多源时空数据集,整合了纯卫星数据和站点数据,并提出了Taper Loss,旨在填补仅有现场数据而没有区域支持的任务中的空白。Rainy数据集支持五个主要任务:(1)卫星校准,(2)降水事件预测,(3)降水水平预测,(4)时空预测,以及(5)降水降尺度。对于每个任务,我们选择了基准模型和评估指标,为研究人员提供有价值的参考。以降水为例,Rainy数据集和Taper Loss展示了QRS与计算机视觉之间的无缝协作,为QRS领域的科学AI提供数据支持,并为跨学科合作和整合提供了宝贵的见解。

[22] 视觉语言模型在神经心理测试中表现出广泛的视觉缺陷
标题: Visual Language Models show widespread visual deficits on neuropsychological tests
作者: Gene Tangtartharakul / Katherine R. Storrs
原文:   [英文]  
备注: 31 pages, 3 figures, 1 supplementary document with 1 figure and 51 sample images
摘要:
视觉语言模型(VLMs)在视觉推理任务中表现出色,成功解决了需要高级图像理解的大学水平挑战。然而,最近的一些报告显示,VLMs在推理基本视觉概念如方向、位置、连续性和遮挡方面存在困难,这表明人类视觉与VLM视觉之间可能存在差距。在此,我们使用神经心理学工具系统地评估三个最先进的VLMs在视觉领域的能力。通过从六个临床和实验电池中抽取的51项测试,我们描述了领先VLMs相对于健康成年人规范表现的视觉能力。虽然这些模型在简单的物体识别任务中表现出色,但我们发现它们在低级和中级视觉能力方面存在广泛的缺陷,这在临床上对人类来说是显著的。这些通过验证测试电池描绘的选择性缺陷表明,一个人工系统可以在不发展人类无需明确训练的基础视觉概念的情况下实现复杂的物体识别。

[23] 用于高光谱图像分类的具有扩展感受野的三维小波卷积
标题: 3D Wavelet Convolutions with Extended Receptive Fields for Hyperspectral Image Classification
作者: Guandong Li / Mengxia Ye
原文:   [英文]   [中文]  
备注: arXiv admin note: substantial text overlap with arXiv:2504.04463
摘要:
深度神经网络在高光谱图像分类中面临诸多挑战,包括高维数据、稀疏的地物分布和光谱冗余,这些问题常常导致分类过拟合和有限的泛化能力。为了更好地适应地物分布,同时在不引入过多参数和跳过冗余信息的情况下扩展感受野,本文提出了WCNet,这是一种集成了小波变换的改进型3D-DenseNet模型。我们引入小波变换来有效地扩展卷积感受野,并通过级联引导卷积神经网络更好地响应低频,称为小波卷积。每个卷积专注于输入信号的不同频带,逐步增加有效范围。这个过程使得模型在仅增加少量可训练参数的情况下,更加重视低频成分。这种动态方法使得模型在处理不同区域时能够灵活地关注关键的空间结构,而不是依赖于单一静态核的固定感受野。小波卷积模块通过3D小波变换扩展感受野而不增加网络的深度或宽度,从而增强了模型的表示能力。实验结果表明,在IN、UP和KSC数据集上,WCNet的性能优于主流的高光谱图像分类方法。

[24] 达摩克利斯之剑在视觉变换器中:计算冗余放大对抗性可迁移性
标题: The Sword of Damocles in ViTs: Computational Redundancy Amplifies Adversarial Transferability
作者: Jiani Liu / Zhiyuan Wang / Zeliang Zhang / Chao Huang / Susan Liang / Yunlong Tang / Chenliang Xu
原文:   [英文]   [中文]  
备注: Work in progress. 10 pages. 4 figures
摘要:
视觉Transformer(ViTs)在包括许多安全关键任务在内的各种应用中表现出了令人印象深刻的性能。然而,其独特的架构特性在对抗鲁棒性方面带来了新的挑战和机遇。特别是,我们观察到在ViTs上生成的对抗样本相比于在卷积神经网络(CNNs)上生成的样本具有更高的可迁移性,这表明ViTs包含有利于可迁移攻击的结构特征。在这项工作中,我们研究了ViTs中的计算冗余及其对对抗迁移性的影响。与之前旨在提高效率而减少计算的研究不同,我们提出利用这种冗余来提高对抗样本的质量和可迁移性。通过详细分析,我们识别出可以利用的两种冗余形式,包括数据级和模型级,以增强攻击效果。基于这一见解,我们设计了一套技术,包括注意力稀疏性操控、注意力头排列、干净标记正则化、幽灵MoE多样化和测试时对抗训练。在ImageNet-1k数据集上的大量实验验证了我们方法的有效性,结果显示我们的方法在可迁移性和多样模型架构的通用性方面显著优于现有基线。

[25] 基于表格的基础模型用于从视觉线索中检测同理心
标题: Tabular foundation model to detect empathy from visual cues
作者: Md Rakibul Hasan / Shafin Rahman / Md Zakir Hossain / Aneesh Krishna / Tom Gedeon
原文:   [英文]  
备注: None
摘要:
从视频互动中检测同理心是一个新兴的研究领域。然而,由于隐私和伦理问题,视频数据集通常以提取的特征(即表格数据)而不是原始视频的形式发布。之前对这些表格数据集的研究表明,基于树的经典机器学习方法是表现最好的模型。受到最近文本基础模型(即大型语言模型)成功的启发,我们探索了在表格视觉特征中使用表格基础模型进行同理心检测。我们通过上下文学习和微调设置对两个最新的表格基础模型——TabPFN v2和TabICL进行了实验。我们在一个公开的人机互动基准上进行的实验显示,与几个强大的基线相比,跨主体同理心检测准确率显著提高(准确率:0.590 → 0.730;AUC:0.564 → 0.669)。除了性能提升之外,我们还提供了新的见解和评估设置,以确保在这个公开基准中对未见过的主体进行泛化。由于出于隐私限制的原因,发布视频特征为表格数据集的做法可能会持续存在,我们的研究结果也将广泛适用于未来的同理心检测视频数据集。

[26] GaSLight:用于高动态范围中空间变化光照的高斯斑点
标题: GaSLight: Gaussian Splats for Spatially-Varying Lighting in HDR
作者: Christophe Bolduc / Yannick Hold-Geoffroy / Zhixin Shu / Jean-François Lalonde
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了GaSLight,这是一种从普通图像生成空间变化光照的方法。我们的方法提出使用HDR高斯斑点作为光源表示,这是首次将普通图像用作3D渲染器中的光源。我们的两阶段过程首先通过利用扩散模型中嵌入的先验知识,合理且准确地增强图像的动态范围。接下来,我们使用高斯斑点来建模3D光照,实现空间变化的光照。我们的方法在HDR估计及其在虚拟物体和场景照明中的应用上达到了最先进的结果。为了促进图像作为光源的基准测试,我们引入了一个新的经过校准且未饱和的HDR数据集,以评估图像作为光源的效果。我们使用这个新数据集和文献中的现有数据集的组合来评估我们的方法。用于重现我们方法的代码将在论文被接受后提供。

[27] PatrolVision:野外环境中的自动车牌识别
标题: PatrolVision: Automated License Plate Recognition in the wild
作者: Anmol Singhal Navya Singhal
原文:   [英文]   [中文]  
备注: Accepted in IEEE Southeast Con 2025. To be published in IEEEXplore
摘要:
由于与人口规模相关的信息准确性和速度的挑战,人工智能驱动技术在公共服务中的采用率仍然较低。尽管计算机视觉技术在自动驾驶等领域具有相对优势,但在交通监控方面并未获得广泛普及。尽管有大量关于自动车牌识别(ALPR)系统的学术方法,但很少有提供城市巡逻的端到端解决方案。本文提出了一种新颖的低功耗GPU巡逻系统原型,旨在部署于城市环境中的监控车辆上,实现自动化的车辆检测、识别和跟踪。在这项工作中,我们为新加坡车牌提出了一个完整的ALPR系统,支持单行和双行车牌,并创建了我们自己的基于YOLO的网络。我们专注于不受约束的捕获场景,这在实际应用中很常见,因为车牌可能由于倾斜视角而严重失真。在这项工作中,我们首先使用RFB-Net从完整图像中检测车牌,并校正单个图像中的多个失真车牌。之后,检测到的车牌图像被输入到我们的网络中进行字符识别。我们在一个新建的数据集上评估了我们提出的系统的性能,该数据集涵盖了超过16,000张图像。系统能够以86%的精度正确检测车牌,并在测试集中67%的情况下识别车牌字符,且在一个字符错误(部分匹配)的情况下达到89%的准确率。我们还测试了系统的延迟,在Tesla P4 GPU上实现了64FPS。

[28] IlluSign:利用注意力机制展示手语视频
标题: IlluSign: Illustrating Sign Language Videos by Leveraging the Attention Mechanism
作者: Janna Bruner / Amit Moryossef / Lior Wolf
原文:   [英文]   [中文]  
备注: None
摘要:
手语是一种动态的视觉语言,涉及手势以及面部表情等非手动元素。虽然手语的视频录制常用于教育和记录,但手语的动态特性使得详细研究变得具有挑战性,尤其是对于新学习者和教育者而言。本文旨在将手语视频转换为静态插图,作为补充视频内容的额外教育资源。这个过程通常由艺术家完成,因此成本较高。我们提出了一种方法,通过利用生成模型理解图像语义和几何特性的能力,将手语视频转化为插图。我们的方法专注于将草图风格的插图应用于手语视频,将手语的起始和结束帧合并为单个插图,并使用箭头突出手的方向和运动。尽管许多风格迁移方法在不同抽象层次上处理领域适应性,但将草图风格应用于手语,特别是手势和面部表情,仍然是一个重大挑战。为了解决这个问题,我们在扩散模型的去噪过程中进行干预,将风格作为键和值注入高分辨率注意力层,并将图像和边缘的几何信息作为查询进行融合。对于最终插图,我们使用注意力机制结合起始和结束插图的注意力权重,形成柔和的组合。我们的方法在推理时提供了一种经济有效的解决方案,用于生成手语插图,解决了教育材料中此类资源的缺乏问题。

[29] OmniVDiff:用于生成和理解的全方位可控视频扩散
标题: OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding
作者: Dianbing Xi / Jiepeng Wang / Yuanzhi Liang / Xi Qiu / Yuchi Huo / Rui Wang / Chi Zhang / Xuelong Li
原文:   [英文]  
备注: Our project page: this https URL
摘要:
在本文中,我们提出了一种新颖的可控视频扩散框架,OmniVDiff,旨在在单一扩散模型中合成和理解多种视频视觉内容。为实现这一目标,OmniVDiff在色彩空间中处理所有视频视觉模态以学习联合分布,同时采用自适应控制策略,在扩散过程中动态调整每种视觉模态的角色,既可以作为生成模态,也可以作为条件模态。这允许灵活操控每种模态的角色,从而支持广泛的任务。因此,我们的模型支持三个关键功能:(1)文本条件视频生成:在一个扩散过程中,根据文本条件生成多模态视觉视频序列(即,rgb、深度、canny、分割);(2)视频理解:OmniVDiff可以估计输入rgb帧的深度、canny图和语义分割,同时确保与rgb输入的一致性;(3)X条件视频生成:OmniVDiff生成基于细粒度属性(例如深度图或分割图)的条件视频。通过将这些多样化任务整合到统一的视频扩散框架中,OmniVDiff增强了可控视频扩散的灵活性和可扩展性,使其成为各种下游应用的有效工具,如视频到视频翻译。大量实验展示了我们方法的有效性,突显了其在各种视频相关应用中的潜力。

[30] LayoutCoT:释放大型语言模型在布局生成中的深度推理潜力
标题: LayoutCoT: Unleashing the Deep Reasoning Potential of Large Language Models for Layout Generation
作者: Hengyu Shi / Junhao Su / Huansheng Ning / Xiaoming Wei / Jialin Gao
原文:   [英文]   [中文]  
备注: None
摘要:
条件布局生成旨在根据用户定义的约束自动生成视觉上吸引人且语义上连贯的布局。虽然基于生成模型的最新方法显示了良好的结果,但它们通常需要大量的训练数据或广泛的微调,限制了其多样性和实际应用能力。作为替代,一些无需训练的方法利用大型语言模型(LLMs)的上下文学习已经出现,但它们通常存在推理能力有限和过于简单的排序机制问题,限制了其生成一致高质量布局的能力。为此,我们提出了LayoutCoT,这是一种新颖的方法,通过检索增强生成(RAG)和思维链(CoT)技术结合利用LLMs的推理能力。具体来说,LayoutCoT将布局表示转换为适合LLMs处理的标准化序列格式。一个布局感知的RAG用于促进有效检索,并由LLMs生成粗略布局。这个初步布局与选定的示例一起被输入到一个专门设计的CoT推理模块中进行迭代优化,显著增强了语义连贯性和视觉质量。我们在五个公共数据集上进行了广泛的实验,涵盖了三个条件布局生成任务。实验结果表明,LayoutCoT在不需要训练或微调的情况下实现了最先进的性能。值得注意的是,我们的CoT推理模块使标准LLMs,即使是那些没有明确深度推理能力的模型,也能超越专门的深度推理模型如deepseek-R1,突显了我们的方法在释放LLMs深度推理能力以进行布局生成任务中的潜力。

[31] LightFormer:一种用于遥感图像分割的轻量高效解码器
标题: LightFormer: A lightweight and efficient decoder for remote sensing image segmentation
作者: Sihang Chen / Lijun Yun / Ze Liu / JianFeng Zhu / Jie Chen / Hui Wang / Yueping Nie
原文:   [英文]   [中文]  
备注: 26 pages, 69 figures
摘要:
深度学习技术在遥感图像的语义分割和土地利用变化检测方面取得了显著成功。然而,它们在边缘平台上的实时部署仍然受到解码器复杂性的限制。在此,我们介绍了LightFormer,一种用于时间关键任务的轻量级解码器,这些任务涉及非结构化目标,如灾害评估、无人机搜索与救援以及文化遗产监测。LightFormer采用基于通道处理和可学习门控机制的特征融合和优化模块,以高效聚合多尺度、多范围信息,从而大幅降低模型复杂性。此外,我们提出了一个空间信息选择模块(SISM),该模块结合了长距离注意力和细节保留分支,以捕捉跨多个尺度的空间依赖关系,从而显著提高了在复杂场景中识别非结构化目标的能力。在ISPRS Vaihingen基准测试中,LightFormer达到了GLFFNet的mIoU的99.9%(83.9%对比84.0%),同时仅需其FLOPs的14.7%和参数的15.9%,从而实现了卓越的准确性与效率的平衡。在LoveDA、ISPRS Potsdam、RescueNet和FloodNet上的一致结果进一步证明了其鲁棒性和对非结构化对象的优越感知能力。这些发现突出了LightFormer作为遥感应用的实用解决方案,在这些应用中,计算经济性和高精度分割都是必不可少的。

[32] 遥感在湿地分类与制图中的综合评述
标题: A comprehensive review of remote sensing in wetland classification and mapping
作者: Shuai Yuan / Xiangan Liang / Tianwu Lin / Shuang Chen / Rui Liu / Jie Wang / Hongsheng Zhang / Peng Gong
原文:   [英文]   [中文]  
备注: None
摘要:
湿地是支持生物多样性和人类福祉的重要生态系统;然而,自20世纪以来,它们经历了显著的衰退。早在20世纪70年代,研究人员就开始使用遥感技术进行湿地分类和制图,以阐明湿地的范围和变化。尽管一些综述文章总结了该领域的发展,但对湿地分类和制图的全面和深入理解仍然不足:(1)湿地的科学重要性,(2)湿地分类和制图中使用的主要数据和方法,(3)湿地变化的驱动因素,(4)当前的研究范式和局限性,(5)在技术创新和全球环境变化背景下湿地分类和制图的挑战和机遇。在本次综述中,我们旨在为读者提供全面的视角和新的见解,以回答这些问题。首先,我们对超过1200篇论文进行了元分析,涵盖湿地类型、方法、传感器类型和研究地点,考察湿地分类和制图的流行趋势。接下来,我们回顾并综合了湿地特征以及湿地分类和制图中现有的数据和方法。我们还总结了典型的湿地制图产品,并探讨了跨多个空间和时间尺度的湿地变化的内在驱动因素。最后,我们讨论了当前的局限性,并提出了应对全球环境变化和技术创新的未来方向。该综述巩固了我们对湿地遥感的理解,并提供了促进湿地科学变革性进展的科学建议。

[33] 使用大型视觉模型增强长尾数据中的特征
标题: Enhancing Features in Long-tailed Data Using Large Vision Mode
作者: Pengxiao Han / Changkun Ye / Jinguang Tong / Cuicui Jiang / Jie Hong / Li Fang / Xuesong Li
原文:   [英文]   [中文]  
备注: None
摘要:
语言基础模型,如大型语言模型(LLMs)或大型视觉语言模型(LVLMs),在长尾识别中得到了广泛研究。然而,对语言数据的需求并不适用于所有实际任务。在本研究中,我们旨在探索使用大型视觉模型(LVMs)或视觉基础模型(VFMs)来增强长尾数据特征,而无需任何语言信息。具体来说,我们从LVM中提取特征,并将其与基线网络的特征图和潜在空间中的特征融合,以获得增强的特征。此外,我们在潜在空间中设计了几种基于原型的损失,以进一步挖掘增强特征的潜力。在实验部分,我们在两个基准数据集ImageNet-LT和iNaturalist2018上验证了我们的方法。

[34] LVLM_CSP:通过聚类、散射和剪枝加速大规模视觉语言模型以进行推理分割
标题: LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation
作者: Hanning Chen / Yang Ni / Wenjun Huang / Hyunwoo Oh / Yezi Liu / Tamoghno Das / Mohsen Imani
原文:   [英文]   [中文]  
备注: None
摘要:
大型视觉语言模型(LVLMs)已被广泛采用来指导视觉基础模型执行推理分割任务,并取得了令人印象深刻的性能。然而,与LVLMs相关的大量计算开销带来了新的挑战。这种计算成本的主要来源是处理数百个图像标记。因此,减轻这种开销的有效策略是减少图像标记的数量,这一过程被称为图像标记修剪。以往关于LVLMs图像标记修剪的研究主要集中在高级视觉理解任务上,如视觉问答和图像字幕。相比之下,指导视觉基础模型根据文本查询生成准确的视觉掩码需要精确的语义和空间推理能力。因此,修剪方法必须在LVLM推理过程中仔细控制每个图像标记。我们的实证分析表明,现有方法难以在减少计算开销与保持高分割准确性之间取得适当的平衡。在这项工作中,我们提出了LVLM_CSP,一种专门为基于LVLM的推理分割任务设计的无训练视觉标记修剪方法。LVLM_CSP由三个阶段组成:聚类、散射和修剪。首先,LVLM使用选定的图像标记子集进行粗粒度视觉推理。接下来,进行细粒度推理,最后,在最后阶段修剪掉大多数视觉标记。大量实验表明,LVLM_CSP在7B LVLM上实现了图像标记推理FLOPs减少65%,几乎没有准确性下降,并且在准确性仅下降1%的情况下实现了70%的减少。

[35] DAAF:面向退化感知的自适应融合框架,用于稳健的红外与可见光图像融合
标题: DAAF:Degradation-Aware Adaptive Fusion Framework for Robust Infrared and Visible Images Fusion
作者: Tianpei Zhang / Jufeng Zhao / Yiming Zhu / Guangmang Cui / Yuxin Jing / Yuhan Lyu
原文:   [英文]   [中文]  
备注: None
摘要:
现有的红外和可见光图像融合(IVIF)算法通常优先考虑高质量图像,忽视了诸如低光和噪声等图像退化问题,这限制了其实际应用潜力。本文提出了一种退化感知自适应图像融合(DAAF)方法,实现了自适应退化优化和图像融合的统一建模。具体而言,DAAF包括一个辅助的自适应退化优化网络(ADON)和一个特征交互局部-全局融合(FILGF)网络。首先,ADON包括红外和可见光分支。在红外分支中,采用频域特征分解和提取来隔离高斯和条纹噪声。在可见光分支中,应用Retinex分解来提取光照和反射成分,从而实现细节和光照分布的互补增强。随后,FILGF执行交互式多尺度局部-全局特征融合。局部特征融合包括模型内外特征互补,而全局特征融合则通过交互式跨模型注意力实现。大量实验表明,DAAF在正常和复杂退化场景中优于当前的IVIF算法。

[36] 视觉-语言模型能理解和解释行人的动态手势吗?面向合作自动驾驶车辆的指导性非语言指令的初步数据集和探索
标题: Can Vision-Language Models Understand and Interpret Dynamic Gestures from Pedestrians? Pilot Datasets and Exploration Towards Instructive Nonverbal Commands for Cooperative Autonomous Vehicles
作者: Tonko E. W. Bossen / Andreas Møgelmose / Ross Greer
原文:   [英文]  
备注: None
摘要:
在自动驾驶中,正确解读交通手势(TGs)至关重要,例如权威人物提供的命令或指示,或行人向驾驶员发出的信号,以确保所有道路使用者的交通环境安全和愉快。本研究调查了最先进的视觉语言模型(VLMs)在零样本解读方面的能力,重点关注它们在交通环境中为人类手势生成字幕和分类的能力。我们创建并公开分享了两个自定义数据集,包含各种正式和非正式的交通手势,如“停止”、“倒车”、“招手”等。这些数据集是“表演交通手势(ATG)”和“野外指令交通手势(ITGI)”。它们用自然语言进行标注,描述行人的身体位置和手势。我们使用三种方法评估模型,利用专家生成的字幕作为基线和对照:(1)字幕相似性,(2)手势分类,以及(3)姿势序列重建相似性。结果表明,当前的视觉语言模型在手势理解方面存在困难:句子相似性平均低于0.59,分类F1分数仅达到0.14-0.39,远低于专家基线的0.70。虽然姿势重建显示出潜力,但需要更多数据和更精细的指标才能可靠。我们的研究结果揭示,尽管一些最先进的视觉语言模型可以零样本解读人类交通手势,但没有一个模型足够准确和稳健以值得信赖,强调了在该领域进一步研究的必要性。

[37] 面向天气感知的对象检测转换器用于领域适应
标题: Weather-Aware Object Detection Transformer for Domain Adaptation
作者: Soheil Gharatappeh / Salimeh Sekeh / Vikas Dhiman
原文:   [英文]   [中文]  
备注: None
摘要:
RT-DETRs在各种计算机视觉任务中表现出色,但在雾等恶劣天气条件下性能会下降。在这项工作中,我们研究了三种新方法,以增强RT-DETR在雾天环境中的鲁棒性:(1)通过感知损失进行领域适应,该方法利用感知监督从教师网络向学生网络提取领域不变特征;(2)天气自适应注意机制,通过引入辅助的雾天图像流来增强注意机制的雾敏感缩放;(3)天气融合编码器,采用双流编码器架构,通过多头自注意和交叉注意融合清晰和雾天图像特征。尽管在架构上进行了创新,但所提出的方法均未能始终优于基线RT-DETR。我们分析了其局限性和潜在原因,并为未来的天气感知目标检测研究提供了见解。

[38] 大型语言模型知情的特征发现提升了对视觉内容可信度感知的预测和解释
标题: Large Language Model-Informed Feature Discovery Improves Prediction and Interpretation of Credibility Perceptions of Visual Content
作者: Yilang Peng / Sijia Qian / Yingdan Lu / Cuihua Shen
原文:   [英文]   [中文]  
备注: 26 pages
摘要:
在当今以视觉为主导的社交媒体环境中,预测视觉内容的感知可信度以及理解驱动人类判断的因素对于对抗错误信息至关重要。然而,由于视觉特征的多样性和丰富性,这些任务具有挑战性。我们引入了一个大型语言模型(LLM)知情的特征发现框架,该框架利用多模态LLM(如GPT-4o)来评估内容可信度并解释其推理过程。我们使用有针对性的提示提取和量化可解释的特征,并将其整合到机器学习模型中以提高可信度预测。我们在科学、健康和政治八个主题的4,191个视觉社交媒体帖子上测试了这种方法,使用来自5,355名众包工人的可信度评分。我们的方法在R2上比零样本的基于GPT的预测高出13个百分点,并揭示了信息具体性和图像格式等关键特征。我们讨论了对错误信息缓解、视觉可信度以及LLM在社会科学中作用的影响。

[39] 安全构建:将施工安全违规识别重新定义为3D多视角参与任务
标题: Safe-Construct: Redefining Construction Safety Violation Recognition as 3D Multi-View Engagement Task
作者: Aviral Chharia / Tianyu Ren / Tomotake Furuhata / Kenji Shimada
原文:   [英文]  
备注: CVPR Workshop 2025; Project Website: this https URL
摘要:
在建筑环境中识别安全违规行为至关重要,但在计算机视觉领域仍未得到充分探索。现有模型主要依赖于二维目标检测,这无法捕捉现实世界违规行为的复杂性,原因包括:(i) 将违规识别简化为仅仅是目标检测的任务设定过于简单,(ii) 在现实条件下验证不足,(iii) 缺乏标准化基准,以及 (iv) 由于缺乏用于多样化建筑场景的合成数据集生成器,导致可扩展性有限。为了解决这些挑战,我们引入了Safe-Construct,这是第一个将违规识别重新定义为3D多视角参与任务的框架,利用场景级工人-物体上下文和3D空间理解。我们还提出了合成室内建筑工地生成器(SICSG),以创建多样化、可扩展的训练数据,克服数据限制。Safe-Construct在四种违规类型上比最先进的方法提高了7.6%。我们在近乎真实的环境中严格评估了我们的方法,涵盖四种违规行为、四名工人、14个物体,以及诸如遮挡(工人-物体、工人-工人)和可变照明(背光、过曝、阳光)等挑战条件。通过整合3D多视角空间理解和合成数据生成,Safe-Construct为高风险行业的可扩展和稳健的安全监控设定了新的基准。项目网站:this https URL

[40] 将可逆UNets与可逆注意力模块结合用于内存高效的扩散模型
标题: Bringing together invertible UNets with invertible attention modules for memory-efficient diffusion models
作者: Karan Jain / Mohammad Nayeem Teli
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型最近在许多图像生成任务中取得了最先进的性能。然而,大多数模型需要大量的计算资源才能实现这一点。在医学图像合成的应用中,这一点尤为明显,因为医学数据集(如CT扫描、MRI、电子显微镜等)具有三维特性。在本文中,我们提出了一种新颖的架构,用于在单个GPU上进行高维医学数据集的内存高效训练的扩散模型。所提出的模型通过使用可逆的UNet架构和可逆注意力模块构建。这带来了以下两个贡献:1. 去噪扩散模型,从而使内存使用与数据集的维度无关;2. 减少训练过程中的能量消耗。虽然这种新模型可以应用于多种图像生成任务,但我们展示了其在3D BraTS2020数据集上的内存效率,在训练期间峰值内存消耗减少了多达15%,同时保持了与最先进技术相当的结果和图像质量。

[41] PuzzleBench:一个用于大型多模态模型在解谜任务上的完全动态评估框架
标题: PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving
作者: Zeyu Zhang / Zijian Chen / Zicheng Zhang / Yuze Sun / Yuan Tian / Ziheng Jia / Chunyi Li / Xiaohong Liu / Xiongkuo Min / Guangtao Zhai
原文:   [英文]   [中文]  
备注: None
摘要:
大型多模态模型(LMMs)在广泛的多模态任务中展示了令人印象深刻的能力,在各种评估基准上取得了不断提高的性能。然而,现有的基准通常是静态的,并且常常与预训练数据集重叠,导致固定的复杂性限制和严重的数据污染问题。同时,人工标注的数据集需要大量的劳动、耗时,并且受到人为偏见和不一致性的影响,导致可靠性和可重复性问题。为了解决这些问题,我们提出了一个完全动态的多模态评估框架,称为开放式视觉谜题生成(OVPG),旨在自动生成新鲜、多样且可验证的评估数据,用于解谜任务。具体来说,OVPG流程包括原材料采样模块、视觉内容生成模块和谜题规则设计模块,确保每个评估实例都是原始的、高度随机化的,并且是独特可解的,从而能够持续适应LMMs不断发展的能力。基于OVPG,我们构建了PuzzleBench,一个动态且可扩展的基准,包括11,840个VQA样本。它具有六个精心设计的谜题任务,针对三个核心LMM能力:视觉识别、逻辑推理和上下文理解。PuzzleBench不同于快速过时的静态基准。它通过OVPG和丰富的开放式谜题设计集实现数据集的持续刷新,允许无缝适应LMMs不断发展的能力。

[42] CDUPatch:针对双模态可见光-红外探测器的颜色驱动通用对抗性补丁攻击
标题: CDUPatch: Color-Driven Universal Adversarial Patch Attack for Dual-Modal Visible-Infrared Detectors
作者: Jiahuan Long / Wen Yao / Tingsong Jiang / Chao Ma
原文:   [英文]   [中文]  
备注: None
摘要:
对抗性补丁广泛用于评估物体检测系统在现实场景中的鲁棒性。这些补丁最初是为了欺骗单模态检测器(例如,可见光或红外)而设计的,最近已扩展到针对可见光-红外双模态检测器。然而,现有的双模态对抗性补丁攻击在各种物理场景中的攻击效果有限。为了解决这个问题,我们提出了CDUPatch,这是一种针对可见光-红外物体检测器的跨模态通用补丁攻击,适用于不同的尺度、视角和场景。具体来说,我们观察到颜色变化导致不同程度的热吸收,从而在红外成像中产生温度差异。利用这一特性,我们提出了一种RGB到红外的适配器,将RGB补丁映射到红外补丁,实现跨模态补丁的统一优化。通过学习对抗性补丁的最佳颜色分布,我们可以操控其热响应并生成对抗性红外纹理。此外,我们引入了一种多尺度裁剪策略,并构建了一个新的可见光-红外数据集MSDrone,其中包含不同尺度和视角的空中车辆图像。这些数据增强策略提高了我们补丁在现实条件下的鲁棒性。在四个基准数据集(例如,DroneVehicle、LLVIP、VisDrone、MSDrone)上的实验表明,我们的方法在数字领域优于现有的补丁攻击。广泛的物理测试进一步证实了其在不同尺度、视角和场景中的强大迁移能力。

[43] 使用双曲嵌入进行细粒度肋骨骨折诊断:详细的注释框架和多标签分类模型
标题: Fine-Grained Rib Fracture Diagnosis with Hyperbolic Embeddings: A Detailed Annotation Framework and Multi-Label Classification Model
作者: Shripad Pate / Aiman Farooq / Suvrankar Dutta / Musadiq Aadil Sheikh / Atin Kumar / Deepak Mishra
原文:   [英文]   [中文]  
备注: None
摘要:
准确的肋骨骨折识别和分类对于治疗计划至关重要。然而,现有的数据集通常缺乏细粒度的注释,特别是在肋骨骨折的特征、类型以及单根肋骨上的精确解剖位置方面。为了解决这个问题,我们引入了一种新颖的肋骨骨折注释协议,专门用于骨折分类。此外,我们通过利用跨模态嵌入来增强骨折分类,这种嵌入连接了放射影像和临床描述。我们的方法采用双曲嵌入来捕捉骨折的层次结构特性,将视觉特征和文本描述映射到一个共享的非欧几里得流形中。该框架能够在影像特征和临床描述之间进行更细致的相似性计算,考虑到骨折分类法中固有的层次关系。实验结果表明,我们的方法在多个分类任务中优于现有方法,在AirRib数据集上的平均召回率提高了6%,在公共RibFrac数据集上提高了17.5%。

[44] InterAnimate:驯服区域感知扩散模型以实现真实的人类互动动画
标题: InterAnimate: Taming Region-aware Diffusion Model for Realistic Human Interaction Animation
作者: Yukang Lin / Yan Hong / Zunnan Xu / Xindi Li / Chao Xu / Chuanbiao Song / Ronghui Li / Haoxing Chen / Jun Lan / Huijia Zhu / Weiqiang Wang / Jianfu Zhang / Xiu Li
原文:   [英文]   [中文]  
备注: under preview
摘要:
最近的视频生成研究主要集中在孤立的动作上,而对互动动作(如手脸互动)的研究则很少。这些互动对于新兴的生物识别认证系统至关重要,因为这些系统依赖于基于互动动作的防伪方法。从安全的角度来看,迫切需要大规模、高质量的互动视频来训练和加强认证模型。在这项工作中,我们引入了一种新的范式,用于动画化逼真的手脸互动。我们的方法同时学习时空接触动态和生物力学上合理的变形效果,使得手部运动能够引发解剖学上准确的面部变形,同时保持无碰撞的接触。为了促进这项研究,我们提出了InterHF,一个大规模的手脸互动数据集,包含18种互动模式和90,000个标注视频。此外,我们提出了InterAnimate,一种专为互动动画设计的区域感知扩散模型。InterAnimate利用可学习的空间和时间潜变量,有效捕捉动态互动先验,并整合了一种区域感知互动机制,将这些先验注入去噪过程。据我们所知,这项工作是首次大规模系统地研究人类手脸互动。定性和定量结果表明,InterAnimate生成的动画高度逼真,设立了新的基准。代码和数据将公开以推动研究进展。

[45] 面向高效部分相关视频检索的主动时刻发现
标题: Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering
作者: Peipei Song / Long Zhang / Long Lan / Weidong Chen / Dan Guo / Xun Yang / Meng Wang
原文:   [英文]   [中文]  
备注: Accepted by IEEE Transactions on Multimedia (TMM) on January 19, 2025. The code is available at this https URL
摘要:
部分相关视频检索(PRVR)是在文本到视频检索中一个实用但具有挑战性的任务,其中视频是未剪辑的,并包含大量背景内容。这里的追求是找到既有效又高效的解决方案,以捕捉文本查询与未剪辑视频之间的部分对应关系。现有的PRVR方法通常专注于建模多尺度的片段表示,但却面临内容独立性和信息冗余的问题,从而影响检索性能。为克服这些限制,我们提出了一种简单而有效的方法,称为主动时刻发现网络(AMDNet)。我们致力于发现与查询语义一致的视频时刻。通过使用可学习的跨度锚点来捕捉不同的时刻,并应用掩码多时刻注意力来强调显著时刻同时抑制冗余背景,我们实现了更紧凑和信息丰富的视频表示。为了进一步增强时刻建模,我们引入了时刻多样性损失以鼓励不同区域的不同时刻,以及时刻相关性损失以促进语义上与查询相关的时刻,这与部分相关检索损失协同进行端到端优化。在两个大规模视频数据集(即TVR和ActivityNet Captions)上的大量实验表明,我们的AMDNet具有优越性和高效性。特别是,AMDNet在TVR上比最新的方法GMMFormer参数量小约15.5倍,而SumR得分高出6.0点。

[46] 跨频率隐式神经表示与自进化参数
标题: Cross-Frequency Implicit Neural Representation with Self-Evolving Parameters
作者: Chang Yu / Yisi Luo / Kai Ye / Xile Zhao / Deyu Meng
原文:   [英文]   [中文]  
备注: None
摘要:
隐式神经表示(INR)已成为视觉数据表示的强大范式。然而,传统的INR方法在原始空间中表示数据,并混合了不同的频率成分,同时需要手动配置多个特征编码参数(例如,频率参数$\omega$或秩$R$)。在这项工作中,我们提出了一种使用Haar小波变换的自进化跨频率INR(称为CF-INR),它将数据解耦为四个频率成分,并在小波空间中使用INR。CF-INR允许分别表征不同的频率成分,从而实现更高精度的数据表示。为了更精确地表征跨频率成分,我们为CF-INR提出了一种具有自进化参数的跨频率张量分解范式,该范式通过自进化优化自动更新每个频率成分的秩参数$R$和频率参数$\omega$。这种自进化范式消除了对这些参数进行繁琐手动调整的需要,并为每个数据集学习定制的跨频率特征编码配置。我们在各种视觉数据表示和恢复任务中评估了CF-INR,包括图像回归、修复、去噪和云去除。大量实验表明,CF-INR在每种情况下都优于最先进的方法。

[47] 通过字典学习识别几何形状
标题: Recognition of Geometrical Shapes by Dictionary Learning
作者: Alexander Köhler / Michael Breuß
原文:   [英文]   [中文]  
备注: 6 pages, 4 figures, ACDSA 2025 conference
摘要:
字典学习是一种多功能的方法,用于生成一个过完备的向量集,称为原子,以仅用少量原子表示给定的输入。在文献中,它主要用于探索其强大表示能力的任务,例如图像重建。在这项工作中,我们首次提出了使字典学习适用于形状识别的方法,特别是几何形状。正如我们所展示的,底层优化方法的选择对识别质量有显著影响。实验结果证实,字典学习可能是形状识别任务的一种有趣方法。

[48] 一种高效且混合异构的图像修复模型
标题: An Efficient and Mixed Heterogeneous Model for Image Restoration
作者: Yubin Gu / Yuan Meng / Kaihang Zheng / Xiaoshuai Sun / Jiayi Ji / Weijian Ruan / Liujuan Cao / Rongrong Ji
原文:   [英文]   [中文]  
备注: None
摘要:
图像修复(IR)作为一项基础的多媒体数据处理任务,对下游视觉应用有着显著的影响。近年来,研究人员专注于开发能够处理多种退化类型的通用IR模型,从而降低模型开发的成本和复杂性。目前的主流方法基于三种架构范式:卷积神经网络(CNNs)、Transformer和Mamba。CNNs在高效推理方面表现出色,而Transformer和Mamba则擅长捕捉长距离依赖关系和建模全局上下文。尽管每种架构在专门的单任务环境中都取得了成功,但在有效整合异构架构以共同应对多样化的IR挑战方面的努力有限。为弥补这一差距,我们提出了RestorMixer,这是一种基于混合架构融合的高效通用IR模型。RestorMixer采用三阶段的编码器-解码器结构,每个阶段都针对输入的分辨率和特征特性进行定制。在初始的高分辨率阶段,采用基于CNN的模块快速提取浅层局部特征。在随后的阶段中,我们整合了精炼的多方向扫描Mamba模块和基于多尺度窗口的自注意力机制。这种分层和自适应的设计使模型能够利用CNNs在局部特征提取中的优势、Mamba在全局上下文建模中的优势以及注意力机制在动态特征优化中的优势。大量实验结果表明,RestorMixer在多个IR任务中实现了领先的性能,同时保持了高效的推理效率。官方代码可以通过此URL访问。

[49] AFiRe:基于解剖结构的自监督学习用于放射影像的细粒度表示
标题: AFiRe: Anatomy-Driven Self-Supervised Learning for Fine-Grained Representation in Radiographic Images
作者: Yihang Liu / Lianghua He / Ying Wen / Longzhen Yang / Hongzhou Chen
原文:   [英文]   [中文]  
备注: None
摘要:
当前的自监督方法,如对比学习,主要关注全局区分,忽视了准确的放射影像分析所需的关键细粒度解剖细节。为了解决这一挑战,我们提出了一种解剖驱动的自监督框架,以增强放射影像分析中的细粒度表示(AFiRe)。AFiRe的核心思想是将解剖一致性与视觉变换器的独特标记处理特性相结合。具体来说,AFiRe协同执行两种自监督方案:(i)基于标记的解剖指导对比学习,通过结构和类别一致性对齐图像标记,从而增强细粒度的空间解剖区分;(ii)像素级异常去除恢复,特别关注局部异常,从而通过详细的几何信息优化学习到的区分。此外,我们提出了合成病变掩码,以增强解剖多样性,同时保持内部一致性,这通常被传统数据增强方法(如裁剪和仿射变换)破坏。实验结果表明,AFiRe:(i)提供了稳健的解剖区分,与最先进的对比学习方法相比,实现了更具凝聚力的特征簇;(ii)表现出卓越的泛化能力,在有限标注的多标签分类任务中超越了7种放射影像特定的自监督方法;(iii)整合了细粒度信息,仅使用图像级标注即可实现精确的异常检测。

[50] 自监督增强前视声呐图像:通过特征空间转换和多帧融合弥合跨模态退化差距
标题: Self-Supervised Enhancement of Forward-Looking Sonar Images: Bridging Cross-Modal Degradation Gaps through Feature Space Transformation and Multi-Frame Fusion
作者: Zhisheng Zhang / Peng Zhang / Fengxiang Wang / Liangli Ma / Fuchun Sun
原文:   [英文]   [中文]  
备注: None
摘要:
增强前视声呐图像对于准确的水下目标检测至关重要。目前的深度学习方法主要依赖于使用模拟数据的监督训练,但由于难以获得高质量的真实配对数据,限制了这些方法的实际应用和泛化能力。尽管来自遥感的自监督方法在一定程度上缓解了数据短缺的问题,但它们忽视了声呐和遥感图像之间的跨模态退化差距。直接转移预训练权重往往导致声呐图像过于平滑、细节丢失和亮度不足。为了解决这个问题,我们提出了一种特征空间转换方法,将声呐图像从像素域映射到一个稳健的特征域,有效地弥合了退化差距。此外,我们的自监督多帧融合策略利用互补的帧间信息,自然地去除斑点噪声并增强目标区域的亮度。在三个自收集的真实世界前视声呐数据集上的实验表明,我们的方法显著优于现有方法,有效抑制噪声,保留细节边缘,并大幅提高亮度,展示了在水下目标检测应用中的强大潜力。

[51] 用于小样本类增量学习的自适应决策边界
标题: Adaptive Decision Boundary for Few-Shot Class-Incremental Learning
作者: Linhao Li / Yongzhang Tan / Siyuan Yang / Hao Cheng / Yongfeng Dong / Liang Yang
原文:   [英文]   [中文]  
备注: None
摘要:
少样本类增量学习(FSCIL)旨在从有限的训练样本中持续学习新类别,同时不遗忘先前学习的类别知识。传统的FSCIL方法通常在基础训练阶段通过大量训练样本构建一个稳健的特征提取器,并随后冻结该提取器,仅在后续的增量阶段微调分类器。然而,目前的策略主要关注防止灾难性遗忘,仅考虑新类别与基础类别之间的关系,而未关注每个类别的具体决策空间。为了解决这一挑战,我们提出了一种即插即用的自适应决策边界策略(ADBS),该策略与大多数FSCIL方法兼容。具体来说,我们为每个类别分配一个特定的决策边界,并在训练过程中自适应地调整这些边界,以最佳地优化每个阶段中类别的决策空间。此外,为了增强类别之间的区别性,我们采用了一种新的类间约束损失来优化每个类别的决策边界和原型。在CIFAR100、miniImageNet和CUB200三个基准上的大量实验表明,将我们的ADBS方法与现有的FSCIL技术结合使用显著提高了性能,达到了整体的最新水平。

[52] 深度学习在隐蔽密集预测中的应用
标题: Deep Learning in Concealed Dense Prediction
作者: Pancheng Zhao / Deng-Ping Fan / Shupeng Cheng / Salman Khan / Fahad Shahbaz Khan / David Clifton / Peng Xu / Jufeng Yang
原文:   [英文]   [中文]  
备注: Technique Report
摘要:
深度学习正在迅速发展,并且能够很好地处理常见的计算机视觉任务。随着模型规模、知识和推理能力的不断提高,现在是时候关注更复杂的视觉任务了。在本文中,我们介绍并回顾了一系列复杂任务,称为隐蔽密集预测(CDP),其在农业、工业等领域具有重要价值。CDP的内在特征是目标被隐藏在其周围环境中,因此要完全感知它们需要细粒度的表示、先验知识、辅助推理等。本文的贡献有三方面:(i)我们介绍了CDP任务的范围、特点和特定挑战,并强调了它们与一般视觉任务的本质区别。(ii)我们基于隐蔽对抗性开发了一种分类法,通过三个任务的实验总结了深度学习在CDP中的努力。我们比较了25种最先进的方法,涵盖了12个广泛使用的隐蔽数据集。(iii)我们讨论了CDP在大模型时代的潜在应用,并总结了6个潜在的研究方向。我们通过构建一个大规模多模态指令微调数据集CvpINST和一个隐蔽视觉感知代理CvpAgent,为CDP的未来发展提供了视角。

[53] 像头足类动物一样看:使用单色事件相机实现色彩视觉
标题: Seeing like a Cephalopod: Colour Vision with a Monochrome Event Camera
作者: Sami Arja / Nimrod Kruger / Alexandre Marcireau / Nicholas Owen Ralph / Saeed Afshar / Gregory Cohen
原文:   [英文]  
备注: 15 pages, 14 figures, 1 table. Accepted at CVPR 2025 (Workshop on Event-based Vision)
摘要:
头足类动物展现出独特的颜色辨别能力,尽管它们只有一种光感受器,而是依赖于其眼部光学和瞳孔形状引起的色差来感知光谱信息。我们从这种生物机制中汲取灵感,设计了一种结合球形透镜与事件相机的光谱成像系统。我们的方法依赖于一个电动系统来移动焦点位置,模拟头足类动物的自适应镜头运动。这种方法使我们能够在可见光和近红外光谱范围内实现波长依赖的聚焦,使事件成为光谱传感器。我们使用事件传感器和传统的帧传感器来表征色差效应,验证了仿生光谱辨别在模拟和实际设置中的有效性,并评估了光谱辨别性能。我们提出的方法提供了一种无需传统彩色滤光片或计算解码的强大光谱传感能力。这种方法为受自然进化解决方案启发的新光谱传感系统开辟了新的途径。代码和分析可在此网址获取:this https URL

[54] DMPT:用于多模态对象重新识别的解耦模态感知提示微调
标题: DMPT: Decoupled Modality-aware Prompt Tuning for Multi-modal Object Re-identification
作者: Minghui Lin / Shu Wang / Xiang Wang / Jianhua Tang / Longbin Fu / Zhengrong Zuo / Nong Sang
原文:   [英文]   [中文]  
备注: 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)
摘要:
当前基于大规模预训练骨干网络(如ViT)的多模态目标重识别方法显示出显著的进展并取得了优异的性能。然而,这些方法通常采用标准的全量微调范式,需要优化大量的骨干网络参数,导致计算和存储需求非常高。在这项工作中,我们提出了一种高效的提示微调框架,专为多模态目标重识别设计,称为DMPT。该框架冻结了主要的骨干网络,仅优化一些新添加的解耦模态感知参数。具体来说,我们将视觉提示显式解耦为模态特定提示,这些提示利用来自强大文本编码器的先验模态知识,以及模态无关的语义提示,这些提示从多模态输入中提取语义信息,如可见光、近红外和热红外。在提取的特征基础上,我们进一步设计了一种提示逆绑定(PromptIBind)策略,该策略使用绑定提示作为媒介连接不同模态的语义提示标记,并促进互补多模态信息的交换,从而提升最终的重识别结果。多个常用基准上的实验结果表明,我们的DMPT可以在仅需微调6.5%骨干网络参数的情况下,达到与现有最先进方法相媲美的结果。

[55] PraNet-V2:用于医学图像分割的双重监督反向注意力
标题: PraNet-V2: Dual-Supervised Reverse Attention for Medical Image Segmentation
作者: Bo-Cheng Hu / Ge-Peng Ji / Dian Shao / Deng-Ping Fan
原文:   [英文]   [中文]  
备注: Technical report (4 tables 3 figures 8 pages)
摘要:
准确的医学图像分割对于有效的诊断和治疗至关重要。此前,提出了PraNet-V1,通过引入利用背景信息的反向注意(RA)模块来增强息肉分割。然而,PraNet-V1在多类别分割任务中表现不佳。为了解决这一限制,我们提出了PraNet-V2,与PraNet-V1相比,能够有效地执行更广泛的任务,包括多类别分割。PraNet-V2的核心是双监督反向注意(DSRA)模块,该模块结合了显式背景监督、独立背景建模和语义丰富的注意力融合。我们的PraNet-V2框架在四个息肉分割数据集上表现出色。此外,通过将DSRA集成到三个最先进的语义分割模型中以迭代增强前景分割结果,我们在平均Dice分数上实现了高达1.36%的提升。代码可在此https URL获取。

[56] TMCIR:令牌合并有利于组合图像检索
标题: TMCIR: Token Merge Benefits Composed Image Retrieval
作者: Chaoyang Wang / Zeyu Zhang / Long Teng / Zijun Li / Shichao Kan
原文:   [英文]   [中文]  
备注: None
摘要:
组合图像检索(CIR)通过结合参考图像和描述所需修改的文本的多模态查询来检索目标图像。主要挑战在于如何有效融合这些视觉和文本信息。目前的跨模态特征融合方法在意图解释上存在固有偏差。这些方法往往过度强调参考图像特征(视觉主导融合)或文本修改意图(通过图像到文本转换实现的文本主导融合)。这种不平衡的表示通常无法在检索结果中准确捕捉和反映用户的实际搜索意图。为了解决这一挑战,我们提出了TMCIR,一个通过两个关键创新推进组合图像检索的新框架:1)意图感知的跨模态对齐。我们首先使用意图反映的伪目标图像对CLIP编码器进行对比微调,这些伪目标图像是通过扩散模型从参考图像和文本描述合成的。此步骤增强了编码器捕捉文本描述中细微意图的能力。2)自适应令牌融合。我们进一步通过将自适应令牌融合特征与目标图像进行比较来对所有编码器进行对比微调。此机制在对比学习管道中动态平衡视觉和文本表示,优化组合特征以进行检索。在Fashion-IQ和CIRR数据集上的大量实验表明,TMCIR在捕捉用户细微意图方面显著优于最先进的方法。

[57] MediSee:基于推理的医学图像像素级感知
标题: MediSee: Reasoning-based Pixel-level Perception in Medical Images
作者: Qinyue Tong / Ziqian Lu / Jun Liu / Yangming Zheng / Zheming Lu
原文:   [英文]  
备注: 10 pages, 6 figures
摘要:
尽管在像素级医学图像感知方面取得了显著进展,现有的方法要么局限于特定任务,要么严重依赖于准确的边界框或文本标签作为输入提示。然而,输入所需的医学知识对于普通大众来说是一个巨大的障碍,这大大降低了这些方法的普遍性。与这些领域专用的辅助信息相比,一般用户往往依赖于需要逻辑推理的口头查询。在本文中,我们引入了一项新的医学视觉任务:医学推理分割和检测(MedSD),旨在理解关于医学图像的隐含查询,并为目标对象生成相应的分割掩码和边界框。为完成此任务,我们首先引入了一个多视角、逻辑驱动的医学推理分割和检测(MLMR-SD)数据集,其中包含大量医学实体目标及其相应的推理。此外,我们提出了MediSee,一个为医学推理分割和检测设计的有效基线模型。实验结果表明,所提出的方法能够有效地处理带有隐含口语查询的MedSD,并优于传统的医学指代分割方法。

[58] GATE3D:基于广义注意力的三维任务协同估计
标题: GATE3D: Generalized Attention-based Task-synergized Estimation in 3D*
作者: Eunsoo Im / Jung Kwon Lee / Changhyun Jee
原文:   [英文]   [中文]  
备注: 9pages, 1 supple
摘要:
计算机视觉领域的新兴趋势强调开发能够同时解决多种不同任务的通用模型。这样的通用性通常需要在多领域数据集上进行联合训练,以确保有效的泛化。然而,由于缺乏带有准确3D真实标签的数据集,尤其是在典型的基于道路的自动驾驶环境之外,单目3D目标检测在多领域训练中面临独特的挑战。为了解决这一挑战,我们引入了一种利用伪标签的新型弱监督框架。目前的预训练模型由于数据集固有的偏差,往往难以在非道路环境中准确检测行人。与通用的基于图像的2D目标检测模型不同,在单目3D检测中实现类似的泛化能力仍然很少被探索。在本文中,我们提出了GATE3D,这是一种专为通过弱监督实现通用单目3D目标检测而设计的新框架。GATE3D通过在2D和3D预测之间应用一致性损失,有效地弥合了领域差距。值得注意的是,我们的模型在KITTI基准测试以及我们收集的用于评估框架泛化能力的室内办公数据集上都取得了具有竞争力的性能。我们的结果表明,GATE3D通过有效的预训练策略显著加速了从有限标注数据中学习的过程,突显了其在机器人技术、增强现实和虚拟现实应用中更广泛影响的巨大潜力。项目页面:this https URL

[59] AnimeDL-2M:扩散时代百万规模AI生成动漫图像的检测与定位
标题: AnimeDL-2M: Million-Scale AI-Generated Anime Image Detection and Localization in Diffusion Era
作者: Chenyang Zhu / Xing Zhang / Yuyang Sun / Ching-Chun Chang / Isao Echizen
原文:   [英文]   [中文]  
备注: None
摘要:
最近在图像生成方面的进展,特别是扩散模型,显著降低了创建复杂伪造品的门槛,使得图像操纵检测和定位(IMDL)变得越来越具有挑战性。尽管之前的IMDL工作主要集中在自然图像上,但动漫领域仍然未被充分探索,尽管其对AI生成伪造品的脆弱性日益增加。将AI生成的图像误认为是手绘作品、侵犯版权以及不当内容修改对动漫社区和行业构成了严重威胁。为了解决这一空白,我们提出了AnimeDL-2M,这是第一个针对动漫IMDL的大规模基准,具有全面的注释。它包含了超过两百万张图像,包括真实的、部分操纵的和完全由AI生成的样本。实验表明,在现有自然图像IMDL数据集上训练的模型在应用于动漫图像时表现不佳,突显了动漫与自然图像之间的明显领域差距。为了更好地处理动漫领域的IMDL任务,我们进一步提出了AniXplore,这是一种针对动漫图像视觉特征量身定制的新模型。广泛的评估表明,AniXplore相比现有方法取得了更优异的性能。数据集和代码可以在这个https URL中找到。

[60] DRIFT开放数据集:用于城市环境交通分析的无人机衍生智能
标题: DRIFT open dataset: A drone-derived intelligence for traffic analysis in urban environmen
作者: Hyejin Lee / Seokjun Hong / Jeonghoon Song / Haechan Cho / Zhixiong Jin / Byeonghun Kim / Joobin Jin / Jaegyun Im / Byeongjoon Noh / Hwasoo Yeo
原文:   [英文]  
备注: 30 pages, 15 figures
摘要:
可靠的交通数据对于理解城市交通流动性和制定有效的交通管理策略至关重要。本研究介绍了DRone-derived Intelligence For Traffic analysis (DRIFT) 数据集,这是一个通过系统化收集的无人机视频在约250米高空拍摄的,覆盖韩国大田市九个相互连接的交叉路口的大规模城市交通数据集。DRIFT提供了高分辨率的车辆轨迹数据,包括方向信息,这些数据通过视频同步和正射影像对齐处理,形成了一个包含81,699条车辆轨迹的综合数据集。通过我们的DRIFT数据集,研究人员可以同时在多个尺度上分析交通——从个别车辆的变道等操作和碰撞时间等安全指标,到跨越相互连接的城市交叉路口的整体网络流动态。DRIFT数据集的结构设计使其可以直接使用,无需额外的预处理,并配有用于目标检测和轨迹提取的开源模型以及相关的分析工具。DRIFT预计将在学术研究和实际应用中,如交通流分析和模拟研究,做出显著贡献。该数据集和相关资源可通过此https URL公开获取。

[61] Easy3D:一种简单而有效的3D交互式分割方法
标题: Easy3D: A Simple Yet Effective Method for 3D Interactive Segmentation
作者: Andrea Simonelli / Norman Müller / Peter Kontschieder
原文:   [英文]   [中文]  
备注: None
摘要:
数字化3D环境的日益普及,无论是通过基于图像的3D重建、生成,还是通过机器人获取的扫描,正在推动各类应用的创新。这些环境对3D交互有着显著的需求,例如3D交互分割,这对于对象选择和操作等任务非常有用。此外,始终需要高效、精确且在不同环境中表现良好的解决方案,特别是在未见过的环境和不熟悉的对象中。在这项工作中,我们介绍了一种3D交互分割方法,该方法在域内和域外数据集上均持续超越之前的最先进技术。我们简单的方法结合了基于体素的稀疏编码器和轻量级的基于变压器的解码器,实施隐式点击融合,实现了卓越的性能并最大化了效率。我们的方法在基准数据集上表现出显著的改进,包括ScanNet、ScanNet++、S3DIS和KITTI-360,以及在未见过的几何分布上,如通过高斯喷溅获得的分布。项目网页可通过此URL访问。

[62] 使用扩散模型防御基于频率的攻击
标题: Defending Against Frequency-Based Attacks with Diffusion Models
作者: Fatemeh Amerehi / Patrick Healy
原文:   [英文]  
备注: Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 5th Workshop on Adversarial Machine Learning in Computer Vision: Foundation Models + X
摘要:
对抗训练是一种常见策略,用于增强模型对抗攻击的鲁棒性。然而,它通常针对训练时的特定攻击类型进行调整,限制了其对未见威胁模型的泛化能力。对抗净化提供了一种替代方案,通过利用生成模型在分类之前去除扰动。由于净化器的训练独立于分类器和威胁模型,它更能应对以前未见的攻击场景。扩散模型在噪声净化方面表现出色,不仅能对抗像素级对抗扰动,还能解决非对抗性数据偏移。在这项研究中,我们将重点从像素级鲁棒性扩展到探索净化在多大程度上可以减轻光谱和空间对抗攻击。我们的研究结果突出了其在处理从低频到高频区域的多样化失真模式方面的有效性。

[63] QAVA:对大型视觉语言模型的查询无关视觉攻击
标题: QAVA: Query-Agnostic Visual Attack to Large Vision-Language Models
作者: Yudong Zhang / Ruobing Xie / Jiansheng Chen / Xingwu Sun / Zhanhui Kang / Yu Wang
原文:   [英文]   [中文]  
备注: Accepted by NAACL 2025 main
摘要:
在典型的多模态任务中,例如视觉问答(VQA),针对特定图像和问题的对抗性攻击可能导致大型视觉语言模型(LVLMs)提供错误答案。然而,一个图像通常与多个问题相关联,即使是被特定问题攻击的对抗性图像,LVLMs仍可能正确回答其他问题。为了解决这个问题,我们引入了查询无关视觉攻击(QAVA),其目标是创建能够对未指定和未知问题生成错误响应的鲁棒对抗性样本。与传统的针对特定图像和问题的对抗性攻击相比,QAVA显著增强了在问题未知时对图像的攻击效果和效率,达到了与针对已知目标问题的攻击相当的性能。我们的研究拓宽了在实际环境中对LVLMs进行视觉对抗性攻击的范围,揭示了之前被忽视的漏洞,特别是在视觉对抗性威胁的背景下。代码可在此URL获取。

[64] 利用大型语言模型和注意力机制对历史地图进行自动标注
标题: Leveraging LLMs and attention-mechanism for automatic annotation of historical maps
作者: Yunshuang Yuan / Monika Sester
原文:   [英文]  
备注: None
摘要:
历史地图是提供过去地理景观洞察的重要资源。它们作为历史、地理和城市研究等学科研究人员的宝贵工具,有助于重建历史环境和分析随时间变化的空间转变。然而,当限于模拟或扫描格式时,它们的解释仅限于人类,因此无法扩展。最近在机器学习领域,特别是计算机视觉和大型语言模型(LLMs)方面的进展,为自动识别和分类历史地图中的特征和对象开辟了新途径。在本文中,我们提出了一种新颖的蒸馏方法,该方法利用LLMs和注意力机制对历史地图进行自动标注。LLMs用于为低分辨率的历史图像块生成粗略的分类标签,而注意力机制则用于将这些标签细化到更高的分辨率。实验结果表明,细化后的标签实现了超过90%的高召回率。此外,木材的交并比(IoU)得分为84.2%,定居点为72.0%,以及精确度得分分别为87.1%和79.5%,表明大多数标签与真实标注高度一致。值得注意的是,这些结果是在训练过程中未使用细粒度人工标签的情况下实现的,强调了我们的方法在高效和可扩展的历史地图分析中的潜力。

[65] Crane:用于零样本异常检测的上下文引导提示学习和注意力优化
标题: Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections
作者: Alireza Salehi / Mohammadreza Salehi / Reshad Hosseini / Cees G. M. Snoek / Makoto Yamada / Mohammad Sabokrou
原文:   [英文]   [中文]  
备注: None
摘要:
异常检测(AD)涉及识别偏离正常数据分布的情况,在医疗诊断和工业缺陷检测等领域至关重要。传统的异常检测方法通常需要正常训练样本的可用性;然而,这一假设并不总是可行,因为收集此类数据可能不切实际。此外,这些方法通常难以在不同领域之间进行泛化。最近的进展,如AnomalyCLIP和AdaCLIP,利用了CLIP的零样本泛化能力,但在图像级和像素级异常检测之间仍存在性能差距。为了解决这一差距,我们提出了一种新方法,该方法基于从视觉编码器提取的图像上下文来调整文本编码器的提示。此外,为了更有效地捕捉细粒度的变化,我们修改了CLIP视觉编码器并改变了密集特征的提取。这些变化确保了特征在正常和异常提示中保留更丰富的空间和结构信息。我们的方法在14个数据集的不同指标上实现了最先进的性能,性能提高了2%到29%。这证明了其在图像级和像素级异常检测中的有效性。

[66] UKDM:使用水下图像增强技术进行水下关键点检测与匹配
标题: UKDM: Underwater keypoint detection and matching using underwater image enhancement techniques
作者: Pedro Diaz-Garcia / Felix Escalona / Miguel Cazorla
原文:   [英文]   [中文]  
备注: None
摘要:
本文旨在探讨水下图像增强技术在提高关键点检测和匹配方面的应用。通过应用先进的深度学习模型,包括生成对抗网络和卷积神经网络,我们旨在找到最佳方法,以提高关键点检测的准确性和匹配算法的鲁棒性。我们在各种水下数据集上评估这些技术的性能,结果显示相比传统方法有显著提升。

[67] 通过在个人验证阶段集成的方法来提高指纹呈现攻击检测
标题: Improving fingerprint presentation attack detection by an approach integrated into the personal verification stage
作者: Marco Micheletto / Giulia Orrù / Luca Ghiani / Gian Luca Marcialis
原文:   [英文]   [中文]  
备注: This work has been submitted to the IEEE for possible publication
摘要:
演示攻击检测(PAD)系统通常是独立于指纹验证系统设计的。虽然在某些用户模板未预先确定的用例中这可以接受,但在可以将PAD与指纹验证系统集成以显著利用用户模板(即潜在演示攻击的真正目标)的场景中,这代表了一个提升安全性的机会。这并不意味着PAD应该专门为这些用户设计;那将意味着需要许多已注册用户的PAI,从而增加复杂性、时间和成本。相反,我们建议为根据现有技术设计的基本PAD配备一个创新的附加模块,称为接近二进制代码(CC)模块。“接近”一词指的是与真实特征相关的一个特殊属性:在欧几里得特征空间中,真实指纹往往聚集成特定的模式。首先,同一手指的样本彼此接近,然后是同一用户其他手指的样本,最后是其他用户手指的样本。我们在之前的出版物中统计验证了这一特性,并在本文中进一步确认。它与用户群体和特征集类别无关,可以是手工制作的或基于深度网络的(嵌入)。因此,附加模块可以在不需要目标用户样本的情况下设计;此外,它在验证阶段利用了其样本的“接近”特性。在基准数据集和最先进的PAD方法上的大量实验证实了所提出附加模块的好处,该模块可以轻松与集成到指纹验证系统中的主要PAD模块结合。

[68] 用于遥感变化检测的变化状态空间模型
标题: Change State Space Models for Remote Sensing Change Detection
作者: Elman Ghazaei / Erchan Aptoula
原文:   [英文]   [中文]  
备注: None
摘要:
尽管卷积神经网络(ConvNets)和视觉变换器(ViT)经常用于变化检测,但它们都有众所周知的局限性:前者难以建模长距离依赖关系,而后者在计算上效率低下,使得在大规模数据集上训练变得具有挑战性。基于状态空间模型的架构 Vision Mamba 已经作为一种替代方案出现,解决了上述缺陷,并已应用于遥感变化检测,尽管主要作为特征提取的骨干。在本文中,引入了专门为变化检测设计的变化状态空间模型,通过关注双时相图像之间的相关变化,有效过滤掉无关信息。通过仅关注变化的特征,减少了网络参数的数量,显著提高了计算效率,同时保持了高检测性能和对输入退化的鲁棒性。所提出的模型通过三个基准数据集进行了评估,在计算复杂度仅为其一小部分的情况下,性能优于 ConvNets、ViTs 和基于 Mamba 的对手。该实现将在接受后通过此 https URL 提供。

[69] Vivid4D:通过视频修复改善单目视频的四维重建
标题: Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting
作者: Jiaxin Huang / Sheng Miao / BangBnag Yang / Yuewen Ma / Yiyi Liao
原文:   [英文]   [中文]  
备注: None
摘要:
从随意拍摄的单目视频中重建四维动态场景是有价值但极具挑战性的,因为每个时间戳仅从单一视角观察。我们介绍了一种新方法Vivid4D,通过增强观察视角来提升四维单目视频合成——从单目输入中合成多视角视频。与现有方法仅利用几何先验进行监督或使用生成先验而忽略几何不同,我们将两者结合。这将视角增强重新表述为视频修复任务,其中观察到的视角基于单目深度先验被扭曲到新的视点。为此,我们在未标定的网络视频上训练了一个视频修复模型,使用合成生成的掩码来模拟扭曲遮挡,确保空间和时间上一致地完成缺失区域。为了进一步减轻单目深度先验中的不准确性,我们引入了迭代视角增强策略和稳健的重建损失。实验表明,我们的方法有效地改善了单目四维场景的重建和补全。

[70] 共识熵:利用多视觉语言模型一致性进行自验证和自改进的光学字符识别
标题: Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR
作者: Yulong Zhang / Tianyi Liang / Xinyue Huang / Erfei Cui / Xu Guo / Pei Chu / Chenhui Li / Ru Zhang / Wenhai Wang / Gongshen Liu
原文:   [英文]   [中文]  
备注: None
摘要:
光学字符识别(OCR)任务对于评估视觉语言模型(VLMs)和为大型语言模型(LLM)训练数据提供高质量数据源非常重要。尽管最先进的VLMs显示出平均OCR准确性的提高,但它们在样本级别的质量下降方面仍然存在困难,并且缺乏可靠的自动检测低质量输出的方法。我们引入了一种名为共识熵(CE)的方法,这是一种无需训练的推断后方法,通过聚合多个VLM的输出来量化OCR的不确定性。我们的方法利用了一个关键见解:正确的VLM OCR预测在输出空间中趋于收敛,而错误则趋于发散。我们开发了一个轻量级的多模型框架,可以有效识别有问题的样本,选择最佳输出并结合模型的优势。在多个OCR基准和VLMs上的实验表明,CE在相同成本下优于VLM-as-judge方法和单模型基线,并在多个指标上实现了最先进的结果。例如,我们的解决方案在质量验证中比VLM-as-judge方法高出15.2%的F1分数,在数学计算任务中提高了6.0%的准确性,并且在保持整体性能的同时仅需重新措辞7.3%的输入。值得注意的是,整个过程既不需要训练也不需要监督,同时在整个过程中保持即插即用的功能。

[71] 用于破解文本到图像模型的令牌级约束边界搜索
标题: Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models
作者: Jiangtao Liu / Zhaoxin Wang / Handing Wang / Cong Tian / Yaochu Jin
原文:   [英文]   [中文]  
备注: None
摘要:
最近在文本到图像(T2I)生成方面的进展显著提升了生成图像的真实感和创造性。然而,这种强大的生成能力也带来了生成不当或有害内容的风险。现有的防御机制,包括提示检查器和事后图像检查器,容易受到复杂的对抗性攻击。在这项工作中,我们提出了TCBS-Attack,这是一种新颖的基于查询的黑箱越狱攻击,它通过搜索位于文本和图像检查器定义的决策边界附近的标记来实现。通过迭代优化这些边界附近的标记,TCBS-Attack生成语义连贯的对抗性提示,能够绕过T2I模型中的多个防御层。大量实验表明,我们的方法在各种T2I模型上始终优于最先进的越狱攻击,包括安全训练的开源模型和商业在线服务如DALL-E 3。TCBS-Attack在破解全链T2I模型时实现了45%的ASR-4和21%的ASR-1,显著超越了基线方法。

[72] S$^2$Teacher:用于稀疏标注的定向目标检测的逐步教师
标题: S$^2$Teacher: Step-by-step Teacher for Sparsely Annotated Oriented Object Detection
作者: Yu Lin / Jianghang Lin / Kai Ye / You Shen / Yan Zhang / Shengchuan Zhang / Liujuan Cao / Rongrong Ji
原文:   [英文]   [中文]  
备注: None
摘要:
尽管全监督的定向目标检测在多模态遥感图像理解方面取得了显著进展,但其代价是需要进行劳动密集型的标注。最近的研究探索了弱监督和半监督学习以减轻这一负担。然而,这些方法忽视了复杂遥感场景中密集标注所带来的困难。在本文中,我们引入了一种称为稀疏标注定向目标检测(SAOOD)的新设置,该设置仅标注部分实例,并提出了解决其挑战的方案。具体来说,我们关注该设置中的两个关键问题:(1)稀疏标注导致对有限的前景表示过拟合,以及(2)未标注的对象(假阴性)混淆特征学习。为此,我们提出了S$^2$Teacher,一种新颖的方法,逐步从易到难挖掘未标注对象的伪标签,以增强前景表示。此外,它重新加权未标注对象的损失,以减轻其在训练期间的影响。大量实验表明,S$^2$Teacher不仅显著提高了检测器在不同稀疏标注水平上的性能,而且在DOTA数据集上仅使用10%的标注实例就实现了接近全监督的性能,有效地平衡了检测准确性与标注效率。代码将公开。

[73] 用于生物医学图像显著性目标检测的轻量级FLIM网络
标题: Flyweight FLIM Networks for Salient Object Detection in Biomedical Images
作者: Leonardo M. Joao / Jancarlo F. Gomes / Silvio J. F. Guimaraes / Ewa Kijak / Alexandre X. Falcao
原文:   [英文]   [中文]  
备注: None
摘要:
显著目标检测(SOD)使用深度学习通常需要大量的计算资源和大规模的标注数据集,这使得在资源受限的应用中不切实际。轻量级模型可以解决计算需求,但在复杂和稀缺标注数据的场景中通常表现不佳。图像标记特征学习(FLIM)通过从标记在少数代表性图像上的判别区域中提取的图像块中学习编码器的卷积核,避免了对大规模标注数据集、预训练和反向传播的依赖。这种方法利用了生物医学图像应用中常见的信息冗余。本研究提出了在FLIM网络中无需反向传播学习膨胀-可分离卷积核和多膨胀层的方法。它还提出了一种新的网络简化方法,以减少核冗余和编码器大小。通过将FLIM编码器与自适应解码器结合,这一概念最近被引入以估计每张图像的逐点卷积,本研究提出了用于生物医学图像的非常高效(称为超轻量级)的SOD模型。在具有挑战性的数据集上的实验结果表明,与轻量级模型相比,效率和效果更优。通过显著减少参数和浮点运算,结果显示出与重量级模型相当的效果。这些进展突显了FLIM网络在信息冗余的数据有限和资源受限应用中的潜力。

[74] 利用多模态卫星影像的K均值增强密度梯度分析用于城市和交通指标
标题: K-means Enhanced Density Gradient Analysis for Urban and Transport Metrics Using Multi-Modal Satellite Imagery
作者: P. Tomkiewicz / J. Jaworski / P. Zielonka / A. Wilinski
原文:   [英文]   [中文]  
备注: 16 pages, 6 figures
摘要:
本文提出了一种新颖的计算方法,通过使用多模态卫星影像进行密度梯度分析来评估城市指标,应用包括公共交通和其他城市系统。通过结合光学和合成孔径雷达(SAR)数据,我们开发了一种方法来分割城市区域,识别城市中心,并量化密度梯度。我们的方法计算了两个关键指标:密度梯度系数($\alpha$)和密度达到目标阈值的最小有效距离(LD)。我们进一步采用机器学习技术,特别是K均值聚类,客观地识别密度梯度图中的均匀和高变异区域。我们证明这些指标通过揭示潜在的城市结构,为公共交通分析提供了有效的筛选工具。通过对两个具有不同城市形态(单中心与多中心)的代表性城市进行比较分析,我们建立了密度梯度特征与公共交通网络拓扑之间的关系。在密度梯度图中具有明显密度峰值的城市表明存在不同的城市中心,需要不同的交通策略,而那些密度分布更均匀的城市则不然。这种方法为城市规划者提供了一种成本效益高、全球适用的初步公共交通评估方法,使用免费提供的卫星数据。完整的实现,包括额外的示例和文档,可在MIT许可证下的开源库中获取,网址为此https URL。

[75] 利用非视觉辅助信息进行视觉重排序
标题: Visual Re-Ranking with Non-Visual Side Information
作者: Gustav Hanning / Gabrielle Flood / Viktor Larsson
原文:   [英文]   [中文]  
备注: Accepted at Scandinavian Conference on Image Analysis (SCIA) 2025
摘要:
视觉位置识别的标准方法是使用全局图像描述符来检索与给定查询图像最相似的数据库图像。然后可以通过重新排序方法进一步改进结果,这些方法会重新排序得分最高的图像。然而,现有方法主要关注基于用于初始检索的相同图像描述符进行重新排序,我们认为这提供了有限的附加信号。 在这项工作中,我们提出了一种称为广义上下文相似性聚合(GCSA)的重新排序方法,该方法基于图神经网络,除了视觉描述符外,还可以利用其他类型的可用辅助信息。这些信息可以是其他传感器数据(例如附近WiFi或蓝牙端点的信号强度)或几何属性,例如数据库图像的相机姿态。在许多应用中,这些信息已经存在或可以通过较小的努力获取。我们的架构利用亲和向量的概念,允许对异构多模态输入进行共享编码。我们使用了两个大规模数据集,涵盖了室外和室内定位场景,用于训练和评估。在实验中,我们不仅在图像检索指标上显示了显著的改进,而且在下游视觉定位任务中也取得了显著的提升。

[76] 驯服一致性蒸馏以加速人像动画
标题: Taming Consistency Distillation for Accelerated Human Image Animation
作者: Xiang Wang / Shiwei Zhang / Hangjie Yuan / Yujie Wei / Yingya Zhang / Changxin Gao / Yuehuan Wang / Nong Sang
原文:   [英文]   [中文]  
备注: None
摘要:
最近,人像动画的进展受到视频扩散模型的推动,但这些模型依赖于大量迭代去噪步骤,导致推理成本高且速度慢。一个直观的解决方案是采用一致性模型,通过一致性蒸馏作为有效的加速范式。然而,简单地在人物图像动画中采用这一策略往往会导致质量下降,包括视觉模糊、运动退化和面部失真,尤其是在动态区域。在本文中,我们提出了DanceLCM方法,并辅以若干增强措施,以在低步数情况下改善视觉质量和运动连续性:(1) 分段一致性蒸馏,辅以一个轻量级辅助头,以结合来自真实视频潜变量的监督,减轻单一全轨迹生成导致的累积误差;(2) 以运动为中心的损失,专注于运动区域,并显式注入面部真实性特征以提高面部真实性。广泛的定性和定量实验表明,DanceLCM在仅需2-4次推理步骤的情况下,能够实现与最先进的视频扩散模型相媲美的结果,显著降低推理负担而不影响视频质量。代码和模型将公开发布。

[77] GC-GAT:使用图目标条件和跨上下文注意力的多模态车辆轨迹预测
标题: GC-GAT: Multimodal Vehicular Trajectory Prediction using Graph Goal Conditioning and Cross-context Attention
作者: Mahir Gulzar / Yar Muhammad / Naveed Muhammad
原文:   [英文]   [中文]  
备注: None
摘要:
预测周围车辆的未来轨迹在很大程度上依赖于运动预测模型所提供的上下文信息。上下文本身可以是静态的(车道、法规元素等)或动态的(交通参与者)。本文提出了一种基于车道图的运动预测模型,该模型首先预测基于图的目标提议,然后通过跨多种上下文元素的注意力机制将其融合。我们遵循著名的编码器-交互器-解码器架构,其中编码器使用轻量级门控循环单元对场景上下文进行编码,交互器对编码的场景特征和图目标提议应用跨上下文注意力,解码器通过拉普拉斯混合密度网络从聚合编码中回归多模态轨迹。通过对基于图的目标提议进行跨注意力处理,模型能够提供稳健的轨迹估计,因为模型学会关注与目标代理相关的未来目标场景元素。我们在nuScenes运动预测数据集上评估了我们的工作,取得了最先进的结果。

[78] 利用潜在扩散进行地球观测的SAR到RGB转换
标题: SAR-to-RGB Translation with Latent Diffusion for Earth Observation
作者: Kaan Aydin / Joelle Hanna / Damian Borth
原文:   [英文]   [中文]  
备注: 10 pages, 3 figures
摘要:
地球观测卫星如Sentinel-1 (S1)和Sentinel-2 (S2)提供了互补的遥感数据,但由于云层覆盖或数据缺失,S2图像常常不可用。为了解决这个问题,我们提出了一种基于扩散模型(DM)的SAR到RGB转换方法,从SAR输入生成合成光学图像。我们探讨了三种不同的设置:两种使用标准扩散,通过添加和去除噪声重建S2图像(其中一种不使用类别条件,另一种使用类别条件),以及一种使用冷扩散,将S2与S1混合后去除SAR信号。我们在下游任务中评估生成的图像,包括地表覆盖分类和云去除。虽然生成的图像可能无法完美复制真实的S2数据,但它们仍然提供了有价值的信息。我们的结果表明,类别条件提高了分类准确性,而云去除性能仍然具有竞争力,尽管我们的方法并未针对其进行优化。有趣的是,尽管感知质量较低,冷扩散设置在地表覆盖分类中表现良好,这表明传统的定量评估指标可能无法完全反映生成图像的实际实用性。我们的研究结果突显了在RGB图像缺失的遥感应用中,扩散模型在SAR到RGB转换中的潜力。

[79] DMAGaze:基于特征解耦和多尺度注意力的注视估计
标题: DMAGaze: Gaze Estimation Based on Feature Disentanglement and Multi-Scale Attention
作者: Haohan Chen / Hongjia Liu / Shiyong Lan / Wenwu Wang / Yixin Qiao / Yao Li / Guonan Deng
原文:   [英文]   [中文]  
备注: None
摘要:
凝视估计,即预测凝视方向,通常面临来自面部图像中复杂的与凝视无关信息的干扰。在这项工作中,我们提出了DMAGaze,一种新颖的凝视估计框架,通过三个方面利用面部图像信息:与凝视相关的全局特征(从面部图像中解缠),局部眼部特征(从裁剪的眼部区域提取),以及头部姿态估计特征,以提高整体性能。首先,我们设计了一种新的基于连续掩码的解缠器,通过分别重建眼部和非眼部区域,实现双分支解缠目标,准确地解缠面部图像中的与凝视相关和无关的信息。此外,我们引入了一个新的级联注意模块,称为多尺度全局局部注意模块(MS-GLAM)。通过定制的级联注意结构,它有效地在多个尺度上关注全局和局部信息,进一步增强来自解缠器的信息。最后,由上脸分支解缠的全局凝视相关特征,与头部姿态和局部眼部特征结合,通过检测头进行高精度凝视估计。我们提出的DMAGaze已在两个主流公共数据集上进行了广泛验证,达到了最先进的性能。

[80] TSAL:基于属性学习的少样本文本分割
标题: TSAL: Few-shot Text Segmentation Based on Attribute Learning
作者: Chenming Li / Chengxu Liu / Yuanting Fan / Xiao Jin / Xingsong Hou / Xueming Qian
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,监督学习在场景文本分割中迅速发展。然而,高质量数据集的缺乏和像素标注的高成本极大地限制了其发展。考虑到在下游任务中表现良好的少样本学习方法,我们研究了少样本学习方法在场景文本分割中的应用。我们提出了TSAL,它利用CLIP的先验知识来学习文本属性以进行分割。为了充分利用图像中的语义和纹理信息,提出了一种视觉引导分支,用于分别提取文本和背景特征。为了减少数据依赖性并提高文本检测的准确性,自适应提示引导分支采用有效的自适应提示模板来捕捉各种文本属性。为了使自适应提示能够捕捉到独特的文本特征和复杂的背景分布,我们提出了自适应特征对齐模块(AFA)。通过将不同属性的可学习标记与视觉特征和提示原型对齐,AFA使自适应提示能够捕捉到一般和独特的属性信息。TSAL能够捕捉文本的独特属性,并仅使用少量图像实现精确分割。实验表明,我们的方法在多种文本分割数据集的少样本设置下达到了SOTA性能,并在与文本相关的领域显示出巨大潜力。

[81] YOLO-RS:遥感增强作物检测方法
标题: YOLO-RS: Remote Sensing Enhanced Crop Detection Methods
作者: Linlin Xiao / Zhang Tiancong / Yutong Jia / Xinyu Nie / Mengyao Wang / Xiaohang Shao
原文:   [英文]   [中文]  
备注: None
摘要:
随着遥感技术的快速发展,基于深度学习的作物分类和健康检测逐渐成为研究热点。然而,现有的目标检测方法在处理遥感图像中的小目标时表现不佳,尤其是在复杂背景和图像混合的情况下,难以满足实际应用需求。为了解决这个问题,本文提出了一种新颖的目标检测模型YOLO-RS。该模型基于最新的Yolov11,通过引入上下文锚点注意力(CAA)机制和高效的多场多尺度特征融合网络,显著增强了小目标的检测能力。YOLO-RS在特征融合过程中采用双向特征融合策略,有效提升了模型在小目标检测中的性能。同时,模型主干网络末端的ACmix模块通过自适应调整对比度和样本混合,解决了类别不平衡问题,从而提高了复杂场景下的检测精度。在PDT遥感作物健康检测数据集和CWC作物分类数据集上的实验中,YOLO-RS相比现有的最先进方法,召回率和平均精度(mAP)均提高了约2-3%,同时F1分数也显著提升。此外,模型的计算复杂度仅增加了约5.2 GFLOPs,显示出其在性能和效率上的显著优势。实验结果验证了YOLO-RS在遥感图像小目标检测任务中的有效性和应用潜力。

[82] TerraMind:用于地球观测的大规模生成多模态
标题: TerraMind: Large-Scale Generative Multimodality for Earth Observation
作者: Johannes Jakubik / Felix Yang / Benedikt Blumenstiel / Erik Scheurer / Rocco Sedona / Stefano Maurogiovanni / Jente Bosmans / Nikolaos Dionelis / Valerio Marsocci / Niklas Kopp / Rahul Ramachandran / Paolo Fraccaro / Thomas Brunschwiler / Gabriele Cavallaro / Juan Bernabe-Moreno / Nicolas Longépé
原文:   [英文]  
备注: None
摘要:
我们介绍了TerraMind,这是第一个用于地球观测(EO)的任意到任意生成的多模态基础模型。与其他多模态模型不同,TerraMind在预训练时结合了跨模态的令牌级和像素级数据的双尺度表示。在令牌级别,TerraMind编码高层次的上下文信息以学习跨模态关系,而在像素级别,TerraMind利用细粒度表示来捕捉关键的空间细微差别。我们在一个全球大规模数据集的九种地理空间模态上对TerraMind进行了预训练。在本文中,我们展示了:(i) TerraMind的双尺度早期融合方法为地球观测解锁了一系列零样本和少样本应用,(ii) TerraMind引入了“模态思维”(TiM)——在微调和推理过程中生成额外人工数据以改善模型输出的能力,(iii) TerraMind在地球观测的社区标准基准测试中,如PANGAEA,达到了超越当前最先进水平的表现。预训练数据集、模型权重和我们的代码在宽松的许可下开源。

[83] TerraMesh:多模态地球观测数据的行星马赛克
标题: TerraMesh: A Planetary Mosaic of Multimodal Earth Observation Data
作者: Benedikt Blumenstiel / Paolo Fraccaro / Valerio Marsocci / Johannes Jakubik / Stefano Maurogiovanni / Mikolaj Czerkawski / Rocco Sedona / Gabriele Cavallaro / Thomas Brunschwiler / Juan Bernabe-Moreno / Nicolas Longépé
原文:   [英文]  
备注: None
摘要:
在地球观测领域,大规模基础模型可以通过利用大量未标记的数据来学习多功能、标签高效的表示。然而,现有的公共数据集通常在规模、地理覆盖范围或传感器多样性方面存在局限。我们介绍了TerraMesh,一个新的全球多样化、多模态数据集,它结合了光学、合成孔径雷达、海拔和土地覆盖模态,以分析就绪数据格式呈现。TerraMesh包含超过900万个样本,具有八种时空对齐的模态,能够进行大规模预训练并促进稳健的跨模态相关性学习。我们提供了详细的数据处理步骤、全面的统计数据以及实证证据,证明在TerraMesh上进行预训练可以提高模型性能。该数据集将以宽松的许可公开提供。

[84] 使用大型语言模型进行视频摘要
标题: Video Summarization with Large Language Models
作者: Min Jung Lee / Dayoung Gong / Minsu Cho
原文:   [英文]  
备注: Accepted to CVPR 2025
摘要:
视频内容的指数级增长在高效导航、搜索和检索方面带来了显著挑战,因此需要先进的视频摘要技术。现有的视频摘要方法严重依赖视觉特征和时间动态,往往无法捕捉视频内容的语义,导致摘要不完整或不连贯。为了解决这一挑战,我们提出了一种新的视频摘要框架,该框架利用了最新大型语言模型(LLMs)的能力,期望从海量数据中学习到的知识能够使LLMs以更符合多样化语义和人类判断的方式评估视频帧,有效解决定义关键帧时固有的主观性。我们的方法被称为基于LLM的视频摘要(LLMVS),通过多模态大型语言模型(M-LLM)将视频帧转换为一系列字幕,然后基于字幕在其局部上下文中使用LLM评估每个帧的重要性。这些局部重要性分数通过视频字幕的整体上下文中的全局注意机制进行优化,确保我们的摘要有效地反映细节和整体叙述。我们的实验结果表明,所提出的方法在标准基准测试中优于现有方法,突显了LLMs在多媒体内容处理中的潜力。

[85] 焦点分离:通过差分散焦实现独立快照深度
标题: Focal Split: Untethered Snapshot Depth from Differential Defocus
作者: Junjie Luo / John Mamish / Alan Fu / Thomas Concannon / Josiah Hester / Emma Alexander / Qi Guo
原文:   [英文]   [中文]  
备注: CVPR 2025, 8 pages, 7 figures
摘要:
我们介绍了一种名为Focal Split的手持式快照深度相机,该相机基于差分散焦深度(DfDD)技术,具有完全的机载电源和计算能力。Focal Split是被动的,避免了光源的功耗。其消色差光学系统同时形成场景的两个差分散焦图像,可以通过两个光传感器在一次快照中独立捕获。数据处理基于DfDD理论,从相机测量中每像素仅需500次浮点运算(FLOPs),即可高效计算出每个像素的深度和置信度值。我们展示了一个Focal Split原型,包括一个手持定制相机系统,连接到Raspberry Pi 5进行实时数据处理。该系统消耗4.9瓦功率,由一个5伏、10,000毫安时的电池供电。该原型可以测量距离为0.4米到1.2米的物体,使用未优化的Python脚本以2.1帧每秒(FPS)的速度输出480×360的稀疏深度图。Focal Split对DIY友好。关于如何构建您自己的Focal Split深度相机、代码和附加数据的综合指南可以在这个https URL找到。

[86] 3DAffordSplat:使用3D高斯进行高效可供性推理
标题: 3DAffordSplat: Efficient Affordance Reasoning with 3D Gaussians
作者: Zeming wei / Junyi Lin / Yang Liu / Weixing Chen / Jingzhou Luo / Guanbin Li / Liang Lin
原文:   [英文]   [中文]  
备注: The first large-scale 3D Gaussians Affordance Reasoning Benchmark
摘要:
3D可供性推理在将人类指令与3D对象的功能区域关联方面至关重要,促进了具身AI中的精确、任务导向的操作。然而,目前的方法主要依赖于稀疏的3D点云,由于对坐标变化的敏感性和数据固有的稀疏性,表现出有限的泛化能力和鲁棒性。相比之下,3D高斯喷溅(3DGS)通过将场景表示为密集、连续的分布,以最小的计算开销提供高保真、实时渲染。这使得3DGS成为捕捉细粒度可供性细节和提高识别准确性的极为有效的方法。然而,由于缺乏大规模、特定于3DGS的可供性数据集,其全部潜力仍未被充分利用。为克服这些限制,我们提出了3DAffordSplat,这是首个针对3DGS可供性推理的大规模、多模态数据集。该数据集包括23,677个高斯实例、8,354个点云实例和6,631个手动标注的可供性标签,涵盖21个对象类别和18种可供性类型。在此数据集的基础上,我们引入了AffordSplatNet,一种专门为使用3DGS表示进行可供性推理而设计的新模型。AffordSplatNet具有创新的跨模态结构对齐模块,利用结构一致性先验来对齐3D点云和3DGS表示,从而提高可供性识别的准确性。大量实验表明,3DAffordSplat数据集显著推动了3DGS领域内的可供性学习,而AffordSplatNet在已见和未见环境中均持续优于现有方法,突显其强大的泛化能力。

[87] CAP-Net:一种用于从单个RGB-D图像中估计类别化关节部件的6D姿态和尺寸的统一网络
标题: CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image
作者: Jingshun Huang / Haitao Lin / Tianyu Wang / Yanwei Fu / Xiangyang Xue / Yi Zhu
原文:   [英文]  
备注: To appear in CVPR 2025 (Highlight)
摘要:
本文研究机器人操作任务中关节物体的类别级姿态估计,并引入了一个新的基准数据集。尽管最近的方法在类别级别估计部件的姿态和尺寸,但它们通常依赖于几何线索和复杂的多阶段流程,首先从点云中分割部件,然后进行标准化部件坐标空间(NPCS)估计以获得6D姿态。这些方法忽视了来自RGB图像的密集语义线索,导致准确性不佳,特别是对于具有小部件的物体。为了解决这些限制,我们提出了一种单阶段网络CAP-Net,用于估计类别关节部件的6D姿态和尺寸。该方法结合RGB-D特征,以端到端的方式为每个部件生成实例分割和NPCS表示。CAP-Net使用统一网络同时预测点级类别标签、质心偏移和NPCS图。然后,聚类算法根据估计的质心距离对同一预测类别的点进行分组,以隔离每个部件。最后,每个部件的NPCS区域与点云对齐,以恢复其最终的姿态和尺寸。为了弥合模拟到现实的领域差距,我们引入了RGBD-Art数据集,这是迄今为止最大的RGB-D关节数据集,具有从真实传感器模拟的逼真RGB图像和深度噪声。在RGBD-Art数据集上的实验评估表明,我们的方法显著优于最先进的方法。我们的模型在机器人任务中的实际部署强调了其鲁棒性和卓越的模拟到现实转移能力,证实了其巨大的实用价值。我们的数据集、代码和预训练模型可在项目页面上获取。

[88] 利用多模态解释性注释和特定模态数据集进行视频解读
标题: Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset
作者: Elisa Ancarani / Julie Tores / Lucile Sassatelli / Rémy Sun / Hui-Yin Wu / Frédéric Precioso
原文:   [英文]   [中文]  
备注: 6 pages, 8 Figures
摘要:
我们研究了基于概念的监督对多模态视频解释模型的影响,使用了MOByGaze数据集,该数据集包含人工标注的解释性概念。我们引入了概念模态特定数据集(CMSDs),这些数据集由根据标注概念的模态(视觉、文本或音频)分类的数据子集组成。在CMSDs上训练的模型在早期和晚期融合方法中均优于使用传统遗留训练的模型。值得注意的是,这种方法使得晚期融合模型能够达到接近早期融合模型的性能。这些发现强调了模态特定标注在开发稳健的、自我解释的视频模型中的重要性,并有助于推进复杂视频分析中的可解释多模态学习。

[89] 通过多模态融合和注意机制增强小目标检测:一种YOLOv5方法
标题: Enhanced Small Target Detection via Multi-Modal Fusion and Attention Mechanisms: A YOLOv5 Approach
作者: Xiaoxiao Ma / Junxiong Tong
原文:   [英文]   [中文]  
备注: Accepted by ATC 2024
摘要:
随着信息技术的快速发展,现代战争越来越依赖情报,这使得小目标检测在军事应用中变得至关重要。对高效、实时检测的日益增长的需求,由于干扰,在复杂环境中识别小目标面临挑战。为了解决这个问题,我们提出了一种基于多模态图像融合和注意力机制的小目标检测方法。该方法利用YOLOv5,结合红外和可见光数据以及卷积注意力模块来增强检测性能。该过程首先通过特征点匹配进行多模态数据集的配准,确保网络训练的准确性。通过将红外和可见光特征与注意力机制相结合,模型提高了检测的准确性和鲁棒性。在反无人机和Visdrone数据集上的实验结果证明了我们方法的有效性和实用性,实现了对小而暗目标的卓越检测效果。

[90] 单输入多输出模型合并:利用基础模型进行密集多任务学习
标题: Single-Input Multi-Output Model Merging: Leveraging Foundation Models for Dense Multi-Task Learning
作者: Juan Garcia Giraldo / Nikolaos Dimitriadis / Ke Wang / Pascal Frossard
原文:   [英文]   [中文]  
备注: 22 pages, 6 figures
摘要:
模型合并是一种灵活且计算上可行的方法,用于将单任务检查点合并为多任务模型。先前的研究仅关注于受限的多任务设置,其中样本与任务之间存在一对一的映射,忽视了多个任务可能在同一样本上操作的范式,例如场景理解。在本文中,我们专注于单输入多输出(SIMO)的多任务设置,并表明由于任务特定解码器和多样的损失目标的存在,它与文献中研究的单输入单输出模型合并设置在质上有所不同。我们发现现有的模型合并方法导致显著的性能下降,主要是由于合并后的编码器与任务特定解码器之间的表示不对齐。我们为SIMO设置提出了两种简单且高效的修正方法,以在合并后重新对齐特征表示。与联合微调相比,我们的方法在计算上更有效且灵活,并为离线识别任务关系提供了启示。在NYUv2、Cityscapes和Taskonomy数据集的一个子集上的实验表明:(1)任务算术足以实现多任务能力;然而,合并编码器生成的表示必须与任务特定的头重新对齐;(2)所提出的架构在性能上可与传统的多任务学习相媲美,但通过利用任务特定模型的存在,所需的样本和训练步骤更少。

[91] 蒸馏监督的卷积低秩适应用于高效图像超分辨率
标题: Distillation-Supervised Convolutional Low-Rank Adaptation for Efficient Image Super-Resolution
作者: Xinning Chai / Yao Zhang / Yuxuan Zhang / Zhengxue Cheng / Yingsheng Qin / Yucai Yang / Li Song
原文:   [英文]  
备注: None
摘要:
卷积神经网络(CNNs)已广泛应用于高效图像超分辨率。然而,对于基于CNN的方法来说,性能提升通常需要更深的网络和更大的特征图,这增加了复杂性和推理成本。受LoRA在微调大型语言模型中成功的启发,我们探索了其在轻量级模型中的应用,并提出了蒸馏监督卷积低秩适应(DSCLoRA),在不增加架构复杂性或推理成本的情况下提高模型性能。具体来说,我们通过用提出的SConvLB模块替换SPAB模块,并将ConvLoRA层集成到像素重排块及其前面的卷积层中,将ConvLoRA集成到高效的SR网络SPAN中。DSCLoRA利用低秩分解进行参数更新,并采用基于空间特征亲和性的知识蒸馏策略,将教师模型(预训练的SPAN)的二阶统计信息传递给学生模型(我们的模型)。该方法保留了轻量级模型的核心知识,并在某些条件下促进了最优解的发现。在基准数据集上的实验表明,DSCLoRA在保持SPAN的效率和竞争性图像质量的同时,提高了PSNR和SSIM。值得注意的是,DSCLoRA在NTIRE 2025高效超分辨率挑战赛的整体性能赛道中排名第一。我们的代码和模型已在此https URL上公开。

[92] UniAnimate-DiT:基于大规模视频扩散变换器的人像图像动画
标题: UniAnimate-DiT: Human Image Animation with Large-Scale Video Diffusion Transformer
作者: Xiang Wang / Shiwei Zhang / Longxiang Tang / Yingya Zhang / Changxin Gao / Yuehuan Wang / Nong Sang
原文:   [英文]   [中文]  
备注: The training and inference code (based on Wan2.1) is available at this https URL
摘要:
本报告介绍了UniAnimate-DiT,这是一个利用开源Wan2.1模型的尖端和强大功能来实现一致性人像动画的高级项目。具体来说,为了保持原始Wan2.1模型的强大生成能力,我们实施了低秩适应(LoRA)技术来微调一组最小的参数,从而显著减少训练内存开销。我们设计了一个由多个堆叠的3D卷积层组成的轻量级姿态编码器,用于编码驱动姿态的运动信息。此外,我们采用简单的拼接操作将参考外观整合到模型中,并结合参考图像的姿态信息以增强姿态对齐。实验结果表明,我们的方法实现了视觉上吸引人且时间上一致的高保真动画。在480p(832x480)视频上训练的UniAnimate-DiT在推理过程中表现出强大的泛化能力,可以无缝升级到720P(1280x720)。训练和推理代码可在此https URL公开获取。

[93] 扩散变换器的自回归蒸馏
标题: Autoregressive Distillation of Diffusion Transformers
作者: Yeongmin Kim / Sotiris Anagnostidis / Yuming Du / Edgar Schönfeld / Jonas Kohler / Markos Georgopoulos / Albert Pumarola / Ali Thabet / Artsiom Sanakoyeu
原文:   [英文]  
备注: CVPR 2025 Oral
摘要:
扩散模型与变压器架构结合在一起,展示了生成高保真图像和高分辨率扩展的潜力。然而,合成所需的迭代采样过程非常耗费资源。一系列研究致力于将概率流常微分方程(ODE)的解决方案提炼到少步学生模型中。然而,现有方法由于依赖于最新的去噪样本作为输入,导致它们容易受到曝光偏差的影响。为了解决这一限制,我们提出了自回归蒸馏(ARD),这是一种新颖的方法,利用ODE的历史轨迹来预测未来步骤。ARD提供了两个关键优势:1)通过利用预测的历史轨迹来减轻曝光偏差,该轨迹不易受到累积错误的影响;2)它利用ODE轨迹的先前历史作为更有效的粗粒度信息来源。ARD通过添加逐标记时间嵌入来标记轨迹历史中的每个输入,并采用块状因果注意力掩码进行训练,从而修改教师变压器架构。此外,仅在较低的变压器层中引入历史输入可以提高性能和效率。我们在ImageNet和T2I合成的类条件生成中验证了ARD的有效性。我们的模型在ImageNet-256上实现了FID降级减少5倍,而仅需额外1.1%的FLOPs。此外,ARD在ImageNet-256上仅需4步即可达到1.84的FID,并在提示遵循评分上优于公开可用的1024p文本到图像蒸馏模型,与教师相比,FID仅有微小下降。项目页面:这个https URL。

[94] CFIS-YOLO:一种用于边缘部署的轻量级多尺度融合网络的木材缺陷检测
标题: CFIS-YOLO: A Lightweight Multi-Scale Fusion Network for Edge-Deployable Wood Defect Detection
作者: Jincheng Kang / Yi Cen / Yigang Cen / Ke Wang / Yuhan Liu
原文:   [英文]   [中文]  
备注: 10 pages, 11 figures
摘要:
木材缺陷检测对于确保木材加工行业的质量控制至关重要。然而,目前的工业应用面临两个主要挑战:传统方法成本高、主观且劳动密集,而主流深度学习模型在边缘部署时常常难以平衡检测准确性和计算效率。为了解决这些问题,本研究提出了CFIS-YOLO,一种为边缘设备优化的轻量级目标检测模型。该模型引入了增强的C2f结构、动态特征重组模块以及结合辅助边界框和角度约束的新损失函数。这些创新提高了多尺度特征融合和小目标定位,同时显著降低了计算开销。在公共木材缺陷数据集上进行评估时,CFIS-YOLO实现了77.5%的平均精度(mAP@0.5),比基线模型YOLOv10s高出4个百分点。在SOPHON BM1684X边缘设备上,CFIS-YOLO提供了135 FPS,将功耗降低到原始实现的17.3%,且平均精度仅下降0.5个百分点。这些结果表明,CFIS-YOLO是资源受限环境中实际有效的木材缺陷检测解决方案。

[95] 基于相对相似度度量的上下文感知掌纹识别
标题: Context-Aware Palmprint Recognition via a Relative Similarity Metric
作者: Trinnhallen Brisley / Aryan Gandhi / Joseph Magen
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一种新的掌纹识别匹配机制,通过引入相对相似度度量(RSM),增强了现有匹配框架的鲁棒性和辨别能力。传统系统依赖于直接的成对相似性度量,如余弦或欧几里得距离,但这些度量未能捕捉成对相似性在整个数据集背景下的比较。我们的方法通过评估相似性分数在所有身份中的相对一致性来解决这个问题,从而更好地抑制误报和漏报。在CCNet架构的基础上应用我们的方法,在同济数据集上实现了新的最先进的0.000036%等错误率(EER),优于以往的方法,证明了在掌纹匹配过程中结合关系结构的有效性。

[96] 使用变分网络进行声速重建的信任归因不确定性估计
标题: Uncertainty Estimation for Trust Attribution to Speed-of-Sound Reconstruction with Variational Networks
作者: Sonia Laguna / Lin Zhang / Can Deniz Bezek / Monika Farkas / Dieter Schweizer / Rahel A. Kubik-Huch / Orcun Goksel
原文:   [英文]   [中文]  
备注: Published at the International Journal of Computer Assisted Radiology and Surgery. Presented at the 16th International Conference on Information Processing in Computer-Assisted Interventions 2025
摘要:
声速(SoS)是组织的一种生物力学特性,其成像可以为诊断提供有前景的生物标志物。从超声采集中重建SoS图像可以被视为一个有限角度的计算机断层扫描问题,其中变分网络是一种有前景的基于模型的深度学习解决方案。然而,由于运动、接触不良和声影等原因,一些采集的数据帧可能会被噪声破坏,从而对最终的SoS重建产生负面影响。我们建议利用SoS重建中的不确定性来为每个单独采集的帧赋予信任。在给定多个采集的情况下,我们随后使用基于不确定性的自动选择来回顾性地改善诊断决策。我们研究了基于蒙特卡罗Dropout和贝叶斯变分推理的不确定性估计。我们评估了我们的自动帧选择方法在乳腺癌的鉴别诊断中的应用,区分良性纤维腺瘤和恶性癌。我们评估了21个被分类为BI-RADS 4的病变,这代表了可能恶性的可疑病例。使用基于不确定性标准,在每个病变的四次采集中识别出最值得信赖的帧。基于不确定性选择的帧在蒙特卡罗Dropout和贝叶斯变分推理中分别实现了76%和80%的曲线下面积,优于任何未考虑不确定性的基线,后者的最佳结果为64%。提出了一种新颖的不确定性估计方法,用于从多个数据采集中选择一个进行进一步处理和决策。

[97] 老大哥在注视着:通过可学习的隐藏面进行主动深度伪造检测
标题: Big Brother is Watching: Proactive Deepfake Detection via Learnable Hidden Face
作者: Hongbo Li / Shangchao Yang / Ruiyang Xia / Lin Yuan / Xinbo Gao
原文:   [英文]  
备注: None
摘要:
随着深度伪造技术的不断进步,被动检测方法在应对各种伪造操作和数据集时难以实现泛化。主动防御技术的研究日益活跃,主要目的是有效阻止深度伪造操作的实施。在本文中,我们旨在弥合被动检测与主动防御之间的差距,并尝试利用主动方法解决检测问题。受多种基于水印的取证方法启发,我们探索了一种基于“在脸中隐藏可学习的脸”概念的新型检测框架。具体而言,依靠一种半脆弱的可逆隐写网络,将一个秘密模板图像无感知地嵌入到宿主图像中,当通过逆隐写过程恢复时,作为监控任何恶意图像伪造的指示器。秘密模板不是手动指定的,而是在训练过程中优化,使其类似于中性面部外观,就像一个隐藏在待保护图像中的“老大哥”。通过结合自混合机制和具有模拟传输通道的鲁棒性学习策略,构建了一个鲁棒的检测器,可以准确区分隐写图像是被恶意篡改还是良性处理。最后,在多个数据集上进行的大量实验表明,所提出的方法在与竞争的被动和主动检测方法相比时具有优越性。

[98] 基于YOLOv5和点云三维投影的智能驾驶车辆前方多目标跟踪与检测
标题: Intelligent driving vehicle front multi-target tracking and detection based on YOLOv5 and point cloud 3D projection
作者: Dayong Liu / Qingrui Zhang / Zeyang Meng
原文:   [英文]  
备注: in Chinese language
摘要:
在多目标跟踪和检测任务中,需要持续跟踪多个目标,如车辆、行人等。为了实现这一目标,系统必须能够持续获取和处理包含这些目标的图像帧。这些连续的帧图像使算法能够在每一帧图像中实时更新目标的位置和状态。如何准确地将检测到的目标与前一帧或下一帧中的目标关联起来以形成稳定的轨迹是一个复杂的问题。因此,提出了一种基于YOLOv5和点云3D投影的智能驾驶车辆多目标跟踪和检测方法。使用Retinex算法增强车辆前方环境的图像,去除图像中的光干扰,并基于YOLOv5网络结构构建智能检测模型。将增强后的图像输入模型,通过特征提取和目标定位识别车辆前方的多个目标。通过结合点云3D投影技术,可以推断出投影坐标系中相邻帧图像位置变化的相关性。通过将多个连续帧图像的多目标识别结果依次投影到3D激光点云环境中,可以实现对车辆前方所有目标运动轨迹的有效跟踪。实验结果表明,该方法在智能驾驶车辆前方多目标跟踪和检测中的应用获得了大于30的MOTA(跟踪准确性)值,展示了其卓越的跟踪和检测性能。

[99] PVUW 2025挑战报告:野外复杂视频像素级理解的进展
标题: PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild
作者: Henghui Ding / Chang Liu / Nikhila Ravi / Shuting He / Yunchao Wei / Song Bai / Philip Torr / Kehuan Song / Xinglin Xie / Kexin Zhang / Licheng Jiao / Lingling Li / Shuyuan Yang / Xuqiang Cao / Linnan Zhao / Jiaxuan Zhao / Fang Liu / Mengjiao Wang / Junpei Zhang / Xu Liu / Yuting Yang / Mengru Ma / Hao Fang / Runmin Cong / Xiankai Lu / Zhiyang Che / Wei Zhan / Tianming Liang / Haichao Jiang / Wei-Shi Zheng / Jian-Fang Hu / Haobo Yuan / Xiangtai Li / Tao Zhang / Lu Qi / Ming-Hsuan Yang
原文:   [英文]  
备注: Workshop Page: this https URL. arXiv admin note: text overlap with arXiv:2504.00476, arXiv:2504.05178
摘要:
本报告全面概述了与CVPR 2025联合举办的第四届野外像素级视频理解挑战赛(PVUW)。它总结了挑战赛的结果、参与的方法以及未来的研究方向。挑战赛设有两个赛道:MOSE,专注于复杂场景视频对象分割,以及MeViS,针对运动引导的基于语言的视频分割。两个赛道都引入了新的、更具挑战性的数据集,以更好地反映现实世界的场景。通过详细的评估和分析,挑战赛提供了关于复杂视频分割领域当前最先进技术和新兴趋势的宝贵见解。更多信息可以在研讨会网站上找到:这个网址。

[100] Seedream 3.0 技术报告
标题: Seedream 3.0 Technical Report
作者: Yu Gao / Lixue Gong / Qiushan Guo / Xiaoxia Hou / Zhichao Lai / Fanshi Li / Liang Li / Xiaochen Lian / Chao Liao / Liyang Liu / Wei Liu / Yichun Shi / Shiqi Sun / Yu Tian / Zhi Tian / Peng Wang / Rui Wang / Xuanda Wang / Xun Wang / Ye Wang / Guofeng Wu / Jie Wu / Xin Xia / Xuefeng Xiao / Zhonghua Zhai / Xinyu Zhang / Qi Zhang / Yuwei Zhang / Shijia Zhao / Jianchao Yang / Weilin Huang
原文:   [英文]   [中文]  
备注: Seedream 3.0 Technical Report
摘要:
我们介绍了Seedream 3.0,这是一款高性能的中英双语图像生成基础模型。我们开发了几项技术改进,以解决Seedream 2.0中存在的挑战,包括与复杂提示的对齐、细粒度的排版生成、视觉美学和保真度不佳以及图像分辨率有限等问题。具体而言,Seedream 3.0的进步源于整个流程的改进,从数据构建到模型部署。在数据层面,我们通过缺陷感知训练范式和双轴协作数据采样框架将数据集扩大了一倍。此外,我们在预训练阶段采用了几种有效技术,如混合分辨率训练、跨模态RoPE、表示对齐损失和分辨率感知时间步采样。在后训练阶段,我们在SFT中使用多样化的美学标题,并采用基于VLM的奖励模型进行缩放,从而实现与人类偏好高度一致的输出。此外,Seedream 3.0开创了一种新的加速范式。通过采用一致的噪声期望和重要性感知时间步采样,我们在保持图像质量的同时实现了4到8倍的加速。Seedream 3.0相较于Seedream 2.0表现出显著的改进:它增强了整体能力,特别是在复杂汉字的文本渲染方面,这对于专业排版生成至关重要。此外,它提供了原生高分辨率输出(最高可达2K),使其能够生成具有高视觉质量的图像。

[101] DeepWheel:生成用于设计和性能评估的三维合成轮子数据集
标题: DeepWheel: Generating a 3D Synthetic Wheel Dataset for Design and Performance Evaluation
作者: Soyoung Yoo / Namwoo Kang
原文:   [英文]   [中文]  
备注: 28 pages, 18 figures. Not yet submitted to a journal or conference
摘要:
数据驱动设计正在成为加速工程创新的强大策略。然而,由于缺乏包含3D几何和物理性能指标的大规模高质量数据集,其在车辆轮毂设计中的应用仍然有限。为了解决这一差距,本研究提出了一种使用生成式AI的合成设计-性能数据集生成框架。该框架首先使用Stable Diffusion生成2D渲染图像,然后通过2.5D深度估计重建3D几何。随后进行结构模拟以提取工程性能数据。为了进一步扩展设计和性能空间,应用拓扑优化,生成更多样化的轮毂设计。最终的数据集名为DeepWheel,包括超过6000张照片级真实感图像和900个经过结构分析的3D模型。这个多模态数据集是代理模型训练、数据驱动逆向设计和设计空间探索的宝贵资源。所提出的方法也适用于其他复杂设计领域。该数据集根据Creative Commons Attribution-NonCommercial 4.0 International(CC BY-NC 4.0)发布,并可在此https URL上获取。

[102] 基于人工智能的放射学三维重建中的显式和隐式表示:系统文献综述
标题: Explicit and Implicit Representations in AI-based 3D Reconstruction for Radiology: A systematic literature review
作者: Yuezhe Yang / Boyu Yang / Yaqian Wang / Yang He / Xingbo Dong / Zhe Jin
原文:   [英文]   [中文]  
备注: 43 pages, 5 figures, submit to Medical Image Analysis
摘要:
在临床实践和辅助诊断中对高质量医学成像的需求,使得放射成像中的三维重建成为一个关键的研究重点。人工智能(AI)作为一种有前途的方法,能够在提高重建精度的同时减少采集和处理时间,从而最大限度地减少患者的辐射暴露和不适,最终有利于临床诊断。本文综述了放射成像中基于AI的最先进的三维重建算法,并根据其基本原理将其分为显式和隐式方法。显式方法包括基于点、基于体积和高斯表示,而隐式方法则包括隐式先验嵌入和神经辐射场。此外,我们还考察了常用的评估指标和基准数据集。最后,我们讨论了这一不断发展的领域的当前发展状况、关键挑战和未来研究方向。我们的项目可在此网址获取:this https URL。

[103] 黎巴嫩小麦制图的十年
标题: A Decade of Wheat Mapping for Lebanon
作者: Hasan Wehbi / Hasan Nasrallah / Mohamad Hasan Zahweh / Zeinab Takach / Veera Ganesh Yalla / Ali J. Ghandour
原文:   [英文]   [中文]  
备注: None
摘要:
小麦约占全球热量摄入的20%,是全球粮食安全的重要组成部分。鉴于其重要性,绘制小麦田地图对于包括政策制定者、研究人员和农业组织在内的各方来说至关重要,以便在粮食安全、供应链管理和资源分配方面做出明智决策。在本文中,我们通过引入改进的冬小麦分割流程以及展示关于黎巴嫩小麦地图十年分析的案例研究,解决了从卫星图像中准确绘制小麦田地图的问题。我们整合了时空视觉变换器(TSViT)与参数高效微调(PEFT),并基于世界田地(FTW)框架提出了一种新的后处理流程。我们提出的流程解决了现有方法中遇到的关键挑战,例如将小型农业地块聚集在一个大型田地中。通过将小麦分割与精确的田地边界提取相结合,我们的方法生成了几何一致且语义丰富的地图,使我们能够进行深入分析,例如多年作物轮作模式的追踪。广泛的评估显示了边界划定和田地级精度的改善,确立了所提出框架在农业监测和历史趋势分析中的潜力。通过实现小麦田的准确绘制,这项工作为一系列关键研究和未来进展奠定了基础,包括作物监测和产量估计。

[104] 从注视到洞察:将人类视觉注意力与视觉语言模型解释相结合,用于弱监督的医学图像分割
标题: From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation
作者: Jingkun Chen / Haoran Duan / Xiao Zhang / Boyan Gao / Tao Tan / Vicente Grau / Jungong Han
原文:   [英文]  
备注: 10 pages, 5 figures
摘要:
医学图像分割由于训练所需的像素级标注成本高昂而仍然具有挑战性。在弱监督的背景下,临床医生的注视数据捕捉了诊断感兴趣的区域;然而,其稀疏性限制了其在分割中的应用。相比之下,视觉-语言模型(VLMs)通过文本描述提供语义上下文,但缺乏所需的解释精度。认识到单一来源不足以解决问题,我们提出了一种教师-学生框架,整合了注视和语言监督,利用它们的互补优势。我们的关键见解是,注视数据表明临床医生在诊断过程中关注的区域,而VLMs解释了这些区域为何重要。为实现这一点,教师模型首先从注视点学习,并通过VLM生成的病变形态描述进行增强,为指导学生模型奠定基础。然后,教师通过三种策略指导学生:(1)多尺度特征对齐以融合视觉线索和文本语义;(2)置信度加权一致性约束以关注可靠的预测;(3)自适应掩蔽以限制不确定区域的错误传播。在Kvasir-SEG、NCI-ISBI和ISIC数据集上的实验表明,我们的方法分别实现了80.78%、80.53%和84.22%的Dice分数,比注视基线提高了3-5%,而不增加标注负担。通过保持预测、注视数据和病变描述之间的相关性,我们的框架也保持了临床可解释性。这项工作展示了如何将人类视觉注意力与AI生成的语义上下文相结合,有效克服单个弱监督信号的局限性,从而推动可部署、标注高效的医学AI系统的发展。代码可在此URL获取:this https URL。

[105] Omni$^2$: 在一个全方位模型中统一全方位图像生成和编辑
标题: Omni$^2$: Unifying Omnidirectional Image Generation and Editing in an Omni Model
作者: Liu Yang / Huiyu Duan / Yucheng Zhu / Xiaohong Liu / Lu Liu / Zitong Xu / Guangji Ma / Xiongkuo Min / Guangtao Zhai / Patrick Le Callet
原文:   [英文]   [中文]  
备注: 10 pages
摘要:
360度全景图像(ODIs)最近受到了广泛关注,并在各种虚拟现实(VR)和增强现实(AR)应用中得到了广泛使用。然而,捕捉此类图像成本高昂且需要专业设备,因此ODI合成变得越来越重要。尽管常见的2D图像生成和编辑方法正在迅速发展,但由于ODI的独特格式和广阔的360度视野(FoV),这些模型在生成或编辑ODI时难以提供令人满意的结果。为弥补这一差距,我们构建了\textbf{\textit{Any2Omni}},这是第一个综合性的ODI生成编辑数据集,包含60,000多条训练数据,涵盖多样的输入条件和多达9种ODI生成和编辑任务。在Any2Omni的基础上,我们提出了一种\textbf{\underline{Omni}}模型用于\textbf{\underline{Omni}}方向图像生成和编辑(\textbf{\textit{Omni$^2$}}),该模型能够在多样的输入条件下处理各种ODI生成和编辑任务。大量实验表明,所提出的Omni$^2$模型在ODI生成和编辑任务中具有优越性和有效性。

[106] 用于FLIM网络的多级细胞自动机
标题: Multi-level Cellular Automata for FLIM networks
作者: Felipe Crispim Salvagnini / Jancarlo F. Gomes / Cid A. N. Santos / Silvio Jamil F. Guimarães / Alexandre X. Falcão
原文:   [英文]   [中文]  
备注: None
摘要:
在深度学习显著目标检测(deep SOD)及更广泛的深度学习领域中,丰富的标注数据和复杂的网络架构的必要性构成了一个显著的挑战。这个挑战在计算资源有限的发展中国家的医疗应用中尤为突出。结合现代和经典技术提供了一条保持竞争性能同时实现实际应用的路径。图像标记特征学习(FLIM)方法使专家能够通过用户绘制的标记设计卷积编码器,滤波器直接从这些标注中学习。最近的研究表明,将FLIM编码器与自适应解码器结合可以创建一个适合SOD的轻量级网络,所需参数显著少于轻量级模型,并且无需反向传播。细胞自动机(CA)方法在数据稀缺的情况下已被证明是成功的,但需要适当的初始化——通常通过用户输入、先验或随机性。我们提出了这些方法的实用交集:使用FLIM网络以专家知识初始化CA状态,而无需对每个图像进行用户交互。通过解码FLIM网络每个层次的特征,我们可以同时初始化多个CA,创建一个多层框架。我们的方法利用了编码在不同网络层中的层次知识,将多个显著性图合并为一个高质量的最终输出,作为CA集成。对两个具有挑战性的医疗数据集的基准测试表明,我们的多层CA方法在深度SOD文献中与已建立的模型相比具有竞争力。

[107] 皮肤癌检测中的稳健性和性别差异:逻辑回归与卷积神经网络的比较
标题: Robustness and sex differences in skin cancer detection: logistic regression vs CNNs
作者: Nikolette Pedersen / Regitze Sydendal / Andreas Wulff / Ralf Raumanns / Eike Petersen / Veronika Cheplygina
原文:   [英文]   [中文]  
备注: 16 pages (excluding appendix), 2 figures (excluding appendix), submitted to MIUA 2025 conference (response pending)
摘要:
深度学习在皮肤癌检测中已被报道取得了高性能,但在结果的可重复性和偏差方面仍存在许多挑战。本研究是对一项关于阿尔茨海默病的研究[28]的复制(不同数据,相同分析),该研究探讨了逻辑回归(LR)和卷积神经网络(CNN)在不同患者性别中的稳健性。我们使用PAD-UFES-20数据集,探索皮肤癌检测中的性别偏差,采用基于皮肤病学指南(ABCDE和7点检查表)的手工特征训练的LR,以及一个预训练的ResNet-50模型。我们按照[28]的方式评估这些模型:在多个具有不同性别组成的训练数据集上,以确定其稳健性。我们的结果显示,LR和CNN对性别分布都具有稳健性,但结果也揭示了CNN在男性患者中的准确率(ACC)和接收者操作特征曲线下面积(AUROC)显著高于女性患者。我们希望这些发现能为研究流行医学机器学习方法中潜在偏差的领域做出贡献。用于重现我们结果的数据和相关脚本可以在我们的Github上找到。

[108] 基于深度学习的无现场深度遥感影像和具有数据缺口的SfM-MVS DSMs的测深检索
标题: Deep Learning-based Bathymetry Retrieval without In-situ Depths using Remote Sensing Imagery and SfM-MVS DSMs with Data Gaps
作者: Panagiotis Agrafiotis / Begüm Demir
原文:   [英文]   [中文]  
备注: Accepted for publication in ISPRS Journal of Photogrammetry and Remote Sensing
摘要:
对于面临强烈气候和人为压力的浅海床区域,准确、详细和高频的水深测量至关重要。目前,利用机载或卫星光学影像推导水深的方法主要依赖于带有折射校正的结构光摄影测量-多视图立体(SfM-MVS)或光谱衍生水深(SDB)。然而,SDB方法通常需要大量的人工实地工作或昂贵的参考数据,而SfM-MVS方法即使在折射校正后也面临挑战。这些挑战包括在视觉纹理均匀的环境中出现深度数据缺失和噪声,阻碍了准确完整的海床数字表面模型(DSM)的创建。为了解决这些问题,本研究引入了一种方法,将SfM-MVS方法的高保真3D重建能力与最先进的折射校正技术相结合,并结合一种新的基于深度学习的方法进行水深预测的光谱分析能力。这种整合使得可以采用一种协同的方法,其中带有数据缺失的SfM-MVS衍生DSM被用作训练数据,以生成完整的水深图。在此背景下,我们提出了Swin-BathyUNet,它结合了U-Net与Swin Transformer自注意力层和交叉注意力机制,专门为SDB量身定制。Swin-BathyUNet旨在通过捕捉长距离空间关系来提高水深精度,并且可以作为独立的解决方案用于标准SDB,适用于各种训练深度数据,而不依赖于SfM-MVS的输出。在地中海和波罗的海两个完全不同的测试地点进行的实验结果通过广泛的实验展示了所提出方法的有效性,显示了在预测DSM中的水深精度、细节、覆盖范围和噪声减少方面的改进。代码可在此https URL获取。

[109] 利用点变换器检测数字牙科中的解剖标志
标题: Leveraging Point Transformers for Detecting Anatomical Landmarks in Digital Dentistry
作者: Tibor Kubík / Oldřich Kodym / Petr Šilling / Kateřina Trávníčková / Tomáš Mojžiš / Jan Matula
原文:   [英文]   [中文]  
备注: 10 pages + references, 3 figures, MICCAI2024 3DTeethland Challenge submission
摘要:
随着口内扫描设备的日益普及,它们在现代临床正畸学中的重要性也在不断提高。临床医生利用先进的计算机辅助设计技术来创建针对患者的个性化治疗计划,其中包括费力地识别关键的标志点,如牙尖、近远中位置、面轴点和牙龈边界。自动检测这些标志点面临诸多挑战,包括数据集规模有限、个体间显著的解剖差异以及数据的几何特性。我们在MICCAI 2024的3DTeethLand大赛中展示了我们的实验。我们的方法利用了通过变压器架构在点云学习方面的最新进展。我们设计了一个受Point Transformer v3启发的模块,以捕捉有意义的几何和解剖特征,这些特征由一个轻量级解码器处理,以预测每个点的距离,随后通过基于图的非极小值抑制进一步处理。我们报告了有前景的结果,并讨论了对学习特征可解释性的见解。

[110] ADT:使用对抗监督调整扩散模型
标题: ADT: Tuning Diffusion Models with Adversarial Supervision
作者: Dazhong Shen / Guanglu Song / Yi Zhang / Bingqi Ma / Lujundong Li / Dongzhi Jiang / Zhuofan Zong / Yu Liu
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型通过逆转前向加噪过程来逼近真实数据分布,从而在图像生成方面取得了卓越的成就。在训练过程中,这些模型通过单次前向传递从加噪的真实样本版本中预测扩散分数,而推理则需要从白噪声开始的迭代去噪。由于潜在的预测偏差和累积误差积累,这种训练与推理的差异阻碍了推理和训练数据分布之间的对齐。为了解决这个问题,我们提出了一种直观但有效的微调框架,称为对抗扩散调优(ADT),通过在优化过程中模拟推理过程,并通过对抗监督将最终输出与训练数据对齐。具体来说,为了实现稳健的对抗训练,ADT 具有一个带有固定预训练骨干和轻量级可训练参数的孪生网络判别器,结合了一种图像到图像的采样策略以平滑判别难度,并保留了原始的扩散损失以防止判别器作弊。此外,我们仔细限制了反向传播路径,以沿推理路径反向传播梯度,而不会导致内存过载或梯度爆炸。最后,在 Stable Diffusion 模型(v1.5、XL 和 v3)上的大量实验表明,ADT 显著提高了分布对齐和图像质量。

[111] NormalCrafter:从视频扩散先验中学习时间一致的法线
标题: NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors
作者: Yanrui Bin / Wenbo Hu / Haoyuan Wang / Xinya Chen / Bing Wang
原文:   [英文]   [中文]  
备注: 9 pages, 6 figures, Project Page: this https URL
摘要:
表面法线估计是计算机视觉应用中的一个基石。尽管在静态图像场景中已经投入了大量努力,但在视频基础上的法线估计中确保时间一致性仍然是一个巨大的挑战。我们没有仅仅通过时间组件来增强现有方法,而是提出了NormalCrafter,以利用视频扩散模型固有的时间先验。为了在序列中确保高保真度的法线估计,我们提出了语义特征正则化(SFR),该方法将扩散特征与语义线索对齐,鼓励模型专注于场景的内在语义。此外,我们引入了一个两阶段的训练协议,利用潜在空间和像素空间学习来保持空间精度,同时维持长时间的上下文。广泛的评估证明了我们方法的有效性,展示了在从各种视频中生成具有复杂细节的时间一致法线序列方面的卓越性能。

[112] 通过扩展对数归一化增强分布外检测
标题: Enhancing Out-of-Distribution Detection with Extended Logit Normalization
作者: Yifan Ding / Xixi Liu / Jonas Unger / Gabriel Eilertsen
原文:   [英文]   [中文]  
备注: None
摘要:
分布外(OOD)检测对于机器学习模型的安全部署至关重要。最近的进展探索了改进的分类损失和表示学习策略,以增强OOD检测。然而,这些方法通常针对特定的事后检测技术进行了定制,限制了其通用性。在这项工作中,我们识别出Logit归一化(LogitNorm)中的一个关键问题,这限制了其在改进某些事后OOD检测方法时的有效性。为了解决这个问题,我们提出了扩展Logit归一化($\textbf{ELogitNorm}$),这是一种新颖的无超参数公式,显著有利于多种事后检测方法。通过将特征距离感知引入LogitNorm,$\textbf{ELogitNorm}$显示出比其前身更强的OOD可分性和分布内(ID)置信度校准。在标准基准上的大量实验表明,我们的方法在OOD检测中优于最先进的训练时方法,同时保持了较强的ID分类准确性。

[113] TADACap: 时间序列自适应领域感知字幕生成
标题: TADACap: Time-series Adaptive Domain-Aware Captioning
作者: Elizabeth Fons / Rachneet Kaur / Zhen Zeng / Soham Palande / Tucker Balch / Svitlana Vyetrenko / Manuela Veloso
原文:   [英文]   [中文]  
备注: Accepted to ICAIF 2024
摘要:
尽管图像描述生成已经受到广泛关注,但对时间序列图像进行描述的潜力仍未被充分挖掘,这在金融和医疗等领域尤为常见。现有的时间序列描述方法通常提供通用的、与领域无关的时间序列形状描述,并且在没有大量重新训练的情况下难以适应新领域。为了解决这些局限性,我们引入了TADACap,这是一种基于检索的框架,用于生成时间序列图像的领域感知描述,能够在不重新训练的情况下适应新领域。在TADACap的基础上,我们提出了一种新颖的检索策略,即从目标领域数据库中检索多样化的图像-描述对,称为TADACap-diverse。我们将TADACap-diverse与最先进的方法和消融变体进行了基准测试。TADACap-diverse在语义准确性上表现出可比性,同时显著减少了注释工作量。

[114] 通过直接偏好优化的扩散蒸馏实现高效的3D LiDAR场景补全
标题: Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion
作者: An Zhaol / Shengyuan Zhang / Ling Yang / Zejian Li / Jiale Wu / Haoran Xu / AnYang Wei / Perry Pengyun GU Lingyun Sun
原文:   [英文]  
备注: Our code is public available on this https URL
摘要:
扩散模型在3D LiDAR场景补全中的应用受到扩散采样速度慢的限制。评分蒸馏可以加速扩散采样,但会导致性能下降,而使用偏好数据的直接策略优化(DPO)后训练可以提升性能。本文提出了Distillation-DPO,这是一种用于LiDAR场景补全的偏好对齐的新型扩散蒸馏框架。首先,学生模型生成具有不同初始噪声的成对补全场景。其次,使用LiDAR场景评估指标作为偏好,我们构建了胜出和失败的样本对。这样的构建是合理的,因为大多数LiDAR场景指标是信息丰富的,但无法直接优化。第三,Distillation-DPO通过利用教师和学生模型在成对补全场景上的评分函数差异来优化学生模型。这样的过程会重复进行直到收敛。大量实验表明,与最先进的LiDAR场景补全扩散模型相比,Distillation-DPO在加速补全速度超过5倍的同时,实现了更高质量的场景补全。据我们所知,我们的方法是首次探索在蒸馏中采用偏好学习,并提供了偏好对齐蒸馏的见解。我们的代码在这个https URL上公开可用。

[115] PARTFIELD:学习用于部件分割及其他应用的三维特征场
标题: PARTFIELD: Learning 3D Feature Fields for Part Segmentation and Beyond
作者: Minghua Liu / Mikaela Angelina Uy / Donglai Xiang / Hao Su / Sanja Fidler / Nicholas Sharp / Jun Gao
原文:   [英文]   [中文]  
备注: this https URL
摘要:
我们提出了PartField,这是一种学习基于部分的3D特征的前馈方法,它能够捕捉部分及其层次结构的通用概念,而无需依赖预定义的模板或基于文本的名称,并且可以应用于各种模态的开放世界3D形状。PartField在推理时只需要进行一次3D前馈传递,与之前的方法相比显著提高了运行时间和鲁棒性。我们的模型通过从标注数据集和大型无监督数据集上的图像分割中提取2D和3D部分建议,以对比学习的形式进行训练。它生成一个连续的特征场,可以通过聚类来获得层次化的部分分解。比较显示,PartField的准确性提高了最多20%,并且通常比其他最近的无类别部分分割方法快几个数量级。除了单个形状的部分分解之外,学习到的特征场在不同形状之间表现出一致性,使得诸如共同分割和对应等任务成为可能,我们在这些通用、层次化和一致的3D特征场的多个应用中进行了演示。请查看我们的网站!这个https URL

[116] SimpleAR:通过预训练、SFT和强化学习推动自回归视觉生成的前沿
标题: SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL
作者: Junke Wang / Zhi Tian / Xun Wang / Xinyu Zhang / Weilin Huang / Zuxuan Wu / Yu-Gang Jiang
原文:   [英文]   [中文]  
备注: technical report, work in progress
摘要:
这项工作介绍了SimpleAR,一种简单的自回归视觉生成框架,无需复杂的架构修改。通过对训练和推理优化的仔细探索,我们证明了:1)我们的模型仅使用0.5B参数即可生成分辨率为1024x1024的高保真图像,并在具有挑战性的文本到图像基准测试中取得竞争性结果,例如在GenEval上达到0.59,在DPG上达到79.66;2)监督微调(SFT)和组相对策略优化(GRPO)训练都可以显著改善生成的美学效果和提示对齐;3)当使用推理加速技术如vLLM进行优化时,SimpleAR生成1024x1024图像的时间可以减少到大约14秒。通过分享这些发现并开源代码,我们希望揭示自回归视觉生成的潜力,并鼓励更多人参与这一研究领域。代码可在此HTTPS URL获取。

[117] 将生成去噪与判别目标对齐释放了扩散在视觉感知中的潜力
标题: Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception
作者: Ziqi Pang / Xin Xu / Yu-Xiong Wang
原文:   [英文]  
备注: ICLR 2025
摘要:
随着图像生成的成功,生成扩散模型越来越多地被用于判别任务,因为像素生成提供了统一的感知接口。然而,直接将生成去噪过程重新用于判别目标揭示了之前很少解决的关键差距。生成模型容忍中间采样错误,只要最终分布仍然合理,但判别任务需要在整个过程中严格的准确性,这在诸如指代图像分割等具有挑战性的多模态任务中得到了证明。受这一差距的启发,我们分析并增强生成扩散过程与感知任务之间的对齐,重点关注感知质量在去噪过程中如何演变。我们发现:(1)早期去噪步骤对感知质量的贡献不成比例,促使我们提出反映不同时间步贡献的定制学习目标;(2)后期去噪步骤显示出意外的感知退化,突显出对训练-去噪分布变化的敏感性,我们通过扩散定制的数据增强来解决这一问题;(3)生成过程独特地实现了交互性,作为可控的用户接口,适应于多轮交互中的纠正提示。我们的见解显著提高了基于扩散的感知模型的性能,无需架构更改,在深度估计、指代图像分割和通用感知任务上实现了最先进的性能。代码可在此https URL获取。