|
|
学术巷子 | 来自全球的每日最新论文
| 自然语言处理 | 计算机视觉 | 机器人 |
|
cs.CV方向,2025年3月21日更新论文125篇
|
|
[1] CAM-Seg: 一种用于语义图像生成的连续值嵌入方法 标题: CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation 作者: Masud Ahmed / Zahid Hasan / Syed Arefinul Haque / Abu Zaher Md Faridee / Sanjay Purushotham / Suya You / Nirmalya Roy 原文: [英文] [中文] 备注: None 摘要: 传统的基于Transformer的语义分割依赖于量化嵌入。然而,我们的分析表明,使用量化嵌入(例如VQ-VAE)的自动编码器在分割掩码上的准确性比使用连续值嵌入(例如KL-VAE)低8%。受此启发,我们提出了一种用于语义分割的连续值嵌入框架。通过将语义掩码生成重新表述为连续的图像到嵌入的扩散过程,我们的方法消除了对离散潜在表示的需求,同时保留了细粒度的空间和语义细节。我们的关键贡献包括一个扩散引导的自回归Transformer,它通过对图像特征中的长距离依赖进行建模来学习连续的语义嵌入空间。我们的框架包含一个统一的架构,结合了用于连续特征提取的VAE编码器、用于条件嵌入生成的扩散引导Transformer,以及用于语义掩码重建的VAE解码器。我们的设置促进了由嵌入空间的连续性所启用的零样本领域适应能力。跨多个数据集(例如Cityscapes和领域转移变体)的实验表明,在分布变化(包括恶劣天气,例如雾、雪和视角变化)下具有最先进的鲁棒性。我们的模型还表现出强大的抗噪能力,在高斯噪声、适度的运动模糊和适度的亮度/对比度变化下实现了稳健的性能(与基线相比约95%的AP),而在50%的椒盐噪声、饱和度和色调变化下仅受到适度影响(与基线相比约90%的AP)。代码可用:此https URL |
|
[2] LLaVA-MORE:增强视觉指令微调的LLM和视觉骨干的比较研究 标题: LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning 作者: Federico Cocchi / Nicholas Moratelli / Davide Caffagni / Sara Sarto / Lorenzo Baraldi / Marcella Cornia / Rita Cucchiara 原文: [英文] [中文] 备注: None 摘要: 最近在多模态大型语言模型(MLLMs)方面的进展强调了视觉主干和底层语言模型的关键作用。虽然之前的工作主要集中在将这些组件扩展到数十亿参数,但模型大小、架构和性能之间的权衡仍未被充分探索。此外,训练数据和评估协议的不一致性阻碍了直接比较,使得难以得出最佳设计选择。在本文中,我们介绍了LLaVA-MORE,这是一组新的MLLMs家族,集成了最新的语言模型和多样化的视觉主干。为了确保公平比较,我们采用统一的训练协议,并在所有架构中一致应用。我们的分析系统地探索了小型和中型规模的LLMs——包括Phi-4、LLaMA-3.1和Gemma-2——以评估多模态推理、生成和指令遵循,同时研究模型大小与性能之间的关系。除了评估LLM对最终结果的影响外,我们还对各种视觉编码器进行了全面研究,从基于CLIP的架构到DINOv2、SigLIP和SigLIP2等替代方案。额外的实验调查了增加图像分辨率和预训练数据集变化的影响。总体而言,我们的结果提供了关于设计更有效的MLLMs的见解,提供了一个可重复的评估框架,促进直接比较,并可以指导未来的模型开发。我们的源代码和训练模型已公开发布于:这个https URL。 |
|
[3] EarthScape:用于地表地质制图和地球表面分析的多模态数据集 标题: EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis 作者: Matthew Massey / Abdullah-Al-Zubaer Imran 原文: [英文] [中文] 备注: None 摘要: 地表地质制图对于理解地球表面过程、应对气候变化和国家安全等现代挑战,以及支持工程和资源管理中的常见应用至关重要。然而,传统的制图方法劳动强度大,限制了空间覆盖范围,并引入了潜在的偏差。为了解决这些限制,我们引入了EarthScape,这是一种专门为地表地质制图和地球表面分析设计的新颖、AI准备的多模态数据集。EarthScape集成了高分辨率的航空RGB和近红外(NIR)影像、数字高程模型(DEM)、多尺度DEM衍生的地形特征,以及水文和基础设施矢量数据。该数据集为七种不同的地表地质类别提供了详细的注释,涵盖了各种地质过程。我们使用开源的原始数据提出了一个全面的数据处理管道,并使用不同的空间模态建立基准,以展示EarthScape的实用性。作为一个具有扩展愿景的动态数据集,EarthScape弥合了计算机视觉与地球科学之间的差距,提供了一个宝贵的资源,以推动多模态学习、地理空间分析和地质制图方面的研究。我们的代码可在此URL获取。 |
|
[4] 视觉-语音模型:教语音模型与图像对话 标题: Vision-Speech Models: Teaching Speech Models to Converse about Images 作者: Amélie Royer / Moritz Böhle / Gabriel de Marmiesse / Laurent Mazaré / Neil Zeghidour / Alexandre Défossez / Patrick Pérez 原文: [英文] [中文] 备注: None 摘要: 最近视觉-语言模型的成功引发了一个问题:如何等效地赋予预训练的语音模型以视觉理解能力,这是构建能够自由谈论图像的多模态语音模型的重要里程碑。构建这样一个对话式视觉-语音模型带来了独特的挑战:(i)图像-语音配对数据集比图像-文本数据集稀缺得多,(ii)在推理时确保实时延迟至关重要,因此带来了计算和内存限制,以及(iii)模型应保留韵律特征(例如,说话者语调),这些特征无法仅从文本中推断。在这项工作中,我们引入了MoshiVis,通过轻量级适应模块为最近的对话语音大语言模型Moshi增加视觉输入。一个额外的动态门控机制使模型更容易在视觉输入和不相关的对话主题之间切换。为了降低训练成本,我们设计了一个简单的单阶段、参数高效的微调流程,在该流程中我们利用了图像-文本(即“无语音”)和图像-语音样本的混合。我们在下游视觉理解任务中使用音频和文本提示对模型进行评估,并报告与MoshiVis交互的定性样本。我们的推理代码以及用于音频评估的图像-语音数据将会公开。 |
|
[5] 一种基于上下文驱动的无训练轻量级场景文本分割与识别网络 标题: A Context-Driven Training-Free Network for Lightweight Scene Text Segmentation and Recognition 作者: Ritabrata Chakraborty / Shivakumara Palaiahnakote / Umapada Pal / Cheng-Lin Liu 原文: [英文] [中文] 备注: None 摘要: 现代场景文本识别系统通常依赖于大型的端到端架构,这些架构需要大量的训练,并且在实时场景中成本过高。在这种情况下,由于内存、计算资源和延迟的限制,部署繁重的模型变得不切实际。为了解决这些挑战,我们提出了一种新颖的、无需训练的即插即用框架,该框架利用预训练文本识别器的优势,同时最大限度地减少冗余计算。我们的方法使用基于上下文的理解,并引入了基于注意力的分割阶段,在像素级别上优化候选文本区域,从而改善后续的识别。与传统的文本检测不同,我们的方法避免了在特征图和源图像之间进行块级比较,而是利用预训练的字幕生成器来使用上下文信息,使框架能够直接从场景中生成单词预测。这些文本在语义和词汇上进行评估以获得最终得分。达到或超过预定义置信度阈值的预测可以绕过更繁重的端到端文本识别过程,从而确保更快的推理速度并减少不必要的计算。在公共基准测试上的实验表明,我们的范式在性能上与最先进的系统相当,但所需资源大大减少。 |
|
[6] 通过运动不变量从视频和手术工具姿态信息中进行多模态手势识别 标题: Multi-Modal Gesture Recognition from Video and Surgical Tool Pose Information via Motion Invariants 作者: Jumanh Atoum / Garrison L.H. Johnston / Nabil Simaan / Jie Ying Wu 原文: [英文] [中文] 备注: None 摘要: 实时识别手术手势是实现自动化活动识别、技能评估、术中辅助以及最终手术自动化的基础。目前的机器人手术系统为我们提供了丰富的多模态数据,如视频和运动学数据。虽然一些最近的多模态神经网络研究学习了视觉和运动学数据之间的关系,但当前的方法将运动学信息视为独立信号,工具尖端姿态之间没有潜在关系。然而,仪器姿态在几何上是相关的,潜在的几何关系可以帮助神经网络学习手势表示。因此,我们提出将运动不变测量(曲率和挠率)与视觉和运动学数据结合使用关系图网络,以捕捉不同数据流之间的潜在关系。我们展示了当将不变信号与工具位置结合时,手势识别得到了改善,在JIGSAWS缝合数据集上实现了90.3%的逐帧准确率。我们的结果表明,与传统的位置和四元数表示相比,运动不变信号与位置结合是手势运动的更好表示。我们的结果强调了在手势识别中需要对运动学进行几何感知建模。 |
|
[7] 利用机器学习进行交通相关的地表检测:分析马德里和维也纳的时间趋势 标题: Transport-Related Surface Detection with Machine Learning: Analyzing Temporal Trends in Madrid and Vienna 作者: Miguel Ureña Pliego / Rubén Martínez Marín / Nianfang Shi / Takeru Shibayama / Ulrich Leth / Miguel Marchamalo Sacristán 原文: [英文] [中文] 备注: Preprint 摘要: 本研究探讨了将机器学习整合到城市航拍图像分析中,重点在于识别汽车和行人基础设施表面并分析历史趋势。研究强调了从卷积架构向基于变压器的预训练模型的过渡,突出了它们在全球地理空间分析中的潜力。论文提出了一种自动生成地理空间数据集的工作流程,使得可以从各种来源(包括WMS/WMTS链接、矢量制图和OpenStreetMap (OSM) overpass-turbo请求)创建语义分割数据集。开发的代码允许使用公开可用的数据快速生成数据集以训练机器学习模型,而无需人工标注。使用来自马德里和维也纳各自地理办公室的航拍图像和矢量数据,生成了两个用于汽车和行人表面检测的数据集。为每个城市训练并评估了一个基于变压器的模型,显示出良好的准确性值。历史趋势分析涉及将训练好的模型应用于早期图像,这些图像早于矢量数据可用时间10到20年,成功识别了不同城市区域中行人和汽车基础设施的时间趋势。这项技术适用于市政府以最低成本收集有价值的数据。 |
|
[8] UI-Vision:面向视觉感知和交互的桌面中心GUI基准 标题: UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction 作者: Shravan Nayak / Xiangru Jian / Kevin Qinghong Lin / Juan A. Rodriguez / Montek Kalsi / Rabiul Awal / Nicolas Chapados / M. Tamer Özsu / Aishwarya Agrawal / David Vazquez / Christopher Pal / Perouz Taslakian / Spandana Gella / Sai Rajeswar 原文: [英文] [中文] 备注: None 摘要: 能够在图形用户界面(GUI)中导航以自动化文档编辑和文件管理等任务的自主代理,可以极大地提升计算机工作流程。尽管现有研究主要集中在在线环境中,但对于许多专业和日常任务至关重要的桌面环境由于数据收集挑战和许可问题而仍未得到充分探索。我们介绍了UI-Vision,这是第一个全面的、许可友好的基准,用于在真实世界桌面环境中对计算机使用代理进行离线、细粒度的评估。与在线基准不同,UI-Vision提供:(i)人类演示的密集、高质量注释,包括83个软件应用程序中的边界框、UI标签和动作轨迹(点击、拖动和键盘输入),以及(ii)三个从细到粗的任务——元素定位、布局定位和动作预测——具有明确的指标,以严格评估代理在桌面环境中的表现。我们的评估揭示了诸如UI-TARS-72B等最先进模型的关键局限性,包括在理解专业软件、空间推理和复杂动作如拖放方面的问题。这些发现突显了开发完全自主计算机使用代理的挑战。通过将UI-Vision作为开源发布,我们旨在推动更强大代理的发展,以应对真实世界的桌面任务。 |
|
[9] 面向点云的可扩展、灵活的场景流 标题: Toward Scalable, Flexible Scene Flow for Point Clouds 作者: Kyle Vedder 原文: [英文] 备注: PhD Thesis 摘要: 场景流估计是描述时间上连续观测之间的三维运动的任务。本文旨在为构建具有两个重要特性的场景流估计器奠定基础:它们具有可扩展性,即随着更多数据和计算的访问而改进;它们具有灵活性,即无需显著的超参数调整即可在各种领域和各种运动模式下开箱即用。 在本论文中,我们提出了若干具体贡献来实现这一目标。在第一章中,我们对场景流及其先前的方法进行了背景介绍。在第二章中,我们提出了一种蓝图,通过从强大的无监督测试时优化方法提供的伪标签进行大规模蒸馏,来构建和扩展前馈场景流估计器,而无需昂贵的人类标注。在第三章中,我们引入了一个基准,以更好地衡量不同对象类型的估计质量,更好地聚焦于我们关心和期望从场景流估计器中获得的内容,并利用该基准举办了一场公共挑战,取得了显著进展。在第四章中,我们提出了一种最先进的无监督场景流估计器,该估计器引入了一种新的完整序列问题表述,并在诸如三维点跟踪等相邻领域表现出极大的潜力。最后,在第五章中,我对场景流的未来发展及其潜在的更广泛影响进行了哲学思考。 |
|
[10] DiffPortrait360:用于360度视图合成的一致性肖像扩散 标题: DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis 作者: Yuming Gu / Phong Tran / Yujian Zheng / Hongyi Xu / Heyuan Li / Adilbek Karmanov / Hao Li 原文: [英文] [中文] 备注: Page:this https URL Code:this https URL 摘要: 从单视图图像生成高质量的360度人头视图对于实现可访问的沉浸式远程呈现应用和可扩展的个性化内容创作至关重要。虽然最先进的完整人头生成方法仅限于建模逼真的人头,最新的基于扩散的方法用于风格全知的人头合成只能生成正面视图,并且在视图一致性方面存在困难,无法转换为真正的3D模型以从任意角度进行渲染。我们介绍了一种新颖的方法,可以生成完全一致的360度人头视图,适应人类、风格化和拟人化形式,包括眼镜和帽子等配件。我们的方法基于DiffPortrait3D框架,结合了定制的ControlNet用于生成后脑细节,并采用双外观模块以确保整体前后一致性。通过在连续视图序列上进行训练并整合后参考图像,我们的方法实现了稳健的、局部连续的视图合成。我们的模型可用于生成高质量的神经辐射场(NeRFs),用于实时、自由视点渲染,在对象合成和360度人头生成方面优于最先进的方法,适用于非常具有挑战性的输入肖像。 |
|
[11] CHROME:从单张图像进行具有遮挡鲁棒性和多视图一致性的着衣人体重建 标题: CHROME: Clothed Human Reconstruction with Occlusion-Resilience and Multiview-Consistency from a Single Image 作者: Arindam Dutta / Meng Zheng / Zhongpai Gao / Benjamin Planche / Anwesha Choudhuri / Terrence Chen / Amit K. Roy-Chowdhury / Ziyan Wu 原文: [英文] [中文] 备注: None 摘要: 从单张图像重建穿衣人类是计算机视觉中的一项基础任务,具有广泛的应用。尽管现有的单目穿衣人类重建方案已显示出良好的效果,但它们通常依赖于人类主体处于无遮挡环境的假设。因此,当遇到野外遮挡图像时,这些算法会产生多视图不一致和破碎的重建。此外,大多数单目3D人类重建算法在训练和推理中利用几何先验,如SMPL标注,这在实际应用中极难获取。为了解决这些限制,我们提出了CHROME:一种从单张遮挡图像中进行遮挡鲁棒和多视图一致的穿衣人类重建的新型流程。该流程无需真实几何先验标注或3D监督。具体而言,CHROME利用多视图扩散模型首先从遮挡输入中合成无遮挡的人类图像,并与现成的姿态控制兼容,以在合成过程中明确地强制跨视图一致性。然后训练一个3D重建模型,以预测一组基于遮挡输入和合成视图的3D高斯,调整跨视图细节以生成一个连贯且准确的3D表示。CHROME在新视图合成(PSNR提高至3 dB)和几何重建方面在挑战性条件下实现了显著改进。 |
|
[12] GASP:统一几何和语义自监督预训练以实现自动驾驶 标题: GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving 作者: William Ljungbergh / Adam Lilja / Adam Tonderski. Arvid Laveno Ling / Carl Lindström / Willem Verbeke / Junsheng Fu / Christoffer Petersson / Lars Hammarstrand / Michael Felsberg 原文: [英文] [中文] 备注: None 摘要: 基于下一个词预测的自监督预训练使大型语言模型能够捕捉文本的潜在结构,并在大规模应用时在大量任务上取得了前所未有的性能。类似地,自动驾驶生成了大量的时空数据,这暗示了利用规模来学习环境的几何和语义结构及其随时间演变的可能性。在这一方向上,我们提出了一种几何和语义自监督预训练方法,称为GASP,通过在时空中任何查询的未来点预测以下内容来学习统一表示:(1) 一般占用,捕捉3D场景的演变结构;(2) 自身占用,模拟自车在环境中的路径;(3) 从视觉基础模型中提取的高层特征。通过建模几何和语义的4D占用场,而不是原始传感器测量,模型学习到环境及其随时间演变的结构化、可推广的表示。我们在多个自动驾驶基准上验证了GASP,展示了在语义占用预测、在线地图构建和自车轨迹预测方面的显著改进。我们的结果表明,连续的4D几何和语义占用预测为自动驾驶提供了一种可扩展且有效的预训练范式。有关代码和更多可视化内容,请参见此https URL。 |
|
[13] 通过语义相似性传播在半监督视频语义分割中实现自主飞行的高时间一致性 标题: High Temporal Consistency through Semantic Similarity Propagation in Semi-Supervised Video Semantic Segmentation for Autonomous Flight 作者: Cédric Vincent / Taehyoung Kim / Henri Meeß 原文: [英文] [中文] 备注: None 摘要: 从RGB摄像头进行语义分割对于自主飞行器的感知至关重要。通过捕获的视频实现预测的稳定性对于其可靠性以及代理的可信度至关重要。在本文中,我们提出了一种轻量级的视频语义分割方法,适合机载实时推理,通过跨帧的语义相似性传播在航拍数据上实现高时间一致性。SSP通过全局注册对齐来补偿相机运动,临时传播高效图像分割模型的预测。它结合当前估计和先前预测,通过使用从两个帧的特征相似性计算出的权重进行线性插值。由于数据可用性在该领域是一个挑战,我们提出了一种一致性感知的知识蒸馏训练程序,用于稀疏标注的数据集,标注较少。使用大型图像分割模型作为教师来训练高效的SSP,我们利用同一训练视频中标注帧和未标注帧之间的强相关性,在所有帧上获得高质量的监督。KD-SSP在UAVid和RuralScapes上分别比基础图像分割模型获得了12.5%和6.7%的时间一致性显著提升,同时具有更高的准确性和可比的推理速度。在这些航拍数据集上,KD-SSP提供了比其他为一般应用提出的视频方法更优的分割质量和推理速度权衡,并显示出显著更高的一致性。代码将在接受后公开。 |
|
[14] 你想检测的变化:通过混合数据生成进行地球观测中的语义变化检测 标题: The Change You Want To Detect: Semantic Change Detection In Earth Observation With Hybrid Data Generation 作者: Benidir Yanis / Gonthier Nicolas / Mallet Clement 原文: [英文] [中文] 备注: None 摘要: 基于甚高分辨率(VHR)图像的大规模双时相变化检测对于地球监测至关重要。然而,目前对此的研究仍然不足:现有方法要么需要大量标注数据(语义情况),要么仅限于有限的数据集(二元设置)。大多数方法在时间和空间适应性方面缺乏所需的多样性:在架构设计上的简单性以及在现实和全面的数据集上的预训练。合成数据集是关键解决方案,但仍未能处理复杂和多样的场景。在本文中,我们提出了HySCDG,这是一种生成管道,用于创建一个大型混合语义变化检测数据集,该数据集包含真实的VHR图像和修复后的图像,以及两个日期的土地覆盖语义图和变化图。由于在语义和空间上受到指导,HySCDG生成了逼真的图像,从而形成了一个全面且混合的可迁移数据集FSC-180k。我们在五种变化检测情况下(包括二元和语义)对FSC-180k进行了评估,从零样本到混合和顺序训练,以及在低数据量训练下。实验表明,在我们的混合数据集上进行预训练可以显著提升性能,在每种配置中都优于完全合成数据集SyntheWorld。所有代码、模型和数据均可在此处获取:$\href{this https URL}{this https URL}$。 |
|
[15] 多焦点条件潜在扩散用于人物图像合成 标题: Multi-focal Conditioned Latent Diffusion for Person Image Synthesis 作者: Jiaqi Liu / Jichao Zahng / Paolo Rota / Nicu Sebe 原文: [英文] [中文] 备注: CVPR 2025 Accepted 摘要: 潜在扩散模型(LDM)在高分辨率图像生成方面表现出强大的能力,并已广泛应用于姿态引导的人物图像合成(PGPIS),取得了令人期待的结果。然而,LDM的压缩过程常常导致细节的恶化,尤其是在面部特征和服装纹理等敏感区域。在本文中,我们提出了一种多焦点条件潜在扩散(MCLD)方法,通过对模型进行这些敏感区域的解耦、姿态不变特征的条件化来解决这些限制。我们的方法利用了一个多焦点条件聚合模块,有效整合了面部身份和纹理特定信息,增强了模型生成外观逼真且身份一致图像的能力。我们的方法在DeepFashion数据集上展示了身份和外观生成的一致性,并由于其生成一致性而实现了灵活的人物图像编辑。代码可在此https URL获取。 |
|
[16] CVPR第五届CLVision挑战赛技术报告:使用无标签数据解决带重复的类增量问题——第四名解决方案 标题: Technical Report for the 5th CLVision Challenge at CVPR: Addressing the Class-Incremental with Repetition using Unlabeled Data -- 4th Place Solution 作者: Panagiota Moraiti / Efstathios Karypidis 原文: [英文] [中文] 备注: None 摘要: 本文介绍了我们在CVPR的第五届CLVision挑战赛中应对类增量重复(CIR)场景的方法。与传统的类增量学习不同,这一新颖的设置引入了独特的挑战和研究机会,特别是在将未标记数据整合到训练过程中。在CIR场景中,遇到的类别可能会在后续的学习经历中重新出现,并且每次经历可能仅涉及整体类别分布的一个子集。此外,训练期间提供的未标记数据可能包含未见过的类别实例,或应被忽略的不相关类别。我们的方法侧重于通过利用知识蒸馏和伪标签技术来保留先前学习的知识。我们方法的关键特征是在训练期间利用未标记数据,以保持在先前遇到的类别实例上的最佳性能,并减少灾难性遗忘的有害影响。我们的方法在预选阶段实现了16.68%的平均准确率,在最终评估阶段实现了21.19%的准确率,优于基线准确率9.39%。我们在此提供了实现代码的URL。 |
|
[17] 通过可解释的视觉概念实现表征相似性 标题: Representational Similarity via Interpretable Visual Concepts 作者: Neehar Kondapaneni / Oisin Mac Aodha / Pietro Perona 原文: [英文] [中文] 备注: 32 pages, 5 Figures, 16 Supplemental Figures, ICLR 2025 摘要: 两个深度神经网络在做出决策时有何不同?衡量深度网络的相似性一直是一个悬而未决的问题。大多数现有方法通过一个单一的数值来衡量两个网络在某一层的相似性,但并未提供关于它们为何相似或不同的深入见解。我们引入了一种可解释的表征相似性方法(RSVC)来比较两个网络。我们使用RSVC来发现两个模型之间共享和独特的视觉概念。我们展示了一些模型差异的方面可以归因于一个模型发现的独特概念,而这些概念在另一个模型中没有得到很好的表示。最后,我们在不同的视觉模型架构和训练协议中进行了广泛的评估,以证明其有效性。 |
|
[18] 基于可持续深度学习的乳腺病变分割:乳腺区域分割对性能的影响 标题: Sustainable Deep Learning-Based Breast Lesion Segmentation: Impact of Breast Region Segmentation on Performance 作者: Sam Narimani / Solveig Roth Hoff / Kathinka Dahli Kurz / Kjell-Inge Gjesdal / Jurgen Geisler / Endre Grovik 原文: [英文] [中文] 备注: None 摘要: 目的:在动态增强磁共振成像(DCE-MRI)中对乳腺病变进行分割是准确诊断、制定治疗计划和监测进展的关键步骤。本研究旨在强调乳腺区域分割(BRS)对基于深度学习的乳腺病变分割(BLS)在乳腺DCE-MRI中的影响。 方法:使用包含主要59个DCE-MRI扫描的Stavanger数据集和UNet++作为深度学习模型,进行了四种不同的流程以比较BRS对BLS的影响。这四种方法包括不使用BRS的整个体积、使用BRS的整个体积、使用BRS的选定病变切片以及最后使用BRS的最佳体积。使用诸如增强和过采样的预处理方法来增强小数据集、数据形状的一致性并提高模型性能。通过精确的过程研究最佳体积大小,以确保所有病变都存在于切片中。为了评估模型,使用了包括dice、focal和交叉熵的混合损失函数以及5折交叉验证方法,最后使用随机分割的测试数据集来评估模型在未见数据上的性能。 结果:结果表明,使用BRS显著提高了模型性能和验证。最后一种方法——使用BRS的最佳体积——相比于不使用BRS的方法,性能提高约50%,展示了BRS在BLS中的有效性。此外,能耗显著降低,减少高达450%,为未来在大数据集上的工作引入了一种更环保的解决方案。 |
|
[19] SPNeRF: 使用超级点进行开放词汇的三维神经场景分割 标题: SPNeRF: Open Vocabulary 3D Neural Scene Segmentation with Superpoints 作者: Weiwen Hu / Niccolò Parodi / Marcus Zepp / Ingo Feldmann / Oliver Schreer / Peter Eisert 原文: [英文] [中文] 备注: In Proceedings of the 20th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications (2025) 摘要: 开放词汇分割技术,由像 CLIP 这样的大型视觉语言模型驱动,已经将二维分割能力扩展到超越数据集中预定义的固定类别,实现了对多样场景的零样本理解。将这些能力扩展到三维分割带来了挑战,因为 CLIP 的基于图像的嵌入通常缺乏三维场景分割所需的几何细节。最近的方法倾向于通过引入额外的分割模型或用在分割数据上训练的变体替换 CLIP 来解决这个问题,但这会导致冗余或 CLIP 的通用语言能力的损失。为克服这一限制,我们引入了 SPNeRF,这是一种基于 NeRF 的零样本三维分割方法,利用几何先验。我们将从三维场景中提取的几何基元整合到 NeRF 训练中,以生成基元级的 CLIP 特征,避免了点级特征的模糊性。此外,我们提出了一种基于基元的合并机制,并通过亲和力分数进行增强。无需依赖额外的分割模型,我们的方法进一步探索了 CLIP 在三维分割中的能力,并在原始 LERF 上取得了显著的改进。 |
|
[20] 图加权对比学习用于半监督高光谱图像分类 标题: Graph-Weighted Contrastive Learning for Semi-Supervised Hyperspectral Image Classification 作者: Yuqing Zhang / Qi Han / Ligeng Wang / Kai Cheng / Bo Wang / Kun Zhan 原文: [英文] [中文] 备注: Journal of Electronic Imaging, 2025 摘要: 大多数现有的基于图的半监督高光谱图像分类方法依赖于超像素分割技术。然而,由于超像素边界的不准确性,它们在某些像素的分类上存在误差,即超像素分割的初始不准确性限制了整体分类性能。在本文中,我们提出了一种新颖的图加权对比学习方法,该方法避免使用超像素分割,直接利用神经网络学习高光谱图像表示。此外,虽然许多方法要求在训练期间所有图节点都可用,但我们的方法支持小批量训练,每次仅处理一部分节点,从而降低计算复杂性并提高对未见节点的泛化能力。在三个广泛使用的数据集上的实验结果表明,与依赖超像素分割的基线相比,所提出的方法具有更高的有效性。 |
|
[21] 不确定性感知的扩散引导3D场景优化 标题: Uncertainty-Aware Diffusion Guided Refinement of 3D Scenes 作者: Sarosij Bose / Arindam Dutta / Sayak Nag / Junge Zhang / Jiachen Li / Konstantinos Karydis / Amit K. Roy Chowdhury 原文: [英文] 备注: 13 pages, 7 figures 摘要: 从单张图像重建三维场景是一个根本上不适定的问题,因为该问题的性质严重缺乏约束。因此,当从新的相机视角渲染场景时,现有的单图像到三维重建方法会渲染出不连贯和模糊的视图。当未见区域远离输入相机时,这个问题会更加严重。在这项工作中,我们解决了现有单图像到三维场景前馈网络的固有局限性。为了缓解由于输入图像视图之外的信息不足而导致的性能不佳,我们利用一个强大的生成先验,即预训练的潜在视频扩散模型,以迭代优化由可优化的高斯参数表示的粗略场景。为了确保生成图像的风格和纹理与输入图像一致,我们在生成图像和输入图像之间动态进行傅里叶风格转移。此外,我们设计了一个语义不确定性量化模块,该模块计算每个像素的熵,并生成不确定性地图,用于指导从最有信心的像素进行细化过程,同时舍弃其余高度不确定的像素。我们在真实场景数据集上进行了广泛的实验,包括域内的RealEstate-10K和域外的KITTI-v2,结果表明,与现有的最先进方法相比,我们的方法可以提供更真实和高保真的新视角合成结果。 |
|
[22] GraPLUS:基于图的语义图像合成布局 标题: GraPLUS: Graph-based Placement Using Semantics for Image Composition 作者: Mir Mohammad Khaleghi / Mehran Safayani / Abdolreza Mirzaei 原文: [英文] 备注: 17 pages, 3 figures, 6 tables 摘要: 我们提出了GraPLUS(基于语义的图形放置),这是一种新颖的框架,用于在图像中合理地放置对象,利用场景图和大型语言模型。我们的方法独特地结合了图结构的场景表示和语义理解,以确定上下文适当的对象位置。该框架使用GPT-2将分类节点和边标签转换为丰富的语义嵌入,捕捉定义特征和典型空间上下文,从而实现对对象关系和放置模式的细致理解。GraPLUS在OPA数据集上实现了92.1%的放置准确率和28.83的FID分数,超越了最先进的方法8.1%,同时保持了竞争性的视觉质量。在涉及964个样本、由19名参与者评估的人类评估研究中,我们的方法在52.1%的情况下被优选,显著优于以前的方法。该框架的关键创新包括:(i)利用预训练的场景图模型,从其他领域转移知识,(ii)边缘感知图神经网络,通过结构化关系处理场景语义,(iii)跨模态注意机制,将分类嵌入与增强的场景特征对齐,以及(iv)结合语义一致性约束的多目标训练策略。 |
|
[23] OffsetOPT:无需法线的显式表面重建 标题: OffsetOPT: Explicit Surface Reconstruction without Normals 作者: Huan Lei 原文: [英文] 备注: Accepted to CVPR 2025 摘要: 神经表面重建一直以来都由隐式表示主导,通过行进立方体进行显式表面提取。然而,这些方法通常需要高质量的法线以实现准确的重建。我们提出了OffsetOPT,这是一种直接从3D点云重建显式表面的方法,消除了对点法线的需求。该方法包括两个阶段:首先,我们训练一个神经网络,根据局部点几何预测表面三角形,给定均匀分布的训练点云。接下来,我们应用冻结的网络,通过优化每个点的偏移来从未见过的点云中重建表面,以最大化三角形预测的准确性。与最先进的方法相比,OffsetOPT不仅在整体表面重建方面表现出色,而且显著保留了尖锐的表面特征。我们在流行的基准测试中展示了其准确性,包括小规模形状和大规模开放表面。 |
|
[24] AutoDrive-QA- 使用大型视觉语言模型为自动驾驶数据集自动生成多项选择题 标题: AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models 作者: Boshra Khalili / Andrew W.Smyth 原文: [英文] [中文] 备注: None 摘要: 在自动驾驶中,开放式问答常常因自由形式的回答需要复杂的评估指标或主观的人类判断而导致不可靠的评估。为了解决这一挑战,我们引入了AutoDrive-QA,这是一种自动化流程,可以将现有的驾驶问答数据集(包括DriveLM、NuScenes-QA和LingoQA)转换为结构化的多项选择题(MCQ)格式。这个基准系统地评估感知、预测和规划任务,提供了一个标准化和客观的评估框架。AutoDrive-QA利用大型语言模型(LLMs)生成高质量、上下文相关的干扰项,这些干扰项基于自动驾驶场景中常见的领域特定错误模式。为了评估一般能力和泛化性能,我们在三个公共数据集上测试了该基准,并在一个未见过的数据集上进行了零样本实验。零样本评估显示,GPT-4V以69.57%的准确率领先——在感知任务中达到74.94%,在预测任务中达到65.33%,在规划任务中达到68.45%——表明尽管所有模型在感知任务中表现出色,但在预测任务中表现较差。因此,AutoDrive-QA为整合和评估不同视觉语言模型在各种自动驾驶数据集中的表现建立了一个严格、公正的标准,从而提高了该领域的泛化能力。我们在AutoDrive-QA的GitHub仓库中发布了所有代码。 |
|
[25] RL4Med-DDPO:使用视觉语言基础模型进行多样化医学图像生成的受控引导强化学习 标题: RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models 作者: Parham Saremi / Amar Kumar / Mohammed Mohammed / Zahra TehraniNasab / Tal Arbel 原文: [英文] [中文] 备注: None 摘要: 视觉-语言基础模型(VLFM)在生成高分辨率、逼真的自然图像方面表现出显著的性能提升。尽管VLFM在跨模态的语义内容理解上表现出色,但在需要图像区域与文本描述之间精确对应的细粒度对齐任务上常常表现不佳,这在医学影像中是一个限制,因为临床特征的准确定位和检测对于诊断和分析至关重要。为了解决这个问题,我们提出了一种多阶段架构,其中预训练的VLFM提供初步的语义理解,而强化学习(RL)算法通过优化语义上下文理解的迭代过程来细化对齐。奖励信号被设计为将文本的语义信息与合成图像对齐。我们在一个医学影像皮肤数据集上展示了我们方法的有效性,生成的图像在生成质量和与提示的对齐方面优于微调的稳定扩散。我们还展示了合成样本可以通过数据增强来提高疾病分类器在代表性不足的亚群体中的性能。 |
|
[26] 图像去马赛克的频率增强 标题: Frequency Enhancement for Image Demosaicking 作者: Jingyun Liu / Daiqin Yang / Zhenzhong Chen 原文: [英文] [中文] 备注: 14 pages, 8 figures 摘要: 恢复图像去马赛克中的高频纹理仍然是一个具有挑战性的问题。虽然现有方法引入了精细的空间学习方法,但它们的性能仍然有限。为了解决这个问题,提出了一种频率增强方法。基于对彩色滤光阵列(CFA)/去马赛克/真实图像的频率分析,我们提出了双路径频率增强网络(DFENet),通过傅里叶域频率选择以分而治之的方式重建RGB图像。在DFENet中,使用了两个频率选择器,每个选择器选择一组频率成分沿着不同路径进行处理。一条路径专注于通过空间域的细节优化生成缺失信息,而另一条路径则旨在通过频率域中CFA图像的指导来抑制不良频率。采用多级频率监督和分阶段训练策略进一步提高重建性能。通过这些设计,所提出的DFENet在不同数据集上优于其他最先进的算法,并在困难案例中表现出显著优势。此外,为了更好地评估算法重建高频纹理的能力,贡献了一个新的数据集LineSet37,该数据集由37张人工设计和生成的图像组成。这些图像具有复杂的线条图案,在去马赛克后容易出现严重的视觉伪影,如颜色摩尔纹。在LineSet37上的实验提供了对挑战性案例性能的更有针对性的评估。代码和数据集可在此https URL获取。 |
|
[27] 以视觉为中心的遥感基准 标题: A Vision Centric Remote Sensing Benchmark 作者: Abduljaleel Adejumo / Faegheh Yeganli / Clifford Broni-bediako / Aoran Xiao / Naoto Yokoya / Mennatullah Siam 原文: [英文] [中文] 备注: 6 PAGES, 7 figures, CVPR 摘要: 多模态大型语言模型(MLLMs)在视觉-语言任务中取得了显著成功,但其在遥感(RS)领域的应用相对较少受到关注。与自然图像不同,遥感图像呈现出独特的挑战,当前的MLLMs难以处理这些挑战,尤其是在视觉定位和空间推理方面。本研究探讨了基于CLIP的MLLMs在遥感领域的局限性,强调了它们无法区分视觉上不同但语义上相似的遥感图像。为了解决这一问题,我们引入了一个遥感多模态视觉模式(RSMMVP)基准。该基准旨在通过识别CLIP盲点对来评估MLLMs在遥感任务中的表现,其中基于CLIP的模型错误地将视觉上不同的遥感图像赋予高相似度分数。通过视觉问答(VQA)评估,我们分析了最先进的MLLMs的表现,揭示了在遥感特定表示学习中的显著局限性。结果为CLIP基础的视觉编码的弱点提供了宝贵的见解,并为未来研究开发更有效的、专为遥感应用量身定制的MLLMs奠定了基础。 |
|
[28] 计算高效且识别友好的三维点云隐私保护 标题: Computation-Efficient and Recognition-Friendly 3D Point Cloud Privacy Protection 作者: Haotian Ma / Lin Gu / Siyi Wu / Yingying Zhu 原文: [英文] [中文] 备注: None 摘要: 3D点云已广泛应用于自动驾驶汽车、机器人、CAD模型等领域。据我们所知,这些应用引发了3D点云中的隐私泄露问题,但这一问题尚未得到充分研究。与涉及纹理和2D几何结构的2D图像隐私不同,3D点云是无纹理的,仅与3D几何结构相关。在这项工作中,我们定义了3D点云隐私问题,并提出了一种高效的隐私保护框架,名为PointFlowGMM,该框架可以在不查看原始数据的情况下支持下游分类和分割任务。通过基于流的生成模型,点云被投射到一个潜在的高斯混合分布子空间中。我们进一步设计了一种新颖的角相似性损失,以模糊原始几何结构,并将模型大小从767MB减少到120MB,而不降低识别性能。潜在空间中的投射点云被随机正交旋转,以进一步保护原始几何结构,旋转后类与类之间的关系得以保留,因此,受保护的点云可以支持识别任务。我们在多个数据集上评估了我们的模型,在加密点云上实现了与原始点云相当的识别结果。 |
|
[29] EDEN:用于高质量大运动视频帧插值的增强扩散 标题: EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation 作者: Zihao Zhang / Haoran Chen / Haoyu Zhao / Guansong Lu / Yanwei Fu / Hang Xu / Zuxuan Wu 原文: [英文] [中文] 备注: CVPR2025 摘要: 处理复杂或非线性运动模式一直是视频帧插值中的难题。尽管最近基于扩散的方法在传统的光流方法上有所改进,但在大运动场景中生成清晰、时间一致的帧仍然存在困难。为了解决这一限制,我们引入了EDEN,一种用于高质量大运动视频帧插值的增强扩散方法。我们的方法首先利用基于变压器的标记器为扩散模型生成精细的中间帧潜在表示。然后,我们通过整个过程中的时间注意力增强扩散变压器,并结合起始-结束帧差异嵌入来指导动态运动的生成。大量实验表明,EDEN在流行的基准测试中实现了最先进的结果,包括在DAVIS和SNU-FILM上近10%的LPIPS减少,以及在DAIN-HD上8%的改进。 |
|
[30] BARD-GS:通过高斯散点进行动态场景的模糊感知重建 标题: BARD-GS: Blur-Aware Reconstruction of Dynamic Scenes via Gaussian Splatting 作者: Yiren Lu / Yunlai Zhou / Disheng Liu / Tuo Liang / Yu Yin 原文: [英文] [中文] 备注: CVPR2025. Project page at this https URL 摘要: 3D Gaussian Splatting (3DGS) 在静态场景重建方面表现出显著的潜力,最近的进展已将其应用扩展到动态场景。然而,重建质量在很大程度上依赖于高质量的输入图像和精确的相机姿态,而在现实世界中实现这些条件并不容易。例如,用手持单目相机捕捉动态场景通常涉及相机和物体在单次曝光中的同时移动。这种组合运动常常导致图像模糊,而现有方法无法充分处理这些问题。为了解决这些挑战,我们引入了 BARD-GS,这是一种用于鲁棒动态场景重建的新方法,能够有效处理模糊输入和不精确的相机姿态。我们的方法包括两个主要组件:1)相机运动去模糊和 2)物体运动去模糊。通过将运动模糊明确分解为相机运动模糊和物体运动模糊并分别建模,我们在动态区域实现了显著改进的渲染结果。此外,我们收集了一个真实世界动态场景的运动模糊数据集来评估我们的方法。大量实验表明,BARD-GS 在现实条件下有效地重建了高质量的动态场景,显著优于现有方法。 |
|
[31] 现成的大型多模态模型能为动态场景图生成做些什么? 标题: What can Off-the-Shelves Large Multi-Modal Models do for Dynamic Scene Graph Generation? 作者: Xuanming Cui / Jaiminkumar Ashokbhai Bhoi / Chionh Wei Peng / Adriel Kuek / Ser Nam Lim 原文: [英文] [中文] 备注: None 摘要: 动态场景图生成(DSGG)对于视频来说是计算机视觉中的一项具有挑战性的任务。现有的方法通常专注于复杂的架构设计,并在评估时仅使用召回率。我们仔细研究了它们预测的场景图,发现现有DSGG方法存在三个关键问题:严重的精确率-召回率权衡、对三元组重要性缺乏认识以及不恰当的评估协议。另一方面,最近的大型多模态模型(LMMs)在视频理解方面展示了强大的能力,但尚未在DSGG这样细粒度、逐帧理解的任务中进行测试。在这项工作中,我们首次对视频LMMs在执行DSGG任务中的表现进行了系统分析。我们展示了无需依赖复杂的架构设计,具有简单解码器结构的LMMs可以转变为最先进的场景图生成器,有效克服上述问题,同时只需少量微调(5-10%的训练数据)。 |
|
[32] 零-1-到-A:使用视频扩散从零样本单图像生成可动画化头像 标题: Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion 作者: Zhou Zhenglin / Ma Fan / Fan Hehe / Chua Tat-Seng 原文: [英文] 备注: Accepted by CVPR 2025, project page: this https URL 摘要: 可动画头像生成通常需要大量数据进行训练。为了减少数据需求,一个自然的解决方案是利用现有的无数据静态头像生成方法,例如使用预训练的扩散模型和得分蒸馏采样(SDS),将头像与扩散模型的伪真实输出对齐。然而,直接从视频扩散中蒸馏4D头像通常会导致结果过于平滑,因为生成的视频在空间和时间上存在不一致性。为了解决这个问题,我们提出了Zero-1-to-A,这是一种稳健的方法,使用视频扩散模型合成一个空间和时间一致性数据集,用于4D头像重建。具体来说,Zero-1-to-A以迭代的方式构建视频数据集,并以渐进的方式优化可动画头像,确保头像质量在学习过程中平稳且一致地提高。这种渐进学习包括两个阶段:(1)空间一致性学习固定表情并从正面到侧面视图学习,(2)时间一致性学习固定视图并从放松到夸张的表情学习,以简单到复杂的方式生成4D头像。大量实验表明,Zero-1-to-A在保真度、动画质量和渲染速度方面优于现有的基于扩散的方法,为逼真的头像创建提供了一个解决方案。代码可在此网址公开获取:this https URL。 |
|
[33] VideoRFSplat:直接场景级文本到3D高斯喷溅生成,具有灵活的姿态和多视角联合建模 标题: VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling 作者: Hyojun Go / Byeongjun Park / Hyelin Nam / Byung-Hoon Kim / Hyungjin Chung / Changick Kim 原文: [英文] 备注: Project page: this https URL 摘要: 我们提出了VideoRFSplat,这是一种直接从文本生成3D模型的方法,利用视频生成模型生成真实的3D高斯喷溅(3DGS)用于无限制的真实场景。为了生成多样的相机姿态和无限空间范围的真实场景,同时确保对任意文本提示的泛化,之前的方法对2D生成模型进行微调,以联合建模相机姿态和多视图图像。然而,由于模态差异,这些方法在扩展2D生成模型到联合建模时存在不稳定性,这需要额外的模型来稳定训练和推理。在这项工作中,我们提出了一种架构和采样策略,在微调视频生成模型时联合建模多视图图像和相机姿态。我们的核心思想是双流架构,通过通信模块将专用的姿态生成模型附加到预训练的视频生成模型旁边,通过独立的流生成多视图图像和相机姿态。该设计减少了姿态和图像模态之间的干扰。此外,我们提出了一种异步采样策略,比多视图图像更快地去噪相机姿态,使快速去噪的姿态能够为多视图生成提供条件,减少相互模糊性并增强跨模态一致性。经过多个大规模真实数据集(RealEstate10K、MVImgNet、DL3DV-10K、ACID)的训练,VideoRFSplat在不依赖于通过得分蒸馏采样进行事后精炼的情况下,优于现有的文本到3D直接生成方法,取得了更优的结果。 |
|
[34] TruthLens:用于面部操控和完全合成数据的可解释DeepFake检测 标题: TruthLens: Explainable DeepFake Detection for Face Manipulated and Fully Synthetic Data 作者: Rohit Kundu / Athula Balachandran / Amit K. Roy-Chowdhury 原文: [英文] [中文] 备注: None 摘要: 检测DeepFakes已经成为一个重要的研究领域,因为AI图像生成器的广泛使用使得面部操控和完全合成内容的创建变得轻而易举。然而,现有的方法通常仅限于二元分类(真实与伪造),且缺乏可解释性。为了解决这些挑战,我们提出了TruthLens,这是一种新颖且高度可推广的DeepFake检测框架,不仅可以判断图像是真实的还是伪造的,还能为其预测提供详细的文本推理。与传统方法不同,TruthLens能够有效处理面部操控的DeepFakes和完全由AI生成的内容,同时解决诸如“眼睛/鼻子/嘴巴看起来是真实的还是伪造的?”等细粒度查询。 TruthLens的架构结合了多模态大型语言模型(如PaliGemma2)的全局上下文理解能力和仅视觉模型(如DINOv2)的局部特征提取能力。这种混合设计利用了两种模型的互补优势,使得在保持可解释性的同时,能够稳健地检测出细微的操控。对多样化数据集的广泛实验表明,TruthLens在检测准确性(提高2-14%)和可解释性方面优于最先进的方法,无论是在域内还是跨数据设置中,都能有效地推广到传统和新兴的操控技术。 |
|
[35] UniCoRN:基于潜在扩散的统一可控图像修复网络,适用于多种退化 标题: UniCoRN: Latent Diffusion-based Unified Controllable Image Restoration Network across Multiple Degradations 作者: Debabrata Mandal / Soumitri Chattopadhyay / Guansen Tong / Praneeth Chakravarthula 原文: [英文] [中文] 备注: None 摘要: 图像修复在增强计算机视觉任务中的退化图像方面至关重要。然而,大多数现有方法一次只处理一种退化类型(例如,模糊、噪声或雾霾),这限制了它们在现实世界中的适用性,因为在现实中多种退化通常会同时发生。在本文中,我们提出了UniCoRN,一种统一的图像修复方法,能够使用多头扩散模型同时处理多种退化类型。具体来说,我们发掘了从图像中提取的低级视觉线索在引导可控扩散模型进行真实世界图像修复中的潜力,并设计了一种通过专家混合策略适应的多头控制网络。我们在没有任何特定退化的先验假设下,通过精心设计的课程学习方案训练我们的模型。此外,我们还引入了MetaRestore,一个包含多种退化和伪影的金属透镜成像基准。对几个具有挑战性的数据集(包括我们的基准)的广泛评估表明,我们的方法实现了显著的性能提升,并且能够稳健地修复严重退化的图像。项目页面:this https URL |
|
[36] MASH-VLM:通过解缠空间-时间表征缓解视频-LLMs中的动作场景幻觉 标题: MASH-VLM: Mitigating Action-Scene Hallucination in Video-LLMs through Disentangled Spatial-Temporal Representations 作者: Kyungho Bae / Jinhyung Kim / Sihaeng Lee / Soonyoung Lee / Gunhee Lee / Jinwoo Choi 原文: [英文] [中文] 备注: Accepted for CVPR 2025 摘要: 在这项工作中,我们解决了视频大语言模型(Video-LLMs)中的动作场景幻觉问题,即模型基于场景上下文错误地预测动作或基于观察到的动作错误地预测场景。我们观察到,现有的Video-LLMs通常由于两个主要因素而遭受动作场景幻觉的困扰。首先,现有的Video-LLMs通过在所有标记上应用注意力操作,将空间和时间特征混合在一起。其次,它们使用标准的旋转位置嵌入(RoPE),这导致文本标记根据其顺序过度强调某些类型的标记。为了解决这些问题,我们引入了MASH-VLM,通过解耦的时空表示来缓解Video-LLMs中的动作场景幻觉。我们的方法包括两个关键创新:(1)DST-attention,一种新颖的注意力机制,通过使用掩码注意力限制空间和时间标记之间的直接交互,从而解耦LLM中的空间和时间标记;(2)Harmonic-RoPE,它扩展了位置ID的维度,使空间和时间标记能够相对于文本标记保持平衡的位置。为了评估Video-LLMs中的动作场景幻觉,我们引入了UNSCENE基准,包含1,320个视频和4,078个问答对。大量实验表明,MASH-VLM在UNSCENE基准以及现有的视频理解基准上都达到了最先进的结果。 |
|
[37] MiLA:用于自动驾驶的多视图高保真长期视频生成世界模型 标题: MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving 作者: Haiguang Wang / Daqi Liu / Hongwei Xie / Haisong Liu / Enhui Ma / Kaicheng Yu / Limin Wang / Bing Wang 原文: [英文] [中文] 备注: project website: this https URL 摘要: 近年来,数据驱动技术极大地推动了自动驾驶系统的发展,但对稀有和多样化训练数据的需求仍然是一个挑战,需要在设备和人力上进行大量投资。世界模型通过预测和生成未来的环境状态,为训练合成带注释的视频数据,提供了一种有前景的解决方案。然而,现有方法在生成长时间、一致性视频时容易积累错误,特别是在动态场景中。为了解决这个问题,我们提出了MiLA,这是一种用于生成高保真、长时长视频(最长可达一分钟)的新框架。MiLA采用粗到精的方法来稳定视频生成并校正动态物体的失真。此外,我们引入了时间渐进去噪调度器和联合去噪与校正流模块,以提高生成视频的质量。在nuScenes数据集上的大量实验表明,MiLA在视频生成质量方面达到了最新的性能。更多信息,请访问项目网站:this https URL。 |
|
[38] 利用高斯图谱将二维扩散模型重新用于三维生成 标题: Repurposing 2D Diffusion Models with Gaussian Atlas for 3D Generation 作者: Tiange Xiang / Kai Li / Chengjiang Long / Christian Häne / Peihong Guo / Scott Delp / Ehsan Adeli / Li Fei-Fei 原文: [英文] [中文] 备注: None 摘要: 最近在文本到图像扩散模型方面的进展得益于越来越多的配对二维数据。然而,三维扩散模型的发展受到高质量三维数据稀缺的阻碍,导致其性能不如二维模型。为了解决这一挑战,我们提出重新利用预训练的二维扩散模型来生成三维对象。我们引入了高斯图集,这是一种利用密集二维网格的新颖表示方法,使得二维扩散模型能够微调以生成三维高斯。我们的方法展示了从预训练的二维扩散模型到从三维结构展平的二维流形的成功迁移学习。为了支持模型训练,我们编制了GaussianVerse,一个包含205K各种三维对象的高质量三维高斯拟合的大规模数据集。我们的实验结果表明,文本到图像扩散模型可以有效地适应三维内容生成,弥合二维和三维建模之间的差距。 |
|
[39] 通过类人概念指导增强视觉语言模型中的零样本图像识别 标题: Enhancing Zero-Shot Image Recognition in Vision-Language Models through Human-like Concept Guidance 作者: Hui Liu / Wenya Wang / Kecheng Chen / Jie Liu / Yibing Liu / Tiexin Qin / Peisong He / Xinghao Jiang / Haoliang Li 原文: [英文] [中文] 备注: 21 pages, 7 figures 7 tables 摘要: 在零样本图像识别任务中,人类通过组合已知的简单概念展示了在分类未见类别方面的显著灵活性。然而,现有的视觉-语言模型(VLMs)尽管通过大规模自然语言监督取得了显著进展,但由于次优的提示工程和无法有效适应目标类别,往往在实际应用中表现不佳。为了解决这些问题,我们提出了一种概念引导的人类般贝叶斯推理(CHBR)框架。基于贝叶斯定理,CHBR将人类图像识别中使用的概念建模为潜在变量,并通过对潜在概念进行加权求和来制定这一任务,权重由先验分布和似然函数决定。为了应对无限概念空间的不可处理计算,我们引入了一种重要性采样算法,该算法迭代地提示大型语言模型(LLMs)生成区分性概念,强调类别间的差异。我们进一步提出了三种启发式方法,包括平均似然、置信似然和测试时增强(TTA)似然,这些方法根据测试图像动态优化概念的组合。在十五个数据集上的广泛评估表明,CHBR始终优于现有的最先进的零样本泛化方法。 |
|
[40] DocVideoQA:通过问答全面理解以文档为中心的视频 标题: DocVideoQA: Towards Comprehensive Understanding of Document-Centric Videos through Question Answering 作者: Haochen Wang / Kai Hu / Liangcai Gao 原文: [英文] [中文] 备注: None 摘要: 远程工作和在线课程已成为知识传播的重要方式,导致大量基于文档的教学视频的出现。与传统视频数据集不同,这些视频主要以丰富的文本图像和音频为特色,信息密集且与视觉内容紧密相关,需要先进的多模态理解能力。然而,由于数据集的可用性及其固有的复杂性,这一领域仍然未被充分探索。在本文中,我们首次介绍了DocVideoQA任务和数据集,该数据集包括1454个视频,涵盖23个类别,总时长约828小时。数据集通过人工和GPT生成了154k个问答对,用于评估模型的理解能力、时间意识和模态整合能力。我们首先使用开源MLLMs建立了一个基线。鉴于文档中心视频的模态理解挑战,我们提出了DV-LLaMA,一个强大的视频MLLM基线。我们的方法通过多样的指令调优数据增强单模态特征提取,并采用对比学习来加强模态整合。通过微调,LLM具备了视听能力,显著提升了文档中心视频的理解能力。在DocVideoQA数据集上的广泛测试表明,DV-LLaMA显著优于现有模型。我们将发布代码和数据集以促进未来的研究。 |
|
[41] UMIT:通过视觉-语言模型统一医学影像任务 标题: UMIT: Unifying Medical Imaging Tasks via Vision-Language Models 作者: Haiyang Yu / Siyang Yi / Ke Niu / Minghan Zhuo / Bin Li 原文: [英文] 备注: None 摘要: 随着深度学习的快速发展,特别是在医学图像分析领域,越来越多的视觉-语言模型(VLMs)被广泛应用于解决复杂的健康和生物医学挑战。然而,现有研究主要集中于特定任务或单一模态,这限制了它们在多样化医疗场景中的适用性和泛化能力。为了解决这一挑战,我们提出了UMIT,这是一种专为医学成像任务设计的统一多模态、多任务视觉-语言模型。UMIT能够解决各种任务,包括视觉问答、疾病检测和医学报告生成。此外,它适用于多种成像模态(如X光、CT和PET),涵盖从基础诊断到复杂病变分析的广泛应用。此外,UMIT支持英语和中文,扩大了其全球适用性,并确保在不同语言环境中获得医疗服务的可及性。为了增强模型的适应性和任务处理能力,我们设计了一个独特的两阶段训练策略,并使用设计的指令模板对UMIT进行微调。通过广泛的实证评估,UMIT在多个数据集的五个任务中表现优于以往的方法。UMIT的性能表明,它可以显著提高诊断准确性和工作流程效率,从而为医学成像应用提供有效的解决方案。 |
|
[42] UniHDSA:一种用于层次文档结构分析的统一关系预测方法 标题: UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis 作者: Jiawei Wang / Kai Hu / Qiang Huo 原文: [英文] [中文] 备注: Accepted by Pattern Recognition. arXiv admin note: substantial text overlap with arXiv:2405.11757 摘要: 文档结构分析,又称文档布局分析,对于理解文档的物理布局和逻辑结构至关重要,服务于信息检索、文档摘要、知识提取等领域。层次化文档结构分析(HDSA)特别旨在恢复使用具有层次化模式的创作软件创建的文档的层次结构。以往的研究主要遵循两种方法:一种是专注于单独处理HDSA的特定子任务,如表格检测或阅读顺序预测;另一种则采用统一框架,使用多个分支或模块,每个模块设计用于解决一个不同的任务。在这项工作中,我们提出了一种用于HDSA的统一关系预测方法,称为UniHDSA,它将各种HDSA子任务视为关系预测问题,并将关系预测标签整合到一个统一的标签空间中。这使得单一的关系预测模块能够同时处理多个任务,无论是在页面级别还是文档级别的结构分析。为了验证UniHDSA的有效性,我们开发了一个基于Transformer架构的多模态端到端系统。广泛的实验结果表明,我们的方法在层次化文档结构分析基准Comp-HRDoc上达到了最先进的性能,并在大规模文档布局分析数据集DocLayNet上取得了具有竞争力的结果,有效地展示了我们方法在所有子任务上的优越性。 |
|
[43] 使用神经上下文场景图学习三维场景类比 标题: Learning 3D Scene Analogies with Neural Contextual Scene Maps 作者: Junho Kim / Gwangtak Bae / Eun Sun Lee / Young Min Kim 原文: [英文] 备注: None 摘要: 理解场景上下文对于机器执行任务和在未见或嘈杂的3D环境中适应先验知识至关重要。由于数据驱动的学习难以全面涵盖多样化的布局和开放空间,我们提出教导机器识别3D空间中的关系共性。我们引入3D场景类比,而不是专注于点或对象的表示,这些类比是3D场景区域之间的平滑映射,能够对齐空间关系。与研究充分的单实例级映射不同,这些场景级映射平滑地连接大型场景区域,可能在AR/VR中的轨迹转移、模仿学习的长演示转移以及上下文感知的对象重新排列中实现独特的应用。为了找到3D场景类比,我们提出了神经上下文场景映射,它提取描述符字段以总结语义和几何上下文,并以粗到细的方式整体对齐它们以进行映射估计。这种方法减少了对单个特征点的依赖,使其对输入噪声或形状变化具有鲁棒性。实验表明,我们的方法在识别场景类比以及在多样化的室内场景中转移轨迹或对象放置方面的有效性,表明其在机器人技术和AR/VR应用中的潜力。 |
|
[44] 重建自然环境中的开放词汇人类-物体交互 标题: Reconstructing In-the-Wild Open-Vocabulary Human-Object Interactions 作者: Boran Wen / Dingbang Huang / Zichen Zhang / Jiahong Zhou / Jianbin Deng / Jingyu Gong / Yulong Chen / Lizhuang Ma / Yong-Lu Li 原文: [英文] 备注: Accepted to CVPR 2025 摘要: 从单张图像重建人-物交互(HOI)是计算机视觉中的基础问题。现有的方法主要在室内场景中进行训练和测试,这是由于缺乏3D数据,特别是受限于物体的多样性,使得在具有广泛物体的真实场景中进行泛化变得具有挑战性。之前的3D HOI数据集的局限性主要是由于获取3D物体资产的困难。然而,随着从单张图像进行3D重建技术的发展,最近已经可以从2D HOI图像中重建各种物体。因此,我们提出了一种从单张图像中标注细粒度3D人、物体及其交互的流程。我们从现有的2D HOI数据集中标注了超过2.5k的3D HOI资产,并构建了第一个开放词汇的野外3D HOI数据集Open3DHOI,作为未来的测试集。此外,我们设计了一种新颖的高斯-HOI优化器,它能够高效地重建人和物体之间的空间交互,同时学习接触区域。除了3D HOI重建,我们还提出了几个新的3D HOI理解任务,为未来的工作铺平道路。数据和代码将在此https URL公开。 |
|
[45] Jasmine:利用扩散先验进行自监督深度估计 标题: Jasmine: Harnessing Diffusion Prior for Self-supervised Depth Estimation 作者: Jiyuan Wang / Chunyu Lin / Cheng Guan / Lang Nie / Jing He / Haodong Li / Kang Liao / Yao Zhao 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们提出了Jasmine,这是第一个基于稳定扩散(SD)的单目深度估计自监督框架,它有效地利用了SD的视觉先验来增强无监督预测的清晰度和泛化能力。之前基于SD的方法都是有监督的,因为将扩散模型应用于密集预测需要高精度的监督。相比之下,自监督重投影面临固有的挑战(例如遮挡、无纹理区域、光照变化),预测结果会出现模糊和伪影,严重影响SD的潜在先验。为了解决这个问题,我们构建了一种新颖的混合图像重建代理任务。在没有任何额外监督的情况下,它通过重建图像本身来保留SD模型的细节先验,同时防止深度估计退化。此外,为了解决SD的尺度和偏移不变估计与自监督尺度不变深度估计之间的固有不对齐问题,我们构建了尺度-偏移GRU。它不仅弥合了这种分布差距,还隔离了SD输出的细粒度纹理,避免了重投影损失的干扰。大量实验表明,Jasmine在KITTI基准上达到了最先进的性能,并在多个数据集上表现出卓越的零样本泛化能力。 |
|
[46] 通过伪标签增强近景新视图合成 标题: Enhancing Close-up Novel View Synthesis via Pseudo-labeling 作者: Jiatong Xia / Libo Sun / Lingqiao Liu 原文: [英文] [中文] 备注: Accepted by AAAI 2025 摘要: 最近的方法,如神经辐射场(NeRF)和三维高斯喷射(3DGS),在新视图合成方面表现出了显著的能力。然而,尽管它们在生成与训练期间所见视点相似的高质量图像方面取得了成功,但在从与训练集显著偏离的视点生成详细图像时,尤其是在特写视图中,它们表现不佳。主要挑战源于缺乏特写视图的特定训练数据,导致当前方法无法准确渲染这些视图。为了解决这个问题,我们引入了一种新的基于伪标签的学习策略。该方法利用从现有训练数据中派生的伪标签,为广泛的特写视点提供有针对性的监督。鉴于缺乏针对这一特定挑战的基准,我们还提出了一个新的数据集,用于评估当前和未来方法在这一领域的有效性。我们的广泛实验证明了我们方法的有效性。 |
|
[47] 无物,无事:在恶劣天气中突出安全关键类别以实现鲁棒的激光雷达语义分割 标题: No Thing, Nothing: Highlighting Safety-Critical Classes for Robust LiDAR Semantic Segmentation in Adverse Weather 作者: Junsung Park / Hwijeong Lee / Inha Kang / Hyunjung Shim 原文: [英文] [中文] 备注: 18 pages, CVPR 2025 摘要: 现有的在恶劣天气下进行LiDAR语义分割的领域泛化方法,相较于“物体”类别,难以准确预测“东西”类别。在典型的驾驶场景中,“物体”类别可能是动态的,并且与较高的碰撞风险相关,这使得它们对于安全导航和规划至关重要。认识到“物体”类别的重要性,我们将其性能下降视为现有方法中的一个严重瓶颈。我们观察到,恶劣天气会导致语义级特征的退化以及局部特征的损坏,从而导致将“物体”误判为“东西”。为减轻这些损坏,我们提出了我们的方法,NTN - segmeNt Things for No-accident。为解决语义级特征损坏问题,我们将每个点特征绑定到其超类,防止将物体类误判为视觉上不相似的类别。此外,为增强对恶劣天气导致的局部损坏的鲁棒性,我们将每个LiDAR光束定义为一个局部区域,并提出一个正则化项,在特征空间中对齐干净数据与其损坏的对应部分。NTN在SemanticKITTI-to-SemanticSTF基准上实现了+2.6 mIoU的性能提升,在SemanticPOSS-to-SemanticSTF基准上实现了+7.9 mIoU的提升。值得注意的是,NTN在“物体”类别上分别实现了+4.8和+7.9 mIoU的改进,突显了其有效性。 |
|
[48] 基于文本驱动的扩散模型用于手语生成 标题: Text-Driven Diffusion Model for Sign Language Production 作者: Jiayi He / Xu Wang / Ruobei Zhang / Shengeng Tang / Yaxiong Wang / Lechao Cheng 原文: [英文] [中文] 备注: 10 pages, 7 figures 摘要: 我们介绍了 hfut-lmc 团队在 SLRTP 手语生成挑战赛中的解决方案。该挑战赛旨在从文本输入生成语义对齐的手语姿势序列。为此,我们提出了一个文本驱动扩散模型(TDM)框架。在训练阶段,TDM 利用编码器对文本序列进行编码,并将其作为条件输入合并到扩散模型中,以生成手语姿势序列。为了保证生成的姿势序列的高质量和准确性,我们使用了两个关键的损失函数。关节损失函数 L_{joint} 用于精确测量和最小化生成的姿势序列的关节位置与真实值之间的差异。同样,骨骼方向损失函数 L_{bone} 在确保生成的姿势中骨骼的方向与实际正确的方向一致方面起着重要作用。在推理阶段,TDM 框架承担了一个不同但同样重要的任务。它从噪声序列开始,在文本条件的严格约束下,逐步优化并生成语义一致的手语姿势序列。我们精心设计的框架在手语生成任务中表现良好,我们的解决方案在挑战赛中获得了 20.17 的 BLEU-1 分数,排名第二。 |
|
[49] 学习高效地调整基础模型以实现来自任意相机的自监督内窥镜3D场景重建 标题: Learning to Efficiently Adapt Foundation Models for Self-Supervised Endoscopic 3D Scene Reconstruction from Any Cameras 作者: Beilei Cui / Long Bai / Mobarakol Islam / An Wang / Zhiqi Ma / Yiming Huang / Feng Li / Zhen Chen / Zhongliang Jiang / Nassir Navab / Hongliang Ren 原文: [英文] [中文] 备注: None 摘要: 准确的3D场景重建对于众多医疗任务至关重要。鉴于获取真实数据的挑战,近年来对内窥镜深度估计的自监督学习(SSL)作为场景重建基础的关注日益增加。尽管基础模型在视觉任务中取得了显著进展,但其在医学领域的直接应用往往导致次优结果。然而,这些模型的视觉特征仍然可以增强内窥镜任务,这突显了高效适应策略的必要性,而这方面目前仍缺乏探索。在本文中,我们介绍了Endo3DAC,一个用于内窥镜场景重建的统一框架,能够高效地适应基础模型。我们设计了一个集成网络,能够同时估计深度图、相对姿态和相机内参。通过冻结基础模型的骨干网络,仅训练专门设计的基于门控动态向量的低秩适应(GDV-LoRA)和独立的解码器头,Endo3DAC在保持训练效率的同时,实现了卓越的深度和姿态估计。此外,我们提出了一个3D场景重建流程,基于我们的集成网络优化深度图的尺度、偏移和少量参数。跨四个内窥镜数据集的大量实验表明,Endo3DAC在需要更少可训练参数的情况下,显著优于其他最先进的方法。据我们所知,我们是首个利用单一网络,仅需手术视频即可同时执行SSL深度估计和场景重建任务的研究。代码将在论文被接受后发布。 |
|
[50] BlockDance:重用结构相似的时空特征以加速扩散变换器 标题: BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers 作者: Hui Zhang / Tingwei Gao / Jie Shao / Zuxuan Wu 原文: [英文] [中文] 备注: Accepted by CVPR2025 摘要: 扩散模型展示了令人印象深刻的生成能力,特别是最近利用变压器架构的进步来提高视觉和艺术质量。然而,扩散变压器(DiTs)仍然面临与低推理速度相关的挑战,主要是由于迭代去噪过程。为了解决这个问题,我们提出了BlockDance,这是一种无需训练的方法,通过探索相邻时间步的特征相似性来加速DiTs。与之前缺乏针对不同尺度特征的定制重用策略的特征重用方法不同,BlockDance优先识别结构上最相似的特征,称为结构相似时空(STSS)特征。这些特征主要位于去噪后期变压器的结构聚焦块中。BlockDance缓存并重用这些高度相似的特征,以减少冗余计算,从而加速DiTs,同时最大限度地保持与原始模型生成结果的一致性。此外,考虑到生成内容的多样性和冗余特征的不同分布,我们引入了BlockDance-Ada,一种轻量级决策网络,专为实例特定加速而设计。BlockDance-Ada动态分配资源并提供卓越的内容质量。BlockDance和BlockDance-Ada在各种生成任务和模型中均已证明有效,实现了25%到50%的加速,同时保持生成质量。 |
|
[51] DnLUT:通过通道感知查找表实现超高效彩色图像去噪 标题: DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables 作者: Sidi Yang / Binxiao Huang / Yulun Zhang / Dahai Yu / Yujiu Yang / Ngai Wong 原文: [英文] [中文] 备注: Accepted by CVPR2025 摘要: 虽然深度神经网络已经彻底改变了图像去噪的能力,但由于其巨大的计算和内存需求,在边缘设备上的部署仍然具有挑战性。为此,我们提出了DnLUT,一种超高效的基于查找表的框架,能够以最小的资源消耗实现高质量的彩色图像去噪。我们的关键创新在于两个互补的组件:一个成对通道混合器(PCM),能够有效地并行捕捉通道间的相关性和空间依赖性,以及一种新颖的L形卷积设计,最大化感受野覆盖同时最小化存储开销。通过在训练后将这些组件转换为优化的查找表,DnLUT实现了显著的效率——仅需500KB存储和0.1%的能量消耗,相比其CNN竞争者DnCNN,同时提供20倍更快的推理速度。大量实验表明,DnLUT在PSNR上比所有现有的基于查找表的方法高出超过1dB,建立了资源高效彩色图像去噪的新标杆。项目可在此https URL获取。 |
|
[52] SaMam: 用于任意图像风格迁移的风格感知状态空间模型 标题: SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer 作者: Hongda Liu / Longguang Wang / Ye Zhang / Ziru Yu / Yulan Guo 原文: [英文] 备注: 11 pages, 10 figures, 2 tables 摘要: 全局有效感受野在图像风格迁移(ST)中起着至关重要的作用,以获得高质量的风格化结果。然而,现有的ST骨干网络(例如CNN和Transformer)在实现全局感受野时面临巨大的计算复杂性。最近,状态空间模型(SSM),尤其是改进的变体Mamba,在具有线性复杂度的长距离依赖建模方面显示出巨大潜力,这为解决上述困境提供了一种方法。在本文中,我们开发了一种基于Mamba的风格迁移框架,称为SaMam。具体来说,设计了一个mamba编码器以有效提取内容和风格信息。此外,开发了一种风格感知的mamba解码器,以灵活适应各种风格。此外,为了解决现有SSM的局部像素遗忘、通道冗余和空间不连续性问题,我们引入了局部增强和之字形扫描。定性和定量结果表明,我们的SaMam在准确性和效率方面优于最先进的方法。 |
|
[53] UniCrossAdapter:用于放射学报告生成的CLIP多模态适配 标题: UniCrossAdapter: Multimodal Adaptation of CLIP for Radiology Report Generation 作者: Yaxiong Chen / Chuang Du / Chunlei Li / Jingliang Hu / Yilei Shi / Shengwu Xiong / Xiao Xiang Zhu / Lichao Mou 原文: [英文] [中文] 备注: MICCAI 2024 Workshop 摘要: 自动化放射学报告生成旨在加速放射科医生繁琐且易出错的报告过程。尽管最近的研究取得了一定进展,但由于标注的医学数据相对稀缺,学习对齐医学图像和文本发现仍然具有挑战性。例如,用于此任务的数据集比计算机视觉中的图像描述数据集要小得多。在这项工作中,我们提出将CLIP(一个大规模预训练的视觉-语言模型)的表示转移,以更好地捕捉图像和文本之间的跨模态语义。然而,由于自然图像和放射学之间的领域差异,直接应用CLIP效果不佳。为了实现高效的适应,我们引入了UniCrossAdapter,这是一种轻量级的适配器模块,集成到CLIP中并在目标任务上进行微调,同时保持基础参数不变。适配器分布在不同模态及其交互中,以增强视觉-语言对齐。在两个公共数据集上的实验表明,我们的方法有效地推动了放射学报告生成的最新技术水平。所提出的迁移学习框架提供了一种利用大规模预训练模型的语义知识来解决数据稀缺的医学视觉-语言任务的方法。代码可在此https URL获取。 |
|
[54] 不要与幻觉对抗,利用它们:使用原子事实上的自然语言推理来估计图像真实性 标题: Don't Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts 作者: Elisei Rykov / Kseniia Petrushina / Kseniia Titova / Alexander Panchenko / Vasily Konovalov 原文: [英文] [中文] 备注: Proceedings of De-Factify 4: 4nd Workshop on Multimodal Fact Checking and Hate Speech Detection, co-located with AAAI-2025 摘要: 量化图像的真实感在人工智能领域仍然是一个具有挑战性的问题。例如,一张阿尔伯特·爱因斯坦拿着智能手机的图像违反了常识,因为现代智能手机是在爱因斯坦去世后才发明的。我们引入了一种新方法,使用大型视觉语言模型(LVLMs)和自然语言推理(NLI)来评估图像的真实感。我们的方法基于这样一个前提:当面对违反常识的图像时,LVLMs可能会产生幻觉。通过使用LVLM从这些图像中提取原子事实,我们获得了一组准确的事实和错误的幻觉。接下来,我们计算这些事实之间的成对蕴涵分数,并将这些值聚合以得出一个单一的现实分数。这个过程有助于识别真实事实与幻觉元素之间的矛盾,标志着存在违反常识的图像。我们的方法在WHOOPS!数据集的零样本模式下达到了新的最先进性能。 |
|
[55] 因果CLIPSeg:通过因果干预释放CLIP在医学图像分割中的潜力 标题: CausalCLIPSeg: Unlocking CLIP's Potential in Referring Medical Image Segmentation with Causal Intervention 作者: Yaxiong Chen / Minghong Wei / Zixuan Zheng / Jingliang Hu / Yilei Shi / Shengwu Xiong / Xiao Xiang Zhu / Lichao Mou 原文: [英文] [中文] 备注: MICCAI 2024 摘要: 指代医学图像分割的目标是根据文本描述来划定病变区域。由于视觉和文本线索的数据属性不同,对其进行对齐具有挑战性。受到大规模预训练视觉-语言模型的启发,我们提出了CausalCLIPSeg,这是一种利用CLIP的端到端指代医学图像分割框架。尽管没有在医学数据上进行训练,我们通过量身定制的跨模态解码方法将CLIP丰富的语义空间强制应用于医学领域,以实现文本到像素的对齐。此外,为了减轻可能导致模型学习虚假相关性而非有意义的因果关系的混杂偏差,CausalCLIPSeg引入了一个因果干预模块,该模块自我标注混杂因素并从输入中挖掘因果特征以进行分割判断。我们还设计了一种对抗性最大-最小博弈,以优化因果特征,同时惩罚混杂特征。大量实验表明我们提出的方法具有最先进的性能。代码可在此https URL获取。 |
|
[56] 超越可见光:用于地球观测的多光谱视觉-语言学习 标题: Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation 作者: Clive Tinashe Marimo / Benedikt Blumenstiel / Maximilian Nitsche / Johannes Jakubik / Thomas Brunschwiler 原文: [英文] [中文] 备注: None 摘要: 地球观测(EO)的视觉语言模型通常依赖于视觉光谱数据作为唯一的模型输入,因此未能充分利用卫星记录的多光谱通道中丰富的光谱信息。因此,在本文中,我们介绍了Llama3-MS-CLIP,这是第一个在大规模多光谱数据集上通过对比学习预训练的视觉语言模型,并报告了由于扩展光谱范围而带来的性能提升。此外,我们呈现了迄今为止最大的多光谱数据图像-字幕数据集,该数据集由一百万个Sentinel-2样本及其对应的由Llama3-LLaVA-Next和Overture Maps数据生成的文本描述组成。我们开发了一个可扩展的字幕生成流程,并由领域专家进行了验证。我们在三个复杂程度不同的数据集上评估了Llama3-MS-CLIP的多光谱零样本图像分类和检索性能。我们的结果表明,Llama3-MS-CLIP显著优于其他基于RGB的方法,平均提高了6.77%的分类准确率和4.63%的mAP检索性能,相较于第二好的模型。我们的结果强调了多光谱视觉语言学习的重要性。我们在开源许可下发布了图像-字幕数据集、代码和模型权重。 |
|
[57] V-NAW:基于视频的面向噪声的自适应加权用于面部表情识别 标题: V-NAW: Video-based Noise-aware Adaptive Weighting for Facial Expression Recognition 作者: JunGyu Lee / Kunyoung Lee / Haesol Park / Ig-Jae Kim / Gi Pyo Nam 原文: [英文] [中文] 备注: None 摘要: 面部表情识别(FER)在人类情感分析中起着至关重要的作用,并已广泛应用于计算机视觉任务,如人机交互和心理评估。第八届野外情感行为分析(ABAW)挑战赛旨在使用基于视频的Aff-Wild2数据集评估人类情感。该挑战赛包括多个任务,其中基于视频的EXPR识别赛道是我们的主要关注点。在本文中,我们展示了解决标签模糊性和类别不平衡问题,这些问题已知会导致性能下降,可以带来有意义的性能提升。具体而言,我们提出了基于视频的噪声感知自适应加权(V-NAW),它自适应地为剪辑中的每一帧分配重要性,以解决标签模糊性并有效捕捉面部表情的时间变化。此外,我们引入了一种简单有效的增强策略,以减少连续帧之间的冗余,这是过拟合的主要原因。通过广泛的实验,我们验证了我们方法的有效性,展示了基于视频的FER性能的显著提升。 |
|
[58] STOP:用于视频理解的集成时空动态提示 标题: STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding 作者: Zichen Liu / Kunlun Xu / Bing Su / Xu Zou / Yuxin Peng / Jiahuan Zhou 原文: [英文] 备注: None 摘要: 在大量图像-文本对上进行预训练后,像CLIP这样的视觉-语言模型在众多基于图像的任务中展示了令人期待的零样本泛化能力。然而,由于标注视频数据有限和训练成本高,将这些能力扩展到视频任务仍然具有挑战性。最近的视频提示方法尝试通过引入可学习的提示来使CLIP适应视频任务,但它们通常依赖于单一静态提示来处理所有视频序列,忽视了跨帧存在的多样化时间动态和空间变化。这一限制显著阻碍了模型捕捉有效视频理解所需的关键时间信息的能力。为了解决这个问题,我们提出了一个集成的空间-时间动态提示(STOP)模型,该模型由两个互补模块组成:帧内空间提示和帧间时间提示。我们的帧内空间提示旨在通过利用帧内注意力和时间变化,自适应地突出每个帧内的辨别区域,使模型能够专注于具有显著时间动态的区域并捕捉细粒度的空间细节。此外,为了突出帧在视频理解中的不同重要性,我们进一步引入了帧间时间提示,动态地在帧间插入提示,这些帧具有通过帧相似性测量的高时间变化。这使得模型能够优先处理关键帧,并增强其理解序列间时间依赖性的能力。在各种视频基准上的广泛实验表明,STOP在与最先进的方法的对比中始终实现了卓越的性能。代码可在此https URL获取。 |
|
[59] Acc3D:通过边缘一致性引导的分数蒸馏加速单图像到3D扩散模型 标题: Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation 作者: Kendong Liu / Zhiyu Zhu / Hui Liu / Junhui Hou 原文: [英文] 备注: None 摘要: 我们提出了Acc3D,以解决加速扩散过程从单张图像生成3D模型的挑战。为了通过少步推理获得高质量的重建,我们强调在随机噪声状态下对分数函数学习进行正则化的关键问题。为此,我们提出了边缘一致性,即在高信噪比区域内的一致预测,以增强预训练的扩散模型,从而实现基于蒸馏的终点分数函数的精炼。在这些蒸馏的扩散模型基础上,我们提出了一种对抗性增强策略,以进一步丰富生成细节并提升整体生成质量。这两个模块相辅相成,相互强化以提升生成性能。大量实验表明,与现有技术相比,我们的Acc3D不仅在计算效率上实现了超过20倍的提升,而且在质量上也取得了显著的改进。 |
|
[60] 基于fMRI的脑解码用于重建多模态刺激的研究综述 标题: A Survey on fMRI-based Brain Decoding for Reconstructing Multimodal Stimuli 作者: Pengyu Liu / Guohua Dong / Dan Guo / Kun Li / Fengling Li / Xun Yang / Meng Wang / Xiaomin Ying 原文: [英文] 备注: 31 pages, 6 figures 摘要: 在日常生活中,我们会遇到各种外部刺激,如图像、声音和视频。随着多模态刺激和神经科学研究的进展,基于fMRI的大脑解码已成为理解大脑感知及其复杂认知过程的关键工具。解码大脑信号以重建刺激不仅揭示了复杂的神经机制,还推动了人工智能、疾病治疗和脑机接口的进步。最近在神经影像学和图像生成模型方面的进展显著提高了基于fMRI的解码能力。虽然fMRI提供了高空间分辨率以精确映射大脑活动,但其低时间分辨率和信号噪声带来了挑战。同时,诸如GANs、VAEs和扩散模型等技术提高了重建图像的质量,多模态预训练模型提升了跨模态解码任务的能力。本文系统地回顾了基于fMRI的大脑解码的最新进展,重点关注从被动大脑信号中重建刺激。它总结了数据集、相关大脑区域,并按模型结构对现有方法进行分类。此外,它评估了模型性能并讨论了其有效性。最后,它识别了关键挑战并提出了未来的研究方向,为该领域提供了宝贵的见解。有关本次综述的更多信息和资源,请访问此https URL。 |
|
[61] DIPLI:用于盲天文图像修复的深度图像先验幸运成像 标题: DIPLI: Deep Image Prior Lucky Imaging for Blind Astronomical Image Restoration 作者: Suraj Singh / Anastasia Batsheva / Oleg Y. Rogov / Ahmed Bouridane 原文: [英文] 备注: 10 pages, 7 figures, 2 tables 摘要: 当代图像修复和超分辨率技术有效地利用深度神经网络,显著优于传统方法。然而,由于训练数据有限,深度学习在天文摄影中面临独特挑战。本研究探讨了混合策略,例如深度图像先验(DIP)模型,该模型能够进行盲训练,但在处理噪声图像时容易过拟合、产生伪影和不稳定。我们通过几种先进技术来提升DIP模型的基线性能。首先,我们改进模型以同时处理多个帧,采用反投影方法和TVNet模型。接下来,我们采用马尔可夫方法,结合蒙特卡洛估计、朗之万动力学和变分输入技术,以实现无偏估计,最小化方差并有效抵抗过拟合。这些修改共同减少了学习噪声的可能性,并在训练期间减轻了损失函数波动,提高了结果的稳定性。我们在多个天文和天体图像集上验证了我们的算法,取得的性能不仅缓解了幸运成像的局限性——一种在天文图像重建中仍然是标准的经典计算机视觉技术——而且超越了原始DIP模型、最先进的基于变压器和扩散的模型,强调了我们改进的重要性。 |
|
[62] 使用神经辐射场自动生成三维数据集 标题: Automating 3D Dataset Generation with Neural Radiance Fields 作者: P. Schulz / T. Hempel / A. Al-Hamadi 原文: [英文] [中文] 备注: Accepted and presented at ROBOVIS 2025 (5th International Conference on Robotics, Computer Vision and Intelligent Systems) 摘要: 3D检测是理解环境空间特征的关键任务,并被用于包括机器人技术、增强现实和图像检索在内的多种应用。训练高性能的检测模型需要多样化、精确标注和大规模的数据集,这些数据集的创建过程复杂且昂贵。因此,目前公开的3D数据集数量较少,并且在类别范围上受到限制。在这项工作中,我们提出了一种用于任意对象的3D数据集自动生成的流程。通过利用Radiance Fields的通用3D表示和渲染能力,我们的流程能够为任意对象生成高质量的3D模型。这些3D模型作为合成数据集生成器的输入。我们的流程快速、易于使用,并具有高度自动化。我们的实验表明,使用我们生成的数据集训练的3D姿态估计网络在典型应用场景中表现出色。 |
|
[63] SenseExpo:利用轻量级神经网络的预测信息进行高效自主探索 标题: SenseExpo: Efficient Autonomous Exploration with Prediction Information from Lightweight Neural Networks 作者: Haojia Gao / Haohua Que / Hoiian Au / Weihao Shan / Mingkai Liu / Yusen Qin / Lei Mu / Rong Zhao / Xinghua Yang / Qi Wei / Fei Qiao 原文: [英文] [中文] 备注: None 摘要: 本文提出了SenseExpo,这是一种基于轻量级预测网络的高效自主探索框架,解决了传统方法在计算开销和环境泛化方面的局限性。通过整合生成对抗网络(GANs)、Transformer和快速傅里叶卷积(FFC),我们设计了一个仅有709k参数的轻量级预测模型。我们的最小模型在KTH数据集上的表现优于U-net(24.5M)和LaMa(51M),实现了PSNR 9.026和SSIM 0.718,特别是在PSNR上比51M参数的LaMa模型提高了38.7%。跨领域测试展示了其强大的泛化能力,在HouseExpo数据集上的FID得分为161.55,显著优于可比方法。在探索效率方面,在KTH数据集上,SenseExpo的探索时间比MapEx减少了约67.9%。在MRPB 1.0数据集上,SenseExpo的探索时间大约比MapEx减少了77.1%。作为一个即插即用的ROS节点部署,该框架可以无缝集成到现有的导航系统中,为资源受限的设备提供了一种高效的解决方案。 |
|
[64] GazeSCRNN:基于事件的近眼注视追踪使用脉冲神经网络 标题: GazeSCRNN: Event-based Near-eye Gaze Tracking using a Spiking Neural Network 作者: Stijn Groenen / Marzieh Hassanshahi Varposhti / Mahyar Shahsavari 原文: [英文] [中文] 备注: None 摘要: 本文介绍了GazeSCRNN,这是一种新颖的尖峰卷积递归神经网络,专为基于事件的近眼视线跟踪而设计。利用动态视觉传感器(DVS)相机的高时间分辨率、能量效率和与基于事件系统的兼容性,GazeSCRNN使用尖峰神经网络(SNN)来解决传统视线跟踪系统在捕捉动态运动方面的局限性。该模型使用自适应泄漏积分与发火(ALIF)神经元和针对时空数据优化的混合架构来处理来自DVS相机的事件流。在EV-Eye数据集上的广泛评估表明,该模型在预测视线向量方面的准确性。此外,我们进行了消融研究,以揭示ALIF神经元、动态事件框架和训练技术(如时间前向传播)在提高整体系统性能方面的重要性。最准确的模型实现了6.034°的平均角度误差(MAE)和2.094毫米的平均瞳孔误差(MPE)。因此,这项工作在展示使用SNN进行基于事件的视线跟踪的可行性方面具有开创性,同时揭示了进一步改进的关键挑战和机遇。 |
|
[65] 单图像迭代主体驱动生成与编辑 标题: Single Image Iterative Subject-driven Generation and Editing 作者: Yair Shpitzer / Gal Chechik / Idan Schwartz 原文: [英文] [中文] 备注: Project page is at this https URL 摘要: 个性化图像生成和编辑在我们只有少量主体图像,甚至只有一张图像时尤其具有挑战性。个性化的常见方法是概念学习,这种方法可以相对快速地将主体整合到现有模型中,但当主体图像数量较少时,生成的图像质量往往会迅速恶化。通过预训练编码器可以提高质量,但训练会将生成限制在训练分布内,并且耗时。在没有训练的情况下,从单张图像个性化图像生成和编辑仍然是一个尚未解决的难题。在此,我们提出了一种名为SISO的新颖、无需训练的方法,该方法基于优化与输入主体图像的相似度得分。更具体地说,SISO通过迭代生成图像并根据与给定主体图像的相似性损失来优化模型,直到达到令人满意的相似度水平,从而允许对任何图像生成器进行即插即用的优化。我们在两个任务中评估了SISO,即图像编辑和图像生成,使用了多样化的个人主体数据集,并展示了在图像质量、主体保真度和背景保留方面相较于现有方法的显著改进。 |
|
[66] 用于视频问答的代理关键帧搜索 标题: Agentic Keyframe Search for Video Question Answering 作者: Sunqi Fan / Meng-Hao Guo / Shuojin Yang 原文: [英文] [中文] 备注: None 摘要: 视频问答(VideoQA)使机器能够通过自然语言交互从视频中提取和理解关键信息,这是实现智能化的重要一步。然而,对视频的深入理解需求和高计算成本仍然限制了VideoQA的广泛应用。为了解决这个问题,我们提出了Agentic Keyframe Search(AKeyS),这是一种简单而强大的算法,用于在VideoQA任务中识别关键帧。它可以通过利用现代语言代理来指导经典搜索算法,有效地区分关键信息与冗余、无关内容。具体来说,我们首先对视频进行分段并将其组织为树结构。然后,AKeyS使用语言代理在动态扩展节点时估计启发式和移动成本。最后,代理根据终止条件判断是否已收集到足够的关键帧并提供答案。在EgoSchema和NExT-QA数据集上的大量实验表明,AKeyS以最高的关键帧搜索效率优于所有先前的方法,这意味着它可以以最小的计算开销准确识别关键信息并进行有效的视觉推理。例如,在EgoSchema子集上,它在处理的帧数仅为VideoTree的43.5%的情况下,准确率提高了1.8%。我们相信,AKeyS代表了构建视频理解智能代理的重要一步。代码可在此https URL公开获取。 |
|
[67] 用于多模态大型语言模型中视频标记压缩的混合级指令注入 标题: Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models 作者: Zhihang Liu / Chen-Wei Xie / Pandeng Li / Liming Zhao / Longxiang Tang / Yun Zheng / Chuanbin Liu / Hongtao Xie 原文: [英文] 备注: Accepted to CVPR2025 摘要: 最近的多模态大语言模型(MLLMs)由于大量视频帧带来的计算开销而面临挑战,通常通过压缩策略来缓解。然而,视觉内容对用户指令的贡献并不均等,现有策略(例如,平均池化)不可避免地导致潜在有用信息的丢失。为了解决这个问题,我们提出了一种用于MLLMs中条件令牌压缩的混合级指令注入策略(HICom),利用指令作为条件从局部和全局层面指导压缩。这鼓励压缩在减少视觉令牌以最小化计算负担的同时,保留最大量的用户关注信息。具体来说,指令条件被注入到局部层面的分组视觉令牌和全局层面的可学习令牌中,我们通过注意力机制完成条件压缩。在混合级压缩中,指令相关的视觉部分被突出显示,同时时间-空间结构也被保留,以便于LLMs的理解。为了进一步释放HICom的潜力,我们引入了一个新的条件预训练阶段,并提出了我们的数据集HICom-248K。实验表明,我们的HICom能够以更少的令牌获得卓越的视频理解能力,在三个多项选择问答基准上平均提高了2.43%的性能,并且与最先进的方法相比节省了78.8%的令牌。代码可在此HTTPS URL获取。 |
|
[68] 更接近真实值:用于无监督水下图像分割的真实形状和外观标注数据生成 标题: Closer to Ground Truth: Realistic Shape and Appearance Labeled Data Generation for Unsupervised Underwater Image Segmentation 作者: Andrei Jelea / Ahmed Nabil Belbachir / Marius Leordeanu 原文: [英文] 备注: Proceedings of ECCVW 2024 摘要: 在水下视频中解决鱼类分割问题是一个具有重大实际价值的现实问题,尤其在海洋和水产养殖行业中。然而,由于拍摄环境的困难、能见度差以及现有标注的水下鱼类数据有限,这项任务充满挑战。为了解决这些障碍,我们引入了一种新颖的两阶段无监督分割方法,该方法不需要人工标注,并结合了人工创建的图像和真实图像。我们的方法通过在真实的水下栖息地中放置虚拟鱼类来生成具有挑战性的合成训练数据,并在此之前进行鱼类变换,如薄板样条形状扭曲和颜色直方图匹配,这些变换将合成鱼类逼真地融入背景中,使生成的图像在我们方法的每个阶段都越来越接近真实世界的数据。我们在流行的DeepFish数据集上验证了我们的无监督方法,取得了接近完全监督的最先进模型的性能,同时我们进一步展示了其在水下视频中鲑鱼分割这一特定案例中的有效性。为此,我们引入了DeepSalmon,这是文献中同类数据集最大的一个(30 GB)。此外,在这两个数据集上,我们证明了我们的方法能够提升完全监督的最先进模型的性能。 |
|
[69] 语义引导的全局-局部协作网络用于轻量级图像超分辨率 标题: Semantic-Guided Global-Local Collaborative Networks for Lightweight Image Super-Resolution 作者: Wanshu Fan / Yue Wang / Cong Wang / Yunzhe Zhang / Wei Wang / Dongsheng Zhou 原文: [英文] [中文] 备注: 14 pages,13 figures, 9 tables 摘要: 单图像超分辨率(SISR)在提高测量系统的准确性和可靠性方面起着关键作用,这些系统是基于视觉的仪器和测量应用的核心。这些系统通常需要清晰和详细的图像以实现精确的目标检测和识别。然而,由视觉测量工具捕获的图像经常受到退化的影响,包括模糊和细节丢失,这可能会妨碍测量。作为一种潜在的解决方案,我们在本文中提出了一种语义引导的全局-局部协作网络(SGGLC-Net)用于轻量级SISR。我们的SGGLC-Net利用从预训练模型中提取的语义先验来引导超分辨率过程,有效地增强图像细节质量。具体来说,我们提出了一个语义引导模块,将语义先验无缝集成到超分辨率网络中,使网络能够更熟练地捕捉和利用语义先验,从而增强图像细节。为了进一步探索局部和非局部交互以改善细节表现,我们提出了一个全局-局部协作模块,该模块具有三个全局和局部细节增强模块,以及一个混合注意力机制,以协同工作高效学习更多有用的特征。我们的广泛实验表明,SGGLC-Net在多个基准数据集上实现了具有竞争力的PSNR和SSIM值,与最先进的轻量级超分辨率方法相比,实现了12.81G的多加法减少,表现出更高的性能。这些改进强调了我们的方法在提高视觉测量系统的精度和有效性方面的潜力。代码可在此网址获取。 |
|
[70] 专家竞赛:一种通过专家混合扩展扩散变压器的灵活路由策略 标题: Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts 作者: Yike Yuan / Ziyu Wang / Zihao Huang / Defa Zhu / Xun Zhou / Jingyi Yu / Qiyang Min 原文: [英文] [中文] 备注: None 摘要: 扩散模型已经成为视觉生成领域的主流框架。在此成功的基础上,专家混合(MoE)方法的整合显示出在提升模型可扩展性和性能方面的潜力。在本文中,我们介绍了Race-DiT,这是一种用于扩散变换器的新型MoE模型,具有灵活的路由策略,称为专家竞赛。通过允许令牌和专家共同竞争并选择最佳候选者,模型学会动态地将专家分配给关键令牌。此外,我们提出了逐层正则化以解决浅层学习中的挑战,并引入路由器相似性损失以防止模式崩溃,从而确保更好的专家利用。在ImageNet上的大量实验验证了我们方法的有效性,展示了显著的性能提升,同时展现了良好的扩展特性。 |
|
[71] 地标相似却又独特:利用相似性和个体性进行一次性医学地标检测 标题: Landmarks Are Alike Yet Distinct: Harnessing Similarity and Individuality for One-Shot Medical Landmark Detection 作者: Xu He / Zhen Huang / Qingsong Yao / Xiaoqian Zhou / S. Kevin Zhou 原文: [英文] [中文] 备注: None 摘要: 标志点检测在医学影像应用中起着至关重要的作用,如疾病诊断、骨龄估计和治疗规划。然而,同时训练检测多个标志点的模型常常会遇到“跷跷板现象”,即在某些标志点检测上取得的改进会导致其他标志点检测的下降。然而,为每个标志点训练一个单独的模型会增加内存使用和计算开销。为了解决这些挑战,我们提出了一种基于“标志点是独特的”信念的新方法,通过在训练过程中持续更新的伪标签和模板数据来训练模型,其中每个模型专注于检测单个标志点以实现高精度。此外,基于“标志点也是相似的”信念,我们引入了一种基于适配器的融合模型,将共享权重与标志点特定权重相结合,以有效共享模型参数,同时允许灵活适应各个标志点。这种方法不仅显著减少了内存和计算资源需求,还有效缓解了多标志点训练中的跷跷板现象。在公开可用的医学图像数据集上的实验结果表明,单标志点模型在检测单个标志点方面显著优于传统的多点联合训练模型。尽管我们的基于适配器的融合模型在性能上略低于所有单标志点模型的组合结果,但它仍然超越了当前的最新方法,同时在资源效率上取得了显著的改进。 |
|
[72] PromptHash: 基于亲和力提示的协作跨模态学习用于自适应哈希检索 标题: PromptHash: Affinity-Prompted Collaborative Cross-Modal Learning for Adaptive Hashing Retrieval 作者: Qiang Zou / Shuli Cheng / Jiayi Chen 原文: [英文] [中文] 备注: Accepted by CVPR2025 摘要: 跨模态哈希是一种在数据检索和存储优化方面具有前景的方法。然而,当代方法在语义保留、上下文完整性和信息冗余方面存在显著限制,这限制了检索效率。我们提出了PromptHash,这是一种创新框架,利用亲和提示感知的协同学习进行自适应跨模态哈希。我们提出了一种端到端的亲和提示协同哈希框架,具有以下基本技术贡献:(i) 一种文本亲和提示学习机制,在保持参数效率的同时保留上下文信息,(ii) 一种自适应门控选择融合架构,将状态空间模型与Transformer网络结合,以实现精确的跨模态特征集成,(iii) 一种提示亲和对齐策略,通过分层对比学习弥合模态异质性。据我们所知,本研究首次探讨了协同跨模态自适应哈希学习中的亲和提示意识,建立了跨模态语义一致性增强的范式。通过对三个基准多标签数据集的全面评估,PromptHash在现有方法上表现出显著的性能提升。值得注意的是,在NUS-WIDE数据集上,我们的方法在图像到文本和文本到图像的检索任务中分别实现了18.22%和18.65%的显著增益。代码可在此https URL公开获取。 |
|
[73] 闪耀自我:基于扩散模型的高保真饰品虚拟试戴 标题: Shining Yourself: High-Fidelity Ornaments Virtual Try-on with Diffusion Model 作者: Yingmao Miao / Zhanpeng Huang / Rui Han / Zibin Wang / Chenhao Lin / Chao Shen 原文: [英文] 备注: None 摘要: 虽然使用扩散模型进行服装和鞋子的虚拟试穿已经引起了关注,但对于手镯、戒指、耳环和项链等饰品的虚拟试穿仍然很少被探索。由于大多数饰品中存在复杂的微小图案和重复的几何子结构,在饰品和模型之间存在大幅度姿态和比例变化的情况下,保证身份和外观的一致性要困难得多。本文提出了饰品虚拟试穿的任务,并提出了一种方法来改善饰品虚拟试穿的几何和外观保真性。具体来说,我们估计一个准确的佩戴掩码,以在去噪过程中通过迭代方案改善饰品和模型之间的对齐。为了保留结构细节,我们进一步对注意力层进行正则化,以隐式方式将参考饰品掩码映射到佩戴掩码。实验结果表明,我们的方法成功地将参考图像中的饰品佩戴到目标模型上,处理了尺度和姿态的显著差异,同时保留了身份并实现了逼真的视觉效果。 |
|
[74] Bokehlicious:具有可控光圈的真实感散景渲染 标题: Bokehlicious: Photorealistic Bokeh Rendering with Controllable Apertures 作者: Tim Seizinger / Florin-Alexandru Vasluianu / Marcos V. Conde / Radu Timofte 原文: [英文] 备注: Technical Report 摘要: 散景渲染方法在创造专业摄影中视觉上吸引人的柔和模糊背景方面起着关键作用。尽管最近基于学习的方法显示出有希望的结果,但生成具有可变强度的逼真散景仍然具有挑战性。现有方法需要额外的输入,并由于依赖合成数据而导致不真实的散景再现。在这项工作中,我们提出了Bokehlicious,这是一种高效的网络,通过光圈感知注意机制提供对散景强度的直观控制,模拟物理镜头光圈。为了进一步解决高质量真实世界数据的缺乏,我们推出了RealBokeh,这是一个新颖的数据集,包含23,000张由专业摄影师拍摄的高分辨率(24-MP)图像,涵盖了多样的场景和不同的光圈及焦距设置。在我们的新RealBokeh和已建立的散景渲染基准上的评估表明,Bokehlicious在显著降低计算成本的同时,一直优于现有的最先进方法,并表现出强大的零样本泛化能力。我们的方法和数据集进一步扩展到去焦模糊,在RealDOF基准上取得了有竞争力的结果。我们的代码和数据可以在这个HTTPS URL中找到。 |
|
[75] PoseTraj:视频扩散中的姿态感知轨迹控制 标题: PoseTraj: Pose-Aware Trajectory Control in Video Diffusion 作者: Longbin Ji / Lei Zhong / Pengfei Wei / Changjian Li 原文: [英文] 备注: Code, data and project page: this https URL 摘要: 最近在轨迹引导的视频生成方面取得了显著进展。然而,由于对三维理解的局限性,现有模型在生成具有潜在变化的6D姿态的物体运动时仍面临挑战,尤其是在大范围旋转的情况下。为了解决这个问题,我们引入了PoseTraj,一种姿态感知的视频拖动模型,用于从二维轨迹生成三维对齐的运动。我们的方法采用了一种新颖的两阶段姿态感知预训练框架,提高了对多样化轨迹的三维理解。具体来说,我们提出了一个大规模合成数据集PoseTraj-10K,包含了1万个物体沿旋转轨迹的视频,并通过引入三维边界框作为中间监督信号来增强模型对物体姿态变化的感知。随后,我们在真实世界视频上微调轨迹控制模块,并应用额外的相机解耦模块以进一步提高运动精度。在各种基准数据集上的实验表明,我们的方法不仅在旋转轨迹的三维姿态对齐拖动方面表现出色,而且在轨迹准确性和视频质量上也优于现有基线。 |
|
[76] 用于癌症生存预测的解耦和可解释的多模态注意力融合 标题: Disentangled and Interpretable Multimodal Attention Fusion for Cancer Survival Prediction 作者: Aniek Eijpe / Soufyan Lakbir / Melis Erdal Cesur / Sara P. Oliveira / Sanne Abeln / Wilson Silva 原文: [英文] [中文] 备注: 11 pages, 1 figure, 3 tables 摘要: 为了提高利用全片图像和转录组数据预测癌症生存率的效果,捕捉共享模态和特定模态的信息至关重要。然而,多模态框架通常会混淆这些表示,限制了解释性,并可能抑制辨别特征。为了解决这个问题,我们提出了解缠和可解释的多模态注意力融合(DIMAF),这是一种多模态框架,通过基于注意力的融合机制分离模态内和模态间的交互,以学习不同的特定模态和共享模态表示。我们引入了一种基于距离相关性的损失,以促进这些表示之间的解缠,并整合Shapley加法解释来评估它们对生存预测的相对贡献。我们在四个公共癌症生存数据集上评估DIMAF,与当前最先进的多模态模型相比,性能平均相对提高1.85%,解缠度提高23.7%。除了性能提升之外,我们的可解释框架还能够更深入地探索癌症生物学中模态之间和模态内的潜在交互。 |
|
[77] 高光谱成像用于识别猪腹肉上的异物 标题: Hyperspectral Imaging for Identifying Foreign Objects on Pork Belly 作者: Gabriela Ghimpeteanu / Hayat Rajani / Josep Quintana / Rafael Garcia 原文: [英文] [中文] 备注: Article under review by Computers in Industry, Elsevier 摘要: 确保食品安全和质量在食品加工行业中至关重要,其中污染物的检测仍然是一个持续的挑战。本研究提出了一种使用高光谱成像(HSI)检测猪腹肉上异物的自动化解决方案。使用高光谱相机在近红外(NIR)光谱(900-1700 nm)的各个波段捕获数据,从而能够准确识别通过传统视觉检查方法通常无法检测到的污染物。所提出的解决方案结合了预处理技术和基于轻量级视觉变换器(ViT)的分割方法,以区分肉类、脂肪和传送带材料中的污染物。所采用的策略展示了高检测准确性和训练效率,同时也解决了关键的工业挑战,如固有噪声、温度变化以及污染物与猪腹肉之间的光谱相似性。实验结果验证了高光谱成像在增强食品安全方面的有效性,突出了其在自动化质量控制过程中广泛实时应用的潜力。 |
|
[78] MarkushGrapher:Markush结构的联合视觉和文本识别 标题: MarkushGrapher: Joint Visual and Textual Recognition of Markush Structures 作者: Lucas Morin / Valéry Weber / Ahmed Nassar / Gerhard Ingmar Meijer / Luc Van Gool / Yawei Li / Peter Staar 原文: [英文] [中文] 备注: None 摘要: 化学文献的自动化分析有望加速材料科学和药物开发等领域的发现。特别是,专利文档中化学结构和Markush结构(化学结构模板)的搜索功能非常有价值,例如用于现有技术的检索。尽管在从文本和图像中自动提取化学结构方面取得了一些进展,但由于Markush结构的复杂多模态特性,它们仍然很少被探索。在这项工作中,我们提出了MarkushGrapher,这是一种用于识别文档中Markush结构的多模态方法。我们的方法通过视觉-文本-布局编码器和光学化学结构识别视觉编码器共同编码文本、图像和布局信息。这些表示被合并并用于自回归地生成Markush结构的顺序图表示以及定义其变量组的表格。为了克服真实世界训练数据的缺乏,我们提出了一种合成数据生成管道,能够生成各种现实的Markush结构。此外,我们还提出了M2S,这是第一个真实世界Markush结构的注释基准,以推动这一具有挑战性的任务的研究。大量实验表明,我们的方法在大多数评估设置中优于最先进的化学特定和通用视觉语言模型。代码、模型和数据集将会公开。 |
|
[79] OSLoPrompt:在CLIP中弥合低监督挑战和开放集域泛化 标题: OSLoPrompt: Bridging Low-Supervision Challenges and Open-Set Domain Generalization in CLIP 作者: Mohamad Hassan N C / Divyam Gupta / Mainak Singha / Sai Bhargav Rongali / Ankit Jha / Muhammad Haris Khan / Biplab Banerjee 原文: [英文] 备注: Accepted to CVPR 2025 摘要: 我们引入了低样本开放集域泛化(LSOSDG),这是一种将低样本学习与开放集域泛化(ODG)相结合的新范式。尽管使用像CLIP这样的模型的基于提示的方法推动了域泛化的发展,但在低数据环境(例如,1-shot)中表现不佳,并且在检测与训练类相关的细粒度语义的开放集样本时缺乏精确性。为了解决这些挑战,我们提出了OSLOPROMPT,这是一种用于CLIP的高级提示学习框架,具有两个核心创新。首先,为了在源域中管理有限的监督并改善域泛化,我们引入了一种域无关的提示学习机制,该机制通过一种新颖的交叉注意力模块整合了可适应的域特定线索和视觉引导的语义属性,并通过可学习的域和类通用视觉提示来增强跨模态适应性。其次,为了在推理过程中提高异常值拒绝能力,我们将不熟悉的样本分类为“未知”,并通过系统合成的伪开放样本训练专门的提示,这些样本通过现成的基础模型的目标查询策略生成,保持与已知类的细粒度关系。这一策略增强了特征学习,使我们的模型能够更有效地检测具有不同粒度的开放样本。在五个基准上的广泛评估表明,OSLOPROMPT在LSOSDG中建立了新的最先进水平,显著优于现有方法。 |
|
[80] 用于动物姿态估计的概率提示分布学习 标题: Probabilistic Prompt Distribution Learning for Animal Pose Estimation 作者: Jiyong Rao / Brian Nlong Zhao / Yu Wang 原文: [英文] 备注: Accepted by CVPR 2025 摘要: 多物种动物姿态估计已成为一项具有挑战性但至关重要的任务,受到视觉多样性和不确定性的严重影响。本文通过对视觉-语言预训练(VLP)模型(例如CLIP)的高效提示学习来挑战这一问题,旨在解决跨物种的泛化问题。解决方案的核心在于提示设计、概率提示建模和跨模态适应,从而使提示能够补偿跨模态信息,并在不平衡的数据分布下有效克服大数据差异。为此,我们提出了一种新颖的概率提示方法,以充分探索文本描述,这可以缓解由长尾特性引起的多样性问题,并提高提示在未见类别实例上的适应性。具体来说,我们首先引入一组可学习的提示,并提出一种多样性损失以保持提示之间的独特性,从而代表多样的图像属性。多样的文本概率表示被采样并用作姿态估计的指导。随后,我们在空间层面探索了三种不同的跨模态融合策略,以减轻视觉不确定性的负面影响。在多物种动物姿态基准上的广泛实验表明,我们的方法在有监督和零样本设置下均达到了最先进的性能。代码可在此https URL获取。 |
|
[81] 不确定性遇上多样性:一种用于室内3D物体检测的综合主动学习框架 标题: Uncertainty Meets Diversity: A Comprehensive Active Learning Framework for Indoor 3D Object Detection 作者: Jiangyi Wang / Na Zhao 原文: [英文] 备注: Accepted by CVPR 2025 摘要: 主动学习已成为减少3D目标检测任务中大量标注负担的一个有前景的方法,激发了在户外环境中的多个研究。然而,其在室内环境中的应用仍未被探索。与户外3D数据集相比,室内数据集面临显著挑战,包括每个类别的训练样本较少、类别数量更多、更严重的类别不平衡,以及更为多样的场景类型和类内差异。本文首次研究了室内3D目标检测的主动学习,并提出了一个针对该任务的创新框架。我们的方法结合了两个关键标准——不确定性和多样性——以主动选择最模糊和信息量最大的未标注样本进行标注。不确定性标准考虑了不准确的检测和未检测的对象,确保优先处理最模糊的样本。同时,多样性标准被制定为一个联合优化问题,通过使用新的类别感知自适应原型(CAP)库来最大化对象类别分布和场景类型的多样性。CAP库动态分配代表性原型给每个类别,有助于捕捉不同类别间的类内多样性。我们在SUN RGB-D和ScanNetV2上评估了我们的方法,其表现显著优于基线,仅用10%的标注预算就达到了超过85%的全监督性能。 |
|
[82] 结合深度特征和手工特征评估微笑的真实性 标题: Coupling deep and handcrafted features to assess smile genuineness 作者: Benedykt Pawlus / Bogdan Smolka / Jolanta Kawulok / Michal Kawulok 原文: [英文] [中文] 备注: Submitted to SPIE Defense + Commercial Sensing 2024 摘要: 从视频序列中评估微笑的真实性是一个重要的课题,涉及识别面部表情并将其与潜在的情感状态联系起来。已经提出了许多技术,这些技术基于手工特征以及依赖深度学习来详细说明有用特征的技术。由于这两种方法各有优缺点,在这项工作中,我们建议将长短期记忆网络学习的特征与手工制作的特征相结合,以捕捉面部动作单元的动态。我们的实验结果表明,所提出的解决方案比基线技术更有效,并且可以实时评估视频序列中的微笑真实性。 |
|
[83] 轻量化四像素拜耳混合事件相机系统去马赛克的二值化曼巴变换器 标题: Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS Demosaicing 作者: Shiyang Zhou / Haijin Zeng / Yunfan Lu / Tong Shao / Ke Tang / Yongyong Chen / Jie Liu / Jingyong Su 原文: [英文] [中文] 备注: Accepted by CVPR 2025 摘要: Quad Bayer去马赛克是实现混合事件视觉传感器(HybridEVS)广泛应用的核心挑战。尽管现有的基于学习的方法通过长距离依赖建模取得了可喜的成果,但其复杂性严重限制了在移动设备上的部署以用于实际应用。为了解决这些限制,我们提出了一种轻量级的基于Mamba的二进制神经网络,旨在高效且高性能地处理HybridEVS RAW图像的去马赛克。首先,为了有效捕捉全局和局部依赖性,我们引入了一种混合二值化Mamba-Transformer架构,该架构结合了Mamba和Swin Transformer架构的优势。接下来,为了显著降低计算复杂性,我们提出了一种二值化Mamba(Bi-Mamba),它将所有投影进行二值化,同时保留核心选择性扫描的全精度。Bi-Mamba还结合了额外的全局视觉信息,以增强全局上下文并减轻精度损失。我们进行了定量和定性实验,以证明BMTNet在性能和计算效率方面的有效性,提供了一种适合实际边缘设备的轻量级去马赛克解决方案。我们的代码和模型可在此https URL获取。 |
|
[84] FreeFlux: 理解和利用基于RoPE的MMDiT中层特定角色以实现多功能图像编辑 标题: FreeFlux: Understanding and Exploiting Layer-Specific Roles in RoPE-Based MMDiT for Versatile Image Editing 作者: Tianyi Wei / Yifan Zhou / Dongdong Chen / Xingang Pan 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 将旋转位置嵌入(RoPE)集成到多模态扩散变压器(MMDiT)中显著提升了文本到图像生成的质量。然而,在生成过程中,自注意力层对位置嵌入与查询-键相似性的基本依赖仍然是一个引人入胜的问题。我们首次对基于RoPE的MMDiT模型(例如,FLUX)进行了机制分析,介绍了一种自动探测策略,通过在生成过程中策略性地操控RoPE来解开位置信息与内容依赖的关系。我们的分析揭示了与深度不直接相关的独特依赖模式,为RoPE基础的MMDiT中的层特定角色提供了新的见解。基于这些发现,我们提出了一种无需训练的、任务特定的图像编辑框架,将编辑任务分为三种类型:位置依赖编辑(例如,物体添加)、内容相似性依赖编辑(例如,非刚性编辑)和区域保留编辑(例如,背景替换)。对于每种类型,我们根据编辑任务的特征设计了定制的键值注入策略。广泛的定性和定量评估表明,我们的方法在保留原始语义内容和实现无缝修改方面优于最先进的方法。 |
|
[85] 迭代优化注意力与局部模型用于单图像雨条纹去除 标题: Iterative Optimal Attention and Local Model for Single Image Rain Streak Removal 作者: Xiangyu Li / Wanshu Fan / Yue Shen / Cong Wang / Wei Wang / Xin Yang / Qiang Zhang / Dongsheng Zhou 原文: [英文] [中文] 备注: 14 pages, 14 figures, 6 tables 摘要: 高保真成像对于基于视觉的测量系统(VBMS)的成功安全监督和智能部署至关重要。它确保了VBMS中的高质量成像,这是可靠的视觉测量和分析的基础。然而,成像质量可能会受到不利天气条件的显著影响,尤其是雨天,导致图像模糊和对比度降低。这种损害增加了VBMS中评估不准确和误解的风险。为了解决这些限制,我们提出了一种期望最大化重建变压器(EMResformer)用于单图像雨条纹去除。EMResformer保留了关键的自注意力值用于特征聚合,增强局部特征以产生优越的图像重建。具体来说,我们提出了一种期望最大化块,无缝集成到单图像雨条纹去除网络中,增强其消除多余信息和恢复更清晰背景图像的能力。此外,为了进一步增强局部信息以改善细节表现,我们引入了一个局部模型残差块,该块集成了两个局部模型块以及一系列卷积和激活函数。这种集成协同促进了提取更多相关特征以增强单图像雨条纹去除。大量实验验证了我们提出的EMResformer在合成和真实世界数据集上超越了当前最先进的单图像雨条纹去除方法,实现了模型复杂性和单图像去雨性能之间的改进平衡。此外,我们评估了我们的方法在VBMS场景中的有效性,证明高质量成像显著提高了VBMS任务的准确性和可靠性。 |
|
[86] 代际守护者:用于AI图像生成的动态推理时版权保护与自适应引导 标题: Guardians of Generation: Dynamic Inference-Time Copyright Shielding with Adaptive Guidance for AI Image Generation 作者: Soham Roy / Abhishek Mishra / Shirish Karande / Murari Mandal 原文: [英文] [中文] 备注: None 摘要: 现代文本到图像生成模型可能会无意中重现其训练数据中记忆的受版权保护的内容,从而引发关于潜在版权侵权的严重担忧。我们介绍了“生成的守护者”,这是一种与模型无关的推理时间框架,用于在AI图像生成中动态保护版权。我们的方法无需重新训练或修改生成模型的权重,而是与现有的扩散管道无缝集成。它通过一个自适应引导机制增强生成过程,该机制由三个组件组成:检测模块、提示重写模块和引导调整模块。检测模块监控用户提示和中间生成步骤,以识别在最终输出中显现之前的受版权保护内容的特征。如果检测到此类内容,提示重写机制会动态转换用户的提示,通过清理或替换可能触发受版权保护材料的引用,同时保留提示的预期语义。自适应引导模块通过调节模型的采样轨迹,自适应地引导扩散过程远离标记的内容。这些组件共同形成了一个强大的屏障,使得在保留创意真实性和确保版权合规之间实现可调节的平衡。我们在各种生成模型上验证了我们的方法,例如Stable Diffusion、SDXL和Flux,证明在生成受版权保护内容方面有显著减少,同时对输出的真实性或与用户意图的对齐几乎没有影响。这项工作为生成图像模型提供了一个实用的即插即用保护措施,使其在现实世界的版权限制下更负责任地部署。源代码可在此URL获取。 |
|
[87] 缩小对抗训练中类别间鲁棒性差距 标题: Narrowing Class-Wise Robustness Gaps in Adversarial Training 作者: Fatemeh Amerehi / Patrick Healy 原文: [英文] [中文] 备注: 4 figures, ICLR 2025 Workshop on Foundation Models in the Wild 摘要: 为应对数据变化导致的准确性下降,通常会采用各种数据增强策略。对抗训练就是其中一种方法,旨在提高对抗样本引起的最坏情况分布变化的鲁棒性。虽然这种方法可以提高鲁棒性,但也可能阻碍对干净样本的泛化,并加剧不同类别之间的性能不平衡。本文探讨了对抗训练对整体和特定类别性能的影响,以及其溢出效应。我们观察到,在训练过程中增强标注可以将对抗鲁棒性提高53.50%,并减轻类别不平衡5.73%,从而在干净和对抗环境中相比标准对抗训练提高了准确性。 |
|
[88] 通过高效模型扩展和完形自蒸馏实现准确的场景文本识别 标题: Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-Distillation 作者: Andrea Maracani / Savas Ozkan / Sijun Cho / Hyowon Kim / Eunchung Noh / Jeongwon Min / Cho Jung Min / Dookun Park / Mete Ozay 原文: [英文] [中文] 备注: None 摘要: 扩展架构已被证明在提高场景文本识别(STR)方面有效,但视觉编码器和文本解码器扩展的单独贡献仍未被充分探索。在这项工作中,我们进行了深入的实证分析,并证明与之前的观察相反,扩展解码器带来了显著的性能提升,始终超过仅通过扩展编码器所获得的提升。我们还识别出标签噪声是STR中的一个关键挑战,特别是在真实世界数据中,这可能会限制STR模型的有效性。为了解决这个问题,我们提出了Cloze自蒸馏(CSD)方法,通过从教师模型生成的上下文感知软预测和伪标签中蒸馏学生模型来减轻标签噪声。此外,我们通过引入差异化交叉注意力来增强STR的解码器架构。我们的方法在11个基准测试中的10个上实现了最先进的性能,仅使用真实数据,同时显著减少了参数大小和计算成本。 |
|
[89] MapGlue:多模态遥感图像匹配 标题: MapGlue: Multimodal Remote Sensing Image Matching 作者: Peihao Wu / Yongxiang Yao / Wenfei Zhang / Dong Wei / Yi Wan / Yansheng Li / Yongjun Zhang 原文: [英文] 备注: The dataset and code are available at this https URL 摘要: 多模态遥感图像(MRSI)匹配对于跨模态融合、定位和目标检测至关重要,但由于成像模态之间的几何、辐射和视角差异,它面临着严峻的挑战。现有的单模态数据集缺乏规模和多样性,限制了深度学习解决方案。本文提出了MapGlue,一个通用的MRSI匹配框架,以及MapData,一个大规模的多模态数据集,以解决这些问题。我们的贡献有两个方面。MapData是一个全球多样化的数据集,涵盖了233个采样点,提供了原始图像(7,000x5,000到20,000x15,000像素)。经过严格清理后,它提供了121,781对对齐的电子地图-可见图像对(512x512像素),具有混合的手动-自动地面实况,解决了可扩展多模态基准的稀缺性问题。MapGlue结合语义上下文,通过双重图引导机制提取跨模态不变特征。该结构实现了全局到局部的交互,增强了描述符对模态特定失真的鲁棒性。在MapData和五个公共数据集上的广泛评估表明,MapGlue在复杂条件下的匹配精度优于现有的最先进方法。值得注意的是,MapGlue在不重新训练的情况下有效地推广到未见过的模态,突显了其适应性。该工作通过结合可扩展的数据集构建和一个稳健的、语义驱动的框架,解决了MRSI匹配中的长期挑战。此外,MapGlue在其他未专门训练的模态匹配任务中表现出强大的泛化能力。数据集和代码可在此https URL获取。 |
|
[90] CLS-RL:基于规则的强化学习的图像分类 标题: CLS-RL: Image Classification with Rule-Based Reinforcement Learning 作者: Ming Li / Shitian Zhao / Jike Zhong / Yuxiang Lai / Kaipeng Zhang 原文: [英文] [中文] 备注: Preprint, work in progress 摘要: 分类是机器学习中的核心任务。最近的研究表明,尽管多模态大型语言模型(MLLMs)在图像分类方面初始表现较差,但通过适量数据进行微调可以显著提升其性能,使其与最先进的分类模型相媲美。然而,获取大规模标注数据代价高昂。在本文中,我们探讨了少样本MLLM分类微调。我们发现,标准微调(SFT)可能导致严重的过拟合问题,甚至可能使性能低于零样本方法。为了解决这一挑战,受到基于规则的强化学习近期成功的启发,我们提出了CLS-RL,它使用可验证信号作为奖励来微调MLLMs。我们发现CLS-RL在大多数数据集上优于SFT,并且在基础到新任务和少样本学习设置中具有更高的平均准确性。此外,我们观察到CLS-RL的免费午餐现象;当模型在特定数据集上进行微调时,其在其他不同数据集上的性能也可能优于零样本模型,即使这些数据集在分布和类别名称上有所不同。这表明基于RL的方法有效地教会模型分类的基本原理。最后,受到推理时间思考的近期工作的启发,我们重新审视了微调过程中的“思考过程”,这是基于RL的方法在视觉分类背景下的关键方面。我们质疑这些任务在微调过程中是否需要广泛的思考过程,并提出这可能实际上会影响性能。基于这一前提,我们引入了无思考CLS-RL方法,通过设置等精度奖励来在训练过程中最小化思考过程。我们的研究结果表明,使用更少的微调时间,无思考CLS-RL方法在域内性能和泛化能力上优于CLS-RL。 |
|
[91] 通过粗到细的标记预测提升自回归图像生成 标题: Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction 作者: Ziyao Guo / Kaipeng Zhang / Michael Qizhe Shieh 原文: [英文] [中文] 备注: Work in progress 摘要: 自回归模型通过借鉴语言建模中的序列预测技术,在图像生成方面取得了显著成功。然而,将这些方法应用于图像时,需要通过向量量化方法(如VQ-VAE)将连续的像素数据离散化。为了减轻VQ-VAE中存在的量化误差,最近的研究倾向于使用更大的码书。然而,这会相应地扩大词汇量,从而使自回归建模任务变得更加复杂。本文旨在找到一种方法,既能享受大码书的好处,又不增加自回归建模的难度。通过实证研究,我们发现具有相似码字表示的标记在最终生成的图像上产生相似的效果,这揭示了大码书中存在显著的冗余。基于这一见解,我们提出了一种从粗到细(CTF)的标记预测方法,通过为相似的标记分配相同的粗标签来实现。我们的框架包括两个阶段:(1)一个自回归模型,按顺序预测序列中每个标记的粗标签;(2)一个辅助模型,在粗标签的条件下同时预测所有标记的细粒度标签。在ImageNet上的实验表明,我们的方法性能优越,与基线相比,Inception Score平均提高了59分。值得注意的是,尽管增加了一个推理步骤,我们的方法仍实现了更快的采样速度。 |
|
[92] VP-NTK:探索视觉提示在差分隐私数据合成中的优势 标题: VP-NTK: Exploring the Benefits of Visual Prompting in Differentially Private Data Synthesis 作者: Chia-Yi Hsu / Jia-You Chen / Yu-Lin Tsai / Chih-Hsun Lin / Pin-Yu Chen / Chia-Mu Yu / Chun-Ying Huang 原文: [英文] [中文] 备注: Accepted by ICASSP 2025 摘要: 差分隐私(DP)合成数据已成为发布敏感数据的事实标准。然而,许多DP生成模型在合成数据的实用性方面表现不佳,尤其是对于高分辨率图像。另一方面,参数高效微调(PEFT)中的一种新兴技术是视觉提示(VP),它允许重新利用训练良好的现有模型以适应后续的下游任务。在这项工作中,我们探索了在构建具有DP约束的引人注目的生成模型中这种现象。我们展示了结合DP-NTK(一个利用神经切线核(NTK)在训练DP生成模型中威力的DP生成器)的VP,特别是在高分辨率图像数据集上,实现了显著的性能提升,准确率从0.644±0.044提高到0.769。最后,我们对影响VP-NTK整体性能的不同参数进行了消融研究。我们的工作展示了在提高DP合成数据实用性方面,特别是对于高分辨率图像的一个有前途的进展。 |
|
[93] 时间评分分析用于理解和纠正扩散伪影 标题: Temporal Score Analysis for Understanding and Correcting Diffusion Artifacts 作者: Yu Cao / Zengqun Zhao / Ioannis Patras / Shaogang Gong 原文: [英文] 备注: None 摘要: 视觉伪影仍然是扩散模型中的一个持续挑战,即使在大规模数据集上进行训练也是如此。目前的解决方案主要依赖于监督检测器,但缺乏对这些伪影为何出现的理解。在我们的分析中,我们识别出扩散生成过程中的三个不同阶段:描绘、变异和精炼。伪影通常在变异阶段出现,此时某些区域表现出异常的分数动态,导致正常演化模式的突然中断。这种时间特性解释了为什么现有方法仅关注最终输出的空间不确定性而无法有效定位伪影。基于这些见解,我们提出了ASCED(用于增强扩散的异常分数校正),通过监测扩散过程中的异常分数动态来检测伪影,并采用一种轨迹感知的即时缓解策略,在检测到的区域适当生成噪声。与大多数现有方法在生成后应用后验校正(例如,通过在生成后应用噪声-去噪方案)不同,我们的缓解策略在现有的扩散过程中无缝运行。大量实验表明,我们提出的方法在不同领域有效减少伪影,匹配或超越现有的监督方法而无需额外训练。 |
|
[94] OpenMIBOOD:开放医学影像基准用于分布外检测 标题: OpenMIBOOD: Open Medical Imaging Benchmarks for Out-Of-Distribution Detection 作者: Max Gutbrod / David Rauber / Danilo Weber Nunes / Christoph Palm 原文: [英文] [中文] 备注: None 摘要: 随着人工智能(AI)在医疗等关键领域的依赖性日益增加,迫切需要建立稳健的机制来确保这些系统的可信度,特别是在面对意外或异常输入时。本文介绍了用于分布外检测的开放医学影像基准(OpenMIBOOD),这是一个专门用于医学影像领域的分布外(OOD)检测方法评估的综合框架。OpenMIBOOD 包含来自不同医学领域的三个基准,涵盖了14个数据集,这些数据集被分为协变量偏移的分布内、近OOD和远OOD类别。我们在这些基准上评估了24种事后方法,提供了一个标准化的参考,以推动OOD检测方法的发展和公平比较。结果表明,自然图像领域的大规模OOD基准的发现并不能直接应用于医学领域,这凸显了在医学领域建立此类基准的关键需求。通过降低AI模型暴露于其训练分布之外输入的风险,OpenMIBOOD旨在支持可靠和可信的AI系统在医疗保健中的发展。代码库可在此https URL获取。 |
|
[95] M2N2V2:多模态无监督和无训练的交互式分割 标题: M2N2V2: Multi-Modal Unsupervised and Training-free Interactive Segmentation 作者: Markus Karmann / Peng-Tao Jiang / Bo Li / Onay Urfalioglu 原文: [英文] 备注: None 摘要: 我们提出了Markov Map Nearest Neighbor V2 (M2N2V2),这是一种新颖且简单但有效的方法,利用深度引导和注意力图进行无监督和无需训练的基于点提示的交互式分割。遵循最近在监督多模态方法中的趋势,我们仔细地将深度作为额外的模态进行整合,以创建新颖的深度引导Markov图。此外,我们观察到在交互过程中,M2N2偶尔会出现分割大小波动,这可能会降低整体的mIoU。为了解决这个问题,我们将提示建模为一个顺序过程,并提出了一种新的自适应评分函数,该函数考虑了先前的分割和当前的提示点,以防止不合理的分割大小变化。使用Stable Diffusion 2和Depth Anything V2作为骨干,我们通过实验证明,所提出的M2N2V2在所有数据集(除医学领域的数据集外)中显著改善了点击次数(NoC)和mIoU。有趣的是,我们的无监督方法在更具挑战性的DAVIS和HQSeg44K数据集的NoC指标中,与SAM和SimpleClick等监督方法相比,取得了具有竞争力的结果,缩小了监督和无监督方法之间的差距。 |
|
[96] 即插即用的1.x位KV缓存量化用于视频大语言模型 标题: Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models 作者: Keda Tao / Haoxuan You / Yang Sui / Can Qin / Huan Wang 原文: [英文] [中文] 备注: 12 pages 摘要: 视频大语言模型(VideoLLMs)已经展示了处理更长视频输入并实现复杂推理和分析的能力。然而,由于视频帧中成千上万的视觉标记,键值(KV)缓存会显著增加内存需求,成为推理速度和内存使用的瓶颈。KV缓存量化是一种广泛使用的方法来解决这个问题。在本文中,我们发现VideoLLMs的2位KV量化几乎不会影响模型性能,而更低位KV缓存量化的极限尚未被研究。为弥补这一空白,我们引入了VidKV,这是一种即插即用的KV缓存量化方法,可以将KV缓存压缩到低于2位。具体来说,(1)对于键,我们提出了一种在通道维度上的混合精度量化策略,其中对异常通道进行2位量化,对正常通道结合FFT进行1位量化;(2)对于值,我们实现了1.58位量化,同时选择性地过滤语义显著的视觉标记以进行有针对性的保留,以更好地在精度和模型性能之间取得平衡。重要的是,我们的研究表明,VideoLLMs的值缓存应以每通道的方式进行量化,而不是先前LLMs的KV缓存量化工作中提出的每标记方式。实证结果表明,在六个基准上使用LLaVA-OV-7B和Qwen2.5-VL-7B进行的广泛实验显示,VidKV有效地将KV缓存压缩到1.5位和1.58位精度,与FP16对比几乎没有性能下降。 |
|
[97] 函数链:用于细粒度图表推理数据的程序化管道 标题: Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data 作者: Zijian Li / Jingjing Fu / Lei Song / Jiang Bian / Jun Zhang / Rui Wang 原文: [英文] [中文] 备注: Under review 摘要: 视觉推理对于多模态大型语言模型(MLLMs)解决复杂图表查询至关重要,但高质量的推理数据仍然稀缺。现有方法利用(M)LLMs进行数据生成,但直接提示通常会导致精确性和多样性有限。在本文中,我们提出了一种新的程序化推理数据生成管道,称为“函数链(CoF)”,它利用自由探索的推理路径作为监督,以确保数据的精确性和多样性。具体来说,它从无人工干预的原子函数(例如,最大数据和算术运算)之间的探索开始,以生成多样的函数链,然后仅使用一个中等规模的开源LLM将其翻译成语言推理和问题。CoF提供了多种优势:1)精确性:函数控制的生成减少了与自由生成相比的幻觉;2)多样性:枚举函数链使问题分类多样化;3)可解释性:函数链作为内置推理,允许超越整体准确性的细粒度评估;4)实用性:消除了对极大型模型的依赖。利用CoF,我们构建了ChartCoF数据集,其中包含1.4k复杂推理问答用于细粒度分析,以及50k问答用于推理增强。对ChartCoF的细粒度评估揭示了每个MLLM在不同问题分类中的表现差异,实验还表明,通过ChartCoF进行微调在广泛使用的基准测试中实现了同规模MLLMs的最新性能。此外,CoF中函数控制的推理生成的新范式可能激发图表之外的更广泛应用。 |
|
[98] 从单目视觉到自主行动:通过3D重建指导肿瘤切除 标题: From Monocular Vision to Autonomous Action: Guiding Tumor Resection via 3D Reconstruction 作者: Ayberk Acar / Mariana Smith / Lidia Al-Zogbi / Tanner Watts / Fangjie Li / Hao Li / Nural Yilmaz / Paul Maria Scheikl / Jesse F. d'Almeida / Susheela Sharma / Lauren Branscombe / Tayfun Efe Ertop / Robert J. Webster III / Ipek Oguz / Alan Kuntz / Axel Krieger / Jie Ying Wu 原文: [英文] [中文] 备注: 7 Pages, 8 Figures, 1 Table. This work has been submitted IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) for possible publication 摘要: 手术自动化需要对场景进行精确的引导和理解。目前文献中的方法依赖于笨重的深度相机来创建解剖结构的地图,然而这在空间有限的临床应用中并不理想。单目相机体积小,允许在狭小空间内进行微创手术,但需要额外的处理来生成3D场景理解。我们提出了一种仅使用RGB图像来创建目标解剖结构的分割点云的3D映射流程。为了确保最精确的重建,我们比较了不同的运动结构算法在中央气道阻塞映射中的性能,并在肿瘤切除的下游任务中测试了该流程。在包括术后组织模型评估在内的多个指标中,我们的流程表现与RGB-D相机相当,在某些情况下甚至超过了它们的表现。这些令人鼓舞的结果表明,在微创手术中,使用单目相机可以实现自动化引导。这项研究是迈向手术机器人完全自主化的一步。 |
|
[99] 使用视觉-语言模型的广义小样本3D点云分割 标题: Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model 作者: Zhaochong An / Guolei Sun / Yun Liu / Runjia Li / Junlin Han / Ender Konukoglu / Serge Belongie 原文: [英文] [中文] 备注: Accepted to CVPR 2025 摘要: 广义小样本3D点云分割(GFS-PCS)在保留基础类分割的同时,通过少量支持样本将模型适应到新类。现有的GFS-PCS方法通过与支持或查询特征交互来增强原型,但仍受限于小样本的稀疏知识。同时,3D视觉语言模型(3D VLMs)在开放世界的新类中具有丰富但嘈杂的新类知识。在这项工作中,我们引入了一个GFS-PCS框架,名为GFS-VL,该框架将3D VLMs提供的密集但嘈杂的伪标签与精确但稀疏的小样本结合起来,以最大化两者的优势。具体来说,我们提出了一种原型引导的伪标签选择方法来过滤低质量区域,随后采用自适应填充策略,将伪标签上下文和小样本的知识结合起来,自适应地标记过滤后的未标记区域。此外,我们设计了一种新旧混合策略,将小样本嵌入训练场景中,保留重要的上下文以改善新类学习。此外,鉴于当前GFS-PCS基准的多样性有限,我们引入了两个具有多样性新类的挑战性基准,以进行全面的泛化评估。实验验证了我们框架在不同模型和数据集上的有效性。我们的方法和基准为在现实世界中推进GFS-PCS提供了坚实的基础。代码可在此https URL获取。 |
|
[100] PSA-MIL:一种基于概率空间注意力的多实例学习用于全切片图像分类 标题: PSA-MIL: A Probabilistic Spatial Attention-Based Multiple Instance Learning for Whole Slide Image Classification 作者: Sharon Peled / Yosef E. Maruvka / Moti Freiman 原文: [英文] [中文] 备注: 8 pages, 7 figures 摘要: 全片图像(WSIs)是广泛用于医学诊断的高分辨率数字扫描。WSI分类通常采用多实例学习(MIL)方法,其中幻灯片被划分为被视为相互关联的实例的图块。虽然基于注意力的MIL方法旨在识别最具信息量的图块,但它们往往未能充分利用图块之间的空间关系,可能忽视了对准确诊断至关重要的复杂组织结构。为了解决这一限制,我们提出了概率空间注意力MIL(PSA-MIL),这是一种新颖的基于注意力的MIL框架,通过可学习的距离衰减先验将空间上下文整合到注意力机制中,并在自注意力的概率解释中被表述为后验分布。这种表述使得在训练过程中能够动态推断空间关系,消除了以往方法常常施加的预定义假设。此外,我们建议对后验进行空间剪枝策略,有效降低自注意力的二次复杂性。为了进一步增强空间建模,我们引入了一种多样性损失,鼓励注意力头之间的变化,确保每个头捕获不同的空间表示。PSA-MIL结合起来使得空间上下文的整合更加数据驱动和自适应,超越了预定义的限制。我们在上下文和非上下文基准上均实现了最先进的性能,同时显著降低了计算成本。 |
|
[101] SceneMI: 用于建模人类与场景交互的动作插值 标题: SceneMI: Motion In-betweening for Modeling Human-Scene Interactions 作者: Inwoo Hwang / Bing Zhou / Young Min Kim / Jian Wang / Chuan Guo 原文: [英文] 备注: 15 pages, Project page: this http URL 摘要: 建模人类与场景的交互(HSI)对于理解和模拟日常人类行为至关重要。最近利用生成建模的方法在该领域取得了一些进展;然而,这些方法在实际应用中受限于可控性和灵活性。为了解决这些挑战,我们提出将HSI建模问题重新表述为场景感知的动作插补——一个更易处理且实用的任务。我们引入了SceneMI,一个支持多种实用应用的框架,包括在3D场景中进行关键帧引导的角色动画以及提升不完美HSI数据的运动质量。SceneMI采用双重场景描述符来全面编码全局和局部场景上下文。此外,我们的框架利用扩散模型固有的去噪特性来对嘈杂的关键帧进行泛化。实验结果表明,SceneMI在场景感知的关键帧插补和对真实世界GIMO数据集的泛化方面表现出色,其中运动和场景是通过嘈杂的IMU传感器和智能手机获取的。我们进一步展示了SceneMI在从单目视频中重建HSI方面的适用性。 |
|
[102] 释放Vecset扩散模型以快速生成形状 标题: Unleashing Vecset Diffusion Model for Fast Shape Generation 作者: Zeqiang Lai / Yunfei Zhao / Zibo Zhao / Haolin Liu / Fuyun Wang / Huiwen Shi / Xianghui Yang / Qinxiang Lin / Jinwei Huang / Yuhong Liu / Jie Jiang / Chunchao Guo / Xiangyu Yue 原文: [英文] [中文] 备注: Technical report 摘要: 3D形状生成通过所谓的“原生”3D扩散的发展,特别是通过Vecset扩散模型(VDM),取得了极大的进展。虽然最近的进展在生成高分辨率3D形状方面显示了令人鼓舞的结果,但VDM在高速生成方面仍然存在困难。挑战不仅存在于加速扩散采样方面,还存在于VDM中的VAE解码方面,这些领域在之前的工作中探索不足。为了解决这些挑战,我们提出了FlashVDM,一个加速VDM中VAE和DiT的系统框架。对于DiT,FlashVDM实现了灵活的扩散采样,最少只需5个推理步骤且质量相当,这得益于我们新引入的渐进流蒸馏稳定了一致性蒸馏。对于VAE,我们引入了一个闪电vecset解码器,配备了自适应KV选择、分层体积解码和高效网络设计。通过利用vecset的局部性和体积中形状表面的稀疏性,我们的解码器大幅降低了FLOPs,最小化了解码的整体开销。我们将FlashVDM应用于Hunyuan3D-2以获得Hunyuan3D-2 Turbo。通过系统评估,我们展示了我们的模型显著优于现有的快速3D生成方法,实现了与最先进技术相当的性能,同时将重建的推理时间减少了超过45倍,生成的推理时间减少了32倍。代码和模型可在此https URL获取。 |
|
[103] 动态点地图:动态三维重建的多功能表示 标题: Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction 作者: Edgar Sucar / Zihang Lai / Eldar Insafutdinov / Andrea Vedaldi 原文: [英文] [中文] 备注: Web page: this https URL 摘要: DUSt3R最近展示了一种方法,可以将多视图几何中的许多任务简化为预测一对视点不变的点图,即在一个共同参考框架中定义的像素对齐点云。这种表述既优雅又强大,但无法处理动态场景。为了解决这一挑战,我们引入了动态点图(DPM)的概念,将标准点图扩展到支持4D任务,如运动分割、场景流估计、3D物体跟踪和2D对应。我们的关键直觉是,当引入时间时,可以使用多种空间和时间参考来定义点图。我们确定了一个最小的组合子集,可以通过网络回归来解决上述子任务。我们在合成和真实数据的混合上训练了一个DPM预测器,并在视频深度预测、动态点云重建、3D场景流和物体姿态跟踪的各种基准上进行了评估,达到了最先进的性能。代码、模型和其他结果可在此https URL获取。 |
|
[104] 轻松实现超高分辨率适配 标题: Ultra-Resolution Adaptation with Ease 作者: Ruonan Yu / Songhua Liu / Zhenxiong Tan / Xinchao Wang 原文: [英文] [中文] 备注: Technical Report. Codes are available \href{this https URL}{here} 摘要: 近年来,文本到图像的扩散模型取得了显著进展。然而,高分辨率图像生成模型的训练仍然具有挑战性,特别是在训练数据和计算资源有限的情况下。在本文中,我们从数据和参数效率两个关键角度探讨了这一实际问题,并提出了一套用于超高分辨率适应的关键指南,称为\emph{URAE}。在数据效率方面,我们从理论和实证上证明了一些教师模型生成的合成数据可以显著促进训练收敛。在参数效率方面,我们发现当合成数据不可用时,微调权重矩阵的次要组件比广泛使用的低秩适配器表现更佳,提供了显著的性能提升,同时保持了效率。此外,对于利用指导蒸馏的模型,如FLUX,我们表明在适应过程中禁用无分类器指导,即将指导比例设置为1,对于获得满意的性能至关重要。大量实验验证了URAE在仅使用3K样本和2K迭代的情况下,实现了与最新的闭源模型如FLUX1.1 [Pro] Ultra相当的2K生成性能,同时为4K分辨率生成设定了新的基准。代码可在\href{this https URL}{此处}获取。 |
|
[105] 高斯图网络:从多视图图像中学习高效且可泛化的高斯表示 标题: Gaussian Graph Network: Learning Efficient and Generalizable Gaussian Representations from Multi-view Images 作者: Shengjun Zhang / Xin Fei / Fangfu Liu / Haixu Song / Yueqi Duan 原文: [英文] [中文] 备注: NeurIPS 2024 摘要: 3D Gaussian Splatting(3DGS)在新视图合成方面展示了令人印象深刻的性能。虽然传统方法需要针对每个场景进行优化,但最近有几种前馈方法被提出,这些方法通过可学习的网络生成像素对齐的高斯表示,能够推广到不同的场景。然而,这些方法只是简单地将来自多个视图的像素对齐高斯组合为场景表示,从而导致伪影和额外的内存消耗,而未能充分捕捉来自不同图像的高斯之间的关系。在本文中,我们提出了高斯图网络(GGN)来生成高效且可推广的高斯表示。具体来说,我们构建高斯图来建模来自不同视图的高斯组之间的关系。为了支持在高斯层级的信息传递,我们重新定义了高斯表示上的基本图操作,使每个高斯能够通过高斯特征融合从其连接的高斯组中受益。此外,我们设计了一个高斯池化层来聚合各种高斯组以实现高效表示。我们在大规模的RealEstate10K和ACID数据集上进行了实验,以证明我们方法的效率和泛化能力。与最先进的方法相比,我们的模型使用更少的高斯,并以更高的渲染速度实现了更好的图像质量。 |
|
[106] UniSync:用于音视频同步的统一框架 标题: UniSync: A Unified Framework for Audio-Visual Synchronization 作者: Tao Feng / Yifan Xie / Xun Guan / Jiyuan Song / Zhou Liu / Fei Ma / Fei Yu 原文: [英文] [中文] 备注: 7 pages, 3 figures, accepted by ICME 2025 摘要: 在语音视频中实现精确的音频-视觉同步对于内容质量和观众理解至关重要。现有的方法通过基于规则的方法和端到端的学习技术在解决这一挑战方面取得了显著进展。然而,这些方法通常依赖于有限的音频-视觉表示和次优的学习策略,这可能限制其在更复杂场景中的有效性。为了解决这些限制,我们提出了UniSync,这是一种使用嵌入相似性来评估音频-视觉同步的新方法。UniSync与各种音频表示(例如,Mel频谱图、HuBERT)和视觉表示(例如,RGB图像、面部解析图、面部标志、3DMM)具有广泛的兼容性,能够有效处理它们显著的维度差异。我们通过引入基于边界的损失组件和跨说话者不同步对,增强了对比学习框架,提高了判别能力。UniSync在标准数据集上优于现有方法,并展示了在多样的音频-视觉表示中的多功能性。将其集成到说话人面部生成框架中,提高了自然和AI生成内容的同步质量。 |
|
[107] JARVIS-VLA:后训练大规模视觉语言模型以键盘和鼠标玩视觉游戏 标题: JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse 作者: Muyao Li / Zihao Wang / Kaichen He / Xiaojian Ma / Yitao Liang 原文: [英文] [中文] 备注: 22 pages, 5 figures 摘要: 最近,开放世界环境中的基于动作的决策引起了广泛关注。预训练于大规模网络数据集的视觉语言动作(VLA)模型在决策任务中展现了潜力。然而,以往的工作主要集中在动作后训练,往往忽视了对基础模型本身的增强。对此,我们引入了一种新方法,即从视觉语言后训练中进行动作(Act from Visual Language Post-Training),通过视觉和语言引导以自监督的方式优化视觉语言模型(VLMs)。这种增强提高了模型在开放世界环境中的世界知识、视觉识别和空间定位能力。遵循上述后训练范式,我们在《我的世界》中获得了首个VLA模型,该模型能够遵循人类指令完成超过1000种不同的原子任务,包括制作、冶炼、烹饪、采矿和击杀。我们的实验表明,在非轨迹任务上的后训练使得在多样化的原子任务集上相较于最佳代理基线有显著的40%提升。此外,我们证明了我们的方法在《我的世界》中超越了传统的基于模仿学习的策略,达到了最先进的性能。我们已开源了代码、模型和数据集,以促进进一步的研究。项目页面可以在这个URL中找到。 |
|
[108] NuiScene:探索高效生成无限户外场景 标题: NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes 作者: Han-Hung Lee / Qinghong Han / Angel X. Chang 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们探讨了生成广阔户外场景的任务,从城堡到高层建筑。与之前主要关注的室内场景生成不同,户外场景生成呈现出独特的挑战,包括场景高度的巨大变化以及需要一种能够快速生成大型景观的方法。为了解决这些问题,我们提出了一种高效的方法,将场景块编码为统一的向量集,提供比之前方法使用的空间结构潜在变量更好的压缩和性能。此外,我们训练了一个显式的扩展模型用于无限制生成,与之前基于重采样的修补方案相比,该模型提高了连贯性,同时通过消除额外的扩散步骤加快了生成速度。为了促进这一任务,我们策划了NuiScene43,一个小而高质量的场景集,经过预处理以进行联合训练。值得注意的是,当在风格各异的场景上进行训练时,我们的模型可以在同一场景中融合不同的环境,例如乡村房屋和城市摩天大楼,突显了我们的策划过程在联合训练中利用异质场景的潜力。 |
|
[109] LaPIG:跨模态生成成对的热成像和可见光面部图像 标题: LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images 作者: Leyang Wang / Joice Lin 原文: [英文] [中文] 备注: None 摘要: 现代机器学习的成功,特别是在面部翻译网络中,很大程度上依赖于高质量、配对、大规模数据集的可用性。然而,获取足够的数据通常具有挑战性且成本高。受到最近扩散模型在高质量图像合成中的成功以及大型语言模型(LLMs)进展的启发,我们提出了一种名为LLM辅助配对图像生成(LaPIG)的新框架。该框架通过LLMs生成的字幕,能够构建全面、高质量的可见和热成像配对图像。我们的方法包括三个部分:使用ArcFace嵌入进行可见图像合成,使用潜在扩散模型(LDMs)进行热成像翻译,以及使用LLMs进行字幕生成。我们的方法不仅生成多视角的可见和热成像配对图像以增加数据多样性,还在保持身份信息的同时产生高质量的配对数据。我们通过与现有方法的比较,在公共数据集上评估了我们的方法,证明了LaPIG的优越性。 |
|
[110] 全景-CUDAL技术报告:雨天条件下的澳大利亚乡村点云数据集 标题: Panoptic-CUDAL Technical Report: Rural Australia Point Cloud Dataset in Rainy Conditions 作者: Tzu-Yun Tseng / Alexey Nekrasov / Malcolm Burdorf / Bastian Leibe / Julie Stephany Berrio / Mao Shan / Stewart Worrall 原文: [英文] [中文] 备注: None 摘要: 现有的自动驾驶数据集主要面向结构良好的城市环境和良好的天气条件,对于农村环境的复杂性和恶劣天气条件则很少涉及。虽然一些数据集涵盖了天气和光照的变化,但恶劣天气场景并不常见。降雨会显著影响传感器的功能,在LiDAR和摄像头数据中引入噪声和反射,降低系统对环境的可靠感知和安全导航的能力。我们引入了Panoptic-CUDAL数据集,这是一个专为在雨天的农村地区进行全景分割而构建的新型数据集。通过记录高分辨率的LiDAR、摄像头和位姿数据,Panoptic-CUDAL在具有挑战性的场景中提供了一个多样化、信息丰富的数据集。我们对记录的数据进行了分析,并提供了基于LiDAR点云的全景和语义分割方法的基准结果。数据集可以在此处找到:this https URL |
|
[111] 视觉想象能否提升视觉与语言导航代理的表现? 标题: Do Visual Imaginations Improve Vision-and-Language Navigation Agents? 作者: Akhil Perincherry / Jacob Krantz / Stefan Lee 原文: [英文] 备注: None 摘要: 视觉与语言导航(VLN)代理的任务是使用自然语言指令在未知环境中进行导航。在这项工作中,我们研究了指令中隐含的子目标的视觉表示是否可以作为导航线索,从而提高导航性能。为了合成这些视觉表示或想象,我们利用文本到图像的扩散模型对分段指令中包含的地标参考进行处理。这些想象被提供给VLN代理,作为一种额外的模态,充当地标线索,并添加了一个辅助损失,以明确鼓励将这些与其对应的指称表达相关联。我们的研究结果显示,成功率(SR)提高了大约1个百分点,成功率按路径长度的倒数缩放(SPL)提高了最多0.5个百分点。这些结果表明,与仅依赖语言指令相比,所提出的方法增强了视觉理解。我们的工作代码和数据可以在这个HTTPS URL中找到。 |
|
[112] SV4D 2.0:增强多视角视频扩散中时空一致性以实现高质量4D生成 标题: SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation 作者: Chun-Han Yao / Yiming Xie / Vikram Voleti / Huaizu Jiang / Varun Jampani 原文: [英文] 备注: None 摘要: 我们介绍了Stable Video 4D 2.0 (SV4D 2.0),这是一种用于动态3D资产生成的多视角视频扩散模型。与其前身SV4D相比,SV4D 2.0在遮挡和大运动方面更具鲁棒性,更好地泛化到现实世界的视频,并在细节清晰度和时空一致性方面产生更高质量的输出。我们通过在多个方面引入关键改进来实现这一目标:1)网络架构:消除对参考多视图的依赖,并设计用于3D和帧注意力的融合机制,2)数据:提高训练数据的质量和数量,3)训练策略:采用渐进式3D-4D训练以获得更好的泛化能力,4)4D优化:通过两阶段细化和渐进式帧采样处理3D不一致性和大运动。大量实验表明,SV4D 2.0在视觉和定量上均表现出显著的性能提升,在新视角视频合成和4D优化中实现了更好的细节(LPIPS降低14%)和4D一致性(FV4D降低44%),与SV4D相比,LPIPS降低12%和FV4D降低24%。项目页面:这个https URL。 |
|
[113] 扩散模型的尺度蒸馏 标题: Scale-wise Distillation of Diffusion Models 作者: Nikita Starodubcev / Denis Kuznedelev / Artem Babenko / Dmitry Baranchuk 原文: [英文] 备注: None 摘要: 我们提出了SwD,一种针对扩散模型(DMs)的尺度蒸馏框架,该框架有效地利用了基于扩散的少步生成器的下一尺度预测思想。更具体地说,SwD的灵感来自于最近将扩散过程与隐式谱自回归联系起来的见解。我们假设DMs可以在较低的数据分辨率下开始生成,并在每个去噪步骤中逐步放大样本,而不会损失性能,同时显著降低计算成本。SwD自然地将这一想法整合到基于分布匹配的现有扩散蒸馏方法中。此外,我们通过引入一种新的补丁损失来丰富分布匹配方法的家族,该损失强制与目标分布的更细粒度相似性。当应用于最先进的文本到图像扩散模型时,SwD接近于两个完整分辨率步骤的推理时间,并在相同的计算预算下显著优于同类方法,这已通过自动化指标和人类偏好研究得到证实。 |
|
[114] SA-Occ: 卫星辅助的真实世界三维占用预测 标题: SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World 作者: Chen Chen / Zhirui Wang / Taowei Sheng / Yi Jiang / Yundu Li / Peirui Cheng / Luning Zhang / Kaiqiang Chen / Yanfeng Hu / Xue Yang / Xian Sun 原文: [英文] 备注: 10 pages 摘要: 现有的基于视觉的3D占用预测方法由于仅依赖于街景图像而在准确性上存在固有的局限性,忽视了结合卫星视图的潜在优势。我们提出了SA-Occ,这是第一个卫星辅助的3D占用预测模型,它利用GPS和IMU将历史但易于获取的卫星图像整合到实时应用中,有效缓解了自车感知的局限性,包括遮挡和远距离区域性能下降的问题。为了解决跨视角感知的核心挑战,我们提出了:1)动态解耦融合,解决了由于卫星和街景视图之间的时间不同步导致的动态区域不一致问题;2)3D投影引导,一个增强从本质上是2D的卫星图像中提取3D特征的模块;以及3)统一采样对齐,协调街景和卫星视图之间的采样密度。在Occ3D-nuScenes上进行评估时,SA-Occ在单帧方法中实现了最先进的性能,达到39.05%的mIoU(提高了6.97%),而每帧仅增加了6.93毫秒的延迟。我们的代码和新整理的数据集可在此https URL获取。 |
|
[115] 梦纹理:通过增强分析从虚拟纹理中获取形状 标题: DreamTexture: Shape from Virtual Texture with Analysis by Augmentation 作者: Ananta R. Bhattarai / Xingzhe He / Alla Sheffer / Helge Rhodin 原文: [英文] 备注: Project page: this https URL 摘要: DreamFusion通过结合生成模型和可微渲染的进展,建立了一种从虚拟视图进行无监督3D重建的新范式。然而,基础的多视图渲染以及来自大规模生成模型的监督在计算上是昂贵且约束不足的。我们提出了DreamTexture,这是一种新颖的基于虚拟纹理的形状重建方法,利用单目深度线索来重建3D对象。我们的方法通过将虚拟纹理与输入图像中的真实深度线索对齐来为输入图像添加纹理,利用现代扩散模型中编码的单目几何的内在理解。然后,我们通过一种新的保角映射优化从虚拟纹理变形中重建深度,这缓解了内存密集的体积表示。我们的实验表明,生成模型具备对单目形状线索的理解,可以通过增强和对齐纹理线索来提取——这是一种我们称之为“通过增强进行分析”的新单目重建范式。 |
|
[116] M3:三维空间多模态记忆 标题: M3: 3D-Spatial MultiModal Memory 作者: Xueyan Zou / Yuchen Song / Ri-Zhao Qiu / Xuanbin Peng / Jianglong Ye / Sifei Liu / Xiaolong Wang 原文: [英文] 备注: ICLR2025 homepage: this https URL code: this https URL 摘要: 我们提出了3D空间多模态记忆系统(M3),这是一种多模态记忆系统,旨在通过视频源保留关于中等大小静态场景的视觉感知信息。通过将3D高斯散射技术与基础模型相结合,M3构建了一个多模态记忆系统,能够在不同粒度上呈现特征表示,涵盖广泛的知识。在我们的研究中,我们识别出先前特征散射工作中的两个关键挑战:(1)在为每个高斯原语存储高维特征时的计算限制,以及(2)蒸馏特征与基础模型特征之间的错位或信息丢失。为了解决这些挑战,我们提出了M3,其关键组件包括主要场景组件和高斯记忆注意力,从而实现高效的训练和推理。为了验证M3,我们进行了全面的特征相似性和下游任务的定量评估,以及定性可视化,以突出高斯记忆注意力的像素轨迹。我们的方法涵盖了多种基础模型,包括视觉-语言模型(VLMs)、感知模型以及大型多模态和语言模型(LMMs/LLMs)。此外,为了展示其实际应用能力,我们在四足机器人上的室内场景中部署了M3的特征场。值得注意的是,我们声称M3是首个解决3D特征蒸馏中核心压缩挑战的工作。 |
|
[117] 无限你:灵活的照片重塑,同时保留你的身份 标题: InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity 作者: Liming Jiang / Qing Yan / Yumin Jia / Zichuan Liu / Hao Kang / Xin Lu 原文: [英文] [中文] 备注: Project page: this https URL Code and model: this https URL 摘要: 实现灵活且高保真度的身份保留图像生成仍然是一个艰巨的任务,特别是在使用先进的扩散变压器(DiTs)如FLUX时。我们介绍了InfiniteYou(InfU),这是最早利用DiTs进行此任务的稳健框架之一。InfU解决了现有方法的重大问题,例如身份相似性不足、文本与图像对齐差以及生成质量和美学低下。InfU的核心是InfuseNet,一个通过残差连接将身份特征注入DiT基础模型的组件,增强了身份相似性,同时保持了生成能力。多阶段训练策略,包括使用合成单人多样本(SPMS)数据进行预训练和监督微调(SFT),进一步改善了文本与图像的对齐,提升了图像质量,并缓解了面部复制粘贴问题。大量实验表明,InfU实现了最先进的性能,超越了现有的基线。此外,InfU的即插即用设计确保了与各种现有方法的兼容性,为更广泛的社区提供了宝贵的贡献。 |
|
[118] SynCity:无需训练的3D世界生成 标题: SynCity: Training-Free Generation of 3D Worlds 作者: Paul Engstler / Aleksandar Shtedritski / Iro Laina / Christian Rupprecht / Andrea Vedaldi 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 我们解决了从文本描述生成3D世界的挑战。我们提出了SynCity,这是一种无需训练和优化的方法,它利用预训练的3D生成模型的几何精度和2D图像生成器的艺术多样性来创建大型、高质量的3D空间。虽然大多数3D生成模型是以对象为中心的,无法生成大规模的世界,但我们展示了如何结合3D和2D生成器来生成不断扩展的场景。通过基于瓷砖的方法,我们可以对场景的布局和外观进行细粒度的控制。世界是逐块生成的,每个新块在其世界背景下生成,然后与场景融合。SynCity生成的场景引人入胜,沉浸感强,细节丰富且多样化。 |
|
[119] MagicMotion:通过密集到稀疏轨迹引导实现可控视频生成 标题: MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance 作者: Quanhao Li / Zhen Xing / Rui Wang / Hui Zhang / Qi Dai / Zuxuan Wu 原文: [英文] [中文] 备注: None 摘要: 最近视频生成技术的进步在视觉质量和时间连贯性方面取得了显著的提升。在此基础上,轨迹可控视频生成技术出现,使得通过明确定义的空间路径实现精确的物体运动控制。然而,现有方法在处理复杂物体运动和多物体运动控制时存在困难,导致轨迹遵循不精确、物体一致性差以及视觉质量受损。此外,这些方法仅支持单一格式的轨迹控制,限制了其在多样化场景中的适用性。此外,目前没有公开可用的数据集或基准专门针对轨迹可控视频生成,这阻碍了稳健的训练和系统的评估。为了解决这些挑战,我们引入了MagicMotion,这是一种新颖的图像到视频生成框架,通过从密集到稀疏的三个条件级别实现轨迹控制:掩码、边界框和稀疏框。给定输入图像和轨迹,MagicMotion能够沿定义的轨迹无缝地动画化物体,同时保持物体的一致性和视觉质量。此外,我们推出了MagicData,一个大规模的轨迹控制视频数据集,并提供了一个自动化的注释和过滤流程。我们还引入了MagicBench,一个综合基准,用于评估不同数量物体的视频质量和轨迹控制准确性。大量实验表明,MagicMotion在各种指标上优于以往的方法。我们的项目页面已在此HTTPS URL公开。 |
|
[120] 用于动态场景渲染的1000+ FPS四维高斯喷溅 标题: 1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering 作者: Yuheng Yuan / Qiuhong Shen / Xingyi Yang / Xinchao Wang 原文: [英文] [中文] 备注: None 摘要: 4D Gaussian Splatting(4DGS)最近作为一种重建动态场景的方法受到了广泛关注。尽管其在质量上表现优异,但4DGS通常需要大量存储空间,并且渲染速度较慢。在这项工作中,我们深入研究了这些问题,并识别出两个关键的时间冗余来源。(Q1)\textbf{短寿命高斯}:4DGS使用了大量时间跨度较短的高斯来表示场景动态,导致高斯数量过多。(Q2)\textbf{非活跃高斯}:在渲染时,每帧只有一小部分高斯对其有贡献。尽管如此,所有高斯在光栅化过程中都被处理,导致冗余的计算开销。为了解决这些冗余问题,我们提出了\textbf{4DGS-1K},它在现代GPU上运行速度超过1000 FPS。针对Q1,我们引入了空间-时间变化评分,这是一种新的剪枝标准,可以有效去除短寿命高斯,同时鼓励4DGS使用时间跨度更长的高斯来捕捉场景动态。针对Q2,我们为连续帧中的活跃高斯存储了一个掩码,大大减少了渲染中的冗余计算。与原始4DGS相比,我们的方法在复杂动态场景中实现了存储量减少41倍和光栅化速度提高9倍,同时保持了相当的视觉质量。请访问我们的项目页面查看详细信息,网址为此https URL。 |
|
[121] GAEA:一种具备地理位置感知的对话模型 标题: GAEA: A Geolocation Aware Conversational Model 作者: Ron Campos / Ashmal Vayani / Parth Parag Kulkarni / Rohit Gupta / Aritra Dutta / Mubarak Shah 原文: [英文] [中文] 备注: The dataset and code used in this submission is available at: this https URL 摘要: 图像地理定位传统上是指AI模型预测图像的精确GPS坐标,这是一项具有许多下游应用的挑战性任务。然而,用户除了获取GPS坐标外无法利用该模型来进一步扩展他们的知识;该模型缺乏对位置的理解以及与用户交流的能力。近年来,随着大型多模态模型(LMMs)的巨大进展,专有和开源研究人员尝试通过LMMs进行图像地理定位。然而,问题仍未解决;对于更专业的下游任务,其中之一是地理定位,LMMs表现不佳。在这项工作中,我们提出通过引入一个对话模型GAEA来解决这个问题,该模型可以根据用户的需求提供有关图像位置的信息。没有大型数据集可以用于训练这样的模型。因此,我们提出了一个综合数据集GAEA,包含80万张图像和约160万对问答对,这些数据是通过利用OpenStreetMap(OSM)属性和地理上下文线索构建的。为了进行定量评估,我们提出了一个多样化的基准测试,包括4000个图像-文本对,以评估具备多样化问题类型的对话能力。我们考虑了11个最先进的开源和专有LMMs,并证明GAEA显著优于最佳开源模型LLaVA-OneVision 25.69%和最佳专有模型GPT-4o 8.28%。我们的数据集、模型和代码均可获取。 |
|
[122] 将图像标记化为集合 标题: Tokenize Image as a Set 作者: Zigang Geng / Mengde Xu / Han Hu / Shuyang Gu 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种通过基于集合的标记化和分布建模进行图像生成的全新范式。与传统方法将图像序列化为具有统一压缩比的固定位置潜在编码不同,我们引入了一种无序标记集合表示,以根据区域语义复杂性动态分配编码容量。这个TokenSet增强了全局上下文聚合,并提高了对局部扰动的鲁棒性。为了解决离散集合建模的关键挑战,我们设计了一种双重转换机制,将集合双射转换为具有求和约束的固定长度整数序列。此外,我们提出了固定和离散扩散——第一个同时处理离散值、固定序列长度和求和不变性的框架——实现了有效的集合分布建模。实验表明,我们的方法在语义感知表示和生成质量方面具有优越性。我们的创新涵盖了新的表示和建模策略,推动了视觉生成超越传统的序列标记范式。我们的代码和模型已在此https URL公开。 |
|
[123] DynamicVis:一种用于遥感图像理解的高效通用视觉基础模型 标题: DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding 作者: Keyan Chen / Chenyang Liu / Bowen Chen / Wenyuan Li / Zhengxia Zou / Zhenwei Shi 原文: [英文] [中文] 备注: None 摘要: 遥感技术的进步提高了卫星影像的空间分辨率,从而为多样化的解读提供了更为详细的视觉表现。然而,现有的方法在不同应用中的泛化能力有限。尽管一些当代基础模型展现了潜力,但它们在跨任务适应性上不足,主要处理低分辨率且尺寸受限的影像,因此未能充分利用高分辨率数据或全面利用大场景语义。关键在于,遥感影像与自然图像有根本区别,因为关键的前景目标(例如,海事物体、人造结构)通常占据很小的空间比例(约1%)并呈现稀疏分布。有效地从长2D标记(约100,000个)中建模跨任务的可泛化知识是一个重大挑战,但对于遥感图像理解至关重要。受到人类视觉系统中选择性注意机制的启发,我们提出了DynamicVis,一种用于遥感影像的动态视觉感知基础模型。该框架整合了一种基于选择性状态空间模型的新型动态区域感知主干网络,策略性地平衡了局部细节提取与全局上下文整合,使得在保持架构可扩展性的同时,能够高效地编码大规模数据。为了增强跨任务知识转移,我们引入了一种利用元嵌入表示的多实例学习范式,并在百万级区域级别标注上进行训练。在九个下游任务中的评估展示了该模型的多样性。DynamicVis实现了多层次特征建模,具有卓越的效率,处理(2048x2048)像素的延迟为97毫秒(为ViT的6%)和833 MB的GPU内存(为ViT的3%)。 |
|
[124] Sonata:可靠点表示的自监督学习 标题: Sonata: Self-Supervised Learning of Reliable Point Representations 作者: Xiaoyang Wu / Daniel DeTone / Duncan Frost / Tianwei Shen / Chris Xie / Nan Yang / Jakob Engel / Richard Newcombe / Hengshuang Zhao / Julian Straub 原文: [英文] 备注: CVPR 2025, produced by Pointcept x Meta, project page: this https URL 摘要: 在本文中,我们探讨是否存在一种可靠的自监督点云模型,可以通过简单的线性探测用于多样的3D任务,即使在数据有限和计算量最小的情况下。我们发现现有的3D自监督学习方法在通过线性探测评估表示质量时表现不佳。我们假设这是由于我们称之为“几何捷径”的问题,导致表示收缩到低级空间特征。这一挑战是3D特有的,源于点云数据的稀疏性。我们通过两种关键策略来解决这一问题:模糊空间信息和增强对输入特征的依赖,最终通过自蒸馏构建了一个由14万点云组成的Sonata。Sonata简单直观,但其学习的表示强大且可靠:零样本可视化展示了语义分组,以及通过最近邻关系的强空间推理。Sonata表现出卓越的参数和数据效率,在ScanNet上将线性探测准确率提高了三倍(从21.8%到72.5%),并且在仅使用1%数据的情况下几乎将性能翻倍,与之前的方法相比。完整的微调进一步提升了室内和室外3D感知任务的最新技术水平。 |
|
[125] 将连续和离散标记结合用于自回归视觉生成 标题: Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation 作者: Yuqing Wang / Zhijie Lin / Yao Teng / Yuanzhi Zhu / Shuhuai Ren / Jiashi Feng / Xihui Liu 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 自回归视觉生成模型通常依赖于分词器将图像压缩成可以顺序预测的标记。在标记表示中存在一个基本的两难:离散标记使得使用标准的交叉熵损失进行建模变得简单,但会导致信息丢失和分词器训练不稳定;连续标记更好地保留了视觉细节,但需要复杂的分布建模,从而使生成流程复杂化。在本文中,我们提出了TokenBridge,通过保持连续标记的强大表示能力,同时保留离散标记的建模简单性,来弥合这一差距。为此,我们通过后训练量化将离散化与分词器训练过程解耦,直接从连续表示中获得离散标记。具体来说,我们引入了一种逐维量化策略,独立地对每个特征维度进行离散化,并配以轻量级的自回归预测机制,有效地对生成的大标记空间进行建模。大量实验表明,我们的方法在使用标准分类预测的同时,实现了与连续方法相当的重建和生成质量。这项工作表明,弥合离散和连续范式可以有效地利用两种方法的优势,为通过简单的自回归建模实现高质量视觉生成提供了一个有前途的方向。项目页面:this https URL。 |
