![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年7月14日更新论文71篇
|
[1] CuriosAI 对 2025 年 EgoExo4D 能力估计挑战赛的提交 标题: CuriosAI Submission to the EgoExo4D Proficiency Estimation Challenge 2025 作者: Hayato Tanoue / Hiroki Nishihara / Yuma Suzuki / Takayuki Hori / Hiroki Takushima / Aiswariya Manojkumar / Yuki Shibata / Mitsuru Takeda / Fumika Beppu / Zhao Hengwei / Yuto Kanda / Daichi Yamaga 原文: [英文] [中文] 备注: The 2nd place solution for the EgoExo4D Proficiency Estimation Challenge at the CVPR EgoVis Workshop 2025 摘要: 本报告介绍了CuriosAI团队在CVPR 2025的EgoExo4D能力评估挑战赛中的提交作品。我们提出了两种多视角技能评估方法:(1)使用Sapiens-2B的多任务学习框架,该框架联合预测能力和场景标签(43.6%的准确率);(2)结合零样本场景识别与视角特定的VideoMAE分类器的两阶段流程(47.8%的准确率)。两阶段方法的优越性能展示了场景条件建模在能力评估中的有效性。 |
[2] 视觉-语言模型在精准农业中的自洽性:用于作物病害管理的多响应共识 标题: Self-Consistency in Vision-Language Models for Precision Agriculture: Multi-Response Consensus for Crop Disease Management 作者: Mihir Gupta / Abhay Mangla / Ross Greer / Pratik Desai 原文: [英文] [中文] 备注: None 摘要: 精准农业在很大程度上依赖于准确的图像分析来识别作物病害并推荐治疗方案,但现有的视觉-语言模型(VLMs)在专业的农业领域中往往表现不佳。本文提出了一种面向领域的农业图像处理框架,该框架结合了基于提示的专家评估和自一致性机制,以提高VLM在精准农业应用中的可靠性。我们引入了两个关键创新:(1)一种基于提示的评估协议,将语言模型配置为专家植物病理学家,以便对图像分析输出进行可扩展的评估;(2)一种余弦一致性自投票机制,从农业图像生成多个候选响应,并使用领域适应的嵌入选择语义上最一致的诊断。应用于使用微调的PaliGemma模型从田间图像识别玉米叶病害,我们的方法将诊断准确率从82.2%提高到87.8%,症状分析从38.9%提高到52.2%,治疗推荐从27.8%提高到43.3%,相较于标准的贪婪解码。该系统足够紧凑,可以部署在移动设备上,支持资源受限环境中的实时农业决策。这些结果展示了AI驱动的精准农业工具在多样化田间条件下可靠运行的巨大潜力。 |
[3] 为ITU-R P. 1411传播模型开发加拿大全国形态图 标题: Development of a Canada-Wide Morphology Map for the ITU-R P. 1411 Propagation Model 作者: Jennifer P. T. Nguyen 原文: [英文] 备注: None 摘要: 本文概述了一张加拿大全国形态图的开发,该图根据ITU-R P.1411-12传播模型指南,将地区分类为住宅区、城市低层和城市高层环境。为了应对建议中环境类型描述符的定性特性,采用了一种机器学习方法来自动化分类过程。通过广泛的实验优化了分类准确性,最终生成了一张加拿大全国形态图,确保在300 MHz到100 GHz频率范围内的户外短距离传播路径损耗估计更加准确。 |
[4] 评估文本到图像模型中提示依从性稳健性的探索 标题: Towards Evaluating Robustness of Prompt Adherence in Text to Image Models 作者: Sujith Vemishetty / Advitiya Arora / Anupama Sharma 原文: [英文] [中文] 备注: None 摘要: 近年来,LLM领域的进步令许多人感到惊讶,展示了其卓越的能力和多样的应用。它们在各种现实场景中的潜在应用引发了关于其可靠性和有效性的重大研究。另一方面,多模态LLM和文本到图像模型相比于仅限文本的LLM,直到最近才获得关注。由于对其性能和稳健性评估的研究不足,其可靠性仍然受到限制。本文旨在为文本到图像模型建立一个全面的评估框架,特别关注它们对提示的遵循情况。我们创建了一个新颖的数据集,旨在评估这些模型在生成符合输入文本提示中指定变化因素的图像时的稳健性。我们的评估研究展示了三种Stable Diffusion模型的变体:Stable Diffusion 3 Medium、Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo,以及两种Janus模型的变体:Janus Pro 1B和Janus Pro 7B。我们引入了一个管道,利用gpt-4o模型生成的文本描述作为我们的真实图像,然后将这些描述传递给文本到图像模型以生成人工图像。然后,我们再次通过gpt-4o使用相同的系统提示传递这些生成的图像,并比较两个描述之间的变化。我们的结果显示,这些模型在创建仅有两个变化因素的简单二元图像时存在困难:一个简单的几何形状及其位置。我们还展示了,使用我们数据集上的预训练VAE,这些模型未能生成遵循我们输入数据集分布的图像。 |
[5] ConsNoTrainLoRA:使用约束进行数据驱动的低秩适配器权重初始化 标题: ConsNoTrainLoRA: Data-driven Weight Initialization of Low-rank Adapters using Constraints 作者: Debasmit Das / Hyoungwoo Park / Munawar Hayat / Seokeon Choi / Sungrack Yun / Fatih Porikli 原文: [英文] [中文] 备注: ICCV 2025 摘要: 基础模型在大规模数据集上进行预训练,然后使用参数高效微调(PEFT)技术(如低秩适配器LoRA)在小规模数据集上进行微调。在大多数先前的研究中,LoRA权重矩阵在所有附加点上以固定秩随机初始化。在本文中,我们提出了一种数据驱动的权重初始化方法ConsNoTrainLoRA(CNTLoRA),以改善LoRA微调的收敛性和最终性能。我们将LoRA初始化表达为一个领域转移问题,其中我们使用多个约束来关联预训练和微调的激活。通过重新构建这些约束,我们获得了LoRA权重的闭式估计,该估计依赖于预训练权重和微调激活向量,因此在初始化时不需要训练。这个权重估计被分解以初始化上行和下行矩阵,并具有可变秩的灵活性。使用我们提出的初始化方法,我们在下游任务如图像生成、图像分类和图像理解上进行微调。定量和定性结果均表明,CNTLoRA优于标准和数据驱动的权重初始化方法。广泛的分析和消融实验进一步阐明了我们框架的设计选择,提供了更快收敛和增强性能的最佳方案。 |
[6] 一种用于图像分类的混合多层极限学习机及其在四旋翼飞行器中的应用 标题: A Hybrid Multilayer Extreme Learning Machine for Image Classification with an Application to Quadcopters 作者: Rolando A.Hernandez-Hernandez / Adrian Rubio-Solis 原文: [英文] [中文] 备注: 22 pages, 10 figures, 3 tables 摘要: 多层极限学习机(ML-ELM)及其变体已被证明是对音频、视频、声学和图像等不同自然信号进行分类的有效技术。在本文中,提出了一种基于ELM自编码器(ELM-AE)和区间二型模糊逻辑理论的混合多层极限学习机(HML-ELM),用于主动图像分类,并应用于无人机(UAV)。所提出的方法是一种分层的ELM学习框架,包含两个主要阶段:1)自学特征提取和2)监督特征分类。首先,通过堆叠多个ELM-AE实现无监督的多层特征编码,将输入数据投影到多个高级表示中。在第二阶段,使用一种新颖的简化区间二型模糊ELM(SIT2-FELM)对最终特征进行分类,该方法具有基于SC算法的快速输出减少层;这是算法“无排序要求的集合中心型减少器”(COSTRWSR)的改进版本。为了验证HML-ELM的效率,建议进行两种类型的图像分类实验。首先,HML-ELM被应用于解决多个图像分类的基准问题。其次,实施了一些实际实验,使用无人机在两个预定位置之间主动分类和运输四种不同的物体。实验表明,所提出的HML-ELM相比于其他类似方法,如ML-ELM、多层模糊极限学习机(ML-FELM)和ELM,具有更优越的效率。 |
[7] 用于高光谱成像机载推理的轻量级云掩膜模型 标题: Lightweight Cloud Masking Models for On-Board Inference in Hyperspectral Imaging 作者: Mazen Ali / António Pereira / Fabio Gentile / Aser Cortines / Sam Mugel / Román Orús / Stelios P. Neophytides / Michalis Mavrovouniotis 原文: [英文] [中文] 备注: None 摘要: 云和云影遮罩是高光谱卫星成像中的一个关键预处理步骤,使得高质量、可供分析的数据得以提取。本研究评估了多种机器学习方法,包括梯度提升方法如XGBoost和LightGBM以及卷积神经网络(CNN)。所有提升和CNN模型的准确率均超过93%。在所研究的模型中,具有特征降维的CNN被认为是最有效的,提供了高准确性、低存储需求和在CPU和GPU上快速推理时间的平衡。该版本的变体,只有最多597个可训练参数,展示了在部署可行性、准确性和计算效率方面的最佳折衷。这些结果展示了轻量级人工智能(AI)模型在实时高光谱图像处理中的潜力,支持了用于太空应用的机载卫星AI系统的发展。 |
[8] 高斯分布的重要性相对分析 标题: The relative importance of being Gaussian 作者: F. Alberto Grünbaum / Tondgi Xu 原文: [英文] [中文] 备注: None 摘要: 在计算机视觉中,使用扩散模型进行去噪的显著成果(如文献\cite{SDWMG,HJA,HHG}所示)为基于一系列独立的高斯$N(0,1)$随机变量的关键性质的算法提供了稳健的数学依据。特别是,这些推导利用了高斯分布由其均值和方差决定的事实,以及两个高斯分布的和仍然是一个高斯分布。 本短文提出的问题如下:假设我们在不做任何更改的情况下使用该算法,但替换噪声的性质,例如使用均匀分布的噪声、Beta分布的噪声,或是方差非常不同的两个高斯分布的随机叠加噪声。当然,可以尝试在考虑噪声性质的情况下修改算法,但这不是我们所做的。相反,我们研究了当算法用于与高斯情况性质相差甚远的噪声时的性能,而该算法本设计用于在高斯噪声下表现良好。 通常,这些算法是在非常强大的计算机上实现的。我们的实验全部在一台小型笔记本电脑上进行,并使用最小可能的图像尺寸。探索在不同情况下我们的观察结果如何得到验证或改变仍然是一个有趣的挑战。 |
[9] 一种基于对象的深度学习方法用于从单幅SAR图像估计建筑物高度 标题: An Object-Based Deep Learning Approach for Building Height Estimation from Single SAR Images 作者: Babak Memar / Luigi Russo / Silvia Liberata Ullo / Paolo Gamba 原文: [英文] 备注: None 摘要: 使用超高分辨率(VHR)合成孔径雷达(SAR)图像准确估算建筑物高度对于各种城市应用至关重要。本文介绍了一种基于深度学习(DL)的方法,用于从单幅VHR COSMO-SkyMed图像中自动估算建筑物高度:这是一种基于目标的回归方法,首先进行边界框检测,然后进行高度估算。该模型在一个独特的多大陆数据集上进行了训练和评估,该数据集包括欧洲、北美、南美和亚洲的八个地理多样化的城市,采用交叉验证策略明确评估分布外(OOD)泛化能力。结果显示出非常有前景的性能,特别是在欧洲城市,模型实现了约一个建筑层(在慕尼黑为2.20米)的平均绝对误差(MAE),在类似的OOD场景中显著优于最近的最新方法。尽管在推广到其他大陆的城市时观察到更大的变异性,特别是在亚洲,其独特的城市类型和高层建筑的普遍存在,这项研究强调了DL在从单幅VHR SAR数据中进行建筑物高度估算的跨城市和跨大陆迁移学习中的巨大潜力。 |
[10] RegGS:使用3DGS配准的无姿态稀疏视图高斯喷射 标题: RegGS: Unposed Sparse Views Gaussian Splatting with 3DGS Registration 作者: Chong Cheng / Yu Hu / Sicheng Yu / Beizhen Zhao / Zijian Wang / Hao Wang 原文: [英文] [中文] 备注: Accepted to ICCV 2025 摘要: 3D Gaussian Splatting (3DGS) 在从无位姿图像重建场景方面展示了其潜力。然而,由于先验知识有限,基于优化的3DGS方法在稀疏视图情况下表现不佳。同时,前馈高斯方法受限于输入格式,使得整合更多输入视图变得具有挑战性。为了解决这些问题,我们提出了RegGS,这是一种基于3D高斯配准的框架,用于重建无位姿的稀疏视图。RegGS将由前馈网络生成的局部3D高斯对齐为全局一致的3D高斯表示。在技术上,我们实现了一种熵正则化的Sinkhorn算法,以有效解决最优传输Mixture 2-Wasserstein $(\text{MW}_2)$ 距离问题,该距离作为高斯混合模型(GMMs)在$\mathrm{Sim}(3)$空间中的对齐度量。此外,我们设计了一个联合3DGS配准模块,整合了$\text{MW}_2$距离、光度一致性和深度几何。这使得从粗到细的配准过程成为可能,同时准确估计相机位姿并对齐场景。在RE10K和ACID数据集上的实验表明,RegGS能够高保真地配准局部高斯,实现精确的位姿估计和高质量的新视图合成。项目页面:this https URL。 |
[11] 用于3D人-物交互重建的时间一致性非可视部分补全 标题: Temporally Consistent Amodal Completion for 3D Human-Object Interaction Reconstruction 作者: Hyungjun Doh / Dong In Lee / Seunggeun Chi / Pin-Hao Huang / Kwonjoon Lee / Sangpil Kim / Karthik Ramani 原文: [英文] [中文] 备注: None 摘要: 我们介绍了一种新颖的框架,用于从单目视频中重建动态的人物与物体交互,该框架克服了与遮挡和时间不一致性相关的挑战。传统的3D重建方法通常假设物体是静止的或动态主体完全可见,当这些假设被打破时,尤其是在发生相互遮挡的场景中,性能会下降。为了解决这个问题,我们的框架利用超模态补全来推断部分遮挡区域的完整结构。与在单个帧上操作的传统方法不同,我们的方法整合了时间上下文,强制在视频序列中保持一致性,以逐步完善和稳定重建。这种无模板策略能够适应不同的条件,而不依赖于预定义的模型,从而显著增强了动态场景中复杂细节的恢复。我们使用3D高斯点云对具有挑战性的单目视频验证了我们的方法,展示了在处理遮挡和保持时间稳定性方面相较于现有技术的优越精度。 |
[12] 自适应扩散去噪平滑:通过差分隐私引导去噪扩散实现的随机平滑认证鲁棒性 标题: Adaptive Diffusion Denoised Smoothing : Certified Robustness via Randomized Smoothing with Differentially Private Guided Denoising Diffusion 作者: Frederick Shpilevskiy / Saiyue Lyu / Krishnamurthy Dj Dvijotham / Mathias Lécuyer / Pierre-André Noël 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种自适应扩散去噪平滑方法,用于验证视觉模型在对抗样本下的预测,同时适应输入。我们的关键见解是将引导去噪扩散模型重新解释为一长序列的自适应高斯差分隐私(GDP)机制,这些机制将纯噪声样本细化为图像。我们展示了这些自适应机制可以通过GDP隐私过滤器进行组合,以分析引导去噪过程的端到端鲁棒性,从而提供一种可证明的认证,扩展了自适应随机平滑分析。我们证明,在特定的引导策略下,我们的设计可以在ImageNet的$\ell_2$威胁模型中提高认证准确率和标准准确率。 |
[13] 一种嵌入式实时物体警报系统用于视障人士:基于计算机视觉的单目深度估计方法 标题: An Embedded Real-time Object Alert System for Visually Impaired: A Monocular Depth Estimation based Approach through Computer Vision 作者: Jareen Anjom / Rashik Iram Chowdhury / Tarbia Hasan / Md. Ishan Arefin Hossain 原文: [英文] [中文] 备注: None 摘要: 视障人士在孟加拉国城市的日常通勤中面临重大挑战,因为每条道路上都有大量障碍物。由于每天都有许多因交通事故而受伤的事件发生,开发一个能够提前提醒视障人士附近物体的系统至关重要。为了解决这个问题,本研究提出了一种新颖的警报系统,以帮助视障人士在繁忙的街道上通行而不与任何物体相撞。该系统可以提醒个人注意近距离存在的物体。它利用迁移学习来训练深度估计和物体检测的模型,并结合这两个模型引入了一种新系统。通过量化技术对模型进行优化,使其轻量化和高效化,从而可以轻松部署在嵌入式系统上。所提出的解决方案实现了一个轻量级的实时深度估计和物体检测模型,其mAP50达到了0.801。 |
[14] HNOSeg-XS:极小的哈特利神经算子,用于高效且分辨率稳健的3D图像分割 标题: HNOSeg-XS: Extremely Small Hartley Neural Operator for Efficient and Resolution-Robust 3D Image Segmentation 作者: Ken C. L. Wong / Hongzhi Wang / Tanveer Syeda-Mahmood 原文: [英文] [中文] 备注: This paper was accepted by IEEE TMI 2025 摘要: 在医学图像分割中,卷积神经网络(CNNs)和变压器(transformers)占据主导地位。对于CNNs,由于卷积层的局部感受野,长距离的空间相关性是通过连续的卷积和池化来捕获的。然而,由于计算成本和内存占用可能非常大,3D模型只能比2D模型承受更少的层数,从而减少了感受野和抽象层次。对于变压器,尽管可以通过多头注意力捕获长距离相关性,但其相对于输入大小的二次复杂性要求很高的计算量。因此,任一模型可能需要减少输入大小,以允许更多的滤波器和层数来实现更好的分割。然而,鉴于其离散特性,使用逐块训练或图像下采样训练的模型在应用于更高分辨率时可能会产生次优结果。为了解决这个问题,我们提出了分辨率鲁棒的HNOSeg-XS架构。我们通过傅里叶神经算子将图像分割建模为可学习的偏微分方程,该算子具有零样本超分辨率特性。通过用哈特利变换替代傅里叶变换并在频域中重新表述问题,我们创建了HNOSeg-XS模型,该模型具有分辨率鲁棒性、快速、内存高效和极其参数高效的特点。在使用Tesla V100 GPU对BraTS'23、KiTS'23和MVSeg'23数据集进行测试时,HNOSeg-XS展示了其卓越的分辨率鲁棒性,模型参数少于34.7k。与测试的CNN和变压器模型相比,它还实现了整体最佳的推理时间(< 0.24秒)和内存效率(< 1.8 GiB)。 |
[15] SurfDist:使用曲面片进行可解释的三维实例分割 标题: SurfDist: Interpretable Three-Dimensional Instance Segmentation Using Curved Surface Patches 作者: Jackson Borchardt / Saul Kato 原文: [英文] [中文] 备注: 8 pages, 6 figures 摘要: 我们介绍了SurfDist,这是一种用于三维体积实例分割的卷积神经网络架构。SurfDist能够预测以光滑参数化曲面片(特别是双三次Bézier三角形)组成的封闭曲面表示的实例。SurfDist是对流行模型架构StarDist-3D的修改,它打破了StarDist-3D中实例参数化维度与实例体素分辨率的耦合,并生成可以在不引入体素化伪影的情况下上采样到任意高分辨率的预测。对于在生物医学成像中常见的blob形状实例的数据集,SurfDist可以通过更紧凑的实例参数化优于StarDist-3D。我们详细介绍了SurfDist的技术实现,并展示了一个合成数据集和一个真实世界数据集,在这些数据集中,SurfDist的表现优于StarDist-3D。这些结果表明,可解释的实例表面模型可以与实例成员关系一起有效地学习。 |
[16] 通过扩展CLIP-EBC框架进行汽车物体计数和位置估计 标题: Car Object Counting and Position Estimation via Extension of the CLIP-EBC Framework 作者: Seoik Jung / Taekyung Song 原文: [英文] [中文] 备注: 4 pages, 2 figures, submitted to a computer vision conference 摘要: 在本文中,我们研究了最初为人群计数设计的CLIP-EBC框架在使用CARPK数据集进行汽车目标计数中的适用性。实验结果表明,与现有方法相比,我们的模型取得了第二好的性能。此外,我们提出了一种基于预测密度图的K均值加权聚类方法来估计目标位置,表明该框架在定位任务中的潜在扩展性。 |
[17] 迁移学习与混合增强在细粒度小样本真菌分类中的应用 标题: Transfer Learning and Mixup for Fine-Grained Few-Shot Fungi Classification 作者: Jason Kahei Tam / Murilo Gustineli / Anthony Miyaguchi 原文: [英文] [中文] 备注: None 摘要: 准确识别真菌种类在计算机视觉领域中是一个独特的挑战,因为存在细粒度的种间差异和高种内差异。本文介绍了我们在FungiCLEF 2025竞赛中的方法,该竞赛专注于使用FungiTastic Few-Shot数据集进行少样本细粒度视觉分类(FGVC)。我们的团队(DS@GT)尝试了多种视觉变换器模型、数据增强、加权采样以及结合文本信息的方法。我们还探索了使用结构化提示的生成式AI模型进行零样本分类,但发现其性能明显低于基于视觉的模型。我们的最终模型优于竞赛基线,并突出了领域特定预训练和平衡采样策略的有效性。在赛后评估的私有测试集中,我们的方法排名第35/74,这表明在元数据选择和领域适应的多模态学习方面仍有改进空间。我们的代码可在此HTTPS URL获取。 |
[18] 便携式生物力学实验室:通过手持智能手机进行临床可及的运动分析 标题: Portable Biomechanics Laboratory: Clinically Accessible Movement Analysis from a Handheld Smartphone 作者: J.D. Peiffer / Kunal Shah / Irina Djuraskovic / Shawana Anarwala / Kayan Abdou / Rujvee Patel / Prakash Jayabalan / Brenton Pennicooke / R. James Cotton 原文: [英文] [中文] 备注: 15 pages, 7 figures 摘要: 一个人的动作方式直接反映了他们的神经和肌肉骨骼健康状况,但在临床实践中,这仍然是最未被充分利用的生命体征之一。尽管临床医生可以通过视觉观察到运动障碍,但他们缺乏可访问和经过验证的方法来在常规护理中客观地测量运动。这一差距阻碍了生物力学测量在实践中的广泛应用,而这些测量可以提供更敏感的结果指标或更早识别障碍。我们介绍了便携式生物力学实验室(PBL),其中包括一个用于数据收集的安全、云支持的智能手机应用程序,以及一个用于将生物力学模型拟合到这些数据的新算法。我们使用一个大型、具有临床代表性的数据集对PBL的生物力学测量进行了广泛验证。接下来,我们在神经外科和运动医学诊所测试了我们系统的可用性和实用性。我们发现,在神经损伤患者、下肢假肢使用者、儿科住院患者和对照组中,关节角度误差在3度以内。除了易于使用外,从PBL计算的步态指标显示出高可靠性,并对临床差异具有敏感性。例如,在接受颈髓病减压手术的个体中,mJOA评分是常见的患者报告结果指标;我们发现PBL步态指标与mJOA评分相关,并且对手术干预的反应性比患者报告的结果更强。这些发现支持使用手持智能手机视频作为捕捉临床意义的生物力学数据的可扩展、低负担工具,提供了一条通向可访问的运动障碍监测的有前途的途径。我们在此 https URL 发布了第一个经过临床验证的方法,用于从手持智能手机视频中测量全身运动学。 |
[19] 使用结构层次自适应和可靠邻接对齐的跨分辨率SAR目标检测 标题: Cross-Resolution SAR Target Detection Using Structural Hierarchy Adaptation and Reliable Adjacency Alignment 作者: Jiang Qin / Bin Zou / Haolin Li / Lamei Zhang 原文: [英文] [中文] 备注: Submitted to IEEE TGRS (major revision) 摘要: 近年来,合成孔径雷达(SAR)分辨率的持续提升显著促进了城市监测和目标检测等应用。然而,分辨率的提高导致散射特性差异增大,给目标检测模型的泛化能力带来了挑战。尽管领域自适应技术是一个潜在的解决方案,但由于分辨率差异不可避免地导致特征盲目适应和不可靠的语义传播,最终降低了领域自适应性能。为了解决这些挑战,本文提出了一种新颖的SAR目标检测方法(称为CR-Net),将结构先验和证据学习理论融入检测模型,实现跨分辨率检测的可靠领域自适应。具体而言,CR-Net整合了结构诱导的分层特征适应(SHFA)和可靠的结构邻接对齐(RSAA)。引入SHFA模块以建立目标之间的结构关联,实现结构感知的特征适应,从而增强特征适应过程的可解释性。随后,提出RSAA模块以增强可靠的语义对齐,通过利用安全邻接集将有价值的判别知识从源域传递到目标域。这进一步提高了检测模型在目标域中的判别能力。基于不同分辨率数据集的实验结果,所提出的CR-Net通过保留域内结构和提高判别能力,显著增强了跨分辨率适应性。在跨分辨率SAR目标检测中实现了最先进的(SOTA)性能。 |
[20] M2DAO-Talker:协调多粒度运动解耦与交替优化以生成说话人头像 标题: M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation 作者: Kui Jiang / Shiyu Liu / Junjun Jiang / Xin Yang / Hongxun Yang / Xiaopeng Fan 原文: [英文] [中文] 备注: None 摘要: 音频驱动的说话人头像生成在电影制作中具有重要潜力。尽管现有的3D方法在运动建模和内容合成方面取得了进展,但由于在表示稳定、细粒度运动场方面的局限性,它们常常会产生渲染伪影,如运动模糊、时间抖动和局部穿透。通过系统分析,我们将说话人头像生成重新表述为一个包含三个步骤的统一框架:视频预处理、运动表示和渲染重建。这个框架支持我们提出的M2DAO-Talker,它通过多粒度运动解耦和交替优化策略来解决当前的局限性。我们设计了一种新颖的2D肖像预处理流程,以提取逐帧变形控制条件(运动区域分割掩码和相机参数)来促进运动表示。为了改善运动建模,我们详细制定了一种多粒度运动解耦策略,独立建模非刚性(口腔和面部)和刚性(头部)运动,以提高重建质量。此外,开发了一种运动一致性约束,以确保头部和躯干的运动一致性,从而减轻由运动混叠引起的穿透伪影。此外,设计了一种交替优化策略,以迭代地优化面部和口腔运动参数,从而实现更逼真的视频生成。跨多个数据集的实验结果表明,M2DAO-Talker在生成质量上实现了2.43 dB的PSNR提升,并在用户评估的视频真实感上比TalkingGaussian提高了0.64,同时推理速度达到150 FPS。我们的项目主页是这个网址。 |
[21] 跨域身份表示用于颅骨与面部匹配的基准数据集 标题: Cross-Domain Identity Representation for Skull to Face Matching with Benchmark DataSet 作者: Ravi Shankar Prasad / Dinesh Singh 原文: [英文] [中文] 备注: 7 pages, 12 figures, Pattern Recognition Letters 摘要: 在法医学中,颅面重建对于识别犯罪和灾难的受害者至关重要。其目标是利用计算机视觉的最新进展,如深度学习,将给定的头骨映射到具有已知身份的面孔库中的相应面孔。在本文中,我们提出了一个框架,使用卷积孪生网络进行跨域身份表示,以识别给定头骨X光图像的个人。孪生网络是共享相同架构的双网络,可以训练以发现一个特征空间,在该空间中,相似的观察被分组,而不相似的观察被分开。为此,网络接触到两组可比和不同的数据。然后,最小化相似对之间的欧几里得距离,并最大化不相似对之间的距离。由于获取头骨和面部图像对很困难,我们准备了自己的数据集,包括40名志愿者的正面和侧面头骨X光图像以及光学面部图像。在收集的跨域数据集上进行了实验,以训练和验证孪生网络。实验结果在从给定头骨识别个人方面提供了令人满意的结果。 |
[22] 面向可解释性的剪枝用于高效医学图像分析 标题: Interpretability-Aware Pruning for Efficient Medical Image Analysis 作者: Nikita Malik / Pratinav Seth / Neeraj Kumar Singh / Chintan Chitroda / Vinay Kumar Sankarapu 原文: [英文] [中文] 备注: Pre-Print 摘要: 深度学习在医学图像分析领域取得了显著进展,但其在临床实践中的应用仍受到现代模型规模庞大和透明性不足的限制。解释性技术的进步,如DL-Backtrace、层次相关传播和积分梯度,使得评估在医学成像任务中训练的神经网络中各个组件的贡献成为可能。在这项工作中,我们引入了一种解释性引导的剪枝框架,该框架在保持预测性能和透明度的同时,降低了模型的复杂性。通过有选择地保留每一层中最相关的部分,我们的方法实现了有针对性的压缩,保持了临床上有意义的表示。在多个医学图像分类基准上的实验表明,这种方法在压缩率高的同时,准确率损失最小,为适合在医疗环境中实际部署的轻量级、可解释模型铺平了道路。 |
[23] CoCo-Bot:基于能量的可组合概念瓶颈用于可解释生成模型 标题: CoCo-Bot: Energy-based Composable Concept Bottlenecks for Interpretable Generative Models 作者: Sangwon Kim / In-su Jang / Pyongkun Kim / Kwang-Ju Kim 原文: [英文] [中文] 备注: None 摘要: 概念瓶颈模型(CBMs)通过将生成过程引导至明确的、可被人类理解的概念,提供了可解释且可控的生成建模。然而,以往的生成性CBMs通常依赖于瓶颈处的辅助视觉线索,以弥补概念未捕捉到的信息,这削弱了可解释性和组合性。我们提出了CoCo-Bot,这是一种事后可组合的概念瓶颈生成模型,通过仅通过明确的概念传递所有信息,消除了对辅助线索的需求。在扩散基础的能量函数的指导下,CoCo-Bot支持在任意概念上进行稳健的事后干预,例如概念组合和否定。使用在CelebA-HQ上预训练的StyleGAN2进行的实验表明,CoCo-Bot在保持竞争性视觉质量的同时,提高了概念层面的可控性和可解释性。 |
[24] 通过Dirac重平衡器和分布纠缠实现多模态跨癌症预后的单域泛化 标题: Single-Domain Generalization for Multimodal Cross-Cancer Prognosis via Dirac Rebalancer and Distribution Entanglement 作者: Jia-Xuan Jiang / Jiashuai Liu / Hongtao Wu / Yifeng Wu / Zhong Wang / Qi Bi / Yefeng Zheng 原文: [英文] [中文] 备注: Accepted by ACMMM 25 摘要: 深度学习在整合多模态数据进行生存预测方面表现出色。然而,现有的多模态方法主要集中于单一癌症类型,忽视了跨癌症泛化的挑战。在这项工作中,我们首次揭示了多模态预后模型在跨癌症场景中通常比单模态模型泛化能力更差,尽管在临床实践中对这种鲁棒性有着关键需求。为了解决这个问题,我们提出了一项新任务:多模态预后的跨癌症单域泛化,评估在单一癌症类型上训练的模型是否可以泛化到未见过的癌症。我们识别了两个关键挑战:来自较弱模态的退化特征和无效的多模态整合。为了解决这些问题,我们引入了两个即插即用模块:稀疏狄拉克信息重平衡器(SDIR)和癌症感知分布纠缠(CADE)。SDIR通过应用基于伯努利的稀疏化和狄拉克启发的稳定化来增强较弱模态信号,从而减轻强特征的主导地位。CADE旨在合成目标域分布,在潜在空间中融合局部形态线索和全局基因表达。在四种癌症类型的基准测试中,实验表明了卓越的泛化能力,为实用、稳健的跨癌症多模态预后奠定了基础。代码可在此https URL获取。 |
[25] 迈向不可察觉的JPEG图像隐藏:基于多范围表示的对抗性隐写生成 标题: Towards Imperceptible JPEG Image Hiding: Multi-range Representations-driven Adversarial Stego Generation 作者: Junxue Yang / Xin Liao / Weixuan Tang / Jianhua Yang / Zheng Qin 原文: [英文] [中文] 备注: None 摘要: 深度隐藏技术一直在探索基于深度学习模型的隐藏能力,旨在将图像级信息隐藏到载体图像中,并从生成的隐写图像中揭示这些信息。现有方案由于其较大的负载量以及仅基于纯卷积或纯变换器算子在单一范围内进行特征提取的限制,以及像素级损失约束,容易被隐写分析器检测。为了解决这个问题,本文将基于生成的对抗攻击引入到彩色JPEG图像的深度隐藏中,并从隐写分析的角度提出了一种多范围表示驱动的对抗性隐写生成框架,称为MRAG。具体来说,我们结合了卷积的局部范围邻域接收特性和变换器的全局范围依赖建模来构建MRAG。同时,我们使用通过粗粒度和细粒度频率分解获得的变换图像作为输入,引入多粒度信息。此外,设计了一种特征角度-范数解耦损失,以在隐写分析器分类特征的角度和范数空间中约束生成的隐写图更接近于载体。因此,可以在生成隐写图的过程中注入小而有效的对抗性扰动,确保隐写图保持良好的秘密恢复能力和不可感知性。大量实验表明,MRAG可以实现最先进的性能。 |
[26] MM-Gesture:通过多模态融合实现精确的微手势识别 标题: MM-Gesture: Towards Precise Micro-Gesture Recognition through Multimodal Fusion 作者: Jihao Gu / Fei Wang / Kun Li / Yanyan Wei / Zhiliang Wu / Dan Guo 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们介绍了MM-Gesture,这是由我们团队HFUT-VUT开发的解决方案,在IJCAI 2025的第3届MiGA挑战赛的微手势分类赛道中获得了第一名,与之前的最先进方法相比,表现更为出色。MM-Gesture是一个多模态融合框架,专为识别细微且持续时间短的微手势(MGs)而设计,整合了关节、肢体、RGB视频、泰勒级数视频、光流视频和深度视频模态的互补线索。我们的方法利用了PoseConv3D和Video Swin Transformer架构,并采用了一种新颖的模态加权集成策略,通过在更大的MA-52数据集上进行预训练的迁移学习进一步提升了RGB模态的性能。在iMiGUE基准上的大量实验,包括不同模态的消融研究,验证了我们提出的方法的有效性,达到了73.213%的top-1准确率。 |
[27] 循环上下文验证用于上下文中的医学图像分割 标题: Cycle Context Verification for In-Context Medical Image Segmentation 作者: Shishuai Hu / Zehui Liao / Liangli Zhen / Huazhu Fu / Yong Xia 原文: [英文] [中文] 备注: MICCAI 2025 摘要: 上下文学习(ICL)正在成为实现通用医学图像分割的一种有前途的技术,其中可以使用单一模型对跨成像模态的各种感兴趣对象进行分割。然而,其性能对查询图像与上下文图像-掩码对之间的对齐高度敏感。在临床场景中,带注释的医学图像的稀缺性使得选择最佳的上下文对变得具有挑战性,并且由于计算成本和灾难性遗忘的风险,对基础ICL模型进行上下文数据微调是不可行的。为了解决这一挑战,我们提出了循环上下文验证(CCV),这是一种新颖的框架,通过实现预测的自我验证并相应地增强上下文对齐来增强基于ICL的医学图像分割。具体而言,CCV采用一个循环管道,其中模型最初为查询图像生成分割掩码。随后,查询和上下文对的角色被交换,允许模型通过预测原始上下文图像的掩码来验证其预测。这一二次预测的准确性作为初始查询分割的隐式度量。引入了一个特定于查询的提示来改变查询图像并进行更新以改善该度量,从而增强查询与上下文对之间的对齐。我们在七个医学图像分割数据集上使用两个ICL基础模型评估了CCV,证明了其优于现有方法。我们的结果突出了CCV增强基于ICL的分割的能力,使其成为通用医学图像分割的强大解决方案。代码将在此https URL上提供。 |
[28] 利用大型语言模型理解驾驶风险:迈向老年驾驶员评估 标题: Understanding Driving Risks using Large Language Models: Toward Elderly Driver Assessment 作者: Yuki Yoshihara / Linjing Jiang / Nihan Karatas / Hitoshi Kanamori / Asuka Harada / Takahiro Tanaka 原文: [英文] [中文] 备注: None 摘要: 本研究探讨了一种多模态大型语言模型(LLM),特别是ChatGPT-4o,利用静态行车记录仪图像进行类似人类的交通场景解读的潜力。在此,我们专注于与老年驾驶员评估相关的三个判断任务:评估交通密度、评估交叉口可见性和识别停车标志。这些任务需要上下文推理,而不仅仅是简单的物体检测。我们使用零样本、少样本和多样本提示策略,评估了模型的性能,并以人工标注作为参考标准。评估指标包括精确度、召回率和F1分数。结果表明,提示设计对性能有显著影响,交叉口可见性的召回率从21.7%(零样本)提高到57.0%(多样本)。在交通密度评估中,一致性从53.5%提高到67.6%。在停车标志检测中,模型表现出高精确度(高达86.3%),但召回率较低(约76.7%),表明其反应较为保守。输出稳定性分析显示,人类和模型在解释结构模糊的场景时都面临困难。然而,模型的解释性文本与其预测相符,增强了可解释性。这些发现表明,经过精心设计的提示,LLM有望成为场景级驾驶风险评估的支持工具。未来的研究应探索使用更大数据集、多样化标注者和下一代模型架构进行老年驾驶员评估的可扩展性。 |
[29] 无监督视频质量提升方法:修复与增强技术综述 标题: Unsupervised Methods for Video Quality Improvement: A Survey of Restoration and Enhancement Techniques 作者: Alexandra Malyugina / Yini Li / Joanne Lin / Nantheera Anantrasirichai 原文: [英文] [中文] 备注: None 摘要: 视频修复和增强不仅对提高视觉质量至关重要,而且作为重要的预处理步骤,可以提升各种下游计算机视觉任务的性能。本文综述了视频修复和增强技术,特别关注无监督方法。我们首先概述了最常见的视频退化及其根本原因,然后回顾了早期的传统方法和基于深度学习的方法,强调了它们的优缺点。接着,我们深入介绍了无监督方法,按其基本方法进行分类,包括领域转换、自监督信号设计以及盲点或基于噪声的方法。我们还对无监督视频修复和增强中使用的损失函数进行了分类,并讨论了配对合成数据集在实现客观评估中的作用。最后,我们识别了关键挑战,并概述了该领域未来研究的有前景方向。 |
[30] 从增强到理解:通过语义一致的无监督微调为低光视觉构建一个通用桥梁 标题: From Enhancement to Understanding: Build a Generalized Bridge for Low-light Vision via Semantically Consistent Unsupervised Fine-tuning 作者: Sen Wang / Shao Zeng / Tianjun Gu / Zhizhong Zhang / Ruixin Zhang / Shouhong Ding / Jingyun Zhang / Jun Wang / Xin Tan / Yuan Xie / Lizhuang Ma 原文: [英文] 备注: Accepted by ICCV 2025 摘要: 低光视觉中的低级增强和高级视觉理解传统上被分开处理。低光增强提高了下游任务的图像质量,但现有方法依赖于物理或几何先验,限制了泛化能力。评估主要关注视觉质量而非下游性能。低光视觉理解由于标注数据稀缺,主要使用特定任务的领域适应,缺乏可扩展性。为了解决这些挑战,我们构建了低光增强和低光理解之间的通用桥梁,我们称之为通用增强理解(GEFU)。这种范式提高了泛化能力和可扩展性。为了解决低光退化的多样化原因,我们利用预训练的生成扩散模型来优化图像,实现零样本泛化性能。在此基础上,我们提出了语义一致的无监督微调(SCUF)。具体来说,为了克服文本提示的限制,我们引入了一个照明感知的图像提示来明确指导图像生成,并提出了一个循环注意力适配器以最大化其语义潜力。为了减轻无监督训练中的语义退化,我们提出了标题和反射一致性来学习高级语义和图像级空间语义。大量实验表明,我们提出的方法在传统图像质量和GEFU任务(包括分类、检测和语义分割)中优于当前的最先进方法。 |
[31] 臭味、密集且扩散:嗅觉参考对象检测(ODOR)数据集 标题: Smelly, dense, and spreaded: The Object Detection for Olfactory References (ODOR) dataset 作者: Mathias Zinnen / Prathmesh Madhu / Inger Leemans / Peter Bell / Azhar Hussian / Hang Tran / Ali Hürriyetoğlu / Andreas Maier / Vincent Christlein 原文: [英文] [中文] 备注: None 摘要: 计算机视觉在人文学科中的实际应用需要算法能够应对艺术抽象、外围物体以及细粒度目标类别之间的细微差异。现有的数据集提供了艺术品的实例级注释,但通常偏向于图像中心,并且在详细的对象类别方面有限。我们提出的ODOR数据集填补了这一空白,提供了4712张图像中的38,116个对象级注释,涵盖了139个细粒度类别。通过统计分析,我们展示了数据集的挑战性特征,例如详细的类别集、密集且重叠的对象,以及整个图像画布上的空间分布。此外,我们为对象检测模型提供了广泛的基线分析,并通过一系列次要研究突出了数据集的挑战性特征。该数据集激励了对艺术品对象检测和更广泛的视觉文化遗产研究的进一步探索,挑战研究人员探索对象识别与嗅觉感知的交集。 |
[32] 主体一致且姿态多样的文本到图像生成 标题: Subject-Consistent and Pose-Diverse Text-to-Image Generation 作者: Zhanxin Gao / Beier Zhu / Liang Yao / Jian Yang / Ying Tai 原文: [英文] 备注: None 摘要: 主体一致生成(SCG)——旨在跨不同场景保持一致的主体身份——仍然是文本到图像(T2I)模型的一个挑战。现有的无训练SCG方法通常在实现一致性时牺牲了布局和姿势的多样性,从而阻碍了富有表现力的视觉叙事。为了解决这一限制,我们提出了一种主体一致且姿势多样的T2I框架,称为CoDi,该框架能够在保持姿势和布局多样性的同时实现一致的主体生成。受扩散的渐进特性启发,其中粗略结构在早期出现,细节在后期得到完善,CoDi采用了两阶段策略:身份传输(IT)和身份细化(IR)。IT在早期去噪步骤中运行,使用最优传输以姿势感知的方式将身份特征传输到每个目标图像。这促进了主体一致性,同时保留了姿势多样性。IR应用于后期去噪步骤,选择最显著的身份特征以进一步细化主体细节。在主体一致性、姿势多样性和提示忠实度方面的大量定性和定量结果表明,CoDi在所有指标上都实现了更好的视觉感知和更强的性能。代码已在此https URL中提供。 |
[33] PanMatch:释放大型视觉模型在统一匹配模型中的潜力 标题: PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models 作者: Yongjian Zhang / Longguang Wang / Kunhong Li / Ye Zhang / Yun Wang / Liang Lin / Yulan Guo 原文: [英文] [中文] 备注: None 摘要: 这项工作介绍了PanMatch,一种用于鲁棒对应匹配的多功能基础模型。与之前依赖于任务特定架构和领域特定微调来支持立体匹配、光流或特征匹配等任务的方法不同,我们的关键见解是任何两帧对应匹配任务都可以在一个二维位移估计框架内使用相同的模型权重来解决。这样的公式化消除了设计专门的统一架构或任务特定集成模型的需要。相反,它通过赋予位移估计算法前所未有的泛化能力来实现多任务集成。为此,我们强调了一个适用于多个领域和任务的鲁棒特征提取器的重要性,并提出了特征转换管道,该管道利用大型视觉模型的通用特征来赋予匹配基线零样本跨视图匹配能力。此外,我们组装了一个跨领域数据集,从立体匹配、光流和特征匹配领域中收集了近180万样本来预训练PanMatch。我们展示了PanMatch在广泛的领域和下游任务中使用相同的模型权重的多功能性。我们的模型在跨任务评估中优于UniMatch和Flow-Anything,并在任务导向的基准测试中实现了与大多数最先进的任务特定算法相当的性能。此外,PanMatch在异常场景中表现出前所未有的零样本性能,例如雨天和卫星图像,在这些场景中,大多数现有的鲁棒算法无法产生有意义的结果。 |
[34] 基于语义哈希中心的深度哈希图像检索 标题: Deep Hashing with Semantic Hash Centers for Image Retrieval 作者: Li Chen / Rui Liu / Yuxiang Zhou / Xudong Ma / Yong Chen / Dell Zhang 原文: [英文] [中文] 备注: None 摘要: 深度哈希是一种用于大规模图像检索的有效方法。目前的方法通常根据其监督类型进行分类:点对点、对对和列表对。最近的点对点技术(例如,CSQ、MDS)通过为每个类别预先分配一个哈希中心,提高了不同数据集上哈希码的可辨识性,从而改善了检索性能。然而,这些方法依赖于与数据无关的算法来生成哈希中心,忽视了类别之间的语义关系,可能会降低检索性能。 本文引入了语义哈希中心的概念,基于传统哈希中心的思想。我们假设语义相关类别的哈希中心应该具有更近的汉明距离,而不相关类别的哈希中心则应更远。为此,我们提出了一个三阶段框架,SHC,用于生成保留语义结构的哈希码。 首先,我们开发了一个分类网络,使用数据相关的相似性计算来识别类别之间的语义相似性,该计算适应不同的数据分布。其次,我们引入了一种优化算法来生成语义哈希中心,既保留语义相关性,又在中心之间强制保持最小距离,以避免过于相似的哈希码。最后,使用这些语义中心训练一个深度哈希网络,将图像转换为二进制哈希码。 在多个公共数据集上的大规模检索任务的实验结果表明,SHC显著提高了检索性能。具体而言,SHC在MAP@100、MAP@1000和MAP@ALL指标上分别比最先进的方法平均提高了+7.26%、+7.62%和+11.71%。 |
[35] 多模态互导条件提示学习用于视觉-语言模型 标题: Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models 作者: Shijun Yang / Xiang Zhang / Wanqing Zhao / Hangzai Luo / Sheng Zhong / Jinye Peng / Jianping Fan 原文: [英文] [中文] 备注: 21 pages, 8 figures 摘要: 提示学习促进了视觉-语言模型(VLMs)对各种下游任务的高效适应。然而,它面临两个重大挑战:(1)对未见实例的类别嵌入分布建模不足,导致在新类别上的泛化效果不佳;(2)现有方法主要将跨模态对齐限制在视觉和文本编码器的最终输出层,这在根本上限制了它们保持与预训练多模态嵌入空间拓扑一致性的能力。为此,我们引入了MuGCP(多模态互导条件提示学习),这是一种为条件提示生成设计的新范式。MuGCP利用多模态大型语言模型(MLLMs)作为条件提示学习器,自适应地生成语义条件提示(SCP),为图像实例融入丰富、细粒度的高级语义知识。为了确保视觉-语言模型(VLMs)多模态空间的有效对齐和交互,我们引入了注意力互导(AMG)模块,促进视觉和语义信息之间的交互。通过互导,AMG模块生成视觉条件提示(VCP),增强模型在多模态任务中的表现。此外,我们提出了一种多提示融合(MPF)机制,将SCP和VCP与上下文提示相结合,确保不同提示之间的无缝协调,并增强类别嵌入和实例特定知识的建模。我们的MuGCP在14个不同的数据集上优于现有的最先进方法。代码将在发表后公开。 |
[36] InstaScene:面向杂乱场景的完整3D实例分解与重建 标题: InstaScene: Towards Complete 3D Instance Decomposition and Reconstruction from Cluttered Scenes 作者: Zesong Yang / Bangbang Yang / Wenqi Dong / Chenxuan Cao / Liyuan Cui / Yuewen Ma / Zhaopeng Cui / Hujun Bao 原文: [英文] [中文] 备注: Accepted by ICCV 2025. Project page: this https URL 摘要: 人类能够自然地识别并在复杂环境中心智上补全被遮挡的物体。然而,即使有先进的重建技术,将类似的认知能力赋予机器人仍然具有挑战性,因为这些技术将场景建模为未加区分的整体,无法从部分观察中识别完整的物体。在本文中,我们提出了InstaScene,这是一种面向复杂场景整体3D感知的新范式,其主要目标是分解任意实例,同时确保完整重建。为了实现精确的分解,我们开发了一种新颖的空间对比学习,通过跟踪每个实例在不同视图中的光栅化,显著增强了在复杂场景中的语义监督。为了克服有限观察带来的不完整性,我们引入了原位生成,利用有价值的观察和几何线索,有效地引导3D生成模型重建与现实世界无缝对齐的完整实例。在复杂的真实和合成场景中的场景分解和物体补全实验表明,我们的方法在实现卓越的分解精度的同时,生成了几何上真实且视觉上完整的物体。 |
[37] 上采样重要部分:区域自适应潜在采样用于加速扩散变换器 标题: Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers 作者: Wongi Jeong / Kyungryeol Lee / Hoigi Seo / Se Young Chun 原文: [英文] [中文] 备注: None 摘要: 扩散变压器作为一种替代U-net的扩散模型,已经在高保真图像和视频生成中崭露头角,并提供了更好的可扩展性。然而,其高昂的计算成本仍然是实际应用中的主要障碍。现有的加速方法主要利用时间维度,例如在扩散时间步中重用缓存特征。在此,我们提出了一种名为区域自适应潜在上采样(RALU)的训练无关框架,该框架在空间维度上加速推理。RALU在三个阶段执行混合分辨率采样:1)低分辨率去噪潜在扩散,以有效捕捉全局语义结构,2)在特定区域进行区域自适应上采样,这些区域在全分辨率下容易出现伪影,3)在全分辨率下进行所有潜在上采样以细化细节。为了在分辨率转换过程中稳定生成,我们利用噪声时间步重新调度,以适应不同分辨率下的噪声水平。我们的方法在保持图像质量的同时显著减少了计算量,在FLUX上实现了高达7.0倍的加速,在Stable Diffusion 3上实现了3.0倍的加速,且质量下降极小。此外,RALU可以与现有的时间加速方法(如缓存方法)互补,因此可以无缝集成,以进一步减少推理延迟而不影响生成质量。 |
[38] RePaintGS:参考引导的高斯喷溅用于逼真且视图一致的3D场景修补 标题: RePaintGS: Reference-Guided Gaussian Splatting for Realistic and View-Consistent 3D Scene Inpainting 作者: Ji Hyun Seo / Byounhyun Yoo / Gerard Jounghyun Kim 原文: [英文] [中文] 备注: None 摘要: 辐射场方法,如神经辐射场或3D高斯散射,已成为合成逼真新视角的重要3D表示。在实际应用中,灵活的场景编辑技术仍在研究中,其中对象移除是一个典型任务。然而,移除对象会暴露被遮挡的区域,常常导致不自然的外观。因此,研究人员采用图像修复技术来用合理的内容替换这些区域,这一任务被称为3D场景修复。然而,图像修复方法为每个视角生成许多可能的补全,导致视点之间的不一致。一个广泛采用的方法是利用感知线索来平滑地融合修复后的视图。然而,当视图之间存在感知不一致时,这种方法容易导致细节丢失并可能失败。在本文中,我们提出了一种新颖的3D场景修复方法,即使在复杂场景中也能可靠地产生逼真且感知一致的结果,方法是利用一个参考视图。给定修复后的参考视图,我们估计其他视图的修复相似性,以调整它们在构建针对参考的准确几何结构时的贡献。然后使用该几何结构将参考修复变形到其他视图,作为伪真实值,指导优化以匹配参考外观。比较评估研究表明,我们的方法提高了修复场景的几何保真度和外观一致性。 |
[39] 视觉基础模型作为自回归图像生成的有效视觉分词器 标题: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation 作者: Anlin Zheng / Xin Wen / Xuanyang Zhang / Chuofan Ma / Tiancai Wang / Gang Yu / Xiangyu Zhang / Xiaojuan Qi 原文: [英文] [中文] 备注: 19 pages, 4 figures 摘要: 利用预训练视觉基础模型的强大表示能力——这些模型传统上用于视觉理解——我们探索了一个新的方向:直接在此类模型之上构建图像分词器,这是一个尚未被充分探索的领域。具体来说,我们使用一个冻结的视觉基础模型作为我们分词器的编码器。为了增强其效果,我们引入了两个关键组件:(1)区域自适应量化框架,该框架减少了预训练特征在常规二维网格上的冗余;(2)语义重建目标,该目标将分词器的输出与基础模型的表示对齐,以保持语义的准确性。基于这些设计,我们提出的图像分词器VFMTok在图像重建和生成质量上取得了显著的改进,同时提高了分词效率。它进一步提升了自回归(AR)生成——在ImageNet基准测试中实现了2.07的gFID,同时将模型收敛速度提高了三倍,并在无需分类器自由引导(CFG)的情况下实现了高保真度的类别条件合成。代码将公开发布,以惠及社区。 |
[40] 前馈式3D重建综述:从DUSt3R到VGGT 标题: Review of Feed-forward 3D Reconstruction: From DUSt3R to VGGT 作者: Wei Zhang / Yihang Wu / Songhua Li / Wenjie Ma / Xin Ma / Qiang Li / Qi Wang 原文: [英文] 备注: None 摘要: 3D重建旨在恢复场景的密集三维结构,是增强/虚拟现实、自动驾驶和机器人技术等众多应用的基石技术。虽然传统的流程如运动结构(SfM)和多视图立体(MVS)通过迭代优化实现高精度,但在复杂的工作流程、高计算成本以及在无纹理区域等具有挑战性的场景中表现出较差的鲁棒性。最近,深度学习催化了3D重建领域的范式转变。以DUSt3R为代表的新型模型开创了一种前馈方法。这些模型使用统一的深度网络,在单次前向传递中直接从不受约束的图像集中联合推断相机姿态和密集几何结构。本综述系统地回顾了这一新兴领域。我们首先剖析了这些前馈模型的技术框架,包括其基于Transformer的对应建模、联合姿态和几何回归机制,以及从双视图扩展到多视图场景的策略。为了突出这一新范式的颠覆性,我们将其与传统流程和早期的基于学习的方法如MVSNet进行对比。此外,我们还概述了相关的数据集和评估指标。最后,我们讨论了该技术的广泛应用前景,并识别了关键的未来挑战和机遇,如模型的准确性和可扩展性,以及处理动态场景的能力。 |
[41] 一份文档相当于一个结构化记录:文档识别的原则性归纳偏置设计 标题: A document is worth a structured record: Principled inductive bias design for document recognition 作者: Benjamin Meyer / Lukas Tuggener / Sascha Hänzi / Daniel Schmid / Erdal Ayfer / Benjamin F. Grewe / Ahmed Abdulkadir / Thilo Stadelmann 原文: [英文] [中文] 备注: None 摘要: 许多文档类型使用内在的、基于约定的结构来编码精确和结构化的信息,例如工程图纸的约定。然而,最先进的方法将文档识别仅视为一个计算机视觉问题,忽视了这些文档类型特有的结构属性,使其依赖于次优的启发式后处理,并使许多不常见或更复杂的文档类型无法被现代文档识别所访问。我们提出了一种新颖的视角,将文档识别框架化为从文档到记录的转录任务。这意味着根据转录中固有的结构对文档进行自然分组,其中相关的文档类型可以以类似的方式进行处理(和学习)。我们提出了一种方法来设计针对特定结构的归纳偏差,用于底层机器学习的端到端文档识别系统,以及一个我们成功适应不同结构的基础变压器架构。我们通过对单声音乐乐谱、形状图纸和简化工程图纸的逐步复杂记录结构进行广泛实验,证明了所发现的归纳偏差的有效性。通过整合对不受限制的图结构的归纳偏差,我们训练了首个成功的端到端模型,将工程图纸转录为其固有的互联信息。我们的方法对于设计不如标准OCR、OMR等理解的文档类型的文档识别系统具有重要意义,并作为统一未来文档基础模型设计的指南。 |
[42] F3-Net:用于医学图像全异常分割的基础模型,具有灵活的输入模态要求 标题: F3-Net: Foundation Model for Full Abnormality Segmentation of Medical Images with Flexible Input Modality Requirement 作者: Seyedeh Sahar Taheri Otaghsara / Reza Rahmanzadeh 原文: [英文] [中文] 备注: None 摘要: F3-Net 是一种基础模型,旨在克服临床医学图像分割中的持续挑战,包括对完整多模态输入的依赖、有限的泛化能力和狭窄的任务特异性。通过灵活的合成模态训练,F3-Net 即使在缺失 MRI 序列的情况下也能保持稳健的性能,利用零图像策略替代缺失的模态,而不依赖于显式的合成网络,从而增强了其在现实世界中的适用性。其统一架构支持多病理分割,包括胶质瘤、转移、卒中和白质病变,无需重新训练,优于通常需要疾病特定微调的基于 CNN 和基于 transformer 的模型。在 BraTS 2021、BraTS 2024 和 ISLES 2022 等多样化数据集上进行评估,F3-Net 展示了对领域转移和临床异质性的强大适应性。在整个病理数据集上,F3-Net 在 BraTS-GLI 2024 上的平均 Dice 相似系数(DSC)为 0.94,BraTS-MET 2024 为 0.82,BraTS 2021 为 0.94,ISLES 2022 为 0.79。这使其成为一个多功能、可扩展的解决方案,弥合了深度学习研究与实际临床应用之间的差距。 |
[43] 双维度几何表示学习的文档去卷曲 标题: Dual Dimensions Geometric Representation Learning Based Document Dewarping 作者: Heng Li / Qingcai Chen / Xiangping Wu 原文: [英文] [中文] 备注: None 摘要: 在深度学习时代,文档图像去扭曲仍然是一个具有挑战性的任务。尽管现有方法通过利用文本线意识有所改进,但它们通常仅关注单一的水平维度。在本文中,我们提出了一种细粒度的变形感知模型,专注于文档的水平-垂直线的双重维度,以改进文档去扭曲,称为D2Dewarp。该模型能够感知文档细节中不同方向的扭曲趋势。为了结合水平和垂直粒度特征,我们设计了一个基于X和Y坐标的有效融合模块,以促进两个维度之间的交互和约束,实现特征互补。由于当前公共去扭曲数据集中缺乏标注的线特征,我们还提出了一种自动细粒度标注方法,使用公共文档纹理图像和自动渲染引擎构建一个新的大规模扭曲训练数据集。代码和数据集将公开发布。在公共的中文和英文基准测试中,无论是定量还是定性结果都表明,我们的方法在校正结果上优于最先进的方法。数据集将在此https URL公开提供。 |
[44] 使用图神经网络的统一人员跟踪 标题: Unified People Tracking with Graph Neural Networks 作者: Martin Engilberge / Ivan Vrkic / Friedrich Wilke Grosche / Julien Pilet / Engin Turetken / Pascal Fua 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种统一的、完全可微的多人跟踪模型,该模型学习将检测结果关联到轨迹中,而不依赖于预先计算的轨迹片段。该模型构建了一个动态的时空图,聚合了空间、上下文和时间信息,从而实现整个序列中的无缝信息传播。为了改善遮挡处理,图还可以编码特定场景的信息。我们还引入了一个新的大规模数据集,该数据集包含25个部分重叠的视角、详细的场景重建和大量的遮挡。实验表明,该模型在公共基准和新数据集上实现了最先进的性能,并且在各种条件下具有灵活性。数据集和方法都将公开发布,以推动多人跟踪研究的发展。 |
[45] 通过强化知识蒸馏进行遮挡引导的特征净化学习用于遮挡行人再识别 标题: Occlusion-Guided Feature Purification Learning via Reinforced Knowledge Distillation for Occluded Person Re-Identification 作者: Yufei Zheng / Wenjun Wang / Wenjun Gan / Jiawei Liu 原文: [英文] [中文] 备注: 13 pages, 8 figures 摘要: 遮挡行人再识别旨在根据被遮挡的图像检索完整的图像。现有的方法通常依赖于对齐可见的身体部位、应用遮挡增强或使用完整图像补充缺失的语义。然而,它们在处理训练中未见的多样化遮挡场景以及来自完整图像的特征污染问题时面临挑战。为了解决这些限制,我们提出了通过强化知识蒸馏的遮挡引导特征净化学习(OGFR),该方法同时缓解了这些挑战。OGFR采用了一个教师-学生蒸馏架构,有效地将多样化的遮挡模式融入特征表示中,同时通过强化知识蒸馏将净化的辨别性完整知识从完整分支传递到遮挡分支。具体来说,设计了一个遮挡感知视觉变换器,以利用可学习的遮挡模式嵌入来显式建模这些多样化的遮挡类型,从而引导遮挡感知的鲁棒特征表示。此外,我们在完整分支中设计了一个特征擦除和净化模块,其中一个代理被用来通过深度强化学习识别包含噪声负面信息的完整图像的低质量补丁标记,并用可学习的嵌入标记替换这些补丁标记,以避免特征污染并进一步挖掘与身份相关的辨别线索。随后,在知识蒸馏的帮助下,学生分支有效地吸收了净化的完整知识,以精确地学习鲁棒表示,而不受遮挡干扰的影响。 |
[46] RadiomicsRetrieval:一个使用放射组学特征进行医学图像检索的可定制框架 标题: RadiomicsRetrieval: A Customizable Framework for Medical Image Retrieval Using Radiomics Features 作者: Inye Na / Nejung Rue / Jiwon Chung / Hyunjin Park 原文: [英文] [中文] 备注: Accepted at MICCAI 2025 摘要: 医学图像检索是支持临床决策的重要领域,但当前的方法主要支持二维图像,并且需要完全标注的查询,限制了临床的灵活性。为了解决这个问题,我们提出了RadiomicsRetrieval,这是一种基于内容的三维检索框架,在肿瘤层面将手工制作的放射组学描述符与基于深度学习的嵌入结合起来。与现有的二维方法不同,RadiomicsRetrieval充分利用体积数据,以利用医学图像中更丰富的空间上下文。我们采用可提示的分割模型(例如,SAM)来获取肿瘤特定的图像嵌入,这些嵌入通过对比学习与从同一肿瘤中提取的放射组学特征对齐。这些表示通过解剖位置嵌入(APE)进一步丰富。因此,RadiomicsRetrieval能够基于形状、位置或部分特征集进行灵活查询。在肺部CT和脑部MRI公共数据集上的大量实验表明,放射组学特征显著增强了检索的特异性,而APE提供了基于位置搜索所需的全局解剖上下文。值得注意的是,我们的框架仅需最少的用户提示(例如,单个点),从而最小化分割开销并支持多样化的临床场景。能够使用图像嵌入或选定的放射组学属性进行查询,突显了其适应性,可能有利于诊断、治疗规划以及对大规模医学影像库的研究。我们的代码可在此URL获取。 |
[47] SAM2RL:面向在Segment Anything Model 2中实现强化学习记忆控制 标题: SAM2RL: Towards Reinforcement Learning Memory Control in Segment Anything Model 2 作者: Alen Adamyan / Tomáš Čížek / Matej Straka / Klara Janouskova / Martin Schmid 原文: [英文] [中文] 备注: None 摘要: Segment Anything Model 2(SAM 2)在物体分割任务中表现出色,已成为视觉目标跟踪领域的最新技术。该模型在内存库中存储来自先前帧的信息,从而实现视频序列中的时间一致性。最近的方法通过手工设计的更新规则增强了SAM 2,以更好地处理干扰、遮挡和物体运动。我们提出了一种根本不同的方法,使用强化学习来优化SAM 2中的内存更新,将内存控制框架化为一个序列决策问题。在为每个视频设置单独代理的过拟合环境中,我们的方法相对于SAM 2的改进超过了现有启发式方法的三倍。这些结果揭示了内存库未被开发的潜力,并强调了强化学习作为视觉目标跟踪中内存控制的手工设计更新规则的强大替代方案。 |
[48] 用于语义分割的核预测网络图像翻译 标题: Image Translation with Kernel Prediction Networks for Semantic Segmentation 作者: Cristina Mata / Michael S. Ryoo / Henrik Turbell 原文: [英文] 备注: OOD-CV Workshop at ECCV 2024 摘要: 语义分割依赖于许多密集的逐像素注释以实现最佳性能,但由于获取真实世界数据的准确注释具有难度,实践者通常在大规模合成数据集上进行训练。无配对图像翻译是一种用于通过在低数据环境中生成更逼真的训练数据来解决随之而来的域间差距的方法。当前的无配对图像翻译方法训练生成对抗网络(GANs)来执行翻译,并通过循环一致性来强制像素级语义匹配。这些方法不能保证语义匹配的有效性,这对语义分割来说是个问题,因为其性能对噪声像素标签非常敏感。我们提出了一种新颖的图像翻译方法,称为域对抗核预测网络(DA-KPN),它保证了合成标签和翻译之间的语义匹配。DA-KPN 估计轻量且简单的翻译函数的逐像素输入变换参数。为了确保逐像素变换的真实性,DA-KPN 使用多尺度判别器来区分翻译样本和目标样本。我们展示了 DA-KPN 在有限访问真实图像标签的情况下,在 syn2real 基准测试上的语义分割性能优于先前的基于 GAN 的方法,并在面部解析上实现了可比的性能。 |
[49] 解开实例和场景上下文以实现3D语义场景补全 标题: Disentangling Instance and Scene Contexts for 3D Semantic Scene Completion 作者: Enyu Liu / En Yu / Sijia Chen / Wenbing Tao 原文: [英文] 备注: Accepted to ICCV 2025 摘要: 3D语义场景补全(SSC)由于其在3D感知中的关键作用而受到越来越多的关注。最近的进展主要集中在优化体素级特征以构建3D场景。然而,将体素视为基本交互单元本质上限制了类级信息的利用,而类级信息被证明对于增强补全结果的细粒度性至关重要。为了解决这个问题,我们提出了\textbf{D}isentangling Instance and Scene Contexts (DISC),这是一种新颖的双流范式,通过分离优化来增强实例和场景类别的学习。具体来说,我们用具有辨别力的类查询替代体素查询,这些类查询结合了类特定的几何和语义先验。此外,我们利用类的内在属性设计了专门的解码模块,促进了有针对性的交互和高效的类级信息流。实验结果表明,DISC在SemanticKITTI和SSCBench-KITTI-360基准上均达到了最新的(SOTA)性能,mIoU得分分别为17.35和20.55。值得注意的是,DISC仅使用单帧输入就超越了多帧SOTA方法,并显著提高了实例类别的性能,在SemanticKITTI隐藏测试中分别超过单帧和多帧SOTA实例mIoU 17.9%和11.9%。代码可在此https URL获取。 |
[50] 基于三维空间-语言-视觉整合和双向交互注意机制的脑肿瘤分割多模态融合框架 标题: A Multi-Modal Fusion Framework for Brain Tumor Segmentation Based on 3D Spatial-Language-Vision Integration and Bidirectional Interactive Attention Mechanism 作者: Mingda Zhang / Kaiwen Pan 原文: [英文] [中文] 备注: 12 pages, 4 figures 摘要: 本研究旨在开发一种新颖的多模态融合框架,用于脑肿瘤分割。该框架通过双向交互注意机制整合空间、语言和视觉信息,以提高分割精度和边界描绘。方法:我们提出了两个核心组件:多模态语义融合适配器(MSFA),通过分层语义解耦将3D MRI数据与临床文本描述相结合;以及双向交互视觉语义注意(BIVA),实现模态间的迭代信息交换。该框架在包含369个多机构MRI扫描的BraTS 2020数据集上进行了评估。结果:所提出的方法在增强肿瘤、肿瘤核心和整个肿瘤区域的平均Dice系数为0.8505,95% Hausdorff距离为2.8256mm,优于包括SCAU-Net、CA-Net和3D U-Net在内的最新方法。消融研究证实了语义和空间模块对边界精度的关键贡献。结论:多模态语义融合结合双向交互注意显著提升了脑肿瘤分割性能,为将临床知识整合到医学图像分析中建立了新的范式。 |
[51] BayesTTA:通过高斯判别分析实现视觉-语言模型的持续-时间测试时适应 标题: BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis 作者: Shuang Cui / Jinglin Xu / Yi Li / Xiongxin Tang / Jiangmeng Li / Jiahuan Zhou / Fanjiang Xu / Fuchun Sun / Hui Xiong 原文: [英文] [中文] 备注: None 摘要: 视觉-语言模型(VLMs),如CLIP,在零样本识别中表现出色,但在现实场景中常见的\textit{时间演变分布偏移}(例如,逐渐的光照或季节变化)下显著退化。现有的持续测试时适应(CTTA)方法通常围绕突然和严重的分布偏移构建,忽视了时间连续性,导致三个核心缺陷:有限的记忆缓存限制了长程分布建模,导致灾难性遗忘;基于熵的置信度在时间漂移下变得不可靠,加剧了错误积累;静态视觉表示与不断变化的输入不匹配。我们将这个实际问题形式化为\textit{持续-时间测试时适应(CT-TTA)},其中测试分布随时间逐渐演变。为了解决这个问题,我们提出了\textit{BayesTTA},一个贝叶斯适应框架,强制执行时间一致的预测并动态对齐视觉表示。具体来说,BayesTTA在不存储原始数据的情况下逐步估计类条件高斯混合分布,通过统计假设检验自适应选择协方差结构,并使用高斯判别分析(GDA)进行校准推理。这些校准的预测监督归一化层的自适应调整,确保高效且稳定的表示对齐。我们在四个时间演变数据集上建立了一个全面的CT-TTA基准,并进一步在十个标准TTA数据集上评估泛化能力。大量实验表明,BayesTTA始终优于最先进的方法,在保持效率的同时实现了显著的提升。代码可在\href{this https URL}{this https URL}获取。 |
[52] 规范化与外交注释:乌拉圭手写出生证明自动信息提取的案例研究 标题: Normalized vs Diplomatic Annotation: A Case Study of Automatic Information Extraction from Handwritten Uruguayan Birth Certificates 作者: Natalia Bottaioli / Solène Tarride / Jérémy Anger / Seginus Mowlavi / Marina Gardella / Antoine Tadros / Gabriele Facciolo / Rafael Grompone von Gioi / Christopher Kermorvant / Jean-Michel Morel / Javier Preciozzi 原文: [英文] [中文] 备注: None 摘要: 本研究评估了最近提出的文档注意网络(DAN)在从乌拉圭出生证明中提取键值信息的效果,这些证明是用西班牙语手写的。我们研究了两种自动转录手写文档的标注策略,通过最少的训练数据和标注工作来微调DAN。实验在两个包含相同图像的数据集上进行(201份由超过15位不同书写者书写的出生证明扫描件),但使用了不同的标注方法。我们的研究结果表明,对于可以标准化的字段(如出生日期和地点),规范化标注更为有效,而对于包含姓名和姓氏的字段,外交式标注效果更佳,因为这些字段无法标准化。 |
[53] OnlineBEV:用于多摄像头3D感知的鸟瞰图表示中的递归时间融合 标题: OnlineBEV: Recurrent Temporal Fusion in Bird's Eye View Representations for Multi-Camera 3D Perception 作者: Junho Koh / Youngwoo Lee / Jungho Kim / Dongyoung Lee / Jun Won Choi 原文: [英文] [中文] 备注: Accepted to Transactions on Intelligent Transportation Systems 摘要: 基于多视角相机的3D感知可以通过透视视图到鸟瞰视图(BEV)转换获得的BEV特征来进行。多项研究表明,通过结合从多个相机帧获得的连续BEV特征,这些3D感知方法的性能可以进一步提升。然而,即使在补偿了自动驾驶代理的自运动后,当结合大量图像帧时,时间聚合带来的性能提升仍然有限。这种限制是由于物体运动导致的BEV特征随时间的动态变化。在本文中,我们介绍了一种新颖的时间3D感知方法,称为OnlineBEV,该方法使用递归结构在时间上结合BEV特征。该结构在最小化内存使用的情况下增加了结合特征的有效数量。然而,关键在于在时间上对特征进行空间对齐以保持强大的性能。OnlineBEV采用运动引导的BEV融合网络(MBFNet)来实现时间特征对齐。MBFNet从连续的BEV帧中提取运动特征,并利用这些运动特征动态对齐历史BEV特征与当前特征。为了明确地加强时间特征对齐,我们使用时间一致性学习损失,该损失捕捉历史和目标BEV特征之间的差异。在nuScenes基准上的实验表明,OnlineBEV在当前最佳方法SOLOFusion上实现了显著的性能提升。OnlineBEV在nuScenes测试集上达到了63.9%的NDS,记录了仅使用相机的3D目标检测任务的最新性能。 |
[54] DatasetAgent:一种用于从真实世界图像自动构建数据集的新型多智能体系统 标题: DatasetAgent: A Novel Multi-Agent System for Auto-Constructing Datasets from Real-World Images 作者: Haoran Sun / Haoyu Bian / Shaoning Zeng / Yunbo Rao / Xu Xu / Lin Mei / Jianping Gou 原文: [英文] [中文] 备注: None 摘要: 常识表明,构建图像数据集的过程通常依赖于耗时且低效的手动收集和标注方法。大型模型通过数据生成提供了一种解决方案。然而,与人工智能生成的数据相比,真实世界的数据显然更有价值,特别是在构建图像数据集时。为此,我们提出了一种新方法,通过一个名为DatasetAgent的多智能体协作系统,从真实世界的图像中自动构建数据集。通过协调四个配备多模态大型语言模型(MLLMs)的不同智能体,以及一个用于图像优化的工具包,DatasetAgent能够根据用户指定的要求构建高质量的图像数据集。特别地,我们进行了两种类型的实验,包括扩展现有数据集和从头创建新数据集,实验基于各种开源数据集。在这两种情况下,DatasetAgent构建的多个图像数据集被用于训练各种视觉模型,以进行图像分类、目标检测和图像分割。 |
[55] 使用高效的Transformer模型从1.5T和3T T1 MRI合成可推广的7T T1图 标题: Generalizable 7T T1-map Synthesis from 1.5T and 3T T1 MRI with an Efficient Transformer Model 作者: Zach Eidex / Mojtaba Safari / Tonghe Wang / Vanessa Wildman / David S. Yu / Hui Mao / Erik Middlebrooks / Aparna Kesewala / Xiaofeng Yang 原文: [英文] 备注: None 摘要: 目的:超高场7T MRI相比于标准临床场强(1.5T,3T)提供了更好的分辨率和对比度。然而,7T扫描仪价格昂贵,稀缺,并且引入了额外的挑战,如磁化率伪影。我们提出了一种高效的基于Transformer的模型(7T-Restormer),用于从常规的1.5T或3T T1加权(T1W)图像合成7T质量的T1图。方法:我们的模型在35例1.5T和108例3T T1W MRI与相应的7T T1图的确诊MS患者中进行了验证。总共141例患者(32,128张切片)被随机分为105(25;80)个训练案例(19,204张切片),19(5;14)个验证案例(3,476张切片),以及17(5;14)个测试案例(3,145张切片),其中(X;Y)表示分别具有1.5T和3T T1W扫描的患者。合成的7T T1图与ResViT和ResShift模型进行了比较。结果:7T-Restormer模型对于1.5T输入实现了26.0 +/- 4.6 dB的PSNR,0.861 +/- 0.072的SSIM,以及0.019 +/- 0.011的NMSE,对于3T输入分别实现了25.9 +/- 4.9 dB和0.866 +/- 0.077。使用10.5M参数,我们的模型相对于56.7M参数的ResShift(0.019 vs 0.052,p = <.001)减少了64%的NMSE,并且相对于70.4M参数的ResViT(0.019 vs 0.032,p = <.001)减少了41%的NMSE,在3T时具有类似的优势(0.021 vs 0.060和0.033;p < .001)。使用混合的1.5T + 3T语料库进行训练优于单一场强策略。将模型限制在1.5T时,1.5T的NMSE从0.019增加到0.021(p = 1.1E-3),而仅在3T上训练导致输入1.5T T1W MRI的性能下降。结论:我们提出了一种新方法,用于从1.5T和3T T1W扫描预测定量的7T MP2RAGE图,其质量高于现有的最先进方法。我们的方法使7T MRI的优势更易于在标准临床工作流程中实现。 |
[56] ByDeWay:通过深度提示以无训练方式提升多模态大语言模型 标题: ByDeWay: Boost Your multimodal LLM with DEpth prompting in a Training-Free Way 作者: Rajarshi Roy / Devleena Das / Ankesh Banerjee / Arjya Bhattacharjee / Kousik Dasgupta / Subarna Tripathi 原文: [英文] 备注: None 摘要: 我们介绍了ByDeWay,这是一种无需训练的框架,旨在提升多模态大型语言模型(MLLMs)的性能。ByDeWay采用了一种新颖的提示策略,称为基于层次深度的提示(LDP),在不修改任何模型参数的情况下改善空间推理和定位能力。它通过单目深度估计将场景分割为最近、中等距离和最远的层,然后使用有基础的视觉语言模型生成特定区域的描述。这些结构化的、深度感知的描述被附加到图像-问题提示中,为其丰富空间上下文。这引导MLLMs生成更有依据且更少幻觉的响应。我们的方法轻量、模块化,并与黑箱MLLMs兼容。在对幻觉敏感(POPE)和推理密集(GQA)的基准测试中,多个MLLMs显示出一致的改进,验证了在零训练环境中深度感知提示的有效性。 |
[57] MoSAiC:用于遥感的多模态多标签监督感知对比学习 标题: MoSAiC: Multi-Modal Multi-Label Supervision-Aware Contrastive Learning for Remote Sensing 作者: Debashis Gupta / Aditi Golder / Rongkhun Zhu / Kangning Cui / Wei Tang / Fan Yang / Ovidiu Csillik / Sarra Alaqahtani / V. Paul Pauca 原文: [英文] [中文] 备注: None 摘要: 对比学习(CL)已成为一种强大的范式,可以在不依赖大型标记数据集的情况下学习可迁移的表示。其捕捉数据样本之间内在相似性和差异性的能力在计算机视觉任务中取得了最先进的成果。这些优势使得CL特别适合于地球系统观测(ESO),在这里,不同的卫星模态如光学和SAR影像提供了同一地理区域的自然对齐视图。然而,ESO也带来了独特的挑战,包括高类间相似性、场景杂乱和模糊的边界,这使得表示学习变得复杂,尤其是在低标记、多标记的环境中。现有的CL框架通常专注于模态内的自监督,或缺乏跨模态的多标记对齐和语义精度机制。在这项工作中,我们引入了MoSAiC,一个统一的框架,通过多标记监督对比损失联合优化模态内和模态间的对比学习。MoSAiC专为多模态卫星影像设计,能够在光谱相似和空间复杂的类别中实现更精细的语义解缠和更稳健的表示学习。在两个基准数据集BigEarthNet V2.0和Sent12MS上的实验表明,MoSAiC在准确性、聚类一致性和低标记、高类重叠场景中的泛化能力方面,始终优于完全监督和自监督的基线。 |
[58] 一种利用关键点跟踪在MRI扫描中进行肌肉分割和3D重建的高效方法 标题: An Efficient Approach for Muscle Segmentation and 3D Reconstruction Using Keypoint Tracking in MRI Scan 作者: Mengyuan Liu / Jeongkyu Lee 原文: [英文] [中文] 备注: None 摘要: 磁共振成像(MRI)能够对肌肉结构进行非侵入性、高分辨率的分析。然而,自动分割仍然受到高计算成本、大规模训练数据集的依赖以及在分割较小肌肉时准确性降低的限制。基于卷积神经网络(CNN)的方法虽然强大,但通常会遭遇显著的计算开销、有限的泛化能力以及在不同人群中较差的可解释性。本研究提出了一种基于关键点跟踪的无训练分割方法,该方法将关键点选择与Lucas-Kanade光流结合。根据关键点选择策略,所提出的方法实现了平均Dice相似系数(DSC)在0.6到0.7之间,与最先进的基于CNN的模型表现相当,同时大大降低了计算需求并增强了可解释性。这个可扩展的框架为临床和研究应用中的肌肉分割提供了一种稳健且可解释的替代方案。 |
[59] L-CLIPScore:一种用于评估和训练的轻量级基于嵌入的字幕指标 标题: L-CLIPScore: a Lightweight Embedding-based Captioning Metric for Evaluating and Training 作者: Li Li / Yingzhe Peng / Xu Yang / Ruoxi Cheng / Haiyang Xu / Ming Yan / Fei Huang 原文: [英文] [中文] 备注: 10 pages, 4 figures 摘要: 我们提出了一种新颖的基于嵌入的字幕评估指标,称为L-CLIPScore,可用于高效评估字幕质量和训练字幕生成模型。L-CLIPScore是从轻量级CLIP(L-CLIP)计算得出的,L-CLIP是一种从CLIP压缩和蒸馏而来的双编码器架构。为了压缩,我们应用了两种强大的技术:权重复用和矩阵分解,分别用于减少编码器和词嵌入矩阵的参数。为了蒸馏,我们设计了一种新颖的多模态相似性调节器(SR)损失,以传递更多的视觉-语言对齐知识。具体来说,如果给定的图文对匹配,SR损失会放大多模态嵌入的相似性;如果不匹配,则减小相似性。通过这种新颖的SR损失进行压缩和蒸馏,我们的L-CLIP在需要更少计算资源和运行时间的情况下,实现了与原始CLIP相当的多模态对齐能力。我们进行了详尽的实验,以验证在使用L-CLIPScore作为评判标准来评估字幕质量时的效率和有效性。我们还发现,当使用L-CLIPScore作为监督信号来训练字幕生成模型时,它应与基于n-gram的指标混合使用,并同时分析仅使用L-CLIPScore会导致训练失败的原因。 |
[60] SGPMIL:稀疏高斯过程多实例学习 标题: SGPMIL: Sparse Gaussian Process Multiple Instance Learning 作者: Andreas Lolos / Stergios Christodoulidis / Maria Vakalopoulou / Jose Dolz / Aris Moustakas 原文: [英文] [中文] 备注: 8 pages, 4 figures, 2 tables 摘要: 多实例学习(MIL)为仅有粗略的袋级标签而没有实例级注释的情境提供了一种自然的解决方案。这通常出现在数字病理学中,涉及千兆像素大小的图像。虽然基于确定性注意力的MIL方法在袋级表现上很强,但它们往往忽视了实例相关性中固有的不确定性。在本文中,我们通过引入\textbf{SGPMIL}来解决实例级注意力分数中缺乏不确定性量化的问题。SGPMIL是一种基于稀疏高斯过程(SGP)的新型概率注意力MIL框架。通过学习注意力分数的后验分布,SGPMIL实现了有原则的不确定性估计,从而生成更可靠和校准的实例相关性图。我们的方法不仅保持了竞争力的袋级表现,还显著提高了在不确定性下实例级预测的质量和可解释性。SGPMIL通过在SGP预测均值函数中引入特征缩放扩展了先前的工作,从而实现了更快的训练、提高的效率和增强的实例级表现。在多个成熟的数字病理学数据集上的广泛实验突出了我们的方法在袋级和实例级评估中的有效性。我们的代码将公开发布。 |
[61] 虚拟即一切:仅需一个引擎的多模态ISAC数据模拟 标题: Unreal is all you need: Multimodal ISAC Data Simulation with Only One Engine 作者: Kongwu Huang / Shiyi Mu / Jun Jiang / Yuan Gao / Shugong Xu 原文: [英文] [中文] 备注: None 摘要: 缩放定律在大型语言模型和基础模型中取得了成功。为了探索其在ISAC研究中的潜力,我们提出了Great-X。这个单引擎多模态数据孪生平台在虚幻引擎中重建了Sionna的光线追踪计算,并与自动驾驶工具深度集成。这使得包括CSI、RGB、雷达和LiDAR在内的多模态数据的高效和同步模拟成为可能。基于该平台,我们构建了一个名为Great-MSD的开源、大规模、低空无人机多模态联觉数据集,并提出了一个基于CSI的无人机3D定位算法基线,展示了其在不同CSI模拟引擎中的可行性和普适性。相关代码和数据集可在此URL公开获取。 |
[62] RoundaboutHD:用于多摄像头车辆跟踪的高分辨率真实世界城市环境基准 标题: RoundaboutHD: High-Resolution Real-World Urban Environment Benchmark for Multi-Camera Vehicle Tracking 作者: Yuqiang Lin / Sam Lockyer / Mingxuan Sui / Li Gan / Florian Stanek / Markus Zarbock / Wenbin Li / Adrian Evans / Nic Zhang 原文: [英文] [中文] 备注: None 摘要: 多摄像头车辆跟踪(MCVT)框架在智能城市应用中具有重要潜力,包括异常检测、交通密度估计和嫌疑车辆跟踪。然而,目前公开可用的数据集存在一些局限性,如场景过于简单、视频分辨率低以及条件多样性不足,这在学术研究与现实场景之间造成了相当大的差距。为填补这一差距,我们引入了RoundaboutHD,这是一个全面的、高分辨率的多摄像头车辆跟踪基准数据集,专门设计用于代表真实世界的环形交叉路口场景。RoundaboutHD提供了总计40分钟的标记视频,由四个不重叠的高分辨率(4K分辨率,15帧每秒)摄像头拍摄。总共有512个独特的车辆身份在不同的摄像头视角中被标注,提供了丰富的跨摄像头关联数据。RoundaboutHD提供了时间一致性的视频片段和增强的挑战,包括在环形交叉路口内增加的遮挡和非线性运动。除了完整的MCVT数据集外,还提供了几个子集用于目标检测、单摄像头跟踪和基于图像的车辆重新识别(ReID)任务。车辆模型信息和摄像头建模/几何信息也包括在内,以支持进一步分析。我们提供了车辆检测、单摄像头跟踪、基于图像的车辆重新识别和多摄像头跟踪的基线结果。数据集和评估代码可在以下网址公开获取:this https URL |
[63] 弱谱总变差学习器集成:PET-CT案例研究 标题: Ensemble of Weak Spectral Total Variation Learners: a PET-CT Case Study 作者: Anna Rosenberg / John Kennedy / Zohar Keidar / Yehoshua Y. Zeevi / Guy Gilboa 原文: [英文] [中文] 备注: None 摘要: 通过机器学习解决计算机视觉问题时,常常会遇到训练数据不足的问题。为了解决这个问题,我们提出使用基于谱总变差(STV)特征的弱学习器集成方法(Gilboa 2014)。这些特征与总变差次梯度的非线性特征函数相关,可以很好地表征不同尺度的纹理。研究表明(Burger 等人 2016),在一维情况下,会生成正交特征,而在二维情况下,这些特征经验上相关性较低。集成学习理论倡导使用相关性较低的弱学习器。因此,我们在此提出使用基于STV特征的学习器来设计集成。为了展示这一范式的有效性,我们研究了一个困难的现实世界医学成像问题:计算机断层扫描(CT)数据对怀疑骨转移患者的正电子发射断层扫描(PET)高摄取的预测价值。数据库由457次扫描组成,包含1524对独特的已注册CT和PET切片。我们的方法与深度学习方法和放射组学特征进行了比较,结果显示STV学习器表现最佳(AUC=0.87),相比之下,神经网络(AUC=0.75)和放射组学(AUC=0.79)表现较差。我们观察到,CT图像中细微的STV尺度特别能指示PET中高摄取的存在。 |
[64] HieraRS:一种用于遥感的分层分割范式,实现多粒度解释和跨领域迁移 标题: HieraRS: A Hierarchical Segmentation Paradigm for Remote Sensing Enabling Multi-Granularity Interpretation and Cross-Domain Transfer 作者: Tianlong Ai / Tianzhu Liu / Haochen Jiang / Yanfeng Gu 原文: [英文] [中文] 备注: 17 pages, 11 figures 摘要: 分层土地覆盖和土地利用(LCLU)分类旨在为遥感(RS)图像分配具有多级语义粒度的逐像素标签。然而,现有的基于深度学习的方法面临两个主要挑战:1)它们主要采用平面分类范式,这限制了其生成与实际使用的树状层次结构对齐的端到端多粒度分层预测的能力。2)大多数跨域研究关注于传感器或场景变化导致的性能下降,而对将LCLU模型转移到具有异构层次结构的跨域任务(例如,从LCLU到作物分类)的关注有限。这些限制阻碍了LCLU模型在实际应用中的灵活性和泛化能力。为了解决这些挑战,我们提出了HieraRS,这是一种新颖的分层解释范式,能够实现多粒度预测,并支持LCLU模型高效转移到具有异构树状层次结构的跨域任务。我们引入了双向层次一致性约束机制(BHCCM),可以无缝集成到主流平面分类模型中以生成分层预测,同时提高语义一致性和分类准确性。此外,我们提出了TransLU,一个双分支跨域转移框架,包括两个关键组件:跨域知识共享(CDKS)和跨域语义对齐(CDSA)。TransLU支持动态类别扩展,并促进LCLU模型对异构层次结构的有效适应。此外,我们构建了MM-5B,一个大规模多模态分层土地利用数据集,具有逐像素注释。代码和MM-5B数据集将在此https URL发布。 |
[65] Geo-ORBIT:一种用于场景自适应车道几何检测的联邦数字孪生框架 标题: Geo-ORBIT: A Federated Digital Twin Framework for Scene-Adaptive Lane Geometry Detection 作者: Rei Tamaru / Pei Li / Bin Ran 原文: [英文] [中文] 备注: None 摘要: 数字孪生(DT)有潜力通过创建交通系统的动态虚拟表示来改变交通管理和运营,这些表示可以感知条件、分析操作并支持决策。交通系统DT的一个关键组成部分是动态道路几何感知。然而,现有的方法通常依赖于静态地图或昂贵的传感器,限制了可扩展性和适应性。此外,从多个来源收集和分析数据的大规模DT面临隐私、通信和计算效率方面的挑战。为了解决这些挑战,我们引入了Geo-ORBIT(几何操作道路蓝图与集成孪生),这是一个结合实时车道检测、DT同步和联邦元学习的统一框架。Geo-ORBIT的核心是GeoLane,这是一种轻量级车道检测模型,利用路边摄像头从车辆轨迹数据中学习车道几何。我们通过Meta-GeoLane扩展了该模型,该模型学习为本地实体个性化检测参数,以及FedMeta-GeoLane,这是一种联邦学习策略,确保在路边部署中实现可扩展和隐私保护的适应性。我们的系统与CARLA和SUMO集成,以创建一个高保真DT,实时呈现高速公路场景并捕获交通流量。在各种城市场景中的广泛实验表明,FedMeta-GeoLane始终优于基线和元学习方法,实现了更低的几何误差和对未见位置的更强泛化,同时大幅减少了通信开销。这项工作为DT中的灵活、上下文感知的基础设施建模奠定了基础。该框架可在此https URL公开获取。 |
[66] 压缩任意分割任何事物模型 (SAM) 标题: Compress Any Segment Anything Model (SAM) 作者: Juntong Fan / Zhiwei Hao / Jianqiang Shen / Shang-Ling Jui / Yi Zhang / Jing-Xiao Liao / Feng-Lei Fan 原文: [英文] [中文] 备注: 13 pages, 6 tables, 8 figures 摘要: 由于在高质量零样本分割方面的出色表现,Segment Anything Model(SAM)及其变体已被广泛应用于医疗保健和智能制造等多种场景。因此,有效压缩SAMs已成为一个日益紧迫的实际需求。在这项研究中,我们提出了Birkhoff,一种针对SAM及其变体的新型无数据压缩算法。与量化、剪枝、蒸馏和其他压缩方法不同,Birkhoff在模型类型的多样性、部署的灵活性、对原始模型的忠实性以及模型大小的紧凑性方面体现了优势。具体而言,Birkhoff引入了一种新颖的压缩算法:超压缩,其核心原理是找到一条密集轨迹,将高维参数向量转化为低维标量。此外,Birkhoff设计了一种专用的线性层操作符,HyperLinear,用于融合解压缩和矩阵乘法,以显著加速压缩后SAMs的推理。在COCO、LVIS和SA-1B数据集上的18个SAMs的广泛实验表明,Birkhoff在压缩时间、压缩比、压缩后性能和推理速度方面表现始终如一且具有竞争力。例如,Birkhoff可以在SAM2-B上实现5.17倍的压缩比,性能下降不到1%,且无需使用任何微调数据。此外,所有模型的压缩均在60秒内完成。 |
[67] 一种用于MNIST分类的混合多井Hopfield-CNN结合特征提取和K均值 标题: A Hybrid Multi-Well Hopfield-CNN with Feature Extraction and K-Means for MNIST Classification 作者: Ahmed Farooq 原文: [英文] [中文] 备注: None 摘要: 本研究提出了一种用于对MNIST数据集中的手写数字进行分类的混合模型,该模型结合了卷积神经网络(CNN)和多阱Hopfield网络。该方法使用CNN从输入图像中提取高维特征,然后使用k-means聚类将这些特征聚类为特定类别的原型。这些原型在多阱能量景观中作为吸引子,其中Hopfield网络通过最小化平衡特征相似性和类别的能量函数来执行分类。该模型的设计能够稳健地处理类内变异性,例如不同的书写风格,同时通过其基于能量的决策过程提供可解释的框架。通过对CNN架构和阱数量的系统优化,该模型在10,000张MNIST图像上实现了99.2%的高测试准确率,展示了其在图像分类任务中的有效性。研究结果强调了深度特征提取和足够的原型覆盖在实现高性能中的关键作用,并具有在模式识别中更广泛应用的潜力。 |
[68] 从一个到多个:用于3D生成的上下文部分潜变量 标题: From One to More: Contextual Part Latents for 3D Generation 作者: Shaocong Dong / Lihe Ding / Xiao Chen / Yaokun Li / Yuxin Wang / Yucheng Wang / Qi Wang / Jaehyeok Kim / Chenjian Gao / Zhanpeng Huang / Zibin Wang / Tianfan Xue / Dan Xu 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 最近在3D生成领域的进展已经从多视图2D渲染方法转向利用真实数据中的几何先验的3D原生潜在扩散框架。尽管取得了一定进展,但仍存在三个关键限制:(1)单一潜在表示无法捕捉复杂的多部分几何形状,导致细节退化;(2)整体潜在编码忽视了部分独立性和对组合设计至关重要的部分间关系;(3)全局条件机制缺乏细粒度的可控性。受人类3D设计工作流程的启发,我们提出了CoPart——一种部分感知的扩散框架,将3D对象分解为上下文相关的部分潜在表示,以实现连贯的多部分生成。该范式提供了三个优势:i) 通过部分分解减少编码复杂性;ii) 使显式部分关系建模成为可能;iii) 支持部分级别的条件控制。我们进一步开发了一种互导策略,以微调预训练的扩散模型进行联合部分潜在去噪,确保几何一致性和基础模型先验。为了实现大规模训练,我们构建了Partverse——一个通过自动网格分割和人工验证注释从Objaverse衍生出的新颖3D部分数据集。大量实验表明,CoPart在部分级别编辑、关节对象生成和场景组合方面具有前所未有的可控性。 |
[69] CLiFT:用于计算高效和自适应神经渲染的压缩光场标记 标题: CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering 作者: Zhengqing Wang / Yuefan Wu / Jiacheng Chen / Fuyang Zhang / Yasutaka Furukawa 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 本文提出了一种神经渲染方法,将场景表示为“压缩光场标记(CLiFTs)”,保留场景的丰富外观和几何信息。CLiFT通过压缩标记实现计算高效的渲染,同时能够改变标记数量以表示场景或使用一个训练好的网络渲染新视图。具体来说,给定一组图像,多视图编码器使用相机姿态对图像进行标记。潜在空间K均值使用标记选择一组减少的光线作为聚类中心。多视图“压缩器”将所有标记的信息压缩到中心标记中以构建CLiFTs。在测试时,给定目标视图和计算预算(即CLiFTs的数量),系统收集指定数量的附近标记,并使用计算自适应渲染器合成新视图。在RealEstate10K和DL3DV数据集上的大量实验从定量和定性上验证了我们的方法,实现了显著的数据减少,同时保持了可比的渲染质量和最高的整体渲染得分,并提供了数据大小、渲染质量和渲染速度的权衡。 |
[70] NeuralOS:通过神经生成模型模拟操作系统 标题: NeuralOS: Towards Simulating Operating Systems via Neural Generative Models 作者: Luke Rivard / Sun Sun / Hongyu Guo / Wenhu Chen / Yuntian Deng 原文: [英文] [中文] 备注: None 摘要: 我们介绍了NeuralOS,这是一种神经框架,通过直接预测屏幕帧来模拟操作系统的图形用户界面(GUI),以响应用户输入,如鼠标移动、点击和键盘事件。NeuralOS结合了一个用于跟踪计算机状态的递归神经网络(RNN)和一个基于扩散的神经渲染器来生成屏幕图像。该模型在一个大规模的Ubuntu XFCE录制数据集上进行了训练,该数据集包括随机生成的交互和由AI代理生成的真实交互。实验表明,NeuralOS能够成功渲染逼真的GUI序列,准确捕捉鼠标交互,并可靠地预测状态转换,如应用程序启动。尽管精确建模细粒度的键盘交互仍然具有挑战性,NeuralOS为创建完全自适应的生成性神经界面以用于未来的人机交互系统迈出了重要一步。 |
[71] Lumos-1:从统一模型视角探讨自回归视频生成 标题: Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective 作者: Hangjie Yuan / Weihua Chen / Jun Cen / Hu Yu / Jingyun Liang / Shuning Chang / Zhihui Lin / Tao Feng / Pengwei Liu / Jiazheng Xing / Hao Luo / Jiasheng Tang / Fan Wang / Yi Yang 原文: [英文] [中文] 备注: Code and Models: this https URL 摘要: 自回归大型语言模型(LLMs)已经统一了大量的语言任务,并激发了在自回归视频生成方面的初步尝试。现有的自回归视频生成器要么偏离了标准的LLM架构,要么依赖于庞大的外部文本编码器,或者由于下一个标记解码而导致延迟过高。在本文中,我们介绍了Lumos-1,这是一种自回归视频生成器,它在保留LLM架构的同时进行了最小的架构修改。为了在LLMs中注入时空相关性,我们识别出结合3D RoPE的有效性,并诊断出其频谱范围不平衡的问题。因此,我们提出了MM-RoPE,这是一种RoPE方案,它在保留原始文本RoPE的同时,提供了全面的频谱和缩放的3D位置,用于建模多模态时空数据。此外,Lumos-1采用了一种标记依赖策略,该策略遵循帧内双向性和帧间时间因果性。基于这种依赖策略,我们识别出由空间信息冗余引起的帧损失不平衡问题,并通过提出自回归离散扩散强制(AR-DF)来解决。AR-DF在训练期间引入时间管掩码,并在推理时采用兼容的掩码策略以避免质量下降。通过使用内存高效的训练技术,我们仅在48个GPU上预训练了Lumos-1,实现了与GenEval上的EMU3、VBench-I2V上的COSMOS-Video2World以及VBench-T2V上的OpenSoraPlan相当的性能。代码和模型可在此https URL获取。 |