scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年7月25日更新论文90
[1] Lumina-mGPT 2.0:独立自回归图像建模
标题: Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
作者: Yi Xin / Juncheng Yan / Qi Qin / Zhen Li / Dongyang Liu / Shicheng Li / Victor Shea-Jay Huang / Yupeng Zhou / Renrui Zhang / Le Zhuo / Tiancheng Han / Xiaoqing Sun / Siqi Luo / Mengmeng Wang / Bin Fu / Yuewen Cao / Hongsheng Li / Guangtao Zhai / Xiaohong Liu / Yu Qiao / Peng Gao
原文:   [英文]   [中文]  
备注: Tech Report, 23 pages, 11 figures, 7 tables
摘要:
我们介绍了 Lumina-mGPT 2.0,这是一种独立的、仅解码的自回归模型,重新审视并振兴了用于高质量图像生成及其他应用的自回归范式。与依赖于预训练组件或混合架构的现有方法不同,Lumina-mGPT 2.0 完全从头开始训练,允许不受限制的架构设计和许可自由。它在生成质量上与最先进的扩散模型(如 DALL-E 3 和 SANA)相当,同时保留了自回归建模固有的灵活性和组合性。我们统一的标记方案使模型能够在单一生成框架内无缝处理广泛的任务,包括主题驱动的生成、图像编辑、可控合成和密集预测。为了进一步提高可用性,我们结合了高效的解码策略,如推理时缩放和推测 Jacobi 采样,分别提高质量和速度。在标准文本到图像基准(如 GenEval、DPG)上的广泛评估表明,Lumina-mGPT 2.0 不仅能匹敌扩散模型,在某些情况下甚至超越它们。此外,我们在 Graph200K 基准上确认了其多任务能力,原生的 Lumina-mGPT 2.0 表现异常出色。这些结果使 Lumina-mGPT 2.0 成为统一多模态生成的强大而灵活的基础模型。我们已在此 https URL 上发布了我们的训练细节、代码和模型。

[2] SV3.3B:一种用于动作识别的体育视频理解模型
标题: SV3.3B: A Sports Video Understanding Model for Action Recognition
作者: Sai Varun Kodathala / Yashwanth Reddy Vutukoori / Rakesh Vunnam
原文:   [英文]  
备注: 8 pages, 6 figures, 4 tables. Submitted to AIxSET 2025
摘要:
本文探讨了自动化体育视频分析的挑战,这一领域传统上受到需要服务器端处理的计算密集型模型的限制,且缺乏对运动细节的深入理解。目前的方法难以捕捉到对有意义的体育分析至关重要的细微生物力学过渡,常常错过在几秒钟内发生的关键阶段,如准备、执行和随动。为了解决这些限制,我们引入了SV3.3B,这是一种轻量级的3.3B参数视频理解模型,它结合了新颖的时间运动差异采样和自监督学习,以实现高效的设备端部署。我们的方法采用基于DWT-VGG16-LDA的关键帧提取机制,智能识别出体育序列中最具代表性的16帧,然后通过掩码去噪目标预训练的V-DWT-JEPA2编码器和为体育动作描述生成微调的LLM解码器。SV3.3B在NSVA篮球数据集的一个子集上进行评估,在传统文本生成指标和体育特定评估标准上均表现出色,优于包括GPT-4o变体在内的更大规模的闭源模型,同时保持显著较低的计算需求。我们的模型在生成技术细节丰富且分析性强的体育描述方面表现出卓越的能力,在真实验证指标上比GPT-4o提高了29.2%,在信息密度、动作复杂性和测量精度指标上取得了显著改进,这对于全面的运动分析至关重要。模型可在此https URL获取。

[3] Detail++: 无需训练的文本到图像扩散模型细节增强器
标题: Detail++: Training-Free Detail Enhancer for Text-to-Image Diffusion Models
作者: Lifeng Chen / Jiner Wang / Zihao Pan / Beier Zhu / Xiaofeng Yang / Chi Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
最近在文本生成图像(T2I)方面的进展带来了令人印象深刻的视觉效果。然而,这些模型在处理复杂提示时仍面临重大挑战,特别是涉及多个具有不同属性的主体时。受人类绘画过程的启发,人类通常先勾勒出构图,然后逐步添加细节,我们提出了Detail++,一个无需训练的框架,该框架引入了一种新颖的渐进细节注入(PDI)策略来解决这一限制。具体来说,我们将复杂提示分解为一系列简化的子提示,分阶段引导生成过程。这个分阶段生成利用自注意力的固有布局控制能力,首先确保整体构图,然后进行精确细化。为了实现属性与相应主体之间的准确绑定,我们利用交叉注意力机制,并在测试时进一步引入质心对齐损失,以减少绑定噪声并增强属性一致性。在T2I-CompBench和新构建的风格构图基准上的大量实验表明,Detail++在涉及多个对象和复杂风格条件的场景中显著优于现有方法。

[4] FishDet-M:一个用于鲁棒鱼类检测和在多样水下视觉领域中进行CLIP引导模型选择的统一大规模基准
标题: FishDet-M: A Unified Large-Scale Benchmark for Robust Fish Detection and CLIP-Guided Model Selection in Diverse Aquatic Visual Domains
作者: Muayad Abujabal / Lyes Saad Saoud / Irfan Hussain
原文:   [英文]   [中文]  
备注: None
摘要:
在水下图像中准确检测鱼类对于生态监测、水产养殖自动化和机器人感知至关重要。然而,由于数据集分散、成像条件异质以及评估协议不一致,实际应用仍然受到限制。为了解决这些问题,我们提出了\textit{FishDet-M},这是目前最大的鱼类检测统一基准,包含13个公开可用的数据集,涵盖多种水生环境,包括海洋、半咸水、遮挡和水族馆场景。所有数据都使用COCO风格的注释进行统一,包括边界框和分割掩码,从而实现一致且可扩展的跨域评估。我们系统地对28种当代目标检测模型进行了基准测试,涵盖了YOLOv8到YOLOv12系列、基于R-CNN的检测器和基于DETR的模型。评估使用标准指标,包括mAP、mAP@50和mAP@75,以及特定尺度的分析(AP$_S$、AP$_M$、AP$_L$)和在延迟和参数数量方面的推理分析。结果突出了在FishDet-M上训练的模型之间的检测性能差异,以及不同架构模型之间准确性和效率的权衡。为了支持自适应部署,我们引入了一个基于CLIP的模型选择框架,该框架利用视觉-语言对齐动态识别每个输入图像最语义适合的检测器。这种零样本选择策略在不需要集成计算的情况下实现了高性能,为实时应用提供了可扩展的解决方案。FishDet-M建立了一个标准化和可重复的平台,用于评估复杂水下场景中的目标检测。所有数据集、预训练模型和评估工具均公开可用,以促进水下计算机视觉和智能海洋系统的未来研究。

[5] 通过基于生成式人工智能的图像合成促进对基于人工智能的皮肤病变分类器的公平性评估
标题: Towards Facilitated Fairness Assessment of AI-based Skin Lesion Classifiers Through GenAI-based Image Synthesis
作者: Ko Watanabe. Stanislav Frolov. Adriano Lucieri. Andreas Dengel
原文:   [英文]   [中文]  
备注: None
摘要:
最近,深度学习及其在边缘计算中的应用在常规皮肤癌筛查(如黑色素瘤)方面展现了巨大的革命潜力。尽管这种技术预期会带来诸多好处,但也可能因不可预见和固有的偏见而产生潜在危险。因此,评估和提高此类系统的公平性至关重要。公平性评估的一个关键挑战是确保评估数据集能够充分代表不同的个人可识别信息(PII)(性别、年龄和种族)及其他少数群体。针对这一挑战,本研究利用最先进的生成式人工智能(GenAI)模型LightningDiT来评估公开可用的黑色素瘤分类器的公平性。结果表明,使用高度逼真的合成数据进行公平性评估是一个很有前景的方向。然而,我们的研究发现,当用于评估的黑色素瘤检测模型是在与合成图像基础数据集不同的数据上训练时,验证公平性变得困难。尽管如此,我们提出,我们的方法为利用合成数据评估和增强医学影像生成式人工智能系统的公平性提供了一条有价值的新途径。

[6] DiNAT-IR:探索膨胀邻域注意力用于高质量图像修复
标题: DiNAT-IR: Exploring Dilated Neighborhood Attention for High-Quality Image Restoration
作者: Hanzhou Liu / Binghan Li / Chengkai Liu / Mi Lu
原文:   [英文]  
备注: None
摘要:
变压器(Transformers)通过其自注意力机制来建模长距离依赖关系,已成为图像修复任务中的主流范式。然而,自注意力的高计算成本限制了其在高分辨率图像上的可扩展性,使得效率与质量的权衡成为研究的重点。为了解决这个问题,Restormer采用了通道自注意力,它在通道而非空间维度上计算注意力。虽然这种方法有效,但可能忽略了对高质量图像修复至关重要的局部伪影。为弥补这一不足,我们探索了膨胀邻域注意力(Dilated Neighborhood Attention, DiNA)作为一种有前景的替代方案,灵感来自其在高层次视觉任务中的成功。DiNA通过结合滑动窗口注意力和混合膨胀因子,在不增加过多开销的情况下有效地扩展了感受野,平衡了全局上下文和局部精度。然而,我们的初步实验表明,将这种全局-局部设计直接应用于经典去模糊任务会阻碍准确的视觉修复,主要是由于局部注意力中对全局上下文理解的限制。为此,我们引入了一个通道感知模块,以补充局部注意力,有效整合全局上下文而不牺牲像素级精度。所提出的DiNAT-IR是一种专为图像修复设计的基于变压器的架构,在多个基准测试中取得了具有竞争力的结果,为各种低级计算机视觉问题提供了高质量的解决方案。

[7] AFRDA:用于领域自适应语义分割的注意力特征优化
标题: AFRDA: Attentive Feature Refinement for Domain Adaptive Semantic Segmentation
作者: Md. Al-Masrur Khan / Durgakant Pushp / Lantao Liu
原文:   [英文]   [中文]  
备注: None
摘要:
在无监督领域自适应语义分割(UDA-SS)中,模型在有标签的源域数据(例如,合成图像)上进行训练,并适应无标签的目标域(例如,真实世界图像),而无需访问目标注释。现有的UDA-SS方法通常难以平衡细粒度的局部细节和全局上下文信息,导致在复杂区域的分割错误。为了解决这个问题,我们引入了自适应特征细化(AFR)模块,该模块通过使用低分辨率logits的语义先验来细化高分辨率特征,从而提高分割精度。AFR还整合了高频分量,这些分量捕捉细粒度结构并提供关键的边界信息,从而改善对象的轮廓。此外,AFR通过不确定性驱动的注意力自适应地平衡局部和全局信息,减少错误分类。其轻量化设计允许无缝集成到基于HRDA的UDA方法中,从而实现最先进的分割性能。我们的方法在GTA V到Cityscapes的任务中将现有UDA-SS方法的mIoU提高了1.05%,在Synthia到Cityscapes的任务中提高了1.04%。我们的框架实现可在此URL获取。

[8] 开放:虚拟康复学习环境中老年患者参与度识别的基准数据集和基线
标题: OPEN: A Benchmark Dataset and Baseline for Older Adult Patient Engagement Recognition in Virtual Rehabilitation Learning Environments
作者: Ali Abedi / Sadaf Safa / Tracey J.F. Colella / Shehroz S. Khan
原文:   [英文]   [中文]  
备注: 14 pages, 3 figures, 7 tables
摘要:
在虚拟学习中,参与度对于参与者的满意度、表现和坚持性至关重要,尤其是在在线教育和虚拟康复中,互动交流起着关键作用。然而,在虚拟小组环境中准确测量参与度仍然是一个挑战。越来越多的人对使用人工智能(AI)进行大规模、真实世界的自动化参与识别产生了兴趣。尽管在年轻学术群体中对参与度的研究已经相当广泛,但针对老年人在虚拟和远程健康学习环境中的研究和数据集仍然有限。现有的方法往往忽视了参与度在不同会话中的情境相关性和纵向特性。本文介绍了OPEN(Older adult Patient ENgagement),这是一个支持AI驱动的参与识别的新型数据集。该数据集来自十一位老年人在为期六周的心脏康复过程中每周参与的虚拟小组学习会话,产生了超过35小时的数据,是同类中最大的一个数据集。为了保护隐私,原始视频未公开;相反,发布的数据包括从视频中提取的面部、手部和身体关节标志,以及情感和行为特征。注释包括二元参与状态、情感和行为标签,以及上下文类型指示器,例如讲师是对小组还是个人进行讲解。该数据集提供了5秒、10秒、30秒和可变长度的样本版本。为了展示其实用性,训练了多种机器学习和深度学习模型,参与识别准确率高达81%。OPEN为老年人群体的个性化参与建模提供了一个可扩展的基础,并对更广泛的参与识别研究做出了贡献。

[9] 髯龙活动识别流程:基于人工智能的行为监测方法
标题: Bearded Dragon Activity Recognition Pipeline: An AI-Based Approach to Behavioural Monitoring
作者: Arsen Yermukan / Pedro Machado / Feliciano Domingos / Isibor Kennedy Ihianle / Jordan J. Bird / Stefano S. K. Kaburu / Samantha J. Ward
原文:   [英文]  
备注: None
摘要:
传统的鬃狮蜥(Pogona Viticeps)行为监测既耗时又容易出错。本项目引入了一种用于实时视频分析的自动化系统,利用“你只看一次”(YOLO)目标检测模型来识别两种关键行为:晒太阳和捕猎。我们在一个自定义的、公开可用的数据集上训练了五种YOLO变体(v5、v7、v8、v11、v12),该数据集包含1200张图像,包括鬃狮蜥(600张)、加热灯(500张)和蟋蟀(100张)。由于YOLOv8s在准确性(mAP@0.5:0.95 = 0.855)和速度之间的优越平衡,被选为最佳模型。该系统通过提取每帧的目标坐标来处理视频片段,应用时间插值以保持连续性,并使用基于规则的逻辑来分类特定行为。晒太阳行为的检测被证明是可靠的。然而,捕猎行为的检测则不太准确,主要是由于蟋蟀检测较弱(mAP@0.5 = 0.392)。未来的改进将集中在通过扩展数据集或专门的小目标检测器来增强蟋蟀检测。该自动化系统为在受控环境中监测爬行动物行为提供了一种可扩展的解决方案,显著提高了研究效率和数据质量。

[10] AG-VPReID.VIR:连接空中和地面平台的视频可见光-红外行人重识别
标题: AG-VPReID.VIR: Bridging Aerial and Ground Platforms for Video-based Visible-Infrared Person Re-ID
作者: Huy Nguyen / Kien Nguyen / Akila Pemasiri / Akmal Jahan / Clinton Fookes / Sridha Sridharan
原文:   [英文]   [中文]  
备注: Accepted atIEEE International Joint Conference on Biometrics (IJCB) 2025
摘要:
跨可见光和红外光模态的人体再识别(Re-ID)对于24小时监控系统至关重要,但现有的数据集主要集中在地面视角。虽然地面红外系统提供了夜间能力,但它们存在遮挡、覆盖范围有限和易受阻碍等问题,而这些问题可以通过空中视角独特地解决。为了解决这些限制,我们引入了第一个空地跨模态基于视频的人体再识别数据集。该数据集使用无人机安装的摄像头和固定的闭路电视摄像头,在RGB和红外模态下捕捉了1,837个身份,共4,861个轨迹(124,855帧)。该数据集提出了独特的挑战,包括跨视角变化、模态差异和时间动态。此外,我们提出了TCC-VPReID,这是一种新颖的三流架构,旨在解决跨平台和跨模态人体再识别的联合挑战。我们的方法通过风格鲁棒的特征学习、基于记忆的跨视角适应和中介引导的时间建模,弥合了空地视角和RGB-IR模态之间的领域差距。实验表明,与现有数据集相比,该数据集提出了独特的挑战,我们的TCC-VPReID框架在多个评估协议中实现了显著的性能提升。数据集和代码可在此网址获取。

[11] 探讨标签偏差与子群大小及可分性之间的相互作用:乳腺密度分类的案例研究
标题: Exploring the interplay of label bias with subgroup size and separability: A case study in mammographic density classification
作者: Emma A.M. Stanley / Raghav Mehta / Mélanie Roschewitz / Nils D. Forkert / Ben Glocker
原文:   [英文]   [中文]  
备注: Accepted at MICCAI Workshop on Fairness of AI in Medical Imaging (FAIMI) 2025
摘要:
在医学影像数据集中,系统性错误标记影响特定子群(即标签偏差)是一个关于医学人工智能系统公平性的问题,尚未得到充分研究。在这项工作中,我们研究了标签偏差影响的子群的大小和可分性如何影响深度学习模型的学习特征和性能。因此,我们使用EMory BrEast影像数据集(EMBED)训练了用于二元组织密度分类的深度学习模型,其中标签偏差影响了可分子群(基于影像制造商)或不可分的“伪子群”。我们发现,模拟的子群标签偏差导致模型学习特征表示发生显著变化。重要的是,这些特征空间内的变化取决于标签偏差影响的子群的相对大小和可分性。我们还观察到子群性能的显著差异,这取决于是否使用带有干净标签的验证集来定义模型的分类阈值。例如,当标签偏差影响大多数可分子群时,该子群的真实阳性率从验证集有干净标签时的0.898下降到验证集有偏差标签时的0.518。我们的工作是理解标签偏差对医学影像AI中子群公平性影响的重要贡献。

[12] 超越点的配准:通过Grassmann流形上的测地距离实现广义仿射子空间对齐
标题: Registration beyond Points: General Affine Subspace Alignment via Geodesic Distance on Grassmann Manifold
作者: Jaeho Shin / Hyeonjae Gil / Junwoo Jang / Maani Ghaffari / Ayoung Kim
原文:   [英文]  
备注: None
摘要:
仿射Grassmannian因其在表达线和平面之间的接近性方面的理论精确性而受到青睐,因为它能够精确测量特征之间的距离。尽管有这个优势,现有的方法只能测量接近性,而不能将距离作为刚体变换的显式函数。因此,关于流形上的可优化距离函数仍未得到充分发展,限制了其在配准问题中的应用。本文首次明确推导出两个Grassmannian特征之间关于刚体变换($\mathbf{R}$和$\mathbf{t}$)的可优化代价函数。具体来说,我们提供了严格的数学证明,证明高维线性子空间的基可以作为代价的显式表示。最后,我们提出了一种基于变换基的可优化代价函数,可以应用于任何仿射子空间的配准问题。与基于向量参数的方法相比,我们的方法能够通过直接最小化与表示模糊无关的测地距离来找到全局最优解。结果表明,该代价函数及其扩展到内点集最大化的\ac{BnB}求解器能够改善现有解决方案的收敛性或在各种计算机视觉任务中表现优于它们。代码可在此https URL上获取。

[13] GRR-CoCa:在多模态模型架构中利用大型语言模型机制
标题: GRR-CoCa: Leveraging LLM Mechanisms in Multimodal Model Architectures
作者: Jake R. Patock / Nicole Catherine Lewis / Kevin McCoy / Christina Gomez / Canling Chen / Lorenzo Luzi
原文:   [英文]   [中文]  
备注: 12 pages, 2 figures
摘要:
最先进的(SOTA)图像和文本生成模型是多模态模型,与大型语言模型(LLMs)有许多相似之处。尽管取得了强劲的表现,领先的基础多模态模型架构在架构复杂性上往往落后于当代LLMs。我们提出了GRR-CoCa,这是一种改进的SOTA对比生成器(CoCa)模型,它在文本解码器和视觉变换器(ViT)编码器中引入了高斯误差门控线性单元、均方根归一化和旋转位置嵌入。每种架构修改都已被证明可以提高LLMs的模型性能,但尚未在CoCa中采用。我们将GRR-CoCa与基线CoCa进行了基准测试,后者是一个具有相同修改文本解码器但保留CoCa原始ViT编码器的模型。我们使用标准的预训练和微调工作流程对模型在对比和生成任务上进行了基准测试。我们的GRR-CoCa在预训练数据集和三个不同的微调数据集上显著优于基线CoCa。预训练改进在对比损失上为27.25%,在困惑度上为3.71%,在CoCa损失上为7.15%。平均微调改进在对比损失上为13.66%,在困惑度上为5.18%,在CoCa损失上为5.55%。我们表明,GRR-CoCa的修改架构提高了跨视觉-语言领域的性能和泛化能力。

[14] Celeb-DF++:一个用于通用法医分析的大规模具有挑战性的视频DeepFake基准
标题: Celeb-DF++: A Large-scale Challenging Video DeepFake Benchmark for Generalizable Forensics
作者: Yuezun Li / Delong Zhu / Xinjie Cui / Siwei Lyu
原文:   [英文]   [中文]  
备注: this https URL
摘要:
人工智能技术的快速发展显著增加了在线流传的DeepFake视频的多样性,这对\textit{可推广的取证}提出了紧迫的挑战,即使用单一模型检测各种未见过的DeepFake类型。应对这一挑战需要数据集不仅要大规模,还要在伪造多样性上丰富。然而,大多数现有数据集尽管规模庞大,但仅包含有限种类的伪造类型,使其不足以开发可推广的检测方法。因此,我们在早期的Celeb-DF数据集基础上,推出了{Celeb-DF++},一个专门用于可推广取证挑战的大规模且具有挑战性的视频DeepFake基准。Celeb-DF++涵盖了三种常见的伪造场景:面部交换(FS)、面部重演(FR)和说话人脸(TF)。每种场景都包含大量高质量的伪造视频,这些视频是使用总共22种最新的DeepFake方法生成的。这些方法在架构、生成流程和目标面部区域上各不相同,涵盖了野外最常见的DeepFake案例。我们还引入了评估协议,用于测量24种最新检测方法的可推广性,突出了现有检测方法的局限性以及我们新数据集的难度。

[15] 高保真三维高斯修复:保持多视图一致性和照片级真实细节
标题: High-fidelity 3D Gaussian Inpainting: preserving multi-view consistency and photorealistic details
作者: Jun Zhou / Dinghao Li / Nannan Li / Mingjie Wang
原文:   [英文]   [中文]  
备注: None
摘要:
最近在多视图3D重建和新视图合成方面的进展,特别是通过神经辐射场(NeRF)和3D高斯点(3DGS),极大地提高了3D内容创作的逼真度和效率。然而,由于3D结构固有的不规则性以及保持多视图一致性的关键需求,3D场景的修复仍然是一项具有挑战性的任务。在这项工作中,我们提出了一种新颖的3D高斯修复框架,通过利用稀疏修复视图来重建完整的3D场景。我们的框架结合了自动掩码优化过程和基于区域的不确定性引导优化。具体来说,我们通过一系列操作(包括高斯场景过滤和反投影)来优化修复掩码,从而实现更准确的遮挡区域定位和真实的边界恢复。此外,我们的不确定性引导的细粒度优化策略在训练过程中估计多视图图像中每个区域的重要性,缓解了多视图不一致性,并增强了修复结果中细节的逼真度。在各种数据集上进行的综合实验表明,我们的方法在视觉质量和视图一致性方面均优于现有的最新方法。

[16] 从骨架数据中识别情感:一项全面综述
标题: Emotion Recognition from Skeleton Data: A Comprehensive Survey
作者: Haifeng Lu / Jiuyi Chen / Zhen Zhang / Ruida Liu / Runhao Zeng / Xiping Hu
原文:   [英文]   [中文]  
备注: 34 pages, 5 figures, 13 tables
摘要:
通过身体动作进行情感识别已成为一种引人注目的、保护隐私的替代方法,相较于传统依赖面部表情或生理信号的方法。随着3D骨架获取技术和姿态估计算法的最新进展,基于全身运动的情感识别的可行性得到了显著提升。本文综述了基于骨架的情感识别技术,提供了全面而系统的回顾。首先,我们介绍了情感的心理模型,并探讨了身体动作与情感表达之间的关系。接下来,我们总结了公开可用的数据集,重点介绍了数据获取方法和情感标注策略的差异。然后,我们将现有方法分为基于姿势和基于步态的方法,从数据驱动和技术角度对其进行分析。特别是,我们提出了一个统一的分类法,涵盖了四个主要技术范式:传统方法、Feat2Net、FeatFusionNet和End2EndNet。对每个类别中的代表性工作进行了回顾和比较,并在常用数据集上进行了基准测试。最后,我们探讨了情感识别在心理健康评估中的扩展应用,例如检测抑郁症和自闭症,并讨论了这一快速发展的领域中的开放挑战和未来研究方向。

[17] ViGText:基于视觉-语言模型解释和图神经网络的深度伪造图像检测
标题: ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks
作者: Ahmad ALBarqawi / Mahmoud Nazzal / Issa Khalil / Abdallah Khreishah / NhatHai Phan
原文:   [英文]   [中文]  
备注: None
摘要:
深度伪造技术的快速发展能够生成逼真但虚假的数字内容,这对媒体的真实性构成了威胁。传统的深度伪造检测方法在应对复杂、定制化的深度伪造时常常表现不佳,尤其是在泛化能力和抵御恶意攻击的鲁棒性方面。本文介绍了一种名为ViGText的新方法,该方法在图形框架内将图像与视觉大语言模型(VLLM)文本解释相结合,以提高深度伪造检测的效果。ViGText的创新之处在于将详细的解释与视觉数据相结合,提供比通常缺乏具体性且无法揭示细微不一致性的字幕更具上下文意识的分析。ViGText系统地将图像划分为多个小块,构建图像和文本图,并使用图神经网络(GNNs)将其整合进行分析,以识别深度伪造。通过跨空间和频率域的多层次特征提取,ViGText捕捉到的细节增强了其检测复杂深度伪造的鲁棒性和准确性。大量实验表明,ViGText在检测用户定制的深度伪造时显著提高了泛化能力,并实现了显著的性能提升。具体而言,在泛化评估中,平均F1分数从72.45%上升到98.32%,反映了该模型在泛化到未见过的、经过微调的稳定扩散模型变体时的卓越能力。在鲁棒性方面,ViGText的召回率比其他深度伪造检测方法提高了11.1%。在面对利用其基于图形架构的定向攻击时,ViGText将分类性能下降限制在4%以内。ViGText通过详细的视觉和文本分析为检测深度伪造设定了新的标准,有助于确保媒体的真实性和信息的完整性。

[18] 通过后训练提高视频生成中的场景转换意识
标题: Enhancing Scene Transition Awareness in Video Generation via Post-Training
作者: Hanwen Shen / Jiajie Lu / Yupeng Cao / Xiaonan Yang
原文:   [英文]   [中文]  
备注: None
摘要:
最近在人工智能生成视频方面的进展在\emph{文本到视频}任务中表现出色,特别是在描绘单个场景的短片中。然而,目前的模型在生成具有连贯场景转换的较长视频时遇到困难,主要是因为它们无法从提示中推断出何时需要转换。大多数开源模型是在由单一场景视频片段组成的数据集上训练的,这限制了它们学习和响应需要多个场景的提示的能力。发展场景转换意识对于多场景生成至关重要,因为它使模型能够通过准确检测转换来识别和分割视频为不同的片段。为了解决这个问题,我们提出了\textbf{Transition-Aware Video} (TAV) 数据集,该数据集由经过预处理的多场景转换视频片段组成。我们的实验表明,在\textbf{TAV}数据集上进行后期训练可以改善基于提示的场景转换理解,缩小所需场景与生成场景之间的差距,并保持图像质量。

[19] BokehDiff:一步扩散的神经镜头模糊
标题: BokehDiff: Neural Lens Blur with One-Step Diffusion
作者: Chengxuan Zhu / Qingnan Fan / Qi Zhang / Jinwei Chen / Huaqi Zhang / Chao Xu / Boxin Shi
原文:   [英文]  
备注: Accepted by ICCV 2025
摘要:
我们介绍了BokehDiff,这是一种新颖的镜头模糊渲染方法,通过生成扩散先验实现物理上准确且视觉上吸引人的效果。之前的方法受限于深度估计的准确性,在深度不连续处生成伪影。我们的方法采用了一种受物理启发的自注意力模块,与图像形成过程相一致,结合了深度相关的模糊圈约束和自遮挡效应。我们将扩散模型调整为一步推理方案,而不引入额外的噪声,从而实现高质量和高保真的结果。为了解决缺乏可扩展配对数据的问题,我们提出使用扩散模型合成具有透明度的照片级真实前景,平衡真实性和场景多样性。

[20] 通过迭代和手动指令适配大型视觉语言模型以生成低光增强
标题: Adapting Large VLMs with Iterative and Manual Instructions for Generative Low-light Enhancement
作者: Xiaoran Sun / Liyan Wang / Cong Wang / Yeying Jin / Kin-man Lam / Zhixun Su / Yang Yang / Jinshan Pan
原文:   [英文]   [中文]  
备注: None
摘要:
大多数现有的低光图像增强(LLIE)方法依赖于预训练模型先验、低光输入或两者兼而有之,而忽视了正常光图像中可用的语义指导。这一限制阻碍了它们在复杂光照条件下的有效性。在本文中,我们提出了VLM-IMI,这是一种新颖的框架,利用大型视觉语言模型(VLMs)与迭代和手动指令(IMIs)进行LLIE。VLM-IMI将所需正常光内容的文本描述作为增强线索,支持语义知情的恢复。为了有效整合跨模态先验,我们引入了一个指令先验融合模块,该模块动态对齐并融合图像和文本特征,促进生成细致且语义一致的输出。在推理过程中,我们采用迭代和手动指令策略来优化文本指令,逐步提高视觉质量。这种优化增强了结构保真度、语义对齐以及在极低光条件下的细节恢复。大量不同场景下的实验表明,VLM-IMI在定量指标和感知质量上均优于最先进的方法。源代码可在此https URL获取。

[21] TextSAM-EUS:通过文本提示学习使SAM能够准确分割内镜超声中的胰腺肿瘤
标题: TextSAM-EUS: Text Prompt Learning for SAM to Accurately Segment Pancreatic Tumor in Endoscopic Ultrasound
作者: Pascal Spiegler / Taha Koleilat / Arash Harirpoush / Corey S. Miller / Hassan Rivaz / Marta Kersten-Oertel / Yiming Xiao
原文:   [英文]   [中文]  
备注: Accepted to ICCV 2025 Workshop CVAMD
摘要:
胰腺癌预后不佳,依赖于内镜超声(EUS)进行靶向活检和放射治疗。然而,EUS的斑点噪声、低对比度和不直观的外观使得使用完全监督的深度学习(DL)模型进行胰腺肿瘤分割既容易出错,又依赖于大量专家策划的注释数据集。为了解决这些挑战,我们提出了TextSAM-EUS,这是一种新颖的、轻量级的、基于文本驱动的Segment Anything Model(SAM)的改编版本,在推理时无需手动几何提示。我们的方法通过BiomedCLIP文本编码器结合基于LoRA的SAM架构改编,利用文本提示学习(上下文优化),实现EUS中胰腺肿瘤的自动分割,仅调整了总参数的0.86%。在公共的胰腺内镜超声数据库上,使用自动提示的TextSAM-EUS达到了82.69%的Dice系数和85.28%的归一化表面距离(NSD),而使用手动几何提示则达到了83.10%的Dice系数和85.70%的NSD,优于现有的最先进(SOTA)监督DL模型和基础模型(例如,SAM及其变体)。作为首次尝试在基于SAM的医学图像分割中引入提示学习,TextSAM-EUS为高效且稳健的自动EUS分割提供了一个实用的选择。我们的代码将在论文接受后公开。

[22] 遥感中土地利用和土地覆盖分割方法的比较
标题: Comparison of Segmentation Methods in Remote Sensing for Land Use Land Cover
作者: Naman Srivastava / Joel D Joy / Yash Dixit / Swarup E / Rakshit Ramesh
原文:   [英文]   [中文]  
备注: None
摘要:
土地利用和土地覆盖(LULC)制图对于城市和资源规划至关重要,是开发智能和可持续发展项目的关键要素之一。本研究评估了先进的LULC制图技术,重点关注应用于Cartosat多光谱(MX)传感器图像的基于查找表(LUT)的大气校正,随后使用监督和半监督学习模型进行LULC预测。我们探讨了DeeplabV3+和交叉伪监督(CPS)方法。CPS模型通过动态加权进一步优化,提高了训练期间伪标签的可靠性。这种综合方法分析了LULC制图技术在各种城市规划应用中的准确性和实用性。以印度海得拉巴为案例研究,展示了由于快速城市化导致的显著土地利用变化。通过分析不同时期的Cartosat MX图像,我们强调了城市扩张、绿地缩减和工业区扩张等变化。这证明了这些技术对城市规划者和政策制定者的实际效用。

[23] 通过强化学习进行视频时间定位的数据集和方法
标题: Datasets and Recipes for Video Temporal Grounding via Reinforcement Learning
作者: Ruizhe Chen / Zhiting Fan / Tianze Luo / Heqing Zou / Zhaopeng Feng / Guiyang Xie / Hansheng Zhang / Zhuochen Wang / Zuozhu Liu / Huaijian Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
视频时间定位(VTG)旨在根据自然语言查询在视频中定位相关的时间片段。尽管在大规模视觉语言模型(LVLMs)和指令微调方面取得了进展,现有的方法通常在时间感知和泛化能力上存在局限性。在这项工作中,我们引入了一个两阶段的训练框架,将监督微调与强化学习(RL)相结合,以提高VTG模型的准确性和鲁棒性。我们的方法首先利用高质量的精心策划的冷启动数据进行SFT初始化,然后通过难度控制的RL进一步增强时间定位和推理能力。在多个VTG基准上的综合实验表明,我们的方法在具有挑战性和开放域的场景中始终优于现有模型。我们对训练策略和数据集策划进行了深入分析,强调了高质量冷启动数据和难度控制RL的重要性。为了促进进一步的研究和工业应用,我们向社区发布了所有中间数据集、模型和代码。

[24] 一种用于预测大脑对自然刺激反应的多模态序列到序列Transformer
标题: A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli
作者: Qianyi He / Yuan Chang Leong
原文:   [英文]   [中文]  
备注: None
摘要:
Algonauts 2025挑战赛号召社区开发编码模型,以预测对自然多模态电影的全脑fMRI反应。在这次提交中,我们提出了一种序列到序列的Transformer模型,该模型自回归地从视觉、听觉和语言输入中预测fMRI活动。刺激特征是通过预训练模型提取的,包括VideoMAE、HuBERT、Qwen和BridgeTower。解码器通过双重交叉注意机制整合来自先前脑状态、当前刺激和情节级摘要的信息,这些机制既关注从刺激中提取的感知信息,也关注由叙事内容的高级摘要提供的叙事信息。我们方法的一个核心创新是使用多模态上下文序列来预测脑活动序列,使模型能够捕捉刺激和神经反应中的长程时间结构。另一个创新是结合共享编码器和部分特定于个体的解码器,这利用了跨个体的共同结构,同时考虑到个体差异。我们的模型在分布内和分布外数据上均表现出色,证明了时间感知的多模态序列建模在脑活动预测中的有效性。代码可在此https URL获取。

[25] 用于检测分布外数据的分布不确定性
标题: Distributional Uncertainty for Out-of-Distribution Detection
作者: JinYoung Kim / DaeUng Jo / Kimin Yun / Jeonghyo Song / Youngjoon Yoo
原文:   [英文]   [中文]  
备注: 6 pages , 3 figures , IEEE International Conference on Advanced Visual and Signal-Based Systems
摘要:
从深度神经网络中估计不确定性是一种广泛使用的方法,用于检测分布外(OoD)样本,这些样本通常表现出高预测不确定性。然而,传统方法如蒙特卡罗(MC)Dropout通常仅关注模型或数据不确定性中的一种,未能与OoD检测的语义目标对齐。为了解决这个问题,我们提出了自由能后验网络,这是一种新颖的框架,能够通过自由能联合建模分布不确定性,并识别OoD和误分类区域。我们的方法引入了两个关键贡献:(1)一个基于自由能的密度估计器,由Beta分布参数化,使得在模糊或未见区域附近能够进行细粒度的不确定性估计;(2)一个集成在后验网络中的损失,允许从学习到的参数中直接估计不确定性,而无需随机采样。通过将我们的方法与残差预测分支(RPL)框架相结合,所提出的方法超越了事后能量阈值化,使网络能够通过利用Beta分布的方差来学习OoD区域,从而实现一种在语义上有意义且计算上高效的不确定性感知分割解决方案。我们在具有挑战性的真实世界基准上验证了我们方法的有效性,包括Fishyscapes、RoadAnomaly和Segment-Me-If-You-Can。

[26] T2VWorldBench:用于评估文本到视频生成中世界知识的基准
标题: T2VWorldBench: A Benchmark for Evaluating World Knowledge in Text-to-Video Generation
作者: Yubin Chen / Xuyang Guo / Zhenmei Shi / Zhao Song / Jiahao Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
文本到视频(T2V)模型在生成视觉上合理的场景方面表现出色,但其利用世界知识以确保语义一致性和事实准确性的能力仍然很少被研究。为应对这一挑战,我们提出了T2VWorldBench,这是第一个系统的评估框架,用于评估文本到视频模型的世界知识生成能力,涵盖6个主要类别、60个子类别和1200个提示,涉及物理、自然、活动、文化、因果关系和物体等广泛领域。为了兼顾人工偏好和可扩展性评估,我们的基准测试结合了人工评估和使用视觉语言模型(VLMs)的自动评估。我们评估了目前可用的10个最先进的文本到视频模型,从开源到商业模型,发现大多数模型无法理解世界知识并生成真正正确的视频。这些发现指出了当前文本到视频模型在利用世界知识方面的一个关键差距,为构建具有强大常识推理和事实生成能力的模型提供了宝贵的研究机会和切入点。

[27] 基于信息熵的框架用于量化睑板腺不均匀萎缩的曲折度
标题: Information Entropy-Based Framework for Quantifying Tortuosity in Meibomian Gland Uneven Atrophy
作者: Kesheng Wang / Xiaoyu Chen / Chunlei He / Fenfen Li / Xinxin Yu / Dexing Kong / Shoujun Huang / Qi Dai
原文:   [英文]   [中文]  
备注: This manuscript contains 7 figures. All comments are welcome
摘要:
在医学图像分析领域,曲线曲折度的精确量化在各种疾病的辅助诊断和病理评估中起着关键作用。在本研究中,我们提出了一种新颖的曲折度量化框架,并通过评估睑板腺萎缩的均匀性来展示其有效性,作为一个代表性的应用场景。 我们引入了一种基于信息熵的曲折度量化框架,该框架将概率建模与熵理论相结合,并结合曲线数据的域转换。与传统方法如曲率或弧弦比不同,这种方法通过将目标曲线与指定的参考曲线进行比较来评估曲折度。因此,它更适合于在医学数据中进行曲折度评估任务,其中生物学上合理的参考曲线是可用的,提供了一种更稳健和客观的评估指标,而不依赖于理想化的直线比较。 首先,我们进行了数值模拟实验,以初步评估该方法的稳定性和有效性。随后,该框架被应用于量化睑板腺萎缩的空间均匀性,并分析了\textit{Demodex}阴性和\textit{Demodex}阳性患者组之间这种均匀性的差异。结果显示,两组之间基于曲折度的均匀性存在显著差异,曲线下面积为0.8768,灵敏度为0.75,特异性为0.93。这些发现突出了所提出框架在曲线曲折度分析中的临床实用性及其作为医学诊断中定量形态学评估的通用工具的潜力。

[28] 通过双向扩散进行退化一致学习以增强低光图像
标题: Degradation-Consistent Learning via Bidirectional Diffusion for Low-Light Image Enhancement
作者: Jinhong He / Minglong Xue / Zhipu Liu / Mingliang Zhou / Aoxiang Ning / Palaiahnakote Shivakumara
原文:   [英文]   [中文]  
备注: 10page
摘要:
低光图像增强旨在提高退化图像的可见性,以更好地符合人类视觉感知。尽管基于扩散的方法由于其强大的生成能力显示出令人鼓舞的性能,但其单向的退化建模往往难以捕捉真实世界中复杂的退化模式,导致结构不一致和像素错位。为了解决这些挑战,我们提出了一种双向扩散优化机制,该机制联合建模低光和正常光图像的退化过程,从而实现更精确的退化参数匹配并提高生成质量。具体来说,我们在训练过程中进行从低光到正常光和从正常光到低光的双向扩散,并引入自适应特征交互块(AFI)以优化特征表示。通过利用这两条路径之间的互补性,我们的方法在光照衰减和噪声分布上施加了隐式对称约束,促进了一致的退化学习并提高了模型感知光照和细节退化的能力。此外,我们设计了一个反射感知校正模块(RACM)来指导去噪后的颜色恢复并抑制过曝区域,确保内容一致性并生成符合人类视觉感知的高质量图像。在多个基准数据集上的广泛实验表明,我们的方法在定量和定性评估中均优于最先进的方法,同时能够有效地推广到多样化的退化场景。代码可在此 https URL 获取。

[29] WaveMamba:基于小波驱动的Mamba融合用于RGB-红外目标检测
标题: WaveMamba: Wavelet-Driven Mamba Fusion for RGB-Infrared Object Detection
作者: Haodong Zhu / Wenhao Dong / Linlin Yang / Hong Li / Yuguang Yang / Yangyang Ren / Qingcheng Zhu / Zichao Feng / Changbai Li / Shaohui Lin / Runqi Wang / Xiaoyan Luo / Baochang Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
利用可见光(RGB)和红外(IR)图像的互补特性为提高目标检测提供了显著的潜力。在本文中,我们提出了WaveMamba,一种跨模态融合方法,能够有效整合通过离散小波变换(DWT)分解的RGB和IR的独特且互补的频率特征。我们还提出了一种改进的检测头,结合了逆离散小波变换(IDWT),以减少信息损失并生成最终的检测结果。我们方法的核心是引入了WaveMamba融合块(WMFB),它促进了低频/高频子带的全面融合。在WMFB中,低频Mamba融合块(LMFB)基于Mamba框架,首先通过通道交换进行初步低频特征融合,然后通过先进的门控注意机制进行深度融合以增强整合。高频特征则通过应用“绝对最大值”融合方法的策略得到增强。这些进步带来了显著的性能提升,我们的方法超越了最先进的方法,在四个基准上实现了平均mAP提升4.5%。

[30] 使用YOLO进行边缘FPGA的实时目标检测和分类
标题: Real-Time Object Detection and Classification using YOLO for Edge FPGAs
作者: Rashed Al Amin / Roman Obermaisser
原文:   [英文]  
备注: This paper has been accepted for the 67th International Symposium on ELMAR 2025
摘要:
目标检测和分类是多个应用领域中的关键任务,特别是在开发安全可靠的高级驾驶辅助系统(ADAS)时。现有的基于深度学习的方法,如卷积神经网络(CNNs)、单次检测器(SSDs)和你只看一次(YOLO),在部署于现场可编程门阵列(FPGAs)时,已经在准确性和计算速度方面表现出高性能。然而,尽管有这些进展,最先进的基于YOLO的目标检测和分类系统在实现适合边缘FPGA平台的资源效率方面仍面临挑战。为了解决这一限制,本文提出了一种基于YOLOv5的资源高效实时目标检测和分类系统,该系统针对FPGA部署进行了优化。所提出的系统在COCO和GTSRD数据集上进行了训练,并在Xilinx Kria KV260 FPGA板上实现。实验结果显示,分类准确率达到99%,功耗为3.5W,处理速度为每秒9帧(FPS)。这些结果突显了所提出方法在实现实时、资源高效的边缘计算应用中的目标检测和分类方面的有效性。

[31] 使用对比学习和多模型伪标签的3D LiDAR语义分割无监督领域自适应
标题: Unsupervised Domain Adaptation for 3D LiDAR Semantic Segmentation Using Contrastive Learning and Multi-Model Pseudo Labeling
作者: Abhishek Kaushik / Norbert Haala / Uwe Soergel
原文:   [英文]  
备注: None
摘要:
由于域转移(例如,传感器类型、地理位置)导致的3D LiDAR语义分割性能下降是自动化系统面临的一个关键问题,而对目标数据进行人工标注则成本高昂。本研究通过无监督域适应(UDA)来解决这一挑战,并引入了一种新颖的两阶段框架。首先,在分段级别使用无监督对比学习对骨干网络进行预训练,使其能够在没有标签的情况下学习到稳健的、域不变的特征。随后,引入了一种多模型伪标签策略,利用多种最先进架构(包括投影、体素、混合和圆柱体方法)的集成。通过硬投票聚合这些模型的预测,为未标记的目标域生成高质量、精炼的伪标签,从而减轻单一模型的偏差。然后,使用这些稳健的伪标签对对比预训练的网络进行微调。从SemanticKITTI到未标记目标数据集(SemanticPOSS, SemanticSlamantic)的实验表明,与直接转移和单模型UDA方法相比,分割精度有显著提高。这些结果突显了结合对比预训练与精炼的集成伪标签在不需要目标域标注的情况下弥合复杂域差距的有效性。

[32] 差异化-UMamba:在有限数据场景下重新思考肿瘤分割
标题: Differential-UMamba: Rethinking Tumor Segmentation Under Limited Data Scenarios
作者: Dhruv Jain / Romain Modzelewski / Romain Hérault / Clement Chatelain / Eva Torfeh / Sebastien Thureau
原文:   [英文]   [中文]  
备注: None
摘要:
在数据稀缺的场景中,深度学习模型往往会对噪声和无关模式过拟合,这限制了它们对未见样本的泛化能力。为了解决医学图像分割中的这些挑战,我们引入了Diff-UMamba,这是一种将UNet框架与mamba机制结合以建模长程依赖关系的新颖架构。Diff-UMamba的核心是一个噪声减少模块(NRM),它采用信号差分策略来抑制编码器内的噪声或无关激活。这鼓励模型过滤掉虚假特征并增强与任务相关的表示,从而提高其对临床意义区域的关注。因此,该架构在低数据环境中实现了更高的分割准确性和鲁棒性。Diff-UMamba在多个公共数据集上进行了评估,包括MSD(肺和胰腺)和AIIB23,在各种分割任务中相较于基线方法表现出1-3%的持续性能提升。为了进一步评估在有限数据条件下的性能,通过改变可用训练样本的比例,在BraTS-21数据集上进行了额外实验。该方法还在一个小型内部非小细胞肺癌(NSCLC)数据集上进行了验证,用于锥形束CT(CBCT)中的肿瘤体积(GTV)分割,相较于基线实现了4-5%的改进。

[33] MatSSL:用于金相图像分割的鲁棒自监督表示学习
标题: MatSSL: Robust Self-Supervised Representation Learning for Metallographic Image Segmentation
作者: Hoang Hai Nam Nguyen / Phan Nguyen Duc Hieu / Ho Won Lee
原文:   [英文]   [中文]  
备注: None
摘要:
MatSSL 是一种简化的自监督学习(SSL)架构,它在主干网络的每个阶段采用门控特征融合,以有效整合多层次的表示。目前对金属材料的显微图像分析依赖于监督方法,这些方法需要对每个新数据集进行重新训练,并且在只有少量标记样本的情况下往往表现不一致。虽然自监督学习通过利用未标记数据提供了一种有前途的替代方案,但大多数现有方法仍然依赖于大规模数据集才能有效。MatSSL 旨在克服这一限制。我们首先在一个小规模的未标记数据集上进行自监督预训练,然后在多个基准数据集上微调模型。所得的分割模型在 MetalDAM 数据集上实现了 69.13% 的 mIoU,优于 ImageNet 预训练编码器所达到的 66.73%,并且在环境屏障涂层基准数据集(EBC)上与 MicroNet 预训练的模型相比,平均 mIoU 的提升始终接近 40%。这表明 MatSSL 能够使用少量未标记数据有效适应金相领域,同时保留了从自然图像的大规模预训练中学习到的丰富且可迁移的特征。

[34] TeEFusion: 融合文本嵌入以提炼无分类器指导
标题: TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance
作者: Minghao Fu / Guo-Hua Wang / Xiaohao Chen / Qing-Guo Chen / Zhao Xu / Weihua Luo / Kaifu Zhang
原文:   [英文]   [中文]  
备注: Accepted by ICCV 2025. The code is publicly available at this https URL
摘要:
最近在文本到图像合成方面的进展很大程度上得益于复杂的采样策略和无分类器引导(CFG),以确保高质量的生成。然而,CFG依赖于两次前向传递,特别是在与复杂的采样算法结合时,导致推理成本高得令人望而却步。为了解决这个问题,我们引入了TeEFusion(\textbf{Te}xt \textbf{E}mbeddings \textbf{Fusion}),这是一种新颖且高效的蒸馏方法,直接将引导幅度融入文本嵌入中,并蒸馏教师模型的复杂采样策略。通过简单地使用线性操作融合条件和无条件文本嵌入,TeEFusion在不增加额外参数的情况下重建所需的引导,同时使学生模型能够从教师通过其复杂采样方法产生的输出中学习。对诸如SD3等最先进模型的广泛实验表明,我们的方法使学生能够以更简单和更高效的采样策略紧密模仿教师的表现。因此,学生模型的推理速度比教师模型快达6倍,同时保持图像质量与通过教师复杂采样方法获得的水平相当。代码可在\href{this https URL}{this http URL}公开获取。

[35] LEAF:用于医学图像分割中特征对齐的高效编码器蒸馏的潜在扩散
标题: LEAF: Latent Diffusion with Efficient Encoder Distillation for Aligned Features in Medical Image Segmentation
作者: Qilin Huang / Tianyu Lin / Zhiguang Chen / Fudan Zheng
原文:   [英文]   [中文]  
备注: Accepted at MICCAI 2025
摘要:
利用扩散模型的强大能力在医学图像分割任务中取得了相当有效的结果。然而,现有方法通常直接转移原始训练过程,而没有针对分割任务进行特定调整。此外,常用的预训练扩散模型在特征提取方面仍存在不足。基于这些考虑,我们提出了LEAF,这是一种基于潜在扩散模型的医学图像分割模型。在微调过程中,我们用直接预测分割图替代了原始的噪声预测模式,从而减少了分割结果的方差。我们还采用了一种特征蒸馏方法,将卷积层的隐藏状态与基于变压器的视觉编码器的特征对齐。实验结果表明,我们的方法在多个不同疾病类型的分割数据集上提升了原始扩散模型的性能。值得注意的是,我们的方法不改变模型架构,也不增加推理阶段的参数数量或计算量,使其具有很高的效率。

[36] 通过图谱驱动点移动的3D测试时适应
标题: 3D Test-time Adaptation via Graph Spectral Driven Point Shift
作者: Xin Wei / Qin Yang / Yijie Fang / Mingrui Zhu / Nannan Wang
原文:   [英文]  
备注: None
摘要:
尽管测试时适应(TTA)方法通过在在线推理过程中动态地将预训练模型适应于目标域数据来有效解决域偏移问题,但其在3D点云上的应用受到其不规则和无序结构的阻碍。目前的3D TTA方法通常依赖于计算量大的空间域优化,并可能需要额外的训练数据。相比之下,我们提出了一种用于3D点云分类的新方法——图谱域测试时适应(GSDTTA),该方法将适应过程转移到图谱域,通过捕捉全局结构特性以更少的参数实现更高效的适应。目标域中的点云被表示为异常感知图,并通过图傅里叶变换(GFT)转换到图谱域。为了提高效率,适应过程仅优化最低10%的频率分量,这些分量捕捉了点云的大部分能量。然后应用逆GFT(IGFT)通过图谱驱动的点移动重建适应后的点云。此过程通过一个特征映射引导的自训练策略得到增强,该策略迭代地优化光谱调整和模型参数。在基准数据集上的实验结果和消融研究表明,GSDTTA的有效性优于现有的3D点云分类TTA方法。

[37] DATA:用于协同感知中高质量特征融合的领域与时间对齐
标题: DATA: Domain-And-Time Alignment for High-Quality Feature Fusion in Collaborative Perception
作者: Chengchang Tian / Jianwei Ma / Yan Huang / Zhanye Chen / Honghao Wei / Hui Zhang / Wei Hong
原文:   [英文]   [中文]  
备注: ICCV 2025, accepted as poster. 22 pages including supplementary materials
摘要:
特征级融合在协同感知(CP)中显示出通过平衡性能和通信带宽权衡的潜力。然而,其有效性在很大程度上依赖于输入特征的质量。高质量特征的获取面临来自硬件多样性和部署条件的领域差异,以及来自传输延迟的时间错位。这些挑战在协同网络中产生累积效应,降低特征质量。在本文中,我们提出了领域与时间对齐(DATA)网络,旨在系统地对齐特征,同时最大化其用于融合的语义表示。具体而言,我们提出了一种保持一致性的领域对齐模块(CDAM),通过邻近区域的分层下采样和可观测性约束的判别器来减少领域差异。我们进一步提出了一种渐进式时间对齐模块(PTAM),通过多尺度运动建模和两阶段补偿来处理传输延迟。在对齐特征的基础上,开发了一种以实例为中心的特征聚合模块(IFAM),以增强语义表示。大量实验表明,DATA在三个典型数据集上实现了最先进的性能,并在严重的通信延迟和姿态误差下保持了鲁棒性。代码将在此https URL发布。

[38] DepthDark:用于低光环境的鲁棒单目深度估计
标题: DepthDark: Robust Monocular Depth Estimation for Low-Light Environments
作者: Longjian Zeng / Zunjie Zhu / Rongfeng Lu / Ming Lu / Bolun Zheng / Chenggang Yan / Anke Xue
原文:   [英文]   [中文]  
备注: Accepted by ACM MM 2025 conference
摘要:
近年来,单目深度估计的基础模型受到了越来越多的关注。目前的方法主要针对典型的白天条件,但在低光环境下其效果显著下降。专为低光场景设计的单目深度估计的稳健基础模型仍然缺乏。这主要是由于缺乏大规模、高质量的低光条件下的配对深度数据集和有效的参数高效微调(PEFT)策略。为了解决这些挑战,我们提出了DepthDark,这是一种用于低光单目深度估计的稳健基础模型。我们首先引入了一个眩光模拟模块和一个噪声模拟模块,以准确模拟夜间条件下的成像过程,从而生成高质量的低光条件下的配对深度数据集。此外,我们提出了一种有效的低光PEFT策略,该策略利用光照引导和多尺度特征融合来增强模型在低光环境下的能力。我们的方法在具有挑战性的nuScenes-Night和RobotCar-Night数据集上实现了最先进的深度估计性能,验证了其在有限的训练数据和计算资源下的有效性。

[39] LONG3R:长序列流式3D重建
标题: LONG3R: Long Sequence Streaming 3D Reconstruction
作者: Zhuoguang Chen / Minghui Qin / Tianyuan Yuan / Zhe Liu / Hang Zhao
原文:   [英文]  
备注: Accepted by ICCV 2025. Project page: this https URL
摘要:
最近在多视角场景重建方面取得了显著进展,但现有方法在处理输入图像流时面临限制。这些方法要么依赖耗时的离线优化,要么仅限于较短的序列,从而限制了其在实时场景中的适用性。在这项工作中,我们提出了LONG3R(LOng sequence streaming 3D Reconstruction),这是一种用于长序列流式多视角3D场景重建的新模型。我们的模型通过循环操作实现实时处理,随着每次新的观察来维护和更新记忆。我们首先采用记忆门控机制来过滤相关记忆,这与新的观察一起输入到双源精细解码器中进行粗到细的交互。为了有效捕捉长序列记忆,我们提出了一种3D时空记忆,该记忆动态修剪冗余空间信息,同时沿场景自适应调整分辨率。为了在长序列上增强模型性能同时保持训练效率,我们采用了两阶段课程训练策略,每个阶段针对特定能力。实验表明,LONG3R在长序列上优于最先进的流式方法,同时保持实时推理速度。项目页面:this https URL。

[40] 利用扩散先验的高斯无关表示学习增强红外小目标检测
标题: Exploiting Gaussian Agnostic Representation Learning with Diffusion Priors for Enhanced Infrared Small Target Detection
作者: Junyao Li / Yahao Lu / Xingyuan Guo / Xiaoyu Xian / Tiantian Wang / Yukai Shi
原文:   [英文]   [中文]  
备注: Submitted to Neural Networks. We propose the Gaussian Group Squeezer, leveraging Gaussian sampling and compression with diffusion models for channel-based data augmentation
摘要:
红外小目标检测(ISTD)在众多实际应用中起着至关重要的作用。为了确定性能边界,研究人员使用大量昂贵的手动标注数据进行表征学习。然而,这种方法使得最先进的ISTD方法在现实世界的挑战中显得非常脆弱。在本文中,我们首先研究了在各种稀缺情况下——即缺乏高质量红外数据的情况下——几种主流方法的检测性能变化,这对现有的关于实际ISTD的理论提出了挑战。为了解决这一问题,我们引入了高斯无关表征学习。具体来说,我们提出了高斯组压缩器,利用高斯采样和压缩进行非均匀量化。通过利用多样化的训练样本,我们增强了ISTD模型应对各种挑战的韧性。然后,我们引入了用于现实世界重建的两阶段扩散模型。通过使量化信号与现实世界分布紧密对齐,我们显著提高了合成样本的质量和保真度。在各种稀缺场景下,与最先进的检测方法进行的比较评估证明了所提出方法的有效性。

[41] 通过孟德尔随机化和中介分析剖析牙科与肺癌的关系
标题: Dissecting the Dental Lung Cancer Axis via Mendelian Randomization and Mediation Analysis
作者: Wenran Zhang / Huihuan Luo / Linda Wei / Ping Nie / Yiqun Wu / Dedong Yu
原文:   [英文]   [中文]  
备注: None
摘要:
牙周炎和龋齿是影响全球数十亿人的常见口腔疾病。虽然观察性研究表明这些疾病与肺癌之间存在关联,但因果关系仍不确定。本研究使用双样本孟德尔随机化(MR)方法探讨牙科特征(牙周炎、龋齿)与肺癌亚型之间的因果关系,并评估肺功能的中介作用。遗传工具来自最大规模的全基因组关联研究,包括487,823例龋齿和506,594例牙周炎的数据,以及来自跨学科肺癌研究联盟的肺癌数据。主要分析方法为逆方差加权;肺功能中介作用通过delta方法评估。结果显示,龋齿对整体肺癌及其亚型具有显著的正向因果效应。具体而言,龋齿发病率每增加一个标准差,鳞状细胞肺癌的风险增加188.0%(OR = 2.880, 95% CI = 1.236--6.713, p = 0.014),部分由用力肺活量(FVC)和一秒钟用力呼气量(FEV1)的下降所中介,分别占总效应的5.124%和5.890%。未发现牙周炎的因果效应。这些发现强调了龋齿在肺癌风险中的因果作用,并支持将牙科护理和肺功能监测整合到癌症预防策略中。

[42] LMM-Det:让大型多模态模型在目标检测中表现出色
标题: LMM-Det: Make Large Multimodal Models Excel in Object Detection
作者: Jincheng Li / Chunyu Xie / Ji Ao / Dawei Leng / Yuhui Yin
原文:   [英文]   [中文]  
备注: Accepted at ICCV 2025
摘要:
大型多模态模型(LMMs)因其在多模态理解、推理和上下文学习等方面的卓越能力,受到了人工智能研究和工业界的广泛关注和兴趣。尽管LMMs在处理图像字幕生成、视觉问答和视觉定位等多模态任务中展示了令人鼓舞的成果,但其在目标检测方面的能力与专业检测器相比仍存在显著差距。为弥合这一差距,我们摒弃了将重型检测器与LMMs集成的传统方法,提出了LMM-Det,这是一种简单而有效的方法,利用大型多模态模型进行基础目标检测,而无需依赖专门的检测模块。具体而言,我们进行了全面的探索性分析,研究大型多模态模型在目标检测中的表现,发现其召回率与专业检测模型相比显著下降。为缓解这一问题,我们提出通过引入数据分布调整和针对目标检测的推理优化来提高召回率。我们重新组织了指令对话,以增强大型多模态模型的目标检测能力。我们声称,大型多模态模型在没有任何额外检测模块的情况下具备检测能力。大量实验支持我们的主张,并展示了多功能LMM-Det的有效性。数据集、模型和代码可在此https URL获取。

[43] 提升大型视觉-语言模型对现场数据的理解能力
标题: Improving Large Vision-Language Models' Understanding for Field Data
作者: Xiaomei Zhang / Hanyu Zheng / Xiangyu Zhu / Jinghuan Wei / Junhong Zou / Zhen Lei / Zhaoxiang Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
大型视觉-语言模型(LVLMs)在整合视觉和文本理解的多种任务中表现出色,例如图像字幕生成和视觉问答。这些模型通过在大规模图像和视频数据集与文本配对的训练中,能够在视觉感知和自然语言处理之间架起桥梁。然而,它们在科学领域的应用,特别是在解释自然科学中常用的复杂现场数据方面,仍然未被充分探索。在这项工作中,我们介绍了FieldLVLM,这是一种旨在提高大型视觉-语言模型对现场数据理解的新框架。FieldLVLM由两个主要组件组成:现场感知语言生成策略和数据压缩的多模态模型调优。现场感知语言生成策略利用专用的机器学习管道从现场数据中提取关键物理特征,如流动分类、雷诺数和涡流模式。然后将这些信息转换为结构化的文本描述,作为数据集。数据压缩的多模态模型调优则专注于使用这些生成的数据集对LVLMs进行调优,采用数据压缩策略来降低现场输入的复杂性,仅保留最具信息量的值。这确保了与模型的语言解码器的兼容性,并更有效地指导其学习。在新提出的基准数据集上的实验结果表明,FieldLVLM在涉及科学现场数据的任务中显著优于现有方法。我们的研究结果表明,这种方法为将大型视觉-语言模型应用于科学研究开辟了新的可能性,有助于弥合大型模型与领域特定发现之间的差距。

[44] 用于心电图描绘的半监督语义分割的多数据集基准
标题: A Multi-Dataset Benchmark for Semi-Supervised Semantic Segmentation in ECG Delineation
作者: Minje Park / Jeonghwa Lim / Taehyung Yu / Sunghoon Joo
原文:   [英文]   [中文]  
备注: 6 pages, 2 figures
摘要:
心电图(ECG)波形特征的分割对于临床诊断至关重要。尽管深度学习在这一领域取得了进展,但由于公开标注数据集的稀缺,进展仍然有限。半监督学习通过利用大量未标记的心电图数据,提供了一种有前景的解决方案。在本研究中,我们首次为心电图波形特征分割中的半监督语义分割(SemiSeg)提供了系统的基准。我们整理并统一了多个公共数据集,包括之前未充分利用的资源,以支持稳健和多样化的评估。我们从计算机视觉领域采用了五种具有代表性的SemiSeg算法,并在两种不同的架构上实现:卷积网络和变压器网络,并在两种不同的设置下进行评估:域内和跨域。此外,我们提出了针对心电图的特定训练配置和增强策略,并引入了标准化的评估框架。我们的结果表明,在半监督心电图波形特征分割中,变压器网络优于卷积网络。我们预计,我们的基准将为推进半监督心电图波形特征分割方法奠定基础,并促进该领域的进一步研究。

[45] 超越低秩性:通过修正核范数的矩阵恢复保证
标题: Beyond Low-rankness: Guaranteed Matrix Recovery via Modified Nuclear Norm
作者: Jiangjun Peng / Yisi Luo / Xiangyong Cao / Shuang Xu / Deyu Meng
原文:   [英文]  
备注: 15 pages, 14 figures
摘要:
核范数(NN)在矩阵恢复问题中得到了广泛的研究,例如鲁棒主成分分析(Robust PCA)和矩阵补全,利用了数据固有的全局低秩结构。在本研究中,我们引入了一种新的修正核范数(MNN)框架,其中MNN家族范数通过采用合适的变换并在变换后的矩阵上执行核范数来定义。MNN框架提供了两个主要优势:(1)它能够同时捕捉局部信息和全局低秩性,而无需进行权衡参数调节;(2)在对变换进行温和假设的情况下,我们为鲁棒PCA和MC任务提供了精确的理论恢复保证——这是现有结合局部和全局信息的方法所不具备的成就。由于其通用和灵活的设计,MNN可以适应各种已验证的变换,从而实现统一且有效的结构化低秩恢复方法。大量实验表明了我们方法的有效性。代码和补充材料可在此https URL获取。

[46] GVCCS:用于在可见全天空相机序列中识别和跟踪飞机尾迹的数据集
标题: GVCCS: A Dataset for Contrail Identification and Tracking on Visible Whole Sky Camera Sequences
作者: Gabriel Jarry / Ramon Dalmau / Philippe Very / Franck Ballerini / Stephania-Denisa Bocu
原文:   [英文]   [中文]  
备注: None
摘要:
航空对气候的影响不仅包括二氧化碳排放,还包括显著的非二氧化碳效应,尤其是由飞机尾迹云引起的影响。这些冰云可以改变地球的辐射平衡,其潜在的增温效应可能与航空二氧化碳相当。基于物理的模型可以提供尾迹云形成和气候影响的有用估计,但其准确性在很大程度上依赖于大气输入数据的质量以及用于表示复杂过程(如冰粒形成和湿度驱动的持续性)的假设。来自遥感器(如卫星和地面摄像机)的观测数据可以用于验证和校准这些模型。然而,现有的数据集并未探索尾迹云动力学和形成的所有方面:它们通常缺乏时间跟踪,并且未将尾迹云归因于其源航班。为了解决这些限制,我们提出了地面可见摄像机尾迹序列(GVCCS),这是一个新的开放数据集,记录了使用地面全景摄像机在可见光范围内拍摄的尾迹云。每个尾迹云都被单独标记并随时间跟踪,从而可以对其生命周期进行详细分析。该数据集包含122个视频序列(24,228帧),并包括在摄像机上方形成的尾迹云的航班标识。作为参考,我们还提出了一个统一的深度学习框架,用于使用全景分割模型进行尾迹云分析,该模型在单一架构中执行语义分割(尾迹云像素识别)、实例分割(单个尾迹云分离)和时间跟踪。通过提供高质量、时间分辨的注释和模型评估的基准,我们的工作支持改进的尾迹云监测,并将促进物理模型的更好校准。这为更准确的气候影响理解和评估奠定了基础。

[47] 通过自适应3D体积构建提升多视角室内3D物体检测
标题: Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction
作者: Runmin Zhang / Zhu Yu / Si-Yuan Cao / Lingyu Zhu / Guangyi Zhang / Xiaokai Bai / Hui-Liang Shen
原文:   [英文]   [中文]  
备注: Accepted by ICCV2025
摘要:
本文介绍了SGCDet,这是一种基于自适应3D体素构建的多视图室内3D目标检测新框架。与以往将体素感受野限制在图像固定位置的方法不同,我们引入了一个几何和上下文感知的聚合模块,以在每个图像的自适应区域内整合几何和上下文信息,并动态调整来自不同视角的贡献,从而增强体素特征的表示能力。此外,我们提出了一种稀疏体素构建策略,该策略自适应地识别和选择具有高占用概率的体素进行特征优化,最大限度地减少自由空间中的冗余计算。得益于上述设计,我们的框架能够以自适应的方式实现有效且高效的体素构建。更好的是,我们的网络仅需使用3D边界框进行监督,消除了对真实场景几何的依赖。实验结果表明,SGCDet在ScanNet、ScanNet200和ARKitScenes数据集上达到了最先进的性能。源代码可在此https URL获取。

[48] 通过添加主要颜色提高鸟类分类
标题: Improving Bird Classification with Primary Color Additives
作者: Ezhini Rasendiran R / Chandresh Kumar Maurya
原文:   [英文]   [中文]  
备注: 5 pages (Accepted to Interspeech 2025)
摘要:
我们研究了通过鸟类鸣叫录音来分类鸟类物种的问题,这是一项具有挑战性的任务,因为环境噪声、重叠的鸣叫声和缺失的标签。现有模型在处理低信噪比或多物种录音时表现不佳。我们假设可以通过可视化鸟类的音高模式、速度和重复性(统称为动机)来进行分类。应用于频谱图图像的深度学习模型有所帮助,但跨物种的相似动机会导致混淆。为了解决这个问题,我们通过使用原色添加剂将频率信息嵌入到频谱图中。这增强了物种的区分性并提高了分类准确性。我们的实验表明,所提出的方法在没有颜色化的模型上取得了统计上显著的提升,并超过了BirdCLEF 2024的获胜者,F1提高了7.3%,ROC-AUC提高了6.2%,CMAP提高了6.6%。这些结果证明了通过颜色化结合频率信息的有效性。

[49] EgoExoBench:用于多模态大模型中第一人称和第三人称视角视频理解的基准
标题: EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs
作者: Yuping He / Yifei Huang / Guo Chen / Baoqi Pei / Jilan Xu / Tong Lu / Jiangmiao Pang
原文:   [英文]   [中文]  
备注: None
摘要:
在第一人称(自我中心)和第三人称(外部中心)视角之间转移和整合知识是人类智能的内在特性,使人类能够从他人那里学习并传达自身经验中的见解。尽管多模态大型语言模型(MLLMs)取得了快速进展,但它们在这种跨视角推理能力方面仍未被探索。为此,我们引入了EgoExoBench,这是第一个用于自我中心-外部中心视频理解和推理的基准。EgoExoBench基于公开可用的数据集构建,包含超过7,300个问答对,涵盖了三个核心挑战中的十一项子任务:语义对齐、视角关联和时间推理。我们评估了13个最先进的MLLMs,发现尽管这些模型在单视角任务上表现出色,但在跨视角语义对齐、准确关联视角以及在自我-外部背景下推断时间动态方面存在困难。我们希望EgoExoBench能成为研究具备人类般跨视角智能的具身代理和智能助手的宝贵资源。

[50] VB-Mitigator:一个用于评估和推进视觉偏见缓解的开源框架
标题: VB-Mitigator: An Open-source Framework for Evaluating and Advancing Visual Bias Mitigation
作者: Ioannis Sarridis / Christos Koutlis / Symeon Papadopoulos / Christos Diou
原文:   [英文]   [中文]  
备注: None
摘要:
计算机视觉模型中的偏差仍然是一个重大挑战,常常导致不公平、不可靠和缺乏普遍适用性的人工智能系统。尽管对偏差缓解的研究有所加强,但由于实施的碎片化和评估实践的不一致,进展仍然受到阻碍。各研究中使用的不同数据集和指标使得结果的可重复性变得复杂,从而难以公平地评估和比较各种方法的有效性。为克服这些限制,我们引入了Visual Bias Mitigator (VB-Mitigator),一个开源框架,旨在简化视觉偏差缓解技术的开发、评估和比较分析。VB-Mitigator提供了一个统一的研究环境,涵盖了12种已建立的缓解方法和7个多样化的基准数据集。VB-Mitigator的一个关键优势在于其可扩展性,允许无缝集成额外的方法、数据集、指标和模型。VB-Mitigator旨在通过作为研究社区开发和评估其方法的基础代码库,加速面向公平意识的计算机视觉模型的研究。为此,我们还推荐了最佳评估实践,并提供了对最先进方法的综合性能比较。

[51] 具有全局学习相对偏移的可变形卷积模块用于眼底血管分割
标题: Deformable Convolution Module with Globally Learned Relative Offsets for Fundus Vessel Segmentation
作者: Lexuan Zhu / Yuxuan Li / Yuning Ren
原文:   [英文]   [中文]  
备注: None
摘要:
可变形卷积可以通过学习偏移量自适应地改变卷积核的形状,以处理复杂的形状特征。我们提出了一种新颖的即插即用可变形卷积模块,该模块使用注意力机制和前馈网络来学习偏移量,从而使可变形模式能够捕捉长距离的全局特征。与现有的可变形卷积相比,所提出的模块学习子像素位移场,并自适应地扭曲所有通道的特征图,而不是直接变形卷积核,这相当于卷积核采样网格的相对变形,实现了全局特征变形以及卷积核大小和学习网络的解耦。考虑到眼底血管具有全局自相似的复杂边缘,我们基于所提出的卷积模块设计了一种用于眼底血管分割的深度学习模型GDCUnet。在相同配置和统一框架下的实证评估表明,GDCUnet在公共数据集上达到了最先进的性能。进一步的消融实验表明,所提出的可变形卷积模块能够更显著地学习眼底血管的复杂特征,增强模型的表示能力和泛化能力。由于所提出的模块与传统卷积的接口相似,我们建议将其应用于更多具有复杂全局自相似特征的机器视觉任务。

[52] MVG4D:基于图像矩阵的多视图和运动生成,用于从单张图像创建4D内容
标题: MVG4D: Image Matrix-Based Multi-View and Motion Generation for 4D Content Creation from a Single Image
作者: Xiaotian Chen / DongFu Yin / Fei Richard Yu / Xuanchen Li / Xinhao Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
生成建模的进步显著提升了数字内容创作,从二维图像扩展到复杂的三维和四维场景。尽管取得了重大进展,生成高保真且时间一致的动态四维内容仍然是一个挑战。在本文中,我们提出了MVG4D,这是一种新颖的框架,通过结合多视图合成和四维高斯喷溅(4D GS),从单个静态图像生成动态四维内容。MVG4D的核心是一个图像矩阵模块,该模块合成时间上连贯且空间上多样的多视图图像,为后续的三维和四维重建提供丰富的监督信号。这些多视图图像用于优化三维高斯点云,并通过一个轻量级的变形网络进一步扩展到时间域。我们的方法有效地增强了时间一致性、几何保真度和视觉真实感,解决了影响先前基于4D GS方法的运动不连续性和背景退化的关键挑战。在Objaverse数据集上的大量实验表明,MVG4D在CLIP-I、PSNR、FVD和时间效率方面优于最先进的基线方法。值得注意的是,它减少了闪烁伪影,并在视图和时间上锐化了结构细节,从而实现更具沉浸感的AR/VR体验。MVG4D为从最小输入生成高效且可控的四维内容设定了新的方向。

[53] 迈向有效的人机协作辅助人工智能代理
标题: Towards Effective Human-in-the-Loop Assistive AI Agents
作者: Filippos Bellos / Yayuan Li / Cary Shu / Ruey Day / Jeffrey M. Siskind / Jason J. Corso
原文:   [英文]   [中文]  
备注: 10 pages, 5 figures, 2 tables
摘要:
有效的人机协作在完成物理任务方面在日常活动和专业领域都具有重要潜力。配备有信息性指导的AI代理可以提升人类的表现,但由于人机交互的复杂性,评估这种协作仍然具有挑战性。在这项工作中,我们引入了一个评估框架和一个多模态的人机交互数据集,旨在评估AI指导如何影响程序性任务的表现、错误减少和学习成果。此外,我们开发了一种配备增强现实(AR)的AI代理,能够在从烹饪到战场医疗的真实任务中提供互动指导。通过人类研究,我们分享了关于AI辅助人类表现的实证见解,并证明AI辅助的协作能够改善任务完成情况。

[54] 朝向一致的长期姿态生成
标题: Towards Consistent Long-Term Pose Generation
作者: Yayuan Li / Filippos Bellos / Jason Corso
原文:   [英文]   [中文]  
备注: 10 pages, 5 figures, 4 tables
摘要:
当前的姿态生成方法在很大程度上依赖于中间表示,无论是通过量化的两阶段管道还是在推理过程中累积误差的自回归模型。这一基本限制导致性能下降,特别是在需要保持时间一致性的长期姿态生成中。我们提出了一种新颖的单阶段架构,能够从最小的上下文(单个RGB图像和文本描述)直接在连续坐标空间中生成姿态,同时在训练和推理之间保持一致的分布。我们的关键创新在于通过相对运动预测机制直接在姿态坐标上操作,消除了对中间表示或基于标记生成的需求,从而保持空间关系,并通过统一的占位符标记方法实现单次前向生成,在训练和推理过程中表现一致。通过在Penn Action和First-Person Hand Action Benchmark (F-PHAB)数据集上的广泛实验,我们证明了我们的方法在长期生成场景中显著优于现有的基于量化和自回归的方法。

[55] HumanMaterial:通过渐进训练从单张图像估计人体材料
标题: HumanMaterial: Human Material Estimation from a Single Image via Progressive Training
作者: Yu Jiang / Jiahao Xia / Jiongming Qin / Yusen Wang / Tuo Cao / Chunxia Xiao
原文:   [英文]   [中文]  
备注: 14
摘要:
基于物理渲染的全身人类逆向渲染旨在获取高质量的材质,这有助于在任意光照条件下实现照片级真实感渲染。该任务需要估计多个材质贴图,通常依赖于渲染结果的约束。材质贴图缺乏约束使得逆向渲染成为一个病态问题。以往的工作通过构建材质数据集进行训练来缓解这一问题,但其简化的材质数据和渲染方程导致渲染结果的真实感有限,尤其是皮肤的真实感。为进一步缓解这一问题,我们基于扫描的真实数据和统计材质数据构建了一个更高质量的数据集(OpenHumanBRDF)。除了法线、漫反射反照率、粗糙度、镜面反照率外,我们还生成了位移和次表面散射,以增强渲染结果的真实感,特别是皮肤的真实感。随着更多材质预测任务的增加,像以往工作中使用的端到端模型难以平衡各种材质贴图的重要性,导致模型欠拟合。因此,我们设计了一种具有渐进训练策略的模型(HumanMaterial),以充分利用材质贴图的监督信息并提高材质估计的性能。HumanMaterial首先通过三个先验模型获得初始材质结果,然后通过微调模型对结果进行优化。先验模型估计不同的材质贴图,每个贴图对渲染结果的意义不同。因此,我们设计了一种受控PBR渲染(CPR)损失,在先验模型训练过程中增强待优化材质的重要性。在OpenHumanBRDF数据集和真实数据上的大量实验表明,我们的方法达到了最先进的性能。

[56] 交错窗口的层次视觉Transformer:Iwin Transformer
标题: Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows
作者: Simin Huo / Ning Li
原文:   [英文]   [中文]  
备注: 14 pages, 10 figures, Submitted to IEEE Transactions on Pattern Analysis and Machine Intelligence
摘要:
我们介绍了 Iwin Transformer,这是一种新颖的无位置嵌入的分层视觉 Transformer。通过创新的交错窗口注意力和深度可分离卷积的协作,它可以直接从低分辨率微调到高分辨率。该方法使用注意力连接远距离的标记,并应用卷积连接相邻的标记,使得在单个模块内实现全局信息交换,克服了 Swin Transformer 需要两个连续块来近似全局注意力的限制。在视觉基准测试上的大量实验表明,Iwin Transformer 在图像分类(在 ImageNet-1K 上达到 87.4 的 top-1 准确率)、语义分割和视频动作识别等任务中表现出强大的竞争力。我们还验证了 Iwin 的核心组件作为独立模块的有效性,它可以无缝替换类条件图像生成中的自注意力模块。Iwin Transformer 引入的概念和方法有可能激发未来的研究,例如视频生成中的 Iwin 3D 注意力。代码和模型可在此 https URL 获取。

[57] DCFFSNet:用于医学图像分割的深度连接特征融合分离网络
标题: DCFFSNet: Deep Connectivity Feature Fusion Separation Network for Medical Image Segmentation
作者: Xun Ye / Ruixiang Tang / Mingda Zhang / Jianglong Qin
原文:   [英文]   [中文]  
备注: 16 pages , 11 figures
摘要:
医学图像分割利用拓扑连通性理论来提高边缘精度和区域一致性。然而,现有的深度网络在整合连通性时,往往将其强行注入为一个附加特征模块,导致特征空间耦合,并且没有标准化机制来量化不同特征的强度。为了解决这些问题,我们提出了DCFFSNet(双连通性特征融合-分离网络)。该网络引入了一种创新的特征空间解耦策略。该策略量化了连通性特征与其他特征之间的相对强度。然后,它构建了一个深度连通性特征融合-分离架构。该架构动态平衡多尺度特征表达。在ISIC2018、DSB2018和MoNuSeg数据集上进行了实验。在ISIC2018上,DCFFSNet比次优模型(CMUNet)提高了1.3%(Dice)和1.2%(IoU)。在DSB2018上,它比TransUNet提高了0.7%(Dice)和0.9%(IoU)。在MoNuSeg上,它比CSCAUNet提高了0.8%(Dice)和0.9%(IoU)。结果表明,DCFFSNet在所有指标上均超越了现有的主流方法。它有效地解决了分割碎片化问题,实现了平滑的边缘过渡。这显著提高了临床可用性。

[58] 自监督超声视频分割:特征预测与三维局部化损失
标题: Self-Supervised Ultrasound-Video Segmentation with Feature Prediction and 3D Localised Loss
作者: Edward Ellis / Robert Mendel / Andrew Bulpitt / Nasim Parsa / Michael F Byrne / Sharib Ali
原文:   [英文]   [中文]  
备注: None
摘要:
在超声成像中获取和标注大型数据集具有挑战性,因为图像对比度低、噪声高且易受伪影影响。这个过程需要大量的时间和临床专业知识。自监督学习(SSL)通过利用未标注的数据来学习有用的表示,提供了一种有前途的解决方案,从而在标注数据有限的情况下提高分割性能。最近在视频数据SSL领域的最新进展包括V-JEPA,这一框架完全基于特征预测,避免了像素级重建或负样本。我们假设V-JEPA非常适合超声成像,因为它对噪声像素级细节不太敏感,同时能够有效利用时间信息。据我们所知,这是首次将V-JEPA应用于超声视频数据的研究。与其他基于块的掩码SSL技术(如VideoMAE)类似,V-JEPA非常适合基于ViT的模型。然而,由于缺乏归纳偏差、有限的空间局部性和缺乏分层特征学习,ViT在小型医学数据集上可能表现不佳。为了改善局部性理解,我们提出了一种新颖的3D定位辅助任务,以在V-JEPA预训练期间改善ViT表示中的局部性。我们的结果表明,结合我们的辅助任务的V-JEPA在各种冻结编码器配置中显著提高了分割性能,使用100%的训练数据时提升高达3.4%,而仅使用10%的训练数据时提升高达8.35%。

[59] NLML-HPE:通过流形学习在有限数据下进行头部姿态估计
标题: NLML-HPE: Head Pose Estimation with Limited Data via Manifold Learning
作者: Mahdi Ghafourian / Federico M. Sukno
原文:   [英文]   [中文]  
备注: None
摘要:
头部姿态估计(HPE)在各种计算机视觉应用中起着关键作用,如人机交互和面部识别。在本文中,我们提出了一种新颖的深度学习方法,称为NLML-HPE,通过非线性流形学习在有限的训练数据下进行头部姿态估计。该方法基于张量分解(即Tucker分解)和前馈神经网络的结合。与传统的基于分类的方法不同,我们的方法将头部姿态估计表述为一个回归问题,将输入的标志点映射到姿态角的连续表示。为此,我们的方法使用张量分解将每个欧拉角(偏航、俯仰、滚转)分解到独立的子空间,并将底层流形的每个维度建模为一个余弦曲线。我们解决了两个关键挑战:1. 几乎所有的HPE数据集都存在不正确和不准确的姿态标注。因此,我们通过旋转3D头部模型以固定的姿态集并渲染相应的2D图像,生成了一个精确且一致的2D头部姿态数据集作为我们的训练集。2. 我们在有限的训练数据下实现了实时性能,因为我们的方法能够准确捕捉从面部标志点到物体旋转的本质。一旦学习了围绕每个轴旋转的底层流形,模型在预测未见数据时非常快速。我们的训练和测试代码与训练好的模型一起在线提供:https://github.com/MahdiGhafoorian/NLML_HPE。

[60] DSFormer:一种用于视觉位置识别的双尺度交叉学习Transformer
标题: DSFormer: A Dual-Scale Cross-Learning Transformer for Visual Place Recognition
作者: Haiyang Jiang / Songhao Piao / Chao Gao / Lei Yu / Liguo Chen
原文:   [英文]   [中文]  
备注: None
摘要:
视觉位置识别(VPR)对于实现稳健的移动机器人定位至关重要,但在不同环境条件和视角下保持可靠性能面临重大挑战。为了解决这个问题,我们提出了一个新颖的框架,该框架将基于Transformer的跨学习模块Dual-Scale-Former(DSFormer)与创新的块聚类策略相结合。DSFormer通过在从最后两个CNN层提取的双尺度特征之间实现双向信息传递来增强特征表示,通过自注意力捕捉每个尺度内的长程依赖关系和共享的跨注意力进行跨尺度学习,从而捕捉语义丰富性和空间细节。与此互补的是,我们的块聚类策略从多个不同的视角重新划分了广泛使用的旧金山超大(SF-XL)训练数据集,优化数据组织以进一步增强对视角变化的鲁棒性。这些创新结合在一起,不仅产生了一个适应环境变化的稳健全局嵌入,还将所需的训练数据量减少了约30\%,与之前的划分方法相比。综合实验表明,我们的方法在大多数基准数据集上实现了最先进的性能,作为使用512维全局描述符的全局检索解决方案,超越了像DELG、Patch-NetVLAD、TransVPR和R2Former这样的高级重排序方法,同时显著提高了计算效率。

[61] PDB-Eval:大规模多模态模型在个性化驾驶行为描述与解释中的评估
标题: PDB-Eval: An Evaluation of Large Multimodal Models for Description and Explanation of Personalized Driving Behavior
作者: Junda Wu / Jessica Echterhoff / Kyungtae Han / Amr Abdelraouf / Rohit Gupta / Julian McAuley
原文:   [英文]   [中文]  
备注: None
摘要:
理解驾驶员的行为和意图对于潜在风险评估和早期事故预防至关重要。安全和驾驶员辅助系统可以根据个体驾驶员的行为进行定制,从而显著提高其有效性。然而,现有的数据集在基于外部视觉证据描述和解释一般车辆运动方面存在局限性。本文介绍了一个基准,PDB-Eval,用于详细理解个性化驾驶员行为,并使大型多模态模型(MLLMs)与驾驶理解和推理对齐。我们的基准由两个主要组成部分构成,PDB-X 和 PDB-QA。PDB-X 可以评估 MLLMs 对时间驾驶场景的理解。我们的数据集旨在从外部视角找到有效的视觉证据,以解释从内部视角观察到的驾驶员行为。为了使 MLLMs 的推理能力与驾驶任务对齐,我们提出了 PDB-QA 作为一个视觉解释问答任务,用于 MLLM 指令微调。作为生成模型(如 MLLMs)的通用学习任务,PDB-QA 可以在不损害 MLLMs 泛化能力的情况下弥合领域差距。我们的评估表明,在细粒度描述和解释上微调 MLLMs 可以有效地弥合 MLLMs 与驾驶领域之间的差距,从而在问答任务上的零样本性能提高高达 73.2%。我们进一步评估了在 PDB-X 上微调的 MLLMs 在 Brain4Cars 的意图预测和 AIDE 的识别任务中的表现。我们观察到在 Brain4Cars 的转向意图预测任务中性能提高高达 12.5%,在 AIDE 的所有任务中性能一致提高高达 11.0%。

[62] 重新审视针对基于LiDAR检测的物理可实现对抗性物体攻击:澄清问题表述和实验协议
标题: Revisiting Physically Realizable Adversarial Object Attack against LiDAR-based Detection: Clarifying Problem Formulation and Experimental Protocols
作者: Luo Cheng / Hanwei Zhang / Lijun Zhang / Holger Hermanns
原文:   [英文]  
备注: None
摘要:
基于LiDAR的3D目标检测中的对抗性鲁棒性是一个关键的研究领域,因为它在现实世界场景中有广泛的应用。尽管许多数字攻击操纵点云或网格,但它们往往缺乏物理可实现性,从而限制了其实际影响。物理对抗性物体攻击仍然未被充分探索,并且由于设置不一致和硬件差异而导致可重复性差。为了解决这个问题,我们提出了一个与设备无关的标准化框架,该框架抽象了物理对抗性物体攻击的关键元素,支持多种方法,并在模拟和现实世界环境中提供带有基准协议的开源代码。我们的框架实现了公平比较,加速了研究,并通过成功将模拟攻击转移到物理LiDAR系统中得到了验证。除了框架之外,我们还提供了对影响攻击成功的因素的见解,并推进了对现实世界LiDAR感知中对抗性鲁棒性的理解。

[63] CRUISE:在V2X场景中使用高斯喷溅进行协同重建和编辑
标题: CRUISE: Cooperative Reconstruction and Editing in V2X Scenarios using Gaussian Splatting
作者: Haoran Xu / Saining Zhang / Peishuo Li / Baijun Ye / Xiaoxue Chen / Huan-ang Gao / Jv Zheng / Xiaowei Song / Ziqiao Peng / Run Miao / Jinrang Jia / Yifeng Shi / Guangqi Yi / Hang Zhao / Hao Tang / Hongyang Li / Kaicheng Yu / Hao Zhao
原文:   [英文]   [中文]  
备注: IROS 2025, Code: this https URL
摘要:
车联网(V2X)通信在自动驾驶中发挥着至关重要的作用,使车辆与基础设施之间能够进行协作。虽然仿真在各种自动驾驶任务中做出了显著贡献,但其在V2X场景中的数据生成和增强潜力仍未被充分探索。在本文中,我们介绍了CRUISE,一个为V2X驾驶环境设计的综合重建和合成框架。CRUISE采用分解的高斯喷溅技术来准确重建真实世界场景,同时支持灵活编辑。通过将动态交通参与者分解为可编辑的高斯表示,CRUISE允许无缝修改和增强驾驶场景。此外,该框架从自车和基础设施视角渲染图像,支持大规模V2X数据集的增强,用于训练和评估。我们的实验结果表明:1)CRUISE以高保真度重建真实世界的V2X驾驶场景;2)使用CRUISE提高了自车、基础设施和协作视角的3D检测,以及在V2X-Seq基准上的协作3D跟踪;3)CRUISE有效生成具有挑战性的极端案例。

[64] Q-Former自编码器:一种用于医学异常检测的现代框架
标题: Q-Former Autoencoder: A Modern Framework for Medical Anomaly Detection
作者: Francesco Dalmonte / Emirhan Bayar / Emre Akbas / Mariana-Iuliana Georgescu
原文:   [英文]   [中文]  
备注: 15 pages
摘要:
由于可能异常的多样性以及全面收集带注释的数据集在实际中几乎不可能,医学图像中的异常检测是一项重要但具有挑战性的任务。在这项工作中,我们提出了一种现代化的基于自编码器的框架——Q-Former自编码器,以解决无监督的医学异常检测问题。该框架利用了最先进的预训练视觉基础模型,如DINO、DINOv2和Masked Autoencoder。我们并没有从头开始训练编码器,而是直接使用冻结的视觉基础模型作为特征提取器,从而在无需特定领域微调的情况下实现丰富的、多阶段的高级表示。我们提出使用Q-Former架构作为瓶颈,这使得可以控制重建序列的长度,同时有效地聚合多尺度特征。此外,我们结合了使用预训练的Masked Autoencoder特征计算的感知损失,引导重建朝向语义上有意义的结构。我们的框架在四个不同的医学异常检测基准上进行了评估,在BraTS2021、RESC和RSNA上取得了最先进的结果。我们的结果突显了在自然图像上预训练的视觉基础模型编码器在无需进一步微调的情况下有效推广到医学图像分析任务的潜力。我们在此https URL上发布了代码和模型。

[65] 用于在姬姆萨染色血涂片中检测恶性疟原虫的COCO格式实例级数据集
标题: A COCO-Formatted Instance-Level Dataset for Plasmodium Falciparum Detection in Giemsa-Stained Blood Smears
作者: Frauke Wilm / Luis Carlos Rivera Monroy / Mathias Öttl / Lukas Mürdter / Leonid Mill / Andreas Maier
原文:   [英文]   [中文]  
备注: 7 pages, 4 figures, 2 tables, accepted at MICCAI 2025 Open Data
摘要:
在吉姆萨染色的血涂片中准确检测恶性疟原虫是可靠疟疾诊断的重要组成部分,尤其是在发展中国家。基于深度学习的目标检测方法在自动化疟疾诊断中展示了强大的潜力,但其应用受到缺乏具有详细实例级注释的数据集的限制。在这项工作中,我们提供了一个经过增强的公开可用的NIH疟疾数据集,包含以COCO格式提供的详细边界框注释,以支持目标检测训练。我们通过训练一个Faster R-CNN模型来检测感染和未感染的红细胞以及白细胞,验证了修订后的注释。在原始数据集上的交叉验证中,感染细胞检测的F1分数高达0.88。这些结果强调了注释量和一致性的重要性,并表明自动注释优化结合有针对性的手动校正可以生成足够质量的训练数据,以实现稳健的检测性能。更新后的注释集可通过GitHub公开获取:this https URL。

[66] 强化具身主动防御:利用自适应交互在对抗性3D环境中实现稳健的视觉感知
标题: Reinforced Embodied Active Defense: Exploiting Adaptive Interaction for Robust Visual Perception in Adversarial 3D Environments
作者: Xiao Yang / Lingxuan Wu / Lizhong Wang / Chengyang Ying / Hang Su / Jun Zhu
原文:   [英文]   [中文]  
备注: arXiv admin note: text overlap with arXiv:2404.00540
摘要:
3D环境中的对抗性攻击已成为视觉感知系统可靠性的重要威胁,特别是在身份验证和自动驾驶等对安全敏感的应用中。这些攻击通过利用复杂场景中的漏洞,使用对抗性补丁和3D物体来操纵深度神经网络(DNN)的预测。现有的防御机制,如对抗性训练和净化,主要采用被动策略来增强鲁棒性。然而,这些方法通常依赖于对对抗策略的预定义假设,限制了它们在动态3D环境中的适应性。为了解决这些挑战,我们引入了强化具身主动防御(Rein-EAD),这是一种主动防御框架,通过与环境的自适应探索和交互来提高3D对抗性环境中的感知鲁棒性。通过实施一个多步目标,平衡即时预测准确性和预测熵最小化,Rein-EAD在多步视野上优化防御策略。此外,Rein-EAD涉及一种面向不确定性的奖励塑造机制,促进了高效的策略更新,从而减少了计算开销,并支持在无需可微分环境的情况下的实际应用。综合实验验证了Rein-EAD的有效性,显示出在保持标准准确性的同时,显著降低了攻击成功率。值得注意的是,Rein-EAD对未见过的和自适应攻击表现出强大的泛化能力,使其适用于包括3D物体分类、人脸识别和自动驾驶在内的现实世界复杂任务。

[67] 深入研究无地图轨迹预测中的映射不确定性
标题: Delving into Mapping Uncertainty for Mapless Trajectory Prediction
作者: Zongzheng Zhang / Xuchong Qiu / Boran Zhang / Guantian Zheng / Xunjiang Gu / Guoxuan Chi / Huan-ang Gao / Leichen Wang / Ziming Liu / Xinrun Li / Igor Gilitschenski / Hongyang Li / Hang Zhao / Hao Zhao
原文:   [英文]   [中文]  
备注: Accepted to IROS 2025, Project Page: this https URL
摘要:
最近在自动驾驶领域的进展正朝着无地图的方法发展,其中高清地图(HD maps)直接从传感器数据在线生成,从而减少了对昂贵的标注和维护的需求。然而,这些在线生成的地图的可靠性仍然不确定。虽然将地图的不确定性纳入下游的轨迹预测任务中已显示出性能改进的潜力,但当前的策略对这种不确定性在哪些特定场景中有益提供的见解有限。在这项工作中,我们首先分析了在何种驾驶场景中,地图不确定性对轨迹预测有最大的积极影响,并识别出一个关键的、之前被忽视的因素:代理的运动状态。基于这些见解,我们提出了一种新颖的本体感知场景门控(Proprioceptive Scenario Gating),该方法根据自车未来运动学的预测,自适应地将地图不确定性整合到轨迹预测中。这种轻量级的自监督方法增强了在线映射和轨迹预测之间的协同作用,提供了关于不确定性在哪些情况下有利的可解释性,并且优于之前的整合方法。此外,我们引入了一种基于协方差的地图不确定性方法,更好地与地图几何对齐,进一步改善了轨迹预测。广泛的消融研究证实了我们方法的有效性,在无地图轨迹预测性能上相较于最先进的方法使用真实世界的nuScenes驾驶数据集实现了高达23.6%的改进。我们的代码、数据和模型在此https URL上公开可用。

[68] 在目标存在的视觉搜索中使用语义中央凹贝叶斯注意力进行人类扫描路径预测
标题: Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention
作者: João Luzio / Alexandre Bernardino / Plinio Moreno
原文:   [英文]   [中文]  
备注: To be published in the 2025 IEEE International Conference on Development and Learning (ICDL)
摘要:
在目标导向的视觉任务中,人类的感知受到自上而下和自下而上线索的引导。同时,中央凹视觉在有效引导注意力方面起着至关重要的作用。现代关于仿生计算注意力模型的研究利用了深度学习的进步,通过使用人类注视路径数据来实现新的最先进性能。在这项工作中,我们评估了SemBA-FAST的性能,即用于中央凹主动视觉搜索任务的基于语义的贝叶斯注意力,这是一种为预测目标存在的视觉搜索中的人类视觉注意力而设计的自上而下框架。SemBA-FAST结合了深度目标检测和概率语义融合机制,以动态生成注意力图,利用预训练的检测器和人工中央凹化来更新自上而下的知识,并逐步改进注视预测。我们在COCO-Search18基准数据集上评估了SemBA-FAST的性能,并将其与其他注视路径预测模型进行比较。我们的方法实现了与人类真实注视路径高度匹配的注视序列。值得注意的是,它超越了基线和其他自上而下的方法,并在某些情况下与注视路径知情模型竞争。这些发现为语义-中央凹概率框架在人类注意力建模中的能力提供了宝贵的见解,并对实时认知计算和机器人技术具有重要意义。

[69] 解释视觉、文本和多模态编码器如何共享概念
标题: Explaining How Visual, Textual and Multimodal Encoders Share Concepts
作者: Clément Cornet / Romaric Besançon / Hervé Le Borgne
原文:   [英文]  
备注: None
摘要:
稀疏自编码器(SAEs)已成为从神经网络激活中提取人类可解释特征的强大技术。先前的工作基于SAE衍生特征比较了不同模型,但这些比较仅限于同一模态内的模型。我们提出了一种新颖的指标,允许在SAE特征之间对模型进行定量比较,并利用该指标对视觉、文本和多模态编码器进行比较研究。我们还提出量化不同类别模型之间个体特征的比较共享性。利用这两个新工具,我们对21个编码器进行了多项研究,这些编码器分为三种类型,具有两个显著不同的规模,并考虑了通用和特定领域的数据集。结果使得可以在多模态上下文中重新审视先前的研究,并量化所有这些模型在多大程度上共享某些表示或特征。结果还表明,在视觉编码器中,特定于视觉语言模型(VLMs)的视觉特征与文本编码器共享,突显了文本预训练的影响。代码可在此https URL获取。

[70] 基于部件的目标检测实现大规模地统计甲烷监测
标题: Towards Large Scale Geostatistical Methane Monitoring with Part-based Object Detection
作者: Adhemar de Senneville / Xavier Bou / Thibaud Ehret / Rafael Grompone / Jean Louis Bonne / Nicolas Dumelie / Thomas Lauvaux / Gabriele Facciolo
原文:   [英文]   [中文]  
备注: None
摘要:
目标检测是计算机视觉在遥感影像中的主要应用之一。尽管遥感数据的可用性日益增加,但在广阔的地理区域中检测稀有目标的巨大数据量仍然是一个挑战。矛盾的是,这一常见挑战对许多应用至关重要,例如大规模估算某些人类活动对环境的影响。在本文中,我们提出通过研究法国生物消化器的甲烷生产和排放来解决这一问题。我们首先引入一个包含生物消化器的新数据集,其中包含小型训练和验证集,以及一个大型测试集,该测试集中对没有目标的观测有高度不平衡,因为此类地点较为稀少。我们开发了一种基于部件的方法,该方法考虑了生物消化器的基本子元素以增强初始检测。为此,我们将我们的方法应用于新的、未见过的区域,以建立生物消化器的清单。然后,我们计算在给定时间和区域内可以归因于这些基础设施的甲烷产量的地统计估计。

[71] 使用基础模型在自然环境中进行物体分割:应用于上肢视觉辅助神经假体
标题: Object segmentation in the wild with foundation models: application to vision assisted neuro-prostheses for upper limbs
作者: Bolutife Atoki / Jenny Benois-Pineau / Renaud Péteri / Fabien Baldacci / Aymar de Rugy
原文:   [英文]   [中文]  
备注: None
摘要:
在这项工作中,我们解决了使用基础模型进行语义对象分割的问题。我们研究了基础模型是否可以在不对包含日常物品的特定图像进行微调的情况下,在高度杂乱的视觉场景中执行对象分割。这种“野外”环境是由视觉引导的上肢神经假体的目标应用驱动的。我们提出了一种基于凝视注视生成提示的方法,以在我们的分割场景中指导“分割任何东西模型”(SAM),并在自我中心视觉数据上进行微调。我们方法的评估结果显示,在RoboFlow平台上提供的“野外抓取”语料库的真实世界挑战数据上,IoU分割质量指标最多提高了0.51点。

[72] GaussianFusionOcc:一种使用三维高斯进行三维占用预测的无缝传感器融合方法
标题: GaussianFusionOcc: A Seamless Sensor Fusion Approach for 3D Occupancy Prediction Using 3D Gaussians
作者: Tomislav Pavković / Mohammad-Ali Nikouei Mahani / Johannes Niedermayer / Johannes Betz
原文:   [英文]   [中文]  
备注: None
摘要:
3D语义占用预测是自动驾驶中的关键任务之一。它能够在复杂环境中实现精确和安全的解读与导航。可靠的预测依赖于有效的传感器融合,因为不同的模态可以包含互补的信息。与依赖于密集网格表示的传统方法不同,我们的方法GaussianFusionOcc使用语义3D高斯以及创新的传感器融合机制。来自摄像头、LiDAR和雷达传感器的数据的无缝集成使得占用预测更加精确和可扩展,而3D高斯表示显著提高了内存效率和推理速度。GaussianFusionOcc采用模态无关的可变形注意力机制,从每种传感器类型中提取重要特征,然后用于优化高斯属性,从而更准确地表示环境。通过对各种传感器组合的广泛测试,展示了我们方法的多功能性。通过利用多模态融合的鲁棒性和高斯表示的效率,GaussianFusionOcc优于当前的最先进模型。

[73] IntentVCNet:弥合时空差距以实现意图导向的可控视频字幕生成
标题: IntentVCNet: Bridging Spatio-Temporal Gaps for Intention-Oriented Controllable Video Captioning
作者: Tianheng Qiu / Jingchun Gao / Jingyu Li / Huiyi Leong / Xuan Huang / Xi Wang / Xiaocheng Zhang / Kele Xu / Lan Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
面向意图的控制视频字幕生成旨在根据用户定制的意图,为视频中的特定目标生成有针对性的描述。目前的大型视觉语言模型(LVLMs)在指令跟随和视觉理解方面表现出强大的能力。尽管LVLMs分别在空间和时间理解上表现出色,但它们无法在时间序列中直接响应指令进行细粒度的空间控制。这种显著的时空差距使得实现视频中的细粒度意图导向控制变得复杂。为此,我们提出了一种新颖的IntentVCNet,它统一了LVLMs固有的时间和空间理解知识,从提示和模型的角度弥合时空差距。具体来说,我们首先提出了一种提示组合策略,旨在使LLM能够建模表征用户意图和视频序列之间的隐含关系。然后,我们提出了一种参数高效的框适配器,它增强了全局视觉上下文中的对象语义信息,使视觉标记具有关于用户意图的先验信息。最终实验证明,这两种策略的结合可以进一步增强LVLM在视频序列中建模空间细节的能力,并促进LVLMs准确生成控制的意图导向字幕。我们提出的方法在多个开源LVLMs中取得了最先进的结果,并在IntentVC挑战中获得了亚军。我们的代码可在此https URL上获取。

[74] COT-AD:棉花分析数据集
标题: COT-AD: Cotton Analysis Dataset
作者: Akbar Ali / Mahek Vyas / Soumyaratna Debnath / Chanda Grover Kamra / Jaidev Sanjay Khalane / Reuben Shibu Devanesan / Indra Deep Mastan / Subramanian Sankaranarayanan / Pankaj Khanna / Shanmuganathan Raman
原文:   [英文]   [中文]  
备注: Dataset publicly available at: this https URL. Accepted to IEEE International Conference on Image Processing (ICIP) 2025
摘要:
本文介绍了COT-AD,这是一个综合性数据集,旨在通过计算机视觉增强棉花作物分析。COT-AD包含了超过25,000张在棉花生长周期中拍摄的图像,其中5,000张图像带有注释。数据集包括用于田间尺度检测和分割的航拍图像,以及记录关键病害的高分辨率单反相机图像。注释涵盖了害虫和病害识别、植被和杂草分析,填补了棉花特定农业数据集的关键空白。COT-AD支持分类、分割、图像修复、增强、基于深度生成模型的棉花作物合成和早期病害管理等任务,推动了数据驱动的作物管理。

[75] 阐明基于任意噪声的扩散模型的设计空间
标题: Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models
作者: Xingyu Qiu / Mengying Yang / Xinghua Ma / Dong Liang / Yuzhen Li / Fanding Li / Gongning Luo / Wei Wang / Kuanquan Wang / Shuo Li
原文:   [英文]   [中文]  
备注: 21 pages, 4 figures
摘要:
EDM 阐明了扩散模型的统一设计空间,但其固定的噪声模式仅限于纯高斯噪声,这限制了图像修复的进展。我们的研究表明,强行注入高斯噪声会破坏退化图像,过度延长图像变换距离,并增加修复的复杂性。为了解决这个问题,我们提出了 EDA,它阐明了基于任意噪声的扩散模型的设计空间。从理论上讲,EDA 在保持 EDM 原有模块灵活性的同时,扩展了噪声模式的自由度,并通过严格的证明表明,增加的噪声复杂性在修复过程中不会带来额外的计算开销。EDA 在三个典型任务上得到了验证:MRI 偏置场校正(全局平滑噪声)、CT 金属伪影去除(全局尖锐噪声)和自然图像阴影去除(局部边界感知噪声)。仅需 5 个采样步骤,EDA 就超越了大多数特定任务的方法,并在偏置场校正和阴影去除方面达到了最先进的性能。

[76] TTS-VAR:一种用于视觉自回归生成的测试时缩放框架
标题: TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation
作者: Zhekai Chen / Ruihang Chu / Yukang Chen / Shiwei Zhang / Yujie Wei / Yingya Zhang / Xihui Liu
原文:   [英文]   [中文]  
备注: 10 Tables, 9 Figures
摘要:
扩展视觉生成模型对于实际内容创作至关重要,但这需要大量的训练和计算资源。作为替代方案,测试时扩展由于其资源效率和良好的性能而受到越来越多的关注。在这项工作中,我们提出了TTS-VAR,这是第一个针对视觉自回归(VAR)模型的一般测试时扩展框架,将生成过程建模为路径搜索问题。为了动态平衡计算效率与探索能力,我们首先在因果生成过程中引入了一种自适应递减批量大小计划。此外,受VAR的分层粗到细多尺度生成的启发,我们的框架整合了两个关键组件:(i)在粗略尺度上,我们观察到生成的标记难以评估,可能导致错误地接受较差的样本或拒绝较优的样本。注意到粗略尺度包含足够的结构信息,我们提出了基于聚类的多样性搜索。它通过语义特征聚类保留结构多样性,从而在后期选择具有更高潜力的样本。(ii)在细致尺度上,基于重采样的潜力选择使用潜力分数优先考虑有前途的候选者,潜力分数被定义为结合多尺度生成历史的奖励函数。在强大的VAR模型Infinity上的实验显示GenEval分数显著提高了8.7%(从0.69提高到0.75)。关键见解揭示了早期阶段的结构特征有效地影响最终质量,并且重采样的效果在不同生成尺度上有所不同。代码可在此https URL获取。

[77] 使用概率Procrustes映射的无姿态3DGS重建
标题: Unposed 3DGS Reconstruction with Probabilistic Procrustes Mapping
作者: Chong Cheng / Zijian Wang / Sicheng Yu / Yu Hu / Nanjie Yao / Hao Wang
原文:   [英文]   [中文]  
备注: None
摘要:
3D高斯喷溅(3DGS)已成为3D表示的核心技术。其有效性在很大程度上依赖于精确的相机姿态和准确的点云初始化,这些通常来自预训练的多视图立体(MVS)模型。然而,在从数百张户外图像进行无姿态重建任务时,现有的MVS模型可能会因内存限制而表现不佳,并且随着输入图像数量的增加而失去准确性。为了解决这一限制,我们提出了一种新颖的无姿态3DGS重建框架,该框架将预训练的MVS先验与概率Procrustes映射策略相结合。该方法将输入图像划分为子集,将子地图映射到全局空间,并与3DGS共同优化几何和姿态。从技术上讲,我们将数千万点云的映射表述为概率Procrustes问题,并解决了一个闭式对齐。通过采用概率耦合以及软垃圾箱机制来拒绝不确定的对应关系,我们的方法在数百张图像中在几分钟内全局对齐点云和姿态。此外,我们提出了一个用于3DGS和相机姿态的联合优化框架。它从信心感知的锚点构建高斯,并将3DGS可微渲染与解析雅可比集成,以共同优化场景和姿态,实现准确的重建和姿态估计。在Waymo和KITTI数据集上的实验表明,我们的方法从无姿态图像序列中实现了准确的重建,为无姿态3DGS重建设定了新的技术标准。

[78] 一种用于MR-US匹配和配准的三维跨模态关键点描述符
标题: A 3D Cross-modal Keypoint Descriptor for MR-US Matching and Registration
作者: Daniil Morozov / Reuben Dorent / Nazim Haouchine
原文:   [英文]   [中文]  
备注: Under review
摘要:
由于在外科手术中实时超声(iUS)与术前磁共振成像(MRI)之间存在显著的模态特异性差异,如外观、分辨率和视野范围的不同,导致其配准问题尚未解决。为了解决这一问题,我们提出了一种新颖的用于MRI-iUS匹配和配准的三维跨模态关键点描述符。我们的方法采用了一种基于患者的合成匹配方法,从术前MRI生成合成iUS体积。这使得监督对比训练能够学习一个共享的描述符空间。然后,采用概率关键点检测策略来识别解剖上显著且模态一致的位置。在训练过程中,使用基于课程的三元组损失和动态困难负样本挖掘来学习描述符,使其对iUS伪影(如斑点噪声和覆盖范围有限)具有鲁棒性,并且具有旋转不变性。在推理时,该方法在MR和真实iUS图像中检测关键点并识别稀疏匹配,然后用于执行刚性配准。我们的方法使用ReMIND数据集中的3D MRI-iUS对进行评估。实验表明,我们的方法在11名患者中优于最先进的关键点匹配方法,平均精度为69.8%。在图像配准方面,我们的方法在ReMIND2Reg基准上实现了具有竞争力的平均目标配准误差为2.39毫米。与现有的iUS-MR配准方法相比,我们的框架具有可解释性,不需要手动初始化,并且对iUS视野变化表现出鲁棒性。代码可在此https URL获取。

[79] VideoMind:用于深度认知视频理解的全模态视频数据集,具备意图基础
标题: VideoMind: An Omni-Modal Video Dataset with Intent Grounding for Deep-Cognitive Video Understanding
作者: Baoyao Yang / Wanyun Li / Dixin Chen / Junxiang Chen / Wenbin Yao / Haifeng Lin
原文:   [英文]   [中文]  
备注: 7 pages; 14 figures
摘要:
本文介绍了VideoMind,这是一个以视频为中心的全模态数据集,旨在实现深度视频内容认知和增强多模态特征表示。该数据集包含103,000个视频样本(其中3,000个保留用于测试),每个样本都配有音频和系统详细的文本描述。具体来说,每个视频及其音频在三个层次(事实、抽象和意图)上进行描述,从表面到深度逐步展开。数据集包含超过2200万字,平均每个样本约225字。VideoMind与现有数据集的主要区别在于其提供的意图表达,这需要在整个视频中进行上下文整合,而不是直接可观察的。这些深度认知表达是通过链式思维(COT)方法生成的,促使大规模语言模型(mLLM)通过逐步推理来实现。每个描述都包括主体、地点、时间、事件、动作和意图的注释,支持下游识别任务。重要的是,我们建立了一个包含3,000个手动验证样本的黄金标准基准,用于评估深度认知视频理解。我们设计了混合认知检索实验,通过多层次检索指标进行评分,以适当评估深度视频理解。模型(如InternVideo、VAST、UMT-L)的评估结果已发布。VideoMind作为一个强大的基准,促进了需要深入视频理解的领域的发展,如情感和意图识别。数据在GitHub、HuggingFace和OpenDataLab上公开可用,具体网址为此https URL。

[80] 合成数据增强用于提升鸡胴体实例分割
标题: Synthetic Data Augmentation for Enhanced Chicken Carcass Instance Segmentation
作者: Yihong Feng / Chaitanya Pallerla / Xiaomin Lin / Pouya Sohrabipour Sr / Philip Crandall / Wan Shou / Yu She / Dongyi Wang
原文:   [英文]   [中文]  
备注: Submitted for journal reviewing
摘要:
家禽业由肉鸡生产推动,已发展成为全球最大的动物蛋白行业。在屠宰场和家禽加工厂中,自动检测加工线上的鸡胴体对于质量控制、食品安全和运营效率至关重要。然而,在这些快节奏的工业环境中,为实例分割等任务开发稳健的深度学习模型,往往受到需要费力获取和标注大规模真实世界图像数据集的阻碍。我们提出了第一个生成鸡胴体照片级真实感、自动标注的合成图像的流程。我们还引入了一个新的基准数据集,其中包含300张专门为家禽分割研究策划的标注真实世界图像。利用这些数据集,本研究探讨了合成数据和自动数据标注在增强鸡胴体实例分割方面的有效性,特别是在加工线上缺乏真实标注数据的情况下。我们在著名的实例分割模型中评估了一个小型真实数据集与不同比例的合成图像的组合。结果表明,合成数据显著提升了所有模型对鸡胴体的分割性能。这项研究强调了合成数据增强作为一种可行且有效的策略的价值,以缓解数据稀缺,减少手动标注工作,并推动家禽加工行业中稳健的AI驱动自动检测系统的发展。

[81] 基于深度学习的年龄估计和性别分类用于目标广告
标题: Deep Learning-Based Age Estimation and Gender Deep Learning-Based Age Estimation and Gender Classification for Targeted Advertisement
作者: Muhammad Imran Zaman / Nisar Ahmed
原文:   [英文]  
备注: 6
摘要:
本文提出了一种新颖的基于深度学习的方法,用于从面部图像中同时进行年龄和性别分类,旨在提高目标广告活动的效果。我们提出了一种定制的卷积神经网络(CNN)架构,针对这两个任务进行了优化,利用了面部特征中存在的年龄和性别信息的内在相关性。与通常将这些任务独立处理的现有方法不同,我们的模型学习共享表示,从而提高了性能。该网络在一个大型、多样化的面部图像数据集上进行训练,经过精心预处理,以确保在光照、姿势和图像质量变化下的鲁棒性。我们的实验结果显示,性别分类的准确率显著提高,达到95%,而年龄估计的平均绝对误差为5.77岁。重要的是,我们分析了不同年龄组的性能,识别出准确估计年轻个体年龄的具体挑战。这一分析揭示了需要针对性的数据增强和模型改进以解决这些偏差。此外,我们还探讨了不同CNN架构和超参数设置对整体性能的影响,为未来的研究提供了宝贵的见解。

[82] 使用潜在条件生成对抗网络从单一变形图像中恢复面部
标题: Facial Demorphing from a Single Morph Using a Latent Conditional GAN
作者: Nitish Shukla / Arun Ross
原文:   [英文]   [中文]  
备注: None
摘要:
通过结合两个(或更多)身份的面部图像来创建变形图像,从而生成一个与两个组成身份都高度相似的合成图像,使得伪造的变形图像可以在生物识别上与多个个体相关联。变形攻击检测(MAD)可以用于检测变形图像,但无法揭示组成图像。因此,去变形——推断组成图像的过程——对于提供有关变形的额外证据至关重要。现有的去变形方法存在变形复制问题,即输出往往与变形图像本身非常相似,或者假设训练和测试的变形图像是使用相同的变形技术生成的。所提出的方法克服了这些问题。该方法在潜在空间中分解变形图像,使其能够去变形由未知变形技术和面部风格创建的图像。我们在由合成面孔创建的变形图像上训练我们的方法,并在使用任意变形技术创建的真实面孔变形图像上进行测试。我们的方法在很大程度上优于现有方法,并生成高保真度的去变形面部图像。

[83] 对抗分布匹配用于扩散蒸馏以实现高效图像和视频合成
标题: Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis
作者: Yanzuo Lu / Yuxi Ren / Xin Xia / Shanchuan Lin / Xing Wang / Xuefeng Xiao / Andy J. Ma / Xiaohua Xie / Jian-Huang Lai
原文:   [英文]   [中文]  
备注: Accepted by ICCV 2025 (Highlight)
摘要:
分布匹配蒸馏(Distribution Matching Distillation, DMD)是一种有前途的分数蒸馏技术,它将预训练的教师扩散模型压缩为高效的一步或多步学生生成器。然而,其依赖于反向Kullback-Leibler(KL)散度最小化的特性可能在某些应用中导致模式崩溃(或模式寻求)。为规避这一固有缺陷,我们提出了对抗分布匹配(Adversarial Distribution Matching, ADM),这是一种新颖的框架,利用基于扩散的判别器以对抗的方式对真实和伪分数估计器之间的潜在预测进行对齐。在极具挑战性的一步蒸馏背景下,我们通过在潜在和像素空间中使用混合判别器进行对抗蒸馏,进一步改进了预训练生成器。与DMD2预训练中使用的均方误差不同,我们的方法在从教师模型收集的ODE对上结合了分布损失,从而为下一阶段的分数蒸馏微调提供了更好的初始化。通过将对抗蒸馏预训练与ADM微调结合到一个统一的流程中,称为DMDX,我们提出的方法在SDXL上的一步性能优于DMD2,同时消耗更少的GPU时间。额外的实验在SD3-Medium、SD3.5-Large和CogVideoX上应用多步ADM蒸馏,为高效的图像和视频合成设立了新的基准。

[84] HybridTM:结合Transformer和Mamba进行3D语义分割
标题: HybridTM: Combining Transformer and Mamba for 3D Semantic Segmentation
作者: Xinyu Wang / Jinghua Hou / Zhe Liu / Yingying Zhu
原文:   [英文]   [中文]  
备注: 7 pages, 5 figures
摘要:
基于Transformer的方法通过其强大的注意力机制在3D语义分割中展示了卓越的能力,但其二次复杂度限制了其在大规模点云中对长距离依赖的建模。尽管最近基于Mamba的方法提供了线性复杂度的高效处理,但在提取3D特征时,它们在特征表示上表现不佳。然而,如何有效结合这些互补的优势仍然是该领域的一个开放性挑战。在本文中,我们提出了HybridTM,这是第一个将Transformer和Mamba集成用于3D语义分割的混合架构。此外,我们提出了内层混合策略,该策略在更细的粒度上结合了注意力和Mamba,能够同时捕捉长距离依赖和细粒度的局部特征。大量实验表明,我们的HybridTM在各种室内和室外数据集上具有有效性和泛化能力。此外,我们的HybridTM在ScanNet、ScanNet200和nuScenes基准测试中达到了最先进的性能。代码将在此https URL上提供。

[85] DRWKV:专注于物体边缘的低光图像增强
标题: DRWKV: Focusing on Object Edges for Low-Light Image Enhancement
作者: Xuecheng Bai / Yuxiang Wang / Boyu Hu / Qinyuan Jie / Chuanzhi Xu / Hongru Xiao / Kechen Li / Vera Chung
原文:   [英文]   [中文]  
备注: None
摘要:
低光照图像增强仍然是一项具有挑战性的任务,特别是在极端光照退化条件下保持物体边缘连续性和精细结构细节方面。在本文中,我们提出了一种新颖的模型,DRWKV(详细接收加权键值),该模型整合了我们提出的全局边缘Retinex(GER)理论,从而能够有效地解耦光照和边缘结构,以增强边缘保真度。其次,我们引入了演化WKV注意力,这是一种螺旋扫描机制,可以更有效地捕捉空间边缘连续性并建模不规则结构。第三,我们设计了双边谱对齐器(Bi-SAB)和一个定制的MS2损失,以共同对齐亮度和色度特征,提高视觉自然性并减轻伪影。在五个低光照图像增强基准上的大量实验表明,DRWKV在PSNR、SSIM和NIQE方面实现了领先的性能,同时保持了较低的计算复杂度。此外,DRWKV在低光照多目标跟踪任务中提高了下游性能,验证了其泛化能力。

[86] SynC:用于零样本图像描述的一对多映射合成图像描述数据集优化
标题: SynC: Synthetic Image Caption Dataset Refinement with One-to-many Mapping for Zero-shot Image Captioning
作者: Si-Woo Kim / MinJu Jeon / Ye-Chan Kim / Soeun Lee / Taewhan Kim / Dong-Jin Kim
原文:   [英文]   [中文]  
备注: Accepted to ACM Multimedia 2025
摘要:
零样本图像描述(ZIC)越来越多地利用由文本到图像(T2I)模型生成的合成数据集,以减少对昂贵的人工标注的需求。然而,这些T2I模型通常会生成与其对应输入标题在语义上不一致的图像(例如,缺少对象、属性错误),导致噪声合成图像-标题对,这可能会阻碍模型训练。现有的数据集修剪技术主要用于去除网络抓取数据中的噪声文本。然而,这些方法不适合处理合成数据的独特挑战,其中标题通常结构良好,但图像可能不准确。为了解决这一差距,我们引入了SynC,一个专门设计用于优化ZIC合成图像-标题数据集的新框架。SynC不采用传统的过滤或再生成方法,而是专注于将标题重新分配给合成图像池中最语义对齐的图像。我们的方法通过最初为每个标题检索多个相关候选图像来实施一对多映射策略。然后,我们应用一个受循环一致性启发的对齐评分器,通过验证图像能否通过图像到文本检索找回原始标题来选择最佳图像。广泛的评估表明,SynC在标准基准(MS-COCO、Flickr30k、NoCaps)上的各种ZIC模型中持续显著提高性能,在多个场景中实现了最先进的结果。SynC为策划优化合成数据以增强ZIC提供了一种有效策略。

[87] 由约束表达中间表示引导的3D软件合成
标题: 3D Software Synthesis Guided by Constraint-Expressive Intermediate Representation
作者: Shuqing Li / Anson Y. Lam / Yun Peng / Wenxuan Wang / Michael R. Lyu
原文:   [英文]   [中文]  
备注: None
摘要:
图形用户界面(UI)软件经历了从传统的二维(2D)桌面/网页/移动界面到空间三维(3D)环境的根本性转变。尽管现有的工作在自动化2D软件生成方面取得了显著成功,例如HTML/CSS和移动应用界面代码合成,但3D软件的生成仍然未被充分探索。目前的3D软件生成方法通常将3D环境作为一个整体生成,无法修改或控制软件中的特定元素。此外,这些方法难以处理现实世界中固有的复杂空间和语义约束。为了解决这些挑战,我们提出了Scenethesis,这是一种新颖的需求敏感型3D软件合成方法,能够在用户规范和生成的3D软件之间保持正式的可追溯性。Scenethesis基于ScenethesisLang,这是一种领域特定语言,作为细粒度约束感知的中间表示(IR),用于连接自然语言需求和可执行的3D软件。它既是一个全面的场景描述语言,能够对3D软件元素进行细粒度修改,又是一个正式的约束表达规范语言,能够表达复杂的空间约束。通过将3D软件合成分解为在ScenethesisLang上操作的多个阶段,Scenethesis实现了独立验证、针对性修改和系统化约束满足。我们的评估表明,Scenethesis准确捕捉了超过80%的用户需求,并在同时处理超过100个约束的情况下满足了超过90%的硬性约束。此外,Scenethesis在BLIP-2视觉评估得分上比最先进的方法提高了42.8%。

[88] SIDA:基于合成图像的零样本领域自适应
标题: SIDA: Synthetic Image Driven Zero-shot Domain Adaptation
作者: Ye-Chan Kim / SeungJu Cha / Si-Woo Kim / Taewhan Kim / Dong-Jin Kim
原文:   [英文]   [中文]  
备注: Accepted to ACM MM 2025
摘要:
零样本领域自适应是一种在不使用目标领域图像数据的情况下,将模型适应到目标领域的方法。为了在没有目标图像的情况下实现适应,现有研究利用CLIP的嵌入空间和文本描述来模拟类似目标的风格特征。尽管在零样本领域自适应方面已有的成就,我们观察到这些基于文本的方法在捕捉复杂的现实世界变化时存在困难,并且由于其对齐过程显著增加了适应时间。我们探索利用图像数据的解决方案,而不是依赖文本描述,因为图像数据提供了多样且更细致的风格线索。在这项工作中,我们提出了一种新颖且高效的零样本领域自适应方法SIDA,利用合成图像。为了生成合成图像,我们首先创建详细的、类似源的图像,并应用图像转换以反映目标领域的风格。然后,我们利用这些合成图像的风格特征作为目标领域的代理。基于这些特征,我们引入了领域混合和补丁风格转移模块,这些模块能够有效地建模现实世界的变化。特别是,领域混合通过混合多种风格来扩展域内表示,而补丁风格转移则为各个补丁分配不同的风格。我们通过在多样的零样本适应场景中展示最先进的性能,特别是在具有挑战性的领域中,证明了我们方法的有效性。此外,我们的方法通过显著减少整体适应时间,实现了高效性。

[89] 从生成的图像中识别提示的艺术家姓名
标题: Identifying Prompted Artist Names from Generated Images
作者: Grace Su / Sheng-Yu Wang / Aaron Hertzmann / Eli Shechtman / Jun-Yan Zhu / Richard Zhang
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
文本到图像模型的一个常见且有争议的用途是通过明确命名艺术家来生成图片,例如“以Greg Rutkowski的风格”。我们引入了一个用于提示艺术家识别的基准:仅从图像预测提示中调用了哪些艺术家名字。该数据集包含195万张图像,涵盖110位艺术家,并跨越四种泛化设置:保留的艺术家、增加的提示复杂性、多艺术家提示和不同的文本到图像模型。我们评估了特征相似性基线、对比风格描述符、数据归因方法、监督分类器和少样本原型网络。泛化模式各异:监督和少样本模型在已见过的艺术家和复杂提示上表现出色,而当艺术家的风格明显时,风格描述符的迁移效果更好;多艺术家提示仍然是最具挑战性的。我们的基准揭示了显著的提升空间,并提供了一个公共测试平台,以推进文本到图像模型的负责任管理。我们发布了数据集和基准,以促进进一步的研究:这个https URL

[90] 电影队长:迈向短片生成
标题: Captain Cinema: Towards Short Movie Generation
作者: Junfei Xiao / Ceyuan Yang / Lvmin Zhang / Shengqu Cai / Yang Zhao / Yuwei Guo / Gordon Wetzstein / Maneesh Agrawala / Alan Yuille / Lu Jiang
原文:   [英文]  
备注: Under review. Project page: this https URL
摘要:
我们介绍了Captain Cinema,这是一种用于短片生成的生成框架。给定电影故事情节的详细文本描述,我们的方法首先生成一个关键帧序列,以概述整个叙述,从而确保故事情节和视觉外观(例如场景和角色)的长程连贯性。我们将此步骤称为自上而下的关键帧规划。这些关键帧随后作为视频合成模型的条件信号,该模型支持长上下文学习,以生成它们之间的时空动态。此步骤称为自下而上的视频合成。为了支持多场景长叙事电影作品的稳定和高效生成,我们引入了一种交错训练策略,用于多模态扩散变压器(MM-DiT),专门针对长上下文视频数据进行调整。我们的模型在一个特别策划的电影数据集上进行训练,该数据集由交错的数据对组成。我们的实验表明,Captain Cinema在自动创建视觉连贯且叙事一致的高质量和高效的短片方面表现良好。项目页面:this https URL