![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年4月10日更新论文82篇
|
[1] 行人过街意图预测的时间-上下文事件学习 标题: Temporal-contextual Event Learning for Pedestrian Crossing Intent Prediction 作者: Hongbin Liang / Hezhe Qiao / Wei Huang / Qizhou Wang / Mingsheng Shang / Lin Chen 原文: [英文] [中文] 备注: Accepted in ICONIP2024 摘要: 通过准确预测行人过街意图(PCI)来确保弱势道路使用者的安全,在自动驾驶和辅助驾驶的背景下起着至关重要的作用。分析自我视角下的一组观察视频帧已被广泛应用于大多数PCI预测方法中,以预测过街意图。然而,由于视频帧的高度冗余,这些方法难以在时间维度上捕捉与行人行为相关的关键事件,导致PCI预测的性能不尽如人意。我们的研究通过引入一种新方法,称为时间-上下文事件学习(TCL),来解决这一挑战。TCL由时间合并模块(TMM)组成,旨在通过将观察到的视频帧聚类为多个关键时间事件来管理冗余。然后,使用上下文注意块(CAB)自适应地聚合多个事件特征以及视觉和非视觉数据。通过在关键事件中合成时间特征提取和上下文注意,TCL可以学习到用于PCI预测的表达性表示。在三个广泛采用的数据集上进行了大量实验,包括PIE、JAAD-beh和JAAD-all。结果表明,TCL大大超越了最先进的方法。我们的代码可以通过此HTTPS URL访问。 |
[2] 视觉语言模型的三值化以用于边缘设备 标题: Ternarization of Vision Language Models for use on edge devices 作者: Ben Crulis / Cyril De Runz / Barthelemy Serres / Gilles Venturini 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种将预训练的视觉语言模型压缩为其三值版本的过程,而不是从头开始训练一个三值模型。我们提出了一种基于k-means算法的预训练权重的新初始化方案,以减少三值化时间。我们在TensorFlow Lite引擎上实现了不同的自定义算子来执行三值模型。我们在内存消耗、推理速度和困惑度方面比较了原始模型及其三值和二值版本。我们发现,使用我们自定义的三值矩阵乘法算子的三值模型在内存使用和困惑度方面提供了良好的折中,同时具有最快的标记生成速度。 |
[3] 分析文本到图像模型如何在日常任务中表现国籍 标题: Analyzing How Text-to-Image Models Represent Nationalities in Everyday Tasks 作者: Abdulkareem Alsudais 原文: [英文] 备注: None 摘要: 本文的主要目标是研究一个流行的文本到图像(T2I)模型在生成执行日常任务的个人图像时,如何表现来自208个不同国籍的人。研究设计了两种情境,并基于指定国籍的输入提示生成图像。结果显示,在一种情境中,大多数图像,而在另一种情境中,相当一部分图像描绘了穿着传统服饰的个人。这表明,即使在不切实际的任务中,模型也强调了这些特征。研究观察到这种表现模式与指定国家所属地区之间存在统计学上显著的关系。这表明该问题对某些地区的影响尤为严重,特别是中东和北非以及撒哈拉以南非洲。研究还发现与收入群体有显著关联。使用CLIP测量生成图像与各种提示和标题之间的对齐分数。结果表明,在一种情境中,穿着传统服饰的个人图像得分显著更高。研究还检查了修订后的提示(自动添加到原始输入提示中的额外背景信息),以评估其对生成图像中个人表现的潜在影响,发现“传统”一词常被添加到修订后的提示中。这些发现为T2I模型如何表现来自不同国家的个人提供了宝贵的见解,并强调了未来模型中潜在的改进领域。 |
[4] 分析低秩适应对航空图像跨域小样本目标检测的影响 标题: Analyzing the Impact of Low-Rank Adaptation for Cross-Domain Few-Shot Object Detection in Aerial Images 作者: Hicham Talaoubrid / Anissa Mokraoui / Ismail Ben Ayed / Axel Prouvost / Sonimith Hang / Monit Korn / Rémi Harvey 原文: [英文] [中文] 备注: None 摘要: 本文研究了将低秩适应(LoRA)应用于小型模型,以实现跨域的航空图像小样本目标检测。LoRA最初是为大规模模型设计的,它有助于缓解过拟合问题,因此在资源受限的环境中是一种有前景的方法。我们将LoRA集成到DiffusionDet中,并在DOTA和DIOR数据集上评估其性能。我们的结果表明,在初步微调之后应用LoRA可以在低样本设置(例如,1-shot和5-shot)中略微提高性能,而在高样本配置中,完全微调仍然更为有效。这些发现突显了LoRA在航空目标检测中高效适应的潜力,并鼓励进一步研究参数高效的微调策略以用于小样本学习。我们的代码可在此处获得:this https URL。 |
[5] 从广播到小地图:实现最先进的SoccerNet比赛状态重建 标题: From Broadcast to Minimap: Achieving State-of-the-Art SoccerNet Game State Reconstruction 作者: Vladimir Golovkin / Nikolay Nemtsev / Vasyl Shandyba / Oleg Udin / Nikita Kasatkin / Pavel Kononov / Anton Afanasiev / Sergey Ulasen / Andrei Boiarov 原文: [英文] [中文] 备注: Accepted for presentation at the CVPR 2025 CVsports Workshop 摘要: 游戏状态重建(GSR)是体育视频理解中的一项关键任务,涉及在真实世界坐标中精确跟踪和定位足球场上的所有个体——球员、守门员、裁判员等。此能力使教练和分析师能够获得有关球员移动、球队阵型和比赛动态的可操作见解,从而最终优化训练策略并增强竞争优势。由于频繁的摄像机移动、遮挡和动态场景内容,使用单摄像机设置实现准确的GSR极具挑战性。在这项工作中,我们提出了一个稳健的端到端流程,用于在整场比赛中使用单摄像机设置跟踪球员。我们的解决方案集成了经过精细调整的YOLOv5m用于目标检测、基于SegFormer的摄像机参数估计器,以及增强了重新识别、方向预测和球衣号码识别的基于DeepSORT的跟踪框架。通过确保空间精度和时间一致性,我们的方法提供了最先进的游戏状态重建,在2024年SoccerNet游戏状态重建挑战赛中获得第一名,并显著超越了竞争方法。 |
[6] 通过逆向对抗攻击实现校准增强网络 标题: Towards Calibration Enhanced Network by Inverse Adversarial Attack 作者: Yupeng Cheng / Zi Pong Lim / Sarthak Ketanbhai Modi / Yon Shin Teo / Yushi Cao / Shang-Wei Lin 原文: [英文] 备注: 11 pages 摘要: 随着人机界面(HMI)软件在设计和内容上的复杂性不断增加,测试自动化变得越来越重要。目前的标准做法是使用光学字符识别(OCR)技术从HMI屏幕中自动提取文本信息以进行验证。目前,在HMI屏幕验证自动化过程中面临的一个关键挑战是OCR模型的噪声处理。在本文中,我们提出利用对抗训练技术来增强HMI测试场景中的OCR模型。更具体地说,我们设计了一种新的对抗攻击目标,以便在HMI测试的背景下发现OCR模型的决策边界。然后,我们采用对抗训练来优化决策边界,以实现更稳健和准确的OCR模型。此外,我们还基于现实世界的需求构建了一个HMI屏幕数据集,并在干净的HMI数据集上应用了多种类型的扰动,以提供更全面的潜在场景覆盖。我们进行了实验,以展示使用对抗训练技术如何在各种噪声下产生更稳健的OCR模型,同时仍保持高OCR模型准确性。进一步的实验甚至表明,对抗训练模型在面对其他模式的扰动时表现出一定程度的稳健性。 |
[7] 半监督域适应的视觉语言指导用于语义分割:SemiDAViL 标题: SemiDAViL: Semi-supervised Domain Adaptation with Vision-Language Guidance for Semantic Segmentation 作者: Hritam Basak / Zhaozheng Yin 原文: [英文] [中文] 备注: Accepted at CVPR 2025 摘要: 领域自适应(Domain Adaptation, DA)和半监督学习(Semi-supervised Learning, SSL)在半监督领域自适应(Semi-supervised Domain Adaptation, SSDA)中融合,其目标是通过结合有限的标记目标样本和大量未标记目标数据,将知识从源领域转移到目标领域。尽管直观,但简单地将DA和SSL结合在语义分割中效果不佳,主要有两个原因:(1)先前的方法虽然能够学习良好的分割边界,但由于监督有限,容易混淆视觉外观相似的类别;(2)倾斜和不平衡的训练数据分布偏向于源表示学习,而阻碍了对尾部类别有限信息的探索。语言引导可以作为一个关键的语义桥梁,通过利用预训练语言模型中编码的丰富语义关系来增强跨领域的特征表示,从而促进稳健的类别区分并减轻视觉歧义。因此,我们在这项工作中提出了第一个用于语义分割的语言引导SSDA设置。具体而言,我们利用视觉-语言模型(Vision-Language Models, VLMs)中固有的语义泛化能力,在SSDA范式中建立一个协同框架。为了解决长尾分布中固有的类别不平衡挑战,我们引入了类别平衡的分割损失公式,有效地规范了学习过程。通过在不同领域自适应场景中的广泛实验,我们的方法在性能上显著优于当代的最先进(SoTA)方法。代码可在此处获取:\href{this https URL}{GitHub}。 |
[8] PromptHMR:可提示的人体网格恢复 标题: PromptHMR: Promptable Human Mesh Recovery 作者: Yufu Wang / Yu Sun / Priyanka Patel / Kostas Daniilidis / Michael J. Black / Muhammed Kocabas 原文: [英文] [中文] 备注: None 摘要: 人体姿态和形状(HPS)估计在拥挤场景、人与人互动以及单视图重建等多种情况下面临挑战。现有方法缺乏机制来整合辅助“侧信息”,以在这些具有挑战性的场景中提高重建精度。此外,最准确的方法依赖于裁剪的人体检测,无法利用场景上下文,而处理整个图像的方法通常无法检测到人,并且比使用裁剪的方法精度更低。虽然最近基于语言的方法通过大型语言或视觉-语言模型探索HPS推理,但其指标精度远低于当前最先进水平。相比之下,我们提出了PromptHMR,一种基于变压器的可提示方法,通过空间和语义提示重新构建HPS估计。我们的方法处理完整图像以保持场景上下文,并接受多种输入模态:空间提示如边界框和掩码,以及语义提示如语言描述或互动标签。PromptHMR在各种具有挑战性的场景中表现出强大的性能:在拥挤场景中从小到面部的边界框估计人物,通过语言描述改善身体形状估计,建模人与人之间的互动,并在视频中生成时间一致的动作。基准测试实验表明,PromptHMR实现了最先进的性能,同时提供了对HPS估计过程的灵活提示控制。 |
[9] 处理遮挡问题:利用扩散特征增强物体识别对部分视觉遮挡的鲁棒性 标题: D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition 作者: Rupayan Mallick / Sibo Dong / Nataniel Ruiz / Sarah Adel Bargal 原文: [英文] 备注: None 摘要: 扩散模型在视觉任务中的应用非常引人注目。本文旨在通过提出一种利用冻结扩散模型的流程,使分类模型在物体识别任务中对遮挡更加鲁棒。扩散特征在图像生成和图像补全方面表现出成功,同时理解图像上下文。遮挡可以被视为图像补全问题,将遮挡物的像素视为“缺失”。我们假设这些特征可以帮助想象遮挡物体后面的物体视觉特征,因此我们建议使用它们来使模型在遮挡情况下更加鲁棒。我们设计了实验,包括基于输入的增强和基于特征的增强。基于输入的增强涉及对遮挡像素进行图像修补的微调,而基于特征的增强则涉及用中间扩散特征增强分类特征。我们证明了我们提出的基于扩散特征的使用使得模型在ImageNet上模拟遮挡情况下对部分物体遮挡更加鲁棒,无论是Transformer还是ConvNet。我们还提出了一个包含真实世界遮挡的数据集,并证明我们的方法在部分物体遮挡情况下更加鲁棒。 |
[10] 使用Zed 2i立体相机实现高频海岸线变化和海岸高度监测 标题: Implementation of a Zed 2i Stereo Camera for High-Frequency Shoreline Change and Coastal Elevation Monitoring 作者: José A. Pilartes-Congo / Matthew Kastl / Michael J. Starek / Marina Vicens-Miquel / Philippe Tissot 原文: [英文] 备注: Published in IGARSS 2023 - 2023 IEEE International Geoscience and Remote Sensing Symposium 摘要: 随着沿海地区人口的增加以及由此带来的经济利益,监测沿海地形和海岸线变化的需求也在增加。尽管有多种资源可以获取这些信息,但它们通常缺乏短期监测(例如,每小时)所需的时间分辨率。为了解决这个问题,本研究采用低成本的ZED 2i立体相机系统和近距离摄影测量技术,收集图像以生成3D点云、海滩高程的数字表面模型(DSM)以及在局部尺度和高时间分辨率下的地理校正图像。本研究的主要贡献包括:(i) 相机的内在校准,(ii) 获取的图像和点云的地理校正和配准,(iii) 海滩高程DSM的生成,以及 (iv) 将衍生产品与无人机系统的结构光摄影测量结果进行比较。初步结果表明,尽管存在局限性,ZED 2i可以在局部和高时间尺度上提供所需的制图产品。该系统实现了0.20像素的平均重投影误差、27厘米的点云配准、相对于地面实况的37.56厘米的垂直误差,以及x和y方向上分别为2.67厘米和2.81厘米的地理校正均方根误差。 |
[11] 注意差距:在小数据应用中评估视觉系统 标题: Mind the Gap: Evaluating Vision Systems in Small Data Applications 作者: Samuel Stevens / S M Rayeed / Jenna Kline 原文: [英文] 备注: 4 pages (main text), 5 figures 摘要: AI工具在特定计算机视觉任务中的实际应用依赖于数百到数千个标记样本的“小数据模式”。这种小数据模式对于需要昂贵专家标注的应用至关重要,例如生态监测、医学诊断或工业质量控制。然而,我们发现计算机视觉研究忽视了小数据模式,因为评估越来越集中于零样本和少样本学习。我们使用自然世界任务(NeWT)基准来比较多模态大语言模型(MLLMs)和仅视觉方法在不同训练集规模下的表现。MLLMs在早期表现出性能平台,而仅视觉方法在整个小数据模式中持续改进,且在超过10个训练样本后性能差距扩大。我们提供了在小数据环境下这些方法的首次全面比较,并倡导在AI研究中进行明确的小数据评估,以更好地将理论进步与实际部署相结合。 |
[12] STaR:具有穿透和一致性约束的无缝时空感知运动重定向 标题: STaR: Seamless Spatial-Temporal Aware Motion Retargeting with Penetration and Consistency Constraints 作者: Xiaohang Yang / Qing Wang / Jiahao Yang / Gregory Slabaugh / Shanxin Yuan 原文: [英文] [中文] 备注: 12 pages, 9 figures; 摘要: 动作重定向旨在忠实地将源角色的时空运动特征复制到具有不同体型的目标角色上。除了保持运动语义外,确保几何合理性和维持时间一致性对于有效的动作重定向也至关重要。然而,许多现有方法要么优先考虑几何合理性,要么优先考虑时间一致性。忽视几何合理性会导致穿插现象,而忽视时间一致性则会导致运动抖动。在本文中,我们提出了一种新颖的序列到序列模型,用于无缝的时空感知动作重定向(STaR),并具有穿插和一致性约束。STaR由两个模块组成:(1)空间模块,结合了密集的形状表示和新颖的肢体穿插约束,以确保几何合理性,同时保留运动语义;(2)时间模块,利用时间变换器和新颖的时间一致性约束,一次性预测整个运动序列,同时强制执行多级轨迹平滑。这两个模块的无缝结合帮助我们在语义、几何和时间目标之间实现良好的平衡。在Mixamo和ScanRet数据集上的大量实验表明,与其他方法相比,我们的方法能够生成合理且连贯的动作,同时显著降低穿插率。 |
[13] DUKAE:基于预训练模型的持续学习的双层知识积累与集成 标题: DUKAE: DUal-level Knowledge Accumulation and Ensemble for Pre-Trained Model-Based Continual Learning 作者: Songze Li / Tonghua Su / Xu-Yao Zhang / Qixing Xu / Zhongjie Wang 原文: [英文] [中文] 备注: None 摘要: 基于预训练模型的持续学习(PTMCL)引起了越来越多的关注,因为它通过利用预训练模型(PTM)中固有的广泛基础理解,能够更快速地获取新知识。大多数现有的PTMCL方法使用参数高效微调(PEFT)来学习新知识,同时巩固现有记忆。然而,它们通常面临一些挑战。一个主要挑战在于分类头的错位,因为每个任务的分类头是在不同的特征空间中训练的,导致任务之间的决策边界不一致,从而增加遗忘。另一个关键限制来自于特征级别知识积累的限制,特征学习通常仅限于初始任务,这限制了模型的表示能力。为了解决这些问题,我们提出了一种名为双层次知识积累与集成(DUKAE)的方法,通过高斯分布采样将分类头对齐到统一的特征空间,并引入自适应专家集成来融合跨特征的知识。我们在CIFAR-100、ImageNet-R、CUB-200和Cars-196数据集上的实验表明,我们的方法具有优越的性能。 |
[14] TSP-OCS:多视点手术视频分析中最佳摄像机选择的时间序列预测 标题: TSP-OCS: A Time-Series Prediction for Optimal Camera Selection in Multi-Viewpoint Surgical Video Analysis 作者: Xinyu Liu / Xiaoguang Lin / Xiang Liu / Yong Yang / Hongqian Wang / Qilong Sun 原文: [英文] [中文] 备注: None 摘要: 记录开放手术过程对于教育和医学评估至关重要;然而,传统的单摄像机方法通常面临诸如外科医生的头部和身体造成的遮挡以及固定摄像机角度的限制等挑战,这些因素降低了视频内容的可理解性。本研究通过采用多视角摄像机记录系统来解决这些限制,从六个不同角度捕捉手术过程以减轻遮挡。我们提出了一种完全监督学习的时间序列预测方法,从多个同时录制的视频流中选择最佳镜头序列,确保每时每刻的最佳视角。我们的时间序列预测模型通过使用预训练模型提取和融合手术视频中的视觉和语义特征来预测未来的摄像机选择。这些特征由带有时间块的时间预测网络处理,以捕捉顺序依赖关系。线性嵌入层用于降低维度,Softmax分类器根据最高概率选择最佳摄像机视角。在我们的实验中,我们创建了五组开放甲状腺切除术视频,每组视频均从六个不同角度同时录制。结果表明,即使在较长时间范围内进行预测时,我们的方法与传统监督方法相比也具有竞争力的准确性。此外,我们的方法在我们的数据集上优于最先进的时间序列预测技术。本文通过提出一个创新框架,在推进手术视频分析技术方面做出了独特贡献,对改善手术教育和患者安全具有重要意义。 |
[15] LCGC:从一致性梯度冲突中学习以进行类别不平衡的半监督去偏 标题: LCGC: Learning from Consistency Gradient Conflicting for Class-Imbalanced Semi-Supervised Debiasing 作者: Weiwei Xing / Yue Cheng / Hongzhu Yi / Xiaohui Gao / Xiang Wei / Xiaoyu Guo / Yuming Zhang / Xinyu Pang 原文: [英文] [中文] 备注: This paper has been accepted by AAAI 2025 摘要: 分类器通常会在类别不平衡的数据集上学习到偏差,尤其是在半监督学习(SSL)环境下。虽然之前的工作尝试通过减去与类别无关的图像的logit来适当地重新平衡分类器,但缺乏坚实的理论基础。我们从理论上分析了为什么利用基准图像可以优化伪标签,并证明黑色图像是最佳选择。我们还指出,随着训练过程的深入,优化前后的伪标签会变得更加接近。基于这一观察,我们提出了一种名为LCGC的去偏方案,即通过鼓励训练过程中的偏差类预测来学习一致性梯度冲突。我们有意更新那些梯度与去偏logits冲突的伪标签,这代表了由过度不平衡的分类器预测提供的优化方向。然后,我们在测试时通过减去基准图像的logits来去偏预测。大量实验表明,LCGC可以显著提高现有CISSL模型在公共基准上的预测准确性。 |
[16] 通过离散码本学习实现领域泛化 标题: Domain Generalization via Discrete Codebook Learning 作者: Shaocong Long / Qianyu Zhou / Xikun Jiang / Chenhao Ying / Lizhuang Ma / Yuan Luo 原文: [英文] [中文] 备注: Accepted to ICME 2025 摘要: 领域泛化(DG)旨在解决不同环境中的分布变化,以提高模型的泛化能力。目前的DG方法局限于通过连续特征获取稳健的表示,特别是在像素级别进行训练。然而,这种DG范式可能难以在处理大量连续特征空间时减轻分布差距,使其容易受到表现虚假相关或噪声的像素细节的影响。在本文中,我们首先从理论上证明,通过离散化过程可以减少连续表示学习中的领域差距。基于这一启发性发现,我们引入了一种新的DG学习范式,称为离散领域泛化(DDG)。DDG建议使用码本将特征图量化为离散码字,在共享的离散表示空间中对语义等价信息进行对齐,优先考虑语义级别信息而非像素级别细节。通过在语义级别进行学习,DDG减少了潜在特征的数量,优化了表示空间的利用,并减轻了与广泛的连续特征空间相关的风险。在广泛使用的DG基准上进行的广泛实验表明,与最先进的方法相比,DDG表现优越,强调了其减少分布差距和提高模型泛化能力的潜力。 |
[17] 属性感知的视觉情感表示学习 标题: Attributes-aware Visual Emotion Representation Learning 作者: Rahul Singh Maharjan / Marta Romeo / Angelo Cangelosi 原文: [英文] [中文] 备注: 9 pages, 3 figures 摘要: 视觉情感分析或识别由于对理解图像如何传达丰富语义并在人的感知中唤起情感的兴趣日益增长而受到广泛关注。然而,与传统视觉任务相比,视觉情感分析提出了独特的挑战,特别是由于一般视觉特征与它们所唤起的不同情感状态之间复杂的关系,这被称为情感鸿沟。研究人员已经使用深度表示学习方法来解决从整个图像中提取广义特征的这一挑战。然而,大多数现有方法忽视了特定情感属性的重要性,如亮度、色彩丰富度、场景理解和面部表情。通过本文,我们介绍了A4Net,这是一种深度表示网络,通过利用四个关键属性来弥合情感鸿沟:亮度(属性1)、色彩丰富度(属性2)、场景上下文(属性3)和面部表情(属性4)。通过融合和联合训练属性识别和视觉情感分析的所有方面,A4Net旨在提供对图像中情感内容的更好理解。实验结果显示了A4Net的有效性,在各种视觉情感数据集上展示了与最先进方法相比的竞争性能。此外,A4Net生成的激活图的可视化提供了对其在不同视觉情感数据集上泛化能力的见解。 |
[18] 探索教学视频中动作识别的序数偏差 标题: Exploring Ordinal Bias in Action Recognition for Instructional Videos 作者: Joochan Kim / Minjoon Jung / Byoung-Tak Zhang 原文: [英文] [中文] 备注: Accepted to SCSL @ ICLR 2025 摘要: 动作识别模型在理解教学视频方面取得了令人满意的结果。然而,它们通常依赖于特定数据集的主导动作序列,而不是对视频的真正理解,我们将这一问题定义为序数偏差。为了解决这个问题,我们提出了两种有效的视频操作方法:动作遮蔽,即遮蔽频繁共现动作的帧,以及序列打乱,即随机化动作片段的顺序。通过全面的实验,我们证明了当前模型在面对非标准动作序列时表现出显著的性能下降,突显了它们对序数偏差的脆弱性。我们的研究结果强调了重新思考评估策略的重要性,并开发能够在多样化的教学视频中超越固定动作模式的模型。 |
[19] 通过视觉程序逐步评估多模态链式思维奖励模型 标题: Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program 作者: Minghe Gao / Xuqi Liu / Zhongqi Yue / Yang Wu / Shuang Chen / Juncheng Li / Siliang Tang / Fei Wu / Tat-Seng Chua / Yueting Zhuang 原文: [英文] [中文] 备注: None 摘要: 最近在大语言模型(LLMs)中使用奖励信号的进展显著。然而,将奖励信号转移到多模态领域时存在重大挑战,包括劳动密集型的标注、对单步奖励的过度依赖以及评估不足。为了解决这些问题,我们提出了SVIP,这是一种自动训练步骤级多维链式思维(CoT)奖励模型的新方法。它生成用于解决视觉任务的代码,并将代码块的分析转化为CoT步骤的评估作为训练样本。然后,我们使用一种称为TriAtt-CoT的多头注意力机制训练SVIP-Reward模型。SVIP-Reward的优势在整个多模态大语言模型(MLLM)过程中都很明显。我们还引入了一个用于CoT奖励模型训练和测试的基准。实验结果表明,SVIP-Reward在训练和推理时的扩展中提高了MLLM的性能,在基准测试中取得了更好的结果,同时减少了幻觉现象并增强了推理能力。 |
[20] 用于稳健跨域目标检测的视觉相似对齐 标题: Visually Similar Pair Alignment for Robust Cross-Domain Object Detection 作者: Onkar Krishna / Hiroki Ohashi 原文: [英文] [中文] 备注: 15 pages, Journal paper submission 摘要: 训练数据(源)与现实世界环境(目标)之间的领域差异常常会降低目标检测模型的性能。大多数现有方法旨在通过对齐源域和目标域的特征来弥合这一差距,但通常未能考虑对齐对中的视觉差异,例如颜色或方向。这一限制导致领域适应效果不佳,因为模型难以同时处理领域特定的变化(例如,雾)和视觉变化。在这项工作中,我们首次使用一个自定义数据集证明,对齐视觉上相似的对可以显著改善领域适应。基于这一见解,我们提出了一种新的基于记忆的系统来增强领域对齐。该系统存储源域中前景对象和背景区域的预计算特征,并在训练期间定期更新。通过检索视觉上相似的源特征与目标前景和背景特征进行对齐,模型有效地解决了领域特定的差异,同时减少了视觉变化的影响。广泛的实验验证了我们方法在不同领域转移场景中的有效性,在Foggy Cityscapes上实现了53.1 mAP,在Sim10k上实现了62.3 mAP,分别超过了之前的最先进方法1.2和4.1 mAP。 |
[21] 一种基于领域知识映射的跨领域小样本学习方法 标题: A Cross-Domain Few-Shot Learning Method Based on Domain Knowledge Mapping 作者: Jiajun Chen / Hongpeng Yin / Yifu Yang 原文: [英文] [中文] 备注: None 摘要: 在基于任务的小样本学习范式中,通常假设不同的任务是独立同分布的(i.i.d.)。然而,在现实世界中,小样本学习中遇到的分布可能与现有数据的分布显著不同。因此,如何有效利用现有数据知识,使模型能够在非i.i.d.假设下快速适应类别变化,已成为一个关键的研究挑战。为了解决这一挑战,本文提出了一种基于领域知识映射的新型跨领域小样本学习方法,该方法在预训练、训练和测试阶段始终如一地应用。在预训练阶段,我们的方法通过最大化互信息来整合自监督和监督损失,从而减轻模式崩溃。在训练阶段,领域知识映射层与领域分类器协作,学习领域映射能力以及评估领域适应难度的能力。最后,在测试阶段应用该方法,通过支持集上的元训练任务快速适应领域变化,从而增强模型有效转移领域知识的能力。在来自不同领域的六个数据集上进行的实验验证表明了该方法的有效性。 |
[22] 使用合成环境进行视觉基础概念的人类式组合学习 标题: Human-like compositional learning of visually-grounded concepts using synthetic environments 作者: Zijun Lin / M Ganesh Kumar / Cheston Tan 原文: [英文] [中文] 备注: None 摘要: 语言的组合结构使人类能够分解复杂短语并将其映射到新的视觉概念上,展示了灵活的智能。虽然一些算法表现出组合性,但它们未能阐明人类如何通过试错学习组合概念类别并将视觉线索落实到实处。为了研究这一多模态学习挑战,我们设计了一个3D合成环境,其中一个代理通过强化学习来导航到由自然语言指令指定的目标。这些指令包括名词、属性,以及关键的限定词、介词或两者兼有。大量的词汇组合增加了视觉落地任务的组合复杂性,因为当指令指定导航到“红色球体下方的一些蓝色立方体”时,导航到红色球体上方的蓝色立方体是没有奖励的。我们首先证明了强化学习代理可以将限定词概念落实到视觉目标,但在处理更复杂的介词概念时存在困难。其次,我们展示了课程学习——人类采用的一种策略——提高了概念学习效率,在限定词环境中减少了15%的训练集数,并使代理能够轻松学习介词概念。最后,我们确定了在限定词或介词概念上训练的代理可以分解未见过的测试指令,并迅速调整其导航策略以适应未见过的视觉对象组合。利用合成环境,我们的研究结果表明,多模态强化学习代理可以实现复杂概念类别的组合理解,并强调类似人类的学习策略在提高人工系统学习效率方面的有效性。 |
[23] InstantSticker:通过解缠对象重建实现真实贴纸融合 标题: InstantSticker: Realistic Decal Blending via Disentangled Object Reconstruction 作者: Yi Zhang / Xiaoyang Huang / Yishun Dou / Yue Shi / Rui Shi / Ye Chen / Bingbing Ni / Wenjun Zhang 原文: [英文] [中文] 备注: Accepted by AAAI 2025 摘要: 我们提出了InstantSticker,这是一种基于图像照明(IBL)的解耦重建流程,专注于高度逼真的贴花融合,模拟附着在重建表面上的贴纸,并允许即时编辑和实时渲染。为了实现贴花的立体印象,我们在IBL中引入了阴影因子,可以在训练过程中自适应优化。这使得表面的阴影亮度能够被准确分解,而不是烘焙到漫反射颜色中,确保编辑后的纹理呈现真实的阴影效果。为了解决之前方法中的变形和模糊问题,我们应用尽可能刚性(ARAP)参数化来预展开网格的指定区域,并结合局部UV映射和神经纹理贴图来增强该区域表达高频细节的能力。对于即时编辑,我们采用迪士尼BRDF模型,明确定义材料颜色为三通道漫反射反照率。这使得在编辑过程中可以即时替换反照率RGB值,避免了之前方法中需要的长时间优化。在我们的实验中,我们引入了比例方差变形(RVW)指标来评估贴花区域的局部几何变形。大量实验结果表明,我们的方法在编辑质量、编辑速度和渲染速度方面超越了之前的贴花融合方法,达到了最先进的水平。 |
[24] FACT: 点云配准的多项式错位分类 标题: FACT: Multinomial Misalignment Classification for Point Cloud Registration 作者: Ludvig Dillén / Per-Erik Forssén / Johan Edstedt 原文: [英文] [中文] 备注: Accepted at SCIA 2025 (the Scandinavian Conference on Image Analysis 2025) 摘要: 我们提出了FACT,一种用于预测已配准激光雷达点云对的配准质量(即配准误差)的方法。这在例如大规模自动配准的3D模型的质量保证中非常有用。FACT从已配准的点云对中提取局部特征,并通过基于点变换器的网络处理这些特征,以预测错配类别。我们通过将其重新表述为多项错配分类,推广了先前研究配准误差的二元配准分类的工作。为此,我们引入了一种自定义的通过分类进行回归的损失函数,该函数结合了交叉熵和Wasserstein损失,并证明其性能优于直接回归和先前的二元分类。FACT成功地对使用经典ICP和GeoTransformer配准的点云对进行分类,而其他选择,如标准点云质量度量和配准残差,被证明是预测错配的较差选择。在CorAl方法引入的合成扰动点云任务中,我们展示了FACT比CorAl取得了显著更好的性能。最后,我们展示了FACT如何帮助专家纠正错配的点云地图。我们的代码可在此https URL获取。 |
[25] 重新思考图像修复变换器中的层归一化 标题: Rethinking LayerNorm in Image Restoration Transformers 作者: MinKyu Lee / Sangeek Hyun / Woojin Jun / Hyunjun Kim / Jiwoo Chung / Jae-Pil Heo 原文: [英文] [中文] 备注: None 摘要: 本文研究了图像修复(IR)Transformer中观察到的异常特征行为。具体来说,我们识别出两个关键问题:特征熵变得过小以及特征幅值发散到百万倍的规模。我们将根本原因归结为传统LayerNorm的每个token的归一化方面,这破坏了重要的空间相关性和内部特征统计。为了解决这个问题,我们提出了一种针对IR Transformer的简单归一化策略。我们的方法在整个空间-通道维度上应用归一化,有效地保留了空间相关性。此外,我们引入了一种输入自适应的重新缩放方法,使特征统计与每个输入的独特统计需求对齐。实验结果验证了这种组合策略有效解决了特征发散问题,显著提高了IR Transformer在各种IR任务中的稳定性和性能。 |
[26] PosterMaker:迈向高质量产品海报生成与精准文本渲染 标题: PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering 作者: Yifan Gao / Zihang Lin / Chuanbin Liu / Min Zhou / Tiezheng Ge / Bo Zheng / Hongtao Xie 原文: [英文] [中文] 备注: Accepted by CVPR 2025. Project Page: this https URL 摘要: 产品海报结合了主题、场景和文本,是吸引客户的重要促销工具。使用现代图像生成方法创建这样的海报非常有价值,而主要挑战在于准确呈现文本,尤其是对于像中文这样复杂的书写系统,其中包含超过10,000个单独字符。在这项工作中,我们确定了精确文本呈现的关键在于构建一个字符区分的视觉特征作为控制信号。基于这一见解,我们提出了一种稳健的字符级表示作为控制,并开发了TextRenderNet,其实现了超过90%的高文本呈现准确性。海报生成中的另一个挑战是保持用户特定产品的保真度。我们通过引入基于图像修复的模型SceneGenNet来解决这一问题,并提出主题保真反馈学习以进一步增强保真度。基于TextRenderNet和SceneGenNet,我们提出了PosterMaker,一个端到端的生成框架。为了有效优化PosterMaker,我们实施了一个将文本呈现和背景生成学习解耦的两阶段训练策略。实验结果表明,PosterMaker以显著的优势超越了现有基准,证明了其有效性。 |
[27] 为单图像超分辨率设计查询感知选择性注意机制 标题: Crafting Query-Aware Selective Attention for Single Image Super-Resolution 作者: Junyoung Kim / Youngrok Kim / Siyeol Jung / Donghyun Min 原文: [英文] [中文] 备注: 10 pages, 5 figures, 4 tables 摘要: 单图像超分辨率(SISR)通过从低分辨率输入重建高分辨率图像来增强图像细节。尽管基于视觉Transformer(ViT)的模型通过捕捉长距离依赖性来改善SISR,但它们面临着二次计算成本的问题,或者采用选择性注意机制而未明确关注与查询相关的区域。尽管有这些进展,之前的工作忽视了如何为SISR有效设计选择性注意机制。我们提出了SSCAN,它基于查询相似性动态选择最相关的键值窗口,确保在保持效率的同时进行集中的特征提取。与之前全局或启发式应用注意力的方法相比,我们的方法引入了一种查询感知的窗口选择策略,更好地将注意力计算与重要的图像区域对齐。通过结合固定大小的窗口,SSCAN减少了内存使用并实现了线性令牌到令牌的复杂性,使其在处理大图像时具有可扩展性。我们的实验表明,SSCAN在城市数据集上比现有的基于注意力的SISR方法表现更佳,PSNR提高了最多0.14 dB,保证了SISR中的计算效率和重建质量。 |
[28] HGMamba:通过HyperGCN-Mamba网络增强3D人体姿态估计 标题: HGMamba: Enhancing 3D Human Pose Estimation with a HyperGCN-Mamba Network 作者: Hu Cui / Tessai Hayama 原文: [英文] [中文] 备注: accepted by IJCNN2025 摘要: 3D人体姿态提升是一个有前景的研究领域,它利用估计的和真实的2D人体姿态数据进行训练。虽然现有的方法主要旨在提高估计2D姿态的性能,但在应用于真实2D姿态数据时往往表现不佳。我们观察到,从真实2D姿态中实现准确的3D姿态重建需要精确建模局部姿态结构,同时具备提取稳健的全局时空特征的能力。为了解决这些挑战,我们提出了一种新颖的Hyper-GCN和Shuffle Mamba (HGMamba)模块,该模块通过两个并行流处理输入数据:Hyper-GCN和Shuffle-Mamba。Hyper-GCN流将人体结构建模为具有不同粒度的超图,以有效捕捉局部关节依赖关系。同时,Shuffle Mamba流利用状态空间模型在所有关节上执行时空扫描,从而建立全局依赖关系。通过自适应地融合这两种表示,HGMamba在局部结构建模方面表现出色的同时,实现了强大的全局特征建模。我们堆叠多个HGMamba模块以创建我们模型的三个变体,使用户能够根据所需的速度-精度权衡选择最合适的配置。在Human3.6M和MPI-INF-3DHP基准数据集上的广泛评估证明了我们方法的有效性。HGMamba-B在相应的数据集上实现了最先进的结果,P1误差分别为38.65毫米和14.33毫米。代码和模型可在此URL获取。 |
[29] Uni-PrevPredMap:将PrevPredMap扩展为一个统一的先验信息建模框架,用于在线矢量化高清地图构建 标题: Uni-PrevPredMap: Extending PrevPredMap to a Unified Framework of Prior-Informed Modeling for Online Vectorized HD Map Construction 作者: Nan Peng / Xun Zhou / Mingming Wang / Guisong Chen / Songming Chen 原文: [英文] [中文] 备注: None 摘要: 安全性是自动驾驶系统的基础性要求,需要最大限度地整合可用的外部先验信息。本研究表明,时间感知缓冲区和成本效益地图本质上构成了在线矢量化高清地图构建的互补先验来源。我们提出了Uni-PrevPredMap,一个统一的先验信息框架,系统地整合了两个协同的信息来源:先前的预测和模拟的过时高清地图。该框架引入了两个核心创新:一个基于瓦片索引的三维矢量化全球地图处理器,能够高效地刷新、存储和检索三维矢量化先验;一个三模式操作优化范式,确保在无先验、无地图和地图先验场景中的一致性,同时减轻对理想化地图精度假设的依赖。Uni-PrevPredMap在无地图场景中实现了在线矢量化高清地图构建基准的最先进性能。当提供模拟的过时高清地图时,该框架表现出强大的错误弹性先验融合能力,实证确认了先前预测和模拟过时高清地图之间的协同互补性。代码将在此https URL提供。 |
[30] 局部感知的重要性:通过局部感知实现无训练的细粒度图像描述增强 标题: Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception 作者: Ruotian Peng / Haiying He / Yake Wei / Yandong Wen / Di Hu 原文: [英文] 备注: None 摘要: 高质量的图像描述在提高跨模态应用的性能方面起着至关重要的作用,例如文本到图像生成、文本到视频生成和文本图像检索。为了生成长篇、高质量的描述,许多近期研究采用了多模态大型语言模型(MLLMs)。然而,目前的MLLMs常常生成缺乏细粒度细节或存在幻觉的描述,这一挑战在开源和闭源模型中都存在。受到特征整合理论的启发,该理论建议注意力必须集中在特定区域以有效整合视觉信息,我们提出了一种\textbf{分而后合}策略。我们的方法首先将图像划分为语义和空间块,以提取细粒度细节,增强模型对图像的局部感知。这些局部细节随后被层次性地聚合,以生成全面的全局描述。为了解决生成描述中的幻觉和不一致问题,我们在层次聚合过程中应用了语义级过滤过程。这种无需训练的流程可以应用于开源模型(LLaVA-1.5、LLaVA-1.6、Mini-Gemini)和闭源模型(Claude-3.5-Sonnet、GPT-4o、GLM-4V-Plus)。大量实验表明,我们的方法生成了更详细、可靠的描述,推进了多模态描述生成,而无需模型重新训练。源代码可在此https URL获取。 |
[31] RAGME:增强运动真实感的检索增强视频生成 标题: RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism 作者: Elia Peruzzo / Dejia Xu / Xingqian Xu / Humphrey Shi / Nicu Sebe 原文: [英文] [中文] 备注: Code available at: this https URL 摘要: 视频生成技术正在迅速发展,这得益于扩散模型的进步以及更好和更大数据集的开发。然而,由于数据的高维性和任务的复杂性,生成高质量视频仍然具有挑战性。最近的努力主要集中在提高视觉质量和解决时间不一致性问题,如闪烁现象。尽管在这些领域取得了一定进展,但生成的视频在运动复杂性和物理合理性方面往往不尽如人意,许多输出要么显得静态,要么表现出不现实的运动。在这项工作中,我们提出了一个框架来改善生成视频中运动的真实感,探索了与现有文献大多不同的方向。具体来说,我们主张在生成阶段引入检索机制。检索到的视频作为基础信号,为模型提供了对象如何运动的示例。我们的流程设计适用于任何文本到视频的扩散模型,通过对预训练模型进行最小化微调,以检索到的样本为条件。我们通过既定的指标、最近提出的基准和定性结果证明了我们方法的优越性,并强调了该框架的其他应用。 |
[32] 图像扩散潜在空间中的概率密度测地线 标题: Probability Density Geodesics in Image Diffusion Latent Space 作者: Qingtao Yu / Jaskirat Singh / Zhaoyuan Yang / Peter Henry Tu / Jing Zhang / Hongdong Li / Richard Hartley / Dylan Campbell 原文: [英文] [中文] 备注: CVPR2025 摘要: 扩散模型间接估计数据空间上的概率密度,这可以用来研究其结构。在这项工作中,我们展示了可以在扩散潜在空间中计算测地线,其中由空间变化的内积引入的范数与概率密度成反比。在这种表述中,穿越图像潜在空间的高密度(即可能性高)区域的路径比穿越低密度区域的等效路径要短。我们提出了解决相关初值和边值问题的算法,并展示了如何计算路径上的概率密度以及两点之间的测地距离。利用这些技术,我们分析了视频片段在预训练的图像扩散空间中如何近似测地线。最后,我们展示了如何将这些技术应用于无训练的图像序列插值和外推,前提是有一个预训练的图像扩散模型。 |
[33] 深度学习用于心血管风险评估:颈动脉超声的代理特征作为动脉损伤的预测指标 标题: Deep Learning for Cardiovascular Risk Assessment: Proxy Features from Carotid Sonography as Predictors of Arterial Damage 作者: Christoph Balada / Aida Romano-Martinez / Vincent ten Cate / Katharina Geschke / Jonas Tesarz / Paul Claßen / Alexander K. Schuster / Dativa Tibyampansha / Karl-Patrik Kresoja / Philipp S. Wild / Sheraz Ahmed / Andreas Dengel 原文: [英文] [中文] 备注: None 摘要: 在这项研究中,高血压被用作个体血管损伤的指标。通过机器学习技术可以识别这种损伤,从而提供潜在重大心血管事件的早期风险标志,并为个体患者的整体动脉状况提供有价值的见解。为此,最初为视频分类开发的VideoMAE深度学习模型经过微调后被应用于超声成像领域。该模型使用来自古腾堡健康研究(15,010名参与者)的超过31,000个颈动脉超声视频数据集进行训练和测试,这是最大型的前瞻性人口健康研究之一。这种适应性使得能够将个体分类为高血压或非高血压(验证准确率为75.7%),作为检测视觉动脉损伤的替代方法。我们证明了我们的机器学习模型能够有效捕捉视觉特征,为个体的整体心血管健康提供有价值的见解。 |
[34] GSta:用于单目3D场景重建的午休高斯高效训练方案 标题: GSta: Efficient Training Scheme with Siestaed Gaussians for Monocular 3D Scene Reconstruction 作者: Anil Armagan / Albert Saà-Garriga / Bruno Manganelli / Kyuwon Kim / M. Kerim Yucel 原文: [英文] [中文] 备注: 9 pages. In submission to an IEEE conference 摘要: 高斯散点(Gaussian Splatting, GS)是一种流行的3D重建方法,主要因为其能够快速收敛、真实地表示场景并快速渲染(新颖的)视图。然而,它存在较大的存储和内存需求,其训练速度仍然落后于基于哈希网格的辐射场方法(例如,Instant-NGP),这使得在机器人场景中部署它们尤其困难,因为3D重建对于精确操作至关重要。在本文中,我们提出了GSta,它能够在训练过程中动态识别出已良好收敛的高斯点,基于其位置和颜色梯度范数。通过在训练过程中让这些高斯点进入“午休”状态并停止其更新(冻结),我们在与最先进技术相当的精度下提高了训练速度。我们还提出了一种基于在部分训练图像上计算的PSNR值的提前停止机制。结合其他改进措施,如整合学习率调度器,GSta在收敛速度、内存和存储需求方面实现了改进的帕累托前沿,同时保持了质量。我们还展示了GSta可以改进其他方法并在效率提升方面补充正交方法;一旦与Trick-GS结合,GSta在训练速度上可提高至5倍,磁盘大小缩小至原始GS的16倍,同时具有可比的精度并仅消耗一半的峰值内存。更多可视化内容可在此https URL查看。 |
[35] 遮掩场景建模:缩小3D场景理解中有监督学习与自监督学习之间的差距 标题: Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding 作者: Pedro Hermosilla / Christian Stippel / Leon Sick 原文: [英文] [中文] 备注: Accepted at CVPR 2025 摘要: 自监督学习通过使在大型未标注数据集上训练的模型能够提供多功能的现成特征,从而在2D计算机视觉领域带来了变革,这些特征的表现与使用标签训练的模型相似。然而,在3D场景理解中,自监督方法通常仅用作任务特定微调的权重初始化步骤,限制了其在通用特征提取中的实用性。本文通过提出一种专门设计的稳健评估协议来评估3D场景理解中自监督特征的质量,从而解决了这一缺陷。我们的协议使用分层模型的多分辨率特征采样来创建丰富的点级表示,这些表示捕捉了模型的语义能力,因此适合于线性探测和最近邻方法的评估。此外,我们引入了第一个自监督模型,当仅在线性探测设置中使用现成特征时,其表现与监督模型相似。特别是,我们的模型在3D中本地训练,采用了一种基于掩码场景建模目标的新颖自监督方法,该方法以自下而上的方式重建被掩盖块的深度特征,并专门针对分层3D模型进行了调整。我们的实验不仅表明我们的方法在性能上与监督模型相当,而且在很大程度上超越了现有的自监督方法。模型和训练代码可以在我们的Github库中找到(此https URL)。 |
[36] EDIT:通过编码器-解码器架构缓解注意力下沉以增强视觉Transformer 标题: EDIT: Enhancing Vision Transformers by Mitigating Attention Sink through an Encoder-Decoder Architecture 作者: Wenfeng Feng / Guoying Sun 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们提出了EDIT(Encoder-Decoder Image Transformer),这是一种新颖的架构,旨在缓解在视觉Transformer模型中观察到的注意力下沉现象。注意力下沉是指过多的注意力分配给[CLS]标记,从而扭曲了模型有效处理图像块的能力。为了解决这个问题,我们引入了一种层对齐的编码器-解码器架构,其中编码器利用自注意力来处理图像块,而解码器使用交叉注意力来关注[CLS]标记。与传统的编码器-解码器框架不同,传统框架中的解码器仅依赖于高层次的编码器表示,EDIT允许解码器从低层次特征开始提取信息,逐层细化表示。通过顺序注意力图,EDIT的自然可解释性得以展示,说明了对关键图像特征的逐层聚焦。 在ImageNet-1k和ImageNet-21k上的实验,以及迁移学习任务中,EDIT在性能上相较于DeiT3模型实现了一致的提升。这些结果突显了EDIT设计在解决注意力下沉和改进视觉特征提取方面的有效性。 |
[37] MultiADS:面向零样本学习的多类型异常检测与分割的缺陷感知监督 标题: MultiADS: Defect-aware Supervision for Multi-type Anomaly Detection and Segmentation in Zero-Shot Learning 作者: Ylli Sadikaj / Hongkuan Zhou / Lavdim Halilaj / Stefan Schmid / Steffen Staab / Claudia Plant 原文: [英文] [中文] 备注: None 摘要: 在工业应用中,精确的光学检测对于最小化废品率和降低相关成本至关重要。除了仅仅检测产品是否异常外,了解具体的缺陷类型(如弯曲、切割或划痕)也同样重要。识别“确切”缺陷类型的能力使得现代生产线能够自动处理异常。目前的方法仅限于检测产品是否有缺陷,而无法提供关于缺陷类型的任何见解,更不用说检测和识别多种缺陷了。我们提出了MultiADS,这是一种零样本学习方法,能够执行多类型异常检测和分割。MultiADS的架构包括CLIP和额外的线性层,以在联合特征空间中对齐视觉和文本表示。据我们所知,我们的提议是第一个在零样本学习中执行多类型异常分割任务的方法。与其他基线方法相比,我们的方法i) 为每种不同的缺陷类型生成特定的异常掩码,ii) 学会区分缺陷类型,iii) 同时识别异常产品中存在的多种缺陷类型。此外,我们的方法在五个常用数据集(MVTec-AD、Visa、MPDD、MAD和Real-IAD)上的图像级和像素级异常检测和分割任务中,优于零/少样本学习的最新方法。 |
[38] 大规模监督预训练用于创伤性脑损伤分割 标题: Large Scale Supervised Pretraining For Traumatic Brain Injury Segmentation 作者: Constantin Ulrich / Tassilo Wald / Fabian Isensee / Klaus H. Maier-Hein 原文: [英文] [中文] 备注: None 摘要: 中度至重度创伤性脑损伤(msTBI)病灶的分割在神经影像学中面临重大挑战,因为这些病灶的特征多样,大小、形状和分布在脑区和组织类型之间各不相同。这种异质性使传统的图像处理技术复杂化,导致图像配准和脑分区等任务出现关键错误。为了解决这些挑战,AIMS-TBI分割挑战赛2024旨在推进专门为T1加权MRI数据设计的创新分割算法,T1加权MRI是临床实践中最广泛使用的成像方式。我们提出的解决方案利用了受MultiTalent方法启发的大规模多数据集监督预训练方法。我们在涵盖各种解剖和病理结构的综合数据集上训练了Resenc L网络,使模型具备对脑解剖和病理的强大理解。随后,模型在msTBI特定数据上进行微调,以优化其在T1加权MRI扫描的独特特征上的性能,并在没有预训练的基线模型上提高了最多2个Dice分数。 |
[39] nnLandmark:一种用于3D医学标志检测的自配置方法 标题: nnLandmark: A Self-Configuring Method for 3D Medical Landmark Detection 作者: Alexandra Ertl / Shuhan Xiao / Stefan Denner / Robin Peretzke / David Zimmerer / Peter Neher / Fabian Isensee / Klaus Maier-Hein 原文: [英文] [中文] 备注: None 摘要: 标志检测在依赖精确空间定位的医学成像任务中起着至关重要的作用,包括诊断、治疗计划、图像配准和手术导航等特定应用。然而,手动标注劳动强度大且需要专业知识。虽然深度学习在自动化这一任务方面显示出潜力,但由于公共数据集有限、基准不一致以及基线非标准化,进展受到限制,影响了可重复性、公平比较和模型评估。本文介绍了nnLandmark,一种用于3D医学标志检测的自配置深度学习框架,它将nnU-Net改编为执行基于热图的回归。通过利用nnU-Net的自动配置,nnLandmark消除了手动参数调整的需要,提供了开箱即用的便利性。它在两个公共数据集上实现了最先进的准确性,在下颌磨牙标志(MML)牙科CT数据集上的平均径向误差(MRE)为1.5毫米,在脑部MRI数据集(AFIDs)上的解剖标志为1.2毫米,其中nnLandmark与1.5毫米的评估者间变异性一致。凭借其强大的泛化能力、可重复性和易于部署性,nnLandmark为3D标志检测建立了可靠的基线,支持依赖精确标志识别的解剖定位研究和临床工作流程。代码将很快发布。 |
[40] 多维点云的可视化:作为三维化身群的展示 标题: Visualisation of a multidimensional point cloud as a 3D swarm of avatars 作者: Leszek Luchowski / Dariusz Pojda 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种创新的方法来可视化多维数据,使用受Chernoff面孔启发的图标。该方法将经典投影技术与特定数据维度的分配相结合,以模拟特征,利用人脑自然解读面部表情的能力。该技术作为dpVision开源图像处理平台的插件实现。该插件允许以“图腾”群的形式交互式探索数据,这些图腾在超空间中的位置以及面部特征代表数据的各个方面。基于合成测试数据以及葡萄牙葡萄酒的vinhoverde 15维数据库的样本可视化,证实了我们的方法在分析复杂数据结构方面的实用性。 |
[41] 指南针控制:用于文本到图像生成的多对象方向控制 标题: Compass Control: Multi Object Orientation Control for Text-to-Image Generation 作者: Rishbuh Parihar / Vaibhav Agrawal / Sachidanand VS / R. Venkatesh Babu 原文: [英文] [中文] 备注: this https URL 摘要: 现有的文本到图像扩散模型控制方法虽然功能强大,但无法实现显式的以3D对象为中心的控制,例如对对象方向的精确控制。在这项工作中,我们解决了文本到图像扩散模型中的多对象方向控制问题。这使得能够生成具有每个对象精确方向控制的多样化多对象场景。关键思想是用一组方向感知的\textbf{罗盘}标记(每个对象一个)以及文本标记来对扩散模型进行条件化。一个轻量级的编码器网络预测这些罗盘标记,以对象方向作为输入。该模型在一个程序生成场景的合成数据集上进行训练,每个场景包含一个或两个在简单背景上的3D资产。然而,直接训练这个框架会导致方向控制不佳,并导致对象之间的纠缠。为了解决这个问题,我们在生成过程中进行干预,并将每个罗盘标记的交叉注意力图约束在其对应的对象区域。训练后的模型能够实现对a)训练期间未见过的复杂对象和b)包含两个以上对象的多对象场景的精确方向控制,表明其具有很强的泛化能力。此外,当与个性化方法结合时,我们的方法能够在多样化的背景中精确控制新对象的方向。我们的方法在方向控制和文本对齐方面达到了最先进的水平,并通过广泛的评估和用户研究进行了量化。 |
[42] FANeRV:基于频率分离和增强的视频神经表示 标题: FANeRV: Frequency Separation and Augmentation based Neural Representation for Video 作者: Li Yu / Zhihui Li / Jimin Xiao / Moncef Gabbouj 原文: [英文] [中文] 备注: None 摘要: 神经视频表示(NeRV)因其在各种视频任务中的强大性能而受到广泛关注。然而,现有的NeRV方法往往难以捕捉细微的空间细节,导致重建效果模糊。在本文中,我们提出了一种基于频率分离和增强的视频神经表示方法(FANeRV),通过其核心的“小波频率升级”模块来解决这些局限性。该模块使用离散小波变换将输入帧明确分离为高频和低频分量,随后通过专门的模块进行有针对性的增强。最后,一个专门设计的门控网络有效地融合这些频率分量以实现最佳重建。此外,卷积残差增强块被集成到网络的后期阶段,以平衡参数分布并改善高频细节的恢复。实验结果表明,FANeRV显著提高了重建性能,并在包括视频压缩、修复和插值在内的多项任务中表现出色,优于现有的NeRV方法。 |
[43] End2end-ALARA:通过端到端学习在CT成像中实现尽量减少合理可行的辐射剂量原则 标题: End2end-ALARA: Approaching the ALARA Law in CT Imaging with End-to-end Learning 作者: Xi Tao / Liyan Lin 原文: [英文] [中文] 备注: None 摘要: 计算机断层扫描(CT)检查会对患者造成辐射伤害。进行CT成像的共识是使辐射剂量尽可能低,即ALARA原则(As Low As Reasonably Achievable)。在本文中,我们提出了一种端到端的学习框架,名为End2end-ALARA,该框架联合优化剂量调制和图像重建,以实现CT成像中的ALARA目标。End2end-ALARA通过构建一个剂量调制模块和一个图像重建模块,使用可微分的模拟函数连接这些模块,并使用约束铰链损失函数对其进行优化。其目标是在满足规定的图像质量(IQ)指标的前提下,最小化辐射剂量。结果表明,End2end-ALARA能够预设个性化的剂量水平,以在不同患者中获得稳定的IQ水平,这可能有助于基于图像的诊断和下游模型训练。此外,与固定剂量和传统剂量调制策略相比,End2end-ALARA在达到相同IQ水平时消耗的剂量更低。我们的研究为在CT成像中实现ALARA原则提供了一种途径。 |
[44] 通过削弱领域特定信息实现领域泛化 标题: Domain Generalization through Attenuation of Domain-Specific Information 作者: Reiji Saito / Kazuhiro Hotta 原文: [英文] 备注: Accepted by CVPR 2025 Workshops 摘要: 在本文中,我们提出了一种新的评估指标,称为领域独立性(DI)和领域特定信息衰减(ADSI),专门用于汽车图像中的领域泛化语义分割。DI衡量领域特定信息的存在:较低的DI值表明强烈的领域依赖性,而较高的DI值则表明更大的领域独立性。这使得我们大致可以确定领域特定信息存在的位置以及其存在的频率范围。因此,可以有效地仅抑制图像中包含领域特定信息的区域,从而实现领域独立的特征提取。ADSI使用巴特沃斯滤波器去除图像中包含固有领域特定信息(如传感器特性和光照条件)的低频成分。然而,由于低频成分也包含重要信息(如颜色),我们不应完全去除它们。因此,通过乘以一个标量值(范围从0到1)来保留必要的信息。这有助于模型学习更多领域独立的特征。在实验中,使用GTA5(合成数据集)作为训练图像,并使用真实世界数据集进行评估,所提出的方法优于传统方法。同样,在使用Cityscapes(真实世界数据集)进行训练并使用各种环境数据集(如雨天和夜间)进行评估的实验中,所提出的方法在夜间条件下表现出其鲁棒性。 |
[45] 基于零样本图像的大型语言模型在道路路面监测中的应用 标题: Zero-Shot Image-Based Large Language Model Approach to Road Pavement Monitoring 作者: Shuoshuo Xu / Kai Zhao / James Loney / Zili Li / Andrea Visentin 原文: [英文] 备注: None 摘要: 有效且快速地评估路面状况对于优先安排维护、确保交通安全以及减少车辆磨损至关重要。传统的人工检查存在主观性,而现有的基于机器学习的方法则受限于对大量高质量标记数据集的依赖,这需要大量资源,并限制了在不同路况下的适应性。大型语言模型(LLMs)的革命性进展为克服这些挑战提供了重要潜力。在本研究中,我们提出了一种创新的自动化零样本学习方法,该方法利用LLMs的图像识别和自然语言理解能力来有效评估路况。我们开发了多种基于LLM的评估模型,采用与路面状况指数(PSCI)标准相一致的提示工程策略。通过与官方PSCI结果的对比,评估了这些模型的准确性和可靠性,最终选择了一个优化模型。广泛的测试将优化模型与使用Google街景图像的各级专家评估进行了基准对比。结果表明,基于LLM的方法可以有效评估路况,优化模型通过采用全面和结构化的提示工程策略,超越了简单配置,达到了高准确性和一致性,甚至超过了专家评估。此外,成功将优化模型应用于Google街景图像,展示了其未来在城市规模部署中的潜力。这些发现突显了LLMs在自动化道路损坏评估中的变革潜力,并强调了详细提示工程在实现可靠评估中的关键作用。 |
[46] 用于评估可解释性方法的有意义扰动度量 标题: A Meaningful Perturbation Metric for Evaluating Explainability Methods 作者: Danielle Cohen / Hila Chefer / Lior Wolf 原文: [英文] [中文] 备注: None 摘要: 深度神经网络(DNNs)已经展示了显著的成功,但它们的广泛应用常常受到其不透明决策过程的阻碍。为了解决这个问题,提出了归因方法,以为输入的每个部分分配相关性值。然而,不同的方法通常会产生完全不同的相关性图,这需要开发标准化的指标来评估它们。通常,这种评估是通过扰动来进行的,其中对输入图像的高相关性或低相关性区域进行操控,以检查预测的变化。在这项工作中,我们介绍了一种新颖的方法,利用图像生成模型来执行有针对性的扰动。具体来说,我们专注于仅对输入图像的高相关性像素进行修补,以修改模型的预测,同时保持图像的保真度。这与现有方法形成对比,后者通常会产生分布外的修改,导致不可靠的结果。通过广泛的实验,我们证明了我们的方法在生成广泛模型和归因方法的有意义排名方面的有效性。重要的是,我们确立了我们的指标所产生的排名与人类偏好相比,表现出显著更高的相关性,强调了其在增强深度神经网络可解释性方面的潜力。 |
[47] MonoPlace3D:学习三维单目检测的三维感知物体放置 标题: MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection 作者: Rishubh Parihar / Srinjay Sarkar / Sarthak Vora / Jogendra Kundu / R. Venkatesh Babu 原文: [英文] [中文] 备注: this https URL 摘要: 当前的单目3D检测器受到真实世界数据集的有限多样性和规模的限制。虽然数据增强确实有所帮助,但在户外环境中生成逼真的场景感知增强数据特别困难。目前大多数合成数据生成方法专注于通过改进渲染技术来实现逼真的对象外观。然而,我们表明对象的位置和放置方式对于训练有效的3D单目检测器同样重要。关键障碍在于自动确定逼真的对象放置参数——包括位置、尺寸和方向对齐——当将合成对象引入实际场景时。为了解决这个问题,我们引入了MonoPlace3D,一个考虑3D场景内容以创建逼真增强的新系统。具体来说,给定一个背景场景,MonoPlace3D学习一个关于合理3D边界框的分布。随后,我们渲染逼真的对象并根据从学习分布中采样的位置进行放置。我们在两个标准数据集KITTI和NuScenes上的全面评估表明,MonoPlace3D显著提高了多个现有单目3D检测器的准确性,同时具有很高的数据效率。 |
[48] DyDiT++: 用于高效视觉生成的动态扩散变换器 标题: DyDiT++: Dynamic Diffusion Transformers for Efficient Visual Generation 作者: Wangbo Zhao / Yizeng Han / Jiasheng Tang / Kai Wang / Hao Luo / Yibing Song / Gao Huang / Fan Wang / Yang You 原文: [英文] [中文] 备注: Extended journal version for ICLR. arXiv admin note: substantial text overlap with arXiv:2410.03456 摘要: 扩散变压器(DiT)是一种新兴的视觉生成扩散模型,虽然表现优异,但存在较大的计算成本。我们的研究发现,这些成本主要源于\emph{静态}推理范式,这不可避免地在某些\emph{扩散时间步}和\emph{空间区域}引入了冗余计算。为了解决这一低效问题,我们提出了\textbf{Dy}namic \textbf{Di}ffusion \textbf{T}ransformer(DyDiT),这是一种在\emph{时间步}和\emph{空间}维度上\emph{动态}调整计算的架构。具体来说,我们引入了一种\emph{时间步动态宽度}(TDW)方法,根据生成时间步调整模型宽度。此外,我们设计了一种\emph{空间动态令牌}(SDT)策略,以避免在不必要的空间位置进行冗余计算。TDW和SDT可以无缝集成到DiT中,并显著加速生成过程。在这些设计的基础上,我们进一步在三个关键方面增强了DyDiT。首先,DyDiT与基于流匹配的生成无缝集成,增强了其多功能性。此外,我们增强了DyDiT以应对更复杂的视觉生成任务,包括视频生成和文本到图像生成,从而拓宽了其实际应用。最后,为了解决全面微调的高成本并普及技术访问,我们研究了以参数高效方式训练DyDiT的可行性,并引入了基于时间步的动态LoRA(TD-LoRA)。在包括DiT、SiT、Latte和FLUX在内的多种视觉生成模型上的广泛实验,证明了DyDiT的有效性。 |
[49] 用于医学图像分析的结合切比雪夫多项式展开的混合卷积神经网络 标题: Hybrid CNN with Chebyshev Polynomial Expansion for Medical Image Analysis 作者: Abhinav Roy / Bhavesh Gyanchandani / Aditya Oza 原文: [英文] [中文] 备注: None 摘要: 肺癌仍然是全球癌症相关死亡的主要原因之一,早期和准确的诊断在改善患者预后方面起着关键作用。在计算机断层扫描(CT)中自动检测肺结节是一项具有挑战性的任务,因为结节的大小、形状、纹理和位置存在多样性。传统的卷积神经网络(CNN)在医学图像分析中显示出相当大的潜力;然而,它们在捕捉细粒度空间-光谱变化方面的能力有限,这限制了它们在复杂诊断场景中的表现。在这项研究中,我们提出了一种新颖的混合深度学习架构,将切比雪夫多项式展开引入到CNN层中,以增强表达能力并改善对潜在解剖结构的表示。所提出的切比雪夫-CNN利用切比雪夫多项式的正交性和递归特性来提取高频特征,并以更高的保真度逼近复杂的非线性函数。该模型在包括LUNA16和LIDC-IDRI在内的基准肺癌影像数据集上进行了训练和评估,在将肺结节分类为良性或恶性方面取得了优异的性能。定量结果表明,与传统的基于CNN的方法相比,准确性、敏感性和特异性有显著提高。这种在深度学习中集成基于多项式的光谱逼近的方法为增强自动化医学诊断提供了一个强大的框架,并在临床决策支持系统的更广泛应用中具有潜力。 |
[50] SVG-IR:用于逆向渲染的空间变化高斯点绘 标题: SVG-IR: Spatially-Varying Gaussian Splatting for Inverse Rendering 作者: Hanxiao Sun / YuPeng Gao / Jin Xie / Jian Yang / Beibei Wang 原文: [英文] [中文] 备注: None 摘要: 从图像重建三维资产,即逆向渲染(IR),由于其病态性质,仍然是一项具有挑战性的任务。三维高斯点(3DGS)在新视图合成(NVS)任务中展示了令人印象深刻的能力。现有方法通过将辐射分解为BRDF参数和光照来应用于重新光照,但由于每个高斯的能力有限(其材料参数和法线是恒定的),以及缺乏对间接光照的物理约束,导致重新光照质量较差,出现伪影和不自然的间接光照。在本文中,我们提出了一种名为空间变化高斯逆向渲染(SVG-IR)的新框架,旨在提高NVS和重新光照的质量。为此,我们提出了一种新的表示方法——空间变化高斯(SVG),允许每个高斯具有空间变化的参数。这种增强的表示方法通过类似于传统图形管线中的顶点/片段着色的SVG点绘方案得到了补充。此外,我们整合了一个基于物理的间接光照模型,使重新光照更加逼真。所提出的SVG-IR框架显著提高了渲染质量,在峰值信噪比(PSNR)方面比最先进的基于NeRF的方法高出2.5 dB,并在重新光照任务中比现有的基于高斯的方法高出3.5 dB,同时保持实时渲染速度。 |
[51] IAAO:用于三维环境中关节物体的交互式可供性学习 标题: IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments 作者: Can Zhang / Gim Hee Lee 原文: [英文] [中文] 备注: None 摘要: 这项工作提出了IAAO,一个新颖的框架,通过交互为智能代理构建一个明确的3D模型,以便在其环境中理解可动的物体。与依赖于任务特定网络和关于可移动部件假设的先前方法不同,我们的IAAO利用大型基础模型在三个阶段估计交互性可供性和部件的关节运动。我们首先通过从多视图图像中提取掩码特征和视图一致标签,使用3D高斯喷射(3DGS)为每个物体状态构建层次特征和标签字段。然后,我们在3D高斯原语上执行对象和部件级查询,以识别静态和可动元素,估计全局变换和局部关节参数以及可供性。最后,基于估计的变换合并和优化来自不同状态的场景,从而实现稳健的基于可供性的物体交互和操作。实验结果证明了我们方法的有效性。 |
[52] LVC:一种用于增强长视频理解中的视觉语言模型的轻量级压缩框架 标题: LVC: A Lightweight Compression Framework for Enhancing VLMs in Long Video Understanding 作者: Ziyi Wang / Haoran Wu / Yiming Rong / Deyang Jiang / Yixin Zhang / Yunlong Zhao / Shuang Xu / Bo XU 原文: [英文] [中文] 备注: None 摘要: 长视频理解是一项复杂的任务,需要同时具备空间细节和时间意识。虽然视觉-语言模型(VLMs)通过多帧输入获得帧级理解能力,但由于稀疏采样策略,它们会遭受信息损失。相比之下,视频大语言模型(Video-LLMs)能够捕捉视觉特征中的时间关系,但受限于高质量视频-文本数据集的稀缺。为了以最小的数据和计算成本将长视频理解能力转移到VLMs,我们提出了一种新颖的方法——轻量级视频压缩(LVC),其特点是查询-注意力视频压缩机制,有效解决了VLMs中的稀疏采样问题。通过仅训练对齐层并使用1万对短视频-文本对,LVC显著增强了VLMs的时间推理能力。大量实验表明,LVC在包括InternVL2系列和Phi-3.5-Vision在内的各种模型中提供了一致的性能提升。值得注意的是,InternVL2-40B-LVC在长视频理解基准MLVU和Video-MME上分别取得了68.2和65.9的分数,相对提升分别为14.6%和7.7%。增强后的模型和代码将很快公开。 |
[53] 从盲扫超声视频中确定胎儿方位 标题: Determining Fetal Orientations From Blind Sweep Ultrasound Video 作者: Jakub Maciej Wiśniewski / Anders Nymark Christensen / Mary Le Ngo / Martin Grønnebæk Tolsgaard / Chun Kit Wong 原文: [英文] [中文] 备注: 10 pages 摘要: 胎儿超声检查的认知需求在临床医生中提出了独特的挑战。为了提供一种辅助工具,我们开发了一种自动化流程,用于预测通过简单的盲扫协议获取的超声视频中的胎儿方位。利用预训练的头部检测和分割模型,首先通过模板匹配方法确定胎儿的呈现(头位或臀位),然后通过分析分割后的脑部解剖结构的空间分布来确定胎儿的姿势(面向左或右)。在第三孕期超声扫描数据集上的评估显示了我们流程的良好准确性。此项工作通过引入自动化胎儿姿势预测并提出一种增强超声医生专业技能而非替代的辅助范式而区别于其他研究。未来的研究将集中于提高采集效率,并探索实时临床整合以改善工作流程并为产科医生提供支持。 |
[54] ZIP:一种用于黑箱视觉语言模型的高效零阶提示微调 标题: ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models 作者: Seonghwan Park / Jaehyeon Jeong / Yongjun Kim / Jaeho Lee / Namhoon Lee 原文: [英文] [中文] 备注: ICLR 2025 摘要: 最近的研究引入了多种方法来进行黑盒视觉-语言模型的提示微调,称为黑盒提示微调(BBPT)。虽然BBPT显示出相当大的潜力,但通常发现许多现有方法需要过多的查询(即函数评估),这在实际场景中构成了重大挑战,因为允许的查询数量有限。为了解决这个问题,我们提出了零阶内在维度提示微调(ZIP),这是一种新颖的方法,可以在纯黑盒环境中实现高效且稳健的提示优化。ZIP的核心思想是降低问题的维度和零阶梯度估计的方差,从而使训练能够快速进行,并且查询次数大大减少。我们通过在低秩表示中重新参数化提示,并设计内在维度的梯度估计剪裁来实现这一目标。我们在标准基准测试中的13+视觉-语言任务上评估ZIP,结果显示与表现最佳的替代BBPT方法相比,它在少样本准确性上平均提高约6%,在查询效率上提高48%,建立了新的技术水平。我们的消融分析进一步表明,所提出的剪裁机制是稳健且几乎最佳的,无需手动选择剪裁阈值,匹配了昂贵的超参数搜索结果。 |
[55] 分类未知:用于开放词汇文本和符号识别的上下文学习 标题: Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition 作者: Tom Simon / William Mocaer / Pierrick Tranouez / Clement Chatelain / Thierry Paquet 原文: [英文] [中文] 备注: Submitted to ICDAR 2025 摘要: 我们介绍了Rosetta,这是一种多模态模型,利用多模态上下文学习(MICL)通过利用最少的示例来分类文档中的新型字符模式序列,从而消除了显式重新训练的需求。为了增强上下文学习,我们设计了一种数据集生成过程,确保不同程度的上下文信息性,提高模型在不同场景中利用上下文的适应性。我们方法的一个关键优势是使用了上下文感知分词器(CAT),这使得开放词汇分类成为可能。这使得模型能够在无限范围的类别中对文本和符号模式进行分类,扩展了其分类能力超越其训练字符模式的范围。因此,它解锁了诸如识别新字母和语言的应用。对合成数据集的实验表明,Rosetta有潜力成功分类分布外的视觉模式和多样化的字母和字符集,包括但不限于中文、希腊文、俄文、法文、西班牙文和日文。 |
[56] CasTex:通过显式纹理贴图和基于物理的着色进行级联文本到纹理合成 标题: CasTex: Cascaded Text-to-Texture Synthesis via Explicit Texture Maps and Physically-Based Shading 作者: Mishan Aliev / Dmitry Baranchuk / Kirill Struminsky 原文: [英文] [中文] 备注: Preprint, work in progress 摘要: 这项工作研究了使用扩散模型进行文本到纹理的合成,以生成基于物理的纹理贴图。我们的目标是在不同的光照条件下实现逼真的模型外观。一个突出的解决方案是评分蒸馏采样。它允许在给定可微分的光栅化和着色管道的情况下,通过梯度指导恢复复杂的纹理。然而,在实践中,上述解决方案与广泛使用的潜在扩散模型结合时会产生严重的视觉伪影,并需要额外的正则化,例如隐式纹理参数化。作为一种更直接的替代方案,我们提出了一种使用级联扩散模型进行纹理合成的方法(CasTex)。在我们的设置中,评分蒸馏采样可以直接生成高质量的纹理。特别是,我们能够省略隐式纹理参数化,转而采用显式参数化以改进该过程。在实验中,我们展示了我们的方法在公共纹理合成基准测试中显著优于基于优化的最新解决方案。 |
[57] EIDT-V:利用扩散轨迹中的交叉点进行模型无关、零样本、无需训练的文本到视频生成 标题: EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation 作者: Diljeet Jagpal / Xi Chen / Vinay P. Namboodiri 原文: [英文] 备注: Accepted at IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2025 摘要: 零样本、无需训练、基于图像的文本到视频生成是一个新兴领域,旨在利用现有的基于图像的扩散模型生成视频。目前该领域的方法需要对图像生成模型进行特定的架构更改,这限制了它们的适应性和可扩展性。与这些方法相反,我们提供了一种与模型无关的方法。我们使用扩散轨迹的交集,仅处理潜在值。仅使用轨迹交集无法获得局部的帧间一致性和多样性。因此,我们采用了一种基于网格的方法。一个在上下文中训练的LLM用于生成一致的帧提示;另一个用于识别帧之间的差异。基于这些,我们获得了一个基于CLIP的注意力掩码,该掩码控制每个网格单元切换提示的时机。较早的切换导致更高的差异,而较晚的切换则导致更多的一致性。因此,我们的方法可以确保帧之间的一致性和差异性之间的适当控制。我们的方法在与多样化的图像生成模型合作时表现出更大的灵活性,并实现了最先进的性能。使用定量指标和用户研究的实证分析证实了我们模型在时间一致性、视觉保真度和用户满意度方面的优越性,从而提供了一种无需训练的基于图像的文本到视频生成的新方法。 |
[58] MovSAM: 基于深度思维的单图像运动物体分割框架 标题: MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking 作者: Chang Nie / Yiqing Xu / Guangming Wang / Zhe Liu / Yanzi Miao / Hesheng Wang 原文: [英文] [中文] 备注: None 摘要: 运动物体分割在理解动态视觉环境中起着至关重要的作用。虽然现有方法依赖多帧图像序列来识别运动物体,但单帧图像的运动物体分割对于诸如运动意图预测和处理相机帧丢失等应用至关重要。然而,由于缺乏时间线索,现有方法在单帧图像中分割运动物体仍然具有挑战性。为了解决这一问题,我们提出了MovSAM,这是首个用于单帧图像运动物体分割的框架。MovSAM利用增强了链式思维(CoT)提示的多模态大语言模型(MLLM)来搜索运动物体,并基于深度思考生成文本提示以进行分割。这些提示与来自“分割任何模型”(SAM)和视觉语言模型(VLM)的视觉特征进行交叉融合,从而实现逻辑驱动的运动物体分割。然后,分割结果经过深度思考的优化循环,使MovSAM能够通过逻辑推理迭代地改善其对场景上下文和物体间关系的理解。这种创新方法使MovSAM能够通过考虑场景理解来在单帧图像中分割运动物体。我们在现实世界中实现了MovSAM,以验证其在自动驾驶场景中的实际应用和有效性,在这些场景中,多帧方法失效。此外,尽管多帧方法在利用时间信息方面具有固有优势,MovSAM在公共运动物体分割基准测试中实现了最先进的性能,达到92.5%的J&F。我们的实现将在此https URL上提供。 |
[59] 热带卷积神经网络的复合模式和并行模式 标题: Compound and Parallel Modes of Tropical Convolutional Neural Networks 作者: Mingbo Li / Liying Liu / Ye Luo 原文: [英文] [中文] 备注: 28 pages, 5 figures 摘要: 卷积神经网络(CNN)变得越来越深和复杂,导致计算成本增加。虽然热带卷积神经网络(TCNNs)减少了乘法运算,但其性能不如标准CNN。为了解决这个问题,我们提出了两种新变体——复合TCNN(cTCNN)和并行TCNN(pTCNN),它们使用热带最小-加法和最大-加法核的组合来替代传统卷积核。这减少了乘法运算,并在效率与性能之间取得平衡。在各种数据集上的实验表明,cTCNN和pTCNN的性能与其他CNN方法相当或更优。将这些与传统CNN结合在更深的架构中也提高了性能。我们进一步探索简化的TCNN架构,以减少参数和乘法运算,同时尽量减少准确率损失,旨在实现高效且有效的模型。 |
[60] ColorizeDiffusion v2:通过分离工具增强基于参考的草图上色 标题: ColorizeDiffusion v2: Enhancing Reference-based Sketch Colorization Through Separating Utilities 作者: Dingkun Yan / Xinrui Wang / Yusuke Iwasawa / Yutaka Matsuo / Suguru Saito / Jiaxian Guo 原文: [英文] [中文] 备注: None 摘要: 基于参考的草图上色方法由于其在动画制作行业的潜在应用而受到广泛关注。然而,大多数现有方法是在语义和空间上高度对齐的草图、参考和真实图像三元组上进行训练的,而现实世界中的参考和草图往往存在显著的错位。这种训练和推理之间数据分布的不匹配导致了过拟合,从而产生空间伪影并显著降低整体上色质量,限制了当前方法在通用目的上的潜在应用。为了解决这一限制,我们对\textbf{载体}进行了深入分析,载体被定义为促进信息从参考传递到草图的潜在表示。基于此分析,我们提出了一种新颖的工作流程,动态调整载体以优化上色的不同方面。具体来说,对于空间错位的伪影,我们引入了一种带有空间掩码的分割交叉注意力机制,使得在扩散过程中能够进行区域特定的参考注入。为减轻草图的语义忽视,我们采用专用的背景和风格编码器,在潜在特征空间中传递详细的参考信息,实现增强的空间控制和更丰富的细节合成。此外,我们提出了角色掩码合并和背景漂白作为预处理步骤,以改善前景与背景的整合和背景生成。广泛的定性和定量评估,包括用户研究,证明了我们提出的方法相比现有方法具有更优越的性能。消融研究进一步验证了每个提出组件的有效性。 |
[61] MedSegFactory: 基于文本引导生成医学图像-掩膜对 标题: MedSegFactory: Text-Guided Generation of Medical Image-Mask Pairs 作者: Jiawei Mao / Yuhan Wang / Yucheng Tang / Daguang Xu / Kang Wang / Yang Yang / Zongwei Zhou / Yuyin Zhou 原文: [英文] [中文] 备注: 12 pages, 8 figures, The project page can be accessed via this https URL 摘要: 本文介绍了MedSegFactory,这是一种多功能的医学合成框架,可以在不同的模态和任务中生成高质量的成对医学图像和分割掩码。其目标是作为一个无限的数据存储库,提供图像-掩码对以增强现有的分割工具。MedSegFactory的核心是一个双流扩散模型,其中一个流合成医学图像,另一个生成相应的分割掩码。为了确保图像-掩码对之间的精确对齐,我们引入了联合交叉注意力(JCA),通过流之间的动态交叉条件实现协作去噪范式。这种双向交互允许两种表示相互指导生成,增强生成对之间的一致性。MedSegFactory通过用户定义的提示生成按需的成对医学图像和分割掩码,这些提示指定目标标签、成像模态、解剖区域和病理状况,从而促进可扩展和高质量的数据生成。这种新的医学图像合成范式能够无缝集成到各种医学成像工作流程中,提高效率和准确性。大量实验表明,MedSegFactory生成的数据在质量和可用性方面具有优越性,在2D和3D分割任务中实现了具有竞争力或最先进的性能,同时解决了数据稀缺性和监管限制问题。 |
[62] UKBOB:十亿个MRI标注掩膜用于可推广的三维医学图像分割 标题: UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation 作者: Emmanuelle Bourigault / Amir Jamaludin / Abdullah Hamdi 原文: [英文] [中文] 备注: preprint 摘要: 在医学影像领域,主要挑战是由于隐私问题、物流以及高标注成本而难以收集大规模标注数据。在这项工作中,我们介绍了英国生物银行器官和骨骼数据集(UKBOB),这是迄今为止最大规模的身体器官标注数据集,包含51,761个MRI三维样本(相当于1790万张二维图像)以及超过13.7亿个二维分割掩码,涵盖72个器官,所有数据均基于英国生物银行的MRI数据集。我们利用自动标注技术,推出了一个带有器官特定过滤器的自动化标签清理流程,并手动标注了300个腹部类别的MRI子集以验证质量(称为UKBOB-manual)。这种方法使得数据集的收集规模得以扩大,同时保持对标签的信心。我们进一步通过展示在过滤后的UKBOB上训练的模型在其他类似领域的小型标注数据集(例如腹部MRI)上的零样本泛化能力来确认标签的有效性。为了进一步减轻噪声标签的影响,我们提出了一种新方法,称为熵测试时适应(ETTA),以优化分割输出。我们使用UKBOB训练了一个基础模型,Swin-BOB,用于基于Swin-UNetr架构的三维医学图像分割,在多个三维医学影像基准测试中取得了最先进的结果,包括BRATS脑部MRI肿瘤挑战(提高0.4%)和BTCV腹部CT扫描基准测试(提高1.3%)。预训练模型和代码可在此https URL获取,过滤后的标签将与英国生物银行一起提供。 |
[63] S-EO:用于遥感应用中几何感知阴影检测的大规模数据集 标题: S-EO: A Large-Scale Dataset for Geometry-Aware Shadow Detection in Remote Sensing Applications 作者: Masquil Elías / Marí Roger / Ehret Thibaud / Meinhardt-Llopis Enric / Musé Pablo / Facciolo Gabriele 原文: [英文] [中文] 备注: Accepted at Earthvision 2025 (CVPR Workshop) 摘要: 我们介绍了S-EO数据集:一个大规模、高分辨率的数据集,旨在推进几何感知的阴影检测。该数据集从多种公共领域来源收集,包括挑战数据集和美国地质调查局(USGS)等政府提供者。我们的数据集包含了美国各地的702个地理参考图块,每个图块覆盖500x500米。每个图块包括多日期、多角度的WorldView-3全色锐化RGB图像、全色图像,以及通过LiDAR扫描获得的区域地面真实数字高程模型(DSM)。对于每张图像,我们提供了基于几何和太阳位置的阴影掩膜、基于NDVI指数的植被掩膜,以及经过束调整的RPC模型。S-EO数据集包含大约20,000张图像,为遥感图像中的阴影检测及其在3D重建中的应用建立了一个新的公共资源。为了展示数据集的影响力,我们训练并评估了一个阴影检测器,展示了其即使在航空图像中也能很好地泛化的能力。最后,我们扩展了EO-NeRF——一种针对卫星图像的最先进的NeRF方法——以利用我们的阴影预测来改进3D重建。 |
[64] 视觉语言模型准备好进行膳食评估了吗?探索人工智能驱动的食物图像识别的下一个前沿 标题: Are Vision-Language Models Ready for Dietary Assessment? Exploring the Next Frontier in AI-Powered Food Image Recognition 作者: Sergio Romero-Tapiador / Ruben Tolosana / Blanca Lacruz-Pleguezuelos / Laura Judith Marcos Zambrano / Guadalupe X.Bazán / Isabel Espinosa-Salinas / Julian Fierrez / Javier Ortega-Garcia / Enrique Carrillo de Santa Pau / Aythami Morales 原文: [英文] [中文] 备注: Accepted at IEEE/CVF Computer Vision and Pattern Recognition Conference workshops 2025 (CVPRw) 10 pages, 4 figures, 2 tables 摘要: 基于食物图像的自动饮食评估仍然是一个挑战,需要精确的食物检测、分割和分类。视觉-语言模型(VLMs)通过整合视觉和文本推理提供了新的可能性。在这项研究中,我们评估了六个最先进的视觉-语言模型(ChatGPT、Gemini、Claude、Moondream、DeepSeek和LLaVA),分析了它们在不同层次上的食物识别能力。为了实验框架,我们引入了FoodNExTDB,一个独特的食物图像数据库,包含9,263张专家标注的图像,涵盖10个类别(例如“蛋白质来源”)、62个子类别(例如“家禽”)和9种烹饪风格(例如“烧烤”)。总的来说,FoodNExTDB包括由七位专家手动标注的所有图像生成的50,000个营养标签。此外,我们提出了一种新的评估指标,专家加权召回率(EWR),考虑了标注者之间的差异性。结果显示,闭源模型在识别包含单一产品的图像中的食物产品时表现优于开源模型,EWR超过90%。尽管具有潜力,当前的视觉-语言模型在细粒度食物识别方面面临挑战,特别是在区分烹饪风格的细微差异和视觉上相似的食物项目方面,这限制了它们在自动饮食评估中的可靠性。FoodNExTDB数据库可通过此https URL公开获取。 |
[65] PathSegDiff:使用扩散模型表示进行病理分割 标题: PathSegDiff: Pathology Segmentation using Diffusion model representations 作者: Sachin Kumar Danisetty / Alexandros Graikos / Srikar Yellapragada / Dimitris Samaras 原文: [英文] [中文] 备注: None 摘要: 图像分割在许多计算病理学流程中至关重要,包括准确的疾病诊断、亚型分类、结果和生存预测。训练分割模型的常见方法依赖于预训练的特征提取器和成对的图像与掩码注释数据集。这些用于训练一个轻量级的预测模型,将特征转换为每像素的类别。特征提取器的选择对最终分割模型的性能至关重要,最近的文献集中在寻找任务来预训练特征提取器。在本文中,我们提出了PathSegDiff,这是一种用于组织病理学图像分割的新方法,利用潜在扩散模型(LDMs)作为预训练的特征提取器。我们的方法利用一个病理学特定的LDM,在自监督编码器的指导下,从H&E染色的组织病理学图像中提取丰富的语义信息。我们采用一个简单的全卷积网络来处理从LDM提取的特征并生成分割掩码。我们的实验在BCSS和GlaS数据集上显示出相对于传统方法的显著改进,突出了领域特定扩散预训练在捕捉复杂组织结构和提高组织病理学图像分割准确性方面的有效性。 |
[66] 深度学习方法在数字细胞学中细胞检测的比较 标题: A Comparison of Deep Learning Methods for Cell Detection in Digital Cytology 作者: Marco Acerbis / Nataša Sladoje / Joakim Lindblad 原文: [英文] [中文] 备注: 14 pages, 6 figures, SCIA2025 摘要: 在许多生物医学图像分析任务中,准确且高效的细胞检测至关重要。我们评估了几种深度学习(DL)方法在巴氏染色细胞全切片图像(WSIs)中的细胞检测性能,重点关注预测的准确性和计算效率。我们研究了最新的现成算法以及定制设计的检测器,并将它们应用于两个数据集:CNSeg数据集和口腔癌(OC)数据集。我们的比较包括一些成熟的分割方法,如StarDist、Cellpose和Segment Anything Model 2(SAM2),以及基于质心的全卷积回归网络(FCRN)方法。我们引入了一种合适的评估指标,以根据与真实位置的距离来评估预测的准确性。我们还探讨了数据集大小和数据增强技术对模型性能的影响。结果表明,基于质心的方法,特别是改进的全卷积回归网络(IFCRN)方法,在检测准确性和计算效率方面优于基于分割的方法。这项研究强调了基于质心的检测器在资源有限的环境中作为细胞检测的首选方案的潜力,提供了更快的处理时间和更低的GPU内存使用,而不影响准确性。 |
[67] VideoChat-R1:通过强化微调增强时空感知 标题: VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning 作者: Xinhao Li / Ziang Yan / Desen Meng / Lu Dong / Xiangyu Zeng / Yinan He / Yali Wang / Yu Qiao / Yi Wang / Limin Wang 原文: [英文] [中文] 备注: None 摘要: 近年来,强化学习的进步显著提升了多模态大型语言模型(MLLMs)的推理能力。尽管诸如群体相对策略优化(GRPO)和基于规则的奖励机制等方法在文本和图像领域表现出潜力,但它们在视频理解中的应用仍然有限。本文系统地探讨了使用GRPO进行视频MLLMs的强化微调(RFT),旨在增强时空感知能力的同时保持一般能力。我们的实验表明,RFT在任务特定的改进中具有高度的数据效率。通过在有限样本的时空感知目标上进行多任务RFT,我们开发了VideoChat-R1,这是一种强大的视频MLLM,在时空感知任务上实现了最先进的性能,同时不牺牲聊天能力,并展现出新兴的时空推理能力。与Qwen2.5-VL-7B相比,VideoChat-R1在诸如时间定位(+31.8)和目标跟踪(+31.2)等任务中将性能提升了数倍。此外,它在一般问答基准测试如VideoMME(+0.9)、MVBench(+1.0)和感知测试(+0.9)上也有显著提升。我们的研究结果强调了RFT在视频MLLMs的专门任务增强中的潜力。我们希望我们的工作为未来视频MLLMs中的强化学习研究提供有价值的见解。 |
[68] 通过动态数据集管理实现高效的地球观测自监督学习 标题: Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation 作者: Thomas Kerdreux / Alexandre Tuel / Quentin Febvre / Alexis Mouche / Bertrand Chapron 原文: [英文] [中文] 备注: Accepted at CVPR Workshop : The First Workshop on Foundation and Large Vision Models in Remote Sensing 摘要: 自监督学习(SSL)推动了地球观测(EO)视觉基础模型的发展,展示了在各种遥感任务中的强大迁移能力。尽管之前的工作主要集中在网络架构和训练策略上,但数据集策划的角色,特别是在平衡和多样化预训练数据集方面,仍然未被充分探索。在EO中,这一挑战因卫星图像中常见的冗余和重尾分布而加剧,这可能导致偏见的表示和低效的训练。 在这项工作中,我们提出了一种动态数据集修剪策略,旨在通过最大化数据集的多样性和平衡来改善SSL预训练。我们的方法迭代地优化训练集,而无需预先存在的特征提取器,使其非常适合于策划数据集有限或不可用的领域。我们在Sentinel-1波模式(WV)合成孔径雷达(SAR)档案上展示了我们的方法,这是一个以海洋观测为主的具有挑战性的数据集。我们从头开始训练模型,使用跨越10年的整个Sentinel-1 WV档案。在三个下游任务中,我们的结果表明,动态修剪提高了计算效率和表示质量,增强了迁移能力。 我们还发布了Nereus-SAR-1的权重,这是Nereus系列中的第一个模型,该系列使用SAR图像进行海洋观测和分析的基础模型,发布在这个网址。 |
[69] 用于平移-倾斜-变焦相机的深度单图像校正方法 标题: A Deep Single Image Rectification Approach for Pan-Tilt-Zoom Cameras 作者: Teng Xiao / Qi Hu / Qingsong Yan / Wei Liu / Zhiwei Ye / Fei Deng 原文: [英文] [中文] 备注: Accepted to ICME 2025 摘要: 带有广角镜头的云台变焦(PTZ)摄像机广泛用于监控,但由于其固有的非线性失真,通常需要进行图像校正。目前的深度学习方法通常难以保持细粒度的几何细节,导致校正不准确。本文提出了一种前向失真和后向变形网络(FDBW-Net),这是一个用于广角图像校正的新颖框架。它首先使用前向失真模型来合成桶形失真的图像,减少像素冗余并防止模糊。该网络采用带有注意力机制的金字塔上下文编码器来生成包含几何细节的后向变形流。然后,使用多尺度解码器来恢复失真的特征并输出校正后的图像。FDBW-Net的性能在各种数据集上得到了验证:公共基准、AirSim渲染的PTZ摄像机图像和真实场景PTZ摄像机数据集。结果表明,FDBW-Net在失真校正方面达到了SOTA性能,提高了PTZ摄像机在实际视觉应用中的适应性。 |
[70] Wheat3DGS:基于高斯散点的田间小麦穗3D重建、实例分割和表型分析 标题: Wheat3DGS: In-field 3D Reconstruction, Instance Segmentation and Phenotyping of Wheat Heads with Gaussian Splatting 作者: Daiwei Zhang / Joaquin Gajardo / Tomislav Medic / Isinsu Katircioglu / Mike Boss / Norbert Kirchgessner / Achim Walter / Lukas Roth 原文: [英文] 备注: Copyright 2025 IEEE. This is the author's version of the work. It is posted here for your personal use. Not for redistribution. The definitive version is published in the 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) 摘要: 植物形态特征的自动提取对于通过高通量田间表型分析(HTFP)支持作物育种和农业管理至关重要。基于多视角RGB图像的解决方案因其可扩展性和经济性而具有吸引力,能够实现二维方法无法直接捕捉的体积测量。尽管像神经辐射场(NeRFs)这样的先进方法显示出前景,但其应用仅限于对少数植物或器官进行计数或特征提取。此外,由于田间条件下作物冠层的遮挡和密集排列,准确测量复杂结构(如单个小麦穗)仍然特别具有挑战性,而这对于研究作物产量至关重要。最近开发的3D高斯散射(3DGS)由于其高质量的重建和显式的基于点的表示,为HTFP提供了一个有前途的替代方案。在本文中,我们提出了Wheat3DGS,这是一种新颖的方法,利用3DGS和“Segment Anything Model”(SAM)实现对数百个小麦穗的精确3D实例分割和形态测量,代表了3DGS在HTFP中的首次应用。我们通过与高分辨率激光扫描数据的对比验证了小麦穗提取的准确性,获得了长度、宽度和体积的每实例平均绝对百分比误差分别为15.1%、18.3%和40.2%。我们提供了与基于NeRF的方法和传统多视角立体(MVS)的额外比较,展示了更优的结果。我们的方法能够快速、无损地大规模测量与产量相关的关键特征,对加速作物育种和提高我们对小麦发育的理解具有重要意义。 |
[71] SIGMAN:利用数百万资产扩展3D人体高斯生成 标题: SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets 作者: Yuhang Yang / Fengqi Liu / Yixing Lu / Qin Zhao / Pingyu Wu / Wei Zhai / Ran Yi / Yang Cao / Lizhuang Ma / Zheng-Jun Zha / Junting Dong 原文: [英文] [中文] 备注: project page:this https URL 摘要: 3D人类数字化一直以来都是一个备受追求但极具挑战性的任务。现有的方法旨在从单视图或多视图生成高质量的3D数字人,但主要受限于当前的范式和3D人类资产的稀缺。具体来说,最近的方法分为几种范式:基于优化的和前馈的(包括单视图回归和带重建的多视图生成)。然而,它们受到速度慢、质量低、级联推理以及由于遮挡和不可见性导致的低维平面到高维空间映射的模糊性的限制。此外,现有的3D人类资产仍然是小规模的,不足以支持大规模训练。为了解决这些挑战,我们提出了一种用于3D人类数字化的潜在空间生成范式,该范式通过UV结构的VAE将多视图图像压缩为高斯分布,并结合基于DiT的条件生成,我们将病态的低维到高维映射问题转化为可学习的分布转移,这也支持端到端推理。此外,我们采用多视图优化方法结合合成数据构建了HGS-1M数据集,其中包含100万个3D高斯资产以支持大规模训练。实验结果表明,我们的范式在大规模训练的支持下,能够生成具有复杂纹理、面部细节和宽松衣物变形的高质量3D人类高斯分布。 |
[72] 潜在扩散 U-Net 表示包含位置嵌入和异常 标题: Latent Diffusion U-Net Representations Contain Positional Embeddings and Anomalies 作者: Jonas Loos / Lorenz Linhardt 原文: [英文] [中文] 备注: ICLR 2025 Workshop on Deep Generative Models: Theory, Principle, and Efficacy 摘要: 扩散模型在合成逼真图像方面展示了卓越的能力,引发了人们对其表示用于各种下游任务的兴趣。为了更好地理解这些表示的鲁棒性,我们通过表示相似性和范数分析了流行的稳定扩散模型。我们的研究结果揭示了三个现象:(1)中间表示中存在学习到的位置嵌入,(2)高相似度的角落伪影,以及(3)异常的高范数伪影。这些发现强调了在将扩散模型表示用于需要鲁棒特征的下游任务之前,进一步研究其性质的必要性。项目页面:this https URL |
[73] 使用经济高效的偏振采集进行光滑物体重建 标题: Glossy Object Reconstruction with Cost-effective Polarized Acquisition 作者: Bojian Wu / Yifan Peng / Ruizhen Hu / Xiaowei Zhou 原文: [英文] 备注: Accepted to CVPR 2025 as highlight 摘要: 基于图像的光滑物体3D重建的挑战在于从捕获的图像中分离光滑表面的漫反射和镜面反射成分,这一任务因仅使用RGB数据难以辨别光照条件和材料属性的模糊性而变得复杂。尽管最先进的方法依赖于定制和/或高端设备进行数据采集,这可能既繁琐又耗时,本文介绍了一种可扩展的偏振辅助方法,该方法使用成本效益高的采集工具。通过将线性偏振器附加到现成的RGB相机上,可以在不需要预先校准或精确测量偏振器角度的情况下捕获多视角偏振图像,从而大大降低系统构建成本。所提出的方法将物体表面的偏振BRDF、斯托克斯矢量和偏振状态表示为神经隐式场。这些场结合偏振器角度,通过优化输入偏振图像的渲染损失来获取。通过利用偏振渲染的隐式表示的基本物理原理,我们的方法在公共数据集和真实捕获图像的重建和新视图合成方面,通过实验展示了优于现有技术的性能。 |
[74] 从大型语言模型中提取文本先验以实现高效图像融合 标题: Distilling Textual Priors from LLM to Efficient Image Fusion 作者: Ran Zhang / Xuanhua He / Ke Cao / Liu Liu / Li Zhang / Man Zhou / Jie Zhang 原文: [英文] [中文] 备注: None 摘要: 多模态图像融合旨在从多个源输入中合成单一且全面的图像。传统方法,如卷积神经网络(CNNs)和生成对抗网络(GANs),虽然效率较高,但在处理低质量或复杂输入时表现不佳。最近的文本引导方法利用大型模型的先验知识来克服这些限制,但代价是显著的计算开销,包括内存和推理时间。为了解决这一挑战,我们提出了一种新的框架,用于蒸馏大型模型的先验知识,消除了推理过程中对文本引导的需求,同时大幅减少模型大小。我们的框架采用教师-学生架构,其中教师网络整合大型模型的先验知识,并通过定制的蒸馏过程将这些知识转移到较小的学生网络。此外,我们引入了空间-通道交叉融合模块,以增强模型在空间和通道维度上利用文本先验的能力。我们的方法在计算效率和融合质量之间实现了良好的平衡。蒸馏后的网络仅需教师网络10%的参数和推理时间,却保留了90%的性能,并优于现有的最先进方法。大量实验验证了我们方法的有效性。该实现将作为开源资源公开提供。 |
[75] 用于评估条件图像生成的统一代理框架 标题: A Unified Agentic Framework for Evaluating Conditional Image Generation 作者: Jifang Wang / Xue Yang / Longyue Wang / Zhenran Xu / Yiyu Wang / Yaowei Wang / Weihua Luo / Kaifu Zhang / Baotian Hu / Min Zhang 原文: [英文] [中文] 备注: Work in progress. GitHub: this https URL 摘要: 条件图像生成因其个性化内容的能力而受到广泛关注。然而,该领域在开发任务无关、可靠且可解释的评估指标方面面临挑战。本文介绍了CIGEval,这是一种用于全面评估条件图像生成任务的统一代理框架。CIGEval以大型多模态模型(LMMs)为核心,集成了多功能工具箱,并建立了细粒度的评估框架。此外,我们合成了用于微调的评估轨迹,使得较小的LMMs能够自主选择合适的工具,并根据工具输出进行细致的分析。在七个主要的条件图像生成任务中的实验表明,CIGEval(GPT-4o版本)与人类评估的相关性高达0.4625,与标注者之间的相关性0.47非常接近。此外,当使用仅2.3K训练轨迹的7B开源LMMs实现时,CIGEval超越了之前基于GPT-4o的最新方法。关于GPT-4o图像生成的案例研究突显了CIGEval在识别与主题一致性和控制指导遵循相关的细微问题方面的能力,表明其在自动化评估图像生成任务方面具有达到人类水平可靠性的巨大潜力。 |
[76] 通过嵌入侧信息进行广义语义对比学习以实现小样本目标检测 标题: Generalized Semantic Contrastive Learning via Embedding Side Information for Few-Shot Object Detection 作者: Ruoyu Chen / Hua Zhang / Jingzhi Li / Li Liu / Zhen Huang / Xiaochun Cao 原文: [英文] [中文] 备注: Accepted by T-PAMI (IEEE Transactions on Pattern Analysis and Machine Intelligence) 摘要: 少样本目标检测(FSOD)的目标是通过少量训练样本检测新颖的目标。该任务的核心挑战在于如何在基础类别空间的基础上构建一个通用的特征空间,以适应未知场景中的新类别。然而,由于新类别样本不足,仍然存在两个问题:(1)新类别的特征容易被基础类别的特征隐式表示,导致分类器边界不可分,(2)数据较少的新类别不足以充分代表其分布,模型微调容易过拟合。为了解决这些问题,我们引入了辅助信息以缓解由特征空间和样本视角带来的负面影响,并提出了一种新颖的通用特征表示学习方法用于FSOD。具体来说,我们首先利用嵌入的辅助信息构建一个知识矩阵,以量化基础类别和新类别之间的语义关系。然后,为了加强语义相似类别之间的区分,我们进一步开发了嵌入辅助信息的上下文语义监督对比学习。此外,为了防止由稀疏样本引起的过拟合问题,我们引入了一个由辅助信息引导的区域感知掩码模块,以增加样本的多样性,该模块通过反事实解释找到并舍弃区分相似类别的偏置信息,并进一步优化区分性表示空间。在PASCAL VOC、MS COCO、LVIS V1、FSOD-1K和FSVOD-500基准上使用ResNet和ViT骨干进行的大量实验表明,我们的模型优于之前的最新方法,显著提高了FSOD在大多数镜头/分割中的能力。 |
[77] 通过参数高效的知识转移,教病理学基础模型准确预测基因表达 标题: Teaching pathology foundation models to accurately predict gene expression with parameter efficient knowledge transfer 作者: Shi Pan / Jianan Chen / Maria Secrier 原文: [英文] [中文] 备注: None 摘要: 基因表达分析为细胞异质性、生物过程和疾病机制提供了关键的见解。近年来,越来越多的研究关注于能够直接从数字化组织病理学图像预测基因表达的计算方法。虽然图像基础模型在多种病理学下游分析中表现出色,但其在基因表达预测方面的性能仍然有限。明确地结合转录组模型的信息可以帮助图像模型解决领域转移问题,但基础模型的微调和对齐可能代价高昂。在这项工作中,我们提出了参数高效知识转移(PEKA),这是一种新颖的框架,利用块仿射适应并整合知识蒸馏和结构对齐损失进行跨模态知识转移。我们使用多个空间转录组学数据集(包括206,123个图像块及其匹配的基因表达谱)评估了PEKA在基因表达预测中的表现,这些数据集涵盖了各种类型的组织。PEKA在基线基础模型上至少实现了5%的性能提升,同时也优于其他参数高效的微调策略。我们将在同行评审后发布代码、数据集和对齐模型,以促进更广泛的采用和参数高效模型对齐的进一步发展。 |
[78] 检测AI生成的艺术作品 标题: Detecting AI-generated Artwork 作者: Meien Li / Mark Stamp 原文: [英文] 备注: None 摘要: 人工智能(AI)生成的艺术作品的高效率和高质量为人类艺术家带来了新的担忧和挑战。特别是,最近生成式AI的进步使得人们难以区分人类创作的艺术和AI生成的艺术。在这项研究中,我们考虑了各种机器学习(ML)和深度学习(DL)模型在区分AI生成的艺术作品和人类创作的艺术作品中的潜在实用性。我们专注于三种具有挑战性的艺术风格,即巴洛克、立体主义和表现主义。我们测试的学习模型包括逻辑回归(LR)、支持向量机(SVM)、多层感知器(MLP)和卷积神经网络(CNN)。我们最好的实验结果在六个类别中实现了0.8208的多类准确率,并在区分AI生成和人类创作艺术的二分类问题中取得了令人印象深刻的0.9758的准确率。 |
[79] GenDoP:作为摄影指导的自回归相机轨迹生成 标题: GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography 作者: Mengchen Zhang / Tong Wu / Jing Tan / Ziwei Liu / Gordon Wetzstein / Dahua Lin 原文: [英文] [中文] 备注: None 摘要: 摄像机轨迹设计在视频制作中起着至关重要的作用,是传达导演意图和增强视觉叙事的基本工具。在电影摄影中,摄影指导精心设计摄像机运动,以实现富有表现力和意图明确的构图。然而,现有的摄像机轨迹生成方法仍然有限:传统方法依赖于几何优化或手工制作的程序系统,而最近的基于学习的方法往往继承了结构偏见或缺乏文本对齐,限制了创意合成。在这项工作中,我们介绍了一种受摄影指导专业知识启发的自回归模型,用于生成艺术性和表现力丰富的摄像机轨迹。我们首先介绍DataDoP,这是一个大规模多模态数据集,包含29,000个真实世界的镜头,具有自由移动的摄像机轨迹、深度图和详细的特定运动、场景交互和导演意图的描述。得益于全面而多样的数据库,我们进一步训练了一种自回归、仅解码器的Transformer,基于文本指导和RGBD输入生成高质量、上下文感知的摄像机运动,命名为GenDoP。大量实验表明,与现有方法相比,GenDoP提供了更好的可控性、更细粒度的轨迹调整和更高的运动稳定性。我们相信我们的方法为基于学习的电影摄影设立了新的标准,为未来在摄像机控制和电影制作方面的进步铺平了道路。我们的项目网站:this https URL。 |
[80] OmniCaptioner:一个统治所有的字幕生成器 标题: OmniCaptioner: One Captioner to Rule Them All 作者: Yiting Lu / Jiakang Yuan / Zhen Li / Shitian Zhao / Qi Qin / Xinyue Li / Le Zhuo / Licheng Wen / Dongyang Liu / Yuewen Cao / Xiangchao Yan / Xin Li / Botian Shi / Tao Chen / Zhibo Chen / Lei Bai / Bo Zhang / Peng Gao 原文: [英文] 备注: More visualizations on Homepage: this https URL and Official code: this https URL 摘要: 我们提出了OmniCaptioner,这是一种多功能的视觉描述生成框架,能够为各种视觉领域生成细粒度的文本描述。与之前仅限于特定图像类型(例如,自然图像或几何视觉)的方法不同,我们的框架为自然图像、视觉文本(例如,海报、用户界面、教科书)和结构化视觉(例如,文档、表格、图表)的描述提供了统一的解决方案。通过将低级像素信息转换为语义丰富的文本表示,我们的框架弥合了视觉和文本模态之间的差距。我们的结果突出了三个关键优势:(i)增强的视觉推理能力,通过长上下文的视觉模态描述,特别是DeepSeek-R1系列,能够在多模态场景中有效推理;(ii)改进的图像生成,详细的描述改善了文本到图像生成和图像转换等任务;(iii)高效的监督微调(SFT),能够以更少的数据实现更快的收敛。我们相信,OmniCaptioner的多功能性和适应性可以为弥合语言和视觉模态之间的差距提供新的视角。 |
[81] 我们已经完成以对象为中心的学习了吗? 标题: Are We Done with Object-Centric Learning? 作者: Alexander Rubinstein / Ameya Prabhu / Matthias Bethge / Seong Joon Oh 原文: [英文] [中文] 备注: None 摘要: 以对象为中心的学习(OCL)旨在学习仅编码单个对象的表示,从而与场景中的其他对象或背景线索隔离开来。这种方法支持多种目标,包括分布外(OOD)泛化、高效样本组合以及结构化环境建模。大多数研究集中于开发无监督机制,将对象在表示空间中分离到离散的槽中,并通过无监督对象发现进行评估。然而,随着最近高效样本分割模型的发展,我们可以在像素空间中分离对象并独立编码它们。这在OOD对象发现基准上实现了显著的零样本性能,可扩展到基础模型,并能够处理可变数量的槽。因此,OCL方法获得以对象为中心的表示的目标已基本实现。尽管取得了这些进展,但一个关键问题仍然存在:在场景中分离对象的能力如何促进更广泛的OCL目标,例如OOD泛化?我们通过OCL的视角研究由虚假背景线索引起的OOD泛化挑战来解决这个问题。我们提出了一种新的、无需训练的探测方法,称为$\textbf{应用遮罩的对象中心分类(OCCAM)}$,证明基于分割的单个对象编码显著优于基于槽的OCL方法。然而,现实世界应用中的挑战仍然存在。我们为OCL社区提供了使用可扩展的以对象为中心的表示的工具箱,并专注于实际应用和基本问题,例如理解人类认知中的对象感知。我们的代码可在$\href{this https URL}{此处}$获取。 |
[82] FlashDepth:2K分辨率下的实时流视频深度估计 标题: FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution 作者: Gene Chou / Wenqi Xian / Guandao Yang / Mohamed Abdelfattah / Bharath Hariharan / Noah Snavely / Ning Yu / Paul Debevec 原文: [英文] [中文] 备注: None 摘要: 一个多功能的视频深度估计模型应该 (1) 在各帧之间保持准确和一致,(2) 生成高分辨率的深度图,(3) 支持实时流媒体。我们提出了FlashDepth,这是一种满足所有三个要求的方法,可以在2044x1148的流媒体视频上以24 FPS进行深度估计。我们展示了,通过对预训练的单图像深度模型进行仔细的修改,这些功能可以在相对较少的数据和训练下实现。我们在多个未见过的数据集上对我们的方法进行了评估,并与最先进的深度模型进行了比较,发现我们的模型在边界清晰度和速度方面显著优于它们,同时保持了有竞争力的准确性。我们希望我们的模型能够支持需要高分辨率深度的各种应用,例如视频编辑,以及需要在线决策的应用,例如机器人技术。 |