scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年2月6日更新论文42
[1] MIND:基于生成式混合神经表示的微结构逆向设计
标题: MIND: Microstructure INverse Design with Generative Hybrid Neural Representation
作者: Tianyang Xue / Haochen Li / Longdu Liu / Paul Henderson / Pengbin Tang / Lin Lu / Jikai Liu / Haisen Zhao / Hao Peng / Bernd Bickel
原文:   [英文]   [中文]  
备注: None
摘要:
微结构的逆向设计在优化具有特定目标物理特性的超材料中起着关键作用。传统的正向设计方法由于无法探索广阔的组合设计空间而受到限制,而逆向设计通过直接生成满足预定义性能标准的结构提供了一种引人注目的替代方案。然而,由于几何和材料特性的复杂相互依赖性,实现对它们的精确控制仍然是一个重大挑战。现有的方法通常依赖于体素或参数化表示,往往限制了设计的灵活性和结构的多样性。在这项工作中,我们提出了一种新颖的生成模型,将潜在扩散与Holoplane相结合,这是一种先进的混合神经表示,能够同时编码几何和物理特性。这种组合确保了几何和特性之间的优越对齐。我们的方法可以推广到多个微结构类别,能够生成多样化的、可拼接的微结构,在特性准确性和几何有效性控制方面显著优于现有方法。我们引入了一个多类别数据集,涵盖了各种几何形态,包括桁架、壳体、管状和板状结构,以训练和验证我们的模型。实验结果表明,该模型能够生成满足目标特性、保持几何有效性并无缝集成到复杂组件中的微结构。此外,我们通过生成新微结构、跨类别插值和异质微结构填充探索了我们框架的潜力。数据集和源代码将在发表时开源。

[2] 基于深度学习的老年人面部表情识别:系统综述
标题: Deep Learning-Based Facial Expression Recognition for the Elderly: A Systematic Review
作者: F. Xavier Gaya-Morey / Jose M. Buades-Rubio / Philippe Palanque / Raquel Lacuesta / Cristina Manresa-Yee
原文:   [英文]   [中文]  
备注: None
摘要:
全球人口的快速老龄化突显了对支持老年人的技术需求,特别是在医疗保健和情感福祉方面。面部表情识别(FER)系统提供了一种非侵入性的方法来监测情感状态,可应用于辅助生活、心理健康支持和个性化护理。本研究系统性地回顾了基于深度学习的FER系统,重点关注其在老年人群中的应用。通过严格的方法,我们分析了过去十年中发表的31项研究,解决了诸如老年人特定数据集的稀缺、类别不平衡以及年龄相关的面部表情差异的影响等挑战。我们的研究结果表明,卷积神经网络在FER中仍占主导地位,尤其是在资源受限环境中的轻量级版本。然而,现有数据集在年龄代表性方面往往缺乏多样性,实际应用仍然有限。此外,隐私问题和对可解释人工智能的需求成为采用的主要障碍。该综述强调了开发年龄包容性数据集、整合多模态解决方案以及采用XAI技术以提高系统的可用性、可靠性和可信度的重要性。我们最后提出了未来研究的建议,以弥合学术进步与老年护理实际应用之间的差距。

[3] 使用形态膨胀的盲可见水印去除
标题: Blind Visible Watermark Removal with Morphological Dilation
作者: Preston K. Robinette / Taylor T. Johnson
原文:   [英文]   [中文]  
备注: None
摘要:
可见水印对图像修复技术提出了重大挑战,尤其是在目标背景未知的情况下。为此,我们提出了MorphoMod,这是一种用于自动去除可见水印的新方法,它在盲设定下操作——无需目标图像。与现有方法不同,MorphoMod能够有效去除不透明和透明水印,同时保留语义内容,使其非常适合实际应用。在包括彩色大规模水印数据集(CLWD)、LOGO系列和新引入的Alpha1数据集的基准数据集上的评估表明,与最先进的方法相比,MorphoMod在水印去除效果上提高了多达50.8%。消融研究突出了用于修复的提示、去除前填充策略和修复模型性能对水印去除的影响。此外,对隐写失向的案例研究揭示了水印去除在破坏高级隐藏信息方面的更广泛应用。MorphoMod为水印去除提供了一种强大且适应性强的解决方案,并为图像修复和对抗性操作的进一步进步开辟了道路。

[4] 具有可证明解缠能力的可控视频生成
标题: Controllable Video Generation with Provable Disentanglement
作者: Yifan Shen / Peiyuan Zhu / Zijian Li / Shaoan Xie / Zeyu Tang / Namrata Deka / Zongfang Liu / Guangyi Chen / Kun Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
尽管在生成高质量和一致性视频方面取得了最近的进展,可控视频生成仍然是一个重大挑战。大多数现有的视频生成控制方法将视频视为一个整体,忽视了复杂的细粒度时空关系,这限制了控制的精度和效率。在本文中,我们提出了可控视频生成对抗网络(CoVoGAN),以解开视频概念,从而促进对各个概念的高效和独立控制。具体来说,遵循最小变化原则,我们首先解开静态和动态潜在变量。然后,我们利用充分变化特性来实现动态潜在变量的组件识别性,从而实现对运动和身份的独立控制。为了建立理论基础,我们提供了严格的分析,证明了我们方法的可识别性。基于这些理论见解,我们设计了一个时间过渡模块来解开潜在动态。为了强制执行最小变化原则和充分变化特性,我们最小化潜在动态变量的维度并施加时间条件独立性。为了验证我们的方法,我们将此模块作为GANs的插件进行集成。在各种视频生成基准上的广泛定性和定量实验表明,我们的方法在不同的现实场景中显著提高了生成质量和可控性。

[5] 粗到细自蒸馏的多实例学习
标题: Multiple Instance Learning with Coarse-to-Fine Self-Distillation
作者: Shuyang Wu / Yifu Qiu / Ines P. Nearchou / Sandrine Prost / Jonathan A. Fallowfield / Hakan Bilen / Timothy J. Kendall
原文:   [英文]   [中文]  
备注: None
摘要:
在计算病理学中,针对全切片图像(WSI)分析的多实例学习(MIL)通常忽略了实例级别的学习,因为监督通常仅在包级别提供。在这项工作中,我们提出了PathMIL,一个旨在通过两个视角改进MIL的框架:(1)采用实例级别的监督,(2)在包级别学习实例间的上下文信息。首先,我们提出了一种新颖的粗到细自蒸馏(CFSD)范式,以探测和蒸馏一个用包级信息训练的分类器,从而获得实例级标签,这些标签可以更精细地为同一分类器提供监督。其次,为了捕捉WSI中的实例间上下文信息,我们提出了二维位置编码(2DPE),它对包内实例的空间外观进行编码。我们还从理论和实证上证明了CFSD的实例级可学习性。PathMIL在多个基准任务上进行了评估,包括亚型分类(TCGA-NSCLC)、肿瘤分类(CAMELYON16)以及一个内部基准的乳腺癌受体状态分类。我们的方法达到了最先进的性能,雌激素和孕激素受体状态分类的AUC分别为0.9152和0.8524,亚型分类的AUC为0.9618,肿瘤分类的AUC为0.8634,超越了现有的方法。

[6] RFMedSAM 2:自动提示优化以增强使用SAM 2的体积医学图像分割
标题: RFMedSAM 2: Automatic Prompt Refinement for Enhanced Volumetric Medical Image Segmentation with SAM 2
作者: Bin Xie / Hao Tang / Yan Yan / Gady Agam
原文:   [英文]   [中文]  
备注: None
摘要:
Segment Anything Model 2(SAM 2)是一种提示驱动的基础模型,将SAM扩展到图像和视频领域,与其前身相比,展示了更优越的零样本性能。基于SAM在医学图像分割中的成功,SAM 2展现了进一步发展的显著潜力。然而,与SAM类似,SAM 2也受到其输出二值掩码、无法推断语义标签以及依赖于目标对象区域的精确提示的限制。此外,直接将SAM和SAM 2应用于医学图像分割任务会产生次优结果。在本文中,我们通过自定义微调适配器探索了SAM 2的性能上限,在BTCV数据集上实现了92.30%的Dice相似系数(DSC),比最先进的nnUNet高出12%。随后,我们通过研究各种提示生成器来解决提示依赖性问题。我们引入了一个UNet来自动生成预测掩码和边界框,作为SAM 2的输入。SAM 2的后续双阶段精细化进一步提升了性能。大量实验表明,我们的方法在AMOS2022数据集上实现了最先进的结果,Dice系数比nnUNet提高了2.9%,并在BTCV数据集上比nnUNet高出6.4%。

[7] 重新思考面向对象中心基础模型的视觉Transformer
标题: Rethinking Vision Transformer for Object Centric Foundation Models
作者: Manuel Traub / Martin V. Butz
原文:   [英文]   [中文]  
备注: None
摘要:
最近的最先进的目标分割机制,如Segment Anything Model (SAM)和FastSAM,首先在多个层次上对整个图像进行编码,然后专注于为某个特定对象或区域生成掩码。我们提出了一种离网格的类中央凹输入补丁(FLIP)方法,该方法从一开始就以对象为中心的方式选择图像输入并对其进行编码。在此过程中,它将位置编码与对象中心的感知编码分开。FLIP在数据效率上更高,并且在高分辨率视觉场景中对相对较小的对象进行掩码时,提供了更好的分割性能。在Hypersim、KITTI-360和OpenImages等标准基准测试中,FLIP实现的交并比(IoU)得分接近SAM的性能,但计算量要少得多。在所有IoU测量中,它都超过了FastSAM。我们还引入了一个额外的半自然但高度直观的数据集,在该数据集中,FLIP整体上以及特别是在相对较小的对象上都优于SAM和FastSAM。鉴于FLIP是一种端到端的以对象为中心的分割方法,它在特别需要计算效率高、空间选择性强的对象跟踪的应用中具有很高的潜力。

[8] 用于头部计算机断层扫描中可推广疾病检测的3D基础人工智能模型
标题: 3D Foundation AI Model for Generalizable Disease Detection in Head Computed Tomography
作者: Weicheng Zhu / Haoxu Huang / Huanze Tang / Rushabh Musthyala / Boyang Yu / Long Chen / Emilio Vega / Thomas O'Donnell / Seena Dehkharghani / Jennifer A. Frontera / Arjun V. Masurkar / Kara Melmed / Narges Razavian
原文:   [英文]   [中文]  
备注: Under Review Preprint
摘要:
头部计算机断层扫描(CT)成像是一种广泛使用的成像方式,具有多种医学适应症,特别是在评估大脑、颅骨和脑血管系统的病变时。由于其成像速度快、安全、成本低和普及性,头部CT通常是神经急症的首选成像方式。深度学习模型可以帮助检测多种疾病。然而,高质量标签和注释的稀缺性,特别是在不常见的病症中,显著阻碍了强大模型的发展。为了解决这一挑战,我们引入了FM-CT:一种用于头部CT的基础模型,旨在实现可推广的疾病检测,并通过自监督学习进行训练。我们的方法在一个包含361,663个无对比剂3D头部CT扫描的大型多样化数据集上预训练深度学习模型,无需人工注释,使模型能够学习稳健、可推广的特征。为了研究自监督学习在头部CT中的潜力,我们采用了自蒸馏的判别和掩码图像建模,并将我们的模型构建为3D而非切片级别(2D),以更全面和高效地利用头部CT扫描的结构。模型的下游分类性能通过内部和三个外部数据集进行评估,涵盖了分布内(ID)和分布外(OOD)数据。我们的结果表明,与从头开始训练的模型和以前的3D CT基础模型相比,自监督基础模型在稀缺注释数据集上的下游诊断任务性能显著提高。这项工作突出了自监督学习在医学成像中的有效性,并为3D头部CT图像分析设定了新的基准,促进了人工智能在基于头部CT的诊断中的更广泛应用。

[9] 基于AIoT的智能交通管理系统
标题: AIoT-based smart traffic management system
作者: Ahmed Mahmoud Elbasha / Mohammad M. Abdellatif
原文:   [英文]  
备注: None
摘要:
本文介绍了一种新颖的基于人工智能的智能交通管理系统,旨在优化交通流量并减少城市环境中的拥堵。通过分析现有闭路电视摄像机的实时画面,这种方法消除了对额外硬件的需求,从而最大限度地降低了部署成本和持续的维护费用。该人工智能模型处理实时视频流,以准确计数车辆并评估交通密度,从而实现自适应信号控制,优先考虑交通量较大的方向。这种实时适应性确保了更顺畅的交通流动,减少了拥堵,并最大限度地缩短了司机的等待时间。此外,所提出的系统使用PyGame进行模拟,以评估其在各种交通条件下的性能。模拟结果表明,基于人工智能的系统比传统的静态交通灯系统提高了34%,显著改善了交通流效率。利用人工智能优化交通信号可以在解决城市交通挑战中发挥关键作用,为现代城市提供一种具有成本效益、可扩展且高效的解决方案。这一创新系统代表了智能城市基础设施和智能交通系统领域的关键进步。

[10] 遥感变化检测中样本高效深度学习的综述:任务、策略与挑战
标题: A Survey of Sample-Efficient Deep Learning for Change Detection in Remote Sensing: Tasks, Strategies, and Challenges
作者: Lei Ding / Danfeng Hong / Maofan Zhao / Hongruixuan Chen / Chenyu Li / Jie Deng / Naoto Yokoya / Lorenzo Bruzzone / Jocelyn Chanussot
原文:   [英文]   [中文]  
备注: Accepted in IEEE GRSM
摘要:
在过去的十年中,深度学习(DL)的快速发展使得在大量遥感图像(RSIs)上进行自动、准确和稳健的变化检测(CD)成为可能。然而,尽管CD方法取得了进展,但由于输入数据的多样性和应用背景的不同,它们在实际应用中的应用仍然有限。例如,收集到的RSIs可能是时间序列观测数据,并且需要更具信息量的结果来指示变化的时间或具体的变化类别。此外,训练深度神经网络(DNN)需要大量的训练样本,而在许多情况下,这些样本难以收集。为了解决这些挑战,已经开发了各种特定的CD方法,以考虑不同的应用场景和训练资源。此外,图像生成、自监督和视觉基础模型(VFMs)的最新进展为解决基于DL的CD的“数据饥渴”问题开辟了新途径。在更广泛的应用场景中开发这些方法需要进一步的研究和讨论。因此,本文总结了不同CD任务的文献方法以及在样本有限的场景中训练和部署基于DL的CD方法的可用策略和技术。我们期望这篇综述能够为该领域的研究人员提供新的见解和灵感,以开发出能够在更广泛的背景中应用的更有效的CD方法。

[11] RS-YOLOX:一种用于卫星遥感图像中目标检测的高精度检测器
标题: RS-YOLOX: A High Precision Detector for Object Detection in Satellite Remote Sensing Images
作者: Lei Yang / Guowu Yuan / Hao Zhou / Hongyu Liu / Jian Chen / Hao Wu
原文:   [英文]  
备注: None
摘要:
通过卫星遥感图像进行自动目标检测对于资源勘探和自然灾害评估具有重要意义。为了解决遥感图像检测中存在的问题,本文提出了一种改进的YOLOX模型用于卫星遥感图像的自动检测。该模型被命名为RS-YOLOX。为了增强网络的特征学习能力,我们在YOLOX的主干网络中使用了高效通道注意力(ECA),并将自适应空间特征融合(ASFF)与YOLOX的颈部网络结合。为了平衡训练中正负样本的数量,我们使用了Varifocal Loss函数。最后,为了获得高性能的遥感目标检测器,我们将训练好的模型与一个名为Slicing Aided Hyper Inference(SAHI)的开源框架结合。该工作在三个航空遥感数据集(DOTA-v1.5、TGRS-HRRSD和RSOD)上评估了模型。我们的对比实验表明,我们的模型在遥感图像数据集的目标检测中具有最高的准确性。

[12] 用于跨域模仿学习的域不变逐帧特征提取与视觉观测
标题: Domain-Invariant Per-Frame Feature Extraction for Cross-Domain Imitation Learning with Visual Observations
作者: Minung Kim / Kawon Lee / Jungmo Kim / Sungho Choi / Seungyul Han
原文:   [英文]   [中文]  
备注: 8 pages main, 19 pages appendix with reference. Submitted to ICML 2025
摘要:
模仿学习(IL)使智能体能够在没有奖励信号的情况下模仿专家行为,但在具有高维度、噪声和不完整视觉观测的跨域场景中面临挑战。为了解决这个问题,我们提出了一种新的模仿学习方法,称为模仿学习的域不变逐帧特征提取(DIFF-IL)。该方法从单个帧中提取域不变特征,并将其适应为序列,以隔离和复制专家行为。我们还引入了一种逐帧时间标记技术,通过时间步长对专家行为进行分段,并分配与时间上下文一致的奖励,从而提高任务性能。在各种视觉环境中的实验表明,DIFF-IL 在解决复杂视觉任务方面的有效性。

[13] 视频文本检索的专家化字幕自动增强
标题: Expertized Caption Auto-Enhancement for Video-Text Retrieval
作者: Junxiang Chen / Baoyao yang / Wenbin Yao
原文:   [英文]   [中文]  
备注: None
摘要:
随着深度学习的出现,视频-文本检索这一新兴领域取得了显著进展。然而,由于视频的文本描述不足,文本与视频匹配的挑战依然存在。两种模态之间的信息差距阻碍了对视频的全面理解,导致检索结果模糊不清。尽管基于大型语言模型的重写方法已被提出以拓宽文本表达,但精心设计的提示对于确保重写文本的合理性和完整性至关重要。本文提出了一种自动字幕增强方法,通过自学习提高表达质量并减轻增强字幕中的经验主义。此外,我们设计并引入了一种专家化字幕选择机制,为每个视频定制增强字幕,促进视频与文本的匹配。我们的方法完全基于数据驱动,不仅免去了繁重的数据收集和计算工作量,还通过规避词汇依赖和引入个性化匹配来提高自适应性。我们的方法在各种基准测试中取得了最先进的结果,特别是在MSR-VTT上实现了68.5%的Top-1召回率,在MSVD上实现了68.1%,在DiDeMo上实现了62.0%。

[14] 利用外观和置信度特征增强面向量子准备的基于QUBO的目标检测抑制
标题: Enhancing Quantum-ready QUBO-based Suppression for Object Detection with Appearance and Confidence Features
作者: Keiichiro Yamamura / Toru Mitsutake / Hiroki Ishikura / Daiki Kusuhara / Akihiro Yoshida / Katsuki Fujisawa
原文:   [英文]   [中文]  
备注: 8 pages for main contents, 3 pages for appendix, 3 pages for reference
摘要:
基于二次无约束二进制优化(QUBO)的抑制在目标检测中被认为优于传统的非极大值抑制(NMS),特别是在拥挤场景中,NMS可能会抑制那些置信度较低的(部分)遮挡的真实正样本。尽管现有的QUBO公式比NMS更不容易错过被遮挡的物体,但仍有改进的空间,因为现有的QUBO公式只是简单地考虑了置信度分数和基于预测之间空间重叠的成对分数。本研究提出了新的QUBO公式,旨在区分预测之间的重叠是由于物体的遮挡还是由于预测的冗余,即对单个物体的多次预测。所提出的QUBO公式将两个特征整合到现有QUBO公式的成对分数中:i)通过图像相似性度量计算的外观特征和ii)置信度分数的乘积。这些特征分别源于以下假设:冗余预测共享相似的外观特征,而(部分)遮挡的物体具有较低的置信度分数。所提出的方法在不显著增加运行时间的情况下,显著超越了最新的基于QUBO的抑制方法,在mAP上提高了最多4.54点,在mAR上提高了9.89点。

[15] PoleStack:通过轮廓叠加实现不规则物体的稳健杆状估计
标题: PoleStack: Robust Pole Estimation of Irregular Objects from Silhouette Stacking
作者: Jacopo Villa / Jay W. McMahon / Issa A. D. Nesnas
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一种算法,用于利用从多个相机位置收集的轮廓图像来估计主轴旋转体的旋转极。首先,将一组图像叠加形成单一的轮廓叠加图像,其中物体的旋转在成像的极方向上引入了反射对称性。我们通过识别轮廓叠加图像中的最大对称性来估计这个投影极方向。为了处理未知的质心图像位置,我们应用离散傅里叶变换来生成轮廓叠加的幅度谱,从而实现平移不变性并提高对噪声的鲁棒性。其次,通过结合从不同相机方向收集的两个或多个投影极测量值来估计三维极方向。我们展示了使用低分辨率图像实现度级极估计精度,显示出对严重表面阴影和基于质心的图像配准误差的鲁棒性。所提出的方法可能适用于在接近目标物体的过程中以及悬停时的极估计。

[16] 通过全局平均池化最大化视觉Transformer的位置嵌入
标题: Maximizing the Position Embedding for Vision Transformers with Global Average Pooling
作者: Wonjun Lee / Bumsub Ham / Suhyun Kim
原文:   [英文]   [中文]  
备注: Accepted at AAAI 2025
摘要:
在视觉Transformer中,位置嵌入(PE)在捕捉标记顺序方面起着至关重要的作用。然而,在视觉Transformer结构中,由于位置嵌入仅仅是简单地添加到标记嵌入中,因此PE的表达能力受到限制。为克服这一限制,采用了一种层级方法,将PE传递到每一层,并对标记嵌入和PE应用独立的层归一化。在本文中,我们识别出在层级结构中使用全局平均池化(GAP)方法代替类标记时出现的冲突结果。为了解决这个问题,我们提出了MPVG,它在具有GAP的层级结构中最大化PE的有效性。具体来说,我们发现PE在层级结构中的每一层中对标记嵌入值起到平衡作用。此外,我们认识到在层级结构中PE的平衡作用是不足的,并通过MPVG最大化PE的有效性来解决这一问题。通过实验,我们证明了PE执行平衡作用,并且保持这种平衡方向性对视觉Transformer有显著影响。结果表明,MPVG在各种任务中优于现有的视觉Transformer方法。

[17] 每个角度都值得再看一眼:从多视角关节云中挖掘运动骨骼结构
标题: Every Angle Is Worth A Second Glance: Mining Kinematic Skeletal Structures from Multi-view Joint Cloud
作者: Junkun Jiang / Jie Chen / Ho Yin Au / Mingyuan Chen / Wei Xue / Yike Guo
原文:   [英文]  
备注: Accepted by IEEE Transactions on Visualization and Computer Graphics
摘要:
在稀疏角度观测下进行多人动作捕捉是一个具有挑战性的问题,因为会受到自遮挡和相互遮挡的干扰。现有的工作能够产生准确的2D关节检测,但当这些检测结果被三角化并提升到3D时,现有的解决方案在选择最准确的候选项并将其与正确的关节类型和目标身份关联时都存在困难。因此,为了充分利用所有准确的2D关节位置信息,我们提出在不考虑目标ID的情况下,从所有摄像机视角独立地对所有同类型的2D关节进行三角化,形成关节云。关节云由从相同关节类型和目标ID提升的有效关节以及来自不同2D来源的错误构建的关节组成。这些冗余和不准确的候选项通过我们提出的关节云选择和聚合Transformer(JCSAT)进行处理,该Transformer包含三个级联编码器,深入探索交叉嵌入空间中所有3D点候选项之间的轨迹、骨骼结构和视图相关性。我们提出了一个最优令牌注意路径(OTAP)模块,该模块随后从这些冗余观测中选择和聚合信息特征,以最终预测人类动作。为了证明JCSAT的有效性,我们构建并发布了一个新的多人动作捕捉数据集BUMocap-X,该数据集具有复杂的交互和严重的遮挡。在新提出的数据集以及基准数据集上的综合实验验证了所提出框架的有效性,尤其是在具有挑战性的遮挡场景下,其性能优于所有现有的最先进方法。

[18] VQA-Levels:一种用于在视觉问答中分类问题的分层方法
标题: VQA-Levels: A Hierarchical Approach for Classifying Questions in VQA
作者: Madhuri Latha Madaka / Chakravarthy Bhagvati
原文:   [英文]  
备注: None
摘要:
为视觉问答(VQA)设计数据集是一项困难且复杂的任务,需要自然语言处理(NLP)来解析问题,并需要计算机视觉来分析图像中与回答问题相关的方面。研究人员已经开发了几个基准数据集,但在用于系统性能测试时存在许多问题。本文提出了一个新的基准数据集——一个名为VQA-Levels的试点版本现已准备就绪——用于系统地测试VQA系统,并帮助研究人员推进该领域的发展。问题被分为七个级别,从基于低级图像特征的直接回答(甚至不需要分类器)到需要对整个图像内容进行高级抽象的问题。数据集中的问题展示了十种属性中的一种或多种。每个问题被归类到1到7的特定级别。第1到3级直接基于视觉内容,而其余级别需要关于图像中对象的额外知识。每个问题通常有一个独特的一个或两个词的答案。问题是“自然的”,因为人在看到图像时很可能会问这样的问题。第1级的示例问题是:“图像中红色区域的形状是什么?”而第7级的问题是:“为什么这个人在剪纸?”对现有的一些VQA系统进行的初步测试表明,它们在第1级(低级特征)和第2级(对象分类)问题上的成功率很高,而在第3级(场景文本)问题上的成功率最低,其次是第6级(推断)和第7级(整体场景分析)问题。本文的工作将大大有助于系统地分析VQA系统。

[19] 解缠CLIP特征以增强局部化理解
标题: Disentangling CLIP Features for Enhanced Localized Understanding
作者: Samyak Rawelekar / Yujun Cai / Yiwei Wang / Ming-Hsuan Yang / Narendra Ahuja
原文:   [英文]  
备注: None
摘要:
视觉-语言模型(VLMs)在图像分类和检索等粗粒度任务中表现出色。然而,它们在需要局部理解的细粒度任务中表现不佳。为了研究这一弱点,我们对CLIP特征进行了全面分析,并发现了一个重要问题:语义特征高度相关。具体来说,一个类别的特征编码了关于其他类别的信息,我们称之为互特征信息(MFI)。当我们查询一个特定类别时,与目标类别无关的对象也被激活,这使得这种互信息变得明显。为了解决这个问题,我们提出了Unmix-CLIP,这是一种旨在减少MFI并改善特征解耦的新框架。我们引入了MFI损失,通过将文本特征投射到一个类间相似性最小化的空间中,显式地分离文本特征。为了确保图像特征的相应分离,我们使用多标签识别(MLR)将图像特征与分离的文本特征对齐。这确保了图像和文本特征在跨模态上解耦并对齐,从而改善了下游任务的特征分离。在COCO-14数据集上,Unmix-CLIP将特征相似性降低了24.9%。我们通过对MLR和零样本语义分割(ZS3)的广泛评估证明了其有效性。在MLR中,我们的方法在VOC2007上表现出竞争力,并在COCO-14数据集上超越了现有的最先进方法,同时使用更少的训练参数。此外,Unmix-CLIP在COCO和VOC上的ZS3方法中始终优于现有方法。

[20] 基于多模态数据危险检测的驾驶员辅助系统
标题: Driver Assistance System Based on Multimodal Data Hazard Detection
作者: Long Zhouxiang / Ovanes Petrosian
原文:   [英文]   [中文]  
备注: None
摘要:
自动驾驶技术已经取得了显著进展,但由于驾驶事件的长尾分布,检测驾驶异常仍然是一个主要挑战。现有方法主要依赖于单一模态的道路状况视频数据,这限制了它们捕捉罕见和不可预测驾驶事件的能力。本文提出了一种多模态驾驶员辅助检测系统,该系统集成了道路状况视频、驾驶员面部视频和音频数据,以提高事件识别的准确性。我们的模型采用基于注意力的中间融合策略,实现了端到端学习,无需单独的特征提取。为支持这一方法,我们使用驾驶模拟器开发了一个新的三模态数据集。实验结果表明,我们的方法能够有效捕捉跨模态相关性,减少误判并提高驾驶安全性。

[21] 基于事件的眼动追踪的高频近眼地面实况
标题: High-frequency near-eye ground truth for event-based eye tracking
作者: Andrea Simpsi / Andrea Aspesi / Simone Mentasti / Luca Merigo / Tommaso Ongarello / Matteo Matteucci
原文:   [英文]  
备注: None
摘要:
基于事件的眼动追踪是一种在智能眼镜技术中实现高效、低功耗眼动追踪的有前途的解决方案。然而,由于基于事件的传感器的新颖性,现有的数据集数量有限,特别是那些具有眼部注释的数据集,这对于算法验证和深度学习训练至关重要。本文通过提供一个改进版的流行基于事件的眼动追踪数据集来填补这一空白。我们引入了一种专门为基于事件的数据注释设计的半自动注释流程。此外,我们为科学界提供了以200Hz计算的瞳孔检测注释。

[22] 与人类对齐的图像模型提升了大脑的视觉解码能力
标题: Human-Aligned Image Models Improve Visual Decoding from the Brain
作者: Nona Rajabi / Antônio H. Ribeiro / Miguel Vasco / Farzaneh Taleb / Mårten Björkman / Danica Kragic
原文:   [英文]   [中文]  
备注: None
摘要:
从大脑活动中解码视觉图像在推进脑机交互和增强对人类感知的理解方面具有重要潜力。最近的方法通过对齐图像和大脑活动的表示空间来实现视觉解码。在本文中,我们引入了使用与人类对齐的图像编码器来将大脑信号映射到图像的方法。我们假设这些模型能够更有效地捕捉与快速视觉刺激呈现相关的感知属性,这些刺激呈现通常用于视觉大脑数据记录实验。我们的实验证据支持这一假设,表明这一简单的修改使图像检索准确率相比于最先进的方法提高了多达21%。全面的实验验证了在不同的EEG架构、图像编码器、对齐方法、参与者和脑成像模式下,性能的一致性提升。

[23] 用于对象分类的边缘注意模块
标题: Edge Attention Module for Object Classification
作者: Santanu Roy / Ashvath Suresh / Archit Gupta
原文:   [英文]   [中文]  
备注: 11 pages
摘要:
本研究提出了一种新颖的“基于边缘注意力的卷积神经网络(CNN)”用于对象分类任务。随着先进计算技术的出现,CNN模型在计算机视觉应用中取得了显著成功。然而,传统CNN的效率常常受到类别不平衡和类间相似性问题的阻碍,这在计算机视觉领域尤为突出。在本研究中,我们首次引入了一个“边缘注意力模块(EAM)”,该模块由一个Max-Min池化层和后续的卷积层组成。这种Max-Min池化是一种全新的池化技术,专门设计用于捕捉任何对象分类任务中至关重要的边缘信息。因此,通过将这种新颖的池化技术集成到注意力模块中,CNN网络自然地优先关注重要的边缘特征,从而显著提高模型的准确性和F1分数。我们在Caltech-101、Caltech-256、CIFAR-100和Tiny ImageNet-200数据集上的多个标准预训练CNN模型上实现了我们提出的EAM或2EAMs。广泛的实验表明,我们提出的框架(即EAM与CNN和2EAMs与CNN)大幅度超越了所有预训练的CNN模型以及最近的趋势模型“基于池化的视觉变换器(PiT)”、“卷积块注意力模块(CBAM)”和ConvNext。我们在Caltech-101和Caltech-256数据集上分别通过所提出的框架实现了95.5%和86%的准确率。据我们所知,这在这些数据集上是迄今为止最好的结果。

[24] Tell2Reg: 通过相同的语言提示在图像之间建立空间对应关系
标题: Tell2Reg: Establishing spatial correspondence between images by the same language prompts
作者: Wen Yan / Qianye Yang / Shiqi Huang / Yipei Wang / Shonit Punwani / Mark Emberton / Vasilis Stavrinides / Yipeng Hu / Dean Barratt
原文:   [英文]   [中文]  
备注: 5 pages, 3 figures, conference paper
摘要:
空间对应可以通过分割区域对来表示,因此图像配准网络的目标是分割对应的区域,而不是预测位移场或变换参数。在这项工作中,我们展示了这样的对应区域对可以通过在两幅不同图像上使用相同的语言提示来预测,利用基于GroundingDINO和SAM的预训练大型多模态模型。这使得一种完全自动化且无需训练的配准算法成为可能,可能推广到广泛的图像配准任务。在本文中,我们展示了使用一个具有挑战性的任务的实验结果,即配准不同个体的前列腺MR图像,这涉及到患者之间高度可变的强度和形态。Tell2Reg无需训练,消除了之前为此配准任务所需的昂贵且耗时的数据整理和标注。这种方法优于测试的基于无监督学习的配准方法,并且其性能可与弱监督方法相媲美。还提供了额外的定性结果,首次表明语言语义与空间对应之间可能存在相关性,包括语言提示区域的空间不变性以及获得的局部和全局对应之间语言提示的差异。代码可在此https URL获取。

[25] MaxInfo:一种使用最大体积进行关键帧选择的无训练方法以增强视频理解
标题: MaxInfo: A Training-Free Key-Frame Selection Method Using Maximum Volume for Enhanced Video Understanding
作者: Pengyi Li / Irina Abdullaeva / Alexander Gambashidze / Andrey Kuznetsov / Ivan Oseledets
原文:   [英文]   [中文]  
备注: None
摘要:
现代视频大语言模型(VLLMs)通常依赖于均匀帧采样来理解视频,但这种方法由于帧冗余和视频内容的变化,常常无法捕捉到关键信息。我们提出了一种基于最大体积原则的无训练方法MaxInfo,该方法从输入视频中选择并保留最具代表性的帧。通过最大化所选嵌入形成的几何体积,MaxInfo确保所选帧覆盖嵌入空间中信息量最大的区域,有效减少冗余,同时保留多样性。此方法提高了输入表示的质量,并在各类基准测试中提升了长视频理解的性能。例如,MaxInfo在LongVideoBench上实现了3.28%的提升,在EgoSchema上对LLaVA-Video-7B实现了6.4%的提升。对于LLaVA-Video-72B,它也实现了3.47%的提升。该方法易于实现,并可与现有的VLLMs配合使用,无需额外训练,是传统均匀采样方法的实用且有效的替代方案。

[26] MotionAgent:通过运动场代理实现细粒度可控视频生成
标题: MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent
作者: Xinyao Liao / Xianfang Zeng / Liao Wang / Gang Yu / Guosheng Lin / Chi Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了MotionAgent,实现了文本引导的图像到视频生成的细粒度运动控制。关键技术是运动场代理,它将文本提示中的运动信息转换为显式运动场,提供灵活且精确的运动指导。具体来说,代理提取文本中描述的物体运动和相机运动,并将其分别转换为物体轨迹和相机外参。一个分析光流合成模块将这些运动表示在三维空间中整合,并将其投影为统一的光流。光流适配器利用光流来控制基础的图像到视频扩散模型,以生成细粒度控制的视频。在VBench上的视频-文本相机运动指标的显著提升表明,我们的方法在相机运动的精确控制方面取得了成功。我们构建了VBench的一个子集来评估文本中的运动信息与生成视频的对齐情况,在运动生成精度上优于其他先进模型。

[27] 用于半监督图像分割和配准的统一框架
标题: A Unified Framework for Semi-Supervised Image Segmentation and Registration
作者: Ruizhe Li / Grazziela Figueredo / Dorothee Auer / Rob Dineen / Paul Morgan / Xin Chen
原文:   [英文]   [中文]  
备注: Accepted for publication at IEEE International Symposium on Biomedical Imaging (ISBI) 2025
摘要:
半监督学习利用标注和未标注数据,是医学图像分割的一种高效方法,因为为整个数据集获取标注既耗时又昂贵。传统的半监督方法主要关注从未标注数据中提取特征和学习数据分布,以增强模型训练。在本文中,我们引入了一种新颖的方法,结合图像配准模型为未标注数据生成伪标签,从而生成更几何正确的伪标签以改进模型训练。我们的方法在一个二维脑部数据集上进行了评估,即使只使用1%的标注数据也表现出色。结果表明,我们的方法优于传统的半监督分割方法(例如教师-学生模型),尤其是在低标注比例的情况下。GitHub: this https URL。

[28] 高效的视觉语言模型微调用于基于文本的人物异常搜索
标题: Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search
作者: Jiayi He / Shengeng Tang / Ao Liu / Lechao Cheng / Jingjing Wu / Yanyan Wei
原文:   [英文]   [中文]  
备注: Accepted by 2025 WWW Workshop on MORE
摘要:
本文介绍了HFUT-LMC团队在WWW 2025挑战赛中针对基于文本的人员异常搜索(TPAS)问题的解决方案。该挑战赛的主要目标是准确识别在大量行人图像库中表现出正常或异常行为的行人。与传统的视频分析任务不同,TPAS显著强调理解和解释文本描述与视觉数据之间的微妙关系。该任务的复杂性在于模型不仅需要在海量图像数据集中将个体与文本描述匹配,还需要在面对相似描述时准确区分搜索结果。为了解决这些挑战,我们引入了相似性覆盖分析(SCA)策略,以应对由相似文本描述引起的识别困难。该策略有效地增强了模型处理细微差异的能力,从而提高了搜索的准确性和可靠性。我们提出的解决方案在此次挑战中表现出色。

[29] 基于关系感知表示学习和迭代分类器校准的长尾医疗诊断
标题: Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration
作者: Li Pan / Yupei Zhang / Qiushi Yang / Tan Li / Zhen Chen
原文:   [英文]   [中文]  
备注: This work has been accepted in Computers in Biology and Medicine
摘要:
近年来,计算机辅助诊断表现出令人鼓舞的性能,有效减轻了临床医生的工作负担。然而,不同疾病之间固有的样本不平衡导致算法偏向于多数类别,从而导致对罕见类别的表现不佳。现有的工作将这一挑战表述为长尾问题,并试图通过解耦特征表示和分类来解决。然而,由于尾部类别的不平衡分布和有限样本,这些工作容易导致偏向的表示学习和不足的分类器校准。为了解决这些问题,我们提出了一种新的长尾医学诊断(LMD)框架,用于在长尾数据集上实现平衡的医学图像分类。在初始阶段,我们开发了一种关系感知表示学习(RRL)方案,通过鼓励编码器通过不同的数据增强捕捉内在语义特征来提升表示能力。在随后的阶段,我们提出了一种迭代分类器校准(ICC)方案,以迭代地校准分类器。这是通过生成大量平衡的虚拟特征并以期望最大化的方式微调编码器来实现的。所提出的ICC补偿了少数类别,以促进无偏的分类器优化,同时保持多数类别的诊断知识。在三个公共长尾医学数据集上的综合实验表明,我们的LMD框架显著超越了最先进的方法。源代码可以通过此HTTPS URL访问。

[30] ZISVFM:在室内机器人环境中使用视觉基础模型进行零样本目标实例分割
标题: ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models
作者: Ying Zhang / Maoliang Yin / Wenfu Bi / Haibao Yan / Shaohan Bian / Cui-Hua Zhang / Changchun Hua
原文:   [英文]   [中文]  
备注: None
摘要:
在非结构化环境中运行的服务机器人必须有效地识别和分割未知物体,以增强其功能。传统的基于监督学习的分割技术需要大量的标注数据集,这对于在现实场景中遇到的多样化物体来说是不切实际的。未见物体实例分割(UOIS)方法旨在通过在合成数据上训练模型以推广到新颖物体来解决这一问题,但它们通常受到模拟到现实差距的影响。本文提出了一种新颖的方法(ZISVFM)来解决UOIS问题,该方法利用了“分割任何东西”模型(SAM)的强大零样本能力和自监督视觉变换器(ViT)的显式视觉表示。所提出的框架分为三个阶段:(1)使用SAM从彩色深度图像生成与物体无关的掩码提案,(2)利用自监督ViT的基于注意力的特征来优化这些提案,以过滤非物体掩码,(3)应用K-Medoids聚类生成点提示,引导SAM实现精确的物体分割。在两个基准数据集和一个自收集数据集上的实验验证表明,ZISVFM在复杂环境中表现优越,包括诸如柜子、抽屉和手持物体等分层设置。我们的源代码可在此https URL获取。

[31] 基于深度学习的事件数据编码:一种联合时空和极性解决方案
标题: Deep Learning-based Event Data Coding: A Joint Spatiotemporal and Polarity Solution
作者: Abdelrahman Seleem / André F. R. Guarda / Nuno M. M. Rodrigues / Fernando Pereira
原文:   [英文]  
备注: None
摘要:
神经形态视觉传感器,通常称为事件相机,最近在需要高速、高动态范围和低延迟数据采集的应用中变得越来越重要。与捕捉二维图像的传统帧式相机不同,事件相机生成大量像素级事件,这些事件由时空和极性信息组成,具有非常高的时间分辨率,因此需要高效的编码解决方案。现有的解决方案专注于事件数据的无损编码,假设目标用例(主要包括计算机视觉任务)不接受任何失真。一种有前途的编码方法利用事件数据和点云之间的相似性,从而允许使用当前的点云编码解决方案来编码事件数据,通常采用双点云表示,每个事件极性一个点云。本文提出了一种新颖的有损深度学习联合事件数据编码(DL-JEC)解决方案,采用单点云表示,从而能够利用时空和极性事件信息之间的相关性。与相关的传统和基于深度学习的最新事件数据编码解决方案相比,DL-JEC可以实现显著的压缩性能提升。此外,研究表明,可以在不影响目标计算机视觉任务性能的情况下,使用有损事件数据编码以降低的速率进行无损编码,特别是在事件分类方面。采用适应目标任务的新型自适应体素二值化策略,进一步使DL-JEC达到更优的性能。

[32] RadVLM:用于放射学的多任务对话视觉语言模型
标题: RadVLM: A Multitask Conversational Vision-Language Model for Radiology
作者: Nicolas Deperrois / Hidetoshi Matsuo / Samuel Ruipérez-Campillo / Moritz Vandenhirtz / Sonia Laguna / Alain Ryser / Koji Fujimoto / Mizuho Nishio / Thomas M. Sutter / Julia E. Vogt / Jonas Kluckert / Thomas Frauenfelder / Christian Blüthgen / Farhad Nooralahzadeh / Michael Krauthammer
原文:   [英文]   [中文]  
备注: 21 pages, 15 figures
摘要:
胸部X光片(CXR)的广泛使用,加上放射科医生的短缺,推动了对自动化CXR分析和AI辅助报告的兴趣日益增长。尽管现有的视觉-语言模型(VLMs)在报告生成或异常检测等特定任务中显示出前景,但它们通常缺乏支持交互式诊断能力。在这项工作中,我们提出了RadVLM,这是一种紧凑的、多任务对话基础模型,专为CXR解释而设计。为此,我们整理了一个大规模的指令数据集,包括超过100万对图像-指令对,涵盖单轮任务——如报告生成、异常分类和视觉定位——以及多轮、多任务对话交互。在对RadVLM进行该指令数据集的微调后,我们在不同任务中对其进行了评估,并与重新实现的基线VLMs进行了比较。我们的结果表明,RadVLM在对话能力和视觉定位方面达到了最先进的性能,同时在其他放射学任务中保持竞争力。消融研究进一步强调了跨多个任务联合训练的好处,特别是在标注数据有限的情况下。这些发现共同突显了RadVLM作为临床相关AI助手的潜力,提供结构化的CXR解释和对话能力,以支持更有效和更易获得的诊断工作流程。

[33] GHOST:高斯假设开放集技术
标题: GHOST: Gaussian Hypothesis Open-Set Technique
作者: Ryan Rabinowitz / Steve Cruz / Manuel Günther / Terrance E. Boult
原文:   [英文]  
备注: Accepted at AAAI Conference on Artificial Intelligence 2025
摘要:
大规模识别方法的评估通常侧重于整体性能。虽然这种方法很常见,但它往往无法提供对各个类别性能的深入见解,这可能导致公平性问题和误判。解决这些问题对于准确评估方法处理新颖或未见过的类别的能力以及确保公平评估至关重要。为了解决开放集识别(OSR)中的公平性问题,我们展示了每个类别的性能可能会有显著差异。我们引入了高斯假设开放集技术(GHOST),这是一种新颖的无超参数算法,它使用类别多元高斯分布及对角协方差矩阵对深度特征进行建模。我们对logits应用Z-score归一化,以减轻特征幅度偏离模型预期的影响,从而降低网络为未知样本分配高分的可能性。我们在多个ImageNet-1K预训练的深度网络上评估GHOST,并用四个不同的未知数据集进行测试。使用AUOSCR、AUROC和FPR95等标准指标,我们实现了统计上显著的改进,推动了大规模OSR的最新技术进展。源代码已在线提供。

[34] 基于深度学习的马铃薯叶片病害识别方法:使用包装特征选择和特征拼接
标题: Deep Learning-Based Approach for Identification of Potato Leaf Diseases Using Wrapper Feature Selection and Feature Concatenation
作者: Muhammad Ahtsam Naeem / Muhammad Asim Saleem / Muhammad Imran Sharif / Shahzad Akber / Sajjad Saleem / Zahid Akhtar / Kamran Siddique
原文:   [英文]  
备注: None
摘要:
马铃薯是一种在世界许多地区广泛种植的作物。近年来,马铃薯种植在全球范围内获得了极大的关注。马铃薯容易受到多种疾病的侵害,这些疾病会阻碍其生长。该植物似乎有显著的叶部疾病。早疫病和晚疫病是影响马铃薯植物的两种常见叶部疾病。早期检测这些疾病将有助于提高该作物的产量。理想的解决方案是使用图像处理来识别和分析这些疾病。在此,我们提出了一种基于图像处理和机器学习的自动化方法,用于检测影响马铃薯叶子的晚疫病。所提出的方法包括四个不同的阶段:(1)使用直方图均衡化来提高输入图像的质量;(2)使用深度卷积神经网络(Deep CNN)模型进行特征提取,然后将这些提取的特征进行拼接;(3)使用基于包裹的特征选择进行特征选择;(4)使用支持向量机(SVM)分类器及其变体进行分类。通过选择550个特征,该方法使用SVM实现了99%的最高准确率。

[35] 文本到图像生成模型能准确描绘年龄吗?关于合成肖像生成和年龄估计的比较研究
标题: Can Text-to-Image Generative Models Accurately Depict Age? A Comparative Study on Synthetic Portrait Generation and Age Estimation
作者: Alexey A. Novikov / Miroslav Vranka / François David / Artem Voronin
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像生成模型在生成多样化和逼真的输出方面取得了显著进展。在本文中,我们对其在创建准确代表各种人口属性的合成肖像方面的有效性进行了全面分析,特别关注年龄、国籍和性别。我们的评估使用了指定详细档案的提示(例如,32岁加拿大男性的逼真自拍照),涵盖了212个国籍、从10岁到78岁的30个不同年龄段以及性别平衡的代表性。我们将生成的图像与两个成熟的年龄估计模型的真实年龄估计进行比较,以评估年龄的忠实再现程度。我们的研究结果表明,尽管文本到图像模型可以一致地生成反映不同身份的面孔,但它们捕捉特定年龄并在不同人口背景下做到这一点的准确性仍然高度可变。这些结果表明,当前的合成数据可能不足以在需要高精度的高风险年龄相关任务中可靠使用,除非从业者准备投入大量的筛选和整理。然而,在绝对年龄精度不关键的低敏感性或探索性应用中,它们可能仍然有用。

[36] 基于概念的解释与类别对比
标题: Concept Based Explanations and Class Contrasting
作者: Rudolf Herdt / Daniel Otero Baguer
原文:   [英文]   [中文]  
备注: None
摘要:
由于深度神经网络的规模庞大和非线性,解释它们是具有挑战性的。在本文中,我们引入了一种基于概念的解释方法,以解释对单个类别的预测,并对比任意两个类别,即解释为什么模型预测一个类别而不是另一个。我们在几个公开可用的训练于ImageNet1K的分类模型上进行了测试,以及在一个训练用于检测染色组织样本中肿瘤的分割模型上进行了测试。我们进行了定性和定量测试。例如,对于来自pytorch模型库的ResNet50模型,我们可以使用解释来说明为什么模型预测类别'A',以自动选择六个数据集裁剪,其中模型不预测类别'A'。然后,模型在71%的情况下(适用于1000个类别中的710个)再次预测新组合图像的类别'A'。包括.ipynb示例的代码可在git上获取:这个https URL。

[37] TruePose:基于人体解析引导的注意力扩散用于完整身份保持的姿态迁移
标题: TruePose: Human-Parsing-guided Attention Diffusion for Full-ID Preserving Pose Transfer
作者: Zhihong Xu / Dongxia Wang / Peng Du / Yang Cao / Qing Guo
原文:   [英文]  
备注: None
摘要:
姿态引导的人像合成(PGPIS)生成的图像能够在采用指定目标姿态(例如,骨架)的同时保持源图像中主体的身份特征。尽管基于扩散的PGPIS方法在姿态转换过程中能够有效地保留面部特征,但它们往往难以在整个扩散过程中准确保持源图像中的服装细节。当源姿态和目标姿态之间存在显著差异时,这一限制尤其突出,严重影响了PGPIS在时尚行业中的应用,因为服装风格的保留对于版权保护至关重要。我们的分析表明,这一限制主要源于条件扩散模型的注意力模块未能充分捕捉和保留服装图案。为了解决这一限制,我们提出了一种人像解析引导的注意力扩散新方法,该方法能够在生成高质量结果的同时有效地保留面部和服装外观。我们提出了一种人像解析感知的孪生网络,该网络由三个关键组件组成:双重相同的UNet(用于扩散去噪的TargetNet和用于源图像嵌入提取的SourceNet)、人像解析引导的融合注意力(HPFA)和CLIP引导的注意力对齐(CAA)。HPFA和CAA模块能够自适应且有效地将面部和服装图案嵌入到目标图像生成中。在店内服装检索基准和最新的自然环境人像编辑数据集上的大量实验表明,我们的方法在保留源图像中的面部和服装外观方面,相较于13种基线方法具有显著优势。

[38] 基于时间卷积网络的方法及结肠镜视频时间分割的基准数据集
标题: A Temporal Convolutional Network-Based Approach and a Benchmark Dataset for Colonoscopy Video Temporal Segmentation
作者: Carlo Biffi / Giorgio Roffo / Pietro Salvagnini / Andrea Cherubini
原文:   [英文]   [中文]  
备注: None
摘要:
随着计算机辅助检测和诊断系统在结肠镜检查中的最新进展,结肠镜检查程序的自动化报告将进一步革新临床实践。在这些系统的开发中,一个关键但尚未深入研究的方面是创建能够自主将完整的结肠镜检查视频分割为解剖部分和程序阶段的计算机视觉模型。在这项工作中,我们旨在为这一任务创建第一个开放获取的数据集,并提出一种最先进的方法,与竞争模型进行基准测试。我们对公开可用的REAL-Colon数据集进行了标注,该数据集由60个完整结肠镜检查视频的270万帧组成,提供了关于解剖位置和结肠镜检查阶段的帧级标签,涵盖九个类别。然后,我们提出了ColonTCN,这是一种基于学习的架构,采用定制的时间卷积块,旨在有效捕捉结肠镜检查视频的长时间依赖性进行时间分割。我们还提出了一种双重k折交叉验证评估协议用于此基准测试,其中包括对未见过的多中心数据的模型评估。该方法在使用两种提出的k折交叉验证设置进行评估时,在分类准确性方面达到了最先进的性能,同时保持了较低的参数数量,优于竞争模型。我们报告了消融研究,以提供对这一任务挑战的见解,并强调定制时间卷积块的优势,这些块增强了学习并提高了模型效率。我们相信,所提出的开放获取基准和ColonTCN方法代表了结肠镜检查程序时间分割的重大进展,促进了进一步的开放获取研究以满足这一临床需求。

[39] 掩码自动编码器是扩散模型的有效分词器
标题: Masked Autoencoders Are Effective Tokenizers for Diffusion Models
作者: Hao Chen / Yujin Han / Fangyi Chen / Xiang Li / Yidong Wang / Jindong Wang / Ze Wang / Zicheng Liu / Difan Zou / Bhiksha Raj
原文:   [英文]   [中文]  
备注: None
摘要:
最近在潜在扩散模型方面的进展展示了其在高分辨率图像合成中的有效性。然而,来自分词器的潜在空间的特性对于更好地学习和生成扩散模型仍未被充分探索。理论上和实证上,我们发现改进的生成质量与具有更好结构的潜在分布密切相关,例如具有更少高斯混合模式和更多判别特征的分布。受这些见解的启发,我们提出了MAETok,这是一种利用掩码建模的自编码器(AE),能够在保持重建保真度的同时学习语义丰富的潜在空间。大量实验验证了我们的分析,表明变分形式的自编码器并不是必要的,仅通过AE获得的判别潜在空间就能在ImageNet生成上实现最先进的性能,仅使用128个token。MAETok实现了显著的实际改进,使得512x512生成的gFID达到1.69,训练速度提高76倍,推理吞吐量提高31倍。我们的研究结果表明,潜在空间的结构,而非变分约束,对于有效的扩散模型至关重要。代码和训练好的模型已发布。

[40] Dress-1-to-3:从单张图像到模拟就绪的3D服装,结合扩散先验和可微分物理
标题: Dress-1-to-3: Single Image to Simulation-Ready 3D Outfit with Diffusion Prior and Differentiable Physics
作者: Xuan Li / Chang Yu / Wenxin Du / Ying Jiang / Tianyi Xie / Yunuo Chen / Yin Yang / Chenfanfu Jiang
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
最近在大模型方面的进展显著推动了图像到3D重建的发展。然而,生成的模型通常被融合成一个整体,这限制了它们在下游任务中的适用性。本文聚焦于3D服装生成,这是一个关键领域,应用于虚拟试穿等需要服装可分离且可用于模拟的动态服装动画。我们介绍了Dress-1-to-3,这是一种新颖的流程,可以从自然环境中的图像重建出符合物理规律、可用于模拟的分离服装及人类模型。我们的方法从图像开始,结合了一个预训练的图像到缝纫图案生成模型,用于创建粗略的缝纫图案,以及一个预训练的多视图扩散模型来生成多视图图像。缝纫图案通过基于生成的多视图图像的可微分服装模拟器进一步优化。多样化的实验表明,我们的优化方法显著增强了重建的3D服装和人类与输入图像的几何对齐。此外,通过整合纹理生成模块和人类动作生成模块,我们生成了定制的符合物理规律且逼真的动态服装演示。项目页面:this https URL

[41] SKI模型:用于理解日常生活活动的骨架诱导视觉-语言嵌入
标题: SKI Models: Skeleton Induced Vision-Language Embeddings for Understanding Activities of Daily Living
作者: Arkaprava Sinha / Dominick Reilly / Francois Bremond / Pu Wang / Srijan Das
原文:   [英文]   [中文]  
备注: None
摘要:
像 CLIP 这样的视觉-语言模型的引入,使得基础视频模型的开发成为可能,这些模型能够推广到未见过的视频和人类动作。然而,这些模型通常是在网络视频上训练的,而网络视频往往无法捕捉到日常生活活动(ADL)视频中存在的挑战。现有的工作通过结合 3D 骨架和 RGB 视频来解决 ADL 特有的挑战,例如相似的外观、细微的运动模式和多视角。然而,这些方法没有与语言集成,限制了它们推广到未见过的动作类别的能力。在本文中,我们介绍了 SKI 模型,它将 3D 骨架集成到视觉-语言嵌入空间中。SKI 模型利用骨架-语言模型 SkeletonCLIP,通过协同训练将骨架信息注入到视觉语言模型(VLMs)和大型视觉语言模型(LVLMs)中。值得注意的是,SKI 模型在推理过程中不需要骨架数据,从而增强了其在实际应用中的鲁棒性。SKI 模型在三个流行的 ADL 数据集上进行了零样本动作识别和视频字幕生成任务的有效性验证。

[42] 一览世界动态
标题: Seeing World Dynamics in a Nutshell
作者: Qiuhong Shen / Xuanyu Yi / Mingbao Lin / Hanwang Zhang / Shuicheng Yan / Xinchao Wang
原文:   [英文]   [中文]  
备注: None
摘要:
我们研究了如何高效地以空间和时间一致的方式表示随意拍摄的单目视频。现有的方法主要依赖于将视频视为时空像素集合的2D/2.5D技术,但由于缺乏时间一致性和明确的3D结构,它们在处理复杂运动、遮挡和几何一致性方面存在困难。受到单目视频作为动态3D世界投影的启发,我们探索通过时空中连续流动的高斯基元来表示视频的内在3D形式。在本文中,我们提出了NutWorld,这是一种新颖的框架,可以在单次前向传递中高效地将单目视频转换为动态3D高斯表示。NutWorld的核心是引入了一种结构化的时空对齐高斯(STAG)表示,能够实现无优化的场景建模,并具有有效的深度和流动正则化。通过全面的实验,我们证明了NutWorld在实现高保真视频重建质量的同时,还能实时支持各种下游应用。演示和代码将在此https URL提供。