scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年1月31日更新论文48
[1] VidSole:用于深度学习的联合运动量化和疾病检测的多模态数据集
标题: VidSole: A Multimodal Dataset for Joint Kinetics Quantification and Disease Detection with Deep Learning
作者: Archit Kambhamettu / Samantha Snyder / Maliheh Fakhar / Samuel Audia / Ross Miller / Jae Kun Shim / Aniket Bera
原文:   [英文]   [中文]  
备注: Accepted by AAAI 2025 Special Track on AI for Social Impact
摘要:
理解关节内部负荷对于诊断与步态相关的疾病(如膝骨关节炎)至关重要;然而,目前测量关节风险因素的方法耗时、昂贵,并且仅限于实验室环境。在本文中,我们通过三个关键贡献实现了大规模、经济高效的关节负荷生物力学分析:开发和部署新型仪器化鞋垫,创建大型多模态生物力学数据集(VidSole),以及建立一个用于预测内部关节负荷因素的基线深度学习流程。我们新型的仪器化鞋垫能够测量足底五个高压点的三轴力和力矩。VidSole数据集包括这些鞋垫测量的力和力矩,以及来自两个视角的对应RGB视频、3D身体运动捕捉和力板数据,涵盖了52名不同参与者在进行四种基本日常活动(坐到站、站到坐、行走和跑步)时的2600多次试验。我们将鞋垫数据和可从视频中提取的运动学参数(如姿态、膝关节角度)输入到一个深度学习流程中,该流程由一个集成门控循环单元(GRU)活动分类器和活动特定的长短期记忆(LSTM)回归网络组成,以估计膝内收力矩(KAM),这是膝骨关节炎的生物力学风险因素。活动分类的成功率达到99.02%,而KAM估计的平均绝对误差(MAE)小于0.5%*体重*身高,这一当前阈值能够准确检测膝骨关节炎,说明了我们数据集在未来研究和临床环境中的实用性。

[2] 用于医学影像中细粒度新颖性检测的无监督Patch-GAN与目标化Patch排序
标题: Unsupervised Patch-GAN with Targeted Patch Ranking for Fine-Grained Novelty Detection in Medical Imaging
作者: Jingkun Chen / Guang Yang / Xiao Zhang / Jingchao Peng / Tianlu Zhang / Jianguo Zhang / Jungong Han / Vicente Grau
原文:   [英文]   [中文]  
备注: None
摘要:
在医学影像中检测新颖异常具有挑战性,因为罕见异常的标注数据有限,这些异常通常表现出高度的变异性和微妙性。当小的异常区域嵌入在较大的正常区域中时,这一挑战更加复杂,因为整体图像预测经常忽略这些细微的偏差。为了解决这些问题,我们提出了一种无监督的Patch-GAN框架,旨在通过捕捉局部细节和全局结构来检测和定位异常。我们的框架首先重建被遮挡的图像,以学习细粒度的、正常特定的特征,从而增强对正常性微小偏差的敏感性。通过将这些重建的图像划分为小块并评估每个小块的真实性,我们的方法在更细粒度的水平上识别异常,克服了整体图像评估的局限性。此外,一个小块排序机制优先考虑具有较高异常评分的区域,加强了局部小块差异与全局图像背景之间的一致性。在ISIC 2016皮肤病变和BraTS 2019脑肿瘤数据集上的实验结果验证了我们框架的有效性,分别实现了95.79%和96.05%的AUC,并且优于三种最先进的基线方法。

[3] TransRAD: 增强雷达目标检测的保留视觉变换器
标题: TransRAD: Retentive Vision Transformer for Enhanced Radar Object Detection
作者: Lei Cheng / Siyang Cao
原文:   [英文]   [中文]  
备注: Accepted by IEEE Transactions on Radar Systems
摘要:
尽管在自动驾驶和智能机器人环境感知能力方面取得了显著进展,但摄像头和激光雷达在低光照条件和恶劣天气下仍然表现得极不可靠,这限制了它们的有效性。雷达作为一种可靠且低成本的传感器,可以有效地弥补这些限制。然而,由于雷达数据固有的弱点,如低分辨率、高噪声和缺乏视觉信息,基于雷达的目标检测一直未被充分探索。在本文中,我们提出了TransRAD,这是一种新颖的3D雷达目标检测模型,旨在通过利用Retentive Vision Transformer (RMT) 更有效地从信息密集的雷达距离-方位-多普勒 (RAD) 数据中学习特征来应对这些挑战。我们的方法利用RMT提供的Retentive Manhattan Self-Attention (MaSA) 机制来结合显式空间先验,从而能够更准确地与RAD数据中雷达目标的空间显著性特征对齐,并在距离-方位-多普勒维度上实现精确的3D雷达检测。此外,我们提出了位置感知非极大值抑制 (Location-Aware NMS) 来有效缓解深度雷达目标检测中常见的重复边界框问题。实验结果表明,TransRAD在2D和3D雷达检测任务中均优于最先进的方法,达到了更高的准确性、更快的推理速度和更低的计算复杂度。代码可在此https URL获取。

[4] VoD-3DGS:视图不透明度相关的三维高斯点绘
标题: VoD-3DGS: View-opacity-Dependent 3D Gaussian Splatting
作者: Nowak Mateusz / Jarosz Wojciech / Chin Peter
原文:   [英文]   [中文]  
备注: None
摘要:
从图像重建三维场景具有挑战性,因为光线与表面的交互方式会因观察者的位置和表面材料的不同而变化。在经典计算机图形学中,材料可以分为漫反射和镜面反射,它们与光的交互方式不同。标准的三维高斯散点模型难以表示与视角相关的内容,因为它无法区分场景中的物体与光线在其镜面反射表面上的交互,这会产生高光或反射。在本文中,我们提出通过引入一个额外的对称矩阵来扩展三维高斯散点模型,以增强每个三维高斯的透明度表示。这一改进允许根据观察者的视角抑制某些高斯,从而更准确地表示与视角相关的反射和镜面高光,同时不影响场景的完整性。通过允许透明度与视角相关,我们增强的模型在Mip-Nerf、Tanks&Temples、Deep Blending和Nerf-Synthetic数据集上实现了最先进的性能,在渲染速度上没有显著损失,达到超过60FPS,并且仅带来极小的内存使用增加。

[5] 高效特征融合用于无人机目标检测
标题: Efficient Feature Fusion for UAV Object Detection
作者: Xudong Wang / Chaomin Shen / Yaxin Peng
原文:   [英文]   [中文]  
备注: None
摘要:
无人机(UAV)遥感图像中的目标检测由于图像质量不稳定、小目标尺寸、复杂背景和环境遮挡等因素面临重大挑战。特别是小目标仅占据图像的极小部分,使得其准确检测极为困难。现有的多尺度特征融合方法通过聚合不同分辨率的特征在一定程度上解决了这些挑战。然而,这些方法通常难以有效平衡小目标的分类和定位性能,主要是由于特征表示不足和网络信息流不平衡。在本文中,我们提出了一种专为无人机目标检测任务设计的新颖特征融合框架,以提高定位精度和分类性能。所提出的框架集成了混合上采样和下采样模块,使得来自不同网络深度的特征图能够灵活调整到任意分辨率。该设计促进了跨层连接和多尺度特征融合,确保了小目标的更好表示。我们的方法利用混合下采样来增强细粒度特征表示,即使在复杂条件下也能改善小目标的空间定位。同时,上采样模块聚合全局上下文信息,优化跨尺度的特征一致性,并在杂乱场景中增强分类鲁棒性。在两个公共无人机数据集上的实验结果证明了所提出框架的有效性。集成到YOLO-V10模型中,我们的方法在保持相同参数数量的同时,相较于基线YOLO-V10模型实现了2%的平均精度(AP)提升。这些结果突显了我们框架在准确和高效的无人机目标检测中的潜力。

[6] 使用SIREN进行压力场重建:一种在复杂噪声环境中进行图像速度测量的无网格方法
标题: Pressure Field Reconstruction with SIREN: A Mesh-Free Approach for Image Velocimetry in Complex Noisy Environments
作者: Renato F. Miotto / William R. Wolf / Fernando Zigunov
原文:   [英文]   [中文]  
备注: None
摘要:
本文提出了一种新颖的方法,利用SIREN(正弦表示网络)从图像速度测量数据中重建压力场,强调了其在噪声环境中的有效性以及其无网格特性。虽然我们简要评估了最近提出的两种方法——一次性矩阵全向积分(OS-MODI)和格林函数积分(GFI),但主要关注的是SIREN方法的优势。OS-MODI技术在无噪声条件和结构化网格中表现良好,但在应用于高纵横比的非结构化网格时表现不佳。同样,GFI方法由于牛顿核固有的奇异性而遇到困难。相比之下,所提出的SIREN方法是一种无网格方法,直接重建压力场,避免了对内在网格连接的需求,从而避免了与病态单元和非结构化网格相关的挑战。这为传统的基于网格的方法提供了明显的优势。此外,研究表明,可以通过改变SIREN的架构来过滤掉速度测量数据中的固有噪声。本文将SIREN定位为一种稳健且多功能的压力重建解决方案,特别是在缺乏网格结构的噪声环境中,为该领域的创新应用开辟了新的途径。

[7] 解剖学可能是您所需的一切:预测手术中的操作步骤
标题: Anatomy Might Be All You Need: Forecasting What to Do During Surgery
作者: Gary Sarwin / Alessandro Carretta / Victor Staartjes / Matteo Zoli / Diego Mazzatenta / Luca Regli / Carlo Serra / Ender Konukoglu
原文:   [英文]   [中文]  
备注: None
摘要:
手术引导可以通过多种方式实现。在神经外科中,空间引导和定向主要通过参考术前MRI扫描的神经导航系统来实现。最近,通过分析内窥镜等工具的视频流提供实时引导的兴趣日益增长。现有的方法,包括解剖检测、方向反馈、阶段识别和视觉问答,主要集中在帮助外科医生评估当前的手术场景。本文旨在提供更精细的引导,通过预测手术器械的轨迹来提供指导,实质上解决了下一步该做什么的问题。为了解决这一任务,我们提出了一种模型,该模型不仅利用手术器械的历史位置,还整合了解剖特征。重要的是,我们的工作不依赖于器械轨迹的明确真实标签。相反,真实标签是通过一个检测模型生成的,该模型经过训练可以检测包含垂体手术视频的综合数据集中手术视频中的解剖结构和器械。通过分析这些视频中解剖结构与器械运动之间的相互作用并预测未来的器械运动,我们表明解剖特征在解决这一具有挑战性的任务中是宝贵的资源。据我们所知,这项工作是首次尝试解决手动操作手术中的这一任务。

[8] 生成式人工智能在视觉领域的应用:框架与应用的综合研究
标题: Generative AI for Vision: A Comprehensive Study of Frameworks and Applications
作者: Fouad Bousetouane
原文:   [英文]   [中文]  
备注: 53 pages, 18 figures
摘要:
生成式人工智能正在改变图像合成技术,使得在设计、媒体、医疗保健和自动化系统等行业中能够创建高质量、多样化和逼真的视觉效果。图像到图像翻译、文本到图像生成、领域转换和多模态对齐等技术的进步拓宽了自动化视觉内容创作的范围,支持广泛的应用。这些进步由生成对抗网络(GANs)、条件框架和基于扩散的方法(如稳定扩散)等模型推动。本文根据输入的性质对图像生成技术进行了结构化分类,按输入模态(如噪声向量、潜在表示和条件输入)组织方法。我们探讨了这些模型背后的原理,重点介绍了包括DALL-E、ControlNet和DeepSeek Janus-Pro在内的关键框架,并解决了计算成本、数据偏见和输出与用户意图对齐等挑战。通过提供这种以输入为中心的视角,本研究将技术深度与实际见解相结合,为研究人员和从业者提供了一个全面的资源,以利用生成式人工智能进行现实世界的应用。

[9] 大型语言模型无需训练即可具备视觉和听觉能力
标题: LLMs can see and hear without any training
作者: Kumar Ashutosh / Yossi Gandelsman / Xinlei Chen / Ishan Misra / Rohit Girdhar
原文:   [英文]   [中文]  
备注: Code: this https URL
摘要:
我们介绍了MILS:多模态迭代LLM求解器,这是一种令人惊讶的简单且无需训练的方法,可以为您喜爱的LLM赋予多模态能力。利用其进行多步推理的内在能力,MILS提示LLM生成候选输出,每个输出都会被评分并反复反馈,最终生成任务的解决方案。这使得通常需要在特定任务数据上训练专门模型的各种应用成为可能。特别是,我们在新兴的零样本图像、视频和音频字幕生成方面建立了新的最先进水平。MILS也可以无缝应用于媒体生成,发现提示重写以改进文本到图像生成,甚至编辑提示以进行风格迁移!最后,作为一种无梯度优化方法,MILS可以将多模态嵌入反转为文本,从而实现跨模态算术等应用。

[10] 通过各向异性和局部性解开安全和不安全损坏
标题: Disentangling Safe and Unsafe Corruptions via Anisotropy and Locality
作者: Ramchandran Muthukumar / Ambar Pal / Jeremias Sulam / Rene Vidal
原文:   [英文]   [中文]  
备注: None
摘要:
最先进的机器学习系统对输入的微小扰动非常脆弱,其中“微小”是根据一种威胁模型定义的,该模型为每个扰动分配一个正的威胁值。大多数先前的研究定义了一种与任务无关的、各向同性的、全局的威胁,例如 $\ell_p$ 范数,其中扰动的大小完全决定了威胁的程度,而攻击的方向或其在空间中的位置则无关紧要。然而,计算机视觉中的常见损坏,如模糊、压缩或遮挡,并不能被这种威胁模型很好地捕捉。本文提出了一种新的威胁模型,称为\texttt{Projected Displacement}(PD),以研究超越现有各向同性和全局威胁模型的鲁棒性。所提出的威胁模型通过扰动与\textit{不安全方向}的对齐来衡量威胁,这些不安全方向被定义为输入空间中的方向,在这些方向上,足够大的扰动会改变真实类别标签。不安全方向是基于观察到的训练数据为每个输入局部识别的。通过这种方式,PD威胁模型表现出各向异性和局部性。在Imagenet-1k数据上的实验表明,对于任何输入,具有小PD威胁的扰动集合包括保持真实标签的\textit{安全}扰动,这些扰动具有大的 $\ell_p$ 范数,如噪声、模糊和压缩,同时排除改变真实标签的\textit{不安全}扰动。与基于大型视觉模型嵌入的感知威胁模型不同,PD威胁模型可以直接计算用于任意分类任务,而无需预训练或微调。此外,诸如对图像区域的敏感性或概念层次结构等额外的任务注释可以轻松集成到威胁评估中,因此PD威胁模型为从业者提供了一种灵活的、任务驱动的威胁规范。

[11] DeepFRC:一种用于功能配准和分类的端到端深度学习模型
标题: DeepFRC: An End-to-End Deep Learning Model for Functional Registration and Classification
作者: Siyuan Jiang / Yihan Hu / Wenjie Li / Pengcheng Zeng
原文:   [英文]   [中文]  
备注: 27 pages, 8 figures
摘要:
功能数据分析(FDA)对于分析连续的高维数据至关重要,但现有方法通常将功能配准和分类分开处理,限制了其效率和性能。我们提出了DeepFRC,这是一种端到端的深度学习框架,将这些任务统一在一个模型中。我们的方法包含一个对齐模块,通过弹性函数配准学习时间变形函数,以及一个用于对齐数据降维的可学习基表示模块。这种集成提高了对齐精度和预测性能。理论分析表明,DeepFRC在低失配和泛化误差方面表现出色,而模拟则阐明了训练过程中配准、重建和分类的进展。在真实数据集上的实验表明,DeepFRC在解决复杂配准挑战方面始终优于最先进的方法。代码可在此URL获取:this https URL。

[12] REMOTE:通过多模态视觉特征学习实现多种内窥镜的实时自我运动跟踪
标题: REMOTE: Real-time Ego-motion Tracking for Various Endoscopes via Multimodal Visual Feature Learning
作者: Liangjing Shao / Benshuang Chen / Shuting Zhao / Xinrong Chen
原文:   [英文]   [中文]  
备注: None
摘要:
实时内窥镜自运动跟踪是内窥镜高效导航和机器人自动化的重要任务。本文提出了一种新颖的框架来实现内窥镜的实时自运动跟踪。首先,提出了一种多模态视觉特征学习网络来进行相对位姿预测,其中提取了来自光流的运动特征、场景特征以及来自两个相邻观测的联合特征用于预测。由于在连接图像的通道维度中存在更多的相关信息,设计了一种基于注意力机制的新型特征提取器,以整合来自两个连续帧连接的多维信息。为了从融合特征中提取更完整的特征表示,提出了一种新型位姿解码器,以从框架末端的连接特征图中预测位姿变换。最后,基于相对位姿计算内窥镜的绝对位姿。实验在三个不同内窥镜场景的数据集上进行,结果表明所提出的方法优于最先进的方法。此外,所提出方法的推理速度超过每秒30帧,满足实时要求。项目页面在这里:\href{this https URL}{this http URL}

[13] IROAM:通过自动驾驶车辆数据域改进路边单目3D物体检测学习
标题: IROAM: Improving Roadside Monocular 3D Object Detection Learning from Autonomous Vehicle Data Domain
作者: Zhe Wang / Xiaoliang Huo / Siqi Fan / Jingjing Liu / Ya-Qin Zhang / Yan Wang
原文:   [英文]   [中文]  
备注: 7 pages, 5 figures, ICRA2025
摘要:
在自动驾驶中,自车的感知能力可以通过路边传感器得到提升,这些传感器可以提供环境的整体视图。然而,现有为车载摄像头设计的单目检测方法由于视角域差异,不适用于路边摄像头。为了弥合这一差距并改进路边单目3D目标检测,我们提出了IROAM,这是一种语义-几何解耦的对比学习框架,能够同时将车载和路边数据作为输入。IROAM有两个重要模块。域内查询交互模块利用变压器为每个域学习内容和深度信息,并输出目标查询。跨域查询增强模块为了从两个域中学习更好的特征表示,跨域查询增强模块将查询解耦为语义和几何部分,并且仅使用前者进行对比学习。实验表明,IROAM在提高路边检测器性能方面的有效性。结果验证了IROAM具备学习跨域信息的能力。

[14] 使用脑电图数据进行抑郁症检测的机器学习公平性
标题: Machine Learning Fairness for Depression Detection using EEG Data
作者: Angus Man Ho Kwok / Jiaee Cheong / Sinan Kalkan / Hatice Gunes
原文:   [英文]   [中文]  
备注: To appear as part of the International Symposium on Biomedical Imaging (ISBI) 2025 proceedings
摘要:
本文首次尝试评估使用脑电图(EEG)数据进行抑郁症检测的机器学习公平性。我们在三个EEG数据集(Mumtaz、MODMA和Rest)上使用不同的深度学习架构进行实验,如卷积神经网络(CNN)、长短期记忆网络(LSTM)和门控循环单元网络(GRU)。我们在处理的前、中、后阶段采用了五种不同的偏差缓解策略,并评估了它们的有效性。实验结果表明,现有的EEG数据集和用于抑郁症检测的算法中存在偏差,不同的偏差缓解方法在不同的公平性度量上以不同的程度解决了偏差问题。

[15] Free-T2M: 具有一致性损失的频率增强文本到动作扩散模型
标题: Free-T2M: Frequency Enhanced Text-to-Motion Diffusion Model With Consistency Loss
作者: Wenshuo Chen / Haozhe Jia / Songning Lai / Keming Wu / Hongru Xiao / Lijie Hu / Yutao Yue
原文:   [英文]  
备注: None
摘要:
文本到动作生成的快速进展主要由扩散模型推动。然而,现有的方法仅关注时间建模,从而忽视了频域分析。我们识别出动作去噪中的两个关键阶段:**语义规划阶段**和**细粒度改进阶段**。为了有效地应对这些阶段,我们提出了**频率增强文本到动作扩散模型(Free-T2M)**,其中包含阶段特定的一致性损失,以增强静态特征的鲁棒性并提高细粒度的准确性。大量实验表明了我们方法的有效性。具体来说,在StableMoFusion上,我们的方法将FID从**0.189**降低到**0.051**,在扩散架构中建立了新的SOTA性能。这些发现强调了在文本到动作生成中结合频域见解以获得更精确和更稳健结果的重要性。

[16] 任意数据作为图像:使用视觉变换器融合跨模态和不规则间隔的患者数据
标题: Arbitrary Data as Images: Fusion of Patient Data Across Modalities and Irregular Intervals with Vision Transformers
作者: Malte Tölle / Mohamad Scharaf / Samantha Fischer / Christoph Reich / Silav Zeid / Christoph Dieterich / Benjamin Meder / Norbert Frey / Philipp Wild / Sandy Engelhardt
原文:   [英文]   [中文]  
备注: None
摘要:
每位患者在住院期间会接受多次检查,每次检查提供健康状况的不同方面。这些评估包括具有不同采样率的时间数据、离散的单点测量、药物管理等治疗干预以及图像。虽然医生能够直观地处理和整合多种模态,但神经网络需要对每种模态进行特定建模,这使得训练过程变得复杂。我们证明,通过将所有信息可视化为图像以及非结构化文本,并随后训练一个常规的视觉-文本转换器,可以显著降低这种复杂性。我们的方法,称为不规则采样多模态测量的视觉转换器(ViTiMM),不仅简化了数据预处理和建模过程,还在预测住院死亡率和表型分析方面优于当前最先进的方法,这在MIMIC-IV数据集的6,175名患者中得到了验证。模态包括患者的临床测量、药物、X光图像和心电图扫描。我们希望我们的工作能够通过将训练复杂性降低到(视觉)提示工程来激发多模态医学AI的进步,从而降低进入门槛,并为训练提供无代码解决方案。源代码将公开提供。

[17] 深度学习中用于大型室外点云分割的地面感知
标题: Ground Awareness in Deep Learning for Large Outdoor Point Cloud Segmentation
作者: Kevin Qiu / Dimitri Bulatov / Dorota Iwaszczuk
原文:   [英文]   [中文]  
备注: This paper has been accepted for presentation at the GRAPP 2025 conference
摘要:
本文分析了在遥感中利用高程数据通过现有的机器学习网络来辅助户外点云的语义分割,特别是在城市和建筑密集区域。在密集的户外点云中,机器学习模型的感受野可能过小,无法准确确定一个点的周围环境和上下文。通过从点云中计算数字地形模型(DTM),我们提取了相对高程特征,即从地形到某一点的垂直距离。我们采用RandLA-Net进行大规模点云的高效语义分割。我们评估了其在三个不同的户外数据集上的性能,这些数据集是通过不同的传感器技术和传感器位置捕获的。相对高程数据的整合在所有三个数据集上都带来了持续的性能提升,尤其是在Hessigheim数据集中,平均F1分数从72.35%提高到76.01%,增加了3.7个百分点,这是通过建立地面与物体之间的长距离依赖关系实现的。我们还探索了其他局部特征,如平面性、法向量和二维特征,但它们的效果因点云的特性而异。最终,这项研究强调了非局部相对高程特征在遥感应用中点云语义分割中的重要作用。

[18] MAMS:用于视频字幕生成的模型无关模块选择框架
标题: MAMS: Model-Agnostic Module Selection Framework for Video Captioning
作者: Sangho Lee / Il Yong Chun / Hogun Park
原文:   [英文]   [中文]  
备注: Accepted to the AAAI 2025 Main Technical Track. This is an extended version of the original submission
摘要:
多模态变压器在视频字幕生成任务中迅速受到关注。现有的多模态视频字幕生成方法通常提取固定数量的帧,这带来了关键的挑战。当提取的帧数量有限时,可能会错过对字幕生成至关重要的信息帧。相反,提取过多的帧则会包含连续的帧,可能导致从连续视频帧中提取的视觉标记冗余。为了为每个视频提取适当数量的帧,本文提出了视频字幕生成中首个与模型无关的模块选择框架,该框架具有两个主要功能:(1)根据从视频帧中提取的视觉标记选择合适大小的字幕生成模块,以及(2)为所选字幕生成模块构建视觉标记的子集。此外,我们提出了一种新的自适应注意力掩码方案,以增强对重要视觉标记的注意力。我们在三个不同的基准数据集上的实验表明,所提出的框架显著提高了三个最新视频字幕生成模型的性能。

[19] 基于机器学习方法的肺癌分级综合分析
标题: A Comprehensive Analysis on Machine Learning based Methods for Lung Cancer Level Classification
作者: Shayli Farshchiha / Salman Asoudeh / Maryam Shavali Kuhshuri / Mehrshad Eisaeid / Mohamadreza Azadie / Saba Hesaraki
原文:   [英文]  
备注: None
摘要:
肺癌是全球公共健康的主要问题,需要使用稳定的技术进行早期诊断。本文开始对使用机器学习(ML)方法进行肺癌分期精确分类的深入研究。通过谨慎分析,考虑到最小子权重和学习率,以克服模型性能中的过拟合问题。系统地运行并对比了一组机器学习(ML)模型,包括XGBoost(XGB)、LGBM、Adaboost、逻辑回归(LR)、决策树(DT)、随机森林(RF)、CatBoost和k-近邻(k-NN)。此外,使用深度神经网络(DNN)模型检查特征与目标之间的相关性,从而确立其检测复杂模式的能力。研究表明,几种ML模型能够以高精度对肺癌分期进行分类。尽管DNN架构复杂,传统的ML模型如XGBoost、LGBM和逻辑回归在性能上表现优异。在完整的比较指标集(如准确率、精确率、召回率和F-1分数)上,这些模型在肺癌预测中表现优于其他模型。

[20] 微观结构模拟与机器学习
标题: Simulation of microstructures and machine learning
作者: Katja Schladitz / Claudia Redenbach / Tin Barisin / Christian Jung / Natascha Jeziorski / Lovro Bosnar / Juraj Fulir / Petra Gospodnetić
原文:   [英文]  
备注: Preprint of: K. Schladitz, C. Redenbach, T. Barisin, C. Jung, N. Jeziorski, L. Bosnar, J. Fulir, P. Gospodnetić: Simulation of Microstructures and Machine Learning, published in Continuum Models and Discrete Systems by F. Willot, J. Dirrenberger, S. Forest, D. Jeulin, A.V. Cherkaev (eds), 2024, Springer Cham. The final version is this https URL
摘要:
机器学习为具有挑战性的图像处理任务提供了有吸引力的解决方案。通过训练卷积神经网络或随机森林,可以替代繁琐的算法开发和参数化过程,并具有很高的泛化潜力。然而,机器学习方法依赖于大量具有代表性的图像数据及其对应的真实标签,这些标签通常通过手动标注获得。因此,训练数据的有限可用性是一个关键瓶颈。我们讨论了两个使用案例:工业生产中的光学质量控制和混凝土3D图像中裂缝结构的分割。对于光学质量控制,所有缺陷类型都需要进行训练,但在训练数据中通常没有均匀表示。此外,手动标注成本高且往往不一致。在第二种情况下,即混凝土3D图像中裂缝系统的分割,几乎是不可能的。基于随机几何模型实现生成的合成图像提供了一种优雅的解决方案。可以生成各种结构类型。结构内的变化自然地被模型的随机性捕捉到,并且真实标签是免费的。由此产生了许多新问题。特别是,真实图像数据的哪些特征必须达到何种程度的保真度。

[21] 使用贝叶斯滤波在三维网格上进行表面缺陷识别
标题: Surface Defect Identification using Bayesian Filtering on a 3D Mesh
作者: Matteo Dalle Vedove / Matteo Bonetto / Edoardo Lamon / Luigi Palopoli / Matteo Saveriano / Daniele Fontanelli
原文:   [英文]  
备注: Presented at IMEKO2024 World Congress, Hamburg, Germany, 26-29 October 2024
摘要:
本文提出了一种基于CAD的自动化表面缺陷检测方法。我们利用嵌入在CAD模型中的先验知识,并将其与从市售立体相机和深度相机获取的点云数据相结合。该方法首先将CAD模型转换为高密度多边形网格,其中每个顶点代表三维空间中的一个状态变量。随后,采用加权最小二乘算法迭代估计基于捕获的点云测量的扫描工件的状态。该框架有可能将来自不同传感器的信息整合到CAD领域中,从而促进更全面的分析。初步结果显示出良好的性能,算法在感兴趣区域内仅使用大约50个点云样本就实现了收敛到亚毫米标准差。这突显了利用市售立体相机进行高精度质量控制应用的潜力。

[22] 一个基于视频的对话数据集和用于事件驱动活动的度量
标题: A Video-grounded Dialogue Dataset and Metric for Event-driven Activities
作者: Wiradee Imrattanatrai / Masaki Asada / Kimihiro Hasegawa / Zhi-Qi Cheng / Ken Fukuda / Teruko Mitamura
原文:   [英文]   [中文]  
备注: Accepted at AAAI2025
摘要:
本文介绍了VDAct,一个用于事件驱动活动的视频基础对话数据集,以及专门为该任务设计的会话上下文评估指标VDEval。与现有数据集不同,VDAct包含更长且更复杂的视频序列,这些序列展示了多种事件驱动活动,需要高级的上下文理解才能生成准确的响应。该数据集由1,000个视频中提取的3,000个对话组成,包含超过30,000个问答对,涵盖多样的活动场景。由于其广泛的活动场景和多样的问题类型,VDAct表现出显著的挑战性。对最先进的视觉基础模型的实证研究突出了它们在处理我们数据集中某些问题类型时的局限性。此外,VDEval通过整合对话会话历史和从我们补充的知识图中提取的视频内容摘要来评估个别响应,与仅依赖单一对话轮次上下文的现有评估指标相比,在VDAct数据集上与人类评估的相关性显著更高。

[23] CodeBrain:通过实例特定的标量量化编码填补任何脑部MRI
标题: CodeBrain: Impute Any Brain MRI via Instance-specific Scalar-quantized Codes
作者: Yicheng Wu / Tao Song / Zhonghua Wu / Zongyuan Ge / Zhaolin Chen / Jianfei Cai
原文:   [英文]  
备注: None
摘要:
MRI 插补旨在从一个或多个可用模态中合成缺失的模态,这非常理想,因为它可以降低扫描成本,并提供全面的 MRI 信息以增强临床诊断。在本文中,我们提出了一种统一模型,CodeBrain,旨在适应各种脑部 MRI 插补场景。其核心设计在于将各种模态间的转换视为一个全模态代码预测任务。为此,CodeBrain 的训练分为两个阶段:重建和代码预测。首先,在重建阶段,我们重建每个 MRI 模态,将其映射到一个共享的潜在空间,然后进行标量量化。由于这种量化是有损的,并且代码是低维的,因此随机选择属于同一受试者的另一个 MRI 模态以生成共同特征,以补充代码并提升目标重建。在第二阶段,我们通过定制的分级损失训练另一个编码器,从随机掩蔽的 MRI 样本中预测全模态代码,并由第一阶段生成的相应量化代码监督。通过这种方式,模态间的转换通过在有限标量空间中映射特定实例的代码来实现。我们在两个公共脑部 MRI 数据集(即 IXI 和 BraTS 2023)上评估了所提出的 CodeBrain 模型。大量实验表明,我们的 CodeBrain 模型在插补性能上优于四种现有方法,为统一脑部 MRI 插补建立了新的技术水平。代码将会发布。

[24] 基于视频的手术工具尖端和关键点跟踪:使用多帧上下文驱动的深度学习模型
标题: Video-based Surgical Tool-tip and Keypoint Tracking using Multi-frame Context-driven Deep Learning Models
作者: Bhargav Ghanekar / Lianne R. Johnson / Jacob L. Laughlin / Marcia K. O'Malley / Ashok Veeraraghavan
原文:   [英文]   [中文]  
备注: None
摘要:
在机器人手术视频中自动跟踪手术工具关键点是多种下游应用的重要任务,例如技能评估、专业水平评估和安全区域划分。近年来,随着深度学习在视觉应用中的爆炸性发展,许多研究集中在手术器械的分割上,而对特定工具关键点(如工具尖端)的跟踪关注较少。在这项工作中,我们提出了一种新颖的、多帧上下文驱动的深度学习框架,用于在手术视频中定位和跟踪工具关键点。我们在2015年EndoVis挑战赛数据集的标注帧上训练和测试我们的模型,取得了最先进的性能。通过利用复杂的深度学习模型和多帧上下文,我们实现了90%的关键点检测准确率和5.27像素的定位均方根误差。在具有更具挑战性场景的自标注JIGSAWS数据集上的结果也表明,所提出的多帧模型可以准确跟踪工具尖端和工具基部的关键点,总体均方根误差小于4.2像素。这样的框架为准确跟踪手术器械关键点铺平了道路,从而实现更多的下游应用。项目和数据集网页:this https URL

[25] 混凝土中的裂缝
标题: Cracks in concrete
作者: Tin Barisin / Christian Jung / Anna Nowacka / Claudia Redenbach / Katja Schladitz
原文:   [英文]  
备注: This is a preprint of the chapter: T. Barisin, C. Jung, A. Nowacka, C. Redenbach, K. Schladitz: Cracks in concrete, published in Statistical Machine Learning for Engineering with Applications (LNCS), edited by J. Franke, A. Schöbel, reproduced with permission of Springer Nature Switzerland AG 2024. The final authenticated version is available online at: this https URL
摘要:
在混凝土图像中寻找和正确分割裂缝是一项具有挑战性的任务。裂缝细而粗糙,并且由于充满空气,在通过计算机断层扫描获得的3D图像中产生的对比度非常弱。增强和分割暗色的低维结构已经很困难。异质的混凝土基质和图像的大小进一步增加了复杂性。机器学习方法已被证明在有足够且标注良好的数据进行训练时可以解决困难的分割问题。然而,到目前为止,几乎没有可用的裂缝3D图像数据,更不用说标注的了。交互式标注容易出错,因为人类可以轻松区分猫和狗或没有车的道路和有车的道路,但很难判断在2D切片中看到的细而暗的结构是否在下一个切片中继续。通过合成的、模拟的图像训练网络是一种优雅的解决方法,但也有其自身的挑战。在这项研究中,我们描述了如何生成半合成图像数据来训练像著名的3D U-Net或随机森林这样的卷积神经网络,以分割混凝土3D图像中的裂缝。真实裂缝的厚度变化很大,无论是在同一裂缝内还是在同一样本中的不同裂缝之间。因此,分割方法应对尺度变化具有不变性。我们介绍了所谓的RieszNet,专为此目的而设计。最后,我们讨论了如何将机器学习裂缝分割方法推广到其他类型的混凝土。

[26] MatIR: 一种混合型Mamba-Transformer图像修复模型
标题: MatIR: A Hybrid Mamba-Transformer Image Restoration Model
作者: Juan Wen / Weiyan Hou / Luc Van Gool / Radu Timofte
原文:   [英文]   [中文]  
备注: arXiv admin note: text overlap with arXiv:2402.15648 by other authors
摘要:
近年来,基于Transformer的模型通过利用其捕捉复杂上下文特征的内在能力,在图像修复领域取得了显著进展。最近,Mamba模型因其处理长距离依赖的能力以及与Transformer相比显著的计算效率,在计算机视觉领域引起了广泛关注。然而,Mamba在上下文学习能力方面目前仍落后于Transformer。为克服这两种模型的局限性,我们提出了一种名为MatIR的Mamba-Transformer混合图像修复模型。具体而言,MatIR交叉循环Transformer层和Mamba层的块以提取特征,从而充分利用这两种架构的优势。在Mamba模块中,我们引入了图像修复状态空间(IRSS)模块,该模块沿四条扫描路径遍历,以实现长序列数据的高效处理。在Transformer模块中,我们结合了基于三角窗口的局部注意力和基于通道的全局注意力,以有效激活更大范围图像像素的注意力机制。大量的实验结果和消融研究证明了我们方法的有效性。

[27] 高效变压器用于高分辨率图像运动去模糊
标题: Efficient Transformer for High Resolution Image Motion Deblurring
作者: Amanturdieva Akmaral / Muhammad Hamza Zafar
原文:   [英文]   [中文]  
备注: 14 pages, 18 figures Submitted as a preprint, no prior journal/conference submission
摘要:
本文对高分辨率图像运动去模糊的Restormer架构进行了全面研究和改进。我们引入了架构修改,在优化注意力机制的同时,将模型复杂度降低了18.4%,并保持或提高了性能。我们增强的训练流程结合了额外的变换,包括颜色抖动、高斯模糊和透视变换,以提高模型的鲁棒性,并引入了新的频率损失项。在RealBlur-R、RealBlur-J和超高清运动模糊(UHDM)数据集上的大量实验表明了我们方法的有效性。改进后的架构表现出更好的收敛行为和更短的训练时间,同时在具有挑战性的场景中保持了竞争力的性能。我们还提供了详细的消融研究,分析了我们修改对模型行为和性能的影响。我们的结果表明,经过深思熟虑的架构简化结合增强的训练策略,可以产生更高效但同样强大的运动去模糊任务模型。代码和数据可在此网址获取:this https URL

[28] SANA 1.5:线性扩散变压器中训练时间和推理时间计算的高效扩展
标题: SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer
作者: Enze Xie / Junsong Chen / Yuyang Zhao / Jincheng Yu / Ligeng Zhu / Yujun Lin / Zhekai Zhang / Muyang Li / Junyu Chen / Han Cai / Bingchen Liu / Daquan Zhou / Song Han
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了 SANA-1.5,这是一种线性扩散变压器,用于在文本到图像生成中实现高效的扩展。在 SANA-1.0 的基础上,我们引入了三个关键创新:(1)高效训练扩展:一种深度增长范式,使得参数从 16 亿扩展到 48 亿时显著减少计算资源,并结合了内存高效的 8 位优化器。(2)模型深度剪枝:一种块重要性分析技术,用于在质量损失最小的情况下将模型压缩到任意大小。(3)推理时扩展:一种重复采样策略,通过计算换取模型容量,使得较小的模型在推理时能够匹配较大模型的质量。通过这些策略,SANA-1.5 在 GenEval 上实现了 0.72 的文本-图像对齐分数,通过推理扩展可以进一步提高到 0.80,在 GenEval 基准上建立了新的最先进水平。这些创新使得在不同计算预算下实现高效的模型扩展成为可能,同时保持高质量,使高质量的图像生成更加可及。

[29] 室内导航辅助的自适应目标检测:实时算法的性能评估
标题: Adaptive Object Detection for Indoor Navigation Assistance: A Performance Evaluation of Real-Time Algorithms
作者: Abhinav Pratap / Sushant Kumar / Suchinton Chakravarty
原文:   [英文]  
备注: 5 pages, 2 figures, 3 tables
摘要:
本研究针对视障人士辅助技术中对准确且高效的物体检测的需求进行了研究。我们在室内导航辅助的背景下评估了四种实时物体检测算法:YOLO、SSD、Faster R-CNN 和 Mask R-CNN。利用室内物体检测数据集,我们分析了检测精度、处理速度以及对室内环境的适应性。我们的研究结果突出了精度与效率之间的权衡,为选择实时辅助导航的最佳算法提供了见解。此研究推进了自适应机器学习应用,增强了视障人士的室内导航解决方案,并促进了无障碍环境的实现。

[30] 低分辨率热成像TUG测试图像中关键点检测的迁移学习
标题: Transfer Learning for Keypoint Detection in Low-Resolution Thermal TUG Test Images
作者: Wei-Lun Chen / Chia-Yeh Hsieh / Yu-Hsiang Kao / Kai-Chun Liu / Sheng-Yu Peng / Yu Tsao
原文:   [英文]   [中文]  
备注: Accepted to AICAS 2025. This is the preprint version
摘要:
本研究提出了一种新颖的方法,利用迁移学习技术在低分辨率热成像中进行人体关键点检测。我们首次在热成像计算机视觉中应用了“起立-行走”测试(TUG),为移动性评估建立了新的范式。我们的方法利用了MobileNetV3-Small编码器和ViTPose解码器,并通过一种复合损失函数进行训练,该损失函数在潜在表示对齐和热图准确性之间取得平衡。模型使用COCO关键点检测挑战中的对象关键点相似性(OKS)指标进行评估。所提出的模型在AP、AP50和AP75得分上分别达到了0.861、0.942和0.887,优于传统的监督学习方法如Mask R-CNN和ViTPose-Base。此外,我们的模型在参数数量和FLOPS方面表现出卓越的计算效率。这项研究为热成像在移动性评估和康复监测中的未来临床应用奠定了坚实的基础。

[31] 使用视觉语言模型进行真实世界分布外检测的基准和评估
标题: A Benchmark and Evaluation for Real-World Out-of-Distribution Detection Using Vision-Language Models
作者: Shiho Noda / Atsuyuki Miyai / Qing Yu / Go Irie / Kiyoharu Aizawa
原文:   [英文]   [中文]  
备注: None
摘要:
分布外(OOD)检测是一项在推理过程中检测OOD样本的任务,以确保已部署模型的安全性。然而,传统的基准测试已经达到性能饱和,使得比较最近的OOD检测方法变得困难。为了解决这一挑战,我们引入了三个新颖的OOD检测基准,这些基准能够更深入地理解方法特性并反映真实世界的条件。首先,我们提出了ImageNet-X,旨在评估在具有挑战性的语义变化下的性能。其次,我们提出了ImageNet-FS-X,用于全谱OOD检测,评估对协变量变化(特征分布变化)的鲁棒性。最后,我们提出了Wilds-FS-X,将这些评估扩展到真实世界的数据集,提供了一个更全面的测试平台。我们的实验表明,最近基于CLIP的OOD检测方法在所提出的三个基准上表现不一,没有一种方法能够始终优于其他方法。我们希望研究社区能够超越特定的基准测试,包含更多反映真实世界场景的挑战性条件。代码可以在这个HTTPS URL中找到。

[32] 通过测试时提示引导训练调整视觉基础模型以进行VFSS分割
标题: Tuning Vision Foundation Model via Test-Time Prompt-Guided Training for VFSS Segmentations
作者: Chengxi Zeng / David Smithard / Alberto M Gambaruto / Tilo Burghardt
原文:   [英文]   [中文]  
备注: None
摘要:
视觉基础模型在通用和专业图像的分割任务中展示了卓越的泛化能力。然而,基础模型与任务特定的专业模型之间仍然存在性能差距。通常需要对基础模型在下游数据集上进行微调,以弥合这一差距。不幸的是,获取下游数据集的完整标注真值既具有挑战性又成本高昂。为了解决这一限制,我们提出了一种新颖的测试时训练范式,该范式在不需要完整标注的情况下提高了基础模型在下游数据集上的性能。具体来说,我们的方法使用简单的点提示来引导测试时的半自监督训练任务。模型通过各种增强方法解决点提示的歧义来学习。这种方法直接解决了医学影像领域的挑战,在该领域中获取标注既耗时又昂贵。我们在新的Videofluoroscopy数据集(VFSS-5k)上进行了广泛的实验,用于实例分割任务,单个模型在12个解剖结构上实现了平均Dice系数为0.868。

[33] SimpleDepthPose:使用RGBD图像进行快速可靠的人体姿态估计
标题: SimpleDepthPose: Fast and Reliable Human Pose Estimation with RGBD-Images
作者: Daniel Bermuth / Alexander Poeppel / Wolfgang Reif
原文:   [英文]   [中文]  
备注: None
摘要:
在快速发展的计算机视觉领域,从多个视角准确估计多个人的姿态仍然是一个重大挑战,尤其是在可靠性是关键要求的情况下。本文介绍了一种新颖的算法,该算法通过结合深度信息在多视角、多人的姿态估计中表现出色。广泛的评估表明,该算法不仅能够很好地推广到未见过的数据集,表现出快速的运行性能,而且还可以适应不同的关键点。为了支持进一步的研究,所有的工作都是公开可访问的。

[34] Track-On: 基于Transformer的带记忆在线点跟踪
标题: Track-On: Transformer-based Online Point Tracking with Memory
作者: Görkay Aydemir / Xiongyi Cai / Weidi Xie / Fatma Güney
原文:   [英文]   [中文]  
备注: ICLR 2025
摘要:
在本文中,我们研究了长期点跟踪问题,该问题要求在视频的多个帧中对点进行一致的识别,尽管外观、光照、视角和遮挡发生变化。我们针对逐帧的在线跟踪,使其适用于真实世界的流媒体场景。具体来说,我们引入了Track-On,这是一种简单的基于Transformer的模型,专为在线长期点跟踪而设计。与依赖于完整时间建模的先前方法不同,我们的模型以因果方式处理视频帧,无需访问未来帧,利用两个记忆模块——空间记忆和上下文记忆——来捕捉时间信息,并在长时间范围内保持可靠的点跟踪。在推理时,它通过补丁分类和细化来识别对应关系,并以高精度跟踪点。通过大量实验,我们证明了Track-On为在线模型设定了新的技术标准,并在包括TAP-Vid基准在内的七个数据集上提供了优于或具有竞争力的结果。我们的方法为多样化应用中的实时跟踪提供了一种稳健且可扩展的解决方案。项目页面:this https URL

[35] 跑道与滑行道:自动化线路识别和标注方法中的挑战
标题: Runway vs. Taxiway: Challenges in Automated Line Identification and Notation Approaches
作者: Parth Ganeriwala / Amy Alvarez / Abdullah AlQahtani / Siddhartha Bhattacharyya / Mohammed Abdul Hafeez Khan / Natasha Neogi
原文:   [英文]   [中文]  
备注: Accepted at SysCon 2025
摘要:
随着自主系统复杂性的增加,对跑道和滑行道标记的准确和可靠标注的需求也在加大,以确保操作安全。精确检测和标注这些标记对于导航、着陆辅助和地面控制自动化等任务至关重要。现有的标注算法,如自动线识别和标注算法(ALINA),在识别滑行道标记方面取得了成功,但在应用于跑道标记时遇到了显著挑战。这一限制是由于线条特征、环境背景以及诸如阴影、轮胎痕迹和不同表面条件等元素的干扰存在显著差异。为了解决这些挑战,我们通过调整颜色阈值和优化感兴趣区域(ROI)的选择来修改ALINA,以更好地适应跑道特定的环境。虽然这些修改带来了有限的改进,但该算法在一致识别跑道方面仍然存在困难,经常错误标注诸如地平线或不相关的背景特征等元素。这突显了需要一种更强大的解决方案,能够适应多样的视觉干扰。在本文中,我们提出通过集成一个名为AssistNet的卷积神经网络(CNN)分类步骤来解决这一问题。通过加入这个分类步骤,检测流程对环境变化和错误分类的抵抗力更强。此项工作不仅识别了挑战,还提出了解决方案,为改进自主航空系统所需的自动标注技术铺平了道路。

[36] HSRMamba:用于单次高光谱超分辨率的上下文空间-光谱状态空间模型
标题: HSRMamba: Contextual Spatial-Spectral State Space Model for Single Hyperspectral Super-Resolution
作者: Shi Chen / Lefei Zhang / Liangpei Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
由于其强大的全局建模能力和线性计算复杂度,Mamba在视觉任务中表现出色,在高光谱图像超分辨率(HSISR)中展现出相当大的潜力。然而,在HSISR中,Mamba面临挑战,因为将图像转换为一维序列忽略了局部相邻像素之间的空间-光谱结构关系,并且其性能对输入顺序高度敏感,这影响了空间和光谱细节的恢复。在本文中,我们提出了HSRMamba,这是一种用于HSISR的上下文空间-光谱建模状态空间模型,以在局部和全局上解决这些问题。具体而言,设计了一种局部空间-光谱分区机制,以在3D特征中建立相邻像素之间的块状因果关系,从而缓解局部遗忘问题。此外,基于光谱相似性的全局光谱重排序策略被采用,以增强在空间和光谱维度上相似像素的因果表示。最后,实验结果表明,我们的HSRMamba在定量质量和视觉效果上优于最先进的方法。代码将很快发布。

[37] CLEAR:使用进化进行线索学习以实现准确识别,应用于可持续性数据提取
标题: CLEAR: Cue Learning using Evolution for Accurate Recognition Applied to Sustainability Data Extraction
作者: Peter J. Bentley / Soo Ling Lim / Fuyuki Ishikawa
原文:   [英文]  
备注: 9 pages plus 2 pages of supplemental material
摘要:
大型语言模型(LLM)图像识别是一种从图像中提取数据的强大工具,但其准确性依赖于在提示中提供足够的线索——这需要领域专家来处理专业任务。我们介绍了一种使用进化进行准确识别的线索学习(CLEAR)方法,该方法结合了LLM和进化计算,以生成和优化线索,从而改善图像中特殊特征的识别。它通过自动生成一种新颖的领域特定表示,然后使用遗传算法优化合适的文本线索来实现这一目标。我们将CLEAR应用于从建筑物的内部和外部图像中识别可持续性数据的实际任务。我们研究了使用可变长度表示与固定长度表示的效果,并展示了如何通过从分类估计重构为实值估计来提高LLM的一致性。我们表明,CLEAR在每项任务中都能实现比专家人工识别和人工编写提示更高的准确性,错误率提高了多达两个数量级,并通过消融研究展示了解决方案的简洁性。

[38] 解构复杂性(DeComplex):处理密集动作检测的新视角
标题: Deconstruct Complexity (DeComplex): A Novel Perspective on Tackling Dense Action Detection
作者: Faegheh Sardari / Armin Mustafa / Philip J. B. Jackson / Adrian Hilton
原文:   [英文]   [中文]  
备注: Computer Vision
摘要:
密集动作检测涉及在未剪辑的视频中检测多个同时发生的动作,而动作类别通常是模糊的,并且代表重叠的概念。为了解决这一具有挑战性的任务,我们引入了一种新颖的视角,灵感来自于人类如何通过将复杂任务分解为可管理的子任务来应对复杂任务。与当前方法依赖单一网络解决整个问题不同,我们建议将问题分解为检测动作类别中存在的关键概念,具体来说,就是检测密集的静态概念和检测密集的动态概念,并将它们分配给不同的专用网络。此外,视频中的同时动作通常表现出相互关系,利用这些关系可以提高性能。然而,我们认为当前的网络由于依赖于二元交叉熵优化,将每个类别独立对待,未能有效学习这些关系。为了解决这一限制,我们提出在网络优化过程中通过一种新颖的语言引导对比学习损失对同时发生的概念提供明确的监督。我们的大量实验表明,我们的方法优于最先进的方法,在具有挑战性的基准数据集Charades和MultiTHUMOS上分别实现了23.4%和2.5%的mAP显著相对提升。

[39] 结合空间和频率信息进行屏下摄像头图像修复
标题: Integrating Spatial and Frequency Information for Under-Display Camera Image Restoration
作者: Kyusu Ahn / Jinpyo Kim / Chanwoo Park / JiSoo Kim / Jaejin Lee
原文:   [英文]   [中文]  
备注: Main body (10 pages, 9 Figures, 5 Tables), References (3 pages), Appendix (8 pages, 6 Figures, 6 Tables)
摘要:
屏下摄像头(UDC)将数码相机镜头置于显示面板下。然而,UDC引入了复杂的退化现象,如噪声、模糊、透光率下降和眩光。尽管取得了显著进展,以往关于UDC的研究主要集中在消除空间域的衍射,而很少探索其在频域中的潜力。有效地考虑空间域和频域是至关重要的。例如,退化现象如噪声和模糊可以通过局部信息(例如,空间域中的CNN卷积核)来解决。同时,处理眩光可能需要利用全局信息(例如,频域)。在本文中,我们在傅里叶空间中重新审视了UDC的退化现象,并找出了暗示眩光存在的内在频率先验。基于这一观察,我们提出了一种新颖的多级DNN架构,称为SFIM。通过整合局部和全局(图像中所有点的集体贡献)信息,它能够高效地恢复UDC失真的图像。该架构利用CNN捕捉局部信息,并利用基于FFT的模型捕捉全局信息。SFIM包括一个空间域块(SDB)、一个频域块(FDB)和一个基于注意力的多级集成块(AMIB)。具体来说,SDB更关注细节纹理,如噪声和模糊,FDB强调大面积的不规则纹理损失,如眩光,而AMIB则实现了有效的跨域交互。通过对三个UDC基准的严格定量和定性评估,SFIM在性能上优于最先进的方法。

[40] 重新思考视觉语言模型安全微调中的瓶颈
标题: Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models
作者: Yi Ding / Lijun Li / Bing Cao / Jing Shao
原文:   [英文]   [中文]  
备注: None
摘要:
大型视觉-语言模型(VLMs)在广泛的任务中取得了显著的性能。然而,它们在安全关键领域的部署面临重大挑战。现有的安全微调方法,主要关注文本或多模态内容,无法有效应对具有挑战性的案例,或破坏有用性与无害性之间的平衡。我们的评估突显了一个安全推理的差距:这些方法缺乏安全视觉推理能力,导致了这样的瓶颈。为了解决这一限制并增强在安全关键环境中的视觉感知和推理能力,我们提出了一个新颖的数据集,该数据集将多图像输入与安全思维链(CoT)标签整合为细粒度推理逻辑,以提高模型性能。具体来说,我们引入了多图像安全(MIS)数据集,这是一个为多图像安全场景量身定制的指令跟随数据集,包括训练和测试部分。我们的实验表明,使用MIS微调InternVL2.5-8B在需要安全相关视觉推理的具有挑战性的多图像任务中显著优于强大的开源模型和基于API的模型。这种方法不仅提供了卓越的安全性能,还在不牺牲任何能力的情况下保留了一般能力。具体而言,使用MIS微调使五个通用基准的平均准确率提高了0.83%,并大幅降低了多个安全基准的攻击成功率(ASR)。数据和模型发布在:\href{this https URL}{\texttt{this https URL}}

[41] Mini-ResEmoteNet:利用知识蒸馏进行以人为本的设计
标题: Mini-ResEmoteNet: Leveraging Knowledge Distillation for Human-Centered Design
作者: Amna Murtada / Omnia Abdelrhman / Tahani Abdalla Attia
原文:   [英文]  
备注: 5 pages with 4 figures
摘要:
面部情感识别在用户体验领域变得越来越重要,尤其是在现代可用性测试中,因为它有助于更深入地理解用户的满意度和参与度。本研究旨在通过采用知识蒸馏框架扩展ResEmoteNet模型,以开发适用于可用性测试的Mini-ResEmoteNet模型——轻量级学生模型。实验在FER2013和RAF-DB数据集上进行,以评估三种学生模型架构的有效性:学生模型A、学生模型B和学生模型C。它们的开发涉及将教师模型中每一层的特征通道数量分别减少约50%、75%和87.5%。在FER2013数据集上表现出色,学生模型A(E1)实现了76.33%的测试准确率,比EmoNeXt提高了0.21%的绝对值。此外,结果显示在推理速度和推理期间的内存使用方面,相较于ResEmoteNet模型有绝对的改进。研究结果表明,所提出的方法优于其他最先进的方法。

[42] 使用视觉变换器学习人类运动的先验知识
标题: Learning Priors of Human Motion With Vision Transformers
作者: Placido Falqueto / Alberto Sanfeliu / Luigi Palopoli / Daniele Fontanelli
原文:   [英文]   [中文]  
备注: 2024 IEEE 48th Annual Computers, Software, and Applications Conference (COMPSAC). IEEE, 2024
摘要:
清晰地了解人在某个场景中的移动位置、常用路径和速度以及停留地点,对于不同的应用非常重要,例如城市区域的移动性研究或在人口密集环境中的机器人导航任务。我们在本文中提出了一种基于视觉变换器(Vision Transformers, ViTs)的神经网络架构来提供这些信息。这种解决方案可以比卷积神经网络(CNNs)更有效地捕捉空间相关性。在论文中,我们描述了方法论和提出的神经网络架构,并展示了使用标准数据集进行的实验结果。我们表明,与基于CNN的方法相比,所提出的ViT架构在指标上有所提升。

[43] UDC-VIT:用于屏下摄像头的真实世界视频数据集
标题: UDC-VIT: A Real-World Video Dataset for Under-Display Cameras
作者: Kyusu Ahn / JiSoo Kim / Sangik Lee / HyunGyu Lee / Byeonghyun Ko / Chanwoo Park / Jaejin Lee
原文:   [英文]   [中文]  
备注: Main body (10 pages, 9 Figures, 3 Tables), References (4 pages), Appendix (15 pages, 11 Figures, 6 Tables)
摘要:
屏下摄像头(Under Display Camera, UDC)是一种先进的成像系统,将数码相机镜头置于显示面板下,有效地隐藏了摄像头。然而,显示面板会显著降低捕获图像或视频的质量,引入低透光率、模糊、噪声和眩光等问题。解决这些问题具有挑战性,因为 UDC 的退化过程复杂,包括多样的眩光模式。尽管对 UDC 图像及其恢复模型进行了广泛研究,但对视频的研究尚未得到充分探索。目前虽然存在两个 UDC 视频数据集,但它们主要关注不切实际或合成的 UDC 退化,而非真实世界的 UDC 退化。在本文中,我们提出了一个名为 UDC-VIT 的真实世界 UDC 视频数据集。与现有数据集不同,UDC-VIT 仅包含针对人脸识别的人体运动。我们提出了一种视频捕获系统,可以同时获取同一场景的未退化和 UDC 退化视频。然后,我们使用离散傅里叶变换(DFT)逐帧对齐捕获的视频对。我们将 UDC-VIT 与六个具有代表性的 UDC 静态图像数据集和两个现有的 UDC 视频数据集进行了比较。使用六种深度学习模型,我们比较了 UDC-VIT 和一个现有的合成 UDC 视频数据集。结果表明,基于早期合成 UDC 视频数据集训练的模型效果不佳,因为它们未能反映 UDC 退化视频的实际特征。我们还通过评估与 PSNR、SSIM 和 LPIPS 分数相关的人脸识别准确性,展示了有效 UDC 恢复的重要性。UDC-VIT 使得 UDC 视频恢复的进一步探索成为可能,并提供了更深入的挑战见解。UDC-VIT 可在我们的网站上获取。

[44] DiffusionRenderer:使用视频扩散模型的神经逆向和正向渲染
标题: DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models
作者: Ruofan Liang / Zan Gojcic / Huan Ling / Jacob Munkberg / Jon Hasselgren / Zhi-Hao Lin / Jun Gao / Alexander Keller / Nandita Vijaykumar / Sanja Fidler / Zian Wang
原文:   [英文]  
备注: Project page: this http URL
摘要:
理解和建模光照效果是计算机视觉和图形学中的基本任务。经典的基于物理的渲染(PBR)可以精确模拟光传输,但依赖于精确的场景表示——明确的三维几何、高质量的材质属性和光照条件——这些在现实世界中往往难以获得。因此,我们引入了DiffusionRenderer,这是一种神经方法,在一个整体框架内解决逆向和正向渲染的双重问题。通过利用强大的视频扩散模型先验,逆向渲染模型可以从真实世界的视频中准确估计G缓冲区,为图像编辑任务提供接口,并为渲染模型提供训练数据。相反,我们的渲染模型可以从G缓冲区生成逼真的图像,而无需明确的光传输模拟。实验表明,DiffusionRenderer有效地近似了逆向和正向渲染,始终优于现有的最先进技术。我们的模型能够从单个视频输入实现实用的应用,包括重新照明、材质编辑和逼真的对象插入。

[45] 多模态适应与泛化的进展:从传统方法到基础模型
标题: Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models
作者: Hao Dong / Moru Liu / Kaiyang Zhou / Eleni Chatzi / Juho Kannala / Cyrill Stachniss / Olga Fink
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
在现实世界的场景中,实现领域适应和泛化面临着重大挑战,因为模型必须适应或泛化到未知的目标分布。将这些能力扩展到未见的多模态分布,即多模态领域适应和泛化,由于不同模态的独特特性,更是具有挑战性。多年来,已经在从动作识别到语义分割的应用中取得了显著进展。此外,最近大规模预训练多模态基础模型(如CLIP)的出现,激发了利用这些模型来增强适应和泛化性能或将其适应于下游任务的研究。这篇综述首次全面回顾了从传统方法到基础模型的最新进展,涵盖:(1) 多模态领域适应;(2) 多模态测试时适应;(3) 多模态领域泛化;(4) 借助多模态基础模型的领域适应和泛化;以及(5) 多模态基础模型的适应。对于每个主题,我们正式定义问题并全面回顾现有方法。此外,我们分析了相关的数据集和应用,强调了开放的挑战和潜在的未来研究方向。我们维护了一个活跃的资源库,其中包含最新的文献,网址为此 https URL。

[46] 扩散自编码器是可扩展的图像分词器
标题: Diffusion Autoencoders are Scalable Image Tokenizers
作者: Yinbo Chen / Rohit Girdhar / Xiaolong Wang / Sai Saketh Rambhatla / Ishan Misra
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
将图像标记为紧凑的视觉表示是学习高效且高质量的图像生成模型的关键步骤。我们提出了一种简单的扩散标记器(DiTo),用于学习图像生成模型的紧凑视觉表示。我们的关键见解是,单一的学习目标,即扩散L2损失,可以用于训练可扩展的图像标记器。由于扩散已经广泛用于图像生成,我们的见解大大简化了此类标记器的训练。相比之下,当前最先进的标记器依赖于经验发现的启发式方法和损失的组合,因此需要复杂的训练方案,依赖于非平凡地平衡不同的损失和预训练的监督模型。我们展示了设计决策以及理论基础,使我们能够扩展DiTo以学习具有竞争力的图像表示。我们的结果表明,DiTo是一种更简单、可扩展且自监督的替代方案,相较于当前最先进的监督图像标记器。DiTo在图像重建和下游图像生成任务中实现了与最先进技术相当或更好的质量。

[47] 三维点云基础模型:综述与展望
标题: Foundational Models for 3D Point Clouds: A Survey and Outlook
作者: Vishal Thengane / Xiatian Zhu / Salim Bouzerdoum / Son Lam Phung / Yunpeng Li
原文:   [英文]   [中文]  
备注: Initial submission
摘要:
3D点云表示在保持物理世界的几何保真度方面起着至关重要的作用,使得更准确的复杂3D环境成为可能。虽然人类通过多感官系统自然地理解物体之间的复杂关系和变化,但人工智能(AI)系统尚未完全复制这种能力。为了弥合这一差距,整合多种模态变得至关重要。能够无缝整合和推理这些模态的模型被称为基础模型(FMs)。由于大规模数据集的丰富可用性,2D模态(如图像和文本)的基础模型开发取得了显著进展。然而,由于标注数据的稀缺和高计算开销,3D领域的发展相对滞后。对此,最近的研究开始探索将基础模型应用于3D任务的潜力,通过利用现有的2D知识来克服这些挑战。此外,语言凭借其抽象推理和描述环境的能力,通过大型预训练语言模型(LLMs)为增强3D理解提供了一个有前景的途径。尽管近年来基础模型在3D视觉任务中的快速发展和应用,全面而深入的文献综述仍然存在空白。本文旨在通过对利用基础模型进行3D视觉理解的最新方法进行全面概述来填补这一空白。我们首先回顾了构建各种3D基础模型中采用的不同策略。然后,我们对不同基础模型在感知任务等任务中的应用进行分类和总结。最后,本文为该领域的研究和发展提供了未来方向的见解。为了帮助读者,我们整理了相关论文的列表:this https URL。

[48] ROSA:通过自适应细节传递重建物体形状和外观纹理
标题: ROSA: Reconstructing Object Shape and Appearance Textures by Adaptive Detail Transfer
作者: Julian Kaltheuner / Patrick Stotko / Reinhard Klein
原文:   [英文]   [中文]  
备注: None
摘要:
从有限的同位光源图像集中重建物体的形状和外观(以空间变化的双向反射分布函数(SVBRDF)纹理化的网格形式)是一个病态问题。之前的最先进方法要么直接在几何体上重建外观,要么额外使用纹理法线作为外观特征的一部分。然而,这需要详细但效率低下的大型网格,必须在后处理步骤中简化,或者受到法线贴图的已知限制,如缺失阴影或不正确的轮廓。另一个限制因素是纹理估计的固定且通常较低的分辨率,导致重要表面细节的丢失。为了解决这些问题,我们提出了ROSA,一种逆向渲染方法,该方法仅基于图像数据直接优化具有空间自适应网格分辨率的网格几何。特别是,我们根据估计的法线纹理和网格曲率来细化网格并局部调整表面光滑度。此外,我们通过一种开创性的基于瓦片的方法实现了高分辨率纹理中精细外观细节的重建,该方法在单个预训练解码器网络上运行,但不受网络输出分辨率的限制。