![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年6月24日更新论文175篇
|
[1] 扩散模型的机制可解释性:电路级分析与因果验证 标题: Mechanistic Interpretability of Diffusion Models: Circuit-Level Analysis and Causal Validation 作者: Dip Roy 原文: [英文] 备注: None 摘要: 我们对扩散模型进行了定量的电路级分析,建立了图像生成过程中的计算路径和机制原则。通过对2,000个合成图像和2,000个CelebA人脸图像进行系统干预实验,我们发现扩散架构在处理合成数据分布与自然数据分布时存在根本的算法差异。我们的研究表明,处理真实世界的人脸需要具有可测量的更高计算复杂度的电路(复杂度比率=1.084±0.008,p<0.001),在去噪时间步长中表现出不同的注意力专门化模式,熵散度范围为0.015到0.166。我们识别出八种功能上不同的注意力机制,显示出专门的计算角色:边缘检测(熵=3.18±0.12)、纹理分析(熵=4.16±0.08)和语义理解(熵=2.67±0.15)。干预分析显示出关键的计算瓶颈,针对性消融导致性能下降25.6%到128.3%,为识别出的电路功能提供了因果证据。这些发现为通过机制干预策略理解和控制生成模型行为建立了定量基础。 |
[2] SRKD:通过结构和关系感知的知识蒸馏实现高效的3D点云分割 标题: SRKD: Towards Efficient 3D Point Cloud Segmentation via Structure- and Relation-aware Knowledge Distillation 作者: Yuqi Li / Junhao Dong / Zeyu Dong / Chuanguang Yang / Zhulin An / Yongjun Xu 原文: [英文] [中文] 备注: 13 pages 摘要: 由于大规模基于Transformer的模型在计算复杂性和部署限制方面的挑战,3D点云分割面临实际困难。为了解决这个问题,我们提出了一种新颖的结构和关系感知知识蒸馏框架,称为SRKD,该框架将丰富的几何和语义知识从一个大型冻结教师模型(>100M)转移到一个轻量级学生模型(<15M)。具体来说,我们提出了一种基于亲和矩阵的关系对齐模块,通过逐点相似性匹配将结构依赖关系从教师模型蒸馏到学生模型,增强学生学习上下文交互的能力。同时,我们引入了一种跨样本小批量构建策略,使学生能够感知稳定和广泛的几何结构。这种策略在教师模型的不同点云实例之间对齐,而不是在单个样本内。此外,应用KL散度来对齐语义分布,真实标签监督进一步加强了准确的分割。我们的方法在显著降低模型复杂性的同时实现了最先进的性能,展示了其在实际部署场景中的有效性和效率。我们的代码可在此https URL获取。 |
[3] 使用多模态机器学习进行阿拉斯加精细尺度土壤制图 标题: Fine-Scale Soil Mapping in Alaska with Multimodal Machine Learning 作者: Yijun Lin / Theresa Chen / Colby Brungard / Grunwald Sabine / Sue Ives / Matt Macander / Timm Nawrocki / Yao-Yi Chiang / Nic Jelinski 原文: [英文] [中文] 备注: 12 pages, Submitted to SIGSPATIAL 2025 摘要: 在阿拉斯加,精细尺度的土壤制图传统上依赖于实地工作和局部模拟,尽管该地区具有生态重要性和广泛的永久冻土覆盖,但这一任务仍然是关键但尚未充分发展的。由于气候变化加速了永久冻土的融化,这威胁到基础设施的稳定性和关键的生态系统服务,如土壤碳储存。高分辨率的土壤地图对于表征永久冻土分布、识别脆弱区域以及制定适应策略至关重要。我们提出了MISO,这是一种基于视觉的机器学习(ML)模型,用于生成全州范围内的近地表永久冻土和土壤分类的精细尺度土壤地图。该模型集成了用于视觉特征提取的地理空间基础模型、用于连续空间预测的隐式神经表示,以及用于多模态对齐和地理位置感知的对比学习。我们将MISO与随机森林(RF)进行比较,后者是一种在土壤制图应用中广泛使用的传统机器学习模型。通过永久冻土区和主要土地资源区(MLRAs)的空间交叉验证和区域分析表明,MISO在推广到偏远、未见过的地点时表现更好,并且比RF具有更高的召回率,这对于监测永久冻土融化和相关的环境过程至关重要。这些发现展示了先进机器学习方法在精细尺度土壤制图中的潜力,并为未来的土壤采样和受永久冻土影响的景观中的基础设施规划提供了实用指导。该项目将在此https URL发布。 |
[4] RadarSeq:通过雷达图序列进行用户流失预测的时间视觉框架 标题: RadarSeq: A Temporal Vision Framework for User Churn Prediction via Radar Chart Sequences 作者: Sina Najafi / M. Hadi Sepanj / Fahimeh Jafari 原文: [英文] [中文] 备注: None 摘要: 在非订阅制的零工平台中预测用户流失,由于缺乏明确的标签和用户行为的动态特性,隐性脱离带来了独特的挑战。现有方法通常依赖于聚合的快照或静态的视觉表示,这掩盖了对早期检测至关重要的时间线索。在这项工作中,我们提出了一种时间感知的计算机视觉框架,将用户行为模式建模为一系列雷达图像,每个图像编码了日级别的行为特征。通过将预训练的CNN编码器与双向LSTM结合,我们的架构捕捉了流失行为背后的空间和时间模式。在一个大型真实世界数据集上的广泛实验表明,我们的方法优于经典模型和基于ViT的雷达图基线,在F1分数上提高了17.7,在精确度上提高了29.4,在AUC上提高了16.1,同时提高了可解释性。该框架的模块化设计、可解释性工具和高效的部署特性使其适合于动态零工经济平台中的大规模流失建模。 |
[5] P2MFDS:一种用于浴室环境中老年人隐私保护的多模态跌倒检测系统 标题: P2MFDS: A Privacy-Preserving Multimodal Fall Detection System for Elderly People in Bathroom Environments 作者: Haitian Wang / Yiren Wang / Xinyu Wang / Yumeng Miao / Yuliang Zhang / Yu Zhang / Atif Mansoor 原文: [英文] [中文] 备注: Accepted to appear in the 2025 IEEE International Workshop on AIoT and Smart Systems (AIoTSys'25). Nominated for Best Paper Award and Best IoT System Implementation Award. Code and pretrained models available at: this https URL 摘要: 到2050年,65岁及以上的人口预计将占全球人口的16%。由于老龄化与跌倒风险增加密切相关,尤其是在如浴室等潮湿和狭窄的环境中,超过80%的跌倒事件发生在这些地方。尽管最近的研究越来越关注不依赖可穿戴设备或基于视频监控的非侵入性、保护隐私的方法,但这些努力尚未完全克服现有单一模式系统(例如基于WiFi、红外或毫米波)的局限性,这些系统在复杂环境中容易出现精度下降的问题。这些局限性源于单一模式传感的基本限制,包括系统偏差和环境干扰,如WiFi系统中的多径衰落和红外方法中的剧烈温度变化。为了解决这些挑战,我们提出了一种用于浴室环境中老年人跌倒检测的隐私保护多模态系统。首先,我们开发了一个传感器评估框架,以选择和融合毫米波雷达与3D振动传感,并利用它在真实浴室环境中构建和预处理一个大规模、保护隐私的多模态数据集,该数据集将在发表时发布。其次,我们介绍了P2MFDS,这是一种双流网络,结合了用于雷达运动动态的CNN-BiLSTM-Attention分支和用于振动冲击检测的多尺度CNN-SEBlock-Self-Attention分支。通过结合宏观和微观尺度特征,P2MFDS在准确性和召回率方面比最先进的方法有显著提高。代码和预训练模型将在此https URL提供。 |
[6] 一种用于自动驾驶的新型多层任务中心和数据质量框架 标题: A Novel Multi-layer Task-centric and Data Quality Framework for Autonomous Driving 作者: Yuhan Zhou / Haihua Chen / Kewei Sha 原文: [英文] [中文] 备注: None 摘要: 下一代自动驾驶汽车(AVs),嵌入频繁的实时决策,将严重依赖大量的多源和多模态数据。在现实环境中,由于意外的环境因素或传感器问题,不同来源和模态的数据质量(DQ)通常会有所不同。然而,自动驾驶汽车领域的研究人员和从业者普遍关注模型/算法,而低估了数据质量。为了满足下一代自动驾驶汽车在功能性、效率和可信度方面的需求,本文提出了一种新颖的以任务为中心的数据质量框架,该框架由五个层次组成:数据层、数据质量层、任务层、应用层和目标层。该框架旨在将数据质量与任务需求和性能目标进行映射。为了说明这一点,本文通过对nuScenes数据集的冗余性进行案例研究,证明部分去除多源图像数据的冗余可以提高YOLOv8目标检测任务的性能。对图像和LiDAR的多模态数据的分析进一步揭示了现有的冗余数据质量问题。本文在数据质量、任务编排和以性能为导向的自动驾驶汽车系统开发的交叉点上开启了一系列关键但未被探索的挑战。预计将引导自动驾驶汽车社区构建更具适应性、可解释性和弹性的自动驾驶汽车,以智能响应动态环境和异构数据流。代码、数据和实施细节可在以下网址公开获取:this https URL。 |
[7] 高效反馈门网络用于高光谱图像超分辨率 标题: Efficient Feedback Gate Network for Hyperspectral Image Super-Resolution 作者: Xufei Wang / Mingjian Zhang / Fei Ge / Jinchen Zhu / Wen Sha / Jifen Ren / Zhimeng Hou / Shouguo Zheng / ling Zheng / Shizhuang Weng 原文: [英文] [中文] 备注: 20 pages,17 figures 摘要: 即使没有辅助图像,单幅高光谱图像超分辨率(SHSR)方法也可以被设计用来提高高光谱图像的空间分辨率。然而,由于未能充分探索波段之间的连贯性以及空间-光谱信息,SHSR的性能受到限制。在这项研究中,我们提出了一种新颖的基于分组的SHSR方法,称为高效反馈门网络,该方法使用涉及大核卷积和光谱交互的各种反馈和门操作。特别是,通过为相邻组提供不同的指导,我们可以使用通道洗牌和膨胀卷积在洗牌和渐进膨胀融合模块(SPDFM)中学习丰富的波段信息和分层的高光谱空间信息。此外,我们开发了一个宽边界感知门块和一个光谱增强门块来构建空间-光谱增强门模块(SSRGM),并高效地获得高度代表性的空间-光谱特征。此外,我们应用三维SSRGM来增强高光谱数据的整体信息和连贯性。在三个高光谱数据集上的实验结果表明,所提出的网络在光谱保真度和空间内容重建方面的性能优于最先进的方法。 |
[8] 从图纸到决策:一种将二维工程图解析为结构化制造知识的混合视觉-语言框架 标题: From Drawings to Decisions: A Hybrid Vision-Language Framework for Parsing 2D Engineering Drawings into Structured Manufacturing Knowledge 作者: Muhammad Tayyab Khan / Lequn Chen / Zane Yong / Jun Ming Tan / Wenhe Feng / Seung Ki Moon 原文: [英文] 备注: Preprint submitted to Elsevier 摘要: 从二维工程图中高效且准确地提取关键信息对于推进数字化制造工作流程至关重要。这些信息包括几何尺寸和公差(GD&T)、测量、材料规格和文本注释。手动提取过程缓慢且劳动密集,而通用的OCR模型由于复杂的布局、工程符号和旋转文本常常失败,导致输出不完整且不可靠。为了解决这些挑战,我们提出了一种混合视觉-语言框架,该框架集成了一个旋转感知的目标检测模型(YOLOv11-obb)和一个基于transformer的视觉-语言解析器。我们的结构化流程应用YOLOv11-OBB来定位注释并提取定向边界框(OBB)补丁,然后使用经过微调的轻量级视觉-语言模型(VLM)将其解析为结构化输出。我们整理了一个包含1,367个二维机械图纸的数据集,这些图纸在九个关键类别中进行了注释。YOLOv11-OBB在此数据集上进行训练,以检测OBB并提取注释补丁。这些补丁使用两个开源VLM进行解析:Donut和Florence-2。两个模型都很轻量,适合在有限计算开销下的专业工业任务。在对图像补丁与结构化注释标签配对的整理数据集进行微调后,进行了一项比较实验,以评估在四个关键指标上的解析性能。Donut优于Florence-2,达到了88.5%的精确度、99.2%的召回率和93.5%的F1分数,幻觉率为11.5%。最后,一个案例研究展示了提取的结构化信息如何支持下游制造任务,如工艺和工具选择,展示了所提出框架在现代化二维图纸解释中的实际效用。 |
[9] 使用时间推移视频进行胚胎活力预测的时空预训练 标题: Spatial-Temporal Pre-Training for Embryo Viability Prediction Using Time-Lapse Videos 作者: Zhiyi Shi / Junsik Kim / Helen Y. Yang / Yonghyun Song / Hyun-Jic Oh / Dalit Ben-Yosef / Daniel Needleman / Hanspeter Pfister 原文: [英文] [中文] 备注: Preprint submitted to Medical Image Analysis 摘要: 自动化预测体外受精(IVF)中胚胎的存活率非常重要,但由于标记的妊娠结果数据有限,这一任务具有挑战性,因为只有一小部分胚胎在移植后被标记。自监督学习(SSL)可以利用标记和未标记的数据来提高预测能力。然而,现有的视频SSL方法由于两个挑战无法直接应用于胚胎发育视频:(1)胚胎的延时视频包含数百帧,传统SSL需要大量GPU内存;(2)数据集中包含长度不一的视频和许多异常帧,导致传统视频对齐方法在语义对齐上遇到困难。我们提出了空间-时间预训练(STPT)来应对这些挑战。STPT包括两个阶段:空间阶段和时间阶段。在每个阶段中,仅训练一个编码器,而另一个编码器保持冻结状态,从而降低内存需求。为处理时间错位,STPT避免在视频间逐帧对齐。空间阶段从每个视频及其时间一致的增强中学习对齐。然后,时间阶段建模视频嵌入之间的关系。我们的方法有效处理长视频和时间变化。在23,027个延时视频(其中3,286个已标记)上,STPT在有限的计算资源下实现了最高的AUC 0.635(95% CI: 0.632-0.638),优于基线方法。 |
[10] VMRA-MaR:一种用于纵向乳腺癌风险预测的非对称感知时间框架 标题: VMRA-MaR: An Asymmetry-Aware Temporal Framework for Longitudinal Breast Cancer Risk Prediction 作者: Zijun Sun / Solveig Thrun / Michael Kampffmeyer 原文: [英文] [中文] 备注: MICCAI 2025, Provisional Accept 摘要: 乳腺癌仍然是全球范围内导致死亡的主要原因之一,通常通过筛查项目检测,健康人群会被定期邀请进行筛查。自动化风险预测方法有可能通过动态筛查高风险群体来改善这一过程。虽然大多数模型仅关注最近的筛查,但越来越多的兴趣集中在利用时间信息来捕捉乳腺组织的变化趋势,这一灵感来源于临床实践。早期方法通常依赖于两个时间步骤,尽管最近的努力已经通过Transformer架构扩展到多个时间步骤,但在充分利用纵向成像数据中固有的丰富时间动态方面仍然存在挑战。在这项工作中,我们提出利用Vision Mamba RNN (VMRNN)结合状态空间模型(SSM)和类似LSTM的记忆机制来有效捕捉乳腺组织演变中的细微趋势。为了进一步增强我们的方法,我们引入了一个不对称模块,该模块利用空间不对称检测器(SAD)和纵向不对称追踪器(LAT)来识别临床相关的双侧差异。这个集成框架在预测癌症发生方面表现出显著的改进,特别是在更具挑战性的高密度乳房病例中,并在延长的时间点(第四年和第五年)实现了卓越的性能,突显了其在促进早期乳腺癌识别和实现更个性化筛查策略方面的潜力。我们的代码可以在这个URL上获取。 |
[11] Trans${^2}$-CBCT:用于稀疏视角CBCT重建的双重Transformer框架 标题: Trans${^2}$-CBCT: A Dual-Transformer Framework for Sparse-View CBCT Reconstruction 作者: Minmin Yang / Huantao Ren / Senem Velipasalar 原文: [英文] [中文] 备注: None 摘要: 锥形束计算机断层扫描(CBCT)仅使用少量X射线投影视图可以实现更快的扫描和更低的辐射剂量,但由此导致的严重欠采样会引起强烈的伪影和较差的空间覆盖。我们在一个统一的框架中解决这些挑战。首先,我们用TransUNet(一种混合CNN-Transformer模型)替换传统的UNet/ResNet编码器。卷积层捕捉局部细节,而自注意力层增强全局上下文。我们通过结合多尺度特征、针对每个3D点查询视图特定特征,并添加轻量级的衰减预测头,将TransUNet适配于CBCT。这产生了Trans-CBCT,在LUNA16数据集的六个视图上,PSNR提高了1.17 dB,SSIM提高了0.0163,超越了之前的基线。其次,我们引入了一种邻域感知的点Transformer以加强体积一致性。该模块使用3D位置编码和k近邻注意力来改善空间一致性。最终模型Trans$^2$-CBCT提供了额外的0.63 dB PSNR和0.0117 SSIM的提升。在LUNA16和ToothFairy上的实验显示,从六个视图到十个视图的一致增益,验证了结合CNN-Transformer特征与基于点的几何推理在稀疏视图CBCT重建中的有效性。 |
[12] 通过射频指纹增强无线设备识别:利用瞬态能量谱分析 标题: Enhancing Wireless Device Identification through RF Fingerprinting: Leveraging Transient Energy Spectrum Analysis 作者: Nisar Ahmed / Gulshan Saleem / Hafiz Muhammad Shahzad Asif / Muhammad Usman Younus / Kalsoom Safdar 原文: [英文] 备注: Submitted in Wireless Personal Communications 摘要: 近年来,物联网技术的快速发展和5G无线网络的广泛采用导致在复杂电磁环境中运行的辐射设备数量呈指数增长。管理和保护这些设备的一个关键挑战是准确识别和分类。为了解决这一挑战,特定发射器识别技术作为一种有前途的解决方案出现,旨在以统一和标准化的方式提供可靠和高效的识别单个辐射设备的方法。本研究提出了一种利用广义线性啁啾变换进行瞬态能量谱分析的方法,以从射频设备中提取特征。使用了一个包含九个射频设备的数据集,每个样本包含900个属性,总共1080个样本在设备之间均匀分布。这些特征随后用于分类建模框架。为了克服传统机器学习方法的局限性,我们引入了一种混合深度学习模型,称为CNN-Bi-GRU,用于学习基于射频设备瞬态特征的识别。所提出的方法在10倍交叉验证中表现出99.33%的精度、99.53%的召回率、99.43%的F1分数和99.17%的分类准确率。结果表明,CNN-Bi-GRU方法具有良好的分类性能,表明其适合基于瞬态特征准确识别射频设备,并具有在复杂无线环境中增强设备识别和分类的潜力。 |
[13] AQUA20:用于在挑战性条件下进行水下物种分类的基准数据集 标题: AQUA20: A Benchmark Dataset for Underwater Species Classification under Challenging Conditions 作者: Taufikur Rahman Fuad / Sabbir Ahmed / Shahriar Ivan 原文: [英文] [中文] 备注: Submitted to AJSE Springer 摘要: 由于浑浊、低光照和遮挡等复杂失真,水下环境中的稳健视觉识别仍然是一个重大挑战,这些因素严重降低了标准视觉系统的性能。本文介绍了AQUA20,这是一个综合基准数据集,包含8,171张水下图像,涵盖20种海洋物种,反映了诸如光照、浑浊、遮挡等现实环境挑战,为水下视觉理解提供了宝贵的资源。我们评估了13种最先进的深度学习模型,包括轻量级CNN(SqueezeNet、MobileNetV2)和基于变换器的架构(ViT、ConvNeXt),以基准测试它们在挑战条件下对海洋物种进行分类的性能。我们的实验结果显示,ConvNeXt取得了最佳性能,Top-3准确率为98.82%,Top-1准确率为90.69%,以及最高的整体F1分数为88.92%,同时具有中等大小的参数规模。我们其他基准模型的结果也展示了复杂性与性能之间的权衡。我们还使用GRAD-CAM和LIME进行了广泛的可解释性分析,以解释模型的优缺点。我们的结果揭示了水下物种识别中有很大的改进空间,并展示了AQUA20作为该领域未来研究基础的价值。该数据集可在以下网址公开获取:this https URL。 |
[14] 当每毫秒都至关重要:通过多模态异步混合网络进行实时异常检测 标题: When Every Millisecond Counts: Real-Time Anomaly Detection via the Multimodal Asynchronous Hybrid Network 作者: Dong Xiao / Guangyao Chen / Peixi Peng / Yangru Huang / Yifan Zhao / Yongxing Dai / Yonghong Tian 原文: [英文] [中文] 备注: ICML 2025 Spotlight 摘要: 异常检测对于自动驾驶系统的安全性和可靠性至关重要。目前的方法通常关注检测精度,但忽视了响应时间,而响应时间在时间敏感的驾驶场景中是至关重要的。在本文中,我们引入了用于自动驾驶的实时异常检测,优先考虑最小响应时间和高精度。我们提出了一种新颖的多模态异步混合网络,该网络将事件相机的事件流与RGB相机的图像数据相结合。我们的网络通过异步图神经网络利用事件相机的高时间分辨率,并将其与从RGB图像中提取的空间特征进行整合。此组合有效地捕捉了驾驶环境的时间动态和空间细节,从而实现快速而精确的异常检测。在基准数据集上的大量实验表明,我们的方法在精度和响应时间上均优于现有方法,实现了毫秒级的实时性能。 |
[15] 光学颗粒分析——具有相应粒度分布的土壤图像数据集 标题: Photogranulometry -- Dataset of soil images with corresponding particle size distributions 作者: Thomas Plante St-Cyr / François Duhaime / Jean-Sébastien Dubé / Simon Grenier 原文: [英文] 备注: 8 pages, 10 figures, conference 摘要: 传统的颗粒大小分布(PSD)分析会导致显著的停机时间,并且在人力和维护方面成本高昂。这些缺点可以通过将光学颗粒大小分析集成到常规岩土实验室工作流程中来缓解。本文展示了一个高分辨率的数据集,包括在魁北克蒙特利尔地区收集的321个不同土壤样本的12,714张图像及其PSD分析。该数据集旨在为岩土工程应用中卷积神经网络(CNN)的训练提供一个稳健的起点。土壤样本在标准化的顶视图位置拍摄,分辨率为45 MP,最小比例为每像素39.4微米,样本在湿态和干态下均被拍摄。使用了一个定制的测试台,采用13x9英寸的白色铝托盘,将样本铺成薄层。对于超过尺寸限制的样本,采用锥形和四分法进行质量缩减。 |
[16] 少样本,现在来真的:无需平衡集或验证的医学视觉语言模型适应 标题: Few-Shot, Now for Real: Medical VLMs Adaptation without Balanced Sets or Validation 作者: Julio Silva-Rodríguez / Fereshteh Shakeri / Houda Bahig / Jose Dolz / Ismail Ben Ayed 原文: [英文] [中文] 备注: MICCAI 2025. Code: this https URL 摘要: 视觉-语言模型(VLMs)在医学图像分析中正受到越来越多的关注。这些模型在大型、异构的数据源上进行预训练,产生丰富且可迁移的表示。值得注意的是,将专门针对特定模态的VLMs与少样本适应相结合,已取得了丰硕的成果,使得高性能解决方案的高效部署成为可能。然而,以往关于这一主题的研究对适应数据的分布做出了强烈假设,这在医学领域是不现实的。首先,先前的研究假设可以获得一个平衡的支持集,这一条件打破了现实世界中疾病流行率的自然不平衡。其次,这些研究通常假设存在一个额外的验证集来调整关键的超参数,这在数据利用上是非常低效的。本文挑战了这些有利的部署场景,并引入了一种现实的、不平衡的、无验证的适应设置。我们在各种模态和下游任务中的广泛基准测试表明,当前的方法在现实条件下系统性地降低了其性能,有时甚至比零样本推理表现更差。此外,我们引入了一种无需训练的线性探测器,该探测器自适应地融合了视觉和文本监督。详细研究表明,所提出的求解器是一个强大且高效的基线,能够在具有挑战性的场景中实现稳健的适应。 |
[17] 通过分割保序预测实现医疗视觉语言模型的可信少样本迁移 标题: Trustworthy Few-Shot Transfer of Medical VLMs through Split Conformal Prediction 作者: Julio Silva-Rodríguez / Ismail Ben Ayed / Jose Dolz 原文: [英文] [中文] 备注: MICCAI 2025. Code: this https URL 摘要: 医学视觉语言模型(VLMs)展示了前所未有的迁移能力,并越来越多地被用于数据高效的图像分类。尽管其受欢迎程度不断上升,其可靠性方面仍然很少被探索。本文探讨了分割保形预测(SCP)框架,以在基于少量标记校准集迁移这些模型时提供可信度保证。尽管具有潜力,VLMs的通用性质的预训练可能会对特定任务的预测保形集的属性产生负面影响。虽然在迁移学习中常见的做法是进行适应阶段以实现判别目的,但我们观察到,为保形目的部署这种解决方案是次优的,因为使用可用的校准数据对模型进行适应会破坏SCP中测试数据的严格可交换性假设。为了解决这个问题,我们提出了传导分割保形适应(SCA-T),这是一种在保形场景中进行迁移学习的新颖流程,它在校准和测试数据上联合执行无监督传导适应。我们进行了全面的实验,利用医学VLMs跨各种图像模态、迁移任务和不一致性评分。与SCP相比,我们的框架在效率和条件覆盖率方面提供了一致的提升,同时保持相同的经验保证。 |
[18] 从单个腕戴惯性传感器中学习高尔夫挥杆特征 标题: Learning golf swing signatures from a single wrist-worn inertial sensor 作者: Jessy Lauer 原文: [英文] [中文] 备注: 9 pages, 6 figures 摘要: 尽管高尔夫挥杆分析对于提升表现和预防伤害至关重要,但目前的分析受限于孤立的指标、职业运动员的代表性不足以及缺乏丰富且可解释的运动表现。我们通过一个整体的数据驱动框架来解决这些问题,该框架基于单个腕部传感器进行个性化的高尔夫挥杆分析。我们从公开可用的视频中构建了一个大型的职业挥杆数据集,利用生物学上准确的人体网格恢复技术重建全身3D运动学,并生成合成惯性数据来训练神经网络,从腕部输入推断运动并分段挥杆阶段。我们学习了一种组合的、离散的运动原语词汇,能够促进技术缺陷的检测和可视化,并且足够表达力来预测球员身份、球杆类型、性别和年龄。我们的系统能够从腕部数据准确估计全身运动学和挥杆事件,在球场上提供实验室级别的运动分析,并支持异常运动模式的早期检测。可解释性方法揭示了细微的、个性化的运动特征,强化了技能表现多样性是其标志的观点。纵向跟踪展示了实际价值:随着一名球员的差点在1.5年内从50提高到2.2,我们的系统捕捉到了可测量的技术进步,并提供了有针对性、可操作的反馈。我们的研究挑战了一些常见假设,例如跨球杆的一致性挥杆和单一“理想”挥杆的存在,并揭示了由内在特质和任务特定约束共同塑造的潜在生物标记。这项工作连接了实验室和实地的生物力学,提供了可扩展、可访问、高保真的运动分析,用于研究、教练和伤害预防,同时开启了基于运动的表型分析、个性化设备设计和运动技能发展的新方向。 |
[19] Scene-R1:用于3D场景推理的基于视频的大型语言模型,无需3D标注 标题: Scene-R1: Video-Grounded Large Language Models for 3D Scene Reasoning without 3D Annotations 作者: Zhihao Yuan / Shuyi Jiang / Chun-Mei Feng / Yaolun Zhang / Shuguang Cui / Zhen Li / Na Zhao 原文: [英文] [中文] 备注: None 摘要: 目前,利用大型语言模型来理解三维世界正变得越来越流行。然而,现有的三维感知语言模型表现得像黑箱:它们输出边界框或文本答案,却不揭示这些决策是如何做出的,并且仍然依赖于预训练的三维检测器来提供物体提议。我们介绍了Scene-R1,这是一种基于视频的框架,通过将强化学习驱动的推理与两阶段的定位流程相结合,学习在没有逐点三维实例监督的情况下对三维场景进行推理。在时间定位阶段,我们明确地对视频进行推理,并选择与开放式查询最相关的视频片段。在随后的图像定位阶段,我们分析图像并预测二维边界框。之后,我们使用SAM2跟踪物体,在RGB帧中生成像素精确的掩码,并将其投影回三维,从而消除了基于三维检测器的提议的需求,同时捕捉到精细的几何和材质线索。Scene-R1还可以适应三维视觉问答任务,直接从视频中回答自由形式的问题。我们的训练流程只需要任务级别的二维框或文本标签,而不需要密集的三维逐点标签。Scene-R1在多个数据集上超越了现有的开放词汇基线,同时提供透明的、逐步的推理。这些结果表明,仅结合RGB-D视频的强化学习推理提供了一种实用的、注释效率高的可信三维场景理解途径。 |
[20] SynDaCaTE:用于评估部分-整体层次推理的合成数据集 标题: SynDaCaTE: A Synthetic Dataset For Evaluating Part-Whole Hierarchical Inference 作者: Jake Levi / Mark van der Wilk 原文: [英文] [中文] 备注: Accepted at Methods and Opportunities at Small Scale (MOSS), ICML 2025, Vancouver, Canada 摘要: 学习推断对象表示,特别是部分-整体层次结构,一直是计算机视觉领域广泛研究的重点,旨在提高数据效率、系统化泛化和鲁棒性。被设计用于推断部分-整体层次结构的模型,通常被称为胶囊网络,通常在监督任务(如对象分类)中进行端到端训练。在这种情况下,很难评估这样的模型是否真的如所声称的那样学习推断部分-整体层次结构。为了解决这一难题,我们提出了一个用于胶囊测试和评估的合成数据集,简称为SynDaCaTE,并通过以下方式证明其效用:(1)展示现有著名胶囊模型中的精确瓶颈,(2)证明置换等变自注意力在部分到整体推断中非常有效,这为设计有效的计算机视觉归纳偏差提供了未来的方向。 |
[21] VLA-OS:在视觉-语言-动作模型中构建和剖析规划表示和范式 标题: VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models 作者: Chongkai Gao / Zixuan Liu / Zhenghao Chi / Junshan Huang / Xin Fei / Yiwen Hou / Yuxuan Zhang / Yudi Lin / Zhirui Fang / Zeyu Jiang / Lin Shao 原文: [英文] [中文] 备注: None 摘要: 最近关于视觉-语言-动作(VLA)模型的研究已经从端到端动作生成范式转向一个包含任务规划和后续动作生成的流程,在各种复杂的长时间操作任务中表现出更好的性能。然而,现有的方法在网络架构、规划范式、表示和训练数据来源方面差异显著,使得研究人员难以确定性能提升的确切来源以及需要进一步改进的组件。为了系统地研究不同规划范式和表示的影响,并与网络架构和训练数据隔离开来,本文介绍了VLA-OS,一个能够支持各种任务规划范式的统一VLA架构系列,并设计了一套全面的对照实验,涵盖不同的对象类别(刚性和可变形)、视觉模态(2D和3D)、环境(模拟和现实世界)以及末端执行器(夹具和灵巧手)。我们的结果表明:1)视觉基础的规划表示通常优于语言规划表示;2)分层-VLA范式在任务性能、预训练、泛化能力、可扩展性和持续学习能力方面通常表现优于或相当于其他范式,尽管其代价是训练和推理速度较慢。 |
[22] 通过通信高效的异构联邦学习生成由大型语言模型驱动的医学报告 标题: LLM-driven Medical Report Generation via Communication-efficient Heterogeneous Federated Learning 作者: Haoxuan Che / Haibo Jin / Zhengrui Guo / Yi Lin / Cheng Jin / Hao Chen 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)在医学报告生成(MRG)方面展示了显著的潜力,但其发展需要大量的医学图像-报告对,这些数据通常分散在多个中心。由于隐私法规的限制,集中这些数据极其困难,从而阻碍了模型的发展和LLM驱动的MRG模型的广泛应用。为了解决这一挑战,我们提出了FedMRG,这是第一个利用联邦学习(FL)实现隐私保护、多中心开发LLM驱动的MRG模型的框架,专门设计用于克服在多模态数据异质性下通信高效的LLM训练这一关键挑战。首先,我们的框架通过采用低秩分解来有效分解参数更新,显著降低了梯度传输成本,使得在带宽受限的FL环境中实现LLM驱动的MRG成为可能,从而解决了FL-LLM调优中的通信开销这一基本挑战。此外,我们观察到在FL场景下MRG的双重异质性:各医疗中心的图像特征不同,以及报告风格和术语偏好的多样性。为了解决这一问题,我们进一步增强了FedMRG:(1)在MRG编码器中引入客户感知的对比学习,并结合诊断驱动的提示,捕捉全球可推广和本地独特的特征,同时保持诊断准确性;(2)在MRG解码器中采用双适配器互助机制,协调通用和专用适配器,以应对报告风格和术语的变化。通过对我们建立的FL-MRG基准的广泛评估,我们展示了FedMRG的可推广性和适应性,强调了其在利用多中心数据和生成临床准确报告的潜力,同时保持通信效率。 |
[23] HalluRNN:通过大型视觉语言模型中的递归跨层推理来缓解幻觉 标题: HalluRNN: Mitigating Hallucinations via Recurrent Cross-Layer Reasoning in Large Vision-Language Models 作者: Le Yu / Kaishen Wang / Jianlong Xiong / Yue Cao / Tao He 原文: [英文] [中文] 备注: 6 figures, 9 tables 摘要: 尽管大型视觉语言模型(LVLMs)在各种任务中取得了显著的性能,但它们仍然容易出现幻觉——生成在文本上似乎合理但在视觉上没有依据的输出。虽然先前的方法通常通过以数据为中心的微调或创新的解码策略来解决这个问题,但这些方法往往需要大量资源或特定任务的配置。在这项工作中,我们引入了一种架构级的解决方案,HalluRNN,通过跨层递归推理来增强模型的稳定性。具体来说,我们提出了一种新颖的双门深度传播单元(DG-DPU)模块,该模块在各层之间共享,并递归地优化隐藏状态。这允许信息在整个模型中自适应地传播,确保层间的一致性,并减轻由表示漂移引起的幻觉。通过仅微调DG-DPU模块,HalluRNN在多个基准测试中实现了强大而稳健的性能。 |
[24] DRAMA-X:用于驾驶的细粒度意图预测和风险推理基准 标题: DRAMA-X: A Fine-grained Intent Prediction and Risk Reasoning Benchmark For Driving 作者: Mihir Godbole / Xiangbo Gao / Zhengzhong Tu 原文: [英文] [中文] 备注: 19 pages, 5 figures, Preprint under review. Code available at: this https URL 摘要: 理解易受伤害的道路使用者(VRUs)如行人和骑自行车者的短期运动对于安全的自动驾驶至关重要,尤其是在城市场景中存在模糊或高风险行为时。虽然视觉-语言模型(VLMs)已经实现了开放词汇感知,但其在细粒度意图推理方面的效用仍未被充分探索。值得注意的是,目前没有现有的基准评估安全关键情况下的多类意图预测。为了解决这一差距,我们引入了DRAMA-X,这是一个通过自动化注释流程从DRAMA数据集构建的细粒度基准。DRAMA-X包含5,686个易发生事故的帧,这些帧标注了对象边界框、九类方向性意图分类法、二元风险评分、为自车生成的专家行动建议以及描述性运动摘要。这些注释使得对自动驾驶决策中四个相互关联的任务进行结构化评估成为可能:对象检测、意图预测、风险评估和行动建议。作为参考基线,我们提出了SGG-Intent,一个轻量级、无需训练的框架,模拟自车的推理流程。它通过使用VLM支持的检测器从视觉输入中顺序生成场景图,推断意图,评估风险,并使用由大型语言模型驱动的组合推理阶段推荐行动。我们评估了一系列近期的VLMs,比较其在所有四个DRAMA-X任务中的表现。我们的实验表明,基于场景图的推理增强了意图预测和风险评估,尤其是在明确建模上下文线索时。 |
[25] SELFI:用于广义深度伪造检测的身份选择性融合 标题: SELFI: Selective Fusion of Identity for Generalizable Deepfake Detection 作者: Younghun Kim / Minsuk Jang / Myung-Joon Kwon / Wonjun Lee / Changick Kim 原文: [英文] [中文] 备注: None 摘要: 人脸身份为深度伪造检测提供了强有力的信号。先前的研究表明,即使没有明确建模,分类器也常常会隐式地学习身份特征。这导致了相互矛盾的观点:一些研究抑制身份线索以减少偏差,而另一些则依赖它们作为法证证据。为调和这些观点,我们分析了两个假设:(1)仅靠人脸身份是否具有区分深度伪造的能力,以及(2)这些身份特征在不同操控方法之间的泛化能力是否较差。我们的实验证实,身份信息是有用的,但依赖于上下文。虽然一些操控保留了与身份一致的伪造痕迹,另一些则扭曲了身份线索,损害了泛化能力。我们认为,身份特征不应被盲目抑制或依赖,而应根据每个样本的相关性进行明确建模和自适应控制。我们提出了\textbf{SELFI}(\textbf{SEL}ective \textbf{F}usion of \textbf{I}dentity),一个可泛化的检测框架,能够动态调节身份的使用。SELFI包括:(1)一个伪造感知身份适配器(FAIA),从冻结的人脸识别模型中提取身份嵌入,并通过辅助监督将其投射到与伪造相关的空间;以及(2)一个身份感知融合模块(IAFM),使用基于相关性的融合机制选择性地整合身份和视觉特征。在四个基准上的实验表明,SELFI提高了跨操控的泛化能力,平均AUC比之前的方法高出3.1%。在具有挑战性的DFDC数据集上,SELFI比之前的最佳结果高出6%。代码将在论文接受后发布。 |
[26] 结合面部表情和行为步态数据的帕金森病多模态体外诊断方法 标题: A Multimodal In Vitro Diagnostic Method for Parkinson's Disease Combining Facial Expressions and Behavioral Gait Data 作者: Wei Huang / Yinxuan Xu / Yintao Zhou / Zhengyu Li / Jing Huang / Meng Pang 原文: [英文] [中文] 备注: 8 pages, 4 figures, accepted by CogSci 2025 摘要: 帕金森病(PD)以其无法治愈、快速进展和严重残疾为特征,对患者及其家庭的生活构成重大挑战。鉴于人口老龄化,早期检测PD的需求正在增加。体外诊断因其无创性和低成本而受到关注。然而,现有方法存在几个挑战:1)用于面部表情诊断的训练数据有限;2)步态诊断需要专用设备和采集环境,导致泛化性差;3)依赖单一模态时存在误诊或漏诊的风险。为了解决这些问题,我们提出了一种新颖的多模态体外诊断方法,利用面部表情和行为步态。我们的方法采用轻量级深度学习模型进行特征提取和融合,旨在提高诊断准确性并促进在移动设备上的部署。此外,我们与医院合作建立了最大的多模态PD数据集,并进行了广泛的实验以验证我们提出方法的有效性。 |
[27] OpenMAP-BrainAge:可推广且可解释的脑龄预测器 标题: OpenMAP-BrainAge: Generalizable and Interpretable Brain Age Predictor 作者: Pengyu Kan / Craig Jones / Kenichi Oishi 原文: [英文] [中文] 备注: None 摘要: 目的:开发一个在脑部MRI扫描中对人口统计和技术差异具有解释性和鲁棒性的年龄预测模型。材料与方法:我们提出了一种基于transformer的架构,该架构利用大规模数据集上的自监督预训练。我们的模型处理来自三个解剖视角的伪3D T1加权MRI扫描,并结合脑体积信息。通过引入一个stem架构,我们将transformer模型的传统二次复杂度降低到线性复杂度,从而实现对高维MRI数据的可扩展性。我们在来自北美的ADNI2和3(N=1348)以及OASIS3(N=716)数据集(年龄范围:42 - 95)上训练了我们的模型,采用8:1:1的比例进行训练、验证和测试。然后,我们在来自澳大利亚的AIBL数据集(N=768,年龄范围:60 - 92)上进行了验证。结果:我们在ADNI2和3以及OASIS3测试集上实现了3.65年的MAE,并在AIBL上实现了3.54年的高泛化性MAE。在认知组中,脑年龄差距(BAG)显著增加,CN组的平均值为0.15年(95% CI: [-0.22, 0.51]),MCI组为2.55年([2.40, 2.70]),AD组为6.12年([5.82, 6.43])。此外,BAG与认知评分之间存在显著的负相关,MoCA的相关系数为-0.185(p < 0.001),MMSE为-0.231(p < 0.001)。基于梯度的特征归因强调脑室和白质结构是受脑老化影响的关键区域。结论:我们的模型有效地融合了来自不同视角和体积信息,实现了最先进的脑年龄预测准确性,提高了与神经退行性疾病相关的泛化性和可解释性。 |
[28] HIRE:用于多模态大型语言模型的轻量级高分辨率图像特征增强 标题: HIRE: Lightweight High-Resolution Image Feature Enrichment for Multimodal LLMs 作者: Nikitha SR / Aradhya Neeraj Mathur / Tarun Ram Menta / Rishabh Jain / Mausoom Sarkar 原文: [英文] [中文] 备注: Accepted in CVPR 2025 Workshop on What's Next in Multimodal Foundational Models 摘要: 将高分辨率图像特征整合到现代多模态大型语言模型中,已在细粒度视觉理解任务中表现出显著的改进,并在多个基准测试中取得了高性能。由于这些特征是从像ViT这样的大型图像编码器中获得的,因此由于多次调用这些编码器而导致计算成本显著增加。在这项工作中,我们首先开发了一种直觉,将特征上采样作为高分辨率特征生成的自然扩展。通过广泛的实验和消融研究,我们展示了一个浅层特征增强器如何在训练和推理时间以及计算成本上实现显著减少的同时,取得具有竞争力的结果,最多可节省1.5倍的浮点运算次数。 |
[29] JarvisArt:通过智能照片修饰代理解放人类艺术创造力 标题: JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent 作者: Yunlong Lin / Zixu Lin / Kunjie Lin / Jinbin Bai / Panwang Pan / Chenxin Li / Haoyu Chen / Zhongdao Wang / Xinghao Ding / Wenbo Li / Shuicheng Yan 原文: [英文] 备注: 40 pages, 26 figures 摘要: 照片修饰已成为当代视觉叙事的重要组成部分,使用户能够捕捉美感并表达创造力。虽然像 Adobe Lightroom 这样的专业工具提供了强大的功能,但它们需要相当的专业知识和手动操作。相比之下,现有的基于 AI 的解决方案提供了自动化,但通常在可调性和泛化能力方面存在局限,无法满足多样化和个性化的编辑需求。为弥合这一差距,我们引入了 JarvisArt,这是一种多模态大语言模型(MLLM)驱动的代理,能够理解用户意图,模仿专业艺术家的推理过程,并智能协调 Lightroom 中的 200 多种修饰工具。JarvisArt 经过两个阶段的训练过程:初始的链式思维监督微调以建立基本的推理和工具使用技能,随后进行修饰的群体相对策略优化(GRPO-R),以进一步增强其决策和工具熟练度。我们还提出了 Agent-to-Lightroom 协议,以促进与 Lightroom 的无缝集成。为了评估性能,我们开发了 MMArt-Bench,这是一种从真实用户编辑中构建的新基准。JarvisArt 展示了用户友好的交互、卓越的泛化能力以及对全局和局部调整的细粒度控制,为智能照片修饰开辟了新途径。值得注意的是,它在 MMArt-Bench 上的内容保真度平均像素级指标上比 GPT-4o 提高了 60%,同时保持了可比的指令遵循能力。项目页面:this https URL。 |
[30] CLiViS:通过语言-视觉协同释放认知地图以实现具身视觉推理 标题: CLiViS: Unleashing Cognitive Map through Linguistic-Visual Synergy for Embodied Visual Reasoning 作者: Kailing Li / Qi'ao Xu / Tianwen Qian / Yuqian Fu / Yang Jiao / Xiaoling Wang 原文: [英文] [中文] 备注: None 摘要: 具身视觉推理(EVR)旨在基于自我中心视频遵循复杂的自由形式指令,从而在动态环境中实现语义理解和时空推理。尽管具有很大的潜力,EVR面临着来自复杂指令多样性和长期自我中心视频中复杂时空动态的重大挑战。先前的解决方案要么在静态视频字幕上使用大型语言模型(LLMs),这通常会遗漏关键的视觉细节,要么依赖于难以进行逐步组合推理的端到端视觉语言模型(VLMs)。考虑到LLMs在推理方面的优势和VLMs在感知方面的优势互补,我们提出了CLiViS。这是一个无需训练的新颖框架,利用LLMs进行高层次任务规划,并协调由VLM驱动的开放世界视觉感知以迭代更新场景上下文。在这种协同作用的基础上,CLiViS的核心是一个在推理过程中不断演变的动态认知地图。该地图构建了具身场景的结构化表示,桥接了低层次感知和高层次推理。跨多个基准的广泛实验表明,CLiViS在处理长期视觉依赖方面的有效性和通用性。代码可在此https URL获取。 |
[31] 对立体深度估计的无优化补丁攻击 标题: Optimization-Free Patch Attack on Stereo Depth Estimation 作者: Hangcheng Liu / Xu Kuang / Xingshuo Han / Xingwan Wu / Haoran Ou / Shangwei Guo / Xingyi Huang / Tao Xiang / Tianwei Zhang 原文: [英文] [中文] 备注: None 摘要: 立体深度估计(Stereo Depth Estimation, SDE)对于基于视觉的系统(如自动驾驶)中的场景理解至关重要。然而,最近的研究表明,SDE模型容易受到对抗性攻击的影响,而这些攻击通常局限于不切实际的设置,例如在静态场景中对单独的立体视图进行数字扰动,这限制了其在现实世界中的适用性。这引发了一个关键问题:在现实约束下,我们如何设计出物理上可实现的、场景自适应的、可迁移的针对SDE的攻击? 为了解决这个问题,我们做出了两个关键贡献。首先,我们提出了一个统一的攻击框架,将基于优化的技术扩展到立体匹配的四个核心阶段:特征提取、代价体构建、代价聚合和视差回归。在诸如光度一致性等约束下,对9个主流SDE模型进行的全面阶段性评估表明,基于优化的补丁在可迁移性方面表现不佳。有趣的是,部分可迁移的补丁表明,模式而非像素级扰动可能是通用攻击的关键。受此启发,我们提出了PatchHunter,这是第一个针对SDE的无优化对抗性补丁攻击。PatchHunter将补丁生成表述为在一个结构化的视觉模式空间中进行的强化学习驱动的搜索,以破坏SDE假设。 我们在三个层面上验证了PatchHunter:KITTI数据集、CARLA模拟器和真实世界的车辆部署。PatchHunter不仅在效果上超越了基于优化的方法,还在黑盒可迁移性上取得了显著更好的表现。即使在低光等具有挑战性的物理条件下,PatchHunter仍能保持高攻击成功率(例如,D1-all > 0.4),而基于优化的方法则失败。 |
[32] 用于小样本分布外检测的自适应多提示对比网络 标题: Adaptive Multi-prompt Contrastive Network for Few-shot Out-of-distribution Detection 作者: Xiang Fang / Arvind Easwaran / Blaise Genest 原文: [英文] [中文] 备注: ICML 2025 摘要: 分布外(OOD)检测试图区分异常样本,以防止在分布内(ID)数据集上训练的模型产生不可用的输出。大多数OOD检测方法需要大量独立同分布(IID)样本进行训练,这严重限制了它们在现实世界中的应用。为此,我们针对一个具有挑战性的设置:小样本OOD检测,其中只有少量标记的ID样本可用。因此,小样本OOD检测比传统的OOD检测设置更具挑战性。之前的小样本OOD检测工作忽略了不同类别之间的显著多样性。在本文中,我们提出了一种新颖的网络:自适应多提示对比网络(AMCN),通过学习类间和类内分布来调整ID-OOD分离边界。为了弥补OOD的缺失和ID图像样本的稀缺性,我们利用CLIP,将文本与图像连接起来,设计可学习的ID和OOD文本提示。具体来说,我们首先生成自适应提示(可学习的ID提示、标签固定的OOD提示和标签自适应的OOD提示)。然后,通过引入类级阈值为每个类别生成自适应类边界。最后,我们提出了一个提示引导的ID-OOD分离模块,以控制ID和OOD提示之间的边距。实验结果表明,AMCN优于其他最先进的工作。 |
[33] 通过具有多模态上下文学习的视觉语言模型生成组织病理学图像报告 标题: Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning 作者: Shih-Wen Liu / Hsuan-Yu Fan / Wei-Ta Chu / Fu-En Yang / Yu-Chiang Frank Wang 原文: [英文] [中文] 备注: Accepted to MIDL 2025 摘要: 从组织病理学图像自动生成医学报告是一个关键挑战,需要有效的视觉表示和领域特定知识。受人类专家常用实践的启发,我们提出了一种名为PathGenIC的上下文学习框架,该框架结合了从训练集中提取的上下文与多模态上下文学习(ICL)机制。我们的方法动态检索语义相似的全片图像(WSI)-报告对,并结合自适应反馈以增强上下文相关性和生成质量。在HistGen基准上进行评估,该框架在BLEU、METEOR和ROUGE-L指标上实现了最先进的结果,并在不同报告长度和疾病类别上表现出稳健性。通过最大化训练数据的效用并通过ICL桥接视觉和语言,我们的工作为AI驱动的组织病理学报告提供了解决方案,为未来多模态临床应用的进步奠定了坚实的基础。 |
[34] MDSAM:用于减轻LVLMs幻觉的记忆驱动稀疏注意力矩阵 标题: MDSAM:Memory-Driven Sparse Attention Matrix for LVLMs Hallucination Mitigation 作者: Shuaiye Lu / Linjiang Zhou / Xiaochuan Shi 原文: [英文] [中文] 备注: None 摘要: 大型视觉语言模型(LVLMs)中的幻觉现象通常源于模型在解码过程中对图像标记的敏感性,这可以通过在生成真实和幻觉实体时观察到的注意力峰值来证明。为了解决这个问题,我们提出了记忆驱动稀疏注意力矩阵(MDSAM),这是一种无需训练的新方法,可以动态捕捉和优化在每一层分配给图像标记的注意力。MDSAM通过在解码过程中对齐来记忆注意力模式并激活更新,从而增强对相关图像标记的关注,同时有效减少幻觉。我们在多个基准测试上评估了MDSAM,涉及图像字幕生成和视觉问答等任务,证明了其在持续减少幻觉和提高可靠性方面的能力。MDSAM与各种LVLM架构兼容,突显了其在无需额外训练或外部工具的情况下缓解幻觉的适应性和有效性。 |
[35] CSDN:一种用于实时目标检测的上下文门控自适应检测网络 标题: CSDN: A Context-Gated Self-Adaptive Detection Network for Real-Time Object Detection 作者: Wei Haolin 原文: [英文] [中文] 备注: 15pages, 11figures 摘要: 卷积神经网络(CNNs)长期以来一直是目标检测的基石,但它们通常受到有限感受野的限制,这阻碍了它们捕捉全局上下文信息的能力。本文认为,有效利用提取的特征与特征提取过程本身同样重要。我们对受DETR启发的头部网络架构进行了批判性重新评估,质疑其自注意力机制的不可或缺性,并发现了显著的信息冗余。为了解决这些问题,我们引入了上下文门控尺度自适应检测网络(CSDN),这是一种受自然语言处理架构和人类视觉感知启发的基于Transformer的检测头。CSDN旨在通过用一种新颖的门控机制替代传统的堆叠自注意力和交叉注意力层来有效利用CNN主干网络的特征。该机制使得每个兴趣区域(ROI)能够自适应地选择和组合来自多种注意力模式的特征维度和尺度信息。CSDN提供了更强大的全局上下文建模能力,并且能够更好地适应不同大小和结构的物体。我们提出的检测头可以直接替换各种基于CNN的检测器的原生头部,只需在预训练权重上进行几轮微调即可显著提高检测精度,从而避免为了实现小幅度的改进而对各种层模块进行广泛的重新训练。 |
[36] 使用动作序列进行自我中心动作识别的领域泛化 标题: Domain Generalization using Action Sequences for Egocentric Action Recognition 作者: Amirshayan Nasirimajd / Chiara Plizzari / Simone Alberto Peirone / Marco Ciccone / Giuseppe Averta / Barbara Caputo 原文: [英文] [中文] 备注: Accepted at Pattern Recognition Letters. 9 pages including references. Code and Data: this https URL 摘要: 从视觉输入中识别人类活动,特别是通过第一人称视角,对于使机器人能够复制人类行为至关重要。自我中心视觉的特点是由观察者佩戴的摄像头捕捉到的光照、视角和环境的多样变化。这种多样性导致自我中心动作识别模型在未见过的环境中测试时性能显著下降。在本文中,我们通过提出一种自我中心动作识别的领域泛化方法来应对这些挑战。我们的见解是,动作序列通常在视觉领域中反映出一致的用户意图。通过利用动作序列,我们旨在增强模型在未见环境中的泛化能力。我们提出的方法名为SeqDG,引入了一种视觉-文本序列重建目标(SeqRec),该目标利用文本和视觉输入中的上下文线索来重建序列的中心动作。此外,我们通过在来自不同领域的动作混合序列(SeqMix)上训练模型来增强其鲁棒性。我们在EGTEA和EPIC-KITCHENS-100数据集上验证了SeqDG。在EPIC-KITCHENS-100上的结果显示,SeqDG在未见环境中的跨领域动作识别中相对平均提高了2.4%,而在EGTEA上,模型在域内动作识别中比现有技术提高了0.6%的Top-1准确率。 |
[37] SSAVSV:迈向自监督音视频说话人验证的统一模型 标题: SSAVSV: Towards Unified Model for Self-Supervised Audio-Visual Speaker Verification 作者: Gnana Praveen Rajasekhar / Jahangir Alam 原文: [英文] [中文] 备注: None 摘要: 传统的音视频说话人验证方法依赖于大量标注数据和独立的模态特定架构,这在计算上代价高昂,限制了其可扩展性。为了解决这些问题,我们提出了一种基于对比学习的自监督学习框架,结合不对称掩码和掩码数据建模,以获得稳健的音视频特征表示。特别是,我们采用了一个统一的框架,用于自监督的音视频说话人验证,使用单一共享的主干网络处理音频和视频输入,利用视觉变换器的多功能性。所提出的统一框架可以在训练和测试期间使用单一共享的视觉变换器主干处理音频、视频或音视频输入,同时在计算上高效且对缺失模态具有鲁棒性。大量实验表明,我们的方法在没有标注数据的情况下实现了具有竞争力的性能,同时与传统方法相比降低了计算成本。 |
[38] DreamJourney:使用视频扩散模型的永续视图生成 标题: DreamJourney: Perpetual View Generation with Video Diffusion Models 作者: Bo Pan / Yang Chen / Yingwei Pan / Ting Yao / Wei Chen / Tao Mei 原文: [英文] [中文] 备注: None 摘要: 永久视角生成旨在仅从单个输入图像合成与任意相机轨迹对应的长期视频。最近的方法通常利用预训练的文本到图像扩散模型来合成相机移动过程中先前未见区域的新内容。然而,基础的二维扩散模型缺乏三维感知,导致失真伪影。此外,它们仅限于生成静态三维场景的视图,未能捕捉动态四维世界中的物体运动。为了解决这些问题,我们提出了DreamJourney,这是一种两阶段框架,利用视频扩散模型的世界模拟能力来触发一个新的永久场景视图生成任务,结合相机运动和物体动态。具体来说,在第一阶段,DreamJourney首先将输入图像提升为三维点云,并从特定相机轨迹渲染一系列部分图像。然后利用视频扩散模型作为生成先验来完成缺失区域,并增强序列中的视觉一致性,生成与三维场景和相机轨迹一致的跨视图视频。同时,我们引入了两种简单而有效的策略(提前停止和视图填充)以进一步稳定生成过程并提高视觉质量。接下来,在第二阶段,DreamJourney利用多模态大型语言模型生成描述当前视图中物体运动的文本提示,并使用视频扩散模型为当前视图中的物体运动制作动画。第一阶段和第二阶段反复进行,实现永久动态场景视图生成。大量实验表明,我们的DreamJourney在定量和定性上均优于最先进的方法。我们的项目页面:this https URL。 |
[39] 可编程房间:由大型语言模型驱动的交互式纹理3D房间网格生成 标题: Programmable-Room: Interactive Textured 3D Room Meshes Generation Empowered by Large Language Models 作者: Jihyun Kim / Junho Park / Kyeongbo Kong / Suk-Ju Kang 原文: [英文] [中文] 备注: Accepted by IEEE Transactions on Multimedia 摘要: 我们介绍了Programmable-Room,这是一个可以根据自然语言指令交互生成和编辑3D房间网格的框架。为了精确控制房间的每个属性,我们将这一具有挑战性的任务分解为更简单的步骤,例如为房间网格创建合理的3D坐标、生成用于纹理的全景图像、通过整合坐标和全景纹理图像构建3D网格,以及布置家具。为了用统一的框架支持各种分解的任务,我们引入了视觉编程(VP)。VP是一种方法,它利用大型语言模型(LLM)来编写类似Python的程序,该程序是自然语言中给出的各种任务所需模块的有序列表。我们开发了大多数模块。特别是,对于纹理生成模块,我们利用预训练的大规模扩散模型来生成以文本和视觉提示(即布局、深度和语义图)为条件的全景图像。具体来说,我们通过优化从双向LSTM获得的全景场景的一维表示的训练目标来提高全景图像生成的质量。我们展示了Programmable-Room在生成和编辑3D房间网格方面的灵活性,并通过定量和定性证明了我们的框架优于现有模型。项目页面可在此HTTPS URL中找到。 |
[40] PDC-Net:用于骨盆放射损伤分割的模式分而治之网络 标题: PDC-Net: Pattern Divide-and-Conquer Network for Pelvic Radiation Injury Segmentation 作者: Xinyu Xiong / Wuteng Cao / Zihuang Wu / Lei Zhang / Chong Gao / Guanbin Li / Qiyuan Qin 原文: [英文] [中文] 备注: MICCAI 2025 摘要: 从磁共振成像(MRI)中准确分割盆腔放射损伤(PRI)对于更精确的预后评估和个性化治疗方案的制定至关重要。然而,由于复杂的器官形态和混淆的背景等因素,自动分割仍然具有挑战性。为了解决这些挑战,我们提出了一种新颖的模式分而治之网络(PDC-Net)用于PRI分割。其核心思想是使用不同的网络模块来“分解”各种局部和全局模式,并通过灵活的特征选择在解码阶段“征服”感兴趣区域(ROI)。具体来说,考虑到我们的ROI在MR切片中通常表现为条状或圆形结构,我们引入了多方向聚合(MDA)模块。该模块通过在四个不同方向上应用条状卷积来增强模型适应器官形状的能力。此外,为了缓解混淆背景的挑战,我们提出了记忆引导上下文(MGC)模块。该模块显式地维护一个记忆参数,以在数据集级别跟踪跨图像模式,从而增强与正负类相关的全局模式之间的区分。最后,我们设计了一个自适应融合解码器(AFD),该解码器基于专家混合(MoE)框架动态选择来自不同模式的特征,最终生成最终的分割结果。我们在第一个大规模盆腔放射损伤数据集上评估了我们的方法,结果表明我们的PDC-Net优于现有的方法。 |
[41] YOLOv13:基于超图增强自适应视觉感知的实时目标检测 标题: YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception 作者: Mengqi Lei / Siqi Li / Yihong Wu / Han Hu / You Zhou / Xinhu Zheng / Guiguang Ding / Shaoyi Du / Zongze Wu / Yue Gao 原文: [英文] 备注: None 摘要: YOLO系列模型在实时目标检测中因其卓越的准确性和计算效率而占据主导地位。然而,YOLO11及更早版本的卷积架构以及YOLOv12中引入的基于区域的自注意力机制仅限于局部信息聚合和成对相关性建模,缺乏捕捉全局多对多高阶相关性的能力,这限制了在复杂场景中的检测性能。在本文中,我们提出了YOLOv13,这是一种准确且轻量级的目标检测器。为了解决上述挑战,我们提出了一种基于超图的自适应相关性增强(HyperACE)机制,该机制自适应地利用潜在的高阶相关性,并克服了先前方法仅限于成对相关性建模的局限性,通过超图计算实现高效的全局跨位置和跨尺度特征融合与增强。随后,我们基于HyperACE提出了一种全管道聚合与分发(FullPAD)范式,通过将相关性增强的特征分发到整个管道,有效实现了整个网络内的细粒度信息流和表示协同。最后,我们提出利用深度可分离卷积替代传统的大核卷积,并设计了一系列模块,在不牺牲性能的情况下显著减少参数和计算复杂度。我们在广泛使用的MS COCO基准上进行了大量实验,实验结果表明,我们的方法在参数和FLOPs更少的情况下实现了最先进的性能。具体而言,我们的YOLOv13-N比YOLO11-N提高了3.0%的mAP,比YOLOv12-N提高了1.5%。我们的YOLOv13模型的代码和模型可在此URL获取。 |
[42] PhysID:基于物理的单视图图像交互动态 标题: PhysID: Physics-based Interactive Dynamics from a Single-view Image 作者: Sourabh Vasant Gothe / Ayon Chattopadhyay / Gunturi Venkata Sai Phani Kiran / Pratik / Vibhav Agarwal / Jayesh Rajkumar Vachhani / Sourav Ghosh / Parameswaranath VM / Barath Raj KR 原文: [英文] [中文] 备注: Published in 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Project page: this https URL 摘要: 将静态图像转化为互动体验仍然是计算机视觉领域的一项挑战。解决这一挑战有可能提升移动用户体验,特别是在互动和AR/VR应用中。目前的方法旨在通过预录视频响应或需要多视图图像作为输入来实现这一目标。在本文中,我们提出了PhysID,它通过利用大型生成模型进行3D网格生成和物理属性预测,从单视图图像中简化了基于物理的互动动态的创建。这显著减少了工程密集型任务如3D建模和内在属性校准所需的专业知识,使得这一过程能够以最少的人工干预进行扩展。我们集成了一个设备上的基于物理的引擎,用于与用户互动时进行物理上合理的实时渲染。PhysID代表了移动互动动态的一个飞跃,提供实时、非确定性互动和用户个性化,同时高效地利用设备内存。实验评估了各种多模态大型语言模型(MLLMs)在不同任务上的零样本能力以及3D重建模型的性能。这些结果展示了端到端框架中所有模块的协同运作,增强了其有效性。 |
[43] LoLA-SpecViT:用于高光谱成像的局部注意力SwiGLU视觉Transformer与LoRA 标题: LoLA-SpecViT: Local Attention SwiGLU Vision Transformer with LoRA for Hyperspectral Imaging 作者: Fadi Abdeladhim Zidi / Djamel Eddine Boukhari / Abdellah Zakaria Sellam / Abdelkrim Ouafi / Cosimo Distante / Salah Eddine Bekhouche / Abdelmalik Taleb-Ahmed 原文: [英文] [中文] 备注: None 摘要: 高光谱图像分类由于光谱数据的高维性、显著的波段间冗余以及标注样本的有限性,仍然是一项具有挑战性的任务。尽管最近基于Transformer的模型在光谱-空间依赖关系的全局建模方面有所改进,但在标签稀缺条件下的可扩展性和适应性仍然有限。在这项工作中,我们提出了\textbf{LoLA-SpecViT}(低秩适应局部注意力光谱视觉Transformer),这是一种轻量级的光谱视觉Transformer,通过针对高光谱图像独特特性的参数高效架构来解决这些限制。我们的模型结合了3D卷积光谱前端和基于局部窗口的自注意力,增强了光谱特征提取和空间一致性,同时降低了计算复杂度。为了进一步提高适应性,我们在注意力和投影层中整合了低秩适应(LoRA),使得微调时可减少超过80%的可训练参数。一个新颖的循环学习率调度器在训练过程中调节LoRA适应强度,提高了收敛性和泛化能力。在三个基准数据集WHU-Hi LongKou、WHU-Hi HongHu和Salinas上的大量实验表明,LoLA-SpecViT始终优于最先进的基线,在低标签条件下实现了高达99.91%的准确率,并具有显著更少的参数和增强的鲁棒性。所提出的框架为农业、环境监测和遥感分析中的真实世界高光谱图像应用提供了一个可扩展和可推广的解决方案。我们的代码可在以下\href{this https URL}{GitHub Repository}中获得。 |
[44] 与其消除,不如纳入:通过群体特定专家实现皮肤病诊断的公平性 标题: Incorporating Rather Than Eliminating: Achieving Fairness for Skin Disease Diagnosis Through Group-Specific Expert 作者: Gelei Xu / Yuying Duan / Zheyuan Liu / Xueyang Li / Meng Jiang / Michael Lemmon / Wei Jin / Yiyu Shi 原文: [英文] [中文] 备注: 11 pages, 2 figures 摘要: 基于人工智能的系统在皮肤病诊断中已取得高精度,但通常在不同人口群体中表现出偏差,导致不公平的医疗结果和患者信任度下降。大多数现有的偏差缓解方法试图消除敏感属性与诊断预测之间的相关性,但这些方法往往由于丧失临床相关的诊断线索而降低性能。在这项工作中,我们提出了一种替代方法,结合敏感属性以实现公平性。我们引入了FairMoE,一个使用逐层专家混合模块作为群体特定学习者的框架。与传统方法根据群体标签僵硬地分配数据不同,FairMoE动态地将数据路由到最合适的专家,使其在处理接近群体边界的案例时特别有效。实验结果表明,与以往降低性能的公平性方法不同,FairMoE在保持相当的公平性指标的同时,实现了显著的准确性提升。 |
[45] 用于上下文图像和视频分割的时间对比预训练 标题: Time-Contrastive Pretraining for In-Context Image and Video Segmentation 作者: Assefa Wahd / Jacob Jaremko / Abhilash Hareendranathan 原文: [英文] [中文] 备注: None 摘要: 上下文学习(ICL)能够在标注数据极少的情况下实现对新任务的泛化。然而,主流的ICL方法依赖于网格策略,这种策略缺乏视觉应用所需的灵活性。我们引入了Temporal,一种时间对比自监督目标,用于预训练视觉ICL的提示检索器,并将ICL表述为视频对象分割(VOS)任务。Temporal解决了限制上下文图像数量和分辨率的网格方法的关键缺陷。通过将ICL重新构建为VOS问题,我们的方法支持可变数量的上下文图像,同时保留其完整分辨率。为了解决为查询选择最佳上下文集的挑战,我们通过自监督学习在视频上预训练提示检索器,其中相邻帧作为正样本,远离帧作为负样本。对于图像分割,提示检索器选择相关序列,与查询结合后形成连贯的视频以进行VOS处理。对于视频分割,它识别关键帧,使用我们的ICL管道预测其掩码,并在整个序列中传播。在MICCAI FLARE 2022上的评估中,我们的方法相比基线实现了显著提升:图像分割的Dice得分为90.95%(提升10.64%),视频分割的Dice得分为92.45%(提升14.88%)。 |
[46] 使用卷积稀疏表示建模对严重退化视频进行稳健的前景-背景分离 标题: Robust Foreground-Background Separation for Severely-Degraded Videos Using Convolutional Sparse Representation Modeling 作者: Kazuki Naganuma / Shunsuke Ono 原文: [英文] [中文] 备注: Submitted to IEEE Transactions on Image Processing. The code is available at this https URL 摘要: 本文提出了一种前景-背景分离(FBS)方法,该方法采用了一种基于卷积稀疏表示(CSR)的新颖前景模型。为了分析在不理想条件下(如硬件、环境和电力限制)获取的视频的动态和静态成分,建立一种能够处理低帧率和各种类型噪声视频的FBS方法是至关重要的。现有的FBS方法存在两个限制,使我们无法准确地从这种退化视频中分离出前景和背景成分。首先,它们仅捕捉成分的数据特定特征或一般特征。其次,它们没有包含明确的噪声模型来在FBS过程中去除各种类型的噪声。为此,我们提出了一种具有CSR基础的前景模型的鲁棒FBS方法。该模型可以自适应地捕捉散布在成像数据中的特定空间结构。然后,我们将FBS表述为一个约束的多凸优化问题,该问题结合了CSR、捕捉一般特征的函数以及针对多种类型噪声的明确噪声特征化函数。得益于这些函数,我们的方法能够捕捉数据特定和一般特征,即使在低帧率下也能准确地从各种类型的噪声中分离出成分。为了获得优化问题的解,我们开发了一种算法,通过新建立的算法交替求解其两个凸子问题。实验表明,我们的方法在使用两种类型的退化视频(红外和显微镜视频)时优于现有方法。 |
[47] 胎儿简化:胎儿形状和姿态的建模与跟踪 标题: Fetuses Made Simple: Modeling and Tracking of Fetal Shape and Pose 作者: Yingcheng Liu / Peiqi Wang / Sebastian Diaz / Esra Abaci Turk / Benjamin Billot / Patricia Ellen Grant / Polina Golland 原文: [英文] [中文] 备注: None 摘要: 分析胎儿身体运动和形状在产前诊断和监测中至关重要。现有的胎儿MRI分析方法主要依赖于解剖关键点或体积身体分割。关键点简化了身体结构以便于运动分析,但可能忽略了全身形状的重要细节。身体分割捕捉完整的形状信息,但由于胎儿的大范围非局部运动,使得时间分析变得复杂。为了解决这些限制,我们基于Skinned Multi-Person Linear Model (SMPL) 构建了一个3D关节化统计胎儿身体模型。我们的算法迭代地在图像空间估计身体姿势,并在标准姿势空间估计身体形状。这种方法提高了对MRI运动伪影和强度失真的鲁棒性,并减少了由于胎儿姿势困难导致的不完整表面观察的影响。我们在来自53个受试者的19,816个MRI体积中提取的分割和关键点上训练我们的模型。我们的模型捕捉了时间序列中的身体形状和运动,并提供了直观的可视化。此外,它使得传统上难以从分割和关键点中获得的自动人体测量成为可能。在未见过的胎儿身体形状上测试时,我们的方法在3毫米MRI体素大小下产生了3.2毫米的表面对齐误差。据我们所知,这代表了第一个3D关节化统计胎儿身体模型,为增强产前诊断中的胎儿运动和形状分析铺平了道路。代码可在此https URL获取。 |
[48] 用于实时RGB-热成像野外场景语义分割的跨模态状态空间建模 标题: Cross-modal State Space Modeling for Real-time RGB-thermal Wild Scene Semantic Segmentation 作者: Xiaodong Guo / Zi'ang Lin / Luwen Hu / Zhihong Deng / Tong Liu / Wujie Zhou 原文: [英文] [中文] 备注: None 摘要: RGB和热成像数据的集成可以显著提高野外环境中场地机器人语义分割的性能。然而,多源数据处理(例如基于Transformer的方法)会带来显著的计算开销,对资源受限的系统构成挑战。为了解决这一关键限制,我们引入了CM-SSM,这是一种高效的RGB-热成像语义分割架构,利用跨模态状态空间建模(SSM)方法。我们的框架包括两个关键组件。首先,我们引入了一个跨模态二维选择性扫描(CM-SS2D)模块,在RGB和热成像模态之间建立SSM,该模块构建跨模态视觉序列,并从一种模态中推导出另一种模态的隐藏状态表示。其次,我们开发了一个跨模态状态空间关联(CM-SSA)模块,该模块有效地将CM-SS2D的全局关联与通过卷积操作提取的局部空间特征相结合。与基于Transformer的方法相比,CM-SSM在图像分辨率方面实现了线性计算复杂度。实验结果表明,CM-SSM在CART数据集上以更少的参数和更低的计算成本实现了最先进的性能。在PST900数据集上的进一步实验展示了其通用性。代码可在此https URL获取。 |
[49] SurgVidLM:利用大型语言模型实现多粒度的手术视频理解 标题: SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model 作者: Guankun Wang / Wenjin Mo / Junyi Wang / Long Bai / Kun Yuan / Ming Hu / Jinlin Wu / Junjun He / Yiming Huang / Nicolas Padoy / Zhen Lei / Hongbin Liu / Nassir Navab / Hongliang Ren 原文: [英文] [中文] 备注: None 摘要: 最近在多模态大型语言模型方面的进展显示出在医学领域的巨大潜力,帮助用户理解手术场景和过程。除了基于图像的方法之外,视频大型语言模型(Vid-LLMs)的探索已成为捕捉手术中复杂信息序列的一个有前途的途径。然而,目前仍然缺乏专门用于细粒度手术视频理解任务的Vid-LLMs,而这对于分析手术过程中的特定流程或细节至关重要。为弥补这一空白,我们提出了SurgVidLM,这是第一个旨在解决完整和细粒度手术视频理解的视频语言模型。为了训练我们的SurgVidLM,我们构建了SVU-31K数据集,该数据集由超过31K的视频-指令对组成,能够实现对手术过程的整体理解和详细分析。此外,我们引入了StageFocus机制,这是一种两阶段框架,执行手术视频的多粒度、渐进式理解。我们还开发了多频融合注意力机制,以有效整合低频和高频视觉标记,确保关键信息的保留。实验结果表明,SurgVidLM在完整和细粒度视频理解任务中显著优于最先进的Vid-LLMs,展示了其在捕捉复杂程序上下文方面的卓越能力。 |
[50] StainPIDR:一种基于颜色矢量量化和结构重染的病理图像解耦和重建方法用于染色标准化 标题: StainPIDR: A Pathological Image Decouplingand Reconstruction Method for StainNormalization Based on Color VectorQuantization and Structure Restaining 作者: Zheng Chen 原文: [英文] [中文] 备注: None 摘要: 病理图像的颜色外观与成像协议、不同染料的比例以及扫描设备密切相关。当面对这些颜色变化的病理图像时,计算机辅助诊断系统的性能可能会下降。在这项工作中,我们提出了一种称为StainPIDR的染色标准化方法。我们尝试通过将图像解耦为结构特征和矢量量化的颜色特征,使用目标颜色特征重新染色结构特征,并解码染色后的结构特征为标准化的病理图像,从而消除这种颜色差异。我们假设具有相同颜色的不同图像解耦出的颜色特征应该完全相同。在这一假设下,我们训练了一个固定的颜色矢量码本,解耦出的颜色特征将映射到该码本。在重新染色部分,我们利用交叉注意力机制高效地对结构特征进行染色。由于目标颜色(从选定的模板图像中解耦出)也会影响染色标准化的性能,我们进一步设计了一个模板图像选择算法,从给定的数据集中选择一个模板。在我们的大量实验中,我们验证了StainPIDR和模板图像选择算法的有效性。所有结果表明,我们的方法在染色标准化任务中表现良好。StainPIDR的代码将在稍后公开。 |
[51] 云感知SAR融合以增强空间任务中的光学传感 标题: Cloud-Aware SAR Fusion for Enhanced Optical Sensing in Space Missions 作者: Trong-An Bui / Thanh-Thoai Le 原文: [英文] [中文] 备注: None 摘要: 云层污染显著降低了光学卫星影像的可用性,影响了环境监测、灾害响应和土地利用分析等关键应用。本研究提出了一种云关注重建框架,该框架结合了SAR-光学特征融合和基于深度学习的图像重建,以生成无云光学影像。所提出的框架采用了一种注意力驱动的特征融合机制,将合成孔径雷达(SAR)的互补结构信息与光学数据的光谱特征对齐。此外,云感知模型更新策略引入了自适应损失加权,以优先考虑云遮挡区域,从而提高重建精度。实验结果表明,所提出的方法优于现有方法,达到31.01 dB的PSNR、0.918的SSIM和0.017的MAE。这些结果突显了该框架在生成高保真、空间和光谱一致的无云光学图像方面的有效性。 |
[52] Relation3D:增强点云实例分割的关系建模 标题: Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation 作者: Jiahao Lu / Jiacheng Deng 原文: [英文] [中文] 备注: Accepted by CVPR 2025. Code: this https URL 摘要: 3D实例分割旨在预测场景中的一组对象实例,将它们表示为具有相应语义标签的二值前景掩码。目前,基于Transformer的方法由于其优雅的流程和卓越的预测能力而受到越来越多的关注。然而,这些方法主要通过掩码注意力来建模场景特征和查询特征之间的外部关系,缺乏对场景特征内部关系以及查询特征之间关系的有效建模。针对这些缺点,我们提出了\textbf{Relation3D: 增强点云实例分割的关系建模}。具体来说,我们引入了自适应超点聚合模块和对比学习引导的超点细化模块,以更好地表示超点特征(场景特征),并利用对比学习来指导这些特征的更新。此外,我们的关系感知自注意力机制通过将位置和几何关系纳入自注意力机制,增强了对查询之间关系的建模能力。在ScanNetV2、ScanNet++、ScanNet200和S3DIS数据集上的大量实验表明,Relation3D具有卓越的性能。 |
[53] BeltCrack:首个顺序图像工业传送带裂纹检测数据集及其基于三域特征学习的基线 标题: BeltCrack: the First Sequential-image Industrial Conveyor Belt Crack Detection Dataset and Its Baseline with Triple-domain Feature Learning 作者: Jianghong Huang / Luping Ji / Xin Ma / Mao Ye 原文: [英文] [中文] 备注: 32 pages, 10 figures 摘要: 传送带是现代工业中一类重要设备,广泛应用于生产和制造领域。其健康状态对操作效率和安全隐患至关重要。在影响传送带健康的因素中,裂纹往往是最具威胁性的风险之一。目前,出于安全考虑,如何智能检测传送带裂纹正受到越来越多的关注。为了利用机器学习实现智能检测,真实的裂纹样本被认为是必要的。然而,现有的裂纹数据集主要集中在路面场景或合成数据上,完全没有真实的工业传送带裂纹数据集。为了推动该领域的机器学习进步,本文构建了首个基于真实工厂场景的序列图像传送带裂纹检测数据集(BeltCrack14ks 和 BeltCrack9kd)。此外,为了验证其可用性和有效性,我们为这两个全新的数据集提出了一种特殊的基线方法,该方法采用三域(即时间-空间-频率)特征分层融合学习。实验结果表明,我们的数据集具有可用性和有效性。此外,结果还显示我们的基线方法明显优于其他类似的检测方法。我们的数据集和源代码可在此 https URL 获取。 |
[54] 自我世界:利用丰富的外部观察将外部视角转换为自我视角 标题: EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations 作者: Junho Park / Andrew Sangwoo Ye / Taein Kwon 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: 自我中心视觉对于人类和机器视觉理解都至关重要,特别是在捕捉操控任务所需的详细手-物体交互方面。将第三人称视角转换为第一人称视角对增强现实(AR)、虚拟现实(VR)和机器人应用有显著的好处。然而,目前的外中心到自我中心转换方法受限于对二维线索的依赖、同步多视角设置,以及不切实际的假设,如在推理过程中需要初始自我中心帧和相对相机姿态。为了解决这些挑战,我们引入了EgoWorld,这是一种新颖的两阶段框架,可以从丰富的外中心观测中重建自我中心视角,包括投影点云、三维手部姿态和文本描述。我们的方法从估计的外中心深度图重建点云,将其重新投影到自我中心视角,然后应用基于扩散的修复技术生成密集的、语义一致的自我中心图像。在H2O和TACO数据集上的评估表明,EgoWorld达到了最先进的性能,并展示了对新物体、动作、场景和主体的强大泛化能力。此外,EgoWorld即使在未标记的真实世界示例中也显示出有希望的结果。 |
[55] PostAlign:将多模态对齐作为多模态大语言模型的校正透镜 标题: PostAlign: Multimodal Grounding as a Corrective Lens for MLLMs 作者: Yixuan Wu / Yang Zhang / Jian Wu / Philip Torr / Jindong Gu 原文: [英文] [中文] 备注: None 摘要: 多模态大型语言模型(MLLMs)在视觉-语言任务中表现出色,如图像描述和视觉问答。然而,由于语言先验知识的影响,这些模型往往过度依赖虚假的相关性,从而分散了模型利用实际视觉信息的注意力。为了解决这些问题,我们引入了MMGrounded-PostAlign,这是一种后多模态对齐框架,旨在增强视觉理解能力并减轻MLLMs的幻觉现象。我们的框架结合了多模态基础模块,用于视觉基础(识别图像中提到的对象)和文本基础(生成最终答案的理由),确保输出基于视觉和文本证据。为了减轻幻觉现象,我们在视觉基础模块中引入了一个负拒绝机制,以区分基础实体和受语言偏见影响的不存在对象。在文本基础方面,我们提出了一种选择性推理机制,根据查询的复杂性调整模型的推理策略。我们在POPE、HaloQuest、VQAv2、MME和MMBench等基准上进行了广泛的评估,显示在细粒度视觉理解和幻觉抑制方面有显著改善。 |
[56] 基于因果效应驱动的优化:应对语言偏差的稳健医学视觉问答 标题: Cause-Effect Driven Optimization for Robust Medical Visual Question Answering with Language Biases 作者: Huanjia Zhu / Yishu Liu / Xiaozhao Fang / Guangming Lu / Bingzhi Chen 原文: [英文] [中文] 备注: Accepted at IJCAI 2025 摘要: 现有的医学视觉问答(Med-VQA)模型常常受到语言偏见的影响,这种偏见是由于问题类型和答案类别之间不当的相关性而无意中建立的。为了解决这些问题,我们提出了一种新颖的因果驱动优化框架,称为CEDO,该框架结合了三种成熟的机制,即模态驱动的异构优化(MHO)、梯度引导的模态协同(GMS)和分布适应的损失重缩放(DLR),以从因果和效果的角度全面减轻语言偏见。具体来说,MHO为特定模态采用自适应学习率以实现异构优化,从而增强稳健的推理能力。此外,GMS利用帕累托优化方法促进模态之间的协同互动,并强制梯度正交以消除偏见更新,从而从效果方面,即捷径偏见,减轻语言偏见。此外,DLR旨在为个别损失分配自适应权重,以确保在所有答案类别中实现平衡学习,有效地从原因方面,即数据集内的不平衡偏见,减轻语言偏见。在多个传统和偏见敏感的基准测试中进行的大量实验一致表明,CEDO在稳健性方面优于最先进的竞争对手。 |
[57] 反馈驱动的多立体视觉系统用于实时事件分析 标题: Feedback Driven Multi Stereo Vision System for Real-Time Event Analysis 作者: Mohamed Benkedadra / Matei Mancas / Sidi Ahmed Mahmoudi 原文: [英文] [中文] 备注: None 摘要: 2D 相机常用于交互系统。其他系统,如游戏机,提供更强大的3D相机用于短距离深度感知。然而,总体而言,这些相机在大型复杂环境中并不可靠。在这项工作中,我们提出了一种基于3D立体视觉的交互系统管道,能够通过稳健的场景理解处理普通和敏感应用。我们探索了多台3D相机的融合以实现完整的场景重建,从而能够执行广泛的任务,如事件识别、目标跟踪和通知。通过可能的反馈方法,系统可以从环境中的主体接收数据,以学习做出更好的决策,或适应全新的环境。在整篇论文中,我们介绍了该管道并解释了我们的初步实验和结果。最后,我们为将该管道投入生产所需采取的下一步行动绘制了路线图。 |
[58] PlanMoGPT:流增强渐进规划用于文本到动作合成 标题: PlanMoGPT: Flow-Enhanced Progressive Planning for Text to Motion Synthesis 作者: Chuhao Jin / Haosen Li / Bingzi Zhang / Che Liu / Xiting Wang / Ruihua Song / Wenbing Huang / Ying Qin / Fuzheng Zhang / Di Zhang 原文: [英文] [中文] 备注: 14 pages, 7 figures 摘要: 最近在大型语言模型(LLMs)方面的进展使得许多多模态生成任务取得了突破,但在文本到动作生成方面仍存在显著的性能差距,其中基于LLM的方法远远落后于非LLM方法。我们识别出动作标记的粒度是一个关键瓶颈:细粒度标记导致局部依赖问题,LLMs过分强调短期连贯性而牺牲了全局语义对齐,而粗粒度标记则牺牲了动作细节。为了解决这个问题,我们提出了PlanMoGPT,这是一种基于LLM的框架,结合了渐进式规划和流增强的细粒度动作标记。首先,我们的渐进式规划机制利用LLMs的自回归能力,通过从稀疏的全局计划开始并逐步将其细化为完整序列来分层生成动作标记。其次,我们的流增强标记器将下采样分辨率加倍,并将码本大小扩大八倍,最大限度地减少离散化过程中的细节损失,同时流增强解码器恢复动作细微差别。在文本到动作基准上的大量实验表明,它实现了最先进的性能,在长序列生成中将FID分数提高了63.8%(从0.380提高到0.141),同时相比现有方法增强了49.9%的动作多样性。所提出的框架成功解决了困扰当前非LLM方法的多样性-质量权衡问题,为文本到动作生成建立了新的标准。 |
[59] IDAL:用于自然图像数据集的改进域自适应学习 标题: IDAL: Improved Domain Adaptive Learning for Natural Images Dataset 作者: Ravi Kant Gupta / Shounak Das / Amit Sethi 原文: [英文] [中文] 备注: Accepted in ICPR'24 (International Conference on Pattern Recognition) 摘要: 我们提出了一种用于自然图像的无监督领域自适应(UDA)的新方法。UDA方案常用的目标是即使在输入空间存在领域偏移的情况下,也能增强表示空间中的领域对齐。现有的对抗性领域自适应方法可能无法有效对齐与分类问题相关的多模态分布的不同领域。我们的方法有两个主要特点。首先,其神经架构利用了ResNet的深层结构和特征金字塔网络(FPN)的有效尺度分离,以处理内容和风格特征。其次,它结合了一种新颖的损失函数和精心选择的现有损失函数来训练网络架构。这种量身定制的组合旨在解决自然图像中固有的挑战,例如在多模态(多类别)分布之上的尺度、噪声和风格变化。组合损失函数不仅提高了目标领域的模型准确性和鲁棒性,还加快了训练收敛速度。我们提出的UDA方案在Office-Home、Office-31和VisDA-2017数据集上比基于CNN的方法的最新技术具有更好的泛化能力,并且在DomainNet数据集上具有可比性。 |
[60] GEMeX-ThinkVG:通过强化学习在医学视觉问答中实现带有视觉基础的思考 标题: GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning 作者: Bo Liu / Xiangyu Zhao / Along He / Yidi Chen / Huazhu Fu / Xiao-Ming Wu 原文: [英文] [中文] 备注: Work in Progress 摘要: 医学视觉问答旨在通过使模型能够根据医学图像回答自然语言问题来支持临床决策。虽然多模态学习的最新进展显著提高了性能,但当前的方法仍然存在答案可靠性有限和可解释性差的问题,影响了临床医生和患者理解和信任模型生成答案的能力。为了解决这个问题,本研究首先提出了一个名为“视觉基础思考”(ThinkVG)的数据集,其中答案生成被分解为中间推理步骤,这些步骤明确地定位医学图像的相关视觉区域,从而提供细粒度的可解释性。此外,我们引入了一种新的可验证奖励机制用于强化学习,以指导后期训练,改善模型的推理过程与最终答案之间的对齐。值得注意的是,我们的方法仅使用八分之一的训练数据就实现了可比的性能,展示了该提案的效率和有效性。数据集可通过此URL获取。 |
[61] SegChange-R1:通过大型语言模型增强遥感变化检测的推理能力 标题: SegChange-R1:Augmented Reasoning for Remote Sensing Change Detection via Large Language Models 作者: Fei Zhou 原文: [英文] 备注: None 摘要: 遥感变化检测广泛应用于城市规划、地形和地貌分析以及环境监测等多个领域,主要通过分析同一空间区域在不同时间阶段的特征(例如建筑变化)的显著变化差异。在本文中,我们提出了一种大型语言模型(LLM)增强推理方法(SegChange-R1),通过整合文本描述信息来增强检测能力,旨在引导模型分割更感兴趣的变化区域,从而加速收敛速度。此外,我们设计了一个基于线性注意力的空间变换模块(BEV),通过将来自不同时间视角的特征统一到BEV空间上,解决了变化检测中的模态不对齐问题。此外,我们构建了首个从无人机视角进行建筑变化检测的数据集(DVCD),我们的实验在四个广泛使用的变化检测数据集上显示出相较于现有方法的显著改进。代码和预训练模型可在此https URL获取。 |
[62] 使用卷积神经网络对街头集市中的帐篷进行分类 标题: Classification of Tents in Street Bazaars Using CNN 作者: Azamat Ibragimov / Ruslan Isaev / Remudin Reshid Mekuria / Gulnaz Gimaletdinova / Dim Shaiakhmetov 原文: [英文] [中文] 备注: None 摘要: 本研究论文提出了一种改进的深度学习模型,用于在街头集市中对帐篷进行分类,并比较了自定义卷积神经网络(CNN)与EfficientNetB0。这是市场组织中帐篷分类的关键任务,但过去的手动方法效率低下。街头集市在许多地区是重要的经济中心,但其无序的特性对市场基础设施(如帐篷)的自动分类构成了重大挑战。在吉尔吉斯斯坦,超过四分之一的国内生产总值来自集市。虽然CNN已广泛应用于物体识别,但其在集市特定任务中的应用仍未得到充分探索。在此,我们通过对126张原始照片进行扩展训练,并通过数据增强生成额外图像,改进了我们原有的方法。该数据集可在Kaggle上公开下载。我们使用多种性能指标,如准确率、精确率、召回率、F1分数和平均精度均值(mAP),对模型进行比较评估,从而提供更全面的分类性能分析。 结果显示,自定义CNN模型达到了92.8%的准确率,而EfficientNetB0则显示出98.4%的准确率结果,证实了迁移学习在集市图像分类中的有效性。此外,通过分析混淆矩阵,分析揭示了每个模型的优缺点。这些发现表明,使用诸如EfficientNetB0这样的预训练模型可以显著提高分类准确性和泛化能力。 |
[63] 用于曼图皮肤试验的移动图像分析应用 标题: Mobile Image Analysis Application for Mantoux Skin Test 作者: Liong Gele / Tan Chye Cheah 原文: [英文] 备注: None 摘要: 本文介绍了一款新开发的移动应用程序,该应用程序旨在通过曼图皮肤试验(TST)诊断潜伏性结核感染(LTBI)。传统的TST方法通常存在随访回访率低、患者不适和手动解释主观性的问题,尤其是使用圆珠笔法时,容易导致误诊和治疗延误。此外,之前开发的使用3D重建的移动应用程序,本应用程序使用比例贴纸作为硬结测量的参考对象。该移动应用程序集成了先进的图像处理技术,包括ARCore,以及机器学习算法如DeepLabv3,用于鲁棒的图像分割和精确测量指示LTBI的皮肤硬结。系统采用边缘检测算法以提高准确性。该应用程序与标准临床实践进行了对比评估,显示出在准确性和可靠性方面的显著改进。这一创新对于有效的结核病管理至关重要,尤其是在资源有限的地区。通过自动化和标准化TST评估,该应用程序提高了结核病诊断的可及性和效率。未来的工作将集中于改进机器学习模型,优化测量算法,扩展功能以包括全面的患者数据管理,并增强ARCore在各种光照条件和操作环境下的性能。 |
[64] ELMAR:通过4D雷达运动感知和跨模态不确定性增强激光雷达检测 标题: ELMAR: Enhancing LiDAR Detection with 4D Radar Motion Awareness and Cross-modal Uncertainty 作者: Xiangyuan Peng / Miao Tang / Huawei Sun / Bierzynski Kay / Lorenzo Servadei / Robert Wille 原文: [英文] [中文] 备注: 7 pages. Accepted by IROS2025 摘要: LiDAR和4D雷达在自动驾驶和机器人领域被广泛使用。虽然LiDAR提供了丰富的空间信息,4D雷达则提供速度测量并在不利条件下保持稳健。因此,越来越多的研究集中在4D雷达-LiDAR融合方法上以增强感知。然而,不同模态之间的错位常常被忽视。为了解决这一挑战并利用两种模态的优势,我们提出了一种通过4D雷达运动状态和跨模态不确定性增强的LiDAR检测框架。首先,在特征提取过程中使用动态运动感知编码模块捕获4D雷达的物体运动信息,以增强4D雷达预测。随后,估计边界框的实例不确定性,以减轻跨模态错位并优化最终的LiDAR预测。在View-of-Delft (VoD)数据集上的大量实验突出了我们方法的有效性,在整个区域内实现了74.89%的mAP,在驾驶走廊内实现了88.70%的mAP,同时保持了30.02 FPS的实时推理速度。 |
[65] BPCLIP:基于CLIP的从失真到语义的自下而上的图像质量评估 标题: BPCLIP: A Bottom-up Image Quality Assessment from Distortion to Semantics Based on CLIP 作者: Chenyue Song / Chen Hui / Wei Zhang / Haiqi Zhu / Shaohui Liu / Hong Huang / Feng Jiang 原文: [英文] [中文] 备注: Accepted to ICME 2025 摘要: 图像质量评估(IQA)旨在根据人类的主观感知来评估图像的感知质量。现有的方法通常结合多尺度特征以实现高性能,但大多数依赖于这些特征的简单线性融合,这可能无法充分捕捉失真对语义内容的影响。为了解决这个问题,我们提出了一种基于对比语言-图像预训练(CLIP,一种最近提出的在共享特征空间中对齐图像和文本的模型)的自下而上的图像质量评估方法,称为BPCLIP,该方法逐步提取低级失真对高级语义的影响。具体来说,我们利用编码器从输入图像中提取多尺度特征,并引入一个自下而上的多尺度交叉注意力模块,旨在捕捉浅层和深层特征之间的关系。此外,通过结合六个不同维度的40个图像质量形容词,我们使预训练的CLIP文本编码器能够生成图像内在质量的表示,从而加强图像质量感知与人类语言之间的联系。我们的方法在大多数公共全参考(FR)和无参考(NR)IQA基准上取得了优异的结果,同时表现出更强的鲁棒性。 |
[66] 使用多样性感知扩散模型实现PSO安全的合成数据共享 标题: Enabling PSO-Secure Synthetic Data Sharing Using Diversity-Aware Diffusion Models 作者: Mischa Dombrowski / Bernhard Kainz 原文: [英文] [中文] 备注: None 摘要: 合成数据最近在视觉逼真度方面达到了几乎与真实数据无法区分的水平,为医学影像中的隐私保护数据共享提供了巨大潜力。然而,完全合成的数据集仍然存在显著的局限性:首先,合成数据共享的法律方面常常被忽视,数据法规(如GDPR)在很大程度上被忽略。其次,即使在领域内的下游应用中,合成模型的性能也无法与真实数据相媲美。最近的图像生成方法专注于最大化图像多样性,而不仅仅是逼真度,以改善模式覆盖率,从而提高合成数据的下游性能。在这项工作中,我们转换视角,强调最大化多样性也可以被解释为保护自然人不被单独识别,这导致了谓词单独识别(PSO)安全的合成数据集。具体来说,我们提出了一个可推广的框架,用于在个人数据上训练扩散模型,从而生成非个人化的合成数据集,其性能与真实数据模型相差不到一个百分点,同时显著优于不确保隐私的最新方法。我们的代码可在此https URL获取。 |
[67] 快速神经逆向运动学在人体动作上的应用 标题: Fast Neural Inverse Kinematics on Human Body Motions 作者: David Tolpin / Sefy Kagarlitsky 原文: [英文] [中文] 备注: Work in progress 摘要: 无标记动作捕捉技术能够在不需要物理标记或服装的情况下跟踪人体动作,与传统系统相比,提供了更大的灵活性和降低了成本。然而,这些优势通常以更高的计算需求和较慢的推理速度为代价,限制了其在实时场景中的应用。在这份技术报告中,我们提出了一种快速且可靠的神经逆运动学框架,旨在从3D关键点实时捕捉人体动作。我们详细描述了网络架构、训练方法和推理过程。我们的框架通过定性和定量评估,并通过消融研究支持关键设计决策。 |
[68] OSDMamba:利用选择性状态空间模型增强遥感图像中的溢油检测 标题: OSDMamba: Enhancing Oil Spill Detection from Remote Sensing Images Using Selective State Space Model 作者: Shuaiyu Chen / Fu Wang / Peng Ren / Chunbo Luo / Zeyu Fu 原文: [英文] [中文] 备注: None 摘要: 语义分割通常用于遥感图像中的油污检测(OSD)。然而,标记油污样本的有限性和类别不平衡带来了显著挑战,可能降低检测准确性。此外,大多数现有方法依赖于卷积神经网络(CNN),由于其有限的感受野和无法有效捕获全局上下文信息,难以检测小型油污区域。本研究探讨了状态空间模型(SSM),特别是Mamba,在视觉应用中取得的最新成功,以克服这些限制。我们提出了OSDMamba,这是首个专门为油污检测设计的基于Mamba的架构。OSDMamba利用Mamba的选择性扫描机制,有效扩展模型的感受野,同时保留关键细节。此外,我们设计了一个不对称解码器,结合ConvSSM和深度监督,以加强多尺度特征融合,从而提高模型对少数类样本的敏感性。实验结果表明,所提出的OSDMamba在两个公开数据集上实现了最先进的性能,在OSD方面分别提高了8.9%和11.8%。 |
[69] 关于人-物体交互检测在分布偏移下的鲁棒性 标题: On the Robustness of Human-Object Interaction Detection against Distribution Shift 作者: Chi Xie / Shuang Liang / Jie Li / Feng Zhu / Rui Zhao / Yichen Wei / Shengjie Zhao 原文: [英文] [中文] 备注: This work has been submitted to the IEEE for possible publication 摘要: 人物-物体交互(HOI)检测在近年来取得了显著进展。然而,现有的研究主要集中在理想图像和自然分布的标准设置上,这与实际场景中不可避免的分布变化相去甚远。这限制了HOI检测的实际应用性。在这项工作中,我们通过基准测试、分析和增强HOI检测模型在各种分布变化下的鲁棒性来研究这个问题。我们首先提出了一种新颖的自动化方法,创建了第一个用于HOI检测的鲁棒性评估基准。随后,我们在这个基准上评估了40多个现有的HOI检测模型,展示了它们的不足之处,分析了不同框架的特征,并讨论了HOI的鲁棒性与其他任务的不同之处。基于这些分析的见解,我们提出通过以下方法来提高HOI检测方法的鲁棒性:(1)结合mixup的跨域数据增强,以及(2)与冻结的视觉基础模型相结合的特征融合策略。这两种方法都简单、即插即用,并适用于各种方法。我们的实验结果表明,所提出的方法显著提高了各种方法的鲁棒性,并且在标准基准上也有益处。数据集和代码将会发布。 |
[70] PP-DocBee2:通过高效数据改进多模态文档理解的基线 标题: PP-DocBee2: Improved Baselines with Efficient Data for Multimodal Document Understanding 作者: Kui Huang / Xinrong Chen / Wenyu Lv / Jincheng Liao / Guanzhong Wang / Yi Liu 原文: [英文] [中文] 备注: None 摘要: 本报告介绍了PP-DocBee2,这是PP-DocBee的高级版本,旨在增强多模态文档理解。PP-DocBee2基于大型多模态模型架构,通过关键技术改进解决了其前身的局限性,包括增强的合成数据质量、改进的视觉特征融合策略和优化的推理方法。这些改进使得在中文商业文档的内部基准测试中性能提升了11.4%,并将推理延迟减少了73.0%(相对于基础版本)。我们工作的一个关键创新是针对多模态文档任务的数据质量优化策略。通过使用大规模多模态预训练模型来评估数据,我们应用了一种新颖的统计标准来过滤异常值,确保高质量的训练数据。受对多模态模型中未充分利用的中间特征的洞察启发,我们通过将ViT分解为层并应用新颖的特征融合策略来增强其表示能力,以改善复杂推理。源代码和预训练模型可在\href{this https URL}{this https URL}获取。 |
[71] MiCo:用于全切片图像分析的具有上下文感知聚类的多实例学习 标题: MiCo: Multiple Instance Learning with Context-Aware Clustering for Whole Slide Image Analysis 作者: Junjian Li / Hulin Kuang / Jin Liu / Hailin Yue / Mengshen He / Jianxin Wang 原文: [英文] [中文] 备注: MICCAI 2025 摘要: 多实例学习(MIL)在癌症诊断和预后方面的组织病理学全片图像(WSI)分析中显示出显著的前景。然而,WSI固有的空间异质性带来了关键挑战,因为形态相似的组织类型通常分布在遥远的解剖区域。传统的MIL方法难以有效地建模这些分散的组织分布并捕捉跨区域的空间交互。为了解决这些限制,我们提出了一种新的具有上下文感知聚类的多实例学习框架(MiCo),旨在增强WSI中跨区域的组织内相关性并加强组织间的语义关联。MiCo首先通过聚类实例来提炼辨别性形态模式,聚类中心作为语义锚点。为了增强跨区域的组织内相关性,MiCo采用了一个聚类路径模块,通过特征相似性动态链接跨越遥远区域的同一组织类型的实例。这些语义锚点充当上下文枢纽,传播语义关系以优化实例级表示。为了消除语义碎片化并加强组织间的语义关联,MiCo集成了一个聚类简化模块,该模块在增强不同语义组之间的信息交换的同时整合冗余锚点。在九个大型公共癌症数据集上的两个具有挑战性的任务中进行的广泛实验展示了MiCo的有效性,显示了其优于最先进方法的优势。代码可在此https URL获取。 |
[72] 预训练的大型语言模型是一个语义感知且具有广泛适应性的分割增强器 标题: Pre-Trained LLM is a Semantic-Aware and Generalizable Segmentation Booster 作者: Fenghe Tang / Wenxin Ma / Zhiyang He / Xiaodong Tao / Zihang Jiang / S. Kevin Zhou 原文: [英文] [中文] 备注: Accepted by MICCAI 2025. Code: this https URL 摘要: 随着大型语言模型(LLM)在自然语言处理领域的进步,本文提出了一个有趣的发现:一个冻结的预训练LLM层可以处理用于医学图像分割任务的视觉标记。具体来说,我们提出了一种简单的混合结构,将预训练的、冻结的LLM层集成到CNN编码器-解码器分割框架中(LLM4Seg)。令人惊讶的是,这种设计在各种模态(包括超声、皮肤镜检查、息肉镜检查和CT扫描)中,以最小的可训练参数增加提升了分割性能。我们的深入分析揭示了转移LLM语义意识以增强分割任务的潜力,提供了更好的全局理解和更好的局部建模能力。这种改进在不同的LLM中表现出稳健性,并通过LLaMA和DeepSeek进行了验证。 |
[73] CmFNet: 用于医学图像弱监督分割的跨模态融合网络 标题: CmFNet: Cross-modal Fusion Network for Weakly-supervised Segmentation of Medical Images 作者: Dongdong Meng / Sheng Li / Hao Wu / Suqing Tian / Wenjun Ma / Guoping Wang / Xueqing Yan 原文: [英文] [中文] 备注: 10 pages, 6 figures 摘要: 准确的自动医学图像分割依赖于高质量、密集的标注,而这些标注的获取既昂贵又耗时。弱监督学习通过利用稀疏和粗略的标注提供了一种更高效的替代方案,而不是依赖密集、精确的标注。然而,由于稀疏标注导致的分割性能下降和过拟合仍然是关键挑战。为了解决这些问题,我们提出了CmFNet,一种新颖的3D弱监督跨模态医学图像分割方法。CmFNet由三个主要组件组成:模态特定特征学习网络、跨模态特征学习网络和混合监督学习策略。具体来说,模态特定特征学习网络和跨模态特征学习网络有效整合来自多模态图像的互补信息,增强跨模态的共享特征以提高分割性能。此外,混合监督学习策略通过涂鸦监督、模态内正则化和模态间一致性来指导分割,建模空间和上下文关系,同时促进特征对齐。我们的方法有效地减轻了过拟合,提供了稳健的分割结果。它在分割具有挑战性的小肿瘤区域和常见的解剖结构方面表现出色。在临床跨模态鼻咽癌(NPC)数据集(包括CT和MR成像)和公开可用的CT全腹部器官数据集(WORD)上的大量实验表明,我们的方法优于最先进的弱监督方法。此外,当使用完整标注时,我们的方法也优于全监督方法。我们的方法可以促进临床治疗,并惠及包括物理学家、放射科医生、病理学家和肿瘤学家在内的各类专家。 |
[74] CLGRPO:小型视觉语言模型的推理能力增强 标题: CLGRPO: Reasoning Ability Enhancement for Small VLMs 作者: Fanyi Wang / Binzhi Dong / Haotian Hu / Jinjin Xu / Zhiwang Zhang 原文: [英文] [中文] 备注: 11 pages, 5 figures 摘要: 小型视觉语言模型(SVLMs)通常指参数规模小于或等于20亿的模型。它们的低成本和低能耗特性赋予了其较高的商业价值。然而,其推理能力受到参数数量的限制。为了解决这个问题,本文提出了一种称为增量训练策略的后训练优化范式,以增强SVLMs的推理能力。首先,我们构建了一个自监督思维链(COT)数据构建系统,该系统利用多个参数规模为70亿或以上的LVLMs,以自监督的方式将原始数据转换为COT数据。我们提出的增量训练策略包括四个阶段。第一阶段通过在COT数据上对预训练模型进行监督微调(SFT),注入领域知识。第二阶段通过在COT数据上进行少量的群体相对策略优化(GRPO)训练,仅受格式奖励约束,来对齐COT数据格式。第三阶段通过在COT数据上应用GRPO训练,并对格式和准确性奖励进行约束,来增强推理能力。与基线相比,所得模型显示出显著的改进。第四阶段通过提出ClipLow GRPO(CLGRPO)来约束训练过程的捕获空间,以解决SVLMs的容量有限和捕获复杂模式能力较弱的问题。我们在抽象语义识别数据集EMOSet-118K上进行了广泛的对比和消融实验。实验结果表明,我们的方法显著提高了1B SVLM的推理能力。与在原始数据上微调的基线模型相比,准确率提高了2.77,召回率提高了0.69,达到了与8B模型相当的性能。 |
[75] 基于多视角RGB图像的小麦穗3D形态估计的深度监督LSTM 标题: Deep Supervised LSTM for 3D morphology estimation from Multi-View RGB Images of Wheat Spikes 作者: Olivia Zumsteg / Nico Graf / Aaron Haeusler / Norbert Kirchgessner / Nicola Storni / Lukas Roth / Andreas Hund 原文: [英文] [中文] 备注: 17 pages, 13 figures 摘要: 从二维RGB图像中估计三维形态特征由于深度信息的丢失、投影失真以及田间条件下的遮挡而面临固有挑战。在这项工作中,我们探索了多种方法来对小麦穗进行非破坏性体积估计,使用RGB图像序列和结构光3D扫描作为真实值参考。由于穗的复杂几何形状,我们提出了一种神经网络方法来估计二维图像中的体积,采用了一种结合DINOv2(自监督视觉Transformer)和单向长短期记忆(LSTM)网络的迁移学习流程。通过使用深度监督,该模型能够学习更为稳健的中间表示,从而增强其在不同评估序列中的泛化能力。我们将我们的模型与两个传统基线进行比较:基于二维面积的投影和使用轴对齐横截面的几何重建。我们的深度监督模型在六视图室内图像上实现了6.46%的平均绝对百分比误差(MAPE),优于面积(9.36%)和几何(13.98%)基线。对基于田间的单图像数据进行微调使得领域适应,获得了10.82%的MAPE。我们证明了物体形状显著影响体积预测的准确性,不规则几何形状如小麦穗对几何方法提出了更大的挑战,而我们的深度学习方法则表现更佳。 |
[76] 无需训练的测试时改进用于可解释的医学图像分类 标题: Training-free Test-time Improvement for Explainable Medical Image Classification 作者: Hangzhou He / Jiachen Tang / Lei Zhu / Kaiwen Li / Yanye Lu 原文: [英文] [中文] 备注: This is the initial version of our work accepted by MICCAI 2025. We'll include a link to the version on SpringerLink after this becomes available 摘要: 基于深度学习的医学图像分类技术在医学图像分析中迅速发展,因此开发准确且值得信赖的模型以便在不同临床场景中高效部署变得至关重要。概念瓶颈模型(CBMs)首先从图像中预测一组可解释的概念,然后基于这些概念进行分类,越来越多地被采用用于可解释的医学图像分类。然而,CBMs的固有可解释性在将训练好的模型部署到新环境时引入了新的挑战。成像协议和染色方法的变化可能导致概念层面的转变,例如颜色分布和尺度的变化。此外,由于CBM训练需要明确的概念标注,仅使用图像级标签微调模型可能会损害概念预测的准确性和忠实性——这是一个关键的限制,因为在医学领域获取专家标注的概念标签成本很高。为了解决这些挑战,我们提出了一种无需训练的混淆概念识别策略。通过利用极少的新数据(例如,每个类别4张图像)且仅有图像级标签,我们的方法通过两个关键操作提高了域外性能而不牺牲源域准确性:屏蔽错误激活的混淆概念和放大未充分激活的辨别性概念。我们的方法在皮肤和白细胞图像上验证了其有效性。我们的代码可在此URL获取。 |
[77] MUPA:面向基础视频问答的多路径代理推理 标题: MUPA: Towards Multi-Path Agentic Reasoning for Grounded Video Question Answering 作者: Jisheng Dang / Huilin Song / Junbin Xiao / Bimei Wang / Han Peng / Haoxuan Li / Xun Yang / Meng Wang / Tat-Seng Chua 原文: [英文] [中文] 备注: None 摘要: 视频问答中的视觉证据对齐(Grounded VideoQA)需要将文本答案与明确的视觉证据对齐。然而,现代多模态模型往往依赖于语言先验和虚假的相关性,导致不良的对齐预测。在这项工作中,我们提出了MUPA,一种合作的多路径代理方法,统一了视频对齐、问答、答案反思和聚合,以解决视频问答中的视觉证据对齐问题。MUPA具有三种不同的推理路径,这些路径在不同的时间顺序中结合了对齐和问答代理,并配备了一个专门的反思代理来判断和聚合多路径结果,以实现一致的问答和对齐。这种设计显著提高了对齐的准确性,而不牺牲答案的准确性。尽管只使用了20亿参数,我们的方法在性能上超过了所有70亿规模的竞争对手。当扩展到70亿参数时,MUPA建立了新的最先进的结果,在NExT-GQA和DeVE-QA上的Acc@GQA分别为30.3%和47.4%,展示了MUPA在可信视频语言理解方面的有效性。我们的代码可以在这个https URL中获得。 |
[78] TEM^3-Learning:用于高级辅助驾驶的时间高效多模态多任务学习 标题: TEM^3-Learning: Time-Efficient Multimodal Multi-Task Learning for Advanced Assistive Driving 作者: Wenzhuo Liu / Yicheng Qiao / Zhen Wang / Qiannan Guo / Zilong Chen / Meihua Zhou / Xinran Li / Letian Wang / Zhiwei Li / Huaping Liu / Wenshuo Wang 原文: [英文] [中文] 备注: None 摘要: 多任务学习(MTL)可以通过共享表示探索任务间的相关性,从而推进辅助驾驶。然而,现有方法面临两个关键限制:单一模态限制了对场景的全面理解,低效的架构阻碍了实时部署。本文提出了TEM^3-Learning(时间高效的多模态多任务学习),这是一种新颖的框架,通过两阶段架构联合优化驾驶员情绪识别、驾驶员行为识别、交通环境识别和车辆行为识别。第一个组件是基于mamba的多视角时空特征提取子网络(MTS-Mamba),引入了前向-后向时间扫描机制和全局-局部空间注意力,以高效地从多视角序列图像中提取低成本的时空特征。第二个组件是基于MTL的门控多模态特征整合器(MGMI),采用任务特定的多门控模块,自适应地突出每个任务最相关的模态特征,有效缓解了MTL中的负迁移问题。在AIDE数据集上的评估中,我们提出的模型在所有四个任务中均达到了最先进的准确性,保持了少于600万参数的轻量级架构,并提供了令人印象深刻的142.32 FPS推理速度。严格的消融研究进一步验证了所提出框架的有效性以及每个模块的独立贡献。代码可在此https URL上获取。 |
[79] ShareGPT-4o-Image:通过GPT-4o级别的图像生成对齐多模态模型 标题: ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation 作者: Junying Chen / Zhenyang Cai / Pengcheng Chen / Shunian Chen / Ke Ji / Xidong Wang / Yunjin Yang / Benyou Wang 原文: [英文] [中文] 备注: None 摘要: 最近在多模态生成模型方面的进展解锁了逼真的、与指令对齐的图像生成,但像GPT-4o-Image这样的领先系统仍然是专有的且无法访问。为了普及这些能力,我们推出了ShareGPT-4o-Image,这是首个包含45K文本到图像和46K文本与图像到图像数据的数据集,所有数据均使用GPT-4o的图像生成能力合成,以提炼其先进的图像生成能力。利用这个数据集,我们开发了Janus-4o,一个能够进行文本到图像和文本与图像到图像生成的多模态大型语言模型。Janus-4o不仅显著改善了其前身Janus-Pro的文本到图像生成能力,还新增了文本与图像到图像生成的支持。值得注意的是,它在文本与图像到图像生成方面取得了令人印象深刻的表现,仅使用91K合成样本和在8台A800-GPU机器上进行6小时的训练。我们希望ShareGPT-4o-Image和Janus-4o的发布能够促进逼真、与指令对齐的图像生成的开放研究。 |
[80] 增强VICReg:通过随机游走配对提升泛化能力和更好地捕捉全局语义 标题: Enhancing VICReg: Random-Walk Pairing for Improved Generalization and Better Global Semantics Capturing 作者: Idan Simai / Ronen Talmon / Uri Shaham 原文: [英文] [中文] 备注: None 摘要: 在本文中,我们认为通过谱嵌入的视角来看待VICReg——一种流行的自监督学习(SSL)方法——揭示了一个潜在的次优来源:它可能由于过度依赖训练数据而难以稳健地泛化到未见过的数据。这一观察促使我们更仔细地审视该方法在生成训练集之外的图像的有意义表示方面的表现。在此,我们调查了这个问题,并引入了SAG-VICReg(稳定且可泛化的VICReg),一种通过结合新的训练技术来改进VICReg的方法。这些增强措施提高了模型捕捉数据全局语义的能力,并加强了泛化能力。实验表明,SAG-VICReg有效地解决了泛化挑战,同时匹配或超越了多种最先进的SSL基准。值得注意的是,我们的方法在评估全局语义理解的指标上表现出色,同时在局部评估指标上保持竞争力。此外,我们提出了一种新的独立评估指标,用于补充标准评估方法的嵌入,并考虑全局数据结构而无需标签——这是在标记数据稀缺或不可用时的关键问题。 |
[81] 通过检测器引导的对抗扩散攻击者进行有针对性的误报合成以实现稳健的息肉检测 标题: Targeted False Positive Synthesis via Detector-guided Adversarial Diffusion Attacker for Robust Polyp Detection 作者: Quan Zhou / Gan Luo / Qiang Hu / Qingyong Zhang / Jinhua Zhang / Yinjiao Tian / Qiang Li / Zhiwei Wang 原文: [英文] [中文] 备注: Early Accepted by MICCAI 2025 摘要: 息肉检测对于结直肠癌筛查至关重要,但现有模型受限于可用数据的规模和多样性。尽管生成模型在数据增强方面显示出潜力,但当前方法主要集中在增强息肉的多样性,往往忽视了误报这一关键问题。在本文中,我们通过提出一种对抗扩散框架来合成高价值的误报,填补了这一空白。负背景的广泛变异性在误报合成中构成了重大挑战。为了解决这个问题,我们引入了两个关键创新:首先,我们设计了一种区域噪声匹配策略,利用息肉检测数据集构建一个负合成空间。该策略通过遮蔽息肉区域来训练一个以负样本为中心的扩散模型,确保模型专注于学习多样的背景模式。其次,我们引入了检测器引导的对抗扩散攻击者(DADA)模块,该模块扰乱负合成过程以干扰预训练检测器的决策,引导以负样本为中心的扩散模型生成高价值、令检测器困惑的误报,而不是低价值的普通背景。我们的方法首次将对抗扩散应用于病变检测,建立了一个针对性误报合成的新范式,为结直肠癌筛查中更可靠的临床应用铺平了道路。在公共和内部数据集上的广泛结果验证了我们方法相对于当前最先进技术的优越性,我们合成的数据使检测器的F1分数分别比基线提高了至少2.6%和2.7%。代码可在此https URL获取。 |
[82] 成对观察:用于医学诊断的参考图像引导比较视觉语言模型 标题: See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis 作者: Ruinan Jin / Gexin Huang / Xinwei Shen / Qiong Zhang / Yan Shuo Tan / Xiaoxiao Li 原文: [英文] [中文] 备注: 25 pages, four figures 摘要: 医学影像诊断由于疾病可能模仿正常解剖结构并表现出显著的患者间差异,因而具有内在的挑战性。临床医生常常使用比较推理——利用健康对照组的参考图像或患者先前的检查结果——来识别细微但对诊断至关重要的异常。然而,现有的医学视觉语言模型(VLMs)主要关注单一图像或单一序列的分析,缺乏明确的比较推理机制。相反,通用VLMs展示了强大的多图像比较推理能力,但缺乏识别细微临床差异的必要医学领域知识。本研究旨在通过在VLMs中探索临床启发的比较分析,利用参考图像来提高诊断准确性,从而弥合这一差距。通过广泛的实证分析,我们表明,与单一图像基线相比,为通用VLMs提供查询和规范匹配的参考图像,并辅以临床知情的比较提示,显著提高了诊断结果,尤其是在经过监督微调(SFT)之后。我们的贡献强调了比较分析的临床相关性,介绍了在VLMs中利用参考图像的新策略,实证展示了在多个医学视觉问答(VQA)任务中性能的提升,并提供了关于医学诊断中比较图像分析有效性的理论见解。 |
[83] 基于模式的示踪粒子和分散相粒子在两相散焦粒子跟踪测速中的相分离 标题: Pattern-Based Phase-Separation of Tracer and Dispersed Phase Particles in Two-Phase Defocusing Particle Tracking Velocimetry 作者: Christian Sax / Jochen Kriegseis 原文: [英文] [中文] 备注: None 摘要: 本研究探讨了一种基于后处理的方法在散射两相流的离焦粒子追踪测速中的相分离可行性。该方法能够在单摄像机设置下同时确定示踪粒子和分散相粒子的三维位置。相位的区分基于离焦粒子图像中的模式差异,这些差异源于示踪粒子与气泡或液滴的不同光散射行为。卷积神经网络,包括Faster R-CNN和YOLOv4变体,被训练用于基于这些模式特征检测和分类粒子图像。为了生成大型标记训练数据集,引入了一种基于生成对抗网络的框架,允许生成更接近实验特定视觉外观的自动标记数据。在六个数据集上进行的评估,包括合成的两相流和真实的单相及两相流,显示出高检测精度和分类准确性(95-100%),即使在领域转移的情况下也是如此。结果证实了使用卷积神经网络在分散两相DPTV中进行稳健相分离的可行性,特别是在传统的基于波长、尺寸或集合相关性的方法不切实际的情况下。 |
[84] CDG-MAE:从扩散生成视图中学习对应关系 标题: CDG-MAE: Learning Correspondences from Diffusion Generated Views 作者: Varun Belagali / Pierre Marza / Srikar Yellapragada / Zilinghan Li / Tarak Nath Nandi / Ravi K Madduri / Joel Saltz / Stergios Christodoulidis / Maria Vakalopoulou / Dimitris Samaras 原文: [英文] [中文] 备注: None 摘要: 学习密集对应关系对于视频标签传播等应用至关重要,但繁琐且不可扩展的手动标注阻碍了这一过程。自监督方法通过使用跨视图的预训练任务来解决这个问题,通常使用掩码自动编码器进行建模,其中从一个锚点视图重建一个被掩盖的目标视图。然而,获取有效的训练数据仍然是一个挑战——收集多样化的视频数据集既困难又昂贵,而简单的图像裁剪缺乏必要的姿态变化。本文介绍了CDG-MAE,这是一种新颖的基于MAE的自监督方法,它通过图像条件扩散模型从静态图像生成多样化的合成视图。这些生成的视图在姿态和视角上表现出显著变化,提供了丰富的训练信号,克服了基于视频和裁剪的锚点的局限性。我们提出了一种定量方法来评估生成图像的局部和全局一致性,并讨论了它们在跨视图自监督预训练中的应用。此外,我们将标准的单锚点MAE设置增强为多锚点策略,以有效调节预训练任务的难度。CDG-MAE显著优于仅依赖图像的最先进MAE方法,并大大缩小了与基于视频的方法的性能差距。 |
[85] STACT-Time:用于甲状腺超声时间序列分类的时空交叉注意力 标题: STACT-Time: Spatio-Temporal Cross Attention for Cine Thyroid Ultrasound Time Series Classification 作者: Irsyad Adam / Tengyue Zhang / Shrayes Raman / Zhuyu Qiu / Brandon Taraku / Hexiang Feng / Sile Wang / Ashwath Radhachandran / Shreeram Athreya / Vedrana Ivezic / Peipei Ping / Corey Arnold / William Speier 原文: [英文] [中文] 备注: None 摘要: 甲状腺癌是美国最常见的癌症之一。甲状腺结节通常通过超声(US)成像检测到,其中一些需要通过细针穿刺(FNA)活检进行进一步评估。尽管FNA有效,但它常常导致对良性结节的不必要活检,给患者带来不适和焦虑。为了解决这个问题,美国放射学会开发了甲状腺影像报告和数据系统(TI-RADS),以减少良性活检。然而,这些系统受到观察者间差异的限制。最近的深度学习方法试图改善风险分层,但它们往往未能利用US动态剪辑提供的丰富时间和空间背景信息,这些剪辑包含不同视图下的动态全局信息和周围结构变化。在这项工作中,我们提出了用于动态甲状腺超声时间序列分类的时空交叉注意力(STACT-Time)模型,这是一种新颖的表示学习框架,将US动态剪辑的成像特征与由预训练模型自动生成的分割掩码特征相结合。通过利用自注意力和交叉注意力机制,我们的模型捕捉到US动态剪辑的丰富时间和空间背景,同时通过分割引导学习增强特征表示。与最先进的模型相比,我们的模型在恶性预测方面有所提高,交叉验证精度达到0.91(正负0.02),F1得分为0.89(正负0.02)。通过减少良性结节的不必要活检,同时保持对恶性检测的高敏感性,我们的模型有潜力增强临床决策并改善患者结果。 |
[86] DExNet:结合领域适应评论者的观察以在有限数据下进行叶片疾病分类 标题: DExNet: Combining Observations of Domain Adapted Critics for Leaf Disease Classification with Limited Data 作者: Sabbir Ahmed / Md. Bakhtiar Hasan / Tasnim Ahmed / Md. Hasanul Kabir 原文: [英文] [中文] 备注: Submitted to ACPR Springer, 15 pages, 1 Figure, 7 Tables, and lots of efforts :) 摘要: 尽管基于深度学习的架构已被广泛用于正确检测和分类植物疾病,但它们需要大规模的数据集来学习广义特征并实现最先进的性能。这对在样本有限的情况下对叶片疾病进行分类的模型提出了挑战。本文提出了一种用于植物疾病分类的小样本学习框架,称为领域适应专家网络(DExNet),通过结合多个专家评论的观察来弥补训练数据不足的问题。该方法首先从九个最先进的预训练基于CNN的架构中提取特征嵌入作为“观察”。这些评论者使用一个公开可用的叶片疾病数据集进行“领域适应”,该数据集与特定的下游任务没有重叠的类别。然后将这些观察传递给“特征融合块”,最终传递给由Bi-LSTM层组成的分类器网络。该方法在PlantVillage数据集的10个番茄叶片图像类别上进行了评估,在5-shot、10-shot和15-shot分类中分别实现了89.06%、92.46%和94.07%的可观准确率。此外,在80-shot分类中实现了98.09±0.7%的准确率,仅比最先进的方法低1.2%,从而减少了94.5%的训练数据需求。所提出的流程在单域、混合域和跨域场景中,在实验室和现实条件下的有限数据叶片疾病分类中也优于现有工作。 |
[87] 具有傅里叶注意力的多模态融合SLAM 标题: Multimodal Fusion SLAM with Fourier Attention 作者: Youjie Zhou / Guofeng Mei / Yiming Wang / Yi Wan / Fabio Poiesi 原文: [英文] [中文] 备注: None 摘要: 视觉SLAM在受噪声、光照条件变化和黑暗影响的环境中尤其具有挑战性。基于学习的光流算法可以利用多种模态来应对这些挑战,但传统的基于光流的视觉SLAM方法通常需要大量的计算资源。为了解决这一限制,我们提出了FMF-SLAM,一种高效的多模态融合SLAM方法,该方法利用快速傅里叶变换(FFT)来提高算法效率。具体来说,我们引入了一种新颖的基于傅里叶的自注意力和交叉注意力机制,以从RGB和深度信号中提取特征。我们通过在模态之间结合多尺度知识蒸馏,进一步增强了多模态特征的交互。我们还通过将其与安全机器人集成,并与全球定位模块GNSS-RTK和全局捆绑调整融合,展示了FMF-SLAM在实际场景中的实时性能。我们使用来自TUM、TartanAir和我们实际数据集的视频序列验证了我们的方法,在噪声、光照变化和黑暗环境下展示了最先进的性能。代码和数据集可在此网址获取。 |
[88] 使用预训练视觉特征的NERF在少样本3D重建中的局限性 标题: Limitations of NERF with pre-trained Vision Features for Few-Shot 3D Reconstruction 作者: Ankit Sanjyal 原文: [英文] [中文] 备注: 5 pages, 1 table, 2 figures. First submission. Code available at: \url{this https URL} 摘要: 神经辐射场(NeRF)在从稀疏图像集合重建三维场景方面带来了革命性的变化。最近的研究探索了整合预训练的视觉特征,特别是来自DINO的特征,以增强少样本重建能力。然而,这种方法的有效性仍不明确,尤其是在极少样本的情况下。在本文中,我们对DINO增强的NeRF模型进行了系统评估,比较了基线NeRF、冻结的DINO特征、LoRA微调特征和多尺度特征融合。令人惊讶的是,我们的实验表明,所有DINO变体的表现都不如基线NeRF,其PSNR值约为12.9到13.0,而基线的PSNR值为14.71。这个反直觉的结果表明,预训练的视觉特征可能对少样本三维重建没有帮助,甚至可能引入有害的偏差。我们分析了潜在原因,包括特征与任务的不匹配、对有限数据的过拟合以及整合挑战。我们的研究结果挑战了该领域的常见假设,并建议在少样本场景中,专注于几何一致性的简单架构可能更为有效。 |
[89] 基于深度学习的膝关节X光片对齐测量 标题: Deep Learning-based Alignment Measurement in Knee Radiographs 作者: Zhisen Hu / Dominic Cullen / Peter Thompson / David Johnson / Chang Bian / Aleksei Tiulpin / Timothy Cootes / Claudia Lindner 原文: [英文] 备注: Accepted to MICCAI 2025 摘要: 放射学膝关节对齐(KA)测量对于预测关节健康和全膝关节置换术后的手术结果非常重要。传统的KA测量方法是手动的,耗时且需要长腿X光片。本研究提出了一种基于深度学习的方法,通过自动定位膝关节解剖标志来测量前后位膝关节X光片中的KA。我们的方法基于沙漏网络,并结合注意力门结构以增强鲁棒性并专注于关键解剖特征。据我们所知,这是第一个基于深度学习的方法,可以定位超过100个膝关节解剖标志,以完整勾勒膝关节形状,同时在术前和术后图像上整合KA测量。它使用解剖胫股角提供高度准确和可靠的解剖内翻/外翻KA测量,与临床真实测量相比,平均绝对差异约为1°。自动测量与临床测量之间的术前一致性非常好(组内相关系数(ICC)= 0.97),术后一致性良好(ICC = 0.86)。我们的研究结果表明,KA评估可以实现高精度自动化,为数字化增强的临床工作流程创造了机会。 |
[90] 从热辐射和反射的偏振中获取形状 标题: Shape from Polarization of Thermal Emission and Reflection 作者: Kazuma Kitazawa / Tsuyoshi Takatani 原文: [英文] [中文] 备注: ICCP2025 摘要: 由于透明物体复杂的光传输特性,其形状估计具有挑战性。为了规避这些困难,我们利用了长波红外(LWIR)光谱中的偏振形状(SfP)技术,在该光谱中大多数材料是不透明且具有发射性的。虽然之前有少数研究探索过LWIR SfP,但这些尝试由于不充分的偏振建模,特别是忽略了反射,导致了显著的误差。为了解决这一问题,我们制定了一个偏振模型,明确考虑了发射和反射的综合影响。基于该模型,我们不仅使用直接的基于模型的方法,还使用基于学习的方法,通过在物理基础的合成数据集上训练的神经网络来估计表面法线。此外,我们对LWIR偏振成像过程进行了建模,考虑了固有的系统误差以确保准确的偏振测量。我们实施了一个原型系统,并创建了ThermoPol,这是第一个用于LWIR SfP的真实世界基准数据集。通过全面的实验,我们证明了我们的方法在各种材料上的高精度和广泛适用性,包括那些在可见光谱中透明的材料。 |
[91] 跨架构知识蒸馏(KD)用于NVIDIA Jetson Nano上的视网膜眼底图像异常检测 标题: Cross-Architecture Knowledge Distillation (KD) for Retinal Fundus Image Anomaly Detection on NVIDIA Jetson Nano 作者: Berk Yilmaz / Aniruddh Aiyengar 原文: [英文] 备注: 15 pages, 10 figures. Berk Yilmaz and Aniruddh Aiyengar contributed equally to this work 摘要: 早期且准确地识别视网膜疾病对于防止视力下降至关重要;然而,在资源匮乏的环境中,可靠的诊断设备往往难以获得。本项目提出通过开发一种轻量级、可在边缘设备上部署的疾病分类器来解决这一问题,该分类器使用跨架构知识蒸馏技术。我们首先训练了一个高容量的视觉变换器(ViT)教师模型,该模型通过I-JEPA自监督学习进行预训练,用于将眼底图像分类为四类:正常、糖尿病视网膜病变、青光眼和白内障。在压缩为基于CNN的学生模型以便在资源有限的条件下(如NVIDIA Jetson Nano)部署时,我们保持了物联网(IoT)的关注点。这是通过一个新颖的框架实现的,该框架包括分区交叉注意(PCA)投影器、组内线性(GL)投影器和多视图鲁棒训练方法。教师模型的参数数量比学生模型多97.4%,但学生模型实现了89%的分类准确率,并大约保留了教师模型93%的诊断性能。临床分类行为的保留支持了我们方法的初衷:在保持准确性的同时压缩ViT。我们的工作为资源匮乏地区的视网膜疾病提供了一个可扩展的、由AI驱动的分诊解决方案的示例。 |
[92] 提高效率:用于自回归图像生成的动态稀疏注意力机制 标题: Make It Efficient: Dynamic Sparse Attention for Autoregressive Image Generation 作者: Xunzhi Xiang / Qi Fan 原文: [英文] [中文] 备注: None 摘要: 自回归条件图像生成模型已成为文本到图像合成中的主流范式。这些方法通常将图像转换为一维的标记序列,并利用在自然语言处理中取得显著成功的自注意力机制来捕捉长距离依赖关系、建模全局上下文并确保语义一致性。然而,推理过程中过长的上下文会导致由KV缓存引起的显著内存开销和计算延迟。为了解决这些挑战,我们系统地分析了全局语义、空间布局和细粒度纹理在推理过程中是如何形成的,并提出了一种新颖的无训练上下文优化方法,称为自适应动态稀疏注意力(ADSA)。从概念上讲,ADSA动态识别对保持局部纹理一致性和确保全局语义一致性至关重要的历史标记,从而有效简化注意力计算。此外,我们为ADSA引入了一种动态KV缓存更新机制,在推理过程中将GPU内存消耗减少了约50%。大量的定性和定量实验表明,我们的方法在生成质量和资源效率方面的有效性和优越性。 |
[93] Drive-R1:通过强化学习在视觉语言模型中为自动驾驶桥接推理与规划 标题: Drive-R1: Bridging Reasoning and Planning in VLMs for Autonomous Driving with Reinforcement Learning 作者: Yue Li / Meng Tian / Dechang Zhu / Jiangtong Zhu / Zhenyu Lin / Zhiwei Xiong / Xinhai Zhao 原文: [英文] [中文] 备注: None 摘要: 用于自动驾驶的大型视觉语言模型(VLMs)正在从感知和认知任务向运动规划演进。然而,我们在这一方向上识别出两个关键挑战:(1)VLMs倾向于通过过度依赖历史输入信息来学习捷径,从而在没有真正理解视觉输入的情况下实现看似强大的规划结果;(2)推理过程的思维链(COT)总是与运动规划结果不一致,如何有效利用复杂的推理能力来增强规划仍然很少被探索。在本文中,我们从一个小规模的特定领域VLM出发,提出了Drive-R1,旨在为自动驾驶桥接场景推理和运动规划。Drive-R1首先在一个包含长短COT数据的精细数据集上进行监督微调。Drive-R1被鼓励从视觉输入逐步推理到最终的规划决策。随后,Drive-R1在一个强化学习框架内进行训练,该框架通过基于预测轨迹和元动作的奖励来激励发现对规划更有信息价值的推理路径。在nuScenes和DriveLM-nuScenes基准上的实验评估表明,Drive-R1相比现有的最先进VLMs实现了卓越的性能。我们相信,Drive-R1为桥接自动驾驶中的推理和规划提供了一个有前景的方向,为未来的研究和应用提供了方法论上的见解。 |
[94] 指称表达实例检索与一个强大的端到端基线 标题: Referring Expression Instance Retrieval and A Strong End-to-End Baseline 作者: Xiangzhao Hao / Kuan Zhu / Hongyu Guo / Haiyun Guo / Ming Tang / JinQiao Wang 原文: [英文] [中文] 备注: None 摘要: 自然语言对视觉内容的查询是许多视觉语言任务的基础,这些任务通常根据文本的粒度和视觉搜索范围进行分类。文本-图像检索(TIR)使用粗略的描述来检索整个图像,而指代表达理解(REC)则在单个图像中使用细粒度的表达来定位对象。然而,现实世界的场景往往需要在大型图库中进行实例级别的检索和定位——在这些任务中,TIR缺乏精确性,而REC缺乏可扩展性。为了解决这一差距,我们提出了一项新任务:指代表达实例检索(REIR),它同时支持实例级别的检索和定位。我们引入了REIRCOCO,这是一个大规模的基准,通过提示视觉语言模型为MSCOCO和RefCOCO实例生成细粒度表达而构建。我们还提出了一种基线方法,CLARE,它具有一个双流架构,并包含一个关系专家混合(MORE)模块,用于捕捉实例间的关系。CLARE结合了对象检测和REC预训练,并通过对比语言-实例对齐(CLIA)进行端到端优化。实验表明,CLARE在REIR上达到了最先进的性能,并且在TIR和REC上具有良好的泛化能力,突显了其有效性和多功能性。 |
[95] 增强对抗性可迁移性的语义结构感知生成攻击 标题: Semantic Structure-Aware Generative Attacks for Enhanced Adversarial Transferability 作者: Jongoh Jeong / Hunmin Yang / Jaeseok Jeong / Kuk-Jin Yoon 原文: [英文] [中文] 备注: None 摘要: 生成对抗攻击在白盒代理模型上训练扰动生成器,然后将精心设计的扰动应用于未见过的黑盒受害者模型。与迭代攻击相比,这些方法在推理时间效率、可扩展性和可迁移性方面表现优异;然而,迄今为止,现有研究尚未充分利用生成模型的表示能力来保留和利用语义信息。具体来说,生成器的中间激活编码了丰富的语义特征——对象边界和粗略形状——这些特征尚未被充分利用,从而限制了扰动与对象显著区域的对齐,而这些区域对于对抗性迁移性至关重要。为了解决这个问题,我们引入了一种基于均值教师的语义结构感知攻击框架,该框架作为时间平滑的特征参考。通过这种平滑参考,我们进一步通过特征蒸馏来指导学生早期层激活与语义丰富的教师之间的语义一致性。通过基于实证发现将扰动合成锚定在生成器内语义显著的早期中间块,我们的方法在显著增强对抗性迁移性的区域上引导渐进的对抗性扰动。我们在不同的模型、领域和任务上进行了广泛的实验,以展示相对于最先进的生成攻击的一致改进,并使用传统指标和我们新提出的意外修正率(ACR)进行了全面评估。 |
[96] 通过利用时间域中的多分辨率信息来改进弱监督的时间动作定位 标题: Improving Weakly Supervised Temporal Action Localization by Exploiting Multi-resolution Information in Temporal Domain 作者: Rui Su / Dong Xu / Luping Zhou / Wanli Ouyang 原文: [英文] [中文] 备注: 13 pages 摘要: 弱监督的时间动作定位是一项具有挑战性的任务,因为在训练过程中仅有视频级别的标注。为了解决这个问题,我们提出了一种两阶段的方法,充分利用时间域中的多分辨率信息,并基于外观和运动流生成高质量的帧级伪标签。具体来说,在第一阶段,我们生成可靠的初始帧级伪标签;在第二阶段,我们迭代地优化伪标签,并使用一组具有高度置信伪标签的选定帧来训练神经网络,从而更好地预测每一帧的动作类别分数。我们充分利用多尺度的时间信息来提高时间动作定位的性能。具体而言,为了获得可靠的初始帧级伪标签,在第一阶段,我们提出了一个初始标签生成(ILG)模块,该模块利用时间多分辨率一致性来生成高质量的类别激活序列(CASs),这些序列由多个序列组成,每个序列衡量每个视频帧属于某一特定动作类别的可能性。在第二阶段,我们提出了一个渐进式时间标签优化(PTLR)框架。在我们的PTLR框架中,两个网络被称为Network-OTS和Network-RTS,分别用于生成原始时间尺度和缩减时间尺度的CASs,被用作两个流(即OTS流和RTS流)来依次优化伪标签。通过这种方式,时间域中的多分辨率信息在伪标签层面上得以交换,我们的工作可以通过利用来自另一个流(即RTS/OTS流)的优化伪标签来帮助改进每个流(即OTS/RTS流)。 |
[97] YouTube-Occ:从 YouTube 视频中学习室内 3D 语义占用预测 标题: YouTube-Occ: Learning Indoor 3D Semantic Occupancy Prediction from YouTube Videos 作者: Haoming Chen / Lichen Yuan / TianFang Sun / Jingyu Gong / Xin Tan / Zhizhong Zhang / Yuan Xie 原文: [英文] [中文] 备注: None 摘要: 过去,3D语义占用预测被认为需要精确的几何关系才能实现有效的训练。然而,在复杂的室内环境中,由于数据采集设置的复杂性和隐私问题,大规模和广泛的数据收集以及对细粒度标注的需求变得不切实际。在本文中,我们展示了仅使用室内互联网数据即可实现3D空间精确的训练,而无需任何关于相机内参或外参的预先知识。在我们的框架中,我们收集了一个网络数据集,YouTube-Occ,其中包含来自YouTube的房屋参观视频,为3D表示学习提供了丰富的真实房屋场景。基于这个网络数据集,我们建立了一个完全自监督的模型,以利用可访问的2D先验知识来实现强大的3D室内感知。具体来说,我们利用繁荣的视觉基础模型的优势,通过将相似像素分组为超像素,将2D区域级知识提炼到占用网络中。实验结果表明,我们的方法在两个流行的基准测试(NYUv2和OccScanNet)上实现了最先进的零样本性能。 |
[98] ThermalLoc:一种基于视觉变换器的方法,用于大规模环境中稳健的热成像相机重定位 标题: ThermalLoc: A Vision Transformer-Based Approach for Robust Thermal Camera Relocalization in Large-Scale Environments 作者: Yu Liu / Yangtao Meng / Xianfei Pan / Jie Jiang / Changhao Chen 原文: [英文] [中文] 备注: 8 pages, 3 figures, accepted to IROS 2025 摘要: 热成像相机通过热辐射捕捉环境数据,这与依赖针孔成像的可见光相机的机制根本不同。因此,传统为可见光图像设计的视觉重定位方法并不直接适用于热成像图像。尽管在相机重定位的深度学习方面取得了显著进展,但专门针对热成像相机重定位的方法仍然研究不足。为了解决这一空白,我们引入了ThermalLoc,这是一种用于热成像图像重定位的新型端到端深度学习方法。ThermalLoc通过将EfficientNet与Transformers结合,能够有效地从热成像图像中提取局部和全局特征,并使用两个MLP网络执行绝对位姿回归。我们在公开的热成像里程计数据集和我们自己的数据集上评估了ThermalLoc。结果表明,ThermalLoc在精度和鲁棒性方面优于现有用于热成像相机重定位的代表性方法,包括AtLoc、MapNet、PoseNet和RobustLoc。 |
[99] 自适应掩模引导的K空间扩散用于加速MRI重建 标题: Adaptive Mask-guided K-space Diffusion for Accelerated MRI Reconstruction 作者: Qinrong Cai / Yu Guan / Zhibo Chen / Dong Liang / Qiuyun Fan / Qiegen Liu 原文: [英文] 备注: 10 pages, 9 figures 摘要: 随着深度学习革命的推进,掩码建模作为一种独特的方法出现,它在训练过程中对原始数据的部分进行比例掩码预测,并在多个领域展示了卓越的性能。磁共振成像(MRI)重建是医学成像中的一项关键任务,旨在从欠采样的k空间数据中恢复高质量图像。然而,以往的MRI重建策略通常优化整个图像域或k空间,而没有考虑k空间中不同频率区域的重要性。本研究引入了一种基于自适应掩码的扩散模型(AMDM),该模型利用基于k空间数据的频率分布自适应调整,开发出一种适应不同k空间输入的混合掩码机制。这使得高频和低频成分的有效分离成为可能,产生多样的频率特定表示。此外,k空间频率分布指导自适应掩码的生成,进而引导一个闭环扩散过程。实验结果验证了该方法学习特定频率信息的能力,从而提高了MRI重建的质量,为未来使用掩码优化k空间数据提供了一个灵活的框架。 |
[100] ReFrame:用于图像解释架构的校正框架 标题: ReFrame: Rectification Framework for Image Explaining Architectures 作者: Debjyoti Das Adhikary / Aritra Hazra / Partha Pratim Chakrabarti 原文: [英文] [中文] 备注: Accepted in CODS-COMAD December 2024 摘要: 图像解释一直是深度学习领域的关键研究兴趣之一。多年来,已经采用了几种方法来解释用户提供的输入图像。从检测给定图像中的对象到用人类可理解的句子解释它,再到进行描述图像的对话,这个问题在这些年中经历了巨大的变化。然而,现有的工作常常被发现(a)幻觉出图像中不存在的对象和/或(b)未能识别出图像中存在的完整对象集。在本文中,我们提出了一种新颖的方法来缓解图像解释过程中识别对象的不一致性和不完整性。为此,我们提出了一个可解释的框架,可以插入到包括图像字幕、视觉问答(VQA)和基于提示的AI使用大型语言模型(LLM)在内的多种图像解释框架之上,从而通过纠正不正确或缺失的对象来增强它们的解释能力。我们进一步利用基于对象的精确度指标来衡量通过我们提出的方法生成的修正解释的有效性,并展示了图像解释在不一致性和完整性方面的改进。定量上,所提出的框架能够在图像字幕的基线架构上改进解释(完整性提高81.81%,不一致性提高37.10%),视觉问答(完整性和不一致性分别平均提高9.6%和37.10%)和基于提示的AI模型(完整性和不一致性分别提高0.01%和5.2%),大幅超越当前的最新技术水平。 |
[101] 用于内窥镜图像分类的开放集识别:基于Kvasir数据集的深度学习方法 标题: Open Set Recognition for Endoscopic Image Classification: A Deep Learning Approach on the Kvasir Dataset 作者: Kasra Moazzami / Seoyoun Son / John Lin / Sun Min Lee / Daniel Son / Hayeon Lee / Jeongho Lee / Seongji Lee 原文: [英文] 备注: 9 pages, 3 figures, 3 tables 摘要: 内窥镜图像分类在医学诊断中起着关键作用,通过识别解剖标志和病理发现。然而,在开放世界的临床环境中,传统的封闭集分类框架本质上存在局限性,因为以前未见过的情况可能会出现并影响模型的可靠性。为了解决这个问题,我们探索了在Kvasir数据集上应用开放集识别(OSR)技术的可能性。Kvasir数据集是一个公开可用且多样化的内窥镜图像集合。在这项研究中,我们评估并比较了几种具有代表性的深度学习架构在封闭集和开放集条件下的OSR能力,包括ResNet-50、Swin Transformer和一种混合的ResNet-Transformer模型。OpenMax被采用为基线OSR方法,以评估这些模型区分已知类别和以前未见类别的能力。这项工作是首次将开放集识别应用于Kvasir数据集的努力之一,并为评估医学图像分析中的OSR性能提供了基础基准。我们的结果为模型在临床现实环境中的行为提供了实用见解,并强调了OSR技术对于内窥镜AI系统安全部署的重要性。 |
[102] 通过个体重要性进行选择性社交互动以实现快速人类轨迹预测 标题: Selective Social-Interaction via Individual Importance for Fast Human Trajectory Prediction 作者: Yota Urano / Hiromu Taketsugu / Norimichi Ukita 原文: [英文] 备注: MIRU 2025 摘要: 本文提出了一种用于选择重要邻近人物以预测主要人物轨迹的架构。为了实现有效的邻近人物选择,我们提出了一个称为重要性估计器的人物选择模块,该模块输出每个邻近人物在预测主要人物未来轨迹时的重要性。为了防止在基于重要性采样周围人物时,由于不可微操作而导致梯度被阻塞,我们在训练中采用了Gumbel Softmax。 在JRDB数据集上进行的实验表明,我们的方法在具有竞争力的预测精度的同时加快了处理速度。 |
[103] 基于动态图卷积的油菜种群点云补全网络(RP-PCN)用于作物冠层遮挡结构的三维重建 标题: Rapeseed population point cloud completion network (RP-PCN) with dynamic graph convolution for 3D reconstruction of crop canopy occlusion architecture 作者: Ziyue Guo / Xin Yang / Yutao Shen / Yang Zhu / Lixi Jiang / Haiyan Cen 原文: [英文] 备注: None 摘要: 完整的冠层结构的定量描述对于评估作物光合作用和产量以指导理想型设计至关重要。尽管已经开发了用于植物和冠层重建的三维(3D)传感技术,但严重的遮挡和复杂的结构阻碍了准确的冠层描述。在本研究中,我们提出了一种点云补全模型,用于通过多视角成像对油菜从播种到角果阶段的群体进行3D重建。我们开发了一个完整的点云生成框架,结合虚实结合(VRI)模拟方法和遮挡点检测算法,通过区分表面点和遮挡点来标注训练数据集。油菜群体点云补全网络(RP-PCN)采用多分辨率动态图卷积编码器(MRDG)和点金字塔解码器(PPD)设计,用于基于输入的表面点云预测遮挡点。引入了动态图卷积特征提取器(DGCFE)以捕捉生长周期中的结构变化。通过使用油菜群体完整点云的结构指标预测产量,验证了点云补全的有效性。结果表明,RP-PCN在幼苗期、抽薹期、开花期和角果期分别实现了3.35 cm、3.46 cm、4.32 cm和4.51 cm的切线距离(CD)值。消融研究显示,MRDG和DGCFE模块的有效性分别将CD值降低了10%和23%。与不完整点云相比,RP-PCN的角果效率指数(SEI)将产量预测准确性提高了11.2%。本研究中提出的RP-PCN流程有可能扩展到其他作物,显著增强田间环境中群体冠层结构的分析。 |
[104] 基于注意力的集成学习用于Landsat 8-9融合的作物分类 标题: Attention-Based Ensemble Learning for Crop Classification Using Landsat 8-9 Fusion 作者: Zeeshan Ramzan / Nisar Ahmed / Qurat-ul-Ain Akram / Shahzad Asif / Muhammad Shahbaz / Rabin Chakrabortty / Ahmed F. Elaksher 原文: [英文] 备注: Under review in Earth Systems and Environment 摘要: 遥感技术提供了一种获取作物总面积和作物类型准确信息的高效方法。本研究重点关注旁遮普中部灌溉地区的作物覆盖识别。数据收集分为两个阶段:第一阶段是在2023年1月和2月通过实地调查识别和地理编码六种目标作物。第二阶段是获取每个地理编码田地的Landsat 8-9影像,以构建标记数据集。卫星影像经过广泛的预处理,包括反射率值的辐射校准、大气校正和地理参考验证,以确保在通用坐标系统内的一致性。随后,应用图像融合技术结合Landsat 8和9的光谱波段,创建具有增强光谱信息的复合图像,并进行对比度增强。在数据采集过程中,采访了农民,并使用GPS仪器精确绘制了田地地图,最终形成了包含50,835个数据点的综合数据集。该数据集促进了植被指数的提取,如NDVI、SAVO、RECI和NDRE。这些指数和原始反射率值被用于使用传统分类器、集成学习和人工神经网络进行分类建模。还结合了一种特征选择方法,以识别分类学习的最佳特征集。本研究展示了结合遥感数据和先进建模技术在提高灌溉农业地区作物分类准确性方面的有效性。 |
[105] 逃离虚假宇宙:大型视觉-语言模型能否在超越已见虚假相关性中实现泛化? 标题: Escaping the SpuriVerse: Can Large Vision-Language Models Generalize Beyond Seen Spurious Correlations? 作者: Yiwei Yang / Chung Peng Lee / Shangbin Feng / Dora Zhao / Bingbing Wen / Anthony Z. Liu / Yulia Tsvetkov / Bill Howe 原文: [英文] [中文] 备注: None 摘要: 微调可能导致非必要特征与目标标签之间出现虚假相关性,但用于研究这些影响的基准测试涉及人为设置和狭窄任务。相比之下,我们考虑在多模态大型视觉语言模型(LVLMs)中出现的虚假相关性,这些模型是在广泛且多样化的数据集上预训练的,没有明确的任务监督。我们通过在真实世界的视觉问答(VQA)基准测试中寻找GPT-4o错误来开发一个基准,然后通过LVLM-人工注释和合成反事实评估来策划一个子集,以识别由虚假相关性引起的错误。这个过程产生了SpuriVerse,一个新颖的基准,由从真实世界数据集中提取的124种不同类型的虚假相关性组成,每种类型包含1个真实和10个合成VQA样本,总共1364个多项选择题。我们在SpuriVerse上评估了15个开源和闭源的LVLMs,发现即使是最先进的闭源模型也面临显著困难,最高仅达到37.1%的准确率。对强调虚假相关性的合成示例进行微调将性能提高到78.40%,这表明在多样化的虚假模式上训练可以推广到未见过的情况:模型似乎学会了避免“捷径”,并关注整体图像上下文。 |
[106] 一种基于多尺度空间注意力的零样本学习框架用于低光图像增强 标题: A Multi-Scale Spatial Attention-Based Zero-Shot Learning Framework for Low-Light Image Enhancement 作者: Muhammad Azeem Aslam / Hassan Khalid / Nisar Ahmed 原文: [英文] [中文] 备注: None 摘要: 低光图像增强仍然是一个具有挑战性的任务,特别是在缺乏配对训练数据的情况下。在这项研究中,我们提出了LucentVisionNet,这是一种新颖的零样本学习框架,旨在解决传统和基于深度学习的增强方法的局限性。该方法将多尺度空间注意力与深度曲线估计网络相结合,实现细粒度增强,同时保持语义和感知的保真度。为了进一步提高泛化能力,我们采用了递归增强策略,并使用由六个定制组件组成的复合损失函数来优化模型,其中包括一种受人类视觉感知启发的新型无参考图像质量损失。在配对和非配对基准数据集上的大量实验表明,LucentVisionNet在多个全参考和无参考图像质量指标上始终优于最先进的监督、无监督和零样本方法。我们的框架实现了高视觉质量、结构一致性和计算效率,使其非常适合在移动摄影、监控和自主导航等实际应用中部署。 |
[107] 用于安全文本到图像生成的NSFW分类器引导提示净化 标题: NSFW-Classifier Guided Prompt Sanitization for Safe Text-to-Image Generation 作者: Yu Xie / Chengjie Zeng / Lingyun Zhang / Yanwei Fu 原文: [英文] [中文] 备注: None 摘要: 文本到图像(T2I)模型的快速发展,例如Stable Diffusion,增强了其从文本提示合成图像的能力。然而,这一进展也带来了显著的误用风险,包括生成有害内容(例如色情、暴力、歧视),这与T2I技术的伦理目标相悖,并阻碍其可持续发展。受大型语言模型中的“越狱”攻击启发,这些攻击通过微妙的提示修改绕过限制,本文提出了NSFW分类器引导的提示净化(PromptSan),这是一种无需改变模型架构或降低生成能力的新方法,用于净化有害提示。PromptSan包括两个变体:PromptSan-Modify,在推理过程中使用文本NSFW分类器迭代识别和替换输入提示中的有害词;以及PromptSan-Suffix,训练一个优化的后缀词序列,以中和有害意图,同时通过文本和图像NSFW分类器检查。大量实验表明,PromptSan在减少多种指标上的有害内容生成方面达到了最先进的性能,有效地平衡了安全性和可用性。 |
[108] 几何感知偏好学习用于3D纹理生成 标题: Geometry-Aware Preference Learning for 3D Texture Generation 作者: AmirHossein Zamani / Tianhao Xie / Amir G. Aghdam / Tiberiu Popa / Eugene Belilovsky 原文: [英文] [中文] 备注: None 摘要: 最近在3D生成模型方面的进展取得了令人印象深刻的成果,但这些模型生成的3D内容可能无法与人类的主观偏好或特定任务的标准相一致。此外,3D纹理生成领域仍然面临一个核心挑战:大多数现有方法依赖于对2D文本到图像生成模型的反复调用,而这些模型缺乏对输入3D网格对象的3D结构的内在理解。为了解决这个问题,我们提出了一种端到端可微分的偏好学习框架,该框架通过整个3D生成流程反向传播由可微分奖励函数表示的人类偏好,使得该过程本质上具有几何感知能力。我们通过使用四个新提出的几何感知奖励函数展示了我们框架的有效性,为从自然语言创建高质量3D内容提供了一种更可控和可解释的途径。 |
[109] 重新思考解码器设计:使用深度到空间恢复和残差线性注意力改进生物标记物分割 标题: Rethinking Decoder Design: Improving Biomarker Segmentation Using Depth-to-Space Restoration and Residual Linear Attention 作者: Saad Wazir / Daeyoung Kim 原文: [英文] 备注: Proceedings of the Computer Vision and Pattern Recognition Conference (CVPR), 2025, pp. 30861-30871 摘要: 在医学图像中分割生物标志物对于各种生物技术应用至关重要。尽管取得了一些进展,但基于Transformer和CNN的方法常常在染色和形态变化方面遇到困难,限制了特征提取。在医学图像分割中,由于数据集通常样本有限,最新的先进方法通过利用预训练编码器实现了更高的准确性,而端到端的方法往往表现不佳。这是因为在将丰富的多尺度特征从编码器有效转移到解码器方面存在挑战,以及解码器效率的限制。为了解决这些问题,我们提出了一种架构,可以捕捉多尺度的局部和全局上下文信息,并设计了一种新颖的解码器,它能够有效整合来自编码器的特征,强调重要的通道和区域,并重建空间维度以提高分割准确性。我们的方法与各种编码器兼容,并在四个数据集和消融研究中证明了其优于现有的先进方法。具体来说,与现有的先进方法相比,我们的方法在MoNuSeg数据集上实现了2.76%的绝对性能提升,在DSB数据集上提升了3.12%,在电子显微镜数据集上提升了2.87%,在TNBC数据集上提升了4.03%。代码:this https URL |
[110] BSMamba:用于低光图像增强中长距离交互的亮度和语义建模 标题: BSMamba: Brightness and Semantic Modeling for Long-Range Interaction in Low-Light Image Enhancement 作者: Tongshun Zhang / Pingping Liu / Mengen Cai / Zijian Zhang / Yubing Lu / Qiuzhan Zhou 原文: [英文] [中文] 备注: None 摘要: 当前的低光图像增强(LLIE)方法在同时提高亮度、保持语义一致性、细节精细度和计算效率方面面临显著限制。随着状态空间模型的出现,特别是Mamba,图像修复取得了显著的性能。然而,现有的视觉Mamba方法通过固定的扫描规则将二维图像展平为一维的标记序列,严重限制了具有因果关系的远距离标记之间的交互,并限制了它们捕捉有意义的长距离依赖关系的能力。为了解决这些基本限制,我们提出了BSMamba,一种新颖的视觉Mamba架构,由两个专门设计的组件组成:亮度Mamba和语义Mamba。亮度Mamba通过优先连接具有相似亮度水平的远距离标记,彻底改变了标记交互模式,有效地通过亮度引导的选择性注意解决了LLIE任务中的亮度恢复挑战。与此互补的是,语义Mamba在共享相似语义意义的标记之间建立优先交互,使模型能够通过连接图像中语义相关的区域来保持上下文一致性,从而在增强过程中保持图像语义的层次性。通过基于亮度和语义相似性而不是任意扫描模式智能地建模标记,BSMamba超越了传统标记序列的限制,同时遵循因果建模的原则。大量实验表明,BSMamba在LLIE中实现了最先进的性能,同时保持了语义一致性。 |
[111] 用于小样本学习的空间频率信息融合网络 标题: Spatial frequency information fusion network for few-shot learning 作者: Wenqing Zhao / Guojia Xie / Han Pan / Biao Yang / Weichuan Zhang 原文: [英文] [中文] 备注: None 摘要: 小样本学习的目标是充分利用有限的数据资源,通过应用算法和训练模型来探索数据中的潜在关联,从而获得能够充分满足实际应用需求的卓越性能。在实际应用中,每个类别的图像数量通常少于传统深度学习中的数量,这可能导致过拟合和较差的泛化性能。目前,许多小样本分类模型更关注空间域信息,而忽视了包含更多特征信息的频域信息。忽视频域信息会阻碍模型充分利用特征信息,从而影响分类性能。基于传统的数据增强方法,本文提出了一种具有创新性数据预处理的SFIFNet。该方法的关键在于通过将频域信息与空间域信息相结合来提高图像特征表示的准确性。实验结果证明了该方法在提高分类性能方面的有效性。 |
[112] 序列关键点密度估计器:基于骨架的视频异常检测中被忽视的基线 标题: Sequential keypoint density estimator: an overlooked baseline of skeleton-based video anomaly detection 作者: Anja Delić / Matej Grcić / Siniša Šegvić 原文: [英文] [中文] 备注: None 摘要: 检测异常的人类行为是安全关键应用中的一个重要视觉任务,例如医疗监测、工作场所安全或公共监控。在这些情况下,异常通常通过不寻常的人体姿势表现出来。因此,我们提出了SeeKer,一种用于检测人体骨架序列中的异常的方法。我们的方法通过关键点级别的自回归分解来制定骨架序列密度。相应的条件分布表示在先前骨骼运动的情况下可能的关键点位置。我们将所考虑的骨架的联合分布公式化为其组成关键点之间条件高斯的因果预测。如果骨架的关键点位置让我们的模型感到意外(即获得低密度),则该骨架被标记为异常。在实践中,我们的异常评分是每个关键点对数条件的加权和,其中权重考虑了基础关键点检测器的置信度。尽管其概念简单,SeeKer在UBnormal和MSAD-HR数据集上超越了所有以前的方法,同时在ShanghaiTech数据集上提供了具有竞争力的性能。 |
[113] RePIC:用于个性化多模态语言模型的强化后训练 标题: RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models 作者: Yeongtak Oh / Jisoo Mok / Dohyun Chung / Juhyeon Shin / Sangha Park / Johan Barthelemy / Sungroh Yoon 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: 最近的多模态大型语言模型(MLLMs)即使在高质量的图像描述上进行训练后,仍常常难以生成个性化的图像描述。在这项工作中,我们观察到这种限制在现有的基于后训练的MLLM个性化方法中依然存在。具体来说,尽管这些模型通过监督微调(SFT)在大规模描述数据上进行了后调优,但在真实场景中(如多概念图像描述)仍常常无法生成准确的描述。然而,为这些复杂场景获取大规模、高质量的描述既昂贵又困难。为了解决SFT的数据中心化问题,我们提出了一种基于强化学习(RL)的后训练框架。据我们所知,这是第一个基于RL的方法用于后训练MLLMs以实现个性化图像描述。我们的方法显著增强了MLLMs的视觉识别和个性化生成能力,并且在具有挑战性的多概念图像描述任务中,始终优于现有的基于SFT的基线。 |
[114] OpenEvents V1:用于多模态事件定位的大规模基准数据集 标题: OpenEvents V1: Large-Scale Benchmark Dataset for Multimodal Event Grounding 作者: Hieu Nguyen / Phuc-Tan Nguyen / Thien-Phuc Tran / Minh-Quang Nguyen / Tam V. Nguyen / Minh-Triet Tran / Trung-Nghia Le 原文: [英文] [中文] 备注: None 摘要: 我们介绍了OpenEvents V1,这是一个大规模的基准数据集,旨在推动以事件为中心的视觉-语言理解。与强调表面描述的传统图像字幕和检索数据集不同,OpenEvents V1通过两个主要任务关注上下文和时间的定位:(1)生成丰富的、事件感知的图像字幕,以及(2)基于叙述风格的文本查询检索与事件相关的图像。该数据集包含来自CNN和《卫报》的超过20万篇新闻文章和40万张相关图像,涵盖了不同的领域和时间段。我们为这两个任务提供了广泛的基线结果和标准化的评估协议。OpenEvents V1为开发能够对复杂现实世界事件进行深度推理的多模态模型奠定了坚实的基础。数据集可在此https URL获取。 |
[115] InternSpatial:用于视觉语言模型空间推理的综合数据集 标题: InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models 作者: Nianchen Deng / Lixin Gu / Shenglong Ye / Yinan He / Zhe Chen / Songze Li / Haomin Wang / Xingguang Wei / Tianshuo Yang / Min Dou / Tong He / Wenqi Shao / Kaipeng Zhang / Yi Wang / Botian Shi / Yanting Zhang / Jifeng Dai / Yu Qiao / Hongjie Zhang / Wenhai Wang 原文: [英文] [中文] 备注: None 摘要: 最近,一些基准和数据集被提出以改进视觉语言模型(VLMs)中的空间推理能力,但现有的开放资源在规模、视觉多样性和指令表达能力方面仍然有限。在这项工作中,我们介绍了InternSpatial,这是用于VLMs空间推理的最大开源数据集,以及相应的评估基准InternSpatial-Bench,旨在评估在多样化指令格式下的空间理解能力。InternSpatial包含1200万个问答对,涵盖单视图和多视图设置,来自多样化的视觉环境,并支持19种反映不同查询风格的指令格式。为了评估,我们提出了用于单视图任务的InternSpatial-Bench,并通过引入一个新颖的旋转角度预测任务来扩展多视图推理,这在之前的工作中尚未被探索。实验结果表明,在InternSpatial上训练的模型在InternSpatial-Bench上提高了12.1%,在VSI-Bench上提高了10.7%,同时在通用基准上保持了强劲的性能。我们希望这些资源能够支持在实际应用中如机器人技术和具身AI中具有空间能力的VLMs的发展。 |
[116] 通过广义协方差交集的分布式泊松多伯努利滤波 标题: Distributed Poisson multi-Bernoulli filtering via generalised covariance intersection 作者: Ángel F. García-Fernández / Giorgio Battistelli 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种基于广义协方差交集(GCI)融合规则的分布式泊松多伯努利(PMB)滤波器,用于分布式多目标滤波。由于两个PMB密度的精确GCI融合是不可行的,我们推导出了一种有原则的近似方法。具体来说,我们将PMB密度的幂近似为未归一化的PMB密度,这对应于PMB密度的上界。然后,GCI融合规则对应于两个未归一化PMB密度的归一化乘积。我们证明了结果是一个泊松多伯努利混合(PMBM),可以用闭式表达。每个滤波器中的未来预测和更新步骤保持PMBM形式,可以在下一个融合步骤之前投影回PMB密度。实验结果显示,与其他分布式多目标滤波器相比,这种方法具有优势。 |
[117] 黑色素瘤预防的潜在空间分析 标题: Latent Space Analysis for Melanoma Prevention 作者: Ciro Listone / Aniello Murano 原文: [英文] [中文] 备注: 11 pages, 4 figures, under review 摘要: 黑色素瘤由于其侵略性进展和高死亡率,代表着一个严重的健康风险,这凸显了早期、可解释诊断工具的必要性。虽然深度学习在皮肤病变分类方面取得了进展,但大多数现有模型仅提供二元输出,临床洞察力有限。本文介绍了一种新颖的方法,超越了分类,能够通过条件变分自编码器进行可解释的风险建模。所提出的方法学习了一个结构化的潜在空间,该空间捕捉病变之间的语义关系,允许对形态差异进行细致、连续的评估。还在此表示上训练了一个支持向量机,有效地区分良性痣和黑色素瘤,表现出强劲且一致的性能。更重要的是,学习到的潜在空间支持恶性程度的视觉和几何解释,病变与已知黑色素瘤的空间接近性成为风险的有意义指标。这种方法将预测性能与临床适用性相结合,促进早期检测,突出模糊病例,并通过透明和可解释的决策增强对人工智能辅助诊断的信任。 |
[118] 基准测试基础模型和参数高效微调在医学影像预后预测中的应用 标题: Benchmarking Foundation Models and Parameter-Efficient Fine-Tuning for Prognosis Prediction in Medical Imaging 作者: Filippo Ruffini / Elena Mulero Ayllon / Linlin Shen / Paolo Soda / Valerio Guarrasi 原文: [英文] [中文] 备注: None 摘要: 人工智能(AI)在改善医学影像中的预后预测方面具有显著的潜力,但其有效应用仍然具有挑战性。在这项工作中,我们引入了一个结构化的基准,专门用于评估和比较卷积神经网络和基础模型在预测COVID-19患者临床结果方面的可迁移性,利用多种公开可用的胸部X光片数据集。我们的实验方法广泛探索了一系列微调策略,包括传统方法如全微调和线性探测,以及先进的参数高效微调方法,如低秩适应、BitFit、VeRA和IA3。评估是在多种学习范式下进行的,包括广泛的全数据场景和更具临床现实的少样本学习设置,这对于模拟罕见疾病结果和快速出现的健康威胁至关重要。通过实施大规模的比较分析,涉及多种预训练模型的多样化选择,包括在大规模数据集上预训练的通用架构如CLIP和DINOv2,以及生物医学特定模型如MedCLIP、BioMedCLIP和PubMedCLIP,我们严格评估了每个模型在严重数据稀缺和显著类别不平衡条件下有效适应和推广到预后任务的能力。该基准旨在捕捉预后任务中常见的关键条件,包括数据集大小和类别分布的变化,提供关于每种微调策略的优缺点的详细见解。这种广泛且结构化的评估旨在为在实际临床预后预测工作流程中部署和采用稳健、高效和可推广的AI驱动解决方案提供信息。 |
[119] 用于图像修复的频域融合变换器 标题: Frequency-Domain Fusion Transformer for Image Inpainting 作者: Sijin He / Guangfeng Lin / Tao Li / Yajun Chen 原文: [英文] [中文] 备注: None 摘要: 图像修复在恢复缺失的图像区域和支持高级视觉任务中起着至关重要的作用,但传统方法在处理复杂纹理和大面积遮挡时表现不佳。尽管基于Transformer的方法展示了强大的全局建模能力,但由于自注意力的低通特性,它们往往无法保留高频细节,并且计算成本较高。为了解决这些挑战,本文提出了一种结合频域融合的基于Transformer的图像修复方法。具体来说,引入了一种结合小波变换和Gabor滤波的注意力机制,以增强多尺度结构建模和细节保留。此外,设计了一种基于快速傅里叶变换的可学习频域滤波器,以替代前馈网络,实现自适应噪声抑制和细节保留。该模型采用四级编码器-解码器结构,并通过一种新颖的损失策略来平衡全局语义和细节。实验结果表明,所提出的方法通过保留更多高频信息有效地提高了图像修复的质量。 |
[120] CPAM:零样本真实图像编辑的上下文保留自适应操控 标题: CPAM: Context-Preserving Adaptive Manipulation for Zero-Shot Real Image Editing 作者: Dinh-Khoi Vo / Thanh-Toan Do / Tam V. Nguyen / Minh-Triet Tran / Trung-Nghia Le 原文: [英文] 备注: None 摘要: 使用文本描述在文本到图像扩散模型中编辑自然图像仍然是一个重大挑战,特别是在实现一致生成和处理复杂的非刚性物体方面。现有方法通常难以保留纹理和身份,需要大量的微调,并且在编辑特定空间区域或物体时存在局限性,同时保留背景细节。本文提出了一种新的零样本框架,称为上下文保留自适应操作(CPAM),用于复杂的非刚性真实图像编辑。具体来说,我们提出了一个保留自适应模块,该模块调整自注意力机制,以有效地保留和独立控制物体和背景。这确保了在使用掩码引导技术进行编辑过程中,物体的形状、纹理和身份得以保持,同时背景不失真。此外,我们开发了一个局部提取模块,以减轻在交叉注意力机制中调节时对非期望修改区域的干扰。我们还引入了各种掩码引导策略,以简单的方式促进多样的图像操作任务。在我们新构建的图像操作基准(IMBA)上进行的大量实验表明,这是一种专为真实图像编辑设计的强大基准数据集,证明我们提出的方法是人类评审者的首选,优于现有的最先进的编辑技术。 |
[121] DIP:视觉表征的无监督密集上下文后训练 标题: DIP: Unsupervised Dense In-Context Post-training of Visual Representations 作者: Sophia Sirko-Galouchenko / Spyros Gidaris / Antonin Vobecky / Andrei Bursuc / Nicolas Thome 原文: [英文] [中文] 备注: None 摘要: 我们介绍了DIP,这是一种新颖的无监督后训练方法,旨在增强大规模预训练视觉编码器中的密集图像表示,以便在上下文场景理解中使用。与依赖复杂自蒸馏架构的先前方法不同,我们的方法使用伪任务训练视觉编码器,这些伪任务明确模拟下游上下文场景,灵感来自元学习原理。为了在无标签数据上进行后训练,我们提出了一种自动生成上下文任务的机制,该机制结合了预训练扩散模型和视觉编码器本身。DIP简单、无监督且计算效率高,在单个A100 GPU上所需时间不到9小时。通过伪上下文任务学习密集表示,它在各种下游真实世界上下文场景理解任务中表现出色。它优于初始视觉编码器和先前的方法,提供了一种实用且有效的解决方案来改善密集表示。代码可在此处获取:this https URL |
[122] AViLA:用于流式多模态数据交互的异步视觉-语言代理 标题: AViLA: Asynchronous Vision-Language Agent for Streaming Multimodal Data Interaction 作者: Gengyuan Zhang / Tanveer Hannan / Hermine Kleiner / Beste Aydemir / Xinyu Xie / Jian Lan / Thomas Seidl / Volker Tresp / Jindong Gu 原文: [英文] [中文] 备注: preprint version; 23 pages (including references and appendix) 摘要: 一个理想的视觉-语言代理在现实世界应用中,如自动驾驶和具身代理,充当人类用户与其周围物理世界之间的桥梁,并在了解用户意图后主动提供准确和及时的响应。当代理与世界互动时,一个引人入胜的挑战出现了:世界作为一个动态数据流存在,并且用户的临时查询不断出现。查询的支持知识,即证据,通常与查询的到达时间不同步,代理需要将其响应基于历史数据、当前观察以及未来的数据流。我们将这一挑战定义为查询-证据异步性,在这种情况下,用户查询及其支持证据通常在流式设置中异步到达。这种设置不仅需要强大的推理能力,还需要保留过去观察的能力,并能够以时间意识来响应查询。在本文中,我们引入了一个诊断基准,用于评估多模态大型语言模型(MLLMs)处理流数据交互的能力。此外,我们提出了AViLA,即用于流数据交互的异步视频-语言代理,它能够处理临时查询并给出时间感知的响应。为此,AViLA由三个关键模块组成:全面的记忆保留、证据识别和基于证据的触发,这些模块旨在维护通用记忆,并随时准备响应查询。我们的实验表明,现有模型往往无法在适当的时间做出响应,而AViLA显著提高了准确性和时间意识。我们的代码和数据集将公开提供。 |
[123] 通过句子移除进行上下文一致性学习以实现半监督视频段落定位 标题: Context Consistency Learning via Sentence Removal for Semi-Supervised Video Paragraph Grounding 作者: Yaokun Zhong / Siyu Jiang / Jian Zhu / Jian-Fang Hu 原文: [英文] [中文] 备注: Accepted by ICME2025 摘要: 半监督视频段落定位(SSVPG)旨在从未剪辑的视频中定位段落中的多个句子,同时仅需有限的时间标注。现有的方法主要关注于教师-学生一致性学习和视频级对比损失,但它们忽视了扰动查询上下文以生成强监督信号的重要性。在这项工作中,我们提出了一种新颖的上下文一致性学习(CCL)框架,该框架统一了一致性正则化和伪标签的范式,以增强半监督学习。具体来说,我们首先进行教师-学生学习,其中学生模型输入的是经过强增强处理的样本(句子被移除),并被强制从教师模型中学习足够强的监督信号。随后,我们基于生成的伪标签进行模型再训练,其中利用原始视图和增强视图预测之间的相互一致性作为标签置信度。大量实验表明,CCL在很大程度上优于现有的方法。 |
[124] GANs与扩散模型在HER2match数据集上的虚拟染色比较 标题: GANs vs. Diffusion Models for virtual staining with the HER2match dataset 作者: Pascal Klöckner / José Teixeira / Diana Montezuma / Jaime S. Cardoso / Hugo M. Horlings / Sara P. Oliveira 原文: [英文] [中文] 备注: None 摘要: 虚拟染色是一种有前景的技术,它利用深度生成模型来重现组织学染色,为传统的组织化学染色提供了一种更快速且更具成本效益的替代方案。特别是在H&E-HER2染色转换方面,尽管相关出版物呈上升趋势,但缺乏足够的公共数据集阻碍了该领域的进展。此外,目前尚不清楚哪种模型框架在这一特定任务中表现最佳。在本文中,我们介绍了HER2match数据集,这是第一个公开可用的数据集,包含相同的乳腺癌组织切片同时染色H&E和HER2。此外,我们比较了几种生成对抗网络(GANs)和扩散模型(DMs)的性能,并实现了一种新颖的布朗桥扩散模型用于H&E-HER2转换。我们的研究结果表明,总体而言,GANs的表现优于DMs,只有BBDM达到了可比的结果。此外,我们强调了数据对齐的重要性,因为所有在HER2match上训练的模型都比广泛使用的连续切片BCI数据集产生了大幅改进的视觉效果。这项研究提供了一个新的高质量数据集([将在论文接受发表后提供]),改进了模型训练和评估。此外,我们对框架的比较为从事该领域研究的人员提供了有价值的指导。 |
[125] ShowFlow:从稳健的单一概念到无条件的多概念生成 标题: ShowFlow: From Robust Single Concept to Condition-Free Multi-Concept Generation 作者: Trong-Vu Hoang / Quang-Binh Nguyen / Thanh-Toan Do / Tam V. Nguyen / Minh-Triet Tran / Trung-Nghia Le 原文: [英文] 备注: None 摘要: 定制图像生成仍然是可控图像合成中的核心挑战。对于单一概念生成,保持身份保留和提示对齐是具有挑战性的。在多概念场景中,仅依赖提示而没有额外条件(如布局框或语义掩码)通常会导致身份丢失和概念遗漏。在本文中,我们介绍了ShowFlow,一个旨在解决这些挑战的综合框架。我们提出了用于单一概念图像生成的ShowFlow-S,以及用于处理多概念的ShowFlow-M。ShowFlow-S引入了KronA-WED适配器,该适配器结合了Kronecker适配器与权重和嵌入分解,并采用了一种新的注意力正则化目标的解耦学习方法,以增强单一概念生成。在此基础上,ShowFlow-M直接重用ShowFlow-S的学习模型,以支持无需额外条件的多概念生成,结合了主题自适应匹配注意力(SAMA)和布局一致性策略作为即插即用模块。大量实验和用户研究验证了ShowFlow的有效性,突显了其在广告和虚拟试衣等现实应用中的潜力。 |
[126] 有偏见的教师,平衡的学生 标题: Biased Teacher, Balanced Student 作者: Seonghak Kim 原文: [英文] [中文] 备注: 12 pages, 5 figures. This work has been submitted to the IEEE for possible publication 摘要: 知识蒸馏(Knowledge Distillation,KD)是一种广泛采用的模型压缩技术,其中紧凑的学生模型从较大、预训练的教师模型的输出中学习。虽然在平衡设置中效果显著,但传统的KD在应用于长尾数据分布时显著受限,因为教师模型往往偏向于头部类别,并为尾部类别提供有限的监督。在本文中,我们提出了长尾知识蒸馏(Long-Tailed Knowledge Distillation,LTKD),一种专为类别不平衡场景设计的新框架。我们首先将标准的KD目标重新表述为两个组成部分:组间和组内的Kullback-Leibler(KL)散度,分别对应于跨类别组(头部、中部、尾部)和组内的预测分布。此分解使我们能够识别和量化教师偏差的来源。为了解决这些问题,我们引入了(1)一个重新平衡的组间损失,用于校准教师的组级预测,以及(2)一个统一的组内损失,确保在蒸馏过程中所有组均等贡献。在CIFAR-100-LT、TinyImageNet-LT和ImageNet-LT上的广泛实验表明,LTKD始终优于现有的KD方法,在整体准确性和尾部类别性能上取得了显著提升。我们的结果表明,LTKD能够有效地从有偏差的教师中进行知识转移,使其成为在资源受限和不平衡环境中实际应用的有力候选。 |
[127] 将视觉-语言模型推广到新领域:一项综合调查 标题: Generalizing Vision-Language Models to Novel Domains: A Comprehensive Survey 作者: Xinyao Li / Jingjing Li / Fengling Li / Lei Zhu / Yang Yang / Heng Tao Shen 原文: [英文] [中文] 备注: None 摘要: 最近,视觉-语言预训练作为一种变革性技术出现,它结合了视觉和文本模态的优势,形成了强大的视觉-语言模型(VLMs)。利用网络规模的预训练数据,这些模型表现出强大的零样本能力。然而,当面对特定领域或专业化的泛化任务时,它们的性能往往会下降。为了解决这一问题,越来越多的研究集中于将VLMs中丰富的知识转移或泛化到各种下游应用中。本综述旨在全面总结VLM文献中的泛化设置、方法、基准测试和结果。深入探讨典型的VLM结构,当前的文献根据转移的模块分为基于提示、基于参数和基于特征的方法。通过重新审视典型的迁移学习(TL)设置,进一步总结和讨论每个类别的差异和特点,为VLM时代的TL提供新的解释。进一步介绍了VLM泛化的流行基准,并对所审查方法的性能进行了详细比较。随着大规模可泛化预训练的进展,本综述还讨论了VLMs与最新的多模态大语言模型(MLLMs),如DeepSeek-VL之间的关系和差异。通过从一个新颖且实用的泛化视角系统地回顾视觉-语言研究中激增的文献,本综述为当前和未来的多模态研究提供了一个清晰的景观。 |
[128] MedTVT-R1:一种增强医学推理和诊断的多模态大语言模型 标题: MedTVT-R1: A Multimodal LLM Empowering Medical Reasoning and Diagnosis 作者: Yuting Zhang / Kaishen Yuan / Hao Lu / Yutao Yue / Jintai Chen / Kaishun Wu 原文: [英文] 备注: None 摘要: 准确且可解释的多疾病诊断在医学研究中仍然是一个关键挑战,特别是在利用异构多模态医学数据时。目前的方法通常依赖于单一模态数据,限制了其全面理解复杂疾病的能力。为了解决这个问题,我们提出了MedTVT-R1,这是一种新颖的多模态大语言模型(MLLM)框架,旨在整合临床多模态数据以进行推理和诊断多种疾病。我们构建了MedTVT-QA,这是一个精心编制的指令数据集,提供了生理层次解释和疾病层次诊断的问答对,并采用证据链方法。MedTVT-R1包含一个模态感知层,以捕捉模态间的依赖关系并自适应地加权模态贡献。此外,我们采用基于组相对策略优化(GRPO)的强化微调,并使用Jaccard奖励函数来增强诊断推理。实验结果表明,MedTVT-R1在多模态特征利用和多疾病诊断方面具有优越性,为临床应用如诊断报告生成和合并症推理提供了显著潜力。数据集和代码可在此https URL获取。 |
[129] 通过自适应平移等变性增强图像修复变换器 标题: Enhancing Image Restoration Transformer via Adaptive Translation Equivariance 作者: JiaKui Hu / Zhengjian Yao / Lujia Jin / Hangzhou He / Yanye Lu 原文: [英文] [中文] 备注: None 摘要: 平移等变性是图像修复中的一个基本归纳偏差,确保平移输入产生平移输出。现代修复变压器中的注意力机制削弱了这一特性,对训练收敛性和泛化性产生了不利影响。为了解决这个问题,我们提出了两种关键策略来纳入平移等变性:滑动索引和组件堆叠。滑动索引在固定位置保持操作响应,滑动窗口注意力是一个显著的例子,而组件堆叠则允许平移等变操作符以并行或顺序方式排列,从而在保持平移等变性的同时构建复杂架构。然而,这些策略在模型设计中仍然面临自注意力的高计算成本与滑动窗口注意力的固定感受野之间的困境。为了解决这一问题,我们开发了一种自适应滑动索引机制,以有效选择每个查询的关键值对,然后与全局聚合的关键值对并行连接。设计的网络称为平移等变自适应变压器(TEAFormer),在各种图像修复任务中进行了评估。结果突出了其在有效性、训练收敛性和泛化性方面的优越性。 |
[130] 滤泡性淋巴瘤病理图像在单一双曲空间中的多尺度表示 标题: Multi-Scale Representation of Follicular Lymphoma Pathology Images in a Single Hyperbolic Space 作者: Kei Taguchi / Kazumasa Ohara / Tatsuya Yokota / Hiroaki Miyoshi / Noriaki Hashimoto / Ichiro Takeuchi / Hidekata Hontani 原文: [英文] [中文] 备注: 10 pages, 3 figures 摘要: 我们提出了一种方法,通过自监督学习在单一双曲空间中表示恶性淋巴瘤病理图像,从高分辨率的细胞核到低分辨率的组织图像。为了捕捉疾病进展过程中跨尺度发生的形态变化,我们的方法根据包含关系将组织图像和相应的细胞核图像嵌入到彼此接近的位置。使用庞加莱球作为特征空间能够有效地编码这种层次结构。学习到的表示能够捕捉疾病状态和细胞类型的变化。 |
[131] 自回归生成多视图一致的图像 标题: Auto-Regressively Generating Multi-View Consistent Images 作者: JiaKui Hu / Yuxiao Yang / Jialun Liu / Jinbo Wu / Chen Zhao / Yanye Lu 原文: [英文] [中文] 备注: None 摘要: 从人类指令生成多视图图像对于3D内容创作至关重要。主要挑战在于保持多个视图之间的一致性,并在各种条件下有效合成形状和纹理。在本文中,我们提出了多视图自回归(MV-AR)方法,该方法利用自回归模型从任意提示中逐步生成一致的多视图图像。首先,AR模型的下一个标记预测能力显著增强了其促进渐进式多视图合成的效果。在生成广泛分离的视图时,MV-AR可以利用其所有先前的视图来提取有效的参考信息。随后,我们提出了一个通过架构设计和训练策略来适应各种提示的统一模型。为了解决多种条件,我们引入了用于文本、相机姿态、图像和形状的条件注入模块。为了同时管理多模态条件,采用了一种渐进式训练策略。该策略最初采用文本到多视图(t2mv)模型作为基线,通过随机丢弃和组合条件来增强全面的X到多视图(X2mv)模型的发展。最后,为了缓解由于高质量数据有限而导致的过拟合问题,我们提出了“打乱视图”数据增强技术,从而显著扩展了训练数据的数量级。实验表明,我们的MV-AR的性能和多功能性,在各种条件下始终生成一致的多视图图像,并且表现与领先的基于扩散的多视图图像生成模型相当。代码和模型将在此https URL发布。 |
[132] 超曲空间中的集合到集合距离度量 标题: A Set-to-Set Distance Measure in Hyperbolic Space 作者: Pengxiang Li / Wei Wu / Zhi Gao / Xiaomeng Fan / Peilin Yu / Yuwei Wu / Zhipeng Lu / Yunde Jia / Mehrtash Harandi 原文: [英文] [中文] 备注: 24 pages 摘要: 我们提出了一种双曲集到集的距离度量,用于计算双曲空间中集合之间的差异性。虽然双曲空间中的点到点距离能够有效捕捉数据点之间的层次关系,但许多实际应用需要比较双曲数据点的集合,其中集合的局部结构和全局结构携带着重要的语义信息。我们提出的双曲集到集距离度量(HS2SD)整合了全局和局部结构信息:全局结构通过双曲集合的爱因斯坦中点之间的测地距离来体现,局部结构通过两个集合的拓扑特征来体现。为了高效计算拓扑差异,我们证明使用有限的 Thue-Morse 序列的度和邻接矩阵可以作为捕捉集合拓扑结构的稳健近似。在这种情况下,通过考虑拓扑差异,HS2SD 提供了对两个双曲集合之间关系的更细致的理解。在实体匹配、标准图像分类和小样本图像分类的实证评估中,我们的距离度量通过有效建模双曲集合中固有的层次和复杂关系,表现优于现有方法。 |
[133] 超曲面空间中多样层次结构的几何感知距离度量 标题: Geometry-aware Distance Measure for Diverse Hierarchical Structures in Hyperbolic Spaces 作者: Pengxiang Li / Yuwei Wu / Zhi Gao / Xiaomeng Fan / Wei Wu / Zhipeng Lu / Yunde Jia / Mehrtash Harandi 原文: [英文] [中文] 备注: 24 pages 摘要: 由于其在建模数据层次结构方面的优越能力,超曲面空间中的学习引起了越来越多的关注。大多数现有的超曲面学习方法对所有数据使用固定的距离度量,假设所有数据点之间存在统一的层次结构。然而,现实世界的层次结构表现出显著的多样性,这使得这一假设过于严格。在本文中,我们提出了一种超曲面空间中的几何感知距离度量,该度量能够动态适应不同的层次结构。我们的方法通过为每对数据点生成定制的投影和曲率来推导距离度量,从而有效地将它们映射到适当的超曲面空间。我们引入了一种修订的低秩分解方案和一种困难对挖掘机制,以在不影响准确性的情况下减轻成对距离计算的计算成本。我们利用Talagrand的集中不等式给出了低秩近似误差的上界,确保理论上的稳健性。在标准图像分类(MNIST、CIFAR-10和CIFAR-100)、层次分类(5级CIFAR-100)和小样本学习任务(mini-ImageNet、tiered-ImageNet)上的大量实验表明了我们方法的有效性。我们的方法始终优于使用固定距离度量的学习方法,尤其是在小样本学习任务上取得了显著的改进,在mini-ImageNet上实现了超过5%的增益。结果表明,自适应距离度量能够更好地捕捉多样的层次结构,且可视化显示在超曲面空间中更清晰的类别边界和改进的原型分离。 |
[134] 用于无监督图像异常检测的正态性先验引导多语义融合网络 标题: Normality Prior Guided Multi-Semantic Fusion Network for Unsupervised Image Anomaly Detection 作者: Muhao Xu / Xueying Zhou / Xizhan Gao / Weiye Song / Guang Feng / Sijie Niu 原文: [英文] [中文] 备注: None 摘要: 近年来,检测逻辑异常相比检测结构异常变得更加具有挑战性。现有的基于编码器-解码器的方法通常将输入压缩到低维瓶颈中,假设压缩过程可以有效抑制逻辑异常向解码器的传递。然而,逻辑异常特别难以处理,因为它们的局部特征通常类似于正常语义,但其全局语义与正常模式显著偏离。由于神经网络固有的泛化能力,这些异常语义特征可以通过低维瓶颈传播。这最终使得解码器能够以误导性的保真度重建异常图像。为了解决上述挑战,我们提出了一种新颖的基于正常性先验引导的多语义融合网络,用于无监督异常检测。我们没有直接将压缩后的瓶颈输入解码器,而是在重建过程中引入正常样本的多语义特征。为此,我们首先通过预训练的视觉-语言网络提取正常案例的抽象全局语义,然后通过向量量化构建可学习的语义码本,以存储正常样本的代表性特征向量。最后,将上述多语义特征融合并用作解码器的输入,以引导异常的重建以接近正常性。我们进行了广泛的实验以验证我们提出的方法的有效性,并在MVTec LOCO AD数据集上实现了SOTA性能,在像素-sPRO上提高了5.7%,在图像-AUROC上提高了2.6%。源代码可在此https URL获取。 |
[135] 通过音视频场景理解实现对象感知的声源定位 标题: Object-aware Sound Source Localization via Audio-Visual Scene Understanding 作者: Sung Jin Um / Dongjin Kim / Sangmin Lee / Jung Uk Kim 原文: [英文] 备注: Accepted at CVPR 2025 摘要: 音视频声源定位任务旨在通过整合视觉和音频线索,在视觉场景中空间定位发声物体。然而,现有方法在复杂场景中准确定位发声物体时存在困难,尤其是在视觉上相似的静物共存时。这一限制主要源于它们依赖于简单的音视频对应关系,无法捕捉发声物体和静物之间的细粒度语义差异。为了解决这些挑战,我们提出了一种新颖的声源定位框架,利用多模态大型语言模型(MLLMs)生成详细的上下文信息,明确区分发声的前景物体和静止的背景物体。为了有效整合这些详细信息,我们引入了两个新的损失函数:对象感知对比对齐(OCA)损失和对象区域隔离(ORI)损失。在MUSIC和VGGSound数据集上的广泛实验结果表明,我们的方法在单源和多源定位场景中显著优于现有方法。代码和生成的详细上下文信息可在此URL获取。 |
[136] VQ-Insight:通过渐进视觉强化学习教授视觉语言模型理解AI生成视频质量 标题: VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning 作者: Xuanyu Zhang / Weiqi Li / Shijie Zhao / Junlin Li / Li Zhang / Jian Zhang 原文: [英文] [中文] 备注: Technical Report 摘要: 最近在人工智能生成内容(AIGC)方面的进展催生了强大的文本到视频生成模型。尽管取得了这些成功,由于有限的泛化能力、缺乏时间意识、对大规模标注数据集的高度依赖以及与生成模型缺乏有效互动,评估AIGC生成视频的质量仍然具有挑战性。目前大多数方法依赖于视觉语言模型(VLMs)的监督微调,这通常需要大规模标注数据集,并倾向于将理解和生成分离。为了解决这些不足,我们提出了VQ-Insight,这是一种用于AIGC视频质量评估的新型推理风格VLM框架。我们的方法具有以下特点:(1)一个渐进的视频质量学习方案,结合了图像质量预热、一般任务特定的时间学习以及与视频生成模型的联合优化;(2)设计了多维度评分奖励、偏好比较奖励和时间建模奖励,以增强视频质量评估中的泛化和专业化能力。大量实验表明,VQ-Insight在偏好比较、多维度评分和自然视频评分方面始终优于最先进的基线,为视频生成任务带来了显著的改进。 |
[137] VisualChef:通过掩膜修复生成烹饪视觉辅助工具 标题: VisualChef: Generating Visual Aids in Cooking via Mask Inpainting 作者: Oleh Kuzyk / Zuoyue Li / Marc Pollefeys / Xi Wang 原文: [英文] [中文] 备注: None 摘要: 烹饪不仅需要遵循指令,还需要理解、执行和监控每一步——如果没有视觉指导,这个过程可能会很具挑战性。尽管食谱图片和视频提供了有用的提示,但它们在焦点、工具和设置上往往缺乏一致性。为了更好地支持烹饪过程,我们引入了VisualChef,这是一种为烹饪场景量身定制的上下文视觉辅助生成方法。给定一个初始帧和一个指定动作,VisualChef生成的图像不仅展示了动作的执行,还展示了对象的结果外观,同时保留了初始帧的环境。之前的工作旨在通过生成详细的文本描述来指导图像生成,从而整合从大型语言模型中提取的知识,这需要细粒度的视觉-文本对齐并涉及额外的注释。相比之下,VisualChef通过基于掩码的视觉定位简化了对齐。我们的关键见解是识别与动作相关的对象并对其进行分类,以实现反映预期动作和结果的目标修改,同时保持环境的一致性。此外,我们提出了一种自动化流程来提取高质量的初始、动作和最终状态帧。我们在三个自我中心视频数据集上对VisualChef进行了定量和定性评估,并展示了其相较于最先进方法的改进。 |
[138] 用于直接可微网格训练的二维三角形点绘 标题: 2D Triangle Splatting for Direct Differentiable Mesh Training 作者: Kaifeng Sheng / Zheng Zhou / Yingliang Peng / Qianwei Wang 原文: [英文] [中文] 备注: 13 pages, 8 figures 摘要: 使用三维高斯基元的可微渲染已经成为从多视图图像重建高保真三维场景的强大方法。虽然它在某些方面优于基于NeRF的方法,但与基于网格的模型相比,这种表示在渲染速度和高级渲染效果(如重新照明和阴影渲染)方面仍然面临挑战。在本文中,我们提出了一种新的方法——二维三角面片(2D Triangle Splatting, 2DTS),用二维三角面片替代三维高斯基元。这种表示自然形成了离散的网格状结构,同时保留了连续体积建模的优点。通过在三角基元中引入紧凑性参数,我们实现了逼真网格的直接训练。我们的实验结果表明,我们基于三角形的方法,即使在未进行紧凑性调整的基础版本中,也比最先进的基于高斯的方法实现了更高的保真度。此外,与现有的网格重建方法相比,我们的方法生成的重建网格具有更优越的视觉质量。 |
[139] 时间序列对比学习的重采样增强:在遥感中的应用 标题: Resampling Augmentation for Time Series Contrastive Learning: Application to Remote Sensing 作者: Antoine Saget / Baptiste Lafabregue / Antoine Cornuéjols / Pierre Gançarski 原文: [英文] [中文] 备注: 10 pages, 2 figures, accepted at 42nd International Conference on Machine Learning (ICML 2025) Terrabytes workshop 摘要: 鉴于大量未标记的卫星图像时间序列(SITS)和标记数据的稀缺,对比自监督预训练成为利用这大量未标记数据的自然工具。然而,为时间序列设计有效的数据增强仍然具有挑战性。我们引入了一种新颖的基于重采样的增强策略,通过对时间序列进行上采样并提取不相交的子序列,同时保持时间覆盖性来生成正样本对。我们在使用Sentinel-2影像的多个农业分类基准上验证了我们的方法,结果表明其性能优于常见的替代方法,如抖动、调整大小和掩蔽。此外,我们在不使用空间信息或时间编码的情况下,在S2-Agri100数据集上实现了最先进的性能,超越了更复杂的基于掩蔽的自监督学习框架。我们的方法为遥感时间序列提供了一种简单而有效的对比学习增强。 |
[140] SpaNN:通过跨越显著性阈值检测卷积神经网络上的多个对抗性补丁 标题: SpaNN: Detecting Multiple Adversarial Patches on CNNs by Spanning Saliency Thresholds 作者: Mauricio Byrd Victorica / György Dán / Henrik Sandberg 原文: [英文] [中文] 备注: 2025 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML2025) 摘要: 最先进的卷积神经网络模型在物体检测和图像分类方面容易受到物理上可实现的对抗性扰动的影响,例如补丁攻击。现有的防御措施主要集中在单一补丁攻击上,无论是隐含地还是显式地,这使得它们对补丁数量的敏感性成为一个悬而未决的问题,或者在最坏的情况下使它们在面对由多个补丁组成的攻击时在计算上不可行或效率低下。在这项工作中,我们提出了SpaNN,一种攻击检测器,其计算复杂性与预期的对抗性补丁数量无关。该检测器的关键创新在于通过对受害模型的第一个卷积层的神经激活应用一组显著性阈值来构建二值化特征图的集成。然后,它对集成进行聚类,并使用聚类特征作为攻击检测分类器的输入。与现有检测器相反,SpaNN不依赖于固定的显著性阈值来识别对抗性区域,这使其在面对白盒对抗性攻击时具有鲁棒性。我们在四个广泛使用的数据集上对SpaNN进行了物体检测和分类的评估,结果表明,在物体检测和图像分类的情况下,SpaNN分别比最先进的防御措施提高了最多11和27个百分点。我们的代码可以在这个URL上获得。 |
[141] RDPO:用于物理一致性视频生成的真实数据偏好优化 标题: RDPO: Real Data Preference Optimization for Physics Consistency Video Generation 作者: Wenxu Qian / Chaoyue Wang / Hou Peng / Zhiyu Tan / Hao Li / Anxiang Zeng 原文: [英文] [中文] 备注: 16 pages, 10 figures 摘要: 视频生成技术在视觉质量方面取得了显著进展,但要忠实地再现现实世界的物理现象仍然难以实现。基于偏好的模型后训练可能会提高物理一致性,但这需要昂贵的人类标注数据集或尚不可行的奖励模型。为了解决这些挑战,我们提出了真实数据偏好优化(RDPO),这是一种无需注释的框架,可以直接从真实世界的视频中提取物理先验。具体来说,所提出的RDPO使用预训练生成器对真实视频序列进行反向采样,以自动构建在物理正确性方面统计上可区分的偏好对。然后,通过多阶段迭代训练计划,引导生成器越来越好地遵循物理定律。得益于从真实视频中探索的动态信息,我们提出的RDPO显著提高了生成视频的动作连贯性和物理真实性。在多个基准测试和人类评估中,RDPO在多个维度上实现了改进。本文的源代码和演示可在此URL获得:this https URL |
[142] 历史报告引导的双模态并发学习用于病理报告生成 标题: Historical Report Guided Bi-modal Concurrent Learning for Pathology Report Generation 作者: Ling Zhang / Boxiang Yun / Qingli Li / Yan Wang 原文: [英文] [中文] 备注: None 摘要: 从全视野图像(WSIs)自动生成病理报告面临两个关键挑战:(1)视觉特征缺乏语义内容和(2)WSIs中固有的信息冗余。为了解决这些问题,我们提出了一种新颖的历史报告引导的\textbf{双}模态并发学习框架用于病理报告\textbf{生}成(BiGen),模拟病理学家的诊断推理,包括:(1)一种知识检索机制,提供丰富的语义内容,通过匹配高关注度的图像块,从预构建的医学知识库中检索与WSI相关的知识;(2)一种通过可学习的视觉标记和可学习的文本标记实现的双模态并发学习策略,动态提取关键视觉特征和检索到的知识,其中共享权重的层实现视觉特征和知识特征之间的跨模态对齐。我们的多模态解码器整合了这两种模态以生成全面的诊断报告。在PathText(BRCA)数据集上的实验表明,我们的框架具有优越性,在NLP指标上实现了7.4%的相对提升,在Her-2预测的分类指标上实现了19.1%的提升,相较于现有方法。消融研究验证了我们所提模块的必要性,突显了我们的方法在提供与WSI相关的丰富语义内容和抑制WSIs中的信息冗余方面的能力。代码可在此https URL公开获取。 |
[143] 在多中心数据集上基准测试用于皮肤癌亚型分类的组织病理学基础模型 标题: Benchmarking histopathology foundation models in a multi-center dataset for skin cancer subtyping 作者: Pablo Meseguer / Rocío del Amor / Valery Naranjo 原文: [英文] [中文] 备注: Accepeted for oral presentation at Medical Image Understanding and Analysis (MIUA) 2025 摘要: 在大规模、领域内数据集上进行预训练使得组织病理学基础模型(FM)能够学习与任务无关的数据表示,从而增强下游任务的迁移学习。在计算病理学中,由于幻灯片的千兆像素规模,自动化全幻灯片图像分析需要多实例学习(MIL)框架。组织病理学基础模型的多样性突显了设计真实世界挑战以评估其有效性的必要性。为弥合这一差距,我们的工作提出了一个新的基准,用于在MIL分类框架中评估组织病理学基础模型作为补丁级特征提取器。为此,我们利用AI4SkIN数据集,这是一个包含具有挑战性的皮肤纺锤细胞肿瘤亚型的多中心队列。我们还定义了基础模型-轮廓指数(FM-SI),这是一种新的度量,用于衡量模型在分布变化中的一致性。我们的实验表明,提取偏差较小的特征可以提高分类性能,尤其是在基于相似性的MIL分类器中。 |
[144] MedSeg-R:结合临床推理的医学图像分割 标题: MedSeg-R: Medical Image Segmentation with Clinical Reasoning 作者: Hao Shao / Qibin Hou 原文: [英文] [中文] 备注: None 摘要: 医学图像分割具有挑战性,因为解剖结构重叠且边界模糊,并且前景与背景类别之间存在严重的不平衡,这尤其影响小病灶的描绘。现有的方法,包括编码器-解码器网络和基于提示的Segment Anything Model (SAM) 变体,严重依赖于局部线索或用户提示,缺乏集成的语义先验,因此无法很好地推广到低对比度或重叠目标。为了解决这些问题,我们提出了MedSeg-R,这是一种受临床推理启发的轻量级双阶段框架。其认知阶段将医学报告解释为结构化的语义先验(位置、纹理、形状),并通过transformer模块进行融合。在感知阶段,这些先验调节SAM骨干:空间注意力突出可能的病灶区域,动态卷积使特征滤波器适应预期的纹理,变形采样优化空间支持。通过在早期嵌入这种细粒度的指导,MedSeg-R 解开了类别间的混淆并放大了少数类别的线索,大大提高了对小病灶的敏感性。在具有挑战性的基准测试中,MedSeg-R 在重叠和模糊结构中产生了显著的Dice改进,展示了与基于SAM的系统的即插即用兼容性。 |
[145] 使用高斯点云重建龙卷风的三维结构 标题: Reconstructing Tornadoes in 3D with Gaussian Splatting 作者: Adam Yang / Nadula Kadawedduwa / Tianfu Wang / Maria Molina / Christopher Metzler 原文: [英文] 备注: None 摘要: 准确重建龙卷风的三维结构对于理解和准备应对这种高度破坏性的天气现象至关重要。虽然现代三维场景重建技术,如三维高斯喷洒(3DGS),可以为重建龙卷风的三维结构提供有价值的工具,但目前我们严重缺乏一个受控的龙卷风数据集来开发和验证这些工具。在这项工作中,我们捕获并发布了一个基于实验室的小型龙卷风的新型多视角数据集。我们展示了可以有效地使用3DGS重建和可视化该龙卷风的三维结构。 |
[146] MCN-SLAM:具有混合隐式神经场景表示的多智能体协作神经SLAM 标题: MCN-SLAM: Multi-Agent Collaborative Neural SLAM with Hybrid Implicit Neural Scene Representation 作者: Tianchen Deng / Guole Shen / Xun Chen / Shenghai Yuan / Hongming Shen / Guohao Peng / Zhenyu Wu / Jingchuan Wang / Lihua Xie / Danwei Wang / Hesheng Wang / Weidong Chen 原文: [英文] [中文] 备注: None 摘要: 神经隐式场景表示最近在密集视觉SLAM中显示出有前途的结果。然而,现有的隐式SLAM算法仅限于单代理场景,并且在大规模场景和长序列中存在困难。现有基于NeRF的多代理SLAM框架无法满足通信带宽的限制。为此,我们提出了第一个具有混合场景表示、分布式相机跟踪、内部到外部回环闭合和在线蒸馏的分布式多代理协作神经SLAM框架,用于多个子地图融合。我们提出了一种新颖的三平面网格联合场景表示方法,以改善场景重建。设计了一种新颖的内部到外部回环闭合方法,以实现局部(单代理)和全局(多代理)一致性。我们还设计了一种新颖的在线蒸馏方法,以融合不同子地图的信息,实现全局一致性。此外,据我们所知,目前没有针对基于NeRF/GS的SLAM的真实世界数据集,能够同时提供连续时间轨迹的真实值和高精度3D网格的真实值。为此,我们提出了第一个真实世界的密集SLAM(DES)数据集,涵盖从小房间到大规模户外场景的单代理和多代理场景,提供高精度的3D网格和连续时间相机轨迹的真实值。该数据集可以推动SLAM、3D重建和视觉基础模型研究的发展。各种数据集上的实验表明,所提出的方法在映射、跟踪和通信方面的优越性。数据集和代码将在此https URL上开源。 |
[147] MARL-MambaContour:释放多智能体深度强化学习在医学图像分割中的主动轮廓优化 标题: MARL-MambaContour: Unleashing Multi-Agent Deep Reinforcement Learning for Active Contour Optimization in Medical Image Segmentation 作者: Ruicheng Zhang / Yu Sun / Zeyu Zhang / Jinai Li / Xiaofan Liu / Au Hoi Fan / Haowei Guo / Puxin Yan 原文: [英文] [中文] 备注: None 摘要: 我们介绍了MARL-MambaContour,这是第一个基于多智能体强化学习(MARL)的轮廓式医学图像分割框架。我们的方法将分割重新定义为一个多智能体合作任务,专注于生成拓扑一致的对象级轮廓,解决了传统基于像素的方法可能缺乏拓扑约束和对解剖区域整体结构意识的局限性。每个轮廓点被建模为一个自主智能体,通过迭代调整其位置以精确对齐目标边界,从而适应医学图像中常见的模糊边缘和复杂形态。这一迭代调整过程通过一个特定于轮廓的软演员-评论家(SAC)算法进行优化,并通过熵正则化调整机制(ERAM)进一步增强,该机制动态平衡智能体的探索与轮廓的平滑性。此外,该框架结合了基于Mamba的策略网络,具有一种新颖的双向交叉注意力隐藏状态融合机制(BCHFM)。该机制缓解了与状态空间模型中的长程建模相关的潜在记忆混淆限制,从而促进更准确的智能体间信息交换和知情决策。在五个不同的医学影像数据集上进行的大量实验表明,MARL-MambaContour的性能达到了当前最先进的水平,突显了其作为一种准确且稳健的临床应用的潜力。 |
[148] 基于多尺度光谱注意力模块的自动驾驶场景下高光谱分割 标题: Multi-Scale Spectral Attention Module-based Hyperspectral Segmentation in Autonomous Driving Scenarios 作者: Imad Ali Shah / Jiarong Li / Tim Brophy / Martin Glavin / Edward Jones / Enda Ward / Brian Deegan 原文: [英文] [中文] 备注: None 摘要: 最近在自动驾驶(AD)领域的进展突显了高光谱成像(HSI)在增强环境感知方面的潜力,尤其是在恶劣天气和光照条件下。然而,高效处理其高维光谱数据仍然是一个重大挑战。本文介绍了一种多尺度光谱注意模块(MSAM),通过三个并行的一维卷积(核大小在1到11之间变化)以及自适应特征聚合机制来增强光谱特征提取。通过将MSAM集成到UNet的跳跃连接(UNet-SC)中,我们提出的UNet-MSAM在多个HSI数据集上实现了语义分割性能的显著提升:HyKo-VIS v2、HSI-Drive v2和Hyperspectral City v2。我们的全面实验表明,UNet-MSAM在计算开销极小的情况下(平均参数增加0.02%,GFLOPS增加0.82%),始终优于UNet-SC,在三个数据集上平均提升了3.61%的平均交并比(mean IoU)和3.80%的平均F1分数(mF1)。通过广泛的消融研究,我们确定了多尺度核组合比单尺度配置表现更好。这些发现展示了HSI处理在自动驾驶中的潜力,并为设计稳健的、多尺度光谱特征提取器用于实际应用提供了宝贵的见解。 |
[149] SIM-Net:一种多模态融合网络,利用从RGB图像推断的3D物体形状点云进行2D分类 标题: SIM-Net: A Multimodal Fusion Network Using Inferred 3D Object Shape Point Clouds from RGB Images for 2D Classification 作者: Youcef Sklab / Hanane Ariouat / Eric Chenin / Edi Prifti / Jean-Daniel Zucker 原文: [英文] 备注: 25 pages, 9 figures, 14 tables 摘要: 我们介绍了一种新的二维图像分类架构——形状-图像多模态网络(SIM-Net),该架构将直接从RGB图像推断的三维点云表示集成在一起。我们的主要贡献在于一种像素到点的转换方法,该方法将二维对象掩码转换为三维点云,从而能够融合基于纹理和几何的特征,以提高分类性能。SIM-Net特别适合用于数字化植物标本的分类(这一任务因背景异质性、非植物元素和遮挡而变得具有挑战性),这些因素会影响传统的基于图像的模型。为了解决这些问题,SIM-Net采用基于分割的预处理步骤,在生成三维点云之前提取对象掩码。该架构包括一个用于二维图像特征的CNN编码器和一个用于几何特征的基于PointNet的编码器,这些特征被融合到一个统一的潜在空间中。在植物标本数据集上的实验评估表明,SIM-Net始终优于ResNet101,准确率提高了最多9.9%,F-score提高了12.3%。它还超越了几种基于transformer的最新架构,突显了在二维图像分类任务中结合三维结构推理的优势。 |
[150] 矩阵游戏:交互式世界基础模型 标题: Matrix-Game: Interactive World Foundation Model 作者: Yifan Zhang / Chunli Peng / Boyang Wang / Puyi Wang / Qingcheng Zhu / Fei Kang / Biao Jiang / Zedong Gao / Eric Li / Yang Liu / Yahui Zhou 原文: [英文] [中文] 备注: Technical Report 摘要: 我们介绍了Matrix-Game,这是一种用于可控游戏世界生成的交互式世界基础模型。Matrix-Game通过一个两阶段的流程进行训练,首先进行大规模无标签预训练以理解环境,然后进行动作标注训练以生成交互式视频。为支持这一点,我们整理了Matrix-Game-MC,一个全面的Minecraft数据集,包括超过2700小时的无标签游戏视频片段和超过1000小时的高质量标注片段,具有细粒度的键盘和鼠标动作注释。我们的模型采用可控的图像到世界生成范式,以参考图像、运动上下文和用户动作为条件。Matrix-Game拥有超过170亿个参数,能够精确控制角色动作和摄像机移动,同时保持高视觉质量和时间连贯性。为了评估性能,我们开发了GameWorld Score,一个统一的基准,用于衡量Minecraft世界生成的视觉质量、时间质量、动作可控性和物理规则理解。大量实验表明,Matrix-Game在所有指标上始终优于之前的开源Minecraft世界模型(包括Oasis和MineWorld),尤其在可控性和物理一致性方面有显著提升。双盲人类评估进一步确认了Matrix-Game的优越性,突出了其在各种游戏场景中生成感知上逼真且精确可控视频的能力。为了促进未来关于交互式图像到世界生成的研究,我们将在此https URL开源Matrix-Game模型权重和GameWorld Score基准。 |
[151] 通过词嵌入包含语义信息用于基于骨架的动作识别 标题: Including Semantic Information via Word Embeddings for Skeleton-based Action Recognition 作者: Dustin Aganian / Erik Franze / Markus Eisenbach / Horst-Michael Gross 原文: [英文] [中文] 备注: IEEE International Joint Conference on Neural Networks (IJCNN) 2025 摘要: 有效的人体动作识别在工业4.0中被广泛用于协作机器人,以协助装配任务。然而,传统的基于骨架的方法往往丢失关键点的语义信息,限制了其在复杂交互中的有效性。在这项工作中,我们引入了一种新颖的基于骨架的动作识别方法,通过利用词嵌入来编码语义信息,丰富输入表示。我们的方法用语义体积替代了独热编码,使模型能够捕捉关节和物体之间有意义的关系。通过在多个装配数据集上的广泛实验,我们证明了我们的方法显著提高了分类性能,并通过同时支持不同的骨架类型和物体类别,增强了泛化能力。我们的研究结果强调了在动态和多样化环境中结合语义信息以增强基于骨架的动作识别的潜力。 |
[152] 深度卷积神经网络人脸匹配器本质上支持可撤销的生物特征模板 标题: Deep CNN Face Matchers Inherently Support Revocable Biometric Templates 作者: Aman Bhatta / Michael C. King / Kevin W. Bowyer 原文: [英文] [中文] 备注: None 摘要: 生物特征认证的一个常见批评是,如果一个人的生物特征被泄露,那么该个人将无计可施。可撤销生物特征的概念就是为了解决这一问题而发展起来的。如果一个生物特征方案是可撤销的,那么个人可以撤销其当前在该方案中的注册,使得被泄露的生物特征模板变得毫无价值,并且该个人可以使用具有类似识别能力的新模板重新注册。我们表明,现代深度卷积神经网络(CNN)人脸匹配器本质上允许实现一个强大的可撤销生物特征方案。对于给定的最先进的深度CNN骨干网络和训练集,可以生成无限数量的不同人脸匹配器模型,这些模型同时具有(1)等效的识别能力,以及(2)强烈不兼容的生物特征模板。等效的识别能力延伸到生成具有相同形状和位置的冒名顶替者和真实分布,这意味着这些模型可以共享一个相似性阈值,以实现1/10,000的错误匹配率。不同模型实例的生物特征模板之间的兼容性如此之低,以至于同一人的图像在跨实例的相似性得分通常低于不同人的图像在同一实例的相似性得分。也就是说,被撤销的被盗生物特征模板在尝试匹配重新注册的身份时,其价值甚至低于平均冒名顶替者模板。我们还探讨了在本文提出的可撤销生物特征系统中使用基于Vision Transformer(ViT)骨干网络的人脸匹配器的可行性,并证明其不如典型的基于ResNet的深度CNN骨干网络适合。 |
[153] USVTrack:用于内陆水道自动驾驶的基于无人水面艇的4D雷达-摄像头跟踪数据集 标题: USVTrack: USV-Based 4D Radar-Camera Tracking Dataset for Autonomous Driving in Inland Waterways 作者: Shanliang Yao / Runwei Guan / Yi Ni / Sen Xu / Yong Yue / Xiaohui Zhu / Ryan Wen Liu 原文: [英文] [中文] 备注: Accepted by IROS 摘要: 内河水道中的目标跟踪在安全和经济高效的应用中起着至关重要的作用,包括水上运输、观光旅游、环境监测和水面救援。我们的无人水面车辆(USV)配备了4D雷达、单目摄像头、GPS和IMU,能够在复杂的水上环境中提供强大的跟踪能力。通过利用这些传感器,我们的USV收集了全面的目标跟踪数据,我们将其呈现为USVTrack,这是首个为新一代水上运输系统中的自动驾驶量身定制的4D雷达-摄像头跟踪数据集。我们的USVTrack数据集展示了丰富的场景,涵盖了各种水道、不同的时间段以及多种天气和光照条件。此外,我们提出了一种简单但有效的雷达-摄像头匹配方法,称为RCM,可以插入流行的两阶段关联跟踪器中。利用RCM的实验结果证明了雷达-摄像头匹配在提高水上环境中自动驾驶目标跟踪的准确性和可靠性方面的有效性。USVTrack数据集在这个https URL上公开。 |
[154] 空间感知窗口注意力用于自动驾驶中的语义占用预测 标题: SWA-SOP: Spatially-aware Window Attention for Semantic Occupancy Prediction in Autonomous Driving 作者: Helin Cao / Rafael Materla / Sven Behnke 原文: [英文] [中文] 备注: under reviewed 摘要: 自动驾驶中的感知系统依赖于LiDAR和摄像头等传感器来感知三维环境。然而,由于遮挡和数据稀疏性,这些传感器往往无法捕捉完整的信息。语义占用预测(Semantic Occupancy Prediction, SOP)通过推断未观测区域的占用和语义来应对这一挑战。现有的基于transformer的SOP方法在注意力计算中缺乏对空间结构的显式建模,导致几何感知能力有限,并且在稀疏或被遮挡区域表现不佳。为此,我们提出了一种新的机制——空间感知窗口注意力(Spatially-aware Window Attention, SWA),将局部空间上下文融入注意力中。SWA显著改善了场景补全,并在基于LiDAR的SOP基准上达到了最先进的结果。我们进一步通过将SWA整合到基于摄像头的SOP流程中验证了其通用性,在不同模态中也取得了一致的提升。 |
[155] 3D竞技场:一个用于生成式3D评估的开放平台 标题: 3D Arena: An Open Platform for Generative 3D Evaluation 作者: Dylan Ebert 原文: [英文] [中文] 备注: 9 pages, 2 figures 摘要: 评估生成式3D模型仍然具有挑战性,因为自动化指标与人类对质量的感知之间存在不一致。目前的基准测试依赖于忽略3D结构的基于图像的指标,或未能捕捉感知吸引力和实际应用价值的几何测量。为了解决这一差距,我们推出了3D Arena,这是一个开放平台,通过成对比较的大规模人类偏好收集来评估图像到3D生成模型。 自2024年6月启动以来,该平台已从8,096名用户中收集了123,243票,涵盖19个最先进的模型,建立了生成式3D领域最大的人类偏好评估。我们贡献了包含100个评估提示的iso3d数据集,并通过统计欺诈检测实现了99.75%的用户真实性质量控制。我们的基于ELO的排名系统提供了可靠的模型评估,使该平台成为一个公认的评估资源。 通过对这些偏好数据的分析,我们提供了对人类偏好模式的见解。我们的研究结果揭示了对视觉呈现特征的偏好,其中高斯斑点输出比网格模型具有16.6的ELO优势,而带纹理的模型比无纹理的模型具有144.1的ELO优势。我们提供了改进评估方法的建议,包括多标准评估、任务导向评估和格式感知比较。该平台的社区参与确立了3D Arena作为该领域的基准,同时推进了对生成式3D中以人为中心的评估的理解。 |
[156] 集中注意力:迈向数据直观的轻量级视觉Transformer 标题: Focus Your Attention: Towards Data-Intuitive Lightweight Vision Transformers 作者: Suyash Gaurav / Muhammad Farhan Humayun / Jukka Heikkonen / Jatin Chaudhary 原文: [英文] [中文] 备注: None 摘要: 视觉Transformer的演变使其在不同领域得到了广泛的应用。尽管取得了大规模的成功,但仍然存在显著的挑战,包括其在庞大数据集上进行预训练时对大量计算和内存资源的依赖,以及在特定任务上的迁移学习困难。这些限制以及能量效率低下主要是由于计算密集型的自注意力机制引起的。为了解决这些问题,我们提出了一种新颖的基于超像素的Patch池化(SPPP)技术,该技术生成具有上下文感知和语义丰富的Patch嵌入,有效降低了架构复杂性并提高了效率。此外,我们在流程中引入了轻量级潜在注意力(LLA)模块,通过将潜在标记整合到注意力机制中,使得交叉注意力操作显著降低了注意力模块的时间和空间复杂性。通过利用数据直观的Patch嵌入结合动态位置编码,我们的方法自适应地调节交叉注意力过程,聚焦于信息丰富的区域,同时保持全局语义结构。这种有针对性的注意力提高了训练效率并加速了收敛。值得注意的是,SPPP模块重量轻且可以轻松集成到现有的Transformer架构中。大量实验表明,我们提出的架构在计算效率方面提供了显著的改进,同时在与最先进的方法相比时取得了可比的结果,突显了其作为适合边缘部署的节能Transformer的潜力。(代码可在我们的GitHub仓库中获取:此https URL)。 |
[157] ViDAR:从单目输入进行视频扩散感知的4D重建 标题: ViDAR: Video Diffusion-Aware 4D Reconstruction From Monocular Inputs 作者: Michal Nazarczuk / Sibi Catley-Chandar / Thomas Tanay / Zhensong Zhang / Gregory Slabaugh / Eduardo Pérez-Pellitero 原文: [英文] [中文] 备注: None 摘要: 动态新视图合成旨在从任意视角生成移动主体的真实感视图。当依赖单目视频时,这项任务尤其具有挑战性,因为从运动中解构结构是一个不适定的问题,并且监督信息稀缺。我们介绍了视频扩散感知重建(ViDAR),这是一种新颖的4D重建框架,利用个性化扩散模型来合成伪多视图监督信号,以训练高斯喷射表示。通过对场景特定特征进行条件化,ViDAR能够恢复细粒度的外观细节,同时减轻单目模糊引入的伪影。为了解决基于扩散的监督在时空上的不一致性,我们提出了一种扩散感知损失函数和相机姿态优化策略,以使合成视图与底层场景几何对齐。在DyCheck这一具有极端视角变化的挑战性基准上进行的实验表明,ViDAR在视觉质量和几何一致性方面优于所有最先进的基线。我们进一步强调了ViDAR在动态区域相较于基线的显著改进,并提供了一个新的基准来比较在重建场景中运动丰富部分的性能。项目页面:this https URL |
[158] OC-SOP:通过以对象为中心的感知增强基于视觉的三维语义占用预测 标题: OC-SOP: Enhancing Vision-Based 3D Semantic Occupancy Prediction by Object-Centric Awareness 作者: Helin Cao / Sven Behnke 原文: [英文] [中文] 备注: under review 摘要: 自动驾驶感知由于环境中的遮挡和不完整的场景数据面临重大挑战。为了解决这些问题,提出了语义占用预测(SOP)任务,该任务旨在从图像中联合推断场景的几何形状和语义标签。然而,传统的基于摄像头的方法通常对所有类别一视同仁,并主要依赖于局部特征,导致预测效果不佳,尤其是对于动态前景对象。为了解决这一问题,我们提出了对象中心语义占用预测(OC-SOP),这是一种将通过检测分支提取的高层次对象中心线索集成到语义占用预测流程中的框架。这种对象中心的集成显著提高了前景对象的预测准确性,并在所有类别中实现了SemanticKITTI数据集的最新性能。 |
[159] PicoSAM2:用于边缘视觉应用的低延迟传感器内分割 标题: PicoSAM2: Low-Latency Segmentation In-Sensor for Edge Vision Applications 作者: Pietro Bonazzi / Nicola Farronato / Stefan Zihlmann / Haotong Qi / Michele Magno 原文: [英文] 备注: None 摘要: 实时的设备端分割对于诸如智能眼镜和物联网设备等对延迟敏感和隐私关注的应用至关重要。我们介绍了PicoSAM2,这是一种轻量级(1.3M参数,336M MACs)的可提示分割模型,专为边缘和传感器内执行(包括索尼IMX500)而优化。该模型基于深度可分离U-Net,通过知识蒸馏和定点提示编码从Segment Anything Model 2(SAM2)中学习。在COCO和LVIS数据集上,它分别达到了51.9%和44.9%的mIoU。量化后的模型(1.22MB)在IMX500上运行时间为14.3毫秒,达到86 MACs/周期,使其成为唯一满足传感器内存储和计算限制的模型。蒸馏技术使LVIS性能提升了+3.5%的mIoU和+5.1%的mAP。这些结果表明,直接在摄像头上实现高效的、可提示的分割是可行的,从而实现无需云或主机处理的隐私保护视觉。 |
[160] 4Real-Video-V2:用于4D场景生成的融合视图时间注意力和前馈重建 标题: 4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation 作者: Chaoyang Wang / Ashkan Mirzaei / Vidit Goel / Willi Menapace / Aliaksandr Siarohin / Avalon Vinella / Michael Vasilkovsky / Ivan Skorokhodov / Vladislav Shakhrai / Sergey Korolev / Sergey Tulyakov / Peter Wonka 原文: [英文] [中文] 备注: None 摘要: 我们提出了第一个能够使用前馈架构计算视频帧的4D时空网格和每个时间步的3D高斯粒子的框架。我们的架构有两个主要组成部分:4D视频模型和4D重建模型。在第一部分中,我们分析了当前4D视频扩散架构,这些架构在一个双流设计中要么顺序地、要么并行地执行空间和时间注意力。我们强调了现有方法的局限性,并引入了一种新颖的融合架构,该架构在单层内执行空间和时间注意力。我们方法的关键是稀疏注意力模式,其中的标记关注同一帧、同一时间戳或同一视点的其他标记。在第二部分中,我们通过引入高斯头、相机标记替换算法以及额外的动态层和训练,扩展了现有的3D重建算法。总体而言,我们为4D生成建立了新的技术标准,提高了视觉质量和重建能力。 |
[161] 幻影数据:迈向通用主体一致的视频生成数据集 标题: Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset 作者: Zhuowei Chen / Bingchuan Li / Tianxiang Ma / Lijie Liu / Mingcong Liu / Yi Zhang / Gen Li / Xinghui Li / Siyu Zhou / Qian He / Xinglong Wu 原文: [英文] [中文] 备注: Project page:this https URL 摘要: 近年来,主体到视频生成技术取得了显著进展。然而,现有模型在忠实遵循文本指令方面仍面临重大挑战。这一限制通常被称为“复制粘贴问题”,源于广泛使用的成对训练范式。这种方法通过从与目标视频相同场景中采样参考图像,固有地将主体身份与背景和上下文属性纠缠在一起。为了解决这个问题,我们引入了\textbf{Phantom-Data,这是第一个通用的跨对主体到视频一致性数据集},包含大约一百万个跨多种类别的身份一致对。我们的数据集通过三个阶段的流程构建:(1) 一个通用且输入对齐的主体检测模块,(2) 从超过5300万个视频和30亿张图像中进行大规模跨上下文主体检索,以及(3) 先验引导的身份验证,以确保在上下文变化下的视觉一致性。综合实验表明,使用Phantom-Data进行训练显著提高了提示对齐和视觉质量,同时保持了与成对基线相当的身份一致性。 |
[162] RAG-6DPose:通过利用CAD作为知识库的检索增强6D姿态估计 标题: RAG-6DPose: Retrieval-Augmented 6D Pose Estimation via Leveraging CAD as Knowledge Base 作者: Kuanning Wang / Yuqian Fu / Tianyu Wang / Yanwei Fu / Longfei Liang / Yu-Gang Jiang / Xiangyang Xue 原文: [英文] [中文] 备注: Accepted by IROS 2025 摘要: 准确的6D姿态估计是机器人操作的关键,能够为抓取等任务提供精确的物体定位。我们提出了RAG-6DPose,这是一种检索增强的方法,通过整合视觉和几何线索来利用3D CAD模型作为知识库。我们的RAG-6DPose大致包含三个阶段:1)通过从多视角CAD渲染图像中提取2D视觉特征并附加3D点来构建多模态CAD知识库;2)通过我们的ReSPC模块从知识库中检索与当前查询图像相关的CAD特征;3)通过检索增强解码结合检索到的CAD信息来优化姿态预测。在标准基准测试和真实世界的机器人任务中,实验结果证明了我们方法的有效性和鲁棒性,特别是在处理遮挡和新视角方面。补充材料可在我们的项目网站上获取:this https URL。 |
[163] TAMMs:用于卫星图像变化理解和预测的时间感知多模态模型 标题: TAMMs: Temporal-Aware Multimodal Model for Satellite Image Change Understanding and Forecasting 作者: Zhongbin Guo / Yuhao Wang / Ping Jian / Xinyue Chen / Wei Peng / Ertai E 原文: [英文] [中文] 备注: Submitted to the 33rd ACM International Conference on Multimedia. Our dataset can be found at this https URL 摘要: 卫星图像时间序列分析需要细粒度的时空推理,这对现有的多模态大语言模型(MLLMs)来说仍然是一个挑战。在这项工作中,我们研究了MLLMs在一个新颖任务上的能力,该任务同时针对时间变化理解和未来场景生成,旨在评估它们在时间上建模复杂多模态动态的潜力。我们提出了TAMMs,一种用于卫星图像变化理解和预测的时间感知多模态模型,通过轻量级的时间模块进行结构化序列编码和上下文提示来增强冻结的MLLMs。为了指导未来图像生成,TAMMs引入了一种语义融合控制注入(SFCI)机制,该机制在增强的ControlNet中自适应地结合了高级语义推理和结构先验。这种双路径条件使得时间上一致且语义上有依据的图像合成成为可能。实验表明,TAMMs在时间变化理解和未来图像预测任务中均优于强大的MLLM基线,突显了精心设计的时间推理和语义融合如何释放MLLMs在时空理解中的全部潜力。 |
[164] OmniAvatar:高效的音频驱动化身视频生成与自适应身体动画 标题: OmniAvatar: Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation 作者: Qijun Gan / Ruizi Yang / Jianke Zhu / Shaofei Xue / Steven Hoi 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 在音频驱动的人体动画领域已经取得了显著进展,但大多数现有方法主要集中在面部动作上,限制了它们在自然同步和流畅性方面创建全身动画的能力。此外,它们在精细生成的精确提示控制方面也存在困难。为了解决这些挑战,我们引入了OmniAvatar,这是一种创新的音频驱动全身视频生成模型,通过提高唇同步精度和自然动作来增强人体动画。OmniAvatar引入了一种像素级多层次音频嵌入策略,以更好地在潜在空间中捕捉音频特征,从而增强在不同场景中的唇同步效果。为了在有效结合音频特征的同时保留基础模型的提示驱动控制能力,我们采用了一种基于LoRA的训练方法。大量实验表明,OmniAvatar在面部和半身视频生成方面均超越了现有模型,提供了精确的基于文本的控制,以在各种领域中创建视频,如播客、人际互动、动态场景和歌唱。我们的项目页面是这个https URL。 |
[165] OmniGen2:高级多模态生成的探索 标题: OmniGen2: Exploration to Advanced Multimodal Generation 作者: Chenyuan Wu / Pengfei Zheng / Ruiran Yan / Shitao Xiao / Xin Luo / Yueze Wang / Wanli Li / Xiyan Jiang / Yexin Liu / Junjie Zhou / Ze Liu / Ziyi Xia / Chaofan Li / Haoge Deng / Jiahao Wang / Kun Luo / Bo Zhang / Defu Lian / Xinlong Wang / Zhongyuan Wang / Tiejun Huang / Zheng Liu 原文: [英文] [中文] 备注: None 摘要: 在这项工作中,我们介绍了OmniGen2,这是一种多功能的开源生成模型,旨在为多种生成任务提供统一的解决方案,包括文本到图像、图像编辑和上下文生成。与OmniGen v1不同,OmniGen2为文本和图像模态提供了两条独特的解码路径,使用不共享的参数和解耦的图像分词器。该设计使OmniGen2能够在现有的多模态理解模型基础上进行构建,而无需重新调整VAE输入,从而保留了原有的文本生成能力。为了促进OmniGen2的训练,我们开发了全面的数据构建管道,涵盖图像编辑和上下文生成数据。此外,我们引入了一种专为图像生成任务设计的反射机制,并基于OmniGen2策划了一个专用的反射数据集。尽管其参数规模相对较小,OmniGen2在多个任务基准上取得了具有竞争力的结果,包括文本到图像和图像编辑。为了进一步评估上下文生成,也称为主题驱动任务,我们引入了一个名为OmniContext的新基准。OmniGen2在一致性方面在开源模型中实现了最先进的性能。我们将发布我们的模型、训练代码、数据集和数据构建管道,以支持该领域的未来研究。项目页面:此https URL GitHub链接:此https URL |
[166] 让你的视频聆听你的音乐! 标题: Let Your Video Listen to Your Music! 作者: Xinyu Zhang / Dong Gong / Zicheng Duan / Anton van den Hengel / Lingqiao Liu 原文: [英文] [中文] 备注: project page: this https URL 摘要: 在多媒体制作中,将视频中的视觉运动节奏与给定的音乐轨道对齐是一种实际需求,但在自动化视频编辑中仍然是一个未被充分探索的任务。运动与音乐节拍之间的有效对齐可以增强观众的参与感和视觉吸引力,特别是在音乐视频、宣传内容和电影剪辑中。现有的方法通常依赖于劳动密集型的手动剪辑、速度调整或基于启发式的编辑技术来实现同步。虽然一些生成模型可以处理视频和音乐的联合生成,但它们往往将这两种模态纠缠在一起,限制了在保留完整视觉内容的同时将视频与音乐节拍对齐的灵活性。在本文中,我们提出了一种新颖且高效的框架,称为MVAA(音乐-视频自动对齐),它可以在保留原始视觉内容的同时自动编辑视频以与给定音乐轨道的节奏对齐。为了增强灵活性,我们在MVAA中将任务模块化为两个步骤:将运动关键帧与音频节拍对齐,然后进行节奏感知的视频修复。具体来说,我们首先在与音乐节拍对齐的时间戳插入关键帧,然后使用帧条件扩散模型生成连贯的中间帧,保留原始视频的语义内容。由于全面的测试时训练可能耗时,我们采用了两阶段策略:首先在一个小型视频集上预训练修复模块以学习一般运动先验,然后在推理时快速微调以适应特定视频。这种混合方法使得在单个NVIDIA 4090 GPU上使用CogVideoX-5b-I2V作为骨干进行一次迭代的适应在10分钟内完成。大量实验表明,我们的方法可以实现高质量的节拍对齐和视觉平滑性。 |
[167] 法线之光:通用光度立体的统一特征表示 标题: Light of Normals: Unified Feature Representation for Universal Photometric Stereo 作者: Hong Li / Houyuan Chen / Chongjie Ye / Zhaoxi Chen / Bohan Li / Shaocong Xu / Xianda Guo / Xuhui Liu / Yikai Wang / Baochang Zhang / Satoshi Ikehata / Boxin Shi / Anyi Rao / Hao Zhao 原文: [英文] [中文] 备注: None 摘要: 通用光度立体(PS)旨在不依赖特定的光照模型下,从物体的任意光照条件中恢复高质量的表面法线。尽管最近有如SDM-UniPS和Uni MS-PS等进展,仍然存在两个基本挑战:1)变化的光照与表面法线特征之间的深度耦合,观察到的强度模糊使得难以确定亮度变化是由光照变化还是表面方向引起的;2)在复杂表面中保持高频几何细节,复杂的几何形状会产生自阴影、相互反射和细微的法线变化,而传统的特征处理操作难以准确捕捉这些细节。 |
[168] 使用生成式多模态大型语言模型进行通用视频时间定位 标题: Universal Video Temporal Grounding with Generative Multi-modal Large Language Models 作者: Zeqian Li / Shangzhe Di / Zhonghua Zhai / Weilin Huang / Yanfeng Wang / Weidi Xie 原文: [英文] [中文] 备注: None 摘要: 本文提出了一种用于通用视频时间定位的计算模型,该模型能够根据自然语言查询(例如问题或描述)准确地定位视频中的时间片段。与现有方法通常局限于特定视频领域或时长不同,我们提出了UniTime,这是一种强大且通用的视频定位模型,利用生成式多模态大型语言模型(MLLMs)的强大视觉-语言理解能力。我们的模型能够有效处理不同视角、类型和长度的视频,同时理解复杂的语言查询。主要贡献包括:(i) 我们考虑引导强大的MLLMs进行视频中的时间定位。为了实现精确的时间戳输出,我们通过将时间戳标记与视频标记交错来引入时间信息。(ii) 通过自适应帧缩放训练模型处理不同输入粒度的视频,我们的方法在短视频和长视频中实现了稳健的时间定位。(iii) 综合实验表明,UniTime在五个公共时间定位基准上的零样本和数据集特定微调设置中均优于最先进的方法。(iv) 当作为长视频问答(VideoQA)的初步时刻检索器使用时,UniTime显著提高了VideoQA的准确性,突显了其在复杂视频理解任务中的价值。 |
[169] 4D-LRM:任意时间任意视角的大时空重建模型 标题: 4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time 作者: Ziqiao Ma / Xuweiyi Chen / Shoubin Yu / Sai Bi / Kai Zhang / Chen Ziwen / Sihan Xu / Jianing Yang / Zexiang Xu / Kalyan Sunkavalli / Mohit Bansal / Joyce Chai / Hao Tan 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 我们是否可以扩展4D预训练,以学习通用的时空表示,从而能够从某些时间的少数视图重建对象到任何时间的任意视图?我们通过4D-LRM提供了一个肯定的答案,这是第一个大规模的4D重建模型,它从不受限制的视图和时间戳输入,并渲染任意的新颖视图-时间组合。与之前的4D方法(如基于优化、几何或生成的方法)在效率、泛化或忠实性方面的困难不同,4D-LRM学习了一个统一的时空表示,并直接从跨时间的姿态图像标记中预测每像素的4D高斯原语,从而实现快速、高质量的渲染,原则上可以达到无限帧率。我们的结果表明,扩展时空预训练可以实现准确且高效的4D重建。我们展示了4D-LRM能够泛化到新颖的对象,跨时间插值,并处理多样的相机设置。它在单个A100 GPU上以不到1.5秒的时间完成一次前向传递,重建24帧序列。 |
[170] 视觉如同方言:通过文本对齐表示统一视觉理解与生成 标题: Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations 作者: Jiaming Han / Hao Chen / Yang Zhao / Hanyu Wang / Qi Zhao / Ziyan Yang / Hao He / Xiangyu Yue / Lu Jiang 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 本文提出了一个多模态框架,尝试在共享的离散语义表示中统一视觉理解和生成。其核心是文本对齐的分词器(TA-Tok),它使用从大型语言模型(LLM)词汇投射的文本对齐码本将图像转换为离散标记。通过将视觉和文本整合到一个具有扩展词汇的统一空间中,我们的多模态LLM,Tar,实现了通过共享接口的跨模态输入和输出,而无需特定模态的设计。此外,我们提出了尺度自适应编码和解码,以平衡效率和视觉细节,并提出了生成性去标记器以生成高保真视觉输出。为了解决多样化的解码需求,我们使用了两种互补的去标记器:快速自回归模型和基于扩散的模型。为了增强模态融合,我们研究了高级预训练任务,展示了在视觉理解和生成方面的改进。跨基准的实验表明,Tar匹配或超越了现有的多模态LLM方法,实现了更快的收敛和更高的训练效率。代码、模型和数据可在此https URL获取。 |
[171] FilMaster:结合电影原理与生成式人工智能的自动化电影生成 标题: FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation 作者: Kaiyi Huang / Yukun Huang / Xintao Wang / Zinan Lin / Xuefei Ning / Pengfei Wan / Di Zhang / Yu Wang / Xihui Liu 原文: [英文] [中文] 备注: Project Page: this https URL 摘要: AI 驱动的内容创作在电影制作中展现了潜力。然而,现有的电影生成系统在实施电影原则方面存在困难,因此无法生成专业质量的电影,特别是在缺乏多样化的镜头语言和电影节奏方面。这导致了模板化的视觉效果和缺乏吸引力的叙事。为了解决这个问题,我们引入了 FilMaster,这是一种端到端的 AI 系统,集成了真实世界的电影原则,用于生成专业级的电影,产生可编辑的、符合行业标准的输出。FilMaster 建立在两个关键原则之上:(1)从大量真实世界的电影数据中学习电影摄影术;(2)模拟以观众为中心的专业后期制作工作流程。受这些原则的启发,FilMaster 包含两个阶段:参考引导生成阶段,将用户输入转换为视频片段;生成后期制作阶段,通过协调视觉和听觉元素以实现电影节奏,将原始素材转化为视听输出。我们的生成阶段强调一个多镜头协同 RAG 镜头语言设计模块,通过从 44 万个电影片段的庞大语料库中检索参考片段来指导 AI 生成专业的镜头语言。我们的后期制作阶段通过设计一个以观众为中心的电影节奏控制模块来模拟专业工作流程,包括粗剪和精剪过程,这些过程由模拟的观众反馈提供信息,以有效整合视听元素,实现引人入胜的内容。该系统由生成式 AI 模型(如(M)LLM 和视频生成模型)提供支持。此外,我们引入了 FilmEval,这是一个用于评估 AI 生成电影的综合基准。大量实验表明,FilMaster 在镜头语言设计和电影节奏控制方面表现优越,推动了生成式 AI 在专业电影制作中的发展。 |
[172] 审计与修复:一种用于文本到图像扩散模型中一致性故事可视化的代理框架 标题: Audit & Repair: An Agentic Framework for Consistent Story Visualization in Text-to-Image Diffusion Models 作者: Kiymet Akdemir / Tahira Kazimi / Pinar Yanardag 原文: [英文] [中文] 备注: Project webpage: this https URL 摘要: 故事可视化已成为一项热门任务,其中视觉场景被生成以描绘跨多个画面的叙述。在这种情况下,一个核心挑战是保持视觉一致性,特别是在角色和物体在整个故事中如何持续和演变。尽管扩散模型最近取得了进展,但当前的方法往往无法保留关键的角色属性,导致叙述不连贯。在这项工作中,我们提出了一个协作多代理框架,该框架能够自主识别、纠正和完善多画面故事可视化中的不一致性。这些代理在一个迭代循环中操作,使得可以进行细粒度的、画面级别的更新,而无需重新生成整个序列。我们的框架与模型无关,可以灵活地与各种扩散模型集成,包括如Flux的校正流变换器和如Stable Diffusion的潜在扩散模型。定量和定性实验表明,我们的方法在多画面一致性方面优于先前的方法。 |
[173] 从虚拟游戏到现实世界的玩耍 标题: From Virtual Games to Real-World Play 作者: Wenqiang Sun / Fangyun Wei / Jinjing Zhao / Xi Chen / Zilong Chen / Hongyang Zhang / Jun Zhang / Yan Lu 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 我们介绍了RealPlay,这是一种基于神经网络的真实世界游戏引擎,可以根据用户的控制信号生成交互式视频。与之前专注于游戏风格视觉效果的工作不同,RealPlay旨在生成逼真且时间一致的视频序列,类似于真实世界的影像。它在一个交互循环中运行:用户观察生成的场景,发出控制命令,并收到一个短视频片段作为响应。为了实现如此逼真且响应迅速的生成,我们解决了几个关键挑战,包括迭代的分块预测以实现低延迟反馈、跨迭代的时间一致性以及准确的控制响应。RealPlay在标记的游戏数据和未标记的真实世界视频的组合上进行训练,而不需要真实世界的动作注释。值得注意的是,我们观察到了两种形式的泛化:(1)控制转移-RealPlay有效地将控制信号从虚拟场景映射到真实世界场景;(2)实体转移-尽管训练标签仅来自赛车游戏,RealPlay能够泛化到控制多种真实世界实体,包括自行车和行人,而不仅仅是车辆。项目页面可以在此URL找到。 |
[174] VMem:使用曲面元素索引视图记忆的一致交互式视频场景生成 标题: VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory 作者: Runjia Li / Philip Torr / Andrea Vedaldi / Tomas Jakab 原文: [英文] 备注: Project page: this https URL 摘要: 我们提出了一种新颖的记忆机制,用于构建可以交互式探索环境的视频生成器。之前的类似成果是通过在逐步重建场景的三维几何结构的同时,扩展场景的二维视图来实现的,这种方法容易快速积累误差;或者通过具有短上下文窗口的视频生成器来实现,这种方法难以在长期内保持场景的一致性。为了解决这些限制,我们引入了 Surfel-Indexed View Memory (VMem),这是一种通过基于观察到的三维表面元素(surfels)对过去视图进行几何索引的机制。VMem 能够在生成新视图时高效地检索最相关的过去视图。通过仅关注这些相关视图,我们的方法在想象环境的探索中产生了一致的结果,并且计算成本仅为使用所有过去视图作为上下文的一小部分。我们在具有挑战性的长期场景合成基准上评估了我们的方法,并展示了在保持场景一致性和相机控制方面,相较于现有方法的优越性能。 |
[175] TC-Light:用于动态长视频的时间一致重光 标题: TC-Light: Temporally Consistent Relighting for Dynamic Long Videos 作者: Yang Liu / Chuanchen Luo / Zimo Tang / Yingyan Li / Yuran Yang / Yuanyong Ning / Lue Fan / Junran Peng / Zhaoxiang Zhang 原文: [英文] [中文] 备注: Project Page: this https URL Code: this https URL 摘要: 在具有复杂动态的长视频中编辑光照在各种下游任务中具有重要价值,包括视觉内容创作和操作,以及通过sim2real和real2real转移来扩展具身AI的数据。然而,现有的视频重光照技术主要局限于人像视频,或者在时间一致性和计算效率上遇到瓶颈。在本文中,我们提出了TC-Light,这是一种新颖的范式,其特点是提出的两阶段后优化机制。首先从通过膨胀视频重光照模型初步重光照的视频开始,在第一阶段优化外观嵌入以对齐全局光照。然后在第二阶段优化提出的规范视频表示,即独特视频张量(UVT),以对齐细粒度的纹理和光照。为了全面评估性能,我们还建立了一个长且高度动态的视频基准。大量实验表明,我们的方法能够实现物理上合理的重光照结果,具有优越的时间一致性和低计算成本。代码和视频演示可在此HTTPS URL获取。 |