![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年6月19日更新论文65篇
|
[1] SemIRNet:用于多模态讽刺检测的语义讽刺识别网络 标题: SemIRNet: A Semantic Irony Recognition Network for Multimodal Sarcasm Detection 作者: Jingxuan Zhou / Yuehao Wu / Yibo Zhang / Yeyubei Zhang / Yunchong Liu / Bolin Huang / Chunhong Yuan 原文: [英文] [中文] 备注: 5 pages, 3 figures 摘要: 针对多模态讽刺检测任务中难以准确识别图文隐含关联的问题,本文提出了一种语义讽刺识别网络(SemIRNet)。该模型包含三个主要创新点:(1)首次引入ConceptNet知识库以获取概念知识,从而增强模型的常识推理能力;(2)设计了两个词级和样本级的跨模态语义相似性检测模块,以不同粒度建模图文关联;(3)引入对比学习损失函数以优化样本特征的空间分布,提高正负样本的可分性。在一个公开的多模态讽刺检测基准数据集上的实验表明,与现有最优方法相比,该模型的准确率和F1值分别提高了1.64%和2.88%,达到88.87%和86.33%。进一步的消融实验验证了知识融合和语义相似性检测在提升模型性能中的重要作用。 |
[2] Argus 检查:多模态大型语言模型是否具备全视之眼? 标题: Argus Inspection: Do Multimodal Large Language Models Possess the Eye of Panoptes? 作者: Yang Yao / Lingyu Li / Jiaxin Song / Chiyu Chen / Zhenqi He / Yixu Wang / Xin Wang / Tianle Gu / Jie Li / Yan Teng / Yingchun Wang 原文: [英文] [中文] 备注: None 摘要: 随着多模态大型语言模型(MLLMs)的不断发展,其认知和推理能力取得了显著进步。然而,在视觉细粒度感知和常识因果推理方面仍然存在挑战。本文介绍了Argus Inspection,这是一种多模态基准,具有两个难度级别,强调详细的视觉识别,同时结合现实世界的常识理解来评估因果推理能力。在此基础上,我们提出了全视之眼框架,该框架结合了二元参数Sigmoid度量和指示函数,使得对MLLMs在基于意见的推理任务中的响应进行更全面的评估。在对26个主流MLLMs进行的实验中,视觉细粒度推理的最高表现仅达到0.46,显示出巨大的提升潜力。我们的研究为MLLMs的持续改进提供了宝贵的视角。 |
[3] 一种用于精确猎鹰疾病检测的混合ConvNeXt-EfficientNet人工智能解决方案 标题: A Hybrid ConvNeXt-EfficientNet AI Solution for Precise Falcon Disease Detection 作者: Alavikunhu Panthakkan / Zubair Medammal / S M Anzar / Fatma Taher / Hussain Al-Ahmad 原文: [英文] [中文] 备注: None 摘要: 鹰猎是一项受人尊敬的传统,涉及训练猎鹰并与其一起狩猎。为了确保这些珍贵鸟类的健康和安全,特别是在狩猎场景中,需要进行细致的健康监测。本文提出了一种创新方法,采用ConvNeXt和EfficientNet人工智能模型的混合体来对猎鹰疾病进行分类。研究重点是准确识别三种状况:正常、肝病和“曲霉病”。研究使用了大量数据集来训练和验证模型,重点关注准确率、精确率、召回率和F1分数等关键性能指标。广泛的测试和分析表明,我们的串联AI模型优于传统的诊断方法和单一模型架构。成功实施这一混合AI模型标志着在精确检测猎鹰疾病方面迈出了重要一步,并为未来AI驱动的鸟类健康解决方案的发展铺平了道路。 |
[4] ViLLa:一种用于动物监测的神经符号方法 标题: ViLLa: A Neuro-Symbolic approach for Animal Monitoring 作者: Harsha Koduri 原文: [英文] [中文] 备注: None 摘要: 在自然环境中监测动物种群需要能够解释视觉数据和人类语言查询的系统。本文介绍了ViLLa(视觉-语言-逻辑方法),这是一种为可解释的动物监测设计的神经符号框架。ViLLa集成了三个核心组件:用于识别图像中动物及其空间位置的视觉检测模块、用于理解自然语言查询的语言解析器,以及应用基于逻辑推理来回答这些查询的符号推理层。给定一张图像和一个问题,例如“场景中有多少只狗?”或“水牛在哪里?”,系统将视觉检测结果转化为符号事实,并使用预定义规则来计算与数量、存在和位置相关的准确答案。与端到端的黑箱模型不同,ViLLa将感知、理解和推理分开,提供了模块化和透明性。该系统在一系列动物图像任务中进行了评估,展示了将视觉内容与结构化、人类可解释查询相结合的能力。 |
[5] GraphGSOcc:基于3D高斯分裂的占用预测的语义和几何图变换器 标题: GraphGSOcc: Semantic and Geometric Graph Transformer for 3D Gaussian Splating-based Occupancy Prediction 作者: Ke Song / Yunhe Wu / Chunchit Siu / Huiyuan Xiong 原文: [英文] [中文] 备注: None 摘要: 针对自动驾驶中的3D语义占用预测任务,我们解决了现有3D高斯分裂(3DGS)方法中的两个关键问题:(1)统一的特征聚合忽视了相似类别之间和跨区域的语义相关性,以及(2)由于MLP迭代优化中缺乏几何约束导致的边界模糊。我们提出了GraphGSOcc模型,这是一种结合语义和几何图Transformer的创新框架,用于基于3D高斯分裂的占用预测。我们提出了双高斯图注意力机制,该机制动态构建双图结构:几何图根据高斯位置自适应计算KNN搜索半径,使得大规模高斯能够从更广泛的邻域聚合特征,而紧凑的高斯则专注于局部几何一致性;语义图通过余弦相似性保留前M个高度相关的节点,以显式编码实例内和跨实例的语义关系。结合多尺度图注意力框架,低层的细粒度注意力优化边界细节,而高层的粗粒度注意力则建模对象级拓扑。在SurroundOcc数据集上的实验实现了24.10%的mIoU,将GPU内存减少到6.1 GB,与GaussianWorld相比,mIoU提高了1.97%,内存减少了13.7%。 |
[6] DAVID-XR1:通过可解释推理检测AI生成的视频 标题: DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning 作者: Yifeng Gao / Yifan Ding / Hongyu Su / Juncheng Li / Yunhan Zhao / Lin Luo / Zixing Chen / Li Wang / Xin Wang / Yixu Wang / Xingjun Ma / Yu-Gang Jiang 原文: [英文] [中文] 备注: None 摘要: 随着AI生成视频在媒体平台上的日益普及,可靠地区分合成内容和真实影像的能力变得既紧迫又必要。现有的方法主要将这一挑战视为一个二元分类任务,对模型为何或如何识别视频为AI生成的提供的见解有限。然而,核心挑战不仅仅在于检测微妙的伪影;还需要提供细致入微、令人信服的证据,以说服审计人员和终端用户。为了解决这一关键差距,我们引入了DAVID-X,这是第一个将AI生成视频与详细的缺陷级别、时空注释和书面理由配对的数据集。利用这些丰富的注释,我们提出了DAVID-XR1,这是一种视频语言模型,旨在提供可解释的视觉推理链,包括缺陷分类、时空定位和自然语言解释。这种方法从根本上将AI生成视频检测从不透明的黑箱决策转变为透明且可验证的诊断过程。我们证明了一个通用的骨干网络,在我们紧凑的数据集上进行微调并通过思维链蒸馏增强后,能够在各种生成器和生成模式中实现强大的泛化能力。我们的结果突显了解释性检测方法在可信识别AI生成视频内容方面的前景。 |
[7] 多智能体人类轨迹预测的最新进展:综合综述 标题: Recent Advances in Multi-Agent Human Trajectory Prediction: A Comprehensive Review 作者: Céline Finet / Stephane Da Silva Martins / Jean-Bernard Hayet / Ioannis Karamouzas / Javad Amirian / Sylvie Le Hégarat-Mascle / Julien Pettré / Emanuel Aldea 原文: [英文] [中文] 备注: 30 pages 摘要: 随着强大的数据驱动方法在人类轨迹预测(HTP)中的出现,对多智能体交互的更细致理解已触手可及,这在自动导航和人群建模等领域具有重要意义。本文综述了基于深度学习的多智能体轨迹预测领域中一些最新的进展,重点关注2020年至2024年间发表的研究。我们根据其架构设计、输入表示和整体预测策略对现有方法进行分类,特别强调使用ETH/UCY基准进行评估的模型。此外,我们还强调了多智能体HTP领域中的关键挑战和未来研究方向。 |
[8] ArchShapeNet:一种用于评估建筑形状的可解释3D-CNN框架 标题: ArchShapeNet:An Interpretable 3D-CNN Framework for Evaluating Architectural Shapes 作者: Jun Yin / Jing Zhong / Pengyu Zeng / Peilin Li / Zixuan Dai / Miao Zhang / Shuai Lu 原文: [英文] 备注: 22 pages, 8 figures 摘要: 在当代建筑设计中,设计需求的日益复杂和多样化使得生成插件工具成为快速产生初步概念和探索新颖3D形式的必备工具。然而,客观分析人类设计和机器生成的3D形式之间的差异仍然是一个挑战,这限制了我们对它们各自优势的理解,并阻碍了生成工具的进步。 为了解决这个问题,我们构建了ArchForms-4000数据集,其中包含2000个建筑师设计的和2000个Evomass生成的3D形式;提出了ArchShapeNet,这是一种专门用于分类和分析建筑形式的3D卷积神经网络,结合了一个显著性模块,以突出与建筑推理一致的关键空间特征;并进行了比较实验,显示我们的模型在区分形式来源方面优于人类专家,达到了94.29%的准确率、96.2%的精确率和98.51%的召回率。 本研究不仅突出了人类设计形式在空间组织、比例和谐以及细节精炼方面的独特优势,还为未来增强生成设计工具提供了宝贵的见解。 |
[9] 使用基于熵的自适应缓冲和MobileNetV2在边缘设备上进行实时低延迟监控 标题: Real-Time, Low-Latency Surveillance Using Entropy-Based Adaptive Buffering and MobileNetV2 on Edge Devices 作者: Poojashree Chandrashekar Pankaj M Sajjanar 原文: [英文] [中文] 备注: & pages 摘要: 本文描述了一种为资源受限环境设计的高性能、低延迟视频监控系统。我们提出了一种基于熵的自适应帧缓冲算法,并将其与MobileNetV2集成,以实现高吞吐量和低延迟。该系统能够在资源受限设备(如Raspberry Pi、Amazon和NVIDIA Jetson Nano)上以低于50毫秒的端到端推理延迟处理视频直播流。我们的方法在专注于视频监控的标准数据集上保持了超过92%的检测准确率,并且在不同的光照、背景和速度下表现出鲁棒性。多项对比和消融实验验证了我们设计的有效性。最后,我们的架构具有可扩展性、低成本,并且符合比常见监控系统更严格的数据隐私法规,因此该系统可以在智慧城市或嵌入式安全架构中共存。 |
[10] MonoVQD:基于变分查询去噪和自蒸馏的单目3D目标检测 标题: MonoVQD: Monocular 3D Object Detection with Variational Query Denoising and Self-Distillation 作者: Kiet Dang Vu / Trung Thai Tran / Duc Dung Nguyen 原文: [英文] [中文] 备注: None 摘要: 从单张图像中精确定位3D对象是单目3D检测中的一个核心挑战。虽然类似DETR的架构提供了一个强大的范式,但它们在这一领域的直接应用遇到了固有的限制,无法实现最佳性能。我们的工作通过引入MonoVQD来解决这些挑战,这是一种旨在从根本上推进基于DETR的单目3D检测的新框架。我们提出了三个主要贡献。首先,我们提出了掩码分离自注意力机制,使去噪过程能够集成到DETR架构中。这提高了匈牙利匹配的稳定性,以实现一致的优化目标。其次,我们提出了变分查询去噪技术,以解决传统去噪方法的梯度消失问题,这严重限制了去噪过程的效率。该技术显式引入随机特性以缓解这一根本限制,并释放出显著的性能提升。最后,我们引入了一种复杂的自蒸馏策略,利用后期解码器层的洞察力协同改善早期层的查询质量,从而增强迭代优化过程。严格的实验表明,MonoVQD在具有挑战性的KITTI单目基准上实现了卓越的性能。强调其广泛的适用性,MonoVQD的核心组件可以无缝集成到其他架构中,即使在nuScenes数据集的多视图3D检测场景中也能带来显著的性能提升,突显其强大的泛化能力。 |
[11] 通过结构化指令改进图表到代码生成的迭代优化 标题: Improved Iterative Refinement for Chart-to-Code Generation via Structured Instruction 作者: Chengzhi Xu / Yuyang Wang / Lai Wei / Lichao Sun / Weiran Huang 原文: [英文] [中文] 备注: None 摘要: 近年来,多模态大型语言模型(MLLMs)因其强大的视觉理解能力而受到越来越多的研究关注。尽管它们在各种视觉任务中取得了令人印象深刻的成果,但在图表到代码生成任务中的表现仍不尽如人意。该任务要求MLLMs生成可执行代码以重现给定的图表,这不仅需要精确的视觉理解,还需要将视觉元素准确地翻译成结构化代码。直接提示MLLMs执行这一复杂任务往往会产生不理想的结果。为了解决这一挑战,我们提出了{ChartIR},一种基于结构化指令的迭代优化方法。首先,我们区分了两个任务:视觉理解和代码翻译。为了完成视觉理解部分,我们设计了两种类型的结构化指令:描述和差异。描述指令捕捉参考图表的视觉元素,而差异指令则描述参考图表与生成图表之间的差异。这些指令有效地将视觉特征转化为语言表示,从而促进后续的代码翻译过程。其次,我们将整体图表生成流程分解为两个阶段:初始代码生成和迭代优化,从而逐步增强最终输出。实验结果表明,与其他方法相比,我们的方法在开源模型Qwen2-VL和闭源模型GPT-4o上均取得了更优的性能。 |
[12] PictSure:预训练嵌入对情境学习图像分类器的重要性 标题: PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers 作者: Lukas Schiesser / Cornelius Wolff / Sophie Haas / Simon Pukrop 原文: [英文] [中文] 备注: 15 pages, 10 figures 摘要: 在数据稀缺领域中构建图像分类模型仍然是一个繁琐的过程,因为收集大型标注数据集是不切实际的。上下文学习(ICL)作为一种有前途的少样本图像分类(FSIC)范式出现,使得模型能够在不依赖梯度适应的情况下跨领域泛化。然而,之前的工作在很大程度上忽略了基于ICL的FSIC流程中的一个关键组成部分:图像嵌入的作用。在这项工作中,我们提出了PictSure,一个将嵌入模型——其架构、预训练和训练动态——置于分析中心的ICL框架。我们系统地研究了不同视觉编码器类型、预训练目标和微调策略对下游FSIC性能的影响。我们的实验表明,训练的成功和域外性能高度依赖于嵌入模型的预训练方式。因此,PictSure在与训练分布显著不同的域外基准上成功超越现有的基于ICL的FSIC模型,同时在域内任务上保持了可比的结果。代码可以在这个https URL找到。 |
[13] 在卷积神经网络中寻找最优核大小和维度:一种架构优化方法 标题: Finding Optimal Kernel Size and Dimension in Convolutional Neural Networks An Architecture Optimization Approach 作者: Shreyas Rajeev / B Sathish Babu 原文: [英文] 备注: None 摘要: 在卷积神经网络(CNNs)中,卷积核大小的选择是一个关键但常常被忽视的设计决策,它影响感受野、特征提取、计算成本和模型精度。本文提出了最佳卷积核大小估计函数(BKSEF),这是一个在数学上有依据并经过实验证实的框架,用于逐层确定最佳卷积核大小。BKSEF通过整合信息论、信号处理和学习理论的原理,在信息增益、计算效率和精度提升之间取得平衡。对CIFAR-10、CIFAR-100、ImageNet-lite、ChestX-ray14和GTSRB数据集的大量实验表明,与使用统一3x3卷积核的传统模型相比,BKSEF指导的架构在精度上提高了最多3.1个百分点,FLOPs减少了42.8%。两个真实世界的案例研究进一步验证了该方法:一个是在云端环境中进行医学图像分类,另一个是在边缘设备上进行交通标志识别。前者实现了更高的可解释性和精度,而后者显著降低了延迟和模型大小,同时精度损失极小。这些结果表明,卷积核大小可以是一个可优化的主动参数,而不是一个固定的经验法则。BKSEF为寻求高效且应用感知的CNN设计的研究人员和开发人员提供了实用的启发和理论支持。它适合集成到神经架构搜索管道和实时系统中,为CNN优化提供了新的视角。 |
[14] 高效的零售视频标注:一种用于产品和客户互动分析的稳健关键帧生成方法 标题: Efficient Retail Video Annotation: A Robust Key Frame Generation Approach for Product and Customer Interaction Analysis 作者: Varun Mannam / Zhenyu Shi 原文: [英文] [中文] 备注: Submitting to ICCV 2025 workshop: this https URL 摘要: 准确的视频标注在现代零售应用中起着至关重要的作用,包括顾客行为分析、产品互动检测和店内活动识别。然而,传统的标注方法严重依赖于人工标注员耗时的手动标记,导致帧选择不够稳健并增加了运营成本。为了解决零售领域的这些挑战,我们提出了一种基于深度学习的方法,该方法能够自动识别零售视频中的关键帧,并自动标注产品和顾客。我们的方法利用深度神经网络通过嵌入视频帧来学习判别特征,并结合针对零售环境定制的目标检测技术。实验结果展示了我们的方法相较于传统方法的优越性,达到了与人工标注员标记相当的准确性,同时提高了零售视频标注的整体效率。值得注意的是,我们的方法在视频标注中平均节省了2倍的成本。通过让人工标注员验证/调整视频数据集中不到5%的检测帧,同时自动化其余帧的标注过程而不降低标注质量,零售商可以显著降低运营成本。关键帧检测的自动化在零售视频标注任务中节省了大量的时间和精力,对于购物者旅程分析、产品互动检测和店内安全监控等多种零售应用具有极高的价值。 |
[15] 窥探未知:利用神经不确定性图进行3D重建的主动视图选择 标题: Peering into the Unknown: Active View Selection with Neural Uncertainty Maps for 3D Reconstruction 作者: Zhengquan Zhang / Feng Xu / Mengmi Zhang 原文: [英文] [中文] 备注: 9 pages, 3 figures in the main text. Under review for NeurIPS 2025 摘要: 某些视角自然地提供比其他视角更多的信息。AI系统如何确定哪个视角为准确和高效的3D对象重建提供了最有价值的见解?3D重建的主动视角选择(AVS)仍然是计算机视觉中的一个基本挑战。其目标是识别出能够产生最准确3D重建的最小视角集。我们引入了一种新颖的AVS方法,而不是像NeRF或3D高斯散射那样从当前观察中学习辐射场并计算每个候选视角的不确定性。该方法由一个轻量级前馈深度神经网络UPNet预测的神经不确定性图引导。UPNet接收3D对象的单个输入图像,并输出一个预测的不确定性图,表示所有可能候选视角的不确定性值。通过利用从观察许多自然对象及其相关不确定性模式中得出的启发式方法,我们训练UPNet学习从视角外观到基础体积表示不确定性的直接映射。接下来,我们的方法聚合所有先前预测的神经不确定性图,以抑制冗余的候选视角,并有效选择最具信息量的视角。使用这些选定的视角,我们训练3D神经渲染模型,并将新视角合成的质量与其他竞争性AVS方法进行评估。值得注意的是,尽管使用的视角数量仅为上限的一半,我们的方法在重建精度上达到了可比的水平。此外,它显著减少了AVS过程中的计算开销,与基线方法相比,CPU、RAM和GPU的使用量减少了超过50%,并实现了高达400倍的加速。值得一提的是,我们的方法在涉及新对象类别的AVS任务中有效地实现了泛化,而无需任何额外的训练。 |
[16] DETONATE:文本到图像对齐和核化直接偏好优化的基准 标题: DETONATE: A Benchmark for Text-to-Image Alignment and Kernelized Direct Preference Optimization 作者: Renjith Prasad / Abhilekh Borah / Hasnat Md Abdullah / Chathurangi Shyalika / Gurpreet Singh / Ritvik Garimella / Rajarshi Roy / Harshul Surana / Nasrin Imanpour / Suranjana Trivedy / Amit Sheth / Amitava Das 原文: [英文] [中文] 备注: 59 pages, 10 figures 摘要: 对齐对于文本到图像(T2I)模型至关重要,以确保生成的图像能够忠实地捕捉用户意图,同时保持安全性和公平性。直接偏好优化(DPO),在大型语言模型(LLM)中很突出,正在将其影响扩展到T2I系统。本文介绍了用于T2I模型的DPO-Kernels,这是一种新颖的扩展,在三个维度上增强对齐:(i)混合损失,将基于嵌入的目标与传统的基于概率的损失相结合,以改善优化;(ii)核化表示,采用径向基函数(RBF)、多项式和小波核进行更丰富的特征变换,并更好地区分安全和不安全输入;(iii)散度选择,超越DPO默认的Kullback-Leibler(KL)正则化器,通过引入Wasserstein和R'enyi散度来增强稳定性和鲁棒性。我们引入了DETONATE,这是同类中第一个大规模基准,包含大约10万对精心挑选的图像对,分为选择和拒绝两类。DETONATE涵盖了种族、性别和残疾三个社会偏见和歧视的轴。提示来自仇恨言论数据集,图像由领先的T2I模型生成,包括Stable Diffusion 3.5 Large、Stable Diffusion XL和Midjourney。此外,我们提出了对齐质量指数(AQI),这是一种新颖的几何度量,用于量化安全/不安全图像激活的潜在空间可分性,揭示隐藏的漏洞。实证上,我们证明了DPO-Kernels通过重尾自正则化(HT-SR)保持强大的泛化界限。DETONATE和完整代码已公开发布。 |
[17] PeRL: 用于交错视觉-语言推理的置换增强型强化学习 标题: PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning 作者: Yizhen Zhang / Yang Ding / Shuoshuo Zhang / Xinchen Zhang / Haoling Li / Zhong-zhi Li / Peijie Wang / Jie Wu / Lei Ji / Yelong Shen / Yujiu Yang / Yeyun Gong 原文: [英文] [中文] 备注: None 摘要: 受到像 DeepSeek-R1 这样的强化学习方法所展示的出色推理能力的启发,近期新兴的研究开始探索使用强化学习(RL)来增强视觉-语言模型(VLMs)在多模态推理任务中的表现。然而,大多数现有的多模态强化学习方法仍然局限于单一图像情境中的空间推理,且在推广到涉及多图像位置推理的更复杂和真实的场景时仍然面临困难,在这些场景中,理解图像之间的关系至关重要。为了解决这一挑战,我们提出了一种通用的强化学习方法 PeRL,专为交错的多模态任务设计,并采用了一种多阶段策略,以增强探索-利用权衡,从而提高学习效率和任务表现。具体来说,我们引入了图像序列的排列,以模拟多样的位置关系,从而探索更多的空间和位置多样性。此外,我们设计了一种回溯过滤机制用于重采样,以专注于对学习最优行为贡献最大的轨迹,从而有效利用已学习的策略。我们在5个广泛使用的多图像基准和3个单图像基准上评估了我们的模型。我们的实验结果证实,经过 PeRL 训练的模型在多图像基准上始终大幅超越与 R1 相关的和交错的 VLM 基线,同时在单图像任务上保持了可比的性能。 |
[18] 频率校准的成员推断攻击在医学图像扩散模型中的应用 标题: Frequency-Calibrated Membership Inference Attacks on Medical Image Diffusion Models 作者: Xinkai Zhao / Yuta Tokuoka / Junichiro Iwasawa / Keita Oda 原文: [英文] [中文] 备注: None 摘要: 扩散模型在图像生成中的日益普及,尤其是在医学影像等敏感领域,引发了显著的隐私担忧。成员推断攻击(Membership Inference Attack, MIA)已成为一种潜在的方法,用于确定特定图像是否被用于训练扩散模型,从而量化隐私风险。现有的MIA方法通常依赖于扩散重建误差,其中成员图像预计会比非成员图像具有更低的重建误差。然而,将这些方法直接应用于医学图像时面临挑战。重建误差受到图像固有难度的影响,而扩散模型在高频细节重建方面存在困难。为了解决这些问题,我们提出了一种用于医学图像扩散模型的频率校准重建误差(Frequency-Calibrated Reconstruction Error, FCRE)方法。通过专注于特定中频范围内的重建误差,并排除高频(难以重建)和低频(信息量较少)区域,我们的频率选择性方法减轻了图像固有难度的混淆因素。具体来说,我们分析了逆扩散过程,获得中频重建误差,并计算重建图像与原始图像之间的结构相似性指数分数。通过将该分数与阈值进行比较来确定成员身份。在多个医学图像数据集上的实验表明,我们的FCRE方法优于现有的MIA方法。 |
[19] 用于从量能器图像进行夸克-胶子喷注分类的端到端视觉变换器 标题: Vision Transformers for End-to-End Quark-Gluon Jet Classification from Calorimeter Images 作者: Md Abrar Jahin / Shahriar Soudeep / Arian Rahman Aditta / M. F. Mridha / Nafiz Fahad / Md. Jakir Hossen 原文: [英文] [中文] 备注: Accepted in Third International Workshop on Generalizing from Limited Resources in the Open World Workshop at International Joint Conference on Artificial Intelligence (IJCAI) 2025 摘要: 在高能物理中,区分夸克和胶子引发的喷注是一项关键且具有挑战性的任务,对于改进新物理搜索和在大型强子对撞机上的精密测量至关重要。尽管深度学习,特别是卷积神经网络(CNN),在使用基于图像的表示进行喷注标记方面取得了进展,但视觉变换器(ViT)架构在直接卡路里图像分析中的潜力,尤其是在现实的探测器和堆积条件下,仍然很少被探索。本文对使用模拟的2012年CMS开放数据进行夸克-胶子喷注分类的ViT和ViT-CNN混合模型进行了系统评估。我们从探测器级能量沉积(ECAL, HCAL)和重建轨迹构建多通道喷注视图图像,实现端到端的学习方法。我们的全面基准测试表明,基于ViT的模型,特别是ViT+MaxViT和ViT+ConvNeXt混合模型,在F1分数、ROC-AUC和准确性方面始终优于已建立的CNN基线,突出了在喷注子结构中捕捉长程空间相关性的优势。这项工作建立了第一个系统框架和稳健的性能基线,用于将ViT架构应用于基于卡路里图像的喷注分类,使用公共对撞机数据,并提供了一个适合该领域进一步深度学习研究的结构化数据集。 |
[20] 合规检测的进展:使用基于视觉的触觉传感器的新模型 标题: Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors 作者: Ziteng Li / Malte Kuhlmann / Ilana Nisky / Nicolás Navarro-Guerrero 原文: [英文] 备注: Accepted in the IEEE International Conference on Development and Learning (ICDL). The paper contains 8 pages and 7 figures 摘要: 顺应性是工程、农业和生物医学应用中描述物体的一个关键参数。传统的顺应性检测方法由于缺乏便携性和可扩展性而受到限制,依赖于专门的、通常昂贵的设备,并且不适合机器人应用。此外,现有基于神经网络的方法使用基于视觉的触觉传感器仍然存在预测精度不足的问题。在本文中,我们提出了两种基于长期递归卷积网络(LRCNs)和Transformer架构的模型,这些模型利用RGB触觉图像和由基于视觉的传感器GelSight捕获的其他信息来准确预测顺应性指标。我们使用多种指标验证了这些模型的性能,并证明了它们在准确估计顺应性方面的有效性。所提出的模型在性能上相较于基线有显著提升。此外,我们研究了传感器顺应性与物体顺应性估计之间的相关性,结果表明比传感器更硬的物体更难以估计。 |
[21] 用于历史地图文本识别的超局部可变形变压器 标题: Hyper-Local Deformable Transformers for Text Spotting on Historical Maps 作者: Yijun Lin / Yao-Yi Chiang 原文: [英文] [中文] 备注: Published in KDD2024 摘要: 历史地图上的文字包含了提供地理参考的历史、政治和文化背景的宝贵信息。然而,由于缺乏(1)有效的方法和(2)训练数据,从历史地图中提取文字具有挑战性。以往的方法使用了仅适用于特定地图风格的临时步骤。最近基于机器学习的文字检测器(例如用于场景图像的)由于其在支持各种类型的文字实例方面的灵活性,有可能解决这些挑战。然而,这些方法在提取用于预测文字实例中每个子组件(边界点和字符)的精确图像特征方面仍然存在挑战。这一点至关重要,因为地图文字可能较长且高度旋转,背景复杂,这给从粗略的文字区域中检测相关图像特征带来了困难。本文提出了PALETTE,一种用于多种扫描历史地图的端到端文字检测器。PALETTE引入了一种新颖的超局部采样模块,以显式学习围绕文字实例的目标边界点和字符的局部化图像特征,以进行检测和识别。PALETTE还支持超局部位置嵌入,以学习边界点和字符在文字实例内及跨实例之间的空间交互。此外,本文提出了一种新颖的方法来自动生成合成地图图像SynthMap+,用于训练历史地图的文字检测器。实验表明,PALETTE结合SynthMap+在两个新的历史地图基准数据集上优于现有的文字检测器,特别是在处理长文本和倾斜文本方面。我们已将PALETTE与SynthMap+部署到David Rumsey历史地图收藏中,处理了超过60,000张地图,并生成了超过1亿个文字标签以支持地图搜索。项目已在此https URL发布。 |
[22] 打破风格的桎梏:我们真的要在风格迁移中限制想象力吗? 标题: Break Stylistic Sophon: Are We Really Meant to Confine the Imagination in Style Transfer? 作者: Gary Song Yan / Yusen Zhang / Jinyu Zhao / Hao Zhang / Zhangping Yang / Guanye Xiong / Yanfei Liu / Tao Zhang / Yujie He / Siyuan Tian / Yao Gou / Min Li 原文: [英文] [中文] 备注: None 摘要: 在这项开创性研究中,我们介绍了StyleWallfacer,这是一种突破性的统一训练和推理框架,不仅解决了传统方法在风格迁移过程中遇到的各种问题,还统一了不同任务的框架。该框架旨在通过实现艺术家级别的风格迁移和文本驱动的风格化来革新这一领域。首先,我们提出了一种基于语义的风格注入方法,该方法使用BLIP生成与CLIP空间中风格图像语义严格对齐的文本描述。通过利用大型语言模型从这些描述中去除与风格相关的描述,我们创建了一个语义差距。然后利用这个差距来微调模型,实现高效且无漂移的风格知识注入。其次,我们提出了一种基于人类反馈的数据增强策略,将微调过程早期生成的高质量样本纳入训练集,以促进渐进学习并显著减少过拟合。最后,我们设计了一种无需训练的三重扩散过程,使用微调后的模型,以类似于交叉注意机制的方式操控自注意层的特征。具体来说,在生成过程中,内容相关过程的键和值被替换为风格相关过程的键和值,以注入风格,同时保持对模型的文本控制。我们还引入了查询保留,以减轻对原始内容的干扰。在这样的设计下,我们实现了高质量的图像驱动风格迁移和文本驱动风格化,提供了艺术家级别的风格迁移结果,同时保留了原始图像内容。此外,我们首次在风格迁移过程中实现了图像颜色编辑。 |
[23] 通过分布匹配增强矢量量化:理论与实证研究 标题: Enhancing Vector Quantization with Distributional Matching: A Theoretical and Empirical Study 作者: Xianghong Fang / Litao Guo / Hengchao Chen / Yuxuan Zhang / XiaofanXia / Dingjie Song / Yexin Liu / Hao Wang / Harry Yang / Yuan Yuan / Qiang Sun 原文: [英文] [中文] 备注: None 摘要: 自回归模型的成功在很大程度上依赖于矢量量化的有效性,这是一种通过将连续特征映射到可学习码本中的最近码向量来离散化连续特征的技术。现有矢量量化方法的两个关键问题是训练不稳定性和码本崩溃。训练不稳定性源于直通估计器引入的梯度差异,特别是在存在显著量化误差的情况下,而码本崩溃则发生在训练过程中仅使用了一小部分码向量时。对这些问题的深入研究表明,它们主要是由特征和码向量的分布不匹配引起的,导致码向量不具代表性,并在压缩过程中造成显著的数据信息损失。为了解决这个问题,我们采用Wasserstein距离来对齐这两个分布,实现了接近100%的码本利用率,并显著减少了量化误差。实证和理论分析均验证了所提出方法的有效性。 |
[24] SynPo:通过高质量负提示提升无训练少样本医学分割 标题: SynPo: Boosting Training-Free Few-Shot Medical Segmentation via High-Quality Negative Prompts 作者: Yufei Liu / Haoke Xiao / Jiaxing Chai / Yongcun Zhang / Rong Wang / Zijie Meng / Zhiming Luo 原文: [英文] [中文] 备注: None 摘要: 大型视觉模型(LVMs)的出现为少样本医学图像分割提供了新的机会。然而,现有基于LVMs的无训练方法未能有效利用负提示,导致在低对比度医学图像上的表现不佳。为了解决这个问题,我们提出了SynPo,这是一种基于LVMs(例如SAM)的无训练少样本方法,其核心见解是:提高负提示的质量。为了在更可靠的置信度图中选择点提示,我们设计了一个新颖的置信度图协同模块,通过结合DINOv2和SAM的优势来实现。基于置信度图,我们选择前k个像素作为正点集,并使用高斯分布选择负点集,随后对这两个集合进行独立的K-means聚类。然后,这些选定的点被用作高质量的提示,供SAM获取分割结果。大量实验表明,SynPo的性能可与最先进的基于训练的少样本方法相媲美。 |
[25] 通过基于跨阶段结构相关性的邻域聚合校正增强点云分析 标题: Enhancing point cloud analysis via neighbor aggregation correction based on cross-stage structure correlation 作者: Jiaqi Shi / Jin Xiao / Xiaoguang Hu / Boyang Song / Hao Jiang / Tianyou Chen / Baochang Zhang 原文: [英文] [中文] 备注: 17 papes, 7 figures 摘要: 点云分析是许多下游任务的基石,其中聚合局部结构是理解点云数据的基础。尽管许多工作使用三维相对坐标来聚合邻域,但由于局部坐标的限制,存在不相关点干扰和特征层次差距问题。虽然一些工作通过显式建模跨阶段结构来改进空间描述以解决这一限制,但这些基于直接几何结构编码的增强方法存在高计算开销和噪声敏感性的问题。为了解决这些问题,我们提出了点分布集抽象模块(PDSA),该模块利用高维空间中的相关性在聚合过程中校正特征分布,从而提高计算效率和鲁棒性。PDSA基于轻量级的跨阶段结构描述符区分点相关性,并通过减少邻域特征矩阵的方差和通过长距离建模增加类别可分性来增强结构同质性。此外,我们引入了关键点机制来优化计算开销。在基于不同基线的语义分割和分类任务上的实验结果验证了我们所提出方法的泛化性,并在较少参数成本的情况下实现了显著的性能提升。相应的消融和可视化结果证明了我们方法的有效性和合理性。代码和训练权重可在此网址获取:this https URL |
[26] Echo-DND:一种用于超声心动图中左心室稳健且精确分割的双重噪声扩散模型 标题: Echo-DND: A dual noise diffusion model for robust and precise left ventricle segmentation in echocardiography 作者: Abdur Rahman / Keerthiveena Balraj / Manojkumar Ramteke / Anurag Singh Rathore 原文: [英文] 备注: Version of record published in Discover Applied Sciences (Springer Nature). The definitive article is available at this https URL 摘要: 最近在扩散概率模型(DPMs)方面的进展已经彻底改变了图像处理技术,并在医学应用中展示了显著的潜力。准确分割超声心动图中的左心室(LV)对于诊断程序和必要的治疗至关重要。然而,超声图像通常噪声较大,对比度低,且左心室边界模糊,从而使分割过程变得复杂。为了解决这些挑战,本文介绍了一种新颖的双噪声扩散模型Echo-DND,专门为此任务设计。Echo-DND利用了高斯噪声和伯努利噪声的独特组合。它还结合了多尺度融合条件模块以提高分割精度。此外,它利用空间一致性校准来保持分割掩码的空间完整性。该模型的性能在CAMUS和EchoNet-Dynamic数据集上进行了严格验证。广泛的评估表明,所提出的框架优于现有的SOTA模型。在这些数据集上分别实现了0.962和0.939的高Dice分数。所提出的Echo-DND模型在超声心动图分割中建立了新的标准,其架构在其他医学成像任务中具有更广泛的应用潜力,有望提高各个医学领域的诊断准确性。项目页面:this https URL |
[27] ReSeDis:一个用于基于指称的大规模图像集合对象搜索的数据集 标题: ReSeDis: A Dataset for Referring-based Object Search across Large-Scale Image Collections 作者: Ziling Huang / Yidan Zhang / Shin'ichi Satoh 原文: [英文] [中文] 备注: None 摘要: 大规模视觉搜索引擎需要同时解决两个问题:(i)定位每张真正包含句子中描述的对象的图像,以及(ii)识别每个命中图像中对象的边界框或确切像素。现有技术仅解决了这一挑战的一个方面。视觉定位能够生成紧密的边界框和掩码,但基于对象在每个测试图像中都存在的非现实假设,当应用于网络规模的集合时,会产生大量误报。文本到图像检索在筛选海量数据库以排名相关图像方面表现出色,但仅限于整图匹配,并未提供细粒度的定位。我们介绍了指称搜索与发现(ReSeDis),这是第一个将语料库级检索与像素级定位统一起来的任务。给定一个自由形式的描述,ReSeDis模型必须决定查询对象是否出现在每张图像中,如果出现,则返回边界框或分割掩码以指明其位置。为了进行严格研究,我们策划了一个基准,其中每个描述唯一映射到分散在大型多样化语料库中的对象实例,消除了意外匹配。我们进一步设计了一个任务特定的指标,联合评分检索召回率和定位精度。最后,我们提供了一个简单的零样本基线,使用冻结的视觉语言模型,揭示了未来研究的显著提升空间。ReSeDis为构建下一代强大且可扩展的多模态搜索系统提供了一个现实的端到端测试平台。 |
[28] 征服视网膜:将视觉上下文学习引入OCT 标题: Conquering the Retina: Bringing Visual in-Context Learning to OCT 作者: Alessio Negrini / Simon Reiß 原文: [英文] [中文] 备注: None 摘要: 最近在医学图像分析领域的进展促使开发出针对特定临床任务的高度专业化模型。这些模型表现出卓越的性能,并且仍然是一个重要的研究方向。然而,它们的适用性仅限于预定义的任务,开发和适应这些模型需要专业知识和大量资源。相比之下,通用模型提供了另一种实用性:允许医学从业者在不需要特定任务模型开发的情况下即时定义任务。在这项工作中,我们探讨了如何使用视觉上下文学习(VICL)训练视网膜光学相干断层扫描领域的通用模型,即训练模型在推理时基于提供的少量示例跨任务进行泛化。为了促进严格评估,我们提出了一种广泛的评估协议,专门针对OCT中的VICL。我们在多个视网膜OCT数据集上广泛评估了一种最先进的医学VICL方法,建立了一个基准以突出OCT上下文学习的潜力和当前局限性。为了促进进一步的研究和实际应用,我们公开发布了我们的代码。 |
[29] 隐私屏蔽图像压缩:防御视觉语言预训练模型的利用 标题: Privacy-Shielded Image Compression: Defending Against Exploitation from Vision-Language Pretrained Models 作者: Xuelin Shen / Jiayin Xu / Kangsheng Yin / Wenhan Yang 原文: [英文] [中文] 备注: 11 pages, 6 figures, publised to ICML 2025 摘要: 随着视觉-语言预训练(VLP)模型的语义理解能力的提高,保护公开发布的图像不被搜索引擎和其他类似工具利用变得越来越困难。在此背景下,本文旨在通过在图像压缩阶段实施防御措施来保护用户隐私,以防止被利用。具体而言,我们提出了一种灵活的编码方法,称为隐私屏蔽图像压缩(PSIC),可以生成具有多种解码选项的比特流。默认情况下,比特流被解码以保持令人满意的感知质量,同时防止VLP模型的解释。我们的方法还保留了原始图像压缩功能。通过可定制的输入条件,所提出的方案可以重建保留其完整语义信息的图像。我们提出了一个条件潜在触发生成(CLTG)模块,用于根据可定制条件生成偏置信息,以指导解码过程进入不同的重建版本,并设计了一个不确定性感知的面向加密(UAEO)优化函数,以利用从目标VLP模型对训练数据的不确定性推断出的软标签。本文进一步结合了一种自适应多目标优化策略,以在统一的训练过程中同时获得改进的加密性能和感知质量。所提出的方案是即插即用的,可以无缝集成到大多数现有的学习图像压缩(LIC)模型中。跨多个下游任务的大量实验证明了我们设计的有效性。 |
[30] DM-FNet:通过扩散过程训练的编码器-解码器实现统一的多模态医学图像融合 标题: DM-FNet: Unified multimodal medical image fusion via diffusion process-trained encoder-decoder 作者: Dan He / Weisheng Li / Guofen Wang / Yuping Huang / Shiqiang Liu 原文: [英文] [中文] 备注: This paper has been accepted by IEEE Transactions on Multimedia (TMM) in March 2025 摘要: 多模态医学图像融合(MMIF)从多个源图像中提取最有意义的信息,从而实现更全面和准确的诊断。要获得高质量的融合结果,需要在亮度、颜色、对比度和细节之间进行仔细的平衡;这确保了融合图像能够有效地显示相关的解剖结构并反映组织的功能状态。然而,现有的MMIF方法在常规训练中捕捉详细特征的能力有限,并且跨模态特征交互不足,导致融合图像质量不佳。为了解决这些问题,本研究提出了一种基于两阶段扩散模型的融合网络(DM-FNet),以实现统一的MMIF。在第一阶段,扩散过程训练UNet进行图像重建。UNet通过渐进去噪捕捉详细信息,并表示多层次数据,为后续的融合网络提供丰富的特征表示。在第二阶段,不同步骤的噪声图像被输入到融合网络中,以增强模型的特征识别能力。还集成了三个关键的融合模块,以自适应地处理来自不同模态的医学图像。最终,稳健的网络结构和混合损失函数被整合,以协调融合图像的亮度、颜色、对比度和细节,提升其质量和信息密度。各种医学图像类型的实验结果表明,所提出的方法在客观评价指标方面表现出色。融合图像保留了适当的亮度、全面的放射性示踪剂分布、丰富的纹理和清晰的边缘。代码可在此https URL获取。 |
[31] video-SALMONN 2:字幕增强的音视频大型语言模型 标题: video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models 作者: Changli Tang / Yixuan Li / Yudong Yang / Jimin Zhuang / Guangzhi Sun / Wei Li / Zejun Ma / Chao Zhang 原文: [英文] [中文] 备注: None 摘要: 视频包含丰富的信息,生成详细且准确的自然语言描述是视频理解的关键方面。在本文中,我们介绍了video-SALMONN 2,这是一种先进的音视频大语言模型(LLM),通过定向偏好优化(DPO)设计用于增强视频(配有音频)字幕生成。我们提出了新的指标来评估视频描述的完整性和准确性,并通过DPO进行优化。为了进一步改进训练,我们提出了一种新颖的多轮DPO(MrDPO)方法,该方法涉及定期更新DPO参考模型,合并并重新初始化LoRA模块作为每轮训练(1,000步)后的参数更新代理,并结合真实视频字幕的指导以稳定过程。实验结果表明,MrDPO显著提高了video-SALMONN 2的字幕生成准确性,将字幕错误率降低了28%。最终的video-SALMONN 2模型仅有70亿参数,在视频字幕生成任务中超越了领先的模型如GPT-4o和Gemini-1.5-Pro,同时在广泛使用的视频问答基准测试中,与同等规模的模型相比,保持了极具竞争力的性能。代码可在\href{this https URL}{this https URL}获取。 |
[32] 卷积特征增强与注意力融合双向特征金字塔网络用于SAR图像中的船舶检测 标题: Convolutional Feature Enhancement and Attention Fusion BiFPN for Ship Detection in SAR Images 作者: Liangjie Meng / Danxia Li / Jinrong He / Lili Ma / Zhixin Li 原文: [英文] [中文] 备注: 5 pages, 4 figures, 2 tables. Code available at this https URL 摘要: 合成孔径雷达(SAR)通过主动微波和先进的信号处理实现了亚米级分辨率成像和全天候监测。目前,SAR在船舶检测等关键海事领域中得到了广泛应用。然而,SAR船舶检测面临着几个挑战,包括船舶之间显著的尺度变化、小型离岸船只与噪声混杂、大型近岸船只的复杂背景。为了解决这些问题,本文提出了一种名为C-AFBiFPN的新颖特征增强和融合框架。C-AFBiFPN在主干网络之后构建了卷积特征增强(CFE)模块,旨在丰富特征表示并增强捕捉和表示局部细节和上下文信息的能力。此外,C-AFBiFPN创新性地在BiFPN的融合策略中整合了BiFormer注意力,创建了AFBiFPN网络。AFBiFPN提高了跨尺度特征融合的全局建模能力,并能够自适应地关注关键特征区域。在SAR船舶检测数据集(SSDD)上的实验结果表明,所提出的方法显著提高了小目标的检测准确性、对遮挡的鲁棒性以及对多尺度特征的适应性。 |
[33] RA-NeRF:在复杂轨迹下具有精确相机姿态估计的鲁棒神经辐射场重建 标题: RA-NeRF: Robust Neural Radiance Field Reconstruction with Accurate Camera Pose Estimation under Complex Trajectories 作者: Qingsong Yan / Qiang Wang / Kaiyong Zhao / Jie Chen / Bo Li / Xiaowen Chu / Fei Deng 原文: [英文] [中文] 备注: IROS 2025 摘要: 神经辐射场(NeRF)和三维高斯散点(3DGS)已成为3D重建和SLAM任务中的强大工具。然而,它们的性能在很大程度上依赖于准确的相机姿态先验。现有的方法尝试通过引入外部约束来解决这个问题,但在相机轨迹复杂的情况下,难以达到令人满意的精度。在本文中,我们提出了一种新方法,RA-NeRF,即使在复杂的相机轨迹下也能预测出高度准确的相机姿态。遵循增量式流程,RA-NeRF利用NeRF进行光度一致性重建场景,并结合流驱动的姿态调节以增强初始化和定位过程中的鲁棒性。此外,RA-NeRF采用隐式姿态滤波器来捕捉相机运动模式并消除姿态估计中的噪声。为了验证我们的方法,我们在Tanks&Temple数据集上进行了广泛的实验以进行标准评估,并在NeRFBuster数据集上进行了实验,该数据集展示了具有挑战性的相机姿态轨迹。在这两个数据集上,RA-NeRF在相机姿态估计和视觉质量方面均达到了最先进的结果,展示了其在复杂姿态轨迹下场景重建中的有效性和鲁棒性。 |
[34] 伪装物体检测的回顾性记忆 标题: Retrospective Memory for Camouflaged Object Detection 作者: Chenxi Zhang / Jiayun Wu / Qing Zhang / Yazhe Zhai / Youwei Pang 原文: [英文] [中文] 备注: None 摘要: 伪装物体检测(COD)主要关注从复杂场景中学习微妙但具有辨别性的表示。现有方法主要遵循基于静态视觉表示建模的参数化前馈架构。然而,它们缺乏获取历史上下文的显式机制,限制了它们在处理具有挑战性的伪装场景时的适应性和有效性。在本文中,我们提出了一种增强回忆的COD架构,称为RetroMem,通过将相关的历史知识整合到过程中,动态调节伪装模式的感知和推理。具体而言,RetroMem采用了一个由学习阶段和回忆阶段组成的两阶段训练范式,以有效地构建、更新和利用记忆表示。在学习阶段,我们设计了一个密集多尺度适配器(DMA),以提高预训练编码器捕获丰富多尺度视觉信息的能力,同时只需很少的可训练参数,从而提供基础推理。在回忆阶段,我们提出了一种动态记忆机制(DMM)和推理模式重建(IPR)。这些组件充分利用了已学知识与当前样本上下文之间的潜在关系,以重建伪装模式的推理,从而显著提高模型对伪装场景的理解。在几个广泛使用的数据集上的大量实验表明,我们的RetroMem显著优于现有的最先进方法。 |
[35] 半导体制造中缺陷图像分类的领域自适应 标题: Domain Adaptation for Image Classification of Defects in Semiconductor Manufacturing 作者: Adrian Poniatowski / Natalie Gentner / Manuel Barusco / Davide Dalle Pezze / Samuele Salti / Gian Antonio Susto 原文: [英文] [中文] 备注: None 摘要: 在半导体行业,由于需求旺盛以及竞争激烈且不断加剧,上市时间和质量是确保在各个应用领域中获得显著市场份额的关键因素。近年来,得益于深度学习方法在计算机视觉领域的成功,工业4.0和5.0应用(如缺陷分类)取得了显著的成功。特别是,领域自适应(Domain Adaptation, DA)被证明非常有效,因为它专注于利用在一个(源)领域中学到的知识来适应并在不同但相关的(目标)领域中有效地执行。通过提高鲁棒性和可扩展性,DA最大限度地减少了对模型进行广泛的手动重新标记或重新训练的需求。这不仅降低了计算和资源成本,还使人类专家能够专注于高价值任务。因此,我们在半导体领域的半监督和无监督环境中测试了DA技术的有效性。此外,我们提出了DBACS方法,这是一种受CycleGAN启发的模型,通过附加的损失项来提高性能。所有方法都在真实世界的电子显微镜图像上进行了研究和验证,考虑了无监督和半监督环境,证明了我们的方法在推进半导体领域的DA技术方面的实用性。 |
[36] MSNeRV:具有多尺度特征融合的神经视频表示 标题: MSNeRV: Neural Video Representation with Multi-Scale Feature Fusion 作者: Jun Zhu / Xinfeng Zhang / Lv Tang / JunHao Jiang 原文: [英文] [中文] 备注: None 摘要: 隐式神经表示(INRs)已成为视频压缩的一个有前途的方法,并且在性能上已与H.266/VVC等最先进的编解码器相当。然而,现有基于INR的方法在有效表示细节密集和快速变化的视频内容方面存在困难。这一限制主要源于对内部网络特征的利用不足以及网络设计中缺乏视频特定的考虑。为了解决这些挑战,我们提出了一种多尺度特征融合框架,MSNeRV,用于神经视频表示。在编码阶段,我们通过使用时间窗口来增强时间一致性,并将视频划分为多个图像组(GoPs),其中使用GoP级网格进行背景表示。此外,我们设计了一个具有尺度自适应损失函数的多尺度空间解码器,以整合多分辨率和多频率信息。为了进一步提高特征提取,我们引入了一个充分利用隐藏特征的多尺度特征块。我们在HEVC ClassB和UVG数据集上对MSNeRV进行了视频表示和压缩的评估。实验结果表明,我们的模型在INR基础方法中表现出卓越的表示能力,并在动态场景中在压缩效率方面超越了VTM-23.7(随机访问)。 |
[37] BCRNet:通过贝塞尔曲线优化提升腹腔镜肝脏手术中的标志物检测 标题: BCRNet: Enhancing Landmark Detection in Laparoscopic Liver Surgery via Bezier Curve Refinement 作者: Qian Li / Feng Liu / Shuojue Yang / Daiyun Shen / Yueming Jin 原文: [英文] [中文] 备注: Accepted at MICCAI 2025, 11 pages, 2 figures 摘要: 腹腔镜肝脏手术虽然是微创的,但在准确识别关键解剖结构方面存在显著挑战。增强现实(AR)系统通过基于2D-3D配准将MRI/CT与腹腔镜图像集成,提供了一种增强手术导航的有前途的解决方案。配准过程的一个重要方面是精确检测腹腔镜图像中的曲线解剖标志。在本文中,我们提出了BCRNet(Bezier Curve Refinement Net),这是一种新颖的框架,主要通过Bezier曲线优化策略显著增强了腹腔镜肝脏手术中的标志检测。该框架首先使用多模态特征提取(MFE)模块,旨在稳健地捕捉语义特征。然后,我们提出自适应曲线提议初始化(ACPI),以生成像素对齐的Bezier曲线和置信度评分,用于可靠的初始提议。此外,我们设计了分层曲线优化(HCR)机制,通过多阶段过程迭代地增强这些提议,从多尺度像素级特征中捕捉细粒度的上下文细节,以实现精确的Bezier曲线调整。在L3D和P2ILF数据集上的广泛评估表明,BCRNet优于最先进的方法,实现了显著的性能提升。代码将会公开。 |
[38] 基于人工智能的工业装配任务视觉监控 标题: AI-driven visual monitoring of industrial assembly tasks 作者: Mattia Nardon / Stefano Messelodi / Antonio Granata / Fabio Poiesi / Alberto Danese / Davide Boscaini 原文: [英文] [中文] 备注: None 摘要: 工业装配任务的视觉监控对于防止因程序错误导致的设备损坏和确保工人安全至关重要。尽管存在商业解决方案,但它们通常需要固定的工作空间设置或应用视觉标记来简化问题。我们介绍了ViMAT,这是一种新颖的AI驱动系统,用于实时监控装配任务,且不受这些限制。ViMAT结合了一个感知模块,该模块从多视角视频流中提取视觉观察结果,以及一个推理模块,该模块根据观察到的装配状态和先前的任务知识推断出最可能正在执行的动作。我们在两个装配任务上验证了ViMAT,包括更换LEGO组件和重新配置液压机模具,通过定量和定性分析展示了其在以部分和不确定视觉观察为特征的具有挑战性的现实场景中的有效性。项目页面:this https URL |
[39] MEGC2025:微表情大挑战——识别后再认知与视觉问答 标题: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering 作者: Xinqi Fan / Jingting Li / John See / Moi Hoon Yap / Wen-Huang Cheng / Xiaobai Li / Xiaopeng Hong / Su-Jing Wang / Adrian K. Davision 原文: [英文] [中文] 备注: Micro-Expression Grand Challenge (MEGC) at ACM MM 2025 摘要: 面部微表情(MEs)是指当一个人经历情感但试图抑制或压抑面部表情时,面部自发发生的不自主运动,通常出现在高风险环境中。近年来,微表情识别、检测和生成领域取得了显著进展。然而,将检测和识别视为独立任务的传统方法并不理想,特别是在现实环境中分析长时间视频时。同时,多模态大语言模型(MLLMs)和大视觉语言模型(LVLMs)的出现为通过其强大的多模态推理能力增强微表情分析提供了有前景的新途径。微表情大挑战(MEGC)2025引入了两个反映这些不断发展的研究方向的任务:(1)微表情检测-然后-识别(ME-STR),它在一个统一的顺序流程中整合了微表情检测和后续识别;(2)微表情视觉问答(ME-VQA),通过视觉问答探索微表情理解,利用MLLMs或LVLMs解决与微表情相关的多种问题类型。所有参与的算法都需要在此测试集上运行并在排行榜上提交其结果。更多详细信息可在此https URL获取。 |
[40] MapFM:基于基础模型的多任务情境学习高清地图构建 标题: MapFM: Foundation Model-Driven HD Mapping with Multi-Task Contextual Learning 作者: Leonid Ivanov / Vasily Yuryev / Dmitry Yudin 原文: [英文] [中文] 备注: Preprint. Submitted. 12 pages, 4 figures 摘要: 在自动驾驶中,高精度(HD)地图和鸟瞰视角(BEV)的语义地图对于精确定位、规划和决策至关重要。本文介绍了一种增强的端到端模型,名为MapFM,用于在线生成矢量化的高清地图。我们通过结合强大的基础模型来编码摄像机图像,显著提升了特征表示的质量。为了进一步丰富模型对环境的理解并提高预测质量,我们在BEV表示中集成了用于语义分割的辅助预测头。这种多任务学习方法提供了更丰富的上下文监督,导致更全面的场景表示,最终提高了预测矢量化高清地图的准确性和质量。源代码可在此HTTPS URL获取。 |
[41] OpenPath:通过预训练的视觉-语言模型进行病理图像分类的开放集主动学习 标题: OpenPath: Open-Set Active Learning for Pathology Image Classification via Pre-trained Vision-Language Models 作者: Lanfeng Zhong / Xin Liao / Shichuan Zhang / Shaoting Zhang / Guotai Wang 原文: [英文] [中文] 备注: MICCAI 2025 early accept 摘要: 病理图像分类在准确的医学诊断和治疗计划中起着至关重要的作用。为这一任务训练高性能模型通常需要大规模的标注数据集,而这些数据集的获取既昂贵又耗时。主动学习(AL)通过迭代选择最具信息量的样本进行标注,从而减少标注工作量,提供了一种解决方案。然而,大多数主动学习方法是在封闭集场景假设下设计的,即所有未标注的图像都属于目标类别。在现实世界的临床环境中,未标记的池中通常包含大量的分布外(OOD)数据,导致传统主动学习方法的标注效率低下。此外,大多数现有的主动学习方法在第一次查询轮次中以随机选择开始,这在开放集场景中导致了显著的标注成本浪费。为了解决这些挑战,我们提出了OpenPath,这是一种新颖的用于病理图像分类的开放集主动学习方法,利用了预训练的视觉-语言模型(VLM)。在第一次查询中,我们提出了结合目标和相关非目标类别提示的任务特定提示,以有效地从未标注池中选择分布内(ID)和信息丰富的样本。在后续查询中,提出了多样性信息丰富的ID采样(DIS),包括基于原型的ID候选选择(PIS)和熵引导的随机采样(EGSS),以确保查询中的纯度和信息量,避免选择OOD样本。在两个公共病理图像数据集上的实验表明,OpenPath由于其所选样本的高纯度显著提高了模型的性能,并且优于几种最先进的开放集主动学习方法。代码可在 \href{this https URL}{this https URL} 获得。 |
[42] 视频中的开放世界物体计数 标题: Open-World Object Counting in Videos 作者: Niki Amini-Naieni / Andrew Zisserman 原文: [英文] [中文] 备注: None 摘要: 我们引入了一个新的任务:视频中的开放世界目标计数。给定一个文本描述或一个图像示例来指定目标对象,目标是枚举视频中所有独特的目标对象实例。这个任务在拥挤的场景中尤其具有挑战性,因为存在遮挡和相似对象,在这种情况下,避免重复计数和识别重新出现的对象至关重要。为此,我们做出了以下贡献:我们为此任务引入了一个模型,CountVid。它利用了一个基于图像的计数模型,以及一个可提示的视频分割和跟踪模型,以实现跨视频帧的自动化开放世界目标计数。为了评估其性能,我们引入了VideoCount,这是一个为我们新颖任务构建的新数据集,来源于TAO和MOT20跟踪数据集,以及通过X射线捕获的企鹅和金属合金结晶的视频。使用这个数据集,我们证明了CountVid提供了准确的目标计数,并且显著优于强基线。VideoCount数据集、CountVid模型以及所有代码都可以在这个https URL上获得。 |
[43] 用于动物再识别的无监督毛皮图案展开 标题: Unsupervised Pelage Pattern Unwrapping for Animal Re-identification 作者: Aleksandr Algasov / Ekaterina Nepovinnykh / Fedor Zolotarev / Tuomas Eerola / Heikki Kälviäinen / Pavel Zemčík / Charles V. Stewart 原文: [英文] [中文] 备注: None 摘要: 现有的个体再识别方法常常在处理动物皮毛或皮肤图案的可变形特性时遇到困难,这些图案由于身体运动和姿势变化而发生几何变形。在本文中,我们提出了一种几何感知纹理映射方法,该方法将动物皮肤或皮毛上的独特标记展开到一个规范的UV空间,从而实现更稳健的特征匹配。我们的方法使用表面法线估计来指导展开过程,同时保持3D表面与2D纹理空间之间的几何一致性。我们专注于两个具有挑战性的物种:赛马环斑海豹(Pusa hispida saimensis)和豹(Panthera pardus)。这两个物种都有独特但高度可变形的皮毛图案。通过将我们保持图案的UV映射与现有的再识别技术相结合,我们展示了在不同姿势和视角下的识别准确性得到了提高。我们的框架不需要真实的UV标注,可以以自监督的方式进行训练。在海豹和豹的数据集上的实验显示,再识别准确性提高了最多5.4%。 |
[44] 当模型知识遇上扩散模型:通过领域和类别对齐的扩散辅助无数据图像合成 标题: When Model Knowledge meets Diffusion Model: Diffusion-assisted Data-free Image Synthesis with Alignment of Domain and Class 作者: Yujin Kim / Hyunsoo Kim / Hyunwoo J.Kim / Suhyun Kim 原文: [英文] [中文] 备注: Published at ICML 2025 摘要: 开源的预训练模型在多种应用中具有巨大潜力,但当其训练数据不可用时,其效用会下降。无数据图像合成(DFIS)旨在生成近似预训练模型学习到的数据分布的图像,而无需访问原始数据。然而,由于缺乏关于自然图像的先验知识,现有的DFIS方法生成的样本偏离了训练数据分布。为了解决这一限制,我们提出了DDIS,这是第一个利用文本到图像扩散模型作为强大图像先验的扩散辅助无数据图像合成方法,以提高合成图像质量。DDIS从给定模型中提取关于学习分布的知识,并利用这些知识来指导扩散模型,从而生成与训练数据分布准确对齐的图像。为此,我们引入了域对齐指导(DAG),在扩散采样过程中将合成数据域与训练数据域对齐。此外,我们优化了一个单一的类别对齐标记(CAT)嵌入,以有效捕捉训练数据集中特定类别的属性。在PACS和ImageNet上的实验表明,DDIS通过生成更能反映训练数据分布的样本,优于现有的DFIS方法,在无数据应用中实现了SOTA性能。 |
[45] NERO:基于神经元级别相关性的可解释异常检测 标题: NERO: Explainable Out-of-Distribution Detection with Neuron-level Relevance 作者: Anju Chhetri / Jari Korhonen / Prashnna Gyawali / Binod Bhattarai 原文: [英文] [中文] 备注: None 摘要: 在深度学习中确保可靠性至关重要,尤其是在医学影像领域,诊断决策往往依赖于模型的输出。区分分布外(OOD)样本的能力已被证明是衡量模型可靠性的重要指标。在医学影像中,这一点尤为关键,因为识别OOD输入可以帮助标记可能未被检测到的潜在异常。尽管许多OOD检测方法依赖于特征或logit空间表示,最近的研究表明这些方法可能无法完全捕捉OOD的多样性。为了解决这个问题,我们提出了一种新颖的OOD评分机制,称为NERO,该机制利用特征层的神经元级别相关性。具体来说,我们为每个分布内(ID)类别聚类神经元级别的相关性以形成代表性中心,并引入相关性距离度量来量化新样本与这些中心的偏离,从而增强OOD的可分性。此外,我们通过在偏置项中结合缩放相关性和特征范数来优化性能。我们的框架还支持可解释的OOD检测。我们在胃肠道影像基准Kvasir和GastroVision上验证了其在多种深度学习架构中的有效性,取得了比最先进的OOD检测方法更好的改进。 |
[46] Hunyuan3D 2.1:从图像到具有生产就绪PBR材质的高保真3D资产 标题: Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material 作者: Team Hunyuan3D / Shuhui Yang / Mingxin Yang / Yifei Feng / Xin Huang / Sheng Zhang / Zebin He / Di Luo / Haolin Liu / Yunfei Zhao / Qingxiang Lin / Zeqiang Lai / Xianghui Yang / Huiwen Shi / Zibo Zhao / Bowen Zhang / Hongyu Yan / Lifu Wang / Sicong Liu / Jihong Zhang / Meng Chen / Liang Dong / Yiwen Jia / Yulin Cai / Jiaao Yu / Yixuan Tang / Dongyuan Guo / Junlin Yu / Hao Zhang / Zheng Ye / Peng He / Runzhou Wu / Shida Wei / Chao Zhang / Yonghao Tan / Yifu Sun / Lin Niu / Shirui Huang / Bojian Zheng / Shu Liu / Shilin Chen / Xiang Yuan / Xiaofeng Yang / Kai Liu / Jianchen Zhu / Peng Chen / Tian Liu / Di Wang / Yuhong Liu / Linus / Jie Jiang / Jingwei Huang / Chunchao Guo 原文: [英文] [中文] 备注: Github link: this https URL 摘要: 3D AI生成内容(AIGC)是一个充满活力的领域,极大地加速了游戏、电影和设计中3D模型的创建。尽管已经开发出几种突破性的模型,彻底改变了3D生成,但由于在收集、处理和训练3D模型方面的复杂性,这一领域仍主要对研究人员、开发人员和设计师开放。为了解决这些挑战,我们在本教程中引入了Hunyuan3D 2.1作为案例研究。本教程提供了一个全面的、逐步的指南,介绍如何使用Hunyuan3D 2.1处理3D数据、训练3D生成模型以及评估其性能。Hunyuan3D 2.1是一个用于生成高分辨率、带纹理的3D资产的先进系统。该系统由两个核心组件组成:用于形状生成的Hunyuan3D-DiT和用于纹理合成的Hunyuan3D-Paint。我们将探讨整个工作流程,包括数据准备、模型架构、训练策略、评估指标和部署。通过本教程的学习,您将具备微调或开发适用于游戏、虚拟现实和工业设计应用的强大3D生成模型的知识。 |
[47] 通过定制化提示调优的多模态大型语言模型用于医学报告生成 标题: Multimodal Large Language Models for Medical Report Generation via Customized Prompt Tuning 作者: Chunlei Li / Jingyang Hou / Yilei Shi / Jingliang Hu / Xiao Xiang Zhu / Lichao Mou 原文: [英文] [中文] 备注: None 摘要: 从影像数据生成医学报告在临床实践中仍然是一项具有挑战性的任务。尽管大型语言模型(LLMs)在解决这一挑战方面显示出巨大潜力,但它们与医学影像数据的有效整合仍需深入探索。在本文中,我们提出了MRG-LLM,这是一种新颖的多模态大型语言模型(MLLM),它结合了一个冻结的LLM与一个可学习的视觉编码器,并引入了一种动态提示定制机制。我们的关键创新在于通过从视觉特征中导出的条件仿射变换,为个别医学图像生成实例特定的提示。我们提出了两种实现方式:逐提示和提示簿定制,从而实现精确和有针对性的报告生成。在IU X-ray和MIMIC-CXR数据集上的大量实验表明,MRG-LLM在医学报告生成方面达到了最先进的性能。我们的代码将公开发布。 |
[48] GenHOI:面向未见物体的文本驱动4D人-物交互合成的泛化 标题: GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects 作者: Shujia Li / Haiyu Zhang / Xinyuan Chen / Yaohui Wang / Yutong Ban 原文: [英文] [中文] 备注: None 摘要: 尽管扩散模型和大规模运动数据集推动了文本驱动的人体运动合成的发展,但将这些进展扩展到四维人-物交互(HOI)仍然具有挑战性,主要是由于大规模四维HOI数据集的有限可用性。在我们的研究中,我们介绍了GenHOI,这是一种新颖的两阶段框架,旨在实现两个关键目标:1)对未见过的物体的泛化能力;2)合成高保真度的四维HOI序列。在我们框架的初始阶段,我们使用Object-AnchorNet来重建未见过物体的稀疏三维HOI关键帧,仅从三维HOI数据集中学习,从而减轻对大规模四维HOI数据集的依赖。随后,在第二阶段中,我们引入了一种接触感知扩散模型(ContactDM),以无缝插值稀疏的三维HOI关键帧为密集的时间连贯的四维HOI序列。为了提高生成的四维HOI序列的质量,我们在ContactDM中提出了一种新颖的接触感知编码器,以提取人-物接触模式,并提出了一种新颖的接触感知HOI注意力机制,以有效地将接触信号整合到扩散模型中。实验结果表明,我们在公开可用的OMOMO和3D-FUTURE数据集上达到了最先进的结果,展示了对未见过物体的强泛化能力,同时实现了高保真度的四维HOI生成。 |
[49] NTIRE 2025 图像阴影去除挑战赛报告 标题: NTIRE 2025 Image Shadow Removal Challenge Report 作者: Florin-Alexandru Vasluianu / Tim Seizinger / Zhuyun Zhou / Cailian Chen / Zongwei Wu / Radu Timofte / Mingjia Li / Jin Hu / Hainuo Wang / Hengxing Liu / Jiarui Wang / Qiming Hu / Xiaojie Guo / Xin Lu / Jiarong Yang / Yuanfei Bao / Anya Hu / Zihao Fan / Kunyu Wang / Jie Xiao / Xi Wang / Xueyang Fu / Zheng-Jun Zha / Yu-Fan Lin / Chia-Ming Lee / Chih-Chung Hsu / Xingbo Wang / Dong Li / Yuxu Chen / Bin Chen / Yuanbo Zhou / Yuanbin Chen / Hongwei Wang / Jiannan Lin / Qinquan Gao / Tong Tong / Zhao Zhang / Yanyan Wei / Wei Dong / Han Zhou / Seyed Amirreza Mousavi / Jun Chen / Haobo Liang / Jiajie Jing / Junyu Li / Yan Yang / Seoyeon Lee / Chaewon Kim / Ziyu Feng / Shidi Chen / Bowen Luan / Zewen Chen / Vijayalaxmi Ashok Aralikatti / G Gyaneshwar Rao / Nikhil Akalwadi / Chaitra Desai / Ramesh Ashok Tabib / Uma Mudenagudi / Anas M. Ali / Bilel Benjdira / Wadii Boulila / Alexandru Brateanu / Cosmin Ancuti / Tanmay Chaturvedi / Manish Kumar / Anmol Srivastav / Daksh Trivedi / Shashwat Thakur / Kishor Upla / Zeyu Xiao / Zhuoyuan Li / Boda Zhou / Shashank Shekhar / Kele Xu / Qisheng Xu / Zijian Gao / Tianjiao Wan / Suiyi Zhao / Bo Wang / Yan Luo / Mingshen Wang / Yilin Zhang 原文: [英文] 备注: None 摘要: 本文研究了NTIRE 2025阴影去除挑战赛的结果。共有306名参与者注册,其中17个团队在最终评估阶段成功提交了他们的解决方案。继前两届之后,本次挑战赛设有两个评估轨道:一个侧重于重建保真度,另一个通过用户研究侧重于视觉感知。两个轨道均使用WSRD+数据集中的图像进行评估,该数据集模拟了自阴影和投射阴影与大量不同对象、纹理和材料之间的交互。 |
[50] CLAIM:临床指导的LGE增强技术用于真实且多样化的心肌瘢痕合成与分割 标题: CLAIM: Clinically-Guided LGE Augmentation for Realistic and Diverse Myocardial Scar Synthesis and Segmentation 作者: Farheen Ramzan / Yusuf Kiberu / Nikesh Jathanna / Shahnaz Jamil-Copley / Richard H. Clayton / Chen / Chen 原文: [英文] [中文] 备注: 14 Pages 摘要: 基于深度学习的心肌瘢痕分割技术通过晚期钆增强(LGE)心脏MRI在结构性心脏病的准确及时诊断和治疗规划中显示出巨大潜力。然而,高质量瘢痕标注的LGE图像的有限可用性和多样性限制了鲁棒分割模型的发展。为了解决这个问题,我们引入了CLAIM:\textbf{C}linically-Guided \textbf{L}GE \textbf{A}ugmentation for Real\textbf{i}stic and Diverse \textbf{M}yocardial Scar Synthesis and Segmentation框架,这是一个基于解剖学的瘢痕生成和分割框架。其核心是SMILE模块(Scar Mask generation guided by cLinical knowledgE),该模块基于临床采用的AHA 17段模型来指导扩散生成器,以合成具有解剖一致性和空间多样性的瘢痕模式。此外,CLAIM采用了一种联合训练策略,其中瘢痕分割网络与生成器一起优化,旨在增强合成瘢痕的真实性和瘢痕分割性能的准确性。实验结果表明,CLAIM生成了解剖学上连贯的瘢痕模式,并与基线模型相比,在与真实瘢痕分布的Dice相似性上取得了更高的成绩。我们的方法实现了可控且真实的心肌瘢痕合成,并在下游医学影像任务中展示了其实用性。 |
[51] RaCalNet:用于稀疏监督的度量深度估计的雷达校准网络 标题: RaCalNet: Radar Calibration Network for Sparse-Supervised Metric Depth Estimation 作者: Xingrui Qin / Wentao Zhao / Chuan Cao / Yihe Niu / Houcheng Jiang / Jingchuan Wang 原文: [英文] [中文] 备注: 9 pages, 7 figures 摘要: 使用毫米波雷达进行密集度量深度估计通常需要密集的激光雷达监督,这些监督是通过多帧投影和插值生成的,用于指导从稀疏雷达测量和RGB图像中学习准确的深度。然而,这种范式既昂贵又数据密集。为了解决这个问题,我们提出了RaCalNet,这是一种新颖的框架,通过使用稀疏激光雷达来监督精细雷达测量的学习,消除了对密集监督的需求,其监督密度仅为密集监督方法的约1%。与之前将雷达点与宽泛图像区域关联并严重依赖密集标签的方法不同,RaCalNet首先重新校准和精细化稀疏雷达点以构建准确的深度先验。这些先验然后作为可靠的锚点来指导单目深度预测,使得在不依赖密集监督的情况下实现度量尺度估计。该设计提高了结构一致性并保留了细节。尽管仅依赖稀疏监督,RaCalNet超越了最先进的密集监督方法,生成的深度图具有清晰的物体轮廓和细腻的纹理。在ZJU-4DRadarCam数据集和真实世界部署场景上的大量实验表明了其有效性,分别将RMSE减少了35.30%和34.89%。 |
[52] 控制与真实感:无需训练的布局到图像的最佳结合 标题: Control and Realism: Best of Both Worlds in Layout-to-Image without Training 作者: Bonan Li / Yinhan Hu / Songhua Liu / Xinchao Wang 原文: [英文] [中文] 备注: Accepted by ICML2025 摘要: 布局到图像生成旨在通过精确控制主体的放置和排列来创建复杂场景。现有的研究表明,预训练的文本到图像扩散模型可以在不针对任何特定数据进行训练的情况下实现这一目标;然而,它们通常面临定位不精确和不真实伪影的挑战。针对这些缺点,我们提出了一种新的无训练方法,WinWinLay。WinWinLay 的核心是提出了两种关键策略:非局部注意力能量函数和自适应更新,这两者协同增强了控制精度和现实感。一方面,我们从理论上证明了常用的注意力能量函数引入了固有的空间分布偏差,阻碍了对象与布局指令的均匀对齐。为了解决这个问题,探索了非局部注意力先验以重新分配注意力分数,促进对象更好地符合指定的空间条件。另一方面,我们发现原始的反向传播更新规则可能导致偏离预训练域,从而产生分布外伪影。为此,我们引入了一种基于朗之万动力学的自适应更新方案,作为一种补救措施,促进在域内更新,同时遵循布局约束。大量实验表明,WinWinLay 在控制元素放置和实现照片级真实感方面表现出色,优于当前的最新方法。 |
[53] Show-o2:改进的原生统一多模态模型 标题: Show-o2: Improved Native Unified Multimodal Models 作者: Jinheng Xie / Zhenheng Yang / Mike Zheng Shou 原文: [英文] [中文] 备注: Technical report 摘要: 本文介绍了改进的原生统一多模态模型,即 Show-o2,该模型利用自回归建模和流匹配。基于三维因果变分自编码器空间,通过空间(-时间)融合的双路径构建统一的视觉表示,实现了图像和视频模态的可扩展性,同时确保了有效的多模态理解和生成。基于语言模型,自回归建模和流匹配分别原生应用于语言头和流头,以促进文本标记预测和图像/视频生成。设计了一个两阶段的训练方案,以有效学习并扩展到更大的模型。最终的 Show-o2 模型展示了在处理包括文本、图像和视频在内的多种模态的广泛多模态理解和生成任务中的多功能性。代码和模型已在此 https URL 发布。 |
[54] 巴尔的摩地图集:用于半监督超高空间分辨率土地覆盖分类的FreqWeaver适配器 标题: Baltimore Atlas: FreqWeaver Adapter for Semi-supervised Ultra-high Spatial Resolution Land Cover Classification 作者: Junhao Wu / Aboagye-Ntow Stephen / Chuyuan Wang / Gang Chen / Xin Huang 原文: [英文] [中文] 备注: None 摘要: 超高空间分辨率的土地覆盖分类对于细粒度的土地覆盖分析至关重要,但由于像素级标注的高成本、显著的尺度变化以及大规模视觉模型的有限适应性,这一任务仍然具有挑战性。现有方法通常专注于1米空间分辨率的影像,并严重依赖标注数据,而实际应用往往需要在弱监督下处理更高分辨率的影像。为了解决这个问题,我们提出了一种参数高效的半监督分割框架,适用于0.3米空间分辨率的影像。该框架利用了SAM2的知识,并引入了一个专门针对遥感的FreqWeaver适配器,以增强细粒度细节建模,同时保持轻量化设计,仅占总模型参数的5.96%。通过有效利用未标注数据并保持最小的参数开销,所提出的方法在结构一致性方面提供了稳健的分割结果,相较于现有的参数高效调优策略提高了1.78%,并且相比于最先进的高分辨率遥感分割方法提升了3.44%。 |
[55] 一种基于统一图形的框架,用于从点云中进行可扩展的3D树重建和无损生物量估算 标题: A Unified Graph-based Framework for Scalable 3D Tree Reconstruction and Non-Destructive Biomass Estimation from Point Clouds 作者: Di Wang / Shi Li 原文: [英文] [中文] 备注: 17 pages,19 figures 摘要: 估算森林地上生物量(AGB)对于评估碳储量和支持可持续森林管理至关重要。定量结构模型(QSM)通过3D树结构重建提供了一种无损的AGB估算方法。然而,当前的QSM方法面临显著的局限性,因为它们主要是为单棵树设计的,依赖于地面激光扫描(TLS)获得的高质量点云数据,并且需要多个预处理步骤,这阻碍了其可扩展性和实际部署。本研究提出了一种新颖的统一框架,能够通过创新的基于图的管道实现大规模点云的端到端处理。所提出的方法通过专用的图操作(包括路径和抽象)无缝集成了树分割、叶木分离和3D骨架重建,以进行树拓扑推理。在具有不同叶子条件(有叶和无叶)、空间尺度(树级和地块级)和数据来源(TLS和基于无人机的激光扫描,ULS)的数据集上进行了全面验证。实验结果表明,在具有挑战性的条件下,特别是在有叶场景(约20%的相对误差)和具有部分覆盖的低密度ULS数据集(约30%的相对误差)中,表现出强劲的性能。这些发现表明,所提出的框架为大规模、无损的AGB估算提供了一种稳健且可扩展的解决方案。它显著减少了对专业预处理工具的依赖,并确立了ULS作为TLS的可行替代方案。据我们所知,这是第一个能够在操作规模上实现无缝、端到端3D树重建的方法。这一进展大大提高了基于QSM的AGB估算的可行性,为森林清查和气候变化研究的更广泛应用铺平了道路。 |
[56] 一步扩散用于细节丰富且时间一致的视频超分辨率 标题: One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution 作者: Yujing Sun / Lingchen Sun / Shuaizheng Liu / Rongyuan Wu / Zhengqiang Zhang / Lei Zhang 原文: [英文] [中文] 备注: None 摘要: 在真实世界的视频超分辨率(Real-VSR)中,再现丰富的空间细节同时保持时间一致性是一个具有挑战性的问题,尤其是当我们利用预训练的生成模型(如稳定扩散模型,SD)进行真实细节合成时。现有基于SD的Real-VSR方法通常在空间细节和时间一致性之间妥协,导致视觉质量不佳。我们认为关键在于如何有效提取低质量(LQ)输入视频中的降解鲁棒时间一致性先验,并在保持提取的一致性先验的同时增强视频细节。为此,我们提出了一种双LoRA学习(DLoRAL)范式,以训练一个有效的基于SD的一步扩散模型,同时实现逼真的帧细节和时间一致性。具体来说,我们引入了一个跨帧检索(CFR)模块来聚合跨帧的互补信息,并训练一个一致性LoRA(C-LoRA)从降解输入中学习鲁棒的时间表示。在一致性学习之后,我们固定CFR和C-LoRA模块,并训练一个细节LoRA(D-LoRA)以增强空间细节,同时与C-LoRA定义的时间空间对齐以保持时间一致性。这两个阶段交替迭代优化,协同提供一致且细节丰富的输出。在推理过程中,这两个LoRA分支合并到SD模型中,允许在单次扩散步骤中实现高效且高质量的视频恢复。实验表明,DLoRAL在准确性和速度上都表现出色。代码和模型可在此https URL获取。 |
[57] 单模态化极度异质的多模态医学图像配准 标题: Mono-Modalizing Extremely Heterogeneous Multi-Modal Medical Image Registration 作者: Kyobin Choo / Hyunkyung Han / Jinyeong Kim / Chanyong Yoon / Seong Jae Hwang 原文: [英文] [中文] 备注: 11 pages, 3 figures, 2 tables, Accepted at Medical Image Computing and Computer Assisted Intervention (MICCAI) 2025 摘要: 在临床实践中,具有功能特征的成像方式,如正电子发射断层扫描(PET)和分数各向异性(FA),通常与结构参考(例如,MRI,CT)对齐,以便进行准确的解释或群体分析,这需要多模态可变形图像配准(DIR)。然而,由于这些模态与标准结构扫描相比极其异质,传统的无监督DIR方法难以学习可靠的空间映射,并且常常导致图像失真。我们发现,这些模型所依赖的相似性度量未能捕捉到高度不同模态之间的对齐。为了解决这个问题,我们提出了M2M-Reg(多对单配准),这是一种新颖的框架,仅使用单模态相似性来训练多模态DIR模型,同时保留已建立的架构范式,以便无缝集成到现有模型中。我们还引入了GradCyCon,这是一种正则化器,利用M2M-Reg的循环训练方案来促进微分同胚。此外,我们的框架自然扩展到半监督设置,仅整合预对齐和未对齐的对,而不需要真实变换或分割掩码。在阿尔茨海默病神经影像倡议(ADNI)数据集上的实验表明,M2M-Reg在PET-MRI和FA-MRI配准方面的DSC比现有方法高出最多2倍,突显了其在处理高度异质多模态DIR方面的有效性。我们的代码可在此https URL获取。 |
[58] BoxFusion:通过实时多视角框融合实现无重建的开放词汇3D目标检测 标题: BoxFusion: Reconstruction-Free Open-Vocabulary 3D Object Detection via Real-Time Multi-View Box Fusion 作者: Yuqing Lan / Chenyang Zhu / Zhirui Gao / Jiazhao Zhang / Yihan Cao / Renjiao Yi / Yijie Wang / Kai Xu 原文: [英文] [中文] 备注: 11 pages, 6 figures 摘要: 开放词汇的3D目标检测由于其在自动驾驶和具身人工智能中的关键应用而受到广泛关注。现有的检测方法,无论是离线还是在线,通常依赖于密集的点云重建,这带来了巨大的计算开销和内存限制,阻碍了在下游任务中的实时部署。为了解决这个问题,我们提出了一种新颖的无重建在线框架,专为内存高效和实时3D检测而设计。具体来说,给定流式的带位姿的RGB-D视频输入,我们利用Cubify Anything作为预训练的视觉基础模型(VFM)进行单视图3D目标检测,通过边界框检测,并结合CLIP捕捉检测对象的开放词汇语义。为了将不同视图中检测到的所有边界框融合为一个统一的框,我们采用了一个关联模块来处理多视图的对应关系,以及一个优化模块来融合在多视图中预测的同一实例的3D边界框。关联模块利用3D非极大值抑制(NMS)和一个框对应匹配模块,而优化模块则使用基于粒子滤波的IoU引导的高效随机优化技术,以在最小化计算复杂度的同时,强制3D边界框的多视图一致性。在ScanNetV2和CA-1M数据集上的大量实验表明,我们的方法在在线方法中达到了最先进的性能。得益于这种新颖的无重建3D目标检测范式,我们的方法在各种场景中表现出很好的泛化能力,即使在超过1000平方米的环境中也能实现实时感知。 |
[59] HOIDiNi:通过扩散噪声优化实现人-物体交互 标题: HOIDiNi: Human-Object Interaction through Diffusion Noise Optimization 作者: Roey Ron / Guy Tevet / Haim Sawdayee / Amit H. Bermano 原文: [英文] [中文] 备注: Project page: this https URL 摘要: 我们介绍了HOIDiNi,这是一种文本驱动的扩散框架,用于合成真实且合理的人物-物体交互(HOI)。HOI生成极具挑战性,因为它需要严格的接触准确性以及多样的运动流形。当前的文献在现实性和物理正确性之间进行权衡,而HOIDiNi通过在预训练扩散模型的噪声空间中使用扩散噪声优化(DNO)直接进行优化,实现了两者兼得。这得益于我们观察到问题可以分为两个阶段:一个以物体为中心的阶段,主要是对手-物体接触位置进行离散选择;以及一个以人为中心的阶段,完善全身运动以实现这一蓝图。这种结构化的方法允许在不影响运动自然性的情况下实现精确的手-物体接触。在GRAB数据集上的定量、定性和主观评估清楚地表明,HOIDiNi在接触准确性、物理有效性和整体质量方面优于先前的工作和基线。我们的结果展示了生成复杂、可控交互的能力,包括抓握、放置和全身协调,仅由文本提示驱动。 |
[60] FindingDory:用于评估具身智能体记忆的基准 标题: FindingDory: A Benchmark to Evaluate Memory in Embodied Agents 作者: Karmesh Yadav / Yusuf Ali / Gunshi Gupta / Yarin Gal / Zsolt Kira 原文: [英文] [中文] 备注: Our dataset and code will be made available at: this https URL 摘要: 大型视觉-语言模型最近在规划和控制任务中展示了令人印象深刻的性能,引发了人们对其在现实世界机器人应用中的兴趣。然而,将这些模型部署到具身环境中的推理任务时,其能力受到限制,因为它们需要整合跨越多天收集的长期经验,并由大量图像表示。当前的视觉-语言模型通常难以同时处理超过几百张图像,这突显了在具身环境中处理长期记忆的更高效机制的需求。为了有效评估这些模型在长时间控制中的表现,基准测试必须特别针对记忆对成功至关重要的场景。现有的长视频问答基准测试忽略了具身挑战,如物体操作和导航,这些挑战需要低级技能和对过去交互的细致推理。此外,具身代理中有效的记忆整合涉及回忆相关的历史信息并基于这些信息执行动作,因此研究这些方面时必须结合在一起而不是孤立地进行。在这项工作中,我们在Habitat模拟器中引入了一个新的长程具身任务基准。该基准评估了在60个任务中基于记忆的能力,这些任务需要在环境中持续参与和情境意识。这些任务还可以程序化地扩展到更长和更具挑战性的版本,从而实现对记忆和推理的可扩展评估。我们还提出了将最先进的视觉-语言模型与低级导航策略相结合的基线,评估它们在这些记忆密集型任务中的表现,并指出需要改进的领域。 |
[61] 解密多模态大型语言模型中的视觉质量悖论 标题: Demystifying the Visual Quality Paradox in Multimodal Large Language Models 作者: Shuo Xing / Lanqing Guo / Hongyuan Hua / Seoyoung Lee / Peiran Li / Yufei Wang / Zhangyang Wang / Zhengzhong Tu 原文: [英文] [中文] 备注: 18 pages 摘要: 最近的多模态大型语言模型(MLLMs)在基准视觉语言任务中表现出色,但关于输入视觉质量如何影响其响应的了解却很少。更高的图像感知质量是否已经转化为更好的MLLM理解?我们进行了首次系统研究,涵盖领先的MLLMs和一套视觉语言基准,应用受控的降级和风格转变到每张图像。令人惊讶的是,我们发现了一个视觉质量悖论:当图像偏离人类感知的保真度时,模型、任务,甚至个别实例的性能可能会提高。现成的修复管道无法调和这些特殊的偏好。为弥合这一差距,我们引入了视觉质量测试时调整(VQ-TTT)——一个轻量级的适应模块,它:(1)在冻结的视觉编码器之前插入一个可学习的低秩核以调节频率内容;(2)通过LoRA仅微调浅层视觉编码器层。VQ-TTT在单次前向传递中动态调整每个输入图像,使其与任务特定的模型偏好对齐。在评估的所有MLLMs和数据集上,VQ-TTT显著提升了平均准确性,无需外部模型、缓存特征或额外训练数据。这些发现重新定义了MLLMs的“更好”视觉输入,并强调在AI成为主要数据客户的新纪元中,需要适应性而非普遍“干净”的图像。 |
[62] 用于快速且准确的视觉语言模型描述的双阶段价值引导推理与基于边际的奖励调整 标题: Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning 作者: Ankan Deria / Adinath Madhavrao Dukre / Feilong Tang / Sara Atito / Sudipta Roy / Muhammad Awais / Muhammad Haris Khan / Imran Razzak 原文: [英文] [中文] 备注: None 摘要: 尽管视觉语言模型(VLMs)在推理时的搜索方面取得了显著进展,但现有方法仍然计算成本高昂,并且容易产生未受惩罚的低置信度生成,常常导致持续的幻觉。我们引入了\textbf{基于边际奖励的价值引导推理(ViMaR)},这是一种两阶段推理框架,通过结合时间差值模型和边际感知奖励调整,提高了效率和输出的可靠性。在第一阶段,我们进行单次遍历以识别多样候选中价值最高的标题。在第二阶段,我们有选择地仅对那些被忽视或表现出较弱视觉基础的片段进行细化,从而消除频繁奖励的评估。经过校准的基于边际的惩罚机制抑制低置信度的延续,同时保留描述的丰富性。跨多个VLM架构的大量实验表明,ViMaR生成的标题在可靠性、事实准确性、细节和解释性方面显著提高,同时与现有的价值引导方法相比,实现了超过4倍的加速。具体而言,我们展示了仅在LLaVA Mistral-7B上训练的ViMaR,\textit{能够有效泛化以指导更强的未见模型的解码}。为了进一步验证这一点,我们调整ViMaR以引导LLaVA-OneVision-Qwen2-7B的生成,导致标题质量的持续改进,并展示了稳健的跨模型指导。这种跨模型的泛化突出了ViMaR的灵活性和模块化,使其成为一种可扩展和可转移的推理时解码策略。此外,当使用ViMaR生成的标题进行自我训练时,基础模型在广泛的视觉理解基准上取得了显著的提升,强调了快速、准确和自我改进的VLM管道的潜力。 |
[63] UniRelight:学习视频重光照的联合分解与合成 标题: UniRelight: Learning Joint Decomposition and Synthesis for Video Relighting 作者: Kai He / Ruofan Liang / Jacob Munkberg / Jon Hasselgren / Nandita Vijaykumar / Alexander Keller / Sanja Fidler / Igor Gilitschenski / Zan Gojcic / Zian Wang 原文: [英文] 备注: Project page: this https URL 摘要: 我们解决了单张图像或视频重光照的问题,这一任务需要对场景内在属性的精确理解和高质量的光传输合成。现有的端到端重光照模型通常受到多光照配对数据稀缺的限制,限制了它们在不同场景中的泛化能力。相反,结合逆向渲染和正向渲染的两阶段流程可以缓解数据需求,但容易出现误差累积,并且在复杂光照条件或复杂材料下往往无法产生逼真的输出。在这项工作中,我们引入了一种通用方法,可以在单次处理过程中同时估计反照率并合成重光照输出,利用视频扩散模型的生成能力。这种联合公式增强了对场景的隐式理解,并促进了逼真光照效果和复杂材料交互的创建,如阴影、反射和透明度。我们的模型在合成的多光照数据和大量自动标记的真实视频上进行训练,展示了在不同领域的强泛化能力,并在视觉保真度和时间一致性方面超越了以往的方法。 |
[64] Sekai:面向世界探索的视频数据集 标题: Sekai: A Video Dataset towards World Exploration 作者: Zhen Li / Chuanhao Li / Xiaofeng Mao / Shaoheng Lin / Ming Li / Shitian Zhao / Zhaopan Xu / Xinyue Li / Yukang Feng / Jianwen Sun / Zizhen Li / Fanrui Zhang / Jiaxin Ai / Zhixiang Wang / Yuwei Wu / Tong He / Jiangmiao Pang / Yu Qiao / Yunde Jia / Kaipeng Zhang 原文: [英文] [中文] 备注: 12 pages, 6 figures 摘要: 视频生成技术取得了显著进展,有望成为互动世界探索的基础。然而,现有的视频生成数据集并不适合用于世界探索训练,因为它们存在一些局限性:地点有限、时长短、场景静态,以及缺乏关于探索和世界的注释。在本文中,我们介绍了Sekai(在日语中意为“世界”),这是一个高质量的第一人称视角全球视频数据集,具有丰富的世界探索注释。该数据集包含来自全球100多个国家和地区、750个城市的超过5000小时的步行或无人机视角(FPV和UVA)视频。我们开发了一个高效且有效的工具箱,用于收集、预处理和注释视频,包括位置、场景、天气、人群密度、字幕和摄像机轨迹。实验表明了该数据集的质量。此外,我们使用一个子集来训练一个名为YUME(在日语中意为“梦”)的互动视频世界探索模型。我们相信Sekai将有益于视频生成和世界探索领域,并激发有价值的应用。 |
[65] 进化缓存:加速现成扩散模型 标题: Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model 作者: Anirud Aggarwal / Abhinav Shrivastava / Matthew Gwilliam 原文: [英文] [中文] 备注: 29 pages, 22 figures, 9 tables 摘要: 基于扩散的图像生成模型在生成高质量的合成内容方面表现出色,但在推理过程中速度慢且计算成本高。先前的工作尝试通过在扩散变压器中缓存和重用特征来缓解这一问题。然而,这些方法通常依赖于僵化的启发式方法,导致加速效果有限或在不同架构间泛化能力差。我们提出了一种进化缓存加速扩散模型(ECAD),这是一种遗传算法,能够学习高效的、针对每个模型的缓存调度,形成一个帕累托前沿,仅需少量校准提示。ECAD不需要对网络参数或参考图像进行修改。它提供了显著的推理加速,能够对质量-延迟权衡进行细粒度控制,并能无缝适应不同的扩散模型。值得注意的是,ECAD学习的调度可以有效泛化到校准期间未见过的分辨率和模型变体。我们在PixArt-alpha、PixArt-Sigma和此http URL上使用多个指标(FID、CLIP、Image Reward)在不同的基准测试(COCO、MJHQ-30k、PartiPrompts)中评估ECAD,展示了相较于先前方法的一致改进。在PixArt-alpha上,ECAD识别出一种调度,超越了之前的最先进方法,COCO FID提高了4.47,同时将推理加速从2.35倍提高到2.58倍。我们的结果确立了ECAD作为一种可扩展且可泛化的方法,用于加速扩散推理。我们的项目网站可在此https URL访问,我们的代码可在此https URL获取。 |