![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年6月26日更新论文48篇
|
[1] 基于计算机视觉的农业喷雾器喷杆位移自动量化 标题: Computer Vision based Automated Quantification of Agricultural Sprayers Boom Displacement 作者: Aryan Singh Dalal / Sidharth Rai / Rahul Singh / Treman Singh Kaloya / Rahul Harsha Cheppally / Ajay Sharda 原文: [英文] 备注: Under publication process for COMPAG 摘要: 在农业生产中使用自走式农业喷雾器时,施药率误差仍然是一个令人担忧的问题。在众多因素中,喷雾杆的不稳定性是导致施药误差的主要原因之一。喷雾杆的宽度达到38米,加上30公里每小时的行驶速度、变化的地形以及在复杂田地边界操作时的机器动态,使得这些喷雾杆的控制变得非常复杂。然而,目前尚无关于喷雾杆运动程度的定量知识,以系统地开发可能包括喷雾杆设计和响应式喷雾杆控制系统的解决方案。因此,本研究旨在开发一个自动化计算机视觉系统,以量化各种农业喷雾器的喷雾杆运动。开发的计算机视觉系统能够实时跟踪喷雾杆边缘的目标。训练了YOLO V7、V8和V11神经网络模型,以跟踪喷雾杆在田间操作中的运动,从而量化其在垂直和横向方向上的有效位移。在喷雾杆上安装了一个倾角传感器,以捕捉喷雾杆角度并验证神经网络模型的输出。结果表明,该模型能够以超过90%的准确率检测目标,并且喷雾杆上目标的距离估计与倾角传感器数据的误差在0.026米以内。该系统可以量化当前喷雾器上的喷雾杆运动,并且在进行少量修改后,可能适用于其他喷雾器。数据可以用于进行设计改进,以使喷雾杆更加稳定并实现更高的施药精度。 |
[2] EBC-ZIP:通过零膨胀泊松回归改进块状人群计数 标题: EBC-ZIP: Improving Blockwise Crowd Counting with Zero-Inflated Poisson Regression 作者: Yiming Ma / Victor Sanchez / Tanaya Guha 原文: [英文] [中文] 备注: None 摘要: 密度图估计已成为人群计数的主流范式。然而,大多数现有方法忽视了真实密度图的极端稀疏性。在现实世界的人群场景中,绝大多数空间区域(通常超过95%)没有人,导致计数分布严重不平衡。忽视这种不平衡可能会使模型倾向于高估密集区域并在稀疏区域表现不佳。此外,大多数用于密度估计的损失函数主要基于均方误差(MSE),并隐含地假设高斯分布,这不适合用于建模离散的非负计数数据。在本文中,我们提出了EBC-ZIP,一种使用零膨胀泊松(ZIP)回归公式来建模计数空间分布的人群计数框架。我们的方法用ZIP分布的负对数似然替代传统的回归损失,从而更好地处理零密集分布,同时保持计数准确性。基于最近提出的增强块分类(EBC)框架,EBC-ZIP继承了EBC在保持目标离散性和确保训练稳定性方面的优势,同时通过更合理的概率损失进一步提高性能。我们还使用不同计算复杂度的骨干网络评估EBC-ZIP,以评估其可扩展性。在四个人群计数基准上的大量实验表明,EBC-ZIP始终优于EBC并实现了最先进的结果。 |
[3] ToSA:具有空间感知的标记合并 标题: ToSA: Token Merging with Spatial Awareness 作者: Hsiang-Wei Huang / Wenhao Chai / Kuang-Ming Chen / Cheng-Yen Yang / Jenq-Neng Hwang 原文: [英文] [中文] 备注: Accepted by IROS 2025 摘要: Token merging(令牌合并)已成为通过降低计算成本来加速视觉Transformer(ViT)的有效策略。然而,现有的方法主要依赖于视觉令牌的特征相似性进行令牌合并,忽视了整合空间信息的潜力,而空间信息可以作为ViT早期层中令牌合并的可靠标准,因为此时视觉令牌仅具有较弱的视觉信息。在本文中,我们提出了ToSA,一种结合语义和空间感知的新颖令牌合并方法,以指导令牌合并过程。ToSA利用深度图像作为输入生成伪空间令牌,这些令牌作为视觉令牌合并过程的辅助空间信息。通过引入空间感知,ToSA实现了一种更为明智的合并策略,更好地保留了关键场景结构。实验结果表明,ToSA在多个视觉和具身问答基准上优于先前的令牌合并方法,同时大幅减少了ViT的运行时间,使其成为ViT加速的高效解决方案。代码将在此URL提供:this https URL |
[4] BrokenVideos:用于AI生成视频中细粒度伪影定位的基准数据集 标题: BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos 作者: Jiahao Lin / Weixuan Peng / Bojia Zi / Yifeng Gao / Xianbiao Qi / Xingjun Ma / Yu-Gang Jiang 原文: [英文] [中文] 备注: 7 page,4 figures,2 tables 摘要: 最近深度生成模型的进展在视频生成方面取得了显著的进步,但人工智能生成视频的保真度仍然有限。合成内容通常表现出视觉伪影,例如时间上不一致的运动、物理上不合理的轨迹、不自然的物体变形和局部模糊,这些都削弱了真实性和用户信任。准确检测和空间定位这些伪影对于自动化质量控制以及指导改进生成模型的开发至关重要。然而,研究界目前缺乏一个专门为人工智能生成视频中的伪影定位设计的综合基准。现有的数据集要么仅限于视频或帧级检测,要么缺乏评估定位方法所需的细粒度空间注释。为了解决这一差距,我们引入了BrokenVideos,这是一个包含3,254个人工智能生成视频的基准数据集,具有精心标注的像素级掩码,突出显示视觉损坏区域。每个注释都经过详细的人为检查以确保高质量的真实数据。我们的实验表明,在BrokenVideos上训练最先进的伪影检测模型和多模态大型语言模型(MLLMs)显著提高了它们定位损坏区域的能力。通过广泛的评估,我们证明了BrokenVideos为生成视频模型中的伪影定位研究奠定了关键基础。数据集可在此URL获取。 |
[5] 从二维到三维认知:通用世界模型简要综述 标题: From 2D to 3D Cognition: A Brief Survey of General World Models 作者: Ningwei Xie / Zizi Tian / Lei Yang / Xiao-Ping Zhang / Meng Guo / Jie Li 原文: [英文] [中文] 备注: None 摘要: 世界模型在人工通用智能(AGI)的发展中引起了越来越多的关注,作为学习外部世界表示和预测未来状态的计算框架。虽然早期的努力集中在二维视觉感知和模拟上,但最近的三维感知生成世界模型展示了合成几何一致、可交互的三维环境的能力,标志着向三维空间认知的转变。尽管进展迅速,该领域缺乏系统的分析来分类新兴技术并阐明其在推进三维认知世界模型中的作用。本综述通过引入一个概念框架来解决这一需求,提供了一个结构化且前瞻性的世界模型综述,从二维感知过渡到三维认知。在此框架内,我们强调了两个关键技术驱动因素,特别是三维表示的进步和世界知识的整合,作为基本支柱。在此基础上,我们剖析了支撑三维世界建模的三个核心认知能力:三维物理场景生成、三维空间推理和三维空间交互。我们进一步考察了这些能力在现实世界应用中的部署,包括具身AI、自动驾驶、数字孪生和游戏/虚拟现实。最后,我们识别了数据、建模和部署方面的挑战,并概述了推进更健壮和更具普遍性的三维世界模型的未来方向。 |
[6] EAR:从统一自回归模型中删除概念 标题: EAR: Erasing Concepts from Unified Autoregressive Models 作者: Haipeng Fan / Shiyuan Zhang / Baohunesitu / Zihang Guo / Huaiwen Zhang 原文: [英文] [中文] 备注: 11 pages, 7 figures, 1 tables 摘要: 自回归(AR)模型在视觉理解和图像生成任务中取得了统一且强大的性能。然而,在保持整体生成质量的同时,从AR模型中移除不需要的概念仍然是一个未解决的挑战。在本文中,我们提出了消除自回归模型(EAR),这是一种用于在AR模型中进行有效且保留实用性的概念消除的微调方法。具体来说,我们引入了窗口梯度累积(WGA)策略,以使补丁级解码与消除目标对齐,并引入了阈值损失掩蔽(TLM)策略,以在微调过程中保护与目标概念无关的内容。此外,我们提出了一个新的基准,消除概念生成器和视觉过滤器(ECGVF),旨在为评估AR模型中的概念消除提供更严格和全面的基础。具体来说,我们首先在各种大型语言模型(LLMs)中使用结构化模板预生成大规模的目标替换概念提示对语料库。随后,我们从这些提示生成图像,并通过视觉分类器进行严格过滤,以确保概念的准确性和一致性。在ECGVF基准上使用AR模型Janus-Pro进行的大量实验结果表明,EAR在消除效果和模型实用性保留方面均取得了显著的改进。代码可在此URL获取:this https URL |
[7] 深度神经网络加速的损失感知自动选择结构化剪枝标准 标题: Loss-Aware Automatic Selection of Structured Pruning Criteria for Deep Neural Network Acceleration 作者: Deepak Ghimire / Kilho Lee / Seong-heum Kim 原文: [英文] [中文] 备注: None 摘要: 结构化剪枝是一种成熟的神经网络压缩技术,使其适合在资源有限的边缘设备上部署。本文提出了一种高效的损失感知自动选择结构化剪枝标准(LAASP)方法,用于瘦身和加速深度神经网络。大多数剪枝方法采用一个由三个阶段组成的顺序过程:1)训练,2)剪枝,3)微调,而所提出的剪枝技术采用一种在训练中剪枝的方法,消除了第一个阶段,并将第二和第三阶段整合为一个循环。通过网络在一小部分训练数据上的整体损失,自动选择从指定标准池中基于幅度或相似性的滤波器剪枝标准,以及在每次剪枝迭代中的特定剪枝层。为了减轻剪枝导致的精度骤降,网络在每次减少预定义数量的浮点运算(FLOPs)后会进行短暂的再训练。网络中每一层的最佳剪枝率是自动确定的,消除了为每一层手动分配固定或可变剪枝率的需要。在CIFAR-10和ImageNet基准数据集上的VGGNet和ResNet模型实验表明了该方法的有效性。特别是在CIFAR-10数据集上的ResNet56和ResNet110模型,与最先进的方法相比,显著提高了top-1精度,同时将网络的FLOPs减少了52%。此外,在ImageNet数据集上的ResNet50模型将FLOPs减少了超过42%,而top-5精度仅有0.33%的微小下降。本文的源代码已在网上公开提供 - 这个https URL。 |
[8] 基于多模态视觉语言模型的高效示例图像编辑探索 标题: Towards Efficient Exemplar Based Image Editing with Multimodal VLMs 作者: Avadhoot Jadhav / Ashutosh Srivastava / Abhinav Java / Silky Singh / Tarun Ram Menta / Surgan Jandial / Balaji Krishnamurthy 原文: [英文] 备注: Accepted at ECCV 2024 (AI4VA Workshop) 摘要: 文本到图像的扩散模型已经实现了广泛的图像编辑应用。然而,仅通过文本捕捉所有类型的编辑可能会具有挑战性且繁琐。某些图像编辑的模糊性质通过示例对,即分别展示编辑前后图像的一对图像,能够更好地表达。在这项工作中,我们解决了基于示例的图像编辑任务——通过利用预训练的文本到图像扩散模型和多模态视觉语言模型,将编辑从示例对转移到内容图像。尽管我们的端到端流程无需优化,但实验表明它在多种类型的编辑上仍然优于基线,并且速度快约4倍。 |
[9] 眼见为实?缓解多模态大型语言模型中的OCR幻觉 标题: Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models 作者: Zhentao He / Can Zhang / Ziheng Wu / Zhenghao Chen / Yufei Zhan / Yifan Li / Zhao Zhang / Xian Wang / Minghui Qiu 原文: [英文] [中文] 备注: None 摘要: 最近在多模态大型语言模型方面的进展通过整合文本和视觉信息增强了文档理解。然而,现有模型在现实场景中表现出不完整性,特别是在视觉退化的情况下。在这种情况下,当前的响应范式往往无法充分感知视觉退化和模糊性,导致过度依赖语言先验或视觉-文本推理不一致。这种识别不确定性的困难经常导致生成幻觉内容,尤其是在无法提供精确答案时。为了更好地展示和分析这一现象和问题,我们提出了KIE-HVQA,这是第一个专门用于评估退化文档理解中OCR幻觉的基准。该数据集包括涵盖身份证和发票的测试样本,并模拟了OCR可靠性的现实世界退化。这种设置允许评估模型在退化输入下区分可靠视觉信息并据此作答的能力,从而突显在不确定数据上避免幻觉的挑战。为了实现忠于视觉的推理并避免上述问题,我们进一步引入了一个基于GRPO的框架,具有新颖的奖励机制。通过在我们的监督微调和强化学习框架中结合对视觉不确定性的自我意识和一种拒绝回答以增加任务难度的分析方法,我们成功地减轻了模糊区域的幻觉。在Qwen2.5-VL上的实验表明,我们的7B参数模型在KIE-HVQA上实现了比GPT-4o高22%的无幻觉准确率提升,并且在标准任务中没有显著的性能下降,突显了其有效性和鲁棒性。 |
[10] 通过基础模型组合实现可扩展和可泛化的地球观测数据挖掘 标题: Towards Scalable and Generalizable Earth Observation Data Mining via Foundation Model Composition 作者: Man Duc Chuc 原文: [英文] [中文] 备注: None 摘要: 基础模型正在迅速改变地球观测数据挖掘,通过为场景分类和语义分割等关键任务提供可推广和可扩展的解决方案。虽然地理空间领域的大多数努力都集中在使用大量地球观测数据集从头开始训练大型模型,但另一种尚未充分探索的策略是重用和组合现有的预训练模型。在这项研究中,我们探讨了预训练在遥感和通用视觉数据集上的基础模型是否可以有效结合,以提高在一组多样化的关键地球观测任务中的表现。使用GEO-Bench基准,我们评估了几个著名的模型,包括Prithvi、Hiera和DOFA,涵盖了十一种数据集,涉及不同的空间分辨率、传感器模式和任务类型。结果表明,较小的预训练模型的特征级集成可以匹敌甚至超过更大模型的性能,同时需要更少的训练时间和计算资源。此外,研究强调了应用知识蒸馏将集成的优势转移到更紧凑模型中的潜力,为在现实世界地球观测应用中部署基础模型提供了实用路径。 |
[11] 用于全色锐化的渐进对齐退化学习 标题: Progressive Alignment Degradation Learning for Pansharpening 作者: Enzhe Zhao / Zhichang Guo / Yao Li / Fanghui Song / Boying Wu 原文: [英文] [中文] 备注: 13 pages, 9 figures 摘要: 基于深度学习的全色锐化技术已被证明能够有效生成高分辨率多光谱(HRMS)图像。为了创建有监督的真实HRMS图像,通常使用通过Wald协议生成的合成数据。该协议假设在人工低分辨率数据上训练的网络在高分辨率数据上也能表现良好。然而,经过良好训练的模型通常在降低分辨率和全分辨率数据集之间表现出性能的权衡。在本文中,我们深入研究了Wald协议,发现其对真实世界退化模式的不准确近似限制了深度全色锐化模型的泛化能力。为了解决这个问题,我们提出了渐进对齐退化模块(PADM),该模块通过两个子网络PAlignNet和PDegradeNet之间的相互迭代,自适应地学习准确的退化过程,而不依赖于预定义的算子。在此基础上,我们引入了HFreqdiff,它将高频细节嵌入到扩散框架中,并结合CFB和BACM模块进行频率选择性细节提取和精确的逆过程学习。这些创新使得高分辨率全色和多光谱图像的有效集成成为可能,显著增强了空间清晰度和质量。实验和消融研究表明,与最先进的技术相比,所提出的方法具有优越的性能。 |
[12] UniCode$^2$: 级联大规模码本用于统一的多模态理解与生成 标题: UniCode$^2$: Cascaded Large-scale Codebooks for Unified Multimodal Understanding and Generation 作者: Yanzhe Chen / Huasong Zhong / Yan Li / Zhenheng Yang 原文: [英文] [中文] 备注: 19 pages, 5 figures 摘要: 统一的多模态大型语言模型(MLLMs)在共同推进多模态理解和生成方面显示出潜力,其中视觉代码簿将图像离散化为用于自回归建模的标记。现有的基于代码簿的方法要么依赖于缺乏细粒度语义的小词汇表(约16K条目),要么简单地扩大规模,导致标记利用率低和训练不稳定。我们提出了UniCode$^2$,一种级联代码簿框架,能够实现大规模、语义对齐和稳定的视觉标记化。通过对数百万SigLIP序列嵌入进行聚类,我们构建了一个拥有500K条目的代码簿,该代码簿在扩展容量的同时保持视觉-语言对齐。稳定性通过级联设计来确保:一个冻结的代码簿锚定嵌入空间,一个可训练的代码簿细化任务特定语义。这种解耦促进了高利用率和稳健学习。此外,我们的视觉标记与文本语义的对齐使得与预训练的扩散解码器无缝集成成为可能,支持高质量的视觉合成,所需适应最小。UniCode^2在各种基准测试中表现出色,证明了在不牺牲稳定性、语义或模块化的情况下扩展视觉标记空间的可行性。 |
[13] 混合事件-RGB传输的动态带宽分配 标题: Dynamic Bandwidth Allocation for Hybrid Event-RGB Transmission 作者: Pujing Yang / Guangyi Zhang / Yunlong Cai / Lei Yu / Guanding Yu 原文: [英文] [中文] 备注: None 摘要: 事件相机以极低的延迟异步捕捉像素级的强度变化。它们越来越多地与RGB相机结合使用,用于广泛的视觉相关应用。然而,这些混合系统的一个主要挑战在于大量触发事件和RGB图像的传输。为了解决这个问题,我们提出了一种传输方案,该方案在实现实时去模糊的同时,保留了两种来源的高效重建性能。传统的RGB相机和事件相机通常以不同的方式捕捉同一场景,往往导致其输出中存在显著的冗余信息。为了解决这个问题,我们开发了一个联合事件和图像(E-I)传输框架,以消除冗余,从而优化信道带宽的利用。我们的方法采用贝叶斯建模和信息瓶颈方法来解开E-I输入中的共享和领域特定信息。这种解耦的信息瓶颈框架确保了提取的共享和领域特定信息的紧凑性和信息量。此外,它根据场景动态自适应地分配传输带宽,即为动态细节分配更多符号给事件,或为静态信息分配更多符号给图像。仿真结果表明,与传统系统相比,所提出的方案不仅实现了更优的重建质量,还提供了增强的去模糊性能。 |
[14] 识别任意地点的手术阶段:少样本测试时适应和任务图引导的优化 标题: Recognizing Surgical Phases Anywhere: Few-Shot Test-time Adaptation and Task-graph Guided Refinement 作者: Kun Yuan / Tingxuan Chen / Shi Li / Joel L. Lavanchy / Christian Heiliger / Ege Özsoy / Yiming Huang / Long Bai / Nassir Navab / Vinkle Srivastav / Hongliang Ren / Nicolas Padoy 原文: [英文] [中文] 备注: Accepted by MICCAI 2025 摘要: 手术工作流程的复杂性和多样性,由异构的手术室设置、机构协议和解剖变异性驱动,在开发跨机构和跨程序的手术理解通用模型时,带来了重大挑战。尽管最近基于大规模视觉-语言数据预训练的手术基础模型提供了有前景的可迁移性,但其零样本性能仍受限于领域转移,从而限制了其在未见手术环境中的实用性。为了解决这一问题,我们引入了Surgical Phase Anywhere (SPA),这是一个轻量级框架,用于多功能的手术工作流程理解,能够以最少的标注将基础模型适应于机构设置。SPA利用少样本空间适应来对齐多模态嵌入与特定机构的手术场景和阶段。它还通过扩散建模确保时间一致性,该建模编码了从机构程序协议中得出的任务图先验。最后,SPA采用动态测试时适应,利用多模态阶段预测流之间的相互一致性,以自监督的方式将模型适应于给定的测试视频,从而增强在测试时分布转移下的可靠性。SPA是一个轻量级的适应框架,允许医院通过自然语言文本定义阶段、用阶段标签标注少量图像,并提供定义阶段转换的任务图,快速定制阶段识别模型。实验结果表明,SPA框架在多个机构和程序的少样本手术阶段识别中实现了最先进的性能,甚至在32样本标注数据的情况下,超越了全样本模型。代码可在此https URL获取。 |
[15] 一种基于Transformer的手写识别系统,联合使用在线和离线特征 标题: A Transformer Based Handwriting Recognition System Jointly Using Online and Offline Features 作者: Ayush Lodh / Ritabrata Chakraborty / Shivakumara Palaiahnakote / Umapada Pal 原文: [英文] [中文] 备注: 15 pages, 7 figures 摘要: 我们认为,手写识别可以从光栅化的复杂字形和笔迹轨迹所携带的互补线索中获益,但大多数系统仅利用一种模态。我们引入了一种端到端网络,在共享的潜在空间中对离线图像和在线笔画数据进行早期融合。一个补丁编码器将灰度裁剪图像转换为固定长度的视觉标记,而一个轻量级的变压器嵌入$(x, y, \text{pen})$序列。可学习的潜在查询同时关注这两种标记流,产生上下文增强的笔画嵌入,这些嵌入在交叉熵损失目标下被汇总和解码。由于集成发生在任何高级分类之前,时间线索在表示学习过程中相互强化,从而产生更强的书写者独立性。在IAMOn-DB和VNOn-DB上的综合实验表明,我们的方法实现了最先进的准确性,比之前的最佳结果高出最多1%。我们的研究还展示了在ISI-Air数据集上通过手势化适应这一流程。我们的代码可以在这里找到。 |
[16] 用于小样本细粒度图像分类的分层掩码增强双重重建网络 标题: Hierarchical Mask-Enhanced Dual Reconstruction Network for Few-Shot Fine-Grained Image Classification 作者: Ning Luo / Meiyin Hu / Huan Wan / Yanyan Yang / Zhuohang Jiang / Xin Wei 原文: [英文] [中文] 备注: None 摘要: 小样本细粒度图像分类(FS-FGIC)是一项具有挑战性的任务,要求模型在有限的标记样本下区分视觉上相似的子类。现有方法存在关键局限性:基于度量的方法丢失了空间信息并导致局部特征错位,而基于重建的方法未能利用层次化的特征信息,且缺乏聚焦于判别区域的机制。我们提出了层次化掩码增强双重重建网络(HMDRN),通过整合双层特征重建与掩码增强特征处理来改进细粒度分类。HMDRN包含一个双层特征重建与融合模块,利用来自不同网络层次的互补视觉信息。通过可学习的融合权重,模型在最后一层的高级语义表示与倒数第二层的中级结构细节之间取得平衡。此外,我们设计了一个空间二值掩码增强的Transformer自重建模块,通过自适应阈值处理查询特征,同时保持完整的支持特征,增强对判别区域的关注,同时过滤背景噪声。在三个具有挑战性的细粒度数据集上的大量实验表明,HMDRN在Conv-4和ResNet-12骨干架构上始终优于最先进的方法。全面的消融研究验证了每个提出组件的有效性,揭示了双层重建增强了类间区分,而掩码增强转换减少了类内变异。可视化结果提供了HMDRN卓越特征重建能力的证据。 |
[17] 通过织物比较对绘画进行法医学研究 标题: Forensic Study of Paintings Through the Comparison of Fabrics 作者: Juan José Murillo-Fuentes / Pablo M. Olmos / Laura Alba-Carcelén 原文: [英文] 备注: None 摘要: 对艺术作品中画布织物的研究是鉴定、归属和保护的重要工具。传统方法基于纱线密度图匹配,当画布不是来自卷上的连续位置时,这些方法无法应用。本文提出了一种基于深度学习的新方法来评估纺织品的相似性。我们引入了一种自动工具,可以在不依赖纱线密度图的情况下评估画布之间的相似性。设计并训练了一个孪生深度学习模型,通过利用从扫描中学习到的特征表示来比较图像对。此外,提出了一种相似性估计方法,通过聚合多个布样对的预测来提供稳健的相似性评分。我们的方法应用于普拉多国家博物馆的画布,证实了广泛用于绘画的平纹画布即使在纱线密度相似时也可以有效比较的假设。结果证明了所提出方法的可行性和准确性,为杰作分析开辟了新的途径。 |
[18] 从理想到现实:统一且数据高效的密集预测用于现实场景 标题: From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios 作者: Changliang Xia / Chengyou Jia / Zhuohang Dang / Minnan Luo 原文: [英文] [中文] 备注: None 摘要: 密集预测任务在计算机视觉中具有重要意义,旨在为输入图像学习像素级标注标签。尽管该领域取得了进展,现有方法主要集中在理想化条件下,难以在真实世界场景中泛化,并面临真实世界数据稀缺的挑战。为系统地研究这一问题,我们首先介绍DenseWorld,这是一个涵盖25个密集预测任务的基准,这些任务对应于紧迫的真实世界应用,并在任务间进行统一评估。然后,我们提出DenseDiT,它最大限度地利用生成模型的视觉先验,通过统一策略执行多样化的真实世界密集预测任务。DenseDiT结合了参数重用机制和两个轻量级分支,自适应地整合多尺度上下文,额外参数少于0.1%。在DenseWorld上的评估显示现有通用和专用基线的性能显著下降,突显其在真实世界中的有限泛化能力。相比之下,DenseDiT使用不到基线0.01%的训练数据取得了优异的结果,强调了其在真实世界部署中的实际价值。我们的数据、检查点和代码可在此https URL获取。 |
[19] 打破空间界限:光谱域配准引导的高光谱与多光谱盲融合 标题: Breaking Spatial Boundaries: Spectral-Domain Registration Guided Hyperspectral and Multispectral Blind Fusion 作者: Kunjing Yang / Libin Zheng / Minru Bai / Ting Lu / Leyuan Fang 原文: [英文] [中文] 备注: None 摘要: 未注册的高光谱图像(HSI)和多光谱图像(MSI)的盲融合最近引起了越来越多的关注。为了解决配准问题,大多数现有方法在HSI上采用空间变换以实现与MSI的对齐。然而,由于图像在空间分辨率上的巨大差异,这些方法的性能往往不尽如人意。此外,在处理遥感中的大尺寸图像时,配准过程往往耗时。为了解决这些问题,我们提出从光谱域解决配准问题。首先,开发了一种轻量级的光谱先验学习(SPL)网络,用于从HSI中提取光谱特征并增强MSI的光谱分辨率。随后,获得的图像经过空间下采样以生成注册的HSI。在此过程中,采用子空间表示和循环训练策略来提高获得的注册HSI的光谱精度。接下来,我们提出了一种盲稀疏融合(BSF)方法,该方法利用组稀疏正则化来等效地促进图像的低秩性。这种方法不仅避免了秩估计的需要,还降低了计算复杂性。然后,我们采用近端交替优化(PAO)算法来解决BSF模型,并进行其收敛性分析。最后,在模拟和真实数据集上进行了广泛的数值实验,以验证我们的方法在配准和融合中的有效性。我们还展示了其在增强分类性能方面的功效。 |
[20] Ctrl-Z 采样:具有受控随机之字形探索的扩散采样 标题: Ctrl-Z Sampling: Diffusion Sampling with Controlled Random Zigzag Explorations 作者: Shunqi Mao / Wei Guo / Chaoyi Zhang / Weidong Cai 原文: [英文] [中文] 备注: 10 pages, 3 figures, 2 tables 摘要: 扩散模型通过逐步去噪高斯噪声以接近目标数据分布,在条件生成中表现出强大的性能。这个去噪过程可以被解释为在一个学习的潜在空间中进行爬坡,其中模型迭代地优化样本,趋向于更高概率的区域。然而,由于潜在空间的复杂性和次优的初始化,扩散模型常常收敛于局部最优,这些局部最优在局部上视觉一致但在整体上不一致或条件上不对齐。先前的努力尝试通过加强引导信号或操控初始噪声分布来解决这个问题。我们引入了受控随机之字形采样(Ctrl-Z Sampling),这是一种新颖的采样策略,旨在检测并逃离条件生成中的局部最大值。该方法首先使用奖励模型识别潜在的局部最大值。一旦检测到,它会注入噪声并回退到之前更嘈杂的状态,以逃离当前的优化平台。奖励模型随后评估候选轨迹,仅接受那些提供改进的轨迹,而逐步更深的回退使得在附近替代方案失败时能够更强力地逃离。这种受控的随机之字形过程允许在前向优化和后向探索之间动态交替,增强生成输出的对齐性和视觉质量。所提出的Ctrl-Z Sampling与现有的扩散框架兼容且不依赖于特定模型。实验结果表明,Ctrl-Z Sampling在仅约7.6倍函数评估增加的情况下显著提高了生成质量。 |
[21] TDiR: 基于变压器的扩散用于图像修复任务 标题: TDiR: Transformer based Diffusion for Image Restoration Tasks 作者: Abbas Anwar / Mohammad Shullar / Ali Arshad Nasir / Mudassir Masood / Saeed Anwar 原文: [英文] [中文] 备注: None 摘要: 在复杂环境中拍摄的图像通常会遭遇各种形式的退化,包括噪声、色偏、模糊和光散射。这些影响显著降低了图像质量,阻碍了其在后续任务中的应用,如目标检测、地图绘制和分类。我们开发了一种基于变换器的扩散模型,旨在解决图像修复任务,以提高退化图像的质量。该模型在公开数据集上针对水下图像增强、去噪和去雨等任务进行了评估,并与现有的深度学习方法在多个质量指标上进行了比较。我们的研究结果表明,结合变换器的扩散模型在性能上超越了当前的方法。我们的模型结果突显了扩散模型和变换器在提高退化图像质量方面的有效性,从而扩大了其在需要高保真视觉数据的后续任务中的实用性。 |
[22] 膝关节磁共振图像评估的放射组学指纹 标题: Radiomic fingerprints for knee MR images assessment 作者: Yaxi Chen / Simin Ni / Shaheer U. Saeed / Aleksandra Ivanova / Rikin Hargunani / Jie Huang / Chaozong Liu / Yipeng Hu 原文: [英文] [中文] 备注: None 摘要: 膝关节MRI扫描的准确解读依赖于专家的临床判断,通常具有较高的变异性和有限的可扩展性。现有的放射组学方法使用一组固定的放射组学特征(特征签名),这些特征是在群体水平上选择的,并统一应用于所有患者。虽然这种方法具有可解释性,但这些特征签名往往过于受限,无法代表个体的病理变化。因此,与不使用可解释放射组学特征的最新端到端深度学习(DL)替代方法相比,传统的基于放射组学的方法在性能上受到限制。我们认为,当前放射组学选择中对个体的忽视并不是其可解释性的核心,但却导致了在我们的应用中泛化能力的不足。在此,我们提出了一种新颖的放射组学指纹框架,其中的放射组学特征集(指纹)是为每位患者动态构建的,由DL模型选择。与现有的放射组学特征签名不同,我们的指纹是基于每位患者的,通过在一个大型放射组学特征库中预测特征的相关性,并仅选择那些对个体患者的临床状况具有预测性的特征。放射组学选择模型与一个低维(被认为相对可解释)的逻辑回归模型同时训练,用于下游分类。我们在包括一般膝关节异常、前交叉韧带(ACL)撕裂和半月板撕裂的多项诊断任务中验证了我们的方法,显示出与最先进的端到端DL模型相当或更优的诊断准确性。更重要的是,我们展示了我们方法中固有的可解释性促进了有意义的临床见解和潜在生物标志物的发现,并通过对真实临床案例的详细讨论、定量和定性分析来证明这些优势。 |
[23] 关于集合中面孔的突发性 标题: On the Burstiness of Faces in Set 作者: Jiong Wang 原文: [英文] [中文] 备注: 18 pages, 5 figures 摘要: 突发性现象在文本和图像检索中被观察到,指的是特定元素在一个集合中出现的次数比统计独立模型假设的要多。我们认为在基于集合的人脸识别(SFR)中,突发性现象广泛存在,并在两个方面降低了性能:首先,突发性人脸,即在一个人脸集合中具有特定属性的人脸频繁出现,主导了训练实例和训练人脸集合,导致对不受约束场景的泛化能力较差。其次,主导评估集合的突发性人脸在评估时干扰了集合验证和识别中的相似性比较。为了检测集合中的突发性人脸,我们提出了基于Quickshift++、特征自相似性和广义最大池化(GMP)的三种策略。我们在训练和评估阶段应用突发检测结果,以增强不常见人脸的采样比例或贡献。在评估时,我们还提出了质量感知GMP,使其能够感知人脸质量并对原始GMP的低质量人脸具有鲁棒性。我们在SFR基准上进行了说明和广泛的实验,证明突发性现象普遍存在,抑制突发性现象显著提高了识别性能。 |
[24] 从手稿学到代码:基于Transformer和YOLO的检测器在历史文档版面分析中的比较研究 标题: From Codicology to Code: A Comparative Study of Transformer and YOLO-based Detectors for Layout Analysis in Historical Documents 作者: Sergio Torres Aguilar 原文: [英文] [中文] 备注: None 摘要: 稳健的文档布局分析(DLA)对于自动处理和理解具有复杂页面组织的历史文档至关重要。本文对五种最先进的目标检测架构在三个代表不同编目复杂性的标注数据集上的表现进行了基准测试:e-NDP,一个巴黎中世纪登记册(1326-1504)的语料库;CATMuS,一个来自各种中世纪和现代来源(约12至17世纪)的多类数据集;以及HORAE,一个装饰精美的时祷书(约13至16世纪)的语料库。我们评估了两种基于Transformer的模型(Co-DETR, Grounding DINO)与三种YOLO变体(AABB, OBB, 和 YOLO-World)。我们的研究结果显示,模型架构、数据集特征和边界框表示方式对性能有显著影响。在e-NDP数据集中,Co-DETR取得了最先进的结果(0.752 mAP@.50:.95),紧随其后的是YOLOv11X-OBB(0.721)。相反,在更复杂的CATMuS和HORAE数据集中,基于CNN的YOLOv11x-OBB显著优于所有其他模型(分别为0.564和0.568)。本研究明确表明,使用定向边界框(OBB)不是一个小的改进,而是准确建模历史手稿非笛卡尔特性的一项基本要求。我们得出结论,Transformer的全局上下文感知适合结构化布局,而CNN-OBB模型在视觉多样性和复杂文档方面具有更好的泛化能力,这两者之间存在关键的权衡。 |
[25] 用于自监督动作识别的特征幻觉 标题: Feature Hallucination for Self-supervised Action Recognition 作者: Lei Wang / Piotr Koniusz 原文: [英文] [中文] 备注: Accepted for publication in International Journal of Computer Vision (IJCV) 摘要: 理解视频中的人类动作不仅仅依赖于原始像素分析;它还依赖于高级语义推理和多模态特征的有效整合。我们提出了一种深度翻译动作识别框架,通过从RGB视频帧中联合预测动作概念和辅助特征来提高识别准确性。在测试时,幻觉流推断缺失的线索,丰富特征表示而不增加计算开销。为了关注超越原始像素的动作相关区域,我们引入了两个新颖的领域特定描述符。对象检测特征(ODF)聚合多个对象检测器的输出以捕捉上下文线索,而显著性检测特征(SDF)则突出显示对动作识别至关重要的空间和强度模式。我们的框架无缝集成了这些描述符与光流、改进的密集轨迹、骨架数据和音频线索等辅助模态。它与包括I3D、AssembleNet、视频变换网络、FASTER以及最近的VideoMAE V2和InternVideo2在内的最先进架构兼容。为了处理辅助特征中的不确定性,我们在幻觉步骤中引入了不确定性建模,并引入了一种鲁棒的损失函数来减轻特征噪声。我们的多模态自监督动作识别框架在多个基准测试上实现了最先进的性能,包括Kinetics-400、Kinetics-600和Something-Something V2,展示了其在捕捉细粒度动作动态方面的有效性。 |
[26] InvZW:通过噪声对抗训练进行不变特征学习以实现鲁棒的图像零水印 标题: InvZW: Invariant Feature Learning via Noise-Adversarial Training for Robust Image Zero-Watermarking 作者: Abdullah All Tanvir / Xin Zhong 原文: [英文] [中文] 备注: None 摘要: 本文介绍了一种新颖的深度学习框架,用于基于失真不变特征学习的鲁棒图像零水印。作为一种零水印方案,我们的方法保持原始图像不变,并通过在特征空间中的优化学习一个参考签名。所提出的框架由两个关键模块组成。在第一个模块中,通过噪声对抗学习训练特征提取器,以生成对失真不变且语义表达丰富的表示。这是通过结合对抗失真判别器的监督和保留图像内容的重建约束来实现的。在第二个模块中,我们设计了一种基于学习的多比特零水印方案,其中训练得到的不变特征被投影到一组可训练的参考码上,这些参考码经过优化以匹配目标二进制信息。在各种图像数据集和广泛的失真范围上的大量实验表明,我们的方法在特征稳定性和水印恢复方面达到了最先进的鲁棒性。与现有的自监督和深度水印技术的比较评估进一步突显了我们框架在泛化和鲁棒性方面的优越性。 |
[27] 利用轻量级分层视觉变换器和动态框架实现高效视觉跟踪 标题: Exploiting Lightweight Hierarchical ViT and Dynamic Framework for Efficient Visual Tracking 作者: Ben Kang / Xin Chen / Jie Zhao / Chunjuan Bo / Dong Wang / Huchuan Lu 原文: [英文] 备注: This paper was accepted by International Journal of Computer Vision(IJCV) 摘要: 基于Transformer的视觉跟踪器由于其强大的建模能力,已经展示了显著的进步。然而,由于处理速度较慢,它们在资源受限的设备上的实用性受到限制。为了解决这一挑战,我们提出了HiT,这是一种新型的高效跟踪模型家族,能够在各种设备上实现高性能和快速操作。HiT的核心创新在于其桥接模块,该模块将轻量级Transformer连接到跟踪框架中,增强了特征表示的质量。此外,我们引入了一种双图像位置编码方法,以有效编码空间信息。HiT在NVIDIA Jetson AGX平台上实现了每秒61帧(fps)的惊人速度,同时在LaSOT基准测试中获得了64.6%的竞争性AUC,超越了所有先前的高效模型。在HiT的基础上,我们提出了DyHiT,这是一种高效的动态跟踪器,通过选择具有不同计算需求的路径灵活适应场景复杂性。DyHiT使用由主干网络提取的搜索区域特征,并将其输入到高效的动态路由器中以分类跟踪场景。基于分类结果,DyHiT应用分而治之策略,选择合适的路径以在准确性和速度之间实现优越的平衡。DyHiT的最快版本在NVIDIA Jetson AGX上实现了111 fps,同时在LaSOT上保持了62.4%的AUC。此外,我们介绍了一种基于DyHiT动态路由架构的无训练加速方法。该方法显著提高了各种高性能跟踪器的执行速度而不牺牲准确性。例如,我们的加速方法使得最先进的跟踪器SeqTrack-B256在NVIDIA GeForce RTX 2080 Ti GPU上实现了2.68倍的加速,同时在LaSOT上保持了69.9%的相同AUC。 |
[28] 一种基于新型大型视觉基础模型(LVFM)的方法,用于生成种植园中高分辨率冠层高度图,以实现精准林业管理 标题: A Novel Large Vision Foundation Model (LVFM)-based Approach for Generating High-Resolution Canopy Height Maps in Plantations for Precision Forestry Management 作者: Shen Tan / Xin Zhang / Liangxiu Han / Huaguo Huang / Han Wang 原文: [英文] 备注: None 摘要: 准确且具成本效益的种植园地上生物量(AGB)监测对于支持当地生计和碳封存计划(如中国核证减排(CCER)计划)至关重要。高分辨率的冠层高度图(CHM)是实现这一目标的关键,但标准的激光雷达方法成本高昂。尽管使用RGB影像的深度学习提供了一种替代方案,但准确提取冠层高度特征仍然具有挑战性。为了解决这个问题,我们开发了一种新颖的模型,利用大型视觉基础模型(LVFM)生成高分辨率CHM。我们的模型集成了特征提取器、自监督特征增强模块以保留空间细节,以及高度估计器。在北京房山区使用1米分辨率的谷歌地球影像进行测试时,我们的模型优于现有方法,包括传统的卷积神经网络(CNN)。它实现了0.09米的平均绝对误差、0.24米的均方根误差,以及与激光雷达CHM的0.78的相关性。生成的CHM在单株树木检测中成功率超过90%,在AGB估算中具有高精度,并能有效跟踪种植园的生长,显示出对非训练区域的强泛化能力。这种方法为评估种植园和天然林中的碳封存提供了一种有前景的、可扩展的工具。 |
[29] Med-Art:用于二维医学文本到图像生成的扩散变压器 标题: Med-Art: Diffusion Transformer for 2D Medical Text-to-Image Generation 作者: Changlu Guo / Anders Nymark Christensen / Morten Rieger Hannemose 原文: [英文] [中文] 备注: The project is available at \url{this https URL} 摘要: 近年来,文本到图像生成模型取得了显著的突破。然而,它们在医学图像生成中的应用仍面临重大挑战,包括数据集规模小和医学文本数据稀缺。为了解决这些挑战,我们提出了Med-Art,一个专为有限数据的医学图像生成而设计的框架。Med-Art利用视觉-语言模型生成医学图像的视觉描述,从而克服了适用医学文本数据的稀缺性。Med-Art基于扩散变压器(DiT)调整了一个大规模预训练的文本到图像模型PixArt-$\alpha$,在有限数据条件下实现了高性能。此外,我们提出了一种创新的混合级别扩散微调(HLDF)方法,该方法支持像素级损失,有效解决了颜色过于饱和等问题。我们在两个医学图像数据集上实现了最先进的性能,通过FID、KID和下游分类性能进行衡量。 |
[30] HiWave:通过基于小波的扩散采样实现无训练的高分辨率图像生成 标题: HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling 作者: Tobias Vontobel / Seyedmorteza Sadat / Farnood Salehi / Romann M. Weber 原文: [英文] [中文] 备注: None 摘要: 扩散模型已成为图像合成的领先方法,展示了卓越的照片真实感和多样性。然而,在高分辨率下训练扩散模型仍然计算量巨大,现有的零样本生成技术在合成超出训练分辨率的图像时,往往会产生伪影,包括物体重复和空间不一致。在本文中,我们介绍了HiWave,这是一种无需训练的零样本方法,能够在使用预训练扩散模型进行超高分辨率图像合成时显著提升视觉保真度和结构一致性。我们的方法采用了一个两阶段的流程:首先从预训练模型生成基础图像,然后进行逐块的DDIM反演步骤和一个新颖的小波细节增强模块。具体来说,我们首先利用反演方法从基础图像中导出初始噪声向量,以保持全局一致性。随后,在采样过程中,我们的小波域细节增强器保留基础图像中的低频成分以确保结构一致性,同时选择性地引导高频成分以丰富细节和纹理。使用Stable Diffusion XL进行的广泛评估表明,HiWave有效减轻了先前方法中常见的视觉伪影,达到了更高的感知质量。一项用户研究证实了HiWave的性能,在超过80%的比较中,它被认为优于最先进的替代方案,突显了其在无需重新训练或架构修改的情况下实现高质量、超高分辨率图像合成的有效性。 |
[31] 一种深度学习方法用于识别使用移动激光扫描仪捕获的地下矿井复杂三维点云中的岩石锚杆 标题: A Deep Learning Approach to Identify Rock Bolts in Complex 3D Point Clouds of Underground Mines Captured Using Mobile Laser Scanners 作者: Dibyayan Patra / Pasindu Ranasinghe / Bikram Banerjee / Simit Raval 原文: [英文] 备注: None 摘要: 岩石锚杆是地下矿井支撑系统中的关键组件,它们为岩体提供足够的结构加固,以防止岩石坠落等意外危险。这使得对这些锚杆的频繁评估对于维持岩体稳定性和降低地下采矿作业中的风险至关重要。在地下矿井中,由于光线不足和过程耗时,人工测量岩石锚杆具有挑战性,因此自动检测岩石锚杆成为一种可行的解决方案。为此,本研究重点关注使用移动激光扫描仪从地下矿井获取的中到大规模3D点云中自动识别岩石锚杆。现有的自动岩石锚杆识别技术主要依赖于特征工程和传统的机器学习方法。然而,由于数据噪声、环境变化和复杂的周围结构,这些点云带来了许多挑战,使得这些技术缺乏鲁棒性。此外,目标岩石锚杆在大规模点云中是极小的对象,并且由于加固喷射混凝土的应用,通常部分被遮挡。为了解决这些挑战,本文提出了一种称为DeepBolt的方法,该方法采用了一种新颖的两阶段深度学习架构,专门设计用于处理严重的类别不平衡,以在复杂的3D点云中自动高效地识别岩石锚杆。所提出的方法在岩石锚杆点的交并比(IoU)上比最先进的语义分割模型高出42.5%。此外,它在岩石锚杆分类中实现了96.41%的精度和96.96%的召回率,展示了其在复杂地下环境中的鲁棒性和有效性。 |
[32] 人工智能辅助的放射影像分析在检测牙槽骨丧失的严重程度和模式中的应用 标题: AI-assisted radiographic analysis in detecting alveolar bone-loss severity and patterns 作者: Chathura Wimalasiri / Piumal Rathnayake / Shamod Wijerathne / Sumudu Rasnayaka / Dhanushka Leuke Bandara / Roshan Ragel / Vajira Thambawita / Isuru Nawinne 原文: [英文] [中文] 备注: This manuscript is 17 pages with 5 tables and 12 figures. The manuscript is under review at Nature Scientific Reports 摘要: 牙周炎是一种导致牙槽骨丧失的慢性炎症性疾病,对口腔健康和生活质量有显著影响。准确评估骨丧失的严重程度和模式对于诊断和治疗计划至关重要。在本研究中,我们提出了一种新颖的基于人工智能的深度学习框架,利用口内根尖(IOPA)X光片自动检测和量化牙槽骨丧失及其模式。我们的方法结合了YOLOv8进行牙齿检测,并使用Keypoint R-CNN模型识别解剖标志,从而精确计算骨丧失的严重程度。此外,YOLOv8x-seg模型分割骨水平和牙齿掩膜,通过几何分析确定骨丧失模式(水平与角度)。在一个由专家注释的1000张X光片的大型数据集上进行评估,我们的方法在检测骨丧失严重程度(组内相关系数高达0.80)和骨丧失模式分类(准确率87%)方面取得了高精度。该自动化系统提供了一种快速、客观和可重复的牙周评估工具,减少了对主观手动评估的依赖。通过将人工智能整合到牙科X光分析中,我们的框架有潜力改善牙周炎的早期诊断和个性化治疗计划,最终提升患者护理和临床结果。 |
[33] 减少对欺骗性伪装的关注:在线社交网络中压缩深度伪造的鲁棒检测 标题: Pay Less Attention to Deceptive Artifacts: Robust Detection of Compressed Deepfakes on Online Social Networks 作者: Manyi Li / Renshuai Tao / Yufan Liu / Chuangchuang Tan / Haotong Qin / Bing Li / Yunchao Wei / Yao Zhao 原文: [英文] [中文] 备注: 20 pages, 10 figures 摘要: 随着深度学习的快速发展,特别是通过生成对抗网络(GANs)和扩散模型(DMs),AI生成的图像或“深度伪造”几乎与真实图像难以区分。这些图像在在线社交网络(OSNs)中广泛传播,引发了对其滥用的担忧。现有的深度伪造检测方法忽视了OSNs中的压缩引入的“块效应”,这些效应掩盖了深度伪造的伪影,并且主要关注在现实世界中很少遇到的原始图像。为了解决这些挑战,我们提出了PLADA(Pay Less Attention to Deceptive Artifacts),一个旨在解决缺乏配对数据和压缩图像使用无效的新框架。PLADA由两个核心模块组成:块效应擦除器(B2E),使用双阶段注意机制来处理块效应,以及开放数据聚合(ODA),处理配对和未配对数据以提高检测效果。跨26个数据集的广泛实验表明,PLADA在深度伪造检测中实现了显著的平衡,甚至在有限的配对数据和压缩情况下,在OSNs上检测深度伪造时优于最先进的方法。更重要的是,这项工作将“块效应”引入为深度伪造检测中的关键因素,为开放世界场景提供了强大的解决方案。我们的代码可在此https URL获取。 |
[34] 轻量级多帧集成用于视频中稳健的YOLO目标检测 标题: Lightweight Multi-Frame Integration for Robust YOLO Object Detection in Videos 作者: Yitong Quan / Benjamin Kiefer / Martin Messmer / Andreas Zell 原文: [英文] [中文] 备注: Submitted to ECMR 2025 摘要: 现代基于图像的目标检测模型,如YOLOv7,主要是独立处理单个帧,因此忽略了视频中自然存在的宝贵时间上下文。同时,现有的视频检测方法通常引入复杂的时间模块,显著增加了模型的大小和计算复杂性。在实际应用中,如监控和自动驾驶,瞬时挑战(包括运动模糊、遮挡和突然的外观变化)可能严重降低单帧检测性能。为了解决这些问题,我们提出了一种简单但非常有效的策略:将多个连续帧堆叠作为YOLO检测器的输入,同时仅监督与单个目标帧对应的输出。该方法以最小的修改利用时间信息,保持了现有架构的简单性、计算效率和实时推理能力。在具有挑战性的MOT20Det和我们的BOAT360数据集上的大量实验表明,我们的方法提高了检测的鲁棒性,特别是对于轻量级模型,有效缩小了紧凑型和重型检测网络之间的差距。此外,我们贡献了BOAT360基准数据集,其中包括从船上拍摄的带注释的鱼眼视频序列,以支持未来在具有挑战性的真实场景中进行多帧视频目标检测的研究。 |
[35] AdvMIM:用于半监督医学图像分割的对抗性掩码图像建模 标题: AdvMIM: Adversarial Masked Image Modeling for Semi-Supervised Medical Image Segmentation 作者: Lei Zhu / Jun Zhou / Rick Siow Mong Goh / Yong Liu 原文: [英文] [中文] 备注: Accepted to MICCAI 2025 摘要: 视觉Transformer由于其在捕捉长距离依赖关系方面的卓越能力,最近在医学图像分割任务中获得了极大的关注。然而,Transformer需要大量标注数据才能有效,这在标注稀缺的半监督学习场景中限制了其应用,因为在这种场景中可用的标注数据非常有限。最先进的半监督学习方法提出了组合CNN-Transformer学习,以通过卷积神经网络交叉训练Transformer,从而取得了可喜的成果。然而,如何在有限的标注数据下有效地训练Transformer仍然是一个具有挑战性的任务。在本文中,我们提出了一种对抗性掩码图像建模方法,以充分释放Transformer在半监督医学图像分割中的潜力。Transformer在半监督学习中的关键挑战在于缺乏足够的监督信号。为此,我们提出通过掩码图像建模从原始域构建一个辅助掩码域,并训练Transformer通过掩码输入预测整个分割掩码,以增加监督信号。我们利用标注数据中的原始标签和未标注数据中的伪标签来学习掩码域。为了进一步使原始域从掩码域中受益,我们从多域学习的角度对我们的方法进行了理论分析,并设计了一种新颖的对抗性训练损失,以减少原始域和掩码域之间的域间差距,从而提升半监督学习性能。我们还将对抗性掩码图像建模扩展到CNN网络。在三个公共医学图像分割数据集上的大量实验表明,我们的方法是有效的,并且显著优于现有方法。我们的代码在此https URL上公开可用。 |
[36] 展示、讲述和总结:使用视觉线索辅助句子总结的密集视频字幕生成 标题: Show, Tell and Summarize: Dense Video Captioning Using Visual Cue Aided Sentence Summarization 作者: Zhiwang Zhang / Dong Xu / Wanli Ouyang / Chuanqi Tan 原文: [英文] 备注: 10 pages 摘要: 在这项工作中,我们提出了一种用于密集视频字幕生成的划分与总结(DaS)框架。在将每个未剪辑的长视频划分为多个事件提案后,其中每个事件提案由一组短视频片段组成,我们从每个片段中提取视觉特征(例如,C3D特征),并使用现有的图像/视频字幕生成方法为该片段生成一句描述。考虑到生成的句子包含关于整个事件提案的丰富语义描述,我们将密集视频字幕生成任务表述为一个视觉提示辅助的句子总结问题,并提出了一种新的两阶段长短期记忆(LSTM)方法,该方法配备了一种新的层次注意机制,以在视觉特征的帮助下将所有生成的句子总结为一句描述性句子。具体来说,第一阶段的LSTM网络将所有生成句子中的语义词和一个事件提案中所有片段的视觉特征作为输入,作为编码器有效总结与该事件提案相关的语义和视觉信息。第二阶段的LSTM网络将第一阶段LSTM网络的输出和一个事件提案中所有视频片段的视觉特征作为输入,作为解码器生成该事件提案的一句描述性句子。我们在ActivityNet Captions数据集上的综合实验展示了我们新提出的DaS框架在密集视频字幕生成中的有效性。 |
[37] 使用观察分组进行胸部X光片分类的因果表示学习 标题: Causal Representation Learning with Observational Grouping for CXR Classification 作者: Rajat Rasal / Avinash Kori / Ben Glocker 原文: [英文] [中文] 备注: None 摘要: 可识别的因果表示学习旨在揭示数据生成过程中的真实因果关系。在医学影像中,这为提高任务特定潜在特征的普遍性和鲁棒性提供了机会。本文引入了通过端到端框架对观察进行分组以学习可识别表示的方法,用于胸部X光片的疾病分类。我们的实验表明,当使用分组来强制保持种族、性别和影像视角的不变性时,这些因果表示在多个分类任务中提高了普遍性和鲁棒性。 |
[38] 使用基于图的句子摘要进行密集视频字幕生成 标题: Dense Video Captioning using Graph-based Sentence Summarization 作者: Zhiwang Zhang / Dong Xu / Wanli Ouyang / Luping Zhou 原文: [英文] [中文] 备注: 12 pages 摘要: 最近,密集视频字幕在检测和描述长未剪辑视频中的所有事件方面取得了令人瞩目的进展。尽管取得了令人满意的结果,但大多数现有方法在事件时间提案内没有充分探索场景演变,因此在场景和对象在相对较长的提案中发生变化时表现不够理想。为了解决这个问题,我们提出了一种基于图的分割和总结(GPaS)框架,用于密集视频字幕的两个阶段。在“分割”阶段,一个完整的事件提案被分割成短视频片段,以便在更细的层次上进行字幕。在“总结”阶段,为每个片段生成的句子携带丰富的描述信息,并被总结为一个句子来描述整个事件。我们特别关注“总结”阶段,并提出了一个有效利用语义词之间关系进行总结的框架。我们通过将语义词视为图中的节点,并通过结合图卷积网络(GCN)和长短时记忆网络(LSTM),在视觉线索的帮助下学习它们的交互来实现这一目标。提出了两种GCN-LSTM交互(GLI)模块方案,以实现GCN和LSTM的无缝集成。通过与两个基准数据集ActivityNet Captions和YouCook II上的最新方法进行广泛比较,证明了我们方法的有效性。 |
[39] 基于学习的360°单传感器设置距离估计 标题: Learning-Based Distance Estimation for 360° Single-Sensor Setups 作者: Yitong Quan / Benjamin Kiefer / Martin Messmer / Andreas Zell 原文: [英文] [中文] 备注: Submitted to ECMR 2025 摘要: 准确的距离估计是机器人感知中的一个基本挑战,特别是在全向成像中,传统的几何方法在处理镜头畸变和环境变化时显得力不从心。在这项工作中,我们提出了一种基于神经网络的单目距离估计方法,使用单个360°鱼眼镜头相机。与依赖于精确镜头校准的经典三角技术不同,我们的方法直接从原始全向输入中学习并推断物体的距离,从而在各种条件下提供更强的鲁棒性和适应性。我们在三个360°数据集(LOAF、ULM360和一个新捕获的数据集Boat360)上评估了我们的方法,每个数据集代表不同的环境和传感器设置。我们的实验结果表明,所提出的基于学习的模型在准确性和鲁棒性方面均优于传统的基于几何的方法和其他学习基线。这些发现突显了深度学习在实时全向距离估计中的潜力,使我们的方法特别适合于机器人、自主导航和监控中的低成本应用。 |
[40] TRIM:一种最大化时间相对信息和代表性的自监督视频摘要框架 标题: TRIM: A Self-Supervised Video Summarization Framework Maximizing Temporal Relative Information and Representativeness 作者: Pritam Mishra / Coloma Ballester / Dimosthenis Karatzas 原文: [英文] [中文] 备注: None 摘要: 视频内容的日益普及以及对有效获取有意义信息的需求,使得视频摘要和视频亮点成为一个重要的研究领域。然而,许多最先进的方法严重依赖于监督注释或基于注意力的模型,这些模型在计算上昂贵且在分布变化面前脆弱,阻碍了跨数据集的跨域适用性。我们介绍了一种开创性的自监督视频摘要模型,该模型在不依赖注意力机制、RNN或transformer的情况下捕捉空间和时间依赖性。我们的框架整合了一套新颖的基于马尔可夫过程的损失度量和一个两阶段自监督学习范式,确保了性能和效率。我们的方法在SUMME和TVSUM数据集上实现了最先进的性能,超越了所有现有的无监督方法。同时,它也与最佳的监督模型相媲美,展示了高效、无注释架构的潜力。这为更具普遍性的视频摘要技术铺平了道路,并挑战了对复杂架构的普遍依赖。 |
[41] WonderFree:提升3D场景探索中新视图质量和跨视图一致性 标题: WonderFree: Enhancing Novel View Quality and Cross-View Consistency for 3D Scene Exploration 作者: Chaojun Ni / Jie Li / Haoyun Li / Hengyu Liu / Xiaofeng Wang / Zheng Zhu / Guosheng Zhao / Boyuan Wang / Chenxin Li / Guan Huang / Wenjun Mei 原文: [英文] 备注: None 摘要: 由于其创造沉浸式虚拟世界的潜力,从单张图像生成交互式3D场景引起了广泛关注。然而,目前3D生成方法的一个关键挑战是有限的可探索性,在超出原始视点进行较大范围操作时无法渲染高质量图像,特别是在尝试向前移动到未见区域时。为了解决这一挑战,我们提出了WonderFree,这是第一个允许用户以任意角度和方向交互生成3D世界的模型。具体来说,我们将这一挑战分解为两个关键子问题:新视图质量,解决新视图中的视觉伪影和漂浮问题,以及跨视图一致性,确保不同视点之间的空间一致性。为了提高新视图中的渲染质量,我们引入了WorldRestorer,这是一种数据驱动的视频修复模型,旨在消除漂浮物和伪影。此外,我们提出了一种数据收集管道,自动收集WorldRestorer的训练数据,确保其能够处理3D场景生成所需的各种风格的场景。此外,为了提高跨视图一致性,我们提出了ConsistView,这是一种多视图联合修复机制,可以在保持时空一致性的同时同时修复多个视角。实验结果表明,WonderFree不仅提高了不同视点的渲染质量,还显著改善了整体连贯性和一致性。这些改进通过基于CLIP的指标和用户研究得到证实,显示出77.20%的用户更倾向于WonderFree而非WonderWorld,从而实现无缝和沉浸式的3D探索体验。代码、模型和数据将公开提供。 |
[42] SFNet:用于遥感图像伪造检测的空间和频域特征融合 标题: SFNet: Fusion of Spatial and Frequency-Domain Features for Remote Sensing Image Forgery Detection 作者: Ji Qi / Xinchang Zhang / Dingqi Ye / Yongjia Ruan / Xin Guo / Shaowen Wang / Haifeng Li 原文: [英文] [中文] 备注: None 摘要: 生成式人工智能的快速发展正在产生越来越难以检测的虚假遥感图像(RSI),这可能导致错误的情报、假新闻,甚至阴谋论。现有的伪造检测方法通常依赖于单一的视觉特征来捕捉预定义的伪造痕迹,例如使用空间域线索来检测RSI中的伪造物体如道路或建筑物,或使用频域特征来识别对抗生成网络(GANs)中上采样操作产生的伪造痕迹。然而,伪造痕迹的性质可能会因地理地形、土地覆盖类型或RSI中的特定特征而显著不同。此外,随着生成模型变得更加复杂,这些复杂的伪造痕迹也在不断演变。简而言之,过度依赖单一视觉线索使得现有的伪造检测器难以在多样化的遥感数据中进行泛化。本文提出了一种新颖的伪造检测框架,称为SFNet,旨在通过利用空间和频域特征来识别多样化遥感数据中的虚假图像。具体而言,为了获得丰富而全面的视觉信息,SFNet采用两个独立的特征提取器来从输入的RSI中捕捉空间和频域特征。为了充分利用互补的域特征,SFNet的域特征映射模块和混合域特征细化模块(CBAM注意力)被设计用来依次对齐和融合多域特征,同时抑制冗余信息。在三个数据集上的实验表明,SFNet在准确性上比最先进的RS伪造检测方法提高了4%-15.18%,并表现出强大的泛化能力。代码可在此https URL获取。 |
[43] 用于3D场景合成的视频感知模型 标题: Video Perception Models for 3D Scene Synthesis 作者: Rui Huang / Guangyao Zhai / Zuria Bauer / Marc Pollefeys / Federico Tombari / Leonidas Guibas / Gao Huang / Francis Engelmann 原文: [英文] [中文] 备注: None 摘要: 传统上,3D场景合成需要专业知识和大量的人工努力。自动化这一过程可以极大地促进建筑设计、机器人模拟、虚拟现实和游戏等领域的发展。最近的3D场景合成方法通常依赖于大型语言模型(LLMs)的常识推理或现代图像生成模型的强视觉先验。然而,目前的LLMs在3D空间推理能力上表现有限,这限制了它们生成真实且连贯的3D场景的能力。同时,基于图像生成的方法常常在视点选择和多视图一致性上受到限制。在这项工作中,我们提出了用于3D场景合成的视频感知模型(VIPScene),这是一种新颖的框架,利用视频生成模型中编码的3D物理世界常识知识,以确保连贯的场景布局和跨视图的一致对象放置。VIPScene接受文本和图像提示,并无缝集成视频生成、前馈3D重建和开放词汇感知模型,以语义和几何方式分析场景中的每个对象。这使得场景合成具有高度的现实性和结构一致性。为了更精确的分析,我们进一步引入了第一人称视角评分(FPVScore)用于连贯性和合理性评估,利用连续的第一人称视角来发挥多模态大型语言模型的推理能力。大量实验表明,VIPScene显著优于现有方法,并在各种场景中表现出良好的泛化能力。代码将会发布。 |
[44] Shape2Animal:从自然轮廓中创造性地生成动物 标题: Shape2Animal: Creative Animal Generation from Natural Silhouettes 作者: Quoc-Duy Tran / Anh-Tuan Vo / Dinh-Khoi Vo / Tam V. Nguyen / Minh-Triet Tran / Trung-Nghia Le 原文: [英文] [中文] 备注: None 摘要: 人类具有一种独特的能力,可以在模糊的刺激中感知有意义的模式,这种认知现象被称为空想性错觉。本文介绍了Shape2Animal框架,该框架通过重新解释自然物体的轮廓(如云、石头或火焰)为合理的动物形态来模拟这种想象力。我们的自动化框架首先执行开放词汇分割以提取物体轮廓,并使用视觉语言模型解释语义上适合的动物概念。然后,它利用文本到图像扩散模型合成符合输入形状的动物图像,并将其无缝地融入原始场景中,以生成视觉上连贯且空间一致的构图。我们在一组多样化的真实世界输入上评估了Shape2Animal,展示了其稳健性和创造潜力。我们的Shape2Animal可以为视觉故事讲述、教育内容、数字艺术和互动媒体设计提供新的机会。我们的项目页面在这里:这个https URL |
[45] 非合作空间物体的联合姿态估计与三维神经重建 标题: Joint attitude estimation and 3D neural reconstruction of non-cooperative space objects 作者: Clément Forray / Pauline Delporte / Nicolas Delaygue / Florence Genin / Dawa Derksen 原文: [英文] [中文] 备注: accepted for CVPR 2025 NFBCC workshop 摘要: 获得对地球轨道上物体的当前状态和行为的更好了解已被证明对于一系列应用至关重要,例如主动碎片清除、轨道维护或异常检测。3D模型在空间态势感知(SSA)领域中代表了一个有价值的信息来源。在这项工作中,我们利用神经辐射场(NeRF)从模拟图像中进行非合作空间物体的3D重建。由于不寻常的相机特性和环境条件:单色图像、未知物体方向、有限的视角、缺乏漫射光照等,这种场景对NeRF模型来说具有挑战性。在这项工作中,我们主要关注相机姿态与NeRF的联合优化。我们的实验结果表明,当逐一训练连续图像时,可以实现最准确的3D重建。我们通过优化统一旋转来估计相机姿态,并使用正则化来防止连续姿态之间距离过远。 |
[46] 显微镜图像的解缠结表示 标题: Disentangled representations of microscopy images 作者: Jacopo Dapueto / Vito Paolo Pastore / Nicoletta Noceti / Francesca Odone 原文: [英文] [中文] 备注: Published in: International Joint Conference on Neural Networks (IJCNN 2025). Project page: this https URL 摘要: 显微镜图像分析是从诊断到合成工程和环境监测等不同应用的基础。现代采集系统使得能够获取大量图像,这需要开发大量基于深度学习的自动图像分析方法。尽管深度神经网络在这一领域表现出色,但可解释性——显微镜图像分析的一个基本要求——仍然是一个未解决的挑战。本文提出了一种解缠表示学习(DRL)方法,以增强显微镜图像分类模型的可解释性。利用来自三个不同显微镜图像领域(浮游生物、酵母液泡和人类细胞)的基准数据集,我们展示了基于从合成数据中学习的表示转移的DRL框架如何在该领域提供准确性和可解释性之间的良好平衡。 |
[47] MMSearch-R1:激励大型多模态模型进行搜索 标题: MMSearch-R1: Incentivizing LMMs to Search 作者: Jinming Wu / Zihao Deng / Wei Li / Yiding Liu / Bo You / Bo Li / Zejun Ma / Ziwei Liu 原文: [英文] [中文] 备注: Code: this https URL 摘要: 在现实世界中稳健地部署大型多模态模型(LMMs)需要访问外部知识源,因为现实世界的信息具有复杂性和动态性。现有的方法如检索增强生成(RAG)和提示工程搜索代理依赖于僵化的流程,往往导致低效或过度的搜索行为。我们提出了MMSearch-R1,这是第一个端到端的强化学习框架,使LMMs能够在现实世界的互联网环境中执行按需的多轮搜索。我们的框架整合了图像和文本搜索工具,使模型能够在结果导向的奖励和搜索惩罚的指导下推理何时以及如何调用这些工具。为了支持训练,我们通过一个半自动化的流程收集了一个多模态搜索VQA数据集,该数据集涵盖了多样的视觉和文本知识需求,并策划了一个搜索平衡的子集,其中包含需要搜索和不需要搜索的样本,这对于塑造高效和按需的搜索行为至关重要。大量关于知识密集型和信息寻求型VQA任务的实验表明,我们的模型不仅优于相同模型规模的基于RAG的基线,还能在减少超过30%搜索调用的情况下匹配更大规模的基于RAG的模型的性能。我们进一步分析了关键的实证发现,以提供可操作的见解来推动多模态搜索研究的进展。 |
[48] IPFormer:具有上下文自适应实例提议的视觉3D全景场景补全 标题: IPFormer: Visual 3D Panoptic Scene Completion with Context-Adaptive Instance Proposals 作者: Markus Gross / Aya Fahmy / Danit Niwattananan / Dominik Muhle / Rui Song / Daniel Cremers / Henri Meeß 原文: [英文] [中文] 备注: None 摘要: 语义场景补全(Semantic Scene Completion, SSC)已成为一种关键方法,可以联合学习场景几何和语义,从而支持移动机器人导航等下游应用。最近推广的全景场景补全(Panoptic Scene Completion, PSC)通过整合实例级信息,提升了SSC领域,增强了场景理解中的物体级敏感性。尽管PSC是通过LiDAR模式引入的,但基于相机图像的方法仍然很少被探索。此外,最近基于Transformer的SSC方法使用一组固定的学习查询来重建场景体积中的物体。虽然这些查询在训练期间通常会随着图像上下文进行更新,但在测试时它们保持静态,限制了其动态适应具体观察场景的能力。为克服这些限制,我们提出了IPFormer,这是第一个在训练和测试时利用上下文自适应实例提议来解决基于视觉的3D全景场景补全的方法。具体来说,IPFormer自适应地将这些查询初始化为从图像上下文中得出的全景实例提议,并通过基于注意力的编码和解码进一步优化它们,以推理语义实例-体素关系。实验结果表明,我们的方法在整体全景指标PQ$^\dagger$和PQ-All上超越了最先进的方法,在单项指标上表现相当,并实现了超过14倍的运行时间缩短。此外,我们的消融研究表明,与随机初始化相比,从图像上下文动态推导实例提议可使PQ-All提高3.62%,在综合Thing指标上平均提高18.65%。这些结果突显了我们引入上下文自适应实例提议作为解决基于视觉的3D全景场景补全的开创性努力。 |