scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年4月30日更新论文65
[1] 几何能否拯救运动场注册的中心视图?
标题: Can Geometry Save Central Views for Sports Field Registration?
作者: Floriane Magera / Thomas Hoyoux / Martin Castin / Olivier Barnich / Anthony Cioppa / Marc Van Droogenbroeck
原文:   [英文]  
备注: 10 pages, 10 figures, 1 table, 40 references
摘要:
单帧体育场地注册通常是从广播视频中提取3D信息的基础,支持与体育分析、裁判或粉丝互动相关的应用。由于体育场地在其线条、圆圈和点组件的形状和尺寸方面具有严格的规范,体育场地标记通常被用作此任务的校准目标。然而,由于场地标记的稀疏和不均匀分布,围绕场地中央区域的特写镜头通常只描绘线条和圆圈标记。在这些视图中,体育场地注册对于绝大多数现有方法来说是具有挑战性的,因为它们专注于利用线条场地标记及其交点。确实,将圆圈对应关系纳入一组线性方程中是一个挑战。在这项工作中,我们提出了一种新方法,从圆圈对应关系中推导出一组点和线,从而能够利用圆圈对应关系进行体育场地注册和图像标注。在我们的实验中,我们展示了我们自底向上的几何方法相对于表现优异的检测器的优势,并表明我们的方法成功地补充了它们,使得在困难场景中实现体育场地注册成为可能。

[2] 土拨鼠:用于多对象自校正的多智能体推理以改善图文对齐
标题: Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment
作者: Jiayang Sun / Hongbo Wang / Jie Cao / Huaibo Huang / Ran He
原文:   [英文]   [中文]  
备注: None
摘要:
尽管扩散模型在生成高质量图像方面表现出色,但在复杂多物体场景中,它们常常在准确计数、属性和空间关系方面表现不佳。为了解决这些挑战,我们提出了Marmot,这是一种新颖且具有普适性的框架,采用多智能体推理进行多物体自我校正,增强图像与文本的对齐,并促进更连贯的多物体图像编辑。我们的框架采用分而治之的策略,将自我校正任务分解为三个关键维度(计数、属性和空间关系),并进一步细分为对象级子任务。我们构建了一个多智能体编辑系统,具有决策-执行-验证机制,有效减轻了对象间的干扰并提高了编辑的可靠性。为了解决子任务整合的问题,我们提出了一种像素域拼接平滑器,采用掩码引导的两阶段潜在空间优化。这一创新使子任务结果的并行处理成为可能,从而提高了运行时效率,同时消除了多阶段失真累积。大量实验表明,Marmot在图像生成任务中显著提高了对象计数、属性分配和空间关系的准确性。

[3] 基于边缘的学习以在对抗性噪声下提高分类性能
标题: Edge-Based Learning for Improved Classification Under Adversarial Noise
作者: Manish Kansana / Keyan Alexander Rahimi / Elias Hossain / Iman Dehzangi / Noorbakhsh Amiri Golilarz
原文:   [英文]   [中文]  
备注: None
摘要:
对抗性噪声在图像中引入了微小的扰动,误导深度学习模型进行错误分类,并显著影响识别准确性。在本研究中,我们分析了快速梯度符号法(FGSM)对抗性噪声对图像分类的影响,并研究了在特定图像特征上进行训练是否可以提高鲁棒性。我们假设,尽管对抗性噪声会扰乱图像的各个区域,但边缘可能相对稳定,并为分类提供重要的结构信息。为验证这一点,我们使用脑肿瘤和COVID数据集进行了一系列实验。最初,我们在干净的图像上训练模型,然后引入细微的对抗性扰动,这导致深度学习模型显著错误分类图像。在干净和有噪声的图像组合上重新训练后,性能有所提高。为了评估边缘特征的鲁棒性,我们从原始/干净图像中提取边缘,并仅在基于边缘的表示上训练模型。当噪声被引入图像时,基于边缘的模型在对抗性攻击下表现出比那些在原始或干净图像上训练的模型更强的抵抗力。这些结果表明,尽管对抗性噪声能够比边缘更显著地利用复杂的非边缘区域,但在重新训练后的准确性提高在原始数据中比在边缘中略高。因此,利用基于边缘的学习可以提高深度学习模型对抗对抗性扰动的抵抗力。

[4] VideoMultiAgents:用于视频问答的多智能体框架
标题: VideoMultiAgents: A Multi-Agent Framework for Video Question Answering
作者: Noriyuki Kugo / Xiang Li / Zixin Li / Ashish Gupta / Arpandeep Khatua / Nidhish Jain / Chaitanya Patel / Yuta Kyuragi / Masamoto Tanabiki / Kazuki Kozuka / Ehsan Adeli
原文:   [英文]   [中文]  
备注: None
摘要:
视频问答(VQA)本质上依赖于多模态推理,整合视觉、时间和语言线索,以更深入地理解视频内容。然而,许多现有方法依赖于将帧级字幕输入到单一模型中,这使得难以充分捕捉时间和交互上下文。为了解决这一限制,我们引入了VideoMultiAgents框架,该框架整合了专门用于视觉、场景图分析和文本处理的代理。它通过独立运行的代理的互补多模态推理来增强视频理解。我们的方法还辅以问题引导的字幕生成,生成的字幕能够突出与给定查询直接相关的对象、动作和时间转换,从而提高答案的准确性。实验结果表明,我们的方法在Intent-QA(79.0%,比之前的SOTA高出6.2%)、EgoSchema子集(75.4%,高出3.4%)和NExT-QA(79.6%,高出0.4%)上达到了最新的性能。

[5] 城市环境中无成像无人机识别的远距离现场演示
标题: Long-Distance Field Demonstration of Imaging-Free Drone Identification in Intracity Environments
作者: Junran Guo / Tonglin Mu / Keyuan Li / Jianing Li / Ziyang Luo / Ye Chen / Xiaodong Fan / Jinquan Huang / Minjie Liu / Jinbei Zhang / Ruoyang Qi / Naiting Gu / Shihai Sun
原文:   [英文]   [中文]  
备注: 15 pages, 9 figures
摘要:
检测远距离的小物体(如无人机)是一个具有广泛影响的重大挑战,涉及安全、监控、环境监测和自主系统等领域。传统的基于成像的方法依赖于高分辨率图像获取,但通常受到距离、功耗和成本的限制。相比之下,数据驱动的单光子单像素光探测和测距(D²SP²-LiDAR)提供了一种无成像的替代方案,直接实现目标识别,同时降低系统复杂性和成本。然而,其检测范围一直局限于几百米。在此,我们引入了一种将残差神经网络(ResNet)与D²SP²-LiDAR相结合的新方法,结合精细化的观测模型,将检测范围扩展到城市环境中的5公里,同时实现对无人机姿态和类型的高精度识别。实验结果表明,我们的方法不仅优于传统的基于成像的识别系统,而且即使在长距离和低信噪比(SNR)下的弱信号条件下,也能实现94.93%的姿态识别准确率和97.99%的类型分类准确率。这些发现突显了无成像方法在真实场景中对小目标进行稳健远程检测的潜力。

[6] 巴西高分辨率纵向新生儿指纹数据库的生产
标题: An on-production high-resolution longitudinal neonatal fingerprint database in Brazil
作者: Luiz F. P. Southier / Marcelo Filipak / Luiz A. Zanlorensi / Ildefonso Wasilevski / Fabio Favarim / Jefferson T. Oliva / Marcelo Teixeira / Dalcimar Casanova
原文:   [英文]   [中文]  
备注: None
摘要:
新生儿期对于生存至关重要,需要准确和早期的识别以便及时进行干预,例如疫苗接种、HIV治疗和营养计划。生物识别解决方案通过帮助防止婴儿调换、寻找失踪儿童以及支持国家身份系统,为儿童保护提供了潜力。然而,由于在早期发育过程中手指生长、体重变化和皮肤纹理改变所导致的生理变异,开发有效的新生儿生物识别系统仍然是一个重大挑战。目前的文献试图通过应用缩放因子来模拟细节图中的生长引起的变形来解决这些问题,但这种方法未能捕捉到婴儿复杂且非线性的生长模式。该领域进展的一个关键障碍是缺乏全面的、纵向的生物识别数据集,以捕捉新生儿指纹随时间的演变。本研究通过设计和开发一个高质量的新生儿指纹生物识别数据库来填补这一空白,该数据库在多个早期生命阶段获取。该数据集旨在支持机器学习模型的训练和评估,以模拟生长对生物识别特征的影响。我们假设这样的数据集将能够开发出更稳健和准确的基于深度学习的模型,其预测细节图变化的保真度将高于传统的基于缩放的方法。最终,这一努力为更可靠的生物识别系统奠定了基础,这些系统专为新生儿独特的发展轨迹量身定制。

[7] 使用单张图像生成和去除潜在噪声扩散水印
标题: Forging and Removing Latent-Noise Diffusion Watermarks Using a Single Image
作者: Anubhav Jain / Yuya Kobayashi / Naoki Murata / Yuhta Takida / Takashi Shibuya / Yuki Mitsufuji / Niv Cohen / Nasir Memon / Julian Togelius
原文:   [英文]   [中文]  
备注: None
摘要:
水印技术对于保护知识产权和防止媒体的欺诈使用至关重要。大多数先前为扩散模型设计的水印方案是在初始噪声中嵌入一个密钥。结果图案通常被认为难以移除并伪造到不相关的图像中。在本文中,我们提出了一种黑箱对抗攻击,不假定访问扩散模型的权重。我们的攻击仅使用一个带水印的示例,并基于一个简单的观察:图像和初始噪声之间存在多对一的映射。在干净图像的潜在空间中,有些区域与每个水印相关,当反转时会映射到相同的初始噪声。基于这一直觉,我们提出了一种对抗攻击,通过对图像引入扰动来伪造水印,以便我们可以进入带水印图像的区域。我们展示了我们也可以应用类似的方法来通过学习扰动退出该区域来移除水印。我们在多个水印方案(Tree-Ring、RingID、WIND 和 Gaussian Shading)和两个扩散模型(SDv1.4 和 SDv2.0)上报告了结果。我们的结果展示了攻击的有效性,并揭示了水印方法中的漏洞,激励了未来在改进这些方法上的研究。

[8] 一种基于Transformer的多模态融合模型,用于利用视觉和无线信号进行高效人群计数
标题: A Transformer-based Multimodal Fusion Model for Efficient Crowd Counting Using Visual and Wireless Signals
作者: Zhe Cui / Yuli Li / Le-Nam Tran
原文:   [英文]   [中文]  
备注: This paper was accepted at IEEE WCNC 2025
摘要:
当前的人群计数模型通常依赖于单一模态输入,例如视觉图像或无线信号数据,这可能导致显著的信息损失和次优的识别性能。为了解决这些缺点,我们提出了TransFusion,这是一种新颖的基于多模态融合的人群计数模型,它将信道状态信息(CSI)与图像数据相结合。通过利用Transformer网络的强大功能,TransFusion有效地结合了这两种不同的数据模态,从而能够捕捉到对准确人群估计至关重要的全面的全局上下文信息。然而,尽管Transformer能够很好地捕捉全局特征,但它们可能无法识别对精确人群计数至关重要的更细粒度的局部细节。为此,我们在模型架构中加入了卷积神经网络(CNN),增强了其提取详细局部特征的能力,以补充Transformer提供的全局上下文。广泛的实验评估表明,TransFusion在保持卓越效率的同时,实现了高精度和最小的计数误差。

[9] 集成流程模型
标题: Integration Flow Models
作者: Jingjing Wang / Dan Zhang / Joshua Luo / Yin Yang / Feng Luo
原文:   [英文]   [中文]  
备注: None
摘要:
基于常微分方程(ODE)的生成模型已经成为在许多应用中生成高质量样本的强大方法。然而,基于ODE的方法要么受到ODE数值求解器的离散化误差的影响,当只使用少量NFEs时限制了样本质量,要么在训练中面临不稳定性。在本文中,我们提出了Integration Flow,它直接学习ODE轨迹路径的积分,而无需求解ODE函数。此外,Integration Flow明确地将目标状态$\mathbf{x}_0$作为锚定状态来指导逆时间动态。我们从理论上证明了这可以有助于稳定性和准确性。据我们所知,Integration Flow是第一个具有统一结构的模型,用于估计基于ODE的生成模型,也是第一个展示1-Rectified Flow的精确直线性而无需重新流动的模型。通过理论分析和实证评估,我们表明Integration Flows在应用于现有的基于ODE的模型时,如扩散模型、Rectified Flows和PFGM++,实现了性能的提升。具体而言,Integration Flow在CIFAR10上实现了一步生成,Variance Exploding(VE)扩散模型的FID为2.86,未重新流动的Rectified Flow为3.36,PFGM++为2.91;在ImageNet上,VE扩散模型的FID为4.09,未重新流动的Rectified Flow为4.35,PFGM++为4.15。

[10] 跨图像编织上下文:通过聚焦中心的视觉链提升视觉-语言模型
标题: Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains
作者: Juntian Zhang / Chuanqi cheng / Yuhan Liu / Wei Liu / Jian Luan / Rui Yan
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)在单图像任务中取得了显著的成功。然而,现实世界的场景通常涉及复杂的多图像输入,导致模型在处理分散于复杂视觉特征中的关键信息时表现显著下降。在这项工作中,我们提出了焦点中心视觉链,这是一种新颖的范式,增强了VLMs在多图像场景中的感知、理解和推理能力。为了促进这一范式,我们提出了焦点中心数据合成,这是一种自下而上的可扩展方法,用于合成具有精细推理路径的高质量数据。通过这种方法,我们构建了VISC-150K,这是一个大规模的数据集,包含以焦点中心视觉链形式呈现的推理数据,专为多图像任务设计。在七个多图像基准上的实验结果表明,我们的方法在两种不同的模型架构中实现了平均3.16%和2.24%的性能提升,同时不影响通用的视觉-语言能力。我们的研究代表了朝着能够处理复杂视觉场景的更强大和更有能力的视觉-语言系统迈出的重要一步。

[11] 用于洪水检测的遥感图像:增强策略的探索
标题: Remote Sensing Imagery for Flood Detection: Exploration of Augmentation Strategies
作者: Vladyslav Polushko / Damjan Hatic / Ronald Rösch / Thomas März / Markus Rauhut / Andreas Weinmann
原文:   [英文]   [中文]  
备注: None
摘要:
洪水在全球范围内造成严重问题。快速有效的响应需要关于受影响区域的准确和及时的信息。为了准确检测洪水,有效利用遥感图像需要特定的检测方法。通常,深度神经网络被用于此目的,并在特定的数据集上进行训练。为了在RGB图像中检测河流洪水,我们使用了BlessemFlood21数据集。我们在此探索了不同的数据增强策略的使用,从基本方法到更复杂的技术,包括光学畸变。通过识别有效的策略,我们旨在优化最先进的深度学习分割网络的训练过程。

[12] FreBIS:基于频率的神经隐式表面表示分层
标题: FreBIS: Frequency-Based Stratification for Neural Implicit Surface Representations
作者: Naoko Sawada / Pedro Miraldo / Suhas Lohit / Tim K. Marks / Moitreya Chatterjee
原文:   [英文]  
备注: Accepted to CVPR 2025 CV4Metaverse Workshop
摘要:
神经隐式表面表示技术在增强现实/虚拟现实、数字孪生、自主导航以及许多其他领域的技术进步中需求量很大。由于这些技术能够将场景中的物体表面建模为连续函数,它们最近取得了显著进展,尤其是在传统的3D表面重建方法(如使用体素或点云的方法)方面。然而,这些方法在处理具有多样化和复杂表面的场景时存在困难,主要原因是它们使用单一编码器网络来同时捕捉场景中的所有低到高表面频率信息。在这项工作中,我们提出了一种新颖的神经隐式表面表示方法,称为FreBIS,以克服这一挑战。FreBIS通过将场景基于表面频率分层为多个频率级别来工作,每个级别(或一组级别)由专用编码器进行编码。此外,FreBIS通过一种新颖的、冗余感知的加权模块促进编码特征的互异性,鼓励这些编码器捕捉互补信息。在具有挑战性的BlendedMVS数据集上的实证评估表明,将现成的神经表面重建方法中的标准编码器替换为我们的频率分层编码器可以显著提高性能。这些增强在重建的3D表面质量以及从任何视点进行渲染的保真度方面都很明显。

[13] 使用一组最低成本技术和深度判别相关滤波器提高基于无人机的人群监控中的轨迹连续性
标题: Improving trajectory continuity in drone-based crowd monitoring using a set of minimal-cost techniques and deep discriminative correlation filters
作者: Bartosz Ptak / Marek Kraft
原文:   [英文]   [中文]  
备注: Preprint submitted to the Expert Systems with Applications journal
摘要:
基于无人机的人群监控是监视、公共安全和事件管理应用的关键技术。然而,保持跟踪的连续性和一致性仍然是一个重大挑战。传统的检测-分配跟踪方法在处理误报、漏报和频繁的身份切换时表现不佳,导致计数准确性下降,并使深入分析变得不可能。本文介绍了一种面向点的在线跟踪算法,以提高基于无人机的人群监控中的轨迹连续性和计数可靠性。我们的方法基于简单在线实时跟踪(SORT)框架,将原始的边界框分配替换为点距离度量。该算法通过三种具有成本效益的技术进行了增强:相机运动补偿、海拔感知分配和基于分类的轨迹验证。此外,集成了深度判别相关滤波器(DDCF),通过神经网络资源共享重用定位算法的空间特征图,以提高计算效率,从而优化目标跟踪,减少噪声并处理漏检。该方法在DroneCrowd和新共享的UP-COUNT-TRACK数据集上进行了评估,显示出跟踪指标的显著改进,分别将计数误差减少到23%和15%。结果还表明,在保持高跟踪准确率的同时,身份切换显著减少,优于基线在线跟踪器,甚至超过了一种离线贪婪优化方法。

[14] 基于物理信息的扩散模型用于从文本提示生成SAR船尾迹
标题: Physics-Informed Diffusion Models for SAR Ship Wake Generation from Text Prompts
作者: Kamirul Kamirul / Odysseas Pappas / Alin Achim
原文:   [英文]   [中文]  
备注: 4 pages; Submitted Machine Intelligence for GeoAnalytics and Remote Sensing (MIGARS) - 2025
摘要:
通过合成孔径雷达(SAR)图像中的尾迹特征检测船只存在正在引起相当大的研究兴趣,但有限的标注数据可用性对监督学习构成了重大挑战。基于物理的模拟通常用于解决这种数据稀缺问题,尽管它们速度较慢并限制了端到端学习。在这项工作中,我们探索了一种新的方向,使用扩散模型进行更高效且端到端的SAR船尾迹模拟,该模型在基于物理的模拟器生成的数据上进行训练。训练数据集是通过将模拟器生成的图像与从模拟参数中提取的文本提示配对构建的。实验结果表明,该模型生成了逼真的开尔文尾迹模式,并且推理速度显著快于基于物理的模拟器。这些结果突显了扩散模型在快速和可控的尾迹图像生成中的潜力,为海事SAR分析中的端到端下游任务开辟了新的可能性。

[15] 基于扩散模型的得分型黎曼度量图像插值
标题: Image Interpolation with Score-based Riemannian Metrics of Diffusion Models
作者: Shinnosuke Saito / Takashi Matsubara
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型通过隐式学习数据流形在内容生成方面表现出色,但与其他配备潜在空间的深度生成模型不同,它们缺乏利用该流形的实用方法。本文介绍了一种新颖的框架,将预训练扩散模型的数据空间视为黎曼流形,并从得分函数中导出度量。在对MNIST和Stable Diffusion的实验中,这种几何感知的方法产生的图像插值比现有方法更逼真、噪声更少,并且更忠实于提示,展示了其在改进内容生成和编辑方面的潜力。

[16] DeepAndes: 一个用于安第斯山脉多光谱遥感影像的自监督视觉基础模型
标题: DeepAndes: A Self-Supervised Vision Foundation Model for Multi-Spectral Remote Sensing Imagery of the Andes
作者: Junlin Guo / James R. Zimmer-Dauphinee / Jordan M. Nieusma / Siqi Lu / Quan Liu / Ruining Deng / Can Cui / Jialin Yue / Yizhe Lin / Tianyuan Yao / Juming Xiong / Junchao Zhu / Chongyu Qu / Yuechen Yang / Mitchell Wilkes / Xiao Wang / Parker VanValkenburgh / Steven A. Wernke / Yuankai Huo
原文:   [英文]  
备注: None
摘要:
通过使用遥感数据进行大规模地点映射,考古学家可以对长期人口趋势、区域间社会网络以及过去对气候变化的适应产生独特的见解。遥感调查补充了基于实地的方法,当与深度学习和计算机视觉技术结合时,其影响力尤其显著。然而,传统的监督深度学习方法在大规模标注细粒度考古特征时面临挑战。尽管最近的视觉基础模型在以最少的标注学习大规模遥感数据方面取得了显著成功,但大多数现成的解决方案是为RGB图像设计的,而不是我们研究中使用的8波段数据等多光谱卫星图像。在本文中,我们介绍了DeepAndes,这是一种基于变压器的视觉基础模型,专门为安第斯考古学量身定制,训练于三百万张多光谱卫星图像。DeepAndes结合了定制的DINOv2自监督学习算法,优化用于8波段多光谱图像,标志着第一个专门为安第斯地区设计的基础模型。我们通过不平衡图像分类、图像实例检索和像素级语义分割任务评估其图像理解性能。我们的实验表明,DeepAndes在少样本学习场景中实现了优越的F1分数、平均精度和Dice分数,显著优于从头开始训练或在较小数据集上预训练的模型。这强调了大规模自监督预训练在考古遥感中的有效性。代码将在此https URL上提供。

[17] 动态上下文注意网络:将空间表示转化为内窥镜息肉诊断的自适应洞察
标题: Dynamic Contextual Attention Network: Transforming Spatial Representations into Adaptive Insights for Endoscopic Polyp Diagnosis
作者: Teja Krishna Cherukuri / Nagur Shareef Shaik / Sribhuvan Reddy Yellu / Jun-Won Chung / Dong Hye Ye
原文:   [英文]   [中文]  
备注: Accepted at 47th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC) 2025
摘要:
结直肠息肉是早期检测结直肠癌的关键指标。然而,传统的内窥镜成像常常难以准确定位息肉,并且缺乏全面的上下文意识,这可能限制诊断的可解释性。为了解决这些问题,我们提出了动态上下文注意网络(DCAN)。这种新颖的方法通过注意机制将空间表示转化为自适应的上下文洞察,增强对关键息肉区域的关注,而无需显式的定位模块。通过将上下文意识整合到分类过程中,DCAN提高了决策的可解释性和整体诊断性能。这一成像技术的进步可能导致更可靠的结直肠癌检测,从而改善患者的治疗效果。

[18] 细粒度分类:使用跨对比预训练连接元数据
标题: Fine Grain Classification: Connecting Meta using Cross-Contrastive pre-training
作者: Sumit Mamtani / Yash Thesia
原文:   [英文]   [中文]  
备注: 9 pages, 4 figures. Submitted to arXiv
摘要:
细粒度视觉分类旨在识别属于一个超级类别内的多个从属类别的对象。然而,这仍然是一个具有挑战性的问题,因为仅凭外观信息通常不足以准确区分细粒度视觉类别。为了解决这个问题,我们提出了一种新颖且统一的框架,该框架利用元信息来辅助细粒度识别。我们通过跨对比预训练来处理视觉和元信息的联合学习。在第一阶段,我们为图像、文本和元信息使用三个编码器,调整它们的投影嵌入以实现更好的表示。然后,我们对图像和元信息编码器进行微调,以完成分类任务。在NABirds数据集上的实验表明,我们的框架有效地利用元信息来增强细粒度识别性能。随着元信息的加入,我们的框架在NABirds数据集上超过了当前基线7.83%。此外,它在NABirds数据集上实现了84.44%的准确率,优于许多现有的利用元信息的最新方法。

[19] MicarVLMoE:一种用于医学图像描述和报告生成的现代门控交叉对齐视觉-语言专家混合模型
标题: MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation
作者: Amaan Izhar / Nurul Japar / Norisma Idris / Ting Dang
原文:   [英文]   [中文]  
备注: Accepted by IJCNN 2025, 8 pages, 8 figures, 3 tables
摘要:
医学图像报告(MIR)旨在从放射图像生成结构化的临床描述。现有方法在细粒度特征提取、多模态对齐以及跨多种成像类型的泛化方面存在困难,通常依赖于基础的transformer,并主要关注胸部X光片。我们提出了MicarVLMoE,这是一种视觉-语言专家混合模型,具有门控交叉对齐融合,旨在解决这些限制。我们的架构包括:(i) 一个多尺度视觉编码器(MSVE),用于在不同分辨率下捕捉解剖细节;(ii) 一个多头双分支潜在注意力(MDLA)模块,通过潜在瓶颈表示进行视觉-语言对齐;以及(iii) 一个调制的专家混合(MoE)解码器,用于自适应专家专门化。我们将MIR扩展到CT扫描、视网膜成像、MRI扫描和大体病理图像,并在COVCTR、MMR、PGROSS和ROCO数据集上报告了最先进的结果。广泛的实验和消融研究证实了临床准确性、跨模态对齐和模型可解释性的改进。代码可在此https URL获取。

[20] TTTFusion:一种基于测试时训练的多模态医学图像融合策略在外科手术机器人中的应用
标题: TTTFusion: A Test-Time Training-Based Strategy for Multimodal Medical Image Fusion in Surgical Robots
作者: Qinhua Xie / Hao Tang
原文:   [英文]   [中文]  
备注: None
摘要:
随着手术机器人在临床实践中的使用日益增多,增强其处理多模态医学图像的能力已成为一个关键的研究挑战。尽管传统的医学图像融合方法在提高融合精度方面取得了一定进展,但在实时性能、细粒度特征提取和边缘保留方面仍面临重大挑战。在本文中,我们介绍了一种基于测试时训练(TTT)的图像融合策略——TTTFusion,该策略在推理过程中动态调整模型参数,以高效融合多模态医学图像。通过在测试阶段调整模型,我们的方法根据输入图像数据优化参数,从而提高融合精度并更好地保留细节。实验结果表明,与传统融合方法相比,TTTFusion显著提高了多模态图像的融合质量,特别是在细粒度特征提取和边缘保留方面。该方法不仅提高了图像融合的准确性,还为手术机器人中的实时图像处理提供了一种新颖的技术解决方案。

[21] 盗梦空间:破解文本到图像生成系统的记忆机制
标题: Inception: Jailbreak the Memory Mechanism of Text-to-Image Generation Systems
作者: Shiqian Zhao / Jiayang Liu / Yiming Li / Runyi Hu / Xiaojun Jia / Wenshu Fan / Xinfeng Li / Jie Zhang / Wei Dong / Tianwei Zhang / Luu Anh Tuan
原文:   [英文]   [中文]  
备注: 17 pages, 8 figures
摘要:
目前,记忆机制已在在线文本到图像(T2I)生成系统(例如,DALL·E 3)中被广泛且成功地利用,以缓解日益增长的标记化负担并在多轮交互中捕捉关键信息。尽管其实用性很强,但其安全性分析却远远落后。在本文中,我们揭示了这种机制加剧了越狱攻击的风险。与之前将不安全目标提示融合为一个最终对抗性提示的攻击不同,这些攻击容易被检测到或由于优化不足或过度优化而可能生成非不安全图像,我们提出了Inception,这是第一个针对真实世界文本到图像生成系统中记忆机制的多轮越狱攻击。Inception在聊天会话的开始逐轮嵌入恶意,利用T2I生成系统在其记忆中检索关键信息的机制。具体来说,Inception主要由两个模块组成。首先,它将不安全提示分割成块,随后在多轮中输入系统,作为指令优化的伪梯度。具体而言,我们开发了一系列分割策略,以确保生成的图像在语义上与目标提示一致。其次,在分割之后,为了克服最小不安全词不可分割的挑战,我们提出了递归,这是一种使最小不安全词可再细分的策略。总体而言,分割和递归确保所有请求提示都是良性的,但可以导致恶意结果。我们在真实世界的文本到图像生成系统(即DALL·E 3)上进行了实验,以验证Inception的有效性。结果表明,Inception在攻击成功率上比最先进的方法高出14%。

[22] Sparse2DGS:基于几何优先的高斯点云用于稀疏视图的表面重建
标题: Sparse2DGS: Geometry-Prioritized Gaussian Splatting for Surface Reconstruction from Sparse Views
作者: Jiang Wu / Rui Li / Yu Zhu / Rong Guo / Jinqiu Sun / Yanning Zhang
原文:   [英文]   [中文]  
备注: CVPR 2025
摘要:
我们提出了一种高斯喷溅方法,用于使用稀疏输入视图进行表面重建。以前依赖于密集视图的方法在初始化时难以处理极其稀疏的结构化运动点。虽然基于学习的多视图立体(MVS)提供了密集的3D点,但直接将其与高斯喷溅结合会由于稀疏视图几何优化的病态性质导致次优结果。我们提出了Sparse2DGS,一种MVS初始化的高斯喷溅管道,用于完整和准确的重建。我们的关键见解是结合几何优先的增强方案,允许在病态条件下进行直接和稳健的几何学习。Sparse2DGS在显著超越现有方法的同时,比基于NeRF的微调方法快${2}\times$倍。

[23] GSFeatLoc:基于3D高斯散射特征对应的视觉定位
标题: GSFeatLoc: Visual Localization Using Feature Correspondence on 3D Gaussian Splatting
作者: Jongwon Lee / Timothy Bretl
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们提出了一种方法,用于在预先计算的3D高斯散射(3DGS)场景表示中定位查询图像。首先,该方法使用3DGS在某个初始位姿估计处渲染合成的RGBD图像。其次,它在查询图像和该合成图像之间建立2D-2D对应关系。第三,它利用深度图将2D-2D对应关系提升为2D-3D对应关系,并解决一个透视n点(PnP)问题,以生成最终的位姿估计。通过对三个现有数据集的38个场景和超过2700张测试图像的评估结果表明,与使用光度损失最小化的基线方法相比,我们的方法显著减少了推理时间(超过两个数量级,从超过10秒减少到最快0.1秒)和估计误差。结果还表明,我们的方法能够容忍初始位姿估计中高达55°的旋转误差和1.1个单位的平移误差(按场景尺度归一化),在Synthetic NeRF和Mip-NeRF360数据集的90%的图像上,以及在更具挑战性的Tanks and Temples数据集的42%的图像上,实现了旋转误差小于5°和平移误差小于0.05个单位的最终位姿误差。

[24] 基于混合视差补偿的神经立体视频压缩
标题: Neural Stereo Video Compression with Hybrid Disparity Compensation
作者: Shiyin Jiang / Zhenghao Chen / Minghao Han / Xingyu Zhou / Leheng Zhang / Shuhang Gu
原文:   [英文]   [中文]  
备注: None
摘要:
视差补偿是立体视频压缩(SVC)中利用跨视图冗余的主要策略。这些机制大致可以分为两类:一种是采用显式水平位移,另一种是利用隐式跨注意力机制来减少跨视图视差冗余。在这项工作中,我们提出了一种混合视差补偿(HDC)策略,该策略利用显式像素位移作为稳健的先验特征来简化优化,并执行隐式跨注意力机制以进行后续的扭曲操作,从而捕获更广泛的视差信息。具体来说,HDC首先通过融合水平位移的跨视图特征来计算相似性图,以捕获像素位移信息。然后将此相似性图标准化为“显式像素级注意力分数”,以执行跨注意力机制,隐式地将一个视图的特征对齐到另一个视图。在HDC的基础上,我们引入了一种新颖的端到端优化神经立体视频压缩框架,该框架将基于HDC的模块集成到关键编码操作中,包括跨视图特征提取和重建(HDC-FER)以及跨视图熵建模(HDC-EM)。在包括KITTI 2012、KITTI 2015和Nagoya在内的SVC基准测试上进行的大量实验,涵盖了自动驾驶和一般场景,表明我们的框架优于神经和传统的SVC方法。

[25] FiLA-Video:用于细粒度长视频理解的时空压缩
标题: FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding
作者: Yanan Guo / Wenhui Dong / Jun Song / Shiding Zhu / Xuan Zhang / Hanqing Yang / Yingbo Wang / Yang Du / Xianing Chen / Bo Zheng
原文:   [英文]   [中文]  
备注: 8 pages, 6 figures
摘要:
最近在视觉大语言模型(VLLMs)中的视频理解方面取得了显著进展。然而,视频数据的复杂性和上下文处理的限制仍然阻碍了长视频的理解。一个常见的方法是通过视频特征压缩来减少大语言模型的输入标记,但许多方法要么未能优先考虑重要特征,导致冗余的帧间信息,要么引入了计算开销大的方法。为了解决这些问题,我们提出了FiLA(Fine-grained Vision Language Model)-Video,这是一种新颖的框架,利用轻量级的动态权重多帧融合策略,自适应地将多个帧整合为一个表示,同时保留关键视频信息并降低计算成本。为了增强帧选择以进行融合,我们引入了一种关键帧选择策略,有效地从更大的帧池中识别出信息丰富的帧以改善摘要。此外,我们提出了一种简单而有效的长视频训练数据生成策略,在不需要大量人工标注的情况下提升模型性能。实验结果表明,与现有方法相比,FiLA-Video在长视频理解方面实现了更高的效率和准确性。

[26] GarmentX:用于高保真3D服装生成的自回归参数化表示
标题: GarmentX: Autoregressive Parametric Representations for High-Fidelity 3D Garment Generation
作者: Jingfeng Guo / Jinnan Chen / Weikai Chen / Zhenyu Sun / Lanjiong Li / Baozhu Zhao / Lingting Zhu / Xin Wang / Qi Liu
原文:   [英文]   [中文]  
备注: None
摘要:
这项工作介绍了GarmentX,一个用于从单张输入图像生成多样化、高保真、可穿戴3D服装的新框架。传统的服装重建方法直接预测二维图案边缘及其连接,这是一种过于不受约束的方法,常常导致严重的自相交和物理上不合理的服装结构。相比之下,GarmentX引入了一种结构化且可编辑的参数化表示,与GarmentCode兼容,确保解码后的缝纫图案始终形成有效的、可模拟的3D服装,同时允许对服装形状和风格进行直观修改。为实现这一目标,我们采用了一种掩码自回归模型,顺序预测服装参数,利用自回归建模进行结构化生成,同时减轻直接图案预测中的不一致性。此外,我们引入了GarmentX数据集,一个由378,682个服装参数-图像对组成的大规模数据集,通过自动数据生成管道构建,该管道基于参数化服装表示合成多样化和高质量的服装图像。通过将我们的方法与GarmentX数据集集成,我们在几何保真度和输入图像对齐方面实现了最先进的性能,显著优于之前的方法。我们将在发表时发布GarmentX数据集。

[27] 通过多模态大型语言模型和卷积神经网络进行植物病害检测
标题: Plant Disease Detection through Multimodal Large Language Models and Convolutional Neural Networks
作者: Konstantinos I. Roumeliotis / Ranjan Sapkota / Manoj Karkee / Nikolaos D. Tselikas / Dimitrios K. Nasiopoulos
原文:   [英文]  
备注: None
摘要:
农业自动化在解决与作物监测和疾病管理相关的挑战中发挥着至关重要的作用,特别是通过早期检测系统。本研究探讨了结合多模态大型语言模型(LLMs),特别是GPT-4o,与卷积神经网络(CNNs)进行自动化植物疾病分类的有效性,使用叶片图像。利用PlantVillage数据集,我们系统地评估了模型在零样本、少样本和渐进微调场景中的性能。我们在三个分辨率(100、150和256像素)和两种植物(苹果和玉米)之间进行了GPT-4o与广泛使用的ResNet-50模型的比较分析。结果表明,微调后的GPT-4o模型在苹果叶片图像上实现了高达98.12%的分类准确率,相比之下ResNet-50实现了96.88%,并且具有改进的泛化能力和接近零的训练损失。然而,GPT-4o的零样本性能显著较低,强调了最低限度训练的必要性。关于跨分辨率和跨植物泛化的额外评估揭示了模型在应用于新领域时的适应性和局限性。研究结果突出了将多模态LLMs整合到自动化疾病检测流程中的前景,增强了精准农业系统的可扩展性和智能性,同时减少了对大型标记数据集和高分辨率传感器基础设施的依赖。大型语言模型、视觉语言模型、LLMs和CNNs、使用视觉语言模型进行疾病检测、VLMs。

[28] 人工智能辅助发展中国家细胞学样本的宫颈癌筛查
标题: AI Assisted Cervical Cancer Screening for Cytology Samples in Developing Countries
作者: Love Panta / Suraj Prasai / Karishma Malla Vaidya / Shyam Shrestha / Suresh Manandhar
原文:   [英文]   [中文]  
备注: None
摘要:
宫颈癌仍然是一个重大的健康挑战,尤其是在转型国家,其发病率和死亡率都很高。传统的液基细胞学(LBC)是一项劳动密集型的过程,需要专家病理学家,并且容易出错,这突显了对更高效筛查方法的需求。本文介绍了一种创新的方法,将低成本的生物显微镜与我们简单高效的AI算法相结合,用于自动化的全片分析。我们的系统使用电动显微镜捕捉细胞学图像,然后通过AI管道进行处理,包括图像拼接、细胞分割和分类。我们利用基于轻量级UNet的模型,采用人机交互的方法,以最小的感兴趣区域(ROI)训练我们的分割模型。基于CvT的分类模型在SIPaKMeD数据集上训练,能够准确分类五种细胞类型。与各种最先进的方法相比,我们的框架在宫颈癌筛查中提供了更高的准确性和效率,这已通过不同的评估指标得以证明。

[29] PixelHacker:具有结构和语义一致性的图像修复
标题: PixelHacker: Image Inpainting with Structural and Semantic Consistency
作者: Ziyang Xu / Kangsheng Duan / Xiaolei Shen / Zhifeng Ding / Wenyu Liu / Xiaohu Ruan / Xiaoxin Chen / Xinggang Wang
原文:   [英文]   [中文]  
备注: None
摘要:
图像修复是图像编辑和图像生成之间的一个基础研究领域。最近的最新方法探索了新颖的注意力机制、轻量级架构和上下文感知建模,表现出令人印象深刻的性能。然而,它们常常在处理复杂结构(例如纹理、形状、空间关系)和语义(例如颜色一致性、对象恢复和逻辑正确性)时遇到困难,导致伪影和不适当的生成。为了解决这一挑战,我们设计了一种简单但有效的修复范式,称为潜在类别指导,并进一步提出了一种基于扩散的模型,名为PixelHacker。具体来说,我们首先通过标注前景和背景(分别为潜在的116和21个类别)构建了一个包含1400万图像-掩码对的大型数据集。然后,我们通过两个固定大小的嵌入分别编码潜在的前景和背景表示,并通过线性注意力间歇性地将这些特征注入到去噪过程中。最后,通过在我们的数据集上进行预训练并在开源基准上进行微调,我们获得了PixelHacker。大量实验表明,PixelHacker在广泛的数据集(Places2、CelebA-HQ和FFHQ)上全面超越了最新方法,并在结构和语义上表现出显著的一致性。项目页面在这个URL。

[30] LMM4Gen3DHF:基于LMMs的多模态3D人脸生成的基准测试与评估
标题: LMM4Gen3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs
作者: Woo Yi Yang / Jiarui Wang / Sijing Wu / Huiyu Duan / Yuxin Zhu / Liu Yang / Kang Fu / Guangtao Zhai / Xiongkuo Min
原文:   [英文]  
备注: None
摘要:
生成式人工智能的快速发展使得创建3D人脸(HF)成为可能,这些应用包括媒体制作、虚拟现实、安全、医疗保健和游戏开发等。然而,由于人类感知的主观性以及对面部特征的固有感知敏感性,评估这些AI生成的3D人脸的质量和真实性仍然是一个重大挑战。为此,我们对AI生成的3D人脸的质量评估进行了全面研究。我们首先介绍了Gen3DHF,这是一个大规模基准,包含2000个AI生成的3D人脸视频,以及在质量和真实性两个维度上收集的4000个平均意见分数(MOS)、2000个失真感知显著性图和失真描述。基于Gen3DHF,我们提出了LMME3DHF,这是一种基于大型多模态模型(LMM)的3DHF评估指标,能够进行质量和真实性分数预测、失真感知视觉问答以及失真感知显著性预测。实验结果表明,LMME3DHF实现了最先进的性能,在准确预测AI生成的3D人脸质量分数以及有效识别失真感知显著区域和失真类型方面超越了现有方法,同时与人类感知判断保持高度一致。Gen3DHF数据库和LMME3DHF将在论文发表时发布。

[31] 解毒剂:一种用于缓解反事实预设和对象感知中LVLM幻觉的统一框架
标题: Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception
作者: Yuanchen Wu / Lu Zhang / Hang Yao / Junlong Du / Ke Yan / Shouhong Ding / Yunsheng Wu / Xiaoqiang Li
原文:   [英文]  
备注: Accepted to CVPR 2025
摘要:
大型视觉-语言模型(LVLMs)在各种跨模态任务中取得了令人印象深刻的成果。然而,幻觉,即模型生成反事实响应,仍然是一个挑战。尽管最近的研究尝试缓解对象感知幻觉,但它们主要关注于模型的响应生成,而忽视了任务问题本身。本文讨论了LVLMs在解决反事实预设问题(CPQs)时的脆弱性,其中模型容易接受反事实对象的预设并产生严重的幻觉响应。为此,我们引入了“Antidote”,一个统一的、基于合成数据的后训练框架,用于缓解上述两种类型的幻觉。它利用合成数据将事实先验融入问题中以实现自我纠正,并将缓解过程解耦为一个偏好优化问题。此外,我们构建了“CP-Bench”,一个新颖的基准,用于评估LVLMs正确处理CPQs并生成事实响应的能力。应用于LLaVA系列,Antidote可以同时提升CP-Bench的性能超过50%,POPE提升1.8-3.3%,CHAIR & SHR提升30-50%,所有这些都不依赖于更强大的LVLMs或人类反馈的外部监督,并且不会引入明显的灾难性遗忘问题。

[32] 用于野外视频的大规模视觉SLAM
标题: Large-scale visual SLAM for in-the-wild videos
作者: Shuo Sun / Torsten Sattler / Malcolm Mielle / Achim J. Lilienthal / Martin Magnusson
原文:   [英文]   [中文]  
备注: fix the overview figure
摘要:
从随意拍摄的自然环境视频中进行准确且稳健的三维场景重建,可以显著简化机器人在新环境中的部署。然而,从这种不受约束的视频中可靠地估计相机姿态和场景重建仍然是一个未解决的挑战。现有的仅依赖视觉的SLAM方法在基准数据集上表现良好,但在真实世界的录像中往往表现不佳,这些录像通常表现出不受控制的运动,包括快速旋转和纯前进运动、无纹理区域以及动态物体。我们分析了当前方法的局限性,并引入了一种稳健的流程,旨在改善从随意视频中进行的三维重建。我们基于最近的深度视觉里程计方法,但在多个方面提高了稳健性。相机内参通过运动结构从前几帧中自动恢复。动态物体和不太受约束的区域通过预测模型进行遮罩。此外,我们利用单目深度估计来正则化束调整,减轻低视差情况下的误差。最后,我们整合了位置识别和回环闭合,以减少长期漂移,并通过全局束调整优化内参和姿态估计。我们展示了从多个在线视频中获得的大规模连续三维模型,这些视频来自各种环境。相比之下,基线方法通常在多个点产生局部不一致的结果,导致分离的片段或失真的地图。在缺乏真实姿态数据的情况下,我们评估了地图的一致性、执行时间和重新渲染的NeRF模型的视觉准确性。我们提出的系统为从在线随意不受控视频中进行视觉重建建立了新的基准,展示了比以往更长序列的自然环境视频中更一致的重建。

[33] 用于单源域广义目标检测的风格自适应检测Transformer
标题: Style-Adaptive Detection Transformer for Single-Source Domain Generalized Object Detection
作者: Jianhong Han / Yupei Wang / Liang Chen
原文:   [英文]   [中文]  
备注: Manuscript submitted to IEEE Transactions on Multimedia
摘要:
单源域泛化 (SDG) 在目标检测中旨在使用仅来自源域的数据开发一个检测器,该检测器在应用于未见过的目标域时能够表现出强大的泛化能力。现有的方法基于 CNN 的检测器,主要通过采用精心设计的数据增强策略与特征对齐技术相结合来提高鲁棒性。然而,数据增强方法存在固有缺陷;它们只有在增强样本分布接近或覆盖未见场景时才有效,因此无法增强对所有未见域的泛化。此外,尽管最近的检测变压器 (DETR) 在域适应任务中由于其高效的全局信息提取展示了卓越的泛化能力,但其在 SDG 任务中的潜力仍未被探索。为此,我们引入了一种强大的基于 DETR 的检测器,称为风格自适应检测变压器 (SA-DETR),用于目标检测中的 SDG。具体来说,我们提出了一个域风格适配器,将未见目标域的风格表示投射到训练域中,实现动态风格适应。然后,我们提出了一个对象感知对比学习模块,通过对比学习引导检测器提取域不变特征。通过使用对象感知门控掩码在空间和语义维度上约束特征聚合,该模块实现了实例级特征的跨域对比,从而增强了泛化能力。大量实验表明,SA-DETR 在五种不同天气场景中表现出卓越的性能和泛化能力。代码已在此 https URL 发布。

[34] MambaMoE:用于高光谱图像分类的光谱-空间专家混合状态空间模型
标题: MambaMoE: Mixture-of-Spectral-Spatial-Experts State Space Model for Hyperspectral Image Classification
作者: Yichu Xu / Di Wang / Hongzan Jiao / Lefei Zhang / Liangpei Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
Mamba模型最近在高光谱图像(HSI)分类中展示了强大的潜力,因为它能够以线性计算复杂度进行上下文建模。然而,现有的基于Mamba的方法通常忽视了与高光谱场景中异质对象相关的光谱和空间方向特征,导致分类性能有限。为了解决这些问题,我们提出了MambaMoE,一种新颖的光谱-空间专家混合框架,这是HSI分类领域中首个基于MoE的方法。具体来说,我们设计了一个Mamba专家块混合(MoMEB),利用稀疏专家激活来实现自适应光谱-空间建模。此外,我们引入了一种不确定性引导的纠正学习(UGCL)策略,以鼓励模型关注容易出现预测模糊的复杂区域。在多个公共HSI基准上的广泛实验表明,MambaMoE在准确性和效率方面均达到了现有先进方法的最先进性能,尤其是对于基于Mamba的方法。代码将会发布。

[35] SteelBlastQC:具有可解释表面缺陷检测的喷砂钢表面数据集
标题: SteelBlastQC: Shot-blasted Steel Surface Dataset with Interpretable Detection of Surface Defects
作者: Irina Ruzavina / Lisa Sophie Theis / Jesse Lemeer / Rutger de Groen / Leo Ebeling / Andrej Hulak / Jouaria Ali / Guangzhi Tang / Rico Mockel
原文:   [英文]   [中文]  
备注: Accepted by IJCNN 2025
摘要:
自动化喷砂钢表面质量控制对于提高制造效率和一致性至关重要。本研究提供了一个包含1654张标记的RGB图像(512x512)的数据集,这些图像的钢表面被分类为“准备上漆”或“需要喷砂”。该数据集捕捉了真实世界的表面缺陷,包括变色、焊接线、划痕和腐蚀,使其非常适合用于训练计算机视觉模型。此外,研究评估了三种分类方法:紧凑卷积变压器(CCT)、结合ResNet-50特征提取的支持向量机(SVM)和卷积自编码器(CAE)。监督方法(CCT和SVM)在测试集上实现了95%的分类准确率,其中CCT利用了基于变压器的注意力机制,而SVM提供了一种计算效率高的替代方案。CAE方法虽然效果较差,但为无监督质量控制建立了基准。我们展示了所有三种神经网络的可解释决策,使行业用户能够直观地定位问题区域并理解模型的推理。通过发布数据集和基准代码,本研究旨在支持缺陷检测的进一步研究,推动可解释计算机视觉模型在质量控制中的发展,并鼓励在工业应用中采用自动化检测系统。

[36] 文本到图像扩散模型中后门检测的动态注意力分析
标题: Dynamic Attention Analysis for Backdoor Detection in Text-to-Image Diffusion Models
作者: Zhongqi Wang / Jie Zhang / Shiguang Shan / Xilin Chen
原文:   [英文]   [中文]  
备注: None
摘要:
最近的研究表明,文本到图像的扩散模型容易受到后门攻击,攻击者可以植入隐蔽的文本触发器来操控模型输出。以往的后门检测方法主要关注后门样本的静态特征。然而,扩散模型的一个重要特性是其固有的动态性。本研究引入了一种名为动态注意力分析(DAA)的新颖后门检测视角,表明这些动态特征是更好的后门检测指标。具体来说,通过检查交叉注意力图的动态演变,我们观察到后门样本在 $<$EOS$>$ 标记处表现出与良性样本不同的特征演变模式。为了量化这些动态异常,我们首先引入了DAA-I,它将标记的注意力图视为空间独立的,并使用Frobenius范数来测量动态特征。此外,为了更好地捕捉注意力图之间的交互并优化特征,我们提出了一种基于动态系统的方法,称为DAA-S。该模型使用基于图的状态方程来表述注意力图之间的空间相关性,并从理论上分析了该方法的全局渐近稳定性。在五种具有代表性的后门攻击场景中进行的大量实验表明,我们的方法显著优于现有的检测方法,平均F1得分达到79.49%,AUC达到87.67%。代码可在此https URL获取。

[37] 用于单目3D车道检测的几何感知时间聚合网络
标题: Geometry-aware Temporal Aggregation Network for Monocular 3D Lane Detection
作者: Huan Zheng / Wencheng Han / Tianyi Yan / Cheng-zhong Xu / Jianbing Shen
原文:   [英文]   [中文]  
备注: None
摘要:
单目3D车道检测旨在从前视图(FV)图像中估计车道的3D位置。然而,当前的单目3D车道检测方法存在两个局限性,包括预测的3D车道的几何信息不准确以及难以保持车道的完整性。为了解决这些问题,我们寻求充分利用多个输入帧的潜力。首先,我们旨在通过利用时间几何一致性来增强对场景几何的感知能力。其次,我们努力通过揭示时间序列中的更多实例信息来提高车道的完整性。因此,我们提出了一种新颖的几何感知时间聚合网络(GTA-Net)用于单目3D车道检测。一方面,我们开发了时间几何增强模块(TGEM),该模块利用连续帧之间的几何一致性,促进有效的几何感知。另一方面,我们提出了时间实例感知查询生成(TIQG),该方法策略性地将时间线索融入查询生成,从而能够探索全面的实例信息。实验表明,我们的GTA-Net实现了最先进的结果,超越了现有的单目3D车道检测解决方案。

[38] 超越地平线:通过偏序传递解耦无人机多视角动作识别
标题: Beyond the Horizon: Decoupling UAVs Multi-View Action Recognition via Partial Order Transfer
作者: Wenxuan Liu / Xian Zhong / Zhuo Zhou / Siyuan Yang / Chia-Wen Lin / Alex Chichung Kot
原文:   [英文]   [中文]  
备注: 11 pages
摘要:
无人机(UAV)中的动作识别由于沿垂直空间轴的显著视角变化而面临独特的挑战。与传统的地面环境不同,无人机从不同的高度捕捉动作,导致外观上存在显著差异。我们引入了一种适应不同无人机高度的多视角公式,并通过实验证明视角之间存在部分顺序关系,即识别准确率随着高度的增加而持续下降。这激发了一种新颖的方法,该方法明确建模无人机视角的层次结构,以提高跨高度的识别性能。为此,我们提出了部分顺序引导的多视角网络(POG-MVNet),旨在通过有效利用不同高度水平的视角相关信息来应对剧烈的视角变化。该框架包括三个关键组件:视角划分(VP)模块,使用头部到身体的比例根据高度对视角进行分组;顺序感知特征解耦(OFD)模块,在部分顺序引导下解开与动作相关和视角特定的特征;以及动作部分顺序引导(APOG),利用部分顺序从较容易的视角转移信息知识,以支持在更具挑战性的视角中学习。我们在Drone-Action、MOD20和UAV数据集上进行了实验,结果表明POG-MVNet显著优于竞争方法。例如,POG-MVNet在Drone-Action数据集上比最先进的方法ASAT和FAR提高了4.7%,在UAV数据集上提高了3.5%。POG-MVNet的代码将很快发布。

[39] 基于WiFi信道状态信息的点云环境合成自编码器模型:初步研究
标题: Autoencoder Models for Point Cloud Environmental Synthesis from WiFi Channel State Information: A Preliminary Study
作者: Daniele Pannone / Danilo Avola
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了一种深度学习框架,用于从WiFi信道状态信息(CSI)数据生成点云。我们采用了一个两阶段的自编码器方法:首先是一个带有卷积层的PointNet自编码器用于点云生成,其次是一个卷积神经网络自编码器用于将CSI数据映射到匹配的潜在空间。通过对齐这些潜在空间,我们的方法能够从WiFi数据中准确重建环境点云。实验结果验证了我们方法的有效性,突显了其在无线传感和环境映射应用中的潜力。

[40] PartHOI:基于部件的手-物体交互转移通过广义圆柱体
标题: PartHOI: Part-based Hand-Object Interaction Transfer via Generalized Cylinders
作者: Qiaochu Wang / Chufeng Xiao / Manfred Lau / Hongbo Fu
原文:   [英文]   [中文]  
备注: 14 pages, 12 figures, this paper has been accepted by Computational Visual Media Journal (CVMJ) but has not been published yet
摘要:
基于学习的方法来理解和建模手-物体交互(HOI)需要大量高质量的HOI数据。创建HOI数据的一种方法是根据物体的几何形状将手势从一个源物体转移到另一个物体。然而,目前用于在物体之间转移手势的方法依赖于形状匹配,由于形状和大小的差异,限制了跨类别转移手势的能力。我们观察到,HOI通常涉及物体的特定语义部分,这些部分在不同类别中通常具有更一致的形状。此外,构建这些部分之间的尺寸不变对应关系对于跨类别转移非常重要。基于这些见解,我们引入了一种新的方法PartHOI,用于基于部分的HOI转移。使用广义圆柱表示来参数化物体部分的几何形状,PartHOI建立了物体部分之间的稳健几何对应关系,并实现了接触点的转移。给定转移的点,我们优化手势以很好地适应目标物体。定性和定量结果表明,我们的方法能够很好地泛化HOI转移,即使对于跨类别物体,也能产生优于现有方法的高保真结果。

[41] 净化、标注与利用:小目标检测的高质量流程
标题: Purifying, Labeling, and Utilizing: A High-Quality Pipeline for Small Object Detection
作者: Siwei Wang / Zhiwei Chen / Liujuan Cao / Rongrong Ji
原文:   [英文]   [中文]  
备注: None
摘要:
小目标检测是一个广泛研究的任务,通常被概念化为一个“流水线式”的工程过程。在上游阶段,图像作为原材料在检测流水线中进行处理,使用预训练模型生成初始特征图。在中游阶段,一个分配器选择训练的正样本和负样本。随后,这些样本和特征被输入到下游进行分类和回归。以往的小目标检测方法通常专注于改进流水线的单独阶段,从而忽视了整体优化,限制了整体性能的提升。为了解决这个问题,我们优化了流水线中的三个关键方面,即净化、标记和利用,提出了一个高质量的小目标检测框架,称为PLUSNet。具体来说,PLUSNet由三个连续组件组成:用于净化上游特征的层次特征净化器(HFP)、用于提高中游训练样本质量的多标准标签分配(MCLA),以及用于更有效地利用信息完成下游任务的频率解耦头(FDHead)。所提出的PLUS模块可以轻松集成到各种目标检测器中,从而在多尺度场景中增强其检测能力。大量实验表明,所提出的PLUSNet在多个数据集上进行小目标检测时始终实现显著且一致的改进。

[42] EfficientHuman:使用关节化二维高斯进行高效的人体运动训练和重建
标题: EfficientHuman: Efficient Training and Reconstruction of Moving Human using Articulated 2D Gaussian
作者: Hao Tian / Rui Liu / Wen Shen / Yilong Hu / Zhihao Zheng / Xiaolin Qin
原文:   [英文]   [中文]  
备注: 11 pages, 3 figures
摘要:
3D Gaussian Splatting (3DGS) 被认为是场景重建和新视图合成的开创性技术。最近关于使用3DGS重建3D人体的工作尝试利用人体姿态的先验信息来增强渲染质量并提高训练速度。然而,由于多视图不一致性和冗余高斯,它在有效拟合动态表面平面方面存在困难。这种不一致性是因为高斯椭球体无法准确表示动态物体的表面,这阻碍了动态人体的快速重建。同时,冗余高斯的普遍存在意味着这些工作的训练时间仍然不理想,无法快速拟合动态人体。为了解决这些问题,我们提出了EfficientHuman模型,该模型使用关节化2D高斯快速完成动态人体重建,同时确保高渲染质量。关键创新在于将高斯斑点编码为规范空间中的关节化2D高斯表面,然后通过线性混合蒙皮(LBS)将其转换到姿态空间,以实现高效的姿态变换。与3D高斯不同,关节化2D高斯表面可以快速适应动态人体,同时确保视图一致的几何形状。此外,我们引入了一个姿态校准模块和一个LBS优化模块,以实现动态人体姿态的精确拟合,增强模型性能。在ZJU-MoCap数据集上的大量实验表明,EfficientHuman在平均不到一分钟内实现了快速3D动态人体重建,比当前最先进的方法快20秒,同时减少了冗余高斯的数量。

[43] AlignDiT:用于同步语音生成的多模态对齐扩散变换器
标题: AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation
作者: Jeongsoo Choi / Ji-Hoon Kim / Kim Sung-Bin / Tae-Hyun Oh / Joon Son Chung
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们研究了多模态到语音生成的任务,该任务旨在从多种输入模态(文本、视频和参考音频)合成高质量的语音。由于其广泛的应用范围,如电影制作、配音和虚拟化身,这一任务受到了越来越多的关注。尽管最近取得了一些进展,现有的方法在语音可懂度、音频与视频同步、语音自然度以及与参考说话者的声音相似性方面仍然存在局限性。为了解决这些挑战,我们提出了AlignDiT,一种多模态对齐扩散变压器,它能够从对齐的多模态输入中生成准确、同步且自然的语音。AlignDiT基于DiT架构的上下文学习能力,探索了三种有效的策略来对齐多模态表示。此外,我们引入了一种新颖的多模态无分类器引导机制,使模型能够在语音合成过程中自适应地平衡每种模态的信息。大量实验表明,AlignDiT在质量、同步性和说话者相似性方面显著优于现有方法,并在多个基准测试中表现出色。此外,AlignDiT在各种多模态任务中表现出强大的泛化能力,如视频到语音合成和视觉强制对齐,始终实现最先进的性能。演示页面可在此HTTPS URL上查看。

[44] LDPoly:用于大规模地形图绘制中多边形道路轮廓提取的潜在扩散
标题: LDPoly: Latent Diffusion for Polygonal Road Outline Extraction in Large-Scale Topographic Mapping
作者: Weiqin Jiao / Hao Cheng / George Vosselman / Claudio Persello
原文:   [英文]   [中文]  
备注: None
摘要:
从高分辨率航空图像中提取多边形道路轮廓是大规模地形测绘中的一项重要任务,其中道路被表示为矢量化的多边形,以最小的顶点冗余捕捉基本的几何特征。尽管其重要性,目前尚无现有方法专门为此任务设计。虽然多边形建筑轮廓提取已被广泛研究,但道路的独特特征,如分支结构和拓扑连接性,对这些方法提出了挑战。为了解决这一空白,我们引入了LDPoly,这是第一个专门用于从高分辨率航空图像中提取多边形道路轮廓的框架。我们的方法利用了一种新颖的双潜扩散模型与通道嵌入融合模块,使模型能够同时生成道路掩码和顶点热图。然后应用定制的多边形化方法,以获得具有最小顶点冗余的精确矢量化道路多边形。我们在一个新的基准数据集Map2ImLas上评估了LDPoly,该数据集包含荷兰多个地区各种地形对象的详细多边形注释。我们的实验包括区域内和跨区域评估,后者旨在评估模型在未见区域上的泛化性能。定量和定性结果表明,LDPoly在各种指标上优于最先进的多边形提取方法,包括像素级覆盖率、顶点效率、多边形规则性和道路连通性。我们还设计了两个新指标来评估多边形的简洁性和边界平滑性。此外,这项工作代表了扩散模型首次应用于从遥感图像中提取精确的矢量化对象轮廓而没有冗余顶点,为该领域的未来进展铺平了道路。

[45] SpaRE:利用合成数据增强视觉语言模型的空间推理能力
标题: SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data
作者: Michael Ogezi / Freda Shi
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)在从图像字幕生成到视觉问答(VQA)等任务中表现良好,但在空间推理方面却表现不佳。空间推理是理解我们物理世界的关键技能,而人类在这方面表现出色。我们发现,在广泛使用的视觉-语言数据集中,空间关系通常很少见,只有少数几种关系得到了良好表示,而大多数则形成了一个代表性不足的长尾。这一差距使得VLMs难以处理多样的空间关系。为了解决这个问题,我们构建了一个专注于空间推理的合成VQA数据集,该数据集是从Localized Narratives、DOCCI和PixMo-Cap中的超详细图像描述生成的。我们的数据集包含45.5万个样本,包含340万个问答对。在该数据集上训练的空间推理增强(SpaRE)VLMs在空间推理基准测试中表现出显著提升,在What's Up基准测试中性能提升高达49%,同时在一般任务中保持了强劲的表现。我们的工作缩小了人类与VLMs在空间推理方面的差距,使VLMs在机器人和导航等现实世界任务中更具能力。

[46] XNAT生态系统中的图像去识别:用例和解决方案
标题: Image deidentification in the XNAT ecosystem: use cases and solutions
作者: Alex Michie / Simon J Doran
原文:   [英文]   [中文]  
备注: For submission to MELBA (Machine Learning for Biomedical Imaging) special issue on the MIDI-B deidentification challenge (this https URL). 11 pages, 1 fig, 2 tables; 1 supplementary data file (this http URL) containing three spreadsheet tabs
摘要:
XNAT 是一个基于服务器的数据管理平台,广泛应用于学术界,用于管理研究项目中大型 DICOM 图像数据库。我们详细描述了使用 XNAT 及其“生态系统”中的独立工具对 DICOM 数据进行去识别化处理的工作流程。基于我们的经验,我们列出了可能需要去识别化的不同情境。参与医学图像去识别基准(MIDI-B)挑战的起点是一套预先存在的本地方法,这些方法在挑战的验证阶段进行了调整。我们在测试阶段的结果是 97.91%,显著低于同行,主要是由于我们的方法与挑战的 Synapse 平台之间存在晦涩的技术不兼容性,这使得我们在验证阶段无法获得反馈。提交后,来自组织者和通过 MIDI-B 持续基准测试设施的额外差异报告,使我们能够将这一得分显著提高到 99.61%。一种完全基于规则的方法被证明能够去除测试语料库中所有与姓名相关的信息,但在完全处理地址数据方面表现出不足。使用已发布的机器学习模型去除地址的初步实验部分成功,但显示出模型在其他类型的自由文本数据上“过于激进”,导致整体性能略微下降至 99.54%。因此,未来的发展将重点放在提高地址识别能力上,同时也更好地去除嵌入图像像素中的可识别数据。与挑战组织者关于“答案键”的几个技术方面仍在讨论中,但我们估计我们在 MIDI-B 测试语料库上的真实去识别化失败率目前为 0.19%。

[47] 通过视觉变换器提升假视频检测
标题: Advance Fake Video Detection via Vision Transformers
作者: Joy Battocchio / Stefano Dell'Anna / Andrea Montibeller / Giulia Boato
原文:   [英文]  
备注: None
摘要:
最近,基于人工智能的多媒体生成技术取得了进展,使得创建超逼真的图像和视频成为可能,这引发了人们对其在传播虚假信息方面潜在用途的担忧。生成技术的广泛可及性使得可以从提示或现有媒体中生成虚假多媒体,加上这些技术的不断改进,强调了对高度准确且具有广泛适用性的AI生成媒体检测方法的迫切需求,这一点也在《欧洲数字人工智能法案》等新法规中得到了体现。在本文中,我们从基于视觉变换器(ViT)的假图像检测中汲取灵感,并将这一理念扩展到视频领域。我们提出了一种创新的框架,有效地整合了随时间变化的ViT嵌入,以提高检测性能。我们的方法在一个新的、大型且多样化的视频数据集上显示出有前景的准确性、泛化能力和少样本学习能力,该数据集使用了五种最先进的开源生成技术生成的视频,以及一个包含由专有生成方法生成的视频的独立数据集。

[48] FBRT-YOLO:更快更好地用于实时航拍图像检测
标题: FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection
作者: Yao Xiao / Tingfa Xu / Yu Xin / Jianan Li
原文:   [英文]   [中文]  
备注: AAAI 2025
摘要:
具有视觉能力的嵌入式飞行设备已成为广泛应用的关键。在航空图像检测中,尽管许多现有方法部分解决了小目标检测的问题,但在优化小目标检测以及平衡检测准确性与效率方面仍然存在挑战。这些问题是实时航空图像检测进步的主要障碍。在本文中,我们提出了一种新的实时检测器家族,用于航空图像检测,命名为FBRT-YOLO,以解决检测准确性与效率之间的不平衡。我们的方法包括两个轻量级模块:特征互补映射模块(FCM)和多核感知单元(MKP),旨在增强对航空图像中小目标的感知。FCM专注于缓解深度网络中小目标信息丢失导致的信息不平衡问题。它旨在将目标的空间位置信息更深入地整合到网络中,更好地与深层语义信息对齐,以改善小目标的定位。我们引入了MKP,它利用不同大小的卷积核来增强不同尺度目标之间的关系,并改善对不同尺度目标的感知。在包括Visdrone、UAVDT和AI-TOD在内的三个主要航空图像数据集上的大量实验结果表明,FBRT-YOLO在性能和速度方面优于各种实时检测器。

[49] 使用驾驶员监控数据集的遮挡感知驾驶员监控系统
标题: Occlusion-aware Driver Monitoring System using the Driver Monitoring Dataset
作者: Paola Natalia Cañas / Alexander Diez / David Galvañ / Marcos Nieto / Igor Rodríguez
原文:   [英文]  
备注: Submitted for review to the IEEE International Conference on Intelligent Transportation Systems (ITSC) 2025
摘要:
本文提出了一种稳健的、具有遮挡感知能力的驾驶员监控系统(DMS),该系统利用驾驶员监控数据集(DMD)。该系统在不同光照条件下,包括具有挑战性的低光场景中,进行驾驶员识别、按区域的视线估计以及面部遮挡检测。与EuroNCAP建议一致,遮挡检测的加入通过指示系统性能可能下降的情况来增强情境感知和系统可信度。该系统采用分别在RGB和红外(IR)图像上训练的算法,以确保可靠运行。我们详细介绍了这些算法的开发和整合到一个统一流程中的过程,解决了使用不同传感器和实际车辆实施的挑战。在DMD和现实世界场景中的评估展示了所提系统的有效性,突出了基于RGB的模型的优越性能以及在DMS中稳健遮挡检测的开创性贡献。

[50] OG-HFYOLO:用于变形表格单元实例分割的方向梯度引导和异构特征融合
标题: OG-HFYOLO :Orientation gradient guidance and heterogeneous feature fusion for deformation table cell instance segmentation
作者: Long Liu / Cihui Yang
原文:   [英文]   [中文]  
备注: None
摘要:
表格结构识别是文档分析中的一项关键任务。然而,变形表格中的几何变形导致内容信息与结构之间的相关性较弱,导致下游任务无法获得准确的内容信息。为了获得单元格的细粒度空间坐标,我们提出了OG-HFYOLO模型,该模型通过梯度方向感知提取器增强边缘响应,结合异构核交叉融合模块和尺度感知损失函数以适应多尺度目标特征,并在后处理中引入掩码驱动的非极大值抑制,取代传统的边界框抑制机制。此外,我们还提出了一个数据生成器,填补了细粒度变形表格单元格空间坐标定位数据集的空白,并推出了一个名为Deformation Wired Table (DWTAL)的大规模数据集。实验表明,我们提出的模型在所有主流实例分割模型上表现出卓越的分割精度。数据集和源代码是开源的:这个https URL。

[51] 高效聆听者:通过动作扩散进行二人面部动作合成
标题: Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion
作者: Zesheng Wang / Alexandre Bruckert / Patrick Le Callet / Guangtao Zhai
原文:   [英文]   [中文]  
备注: None
摘要:
在双人对话中生成逼真的听者面部动作仍然具有挑战性,因为需要处理高维动作空间和时间依赖性。现有的方法通常考虑提取三维可变模型(3DMM)系数并在3DMM空间中建模。然而,这使得3DMM的计算速度成为瓶颈,难以实现实时交互响应。为了解决这个问题,我们提出了面部动作扩散(FAD),它引入了图像生成领域的扩散方法,以实现高效的面部动作生成。我们进一步构建了高效听者网络(ELNet),专门设计用于将说话者的视觉和音频信息作为输入。考虑到FAD和ELNet,所提出的方法学习了有效的听者面部动作表示,并在减少99%计算时间的同时提高了性能,超越了现有的最先进方法。

[52] 上下文编辑:在大规模扩散变压器中通过上下文生成实现指令性图像编辑
标题: In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
作者: Zechuan Zhang / Ji Xie / Yu Lu / Zongxin Yang / Yi Yang
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
基于指令的图像编辑通过自然语言提示实现了稳健的图像修改,但当前的方法面临精度与效率的权衡。微调方法需要大量的计算资源和大型数据集,而无需训练的技术在指令理解和编辑质量方面存在困难。我们通过利用大规模扩散变压器(DiT)的增强生成能力和原生上下文意识解决了这一难题。我们的解决方案引入了三个贡献:(1)一种上下文编辑框架,通过上下文提示实现零样本指令遵循,避免结构变化;(2)一种LoRA-MoE混合调优策略,通过高效适应和动态专家路由增强灵活性,无需大量重新训练;(3)一种使用视觉语言模型(VLMs)的早期过滤推理时间缩放方法,以便在早期选择更好的初始噪声,提高编辑质量。广泛的评估表明我们方法的优越性:在仅需常规基线0.5%训练数据和1%可训练参数的情况下,优于最先进的方法。该工作建立了一种新的范式,使高精度且高效的指令引导编辑成为可能。代码和演示可以在这个https URL中找到。

[53] Adept: 使用离散余弦变换图和关键点进行人类中心预训练的注释去噪辅助任务
标题: Adept: Annotation-Denoising Auxiliary Tasks with Discrete Cosine Transform Map and Keypoint for Human-Centric Pretraining
作者: Weizhen He / Yunfeng Yan / Shixiang Tang / Yiheng Deng / Yangyang Zhong / Pengxin Luo / Donglian Qi
原文:   [英文]   [中文]  
备注: None
摘要:
以人为中心的感知是多种计算机视觉任务的核心,并且一直是研究的重点。然而,以往的研究通常单独研究这些以人为中心的任务,其性能在很大程度上受到公共任务特定数据集规模的限制。最近,以人为中心的方法利用额外的模态,例如深度信息,来学习细粒度的语义信息,但由于其对摄像机视角的敏感性以及互联网上RGB-D数据的稀缺性,限制了预训练模型的优势。本文通过舍弃深度信息并通过离散余弦变换(DCT)在频率空间中探索RGB图像的语义信息,提高了以人为中心的预训练方法的数据可扩展性。我们进一步提出了新的注释去噪辅助任务,结合关键点和DCT图来强制RGB图像提取器学习人体的细粒度语义信息。我们的广泛实验表明,当在大规模数据集(COCO和AIC数据集)上进行预训练且不使用深度注释时,我们的模型在姿态估计方面比最先进的方法在COCO上提高了+0.5 mAP,在MPII上提高了+1.4 PCKh,在Human3.6M上降低了-0.51 EPE;在人体解析方面在Human3.6M上提高了+4.50 mIoU;在人群计数方面在SHA上降低了-3.14 MAE,在SHB上降低了-0.07 MAE;在人群定位方面在SHA上提高了+1.1 F1分数,在SHA上提高了+0.8 F1分数;在人物重识别方面在Market1501上提高了+0.1 mAP,在MSMT上提高了+0.8 mAP。我们还验证了我们的方法在MPII+NTURGBD数据集上的有效性。

[54] GaussTrap:针对目标场景混淆的3D高斯散点隐蔽投毒攻击
标题: GaussTrap: Stealthy Poisoning Attacks on 3D Gaussian Splatting for Targeted Scene Confusion
作者: Jiaxin Hong / Sixu Chen / Shuoyang Sun / Hongyao Yu / Hao Fang / Yuqi Tan / Bin Chen / Shuhan Qi / Jiawei Li
原文:   [英文]   [中文]  
备注: None
摘要:
随着3D高斯散点(3DGS)在场景表示和新视角合成中的突破性进展,其在安全关键领域(如自动驾驶系统、AR/VR)的快速应用迫切需要对潜在安全漏洞进行审查。本文首次系统性地研究了3DGS流程中的后门威胁。我们发现,攻击者可能会植入后门视图,以在推理过程中引发恶意的场景混淆,可能导致自动导航中的环境误解或沉浸式环境中的空间扭曲。为揭示这一风险,我们提出了GuassTrap,一种针对3DGS模型的新型投毒攻击方法。GuassTrap在特定攻击视点注入恶意视图,同时在非目标视图中保持高质量渲染,确保最小的可检测性并最大化潜在危害。具体而言,所提出的方法包括一个三阶段流程(攻击、稳定和正常训练),以在3DGS中植入隐蔽且视点一致的投毒渲染,联合优化攻击效果和感知真实感,以揭示3D渲染中的安全风险。对合成和真实世界数据集的大量实验表明,GuassTrap可以有效嵌入不可察觉但有害的后门视图,同时在正常视图中保持高质量渲染,验证了其稳健性、适应性和实际适用性。

[55] CMT:一种用于多模态条件CAD生成的级联MAR拓扑预测器
标题: CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation
作者: Jianyu Wu / Yizhou Wang / Xiangyu Yue / Xinzhu Ma / Jingyang Guo / Dongzhan Zhou / Wanli Ouyang / Shixiang Tang
原文:   [英文]   [中文]  
备注: None
摘要:
尽管精确且用户友好的计算机辅助设计(CAD)对工业设计和制造至关重要,但现有方法由于其过于简化的表示或无法支持多模态设计需求的架构,仍难以实现这一目标。在本文中,我们尝试从方法和数据集两个方面解决这一问题。首先,我们提出了一个级联MAR与拓扑预测器(CMT),这是第一个基于边界表示(B-Rep)的多模态CAD生成框架。具体来说,级联MAR可以有效捕捉在B-Rep中至关重要的“边-计数器-表面”先验,而拓扑预测器则直接从MAR中的紧凑标记中估计B-Rep中的拓扑。其次,为了促进大规模训练,我们开发了一个大规模多模态CAD数据集mmABC,其中包括超过130万个具有多模态注释的B-Rep模型,包括点云、文本描述和多视图图像。大量实验表明,CMT在条件和无条件CAD生成任务中具有优越性。例如,在无条件生成中,我们在ABC上将覆盖率和有效率分别提高了+10.68%和+10.3%,相较于最先进的方法。CMT还在mmABC上的图像条件CAD生成中将Chamfer距离提高了+4.01。数据集、代码和预训练网络将被发布。

[56] RadSAM:使用二维可提示模型分割三维放射影像
标题: RadSAM: Segmenting 3D radiological images with a 2D promptable model
作者: Julien Khlaut / Elodie Ferreres / Daniel Tordjman / Hélène Philippe / Tom Boeken / Pierre Manceron / Corentin Dancette
原文:   [英文]   [中文]  
备注: None
摘要:
医学图像分割是临床护理中一项关键且耗时的任务,其中掩膜的精确性极为重要。Segment Anything Model (SAM) 提供了一种有前景的方法,因为它提供了一个基于视觉提示和编辑的交互界面来优化初始分割。该模型具有强大的泛化能力,不依赖于预定义的类别,并适应多样化的对象;然而,它是在自然图像上预训练的,缺乏有效处理医学数据的能力。此外,该模型是为二维图像构建的,而整个医学领域是基于三维图像的,如CT和MRI。最近对SAM在医学成像中的适应是基于二维模型的,因此需要对每个切片进行一次提示以分割三维对象,使分割过程变得繁琐。它们还缺乏重要的功能,如编辑。为弥补这一差距,我们提出了RadSAM,一种从单一提示使用二维模型分割三维对象的新方法。在实践中,我们使用噪声掩膜作为初始提示来训练二维模型,此外还使用边界框和点。然后,我们使用这种新颖的提示类型与迭代推理管道逐片重建三维掩膜。我们引入了一个基准来评估模型从单一提示分割CT图像中三维对象的能力,并评估模型的域外迁移和编辑能力。我们在这个基准上使用AMOS腹部器官分割数据集展示了我们方法相对于最先进模型的有效性。

[57] FedMVP:用于视觉语言模型的联邦多模态视觉提示微调
标题: FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models
作者: Mainak Singha / Subhankar Roy / Sarthak Mehrotra / Ankit Jha / Moloud Abdar / Biplab Banerjee / Elisa Ricci
原文:   [英文]   [中文]  
备注: None
摘要:
文本提示微调通过在本地客户端数据上微调轻量级输入标记(或提示)来适应视觉语言模型(例如,CLIP)在联邦学习中的应用,同时保持网络权重不变。训练后,客户端仅与中央服务器共享提示以进行聚合。然而,文本提示微调常常难以避免对已知概念的过拟合,并可能过于依赖记忆的文本特征,从而限制了其对未知概念的适应性。为了解决这一限制,我们提出了联邦多模态视觉提示微调(FedMVP),该方法将提示基于全面的上下文信息——类的图像条件特征和文本属性特征——这本质上是多模态的。FedMVP的核心是一个PromptFormer模块,通过交叉注意力协同对齐文本和视觉特征,实现更丰富的上下文整合。动态生成的多模态视觉提示随后被输入到CLIP的冻结视觉编码器中,并结合CLIP相似性损失和一致性损失进行训练。在20个数据集上进行的广泛评估,涵盖三种泛化设置,表明FedMVP不仅在分布内的类别和领域上保持了性能,而且与最先进的方法相比,对未知类别和领域表现出更高的泛化能力。代码将在论文被接受后发布。

[58] AI-GenBench:用于检测AI生成图像的新持续基准
标题: AI-GenBench: A New Ongoing Benchmark for AI-Generated Image Detection
作者: Lorenzo Pellegrini / Davide Cozzolino / Serafino Pandolfini / Davide Maltoni / Matteo Ferrara / Luisa Verdoliva / Marco Prati / Marco Ramilli
原文:   [英文]   [中文]  
备注: 9 pages, 6 figures, 4 tables, code available: this https URL
摘要:
生成式人工智能的快速发展已经彻底改变了图像创作,使得从文本提示生成高质量图像成为可能,同时也对媒体真实性提出了严峻挑战。我们提出了Ai-GenBench,这是一种新颖的基准,旨在解决在现实场景中对AI生成图像进行稳健检测的迫切需求。与现有的在静态数据集上评估模型的解决方案不同,Ai-GenBench引入了一个时间评估框架,其中检测方法在合成图像上进行增量训练,这些图像按其生成模型的历史顺序排列,以测试其对新生成模型的泛化能力,例如从GANs到扩散模型的过渡。我们的基准专注于高质量、多样化的视觉内容,并克服了当前方法的关键限制,包括任意的数据集划分、不公平的比较和过高的计算需求。Ai-GenBench提供了一个全面的数据集、标准化的评估协议和便于研究人员和非专家(如记者、事实核查员)使用的工具,确保可重复性,同时保持实际的训练要求。通过建立明确的评估规则和受控的增强策略,Ai-GenBench使检测方法的有意义比较和可扩展解决方案成为可能。代码和数据是公开可用的,以确保可重复性并支持开发稳健的法医检测器,以跟上新型合成生成器的步伐。

[59] 基于FLIM的显著目标检测网络与自适应解码器
标题: FLIM-based Salient Object Detection Networks with Adaptive Decoders
作者: Gilson Junior Soares / Matheus Abrantes Cerqueira / Jancarlo F. Gomes / Laurent Najman / Silvio Jamil F. Guimarães / Alexandre Xavier Falcão
原文:   [英文]   [中文]  
备注: This work has been submitted to the Journal of the Brazilian Computer Society (JBCS)
摘要:
显著目标检测(SOD)方法可以定位图像中突出的物体,在显著图中为其像素赋予更高的值,并将图二值化以输出预测的分割掩码。最近的趋势是研究预训练的轻量级模型,而不是在SOD任务中使用深度神经网络,以应对计算资源有限的应用。在此背景下,我们研究了一种名为图像标记特征学习(FLIM)的方法,使用轻量级网络。该方法假设编码器的内核可以从少数代表性图像的判别区域的标记像素中估计出来。本文提出了飞重网络,其重量比轻量级模型轻数百倍,通过结合FLIM编码器和自适应解码器来进行SOD,自适应解码器的权重由给定的启发式函数为每个输入图像估计。这样的FLIM网络仅从三到四个代表性图像中训练,并且不需要反向传播,使得这些模型也适用于标记数据受限的应用。我们研究了五种自适应解码器,其中两种是在此引入的。与之前依赖于每个像素共享权重的单个神经元不同,新自适应解码器的启发式函数为每个像素的每个神经元估计权重。我们将FLIM模型与自适应解码器在两个具有挑战性的SOD任务中与三种最先进的轻量级网络、两种通过反向传播训练解码器的FLIM网络以及一种标记标记定义解码器权重的FLIM网络进行比较。实验表明,所提出的网络相较于基线具有优势,揭示了在新应用中进一步研究此类方法的重要性。

[60] 分类器到偏差:迈向视觉分类器的无监督自动偏差检测
标题: Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers
作者: Quentin Guimard / Moreno D'Incà / Massimiliano Mancini / Elisa Ricci
原文:   [英文]   [中文]  
备注: CVPR 2025. Code: this https URL
摘要:
从网络上下载预训练模型的人应该意识到其偏见。现有的偏见识别方法依赖于包含任务相关标签的数据集,而非专业人士可能无法获得这些数据集,或者没有必要的资源来收集这些数据集:这极大地限制了可以识别模型偏见的任务数量。在这项工作中,我们提出了Classifier-to-Bias (C2B),这是第一个在不访问任何标记数据的情况下工作的偏见发现框架:它仅依赖于分类任务的文本描述来识别目标分类模型中的偏见。该描述被输入到一个大型语言模型中,以生成偏见建议和相应的说明,这些说明描绘了偏见以及任务特定的目标标签。一个检索模型收集这些说明的图像,然后用来评估模型相对于给定偏见的准确性。C2B不需要训练,不需要任何注释,对偏见列表没有限制,并且可以应用于任何预训练模型的任何分类任务。在两个公开可用的数据集上的实验表明,C2B发现的偏见超出了原始数据集的偏见,并且优于依赖于任务特定注释的最新偏见检测基线,是解决任务无关的无监督偏见检测的一个有前途的第一步。

[61] DS_FusionNet:用于植物病害识别的动态双流融合与双向知识蒸馏
标题: DS_FusionNet: Dynamic Dual-Stream Fusion with Bidirectional Knowledge Distillation for Plant Disease Recognition
作者: Yanghui Song / Chengfu Yang
原文:   [英文]  
备注: None
摘要:
鉴于全球经济作物增长安全面临的严峻挑战,植物病害的精确识别和预防已成为人工智能赋能农业技术中的关键问题。为了解决植物病害识别中的技术挑战,包括小样本学习、叶片遮挡、光照变化和高类间相似性,本研究创新性地提出了一种动态双流融合网络(DS_FusionNet)。该网络集成了双主干架构、可变形动态融合模块和双向知识蒸馏策略,显著提高了识别准确性。实验结果表明,DS_FusionNet在仅使用10%的PlantDisease和CIFAR-10数据集的情况下,分类准确率超过90%,同时在复杂的PlantWild数据集上保持85%的准确率,表现出卓越的泛化能力。本研究不仅为细粒度图像分类提供了新的技术见解,还为农业病害的精确识别和管理奠定了坚实的基础。

[62] 基于SVD的最小二乘法用于利用深度特征的X射线肺炎分类
标题: SVD Based Least Squares for X-Ray Pneumonia Classification Using Deep Features
作者: Mete Erdogan / Sebnem Demirtas
原文:   [英文]   [中文]  
备注: Preprint submitted to IEEE International Workshop on Machine Learning for Signal Processing (MLSP), 2025
摘要:
通过X射线成像对肺炎进行准确和早期诊断对于有效治疗和改善患者预后至关重要。最近机器学习的进步使得自动诊断工具成为可能,这些工具可以帮助放射科医生做出更可靠和高效的决策。在这项工作中,我们提出了一种基于奇异值分解的最小二乘(SVD-LS)框架,用于多类肺炎分类,利用来自最先进的自监督和迁移学习模型的强大特征表示。我们采用一种封闭形式的非迭代分类方法,而不是依赖于计算成本高昂的基于梯度的微调,从而确保效率而不影响准确性。实验结果表明,SVD-LS在提供显著降低计算成本的同时实现了具有竞争力的性能,使其成为实时医学成像应用的可行替代方案。

[63] TesserAct:学习四维具身世界模型
标题: TesserAct: Learning 4D Embodied World Models
作者: Haoyu Zhen / Qiao Sun / Hongxin Zhang / Junyan Li / Siyuan Zhou / Yilun Du / Chuang Gan
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
本文提出了一种有效的方法来学习新颖的4D具身世界模型,该模型可以预测3D场景在时间上的动态演变,以响应具身代理的动作,提供空间和时间的一致性。我们建议通过在RGB-DN(RGB、深度和法线)视频上进行训练来学习4D世界模型。这不仅通过在预测中加入详细的形状、配置和时间变化来超越传统的2D模型,还使我们能够有效地为具身代理学习准确的逆动态模型。具体来说,我们首先利用现成的模型扩展现有的机器人操作视频数据集,增加深度和法线信息。接下来,我们在这个带注释的数据集上微调一个视频生成模型,该模型联合预测每帧的RGB-DN(RGB、深度和法线)。然后,我们提出了一种算法,将生成的RGB、深度和法线视频直接转换为高质量的世界4D场景。我们的方法确保了具身场景中4D场景预测的时间和空间一致性,支持具身环境的新视图合成,并促进了策略学习,显著优于从先前基于视频的世界模型中得出的策略。

[64] X-Fusion:为冻结的大型语言模型引入新模态
标题: X-Fusion: Introducing New Modality to Frozen Large Language Models
作者: Sicheng Mo / Thao Nguyen / Xun Huang / Siddharth Srinivasan Iyer / Yijun Li / Yuchen Liu / Abhishek Tandon / Eli Shechtman / Krishna Kumar Singh / Yong Jae Lee / Bolei Zhou / Yuheng Li
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
我们提出了X-Fusion,这是一种扩展预训练大型语言模型(LLMs)用于多模态任务的框架,同时保留其语言能力。X-Fusion采用双塔设计,具有特定模态的权重,在整合视觉特定信息以进行理解和生成时保持LLM的参数不变。我们的实验表明,X-Fusion在图像到文本和文本到图像任务中始终优于其他架构。我们发现,结合以理解为重点的数据可以提高生成质量,减少图像数据噪声可以提升整体性能,特征对齐可以加速小模型的收敛,但对大模型的影响较小。我们的研究结果为构建高效的统一多模态模型提供了宝贵的见解。

[65] YoChameleon:个性化视觉与语言生成
标题: YoChameleon: Personalized Vision and Language Generation
作者: Thao Nguyen / Krishna Kumar Singh / Jing Shi / Trung Bui / Yong Jae Lee / Yuheng Li
原文:   [英文]   [中文]  
备注: CVPR 2025; Project page: this https URL
摘要:
大型多模态模型(例如,GPT-4、Gemini、Chameleon)已经发展成为拥有数百万用户的强大工具。然而,它们仍然是通用模型,缺乏对特定用户概念的个性化知识。先前的工作已经探索了文本生成的个性化,但如何将这些方法适应于新的模态(如图像生成)仍不清楚。在本文中,我们介绍了Yo'Chameleon,这是首次尝试研究大型多模态模型的个性化。给定某一特定概念的3-5张图像,Yo'Chameleon利用软提示调优来嵌入特定主题的信息,以(i)回答关于该主题的问题和(ii)重现像素级细节以在新背景下生成该主题的图像。Yo'Chameleon通过(i)自我提示优化机制来平衡多模态的性能,以及(ii)“软正样本”图像生成方法来增强少样本设置下的图像质量进行训练。