![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.CV方向,2025年7月30日更新论文91篇
|
[1] GAITEX:来自惯性和光学传感器数据的异常步态和康复训练的人体运动数据集 标题: GAITEX: Human motion dataset from impaired gait and rehabilitation exercises of inertial and optical sensor data 作者: Andreas Spilz / Heiko Oppel / Jochen Werner / Kathrin Stucke-Straub / Felix Capanni / Michael Munz 原文: [英文] [中文] 备注: None 摘要: 可穿戴惯性测量单元(IMUs)提供了一种经济高效且可扩展的方法,用于在临床和日常环境中评估人类运动质量。然而,开发用于物理治疗练习和步态分析的稳健传感器分类模型需要大量多样化的数据集,这些数据集的收集成本高且耗时。在此,我们展示了一个多模态数据集,包括物理治疗练习(包括正确和临床相关的变体)和步态相关练习(包括正常和受损步态模式),这些数据是从19名参与者使用同步IMUs和基于标记的运动捕捉(MoCap)记录的。该数据集包括来自九个IMUs和三十五个光学标记的原始数据,捕捉全身运动学。每个IMU还配备了四个光学标记,使得IMU导出的方向估计与MoCap系统的参考值之间的精确比较成为可能。为了支持进一步分析,我们还提供了与常见段坐标系对齐的处理过的IMU方向、特定于受试者的OpenSim模型、逆运动学结果以及用于在肌肉骨骼上下文中可视化IMU方向的工具。运动执行质量的详细注释和时间戳分段支持多样化的分析目标。该数据集支持机器学习模型的开发和基准测试,用于自动练习评估、步态分析、时间活动分段和生物力学参数估计等任务。为了促进可重复性,我们提供了后处理、传感器到段对齐、逆运动学计算和技术验证的代码。该资源旨在加速机器学习驱动的人类运动分析研究。 |
[2] 超越帧的视野:利用原始时间视频和多模态线索进行零样本行人意图预测 标题: Seeing Beyond Frames: Zero-Shot Pedestrian Intention Prediction with Raw Temporal Video and Multimodal Cues 作者: Pallavi Zambare / Venkata Nikhil Thanikella / Ying Liu 原文: [英文] [中文] 备注: Accepted in IEEE 3rd International Conference on Artificial Intelligence, Blockchain, and Internet of Things (AIBThings 2025) 摘要: 行人意图预测在复杂的城市环境中对于自动驾驶至关重要。传统方法依赖于对帧序列的监督学习,并需要大量的重新训练以适应新场景。在此,我们介绍了BF-PIP(超越帧的行人意图预测),这是一种基于Gemini 2.5 Pro的零样本方法。它直接从短的连续视频片段中推断过马路意图,这些片段富含结构化的JAAD元数据。与基于GPT-4V的方法在离散帧上操作不同,BF-PIP处理不间断的时间片段。它还通过专门的多模态提示结合了边界框注释和自车速度。在没有任何额外训练的情况下,BF-PIP实现了73%的预测准确率,超过了GPT-4V基线18%。这些发现表明,结合时间视频输入与上下文线索可以增强时空感知,并在模糊条件下改善意图推断。这种方法为智能交通系统中的灵活、无需重新训练的感知模块铺平了道路。 |
[3] ChartM$^3$: 使用多模态指令进行图表编辑的基准测试 标题: ChartM$^3$: Benchmarking Chart Editing with Multimodal Instructions 作者: Danglu Yang / Liang Zhang / Zihao Yue / Liangyu Chen / Yichen Xu / Wenxuan Wang / Qin Jin 原文: [英文] [中文] 备注: None 摘要: 图表是一种基本的可视化格式,广泛应用于研究和工业中的数据分析。尽管基于高层次意图编辑图表对用户具有很大的实际价值,但现有方法主要依赖于自然语言指令,这通常过于模糊,无法支持细粒度的编辑。在这项工作中,我们引入了一种新的多模态图表编辑范式,其中用户意图通过自然语言和视觉指示器的组合来表达,后者明确突出需要修改的元素。为了支持这一范式,我们提出了Chart$\text{M}^3$,这是一个具有多层次复杂性和多视角评估的多模态图表编辑新基准。Chart$\text{M}^3$包含1000个样本,涵盖四个编辑难度级别。每个样本包括(图表、代码、多模态指令)形式的三元组。为了全面评估图表编辑模型,Chart$\text{M}^3$提供了评估视觉外观和代码正确性的指标。我们的基准揭示了当前多模态大型语言模型(MLLMs)的显著局限性,包括GPT-4o,特别是在解释和执行视觉指示器方面。为了解决这个问题,我们构建了Chart$\text{M}^3$-Train,一个包含24,000个多模态图表编辑样本的大规模训练集。在此数据集上微调MLLMs可以带来显著的改进,证明了多模态监督在构建实用图表编辑系统中的重要性。我们的数据集、代码和评估工具可在此https URL获得。 |
[4] PanoGAN:用于全景牙科X光片的深度生成模型 标题: PanoGAN A Deep Generative Model for Panoramic Dental Radiographs 作者: Soren Pedersen / Sanyam Jain / Mikkel Chavez / Viktor Ladehoff / Bruna Neves de Freitas / Ruben Pauwels 原文: [英文] 备注: None 摘要: 本文介绍了一种用于合成牙科全景X光片的生成对抗网络(GAN)的开发。尽管具有探索性,研究旨在解决牙科研究和教育中数据稀缺的问题。我们使用带有梯度惩罚的Wasserstein损失(WGANGP)在一个包含2322张不同质量X光片的数据集上训练了一个深度卷积GAN(DCGAN)。研究重点在于牙槽区域,其他解剖结构被裁剪掉。进行了广泛的预处理和数据清理,以标准化输入,同时保留解剖变异性。我们通过改变判别器迭代次数、特征深度以及在训练前使用去噪来探索四个候选模型。一位临床专家根据解剖可见性和现实感使用5分制(1为非常差,5为优秀)对生成的X光片进行了评估。大多数图像显示出中等的解剖描绘,尽管有些受到伪影的影响。观察到一种权衡:在未去噪数据上训练的模型在下颌管和骨小梁等结构中提供了更精细的细节,而在去噪数据上训练的模型则提供了更好的整体图像清晰度和锐度。这些发现为未来在牙科影像中基于GAN的方法提供了基础。 |
[5] 关于使用混合马尔可夫逻辑网络解释视觉字幕 标题: On Explaining Visual Captioning with Hybrid Markov Logic Networks 作者: Monika Shah / Somdeb Sarkhel / Deepak Venugopal 原文: [英文] [中文] 备注: None 摘要: 深度神经网络(DNNs)在图像描述等多模态任务中取得了巨大进展。然而,解释/解读这些模型如何整合视觉信息、语言信息和知识表示以生成有意义的描述仍然是一个具有挑战性的问题。衡量性能的标准指标通常依赖于将生成的描述与人类撰写的描述进行比较,这可能无法为用户提供对这种整合的深入见解。在这项工作中,我们开发了一种新颖的解释框架,该框架基于混合马尔可夫逻辑网络(HMLNs)——一种可以将符号规则与实值函数结合的语言,易于解释。我们假设训练数据中的相关示例如何可能影响观察到的描述的生成。为此,我们学习了一个关于训练实例的HMLN分布,并在生成的样本上进行条件推断,以推断这些实例的分布变化,这使我们能够量化哪些示例可能是生成观察到的描述的丰富信息来源。我们在使用Amazon Mechanical Turk生成的多个最先进的描述模型上进行的实验展示了我们解释的可解释性,并使我们能够在可解释性维度上比较这些模型。 |
[6] 双重引导半监督动作检测 标题: Dual Guidance Semi-Supervised Action Detection 作者: Ankit Singh / Efstratios Gavves / Cees G. M. Snoek / Hilde Kuehne 原文: [英文] [中文] 备注: None 摘要: 半监督学习(SSL)在标注难以获得的情况下,已显示出极大的提升深度学习模型预测性能的潜力。然而,SSL的应用迄今为止主要在图像分类的背景下进行研究。在这项工作中,我们提出了一种用于时空动作定位的半监督方法。我们引入了一个双重引导网络来选择更好的伪边界框。该网络结合了帧级分类和边界框预测,以在帧和框之间强制执行动作类别的一致性。我们在著名的时空动作定位数据集(即UCF101-24、J-HMDB-21和AVA)上的评估表明,在有限标注数据的情况下,所提出的模块显著提升了模型的性能。与扩展的基于图像的半监督基线相比,我们的框架取得了更优异的结果。 |
[7] 使用空中目标检测追踪驼鹿 标题: Tracking Moose using Aerial Object Detection 作者: Christopher Indris / Raiyan Rahman / Goetz Bramesfeld / Guanghui Wang 原文: [英文] [中文] 备注: 18 pages, 6 figures, 8 tables 摘要: 空中野生动物追踪对于保护工作至关重要,其依赖于检测飞机下方地面上的小物体。这项工作面临技术挑战:载人飞机昂贵、风险高且具有干扰性;自主无人机的机载人工智能系统的计算能力有限。由于感兴趣的物体可能仅占据几个像素,小物体检测是一个本质上具有挑战性的计算机视觉子领域,并且需要考虑计算效率。本文对数据集应用了一种拼接增强方法,以研究模型在各种设置下的性能。使用这些数据对三种常见但架构多样的目标检测器进行了比较研究,改变拼接方法的超参数以评估检测准确性。每个模型在至少一种拼接配置下都达到了至少93%的mAP@IoU=0.5。统计分析对各种因素的影响进行了深入评论。分析还表明,对于这一任务,速度更快、结构更简单的模型与需要更多计算能力的模型效果相当,并且在有限的拼接尺度下表现良好,这鼓励了无人机的部署。数据集和模型将通过此HTTPS URL提供。 |
[8] 使用潜在扩散模型的HDR环境图估计 标题: HDR Environment Map Estimation with Latent Diffusion Models 作者: Jack Hilliard / Adrian Hilton / Jean-Yves Guillemaut 原文: [英文] 备注: None 摘要: 我们通过建立一种新方法,利用潜在扩散模型(LDM)从单视图图像中生成高质量的环境贴图,推进了HDR环境贴图估计领域的发展,该方法能够合理地照亮镜面反射表面。使用ERP表示时,一个常见的问题是环境贴图的极点处会出现失真,并且在边缘会有接缝。我们通过在潜在自编码器中提出ERP卷积填充来消除边界接缝伪影。此外,我们研究了通过提出全景适应的扩散变压器架构,调整扩散网络架构以适应ERP格式是否可以提高估计环境贴图的质量和准确性。我们提出的PanoDiT网络减少了ERP失真和伪影,但以图像质量和合理性为代价。我们通过标准基准进行评估,以证明我们的模型在图像质量和光照准确性方面与最先进的方法具有竞争力,能够估计出高质量的环境贴图。 |
[9] 基于CLIP模型的胸部X光片的公平性和鲁棒性 标题: Fairness and Robustness of CLIP-Based Models for Chest X-rays 作者: Théo Sourget / David Restrepo / Céline Hudelot / Enzo Ferrante / Stergios Christodoulidis / Maria Vakalopoulou 原文: [英文] [中文] 备注: Accepted for publication at the FAIMI MICCAI workshop 2025 摘要: 受到CLIP模型在自然图像-文本领域强大性能的启发,最近的研究努力将这些架构适应于医学任务,特别是在放射学领域,其中有大量配对的图像和报告数据集可用,如胸部X光片。虽然这些模型在准确性和判别性能方面显示出令人鼓舞的结果,但它们在不同临床任务中的公平性和鲁棒性仍然很少被探索。在这项研究中,我们使用三个公开可用的数据集:MIMIC-CXR、NIH-CXR14和NEATX,广泛评估了六种广泛使用的基于CLIP的模型在胸部X光片分类中的表现。我们根据年龄、性别和种族评估了模型在六种病况和患者子群体中的公平性。此外,我们通过评估有无胸腔引流管的气胸病例的表现来评估模型对捷径学习的鲁棒性。我们的结果表明,不同年龄患者之间存在性能差距,但在其他属性上结果更为公平。此外,所有模型在没有胸腔引流管的图像上表现较差,表明依赖于虚假相关性。我们还通过对模型生成的嵌入进行研究来补充性能分析。虽然可以从嵌入中分类出敏感属性,但使用PCA时未见此类模式,显示出这些可视化技术在评估模型时的局限性。我们的代码可在此URL获取。 |
[10] VoluMe——基于实时高斯斑点预测的真实3D视频通话 标题: VoluMe -- Authentic 3D Video Calls from Live Gaussian Splat Prediction 作者: Martin de La Gorce / Charlie Hewitt / Tibor Takacs / Robert Gerdisch / Zafiirah Hosenie / Givi Meishvili / Marek Kowalski / Thomas J. Cashman / Antonio Criminisi 原文: [英文] 备注: None 摘要: 虚拟3D会议有可能增强共在感,提高参与度,从而相比于标准的2D视频通话提升远程会议的效果。然而,在3D会议中呈现人物仍然是一个挑战;现有的解决方案通过使用复杂的硬件、利用注册的固定外观或反转预训练的生成模型来实现高质量。这些方法导致了一些不受欢迎且不适合视频会议应用的限制。我们提出了第一个方法,可以从单个2D网络摄像头实时预测3D高斯重建,其中3D表示不仅是实时和逼真的,而且与输入视频一致。通过对每个视频帧独立地进行3D表示的条件化,我们的重建能够从捕获的视角忠实地再现输入视频(我们称之为真实性的属性),同时能够逼真地推广到新的视角。此外,我们引入了一种稳定性损失,以获得在视频序列上时间稳定的重建。我们展示了与现有方法相比,我们的方法在视觉质量和稳定性指标上提供了最先进的准确性,并在仅使用标准2D摄像头和显示器的情况下展示了我们的方法在实时一对一3D会议中的应用。这表明我们的方法可以让任何人通过一种不仅高度可访问而且逼真和真实的3D视频会议方法进行体积通信。 |
[11] GLCP:用于管状结构分割的全局到局部连通性保持 标题: GLCP: Global-to-Local Connectivity Preservation for Tubular Structure Segmentation 作者: Feixiang Zhou / Zhuangzhi Gao / He Zhao / Jianyang Xie / Yanda Meng / Yitian Zhao / Gregory Y.H. Lip / Yalin Zheng 原文: [英文] [中文] 备注: MICCAI 2025 (Oral) 摘要: 精确分割管状结构(如血管网络)在多个医学领域中起着至关重要的作用。该任务中一个显著的挑战是结构碎片化,这会对后续应用产生不利影响。现有方法主要集中于设计各种损失函数以约束全局拓扑结构。然而,它们往往忽视了局部不连续区域,导致分割结果不理想。为克服这一限制,我们提出了一种新颖的全局到局部连接保留(GLCP)框架,该框架能够同时感知管状网络的全局和局部结构特征。具体而言,我们提出了一个交互式多头分割(IMS)模块,分别联合学习全局分割、骨架图和局部不连续图。这使得我们的模型能够在保持全局拓扑完整性的同时,明确针对局部不连续区域。此外,我们设计了一个轻量级的基于双注意力的细化(DAR)模块,通过细化生成的分割图进一步提高分割质量。在2D和3D数据集上的大量实验表明,与几种最先进的方法相比,我们的GLCP在管状结构分割中实现了更高的准确性和连续性。源代码将在此https URL上提供。 |
[12] 分析视觉语言模型在视觉问答中的敏感性 标题: Analyzing the Sensitivity of Vision Language Models in Visual Question Answering 作者: Monika Shah / Sudarshan Balaji / Somdeb Sarkhel / Sanorita Dey / Deepak Venugopal 原文: [英文] [中文] 备注: None 摘要: 我们可以将视觉问答视为人类与人工智能系统之间的(多模态)对话。在此,我们通过Grice提出的合作会话原则来探讨视觉语言模型(VLMs)的敏感性。具体来说,即使违反了Grice的会话准则,人类通常也不会在理解对话上遇到太大困难,尽管这需要更多的认知努力。在这里,我们研究VLMs是否能够以类似于人类的方式处理对Grice准则的违反。具体而言,我们在人工设计的问题中添加修饰语,并分析VLMs对这些修饰语的反应。我们在研究中使用了三种最先进的VLMs,即GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-Flash,问题来自VQA v2.0数据集。我们的初步结果似乎表明,随着修饰语的添加,VLMs的性能一致下降,这表明我们的方法是理解VLMs局限性的一个有前途的方向。 |
[13] 通过使用先验个体特异性成像的深度学习重建来增强和加速脑部MRI 标题: Enhancing and Accelerating Brain MRI through Deep Learning Reconstruction Using Prior Subject-Specific Imaging 作者: Amirmohammad Shamaei / Alexander Stebner / Salome / Bosshart / Johanna Ospel / Gouri Ginde / Mariana Bento / Roberto Souza 原文: [英文] [中文] 备注: None 摘要: 磁共振成像(MRI)是一种重要的医学成像方式。然而,较长的采集时间仍然是一个显著的挑战,导致成本增加和患者舒适度降低。最近的研究表明,利用深度学习模型结合先前特定受试者的MRI扫描信息可以提高当前扫描的重建质量。整合这些先验信息需要将先前的扫描注册到当前的图像重建中,这可能会耗费时间。我们提出了一种新颖的基于深度学习的MRI重建框架,该框架由初始重建网络、深度注册模型和基于变换器的增强网络组成。我们在一个包含2,808张图像的T1加权MRI扫描纵向数据集上验证了我们的方法,该数据集来自18名受试者,具有四个加速因子(R5、R10、R15、R20)。定量指标证实了我们的方法优于现有方法(p < 0.05,Wilcoxon符号秩检验)。此外,我们分析了我们的MRI重建方法对脑分割下游任务的影响,观察到与参考分割相比,准确性和体积一致性得到了提高。与使用传统注册算法的方法相比,我们的方法还显著减少了总重建时间,使其更适合实时临床应用。与此工作相关的代码可在此https URL公开获取。 |
[14] 群体相对增强用于数据高效的动作检测 标题: Group Relative Augmentation for Data Efficient Action Detection 作者: Deep Anil Patel / Iain Melvin / Zachary Izzo / Martin Renqiang Min 原文: [英文] [中文] 备注: None 摘要: 将大型视频-语言模型(VLMs)适配于动作检测任务时,仅使用少量示例会面临过拟合以及场景级预训练与所需以人为中心的理解之间的粒度不匹配等挑战。我们提出了一种高效的适配策略,将参数高效微调(LoRA)与一种新颖的可学习内部特征增强相结合。在冻结的VLM骨干网络中使用FiLM,这些增强直接生成与任务相关的多样化特征变体。此外,我们引入了一种组加权损失函数,该函数根据每个增强样本相对于组平均预测的偏差动态调整其训练贡献。这通过优先考虑信息丰富但合理的增强来促进稳健学习。我们在复杂的多标签、多人物动作检测数据集(AVA, MOMA)上展示了我们方法的有效性,取得了强劲的mAP表现,并展示了从有限示例中适配VLMs的显著数据效率。 |
[15] 协作感知器:通过局部密度感知空间占用提升基于视觉的3D目标检测 标题: Collaborative Perceiver: Elevating Vision-based 3D Object Detection via Local Density-Aware Spatial Occupancy 作者: Jicheng Yuan / Manh Nguyen Duc / Qian Liu / Manfred Hauswirth / Danh Le Phuoc 原文: [英文] [中文] 备注: None 摘要: 基于视觉的鸟瞰图(BEV)三维目标检测在自动驾驶领域取得了显著进展,因为它提供了成本效益和丰富的上下文信息。然而,现有的方法通常通过压缩提取的目标特征来构建BEV表示,忽视了内在的环境上下文,如道路和人行道。这阻碍了检测器对物理世界特征的全面感知。为了解决这个问题,我们引入了一个多任务学习框架,称为协作感知器(CoP),利用空间占用作为辅助信息来挖掘三维目标检测和占用预测任务之间共享的一致的结构和概念相似性,弥合空间表示和特征优化的差距。为此,我们首先提出了一种生成密集占用地面实况的流程,结合局部密度信息(LDO)以重建详细的环境信息。接下来,我们采用体素高度引导采样(VHS)策略,根据不同的目标属性提取细粒度的局部特征。此外,我们开发了一个全局-局部协作特征融合(CFF)模块,能够无缝整合两项任务之间的互补知识,从而构建更为稳健的BEV表示。在nuScenes基准上的大量实验表明,CoP优于现有的基于视觉的框架,在测试集上实现了49.5%的mAP和59.2%的NDS。代码和补充材料可在此链接的https URL中获得。 |
[16] 评估用于非洲野生动物图像分类的深度学习模型:从DenseNet到视觉Transformer 标题: Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers 作者: Lukman Jibril Aliyu / Umar Sani Muhammad / Bilqisu Ismail / Nasiru Muhammad / Almustapha A Wakili / Seid Muhie Yimam / Shamsuddeen Hassan Muhammad / Mustapha Abdullahi 原文: [英文] [中文] 备注: Accepted as a camera-ready paper at Deep Learning Indaba 2025 (Kigali, Rwanda) 摘要: 非洲的野生动物种群面临严重威胁,过去五十年中脊椎动物数量下降了65%以上。作为应对措施,利用深度学习进行图像分类已成为生物多样性监测和保护的一个有前景的工具。本文对用于自动分类非洲野生动物图像的深度学习模型进行了比较研究,重点研究了使用冻结特征提取器的迁移学习。我们使用一个包含四种物种(野牛、大象、犀牛和斑马)的公共数据集,评估了DenseNet-201、ResNet-152、EfficientNet-B4和Vision Transformer ViT-H/14的性能。DenseNet-201在卷积网络中表现最佳(67%的准确率),而ViT-H/14则实现了最高的整体准确率(99%),但其计算成本显著更高,导致部署方面的担忧。我们的实验突出了准确性、资源需求和可部署性之间的权衡。表现最好的CNN(DenseNet-201)被集成到Hugging Face Gradio Space中,用于实时现场应用,展示了在保护环境中部署轻量级模型的可行性。这项工作通过提供关于模型选择、数据集准备和深度学习工具在野生动物保护中负责任部署的实用见解,为非洲本土的人工智能研究做出了贡献。 |
[17] 探索超越领域泛化的概率建模用于语义分割 标题: Exploring Probabilistic Modeling Beyond Domain Generalization for Semantic Segmentation 作者: I-Hsiang Chen / Hua-En Chang / Wei-Ting Chen / Jenq-Neng Hwang / Sy-Yen Kuo 原文: [英文] 备注: Accepted by ICCV2025 摘要: 领域泛化语义分割(DGSS)是一项关键但具有挑战性的任务,因为在未见过的环境中,领域转移可能会严重影响模型性能。尽管最近的研究通过将特征投射到源领域来增强特征对齐,但它们常常忽视了内在的潜在领域先验,导致结果不理想。在本文中,我们介绍了PDAF,一种概率扩散对齐框架,通过概率扩散建模来增强现有分割网络的泛化能力。PDAF引入了潜在领域先验(LDP),以捕捉领域转移,并使用该先验作为条件因素来对齐源领域和未见目标领域。为实现这一目标,PDAF集成到预训练的分割模型中,并利用配对的源图像和伪目标图像来模拟潜在领域转移,从而实现LDP建模。该框架包括三个模块:潜在先验提取器(LPE)通过监督领域转移来预测LDP;领域补偿模块(DCM)调整特征表示以减轻领域转移;扩散先验估计器(DPE)利用扩散过程来估计LDP,而无需配对样本。这种设计使得PDAF能够迭代地建模领域转移,逐步优化特征表示,以在复杂的目标条件下增强泛化能力。大量实验验证了PDAF在多样且具有挑战性的城市场景中的有效性。 |
[18] Top2Pano:学习从俯视图生成室内全景图 标题: Top2Pano: Learning to Generate Indoor Panoramas from Top-Down View 作者: Zitong Zhang / Suranjan Gautam / Rui Yu 原文: [英文] [中文] 备注: ICCV 2025. Project page: this https URL 摘要: 从2D俯视图生成沉浸式360°室内全景图在虚拟现实、室内设计、房地产和机器人领域有着广泛的应用。由于缺乏明确的3D结构以及对几何一致性和照片真实感的需求,这项任务具有挑战性。我们提出了Top2Pano,这是一种从俯视图合成逼真室内全景图的端到端模型。我们的方法通过估计体积占用来推断3D结构,然后使用体积渲染生成粗略的颜色和深度全景图。这些全景图指导了使用ControlNet的基于扩散的细化阶段,增强了真实感和结构保真度。在两个数据集上的评估显示,Top2Pano优于基线方法,有效地重建了几何形状、遮挡和空间布局。它还具有良好的泛化能力,可以从示意性平面图中生成高质量的全景图。我们的结果突显了Top2Pano在将俯视图与沉浸式室内合成相结合方面的潜力。 |
[19] 多模态大型语言模型作为文本到图像生成的定制奖励模型 标题: Multimodal LLMs as Customized Reward Models for Text-to-Image Generation 作者: Shijie Zhou / Ruiyi Zhang / Huaisheng Zhu / Branislav Kveton / Yufan Zhou / Jiuxiang Gu / Jian Chen / Changyou Chen 原文: [英文] 备注: Accepted at ICCV 2025. Code available at this https URL 摘要: 我们介绍了LLaVA-Reward,这是一种高效的奖励模型,旨在利用预训练的多模态大型语言模型(MLLMs)自动评估文本到图像(T2I)生成的多种视角。现有的基于MLLM的方法需要指令跟随数据进行监督微调,并通过分析文本响应来评估生成质量,这既耗时又难以训练。为了解决这个问题,我们提出了LLaVA-Reward,它直接利用给定文本-图像对的MLLMs的隐藏状态。为了增强仅解码器MLLMs中视觉和文本表示之间的双向交互,我们进一步提出添加一个跳跃连接交叉注意力(SkipCA)模块。该设计通过将早期层的视觉特征与后期层的隐藏状态连接起来,增强了文本-图像相关性推理。此外,LLaVA-Reward支持不同类型的偏好数据进行高效微调,包括成对的偏好数据和非成对数据。我们在四个评估视角上训练LLaVA-Reward:文本-图像对齐、保真度/伪影、安全性和整体排名。实证结果表明,LLaVA-Reward在生成与人类一致的自动评估分数和推理时间扩展方面优于传统和基于MLLM的方法。 |
[20] ReGATE:在多模态大模型中使用更少的标记实现更快更好的学习 标题: ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs 作者: Chaoyu Li / Yogesh Kulkarni / Pooyan Fazli 原文: [英文] [中文] 备注: None 摘要: 随着涉及的标记数量的增加,训练多模态大型语言模型(MLLMs)的计算成本迅速上升。现有的效率方法主要针对推理阶段,并依赖于标记的减少或合并,因此在训练过程中提供的好处有限。在本文中,我们提出了ReGATE(Reference$-$Guided Adaptive Token Elision),这是一种用于加速MLLM训练的自适应标记剪枝方法。具体来说,ReGATE采用了一个教师-学生框架,其中正在训练的MLLM作为学生,而一个冻结的参考大型语言模型(LLM)作为教师。教师计算每个标记的参考损失,这些损失与学生自身难度分数的指数移动平均(EMA)相结合。这种基于自适应难度的评分机制使得在前向传递中可以选择性地处理关键标记,同时绕过信息量较少的标记,从而显著减少计算开销。实验表明,当ReGATE应用于VideoLLaMA2时,其在MVBench上的峰值准确率与标准训练相当,但速度提高了最多2倍,仅使用了35%的标记。通过额外的训练,它甚至在多个多模态基准测试中超越了基线,同时将总标记数量减少了超过41%。代码和模型将很快发布。 |
[21] MapDiffusion:用于自动驾驶中矢量化在线高清地图构建和不确定性估计的生成扩散 标题: MapDiffusion: Generative Diffusion for Vectorized Online HD Map Construction and Uncertainty Estimation in Autonomous Driving 作者: Thomas Monninger / Zihan Zhang / Zhipeng Mo / Md Zafar Anwar / Steffen Staab / Sihao Ding 原文: [英文] [中文] 备注: Accepted for 2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025) 摘要: 自动驾驶需要从传感器数据中理解静态环境。学习到的鸟瞰图(BEV)编码器通常用于融合多个输入,而矢量解码器则从潜在的BEV网格中预测矢量化的地图表示。然而,传统的地图构建模型提供确定性的点估计,未能捕捉不确定性和真实环境中的固有模糊性,例如遮挡和缺失的车道标记。我们提出了MapDiffusion,这是一种新颖的生成方法,利用扩散范式来学习可能的矢量化地图的完整分布。MapDiffusion不是从学习到的查询中预测单一的确定性输出,而是迭代地细化随机初始化的查询,基于BEV潜在网格生成多个合理的地图样本。这允许通过聚合样本来提高预测准确性,并得出与场景模糊性直接相关的不确定性估计。在nuScenes数据集上的大量实验表明,MapDiffusion在在线地图构建中实现了最先进的性能,单样本性能超过基线5%。我们进一步展示了聚合多个样本在ROC曲线上持续提高性能,验证了分布建模的好处。此外,我们的不确定性估计在被遮挡区域显著更高,强化了其在识别传感器输入模糊区域中的价值。通过建模完整的地图分布,MapDiffusion增强了在线矢量化高清地图构建的鲁棒性和可靠性,使得自动驾驶车辆在复杂环境中能够进行不确定性感知的决策。 |
[22] 用于半监督医学图像分割的双重跨图像语义一致性与自感知伪标签 标题: Dual Cross-image Semantic Consistency with Self-aware Pseudo Labeling for Semi-supervised Medical Image Segmentation 作者: Han Wu / Chong Wang / Zhiming Cui 原文: [英文] [中文] 备注: IEEE TMI 摘要: 半监督学习在解决医学图像分割中有限标注训练数据的挑战方面已被证明非常有效。通常,当前的方法依赖于通过伪标签进行图像内像素级一致性训练,忽视了更全面的语义层次(例如,物体区域)的一致性,并且由于标注和未标注数据数量不平衡而导致提取特征的严重差异。为克服这些限制,我们提出了一种新的双重跨图像语义一致性(DuCiSC)学习框架,用于半监督医学图像分割。具体而言,除了强制像素级语义一致性外,DuCiSC还提出了双重范式以促进区域级语义一致性:1)标注和未标注图像之间;以及2)标注和融合图像之间,通过显式对齐它们的原型。依靠双重范式,DuCiSC可以通过原型表示有效建立一致的跨图像语义,从而解决特征差异问题。此外,我们设计了一种新颖的自我感知置信度估计策略,以准确选择可靠的伪标签,从而利用未标注数据的训练动态。我们的DuCiSC方法在四个数据集上进行了广泛验证,包括两个流行的二元基准数据集(分割左心房和胰腺)、一个多类自动心脏诊断挑战数据集,以及一个具有复杂解剖结构的下牙槽神经分割的挑战场景,显示出优于之前最先进方法的分割结果。我们的代码在此网址公开可用。 |
[23] 递归视觉想象与自适应语言基础在视觉语言导航中的应用 标题: Recursive Visual Imagination and Adaptive Linguistic Grounding for Vision Language Navigation 作者: Bolei Chen / Jiaxu Kang / Yifei Wang / Ping Zhong / Qi Wu / Jianxin Wang 原文: [英文] [中文] 备注: Submitted to AAAI 2026 摘要: 视觉语言导航(VLN)通常要求智能体在未知场景中遵循语言指令导航到指定的物体或远程区域。这样的任务需要组织历史视觉观察以进行语言基础,这是长序列导航决策的关键。然而,目前的智能体在场景表示过于详细和视觉语言对齐不明确方面存在问题,这削弱了它们对导航友好的高级场景先验的理解,并容易导致违反语言指令的行为。为了解决这些问题,我们提出了一种导航策略,通过递归总结沿途的视觉感知,这些感知与指令自适应对齐,以增强语言基础。特别地,通过将历史轨迹结构化建模为紧凑的神经网格,提出了几种递归视觉想象(RVI)技术,以激励智能体关注视觉过渡的规律性和语义场景布局,而不是处理误导性的几何细节。然后,提出了一种自适应语言基础(ALG)技术,旨在将学习到的情境记忆与不同的语言成分有目的地对齐。这种细粒度的语义匹配有助于准确预测导航动作和进度。我们的导航策略在具有挑战性的VLN-CE和ObjectNav任务中优于最先进的方法,显示了我们的RVI和ALG技术在VLN中的优越性。 |
[24] 通过参数化、预定义增强和近似来提升自监督数据集蒸馏 标题: Boost Self-Supervised Dataset Distillation via Parameterization, Predefined Augmentation, and Approximation 作者: Sheng-Feng Yu / Jia-Jiun Yao / Wei-Chen Chiu 原文: [英文] [中文] 备注: None 摘要: 尽管更大的数据集对于训练大型深度模型至关重要,但数据集规模的快速增长在训练成本方面带来了显著挑战,甚至导致难以承受的计算开销。数据集蒸馏最近成为一种流行的技术,通过学习一组高度紧凑的代表性样本来减少数据集的大小,理想情况下,用这些样本训练的模型应该与用完整数据集训练的模型具有可比的性能。虽然现有的大多数数据集蒸馏工作集中在监督数据集上,我们则旨在将图像及其自监督训练的表示蒸馏到一个蒸馏集。这一过程被称为自监督数据集蒸馏,能够有效地从真实数据集中提取丰富的信息,产生的蒸馏集具有增强的跨架构泛化能力。特别地,为了更忠实和紧凑地保留原始数据集的关键特征,我们提出了几项新技术:1)我们通过不同的低维基对图像和表示进行创新的参数化,实验表明基的选择在参数化中起着关键作用;2)我们通过使用预定的增强来解决由数据增强的随机性引起的不稳定性——这是自监督学习中的关键组成部分,但在先前的自监督数据集蒸馏工作中被低估了;3)我们进一步利用一个轻量级网络来建模来自同一图像的增强视图之间的表示连接,从而形成更紧凑的蒸馏对。在各种数据集上进行的大量实验验证了我们方法在蒸馏效率、跨架构泛化和迁移学习性能方面的优越性。 |
[25] 用于低光场景中的光场目标跟踪的角度-时间交互网络 标题: An Angular-Temporal Interaction Network for Light Field Object Tracking in Low-Light Scenes 作者: Mianzhao Wang / Fan Shi / Xu Cheng / Feifei Zhang / Shengyong Chen 原文: [英文] [中文] 备注: None 摘要: 高质量的4D光场表示对于场景感知至关重要,因为它可以提供辨别性的空间-角度线索来识别移动目标。然而,最近的发展仍然难以在时间域中提供可靠的角度建模,特别是在复杂的低光场景中。在本文中,我们提出了一种新颖的光场极线平面结构图像(ESI)表示,该表示明确定义了光场中的几何结构。通过利用极线平面内光线角度的突变,这种表示可以增强低光场景中的视觉表现,并减少高维光场中的冗余。我们进一步提出了一种用于光场目标跟踪的角度-时间交互网络(ATINet),该网络从光场的几何结构线索和角度-时间交互线索中学习角度感知表示。此外,ATINet还可以通过自监督的方式进行优化,以增强时间域中的几何特征交互。最后,我们引入了一个大规模的光场低光数据集用于目标跟踪。大量实验表明,ATINet在单目标跟踪中达到了最先进的性能。此外,我们将所提出的方法扩展到多目标跟踪,这也显示了高质量光场角度-时间建模的有效性。 |
[26] 描述、适应与结合:增强CLIP编码器以实现开放集3D对象检索 标题: Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval 作者: Zhichuan Wang / Yang Zhou / Zhe Liu / Rui Yu / Song Bai / Yulong Wang / Xinwei He / Xiang Bai 原文: [英文] 备注: Accepted to ICCV 2025 摘要: 开放集三维对象检索(3DOR)是一项新兴任务,旨在检索训练集之外未见类别的三维对象。现有方法通常利用所有模态(即体素、点云、多视图图像)并在融合前训练特定的骨干网络。然而,由于三维训练数据不足,它们仍然难以生成通用的表示。CLIP在大规模网络图像-文本对上进行对比预训练,天生能够为广泛的下游任务生成通用表示。在此基础上,我们提出了一个简单而有效的框架,名为描述、适应和结合(DAC),仅使用多视图图像进行开放集3DOR。DAC创新性地将CLIP模型与多模态大语言模型(MLLM)结合,以学习通用的三维表示,其中MLLM用于双重目的。首先,它描述已见类别信息,以便在训练期间与CLIP的训练目标对齐进行适应。其次,它在推理过程中提供关于未知对象的外部提示,补充视觉线索。为了改善这种协同作用,我们引入了一种加性偏置低秩适应(AB-LoRA),它缓解了过拟合并进一步增强了对未见类别的泛化能力。仅使用多视图图像,DAC在四个开放集3DOR数据集上平均超过现有技术+10.01%的mAP。此外,其泛化能力在基于图像和跨数据集设置中也得到了验证。代码可在此https URL获取。 |
[27] VAGU & GtS:基于大型语言模型的视频异常定位与理解联合基准和框架 标题: VAGU & GtS: LLM-Based Benchmark and Framework for Joint Video Anomaly Grounding and Understanding 作者: Shibo Gao / Peipei Yang / Yangyang Liu / Yi Chen / Han Zhu / Xuyao Zhang / Linlin Huang 原文: [英文] [中文] 备注: 21 pages, 19 figures, 8 tables 摘要: 视频异常检测(VAD)旨在识别视频中的异常事件并准确确定其时间间隔。目前的VAD方法主要分为两类:传统的基于深度神经网络(DNN)的方法,侧重于时间定位;以及基于大型语言模型(LLM)的方法,强调语义理解。异常理解和定位对于全面的视频异常检测都至关重要,并且可以相辅相成。然而,目前没有现有的模型或数据集能够同时支持这两个任务。为了解决这一问题,我们引入了VAGU(视频异常定位和理解),这是第一个整合这两个任务的基准。每个VAGU实例都包括异常类别、语义解释、精确的时间定位和视频问答的注释。我们还提供了多项选择的视频问答以进行客观评估。基于这个数据集,我们提出了“先浏览后细查”(GtS),一个由文本提示引导的无训练框架。该框架首先实现高概率异常区域的粗略定位,然后进行详细的异常解释和时间边界的细化。此外,我们提出了JeAUG指标,该指标联合评估语义可解释性和时间精确性,克服了传统指标的局限性。大量实验验证了我们的基准、框架和评估指标的有效性。 |
[28] 通过参数高效的不确定性校准优化视觉-语言模型中的主动学习 标题: Optimizing Active Learning in Vision-Language Models via Parameter-Efficient Uncertainty Calibration 作者: Athmanarayanan Lakshmi Narayanan / Amrutha Machireddy / Ranganath Krishnan 原文: [英文] [中文] 备注: International Joint Conference on Neural Networks 2025 (Accepted) 摘要: 主动学习(AL)作为一种强大的方法,通过有选择地采样对神经网络模型开发最有信息量的数据,来最小化标注成本。对于大规模视觉-语言模型的有效主动学习,需要解决不确定性估计和高效采样的挑战,因为涉及的参数数量庞大。在这项工作中,我们引入了一种新颖的参数高效学习方法,该方法在主动学习框架中结合了不确定性校准损失。我们提出了一种可微分的损失函数,促进不确定性校准,以有效选择更少且信息量最大的样本进行微调。通过在多个数据集和视觉骨干网络上的广泛实验,我们证明了我们的解决方案可以在计算上非常高效的情况下,达到并超越复杂的基于特征的采样技术的性能。此外,我们研究了在样本选择中提示学习与低秩适应(LoRA)的有效性,并在高效主动学习的背景下提供了这些方法的详细比较分析。 |
[29] 烹饪链:通过双向思维链引导实现烹饪过程可视化 标题: Chain-of-Cooking:Cooking Process Visualization via Bidirectional Chain-of-Thought Guidance 作者: Mengling Xu / Ming Tao / Bing-Kun Bao 原文: [英文] [中文] 备注: Accepted by ACM MM 2025 摘要: 烹饪过程可视化是图像生成和食物分析交叉领域中的一个有前景的任务,旨在为食谱的每个烹饪步骤生成一幅图像。然而,大多数现有的工作集中于根据给定的食谱生成成品食物的图像,并在可视化烹饪过程中面临两个挑战。首先,食材的外观在各个烹饪步骤中变化多样,难以生成与文本描述相匹配的正确食物外观,导致语义不一致。其次,当前步骤可能依赖于前一步的操作,因此保持图像在顺序上的上下文连贯性至关重要。在这项工作中,我们提出了一种名为Chain-of-Cooking的烹饪过程可视化模型。具体来说,为了生成食材的正确外观,我们提出了一个动态补丁选择模块,以检索先前生成的图像补丁作为参考,这些补丁与当前文本内容最相关。此外,为了增强连贯性并保持生成图像的合理顺序,我们提出了一个语义演化模块和一个双向思维链(CoT)指导。为了更好地利用前文的语义,语义演化模块在潜在提示和当前烹饪步骤之间建立语义关联,并将其与潜在特征合并。然后,CoT指导更新合并后的特征,以指导当前烹饪步骤与前一步保持连贯。此外,我们构建了一个名为CookViz的数据集,其中包含烹饪过程的中间图文对。定量和定性实验表明,我们的方法在生成连贯且语义一致的烹饪过程中优于现有方法。 |
[30] 抑制梯度冲突以实现可推广的深度伪造检测 标题: Suppressing Gradient Conflict for Generalizable Deepfake Detection 作者: Ming-Hui Liu / Harry Cheng / Xin Luo / Xin-Shun Xu 原文: [英文] [中文] 备注: V1 摘要: 鲁棒的深度伪造检测模型必须能够推广到不断演变的超出训练数据的操控技术。一种有前途的策略是通过在线合成的假图像来增强训练数据,这些图像包含广泛可推广的伪造特征。然而,在深度伪造检测的背景下,令人惊讶的是,联合训练原始和在线合成的伪造图像可能导致性能下降。这与普遍认为的增加源域数据应提高检测准确性相矛盾。通过实证分析,我们将这种下降追溯到反向传播期间的梯度冲突,这迫使在源域准确性和目标域泛化之间进行权衡。为了解决这个问题,我们提出了一个冲突抑制深度伪造检测(CS-DFD)框架,该框架通过两个协同模块显式缓解梯度冲突。首先,更新向量搜索(UVS)模块在初始梯度向量附近搜索替代更新向量,以调和原始和在线合成伪造之间的差异。通过进一步将搜索过程转化为极值优化问题,UVS产生唯一的更新向量,该向量最大化每种数据类型的同时损失减少。其次,冲突梯度减少(CGR)模块通过一种新颖的冲突下降损失强制执行低冲突特征嵌入空间。该损失惩罚不对齐的梯度方向,并指导学习具有对齐、无冲突梯度的表示。UVS和CGR的协同作用缓解了参数优化和表示学习中的梯度干扰。在多个深度伪造基准上的实验表明,CS-DFD在域内检测准确性和跨域泛化方面实现了最先进的性能。 |
[31] 太阳传感器校准算法:系统映射与综述 标题: Sun sensor calibration algorithms: A systematic mapping and survey 作者: Michael Herman / Olivia J. Pinon Fischer / Dimitri N. Mavris 原文: [英文] [中文] 备注: Submitted to Acta Astronautica 摘要: 姿态传感器通过感知天文物体、场或其他现象来确定航天器的姿态。太阳和恒星是两种主要的天文感知对象。姿态传感器是航天器生存和知识提升的关键组件。其中,太阳传感器是航天器姿态确定中最常见和最重要的传感器。太阳传感器测量航天器坐标系中的太阳矢量。由于涉及的不确定性复杂,太阳传感器的校准过程尤其困难。这些不确定性很小,难以观察,并且在传感器生命周期内随时间和空间变化。此外,传感器还受到多种不确定性来源的影响,包括制造、电气、环境和干扰源。这促使开发先进的校准算法,以在传感器生命周期内最小化不确定性并提高精度。尽管在过去的二十年中,文献中对太阳传感器的建模和校准技术进行了广泛的探索,但目前尚无资源能够整合并系统地回顾这方面的工作。本文综述提出了一种对各种传感器配置的太阳传感器建模和校准算法的系统映射。它特别提供了对每种方法的全面调查,并分析了研究空白和对未来太阳传感器建模和校准技术方向的建议。 |
[32] 基于全局上下文的多视图重建用于3D异常检测 标题: Multi-View Reconstruction with Global Context for 3D Anomaly Detection 作者: Yihan Sun / Yuqi Cheng / Yunkang Cao / Yuxin Zhang / Weiming Shen 原文: [英文] [中文] 备注: 6 pages, 5 figures, IEEE International Conference on Systems, Man, and Cybernetics (IEEE SMC), 2025 摘要: 3D异常检测在工业质量检测中至关重要。尽管现有方法取得了显著进展,但由于全局信息不足,它们在高精度3D异常检测中的性能有所下降。为了解决这个问题,我们提出了多视图重建(MVR)方法,该方法无损地将高分辨率点云转换为多视图图像,并采用基于重建的异常检测框架来增强全局信息学习。大量实验表明,MVR的有效性在Real3D-AD基准上实现了89.6%的对象级AU-ROC和95.7%的点级AU-ROC。 |
[33] RelMap:通过类别感知的空间关系和语义先验增强在线地图构建 标题: RelMap: Enhancing Online Map Construction with Class-Aware Spatial Relation and Semantic Priors 作者: Tianhui Cai / Yun Zhang / Zewei Zhou / Zhiyu Huang / Jiaqi Ma 原文: [英文] [中文] 备注: None 摘要: 在线高清(HD)地图构建在扩展自动驾驶系统中发挥着越来越重要的作用。基于Transformer的方法在在线高清地图构建中已变得普遍;然而,现有的方法往往忽视了地图元素之间固有的空间和语义关系,这限制了它们的准确性和泛化能力。为了解决这个问题,我们提出了RelMap,这是一种通过结合空间关系和语义先验来增强在线地图构建的端到端框架。我们引入了一种类别感知的空间关系先验,该先验通过一个可学习的类别感知关系编码器显式地编码地图元素之间的相对位置依赖关系。此外,我们提出了一种基于专家混合(MoE)的语义先验,该先验根据预测的类别概率将特征路由到特定类别的专家,从而优化实例特征解码。我们的方法兼容单帧和时间感知骨干网络,在nuScenes和Argoverse 2数据集上实现了最先进的性能。 |
[34] LinDeps: 一种无需微调的后剪枝方法,用于消除层级线性依赖并保证性能保持 标题: LinDeps: A Fine-tuning Free Post-Pruning Method to Remove Layer-Wise Linear Dependencies with Guaranteed Performance Preservation 作者: Maxim Henry / Adrien Deliège / Anthony Cioppa / Marc Van Droogenbroeck 原文: [英文] [中文] 备注: 10 pages, 4 figures, 5 tables, 45 references 摘要: 卷积神经网络(CNN)广泛应用于许多计算机视觉任务。然而,其不断增加的规模和复杂性对在资源受限的平台上高效部署提出了重大挑战。因此,网络剪枝作为一种有效的方法,通过去除冗余或不重要的参数来减少神经网络的规模和计算需求。然而,剪枝的一个基本挑战在于如何在不降低性能的情况下最佳地去除冗余。大多数现有的剪枝技术忽视了层内特征图之间的结构依赖性,导致次优的剪枝决策。在这项工作中,我们引入了LinDeps,这是一种新颖的后剪枝方法,即可以应用于任何剪枝技术之上的剪枝方法,通过线性依赖分析系统地识别和去除冗余滤波器。具体来说,LinDeps应用枢轴QR分解于特征图,以检测和剪除线性相关的滤波器。然后,一种新颖的信号恢复机制调整下一层的内核,以保持兼容性和性能,而无需任何微调。我们在CIFAR-10和ImageNet上使用VGG和ResNet骨干网络进行的实验表明,LinDeps在保持性能的同时提高了现有剪枝技术的压缩率,达到了CNN剪枝的新技术水平。我们还在无法进行再训练的低资源环境中对LinDeps进行了基准测试,显示出相对于一种先进方法的显著剪枝改进和推理加速。因此,LinDeps构成了当前或未来任何剪枝技术的重要附加组件。 |
[35] TARS:用于减少多模态大模型幻觉的极小极大自适应偏好策略 标题: TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs 作者: Kejia Zhang / Keda Tao / Zhiming Luo / Chang Liu / Jiasheng Tang / Huan Wang 原文: [英文] [中文] 备注: None 摘要: 多模态大语言模型(MLLMs)能够进行视觉-语言推理,但往往会生成看似合理但实际上不正确或在视觉上没有依据的输出,从而影响其可靠性。直接偏好优化(DPO)是一种通过使模型输出与人类偏好对齐来纠正幻觉的常见策略。现有的DPO策略通常将与幻觉相关的偏好视为固定目标,在训练期间依赖静态监督信号。这种方法往往会过度拟合偏好数据中的表面语言线索,导致分布的僵化和虚假的相关性,从而削弱在因果相关的视觉信息中的基础。为克服这一限制,我们提出了TARS,一种令牌自适应偏好策略,将DPO重新表述为一个极小化-极大化优化问题。TARS在语义约束下最大化令牌级别的分布变化,以模拟对齐的不确定性,同时在这些受控扰动下最小化期望的偏好损失。这个联合目标在减轻对偏好模式的过度拟合的同时,保持因果基础,从而减少多模态推理中的幻觉。我们在多个幻觉基准上评估TARS,发现其表现始终强劲。仅使用4.8k偏好样本且没有专家反馈,TARS将幻觉率从26.4%降低到13.2%,并将认知值从2.5降至0.4。它在多个关键指标上优于标准DPO,并与GPT-4o相匹配。 |
[36] 图像级监督下弱监督语义分割中伪标签优化的新兴趋势 标题: Emerging Trends in Pseudo-Label Refinement for Weakly Supervised Semantic Segmentation with Image-Level Supervision 作者: Zheyuan Zhang / Wang Zhang 原文: [英文] [中文] 备注: None 摘要: 与完全监督的语义分割不同,弱监督语义分割(WSSS)依赖于较弱形式的监督来执行密集预测任务。在各种类型的弱监督中,基于图像级标注的WSSS被认为是最具挑战性和最实用的,因此吸引了大量研究关注。因此,在这篇综述中,我们重点关注基于图像级标注的WSSS。此外,这篇综述集中于主流研究方向,故意省略了影响较小的分支。 鉴于新方法的快速发展以及现有综述在捕捉最新趋势方面的局限性,迫切需要一篇更新且全面的综述。我们的目标是通过综合最新进展和基于图像级标签的WSSS的最新技术来填补这一空白。 基本上,我们对基于图像级标签的WSSS的最新进展进行了全面综述,根据所涉及的额外监督的类型和水平对现有方法进行分类。我们还研究了将先进方法应用于特定领域数据集的挑战,这是一个尚未深入探索的话题。最后,我们讨论了当前的挑战,评估了现有方法的局限性,并概述了未来研究的几个有前景的方向。这篇综述旨在为已经熟悉WSSS基本概念并希望加深对当前进展和方法创新理解的研究人员提供帮助。 |
[37] 基于潜在扩散模型的局部可控人脸老化 标题: Locally Controlled Face Aging with Latent Diffusion Models 作者: Lais Isabelle Alves dos Santos / Julien Despois / Thibaut Chauffier / Sileye O. Ba / Giovanni Palma 原文: [英文] [中文] 备注: None 摘要: 我们提出了一种新的面部老化方法,解决了当前方法将老化视为一个整体、均质过程的局限性。现有使用生成对抗网络(GANs)和扩散模型的技术通常基于参考图像和目标年龄进行生成,忽略了由于内在的时间因素和外在因素如阳光照射等,面部区域的老化是不均匀的。我们的方法利用潜在扩散模型,使用局部老化特征选择性地老化特定面部区域。该方法在生成过程中提供了显著更精细的控制,能够实现更真实和个性化的老化。我们采用潜在扩散优化器无缝融合这些局部老化区域,确保整体一致且自然的合成。实验结果表明,我们的方法有效地实现了成功面部老化的三个关键标准:稳健的身份保留、高保真和逼真的图像,以及自然、可控的老化进程。 |
[38] 解耦时空一致性学习用于自监督跟踪 标题: Decoupled Spatio-Temporal Consistency Learning for Self-Supervised Tracking 作者: Yaozong Zheng / Bineng Zhong / Qihua Liang / Ning Li / Shuxiang Song 原文: [英文] [中文] 备注: Accepted by AAAI2025 摘要: 视觉跟踪的成功在很大程度上依赖于具有人工框注释的数据集。然而,这些框注释需要大量的人力,限制了现有跟踪数据集的规模和多样性。在这项工作中,我们提出了一种名为\textbf{\tracker}的新颖的自监督跟踪框架,旨在消除对框注释的需求。具体来说,提出了一种解耦的时空一致性训练框架,通过全局空间定位和局部时间关联来学习跨时间戳的丰富目标信息。这允许模拟实例在现实场景中的外观和运动变化。此外,设计了一种实例对比损失,从多视角学习实例级对应关系,提供稳健的实例监督而无需额外标签。这种新的设计范式使{\tracker}能够以自监督的方式有效学习通用跟踪表示,同时减少对大量框注释的依赖。在九个基准数据集上的广泛实验表明,{\tracker}超越了\textit{SOTA}自监督跟踪方法,在GOT10K、LaSOT、TrackingNet数据集的AUC (AO)得分上分别提高了超过25.3%、20.4%和14.8%。代码:这个https URL。 |
[39] 诱导多能干细胞的语义分割:生物医学成像中模型复杂性的案例研究 标题: Semantic Segmentation of iPS Cells: Case Study on Model Complexity in Biomedical Imaging 作者: Maoquan Zhang / Bisser Raytchev / Xiujuan Sun 原文: [英文] [中文] 备注: 19th International Conference on Machine Vision Applications MVA2025 摘要: 医学图像分割不仅需要准确性,还需要在具有挑战性的成像条件下的鲁棒性。在本研究中,我们展示了一个精心配置的DeepLabv3模型在诱导多能干细胞(iPS)细胞群落分割中可以实现高性能,并且在我们的实验条件下,无需结构修改就能优于大型基础模型如SAM2及其医学变体MedSAM2。这些结果表明,对于以微妙、低对比度边界为特征的专门任务,增加模型复杂性不一定能转化为更好的性能。我们的工作重新审视了更大、更通用的架构总是更优的假设,并提供了证据表明,适当调整的简单模型可能在特定领域的生物医学应用中提供强大的准确性和实用的可靠性。我们还提供了一个开源实现,其中包括针对小型数据集和特定领域编码的策略,旨在支持再生医学及相关领域语义分割的进一步进展。 |
[40] 使用深度学习和合成数据进行风力涡轮机特征检测 标题: Wind Turbine Feature Detection Using Deep Learning and Synthetic Data 作者: Arash Shahirpour / Jakob Gebler / Manuel Sanders / Tim Reuscher 原文: [英文] [中文] 备注: 8 pages, 5 figures, accepted at ICMV 2025 摘要: 对于基于自主无人机的风力涡轮机(WT)叶片检测,准确检测WT及其关键特征对于无人机的安全定位和避免碰撞至关重要。现有的深度学习方法通常依赖于手动标注的真实世界图像,这在天气条件、光照、涡轮机类型和图像复杂性方面限制了训练数据集的数量和多样性。在本文中,我们提出了一种生成合成训练数据的方法,该方法允许对视觉和环境因素进行控制变化,从而增加多样性,并创造具有挑战性的学习场景。此外,我们仅在合成WT图像上训练了一个YOLOv11特征检测网络,并修改了损失函数,以检测图像中的WT及其关键特征。该网络在合成图像和一组真实世界的WT图像上进行了评估,并在合成和真实数据上均表现出良好的性能,在训练中从未见过的真实图像上实现了0.97的Pose mAP50-95。 |
[41] EMIT:通过难度感知GRPO增强工业异常检测的多模态大模型 标题: EMIT: Enhancing MLLMs for Industrial Anomaly Detection via Difficulty-Aware GRPO 作者: Wei Guan / Jun Lan / Jian Cao / Hao Tan / Huijia Zhu / Weiqiang Wang 原文: [英文] [中文] 备注: None 摘要: 工业异常检测(IAD)在维护制造系统的安全性和可靠性方面起着至关重要的作用。尽管多模态大语言模型(MLLMs)在视觉-语言推理能力上表现出色,但如果没有特定领域的适应,其在IAD中的有效性仍然有限。在这项工作中,我们提出了EMIT,一个通过难度感知的组相对策略优化(GRPO)来增强MLLMs用于IAD的统一框架。EMIT构建了一个多任务IAD数据集,并利用GPT生成的对象文本描述来弥补缺失的缺陷图像。对于少样本异常检测,它集成了软提示和基于热图引导的对比嵌入,这些嵌入来自于补丁级别的比较。为了更好地处理困难的数据样本,即MLLM难以生成正确答案的情况,我们提出了一种难度感知的GRPO,该方法通过引入响应重采样策略来扩展原始GRPO,以确保在采样的响应中包含正确答案,并通过优势重加权机制来加强从这些困难数据样本中学习。在MMAD基准上的大量实验表明,EMIT显著增强了MLLMs的IAD性能,在七个任务中相较于基础模型(InternVL3-8B)平均提高了7.77%。 |
[42] GuidPaint:基于扩散模型的类别引导图像修复 标题: GuidPaint: Class-Guided Image Inpainting with Diffusion Models 作者: Qimin Wang / Xinda Liu / Guohua Geng 原文: [英文] [中文] 备注: None 摘要: 近年来,由于扩散模型强大的生成能力,它们被广泛应用于图像修复任务,并取得了令人印象深刻的成果。现有基于扩散模型的多模态修复方法通常需要对架构进行修改和重新训练,导致计算成本高昂。相比之下,基于上下文感知的扩散修复方法利用模型的内在先验来调整中间去噪步骤,从而无需额外训练即可实现高质量的修复,并显著降低计算量。然而,这些方法缺乏对遮挡区域的细粒度控制,往往导致语义不一致或视觉上不合理的内容。为了解决这个问题,我们提出了GuidPaint,这是一种无需训练的、类别引导的图像修复框架。通过在去噪过程中引入分类器引导,GuidPaint能够精确控制遮挡区域内的中间生成,确保语义一致性和视觉真实感。此外,它结合了随机和确定性采样,允许用户选择偏好的中间结果并确定性地进行细化。实验结果表明,GuidPaint在定性和定量评估中均明显优于现有的上下文感知修复方法。 |
[43] 视频异常检测的演变:从深度神经网络到多模态大模型的统一框架 标题: The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM 作者: Shibo Gao / Peipei Yang / Haiyang Guo / Yangyang Liu / Yi Chen / Shuai Li / Han Zhu / Jian Xu / Xu-Yao Zhang / Linlin Huang 原文: [英文] [中文] 备注: None 摘要: 视频异常检测(VAD)旨在识别和定位视频中的异常行为或事件,是智能监控和公共安全领域的核心技术。随着深度学习的进步,深度模型架构的不断演变推动了VAD方法的创新,显著增强了特征表示和场景适应性,从而提高了算法的泛化能力并扩展了应用边界。更重要的是,多模态大语言模型(MLLMs)和大语言模型(LLMs)的快速发展为VAD领域带来了新的机遇和挑战。在MLLMs和LLMs的支持下,VAD在数据标注、输入模态、模型架构和任务目标方面发生了显著转变。出版物的激增和任务的演变迫切需要对近期进展进行系统性综述。本文首次提供了基于MLLMs和LLMs的VAD方法的全面调查,深入讨论了大模型时代VAD领域发生的变化及其根本原因。此外,本文提出了一个统一框架,涵盖了基于深度神经网络(DNN)和基于LLM的VAD方法,提供了对LLMs赋能的新VAD范式的深入分析,构建了分类系统,并比较了它们的优缺点。在此基础上,本文重点关注基于MLLMs/LLMs的当前VAD方法。最后,基于技术进步的轨迹和现有瓶颈,本文提炼出关键挑战并概述未来研究方向,为VAD社区提供指导。 |
[44] 利用高分辨率原位影像自动检测南极海底生物以辅助生物多样性监测 标题: Automated Detection of Antarctic Benthic Organisms in High-Resolution In Situ Imagery to Aid Biodiversity Monitoring 作者: Cameron Trotter / Huw Griffiths / Tasnuva Ming Khan / Rowan Whittle 原文: [英文] 备注: Accepted to ICCV 2025's Joint Workshop on Marine Vision (ICCVW, CVAUI&AAMVEM). Main paper (11 pages, 3 figures, 3 tables) plus supplementary (7 pages, 5 figures, 2 tables) 摘要: 在南极洲监测底栖生物多样性对于理解生态变化应对气候驱动的压力至关重要。通常,这项工作是通过捕捉到的高分辨率现场图像来进行的,然而对这些数据的手动标注仍然是费力且需要专业知识的,这阻碍了大规模分析。我们提出了一个专门的目标检测框架,用于识别和分类高分辨率拖曳相机图像中的南极底栖生物,并提供了第一个用于威德尔海底栖生物多样性监测的公共计算机视觉数据集。我们的方法解决了与海洋生态图像相关的关键挑战,包括有限的标注数据、可变的目标大小和复杂的海底结构。所提出的框架结合了分辨率保持的分块、空间数据增强、微调和通过切片辅助超推理的后处理。我们对多种目标检测架构进行了基准测试,并展示了在检测25种细粒度形态类型的中大型生物方面的强大性能,显著超过了该领域的其他工作。小型和稀有类群的检测仍然是一个挑战,反映了当前检测架构的局限性。我们的框架为未来机器辅助的现场底栖生物多样性监测研究提供了一个可扩展的基础。 |
[45] APT:通过自适应路径追踪改进高分辨率图像生成的扩散模型 标题: APT: Improving Diffusion Models for High Resolution Image Generation with Adaptive Path Tracing 作者: Sangmin Han / Jinho Jeong / Jinwoo Kim / Seon Joo Kim 原文: [英文] [中文] 备注: None 摘要: 潜在扩散模型(LDMs)通常在固定分辨率下进行训练,这限制了它们在扩展到高分辨率图像时的能力。虽然基于训练的方法通过在高分辨率数据集上进行训练来解决这一限制,但它们需要大量的数据和相当大的计算资源,使其不太实用。因此,无需训练的方法,特别是基于补丁的方法,成为了一种流行的替代方案。这些方法将图像划分为多个补丁,并融合每个补丁的去噪路径,在高分辨率生成方面表现出色。然而,我们观察到基于补丁的方法存在两个关键问题,我们称之为“补丁级分布偏移”和“补丁单调性增加”。为了解决这些问题,我们提出了自适应路径追踪(APT)框架,该框架结合了统计匹配以确保补丁分布在上采样潜变量中保持一致,并使用尺度感知调度来处理补丁单调性。结果,APT在高分辨率图像中产生了更清晰和更精细的细节。此外,APT实现了快捷的去噪过程,从而在采样速度加快的同时,质量下降最小。我们的实验结果证实,APT在提高推理速度的同时,生成了更详细的输出,为高分辨率图像生成提供了一种实用的方法。 |
[46] 语义与身份:一种可调节的医学图像去识别的分而治之方法 标题: Semantics versus Identity: A Divide-and-Conquer Approach towards Adjustable Medical Image De-Identification 作者: Yuan Tian / Shuo Wang / Rongzhao Zhang / Zijian Chen / Yankai Jiang / Chunyi Li / Xiangyang Zhu / Fang Yan / Qiang Hu / XiaoSong Wang / Guangtao Zhai 原文: [英文] [中文] 备注: Accepted to ICCV2025; 摘要: 医学影像在计算机辅助诊断方面取得了显著进展,但其再识别(ReID)风险引发了严重的隐私问题,因此需要去识别(DeID)技术。不幸的是,现有的去识别方法既不能特别保留医学语义,也不能灵活调整以适应不同的隐私级别。为了解决这些问题,我们提出了一个分而治之的框架,包括两个步骤:(1)身份阻断,通过阻断不同比例的身份相关区域,以实现不同的隐私级别;(2)医学语义补偿,利用预训练的医学基础模型(MFMs)提取医学语义特征来补偿被阻断的区域。此外,鉴于MFMs的特征可能仍然包含残余的身份信息,我们引入了一种基于最小描述长度原则的特征解耦策略,以有效地解耦和丢弃这些身份成分。通过对七个数据集和三个下游任务的广泛评估,我们的性能达到了当前的最先进水平。 |
[47] 水下图像增强对特征匹配的影响 标题: Impact of Underwater Image Enhancement on Feature Matching 作者: Jason M. Summers / Mark W. Jones 原文: [英文] [中文] 备注: None 摘要: 我们引入了局部匹配稳定性和最远可匹配帧作为量化指标,用于评估水下图像增强的成功程度。该增强过程解决了由光吸收、散射、海洋生长和碎片引起的视觉退化问题。增强后的图像在路径检测和水下车辆自主导航等后续任务中起着关键作用,这些任务依赖于稳健的特征提取和帧匹配。为了评估增强技术对帧匹配性能的影响,我们提出了一个针对水下环境的全新评估框架。通过基于指标的分析,我们识别了现有方法的优点和局限性,并指出了它们在评估真实世界适用性方面的不足。通过结合实际的匹配策略,我们的框架提供了一个稳健的、上下文感知的基准,用于比较增强方法。最后,我们展示了视觉改进如何影响完整的真实世界算法——同时定位与地图构建(SLAM)的性能,进一步强调了该框架在实际水下场景中的相关性。 |
[48] 检测变压器的剖析:一种受神经科学启发的消融方法 标题: Detection Transformers Under the Knife: A Neuroscience-Inspired Approach to Ablations 作者: Nils Hütten / Florian Hölken / Hasan Tercan / Tobias Meisen 原文: [英文] [中文] 备注: None 摘要: 近年来,可解释人工智能(Explainable AI)作为一种增强模型可解释性和透明性的途径,尤其是在复杂模型如检测变压器中,受到了越来越多的关注。尽管取得了快速进展,但在理解内部组件的不同角色方面仍存在显著的研究空白,而这对于提高透明性和效率至关重要。受神经科学消融研究的启发,该研究通过选择性损伤来研究大脑区域的功能,我们系统地分析了消融三种最先进的检测变压器模型中的关键组件的影响:检测变压器(DETR)、可变形检测变压器(DDETR)和具有改进去噪锚框的DETR(DINO)。消融的目标是查询嵌入、编码器和解码器的多头自注意力(MHSA)以及解码器的多头交叉注意力(MHCA)层。我们评估了这些消融对性能指标gIoU和F1-score的影响,量化了对COCO数据集上的分类和回归子任务的影响。为了促进可重复性和未来研究,我们公开发布了DeepDissect库。我们的研究结果揭示了模型特定的弹性模式:虽然DETR对编码器MHSA和解码器MHCA的消融特别敏感,但DDETR的多尺度可变形注意力增强了鲁棒性,而DINO由于其前瞻两次更新规则表现出最大的弹性,这有助于在块之间分配知识。这些见解还揭示了结构冗余,特别是在DDETR和DINO的解码器MHCA层中,突显了在不牺牲性能的情况下简化模型的机会。这项研究通过阐明内部组件对模型性能的贡献,推进了DETRs的可解释人工智能(XAI),提供了优化和提高关键应用中的透明性和效率的见解。 |
[49] SAMITE:具有校准记忆的用于视觉目标跟踪的定位提示SAM2 标题: SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking 作者: Qianxiong Xu / Lanyun Zhu / Chenxi Liu / Guosheng Lin / Cheng Long / Ziyue Li / Rui Zhao 原文: [英文] [中文] 备注: None 摘要: 视觉目标跟踪(VOT)广泛应用于自动驾驶等需要在视频中连续跟踪目标的应用中。现有的方法大致可以分为模板匹配和自回归方法,其中前者通常忽略了帧间的时间依赖性,而后者在训练过程中往往偏向于对象类别,对未见过的类别表现出较弱的泛化能力。为了解决这些问题,一些方法提出适应视频基础模型SAM2用于VOT,其中每帧的跟踪结果将被编码为记忆,以自回归的方式对后续帧进行条件化。然而,现有方法未能克服对象遮挡和干扰的挑战,也没有任何措施来拦截跟踪错误的传播。为了解决这些问题,我们提出了一个基于SAM2的SAMITE模型,并增加了以下模块:(1)原型记忆库:我们建议量化每帧跟踪结果的特征正确性和位置正确性,并选择最佳帧来对后续帧进行条件化。由于被遮挡和干扰对象的特征在特征和位置上都是不准确的,它们的得分自然会较低,因此可以被过滤以拦截错误传播;(2)位置提示生成器:为了进一步减少干扰物的影响,我们建议生成位置掩码提示,为目标提供明确的位置线索,从而实现更准确的跟踪。在六个基准上进行了广泛的实验,显示了SAMITE的优越性。代码可在此https URL获取。 |
[50] MAGE:通过连接视觉和语义空间实现多模态对齐和生成增强 标题: MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic Spaces 作者: Shaojun E / Yuchen Yang / Jiaheng Wu / Yan Zhang / Tiejun Zhao / Ziyan Chen 原文: [英文] 备注: 9 pages 摘要: 在多模态学习的最新进展中,有效解决视觉数据编码后的空间和语义损失仍然是一个关键挑战。这是因为大型多模态模型的性能与视觉编码器和大型语言模型之间的耦合正相关。现有方法通常面临向量差距或语义差异等问题,导致在传播过程中信息丢失。为了解决这些问题,我们提出了MAGE(多模态对齐和生成增强),这是一种通过创新的对齐机制连接视觉和文本语义空间的新框架。通过引入智能对齐网络(IAN),MAGE实现了维度和语义对齐。为了减少同义异构数据之间的差距,我们采用了一种结合交叉熵和均方误差的训练策略,显著增强了对齐效果。此外,为了增强MAGE的“任意对任意”能力,我们开发了一个用于多模态工具调用指令的微调数据集,以扩展模型的输出能力边界。最后,我们提出的多模态大模型架构MAGE在包括MME、MMBench和SEED在内的各种评估基准上,与类似工作相比取得了显著更好的性能。完整代码和附录可在此URL获取。 |
[51] 对抗性重建反馈用于稳健的细粒度泛化 标题: Adversarial Reconstruction Feedback for Robust Fine-grained Generalization 作者: Shijie Wang / Jian Shi / Haojie Li 原文: [英文] 备注: ICCV 2025 摘要: 现有的细粒度图像检索(FGIR)方法主要依赖于预定义类别的监督,以学习用于检索细粒度对象的判别性表示。然而,它们无意中将类别特定的语义引入到检索表示中,导致对预定义类别的语义依赖,这严重阻碍了对未见类别的泛化。为了解决这个问题,我们提出了AdvRF,一种新颖的对抗重建反馈框架,旨在学习与类别无关的差异表示。具体来说,AdvRF通过将检索模型的类别感知差异定位与重建模型的类别无关特征学习相结合,将FGIR重新表述为视觉差异重建任务。重建模型揭示了检索模型忽略的残余差异,迫使其提高定位精度,而来自检索模型的精炼信号则指导重建模型提高其重建能力。因此,检索模型定位视觉差异,而重建模型将这些差异编码为与类别无关的表示。然后,这种表示通过知识蒸馏转移到检索模型中,以实现高效部署。定量和定性评估表明,我们的AdvRF在广泛使用的细粒度和粗粒度数据集上都取得了令人印象深刻的性能。 |
[52] 通过可验证奖励进行卫星图像的少样本视觉语言推理 标题: Few-Shot Vision-Language Reasoning for Satellite Imagery via Verifiable Rewards 作者: Aybora Koksal / A. Aydin Alatan 原文: [英文] [中文] 备注: ICCV 2025 Workshop on Curated Data for Efficient Learning (CDEL). 10 pages, 3 figures, 6 tables. Our model, training code and dataset will be at this https URL 摘要: 最近在大型语言和视觉-语言模型方面的进展使得强大的推理能力成为可能,但在遥感等专业领域仍然不实用,因为这些领域的标注数据稀缺且昂贵。我们提出了第一个用于卫星图像的可验证奖励的少样本强化学习(RLVR)框架,该框架消除了对字幕监督的需求——仅依赖轻量级的、基于规则的二进制或基于IoU的奖励。我们将语言模型中的“1-shot RLVR”范式适应于视觉-语言模型,采用策略梯度优化,仅需一个精心挑选的示例即可对齐模型输出以进行卫星推理任务。在多个遥感基准测试中进行的全面实验——包括分类、视觉问答和定位——表明即使是一个示例也能显著改善基础模型。扩展到128个示例时,其效果与使用数千个标注样本训练的模型相当或更好。虽然极端的一次性设置可能会导致轻微的、特定任务的过拟合,但我们的方法始终在各种任务中表现出稳健的泛化和效率。此外,我们发现提示设计和损失权重显著影响训练的稳定性和最终准确性。我们的方法使得领域专家视觉-语言推理模型的成本效益和数据效率开发成为可能,为数据稀缺领域提供了实用的方案:从一个紧凑的VLM开始,精心挑选少量可验证奖励的案例,并通过RLVR进行训练。 |
[53] LiteFat:用于实时驾驶员疲劳检测的轻量级时空图学习 标题: LiteFat: Lightweight Spatio-Temporal Graph Learning for Real-Time Driver Fatigue Detection 作者: Jing Ren / Suyu Ma / Hong Jia / Xiwei Xu / Ivan Lee / Haytham Fayek / Xiaodong Li / Feng Xia 原文: [英文] [中文] 备注: 6 pages, 1 figure 摘要: 检测驾驶员疲劳对于道路安全至关重要,因为困倦驾驶仍然是交通事故的主要原因。许多现有解决方案依赖于计算要求高的深度学习模型,这导致高延迟,并且不适合资源有限的嵌入式机器人设备(如智能车辆/汽车),在这些设备中需要快速检测以防止事故。本文介绍了LiteFat,这是一种轻量级的时空图学习模型,旨在在保持高精度和低计算需求的同时高效检测驾驶员疲劳。LiteFat通过面部标志检测将流视频数据转换为时空图(STG),该方法专注于关键运动模式并减少不必要的数据处理。LiteFat使用MobileNet提取面部特征并为STG创建特征矩阵。然后,采用轻量级时空图神经网络以最小的处理和低延迟识别疲劳迹象。在基准数据集上的实验结果表明,LiteFat在显著降低计算复杂性和延迟的同时,表现出与当前最先进方法相当的竞争力。这项工作使得能够开发实时、资源高效的人类疲劳检测系统,这些系统可以在嵌入式机器人设备上实现。 |
[54] MOR-VIT:具有递归混合的高效视觉Transformer 标题: MOR-VIT: Efficient Vision Transformer with Mixture-of-Recursions 作者: YiZhou Li 原文: [英文] [中文] 备注: 18 pages,9 figuers 摘要: 视觉Transformer(ViTs)在图像识别方面取得了显著的成功,但标准的ViT架构由于参数冗余和高计算成本而受到限制,影响了其实用部署。尽管最近在高效ViT方面的努力主要集中在静态模型压缩或token级稀疏化上,但它们仍然受限于对所有token固定的计算深度。在这项工作中,我们提出了MoR-ViT,这是一种新颖的视觉Transformer框架,首次结合了受混合递归(MoR)范式启发的token级动态递归机制。该方法使每个token能够自适应地确定其处理深度,从而实现灵活且依赖于输入的计算资源分配。在ImageNet-1K和迁移基准上的大量实验表明,MoR-ViT不仅在参数减少高达70%和推理加速2.5倍的情况下实现了最先进的准确性,还在可比条件下优于领先的高效ViT基线,如DynamicViT和TinyViT。这些结果确立了动态递归作为高效视觉Transformer的一种有效策略,并为在现实场景中可扩展和可部署的深度学习模型开辟了新途径。 |
[55] AU-LLM:通过增强的基于LLM的特征融合进行微表情动作单元检测 标题: AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion 作者: Zhishu Liu / Kaishen Yuan / Bo Zhao / Yong Xu / Zitong Yu 原文: [英文] [中文] 备注: None 摘要: 微表情动作单元(AUs)的检测是情感计算中的一项艰巨挑战,对于解码细微、不自主的人类情感至关重要。尽管大型语言模型(LLMs)展现了深刻的推理能力,但其在微表情AU检测这一细粒度、低强度领域的应用尚未被探索。本文首次在这一方向上开创性地引入了\textbf{AU-LLM},这是一个新颖的框架,首次使用LLM在微表情数据集中检测具有细微强度和数据稀缺性的AUs。我们特别解决了关键的视觉-语言语义差距,即\textbf{增强融合投影器(EFP)}。EFP使用多层感知机(MLP)智能地将来自专用3D-CNN骨干网的中层(局部纹理)和高层(全局语义)视觉特征融合为一个信息密集的单一标记。这种紧凑的表示有效地赋予LLM对细微面部肌肉进行细致推理的能力。通过在基准CASME II和SAMM数据集上的广泛评估,包括严格的留一主体外(LOSO)和跨域协议,AU-LLM建立了新的技术水平,验证了基于LLM推理在微表情分析中的显著潜力和稳健性。代码可在此https URL获取。 |
[56] MSGCoOp:用于小样本学习的多语义引导上下文优化 标题: MSGCoOp: Multiple Semantic-Guided Context Optimization for Few-Shot Learning 作者: Zhaolong Wang / Tongfeng Sun / Mingzheng Du / Yachao Huang 原文: [英文] [中文] 备注: None 摘要: 视觉-语言预训练模型(VLMs),如CLIP,已经展示了显著的零样本泛化能力,而提示学习已成为全面微调的高效替代方案。然而,现有方法通常在泛化到新类别时表现不佳,这一现象归因于对已见类别的过拟合和对通用知识的遗忘。此外,最近一些提高泛化能力的方法往往引入复杂的架构或较大的计算开销。在本文中,我们提出了一种多语义引导的上下文优化(MSGCoOp)框架,以在保持计算效率的同时增强小样本泛化能力。我们的方法利用一组并行的可学习上下文向量来捕捉多样的语义方面。为了丰富这些提示,我们引入了一种语义引导机制,将其与由大型语言模型(LLM)自动生成的全面类别描述对齐。此外,多样性正则化损失鼓励提示学习互补和正交的特征,防止其陷入冗余表示。对11个基准数据集的广泛实验表明,MSGCoOp在基础到新类别的泛化上显著提高了性能,相较于强大的KgCoOp基线实现了平均调和平均值提高1.10%。我们的方法在跨域泛化任务中也展示了增强的鲁棒性。我们的代码可在以下网址获取:\href{this https URL}{this https URL}。 |
[57] 基于分布的掩码医学视觉语言模型使用结构化报告 标题: Distribution-Based Masked Medical Vision-Language Model Using Structured Reports 作者: Shreyank N Gowda / Ruichi Zhang / Xiao Gu / Ying Weng / Lu Yang 原文: [英文] [中文] 备注: Accepted in MICCAI-W 2025 摘要: 医学图像-语言预训练旨在将医学图像与临床相关文本对齐,以提高模型在各种下游任务中的表现。然而,现有模型通常难以应对医学数据中固有的多样性和模糊性,限制了其捕捉细微临床信息和不确定性的能力。本文介绍了一种不确定性感知的医学图像-文本预训练模型,增强了医学图像分析中的泛化能力。基于先前的方法并专注于胸部X光片,我们的方法利用由大型语言模型(LLM)生成的结构化文本报告,以临床相关的背景增强图像数据。这些报告以疾病定义开始,接着是“外观”部分以突出关键兴趣区域,最后是“观察”和“结论”,将模型预测锚定在临床语义中。通过对模态间和模态内不确定性进行建模,我们的框架捕捉了医学图像和文本中固有的模糊性,从而在下游任务中获得更好的表示和性能。我们的模型在医学图像-文本预训练中展示了显著的进步,在多个下游任务中取得了最先进的性能。 |
[58] 浑元世界 1.0:从文字或像素生成沉浸式、可探索和互动的3D世界 标题: HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels 作者: HunyuanWorld Team / Zhenwei Wang / Yuhao Liu / Junta Wu / Zixiao Gu / Haoyuan Wang / Xuhui Zuo / Tianyu Huang / Wenhuan Li / Sheng Zhang / Yihang Lian / Yulin Tsai / Lifu Wang / Sicong Liu / Puhua Jiang / Xianghui Yang / Dongyuan Guo / Yixuan Tang / Xinyue Mao / Jiaao Yu / Junlin Yu / Jihong Zhang / Meng Chen / Liang Dong / Yiwen Jia / Chao Zhang / Yonghao Tan / Hao Zhang / Zheng Ye / Peng He / Runzhou Wu / Minghui Chen / Zhan Li / Wangchen Qin / Lei Wang / Yifu Sun / Lin Niu / Xiang Yuan / Xiaofeng Yang / Yingping He / Jie Xiao / Yangyu Tao / Jianchen Zhu / Jinbao Xue / Kai Liu / Chongqing Zhao / Xinming Wu / Tian Liu / Peng Chen / Di Wang / Yuhong Liu / Linus / Jie Jiang / Tengfei Wang / Chunchao Guo 原文: [英文] [中文] 备注: Technical Report; Project Page: this https URL 摘要: 从文本或图像创建沉浸式和可玩性的3D世界仍然是计算机视觉和图形学中的一个基本挑战。现有的世界生成方法通常分为两类:基于视频的方法提供丰富的多样性,但缺乏3D一致性和渲染效率;基于3D的方法提供几何一致性,但在有限的训练数据和内存效率低下的表示方面存在困难。为了解决这些限制,我们提出了HunyuanWorld 1.0,这是一种新颖的框架,结合了两者的优点,从文本和图像条件生成沉浸式、可探索和交互的3D场景。我们的方法具有三个关键优势:1)通过全景世界代理实现360°沉浸式体验;2)网格导出功能,与现有计算机图形管道无缝兼容;3)解耦的对象表示以增强交互性。我们框架的核心是一个语义分层的3D网格表示,它利用全景图像作为360°世界代理进行语义感知的世界分解和重建,从而能够生成多样化的3D世界。大量实验表明,我们的方法在生成连贯、可探索和交互的3D世界方面达到了最先进的性能,同时在虚拟现实、物理模拟、游戏开发和交互内容创建中实现了多种应用。 |
[59] 任何人都能越狱:基于提示的对大型语言模型和文本到图像模型的攻击 标题: Anyone Can Jailbreak: Prompt-Based Attacks on LLMs and T2Is 作者: Ahmed B Mustafa / Zihan Ye / Yang Lu / Michael P Pound / Shreyank N Gowda 原文: [英文] 备注: None 摘要: 尽管在对齐和内容审核方面取得了显著进展,大型语言模型(LLMs)和文本到图像(T2I)系统仍然容易受到基于提示的攻击,即所谓的越狱攻击。与传统的需要专业知识的对抗性示例不同,如今的许多越狱攻击是由普通用户通过巧妙措辞的提示低成本、高影响地制作的。本文从系统的角度调查了非专业人士如何通过多轮叙述升级、词汇伪装、隐含链、虚构角色扮演和微妙语义编辑等技术可靠地绕过安全机制。我们提出了一种统一的提示级越狱策略分类法,涵盖文本输出和T2I模型,并基于流行API的实证案例研究。我们的分析揭示了从输入过滤到输出验证的每个审核管道阶段都可以通过易于获取的策略绕过。我们最后强调了迫切需要上下文感知的防御措施,以反映这些越狱在现实环境中被复制的容易程度。 |
[60] 通过冗余抑制简化跨架构蒸馏 标题: Cross-Architecture Distillation Made Simple with Redundancy Suppression 作者: Weijia Zhang / Yuehao Liu / Wu Ran / Chao Ma 原文: [英文] [中文] 备注: Accepted by ICCV 2025 (Highlight) 摘要: 我们描述了一种用于跨架构知识蒸馏的简单方法,其中知识转移被转化为冗余信息抑制的形式。现有方法引入了复杂的模块、针对特定架构的设计和过多的参数,这些都削弱了它们的效率和适用性。我们提出通过减少冗余的架构专属信息来提取异构表示中的架构无关知识。为此,我们提出了一种简单的冗余抑制蒸馏(RSD)损失,其中包括跨架构不变性最大化和特征去相关目标。为了防止学生模型完全失去其架构特定的能力,我们进一步设计了一个轻量级模块,将RSD目标与学生模型的内部表示解耦。我们的方法没有OFA开创性方法中的架构特定设计和复杂操作。在CIFAR-100和ImageNet-1k基准测试中,我们的方法以仅一小部分参数开销超越了OFA,这突显了其作为跨架构蒸馏领域一个简单而强大的基准的潜力。 |
[61] 释放运动和深度的力量:一种用于RGB-D视频显著性目标检测的选择性融合策略 标题: Unleashing the Power of Motion and Depth: A Selective Fusion Strategy for RGB-D Video Salient Object Detection 作者: Jiahao He / Daerji Suolang / Keren Fu / Qijun Zhao 原文: [英文] [中文] 备注: submitted to TMM on 11-Jun-2024, ID: MM-020522, still in peer review 摘要: 将显著性目标检测(SOD)应用于RGB-D视频是一项新兴任务,称为RGB-D VSOD。由于结合运动和深度带来的显著性能提升,以及RGB-D视频在日常生活中易于捕捉,这一任务最近引起了越来越多的关注。现有的RGB-D VSOD模型在获取运动线索方面有不同的尝试,其中从光流中显式提取运动信息似乎是一个更有效和有前途的选择。尽管如此,仍然存在一个关键问题,即如何有效利用光流和深度来辅助RGB模态进行SOD。以往的方法总是将光流和深度在模型设计中视为同等重要,而没有明确考虑它们在不同场景中的不平等贡献,这限制了运动和深度的潜力。为了解决这个问题并释放运动和深度的潜力,我们提出了一种新颖的选择性交叉模态融合框架(SMFNet)用于RGB-D VSOD,结合了一种像素级选择性融合策略(PSF),根据光流和深度的实际贡献实现最佳融合。此外,我们提出了一种多维选择性注意模块(MSAM),在多个维度上将PSF衍生的融合特征与剩余的RGB模态进行整合,有效增强特征表示以生成精细特征。我们对SMFNet在RDVS和DVisal数据集上的19个最新模型进行了全面评估,使评估成为迄今为止最全面的RGB-D VSOD基准,并且也展示了SMFNet相对于其他模型的优越性。同时,在五个结合合成深度的视频基准数据集上的评估也验证了SMFNet的有效性。我们的代码和基准结果已在此https URL上公开。 |
[62] 低成本测试时适应用于稳健的视频编辑 标题: Low-Cost Test-Time Adaptation for Robust Video Editing 作者: Jianhui Wang / Yinda Chen / Yangfan He / Xinyuan Song / Yi Xin / Dapeng Zhang / Zhongwei Wan / Bin Li / Rongchao Zhang 原文: [英文] [中文] 备注: None 摘要: 视频编辑是内容创作的关键组成部分,它将原始素材转化为符合特定视觉和叙事目标的连贯作品。现有方法面临两个主要挑战:由于未能捕捉复杂的运动模式而导致的时间不一致性,以及由于UNet骨干架构的局限性而导致的对简单提示的过拟合。虽然基于学习的方法可以提高编辑质量,但它们通常需要大量的计算资源,并受到高质量标注数据稀缺的限制。在本文中,我们提出了Vid-TTA,这是一种轻量级的测试时自适应框架,通过自监督辅助任务在推理过程中为每个测试视频个性化优化。我们的方法结合了一种运动感知的帧重建机制,该机制识别并保留关键的运动区域,以及一种提示扰动和重建策略,以增强模型对多样化文本描述的鲁棒性。这些创新由一种元学习驱动的动态损失平衡机制协调,该机制根据视频特征自适应地调整优化过程。大量实验表明,Vid-TTA显著提高了视频的时间一致性,减轻了提示过拟合,同时保持了较低的计算开销,为现有视频编辑模型提供了即插即用的性能提升。 |
[63] CAPE:用于具身指代理解的补充热图线索的CLIP感知指向集成 标题: CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding 作者: Fevziye Irem Eyiokur / Dogucan Yaman / Hazım Kemal Ekenel / Alexander Waibel 原文: [英文] [中文] 备注: None 摘要: 我们研究了具身指代理解问题,该问题涉及通过指向手势和语言预测场景中某人所指的对象。准确识别指代物需要多模态理解:整合文本指令、视觉指向和场景上下文。然而,现有方法往往难以有效利用视觉线索进行消歧。我们还观察到,虽然指代物通常与头到指尖的连线对齐,但有时更接近于手腕到指尖的连线。因此,依赖单一连线假设可能过于简单,可能导致次优表现。为了解决这个问题,我们提出了一个双模型框架,其中一个模型从头到指尖方向学习,另一个从手腕到指尖方向学习。我们进一步引入了这些连线的高斯射线热图表示,并将其用作输入,以提供强有力的监督信号,鼓励模型更好地关注指向线索。为了结合两个模型的优势,我们提出了CLIP感知指向集成模块,该模块基于CLIP特征执行混合集成。此外,我们提出了一个对象中心预测头作为辅助任务,以进一步增强指代物定位。我们通过在基准数据集YouRefIt上的广泛实验和分析验证了我们的方法,在0.25 IoU阈值下实现了大约4 mAP的提升。 |
[64] 以太编织者:使用动态场景图的多模态情感叙事共创 标题: Aether Weaver: Multimodal Affective Narrative Co-Generation with Dynamic Scene Graphs 作者: Saeed Ghorbani 原文: [英文] [中文] 备注: None 摘要: 我们介绍了Aether Weaver,这是一种新颖的、集成的多模态叙事共生成框架,克服了顺序文本到视觉管道的局限性。我们的系统同时合成文本叙事、动态场景图表示、视觉场景和情感音景,由一个紧密集成的共生成机制驱动。其核心是叙述者,一个大型语言模型,生成叙事文本和多模态提示,而导演则充当动态场景图管理器,分析文本以构建和维护故事世界的结构化表示,确保视觉渲染和后续叙事生成的时空和关系一致性。此外,叙事弧控制器指导高层次的故事结构,影响多模态情感一致性,并由情感音调映射器补充,确保所有模态中情感表达的一致性。通过对涵盖各种体裁的多样化叙事提示进行的定性评估,我们证明Aether Weaver在叙事深度、视觉逼真度和情感共鸣方面显著优于级联基线方法。这个集成框架为快速创意原型设计和沉浸式叙事体验提供了一个强大的平台。 |
[65] 在真实环境中评估深度伪造检测器 标题: Evaluating Deepfake Detectors in the Wild 作者: Viacheslav Pirogov / Maksim Artemev 原文: [英文] [中文] 备注: Accepted to the ICML 2025 Workshop 'DataWorld: Unifying Data Curation Frameworks Across Domains' 摘要: 由先进机器学习模型驱动的深度伪造技术对身份验证和数字媒体的真实性构成了重大且不断演变的威胁。尽管已经开发了许多检测器来解决这个问题,但它们在应用于真实世界数据时的有效性尚未得到验证。在这项工作中,我们评估了现代深度伪造检测器,并引入了一种新的测试程序,旨在模拟真实世界场景中的深度伪造检测。我们使用最先进的深度伪造生成方法创建了一个包含超过50万张高质量深度伪造图像的综合数据集。我们的分析表明,检测深度伪造仍然是一个具有挑战性的任务。评估结果显示,测试的深度伪造检测器中不到一半的AUC得分超过60%,最低为50%。我们证明了基本的图像操作,如JPEG压缩或图像增强,可以显著降低模型性能。所有代码和数据均可在此https URL公开获取。 |
[66] 从皮肤组织学图像预测患者自述种族 标题: Predict Patient Self-reported Race from Skin Histological Images 作者: Shengjia Chen / Ruchika Verma / Kevin Clare / Jannes Jegminat / Kuan-lin Huang / Brandon Veremis / Thomas Fuchs / Gabriele Campanella 原文: [英文] [中文] 备注: Accepted to the MICCAI Workshop on Fairness of AI in Medical Imaging (FAIMI), 2025 摘要: 人工智能(AI)在计算病理学(CPath)领域的疾病检测、生物标志物分类和预后预测方面已显示出成功。然而,其学习非预期人口统计偏差的潜力,特别是与健康的社会决定因素相关的偏差,仍然研究不足。本研究探讨了深度学习模型是否可以从数字化皮肤病理切片中预测自我报告的种族,并识别潜在的形态学捷径。我们使用一个具有种族多样性人群的多站点数据集,应用基于注意力的机制来揭示与种族相关的形态特征。在评估了三种数据集整理策略以控制混杂因素后,最终实验显示白人和黑人群体保持了较高的预测性能(AUC:0.799,0.762),而整体性能下降至0.663。注意力分析显示表皮是一个关键的预测特征,当这些区域被移除时,性能显著下降。这些发现强调了仔细的数据整理和偏差缓解的必要性,以确保在病理学中公平地部署AI。代码可在此URL获取:this https URL。 |
[67] ArtSeek:通过多模态上下文推理和后期交互检索实现深度艺术作品理解 标题: ArtSeek: Deep artwork understanding via multimodal in-context reasoning and late interaction retrieval 作者: Nicola Fanelli / Gennaro Vessio / Giovanna Castellano 原文: [英文] [中文] 备注: None 摘要: 分析数字化艺术作品带来了独特的挑战,不仅需要视觉上的解读,还需要对丰富的艺术、背景和历史知识有深入的理解。我们介绍了ArtSeek,这是一种用于艺术分析的多模态框架,它结合了多模态大型语言模型和检索增强生成。与之前的工作不同,我们的流程仅依赖于图像输入,使其能够应用于大多数数字化收藏中没有链接到Wikidata或Wikipedia的艺术作品。ArtSeek整合了三个关键组件:基于后期交互检索的智能多模态检索模块、用于预测艺术家、流派、风格、媒介和标签的对比多任务分类网络,以及通过上下文示例启用的代理推理策略,用于复杂的视觉问答和通过Qwen2.5-VL进行艺术作品解释。这一方法的核心是WikiFragments,一个支持知识驱动的多模态推理的维基百科规模的图文片段数据集。我们的框架在多个基准测试中达到了最先进的结果,包括在风格分类上比GraphCLIP提高了8.4%的F1分数,以及在ArtPedia的描述生成中提高了7.1的BLEU@1分数。定性分析表明,ArtSeek能够解释视觉主题,推断历史背景,并检索相关知识,即使是对于晦涩的作品。尽管专注于视觉艺术,我们的方法可以推广到其他需要外部知识的领域,支持可扩展的多模态AI研究。数据集和源代码将会在此https URL上公开提供。 |
[68] SwinECAT:一种基于Transformer的眼底疾病分类模型,具有移位窗口注意力和高效通道注意力 标题: SwinECAT: A Transformer-based fundus disease classification model with Shifted Window Attention and Efficient Channel Attention 作者: Peiran Gu / Teng Yao / Mengshen He / Fuhao Duan / Feiyan Liu / RenYuan Peng / Bao Ge 原文: [英文] [中文] 备注: 17 pages 摘要: 近年来,人工智能在医学影像领域的应用日益增多。在这些应用中,眼底图像分析面临特殊挑战,包括某些眼底疾病中的小病变区域和疾病间的细微差异,这可能导致模型的预测准确性降低和过拟合。为了解决这些挑战,本文提出了基于Transformer的模型SwinECAT,该模型结合了移窗(Swin)注意力和高效通道注意力(ECA)机制。SwinECAT利用Swin Transformer骨干中的Swin注意力机制,有效捕捉眼底图像中的局部空间结构和长距离依赖关系。轻量级的ECA机制被引入,以引导SwinECAT的注意力集中在关键特征通道上,从而实现更具辨别力的特征表示。与以往通常将眼底图像分类为4到6类的研究相比,本研究将眼底疾病分类扩展到9种不同类型,从而提高了诊断的细粒度。我们在包含16,140张眼底图像的眼病图像数据集(EDID)上评估了我们的方法,用于9类分类。实验结果表明,SwinECAT实现了88.29%的准确率,权重F1分数为0.88,宏F1分数为0.90。我们提出的模型SwinECAT的分类结果显著优于基线Swin Transformer和多个对比基线模型。据我们所知,这代表了在该公共数据集上9类分类的最高报告性能。 |
[69] MMAT-1M:用于多模态智能体调优的大型推理数据集 标题: MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning 作者: Tianhong Gao / Yannian Fu / Weiqun Wu / Haixiao Yue / Shanshan Liu / Gang Zhang 原文: [英文] [中文] 备注: None 摘要: 大型语言模型(LLMs)通过代理调优增强后,在链式思维(CoT)和工具使用方面展示了显著的能力,远远超过了独立模型的性能。然而,多模态领域仍然缺乏一个大规模、高质量的代理调优数据集,以释放多模态大型语言模型的全部潜力。为弥补这一差距,我们引入了MMAT-1M,这是第一个百万规模的多模态代理调优数据集,旨在支持链式思维、反思和动态工具使用。我们的数据集通过一个新颖的四阶段数据引擎构建:1)我们首先整理公开可用的包含问答对的多模态数据集;2)然后,利用GPT-4o,我们为原始问答对生成推理,并通过多轮对话范式动态整合API调用和检索增强生成(RAG)信息;3)此外,我们通过反思来完善推理,以确保逻辑一致性和准确性,创建一个包含推理和反思(RR)的多轮对话数据集;4)最后,为了提高效率,我们可选择性地将多轮对话压缩为单轮推理和反思(ORR)格式。通过在MMAT-1M上微调开源多模态模型,我们观察到显著的性能提升。例如,InternVL2.5-8B-RR模型在八个公共基准上平均提高了2.7%,在RAG基准Dyn-VQA上提高了8.8%,展示了该数据集在增强多模态推理和基于工具的能力方面的有效性。该数据集可通过此URL公开获取。 |
[70] 基于注意力驱动的多模态对齐用于长期动作质量评估 标题: Attention-Driven Multimodal Alignment for Long-term Action Quality Assessment 作者: Xin Wang / Peng-Jie Li / Yuan-Yuan Shen 原文: [英文] [中文] 备注: Accepted to Applied Soft Computing 摘要: 长期动作质量评估(AQA)专注于评估视频中长达数分钟的人类活动质量。该任务在艺术性体育项目的自动化评估中发挥着重要作用,例如艺术体操和花样滑冰,其中准确的动作执行和与背景音乐的时间同步对于表现评估至关重要。然而,现有方法主要分为两类:仅依赖视觉特征的单模态方法,这些方法不足以建模音乐等多模态线索;以及通常采用简单特征级对比融合的多模态方法,忽视了深层跨模态协作和时间动态。因此,它们难以捕捉模态之间的复杂交互,并且无法准确跟踪整个长序列中的关键表现变化。为了解决这些挑战,我们提出了长期多模态注意力一致性网络(LMAC-Net)。LMAC-Net引入了一种多模态注意力一致性机制,以显式对齐多模态特征,实现视觉和音频信息的稳定整合并增强特征表示。具体来说,我们引入了一个多模态局部查询编码器模块来捕捉时间语义和跨模态关系,并使用两级评分评估以获得可解释的结果。此外,应用基于注意力和回归的损失来联合优化多模态对齐和评分融合。在RG和Fis-V数据集上进行的实验表明,LMAC-Net显著优于现有方法,验证了我们提出方法的有效性。 |
[71] 通过混合类提示增强无数据量化中的泛化能力 标题: Enhancing Generalization in Data-free Quantization via Mixup-class Prompting 作者: Jiwoong Park / Chaeun Lee / Yongseok Choi / Sein Park / Deokki Hong / Jungwook Choi 原文: [英文] [中文] 备注: None 摘要: 后训练量化(PTQ)提高了效率,但在校准数据有限的情况下,尤其是在隐私限制下,表现不佳。无数据量化(DFQ)通过使用生成模型(如生成对抗网络(GANs)和文本条件潜在扩散模型(LDMs))生成合成图像,同时应用现有的PTQ算法来缓解这一问题。然而,在PTQ过程中,生成的合成图像与量化模型的泛化能力之间的关系仍未得到充分探索。如果不研究这种关系,先前基于单类提示的提示工程方法生成的合成图像会因多义性等问题导致性能下降。我们提出了一种\textbf{混合类提示},这是一种基于混合的文本提示策略,在文本提示层面融合多个类别标签,以生成多样化且稳健的合成数据。该方法增强了泛化能力,并提高了PTQ中的优化稳定性。我们通过梯度范数和泛化误差分析提供了定量见解。在卷积神经网络(CNNs)和视觉变换器(ViTs)上的实验表明,我们的方法始终优于最新的DFQ方法,如GenQ。此外,它在极低比特场景中推动了性能边界,在具有挑战性的2比特权重、4比特激活(W2A4)量化中实现了新的最先进的准确性。 |
[72] 对比先验增强的无掩码阴影去除双重性 标题: Contrast-Prior Enhanced Duality for Mask-Free Shadow Removal 作者: Jiyu Wu / Yifan Liu / Jiancheng Huang / Mingfu Yan / Shifeng Chen 原文: [英文] [中文] 备注: None 摘要: 现有的去除阴影方法通常依赖于阴影掩码,而在现实场景中获取这些掩码具有挑战性。探索内在图像线索,例如局部对比度信息,提供了一种在没有显式掩码的情况下指导去除阴影的潜在替代方案。然而,这种线索的固有模糊性在复杂场景中成为一个关键限制,因为它可能无法区分真实阴影与低反射率物体和复杂背景纹理。为了解决这一问题,我们提出了自适应门控双分支注意力(AGBA)机制。AGBA动态过滤和重新加权对比度先验,以有效地将阴影特征与混杂的视觉元素分离。此外,为了解决恢复柔和阴影边界和细粒度细节的持续挑战,我们引入了一种基于扩散的频率-对比度融合网络(FCFN),利用高频和对比度线索来指导生成过程。大量实验表明,我们的方法在无掩码方法中达到了最先进的结果,同时在与基于掩码的方法相比时保持了竞争力。 |
[73] 通过跨架构一致性正则化缓解弱监督语义分割中的虚假相关性 标题: Mitigating Spurious Correlations in Weakly Supervised Semantic Segmentation via Cross-architecture Consistency Regularization 作者: Zheyuan Zhang / Yen-chia Hsu 原文: [英文] 备注: None 摘要: 像素级标签的稀缺性在实际场景中是一个显著的挑战。在某些特定领域,如工业烟雾,获取如此详细的标注尤其困难,通常需要专业知识。为了解决这个问题,弱监督语义分割(WSSS)成为了一种有前景的方法。然而,由于仅使用图像级标签进行训练的模型存在监督差距和固有偏差,现有的WSSS方法存在诸如前景覆盖不完整、物体边界不准确以及虚假关联等局限性,特别是在我们的领域中,排放物总是与烟囱空间耦合。 以往的解决方案通常依赖于额外的先验或外部知识来缓解这些问题,但它们往往缺乏可扩展性,并且未能解决模型对共现上下文的固有偏差。为此,我们提出了一种新颖的WSSS框架,直接针对共现问题,而不依赖外部监督。与采用单一网络的先前方法不同,我们采用了结合CNN和ViT的教师-学生框架。我们引入了一种知识转移损失,通过对齐内部表示来强制跨架构一致性。此外,我们还结合后处理技术来解决部分覆盖问题,并进一步提高伪掩码的质量。 |
[74] PanoSplatt3R:利用透视预训练进行广义无姿态宽基线全景重建 标题: PanoSplatt3R: Leveraging Perspective Pretraining for Generalized Unposed Wide-Baseline Panorama Reconstruction 作者: Jiahui Ren / Mochu Xiang / Jiajun Zhu / Yuchao Dai 原文: [英文] 备注: Accepted to ICCV 2025 摘要: 宽基线全景重建已成为一种非常有效且关键的方法,不仅可以实现周围三维环境的几何重建,还可以生成高度逼真和沉浸式的新视图。尽管现有方法在各种基准测试中表现出色,但它们主要依赖于准确的位姿信息。在现实场景中,获取精确的位姿通常需要额外的计算资源,并且对噪声非常敏感。这些限制阻碍了此类方法的广泛适用性和实用性。在本文中,我们提出了PanoSplatt3R,一种无需位姿的宽基线全景重建方法。我们从透视域扩展和调整基础重建预训练到全景域,从而实现强大的泛化能力。为了确保无缝且高效的域转移过程,我们引入了RoPE滚动,该方法在不同的注意力头中跨旋转位置嵌入的滚动坐标,保持对RoPE机制的最小修改,同时建模全景图像的水平周期性。综合实验表明,即使在没有位姿信息的情况下,PanoSplatt3R也显著优于当前的最先进方法。这种优越性在生成高质量的新视图和深度估计的准确性方面都很明显,从而展示了其在实际应用中的巨大潜力。项目页面:this https URL |
[75] 使用合成数据的深度学习流程以改进纸质心电图图像的解读 标题: A Deep Learning Pipeline Using Synthetic Data to Improve Interpretation of Paper ECG Images 作者: Xiaoyu Wang / Ramesh Nadarajah / Zhiqiang Zhang / David Wong 原文: [英文] [中文] 备注: None 摘要: 心血管疾病(CVDs)是全球死亡的主要原因,早期检测对于改善患者预后至关重要。心电图(ECGs),尤其是12导联心电图,在识别心血管疾病中起着关键作用。这些通常由人类专家进行解释,这一过程既耗时又需要专业知识。该领域的历史研究主要集中在从数字信号中自动解释心电图,最近的深度学习方法取得了显著成果。然而,在实际中,大多数临床实践中的心电图数据以图像形式存储或共享。为弥合这一差距,我们提出了一个专门设计用于将纸质心电图图像分类为五个主要诊断类别的深度学习框架。我们的方法是2024年英国心脏基金会开放数据科学挑战赛的获胜作品。它解决了纸质心电图分类的两个主要挑战:视觉噪声(例如阴影或折痕)和检测细节波形模式的需求。我们提出了一个减少视觉噪声的预处理流程和一个两阶段的微调策略:模型首先在合成和外部心电图图像数据集上进行微调,以学习领域特定特征,然后在目标数据集上进一步微调以增强疾病特定识别。我们采用ConvNeXt架构作为我们模型的骨干。我们的方法在英国心脏基金会开放数据科学挑战赛的公共验证集上取得了0.9688的AUROC分数,在私人测试集上取得了0.9677的AUROC分数,突显了其作为临床工作流程中自动心电图解释的实用工具的潜力。 |
[76] EIFNet:利用事件-图像融合实现稳健的语义分割 标题: EIFNet: Leveraging Event-Image Fusion for Robust Semantic Segmentation 作者: Zhijiang Li / Haoran He 原文: [英文] [中文] 备注: None 摘要: 基于事件的语义分割探索了事件相机的潜力,这种相机提供高动态范围和精细的时间分辨率,以在具有挑战性的环境中实现稳健的场景理解。尽管具有这些优势,该任务仍然困难,主要由于两个挑战:从稀疏且噪声较大的事件流中提取可靠特征,以及有效地将其与结构和表示不同的密集、语义丰富的图像数据融合。为了解决这些问题,我们提出了EIFNet,一种多模态融合网络,结合了事件和帧输入的优势。该网络包括一个自适应事件特征优化模块(AEFRM),通过多尺度活动建模和空间注意力来改善事件表示。此外,我们引入了模态自适应重新校准模块(MARM)和多头注意力门控融合模块(MGFM),通过注意力机制和门控融合策略对跨模态特征进行对齐和整合。在DDD17-Semantic和DSEC-Semantic数据集上的实验表明,EIFNet达到了最先进的性能,证明了其在基于事件的语义分割中的有效性。 |
[77] 动作很重要:基于运动引导调制网络的骨架微动作识别 标题: Motion Matters: Motion-guided Modulation Network for Skeleton-based Micro-Action Recognition 作者: Jihao Gu / Kun Li / Fei Wang / Yanyan Wei / Zhiliang Wu / Hehe Fan / Meng Wang 原文: [英文] 备注: None 摘要: 微动作(MAs)是社交互动中一种重要的非语言交流形式,在人类情感分析中具有潜在的应用。然而,现有的微动作识别方法往往忽视了微动作中固有的细微变化,这限制了区分具有细微变化的微动作的准确性。为了解决这个问题,我们提出了一种新颖的运动引导调制网络(MMN),该网络能够隐式捕捉和调制细微的运动线索,以增强时空表示学习。具体来说,我们引入了一个运动引导骨骼调制模块(MSM),在骨骼层面注入运动线索,作为控制信号来指导空间表示建模。同时,我们设计了一个运动引导时间调制模块(MTM),在帧层面整合运动信息,促进微动作整体运动模式的建模。最后,我们提出了一种运动一致性学习策略,以聚合来自多尺度特征的运动线索用于微动作分类。在Micro-Action 52和iMiGUE数据集上的实验结果表明,MMN在基于骨骼的微动作识别中达到了最先进的性能,强调了显式建模细微运动线索的重要性。代码将在此https URL上提供。 |
[78] ZIUM:对未学习模型的零样本意图感知对抗攻击 标题: ZIUM: Zero-Shot Intent-Aware Adversarial Attack on Unlearned Models 作者: Hyun Jun Yook / Ga San Jhun / Jae Hyun Cho / Min Jeon / Donghyun Kim / Tae Hyung Kim / Youn Kyu Lee 原文: [英文] 备注: Accepted to ICCV2025 摘要: 机器遗忘(Machine unlearning,MU)通过从深度学习模型中移除特定数据点或概念来增强隐私并防止生成敏感内容。对抗性提示可以利用被遗忘的模型生成包含已移除概念的内容,从而构成重大安全风险。然而,现有的对抗性攻击方法在生成符合攻击者意图的内容时仍面临挑战,同时在识别成功提示时需要高昂的计算成本。为了解决这些挑战,我们提出了ZIUM,一种针对被遗忘模型的零样本意图感知对抗性攻击方法,它能够灵活定制目标攻击图像以反映攻击者的意图。此外,ZIUM支持零样本对抗性攻击,无需对先前攻击过的被遗忘概念进行进一步优化。在各种MU场景下的评估表明,ZIUM在根据用户意图提示成功定制内容方面表现出色,其攻击成功率优于现有方法。此外,其零样本对抗性攻击显著减少了对先前攻击过的被遗忘概念的攻击时间。 |
[79] 无需重新训练即可对计算机视觉模型进行染色和锁定 标题: Staining and locking computer vision models without retraining 作者: Oliver J. Sutton / Qinghua Zhou / George Leete / Alexander N. Gorban / Ivan Y. Tyukin 原文: [英文] 备注: 10 pages, 9 pages of appendices, 10 figures 摘要: 我们介绍了一种新的方法来对计算机视觉模型进行染色和锁定,以保护其所有者的知识产权。染色,也称为水印,是将秘密行为嵌入到模型中,以便日后可以用来识别它,而锁定则旨在使模型在没有插入秘密触发器到输入图像中时无法使用。与现有方法不同,我们的算法可以用于对预训练模型进行染色和锁定,而无需微调或重新训练,并且提供了可计算的证明,限制了其最坏情况下的误报率。染色和锁定是通过直接修改少量模型权重来实现的,对(未锁定的)模型性能的影响最小。通过在输入图像的角落插入一个小的“触发补丁”可以解锁锁定的模型。我们展示了实验结果,证明了我们方法的有效性,并展示了它们在各种计算机视觉模型上的实际性能。 |
[80] 弥合合成与现实世界领域:一种用于工业有毒排放分割的人在回路中的弱监督框架 标题: Bridging Synthetic and Real-World Domains: A Human-in-the-Loop Weakly-Supervised Framework for Industrial Toxic Emission Segmentation 作者: Yida Tao / Yen-Chia Hsu 原文: [英文] [中文] 备注: None 摘要: 工业烟雾分割对于空气质量监测和环境保护至关重要,但在现实环境中常常因像素级标注的高成本和稀缺性而受到阻碍。我们介绍了CEDANet,这是一种人机交互的、类别感知的领域自适应框架,独特地将公民提供的视频级弱标注与对抗性特征对齐相结合。具体而言,我们利用公民投票来优化由源训练的分割模型生成的伪标签,并采用类别特定的领域判别器将丰富的源领域表示转移到工业领域。在SMOKE5K和定制的IJmond数据集上的综合实验表明,CEDANet在有公民反馈的情况下实现了0.414的F1分数和0.261的烟雾类别IoU,远远超过了基线模型的0.083和0.043。这代表了F1分数的五倍提升和烟雾类别IoU的六倍提升。值得注意的是,使用公民约束的伪标签的CEDANet实现了与在有限的100张完全标注图像上训练的相同架构相当的性能,F1分数为0.418,IoU为0.264,展示了其在没有目标领域标注的情况下达到小样本完全监督级别精度的能力。我们的研究验证了将公民科学与弱监督领域自适应相结合的可扩展性和成本效益,为复杂、数据稀缺的环境监测应用提供了实用的解决方案。 |
[81] 看得不同,想得更好:通过视觉变化缓解大型视觉语言模型中的幻觉 标题: See Different, Think Better: Visual Variations Mitigating Hallucinations in LVLMs 作者: Ziyun Dai / Xiaoqiang Li / Shaohua Zhang / Yuanchen Wu / Jide Li 原文: [英文] 备注: Accepted by ACM MM25 摘要: 大型视觉-语言模型(LVLMs)在视觉理解和多模态推理方面表现出显著的能力。然而,LVLMs经常出现幻觉现象,表现为生成的文本响应与提供的视觉内容不一致。现有的幻觉缓解方法主要以文本为中心,视觉语义对齐的挑战显著限制了其有效性,尤其是在面对细粒度视觉理解场景时。为此,本文提出了ViHallu,一种以视觉为中心的幻觉缓解框架,通过视觉变化图像生成和视觉指令构建来增强视觉语义对齐。ViHallu引入了具有可控视觉变化的\textbf{\textit{视觉变化图像}},同时保持整体图像结构。这些图像与精心构建的视觉指令相结合,使LVLMs能够通过微调更好地理解细粒度视觉内容,从而使模型更精确地捕捉视觉内容与文本之间的对应关系,增强视觉语义对齐。在多个基准上的广泛实验表明,ViHallu有效增强了模型的细粒度视觉理解,同时显著减少了幻觉倾向。此外,我们发布了ViHallu-Instruction,一个专门为幻觉缓解和视觉语义对齐设计的视觉指令数据集。代码可在此https URL获取。 |
[82] VeS:教像素在无监督情况下聆听 标题: VeS: Teaching Pixels to Listen Without Supervision 作者: Sajay Raj 原文: [英文] [中文] 备注: 6 pages, 1 figure, 1 table. Code and models are released 摘要: 最近的密集音频视觉(AV)模型在检索和新兴定位方面取得了令人印象深刻的成果,但几乎所有证据都来自以英语为中心、字幕丰富的网络视频。在典型的发展中地区的低资源、代码转换和嘈杂的多语言环境中,这些目标是否仍然有效尚不清楚。我们证明它们确实有效——并且选择聚合函数变得更加关键。使用跨越数十种印度语言和方言变体的Project Vaani的多语言子集,我们比较了三种对比目标:(i)全局均值池化损失(CLIP风格),(ii)密集最大均值标记匹配器(DenseAV风格),以及(iii)简单混合(受冻结视觉对齐策略启发)。密集目标在全局池化上提供了+59%的相对R@1(音频视觉)改进,并显著降低了平均/中位数排名,同时始终生成清晰的零样本定位热图,尽管视觉主干完全冻结(没有LoRA/部分微调)。我们的结果表明,密集标记路由不是高资源英语语料库的奢侈品;在注释和声学清洁度稀缺时,它更具决定性。我们发布了代码库和训练模型。 |
[83] 基于有意义分割的扰动用于点云数据的可解释人工智能 标题: XAI for Point Cloud Data using Perturbations based on Meaningful Segmentation 作者: Raju Ningappa Mulawade / Christoph Garth / Alexander Wiebel 原文: [英文] [中文] 备注: 18 pages, 14 figures 摘要: 我们提出了一种新颖的基于分割的可解释人工智能(XAI)方法,用于处理点云分类的神经网络。作为该方法的一个构建模块,我们提出了一种新颖的点移动机制,以在点云数据中引入扰动。近年来,人工智能呈现出指数级增长。因此,当人工智能算法应用于关键领域时,理解其决策过程变得尤为重要。我们的工作重点是解释对点云数据进行分类的人工智能算法。用于解释人工智能算法的方法的一个重要方面是其能够生成易于人类理解的解释。这使得人们能够更好地分析人工智能算法,并基于该分析做出适当的决策。因此,在这项工作中,我们旨在生成对人类而言易于解释的有意义的解释。我们考虑的点云数据代表了诸如汽车、吉他和笔记本电脑等三维物体。我们利用点云分割模型来生成分类模型工作的解释。分割用于在输入点云数据中引入扰动并生成显著性图。扰动是通过本文提出的新颖点移动机制引入的,该机制确保移动后的点不再影响分类算法的输出。与以往的方法相比,我们方法中使用的分割是有意义的,即人类可以轻松解释这些分割的含义。因此,我们的方法相较于其他方法的优势在于其能够生成更有意义的显著性图。我们将我们的方法与使用经典聚类算法生成解释的方法进行了比较。我们还分析了使用我们的方法为示例输入生成的显著性图,以展示该方法在生成有意义的解释方面的实用性。 |
[84] 从观察到体验:通过强化学习扩展导航基础模型 标题: From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning 作者: Honglin He / Yukai Ma / Wayne Wu / Bolei Zhou 原文: [英文] [中文] 备注: None 摘要: 训练在大规模网络数据上的导航基础模型使得智能体能够在不同的环境和形态中进行泛化。然而,这些仅在离线数据上训练的模型往往缺乏推理其行为后果或通过反事实理解进行适应的能力。因此,它们在真实世界的城市导航中面临显著的限制,在这种环境中,交互和安全行为(如避开障碍物和移动行人)至关重要。为了解决这些挑战,我们引入了“从观察到体验”框架,以通过强化学习扩展导航基础模型的能力。S2E结合了视频预训练和通过RL的后训练的优势。它在保持从大规模真实世界视频中获得的泛化能力的同时,通过在模拟环境中的RL增强其交互性。具体来说,我们引入了两个创新:锚点引导的分布匹配策略,该策略通过基于锚点的监督稳定学习并建模多样的运动模式;以及残差注意模块,该模块从模拟环境中获取反应行为而不抹去模型的预训练知识。此外,我们建立了一个综合的端到端评估基准,NavBench-GS,该基准基于真实世界场景的照片级真实3DGS重建,包含物理交互。它可以系统地评估导航基础模型的泛化能力和安全性。大量实验表明,S2E缓解了仅依赖离线数据扩展时常见的收益递减问题。我们对强化学习与监督微调在机器人学习后训练中的优势进行了深入分析。我们的研究结果强调了整合交互式在线体验在有效扩展机器人基础模型中的关键作用。 |
[85] 浅层深度学习在细粒度小样本学习中仍能表现出色 标题: Shallow Deep Learning Can Still Excel in Fine-Grained Few-Shot Learning 作者: Chaofei Qi / Chao Ye / Zhitai Liu / Weiyang Lin / Jianbin Qiu 原文: [英文] [中文] 备注: None 摘要: 深度学习在众多领域中得到了广泛应用,其中包括对深度骨干网络高度依赖的细粒度小样本学习(FGFSL)。然而,较浅的深度骨干网络,如ConvNet-4,并不常被优先选择,因为它们容易提取大量非抽象的视觉属性。在本文中,我们首先重新评估了网络深度与完全编码小样本实例能力之间的关系,并探讨浅层深度架构是否能够实现与主流深度骨干网络相当或更优的性能。受到基础ConvNet-4的启发,我们引入了一种位置感知星座网络(LCN-4),配备了最先进的位置感知特征聚类模块。该模块能够高效地编码和整合空间特征融合、特征聚类和隐性特征定位,从而显著减少整体损失。具体而言,我们创新性地提出了一种通用网格位置编码补偿,以有效解决特定普通卷积在特征提取过程中位置信息丢失的问题。此外,我们进一步提出了一种通用频域位置嵌入技术,以补偿聚类特征中的位置损失。我们在三个具有代表性的细粒度小样本基准上进行了验证程序。相关实验表明,LCN-4显著优于基于ConvNet-4的最新技术,并实现了与大多数基于ResNet12的方法相当或更优的性能,证实了我们猜想的正确性。 |
[86] Ov3R: 从RGB视频进行开放词汇语义3D重建 标题: Ov3R: Open-Vocabulary Semantic 3D Reconstruction from RGB Videos 作者: Ziren Gong / Xiaohan Li / Fabio Tosi / Jiawei Han / Stefano Mattoccia / Jianfei Cai / Matteo Poggi 原文: [英文] [中文] 备注: None 摘要: 我们介绍了Ov3R,这是一种用于从RGB视频流进行开放词汇语义3D重建的新框架,旨在推动空间人工智能的发展。该系统具有两个关键组件:CLIP3R,一个CLIP驱动的3D重建模块,可以从重叠的剪辑中预测密集的点图,同时嵌入对象级语义;以及2D-3D OVS,一个2D-3D开放词汇语义模块,通过学习融合描述符来整合空间、几何和语义线索,将2D特征提升到3D。与之前的方法不同,Ov3R将CLIP语义直接融入重建过程中,实现了全局一致的几何形状和细粒度的语义对齐。我们的框架在密集3D重建和开放词汇3D分割方面均达到了最先进的性能,标志着向实时、语义感知的空间人工智能迈出了一步。 |
[87] MetaLab:图像识别的少样本游戏规则改变者 标题: MetaLab: Few-Shot Game Changer for Image Recognition 作者: Chaofei Qi / Zhitai Liu / Jianbin Qiu 原文: [英文] [中文] 备注: None 摘要: 困难的少样本图像识别具有重要的应用前景,但与传统的大规模图像识别相比仍存在显著的技术差距。在本文中,我们提出了一种高效的原始少样本图像识别方法,称为CIELab引导的相干元学习(MetaLab)。在结构上,我们的MetaLab由两个协作的神经网络组成:LabNet,可以对CIELab颜色空间进行域转换并提取丰富的分组特征;以及相干的LabGNN,可以促进亮度图和颜色图之间的相互学习。为了充分验证,我们在四个粗粒度基准、四个细粒度基准和四个跨域少样本基准上进行了广泛的比较研究。具体而言,我们的方法在每类一个样本的情况下可以实现高精度、稳健的性能和有效的泛化能力。总体而言,所有实验表明,我们的MetaLab可以接近99\%的上下波动精度,达到人类识别的上限,视觉偏差极小。 |
[88] X-Omni:强化学习让离散自回归图像生成模型再次变得出色 标题: X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again 作者: Zigang Geng / Yibing Wang / Yeyao Ma / Chen Li / Yongming Rao / Shuyang Gu / Zhao Zhong / Qinglin Lu / Han Hu / Xiaosong Zhang / Linus / Di Wang / Jie Jiang 原文: [英文] [中文] 备注: None 摘要: 许多努力已被投入到将“下一个标记预测”范式扩展到视觉内容上,旨在为图像生成和理解创建一种统一的方法。然而,通过使用离散标记的自回归建模来生成图像的尝试一直受到低视觉保真度、输出失真以及在渲染复杂细节时未能遵循复杂指令等问题的困扰。这些缺点可能归因于自回归推理过程中的累积错误或在离散化过程中产生的信息丢失。可能由于这一挑战,最近的研究越来越多地转向联合训练图像生成与扩散目标和语言生成与自回归目标,逐渐远离统一建模方法。在这项工作中,我们展示了强化学习可以有效地减轻伪影并大幅提升离散自回归建模方法的生成质量,从而实现图像和语言生成的无缝集成。我们的框架包括一个语义图像标记器、一个用于语言和图像的统一自回归模型,以及一个用于图像生成的离线扩散解码器,称为X-Omni。X-Omni在使用7B语言模型的图像生成任务中实现了最先进的性能,生成的图像具有高美学质量,同时表现出强大的指令遵循能力和长文本渲染能力。 |
[89] StepAL:用于白内障手术视频的步骤感知主动学习 标题: StepAL: Step-aware Active Learning for Cataract Surgical Videos 作者: Nisarg A. Shah / Bardia Safaei / Shameema Sikder / S. Swaroop Vedula / Vishal M. Patel 原文: [英文] [中文] 备注: Accepted to MICCAI 2025 摘要: 主动学习(AL)可以在保持模型性能的同时减少外科视频分析中的标注成本。然而,传统的主动学习方法是为图像或短视频片段开发的,对于外科步骤识别来说效果不佳,因为长时间未剪辑的外科视频中存在步骤间的依赖性。这些方法通常选择单个帧或片段进行标注,这对于需要整个视频上下文进行标注的外科视频来说是无效的。为了解决这个问题,我们提出了StepAL,一种专为外科步骤识别设计的完整视频选择主动学习框架。StepAL集成了一种步骤感知特征表示,利用伪标签捕捉每个视频中预测步骤的分布,并结合熵加权聚类策略。该组合优先选择那些不确定且表现出多样化步骤组成的视频进行标注。在两个白内障手术数据集(Cataract-1k和Cataract-101)上的实验表明,StepAL始终优于现有的主动学习方法,以更少的标注视频实现更高的步骤识别准确性。StepAL为高效的外科视频分析提供了一种有效的方法,减少了开发计算机辅助外科系统中的标注负担。 |
[90] MOVE:运动引导的少样本视频目标分割 标题: MOVE: Motion-Guided Few-Shot Video Object Segmentation 作者: Kaining Ying / Hengrui Hu / Henghui Ding 原文: [英文] 备注: ICCV 2025, Project Page: this https URL 摘要: 本研究探讨了运动引导的少样本视频对象分割(FSVOS),其目标是基于少量具有相同运动模式的标注示例来分割视频中的动态对象。现有的FSVOS数据集和方法通常关注对象类别,这些是静态属性,忽略了视频中丰富的时间动态性,限制了它们在需要运动理解的场景中的应用。为填补这一空白,我们引入了MOVE,这是一个专为运动引导的FSVOS设计的大规模数据集。基于MOVE,我们在两种实验设置下全面评估了来自三个不同相关任务的六种最先进的方法。我们的结果显示,当前的方法在解决运动引导的FSVOS方面存在困难,这促使我们分析相关挑战并提出了一种基线方法,即解耦运动外观网络(DMA)。实验表明,我们的方法在少样本运动理解中实现了卓越的性能,为该方向的未来研究奠定了坚实的基础。 |
[91] MetaCLIP 2:全球扩展方案 标题: MetaCLIP 2: A Worldwide Scaling Recipe 作者: Yung-Sung Chuang / Yang Li / Dong Wang / Ching-Feng Yeh / Kehan Lyu / Ramya Raghavendra / James Glass / Lifei Huang / Jason Weston / Luke Zettlemoyer / Xinlei Chen / Zhuang Liu / Saining Xie / Wen-tau Yih / Shang-Wen Li / Hu Xu 原文: [英文] [中文] 备注: 10 pages 摘要: 对比语言-图像预训练(CLIP)是一种流行的基础模型,支持从零样本分类、检索到多模态大语言模型(MLLMs)的编码器。尽管CLIP成功地在来自英语世界的十亿级图文对上进行了训练,但将CLIP的训练进一步扩展到从全球网络数据中学习仍然具有挑战性:(1)没有可用的策展方法来处理来自非英语世界的数据点;(2)现有多语言CLIP的英语性能比其仅英语版本要差,即在LLMs中常见的“多语言诅咒”。在此,我们介绍MetaCLIP 2,这是第一个从头开始在全球网络规模的图文对上训练CLIP的方案。为了推广我们的发现,我们进行了严格的消融实验,尽量减少必要的更改以解决上述挑战,并提出了一种方案,使得来自英语和非英语世界的数据能够互惠互利。在零样本ImageNet分类中,MetaCLIP 2 ViT-H/14比其仅英语版本高出0.8%,比mSigLIP高出0.7%,并且令人惊讶地在多语言基准测试上设定了新的最先进水平,而没有系统级的混淆因素(例如,翻译、定制架构更改),如在CVQA上达到57.4%,在Babel-ImageNet上达到50.2%,在XM3600上图像到文本检索达到64.3%。 |