scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2025年6月13日更新论文96
[1] 使用文本到图像和音频生成模型的多模态电影视频合成
标题: Multimodal Cinematic Video Synthesis Using Text-to-Image and Audio Generation Models
作者: Sridhar S / Nithin A / Shakeel Rifath / Vasantha Raj
原文:   [英文]   [中文]  
备注: 10 pages, seven figures about Multimodal Cinematic Video Synthesis Using Text-to-Image and Audio Generation Models
摘要:
生成式人工智能的进步改变了多媒体创作,使得从文本输入自动生成电影视频成为可能。本文描述了一种方法,用于创建60秒的电影短片,该方法结合了Stable Diffusion进行高保真图像合成、GPT-2进行叙事结构化,以及使用gTTS和来源于YouTube的音乐的混合音频管道。它采用了一个五场景框架,并通过线性帧插值、电影后期处理(如锐化)和音视频同步来提供专业质量的结果。该方法是在一个GPU加速的Google Colab环境中使用Python 3.11创建的。它具有双模式Gradio界面(简单和高级),支持高达1024x768的分辨率和15-30 FPS的帧率。诸如CUDA内存管理和错误处理等优化确保了可靠性。实验展示了卓越的视觉质量、叙事连贯性和效率,推动了文本到视频合成在创意、教育和工业应用中的发展。

[2] LoRA-Edit:通过掩码感知的LoRA微调实现可控的首帧引导视频编辑
标题: LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning
作者: Chenjian Gao / Lihe Ding / Xin Cai / Zhanpeng Huang / Zibin Wang / Tianfan Xue
原文:   [英文]   [中文]  
备注: 12 pages
摘要:
使用扩散模型进行视频编辑在生成高质量视频编辑方面取得了显著成果。然而,目前的方法通常依赖于大规模预训练,限制了特定编辑的灵活性。首帧引导编辑提供了对首帧的控制,但在后续帧上缺乏灵活性。为了解决这个问题,我们提出了一种基于掩码的LoRA(低秩适应)调优方法,该方法适应预训练的图像到视频(I2V)模型,以实现灵活的视频编辑。我们的方法在保留背景区域的同时,实现了可控的编辑传播。该解决方案提供了高效且可适应的视频编辑,而无需改变模型架构。为了更好地引导这一过程,我们引入了额外的参考,如替代视角或代表性场景状态,这些作为内容展开的视觉锚点。我们使用掩码驱动的LoRA调优策略来解决控制挑战,该策略将预训练的图像到视频模型适应于编辑环境。模型必须从两个不同的来源学习:输入视频提供空间结构和运动线索,而参考图像提供外观指导。空间掩码通过动态调节模型关注的内容,实现区域特定学习,确保每个区域从适当的来源中汲取信息。实验结果表明,与最先进的方法相比,我们的方法在视频编辑性能上取得了优越的表现。

[3] DeepTraverse:一种受深度优先搜索启发的算法视觉理解网络
标题: DeepTraverse: A Depth-First Search Inspired Network for Algorithmic Visual Understanding
作者: Bin Guo / John H.L. Hansen
原文:   [英文]   [中文]  
备注: NeurIPS 2025
摘要:
尽管传统的视觉骨干网络取得了成功,但它们通常通过一个大体上统一的操作级联来构建特征,提供的自适应、迭代优化的显式路径有限。这引发了一个引人注目的问题:经典搜索算法的原理能否在这些网络中注入更具算法性、结构性和逻辑性的处理流程,从而通过更具可解释性、或许类似推理的决策过程来构建表示?我们介绍了DeepTraverse,这是一种直接受算法搜索策略启发的新型视觉架构,使其能够通过系统阐明和自适应优化的过程来学习特征,与传统方法截然不同。DeepTraverse通过两个关键的协同组件来实现这一点:递归探索模块,它沿着有前途的表示路径系统地加深特征分析,并通过参数共享提高效率;以及自适应校准模块,它根据不断变化的全局上下文动态调整特征显著性。这种算法的相互作用使DeepTraverse能够智能地构建和优化特征模式。在各种图像分类基准测试中的全面评估表明,DeepTraverse在分类准确性和特征区分能力方面表现出高度竞争力,常常优于具有相似或更大参数量的传统模型。我们的工作表明,整合这样的算法先验为构建更高效、更具性能和结构化的视觉骨干网络提供了一种有原则且有效的策略。

[4] 测试时适应用于可推广的任务进度估计
标题: Test-Time Adaptation for Generalizable Task Progress Estimation
作者: Christos Ziakas / Alessandra Russo
原文:   [英文]  
备注: pages, 2 figures, accepted to the 2nd Workshop on Test-Time Adaptation: Putting Updates to the Test (PUT) at 42nd International Conference on Machine Learning (ICML), Vancouver, Canada, 2025
摘要:
我们提出了一种测试时适应方法,该方法通过优化一个学习到的自监督目标,使进度估计模型能够在线适应测试轨迹的视觉和时间上下文。为此,我们引入了一种基于梯度的元学习策略,以训练模型在专家视觉轨迹及其自然语言任务描述上,使得测试时适应能够在依赖语义内容而非时间顺序的情况下改善进度估计。我们的测试时适应方法能够从单一训练环境推广到多样的分布外任务、环境和实体,优于使用自回归视觉语言模型的最新上下文学习方法。

[5] EfficientVLA:面向视觉-语言-动作模型的无训练加速与压缩
标题: EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models
作者: Yantai Yang / Yuhao Wang / Zichen Wen / Luo Zhongwei / Chang Zou / Zhipeng Zhang / Chuan Wen / Linfeng Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言-动作(VLA)模型,特别是基于扩散的架构,展示了对具身智能的变革潜力,但由于固有和推理时冗余导致的高计算和内存需求而受到严重阻碍。虽然现有的加速工作通常针对孤立的低效部分,但这种零散的解决方案通常无法全面解决整个VLA流程中的各种计算和内存瓶颈,从而限制了实际的可部署性。我们引入了EfficientVLA,这是一种结构化且无需训练的推理加速框架,通过系统地利用多方面的冗余来消除这些障碍。EfficientVLA协同整合了三种针对性的策略:(1)通过分析层间冗余,从语言模块中修剪功能上无关紧要的层;(2)通过任务感知策略优化视觉处理路径,选择紧凑且多样化的视觉标记集,平衡任务关键性与信息覆盖;(3)通过战略性地缓存和重用关键中间特征,缓解迭代扩散式动作头中的时间计算冗余。我们将我们的方法应用于标准VLA模型CogACT,实现了1.93倍的推理加速,并将FLOPs减少到28.9%,在SIMPLER基准测试中成功率仅下降了0.6%。

[6] 用于检测野外儿童的手动标注图像-字幕数据集
标题: A Manually Annotated Image-Caption Dataset for Detecting Children in the Wild
作者: Klim Kireev / Ana-Maria Creţu / Raphael Meier / Sarah Adel Bargal / Elissa Redmiles / Carmela Troncoso
原文:   [英文]   [中文]  
备注: 14 pages, 6 figures
摘要:
平台和法律对描绘未成年人的数字内容(定义为18岁以下的个人)与其他类型的内容进行不同的监管。鉴于需要评估的内容数量庞大,通常使用基于机器学习的自动化工具来检测描绘未成年人的内容。据我们所知,目前尚无数据集或基准用于在多模态环境中检测这些识别方法。为了填补这一空白,我们发布了“野外儿童图像-标题数据集”(ICCWD),这是一个旨在为检测未成年人描绘工具提供基准的图像-标题数据集。我们的数据集比以往的儿童图像数据集更丰富,包含各种背景下的儿童图像,包括虚构的描绘和部分可见的身体。ICCWD包含10,000个图像-标题对,手动标注以指示图像中是否存在儿童。为了展示我们数据集的潜在实用性,我们使用它来对三种不同的检测器进行基准测试,包括一个应用于图像的商业年龄估算系统。我们的结果表明,儿童检测是一项具有挑战性的任务,最佳方法实现了75.3%的真实阳性率。我们希望我们的数据集的发布能够帮助在广泛的场景中设计更好的未成年人检测方法。

[7] 使用计算机视觉检测银屑病:卷积神经网络与视觉变换器的比较方法
标题: Detecção da Psoríase Utilizando Visão Computacional: Uma Abordagem Comparativa Entre CNNs e Vision Transformers
作者: Natanael Lucena / Fábio S. da Silva / Ricardo Rios
原文:   [英文]   [中文]  
备注: 12 pages, in Portuguese language, 2 figures, 2 tables, and 4 formulas. To be published in the Proceedings of the LII Brazilian Integrated Software and Hardware Seminar 2025 (SEMISH 2025)
摘要:
本文比较了卷积神经网络(CNNs)和视觉变换器(ViTs)在多分类含有银屑病及其类似疾病病变图像任务中的表现。对ImageNet预训练的模型进行了特定数据集的适配。两者都取得了较高的预测指标,但ViTs因其在较小模型中的优越表现而脱颖而出。双重注意力视觉变换器基础版(DaViT-B)取得了最佳结果,f1分数为96.4%,被推荐为自动化银屑病检测的最有效架构。本文强调了ViTs在医学图像分类任务中的潜力。

[8] ViCrit: 一种用于视觉感知的大型视觉模型中可验证的强化学习代理任务
标题: ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs
作者: Xiyao Wang / Zhengyuan Yang / Chao Feng / Yongyuan Liang / Yuhang Zhou / Xiaoyu Liu / Ziyi Zang / Ming Li / Chung-Ching Lin / Kevin Lin / Linjie Li / Furong Huang / Lijuan Wang
原文:   [英文]   [中文]  
备注: None
摘要:
强化学习(RL)在使用具有挑战性但易于验证的任务(如数学推理或代码生成)微调大型语言模型(LLMs)方面表现出极大的有效性。然而,将这一成功扩展到视觉语言模型(VLMs)的视觉感知领域时,却因缺乏同时具有挑战性且明确可验证的以视觉为中心的任务而受到阻碍。为此,我们引入了ViCrit(视觉字幕幻觉评论者),这是一项RL代理任务,旨在训练VLMs定位注入到人类撰写的图像字幕段落中的微妙合成视觉幻觉。从一个200字的字幕开始,我们注入一个微妙的视觉描述错误——改变几个关于对象、属性、数量或空间关系的词语——并要求模型在给定图像和修改后的字幕的情况下找出被破坏的部分。这种形式保留了完整的感知难度,同时提供了易于计算且明确的二元精确匹配奖励。使用ViCrit任务训练的模型在各种VL基准测试中表现出显著的提升。重要的是,这些改进不仅限于自然图像训练数据,还扩展到抽象图像推理和视觉数学,显示出学习感知而不仅仅是记忆已见对象的潜力。为了促进评估,我们进一步引入了ViCrit-Bench,这是一种类别平衡的诊断基准,系统地探测跨多种图像领域和错误类型的感知错误。总之,我们的结果表明,细粒度的幻觉批评是增强VLMs视觉感知的有效且可推广的目标。

[9] RoCA:稳健的跨域端到端自动驾驶
标题: RoCA: Robust Cross-Domain End-to-End Autonomous Driving
作者: Rajeev Yasarla / Shizhong Han / Hsin-Pai Cheng / Litian Liu / Shweta Mahajan / Apratim Bhattacharyya / Yunxiao Shi / Risheek Garrepalli / Hong Cai / Fatih Porikli
原文:   [英文]   [中文]  
备注: None
摘要:
端到端(E2E)自动驾驶最近作为一种新范式出现,展现了巨大的潜力。然而,很少有研究关注跨域(例如,不同城市)部署的实际挑战。尽管一些工作已经结合了大型语言模型(LLMs)以利用其开放世界知识,但LLMs并不能保证跨域驾驶性能,并且在领域适应过程中可能会产生高昂的再训练成本。在本文中,我们提出了RoCA,一种用于稳健跨域E2E自动驾驶的新框架。RoCA在E2E流程中对编码自车和周围车辆信息的标记进行联合概率分布建模。通过高斯过程(GP)实例化,RoCA学习了一组基础标记及其对应的轨迹,这些标记覆盖了多样的驾驶场景。然后,给定任何驾驶场景,它能够以概率方式推断未来轨迹。通过在源域训练中将RoCA与基础E2E模型结合使用,我们提高了基础模型的泛化能力,而无需额外的推理计算。此外,RoCA在新的目标域上实现了稳健的适应,显著优于直接微调。我们在各种跨域场景中对RoCA进行了广泛评估,结果表明其在领域泛化和适应性能上表现出色。

[10] SPARKE:通过RKE评分在扩散模型中实现可扩展的提示感知多样性指导
标题: SPARKE: Scalable Prompt-Aware Diversity Guidance in Diffusion Models via RKE Score
作者: Mohammad Jalali / Haoyu Lei / Amin Gohari / Farzan Farnia
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型在高保真图像合成和提示引导生成建模方面表现出了显著的成功。然而,确保提示引导扩散模型生成样本的足够多样性仍然是一个挑战,特别是当提示涵盖广泛的语义范围时,需要在语义相似的提示中以提示感知的方式评估生成数据的多样性。最近的方法通过多样性度量引入指导,以鼓励更多样化的生成。在这项工作中,我们通过提出可扩展的提示感知Rény核熵多样性指导(SPARKE)方法来扩展基于多样性度量的方法,以实现提示感知的多样性指导。SPARKE利用条件熵进行多样性指导,动态地根据相似提示调整多样性测量,并实现提示感知的多样性控制。虽然基于熵的指导方法增强了提示感知的多样性,但其对基于矩阵的熵分数的依赖在大规模生成环境中带来了计算挑战。为了解决这个问题,我们专注于条件潜在RKE分数指导的特殊情况,将熵计算和基于梯度的优化复杂度从一般熵度量的$O(n^3)$降低到$O(n)$。降低的计算复杂度允许在不同提示上进行潜在数千轮生成的多样性指导采样。我们在几个文本到图像扩散模型上对SPARKE方法进行了数值测试,证明了所提出的方法在不产生显著计算成本的情况下提高了生成数据的提示感知多样性。我们在项目页面上发布了我们的代码:this https URL

[11] 通过时间上下文的隐式反照率恢复来检索地表太阳辐射
标题: Retrieval of Surface Solar Radiation through Implicit Albedo Recovery from Temporal Context
作者: Yael Frischholz / Devis Tuia / Michael Lehning
原文:   [英文]  
备注: 14 pages, 7 figures
摘要:
从卫星影像中准确提取地表太阳辐射(SSR)在很大程度上依赖于估算在晴空条件下空间传感器会观测到的背景反射率。与这一基线的偏差可以用来检测云的存在,并指导辐射传输模型推断大气衰减。现行的检索算法通常使用月度统计数据来近似背景反射率,假设地表特性相对于大气条件变化较慢。然而,这种方法在间歇性积雪覆盖和雪面变化频繁的山区失效。我们提出了一种基于注意力机制的SSR检索模拟器,该模拟器能够从原始卫星图像序列中隐式学习推断晴空地表反射率。我们的方法基于时空视觉变换器,消除了对手工特征的需求,如显式反照率图或云掩膜。该模拟器在瑞士的HelioMont算法的瞬时SSR估算上进行训练,该地区以复杂的地形和动态的积雪覆盖为特征。输入包括来自Meteosat第二代平台的多光谱SEVIRI影像,增强了静态地形特征和太阳几何信息。目标变量是HelioMont的SSR,计算为其直接和漫射水平辐照度分量之和,空间分辨率为1.7公里。我们展示了当提供足够长的时间上下文时,该模型的性能与基于反照率的模型相当,突显了模型内部学习和利用潜在地表反射率动态的能力。我们的地理空间分析表明,这一效果在山区最为显著,并在简单和复杂地形环境中提高了泛化能力。代码和数据集可在此https URL公开获取。

[12] 请注意!重新审视用于掩码图像建模的注意力探测
标题: Attention, Please! Revisiting Attentive Probing for Masked Image Modeling
作者: Bill Psomas / Dionysis Christopoulos / Eirini Baltzi / Ioannis Kakogeorgiou / Tilemachos Aravanis / Nikos Komodakis / Konstantinos Karantzalos / Yannis Avrithis / Giorgos Tolias
原文:   [英文]  
备注: None
摘要:
随着微调(FT)在大规模应用中变得越来越不切实际,探测正在成为自监督学习(SSL)的首选评估协议。然而,由于补丁标记的分布特性,标准的线性探测(LP)未能充分反映通过掩码图像建模(MIM)训练的模型的潜力。这促使我们需要一种注意探测,这是一种使用注意力来选择性聚合补丁级特征的替代方法。尽管其应用日益增多,注意探测仍然未被充分探索,现有方法存在过度参数化和计算效率低下的问题。 在这项工作中,我们从准确性-效率权衡的角度重新审视注意探测。我们对现有方法进行了系统研究,分析了它们的机制并对其性能进行了基准测试。我们引入了高效探测(EP),这是一种多查询交叉注意机制,消除了冗余投影,减少了可训练参数的数量,并在传统多头注意的基础上实现了高达10倍的加速。尽管其简单,EP在七个基准测试中优于LP和先前的注意探测方法,能够很好地推广到多种预训练范式,生成可解释的注意力图,并在低样本和层级设置中取得显著提升。代码可在此https URL获取。

[13] 通过正则化低秩参数更新提升个性化搜索
标题: Improving Personalized Search with Regularized Low-Rank Parameter Updates
作者: Fiona Ryan / Josef Sivic / Fabian Caba Heilbron / Judy Hoffman / James M. Rehg / Bryan Russell
原文:   [英文]  
备注: CVPR 2025 Highlight. Code: this http URL
摘要:
个性化视觉-语言检索旨在从少量示例中识别新概念(例如“我的狗Fido”)。这一任务具有挑战性,因为它不仅需要从少量图像中学习新概念,还需要将个人知识和通用知识结合起来,以在不同的上下文中识别该概念。在本文中,我们展示了如何有效地调整视觉-语言双编码器模型的内部表示,以实现个性化的视觉-语言检索。我们发现,在语言编码器的最后一层中对一小组参数进行正则化低秩调整,是识别个人概念的一个非常有效的替代方法,同时还能保留通用知识。此外,我们还探索了结合多个已学习的个人概念参数的策略,发现参数相加是有效的。为了评估在微调表示中通用知识的保留程度,我们引入了一种度量标准,该标准基于视觉语言模型(VLM)生成的字幕来测量图像检索的准确性。我们的方法在两个个性化图像检索的基准测试中实现了最先进的准确性,这两个基准测试是使用自然语言查询的DeepFashion2和ConCon-Chi,在个人检索方面比现有技术高出4%-22%。

[14] ScoreMix:通过扩散生成器中的分数组合提升人脸识别
标题: ScoreMix: Improving Face Recognition via Score Composition in Diffusion Generators
作者: Parsa Rahimi / Sebastien Marcel
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们提出了ScoreMix,这是一种新颖且简单的数据增强策略,利用扩散模型的分数组合特性来提高判别器的性能,特别是在标记数据有限的情况下。通过在扩散采样过程中凸混合来自不同类别条件轨迹的分数,我们生成具有挑战性的合成样本,这显著提高了所有研究基准中的判别能力。我们系统地研究了用于混合的类别选择策略,并发现当结合判别器嵌入空间中距离较远的类别时,而不是生成器条件空间中距离较近的类别时,会产生更大的性能提升。此外,我们通过实验证明,在标准指标下,生成器学习的条件空间与判别器嵌入空间之间的相关性极小。我们的方法在不进行广泛参数搜索的情况下实现了显著的性能提升,展示了训练判别模型的实际优势,同时有效缓解了关于大型数据集集合的问题。论文网站:this https URL

[15] 加州作物产量基准:结合卫星图像、气候、蒸散和土壤数据层进行县级超过70种作物的产量预测
标题: California Crop Yield Benchmark: Combining Satellite Image, Climate, Evapotranspiration, and Soil Data Layers for County-Level Yield Forecasting of Over 70 Crops
作者: Hamid Kamangir / Mona Hajiesmaeeli / Mason Earles
原文:   [英文]  
备注: None
摘要:
加利福尼亚是全球农业生产的领导者,贡献了美国总产量的12.5%,并且是世界第五大食品和棉花供应商。尽管美国农业部国家农业统计局提供了丰富的历史产量数据,由于环境、气候和土壤相关因素的复杂相互作用,准确和及时的作物产量预测仍然是一个挑战。在这项研究中,我们引入了一个综合的作物产量基准数据集,涵盖了2008年至2022年间加利福尼亚所有县的70多种作物。该基准整合了多种数据来源,包括Landsat卫星影像、每日气候记录、每月蒸散量和高分辨率土壤特性。为了有效地从这些异构输入中学习,我们开发了一种多模态深度学习模型,专为县级、作物特定的产量预测而设计。该模型采用分层特征提取和时间序列编码器,以捕捉生长季节中的空间和时间动态。土壤特性和作物身份等静态输入提供了长期变异性的信息。我们的方法在未见测试数据集的所有作物中实现了0.76的整体R2得分,突显了在加利福尼亚多样化农业区域中的强大预测性能。这个基准和建模框架为推进农业预测、气候适应和精准农业提供了宝贵的基础。完整的数据集和代码库在我们的GitHub存储库中公开可用。

[16] DySS:用于高效多摄像头视频3D目标检测的动态查询与状态空间学习
标题: DySS: Dynamic Queries and State-Space Learning for Efficient 3D Object Detection from Multi-Camera Videos
作者: Rajeev Yasarla / Shizhong Han / Hong Cai / Fatih Porikli
原文:   [英文]  
备注: CVPR 2025 Workshop on Autonomous Driving
摘要:
基于摄像头的鸟瞰图(BEV)三维物体检测是自动驾驶中最重要的感知任务之一。早期的方法依赖于密集的BEV特征,这些特征的构建成本很高。最近的工作探索了基于稀疏查询的检测。然而,当使用更多视频帧时,它们仍然需要大量的查询,运行成本可能会很高。在本文中,我们提出了DySS,这是一种采用状态空间学习和动态查询的新方法。更具体地说,DySS利用状态空间模型(SSM)来按时间步长顺序处理采样特征。为了鼓励模型更好地捕捉潜在的运动和对应信息,我们引入了未来预测和掩码重建的辅助任务,以更好地训练SSM。SSM的状态提供了对场景的信息丰富且高效的总结。基于状态空间学习的特征,我们通过合并、移除和分割操作动态更新查询,这有助于在整个网络中保持一组有用且精简的检测查询。我们提出的DySS在检测性能和推理效率上都取得了优异的表现。具体来说,在nuScenes测试集上,DySS达到了65.31的NDS和57.4的mAP,超越了最新的技术水平。在验证集上,DySS达到了56.2的NDS和46.2的mAP,并且具有33 FPS的实时推理速度。

[17] HalLoc: 视觉语言模型幻觉的词级定位
标题: HalLoc: Token-level Localization of Hallucinations for Vision Language Models
作者: Eunkyu Park / Minyeong Kim / Gunhee Kim
原文:   [英文]  
备注: CVPR 2025
摘要:
幻觉对大型视觉语言模型的可靠性构成了重大挑战,因此检测幻觉对于确保关键应用的准确性至关重要。目前的检测方法通常依赖于计算密集型模型,导致高延迟和资源需求。它们的确定性结果也未能考虑到现实世界中幻觉信息和真实信息之间界限不清的情况。为了解决这些问题,我们提出了HalLoc,一个旨在高效、概率性幻觉检测的数据集。该数据集包含15万条标注到词级的样本,包括幻觉类型,涵盖视觉问答(VQA)、指令跟随和图像描述任务。这个数据集促进了能够以分级信心检测幻觉的模型的发展,从而实现更明智的用户交互。此外,我们引入了一个在HalLoc上训练的基线模型,提供低开销的、生成过程中并发的幻觉检测。该模型可以无缝集成到现有的视觉语言模型中,提高可靠性同时保持效率。一个强大的即插即用幻觉检测模块的前景为增强视觉语言模型在现实应用中的可信度开辟了新的途径。HalLoc数据集和代码可在此网址公开获取:this https URL。

[18] 不确定性感知的深度学习用于自动化皮肤癌分类:综合评估
标题: Uncertainty-Aware Deep Learning for Automated Skin Cancer Classification: A Comprehensive Evaluation
作者: Hamzeh Asgharnezhad / Pegah Tabarisaadi / Abbas Khosravi / Roohallah Alizadehsani / U. Rajendra Acharya
原文:   [英文]   [中文]  
备注: None
摘要:
准确可靠的皮肤癌诊断对于早期治疗和改善患者预后至关重要。深度学习(DL)模型在自动化皮肤癌分类方面显示出潜力,但其性能可能受到数据稀缺和缺乏不确定性意识的限制。在本研究中,我们对基于DL的皮肤病变分类进行了全面评估,使用迁移学习和不确定性量化(UQ)在HAM10000数据集上进行。在第一阶段,我们对几种预训练的特征提取器进行了基准测试,包括对比语言-图像预训练(CLIP)变体、残差网络-50(ResNet50)、密集连接卷积网络(DenseNet121)、视觉几何组网络(VGG16)和EfficientNet-V2-Large,并结合了一系列传统分类器,如支持向量机(SVM)、极端梯度提升(XGBoost)和逻辑回归。我们的结果表明,基于CLIP的视觉变换器,特别是与SVM结合的LAION CLIP ViT-H/14,提供了最高的分类性能。在第二阶段,我们使用蒙特卡罗Dropout(MCD)、集成和集成蒙特卡罗Dropout(EMCD)引入了UQ,以评估不仅是预测准确性,还有模型输出的可靠性。我们使用不确定性感知指标评估了这些模型,如不确定性准确性(UAcc)、不确定性敏感性(USen)、不确定性特异性(USpe)和不确定性精度(UPre)。结果表明,集成方法在准确性和不确定性处理之间提供了良好的权衡,而EMCD对不确定预测更为敏感。本研究强调了将UQ整合到基于DL的医学诊断中的重要性,以增强在现实临床应用中的性能和可信度。

[19] 面向可扩展的SOAP笔记生成:一种弱监督多模态框架
标题: Towards Scalable SOAP Note Generation: A Weakly Supervised Multimodal Framework
作者: Sadia Kamal / Tim Oates / Joy Wan
原文:   [英文]   [中文]  
备注: Accepted at IEEE/CVF Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)
摘要:
皮肤癌是全球最常见的癌症形式,每年在医疗保健方面的支出超过80亿美元。在临床环境中,医生使用详细的SOAP(主观、客观、评估和计划)笔记记录患者的就诊情况。然而,手动生成这些笔记劳动强度大,导致临床医生疲惫不堪。在这项工作中,我们提出了一种弱监督的多模态框架,用于从有限的输入(包括病变图像和稀疏的临床文本)生成临床结构化的SOAP笔记。我们的方法减少了对手动标注的依赖,实现了可扩展的、临床基础的文档记录,同时减轻了临床医生的负担,并减少了对大量标注数据的需求。我们的方法在关键临床相关性指标上实现了与GPT-4o、Claude和DeepSeek Janus Pro相当的性能。为了评估临床质量,我们引入了两个新的指标:MedConceptEval和临床一致性评分(CCS),分别用于评估与专家医学概念和输入特征的语义对齐。

[20] 用户生成全景视频的视听质量评估数据集和方法研究
标题: Research on Audio-Visual Quality Assessment Dataset and Method for User-Generated Omnidirectional Video
作者: Fei Zhao / Da Pan / Zelu Qi / Ping Shi
原文:   [英文]   [中文]  
备注: Our paper has been accepted by ICME 2025
摘要:
为了应对元宇宙日益突出的重要性,全景视频(ODVs)引起了显著的关注,逐渐从专业生成内容(PGC)转向用户生成内容(UGC)。然而,对于ODVs中的视听质量评估(AVQA)的研究仍然有限。为了解决这个问题,我们构建了一个UGC全景音视频(A/V)内容的数据集。视频由五个人使用两种不同类型的全景相机拍摄,涵盖了10种不同场景类型的300个视频。我们在该数据集上进行了主观AVQA实验,以获得A/V序列的平均意见得分(MOSs)。之后,为了促进UGC-ODV AVQA领域的发展,我们在所提出的数据集上构建了一个有效的AVQA基线模型,该基线模型由视频特征提取模块、音频特征提取和视听融合模块组成。实验结果表明,我们的模型在所提出的数据集上实现了最佳性能。

[21] 使用视觉语言模型通过面部表情检测学生的学业情感
标题: Using Vision Language Models to Detect Students' Academic Emotion through Facial Expressions
作者: Deliang Wang / Chao Yang / Gaowei Chen
原文:   [英文]   [中文]  
备注: None
摘要:
学生的学术情绪对他们的社交行为和学习表现有显著影响。传统上,自动且准确地分析这些情绪主要依赖于监督式机器学习算法。然而,这些模型通常难以在不同的情境中进行泛化,因此需要反复进行数据收集、标注和训练。视觉-语言模型(VLMs)的出现提供了一种有前途的替代方案,通过零样本提示实现视觉识别任务的泛化,而无需微调。本研究探讨了VLMs在在线学习环境中通过面部表情分析学生学术情绪的潜力。我们使用了两个VLMs,Llama-3.2-11B-Vision-Instruct和Qwen2.5-VL-7B-Instruct,利用零样本提示分析了5,000张表现困惑、分心、快乐、中立和疲倦表情的图像。初步结果表明,这两个模型在学术面部表情识别中表现中等,其中Qwen2.5-VL-7B-Instruct的表现优于Llama-3.2-11B-Vision-Instruct。值得注意的是,这两个模型在识别学生的快乐情绪方面表现出色,但未能检测到分心行为。此外,Qwen2.5-VL-7B-Instruct在识别学生困惑表情方面表现相对较高,突显了其在识别导致学生困惑的内容方面的实际应用潜力。

[22] PointGS: 基于高斯散点的点注意稀疏视图合成
标题: PointGS: Point Attention-Aware Sparse View Synthesis with Gaussian Splatting
作者: Lintao Xiang / Hongpei Zheng / Yating Huang / Qijun Yang / Hujun Yin
原文:   [英文]   [中文]  
备注: None
摘要:
3D高斯喷溅(3DGS)是一种创新的渲染技术,通过利用显式的3D场景表示,在渲染速度和视觉质量上超越了神经辐射场(NeRF)。现有的3DGS方法需要大量校准视图来生成一致且完整的场景表示。当输入视图有限时,3DGS往往会过拟合训练视图,导致渲染质量明显下降。为了解决这一限制,我们提出了一种点特征感知高斯喷溅框架,使得从稀疏训练视图中实现实时、高质量渲染。具体来说,我们首先采用最新的立体基础模型来估计准确的相机姿态并重建用于高斯初始化的密集点云。然后,我们通过从稀疏输入中采样和聚合多尺度2D外观特征来编码每个3D高斯的颜色属性。为了增强点的外观表示,我们设计了一个基于自注意力机制的点交互网络,使每个高斯点能够与其最近邻居进行交互。这些丰富的特征随后通过两个轻量级的多层感知器(MLP)解码为高斯参数,以进行最终渲染。在各种基准上的广泛实验表明,我们的方法显著优于基于NeRF的方法,并在少样本设置下与最先进的3DGS方法相比实现了竞争性能。

[23] GeoCAD:局部几何可控的CAD生成
标题: GeoCAD: Local Geometry-Controllable CAD Generation
作者: Zhanwei Zhang / Kaiyuan Liu / Junjie Liu / Wenxiao Wang / Binbin Lin / Liang Xie / Chen Shen / Deng Cai
原文:   [英文]   [中文]  
备注: 18 pages, 12 figures
摘要:
局部几何可控的计算机辅助设计(CAD)生成旨在自动修改CAD模型的局部部分,从而提高设计效率。它还确保新生成的局部部分的形状遵循用户特定的几何指令(例如,等腰直角三角形或一个角被切掉的矩形)。然而,现有的方法在实现这一目标时遇到了挑战。具体来说,它们要么缺乏遵循文本指令的能力,要么无法专注于局部部分。为了解决这一限制,我们引入了GeoCAD,这是一种用户友好且局部几何可控的CAD生成方法。具体而言,我们首先提出了一种互补的描述策略,用于生成局部部分的几何指令。该策略涉及基于顶点和基于VLLM的描述,分别用于系统地标注简单和复杂的部分。通过这种方式,我们总共为大约221k个不同的局部部分进行了描述。在训练阶段,给定一个CAD模型,我们随机遮蔽一个局部部分。然后,使用其几何指令和剩余部分作为输入,我们提示大型语言模型(LLMs)预测被遮蔽的部分。在推理过程中,用户可以指定任何局部部分进行修改,同时遵循各种预定义的几何指令。大量实验表明,GeoCAD在生成质量、有效性和文本到CAD的一致性方面的有效性。代码将在此https URL提供。

[24] UrbanSense:利用视觉大型语言模型进行城市街景定量分析的框架
标题: UrbanSense:AFramework for Quantitative Analysis of Urban Streetscapes leveraging Vision Large Language Models
作者: Jun Yin / Jing Zhong / Peilin Li / Pengyu Zeng / Miao Zhang / Ran Luo / Shuai Lu
原文:   [英文]  
备注: None
摘要:
由于地理、时间、历史和社会政治因素,城市文化和建筑风格在不同城市之间存在显著差异。理解这些差异对于预测城市未来的发展至关重要。作为中国历史延续性和现代创新的代表性案例,北京和深圳为探索城市街景的转变提供了宝贵的视角。然而,传统的城市文化研究方法往往依赖于专家解释和历史文献,这在不同背景下难以标准化。为了解决这一问题,我们提出了一种基于视觉-语言模型的多模态研究框架,能够实现对城市街景风格差异的自动化和可扩展分析。这种方法增强了城市形态研究的客观性和数据驱动特性。本研究的贡献如下:首先,我们构建了UrbanDiffBench,一个包含不同时期和地区建筑图像的城市街景精编数据集。其次,我们开发了UrbanSense,这是第一个基于视觉-语言模型的城市街景分析框架,能够实现城市风格表示的定量生成和比较。第三,实验结果显示,超过80%的生成描述通过了t检验(p小于0.05)。主观评价中城市的Phi分数为0.912,时期的Phi分数为0.833,证实了该方法捕捉细微风格差异的能力。这些结果突显了该方法在量化和解释城市风格演变方面的潜力,为未来设计提供了科学依据。

[25] RealKeyMorph:用于分辨率无关图像配准的真实世界坐标关键点
标题: RealKeyMorph: Keypoints in Real-world Coordinates for Resolution-agnostic Image Registration
作者: Mina C. Moghadam / Alan Q. Wang / Omer Taub / Martin R. Prince / Mert R. Sabuncu
原文:   [英文]   [中文]  
备注: 23 pages, 8 figures, to be submitted to MELBA
摘要:
许多现实世界的场景需要对一对空间分辨率不同的医学图像进行配准,这种差异可能源于图像采集参数的不同,如像素间距、切片厚度和视野。然而,以往所有基于机器学习的配准技术都将图像重新采样到固定分辨率。这种方法并不理想,因为重新采样可能由于插值而引入伪影。为了解决这个问题,我们提出了RealKeyMorph (RKM),一种对分辨率不敏感的图像配准方法。RKM是KeyMorph的扩展,KeyMorph是一个通过训练网络学习给定图像对的对应关键点的配准框架,之后使用封闭形式的关键点匹配步骤来推导出对齐它们的变换。为了避免重新采样并能够在原始数据上操作,RKM在扫描仪的真实世界坐标中输出关键点。为此,我们利用扫描仪(例如,MRI机器)生成的仿射矩阵,该矩阵编码了从体素坐标到真实世界坐标的映射。通过将关键点转换到真实世界空间并将其整合到训练过程中,RKM有效地使提取的关键点对分辨率不敏感。在我们的实验中,我们展示了RKM在腹部MRI的正交2D堆栈配准任务以及在脑部数据集中具有不同分辨率的3D体积上的优势。

[26] Motion-R1:用于人类动作生成的连锁思维推理与强化学习
标题: Motion-R1: Chain-of-Thought Reasoning and Reinforcement Learning for Human Motion Generation
作者: Runqi Ouyang / Haoyun Li / Zhenyuan Zhang / Xiaofeng Wang / Zheng Zhu / Guan Huang / Xingang Wang
原文:   [英文]  
备注: None
摘要:
最近在大型语言模型方面的进展,特别是在自然语言理解和推理方面,开启了文本到动作生成的新可能性。尽管现有的方法在语义对齐和动作合成方面取得了显著进展,但它们通常依赖于端到端的映射策略,未能捕捉深层的语言结构和逻辑推理。因此,生成的动作往往缺乏可控性、一致性和多样性。为了解决这些限制,我们提出了Motion-R1,一个统一的动作-语言建模框架,集成了链式思维机制。通过将复杂的文本指令显式分解为逻辑结构的动作路径,Motion-R1为动作生成提供了高级语义指导,显著增强了模型解释和执行多步骤、长时间跨度和成分丰富的命令的能力。为了训练我们的模型,我们采用了群体相对策略优化,这是一种为大型模型设计的强化学习算法,利用动作质量反馈来联合优化推理链和动作合成。跨多个基准数据集的大量实验表明,Motion-R1在需要细致语义理解和长期时间一致性的场景中,表现出与现有最先进方法相当或更优的性能。代码、模型和数据将公开提供。

[27] FaceLiVT:使用结构重参数化的线性视觉变换器进行移动设备人脸识别
标题: FaceLiVT: Face Recognition using Linear Vision Transformer with Structural Reparameterization For Mobile Device
作者: Novendra Setyawan / Chi-Chia Sun / Mao-Hsiu Hsu / Wen-Kai Kuo / Jun-Wei Hsieh
原文:   [英文]   [中文]  
备注: 2025 ICIP
摘要:
本文介绍了FaceLiVT,这是一种轻量级但功能强大的面部识别模型,集成了混合卷积神经网络(CNN)-Transformer架构,并采用了一种创新且轻量级的多头线性注意力(MHLA)机制。通过结合MHLA和重新参数化的token混合器,FaceLiVT在保持竞争性准确率的同时,有效降低了计算复杂度。在包括LFW、CFP-FP、AgeDB-30、IJB-B和IJB-C在内的具有挑战性的基准测试中进行的广泛评估,突显了其相较于最先进的轻量级模型的卓越性能。MHLA显著提高了推理速度,使FaceLiVT能够在移动设备上以较低的延迟提供高准确率。具体而言,FaceLiVT比最近为边缘设备优化的混合CNN-Transformer模型EdgeFace快8.6倍,比纯ViT模型快21.2倍。凭借其平衡的设计,FaceLiVT为资源受限平台上的实时面部识别提供了一种高效且实用的解决方案。

[28] FSATFusion:用于红外和可见光图像融合的频率-空间注意力Transformer
标题: FSATFusion: Frequency-Spatial Attention Transformer for Infrared and Visible Image Fusion
作者: Tianpei Zhang / Jufeng Zhao / Yiming Zhu / Guangmang Cui / Yuhan Lyu
原文:   [英文]   [中文]  
备注: None
摘要:
红外和可见光图像融合(IVIF)由于其在下游应用中的优异表现,正受到研究界和工业界越来越多的关注。现有的深度学习方法通常利用卷积神经网络来提取图像特征。然而,卷积操作在捕捉全局上下文方面的固有能力可能导致信息丢失,从而限制融合性能。为了解决这一限制,我们提出了一种名为频率-空间注意力Transformer融合网络(FSATFusion)的端到端融合网络。FSATFusion包含一个频率-空间注意力Transformer(FSAT)模块,旨在有效捕捉源图像中的判别特征。该FSAT模块包括一个频率-空间注意力机制(FSAM),能够从特征图中提取显著特征。此外,我们提出了一种改进的Transformer模块(ITM),以增强原始Transformer提取全局上下文信息的能力。我们进行了定性和定量的对比实验,证明了FSATFusion在融合质量和效率方面优于其他最先进的方法。此外,我们的网络在没有任何修改的情况下在两个额外的任务上进行了测试,以验证FSATFusion的优秀泛化能力。最后,目标检测实验证明了FSATFusion在下游视觉任务中的优越性。我们的代码可在此https URL获取。

[29] 从图像滤波中汲取洞见重新审视Transformer
标题: Revisiting Transformers with Insights from Image Filtering
作者: Laziz U. Abdullaev / Maksim Tkachenko / Tan M. Nguyen
原文:   [英文]   [中文]  
备注: 12 pages, 6 figures
摘要:
自注意力机制是基于Transformer的最先进深度学习架构的基石,其在很大程度上是由启发式驱动的,并且从根本上难以解释。因此,建立一个稳健的理论基础来解释其显著的成功和局限性已成为近期研究中越来越突出的焦点。一些显著的研究方向通过图像去噪和非参数回归的视角来理解自注意力。尽管这些方向很有前景,现有的框架仍然缺乏对增强自注意力的各种架构组件的更深层次的机制解释,无论是在其原始形式还是后续变体中。在这项工作中,我们旨在通过开发一个统一的图像处理框架来推进这种理解,该框架不仅能够解释自注意力计算本身,还能解释诸如位置编码和残差连接等组件的作用,包括许多后来的变体。我们还在我们的框架基础上指出了这两个概念之间的潜在区别,并努力缩小这一差距。我们在transformers中引入了两个独立的架构修改。虽然我们的主要目标是可解释性,但我们通过实验证明,受图像处理启发的修改也可以显著提高在语言和视觉任务中的准确性和对数据污染及对抗攻击的鲁棒性,以及更好的长序列理解。

[30] 利用六自由度姿态基础模型绘制海洋沉积物埋藏图
标题: Leveraging 6DoF Pose Foundation Models For Mapping Marine Sediment Burial
作者: Jerry Yan / Chinmay Talegaonkar / Nicholas Antipa / Eric Terrill / Sophia Merrifield
原文:   [英文]   [中文]  
备注: None
摘要:
海底人造物体的埋藏状态提供了对局部沉积动态的洞察,同时对于评估生态风险、潜在污染物运输以及危险材料(如弹药)的回收或缓解策略的可行性也至关重要。由于部分遮挡、能见度差和物体退化,从远程图像中准确估计埋藏深度仍然困难。本文介绍了一种名为PoseIDON的计算机视觉流程,该流程结合了深度基础模型特征与多视角摄影测量技术,以估计来自ROV视频的物体六自由度姿态及其周围海底的方向。通过将物体的CAD模型与观察到的图像对齐,并拟合海底的局部平面近似,推断埋藏深度。该方法使用在圣佩德罗盆地历史海洋倾倒场录制的54个物体(包括桶和弹药)的录像进行了验证。该模型实现了约10厘米的平均埋藏深度误差,并解决了反映底层沉积物运输过程的空间埋藏模式。这种方法能够进行可扩展的、非侵入性的海底埋藏映射,并支持对污染场所的环境评估。

[31] DART:用于视觉Transformer和Mamba的可微分动态自适应区域分词器
标题: DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Transformer and Mamba
作者: Shicheng Yin / Kaixuan Yin / Yang Liu / Weixing Chen / Liang Lin
原文:   [英文]   [中文]  
备注: Code is available at this https URL
摘要:
最近,非卷积模型如视觉Transformer(ViT)和视觉Mamba(Vim)在计算机视觉任务中取得了显著的性能。然而,它们依赖于固定大小的图像块,常常导致过度编码背景区域并遗漏关键的局部细节,特别是在信息丰富的对象分布稀疏的情况下。为了解决这个问题,我们引入了一种完全可微的动态自适应区域标记器(DART),它能够自适应地将图像划分为大小不同的内容相关块。DART结合了可学习的区域评分和分段可微的分位数操作,以便为信息丰富的区域分配更密集的标记。尽管仅引入了大约100万(1M)额外参数,DART在DeiT(ImageNet-1K)上将准确率提高了2.1%。与那些均匀增加标记密度以捕捉细粒度细节的方法不同,DART提供了一种更高效的替代方案,实现了45%的FLOPs减少,同时性能更优。对DeiT、Vim和VideoMamba的广泛实验证实,DART在持续提高准确率的同时,计算开销极小甚至有所减少。代码可在此https URL获取。

[32] ReconMOST:基于观测引导扩散的多层海洋温度重建
标题: ReconMOST: Multi-Layer Sea Temperature Reconstruction with Observations-Guided Diffusion
作者: Yuanyi Song / Pumeng Lyu / Ben Fei / Fenghua Ling / Wanli Ouyang / Lei Bai
原文:   [英文]   [中文]  
备注: None
摘要:
准确的海洋重建对于反映全球气候动态和支持海洋气象研究至关重要。传统方法由于数据稀疏、算法复杂性和高计算成本面临挑战,而机器学习(ML)方法的使用虽然在增加,但仍局限于海面和局部区域的重建问题,并在云遮挡等问题上挣扎。为了解决这些限制,本文提出了ReconMOST,一种用于多层海温重建的数据驱动引导扩散模型框架。具体来说,我们首先使用大量历史数值模拟数据预训练一个无条件扩散模型,使模型能够获得海洋温度场的物理一致分布模式。在生成阶段,稀疏但高精度的现场观测数据被用作反向扩散过程的引导点,生成准确的重建结果。重要的是,在缺乏直接观测数据的区域,预训练期间学习到的物理一致空间分布模式能够实现隐式引导和物理合理的重建。我们的方法将基于ML的海表温度重建扩展到全球多层设置,处理超过92.5%的缺失数据,同时保持重建精度、空间分辨率和优越的泛化能力。我们在CMIP6数值模拟数据上预训练模型,并在CMIP6和EN4分析数据上进行引导重建实验。均方误差(MSE)值的结果分别在引导、重建和总计上达到0.049、0.680和0.633,证明了所提出框架的有效性和鲁棒性。我们的源代码可在此https URL获取。

[33] 双鱼座:一种用于图像理解与生成的自回归基础模型
标题: Pisces: An Auto-regressive Foundation Model for Image Understanding and Generation
作者: Zhiyang Xu / Jiuhai Chen / Zhaojiang Lin / Xichen Pan / Lifu Huang / Tianyi Zhou / Madian Khabsa / Qifan Wang / Di Jin / Michihiro Yasunaga / Lili Yu / Xi Victoria Lin / Shaoliang Nie
原文:   [英文]   [中文]  
备注: Unified image understanding and generation model
摘要:
最近在大型语言模型(LLMs)方面的进展使得多模态基础模型能够在一个统一的框架内同时处理图像理解和生成。尽管取得了这些进展,统一模型在这两项任务上通常不如专用模型表现得好。开发统一模型的一个关键挑战在于图像理解和生成所需的视觉特征之间的固有差异,以及每种模态所需的不同训练过程。在这项工作中,我们介绍了Pisces,这是一种自回归多模态基础模型,通过一种新颖的解耦视觉编码架构和为多模态生成优化的定制训练技术来应对这一挑战。结合细致的数据整理、预训练和微调,Pisces在图像理解和图像生成方面都取得了具有竞争力的表现。我们在超过20个公共基准上评估了Pisces的图像理解能力,它在广泛的任务中表现出强劲的性能。此外,在广泛采用的图像生成基准GenEval上,Pisces展示了强大的生成能力。我们广泛的分析揭示了图像理解和生成之间的协同关系,以及使用独立视觉编码器的好处,推动了统一多模态模型领域的发展。

[34] 不是目标,而是背景:通过深度无块低秩表示重新思考红外小目标检测
标题: It's Not the Target, It's the Background: Rethinking Infrared Small Target Detection via Deep Patch-Free Low-Rank Representations
作者: Guoyi Zhang / Guangsheng Xu / Siyang Chen / Han Wang / Xiaohu Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
红外小目标检测(IRSTD)在复杂背景中仍然是一个长期存在的挑战,因为信号与杂波比(SCR)低、目标形态多样以及缺乏明显的视觉线索。尽管最近的深度学习方法旨在学习区分性表示,但小目标的内在变化性和弱先验常常导致性能不稳定。在本文中,我们提出了一种新颖的端到端IRSTD框架,称为LRRNet,该框架利用红外图像背景的低秩特性。受杂乱场景物理可压缩性的启发,我们的方法采用压缩-重建-减法(CRS)范式,在图像域中直接建模结构感知的低秩背景表示,而不依赖于基于补丁的处理或显式矩阵分解。据我们所知,这是首次在端到端方式中使用深度神经网络直接学习低秩背景结构。多个公共数据集上的广泛实验表明,LRRNet在检测准确性、鲁棒性和计算效率方面优于38种最新方法。值得注意的是,它以平均82.34 FPS的速度实现了实时性能。在具有挑战性的NoisySIRST数据集上的评估进一步证实了该模型对传感器噪声的抵抗力。源代码将在论文接受后公开。

[35] MF2Summ:用于视频摘要的多模态融合与时间对齐
标题: MF2Summ: Multimodal Fusion for Video Summarization with Temporal Alignment
作者: Shuo wang / Jihao Zhang
原文:   [英文]  
备注: None
摘要:
在线视频内容的快速增长需要有效的视频摘要技术。传统方法通常依赖单一模态(通常是视觉),难以捕捉视频的完整语义丰富性。本文介绍了MF2Summ,一种基于多模态内容理解的新颖视频摘要模型,整合了视觉和听觉信息。MF2Summ采用五阶段过程:特征提取、跨模态注意力交互、特征融合、片段预测和关键镜头选择。视觉特征使用预训练的GoogLeNet模型提取,而听觉特征则通过SoundNet获得。我们的融合机制核心包括跨模态Transformer和对齐引导的自注意力Transformer,旨在有效地建模模态间依赖关系和时间对应性。片段的重要性、位置和中心性被预测,随后使用非极大值抑制(NMS)和核时间分割(KTS)算法进行关键镜头选择。在SumMe和TVSum数据集上的实验结果表明,MF2Summ实现了竞争性表现,F1分数分别比DSNet模型提高了1.9%和0.6%,并且在与其他最新方法的比较中表现良好。

[36] 在缺失模态和分布偏移情况下实现稳健的多模态情感识别
标题: Towards Robust Multimodal Emotion Recognition under Missing Modalities and Distribution Shifts
作者: Guowei Zhong / Ruohong Huan / Mingzhen Wu / Ronghua Liang / Peng Chen
原文:   [英文]   [中文]  
备注: Submitted to TAC. The code is available at this https URL
摘要:
最近在多模态情感识别(MER)方面的进展面临同时解决模态缺失和分布外(OOD)数据的挑战。现有方法通常依赖于特定模型或引入过多参数,限制了其实用性。为了解决这些问题,我们提出了一种新颖的鲁棒MER框架,称为因果推理蒸馏器(CIDer),并引入了一项新任务,随机模态特征缺失(RMFM),以推广模态缺失的定义。CIDer集成了两个关键组件:模型特定自蒸馏(MSSD)模块和模型无关因果推理(MACI)模块。MSSD通过在低级特征、注意力图和高级表示之间应用权重共享的自蒸馏方法,在RMFM任务下增强鲁棒性。此外,词级自对齐注意力模块(WSAM)降低了计算复杂度,而多模态复合变压器(MCT)促进了高效的多模态融合。为应对OOD挑战,MACI使用定制的因果图,通过多模态因果模块(MCM)和细粒度反事实文本来减轻标签和语言偏差。值得注意的是,MACI可以以最少的额外参数独立增强OOD泛化能力。此外,我们还引入了新的重新划分的MER OOD数据集。实验结果表明,CIDer在RMFM和OOD场景中实现了鲁棒性能,与最先进的方法相比,参数更少且训练更快。此项工作的实现可在此https URL公开访问。

[37] 重新思考基于隐式运动变换的生成式人类视频编码
标题: Rethinking Generative Human Video Coding with Implicit Motion Transformation
作者: Bolin Chen / Ru-Ling Liao / Jie Chen / Yan Ye
原文:   [英文]   [中文]  
备注: None
摘要:
超越传统的混合型视频编解码器,生成型视频编解码器可以通过将高维信号演变为紧凑的特征表示来实现令人期待的压缩性能,以在编码器端实现比特流的紧凑性,并在解码器端开发显式运动场作为中间监督以实现高质量重建。这种范式在面部视频压缩中取得了显著成功。然而,与面部视频相比,人体视频由于其更复杂和多样的运动模式而面临更大的挑战,即在使用显式运动指导进行生成型人体视频编码(GHVC)时,重建结果可能会遭受严重的失真和不准确的运动。因此,本文强调了显式运动基础方法在人体视频压缩中的局限性,并研究了借助隐式运动转换(IMT)来提高GHVC性能。特别是,我们提出将复杂的人体信号表征为紧凑的视觉特征,并将这些特征转换为隐式运动指导以进行信号重建。实验结果证明了所提出的IMT范式的有效性,可以促进GHVC实现高效压缩和高保真合成。

[38] 利用三维结构不变变换和中间特征距离提升高光谱图像分类的对抗可迁移性
标题: Boosting Adversarial Transferability for Hyperspectral Image Classification Using 3D Structure-invariant Transformation and Intermediate Feature Distance
作者: Chun Liu / Bingqian Zhu / Tao Xu / Zheng Zheng / Zheng Li / Wei Yang / Zhigang Han / Jiayao Wang
原文:   [英文]   [中文]  
备注: None
摘要:
深度神经网络(DNNs)容易受到对抗性攻击,这对基于DNNs的高光谱图像(HSI)分类技术构成了安全挑战。在自然图像领域,已经研究了许多基于迁移的对抗性攻击方法。然而,由于HSI具有高维度和丰富的光谱信息,它们与自然图像有所不同。目前关于HSI对抗样本的研究仍然有限,并且在充分利用图像的结构和特征信息方面面临挑战。为了解决这些问题,本文提出了一种新方法,以增强HSI分类模型对抗样本的迁移性。首先,在保持图像结构不变的情况下,提出的方法在空间和光谱维度上随机将图像划分为块。然后,在每个块上应用各种变换,以增加输入的多样性并减轻过拟合。其次,设计了一种针对中间层的特征距离损失,它测量原始样本的放大特征与对抗样本特征之间的距离作为主要损失,而输出层预测作为辅助损失。这引导扰动破坏对抗样本中真实类别的特征,有效增强迁移性。大量实验表明,所提出方法生成的对抗样本在两个公共HSI数据集上对黑盒模型实现了有效的迁移性。此外,该方法即使在防御策略下也保持了强大的攻击性能。

[39] 起始位置很重要:关于神经网络量化更优权重初始化的研究
标题: Starting Positions Matter: A Study on Better Weight Initialization for Neural Network Quantization
作者: Stone Yun / Alexander Wong
原文:   [英文]   [中文]  
备注: Portions of this article have been presented as extended abstracts at the ICCV 2023 Workshop on Low Bit Quantized Neural Networks (ICCVW-LBQNN 2023) and the 2020 Conference on Vision and Intelligent Systems (CVIS 2020). arXiv admin note: text overlap with arXiv:2011.14578, arXiv:2208.12489, arXiv:2309.13773
摘要:
深度神经网络(DNN)量化用于快速、高效的推理,是限制机器学习(ML)模型推理成本的重要工具。量化特定的模型开发技术,如正则化、量化感知训练和量化鲁棒性惩罚,大大提高了现代DNN的准确性和鲁棒性。然而,关于改善DNN训练的初始条件以进行量化的探索却很少。正如随机权重初始化已被证明显著影响浮点模型的测试准确性一样,不同的权重初始化方法也会影响训练模型的量化鲁棒性。我们进行了广泛的研究,考察了不同权重初始化对常用于高效CNN的各种CNN构建模块的影响。该分析揭示,即使在不同的CNN架构中,随机权重初始化器的选择也能显著影响最终的量化鲁棒性。接下来,我们探索了一种新的量化鲁棒CNN初始化方法——使用图超网络(GHN)预测量化DNN的参数。除了显示GHN预测的参数在常规float32预训练(GHN)后具有量化鲁棒性外,我们还发现微调GHN以预测量化图的参数(我们称之为GHN-QAT)可以进一步提高CNN的量化准确性。值得注意的是,GHN-QAT在4位量化中显示出显著的准确性提升,并在2位量化中表现出优于随机的准确性。据我们所知,这是首次对量化感知DNN权重初始化的深入研究。GHN-QAT为量化DNN模型设计提供了一种新颖的方法。未来的研究,如使用GHN-QAT初始化的参数进行量化感知训练,可以进一步简化DNN量化过程。

[40] MedSeg-R:使用多模态大型语言模型进行医学图像的推理分割
标题: MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models
作者: Yu Huang / Zelin Peng / Yichen Zhao / Piao Yang / Xiaokang Yang / Wei Shen
原文:   [英文]  
备注: †: Equal contribution
摘要:
医学图像分割对于临床诊断至关重要,但现有模型受限于对明确人类指令的依赖,缺乏主动推理能力来理解复杂的临床问题。尽管最近在多模态大型语言模型(MLLMs)方面的进展改善了医学问答(QA)任务,大多数方法在生成精确的分割掩码方面仍然存在困难,限制了其在自动医学诊断中的应用。在本文中,我们引入了医学图像推理分割这一新颖任务,旨在基于复杂和隐含的医学指令生成分割掩码。为此,我们提出了MedSeg-R,这是一种端到端框架,利用MLLMs的推理能力来解释临床问题,同时能够为医学图像生成相应的精确分割掩码。它建立在两个核心组件之上:1)全局上下文理解模块,该模块解释图像并理解复杂的医学指令以生成多模态中间标记;2)像素级定位模块,该模块解码这些标记以生成精确的分割掩码和文本响应。此外,我们引入了MedSeg-QA,这是一个为医学图像推理分割任务量身定制的大规模数据集。它包括超过10,000个图像-掩码对和多轮对话,使用大型语言模型自动注释并通过医生审查进行精炼。实验表明,MedSeg-R在多个基准测试中表现优异,达到了高分割精度,并实现了医学图像的可解释文本分析。

[41] 大型语言模型尚未准备好用于深度伪造图像检测
标题: LLMs Are Not Yet Ready for Deepfake Image Detection
作者: Shahroz Tariq / David Nguyen / M.A.P. Chamikara / Tingmin Wu / Alsharif Abuadbba / Kristen Moore
原文:   [英文]   [中文]  
备注: 6 pages, 3 figures, and 2 tables. paper is under review
摘要:
深度伪造技术日益复杂,对媒体的完整性和公众信任的维护构成了重大挑战。同时,视觉语言模型(VLMs),即具备视觉推理能力的大型语言模型,已在各个领域中展现出潜力,引发了对其在深度伪造检测中的应用兴趣。本研究对四个主要的视觉语言模型进行了结构化的零样本评估:ChatGPT、Claude、Gemini和Grok,重点关注三种主要的深度伪造类型:面部交换、重演和合成生成。利用精心组装的基准测试,该测试包含来自不同来源的真实和被操控的图像,我们评估了每个模型的分类准确性和推理深度。我们的分析表明,虽然视觉语言模型能够生成连贯的解释并检测表面层次的异常,但它们尚不足以作为独立的检测系统。我们强调了关键的失败模式,例如过度关注风格元素以及易受误导性视觉模式(如复古美学)的影响。然而,视觉语言模型在可解释性和上下文分析方面表现出优势,表明它们有潜力在法医工作流程中增强人类专业知识。这些见解表明,尽管通用模型目前缺乏自主深度伪造检测所需的可靠性,但它们作为混合或人类参与检测框架中的重要组成部分具有前景。

[42] 乐谱基准:标准化光学音乐识别评估
标题: Sheet Music Benchmark: Standardized Optical Music Recognition Evaluation
作者: Juan C. Martinez-Sevilla / Joan Cerveto-Serrano / Noelia Luna / Greg Chapman / Craig Sapp / David Rizo / Jorge Calvo-Zaragoza
原文:   [英文]   [中文]  
备注: None
摘要:
在这项工作中,我们介绍了乐谱基准(Sheet Music Benchmark,SMB),这是一个包含六百八十五页的专门为光学音乐识别(OMR)研究设计的数据集。SMB涵盖了多种音乐纹理,包括单声部、钢琴形式、四重奏等,所有这些都使用Humdrum **kern格式编码为通用西方现代记谱法。除了SMB,我们还引入了OMR标准化编辑距离(OMR-NED),这是一种专门为评估OMR性能而设计的新指标。OMR-NED基于广泛使用的符号错误率(SER),提供了细粒度和详细的错误分析,涵盖了诸如音符头、连音线、音高、临时记号和其他关键记谱特征等单个音乐元素。OMR-NED提供的数值评分便于清晰的比较,使研究人员和终端用户能够识别出最佳的OMR方法。因此,我们的工作填补了OMR评估中的长期空白,并通过使用标准化的SMB数据集划分进行基线实验来支持我们的贡献,以训练和评估最先进的方法。

[43] 使用高光谱图像进行蜂蜜植物来源分类的类别增量学习:一种基于持续反向传播的研究
标题: Class-Incremental Learning for Honey Botanical Origin Classification with Hyperspectral Images: A Study with Continual Backpropagation
作者: Guyang Zhang / Waleed Abdulla
原文:   [英文]   [中文]  
备注: None
摘要:
蜂蜜是全球市场上一种重要的商品。不同植物来源的蜂蜜类型提供了多样化的风味和健康益处,因此具有不同的市场价值。开发准确有效的植物来源区分技术对于保护消费者的利益至关重要。然而,要一次性收集所有种类的蜂蜜产品来训练植物来源区分模型是不切实际的。因此,研究人员开发了类增量学习(CIL)技术来应对这一挑战。本研究在一个真实世界的蜂蜜高光谱成像数据集上检验并比较了多种CIL算法。还提出了一种新技术,通过结合持续反向传播(CB)算法来提高类增量学习算法的性能。CB方法通过重新初始化一部分使用较少的隐藏神经元来解决可塑性丧失的问题,从而为神经网络注入多样性。实验表明,CB提高了大多数CIL方法的性能,提升幅度为1-7%。

[44] 语义定位引导任意分割模型进行参考遥感图像分割
标题: Semantic Localization Guiding Segment Anything Model For Reference Remote Sensing Image Segmentation
作者: Shuyang Li / Shuang Wang / Zhuangzhuang Sun / Jing Xiao
原文:   [英文]   [中文]  
备注: None
摘要:
参考遥感图像分割(RRSIS)任务根据文本描述为图像中的特定对象生成分割掩码,这一任务引起了广泛关注和研究兴趣。目前的RRSIS方法依赖于多模态融合骨干网络和语义分割头,但面临着密集标注需求和复杂场景解释等挑战。为了解决这些问题,我们提出了一个名为“提示生成的语义定位引导分割任何模型”(PSLG-SAM)的框架,该框架将RRSIS任务分解为两个阶段:粗定位和精细分割。在粗定位阶段,一个视觉定位网络大致定位文本描述的对象。在精细分割阶段,第一阶段的坐标引导分割任何模型(SAM),通过基于聚类的前景点生成器和掩码边界迭代优化策略进行精确分割。值得注意的是,第二阶段可以无需训练,从而显著减少RRSIS任务的标注数据负担。此外,将RRSIS任务分解为两个阶段可以专注于特定区域的分割,避免复杂场景的干扰。我们还贡献了一个高质量、多类别的手动标注数据集。在两个数据集(RRSIS-D和RRSIS-M)上的实验验证表明,PSLG-SAM实现了显著的性能提升,并超越了现有的最先进方法。代码将公开发布。

[45] J-DDL:战斗机表面损伤检测与定位系统
标题: J-DDL: Surface Damage Detection and Localization System for Fighter Aircraft
作者: Jin Huang / Mingqiang Wei / Zikuan Li / Hangyu Qu / Wei Zhao / Xinyu Bai
原文:   [英文]   [中文]  
备注: None
摘要:
为了确保战斗机的安全性和延长其使用寿命,必须进行频繁且详尽的检查。虽然人类检查员可以检测表面缺陷,但由于飞机表面的广阔面积、结构复杂性和维护操作的需求,手动方法在可扩展性、效率和一致性方面面临关键限制。我们提出了一种用于战斗机的智能表面损伤检测和定位系统,称为J-DDL。J-DDL通过使用激光扫描仪和相机的组合系统捕获整个飞机表面的2D图像和3D点云,以实现精确的损伤检测和定位。我们系统的核心是一个新颖的损伤检测网络,基于YOLO架构,专门优化用于识别2D飞机图像中的表面缺陷。关键创新包括用于高效特征提取的轻量级Fasternet模块,结合高效多尺度注意力(EMA)模块的优化颈部架构以实现卓越的特征聚合,以及引入一种新颖的损失函数Inner-CIOU以提高检测精度。在2D图像中检测到损伤后,系统将识别出的异常映射到相应的3D点云上,从而实现飞机表面缺陷的精确3D定位。我们的J-DDL不仅简化了检查过程,还确保对大型和复杂飞机外部的更全面和详细的覆盖。为了促进该领域的进一步发展,我们开发了第一个专注于飞机损伤的公开可用数据集。实验评估验证了我们框架的有效性,强调了其在显著推进自动化飞机检查技术方面的潜力。

[46] CogStream: 基于上下文引导的流媒体视频问答
标题: CogStream: Context-guided Streaming Video Question Answering
作者: Zicheng Zhao / Kangyu Wang / Shijie Li / Rui Qian / Weiyao Lin / Huabin Liu
原文:   [英文]   [中文]  
备注: None
摘要:
尽管视频大语言模型(Vid-LLMs)在多模态理解方面取得了进展,但由于其依赖于上下文信息,流视频推理仍面临挑战。现有范式将所有可用的历史上下文信息输入到Vid-LLMs中,导致视觉数据处理的计算负担显著增加。此外,包含无关的上下文会使模型分散对关键细节的注意力。本文介绍了一项名为上下文引导流视频推理(CogStream)的挑战性任务,该任务模拟真实世界的流视频场景,要求模型识别最相关的历史上下文信息,以推断当前流的问题答案。为了支持CogStream,我们提供了一个密集注释的数据集,包含广泛且层次化的问题答案对,由半自动化流程生成。此外,我们提出了CogReasoner作为基线模型。它通过利用视觉流压缩和历史对话检索有效地解决这一任务。大量实验证明了该方法的有效性。代码将很快发布。

[47] ALBERT:用于汽车损伤评估的高级定位和双向编码器表示
标题: ALBERT: Advanced Localization and Bidirectional Encoder Representations from Transformers for Automotive Damage Evaluation
作者: Teerapong Panboonyuen
原文:   [英文]   [中文]  
备注: 10 pages
摘要:
本文介绍了ALBERT,这是一种专门为全面的汽车损伤和部件分割而设计的实例分割模型。ALBERT利用双向编码器表示的强大功能,结合先进的定位机制,能够准确识别和区分真实和伪造的损伤,并分割出各个汽车部件。该模型在一个大规模、详细标注的汽车数据集上进行训练,该数据集将损伤分为26种类型,识别出7种伪造损伤变体,并分割出61个不同的汽车部件。我们的方法在分割准确性和损伤分类方面表现出色,为智能汽车检测和评估应用铺平了道路。

[48] SLICK:用于汽车保险中知识增强的汽车损伤分割的选择性定位和实例校准
标题: SLICK: Selective Localization and Instance Calibration for Knowledge-Enhanced Car Damage Segmentation in Automotive Insurance
作者: Teerapong Panboonyuen
原文:   [英文]   [中文]  
备注: 10 pages
摘要:
我们提出了SLICK,这是一种新颖的框架,用于精确和稳健的汽车损伤分割。该框架利用结构先验和领域知识来应对现实世界中的汽车检查挑战。SLICK引入了五个关键组件:(1)选择性部件分割,使用高分辨率语义骨干网络,在结构先验的指导下,即使在遮挡、变形或油漆损失的情况下,也能实现对车辆部件的精确分割;(2)定位感知注意力模块,动态聚焦于受损区域,增强在杂乱和复杂街景中的细粒度损伤检测;(3)实例敏感精细化头,利用全景线索和形状先验来解开重叠或相邻部件,实现精确的边界对齐;(4)跨通道校准,通过多尺度通道注意力放大细微损伤信号,如划痕和凹痕,同时抑制噪声,如反射和贴花;(5)知识融合模块,整合合成碰撞数据、部件几何和现实保险数据集,以提高泛化能力并有效处理罕见情况。大规模汽车数据集上的实验表明,SLICK在分割性能、稳健性和保险及汽车检查工作流程的实际适用性方面具有优越性。

[49] 用于EPIC-KITCHENS-100多实例检索挑战赛2025的ContextRefine-CLIP
标题: ContextRefine-CLIP for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2025
作者: Jing He / Yiqing Wang / Lingling Li / Kexin Zhang / Puhua Chen
原文:   [英文]   [中文]  
备注: None
摘要:
本报告介绍了ContextRefine-CLIP (CR-CLIP),这是一种用于视觉-文本多实例检索任务的高效模型。该方法基于双编码器AVION,我们在其上引入了跨模态注意力流模块,以实现视觉和文本特征之间的双向动态交互和细化,从而生成更具上下文感知的联合表示。对于EPIC-KITCHENS-100等任务中提供的软标签相关矩阵,CR-CLIP可以与对称多相似性损失一起工作,利用细化后的特征实现更准确的语义对齐和优化。在不使用集成学习的情况下,CR-CLIP模型在EPIC-KITCHENS-100公共排行榜上达到了66.78mAP和82.08nDCG,显著优于基线模型,充分验证了其在跨模态检索中的有效性。代码将在此https URL上开源发布。

[50] 从图像到洞察:通过通俗语言的栖息地解释实现可解释的生物多样性监测
标题: From Images to Insights: Explainable Biodiversity Monitoring with Plain Language Habitat Explanations
作者: Yutong Zhou / Masahiro Ryo
原文:   [英文]   [中文]  
备注: Code will be released at: this https URL
摘要:
解释为什么某个物种生活在特定地点对于理解生态系统和保护生物多样性至关重要。然而,现有的生态工作流程是分散的,通常对非专业人士来说难以访问。我们提出了一种端到端的视觉到因果框架,将物种图像转化为关于其栖息地偏好的可解释因果见解。该系统集成了物种识别、全球出现检索、伪缺失采样和气候数据提取。然后,我们在环境特征之间发现因果结构,并使用现代因果推断方法估计它们对物种出现的影响。最后,我们从结构化模板和大型语言模型生成统计上有依据的、可读的因果解释。我们在蜜蜂和花卉物种上展示了该框架,并报告了作为正在进行的项目的一部分的早期结果,显示了多模态人工智能助手的潜力,该助手通过推荐的生态建模实践支持,以人类可理解的语言描述物种栖息地。

[51] 比较分布时的尾部平衡:综合公平指数(CEI)及其在操作性人脸生物识别偏差评估中的应用
标题: Balancing Tails when Comparing Distributions: Comprehensive Equity Index (CEI) with Application to Bias Evaluation in Operational Face Biometrics
作者: Imanol Solano / Julian Fierrez / Aythami Morales / Alejandro Peña / Ruben Tolosana / Francisco Zamora-Martinez / Javier San Agustin
原文:   [英文]   [中文]  
备注: None
摘要:
高性能人脸识别(FR)系统中的人口统计偏差常常难以被现有指标检测到,尤其是在分数分布尾部的细微差异方面。我们引入了综合公平指数(CEI),这是一种旨在解决这一局限的新指标。CEI 独特地分别分析真实和冒充者的分数分布,使其能够灵活地关注尾部概率,同时也考虑整体分布形状。我们的大量实验(评估最先进的 FR 系统、故意偏向的模型和多样化的数据集)证实了 CEI 在检测细微偏差方面的优越能力,而之前的方法未能做到。此外,我们提出了 CEI^A,这是一种自动化版本的指标,增强了客观性并简化了实际应用。CEI 为操作性人脸识别公平性评估提供了一种稳健且敏感的工具。所提出的方法特别为面部生物识别中的偏差评估而开发,但一般来说,它们适用于任何需要分析分布尾部的统计分布比较问题。

[52] LRSLAM:稠密视觉SLAM系统中符号距离场的低秩表示
标题: LRSLAM: Low-rank Representation of Signed Distance Fields in Dense Visual SLAM System
作者: Hongbeen Park / Minjeong Park / Giljoo Nam / Jinkyu Kim
原文:   [英文]  
备注: Accepted at ECCV 2024
摘要:
同时定位与建图(SLAM)在自动驾驶、移动机器人和混合现实等多个领域中起着至关重要的作用。密集视觉SLAM利用RGB-D相机系统,虽然具有优势,但在实现实时性能、鲁棒性和大规模场景的可扩展性方面面临挑战。最近利用神经隐式场景表示的方法显示出前景,但存在高计算成本和内存需求的问题。ESLAM引入了一种基于平面的张量分解,但仍然难以解决内存增长的问题。为了解决这些挑战,我们提出了一种更高效的视觉SLAM模型,称为LRSLAM,利用低秩张量分解方法。我们的方法利用六轴和CP分解,较现有的最先进方法在收敛速度、内存效率和重建/定位质量方面取得了更好的效果。在各种室内RGB-D数据集上的评估表明,LRSLAM在参数效率、处理时间和准确性方面表现优越,同时保持了重建和定位质量。我们的代码将在发表后公开。

[53] DreamActor-H1:通过运动设计扩散变换器生成高保真人体产品演示视频
标题: DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers
作者: Lizhen Wang / Zhurong Xia / Tianshu Hu / Pengrui Wang / Pengfei Wang / Zerong Zheng / Ming Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
在电子商务和数字营销中,生成高保真的人物-产品演示视频对于有效的产品展示至关重要。然而,大多数现有框架要么无法保持人物和产品的身份,要么缺乏对人物-产品空间关系的理解,导致不真实的表现和不自然的互动。为了解决这些问题,我们提出了一种基于扩散变压器(DiT)的框架。我们的方法通过注入配对的人物-产品参考信息和利用额外的掩码交叉注意机制,同时保留人物身份和产品特定细节,如标志和纹理。我们采用3D人体网格模板和产品边界框来提供精确的运动指导,使手势与产品位置直观对齐。此外,结构化文本编码用于结合类别级别的语义,在帧间小幅旋转变化时增强3D一致性。通过在一个混合数据集上进行训练,并采用广泛的数据增强策略,我们的方法在保持人物和产品身份完整性以及生成逼真的演示动作方面优于最先进的技术。项目页面:this https URL。

[54] 通过病理级别的跨模态对齐和相关性探索来改善医学视觉表示学习
标题: Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration
作者: Jun Wang / Lixing Zhu / Xiaohan Yu / Abhir Bhalerao / Yulan He
原文:   [英文]   [中文]  
备注: 12 pages, 10 tables and 6 figures
摘要:
通过联合学习从图像-报告对中学习医学视觉表示,由于其在缓解医学领域数据稀缺问题上的潜力,已引起越来越多的研究关注。主要挑战来自于冗长的报告,这些报告具有复杂的语篇关系和语义病理。以往的工作主要集中在实例级或标记级的跨模态对齐,往往忽视了病理级一致性的重要性。本文提出了一种新颖的框架PLACE,通过相关性探索在不需要额外人工标注的情况下,促进病理级对齐并丰富细粒度细节。具体来说,我们提出了一种新颖的病理级跨模态对齐(PCMA)方法,以最大化图像和报告中病理观察的一致性。为此,引入了一个视觉病理观察提取器,从局部标记中提取视觉病理观察表示。PCMA模块独立于任何外部疾病标注,增强了我们方法的普适性和鲁棒性。此外,我们设计了一个代理任务,强制模型识别图像块之间的相关性,从而丰富了对各种下游任务至关重要的细粒度细节。实验结果表明,我们提出的框架在包括分类、图像到文本检索、语义分割、目标检测和报告生成在内的多个下游任务中实现了新的最先进性能。

[55] DanceChat:大型语言模型引导的音乐到舞蹈生成
标题: DanceChat: Large Language Model-Guided Music-to-Dance Generation
作者: Qing Wang / Xiaohang Yang / Yilan Dong / Naveen Raj Govindaraj / Gregory Slabaugh / Shanxin Yuan
原文:   [英文]   [中文]  
备注: check demos at this https URL
摘要:
音乐到舞蹈生成旨在根据音乐输入合成人体舞蹈动作。尽管最近取得了一些进展,但由于音乐与舞蹈动作之间的语义差距,仍然存在显著的挑战,因为音乐仅提供抽象的线索,如旋律、节奏和情感,而没有明确指定物理动作。此外,一段音乐可以产生多种合理的舞蹈诠释。这种一对多的映射需要额外的指导,因为仅靠音乐提供的信息有限,难以生成多样化的舞蹈动作。由于配对的音乐和舞蹈数据稀缺,这一挑战进一步加剧,限制了模型学习多样化舞蹈模式的能力。在本文中,我们介绍了DanceChat,一种由大型语言模型(LLM)指导的音乐到舞蹈生成方法。我们使用LLM作为编舞者,提供文本运动指令,为舞蹈生成提供明确的高级指导。这种方法超越了仅从音乐中隐式学习,使模型能够生成更具多样性且更符合音乐风格的舞蹈。我们的方法由三个组件组成:(1)基于LLM的伪指令生成模块,根据音乐风格和结构生成文本舞蹈指导,(2)多模态特征提取和融合模块,将音乐、节奏和文本指导整合为共享表示,以及(3)基于扩散的动作合成模块和多模态对齐损失,确保生成的舞蹈与音乐和文本线索对齐。在AIST++和人类评估上的广泛实验表明,DanceChat在质量和数量上均优于最先进的方法。

[56] 文本到图像的多标签图像识别与联合提示-适配器学习
标题: Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning
作者: Chun-Mei Feng / Kai Yu / Xinxing Xu / Salman Khan / Rick Siow Mong Goh / Wangmeng Zuo / Yong Liu
原文:   [英文]   [中文]  
备注: None
摘要:
受益于图像-文本对比学习,预训练的视觉-语言模型(例如 CLIP)可以直接利用文本作为图像(TaI)进行参数高效微调(PEFT)。虽然 CLIP 能够使图像特征与相应的文本特征相似,但模态差距仍然是一个不容忽视的问题,并限制了 TaI 的图像识别性能。以多标签图像识别(MLR)为例,我们提出了一种新方法,称为 T2I-PAL,以解决仅使用文本标题进行 PEFT 时的模态差距问题。T2I-PAL 的核心设计是利用预训练的文本到图像生成模型,从文本标题生成照片级真实且多样化的图像,从而减少模态差距。为了进一步增强 MLR,T2I-PAL 结合了类别热图和可学习的原型。这聚合了局部相似性,使局部视觉特征的表示在多标签识别中更加稳健和信息丰富。为了更好的 PEFT,我们进一步结合了提示调优和适配器学习以增强分类性能。T2I-PAL 提供了显著的优势:它消除了对完全语义标注训练图像的需求,从而减少了人工标注的工作量,并保留了 CLIP 模型的内在模式,允许与任何现有的 CLIP 框架无缝集成。在包括 MS-COCO、VOC2007 和 NUS-WIDE 在内的多个基准上的大量实验表明,我们的 T2I-PAL 可以在平均上比顶级的最新方法提高 3.47% 的识别性能。

[57] 协调几何与不确定性:使用超球体的扩散
标题: Harmonizing Geometry and Uncertainty: Diffusion with Hyperspheres
作者: Muskan Dosi / Chiranjeev Chiranjeev / Kartik Thakral / Mayank Vatsa / Richa Singh
原文:   [英文]   [中文]  
备注: None
摘要:
当代扩散模型是否保留了超球面数据的类别几何结构?标准扩散模型在前向过程中依赖于各向同性的高斯噪声,固有地偏向于欧几里得空间。然而,许多现实世界的问题涉及非欧几里得分布,例如超球面流形,其中类别特定的模式由超锥内的角度几何控制。当在欧几里得空间中建模时,这些角度细节会丢失,导致生成性能不佳。为了解决这一限制,我们引入了HyperSphereDiff,以将超球面结构与方向性噪声对齐,保留类别几何并有效捕捉角度不确定性。我们从理论和实证上证明了这种方法将生成过程与超球面数据的内在几何结构对齐,从而产生更准确和几何感知的生成模型。我们在四个对象数据集和两个面部数据集上评估了我们的框架,结果表明,结合角度不确定性可以更好地保留底层超球面流形。资源可在以下网址获取:{this https URL}

[58] 重新思考ViT自蒸馏中的随机掩码
标题: Rethinking Random Masking in Self Distillation on ViT
作者: Jihyeon Seong / Hyunkyung Han
原文:   [英文]   [中文]  
备注: 4 pages
摘要:
视觉Transformer(ViTs)在各种视觉任务中表现出色。特别是,像DINO这样的自蒸馏框架对这些进展贡献显著。在这样的框架中,随机掩码通常用于提高训练效率并引入正则化。然而,最近的研究提出了担忧,认为不加区分的随机掩码可能会无意中消除关键的语义信息,这促使人们开发更为明智的掩码策略。在本研究中,我们探讨了随机掩码在自蒸馏环境中的作用,重点关注DINO框架。具体而言,我们仅对学生的全局视图应用随机掩码,同时保留学生的局部视图和教师的全局视图的原始未掩码形式。此设计利用DINO的多视图增强方案,在通过掩码输入引入鲁棒性的同时保留干净的监督。我们使用DINO-Tiny在mini-ImageNet数据集上评估我们的方法,结果表明,在这种不对称设置下的随机掩码产生了更鲁棒和细粒度的注意力图,最终提升了下游性能。

[59] 用于飞机制造和测量的CAD模型的分层误差评估
标题: Hierarchical Error Assessment of CAD Models for Aircraft Manufacturing-and-Measurement
作者: Jin Huang / Honghua Chen / Mingqiang Wei
原文:   [英文]   [中文]  
备注: None
摘要:
航空设备最重要的特征是高质量,包括高性能、高稳定性和高可靠性。在本文中,我们提出了一种新颖的分层误差评估框架,用于制造和测量平台中的飞机CAD模型,称为HEA-MM。HEA-MM采用结构光扫描仪来获取制造工件的全面3D测量。测量得到的点云与参考CAD模型进行配准,然后在三个分层级别进行误差分析:全局、部件和特征。在全局级别,误差分析评估扫描点云与参考CAD模型的整体偏差。在部件级别,对点云底层的这些补丁进行误差分析。我们提出了一种新颖的基于优化的原始细化方法,以获得一组有意义的点云补丁。引入了两个基本操作,分割和合并,以细化粗略的原始数据。在特征级别,对CAD模型中常见的圆孔进行误差分析。为此,引入了一个两阶段算法用于圆孔检测。首先,使用张量投票算法识别边缘点。然后,通过假设和聚类框架拟合多个圆,确保圆形特征的准确检测和分析。对各种飞机CAD模型的实验结果证明了我们提出方法的有效性。

[60] 语义解耦的空间分区引导的点监督定向目标检测
标题: Semantic-decoupled Spatial Partition Guided Point-supervised Oriented Object Detection
作者: Xinyuan Liu / Hang Xu / Yike Ma / Yucheng Zhang / Feng Dai
原文:   [英文]   [中文]  
备注: None
摘要:
最近的遥感技术进步推动了影像数据的增长,使得定向目标检测得以快速发展,但在高密度场景中,繁重的标注工作成为阻碍。使用点监督的定向目标检测为遥感中的密集场景提供了一种成本效益高的解决方案,但现有方法由于基于固定规则的设计,存在样本分配不足和实例混淆的问题。为了解决这些问题,我们提出了SSP(语义解耦空间划分),一个统一的框架,结合了规则驱动的先验注入和数据驱动的标签净化。具体来说,SSP引入了两个核心创新:1)基于像素级空间划分的样本分配,通过像素图的空间划分紧凑地估计对象尺度的上下界,并挖掘高质量的正样本和困难负样本。2)基于语义空间划分的框提取,从由语义图调制的空间划分中提取实例,并可靠地将其转换为边界框,形成伪标签以监督下游检测器的学习。在DOTA-v1.0等数据集上的实验表明,SSP具有优越性:在点监督下实现了45.78%的mAP,超过了SOTA方法PointOBB-v2的4.10%。此外,当与ORCNN和ReDet架构集成时,SSP框架分别实现了47.86%和48.50%的mAP值。代码可在此https URL获取。

[61] 使用预训练的潜在扩散模型从WiFi CSI生成高分辨率高效图像
标题: High-resolution efficient image generation from WiFi CSI using a pretrained latent diffusion model
作者: Eshan Ramesh / Nishio Takayuki
原文:   [英文]   [中文]  
备注: 6 pages, 4 figures
摘要:
我们介绍了LatentCSI,这是一种从WiFi CSI测量生成物理环境图像的新方法,该方法利用了预训练的潜在扩散模型(LDM)。与依赖于复杂且计算密集技术(如GANs)的先前方法不同,我们的方法使用轻量级神经网络将CSI幅度直接映射到LDM的潜在空间。然后,我们在潜在表示上应用LDM的去噪扩散模型,并结合基于文本的指导,在使用LDM的预训练解码器解码之前,获得高分辨率图像。该设计绕过了像素空间图像生成的挑战,并避免了传统图像到图像流程中通常需要的显式图像编码阶段,从而实现了高效且高质量的图像合成。我们在两个数据集上验证了我们的方法:一个我们用现成的WiFi设备和相机收集的宽带CSI数据集;以及一个公开可用的MM-Fi数据集的子集。结果表明,LatentCSI在计算效率和感知质量上均优于直接在真实图像上训练的具有可比复杂度的基线,同时通过其独特的文本引导可控性提供了实际优势。

[62] MSTAR:无框多查询场景文本检索与注意力回收
标题: MSTAR: Box-free Multi-query Scene Text Retrieval with Attention Recycling
作者: Liang Yin / Xudong Xie / Zhang Li / Xiang Bai / Yuliang Liu
原文:   [英文]   [中文]  
备注: None
摘要:
场景文本检索在准确的文本定位的帮助下取得了显著进展。然而,现有的方法通常需要昂贵的边界框标注进行训练。此外,它们大多采用定制的检索策略,但难以统一各种类型的查询以满足多样化的检索需求。为了解决这些问题,我们引入了带有注意力回收的多查询场景文本检索(MSTAR),这是一种无需边框的场景文本检索方法。它结合了渐进式视觉嵌入,以动态捕捉文本的多粒度表示,并协调自由风格的文本查询与风格感知指令。此外,集成了多实例匹配模块以增强视觉-语言对齐。此外,我们构建了多查询文本检索(MQTR)数据集,这是第一个用于评估模型多查询场景文本检索能力的基准,包含四种查询类型和16,000张图像。大量实验表明,我们的方法在七个公共数据集和MQTR数据集上具有优越性。值得注意的是,MSTAR在Total-Text上的MAP比之前的最先进模型略高6.4%,同时消除了边框标注成本。此外,在MQTR基准上,MSTAR平均比之前的模型高出8.5%。代码和数据集可在此https URL获取。

[63] TexTailor:通过有效重采样实现定制化文本对齐纹理
标题: TexTailor: Customized Text-aligned Texturing via Effective Resampling
作者: Suin Lee / Dae-Shik Kim
原文:   [英文]   [中文]  
备注: Submitted to ICLR 2025
摘要:
我们介绍了TexTailor,这是一种从文本描述生成一致对象纹理的新方法。现有的文本到纹理合成方法利用深度感知扩散模型逐步生成图像,并在预定义的多个视点上合成纹理。然而,这些方法导致纹理属性在视点之间逐渐变化,原因是:(1) 在扩散过程中每个视点未充分整合先前合成的纹理,以及 (2) 纹理合成过程的自回归特性。此外,预定义的相机位置选择未考虑对象的几何形状,限制了从不同视点合成的纹理信息的有效利用,最终降低了整体纹理的一致性。在TexTailor中,我们通过以下方法解决这些问题:(1) 应用重采样方案,在扩散过程中反复整合先前合成的纹理信息,以及 (2) 在这些重采样纹理上微调深度感知扩散模型。在此过程中,我们观察到仅使用少量训练图像限制了模型生成与条件对齐的高保真图像的原始能力,因此提出了一种性能保持损失来缓解这一问题。此外,我们通过根据对象的几何形状自适应调整相机位置来改进视图一致纹理的合成。在Objaverse数据集的一个子集和ShapeNet汽车数据集上的实验表明,TexTailor在合成视图一致纹理方面优于最先进的方法。TexTailor的源代码可在此https URL获取。

[64] 基于解剖学的弱监督提示调优用于胸部X光潜在扩散模型
标题: Anatomy-Grounded Weakly Supervised Prompt Tuning for Chest X-ray Latent Diffusion Models
作者: Konstantinos Vilouras / Ilias Stogiannidis / Junyu Yan / Alison Q. O'Neil / Sotirios A. Tsaftaris
原文:   [英文]   [中文]  
备注: 14 pages, 6 figures
摘要:
近年来,潜在扩散模型在文本引导的图像合成方面展示了显著的成果。在自然(RGB)图像领域,最近的研究表明,这类模型可以在几乎不需要监督的情况下适应各种视觉-语言下游任务。相反,文本到图像的潜在扩散模型在医学影像领域仍然相对未被充分探索,主要是由于数据可用性有限(例如,由于隐私问题)。在这项工作中,我们专注于胸部X光片模态,首先展示了一个标准的文本条件潜在扩散模型尚未学会将自由文本放射学报告中的临床相关信息与给定扫描的相应区域对齐。然后,为了解决这个问题,我们提出了一种微调框架,以改善预训练模型中的多模态对齐,使其能够高效地重新用于诸如短语定位等下游任务。我们的方法在一个标准基准数据集(MS-CXR)上设定了新的最先进水平,同时在分布外数据(VinDr-CXR)上也表现出稳健的性能。我们的代码将公开发布。

[65] 对称流匹配:基于分数的生成模型实现统一的图像生成、分割和分类
标题: Symmetrical Flow Matching: Unified Image Generation, Segmentation, and Classification with Score-Based Generative Models
作者: Francisco Caetano / Christiaan Viviers / Peter H.N. De With / Fons van der Sommen
原文:   [英文]   [中文]  
备注: None
摘要:
流匹配已成为学习分布之间连续变换的强大框架,能够实现高保真生成建模。本文介绍了对称流匹配(SymmFlow),这是一种将语义分割、分类和图像生成统一在单一模型中的新方法。通过使用对称学习目标,SymmFlow联合建模正向和反向变换,确保双向一致性,同时保留足够的熵以实现生成多样性。引入了一种新的训练目标,明确保留流中的语义信息,具有高效采样的同时保留语义结构,允许一步分割和分类而无需迭代细化。与之前将掩码和图像之间强加严格一对一映射的方法不同,SymmFlow推广到灵活的条件,支持像素级和图像级的类别标签。在各种基准测试上的实验结果表明,SymmFlow在语义图像合成上达到了最先进的性能,在CelebAMask-HQ上获得了11.9的FID分数,在COCO-Stuff上获得了7.0的FID分数,仅需25次推理步骤。此外,它在语义分割上提供了有竞争力的结果,并在分类任务中显示出有前景的能力。代码将公开提供。

[66] GigaVideo-1:通过自动反馈和4 GPU小时微调推进视频生成
标题: GigaVideo-1: Advancing Video Generation via Automatic Feedback with 4 GPU-Hours Fine-Tuning
作者: Xiaoyi Bao / Jindi Lv / Xiaofeng Wang / Zheng Zhu / Xinze Chen / YuKun Zhou / Jiancheng Lv / Xingang Wang / Guan Huang
原文:   [英文]  
备注: None
摘要:
近年来,扩散模型的进展极大地提升了视频生成的质量,但这些模型仍需通过微调来改善实例保留、运动合理性、构图和物理合理性等特定维度。现有的微调方法通常依赖于人工标注和大规模计算资源,限制了其实用性。在这项工作中,我们提出了GigaVideo-1,这是一种高效的微调框架,可以在无需额外人工监督的情况下提升视频生成质量。GigaVideo-1并不是通过引入大量外部高质量数据,而是通过自动反馈释放预训练视频扩散模型的潜在能力。具体来说,我们关注微调过程中的两个关键方面:数据和优化。为了改进微调数据,我们设计了一个以提示为驱动的数据引擎,用于构建多样化的、针对弱点的训练样本。在优化方面,我们引入了一种奖励引导的训练策略,该策略利用预训练视觉-语言模型的反馈并结合现实约束,自适应地对样本进行加权。我们在VBench-2.0基准上使用Wan2.1作为基线进行评估,涵盖17个评估维度。实验表明,GigaVideo-1在几乎所有维度上都能持续提升性能,平均增益约为4%,仅需4个GPU小时。无需人工标注和极少的真实数据,GigaVideo-1展示了其有效性和高效性。代码、模型和数据将公开发布。

[67] PiPViT:基于图块的视网膜图像分析可解释原型
标题: PiPViT: Patch-based Visual Interpretable Prototypes for Retinal Image Analysis
作者: Marzieh Oghbaie / Teresa Araújoa / Hrvoje Bogunović
原文:   [英文]   [中文]  
备注: None
摘要:
背景与目标:基于原型的方法通过学习细粒度的部分原型来提高可解释性;然而,它们在输入像素空间中的可视化并不总是与人类可理解的生物标记一致。此外,众所周知的基于原型的方法通常学习极其细粒度的原型,这在医学成像中不太具有可解释性,因为生物标记和病变的存在及其程度都很关键。 方法:为了解决这些挑战,我们提出了PiPViT(基于Patch的视觉可解释原型),这是一种本质上可解释的图像识别原型模型。通过利用视觉变换器(ViT),PiPViT捕捉补丁之间的长程依赖关系,以学习稳健的、可被人类理解的原型,这些原型仅使用图像级标签来近似病变程度。此外,PiPViT受益于对比学习和多分辨率输入处理,这使得能够在不同尺度上有效定位生物标记。 结果:我们在四个数据集上对视网膜OCT图像分类进行了PiPViT的评估,结果显示其在定量性能上与最先进的方法相比具有竞争力,同时提供了更有意义的解释。此外,在保留测试集上的定量评估证实了所学习的原型在语义和临床上都是相关的。我们相信PiPViT可以透明地解释其决策,并帮助临床医生理解诊断结果。Github页面:this https URL

[68] 使用SE块注意力机制结合卷积神经网络增强Deepfake检测
标题: Enhancing Deepfake Detection using SE Block Attention with CNN
作者: Subhram Dasgupta / Janelle Mason / Xiaohong Yuan / Olusola Odeyomi / Kaushik Roy
原文:   [英文]   [中文]  
备注: None
摘要:
在数字时代,深度伪造通过使用先进的人工智能技术创建高度逼真的操控内容,对信息的真实性和安全性构成了严峻挑战。这些复杂的伪造在复杂性和真实性上超越了传统的检测方法。为了解决这个问题,我们旨在利用尖端的深度学习方法来设计一种创新的深度伪造检测模型。然而,大多数为深度伪造检测设计的模型都很大,导致存储和内存消耗严重。在这项研究中,我们提出了一种轻量级的卷积神经网络(CNN),结合了压缩和激励块注意力(SE)用于深度伪造检测。SE块模块旨在执行动态的通道级特征重新校准。SE块允许网络强调信息性特征并抑制不太有用的特征,从而形成一个更高效和有效的学习模块。该模块与一个简单的顺序模型集成以执行深度伪造检测。该模型体积较小,并在深度伪造检测任务中实现了与现有模型相媲美的准确性。该模型在多样化假脸数据集的Style GAN数据集上实现了94.14%的总体分类准确率和0.985的AUC-ROC得分。我们提出的方法为以最小的计算资源应对深度伪造挑战提供了一条有前途的途径,开发了用于数字内容验证的高效且可扩展的解决方案。

[69] 无源对抗性验证码:一种双阶段对抗性验证码框架
标题: Unsourced Adversarial CAPTCHA: A Bi-Phase Adversarial CAPTCHA Framework
作者: Xia Du / Xiaoyuan Liu / Jizhe Zhou / Zheng Lin / Chi-man Pun / Zhe Chen / Wei Ni / Jun Luo
原文:   [英文]   [中文]  
备注: None
摘要:
随着深度学习的快速发展,传统的验证码方案越来越容易受到由深度神经网络(DNNs)驱动的自动化攻击。现有的对抗攻击方法通常依赖于原始图像特征,导致失真,妨碍人类的理解,并限制了在缺乏初始输入图像的场景中的适用性。为了解决这些挑战,我们提出了无源对抗验证码(UAC),这是一种新颖的框架,通过攻击者指定的文本提示生成高保真对抗样本。利用大型语言模型(LLM),UAC增强了验证码的多样性,并支持有目标和无目标攻击。对于有目标攻击,EDICT方法在扩散模型中优化双重潜在变量,以获得卓越的图像质量。在无目标攻击中,特别是对于黑箱场景,我们引入了双路径无源对抗验证码(BP-UAC),这是一种采用多模态梯度和双路径优化的两步优化策略,以实现高效的错误分类。实验表明,BP-UAC在各种系统中实现了高攻击成功率,生成了对人类和DNNs都无法区分的自然验证码。

[70] 通过多任务和多年龄方法在非约束图像中筛选未成年人进行未成年检测
标题: Underage Detection through a Multi-Task and MultiAge Approach for Screening Minors in Unconstrained Imagery
作者: Christopher Gaul / Eduardo Fidalgo / Enrique Alegre / Rocío Alaiz Rodríguez / Eri Pérez Corral
原文:   [英文]   [中文]  
备注: None
摘要:
在非约束图像中对未成年人进行准确的自动筛查需要模型对分布偏移具有鲁棒性,并能应对公开数据中儿童代表性不足的问题。为了解决这些问题,我们提出了一种多任务架构,该架构基于冻结的FaRL视觉-语言骨干网络,并结合了一个紧凑的两层MLP,跨越一个年龄回归头和四个二元未成年头共享特征,针对12、15、18和21岁的年龄阈值,重点关注法律上关键的年龄范围。为了解决严重的类别不平衡问题,我们引入了一个$\alpha$-重加权的焦点式损失和年龄平衡的小批量采样,在随机优化过程中平衡十二个年龄区间。通过去除损失中的边缘情况,进一步提高了性能。 此外,我们通过提出整体未成年基准来设定严格的评估标准,该基准包含30.3万张清理过的训练图像和11万张测试图像,定义了“ASORES-39k”限制性整体测试,去除了噪声最大的领域,以及包含2万张图像的年龄估计野外偏移测试“ASWIFT-20k”,强调极端姿势(>45°)、表情和低图像质量,以模拟现实世界的偏移。 在经过重采样和年龄间隙处理的清理过的整体数据集上训练后,我们的多年龄模型“F”将ASORES-39k限制性测试的均方根误差从5.733(仅年龄基线)降低到5.656年,并将未满18岁的检测从F2分数0.801提升到0.857,假成人率为1%。在ASWIFT-20k的野外数据域偏移下,相同的配置几乎维持了0.99的召回率,同时将F2从0.742提升到0.833,相对于仅年龄基线,展示了在分布偏移下的强泛化能力。对于未满12岁和未满15岁的任务,F2的提升分别从0.666到0.955和从0.689到0.916。

[71] 实例和类别的连续双曲学习
标题: Continual Hyperbolic Learning of Instances and Classes
作者: Melika Ayoughi / Mina Ghadimi Atigh / Mohammad Mahdi Derakhshani / Cees G. M. Snoek / Pascal Mettes / Paul Groth
原文:   [英文]   [中文]  
备注: None
摘要:
持续学习传统上专注于对实例或类别进行分类,但现实世界的应用,如机器人技术和自动驾驶汽车,需要模型同时处理这两者。为了反映现实生活中的场景,我们引入了同时进行实例和类别持续学习的任务。这个任务挑战模型随着时间的推移适应多层次的细粒度,这需要在细粒度的实例识别和粗粒度的类别泛化之间取得平衡。在本文中,我们发现类别和实例自然形成了一个层次结构。为了对这些层次关系进行建模,我们提出了HyperCLIC,这是一种利用双曲空间的持续学习算法,由于其能够以低失真和紧凑嵌入表示树状结构的能力,双曲空间特别适合于层次数据。我们的框架结合了双曲分类和蒸馏目标,实现了层次关系的持续嵌入。为了评估跨多个粒度的性能,我们引入了持续层次指标。我们在EgoObjects上验证了我们的方法,这是唯一一个捕捉动态现实环境中层次对象识别复杂性的数据集。实证结果表明,HyperCLIC在多个粒度上有效运行,并改善了层次泛化。

[72] 用于伪装物体检测优化的不确定性掩蔽伯努利扩散
标题: Uncertainty-Masked Bernoulli Diffusion for Camouflaged Object Detection Refinement
作者: Yuqi Shen / Fengyang Xiao / Sujie Hu / Youwei Pang / Yifan Pu / Chengyu Fang / Xiu Li / Chunming He
原文:   [英文]   [中文]  
备注: 16 pages, 7 figures
摘要:
伪装物体检测(COD)由于目标与背景之间微妙的视觉差异,呈现出固有的挑战。尽管现有方法取得了显著进展,但在后处理优化方面仍有很大的潜力尚未被充分探索。为了解决这一限制,我们提出了不确定性掩蔽伯努利扩散(UMBD)模型,这是第一个专为COD设计的生成优化框架。UMBD引入了一种不确定性引导的掩蔽机制,选择性地对分割质量较差的残差区域应用伯努利扩散,从而实现有针对性的优化,同时保留正确分割的区域。为支持这一过程,我们设计了混合不确定性量化网络(HUQNet),该网络采用多分支架构,并融合来自多个来源的不确定性以提高估计精度。这使得在生成采样过程中能够进行自适应引导。所提出的UMBD框架可以无缝集成到各种现有的基于编码器-解码器的COD模型中,将其判别能力与基于扩散的生成优化优势相结合。通过多个COD基准的广泛实验表明,性能得到了一致的提升,平均在MAE上提高了5.5%,在加权F-measure上提高了3.2%,而计算开销仅有适度增加。代码将会发布。

[73] 基于深度学习的多项目InP晶圆仿真用于无监督表面缺陷检测
标题: Deep Learning-based Multi Project InP Wafer Simulation for Unsupervised Surface Defect Detection
作者: Emílio Dolgener Cantú / Rolf Klemens Wittmann / Oliver Abdeen / Patrick Wagner / Wojciech Samek / Moritz Baier / Sebastian Lapuschkin
原文:   [英文]   [中文]  
备注: None
摘要:
在半导体制造中,质量管理通常依赖于与已知的黄金标准进行模板匹配。对于磷化铟(InP)多项目晶圆制造,由于生产规模小且设计变化大,通常没有这样的黄金标准。缺陷检测因此变得手动且劳动密集。本文通过提出一种方法来应对这一挑战,该方法利用深度神经网络生成合成的黄金标准,训练以从CAD数据模拟出逼真的InP晶圆图像。我们评估了各种训练目标,并在合成数据和InP晶圆照片上评估了模拟图像的质量。我们的基于深度学习的方法优于基于决策树的基线方法,使得可以在晶圆的任何用户定义区域中使用来自CAD计划的“模拟黄金芯片”进行更高效的缺陷检测。我们将该方法应用于模板匹配程序,以展示其在表面缺陷检测中的实际效用。

[74] IQE-CLIP:用于医学领域零样本/小样本异常检测的实例感知查询嵌入
标题: IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain
作者: Hong Huang / Weixiang Sun / Zhijian Wu / Jingwen Niu / Donghuan Lu / Xian Wu / Yefeng Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
最近在视觉-语言模型方面的进展,例如CLIP,显著提升了零样本和小样本异常检测(ZFSAD)任务的性能。然而,大多数现有的基于CLIP的方法假设已知类别,并依赖于精心设计的、针对特定场景的提示。虽然这些文本提示在文本空间中捕捉到了语义信息,但它们往往无法在联合嵌入空间中区分正常和异常实例。此外,大多数ZFSAD方法主要集中在工业领域,对医学任务的探索有限。为了解决这些限制,我们提出了IQE-CLIP,这是一种用于医学领域ZFSAD的新框架。我们展示了整合文本和实例感知视觉信息的查询嵌入可以作为更有效的异常指示器。具体来说,我们引入了基于类别和可学习的提示令牌,以更好地适应CLIP在医学环境中的应用。此外,我们设计了一个实例感知查询模块,从两种模态中提取区域级别的上下文信息,从而生成对异常敏感的嵌入。在六个医学数据集上的大量实验表明,IQE-CLIP在零样本和小样本设置中都达到了最先进的性能。代码和数据可在\href{this https URL}{this https URL}获取。

[75] PosterCraft:在统一框架中重新思考高质量美学海报生成
标题: PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework
作者: SiXiang Chen / Jianyu Lai / Jialin Gao / Tian Ye / Haoyu Chen / Hengyu Shi / Shitong Shao / Yunlong Lin / Song Fei / Zhaohu Xing / Yeying Jin / Junfeng Luo / Xiaoming Wei / Lei Zhu
原文:   [英文]  
备注: None
摘要:
生成美学海报比简单的设计图像更具挑战性:它不仅需要精确的文本渲染,还需要抽象艺术内容、引人注目的布局和整体风格和谐的无缝整合。为了解决这个问题,我们提出了PosterCraft,一个统一的框架,它摒弃了之前的模块化流程和僵化的预定义布局,使模型能够自由探索连贯且视觉上引人注目的构图。PosterCraft采用精心设计的级联工作流程来优化高美学海报的生成:(i) 在我们新引入的Text-Render-2M数据集上进行大规模文本渲染优化;(ii) 在HQ-Poster100K上进行区域感知的监督微调;(iii) 通过最佳选择偏好优化进行美学文本强化学习;以及(iv) 联合视觉语言反馈优化。每个阶段都由一个完全自动化的数据构建流程支持,针对其特定需求进行定制,能够在不进行复杂架构修改的情况下实现稳健训练。在多个实验中进行评估,PosterCraft在渲染精度、布局连贯性和整体视觉吸引力方面显著优于开源基准,接近SOTA商业系统的质量。我们的代码、模型和数据集可以在项目页面找到:this https URL

[76] 基于笔触的循环放大器:任意超大规模的图像超分辨率
标题: Stroke-based Cyclic Amplifier: Image Super-Resolution at Arbitrary Ultra-Large Scales
作者: Wenhao Guo / Peng Lu / Xujun Peng / Zhaoran Zhao / Sheng Li
原文:   [英文]   [中文]  
备注: None
摘要:
以往的任意比例图像超分辨率(ASISR)方法在放大因子超过训练数据覆盖范围时,性能往往会显著下降,导致图像出现严重的模糊。为了解决这个问题,我们提出了一种统一模型,称为基于笔画的循环放大器(SbCA),用于超大倍率的放大任务。SbCA的关键在于笔画矢量放大器,它将图像分解为一系列笔画,并以矢量图形的形式进行放大。然后,细节补全模块还原缺失的细节,确保高保真度的图像重建。我们的循环策略通过迭代地使用这个统一的SbCA模型来细化细节,实现超大倍率的放大,只需一次训练即可适用于所有放大倍数,同时保持子比例在训练范围内。我们的方法有效地解决了分布漂移问题,消除了伪影、噪声和模糊,生成高质量、高分辨率的超分辨率图像。在合成和真实世界数据集上的实验验证表明,我们的方法在超大倍率放大任务(例如,$\times100$)中显著优于现有方法,提供了远超当前最先进技术的视觉质量。

[77] SlotPi:物理启发的面向对象推理模型
标题: SlotPi: Physics-informed Object-centric Reasoning Models
作者: Jian Li / Wan Han / Ning Lin / Yu-Liang Zhan / Ruizhi Chengze / Haining Wang / Yi Zhang / Hongsheng Liu / Zidong Wang / Fan Yu / Hao Sun
原文:   [英文]  
备注: None
摘要:
通过视觉观察来理解和推理由物理定律支配的动态过程,类似于人类在现实世界中的能力,这一任务具有显著的挑战性。目前,基于对象的动态模拟方法在模拟人类行为方面取得了显著进展,但忽视了两个关键方面:1)将物理知识整合到模型中。人类通过观察世界获得物理见解,并应用这些知识来准确推理各种动态场景;2)验证模型在不同场景中的适应性。现实世界的动态,尤其是涉及流体和物体的动态,要求模型不仅能够捕捉物体的相互作用,还能模拟流体流动特性。为了解决这些问题,我们引入了SlotPi,这是一种基于槽的物理信息对象中心推理模型。SlotPi将基于哈密顿原理的物理模块与时空预测模块相结合,用于动态预测。我们的实验强调了该模型在基准和流体数据集上的预测和视觉问答(VQA)任务中的优势。此外,我们创建了一个涵盖物体交互、流体动力学和流体-物体交互的真实世界数据集,并在此数据集上验证了我们模型的能力。模型在所有数据集上的强大性能突显了其强大的适应性,为开发更先进的世界模型奠定了基础。

[78] 使用事件相机和强化学习进行人机导航
标题: Human-Robot Navigation using Event-based Cameras and Reinforcement Learning
作者: Ignacio Bugueno-Cordova / Javier Ruiz-del-Solar / Rodrigo Verschae
原文:   [英文]  
备注: this https URL
摘要:
本文介绍了一种机器人导航控制器,该控制器结合了事件相机和其他传感器与强化学习,以实现实时以人为中心的导航和障碍物避让。与传统的基于图像的控制器不同,传统控制器以固定速率运行,容易受到运动模糊和延迟的影响,而该方法利用事件相机的异步特性,在灵活的时间间隔内处理视觉信息,从而实现自适应推理和控制。该框架集成了基于事件的感知、额外的距离传感以及通过深度确定性策略梯度进行的策略优化,并通过初始模仿学习阶段来提高样本效率。在模拟环境中取得了有希望的结果,展示了稳健的导航、行人跟随和障碍物避让。在项目网站上可以观看演示视频。

[79] 从提示到摘要:零样本语言引导的视频摘要
标题: Prompts to Summaries: Zero-Shot Language-Guided Video Summarization
作者: Mario Barbara / Alaa Maalouf
原文:   [英文]   [中文]  
备注: None
摘要:
视频数据的爆炸性增长加剧了对灵活的用户可控摘要工具的需求,这些工具可以在没有领域特定训练数据的情况下运行。现有的方法要么依赖数据集,限制了泛化能力,要么无法结合以自然语言表达的用户意图。我们介绍了Prompts-to-Summaries:这是第一个零样本、可通过文本查询的视频摘要工具,它将现成的视频语言模型(VidLMs)生成的字幕转化为用户引导的浏览,通过大型语言模型(LLMs)进行判断,完全不使用训练数据,超越了所有无监督方法并匹配监督方法。我们的流程包括:(i) 将原始视频素材分割成连贯的场景,(ii) 通过一种内存高效的批量式VidLM提示方案生成丰富的场景级描述,该方案可以在单个GPU上扩展到长达数小时的视频,(iii) 利用LLM作为评判者,通过精心设计的提示分配场景级重要性分数,最后,(iv) 通过两个新指标:一致性(时间连贯性)和独特性(新颖性),将这些分数传播到短片段级别,产生细粒度的帧重要性。在SumMe和TVSum上,我们的数据无关方法超越了所有之前依赖数据的无监督方法。尽管没有使用训练数据,我们的方法在Query-Focused Video Summarization (QFVS)基准上也表现出竞争力,而竞争方法需要监督的帧级重要性。为了促进进一步研究,我们发布了VidSum-Reason,一个新的查询驱动数据集,具有长尾概念和多步骤推理;我们的框架获得了稳健的F1分数,并作为第一个具有挑战性的基线。总体而言,我们的结果表明,当预训练的多模态模型与原则性提示和分数传播相结合时,已经为通用的、可通过文本查询的视频摘要提供了强大的基础。

[80] 无监督可变形图像配准与结构非参数平滑
标题: Unsupervised Deformable Image Registration with Structural Nonparametric Smoothing
作者: Hang Zhang / Xiang Chen / Renjiu Hu / Rongguang Wang / Jinwei Zhang / Min Liu / Yaonan Wang / Gaolei Li / Xinxing Cheng / Jinming Duan
原文:   [英文]   [中文]  
备注: Accepted for publication at Information Processing in Medical Imaging (IPMI) 2025
摘要:
基于学习的可变形图像配准(DIR)通过神经网络将传统优化过程转化为快速对齐。标签监督进一步提高了精度,使得对未见扫描的高效且精确的非线性对齐成为可能。然而,对于那些在大面积平滑区域中具有稀疏特征的图像,如视网膜血管,带来了孔径和大位移的挑战,这是无监督DIR方法难以解决的问题。这一限制的出现是因为神经网络在单次前向传递中预测变形场,导致训练后变形场不受约束,并将正则化的负担完全转移到网络权重上。为了解决这些问题,我们引入了SmoothProper,这是一种即插即用的神经模块,在网络的前向传递中强制平滑性并促进信息传递。通过整合基于对偶的优化层和定制的交互项,SmoothProper有效地在空间位置上传播流信号,强制平滑性,并保持结构一致性。它与模型无关,可以无缝集成到现有的配准框架中,参数开销极小,并消除了正则化超参数调优。在一个展示孔径和大位移挑战的视网膜血管数据集上的初步结果表明,我们的方法将配准误差降低到2912x2912图像上的1.88像素,标志着第一个有效解决这两种挑战的无监督DIR方法。源代码将在此https URL上提供。

[81] 遮挡感知的3D手-物体姿态估计与掩码自动编码器
标题: Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders
作者: Hui Yang / Wei Sun / Jian Liu / Jin Zheng / Jian Xiao / Ajmal Mian
原文:   [英文]   [中文]  
备注: 10 pages, 6 figures
摘要:
从单目RGB图像中估计手-物体姿态仍然是一个重要的挑战,主要是由于手-物体交互中固有的严重遮挡。现有的方法没有充分探索全局结构感知和推理,这限制了它们在处理遮挡的手-物体交互时的有效性。为了解决这一挑战,我们提出了一种基于掩码自动编码器的遮挡感知手-物体姿态估计方法,称为HOMAE。具体来说,我们提出了一种目标聚焦的掩码策略,对手-物体交互区域施加结构化遮挡,鼓励模型学习上下文感知特征并推理被遮挡的结构。我们进一步整合从解码器中提取的多尺度特征来预测符号距离场(SDF),捕捉全局上下文和细粒度几何。为了增强几何感知,我们将隐式SDF与从SDF导出的显式点云结合起来,利用这两种表示的互补优势。这种融合通过结合SDF提供的全局上下文和点云提供的精确局部几何,使得对遮挡区域的处理更加稳健。在具有挑战性的DexYCB和HO3Dv2基准上的大量实验表明,HOMAE在手-物体姿态估计中达到了最先进的性能。我们将发布我们的代码和模型。

[82] VideoDeepResearch: 使用代理工具进行长视频理解
标题: VideoDeepResearch: Long Video Understanding With Agentic Tool Using
作者: Huaying Yuan / Zheng Liu / Junjie Zhou / Ji-Rong Wen / Zhicheng Dou
原文:   [英文]   [中文]  
备注: None
摘要:
长视频理解(LVU)对当前的多模态大型语言模型(MLLMs)提出了重大挑战,因为该任务本身具有复杂性和上下文窗口限制。普遍认为,解决LVU任务需要具有扩展上下文窗口、强大视觉感知能力和熟练领域专业知识的基础MLLMs。在这项工作中,我们通过引入VideoDeepResearch,一个用于长视频理解的新颖代理框架,挑战这一普遍观点。我们的方法仅依赖于一个文本的大型推理模型(LRM),结合一个模块化的多模态工具包,包括多模态检索器和视觉感知器,这些在实践中都可以轻松获得。对于每个LVU任务,系统通过推理制定问题解决策略,同时通过工具使用选择性地访问和利用必要的视频内容。我们在流行的LVU基准测试上进行了广泛实验,包括MLVU、Video-MME和LVBench。我们的结果表明,VideoDeepResearch在现有MLLM基线之上实现了显著改进,分别在MLVU(测试)、LVBench和LongVideoBench上超越了之前的最先进水平9.6%、6.6%和3.9%。这些发现突显了代理系统在克服LVU问题中的关键挑战方面的潜力。

[83] 视频抠图的后训练量化
标题: Post-Training Quantization for Video Matting
作者: Tianrui Zhu / Houyuan Chen / Ruihao Gong / Michele Magno / Haotong Qin / Kai Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
视频抠图在电影制作和虚拟现实等应用中至关重要,但在资源受限的设备上部署其计算密集型模型面临挑战。量化是模型压缩和加速的关键技术。作为一种高效的方法,后训练量化(PTQ)在视频抠图领域仍处于起步阶段,在保持准确性和时间一致性方面面临重大障碍。为了解决这些挑战,本文提出了一种专门为视频抠图模型设计的新颖且通用的PTQ框架,据我们所知,这是该领域的首次系统尝试。我们的贡献包括:(1)一种两阶段PTQ策略,结合基于块重建的优化进行快速、稳定的初始量化和局部依赖捕获,随后进行量化参数的全局校准以最小化精度损失。(2)一种统计驱动的全局仿射校准(GAC)方法,使网络能够补偿由于忽略BN层效应等因素引起的累积统计失真,甚至可以将现有PTQ方法在视频抠图任务上的误差减少多达20%。(3)一种光流辅助(OFA)组件,利用帧的时间和语义先验来指导PTQ过程,增强模型在复杂场景中区分移动前景的能力,最终即使在超低位量化下也能实现接近全精度的性能。全面的定量和视觉结果表明,我们的PTQ4VM在不同位宽下的准确性表现均达到现有量化方法的最先进水平。我们强调,4位的PTQ4VM甚至在享有8倍FLOP节省的同时,性能接近全精度对手。

[84] VRBench: 长篇叙事视频中多步推理的基准
标题: VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos
作者: Jiashuo Yu / Yue Wu / Meng Chu / Zhifei Ren / Zizheng Huang / Pei Chu / Ruijie Zhang / Yinan He / Qirui Li / Songze Li / Zhenxiang Li / Zhongying Tu / Conghui He / Yu Qiao / Yali Wang / Yi Wang / Limin Wang
原文:   [英文]   [中文]  
备注: Technical Report
摘要:
我们介绍了VRBench,这是第一个用于评估大型模型多步骤推理能力的长叙事视频基准,解决了现有评估中忽视时间推理和程序有效性的问题。VRBench包含1,010个长视频(平均时长1.6小时),以及9,468个人工标注的多步骤问答对和30,292个带有时间戳的推理步骤。这些视频通过多阶段过滤过程进行策划,包括专家间的审查,以优先考虑情节连贯性。我们开发了一个人机协作框架,生成连贯的推理链,每个链需要多个时间上有依据的步骤,涵盖七种类型(例如,事件归因、隐含推理)。VRBench设计了一个多阶段评估流程,在结果和过程层面评估模型。除了最终结果的选择题外,我们提出了一种进度级别的LLM引导评分指标,从多个维度全面评估推理链的质量。通过对12个LLM和16个VLM在VRBench上的广泛评估,我们进行了深入分析,并提供了有价值的见解,推动了多步骤推理领域的发展。

[85] CreatiPoster:迈向可编辑和可控的多层图形设计生成
标题: CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation
作者: Zhao Zhang / Yutao Cheng / Dexiang Hong / Maoke Yang / Gonglei Shi / Lei Ma / Hui Zhang / Jie Shao / Xinglong Wu
原文:   [英文]   [中文]  
备注: None
摘要:
图形设计在商业和个人环境中都起着至关重要的作用,但创建高质量、可编辑且美观的图形作品仍然是一项耗时且需要技能的任务,尤其对于初学者而言。当前的人工智能工具可以自动化部分工作流程,但在准确整合用户提供的素材、保持可编辑性以及实现专业视觉效果方面仍然存在困难。商业系统,如Canva Magic Design,依赖于庞大的模板库,这在复制时是不切实际的。在本文中,我们介绍了CreatiPoster,一个可以从可选的自然语言指令或素材生成可编辑的多层合成框架。一个协议模型,即RGBA大型多模态模型,首先生成一个JSON规范,详细说明每一层(文本或素材)的精确布局、层次结构、内容和风格,以及简洁的背景提示。然后,一个条件背景模型在这些渲染的前景层的基础上合成一个连贯的背景。我们构建了一个具有自动化指标的图形设计生成基准,并展示了CreatiPoster超越了领先的开源方法和专有商业系统。为了促进进一步的研究,我们发布了一个包含100,000个多层设计的无版权语料库。CreatiPoster支持多种应用,如画布编辑、文本覆盖、响应式调整大小、多语言适配和动画海报,推动了人工智能辅助图形设计的普及。项目主页:this https URL

[86] AIR: 通过迭代优化实现零样本生成模型适应
标题: AIR: Zero-shot Generative Model Adaptation with Iterative Refinement
作者: Guimeng Liu / Milad Abdollahzadeh / Ngai-Man Cheung
原文:   [英文]   [中文]  
备注: None
摘要:
零样本生成模型适应(ZSGM)旨在使用仅有的文本指导而无需目标域样本来将预训练的生成器适应到目标域。最近的ZSGM方法的核心是方向性损失,它通过在视觉语言模型(如CLIP)的嵌入空间中对齐图像偏移和文本偏移来使用文本指导。这类似于自然语言处理中的类比推理,其中一个词对之间的偏移用于通过对齐这两个词对之间的偏移来识别另一个词对中的缺失元素。然而,现有ZSGM方法的一个主要限制是学习目标假设图像偏移和文本偏移在CLIP嵌入空间中的完全对齐,导致生成图像的质量下降。我们的工作有两个主要贡献。受自然语言处理中的偏移未对齐研究的启发,作为我们的第一个贡献,我们进行了一项实证研究,以分析在各种大型公开数据集中CLIP嵌入空间中文本偏移和图像偏移之间的未对齐。我们的重要发现是,CLIP嵌入空间中的偏移未对齐与概念距离相关,即,接近的概念具有较小的偏移未对齐。为了解决当前方法的局限性,作为我们的第二个贡献,我们提出了迭代细化适应(AIR),这是第一个专注于基于我们关于偏移的新见解来提高目标域图像质量的ZSGM方法。定量和用户研究在26个实验设置中一致表明,所提出的AIR方法实现了SOTA性能。更多实验在补充材料中。

[87] M4V:用于文本到视频生成的多模态曼巴
标题: M4V: Multi-Modal Mamba for Text-to-Video Generation
作者: Jiancheng Huang / Gengwei Zhang / Zequn Jie / Siyu Jiao / Yinlong Qian / Ling Chen / Yunchao Wei / Lin Ma
原文:   [英文]   [中文]  
备注: None
摘要:
文本到视频的生成极大地丰富了内容创作,并有潜力发展成为强大的世界模拟器。然而,建模广阔的时空空间仍然在计算上具有挑战性,特别是在使用Transformer时,其在序列处理上具有平方复杂度,从而限制了实际应用。最近在线性时间序列建模方面的进展,特别是Mamba架构,提供了一种更高效的替代方案。然而,其简单的设计限制了其在多模态和时空视频生成任务中的直接适用性。为了解决这些挑战,我们引入了M4V,一种用于文本到视频生成的多模态Mamba框架。具体来说,我们提出了一个多模态扩散Mamba (MM-DiM) 模块,通过多模态令牌重组设计,实现了多模态信息和时空建模的无缝集成。结果表明,在生成768×1280分辨率的视频时,M4V中的Mamba模块相比基于注意力的替代方案减少了45%的浮点运算。此外,为了缓解长上下文自回归生成过程中视觉质量的下降,我们引入了一种奖励学习策略,进一步增强了每帧的视觉真实感。在文本到视频基准测试上的大量实验表明,M4V能够在显著降低计算成本的同时生成高质量的视频。代码和模型将在此HTTPS URL上公开提供。

[88] VINCIE:从视频中解锁上下文图像编辑
标题: VINCIE: Unlocking In-context Image Editing from Video
作者: Leigang Qu / Feng Cheng / Ziyan Yang / Qi Zhao / Shanchuan Lin / Yichun Shi / Yicong Li / Wenjie Wang / Tat-Seng Chua / Lu Jiang
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
上下文图像编辑旨在根据由文本和先前生成的图像组成的上下文序列来修改图像。现有方法通常依赖于特定任务的管道和专家模型(例如分割和修复)来策划训练数据。在这项工作中,我们探讨了是否可以直接从视频中学习上下文图像编辑模型。我们引入了一种可扩展的方法,将视频标注为交错的多模态序列。为了有效地从这些数据中学习,我们设计了一种块因果扩散变压器,并在三个代理任务上进行训练:下一图像预测、当前分割预测和下一分割预测。此外,我们提出了一种新颖的多轮图像编辑基准,以推动该领域的研究。大量实验表明,我们的模型表现出强大的上下文图像编辑能力,并在两个多轮图像编辑基准上达到了最先进的结果。尽管仅在视频上进行训练,我们的模型在多概念组合、故事生成和编辑链应用中也表现出令人鼓舞的能力。

[89] SpectralAR:谱自回归视觉生成
标题: SpectralAR: Spectral Autoregressive Visual Generation
作者: Yuanhui Huang / Weiliang Chen / Wenzhao Zheng / Yueqi Duan / Jie Zhou / Jiwen Lu
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
自回归视觉生成因其可扩展性和与其他模态的兼容性相比于扩散模型而受到越来越多的关注。现有的大多数方法将视觉序列构建为空间补丁以进行自回归生成。然而,图像补丁本质上是并行的,这与自回归建模的因果性质相矛盾。为了解决这个问题,我们提出了一种光谱自回归(SpectralAR)视觉生成框架,该框架从光谱角度实现视觉序列的因果性。具体来说,我们首先通过嵌套光谱标记化将图像转换为有序的光谱标记,表示从低频到高频的成分。然后,我们以粗到细的方式对光谱标记序列进行自回归生成。通过考虑图像的不同细节级别,我们的SpectralAR在不使用复杂技巧的情况下实现了序列因果性和标记效率。我们在ImageNet-1K上进行了广泛的图像重建和自回归生成实验,SpectralAR仅使用64个标记和310M参数就达到了3.02 gFID。项目页面:这个https URL。

[90] MMMG:一个用于文本到图像推理的大规模、多学科、多层次生成基准
标题: MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning
作者: Yuxuan Luo / Yuhui Yuan / Junwen Chen / Haonan Cai / Ziyi Yue / Yuwei Yang / Fatima Zohra Daha / Ji Li / Zhouhui Lian
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们引入了知识图像生成作为一项新任务,并提出了大规模多学科多层次知识图像生成基准(MMMG),以探测图像生成模型的推理能力。知识图像在人类文明和人类学习机制中起着核心作用——这一事实由双重编码理论和图像优越效应所强调。生成此类图像具有挑战性,需要多模态推理,将世界知识与像素级基础结合成清晰的解释性视觉效果。为了实现全面评估,MMMG提供了4,456对专家验证的(知识)图像提示,涵盖10个学科、6个教育水平和多种知识格式,如图表、图解和思维导图。为消除评估过程中的混杂复杂性,我们采用统一的知识图谱(KG)表示。每个KG明确描绘了目标图像的核心实体及其依赖关系。我们进一步引入了MMMG-Score来评估生成的知识图像。该指标结合了通过KG之间的图编辑距离测量的事实忠实度和视觉清晰度评估。对16个最先进的文本到图像生成模型的全面评估揭示了严重的推理缺陷——低实体忠实度、关系薄弱和混乱——其中GPT-4o仅获得50.20的MMMG-Score,突显了该基准的难度。为了促进进一步进展,我们发布了FLUX-Reason(MMMG-Score为34.45),这是一个有效且开放的基线,结合了推理LLM与扩散模型,并在16,000对精心挑选的知识图像提示上进行训练。

[91] 超越注意力或相似性:最大化条件多样性以在多模态大模型中进行标记剪枝
标题: Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs
作者: Qizhe Zhang / Mengzhen Liu / Lichen Li / Ming Lu / Yuan Zhang / Junwen Pan / Qi She / Shanghang Zhang
原文:   [英文]   [中文]  
备注: 22 pages, 5 figures, code: this https URL, project page: this https URL
摘要:
在多模态大语言模型(MLLMs)中,输入的视觉标记长度通常显著大于其文本对应物,导致高推理成本。许多工作旨在通过去除冗余的视觉标记来解决这一问题。然而,当前的方法要么依赖于基于注意力的剪枝,保留了大量重复标记,要么使用基于相似性的剪枝,忽视了指令的相关性,从而导致次优性能。在本文中,我们提出了一种新颖的视觉标记剪枝方法,名为CDPruner,超越了注意力或相似性的方法,最大化保留标记的条件多样性。我们首先定义了在指令条件下视觉标记之间的条件相似性,然后用行列式点过程(DPP)重新表述标记剪枝问题,以最大化所选子集的条件多样性。所提出的CDPruner无需训练且与模型无关,可以轻松应用于各种MLLMs。跨多种MLLMs的广泛实验表明,CDPruner在各种视觉语言基准上建立了新的最先进水平。通过DPP最大化条件多样性,所选子集更好地代表了输入图像,同时紧密遵循用户指令,从而即使在高缩减比下也能保持强大的性能。当应用于LLaVA时,CDPruner将FLOPs减少了95%,CUDA延迟减少了78%,同时保持了94%的原始准确性。我们的代码可在此https URL获取。

[92] GenWorld:迈向检测AI生成的真实世界模拟视频
标题: GenWorld: Towards Detecting AI-generated Real-world Simulation Videos
作者: Weiliang Chen / Wenzhao Zheng / Yu Zheng / Lei Chen / Jie Zhou / Jiwen Lu / Yueqi Duan
原文:   [英文]   [中文]  
备注: None
摘要:
视频生成技术的蓬勃发展危及了现实世界信息的可信度,并加剧了对AI生成视频检测器的需求。尽管取得了一些进展,但缺乏高质量的现实世界数据集阻碍了可信检测器的发展。在本文中,我们提出了GenWorld,一个用于AI生成视频检测的大规模、高质量、现实世界模拟数据集。GenWorld具有以下特点:(1)现实世界模拟:GenWorld专注于复制现实场景的视频,这些视频因其真实性和潜在影响而具有重要意义;(2)高质量:GenWorld采用多种最先进的视频生成模型来提供真实且高质量的伪造视频;(3)跨提示多样性:GenWorld包含由不同生成器和各种提示模态(例如文本、图像、视频)生成的视频,提供了学习更具普遍性法医特征的潜力。我们分析了现有方法,发现它们未能检测出由世界模型(即Cosmos)生成的高质量视频,揭示了忽视现实世界线索的潜在缺陷。为了解决这一问题,我们提出了一种简单但有效的模型SpannDetector,以利用多视图一致性作为现实世界AI生成视频检测的强标准。实验表明,我们的方法取得了优异的结果,突出了基于物理合理性的可解释AI生成视频检测的一个有前途的方向。我们相信GenWorld将推动AI生成视频检测领域的发展。项目页面:this https URL

[93] QuadricFormer:将场景表示为超二次曲面用于3D语义占用预测
标题: QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction
作者: Sicheng Zuo / Wenzhao Zheng / Xiaoyong Han / Longchao Yang / Yong Pan / Jiwen Lu
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
3D占用预测对于稳健的自动驾驶系统至关重要,因为它能够全面感知环境结构和语义。大多数现有方法采用密集的基于体素的场景表示,忽略了驾驶场景的稀疏性,导致效率低下。最近的工作探索了基于稀疏高斯的以对象为中心的表示,但其椭球形状先验限制了对多样结构的建模。在真实世界的驾驶场景中,物体表现出丰富的几何形状(例如长方体、圆柱体和不规则形状),需要大量密集排列的椭球高斯来进行精确建模,这导致了低效的表示。为了解决这个问题,我们提出使用几何表达力强的超二次曲面作为场景基元,通过其固有的形状多样性,以更少的基元高效地表示复杂结构。我们开发了一种概率超二次曲面混合模型,将每个超二次曲面解释为具有相应几何先验的占用概率分布,并通过概率混合计算语义。在此基础上,我们提出了QuadricFormer,一种基于超二次曲面的高效3D占用预测模型,并引入了修剪和分裂模块,通过将超二次曲面集中在占用区域来进一步提高建模效率。在nuScenes数据集上的大量实验表明,QuadricFormer在保持卓越效率的同时,实现了最先进的性能。

[94] 通过注意力头选择实现细粒度扰动引导
标题: Fine-Grained Perturbation Guidance via Attention Head Selection
作者: Donghoon Ahn / Jiwon Kang / Sanghyun Lee / Minjae Kim / Jaewon Min / Wooseok Jang / Saungwu Lee / Sayak Paul / Susung Hong / Seungryong Kim
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
最近的扩散模型指导方法通过扰动模型来构建隐式弱模型并引导生成远离该模型,从而在反向采样中进行引导。在这些方法中,注意力扰动在无法应用无分类器指导的无条件场景中表现出强大的经验性能。然而,现有的注意力扰动方法缺乏确定扰动应用位置的原则性方法,特别是在质量相关计算分布于各层的扩散变压器(DiT)架构中。在本文中,我们研究了注意力扰动的粒度,从层级到单个注意力头,并发现特定的注意力头控制着不同的视觉概念,如结构、风格和纹理质量。基于这一见解,我们提出了“HeadHunter”,一个系统框架,用于迭代选择与用户中心目标一致的注意力头,实现对生成质量和视觉属性的细粒度控制。此外,我们引入了SoftPAG,它线性插值每个选定头的注意力图向身份矩阵,提供一个连续的旋钮来调节扰动强度并抑制伪影。我们的方法不仅缓解了现有层级扰动的过度平滑问题,还通过组合头选择实现了特定视觉风格的目标操控。我们在现代大规模基于DiT的文本到图像模型上验证了我们的方法,包括Stable Diffusion 3和FLUX.1,展示了在整体质量提升和特定风格指导方面的卓越性能。我们的工作提供了扩散模型中注意力扰动的首个头级分析,揭示了注意力层内可解释的专业化,并实现了有效扰动策略的实用设计。

[95] InstaInpaint:使用遮罩大型重建模型进行即时3D场景修复
标题: InstaInpaint: Instant 3D-Scene Inpainting with Masked Large Reconstruction Model
作者: Junqi You / Chieh Hubert Lin / Weijie Lyu / Zhengbo Zhang / Ming-Hsuan Yang
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,3D 场景重建的进展使得在虚拟和增强现实中实现实时观看成为可能。为了支持更具沉浸感的交互操作,例如移动或编辑对象,提出了3D场景修补方法来修复或完成被改变的几何结构。然而,目前的方法依赖于冗长且计算密集的优化过程,使其在实时或在线应用中不切实际。我们提出了InstaInpaint,这是一种基于参考的前馈框架,可以在0.4秒内从2D修补提案生成3D场景修补。我们开发了一种自监督的掩码微调策略,以便在大规模数据集上训练我们自定义的大型重建模型(LRM)。通过广泛的实验,我们分析并识别了几个关键设计,这些设计改善了泛化能力、纹理一致性和几何正确性。InstaInpaint在保持两项标准基准测试的最新性能的同时,实现了比现有方法快1000倍的速度提升。此外,我们展示了InstaInpaint在灵活的下游应用中具有良好的泛化能力,例如对象插入和多区域修补。更多视频结果可在我们的项目页面查看:this https URL。

[96] SceneCompleter:用于生成新颖视图合成的密集3D场景补全
标题: SceneCompleter: Dense 3D Scene Completion for Generative Novel View Synthesis
作者: Weiliang Chen / Jiayi Bi / Yuanhui Huang / Wenzhao Zheng / Yueqi Duan
原文:   [英文]   [中文]  
备注: None
摘要:
生成模型在新视图合成(NVS)中因减轻了对密集多视图捕获的依赖而受到广泛关注。然而,现有方法通常遵循一个传统范式,即生成模型首先在二维中完成缺失区域,然后通过三维恢复技术重建场景,这往往导致过于平滑的表面和扭曲的几何形状,因为生成模型难以仅从RGB数据推断三维结构。在本文中,我们提出了SceneCompleter,这是一种通过密集三维场景补全实现三维一致性生成新视图合成的新框架。SceneCompleter通过两个关键组件实现了视觉一致性和三维一致性生成场景补全:(1)一个几何-外观双流扩散模型,在RGBD空间中联合合成新视图;(2)一个场景嵌入器,从参考图像中编码出更全面的场景理解。通过有效融合结构和纹理信息,我们的方法在各种数据集上的生成新视图合成中展示了卓越的一致性和合理性。项目页面:this https URL