scholar lane logo wechat

学术巷子 | 来自全球的每日最新论文

自然语言处理 计算机视觉 机器人
cs.CV方向,2024年12月6日更新论文121
[1] 混元视频:大规模视频生成模型的系统框架
标题: HunyuanVideo: A Systematic Framework For Large Video Generative Models
作者: Weijie Kong / Qi Tian / Zijian Zhang / Rox Min / Zuozhuo Dai / Jin Zhou / Jiangfeng Xiong / Xin Li / Bo Wu / Jianwei Zhang / Kathrina Wu / Qin Lin / Aladdin Wang / Andong Wang / Bai Jiawang / Changlin Li / Duojun Huang / Fang Yang / Hao Tan / Hongmei Wang / Jacob Song / Jiawang Bai / Jianbing Wu / Jinbao Xue / Joey Wang / Junkun Yuan / Kai Wang / Mengyang Liu / Pengyu Li / Shuai Li / Weiyan Wang / Wenqing Yu / Xinchi Deng / Yanxin Long / Yi Chen / Yutao Cui / Yuanbo Peng / Zhentao Yu / Zhiyu He / Zhiyong Xu / Zixiang Zhou / Zunnan Xu / Yangyu Tao / Qinglin Lu / Songtao Liu / Daquan Zhou / Hongfa Wang / Yong Yang / Di Wang / Yuhong Liu / Jie Jiang / Caesar Zhong
原文:   [英文]  
备注: None
摘要:
最近在视频生成方面的进展显著影响了个人和行业的日常生活。然而,领先的视频生成模型仍然是闭源的,导致行业能力与公众可用资源之间存在显著的性能差距。在本报告中,我们介绍了HunyuanVideo,这是一种创新的开源视频基础模型,其视频生成性能可与领先的闭源模型相媲美,甚至超越它们。HunyuanVideo包含一个综合框架,集成了多个关键要素,包括数据策划、先进的架构设计、渐进的模型扩展和训练,以及为大规模模型训练和推理量身定制的高效基础设施。因此,我们成功训练了一个拥有超过130亿参数的视频生成模型,使其成为所有开源模型中规模最大的。我们进行了广泛的实验,并实施了一系列有针对性的设计,以确保高视觉质量、运动动态、文本与视频的对齐以及先进的拍摄技术。根据专业人士的评估,HunyuanVideo的表现优于之前的最先进模型,包括Runway Gen-3、Luma 1.6和三种表现最好的中国视频生成模型。通过发布基础模型及其应用的代码,我们旨在弥合闭源和开源社区之间的差距。这一举措将使社区中的个人能够尝试他们的想法,促进一个更加动态和充满活力的视频生成生态系统。代码可在此https URL公开获取。

[2] 从嵌入式系统的角度评估深度神经网络在语义分割中的单粒子翻转
标题: Evaluating Single Event Upsets in Deep Neural Networks for Semantic Segmentation: an embedded system perspective
作者: Jon Gutiérrez-Zaballa / Koldo Basterretxea / Javier Echanobe
原文:   [英文]   [中文]  
备注: None
摘要:
随着人工智能(AI)算法在边缘设备上的部署日益普及,增强自主AI感知和决策系统的鲁棒性和可靠性变得与精度和性能同样重要,尤其是在被认为是安全关键的应用领域,如自动驾驶和航空航天。本文深入探讨了嵌入式深度神经网络(DNNs)的鲁棒性评估,特别关注由单粒子翻转(SEUs)引起的参数扰动对图像语义分割卷积神经网络(CNN)的影响。通过逐层和逐位分析各种编码器-解码器模型对软错误的敏感性,本研究彻底调查了分割DNNs对SEUs的脆弱性,并评估了模型剪枝和参数量化等技术对面向嵌入式实现的压缩模型鲁棒性的影响。研究结果提供了关于SEU引起的故障机制的宝贵见解,使得在预先训练的情况下评估DNNs的鲁棒性成为可能。此外,基于收集的数据,我们提出了一套实用的轻量级错误缓解技术,这些技术不需要额外的内存或计算成本,适用于资源受限的部署。用于执行故障注入(FI)活动的代码可在此https URL获取,而实现所提技术的代码可在此https URL获取。

[3] MV-Adapter:简化多视图一致图像生成
标题: MV-Adapter: Multi-view Consistent Image Generation Made Easy
作者: Zehuan Huang / Yuan-Chen Guo / Haoran Wang / Ran Yi / Lizhuang Ma / Yan-Pei Cao / Lu Sheng
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
现有的多视图图像生成方法通常对预训练的文本到图像(T2I)模型进行侵入性修改,并需要完全微调,导致(1)高计算成本,特别是对于大型基础模型和高分辨率图像,以及(2)由于优化困难和高质量3D数据稀缺而导致的图像质量下降。在本文中,我们提出了第一个基于适配器的多视图图像生成解决方案,并引入了MV-Adapter,这是一种多功能的即插即用适配器,可以在不改变原始网络结构或特征空间的情况下增强T2I模型及其衍生模型。通过更新更少的参数,MV-Adapter实现了高效训练,并保留了预训练模型中嵌入的先验知识,减轻了过拟合风险。为了在适配器中高效建模3D几何知识,我们引入了创新设计,包括重复的自注意力层和平行注意力架构,使适配器能够继承预训练模型的强大先验来建模新的3D知识。此外,我们提出了一个统一的条件编码器,无缝集成了相机参数和几何信息,促进了基于文本和图像的3D生成和纹理化等应用。MV-Adapter在Stable Diffusion XL(SDXL)上实现了768分辨率的多视图生成,并展示了其适应性和多功能性。它还可以扩展到任意视图生成,支持更广泛的应用。我们证明了MV-Adapter为多视图图像生成设定了新的质量标准,并由于其高效性、适应性和多功能性开辟了新的可能性。

[4] 个性化多模态大语言模型用于图像描述:实验分析
标题: Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis
作者: Davide Bucciarelli / Nicholas Moratelli / Marcella Cornia / Lorenzo Baraldi / Rita Cucchiara
原文:   [英文]  
备注: ECCV 2024 Workshop on Green Foundation Models
摘要:
图像描述任务要求算法生成视觉输入的自然语言描述。最近的进展显示,图像描述研究与大型语言模型(LLMs)和多模态LLMs(如GPT-4V和Gemini)的发展趋于一致,这些模型将仅限于文本的LLMs能力扩展到多种模态。本文通过评估多模态LLMs在各种图像描述基准上的表现,探讨它们是否可以取代传统的图像描述网络。我们研究了这些模型的零样本能力以及通过微调方法(包括提示学习、前缀调优和低秩适应)在不同语义领域中的适应性。结果表明,尽管多模态LLMs在零样本表现上令人印象深刻,但在特定领域进行微调的同时保持其泛化能力仍然具有挑战性。我们讨论了这些发现对未来图像描述研究和更具适应性多模态LLMs开发的影响。

[5] 通过视觉价值模型扩展推理时间搜索以改进视觉理解
标题: Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
作者: Wang Xiyao / Yang Zhengyuan / Li Linjie / Lu Hongjin / Xu Yuancheng / Lin Chung-Ching Lin / Lin Kevin / Huang Furong / Wang Lijuan
原文:   [英文]   [中文]  
备注: None
摘要:
尽管视觉-语言模型(VLMs)取得了显著进展,但在推理时通过扩展计算来提升响应质量的有效方法仍然缺乏。这一能力被认为是最近大型语言模型研究中实现自我改进模型的核心步骤。在本文中,我们提出了视觉价值模型(VisVM),该模型可以指导VLM在推理时的搜索,以生成具有更好视觉理解的响应。具体来说,VisVM不仅评估当前搜索步骤中生成的句子质量,还预测当前步骤可能导致的后续句子的质量,从而提供长期价值。通过这种方式,VisVM引导VLMs避免生成容易产生幻觉或细节不足的句子,从而产生更高质量的响应。实验结果表明,与贪婪解码和其他视觉奖励信号的搜索方法相比,VisVM引导的搜索显著增强了VLMs生成具有更丰富视觉细节和更少幻觉的描述性标题的能力。此外,我们发现,通过VisVM引导的标题进行自我训练可以提高VLM在广泛的多模态基准测试中的表现,这表明开发自我改进的VLMs具有潜力。我们的价值模型和代码可在此https URL获取。

[6] VidHalluc:评估多模态大语言模型在视频理解中的时间幻觉
标题: VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding
作者: Chaoyu Li / Eun Woo Im / Pooyan Fazli
原文:   [英文]   [中文]  
备注: None
摘要:
多模态大语言模型(MLLMs)最近在视频理解方面显示出显著的进步,尤其在内容推理和指令跟随任务中表现出色。然而,模型生成不准确或误导性内容的幻觉问题在视频领域仍未得到充分研究。基于观察到MLLMs的视觉编码器常常难以区分在视觉上不同但语义上相似的视频对,我们引入了VidHalluc,这是迄今为止最大的用于检查MLLMs在视频理解任务中幻觉问题的基准。VidHalluc从三个关键维度评估幻觉问题:(1)动作,(2)时间序列,以及(3)场景转换。VidHalluc包含5,002个视频,这些视频根据语义相似性和视觉差异进行配对,重点关注最有可能出现幻觉的情况。通过全面测试,我们的实验表明大多数MLLMs在这些维度上都容易出现幻觉。此外,我们提出了DINO-HEAL,这是一种无需训练的方法,通过在推理过程中结合DINOv2的空间显著性信息来重新加权视觉特征,从而减少幻觉。我们的结果表明,DINO-HEAL在VidHalluc上的表现持续改善,在所有任务中平均减少幻觉3.02%。VidHalluc基准和DINO-HEAL代码可以通过$\href{this https URL}{\text{this link}}$访问。

[7] 基于深度变分贝叶斯模型的雾霾退化过程研究
标题: Deep Variational Bayesian Modeling of Haze Degradation Process
作者: Eun Woo Im / Junsung Shin / Sungyong Baik / Tae Hyun Kim
原文:   [英文]   [中文]  
备注: Published in CIKM 2023, 10 pages, 9 figures
摘要:
依赖于神经网络的表示能力,最近的大多数工作往往忽略了雾霾退化中涉及的几个因素,例如透射率(从场景到观察者的光量随距离的变化)和大气光。这些因素通常是未知的,使得去雾问题成为病态问题,并产生固有的不确定性。为了考虑这些不确定性和雾霾退化中涉及的因素,我们引入了一个用于单张图像去雾的变分贝叶斯框架。我们建议不仅将干净图像,还将透射图作为潜在变量,其后验分布由相应的神经网络参数化:分别是去雾网络和透射网络。基于雾霾退化的物理模型,我们的变分贝叶斯框架引出了一个新的目标函数,鼓励它们之间的合作,促进它们的联合训练,从而提升彼此的性能。在我们的框架中,去雾网络在推理过程中可以独立于透射图估计来估计干净图像,不会引入额外的开销。此外,我们的模型无关框架可以无缝地与其他现有的去雾网络结合,在不同的数据集和模型中一致地大幅提升性能。

[8] HIIF:基于分层编码的隐式图像函数用于连续超分辨率
标题: HIIF: Hierarchical Encoding based Implicit Image Function for Continuous Super-resolution
作者: Yuxuan Jiang / Ho Man Kwan / Tianhao Peng / Ge Gao / Fan Zhang / Xiaoqing Zhu / Joel Sole / David Bull
原文:   [英文]  
备注: None
摘要:
最近在隐式神经表示(INRs)方面的进展在包括图像超分辨率(ISR)在内的各种低视觉任务的建模中显示出了显著的前景。基于INR的ISR方法通常学习连续表示,从而提供灵活性,可以从低分辨率图像生成任意所需比例的高分辨率图像。然而,现有的基于INR的ISR方法在网络中使用多层感知器进行参数化,这并未考虑局部采样点中存在的层次结构,从而限制了表示能力。在本文中,我们提出了一种新的基于层次编码的隐式图像函数用于连续图像超分辨率,称为HIIF,它利用了一种新颖的层次位置编码来增强局部隐式表示,使其能够在多个尺度上捕捉细节。我们的方法还通过考虑额外的非局部信息,在隐式注意网络中嵌入了多头线性注意机制。我们的实验表明,当与不同的主干编码器集成时,HIIF在PSNR上比最先进的连续图像超分辨率方法高出最多0.17dB。HIIF的源代码将在\url{this http URL}公开。

[9] 通过坐标噪声和傅里叶注意力的多视图图像扩散
标题: Multi-view Image Diffusion via Coordinate Noise and Fourier Attention
作者: Justin Theiss / Norman Müller / Daeil Kim / Aayush Prakash
原文:   [英文]  
备注: WACV 2025
摘要:
最近,基于扩散模型的文本生成图像在高保真度和泛化能力方面相比之前的基线取得了显著进展。然而,从提示生成整体多视图一致的图像仍然是一个重要且具有挑战性的任务。为了解决这一挑战,我们提出了一种扩散过程,该过程通过一种新颖的注意力机制以及新颖的噪声初始化技术和交叉注意力损失来关注特征的时间依赖空间频率。这个基于傅里叶的注意力模块专注于生成场景中不重叠区域的特征,以更好地对齐全局外观。我们的噪声初始化技术结合了从像素坐标和深度图中提取的共享噪声和低空间频率信息,以在视图之间引入噪声相关性。交叉注意力损失进一步对齐了在整个场景中共享相同提示的特征。与其他最先进的多视图一致性方法相比,我们的技术在多个定量指标上改进了SOTA,并在定性结果上表现更好。

[10] 推进视频帧的自回归续接
标题: Advancing Auto-Regressive Continuation for Video Frames
作者: Ruibo Ming / Jingwei Wu / Zhewei Huang / Zhuoxuan Ju / Jianming HU / Lihui Peng / Shuchang Zhou
原文:   [英文]   [中文]  
备注: Under Review
摘要:
近年来,自回归大型语言模型(LLMs)的进展展示了其在生成高质量文本方面的潜力,激发了研究人员将其应用于图像和视频生成。本文探讨了LLMs在视频续接任务中的应用,这对于构建世界模型和预测未来帧至关重要。在本文中,我们解决了包括防止长期帧生成退化和提高生成图像质量等挑战。我们设计了一种名为ARCON的方案,该方案涉及训练我们的模型交替生成语义标记和RGB标记,使LLM能够明确学习和预测视频的高层次结构信息。我们发现生成的RGB图像和语义图在没有特殊设计的情况下具有高度一致性。此外,我们采用了一种基于光流的纹理拼接方法来提高生成视频的视觉质量。在自动驾驶场景中的定量和定性实验表明,我们的模型可以持续生成长视频。

[11] EditScout:使用多模态大语言模型定位基于扩散编辑图像中的伪造区域
标题: EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM
作者: Quang Nguyen / Truong Vu / Trong-Tung Nguyen / Yuxin Wen / Preston K Robinette / Taylor T Johnson / Tom Goldstein / Anh Tran / Khoi Nguyen
原文:   [英文]   [中文]  
备注: None
摘要:
图像编辑技术是用于转换、调整、移除或以其他方式改变图像的工具。最近的研究显著提升了图像编辑工具的能力,使得创建出几乎与真实图像难以区分的逼真且语义丰富的伪造区域成为可能,这给数字取证和媒体可信度带来了新的挑战。尽管当前的图像取证技术擅长定位由传统图像操作方法产生的伪造区域,但在定位由扩散技术创建的区域方面仍存在困难。为弥补这一差距,我们提出了一个新颖的框架,该框架集成了多模态大型语言模型(LLM),以增强推理能力,从而定位由基于扩散模型的编辑方法生成的篡改区域。通过利用LLM的上下文和语义优势,我们的框架在MagicBrush、AutoSplice和PerfBrush(新型扩散数据集)数据集上取得了令人满意的结果,在mIoU和F1-score指标上优于以往的方法。值得注意的是,我们的方法在PerfBrush数据集上表现出色,这是一个自构建的测试集,包含了以前未见过的编辑类型。在传统方法通常表现不佳、得分显著较低的情况下,我们的方法展示了令人鼓舞的性能。

[12] I$^2$OL-Net:用于点监督X射线违禁物品检测的内外物体学习网络
标题: I$^2$OL-Net: Intra-Inter Objectness Learning Network for Point-Supervised X-Ray Prohibited Item Detection
作者: Sanjoeng Wong / Yan Yan
原文:   [英文]  
备注: None
摘要:
X光图像中违禁品的自动检测在公共安全中起着至关重要的作用。然而,现有的方法严重依赖于劳动密集型的框注释。为了解决这个问题,我们研究了在劳动效率较高的点监督下的X光违禁品检测,并开发了一种内部-外部物体性学习网络(I$^2$OL-Net)。I$^2$OL-Net由两个关键模块组成:内部模态物体性学习(intra-OL)模块和外部模态物体性学习(inter-OL)模块。intra-OL模块设计了一个局部聚焦高斯掩蔽块和一个全局随机高斯掩蔽块,以协同学习X光图像中的物体性。同时,inter-OL模块引入了基于小波分解的对抗学习块和物体性块,有效减少了模态差异,并将从带框注释的自然图像中学到的物体性知识转移到X光图像中。基于上述方法,I$^2$OL-Net极大地缓解了由于X光图像中严重的类内变化引起的部分主导问题。四个X光数据集的实验结果表明,I$^2$OL-Net在显著降低注释成本的同时,可以实现卓越的性能,从而提高了其可访问性和实用性。

[13] Pinco:用于前景条件修复的扩散变换器中的位置诱导一致适配器
标题: Pinco: Position-induced Consistent Adapter for Diffusion Transformer in Foreground-conditioned Inpainting
作者: Guangben Lu / Yuzhen Du / Zhimin Sun / Ran Yi / Yifan Qi / Yizhe Tang / Tianyi Wang / Lizhuang Ma / Fangyuan Zou
原文:   [英文]   [中文]  
备注: None
摘要:
前景条件修复旨在利用提供的前景主体和文本描述无缝填充图像的背景区域。虽然现有的基于文本到图像(T2I)的图像修复方法可以应用于这一任务,但它们存在主体形状扩展、变形或与文本描述对齐能力受损的问题,导致视觉元素与文本描述之间的不一致。为了解决这些挑战,我们提出了Pinco,这是一种即插即用的前景条件修复适配器,能够生成高质量的背景,并且很好地与文本对齐,同时有效地保留前景主体的形状。首先,我们设计了一个自一致适配器,将前景主体特征集成到与布局相关的自注意力层中,通过确保模型在处理整体图像布局时能够有效考虑前景主体的特征,帮助缓解文本和主体特征之间的冲突。其次,我们设计了一种解耦图像特征提取方法,采用不同的架构分别提取语义和形状特征,显著提高了主体特征提取的质量,并确保主体形状的高质量保留。第三,为了确保精确利用提取的特征并将注意力集中在主体区域,我们引入了共享位置嵌入锚点,大大提高了模型对主体特征的理解,并提升了训练效率。大量实验表明,我们的方法在前景条件修复中实现了卓越的性能和效率。

[14] 探索真实与合成数据集及线性注意力在图像修复中的应用
标题: Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration
作者: Yuzhen Du / Teng Hu / Jiangning Zhang / Ran Yi Chengming Xu / Xiaobin Hu / Kai Wu / Donghao Luo / Yabiao Wang / Lizhuang Ma
原文:   [英文]   [中文]  
备注: None
摘要:
图像修复旨在恢复退化的图像,深度学习,特别是卷积神经网络(CNNs)和变压器(Transformers),提高了性能。然而,目前缺乏统一的图像修复训练基准。我们发现训练和测试数据集之间的图像复杂性存在偏差,影响了修复质量。为了解决这个问题,我们创建了ReSyn,一个具有平衡复杂度的大规模图像修复数据集,包括真实和合成图像。我们还为图像修复模型建立了统一的训练标准。我们的RWKV-IR模型将线性复杂度的RWKV集成到变压器中,以实现全局和局部感受野。它用深度卷积代替Q-Shift来处理局部依赖性,并结合双向注意力来实现全局和局部的感知。Cross-Bi-WKV模块平衡了水平和垂直注意力。实验表明,RWKV-IR在图像修复方面的有效性。

[15] CLIP-FSAC++: 基于CLIP的异常描述符的少样本异常分类
标题: CLIP-FSAC++: Few-Shot Anomaly Classification with Anomaly Descriptor Based on CLIP
作者: Zuo Zuo / Jiahao Dong / Yao Wu / Yanyun Qu / Zongze Wu
原文:   [英文]   [中文]  
备注: under review
摘要:
工业异常分类(AC)是工业制造中不可或缺的任务,保证了各种产品的质量和安全。为了应对工业场景中数据稀缺的问题,近年来出现了许多少样本异常检测方法。在本文中,我们提出了一种有效的单阶段训练少样本异常分类(FSAC)框架,称为CLIP-FSAC++。具体来说,我们引入了一个名为异常描述符的跨模态交互模块,跟随图像和文本编码器,增强了视觉和文本嵌入的相关性,并将CLIP的表示从预训练数据适配到目标数据。在异常描述符中,图像到文本的交叉注意力模块用于获取图像特定的文本嵌入,文本到图像的交叉注意力模块用于获取文本特定的视觉嵌入。然后,这些模态特定的嵌入用于增强CLIP的原始表示,以获得更好的匹配能力。我们在VisA和MVTEC-AD上针对1、2、4和8-shot设置进行了全面的实验结果评估,以验证我们的方法在少样本异常分类中的效果。源代码可以在此HTTPS URL找到。

[16] LL-ICM:通过大型视觉语言模型进行低级机器视觉的图像压缩
标题: LL-ICM: Image Compression for Low-level Machine Vision via Large Vision-Language Model
作者: Yuan Xue / Qi Zhang / Chuanmin Jia / Shiqi Wang
原文:   [英文]   [中文]  
备注: None
摘要:
机器图像压缩(ICM)旨在为机器视觉任务而非人类观看压缩图像。目前的研究主要集中在目标检测和语义分割等高层次任务上。然而,在现实世界中,原始图像的质量通常无法得到保证,导致压缩后感知质量或下游任务性能更差。低层次(LL)机器视觉模型,如图像修复模型,可以帮助提高这种质量,因此也应考虑其压缩需求。在本文中,我们提出了一个针对低层次机器视觉任务的开创性ICM框架,即LL-ICM。通过联合优化压缩和低层次任务,所提出的LL-ICM不仅丰富了其在泛化到多种低层次任务中的编码能力,还优化了下游低层次任务模型的处理能力,实现了图像编解码器和低层次任务模型的相互适应。此外,我们将大规模视觉语言模型集成到LL-ICM框架中,以生成更通用和抗失真的特征嵌入,用于低层次视觉任务。因此,一个LL-ICM编解码器可以泛化到多个任务。我们建立了一个坚实的基准来评估LL-ICM,包括使用全参考和无参考图像质量评估的广泛客观实验。实验结果表明,LL-ICM在BD-rate上比最先进的方法减少了22.65%。

[17] HybridGS:使用二维和三维高斯散点图分离瞬态和静态
标题: HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting
作者: Jingyu Lin / Jiaqi Gu / Lubin Fan / Bojian Wu / Yujing Lou / Renjie Chen / Ligang Liu / Jieping Ye
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
在包含瞬态物体的场景中生成高质量的新视角渲染的3D高斯点(3DGS)是具有挑战性的。我们提出了一种新的混合表示方法,称为HybridGS,使用二维高斯来表示每张图像中的瞬态物体,并保持传统的三维高斯来表示整个静态场景。需要注意的是,3DGS本身更适合建模假设多视图一致性的静态场景,但瞬态物体偶尔出现并不符合这一假设,因此我们将它们建模为单视图的平面物体,用二维高斯表示。我们的新表示方法从基本视点一致性的角度分解场景,使其更加合理。此外,我们提出了一种新的多视图调控监督方法,用于3DGS,利用共同可见区域的信息,进一步增强瞬态物体和静态物体之间的区别。然后,我们提出了一种简单而有效的多阶段训练策略,以确保在各种设置下的稳健训练和高质量视图合成。在基准数据集上的实验表明,我们在室内和室外场景中的新视角合成表现达到了最新的水平,即使在存在干扰元素的情况下也是如此。

[18] 使用视觉变换器从手写数学表达式自动生成LaTeX代码
标题: Automated LaTeX Code Generation from Handwritten Math Expressions Using Vision Transformer
作者: Jayaprakash Sundararaj / Akhil Vyas / Benjamin Gonzalez-Maldonado
原文:   [英文]   [中文]  
备注: 7 pages; 3 figures
摘要:
将数学表达式转换为LaTeX是一个具有挑战性的任务。在本文中,我们探讨了使用较新的基于Transformer的架构来解决将手写/数字数学表达式图像转换为等效LaTeX代码的问题。我们使用当前最先进的CNN编码器和RNN解码器作为实验的基线。我们还通过用ResNet50模型替换CNN编码器来研究对CNN-RNN架构的改进。我们的实验表明,与基线CNN/RNN架构相比,Transformer架构在整体准确性和BLEU分数方面取得了更高的成绩,并且Levenshtein分数更低,同时通过适当的模型参数微调可以取得更好的结果。

[19] CreatiLayout:用于创意布局到图像生成的孪生多模态扩散变换器
标题: CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation
作者: Hui Zhang / Dexiang Hong / Tingwei Gao / Yitong Wang / Jie Shao / Xinglong Wu / Zuxuan Wu / Yu-Gang Jiang
原文:   [英文]   [中文]  
备注: 16 pages, 13 figures
摘要:
扩散模型因其生成的图像不仅视觉上吸引人,而且具有高艺术质量而受到认可。因此,布局到图像(L2I)生成被提出,以利用特定区域的位置和描述来实现更精确和可控的生成。然而,以前的方法主要集中在基于UNet的模型(例如SD1.5和SDXL),对多模态扩散变压器(MM-DiTs)的探索有限,尽管它们展示了强大的图像生成能力。使MM-DiT能够进行布局到图像生成看似简单,但由于布局的引入、整合和在多种模态之间的平衡的复杂性,这一过程具有挑战性。为此,我们探索了各种网络变体,以有效地将布局指导整合到MM-DiT中,并最终提出了SiamLayout。为了继承MM-DiT的优势,我们使用一组单独的网络权重来处理布局,将其视为与图像和文本模态同等重要。同时,为了缓解模态之间的竞争,我们将图像-布局交互解耦为一个与图像-文本交互并行的分支,并在后期阶段将它们融合。此外,我们贡献了一个大规模布局数据集,名为LayoutSAM,其中包括270万对图像-文本对和1070万个实体。每个实体都用边界框和详细描述进行了注释。我们进一步构建了LayoutSAM-Eval基准,作为评估L2I生成质量的综合工具。最后,我们引入了布局设计器,利用大型语言模型在布局规划中的潜力,将其转变为布局生成和优化的专家。我们的代码、模型和数据集将在此HTTPS URL上提供。

[20] CLIP-PING:通过Proximus内在邻居指导提升轻量级视觉-语言模型
标题: CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance
作者: Chu Myaet Thwal / Ye Lin Tun / Minh N. H. Nguyen / Eui-Nam Huh / Choong Seon Hong
原文:   [英文]   [中文]  
备注: 15 pages, 4 figures, 20 tables
摘要:
在对比语言-图像预训练(CLIP)取得成功之后,最近的趋势标志着探索轻量级视觉-语言模型在资源受限场景中的适用性。这些模型在仅依赖单一的图像-文本对比学习目标时,通常表现不佳,突显出需要更有效的训练机制来保证稳健的跨模态特征对齐。在这项工作中,我们提出了CLIP-PING:带有Proximus内在邻居指导的对比语言-图像预训练,这是一种简单高效的训练范式,旨在以最小的计算开销和更低的数据需求提升轻量级视觉-语言模型的性能。CLIP-PING从任意预训练编码器中提取单模态特征,以获得Proximus邻居样本的内在指导,即最近邻(NN)和交叉最近邻(XNN)。我们发现,这些邻居提供的额外对比监督显著提升了跨模态对齐,使轻量级模型能够学习到具有丰富语义多样性的更通用特征。大量实验表明,CLIP-PING在零样本泛化和跨模态检索任务中显著超越了其同类模型。具体来说,在使用ViT-XS图像编码器并训练了300万(图像,文本)对的情况下,相比原始CLIP,在零样本ImageNet1K上提升了5.5%,在Flickr30K上分别提升了10.7%(I2T)和5.7%(T2I)。此外,CLIP-PING在多个下游任务的线性评估协议下展示了强大的可迁移性。

[21] 通过推理时提示噪声优化来保护文本到图像生成
标题: Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization
作者: Jiangweizhi Peng / Zhiwei Tang / Gaowen Liu / Charles Fleming / Mingyi Hong
原文:   [英文]  
备注: None
摘要:
文本到图像(T2I)扩散模型因其基于文本提示生成高质量和多样化图像的能力而广受认可。然而,尽管最近取得了进展,这些模型仍然容易生成包含敏感或不适当内容的不安全图像,这可能对用户造成伤害。目前,防止扩散模型生成不适当图像的努力容易被绕过,并且易受对抗性攻击的影响。如何确保T2I模型符合特定的安全目标仍然是一个重大挑战。在这项工作中,我们提出了一种新颖的、无需训练的方法,称为提示-噪声优化(PNO),以减轻不安全图像的生成。我们的方法引入了一个新颖的优化框架,该框架在采样过程中利用连续提示嵌入和注入的噪声轨迹来生成安全图像。大量数值结果表明,我们的框架在抑制有害图像生成方面达到了最先进的性能,并且在无需调整模型参数的情况下表现出对抗性攻击的鲁棒性。此外,与现有方法相比,PNO在生成时间上具有可比性,同时在安全生成和提示-图像对齐这两个相互冲突的目标之间提供了最佳的权衡。

[22] DiffSign:AI辅助生成具有增强现实感的可定制手语视频
标题: DiffSign: AI-Assisted Generation of Customizable Sign Language Videos With Enhanced Realism
作者: Sudha Krishnamurthy / Vimal Bhat / Abhinav Jain
原文:   [英文]  
备注: Published in Proceedings of ECCV, Workshop on Assistive Computer Vision and Robotics, 2024
摘要:
近年来,多个流媒体服务的激增使得全球各地的多样化观众能够观看相同的媒体内容,如电影或电视剧。虽然翻译和配音服务正在增加以使内容对本地观众更易于访问,但为不同能力的人群(如聋人和听力障碍(DHH)社区)提供的支持仍然滞后。我们的目标是通过生成具有真实感和表现力的合成手语视频,使媒体内容对DHH社区更易于访问。对于全球观看的特定媒体内容,使用相同的手语者可能吸引力有限。因此,我们的方法结合了参数建模和生成建模,以生成逼真的合成手语者,并根据用户偏好定制其外观。我们首先通过优化参数模型将人类手语姿势重新定位到3D手语头像。然后,使用渲染头像的高保真姿势来调节通过基于扩散的生成模型生成的合成手语者的姿势。合成手语者的外观由通过视觉适配器提供的图像提示控制。我们的结果表明,使用我们的方法生成的手语视频在时间一致性和真实感方面优于仅基于文本提示生成的扩散模型生成的手语视频。我们还支持多模态提示,允许用户进一步定制手语者的外观以适应多样性(例如,肤色、性别)。我们的方法对于手语者匿名化也很有用。

[23] ShapeCraft:基于身体感知和语义感知的3D对象设计
标题: ShapeCraft: Body-Aware and Semantics-Aware 3D Object Design
作者: Michelle Guo / Mia Tang / Hannah Cha / Ruohan Zhang / C. Karen Liu / Jiajun Wu
原文:   [英文]   [中文]  
备注: Project webpage: this https URL
摘要:
为了设计各种日常物品,设计过程应同时关注人体和设计规范的潜在语义。然而,这两个目标对当前基于AI的设计工具提出了重大挑战。在这项工作中,我们提出了一种方法,从给定的基础网格中合成对人体感知的3D物体,输入可以是人体几何形状以及文本或图像作为指导。生成的物体可以在虚拟角色上进行模拟,或制造用于现实世界。我们提出使用一种网格变形程序,该程序优化了语义对齐以及接触和穿透损失。使用我们的方法,用户可以从文本、图像或草图生成虚拟或现实世界的物体,而无需人工艺术家的干预。我们在各种物体类别上展示了定性和定量结果,证明了我们方法的有效性。

[24] 噪声值得扩散指导
标题: A Noise is Worth Diffusion Guidance
作者: Donghoon Ahn / Jiwon Kang / Sanghyun Lee / Jaewon Min / Minjae Kim / Wooseok Jang / Hyoungwon Cho / Sayak Paul / SeonHwa Kim / Eunju Cha / Kyong Hwan Jin / Seungryong Kim
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
扩散模型在生成高质量图像方面表现出色。然而,当前的扩散模型在没有指导方法(如无分类器指导,CFG)的情况下难以生成可靠的图像。指导方法真的必要吗?观察到通过扩散反演获得的噪声可以在没有指导的情况下重建高质量图像,我们将注意力集中在去噪管道的初始噪声上。通过将高斯噪声映射到“无指导噪声”,我们发现小幅度低频成分显著增强了去噪过程,消除了对指导的需求,从而提高了推理吞吐量和内存利用率。在此基础上,我们提出了\ours,这是一种用单次初始噪声精炼替代指导方法的新方法。这种精炼的噪声使得在相同的扩散管道中无需指导即可生成高质量图像。我们的噪声精炼模型利用高效的噪声空间学习,仅需50K文本-图像对即可实现快速收敛和强大性能。我们通过多种指标验证了其有效性,并分析了精炼噪声如何消除对指导的需求。请参见我们的项目页面:this https URL。

[25] 多源协作域泛化用于跨场景遥感图像分类
标题: Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification
作者: Zhu Han / Ce Zhang / Lianru Gao / Zhiqiang Zeng / Michael K. Ng / Bing Zhang / Jocelyn Chanussot
原文:   [英文]   [中文]  
备注: None
摘要:
跨场景图像分类旨在传递地面材料的先验知识,以标注具有不同分布的区域,并减少遥感领域的手工成本。然而,现有方法主要关注单一源域泛化到未见目标域,并且由于训练信息有限和多样性建模能力不足,容易被现实世界中的大域移所混淆。为了解决这一问题,我们提出了一种基于多源遥感数据同质性和异质性特征的新型多源协作域泛化框架(MS-CDG),该框架同时考虑数据感知对抗增强和模型感知多层次多样化,以增强跨场景泛化性能。数据感知对抗增强采用带有语义引导的对抗神经网络,通过自适应学习跨域的真实通道和分布变化来生成MS样本。在跨域和域内建模方面,模型感知多样化将MS数据的共享空间-通道特征转换为类原型和核混合模块,以有效解决域差异并聚类不同类别。最后,通过引入分布一致性对齐来增加模型多样性并确保更好的域不变表示学习,对原始和增强的MS样本进行联合分类。在三个公共MS遥感数据集上的大量实验表明,与最先进的方法相比,所提出的方法具有优越的性能。

[26] 4D SlingBAG:用于大规模动态3D光声迭代重建的时空耦合高斯球
标题: 4D SlingBAG: spatial-temporal coupled Gaussian ball for large-scale dynamic 3D photoacoustic iterative reconstruction
作者: Shuang Li / Yibing Wang / Jian Gao / Chulhong Kim / Seongwook Choi / Yu Zhang / Qian Chen / Yao Yao / Changhui Li
原文:   [英文]   [中文]  
备注: None
摘要:
大规模动态三维(3D)光声成像(PAI)在临床应用中具有重要意义。在实际应用中,大规模3D实时PAI系统通常使用具有一定角度缺陷的稀疏二维(2D)传感器阵列,这需要先进的迭代重建(IR)算法来实现定量PAI并减少重建伪影。然而,对于现有的IR算法,多帧3D重建会导致极高的内存消耗和长时间的计算时间,并且对数据帧之间的时空连续性考虑有限。在此,我们提出了一种新方法,称为4D滑动高斯球自适应增长(4D SlingBAG)算法,该算法基于当前的点云IR算法滑动高斯球自适应增长(SlingBAG),在IR方法中具有最小的内存消耗。我们的4D SlingBAG方法将时空耦合变形函数应用于点云中的每个高斯球,从而显式地学习动态3D PA场景的变形特征。这使得能够有效地表示各种生理过程(如脉动)或外部压力(例如血液灌注实验)在动态3D PAI期间对血管形态和血流变化的贡献,从而实现高效的动态3D PAI IR。模拟实验表明,4D SlingBAG实现了高质量的动态3D PA重建。与对每帧单独使用SlingBAG算法进行重建相比,我们的方法显著减少了计算时间并保持极低的内存消耗。4D SlingBAG项目可以在以下GitHub仓库中找到:\href{this https URL}{this https URL}。

[27] ONER:用于增量异常检测的在线经验回放
标题: ONER: Online Experience Replay for Incremental Anomaly Detection
作者: Yizhou Jin / Jiahui Zhu / Guodong Wang / Shiwei Li / Jinjin Zhang / Qingjie Liu / Xinyue Liu / Yunhong Wang
原文:   [英文]   [中文]  
备注: None
摘要:
增量异常检测在动态工业场景中依次识别新类别中的异常区域。这仍然是一个高度具有挑战性的任务,因为知识覆盖和特征冲突会导致灾难性遗忘。在这项工作中,我们提出了ONER,一种端到端的在线经验重放方法,它在适应新任务的同时,以最小的成本有效地缓解了灾难性遗忘。具体来说,我们的框架利用了来自过去任务的两种经验:分解提示和语义原型,解决了模型参数更新和特征优化问题。分解提示由可学习的组件组成,这些组件组合在一起生成注意力条件提示。这些提示重用先前学到的知识,使模型能够有效地学习新任务。语义原型在像素和图像级别上操作,在潜在特征空间中执行正则化,以防止跨任务遗忘。大量实验表明,我们的方法在增量异常检测中实现了最先进的性能,显著减少了遗忘,并以最小的成本有效地适应新类别。这些结果证实了ONER的效率和稳定性,使其成为现实世界应用的强大解决方案。

[28] 定向清洁标签中毒攻击能否泛化?
标题: Can Targeted Clean-Label Poisoning Attacks Generalize?
作者: Zhizhen Chen / Subrat Kishore Dutta / Zhengyu Zhao / Chenhao Lin / Chao Shen / Xiao Zhang
原文:   [英文]   [中文]  
备注: 12 pages, 5 figures, 5 tables
摘要:
有针对性的投毒攻击旨在破坏模型对特定目标样本的预测。在常见的干净标签设置中,这些攻击是通过在获得特定目标的情况下,稍微扰动一部分训练样本来实现的。尽管不断有研究努力,但这些攻击是否能推广到那些目标的未知变体仍未被探索。在本文中,我们首次系统地研究了这个推广问题。观察到广泛采用的基于余弦相似度的攻击表现出有限的可推广性,我们提出了一种利用模型梯度的方向和幅度的高可推广性攻击方法。特别地,我们探索了多种目标变体,例如具有不同视角的物体和具有不同外观的动物种类。跨越各种推广场景的大量实验表明,我们的方法在攻击效果上始终表现最佳。例如,在两个图像基准数据集上的四个模型中,我们的方法在攻击成功率上比基于余弦相似度的攻击高出20.95%,且整体准确率相似。代码可在此https URL获取。

[29] DGNS:用于单目动态3D重建的可变形高斯喷溅和动态神经表面
标题: DGNS: Deformable Gaussian Splatting and Dynamic Neural Surface for Monocular Dynamic 3D Reconstruction
作者: Xuesong Li / Jinguang Tong / Jie Hong / Vivien Rolland / Lars Petersson
原文:   [英文]   [中文]  
备注: None
摘要:
从单目视频中重建动态场景对于现实世界的应用至关重要。本文通过引入一个混合框架:可变形高斯喷溅和动态神经表面(DGNS),解决了动态新视图合成和3D几何重建的双重挑战。在该框架中,两个模块可以相互利用以完成这两项任务。在训练过程中,由可变形高斯喷溅模块生成的深度图引导光线采样以加快处理速度,并在动态神经表面模块中提供深度监督以改进几何重建。同时,动态神经表面引导高斯原语在表面周围的分布,增强渲染质量。为了进一步优化深度监督,我们在由高斯光栅化生成的深度图上引入了深度过滤过程。对公共数据集进行的大量实验表明,DGNS在新视图合成和3D重建方面均达到了最新的性能水平。

[30] 多视角无姿态变化定位零标签
标题: Multi-View Pose-Agnostic Change Localization with Zero Labels
作者: Chamuditha Jayanga Galappaththige / Jason Lai / Lloyd Windrim / Donald Dansereau / Niko Suenderhauf / Dimity Miller
原文:   [英文]  
备注: None
摘要:
自主代理通常需要准确的方法来检测和定位其环境中的变化,特别是当观察结果来自不受约束和不一致的视点时。我们提出了一种新颖的无标签、与姿态无关的变化检测方法,该方法整合了来自多个视点的信息,以构建场景的变化感知3D高斯点云(3DGS)表示。即使仅有5张变化后场景的图像,我们的方法也能在3DGS中学习额外的变化通道,并生成优于单视点技术的变化掩码。我们的变化感知3D场景表示还能够为未见过的视点生成准确的变化掩码。实验结果表明,在复杂的多物体场景中,我们的方法在平均交并比(Mean Intersection Over Union)和F1得分上分别比其他基线方法提高了1.7倍和1.6倍。我们还贡献了一个新的真实世界数据集,用于在存在光照变化的多样化挑战场景中基准测试变化检测。

[31] 医学图像分析中的隐私保护:方法与应用综述
标题: Privacy-Preserving in Medical Image Analysis: A Review of Methods and Applications
作者: Yanming Zhu / Xuefei Yin / Alan Wee-Chung Liew / Hui Tian
原文:   [英文]  
备注: None
摘要:
随着人工智能和深度学习的快速发展,医学图像分析已成为现代医疗保健中的关键工具,显著提高了诊断的准确性和效率。然而,基于人工智能的方法也引发了严重的隐私问题,因为医学图像通常包含高度敏感的患者信息。本综述全面概述了医学图像分析中的隐私保护技术,包括加密、差分隐私、同态加密、联邦学习和生成对抗网络。我们探讨了这些技术在各种医学图像分析任务中的应用,如诊断、病理学和远程医疗。值得注意的是,我们根据不同医学图像分析应用中的具体挑战及其相应解决方案组织了本综述,使技术应用直接与实际问题对接,解决了当前研究领域中的空白。此外,我们讨论了零知识证明和安全多方计算等新兴趋势,为未来研究提供了见解。本综述为研究人员和从业者提供了宝贵的资源,有助于推进医学图像分析中的隐私保护。

[32] MegaCOIN:增强视觉语言模型的中等粒度颜色感知
标题: MegaCOIN: Enhancing Medium-Grained Color Perception for Vision-Language Models
作者: Ming-Chang Chiu / Shicheng Wen / Pin-Yu Chen / Xuezhe Ma
原文:   [英文]   [中文]  
备注: 8 pages, 13 tables, 2 figures
摘要:
在视觉-语言模型(VLMs)中,感知和解释颜色及物理环境的能力对于实现上下文准确理解和交互至关重要。然而,尽管多模态建模取得了进展,但在严格评估模型辨别细微颜色变化和空间上下文能力的专门数据集方面仍然存在显著缺乏——这些是情境理解和在现实世界应用中可靠部署的关键要素。为此,我们整理了MegaCOIN,这是一个基于真实图像并具有各种上下文属性的高质量人工标注数据集。MegaCOIN由两部分组成:MegaCOIN-Instruct,作为VLMs的监督微调(SFT)数据集;以及MegaCOIN-Bench,一个可以作为独立问答数据集使用的注释测试集。MegaCOIN为220,000张真实图像提供了三种注释特征:前景颜色、背景颜色和物体物理环境的描述,共计660,000个人工注释。此外,MegaCOIN还可以用于基准测试领域泛化(DG)算法。我们在VLM的线性探测设置中探索了基准测试DG方法,并展示了一些新的见解。最后但同样重要的是,我们发现包括GPT-4o在内的VLMs在颜色识别能力方面表现不佳,而使用MegaCOIN进行微调可以提高其在视觉评估任务中的表现。在某些情况下,使用MegaCOIN微调的小规模开源模型如LLaVA和Bunny可以超越闭源的GPT-4o。我们希望MegaCOIN的实用性能够为VLMs的改进方向提供启示,并为领域泛化算法提供一个更复杂的平台。

[33] MT3DNet:用于3D手术场景重建的多任务学习网络
标题: MT3DNet: Multi-Task learning Network for 3D Surgical Scene Reconstruction
作者: Mithun Parab / Pranay Lendave / Jiyoung Kim / Thi Quynh Dan Nguyen / Palash Ingle
原文:   [英文]   [中文]  
备注: None
摘要:
在图像辅助的微创手术(MIS)中,理解手术场景对于向外科医生提供实时反馈、技能评估以及通过人机协作程序改善手术结果至关重要。在此背景下,挑战在于准确检测、分割和估计高分辨率图像中描绘的手术场景的深度,同时重建3D场景,并为每个手术器械提供分割和检测标签。为了解决这一挑战,提出了一种新颖的多任务学习(MTL)网络,用于同时执行这些任务。这种方法的一个关键方面是通过在MTL框架中集成对抗性权重更新来克服同时处理多个任务的优化难题。所提出的MTL模型通过整合分割、深度估计和目标检测来实现3D重建,从而增强了对手术场景的理解,这相比于缺乏3D能力的现有研究是一个显著的进步。在EndoVis2018基准数据集上的全面实验突显了该模型在高效解决所有三项任务方面的能力,证明了所提出技术的有效性。

[34] InfiniCube:使用世界引导的视频模型生成无限且可控的动态3D驾驶场景
标题: InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models
作者: Yifan Lu / Xuanchi Ren / Jiawei Yang / Tianchang Shen / Zhangjie Wu / Jun Gao / Yue Wang / Siheng Chen / Mike Chen / Sanja Fidler / Jiahui Huang
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
我们提出了InfiniCube,这是一种可扩展的方法,用于生成具有高保真度和可控性的无限动态3D驾驶场景。之前的场景生成方法要么受限于规模,要么在生成的序列中缺乏几何和外观一致性。相比之下,我们利用了最近在可扩展3D表示和视频模型方面的进展,实现了大规模动态场景生成,并通过高清地图、车辆边界框和文本描述实现灵活控制。首先,我们构建了一个基于地图条件的稀疏体素3D生成模型,以释放其在无限体素世界生成中的潜力。然后,我们重新利用一个视频模型,并通过一组精心设计的像素对齐引导缓冲区将其固定在体素世界上,合成一致的外观。最后,我们提出了一种快速前馈方法,采用体素和像素分支,将动态视频提升为具有可控对象的动态3D高斯分布。我们的方法可以生成可控且逼真的3D驾驶场景,大量实验验证了我们模型的有效性和优越性。

[35] AIpparel:用于数字服装的大型多模态生成模型
标题: AIpparel: A Large Multimodal Generative Model for Digital Garments
作者: Kiyohiro Nakayama / Jan Ackermann / Timur Levent Kesdogan / Yang Zheng / Maria Korosteleva / Olga Sorkine-Hornung / Leonidas J. Guibas / Guandao Yang / Gordon Wetzstein
原文:   [英文]   [中文]  
备注: None
摘要:
服装是人类生活中必不可少的,不仅提供保护,还反映文化身份和展示个人风格。然而,服装的制作过程仍然是一个耗时的过程,主要是因为设计过程中涉及的手工工作。为了简化这一过程,我们介绍了AIpparel,一个用于生成和编辑缝纫图案的大型多模态模型。我们的模型在一个定制的大规模数据集上微调了最先进的大型多模态模型(LMMs),该数据集包含超过120,000件独特的服装,每件服装都有包括文本、图像和缝纫图案在内的多模态注释。此外,我们提出了一种新颖的标记方案,可以简洁地编码这些复杂的缝纫图案,使得大型语言模型(LLMs)能够高效地预测它们。AIpparel在单模态任务中实现了最先进的性能,包括文本到服装和图像到服装的预测,并且使得交互式服装编辑等新颖的多模态服装生成应用成为可能。项目网站在这个网址:http URL。

[36] 通过测量优化增强和加速基于扩散的逆问题求解
标题: Enhancing and Accelerating Diffusion-Based Inverse Problem Solving through Measurements Optimization
作者: Tianyu Chen / Zhendong Wang / Mingyuan Zhou
原文:   [英文]   [中文]  
备注: None
摘要:
扩散模型最近在解决逆问题方面展示了显著的成功。然而,当前基于扩散模型的解决方案通常需要大量的函数评估(NFE)才能生成基于测量条件的高质量图像,因为它们在每一步中仅包含有限的信息。为了加速基于扩散的逆问题解决过程,我们引入了\textbf{测量优化}(MO),这是一个更高效的即插即用模块,用于在逆问题解决过程的每一步中整合测量信息。该方法在FFHQ和ImageNet数据集上的八个不同的线性和非线性任务中进行了全面评估。通过使用MO,我们在多个任务中建立了最先进的(SOTA)性能,具有以下主要优势:(1)它的操作不超过100个NFE,ImageNet上的相位恢复是唯一的例外;(2)即使在低NFE计数下,它也能实现SOTA或接近SOTA的结果;(3)它可以无缝集成到现有的基于扩散模型的逆问题解决方案中,例如DPS \cite{chung2022diffusion}和Red-diff \cite{mardani2023variational}。例如,DPS-MO在FFHQ 256数据集上的高动态范围成像中达到了28.71 dB的峰值信噪比(PSNR),在仅用100个NFE的情况下设立了新的SOTA基准,而当前的方法需要1000到4000个NFE才能达到可比的性能。

[37] 一种使用监督对比学习的图像合成框架
标题: A Framework For Image Synthesis Using Supervised Contrastive Learning
作者: Yibin Liu / Jianyu Zhang / Li Zhang / Shijian Li / Gang Pan
原文:   [英文]   [中文]  
备注: None
摘要:
文本到图像(T2I)生成旨在生成与文本描述相对应的逼真图像。生成对抗网络(GAN)在这一任务中已被证明是成功的。典型的T2I GAN是两阶段方法,首先从对齐的图像-文本对中预训练跨模态表示,然后在此基础上使用GAN训练图像生成器。然而,这种表示忽略了模态内的语义对应关系,例如具有相同标签的图像。语义标签先验地描述了具有潜在跨图像关系的内在分布模式,这是对理解图像全部特征的文本描述的补充。在本文中,我们提出了一个框架,通过标签引导的监督对比学习利用跨模态和模态内的对应关系。我们在预训练和生成阶段将T2I GAN扩展为两个参数共享的对比分支。这种集成有效地聚类了语义相似的图像-文本对表示,从而促进了更高质量图像的生成。我们在四个新颖的T2I GAN上展示了我们的框架,通过单对象数据集CUB和多对象数据集COCO,在图像生成评估的Inception Score(IS)和Frechet Inception Distance(FID)指标上取得了显著的改进。值得注意的是,在更复杂的多对象COCO上,我们的框架分别使AttnGAN、DM-GAN、SSA-GAN和GALIP的FID提高了30.1%、27.3%、16.2%和17.1%。我们还通过与其他标签引导的T2I GAN进行比较验证了我们的优越性。结果证实了我们的方法在推进T2I生成的最先进GAN方面的有效性和竞争力。

[38] 精确:探索时空感知线索以进行弱监督卫星图像时间序列语义分割
标题: Exact: Exploring Space-Time Perceptive Clues for Weakly Supervised Satellite Image Time Series Semantic Segmentation
作者: Hao Zhu / Yan Zhu / Jiayu Xiao / Tianxiang Xiao / Yike Ma / Yucheng Zhang / Feng Dai
原文:   [英文]  
备注: Under review. Code will be available at this https URL
摘要:
通过卫星图像时间序列(SITS)进行自动化作物制图已成为农业监测和管理的重要途径。然而,由于低分辨率和不清晰的地块边界,在SITS中标注像素级掩码异常复杂且耗时。本文采用弱监督范式(即仅有图像级类别可用)来解放作物制图任务,使其摆脱繁重的标注负担。SITS的独特特性在弱监督学习中带来了若干挑战:(1)来自空间邻近区域的噪声干扰,以及(2)异常时间段的错误语义偏差。为了解决上述困难,我们提出了一种新方法,称为探索时空感知线索(Exact)。首先,我们引入了一组空间线索,以明确捕捉不同作物的代表性模式,这些模式来自最具类别相关性的区域。此外,我们利用模型的时间到类别的交互作用,强调关键片段的贡献,从而增强模型对作物区域的感知。基于时空感知线索,我们推导出基于线索的类激活图(CAMs),以有效监督SITS分割网络。我们的方法在各种SITS基准上表现出色。值得注意的是,使用Exact生成的掩码训练的分割网络达到了其全监督性能的95%,显示了弱监督范式在作物制图场景中的光明前景。我们的代码将公开可用。

[39] HyperDefect-YOLO:通过超图计算增强YOLO用于工业缺陷检测
标题: HyperDefect-YOLO: Enhance YOLO with HyperGraph Computation for Industrial Defect Detection
作者: Zuo Zuo / Jiahao Dong / Yue Gao / Zongze Wu
原文:   [英文]   [中文]  
备注: under review
摘要:
在制造业中,缺陷检测是一项重要但具有挑战性的任务,旨在检测生产过程中产生的缺陷。尽管传统的YOLO模型在缺陷检测方面表现良好,但它们在捕捉高阶特征关系方面仍存在局限性,这在复杂场景和跨尺度的缺陷检测中形成了障碍。为此,我们将超图计算引入到YOLO框架中,称为HyperDefect-YOLO(HD-YOLO),以提高代表能力和语义利用。HD-YOLO在骨干网络中包含缺陷感知模块(DAM)和混合图网络(MGNet),专门用于感知和提取缺陷特征。为了有效聚合多尺度特征,我们提出了超图聚合网络(HGANet),该网络结合了超图和注意力机制来聚合多尺度特征。我们还提出了跨尺度融合(CSF),以自适应地融合和处理特征,而不是简单的拼接和卷积。最后,我们在颈部提出了语义感知模块(SAM),以增强语义利用,从而在干扰背景中准确定位不同大小的缺陷。HD-YOLO在公共HRIPCB和NEU-DET数据集上经过严格评估,与最先进的方法相比有显著改进。我们还在自建的MINILED数据集上评估了HD-YOLO,该数据集是在真实工业场景中收集的,以证明所提出方法的有效性。源代码可在此https URL获取。

[40] 探索全卷积网络在高级驾驶辅助系统中应用于高光谱成像分割的研究
标题: Exploring Fully Convolutional Networks for the Segmentation of Hyperspectral Imaging Applied to Advanced Driver Assistance Systems
作者: Jon Gutiérrez-Zaballa / Koldo Basterretxea / Javier Echanobe / M. Victoria Martínez / Inés del Campo
原文:   [英文]   [中文]  
备注: arXiv admin note: text overlap with arXiv:2411.19274
摘要:
高级驾驶辅助系统(ADAS)的主要目的是提高车辆乘员的安全性和舒适性。目前大多数基于计算机视觉的ADAS在常规条件下能够相当成功地执行检测和跟踪任务,但在恶劣天气和光照变化条件下,特别是在有许多重叠物体的复杂情况下,其可靠性并不完全。在这项工作中,我们探讨了在ADAS中使用高光谱成像(HSI)的可能性,假设不同材料的近红外(NIR)光谱反射率的差异可以帮助更好地分离驾驶场景中的物体。特别是,本文描述了将全卷积网络(FCN)应用于ADAS应用的HSI图像分割的一些实验结果。更具体地说,我们的目的是研究卷积滤波器编码的空间特征在多大程度上有助于提高HSI分割系统的性能。为此,我们使用了HSI-Drive v1.1数据集,该数据集提供了一组使用小型快照NIR-HSI相机在实际驾驶条件下记录的标记图像。最后,我们通过原型开发的FCN模型以及必要的高光谱立方体预处理阶段,并在MPSoC上表征其性能,分析了这种HSI分割系统的可实现性。

[41] UNCOVER:实时自动驾驶车辆未知类别物体检测
标题: UNCOVER: Unknown Class Object Detection for Autonomous Vehicles in Real-time
作者: Lars Schmarje / Kaspar Sakman / Reinhard Koch / Dan Zhang
原文:   [英文]   [中文]  
备注: None
摘要:
自动驾驶(AD)在开放世界场景中运行,不可避免地会遇到未知物体。然而,标准的物体检测器在有限数量的基础类上进行训练,往往会忽略任何未知物体,这在道路上可能带来潜在风险。为了解决这个问题,从训练中看到的物体中学习通用的而非特定类别的物体性是很重要的。因此,我们引入了占用预测和边界框回归。它通过计算实际物体所占预测区域的比例来学习评分物体性。为了增强其泛化能力,我们通过Mosaic和Mixup增强技术利用其他领域的数据来增加物体的多样性。AD训练类之外的物体被分类为新添加的分布外(OOD)类。我们的解决方案UNCOVER,旨在实现实时的自动驾驶车辆未知类别物体检测,在具有挑战性的AD基准测试中,在实现实时检测和高召回率方面表现出色。为了进一步达到非常低的误报率,特别是对于近距离物体,我们引入了一个后处理过滤步骤,利用从深度图中提取的几何线索,这通常在AD系统中是可用的。

[42] 使用协同回归网络的盲水下图像修复
标题: Blind Underwater Image Restoration using Co-Operational Regressor Networks
作者: Ozer Can Devecioglu / Serkan Kiranyaz / Turker Ince / Moncef Gabbouj
原文:   [英文]  
备注: 11 pages
摘要:
对水下环境的探索对于生物研究、考古学和基础设施维护等应用至关重要。然而,由于水的独特性质,包括散射、吸收、颜色失真和能见度降低,水下成像具有挑战性。为了解决这些视觉退化问题,已经提出了多种方法,从基本的信号处理方法到深度学习模型;然而,没有一种方法被证明是始终成功的。在本文中,我们提出了一种新颖的机器学习模型,协同操作回归网络(CoRe-Nets),旨在实现最佳的水下图像恢复。CoRe-Net由两个协作网络组成:学徒回归器(AR),负责图像转换;以及主回归器(MR),评估由AR生成的图像的峰值信噪比(PSNR)并反馈给AR。CoRe-Nets基于自组织操作神经网络(Self-ONNs),通过调节核变换中的非线性提供了卓越的学习能力。所提出模型的有效性在基准大型水下图像(LSUI)数据集上得到了验证。利用两个协作网络的联合学习能力,所提出的模型在显著降低计算复杂度的情况下实现了最先进的恢复性能,并且在某些情况下,其结果甚至可以通过两次应用超越真实图像的视觉质量。我们的结果和优化的PyTorch实现现已在GitHub上公开共享。

[43] IF-MDM:用于高保真实时说话人头生成的隐式面部运动扩散模型
标题: IF-MDM: Implicit Face Motion Diffusion Model for High-Fidelity Realtime Talking Head Generation
作者: Sejong Yang / Seoung Wug Oh / Yang Zhou / Seon Joo Kim
原文:   [英文]   [中文]  
备注: underreview in CVPR 2025
摘要:
我们提出了一种从单张图像和音频输入生成高分辨率说话人头部视频的新方法。先前使用显式面部模型的方法,如3D可变形模型(3DMM)和面部标志,往往由于缺乏外观感知的运动表示而在生成高保真视频方面表现不佳。尽管生成方法如视频扩散模型可以实现高质量的视频,但其处理速度缓慢限制了实际应用。我们提出的模型,隐式面部运动扩散模型(IF-MDM),采用隐式运动将人脸编码为外观感知的压缩面部潜变量,从而增强视频生成。尽管隐式运动缺乏显式模型的空间解耦,这使得与细微的唇部运动对齐变得复杂,但我们引入了运动统计来帮助捕捉细粒度的运动信息。此外,我们的模型提供了运动可控性,以在推理过程中优化运动强度和视觉质量之间的权衡。IF-MDM支持实时生成512x512分辨率的视频,速度高达每秒45帧(fps)。广泛的评估表明,其性能优于现有的扩散模型和显式面部模型。代码将公开发布,并附带补充材料。视频结果可以在这个https URL上找到。

[44] PriorMotion:基于栅格-矢量运动场先验的生成类无关运动预测
标题: PriorMotion: Generative Class-Agnostic Motion Prediction with Raster-Vector Motion Field Priors
作者: Kangan Qian / Xinyu Jiao / Yining Shi / Yunlong Wang / Ziang Luo / Zheng Fu / Kun Jiang / Diange Yang
原文:   [英文]   [中文]  
备注: 8 pages, 6 figures
摘要:
可靠的空间和运动信息感知对于安全的自主导航至关重要。传统方法通常分为两类:以对象为中心的方法和与类别无关的方法。以对象为中心的方法常常因漏检而导致运动预测不准确,而许多与类别无关的方法则过于注重编码器设计,往往忽视了刚性和时间一致性等重要先验知识,导致性能不佳,特别是在远距离稀疏的LiDAR数据情况下。为了解决这些问题,我们提出了$\textbf{PriorMotion}$,一个生成框架,用于提取栅格化和矢量化的场景表示来建模时空先验。我们的模型包括一个BEV编码器、一个栅格-矢量先验编码器和一个时空先验生成器,改进了运动预测中的空间和时间一致性。此外,我们引入了一个标准化的评估协议用于与类别无关的运动预测。在nuScenes数据集上的实验表明,PriorMotion达到了最先进的性能,并在先进的FMCW LiDAR上进一步验证了其鲁棒性。

[45] 真相的面具:模型对医学图像意外区域的敏感性
标题: Mask of truth: model sensitivity to unexpected regions of medical images
作者: Théo Sourget / Michelle Hestbek-Møller / Amelia Jiménez-Sánchez / Jack Junchi Xu / Veronika Cheplygina
原文:   [英文]   [中文]  
备注: None
摘要:
开发更大规模的医学图像分析模型提高了性能。然而,这也影响了我们解释和验证模型决策的能力。模型可能会利用图像中不相关的部分(也称为虚假相关或捷径)在基准数据集上获得高性能,但在现实场景中却表现不佳。在这项工作中,我们挑战了卷积神经网络(CNN)在屏蔽掉图像中临床相关部分的情况下对胸部X光片和眼底图像进行分类的能力。我们展示了在PadChest数据集上训练的所有模型,无论采用何种屏蔽策略,都能够获得高于随机的曲线下面积(AUC)。此外,训练在完整图像上的模型在没有感兴趣区域(ROI)的图像上也能获得良好性能,甚至优于仅包含ROI的图像。我们还揭示了Chaksu数据集中可能存在的虚假相关,而其性能更符合无偏模型的预期。我们通过使用可解释性方法SHAP和嵌入分析,超越了性能分析。我们还请了一位放射科住院医师在不同屏蔽条件下解读胸部X光片,以临床知识补充我们的发现。我们的代码可在此https URL和此https URL获取。

[46] INFP:二人对话中基于音频驱动的互动头像生成
标题: INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations
作者: Yongming Zhu / Longhao Zhang / Zhengkun Rong / Tianshu Hu / Shuang Liang / Zhipeng Ge
原文:   [英文]   [中文]  
备注: None
摘要:
想象一下与一个具有社交智能的代理进行对话。它可以专心听你的话,并及时提供视觉和语言反馈。这种无缝的互动使多轮对话能够顺畅自然地进行。为了实现这一目标,我们提出了INFP,一种用于双人互动的全新音频驱动头部生成框架。与之前只关注单方面交流或需要手动角色分配和显式角色切换的头部生成工作不同,我们的模型通过输入的双人音频动态地在说话和聆听状态之间交替驱动代理肖像。具体来说,INFP包括一个基于运动的头部模仿阶段和一个音频引导的运动生成阶段。第一个阶段学习将现实生活对话视频中的面部交流行为投射到低维运动潜在空间,并使用运动潜在代码来动画化静态图像。第二个阶段通过去噪学习从输入的双人音频到运动潜在代码的映射,从而在互动场景中实现音频驱动的头部生成。为了促进这一研究方向,我们引入了DyConv,一个从互联网上收集的大规模丰富双人对话数据集。大量实验和可视化结果展示了我们方法的优越性能和有效性。项目页面:this https URL。

[47] 基准测试和增强用于机器人辅助食管切除术的手术阶段识别模型
标题: Benchmarking and Enhancing Surgical Phase Recognition Models for Robotic-Assisted Esophagectomy
作者: Yiping Li / Romy van Jaarsveld / Ronald de Jong / Jasper Bongers / Gino Kuiper / Richard van Hillegersberg / Jelle Ruurda / Marcel Breeuwer / Yasmina Al Khalil
原文:   [英文]   [中文]  
备注: Accepted for presentation at the SPIE Medical Imaging Conference, 2025
摘要:
机器人辅助微创食管切除术(RAMIE)是一种公认的食管癌治疗方法,与开放手术和传统微创手术相比,能够提供更好的患者预后。RAMIE 手术非常复杂,涉及多个解剖区域,并包含重复的阶段和非顺序的阶段转换。我们的目标是利用深度学习进行 RAMIE 手术阶段识别,以为外科医生提供术中支持。为此,我们开发了一个包含 27 个视频的新手术阶段识别数据集。利用该数据集,我们对最先进的手术阶段识别模型进行了比较分析。为了更有效地捕捉这一复杂手术的时间动态,我们开发了一种新颖的深度学习模型,该模型具有因果层次注意力的编码器-解码器结构,表现出比现有模型更优越的性能。

[48] ZipAR:通过空间局部性加速自回归图像生成
标题: ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality
作者: Yefei He / Feng Chen / Yuanyu He / Shaoxuan He / Hong Zhou / Kaipeng Zhang / Bohan Zhuang
原文:   [英文]   [中文]  
备注: 11 pages
摘要:
在本文中,我们提出了ZipAR,这是一种无需训练的即插即用并行解码框架,用于加速自回归(AR)视觉生成。其动机源于观察到图像具有局部结构,空间上相距较远的区域往往具有最小的相互依赖性。给定一组部分解码的视觉标记,除了在行维度上的原始下一个标记预测方案外,列维度上对应空间相邻区域的标记也可以并行解码,从而实现“下一组预测”范式。通过在单次前向传递中同时解码多个标记,生成图像所需的前向传递次数显著减少,从而大大提高了生成效率。实验表明,ZipAR在Emu3-Gen模型上可以减少多达91%的模型前向传递次数,而无需任何额外的再训练。

[49] TransAdapter:用于特征中心无监督领域自适应的视觉变换器
标题: TransAdapter: Vision Transformer for Feature-Centric Unsupervised Domain Adaptation
作者: A. Enes Doruk / Erhan Oztop / Hasan F. Ates
原文:   [英文]   [中文]  
备注: None
摘要:
无监督领域自适应(UDA)旨在利用来自源领域的标注数据来解决未标注目标领域中的任务,通常受到显著领域差异的阻碍。传统的基于CNN的方法难以完全捕捉复杂的领域关系,这促使人们转向视觉变换器(如Swin Transformer),其在建模局部和全局依赖关系方面表现出色。在这项工作中,我们提出了一种利用Swin Transformer的创新UDA方法,包含三个关键模块。图域判别器通过图卷积和基于熵的注意力区分来捕捉像素间的相关性,从而增强领域对齐。自适应双重注意力模块结合窗口和移位窗口注意力,并通过动态重加权有效对齐长程和局部特征。最后,跨特征变换修改了Swin Transformer块,以提高跨领域的泛化能力。广泛的基准测试证实了我们多功能方法的最先进性能,该方法不需要任务特定的对齐模块,证明了其对多种应用的适应性。

[50] SoRA:用于领域可推广表示学习的奇异值分解低秩适应
标题: SoRA: Singular Value Decomposed Low-Rank Adaptation for Domain Generalizable Representation Learning
作者: Seokju Yun / Seunghye Chae / Dongheon Lee / Youngmin Ro
原文:   [英文]  
备注: Project page: this https URL
摘要:
领域泛化(Domain Generalization, DG)旨在使用一个或多个源域来适应模型,以确保在未见过的目标域中具有稳健的性能。最近,基础模型的参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)在DG问题的背景下显示出有希望的结果。然而,现有的PEFT方法仍然难以在保留预训练模型的可泛化组件和学习任务特定特征之间取得平衡。为了深入了解可泛化组件的分布,我们首先通过奇异值分解的视角分析预训练权重。在这些见解的基础上,我们引入了奇异值分解低秩适应(Singular Value Decomposed Low-Rank Adaptation, SoRA),这种方法选择性地调整较小的奇异值成分,同时保持剩余部分不变。SoRA有效地保留了预训练模型的泛化能力,同时高效地获取任务特定技能。此外,我们冻结了领域可泛化的模块,并采用退火权重衰减策略,从而在泛化性和辨别性之间的微妙权衡中实现最佳平衡。SoRA在多个基准测试中取得了最先进的结果,这些基准测试涵盖了从领域泛化语义分割到领域泛化目标检测。此外,我们的方法不会引入额外的推理开销或正则化损失,保持与任何骨干或头部的兼容性,并且设计为通用的,允许轻松集成到广泛的任务中。

[51] 开放世界组合零样本学习的统一框架
标题: Unified Framework for Open-World Compositional Zero-shot Learning
作者: Hirunima Jayasekara / Khoi Pham / Nirat Saini / Abhinav Shrivastava
原文:   [英文]  
备注: None
摘要:
开放世界组合零样本学习(OW-CZSL)解决了识别已知原语和实体的新组合的挑战。尽管之前的工作利用了语言知识进行识别,但这些方法在语言和图像模态之间的交互方面表现有限。我们的方法主要通过促进图像和文本数据之间更丰富的交互来增强模态间的互动。此外,我们引入了一个新模块,旨在减轻推理阶段对所有可能组合进行穷尽探索所带来的计算负担。虽然之前的方法要么联合学习组合,要么独立学习组合,但我们引入了一种先进的混合程序,利用这两种学习机制来生成最终预测。我们提出的模型在三个数据集上达到了OW-CZSL的最新水平,并在两个数据集上超越了大型视觉语言模型(LLVM)。

[52] BodyMetric:评估文本生成图像中人体的真实感
标题: BodyMetric: Evaluating the Realism of HumanBodies in Text-to-Image Generation
作者: Nefeli Andreou / Varsha Vivek / Ying Wang / Alex Vorobiov / Tiffany Deng / Raja Bala / Larry Davis / Betty Mohler Tesch
原文:   [英文]   [中文]  
备注: None
摘要:
从文本中准确生成人体图像对于最先进的文本到图像模型来说仍然是一个具有挑战性的问题。常见的与人体相关的瑕疵包括多余或缺失的肢体、不现实的姿势、模糊的身体部位等。目前,对这些瑕疵的评估主要依赖于耗时的人类判断,限制了大规模评估模型的能力。我们通过提出BodyMetric来解决这个问题,这是一种可学习的度量标准,可以预测图像中人体的真实感。BodyMetric在真实感标签和多模态信号上进行训练,包括从输入图像推断的3D人体表示和文本描述。为了促进这种方法,我们设计了一个注释流程,收集专家对人体真实感的评分,从而为这一任务创建了一个新的数据集,即BodyRealism。消融研究支持了我们对BodyMetric的架构选择以及利用3D人体先验捕捉2D图像中与人体相关的瑕疵的重要性。与评估图像中一般用户偏好的同时期度量标准相比,BodyMetric专门反映了与人体相关的瑕疵。我们通过以前在大规模上不可行的应用展示了BodyMetric的实用性。特别是,我们使用BodyMetric来评估文本到图像模型生成真实人体的能力。我们还展示了BodyMetric在基于预测的真实感分数对生成图像进行排序方面的有效性。

[53] LossAgent:使用LLM代理实现图像处理的任意优化目标
标题: LossAgent: Towards Any Optimization Objectives for Image Processing with LLM Agents
作者: Bingchen Li / Xin Li / Yiting Lu / Zhibo Chen
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了第一个用于低级图像处理任务(例如图像超分辨率和修复)的损失代理,称为LossAgent,旨在实现不同实际应用中低级图像处理的任何定制优化目标。值得注意的是,并非所有优化目标(例如复杂的手工设计感知指标、文本描述和复杂的人类反馈)都可以用现有的低级损失(例如MSE损失)来实例化,这在端到端优化图像处理网络时提出了一个关键挑战。为了解决这个问题,我们的LossAgent引入了强大的大语言模型(LLM)作为损失代理,其中丰富的文本理解先验知识赋予了损失代理在低级图像处理网络优化过程中理解复杂优化目标、轨迹和来自外部环境的状态反馈的潜力。特别是,我们通过结合现有的支持低级图像处理端到端优化的损失函数建立了损失库。然后,我们为损失代理设计了面向优化的提示工程,以便在每次优化交互中主动且智能地决定损失库中每个损失的组合权重,从而实现任何定制优化目标所需的优化轨迹。在三个典型的低级图像处理任务和多个优化目标上的大量实验表明了我们提出的LossAgent的有效性和适用性。代码和预训练模型将在此https URL上提供。

[54] HyperFLINT:基于超网络的流估计和时间插值用于科学集合可视化
标题: HyperFLINT: Hypernetwork-based Flow Estimation and Temporal Interpolation for Scientific Ensemble Visualization
作者: Hamid Gadirov / Qi Wu / David Bauer / Kwan-Liu Ma / Jos Roerdink / Steffen Frey
原文:   [英文]  
备注: None
摘要:
我们提出了HyperFLINT(基于超网络的流动估计和时间插值),这是一种新颖的深度学习方法,用于估计流场、时间插值标量场,并促进时空科学集合数据中的参数空间探索。该工作解决了在学习过程中明确纳入集合参数的关键需求,因为传统方法往往忽略这些参数,限制了它们适应多样化模拟设置并提供有意义数据动态洞察的能力。HyperFLINT引入了一个超网络来考虑模拟参数,使其能够通过动态适应不同条件,为每个时间步生成准确的插值和流场,从而优于现有的参数无关方法。该架构具有模块化的神经块,包含卷积层和反卷积层,并由一个生成主网络权重的超网络支持,使模型能够更好地捕捉复杂的模拟动态。一系列实验表明,HyperFLINT在流场估计和时间插值方面显著提高了性能,并在启用参数空间探索方面展示了潜力,提供了对复杂科学集合的宝贵洞察。

[55] 用于动作风格化的D-LORD
标题: D-LORD for Motion Stylization
作者: Meenakshi Gupta / Mingyuan Lei / Tat-Jen Cham / Hwee Kuan Lee
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了一种名为D-LORD(Double Latent Optimization for Representation Disentanglement)的新框架,旨在实现动作风格化(动作风格迁移和动作重定向)。该框架的主要目标是通过数据驱动的潜在优化方法,从给定的动作序列中分离出类别和内容信息。这里,类别指的是特定人物的风格,例如特定的情感或个人身份,而内容则与动作的风格无关,例如行走或跳跃等普遍理解的概念。D-LORD的主要优势在于其无需配对的动作数据即可进行风格迁移。相反,它在潜在优化过程中利用类别和内容标签。通过解开表示,该框架能够使用自适应实例归一化将一个动作序列的风格转换为另一个的风格。所提出的D-LORD框架注重泛化能力,使其能够处理不同的类别和内容标签以适应各种应用。此外,当提供特定的类别和内容标签时,它可以生成多样的动作序列。通过在三个数据集上的实验验证了该框架的有效性:用于动作风格迁移的CMU XIA数据集、MHAD数据集和用于动作重定向的RRIS Ability数据集。值得注意的是,本文提出了第一个用于动作风格迁移和动作重定向的通用框架,展示了其在该领域的潜在贡献。

[56] MRGen:基于扩散的可控数据引擎,用于未标注模态的MRI分割
标题: MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities
作者: Haoning Wu / Ziheng Zhao / Ya Zhang / Weidi Xie / Yanfeng Wang
原文:   [英文]   [中文]  
备注: Technical Report; Project Page: this https URL
摘要:
医学图像分割最近在深度神经网络方面展示了令人印象深刻的进展,但异质性模态和掩码注释的稀缺性限制了分割模型在未注释模态上的发展。本文探讨了一种在医学应用中利用生成模型的新范式:在不需要配准数据对的情况下,可控地为未注释模态合成数据。具体来说,我们在本文中做出了以下贡献:(i) 我们收集并整理了一个大规模的放射学图像-文本数据集,MedGen-1M,包括模态标签、属性、区域和器官信息,以及一个包含器官掩码注释的子集,以支持可控医学图像生成的研究;(ii) 我们提出了一种基于扩散的数据引擎,称为MRGen,该引擎能够在文本提示和掩码的条件下生成数据,合成缺乏掩码注释的多种模态的MR图像,以训练未注释模态的分割模型;(iii) 我们在各种模态上进行了广泛的实验,表明我们的数据引擎可以有效地合成训练样本,并将MRI分割扩展到未注释模态。

[57] 热成像和RGB图像在风力涡轮机损伤检测中效果更佳
标题: Thermal and RGB Images Work Better Together in Wind Turbine Damage Detection
作者: Serhii Svystun / Oleksandr Melnychenko / Pavlo Radiuk / Oleg Savenko / Anatoliy Sachenko / Andrii Lysyi
原文:   [英文]  
备注: Unmanned aerial vehicle, image composition, multispectral images, green energy, data quality management, weighted overlay
摘要:
风力涡轮机叶片(WTBs)的检查对于确保其结构完整性和运行效率至关重要。传统的检查方法可能存在危险且效率低下,因此使用无人机(UAVs)来访问难以到达的区域并捕捉高分辨率图像。在本研究中,我们通过整合无人机获取的热成像和RGB图像,解决了提高WTBs缺陷检测的挑战。我们提出了一种多光谱图像合成方法,通过空间坐标变换、关键点检测、二进制描述符创建和加权图像叠加来结合热成像和RGB图像。使用标注了缺陷的WTB图像基准数据集,我们评估了几种最先进的目标检测模型。结果表明,复合图像显著提高了缺陷检测效率。具体而言,YOLOv8模型的准确率从91%提高到95%,精度从89%提高到94%,召回率从85%提高到92%,F1分数从87%提高到93%。误报数量从6减少到3,漏检缺陷从5减少到2。这些发现表明,整合热成像和RGB图像可以增强WTBs的缺陷检测,有助于改进维护和可靠性。

[58] MVUDA:用于多视角行人检测的无监督领域自适应
标题: MVUDA: Unsupervised Domain Adaptation for Multi-view Pedestrian Detection
作者: Erik Brorsson / Lennart Svensson / Kristofer Bengtsson / Knut Åkesson
原文:   [英文]   [中文]  
备注: None
摘要:
我们研究了在使用与测试不同的多摄像头设置收集标注数据的环境下的多视角行人检测。尽管最近的多视角行人检测器在用于训练的摄像头设备上表现良好,但当应用于不同的设置时,其性能会下降。为了促进在各种摄像头设备上的无缝部署,我们提出了一种无监督域适应(UDA)方法,该方法无需额外的标注数据即可将模型适应到新的设备上。具体来说,我们利用了均值教师自训练框架,并结合了一种新颖的伪标签技术,专门针对多视角行人检测。这种方法在多个基准测试上达到了最先进的性能,包括MultiviewX$\rightarrow$Wildtrack。与之前的方法不同,我们的方法消除了对外部标注单目数据集的需求,从而减少了对标注数据的依赖。广泛的评估证明了我们方法的有效性,并验证了关键设计选择。通过实现跨摄像头设置的稳健适应,我们的工作增强了多视角行人检测器的实用性,并为未来的研究建立了一个强大的UDA基线。

[59] CrossSDF:从截面重建薄结构的3D模型
标题: CrossSDF: 3D Reconstruction of Thin Structures From Cross-Sections
作者: Thomas Walker / Salvatore Esposito / Daniel Rebain / Amir Vaxman / Arno Onken / Changjian Li / Oisin Mac Aodha
原文:   [英文]   [中文]  
备注: None
摘要:
从平面切片重建复杂结构是一个具有挑战性的问题,在医学成像、制造和地形学中有广泛的应用。现成的点云重建方法由于切片平面之间的数据稀疏性,往往会失败,而当前的定制方法在重建细小几何结构和保持拓扑连续性方面也存在困难。这对于在CT和MRI扫描中存在细小血管结构的医学应用尤为重要。本文介绍了一种新方法\method,该方法从由平面轮廓生成的二维符号距离中提取三维符号距离场。我们的方法通过使用专为几何在二维切片内已知的情况设计的损失函数,使神经SDF的训练具有轮廓感知能力。我们的结果显示,与现有方法相比,该方法显著改进,有效重建了细小结构,并生成了准确的三维模型,没有先前方法中的插值伪影或过度平滑问题。

[60] 具有准确不确定性的卫星图像修复深度先验
标题: Deep priors for satellite image restoration with accurate uncertainties
作者: Biquard Maud / Marie Chabert / Florence Genin / Christophe Latry / Thomas Oberlin
原文:   [英文]   [中文]  
备注: None
摘要:
卫星光学图像在接收到地面后,所呈现的观察场景是扭曲的。在利用这些图像之前,需要对其进行恢复,传统上包括去噪、去模糊,有时还包括超分辨率。此外,量化与这种恢复相关的不确定性可能是有价值的,因为它可以降低幻觉的风险,并避免在下游应用中传播这些偏差。深度学习方法现在是卫星图像恢复的最新技术。然而,它们需要为每个传感器训练一个特定的网络,并且不提供相关的不确定性。本文提出了一种通用方法,涉及一个单一网络来恢复来自多个传感器的图像,并提供一种可扩展的方法来推导不确定性。我们专注于深度正则化(DR)方法,这些方法在目标图像上学习一个深度先验,然后将其插入基于模型的优化方案中。首先,我们介绍了VBLE-xz,它在变分压缩自编码器的潜在空间中解决逆问题,同时在潜在空间和图像空间中估计不确定性。它能够以相关且校准的不确定性进行可扩展的后验采样。其次,我们提出了基于去噪器的方法SatDPIR,该方法从DPIR改编而来,可以有效地计算准确的点估计。我们在非常高分辨率的模拟和真实Pleiades图像上进行了全面的实验,验证了所提出方法的性能和鲁棒性。与直接反演方法相比,VBLE-xz和SatDPIR达到了最新的结果。特别是,VBLE-xz是一种可扩展的方法,可以获得现实的后验样本和准确的不确定性,而当不需要不确定性量化时,SatDPIR则是直接反演方法的一个有力替代方案。

[61] 使用图像比较进行多语言文档的文本变化检测
标题: Text Change Detection in Multilingual Documents Using Image Comparison
作者: Doyoung Park / Naresh Reddy Yarram / Sunjin Kim / Minkyu Kim / Seongho Cho / Taehee Lee
原文:   [英文]  
备注: 15pages, 11figures 6tables, wacv2025 accepted
摘要:
文档比较通常依赖于光学字符识别(OCR)作为其核心技术。然而,OCR需要为每个文档选择合适的语言模型,并且多语言或混合模型的性能仍然有限。为了解决这些挑战,我们提出了使用图像比较模型的文本变化检测(TCD),该模型专为多语言文档设计。与基于OCR的方法不同,我们的方法采用词级文本图像到图像的比较来检测变化。我们的模型在源文档和目标文档之间生成双向变化分割图。为了在不需要显式文本对齐或缩放预处理的情况下提高性能,我们利用了多尺度注意力特征之间的相关性。我们还构建了一个基准数据集,其中包含各种语言的实际打印和扫描的词对,以评估我们的模型。我们使用我们的基准数据集以及公共基准数据集Distorted Document Images和LRDE Document Binarization Dataset验证了我们的方法。我们将我们的模型与最先进的语义分割和变化检测模型以及传统的基于OCR的模型进行了比较。

[62] AnyDressing:通过潜在扩散模型实现可定制的多服装虚拟试穿
标题: AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models
作者: Xinghui Li / Qichao Sun / Pengze Zhang / Fulong Ye / Zhichao Liao / Wanquan Feng / Songtao Zhao / Qian He
原文:   [英文]  
备注: Project page: this https URL
摘要:
基于扩散模型的文本和图像提示生成服装相关图像的最新进展令人印象深刻。然而,现有方法缺乏对各种服装组合的支持,并且在保持对文本提示的忠实度的同时,难以保留服装细节,限制了其在多样化场景中的表现。在本文中,我们关注一个新任务,即多服装虚拟试穿,并提出了一种新颖的AnyDressing方法,用于根据任意服装组合和个性化文本提示定制角色。AnyDressing包括两个主要网络,分别命名为GarmentsNet和DressingNet,分别致力于提取详细的服装特征和生成定制图像。具体来说,我们在GarmentsNet中提出了一个高效且可扩展的模块,称为服装特定特征提取器,以并行方式单独编码服装纹理。该设计防止了服装混淆,同时确保了网络效率。同时,我们在DressingNet中设计了一种自适应试穿注意机制和一种新颖的实例级服装定位学习策略,以准确地将多服装特征注入其对应的区域。该方法有效地将多服装纹理线索整合到生成的图像中,并进一步增强了文本-图像一致性。此外,我们引入了一种服装增强纹理学习策略,以改善服装的细粒度纹理细节。得益于我们精心设计的架构,AnyDressing可以作为一个插件模块,轻松集成到任何社区控制扩展中,以改进合成图像的多样性和可控性。大量实验表明,AnyDressing达到了最先进的结果。

[63] 使用事件和帧的频率自适应低延迟目标检测
标题: Frequency-Adaptive Low-Latency Object Detection Using Events and Frames
作者: Haitian Zhang / Xiangyuan Wang / Chang Xu / Xinya Wang / Fang Xu / Huai Yu / Lei Yu / Wen Yang
原文:   [英文]   [中文]  
备注: None
摘要:
融合事件和RGB图像进行目标检测利用了事件相机在不利环境中的鲁棒性以及RGB相机提供的丰富语义信息。然而,两个关键的不匹配:低延迟事件与高延迟RGB帧;训练中的时间稀疏标签与推理中的连续流,显著阻碍了基于高频融合的目标检测。为了解决这些挑战,我们提出了频率自适应低延迟目标检测器(FAOD)。FAOD通过对齐模块将低频RGB帧与高频事件对齐,该模块增强了跨模态风格和空间接近性,以解决事件-RGB不匹配问题。我们进一步提出了一种训练策略,时间偏移,该策略强制模块对齐时间偏移的事件-RGB对及其原始表示,即与事件对齐的注释一致。该策略使网络能够使用高频事件数据作为主要参考,同时将低频RGB图像视为补充信息,保留事件流的低延迟特性以实现高频检测。此外,我们观察到,与单独使用事件数据相比,这些校正后的事件-RGB对在从低训练频率到高推理频率的泛化方面表现更好。在PKU-DAVIS-SOD和DSEC-Detection数据集上的大量实验表明,我们的FAOD达到了SOTA性能。具体而言,在PKU-DAVIS-SOD数据集中,FAOD在完全配对的事件-RGB数据中实现了mAP提高9.8点,而参数仅为SODFormer的四分之一,即使在80倍事件-RGB频率不匹配的情况下,mAP也仅下降了3点,仍保持了鲁棒性能。

[64] 教学视频生成
标题: Instructional Video Generation
作者: Yayuan Li / Zhi Cao / Jason J. Corso
原文:   [英文]   [中文]  
备注: 14 pages, 5 figures and 4 tables
摘要:
尽管视频生成技术最近取得了长足进步,但最先进的方法在视觉细节元素上仍然存在困难。一个特别具有挑战性的案例是自我中心的教学视频,这类视频中手部的复杂运动与大部分稳定且不分散注意力的环境相结合,以传达适当的视觉动作指令。为了解决这些挑战,我们引入了一种新的教学视频生成方法。我们基于扩散的方法包含两个独特的创新。首先,我们提出了一种自动生成预期运动区域的方法,该方法由视觉上下文和动作文本共同引导。其次,我们引入了一个关键的手部结构损失,以引导扩散模型专注于平滑和一致的手部姿势。我们在基于EpicKitchens和Ego4D的增强教学数据集上评估了我们的方法,展示了在教学清晰度方面,尤其是在目标区域的手部运动方面,相较于最先进的方法有显著改进,跨越多种环境。结果可以在项目网页上找到:this https URL

[65] Hipandas:通过与全色图像融合进行高光谱图像联合去噪和超分辨率
标题: Hipandas: Hyperspectral Image Joint Denoising and Super-Resolution by Image Fusion with the Panchromatic Image
作者: Shuang Xu / Zixiang Zhao / Haowen Bai / Chang Yu / Jiangjun Peng / Xiangyong Cao / Deyu Meng
原文:   [英文]   [中文]  
备注: None
摘要:
高光谱图像(HSIs)由于成像设备的限制,通常存在噪声且分辨率较低。最近发射的卫星可以同时获取高光谱图像和全色(PAN)图像,从而通过融合全色图像进行去噪和超分辨率来恢复高光谱图像,生成清晰且高分辨率的图像。然而,以往的研究将这两个任务视为独立的过程,导致了累积误差。本文介绍了一种新的学习范式——高光谱图像联合去噪和全色锐化(Hipandas),该方法从噪声低分辨率高光谱图像(LRHS)和高分辨率全色图像中重建高分辨率高光谱图像(HRHS)。所提出的零样本Hipandas框架包括一个引导去噪网络、一个引导超分辨率网络和一个全色重建网络,利用了高光谱图像的低秩先验和新引入的细节导向低秩先验。这些网络的相互连接使得训练过程复杂化,因此需要一个两阶段的训练策略以确保有效训练。对模拟和真实数据集的实验结果表明,所提出的方法优于最先进的算法,生成了更准确且视觉上更令人满意的高分辨率高光谱图像。

[66] PANGAEA:一个全球性和包容性的地理空间基础模型基准
标题: PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models
作者: Valerio Marsocci / Yuru Jia / Georges Le Bellier / David Kerekes / Liang Zeng / Sebastian Hafner / Sebastian Gerard / Eric Brune / Ritu Yadav / Ali Shibli / Heng Fang / Yifang Ban / Maarten Vergauwen / Nicolas Audebert / Andrea Nascetti
原文:   [英文]   [中文]  
备注: None
摘要:
地理空间基础模型(GFMs)已成为从地球观测数据中提取表示的强大工具,但其评估仍然不一致且范围狭窄。现有的研究通常在次优的下游数据集和任务上进行评估,这些任务往往过于简单或过于狭窄,限制了评估对GFMs实际应用的有用性。此外,当前的评估协议缺乏多样性,未能考虑图像分辨率、传感器类型和时间性的多样性,这进一步复杂化了GFM性能的评估。特别是,大多数现有的基准测试在地理上偏向北美和欧洲,质疑GFMs的全球适用性。为克服这些挑战,我们引入了PANGAEA,一个涵盖多样化数据集、任务、分辨率、传感器模式和时间性的标准化评估协议。它建立了一个稳健且广泛适用的GFMs基准。我们在这个基准上评估了最流行的公开可用的GFMs,并分析了它们在多个领域的表现。特别是,我们将这些模型与监督基线(例如UNet和vanilla ViT)进行比较,并评估它们在标注数据有限的情况下的有效性。我们的研究结果突显了GFMs在不同场景下的局限性,显示它们并不总是优于监督模型。PANGAEA设计为高度可扩展,允许在未来的研究中无缝包含新的数据集、模型和任务。通过发布评估代码和基准,我们旨在使其他研究人员能够复制我们的实验并在我们的工作基础上进行扩展,促进对大型预训练地理空间模型的更有原则的评估协议。代码可在此https URL获取。

[67] 对齐的音乐符号和歌词转录
标题: Aligned Music Notation and Lyrics Transcription
作者: Eliseo Fuentes-Martínez / Antonio Ríos-Vila / Juan C. Martinez-Sevilla / David Rizo / Jorge Calvo-Zaragoza
原文:   [英文]   [中文]  
备注: None
摘要:
声乐乐谱的数字化呈现出独特的挑战,这些挑战超越了传统的光学音乐识别(OMR)和光学字符识别(OCR),因为它需要保留音乐符号和歌词之间的关键对齐。这种对齐对于在实际应用中的正确解释和处理至关重要。本文首次引入并正式提出了对齐音乐符号和歌词转录(AMNLT)挑战,该挑战通过共同考虑音乐符号、歌词及其同步性来解决声乐乐谱的完整转录问题。我们分析了应对这一挑战的不同方法,从传统的分而治之方法(分别处理音乐和歌词)到包括直接转录、展开机制和语言建模在内的新型端到端解决方案。为了评估这些方法,我们引入了四个包含真实和合成来源的格里高利圣咏数据集,以及专门设计的自定义指标来评估转录和对齐的准确性。我们的实验结果表明,在对齐挑战中,端到端方法通常优于启发式方法,特别是在有足够训练数据的情况下,语言模型显示出特别的前景。这项工作建立了第一个全面的AMNLT框架,提供了保留和数字化声乐音乐遗产的理论基础和实际解决方案。

[68] 使用LoRA专家混合定制多模态语义分割的Segment Anything模型
标题: Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts
作者: Chenyang Zhu / Bin Xiao / Lin Shi / Shoukun Xu / Xu Zheng
原文:   [英文]   [中文]  
备注: None
摘要:
最近的Segment Anything Model (SAM) 在扩展分割模型方面代表了一个重要的突破,在RGB模式的各种下游应用中表现出色。然而,直接将SAM应用于新兴的视觉模式(如深度和事件数据)会导致多模态分割任务的性能不佳。在本文中,我们首次尝试通过提出一种针对不同输入视觉模式定制的低秩适应专家混合(MoE-LoRA)来适应多模态语义分割。通过仅训练MoE-LoRA层,同时保持SAM的权重不变,可以保留SAM在下游任务中的强泛化和分割能力。具体来说,为了解决跨模态不一致性问题,我们提出了一种新颖的MoE路由策略,该策略自适应地生成跨模态的加权特征,增强多模态特征的整合。此外,我们通过调整SAM的分割头并引入辅助分割头来结合多尺度特征,从而有效地提高分割性能,结合多尺度特征提取和融合。在三个多模态基准数据集DELIVER、MUSES和MCubeS上进行了广泛的实验。结果一致表明,所提出的方法在各种场景中显著优于最先进的方法。值得注意的是,在特别具有挑战性的缺失模态条件下,我们的方法表现出显著的性能提升,相比现有方法提高了32.15%。

[69] DEIM:具有改进匹配的DETR以实现快速收敛
标题: DEIM: DETR with Improved Matching for Fast Convergence
作者: Shihua Huang / Zhichao Lu / Xiaodong Cun / Yongjun Yu / Xiao Zhou / Xi Shen
原文:   [英文]   [中文]  
备注: Exceeding all existing real-time object detectors, including YOLOv11 and D-FINE
摘要:
我们介绍了DEIM,这是一种创新且高效的训练框架,旨在加速基于Transformer架构(DETR)的实时目标检测的收敛。为了缓解DETR模型中一对一(O2O)匹配固有的稀疏监督问题,DEIM采用了密集O2O匹配策略。通过使用标准数据增强技术,增加了每张图像的正样本数量,从而引入了额外的目标。尽管密集O2O匹配加快了收敛速度,但它也引入了大量可能影响性能的低质量匹配。为了解决这个问题,我们提出了匹配感知损失(MAL),这是一种新颖的损失函数,可以优化不同质量水平的匹配,从而提高密集O2O的有效性。在COCO数据集上的大量实验验证了DEIM的有效性。当与RT-DETR和D-FINE结合使用时,它在减少50%训练时间的同时,持续提升性能。值得注意的是,与RT-DETRv2配对时,DEIM在NVIDIA 4090 GPU上单日训练即可达到53.2%的AP。此外,DEIM训练的实时模型在不合适的地方。

[70] VASCAR:通过视觉感知自我校正进行内容感知布局生成
标题: VASCAR: Content-Aware Layout Generation via Visual-Aware Self-Correction
作者: Jiahao Zhang / Ryota Yoshihashi / Shunsuke Kitada / Atsuki Osanai / Yuta Nakashima
原文:   [英文]   [中文]  
备注: None
摘要:
大型语言模型(LLMs)由于其能够生成结构描述语言(如HTML或JSON),即使在没有视觉信息的情况下,也已被证明在布局生成方面非常有效。最近,LLM提供商将这些模型发展为大型视觉语言模型(LVLM),显示出显著的多模态理解能力。那么,我们如何利用这种多模态能力进行布局生成呢?为了解答这个问题,我们提出了基于LVLM的内容感知布局生成方法——视觉感知自我修正布局生成(VASCAR)。在我们的方法中,LVLM通过参考渲染的布局图像(这些图像在海报背景上可视化为彩色边界框)迭代地改进其输出。在实验中,我们展示了我们的方法与Gemini结合的效果。在没有任何额外训练的情况下,VASCAR实现了最先进的(SOTA)布局生成质量,优于现有的特定布局生成模型和其他基于LLM的方法。

[71] 量化“分割任何模型”的极限:分析分割树状和低对比度结构的挑战
标题: Quantifying the Limits of Segment Anything Model: Analyzing Challenges in Segmenting Tree-Like and Low-Contrast Structures
作者: Yixin Zhang / Nicholas Konz / Kevin Kramer / Maciej A. Mazurowski
原文:   [英文]   [中文]  
备注: Code: this https URL
摘要:
分割任何物体模型(Segment Anything Model,SAM)在交互式和零样本分割中展示了令人印象深刻的性能,涵盖了各种领域,这表明它们从大规模训练中学习到了“物体”的一般概念。然而,我们观察到SAM在处理某些类型的物体时存在困难,特别是那些具有密集、树状结构和与周围环境纹理对比度低的物体。这些失败模式对于理解其在现实世界中的局限性至关重要。为了系统地研究这个问题,我们提出了量化两个关键物体特征的指标:树状性和纹理可分离性。通过广泛的受控合成实验和真实数据集测试,我们证明了SAM的性能与这些因素显著相关。我们将这些行为归结为“纹理混淆”的概念,即SAM将局部结构误解为全局纹理,导致过度分割,或难以将物体与相似纹理的背景区分开来。这些发现提供了第一个量化框架来模拟SAM的挑战,为理解其局限性提供了宝贵的见解,并指导未来视觉基础模型的改进。

[72] GigaHands:一个大规模注释的双手活动数据集
标题: GigaHands: A Massive Annotated Dataset of Bimanual Hand Activities
作者: Rao Fu / Dingxi Zhang / Alex Jiang / Wanjia Fu / Austin Funk / Daniel Ritchie / Srinath Sridhar
原文:   [英文]   [中文]  
备注: None
摘要:
理解双手人类手部活动是人工智能和机器人领域的一个关键问题。由于现有数据集缺乏规模、多样手部活动的覆盖以及详细的注释,我们无法构建大规模的双手活动模型。我们引入了GigaHands,这是一个大规模注释数据集,捕捉了来自56名受试者和417个物体的34小时双手活动,总计14,000个运动片段,源自1.83亿帧,并配有84,000个文本注释。我们的无标记捕捉设置和数据采集协议使得完全自动化的3D手部和物体估计成为可能,同时将文本注释所需的工作量降到最低。GigaHands的规模和多样性使其能够广泛应用于包括文本驱动的动作合成、手部运动字幕生成和动态辐射场重建等领域。

[73] 鲁棒分类的有趣特性
标题: Intriguing Properties of Robust Classification
作者: Bernd Prach / Christoph H. Lampert
原文:   [英文]  
备注: None
摘要:
尽管自从社区在10年前了解到对抗样本以来进行了广泛的研究,我们仍然不知道如何训练在输入的小扰动下保证鲁棒性的高精度分类器。先前的工作常常认为这是因为不存在同时鲁棒且准确的分类器。然而,在计算机视觉领域,这一假设与现实不符,因为人类在大多数感兴趣的任务上通常是准确且鲁棒的。我们提供了一种替代解释,并展示在某些设置中,鲁棒泛化只有在数据量极大时才有可能。更确切地说,我们发现了一个设置,在该设置中存在一个鲁棒分类器,学习一个准确的分类器很容易,但学习一个鲁棒分类器需要指数级的数据量。基于这一理论结果,我们探讨了鲁棒分类器在CIFAR-10等数据集上的泛化能力。我们得出结论,在这些数据集上,当前鲁棒模型的局限性也在于泛化,并且它们需要大量数据才能在测试集上表现良好。我们还表明,问题不在于当前架构的表达能力或泛化能力,而在于数据中存在一些对非鲁棒泛化有用但对鲁棒分类器不可用的低幅度特征。

[74] 通过2D视觉特征的几何聚合进行3D部件分割
标题: 3D Part Segmentation via Geometric Aggregation of 2D Visual Features
作者: Marco Garosi / Riccardo Tedoldi / Davide Boscaini / Massimiliano Mancini / Nicu Sebe / Fabio Poiesi
原文:   [英文]  
备注: None
摘要:
监督的3D部件分割模型通常针对固定的一组对象和部件进行定制,这限制了它们在开放集、现实世界场景中的可转移性。最近的研究探索了视觉-语言模型(VLMs)作为一种有前途的替代方案,使用多视图渲染和文本提示来识别对象部件。然而,天真地在这一背景下应用VLMs会引入一些缺点,例如需要精细的提示工程,并且未能利用对象的3D几何结构。为了解决这些限制,我们提出了COPS,一种综合的部件分割模型,它融合了从视觉概念和3D几何中提取的语义,以有效识别对象部件。COPS从多个视点渲染点云,提取2D特征,将其投影回3D,并使用一种新颖的几何感知特征聚合过程,以确保空间和语义的一致性。最后,它将点聚类成部件并对其进行标记。我们证明了COPS是高效的、可扩展的,并且在五个数据集上实现了零样本的最先进性能,涵盖了合成和现实世界数据、无纹理和有色对象,以及刚性和非刚性形状。代码可在此https URL获取。

[75] 通过监督对比域适应增强全切片图像分类
标题: Enhancing Whole Slide Image Classification through Supervised Contrastive Domain Adaptation
作者: Ilán Carretero / Pablo Meseguer / Rocío del Amor / Valery Naranjo
原文:   [英文]   [中文]  
备注: Accepted in CASEIB 2024
摘要:
由于染色和数字化协议在医院内部和医院之间的差异,组织病理学成像领域的领域转移是一个常见现象。实现能够创建广义域的鲁棒模型是一个亟待解决的需求。在这项工作中,提出了一种新的领域适应方法,以应对来自多个中心的组织病理学图像之间的变异性。具体来说,我们的方法在监督对比学习方法中增加了一个训练约束,以实现领域适应并提高类间可分性。在对来自两个中心的六种皮肤癌亚型的全片图像进行领域适应和分类的实验中,证明了该方法的有效性。结果显示,与在特征提取或染色标准化后不使用领域适应的方法相比,该方法具有更优越的性能。

[76] 基于估计姿态和遮挡误差的目标硬样本合成以改进物体姿态估计
标题: Targeted Hard Sample Synthesis Based on Estimated Pose and Occlusion Error for Improved Object Pose Estimation
作者: Alan Li / Angela P. Schoellig
原文:   [英文]   [中文]  
备注: To be published in IEEE Robotics and Automation Letters (RA-L)
摘要:
6D 物体姿态估计是机器人技术中的一个基本组成部分,能够实现与环境的高效交互。在抓取应用中,这一任务尤其具有挑战性,因为物体可能没有纹理且处于困难的姿态,并且同类物体之间的遮挡可能会导致即使是训练良好的模型也产生混淆。我们提出了一种新颖的困难样本合成方法,该方法与模型无关,利用现有的模拟器和相机到物体视球以及遮挡空间中的姿态误差建模。通过评估模型在物体姿态和遮挡分布方面的性能,我们发现了高误差区域,并生成逼真的训练样本以专门针对这些区域。通过我们的训练方法,我们展示了在使用最先进的姿态估计模型时,多个ROBI数据集物体的正确检测率提高了多达20%。

[77] HumanEdit:一个基于指令的高质量人类奖励图像编辑数据集
标题: HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing
作者: Jinbin Bai / Wei Chow / Ling Yang / Xiangtai Li / Juncheng Li / Hanwang Zhang / Shuicheng Yan
原文:   [英文]   [中文]  
备注: Codes and Supplementary Material: this https URL
摘要:
我们介绍了HumanEdit,这是一个高质量的、以人为奖励的数据集,专门为指导图像编辑而设计,通过开放形式的语言指令实现精确和多样的图像操作。之前的大规模编辑数据集通常包含极少的人类反馈,导致数据集难以与人类偏好对齐。HumanEdit通过雇佣人工注释员来构建数据对,并由管理员提供反馈,弥补了这一差距。经过精心策划,HumanEdit包含5,751张图像,并在四个阶段中耗费了超过2,500小时的人力,确保了广泛图像编辑任务的准确性和可靠性。该数据集包括六种不同类型的编辑指令:动作、添加、计数、关系、移除和替换,涵盖了广泛的现实场景。数据集中的所有图像都附有掩码,对于部分数据,我们确保指令足够详细,以支持无掩码编辑。此外,HumanEdit提供了全面的多样性和高分辨率的1024×1024内容,来源于各种领域,为指导性图像编辑数据集设立了一个新的多功能基准。为了推动未来研究并建立图像编辑领域的评估基准,我们在\url{this https URL}发布了HumanEdit。

[78] 可学习的无限泰勒高斯用于动态视图渲染
标题: Learnable Infinite Taylor Gaussian for Dynamic View Rendering
作者: Bingbing Hu / Yanyan Li / Rui Xie / Bo Xu / Haoye Dong / Junfeng Yao / Gim Hee Lee
原文:   [英文]  
备注: None
摘要:
捕捉高斯属性(如位置、旋转和尺度)的时间演变是一个具有挑战性的任务,因为存在大量随时间变化的参数和有限的光度数据,这通常会导致收敛问题,使得找到最优解变得困难。虽然将所有输入数据输入到端到端神经网络中可以有效地建模复杂的时间动态,但这种方法缺乏明确的监督,难以生成高质量的变换场。另一方面,使用时间条件多项式函数来建模高斯轨迹和方向提供了一种更明确和可解释的解决方案,但需要大量的手工努力,并且在不同场景中缺乏通用性。为了解决这些限制,本文提出了一种基于可学习的无限泰勒公式的新方法来建模高斯的时间演变。该方法既具有基于隐式网络方法的灵活性,又具有显式多项式函数的可解释性,从而能够在各种动态场景中更稳健和通用地建模高斯动态。在公共数据集上对动态新视图渲染任务进行了广泛的实验,结果表明该方法在该领域达到了最先进的性能。更多信息请访问我们的项目页面(此https URL)。

[79] SIDA:基于大型多模态模型的社交媒体图像深度伪造检测、定位与解释
标题: SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model
作者: Zhenglin Huang / Jinwei Hu / Xiangtai Li / Yiwei He / Xingyu Zhao / Bei Peng / Baoyuan Wu / Xiaowei Huang / Guangliang Cheng
原文:   [英文]   [中文]  
备注: None
摘要:
生成模型在创建高度逼真的图像方面的快速进展对虚假信息传播构成了重大风险。例如,当合成图像在社交媒体上分享时,可能会误导大量观众并削弱对数字内容的信任,导致严重后果。尽管取得了一些进展,学术界尚未创建一个大型且多样化的社交媒体深度伪造检测数据集,也没有提出有效的解决方案来应对这一问题。在本文中,我们介绍了社交媒体图像检测数据集(SID-Set),它具有三个主要优势:(1)大规模,包含30万张AI生成/篡改和真实图像,并附有详细注释,(2)广泛多样性,涵盖各种类别的完全合成和篡改图像,(3)高度逼真,图像通过肉眼检查几乎无法与真实图像区分。此外,利用大型多模态模型的卓越能力,我们提出了一个新的图像深度伪造检测、定位和解释框架,名为SIDA(社交媒体图像检测、定位和解释助手)。SIDA不仅能辨别图像的真实性,还能通过掩码预测描绘篡改区域,并提供模型判断标准的文本解释。与在SID-Set和其他基准测试上的最先进深度伪造检测模型相比,大量实验表明,SIDA在多样化设置中表现优越。代码、模型和数据集将会发布。

[80] T2I-FactualBench:使用知识密集型概念对文本生成图像模型的真实性进行基准测试
标题: T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts
作者: Ziwei Huang / Wanggui He / Quanyu Long / Yandi Wang / Haoyuan Li / Zhelun Yu / Fangxun Shu / Long Chen / Hao Jiang / Leilei Gan
原文:   [英文]   [中文]  
备注: None
摘要:
评估合成图像的质量在文本到图像(T2I)生成的发展中仍然是一个重大挑战。现有的大多数研究主要集中在评估文本与图像的对齐、图像质量和对象构图能力,而相对较少的研究关注T2I模型的事实性评估,特别是当涉及的概念是知识密集型时。为弥补这一差距,我们在这项工作中提出了T2I-FactualBench——迄今为止在概念和提示数量方面最大的基准,专门用于评估知识密集型概念生成的事实性。T2I-FactualBench由一个三层的知识密集型文本到图像生成框架组成,从基本的单个知识概念记忆到更复杂的多个知识概念的组合。我们进一步引入了一个基于多轮视觉问答(VQA)的评估框架,以评估三层知识密集型文本到图像生成任务的事实性。在T2I-FactualBench上的实验表明,当前最先进(SOTA)的T2I模型仍有很大的改进空间。

[81] SwiftEdit:通过一步扩散实现闪电般快速的文本引导图像编辑
标题: SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion
作者: Trong-Tung Nguyen / Quang Nguyen / Khoi Nguyen / Anh Tran / Cuong Pham
原文:   [英文]   [中文]  
备注: 16 pages, 15 figures
摘要:
最近在文本引导的图像编辑方面的进展使用户能够通过简单的文本输入进行图像编辑,利用了基于多步扩散的文本到图像模型的广泛先验知识。然而,由于涉及到昂贵的多步反演和采样过程,这些方法往往无法满足现实世界和设备上应用所需的速度要求。对此,我们介绍了SwiftEdit,这是一种简单但高效的编辑工具,可以实现即时的文本引导图像编辑(仅需0.23秒)。SwiftEdit的进步在于其两个新颖的贡献:一个一步反演框架,使得通过反演进行一步图像重建成为可能;以及一种基于掩码的编辑技术,结合我们提出的注意力重新缩放机制,以执行局部图像编辑。大量实验表明了SwiftEdit的有效性和高效性。特别是,SwiftEdit实现了即时的文本引导图像编辑,比之前的多步方法快至少50倍,同时在编辑结果上保持了竞争力。我们的项目页面在:这个https URL

[82] 迈向零样本3D异常定位
标题: Towards Zero-shot 3D Anomaly Localization
作者: Yizhou Wang / Kuan-Chuan Peng / Yun Fu
原文:   [英文]   [中文]  
备注: This paper is accepted to WACV 2025
摘要:
3D异常检测和定位在工业检测中具有重要意义。现有的3D异常检测和定位方法主要集中在测试数据与训练数据属于同一类别且训练数据为正常的设定。然而,在实际应用中,由于数据隐私或出口管制等问题,目标3D对象的正常训练数据可能无法获得。为了解决这些挑战,我们确定了一项新任务——零样本3D异常检测和定位,其中训练类和测试类不重叠。为此,我们设计了3DzAL,这是一种基于伪异常生成的补丁级对比学习框架,利用与任务无关的3D xyz数据的归纳偏差来学习更具代表性的特征表示。此外,我们训练了一个正常性分类网络,用于分类正常补丁和伪异常,并将分类结果与特征距离结合起来设计异常评分。我们没有直接使用补丁点云,而是在输入补丁xyz数据送入3D正常性分类器进行基于分类的异常评分之前引入对抗扰动。我们展示了3DzAL在异常检测和定位性能上优于最新的技术水平。

[83] 瓷砖:用于二分类的排名分数二维地图
标题: The Tile: A 2D Map of Ranking Scores for Two-Class Classification
作者: Sébastien Piérard / Anaïs Halin / Anthony Cioppa / Adrien Deliège / Marc Van Droogenbroeck
原文:   [英文]   [中文]  
备注: None
摘要:
在计算机视觉和机器学习领域,以及许多其他研究领域中,对任何新方法(包括分类器)进行严格评估是至关重要的。评估过程的一个关键组成部分是能够比较和排名方法。然而,排名分类器并准确比较其性能,特别是在考虑特定应用偏好时,仍然具有挑战性。例如,常用的评估工具如接收者操作特性(ROC)和精确度/召回率(PR)空间基于两个分数显示性能。因此,它们在比较分类器时在更广泛的分数范围内本质上是有限的,并且缺乏在分类器之间建立明确排名的能力。在本文中,我们提出了一种新颖的多功能工具,名为Tile,它在一个二维地图中组织了无限的排名分数,用于两类分类器,包括常见的评估分数如准确率、真正率、阳性预测值、Jaccard系数和所有F-beta分数。此外,我们研究了底层排名分数的属性,如先验的影响或与ROC空间的对应关系,并描述了如何通过与Tile比较来表征任何其他分数。总体而言,我们证明了Tile是一个强大的工具,能够在单一可视化中有效捕捉所有排名并允许解释它们。

[84] LocalSR:局部区域的图像超分辨率
标题: LocalSR: Image Super-Resolution in Local Region
作者: Bo Ji / Angela Yao
原文:   [英文]  
备注: None
摘要:
标准的单图像超分辨率(SR)对整个图像进行上采样和恢复。然而,许多实际应用只需要特定区域的高分辨率,例如车牌或人脸,这使得对整个图像进行超分辨率处理以及相关的内存和计算成本变得不必要。我们提出了一项新任务,称为LocalSR,仅恢复低分辨率图像的局部区域。针对这一问题设置,我们提出了一种基于上下文的局部超分辨率(CLSR),仅对指定的感兴趣区域(ROI)进行超分辨率处理,同时利用整个图像作为上下文。我们的方法使用三个并行处理模块:一个用于超分辨率处理ROI的基础模块,一个用于从整个图像中收集有用特征的全局上下文模块,以及一个用于集中处理ROI周围区域的邻近集成模块,逐步将远处像素的特征传播到目标区域。实验结果表明,我们的方法在降低复杂度的同时,性能优于仅专注于ROI的变体。

[85] FlashSloth:通过嵌入式视觉压缩实现闪电般的多模态大型语言模型
标题: FlashSloth: Lightning Multimodal Large Language Models via Embedded Visual Compression
作者: Bo Tong / Bokai Lai / Yiyi Zhou / Gen Luo / Yunhang Shen / Ke Li / Xiaoshuai Sun / Rongrong Ji
原文:   [英文]   [中文]  
备注: None
摘要:
尽管多模态大语言模型(MLLMs)在能力上有了很大的飞跃,但在实际使用中往往表现得像一只树懒,即响应缓慢和延迟较大。最近的努力致力于构建小型MLLMs以提高效率,但仍然使用的大量视觉标记限制了它们的实际加速效果。在本文中,我们提出了一种强大且快速的小型MLLM,称为FlashSloth。与之前的努力不同,FlashSloth专注于在压缩视觉标记冗余语义的过程中提高其描述能力。特别地,FlashSloth引入了嵌入式视觉压缩设计,以捕捉视觉上显著和与指令相关的图像信息,从而以更少的视觉标记实现卓越的多模态性能。我们进行了广泛的实验来验证所提出的FlashSloth,并全面比较了一些小型但强大的MLLMs,例如InternVL2、MiniCPM-V2和Qwen2-VL。实验结果表明,与这些先进的小型MLLMs相比,我们的FlashSloth可以大大减少视觉标记的数量、训练内存和计算复杂性,同时在各种VL任务上保持高性能。

[86] Liquid:语言模型是可扩展的多模态生成器
标题: Liquid: Language Models are Scalable Multi-modal Generators
作者: Junfeng Wu / Yi Jiang / Chuofan Ma / Yuliang Liu / Hengshuang Zhao / Zehuan Yuan / Song Bai / Xiang Bai
原文:   [英文]   [中文]  
备注: Technical report. Will be updated soon
摘要:
我们介绍了Liquid,这是一种自回归生成范式,通过将图像标记为离散代码,并在共享特征空间中与文本标记一起学习这些代码嵌入,从而无缝集成视觉理解和生成。与之前的多模态大语言模型(MLLM)不同,Liquid使用单一的大语言模型(LLM)实现了这种集成,消除了对外部预训练视觉嵌入(如CLIP)的需求。Liquid首次揭示了一种扩展规律,即随着模型规模的增加,由视觉和语言任务的统一训练不可避免带来的性能下降会逐渐减小。此外,统一的标记空间使得视觉生成和理解任务能够相互增强,有效消除了早期模型中常见的干扰。我们展示了现有的LLM可以作为Liquid的强大基础,在节省100倍训练成本的同时,在多模态能力上超越了Chameleon,并保持了与主流LLM(如LLAMA2)相当的语言性能。Liquid还在视觉-语言和纯文本任务中表现优异,超过了SD v2.1和SD-XL(在MJHQ-30K上的FID为5.47)。这项工作表明,LLM如LLAMA3.2和GEMMA2是强大的多模态生成器,提供了一种可扩展的解决方案来增强视觉-语言理解和生成。代码和模型将会发布。

[87] 反思型教师:通过不确定性度量在鸟瞰图中进行半监督多模态3D目标检测
标题: Reflective Teacher: Semi-Supervised Multimodal 3D Object Detection in Bird's-Eye-View via Uncertainty Measure
作者: Saheli Hazra / Sudip Das / Rohit Choudhary / Arindam Das / Ganesh Sistu / Ciaran Eising / Ujjwal Bhattacharya
原文:   [英文]   [中文]  
备注: None
摘要:
在鸟瞰图(BEV)中应用伪标签技术在自动驾驶的半监督3D目标检测(SSOD)中被发现是有利的,特别是在标注数据有限的情况下。在文献中,指数移动平均(EMA)已被用于通过学生网络调整教师网络的权重。然而,这会导致教师网络的灾难性遗忘。在这项工作中,我们通过引入反思教师的创新概念来解决这个问题,其中学生通过标注数据和伪标注数据进行训练,同时其知识通过一个正则化器逐步传递给教师,以确保保留先前的知识。此外,我们提出了几何感知BEV融合(GA-BEVFusion),用于高效对齐多模态BEV特征,从而减少相机和LiDAR模态之间的差异。这有助于可靠地将LiDAR点中嵌入的精确几何信息与空间先验映射,以从相机图像中提取语义信息。我们在nuScenes和Waymo数据集上的实验表明:1)在全监督和半监督设置中,性能优于最先进的方法;2)反思教师在nuScenes和Waymo数据集上分别仅使用25%和22%的标注数据就能达到与其他全监督方法使用全部标注数据相当的性能。

[88] RMD:通过无训练检索增强运动扩散实现更通用的人体运动生成的简单基线
标题: RMD: A Simple Baseline for More General Human Motion Generation via Training-free Retrieval-Augmented Motion Diffuse
作者: Zhouyingcheng Liao / Mingyuan Zhang / Wenjia Wang / Lei Yang / Taku Komura
原文:   [英文]   [中文]  
备注: None
摘要:
尽管运动生成技术已经取得了显著进展,但其实际应用仍受限于数据集的多样性和规模,限制了其处理分布外场景的能力。为了解决这个问题,我们提出了一个简单而有效的基线方法RMD,通过检索增强技术来提升运动生成的泛化能力。与之前的基于检索的方法不同,RMD不需要额外的训练,并提供了三个关键优势:(1) 外部检索数据库可以灵活替换;(2) 可以重用运动数据库中的身体部位,并通过大型语言模型(LLM)促进拆分和重组;(3) 预训练的运动扩散模型作为先验,提高了通过检索和直接组合获得的运动质量。无需任何训练,RMD在分布外数据上实现了最先进的性能,并具有显著优势。

[89] ActFusion:一种用于动作分割和预测的统一扩散模型
标题: ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation
作者: Dayoung Gong / Suha Kwak / Minsu Cho
原文:   [英文]  
备注: Accepted to NeurIPS 2024
摘要:
时间动作分割和长期动作预测是视频中动作时间分析的两个热门视觉任务。尽管这两个问题显然相关且具有潜在的互补性,但它们一直被作为独立且不同的任务进行研究。在这项工作中,我们使用一个统一的扩散模型(称为ActFusion)共同解决这两个问题,即动作分割和动作预测。统一的关键思想是训练模型以一种集成的方式有效处理序列的可见和不可见部分;可见部分用于时间分割,不可见部分用于未来预测。为此,我们在训练过程中引入了一种新的预测掩码策略,其中视频帧的后期部分被掩盖为不可见,并用可学习的标记替换这些帧,以学习预测不可见的未来。实验结果表明,动作分割和预测之间存在双向互惠。ActFusion在50 Salads、Breakfast和GTEA的标准基准测试中实现了最先进的性能,通过联合学习,单一统一模型在这两个任务中均优于特定任务的模型。

[90] 《搭便车者指南:理解二分类器的性能》
标题: A Hitchhiker's Guide to Understanding Performances of Two-Class Classifiers
作者: Anaïs Halin / Sébastien Piérard / Anthony Cioppa / Marc Van Droogenbroeck
原文:   [英文]   [中文]  
备注: None
摘要:
正确理解分类器的性能在各种场景中至关重要。然而,文献中通常仅依赖一两个标准评分来比较分类器,这未能捕捉到特定应用需求的细微差别,可能导致次优的分类器选择。最近,一篇关于基于性能排名理论基础的论文引入了一种名为Tile的工具,它将无数的排名评分组织成一个二维地图。得益于Tile,现在可以高效地评估和比较分类器,展示所有可能的特定应用偏好,而不必依赖于一对评分。在本文中,我们提供了第一个理解二分类器性能的指南,通过展示四种场景,每种场景展示了不同的用户画像:理论分析师、方法设计师、基准测试者和应用开发者。特别是,我们展示了通过在Tile上映射不同的值,可以提供适应用户需求的不同解释风格。作为例证,我们利用新引入的Tile工具和不同的解释风格,通过四种用户画像的视角,对74种最先进的语义分割模型在二分类中的性能进行排名和分析。通过这些用户画像,我们证明了Tile能够在单一可视化中有效捕捉分类器的行为,同时适应无限数量的排名评分。

[91] LVLMs的判别性微调
标题: Discriminative Fine-tuning of LVLMs
作者: Yassine Ouali / Adrian Bulat / Alexandros Xenos / Anestis Zaganidis / Ioannis Maniadis Metaxas / Georgios Tzimiropoulos / Brais Martinez
原文:   [英文]   [中文]  
备注: Preprint. The first two authors contributed equally
摘要:
对比训练的视觉-语言模型(VLMs),如CLIP,已经成为判别性视觉-语言表示学习的事实标准。然而,这些模型的语言理解能力有限,通常表现出“词袋”行为。与此同时,大型视觉-语言模型(LVLMs),将视觉编码器与大型语言模型(LLMs)结合,已被证明能够进行详细的视觉-语言推理,但其自回归性质使其不太适合判别任务。 在这项工作中,我们提出结合“两者的优点”:一种新的训练方法,用于LVLMs的判别性微调,结果是具有强大的判别和组合能力。本质上,我们的方法将生成型LVLM转换为判别型,解锁其强大的图像-文本判别能力,并增强语言理解能力。 我们的贡献包括:(1)一个精心设计的训练/优化框架,利用不同长度和粒度的图像-文本对,通过对比损失和下一个标记预测损失来训练模型。伴随的消融研究证明了我们框架组件的必要性。(2)一种参数高效的适应方法,结合软提示和LoRA适配器。(3)在类似规模的最新CLIP类模型上取得显著改进,包括标准的图像-文本检索基准测试和在组合性方面的显著提升。

[92] EmbodiedOcc:基于视觉的在线场景理解的具身3D占用预测
标题: EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding
作者: Yuqi Wu / Wenzhao Zheng / Sicheng Zuo / Yuanhui Huang / Jie Zhou / Jiwen Lu
原文:   [英文]   [中文]  
备注: Code: this https URL
摘要:
3D占用预测提供了对周围场景的全面描述,已成为3D感知的重要任务。大多数现有方法专注于从一个或几个视角进行离线感知,无法应用于需要通过逐步具身探索逐渐感知场景的具身代理。在本文中,我们制定了一个具身3D占用预测任务,以应对这一实际场景,并提出了一个基于高斯的EmbodiedOcc框架来完成这一任务。我们用均匀的3D语义高斯初始化全局场景,并逐步更新具身代理观察到的局部区域。对于每次更新,我们从观察到的图像中提取语义和结构特征,并通过可变形的交叉注意力高效地将其结合,以优化区域高斯。最后,我们采用高斯到体素的喷溅方法,从更新的3D高斯中获得全局3D占用。我们的EmbodiedOcc假设一个未知(即均匀分布的)环境,并通过3D高斯保持其显式的全局记忆。它通过区域高斯的局部优化逐步获取知识,这与人类通过具身探索理解新场景的方式一致。我们基于局部注释重新组织了一个EmbodiedOcc-ScanNet基准,以促进具身3D占用预测任务的评估。实验表明,我们的EmbodiedOcc优于现有的局部预测方法,并以高精度和强扩展性完成了具身占用预测。我们的代码可在以下网址获取:this https URL。

[93] SeeGround: 面向零样本开放词汇的3D视觉定位
标题: SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding
作者: Rong Li / Shijie Li / Lingdong Kong / Xulei Yang / Junwei Liang
原文:   [英文]   [中文]  
备注: Preprint; 19 pages, 10 figures, 9 tables; Project Page at this https URL
摘要:
3D视觉定位(3DVG)旨在根据文本描述在3D场景中定位对象,这对于增强现实和机器人等应用至关重要。传统的3DVG方法依赖于带注释的3D数据集和预定义的对象类别,限制了其可扩展性和适应性。为克服这些限制,我们引入了SeeGround,这是一种利用在大规模2D数据上训练的2D视觉语言模型(VLMs)的零样本3DVG框架。我们提出将3D场景表示为查询对齐的渲染图像和空间丰富的文本描述的混合体,弥合3D数据和2D-VLMs输入格式之间的差距。我们提出了两个模块:视角适应模块,该模块动态选择与查询相关的图像渲染视点;以及融合对齐模块,该模块将2D图像与3D空间描述相结合,以增强对象定位。在ScanRefer和Nr3D上的大量实验表明,我们的方法大幅优于现有的零样本方法。值得注意的是,我们超越了弱监督方法,并且与一些完全监督的方法相媲美,在ScanRefer上超越了之前的SOTA 7.7%,在Nr3D上超越了7.1%,展示了其有效性。

[94] 高效三维占用预测的概率高斯叠加
标题: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction
作者: Yuanhui Huang / Amonnut Thammatadatrakoon / Wenzhao Zheng / Yunpeng Zhang / Dalong Du / Jiwen Lu
原文:   [英文]   [中文]  
备注: Code is available at: this https URL
摘要:
3D语义占用预测是稳健的视觉中心自动驾驶中的一项重要任务,它预测周围场景的细粒度几何形状和语义。大多数现有方法利用基于密集网格的场景表示,忽略了驾驶场景的空间稀疏性。尽管3D语义高斯作为一种以对象为中心的稀疏替代方案,但大多数高斯仍然低效地描述了空区域。为了解决这个问题,我们提出了一种概率高斯叠加模型,该模型将每个高斯解释为其邻域被占用的概率分布,并通过概率乘法推导出整体几何。此外,我们采用精确的高斯混合模型进行语义计算,以避免高斯的不必要重叠。为了有效地初始化非空区域的高斯,我们设计了一个基于分布的初始化模块,该模块学习像素对齐的占用分布,而不是表面的深度。我们在nuScenes和KITTI-360数据集上进行了广泛的实验,我们的GaussianFormer-2以高效的方式达到了最先进的性能。代码:this https URL。

[95] Florence-VL:通过生成视觉编码器和深度-广度融合增强视觉-语言模型
标题: Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion
作者: Jiuhai Chen / Jianwei Yang / Haiping Wu / Dianqi Li / Jianfeng Gao / Tianyi Zhou / Bin Xiao
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了Florence-VL,这是一种新的多模态大语言模型(MLLMs)家族,其视觉表示由生成型视觉基础模型Florence-2丰富而成。与广泛使用的通过对比学习训练的CLIP风格视觉变换器不同,Florence-2能够捕捉不同层次和方面的视觉特征,这使其更易于适应各种下游任务。我们提出了一种新颖的特征融合架构和创新的训练方法,有效地将Florence-2的视觉特征整合到预训练的大语言模型中,如Phi 3.5和LLama 3。特别是,我们提出了“深度-广度融合(DBFusion)”方法,以融合从不同深度和多个提示中提取的视觉特征。我们的模型训练包括对整个模型的端到端预训练,然后对投影层和大语言模型进行微调,使用精心设计的多样化开源数据集,其中包括高质量的图像字幕和指令调优对。我们对Florence-VL视觉特征的定量分析和可视化显示了其在视觉-语言对齐方面相对于流行的视觉编码器的优势,其中丰富的深度和广度起到了重要作用。Florence-VL在涵盖一般VQA、感知、幻觉、OCR、图表、知识密集型理解等各种多模态和视觉中心基准测试中,相较于现有的最先进MLLMs取得了显著的改进。为了促进未来的研究,我们的模型和完整的训练方法已开源。this https URL

[96] 将描述与图像关联有助于零样本视觉识别
标题: Grounding Descriptions in Images informs Zero-Shot Visual Recognition
作者: Shaunak Halbe / Junjiao Tian / K J Joseph / James Seale Smith / Katherine Stevo / Vineeth N Balasubramanian / Zsolt Kira
原文:   [英文]   [中文]  
备注: None
摘要:
视觉-语言模型(VLMs)如CLIP因其在开放词汇概念上执行零样本视觉识别的能力而备受推崇。这是通过选择与查询图像具有最高相似性的文本表示的对象类别来实现的。虽然在某些领域取得了成功,但这种方法在识别细粒度实体以及推广到训练分布未捕获的未见概念时存在困难。最近的工作尝试通过在测试时整合类别描述来缓解这些挑战,尽管取得了有限的改进。我们将这些有限的收益归因于图像和描述表示之间的根本不对齐,这源于CLIP的预训练结构。在本文中,我们提出了GRAIN,一种新的预训练策略,旨在同时对齐细粒度和粗粒度级别的表示。我们的方法学习将文本描述与图像区域共同定位,并将整体标题与全局图像表示对齐。为了推动这种预训练,我们利用冻结的多模态大型语言模型(MLLMs)来推导大规模的合成注释。我们展示了我们的模型在11个不同的图像分类数据集上相比当前最先进方法的增强零样本性能。此外,我们引入了Products-2023,这是一个新策划的、手动标注的数据集,包含新颖概念,并通过在其上进行基准测试展示了我们的模型识别这些概念的能力。我们的模型在检索等其他下游任务上取得的显著改进进一步突显了我们方法所学习表示的优越质量。代码可在此https URL获取。

[97] Infinity:扩展逐位自回归建模以实现高分辨率图像合成
标题: Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
作者: Jian Han / Jinlai Liu / Yi Jiang / Bin Yan / Yuqi Zhang / Zehuan Yuan / Bingyue Peng / Xiaobing Liu
原文:   [英文]   [中文]  
备注: 17 pages, 14 figures
摘要:
我们介绍了Infinity,这是一种比特级视觉自回归建模方法,能够根据语言指令生成高分辨率、逼真的图像。Infinity在比特级令牌预测框架下重新定义了视觉自回归模型,采用无限词汇量的分词器和分类器以及比特级自我纠错机制,显著提高了生成能力和细节表现。通过理论上将分词器词汇量扩展到无限大,并同时扩展变压器的规模,我们的方法相比传统的VAR显著释放了强大的扩展能力。Infinity为自回归文本到图像模型设立了新的记录,超越了顶级扩散模型如SD3-Medium和SDXL。值得注意的是,Infinity通过将GenEval基准分数从0.62提高到0.73,将ImageReward基准分数从0.87提高到0.96,达到了66%的胜率,超越了SD3-Medium。在没有额外优化的情况下,Infinity在0.8秒内生成了一张高质量的1024x1024图像,比SD3-Medium快2.6倍,成为最快的文本到图像模型。模型和代码将被发布,以促进对Infinity在视觉生成和统一分词器建模方面的进一步探索。

[98] Divot:扩散驱动的视频标记器用于理解和生成
标题: Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
作者: Yuying Ge / Yizhuo Li / Yixiao Ge / Ying Shan
原文:   [英文]   [中文]  
备注: Project released at: this https URL
摘要:
近年来,统一图像理解和生成在大型语言模型(LLMs)中引起了极大的兴趣。这种日益增长的兴趣促使我们探索将这种统一扩展到视频领域。核心挑战在于开发一种多功能的视频分词器,该分词器能够捕捉视频的空间特征和时间动态,以获得LLMs的表示,并且这些表示可以进一步解码成逼真的视频片段,从而实现视频生成。在这项工作中,我们介绍了Divot,一种基于扩散过程的视频分词器,它利用扩散过程进行自监督的视频表示学习。我们认为,如果一个视频扩散模型能够通过将视频分词器的特征作为条件来有效地去噪视频片段,那么该分词器就成功地捕捉到了稳健的空间和时间信息。此外,视频扩散模型本质上也可以作为一个去分词器,从其表示中解码视频。在Divot分词器的基础上,我们通过视频到文本的自回归和文本到视频的生成,提出了Divot-Vicuna,通过高斯混合模型对连续值的Divot特征进行建模。实验结果表明,当我们的基于扩散的视频分词器与预训练的LLM集成时,在各种视频理解和生成基准测试中表现出竞争力。经过指令调优的Divot-Vicuna在视频故事讲述方面也表现出色,能够生成交错的叙述和相应的视频。

[99] PBDyG:基于位置的动态高斯模型用于运动感知的穿衣人类虚拟形象
标题: PBDyG: Position Based Dynamic Gaussians for Motion-Aware Clothed Human Avatars
作者: Shota Sasaki / Jane Wu / Ko Nishino
原文:   [英文]   [中文]  
备注: None
摘要:
本文介绍了一种新颖的穿衣人体模型,该模型可以从多视角RGB视频中学习,特别强调恢复物理上准确的身体和衣物运动。我们的方法,基于位置的动态高斯(PBDyG),通过物理模拟实现“运动依赖”的衣物变形,而不仅仅依赖于“姿态依赖”的刚性变换。我们整体建模穿衣人体,但包含两个接触的不同物理实体:衣物被建模为3D高斯分布,并附着在一个跟随输入视频中人物运动的蒙皮SMPL身体上。SMPL身体的关节运动还驱动衣物高斯分布的物理模拟,将虚拟形象变换到新的姿态。为了运行基于位置的动态模拟,包括质量和材料刚度在内的物理属性通过动态3D高斯喷射从RGB视频中估计。实验表明,我们的方法不仅能准确再现外观,还能重建穿着高度可变形衣物(如裙子或外套)的虚拟形象,而这些衣物使用现有方法一直难以重建。

[100] 面向实时开放词汇的视频实例分割
标题: Towards Real-Time Open-Vocabulary Video Instance Segmentation
作者: Bin Yan / Martin Sundermeyer / David Joseph Tan / Huchuan Lu / Federico Tombari
原文:   [英文]   [中文]  
备注: None
摘要:
在本文中,我们解决了实时执行开放词汇视频实例分割(OV-VIS)的挑战。我们分析了当前最先进的基础模型在执行OV-VIS时的计算瓶颈,并提出了一种新方法,TROY-VIS,该方法在保持高精度的同时显著提高了处理速度。我们引入了三项关键技术:(1)解耦注意力特征增强器,以加速不同模态和尺度之间的信息交互;(2)闪存嵌入记忆,用于快速获取对象类别的文本嵌入;(3)核插值,用于利用视频中的时间连续性。我们的实验表明,TROY-VIS在两个大规模OV-VIS基准测试BURST和LV-VIS上实现了精度和速度之间的最佳平衡,比GLEE-Lite快20倍(25 FPS对比1.25 FPS),且具有相当或更好的精度。这些结果表明,TROY-VIS在动态环境中的实时应用(如移动机器人和增强现实)中具有潜力。代码和模型将在此https URL发布。

[101] GenMAC:基于多智能体协作的组合文本到视频生成
标题: GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration
作者: Kaiyi Huang / Yukun Huang / Xuefei Ning / Zinan Lin / Yu Wang / Xihui Liu
原文:   [英文]   [中文]  
备注: Project website: this https URL
摘要:
近年来,文本到视频生成模型取得了显著进展。然而,它们在基于组合文本提示生成复杂动态场景时仍然面临挑战,例如多对象的属性绑定、与不同对象相关的时间动态以及对象之间的交互。我们的主要动机是将复杂任务分解为更简单的任务,每个任务由一个角色专门化的多模态大模型(MLLM)代理处理。多个代理可以协作,共同实现复杂目标的集体智能。我们提出了GenMAC,一个迭代的多代理框架,使组合文本到视频生成成为可能。协作工作流程包括三个阶段:设计、生成和再设计,在生成和再设计阶段之间有一个迭代循环,以逐步验证和改进生成的视频。再设计阶段是最具挑战性的阶段,旨在验证生成的视频,提出修正建议,并重新设计文本提示、逐帧布局和下一次生成的指导尺度。为了避免单一MLLM代理的幻觉,我们将这一阶段分解为四个顺序执行的基于MLLM的代理:验证代理、建议代理、修正代理和输出结构代理。此外,为了应对组合文本到视频生成的多样化场景,我们设计了一种自路由机制,从一组专门针对某一场景的修正代理中自适应地选择合适的修正代理。大量实验表明,GenMAC的有效性,在组合文本到视频生成方面达到了最先进的性能。

[102] 学习艺术签名:对称性发现与风格迁移
标题: Learning Artistic Signatures: Symmetry Discovery and Style Transfer
作者: Emma Finn / T. Anderson Keller / Emmanouil Theodosis / Demba E. Ba
原文:   [英文]   [中文]  
备注: None
摘要:
尽管关于风格迁移的文献已经接近十年,但对于艺术风格的定义仍然没有公认的标准。最先进的模型产生了令人印象深刻的结果,但由于缺乏连贯的风格定义,风格迁移问题本质上是病态的,因此这些结果难以解释。早期的工作将风格迁移框架化为一个优化问题,但仅将风格视为纹理的度量。这导致早期模型的输出中出现伪影,其中风格图像的内容特征有时会渗入输出图像。相反,最近使用扩散模型的工作提供了引人注目的实证结果,但几乎没有理论基础。为了解决这些问题,我们提出了一种替代的艺术风格定义。我们建议将风格视为一组决定局部纹理排列的全局对称性。我们通过学习大量绘画数据集的对称性并展示对称性可以预测每幅画所属的艺术运动来验证这一观点。最后,我们展示了通过同时考虑局部和全局特征,使用李生成器和传统的纹理度量,我们可以比单独使用任一特征集更好地定量捕捉艺术家之间的风格相似性。这种方法不仅与艺术史学家的共识高度一致,而且还提供了一个区分细微风格差异的稳健框架,从而为风格迁移提供了一个更具解释性和理论基础的方法。

[103] DiCoDe:用于自回归视频生成的扩散压缩深度标记与语言模型
标题: DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models
作者: Yizhuo Li / Yuying Ge / Yixiao Ge / Ping Luo / Ying Shan
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
视频本质上是时间序列。在这项工作中,我们借鉴自回归(AR)语言模型在自然语言处理中的成功,探索以时间顺序和可扩展的方式对视频进行建模的潜力。我们介绍了DiCoDe,这是一种新颖的方法,利用扩散压缩深度标记(Diffusion-Compressed Deep Tokens)通过语言模型以自回归方式生成视频。与现有方法使用压缩率有限的低级表示不同,DiCoDe利用具有相当压缩率的深度标记(标记数量减少1000倍)。这种显著的压缩得益于通过利用视频扩散模型的先验知识训练的标记器。深度标记使DiCoDe能够使用普通的AR语言模型进行视频生成,类似于将一种视觉“语言”翻译成另一种。通过将视频视为时间序列,DiCoDe充分利用了语言模型的自回归生成能力。DiCoDe可以使用现成的AR架构进行扩展,并且能够仅使用4个A100 GPU进行训练,生成从几秒到一分钟的视频。我们对DiCoDe进行了定量和定性评估,结果表明其在质量方面与现有方法相当,同时确保了高效的训练。为了展示其可扩展性,我们发布了一系列具有不同参数规模的DiCoDe配置,并观察到随着模型规模从100M增加到3B,性能持续提高。我们相信,DiCoDe在学术界的探索代表了使用AR语言模型进行可扩展视频建模的有希望的初步步骤,为开发更大更强的视频生成模型铺平了道路。

[104] MEMO:用于表达性说话视频生成的记忆引导扩散
标题: MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
作者: Longtao Zheng / Yifan Zhang / Hanzhong Guo / Jiachun Pan / Zhenxiong Tan / Jiahao Lu / Chuanxin Tang / Bo An / Shuicheng Yan
原文:   [英文]   [中文]  
备注: Project Page: this https URL
摘要:
视频扩散模型的最新进展为逼真的音频驱动的说话视频生成解锁了新的潜力。然而,实现无缝的音频与唇部同步、保持长期的身份一致性以及在生成的说话视频中产生自然的、与音频对齐的表情仍然是重大挑战。为了解决这些挑战,我们提出了记忆引导的情感感知扩散模型(MEMO),这是一种端到端的音频驱动肖像动画方法,用于生成身份一致且富有表现力的说话视频。我们的方法围绕两个关键模块构建:(1) 记忆引导的时间模块,通过开发记忆状态来存储更长时间的上下文信息,以线性注意力引导时间建模,从而增强长期身份一致性和运动平滑性;(2) 情感感知音频模块,用多模态注意力取代传统的交叉注意力,以增强音视频互动,同时从音频中检测情感,通过情感自适应层归一化来优化面部表情。大量的定量和定性结果表明,MEMO在各种图像和音频类型上生成了更逼真的说话视频,在整体质量、音频与唇部同步、身份一致性和表情情感对齐方面优于最先进的方法。

[105] p-MoD:通过渐进比例衰减构建深度混合多层次学习模型
标题: p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay
作者: Jun Zhang / Desen Meng / Ji Qi / Zhenpeng Huang / Tao Wu / Limin Wang
原文:   [英文]  
备注: Technical Report; Code released at this https URL
摘要:
尽管多模态大语言模型(MLLMs)在各种任务中表现出色,但其巨大的训练和推理成本阻碍了其进步。大部分计算源于变压器解码器处理的大量视觉标记。在本文中,我们提出通过利用深度混合(Mixture-of-Depths, MoD)机制来构建高效的MLLMs,其中每个变压器解码器层选择处理必要的视觉标记,同时跳过冗余的标记。然而,将MoD集成到MLLMs中并非易事。为了解决训练和推理稳定性以及有限训练数据的挑战,我们通过两个新设计来调整MoD模块:tanh门控权重归一化(TanhNorm)和对称标记重加权(STRing)。此外,我们观察到在更深层次的视觉标记中冗余更高,因此设计了一种渐进比率衰减(PRD)策略,该策略采用移位余弦计划逐层逐渐减少标记保留比率。这一关键设计充分释放了MoD的潜力,显著提高了我们模型的效率和性能。为了验证我们方法的有效性,我们在14个基准测试中对两个基线模型进行了广泛的实验。我们的模型p-MoD在推理过程中仅使用55.6%的TFLOPs和53.8%的KV缓存存储,在训练过程中仅使用77.7%的GPU小时,性能与基线模型相当甚至更好。

[106] 四平面分解视频自动编码器
标题: Four-Plane Factorized Video Autoencoders
作者: Mohammed Suhail / Carlos Esteves / Leonid Sigal / Ameesh Makadia
原文:   [英文]   [中文]  
备注: None
摘要:
潜变量生成模型已经成为包括图像和视频合成在内的生成任务中的强大工具。这些模型通过预训练的自动编码器实现,将高分辨率数据映射到压缩的低维潜在空间,在该空间中生成模型可以在需要较少计算资源的情况下进行开发。尽管它们非常有效,但将潜变量模型直接应用于视频等高维领域仍然在高效训练和推理方面面临挑战。在本文中,我们提出了一种自动编码器,将体数据投影到一个四平面分解的潜在空间,该空间随输入大小次线性增长,使其非常适合视频等高维数据。我们分解模型的设计支持在许多条件生成任务中直接采用潜在扩散模型(LDMs),例如类别条件生成、帧预测和视频插值。我们的结果表明,所提出的四平面潜在空间在重度压缩的情况下仍保留了高保真重建所需的丰富表示,同时使LDMs在速度和内存方面显著提升。

[107] HeatFormer:一种用于多视图人体网格恢复的神经优化器
标题: HeatFormer: A Neural Optimizer for Multiview Human Mesh Recovery
作者: Yuto Matsubara / Ko Nishino
原文:   [英文]   [中文]  
备注: None
摘要:
我们介绍了一种新颖的人体形状和姿态恢复方法,该方法可以充分利用多个静态视角。我们针对固定多视角的人体监控,包括老年护理和安全监控,其中校准的摄像头可以安装在房间或开放空间的角落,但其配置可能会根据环境而变化。我们的关键思想是将其表述为神经优化。我们通过HeatFormer实现了这一点,HeatFormer是一个神经优化器,它在给定多视角图像的情况下迭代地优化SMPL参数,基本上与视角配置无关。HeatFormer通过一种新颖的transformer编码器和解码器实现了这种SMPL参数估计,作为热图生成和对齐。我们通过大量实验展示了HeatFormer的有效性,包括其准确性、对遮挡的鲁棒性和广泛适用性。我们相信HeatFormer可以在被动的人类行为建模中发挥关键作用。

[108] 单目动态高斯喷溅快速但脆弱,平滑运动有助于改善
标题: Monocular Dynamic Gaussian Splatting is Fast and Brittle but Smooth Motion Helps
作者: Yiqing Liang / Mikhail Okunev / Mikaela Angelina Uy / Runfeng Li / Leonidas Guibas / James Tompkin / Adam W. Harley
原文:   [英文]   [中文]  
备注: 37 pages, 39 figures, 9 tables
摘要:
高斯散点方法正在成为一种流行的方法,用于将多视图图像数据转换为允许视图合成的场景表示。特别是,人们对仅使用单目输入数据实现动态场景的视图合成产生了兴趣——这是一个病态且具有挑战性的问题。该领域的快速发展产生了多篇同时声称效果最佳的论文,但这些说法不可能都是真的。在这项工作中,我们组织、基准测试并分析了许多基于高斯散点的方法,提供了之前工作中缺乏的公平比较。我们使用了多个现有数据集和一个新的教学性合成数据集,该数据集旨在隔离影响重建质量的因素。我们系统地将高斯散点方法分类为特定的运动表示类型,并量化它们的差异对性能的影响。根据实验证据,我们发现它们在合成数据中的排名顺序是明确的,但现实世界数据的复杂性目前掩盖了这些差异。此外,所有基于高斯的方法的快速渲染速度是以优化过程中的脆弱性为代价的。我们将实验总结为一系列发现,这些发现可以帮助在这个活跃的问题设置中进一步取得进展。项目网页:this https URL

[109] 立体化万物:室内3D物体检测的扩展
标题: Cubify Anything: Scaling Indoor 3D Object Detection
作者: Justin Lazarow / David Griffiths / Gefen Kohavi / Francisco Crespo / Afshin Dehghan
原文:   [英文]   [中文]  
备注: None
摘要:
我们考虑使用从普通手持设备获取的单个RGB(-D)帧进行室内3D物体检测。我们希望在数据和建模方面显著推进现状。首先,我们确定现有数据集在规模、准确性和物体多样性方面存在显著限制。因此,我们引入了Cubify-Anything 1M (CA-1M)数据集,该数据集在超过1K高度准确的激光扫描场景中对超过400K个3D物体进行了详尽标注,并与超过3.5K手持、以自我为中心的捕获场景进行了近乎完美的配准。接下来,我们建立了Cubify Transformer (CuTR),这是一个完全基于Transformer的3D物体检测基线模型,它不是在点或体素表示的3D空间中操作,而是直接从RGB(-D)输入的2D特征中预测3D框。尽管这种方法缺乏任何3D归纳偏差,但我们展示了与CA-1M配对时,CuTR在3D中准确召回超过62%的物体,并且在处理普通LiDAR衍生的深度图中的噪声和不确定性方面显著更有能力,同时在不改变架构的情况下提供了有前景的仅RGB性能。此外,通过在CA-1M上进行预训练,CuTR可以在更具多样性的SUN RGB-D变体上超越基于点的方法——支持了这样一种观点,即虽然3D中的归纳偏差在现有数据集的小规模上是有用的,但它们在CA-1M的数据丰富环境中未能扩展。总体而言,这个数据集和基线模型提供了有力的证据,表明我们正在朝着能够有效Cubify Anything的模型迈进。

[110] 稀疏体素光栅化:实时高保真辐射场渲染
标题: Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering
作者: Cheng Sun / Jaesung Choe / Charles Loop / Wei-Chiu Ma / Yu-Chiang Frank Wang
原文:   [英文]  
备注: Code release in progress
摘要:
我们提出了一种高效的辐射场渲染算法,该算法在稀疏体素上结合了光栅化过程,而不依赖于神经网络或3D高斯。该系统有两个关键贡献。首先,通过使用动态Morton排序,我们能够沿像素射线以正确的深度顺序渲染稀疏体素,从而避免了高斯点云中常见的弹出伪影。其次,我们自适应地将稀疏体素适配到场景中的不同细节层次,忠实地再现场景细节,同时实现高渲染帧率。我们的方法在无神经网络的体素网格表示上提高了超过4db的PSNR,并且渲染FPS速度提升了超过10倍,达到了与当前最先进的视图合成结果相当的水平。此外,我们的无神经网络稀疏体素与基于网格的3D处理算法无缝兼容。通过将TSDF-Fusion和Marching Cubes集成到我们的稀疏网格系统中,我们实现了有前景的网格重建精度。

[111] LayerFusion:基于生成先验的多层次文本到图像生成的和谐融合
标题: LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors
作者: Yusuf Dalva / Yijun Li / Qing Liu / Nanxuan Zhao / Jianming Zhang / Zhe Lin / Pinar Yanardag
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
大规模扩散模型在从文本描述生成高质量图像方面取得了显著成功,并在各种应用中广受欢迎。然而,生成分层内容(如具有前景和背景层的透明图像)仍是一个未被充分探索的领域。分层内容生成对于图形设计、动画和数字艺术等领域的创意工作流程至关重要,因为基于图层的方法是灵活编辑和合成的基础。在本文中,我们提出了一种基于潜在扩散模型(LDMs)的新颖图像生成管道,该管道生成具有两层的图像:包含透明信息的前景层(RGBA)和背景层(RGB)。与现有方法依次生成这些图层不同,我们的方法引入了一种和谐生成机制,使图层之间能够进行动态交互,从而产生更连贯的输出。通过广泛的定性和定量实验,我们证明了我们方法的有效性,与基线方法相比,在视觉连贯性、图像质量和图层一致性方面有显著改进。

[112] 4Real-Video:学习可推广的照片级真实感4D视频扩散
标题: 4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion
作者: Chaoyang Wang / Peiye Zhuang / Tuan Duc Ngo / Willi Menapace / Aliaksandr Siarohin / Michael Vasilkovsky / Ivan Skorokhodov / Sergey Tulyakov / Peter Wonka / Hsin-Ying Lee
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
我们提出了4Real-Video,一个用于生成4D视频的新框架,该框架以时间和视点轴为组织方式,将视频帧排列成网格。在这个网格中,每一行包含共享相同时间步的帧,而每一列包含来自相同视点的帧。我们提出了一种新颖的双流架构。一条流在列上执行视点更新,另一条流在行上执行时间更新。在每个扩散变压器层之后,一个同步层在两个令牌流之间交换信息。我们提出了两种同步层的实现方式,分别使用硬同步和软同步。这种前馈架构在三个方面改进了以往的工作:更高的推理速度,增强的视觉质量(通过FVD、CLIP和VideoScore测量),以及改进的时间和视点一致性(通过VideoScore和Dust3R-Confidence测量)。

[113] MegaSaM:从随意动态视频中获取准确、快速且稳健的结构与运动
标题: MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos
作者: Zhengqi Li / Richard Tucker / Forrester Cole / Qianqian Wang / Linyi Jin / Vickie Ye / Angjoo Kanazawa / Aleksander Holynski / Noah Snavely
原文:   [英文]   [中文]  
备注: None
摘要:
我们提出了一个系统,该系统能够从动态场景的随意单目视频中准确、快速且稳健地估计相机参数和深度图。大多数传统的运动结构和单目SLAM技术假设输入视频主要是具有大量视差的静态场景。在缺乏这些条件的情况下,这些方法往往会产生错误的估计。最近基于神经网络的方法试图克服这些挑战;然而,这些方法在处理具有不受控相机运动或未知视野的动态视频时,要么计算成本高,要么脆弱。我们展示了一个深度视觉SLAM框架的惊人效果:通过对其训练和推理方案进行仔细修改,该系统可以扩展到具有不受限相机路径的复杂动态场景的真实视频,包括视差较小的视频。对合成视频和真实视频的大量实验表明,与之前和同时期的工作相比,我们的系统在相机姿态和深度估计方面显著更准确和稳健,且运行时间更快或相当。请参见我们项目页面上的互动结果:this https URL

[114] DualPM: 用于3D形状和姿态重建的双重姿态-规范点映射
标题: DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction
作者: Ben Kaye / Tomas Jakab / Shangzhe Wu / Christian Rupprecht / Andrea Vedaldi
原文:   [英文]  
备注: First two authors contributed equally. Project page: this https URL
摘要:
数据表示的选择是深度学习在几何任务中成功的关键因素。例如,DUSt3R最近引入了视点不变点图的概念,推广了深度预测,并展示了可以将静态场景的3D重建中的所有关键问题简化为预测这种点图。在本文中,我们为一个非常不同的问题,即可变形物体的3D形状和姿态重建,开发了一个类似的概念。为此,我们引入了双点图(DualPM),从同一图像中提取一对点图,一个将像素与物体上的3D位置关联,另一个将像素与物体在静止姿态下的规范版本关联。我们还将点图扩展到模态重建,通过自遮挡看到物体的完整形状。我们展示了3D重建和3D姿态估计可以简化为DualPMs的预测。我们通过实验证明,这种表示是深度网络预测的良好目标;具体来说,我们考虑了马的建模,展示了DualPMs可以纯粹基于3D合成数据进行训练,该数据由单一的马模型组成,同时很好地推广到真实图像。通过这种方法,我们在这种类型物体的3D分析和重建方面大幅度改进了之前的方法。

[115] UnZipLoRA:从单张图像中分离内容和风格
标题: UnZipLoRA: Separating Content and Style from a Single Image
作者: Chang Liu / Viraj Shah / Aiyu Cui / Svetlana Lazebnik
原文:   [英文]  
备注: Project page: this https URL
摘要:
本文介绍了UnZipLoRA,这是一种将图像分解为其组成部分——主体和风格的方法,并将其表示为两个不同的LoRA(低秩适应)。与现有的个性化技术不同,这些技术要么专注于主体或风格中的一个,要么需要为每个部分单独的训练集,UnZipLoRA通过同时训练两个LoRA,从单个图像中解开这些元素。UnZipLoRA确保生成的LoRA是兼容的,即它们可以通过直接相加无缝结合。UnZipLoRA使主体和风格的独立操作和重新语境化成为可能,包括生成每个部分的变体,将提取的风格应用于新的主体,并将它们重新组合以重建原始图像或创建新的变体。为了解决主体和风格纠缠的问题,UnZipLoRA采用了一种新颖的提示分离技术,以及列和块分离策略,以准确保留主体和风格的特征,并确保所学LoRA之间的兼容性。通过人类研究和定量指标的评估表明,与其他最先进的方法(包括DreamBooth-LoRA、Inspiration Tree和B-LoRA)相比,UnZipLoRA的效果更好。

[116] VisionZip:在视觉语言模型中,长更好但不是必要的
标题: VisionZip: Longer is Better but Not Necessary in Vision Language Models
作者: Senqiao Yang / Yukang Chen / Zhuotao Tian / Chengyao Wang / Jingyao Li / Bei Yu / Jiaya Jia
原文:   [英文]   [中文]  
备注: 2 columns, 28 pages, 15 figures, 18 tables
摘要:
最近在视觉-语言模型方面的进展通过增加视觉标记的长度提升了性能,使得它们比文本标记长得多,并显著提高了计算成本。然而,我们观察到流行的视觉编码器(如CLIP和SigLIP)生成的视觉标记中存在显著的冗余。为了解决这个问题,我们引入了VisionZip,这是一种简单而有效的方法,选择一组信息丰富的标记作为语言模型的输入,减少视觉标记的冗余,提高效率,同时保持模型性能。所提出的VisionZip可以广泛应用于图像和视频理解任务,并且非常适合在现实场景中的多轮对话中使用,而在这些场景中,之前的方法往往表现不佳。实验结果表明,VisionZip在几乎所有设置中都比之前的最先进方法至少提高了5%的性能。此外,我们的方法显著提高了模型推理速度,将预填充时间提高了8倍,使LLaVA-Next 13B模型的推理速度比LLaVA-Next 7B模型更快,同时取得更好的结果。此外,我们分析了这种冗余的原因,并鼓励社区关注提取更好的视觉特征,而不仅仅是增加标记长度。我们的代码可在此https URL获取。

[117] NVILA:高效前沿视觉语言模型
标题: NVILA: Efficient Frontier Visual Language Models
作者: Zhijian Liu / Ligeng Zhu / Baifeng Shi / Zhuoyang Zhang / Yuming Lou / Shang Yang / Haocheng Xi / Shiyi Cao / Yuxian Gu / Dacheng Li / Xiuyu Li / Yunhao Fang / Yukang Chen / Cheng-Yu Hsieh / De-An Huang / An-Chieh Cheng / Vishwesh Nath / Jinyi Hu / Sifei Liu / Ranjay Krishna / Daguang Xu / Xiaolong Wang / Pavlo Molchanov / Jan Kautz / Hongxu Yin / Song Han / Yao Lu
原文:   [英文]   [中文]  
备注: None
摘要:
近年来,视觉语言模型(VLMs)在准确性方面取得了显著进展。然而,其效率却很少受到关注。本文介绍了NVILA,这是一系列旨在优化效率和准确性的开放VLMs。基于VILA,我们首先通过扩大空间和时间分辨率,然后压缩视觉标记来改进其模型架构。这种“先扩展再压缩”的方法使NVILA能够高效处理高分辨率图像和长视频。我们还进行了系统的研究,以在NVILA的整个生命周期中,从训练和微调到部署,提升其效率。NVILA在许多图像和视频基准测试中匹配或超越了许多领先的开放和专有VLMs的准确性。同时,它将训练成本降低了4.5倍,微调内存使用减少了3.4倍,预填充延迟减少了1.6-2.2倍,解码延迟减少了1.2-2.8倍。我们将很快提供我们的代码和模型,以促进可重复性。

[118] QUEEN: 动态高斯的量化高效编码用于流媒体自由视点视频
标题: QUEEN: QUantized Efficient ENcoding of Dynamic Gaussians for Streaming Free-viewpoint Videos
作者: Sharath Girish / Tianye Li / Amrita Mazumdar / Abhinav Shrivastava / David Luebke / Shalini De Mello
原文:   [英文]   [中文]  
备注: Accepted at NeurIPS 2024, Project website: this https URL
摘要:
在线自由视点视频(FVV)流媒体是一个具有挑战性的问题,尚未得到充分研究。它需要对体积表示进行增量的实时更新,快速训练和渲染以满足实时约束,并且需要小的内存占用以实现高效传输。如果实现,它可以通过启用新的应用程序(例如3D视频会议和实时体积视频广播等)来增强用户体验。在这项工作中,我们提出了一种新颖的框架,用于使用3D高斯散点(3D-GS)进行自由视点视频流媒体的量化和高效编码(QUEEN)。QUEEN在每个时间步直接学习连续帧之间的高斯属性残差,而不对其施加任何结构约束,从而允许高质量的重建和广泛的适应性。为了高效存储残差,我们进一步提出了一个量化-稀疏框架,其中包含一个学习的潜在解码器,用于有效量化除高斯位置之外的属性残差,以及一个学习的门控模块,用于稀疏化位置残差。我们建议使用高斯视图空间梯度差向量作为信号来分离场景的静态和动态内容。它作为有效稀疏学习的指南并加速训练。在各种FVV基准测试中,QUEEN在所有指标上都优于最先进的在线FVV方法。值得注意的是,对于一些高度动态的场景,它将模型大小减少到每帧仅0.7 MB,同时在不到5秒内完成训练,并以350 FPS的速度渲染。项目网站在此https URL

[119] Turbo3D:超快速文本到3D生成
标题: Turbo3D: Ultra-fast Text-to-3D Generation
作者: Hanzhe Hu / Tianwei Yin / Fujun Luan / Yiwei Hu / Hao Tan / Zexiang Xu / Sai Bi / Shubham Tulsiani / Kai Zhang
原文:   [英文]   [中文]  
备注: project page: this https URL
摘要:
我们介绍了Turbo3D,这是一种超快速的文本到3D系统,能够在不到一秒的时间内生成高质量的高斯点云资产。Turbo3D采用了快速的4步、4视图扩散生成器和高效的前馈高斯重建器,两者都在潜在空间中运行。4步、4视图生成器是通过一种新颖的双教师方法蒸馏出的学生模型,该方法鼓励学生从多视图教师那里学习视图一致性,从单视图教师那里学习照片真实感。通过将高斯重建器的输入从像素空间转移到潜在空间,我们消除了额外的图像解码时间,并将变压器序列长度减半,以实现最大效率。我们的方法在运行时间仅为之前基线的一小部分的情况下,展示了优于之前基线的3D生成结果。

[120] PaintScene4D:基于文本提示的一致性4D场景生成
标题: PaintScene4D: Consistent 4D Scene Generation from Text Prompts
作者: Vinayak Gupta / Yunze Man / Yu-Xiong Wang
原文:   [英文]   [中文]  
备注: Project page: this https URL
摘要:
最近在扩散模型方面的进展已经彻底改变了2D和3D内容的创作,但生成逼真的动态4D场景仍然是一个重大挑战。现有的动态4D生成方法通常依赖于从预训练的3D生成模型中提取知识,且往往在合成对象数据集上进行微调。因此,生成的场景往往以对象为中心且缺乏逼真性。尽管文本到视频模型可以生成具有运动的更逼真的场景,但它们通常在空间理解方面存在困难,并且在渲染过程中对摄像机视点的控制有限。为了解决这些限制,我们提出了PaintScene4D,这是一种新颖的文本到4D场景生成框架,它不同于传统的多视图生成模型,采用了一种简化的架构,利用在多样的真实世界数据集上训练的视频生成模型。我们的方法首先使用视频生成模型生成参考视频,然后通过战略性摄像机阵列选择进行渲染。我们应用渐进式变形和修补技术,以确保多个视点之间的空间和时间一致性。最后,我们使用动态渲染器优化多视图图像,使得基于用户偏好的灵活摄像机控制成为可能。采用无训练架构,我们的PaintScene4D高效地生成了可以从任意轨迹观看的逼真4D场景。代码将公开发布。我们的项目页面在这个https URL。

[121] 随处立体:即使在立体或单目失败的情况下也能进行稳健的零样本深度立体匹配
标题: Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono Fail
作者: Luca Bartolomei / Fabio Tosi / Matteo Poggi / Stefano Mattoccia
原文:   [英文]   [中文]  
备注: Code: this https URL - Project page: this https URL
摘要:
我们介绍了Stereo Anywhere,这是一种新颖的立体匹配框架,它结合了几何约束和来自单目深度视觉基础模型(VFMs)的鲁棒先验。通过双分支架构巧妙地结合这些互补的领域,我们无缝地将立体匹配与学习到的上下文线索整合在一起。基于这一设计,我们的框架引入了新颖的代价体积融合机制,有效地处理了诸如无纹理区域、遮挡和非朗伯表面等关键挑战。通过我们新颖的光学错觉数据集MonoTrap,以及在多个基准上的广泛评估,我们证明了仅通过合成数据训练的模型在零样本泛化方面达到了最先进的结果,显著优于现有解决方案,同时在处理如镜子和透明物体等具有挑战性的情况时表现出显著的鲁棒性。