![]() |
![]() |
学术巷子 | 来自全球的每日最新论文
自然语言处理 | 计算机视觉 | 机器人 |
cs.GR方向,2024年9月26日更新论文8篇
|
[1] GenCAD:基于图像条件的计算机辅助设计生成,采用基于Transformer的对比表示和扩散先验 标题: GenCAD: Image-Conditioned Computer-Aided Design Generation with Transformer-Based Contrastive Representation and Diffusion Priors 作者: Md Ferdous Alam / Faez Ahmed 原文: [英文] 备注: 24 pages, 13 figures 摘要: 通过计算机辅助设计(CAD)创建可制造和可编辑的3D形状仍然是一个高度手动且耗时的任务,这受到3D实体边界表示的复杂拓扑结构和不直观的设计工具的阻碍。本文介绍了GenCAD,这是一种生成模型,采用自回归变压器和潜在扩散模型,将图像输入转换为参数化的CAD命令序列,从而生成可编辑的3D形状表示。GenCAD结合了基于自回归变压器的架构和对比学习框架,增强了从输入图像生成CAD程序的能力,并为与工程设计相关的多种数据模态提供了表示学习框架。广泛的评估表明,GenCAD在生成3D形状的精度和可修改性方面显著优于现有的最先进方法。值得注意的是,GenCAD在长序列3D形状生成的准确性方面表现出显著改进,支持其在复杂设计任务中的应用。此外,GenCAD的对比嵌入特性有助于使用图像查询从数据库中检索CAD模型,这是CAD社区内的一个关键挑战。尽管3D形状生成文献中的大多数工作集中在网格、体素或点云等表示上,实际的工程应用需要可修改性和多模态条件生成的能力。我们的结果在这一方向上提供了重要的进展,突显了生成模型在加速整个设计到生产流程并无缝集成不同设计模态方面的潜力。 |
[2] LiDAR-3DGS:用于多模态辐射场渲染的LiDAR增强3D高斯点云 标题: LiDAR-3DGS: LiDAR Reinforced 3D Gaussian Splatting for Multimodal Radiance Field Rendering 作者: Hansol Lim / Hanbeom Chang / Jongseong Brad Choi / Chul Min Yeum 原文: [英文] 备注: None 摘要: 在本文中,我们探讨了多模态输入对基于3D高斯散点(3DGS)辐射场渲染的能力。我们提出了LiDAR-3DGS,这是一种通过LiDAR生成的点云来增强3DGS输入的新方法,以显著提高3D模型的准确性和细节。我们展示了一种系统的LiDAR增强3DGS的方法,使其能够捕捉到诸如螺栓、孔径和其他细节等重要特征,这些特征通常仅靠图像特征是无法捕捉到的。这些细节对于远程监控和维护等工程应用至关重要。在不修改基础3DGS算法的情况下,我们证明了即使是适度添加LiDAR生成的点云,也能显著提升模型的感知质量。在30k次迭代时,我们的方法生成的模型在PSNR上提高了7.064%,在SSIM上提高了0.565%。由于本研究中使用的LiDAR是常用的商用级设备,因此观察到的改进是适度的,并且可以通过更高等级的LiDAR系统进一步增强。此外,这些改进可以补充其他辐射场渲染的衍生工作,并为未来LiDAR和计算机视觉集成建模提供新的见解。 |
[3] Layout-Corrector:缓解离散扩散模型中的布局粘连现象 标题: Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model 作者: Shoma Iwai / Atsuki Osanai / Shunsuke Kitada / Shinichiro Omachi 原文: [英文] 备注: Accepted by ECCV2024, Project Page: https://iwa-shi.github.io/Layout-Corrector-Project-Page/ 摘要: 布局生成是一项通过合成具有类别、位置和大小等属性的元素来创建和谐布局的任务。人类设计师通过实验元素的放置和修改来创建美观的布局,然而,我们观察到当前的离散扩散模型(DDMs)在生成布局后难以纠正不和谐的布局。在本文中,我们首先提供了关于DDMs中布局粘滞现象的新见解,然后提出了一个简单但有效的布局评估模块Layout-Corrector,该模块与现有的DDMs结合使用,以解决布局粘滞问题。我们提出了一个基于学习的模块,能够在考虑复杂构图特征的整体布局和谐性的情况下,识别布局中的不和谐元素。在生成过程中,Layout-Corrector评估生成布局中每个标记的正确性,将得分低的标记重新初始化为未生成状态。然后,DDM使用高分标记作为线索重新生成和谐的标记。在常见基准测试中,Layout-Corrector与各种最先进的DDMs结合使用时,一贯提升了布局生成性能。此外,我们的广泛分析表明,Layout-Corrector(1)成功识别错误标记,(2)促进了对保真度-多样性权衡的控制,以及(3)显著减轻了与快速采样相关的性能下降。 |
[4] 评估多人类姿态和形状估计中(Procrustes)对齐的局限性 标题: Limitations of (Procrustes) Alignment in Assessing Multi-Person Human Pose and Shape Estimation 作者: Drazic Martin / Pierre Perrault 原文: [英文] 备注: None 摘要: 我们深入探讨了在视频监控场景中准确估计3D人体姿态和形状的挑战。首先,我们提倡使用W-MPJPE和W-PVE等指标,这些指标省略了(Procrustes)重对齐步骤,以改进模型评估。接着,我们介绍了RotAvat。这项技术旨在通过优化3D网格与地面平面的对齐来增强这些指标。通过定性比较,我们展示了RotAvat在解决现有方法局限性方面的有效性。 |
[5] 使用多视图扩散模型在高斯点云中生成对象插入 标题: Generative Object Insertion in Gaussian Splatting with a Multi-View Diffusion Model 作者: Hongliang Zhong / Can Wang / Jingbo Zhang / Jing Liao 原文: [英文] [中文] 备注: Project Page: https://github.com/JiuTongBro/MultiView_Inpaint 摘要: 在3D内容中生成和插入新对象是一种实现多功能场景重建的引人注目的方法。现有的方法依赖于SDS优化或单视图修补,通常难以产生高质量的结果。为了解决这个问题,我们提出了一种新的方法,用于在由高斯点表示的3D内容中插入对象。我们的方法引入了一种多视图扩散模型,称为MVInpainter,该模型基于预训练的稳定视频扩散模型,以促进视图一致的对象修补。在MVInpainter中,我们结合了一个基于ControlNet的条件注入模块,以实现受控和更可预测的多视图生成。在生成多视图修补结果后,我们进一步提出了一种基于掩码的3D重建技术,以从这些稀疏的修补视图中优化高斯点重建。通过利用这些先进技术,我们的方法产生了多样化的结果,确保视图一致和和谐的插入,并且生成了更高质量的对象。大量实验表明,我们的方法优于现有的方法。 |
[6] Go-SLAM:基于高斯散点SLAM的地面物体分割与定位 标题: Go-SLAM: Grounded Object Segmentation and Localization with Gaussian Splatting SLAM 作者: Phu Pham / Dipam Patel / Damon Conover / Aniket Bera 原文: [英文] [中文] 备注: None 摘要: 我们介绍了Go-SLAM,这是一种新颖的框架,利用3D高斯点云SLAM来重建动态环境,同时在场景表示中嵌入对象级信息。该框架采用先进的对象分割技术,为每个高斯点分配一个唯一标识符,对应其所代表的对象。因此,我们的系统支持开放词汇查询,允许用户使用自然语言描述来定位对象。此外,该框架还具有一个最优路径生成模块,能够计算机器人前往查询对象的高效导航路径,考虑到障碍物和环境不确定性。在各种场景设置中的综合评估表明,我们的方法在提供高保真场景重建、精确对象分割、灵活对象查询和高效机器人路径规划方面的有效性。这项工作代表了在弥合3D场景重建、语义对象理解和实时环境交互之间差距的又一步进展。 |
[7] Text2CAD:从初学者到专家级文本提示生成序列化CAD模型 标题: Text2CAD: Generating Sequential CAD Models from Beginner-to-Expert Level Text Prompts 作者: Mohammad Sadil Khan / Sankalp Sinha / Talha Uddin Sheikh / Didier Stricker / Sk Aziz Ali / Muhammad Zeshan Afzal 原文: [英文] [中文] 备注: Accepted in NeurIPS 2024 (Spotlight) 摘要: 在现代软件中,原型设计复杂的计算机辅助设计(CAD)模型可能非常耗时。这是由于缺乏能够快速生成更简单中间部件的智能系统。我们提出了Text2CAD,这是第一个使用对设计师友好的指令生成文本到参数化CAD模型的AI框架,适用于所有技能水平。此外,我们引入了一个数据注释管道,使用Mistral和LLaVA-NeXT为DeepCAD数据集生成基于自然语言指令的文本提示。该数据集包含约17万个模型和约66万个文本注释,从抽象的CAD描述(例如,生成两个同心圆柱体)到详细的规格说明(例如,绘制两个中心为$(x,y)$且半径为$r_{1}$和$r_{2}$的圆,并沿法线方向拉伸$d$...)。在Text2CAD框架内,我们提出了一个基于变压器的端到端自回归网络,从输入文本生成参数化CAD模型。我们通过一系列指标评估了我们模型的性能,包括视觉质量、参数精度和几何准确性。我们提出的框架在AI辅助设计应用中显示出巨大的潜力。我们的源代码和注释将公开可用。 |
[8] DreamWaltz-G:从骨架引导的二维扩散生成富有表现力的三维高斯化身 标题: DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion 作者: Yukun Huang / Jianan Wang / Ailing Zeng / Zheng-Jun Zha / Lei Zhang / Xihui Liu 原文: [英文] 备注: Project page: https://yukun-huang.github.io/DreamWaltz-G/ 摘要: 利用预训练的二维扩散模型和得分蒸馏采样(SDS),最近的方法在文本到三维头像生成方面显示了有希望的结果。然而,生成能够进行富有表现力动画的高质量三维头像仍然具有挑战性。在这项工作中,我们提出了DreamWaltz-G,这是一种从文本生成可动画三维头像的新型学习框架。该框架的核心在于骨架引导的得分蒸馏和混合三维高斯头像表示。具体来说,所提出的骨架引导得分蒸馏将三维人体模板中的骨架控制集成到二维扩散模型中,增强了SDS监督在视角和人体姿态方面的一致性。这有助于生成高质量的头像,缓解了多张脸、额外肢体和模糊等问题。所提出的混合三维高斯头像表示基于高效的三维高斯,结合了神经隐式场和参数化三维网格,实现了实时渲染、稳定的SDS优化和富有表现力的动画。大量实验表明,DreamWaltz-G在生成和动画三维头像方面非常有效,在视觉质量和动画表现力方面均优于现有方法。我们的框架还支持多种应用,包括人类视频再现和多主体场景合成。 |