2023年2月,南极熊获悉,GPU制造商Nvidia宣布推出Magic3D,这是一种生成式AI技术,可以根据文本提示生成3D模型。2022年11月,研究人员也基于此技术,发表了一篇题为《Magic3D: High-Resolution Text-to-3D Content Creation》的论文,这并不是第一篇有关生成式AI技术应用于3D打印的论文,2022年9月,来自谷歌的研究人员就以《DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION》为题发表了他们的研究内容,那么生成式AI技术是什么?这两个团队所研究的内容有何异同?3D打印生成式AI技术面临着哪些问题呢?
△Magic3D 渲染的箭毒蛙 3D 模型。
3D打印中的生成式AI技术
生成式AI(Generative AI 或 AIGC)是利用现有文本、音频文件或图像创建新内容的技术。应用场景涵盖图文创作、代码生成、游戏、广告、艺术平面设计等。未来,生成式AI将成为一项大众化的基础技术,极大的提高数字化内容的丰富度、创造性与生产效率,其应用边界也将随着技术得进步与成本的降低扩展到更多领域。用于3D建模的生成式AI有助于将具有复杂有机形状的组件概念化。3D打印能够制造这些复杂形态的理想技术,因为它具有生产复杂结构的能力,同时还具有成本效益。 年度3D打印行业调查的结果表明,使用AI自动生成3D模型是一个热门话题。
生成式AI在3D打印领域中的发展
△Magic3D相关论文
●Magic3D可以在40分钟内创建一个带有彩色纹理的3D网格模型。这是输入“一只坐在睡莲上的蓝色箭毒蛙”这样的提示之后出现的。根据获得的结果,经过改进,可以用于各种艺术场景或视频游戏。
△DreamFusion相关论文
●DreamFusion是谷歌研究人员于2022年9月发布的一篇关于“从文本到3D模型”的论文内容。
●Physna在两周内使用 8,000 个模型为 3D 模型和场景创建了生成式 AI 原型
Magic3D VS DreamFusion
在Nvidia的论文中,研究人员详细阐述了生成式AI技术如何让无需特殊培训的人即刻创建3D模型。他们表示,这种技术一旦进一步完善,可以加速视频游戏的开发,应用到电影和电视特效中。研究人员们希望借助Magic3D技术,使3D合成大众化,并在3D内容创作中展示每个人的创造力。
Nvidia在推进生成式AI方面处于有利地位。该公司的GPU可以使用着色器创建逼真的图形,着色器指示图像中的每个像素如何在特定光线下显示。着色器为每个像素计算,跨多个像素重复计算。与英特尔微处理器或通用CPU不同,Nvidia GPU 可以快速渲染图像,同时进行多个简单计算,例如着色像素。
●Magic3D 采用两阶段方法,采用低分辨率创建粗略模型,并将其优化为更高分辨率,这类似于DreamFusion使用文本到生成2D图像,然后优化为体积 NeRF数据。
●Magic3D 可以根据给定主题实例的输入图像,使用DreamBooth 微调扩散模型,并使用给定的提示优化 3D 模型。
△在给定主题下根据提示进行模型优化
总结一下,Nvidia的原理是利用从粗到精的两阶段优化框架来快速创建高质量的文本到 3D 内容。在第一阶段,使用低分辨率扩散先验获得粗略模型,并使用哈希网格和稀疏加速结构对其进行加速。在第二阶段,使用从粗神经表示初始化的纹理网格模型,允许使用与高分辨率潜在扩散模型交互的高效可微分渲染器进行优化。
△Magic3D的两阶段优化过程示意图
再来看看DreamFusion团队的技术:先使用一个预训练2D扩散模型基于文本提示生成一张二维图像,然后引入一个基于概率密度蒸馏的损失函数,通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。训练后的模型可以在任意角度、任意光照条件、任意三维环境中基于给定的文本提示生成模型,整个过程既不需要3D训练数据,也无需修改图像扩散模型,完全依赖预训练扩散模型作为先验。
相比较而言,Magic3D 可以根据输入文本提示创建高质量的 3D 纹理网格模型。它采用从粗到精的策略,利用低分辨率和高分辨率扩散先验来学习目标内容的 3D 表示。Magic3D 以比DreamFusion高8倍的分辨率合成3D模型,同时速度也快2倍。
生成式AI和3D打印:潜力巨大
Physna 的创始人兼首席执行官 Paul Powers 分享了他对生成式AI的看法,他表示生成式AI在2022年十分火热,因此该公司决定深入研究3D打印和生成式 AI 的结合。 虽然Physna是一家 3D 搜索和分析公司,专注于 AR/VR 和制造领域的工程和设计应用,但他的3名工程师仅使用 8,000 个模型在 2 周内就为 3D 模型和场景构建了一个非常基本的生成 AI 原型。
●Physna 的创始人兼首席执行官 Paul Powers解释了为什么要踏入生成式AI领域,他表示生成式AI已经席卷了许多行业,但在3D打印方面却刚刚起步。主要原因是复杂的3D模型和缺乏标记的3D 数据。3D模型通常很难创建,有多种不兼容的格式,并且与 2D 模型分析(文本、图像、视频等)相比很少受到关注。很少有企业适合专注于3D,它的研究难度很高。
●Google 的 DreamFusion 团队在他们的文章中表示:与2D数据相比,3D数据较少。Google 的 DreamFusion 团队使用 NeRF 的方式与 Nvidia 的 Magic3D 团队使用的方式相同。用户不仅掌握的对象信息更少,而且也很难对技术做出假设。虽然在 NeRFs 上训练可能比在 2D 模型上训练更有帮助,谷歌的 DreamFusion 团队指出,NeRFs 不能很好地替代真实的、带标签的 3D 模型。 也就是说,如果没有解决方案,在不久的将来,生成式 AI 在 3D 领域的表现将不会像在其他领域那样出色。 DreamFusion 团队进一步进行了一些实验,以校验生成人工智能与 3D 打印的兼容性。
GPU计算如何改进3D打印?
GPU计算需要使用 GPU(图形处理单元)作为协处理器来加速CPU的科学计算。通过卸载一些耗时和计算密集型代码,GPU 可以加速基于 CPU 的应用程序。应用程序的其余部分继续在 CPU 上运行。从用户的角度来看,应用程序运行速度更快,因为它利用 GPU 的并行处理能力来提高性能。这种类型的计算被称为“混合”或“异构”计算。CPU 通常有四到八个 CPU 内核,而 GPU 通常有数百个较小的内核。GPU 的高计算性能得益于其庞大的并行结构。
应用程序开发人员可以通过采用 NVIDIA 的“CUDA”并行编程模型利用并行 GPU 架构的性能。所有 NVIDIA GPU 都支持 NVIDIA CUDA 并行编程模型,包括GeForce、Quadro和Tesla。此前,Nvidia 推出了一种将2D 图像转换为 3D 模型的方法。该框架演示了如何以类似于肉眼工作方式的方式从单个图像推断形状、纹理和光线。Nvidia 公关专家Lauren Finkle在公司博客上写道:“看这个屏幕时请闭上左眼。现在闭上你的右眼并睁开你的左眼,你会发现你的视野会随着你使用的是哪只眼睛而变化。那是因为当我们看到二维空间时,视网膜捕捉到的图像被组合起来提供深度并产生三维感。”
NVIDIA 渲染框架,被称为基于可微分插值的渲染器或 DIB-R,可以协助和加速3D设计和机器人的不同领域,在几秒钟内渲染 3D 模型。根据 Finkle 的说法,我们所处的 3D 世界实际上是通过 2D 组成的,这被称为立体视觉。深度是通过合并通过每只眼睛看到的图像在大脑中创建的,给人以三维图像的印象。DIB-R 的工作原理与此类似,它可以通过将二维图像的输入转换为地图来预测图像的形状、颜色、纹理和光照。然后创建一个多边形球体,从而生成一个代表原始 2D 图像中组件的 3D 模型。
相关视频:
相关连接:
NVIDIA Magic3D项目地址:https://research.nvidia.com/labs/dir/magic3d/
NVIDIA Magic3D论文地址:https://doi.org/10.48550/arXiv.2211.10440
DreamFusion项目地址:https://dreamfusion3d.github.io/
DreamFusion论文地址:https://doi.org/10.48550/arXiv.2209.14988
|