5款AI生成3D模型产品盘点：究竟谁能引领3D游戏制作革命？

添加时间：2024-09-22 00:25:41

　　在游戏开发领域，美术部门时常会扮演项目中的“吞金兽”的角色。在2D的卡牌、3D的开放世界等这类重资产的游戏品类中，美术组成员时常会占据核心开发团队的70%以上。

　　AIGC的极大发展让我们看见了美术生产力革命的曙光。在原画、icon绘制等领域，不少游戏公司已经部分跑通了开发流程，实现了降本增效。但在更加昂贵的3D资产创建方面，AIGC的应用似乎还距离我们十分遥远。

　　造成这一现状的原因是多层次的。首先是大模型赖以为生的养料：训练集。在2D领域，高质量的图片资源相对丰富，如Getty Images、Shutterstock这类商业图库网站拥有的高质量图片的数量普遍在亿级。但优质3D模型的数量则要少得多。

　　此外，游戏领域对3D资产的要求更高。随着高成本、3A类的开发项目越来愈多，游戏资产向高写实化、高精度发展，而目前的3D生成算法还难以生成高精度的模型。此外，3D图形的解剖结构要更加复杂、风格更多样。假若AI生成的模型出现表面不全、细节涂抹、结构扭曲的问题，后期由人工介入修改所需的工时都会更多，这无疑为整体的研发和训练都带来极大的阻碍。

　　由于人类的解剖结构相对固定，且人类角色的占比在3D游戏中较高，围绕数字人的相关3D生成解决方案已经在市场上有所出现。较为出名的产品包括Epic的MetaHuman、Reallusion的Character Creator等，网易的AI Lab此前也针对亚洲人的脸模给出更符合中国市场的解决方案。这些现有产品或多或少都针对人类脸模进行参数化的先验，技术挑战相对可控。

　　而在更加开放式的“文生3D模型”（text-to-3D）领域，如Meta、Google、OpenAI等AI领域第一梯队的公司都曾发起挑战。而在2023年的如今，这些产品的现状又是如何？GameLook盘点了5款最具代表性的文生3D产品，带领各位读者快速了解这一赛道的发展状况。

　　在近期的抖音等短视频平台，一类炫酷的“穿越机”视频开始走红：视频中，摄影机以第一视角绕着各种现实场景或是转圈，或是穿梭而过。而这些视频多半使用的是Luma AI的AI生成式3D产品来制作。

　　用户只需通过iOS平台的APP拍摄一段清晰的视频，就可将2D的视频转化为3D场景，硬件要求和技术成本都极低。而如上图可见，Luma AI的生成整体观感较佳。无论是图像生成质量还是产品的整体使用体验，眼下的Luma AI都远远领先同侪，接近于商用水准。

　　在技术上，Luma AI使用了在3D生成领域十分热门的NeRF（神经辐射场）技术，这类技术允许使用者在原始图像素材较有限少的情况下，通过深度学习获得多视角的3D辐射场。GameLook此前等报道过的3D生成化身模型RODIN也在训练中使用了类似的技术。目前Luma AI支持网页与苹果APP版本，并在上周加入了虚幻引擎插件，支持将生成的3D资产导入虚幻引擎中使用。

　　尽管优点众多，但Luma AI的使用场景也较为有限。首先，Luma AI并非是一个严格的“生成式”产品，其在形态上更接近传统的摄影测量法（Photogrammetry），即通过实拍扫描的形式进行资产创建。尽管大幅降低了实拍所需的硬件需求，但依然仅能对输入的素材进行“按图索骥”式的3D模型重建，而无法发挥AI发散性生成的优势。

　　此外，摄影测量法所生成的是可在传统3D工作流中使用的3D模型，包含网格与纹理等组成部分，但NeRF所生成的产物是“辐射场”。球友会平台Luma AI允许用户将NeRF导入虚幻引擎中进行预览，但据反馈，用户无法对NeRF本身进行编辑，NeRF也无法对灯光等场景元素做出正常的反馈。

　　换而言之，Luma AI的3D生成效果较其它产品有明显优势，但如果希望NeRF线D美术工作流中落地，我们还差好几块关键拼图，包括工业软件的兼容性配合以及更多基础技术的发展。

　　DreamFusion是谷歌的研究人员在2022年9月公开的大模型，其特点在于其较早一批实现了“文生3D模型”的AI生成模式。

　　由于通过文字直接生成3D模型的困难程度较高，DreamFusion采用了借用2D图像中转的方式进行3D生成。具体来说，DreamFusion会根据文字prompt，使用一个预训练2D扩散模型生成一张2D图像、随后通过谷歌的分析模型CLIP将一个随机生成的NeRF模型与2D图像进行比对，根据比对结果进行最多20000次的优化，最终得到结果。

　　谷歌宣称，这一模型的优点在于并不依赖3D训练数据，实际预训练图像扩散模型的有效性。球友会平台但尽管如此，作为一个概念性的实验模型，DreamFusion的生成精度尚可，但动辄长达数十分钟的单个3D模型生成速度是限制其迈入商用的最大劣势。

　　Point-E是由OpenAI打造的文生3D模型，于2022年12月公开。GameLook此前曾对这一模型进行过专题报道。相较于其它的3D生成模型，Point-E将“高速生成”作为了其主打的卖点，其中字母“E”便是指“效率（Efficiency）”。

　　OpenAI声称，利用单张显卡，Point-E仅需几秒到几分钟就能产出一个3D模型。而英伟达的AI科学家Jim Fan在推特上表示，POINT-E的生成速度约能达到DreamFusion的600倍。

　　但相应的，Point-E在生成模型的精度上做出了不小的妥协。Point-E同样采用了以2D生成为中介的形式，利用扩散模型生成一个简单的点云，随后进行上采样，将其精细化拥有4000点的点云（point cloud）。GameLook在此前的测试中发现，以此方法生成的点云质量并不理想，且较容易出现比例扭曲的问题。

　　作为领跑AI领域的公司，尽管OpenAI拥有涵盖多模态的AIGC产品，但如ChatGPT这类文生文产品眼下风头正盛，无疑抢走了大量的曝光度。作为游戏领域的观察者，GameLook热切期待OpenAI继续对3D生成领域投资，以加速3D生产力革命的到来。

　　PIFuHD是一款较为早期的AI生成3D类产品，最早公开于2020年，由Meta的AR研发部门Reality Lab推出。这款产品采用的是机器学习技术，专注于3D的人体模型的创作，号称可仅凭一张图片重建3D的人体模型。

　　与前文所述的几款产品不同，PIFuHD生成的是可使用Blender等建模软件直接进行编辑的3D模型。相对来说，PIFuHD的生成质量尚可，尽管无法直接使用，但可被用作精细化建模的基础模型。

　　元宇宙的热潮虽然暂时消退，但其让不少厂商都意识到了虚拟化身（Avatar）的商业潜力，而PIFuHD可以被看作最早一批的虚拟化身生成应用。目前，如微软、影眸、Meta、Epic等国内外厂商都在加紧布局虚拟化身的AIGC生成。在“脱实向虚”的未来，AI虚拟人将会是大厂集中抢夺的重要赛道。

　　Magic3D是英伟达于2022年12月拿出的生成式3D解决方案，直接将谷歌的DreamFusion作为对标的对象。Magic3D采用了与DreamFusion类似的两阶段生成技术路线，但采用了不同的生成模型。

　　据英伟达的实验数据，Magic3D较DreamFusion的生成速度要快上2倍，生成的模型分辨率也更高。但生成单个模型所需的耗时依然在40分钟左右。

　　作为数字孪生、元宇宙、全真互联网领域的主要玩家，英伟达在2021年后开始广泛布局面向互联网下一阶段的生成式3D生产力技术和相应的云端基建。英伟达在今年3月的GTC 大会上公开了多项生成式AI基建服务，其中NVIDIA Picasso被定位为帮助用户生成图像、视频和3D内容的云服务。

　　目前尚不清楚英伟达是否在NVIDIA Picasso中采用了与Magic3D同款的技术，但据英伟达官方介绍，使用Picasso生成的资产可以直接导入3D工业软件和英伟达Omniverse，进行元宇宙、虚拟世界和游戏产品的开发。英伟达也给出了少量实际演示，使用Picasso生成的3D资产似乎已经可以胜任中等精度、小尺寸模型的3D开发。

　　相较于较早跑通的2D文生图技术，更复杂的3D模型的AIGC模型开发在算法、训练数据、算力上都有着较为明显的劣势。相关的基础研究尚且还未给我们指出一条较为明确的道路，待应用层出现实际应用价值更高的AI产品，恐怕还需数年的时间。

　　本文列举了五款知名度较高的AIGC生成3D类产品。而从实效上看，Luma AI与英伟达两家为我们给出了较有说服力的产品。其中Luma AI的产品更具有初创公司式的独特气质，而英伟达的Picasso则更具巨头风范，出手便瞄准AI基建领域。

　　眼下，从新晋创业公司到顶尖巨头都对AI生成3D内容有所布局，这势必将掀起多层次的深层竞争。如果说人们对ChatGPT为代表的文字类AIGC是否能够引发生产力革命心存疑虑，那么假如3D AIGC成功落地，势必会对人类社会的创作和娱乐生态引发革命性的变革。

返回列表