5款AI生成3D模型产品盘点:究竟谁能引领3D游戏制作革命?
添加时间:2024-09-22 00:25:41
在游戏开发领域,美术部门时常会扮演项目中的“吞金兽”的角色。在2D的卡牌、3D的开放世界等这类重资产的游戏品类中,美术组成员时常会占据核心开发团队的70%以上。
AIGC的极大发展让我们看见了美术生产力革命的曙光。在原画、icon绘制等领域,不少游戏公司已经部分跑通了开发流程,实现了降本增效。但在更加昂贵的3D资产创建方面,AIGC的应用似乎还距离我们十分遥远。
造成这一现状的原因是多层次的。首先是大模型赖以为生的养料:训练集。在2D领域,高质量的图片资源相对丰富,如Getty Images、Shutterstock这类商业图库网站拥有的高质量图片的数量普遍在亿级。但优质3D模型的数量则要少得多。
此外,游戏领域对3D资产的要求更高。随着高成本、3A类的开发项目越来愈多,游戏资产向高写实化、高精度发展,而目前的3D生成算法还难以生成高精度的模型。此外,3D图形的解剖结构要更加复杂、风格更多样。假若AI生成的模型出现表面不全、细节涂抹、结构扭曲的问题,后期由人工介入修改所需的工时都会更多,这无疑为整体的研发和训练都带来极大的阻碍。
由于人类的解剖结构相对固定,且人类角色的占比在3D游戏中较高,围绕数字人的相关3D生成解决方案已经在市场上有所出现。较为出名的产品包括Epic的MetaHuman、Reallusion的Character Creator等,网易的AI Lab此前也针对亚洲人的脸模给出更符合中国市场的解决方案。这些现有产品或多或少都针对人类脸模进行参数化的先验,技术挑战相对可控。
而在更加开放式的“文生3D模型”(text-to-3D)领域,如Meta、Google、OpenAI等AI领域第一梯队的公司都曾发起挑战。而在2023年的如今,这些产品的现状又是如何?GameLook盘点了5款最具代表性的文生3D产品,带领各位读者快速了解这一赛道的发展状况。
在近期的抖音等短视频平台,一类炫酷的“穿越机”视频开始走红:视频中,摄影机以第一视角绕着各种现实场景或是转圈,或是穿梭而过。而这些视频多半使用的是Luma AI的AI生成式3D产品来制作。
用户只需通过iOS平台的APP拍摄一段清晰的视频,就可将2D的视频转化为3D场景,硬件要求和技术成本都极低。而如上图可见,Luma AI的生成整体观感较佳。无论是图像生成质量还是产品的整体使用体验,眼下的Luma AI都远远领先同侪,接近于商用水准。
在技术上,Luma AI使用了在3D生成领域十分热门的NeRF(神经辐射场)技术,这类技术允许使用者在原始图像素材较有限少的情况下,通过深度学习获得多视角的3D辐射场。GameLook此前等报道过的3D生成化身模型RODIN也在训练中使用了类似的技术。目前Luma AI支持网页与苹果APP版本,并在上周加入了虚幻引擎插件,支持将生成的3D资产导入虚幻引擎中使用。
尽管优点众多,但Luma AI的使用场景也较为有限。首先,Luma AI并非是一个严格的“生成式”产品,其在形态上更接近传统的摄影测量法(Photogrammetry),即通过实拍扫描的形式进行资产创建。尽管大幅降低了实拍所需的硬件需求,但依然仅能对输入的素材进行“按图索骥”式的3D模型重建,而无法发挥AI发散性生成的优势。
此外,摄影测量法所生成的是可在传统3D工作流中使用的3D模型,包含网格与纹理等组成部分,但NeRF所生成的产物是“辐射场”。球友会平台Luma AI允许用户将NeRF导入虚幻引擎中进行预览,但据反馈,用户无法对NeRF本身进行编辑,NeRF也无法对灯光等场景元素做出正常的反馈。
换而言之,Luma AI的3D生成效果较其它产品有明显优势,但如果希望NeRF线D美术工作流中落地,我们还差好几块关键拼图,包括工业软件的兼容性配合以及更多基础技术的发展。
DreamFusion是谷歌的研究人员在2022年9月公开的大模型,其特点在于其较早一批实现了“文生3D模型”的AI生成模式。
由于通过文字直接生成3D模型的困难程度较高,DreamFusion采用了借用2D图像中转的方式进行3D生成。具体来说,DreamFusion会根据文字prompt,使用一个预训练2D扩散模型生成一张2D图像、随后通过谷歌的分析模型CLIP将一个随机生成的NeRF模型与2D图像进行比对,根据比对结果进行最多20000次的优化,最终得到结果。
谷歌宣称,这一模型的优点在于并不依赖3D训练数据,实际预训练图像扩散模型的有效性。球友会平台但尽管如此,作为一个概念性的实验模型,DreamFusion的生成精度尚可,但动辄长达数十分钟的单个3D模型生成速度是限制其迈入商用的最大劣势。
Point-E是由OpenAI打造的文生3D模型,于2022年12月公开。GameLook此前曾对这一模型进行过专题报道。相较于其它的3D生成模型,Point-E将“高速生成”作为了其主打的卖点,其中字母“E”便是指“效率(Efficiency)”。
OpenAI声称,利用单张显卡,Point-E仅需几秒到几分钟就能产出一个3D模型。而英伟达的AI科学家Jim Fan在推特上表示,POINT-E的生成速度约能达到DreamFusion的600倍。
但相应的,Point-E在生成模型的精度上做出了不小的妥协。Point-E同样采用了以2D生成为中介的形式,利用扩散模型生成一个简单的点云,随后进行上采样,将其精细化拥有4000点的点云(point cloud)。GameLook在此前的测试中发现,以此方法生成的点云质量并不理想,且较容易出现比例扭曲的问题。
作为领跑AI领域的公司,尽管OpenAI拥有涵盖多模态的AIGC产品,但如ChatGPT这类文生文产品眼下风头正盛,无疑抢走了大量的曝光度。作为游戏领域的观察者,GameLook热切期待OpenAI继续对3D生成领域投资,以加速3D生产力革命的到来。
PIFuHD是一款较为早期的AI生成3D类产品,最早公开于2020年,由Meta的AR研发部门Reality Lab推出。这款产品采用的是机器学习技术,专注于3D的人体模型的创作,号称可仅凭一张图片重建3D的人体模型。
与前文所述的几款产品不同,PIFuHD生成的是可使用Blender等建模软件直接进行编辑的3D模型。相对来说,PIFuHD的生成质量尚可,尽管无法直接使用,但可被用作精细化建模的基础模型。
元宇宙的热潮虽然暂时消退,但其让不少厂商都意识到了虚拟化身(Avatar)的商业潜力,而PIFuHD可以被看作最早一批的虚拟化身生成应用。目前,如微软、影眸、Meta、Epic等国内外厂商都在加紧布局虚拟化身的AIGC生成。在“脱实向虚”的未来,AI虚拟人将会是大厂集中抢夺的重要赛道。
Magic3D是英伟达于2022年12月拿出的生成式3D解决方案,直接将谷歌的DreamFusion作为对标的对象。Magic3D采用了与DreamFusion类似的两阶段生成技术路线,但采用了不同的生成模型。
据英伟达的实验数据,Magic3D较DreamFusion的生成速度要快上2倍,生成的模型分辨率也更高。但生成单个模型所需的耗时依然在40分钟左右。
作为数字孪生、元宇宙、全真互联网领域的主要玩家,英伟达在2021年后开始广泛布局面向互联网下一阶段的生成式3D生产力技术和相应的云端基建。英伟达在今年3月的GTC 大会上公开了多项生成式AI基建服务,其中NVIDIA Picasso被定位为帮助用户生成图像、视频和3D内容的云服务。
目前尚不清楚英伟达是否在NVIDIA Picasso中采用了与Magic3D同款的技术,但据英伟达官方介绍,使用Picasso生成的资产可以直接导入3D工业软件和英伟达Omniverse,进行元宇宙、虚拟世界和游戏产品的开发。英伟达也给出了少量实际演示,使用Picasso生成的3D资产似乎已经可以胜任中等精度、小尺寸模型的3D开发。
相较于较早跑通的2D文生图技术,更复杂的3D模型的AIGC模型开发在算法、训练数据、算力上都有着较为明显的劣势。相关的基础研究尚且还未给我们指出一条较为明确的道路,待应用层出现实际应用价值更高的AI产品,恐怕还需数年的时间。
本文列举了五款知名度较高的AIGC生成3D类产品。而从实效上看,Luma AI与英伟达两家为我们给出了较有说服力的产品。其中Luma AI的产品更具有初创公司式的独特气质,而英伟达的Picasso则更具巨头风范,出手便瞄准AI基建领域。
眼下,从新晋创业公司到顶尖巨头都对AI生成3D内容有所布局,这势必将掀起多层次的深层竞争。如果说人们对ChatGPT为代表的文字类AIGC是否能够引发生产力革命心存疑虑,那么假如3D AIGC成功落地,势必会对人类社会的创作和娱乐生态引发革命性的变革。