比如在英伟达的生态系统内制作了一个非常漂亮的3D模型,但我们并不会考虑将其优化并放到Unity或虚幻引擎中运行,因为3D建模完成后必须将其放入游戏引擎中才能产生最佳效果。目前看来,这个领域仍在发展中,但是Luma已将其插件放入虚幻引擎和游戏引擎中,它的进展可能会更快。我们可以这样理解:目前这个模型并不十分开源,因此需要一些人工智能工程师才能更好地使用它。优点就是确实可以降低很大的成本,但是需要掌握一些相对高水平的技能。

见智研究:NeRF是否会替代原来的 3D 模型成为未来主流选择?

杨晓峰:

我认为大概率会实现,因为行业目前的最新进展是,就像我们刚才介绍的,2D照片可以生成3D模型。现在,行业最新的动态是可以直接进行修改,比如说我有一个自己的人物3D模型,我可以通过输入文本,将我的人物头像替换成马斯克的头像。这个技术已经相当成熟了。

最近,有一个海外的大一新生,对NeRF技术贡献了非常迅速的进展。将来,你可以通过文本修改3D模型,例如,你可以让它为你的模型加胡子或眼镜。这个功能看起来非常酷炫,也相当强大,但如果你了解其原理,你就会发现其实并不是那么难,只是以前没有人去优化。

现在大多数人使用模型进行嫁接,每个模型都有自己擅长的领域。例如,文本模型擅长处理文本输入和输出,Stable Diffusion擅长生成 2D 图像,而 NeRF 模型则擅长将 2D 图像转换为 3D 图像。

未来的发展趋势是将所有模型连接在一起,用户只需简单地表达意图,模型就能帮助实现任务。目前,NeRF 模型是最具潜力的模型之一,但其尚未达到引爆点。预计在未来的半年到一年内,NeRF 模型会大放异彩。

见智研究:Stable Diffusion模型的特点是?

杨晓峰:

我们刚才提到了 NERF 可以将 2D 照片转换成 3D 图片,而Stable Diffusion 本质上是一个文生图的工具。这个工具为什么会这么受欢迎?它目前的功能有多强大?

在去年的 11 月到 12 月之前,这个软件其实并没有什么热度,但突然间变得火爆起来。原因是有人上传了一个数据包,用户只需要输入想要的卡通或真人形象,就能迅速生成一个非常漂亮的图像,吸引了大量用户涌入。同时无数人也开始为其提供各种训练数据包,进一步丰富了其功能,现在不仅能画出二次元卡通和真人形象,还能画出 GTA5 的图像。

这个软件之所以能如此强大,因为市场上的无数用户都在为其提供训练数据包,使得模型能够生成各种精美图像。但是需要注意的是,这个软件需要较好的显卡,最好是 3090 或者更高的4090,因此对于普通消费者的用户体验可能一般。为此,有人专门用Stable Diffusion的建模开发了网页版,让用户不需要拥有好的电脑,就能在网页上使用。不过,这个服务需要付费,普通用户每月需要支付几十美元,企业用户则需要支付更高的费用。