因为开源的原因,现在Stable Diffusion 不仅能够生成静态图像,甚至能够生成视频。这是因为在今年3月份,有人修改了底层代码,使得可以规定 AI 作图的一些参数,例如如果我画了一匹马,我可以再画一张马抬腿的图像,然后将每个马的腿都抬起来,合成为一个视频。这就是为什么现在国内外很多公司突然推出了 AI 视频的原因,因为它们都是基于 Stable Diffusion这个原理,只是可能在这个渠道上进行了一些优化。

此外,Stable Diffusion 现在更强大的一点是可以无中生有地建立 3D 模型,只要你能描述这个物体的各个角度,它就能够生成多个角度的2D图片,接着再利用多视角的2D图片生成3D图片。因此未来是可以无中生有的生成 3D 的。这意味着Stable Diffusion 已经成为了 AI 作图领域最强大的工具之一,其他的工具都是在其基础上进行迭代。

见智研究:开源的模型的优势和意义在哪?拓展插件对于模型起到什么作用?

杨晓峰:

模型一旦开源,全球顶尖的人才就可以使用它并做微调,他们可以贡献各种各样的素材包,使得模型使用效果更强大。因为Stable Diffusion开源,全球所有人都可以享受到这个 AI 作图的红利,大家都可以在上面进行修改或将其放到自己的服务器上。开源意味着这个软件的每一条代码都是公开的,可以下载到本地,而别人也无法对你进行操作。

当然,行业可能需要一些相对厉害的人才,才能将这个产品推向更高层次,修改底层代码,进一步提升产品水平。因此,开源对整个模型的进步速度非常快,可以想象,在 11 月和 12 月之前,大多数人的水平都比较低,但是因为开源,无数人在 1 月和 2 月份上传了数据包,3 月份修改了底层代码,这个产品的进展就非常快了。可以这样理解,开源把所有人的水平都提高了一个非常高的状态。

见智研究:模型开源很大程度加速了应用层面的落地?

杨晓峰:

Midjourney为什么会如此受欢迎呢?并不是因为它有技术上的优势,而是因为它更能够满足C端用户的需求。比如,我们都知道Stable Diffusion技术很好,产品性能也很好,但问题在于并非每个人的电脑都有如此高的显卡,同时,数据包越多并不一定意味着更好的体验,因为很多人更想要一些更加真实的、大气的效果,对吧?因此,很多产品都是在这个基础上针对C端用户的体验进行了优化。背后的技术可能需要使用Stable Diffusion等原创技术,或者出于成本考虑使用其他技术,但对于普通的C端用户,使用Midjourney基本上就足够了。

见智研究:AI是如何对游戏进行降本增效的?