KAIYUN中金基金侯明威:Sora的核心技术原理由三部分组成侯明威在节目上表示,应用端方面,Sora模型文字生成视频,对视频相关的领域影响最大。对于影视行业来说KAIYUN,肯定是有力的生产力工具,是很大的利好。
侯明威:我给大家介绍一下Sora模型的原理,主要是通过Open AI在官方官网发布了一个技术文档,里面从大的步骤方面进行了解析,具体技术细节并没有披露,但是对于技术核心的方向路径有明确的说明KAIYUN。
我给大家相对通俗一点解释,它由三大部分组成,第一大部分是视频的处理系统,将原始的训练素材就是原始视频KAIYUN,用视频压缩网络的处理系统先进行降维,再形成低位视频,再对这些低位视频进行提取出Patch,其中Patch这个东西,就是核心创新点,类似于在大语言模型里面的token,大家认为是比较基础的视频的处理的元素块。
第二部分就是语言的理解系统,大家在用户交互的时候是输入的是我们的自然语言。用户输入的可能是简单的提示词,但是Open AI会基于自己的之前做的ChatGPT这类大模型,将用户的简单的提示扩充为复杂的提示词,让模型去理解用户想要的画面是什么。
比如用户输入的是5个字,我在吃苹果,其就会扩大我是一个怎样的人,吃的是怎么样的,所处的环境是怎样的KAIYUN,他会给你进行扩充,细化需求,最后呈现生成更加具体的一些图像。
第三个就是将语言理解系统和视频处理系统两者进行反复的迭代堆叠,是需要进行规模化之后,形成这种大模型视频的大模型。
侯明威:不一样的KAIYUN,这里代表的是两种路径。之前的竞品,比如Runway和Pika这两个典型代表公司,选择的路径是diffusion模型架构,Sora之所以说取得很大突破,主要是它的架构与以前的路径不一样。
本身Open AI最擅长的事情就是大力出奇迹,之前的大语言模型的处理经验,放到视频领域了也一样适用,把图像画面训练的数据形成Patch之后,就能够像token一样去进行大量数据堆叠,迭代之后形成自己的大模型,它就能够在时间轴上一致性和连贯性远好于竞品。
侯明威:应用端也是我覆盖的方向,一方面Sora模型文字生成视频,肯定对视频相关的领域影响最大。对于影视行业来说,肯定是有力的生产力工具,是很大的利好。
AI技术视频的大提升,可以应用于影视制作传统流程里,包括前期的创意及剧本,到影视制作到后期的渲染,其中影视制作像特效渲染,后期这些在技术突破之后,都可以用来提高生产流程效率KAIYUN。
比如大家看流浪地球这种特效很多的大电影,以前制作的周期需要3-5年,如果等AI技术更加成熟之后,周期可以缩短至1-2年,是非常强大的生产工具。
第二个方向是短剧。因为视频时长提升至一分钟,所以AI技术在去年大家关注度非常高的短剧行业也会有应用。因为短剧单集时长也只有一分钟左右,如果Sora等工具成熟之后,一分钟生成的质量非常高,也能加快短剧的生产,以及让题材更多丰富。因为短剧行业的成本要求很高,要求低成本,所以AI技术的应用会让制作成本有效下降,同时甚至能提升效果。
第三个方向是游戏,其中涉及3D动画制作,市场上一些应用的案例确实已经很不错了。在里面,3D素材渲染,物理引擎,在视频大模型成熟之后也能够提升制作效率,对的研发效率的提升非常有帮助。