欢迎访问黑料吃瓜网

10年专注吃瓜

吃瓜质量有保 售后7×24小时服务

24小时咨询热线:4006666666
联系我们
tel24小时咨询热线: 4006666666

手机:13999999999

电话:010-8888999

邮箱:[email protected]

地址:经济开发区高新产业园

您的位置:首页>>精品吃瓜>>正文

精品吃瓜

从Sora打开,全面解读AI视频大模型发展史

发布时间:2025-04-23 点此:583次

文 | 硅谷101

现代的从Sora展开,全面解读AI视频大模型发展史的照片

Sora,OpenAI的人工智能AI生成式视频大模型,在2024年2月15日一经发布,就引发了全球重视,硅谷AI视频论文作者(非Sora)这样点评:适当好,这是毋庸置疑的No.1。

Sora好在哪里?生成式AI视频的开展应战在哪里?OpenAI的视频模型必定是正确的道路吗?所谓的“国际模型”到达一致了吗?这期视频,咱们经过与硅谷一线AI从业人员的采访,深度聊聊生成式AI视频大模型的不同派系开展史,咱们的争议和未来道路。

AI生成视频这个题咱们其实上一年就想做了,由于其时跟许多人谈天,包含跟VC投资人聊的时分,发现其实咱们对AI视频模型和ChatGPT这种大言语模型的差异并不是很清楚。可是为啥没做呢,由于在上一年年末,商场中做得最好的也便是runway这家公司旗下的Gen1和Gen2两种视频生成视频以及文字生成视频的功用,但咱们生成出来的作用... 有点一言难尽。

比方说,咱们用runway生成的一个视频,prompt提示词是”super mario walking in a desert”(超级马里奥散步于沙漠中),成果出来的视频是这样的:

怎样看怎样像马里奥跳动在月球上。不管是重力仍是摩擦力,物理学在这段视频里如同忽然不复存在。

然后咱们测验了别的一个提示词,“A group of people walking down a street at night with umbrellas on the windows of stores.”(雨夜的大街上,一群人走在商铺窗户檐的伞下)这段提示词也是一个投资人Garrio Harrison测验过的,成果出来的视频,是这样的:

你看这空中漂浮的雨伞,是不是很怪异... 但这现已是上一年代表着最抢先技能的runway了。之后华人创始人Demi Guo创立的Pika Labs火了一阵,被以为比runway作用稍好一些,但依然受制于3-4秒的长度显现,而且生成的视频依然存在视频了解逻辑、手部构图等缺陷问题。

所以,在OpenAI发布Sora模型之前,生成式AI视频模型并没有像ChatGPT、Midjourney这样的谈天和文生图运用相同引发全球重视,很大原因便是由于生成视频的技能难度十分高,视频是二维空间+时刻,从静态到动态,从平面到纷歧起刻片段下的平面显现出的立体作用,不光需求强壮的算法和算力,还需求处理一致性、连接性、物理合理性、逻辑合理性等等一系列的杂乱问题。

所以,生成式视频大模型这个选题,一向都在咱们硅谷101的选题单上,但一向拖着没做,想等生成式AI视频模型有一个重大打破的时分,咱们再来做这个选题,成果没想到,这么快,这个时刻,就来了。

生成式AI视频的ChatGPT时刻?

Sora的展现,毫无疑问是吊打此前的runway和pika labs的。

首要,最大的打破之一,很直观的便是:生成视频长度大大的延伸了。之前,runway和pika都只能生成出3-4秒的视频,太短了,所以之前能出圈的AI视频著作,就只有一些快节奏的电影预告片,由于其它需求长一些资料的用处底子无法被满意。

而在runway和pika上,假如需求更长的视频,你就需求自己不断提示叠加视频时长,但咱们视频后期编排师Jacob就发现,这会呈现一个大问题。

Jacob,硅谷101视频后期编排师:

痛点便是你在不断往后延伸的时分,它后边的视频会呈现变形,就会导致前后视频画面的纷歧致,那这段资料就用不了了。

而Sora最新展现的论文和demo中表明,可以依据提示词,直接生成1分钟左右的视频场景。与此一起,Sora会统筹视频中人物场景的改换以及主题的一致性。这让咱们的编排师看了之后,也直呼振奋。

Jacob,硅谷101视频后期编排师:

(Sora)其中有一个视频是一个女孩走在东京的街头... 对我来说,这个是很厉害的。所以,就算在视频动态的运动情况下,跟着空间的移动和旋转,Sora视频中呈现的人物和物领会坚持场景一致性的移动。

第三,Sora可以接受视频,图画或提示词作为输入,模型会依据用户的输入来生成视频,比方,发布出demo中的一朵爆开的云。这意味着,Sora模型可以依据静态图画来制造动画,做到在时刻上向前或许向后来扩展视频。

第四,Sora可以读取不同的不管是宽屏仍是笔直视频、进行采样,也可以依据同一个视频去输出不同尺度的视频,而且坚持风格安稳,比方说这个小海龟的样片。这其实对咱们视频后期的协助是十分大的,现在Youtube和B站等1920*1080p横屏视频,咱们需求从头剪成笔直1080*1920的视频来适配抖音和Tiktok等短视频渠道,但可以幻想,之后或许就能经过Sora一键AI转化,这也是我很等待的功用。

第五,远距离相干性和时刻连接性更强了。此前,AI生成视频有个很大的困难,便是时刻的连接性,但Sora能很好的记住视频中的人和物体,即便被暂时挡住或移出画面,之后再呈现的时分也能依照物理逻辑地让视频坚持连接性。比方说Sora发布的这个小狗的视频,当人们走过它,画面被彻底挡住,再呈现它的时分,它也能自然地继续运动,坚持时刻和物体的连接。

第六,Sora模型现已可以简略地模仿国际状况的动作。比方说,画家在画布上留下新的笔触,这些笔触会跟着时刻的推移而继续存在,或许一个人吃汉堡的时分会留下汉堡上的咬痕。有比较达观的解读以为,这意味着模型具有了必定的通识才能、能“了解”运动中的物理国际,也可以猜想到画面的下一步会发生什么。

因而,以上这几点Sora模型带来的震慑更新,极大地提高了外界对生成式AI视频开展的等待和振奋值,尽管Sora也会呈现一些逻辑过错,比方说猫呈现三只爪子,街景中有不契合惯例的障碍物,人在跑步机上的方向反了等等,但显着,比起之前的生成视频,无轮是runway仍是pika仍是谷歌的videopoet,Sora都是必定的抢先者,而更重要的是,OpenAI好像经过Sora想证明,堆算力堆参数的“大力出奇观”方法也可以适用到生成式视频上来,而且经过分散模型和大言语模型的整合,这样的模型新道路,来构成所谓的“国际模型”的根底,而这些观念,也在AI届引发了极大的争议和评论。

接下来,咱们就来企图回忆一下生成式AI大模型的技能开展之路,以及企图解析一下,Sora的模型是怎样运作的,它究竟是不是所谓的“国际模型”?

分散模型技能道路: Google Imagen,Runway,Pika Labs

AI生成视频的前期阶段,首要依赖于GAN(生成式对立网络)和VAE(变分自编码器)这两种模型。可是,这两种方法生成的视频内容相对受限,相对的单一和静态,而且分辨率往往不太行,彻底没方法进行商用。所以这两种模型咱们就先不讲了哈。

之后,AI生成视频就演化成了两种技能道路,一种是专门用于视频范畴的分散模型,一种则是Transformer模型。咱们先来说说分散模型的道路,跑出来的公司就有Runway和Pika Labs等等。

什么是分散模型?

分散模型的英文是Diffusion Model。许多人不知道,现在最重要的开源模型Stable Diffusion的原始模型便是由Runway和慕尼黑大学团队一同发布的,而Stable Diffusion自身也是Runway中心产品—视频修改器Gen-1和Gen-2背面的底层技能根底。

Gen-1模型在2023年2月发布,答应咱们经过输入文本或图画,改动原视频的视觉风格,例如将手机拍照的实际街景变成赛博国际。而在6月,runway发布Gen-2,更近一步能将用户输入的文本提示直接生成为视频。

分散模型的原理,咱们一听这个姓名“分散模型”,就能略微get到:是经过逐步分散来生成图画或视频。为了更好的给咱们解说模型原理,咱们约请到了之前Meta Make-A-Video模型的论文作者之一、现在在亚马逊AGI团队从事视频生成模型的张宋扬博士来给咱们做一个解说。

张宋扬博士,Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队运用科学家:

之所以最开端这篇论文之所以用分散这个姓名,是源于一个物理现象,便是说比方说咱们把墨水滴到一杯水里边去,墨水它会散开,这个东西叫分散。这个进程自身物理上是不可逆的,可是咱们AI可以学习这么一个进程,把这个进程给逆过来。它类比到图片里边来说,便是一个图片,它是不断加噪声不断加噪声,然后它会变成一个类似于马赛克这样的一个作用。它是一个纯噪声的一张图片。然后咱们学习怎样把这个噪点变成一张原始的图片。

咱们练习这么样的一个模型,直接去一步完结的话,这个或许会很难,它分红了许多步,比方我分红1000步,比方说我加一点点噪声,它可以复原出去噪声后是什么姿态,然后噪声加得比较多的时分,我该怎样去用这个模型怎样去猜想噪声?便是它分了许多步,然后逐步地去把这噪声渐渐地去掉,它迭代式地把这个噪声渐渐给去掉。比方说原来是一个水跟墨现已彻底混合在一同了,你想方法怎样去猜想它,一步一步它怎样再变回之前的那一滴墨水的姿态。便是它是一个分散的一个逆进程。

张宋扬博士解说得很形象,分散模型的中心思维是经过不断地向原始噪声引进随机性,逐步生成传神的图画或视频。在而这个进程分红了四步:

1)初始化:分散模型开端于一个随机的噪声图画或视频帧作为初始输入。

2)分散进程(也被称为前向进程forward process):分散进程的方针是让图片变得不明晰,终究变成彻底的噪声。

3)反向进程(reverse process,又被称为backward diffusion):这时分咱们会引进“神经网络”,比方说依据卷积神经网络(CNN)的UNet结构,在每个时刻步猜想“要到达现在这一帧含糊的图画,所增加的噪声”,然后经过去除这种噪声来生成下一帧图画,以此来构成图画的传神内容。

4)重复进程:重复上述进程直到到达所需的生成图画或视频的长度。

以上是video to video或许是picture to video的生成方法,也是runway Gen1的大约底层技能运转方法。假如是要到达输入提示词来到达text to video,那么就要多加几个进程。

比方说咱们拿谷歌在2022年中旬发布的Imagen模型来举例:咱们的提示词是a boy is riding on the Rocket,骑着火箭的男孩。这段提示词会被转化为tokens(符号)并传递给编码器text encoder。谷歌 IMAGEN模型接着用T5-XXL LLM编码器将输入文本编码为嵌入(embeddings)。这些嵌入代表着咱们的文本提示词,可是以机器可以了解的方法进行编码。

之后这些“嵌入文本”会被传递给一个图画生成器image generator,这个图画生成器会生成64x64分辨率的低分辨率图画。之后,IMAGEN模型运用超分辨率分散模型,将图画从64x64升级到256x256,然后再加一层超分辨率分散模型,终究生成与咱们的文本提示紧密结合的 1024x1024 高质量图画。

简略总结来说,在这个进程中,分散模型从随机噪声图画开端,在去噪进程中运用编码文本来生成高质量图画。

分散模型优劣势

而生成视频为什么要比生成图片困难这么多?

细腻的从Sora展开,全面解读AI视频大模型发展史的插图

张宋扬博士,Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队运用科学家:

它的原理实际上仍是相同的,只不过仅有一个差异便是多了一个时刻轴。便是刚刚咱们说的图片,它是一个2D的,它是高度跟宽度。然后视频它多一个时刻轴,它便是一个3D的,它便是高度、宽度还有一个时刻。然后它在学习这个分散的逆进程的进程傍边,便是适当于曾经是一个2D的逆进程,现在变成一个3D的逆进程,便是这么一个差异。

所以说图片上的存在的问题,比方说像这些生成的人脸它是不是实在啊?那咱们假如图片存在这样的问题,咱们视频也相同会存在这样的问题。关于视频来说,它有一些它有些共同的一些问题,就比方说方才像你说的这个画面的主体是不是坚持一致的?我觉得现在关于像景色这样的,其实作用都还可以,然后可是假如涉及到人的话,由于人的这些要求或许会更精密,所以说人的难度会更高,这是一个问题。然后还有一个现在的难点,我觉得也是咱们都在尽力的一个方向,便是怎样把视频变得更长。由于现在来说的话,只生成2秒、3秒、4秒这样的视频,其实远远满意不了现在的运用场景。

分散模型比起之前的GAN等模型来说,有三个首要的长处:

榜首,安稳性:练习进程一般愈加安稳,不简略堕入方法溃散或方法陷落等问题。

第二,生成图画质量: 分散模型可以生成高质量的图画或视频,特别是在练习充沛的情况下,生成成果一般比较传神。

第三,无需特定架构: 分散模型不依赖于特定的网络结构,兼容性好,许多不同类型的神经网络都可以拿来用。

可是,分散模型也有两大首要缺陷,包含:

首要,练习本钱高:与一些其他生成模型比较,分散模型的练习或许会比较贵重,由于它需求在不同噪声程度的情况下学习去燥,需求练习的时刻更久。

其次,生成花费的时刻更多。由于生成时需求逐步去燥生成图画或视频,而不是一次性地生成整个样本。

张宋扬博士,Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队运用科学家:

便是咱们其完成在无法生生长的视频一个很重要原因便是,咱们的显存是有限的。生成一张图片或许占用一部分的显存,然后你假如生成16张图片,就或许差不多把这显存给占满了。当你需求生成更多张图片的时分,你就得想方法怎样去,既考虑之前现已生成的这些信息,然后再去猜想后边该生成什么样的信息。它首要在模型上面就提了一个更高的要求,当然算力上面也是一个问题,便是获取过许多年之后,咱们的显存会十分的大,或许咱们也就不存在这样的问题了,也是有或许的,可是就现在来说,当下咱们是需求一个更好的一个算法,可是假如有更好硬件或许这个问题就不存在。

所以,这注定了现在的视频分散模型自身或许不是最好的算法,尽管runway和PikaLabs等代表公司一向在优化算法。

咱们接下来,聊聊别的一个派系:依据Transformer架构的大言语模型生成视频技能道路。

大言语模型生成视频技能道路(VideoPoet)

终究,谷歌在2023年12月底发布了依据大言语模型的生成式AI视频模型VideoPoet,这在其时被视为生成视频范畴中,分散模型之外的别的一种解法和出路。它是这么个原理呢?大言语模型怎样生成视频?

大言语模型生成视频是经过了解视频内容的时刻和空间联络来完成的。谷歌的VideoPoet是一个运用大言语模型来生成视频的比方。这个时分,让咱们再次请出生成式AI科学家张宋扬博士,来给咱们做一个生动的解说。

张宋扬博士,Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队运用科学家:

然后大言语模型这个东西,原理上彻底不相同,它最一开端是用在文本上面,用在文本上面便是说我猜想下一个单词是什么,就比方说“我爱说真话”,然后终究一个“我爱说实”,然后终究一个字是什么?你猜是什么字?然后或许你给的这些前面的字越多,你或许越简略猜到后边。可是假如你给的字比较少,你或许发挥空间会更多,它是这么样一个进程。

然后这个思路带到了视频傍边,那便是咱们可以学一个图片的词汇,或许说是视频的词汇。便是说咱们可以把图片横着切,比方说横着切16刀,竖着切16刀,然后把每一个小方块、小格子当成一个词,然后把它输到这个大言语模型傍边,让他们学习。比方说之前你现已有一个很好的一个大言语模型了,然后你去学习怎样大言语模型的这些词跟这些文本的词或许视频的词进行一个交互,它们之间的进行一个相关,是一个什么样的相关?你去学一些这个东西,然后这样的话,咱们就可以运用这些大言语模型,让它可以去做一些视频的使命,或许是文本的一些使命。

简略来说,依据大言语模型的Videopoet是这样运作的:

1)输入和了解:首要Videopoet接纳文本,声响,图片,深度图,光流图,或许有待修改的视频作为输入。

2)视频和声响的编码:由于文本天然便是离散的方法,大言语模型自可是然就要求输入和输出有必要是离散的特征。可是视频和声响是接连量,为了让大言语模型也能让图片,视频或许声响作为输入和输出,这儿Videopoet将视频和声响编码成离散的token。在深度学习中,token是一个十分重要的概念, 它是指一组符号或标识符,用于表明一组数据或信息中的一个特定元素。在Videopoet的比方中,浅显一点可以了解成视频的单词和声响的单词。

3)模型练习和内容生成:有了这些Token词汇,就可以依据用户给的输入,像学习文本token那样,练习一个Transformer去学习逐一猜想视频的token,模型就会开端生成内容。关于视频生成,这意味着模型需求创立连接的帧序列,这些帧不仅在视觉上契合逻辑,还要在时刻上坚持接连性。

4)优化和微调:生成的视频或许需求进一步的优化和微调,以保证质量和连接性。这或许包含调整色彩、光照和帧之间的过渡等。VideoPoet运用深度学习技能来优化生成的视频,保证它们既契合文本描绘,又在视觉上吸引人。

5)输出: 终究,生成的视频会被输出,供终究用户观看。

可是,大言语模型生成视频的道路,也是长处和缺陷并存的。

大言语模型生成视频优劣势

先来说说长处:

1)高度了解才能: 依据Transformer架构的大言语模型可以处理和了解许多的数据,包含杂乱的文本和图画信息。这使得模型能具有跨模态的了解和生成才能,可以很好学到文本和图片视频不同模态之间相关的才能。这使得它们在将文本描绘转化成视频内容时,可以生成更精确和相关的输出。

2)处理长序列数据: 由于自注意力机制,Transformer模型特别拿手处理长序列数据,这关于视频生成特别重要,由于视频实质上是长序列的视觉表明。

3)Transformer的可扩展性:一般来说模型越大,拟合的才能就越强。但当模型大到必定程度时,卷积神经网络功用受模型增大带来的增益会放缓乃至中止,而Transformer仍能继续增长。Transformer在大言语模型现已证明了这一点,现在在图片视频生成这一范畴也逐步锋芒毕露。

再来说说缺陷:

1)资源密集型:用大言语模型生成视频,特别是高质量视频,需求许多的核算资源,由于用大言语模型的道路是将视频编码成token,往往会比一句话乃至一段话的词汇量要大的多,一起,假如一个一个的去猜想,会让时刻的开支十分大。也便是说,这或许使得Transformer模型的练习和推理进程变得贵重和时刻耗费大。

张宋扬博士,Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队运用科学家:

有一个问题我觉得挺实质的,便是transformer它不够快,这个是很实质的一个问题,由于transformer它一个小方块一个小方块地猜想,分散模型直接一张图就出来了,所以transformer必定会比较慢的。

陈茜,硅谷101视频主办人:

太慢了有一个具象的一个数据吗?便是能慢多少?

张宋扬博士,Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队运用科学家:

就比方说我直接出一张图,diffusion比方出一张图便是1,它也需求一些迭代进程。然后比方说我用四步,它便是四步去生成出来,咱便是4。现在现在做得好的话,四步我看有做的作用仍是不错的。然后可是你要是用transformer的话,比方说你画16*16的方格,那便是16*16,那就等于256了,便是那个速度。

4是适当于我做去噪迭代了四次。然后transformer的话,它是适当于我去猜想一张图片,比方说是16*16的话,我就猜想256个词。他们的量纲必定不相同,可是他们的杂乱度你是可以看出来的。便是diffusion模型,它的杂乱度是一个常数集。可是transformer的那个杂乱度,它实际上是一个宽度x高度,杂乱度会不相同。所以说从杂乱度视点来说,必定是分散模型会更优一些。然后具体我觉得这东西或许你假如是图片越大的话,分辨率越高的话,transformer的问题或许会越大。

Transformer模型的别的一些问题还包含:

清晰的从Sora展开,全面解读AI视频大模型发展史的图像

2)质量动摇:尽管Transformer模型可以生成创造性的视频内容,但输出的质量或许不安稳,特别是关于杂乱的或未充沛练习的模型。

3)数据依赖性:Transformer模型的功用在很大程度上取决于练习数据的质量和多样性。假如练习数据有限或有误差,生成的视频或许无法精确反映输入的目的或在多样性上存在约束。

4)了解和逻辑约束:尽管Transformer模型在了解文本和图画内容方面取得了前进,但它们或许依然难以彻底掌握杂乱的人类情感、诙谐或纤细的社会文化信号,这或许会影响生成视频的相关性和吸引力。

5)品德和成见问题: 主动视频生成技能或许会无意中仿制或扩大练习数据中的成见,导致品德问题。

不过说到第五点,我忽然想起来最近的这么一个新闻,说谷歌的多模态大模型Gemini中,不管你输入什么人,出来的都是有色人种,包含美国开国元勋,黑人女人版别的教皇,维京人也是有色人种,生成的Elon Musk也是黑人。

这背面的原因或许是谷歌为了更正Transformer架构中的成见,给加入了AI品德和安全方面的调整指令,成果调过头了,出了这个大乌龙。不过这个作业发生在OpenAI发布了Sora之后,的确又让谷歌被群嘲了一番。

不过,业界人士也指出,以上的这五点问题也不是transformer架构所独有的,现在何生成模型都或许存在这些问题,仅仅不同模型在不同方向的优劣势稍有不同。

所以,到这儿总结一下,分散模型和Transformer模型生成视频都有不甚令人满意的当地,那么,身为技能最为前沿的公司OpenAI他们是怎样做的呢?诶,或许你猜到了,这两模型各有千秋,我把它们结合在一同,会不会1+1>2呢?所以,Sora,也便是分散模型和Transformer模型的结合。

Sora的分散+大言语模型:1+1>2?

说真话,现在外界对Sora的细节仍是不知道的,现在也没有对大众敞开,连waitinglit都没有敞开,只约请了业界和规划界的极少数人来运用,产出的视频也在网上都揭露了。关于技能,更多是依据OpenAI给出的作用视频的猜想和剖析。OpenAI在发布Sora当天给出了一个比较含糊的技能解说,但中心许多技能细节是缺失的。

咱们先从Sora揭露的这篇技能解析,来看看OpenAI的分散+大言语模型技能道路是怎样操作的。

Sora在最初就说得很清楚:OpenAI在可变继续时刻、分辨率和宽高比的视频和图画上“联合练习文本条件分散模型”(text-conditional diffusion models)。一起,运用对视频和图画潜在代码的时空补丁(spacetime patches)进行操作的Transformer架构。

所以,Sora模型的生成的进程包含:

榜首步:视频压缩网络

在依据大言语模型的视频生成技能中,咱们说到过把视频编码成一个一个离散的token,这儿Sora也采用了相同的主意。视频是一个三维的输入(两维空间+一维时刻),这儿将视频在三维空间中均分红一个一个小的token,被OpenAI称为“时空补丁”(spacetime patches)。

第二步:文本了解

由于Sora有OpenAI文生图模型DALLE3的加持,可以将许多没有文本标示的视频主动进行标示,并用于视频生成的练习。一起由于有GPT的加持,可以将用户的输入扩写成愈加具体的描绘,使得生成的视频取得愈加贴合用户的输入,而且transformer结构能协助Sora模型更有效地学习和提取特征,获取和了解许多的细节信息,增强模型对未见过数据的泛化才能。

比方说,你输入“一个卡通袋鼠在跳disco”,GPT会协助联想说,得在迪厅,带个墨镜,穿个花衬衫,灯火闪烁,背面还有一堆各种动物,在一同蹦跶,等等等等来发挥联想才能解说输入的prompt。所以,GPT能打开的解说和细节丰厚程度,将会决议Sora生成得有多好。而GPT模型便是OpenAI自家的,不像其它AI视频startup公司需求调用GPT模型,OpenAI给Sora的GPT架构的调取功率和深广度,必定是最高的,这或许也是为什么Sora会在语义了解上做得更好。

第三步:Diffusion Transformer成像

Sora采用了Diffusion和Transformer结合的方法。

之前咱们在依据大言语模型的视频生成技能中说到过Transformer具有较好的可拓展性。意思便是说Transformer的结构会跟着模型的增大,作用会越来越好。这一特性并不是一切模型都具有的。比方当模型大到必定程度时,卷积神经网络功用受模型增大带来的增益会放缓乃至中止,而Transformer仍能继续增长。

许多人会注意到,Sora在坚持画面物体的安稳性、一致性、画面旋转等等,都表现出安稳的才能,远超runway,Pika,Stable Video等依据Diffusion模型所呈现的视频模型。

还记得咱们在说分散模型的时分也说道:视频生成的应战在于生成物体的安稳性一致性。这是由于,尽管Diffusion是视频生成技能的干流,但之前的作业一向限制在依据卷积神经网络的结构,并没有发挥出Diffusion悉数潜力,而Sora很奇妙的结合了Diffusion和Transformer这两者的优势,让视频生成技能取得了更大的提高。

更深一步说,Sora生成的视频接连性或许是经过Transformer Self- Attention自注意力机制取得的。Sora可以将时刻离散化,然后经过自注意力机制了解前后时刻线的联络。而自注意力机制的原理便是每个时刻点和其他一切时刻点发生联络,这是Diffusion Model所不具有的。

现在外界有一些观念猜想,在咱们之前说到的分散模型的第三进程中,Sora挑选将U-Net架构替换成了Transformer架构。这让Diffusion分散模型作为一个画师开端逆分散、画画的时分,在消除噪音的进程中,能依据关键词特征值对应的或许性概率,在OpenAI海量的数据库中,找到更恰当的部分,来进行着笔。

我在采访另一位AI从业者的时分,他用了别的一个生动的比方解说这儿的差异。他说:“分散模型猜想的是噪音,从某个时刻点的画面,减去猜想的噪音,得到的便是最原始没有噪音的画面,也便是终究生成的画面。这儿更像是雕塑,就像米开朗基罗说的,他仅仅遵循天主的旨意将石料上不应该存在的部分去掉,终究他才从中创造出巨大的雕塑著作。而Transformer经过自注意力机制,了解时刻线之间的相关,让这尊雕塑从石座上走了下来。”是不是还挺形象的?

终究,Sora的Transformer+Diffusion Model将时空补丁生成图片,然后图片再拼接为视频序列,一段Sora视频就生成了。

说真话,Transformer加分散模型的方法论并不是OpenAI首创的,在OpenAI发布Sora之前,咱们在和张宋扬博士本年一月份采访的时分,他就现已说到说,Transformer加分散模型的方法现已在职业中开端遍及的被研讨了。

张宋扬博士,Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队运用科学家:

现在又能看到一些把transformer的模型做到跟diffusion结合,然后作用或许也不差,乃至或许论文里边有些说的或许会更好。所以说这个东西我不确认今后模型会怎样开展,我觉得或许是两者结合的一种方法。便是transformer他们那种,比方说它猜想下一个视频,有天然的优势,便是它可以猜想变成的一些东西。diffusion尽管质量高,可是diffusion现在许多做法仍是生成固定帧数的。怎样把两个东西结合在一同,是一个后边会研讨的一个进程。

所以,这也解说了为什么OpenAI现在要发布Sora,其实在OpenAI的论坛上,Sora方弄清说,Sora现在并不是一个老练的产品,所以,它不是已发布的产品,也不揭露,没有等候名单,也没有估计的发布日期。

外界有剖析以为,Sora还不老练,OpenAI算力也不必定能接受Sora被揭露,一起还有揭露之后的假新闻安全和品德问题,所以Sora不必定会很快正式发布,但由于transformer加diffusion现已成为了业界遍及测验的方向,这个时分,OpenAI需求展现出Sora的才能,来在现在竞赛日益白热化的生成式AI视频范畴中重声自己职业的抢先地位。

而有了OpenAI的验证之后,咱们根本可以确认的是,AI视频生成方向会转变到这个新的技能结合。而OpenAI在宣布的技能文章中也明确指出,在ChatGPT上的巨量参数“大力出奇观”的方法,被证明在AI视频生成上。

OpenAI在文章中说,“咱们发现,视频模型在大规模练习时表现出许多风趣的呈现功用。这些功用使 Sora 可以模仿实际国际中人、动物和环境的某些方面。

这阐明,Sora和GPT3的时分相同,呈现了“呈现”emergence,而这意味着,与GPT大言语模型相同,AI视频也需求更多的参数,更多的GPU算力,更多的资金投入。

Scaling,依然是现在生成式AI的绝技,而这或许也意味着,生成式AI视频或许终究也会成为大公司的游戏。

张宋扬博士,Meta Make-A-Video模型的论文作者之一、亚马逊AGI团队运用科学家:

我觉得或许更直观的便是适当于你,比方说你一个视频或许存下来是几十个GB,然后或许到大言语模型就得大一千倍了,就得上TB了,便是大约是这么个意思,可是我觉得应该是能看到这样一个趋势的,便是就尽管现在视频的参数量仅仅在billion级。

可是像图片里边他们之前stable diffusion模型,他们后来出了一个stable diffusion XL,他们也是把模型做大了,然后也带来了一些比较好的一个作用,也不是说比较好的作用,便是他们能做更实在的那图片,然后作用也会更显着一些。我觉得这是一个趋势,便是未来必定会把参数量做大的,可是说它带来的增益会有多少,也取决于你现在的这个模型的结构以及你的数据量,你的数据是什么样的。

以上是咱们对Sora十分开始的剖析,再次阐明一下,由于Sora十分多技能细节没有揭露,所以咱们的许多剖析也是从外部视角去做的一个猜想,假如有不精确的当地,欢迎咱们来纠错,指正和讨论。

告发/反应

相关推荐

在线客服
服务热线

24小时咨询热线:

4006666666

微信咨询
黑料吃瓜网
返回顶部