簡單來說 Runway 是基于擴(kuò)散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。
Runway、Stable Diffusion 是基于擴(kuò)散模型(Diffusion Model),擴(kuò)散模型(Diffusion Model)的訓(xùn)練過程是通過多個步驟逐漸向圖片增加噪點(diǎn),直到圖片變成完全無結(jié)構(gòu)的噪點(diǎn)圖片,然后在生成圖片的時候,基于一張完全噪點(diǎn)的圖片,逐步減少噪點(diǎn),直到還原出一張清晰的圖片。
文本模型像 GPT-4 則是 Transformer 模型。Transformer 則是一套編碼器和解碼器的架構(gòu),將文本編碼成數(shù)字向量,然后解碼的時候從數(shù)字向量還原出文本。
Sora 則是一個融合了兩者的 Diffusion Transformer 模型。通過 Transformer 的編碼器 - 解碼器架構(gòu)處理含噪點(diǎn)的輸入圖像,并在每一步預(yù)測出更清晰的圖像版本。編碼器負(fù)責(zé)對含噪點(diǎn)的輸入進(jìn)行編碼,而解碼器則負(fù)責(zé)生成更清晰圖像的預(yù)測。
GPT-4 被訓(xùn)練以處理一串 Token,并預(yù)測出下一個 Token。Sora 不是預(yù)測序列中的下一個文本,而是預(yù)測序列中的下一個“Patch”。
在文本預(yù)測生成中,基本單位是 Token,Token 很好理解,就是一個單詞或者單詞的一部分。Patch 的概念相對不那么好理解,不過今天看到一篇文章,作者舉了個很好的例子。
想象一下《黑暗騎士》的電影膠片,將一卷膠片繞在一個金屬盤上,然后掛在一個老式電影院的投影機(jī)上。
你把電影膠卷從盤中展開,然后剪下最前面的 100 幀。你挑出每一幀——這里是小丑瘋狂大笑,那里是蝙蝠俠痛苦的表情——并進(jìn)行以下不同尋常的操作:
你拿起一把 X-acto 精細(xì)刻刀,在第一幀電影膠片上剪出一個變形蟲狀的圖案。你像處理精密儀器一樣小心翼翼地用鑷子提取這片形似變形蟲的膠片,然后安全地保存起來。之后,你處理下一幀:在接下來的膠片上切出同樣位置、同樣形狀的變形蟲圖案。你再次用鑷子小心地取出這個新的變形蟲形狀的膠片——形狀與前一個完全相同——并將其精確地放置在第一個之上。你這樣做,直到完成所有的 100 幀。
你現(xiàn)在有了一個色彩斑斕的變形蟲,沿著 Y 軸擴(kuò)展。這是一座可以通過投影機(jī)播放《黑暗騎士》的小片段的膠片塔,就好像有人在投影機(jī)前握著拳頭,只讓電影的一小部分影像從拳心通過。
然后,這座膠片塔被壓縮并轉(zhuǎn)化為所謂的“Patch”——一種隨時間變化的色塊。
Patch 的創(chuàng)新之處——以及 Sora 之所以顯得如此強(qiáng)大——在于它們讓 OpenAI 能夠在大量的圖像和視頻數(shù)據(jù)上訓(xùn)練 Sora。想象一下從每一個存在的視頻中剪出的 Patch——無盡的膠片塔——被堆疊起來并輸入到模型中。
以前的文本轉(zhuǎn)視頻方法需要訓(xùn)練時使用的所有圖片和視頻都要有相同的大小,這就需要大量的預(yù)處理工作來裁剪視頻至適當(dāng)?shù)拇笮?。但是,由?Sora 是基于“Patch”而非視頻的全幀進(jìn)行訓(xùn)練的,它可以處理任何大小的視頻或圖片,無需進(jìn)行裁剪。
因此,可以有更多的數(shù)據(jù)用于訓(xùn)練,得到的輸出質(zhì)量也會更高。例如,將視頻預(yù)處理至新的長寬比通常會導(dǎo)致視頻的原始構(gòu)圖丟失。一個在寬屏中心呈現(xiàn)人物的視頻,裁剪后可能只能部分展示該人物。因為 Sora 能接收任何視頻作為訓(xùn)練輸入,所以其輸出不會受到訓(xùn)練輸入構(gòu)圖不良的影響。
在結(jié)合前面提到的 Diffusion Transformer 架構(gòu),OpenAI 可以在訓(xùn)練 Sora 時傾注更多的數(shù)據(jù)和計算資源,從而得到令人驚嘆的效果。
另外 Sora 剛發(fā)布視頻時,能模擬出咖啡在杯子里濺出的液體動力學(xué),以至于有人以為是連接了游戲引擎,但實際上 Sora 還是基于生成式模型,這是因為 Sora 在訓(xùn)練時,使用了大量的視頻數(shù)據(jù),這些視頻中包含了大量的物理規(guī)則,所以 Sora 能夠模擬出液體動力學(xué)。這類似于 GPT-4 在訓(xùn)練時,使用了大量的代碼來作為訓(xùn)練數(shù)據(jù),所以 GPT-4 能夠生成代碼。





暫無評論,快來評論吧!