新V觀海外：Sora熱度下降后再看它的變革意義

陳沛2024-03-13 09:15

陳沛/文 雖然OpenAI展示Sora的視頻生成效果吸引了大量關(guān)注，但隨著近期業(yè)界開展測試和深入分析，實際效果似乎并未達(dá)到預(yù)期。

測試發(fā)現(xiàn)的一個主要問題是生成的視頻難以在幾十秒之后繼續(xù)保持內(nèi)容一致性，會在運動動作、物體數(shù)量等方面出現(xiàn)明顯的錯誤。這個問題我在之前專欄內(nèi)容中也提到過，屬于目前視頻生成模型的常見問題。

另一個問題是生成視頻的等待時長。盡管官方?jīng)]有正式說明，但根據(jù)一些人向Sora模型作者打聽到的情況，等待視頻生成時可以去“吃一些零食”然后回來繼續(xù)等。而從我之前看過該作者2022年首發(fā)DiT模型架構(gòu)論文中的模型規(guī)模來看，也能在一定程度上驗證該模型架構(gòu)的生成等待時間約需要幾十分鐘。

考慮到這些測試和分析信息，可以預(yù)想Sora模型應(yīng)該不會很快向公眾提供服務(wù)。因為在實際使用中，用戶通常需要多次輸入文本，反復(fù)調(diào)整輸出內(nèi)容已達(dá)到自己想要的效果。

甚至還有陰謀論者指出，OpenAI這次發(fā)布Sora視頻生成效果的日期，與Google更新Gemini 1.5模型、Meta發(fā)布J-VEPA模型的日期完全重合，因此大膽猜測OpenAI選擇急忙公布還在測試中的Sora，是為了搶其它AI巨頭的風(fēng)頭。

回想2022年，OpenAI也是知道了其它競爭對手在開發(fā)AI聊天助手，因此在GPT-3.5的基礎(chǔ)上快速開發(fā)并推出了ChatGPT聊天助手服務(wù)，結(jié)果引發(fā)了越來越多的關(guān)注，形成了先發(fā)的競爭優(yōu)勢。

就像當(dāng)年ChatGPT的出現(xiàn)表明AI對于自然語言的學(xué)習(xí)掌握能力，Sora的出現(xiàn)所蘊含的深遠(yuǎn)變革意義絕不僅僅是生成視頻，而是AI將會加速提升對視頻信息的學(xué)習(xí)掌握能力。

AI視頻模型通過學(xué)習(xí)、理解、生成大量視頻數(shù)據(jù)中包含的視覺和空間信息，例如形狀、顏色、光照效果、相對位置、運動規(guī)律等，將讓AI有可能理解現(xiàn)實世界的復(fù)雜性，從而在機(jī)器人、自動駕駛汽車、科學(xué)研究等領(lǐng)域發(fā)揮更多作用。

這將進(jìn)一步推動AI向人類學(xué)習(xí)的本質(zhì)回歸。因為我們每個人首先對世界知識的直觀學(xué)習(xí)并非從文本開始，而是從觀察和理解開始。

盡管現(xiàn)在視頻模型在自回歸模型和擴(kuò)散模型上還面臨實際問題和現(xiàn)實挑戰(zhàn)，但是這個方向的發(fā)展希望已經(jīng)再次燃起。我們甚至可以設(shè)想在接下來的AI系統(tǒng)中，視頻數(shù)據(jù)將可以作為統(tǒng)一的信息交互接口，從而讓AI系統(tǒng)承擔(dān)更多的智能規(guī)劃、分析和執(zhí)行動作，開啟AI應(yīng)用的全新篇章。