陳沛/文 雖然OpenAI展示Sora的視頻生成效果吸引了大量關(guān)注,但隨著近期業(yè)界開展測試和深入分析,實際效果似乎并未達(dá)到預(yù)期。
測試發(fā)現(xiàn)的一個主要問題是生成的視頻難以在幾十秒之后繼續(xù)保持內(nèi)容一致性,會在運動動作、物體數(shù)量等方面出現(xiàn)明顯的錯誤。這個問題我在之前專欄內(nèi)容中也提到過,屬于目前視頻生成模型的常見問題。
另一個問題是生成視頻的等待時長。盡管官方?jīng)]有正式說明,但根據(jù)一些人向Sora模型作者打聽到的情況,等待視頻生成時可以去“吃一些零食”然后回來繼續(xù)等。而從我之前看過該作者2022年首發(fā)DiT模型架構(gòu)論文中的模型規(guī)模來看,也能在一定程度上驗證該模型架構(gòu)的生成等待時間約需要幾十分鐘。
考慮到這些測試和分析信息,可以預(yù)想Sora模型應(yīng)該不會很快向公眾提供服務(wù)。因為在實際使用中,用戶通常需要多次輸入文本,反復(fù)調(diào)整輸出內(nèi)容已達(dá)到自己想要的效果。
甚至還有陰謀論者指出,OpenAI這次發(fā)布Sora視頻生成效果的日期,與Google更新Gemini 1.5模型、Meta發(fā)布J-VEPA模型的日期完全重合,因此大膽猜測OpenAI選擇急忙公布還在測試中的Sora,是為了搶其它AI巨頭的風(fēng)頭。
回想2022年,OpenAI也是知道了其它競爭對手在開發(fā)AI聊天助手,因此在GPT-3.5的基礎(chǔ)上快速開發(fā)并推出了ChatGPT聊天助手服務(wù),結(jié)果引發(fā)了越來越多的關(guān)注,形成了先發(fā)的競爭優(yōu)勢。
就像當(dāng)年ChatGPT的出現(xiàn)表明AI對于自然語言的學(xué)習(xí)掌握能力,Sora的出現(xiàn)所蘊含的深遠(yuǎn)變革意義絕不僅僅是生成視頻,而是AI將會加速提升對視頻信息的學(xué)習(xí)掌握能力。
AI視頻模型通過學(xué)習(xí)、理解、生成大量視頻數(shù)據(jù)中包含的視覺和空間信息,例如形狀、顏色、光照效果、相對位置、運動規(guī)律等,將讓AI有可能理解現(xiàn)實世界的復(fù)雜性,從而在機(jī)器人、自動駕駛汽車、科學(xué)研究等領(lǐng)域發(fā)揮更多作用。
這將進(jìn)一步推動AI向人類學(xué)習(xí)的本質(zhì)回歸。因為我們每個人首先對世界知識的直觀學(xué)習(xí)并非從文本開始,而是從觀察和理解開始。
盡管現(xiàn)在視頻模型在自回歸模型和擴(kuò)散模型上還面臨實際問題和現(xiàn)實挑戰(zhàn),但是這個方向的發(fā)展希望已經(jīng)再次燃起。我們甚至可以設(shè)想在接下來的AI系統(tǒng)中,視頻數(shù)據(jù)將可以作為統(tǒng)一的信息交互接口,從而讓AI系統(tǒng)承擔(dān)更多的智能規(guī)劃、分析和執(zhí)行動作,開啟AI應(yīng)用的全新篇章。