Sora獨(dú)占鰲頭,光芒掩蓋了其他科技巨頭,很少有人注意到Meta同期推出了視頻模型技術(shù)架構(gòu)V-JEPA。
驚嘆過(guò)后,Sora到底能不能代表“世界模型”,也成為新的爭(zhēng)議點(diǎn)。
Meta首席人工智能科學(xué)家Yann LeCun堅(jiān)決指出,Sora并不能真的理解物理世界,“這樣的視頻生成與世界模型的因果預(yù)測(cè)仍然存在巨大差異”,并在接下來(lái)的幾天里就此話(huà)題與網(wǎng)友展開(kāi)了唇槍舌劍的爭(zhēng)執(zhí)。
源源不斷的觀點(diǎn)輸出中,Yann LeCun更是直言,“通過(guò)生成像素來(lái)模擬真實(shí)世界,不僅是一種浪費(fèi),更是注定失敗”。
作為“世界模型”的理論先驅(qū),雖然Yann LeCun并未否認(rèn)Sora在視頻生成方面的杰出表現(xiàn),但他始終強(qiáng)調(diào)Sora的生成式模型與“世界模型”相去甚遠(yuǎn),反而是JEPA架構(gòu)更能接近“世界模型”路線(xiàn)。
國(guó)內(nèi)也有技術(shù)分析人士指出:“Sora只是二維視覺(jué)的壓縮擴(kuò)散和時(shí)空表達(dá),既不是物理引擎,也不是世界模型。”
“世界模型”是目前技術(shù)流派中難度最高的一種,其特點(diǎn)在于讓機(jī)器能夠像人類(lèi)一樣對(duì)真實(shí)世界有一個(gè)全面而準(zhǔn)確的認(rèn)知,不僅包括對(duì)事物的描述和分類(lèi),還包括對(duì)事物的關(guān)系、規(guī)律、原因和結(jié)果的理解和預(yù)測(cè),從而進(jìn)行推理和決策。
“世界模型”也被認(rèn)為是通往AGI的最優(yōu)解。如果就這么被OpenAI搶去了“世界模型”的帽子,Yann LeCun是堅(jiān)決不同意的,這位圖靈獎(jiǎng)得主甚至在社交平臺(tái)憤怒表示:“我從沒(méi)想過(guò),會(huì)看到這么多從未為人工智能或機(jī)器學(xué)習(xí)做過(guò)任何事情的人告訴我,我對(duì)人工智能和機(jī)器學(xué)習(xí)的觀點(diǎn)是錯(cuò)誤、愚蠢、盲目、無(wú)知、誤導(dǎo)、嫉妒、偏見(jiàn)、脫節(jié)的。”
Yann LeCun炮轟Sora背后,Meta與OpenAI關(guān)于“世界模型”的路徑之爭(zhēng),同樣激烈。
V-JEPA才是“世界模型”?
在Sora的技術(shù)文檔中,OpenAI并不是那么“open”,文中大量篇幅是在介紹Sora的厲害之處,除了文生視頻,還可以圖生視頻、拓展視頻等,并未披露技術(shù)原理,而是使用了一種結(jié)論式表達(dá)——通過(guò)擴(kuò)大視頻生成模型的規(guī)模,我們有望構(gòu)建出能夠模擬物理世界的通用模擬器,這無(wú)疑是一條極具前景的發(fā)展道路。
隨后,英偉達(dá)AI研究員Jim Fan的觀點(diǎn)引領(lǐng)了輿論走向,他認(rèn)為,Sora是一款數(shù)據(jù)驅(qū)動(dòng)的物理引擎,是個(gè)可學(xué)習(xí)的模擬器或“世界模型”。
Meta的Yann LeCun明確反對(duì),他指出,Sora只是經(jīng)過(guò)訓(xùn)練可以生成像素,但如果這樣的方式用來(lái)了解世界是如何運(yùn)作的,那注定是個(gè)失敗的命題。
“視頻生成與‘世界模型’的因果預(yù)測(cè)有很大不同。” Yann LeCun表示,視頻生成似是而非的空間非常大,只需要產(chǎn)生一個(gè)合理的樣本就能視為成功,而真實(shí)視頻的合理延續(xù)空間要小得多,尤其是在特定動(dòng)作條件下,難度就更大了。
Yann LeCun認(rèn)為,實(shí)現(xiàn)“世界模型”更理想的方式,應(yīng)該是讓機(jī)器智能像人類(lèi)般學(xué)習(xí)、建立起周遭世界的內(nèi)部模型,從而高效學(xué)習(xí)、適應(yīng)并制定計(jì)劃以完成種種復(fù)雜的任務(wù)。
這也正是他提出的JEPA(Joint Embedding Predictive Architectures,聯(lián)合嵌入預(yù)測(cè)架構(gòu))的核心思想:不是填充缺失像素的生成式,而是預(yù)測(cè)。
人類(lèi)最初對(duì)世界的理解,是從最自然的“觀察”開(kāi)始,在此基礎(chǔ)上進(jìn)行學(xué)習(xí),總結(jié)經(jīng)驗(yàn),形成認(rèn)知模型,即應(yīng)對(duì)每一種情況應(yīng)該采取什么態(tài)度或措施的“數(shù)據(jù)庫(kù)”。LeCun表示,JEPA就是基于這種邏輯。
JEPA在2022年由Yann LeCun首次提出。兩類(lèi)模型I-JEPA和V-JEPA分別基于圖像、視頻進(jìn)行抽象性預(yù)測(cè)。
Meta在官網(wǎng)上給出了參考視頻。筆記本被遮擋了一部分,而V-JEPA能夠?qū)P記本上的內(nèi)容做出不同預(yù)測(cè)并形成視頻圖像。Meta表示,這是V-JEPA在觀看200萬(wàn)個(gè)視頻后才獲取的能力。
V-JEPA生成被遮擋的部分,即以“人類(lèi)理解的方式”看世界,不是通過(guò)手動(dòng)標(biāo)注,而是通過(guò)像人類(lèi)一樣的被動(dòng)觀察來(lái)建立對(duì)視頻片段的概念理解。
Meta2月14日發(fā)布的論文中較為詳細(xì)地介紹了V-JEPA的主要特點(diǎn)和工作原理。V-JEPA采取了一種特殊的網(wǎng)絡(luò)架構(gòu),其中包括一個(gè)編碼器(x-encoder)和一個(gè)預(yù)測(cè)器(predictor)。編碼器負(fù)責(zé)提取視頻幀的特征表示,而預(yù)測(cè)器則基于這些特征來(lái)預(yù)測(cè)目標(biāo)幀的特征。
與以變分自編碼器(Variational AE)、掩碼自編碼器(Masked AE)、去噪自編碼器(Denoising AE)等為代表的重建像素的生成型架構(gòu)相比,JEPA聯(lián)合嵌入架構(gòu)能夠產(chǎn)生更優(yōu)秀的視覺(jué)表達(dá)。
(論文部分截圖)
(V-JEPA訓(xùn)練機(jī)理圖示)
Meta提出,V-JEPA的出現(xiàn)是朝著AMI(Advanced Machine Intelligence)邁出的重要一步。而隨著V-JEPA技術(shù)的發(fā)展,關(guān)于AI是否真正能夠?qū)W會(huì)以人類(lèi)的方式思考、是否能夠擁有人類(lèi)思維等人文倫理問(wèn)題,或許會(huì)成為未來(lái)討論的焦點(diǎn)。
財(cái)報(bào)中的AI成色
Meta最近披露的財(cái)報(bào),收獲了史上最佳成績(jī),2023年第四季度實(shí)現(xiàn)收入401.11億美元,同比增長(zhǎng)25%,這也是其自2021年三季度以來(lái)的最大季度增幅。
漂亮的財(cái)報(bào)之后,資本市場(chǎng)也給予了Meta積極反饋。2月2日,Meta市值暴漲,股價(jià)一天內(nèi)漲逾20%,創(chuàng)下美股歷史最高單日漲幅紀(jì)錄,市值隨之上漲2045億美元。截至2月21日,Mata股價(jià)為471.75美元/股,市值達(dá)到1.2萬(wàn)億美元,正是山巔榮耀時(shí)刻。
Meta首席執(zhí)行官馬克·扎克伯格(Mark Zuckerberg)指出,Meta在推動(dòng)人工智能和元宇宙愿景方面取得了很大進(jìn)展。通過(guò)與往年數(shù)據(jù)的對(duì)比,可以看出Meta擁抱AI對(duì)于自身業(yè)績(jī)的提升起到了積極影響。
Meta業(yè)績(jī)上漲很大一部分是源于廣告收入的增加,而AI為廣告業(yè)務(wù)的增長(zhǎng)賦能。Mata2023年廣告收入為1319.48億美元,較2022年增加16%。對(duì)此,Meta首席財(cái)務(wù)官蘇珊·李(Susan Li)稱(chēng),通過(guò)AI技術(shù)在廣告平臺(tái)的應(yīng)用,Meta在持續(xù)改進(jìn)廣告服務(wù)能力并得到客戶(hù)的積極反饋。
在AI為廣告賦能的推動(dòng)下,F(xiàn)oA(應(yīng)用程序系列)實(shí)現(xiàn)業(yè)績(jī)的穩(wěn)定增長(zhǎng)。與2022年相比,2023年的FoA實(shí)現(xiàn)收入1330.06億美元,同比增加16%。
Meta財(cái)報(bào)指出,這一增長(zhǎng)幾乎完全是由廣告收入推動(dòng)的。2023 年,Meta FoA的廣告展示量同比增長(zhǎng)了28%,但每條廣告的平均價(jià)格同比下降了9%,部分抵消了這一影響。具體而言,投放的廣告數(shù)量與2022年的增長(zhǎng)18%相比,增長(zhǎng)了28%,原因是2023年所有地區(qū)的廣告展示次數(shù)都有所增長(zhǎng)。與此相對(duì),2023年每條廣告的平均價(jià)格下降了9%,相較于2022年的16%降幅更小。每條廣告平均價(jià)格的下降是由投放的廣告數(shù)量增加所致,尤其是在以較低費(fèi)率獲利的地區(qū)和Reels等產(chǎn)品中。
同時(shí),F(xiàn)oA核心用戶(hù)指標(biāo)也超出市場(chǎng)預(yù)期。2023年12月,家庭日均活躍人數(shù)(DAP)為31.9億人,同比增長(zhǎng)8%。截至2023年12月31日,家庭月活躍人數(shù)(MAP)為39.8億,同比增長(zhǎng)6%。2023年12月,F(xiàn)acebook 日均活躍用戶(hù)(DAU)為21.1億,同比增長(zhǎng) 6%。截至2023年12月31日,F(xiàn)acebook月活躍用戶(hù)(MAU)為30.7億,同比增長(zhǎng)3%。
Meta在財(cái)報(bào)中指出,2024年將專(zhuān)注于六個(gè)關(guān)鍵投資領(lǐng)域,人工智能是其中之一。繼續(xù)加大對(duì)于生成式AI的投資,推動(dòng)AI持續(xù)為Meta產(chǎn)品和服務(wù)的各個(gè)計(jì)劃賦能,包括支持應(yīng)用中內(nèi)容排名的系統(tǒng)、推薦相關(guān)內(nèi)容的發(fā)現(xiàn)引擎、開(kāi)發(fā)新的生成式AI體驗(yàn),增強(qiáng)廣告商對(duì)用戶(hù)的吸引力,以及提高產(chǎn)品開(kāi)發(fā)的效率。
中金公司分析師認(rèn)為,Meta上調(diào)2024年資本開(kāi)支20億美元至300億~370億美元,主要是基于AI相關(guān)基礎(chǔ)設(shè)施投入。
積極擁抱AI的Meta
2022年,Meta深陷元宇宙泥沼,徘徊低谷,而如今以AI領(lǐng)域的開(kāi)源路線(xiàn)扭轉(zhuǎn)局勢(shì)。
2023年7月,Meta與微軟合作發(fā)布了開(kāi)源模型LlaMa 2,包含70億、130億和700億三種參數(shù)類(lèi)型,可免費(fèi)用于商業(yè)或者研究。
后續(xù),Meta的開(kāi)源AI殺出了OpenAI、谷歌主導(dǎo)的AI閉源模型“重圍”,重新開(kāi)辟出了一條道路。LlaMa 2將由微軟通過(guò)其云服務(wù)分發(fā),并在 Windows操作系統(tǒng)上運(yùn)行。LlaMa 2相比LlaMa1在性能、訓(xùn)練數(shù)據(jù)、安全等方面升級(jí)明顯,性能已經(jīng)接近GPT3.5,對(duì)當(dāng)前AI發(fā)展帶來(lái)的影響不容忽視。富國(guó)銀行、IBM等如今都部署了基于LlaMa 2的開(kāi)源模型。
探索AI與應(yīng)用生態(tài)結(jié)合,Meta在擁抱AI道路上越走越遠(yuǎn)。
Meta在2月2日的財(cái)報(bào)電話(huà)會(huì)議上給出了選擇開(kāi)源路線(xiàn)的理由,認(rèn)為開(kāi)源改善了Meta的模型,在戰(zhàn)略上擁有諸多優(yōu)勢(shì),且不會(huì)消除Meta產(chǎn)品的差異化。
首先,開(kāi)源軟件通常更安全、更可靠,同時(shí)由于社區(qū)的持續(xù)反饋、審查和開(kāi)發(fā),運(yùn)行效率更高。而效率的提高和計(jì)算成本的降低也讓包括Meta在內(nèi)的每個(gè)人都受益;其次,開(kāi)源軟件通常會(huì)成為行業(yè)標(biāo)準(zhǔn)。Meta表示,當(dāng)其他公司使用Meta的技術(shù)棧進(jìn)行標(biāo)準(zhǔn)化構(gòu)建時(shí),Meta就能更容易將其他公司的創(chuàng)新整合到自己的產(chǎn)品中,這種快速學(xué)習(xí)和改進(jìn)的能力是一個(gè)巨大的優(yōu)勢(shì);最后,開(kāi)源在開(kāi)發(fā)者和研究人員中非常受歡迎,這有助于Meta招募到最好的人才。
同時(shí),Meta再次強(qiáng)調(diào)其掌握獨(dú)特的數(shù)據(jù),并且構(gòu)建了獨(dú)特的產(chǎn)品集成,所以提供像LlaMa這樣的開(kāi)源基礎(chǔ)設(shè)施并不會(huì)削弱Meta的主要優(yōu)勢(shì),Meta也會(huì)將其作為前進(jìn)的正確途徑。
Meta還表示,LlaMa 3正在訓(xùn)練當(dāng)中,近期也會(huì)陸續(xù)推出Meta AI、AI Studio以及搭載AI功能的Quest3及智能眼鏡等toC產(chǎn)品。
據(jù)市場(chǎng)消息,Meta今年還計(jì)劃部署自研定制芯片。這款芯片將產(chǎn)自Meta的第二代內(nèi)部芯片生產(chǎn)線(xiàn),于2024年投產(chǎn),能有助于減少對(duì)占據(jù)AI芯片市場(chǎng)主導(dǎo)地位的英偉達(dá)旗下昂貴AI芯片的重度依賴(lài)。同時(shí),在Meta計(jì)劃推出新的人工智能產(chǎn)品之際,自研芯片能夠控制與人工智能訓(xùn)練等相關(guān)的成本。
此外,Meta的應(yīng)用保持強(qiáng)勁的AI參與度, Facebook、Instagram、Messenger、WhatsApp等家族應(yīng)用已經(jīng)接入AI功能,在APP中推出超過(guò)20種的AI工具。今年Meta已形成了包括LlaMa 2、Threads、Reels以及Quest 3在內(nèi)的產(chǎn)品路線(xiàn)圖。此外,Meta也在推動(dòng)元宇宙從VR向XR轉(zhuǎn)變。
中金公司分析師認(rèn)為,Meta2024年AI產(chǎn)品化落地值得期待。
眼下,Yann LeCun討伐Sora蹭“世界模型”的舉動(dòng),一定程度上也是Meta與OpenAI在走向AGI的路徑差異,非生成式與生成式、開(kāi)源與閉源,他們將在后續(xù)路途中走出更大的背離,但目標(biāo)并沒(méi)有什么區(qū)別。
來(lái)源:21世紀(jì)經(jīng)濟(jì)報(bào)道 作者:孔海麗