Meta硬剛OpenAI：誰(shuí)能代表“世界模型”？

孔海麗2024-02-22 17:28

Sora獨(dú)占鰲頭，光芒掩蓋了其他科技巨頭，很少有人注意到Meta同期推出了視頻模型技術(shù)架構(gòu)V-JEPA。

驚嘆過(guò)后，Sora到底能不能代表“世界模型”，也成為新的爭(zhēng)議點(diǎn)。

Meta首席人工智能科學(xué)家Yann LeCun堅(jiān)決指出，Sora并不能真的理解物理世界，“這樣的視頻生成與世界模型的因果預(yù)測(cè)仍然存在巨大差異”，并在接下來(lái)的幾天里就此話(huà)題與網(wǎng)友展開(kāi)了唇槍舌劍的爭(zhēng)執(zhí)。

源源不斷的觀點(diǎn)輸出中，Yann LeCun更是直言，“通過(guò)生成像素來(lái)模擬真實(shí)世界，不僅是一種浪費(fèi)，更是注定失敗”。

作為“世界模型”的理論先驅(qū)，雖然Yann LeCun并未否認(rèn)Sora在視頻生成方面的杰出表現(xiàn)，但他始終強(qiáng)調(diào)Sora的生成式模型與“世界模型”相去甚遠(yuǎn)，反而是JEPA架構(gòu)更能接近“世界模型”路線(xiàn)。

國(guó)內(nèi)也有技術(shù)分析人士指出：“Sora只是二維視覺(jué)的壓縮擴(kuò)散和時(shí)空表達(dá)，既不是物理引擎，也不是世界模型。”

“世界模型”是目前技術(shù)流派中難度最高的一種，其特點(diǎn)在于讓機(jī)器能夠像人類(lèi)一樣對(duì)真實(shí)世界有一個(gè)全面而準(zhǔn)確的認(rèn)知，不僅包括對(duì)事物的描述和分類(lèi)，還包括對(duì)事物的關(guān)系、規(guī)律、原因和結(jié)果的理解和預(yù)測(cè)，從而進(jìn)行推理和決策。

“世界模型”也被認(rèn)為是通往AGI的最優(yōu)解。如果就這么被OpenAI搶去了“世界模型”的帽子，Yann LeCun是堅(jiān)決不同意的，這位圖靈獎(jiǎng)得主甚至在社交平臺(tái)憤怒表示：“我從沒(méi)想過(guò)，會(huì)看到這么多從未為人工智能或機(jī)器學(xué)習(xí)做過(guò)任何事情的人告訴我，我對(duì)人工智能和機(jī)器學(xué)習(xí)的觀點(diǎn)是錯(cuò)誤、愚蠢、盲目、無(wú)知、誤導(dǎo)、嫉妒、偏見(jiàn)、脫節(jié)的。”

Yann LeCun炮轟Sora背后，Meta與OpenAI關(guān)于“世界模型”的路徑之爭(zhēng)，同樣激烈。

V-JEPA才是“世界模型”?

在Sora的技術(shù)文檔中，OpenAI并不是那么“open”，文中大量篇幅是在介紹Sora的厲害之處，除了文生視頻，還可以圖生視頻、拓展視頻等，并未披露技術(shù)原理，而是使用了一種結(jié)論式表達(dá)——通過(guò)擴(kuò)大視頻生成模型的規(guī)模，我們有望構(gòu)建出能夠模擬物理世界的通用模擬器，這無(wú)疑是一條極具前景的發(fā)展道路。

隨后，英偉達(dá)AI研究員Jim Fan的觀點(diǎn)引領(lǐng)了輿論走向，他認(rèn)為，Sora是一款數(shù)據(jù)驅(qū)動(dòng)的物理引擎，是個(gè)可學(xué)習(xí)的模擬器或“世界模型”。

Meta的Yann LeCun明確反對(duì)，他指出，Sora只是經(jīng)過(guò)訓(xùn)練可以生成像素，但如果這樣的方式用來(lái)了解世界是如何運(yùn)作的，那注定是個(gè)失敗的命題。

“視頻生成與‘世界模型’的因果預(yù)測(cè)有很大不同。” Yann LeCun表示，視頻生成似是而非的空間非常大，只需要產(chǎn)生一個(gè)合理的樣本就能視為成功，而真實(shí)視頻的合理延續(xù)空間要小得多，尤其是在特定動(dòng)作條件下，難度就更大了。

Yann LeCun認(rèn)為，實(shí)現(xiàn)“世界模型”更理想的方式，應(yīng)該是讓機(jī)器智能像人類(lèi)般學(xué)習(xí)、建立起周遭世界的內(nèi)部模型，從而高效學(xué)習(xí)、適應(yīng)并制定計(jì)劃以完成種種復(fù)雜的任務(wù)。

這也正是他提出的JEPA（Joint Embedding Predictive Architectures，聯(lián)合嵌入預(yù)測(cè)架構(gòu)）的核心思想：不是填充缺失像素的生成式，而是預(yù)測(cè)。

人類(lèi)最初對(duì)世界的理解，是從最自然的“觀察”開(kāi)始，在此基礎(chǔ)上進(jìn)行學(xué)習(xí)，總結(jié)經(jīng)驗(yàn)，形成認(rèn)知模型，即應(yīng)對(duì)每一種情況應(yīng)該采取什么態(tài)度或措施的“數(shù)據(jù)庫(kù)”。LeCun表示，JEPA就是基于這種邏輯。

JEPA在2022年由Yann LeCun首次提出。兩類(lèi)模型I-JEPA和V-JEPA分別基于圖像、視頻進(jìn)行抽象性預(yù)測(cè)。

Meta在官網(wǎng)上給出了參考視頻。筆記本被遮擋了一部分，而V-JEPA能夠?qū)P記本上的內(nèi)容做出不同預(yù)測(cè)并形成視頻圖像。Meta表示，這是V-JEPA在觀看200萬(wàn)個(gè)視頻后才獲取的能力。

V-JEPA生成被遮擋的部分，即以“人類(lèi)理解的方式”看世界，不是通過(guò)手動(dòng)標(biāo)注，而是通過(guò)像人類(lèi)一樣的被動(dòng)觀察來(lái)建立對(duì)視頻片段的概念理解。

Meta2月14日發(fā)布的論文中較為詳細(xì)地介紹了V-JEPA的主要特點(diǎn)和工作原理。V-JEPA采取了一種特殊的網(wǎng)絡(luò)架構(gòu)，其中包括一個(gè)編碼器（x-encoder）和一個(gè)預(yù)測(cè)器（predictor）。編碼器負(fù)責(zé)提取視頻幀的特征表示，而預(yù)測(cè)器則基于這些特征來(lái)預(yù)測(cè)目標(biāo)幀的特征。

與以變分自編碼器（Variational AE）、掩碼自編碼器（Masked AE）、去噪自編碼器（Denoising AE）等為代表的重建像素的生成型架構(gòu)相比，JEPA聯(lián)合嵌入架構(gòu)能夠產(chǎn)生更優(yōu)秀的視覺(jué)表達(dá)。

（論文部分截圖）

（V-JEPA訓(xùn)練機(jī)理圖示）

Meta提出，V-JEPA的出現(xiàn)是朝著AMI（Advanced Machine Intelligence）邁出的重要一步。而隨著V-JEPA技術(shù)的發(fā)展，關(guān)于AI是否真正能夠?qū)W會(huì)以人類(lèi)的方式思考、是否能夠擁有人類(lèi)思維等人文倫理問(wèn)題，或許會(huì)成為未來(lái)討論的焦點(diǎn)。

財(cái)報(bào)中的AI成色

Meta最近披露的財(cái)報(bào)，收獲了史上最佳成績(jī)，2023年第四季度實(shí)現(xiàn)收入401.11億美元，同比增長(zhǎng)25%，這也是其自2021年三季度以來(lái)的最大季度增幅。

漂亮的財(cái)報(bào)之后，資本市場(chǎng)也給予了Meta積極反饋。2月2日，Meta市值暴漲，股價(jià)一天內(nèi)漲逾20%，創(chuàng)下美股歷史最高單日漲幅紀(jì)錄，市值隨之上漲2045億美元。截至2月21日，Mata股價(jià)為471.75美元/股，市值達(dá)到1.2萬(wàn)億美元，正是山巔榮耀時(shí)刻。

Meta首席執(zhí)行官馬克·扎克伯格（Mark Zuckerberg）指出，Meta在推動(dòng)人工智能和元宇宙愿景方面取得了很大進(jìn)展。通過(guò)與往年數(shù)據(jù)的對(duì)比，可以看出Meta擁抱AI對(duì)于自身業(yè)績(jī)的提升起到了積極影響。

Meta業(yè)績(jī)上漲很大一部分是源于廣告收入的增加，而AI為廣告業(yè)務(wù)的增長(zhǎng)賦能。Mata2023年廣告收入為1319.48億美元，較2022年增加16%。對(duì)此，Meta首席財(cái)務(wù)官蘇珊·李（Susan Li）稱(chēng)，通過(guò)AI技術(shù)在廣告平臺(tái)的應(yīng)用，Meta在持續(xù)改進(jìn)廣告服務(wù)能力并得到客戶(hù)的積極反饋。

在AI為廣告賦能的推動(dòng)下，F(xiàn)oA（應(yīng)用程序系列）實(shí)現(xiàn)業(yè)績(jī)的穩(wěn)定增長(zhǎng)。與2022年相比，2023年的FoA實(shí)現(xiàn)收入1330.06億美元，同比增加16%。

Meta財(cái)報(bào)指出，這一增長(zhǎng)幾乎完全是由廣告收入推動(dòng)的。2023 年，Meta FoA的廣告展示量同比增長(zhǎng)了28%，但每條廣告的平均價(jià)格同比下降了9%，部分抵消了這一影響。具體而言，投放的廣告數(shù)量與2022年的增長(zhǎng)18%相比，增長(zhǎng)了28%，原因是2023年所有地區(qū)的廣告展示次數(shù)都有所增長(zhǎng)。與此相對(duì)，2023年每條廣告的平均價(jià)格下降了9%，相較于2022年的16%降幅更小。每條廣告平均價(jià)格的下降是由投放的廣告數(shù)量增加所致，尤其是在以較低費(fèi)率獲利的地區(qū)和Reels等產(chǎn)品中。

同時(shí)，F(xiàn)oA核心用戶(hù)指標(biāo)也超出市場(chǎng)預(yù)期。2023年12月，家庭日均活躍人數(shù)（DAP）為31.9億人，同比增長(zhǎng)8%。截至2023年12月31日，家庭月活躍人數(shù)（MAP）為39.8億，同比增長(zhǎng)6%。2023年12月，F(xiàn)acebook 日均活躍用戶(hù)（DAU）為21.1億，同比增長(zhǎng) 6%。截至2023年12月31日，F(xiàn)acebook月活躍用戶(hù)（MAU）為30.7億，同比增長(zhǎng)3%。

Meta在財(cái)報(bào)中指出，2024年將專(zhuān)注于六個(gè)關(guān)鍵投資領(lǐng)域，人工智能是其中之一。繼續(xù)加大對(duì)于生成式AI的投資，推動(dòng)AI持續(xù)為Meta產(chǎn)品和服務(wù)的各個(gè)計(jì)劃賦能，包括支持應(yīng)用中內(nèi)容排名的系統(tǒng)、推薦相關(guān)內(nèi)容的發(fā)現(xiàn)引擎、開(kāi)發(fā)新的生成式AI體驗(yàn)，增強(qiáng)廣告商對(duì)用戶(hù)的吸引力，以及提高產(chǎn)品開(kāi)發(fā)的效率。

中金公司分析師認(rèn)為，Meta上調(diào)2024年資本開(kāi)支20億美元至300億～370億美元，主要是基于AI相關(guān)基礎(chǔ)設(shè)施投入。

積極擁抱AI的Meta

2022年，Meta深陷元宇宙泥沼，徘徊低谷，而如今以AI領(lǐng)域的開(kāi)源路線(xiàn)扭轉(zhuǎn)局勢(shì)。

2023年7月，Meta與微軟合作發(fā)布了開(kāi)源模型LlaMa 2，包含70億、130億和700億三種參數(shù)類(lèi)型，可免費(fèi)用于商業(yè)或者研究。

后續(xù)，Meta的開(kāi)源AI殺出了OpenAI、谷歌主導(dǎo)的AI閉源模型“重圍”，重新開(kāi)辟出了一條道路。LlaMa 2將由微軟通過(guò)其云服務(wù)分發(fā)，并在 Windows操作系統(tǒng)上運(yùn)行。LlaMa 2相比LlaMa1在性能、訓(xùn)練數(shù)據(jù)、安全等方面升級(jí)明顯，性能已經(jīng)接近GPT3.5，對(duì)當(dāng)前AI發(fā)展帶來(lái)的影響不容忽視。富國(guó)銀行、IBM等如今都部署了基于LlaMa 2的開(kāi)源模型。

探索AI與應(yīng)用生態(tài)結(jié)合，Meta在擁抱AI道路上越走越遠(yuǎn)。

Meta在2月2日的財(cái)報(bào)電話(huà)會(huì)議上給出了選擇開(kāi)源路線(xiàn)的理由，認(rèn)為開(kāi)源改善了Meta的模型，在戰(zhàn)略上擁有諸多優(yōu)勢(shì)，且不會(huì)消除Meta產(chǎn)品的差異化。

首先，開(kāi)源軟件通常更安全、更可靠，同時(shí)由于社區(qū)的持續(xù)反饋、審查和開(kāi)發(fā)，運(yùn)行效率更高。而效率的提高和計(jì)算成本的降低也讓包括Meta在內(nèi)的每個(gè)人都受益；其次，開(kāi)源軟件通常會(huì)成為行業(yè)標(biāo)準(zhǔn)。Meta表示，當(dāng)其他公司使用Meta的技術(shù)棧進(jìn)行標(biāo)準(zhǔn)化構(gòu)建時(shí)，Meta就能更容易將其他公司的創(chuàng)新整合到自己的產(chǎn)品中，這種快速學(xué)習(xí)和改進(jìn)的能力是一個(gè)巨大的優(yōu)勢(shì)；最后，開(kāi)源在開(kāi)發(fā)者和研究人員中非常受歡迎，這有助于Meta招募到最好的人才。

同時(shí)，Meta再次強(qiáng)調(diào)其掌握獨(dú)特的數(shù)據(jù)，并且構(gòu)建了獨(dú)特的產(chǎn)品集成，所以提供像LlaMa這樣的開(kāi)源基礎(chǔ)設(shè)施并不會(huì)削弱Meta的主要優(yōu)勢(shì)，Meta也會(huì)將其作為前進(jìn)的正確途徑。

Meta還表示，LlaMa 3正在訓(xùn)練當(dāng)中，近期也會(huì)陸續(xù)推出Meta AI、AI Studio以及搭載AI功能的Quest3及智能眼鏡等toC產(chǎn)品。

據(jù)市場(chǎng)消息，Meta今年還計(jì)劃部署自研定制芯片。這款芯片將產(chǎn)自Meta的第二代內(nèi)部芯片生產(chǎn)線(xiàn)，于2024年投產(chǎn)，能有助于減少對(duì)占據(jù)AI芯片市場(chǎng)主導(dǎo)地位的英偉達(dá)旗下昂貴AI芯片的重度依賴(lài)。同時(shí)，在Meta計(jì)劃推出新的人工智能產(chǎn)品之際，自研芯片能夠控制與人工智能訓(xùn)練等相關(guān)的成本。

此外，Meta的應(yīng)用保持強(qiáng)勁的AI參與度， Facebook、Instagram、Messenger、WhatsApp等家族應(yīng)用已經(jīng)接入AI功能，在APP中推出超過(guò)20種的AI工具。今年Meta已形成了包括LlaMa 2、Threads、Reels以及Quest 3在內(nèi)的產(chǎn)品路線(xiàn)圖。此外，Meta也在推動(dòng)元宇宙從VR向XR轉(zhuǎn)變。

中金公司分析師認(rèn)為，Meta2024年AI產(chǎn)品化落地值得期待。

眼下，Yann LeCun討伐Sora蹭“世界模型”的舉動(dòng)，一定程度上也是Meta與OpenAI在走向AGI的路徑差異，非生成式與生成式、開(kāi)源與閉源，他們將在后續(xù)路途中走出更大的背離，但目標(biāo)并沒(méi)有什么區(qū)別。

來(lái)源：21世紀(jì)經(jīng)濟(jì)報(bào)道作者：孔海麗

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【孔海麗】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議