鋪天蓋地的話題圍繞OpenAI的春季發(fā)布會(huì)展開(kāi),市場(chǎng)沒(méi)有等到GPT-5,但GPT-4o也足夠讓行業(yè)反復(fù)琢磨——ChatGPT進(jìn)入“Her”時(shí)代,對(duì)國(guó)內(nèi)大模型公司意味著什么?
OpenAI用幾個(gè)短小精悍的場(chǎng)景演示,讓用戶直觀了解到了GPT-4o的多模態(tài)理解能力、幾乎無(wú)延遲的反應(yīng)能力,以及與人類相近的共情感受與表達(dá)能力,科幻電影《Her》中女性語(yǔ)音智能機(jī)器人的形象由此得到現(xiàn)實(shí)復(fù)刻。
ChatGPT成為“Her”,在技術(shù)上的震撼點(diǎn)主要來(lái)自于GPT-4o對(duì)多模態(tài)實(shí)時(shí)交互的反應(yīng)速度有如此快的提升。例如,它對(duì)音頻輸入的響應(yīng)時(shí)間最短可達(dá)232毫秒,平均為320毫秒,這與人類在對(duì)話中的響應(yīng)時(shí)間非常相似。但在此之前,使用GPT-3.5和GPT-4的平均延遲分別為2.8秒和5.4秒。
OpenAI在官網(wǎng)對(duì)這個(gè)變化背后的原因進(jìn)行了闡釋。此前,其音頻模型(Voice Mode)是一個(gè)近似三個(gè)獨(dú)立模型組成的管道:一個(gè)簡(jiǎn)單模型將音頻轉(zhuǎn)錄為文本,GPT-3.5或GPT-4接收文本并輸出文本,第三個(gè)簡(jiǎn)單模型再將文本轉(zhuǎn)換回音頻。
在這個(gè)過(guò)程中,模型智力的主要來(lái)源GPT-4(或GPT-3.5)會(huì)丟失大量信息:它不能直接觀察音調(diào)、多個(gè)說(shuō)話者以及背景噪音,也不能輸出笑聲、歌聲或表達(dá)情感。
在GPT-4o上,OpenAI訓(xùn)練了一個(gè)跨文本、視覺(jué)和音頻的端到端新模型,這意味著所有輸入和輸出都來(lái)自同一個(gè)神經(jīng)網(wǎng)絡(luò)。這大概是這個(gè)多模態(tài)模型在理解與生成能力以及反應(yīng)速度上都獲得明顯提升的核心原因。
事實(shí)上,不需要跨模態(tài)融合、由同一神經(jīng)網(wǎng)絡(luò)完成訓(xùn)練的原生多模態(tài)大模型,正是國(guó)內(nèi)大模型創(chuàng)業(yè)公司正在試圖突破的方向。因?yàn)樗軒?lái)所有GPT-4o目前展現(xiàn)出來(lái)的優(yōu)勢(shì):低成本、高效率,這不僅是產(chǎn)品優(yōu)化的基礎(chǔ),也是大規(guī)模商業(yè)化的前提。
但來(lái)自投資人視角的觀察結(jié)論是,即便只是音頻模型的端到端訓(xùn)練,目前國(guó)內(nèi)大模型創(chuàng)業(yè)公司也都還未走到這一步。
除了基于原生多模態(tài)的模型變化,促成GPT-4o反應(yīng)如此之快的另一個(gè)重要因素在于模型尺寸。OpenAI并未公開(kāi)表明過(guò)GPT-4o或是GPT-4 Turbo的參數(shù)大小,行業(yè)只是基于API調(diào)用價(jià)格以及傳聞(例如GPT-3.5 Turbo可能是一個(gè)20B大小的模型,而GPT-3.5為175B),按照比例關(guān)系來(lái)推測(cè)過(guò)這些新模型的尺寸。
在此前提下,GPT-4o大概率是一個(gè)比1.8T更小的尺寸模型,而這種在保證模型能力的情況下變小、變快,甚至在某些維度上變強(qiáng)的工程化能力,正是OpenAI難以被競(jìng)爭(zhēng)者超越的“魔法”所在。
這也是國(guó)內(nèi)大模型行業(yè)正在努力的方向之一。為了降低大模型的推理成本,行業(yè)理應(yīng)壓縮模型,而從Scaling Law(規(guī)模法則)來(lái)看,這個(gè)目的只能通過(guò)“先變大、再變小”來(lái)實(shí)現(xiàn),這樣才有可能兼顧速度和性能。
至于如何像GPT-4o一樣“在變小的同時(shí)變強(qiáng)”,這也是各家技術(shù)比拼的關(guān)鍵點(diǎn)。
據(jù)界面新聞?dòng)浾吡私猓瑖?guó)內(nèi)從事底層大模型研發(fā)的創(chuàng)業(yè)公司普遍都在關(guān)注這一技術(shù)方向,但各自的重視程度并不相同。例如,有的觀點(diǎn)會(huì)認(rèn)為率先做出萬(wàn)億參數(shù)大模型、達(dá)到GPT-4時(shí)刻更重要,有的則會(huì)認(rèn)為在研發(fā)的途中兼顧應(yīng)用的成本與性價(jià)比同樣重要。但無(wú)一例外的是,目前行業(yè)還沒(méi)有呈現(xiàn)出太好的解法。
產(chǎn)品層面,來(lái)自國(guó)內(nèi)大模型獨(dú)角獸的產(chǎn)品中,Kimi(Kimi+)、萬(wàn)知、躍問(wèn)等等,雖然已經(jīng)具備一定多模理解與生成的能力,但更多還是聚焦于AI搜索引擎、AI專業(yè)助手等輕量級(jí)agent,在語(yǔ)音實(shí)時(shí)交互層面仍然無(wú)法達(dá)到ChatGPT的能力水平。
并且,Minimax在最新發(fā)布的海螺AI中加入了“小海螺”角色,功能在于提供實(shí)時(shí)語(yǔ)音對(duì)話服務(wù),定位直接對(duì)標(biāo)ChatGPT在語(yǔ)音交互上的能力。但根據(jù)公司的官方演示視頻,“小海螺”無(wú)論在反應(yīng)速度、表達(dá)方式,還是在音色、情感等擬人能力上,仍然有距離感明顯的“AI感”。
因此,GPT-4o帶給行業(yè)的技術(shù)質(zhì)問(wèn)其實(shí)是,在同等參數(shù)量級(jí)與性能水平下,能否做到跟它同樣快?如果速度也能趕上,那能否兼顧其對(duì)音頻、視覺(jué)和文本的多模態(tài)實(shí)時(shí)交互能力?
實(shí)際上,GPT-4o的降本能力體現(xiàn)到產(chǎn)品和商業(yè)化上,是擴(kuò)大AI應(yīng)用用戶規(guī)模的前提。
OpenAI對(duì)于ChatGPT免費(fèi)開(kāi)放的決策,已經(jīng)在行業(yè)內(nèi)被普遍認(rèn)為是一個(gè)“正確路線”。前述投資人表示,“擴(kuò)大用戶base,讓多模態(tài)大模型讓用戶更快、更簡(jiǎn)單地先用起來(lái),這個(gè)思路肯定是對(duì)的。”
獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛在發(fā)布會(huì)結(jié)束后談?wù)摰溃癘penAI發(fā)布應(yīng)用恰恰說(shuō)明了應(yīng)用在人工智能領(lǐng)域大有可為,每一個(gè)創(chuàng)業(yè)者都應(yīng)該去好好地做人工智能應(yīng)用。”
不過(guò),反過(guò)來(lái)看,OpenAI發(fā)布GPT-4o而非GPT-5(或是GPT-4.5),還是給大模型技術(shù)遇冷的觀點(diǎn)留下生存空間。
傅盛表示,“如果不計(jì)成本的累參數(shù),提高所謂的大模型能力,這條路肯定是容易遇到困難的,目前看起來(lái)GPT-5.0可能還要難產(chǎn)一段時(shí)間。”
金沙江創(chuàng)投主管合伙人朱嘯虎則對(duì)此發(fā)表了三個(gè)觀點(diǎn):第一,大模型的技術(shù)迭代曲線明顯放緩;第二,開(kāi)始卷免費(fèi),說(shuō)明GPT的用戶和收入增長(zhǎng)都已經(jīng)碰到瓶頸,不是深度綁定大廠的模型公司基本已經(jīng)出局;第三,應(yīng)用會(huì)迅速爆發(fā),推理成本再降一個(gè)數(shù)量級(jí)就會(huì)普及出現(xiàn)AI時(shí)代的國(guó)民應(yīng)用。
暫且不論大模型創(chuàng)業(yè)公司生死存亡的問(wèn)題,GPT-4o的出現(xiàn)的確留下了兩個(gè)矛盾信號(hào):好消息是,關(guān)于OpenAI在GPT-5可能遇到的瓶頸,國(guó)內(nèi)底層大模型加速追趕的窗口期或許到了;壞消息是,在應(yīng)用層上,OpenAI目前所能打磨出來(lái)的用戶體驗(yàn),大概也需要國(guó)內(nèi)創(chuàng)業(yè)者們花上好一陣時(shí)間來(lái)追趕。
此外,OpenAI給行業(yè)留下了一個(gè)謙虛的“挑釁”是,團(tuán)隊(duì)指出,GPT-4o是其第一個(gè)完成這種端到端訓(xùn)練的模型,因此團(tuán)隊(duì)仍在探索其功能和局限性——這意味著未來(lái)歷經(jīng)迭代的GPT-4o,能力極限或許遠(yuǎn)不止于此。
轉(zhuǎn)載來(lái)源:界面新聞 作者:伍洋宇