GPT-4o又炸場(chǎng)了，國(guó)內(nèi)大模型創(chuàng)業(yè)者需要追趕什么？

伍洋宇2024-05-16 16:29

鋪天蓋地的話題圍繞OpenAI的春季發(fā)布會(huì)展開(kāi)，市場(chǎng)沒(méi)有等到GPT-5，但GPT-4o也足夠讓行業(yè)反復(fù)琢磨——ChatGPT進(jìn)入“Her”時(shí)代，對(duì)國(guó)內(nèi)大模型公司意味著什么？

OpenAI用幾個(gè)短小精悍的場(chǎng)景演示，讓用戶直觀了解到了GPT-4o的多模態(tài)理解能力、幾乎無(wú)延遲的反應(yīng)能力，以及與人類相近的共情感受與表達(dá)能力，科幻電影《Her》中女性語(yǔ)音智能機(jī)器人的形象由此得到現(xiàn)實(shí)復(fù)刻。

ChatGPT成為“Her”，在技術(shù)上的震撼點(diǎn)主要來(lái)自于GPT-4o對(duì)多模態(tài)實(shí)時(shí)交互的反應(yīng)速度有如此快的提升。例如，它對(duì)音頻輸入的響應(yīng)時(shí)間最短可達(dá)232毫秒，平均為320毫秒，這與人類在對(duì)話中的響應(yīng)時(shí)間非常相似。但在此之前，使用GPT-3.5和GPT-4的平均延遲分別為2.8秒和5.4秒。

OpenAI在官網(wǎng)對(duì)這個(gè)變化背后的原因進(jìn)行了闡釋。此前，其音頻模型（Voice Mode）是一個(gè)近似三個(gè)獨(dú)立模型組成的管道：一個(gè)簡(jiǎn)單模型將音頻轉(zhuǎn)錄為文本，GPT-3.5或GPT-4接收文本并輸出文本，第三個(gè)簡(jiǎn)單模型再將文本轉(zhuǎn)換回音頻。

在這個(gè)過(guò)程中，模型智力的主要來(lái)源GPT-4（或GPT-3.5）會(huì)丟失大量信息：它不能直接觀察音調(diào)、多個(gè)說(shuō)話者以及背景噪音，也不能輸出笑聲、歌聲或表達(dá)情感。

在GPT-4o上，OpenAI訓(xùn)練了一個(gè)跨文本、視覺(jué)和音頻的端到端新模型，這意味著所有輸入和輸出都來(lái)自同一個(gè)神經(jīng)網(wǎng)絡(luò)。這大概是這個(gè)多模態(tài)模型在理解與生成能力以及反應(yīng)速度上都獲得明顯提升的核心原因。

事實(shí)上，不需要跨模態(tài)融合、由同一神經(jīng)網(wǎng)絡(luò)完成訓(xùn)練的原生多模態(tài)大模型，正是國(guó)內(nèi)大模型創(chuàng)業(yè)公司正在試圖突破的方向。因?yàn)樗軒?lái)所有GPT-4o目前展現(xiàn)出來(lái)的優(yōu)勢(shì)：低成本、高效率，這不僅是產(chǎn)品優(yōu)化的基礎(chǔ)，也是大規(guī)模商業(yè)化的前提。

但來(lái)自投資人視角的觀察結(jié)論是，即便只是音頻模型的端到端訓(xùn)練，目前國(guó)內(nèi)大模型創(chuàng)業(yè)公司也都還未走到這一步。

除了基于原生多模態(tài)的模型變化，促成GPT-4o反應(yīng)如此之快的另一個(gè)重要因素在于模型尺寸。OpenAI并未公開(kāi)表明過(guò)GPT-4o或是GPT-4 Turbo的參數(shù)大小，行業(yè)只是基于API調(diào)用價(jià)格以及傳聞（例如GPT-3.5 Turbo可能是一個(gè)20B大小的模型，而GPT-3.5為175B），按照比例關(guān)系來(lái)推測(cè)過(guò)這些新模型的尺寸。

在此前提下，GPT-4o大概率是一個(gè)比1.8T更小的尺寸模型，而這種在保證模型能力的情況下變小、變快，甚至在某些維度上變強(qiáng)的工程化能力，正是OpenAI難以被競(jìng)爭(zhēng)者超越的“魔法”所在。

這也是國(guó)內(nèi)大模型行業(yè)正在努力的方向之一。為了降低大模型的推理成本，行業(yè)理應(yīng)壓縮模型，而從Scaling Law（規(guī)模法則）來(lái)看，這個(gè)目的只能通過(guò)“先變大、再變小”來(lái)實(shí)現(xiàn)，這樣才有可能兼顧速度和性能。

至于如何像GPT-4o一樣“在變小的同時(shí)變強(qiáng)”，這也是各家技術(shù)比拼的關(guān)鍵點(diǎn)。

據(jù)界面新聞?dòng)浾吡私猓瑖?guó)內(nèi)從事底層大模型研發(fā)的創(chuàng)業(yè)公司普遍都在關(guān)注這一技術(shù)方向，但各自的重視程度并不相同。例如，有的觀點(diǎn)會(huì)認(rèn)為率先做出萬(wàn)億參數(shù)大模型、達(dá)到GPT-4時(shí)刻更重要，有的則會(huì)認(rèn)為在研發(fā)的途中兼顧應(yīng)用的成本與性價(jià)比同樣重要。但無(wú)一例外的是，目前行業(yè)還沒(méi)有呈現(xiàn)出太好的解法。

產(chǎn)品層面，來(lái)自國(guó)內(nèi)大模型獨(dú)角獸的產(chǎn)品中，Kimi（Kimi+）、萬(wàn)知、躍問(wèn)等等，雖然已經(jīng)具備一定多模理解與生成的能力，但更多還是聚焦于AI搜索引擎、AI專業(yè)助手等輕量級(jí)agent，在語(yǔ)音實(shí)時(shí)交互層面仍然無(wú)法達(dá)到ChatGPT的能力水平。

并且，Minimax在最新發(fā)布的海螺AI中加入了“小海螺”角色，功能在于提供實(shí)時(shí)語(yǔ)音對(duì)話服務(wù)，定位直接對(duì)標(biāo)ChatGPT在語(yǔ)音交互上的能力。但根據(jù)公司的官方演示視頻，“小海螺”無(wú)論在反應(yīng)速度、表達(dá)方式，還是在音色、情感等擬人能力上，仍然有距離感明顯的“AI感”。

因此，GPT-4o帶給行業(yè)的技術(shù)質(zhì)問(wèn)其實(shí)是，在同等參數(shù)量級(jí)與性能水平下，能否做到跟它同樣快？如果速度也能趕上，那能否兼顧其對(duì)音頻、視覺(jué)和文本的多模態(tài)實(shí)時(shí)交互能力？

實(shí)際上，GPT-4o的降本能力體現(xiàn)到產(chǎn)品和商業(yè)化上，是擴(kuò)大AI應(yīng)用用戶規(guī)模的前提。

OpenAI對(duì)于ChatGPT免費(fèi)開(kāi)放的決策，已經(jīng)在行業(yè)內(nèi)被普遍認(rèn)為是一個(gè)“正確路線”。前述投資人表示，“擴(kuò)大用戶base，讓多模態(tài)大模型讓用戶更快、更簡(jiǎn)單地先用起來(lái)，這個(gè)思路肯定是對(duì)的。”

獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛在發(fā)布會(huì)結(jié)束后談?wù)摰溃癘penAI發(fā)布應(yīng)用恰恰說(shuō)明了應(yīng)用在人工智能領(lǐng)域大有可為，每一個(gè)創(chuàng)業(yè)者都應(yīng)該去好好地做人工智能應(yīng)用。”

不過(guò)，反過(guò)來(lái)看，OpenAI發(fā)布GPT-4o而非GPT-5（或是GPT-4.5），還是給大模型技術(shù)遇冷的觀點(diǎn)留下生存空間。

傅盛表示，“如果不計(jì)成本的累參數(shù)，提高所謂的大模型能力，這條路肯定是容易遇到困難的，目前看起來(lái)GPT-5.0可能還要難產(chǎn)一段時(shí)間。”

金沙江創(chuàng)投主管合伙人朱嘯虎則對(duì)此發(fā)表了三個(gè)觀點(diǎn)：第一，大模型的技術(shù)迭代曲線明顯放緩；第二，開(kāi)始卷免費(fèi)，說(shuō)明GPT的用戶和收入增長(zhǎng)都已經(jīng)碰到瓶頸，不是深度綁定大廠的模型公司基本已經(jīng)出局；第三，應(yīng)用會(huì)迅速爆發(fā)，推理成本再降一個(gè)數(shù)量級(jí)就會(huì)普及出現(xiàn)AI時(shí)代的國(guó)民應(yīng)用。

暫且不論大模型創(chuàng)業(yè)公司生死存亡的問(wèn)題，GPT-4o的出現(xiàn)的確留下了兩個(gè)矛盾信號(hào)：好消息是，關(guān)于OpenAI在GPT-5可能遇到的瓶頸，國(guó)內(nèi)底層大模型加速追趕的窗口期或許到了；壞消息是，在應(yīng)用層上，OpenAI目前所能打磨出來(lái)的用戶體驗(yàn)，大概也需要國(guó)內(nèi)創(chuàng)業(yè)者們花上好一陣時(shí)間來(lái)追趕。

此外，OpenAI給行業(yè)留下了一個(gè)謙虛的“挑釁”是，團(tuán)隊(duì)指出，GPT-4o是其第一個(gè)完成這種端到端訓(xùn)練的模型，因此團(tuán)隊(duì)仍在探索其功能和局限性——這意味著未來(lái)歷經(jīng)迭代的GPT-4o，能力極限或許遠(yuǎn)不止于此。

轉(zhuǎn)載來(lái)源：界面新聞作者：伍洋宇

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【伍洋宇】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議