GPT-4來(lái)了其考試能力挑戰(zhàn)人類(lèi)

周應(yīng)梅2023-03-15 16:47

經(jīng)濟(jì)觀察網(wǎng) 記者周應(yīng)梅 美國(guó)時(shí)間3月14日，AI大模型訓(xùn)練公司OpenAI發(fā)布了ChatGPT（GPT-3.5階段）的升級(jí)版GPT-4。GPT-4是超大多模態(tài)模型，在此前的純文本輸入基礎(chǔ)上，增加了圖像輸入。相比GPT-3.5，GPT-4在AI能力上又取得了更多進(jìn)步，例如GPT-4通過(guò)模擬美國(guó)律師資格考試，分?jǐn)?shù)在應(yīng)試者的前10%左右；相比之下，GPT-3.5的得分在倒數(shù)10%左右。

在真實(shí)性方面，GPT-4相比GPT-3.5提高了40%。在可操縱性、風(fēng)險(xiǎn)規(guī)避等多方面，GPT-4也有較多改善。

在OpenAI聯(lián)合創(chuàng)始人兼總裁Greg Brockman的Twitter博文下，有人用“爆炸”來(lái)形容這次GPT模型的升級(jí)。

OpenAI公布了GPT-4多項(xiàng)專(zhuān)業(yè)考試的模擬考試結(jié)果。美國(guó)高考LSAT考試，滿分180分GPT-4可以考163分，打敗了88%的考生，GPT-3.5階段僅能超過(guò)40%的考生；SAT循證閱讀與寫(xiě)作滿分800分，GPT-4可以考710分，超過(guò)93%的考生，GPT-3.5階段能超過(guò)87%考生。不過(guò)也有多項(xiàng)考試模擬測(cè)試中GPT-4依然無(wú)法超過(guò)大多數(shù)人類(lèi)考生，在GRE Writing（美國(guó)研究生入學(xué)考試寫(xiě)作）中，GPT-4相比GPT-3.5未有多大進(jìn)步，只能達(dá)到中間水平；AMC10數(shù)學(xué)競(jìng)賽、力扣（Leetcode）中級(jí)以上等模擬測(cè)試中，GPT-4表現(xiàn)也不夠理想。

OpenAI稱(chēng)，GPT-4比GPT-3.5更可靠、更有創(chuàng)意，并且能夠處理更細(xì)微的指令。OpenAI內(nèi)部開(kāi)始將GPT-4用于內(nèi)部業(yè)務(wù)服務(wù)，對(duì)公司銷(xiāo)售、內(nèi)容審核和編程業(yè)務(wù)產(chǎn)生了較大影響。

一位近期投入AIGC創(chuàng)業(yè)賽道的行業(yè)人員對(duì)經(jīng)濟(jì)觀察網(wǎng)記者表示，支持圖片輸入是一大突破。

目前GPT-4圖像輸入還處于研究預(yù)覽階段，暫不公開(kāi)。根據(jù)測(cè)試的情況，輸入多張圖片，GPT-4可以較為準(zhǔn)確的描述，并且能解答圖片的搞笑之處。

OpenAI稱(chēng)，為了使圖像輸入功能獲得更廣泛的可用性，正在與一個(gè)合作伙伴進(jìn)行密切合作。同時(shí)，OpenAI開(kāi)源了自動(dòng)評(píng)估AI模型性能的框架OpenAI Evals，允許任何人報(bào)告模型中的缺點(diǎn)，以獲得進(jìn)一步的改進(jìn)。

GPT-4階段開(kāi)發(fā)人員可以規(guī)定AI的風(fēng)格，不再像經(jīng)典的chatGPT，是固定冗長(zhǎng)的語(yǔ)調(diào)風(fēng)格。這是想讓AI變得更加可操縱。GPT-4系統(tǒng)消息也將允許API用戶在一定范圍內(nèi)定制他們的用戶體驗(yàn)。

GPT-4還在安全性上進(jìn)行了迭代，對(duì)“如何制造炸彈”這樣的問(wèn)題，GPT-4顯示了拒絕提供具體辦法的答案。OpenAI請(qǐng)了50多位來(lái)自AI對(duì)齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、信任和安全以及國(guó)際安全等領(lǐng)域的專(zhuān)家來(lái)對(duì)模型進(jìn)行對(duì)抗性測(cè)試，根據(jù)專(zhuān)家的反饋和數(shù)據(jù)，對(duì)模型進(jìn)行了改造。與GPT-3.5相比，GPT-4對(duì)不允許內(nèi)容的請(qǐng)求的響應(yīng)傾向降低了82%。

但GPT-4仍然會(huì)出現(xiàn)回答錯(cuò)誤的問(wèn)題，這是其長(zhǎng)期以來(lái)面對(duì)的局限性。GPT-4在俗語(yǔ)識(shí)別、細(xì)節(jié)事實(shí)確認(rèn)方面依然較為薄弱。“GPT-4 有時(shí)會(huì)犯簡(jiǎn)單的推理錯(cuò)誤，或者在接受用戶明顯的虛假陳述時(shí)過(guò)于輕信。有時(shí)它也會(huì)像人類(lèi)一樣在難題上失敗，例如在它生成的代碼中引入安全漏洞。”OpenAI方面提及。

目前，用戶可通過(guò)新的OpenAI官網(wǎng)發(fā)布的ChatGPT Plus獲得GPT-4訪問(wèn)權(quán)限，會(huì)有使用限制。OpenAI稱(chēng)，將根據(jù)實(shí)踐的需求和系統(tǒng)性能調(diào)整確定使用上限，預(yù)計(jì)會(huì)有嚴(yán)重的容量限制，接下來(lái)幾個(gè)月將進(jìn)行擴(kuò)展和優(yōu)化。

版權(quán)聲明：以上內(nèi)容為《經(jīng)濟(jì)觀察報(bào)》社原創(chuàng)作品，版權(quán)歸《經(jīng)濟(jì)觀察報(bào)》社所有。未經(jīng)《經(jīng)濟(jì)觀察報(bào)》社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請(qǐng)致電：【010-60910566-1260】。