文科考上一本理科不及格，大模型“高考”為啥偏科？

肖芳2024-06-28 08:02

隨著各地高考出分，各家大模型回答高考題的能力也有了一個(gè)更加客觀的衡量標(biāo)準(zhǔn)。

根據(jù)極客公園使用高考新課標(biāo)Ⅰ卷的評(píng)測(cè)，GPT-4o以562分排名文科總分第一。國(guó)內(nèi)產(chǎn)品中，字節(jié)跳動(dòng)旗下的豆包拔得頭籌，成績(jī)是542.5分，其后依次是百度文心一言4.0的537.5分、百川智能“百小應(yīng)”的521分。本次大模型高考評(píng)測(cè)與河南省考卷完全相同，而河南高考錄取分?jǐn)?shù)線顯示，文科本科一批錄取分?jǐn)?shù)線為521分，上述三款國(guó)產(chǎn)AI成功沖上一本線。

相比之下，大模型的理科成績(jī)要差很多，最高分還不到480分，多數(shù)大模型的理科總分在400分以下。

從具體的科目來(lái)看，英語(yǔ)是大模型表現(xiàn)最優(yōu)異的學(xué)科，九個(gè)大模型的平均分高達(dá)132分（滿分 150），大部分大模型都可以做到客觀題接近滿分。其次是語(yǔ)文，但不論中外大模型語(yǔ)文的得分都要略差于英語(yǔ)，得分較高的大模型分?jǐn)?shù)能夠達(dá)到120分。

在數(shù)學(xué)試卷中，9款大模型產(chǎn)品中，僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(jī)（滿分150分）。重點(diǎn)考查實(shí)驗(yàn)探究能力的化學(xué)和物理試卷，各模型平均分更是只有34分和39分（滿分為100和110）。

而在另一個(gè)機(jī)構(gòu)司南評(píng)測(cè)體系對(duì)高考全國(guó)新課標(biāo)I卷“語(yǔ)數(shù)外”三個(gè)科目的評(píng)測(cè)也呈現(xiàn)類似的趨勢(shì)，7款參與評(píng)測(cè)的大模型英語(yǔ)和語(yǔ)文的成績(jī)較高，數(shù)學(xué)成績(jī)均不及格。

雖然不同評(píng)測(cè)機(jī)構(gòu)的標(biāo)準(zhǔn)有所差異，但一個(gè)非常明顯的趨勢(shì)是，大模型更擅長(zhǎng)回答文科試題，而不太擅長(zhǎng)回答數(shù)學(xué)、物理等理科題目。

在一些人的印象中，數(shù)學(xué)一直都是計(jì)算機(jī)的強(qiáng)項(xiàng)，大模型在數(shù)學(xué)等理科試題上表現(xiàn)糟糕讓他們有些意外。但一位大模型技術(shù)專家告訴界面新聞，這可能是普通人對(duì)大模型最大的誤解，因?yàn)榇竽Ｐ秃陀?jì)算機(jī)完全是兩個(gè)不同的體系。

這位大模型技術(shù)專家表示，大模型理科表現(xiàn)不好，本質(zhì)上都來(lái)源于數(shù)學(xué)能力的欠缺。這個(gè)和大模型本身的next-token prediction（下一個(gè)詞預(yù)測(cè)）有關(guān)。

據(jù)界面新聞了解，在大語(yǔ)言模型中，next-token prediction是非常關(guān)鍵的一個(gè)環(huán)節(jié)。當(dāng)模型處理輸入的文本序列時(shí)，它會(huì)基于已有的信息和學(xué)習(xí)到的語(yǔ)言知識(shí)，對(duì)下一個(gè)最可能出現(xiàn)的詞（token）進(jìn)行預(yù)測(cè)。模型通過(guò)對(duì)大量文本數(shù)據(jù)的學(xué)習(xí)，理解了不同詞之間的概率分布和關(guān)聯(lián)關(guān)系。在預(yù)測(cè)時(shí)，模型會(huì)計(jì)算每個(gè)可能的下一個(gè)詞出現(xiàn)的概率，并選擇概率較高的詞作為預(yù)測(cè)結(jié)果。

這種逐詞預(yù)測(cè)的方式使得模型能夠生成連貫的文本輸出。通過(guò)不斷地進(jìn)行下一個(gè)詞預(yù)測(cè)，模型可以生成一段完整的文本內(nèi)容。為了提高預(yù)測(cè)的準(zhǔn)確性，模型的訓(xùn)練過(guò)程會(huì)不斷調(diào)整參數(shù)，以更好地捕捉語(yǔ)言的模式和規(guī)律。同時(shí)，模型也會(huì)考慮上下文信息，包括前面已經(jīng)生成的詞以及整個(gè)輸入文本的語(yǔ)義和語(yǔ)法結(jié)構(gòu)，來(lái)更精準(zhǔn)地進(jìn)行下一個(gè)詞預(yù)測(cè)。這有助于生成更符合邏輯和語(yǔ)義的文本，增強(qiáng)語(yǔ)言模型的表現(xiàn)和生成能力。

當(dāng)大語(yǔ)言模型學(xué)習(xí)了海量知識(shí)數(shù)據(jù)，天然就適應(yīng)考驗(yàn)記憶能力和語(yǔ)言運(yùn)用的文科考試。但理科考試主要考驗(yàn)推理和計(jì)算，比如一道數(shù)學(xué)題包含5步推理和5步計(jì)算，假設(shè)大語(yǔ)言模型每一步預(yù)測(cè)準(zhǔn)確的概率都有90%，綜合下來(lái)的準(zhǔn)確率就只有35%。

高考試題評(píng)測(cè)非常直觀地顯示出大模型的上述能力特點(diǎn)。如果是文科題目，回答是一段話，閱卷評(píng)分的時(shí)候其實(shí)主要看的還是整段話的意思是否符合要求，可能有一兩次不準(zhǔn)確，或者用了一些同義詞，都不影響評(píng)分。但如果是數(shù)學(xué)題目，假設(shè)模型前面輸出了32103，下一個(gè)token輸出一個(gè)2還是小數(shù)點(diǎn)，都會(huì)對(duì)最終結(jié)果造成決定性的影響。

目前的大模型回答理科試題時(shí)只能正確推理步驟相對(duì)簡(jiǎn)單的問(wèn)題。比如，在高考新課標(biāo)Ⅰ卷的評(píng)測(cè)中，豆包大模型能準(zhǔn)確運(yùn)用求導(dǎo)公式和三角函數(shù)定理，但是面對(duì)較為復(fù)雜的推導(dǎo)和證明問(wèn)題就很難繼續(xù)得分。而在物理試題中，有一道送分題是選擇位移隨時(shí)間變化的正確圖像，人類考生根據(jù)“時(shí)間不會(huì)倒流”可以排除所有錯(cuò)誤選項(xiàng)，但大模型則幾乎全軍覆沒(méi)。

理科語(yǔ)料比較稀缺也是大模型在理科答題能力上不如文科的重要原因之一。另一位大模型技術(shù)專家告訴界面新聞，理科語(yǔ)料稀缺的問(wèn)題從普通人日常的感知中也能理解。在日常生活中，普通人接觸的語(yǔ)料較大比例是文字語(yǔ)料，數(shù)學(xué)、物理等數(shù)字、符號(hào)語(yǔ)料較少，而用于大模型訓(xùn)練的語(yǔ)料同樣是這種分布。

上述大模型技術(shù)專家表示，在普通人認(rèn)知中很厲害的計(jì)算軟件和大模型是完全不同的技術(shù)原理。計(jì)算軟件并不是基于概率預(yù)測(cè)下一個(gè)token，而是基于提前寫(xiě)好的專家規(guī)則，專門(mén)用于計(jì)算某類數(shù)學(xué)問(wèn)題。

看起來(lái)，要學(xué)會(huì)像人類一樣思考和解決問(wèn)題，大模型還有很長(zhǎng)的路要走。在上述大模型技術(shù)專家看來(lái)，即使在文本推理上，大模型目前也只是達(dá)到了勉強(qiáng)能用的水平，還有非常大的提升空間。比如，在研報(bào)、技術(shù)文檔分析等準(zhǔn)確度要求更高的場(chǎng)景下，大模型的能力還很難達(dá)到正常使用的水平。

目前，各家大模型都在努力提升智能水平，一方面在提升文本生成能力，另一個(gè)目標(biāo)就是提高推理和計(jì)算能力。

但學(xué)界對(duì)大模型的推理和計(jì)算能力還存在爭(zhēng)議。有觀點(diǎn)認(rèn)為，next-token prediction本身就包含了推理，計(jì)算也是一種推理。只要scaling law（規(guī)模法則）生效，大模型性能持續(xù)提升，推理和計(jì)算能力就能夠提升；但也有反對(duì)者認(rèn)為，大語(yǔ)言模型缺乏真正的規(guī)劃推理能力，其涌現(xiàn)能力實(shí)際上是上下文學(xué)習(xí)的結(jié)果，主要體現(xiàn)在簡(jiǎn)單任務(wù)和事先知道答案的情境中。大語(yǔ)言模型未來(lái)是否能夠真正實(shí)現(xiàn)AGI？對(duì)于這個(gè)問(wèn)題，目前還沒(méi)有定論。

轉(zhuǎn)載來(lái)源：界面新聞作者：肖芳

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【肖芳】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議