<small id="gggg8"></small>
  • <nav id="gggg8"></nav>
  • <tr id="gggg8"></tr>
  • <sup id="gggg8"></sup>
  • 人妻少妇精品专区性色,一本岛国av中文字幕无码,中文字幕精品亚洲人成在线 ,国产在线视频一区二区二区

    文科考上一本理科不及格,大模型“高考”為啥偏科?

    肖芳2024-06-28 08:02

    隨著各地高考出分,各家大模型回答高考題的能力也有了一個(gè)更加客觀的衡量標(biāo)準(zhǔn)。

    根據(jù)極客公園使用高考新課標(biāo)Ⅰ卷的評(píng)測(cè),GPT-4o以562分排名文科總分第一。國(guó)內(nèi)產(chǎn)品中,字節(jié)跳動(dòng)旗下的豆包拔得頭籌,成績(jī)是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小應(yīng)”的521分。本次大模型高考評(píng)測(cè)與河南省考卷完全相同,而河南高考錄取分?jǐn)?shù)線顯示,文科本科一批錄取分?jǐn)?shù)線為521分,上述三款國(guó)產(chǎn)AI成功沖上一本線。

    相比之下,大模型的理科成績(jī)要差很多,最高分還不到480分,多數(shù)大模型的理科總分在400分以下。

    從具體的科目來(lái)看,英語(yǔ)是大模型表現(xiàn)最優(yōu)異的學(xué)科,九個(gè)大模型的平均分高達(dá)132分(滿分 150),大部分大模型都可以做到客觀題接近滿分。其次是語(yǔ)文,但不論中外大模型語(yǔ)文的得分都要略差于英語(yǔ),得分較高的大模型分?jǐn)?shù)能夠達(dá)到120分。

    在數(shù)學(xué)試卷中,9款大模型產(chǎn)品中,僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(jī)(滿分150分)。重點(diǎn)考查實(shí)驗(yàn)探究能力的化學(xué)和物理試卷,各模型平均分更是只有34分和39分(滿分為100和110)。

    而在另一個(gè)機(jī)構(gòu)司南評(píng)測(cè)體系對(duì)高考全國(guó)新課標(biāo)I卷“語(yǔ)數(shù)外”三個(gè)科目的評(píng)測(cè)也呈現(xiàn)類似的趨勢(shì),7款參與評(píng)測(cè)的大模型英語(yǔ)和語(yǔ)文的成績(jī)較高,數(shù)學(xué)成績(jī)均不及格。

    雖然不同評(píng)測(cè)機(jī)構(gòu)的標(biāo)準(zhǔn)有所差異,但一個(gè)非常明顯的趨勢(shì)是,大模型更擅長(zhǎng)回答文科試題,而不太擅長(zhǎng)回答數(shù)學(xué)、物理等理科題目。

    在一些人的印象中,數(shù)學(xué)一直都是計(jì)算機(jī)的強(qiáng)項(xiàng),大模型在數(shù)學(xué)等理科試題上表現(xiàn)糟糕讓他們有些意外。但一位大模型技術(shù)專家告訴界面新聞,這可能是普通人對(duì)大模型最大的誤解,因?yàn)榇竽P秃陀?jì)算機(jī)完全是兩個(gè)不同的體系。

    這位大模型技術(shù)專家表示,大模型理科表現(xiàn)不好,本質(zhì)上都來(lái)源于數(shù)學(xué)能力的欠缺。這個(gè)和大模型本身的next-token prediction(下一個(gè)詞預(yù)測(cè))有關(guān)。

    據(jù)界面新聞了解,在大語(yǔ)言模型中,next-token prediction是非常關(guān)鍵的一個(gè)環(huán)節(jié)。當(dāng)模型處理輸入的文本序列時(shí),它會(huì)基于已有的信息和學(xué)習(xí)到的語(yǔ)言知識(shí),對(duì)下一個(gè)最可能出現(xiàn)的詞(token)進(jìn)行預(yù)測(cè)。模型通過(guò)對(duì)大量文本數(shù)據(jù)的學(xué)習(xí),理解了不同詞之間的概率分布和關(guān)聯(lián)關(guān)系。在預(yù)測(cè)時(shí),模型會(huì)計(jì)算每個(gè)可能的下一個(gè)詞出現(xiàn)的概率,并選擇概率較高的詞作為預(yù)測(cè)結(jié)果。

    這種逐詞預(yù)測(cè)的方式使得模型能夠生成連貫的文本輸出。通過(guò)不斷地進(jìn)行下一個(gè)詞預(yù)測(cè),模型可以生成一段完整的文本內(nèi)容。為了提高預(yù)測(cè)的準(zhǔn)確性,模型的訓(xùn)練過(guò)程會(huì)不斷調(diào)整參數(shù),以更好地捕捉語(yǔ)言的模式和規(guī)律。同時(shí),模型也會(huì)考慮上下文信息,包括前面已經(jīng)生成的詞以及整個(gè)輸入文本的語(yǔ)義和語(yǔ)法結(jié)構(gòu),來(lái)更精準(zhǔn)地進(jìn)行下一個(gè)詞預(yù)測(cè)。這有助于生成更符合邏輯和語(yǔ)義的文本,增強(qiáng)語(yǔ)言模型的表現(xiàn)和生成能力。

    當(dāng)大語(yǔ)言模型學(xué)習(xí)了海量知識(shí)數(shù)據(jù),天然就適應(yīng)考驗(yàn)記憶能力和語(yǔ)言運(yùn)用的文科考試。但理科考試主要考驗(yàn)推理和計(jì)算,比如一道數(shù)學(xué)題包含5步推理和5步計(jì)算,假設(shè)大語(yǔ)言模型每一步預(yù)測(cè)準(zhǔn)確的概率都有90%,綜合下來(lái)的準(zhǔn)確率就只有35%。

    高考試題評(píng)測(cè)非常直觀地顯示出大模型的上述能力特點(diǎn)。如果是文科題目,回答是一段話,閱卷評(píng)分的時(shí)候其實(shí)主要看的還是整段話的意思是否符合要求,可能有一兩次不準(zhǔn)確,或者用了一些同義詞,都不影響評(píng)分。但如果是數(shù)學(xué)題目,假設(shè)模型前面輸出了32103,下一個(gè)token輸出一個(gè)2還是小數(shù)點(diǎn),都會(huì)對(duì)最終結(jié)果造成決定性的影響。

    目前的大模型回答理科試題時(shí)只能正確推理步驟相對(duì)簡(jiǎn)單的問(wèn)題。比如,在高考新課標(biāo)Ⅰ卷的評(píng)測(cè)中,豆包大模型能準(zhǔn)確運(yùn)用求導(dǎo)公式和三角函數(shù)定理,但是面對(duì)較為復(fù)雜的推導(dǎo)和證明問(wèn)題就很難繼續(xù)得分。而在物理試題中,有一道送分題是選擇位移隨時(shí)間變化的正確圖像,人類考生根據(jù)“時(shí)間不會(huì)倒流”可以排除所有錯(cuò)誤選項(xiàng),但大模型則幾乎全軍覆沒(méi)。

    理科語(yǔ)料比較稀缺也是大模型在理科答題能力上不如文科的重要原因之一。另一位大模型技術(shù)專家告訴界面新聞,理科語(yǔ)料稀缺的問(wèn)題從普通人日常的感知中也能理解。在日常生活中,普通人接觸的語(yǔ)料較大比例是文字語(yǔ)料,數(shù)學(xué)、物理等數(shù)字、符號(hào)語(yǔ)料較少,而用于大模型訓(xùn)練的語(yǔ)料同樣是這種分布。

    上述大模型技術(shù)專家表示,在普通人認(rèn)知中很厲害的計(jì)算軟件和大模型是完全不同的技術(shù)原理。計(jì)算軟件并不是基于概率預(yù)測(cè)下一個(gè)token,而是基于提前寫(xiě)好的專家規(guī)則,專門(mén)用于計(jì)算某類數(shù)學(xué)問(wèn)題。

    看起來(lái),要學(xué)會(huì)像人類一樣思考和解決問(wèn)題,大模型還有很長(zhǎng)的路要走。在上述大模型技術(shù)專家看來(lái),即使在文本推理上,大模型目前也只是達(dá)到了勉強(qiáng)能用的水平,還有非常大的提升空間。比如,在研報(bào)、技術(shù)文檔分析等準(zhǔn)確度要求更高的場(chǎng)景下,大模型的能力還很難達(dá)到正常使用的水平。

    目前,各家大模型都在努力提升智能水平,一方面在提升文本生成能力,另一個(gè)目標(biāo)就是提高推理和計(jì)算能力。

    但學(xué)界對(duì)大模型的推理和計(jì)算能力還存在爭(zhēng)議。有觀點(diǎn)認(rèn)為,next-token prediction本身就包含了推理,計(jì)算也是一種推理。只要scaling law(規(guī)模法則)生效,大模型性能持續(xù)提升,推理和計(jì)算能力就能夠提升;但也有反對(duì)者認(rèn)為,大語(yǔ)言模型缺乏真正的規(guī)劃推理能力,其涌現(xiàn)能力實(shí)際上是上下文學(xué)習(xí)的結(jié)果,主要體現(xiàn)在簡(jiǎn)單任務(wù)和事先知道答案的情境中。大語(yǔ)言模型未來(lái)是否能夠真正實(shí)現(xiàn)AGI?對(duì)于這個(gè)問(wèn)題,目前還沒(méi)有定論。

    轉(zhuǎn)載來(lái)源:界面新聞 作者:肖芳

    版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【肖芳】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù),不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議

    熱新聞

    人妻少妇精品专区性色
    <small id="gggg8"></small>
  • <nav id="gggg8"></nav>
  • <tr id="gggg8"></tr>
  • <sup id="gggg8"></sup>