高考志愿填報還在火熱進行中。今年,AI大模型志愿填報成為亮點。
志愿填報是高考后的關(guān)鍵環(huán)節(jié),像山東、貴州等省份實施新高考后需要填寫 96個志愿,提高了信息獲取的要求和難度。
AI具有推理優(yōu)勢,近年來已經(jīng)有不少公司在推出AI填報志愿。尤其是隨著大模型的崛起,不少大模型產(chǎn)品也相繼入局。
但是,這些產(chǎn)品性能如何,給出的志愿推薦是否具有參考性,誤差有多大?
21世紀經(jīng)濟報道記者測評了夸克、文心一言、百度AI志愿助手、騰訊元寶、天工AI、通義千問、智譜清言、靠譜AI、作業(yè)幫9款產(chǎn)品,結(jié)果發(fā)現(xiàn)均存在一定問題,尤其是文心一言、騰訊元寶、天工AI、通義千問、智譜清言等大模型產(chǎn)品,誤差率高。
測評發(fā)現(xiàn)問題包括:
1、上述提及的大模型產(chǎn)品推薦誤差率高。志愿推薦的“沖、穩(wěn)、保”三個檔次準確率低,存在“沖”的學(xué)校歷年分數(shù)線低于“保”底學(xué)校。通義千問、智譜清言甚至出現(xiàn)給黑龍江省內(nèi)排名4000左右的學(xué)生推薦沖刺清華、北大的建議,給山東排名64000名的學(xué)生推薦沖刺北京航空航天大學(xué)的建議。
2、底層數(shù)據(jù)缺失,即時數(shù)據(jù)更新不及時,一些推薦學(xué)校在該省份并無招生計劃。
3、個性化推薦不夠智能,選擇志愿目標城市為北京,但文心一言、智譜清言等產(chǎn)品中出現(xiàn)多個學(xué)校并非北京高校。
根據(jù)艾媒咨詢數(shù)據(jù),2023年中國高考志愿填報市場付費規(guī)模為9.5億元,近九成高考生愿意選擇高考志愿填報服務(wù),市場規(guī)模持續(xù)增加。AI產(chǎn)品想要吃下市場紅利,目前的產(chǎn)品能力仍有較大不足。
此次測評的產(chǎn)品分別為:夸克、百度文心一言、百度AI志愿助手、騰訊元寶、天工AI、通義千問、智譜清言、靠譜AI、作業(yè)幫。上述測評產(chǎn)品主要是在應(yīng)用商店、網(wǎng)頁、小程序等搜索AI志愿,彈出的排名靠前的產(chǎn)品。
為了客觀、準確反應(yīng)AI產(chǎn)品志愿填報的能力與精準度,21世紀經(jīng)濟報道記者分別用不同省份、高分段與中分段進行了測評,并且進行了二輪交叉檢驗。
測評首先設(shè)計了兩個測評人設(shè):
1)黑龍江考生,628分,排名,選科為物理、化學(xué)、生物,目標城市北京,想選擇人工智能相關(guān)領(lǐng)域?qū)I(yè)。
2)山東考生,考分558分,排名約64000,對城市與學(xué)校沒有相關(guān)要求,專業(yè)覆蓋人工智能、航空航天。
在一款產(chǎn)品的“智能填報”頁面上,輸入高考總分、選科等基本信息,系統(tǒng)會推薦“沖、穩(wěn)、保”三種不同風險類型的志愿和錄取概率預(yù)測。
進一步按照院校優(yōu)先、專業(yè)優(yōu)先、職業(yè)優(yōu)先等篩選條件來縮小選擇范圍。
測評的9款A(yù)I志愿填報產(chǎn)品中,主要分為兩種類型:一種為在線“志愿一鍵填報”,主要應(yīng)用是大數(shù)據(jù)技術(shù),考生輸入相關(guān)信息,系統(tǒng)根據(jù)各院校專業(yè)往年的錄取分數(shù)、位次進行匹配,自動生成填報建議,包括按照“沖”“穩(wěn)”“保”給出不同層次的推薦結(jié)果,包括各專業(yè)最近幾年的錄取最低分、最低位次、招生計劃,以及預(yù)估的錄取概率等。夸克、作業(yè)幫主要是這一類型。
另外一種則為大模型產(chǎn)品,用戶與大模型對話,得到更充分的填報建議,也有志愿表格推薦等形式,文心一言、騰訊元寶、通義千問、天工AI等屬于該類型。靠譜AI兩種形式皆有。
記者根據(jù)歷年分數(shù)線、排名、招生計劃,對上述9款產(chǎn)品所推薦的結(jié)果進行判斷,整體來看,AI大模型給出的推薦結(jié)果靠譜程度低于傳統(tǒng)AI的志愿填報系統(tǒng)。
以黑龍江高分段考生為例,測評結(jié)果顯示,百度的文心一言,它推薦的沖刺類型學(xué)校為上海交通大學(xué)和中國科學(xué)院大學(xué),上海交通大學(xué)是上海的學(xué)校,其不符合測評考生的目標城市北京,并且,根據(jù)2024年中國科學(xué)院大學(xué)的本科招生分省分專業(yè)計劃表中,中國科學(xué)院大學(xué)沒有黑龍江招生計劃。推薦的“穩(wěn)”學(xué)校為北航、北郵和華科往年錄取學(xué)生排名大概在1000、2000以內(nèi),而測評考生排名4千名左右,“穩(wěn)”和“保”難度較大。
通義千問和智譜清言則將清華和北大作為測評考生的沖刺學(xué)校,作為排名4千多名的考生,這兩所學(xué)校沖刺的可能性極低,誤差較大。
夸克、靠譜AI和作業(yè)幫這四款產(chǎn)品也存在一定誤差,比如夸克推薦保底的學(xué)校北京師范大學(xué),歷年在黑龍江的錄取排名大概在三千名,也并非完全可以“保”的學(xué)校。不過整體來看,傳統(tǒng)AI志愿填報產(chǎn)品誤差率小于大模型產(chǎn)品。
再來看中分段的推薦結(jié)果,大模型產(chǎn)品誤差仍較大。
文心一言推薦結(jié)果不穩(wěn)定,用同樣的考生條件多次提問,給出的答案大有不同,甚至會出現(xiàn)同樣的學(xué)校專業(yè)推薦出現(xiàn)在不同檔次的填報中的情況。
同時,文心一言、騰訊元寶、天工AI、通義千問給出的志愿填報推薦參考價值不高,對于排名64000名的考生卻推薦要求排名在5000名及以內(nèi)的學(xué)校,出現(xiàn)了985院校作為保底志愿填報進行推薦的情況,比如文心一言和智譜清言推薦排名64000名的考生沖刺北京航空航天大學(xué),通義千問則在“保”的推薦中出現(xiàn)了北京航空航天大學(xué)。
大模型產(chǎn)品往往給出的推薦建議沒有以往名次與分數(shù)線提供參考,而是與提問中的專業(yè)等關(guān)鍵詞更加貼近,這也與大模型的屬性有關(guān)。
在互動性方面, AI大模型產(chǎn)品的互動性更強,不僅局限于簡單的一問一答模式,還會根據(jù)用戶的指令智能調(diào)節(jié)后續(xù)問題的深度和廣度,比如在高考志愿填報的背景下,它們一般會就模型推薦的填報志愿學(xué)校、專業(yè)的具體情況和就業(yè)前景等提供進一步的咨詢服務(wù),文心一言、騰訊元寶、天工AI、通義千問和智譜清言都會在回復(fù)下面提示,“你可以繼續(xù)問我:上海交通大學(xué)近幾年的分數(shù)線是多少呢,北京有哪些好大學(xué)等問題”。夸克、靠譜AI和作業(yè)幫等傳統(tǒng)AI的志愿填報系統(tǒng)互動性不夠,與產(chǎn)品定位重點不同有關(guān)。
測評的志愿填報產(chǎn)品中,大部分沒有廣告與后續(xù)付費要求。夸克、文心一言、AI志愿助手、通義千問、智譜測評中未發(fā)現(xiàn)廣告與后續(xù)付費情況。天工AI需要分享才能查看志愿詳情,靠譜AI則會限制每個用戶免費使用的次數(shù),同時,若想進一步獲得更多消息也需要付費升級會員。
2014年以來,全國共有29個省份分五批啟動了高考改革。新高考模式下,報志愿的難度提升,高考志愿填報成了一門熱門生意,“錢景”廣闊。
AI志愿填報近年來“水漲船高”,大模型的快速迭代,性能提升,成為今年志愿填報市場一股新增量。
大模型產(chǎn)品互動性更強,人機對話形式降低了志愿填報產(chǎn)品的使用門檻,可以用聊天的方式獲取信息和建議。并且測評顯示,互動過程中,不少產(chǎn)品也能抓取更有針對性的資料給到用戶。
但是,大模型產(chǎn)品對數(shù)據(jù)有強依賴性,底層數(shù)據(jù)的缺失或是測評中大模型產(chǎn)品志愿推薦不靠譜的主因之一。
中國教育科學(xué)研究院研究員儲朝暉在此前接受21世紀經(jīng)濟報道采訪時表示,目前考生填報志愿存在幾個難點,第一個是高校的招生簡章當中沒有準確表述招生訴求,第二個是高校公開的數(shù)據(jù)的質(zhì)量、標準不一樣,比如不同學(xué)校的同一個專業(yè),內(nèi)涵是有差異的。
此外,最關(guān)鍵的是,有些院校專業(yè)并未及時公布最近的錄取分數(shù)線、錄取位次等數(shù)據(jù)。
一位高考志愿填報產(chǎn)品負責人告訴21世紀經(jīng)濟報道,基礎(chǔ)數(shù)據(jù)的準確和全面,是他們每年花最多精力來打造的事情,要動用上百人的人工標注團隊來處理數(shù)據(jù)。
缺乏對院校專業(yè)權(quán)威的評估體系和評估數(shù)據(jù),大模型志愿填報精確性難以提升。從測評結(jié)果來看,想要真正在志愿填報的紅海中立足,大模型還有一段距離要走。
轉(zhuǎn)載來源:21世紀經(jīng)濟報道 作者: 王俊 王峰 實習生 劉欣、朱奕潼