3月29日,馬斯克旗下的xAI團隊突然發(fā)布了Grok-1.5大模型,新模型的兩大重磅更新被甩在產(chǎn)品介紹的封面頁——
一、推理性能大幅提升。
Grok-1.5處理編程和數(shù)學(xué)相關(guān)任務(wù)的能力全面超越Grok-1、Mistral Large、Claude2。
數(shù)學(xué)方面,從基準測試的結(jié)果來看,Grok-1.5在MATH基準測試中取得了50.6%的得分,在GSM8K基準上,Grok-1.5獲得了90%的得分,這兩個數(shù)學(xué)基準測試涵蓋了小學(xué)基礎(chǔ)算術(shù)到高中高級數(shù)學(xué)的競賽問題。
xAI團隊核心成員稱:“在從Grok1版本升級到1.5版本的過程中,數(shù)學(xué)推理能力從24%提升至50%”。
編程方面,Grok-1.5在評估代碼生成和解決問題能力的HumanEval基準測試中得分為74.1%,超越了GPT-4。
不過,在MMLU、GSM8K等一系列的基準測試中,Grok1的表現(xiàn)遠勝于LLaMA270B,但和Claude2以及GPT-4仍有不小的差距。其中,HumanEval測試是唯一一個顯示Grok-1.5超越GPT-4的測試。
二、文本理解能力增強。
Grok-1.5能容納的上下文長度大大擴展,是Grok-1的16倍,提升到了與GPT-4Turbo相同的檔次,能夠處理多達128K個token,相當于300頁的文本,相當于可以塞進一部中篇小說。
在“大海撈針”(NIAH)測試中,Grok-1.5展示了強大的檢索能力,在128Ktoken的上下文中完美檢索嵌入的文本:
由于Grok系列是一個規(guī)模較大的模型,需要有足夠GPU內(nèi)存進行訓(xùn)練,為了更加靈活地利用基礎(chǔ)設(shè)施,據(jù)官方介紹,Grok1.5采用分布式訓(xùn)練架構(gòu),使用Rust、JAX+Kubernetes構(gòu)建。
為了提高訓(xùn)練可靠性和維持正常運行時間,團隊提出了自定義訓(xùn)練協(xié)調(diào)器,可自動檢測到有問題的節(jié)點,然后剔除。
除此之外,他們還優(yōu)化了check pointing、數(shù)據(jù)加載和訓(xùn)練重啟等流程,最大限度地減少故障停機時間。
xAI宣布,Grok-1.5將在未來幾天內(nèi)向早期測試者和平臺上的Grok用戶開放。隨著Grok-1.5逐步向更廣泛的用戶推出,未來幾天也會推出幾項新功能。
此前3月17日,馬斯克宣布開源Grok-1,這使得Grok-1成為當前參數(shù)量最大的開源大語言模型,擁有3140億參數(shù),遠超OpenAI GPT-3.5的1750億。
如今不到半個月,馬斯克的AI團隊便放出更強的Grok-1.5。AI大模型競爭之激烈可見一斑。
來源:財聯(lián)社 作者:宋子喬