經(jīng)濟觀察網(wǎng) 記者 陳月芹 大模型與云計算,正在成為AI(人工智能)時代的淘金者和賣鏟人。而作為數(shù)據(jù)的載體,數(shù)據(jù)存儲則是AI大模型的關(guān)鍵基礎(chǔ)設(shè)施。
4月8日,騰訊云帶來了面向AIGC(生成式人工智能)場景全面升級的云存儲解決方案,主要由對象存儲COS、高性能并行文件存儲CFS Turbo、數(shù)據(jù)加速器GooseFS和數(shù)據(jù)萬象CI等產(chǎn)品組成。
這一系列云存儲產(chǎn)品瞄準時下最火的大模型全鏈路數(shù)據(jù)處理難題。一般而言,AI大模型的研發(fā)生產(chǎn)流程,分成數(shù)據(jù)采集、數(shù)據(jù)清洗、模型訓練、推理應(yīng)用四大環(huán)節(jié),各環(huán)節(jié)都涉及海量的數(shù)據(jù)處理。
不同的環(huán)節(jié),對存儲的要求不盡相同。騰訊云存儲總經(jīng)理馬文霜介紹,數(shù)據(jù)采集階段需要一個大容量、低成本、高可靠度的數(shù)據(jù)存儲底座,方便數(shù)據(jù)快速接入;在數(shù)據(jù)清洗階段,需要存儲提供一個更多協(xié)議的支持;在模型訓練階段,通常需要每2小時至4小時保存一次訓練成果,以便能在GPU(圖形處理器)故障時能回滾,因此快速地讀寫checkpoint(檢查點)文件也成了能否高效利用算力資源、提高訓練效率的關(guān)鍵,保障連續(xù)訓練和提升CPU(中央處理器)的有效使用時長;在推理應(yīng)用階段,更需要存儲提供豐富的數(shù)據(jù)審核能力,來滿足鑒黃、鑒暴、安全合規(guī)的訴求,保證大模型生成的內(nèi)容是合法、合規(guī)的。
此次發(fā)布會上,相比其他產(chǎn)品,CFS Turbo被著墨介紹的篇幅更多。
CFS Turbo是面向AIGC訓練場景進行專門優(yōu)化的騰訊云自研產(chǎn)品,據(jù)介紹,其每秒總讀寫吞吐能達到TiB/s(太字節(jié)每秒)級別,每秒元數(shù)據(jù)性能高達百萬OPS(算力單位)。3TB(太字節(jié))checkpoint 寫入時間從10分鐘,縮短至10秒內(nèi),能使大模型訓練效率大幅提升。
騰訊云文件存儲總監(jiān)陸志剛說,AIGC業(yè)務(wù)場景對數(shù)據(jù)存儲提出了更高的挑戰(zhàn),尤其是在模型訓練和推理方面,需要超高的寫吞吐和對小文件超高的OPS性能。
陸志剛把GPU的大模型訓練比作是一個煉丹爐,它需要用戶喂入數(shù)據(jù)從而產(chǎn)生想要的結(jié)果,而此時文件存儲就是用來給大模型提供輸入和輸出的載體,一方面,輸入海量的小樣本文件,比如互聯(lián)網(wǎng)上抓取的網(wǎng)頁和PDF(便攜式文檔格式文件)書籍文檔,另一方面,輸出形式則是一個模型文件。大模型需要通過一個大的TB級模型文件來提供推理,因此對小文件的OPS和大文件的吞吐有比較高的要求。
面對這個挑戰(zhàn),文件存儲需要一個并行的客戶端、強一致緩存、后端服務(wù)端集群能提供分布式服務(wù)等技術(shù)要素。而CFS Turbo就是具備這三種要素的分布式并行文件存儲。
除了騰訊混元大模型,誰是更新?lián)Q代后的騰訊云存儲產(chǎn)品的目標客戶?
騰訊云存儲總經(jīng)理陳崢解釋,騰訊的整個自研業(yè)務(wù)里,包括混元大模型,都是基于整個AIGC云存儲的底座來構(gòu)建的,其中包括checkpoint是基于CFS Turbo高性能寫入的新架構(gòu),以及數(shù)據(jù)清洗基于對象存儲COS和存儲引擎YottaStore進行構(gòu)建的。
陳崢沒有透露云存儲升級后的效率數(shù)據(jù):“從自研業(yè)務(wù)上看,我們的訓練時間提升了2倍以上。外部客戶來看,AIGC清洗領(lǐng)域的一些創(chuàng)業(yè)公司應(yīng)用了我們整個AIGC云存儲的解決方案后,清洗、訓練的效率也得到了提升,包括應(yīng)對讀寫大帶寬、高吞吐時,跑出實際業(yè)務(wù)的值已經(jīng)超出我們當時的想象,確實提升有數(shù)倍之多。”
馬文霜還補充,兩年前騰訊發(fā)布CFS Turbo第一個版本時,讀寫吞吐量是100GB(千兆字節(jié)),當時團隊覺得這個讀寫吞吐量已經(jīng)足夠大,很多業(yè)務(wù)用不到,但2023年大模型出來后,用第一代CFS Turbo去寫checkpoint時會發(fā)現(xiàn)100GB還遠遠不夠,“現(xiàn)在我們把吞吐量升級到1 TB,也是希望讓大模型用戶能更快地加速訓練,提升效率”。
據(jù)馬文霜介紹,目前已經(jīng)有80%的頭部大模型企業(yè)選擇騰訊云AIGC云存儲解決方案,包括百川智能、智譜AI、元象科技等明星大模型企業(yè)。
不過,大模型企業(yè)不是騰訊云存儲解決方案的單一客戶,陳崢透露,除了AIGC領(lǐng)域,自動駕駛領(lǐng)域的應(yīng)用案例不少。相比大模型,自動駕駛更側(cè)重訓練,在推理方面的要求偏少。當AIGC訓練出模型后,目前一些C端(個人用戶端)軟件基于智能模型再去做推理實際應(yīng)用輸出,比如月之暗面公司的大語言模型Kimi是To C(面向個人用戶)的,自動駕駛更側(cè)重在B端(企業(yè)用戶端),通過路采數(shù)據(jù)做清洗、分割,再輸送到整個自動駕駛訓練場景,能夠產(chǎn)生一些模型的數(shù)據(jù),輔助車輛規(guī)避路障,最后實現(xiàn)自動駕駛。
因此,除了大模型企業(yè),CFS Turbo也被廣泛應(yīng)用于自動駕駛與工業(yè)仿真場景,包括博世汽車、蔚來等自動駕駛廠商,上海電氣、深勢等仿真場景,墨鏡天合、追光等影視特效場景。
雖然同處在騰訊體系內(nèi),云存儲和混元大模型如何協(xié)同,是外界十分關(guān)心的問題。比如,當混元大模型提出更高需求時,云存儲作為其底座,是否需要“花費比較大的力氣才能達成”?
陳崢對此進行了否認,直言“還好,沒有花很大的力氣”。
他解釋,當客戶提出100GB量級需求的時候,騰訊云已經(jīng)在預(yù)估怎么去滿足200GB甚至500GB等需求。如果客戶給你提100GB要求時,我只能提供100GB的能力,產(chǎn)品的局限性已經(jīng)存在了。
這時,馬文霜還補充了一點他觀察到的變化:“今年第一季度,大模型企業(yè)在云存儲的消耗同比增加了,可能是大模型企業(yè)拿到的投資更多了吧。”
“云存儲解決方案升級后,價格會漲嗎?”馬文霜明確表示,“價格沒有變化”。