大模型倒逼云存儲升級騰訊云提速加量不加價

陳月芹2024-04-08 18:36

經(jīng)濟觀察網(wǎng) 記者陳月芹 大模型與云計算，正在成為AI（人工智能）時代的淘金者和賣鏟人。而作為數(shù)據(jù)的載體，數(shù)據(jù)存儲則是AI大模型的關(guān)鍵基礎(chǔ)設(shè)施。

4月8日，騰訊云帶來了面向AIGC（生成式人工智能）場景全面升級的云存儲解決方案，主要由對象存儲COS、高性能并行文件存儲CFS Turbo、數(shù)據(jù)加速器GooseFS和數(shù)據(jù)萬象CI等產(chǎn)品組成。

這一系列云存儲產(chǎn)品瞄準時下最火的大模型全鏈路數(shù)據(jù)處理難題。一般而言，AI大模型的研發(fā)生產(chǎn)流程，分成數(shù)據(jù)采集、數(shù)據(jù)清洗、模型訓練、推理應(yīng)用四大環(huán)節(jié)，各環(huán)節(jié)都涉及海量的數(shù)據(jù)處理。

不同的環(huán)節(jié)，對存儲的要求不盡相同。騰訊云存儲總經(jīng)理馬文霜介紹，數(shù)據(jù)采集階段需要一個大容量、低成本、高可靠度的數(shù)據(jù)存儲底座，方便數(shù)據(jù)快速接入；在數(shù)據(jù)清洗階段，需要存儲提供一個更多協(xié)議的支持；在模型訓練階段，通常需要每2小時至4小時保存一次訓練成果，以便能在GPU（圖形處理器）故障時能回滾，因此快速地讀寫checkpoint（檢查點）文件也成了能否高效利用算力資源、提高訓練效率的關(guān)鍵，保障連續(xù)訓練和提升CPU（中央處理器）的有效使用時長；在推理應(yīng)用階段，更需要存儲提供豐富的數(shù)據(jù)審核能力，來滿足鑒黃、鑒暴、安全合規(guī)的訴求，保證大模型生成的內(nèi)容是合法、合規(guī)的。

此次發(fā)布會上，相比其他產(chǎn)品，CFS Turbo被著墨介紹的篇幅更多。

CFS Turbo是面向AIGC訓練場景進行專門優(yōu)化的騰訊云自研產(chǎn)品，據(jù)介紹，其每秒總讀寫吞吐能達到TiB/s（太字節(jié)每秒）級別，每秒元數(shù)據(jù)性能高達百萬OPS（算力單位）。3TB（太字節(jié)）checkpoint 寫入時間從10分鐘，縮短至10秒內(nèi)，能使大模型訓練效率大幅提升。

騰訊云文件存儲總監(jiān)陸志剛說，AIGC業(yè)務(wù)場景對數(shù)據(jù)存儲提出了更高的挑戰(zhàn)，尤其是在模型訓練和推理方面，需要超高的寫吞吐和對小文件超高的OPS性能。

陸志剛把GPU的大模型訓練比作是一個煉丹爐，它需要用戶喂入數(shù)據(jù)從而產(chǎn)生想要的結(jié)果，而此時文件存儲就是用來給大模型提供輸入和輸出的載體，一方面，輸入海量的小樣本文件，比如互聯(lián)網(wǎng)上抓取的網(wǎng)頁和PDF（便攜式文檔格式文件）書籍文檔，另一方面，輸出形式則是一個模型文件。大模型需要通過一個大的TB級模型文件來提供推理，因此對小文件的OPS和大文件的吞吐有比較高的要求。

面對這個挑戰(zhàn)，文件存儲需要一個并行的客戶端、強一致緩存、后端服務(wù)端集群能提供分布式服務(wù)等技術(shù)要素。而CFS Turbo就是具備這三種要素的分布式并行文件存儲。

除了騰訊混元大模型，誰是更新?lián)Q代后的騰訊云存儲產(chǎn)品的目標客戶？

騰訊云存儲總經(jīng)理陳崢解釋，騰訊的整個自研業(yè)務(wù)里，包括混元大模型，都是基于整個AIGC云存儲的底座來構(gòu)建的，其中包括checkpoint是基于CFS Turbo高性能寫入的新架構(gòu)，以及數(shù)據(jù)清洗基于對象存儲COS和存儲引擎YottaStore進行構(gòu)建的。

陳崢沒有透露云存儲升級后的效率數(shù)據(jù)：“從自研業(yè)務(wù)上看，我們的訓練時間提升了2倍以上。外部客戶來看，AIGC清洗領(lǐng)域的一些創(chuàng)業(yè)公司應(yīng)用了我們整個AIGC云存儲的解決方案后，清洗、訓練的效率也得到了提升，包括應(yīng)對讀寫大帶寬、高吞吐時，跑出實際業(yè)務(wù)的值已經(jīng)超出我們當時的想象，確實提升有數(shù)倍之多。”

馬文霜還補充，兩年前騰訊發(fā)布CFS Turbo第一個版本時，讀寫吞吐量是100GB（千兆字節(jié)），當時團隊覺得這個讀寫吞吐量已經(jīng)足夠大，很多業(yè)務(wù)用不到，但2023年大模型出來后，用第一代CFS Turbo去寫checkpoint時會發(fā)現(xiàn)100GB還遠遠不夠，“現(xiàn)在我們把吞吐量升級到1 TB，也是希望讓大模型用戶能更快地加速訓練，提升效率”。

據(jù)馬文霜介紹，目前已經(jīng)有80%的頭部大模型企業(yè)選擇騰訊云AIGC云存儲解決方案，包括百川智能、智譜AI、元象科技等明星大模型企業(yè)。

不過，大模型企業(yè)不是騰訊云存儲解決方案的單一客戶，陳崢透露，除了AIGC領(lǐng)域，自動駕駛領(lǐng)域的應(yīng)用案例不少。相比大模型，自動駕駛更側(cè)重訓練，在推理方面的要求偏少。當AIGC訓練出模型后，目前一些C端（個人用戶端）軟件基于智能模型再去做推理實際應(yīng)用輸出，比如月之暗面公司的大語言模型Kimi是To C（面向個人用戶）的，自動駕駛更側(cè)重在B端（企業(yè)用戶端），通過路采數(shù)據(jù)做清洗、分割，再輸送到整個自動駕駛訓練場景，能夠產(chǎn)生一些模型的數(shù)據(jù)，輔助車輛規(guī)避路障，最后實現(xiàn)自動駕駛。

因此，除了大模型企業(yè)，CFS Turbo也被廣泛應(yīng)用于自動駕駛與工業(yè)仿真場景，包括博世汽車、蔚來等自動駕駛廠商，上海電氣、深勢等仿真場景，墨鏡天合、追光等影視特效場景。

雖然同處在騰訊體系內(nèi)，云存儲和混元大模型如何協(xié)同，是外界十分關(guān)心的問題。比如，當混元大模型提出更高需求時，云存儲作為其底座，是否需要“花費比較大的力氣才能達成”？

陳崢對此進行了否認，直言“還好，沒有花很大的力氣”。

他解釋，當客戶提出100GB量級需求的時候，騰訊云已經(jīng)在預(yù)估怎么去滿足200GB甚至500GB等需求。如果客戶給你提100GB要求時，我只能提供100GB的能力，產(chǎn)品的局限性已經(jīng)存在了。

這時，馬文霜還補充了一點他觀察到的變化：“今年第一季度，大模型企業(yè)在云存儲的消耗同比增加了，可能是大模型企業(yè)拿到的投資更多了吧。”

“云存儲解決方案升級后，價格會漲嗎？”馬文霜明確表示，“價格沒有變化”。

版權(quán)聲明：以上內(nèi)容為《經(jīng)濟觀察報》社原創(chuàng)作品，版權(quán)歸《經(jīng)濟觀察報》社所有。未經(jīng)《經(jīng)濟觀察報》社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，否則將依法追究相關(guān)行為主體的法律責任。版權(quán)合作請致電：【010-60910566-1260】。