陳永偉/文
近日,AI算力新秀CoreWeave在自己的推特上分享了一則消息:該公司剛剛通過抵押英偉達H100GPU的方式獲得了23億美元的融資,將用這筆錢來購買更多的H100GPU,以便在年底前再建立10個新數(shù)據(jù)中心。
一位供職于國內(nèi)某互聯(lián)網(wǎng)大廠的朋友在轉(zhuǎn)發(fā)該消息后評論道:“以前只聽說過地產(chǎn)公司通過抵押房子來拿貸款,然后用貸來的錢繼續(xù)蓋房子。這種抵押GPU借錢,再拿借來的錢繼續(xù)買GPU的做法倒是第一次看到。”
一般來說,同樣的一件電子產(chǎn)品,年末時的價格會比年初低上一大截。所以幾乎不會有人購買電子產(chǎn)品來進行保值,金融機構(gòu)也很少會愿意接受電子產(chǎn)品作為抵押品。然而,這些經(jīng)驗在GPU面前失靈了。今時今日,似乎整個市場都在爭搶GPU,在eBay平臺上,英偉達H100GPU芯片的價格已經(jīng)被炒到了每張4.5萬美元,而在兩三個月前,它的價格還是在3.6萬美元左右。
GPU究竟是什么?為什么在AI時代,GPU會成為人們競相爭搶的硬通貨?它的價值來自哪里?又能保持多長的時間?在GPU硬通貨化的背后,又存在著什么更深的隱喻?且讓我們一一說來。
GPU的由來
大家知道,GPU是英文“圖形處理器”(graphicprocessingunit)的縮寫。從這個名字就不難知道,GPU原本并不是用來執(zhí)行AI相關(guān)的任務,而是用來處理圖形的。
從上世紀80年代開始,隨著計算機輔助應用(CAD)、地理信息系統(tǒng)(GIS)等技術(shù)的發(fā)展,用計算機處理圖形的需求開始出現(xiàn)增長。尤其是電子游戲行業(yè)的異軍突起,更是為計算機圖形處理培養(yǎng)了龐大的用戶群體。然而,作為計算機處理核心的元件CPU在處理圖形時效率并不高,這就導致了專業(yè)處理圖形任務的計算元件的出現(xiàn)。
1983年,《計算機世界》(ComputerWorld)雜志上刊登的一篇介紹Tek-tronix的圖形終端的文章里首先出現(xiàn)了GPU一詞。但是,此GPU非彼GPU,它的全稱是graphicprocessorunit。這一類所謂的GPU雖然能夠處理2D圖像,但由于當時還缺乏光影轉(zhuǎn)換(trans-formandlighting,簡稱T&L)組件,因而它們還無法獨立處理3D圖形,必須搭配CPU使用。直到1990年代,圖形處理元件加入了T&L組件,現(xiàn)在人們所熟悉的GPU才正式出現(xiàn)。
關(guān)于究竟誰才是現(xiàn)在意義上GPU的發(fā)明者,業(yè)界一直存在著爭議。一種觀點認為,GPU的發(fā)明權(quán)應該歸于美國硅圖公司(SiliconGraphics,簡稱SGI)。1996年,SGI推出了可以實現(xiàn)硬件T&L的圖形處理器,已經(jīng)具有了現(xiàn)在人們認為的GPU的主要功能。不過,由于它主要是被用在任天堂的主機上,所以很多人并不愿意承認它是真正的GPU。另一種觀點則認為,第一塊GPU是由一家名為3Dlabs的英國公司推出的。1997年時,它在一塊雙芯片處理器中加入了帶有T&L功能的引擎,并將這塊處理器冠以了“幾何處理器”(GeometryPro-cessorUnit,簡稱也是GPU)的名字。然而,由于3Dlabs專注于CAD的狹小市場,影響并不大,因而將其認為是GPU發(fā)明者的人也不多。
相比于SGI和3Dlabs,一個認可度更高的GPU發(fā)明者是英偉達。在上世紀90年代的半導體市場上,英偉達其實算是一個后來者。當時,這個市場上的基本格局是AMD和英特爾兩大巨頭對峙,而它們爭奪的焦點是CPU。在那幾年中,英特爾的奔騰系列CPU和AMD的Am386、Am486系列CPU可謂是你方唱罷我登場,戰(zhàn)得不亦樂乎,其他企業(yè)只能坐看神仙打架。
1993年,就在整個市場都認為很難在巨頭霸占的市場中搶到機會時,供職于LSILogic的黃仁勛卻選擇了辭職下海,創(chuàng)立了英偉達。不過,黃仁勛看好的并不是CPU,而是圖形加速卡。在當時看來,這似乎是一個非常冷門的業(yè)務。雖然隨著PC和游戲機的普及,不少人認識到了圖形處理的重要性,但其中的大部分人認為這個任務應該由CPU而不是專門的圖形處理硬件來完成。
但黃仁勛并不這么認為,他堅持看好圖形處理硬件的未來。在很大程度上,他的這個判斷來自于對當時游戲行業(yè)的觀察。1993年,一款名為《德軍總部3D》(Wolfstein3D)的游戲橫空出世,引發(fā)了市場對3D游戲的極大興趣。但事實上,《德軍總部3D》并不是真3D,它只是用2D貼圖偽裝出了3D效果。在黃仁勛看來,既然單獨的CPU不足以支持真3D游戲,那么要實現(xiàn)它們就只能采用輔助的加速硬件。當然,雖然當時看好硬件加速市場潛力的人不多,但也不只黃仁勛一人。比如,英偉達早期最重要的競爭者3dfx公司也很早押注了這個市場,并一度憑借著其率先推出的巫毒(Voodoo)加速卡雄霸全球市場。
應該說,黃仁勛運氣確實不錯,在創(chuàng)業(yè)初期就收到了日本游戲機公司世嘉的芯片研發(fā)訂單,并得到了700萬美元資金支持。但這種運氣并沒有持續(xù)多久,由于他在3D圖像技術(shù)上選擇的失誤,沒能兼容微軟新制定的DirectX標準,導致了初代產(chǎn)品NV1出師不利,銷量慘淡。
在經(jīng)過一番調(diào)整后,英偉達終于步入了正軌。靠著世嘉公司支付的研發(fā)費用,英偉達開發(fā)出了Riva128。坦白講,單論性能,Riva128并不如巫毒,但3dfx卻犯了一個致命的錯誤——堅持自己的開發(fā)工具GlideAPI,拒絕使用DirectX。而英偉達則及時吸取教訓,選擇了擁抱微軟、擁抱DirectX。很顯然,在微軟統(tǒng)治PC系統(tǒng)的時代,這個策略是十分明智的,Riva128也因此而大賣。
1998年,英偉達與臺積電達成合作,開始使用“無工廠”(Fabless)模式。之后,英偉達只負責芯片的設計和銷售,生產(chǎn)則完全交托給臺積電來代工。通過這種模式,英偉達得以輕裝上陣,將更多的精力投放到研發(fā)和市場研究中,從而推出了一系列爆款產(chǎn)品。利用這些產(chǎn)品,英偉達終于在圖形加速市場上站穩(wěn)了腳跟。
不過,黃仁勛的野心當然不止于此。在他看來,圖形加速硬件不應該只是CPU的助手,應該有自己的獨立角色。在這種理念的指導下,英偉達于1999年推出了它的GeForce256顯卡。這款顯卡不僅將T&L功能整合到了其中,實現(xiàn)了獨立于CPU的T&L處理,集成了立方環(huán)境材質(zhì)貼圖、頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素、256位渲染引擎等先進技術(shù),還同時設計了可編程加速功能。在這些技術(shù)特質(zhì)的加持之下,GeForce256對一些高端3D游戲的支持能力要遠勝于當時流行的3D圖形加速卡,面世后一炮而紅,迅速成為了廣大發(fā)燒友鐘愛的游戲神器。英偉達也趁熱打鐵,利用廣告攻勢,順勢將“具有集成T&L、三角形設置/裁剪和渲染引擎,能夠每秒至少處理 1000萬個多邊形的單芯片處理器”定義為了GPU——如果嚴格按照這個定義,那么英偉達就確實是GPU的發(fā)明者了。
英偉達迅速成為了這個市場上的勝利者和引領(lǐng)者。2000年,它更是將最主要的競爭對手3dfx直接收購,進一步穩(wěn)固了自己的市場霸主地位。所謂歷史是由勝利者書寫的,時至今日,當我們在搜索引擎上搜索誰是GPU的發(fā)明者時,英偉達就成了默認的答案。
從游戲之友到AI神器
那么,GPU又是怎么從一款游戲神器變成AI神器的呢?在對這個問題進行說明前,我們需要先對GPU的結(jié)構(gòu)進行一些簡單的介紹。
從總體上看,無論是CPU還是GPU,都包括運算器(ArithmeticandLogicUnit,簡稱ALU)、控制單元(ControlUnit,簡稱CL)、高速緩存器(Cache)和動態(tài)隨機存取存儲器(DRAM)。但是,這些成分在兩者中的構(gòu)成比例是不同的。在CPU當中,控制單元和存儲單元占的比例很大,而作為計算單位的ALU比例則很小;而在GPU當中則正好相反。
這種結(jié)構(gòu)上的差異決定了CPU和GPU功能上的區(qū)別。由于CPU在控制和存儲的能力上比較強,因此就能進行比較復雜的計算,不過可以同時執(zhí)行的線程很少。而GPU則相反,大量的計算單位讓它可以同時執(zhí)行多線程的任務,但每一個任務都比較簡單。打個比喻,CPU是一個精通數(shù)學的博士,微積分、線性代數(shù)樣樣都會,但盡管如此,讓他做一萬道四則運算也很難;而GPU呢,則是一群只會四則運算的小學生,雖然他們不會微積分和線性代數(shù),但人多力量大,如果一起開干,一萬道四則運算分分鐘就能搞定。
由于在圖形處理的過程中會涉及很多不同色彩單元的圖形和色彩的變換,所以GPU的特質(zhì)就讓它先天地適合被作為圖形處理的硬件使用。而當深度學習興起之后,人工智能專家們很快就發(fā)現(xiàn),GPU也很適合用來訓練神經(jīng)和應用網(wǎng)絡模型。因為在深度學習模型中,最主要的運算就是矩陣運算和卷積,而這些運算從根本上都可以分解為簡單的加法和乘法。如此一來,GPU就找到了新的“就業(yè)”空間,開始被廣泛地應用于人工智能,搖身一變,從游戲神器變成了AI神器。
對于英偉達這個GPU市場的王者,AI領(lǐng)域的上述動向簡直是為它送來了一塊天上掉下的餡餅。它也順勢抓住了這個機會。2007年,英偉達提出了GPGPU,即“通用目的GPU”(GeneralPurposeGPU)架構(gòu),將原本專用于圖形處理的GPU改造成了更適合AI運算的GPU。與此同時,英偉達還推出了GPGPU的計算統(tǒng)一架構(gòu)(ComputeU-nifiedDeviceArchitecture,CUDA)平臺,允許程序員使用類 C語言編寫GPU的并行計算代碼,并且提供了大量的庫函數(shù)和工具來幫助優(yōu)化 GPU計算。通過這些努力,英偉達成功將GPU能處理的問題由圖形擴展到了通用計算領(lǐng)域,由此在市場上搶得了先機,率先從游戲領(lǐng)域的硬件霸主轉(zhuǎn)型成了AI領(lǐng)域的“軍火商”。
各大AI巨頭為搶占大模型市場搶破頭時,這位“軍火商”卻坐收漁人之利,成為了這場大戰(zhàn)最大的贏家——不僅賺得盆滿缽滿,讓自己的市值突破了萬億美元大關(guān),還憑借著其對GPU進行分配的權(quán)力,在某種程度上成為了左右AI大戰(zhàn)最終走向的幕后之手。
從AI神器到硬通貨
現(xiàn)在我們回到本文開頭的問題:為什么GPU并沒有遵循一般半導體產(chǎn)品的價格下降規(guī)律,反而成為了一件硬通貨?
在市場經(jīng)濟的條件下,可以讓某種商品的價格保持高昂且堅挺的原因只有一個,那就是需求超過了供給。要理解GPU為何能夠成為硬通貨,就必須對其供求狀況有所了解。
1、GPU的需求狀況
什么人在購買GPU呢?關(guān)于這個問題,馬斯克曾給出過一個回答:“在現(xiàn)在這個時間點,似乎所有人和他們的狗都在到處找GPU。”馬斯克的這個回答當然是帶有調(diào)侃的,但是整個AI圈確實都在為GPU而瘋狂。
最近在社交新聞網(wǎng)站Raddit上熱傳的一篇文章曾對幾個大公司的GPU需求量做過一個統(tǒng)計。根據(jù)這篇文章,OpenAI在訓練GPT-4時曾使用了10000到25000張英偉達A100GPU;臉書在訓練AI時使用了大約21000張A100;特斯拉使用了約7000張A100;Midjourney的開發(fā)者StabilityAI大約使用了5000張A100。此外,阿聯(lián)酋阿布扎比技術(shù)創(chuàng)新研究所開發(fā)的Falcon-40B用了384張A100進行訓練;AI初創(chuàng)公司Inflection則正在使用3500張H100GPU來訓練性能足以匹敵GPT-3.5的大模型。而根據(jù)馬斯克的爆料,OpenAI正在訓練的GPT-5所使用的H100GPU可能達到了3萬到5萬張。除此之外,還有眾多初創(chuàng)企業(yè)也都需要GPU,需求量從幾百張到幾千張不等。所有這些需求加總在一起,就構(gòu)成了十分龐大的數(shù)字。
這里需要說明的是,在GPU市場上,不同型號的GPU的需求差別非常大。目前,市場上最受歡迎的GPU就是英偉達的H100。根據(jù)英偉達方面的介紹,這款專門為人工智能設計的GPU芯片采用了新一代的Hopper架構(gòu),擁有800億個晶體管,無論是在深度學習模型的訓練還是推理方面,都具有十分強大的能力。在各種第三方的測試當中,H100也取得了非常好的成績。例如,在近期舉行的一次MLPerfAI測試中,英偉達H100集群一舉在全部八個項目中都獲得了第一,僅用11分鐘就完成了一遍GPT-3的訓練,用8秒就完成了一遍BERT模型的訓練。
得益于H100的優(yōu)良性能,所以幾乎所有AI企業(yè)都對其虎視眈眈。根據(jù)網(wǎng)上熱傳的一個估計:OpenAI可能需要5萬張H100;臉書可能需要2.5萬張;Inflection需要2.2萬張;微軟的Azure云、谷歌云、亞馬遜的AWS,以及Oracle這四大云服務商可能各需要3萬張;Lambda、CoreWeave以及其他私有云可能總共需要10萬張;Anthropic、Helsing、Mistral、Character等企業(yè)可能各需要1萬張——將上面這些需求加總在一起,H100的總需求量就超過了43萬張。需要指出的是,上述估計數(shù)字還沒有包括中國的大型科技企業(yè),以及包括JP摩根在內(nèi)的眾多金融企業(yè)的需求。如果將這些企業(yè)的需求量考慮在內(nèi),H100的需求量將更是驚人。
或許有人會問,同樣是GPU,為什么H100會要比其他型號的GPU,比如A100更受歡迎呢?這其實既是一個技術(shù)問題,也是一個經(jīng)濟問題。總體上講,盡管同為GPU,但是不同型號的GPU之間的主要職能是不同的。大致上講,在AI領(lǐng)域,GPU的用途主要有兩種:一是推理(inference),即用訓練好的模型生成我們需要的結(jié)果和內(nèi)容;二是訓練(training),即利用樣本數(shù)據(jù)來訓練AI模型。由于任務不同,所以在設計過程中必須安排不同的架構(gòu)來對它們進行支持。一般而言,推理過程通常需要高效的計算能力和低延遲的響應速度,因此推理芯片的設計注重高效的計算單元和能耗控制;而訓練過程則需要更高的計算能力和存儲能力,因此訓練芯片的設計注重高度并行化和大規(guī)模存儲。
得益于更為優(yōu)秀的架構(gòu)設計,H100無論是在推理能力還是訓練能力上都要比A100更優(yōu)。測試結(jié)果表明,它的16位推理速度大約是A100的3.5倍,16位訓練速度則大約是A100的2.3倍。而從成本上看,H100大約是A100的1.5到2倍。由此可見,雖然H100的價格要比A100更貴,但從性價比看,H100則具有更大的優(yōu)勢。
這里尤其需要指出的是,當Chat-GPT的爆火之后,大批企業(yè)都投入了大模型的開發(fā)。對于這些企業(yè)而言,能夠更早地開發(fā)出品質(zhì)優(yōu)良的大模型就能為自己在競爭中獲得更為有利的位置,這就激發(fā)了它們對可以以更快速度訓練模型的工具的渴望。
2、GPU的供應狀況
既然現(xiàn)在價格已經(jīng)被炒上了天,那么供應商就應該抓住這個機會賣賣賣吧。但有意思的是,各大GPU供應商遲遲不增加供給,逼得一些AI企業(yè)甚至不得不到二手市場去收購舊的GPU。非不愿也,實不能也。
對于包括GPU在內(nèi)的半導體產(chǎn)品而言,整個供應鏈可以分為三段:上游主要是指EDA、IP授權(quán)以及GPU芯片設計,中游主要是指GPU的制造和封裝測試,下游主要是集成商和終端銷售。其中,現(xiàn)在GPU卡口最嚴重的部分就出在供應鏈的中游。
眾所周知,芯片的生產(chǎn)對于工藝的要求非常高,因此符合生產(chǎn)條件的制造商很少。以英偉達的H100為例,正如我們前面提到的,在英偉達采用了“無工廠”模式之后,其制造就全部委托給了臺積電。但是,即使是對臺積電而言,也只有N5、N5P、N4和N4P四個制程節(jié)點(注:制程節(jié)點指的是電路鑄造的制程工藝節(jié)點。通常以納米來衡量,例如N5指的就是5納米制程節(jié)點。制程節(jié)點越小,在一塊晶圓上可以制造的集成電路就越多。)可以用來進行H100的制造。而由于臺積電的制作工藝突出,所以蘋果、高通等公司都在委托其進行代工,因而英偉達就不得不需要和這些公司一起共用以上制程節(jié)點。除此之外,在封裝環(huán)節(jié),臺積電也面臨著產(chǎn)能的限制。這些因素加在一起,就導致了H100在供應鏈的中游面臨著非常緊的瓶頸。
與此同時,還需要注意的一點是,GPU的組件供應也在一定程度上制約著它的供應。仍以H100為例,其使用的關(guān)鍵組件高帶寬存儲器(HighBandwidthMemory,簡稱HBM)就面臨著很嚴重的供應限制。目前,英偉達在H100上使用的HBM幾乎都來自于韓國企業(yè)SK海力士半導體公司(SKHynix)。然而,SK海力士生產(chǎn)HBM的能力是有限的,這就對H100的產(chǎn)量構(gòu)成了直接的限制。有傳聞說英偉達可能從三星和美光采購一部分HBM,但這兩家企業(yè)的產(chǎn)能依然是有限的,因此擴大采購范圍究竟可以在多大程度上緩解HBM的緊缺依然是一個問題。
綜合以上分析,我們可以看到,雖然面臨著GPU需求的暴漲,但由于供應鏈的制約,GPU的供應量很難在短期內(nèi)出現(xiàn)重大提升。目前看來,由生成式AI所帶動的算力需求增長還會持續(xù)較長的一段時間,因而至少在這段時間內(nèi),GPU的供不應求還會繼續(xù)存在。在需求定律的作用之下,這就導致了GPU這種半導體產(chǎn)品出現(xiàn)了十分反常的價格持續(xù)上升。因此,在融資當中,它也就得以扮演起了抵押品的角色。
從財富之源到權(quán)力之杖
當人們津津樂道于GPU竟然可以成為硬通貨,在金融市場上作為抵押品的時候,很可能忽略了另外一層更深的隱喻,即隨著GPU在AI時代作用的日益突出,它似乎正在成為AI領(lǐng)域的權(quán)力之源。
7月25日,微軟公布了它2023財年第四季度的財報。得益于和OpenAI的合作,微軟的云業(yè)務在本財季出現(xiàn)了大幅的增長,帶動了公司營收狀況的顯著改善。與去年相比,其營收同比增長了8%,凈利潤的同比漲幅更是達到了20%。在展示自己所取得的驕人成績的同時,微軟也在財報中提示了一些潛在的風險,其中之一就是GPU風險。微軟指出,GPU已經(jīng)成為了支撐其云業(yè)務迅速增長的關(guān)鍵原材料,如果GPU的供應不能保證,則其服務質(zhì)量可能會受到很大影響。
為了緩解對GPU的渴求,微軟可謂是不遺余力。一方面,它直接向英偉達方面示好,要求采購更多的GPU。另一方面,它也想了一些迂回的方法。比如,在不久之前,它就和CoreWeave——也就是本文開頭提到的那家抵押H100來借錢買H100的算力提供商達成了協(xié)議,約定將在未來幾年內(nèi)持續(xù)向后者提供金額數(shù)十億的投資,一起建設云計算的基礎設施。其原因在于CoreWeave和英偉達關(guān)系甚密,在不久前的B輪融資中,就得到了英偉達的投資。憑借著這層關(guān)系,英偉達方面許諾會優(yōu)先對CoreWeave提供GPU的供應。因此,對于微軟來說,投資CoreWeave就是和英偉達套了近乎,從而有機會讓它得到更多的H100和A100的使用權(quán)。看看微軟現(xiàn)在這番良苦的用心,再聯(lián)想英偉達創(chuàng)業(yè)之初為求生存不得不屈服于微軟創(chuàng)立的標準,真不禁讓人感嘆三十年河東,三十年河西。
當然,我們還可以舉出更多的GPU供應商操控AI之戰(zhàn)的案例。一個典型的例子是我們前面起到過的Inflection。這家由DeepMind聯(lián)合創(chuàng)始人穆斯塔法·蘇萊曼(MustafaSuleyman)創(chuàng)辦并擔任CEO的公司最近可謂風頭正勁。和其他大模型公司不同,Inflection并不想創(chuàng)造無所不能的通用人工智能(AGI),而是將注意力集中在了個人智能(PI)領(lǐng)域。它的主要產(chǎn)品——名為Pi的聊天機器人功能也很單一,目前只有聊天。很顯然,在目前林立的AI模型中,這款產(chǎn)品并不出眾。然而,就是這樣一家看似平平無奇的公司,其估值卻達到了40億美元。除了它擁有的寶貴智力資源外,一個重要的原因就是GPU。不久前,Inflection公開宣布,它將打造一個擁有2.2萬塊H100芯片的超級計算集群,以支持新一代AI大模型的訓練和部署。這個集群的集成數(shù)量已經(jīng)完全超越了臉書于5月宣布的計劃。
Inflection是怎么做到的呢?只要我們看一下它的投資人,答案就立即揭曉了。是的,在它的投資人中,就有英偉達。另外值得一提的是,Inflection在打造這個集群的過程中,還有一個重要的合作者——CoreWeave。而正如我們已經(jīng)看到的,它也是英偉達的利益共同體。由此可知,Inflection得以爆火的背后,英偉達以及它手中的GPU應該起了關(guān)鍵的作用。
記得今年3月,各大生成式AI公司激戰(zhàn)正酣的時候,曾有一位記者來采訪我,她問:“依您看來,這場AI大戰(zhàn)的最后贏家會是誰?微軟,谷歌,還是OpenAI?”我當時的回答是:“我不知道它們當中誰會贏,但最后的贏家里一定有英偉達!”現(xiàn)在看來,這個回答是完全正確的。不過,如果現(xiàn)在她再問我這個問題,我會在答案上再加一句:或許,它還能用GPU投票,決定誰會是贏家。
京公網(wǎng)安備 11010802028547號