文 | 芯東西 心緣
編輯 | 漠影
英偉達的激蕩30年,有四大高光時刻。
第一次高光,是1999年世界上第一顆圖形處理器(GPU)GeForce 256誕生,為終結(jié)顯卡混戰(zhàn)、奠定英偉達GPU霸主地位埋下伏筆。
第二次高光,是2006年革命性的統(tǒng)一編程軟件CUDA發(fā)布,為多年后英偉達成為“AI計算之王”鋪設(shè)了堅實的生態(tài)根基。
第三次高光,是2012年英偉達GPU助攻深度學習算法奪魁國際計算機視覺頂級賽事ImageNet競賽,正式掀起人工智能(AI)第三次浪潮。
第四次高光,是2017年英偉達專為數(shù)據(jù)中心和高性能計算打造的Tesla V100 GPU,憑借兇殘性能一統(tǒng)云端,從此笑傲數(shù)據(jù)中心計算江湖。
接連踩準游戲圖顯和人工智能兩大風口,英偉達的營收和市值開始狂飆突進,其股價6年暴漲70倍,成為科技圈象征財富自由的“股市神話”。
2020年夏天,英偉達迎來歷史時刻——數(shù)據(jù)中心業(yè)務(wù)季度營收首次超過游戲業(yè)務(wù),成為英偉達第一大收入來源。2021年10月,英偉達市值超過臺積電,首度登頂全球市值最高芯片公司,峰值一度超過8000億美元量級。
不過,英偉達的爆發(fā)式成長,在今年短暫地按下暫停鍵。
隨著疫情紅利退潮,全球半導(dǎo)體產(chǎn)業(yè)開始面臨需求衰減、庫存待消的周期性困境,這在近期的財報季得到明顯體現(xiàn),多家芯片巨頭發(fā)出預(yù)警。
英偉達也不例外。受宏觀經(jīng)濟環(huán)境不景氣、消費電子市場需求滑坡等因素的影響,英偉達近期預(yù)告的Q2財報業(yè)績中,游戲業(yè)務(wù)同比、環(huán)比均驟降33%,致使其整體營收遜于預(yù)期。
但這份看似滯緩的財報預(yù)告,恰恰證明了英偉達創(chuàng)始人兼CEO黃仁勛的先見之明。
相比于陷入疲態(tài)的游戲業(yè)務(wù),英偉達數(shù)據(jù)中心業(yè)務(wù)正發(fā)展迅猛,其最新季度營收已經(jīng)接近游戲業(yè)務(wù)的兩倍,同比增幅高達61%。
在這些新興市場,英偉達擁有相當高的話語權(quán),再加上借勢元宇宙熱潮,其產(chǎn)品在數(shù)據(jù)中心領(lǐng)域大受追捧。從人工智能、數(shù)據(jù)分析到數(shù)據(jù)科學,英偉達正通過持之以恒的技術(shù)創(chuàng)新,展示出顛覆數(shù)字世界的力量。
而這一切,都源自黃仁勛極具遠見的前瞻性決策。對此,英偉達中國區(qū)工程和解決方案高級總監(jiān)賴俊杰博士深有感觸。
近日,在做客芯東西高端訪談欄目《芯焦點》對話中,賴俊杰與芯東西總編輯張國仁深入對話,深入闡釋了英偉達如何在不同的時點,用技術(shù)塑造自身產(chǎn)業(yè)地位的背后邏輯,尤其在數(shù)據(jù)中心市場,讓“加速計算專家”的形象越來越深入人心,并在營收上超過to C業(yè)務(wù)背后,是如何步步為營構(gòu)筑全棧技術(shù)和生態(tài)優(yōu)勢的。
01.縱向加速:全棧布局,英偉達的殺手锏
數(shù)據(jù)中心芯片戰(zhàn)場硝煙彌漫,但英偉達始終屹立不倒。
在今年3月舉行的英偉達GTC大會上,黃仁勛在演講中談到英偉達構(gòu)建了四層技術(shù)棧:硬件、系統(tǒng)軟件、軟件平臺、應(yīng)用框架。
其中每一層,都緊密圍繞著數(shù)據(jù)中心的剛需。芯片是算力基礎(chǔ),但要充分發(fā)揮其性能,必須構(gòu)建完備的系統(tǒng)軟件底層庫。上層的三類平臺及各種應(yīng)用,更是為不同行業(yè)客戶的訴求量身定制。
客戶需要更高的AI算力需求,于是英偉達打造了更強的芯片、服務(wù)器和AI超級計算機;客戶需要更好用的軟件系統(tǒng),來快速實現(xiàn)AI模型的訓練和部署,于是英偉達構(gòu)建了從底層系統(tǒng)軟件、驅(qū)動軟件、平臺到上層的應(yīng)用框架;客戶需要在構(gòu)建模擬真實場景的數(shù)字虛擬世界,于是英偉達打造了將計算機圖形學與AI結(jié)合的NVIDIA Omniverse實時設(shè)計協(xié)作和模擬平臺。
更有甚者,英偉達把主流AI算法模型做了個遍,并幾乎通通開源。企業(yè)假如對某個AI算法缺乏積累,可以直接免費下載英偉達現(xiàn)成的先進模型,稍做調(diào)整就能落地應(yīng)用。英偉達的NVIDIA AI Enterprise軟件,足足將AI模型開發(fā)時間從80周縮至8周。
這樣的全棧布局,已經(jīng)成為英偉達在數(shù)據(jù)中心企業(yè)級市場的殺手锏。
你很難想出還有哪家企業(yè),擁有如此完備成熟的硬件產(chǎn)品矩陣、如此廣泛的AI計算開發(fā)者生態(tài),又在軟件模型研發(fā)方面積累雄厚。
追溯其根由,黃仁勛的棋局布得著實步步高明,令人拍手稱妙。
當數(shù)據(jù)中心浪潮還未鋪天蓋地、人工智能訓練還是小眾領(lǐng)域,黃仁勛已經(jīng)投入重金,研發(fā)通用計算GPU和統(tǒng)一編程軟件CUDA,為英偉達謀一個遠超游戲業(yè)務(wù)的更大生意——計算平臺。
在那時,讓GPU可編程,是個聽起來不知道有什么用,又會讓產(chǎn)品成本幾乎翻倍的技術(shù)改變。沒有客戶愿意為此買單,但預(yù)判到單一功能圖形處理器不是長遠之計的黃仁勛,還是毅然決定,在英偉達所有產(chǎn)品線上都應(yīng)用CUDA。
“Jensen(黃仁勛)作為創(chuàng)始人,在我們公司有非常權(quán)威的影響力,特別是人工智能這樣一些事情上?!辟嚳〗芑仡櫿f,為了這一愿景,早期黃仁勛快速調(diào)動了英偉達上上下下非常多的資源。
那絕對是難熬的五年,恰逢金融危機爆發(fā)、游戲業(yè)務(wù)增長停滯,英偉達的利潤被近乎摧毀,股價也大幅下跌。
但最終結(jié)果,是黃仁勛賭贏了,正是他超前的決策、打造計算平臺的愿景,讓英偉達贏在了人工智能落地熱潮的起點——2012年,深度學習算法的強悍計算表現(xiàn)轟動學術(shù)圈,作為高算力且易用的生產(chǎn)力工具,GPU+CUDA迅速風靡計算機科學界,成為人工智能開發(fā)的“標配”。
大量的芯片從業(yè)者這才恍然驚覺,急忙追隨這位芯圈“預(yù)言家”的腳步,給自家芯片構(gòu)建可編程計算的能力和軟件棧。
16年前CUDA的問世,讓從游戲開發(fā)者到超級計算開發(fā)者都可以編程使用英偉達的GPU產(chǎn)品;現(xiàn)在,英偉達繼續(xù)沿著降低開發(fā)門檻的思路,通過持續(xù)迭代AI模型、軟件及平臺,讓更多非專業(yè)AI開發(fā)者也能輕易投身于智能化升級的大潮中。
如今“全?!币咽撬忻闇试贫藬?shù)據(jù)中心市場的芯片公司的共識,即只有深入到應(yīng)用中、理解應(yīng)用的計算模式,才能給最終用戶提供足夠的價值。
不同的是,他們還在探索的路上,而更早起步的英偉達已經(jīng)坐擁先發(fā)優(yōu)勢,其產(chǎn)品經(jīng)過大量的資源投入和市場歷練,不斷積累各種不同的行業(yè)應(yīng)用認知和迭代優(yōu)化,并對英偉達的營收形成了正向的反饋。
過去五年,英偉達數(shù)據(jù)中心營收復(fù)合年均增長率為53%。截至今年5月,英偉達2023財年Q1財報顯示,其數(shù)據(jù)中心業(yè)務(wù)銷售收入達到創(chuàng)紀錄的37.5億美元,同比增長83%,已成英偉達收入占比最大、成長性最高的第一大業(yè)務(wù)。
當然,全棧的基礎(chǔ),是基于出色架構(gòu)設(shè)計而打造的高性能芯片,如果拋開芯片本身,只強調(diào)全棧或者在軟件方面的投入,那是空中樓閣。
02.橫向擴展:算網(wǎng)通吃,三芯合體
彪悍的芯片性能,無需做過多解釋。
兩年前,NVIDIA A100 Tensor Core GPU作為英偉達面向AI加速和高性能計算打造的“算力猛獸”橫空出世,成為橫掃云端數(shù)據(jù)中心基礎(chǔ)設(shè)施的“頂流”硬件。
光是不斷出現(xiàn)在各路AI計算論文及PPT展示的實測性能對比圖,足見A100一直被業(yè)界奉為AI訓練加速硬件的標桿。但正如前文所述,英偉達想做的,顯然不止是一顆芯片那么簡單。
在今年國際權(quán)威AI基準測試平臺MLPerf公布的最新結(jié)果中,A100繼續(xù)保持了高光戰(zhàn)績,是唯一參與全部8項基準測試的AI加速器,并在其中6項測試中計算速度第一。
實現(xiàn)這一成績,靠得不僅僅是芯片理論峰值,而是系統(tǒng)級的比拼,即計算能力、內(nèi)存帶寬、互連結(jié)構(gòu)、軟件優(yōu)化等綜合作用的結(jié)果。
在硬件層面,A100本身提供的高浮點計算能力、高內(nèi)存帶寬等性能,能讓AI計算更快,但要想讓整個系統(tǒng)都快,關(guān)鍵在于突破網(wǎng)絡(luò)通信瓶頸。
對此,英偉達的布局也非常完整,既有GPU之間、GPU與CPU之間的NVLink互連技術(shù),也有Infiniband、高速以太網(wǎng)等,能支持大規(guī)模集群中跨節(jié)點的高速數(shù)據(jù)傳輸。
在軟件層面,英偉達在cuDNN等算子加速庫、nccl等集體通信庫方面做了很多工作,不給高性能的A100 GPU拖后腿。
“就像咱們經(jīng)常在很多地方會舉的木桶理論?!辟嚳〗艽蛄藗€比方,由多塊木板構(gòu)成的木桶,決定其盛水量的關(guān)鍵因素,不是最長的木板,而是最短的木板。類似的,數(shù)據(jù)中心要實現(xiàn)更好的整體實力,每個軟硬件基礎(chǔ)設(shè)施都不能有短板。
因此,數(shù)據(jù)中心設(shè)計者必須更宏觀地考慮整個系統(tǒng)中的軟硬件搭配,來更好地支持AI應(yīng)用落地。
英偉達同樣在補齊硬件短板。
2019年前,GPU還是英偉達芯片版圖中的唯一主角。三年間,英偉達接連發(fā)布自研DPU和CPU,將GPU從“唯一”變成了“三分之一”。
今年英偉達還亮出了一個將自研CPU和GPU拼裝到一起的互連“大招”NVLink-C2C,把數(shù)據(jù)傳輸速度相較連接傳統(tǒng)CPU提升15倍。考慮到現(xiàn)在GPU顯存大小受到工藝和成本的約束,這種將CPU和GPU粘在一起的做法,相當于間接擴展了GPU能訪問到的高速存儲,對于一些高性能計算或?qū)PU顯存容量要求高的應(yīng)用場景尤其適用。
至此,坐擁三大算力支柱的英偉達,已經(jīng)成為數(shù)據(jù)中心企業(yè)級市場中的一位“全能型戰(zhàn)士”。
英偉達也試圖將GPU+CUDA的成功經(jīng)驗復(fù)制到DPU等更多硬件上,即通過編程語言定義硬件,包括推廣針對DPU的DOCA、針對量子計算QPU的QODA軟件開發(fā)架構(gòu)等。
03.成為數(shù)據(jù)中心的加速計算專家
對于數(shù)據(jù)中心客戶來說,英偉達的軟硬件技術(shù)組合就像“堆積木”,可以按需選購,難點在于怎么選,才能匹配綜合效用最大化的算力,以及實現(xiàn)更高的性價比。
賴俊杰說,在數(shù)據(jù)中心企業(yè)級市場,英偉達扮演的核心角色可以用一個詞概之——加速計算專家。
“我們比較擅長去做性能的分析、優(yōu)化。”他分享道,為扮演好這個的角色,英偉達除了提供豐富的產(chǎn)品矩陣,還在幫助數(shù)據(jù)中心企業(yè)級客戶挖掘需求和提供技術(shù)搭配的建議。
在英偉達,賴俊杰主要負責帶領(lǐng)團隊對接中國區(qū)的核心大客戶技術(shù)需求。他告訴芯東西,提供多層面的服務(wù)支持,是他們?nèi)粘9ぷ鞣浅V匾囊徊糠帧?/p>
團隊中,不同角色的同事分工合作,來跟客戶坐在一起,幫客戶梳理分析最重要的工作負載特征,尋找計算的熱點,完成移植到GPU上的工作,并幫客戶調(diào)整優(yōu)化整個應(yīng)用的鏈路性能。
當發(fā)現(xiàn)客戶的一些典型應(yīng)用、最關(guān)注的產(chǎn)品需求,他們會將這些需求反饋給產(chǎn)品團隊,最終變成英偉達的新產(chǎn)品或新功能。
對于企業(yè)普遍關(guān)心的成本問題,黃仁勛的經(jīng)典名言給出了答案:“買得越多,省得越多?!?/p>
乍一聽可能會感覺矛盾,畢竟在芯片圈,GPU以高功耗而聞名。賴博士解釋說,這同樣是從系統(tǒng)的角度來算賬,通過軟硬件協(xié)同,最終整體能以更低的硬件成本,支撐起更多的業(yè)務(wù)應(yīng)用。
當然,更直觀的選購指南,是提供參考模板。
在數(shù)據(jù)中心,英偉達團隊會配合OEM廠商,收集用戶的普遍需求,比如一個服務(wù)器里需要放幾塊卡等問題,根據(jù)這些需求將產(chǎn)品定型為幾個主要的類別,不同的類別會針對不同的應(yīng)用場景。
近年來,英偉達在訓練先進AI算法模型等方面開展了大量工作,并在此過程中積累了許多對于系統(tǒng)、硬件的需求?;谶@些需求及客戶反饋,他們將經(jīng)驗匯總,提出了從服務(wù)器級別到整個數(shù)據(jù)中心級別的一些參考架構(gòu)實現(xiàn)。
對于少數(shù)在系統(tǒng)硬件設(shè)計層面擁有豐富經(jīng)驗的大客戶,英偉達團隊也會配合它們,針對特定的重要場景展開合作,探討最合適的系統(tǒng)架構(gòu)。
根據(jù)市場情報公司Liftr Insights調(diào)查,2021年Q1英偉達在云端數(shù)據(jù)中心AI加速芯片市場的市占率高達78%,近年來基本穩(wěn)定在80%附近;另據(jù)全球超算評估組織Top500.Org數(shù)據(jù),2021年下半年,英偉達在全球超算中心的市場占率超過90%。
英偉達原本就在GPU性能和高度粘性的CUDA開發(fā)者生態(tài)上占據(jù)優(yōu)勢,又在客戶服務(wù)方面思慮周全,也就不難理解云端訓練端為何至今未出現(xiàn)一個能與其正面爭鋒的存在了。
04.落子未來:從AI大模型、工業(yè)元宇宙,到再造一個地球
作為國家新型基礎(chǔ)設(shè)施建設(shè)的重要組成部分,大數(shù)據(jù)中心、人工智能的戰(zhàn)略地位舉足輕重,國內(nèi)智算中心建設(shè)大潮的大幕已然拉開。
現(xiàn)在智能語音、圖像識別等技術(shù)愈發(fā)成熟,逐漸轉(zhuǎn)化出語音客服、推薦系統(tǒng)、醫(yī)療機器人等越來越多的行業(yè)應(yīng)用價值。大模型、數(shù)字孿生、自主機器、虛擬化身等需求亦在工業(yè)界蓬勃而生。
“作為數(shù)據(jù)中心設(shè)計者,必然要思考一個問題,如何能夠更好地支撐起這樣的應(yīng)用?”賴俊杰說。
一方面,大模型正發(fā)展成AI基礎(chǔ)研究和產(chǎn)業(yè)化落地的一大趨勢,其龐大的算力需求、分布式計算問題,以及如何用相對更低的整體成本去完成大模型的推理部署,都帶給數(shù)據(jù)中心新的挑戰(zhàn)。
另一方面,工業(yè)數(shù)字孿生等應(yīng)用場景開始將3D渲染能力跟AI結(jié)合,推進數(shù)實融合、構(gòu)建工業(yè)元宇宙和推動數(shù)字化轉(zhuǎn)型的過程,必然會產(chǎn)生大量數(shù)據(jù),如何高效利用這些數(shù)據(jù),成為越來越多數(shù)據(jù)中心企業(yè)級應(yīng)用所關(guān)注的話題。
與以往一樣,英偉達早早地預(yù)見了這些趨勢,并針對數(shù)據(jù)中心客戶可能的需求,對其軟硬件產(chǎn)品進行相應(yīng)的優(yōu)化。
比如A100 GPU的繼任者——即將在今年下半年上市的H100 GPU,被英偉達稱作“實現(xiàn)了有史以來最快的代際飛躍”,其中尤其值得一提的新特性,便是引入Transformer Engine,用以加速基于Transformer的大模型訓練。
▲Hopper架構(gòu)H100 GPU的主要升級
Transformer是當前自然語言處理領(lǐng)域最重要的模型結(jié)構(gòu)之一,是一眾大模型的基礎(chǔ),在數(shù)據(jù)中心工作負載中的地位日臻重要。賴俊杰說,H100 GPU一宣布,其數(shù)據(jù)中心客戶就表現(xiàn)出濃厚興趣。
基于4608塊H100 GPU,英偉達還打造了Eos超級計算機,預(yù)計將提供18.4Exaflops的AI算力,為英偉達內(nèi)部在氣候科學、數(shù)字生物學和AI方面的研究工作展開支持。據(jù)稱它在面向AI特定用途時,最大處理速度比當前的超算第一名還要快。
這是英偉達「未來十年實現(xiàn)Million-X百萬倍性能飛躍」愿景的一部分,即通過加速計算、大規(guī)模擴展和AI的結(jié)合,實現(xiàn)百萬倍計算加速,推動科學和工業(yè)計算的發(fā)展,尤其是助力解決藥物研發(fā)、宇宙模擬、數(shù)字孿生等重大挑戰(zhàn)。
其中特別有意思的一個項目是創(chuàng)建數(shù)字孿生地球,NVIDIA計劃建立AI超級計算及Earth-2,來應(yīng)對氣候變化危機。
做整個地球的數(shù)字孿生,是個極富挑戰(zhàn)的問題,其目的是構(gòu)建一個氣候模型,來推演全球不同區(qū)域幾十年的氣候變化,從而提前制定好應(yīng)對極端天氣變化的最佳策略。
今天,我們做氣候模擬的分辨率大約為10~100公里。而要模擬全球從海洋、海冰、地表、地下水到大氣和云層的整個水循環(huán)過程,需要幾米的分辨率,以及比目前可用算力高出數(shù)百萬到數(shù)十億倍的算力。
為此,英偉達計劃全力投入大量資源,將它所積累的各種先進技術(shù),包括GPU加速計算、深度學習、內(nèi)嵌物理信息的神經(jīng)網(wǎng)絡(luò)突破以及AI超級計算機等全部投入其中,為實現(xiàn)超分辨率氣候建模所需的10億倍量級提供支撐。
“Jensen(黃仁勛)作為英偉達的創(chuàng)始人,他在帶領(lǐng)整個公司往前走的時候,還是有一些情懷。”賴俊杰說,“無論是做Earth-2數(shù)字地球?qū)\生,還是在醫(yī)療行業(yè)的大舉投入,這項動作的初衷,都是希望利用英偉達的能力和資源,做一些對整個人類群體有益的事情?!?/p>
05.結(jié)語:風物長宜放眼量
總體來看,英偉達在數(shù)據(jù)中心的制勝之道,可以歸于天時、地利、人和。
天時,既有英偉達主導(dǎo)而成先發(fā)優(yōu)勢,也有深度學習浪潮爆發(fā)的偶然時代機遇。
從21世紀初,英偉達就開始將GPU從單一圖形處理功能向通用計算方向改造,不斷迭代軟硬件和推進社區(qū)建設(shè)。如今其生態(tài)壁壘之深厚,已經(jīng)不是其他芯片公司喊喊口號就能輕易追趕的。
當然,如果不是2012年,深度學習之父Geoffrey Hinton團隊通過ImageNet挑戰(zhàn)賽展示出人工智能的驚人計算能力,那么英偉達在數(shù)據(jù)中心企業(yè)級市場的崛起,也許會再晚數(shù)年。
地利,是隨著云計算、移動互聯(lián)網(wǎng)、智能駕駛、元宇宙等產(chǎn)業(yè)加速發(fā)展,企業(yè)對計算能力的旺盛需求,正推動全球范圍內(nèi)數(shù)據(jù)中心建設(shè)如火如荼的開展,準備就緒的英偉達得以充分施展抱負,在數(shù)據(jù)中心企業(yè)級市場中大展宏圖。
人和,是這一切布局的源頭,是英偉達核心人物黃仁勛看世界的遠見。無論是轉(zhuǎn)向通用計算平臺還是到提前全面布局人工智能,如果不是黃仁勛在早期快速調(diào)動公司上上下下的資源來做大規(guī)模投入,今天的人工智能和數(shù)據(jù)中心可能會是另一番景象。
一路走來,英偉達沒有故步自封,而是持續(xù)擁抱新事物、新技術(shù)。無論是重新定義GPU,還是學習競爭對手的思路,抑或是不斷嘗試理解重要的領(lǐng)域應(yīng)用對于計算系統(tǒng)的需求,其富有遠見的判斷力和持續(xù)自我重塑的執(zhí)行力,都在不斷延長英偉達的生命周期。
結(jié)果正如我們所看到的,英偉達已經(jīng)構(gòu)建起堅固的護城河——全棧計算能力。盡管前方充滿了未知與風險,但這家芯片巨頭顯然早已下定決心,瞄準數(shù)據(jù)中心這條道路,并堅定地走下去。
最后,回到數(shù)據(jù)中心架構(gòu)層面,很多計算問題遠遠不止一顆芯片這么簡單,有時需要很多不同類型的芯片、不同的網(wǎng)絡(luò)結(jié)構(gòu)高效協(xié)同,并配合大量的軟件工程師工作,才能最終將整體應(yīng)用性能做到足夠顯著的提升。在先進技術(shù)探索之路上,每邁出的新一步,都值得我們保持敬畏。
春江水暖鴨先知,已然身處數(shù)據(jù)中心加速計算中心的英偉達,在黃仁勛敏銳的戰(zhàn)略洞察指導(dǎo)下,仍在全力以赴投入研發(fā)創(chuàng)新,去支撐學術(shù)界和工業(yè)界解決那些最難的問題,創(chuàng)造更深遠的價值。