文|極客電影
英偉達(dá)再次站到了時(shí)代浪潮之上:
被ChatGPT選中的英偉達(dá)成功擺脫“礦圈”影響,并且極有可能在未來(lái)成為AI領(lǐng)域的核“芯"。
過(guò)去三十年間,英偉達(dá)制造的芯片幾乎主導(dǎo)了整個(gè)游戲和計(jì)算機(jī)圖像產(chǎn)業(yè),而人工智能業(yè)務(wù)的增長(zhǎng)為它帶來(lái)了新的盈利方向。
英偉達(dá)創(chuàng)始人黃仁勛在十年前的深謀遠(yuǎn)慮,讓公司得以乘著時(shí)代風(fēng)口“起飛”。
大約在十年前我們就發(fā)現(xiàn),AI這種制作方式可以改變一切。
我們調(diào)整了公司方方面面的發(fā)展規(guī)劃,我們生產(chǎn)的每一個(gè)芯片都具備人工智能技術(shù)。
縱觀英偉達(dá)的崛起,靠的絕不是運(yùn)氣。
圖形處理“霸主”成長(zhǎng)史
英偉達(dá)的英文名稱 NVIDIA 前兩個(gè)字母 NV=Next Version(下一個(gè)版本);
NVIDIA是拉丁語(yǔ)“嫉妒”的意思,他們希望自己產(chǎn)品的計(jì)算速度可以快到讓所有人都嫉妒,所以選擇了代表羨慕嫉妒恨的綠眼睛作為公司標(biāo)志。
英偉達(dá)的LOGO——綠眼睛
英偉達(dá)創(chuàng)始人黃仁勛,1963年出生,9歲時(shí)移民美國(guó),后進(jìn)入在俄勒岡州立大學(xué)學(xué)習(xí)電氣工程,并在斯坦福獲得碩士學(xué)位。
上世紀(jì)八九十年代,畢業(yè)后的黃仁勛曾在AMD和LSI Logic工作。在LSI Logic設(shè)計(jì)部門工作了兩年之后,黃仁勛轉(zhuǎn)崗到了銷售部門——這是他自認(rèn)為“人生最佳”的職業(yè)轉(zhuǎn)型,銷售經(jīng)驗(yàn)讓他學(xué)會(huì)了“產(chǎn)品和市場(chǎng)結(jié)合才是成功關(guān)鍵”。
之后,黃仁勛結(jié)識(shí)了Chris Malachowsky和Curtis Priem兩位曾經(jīng)在SUN工作過(guò)的技術(shù)人員,三個(gè)工程師常聚在圣何塞Berryessa立交橋旁的小破店Denny's里喝咖啡,討論如何加快電子游戲中3D圖像的渲染速度。
1993年,三人共同在加州一個(gè)小公寓里創(chuàng)立了英偉達(dá)公司。
英偉達(dá)的三個(gè)創(chuàng)始人
1999 年,幾經(jīng)市場(chǎng)失敗瀕臨破產(chǎn)邊緣的英偉達(dá),在裁掉大部分員工后,推出了號(hào)稱是世界上第一款官方GPU——GeForce 256。
這是第一款允許自定義陰影和照明效果的可編程顯卡。到 2000 年,英偉達(dá)已成為微軟第一款Xbox的獨(dú)家圖形引擎供應(yīng)商。
“微軟推出XBOX的時(shí)機(jī),恰好是我們投入研究可編程著色器(Programmable shader)的時(shí)候,它定義了計(jì)算機(jī)圖形學(xué)的底層邏輯?!眲?chuàng)始人黃仁勛說(shuō)。
天時(shí)地利人和,英偉達(dá)的GPU順勢(shì)成為最主流的圖形處理芯片。
30年前,硅谷研發(fā)圖形處理芯片的公司群雄逐鹿,如今幾乎只剩英偉達(dá)和AMD還活著,首席執(zhí)行官仍是創(chuàng)始人的公司更是少見。
這就必須提到黃仁勛在2006 年下的大賭注——他們發(fā)布了一個(gè)名為CUDA(Compute Unified Device Architecture)的軟件工具包。
當(dāng)年CUDA剛問(wèn)世的時(shí)候,華爾街對(duì)其市值估值為0美元?!爸钡?016年,即CUDA問(wèn)世 10 年后,人們才突然意識(shí)到,這是一種截然不同的計(jì)算機(jī)程序編寫方式,”英偉達(dá)深度學(xué)習(xí)研究副總裁Bryan Catanzaro說(shuō)。
正是他們搭建的CUDA開發(fā)者平臺(tái)以其易用性和通用性,讓GPU可以用于通用超級(jí)計(jì)算,最終推動(dòng)英偉達(dá)迅速擴(kuò)張為圖形處理領(lǐng)域的霸主。
從游戲到“挖礦”,再到ChatGPT
英偉達(dá)的GPU一度成為了加密貨幣領(lǐng)域中的硬通貨,游戲顯卡價(jià)格被炒高,英偉達(dá)的股票也曾一度高達(dá)319美元。
盡管英偉達(dá)為“挖礦”專門設(shè)計(jì)了一款GPU(NVIDIA CMP hx series),但仍然擋不住“淘金者們”購(gòu)買游戲顯卡。
顯卡短缺大概到2022年初結(jié)束,同年英偉達(dá)發(fā)布的40系列GPU (GeForce RTX 4080),定價(jià)$1199,遠(yuǎn)遠(yuǎn)高于30系列$699的價(jià)格,這讓游戲玩家大為震撼。
顯卡供需恢復(fù)正常以后,英偉達(dá)在游戲行業(yè)的營(yíng)收下降了46%,股價(jià)隨之大跌,芯片巨頭急需業(yè)務(wù)調(diào)整。
“突然一個(gè)聽起來(lái)不可能的軟件發(fā)現(xiàn)了你”——OpenAI購(gòu)買了10000個(gè)GPU用于AI計(jì)算,此后,英偉達(dá)開始正式成為人工智能背后的中堅(jiān)力量。
被 AI 選中的英偉達(dá)
01│AI為什么選擇GPU?
英偉達(dá)在1996年發(fā)布GeForce256時(shí),就率先提出GPU(圖形處理器)概念,從此英偉達(dá)顯卡芯片就等同了GPU。
GPU包含成百上千的核心,每個(gè)核心處理一個(gè)像素點(diǎn),這樣就可以在同一時(shí)間內(nèi)完成對(duì)圖片中所有像素點(diǎn)的處理。
GPU這種基于大量計(jì)算核心的結(jié)構(gòu),讓它特別擅長(zhǎng)做那些計(jì)算密集且可以大量并行執(zhí)行的運(yùn)算,深度學(xué)習(xí)和AI應(yīng)用就符合這個(gè)特點(diǎn),而且AI應(yīng)用里最常見的卷積運(yùn)算本質(zhì)是加減乘除這類簡(jiǎn)單運(yùn)算。
這也是GPU與中央處理器CPU最大的區(qū)別:
CPU適用于需要按時(shí)序進(jìn)行的復(fù)雜運(yùn)算,就像一個(gè)淵博的數(shù)學(xué)教授,什么問(wèn)題都會(huì),但是雇他的成本很高;
而GPU就像一千個(gè)小學(xué)生,可同時(shí)進(jìn)行大量簡(jiǎn)單運(yùn)算,又便宜又快。
02│GPU 如何推動(dòng)AI人工智能的發(fā)展?
GPU算力提升是AI得以實(shí)現(xiàn)的基礎(chǔ),而AI領(lǐng)域的算法進(jìn)步也讓GPU算力提升成為可能。
2009年,斯坦福人工智能研究員推出了ImageNet,這是一個(gè)標(biāo)記圖像的集合,用于訓(xùn)練計(jì)算機(jī)視覺(jué)算法;
2012年,被稱作“神經(jīng)網(wǎng)絡(luò)之父”和“深度學(xué)習(xí)鼻祖”的多倫多大學(xué)教授杰弗里辛頓和他的博士生Alex發(fā)表了AlexNet,把在GPU上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)與ImageNet數(shù)據(jù)結(jié)合,創(chuàng)造出世界上最好的視覺(jué)分類器,一舉獲得ImageNet LSVRC-2010競(jìng)賽的冠軍,錯(cuò)誤率只有15.3%, 遠(yuǎn)超第二名的26.2%。
AlexNet原理
同年,英偉達(dá)發(fā)布了名叫開普勒(Kepler)的GPU架構(gòu),從2012年的“開普勒”芯片到2020年的安培(Ampere)架構(gòu),GPU的芯片性能在8年里提升了317倍。
英偉達(dá)能取得這樣成就,主要有兩個(gè)方面的原因:
首先是半導(dǎo)體制造工藝的進(jìn)步,這部分功勞當(dāng)歸功于臺(tái)積電和三星這樣的芯片制造商。在芯片架構(gòu)不變的情況下,單靠工藝的升級(jí),性能也會(huì)有好幾倍的提升。
另外一個(gè)非常重要的原因,就是在英偉達(dá)自己在芯片架構(gòu)上的優(yōu)化:
首先是張量核心(Tensor Cores)的引入。
Tensor Cores是一種專為深度學(xué)習(xí)而設(shè)計(jì)的計(jì)算核心,它執(zhí)行的是一種特別的矩陣式數(shù)學(xué)運(yùn)算方式,非常適用于深度學(xué)習(xí)訓(xùn)練
2017年12月英偉達(dá)發(fā)布了首次采用具有Tensor Cores的GPU,專門用于AI領(lǐng)域、特別是計(jì)算機(jī)深度學(xué)習(xí)。這就是為什么幾乎所有深度學(xué)習(xí)超級(jí)計(jì)算機(jī)都選擇了英偉達(dá)的GPU。
英偉達(dá)Tensor Cores GPU
其次是,支持更低精度的數(shù)據(jù)運(yùn)算。
這是因?yàn)檠芯緼I算法的人發(fā)現(xiàn),精度下降造成的準(zhǔn)確度下降可忽略不計(jì),因此選擇更低的精度能大幅提升算力。
同時(shí),Tensor Cores使人工智能程序員能夠使用混合精度來(lái)實(shí)現(xiàn)更高的吞吐量而不犧牲精度,即針對(duì)不同的任務(wù)執(zhí)行不同的精度需求,節(jié)約了大量算力。
同樣能帶來(lái)算力提升的,是結(jié)構(gòu)化剪枝(壓縮)技術(shù)。
剪枝技術(shù)是本科畢業(yè)于清華大學(xué),現(xiàn)任麻省理工副教授的韓松提出的一種AI模型的壓縮技術(shù)。他發(fā)現(xiàn)在AI模型中,神經(jīng)元之間的聯(lián)系有著不同的緊密程度,剪掉一些不那么重要的連接,基本不會(huì)影響模型的精度。
剪枝壓縮技術(shù)
而近年來(lái)神經(jīng)網(wǎng)絡(luò)模型里新秀Transformer模型,給算法技術(shù)層面帶來(lái)了大幅進(jìn)步。
Transformer模型
在NLP領(lǐng)域取得的研究進(jìn)展都和Transformer息息相關(guān), OpenAI采用的GPT-3模型,就是受到了Transformer模型的啟發(fā),參數(shù)的數(shù)量達(dá)到了1750億個(gè)。
然而Transformer模型需要更大的運(yùn)算量,也就意味著硬件水平得配套。于是英偉達(dá)開發(fā)了專用于Transformer模型的計(jì)算引擎,以適應(yīng)AI的算力需求。
由此可見,AI算法領(lǐng)域的科研成果和GPU的性能是彼此促進(jìn)、互相提攜的。
巨頭入場(chǎng),圖形芯片越來(lái)越卷
計(jì)算能力就是AI時(shí)代的貨幣。
云計(jì)算和互聯(lián)網(wǎng)大廠紛紛下場(chǎng)做自己的芯片,就是提供更強(qiáng)大的算力,降本增效,來(lái)滿足不同應(yīng)用場(chǎng)景的需求。
比如蘋果的M1芯片,就是為了讓它的產(chǎn)品在視頻剪輯等細(xì)分場(chǎng)景的應(yīng)用上有更強(qiáng)表現(xiàn),而舍棄了通用性。
而英偉達(dá)、英特爾設(shè)計(jì)的芯片更具通用性——芯片設(shè)計(jì)廠商在通用性和專用性上的取舍,其實(shí)體現(xiàn)了他們?cè)谏虡I(yè)價(jià)值上的自我預(yù)期。
2013年,谷歌開始研發(fā)用于AI場(chǎng)景的TPU芯片,目的是為了解決公司內(nèi)部日益龐大運(yùn)算需求與成本問(wèn)題。這些芯片幾乎只能用于解決矩陣運(yùn)算,也算是舍棄通用性,追逐專用性的極端了。
甚至連亞馬遜都在2013年推出了Nitro1芯片,同樣是服務(wù)其自身電商業(yè)務(wù)。