4月18日,Meta發(fā)布了最新開源模型Llama3,訓(xùn)練該模型使用的GPU芯片H100數(shù)量是Llama2時候的8倍,AI訓(xùn)練的算力競賽再次提速。
更多的GPU芯片意味著更多的算力,也意味著需要消耗更多的電力。
今年以來,幾位悉心研究AI的商界大佬們紛紛發(fā)表言論,暗示AI發(fā)展的盡頭是“缺電”。OpenAI首席執(zhí)行官薩姆·奧特曼表示,AI技術(shù)消耗的電力將遠遠超出人們預(yù)期。而埃隆·馬斯克認(rèn)為,按照人工智能每6個月就以10倍速度飆升的發(fā)展趨勢,電力供應(yīng)會面臨前所未有的壓力。英偉達創(chuàng)始人黃仁勛則說,AI的盡頭將是光伏和儲能。
過去數(shù)據(jù)中心的快速發(fā)展,已經(jīng)呈現(xiàn)出對電力和水資源的巨大需求,而AI將加速這一消耗。界面智庫整理已有的關(guān)于AI耗能、耗水量的研究,做了以下梳理:
“AI耗能”的問題還可以被拆解,其中包括軟件和硬件兩個部分。軟件指AI模型的訓(xùn)練、使用耗能等環(huán)節(jié),硬件指芯片、數(shù)據(jù)中心運轉(zhuǎn)的耗能。就以硬件中的芯片來說,芯片生產(chǎn)過程需要“超純水”清洗,耗水量巨大,有數(shù)據(jù)估算,生產(chǎn)一個2克重的計算機芯片大約需要32公斤水,臺積電每年晶圓產(chǎn)能約3000萬片,芯片生產(chǎn)耗水約8000萬噸。
打個不恰當(dāng)?shù)谋确剑很浖暮哪埽愃埔粋€人做一道數(shù)學(xué)題需要消耗多少腦力,懂得計算方法的人可能“用腦”更少;硬件的耗能,類似人體給大腦供能的效率,一個肌肉量高的人補充的能量可能有更大部分是被肌肉消耗掉了。而有觀點認(rèn)為,AI之所以還沒有被普及,就是因為從目前的水平看,解決同樣的問題,從能耗和成本上,它還是比人腦“貴”多了。
當(dāng)然,在AI耗能問題上,不能只看耗能不看產(chǎn)出,還要考慮到AI的廣泛應(yīng)用能為各行各業(yè)帶來更大的生產(chǎn)力和發(fā)展?jié)撃堋?/p>
人工智能的能耗來自哪些環(huán)節(jié)?如何降低能耗以及未來如何填補用能缺口?界面智庫分別采訪了“軟件”和“硬件”方面的專家做出梳理和解讀。
一、生成式人工智能的耗能量和碳排放該怎么計算?能耗來自哪些環(huán)節(jié)?
清華大學(xué)工學(xué)博士、教授級高工、新型電力系統(tǒng)創(chuàng)新聯(lián)盟專家委員周文聞告訴界面智庫,生成式人工智能(AIGC)雖然是軟件模型,但按照全生命周期(LCA-Life Cycle Assessment生命周期評估)的計算方法,應(yīng)該從開展和使用該算法業(yè)務(wù)的硬件部分開始計算,直到全生命周期結(jié)束。
如下圖所示,生成式人工智能的能耗組成部分包括:設(shè)備制造、模型訓(xùn)練、數(shù)據(jù)標(biāo)注、模型使用等四個環(huán)節(jié)。其中模型訓(xùn)練是AIGC能耗的重要組成部分,其次是模型使用。
周文聞帶領(lǐng)團隊按照LCA的評估方法對某大模型進行碳足跡建模,其中設(shè)備制造階段重點計算了vCPU、內(nèi)存和GPU的能耗(主動忽略了總線、接口、外設(shè)、風(fēng)扇、機箱等);模型訓(xùn)練階段只考慮了服務(wù)器的計算能耗和存儲能耗(忽略網(wǎng)絡(luò)傳輸);數(shù)據(jù)標(biāo)注階段考慮標(biāo)注所使用的筆記本/臺式電腦碳排放,模型使用階段和模型訓(xùn)練階段的結(jié)算方式雷同,以能耗乘以碳排放因子來計算碳足跡,綜合得出的該大模型的產(chǎn)品碳足跡總量為962.37 tCO2e(二氧化碳排放當(dāng)量),大概是49個美國人一年產(chǎn)生的碳排放(按美國人均二氧化碳排放量19.58噸計算-Maplecroft公司2009年數(shù)據(jù))。
該公式?jīng)]有計算數(shù)據(jù)中心冷卻系統(tǒng)、網(wǎng)絡(luò)傳輸?shù)奶甲阚E等。而事實上,數(shù)據(jù)中心的數(shù)據(jù)傳輸速率和散熱冷卻系統(tǒng),也是重要的耗能來源。這些環(huán)節(jié)會如何影響數(shù)據(jù)中心能耗?
TE Connectivity是全球規(guī)模最大的連接和傳感解決方案提供商之一,TE Connectivity數(shù)據(jù)與終端設(shè)備事業(yè)部亞太區(qū)銷售總監(jiān)蔣撲天告訴界面智庫,服務(wù)器的能效水平是影響數(shù)據(jù)中心能耗的重要因素之一。如果提高端到端整個鏈路上的數(shù)據(jù)傳輸速率,可以幫助數(shù)據(jù)中心降低服務(wù)器處理同等數(shù)據(jù)量的能耗,“比如理論上4G網(wǎng)絡(luò)條件下,每度電可下載620G的數(shù)據(jù),而在5G每度電可下載2857G的數(shù)據(jù),也就是說從能效上,5G是4G的4.6倍”。
他還指出,隨著數(shù)據(jù)中心算力提高,必然需要更高的能源電力,也就要求在不增加連接器產(chǎn)品空間的前提下,增加更多能源供應(yīng),這意味著連接器單位面積可承載的電源功率要相應(yīng)提高。而當(dāng)電源功率增加,單位面積不變大的情況下,散熱就非常關(guān)鍵?!八栽谏岱绞缴?,國內(nèi)從原來的風(fēng)冷,現(xiàn)在開始嘗試做液冷,將熱能從模塊中傳輸出去,并保持較低的運行溫度,提高系統(tǒng)整體效率和可靠性?!笔Y撲天說。
散熱就需要耗能。各家企業(yè)也在嘗試各種方法為數(shù)據(jù)中心散熱。中國宏觀經(jīng)濟研究院能源研究所研究員崔成撰文寫到:微軟曾嘗試部署海下數(shù)據(jù)中心,F(xiàn)acebook數(shù)據(jù)中心選址在北極圈附近,阿里云千島湖數(shù)據(jù)中心使用深層湖水制冷等,我國很多企業(yè)則把數(shù)據(jù)中心布局在水電資源豐富的西南地區(qū)。
因此,生成式人工智能的能耗更準(zhǔn)確的計算需要考慮軟件和硬件兩個部分以及不同環(huán)節(jié)。
二、Chatgpt、PaLM 、Claude、盤古、文心一言、Gemini,不同的大模型耗能是否會有差異?是否大模型越發(fā)展,就會消耗越多能源?
不同大模型的能耗確實會有差異。周文聞指出,其中設(shè)備制造環(huán)節(jié)的差異不大,因為不同大模型使用的硬件基礎(chǔ)設(shè)施大多是同質(zhì)化的CPU和GPU服務(wù)器;而差異主要體現(xiàn)在模型訓(xùn)練、數(shù)據(jù)標(biāo)注、模型使用這三個環(huán)節(jié)。目前很少能從公開資料查到以上大模型的資源使用信息,在數(shù)據(jù)不透明的情況下(除了各家自己掌握數(shù)據(jù)),很難準(zhǔn)確計算大模型的能耗使用水平。
不過,硬件基礎(chǔ)設(shè)施的能耗計算方式,也有可能因為技術(shù)革新而被顛覆。就在近日,媒體報道稱前谷歌量子計算團隊的幾位員工創(chuàng)立了一家名為Extropic的公司,提出用物質(zhì)隨機波動驅(qū)動計算,認(rèn)為這種計算方式更接近人類大腦,將有可能擴展硬件的性能界限,超越傳統(tǒng)的數(shù)字計算,比現(xiàn)在的CPU、GPU等數(shù)字處理器更高效更節(jié)能。
至于隨著大模型的發(fā)展,未來是否會消耗越多能源,周文聞指出,因為模型的迭代主要靠新的數(shù)據(jù)訓(xùn)練來完成,數(shù)據(jù)訓(xùn)練的基礎(chǔ)設(shè)施就是算力,而算力的基礎(chǔ)設(shè)施是能源。
舉個例子,因為與微軟工程師有過交流,AI創(chuàng)新公司OpenPipe的聯(lián)合創(chuàng)始人Kyle Corbitt在社交平臺X上回答提問“為何不將(GPT-6)的訓(xùn)練集群集中同一個區(qū)域”,因為“有嘗試過,但無法在同一州放置超過10萬片H100的GPU,否則會導(dǎo)致電網(wǎng)癱瘓?!?/p>
“需要注意的誤區(qū)是,大模型消耗能源并不可怕,可怕的是大量消耗傳統(tǒng)能源,關(guān)鍵是要使用清潔能源來替代?!敝芪穆?wù)f。
華泰證券研報預(yù)測,到2030年中國與美國的數(shù)據(jù)中心總用電量將分別達到0.65萬億千瓦時至0.95萬億千瓦時、1.2萬億千瓦時至1.7萬億千瓦時,是2022年的3.5倍和6倍以上。解決用能問題,也是解決AI技術(shù)與產(chǎn)業(yè)未來發(fā)展的瓶頸。
三、未來如何填補缺口?通過哪些方式為人工智能供能?
“這個問題需要辯證看待?!敝芪穆勚赋?,生成式人工智能發(fā)展的不同階段,對能源的需求是不同的,例如在目前LLM的形態(tài)下,當(dāng)前的能源是夠用的,而按照OpenAI規(guī)劃的最終AI形態(tài),能源基礎(chǔ)設(shè)施必須跟上,否則會制約AI技術(shù)的發(fā)展。
在未來增加供能方面,周文聞?wù)J為可以從供給側(cè)和需求側(cè)兩個方面解決。供給側(cè):一是做好傳統(tǒng)能源向清潔能源逐步轉(zhuǎn)化、逐漸替代,人工智能的發(fā)展也要和化石燃料脫鉤;二是大力發(fā)展和建設(shè)清潔能源,比如風(fēng)電、光伏、儲能,提高清潔能源占比;三是積極探索新型能源技術(shù)和相關(guān)新材料,比如可控核聚變、固態(tài)電池、鈣鈦礦等。
在需求側(cè):一是減少重復(fù)的模型訓(xùn)練工作,不同國家/廠商用同樣或類似的數(shù)據(jù)集訓(xùn)練自己的閉源模型,造成能源重復(fù)浪費,應(yīng)該鼓勵開源模型的應(yīng)用,鼓勵共享部分模型和算法;二是積極探索和研究新的模型架構(gòu),在訓(xùn)練完模型底座后,盡可能微調(diào)模型結(jié)構(gòu);三是人工智能公司也要有氣候變化的危機意識和能源危機意識,盡可能使用清潔能源。
蔣撲天則指出了兩項在硬件上有望節(jié)能增效的技術(shù)創(chuàng)新。
一是材料創(chuàng)新,在印制電路板(PCBA-Printed Circuit Board Assembly)里,探索“光進銅退”—即通過OTB(光纜終端盒)的方式用光纖替代一部分服務(wù)器里的銅線。
“過去’光進銅退’主要體現(xiàn)在終端設(shè)備外部,用光纜而不用銅纜進行長距離傳輸,幫助節(jié)省材料成本和電力消耗,未來的‘光進銅退’發(fā)生在設(shè)備內(nèi)部,數(shù)據(jù)連接的傳輸速率在單次迭代的情況下,提升得越來越快?!彼赋觯跀?shù)據(jù)傳輸速率從224G到448G的發(fā)展過程中,很可能會發(fā)生“光進銅退”的變革,芯片到芯片之間以光纖的形式連接,減少原有芯片外部的電力驅(qū)動和電光/光電轉(zhuǎn)換環(huán)節(jié),從而減少能耗,“以交換機芯片廠商博通發(fā)布的一款112G速率的光連接交換芯片為例,同樣驅(qū)動800G的鏈路,傳統(tǒng)交換機需要14W的功率,而芯片光纖直連的交換機只需要5.5W的功率,降低了約60%的能耗?!?/p>
二是更好幫助數(shù)據(jù)中心散熱的液冷技術(shù)。國內(nèi)服務(wù)器廠商浪潮發(fā)布了業(yè)界首個可支持浸沒式液冷50℃進液溫度的服務(wù)器,通過更高效的系統(tǒng)散熱設(shè)計和熱管理技術(shù),實現(xiàn)更高的進液溫度,比業(yè)內(nèi)常用的40℃進液溫度系統(tǒng)減少了冷卻系統(tǒng)的部署、節(jié)省電力消耗。“液體帶走熱量的能力是同體積空氣的3000倍,液冷系統(tǒng)比風(fēng)冷系統(tǒng)可以節(jié)省約30%的能源消耗,并且可以降低噪音,提供更好的工作環(huán)境。”蔣撲天介紹。為了適應(yīng)液冷散熱系統(tǒng),連接器和線纜也需要從材料的耐高溫、耐腐蝕,以及信號的完整性上做優(yōu)化。
另外,蔣撲天指出,作為前沿技術(shù),基于光芯片的人工智能處理器也在業(yè)界積極開發(fā)中,通過光學(xué)衍射-干涉混合等技術(shù),甚至可以為毫瓦級低功耗自主智能無人系統(tǒng)提供算力支撐。
四、人工智能的應(yīng)用正在哪些領(lǐng)域鋪開?有哪些已經(jīng)在發(fā)生的應(yīng)用和改變,以及哪些極具潛力的方向?
人工智能在制造業(yè)的應(yīng)用可以幫助優(yōu)化生產(chǎn)和采購流程,維護供應(yīng)鏈穩(wěn)定,提高生產(chǎn)效率和產(chǎn)品質(zhì)量;在醫(yī)療保健領(lǐng)域的應(yīng)用可以提高影像分析的診斷準(zhǔn)確性,擴大醫(yī)療服務(wù)受益人群;在農(nóng)業(yè)領(lǐng)域的應(yīng)用則可以幫助農(nóng)業(yè)生產(chǎn)進行作物監(jiān)測,提供更精準(zhǔn)的施肥、灌溉策略等。
蔣撲天基于他的觀察對人工智能已經(jīng)應(yīng)用的領(lǐng)域,和潛力方向做了簡單的分享。
第十四屆全國人大常委會委員、國家氣候變化專家委員會副主任王毅就曾表示,AI產(chǎn)品消耗的電力對社會來說是否是負(fù)擔(dān),需要總體來看,“AI帶來的創(chuàng)新能力是我們過去人力所不可比擬的”。
美銀美林預(yù)計,AI的電力使用量將在2023年至2028年間以25-33%的年復(fù)合增長率增長,這一增長將對數(shù)據(jù)中心的設(shè)計和運營帶來挑戰(zhàn)。
2024年3月21日,聯(lián)合國大會通過首個關(guān)于人工智能的全球決議《抓住安全、可靠和值得信賴的人工智能系統(tǒng)帶來的機遇,促進可持續(xù)發(fā)展》,“能耗”只是人工智能可持續(xù)發(fā)展中的其中一個問題,也是人工智能技術(shù)與產(chǎn)業(yè)發(fā)展的基礎(chǔ),人工智能的發(fā)展也須平衡環(huán)境、資源與氣候的關(guān)系。