當(dāng)前,我國正在實(shí)施“東數(shù)西算”工程。在算力發(fā)展這個(gè)話題下,我談一些對數(shù)據(jù)中心“數(shù)學(xué)”與“算術(shù)”的思考。這里的“數(shù)學(xué)”是指數(shù)據(jù)的科學(xué),“算術(shù)”指的是算力的技術(shù)。
要分開:以算為主還是以存為主
從2012年到2019年,科技巨頭谷歌的算力需求6年間擴(kuò)大了30萬倍,約每3個(gè)半月翻一番。它為什么會(huì)有這么高的計(jì)算需求?是人工智能(AI)驅(qū)動(dòng)了算力的增長。
以O(shè)penAI于2020 年發(fā)布的AI語言分析模型GPT-3為例,它的參數(shù)規(guī)模有1750億個(gè),有45TB數(shù)據(jù),數(shù)學(xué)模型大小為700GB。微軟專門為OpenAI打造的超級(jí)計(jì)算機(jī),擁有28.5萬個(gè)中央處理器(CPU)和1萬個(gè)圖形處理器(GPU),供OpenAI訓(xùn)練所有的AI模型,一次訓(xùn)練成本約為1300萬美元?梢,AI的建模對計(jì)算能力有很高的要求。
目前,算力可以分為基礎(chǔ)算力(基于CPU芯片)、智能算力(基于GPU和NPU芯片)和超算算力(基于高性能計(jì)算機(jī));贕PU/NPU/FPGA等構(gòu)建的AI智算中心,更適于訓(xùn)練數(shù)據(jù)和導(dǎo)出模型。訓(xùn)練出數(shù)學(xué)模型后,后續(xù)利用模型計(jì)算輸入數(shù)據(jù)的AI決策結(jié)果,這并不需要太高的計(jì)算算力。所以,通常是用基于CPU的通用計(jì)算做已知數(shù)學(xué)模型下的計(jì)算任務(wù),可以理解為智算中心的功能主要是“算”,數(shù)據(jù)中心的主要任務(wù)是“存”。
中國信息通信研究院數(shù)據(jù)顯示,2021年全球算力分布為美國占31%、中國占27%,其次是日本、德國、英國等其他國家。其中,美國的基礎(chǔ)算力占全球35%、智能算力占15%、超算占30%,而中國這三類分別為27%、26%和20%。
可以看出,美國以基礎(chǔ)算力為主,中國則是智能算力超過美國。中國的超算和智能算力中心是以政府為主,基礎(chǔ)算力以運(yùn)營商和互聯(lián)網(wǎng)企業(yè)為主;美國則主要是互聯(lián)網(wǎng)企業(yè)為主。
另外,中國三大電信運(yùn)營商都做了云計(jì)算的能力和業(yè)務(wù)部署,全球其他運(yùn)營商沒有此類布局,這與國外有所不同。
要關(guān)注:熱數(shù)據(jù)與冷數(shù)據(jù)
從數(shù)據(jù)角度,大部分?jǐn)?shù)據(jù)可以分為熱數(shù)據(jù)和冷數(shù)據(jù)。熱數(shù)據(jù)主要是一些需要實(shí)時(shí)計(jì)算的數(shù)據(jù),相比之下冷數(shù)據(jù)不需要實(shí)時(shí)性。我國部署的八大算力樞紐,實(shí)際上西部主要是定位于處理冷數(shù)據(jù)和本地一些熱數(shù)據(jù),而東部主要是處理熱數(shù)據(jù)。
國際數(shù)據(jù)公司IDC提出,人類歷史上90%的數(shù)據(jù)都是過去幾年產(chǎn)生的,其中50%是過去兩年產(chǎn)生的。最近產(chǎn)生的數(shù)據(jù)是熱數(shù)據(jù),但熱數(shù)據(jù)經(jīng)過一段時(shí)間之后,也會(huì)“降溫”繼而變成冷數(shù)據(jù)。一項(xiàng)統(tǒng)計(jì)認(rèn)為,冷、溫、熱三類數(shù)據(jù)分別占累計(jì)數(shù)據(jù)量的80%、15%和5%,這意味著冷數(shù)據(jù)是最多的、主要的。
熱數(shù)據(jù)要求實(shí)時(shí)計(jì)算,但冷數(shù)據(jù)的需求主要是存儲(chǔ)。或者說,對冷數(shù)據(jù)來講計(jì)算并不是常態(tài),存儲(chǔ)才是。東西部的算力中心,分別更適合于處理熱數(shù)據(jù)和冷數(shù)據(jù)。從這個(gè)意義上來講,“東數(shù)西算”可以說是“東數(shù)西存”——主要是存,當(dāng)然也有計(jì)算。
在計(jì)算架構(gòu)上,主要有兩種:存算分離和存內(nèi)計(jì)算。
存算分離架構(gòu)是在控制單元指令下,從存儲(chǔ)器讀數(shù)據(jù)并交到CPU計(jì)算,得到的結(jié)果再送回存儲(chǔ)器。如此往復(fù)的I/O通信,對于熱數(shù)據(jù)的計(jì)算來說效率不高。
但存算分離有個(gè)優(yōu)點(diǎn),即存儲(chǔ)單元不僅可以服務(wù)于單個(gè)計(jì)算單元,還可以同時(shí)服務(wù)多個(gè)服務(wù)器的計(jì)算,形成一個(gè)池化的存儲(chǔ),這樣能夠支持多云計(jì)算,實(shí)現(xiàn)較高利用率和低成本、低能耗。而這恰好適用于冷數(shù)據(jù),例如可以用云平臺(tái)建模,用邊緣計(jì)算訓(xùn)練與仿真。
不過,熱數(shù)據(jù)需快速計(jì)算,因而受限于存算分離I/O通信的瓶頸,且CPU能力受累于存儲(chǔ)器訪問速度而難以發(fā)揮,更需要存內(nèi)計(jì)算。存內(nèi)技術(shù)以隨機(jī)存取存儲(chǔ)器(RAM)替代硬盤,在RAM內(nèi)完成所有運(yùn)算,F(xiàn)在還有一些阻變存儲(chǔ)器和相變存儲(chǔ)器等新型非易失性存儲(chǔ)器,已經(jīng)在實(shí)驗(yàn)室中取得了突破,但大規(guī)模推廣成本還較高。還有介乎于存內(nèi)計(jì)算和存算分離之間的模式,如近存計(jì)算。
總體而言,存算分離適用于冷數(shù)據(jù)處理,存內(nèi)計(jì)算適用于熱數(shù)據(jù)處理。舉個(gè)例子,自動(dòng)駕駛的數(shù)據(jù)要在路邊甚至車內(nèi)同時(shí)完成存與算。
西部以處理冷數(shù)據(jù)為主,但也需要處理當(dāng)?shù)氐臒釘?shù)據(jù)。冷熱數(shù)據(jù)是否需要分別采用不同的存算架構(gòu)?這也是值得研究的問題。
要厘清:PUE與IT能效
現(xiàn)在數(shù)據(jù)中心都喜歡強(qiáng)調(diào) PUE。PUE是數(shù)據(jù)中心能耗占IT系統(tǒng)能耗之比,反映了制冷系統(tǒng)的水平,但不能用來衡量IT系統(tǒng)的能效。
衡量碳使用效率的指標(biāo)是CUE,其能更直觀地反映數(shù)據(jù)中心的節(jié)碳水平。PUE與CUE在常規(guī)電力方面是等效的,但在使用綠電時(shí),即使數(shù)據(jù)中心PUE很高,CUE也可以很低。因此,PUE低不代表不耗能,因?yàn)镮T系統(tǒng)也是有能耗的。
據(jù)統(tǒng)計(jì),數(shù)據(jù)中心IT系統(tǒng)的能耗中,服務(wù)器約占50%,存儲(chǔ)系統(tǒng)約占35%,網(wǎng)絡(luò)通信設(shè)備約占15%。數(shù)據(jù)中心需要7×24小時(shí)工作,但連續(xù)工作并不是連續(xù)計(jì)算。一般來講,很多數(shù)據(jù)中心計(jì)算的時(shí)間占比不高,但是數(shù)據(jù)“睡覺”的時(shí)候也耗能——此時(shí)存儲(chǔ)系統(tǒng)能耗成為主體。所以麥卡錫報(bào)告稱,數(shù)據(jù)中心大部分電能是用于維持服務(wù)器的,服務(wù)器大部分時(shí)間僅用于存儲(chǔ),只有6%~12%用來計(jì)算。所以,降低存儲(chǔ)的能耗非常重要。
要降低能耗,首先考慮冷數(shù)據(jù)存儲(chǔ),有人建議采用磁帶代替磁盤。據(jù)估計(jì),如果100PB的數(shù)據(jù)存儲(chǔ)全部采用硬盤,10年的存儲(chǔ)成本要1641萬美元;而如果這些數(shù)據(jù)100%用磁帶來代替,存儲(chǔ)成本可下降73%。
目前磁帶存儲(chǔ)正被越來越多的科技公司所接受和應(yīng)用。比如,百度智能駕駛已全面開始使用磁帶存儲(chǔ),對比之前的存儲(chǔ)系統(tǒng),整體成本下降了85%。
但對于熱數(shù)據(jù),人們希望越快越好,就用閃存代替磁盤。它不但速度快,能效也好,但目前成本還比較高。
還有一種改進(jìn)能效的辦法是數(shù)據(jù)預(yù)處理。不是所有數(shù)據(jù)都是有用的,我們需要去掉一些無效值,如空格、有缺失的數(shù)據(jù)、過期數(shù)據(jù)等。另外,可以通過數(shù)據(jù)壓縮算法把數(shù)據(jù)優(yōu)化,還有合理安排數(shù)據(jù)存儲(chǔ)的位置和調(diào)度,以比較精確地找出數(shù)據(jù)所存的位置,這樣也可以減少能耗。
對“東數(shù)西算”的思考
“東數(shù)西算”使得算力設(shè)施的布局超越了數(shù)據(jù)中心樞紐的范疇,雖然設(shè)想東部與西部互為冷熱數(shù)據(jù)的配對,但東西部間應(yīng)如何配比?
我注意到廣東省關(guān)于數(shù)據(jù)中心的規(guī)劃:設(shè)計(jì)省內(nèi)算力占70%,省外算力占30%,這與冷數(shù)據(jù)占比80%的客觀情況有出入。按理說,省外多數(shù)是冷數(shù)據(jù),冷數(shù)據(jù)占80%,但省外算力只有30%,這顯然不能滿足需要。或者,是不是可以理解為,80%的冷數(shù)據(jù)是指存儲(chǔ)容量,而不是算力的比例?所以這是個(gè)問題。
另外,在市場經(jīng)濟(jì)條件下,東西部的存算比例理應(yīng)“配對”。但是,誰去管它們之間的存算匹配?如果任由各自獨(dú)立設(shè)計(jì),怎么能做到最佳利用容量?這里也存在問題。因此,在“東數(shù)西算”推進(jìn)過程中,需要進(jìn)一步加強(qiáng)東西部算力樞紐、數(shù)據(jù)中心的協(xié)同。
同時(shí),同一數(shù)據(jù)中心樞紐或集群內(nèi)部也有很多比例需要優(yōu)化。數(shù)據(jù)中心樞紐內(nèi)有多個(gè)數(shù)據(jù)中心,每個(gè)數(shù)據(jù)中心內(nèi)部又有多個(gè)業(yè)主:有騰訊建的、阿里建的;有電信建的,也有聯(lián)通、移動(dòng)建的。各建各的、各種各樣,基本沒有協(xié)商。那么,怎么協(xié)調(diào)它們的能源、土地、電力等的供應(yīng)?怎么建立共享機(jī)制以實(shí)現(xiàn)樞紐內(nèi)各數(shù)據(jù)中心所需的能源與網(wǎng)絡(luò)資源集約化,從而提升利用率?目前還沒有這種機(jī)制。為此,需要協(xié)調(diào)“東數(shù)西算”跨域數(shù)據(jù)中心能力,避免存算資源不匹配。總之,“東數(shù)西算”還需要“懂?dāng)?shù)細(xì)算”。
此外,每一個(gè)數(shù)據(jù)中心還需要設(shè)定計(jì)算力、存力和網(wǎng)絡(luò)能力的合理比例以及相應(yīng)的災(zāi)備比例。這是與冷熱數(shù)據(jù)、大小文件數(shù)據(jù)有關(guān)聯(lián)的,不能“一刀切”。
從長遠(yuǎn)來看,數(shù)據(jù)中心越大型能效就越好,但也忌一步到位:一般而言,CPU的能力一年半就要換代,若超前建設(shè),實(shí)際上是浪費(fèi)的。咨詢公司Gartner認(rèn)為,到2025年,75%的數(shù)據(jù)要在邊緣處理,只有25%的數(shù)據(jù)會(huì)送到云計(jì)算中心或數(shù)據(jù)樞紐上。如何協(xié)同邊緣與中心云的算力比例?這也是需要認(rèn)真研究的命題。所以,關(guān)于數(shù)據(jù)中心的“數(shù)學(xué)”和“算術(shù)”,還有很多需要深入研究的內(nèi)容,算力對我們來講還是一個(gè)比較新的東西,要善于從實(shí)踐中學(xué)習(xí)創(chuàng)新!
(作者系中國工程院院士,記者趙廣立根據(jù)其在2022中國算力大會(huì)上的發(fā)言整理)