朱高峰 “東數西算”,成本要算
來源:中國科學報 更新時間:2022-08-23

今年2月,國家發展改革委等部門聯合印發文件,同意在京津冀等8地啟動建設國家算力樞紐節點,并規劃了張家口集群等10個國家數據中心集群。至此,“東數西算”工程正式全面啟動。

“東數西算”有了總體布局設計并開始行動。因此,有必要對其概念內涵予以清晰科學的闡釋,以免再現一哄而起的局面。

大數據出現后,由于對數據處理能力的要求大幅增長,且有些數據集來自于一定的地域范圍,因此需要形成有別于通信網的數據處理專用網絡,即算力網絡。

算力網絡的核心是數據處理設備,相應地要配置數據收集傳送通道,以收集來自不同地域的數據,并配備相應的數據存儲設備,以及把加工獲得的有用結果傳送至使用目的地的傳送通道。

回到“東數西算”工程。根據我國實際情況,人口密度、人類活動、各種數據資源以及數據應用市場在東部更集中,中部次之,西部地域再次之。既然數據資源和應用市場相對密集于東部,相應的處理也主要在東部,為何提出“東數西算”,即東部數據送到西部計算處理,再把結果送回東部應用呢?

“東數西算”與“西煤東運”“西電東送”有一致性,也有差異性。相同的是,它們都是從資源密集地把資源送到相對稀少地加工,不同的是加工后成品的處置問題。

對于物品和能量,資源所在地與主要應用所在地不同,加工地也可有不同選擇。由于物品加工大多需要較復雜的技術和較高技術水平的人力,因此大多情況下將原材料從西部產地運到東部加工,然后成品大量在東部使用或出口,因此也形成了原料和成品的不同物流網絡。能量則由于能源的形式不同,其利用方式也不同,如水能需要就地實現,然后傳送至需能地區,而長距離傳遞主要方式是用電,因此就需要實行西電東送,從水能豐富的西部輸送至需要大量能量的東部。

而信息具有特殊性,它可以大量復制,因此加工后的數據一般可存儲在加工處,只是在使用時才傳輸到使用處。之所以實施“東數西算”工程,主要有兩個因素。一是集中的數據加工/處理中心需要占用較大的物理空間,即土地和建筑,也需要較大的能耗。而東部的土地已經成為稀缺資源,能耗成本比西部高出不少。此外,數據中心自動化程度很高,所需人力相對較少。二是加工后的數據雖然大量返回東部使用,但數據作為信息可大量復制,近乎零成本,所以數據送回東部并非實物返回,而是只選擇所需要的數據以復制形態返回,原數據仍保存在西部數據中心,繼續按需隨時向不同地點輸送。因此,“東數西算”在原則上是可行的。

但原則上可行并不意味著怎么做都行,我們需要重視一個問題,即數據長距離傳輸成本。一方面數據可以近零成本大量復制并不等于可以無成本任意傳輸。另一方面,數據傳到某處實時使用,與先存儲以備之后使用是兩回事,存儲是需要成本的。

過去的教訓應吸取。比如剛提出“云計算”概念時,人們認為把各個點上的小規模數據處理和存儲集中到一個點,即云中,可以發揮規模效應,省去大量設點的成本,但并未認真考慮傳輸成本、信息保密等問題。因此,后來又提出并推行了“邊緣計算”。大量分散的邊緣計算和集中的云計算共同組成一個較為合理的體系。

數據量的問題也應得到重視。數據量并非越大越好,應以夠用為原則,且在滿足目標情況下越小越好,這與節材節能意義相通。此外,相關關系類的數據中有用成分比因果關系類數據少得多,因此,設計算力網絡時,要對所處理的數據種類和數量進行實事求是、合理的預估。

從全國來看,數據處理網絡的組成、不同地區的需求各有差異,對全國性、地區性、行業性的數據需求、集中程度也不同,比如同是東部地區,京津冀、長三角、珠三角情況并不一樣。此外,各地對數據中心建設、維護能力也不同,要考慮人力資源情況。

因此,在實際操作中,需要仔細分析考慮,對已有一定實踐的如貴州數據中心建設等應認真總結、吸取經驗和教訓,推動我國數據事業更好、更順利地發展。

作者系中國工程院院士



铁牛视频app下载苹果-铁牛视频app下载地址-铁牛视频app破解版ios