ccid數據顯示,自2016年以來,全球數據中心的總量呈下降趨勢,2016年全球數據中心數量是45萬座,到2019年下降到42.9萬座。這并不意味著數據中心投資放緩,恰恰相反,全球服務器和服務器機架的出貨數量一直在上升,大型(機架數量3000~10000)和超大型數據中心(機架數量大于10000個)的數量在持續增長。被淘汰的主要集中在機架數量小于500個的小型、微型數據中心,這些小微型數據中心在算力和運營成本上無法與大型數據中心匹敵,因此數量逐年減少。
在2020年,全球超大型數據中心服務占比首次超過50%,提供了65%的數據計算能力,55%的數據存儲空間,計算力量占比也超過50%。由于擁有全球頂尖的互聯網公司,北美地區擁有全球最多的數據中心和計算力,起數據中心規模占全球44.5%。根據美國能源署的資料,全美數據中心耗電量約占總發電量的2%左右,以2020年全美發電總量為4.4萬億度來算,2020年年全美數據中心消耗的能源大約在800億度左右。而這還是美國政府及相關機構經過不懈努力的結果,在2010年到2019年的10年時間,FDCCI(聯邦數據中心整合計劃)、FITARA(聯邦政府信息技術采購改革法案)、以及DCOI(數據中心優化建議)等一系列措施,減少優化了7000個數據中心,否則,能源消耗至少再多一倍。
降低數據中心PUE值
為了讓數據中心更加有效地使用能源,人們提出數據中心PUE值的概念。
PUE(Power Usage Effectiveness),電源使用效率,是衡量數據中心能耗水平的重要標志,具體算法是數據中心消耗的所有能源與IT負載消耗的能源之比,理想值是1,也就是全部能源都用在了數據中心的計算設備上。在低碳大環境要求下,各地都在努力降低數據中心的PUE值,低碳數據中心的標志就是PUE值接能夠盡可能接近1。
早期的數據中心PUE平均值在2以上,也就是說有一半電量是消耗在計算設備以外的,比如空調、服務器風扇、電力線路損耗等等,近10年來,隨著人們對能源效率的認知提升,相關技術和產品的更新升級,數據中心的能耗強度自2010年以來,以20%的速度遞減,能源利用率大幅度提升。目前,數據中心的PUE平均值控制在1.5左右,一些大型數據中心甚至更低。
大量使用數據中心的美國科技公司,紛紛提出了碳中和時間目標,Google在2007年已經達成碳中和,Microsoft是2012年實現碳中和,已經更名為Meta 的Facebook宣布在2020年已經實現了碳中和,蘋果設定的目標是2030年,亞馬遜則是2040年,均比本國指定的2050年目標提前。
Google在去年9月提出了到2030年,起全球所有數據中心都將使用可再生能源供電。Microsoft提出了優化儲能系統的技術方案,并測試了氫燃料電池。Facebook一方面在全球采購各種可再生能源,另一方面在加緊優化其數據中心的能源效率,根據Facebook公布的資料,其數據中心的PUE值已經控制在1.1附近,正接近于理想水平。
數據中心功率密度不斷攀升
包括AI、物聯網應用在內的各種應用紛紛上到云端,對數據中心的算力需求也越來越高,因此數據中心的功率密度在不斷提升。從2020年的平均單機架功率2.4KW上升到8.4千瓦。
Vicor公司指出:2015年之后,包括CPU、GPU、AI芯片紛紛進入數據中心,有些機架的功率甚至高達200千瓦,對電源供貨商來說是非常大的挑戰。Vicror使用更高功率密度的模塊重新擺放機架上電源,并配合做好相應的散熱措施,來應對更高功率密度的挑戰。
數據中心單機架功率密度迅速攀升 圖片來源: Uptime Institute Gloal Data Center Survey 2020
根據Uptime Institute《2020全球數據中心調查報告統計》目前全球71%的數據中心平均功率密度小于10KW/機架,約16%的數據中心平均功率密度上升到了20kW/機架,數據中心的功率密度還在不斷上升,這對機房建設、運營維護,供電系統、冷卻系統都提出了新的挑戰。
隨著功率密度的上升,數據中心的供電方式也發生了很大變化。
傳統數據中心采用UPS向服務器供電,服務器電源PSU將機房UPS電降壓成12V,然后再通過服務器主板上的VR 降壓模塊分別降壓到1.8V或者1.2V等不同電壓給到內存和CPU等。但從電網經過機房級UPS、再經過服務器級PSU,以及主板級VR降壓模塊的多級轉換,從電網到CPU和內存的全路徑供電效率只有60%到70%左右,這樣巨大的損耗是沒法令人接受的,盡管電源產品轉換效率已經提升到94% 。
新的供電方式被提出,比如google選擇的的48V直流供電,還有380V高壓直流,240高壓直流,以及中國提出的巴拿馬電源,采用240V/336V直流供電技術,目標相同,都是解決功率密度和使用效率的問題。
理想的負載點電源系統。穩壓器在 Vin = Vout 時提供最高效率。大電流供電最接近負載點時效率最高,從而可最大限度降低 I2R 損耗 圖片來源:Vicor
48V直流供電源于通信行業廣泛成熟的應用,相比傳統供電方式,可以提供97%以上的能源使用效率。同時由于48V鋰電池應用也非常普及,在綜合考慮各種因素之后,48V供電成為Google選擇。
240V高壓直流電源技術基于常規的220V交流電源,并利用了48V通信電源的各種優勢。具有簡單可行的特點,正替代以UPS為主導,在中國正在替代傳統數據中心電源市場。
380V高壓直流供電,更加適應未來數據中心功率密度演進的趨勢,效率更加出色,但由于涉及的電源供應鏈的配套,因此普及程度不及48V供電。
新材料起到關鍵作用
基于寬禁帶(WBG)材料如氮化鎵(GaN)和碳化硅(SiC)的半導體,對服務器電源系統的尺寸、可靠性、能效和運行成本具有重大的意義。WBG器件設計比硅基器件具有更高的能效,還能在更高的頻率和更高的溫度下工作。
寬禁帶材料比較 圖片來源 onsemi
在服務器電源應用中常見的5kW升壓轉換器中,用SiC開關代替Si開關可在80kHz左右的頻率下降低73%的損耗,從而顯著提高系統能效。這有助于使系統更小,因為需要的熱管理更少,還可使系統運行溫度更低,從而提高可靠性和實現更高的器件和系統密度。
雖然SiC MOSFET比同等IGBT更貴,但在無源器件如電感和電容方面的相關成本節省了75%,這導致SiC設計比Si設計的總物料單(BOM)成本低。更重要的是,在服務器安裝的整個生命周期中,節省的能源成本總計可達數萬甚至數百萬美元。
SiC MOSEFT:接近理想的開關 圖片來源:onsemi
浸入式液冷讓PUE接近1.0
浸泡在液體中的服務器 圖片來源:3m.com
面對不斷攀升的功率密度,傳統的風冷模式已經開始力不從心,使用液態冷卻替代空氣冷卻,正在改變數據中心的散熱技術發展。研究機構的數據表明,到2023年,全球液冷數據中心的市場規模將達到45.5億美元,年復合增長率高達27.7%.
液冷相比傳統的風冷模式的巨大優勢 圖片來源:3m.com
在傳統的冷卻方式中,熱量必須通過多層熱接口材料、空氣、換熱器和工作液體進行傳遞。數據中心浸沒式冷卻通過直接將IT硬件浸沒在液體中,幫助改進其散熱設計。電子組件產生的熱量直接高效地傳遞到液體中,從而減少了對導熱界面材料、散熱器和風扇等主動冷卻組件的需求。這些改進提高了能源效率同時允許采用更高的封裝密度。采用浸入式液冷的數據中心,PUE值輕松做到1.02一下,是目前最接近理想狀態的散熱方式。
冷卻能力的提升意味著設計人員可以將硬件設計得更近 — 所以在既定空間內可以實現10倍的計算密度。這為縮小數據中心的空間規模創造了可能。通過提高熱效率,可以提升處理器能力并減少空氣冷卻極限所造成的延遲影響。液體浸沒式冷卻技術消除了氣載污染物并減少活動部件來簡化散熱設計,電子設備滿負荷運行電子設備且不必擔心磨損。
操作人員正在從液冷設備中拿出服務器機架 圖片來源:3m.com