隨著數(shù)據(jù)中心規(guī)模的不斷增長,能耗問題凸顯,能耗問題已經(jīng)成為制約數(shù)據(jù)中心發(fā)展的關鍵因素。能耗基本占用了數(shù)據(jù)中心一半的運行成本,大大降低了數(shù)據(jù)中心的盈利能力。一方面,數(shù)據(jù)中心規(guī)模越來越大,設備數(shù)量不斷增多和處理能力的不斷增強,帶來了更多的能量消耗;另一方面,設備數(shù)量越多,需要冷卻的設施開銷就越大,一般計算資源每消耗1瓦電能,就需要額外的0.5~1瓦電能進行冷卻。數(shù)據(jù)中心已經(jīng)意識到了能耗問題,必須采取必要的節(jié)能手段。否則,數(shù)據(jù)中心再這樣建設下去,將入不敷出,數(shù)據(jù)中心建的規(guī)模越大虧損的越厲害。其實,在數(shù)據(jù)中心節(jié)能上,已經(jīng)有很多文章可做,包括硬件、軟件、算法設計、機房環(huán)境設計等等,從不同角度出發(fā)都可以有一些值得借鑒的節(jié)能方法。那么若僅從軟件方面考慮,有哪些節(jié)能的行之有效方法呢?本文將針對軟件節(jié)能技術擴展講來,介紹其中一二。
軟件節(jié)能的主要出發(fā)點是數(shù)據(jù)中心里有成千上萬臺的設備,在不同時刻不同業(yè)務情況下,每臺設備的工作繁忙程度都不同,如果能將這些資源有效利用起來,讓這些設備工作起來更有效率,從而起到節(jié)能的目的。比如數(shù)據(jù)中心里的服務器,所有服務器并不是一直都處于運轉(zhuǎn)狀態(tài),尤其是在夜晚和凌晨用戶較少的時候,許多樹脂型的負載相當?shù)?,而處于空閑狀態(tài)的服務器與工作狀態(tài)的服務器功耗幾乎沒有差別,大量的計算資源和能量被白白浪費掉。還比如設備的風扇,如果機房內(nèi)溫度較高,風扇持續(xù)處于高速狀態(tài),這樣必然增加能耗,這也是很多數(shù)據(jù)中心保持內(nèi)部恒溫在24度左右的環(huán)境的原因,讓設備風扇處于低轉(zhuǎn)狀態(tài),設備處于這樣的溫度環(huán)境中,硬件也不易出現(xiàn)老化。數(shù)據(jù)中心的功能主要由CPU、內(nèi)存、存儲、網(wǎng)絡等幾個部分組成,軟件節(jié)能技術也是從這些方面逐一入手。
部件節(jié)能算法
所有的設備都需要有CPU,而CPU也是一個消耗能量比較顯著的器件,通過對CPU的能耗進行有效管理,從而達到降耗目的。比如對CPU進行節(jié)能狀態(tài)的設計,當CPU處于空閑狀態(tài)時,及時進入休眠或者關閉狀態(tài),當需要運轉(zhuǎn)時,自動喚醒即可。當CPU進行休眠或者關閉狀態(tài)時,自動調(diào)整電壓和頻率,從而達到降耗目的。當然,這個過程要靠復雜的算法來完成,通過算法來自動控制,實現(xiàn)CPU的自動調(diào)節(jié),達到節(jié)能目的。不僅是CPU,內(nèi)存、存儲部件等都可以實現(xiàn),通過動態(tài)的能效管理,有效提升這些能耗部件的運行效率,在空閑和繁忙之間自如切換,降低設備運行時的能耗。其實很多設備在大部分時間里都有空閑狀態(tài),通過這些能效管理,真正能夠降低每臺設備的能耗。
資源優(yōu)化整合
數(shù)據(jù)中心業(yè)務運轉(zhuǎn)依賴的主要資源就是計算、網(wǎng)絡和存儲三大資源,而這些寶貴資源在很多數(shù)據(jù)中心里都存在浪費現(xiàn)象。隨便登陸幾臺設備查一查就知道,大部分的網(wǎng)絡設備端口帶寬都維持在50%以下,大部分的服務器CPU都低于30%,大量的資源被閑置。當然,數(shù)據(jù)中心這樣做也有苦衷,每當重大活動、節(jié)日訪問數(shù)據(jù)中心的流量增加很多,如果不做些冗余,這些時候數(shù)據(jù)中心根本撐不住,所以將數(shù)據(jù)中心按照高業(yè)務容量來設計也是必須的。這時對這些資源進行優(yōu)化整合就非常有意義了,這里主要依靠的是虛擬化技術,通過虛擬化將計算、網(wǎng)絡和存儲等資源集中起來,統(tǒng)一分配,避免硬件資源過渡部署和利用率不足。比如通過虛擬化技術可以把多個負載整合到同一個物理機上,關閉空閑的物理機,達到節(jié)能目的。當當前的資源無法滿足時,再將空閑的物理機重新利用起來,通過資源的優(yōu)化整合,提升資源的使用率,節(jié)約數(shù)據(jù)中心能耗,減少數(shù)據(jù)中心占用空間。
云平臺綜合管理
將數(shù)據(jù)中心能耗納入云平臺管理,對整個數(shù)據(jù)中心能耗狀態(tài)進行動態(tài)監(jiān)控和管理。所有設備運轉(zhuǎn)都要消耗能量,同時所有設備運轉(zhuǎn)也需要散熱,制冷又需要消耗能量,在這個過程中,在不影響業(yè)務運轉(zhuǎn)的情況下,如何保持最低的能耗量,可以通過云平臺來有效管理。在云平臺上看到的就是各種資源的消耗情況,有計算、網(wǎng)絡和存儲資源,也有能耗資源。在業(yè)務量并沒有增加的情況下,各種資源消耗也沒有增長時,如果能耗資源在不斷增加,就需要排查原因,通過調(diào)整恢復到正常狀態(tài)。當有業(yè)務增加時,能耗資源必然增加,但通過云平臺的自動調(diào)節(jié),比如適當提升室內(nèi)運行溫度,提升服務器運行CPU利用率,盡量保持當前的能耗水平,這個過程完全可以通過提前設置好運行參數(shù),交由云平臺自己完成?,F(xiàn)有一種叫DCIM(數(shù)據(jù)中心基礎設施管理軟件)的軟件,它甚至可以為數(shù)據(jù)中心實現(xiàn)高達30%的節(jié)能效果。這里還有很多種節(jié)能算法,在各種論文、報刊上都有提及。比如基于超圖的存儲優(yōu)化算法,網(wǎng)絡感知節(jié)能調(diào)度算法DENS,功率封頂技術等等,通過這些優(yōu)化算法,對數(shù)據(jù)中心各個環(huán)節(jié)都有節(jié)能優(yōu)化,同時也可以對數(shù)據(jù)中心整體的綜合能耗進行整體管理和監(jiān)控,并可以自動調(diào)節(jié),從而達到降低能耗的目的。
軟件在數(shù)據(jù)中心節(jié)能中逐漸扮演了一個非常重要的角色,數(shù)據(jù)中心中軟件主要是用來操控硬件,給硬件下達啟動程序的指令,達到降耗目的。如果軟件可以使硬件以更少的能源消耗傳遞更出色的性能,那么在不增加任何成本的情況下,讓數(shù)據(jù)中心的能耗逐年降低,這是大家都希望看到的結(jié)果。