在數(shù)據(jù)中心大談云化,眾多廠家“無云不宣”的時候,人們卻發(fā)現(xiàn):理論上更加安全、更加可靠、更加便捷的Cloud DC們,卻似乎變得更加脆弱了。除了服務器宕機,斷網(wǎng)、斷電等事故也時有發(fā)生,連挖土機都有可能挖斷光纜。當一朵朵“云”在天上飄的時候,背后的那根“安全線”也比任何時候更加不容忽視。
2017年3月22日,青云(QingCloud)因北京2區(qū)(PEK 2)數(shù)據(jù)中心電力故障引發(fā)部分網(wǎng)關(guān)設備及計算節(jié)點重啟,目前故障雖然已經(jīng)排除,但也造成了不小的影響。
近年來,大家頻繁聽到云數(shù)據(jù)中心因異常導致業(yè)務中斷的事情發(fā)生,在數(shù)字化的現(xiàn)代社會,數(shù)據(jù)中心的可靠性如果稍稍動搖,其造成的影響如同蝴蝶效應,不可避免會波及終端客戶的正常運營和影響自身聲譽。因而每一次故障的發(fā)生不僅僅需要事故方自檢排查,更需要整個行業(yè)一起反思,從中獲益。雖然官方?jīng)]有給出確切的故障原因,本文將參照青云事后發(fā)布的故障報告,大致分析故障原因,并以此為契機,給出一些思考與建議。
據(jù)青云官方稱:具體故障發(fā)生過程為,該數(shù)據(jù)中心需要對A組UPS進行定期離線維護作業(yè)所以將負載從A路UPS整體切換到B路UPS,但是3個小時之后B路電源UPS出現(xiàn)單臺機組報故障,隨后整組UPS過載。1分鐘后B路UPS在進行內(nèi)部旁路切換時報警顯示不能進行切換,緊接著UPS就陷入異常狀態(tài)。大約36分鐘后UPS系統(tǒng)恢復正常狀態(tài)后將報警還原時,電源產(chǎn)生了瞬斷現(xiàn)象。將近2個小時之后為了原因調(diào)查,UPS被完全隔離。
雖然目前還沒有正式的分析報告出來,但是從報告中我們還是可以管中窺豹,從中看出一些問題。
一、傳統(tǒng)塔式UPS離線維護風險大。在發(fā)生故障的第一環(huán)節(jié)是離線維護引起的,研究表明有50%~60%的數(shù)據(jù)中心的停機都是由人為錯誤引起的,這與塔式UPS結(jié)構(gòu)息息相關(guān)。
傳統(tǒng)塔式UPS是一個整體,其內(nèi)部系統(tǒng)復雜,UPS出了故障后,問題的定位和維修是很大的工程量,并且需要專家到現(xiàn)場才能定位、維修,且這個過程是離線的,此時UPS系統(tǒng)工作在維修旁路,這就意味著,當市電中斷時,如果單機供電,負載將直接中斷。
二、傳統(tǒng)塔式UPS維護時間長。上文已經(jīng)提到,塔式UPS的維護往往是個專業(yè)過程,維護工作量大,一般維護時間常常是數(shù)小時甚至數(shù)十小時,這就加大了業(yè)務中斷的風險。
三、青云所用的UPS本身可靠性設計令人擔憂。從報告中看 “B路電源UPS出現(xiàn)單臺機組報故障,隨后整組UPS過載。1分鐘后B路UPS在進行內(nèi)部旁路切換時報警顯示不能進行切換,緊接著UPS就陷入異常狀態(tài)。大約36分鐘后UPS系統(tǒng)恢復正常狀態(tài)后將報警還原時,電源產(chǎn)生了瞬斷現(xiàn)象。”這段描述性文字可以看出,青云所用UPS在過載狀態(tài)下,主旁切換邏輯出現(xiàn)重大問題,本身可靠性設計堪憂。
UPS發(fā)展至今,傳統(tǒng)塔式UPS低可用性已經(jīng)無法跟上數(shù)據(jù)中心IT設施的發(fā)展速度,要提升可用性,縮短故障維護時間,模塊化UPS是唯一方向。模塊可熱插拔是所有UPS廠家對模塊化UPS的基本要求,故障時通過熱插拔更換模塊,5分鐘即可完成在線維護,這與傳統(tǒng)塔式UPS動輒8小時以上的離線維護時間相比,是個巨大的提升,當然在線與離線相比,對負載的重要性也不言而喻;部分廠家甚至將靜態(tài)旁路、控制模塊等等都做了熱插拔設計,進一步提升系統(tǒng)可用性。
此外,傳統(tǒng)塔機單點故障多,單點故障,常常引起整個系統(tǒng)中斷,相比而言模塊化UPS關(guān)鍵節(jié)點可以通過冗余設計提升可靠性,在整個系統(tǒng)運行時,負載率一般會低于50%,此時多個模塊故障,仍然可以保證UPS正常帶載,直接規(guī)避了上文所說的過載問題。
最后,用戶在使用UPS,進行招標時,對于UPS可靠性的要求應該更加嚴格,嚴格的標準才能大浪淘沙,讓真正可靠的UPS脫穎而出,為更多的用戶謀福利。
從近年來的集采可以看出,模塊化UPS所占比例節(jié)節(jié)攀升,逐步成為集采主流機型,這也從側(cè)面印證了市場趨勢,從業(yè)務出發(fā),客戶也不愿意使用維修困難的UPS,正在追求更高可用性的UPS。
UPS作為電力守護者,為各個行業(yè)的關(guān)鍵負責設備提供穩(wěn)定、不間斷的電力供應。從近幾年的市場表現(xiàn)來看,模塊化UPS的可靠性正在逐步被行業(yè)認可。相對于傳統(tǒng)的高頻塔式UPS,模塊化UPS可以不斷電維護,單模塊故障不影響系統(tǒng)運行,高效節(jié)能等特性更符合數(shù)據(jù)中心應用。