在系統(tǒng)的高可靠性(也稱為可用性,英文描述為HA,High Available)里有個衡量其可靠性的標(biāo)準(zhǔn)——X個9,這個X是代表數(shù)字3~5。X個9表示在系統(tǒng)1年時間的使用過程中,系統(tǒng)可以正常使用時間與總時間(1年)之比,我們通過下面的計算來感受下X個9在不同級別的可靠性差異。
3個9:(1-99.9%)*365*24=8.76小時,表示該系統(tǒng)在連續(xù)運行1年時間里最多可能的業(yè)務(wù)中斷時間是8.76小時。
4個9:(1-99.99%)*365*24=0.876小時=52.6分鐘,表示該系統(tǒng)在連續(xù)運行1年時間里最多可能的業(yè)務(wù)中斷時間是52.6分鐘。
5個9:(1-99.999%)*365*24*60=5.26分鐘,表示該系統(tǒng)在連續(xù)運行1年時間里最多可能的業(yè)務(wù)中斷時間是5.26分鐘。
那么X個9里的X只代表數(shù)字3~5,為什么沒有1~2,也沒有大于6的呢?我們接著往下計算:
1個9:(1-90%)*365=36.5天
2個9:(1-99%)*365=3.65天
6個9:(1-99.9999%)*365*24*60*60=31秒
可以看到1個9和、2個9分別表示一年時間內(nèi)業(yè)務(wù)可能中斷的時間是36.5天、3.65天,這種級別的可靠性或許還不配使用“可靠性”這個詞;而6個9則表示一年內(nèi)業(yè)務(wù)中斷時間最多是31秒,那么這個級別的可靠性并非實現(xiàn)不了,而是要做到從“5個9” 到“6個9”的可靠性提升的話,后者需要付出比前者幾倍的成本。
可用度A |
9的個數(shù) |
年停機時間(分鐘) |
適用產(chǎn)品 |
0.999 |
三個9 |
500 |
電腦或服務(wù)器 |
0.9999 |
四個9 |
50 |
企業(yè)級設(shè)備 |
0.99999 |
五個9 |
5 |
一般電信級設(shè)備 |
0.999999 |
六個9 |
0.5 |
更高要求電信級設(shè)備 |
【MTBF】MTBF,即平均故障間隔時間,英文全稱是“Mean Time Between Failure”。是衡量一個產(chǎn)品(尤其是電器產(chǎn)品)的可靠性指標(biāo)。單位為“小時”。具體來說,是指相鄰兩次故障之間的平均工作時間,也稱為平均故障間隔。
概括地說,產(chǎn)品故障少的就是可靠性高,產(chǎn)品的故障總數(shù)與壽命單位總數(shù)之比叫“故障率”(Failure rate)。它僅適用于可維修產(chǎn)品。同時也規(guī)定產(chǎn)品在總的使用階段累計工作時間與故障次數(shù)的比值為MTBF。磁盤陣列產(chǎn)品一般MTBF不能低于50000小時。
【失效率】失效率是指工作到某一時刻尚未失效的產(chǎn)品,在該時刻后,單位時間內(nèi)發(fā)生失效的概率。一般記為λ,它也是時間t的函數(shù),故也記為λ(t),稱為失效率函數(shù),有時也稱為故障率函數(shù)或風(fēng)險函數(shù)。
失效率 λ=1/MTBF,單位1FITs=10-9(1/h)
【MTTR】MTTR,全稱是Mean Time To Repair,即平均修復(fù)時間。是指可修復(fù)產(chǎn)品的平均修復(fù)時間,就是從出現(xiàn)故障到修復(fù)中間的這段時間。MTTR越短表示易恢復(fù)性越好。
MTTR也必須包含獲得配件的時間,維修團(tuán)隊的響應(yīng)時間,記錄所有任務(wù)的時間,還有將設(shè)備重新投入使用的時間。是一個縮寫的平均時間恢復(fù)或平均修復(fù)時間代表的平均時間將有缺陷的部件或系統(tǒng)恢復(fù)工作秩序。
它是衡量一個系統(tǒng)的可維護(hù)性和可預(yù)測的平均所需的時間讓系統(tǒng)工作的情況下再次出現(xiàn)系統(tǒng)故障。 MTTR可以從幾個毫秒,如不間斷電源(UPS)的許多數(shù)小時甚至數(shù)天的情況下的應(yīng)用軟件或復(fù)雜的機制。
【修復(fù)率】修復(fù)率(μ) repair rate 產(chǎn)品維修性的一種基本參數(shù)。修理時間已達(dá)到某個時刻但尚未修復(fù)的產(chǎn)品,在該時刻后的單位時間內(nèi)完成修理的概率。
經(jīng)常用到所謂4個9或者5個9,也就是99.99%與99.999%。那么,4個9或者5個9的差距有多大,差距是0.009%,還不到0.01%。但對于系統(tǒng)而言,恰恰是這不到0.01%的差距,決定了系統(tǒng)完全不在一個檔次上。
所謂5個9的系統(tǒng),一年內(nèi)不能正常工作的時間少于5分15秒。對應(yīng)4個9的系統(tǒng)是不超過52分36秒。這些都是理論上的數(shù)據(jù),在實際工作中有些故障導(dǎo)致的宕機時間遠(yuǎn)超過5分鐘,即使采用大型主機,也有宕機4個多小時的慘痛教訓(xùn)。問題出在哪里?
一個系統(tǒng)的可靠性并不完全取決于硬件,而由軟件和硬件共同來決定,如果是軟件問題,最好的解決辦法就是打補丁、升級,再好的硬件也沒有辦法解決軟件的問題。要提高系統(tǒng)的可靠性,軟件是沒有太好辦法的,只有依靠廠商服務(wù)來解決問題。
用戶可以選擇的只有硬件,其中,包括網(wǎng)絡(luò)、服務(wù)器以及存儲設(shè)備。其中,網(wǎng)絡(luò)可以借助多運營商接入來解決,存儲有RAID、快照等應(yīng)對技術(shù),通過備份來提高數(shù)據(jù)安全性。但對于服務(wù)器來說,更多用戶的選擇是采用雙機集群的方法。
采用雙機集群的方案是達(dá)不到5個9的要求的。原因很簡單,雙機集群是通過集群軟件來構(gòu)建方案的,當(dāng)其中的一臺服務(wù)器產(chǎn)生故障的時候,切換到備份主機繼續(xù)工作,保持業(yè)務(wù)連續(xù)性。設(shè)備之間也可以依靠心跳線連接對故障進(jìn)行判定。
對于集群而言,故障切換是有嚴(yán)格要求的,要求主機、備用機的環(huán)境是一致的。在應(yīng)用實踐中,要求管理要到位,例如同步升級、升級,打補丁。如果管理不到位,很有可能會導(dǎo)致切換失敗。這也是為什么,系統(tǒng)可以在演示環(huán)境下成功切換,但現(xiàn)實中往往做不到的原因。
來源:硬件十萬個為什么