第一次寫和工作密切相關(guān)的文章,卻無(wú)從下手,胡亂寫起,純當(dāng)總結(jié)。
設(shè)備負(fù)載監(jiān)控屬于硬件級(jí)的基礎(chǔ)監(jiān)控,比設(shè)備基礎(chǔ)監(jiān)控粒度要粗一些,屬于設(shè)備基礎(chǔ)監(jiān)控上一層的硬件監(jiān)控,適合于數(shù)量較大、具有集群特性的硬件綜合指標(biāo)監(jiān)控。當(dāng)然,其監(jiān)控?cái)?shù)據(jù)來(lái)源仍為單機(jī)設(shè)備基礎(chǔ)信息。
單機(jī)基礎(chǔ)硬件指標(biāo)大概包括CPU使用率、內(nèi)存使用率、磁盤I/O、磁盤空間使用率、網(wǎng)卡出入包量、網(wǎng)卡出入流量、平均負(fù)載等。那么各種業(yè)務(wù)邏輯可能對(duì)這些指標(biāo)都會(huì)有所側(cè)重,例如WEB服務(wù)器比較側(cè)重CPU、包量、流量,而DB比較側(cè)重磁盤I/O、CPU使用率,CACHE則更關(guān)注內(nèi)存使用率、CPU使用率等。對(duì)于數(shù)量龐大、類型不一的服務(wù)器,不可能關(guān)注到這么細(xì)致的數(shù)據(jù)信息,所以必須在幾個(gè)維度進(jìn)行匯總以便更好實(shí)現(xiàn)服務(wù)器管理。
那么設(shè)備負(fù)載監(jiān)控系統(tǒng)的設(shè)計(jì)目標(biāo)是什么呢?大概總結(jié)有以下幾點(diǎn):
- 減少管理單元,提高維護(hù)效率;
- 方便查看業(yè)務(wù)總體負(fù)載狀況;
- 盡快發(fā)現(xiàn)高負(fù)載設(shè)備以便及時(shí)增加設(shè)備緩解業(yè)務(wù)壓力;
- 減少空閑設(shè)備量,提高設(shè)備復(fù)用率,降低設(shè)備成本;
- 發(fā)現(xiàn)負(fù)載均衡方面的問(wèn)題
要實(shí)現(xiàn)以上幾個(gè)目標(biāo),首先需要將服務(wù)器分門別類。如WEB、DB、CACHE、業(yè)務(wù)邏輯等。上面提到,這些設(shè)備應(yīng)該具備集群特性,其大概形式如下:
集群示意圖
如上圖所示,除灰色部分外,該集群擁有4臺(tái)一樣的設(shè)備,每臺(tái)設(shè)備上均安裝有1、2、3三種軟件,這樣這些設(shè)備的正常運(yùn)行狀況應(yīng)該基本一致。當(dāng)該集群呈現(xiàn)負(fù)載較繁忙的狀況的時(shí)候,可以比較容易復(fù)制1-4號(hào)設(shè)備以增加一臺(tái)一樣的5號(hào)設(shè)備來(lái)降低業(yè)務(wù)負(fù)載。而當(dāng)該集群負(fù)載較空閑的時(shí)候,可以將第4號(hào)軟件部署于該集群下以充分利用設(shè)備性能。
在該集群負(fù)載均衡的狀況下,單機(jī)的負(fù)載狀況表現(xiàn)出來(lái)的特征,應(yīng)該就是該集群的負(fù)載特征,通過(guò)管理集群即可映射到管理單機(jī)設(shè)備,假設(shè)有1000臺(tái)設(shè)備,每個(gè)集群50臺(tái),那么只需要管理20個(gè)集群即可,管理單元明顯減少。
在現(xiàn)實(shí)情況下,其實(shí)無(wú)法達(dá)到百分百負(fù)載均衡,所以還是需要一些算法計(jì)算集群的指標(biāo)。最基本的算法就是MAX、MIN、AVG了。這三個(gè)基本可以處理90%以上情況。我曾經(jīng)設(shè)計(jì)過(guò)比較復(fù)雜的公式支持,后來(lái)發(fā)現(xiàn)基本上用不上。當(dāng)然算法越粗暴誤差越大。如使用MAX計(jì)算CPU使用率,那么假如該集群下某臺(tái)設(shè)備由于特殊原因CPU一直占用較高,那么表現(xiàn)在集群上的CPU使用率也會(huì)較高,而實(shí)際情況可能這個(gè)集群相對(duì)空閑。而使用AVG求平均數(shù)值,那么一些異常設(shè)備將會(huì)被淹沒(méi)不能及時(shí)發(fā)現(xiàn),所以這里需要根據(jù)業(yè)務(wù)特性做一些權(quán)衡和取舍。當(dāng)然不建議使用更復(fù)雜的算法,因?yàn)榕渲镁S護(hù)成本比較高,而且數(shù)值計(jì)算結(jié)果不直觀。
為了修正個(gè)別設(shè)備引起集群高負(fù)載的問(wèn)題,引入了高負(fù)載設(shè)備數(shù)的指標(biāo)。假如該集群負(fù)載較高且高負(fù)載設(shè)備數(shù)也高于某個(gè)比例(如50%)則認(rèn)為該負(fù)載值準(zhǔn)確描述集群壓力狀況。
出處:藍(lán)色理想
責(zé)任編輯:bluehearts
上一頁(yè) 下一頁(yè) WEB監(jiān)控體系之設(shè)備負(fù)載監(jiān)控 [2]
◎進(jìn)入論壇網(wǎng)絡(luò)編程版塊參加討論
|