傳統(tǒng)運(yùn)維和云運(yùn)維的本質(zhì)區(qū)別有哪些?
2021-12-23閱讀 434

每當(dāng)我們談到傳統(tǒng)的IT運(yùn)維或IT服務(wù)管理,第一時(shí)間會(huì)讓大家想到的是要遵循IT服務(wù)管理最佳實(shí)踐ITIL的流程去指導(dǎo)日常運(yùn)維。我們的IT服務(wù)管理就是通過ITIL的流程管控來實(shí)現(xiàn)標(biāo)準(zhǔn)的運(yùn)維操作。ITIL作為由英國政府商務(wù)辦公室(OGC)所主導(dǎo)的IT服務(wù)管理最佳實(shí)踐,目前已經(jīng)成為很多國家和企業(yè)用來指導(dǎo)IT運(yùn)維的方法論。在過去的20年里,包括國有五大銀行、中國移動(dòng)和中國電信等國內(nèi)IT服務(wù)管理做得比較好的公司,無疑不是ITIL流程落地的忠實(shí)粉絲。

 

   我們且看ITIL的流程落地給使用ITIL的企業(yè)或組織帶來什么樣的好處?ITIL強(qiáng)調(diào)通過服務(wù)臺(tái)實(shí)現(xiàn)事件單和服務(wù)請(qǐng)求單的統(tǒng)一接入和轉(zhuǎn)派,并設(shè)置合理的工單優(yōu)先級(jí),以急業(yè)務(wù)之所急的方式通過服務(wù)臺(tái)工作人員對(duì)每個(gè)工單的全鏈路跟蹤和督辦,最終實(shí)現(xiàn)工單處理流程的閉環(huán)。另外,我們都知道業(yè)務(wù)應(yīng)用和IT基礎(chǔ)設(shè)施的日常運(yùn)維都擔(dān)心會(huì)不時(shí)的引入可能的風(fēng)險(xiǎn),風(fēng)險(xiǎn)有可能是由于不善的變更和發(fā)布導(dǎo)致,或由于新代碼的缺陷引入的風(fēng)險(xiǎn)等。所以ITIL強(qiáng)調(diào)嚴(yán)格的變更和發(fā)布審批,并設(shè)置變更咨詢委員會(huì)(CAB)的職能通過CAB會(huì)議來履行該職責(zé)。通過設(shè)置變更/發(fā)布窗口的固定時(shí)間段來盡可能降低或規(guī)避不必要的風(fēng)險(xiǎn)。規(guī)范的變更和發(fā)布管理是在企業(yè)內(nèi)部做好IT服務(wù)配置管理的前提,最根本和直接的做法是對(duì)生產(chǎn)環(huán)境的相關(guān)配置項(xiàng)(如服務(wù)器或存儲(chǔ)設(shè)備)進(jìn)行變更后,需要做到及時(shí)的對(duì)配置管理數(shù)據(jù)庫也就是我們經(jīng)常提及的CMDB中的內(nèi)容進(jìn)行同步更新。如果做不到這一點(diǎn),久而久之CMDB的內(nèi)容和生產(chǎn)環(huán)境就不一致。再久而久之,CMDB就失去了在日常運(yùn)維過程中判斷異常事件的影響級(jí)別、系統(tǒng)監(jiān)控和業(yè)務(wù)影響分析的輔助能力。所以,看一個(gè)企業(yè)的運(yùn)維管理成熟度如何,我們基本可以通過配置管理的成熟度就可以做出初步判斷。配置管理是很多運(yùn)維管理流程和實(shí)踐的基礎(chǔ),比如很多公司的統(tǒng)一監(jiān)控平臺(tái)就是建立在配置管理之上的。利用統(tǒng)一的監(jiān)控大屏(ECC)來實(shí)現(xiàn)業(yè)務(wù)應(yīng)用和IT基礎(chǔ)設(shè)施的全鏈路的指標(biāo)監(jiān)控和故障定位。通過數(shù)量龐大的IT技術(shù)運(yùn)維團(tuán)隊(duì)提供7x24小時(shí)的故障處理和業(yè)務(wù)保證。定期執(zhí)行全網(wǎng)的安全掃描和跨數(shù)據(jù)中心級(jí)的容災(zāi)切換,確保IT治理能力的最終實(shí)現(xiàn)。以上所有流程實(shí)踐都會(huì)有相應(yīng)的指標(biāo),比如銀行在主數(shù)據(jù)中心出現(xiàn)整體不可用的情況,要確保在8個(gè)小時(shí)內(nèi)把所有的業(yè)務(wù)應(yīng)用在其災(zāi)備中心啟用,實(shí)現(xiàn)業(yè)務(wù)級(jí)的災(zāi)備。這個(gè)8小時(shí)的時(shí)間承諾就是我們常說的目標(biāo)回滾時(shí)間(RTO,Recovery Time Objective)。RTO是一個(gè)典型的服務(wù)級(jí)別指標(biāo),通常會(huì)被納入服務(wù)級(jí)別協(xié)議(SLA)中去監(jiān)督和管理,確保其能有效達(dá)成。

 

  通過以上的IT運(yùn)維流程的綜合布局,最終實(shí)現(xiàn)了以ITIL理論為指導(dǎo)的IT服務(wù)管理體系。那么在云時(shí)代下,相對(duì)于傳統(tǒng)的以流程管控為抓手的運(yùn)維會(huì)有哪些變化呢?我們且從如下幾點(diǎn)來區(qū)分其不同。

 

   1、監(jiān)控系統(tǒng)的實(shí)現(xiàn)機(jī)理不同

   傳統(tǒng)的監(jiān)控系統(tǒng)是以獨(dú)立的第三方商業(yè)軟件作為輸出的。比如IBM的Tivoli Monitor或HP的OpenView。監(jiān)控系統(tǒng)是以外掛的方式來采集被監(jiān)控的軟件產(chǎn)品的日志并做到集中的ECC大屏呈現(xiàn)。在云計(jì)算的世界里,每個(gè)云產(chǎn)品,比如ECS云服務(wù)器,其作為可以獨(dú)立輸出的產(chǎn)品服務(wù)單元,云產(chǎn)品自身已經(jīng)帶有完備的監(jiān)控功能。換句話說:云產(chǎn)品的配置管理已經(jīng)落到了每個(gè)云產(chǎn)品的內(nèi)部,云產(chǎn)品的監(jiān)控能力與產(chǎn)品的配置項(xiàng)是緊耦合的關(guān)系。云廠商需要做的是設(shè)置一個(gè)統(tǒng)一的監(jiān)控平臺(tái)界面(Uni-Manager),把各個(gè)云產(chǎn)品的監(jiān)控能力加以封裝,以客戶比較熟悉的ECC的形式輸出。

 

   2、風(fēng)險(xiǎn)的控制機(jī)理不同

  傳統(tǒng)運(yùn)維的風(fēng)險(xiǎn)預(yù)防主要集中在執(zhí)行嚴(yán)格的變更和發(fā)布管控和審批流程,以及針對(duì)風(fēng)險(xiǎn)的治理能力。風(fēng)險(xiǎn)的發(fā)現(xiàn)主要來自監(jiān)控的指標(biāo)體系的設(shè)置,以及事件的定級(jí)和指標(biāo)觸發(fā)的應(yīng)急響應(yīng)。故障恢復(fù)也有賴于頻繁的應(yīng)急演練,這里包括特定故障的應(yīng)急演練和整個(gè)數(shù)據(jù)中心級(jí)的切換演練。

 

   有別于傳統(tǒng)運(yùn)維嚴(yán)把變更和發(fā)布審批,云計(jì)算的運(yùn)維更加強(qiáng)調(diào)通過白屏化的操作和腳本化的驅(qū)動(dòng)來降低和規(guī)避風(fēng)險(xiǎn)?;緦?shí)現(xiàn)全局故障1分鐘發(fā)現(xiàn),5分鐘定位和10分鐘解決。云環(huán)境下的風(fēng)險(xiǎn)管理也會(huì)包括諸如風(fēng)險(xiǎn)預(yù)防、風(fēng)險(xiǎn)發(fā)現(xiàn)、故障定位、故障恢復(fù)和故障復(fù)盤的全流程,只是云環(huán)境更加強(qiáng)調(diào)自動(dòng)化腳本或平臺(tái)的作用,把變更或發(fā)布腳本在云計(jì)算的產(chǎn)研側(cè)寫完,這樣就可以做到可重復(fù)執(zhí)行和受故障影響的業(yè)務(wù)自動(dòng)恢復(fù)。通過平臺(tái)的管控和腳本的觸發(fā)實(shí)現(xiàn)變更或發(fā)布的可灰度、可監(jiān)控(白屏化)和可回滾??苫叶燃磳?duì)應(yīng)DevOps提到的金絲雀發(fā)布,可回滾即對(duì)應(yīng)DevOps的藍(lán)綠部署。故而云環(huán)境的風(fēng)險(xiǎn)控制是依賴DevOps全自動(dòng)化的部署流水線來實(shí)現(xiàn)的。

 

   3、自動(dòng)化成熟度不同

   云計(jì)算的資源虛擬化和資源池化的特性本身為自動(dòng)化運(yùn)維提供了很好的技術(shù)保障。在云環(huán)境下遇到網(wǎng)絡(luò)DDOS(拒絕服務(wù))安全攻擊或重大故障時(shí),自動(dòng)化的業(yè)務(wù)限流或業(yè)務(wù)流量的自主切換變得非常容易實(shí)現(xiàn)。甚至為了確保業(yè)務(wù)全鏈路的安全,可以采取部分業(yè)務(wù)功能自動(dòng)降級(jí)的處理,比如某券商軟件可以把已引入故障的查客戶積分的功能暫時(shí)跳過,確保主業(yè)務(wù)鏈路的證券產(chǎn)品買賣服務(wù)功能的可用。除此之外,云環(huán)境還可以如DevOps所提倡的不時(shí)人為注入故障(Chaos Monkey)的操作,驗(yàn)證在重大故障來臨可以以自動(dòng)化方式恢復(fù)業(yè)務(wù)的能力,充分體現(xiàn)云環(huán)境的產(chǎn)品魯棒性。

 

總之,云環(huán)境下的運(yùn)維更加強(qiáng)調(diào)白屏化和腳本驅(qū)動(dòng),以DevOps部署流水線的方式來規(guī)避或降低變更或發(fā)布的風(fēng)險(xiǎn)。ITIL 4的部署管理實(shí)踐可以通過DevOps部署流水線的方式來落地,故而企業(yè)的IT服務(wù)管理在未來的指導(dǎo)原則是不斷打造基于云計(jì)算的產(chǎn)品能力來實(shí)現(xiàn)業(yè)務(wù)的持續(xù)交付和自動(dòng)化運(yùn)維的能力。