從傳統(tǒng)容災(zāi)到云容災(zāi)方案的演變想到的
2021-12-22閱讀 317

曾幾何時(shí),由國(guó)有五大行為代表的兩地三中心的容災(zāi)架構(gòu)是業(yè)界的高配和主流容災(zāi)架構(gòu)方案。國(guó)內(nèi)有些證券或保險(xiǎn)公司即使做不到生產(chǎn)中心和災(zāi)備中心的1:1配置,也會(huì)基本保有其核心業(yè)務(wù)應(yīng)用容災(zāi)切換的能力,公司治理層面要求定期做災(zāi)備演練。按照銀監(jiān)會(huì)和保監(jiān)會(huì)的治理要求,金融公司要確保一年做一次整體或局部系統(tǒng)的容災(zāi)切換,這是銷售金融及衍生產(chǎn)品的公司持續(xù)持有金融牌照所必須要履行的責(zé)任和義務(wù),這也是必要的國(guó)家對(duì)金融類公司的合規(guī)性要求。

 

      目前很多銀行或券商正在嘗試如阿里云等云平臺(tái)的容災(zāi)方案。在云環(huán)境的容災(zāi)如何做,這將成為很多公司或組織的IT部門所需考慮的全新課題。我們都知道容災(zāi)一般可以分為同城容災(zāi)和異地(城市)容災(zāi)。傳統(tǒng)容災(zāi)方案是在同城或異地各建立一個(gè)與生產(chǎn)中心同等規(guī)模的災(zāi)備中心,并且生產(chǎn)中中心至少有兩套一模一樣的IT系統(tǒng)架構(gòu),保證在生產(chǎn)中心的一套IT系統(tǒng)全癱瘓的情況下,在同一個(gè)生產(chǎn)中心還可以有另一套同樣規(guī)模的IT系統(tǒng)架構(gòu)可以支撐業(yè)務(wù)的持續(xù)運(yùn)行。在生產(chǎn)中心乃至不同災(zāi)備中心之間都部署了相同的應(yīng)用和IT基礎(chǔ)設(shè)施支撐能力,并通過在不同數(shù)據(jù)中心的高端存儲(chǔ)之間的同步或異步復(fù)制的能力來確??鐢?shù)據(jù)中心的相同業(yè)務(wù)應(yīng)用的數(shù)據(jù)一致性。

 

  那么如果業(yè)務(wù)應(yīng)用上云后,云上的容災(zāi)方案會(huì)有何種改變呢?我們且從如下兩種典型的方案來分別論述:

 

     1、云一般可以支持同城多可用區(qū)(AZ)的容災(zāi)方案,這里的可用區(qū)是指物理上有獨(dú)立網(wǎng)絡(luò)接入、電源、空調(diào)和機(jī)架的數(shù)據(jù)中心。如果在同一朵云上的兩個(gè)可用區(qū)分別承載著基于負(fù)載均衡(F5(硬負(fù)載)或SLB(軟負(fù)載))訪問的具備分布式架構(gòu)的應(yīng)用,并且數(shù)據(jù)庫(kù)采取如OceanDB或RDS這樣支持分布式架構(gòu)的云數(shù)據(jù)庫(kù)。云上應(yīng)用的同城容災(zāi)將變得非常簡(jiǎn)單,只要依靠單個(gè)云本身的分布式存儲(chǔ)能力以及存儲(chǔ)、中間件和數(shù)據(jù)庫(kù)級(jí)別的同步復(fù)制能力就可以輕松實(shí)現(xiàn)同城的容災(zāi)。云上容災(zāi)的架構(gòu)圖如下圖所示:

   2、云上的異地容災(zāi)相對(duì)來說就比較復(fù)雜,一般分為同云多Region(城市)和不同云多Region的方案。在同云多Region的方案中,一般建議的是不同Region(城市)?的距離最好小于200公里,這更多的是對(duì)應(yīng)用所需數(shù)據(jù)的一致性和應(yīng)用自身訪問性能考慮的。異地?cái)?shù)據(jù)中心如果相距小于200公里,這對(duì)很多銀行類客戶來說是不可以接受的,因?yàn)殂y行的生產(chǎn)中心和災(zāi)備中心的距離要求一般要達(dá)到500公里以上并且不同數(shù)據(jù)中心應(yīng)在不同的地震帶上,以保證業(yè)務(wù)的連續(xù)性和用戶訪問流量的就近接入等實(shí)際業(yè)務(wù)訴求。例如,中國(guó)銀行的生產(chǎn)中心在北京,異地的災(zāi)備中心在上海,北京和上海相距500公里以上。如果客戶上云,可能在異地災(zāi)備中心部署的云與生產(chǎn)中心不是同一個(gè)廠家的云。例如,生產(chǎn)中心選取的是阿里云,災(zāi)備中心選取的是華為云。這樣就需要考慮更多復(fù)雜的實(shí)際問題以及方案落地實(shí)現(xiàn)的可能性。

       

總之,云平臺(tái)廠商都在致力于異地容災(zāi)的白屏化能力,比如可以通過容災(zāi)項(xiàng)目的實(shí)施步驟,利用云廠商提供白屏化的管理界面,選擇指定業(yè)務(wù)應(yīng)用級(jí)、可用區(qū)(獨(dú)立的數(shù)據(jù)中心或機(jī)房)級(jí)和Region(城市)級(jí)的切換,使災(zāi)備演練和容災(zāi)切換變成一種可灰度、可監(jiān)控和可回滾的低風(fēng)險(xiǎn)的操作。由于業(yè)務(wù)連續(xù)性的訴求,城市或數(shù)據(jù)中心級(jí)的容災(zāi)技術(shù)需要持續(xù)的改進(jìn)和提到,大家都在持續(xù)努力的路上。