原文:《ITIL4 服務連續(xù)性管理》

ITIL4之 IT服務連續(xù)性管理

服務連續(xù)性管理實踐的目的是確保災難發(fā)生時,服務的可用性和性能能夠保持在足夠的水平。本實踐提供了一個框架機制,利用產(chǎn)生有效[url=]響應[/url]的能力來構建組織的彈性,以保障關鍵利益相關者的利益,還有組織的聲譽、品牌和創(chuàng)造價值的活動。

image

定義:災難

一個突發(fā)的意外事態(tài),會對組織造成巨大損壞或嚴重損失。要被歸類為災難,這一事態(tài)必須與組織預定義的特定業(yè)務影響準則相匹配。服務連續(xù)性管理實踐有助于確保服務提供者做好應對高影響事件的準備,這些事件會破壞組織的核心活動和/或信譽。確保服務的連續(xù)性變得越來越重要和困難。在數(shù)字化轉型的背景下,服務連續(xù)性管理實踐變得越來越重要,因為在各個行業(yè),數(shù)字化服務的作用越來越大。對于在過去專注于非技術災難的組織而言,重大服務中斷可能產(chǎn)生災難性的影響。

云解決方案的廣泛使用,以及與合作伙伴和服務消費者的數(shù)字化服務的廣泛整合,正在產(chǎn)生更加難以控制的新的關鍵依賴關系。合作伙伴和服務消費者通常會投資于高可用性和高連續(xù)性解決方案上,但是組織之間缺乏整合和一致性會產(chǎn)生新的脆弱性,這一點需要被了解并解決。

服務連續(xù)性管理實踐與其他實踐(包括可用性管理,容量和性能管理,信息安全管理,風險管理,服務設計,關系管理,架構管理和供應商管理實踐)相結合,可以確保組織的服務具有彈性并為災難性事件做好準備。

風險的概念是服務連續(xù)性管理實踐的核心。該實踐通常可以減輕無法被完全避免的高影響、低概率風險(因為某些風險因素不在組織的控制之下,例如自然災害)。


簡單來說,此實踐與事件管理實踐非常相似,不同之處在于其潛在的損害要大得多,并且它可能威脅到服務提供者創(chuàng)造價值的能力。


服務連續(xù)性管理實踐與服務價值系統(tǒng)(SVS)中的可用性管理實踐密切相關,并且在某些情況下可以合二為一。它也與公司背景下的業(yè)務連續(xù)性管理實踐緊密相關,并可以納入其中。



IT服務連續(xù)性的術語


定義:服務連續(xù)性

在發(fā)生災難事件或中斷性事件后,服務提供商在可接受的預定義級別上繼續(xù)服務運行的能力。


在這個定義中,我們需要界定連續(xù)性管理的范疇是災難,連續(xù)性管理是針對災難性事件而制定的計劃和響應措施。非災難性事件的管理,一般不包括在IT服務連續(xù)性管理實踐中,如

●小故障。根據(jù)業(yè)務影響,應將故障視為輕微或重大故障。重要的是要考慮諸如受影響的維修行動、故障規(guī)模、故障時間等因素。

●戰(zhàn)略、政治、市場或行業(yè)事件


定義:服務連續(xù)性計劃

服務連續(xù)性計劃指導服務提供商在服務中斷后響應、恢復和恢復到正常水平.


服務連續(xù)性計劃通常包括:

●響應計劃:服務提供商最初如何應對破壞性事件,以防止損壞,例如在火災或網(wǎng)絡攻擊情況下。

●恢復計劃:服務提供者如何恢復服務以實現(xiàn)RTO和RPO。

●恢復正常的操作計劃:服務提供商在恢復后如何恢復正常操作。

指標:RTO和RPO


定義:RTO 恢復時間目標

在服務中斷后,業(yè)務功能的缺乏嚴重影響組織之前,可以經(jīng)過的最長時間。這表示必須恢復產(chǎn)品或活動或必須恢復資源的最長商定時間。

定義:RPO 恢復點目標

為了使活動在恢復時能夠有效地運行,必須將活動使用的信息恢復到該點。

RTO 規(guī)定了業(yè)務可以中斷的時間。RPO規(guī)定了可接受數(shù)據(jù)丟失的時間段。通常,RTO和RPO都是作為連續(xù)性管理的衡量指標,寫入SLA中。



服務連續(xù)性管理的流程

服務連續(xù)性管理活動分為以下五個過程:

●服務連續(xù)性管理的治理

●業(yè)務影響分析

●制定和維護服務連續(xù)性計劃

●測試服務連續(xù)性計劃

●響應和恢復。


1. 服務連續(xù)性管理的治理

服務連續(xù)性治理主要包括三個活動,定義范圍、策略選擇和意識與演練計劃的開發(fā)。一般做連續(xù)性的企業(yè),主營業(yè)務都非龐大,IT系統(tǒng)更是錯綜復雜,交互繁多。出于經(jīng)濟效益的考慮,企業(yè)不可能保證所有的應用和基礎設施組件都有備份,所以首先根據(jù)BIA(業(yè)務需求分析),確定關鍵業(yè)務和組件。然后根據(jù)不同的級別,選擇不同的災備方式和演練計劃。


2. 業(yè)務影響分析 BIA

業(yè)務影響分析包括以下活動:

●VBF識別

●中斷后果分析

●VBF相互依賴性識別

●確定服務連續(xù)性要求

ITIL 4中對于這些活動并未給出具體的實施方法。后面我會專門寫一篇,如何開展BIA。BIA的難點在于技術實施層面,必須有系統(tǒng)架構師參與,進行風險評估也需要技術人員。


3. 制定和維護服務連續(xù)性計劃

這個過程包括的步驟是:

●服務連續(xù)性策略制定

●服務連續(xù)性計劃制定

●服務連續(xù)性計劃初步測試

服務連續(xù)性策略可以包括連續(xù)性的等級,對應的RTO和RPO的目標,可用性目標,演練的等級。如:

金融領域的云計算平臺容災能力等級要求

影響范圍

危害程度

較小影響

一般影響

嚴重影響

內(nèi)部輔助管理

1級

2級

3級

內(nèi)部運營管理

2級

3級

4級

公民、法人和其他組織的金融權益

3級

4級

5級

國家金融穩(wěn)定、金融秩序

4級

5級

6級


關鍵指標:

容災等級

RTO

RPO

可用性

3級

<=24小時

<=24小時


4級

<=4小時

<=1小時


5級

<=30分鐘

約等于0


6級

<=2分鐘

0


演練等級在《保險業(yè)信息系統(tǒng)災難恢復管理指引(保監(jiān)發(fā)[2008]20號)》規(guī)定為:桌面演練、模擬演練、實戰(zhàn)演練、部分演練和全面演練。


4. 測試連續(xù)性計劃

這個過程包括執(zhí)行演練和連續(xù)性評審兩個活動。


5. 響應和恢復

響應包括對應供應商服務連續(xù)性計劃的調(diào)用。


若需要ITIL4 服務連續(xù)性管理實踐完整實踐資料,請點擊右上角注冊賬號后向客服索取!