大型醫(yī)院信息系統(tǒng)的容災設計和應用
翁錦陽、何萍、朱鐵兵
上海交通大學醫(yī)學院附屬瑞金醫(yī)院計算機中心
通信地址:上海市盧灣區(qū)瑞金二路197號科教樓13樓計算機中心 翁錦陽收
郵編:200025
電子郵件:wjy@rjh.com.cn
聯(lián)系電話:(021)64370045轉611399
摘要:容災的實質(zhì)是通過各種容災技術和手段保持信息系統(tǒng)的業(yè)務持續(xù)性。大型醫(yī)院信息系統(tǒng)容災設計和應用是一項系統(tǒng)工程,它涉及到管理、流程、規(guī)范等各個方面,而不僅僅是技術。容災不僅僅簡單的數(shù)據(jù)備份和恢復,還包括信息系統(tǒng)應用上的恢復。本文共享了在醫(yī)院信息系統(tǒng)容災設計過程中的經(jīng)驗,給出適合大型醫(yī)院使用的容災系統(tǒng)設計方案,并且詳細說明其原理和實現(xiàn)過程。
關鍵詞:容災 存儲局域網(wǎng) 服務器群集 連續(xù)數(shù)據(jù)保護 鏈路冗余
Abstract: The essence of disaster tolerance is to maintain the continuity of information system through a variety of disaster tolerance techniques and tools. Large-scale hospital information system design and application of disaster tolerance is not only technology, but also a systematic project, which involves management, processes, standards and other aspects. Disaster tolerance is not simple data backup and recovery. It includes restoration of information systems applications. This shared disaster tolerance in the large-scale hospital system design process the experience, the use of disaster tolerance for large-scale hospital systems design, and detailed description of its principle and realization.
Key words: Disaster Tolerance Storage Area Network Server Cluster Continuous Data Protection Link Redundancy
一、醫(yī)院信息系統(tǒng)的容災目的和需求
當前,大型醫(yī)院已普遍建有醫(yī)院信息系統(tǒng),并已成為醫(yī)院高效、有序開展醫(yī)療服務的基本保障。由于大型醫(yī)院全年365天、全天24小時不間斷服務和高峰期業(yè)務并發(fā)量大的特點,一旦信息系統(tǒng)發(fā)生故障,整個醫(yī)院的業(yè)務將陷于癱瘓,因此對醫(yī)院信息系統(tǒng)的運行安全性和連續(xù)性提出了很高的要求。為此,醫(yī)院信息系統(tǒng)的容災設計性對于大型醫(yī)院來說顯得尤為重要。
容災,就是利用技術手段、管理手段,或者任何可以獲取的管理資源,來確保一些關鍵的數(shù)據(jù)、處理關鍵數(shù)據(jù)的手段,以及關鍵的業(yè)務,在災難發(fā)生后可以盡可能多、盡可能快地恢復的過程。醫(yī)院信息系統(tǒng)的容災目的,不僅是確保數(shù)據(jù)的完整性,還要保障關鍵業(yè)務的運行持續(xù)性。即當醫(yī)院信息系統(tǒng)發(fā)生故障時,仍能夠不間斷地或盡可能快地恢復提供關鍵業(yè)務支持,并盡可能避免關鍵數(shù)據(jù)的丟失,以保證醫(yī)療業(yè)務的正常進行。
系統(tǒng)的容災設計有兩個評價標準:恢復時間目標(RTO,即在災難發(fā)生后需要恢復的緊迫性)和恢復點目標(RPO,在災難發(fā)生后恢復運轉時數(shù)據(jù)丟失的可容忍程度)。RPO針對的是數(shù)據(jù)丟失,而RTO針對的是服務丟失。即系統(tǒng)容忍丟失的數(shù)據(jù)量越小,RPO的值越小;系統(tǒng)服務的緊迫性要求越高,RTO的值越小。由于醫(yī)院承擔救死扶傷任務的特殊性,決定了醫(yī)院信息系統(tǒng)對RPO和RTO具有很高的要求。
二、醫(yī)院信息系統(tǒng)的容災設計和實現(xiàn)
醫(yī)院信息系統(tǒng)有三大核心資源——計算資源、傳輸資源和存儲資源。計算資源主要包括具有計算能力和業(yè)務處理能力的服務器。傳輸資源主要包括網(wǎng)絡和各類網(wǎng)絡交換設備。存儲資源主要包括存放數(shù)據(jù)的各類存儲設備。醫(yī)院信息系統(tǒng)的容災設計重點就是要保護這三種核心的資源。
1、計算資源的保護
計算資源的傳統(tǒng)容災方式主要是通過采用服務器群集技術來實現(xiàn)的。以典型的三層架構(一般將醫(yī)院信息系統(tǒng)架構由上至下劃分為表示層、業(yè)務邏輯層和數(shù)據(jù)訪問層)分別獨立部署在服務器或服務器群集上運行為例:
位于數(shù)據(jù)訪問層的數(shù)據(jù)庫服務器采用基于共享存儲的雙機熱備方式。兩臺數(shù)據(jù)庫服務器可以采用互備、主從、并行等不同的方式。在工作過程中,兩臺服務器將以一個虛擬的IP地址對外提供服務,依工作方式的不同,將服務請求發(fā)送給其中一臺服務器承擔。同時,服務器通過心跳線偵測另一臺服務器的工作狀況。當一臺服務器出現(xiàn)故障時,另一臺服務器根據(jù)心跳偵測的情況做出判斷,并進行切換,接管服務。這一過程自動在短時間內(nèi)完成(分鐘級),對業(yè)務不會造成影響。由于使用共享的存儲設備,因此兩臺服務器使用的實際上是一樣的數(shù)據(jù),由雙機或集群軟件對其進行管理。通過服務器群集的方式,能夠以較短的時間在部分計算資源發(fā)生災難后恢復,保障業(yè)務系統(tǒng)的持續(xù)穩(wěn)定、可靠。
在上兩層中——業(yè)務邏輯層(應用服務器)和表示層(頁面服務器)由于只提供應用服務和用戶訪問界面,并不保存數(shù)據(jù),一般不需要使用共享的存儲設備,而應配置多臺服務器建立負載均衡機制。一來避免在這兩層上出現(xiàn)單點失效,實現(xiàn)容災;二來可以為用戶提供更好的訪問質(zhì)量、提高服務器響應速度。
對于服務器供電中斷這類故障,可通過UPS的冗余并聯(lián)實現(xiàn)快速甚至無縫的災難恢復。UPS冗余并聯(lián)實現(xiàn)了若干UPS設備本身的災難恢復,一旦主機故障停機,系統(tǒng)自動選擇作為從機(哪臺先開哪臺就是主機,而后開機的都是從機)運行的另一臺UPS接替主機的工作,保持供電不間斷。
2、傳輸資源的保護
傳輸資源的保護主要通過虛擬路由技術,以及雙鏈路冗余和負載均衡來保障系統(tǒng)容災的RTO。虛擬路由技術中最具代表性的是VRRP(虛擬路由冗余協(xié)議),可將一組用于醫(yī)院信息系統(tǒng)服務器與客戶端通信的路由器協(xié)同工作,共同構成一臺虛擬路由器。該虛擬路由器對外表現(xiàn)為一個具有唯一固定IP地址和MAC地址的邏輯路由器。處于同一個組中的路由器具有兩種互斥的角色:主控路由器和備份路由器,一個組中有且只有一臺處于主控角色的路由器,可以有一個或者多個處于備份角色的路由器。VRRP協(xié)議使用選擇策略從路由器組中選出一臺作為主控,負責ARP響應和轉發(fā)IP數(shù)據(jù)包。組中的其它路由器作為備份角色處于待命狀態(tài)。當主控路由器發(fā)生故障時,備份路由器能在幾秒鐘的時延后升級為主路由器。由于此切換非常迅速而且不用改變IP地址和MAC地址,故對醫(yī)院信息系統(tǒng)客戶端用戶是透明的。
同時,通過合理的網(wǎng)絡設計,可以到達備份和負載均衡雙重效果。比如讓兩臺路由器同時屬于互為備份的兩個組:在組1中路由器A為IP地址所有者;組2中路由器B為IP地址所有者。將客戶端1的默認網(wǎng)關設定為路由器A;客戶端2、客戶端3的默認網(wǎng)關設定為路由器B。這樣,既分擔了設備負載和網(wǎng)絡流量,又提高了網(wǎng)絡可靠性。同樣的,可以利用如Port-channel等技術可以實現(xiàn)鏈路的冗余和負載均衡。
3、存儲資源的保護
存儲資源由于承擔保存醫(yī)院信息系統(tǒng)數(shù)據(jù)的功能,建議在數(shù)據(jù)庫服務器群集中采用雙存儲陣列作為共享存儲(雙鏈路雙控制器冗余的存儲陣列最佳),并以鏡像方式同步。這樣,即使作為共享存儲的其中一個盤陣離線,服務依然能夠無間斷運行。
此外,可利用連續(xù)數(shù)據(jù)保護技術(CDP)對醫(yī)院信息系統(tǒng)數(shù)據(jù)進行備份,此技術可以捕捉到一切文件級或數(shù)據(jù)塊級別的數(shù)據(jù)寫改動,可以對備份對象進行更加細化的粒度的恢復,可以恢復到任意時間點。硬盤部分,設置RAID容錯報錯,且有熱拔插功能,一旦硬盤毀損,立刻抽換硬盤,系統(tǒng)仍可正常運作,無需中斷或關機。
4、建立異地災備中心
上述技術手段實現(xiàn)了醫(yī)院信息系統(tǒng)的本地容災,但對于機房遭遇火災等大型災害,本地容災則顯得無能為力。有鑒于此,應當在數(shù)據(jù)中心所處的建筑之外建
|
|