醫療行業超融合架構解決方案
1 設計概要
結合目前醫療行業數據中心的演進方法論及最佳實踐,建議采用分步分批的建設方式,使用擴展能力強,功能豐富的超融合基礎架構方案,來滿足醫院業務系統高可靠性、高可用性、業務連續性、數據安全、數據備份、數據及應用容災的需求。
建議未開始基于超融合架構建設數據中心的醫院,采用分期建設的方法和設計思路。
數據中心第一期建設,需要對現有業務系統進行深入調研,分析各個業務系統的需求和特點,將適合部署到超融合的系統進行統一梳理資源需求,建設基于超融合架構的數據中心,然后對業務系統資源進行整合。整合后的資源要求能通過超融合系統自帶的管理軟件,結合醫院現有云管理平臺進行統一管理,實現在一個界面完成對全院所有資源的管理、分配和運維分析等操作。
數據中心第二期建設,在管理上,需要實現高度自動化的業務部署和運維。在建設上,可以開展網絡SDN和NFV等系統的建設,這些也都是超融合系統建設的一部分。即使用通用的硬件服務器+軟件就可以實現數據中心需要的大部分IT功能,不需要額外再采購專用設備。SDN可以讓網絡具有可編程能力,包括能力開放、控制面和數據面解耦,以及集中控制等。NFV就是網絡功能的虛擬化,利用通用的硬件平臺和虛擬化技術,取代現在的專用網絡設備,例如負載和路由等傳統網絡設備。SDN和NFV是兩個關系密切,但又相對獨立,都可以讓超融合系統的網絡變得更加開放、敏捷和聰明。
通過超融合系統的建設,最終可以實現全軟件定義的數據中心。有效整合服務器、存儲和網絡等資源,最大效率的利用硬件設備,滿足新的醫療信息系統各項業務的性能需要。同時還可以對數據中心硬件設備進行有效管理和監控,降低運維和管理成本。
2 設計原則
在方案設計中我們將遵循以下總體原則:
1、以醫院業務需求為導向
超融合架構最終還是要為醫療業務服務的,因此在架構設計上一定要以醫療業務的需求為導向,充分考慮非功能需求,例如系統的重要程度、安全要求、業務連續性等。
2、遵循醫療行業標準
醫院大部分業務系統都是面向社會和公眾的,在醫院基礎架構建設時,應符合國際、國家、醫療衛生行業標準、規范和醫院自身的發展規劃。
3、提高資源利用率
現已經部署了大量的服務器,資源使用率低是較突出的一個問題。要充分發揮超融合架構的這一最大的特點,在保證性能的前提下進行合理設計。在同一設備中合理分配計算、存儲和網絡等虛擬化資源,最大程度的提高服務器設備的利用率。
4、系統擴展性
在超融合架構中,可以進行橫向靈活擴展,使醫院的IT基礎架構成為一個動態、靈活、具有彈性的IT基礎架構。要考慮在醫療業務系統實時運行過程中,計算資源和存儲資源的同時動態調整和擴展的問題,避免對現有生產系統產生影響。
5、安全可用性
業務系統的高可用性和安全性是醫院業務得以持續運行的保障。在超融合架構設計中,應該以軟件定義技術為主,結構超融合的分布式架構的特點,解決系統單點故障問題和性能瓶頸等問題,在滿足業務系統可用性的同時保證醫院系統運行安全和數據安全。
3 超融合架構總體設計
超融合架構在數據中心,以軟件定義為解決方案,使用通用的X86服務器+虛擬化軟件建設計算、分布式存儲和網絡等資源池,極大地簡化了數據中心的基礎架構。而且通過軟件定義資源池為分布式架構,可以實現無單點故障、無單點瓶頸、橫向自動彈性擴展、性能線性增長等能力。
在物理層,可以選擇通用的X86服務器和交換機。在軟件定義層,可以根據現有數據中心虛擬化的使用情況,結合未來數據中心的發展技術路線和方向,選擇合適的虛擬化軟件,例如VMware vSphere、KVM或Hyper-v等,盡量和生產中心保持一致,方便業務的轉換和遷移。如果選擇開源類產品路線,盡量選擇穩定可靠的產品,不要輕易嘗試新出的和不成熟的開源虛擬化產品。
在管理層,大多數商業的超融合產品都會提供一套通過簡單、方便的管理界面,實現對數據中心基礎設施資源的管理。但是數據中心如果已經有一套云管理平臺,要考慮新采購的超融合系統和已有云管理平臺的對接問題。盡可能使用一套云管理平臺,必要時需要進行二次開發,避免出現多套管理系統,多個云管理平臺。使用一套云管界面對整個數據中心進行統一的監控、管理和運維。
具體設計如下:
一、搭建超融合系統平臺。
在數據中心機房新建一套超融合系統集群,并對醫院現有的業務系統進行評估,按照評估結果,將適合的業務系統和數據遷移至超融合平臺,打破原有豎井式的縱向擴展架構。
HIS/PACS等核心業務數據庫系統不建議做遷移,由于其對物理機性能要求比較高,而且有數據一致性要求。而目前市場上各個廠商的超融合系統的分布式存儲對數據庫支持能力不同,為了保證HIS/PACS等核心業務數據庫的性能和數據的實時性,需要對選定的超融合系統做更詳細的POC測試,確定滿足條件后再進行遷移。
二、對原有設備進行淘汰和利舊整合。
建議淘汰的設備:服役超過5年以上的服務器,不建議繼續使用,可以進行淘汰處理,避免潛在的安全隱患,同時還可以降低整體能耗成本。
利舊整合的設備:可以利舊整合的服務器主要有兩種解決方案。
首先,可以用于開發測試,但是需要注意的是,對于這部分資源最好單獨建設一個資源分區,不要和生產資源混合在一個資源池里,做好安全隔離,避免互相影響。其次,可以選擇部分性能比較好,未過保修期(通常服務器保修年限為三年)且具有整合價值的服務器,然后部署超融合系統,加入到超融合系統群集當中。但是仍然建議單獨設計一個資源池,不要與新采購的超融合系統混用一個資源池,同樣做好安全隔離。因為老舊的服務器,即使部署了相同超融合系統軟件,由于其CPU型號比較舊,而且型號不統一,很難和新采購的超融合系統設備相互兼容,不建議部署在一個資源池。
三、建立統一的云管理平臺。
云管理平臺主要負責對資源的管理、彈性調度以及操作維護等綜合管理功能,是云平臺管理的核心,在同一個web界面提供云資源管理、云運維管理和云服務管理的功能。在采購新的超融合系統以后,要求必須能夠和現有的云管理平臺兼容,能夠進行二次開發和對接?;蛘咧苯硬捎贸诤舷到y的云管理整合原有的虛擬化資源,但是絕不能同時出現多個云管理平臺,這樣非常不利于資源的統一管理和調配,給醫院的信息化管理帶來很大的困難。
云資源管理負責云平臺資源虛擬化和資源分配,將物理資源(計算、存儲、網絡等)轉換成可動態調整的虛擬資源,供虛擬機使用,提供高可用性的彈性虛擬機,保障業務系統的連續性與虛擬機的安全隔離。
云運維管理可以實現物理設備、虛擬設備、應用系統的集中監控、管理維護自動化與動態化。
云服務管理對外的主要工作是實現用戶管理、集群管理、業務模板管理、虛擬機管理、虛擬機發放、統一硬件管理、告警、監控等功能。
4 超融合架構業務設計
醫院業務系統分析主要是對現有醫院業務系統進行梳理,對醫院的業務系統進行評估和分類,選擇適合部署在超融合系統之上的系統。主要包括以下幾個方面的工作:
1、對業務系統進行分析,選擇適合遷移到超融合架構的應用。建議優先從非核心的系統開始嘗試部署,然后逐漸擴展到其他核心業務系統。
2、評估并計算系統資源的使用量,包括計算、存儲、網絡和安全資源等。
3、根據分析出的需要遷移的業務系統資源量,評估現有機房的物理環境和網絡環境,是否能夠滿足遷移后的超融合系統部署需要。
4、針對超融合系統的性能需求和擴展能力的需求進行設計,為選擇適合的超融合架構梳理依據。
4.1 業務遷移分析
醫院業務系統主要分為四大類,分別是:
1、行政管理系統。包括人事管理系統,財務管理系統,后勤管理系統,藥庫管理系統,醫療設備管理系統,門診、手術及住院預約系統,病人住院管理系統等。
2、醫療管理系統。也是核心業務系統,主要包括門診、急診管理系統(HIS),影像文件系統(PCAS)、病案管理系統,醫療統計系統,血庫管理系統等。
3、決策支持系統。包括醫療質量評價系統,醫療質量控制系統等。
4、各種輔助系統。如醫療情報檢索系統,醫療數據庫系統等。
以上業務系統,除了核心HIS和PACS數據庫外,其實大部分系統都適合遷移至超融合系統,對于業務系統的最終選擇,還是需要分析其運行和使用的現狀,可以按照以下情況進行判斷。
1、原有業務系統運行在物理機上,且物理機的資源利用率非常低。
建議盡快遷移到超融合架構上,可以最大程度提高醫院信息系統的靈活性和設備使用率。遷移成功的前提是,原有業務系統的開發商需要能夠提供必要的支持,否則遷移部署和驗證可能會有些困難。
2、原有業務系統運行在物理機上,且物理機的資源利用率非常高。
通常核心業務系統的數據庫屬于這一類的應用,不建議遷移到超融合平臺之上,否則性能問題會是個極大的挑戰。
3、原有業務系統運行在虛擬機上,且虛擬機軟件的類別、版本和預期采購超融合系統基本保持一致。
對于這類應用,遷移是非常容易的,只需要將虛擬機直接遷移到超融合平臺上就好,不會存在太多的障礙,可以完全加入到遷移的名單中。
4、原有業務系統運行在虛擬機上,且虛擬機軟件的類別、版本和預期采購超融合系統完全不一致。
對于這類應用,遷移可能會有些麻煩,要看是否能夠找到合適的V2V遷移轉換工作。否則就需要在超融合系統上重新部署,然后再遷移數據。如果要將這類應用加入到遷移名單中,需要提前做好POC測試工作。
4.2 業務資源分析
在超融合平臺實施前,必須根據現有需要遷移的業務進行資源分析,確定超融合系統設備的資源使用量。
主要分析的內容是對現有業務系統的計算、存儲等性能進行分析。最終得出超融合系統的規劃配置內容,包括超融合集群數量、容量規劃、性能、應用需求等,可以指導超融合系統實施策略和實施路線規劃。
通過最終的超融合系統資源需求統計,可以得出超融合系統的CPU、內存和存儲容量,然后選擇合適的超融合節點數量和群集規模。
CPU的數量通常決定了超融合系統的節點數量和群集規模。超融合系統通常都是一臺2U高的X86服務器。高密度的X86服務器,每臺可以提供2-4個Node(節點)的資源。每個節點通常為1-2顆CPU+可選容量的內存(CPU核心數量和內存容量可以根據需求來進行選擇)。從技術上講,有些廠商的超融合系統是不限制單個群集的節點規模數量的,但是最佳實踐是一般單個群集不建議超過64個節點,比較方便管理,性能上也比較可靠。
存儲容量的配置需要根據原有業務的容量進行定量分析后得出。例如:原有存儲配置100TB SATA磁盤,那么超融合架構也需要配置同樣的資源,避免浪費。為了保證數據的冗余性和可靠性,通常分布式存儲都是多副本的,而且以3副本最為常見,所以在配置物理容量時,需要將實際數據融量至少乘以3倍,而且大部分分布式存儲系統都是以SSD磁盤作為緩存使用,這部分SSD的存儲容量是不能計算在內的。
現有虛擬化系統環境類型決定了超融合產品的實施策略和實施路線,因為不是所有的超融合產品都支持全部的虛擬化層軟件。例如VMware就不支持KVM,無法直接進行遷移。如果采用支持KVM的超融合系統,那么原有的VMware虛擬機就需要進行遷移轉換后,才可以在基于KVM的超融合系統上運行。
在物理網絡資源的定量分析上,也需要考慮新的超融合系統的網卡性能和數量,如果原有系統環境全部為雙鏈路萬兆網絡,那么新組建的超融合網絡也必須是雙鏈路萬兆網絡。而且網段數量至少要增加兩個,一個內部通訊網絡和一個管理網絡。網卡同時也需要增加兩塊。
5 超融合架構物理資源規劃
5.1 物理架構圖
物理架構圖描述:
基于超融合架構的數據中心,在網絡上采用扁平化二層網絡架構(核心層、接入層),使用網絡虛擬化技術,核心交換機承擔著核心層和匯聚層的雙重任務。
扁平化方式降低了網絡復雜度,簡化了網絡拓撲,提高了轉發效率。二層網絡架構中,采用虛擬集群和堆疊技術,解決鏈路環路問題,提高了網絡可靠性。核心交換機設置VLAN的IP地址,接入交換機劃分VLAN,做二層轉發。
在邏輯上,超融合架構不改變原有醫院生產中心網絡架構。原有設備網絡、服務器、存儲和安全等設備可以繼續利舊使用。
針對新購買的超融合設備,需要單獨設立二個安全域,分別為超融合系統安全區和超融合系統利舊資源區,分別部署新采購的和利舊的超融合服務器設備。為了保證傳統業務的可靠的運行,需要與傳統架構區的設備進行安全隔離,但是都處于內網,是可以互相訪問的,不影響系統的正常訪問和運行。為了保障內網的數據安全和網絡安全,外網用戶訪問仍需要通過VPN授權才可以訪問內網數據,通過DMZ區訪問web服務。
超融合架構物理機一般為機架服務器。同時融合計算和存儲資源,提供虛擬化資源。每臺服務器配置1塊2端口的10GE網卡。通過萬兆接入交換機和核心交換機進行連接。配置2個千兆網絡,一個連接生產網絡,一個連接管理網絡。
超融合架構物理機存儲系統采用分布式架構,通常配置有SSD+HDD或者全閃存磁盤的模式??梢愿鶕祿鎯π枰M行配置。對于超融合系統的存儲,要求支持多副本存儲、數據本地化、熱點數據自動分層。另外,可以根據需求選擇在線重刪、壓縮、快照、克隆、同/異步備份和跨地域遠程數據容災等高級功能。
5.2 計算資源規劃
計算資源是通過對x86服務器CPU虛擬化來實現的,根據現有虛擬化環境,可選擇VMware vSphere、MicroSoft Hyper-v或KVM等Hypervisor,通過虛擬化技術組建計算資源池,為業務系統的虛擬機提供不同的服務質量和能力。以VMware為例,可提供HA高可用、FT容錯、vMotion在線遷移和DRS資源動態負載均衡等能力。
計算資源的規劃需要根據歷史業務對資源的需求推導出需要新采購的超融合服務器的數量。包括遷移場景需要的服務器數量和新建場景需要的服務器數量。如果沒有可供利舊的服務器,那么這兩個部分相加,就是全部的計算資源總量。
遷移場景和新建場景由于維度不一樣,統計出的服務器數量可能也會有所偏差,通常需要綜合進行考量評估,建議以服務器數量多的數值做為參考。
5.2.1 遷移場景服務器數量規劃
這里借鑒并提供華為的服務器數量估算方法論做為參考,為簡化計算過程,所有管理、計算和存儲虛擬化軟件節點的CPU資源開銷按照10%進行計算,內存資源開銷按照每臺物理機100GB進行估算。
注:CPU和內存的開銷需要按照預計采購的超融合系統進行修正。
5.2.1.1 從計算服務器CPU維度進行估算
使用SPECint2006 Rate進行折算。
單服務器需要計算能力=物理服務器的SPECCPU使用率/(1-CPU冗余度)
(1)現有舊物理服務器計算能力折算方法:
所有n臺原服務器CPU能力折算值x=服務器1的SPEC值CPU使用率1/(1-CPU冗余度)
+ 服務器2的SPEC值CPU使用率2/(1-CPU冗余度)
+ …..
+ 服務器n的SPEC值CPU使用率n/(1-CPU冗余度)
(2)部署虛擬化平臺的物理服務器的CPU能力計算方法:
假設部署虛擬化平臺的單個物理服務器的SPEC值為y,單物理服務器的總邏輯核數為z。
虛擬化服務器的數量 N = x/(y90%),結果向上取其整數即可。如果數量≤3,那么至少配置3臺。
舉例:
比如40臺型號為:Dell Inc. PowerEdge 2950 x64-based PC Intel(R) Xeon(R) CPU E5420 @2.50GHz, 2493 Mhz, 4 Core(s), 4 Logical Processor(s) 8.00GB的服務器的實際平均CPU使用率為30%。
獲取其SPEC值為118。假定虛擬化后的目標CPU能力冗余度30%。
x = 40(11830%/(1-30%))=2022.857
若最終選擇Intel Xeon E5-4610 ,得到其SPEC值為883。服務器共48邏輯核,部署所有管理、計算和存儲虛擬化軟件節點的CPU資源開銷為10%。
虛擬化服務器的數量N=2022.857/(88390%)=2.545,虛擬化服務器的數量為3臺。
5.2.1.2 從計算服務器內存維度進行估算
直接使用內存使用量進行計算。
單計算服務器實際需要的內存(虛擬化后)=現有物理服務器的內存內存使用率/(1-內存冗余度)
(1)現有物理服務器內存折算方法:
所有n臺原服務器內存折算值 x = 現有服務器1的內存值內存使用率1/(1-內存冗余度)
+現有服務器2的內存值內存使用率2/(1-內存冗余度)
+ …..
+現有服務器n的內存值內存使用率n/(1-內存冗余度)
(2)所需虛擬化服務器的內存計算方法:
假設虛擬化后的單個服務器的內存值為 z。部署所有管理、計算和存儲虛擬化軟件節點的內存資源開銷為100GB。虛擬化后的服務器實際能給虛擬機用的內存y=z-100GB,每臺至少配置100GB以上,建議配置256GB。
虛擬化服務器的數量 N = x/y,結果向上取其整數即可。如果數量≤3,那么至少配置3臺。如果數量太多,請增加單臺服務器的內存容量。
舉例:
假定原服務器的內存大小為8G,內存使用率為20%,共40臺。虛擬化后的目標內存冗余度為40%
x =40( 820%/(1-40%))=106.7GB
假定Intel Xeon E5-4610配置256GB內存(要求必須大于100GB),則實際可用的內存為:
y=z-100GB
=256GB-100GB
=156GB
從內存容量上看,需要純計算節點的個數:
虛擬化服務器的數量 N = x/y=106.7GB/156GB=0.684,虛擬化服務器的數量為3臺。
5.2.2 新建場景服務器數量規劃
這里借鑒并提供華為的服務器數量估算方法論做為參考,為簡化計算過程,所有管理、計算和存儲虛擬化軟件節點的CPU資源開銷按照10%進行計算,內存資源開銷按照每臺物理機100GB進行估算。
注:CPU和內存的開銷需要按照預計采購的超融合系統進行修正。
5.2.2.1 根據CPU資源需求維度估算
適用于對虛擬化后使用虛擬機規格(CPU、內存、磁盤、網卡)、虛擬機的數量都有清晰認識的場景,能夠規劃出各類虛擬機的規格和所需的數量:
總vCPU數=預計部署的每臺VM虛擬機的vCPU數量的總和
注:vCPU是衡量一臺虛擬機計算能力的主要指標,類似物理服務器的CPU。vCPU核數類似服務器CPU的核數(core)。一個利用率100%的vCPU的處理能力等于物理CPU一個超線程的處理能力。
1、根據計算能力總需求估算
CPU總物理核數=roundup(總vCPU數/單核超線程數/CPU利用率)
2、估算所需的服務器數量
物理服務器數量=roundup{[(CPU總物理核數/(服務器CPU個數CPU物理核數)90%](1+服務器冗余率)}
結果向上取其整數即可。如果數量≤3,那么至少配置3臺。
舉例:
假定總vCPU的數量為100,服務器冗余率設定為30%,CPU利用率不超過70%,部署所有管理、計算和存儲虛擬化軟件節點的CPU資源開銷為10%,擬定選擇的超融合服務器為2顆12核心處理器2線程處理器。那么:
CPU總物理核數=roundup(總vCPU數/單核超線程數/CPU利用率)
= roundup(100/2/0.7)
=72
物理服務器數量為=roundup{[(72/(212)90%](1+30%)}
= roundup{4.3}
物理服務器數量:需要5臺。
5.2.2.2 根據內存資源需求維度估算
1、內存總需求
總內存=預計部署的每臺VM虛擬機的內存數量的總和
注:內存大小是指虛擬機內存的最大規格值。
2、根據內存總需求估算
根據內存資源需求估算的服務器數量= roundup[(總內存/(單服務器內存容量-100GB)(1+服務器冗余率)]
結果向上取其整數即可。如果數量≤3,那么至少配置3臺。如果數量太多,請增加單臺服務器的內存容量。
舉例:
假定總內存的數量為360GB,服務器冗余率設定為30%,部署所有管理、計算和存儲虛擬化軟件節點的內存資源開銷為100GB,擬定選擇的超融合服務器為256GB內存(至少100GB以上)。
物理服務器數量=roundup[(總內存/(單服務器內存容量-100GB)(1+服務器冗余率)]
=roundup[(360GB/(256GB-100GB)*(1+30%)]
=roundup[3]
物理服務器數量:需要3臺
5.3 存儲資源規劃
超融合系統架構提供的存儲資源,都是基于分布式的文件系統,可以將一組集群內的節點組成一個統一的分布式存儲平臺。對于業務系統來說,就是一個集中的共享式存儲,與任何其他集中式存儲陣列一樣工作,由超融合存儲系統管理模塊對分布式存儲進行管理。
超融合分布式存儲系統的配置規劃,需要根據歷史業務對資源的需求推導出需要新采購的超融合服務器的硬盤數量。包括遷移場景需要的硬盤數量和新建場景需要的硬盤數量。如果沒有可供利舊的服務器,那么這兩個部分相加,就是全部的計算資源總量。為了減小不必要要的服務器數量,單盤盡量選擇1.2TB或1.8TB產品。當然,為了使用更多的硬盤提升分布式存儲性能,還需要綜合考量。
以上除了需要提前確認好數據容量以外,還需要注意以下幾點:
1、分布式存儲架構以可以提供傳統集中式存儲的能力,包括塊存儲、文件存儲和對象存儲等。但并不是所有的超融合系統都能提供以上的存儲能力。由于分布式存儲的數據一致性不是很好,所以有些超融合系統提供的塊存儲服務是不能夠安裝ORACLE這類數據庫應用的,即使能安裝,效果也不會很好,性能會比較低。需要官方給出可安裝的測試報告或者兼容性測試報告。
2、是否需要超融合存儲系統提供快照、克隆、壓縮和重復數據刪除等傳統集中式存儲的特性。由于超融合系統也是近幾年剛剛興起,對于這類高級特性不如傳統集中式存儲支持的好,如果需要某種高級特性,需要提前對超融合廠商的相關存儲產品進行調研,做好POC測試。
3、分布式存儲資源池的組成通常為SSD+HDD的架構,SSD作為緩存盤,提升整個系統的性能。而且有的廠商要求嚴格的資源配比,以VSAN為例,需要1塊SSD+最多6塊HDD為一個邏輯磁盤組(VMware計劃增加到最多7塊)。而且1臺物理主機最多只能有5個磁盤組。所以物理磁盤不能隨意配置,需要根據超融合廠商的技術要求進行合理配置,避免資源浪費。當然也有的超融合廠商支持全閃存的架構,甚至可以使用PCI-E的SSD緩存卡進行加速,只是在成本上比較貴。
4、超融合的節點的硬盤數量會影響整個分布式存儲系統的性能。如果超融合系統只有最少的3個節點,那么分布式存儲系統的性能上基本上是無法超越傳統集中式架構存儲的,只有盡可能多的配置節點數量和硬盤數量,才有可能達到甚至超越傳統集中式存儲的性能。
5.3.1 遷移場景存儲容量規劃
這里借鑒并提供華為的存儲容量估算方法論做為參考。由于IOPS不太容易評估,為簡化計算過程,只考慮容量的計算。對于分布式存儲的性能規劃,建議通過POC測試進行,理論和實際往往差距較大。
容量計算:
基礎數據:總的有效容量=x,磁盤標稱容量=z,磁盤空間利用率=q,副本數=k
總的硬盤數量=roundup[總的有效容量/(zq)k](向上取整)
舉例:
假定現有需要遷移的數據,總計20000GB,預計購買的超融合服務器每臺的磁盤標稱容量z=1200GB,磁盤空間利用率q=0.95,副本數k=3.
按容量計算,硬盤數量為:
則利用上述公式:
總的硬盤數量= roundup[20000/(1200GB0.95)3]
總的硬盤數量= roundup[20000/(1140)*3]
總的硬盤數量= roundup[52.633]
總的硬盤數量為53塊硬盤,每塊盤容量至少為1200GB。
如果要加入SSD固態硬盤做熱點遷移和自動分層,需要按照超融合系統要求的比例,購買SSD固態硬盤。
5.3.2 新建場景存儲容量規劃
這里借鑒并提供華為的存儲容量估算方法論做為參考。由于IOPS不太容易評估,為簡化計算過程,只考慮容量的計算。對于分布式存儲的性能規劃,建議通過POC測試進行,理論和實際往往差距較大。
1、存儲總容量需求
類型i系統盤容量=系統盤空間×VM數量;
系統盤總容量=∑類型i系統盤容量
類型i數據盤容量=數據盤空間×VM數量;
數據盤總容量=∑類型i數據盤容量
2、根據存儲總需求估算
根據存儲空間計算所需的硬盤數量:
總的硬盤數量=roundup[(系統盤總容量+數據盤總容量)副本數k/單盤容量z/磁盤容量利用率q]
舉例:
假定現有虛擬機VM數量為100個,每個操作系統占用30GB空間,每個虛擬機數據盤空間需求為50GB。預計購買的超融合服務器每臺的磁盤標稱容量z=1200GB,磁盤空間利用率q=0.95,副本數k=3.
系統盤總容量=30GB100=30000GB
數據盤總容量=50GB100=50000GB
按容量計算,硬盤數量為:
總的硬盤數量=roundup[(30TB+50TB)3/1.2TB/0.95]
= roundup[80tb*3/1.2TB/0.95]
= roundup[210.53]
總的硬盤數量為211塊硬盤,每塊盤容量至少為1200GB。
如果要加入SSD固態硬盤做熱點遷移和自動分層,需要按照超融合系統要求的比例,購買SSD固態硬盤。
5.4 網絡資源規劃
5.4.1 組網策略
在超融合的架構中,多臺虛擬機之間是共享網絡的,為了方便管理,一般采用虛擬交換機來配置和管理網絡,虛擬交換機可在數據中心級別提供集中和聚合的虛擬網絡,從而簡化并增強虛擬機網絡。在虛擬交換機的網絡劃分上,仍然可以采用VLAN的方式劃分不同的子網,實現不同子網段的安全和隔離。
除了虛擬交換機,還可以通過Overlay的方式來構建大二層和實現業務系統之間的租戶隔離,通過NFV實現網絡中的所需各類網絡功能資源(包括基礎的路由交換、安全以及應用交付等)按需分配和靈活調度,從而實現超融合架構中的網絡虛擬化。這類功能同時需要客戶的物理交換機支持SDN的管理方式,如果是一些老舊設備,可能無法實現,需要購置新的交換機設置。
5.4.2 網絡拓撲
在每個單節點的物理機上,需要提供以下網絡端口:
萬兆光口:至少1個
千兆電口:至少2個
在每個超融合物理節點上有多種網絡需求,包括生產網絡、數據交換網絡、管理網絡、生產網絡等,因此每個物理節點建議配置多塊網卡,并保證每個節點通過兩條萬兆或千兆鏈路分別連接兩臺交換機,保證網絡設備和鏈路的冗余度。
網絡設計建議如下:
1、生產網絡(原有生產網絡,同時也是客戶機和虛擬化服務器之間的網絡通訊)
可采用雙鏈路千兆以太網絡,如果原有雙鏈路萬兆網絡,那么可以繼續延用。當用戶的客戶機訪問虛擬服務器時,通過生產網絡可分流后端存儲流量并且進行隔離。
2、數據交換網(X86物理服務器之間的內部通訊網絡)
至少采用雙鏈路萬兆光纖網絡,由于分布式存儲數據交換和虛擬機之間的通訊都需要占用大量的網絡帶寬,當發生密集的寫IO時,萬兆網絡能保證提供足夠帶寬滿足節點之間的IO同步流量。建議單獨配置1塊萬兆網卡。
3、管理網絡(管理X86物理服務器節點)
可采用雙鏈路千兆以太網絡,主要用于節點管理。建議單獨配置1塊千兆網卡,實現管理網絡與業務網絡、存儲網絡分離??梢宰畲笙薅缺WC管理的靈活性和安全性。
5.5 安全和備份規劃
超融合系統的設計還需要考慮安全設計。
首先,在物理安全上,建議將超融合節點分別部署到3個不同的機柜中,每個機柜部署1個節點,最大化做到故障域的隔離。每個機柜雙路供電,實現真正的供電冗余。
其次,要考慮滿足國家等保的要求還有醫療客戶自身的安全需求。在安全產品的部署上,可以延用原有的安全設備,也可以選擇支持安全虛擬化的超融合產品。例如深信服超融合產品,可以集成集成分布式防火墻、4-7層虛擬防火墻、虛擬數據庫審計等虛擬安全組件,并結合深信服安全產品,幫助客戶構建從邊界安全、平臺安全、數據安全到應用安全的全方位安全防護體系,并利用安全可視化,對安全事件全過程進行安全保障:事前漏洞評估,事中全方位防護,事后持續威脅檢測。
超融合架構可以提供跨數據中心的容災及應用級高可用解決方案。超融合架構具備面向數據的備份及恢復機制,以更經濟的方式實現數據的安全存儲和管理,并結合負載均衡、虛擬化軟件層高可用機制,提供了應用層面的跨數據中心業務連續性訪問能力。
大部分超融合系統都可以提供基于虛擬機快照的方式將更新數據異步復制到遠端的超融合系統集群中。如果有容災建設的需求,需要提前規劃好容災復制模式,選擇合適的雙向復制、一對多復制或者多對一的數據復制模式。
傳統的備份方式通過網絡傳輸備份數據,需要特定的備份窗口以免影響業務正常運行。超融合產品備份可以與傳統的備份策略互補,既能保證對于重要的虛擬機進行高頻次備份又不會占用額外的網絡帶寬。
例如:對于普通虛擬機可以使用傳統的備份方式每周進行全備,將備份數據備份到外部存儲中,同時使用超融合自帶的備份管理系統進行每天甚至每12小時的備份,數據直接保留在存儲上以便快速恢復。對于比較重要的虛擬機可以使用傳統備份每周全備、每天增量的方式,將備份數據備份到外部存儲中,同時使用超融合自帶的備份管理系統進行每2小時甚至每小時的備份,數據直接保留在存儲上以便快速恢復。
6 云管理平臺設計
基于超融合架構的云計算并不簡單等同于傳統架構的虛擬化,而是綜合運用虛擬化、標準化和自動化等一系列技術對醫院的信息化進行全面優化。因此搭建面統一的云管理平臺還是非常有必要的。
在一些最佳實踐中,醫院信息中心已經從一個成本中心變成一個可以交付有形價值和差異化能力的核心部門。在這場IT價值的變革中,云計算的作用至關重要,可以讓醫院降低對IT的一次性投入的同時,還可以根據業務變化動態調整資源,以快速響應業務需求。
如果已經有了云管理平臺,那么需要考入如何將超融合系統整合到云平臺中,可以利用超融合廠商的工具與現有云管進行集成或者邀請原有云管廠商進行二次開發集成。這些是需要在選擇超融合架構之前必須要考慮的一個問題,否則后期管理起來非常困難,還會增加很多的管理成本。
6.1 主要功能
云管理平臺是面向云計算領域的通用云管理環境,在動態數據中心構建及運維過程中提供全方位、多層次的管理及監控能力,基于云環境實現應用的快速部署及資源的彈性供應,通過簡化管理極大地降低成本、提高效益。通過集中式的資源管理模式整合虛擬化數據中心的計算、存儲和網絡資源,并通過自助式門戶以隨需即取的方式提供用戶申請、配置和使用。
云計算管理平臺可以根據超融合系統資源構建統一的資源池,并能實現對資源池的創建、修改、刪除等管理功能。
云管理平臺要求能夠屏蔽虛擬化平臺異構性。因為原有數據中心的虛擬化系統很有可能是異構的,或者新采購的超融合系統虛擬化也有可能與原有虛擬化系統不同,所以要求云管理平臺能夠支持主流的虛擬化平臺包括VMware、Xen、KVM、XenServer、RHEV,PowerVM等,簡化管控復雜度,提供集中式監管多虛擬化平臺資源,對資源進行精細化管理、自動化運維,提供集中、統一監控運維管理平臺,降低數據中心運維成本。
云計算管理平臺主要功能如下:
門戶管理、資源管理、資源申請審批管理、資源調度和分配管理、運維與監控管理、故障告警管理、權限管理、用戶管理、計費管理、安全管理、能耗管理、接口管理、統計報表和系統管理。
6.2 資源使用與管理
超融合系統在建設完成后,其資源主要由云管理平臺進行統一管理。
建議采用以下兩種模式,進行資源的使用與管理。
模式一:部門具備一定的信息化能力(如:醫院信息中心及分院信息管理部門等)。一次性申請批量資源,由云管理平臺管理部門經過審批分析后,批準并分配資源,之后,使用者在部門內部進行個人資源申請、審批,具備了“自治管理”能力;而通過流程控制和資源監控,達到“集中管控”的效果。
模式二:部門不具備信息化能力(如:醫院骨科、眼科等業務科室),如果有資源需求,就會向云管理平臺管理部門提交申請,經過審批分析后,批準或駁回申請,動態分配及收回資源。
7 超融合架構建設難點分析
7.1 信息孤島治理
7.1.1 產生背景和原因
在醫療行業傳統數據中心,每個業務系統建設都是一套硬件設備對應一套應用的建設模式,因此產生了越來越多的“信息孤島”。隨著系統逐步增加,這種煙囪式IT架構的問題逐漸暴露出來,如分散式管理復雜、機房設備多、利用率低等。
超融合平臺項目建設的初衷是把這些系統的數據業務打通,在底層形成計算和存儲的資源池,針對不同的業務動態提供按需劃分的能力。但是,實際上的情況是,醫療用戶在部署了超融合系統以后,會出現更多的“信息孤島”。
在數據中心層面:所有的超融合方案都是分布式存儲,也必須是分布式存儲,不會支持數據中心中原有傳統的集中式存儲,而且大多數醫療用戶也不可能在短期內更換原有的服務器和存儲等設備,最終的結果就是,數據中心被分裂成兩個彼此獨立分散的“信息孤島”。
在業務應用層面:目前超融合系統通常僅支持一種或多種虛擬化環境,例如VMware超融合架構僅支持VMware vSphere,不支持KVM。而華為和H3C等超融合方案基本都不支持Hyper-V虛擬化。每種虛擬化環境都有各自的優勢,很多情況下用戶可能要部署多套超融合環境。還有一點就是不同超融合平臺之間無法整合和互操作,舉個例子:如果一個醫院買了DELLEMC的VxRail超融合平臺,那么以后擴容不能再買其他超融合產品進行擴容,只能繼續選擇VxRail超融合產品,如果選擇其他超融合產品進行擴容,結果就是又多了幾個新的“信息孤島”。
7.1.2 解決方案
在醫療行業客戶考慮轉向超融合架構之前,必須充分的認識到新架構的變化帶來的諸多問題。由于超融合架構是一種全新的架構,短期內不可能完全替代傳統的數據中心,所以信息孤島問題是必然存在的,需要在管理上提升認識,充分考慮現有業務的需求,進行平衡考量,對現有數據中心的老舊設備和新的超融合設備進行統一管理,綜合運維。在超融合產品的選擇上,要結合現有的業務部署環境、虛擬化環境并結合數據中心的未來發展進行認真考量,不能有以往采購硬件設備時那種以價格優先的選擇方法。必須充分對現有業務系統進行調研,需要哪種虛擬化平臺,盡量選擇支持異構虛擬化的超融合產品,而且超融合產品的選型決定了未來數據中心的發展方向,是走商業化產品路線還是開源產品路線,都需要考慮清楚。如果僅以價格便宜作為優先考慮方案,那么可能會導致適用性差,擴展受限等問題,而且日后可能還會產生更多的信息孤島。
7.2 超融合系統性能優化和節點管理
7.2.1 產生背景和原因
超融合架構的優點是易于擴展和部署,按需擴容。通常采用X86硬件平臺+軟件定義技術實現計算、存儲、網絡等功能的統一。軟件定義屏蔽了以往異構設備的復雜性,實現完全分布式,去中心化,系統不存在任意單點故障。超融合通常3節點起配,并且可以擴容到數十節點。超融合節點中的計算能力、存儲性能和容量是同步擴容的,但是卻無法滿足現實中單項能力的擴展。
在計算性能方面,大部分超融合產品都是基于2U的X86服務器,CPU數量通常為1-2顆,單個虛擬機的性能最大只能達到單個節點的70%(超融合系統本身和分布式存儲要占用30%的計算性能),而且不能像超算那樣,利用所有節點進行統一計算。在這條件下,高性能應用可能不太適合部署,而且性能會受限于單臺節點的性能。
在存儲性能方面,在傳統存儲集中式系統中,由于其物理I/O路徑較短,通常為機頭控制器后端再掛載磁盤組。而且采用Raid等數據保護算法比基于分布式存儲的副本數據保護模式,在計算開銷上小很多。在分布式存儲中,至少由3臺服務器組成,通常使用3副本模式。一個I/O通過網絡,需要在多個副本服務器上進行處理,而且每個副本都有數據一致性檢查算法,這些操作都將增加I/O的時延。分布式存儲系統的數據一致性會引發另外一個性能問題。數據一致性可以理解為應用程序運行的數據狀態與最終寫入到磁盤中的數據狀態是否一致。在數據庫等OLTP高并發業務場景下,數據一致性的保障可大大提高系統的可靠性和容錯性,避免數據出錯。傳統存儲是集中式緩存管理,集群中所有節點均不維護本地緩存,而是所有節點共享訪問一個集中存放的緩存,數據在緩存中只有一份副本,不會出現多份副本,具有天然的緩存一致性。分布式存儲因為每個節點都有自己獨享的緩存,存在多個副本,需要一個特殊過程來維護緩存一致性。通常需要采用低時延的高速網絡來實現緩存協議流量,最終實現任意關聯分布式緩存一致性。帶來的問題是副本之間的強一致特性導致只要有一個副本響應稍慢,整個I/O的時延將增加,導致性能下降。
為了提升超融合平臺的性能,需要不斷的增加節點數量。但是節點數量的增加又會導致管理上的問題。集群達到一定規模后,其復雜性就會非線性增加,在管理上變的更加困難,硬件故障率也會大幅度增加,所以并不是超融合系統的群集越大越好。如果為了性能而不斷增加群集規模,還會產生均衡問題。因為超融合架構所有的計算和存儲資源都是均衡分布的,在擴容或者是節點設備故障時,都會發生計算和存儲資源的均衡遷移,雖然這個過程可以設定為非繁忙時段靜默完成,但是如果變動很大,那么均衡的過程會非常漫長,在沒有足夠調整資源的情況下,會觸發強制均衡,對正常的業務產生影響。
7.2.2 解決方案
在計算性能方面,在進行超融合產品部署前,需要根據醫院自身業務的性能需求,選擇合適的部署方案。例如:對于性能要求較高的大型OLTP數據庫服務器,可以考慮單獨部署在4路或8路的物理服務器上,不要部署在超融合系統中。超融合系統僅適合部署小型的或者對性能要求不高的數據庫。
在存儲性能方面,如果需要將傳統的集中式存儲數據遷移到超融合的分布式存儲中,要考慮性能問題。提前做好I/O性能測試,避免性能不足。通常來講,如果一臺中高端存儲設備,遷移到超融合系統中,要獲取相同性能,至少要有10個以上的節點,而且要配置SSD閃存。在考慮數據遷移之前,傳統存儲的自動精簡配置、快照、克隆、重復數據刪除、數據加密和數據壓縮等高級特性也需要考慮進去,這些通常是超融合架構的分布式存儲所不具備的。
在管理方面,超融合雖然架構簡化了IT架構,但是如果不考慮實際需求,盲目擴展,反而會增加數據中心的復雜性。從超融合產品的角度講,其內部技術和鏈接配置更加復雜,為了性能不斷的增加節點數量,如果出現故障,問題的跟蹤調試和分析診斷也變得更加困難。建議在進行超融合架構規劃時,不要只設定一個超融合群集,而是要根據業務類型或者性能分別創建不同的超融合群集,而且盡可能的控制單個群集的規模數量。