虛擬化環境下的統一運維論文
1 概述
伴隨著信息技術的不斷發展,信息系統運維的概念已經非常普及,根據自動化運維服務商Puppet labs發布的2013運維報告顯示,采用自動化運維后,完成部署的速度提高很多倍,減少50%失敗概率,恢復系統的速度提高12倍,國內外的互聯網公司都在開發自己的運維軟件,國內大型互聯網公司阿里巴巴、百度、網易等都有專門的運維體系研究部門。運維管理在高校領域處于逐步實驗階段,國內一些高校已經重視虛擬化應用及運維服務工作,大多采用自主研發與整合工具相結合的方式實現,在運維服務專業化、流程化、規范化方面取得了不同程度的成果。
2 運維的現狀
隨著學校信息化建設的發展,信息門戶、學工管理、教務管理、校園卡管理、迎新離校、支付平臺等系統相繼投入使用,系統基礎平臺的穩定可用性顯得更加重要,學校信息系統支撐平臺主要以Vmware虛擬化平臺為主,通過虛擬化技術實現了硬件整合管理和可高用性、改善業務可靠性、優化系統部署、降低設備能耗特點,但虛擬化管理平臺的管理只涉及主機統級別,應用系統業務的管理需要各利用各自獨立的工具來管理,運維管理整體上基本處于“半自動”狀態。突出的有以下問題:定位實際故障點的效率低,故障修復缺乏自動化、流程化響應機制,缺乏事件監控、診斷、故障響應的有效運維工具;系統配置變更需人工操作工作量大,缺乏集中的主機、虛擬機、應用業務等的監控和預警機制;信息系統基礎設備沒有統一配置管理信息庫,信息登記混亂常造成設備配置信息的沖突。系統的可用性與運維管理有著緊密聯系,當前運維工作的重心放在應用檢查、部署上線、服務器配置、數據備份、故障搜索處理等方面。
3 統一運維的設想
統一運維平臺規劃以信息系統基礎設施及應用系統的全局統一管理為出發點,實現配置批量變更、故障自定義修復、定期自動巡檢、信息集中管理等功能,考慮到免費運維系統功能有限、大公司自主研發技術很難獲取,計劃采用開源軟件、Vm?ware管理平臺的功能接口和開發相結合的方式來實現統一運維。
系統規劃實現的主要功能包括以下幾項:集中化管理信息系統基礎架構中的服務器、虛擬機、應用系統、網絡設備、存儲、應用等配置資源;通過預先定義主機系統、虛機系統、通用應用的'模板及配置腳本,實現主機系統、虛機系統與應用系統的統一配置管理與自動化部署,保證配置變更在規范的流程下有序。準確地執行;實現主機狀態、應用狀態、應用業務、負載性能、存儲狀態等信息的統一監控與預警,通過預定義故障狀態與系統巡檢計劃實現自動化檢查及修復;建立統一的日志中心庫,采集來自基礎設備及應用的日志信息,在日志系統上配置基于應用流程的相關性規則,對日志信息進行有效性預處理,將有效及緊急的日志的集中展示,實現基礎設備的日志信息的集中化管理及智能化匯總。
4 系統的設計與實現
ITIL即IT基礎架構庫(Information Technology InfrastructureLibrary,信息技術基礎架構庫)為設計IT服務管理架構提供了一個客觀、嚴謹、可量化的標準和規范,參考ITIL2中服務支持部分,設計與實現統一運維的5項功能模塊。資源配置管理系統發布管理配置變更管理事件預警處理問題跟蹤管理。
4.1 資源配置管理
建立符合的統一運維管理架要求的配置管理數據庫,將多處的數據源合并至統一視圖中,配置信息庫提供IT基礎架構的邏輯模型,定義、識別、控制基礎設施與應用服務的部件,對資源信息按技術參數,屬主,關系等屬性進行存取,記錄每個資源的唯一標識名、主機狀態、硬件信息、位置、功能用途、網絡配置等技術參數信息及資源間的屬主關系,按照基礎設施與應用業務的依賴性信息完成關系屬性的建立,在配置信息庫的基礎上開發資源配置管理程序,實現記錄配置信息的狀態采集、記錄、整合、檢驗、變更等功能。
4.2系統發布管理
發布管理是將經過實際應用測試的新增配置與系統在環境進行分發,通過流程化實現系統與配置信息的發布、交付、分發。具體到實際環境中是Vmware中的虛擬機發布管理,通過調用Vmware管理平臺提供的接口及工具包,實現統一化、流程化的虛擬機申請與管理功能,將虛擬化平臺中虛擬機的創建、發布、交付、回收等功能集成到運維平臺。
4.3 配置變更管理
配置變更要求以受控方式在最短時間內完成基礎架構或應用服務配置變更,在變更實施過程中使用標準化、自動化的方法,以將由變更所導致的業務中斷影響減小到最低。學校信息系統所使用的操作系統平臺分為Windows與Linux二類,同類環境的配置變更非常類似,經過測試選擇Puppet(開源的基于Ruby的自動化系統配置管理工具)來實現自動化的配置變更管理,Puppet支持DNS設置、系統參數、系統更新、主機名規則變更、批量系統的密碼修改、防火墻策略變更等配置的自動下發,管理程序讀取指令及配置管理信息庫中設備的配置,通過調管理端來實現配置批量自動分發變更,反饋信息來記錄或變更管理配置息。
4.4 事件預警處理
在確定事件類型、優先級的前提下,實現快速的服務恢復與應用切換,實現服務器級故障自動修復依賴監控預警信息,信息系統平臺中需要預警處理的設備包括基礎設備、Vmware平臺、虛擬主機、應用系統等,使用免費工具作為信息采集低層服務端工具,數據采集使用SNMP協議、SSH訪問與自定義腳本相結合的方式,預警方式使用SNMP Trap與郵件告警,通過開發程序來讀取采集到狀態數據和警告信息匯總到統一的數據庫,定義主機或應用的錯誤類型代碼及相應故障事件的觸發規則、運行流程、修復腳本或指令,當故障事件發生時管理平臺依據來源及事件標識讀取事件響應配置并發出指令,事件故障主機或關聯主機根據指令主動執行流程化修復指令,執行修復指令的結果被反饋回管理平臺,管理平臺將結果記錄入配置信息庫或發出進一步修復指令。
4.5 問題跟蹤管理
問題跟蹤管理利用logstash,redis等日志采集工具來收集問題信息及日志,管理平臺對日志信息按照應用類型與業務邏輯關系進行分類過濾,形成可用的、有針對性的日志事件數據,管理平臺根據日志信息分析IT基礎架構的薄弱環節并確定引起問題發生的故障根源,管理人員利用管理平臺制定解決事故的方案和防止事故再次發生的措施。
5 進一步的思考
規劃統一運維平臺管理幾百臺服務器與應用,考慮運維管理的高效化與信息安全預防的標準化,系統設計在通用性與擴展性還有許多要繼續改進,在自動化部方面應用系統的類型較多且自動化管理工具欠缺,如何實現應用系統軟件的自動化配置是繼續關注,故障巡檢方面要深一步考慮如何實現精確、有效的故障恢復策略,缺少考慮多人使用平臺時的授權機制與安全審計模塊。
【虛擬化環境下的統一運維論文】相關文章:
現代化海事運維理念研究論文11-04
精益化IT運維關鍵技術研究論文11-06
電力運維合一論文05-28
基于虛擬現實技術的三維教學環境研究論文11-08
運維應急預案09-22
運維團隊口號05-03
運維實習報告01-18
IT運維簡歷模板03-29
運維實習總結08-06