AWS Systems Manager加入事件管理器助IT快速解決突發事件

AWS Systems Manager新加入的Incident Manager意外事件管理功能,讓企業用戶建立回應突發事件的資源,並在事件發生時協助用戶快速解決

AWS在其系統管理服務Systems Manager中,加入意外事件管理功能Incident Manager,協助用戶準備應對事件回應資源,並在應用程式和基礎設施意外事件發生時,可快速有效應對,而在解決事件之後,也能詳細地分析事件發生原因,且加以改善。

從1995年Amazon.com上線以來,Amazon團隊負責了該服務的意外事件回應,而在總結多年應對各種規模的應用程式以及基礎設施意外事件的經驗,Amazon主要事件管理團隊設計出了Incident Manager,協助AWS用戶準備並快速回應突發事件。

用戶可以使用Incident Manager為意外事件做準備,創建事件回應資源集,而這些回應資源在警示響起時,早已準備好隨時可供使用,事件回應資源集有三個部分,第一是聯絡人,包括參與解決事件的成員,以及聯絡方式,第二是事件升級(Escalation)計畫,當主要待命的回應者沒有即時對事件做出回應,則呼叫其他聯絡人,第三則是回應計畫,規畫參與回應的人員,應該要執行的工作,以及協作的管道。

IT系統總有發生意外的時候,值班工程師便需要能快速恢復服務,因此分秒必爭,而準備好的資源可以讓工程師,不需要慌張的找尋操作文件,以及協作成員的聯絡方式,AWS提到,嚴重的問題通常需要升級,盡管可以從團隊成員獲得幫助,但要進行協作迅速解決問題,需要有效的溝通,在事件解決之後,工程師也需要從事件記錄中,找到問題根源,以改善平臺和事件回應程序。

而Incident Manager的設計目的,是要協助企業建立事件準備以及回應實踐。用戶透過創建回應計畫,以標準化地方式準備事件,一旦事件發生時,就能立即做出反應並且快速解決,而回應事件可以由用戶選擇使用Amazon CloudWatch警示,或是Amazon EventBridge事件通知自動觸發,必要的時候,用戶也可以手動啟用回應計畫。

當回應計畫啟動時,用戶可以快速找到聯絡人資訊,而新的儀表板會自動出現在事件管理器控制臺中,提供事件所涉及事務的資訊,包括事件概述,讓回應者可以迅速準確了解情況,還有與事件相關的CloudWatch指標和警示圖,可供回應者掌握最新狀況。

事件時間軸會列出事件管理器中所有事件,還有回應者手動添加的自定義事件,回應者也可查看回應計畫中的手冊與當前執行狀態,事件管理器提供預設模版,提供分類、診斷、緩解和恢復步驟,一旁還有聯絡人資訊以及聯絡頻道連結。

當事件解決之後,用戶可以使用內建模版,或是自定義的模版,來創建事件分析,以快速找出事件發生的根本原因,並規畫未來遭遇相同情況時,更快解決問題的方法。AWS提到,透過查看和編輯事件時間表,用戶可以放大特定事件及其處理方式,Incident Manager會自動在分析中添加問題,用戶可以透過回答這些問題,找出潛在改進的方法,並且在事件回應程序中加入這些方法。

最後事件管理器會提供建議操作項目,用戶可以選擇接受或是關閉,當用戶接受某個項目,該項目便會被加入清單中,用戶必須完成清單所有項目,才能夠關閉分析。目前Incident Manager已經在美東、美西、歐洲啟用,而亞太則在東京、新加坡和雪梨提供。

clouddatabaseenvelopetagphone-handsetrocketthumbs-uplayers