許多工具可用於監控容錯移轉叢集, 可以使用標準Windows Server系統工具 (ex: 事件檢視器, 效能和可靠性監視器) 來查看叢集事件日誌和效能, 可以使用 Tracerpt.exe 導出資料以進行分析, 可以使用MHTML格式化叢集設定報告和驗證設定精靈來解決叢集設定和硬體更改的問題
備份和還原容錯移轉叢集:
備份:
。可以使用Windows Server Backup或是非MS的備份軟體
。Windows Server Backup是Windows Server 2016的備份和還原功能
。要成功備份容錯移轉叢集, 叢集必須正在運行且必須具有仲裁, 換句話說, 必須運行足夠的節點並傳達叢集達到仲裁的通信, 可以使用見證磁碟或見證檔案共享, 取決於仲裁配置
。備份所有叢集應用程式: 如果是SQL Server資料庫叢集, 則必須具有叢集設定之外的資料庫和設定的備份計劃
。如果必須備份應用程式資料, 則備份軟體必須可以使用儲存資料的磁碟, 可以用備份軟體進行擁有磁碟資源的叢集節點備份, 或用網路對叢集資源運行備份
。叢集服務會追踪哪個叢集設定是最新的, 並將該設定複製到所有叢集節點, 如果叢集具有見證磁碟, 則叢集服務還會將設定複製到見證磁碟
還原:
。非授權還原Nonauthoritative restore: 當叢集中的單個節點損壞或重建, 並且叢集的其餘部分正常運行時, 使用非授權還原, 藉由系統還原(系統狀態)信息還原到損壞的節點來執行非授權還原, 重新啟動該節點時, 它將加入叢集並自動接收最新的叢集設定. 也就是要還原的節點主機關機後還原即可, 其他的節點主機可以開機持續運作
。授權還原Authoritative restore: 當需要還原原來叢集設定時, 則執行授權還原. 例如如果意外刪除了叢集資源或修改了其他叢集設置, 需要將叢集還原到以前的某個時間點, 須將叢集中所有節點主機關機(停止叢集服務), 使用Windows Server Backup執行系統還原(系統狀態)還原損壞的節點主機, 還原的節點重新啟動叢集服務後, 其餘叢集節點主機才可以啟動叢集服務
容錯移轉叢集故障排除注意事項:
。使用驗證設定精靈可以識別可能導致叢集問題的設定問題
。查看叢集事件和追踪日誌, 以確定可能導致叢集不穩定的應用程式或硬體問題
。查看硬體事件和日誌, 以幫助查明可能導致不穩定叢集的特定硬體
。查看SAN組件, 交換機, 連接卡和儲存控制器, 以幫助識別任何潛在問題
容錯移轉叢集的網路:
叢集網路心跳流量對於確定Windows Server容錯移轉叢集中的節點運行狀況非常重要, 如果一個節點無法通過網路與另一個節點通信, 則通信節點將啟動還原動作以使應用程式, 服務和資料連線
容錯移轉叢集有兩種類型的網路監視:
。積極: 積極的監視可以最快地檢測到伺服器故障, 並提供快速還原, 這意味著這種類型的監視可提供高可用性
。輕鬆: 輕鬆監視在網路故障檢測中提供了更大的容忍度, 這意味著在網路中斷非常短的某些情況下, 叢集的節點不會啟動容錯移轉
網路監視參數:
。延遲Delay: 叢集心跳的頻率, 以秒數計算(SameSubnetDelay, CrossSubnetDelay, CrossSiteDelay)
。閾值Threshold: 叢集啟動容錯移轉之前丟失的心跳數(SameSubnetThreshold, CrossSubnetThreshold, CrossSiteThreshold)
例: 如果在啟動容錯移轉之前將CrossSubnetDelay設定3秒並將CrossSubnetThreshold設定10個心跳, 則叢集在啟動容錯移轉之前將有30秒的總網路容忍值
沒有留言:
張貼留言