從節點故障中復原

如果您的一個伺服器節點出現問題,並且您的其他節點上具有備援處理序,Tableau Server 可以繼續執行。在節點出現故障後,您的使用者可以繼續登入並查看和使用其內容,但由於節點出現故障,他們可能會遇到效能下降問題。此外,如果不良節點正在執行不再備援的處理序,則您的伺服器將面臨出現重大故障的更大風險。這意味著您應該特別注意移除不良節點並儘快替換它。如果您的節點因可在相對短的時間內復原的原因(例如,您可以校正的硬體故障)而失敗,則應先嘗試在不使用下列程序的情況下備份節點。

附註:如果出現故障的節點是您的初始節點,則會對 Tableau Server 安裝產生更大的影響。如需有關如何從初始節點故障中復原的詳細資訊,請參閱從初始節點故障中復原

一般要求

2020.1 版本的 Tableau Server 已更新為具備改善的恢復功能。已針對 Tableau Server 2020.1 撰寫本主題中的程序。

如果您要嘗試從先前版本的 Tableau Server 恢復失敗的節點,就必須遵循該版本的程序。若要檢視封存版本的 Tableau 說明,請參閱 Tableau 說明(連結在新視窗開啟)

  • 至少有一個功能節點上有檔案存放區的執行個體。
  • 至少有一個功能節點上有存放庫。
  • 至少有一個功能節點上有用戶端檔案服務 (CFS)。

附註:此操作包括您可能需要使用 TSM 命令列執行的步驟。若要使用 TSM CLI,您需要在安裝中的一個節點上對命令列具有管理員存取權限,並需要 TSM 管理員認證來執行 TSM 命令。

移除出現故障的節點

若要從 Tableau Server 叢集中移除出現故障的節點:

  1. 找出出現故障的節點:

    tsm status -v

    出現故障的節點將具有 "ERROR" 狀態,並且處理序將顯示為不可用。節點 ID 列為 "node<n>" ,其後為機器名稱。例如,node3

    node3: WIN-OO915SFASVH
    						Status: ERROR
    					'Tableau Server Gateway 0' status is unavailable.
  2. 停止 Tableau Server。

    此過程的剩餘步驟包括一些使用 --ignore-node-status 選項的命令。使用 --ignore-node-status 選項執行命令時,該命令的執行將不會考量指定節點的狀態。若要使用 --ignore-node-status,請指定故障的節點:

    tsm stop --ignore-node-status <nodeID>

    例如,如果節點 3 故障,請依照下列方式執行命令:

    tsm stop --ignore-node-status node3
  3. 確定在節點上執行的任何關鍵處理序:

    • 如果失敗的節點正在執行訊息傳送服務,則需要從失敗的節點中移除該服務,並將其新增至工作的節點。

      從故障節點中刪除訊息傳送服務:

      tsm topology set-process -pr activemqserver -n <nodeID> -c 0
      

      將其新增至工作的節點:

      tsm topology set-process -pr activemqserver -n <nodeID> -c 1
    • 如果出現故障的節點正在執行 Coordination Service,則需要先部署新整體,才能移除節點:

      tsm topology deploy-coordination-service -n <good_nodeID> --ignore-node-status <failed_nodeID>
      
    • 如果失敗的節點只執行用戶端檔案服務 (CFS) 的執行個體,您需要在工作節點上設定 CFS 的新執行個體。我們建議您在執行協調服務的每個節點上設定 CFS。有關詳情,請參閱設定用戶端檔服務

    • 如果出現故障的節點正在執行檔案儲存,則需要強制解除檔案儲存並將其移除,然後才能移除節點。

      tsm topology filestore decommission -n <nodeID> --delete-filestore

      套用擱置變更(如果您有三個節點的叢集以及單個協調服務執行個體,則使用 --ignore-warnings 選項):

      tsm pending-changes apply --ignore-warnings --ignore-node-status <nodeID>
  4. 如果叢集是三個節點的叢集,並且在剩餘的工作節點上存在存放庫,則需要移除一個存放庫或新增新節點。這是因為當您擁有的節點少於三個時,您只能使用存放庫的單個執行個體。

    若要移除一個存放庫:

    tsm topology set-process -n <nodeID> -pr pgsql -c 0
  5. 執行命令來移除出現故障的節點。這會將變更新增至擱置的變更清單:

    tsm topology remove-nodes -n <nodeID>
  6. 驗證節點移除是否擱置:

    tsm pending-changes list
  7. 套用擱置變更以移除節點:

    tsm pending-changes apply 
  8. 啟動 Tableau Server:

    tsm start
  9. 在新節點上安裝 Tableau Server,並使用出現故障的舊節點執行的處理序設定節點。

  10. 在新電腦或完全移除 Tableau 後的初始電腦上,使用原始安裝程式和從初始節點生成的啟動程序檔案來安裝 Tableau。有關如何執行此操作的詳情,請參閱安裝和設定附加節點

    最佳作法是設定原始節點失敗時遺失的任何處理序以確保叢集完全備援。

  11. 節點開始正常工作並按預期執行後,您也應該重新部署新的協調服務整體。有關詳情,請參閱部署協調服務整體

  12. 最後,如果尚未完成此操作,請將 CFS 的執行個體新增至執行協調服務的每個節點。有關詳情,請參閱設定用戶端檔服務