Recuperarse de un fallo en un nodo

Si hay un problema en uno de los nodos del servidor y tiene procesos redundantes en los demás nodos, Tableau Server puede seguir ejecutándose. Tras el fallo, los usuarios podrán seguir iniciando sesión, y podrán ver y utilizar su contenido, aunque pueden experimentar una degradación del rendimiento. Además, el servidor correrá un riesgo mayor de sufrir un fallo catastrófico si el nodo fallido estaba ejecutando procesos que ya no son redundantes. Por tanto, debe procurar eliminar y reemplazar cuanto antes el nodo defectuoso. Si el nodo produce errores por motivos que permiten la recuperación en una cantidad de tiempo relativamente breve (por ejemplo, un error de hardware que puede corregir), primero deberá intentar volver a poner el nodo en funcionamiento sin usar el procedimiento siguiente.

Nota: si el nodo fallido es su nodo inicial, las implicaciones para las instalaciones de Tableau Server son mayores. Para obtener información detallada sobre cómo recuperarse de un fallo en un nodo inicial, consulte Recuperación a partir de un error de un nodo inicial.

Requisitos generales

La versión 2020.1 de Tableau Server se ha actualizado con una funcionalidad de recuperación mejorada. El procedimiento en este tema está pensado para Tableau Server 2020.1.

Si está intentando recuperar un nodo que ha fallado de una versión anterior de Tableau Server, debe seguir el procedimiento de esa versión. Para ver las versiones archivadas de la ayuda de Tableau, consulte Ayuda de Tableau(El enlace se abre en una ventana nueva).

  • Hay al menos un nodo en funcionamiento con una instancia del almacén de archivos.
  • Hay al menos un nodo en funcionamiento con un repositorio.
  • Hay al menos un nodo en funcionamiento con el servicio de archivo de cliente incluido.

Nota: Esta operación está formada por pasos que tal vez deba seguir con la línea de comandos de TSM. Para usar la interfaz de línea de comandos de TSM, necesita acceso de administrador a la línea de comandos en uno de los nodos de su instalación y las credenciales de administrador de TSM para ejecutar comandos de TSM.

Eliminar un nodo con fallos

Para eliminar un nodo con fallos de un clúster de Tableau Server:

  1. Identifique el nodo fallido:

    tsm status -v

    El nodo fallido tendrá el estado "ERROR" y los procesos se mostrarán como no disponibles. El ID de nodo se muestra como "node<n>", con el nombre de la máquina a continuación. Por ejemplo, node3:

    node3: WIN-OO915SFASVH
    						Status: ERROR
    					'Tableau Server Gateway 0' status is unavailable.
  2. Detenga Tableau Server.

    El resto de este procedimiento incluye algunos comandos con la opción --ignore-node-status. Cuando se ejecuta un comando con la opción --ignore-node-status, el comando se ejecutará sin tener en cuenta el estado del nodo especificado. Para usar --ignore-node-status, especifique el nodo fallido:

    tsm stop --ignore-node-status <nodeID>

    Por ejemplo, si el nodo 3 ha fallado, ejecute el comando de la siguiente manera:

    tsm stop --ignore-node-status node3
  3. Determine cualquier proceso clave que se estuviera ejecutando en el nodo:

    • Si el nodo con error estaba ejecutando la del Servicio de mensajería, debe eliminar el servicio del nodo con error y agregarlo a un nodo de trabajo.

      Eliminarlo del nodo que ha fallado:

      tsm topology set-process -pr activemqserver -n <nodeID> -c 0
      

      Añadirlo a un nodo de trabajo:

      tsm topology set-process -pr activemqserver -n <nodeID> -c 1
    • Si el nodo fallido estaba ejecutando el Servicio de coordinación, debe implementar un nuevo conjunto antes de poder eliminar el nodo.

      tsm topology deploy-coordination-service -n <good_nodeID> --ignore-node-status <failed_nodeID>
      
    • Si el nodo erróneo ejecutaba la única instancia del Servicio de archivos de cliente (CFS), tendrá que configurar una nueva instancia del CFS en un nodo que funcione correctamente. Se recomienda configurar CFS en todos los nodos que ejecutan el Servicio de coordinación. Para conocer los pasos que debe seguir, consulte Configurar el servicio de archivo al cliente.

    • Si el nodo fallido estaba ejecutando el almacén de archivos, debe forzar la retirada del almacén de archivos y eliminarlo antes de poder eliminar el nodo.

      tsm topology filestore decommission -n <nodeID> --delete-filestore

      Aplique los cambios pendientes (utilice la opción --ignore-warnings si tenía un clúster de tres nodos y una única instancia del Servicio de coordinación):

      tsm pending-changes apply --ignore-warnings --ignore-node-status <nodeID>
  4. Si el clúster era de tres nodos y hay repositorios en los nodos de trabajo restantes, debe eliminar un repositorio o bien agregar un nuevo nodo. El motivo es que está limitado a una única instancia del repositorio cuando tiene menos de tres nodos.

    Para eliminar un repositorio:

    tsm topology set-process -n <nodeID> -pr pgsql -c 0
  5. Ejecute el comando para eliminar el nodo fallido. El cambio se añade a la lista de cambios pendientes:

    tsm topology remove-nodes -n <nodeID>
  6. Compruebe que la eliminación del nodo está pendiente:

    tsm pending-changes list
  7. Aplique los cambios pendientes para eliminar el nodo:

    tsm pending-changes apply 
  8. Inicie Tableau Server:

    tsm start
  9. Instale Tableau Server en un nuevo nodo y configure este con los procesos que el nodo fallido estaba ejecutando.

  10. En un equipo nuevo, o en el equipo original después de haber eliminado completamente Tableau, instale Tableau usando el programa de instalación original y un archivo de arranque generado desde el nodo inicial. Para obtener más información sobre esta operación, consulte Instalar y configurar nodos adicionales.

    Una práctica recomendada es configurar los procesos perdidos cuando falló el nodo original para asegurarse de que el clúster sea completamente redundante.

  11. También debería reimplementar un nuevo conjunto del Servicio de coordinación una vez que los nodos se estén ejecutando como desea. Para obtener más información, consulte Implementar un conjunto de Servicio de coordinación..

  12. Por último, si aún no lo ha hecho, agregue una instancia de CFS a cada nodo que ejecute el Servicio de coordinación. Para obtener más información, consulte Configurar el servicio de archivo al cliente.Configurar el servicio de archivo al cliente