Recuperación a partir de un error de un nodo inicial

El primer equipo en el que instale Tableau, el "nodo inicial", tiene algunas características exclusivas. Tres procesos se ejecutan solo en el nodo inicial y no se pueden mover a cualquier otro nodo, excepto en un contexto de error, el Servicio de licencias (Administrador de licencias), el Servicio de activación y el Controlador de TSM (Controlador de administración). Tableau incluye un script que automatiza el traslado de estos procesos a uno de sus otros nodos existentes, de forma que pueda lograr acceso completo de nuevo a TSM y seguir ejecutando Tableau Server.

Se incluyen inicialmente otros dos procesos en el nodo inicial, pero se pueden añadir o mover a otros nodos, el CFS (Servicio de archivo de clientes) y el Servicio de coordinación. En función del método de configuración de CFS y Coordination Service, es posible que también tenga que tomar medidas para volver a implementar estas soluciones.

Si falla un nodo inicial

Si hay un problema en el nodo inicial y tiene procesos redundantes en los demás nodos, no hay garantía de que Tableau Server pueda seguir ejecutándose. Tableau Server puede continuar ejecutándose hasta 72 horas después de un error inicial del nodo, antes de que la falta del servicio de licencias afecte a otros procesos. Si es así, los usuarios podrán seguir iniciando sesión y ver su contenido después del fallo del nodo inicial, pero no podrán reconfigurar Tableau Server porque no tiene acceso al Controlador de administración.

Incluso cuando se configura con procesos redundantes, es posible que Tableau Server no continúe funcionando después de que falle el nodo inicial. Esto es cierto incluso cuando una instalación está configurada con alta disponibilidad. Esto significa que debería pensar en mover los dos procesos únicos a otro de los nodos en ejecución cuanto antes. Si el nodo inicial produce errores por motivos que permiten la recuperación en una cantidad de tiempo relativamente breve (por ejemplo, un error de hardware que puede corregir), primero deberá intentar volver a poner el nodo en funcionamiento sin usar el procedimiento siguiente.

Nota: los pasos descritos en este artículo requieren un tiempo de inactividad del servidor y pueden ser producir interrupciones, por lo que solo deben emplearse en caso de error grave en el nodo inicial. Si no puede volver a poner en funcionamiento el nodo inicial, siga este procedimiento para mover los procesos clave de TSM a otro nodo del clúster.

Requisitos generales

La versión 2021.1 de Tableau Server se ha actualizado con una funcionalidad de recuperación mejorada. El procedimiento descrito en este tema está pensado para Tableau Server 2021.1.

Si está intentando recuperar un nodo que ha fallado de una versión anterior de Tableau Server, debe seguir el procedimiento de esa versión. Para ver las versiones archivadas de la ayuda en línea de Tableau, consulte Ayuda de Tableau(El enlace se abre en una ventana nueva).

  • Como parte del proceso de configuración de una instalación distribuida de Tableau Server, debería haber implementado un conjunto de servicio de coordinación. En el siguiente proceso se da por hecho que había un conjunto de servicio de coordinación implementado antes de que se produjera un problema con el nodo inicial. Para obtener más información sobre cómo implementar un conjunto de servicio de coordinación, consulte Implementar un conjunto de Servicio de coordinación..
  • Este proceso supone que ha configurado instancias de Servicio de archivos de cliente (CFS) en cada nodo que ejecuta el Servicio de coordinación. Si no a agrega instancias adicionales de CFS, la única instancia estaba en el nodo inicial y tendrá que agregar al menos una instancia de CFS a otro nodo. También deberá volver a rellenar CFS. Tableau Server requiere al menos una instancia del CFS. Para obtener más información, consulte Configurar el servicio de archivo al cliente y el Servicio de archivo de cliente de Tableau Server.

Nota: Esta operación está formada por pasos que tal vez deba seguir con la línea de comandos de TSM.

Mover el controlador de TSM, el servicio de licencias y el servicio de activación a otro nodo

Si se produce un problema con el nodo inicial, el controlador de TSM, el servicio de licencias y el servicio de activación se deben iniciar en otro nodo. Siga estos pasos para usar el script move-tsm-controller proporcionado y para que el controlador de TSM, el servicio de licencias y el servicio de activación se utilicen en otro nodo.

  1. Ejecute el script de recuperación del controlador en un nodo que siga funcionando. Escriba el siguiente comando en la línea de terminal de un nodo operativo:

    sudo /opt/tableau/tableau_server/packages/scripts.<version_code>/move-tsm-controller -n <nodeID>

    donde "nodeID" es el ID del nodo en el que desea que se ejecute el controlador de TSM. Por ejemplo:

    sudo /opt/tableau/tableau_server/packages/scripts.10400.17.0802.1319/move-tsm-controller -n node2

  2. Compruebe que el Controlador de administración se esté ejecutando en el nodo:

    tsm status -v

  3. Detenga Tableau Server.

    El resto de este procedimiento incluye algunos comandos con la opción --ignore-node-status. Cuando se ejecuta un comando con la opción --ignore-node-status, el comando se ejecutará sin tener en cuenta el estado del nodo especificado. Para usar --ignore-node-status, especifique el nodo fallido:

    tsm stop --ignore-node-status <nodeID>

    Por ejemplo, si el nodo 1 ha fallado, ejecute el comando de la siguiente manera:

    tsm stop --ignore-node-status node1

  4. Añada el servicio de licencias al nodo:

    tsm topology set-process -pr licenseservice -n <nodeID> -c 1

  5. Quite del nodo original el servicio de licencias anterior, donde "nodeID" es el nodo inicial en el que se ha producido el error:

    tsm topology set-process -pr licenseservice -n <nodeID> -c 0

  6. Si usa ATR del servidor, agregue el servicio de activación al nodo:

    tsm topology set-process -pr activationservice -n <nodeID> -c 1

  7. Si usa ATR del servidor, quite del nodo original el servicio de activación anterior, donde "nodeID" es el nodo inicial en el que se ha producido el error:

    tsm topology set-process -pr activationservice -n <nodeID> -c 0

    Importante:En un clúster, si falla un nodo que está ejecutando su única instancia de CFS, se perderán todos los archivos administrados por CFS, y deberá volver a llenar esos archivos CFS mediante la reimportación de certificados e imágenes personalizadas, además de realizar los cambios de configuración relacionados. Para obtener una lista de archivos administrados por CFS, consulte Servicio de archivo de cliente de Tableau Server.

  8. Si el nodo inicial ejecutaba el servicio de mensajería , añada el servicio de mensajería a este nodo:

    tsm topology set-process -pr activemqserver -n node2 -c 1

  9. (Opcional) También puede añadir otros procesos que se hayan estado ejecutando en el nodo inicial pero que no se ejecutan en este nodo. Por ejemplo, para añadir un servidor de caché:

    tsm topology set-process -pr cacheserver -n node2 -c 1

  10. Aplique los cambios:

    tsm pending-changes apply --ignore-node-status <nodeID>

    Si los cambios pendientes requieren un reinicio del servidor, el comando pending-changes apply mostrará un mensaje para informarle de que se producirá un reinicio. Este mensaje aparece aunque el servidor esté detenido, pero en ese caso no se reiniciará. Puede suprimir el mensaje con la opción --ignore-prompt, pero no se modificará el comportamiento de reinicio. Si los cambios no requieren un reinicio, se aplicarán sin ningún mensaje. Para obtener más información, consulte tsm pending-changes apply.

  11. Reinicie el controlador de administración de TSM (con la cuenta del sistema tableau):

    sudo su -l tableau -c "systemctl --user restart tabadmincontroller_0.service"

    Nota: puede que tabadmincontroller tarde unos minutos en reiniciarse. Si intenta aplicar los cambios pendientes en el paso siguiente antes de que se haya reiniciado por completo el controlador, TSM no podrá conectarse al controlador. Puede comprobar que el controlador se está ejecutando utilizando el comando tsm status -v. En el controlador de administración de Tableau Server debe aparecer "Se está ejecutando".

  12. Aplique los cambios pendientes (tal vez no aparezca ninguno, pero este paso es necesario):

    tsm pending-changes apply --ignore-node-status <nodeID>

  13. Active la licencia de Tableau Server en el nuevo nodo del controlador:

    tsm licenses activate -k <product-key>

  14. Compruebe que la licencia se ha activado correctamente:

    tsm licenses list

  15. Si el nodo inicial ejecutaba el servicio de coordinación, tiene que implementar un nuevo conjunto de servicio de coordinación que no incluya ese nodo. Si tiene un clúster de tres nodos y el nodo inicial ejecutaba el servicio de coordinación, debe implementar, en otro nodo, un nuevo conjunto de este servicio de una sola instancia y limpiar el conjunto anterior. En este ejemplo, se implementa una sola instancia del servicio de coordinación en el segundo nodo:

    tsm topology deploy-coordination-service -n node2 --ignore-node-status node1

  16. Si el nodo inicial ejecutaba una instancia de almacén de archivos, tiene que quitarla:

    tsm topology filestore decommission -n <nodeID> --delete-filestore

    Donde nodeID es el nodo inicial en el que se ha producido el error.

  17. Aplique los cambios pendientes usando la opción --ignore-warnings si el nuevo conjunto de servicio de coordinación que implementó anteriormente es un conjunto de nodo único:

    tsm pending-changes apply --ignore-node-status node1 --ignore-warnings

  18. Elimine el nodo inicial, donde nodeID es el nodo inicial en el que se ha producido el error:

    tsm topology remove-nodes -n <nodeID>

  19. Aplique los cambios pendientes usando la opción --ignore-warnings si el nuevo conjunto de servicio de coordinación que implementó anteriormente es un conjunto de nodo único:

    tsm pending-changes apply --ignore-warnings

  20. Inicie Tableau Server:

    tsm start

    En este momento, el servidor debería iniciarse y ya sería capaz de usar TSM para configurarlo. El paso siguiente es reemplazar el nodo inicial para que el clúster tenga el número original de nodos. El modo de realizar esta operación depende de si desea reutilizar el nodo que falló. Se recomienda reutilizar este nodo únicamente si es capaz de identificar el motivo del fallo y toma medidas para que no vuelva a ocurrir.

  21. Si tiene pensado reutilizar el nodo original, primero deberá eliminar Tableau completamente en él. Para ello, ejecute el script tableau-server-obliterate. Para obtener más información, consulte Eliminar Tableau Server del equipo.

  22. En un equipo nuevo, o en el equipo original después de haber eliminado completamente Tableau, instale Tableau usando el programa de instalación original y un archivo de arranque generado desde el nodo que ejecute ahora el Servicio de licencias y controlador de administración. Esto crea un nodo adicional que puede configurar como parte de su clúster. Para obtener más información sobre cómo añadir el nodo, consulte Instalar y configurar nodos adicionales.

    Una práctica recomendada es configurar los procesos perdidos cuando falló el nodo original para asegurarse de que el clúster sea completamente redundante. Es probable que desee mover procesos desde el nuevo nodo inicial al nodo adicional añadido recientemente para duplicar la configuración original. Por ejemplo, si el nodo inicial solo estaba ejecutando la puerta de enlace y el almacén de archivos, debería configurar el nuevo nodo inicial del mismo modo.

  23. También debería reimplementar un nuevo conjunto del Servicio de coordinación una vez que los nodos se estén ejecutando como desea. Para obtener más información, consulte Implementar un conjunto de Servicio de coordinación..

  24. Por último, si aún no lo ha hecho, agregue una instancia de CFS a cada nodo que ejecute el Servicio de coordinación. Para obtener más información, consulte Configurar el servicio de archivo al cliente.Configurar el servicio de archivo al cliente

    En un clúster, si falla un nodo que está ejecutando su única instancia de CFS, se perderán todos los archivos administrados por CFS, y deberá volver a llenar esos archivos CFS mediante la reimportación de certificados e imágenes personalizadas, además de realizar los cambios de configuración relacionados.Para obtener una lista de archivos administrados por CFS, consulte Servicio de archivo de cliente de Tableau Server.

 

¡Gracias por sus comentarios!