Amazon EMR Hadoop Hive

En este artículo se describe cómo conectar Tableau a una base de datos de Amazon EMR (Elastic MapReduce) Hadoop Hive y cómo configurar la fuente de datos.

Nota: A partir de la versión 2018.2, Tableau admite solo Amazon EMR Hadoop Hive, pero no Impala. Amazon ya no proporciona los controladores de Impala.

Antes de empezar

Antes de empezar, recopile esta información de conexión:

  • Nombre del servidor donde se hospeda la base de datos a la que desea conectarse y número de puerto

  • Método de autenticación:

    • Sin autenticación

    • Kerberos

    • Nombre de usuario

    • Nombre de usuario y contraseña

    • Microsoft Azure HDInsight Service (a partir de la versión 10.2.1)

  • Las opciones de transporte dependen del método de autenticación que elija y pueden incluir los datos siguientes:

    • Binario

    • SASL

    • HTTP

  • Las credenciales de inicio de sesión dependen del método de autenticación que elija y pueden incluir los datos siguientes:

    • Nombre de usuario

    • Contraseña

    • Dominio

    • FQDN de host

    • Nombre del servicio

    • Ruta HTTP

  • ¿Va a conectarse a un servidor SSL?

  • (Opcional) La instrucción SQL inicial se ejecuta cada vez que Tableau se conecta

Controlador necesario

Este conector necesita un controlador para comunicarse con la base de datos. Es posible que ya tenga el controlador necesario instalado en el equipo. Si el controlador no está instalado en el equipo, Tableau muestra un mensaje en el cuadro de diálogo de conexión con un enlace a la página Descarga de controladores(El enlace se abre en una ventana nueva), donde podrá encontrar enlaces de controladores e instrucciones de instalación.

Nota: Asegúrese de que utiliza los controladores más recientes. Para obtener los controladores más recientes, consulte Amazon EMR Hadoop Hive(El enlace se abre en una ventana nueva) en la página de descarga de controladores de Tableau.

Establecer la conexión y configurar la fuente de datos

  1. Inicie Tableau y, en Conectar, seleccione Amazon EMR Hadoop Hive. Para ver una lista completa de conexiones de datos, seleccione Más en A un servidor. A continuación, siga estos pasos:

    1. Escriba el nombre del servidor que hospeda la base de datos y el número de puerto que desea usar.

    2. En la lista desplegable Autenticación, seleccione el método de autenticación que quiera utilizar. La información que se le pedirá depende del método de autenticación que elija.

    3. Si la lista desplegable Transporte está disponible, seleccione el tipo de transporte que desea usar.

    4. (Opcional) Seleccione SQL inicial para especificar que se ejecute un comando SQL al inicio de cada conexión, por ejemplo, al abrir el libro de trabajo, actualizar un extracto, iniciar sesión en Tableau Server o publicar en Tableau Server. Para obtener más información, consulte Ejecutar SQL inicial

    5. Seleccione Iniciar sesión.

      Seleccione la opción Requerir SSL al conectarse a un servidor SSL.

      Si Tableau no puede establecer la conexión, compruebe que las credenciales sean correctas. Si sigue sin poder conectar, su equipo tiene problemas para encontrar el servidor. Póngase en contacto con el administrador de red o con el administrador de la base de datos.

  2. En la página de la fuente de datos, haga lo siguiente: 

    1. (Opcional) Seleccione el nombre predeterminado de la fuente de datos en la parte superior de la página y luego escriba un nombre único para su uso en Tableau. Por ejemplo, utilice una nomenclatura de fuente de datos que ayude a que los demás usuarios de la fuente de datos puedan deducir a qué fuente de datos deben conectarse.

    2. En la lista desplegable Esquema, seleccione el icono de búsqueda o bien escriba el nombre del esquema en el cuadro de texto, seleccione el icono de búsqueda y, luego, seleccione el esquema.

    3. En el cuadro de texto Tabla, seleccione el icono de búsqueda, o bien escriba el nombre de la tabla, seleccione el icono de búsqueda y, luego, seleccione la tabla.

    4. Arrastre la tabla al lienzo y, a continuación, seleccione la pestaña de la hoja para iniciar el análisis.

    5. Use SQL personalizado para conectarse a una consulta específica, en lugar de conectarse a toda la fuente de datos. Para obtener más información, consulte Conectarse a una consulta de SQL personalizada.

Iniciar sesión en un equipo Mac

Al usar Tableau Desktop en un Mac, cuando especifique el nombre de servidor para conectarse, use un nombre de dominio completamente calificado, como por ejemplo, mydb.test.ourdomain.lan, en lugar de un nombre de dominio relativo, como por ejemplo, mydb o mydb.test.

Como alternativa, puede añadir el dominio a la lista de dominios de búsqueda del equipo Mac para que, cuando se conecte, solo tenga que proporcionar el nombre del servidor. Para actualizar la lista de dominios de búsqueda, vaya a Preferencias del sistema > Red > Avanzada y, a continuación, abra la pestaña DNS.

Trabajar con datos de Hadoop Hive

Trabajar con fecha/hora

Tableau admite los tipos TIMESTAMP y DATE de forma nativa. Sin embargo, si almacena datos de fecha y hora en Hive en forma de cadena, asegúrese de almacenarlos con el formato ISO (AAAA-MM-DD). Puede crear un campo calculado que utilice la función DATEPARSE o DATE para convertir una cadena a un formato de fecha y hora. Utilice DATEPARSE() cuando trabaje con un extracto; si no, utilice DATE(). Para obtener más información, consulte Funciones de fecha.

Para obtener más información sobre los tipos de datos de Hive, consulte Dates(El enlace se abre en una ventana nueva) (Fechas) en el sitio web de Apache Hive.

Valor NULL devuelto

Se devuelve un valor NULL al abrir un libro de trabajo en Tableau 9.0.1 y versiones posteriores, así como en la versión 8.3.5 y 8.3.x posteriores, que se creó en una versión anterior y contiene datos de fecha y hora almacenados como una cadena con un formato no compatible con Hive. Para solucionar este problema, vuelva a cambiar el tipo de campo a Cadena y cree un campo calculado mediante DATEPARSE() o DATE() para convertir la fecha. Utilice DATEPARSE() cuando trabaje con un extracto; si no, utilice la función DATE().

Limitación de la alta latencia

Hive es un sistema orientado a lotes y aún no puede responder a consultas sencillas en un tiempo de respuesta breve. Esta limitación puede dificultar la exploración de un nuevo conjunto de datos o la experimentación con campos calculados. Algunas de las nuevas tecnologías de SQL en Hadoop (como el proyecto Impala de Cloudera o el proyecto Stringer de Hortonworks) están diseñadas para tratar esta limitación.

 

Consulte también

¡Gracias por sus comentarios!