Amazon EMR Hadoop Hive

Cet article décrit comment connecter Tableau à une base de données Amazon EMR (Elastic MapReduce) Hadoop Hive et à configurer la source de données.

Remarque : depuis la version 2018.2, Tableau prend en charge Amazon EMR Hadoop Hive uniquement, et non Impala. Amazon ne fournit plus de pilotes Impala.

Avant de commencer

Avant de commencer, rassemblez les informations de connexion suivantes :

  • Nom du serveur qui héberge la base de données à laquelle vous souhaitez vous connecter et numéro de port

  • Méthode d’authentification :

    • Pas d’authentification

    • Kerberos

    • Nom d’utilisateur

    • Nom d’utilisateur et mot de passe

    • Microsoft Azure HDInsight Service (à compter de la version 10.2.1)

  • Les options de transport dépendent de la méthode d’authentification que vous choisissez et peuvent inclure les éléments suivants :

    • Binaire

    • SASL

    • HTTP

  • Les informations d’identification pour la connexion dépendent de la méthode d’authentification que vous choisissez et peuvent inclure les éléments suivants :

    • Nom d’utilisateur

    • Mot de passe

    • Domaine

    • Hôte FQDN

    • Nom de service

    • Chemin d’accès HTTP

  • Vous vous connectez à un serveur SSL?

  • (Facultatif) Expression SQL initial à exécuter à chaque connexion de Tableau

Pilote requis

Ce connecteur nécessite un pilote pour communiquer avec la base de données. Si le pilote n’est pas installé sur votre ordinateur, Tableau affiche une message d’erreur dans la boîte de dialogue de connexion avec un lien vers la page Téléchargement de pilotes(Le lien s’ouvre dans une nouvelle fenêtre) où vous trouverez des liens vers les pilotes et des instructions d’installation.

Remarque : assurez-vous d’utiliser les pilotes disponibles les plus récents. Pour obtenir les pilotes les plus récents, consultez Amazon EMR Hadoop Hive(Le lien s’ouvre dans une nouvelle fenêtre) dans la page de téléchargement des pilotes Tableau.

Établir la connexion et configurer la source des données

  1. Démarrez Tableau et sous Connexion, sélectionnez Amazon EMR Hadoop Hive. Pour obtenir la liste complète des connexions de données, sélectionnez Plus sous Vers un serveur. Effectuez ensuite l’action suivante :

    1. Entrez le nom du serveur qui héberge la base de données et le numéro du port à utiliser.

    2. Dans la liste déroulante Authentification, sélectionnez la méthode d’authentification à utiliser. Les informations qui vous sont demandées dépendent de la méthode d’authentification que vous choisissez.

    3. Dans la liste déroulante Transport, sélectionnez le type de transport à utiliser.

    4. (Facultatif) Sélectionnez SQL initial pour spécifier une commande SQL à exécuter au début de chaque connexion, par exemple lors de l’ouverture du classeur, de l’actualisation d’un extrait, de la connexion à Tableau Server ou de la publication sur Tableau Server. Pour plus d’informations, consultez Exécuter SQL initial.

    5. Sélectionnez Se connecter.

      Cochez la case Nécessite SSL lors de la connexion à un serveur SSL.

      Si Tableau ne parvient pas à établir la connexion, vérifiez que vos informations d’identification sont correctes. Si la connexion n’aboutit toujours pas, cela signifie que votre ordinateur ne parvient pas à localiser le serveur. Contactez votre administrateur réseau ou votre administrateur de base de données.

  2. Sur la page Source de données, procédez comme suit : 

    1. (Facultatif) Sélectionnez le nom de la source de données par défaut en haut de la page, puis tapez un nom de source de données unique pour l’utiliser dans Tableau. Par exemple, utilisez une convention pertinente d’appellation de la source de données qui aide d’autres utilisateurs de la source de données à déduire à quelle source de données se connecter.

    2. Dans la liste déroulante Schéma, sélectionnez l’icône de recherche ou saisissez le nom du schéma dans la zone de texte et sélectionnez l’icône de recherche, puis sélectionnez le schéma.

    3. Dans la zone de texte Table, sélectionnez l’icône de recherche ou saisissez le nom de la table et cliquez sur l’icône de recherche, puis sélectionnez la table.

    4. Faites glisser la table vers l’espace de travail, puis sélectionnez l’onglet de la feuille pour démarrer votre analyse.

    5. Utilisez SQL personnalisé pour vous connecter à une requête spécifique plutôt qu’à la source de données entière. Pour plus d’informations, consultez Se connecter à une requête SQL personnalisée.

Connexion sur un Mac

Si vous utilisez Tableau Desktop sur un Mac, lorsque vous entrez le nom du serveur auquel vous connecter, utilisez un nom de domaine qualifié complet, par exemple mydb.test.ourdomain.lan, plutôt qu’un nom de domaine relatif tel que mydb ou mydb.test.

Vous pouvez sinon ajouter le domaine à la liste des Domaines de recherche pour l’ordinateur Mac. De cette manière, lorsque vous vous connectez, vous n’avez qu’à fournir le nom du serveur. Pour actualiser la liste des domaines de recherche, accédez à Préférences Système > Réseau > Avancé, puis ouvrez l’onglet DNS.

Travailler avec des données Hadoop Hive

Travailler avec les données date/heure

Tableau prend en charge les types TIMESTAMP et DATE de manière native. Par contre, si vous stockez des données de date/heure sous forme de chaîne dans Hive, veillez à les stocker au format ISO (YYYY-MM-DD). Vous pouvez créer un champ calculé utilisant la fonction DATEPARSE ou DATE pour convertir une chaîne en un format date/heure. Utilisez DATEPARSE() lorsque vous travaillez avec un extrait, sinon utilisez DATE(). Pour plus d’informations, consultez Fonctions de date.

Pour plus d’informations sur les types de données Hive, consultez Dates(Le lien s’ouvre dans une nouvelle fenêtre) sur le site Web d’Apache Hive.

Valeur NULL retournée

Une valeur NULL est retournée lorsque vous ouvrez un classeur dans Tableau 9.0.1 et versions ultérieures et 8.3.5 et versions 8.3.x ultérieures qui a été créé dans une version antérieure et où les données de date/heure sont stockées sous forme de chaîne dans un format non pris en charge par Hive. Pour résoudre ce problème, modifiez le type de champ sur Chaîne et créez un champ calculé à l’aide de DATEPARSE() ou DATE() pour convertir la date. Utilisez DATEPARSE() lorsque vous travaillez avec un extrait, sinon utilisez la fonction DATE().

Limitation haute latence

Hive est un système qui fonctionne par lots. Il n’est pas encore capable de répondre à de simples requêtes en apportant des réponses rapidement. Cette limite peut rendre difficile l’exploration d’un nouvel ensemble de données ou l’utilisation de champs calculés. Certaines des technologies SQL-sur-Hadoop les plus récentes (par exemple, Impala de Cloudera ou le projet Stringer de Hortonworks) sont conçues pour résoudre cette limitation.

 

Voir également

Merci de vos commentaires!Votre commentaire s été envoyé avec succès. Merci!