Cloudera Hadoop

Cet article décrit comment connecter Tableau à une base de données Cloudera Hadoop et configurer la source de données.

Remarque : pour les nouvelles connexions aux bases de données Impala, utilisez connecteur Impala plutôt que celui-ci. (Vous pouvez continuer à utiliser ce connecteur pour les connexions existantes.)

Avant de commencer

Avant de démarrer, rassemblez les informations de connexion suivantes :

  • Nom du serveur qui héberge la base de données à laquelle vous souhaitez vous connecter et numéro de port

  • Type de base de données : Hive Server 2 ou Impala

  • Méthode d’authentification :

    • Pas d’authentification

    • Kerberos

      Remarque : en raison des restrictions du contrôleur de domaine Kerberos (KDC), la connexion avec MIT Kerberos n’est pas prise en charge.

    • Nom d’utilisateur

    • Nom d’utilisateur et mot de passe

    • Microsoft Azure HDInsight Service (à compter de la version 10.2.1)

  • Les options de transport dépendent de la méthode d’authentification que vous choisissez et peuvent inclure les éléments suivants :

    • Binaire

    • SASL

    • HTTP

  • Les informations d’identification pour la connexion dépendent de la méthode d’authentification que vous choisissez et peuvent inclure les éléments suivants :

    • Nom d’utilisateur

    • Mot de passe

    • Domaine

    • Hôte FQDN

    • Nom de service

    • Chemin d’accès HTTP

  • Vous vous connectez à un serveur SSL ?

  • (Facultatif) Expression SQL initial à exécuter à chaque connexion de Tableau

Pilote requis

Ce connecteur nécessite un pilote pour communiquer avec la base de données. Il se peut que le pilote requis soit déjà installé sur votre ordinateur. Si le pilote n’est pas installé sur votre ordinateur, Tableau affiche une message d’erreur dans la boîte de dialogue de connexion avec un lien vers la page Téléchargement de pilotes(Le lien s’ouvre dans une nouvelle fenêtre) où vous trouverez des liens vers les pilotes et des instructions d’installation.

Remarque : assurez-vous d’utiliser les pilotes disponibles les plus récents. Pour obtenir les pilotes les plus récents, consultez Cloudera Hadoop(Le lien s’ouvre dans une nouvelle fenêtre) sur la page de téléchargement des pilotes Tableau.

Établir la connexion et configurer la source des données

  1. Démarrez Tableau et sous Connexion, sélectionnez Cloudera Hadoop. Pour obtenir la liste complète des connexions de données, sélectionnez Plus sous Vers un serveur. Effectuez ensuite l’action suivante :

    1. Entrez le nom du serveur qui héberge la base de données et le numéro du port à utiliser. Si vous vous connectez à l’aide de Cloudera Impala, utilisez le port 21050, qui est le port par défaut si vous utilisez le pilote 2.5.x (recommandé).

    2. Dans la liste déroulante Type , sélectionnez le type de base de données à laquelle vous connecter. En fonction de la version de Hadoop et des pilotes installés, vous pouvez vous connecter à l’aide d’une des méthodes suivantes :

      • Hive Server 2

      • Impala

    3. Dans la liste déroulante Authentification, sélectionnez la méthode d’authentification à utiliser.

    4. Entrez les informations demandées. Les informations qui vous sont demandées dépendent de la méthode d’authentification que vous choisissez.

    5. (Facultatif) Sélectionnez SQL initial pour spécifier une commande SQL à exécuter au début de chaque connexion, par exemple lors de l’ouverture du classeur, de l’actualisation d’un extrait, de la connexion à Tableau Server ou de la publication sur Tableau Server. Pour plus d’informations, consultez Exécuter SQL initial.

    6. Sélectionnez Connexion.

      Cochez la case Nécessite SSL lors de la connexion à un serveur SSL.

      Si Tableau ne parvient pas à établir la connexion, vérifiez que vos informations d’identification sont correctes. Si la connexion n’aboutit toujours pas, cela signifie que votre ordinateur ne parvient pas à localiser le serveur. Contactez votre administrateur réseau ou votre administrateur de base de données.

  2. Sur la page de la source de données, procédez comme suit : 

    1. (Facultatif) Sélectionnez le nom de la source de données par défaut en haut de la page, puis tapez un nom de source de données unique pour l’utiliser dans Tableau. Par exemple, utilisez une convention pertinente d’appellation de la source de données qui aide d’autres utilisateurs de la source de données à déduire à quelle source de données se connecter.

    2. Dans la liste déroulante Schéma, sélectionnez l’icône de recherche ou saisissez le nom du schéma dans la zone de texte et sélectionnez l’icône de recherche, puis sélectionnez le schéma.

    3. Dans la zone de texte Table, sélectionnez l’icône de recherche ou saisissez le nom de la table et sélectionnez l’icône de recherche, puis sélectionnez la table.

    4. Faites glisser la table vers l’espace de travail, puis sélectionnez l’onglet de la feuille pour démarrer votre analyse.

      Utilisez SQL personnalisé pour vous connecter à une requête spécifique plutôt qu’à la source de données entière. Pour plus d’informations, voir Se connecter à une requête SQL personnalisée.

      Remarque : ce type de base de données prend uniquement en charge les opérations de jointure de type Égal à (=).

Connexion sur un Mac

Si vous utilisez Tableau Desktop sur un Mac, lorsque vous entrez le nom du serveur auquel vous connecter, utilisez un nom de domaine qualifié complet, par exemple mydb.test.ourdomain.lan, plutôt qu’un nom de domaine relatif tel que mydb ou mydb.test.

Vous pouvez sinon ajouter le domaine à la liste des Domaines de recherche pour l’ordinateur Mac. De cette manière, lorsque vous vous connectez, vous n’avez qu’à fournir le nom du serveur. Pour actualiser la liste des domaines de recherche, accédez à Préférences Système > Réseau > Avancé, puis ouvrez l’onglet DNS.

Travailler avec des données Hadoop Hive

Travailler avec les données date/heure

Tableau prend en charge les types TIMESTAMP et DATE de manière native. Par contre, si vous stockez des données de date/heure sous forme de chaîne dans Hive, veillez à les stocker au format ISO (YYYY-MM-DD). Vous pouvez créer un champ calculé utilisant la fonction DATEPARSE ou DATE pour convertir une chaîne en un format date/heure. Utilisez DATEPARSE() lorsque vous travaillez avec un extrait, sinon utilisez DATE(). Pour plus d’informations, consultez Fonctions de date.

Pour plus d’informations sur les types de données Hive, consultez Dates(Le lien s’ouvre dans une nouvelle fenêtre) sur le site Web d’Apache Hive.

Valeur NULL retournée

Une valeur NULL est retournée lorsque vous ouvrez un classeur dans Tableau 9.0.1 et versions ultérieures et 8.3.5 et versions 8.3.x ultérieures qui a été créé dans une version antérieure et où les données de date/heure sont stockées sous forme de chaîne dans un format non pris en charge par Hive. Pour résoudre ce problème, modifiez le type de champ sur Chaîne et créez un champ calculé à l’aide de DATEPARSE() ou DATE() pour convertir la date. Utilisez DATEPARSE() lorsque vous travaillez avec un extrait, sinon utilisez la fonction DATE().

Limitation haute latence

Hive est un système qui fonctionne par lots. Il n’est pas encore capable de répondre à de simples requêtes en apportant des réponses rapidement. Cette limite peut rendre difficile l’exploration d’un nouvel ensemble de données ou l’utilisation de champs calculés. Certaines des technologies SQL-sur-Hadoop les plus récentes (par exemple, Impala de Cloudera ou le projet Stringer de Hortonworks) sont conçues pour résoudre cette limitation.

Voir également

Merci de vos commentaires !Avis correctement envoyé. Merci