Cloudera Hadoop

In diesem Artikel werden das Herstellen einer Verbindung zwischen Tableau und einer Cloudera Hadoop-Datenbank und das Einrichten der Datenquelle beschrieben.

Hinweis: Verwenden Sie für neue Verbindungen zu Impala-Datenbanken stattdessen den Impala-Connector. (Sie können diesen Connector weiterhin für vorhandene Verbindungen verwenden.)

Voraussetzungen

Stellen Sie zunächst diese Verbindungsinformationen zusammen:

  • Name des Servers, auf dem die Datenbank gehostet wird, zu der Sie eine Verbindung herstellen möchten, und die Portnummer

  • Typ der Datenbank:Hive Server 2 oder Impala

  • Authentifizierungsmethode:

    • Keine Authentifizierung

    • Kerberos

      Hinweis: Aufgrund von KDC-Einschränkungen (Kerberos Domain Controller) wird die Verbindung mit MIT Kerberos nicht unterstützt.

    • Benutzername

    • Benutzername und Kennwort

    • Microsoft Azure HDInsight-Dienst (ab Version 10.2.1)

  • Die Transportoptionen sind abhängig von der ausgewählten Authentifizierungsmethode und können Folgendes umfassen:

    • Binär

    • SASL

    • HTTP

  • Die Anmeldedaten sind abhängig von der ausgewählten Authentifizierungsmethode und können Folgendes umfassen:

    • Benutzername

    • Kennwort

    • Bereich

    • Host-FQDN

    • Dienstname

    • HTTP-Pfad

  • Soll eine Verbindung zu einem SSL-Server hergestellt werden?

  • (Optional) Erste SQL-Anweisung, die jedes Mal ausgeführt wird, wenn Tableau eine Verbindung herstellt

Treiber erforderlich

Damit dieser Connector mit der Datenbank kommunizieren kann, wird ein Treiber benötigt. Wenn der Treiber nicht auf Ihrem Computer installiert ist, wird in Tableau eine Meldung im Verbindungsdialogfeld angezeigt, die einen Link zu der Seite Treiber herunterladen(Link wird in neuem Fenster geöffnet) enthält. Dort finden Sie Treiber-Links und Installationsanweisungen.

Hinweis: Stellen Sie sicher, dass Sie die neuesten verfügbaren Treiber verwenden. Informationen zum Abrufen der neuesten Treiber finden Sie unter Cloudera Hadoop(Link wird in neuem Fenster geöffnet) auf der Seite "Tableau-Treiber herunterladen".

Herstellen der Verbindung und Einrichten der Datenquelle

  1. Starten Sie Tableau, und wählen Sie unter Verbinden die Option Cloudera Hadoop aus. Eine umfassende Liste der Datenverbindungen wird angezeigt, wenn Sie unter Mit einem Server die Option Mehr auswählen. Gehen Sie dann wie folgt vor:

    1. Geben Sie den Namen des Host-Servers der Datenbank und die zu verwendende Portnummer ein. Wenn Sie die Verbindung mithilfe von Cloudera Impala herstellen, müssen Sie Port 21050 verwenden, den Standardport für den Treiber der Version 2.5.x (empfohlen).

    2. Wählen Sie in der Dropdown-Liste Typ den Typ der Datenbank aus, mit der eine Verbindung hergestellt werden soll. Je nach Hadoop-Version und den installierten Treibern können Sie eine Verbindung zu folgenden Lösungen herstellen:

      • Hive Server 2

      • Impala

    3. Wählen Sie in der Dropdown-Liste Authentifizierung die gewünschte Authentifizierungsmethode aus.

    4. Geben Sie die angeforderten Informationen ein. Nach welchen Informationen Sie gefragt werden, ist abhängig von der gewählten Authentifizierungsmethode.

    5. (Optional) Wählen Sie SQL-Anfangsdaten aus, um einen SQL-Befehl festzulegen, der zu Beginn jeder Verbindung ausgeführt wird, z. B. wenn Sie eine Arbeitsmappe öffnen, einen Extrakt aktualisieren, sich bei Tableau Server anmelden oder Inhalte in Tableau Server veröffentlichen. Weitere Informationen finden Sie unter Ausführen von initialen SQL-Befehlen.

    6. Wählen Sie Anmelden aus.

      Wählen Sie beim Herstellen einer Verbindung mit einem SSL-Server die Option SSL erfordern aus.

      Wenn Tableau keine Verbindung herstellen kann, überprüfen Sie die Richtigkeit Ihrer Anmeldeinformationen. Falls Sie weiterhin keine Verbindung herstellen können, kann der Computer den Server nicht finden. Wenden Sie sich an Ihren Netzwerkadministrator oder Datenbankadministrator.

  2. Gehen Sie auf der Datenquellenseite wie folgt vor: 

    1. (Optional) Wählen Sie den Standard-Datenquellennamen oben auf der Seite aus, und geben Sie dann einen eindeutigen Datenquellennamen für die Verwendung in Tableau ein. Beispielsweise können Sie eine Benennungskonvention für die Datenquelle verwenden, die anderen Benutzern hilft, daraus abzuleiten, welche Datenquelle verbunden werden soll.

    2. Wählen Sie das Symbol für die Suche aus der Dropdown-Liste Schema aus, oder geben Sie den Namen des Schemas in das Textfeld ein, wählen Sie das Symbol für die Suche aus, und wählen Sie dann das Schema aus.

    3. Wählen Sie das Symbol für die Suche aus dem Textfeld Tabelle aus, oder geben Sie den Tabellennamen ein, wählen Sie das Symbol für die Suche aus, und wählen Sie dann die Tabelle aus.

    4. Ziehen Sie die Tabelle in den Arbeitsbereich, und klicken Sie dann auf die Blattregisterkarte, um Ihre Analyse zu starten.

      Verwenden Sie benutzerdefinierte SQL, um eine Verbindung zu einer bestimmten Abfrage herzustellen anstatt zur gesamten Datenquelle. Weitere Informationen finden Sie unter Herstellen einer Verbindung zu einer benutzerdefinierten SQL-Abfrage.

      Hinweis: Dieser Datenbanktyp unterstützt nur Gleichheitszeichen-Verknüpfungsoperatoren (=).

Anmelden bei einem Mac

Wenn Sie Tableau Desktop auf einem Mac verwenden, geben Sie einen vollständig qualifizierten Domänennamen (beispielsweise "mydb.test.ourdomain.lan") anstelle eines relativen Domänennamens (beispielsweise "mydb" oder "mydb.test") ein.

Alternativ können Sie die Domäne der Liste der Suchdomänen für den Mac-Computer hinzufügen, sodass Sie zur Herstellung einer Verbindung nur den Servernamen angeben müssen. Zum Aktualisieren der Liste der Suchdomänen gehen Sie zu System-Voreinstellungen > Netzwerk > Erweitert, und öffnen Sie dann die Registerkarte DNS.

Arbeiten mit Hadoop Hive-Daten

Arbeiten mit Datum/Uhrzeit

Tableau bietet standardmäßige Unterstützung für die Typen "TIMESTAMP" und "DATE". Wenn Sie jedoch die Datums- und Uhrzeitdaten als Zeichenfolge in Hive speichern, muss das ISO-Format (JJJJ-MM-TT) verwendet werden. Sie können ein berechnetes Feld erstellen, das die Funktionen "DATEPARSE" oder "DATE" zum Konvertieren einer Zeichenfolge in ein Datums- oder Uhrzeitformat verwendet. Verwenden Sie die Funktion "DATEPARSE()" bei der Arbeit mit Extrakten und ansonsten die Funktion "DATE()". Weitere Informationen finden Sie unter Datumsfunktionen.

Weitere Informationen zu Hive-Datentypen finden Sie auf der Apache Hive-Website im Bereich zu Datumsangaben(Link wird in neuem Fenster geöffnet).

NULL-Wert zurückgegeben

Ein NULL-Wert wird zurückgegeben, wenn Sie in Tableau 9.0.1 und höher und 8.3.5 und höheren 8.3.x-Versionen eine Arbeitsmappe öffnen, die in einer früheren Version erstellt wurde und als Zeichenfolgen gespeicherte Datums- und Uhrzeitdaten in einem von Hive nicht unterstützten Format enthält. Um dieses Problem zu beheben, ändern Sie den Feldtyp zurück in Zeichenfolge und erstellen ein berechnetes Feld mithilfe der Funktionen "DATEPARSE()" oder "DATE()" zum Umwandeln des Datums. Verwenden Sie die Funktion "DATEPARSE()" bei der Arbeit mit Extrakten und ansonsten die Funktion "DATE()".

Einschränkungen bei hoher Latenz

Hive ist ein stapelverarbeitungsorientiertes System, das noch nicht in der Lage ist, einfache Anfragen innerhalb kürzester Zeit zu beantworten. Diese Einschränkung erschwert die Untersuchung eines neuen Datensatzes oder eines Experiments mit berechneten Feldern. Einige der neueren SQL-on-Hadoop-Technologien (z. B. Impala von Cloudera und das Stringer-Projekt von Hortonworks) wurden konzipiert, um dieser Einschränkung zu begegnen.

Siehe auch

Vielen Dank für Ihr Feedback!Ihr Feedback wurde erfolgreich übermittelt. Vielen Dank.