Amazon EMR Hadoop Hive

In diesem Artikel werden das Herstellen einer Verbindung zwischen Tableau und einer Amazon EMR (Elastic MapReduce) Hadoop Hive-Datenbank und das Einrichten der Datenquelle beschrieben.

Hinweis: Ab Version 2018.2 wird Impala von Tableau nicht mehr unterstützt, sondern nur Amazon EMR Hadoop Hive. Amazon stellt keine Impala-Treiber mehr bereit.

Voraussetzungen

Stellen Sie zunächst diese Verbindungsinformationen zusammen:

  • Name des Servers, auf dem die Datenbank gehostet wird, zu der Sie eine Verbindung herstellen möchten, und die Portnummer

  • Authentifizierungsmethode:

    • Keine Authentifizierung

    • Kerberos

    • Benutzername

    • Benutzername und Kennwort

    • Microsoft Azure HDInsight-Dienst (ab Version 10.2.1)

  • Die Transportoptionen sind abhängig von der ausgewählten Authentifizierungsmethode und können Folgendes umfassen:

    • Binär

    • SASL

    • HTTP

  • Die Anmeldedaten sind abhängig von der ausgewählten Authentifizierungsmethode und können Folgendes umfassen:

    • Benutzername

    • Kennwort

    • Bereich

    • Host-FQDN

    • Dienstname

    • HTTP-Pfad

  • Soll eine Verbindung zu einem SSL-Server hergestellt werden?

  • (Optional) Anfängliche SQL-Anweisung, die bei jeder Verbindungsherstellung von Tableau ausgeführt wird

Treiber erforderlich

Damit dieser Connector mit der Datenbank kommunizieren kann, wird ein Treiber benötigt. Möglicherweise ist der erforderliche Treiber bereits auf Ihrem Computer installiert. Wenn der Treiber nicht auf Ihrem Computer installiert ist, wird in Tableau eine Meldung im Verbindungsdialogfeld angezeigt, die einen Link zu der Seite Treiber herunterladen(Link wird in neuem Fenster geöffnet) enthält. Dort finden Sie Treiber-Links und Installationsanweisungen.

Hinweis: Stellen Sie sicher, dass Sie die neuesten verfügbaren Treiber verwenden. Informationen zum Abrufen der neuesten Treiber finden Sie unter Amazon EMR Hadoop Hive(Link wird in neuem Fenster geöffnet) auf der Seite "Tableau-Treiber herunterladen".

Herstellen der Verbindung und Einrichten der Datenquelle

  1. Starten Sie Tableau, und wählen Sie unter Verbinden die Option Amazon EMR Hadoop Hive aus. Eine umfassende Liste der Datenverbindungen wird angezeigt, wenn Sie unter Mit einem Server die Option Mehr auswählen. Gehen Sie dann wie folgt vor:

    1. Geben Sie den Namen des Host-Servers der Datenbank und die zu verwendende Portnummer ein.

    2. Wählen Sie in der Dropdown-Liste Authentifizierung die gewünschte Authentifizierungsmethode aus. Welche Informationen Sie bereitstellen müssen, ist abhängig von der gewählten Authentifizierungsmethode.

    3. Sofern die Dropdown-Liste Transportverfügbar ist, wählen Sie den gewünschten Transporttyp aus.

    4. (Optional) Wählen Sie SQL-Anfangsdaten aus, um einen SQL-Befehl festzulegen, der zu Beginn jeder Verbindung ausgeführt wird, z. B. wenn Sie eine Arbeitsmappe öffnen, einen Extrakt aktualisieren, sich bei Tableau Server anmelden oder Inhalte in Tableau Server veröffentlichen. Weitere Informationen finden Sie unter Ausführen des anfänglichen SQL-Befehls.

    5. Wählen Sie Anmelden aus.

      Wählen Sie beim Herstellen einer Verbindung mit einem SSL-Server die Option SSL erfordern aus.

      Wenn Tableau keine Verbindung herstellen kann, überprüfen Sie die Richtigkeit Ihrer Anmeldeinformationen. Falls Sie weiterhin keine Verbindung herstellen können, kann der Computer den Server nicht finden. Wenden Sie sich an Ihren Netzwerkadministrator oder Datenbankadministrator.

  2. Gehen Sie auf der Datenquellenseite wie folgt vor: 

    1. (Optional) Wählen Sie den Standard-Datenquellennamen oben auf der Seite aus, und geben Sie dann einen eindeutigen Datenquellennamen für die Verwendung in Tableau ein. Beispielsweise können Sie eine Benennungskonvention für die Datenquelle verwenden, die anderen Benutzern hilft, daraus abzuleiten, welche Datenquelle verbunden werden soll.

    2. Wählen Sie das Symbol für die Suche aus der Dropdown-Liste Schema aus, oder geben Sie den Namen des Schemas in das Textfeld ein, wählen Sie das Symbol für die Suche aus, und wählen Sie dann das Schema aus.

    3. Wählen Sie das Symbol für die Suche aus dem Textfeld Tabelle, oder geben Sie den Tabellennamen ein, wählen Sie das Symbol für die Suche, und wählen Sie dann die Tabelle aus.

    4. Ziehen Sie die Tabelle in den Arbeitsbereich, und klicken Sie dann auf die Blattregisterkarte, um Ihre Analyse zu starten.

    5. Verwenden Sie benutzerdefinierte SQL, um eine Verbindung zu einer bestimmten Abfrage herzustellen anstatt zur gesamten Datenquelle. Weitere Informationen finden Sie unter Herstellen einer Verbindung zu einer benutzerdefinierten SQL-Abfrage.

Anmelden bei einem Mac

Wenn Sie Tableau Desktop auf einem Mac verwenden, geben Sie einen vollständig qualifizierten Domänennamen (beispielsweise "mydb.test.ourdomain.lan") anstelle eines relativen Domänennamens (beispielsweise "mydb" oder "mydb.test") ein.

Alternativ können Sie die Domäne der Liste der Suchdomänen für den Mac-Computer hinzufügen, sodass Sie zur Herstellung einer Verbindung nur den Servernamen angeben müssen. Zum Aktualisieren der Liste der Suchdomänen gehen Sie zu System-Voreinstellungen > Netzwerk > Erweitert, und öffnen Sie dann die Registerkarte DNS.

Arbeiten mit Hadoop Hive-Daten

Arbeiten mit Datum/Uhrzeit

Tableau bietet standardmäßige Unterstützung für die Typen "TIMESTAMP" und "DATE". Wenn Sie jedoch die Datums- und Uhrzeitdaten als Zeichenfolge in Hive speichern, muss das ISO-Format (JJJJ-MM-TT) verwendet werden. Sie können ein berechnetes Feld erstellen, das die Funktionen "DATEPARSE" oder "DATE" zum Konvertieren einer Zeichenfolge in ein Datums- oder Uhrzeitformat verwendet. Verwenden Sie die Funktion "DATEPARSE()" bei der Arbeit mit Extrakten und ansonsten die Funktion "DATE()". Weitere Informationen finden Sie unter Datumsfunktionen.

Weitere Informationen zu Hive-Datentypen finden Sie auf der Apache Hive-Website im Bereich zu Datumsangaben(Link wird in neuem Fenster geöffnet).

NULL-Wert zurückgegeben

Ein NULL-Wert wird zurückgegeben, wenn Sie in Tableau 9.0.1 und höher und 8.3.5 und höheren 8.3.x-Versionen eine Arbeitsmappe öffnen, die in einer früheren Version erstellt wurde und als Zeichenfolgen gespeicherte Datums- und Uhrzeitdaten in einem von Hive nicht unterstützten Format enthält. Um dieses Problem zu beheben, ändern Sie den Feldtyp zurück in Zeichenfolge und erstellen ein berechnetes Feld mithilfe der Funktionen "DATEPARSE()" oder "DATE()" zum Umwandeln des Datums. Verwenden Sie die Funktion "DATEPARSE()" bei der Arbeit mit Extrakten und ansonsten die Funktion "DATE()".

Einschränkungen bei hoher Latenz

Hive ist ein stapelverarbeitungsorientiertes System, das noch nicht in der Lage ist, einfache Anfragen innerhalb kürzester Zeit zu beantworten. Diese Einschränkung erschwert die Untersuchung eines neuen Datensatzes oder eines Experiments mit berechneten Feldern. Einige der neueren SQL-on-Hadoop-Technologien (z. B. Impala von Cloudera und das Stringer-Projekt von Hortonworks) wurden konzipiert, um dieser Einschränkung zu begegnen.

 

Siehe auch

Vielen Dank für Ihr Feedback!