Amazon EMR Hadoop Hive

I den här artikeln beskrivs hur du ansluter Tableau till en Amazon EMR (Elastic MapReduce) Hadoop Hive-databas och konfigurerar datakällan.

Obs! Från och med version 2018.2 stöder Tableau endast Amazon EMR Hadoop Hive, inte Impala. Amazon tillhandahåller inte längre Impala-drivrutiner.

Innan du börjar

Innan du börjar ska du samla in följande anslutningsinformation:

  • Namn på servern som fungerar som värd för den databas som du vill ansluta till samt portnummer

  • Autentiseringsmetod:

    • Ingen autentisering

    • Kerberos

    • Användarnamn

    • Användarnamn och lösenord

    • Microsoft Azure HDInsight-tjänst (från och med version 10.2.1)

  • Transportalternativen beror på vilken autentiseringsmetod du väljer och kan inkludera följande:

    • Binär

    • SASL

    • HTTP

  • Inloggningsuppgifterna beror på vilken autentiseringsmetod du väljer och kan inkludera följande:

    • Användarnamn

    • Lösenord

    • Sfär

    • FQDN för värd

    • Tjänstnamn

    • HTTP-sökväg

  • Ansluter du till en SSL-server?

  • (Valfritt) Inledande SQL-sats körs varje gång Tableau ansluter

Drivrutin krävs

Den här kopplingen kräver en drivrutin för att kommunicera med databasen. Du kanske redan har den nödvändiga drivrutinen installerad på datorn. Om drivrutinen inte är installerad på datorn visar Tableau ett meddelande i dialogrutan Anslutning med en länk till nedladdningssidan med drivrutinen(Länken öppnas i ett nytt fönster) där du kan hitta länkar till drivrutiner och installationsinstruktioner.

Obs! Kontrollera att du använder de senaste drivrutinerna. De senaste drivrutinerna hittar du på Amazon EMR Hadoop Hive(Länken öppnas i ett nytt fönster) på Tableau sida för nerladdning av drivrutiner.

Skapa anslutningen och konfigurera datakällan

  1. Starta Tableau och under Anslut väljer du Amazon EMR Hadoop Hive. För en fullständig lista över dataanslutningar väljer du Mer under Till en server. Gör sedan följande:

    1. Ange namnet på servern som fungerar som värd för databasen samt portnumret som ska användas.

    2. I listrutan Autentisering väljer du vilken autentiseringsmetod som ska användas. Vilken information du uppmanas att tillhandahålla beror på vilken autentiseringsmetod du väljer.

    3. I listrutan Transport väljer du vilken typ av transport som ska användas.

    4. (Valfritt) Välj Inledande SQL för att ange ett SQL-kommando som ska köras i början av varje anslutning, när du till exempel öppnar arbetsboken, uppdaterar ett extrakt, loggar in på Tableau Server eller publicerar på Tableau Server. Se Köra inledande SQL för mer information.

    5. Välj Logga in.

      Välj alternativet Kräv SSL när du ansluter till en SSL-server.

      Om Tableau inte kan upprätta anslutningen, verifierar du att du har rätt inloggningsuppgifter. Om du fortfarande inte kan ansluta, har datorn problem med att hitta servern. Kontakta nätverksadministratören eller databasadministratören.

  2. På sidan Datakälla gör du följande: 

    1. (Valfritt) Välj standardnamnet för datakällan längst upp på sidan och ange sedan ett unikt namn för datakällan, som ska användas i Tableau. Till exempel kan du använda en konvention för namngivning av datakälla som gör det lättare för andra användare av datakällan att räkna ut vilken datakälla de ska ansluta till.

    2. Från listrutan Schema trycker du på sökikonen eller anger schemanamnet i textrutan och trycker på sökikonen. Sedan väljer du schema.

    3. I textrutan Tabell trycker du på sökikonen eller anger tabellnamnet och trycker på sökikonen. Sedan väljer du tabell.

    4. Dra tabellen till arbetsytan och välj sedan bladflik för att starta analysen.

    5. Använd anpassad SQL för att ansluta till en specifik fråga i stället för till hela datakällan. Mer information finns i Ansluta till en anpassad SQL-fråga.

Logga in på en Mac

Om du använder Tableau Desktop på en Mac och anger servernamnet för att ansluta ska du använda ett fullständigt domännamn, såsom mydb.test.ourdomain.lan, istället för ett relativt domännamn, såsom mydb eller mydb.test.

Alternativt kan du lägga till domänen i listan över sökdomäner för Mac-datorn vilket låter dig endast ange servernamnet när du ansluter. Gå till Systeminställningar > Nätverk > Avancerat och öppna sedan fliken DNS för att uppdatera listan över sökdomäner.

Arbeta med Hadoop Hive-data

Arbeta med datum-/tidsdata

Tableau har stöd för typerna TIMESTAMP och DATE inbyggt. Om du dock lagrar datum-/tidsdata som en sträng i Hive måste du se till att lagra dem i ISO-format (ÅÅÅÅ-MM-DD). Du kan skapa ett beräknat fält som använder funktionen DATEPARSE eller DATE för att konvertera en sträng till ett datum-/tidsformat. Använd DATEPARSE() när du arbetar med ett extrakt. I annat fall bör du använda DATE(). Mer information finns i Datumfunktioner.

Se Datum(Länken öppnas i ett nytt fönster) på Apache Hive-webbplatsen för mer information om Hive-datatyper.

NULL-värdet returnerat

Ett NULL-värde returneras när du, i versionerna Tableau 9.0.1 och senare, 8.3.5 och senare samt 8.3.x, öppnar en arbetsbok som skapades i en tidigare version och har datum-/tidsdata lagrade som en sträng i ett format som Hive inte har stöd för. För att lösa problemet måste du byta tillbaka fälttypen till Sträng och skapa ett beräknat fält med DATEPARSE() eller DATE() för att konvertera datumet. Använd DATEPARSE() när du arbetar med ett extrakt. I annat fall bör du använda funktionen DATE().

Begränsningar på grund av hög latens

Hive är ett batchbaserat system som ännu inte kan svara på enkla frågor med mycket snabb bearbetning. Den här begränsningen kan göra det svårt att utforska en ny datauppsättning eller experimentera med beräknade fält. Vissa av de nyare SQL-on-Hadoop-teknikerna (såsom Clouderas Impala- och Hortonworks Stringer-projekt) är utformade för att hantera den här begränsningen.

 

Se även

Tack för din feedback!Din feedback har skickats in. Tack!