Cloudera Hadoop

I den här artikeln beskrivs hur du ansluter Tableau till en Cloudera Hadoop-databas och konfigurerar datakällan.

Obs! För nya anslutningar till Impala-databaser, använd Impala-anslutningen i stället för den här. (Du kan fortsätta att använda den här kopplingen för befintliga anslutningar.)

Innan du börjar

Innan du börjar ska du samla in följande anslutningsinformation:

  • Namn på servern som fungerar som värd för den databas som du vill ansluta till samt portnummer

  • Typ av databas: Hive Server 2 eller Impala

  • Autentiseringsmetod:

    • Ingen autentisering

    • Kerberos

      Obs! På grund av begränsningar av Kerberos-domänstyrenheten (KDC) stöds inte anslutning med MIT Kerberos.

    • Användarnamn

    • Användarnamn och lösenord

    • Microsoft Azure HDInsight-tjänst (från och med version 10.2.1)

  • Transportalternativen beror på vilken autentiseringsmetod du väljer och kan inkludera följande:

    • Binär

    • SASL

    • HTTP

  • Inloggningsuppgifterna beror på vilken autentiseringsmetod du väljer och kan inkludera följande:

    • Användarnamn

    • Lösenord

    • Sfär

    • FQDN för värd

    • Tjänstnamn

    • HTTP-sökväg

  • Ansluter du till en SSL-server?

  • (Valfritt) Inledande SQL-sats körs varje gång Tableau ansluter

Drivrutin krävs

Den här kopplingen kräver en drivrutin för att kommunicera med databasen. Om drivrutinen inte är installerad på datorn visar Tableau ett meddelande i dialogrutan Anslutning med en länk till nedladdningssidan med drivrutinen(Länken öppnas i ett nytt fönster) där du kan hitta länkar till drivrutiner och installationsinstruktioner.

Obs! Kontrollera att du använder de senaste drivrutinerna. För de senaste drivrutinerna kan du se Cloudera Hadoop(Länken öppnas i ett nytt fönster) på sidan Nedladdning av drivrutiner för Tableau.

Skapa anslutningen och konfigurera datakällan

  1. Starta Tableau och under Anslut väljer du Cloudera Hadoop. För en fullständig lista över dataanslutningar väljer du Mer under Till en server. Gör sedan följande:

    1. Ange namnet på servern som fungerar som värd för databasen samt portnumret som ska användas. Om du ansluter med hjälp av Cloudera Impala så måste du använda port 21050. Det är standardporten om du använder 2.5.x-drivrutinen (rekommenderas).

    2. I listrutan Typ väljer du den typ av databas du vill ansluta till. Beroende på version av Hadoop och vilka drivrutiner du har installerat så kan du ansluta till en av följande:

      • Hive Server 2

      • Impala

    3. I listrutan Autentisering väljer du vilken autentiseringsmetod som ska användas.

    4. Ange den information som du uppmanas att tillhandahålla. Vilken information du uppmanas att tillhandahålla beror på vilken autentiseringsmetod du väljer.

    5. (Valfritt) Välj Inledande SQL för att ange ett SQL-kommando som ska köras i början av varje anslutning, när du till exempel öppnar arbetsboken, uppdaterar ett extrakt, loggar in på Tableau Server eller publicerar på Tableau Server. Mer information finns i Köra inledande SQL.

    6. Välj Logga in.

      Välj alternativet Kräv SSL när du ansluter till en SSL-server.

      Om Tableau inte kan upprätta anslutningen, verifierar du att du har rätt inloggningsuppgifter. Om du fortfarande inte kan ansluta, har datorn problem med att hitta servern. Kontakta nätverksadministratören eller databasadministratören för ytterligare hjälp.

  2. På sidan Datakälla gör du följande: 

    1. (Valfritt) Välj standardnamnet för datakällan längst upp på sidan och ange sedan ett unikt namn för datakällan, som ska användas i Tableau. Till exempel kan du använda en konvention för namngivning av datakälla som gör det lättare för andra användare av datakällan att räkna ut vilken datakälla de ska ansluta till.

    2. Från listrutan Schema trycker du på sökikonen eller anger schemanamnet i textrutan och trycker på sökikonen. Sedan väljer du schema.

    3. I textrutan Tabell trycker du på sökikonen eller anger tabellnamnet och trycker på sökikonen. Sedan väljer du tabell.

    4. Dra tabellen till arbetsytan och välj sedan bladflik för att starta analysen.

      Använd anpassad SQL för att ansluta till en specifik fråga i stället för till hela datakällan. Mer information finns i Ansluta till en anpassad SQL-fråga.

      Obs! Den här databastypen har endast stöd för kopplingsåtgärder av typen Är lika med (=).

Logga in på en Mac

Om du använder Tableau Desktop på en Mac och anger servernamnet för att ansluta ska du använda ett fullständigt domännamn, såsom mydb.test.ourdomain.lan, istället för ett relativt domännamn, såsom mydb eller mydb.test.

Alternativt kan du lägga till domänen i listan över sökdomäner för Mac-datorn vilket låter dig endast ange servernamnet när du ansluter. Gå till Systeminställningar > Nätverk > Avancerat och öppna sedan fliken DNS för att uppdatera listan över sökdomäner.

Arbeta med Hadoop Hive-data

Arbeta med datum-/tidsdata

Tableau har stöd för typerna TIMESTAMP och DATE inbyggt. Om du dock lagrar datum-/tidsdata som en sträng i Hive måste du se till att lagra dem i ISO-format (ÅÅÅÅ-MM-DD). Du kan skapa ett beräknat fält som använder funktionen DATEPARSE eller DATE för att konvertera en sträng till ett datum-/tidsformat. Använd DATEPARSE() när du arbetar med ett extrakt. I annat fall bör du använda DATE(). Mer information finns i Datumfunktioner.

Se Datum(Länken öppnas i ett nytt fönster) på Apache Hive-webbplatsen för mer information om Hive-datatyper.

NULL-värdet returnerat

Ett NULL-värde returneras när du, i versionerna Tableau 9.0.1 och senare, 8.3.5 och senare samt 8.3.x, öppnar en arbetsbok som skapades i en tidigare version och har datum-/tidsdata lagrade som en sträng i ett format som Hive inte har stöd för. För att lösa problemet måste du byta tillbaka fälttypen till Sträng och skapa ett beräknat fält med DATEPARSE() eller DATE() för att konvertera datumet. Använd DATEPARSE() när du arbetar med ett extrakt. I annat fall bör du använda funktionen DATE().

Begränsningar på grund av hög latens

Hive är ett batchbaserat system som ännu inte kan svara på enkla frågor med mycket snabb bearbetning. Den här begränsningen kan göra det svårt att utforska en ny datauppsättning eller experimentera med beräknade fält. Vissa av de nyare SQL-on-Hadoop-teknikerna (såsom Clouderas Impala- och Hortonworks Stringer-projekt) är utformade för att hantera den här begränsningen.

Se även