Cloudera Hadoop

In dit artikel wordt beschreven hoe u Tableau verbindt met een Cloudera Hadoop-database en de databron instelt.

Opmerking: voor nieuwe verbindingen met Impala-databases gebruikt u de Impala-connector in plaats hiervan. (U kunt deze connector blijven gebruiken voor bestaande verbindingen.)

Voordat u begint

Verzamel de volgende verbindingsinformatie voordat u begint:

  • Naam van de server die de database host waarmee u verbinding wilt maken en poortnummer

  • Type database: Hive Server 2 of Impala

  • Verificatiemethode:

    • Geen verificatie

    • Kerberos

      Opmerking: vanwege beperkingen van de Kerberos Domain Controller (KDC) wordt verbinding met MIT Kerberos niet ondersteund.

    • Gebruikersnaam

    • Gebruikersnaam en wachtwoord

    • Microsoft Azure HDInsight-service (vanaf versie 10.2.1)

  • Transportopties zijn afhankelijk van de verificatiemethode die u kiest en kunnen het volgende omvatten:

    • Binair

    • SASL

    • HTTP

  • Aanmeldreferenties zijn afhankelijk van de door u gekozen verificatiemethode en kunnen het volgende omvatten:

    • Gebruikersnaam

    • Wachtwoord

    • Realm

    • FQDN van host

    • Servicenaam

    • HTTP-pad

  • Maakt u verbinding met een SSL-server?

  • (Optioneel) Initiële SQL-instructie die elke keer wordt uitgevoerd wanneer Tableau verbinding maakt

Stuurprogramma vereist

Voor deze connectors is een stuurprogramma vereist om met de database te communiceren. Als het stuurprogramma niet op uw computer is geïnstalleerd, geeft Tableau in het verbindingsdialoogvenster een bericht weer met een koppeling naar de pagina Stuurprogramma downloaden(Link wordt in een nieuw venster geopend), waar u stuurprogrammalinks en installatie-instructies kunt vinden.

Opmerking: zorg dat u de nieuwste beschikbare stuurprogramma's gebruikt. Zie Cloudera Hadoop(Link wordt in een nieuw venster geopend) op de pagina Tableau-stuurprogramma's downloaden voor de nieuwste stuurprogramma's.

De verbinding maken en de databron instellen

  1. Start Tableau en selecteer onder Verbinding maken Cloudera Hadoop. Voor een volledige lijst met dataverbindingen selecteert u Meer onder Naar een server. Voer vervolgens het volgende uit:

    1. Voer de naam in van de server waarop de database wordt gehost en het poortnummer dat moet worden gebruikt. Als u verbinding maakt via Cloudera Impala, moet u poort 21050 gebruiken. Dit is de standaardpoort als u het 2.5.x-stuurprogramma gebruikt (aanbevolen).

    2. Selecteer in de vervolgkeuzelijst Type het type database waarmee u verbinding wilt maken. Afhankelijk van de versie van Hadoop en de stuurprogramma's die u hebt geïnstalleerd, kunt u verbinding maken met een van de volgende opties:

      • Hive Server 2

      • Impala

    3. Selecteer in de vervolgkeuzelijst Verificatie de verificatiemethode die u wilt gebruiken.

    4. Voer de gevraagde informatie in. Welke informatie u wordt gevraagd, is afhankelijk van de verificatiemethode die u kiest.

    5. Selecteer Initiële SQL om een SQL-opdracht op te geven die aan het begin van elke verbinding moet worden uitgevoerd. Bijvoorbeeld wanneer u de werkmap opent, een extract vernieuwt, zich aanmeldt bij Tableau Server of naar Tableau Server publiceert (optioneel). Zie Initiële SQL uitvoeren voor meer informatie.

    6. Selecteer Aanmelden.

      Selecteer de optie SSL vereisen bij het verbinden met een SSL-server.

      Als Tableau de verbinding niet tot stand kan brengen, controleer dan of uw referenties kloppen. Als u nog steeds geen verbinding kunt maken, heeft uw computer problemen met het lokaliseren van de server. Neem contact op met uw netwerk- of databasebeheerder voor hulp.

  2. Op de databronpagina doet u het volgende: 

    1. (Optioneel) Selecteer de standaard databronnaam boven aan de pagina en voer vervolgens een unieke databronnaam in voor gebruik in Tableau. Gebruik bijvoorbeeld een naamgevingsconventie voor databronnen waarmee andere gebruikers van de databron kunnen bepalen met welke databron ze verbinding moeten maken.

    2. Selecteer in de vervolgkeuzelijst Schema het zoekpictogram of voer de schemanaam in het tekstvak in en selecteer het zoekpictogram. Selecteer vervolgens het schema.

    3. Selecteer in het tekstvak Tabel het zoekpictogram of voer de tabelnaam in, selecteer het zoekpictogram en selecteer vervolgens de tabel.

    4. Sleep de tabel naar het canvas en selecteer vervolgens het tabblad van het werkblad om uw analyse te starten.

      Gebruik aangepaste SQL om verbinding te maken met een specifieke query in plaats van met de hele databron. Zie Verbinding maken met een aangepaste SQL-query voor meer informatie.

      Opmerking: dit databasetype ondersteunt alleen equal (=, gelijk aan) join-bewerkingen.

Aanmelden op een Mac

Als u Tableau Desktop op een Mac gebruikt, moet u bij het invoeren van de servernaam om verbinding te maken een volledig gekwalificeerde domeinnaam gebruiken, zoals mydb.test.ourdomain.lan, in plaats van een relatieve domeinnaam, zoals mydb of mydb.test.

U kunt het domein ook toevoegen aan de lijst met zoekdomeinen voor de Mac-computer. Wanneer u dan verbinding maakt, hoeft u alleen de servernaam op te geven. Als u de lijst met zoekdomeinen wilt bijwerken, gaat u naar Systeemvoorkeuren > Netwerk > Geavanceerd en opent u het tabblad DNS.

Werken met Hadoop Hive-data

Werken met datum-/tijddata

Tableau ondersteunt standaard de typen TIMESTAMP en DATE. Als u datum-/tijddata echter als tekenreeks in Hive opslaat, zorg er dan voor dat u deze in de ISO-indeling (JJJJ-MM-DD) opslaat. U kunt een berekend veld maken dat de functie DATEPARSE of DATE gebruikt om een tekenreeks naar een datum-/tijdnotatie te converteren. Gebruik DATEPARSE() wanneer u met een extract werkt. Gebruik in andere gevallen DATE(). Zie Datumfuncties voor meer informatie.

Zie Datums(Link wordt in een nieuw venster geopend) op de website van Apache Hive voor meer informatie over Hive-datatypen.

‘NULL'-waarde geretourneerd

Er wordt een NULL-waarde geretourneerd wanneer u in Tableau 9.0.1 en later en 8.3.5 en later een werkmap opent die in een eerdere versie is gemaakt en waarin datum-/tijddata als tekenreeks zijn opgeslagen in een indeling die Hive niet ondersteunt. Om dit probleem op te lossen, moet u het veldtype terugwijzigen in String en een berekend veld maken met behulp van DATEPARSE() of DATE() om de datum te converteren. Gebruik DATEPARSE() wanneer u met een extract werkt. Gebruik in andere gevallen de functie DATE().

Hoge latentie is een beperking

Hive is een batchgericht systeem en is nog niet in staat om eenvoudige vragen snel te beantwoorden. Deze beperking kan het lastig maken om een nieuwe dataset te verkennen of te experimenteren met berekende velden. Sommige van de nieuwere SQL-on-Hadoop-technologieën (bijvoorbeeld het Impala-project van Cloudera en het Stringer-project van Hortonworks) zijn ontworpen om deze beperking aan te pakken.

Zie ook