Cloudera Hadoop

Questo articolo descrive come connettere Tableau a un database Cloudera Hadoop e impostare l’origine dati.

Nota: per le nuove connessioni ai database Impala, utilizza il connettore Impala anziché questo. Puoi continuare a utilizzare questo connettore per le connessioni esistenti.

Prima di iniziare

Prima di iniziare, raccogli queste informazioni di connessione:

  • Nome del server che ospita il database a cui vuoi connetterti e numero di porta

  • Tipo di database: Hive Server 2 o Impala

  • Metodo di autenticazione:

    • Nessuna autenticazione

    • Kerberos

      Nota: a causa delle restrizioni del controller di dominio Kerberos (KDC), la connessione con MIT Kerberos non è supportata.

    • Nome utente

    • Nome utente e password

    • Servizio Microsoft Azure HDInsight (a partire dalla versione 10.2.1)

  • Le opzioni di trasporto dipendono dal metodo di autenticazione scelto e possono includere quanto segue:

    • Binario

    • SASL

    • HTTP

  • Le credenziali di accesso dipendono dal metodo di autenticazione scelto e possono includere quanto segue:

    • Nome utente

    • Password

    • Reame

    • Host FQDN

    • Nome del servizio

    • Percorso HTTP

  • Ti stai connettendo a un server SSL?

  • (Facoltativo) Istruzione SQL iniziale da eseguire ogni volta che Tableau si collega

Driver necessario

Questo connettore richiede un driver per comunicare con il database. È possibile che il driver richiesto sia già installato sul computer. Se il driver non è installato sul computer, Tableau visualizza un messaggio nella finestra di dialogo di connessione con un link alla pagina di download dei driver(Il collegamento viene aperto in una nuova finestra) dove si trovano i link del driver e le istruzioni di installazione.

Nota: assicurati di utilizzare i driver più recenti. Per ottenere i driver più recenti, consulta Cloudera Hadoop(Il collegamento viene aperto in una nuova finestra) nella pagina di download dei driver Tableau.

Effettuare la connessione e impostare l’origine dati

  1. Avvia Tableau e, in Connetti, seleziona Cloudera Hadoop. Per un elenco completo delle connessioni dati, seleziona Altro in A un server. Quindi procedi come segue:

    1. Immetti il nome del server che ospita il database e il numero di porta da utilizzare. Se ti stai connettendo tramite Cloudera Impala, utilizza la porta 21050: questa è la porta predefinita se utilizzi il driver 2.5.x (consigliato).

    2. Nell’elenco a discesa Tipo, seleziona il tipo di database a cui desideri connetterti. A seconda della versione di Hadoop e dei driver installati, è possibile eseguire una delle operazioni seguenti:

      • Hive Server 2

      • Impala

    3. Nell’elenco a discesa Autenticazione, seleziona il metodo di autenticazione da utilizzare.

    4. Immetti le informazioni richieste. Le informazioni richieste dipendono dal metodo di autenticazione scelto.

    5. (Facoltativo) Seleziona SQL iniziale per specificare un comando SQL da eseguire all’inizio di ogni connessione, ad esempio quando apri la cartella di lavoro, aggiorni un estrazione, accedi o pubblichi su Tableau Server. Per ulteriori informazioni, consulta Eseguire le istruzioni SQL iniziali.

    6. Seleziona Accedi.

      Quando ti connetti a un server SSL, seleziona l’opzione Richiedi SSL.

      Se Tableau non riesce a effettuare la connessione, verifica che le tue credenziali siano corrette. Se ancora non riesci a connetterti, significa che il tuo computer ha problemi a localizzare il server. Contatta l’amministratore di rete o l’amministratore del database.

  2. Nella pagina dell’origine dati, esegui le seguenti operazioni: 

    1. (Facoltativo) Seleziona il nome dell’origine dati predefinita nella parte superiore della pagina, quindi immetti un nome univoco per l’origine dati da utilizzare in Tableau. Ad esempio, utilizza una convenzione di denominazione dell’origine dati che aiuti gli altri utenti a capire a quale origine dati connettersi.

    2. Dall’elenco a discesa Schema, seleziona l’icona di ricerca o immetti il nome dello schema nella casella di testo e seleziona l’icona di ricerca, quindi seleziona lo schema.

    3. Dall’elenco a discesa Tabella, seleziona l’icona di ricerca o immetti il nome della tabella e seleziona l’icona di ricerca, quindi seleziona la tabella.

    4. Trascina la tabella sul canvas, quindi seleziona la scheda foglio per avviare l’analisi.

      Utilizza una query SQL personalizzata per connetterti a una query specifica piuttosto che all’intera origine dati. Per maggiori informazioni, consulta Connettersi a una query SQL personalizzata.

      Nota: questo tipo di database supporta solo operazioni di join uguali (=).

Accedere su Mac

Se usi Tableau Desktop su un Mac, quando inserisci il nome del server per connetterti, usa un nome di dominio pienamente qualificato, come mydb.test.ourdomain.lan, invece di un nome di dominio relativo, come mydb o mydb.test.

In alternativa, aggiungi il dominio all’elenco dei domini di ricerca per il computer Mac. In questo modo, quando ti connetterai, dovrai specificare solo il nome del server. Per aggiornare l’elenco dei domini di ricerca, vai su Preferenze di sistema > Rete > Avanzate, quindi apri la scheda DNS.

Lavorare con i dati Hadoop Hive

Lavorare con dati di data/ora

Tableau supporta a livello nativo i tipi TIMESTAMP e DATE. Tuttavia, se memorizzi dati di data/ora come stringa in Hive, assicurati di memorizzarli nel formato ISO (AAAA-MM-GG). Puoi creare un campo calcolato che utilizza la funzione DATEPARSE o DATE per convertire una stringa in un formato data/ora. Utilizza DATEPARSE() quando lavori con un’estrazione, altrimenti utilizza DATE(). Per ulteriori informazioni, consulta il paragrafo Funzioni data.

\Per ulteriori informazioni sui tipi di dati Hive, consulta Date(Il collegamento viene aperto in una nuova finestra) sul sito Web di Apache Hive.

Valore NULL restituito

Un valore NULL viene restituito quando, in Tableau versione 9.0.1 e successive, Tableau versione 8.3.5 e nelle successive versioni 8.3.x, si apre una cartella di lavoro creata in una versione precedente e contenente dati di data/ora memorizzati come stringa in un formato non supportato da Hive. Per risolvere questo problema, cambia il tipo di campo in Stringa e crea un campo calcolato usando DATEPARSE() o DATE() per convertire la data. Utilizza DATEPARSE() quando lavori con un’estrazione, altrimenti utilizza la funzione DATE().

Limitazione della latenza elevata

Hive è un sistema a batch e non è ancora in grado di rispondere a semplici query in tempi molto rapidi. Questa limitazione può rendere difficile esplorare un nuovo insieme di dati o sperimentare con campi calcolati. Alcune delle più recenti tecnologie SQL-on-Hadoop (ad esempio, i progetti Impala di Cloudera e Stringer di Hortonworks) sono ideate per affrontare questa limitazione.

Vedi anche

Grazie per il tuo feedback.Il tuo feedback è stato inviato. Grazie!