Amazon EMR Hadoop Hive

Questo articolo descrive come connettere Tableau a un database Hadoop Hive di Amazon EMR (Elastic MapReduce) e impostare l’origine dati.

Nota: a partire dalla versione 2018.2, Tableau supporta solo Hadoop Hive di Amazon EMR, non Impala. Amazon non fornisce più i driver Impala.

Prima di iniziare

Prima di iniziare, raccogli queste informazioni di connessione:

  • Nome del server che ospita il database a cui vuoi connetterti e numero di porta

  • Metodo di autenticazione:

    • Nessuna autenticazione

    • Kerberos

    • Nome utente

    • Nome utente e password

    • Servizio Microsoft Azure HDInsight (a partire dalla versione 10.2.1)

  • Le opzioni di trasporto dipendono dal metodo di autenticazione scelto e possono includere quanto segue:

    • Binario

    • SASL

    • HTTP

  • Le credenziali di accesso dipendono dal metodo di autenticazione scelto e possono includere quanto segue:

    • Nome utente

    • Password

    • Reame

    • Host FQDN

    • Nome del servizio

    • Percorso HTTP

  • Ti stai connettendo a un server SSL?

  • (Facoltativo) Istruzione SQL iniziale da eseguire ogni volta che Tableau si collega

Driver necessario

Questo connettore richiede un driver per comunicare con il database. È possibile che il driver richiesto sia già installato sul computer. Se il driver non è installato sul computer, Tableau visualizza un messaggio nella finestra di dialogo di connessione con un link alla pagina di download dei driver(Il collegamento viene aperto in una nuova finestra) dove si trovano i link del driver e le istruzioni di installazione.

Nota: assicurati di utilizzare i driver più recenti. Per ottenere i driver più recenti, consulta Hadoop Hive di Amazon EMR(Il collegamento viene aperto in una nuova finestra) nella pagina di Download dei driver di Tableau.

Effettuare la connessione e impostare l’origine dati

  1. Avvia Tableau e in Connetti, seleziona Hadoop Hive di Amazon EMR. Per un elenco completo delle connessioni dati, seleziona Altro in A un server. Quindi procedi come segue:

    1. Immetti il nome del server che ospita il database e il numero di porta da utilizzare.

    2. Nell’elenco a discesa Autenticazione, seleziona il metodo di autenticazione da utilizzare. Le informazioni che ti viene richiesto di fornire dipendono dal metodo di autenticazione scelto.

    3. Se è disponibile l’elenco a discesa Trasporto, seleziona il tipo di trasporto da utilizzare.

    4. (Facoltativo) Seleziona SQL iniziale per specificare un comando SQL da eseguire all’inizio di ogni connessione, ad esempio quando apri la cartella di lavoro, aggiorni un estrazione, accedi o pubblichi su Tableau Server. Per ulteriori informazioni, consulta Eseguire le istruzioni SQL iniziali.

    5. Seleziona Accedi.

      Quando ti connetti a un server SSL, seleziona l’opzione Richiedi SSL.

      Se Tableau non riesce a effettuare la connessione, verifica che le tue credenziali siano corrette. Se ancora non riesci a connetterti, significa che il tuo computer ha problemi a localizzare il server. Contatta l’amministratore di rete o l’amministratore del database.

  2. Nella pagina dell’origine dati, esegui le seguenti operazioni: 

    1. (Facoltativo) Seleziona il nome dell’origine dati predefinita nella parte superiore della pagina, quindi immetti un nome univoco per l’origine dati da utilizzare in Tableau. Ad esempio, utilizza una convenzione di denominazione dell’origine dati che aiuti gli altri utenti a capire a quale origine dati connettersi.

    2. Dall’elenco a discesa Schema, seleziona l’icona di ricerca o immetti il nome dello schema nella casella di testo e seleziona l’icona di ricerca, quindi seleziona lo schema.

    3. Dall’elenco a discesa Tabella, seleziona l’icona di ricerca o immetti il nome della tabella e seleziona l’icona di ricerca, quindi seleziona la tabella.

    4. Trascina la tabella sul canvas, quindi seleziona la scheda foglio per avviare l’analisi.

    5. Utilizza una query SQL personalizzata per connetterti a una query specifica piuttosto che all’intera origine dati. Per maggiori informazioni, consulta Connettersi a una query SQL personalizzata.

Accedere su Mac

Se usi Tableau Desktop su un Mac, quando inserisci il nome del server per connetterti, usa un nome di dominio pienamente qualificato, come mydb.test.ourdomain.lan, invece di un nome di dominio relativo, come mydb o mydb.test.

In alternativa, aggiungi il dominio all’elenco dei domini di ricerca per il computer Mac. In questo modo, quando ti connetterai, dovrai specificare solo il nome del server. Per aggiornare l’elenco dei domini di ricerca, vai su Preferenze di sistema > Rete > Avanzate, quindi apri la scheda DNS.

Lavorare con i dati Hadoop Hive

Lavorare con dati di data/ora

Tableau supporta a livello nativo i tipi TIMESTAMP e DATE. Tuttavia, se memorizzi dati di data/ora come stringa in Hive, assicurati di memorizzarli nel formato ISO (AAAA-MM-GG). Puoi creare un campo calcolato che utilizza la funzione DATEPARSE o DATE per convertire una stringa in un formato data/ora. Utilizza DATEPARSE() quando lavori con un’estrazione, altrimenti utilizza DATE(). Per ulteriori informazioni, consulta il paragrafo Funzioni data.

\Per ulteriori informazioni sui tipi di dati Hive, consulta Date(Il collegamento viene aperto in una nuova finestra) sul sito Web di Apache Hive.

Valore NULL restituito

Un valore NULL viene restituito quando, in Tableau versione 9.0.1 e successive, Tableau versione 8.3.5 e nelle successive versioni 8.3.x, si apre una cartella di lavoro creata in una versione precedente e contenente dati di data/ora memorizzati come stringa in un formato non supportato da Hive. Per risolvere questo problema, cambia il tipo di campo in Stringa e crea un campo calcolato usando DATEPARSE() o DATE() per convertire la data. Utilizza DATEPARSE() quando lavori con un’estrazione, altrimenti utilizza la funzione DATE().

Limitazione della latenza elevata

Hive è un sistema a batch e non è ancora in grado di rispondere a semplici query in tempi molto rapidi. Questa limitazione può rendere difficile esplorare un nuovo insieme di dati o sperimentare con campi calcolati. Alcune delle più recenti tecnologie SQL-on-Hadoop (ad esempio, i progetti Impala di Cloudera e Stringer di Hortonworks) sono ideate per affrontare questa limitazione.

 

Vedi anche

Grazie per il tuo feedback.Il tuo feedback è stato inviato. Grazie!