Configurare l'insieme di dati
Nota: a partire dalla versione 2020.4.1, è ora possibile creare e modificare flussi in Tableau Server e Tableau Cloud. Il contenuto di questo argomento si applica a tutte le piattaforme, a meno che non venga indicato in modo specifico. Per maggiori informazioni sulla creazione di flussi sul web, consulta Tableau Prep sul web nella Guida di Tableau Server(Il collegamento viene aperto in una nuova finestra) e Tableau Cloud(Il collegamento viene aperto in una nuova finestra).
Per determinare la quantità di dati con cui lavorare nel flusso, puoi configurare l'insieme di dati. Quando ti connetti ai dati o trascini le tabelle nel riquadro Flusso, a quest'ultimo viene aggiunta automaticamente una fase di input.
Nella fase di input puoi decidere quali e quanti dati includere nel flusso. È sempre la prima fase all'interno del flusso.
Se sei connesso a un file di testo o Excel, puoi anche aggiornare i dati dalla fase di input. Per ulteriori informazioni, consulta Aggiungere altri dati nella fase di input(Il collegamento viene aperto in una nuova finestra).
Nella fase di input puoi:
- Fare clic con il pulsante destro del mouse o premere Cmd-clic (MacOS) nel riquadro con il flusso per rinominare o rimuovere la fase.
- Unificare più file nella stessa directory principale o sottodirectory. Per ulteriori informazioni, consulta Unificare file e tabelle di database nella fase di input.
- (versione 2023.1 e successive) Includi i numeri di riga generati automaticamente in base all'ordinamento originale del tuo insieme di dati. Consulta Includere i numeri di riga dell'insieme di dati.
- Cercare i campi.
- Vedere gli esempi dei valori di campo.
Configurare le proprietà dei campi modificando il nome del campo oppure configurare le impostazioni del testo per i file di testo.
Nota: i valori dei campi che includono le parentesi quadre vengono automaticamente convertiti in parentesi tonde.
- Eseguire azioni per modificare i dati con cui lavorare nel flusso. Consulta Impostare la dimensione del campione di dati.
- Configura il campione di dati inserite nel flusso.
- Rimuovi i campi non necessari. Puoi sempre tornare alla fase di input e includerli in un secondo momento.
- Nascondi i campi che non hai l'esigenza di pulire, ma che desideri comunque includere nell'output del flusso. Puoi mostrarli in qualsiasi momento se necessario.
- Applica i filtri ai campi selezionati.
Modifica il tipo di dati del campo per le connessioni dati che lo supportano.
Le connessioni includono i file di Microsoft Excel, di testo e PDF, i dati di Box, Dropbox, Google Drive e OneDrive. Per le altre origini dati puoi modificare il tipo di dati in una fase di pulizia.
Per maggiori informazioni, consulta Rivedi i tipi di dati assegnati ai tuoi dati.
Includere i numeri di riga dell'insieme di dati
Supportato in Tableau Prep Builder versione 2023.1 e successive e sul Web per i file di Microsoft Excel e di testo (.csv).
Nota: questa opzione non è attualmente supportata per i file inclusi in un'unificazione di input.
A partire dalla versione 2023.1, Tableau Prep genera automaticamente i numeri di riga in base all'ordinamento originale dei dati che puoi includere come nuovo campo nel flusso. Questo è disponibile solo per i tipi di file Microsoft Excel o testo (.csv).
Nelle versioni precedenti, se volevi includere questi numeri di riga, dovevi aggiungerli manualmente all'origine prima di aggiungere l'insieme di dati al flusso.
Questo campo viene generato nella fase di input quando ti connetti ai tuoi dati. Per impostazione predefinita, è escluso dal flusso, ma è possibile includerlo con un clic. Se scegli di includerlo, si comporta come qualsiasi altro campo e può essere utilizzato nelle operazioni di flusso e nei campi calcolati.
Tableau Prep supporta anche la funzione ROW_NUMBER per i campi calcolati. Questa funzione è utile quando nell'insieme di dati sono presenti campi che possono definire l'ordinamento, ad esempio ID riga o Timestamp. Per ulteriori informazioni sull'utilizzo di questa funzione, consulta Creare calcoli Level of Detail, di classificazione e di sezione.
Aggiungere il campo Numero di riga origine al flusso
Fai clic con il pulsante destro del mouse o Cmd-clic (MacOS) sul campo oppure fai clic sul menu Altre opzioni
e seleziona Includi campo.
L'elenco delle modifiche viene cancellato, il campo fa ora parte dei dati del flusso ed è possibile visualizzare i numeri di riga generati nelle successive fasi del flusso.
Dettagli del numero di riga origine
Quando includi il file Numero di riga origine nel tuo insieme di dati, si applicano le seguenti opzioni e considerazioni.
- I numeri di riga dell'origine dati vengono applicati prima di qualsiasi campione o filtro dei dati.
- Questo crea un nuovo campo chiamato Numero di riga origine che persiste per tutto il flusso. Questo nome campo non è localizzato, ma può essere rinominato in qualsiasi momento.
- Se esiste già un campo con questo nome, il nuovo nome campo viene incrementato di 1. Ad esempio Numero di riga origine-1, Numero di riga origine-2 e così via.
- È possibile modificare il tipo di dati del campo nelle fasi successive.
- È possibile utilizzare questo campo nelle operazioni di flusso e nei calcoli.
- Questo valore viene rigenerato per l'intero insieme di dati ogni volta che i dati di input vengono aggiornati o il flusso viene eseguito.
- Questo campo non è disponibile per le unificazioni di input.
Connettersi a una query SQL personalizzata
Se il tuo database supporta l'uso di SQL personalizzato, verrà visualizzato SQL personalizzato nella parte inferiore del riquadro Connessioni. Fai doppio clic su SQL personalizzato per aprire la scheda SQL personalizzato, in cui è possibile inserire query per preselezionare i dati e utilizzare operazioni specifiche per le origini. Una volta che la query ha recuperato l'insieme di dati, puoi selezionare i campi da includere, applicare filtri o modificare il tipo di dati prima di aggiungere i dati al flusso.
Per maggiori informazioni sull'utilizzo di SQL personalizzato, consulta Utilizzare SQL personalizzato per connettersi ai dati.
Applicare operazioni di pulizia in una fase di input
Solo alcune operazioni di pulizia sono disponibili in una fase di input. Puoi effettuare una qualsiasi delle seguenti modifiche nell'elenco dei campi di input. Le modifiche vengono monitorate nel riquadro Modifiche e le annotazioni appaiono a sinistra della fase di input nel riquadro Flusso e nell'elenco dei campi di input.
- Nascondi campo: nascondi i campi invece di rimuoverli per ridurre il disordine del flusso. Puoi sempre mostrarli se necessario. I campi nascosti verranno comunque inclusi nell'output durante l'esecuzione del flusso.
- Filtro: utilizza l'editor di calcolo per filtrare i valori. In alternativa, a partire dalla versione 2023.1, puoi utilizzare la finestra di dialogo Filtro data relativa per specificare rapidamente gli intervalli di date per qualsiasi campo data o data e ora.
Rinomina campo: nel campo Nome campo, fai doppio clic (o clic tenendo premuto il tasto Ctrl su Mac) sul nome del campo e inseriscine uno nuovo.
Cambia tipo di dati: fai clic sul tipo di dati per il campo e seleziona un nuovo tipo di dati dal menu. Questa opzione è attualmente supportata per origini dati Microsoft Excel, file di testo e PDF, Box, Dropbox, Google Drive e OneDrive. Tutte le altre origini dati possono essere modificate in una fase di pulizia.
Selezionare i campi da includere nel flusso
Nota: a partire dalla versione 2023.1 è possibile selezionare più campi per nasconderli, mostrarli, rimuoverli o includerli. Nelle versioni precedenti, è possibile lavorare con un campo alla volta e selezionare o deselezionare le caselle di controllo per includere o rimuovere i campi.
Il riquadro Input ti mostra un elenco di campi del tuo insieme di dati. Per impostazione predefinita, sono inclusi tutti i campi tranne il campo generato automaticamente, Numero di riga origine. Usa le seguenti opzioni per gestire i tuoi campi.
- Cerca: ricerca i campi nell'elenco.
- Nascondi: fai clic sull'icona a forma di occhio
o seleziona Nascondi campi dal menu Altre opzioni
per nascondere i campi che desideri includere nell'output del flusso, ma che non hai l'esigenza di pulire. I campi vengono elaborati dal flusso in fase di esecuzione. Puoi Mostrarli in qualsiasi momento se necessario. Per maggiori informazioni, consulta Nascondere i campi.(Il collegamento viene aperto in una nuova finestra)
- Includi campi: seleziona una o più righe e fai clic con il pulsante destro del mouse, Cmd-clic (MacOS) o fai clic sul menu Altre opzioni
e seleziona Includi campi per aggiungere campi contrassegnati come rimossi.
- Rimuovi campi: seleziona una o più righe e fai clic con il pulsante destro del mouse, Cmd-clic (MacOS), fai clic sulla "X" o fai clic sul menu Altre opzioni
e seleziona Rimuovi campi per rimuovere i campi che non desideri includere nel flusso.
Applicare filtri ai campi nella fase di Input
Applica i filtri nella fase di input per ridurre la quantità di dati importati dalle tue origini dati. Puoi ottenere l'efficienza delle prestazioni interattive e un campione di dati più utile eliminando i dati che non vuoi elaborare quando esegui il flusso.
Nella fase di input è possibile applicare filtri utilizzando l'editor di calcolo. A partire dalla versione 2023.1, puoi anche utilizzare la finestra di dialogo Filtro data relativo per specificare un intervallo di date esatto di valori da includere per i tipi di campo data e data e ora. Per ulteriori informazioni, consulta "Filtro data relativa" in Filtrare i dati(Il collegamento viene aperto in una nuova finestra).
Puoi utilizzare altre opzioni di filtro nel passaggio Pulisci o in altri tipi di passaggio. Per ulteriori informazioni, vedi Filtrare i dati(Il collegamento viene aperto in una nuova finestra).
Applicare un filtro di calcolo
Nella barra degli strumenti fare clic su Filtra valori o nella griglia del campo, fare clic su Più opzioni
menu e selezionare Filtro > Calcolo....
Inserisci i tuoi criteri di filtro nell'editor di calcolo.
Applicare un filtro data relativa
Nella griglia di input seleziona un campo con un tipo di dati Data o Data e ora. Quindi fai clic con il pulsante destro del mouse, Cmd-clic (MacOS) o fai clic sul menu Altre opzioni
e seleziona Filtro > Date relative.
Nella finestra di dialogo Filtro data relativa specifica l'esatto intervallo di anni, trimestri, mesi, settimane o giorni che vuoi includere nel flusso. Puoi configurare anche un riferimento relativo a una data specifica e includere valori NULL.
Nota: per impostazione predefinita, il filtro opera in relazione alla data in cui il flusso viene eseguito o visualizzato in anteprima all'interno dell'esperienza di creazione.
Modificare i nomi dei campi
Per modificare il nome di un campo, seleziona il nome nella colonna Nome del campo, quindi digita il nuovo nome nel campo. Nella griglia di campo e nel riquadro di flusso a sinistra della fase di Input viene aggiunta un'annotazione. Le modifiche vengono tracciate anche nel riquadro Modifiche.
Modificare i tipi di dati
Attualmente supportata per origini dati Microsoft Excel, file di testo e PDF, Box, Dropbox, Google Drive e OneDrive. Tutte le altre origini dati possono essere modificate in una fase di pulizia.
Nota: il tipo di dati per il numero di riga di origine (versione 2023.1 e successive) può essere modificato solo in una fase di pulizia o in un altro tipo di fase.
Per modificare il tipo di dati di un campo, esegui i seguenti passaggi:
Fai clic sul tipo di dati del campo.
Seleziona il nuovo tipo di dati dal menu.
Puoi inoltre modificare il tipo di dati per i campi in altri tipi di fasi nel flusso o assegnare ruoli di dati per aiutare a convalidare i valori dei campi. Per ulteriori informazioni sulla modifica del tipo di dati o sull'utilizzo dei ruoli dati, vedi Rivedi i tipi di dati assegnati ai tuoi dati(Il collegamento viene aperto in una nuova finestra) e Utilizzare i ruoli dati per convalidare i dati(Il collegamento viene aperto in una nuova finestra).
Configurare le proprietà del campo
Quando lavori con i file di testo, viene visualizzata la scheda Impostazioni, in cui puoi modificare la connessione e configurare le proprietà del testo, come il separatore di campo per i file di testo. È inoltre possibile modificare la connessione del file nel riquadro Connessioni o configurare le impostazioni per l'aggiornamento incrementale. Per maggiori informazioni sull'impostazione dell'aggiornamento incrementale per il flusso, consulta Aggiornare i dati del flusso tramite l'aggiornamento incrementale.
Quando lavori con file di testo o Excel, puoi correggere i tipi di dati che sono stati estrapolati in modo errato prima ancora di iniziare il flusso. I tipi di dati possono sempre essere modificati nelle fasi successive nel riquadro Profilo dopo aver avviato il flusso.
Configurare le impostazioni del testo nei file di testo
Per modificare le impostazioni utilizzate per analizzare i file di testo, seleziona una delle seguenti opzioni:
La prima riga contiene l'intestazione (predefinita): seleziona questa opzione per utilizzare la prima riga come etichetta del campo.
Genera nomi campo automaticamente: seleziona questa opzione se desideri che Tableau Prep Builder generi automaticamente le intestazioni dei campi. La convenzione di denominazione dei campi segue lo stesso modello di Tableau Desktop. Ad esempio F1, F2 e così via.
Separatore di campo: seleziona un carattere dall'elenco da utilizzare per separare le colonne. Seleziona Altro per inserire un carattere personalizzato.
Qualificatore di testo: seleziona il carattere che racchiude i valori del file.
Insieme di caratteri: seleziona l'insieme di caratteri che descrive la codifica del file di testo.
Impostazioni locali: seleziona la directory da utilizzare per l'analisi dei file. Questa impostazione indica il separatore di decimali e migliaia da utilizzare.
Impostare la dimensione del campione di dati
Al fine di mantenere le prestazioni di picco, per impostazione predefinita Tableau Prep limita i dati inclusi nel flusso a un campione rappresentativo dell'insieme di dati. Il campione di dati viene determinato calcolando il numero ottimale di righe in base al numero totale di campi nell'insieme di dati e ai tipi di dati per tali campi. Tableau Prep recupera quindi il numero massimo di righe per l'importo calcolato il più rapidamente possibile.
Il campione di dati risultante può includere o meno tutte le righe necessarie, a seconda di come il campione è stato calcolato e restituito. Se non vedi i dati che avevi previsto, puoi modificare le impostazioni del campione di dati per eseguire nuovamente la query.
Quando si creano o si modificano flussi sul Web, vengono applicati limiti alla quantità di dati che è possibile includere in un flusso e le opzioni disponibili per modificare il campione di dati sono leggermente diverse rispetto a quando si lavora in Tableau Prep Builder. Per maggiori informazioni, consulta Dati campione e limiti di elaborazione nella Guida di Tableau Server(Il collegamento viene aperto in una nuova finestra) o Tableau Cloud(Il collegamento viene aperto in una nuova finestra).
Nota: se i dati vengono campionati, nel riquadro Profilo viene visualizzato un badge Campionato, che persiste per ogni fase che viene aggiunta. Qualsiasi modifica apportata si applica al campione con cui si sta lavorando nel flusso. Quando esegui il flusso, tutte le modifiche si applicano all'intero insieme di dati.
Per modificare le impostazioni del campione di dati, seleziona una fase di Input, quindi nella scheda Campione di dati seleziona una delle seguenti opzioni:
(2023.1—Automatico) (2022.4 e versioni precedenti—Importo campione predefinito): Tableau Prep calcola il numero totale di righe da restituire. Questa è la modalità predefinita.
(2023.1—Massimo) (2022.4 e versioni precedenti—Usa tutti i dati): (solo Tableau Prep Builder) recupera tutte le righe dell'insieme di dati, indipendentemente dalle dimensioni. Questa azione può influire sulle prestazioni o causare un time out di Tableau Prep Builder.
Nota: per preservare le prestazioni, anche se selezioni questa impostazione, ai tipi di fasi Aggrega e Unificazione viene applicato un limite di campionamento dati di 1 milione di righe, mentre ai tipi di fasi Join e Pivot viene applicato un limite di campionamento dati di 3 milioni di righe.
(2023.1—Specifica) (2022.4 e versioni precedenti—Numero fisso di righe): seleziona il numero di righe da restituire dall'insieme di dati. Il numero di righe consigliato è di 1 milione o inferiore. Impostare un numero di righe superiore a un milione può influire sulle prestazioni.
- In Web authoring: il numero massimo di righe che un utente può selezionare quando si utilizzano insiemi di dati di grandi dimensioni è configurato dall'amministratore. Un utente può selezionare il numero di righe fino a tale limite.
Selezione rapida (impostazione predefinita): il database restituisce il numero di righe richiesto nel minor tempo possibile. Questo potrebbe essere il primo numero N di righe o le righe che il database aveva memorizzato da una query precedente.
Campione casuale: il database restituisce il numero di righe richieste ma passa in rassegna ogni riga dell'insieme di dati e restituisce un campione rappresentativo di tutte le righe. Questa opzione può influire sulle prestazioni quando i dati vengono recuperati per la prima volta.