Strutturare i dati per l’analisi

Alcuni concetti sono fondamentali per comprendere la preparazione dei dati e come strutturare i dati per l’analisi. I dati possono essere generati, acquisiti e memorizzati in un’ampia varietà di formati, ma quando si tratta di analisi, non tutti i formati di dati sono uguali.

La preparazione dei dati è il processo che consente di ottenere dati ben formattati in una singola tabella o in più tabelle correlate, in modo che possano essere analizzati in Tableau. Questo comprende sia la struttura, ovvero le righe e le colonne, sia gli aspetti relativi alla pulizia dei dati, come i tipi di dati corretti e i valori corretti dei dati.

Suggerimento: può essere utile consultare il seguente argomento con un proprio insieme di dati. Se non hai già un insieme di dati che puoi utilizzare, consulta i suggerimenti per trovare buoni insiemi di dati(Il collegamento viene aperto in una nuova finestra).

Impatto della struttura sull’analisi

La struttura dei tuoi dati potrebbe non essere qualcosa che puoi controllare. Nella parte restante di questo argomento si presuppone che tu abbia accesso ai dati non elaborati e agli strumenti necessari per modellarli, ad esempio Tableau Prep Builder. Tuttavia, potrebbero esistere situazioni in cui non puoi eseguire il pivot o aggregare i dati nel modo desiderato. Spesso è comunque possibile eseguire l’analisi, ma potrebbe essere necessario modificare i calcoli o il proprio approccio ai dati. Per un esempio di come eseguire la stessa analisi con strutture di dati diverse, consulta Scenari di vita quotidiana con Tableau Prep: Analisi con la seconda data in Tableau Desktop(Il collegamento viene aperto in una nuova finestra). Se tuttavia riesci a ottimizzare la struttura dei dati, questo probabilmente renderà la tua analisi molto più semplice.

Struttura dei dati

Tableau Desktop funziona al meglio con i dati presenti in tabelle formattate come un foglio di calcolo. In altre parole, si tratta di dati memorizzati in righe e colonne, con intestazioni di colonna nella prima riga. Che cos’è una riga o una colonna?

Cos’è una riga?

Una riga, o un record, può essere qualsiasi cosa, da informazioni su una transazione in un punto vendita a misurazioni meteorologiche in un luogo specifico o statistiche su un post sui social media.

È importante sapere cosa rappresenta un record (riga) nei dati. Questa è la granularità dei dati.

In questo caso, ogni record è un giornoIn questo caso, ogni record è un mese

Suggerimento: una procedura consigliata è quella di avere un identificatore univoco (UID), ovvero un valore che identifichi ogni riga come un unico dato. È paragonabile a un numero di previdenza sociale o un URL per ogni record. In Superstore, si tratta di ID riga. Tieni presente che non tutti gli insiemi di dati hanno un UID, ma in ogni caso averne uno non rappresenta un problema.

Assicurati di essere in grado di rispondere alla domanda "Cosa rappresenta una riga nell’insieme di dati?". Ciò equivale a chiedersi "Cosa rappresenta il campo NomeTabella(Conteggio)?". Se non si riesce a rispondere, i dati potrebbero essere non essere sufficientemente strutturati per l’analisi.

Aggregazione e granularità

Un concetto legato a ciò che costituisce una riga è l’idea di aggregazione e granularità, che sono gli estremi opposti di uno spettro.

Aggregazione

  • si riferisce al modo in cui più valori di dati vengono riuniti in un singolo valore, come ad esempio il conteggio di tutte le ricerche di "pumpkin spice" su Google o la media di tutte le letture della temperatura intorno a Seattle in un determinato giorno.

  • Per impostazione predefinita, le misure in Tableau sono sempre aggregate. L’aggregazione predefinita è SUM. È possibile modificare l’aggregazione in opzioni come la media, la mediana, il conteggio dei valori univoci, il minimo e così via.

Granularità

  • si riferisce a quanto sono dettagliati i dati. Cosa rappresenta una riga (o un record) nell’insieme di dati? Una persona con la malaria? Il totale di casi di malaria nelle province per un mese? Questa è la granularità.

  • Conoscere la granularità dei dati è fondamentale per lavorare con le espressioni Level of Detail (LOD).

Comprendere l’aggregazione e la granularità è un concetto critico per diversi motivi. Influisce su elementi come identificare insiemi di dati utili, creare la visualizzazione desiderata, correlare o eseguire il join dei dati correttamente e utilizzare le espressioni LOD.

Suggerimento: per maggiori informazioni, consulta Aggregazione di dati in Tableau.

Cos’è un campo o una colonna?

Una colonna di dati in una tabella è visualizzata in Tableau Desktop come un campo nel riquadro Dati, ma si tratta essenzialmente di termini intercambiabili (il termine colonna viene impiegato in Tableau Desktop per l’utilizzo negli spazi Colonne e Righe e per descrivere determinate visualizzazioni). Un campo di dati deve contenere elementi che possono essere raggruppati in una relazione più ampia. Gli elementi stessi sono denominati valori o membri (solo le dimensioni distinte contengono membri).

I valori consentiti in un determinato campo dipendono dal dominio del campo (vedi la nota seguente). Ad esempio, una colonna per "reparti di alimentari" potrebbe contenere i membri "rosticceria", "panetteria", "frutta e verdura" e così via, ma non "pane" o "salame" perché questi sono elementi, non reparti. In altre parole, il dominio del campo dei reparti è limitato solo ai possibili reparti di alimentari.

Inoltre, un insieme di dati ben strutturato avrebbe una colonna per "Vendite" e una colonna per "Profitto", non una singola colonna per "Denaro", perché il profitto è un concetto distinto dalle vendite.

  • Il dominio del campo Vendite sarebbe costituito dai valori ≥ 0, poiché le vendite non possono essere negative.

  • Il dominio del campo Profitto, invece, sarebbero tutti i valori, perché il profitto può essere negativo.

Nota: per dominio si possono intendere anche i valori presenti nei dati. Se la colonna "reparto di alimentari" contenesse erroneamente "salame", in base a questa definizione, tale valore sarebbe nel dominio della colonna. Le definizioni sono leggermente contraddittorie. Una indica i valori che potrebbero o dovrebbero essere presenti, l’altra i valori che sono effettivamente presenti.

Categorizzazione dei campi

Ogni colonna nella tabella dei dati viene visualizzata in Tableau Desktop come un campo, che appare nel riquadro Dati. I campi in Tableau Desktop devono essere una dimensione o una misura (separate da una linea nelle tabelle nel riquadro Dati) e distinti o continui (con diversi colori: i campi blu sono distinti e i campi verdi sono continui).

  • Le dimensioni sono qualitative, ovvero non possono essere misurate ma vengono invece descritte. Le dimensioni sono spesso cose come città o paese, colore degli occhi, categoria, nome della squadra e così via. Le dimensioni sono in genere distinte.

  • Le misure sono quantitative, ovvero possono essere misurate e registrate tramite numeri. Le misure possono essere cose come le vendite, l’altezza, i clic e così via. In Tableau Desktop, le misure sono aggregate automaticamente. L’aggregazione predefinita è SUM. Le misure sono di solito continue.

  • Distinto significa separato individualmente. Toyota è distinto da Mazda. In Tableau Desktop, i valori distinti vengono presentati nella vista come un’etichetta e creano riquadri.

  • Continuo significa che forma un insieme ininterrotto. 7 è seguito da 8 e quindi, alla stessa distanza, da 9, e 7,5 cadrebbe a metà strada tra 7 e 8. In Tableau Desktop, i valori continui vengono presentati nella vista come un asse.

  • Le dimensioni in genere sono distinte, mentre le misure di solito sono continue. Tuttavia, potrebbe non essere sempre così. Le date possono essere discrete o continue.

    • Le date sono dimensioni e vengono automaticamente presentate nella vista come distinte (ovvero come parti di data, ad esempio "agosto", che considera il mese di agosto senza considerare altre informazioni come l’anno). Una linea di tendenza applicata a una sequenza temporale con date distinte sarà suddivisa in più linee di tendenza, una per riquadro.

    • Possiamo scegliere di utilizzare date continue, se lo preferiamo (ovvero troncamenti della data, come "agosto 2024", che è diverso da "agosto 2025"). Una linea di tendenza applicata a una sequenza temporale con date continue avrà un’unica linea di tendenza per l’intero asse delle date.

Suggerimento: per maggiori informazioni, consulta Dimensioni e misure, blu e verde.

In Tableau Prep, non viene fatta distinzione per le dimensioni o le misure. La comprensione dei concetti alla base di distinto o continuo è tuttavia importante per cose come la visualizzazione dei dettagli rispetto alla presentazione riepilogativa dei dati nel riquadro di profilo.

  • Dettaglio: la vista di dettaglio mostra ogni elemento del dominio come un’etichetta distinta e dispone di una barra di scorrimento per fornire una panoramica visiva di tutti i dati.

  • Riepilogo: la vista di riepilogo mostra i valori raggruppati su un asse continuo sotto forma di istogramma.

Raggruppamento e istogrammi

Un campo come l’età o lo stipendio è considerato continuo. Esiste una relazione tra l’età di 34 e 35 anni e i 34 anni sono lontani dai 35 come i 35 dai 36. Tuttavia, una volta superata l’età di 10 anni circa, in genere smettiamo di dire cose come "9 e mezzo" o "7 e ¾". Stiamo già raggruppando la nostra età a incrementi ordinati in base all’anno. Chi ha 12.850 giorni di età è più vecchio di chi ha 12.790 giorni, ma diciamo comunque che hanno entrambi 35 anni. Allo stesso modo, spesso vengono utilizzate fasce d’età al posto delle età effettive. I prezzi dei biglietti del cinema ridotti potrebbero essere per i ragazzi sotto i 12 anni oppure un sondaggio potrebbe chiederti di selezionare la tua fascia d’età, ad esempio 20-24, 25-30 e così via.

Gli istogrammi sono utilizzati per visualizzare la distribuzione dei dati numerici utilizzando il raggruppamento. Un istogramma è simile a un grafico a barre, ma invece di rappresentare categorie distinte per ogni barra, i rettangoli che compongono l’istogramma si estendono su un raggruppamento di un asse continuo, ad esempio l’intervallo del numero di fiori (0-4, 5-9, 10-14 e così via). L’altezza dei rettangoli è determinata dalla frequenza o dal conteggio di tali valori. In questo caso, l’asse y è il conteggio delle piante che ricadono in ogni raggruppamento. Sette piante hanno 0-4 fiori, due piante hanno 5-9 fiori e 43 piante hanno 20-24 fiori.

Istogramma del numero di fiori per numero di piante

In Tableau Prep, la vista di riepilogo è un istogramma di valori raggruppati. La vista di dettaglio mostra la frequenza per ogni valore e contiene una barra di scorrimento visiva sul lato che mostra la distribuzione complessiva dei dati.

Vista di riepilogoVista di dettaglio
Screenshot della vista di riepilogo in Tableau PrepScreenshot della vista dei dettagli in Tableau Prep

Distribuzioni e outlier

Osservare la distribuzione di un insieme di dati può essere d’aiuto per il rilevamento di outlier.

  • Distribuzione: la forma dei dati in un istogramma, anche se questo dipende dalle dimensioni dei raggruppamenti. La possibilità di vedere tutti i dati in una vista con un istogramma può aiutare a determinare se i dati sembrano corretti e completi. La forma della distribuzione sarà utile solo se si conoscono i dati e si è in grado di interpretare se la distribuzione ha senso o meno.

    • Ad esempio, se dovessimo osservare un insieme di dati che rappresenta il numero di abitazioni con connessione Internet a banda larga dal 1940 al 2017, ci aspetteremmo di vedere una distribuzione molto diseguale. Tuttavia, se dovessimo considerare il numero di abitazioni con connessione Internet a banda larga da gennaio 2017 a dicembre 2017, ci aspetteremmo una distribuzione abbastanza uniforme.

    • Se dovessimo osservare un insieme di dati delle ricerche su Google di "pumpkin spice latte", ci aspetteremmo di vedere un picco piuttosto brusco in autunno, mentre le ricerche di "convertire Celsius in Fahrenheit" sarebbero probabilmente abbastanza stabili.

  • Outlier: un valore estremo rispetto agli altri valori. Gli outlier possono essere valori corretti o possono essere indicativi di un errore.

    • Alcuni outlier sono corretti e indicano anomalie effettive. Tali valori non devono essere rimossi o modificati.

    • Alcuni outlier indicano problemi di pulizia dei dati, come ad esempio uno stipendio di 50 dollari invece di 50.000 dollari perché al posto del punto è stata digitata una virgola.

Rilevamento visivo degli outlier con le distribuzioni

Se dovessi vedere un elenco come questo:

a prima vista non sembrerebbe contenere nulla di strano. Tuttavia, se invece di un elenco di etichette, questo venisse tracciato su un asse raggruppato continuo, avrebbe il seguente aspetto:

In questo caso, risulta molto più evidente che l’ultima osservazione è molto lontana dalla prima e potrebbe essere un outlier dovuto a un errore.

Tipi di dati

I database, a differenza dei fogli di calcolo, in genere applicano regole rigide per i tipi di dati. I tipi di dati classificano i dati in un determinato campo e forniscono informazioni su come i dati devono essere formattati, interpretati e quali operazioni possono essere eseguite su tali dati. Ad esempio, ai campi numerici possono essere applicate operazioni matematiche, mentre i campi geografici possono essere rappresentati su una mappa.

Tableau Desktop stabilisce se un campo è una dimensione o una misura, ma i campi hanno altre caratteristiche che dipendono dal relativo tipo di dati. I tipi di dati sono indicati dall’icona che contraddistingue ogni campo (anche se alcuni tipi condividono la stessa icona). Tableau Prep utilizza gli stessi tipi di dati. Se il tipo di dati è applicato su una colonna e un valore esistente non corrisponde al tipo di dati assegnato, può essere visualizzato come Null (perché "viola" non ha alcun significato come numero).

Alcune funzioni richiedono tipi di dati specifici. Ad esempio, non è possibile utilizzare CONTAINS con un campo numerico. Le funzioni di tipo vengono utilizzate per modificare il tipo di dati di un campo. Ad esempio, DATEPARSE può accettare una data di testo in un formato specifico e trasformarla in una data, consentendo operazioni come il drill-down automatico nella vista.

IconaTipo di dati
Valori testo (stringa)
Valori data
Valori di tempo e data
Valori numerici
Valori booleani (solo relazionali)
Valori geografici (utilizzati con le mappe)

Suggerimento: per maggiori informazioni, consulta l’articolo della Guida sui tipi di dati.

Trasformare i dati tramite pivot e UnPivot

I dati leggibili dagli esseri umani spesso vengono acquisiti e registrati in un formato ampio, con molte colonne. I dati leggibili dai computer, preferibili dal punto di vista di Tableau, sono migliori in un formato alto, con meno colonne e più righe.

Nota: tradizionalmente, trasformare i dati tramite pivot indica passare da un formato alto a uno ampio (da righe a colonne), mentre trasformare i dati tramite UnPivot indica passare da un formato ampio a uno alto (da colonne a righe). Tuttavia, Tableau usa il termine pivot per indicare il passaggio dal formato ampio (leggibile dagli esseri umani) al formato alto (leggibile dai computer), trasformando le colonne in righe. In questo documento, la parola pivot sarà utilizzata nel senso attribuito al termine da Tableau. Per chiarezza, può essere utile specificare "trasformare colonne in righe tramite pivot" o "trasformare righe in colonne tramite pivot".

Per maggiori informazioni, fai riferimento agli articoli della Guida Trasformare dati tramite pivot e Suggerimenti per lavorare con i dati.

Dati in formato ampio

Nell’insieme di dati dell’OMS sulla malaria è presente una colonna per il paese, quindi una colonna per ogni anno. Ogni cella rappresenta il numero di casi di malaria per un determinato paese e anno. In questo formato abbiamo 108 righe e 16 colonne.

Dati sulla malaria in formato ampio

È facile per una persona leggere e interpretare questo formato. Tuttavia, se dovessimo portare questi dati in Tableau Desktop, otterremmo un campo per ogni colonna. Abbiamo un campo per il 2000, un campo per il 2001, un campo per il 2002 e così via.

Screenshot di dati sulla malaria in formato ampio in Tableau Desktop

Per esaminare il concetto in un altro modo, ci sono 15 campi che rappresentano tutti lo stesso elemento di base (il numero di casi di malaria segnalati) e nessun campo singolo per il tempo. Questo rende molto difficile effettuare analisi nel tempo, poiché i dati sono archiviati in campi separati.

Esempio: lavorare con dati in formato ampio

D: Come possiamo creare una mappa che mostri il numero totale di casi di malaria per ogni paese dal 2000 al 2014? 

R: Crea un campo calcolato per sommare tutti gli anni.

Nota: questa immagine non è stata aggiornata in modo da riflettere l’interfaccia utente più recente. Il riquadro Dati non mostra più le dimensioni e le misure come etichette.

 

Un’altra indicazione del fatto che questo formato non è ideale per l’analisi è fornita dall’assenza di informazioni sul significato dei valori effettivi. Per l’Algeria nel 2012 abbiamo il valore 55. Cinquantacinque cosa? Non è chiaro dalla struttura dei dati.

Se il nome della colonna non descrive cosa sono i valori ma comunica informazioni aggiuntive, questo è un segno che i dati devono essere trasformati tramite pivot.

Dati in formato alto

Se trasformiamo i dati tramite pivot, li rimodelliamo dal formato ampio a quello alto. Ora, invece di avere una colonna per ogni anno, abbiamo una sola colonna, Anno, e una nuova colonna, Casi segnalati. In questo formato abbiamo 1.606 righe e 3 colonne. Questo formato di dati è più alto che ampio.

Ora in Tableau Desktop abbiamo un campo per l’anno e un campo per i casi segnalati, oltre al campo Paese originale. È molto più facile effettuare analisi perché ogni campo rappresenta una qualità unica dell’insieme di dati: la posizione, il tempo e il valore.

Nota: questa immagine non è stata aggiornata in modo da riflettere l’interfaccia utente più recente. Il riquadro Dati non mostra più le dimensioni e le misure come etichette.

Esempio: lavorare con dati in formato alto

D: Come possiamo creare una mappa che mostri il numero totale di casi di malaria per ogni paese dal 2000 al 2014? 

R: Utilizza il campo Casi segnalati.

Nota: questa immagine non è stata aggiornata in modo da riflettere l’interfaccia utente più recente. Il riquadro Dati non mostra più le dimensioni e le misure come etichette.

Ora è facile vedere che per l’Algeria nel 2012, il valore 55 si riferisce al numero di casi segnalati (perché potremmo etichettare questa nuova colonna).

Nota: in questo esempio, i dati in formato ampio consistevano in un unico record per ogni paese. Con i dati in formato alto, ora sono presenti 15 righe per ogni paese (una per ciascuno dei 15 anni dei dati). È importante tenere presente che ora ci sono più righe per ogni paese.

Se ci fosse una colonna per l’area territoriale, tale valore verrebbe ripetuto per ognuna delle 15 righe per ogni paese in una struttura di dati in formato alto. Se si crea un grafico a barre trascinando Paese su Righe e Area territoriale su Colonne, per impostazione predefinita la vista sommerebbe l’area territoriale per tutte e 15 le righe per ogni paese.

Per alcuni campi può essere necessario compensare il doppio conteggio dei i valori aggregandoli con una media o un minimo anziché con una somma o un filtro.

Normalizzazione

I database relazionali sono costituiti da più tabelle che possono essere correlate o collegate in qualche modo. Ogni tabella contiene un identificatore univoco, o chiave, per ogni record. Correlando o eseguendo il join delle chiavi, i record possono essere collegati per fornire maggiori informazioni rispetto a quelle contenute in una singola tabella. Le informazioni contenute in ogni tabella dipendono dal modello di dati utilizzato, ma il principio generale è quello di ridurre la duplicazione.

Prendiamo ad esempio la pianificazione di un evento come un matrimonio. Dobbiamo tenere traccia di informazioni a livello di gruppi (come le famiglie o le coppie) e di individui.

Si potrebbe creare una tabella che combini tutte le informazioni insieme: 

Tuttavia, se un indirizzo è errato e deve essere corretto, è necessario correggerlo su più righe, il che può generare errori o conflitti. Una struttura migliore prevede la creazione di due tabelle, una per le informazioni che riguardano il gruppo (come l’indirizzo e l’indicazione dell’invio dell’invito) e una per le informazioni che riguardano i singoli (per elementi come l’assegnazione dei posti a sedere e le restrizioni alimentari).

Tabella di gruppoTabella individuale

È molto più facile registrare e analizzare le informazioni a livello di gruppo nella tabella di gruppo e le informazioni a livello individuale nella tabella individuale. Ad esempio, il numero di sedie necessarie può essere ottenuto dal numero di record nella tabella individuale per cui Partecipante = Sì, mentre il numero di francobolli necessari per i biglietti di ringraziamento può essere ottenuto dal numero di record nella tabella di gruppo dove Regalo non è Null.

Il processo di scomposizione di tutti i dati in più tabelle - e di determinazione delle colonne contenute in ogni tabella - è definito normalizzazione. La normalizzazione aiuta a ridurre i dati ridondanti e semplifica l’organizzazione del database.

Tuttavia, talvolta possono essere necessarie informazioni che interessano più tabelle. Ad esempio, cosa succederebbe se volessimo bilanciare la disposizione dei posti a sedere (individuali) in modo tale che i gruppi associati alla sposa si mescolino con i gruppi associati allo sposo? (L’affiliazione alla sposa o allo sposo è registrata a livello di gruppo). A tale scopo, dobbiamo correlare le tabelle in modo che gli individui siano associati alle informazioni sul relativo gruppo. Una corretta normalizzazione non si limita a scomporre le tabelle, ma richiede anche la presenza di un campo correlato condiviso o di un identificatore univoco che possa essere utilizzato per combinare nuovamente i dati. In questo caso, il campo correlato è Gruppo. Tale campo è presente in entrambe le tabelle, quindi possiamo eseguire un join in base a questo campo e tornare al nostro formato originale con una singola tabella. Questa è una struttura denormalizzata.

Perché non abbiamo mantenuto la tabella originale denormalizzata? Perché è più difficile da gestire e memorizzava informazioni ridondanti. Su larga scala, il livello di duplicazione dei dati può diventare enorme. Archiviare più volte le stesse informazioni non è efficiente.

Le tabelle normalizzate hanno alcune proprietà chiave:

  • Ogni riga richiede un identificatore unico

  • Ogni tabella richiede una o più colonne che possono essere utilizzate per ricollegarla ad altre tabelle (chiave).

Queste colonne (chiave) condivise vengono utilizzate per correlare o eseguire il join delle tabelle. Per i nostri dati, la relazione o la clausola di join verrebbe applicata al campo Gruppo di ogni tabella.

Tipi di join

Anche se il metodo predefinito per la combinazione dei dati in Tableau Desktop è la correlazione, in alcuni casi potrebbe essere preferibile eseguire il join delle tabelle in Tableau Desktop o Tableau Prep Builder. Per una panoramica di base dei join e dei tipi di join, consulta Creare un join dei dati.

Dati "ordinati"

Nel 2014 Hadley Wickham ha pubblicato un articolo sul Journal of Statistical Software intitolato "Tidy Data" (agosto 2014, volume 59, numero 10). Questo articolo delinea in modo eccellente un framework per i dati ben strutturati per l’analisi. L’articolo è disponibile qui (portfolio accademico di Hadley Wickham)(Il collegamento viene aperto in una nuova finestra) o qui (ospitato da r-project.org)(Il collegamento viene aperto in una nuova finestra).

Nota: l’articolo è ospitato su siti Web esterni. Tableau non si assume alcuna responsabilità per l’accuratezza o l’aggiornamento delle pagine gestite da fornitori esterni. Contatta i proprietari se hai domande sul loro contenuto.

Grazie per il tuo feedback.Il tuo feedback è stato inviato. Grazie!