Trovare buoni insiemi di dati

Un buon modo per imparare a usare Tableau Desktop (o per creare contenuti di esempio o modelli di verifica) è trovare un insieme di dati interessante. Quando si hanno domande reali per cui si desidera trovare una risposta attraverso i dati, le fasi dell’analisi diventano più semplici e più significative.

La realtà degli insiemi di dati

Ci sono due fatti inevitabili rispetto al tentativo di trovare un insieme di dati che non siano dati ufficiali e approvati dall’azienda.

Non troverai quello che stai cercando.

  • Cerca di evitare aspettative eccessive riguardo a ciò di cui hai bisogno.
  • Rimani flessibile e aperto relativamente a ciò che puoi utilizzare per un determinato progetto.
  • Talvolta i dati che ti interessano sono accessibili a pagamento: decidi se ne vale la pena o meno.

Dovrai pulire i dati.

Caratteristiche di un buon insieme di dati

Un buon insieme di dati è quello che si adatta al tuo scopo. Finché questa esigenza viene soddisfatta, l’insieme di dati è valido. Tuttavia, ci sono alcune considerazioni che possono aiutarti a eliminare gli insiemi di dati che difficilmente si adattano al tuo scopo. In generale, cerca un insieme di dati che soddisfi le seguenti condizioni:

  1. Contiene gli elementi necessari
  2. Comprende dati disaggregati
  3. Include almeno un paio di dimensioni e un paio di misure
  4. Ha metadati ben definiti o un dizionario di dati
  5. È utilizzabile (non in un formato proprietario, troppo disordinato o troppo esteso)
Cosa rende speciale Superstore?

Superstore è una delle origini dati di esempio fornite con Tableau Desktop. Perché è un buon insieme di dati?

  • Elementi necessari: Superstore contiene date, dati geografici, campi con una relazione gerarchica (Categoria, Sottocategoria, Prodotto), misure positive e negative (Profitto) e così via. Ci sono pochissimi tipi di grafici che non si possono creare solo con Superstore e poche funzionalità che non si possono usare a scopo dimostrativo.
  • Dati disaggregati: i dati a livello di riga sono i singoli elementi di una transazione. Tali articoli possono essere raggruppati al livello dell’ordine (tramite ID ordine) o per una delle dimensioni (come data, cliente, regione e così via).
  • Dimensioni e misure: Superstore ha diverse dimensioni che ci permettono di analizzare i dati in base ad aspetti come categorie o città. Sono anche presenti più misure e date, che offrono diverse possibilità per tipi di grafici e calcoli.
  • Metadati: Superstore ha campi e valori ben definiti. Non c’è bisogno di cercare il significato di un valore.
  • Piccolo e pulito: Superstore ha una dimensione di pochi megabyte, quindi occupa uno spazio limitato nel programma di installazione di Tableau. I dati sono anche ordinati, con solo i valori corretti in ogni campo e una buona struttura dei dati.

1. Un buon insieme di dati contiene gli elementi necessari per i tuoi scopi

Se stai cercando un insieme di dati per creare una specifica visualizzazione o per presentare funzionalità specifiche, assicurati che l’insieme di dati includa i tipi di campi di cui hai bisogno. Ad esempio, le mappe sono ottime come elementi grafici, ma richiedono dati geografici. Le demo di base spesso prevedono l’esecuzione di drill-down nelle date, quindi i dati avrebbero bisogno di almeno un campo di data (con una granularità superiore a un anno per mostrare il drill down). Non tutti gli insiemi di dati richiedono tutti questi elementi: è importante sapere di cosa hai bisogno per il tuo scopo e non perdere tempo con insiemi di dati in cui mancano elementi chiave.

Elementi comuni per l’analisi:

  • Date
  • Dati geografici
  • Dati gerarchici
  • Misure "interessanti": una variazione sostanziale della grandezza o valori positivi e negativi

Alcune caratteristiche o tipi di viste possono richiedere specifiche caratteristiche dei dati, ad esempio: 

  • Cluster
  • Previsioni
  • Linea di tendenza
  • Filtri utente
  • Calcoli spaziali
  • Determinati calcoli
  • Grafici bullet
  • Grafici di controllo

2. Un buon insieme di dati comprende dati disaggregati (non elaborati)

Se i dati sono troppo aggregati, non c’è molto da fare per l’analisi. Ad esempio, se vuoi esaminare le tendenze nelle ricerche su Google di "pumpkin spice" ma disponi di dati annuali, puoi solo analizzare una panoramica di livello molto generale. Idealmente vorresti ottenere dati giornalieri, in modo da poter vedere il picco che si verifica quando Starbucks inizia a offrire #PSL.

Il livello di disaggregazione appropriato può variare in base all’analisi. Tieni presente che, per motivi di privacy o di praticità, alcuni insiemi di dati non saranno mai totalmente granulari. Ad esempio, è improbabile riuscire a trovare un insieme di dati con la segnalazione dei singoli casi di malaria, quindi i totali mensili per regione potrebbero offrire una granularità sufficiente.

Aggregazione e granularità

Comprendere l’aggregazione e la granularità è un concetto critico per diversi motivi. Influisce su elementi come identificare insiemi di dati utili, creare la visualizzazione desiderata, combinare i dati correttamente e utilizzare le espressioni LOD. Aggregazione e granularità sono gli estremi opposti di uno spettro.

L’aggregazione si riferisce al modo in cui i dati vengono combinati, come ad esempio la somma di tutte le ricerche di "pumpkin spice" o la media di tutte le letture della temperatura intorno a Seattle in un determinato giorno.

  • Per impostazione predefinita, le misure in Tableau sono aggregate. L’aggregazione predefinita è SUM. È possibile modificare l’aggregazione in elementi come la media, la mediana, il conteggio dei valori univoci, il minimo e così via.

La granularità si riferisce a quanto sono dettagliati i dati. Cosa rappresenta una riga (o un record) nell’insieme di dati? Una persona con la malaria? Il totale di casi di malaria nelle province per un mese? Questa è la granularità. Conoscere la granularità dei dati è fondamentale.

Per maggiori informazioni, consulta Aggregazione di dati in Tableau.

3. Un buon insieme di dati include dimensioni e misure

Molti tipi di visualizzazione richiedono dimensioni e misure

  • Se hai solo dimensioni, non puoi fare molto altro oltre che conteggiare, calcolare percentuali o utilizzare il campo Numero di record.
  • Se hai solo misure, non puoi suddividere i valori in base ad alcun elemento. Puoi disaggregare completamente i dati o lavorare a livello complessivo con SUM o AVG e così via.

Questo non significa che un insieme di dati che contiene solo dimensioni non possa essere utile. I dati demografici sono un esempio di dati con molte dimensioni e molte analisi di questi dati sono basate su conteggi o percentuali. Ma per un insieme di dati più ricco dal punto di vista analitico, occorrono almeno alcune dimensioni e misure.

Dimensioni e misure, distinte e continue

Il riquadro Dati e la scheda Indicatori che mostrano vari tipi di pillola

Nell’immagine precedente puoi notare che Dimensione numerica non ha un’aggregazione nella scheda Indicatori, a differenza di Misura continua e Misura distinta.

Dimensioni e misure

I campi sono suddivisi in dimensioni e misure con una linea orizzontale nel riquadro Dati. In Tableau, le dimensioni vengono presentate nella vista così come sono, mentre le misure vengono aggregate automaticamente. L’aggregazione predefinita per una misura è SUM.

  • Le dimensioni sono qualitative, nel senso che vengono descritte, non misurate.
    • Le dimensioni sono spesso cose come città o paese, colore degli occhi, categoria, nome della squadra e così via.
    • Le dimensioni sono in genere distinte.
  • Le misure sono quantitative, ovvero possono essere misurate e registrate (numeriche).
    • Le misure sono spesso cose come le vendite, l’altezza, il numero di clic e così via.
    • Le misure sono di solito continue.

Se puoi eseguire calcoli matematici con un campo, dovrebbe trattarsi di una misura. Se non sai con certezza se un campo dovrebbe essere una misura o una dimensione, chiediti se puoi eseguire calcoli matematici significativi con i valori. Hanno senso operazioni come AVG(RowID), la somma di due numeri di previdenza sociale o la divisione di un codice postale per 10? No. Sono dimensioni scritte come numeri. Pensa a quanti paesi hanno codici postali alfanumerici: sono semplici etichette, anche se negli Stati Uniti sono esclusivamente numerici. Tableau è in grado di riconoscere molti nomi di campi che indicano che un campo numerico è in realtà un ID o un codice postale e cerca di interpretarli come dimensioni, ma non è perfetto. Usa il test "potrei eseguire calcoli matematici con questi valori?" per decidere se un campo numerico deve essere una misura o una dimensione e riordina il riquadro Dati di conseguenza.

Nota: anche se puoi eseguire calcoli matematici con le date (come il calcolo DATEDIFF), la convenzione standard è quella di categorizzare le date come dimensioni.

Distinto e continuo

I campi distinti o continui sono in qualche modo allineati ai concetti di dimensione e misura, ma non sono la stessa cosa.

  • I campi distinti contengono valori discreti. Compongono le intestazioni o le etichette della vista e le relative pillole sono blu
  • I campi continui "formano un insieme ininterrotto". Costituiscono un asse della vista e le relative pillole sono verdi

Un buon modo per comprendere i concetti di discreto e continuo è esaminare un campo di data. Le date possono essere discrete O continue.

  • Esaminare le temperature medie in agosto per un decennio o un secolo significa che "agosto" viene usato come una parte della data distinta, qualitativa.
  • L’analisi dell’andamento generale dei casi di malaria segnalati dal 1960 richiederebbe un unico asse ininterrotto, pertanto la data viene utilizzata come un valore continuo, quantitativo.

Per maggiori informazioni, consulta Dimensioni e misure, blu e verde.

Campi creati da Tableau

Tableau creerà almeno tre campi, indipendentemente dall’insieme di dati:

  • Nomi misure (una dimensione)
  • Valori misure (una misura)
  • NomeTabella(Conteggio) (una misura)

Inoltre, se sono presenti campi geografici nell’insieme di dati, Tableau creerà anche i campi Latitudine (generata) e Longitudine (generata) .

Nomi misure e Valori misure sono due campi utili. Per maggiori informazioni, consulta Valori misure e Nomi misure.

Conteggio della tabella fornisce il numero di record per la tabella contando le righe. Questo ti permette di avere almeno una misura nell’insieme di dati e può essere d’aiuto per alcune analisi. È necessario comprendere la granularità dei dati (cosa rappresenta una riga) per poter definire il significato del numero di righe.

In questo caso, ogni riga è un giorno, quindi il Conteggio della tabella sarebbe il numero di giorni:

In questo caso, ogni riga è un mese, quindi il Conteggio della tabella sarebbe il numero di mesi:

4. Un buon insieme di dati ha metadati o un dizionario di dati

Un insieme di dati può essere utile solo se sai cosa sono i dati. Poche cose sono più frustranti nella ricerca di buoni dati che aprire un file simile al seguente:

vista foglio di calcolo di dati interamente numerici

Cosa significa Origine di 4 o 12? E quali informazioni sono contenute nei campi OTU0-OTU4?

Un buon insieme di dati contiene campi e membri ben etichettati o un dizionario di dati che ti consenta di rietichettare autonomamente i dati. Pensa a Superstore: è subito evidente quali sono i campi e i relativi valori, come ad esempio Categoria e i relativi membri Tecnologia, Mobili e Forniture per ufficio. In alternativa, per l’insieme di dati sul microbioma nell’immagine precedente, è presente un dizionario di dati(Il collegamento viene aperto in una nuova finestra) che spiega ogni origine (4 è feci e 12 è stomaco) e la tassonomia di ogni OTU (OTU3 è un batterio del genere Parabacteroides).

I dizionari di dati possono anche essere chiamati metadati, indicatori, definizioni di variabili, glossari o in diversi altri modi. In breve, un dizionario di dati fornisce informazioni sui nomi delle colonne e sui membri di una colonna. Queste informazioni possono essere introdotte nell’origine dati o nella vista in diversi modi, tra cui:

  • Rinominare le colonne in modo che siano più facili da capire (questa operazione può essere eseguita nell’insieme di dati stesso o in Tableau).
  • Eseguire il re-aliasing dei membri del campo (questa operazione può essere eseguita nell’insieme di dati stesso o in Tableau).
  • Creare calcoli per aggiungere le informazioni del dizionario di dati.
  • Inserire commenti sui campi in Tableau (i commenti non compaiono nelle viste pubblicate, ma solo nell’ambiente di authoring).
  • Utilizzare il dizionario di dati come un’altra origine dati e combinare le due origini dati.

La perdita di un dizionario di dati può rendere inutile un insieme di dati. Se stai aggiungendo un segnalibro a un insieme di dati, aggiungilo anche al dizionario di dati. Se stai eseguendo il download, scaricali entrambi e mantienili nella stessa posizione.

5. Un buon insieme di dati è utilizzabile

Se sei in grado di comprendere l’insieme di dati e disponi delle informazioni necessarie, anche un piccolo insieme di dati può essere adatto per l’analisi. Gli insiemi di dati più piccoli sono anche facili da archiviare, condividere e pubblicare e hanno buone probabilità di funzionare bene.

Allo stesso modo, anche se trovi l’insieme di dati "perfetto" per le tue esigenze, se questo richiede un enorme lavoro di pulitura, non è poi così perfetto. Sapere quando rinunciare a usare un insieme di dati troppo disordinato è importante.

Ad esempio, questo insieme di dati proviene da un articolo di Wikipedia sulle frequenze relative delle lettere. Contiene 84 righe e 16 colonne (trasformate tramite pivot in 1.245 righe e 3 colonne). Il file Excel è di 16 KB. Tuttavia, con alcuni gruppi, insiemi, calcoli e altre manipolazioni, consente analisi efficaci ed elementi grafici interessanti.

Fai clic sull’immagine per scaricare la cartella di lavoro.

Rietichettare i dati

Una volta trovato un buon insieme di dati, spesso è necessario rietichettarlo. La rietichettatura dei dati può essere utile sia per creare dati fittizi per esempi o modelli di verifica che per rendere i dati più leggibili.

La ridenominazione di un campo cambia il modo in cui il campo viene visualizzato in Tableau, ad esempio rinominando "Vendite" in "Vendite di gasdotti" o "Stato" in "Provincia".

Il re-aliasing cambia il modo in cui vengono visualizzati i membri di un campo, ad esempio il re-aliasing dei valori in un campo Paese può trasformare CHN in Cina e RUS in Russia.

  • I valori in un campo di una dimensione distinta sono denominati membri. È possibile eseguire il re-aliasing solo dei membri. Considera un campo di misura per la temperatura. Un valore di 54 °F non può essere modificato senza cambiare i dati stessi. Tuttavia, il re-aliasing del membro "CHN" come "Cina" in un campo Paese è la stessa informazione, semplicemente etichettata in un altro modo.

Rinominare ed eseguire il re-aliasing significano quasi la stessa cosa. Per convenzione, Tableau utilizza i termini "rinominare" per i campi ed "eseguire il re-aliasing" per i membri. Per maggiori informazioni, consulta Organizzare e personalizzare i campi nel riquadro Dati e Creare alias per rinominare i membri nella vista.

Nota: la ridenominazione o il re-aliasing cambia solo l’aspetto in Tableau Desktop: non viene apportata alcuna modifica ai dati sottostanti.

Rietichettare per creare dati fittizi

La rietichettatura degli insiemi di dati esistenti è un ottimo modo per rendere più convincenti gli esempi o i contenuti dei modelli di verifica.

  1. Usa un insieme di dati semplice (come Superstore) per creare ciò che ti occorre (un tipo di grafico specifico, una demo di determinate funzionalità e così via).
  2. Rinomina i campi rilevanti, modifica i riquadri delle informazioni e cambia gli elementi di testo per mascherare ciò che i dati rappresentano effettivamente.

Importante: esegui queste operazioni solo quando è chiaro che le informazioni sono fittizie. Evita di indurre gli utenti a pensare che si tratti di dati reali da usare per l’analisi. Ad esempio, usa nomi privi di significato per i valori e i campi, come colori o animali.

Eseguire il re-aliasing per rendere i dati più facili da usare

È più efficiente archiviare i dati come valori numerici anziché come valori di stringa, anche se la codifica numerica può rendere i dati più difficili da comprendere. Per piccoli insiemi di dati in genere questo non ha alcun impatto sulle prestazioni, quindi è più importante essere in grado di comprendere facilmente i dati.

Uno svantaggio del re-aliasing è che non hai più accesso ai valori numerici (rendendo più difficile eseguire operazioni come ordinare, assegnare sfumature di colore e così via). Valuta la possibilità di duplicare il campo e di eseguire il re-aliasing della copia. In alternativa, un calcolo in Tableau può essere un buon modo per preservare le informazioni originali, rendendole allo stesso tempo più facilmente comprensibili.

Eseguire il re-aliasing con la funzione CASE

I calcoli possono essere molto potenti per il re-aliasing. Ad esempio, le funzioni CASE permettono essenzialmente di specificare: "quando il valore di questo campo è A, restituisci X. Quando il valore è B, restituisci Y".

In questo caso, la funzione CASE esamina la scala F in un insieme di dati relativi ai tornado e fornisce la descrizione scritta associata a ogni valore numerico:

CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END

Ora possiamo scegliere di utilizzare il campo originale "Scala F" (0-5) o il campo "Descrizione dei danni in scala F" nella vista.

Suggerimenti per la ricerca di insiemi di dati

Nota: assicurati di essere in grado di rispondere alla domanda "Cosa rappresenta una riga (un record) nell’insieme di dati? Se non riesci a rispondere, non comprendi i dati abbastanza da poterli utilizzare o i dati potrebbero non essere sufficientemente strutturati per l’analisi.

  • Tieni traccia della provenienza dei dati.
  • Conserva le informazioni del dizionario di dati con i dati stessi.
  • Evita i dati non aggiornati se è necessario che i contenuti risultino sempre recenti. Cerca:
    • dati aggiornabili (quotazioni azionarie, meteo, report pubblicati regolarmente e così via)
    • dati indipendenti dal tempo (la massa media di vari animali non cambia di anno in anno)
    • dati che puoi adeguare modificando artificialmente date passate o future
  • Prova semplicemente a cercare su Google quello che stai cercando: potresti rimanere sorpreso.
  • Non temere di rinunciare a un insieme di dati se richiede troppo lavoro per la preparazione.

Fonti per la ricerca di dati

Dove puoi cercare i dati? Ci sono moltissime fonti per la ricerca di insiemi di dati. Ecco alcune opzioni per iniziare. Tieni presente che anche per questi siti valgono due aspetti fondamentali per tutti gli insiemi di dati: in genere non riuscirai a trovare esattamente quello che stai cercando e molto probabilmente avrai bisogno di eseguire alcune attività di pulizia per preparare i dati per l’analisi.

Dichiarazione di non responsabilità: anche se facciamo ogni sforzo per garantire che i link a siti esterni siano esatti, aggiornati e pertinenti, Tableau non può assumersi la responsabilità per l’accuratezza o l’aggiornamento delle pagine di fornitori esterni. L’inclusione di un sito non rappresenta un’approvazione del contenuto o dell’organizzazione. Contatta il sito esterno per informazioni sul suo contenuto.

Tableau Public(Il collegamento viene aperto in una nuova finestra): Tableau Public è un’ottima risorsa per insiemi di dati adatti per Tableau. Cerca cartelle di lavoro che riguardano un argomento di tuo interesse, esplorale per trovare l’ispirazione, quindi scarica la cartella di lavoro per accedere ai dati. In alternativa, dai un’occhiata ai dati di esempio(Il collegamento viene aperto in una nuova finestra).

Tabelle di Wikipedia(Il collegamento viene aperto in una nuova finestra): estrai i dati dalle tabelle di Wikipedia copiandoli e incollandoli in un foglio di calcolo, copiandoli e incollandoli direttamente in Tableau oppure utilizzando i fogli Google e la funzione IMPORTHTML(Il collegamento viene aperto in una nuova finestra) per creare un foglio di calcolo Google dei dati.

Google Dataset Search(Il collegamento viene aperto in una nuova finestra): "un motore di ricerca per unire il mondo frammentato degli insiemi di dati online".

Data is Plural(Il collegamento viene aperto in una nuova finestra): esegui la sottoscrizione alla newsletter settimanale con insiemi di dati o consulta l’archivio(Il collegamento viene aperto in una nuova finestra).

Makeover Monday(Il collegamento viene aperto in una nuova finestra): "unisciti a noi ogni lunedì per lavorare con un determinato insieme di dati, creare visualizzazioni migliori e più efficaci e aiutarci a rendere le informazioni più accessibili". Puoi vedere cosa hanno fatto altre persone con lo stesso insieme di dati, eseguire analisi o fornire ispirazione. Usa #makeovermonday(Il collegamento viene aperto in una nuova finestra) su Twitter per partecipare.

Altri siti

Grazie per il tuo feedback.Il tuo feedback è stato inviato. Grazie!