Non temere le relazioni più approfondite
Per via della natura delle relazioni, comprendere da dove provengono i campi, il relativo dominio e cosa rappresentano i valori Null è più importante che mai. Tieni presente che chiunque esamini la visualizzazione senza accedere alla pagina Origine dati o al riquadro Dati si baserà sul titolo o su altre informazioni presentate dall’autore per interpretare correttamente la visualizzazione.
Nota: se non hai ancora familiarità con i principi di base delle origini dati che utilizzano relazioni, potrebbe essere utile leggere Non temere le relazioni prima di consultare questo argomento.
Perché non tutti i campi data sono uguali?
È importante ricordare che, solo perché due nomi di campo contengono la parola "Data", non significa che il contenuto di tali campi sia identico. Esaminiamo un esempio relativo al livello di Anno. In altre parole, non siamo interessati ai valori per i mesi e i giorni, ma solo agli anni a cui si riferiscono i campi.
Nell’Insieme di dati Bookshop sono presenti più campi con un tipo di dati Data.
- Birthday (Data di nascita)
- Publication Date (Data di pubblicazione)
- Sales Date (Data di vendita)
- Anche Year Won (Anno di vincita) e Year Established (Anno di fondazione) contengono informazioni su date, sebbene siano campi numerici.
- Nota: se l’icona nel riquadro Dati è verde, il campo è continuo. Fai clic con il pulsante destro del mouse sul nome del campo nel riquadro Dati e scegli Converti in distinto(Il collegamento viene aperto in una nuova finestra). L’icona dovrebbe diventare blu. Se necessario, esegui questa operazione sia per "Year Won" (Anno di vincita) che per "Year Established" (Anno di fondazione).
Tuttavia il dominio, ovvero i valori in ogni campo, varia. Sposta ogni campo a turno nello spazio Righe e osserva il numero di indicatori nell’angolo inferiore sinistro, rimuovendo ogni campo prima di aggiungere quello successivo.
- YEAR(Birthday) ha 27 indicatori, il che significa che il dominio contiene 27 anni diversi.
- YEAR([Publication Date]) ha 15 indicatori, quindi il relativo dominio è costituito da 15 anni.
- Year Won ha 11 indicatori
- Year Established ha quattro indicatori
- YEAR([Sales Date]) ha un indicatore
Questa differenza del dominio è molto importante da tenere presente. Se abbiamo correlato le tabelle Edition (Edizione) e Award (Premio) su YEAR([Publication Date]) a Year Won (Anno di vincita), potremmo ottenere analisi che utilizzano un join interno e sono quindi limitate agli anni in cui è stato vinto un premio, senza considerare tutti i libri relativi agli anni senza premi. Tieni presente che questo non equivale a escludere i libri senza premi. Saranno mantenuti i libri senza premi che sono stati pubblicati nello stesso anno di un libro che ha ottenuto un premio. Tutti i libri di anni senza premi saranno eliminati del tutto. L’azione di filtro nel join è a livello di anno, non di libro.
Esempio: data di pubblicazione e data di nascita
Se portiamo la data di pubblicazione in Colonne e la data di nascita in Righe, otteniamo una tabella di Abc. Puoi scaricare la cartella di lavoro ed esplorare questa tabella autonomamente. Richiede Tableau Desktop 2020.2 o versione successiva.
Tieni presente che in questa tabella c’è molto spazio vuoto. Non è disponibile alcun segnaposto per l’anno di pubblicazione 2180 e la data di nascita 2133. Ciò significa che l’autore nato nel 2133 non ha pubblicato nell’anno 2180.
Certo. Ma perché è importante?
Immagina di voler fare qualche analisi nel tempo. Le vendite di libri con copertina rigida sono in aumento nel tempo? Potresti immaginare il tuo grafico come una sequenza temporale che filtra Format (Formato) solo per Hardcover (Copertina rigida) con Sales(Count) in Righe e la data in Colonne. Ma quale campo data? La data di pubblicazione? La data di nascita? La data di vendita? Questi campi sono denominati chiaramente ed è abbastanza evidente che per una domanda sulle vendite dovremmo usare la data di vendita. Tuttavia, non tutti gli insiemi di dati hanno nomi chiari. Se i campi avessero nomi come "Data1" e "Data3", sarebbe molto più difficile da capire. Soprattutto se la domanda analitica non è articolata chiaramente.
La tabella da cui proviene un campo e ciò che rappresenta il dominio del campo hanno un impatto cruciale sull’analisi.
Modificando il campo della data, è possibile modificare completamente l’analisi. Considera queste due visualizzazioni:
La prima potrebbe essere interpretata come "Quanti libri sono stati scritti dagli autori nati in ogni anno?". Risponde a domande come "Gli autori più anziani hanno scritto più libri?" (No) o "In quale anno sono nati gli autori più prolifici?" (2155).
La seconda potrebbe essere interpretata come "Quanti libri sono stati pubblicati ogni anno?". Risponde a domande come "In quale anno è stato pubblicato il maggior numero di libri?" (2188) o "La pubblicazione di libri è stabile nel tempo?" (No).
È complicato esprimere la domanda per la visualizzazione che utilizza la data di nascita perché è una combinazione complicata di concetti. Ma Tableau ti permette di porre qualsiasi domanda, che sia tua intenzione o meno. Questo è un aspetto essenziale. Se utilizzi Data3 quando avresti dovuto usare Data1, Tableau creerà comunque una visualizzazione. Tuttavia, non tutti i campi data significano la stessa cosa e sta all’autore sapere quale campo utilizzare per l’analisi corretta.
Per ulteriori informazioni sull’importanza della tabella da cui proviene un campo, consulta questo post di blog(Il collegamento viene aperto in una nuova finestra).
Cosa significano i dati mancanti?
C’è una differenza tra zero e Null.
Zero significa che abbiamo eseguito la misurazione e non ci sono elementi. Conosciamo il valore ed è zero. Se ho zero multe per eccesso di velocità, probabilmente non guido molto veloce.
- Nota: 0 e 1 vengono spesso utilizzati in modo intercambiabile con Vero/Falso o altri valori binomiali come Sì/No o Superato/Non superato. In questo caso, lo zero viene utilizzato come etichetta, non come valore numerico.
Null significa che non lo sappiamo: non abbiamo eseguito la misurazione o non abbiamo registrato i dati. Se il mio storico delle multe semplicemente non contiene multe per eccesso di velocità, non posso sapere se guido velocemente o meno.
I valori Null possono rappresentare dati mancanti o inesistenti.
- Per il mio storico delle multe, se il valore delle multe per eccesso di velocità è Null, è possibile che abbia una multa per eccesso di velocità che non è stata registrata. Dovremmo presumere che i dati siano mancanti.
- I dati inesistenti possono essere registrati come N/D, ma spesso non vengono registrati, perché non è necessario tenere traccia di cose impossibili. Quante multe per eccesso di velocità ho preso mentre vado in autobus? È probabile che i dati non siano presenti nell’insieme di dati. In una matrice di "modalità di trasporto" e "multe per eccesso di velocità", esistono combinazioni che semplicemente non hanno senso. Possiamo presumere che i dati siano inesistenti.
Quando i valori Null hanno un significato
È necessario conoscere i dati per essere in grado di capire se un valore Null è veramente sconosciuto (mancanza di informazioni per il numero di multe per eccesso di velocità) o se rappresenta dati inesistenti (mancanza di informazioni sulle multe per eccesso di velocità come passeggero dell’autobus). I dati sono abbastanza affidabili da considerare una mancanza di informazioni come dati inesistenti anziché come dati mancanti? Con una conoscenza specifica dei dati, i valori Null possono essere significativi.
Esaminando di nuovo la tabella di Abc, possiamo analizzare gli spazi senza segnaposto. Presupporremo che questi dati siano affidabili e che un valore Null indichi che i dati sono inesistenti anziché incompleti.
La mancanza di un segnaposto significa che un autore è nato in quell’anno (quindi la riga esiste) e un libro è stato pubblicato in quell’anno (quindi la colonna esiste), ma il libro pubblicato non è stato scritto da un autore nato in quell’anno (quindi la cella è vuota). Possiamo assegnare un’etichetta significativa a quello spazio vuoto: Nessuna pubblicazione. Potremmo anche svolgere analisi su questi valori Null, ad esempio: per le date presenti nei dati, quanti anni sono passati per ogni autore senza la pubblicazione di un libro?
Nota: sono presenti lacune anche nel dominio delle date di nascita. Nessun autore è nato nel 2131 o 2132, quindi l’anno va da 2130 a 2133 (le righe per 2131 e 2132 non esistono). Questi anni mancanti possono essere interpretati come "nessun libro in questo insieme di dati aveva autori nati in tali anni". Tuttavia, come sottolineato in precedenza quando è stato illustrato il dominio dei campi data, il fatto che siano presenti valori mancanti nel dominio è un’informazione importante da considerare quando si creano relazioni o si sceglie il campo da utilizzare per un’intestazione o un asse in una visualizzazione.
Per ulteriori informazioni sull’utilizzo dei valori Null nelle relazioni, consulta questo post di blog(Il collegamento viene aperto in una nuova finestra).
Esercizi pratici
Scrivi un titolo per ogni visualizzazione. Sei in grado di descrivere ciò che avviene in termini comuni? Scarica la cartella di lavoro per esplorare le visualizzazioni live. Questa cartella di lavoro utilizza una versione leggermente modificata dell’Insieme di dati Bookshop e utilizza solo due tabelle. I campi data sono stati adeguati in modo da poter essere utilizzati come campo correlato.
Per leggere la matrice delle visualizzazioni:
- Le barre mostrano il numero di edizioni (viola) e il numero di premi (verde) all’anno.
- Ogni colonna ha un campo data diverso per l’asse. La colonna a sinistra è Publication Year (Anno di pubblicazione) dalla tabella Edition (Edizione), la colonna centrale è Year Won (Anno di vincita) dalla tabella Award (Premio) e la colonna a destra è un campo calcolato che utilizza la data di pubblicazione, ma se tale campo è Null utilizza l’anno di vincita (questo calcolo viene utilizzato per garantire che entrambi i domini siano rappresentati completamente).
- Ogni riga è una relazione diversa per la modalità di combinazione della tabella Award (Premio) ed Edition (Edizione). La riga superiore mette in relazione le tabelle in base a Book ID (ID libro), la riga centrale le mette in relazione in base a Year (Anno) e la riga inferiore le mette in relazione sia in base a Book ID (ID libro) che a Year (Anno).
- Le barre per l’anno 2183 sono più spesse per facilitare il confronto. Nella soluzione seguente, questo è l’anno di cui vengono esaminati i valori in dettaglio.
- Le due visualizzazioni ombreggiate hanno valori identici.
Se resti bloccato
Esamina ogni parte della visualizzazione passo per passo. Osserva la struttura dell’origine dati, l’asse e le intestazioni, nonché i campi utilizzati per gli indicatori (e le tabelle da cui provengono). Considera i valori Null e il motivo per cui potrebbero essere presenti. Visualizza i dati per uno o due indicatori specifici per vedere quali record contengono.
- L’origine dati è la tabella Awards (Premi) correlata a Editions (Edizioni) in base a Book ID (ID libro).
- L’asse delle date è l’anno di pubblicazione
- I valori sono il conteggio dei premi e il conteggio delle edizioni.
Prova a scegliere un singolo indicatore nella visualizzazione e a definirlo. Per l’anno 2183, la visualizzazione mostra che ci sono sette edizioni e tre premi. Utilizza Visualizzare i dati sottostanti (Visualizza dati sottostanti) per analizzare quali record sono rappresentati in ogni indicatore.
Edizioni
Premi
Insieme, questo può essere interpretato come "restituisci i sette libri pubblicati nel 2183, quindi per tali libri elenca tutti i premi che hanno vinto indipendentemente da quando hanno vinto il premio". TM925 è stato originariamente pubblicato nel 2179 e l’edizione con copertina rigida ha vinto due premi in quell’anno. Nel 2183 è stata pubblicata un’altra edizione del libro, forse come tascabile. Il valore del conteggio dei premi è legato al libro, non all’anno.
La visualizzazione nel complesso potrebbe essere interpretata come "il numero di edizioni pubblicate ogni anno e quanti premi sono stati vinti dai libri pubblicati in quell’anno" o "il numero di edizioni pubblicate ogni anno e il numero di premi vinti da quei libri".
L’anno 2183 (con le barre più spesse) è l’anno su cui concentrarsi per l’interpretazione. Le informazioni sulle edizioni sono in viola e le informazioni sui premi sono in verde. L’anno 2187 è anche evidenziato nelle descrizioni perché è un anno in cui non sono stati vinti premi, ma sono stati pubblicati libri. Come tale, è una buona illustrazione della potenza del campo data utilizzato per l’asse. Questo aspetto è evidenziato in blu nella descrizione. L’importanza dei campi utilizzati per impostare la relazione è evidenziata in rosa.
Questo elemento grafico viene fornito per comodità, ma per un’esperienza migliore è consigliabile scaricare la cartella di lavoro e aprirla in Tableau Desktop 2020.2 o versioni successive, in modo da poter utilizzare l’interattività, ad esempio le informazioni e Visualizza dati. Se preferisci esaminare i fogli più da vicino, puoi fare clic con il pulsante destro del mouse su una delle schede della dashboard in basso e scegliere Scopri tutti i fogli. In questo modo verranno rese disponibili tutte le singole visualizzazioni e da ogni foglio potrai visualizzare il riquadro Dati e l’ambiente di creazione, inclusi i campi presenti nei vari spazi. Tieni presente che per ottenere le tre diverse relazioni (le righe della matrice precedente) vengono utilizzate tre origini dati diverse.
Risorse correlate
Ti senti un po' sopraffatto e vuoi fare un passo indietro? Consulta Non temere le relazioni.
Sei pronto ad affrontare i calcoli con le relazioni? Consulta Non temere i calcoli nelle relazioni.
Per ulteriori informazioni sugli aspetti tecnici delle relazioni direttamente dal team di gestione del prodotto, consulta la serie sulle relazioni sul blog di Tableau.
- Relationships, part 1: Introducing new data modeling in Tableau(Il collegamento viene aperto in una nuova finestra)
- Relationships, part 2: Tips and tricks(Il collegamento viene aperto in una nuova finestra)
- Relationships, part 3: Asking questions across multiple related tables(Il collegamento viene aperto in una nuova finestra)
Guarda anche i podcast video sulle relazioni di Action Analytics(Il collegamento viene aperto in una nuova finestra), ad esempio Why did Tableau Invent Relationships?(Il collegamento viene aperto in una nuova finestra) Fai clic su "Video Podcast" nella sezione Library(Il collegamento viene aperto in una nuova finestra) per vederne altri.