Combinare i dati
La combinazione dei dati è un metodo per unire i dati provenienti da più origini. La combinazione dei dati porta informazioni aggiuntive da un’origine dati secondaria e le visualizza con i dati dell’origine dati primaria direttamente nella vista.
La combinazione dei dati è particolarmente utile quando la relazione di combinazione (i campi di collegamento) deve variare in base al foglio o quando si combinano origini dati pubblicate.
Opzioni per combinare i dati
Esistono diversi modi per combinare i dati, ognuno con specifici vantaggi e svantaggi.
Le relazioni sono il metodo predefinito e possono essere utilizzate nella maggior parte dei casi, anche tra tabelle con diversi livelli di dettaglio. Le relazioni sono flessibili e si adattano alla struttura dell’analisi a livello di singolo foglio. Tuttavia, non puoi creare relazioni tra tabelle dalle origini dati pubblicate.
I join combinano le tabelle aggiungendo più colonne di dati in strutture di righe simili. Ciò può causare la perdita o la duplicazione dei dati se le tabelle hanno diversi livelli di dettaglio ed è necessario creare dei join prima di iniziare l’analisi. Non è possibile utilizzare un’origine dati pubblicata in un join.
Le combinazioni, a differenza delle relazioni o dei join, non combinano mai direttamente i dati. Al contrario, le combinazioni eseguono query su ogni origine dati in modo indipendente, aggregano i risultati al livello appropriato e presentano visivamente i risultati nella vista. Per questo motivo, le combinazioni possono gestire diversi livelli di dettaglio e anche utilizzare le origini dati pubblicate. Le combinazioni non creano una nuova origine dati combinata (e pertanto non possono essere pubblicate come "origine dati combinata"). Invece, si tratta semplicemente di risultati combinati visualizzati per foglio.
Passaggi per la combinazione dei dati
La combinazione dei dati viene eseguita foglio per foglio e viene stabilita quando nella vista si utilizza un campo di un’origine dati secondaria.
Per creare una combinazione in una cartella di lavoro, devi connetterti ad almeno due origini dati. Quindi porta un campo da un’origine dati al foglio: in questo modo diventa l’origine dati primaria. Passa all’altra origine dati e utilizza un campo sullo stesso foglio, facendola diventare un’origine dati secondaria. Nel riquadro Dati apparirà un’icona di collegamento che indica quali campi vengono utilizzati per combinare le origini dati.
- Assicurati che la cartella di lavoro abbia più origini dati. L’origine dati secondaria deve essere aggiunta andando su Dati > Nuova origine dati.
Suggerimento: la combinazione richiede due o più origini dati distinte, elencate indipendentemente nel riquadro Dati. L’aggiunta di un’altra connessione alla prima origine dati abilita le relazioni e i join nella pagina Origine dati.
- Trascina un campo nella vista. Questa origine dati sarà l’origine dati primaria.
- Passa a un’altra origine dati e verifica che vi sia una relazione di combinazione con l’origine dati primaria.
- Se è presente un’icona di collegamento (), le origini dati sono automaticamente collegate. I dati potranno essere combinati finché ci sarà almeno un collegamento attivo.
- Se ci sono icone con collegamenti interrotti (), fai clic sull’icona accanto al campo che dovrebbe collegare le due origini dati. La barra scomparirà, indicando un collegamento attivo.
- Se l’icona di un collegamento non appare accanto al campo desiderato, consulta Definire relazioni di combinazione per la combinazione.
- Trascina un campo dell’origine dati secondaria nella vista.
La combinazione è stabilita non appena utilizzi questa origine dati secondaria nella stessa vista. Nell’esempio seguente, la nostra origine dati primaria è Movie Adaptations, mentre l’origine dati secondaria è Bookshop.
- L’origine dati primaria è indicata con un segno di spunta blu sull’origine dati. I campi dell’origine dati primaria utilizzata nella vista non hanno alcuna indicazione.
- L’origine dati secondaria è indicata con un segno di spunta arancione sull’origine dati e una barra arancione sul lato inferiore del riquadro Dati. I campi dell’origine dati secondaria utilizzata nella vista presentano un segno di spunta arancione.
Comprendere le origini dati primarie e secondarie
Combinare i dati richiede un’origine dati primaria e almeno un’origine dati secondaria. La prima origine dati utilizzata nella vista diventa l’origine dati primaria e definisce la vista. Questo può limitare i valori provenienti dall’origine dati secondaria: solo i valori con corrispondenze nell’origine dati primaria sono visibili nella vista. Questo è paragonabile a un join sinistro.
Ad esempio, se l’origine dati primaria ha un campo Mese che contiene solo aprile, maggio e giugno, eventuali viste generate relative ai mesi mostreranno solo aprile, maggio e giugno, anche se l’origine dati secondaria include valori per dodici mesi. Se l’analisi desiderata include tutti i dodici mesi, prova a cambiare l’origine dati primaria rigenerando il foglio e utilizzando prima l’altra origine dati.
Gli esempi seguenti utilizzano le stesse origini dati collegate sullo stesso campo, mentre la visualizzazione viene generata nello stesso modo entrambe le volte. La differenza tra i risultati dipende da quale origine dati è designata come primaria.
- Qui, il campo Mese dell’origine dati Precipitazioni viene prima portato sulla vista. Poiché Precipitazioni contiene solo tre mesi, quando l’insieme di dati Polline viene aggiunto come secondario, saranno portati nella vista solo tre mesi.
- Su un altro foglio, il campo Mese dell’insieme di dati Polline viene prima portato sulla vista. Vengono visualizzati tutti i dodici mesi. Quando l’insieme di dati Precipitazioni viene aggiunto come secondario, Precipitazioni è disponibile solo per i tre mesi di quell’insieme di dati.
Utilizzare le origini dati combinate
A causa della natura di una combinazione di dati, ci sono alcune cose da tenere a mente quando si lavora su origini dati combinate.
L’esecuzione di calcoli con campi da più di un’origine dati può essere leggermente diversa da un calcolo ordinario. Un calcolo deve essere creato in un’unica origine dati; la parte superiore dell’editor di calcolo indica in quale origine dati si trova il calcolo.
- Aggregazione. Eventuali campi utilizzati da un’altra origine dati saranno forniti con un’aggregazione: la predefinita è SUM, ma può essere modificata. Poiché i calcoli non possono combinare argomenti aggregati e non aggregati, devono essere inclusi nell’aggregazione anche i campi dell’origine dati host del calcolo. Nelle immagini seguenti, l’aggregazione SUM è stata aggiunta automaticamente, mentre l’aggregazione sum è stata aggiunta manualmente.
- Notazione a punti. Ogni campo appartenente a un’altra origine dati a cui si fa riferimento nel calcolo fa riferimento alla sua origine dati utilizzando la notazione a punti. Nelle immagini sottostanti, per il calcolo generato in Esempio - Supermercato, il campo Sales Target diventa [Sales.Targets].[Sales Target]. Quando il calcolo viene generato in Sales Targets, il campo Sales diventa [Esempio - Supermercato].[Sales].
- Si tratta di versioni equivalenti dello stesso calcolo integrato in ogni origine dati. In entrambi i casi, si tratta di SUM(Sales)/SUM(Sales Target).
Oltre a gestire i calcoli in modo leggermente diverso, esistono alcune limitazioni sulle origini dati secondarie. Potrebbe non essere possibile ordinare un campo da un’origine dati secondaria e i filtri di azione potrebbero non funzionare come previsto con i dati combinati. Per maggiori informazioni, consulta Altri problemi di unione dei dati
Definire relazioni di combinazione per la combinazione
Affinché Tableau sappia come combinare i dati provenienti da più origini, devono esistere una o più dimensioni in comune tra le origini dati. Questa dimensione comune è detta campo di collegamento. I campi di collegamento attivi sono identificati nel riquadro Dati per l’origine dati secondaria con un’icona di collegamento attivo (), mentre i potenziali campi di collegamento sono identificati con un’icona di collegamento interrotto (). I campi di collegamento non sono indicati nell’origine dati primaria.
Ad esempio, in una combinazione di dati transazionali e delle quote, un campo geografico potrebbe essere il campo di collegamento desiderato, per cui puoi analizzare la quota e le prestazioni rispetto a quella quota per la stessa regione.
Nota: per il corretto funzionamento della combinazione, i campi di collegamento devono anche condividere valori o membri. Tableau genera la vista di dati combinati sulla base dei valori condivisi. Ad esempio, se Colore è il campo di collegamento in entrambe le origini dati, Tableau assocerà i dati su "Viola" della primaria e su "Viola" della secondaria. Tuttavia, "Azz. chiaro" non corrisponderà ad "Azzurro chiaro", per cui uno sarà necessario rieseguire l’aliasing di uno dei due. Così come rinomini i campi per aiutare Tableau a identificare i campi di collegamento, puoi modificare gli alias per i membri in quei campi. Per maggiori informazioni, consulta Creare alias per rinominare i membri nella vista.
Stabilire un collegamento
Se i campi di collegamento nell’origine dati primaria e secondaria hanno lo stesso nome, Tableau crea automaticamente la relazione. Quando viene stabilita un’origine dati primaria (ovvero un campo è in uso nella vista) e l’origine dati secondaria è selezionata nel riquadro Dati, qualsiasi campo con lo stesso nome nelle due origini dati mostrerà un’icona di collegamento ( o ) nell’origine dati secondaria. Se nella vista viene utilizzato il campo correlato proveniente dall’origine dati primaria, il collegamento diventa automaticamente attivo.
Se non ci sono icone di collegamento nell’origine dati secondaria, potrebbe essere necessario aiutare Tableau a stabilire il collegamento in uno dei due seguenti modi:
Se le dimensioni in comune non hanno lo stesso nome (ad esempio "Titolo" e "Titolo del libro"), rinominarne una permetterà a Tableau di identificarle come dimensioni in comune e stabilire il collegamento.
In alternativa, puoi definire manualmente una relazione tra i campi dell’origine dati primaria e secondaria. Di seguito puoi trovare maggiori informazioni sulla creazione di relazioni di collegamento manuali
Puoi avere tutti i campi di collegamento attivi o potenziali necessari. Fai clic sull’icona di collegamento interrotto () nel riquadro Dati per rendere attiva la relazione.
Se le dimensioni in comune non hanno lo stesso nome, puoi eseguire il mapping della relazione manualmente.
Seleziona Dati > Modifica relazioni di combinazione....
Nella finestra di dialogo Relazioni di combinazione verifica che l’origine dati primaria sia selezionata nell’elenco a discesa Origine dati primaria.
Seleziona l’origine dati secondaria nel riquadro Origine dati secondaria. Qualsiasi relazione di combinazione automatica esistente è visibile (e può essere eliminata passando con il mouse sopra la riga e facendo clic sulla x). Seleziona Personalizzata nell’elenco delle relazioni, quindi fai clic su Aggiungi.
Nella finestra di dialogo Aggiungi/Modifica mapping campo, procedi come segue:
Seleziona un campo dall’origine dati primaria.
Seleziona il campo comparabile dall’origine dati secondaria.
Fai clic su OK.
In questo esempio, Segmento è mappato a Segmento Cl.
Suggerimento: la relazione per le date può essere specificata con precisione. Espandi il campo data e seleziona l’aspetto desiderato della data, ad esempio data esatta, mese, anno, ecc.
Crea tutti i mapping dei campi che desideri, quindi fai clic su OK.
Più collegamenti
Come per le relazioni o i join, a volte i collegamenti tra le origini dati sono definiti da più di un campo. Ad esempio, se le quote di vendita regionali sono mensili, è necessario stabilire una combinazione tra i dati di vendita transazionali e i dati sulle quote sia per la regione che per il mese, in modo da riunire i dati corretti nella vista. Possono essere attivi più collegamenti contemporaneamente.
Quando i dati vengono combinati in base a più campi, i valori sono inclusi nella vista solo se la combinazione di dati di tali campi corrisponde in entrambi gli insiemi di dati. Ecco un esempio per comprendere il concetto.
Abbiamo due tabelle: una per gli uccelli effettivamente visti dai birdwatcher, l’altra per gli uccelli segnalati come visti.
e
Se impostiamo una vista combinata con i campi Birdwatcher e Numero di uccelli dell’origine dati primaria (Uccelli visti) e inseriamo il campo Numero di segnalazioni dall’origine dati secondaria (Uccelli segnalati), Tableau li combina automaticamente con Birdwatcher.
Vediamo che il birdwatcher A ha visto tre uccelli e fatto due segnalazioni, B ha visto quattro uccelli e fatto una segnalazione e C ha visto 8 uccelli e fatto due segnalazioni.
Ma esiste un altro possibile campo di collegamento: Specie viste. Perché non combinare anche questo? Farà la differenza?
Fa una differenza piuttosto importante. Ora vediamo che esiste una sola segnalazione ciascuno per i birdwatcher A e C, mentre B ha un valore NULL. Cosa è successo?
Si è scoperto che questi birdwatcher non sono molto onesti. Quando hanno segnalato i loro avvistamenti solo sulla base di una registrazione a giornale (barre blu nell’immagine sopra), le specie che hanno detto di aver visto non corrispondono a ciò che hanno effettivamente visto (notare i valori NULL nella seconda colonna, dall’origine dati secondaria Uccelli visti). Quando la segnalazione era corredata da una fotografia (barre arancioni), sono stati onesti (entrambe le colonne di Specie viste corrispondono).
Siccome tre segnalazioni non corrispondevano alle specie, le righe di dati sono state eliminate quando Specie viste è stato utilizzato come campo di collegamento. La vista mostra solo i dati in cui i valori per entrambi i campi di collegamento corrispondono.
Conclusione
Fai attenzione quando colleghi su più campi. Anche se può essere molto semplice fare clic sull’icona e stabilire un collegamento attivo, troppi collegamenti o collegamenti su campi indesiderati possono avere un serio impatto sull’analisi.
Differenze tra join e unione dei dati
L’unione dei dati simula un join sinistro tradizionale. La differenza principale tra i due è quando viene eseguita l’aggregazione. Un join unisce i dati e poi li aggrega. Una combinazione aggrega e poi unisce i dati.
Join sinistro
Quando utilizzi un join sinistro per combinare i dati, viene inviata una query al database in cui viene eseguito il join. Un join sinistro restituisce tutte le righe della tabella sinistra ed eventuali righe corrispondenti della tabella destra. I risultati del join vengono inviati a Tableau e aggregati per la visualizzazione.
Un join sinistro prende tutte le righe dalla tabella sinistra. Le colonne in comune sono ID utente e ID patrocinatore; i dati sono restituiti quando ci sono informazioni corrispondenti nella tabella destra. Altrimenti, viene restituito un valore NULL.
Immagina di avere le stesse tabelle, ma in ordine inverso. Questo nuovo join sinistro produce risultati diversi. Anche in questo caso, un join sinistro prende tutti i dati della nuova tabella sinistra, ma essenzialmente ignora una riga della tabella destra. La riga di dati per ID utente = 4 non è inclusa perché nella tabella sinistra non esiste una riga per ID patrocinatore = 4.
Combinazione di dati
Quando utilizzi l’unione dei dati per combinare i dati, viene inviata una query al database per ogni origine dati utilizzata nel foglio. I risultati delle query vengono inviati a Tableau come dati aggregati e presentati insieme nella visualizzazione.
Nota: l’aggregazione delle misure è semplice: possiamo prendere la somma, la media, il massimo o altre aggregazioni di un numero con facilità. I valori di misura vengono aggregati in base alla modalità di aggregazione del campo nella vista. Tuttavia, tutti i campi di un’origine dati secondaria devono essere aggregati. Come funziona con le dimensioni? I valori delle dimensioni vengono aggregati utilizzando la funzione di aggregazione ATTR, la quale restituisce un singolo valore per tutte le righe dell’origine dati secondaria. Se quelle righe contengono più valori, viene visualizzato un asterisco (*). Questo può essere interpretato come "esistono più valori nell’origine dati secondaria per questo indicatore nella vista".
La vista utilizza tutti i valori dell’origine dati primaria (la tabella sinistra) e le righe corrispondenti dall’origine dati secondaria (la tabella destra) in base ai campi di collegamento.
Supponiamo di avere le seguenti tabelle. Se i campi di collegamento sono ID utente e ID patrocinatore, non tutti i valori possono far parte della tabella risultante per le seguenti ragioni:
Una riga nella tabella sinistra che non ha una riga corrispondente nella tabella destra, come indicato dal valore NULL nei risultati.
Più valori corrispondenti nelle righe della tabella destra, come indicato dall’asterisco (*) nei risultati.
Quando si tratta di misure, anche queste ultime sono aggregate, come illustrato di seguito:
Importante: un asterisco (*) in una vista con dati misti indica valori multipli. Questo problema può essere risolto assicurandosi che vi sia un solo valore corrispondente nell’origine dati secondaria per ogni indicatore nell’origine dati primaria, potenzialmente scambiando le origini dati primarie e secondarie. Per maggiori informazioni, consulta Risoluzione dei problemi dell’unione dei dati.
Combinazione dei dati in breve
- La combinazione dei dati avviene foglio per foglio.
- L’ordine in cui vengono utilizzati i campi determina quale origine dati è l’origine dati primaria e quale quella secondaria.
- L’origine dati primaria è indicata con un segno di spunta blu, mentre eventuali origini dati secondarie e i relativi campi presentano un segno di spunta arancione.
- I campi di collegamento possono essere determinati automaticamente in base ai nomi dei campi condivisi. In alternativa, è possibile creare la relazione di combinazione manualmente.
- La combinazione dei dati funziona in modo simile a un join sinistro, il che può causare la mancanza di dati dall’origine dati secondaria.
- Possono essere visibili degli asterischi (*). Questo significa che esistono più valori di dimensione in un unico indicatore, perché la combinazione dei dati prende i risultati aggregati e li combina nella vista.
- Puoi utilizzare un’origine dati secondaria per eseguire nuovamente l’aliasing dei valori del campo in un’origine dati primaria. Per maggiori informazioni, consulta Valori del campo Alias utilizzando l’unione dei dati.
Limitazioni dell’unione dei dati
- Esistono alcune limitazioni di unione dei dati negli aggregati non additivi, come COUNTD, MEDIAN e RAWSQLAGG. Per maggiori informazioni, consulta Risoluzione dei problemi dell’unione dei dati
- Le origini dati combinate non possono essere pubblicate come unità. Pubblica invece ogni origine dati separatamente (sullo stesso server) e poi combina le origini dati pubblicate.
- I dati provenienti da origini dati secondarie devono sempre essere aggregati nei calcoli.
- Se stai combinando un’origine dati multidimensionale, questa deve essere l’origine dati primaria.