Trovare cluster nei dati

L’analisi di cluster partiziona gli indicatori della vista nei cluster, in cui gli indicatori all’interno di ogni cluster sono più simili tra loro rispetto agli indicatori di altri cluster.

Per un esempio che dimostra il processo di creazione dei cluster con dati di esempio, vedi Esempio: crea cluster utilizzando dati degli Indicatori economici mondiali.

Crea cluster

Segui questi passaggi per trovare i cluster in una vista in Tableau.

  1. Crea una vista.
  2. Trascina Cluster dal riquadro Analisi nella vista e rilascialo nell’area di destinazione della vista:

    Inoltre, puoi fare doppio clic su Cluster per individuare i cluster nella vista.

    Quando rilasci o fai doppio clic su Cluster:

    • Tableau crea un gruppo di Cluster in Colore e colora gli indicatori nella vista per cluster. Se è già presente un campo su Colore, Tableau sposta tale campo su Dettaglio e lo sostituisce su Colore con i risultati di clustering.

      Tableau assegna ciascun indicatore nella vista a uno dei cluster. In alcuni casi, gli indicatori non adatti a un cluster vengono assegnati a un cluster “Non clusterizzati”.

    • Tableau mostra la finestra di dialogo Cluster in puoi personalizzare il cluster.

  3. Personalizza i risultati del cluster eseguendo una delle seguenti operazioni nella finestra di dialogo Cluster.
    • Trascina i nuovi campi dal riquadro Dati nell’area Variabili della finestra di dialogo Cluster. Inoltre, puoi trascinare i campi dall’area Variabili per rimuoverli.

      Quando aggiungi variabili, le misure vengono aggregate utilizzando l’aggregazione predefinita per il campo; le dimensioni vengono aggregate mediante ATTR, il modo standard in cui Tableau aggrega le dimensioni.

      Per modificare l’aggregazione per una variabile, fai clic con il pulsante destro del mouse su di essa.

    • Specifica il numero di cluster (compreso tra 2 e 50). Se non specifichi un valore, Tableau creerà automaticamente fino a 25 cluster.

  4. Quando termini di personalizzare i risultati del cluster, fai clic sulla X nell’angolo superiore destro della finestra di dialogo Cluster per chiuderla: 

Nota: puoi spostare il campo del cluster da Colore a un altro spazio nella vista. Tuttavia, non puoi spostare il campo del cluster dallo spazio Filtri al riquadro Dati.

Per rinominare i cluster risultanti, devi innanzitutto salvare il cluster come un gruppo. Per informazioni dettagliate, vedi Crea un gruppo dai risultati dei cluster e Modifica cluster.

Limiti dei cluster

Il clustering è disponibile in Tableau Desktop, ma non è disponibile per la creazione sul web (Tableau Server, Tableau Cloud). Il clustering non è disponibile anche quando si verifica una delle seguenti condizioni:

  • Quando utilizzi un’origine dati (multidimensionale) cubo.
  • Quando nella vista è presente una dimensione unita.
  • Quando non sono presenti campi che possono essere utilizzati come variabili (input) per il clustering nella vista.
  • Quando non sono presenti dimensioni in una vista aggregata.

Quando si applicano queste condizioni, non potrai trascinare i Cluster dallo spazio Analitica alla vista.

Inoltre, i seguenti tipi di campo non possono essere utilizzati come variabili (input) per il clustering:

  • Calcoli tabella
  • Calcoli uniti
  • Calcoli ad hoc
  • Valori generati di latitudine/longitudine
  • Gruppi
  • Insiemi
  • Contenitori
  • Parametri
  • Date
  • Nomi misure/Valori misure

Modifica cluster

Per modificare un cluster esistente, fai clic con il pulsante destro del mouse (Control-clic su Mac) su un campo Cluster in Colore e seleziona Modifica cluster.

Per modificare i nomi utilizzati per ogni cluster, devi innanzitutto trascinare il campo Cluster nel riquadro Dati e salvarlo come un gruppo. Per informazioni dettagliate, vedi Crea un gruppo dai risultati dei cluster.

Fai clic con il pulsante destro del mouse sul gruppo di cluster e seleziona Modifica gruppo per apportare le modifiche a ogni cluster.

Seleziona un gruppo di cluster nell’elenco dei Gruppi e fai clic su Rinomina per modificare il nome.

Crea un gruppo dai risultati dei cluster

Se trascini un cluster nel riquadro Dati, diventa una dimensione di gruppo in cui i singoli membri (Cluster 1, Cluster 2 e così via) contengono gli indicatori che secondo l’algoritmo di cluster sono più simili tra loro di rispetto ad altri indicatori.

Dopo aver trascinato un gruppo di cluster nel riquadro Dati, puoi utilizzarlo in altri fogli di lavoro.

Trascina Cluster dalla scheda Indicatori al riquadro Dati per creare un gruppo Tableau:

Dopo aver creato un gruppo dai cluster, il gruppo e i cluster originali sono separati e distinti. La modifica dei cluster non influisce sul gruppo e la modifica del gruppo non influisce sui risultati dei cluster. Il gruppo ha le stesse caratteristiche di qualsiasi altro gruppo di Tableau. Fa parte dell’origine dati. A differenza dei cluster originali, puoi utilizzare il gruppo in altri fogli di lavoro della cartella di lavoro. Pertanto, se rinomini il gruppo di cluster salvato, tale cambio di nome non viene applicato al clustering originale nella vista. Vedi Correggere gli errori dei dati o combinare i membri della dimensione raggruppando i dati.

Limiti per il salvataggio dei cluster come gruppi

Non potrai salvare i cluster nel riquadro Dati in nessuna delle seguenti circostanze:

  • Quando le misure nella vista sono disaggregate e le misure in uso come variabili del clustering non corrispondono alle misure della vista. Per maggiori informazioni, vedi Come disaggregare i dati.
  • Quando i Cluster che vuoi salvare si trovano nello spazio Filtri.
  • Quando Nomi misure o Valori misure si trovano nella vista.
  • Quando nella vista è presente una dimensione unita.

Ripristinare i cluster salvati

Quando salvi un campo Cluster come gruppo, questo viene salvato con il relativo modello analitico. Puoi utilizzare i gruppi di cluster in altri fogli di lavoro e cartelle di lavoro, ma non si aggiornano automaticamente.

In questo esempio, un gruppo di cluster salvato e il relativo modello analitico sono stati applicati a un diverso foglio di lavoro. Di conseguenza, alcuni degli indicatori non sono ancora inclusi nel clustering (indicati dagli indicatori grigi).

Se i dati sottostanti vengono modificati, puoi utilizzare l’opzione Ripristina per aggiornare e riformulare i dati per un gruppo di cluster salvato.

Per ripristinare un cluster salvato

  • Fai clic con il pulsante destro del mouse su un gruppo di cluster nel riquadro Dati, quindi fai clic su Ripristina.

    Di seguito è riportato un esempio di clustering aggiornato dopo il ripristino del cluster salvato:

    Quando ripristini i cluster salvati, verranno creati nuovi cluster e gli alias esistenti per ogni categoria di gruppi di cluster verranno sostituiti con nuovi alias di cluster generici. Tieni presente che il ripristino dei cluster salvati può alterare le visualizzazioni che utilizzano cluster e alias esistenti.

 

Funzionamento del clustering

L’analisi di cluster partiziona gli indicatori della vista nei cluster, in cui gli indicatori all’interno di ogni cluster sono più simili tra loro rispetto agli indicatori di altri cluster. Tableau distingue i cluster utilizzando il colore.

Nota: per maggiori informazioni sul funzionamento del clustering in Tableau, consulta il post del blog Informazioni sul clustering in Tableau 10.

L’algoritmo di clustering

Tableau utilizza l’algoritmo K-means per il clustering. Per un determinato numero di cluster k, l’algoritmo partiziona i dati in k cluster. Ogni cluster dispone di un centro (centroide) che rappresenta il valore medio di tutti i punti di tale cluster. K-means individua i centri attraverso una procedura iterativa che minimizza le distanze tra i singoli punti di un cluster e il centro del cluster. In Tableau, puoi specificare un numero desiderato di cluster o fare in modo che Tableau controlli diversi valori di k e suggerisca un numero ottimale di cluster (vedi Criteri utilizzati per determinare il numero ottimale di cluster).

K-means richiede una specifica iniziale dei centri di cluster. Partendo con un cluster, il metodo sceglie una variabile il cui valore medio viene utilizzato come soglia per dividere i dati in due. I centroidi di queste due parti vengono quindi utilizzati per inizializzare K-means per ottimizzare l’appartenenza dei due cluster. Successivamente, uno dei due cluster viene scelto per la suddivisione insieme ad una variabile all’interno di quel cluster la cui viene utilizzata come soglia per la suddivisione del cluster in due. K-means viene quindi utilizzato per partizionare i dati in tre cluster, inizializzati con i centroidi delle due parti del cluster diviso e il centroide del cluster rimanente. Questo processo viene ripetuto fino a quando non viene raggiunto un determinato numero di cluster.

Tableau utilizza l’algoritmo di Lloyd con distanze euclidee quadratiche per calcolare il clustering k-means per ogni k. Combinato con la procedura di divisione per determinare i centri iniziali per ogni k > 1, il clustering risultante è deterministico, con il risultato che dipende solo dal numero di cluster.

L’algoritmo inizia selezionando i centri di cluster iniziali:

Separa quindi gli indicatori assegnandoli al centro più vicino:

Quindi perfeziona i risultati calcolando nuovi centri per ogni partizione calcolando la media di tutti i punti assegnati allo stesso cluster:

Analizza quindi l’assegnazione degli indicatori ai cluster e ripristina gli eventuali indicatori che ora sono più vicini a un centro diverso.

I cluster vengono ridistribuiti e gli indicatori vengono riassegnati in modo iterativo fino a quando non si verificano ulteriori modifiche.

Nota: a causa delle differenze sottostanti nelle tecnologie, potrebbero esserci lievi differenze tra i cluster creati su CPU x64 o arm64 per gli stessi dati.

Criteri utilizzati per determinare il numero ottimale di cluster

Tableau utilizza il criterio Calinski-Harabasz per valutare la qualità del cluster. Il criterio Calinski-Harabasz è definito come

dove SSB è la varianza globale tra cluster, la SSW la varianza globale all’interno del cluster, k il numero di cluster e N il numero di osservazioni.

Maggiore è il valore di questo rapporto, maggiore è il numero di cluster (bassa varianza all’interno del cluster) e più distinti/separati sono i singoli cluster (alta varianza tra i cluster).

Poiché l’indice Calinski-Harabasz non è definito per k=1, non può essere utilizzato per rilevare i casi relativi a un cluster.

Se un utente non specifica il numero di cluster, Tableau sceglierà il numero di cluster corrispondente al primo numero massimo locale dell’indice Calinski-Harabasz. Per impostazione predefinita, k-means viene eseguito per un massimo di 25 cluster se il primo numero massimo locale dell’indice non viene raggiunto per un valore inferiore a k. Puoi impostare un valore massimo di 50 cluster.

Nota: se una variabile categorica (ovvero una dimensione) dispone di più di 25 valori univoci, allora Tableau ignorerà tale variabile durante l’elaborazione dei cluster.

Quali valori vengono assegnati alla categoria “Non clusterizzati”?

Quando sono presenti valori NULL per una misura, Tableau assegna i valori per le righe con valore null a una categoria Non clusterizzati . Anche le variabili categoriche (ovvero le dimensioni) che restituiscono * per ATTR (ovvero tutti i valori non identici) non sono clusterizzati.

Ridimensionamento

Tableau ridimensiona automaticamente i valori in modo che le colonne con un intervallo più grande di grandezze non dominino i risultati. Ad esempio, un analista potrebbe utilizzare l’inflazione e il PIL come variabili di input per il clustering, ma poiché i valori del PIL sono in trilioni di dollari, ciò potrebbe far sì che i valori di inflazione vengano quasi completamente ignorati nel calcolo. Tableau utilizza un metodo di ridimensionamento denominato normalizzazione min-max, in cui i valori di ogni variabile vengono mappati a un valore compreso tra 0 e 1 sottraendo il valore minimo e dividendolo per il relativo intervallo.

Informazioni sui modelli statistici utilizzati per i cluster

La finestra di dialogo Descrivi cluster fornisce informazioni sui modelli calcolati da Tableau per il clustering. Puoi utilizzare queste statistiche per valutare la qualità del clustering.

Quando la vista include il clustering, puoi aprire la finestra di dialogo Descrivi cluster facendo clic con il pulsante destro del mouse su Cluster nella scheda Indicatori (Control-clic su Mac) e scegliendo Descrivi cluster. Le informazioni nella finestra di dialogo Descrivi cluster sono di sola lettura, sebbene puoi fare clic su Copia negli appunti e incollare il contenuto dello schermo in un documento scrivibile.

La scheda Riepilogo identifica gli input utilizzati per generare i cluster e fornisce alcune statistiche che caratterizzano i cluster.

Input per clustering

Variabili

Identificano i campi utilizzati da Tableau per calcolare i cluster. Questi sono i campi elencati nella casella Variabili nella finestra di dialogo Cluster.

Livello di dettaglio

Identifica i campi che contribuiscono al livello di dettaglio della vista, ovvero i campi che determinano il livello di aggregazione. Per maggiori informazioni, vedi In che modo le dimensioni influenzano il livello di dettaglio nella vista.

Ridimensionamento

Identifica il metodo di ridimensionamento utilizzato per la pre-elaborazione. Attualmente Tableau utilizza solo il metodo di ridimensionamento normalizzato. La formula per questo metodo, nota anche come normalizzazione min-max, è (x – min(x))/(max(x) - min(x)).

Diagnostica riassuntiva

Numero di cluster

Il numero di cluster singoli nel clustering.

Numero di punti

Il numero di indicatori nella vista.

Somma dei quadrati tra i gruppi

Una metrica che quantifica la separazione tra i cluster come una somma delle distanze quadrate tra il centro di ogni cluster (valore medio), ponderata per il numero di punti dati assegnato al cluster e il centro dell’insieme di dati. Maggiore è il valore, migliore è la separazione tra i cluster.

Somma dei quadrati all’interno del gruppo

Una metrica che quantifica la coesione dei cluster come una somma delle distanze quadrate tra il centro di ogni cluster e i singoli indicatori nel cluster. Più basso è il valore, più coesivi sono i cluster.

Somma dei quadrati totale

Totalizza la somma dei quadrati tra i gruppi e la somma dei quadrati all’interno del gruppo. Il rapporto (somma dei quadrati tra i gruppi)/(somma dei quadrati totale) conferisce la proporzione della varianza spiegata dal modello. I valori sono compresi tra 0 e 1; i valori più alti indicano in genere un modello migliore. Tuttavia, puoi aumentare questo rapporto semplicemente aumentando il numero di cluster, quindi potrebbe essere fuorviante confrontando un modello a cinque cluster con un modello a tre cluster utilizzando solo questo valore.

Statistiche cluster

Per ogni cluster nel clustering vengono fornite le seguenti informazioni.

# Elementi

Il numero di indicatori all’interno del cluster.

Centri

Valore medio all’interno di ogni cluster (indicato per gli elementi numerici).

Più comune

Il valore più comune all’interno di ogni cluster (mostrato solo per gli elementi categorici).

Descrivi cluster - scheda modelli

L’analisi della varianza (ANOVA) è una raccolta di modelli statistici e procedure associate utili per analizzare la varianza all’interno e tra le osservazioni che sono state partizionate in gruppi o cluster. In questo caso, l’analisi della varianza viene calcolata per variabile e l’analisi risultante della tabella delle varianze può essere utilizzata per determinare quali variabili sono più efficaci per distinguere i cluster.

L’analisi rilevante delle statistiche della varianza per il clustering include:

Statistica F

La statistica F per ANOVA unidirezionale o a fattore singolo, è la frazione della varianza spiegata da una variabile. È il rapporto tra la varianza tra i gruppi e la varianza totale.

Più è alta la statistica F, migliore è la variabile corrispondente che si distingue tra i cluster.

valore p

Il valore p è la probabilità che la distribuzione F di tutti i possibili valori della statistica F assuma un valore maggiore della statistica F effettiva per una variabile. Se il valore p scende al di sotto di un livello di significatività specificato, allora l’ipotesi null (che i singoli elementi della variabile sono campioni casuali da una singola popolazione) può essere rifiutata. I gradi di libertà per questa distribuzione F- sono (k - 1, N - k), dove k è il numero di cluster e N è il numero di elementi (righe) clusterizzati.

Minore è il valore p, più i valori attesi degli elementi della variabile corrispondente differiscono tra i cluster.

Modello somma dei quadrati e gradi di libertà

Il modello somma dei quadrati è il rapporto tra la somma dei quadrati tra i gruppi e il modello di gradi di libertà. La somma dei quadrati tra i gruppi è una misura della variazione tra le medie dei cluster. Se le medie dei cluster sono vicine l’una all’altra (e quindi vicine alla media generale), questo valore sarà piccolo. Il modello ha k-1 gradi di libertà, dove k è il numero dei cluster.

Errore somma dei quadrati e gradi di libertà

L’errore somma dei quadrati è il rapporto tra la somma di quadrati all’interno del gruppo e l’errore di gradi di libertà. La somma dei quadrati all’interno del gruppo misura la variazione tra le osservazioni all’interno di ogni cluster. L’errore ha N-k gradi di libertà, dove N è il numero totale di osservazioni (righe) clusterizzate e k è il numero dei cluster.

L’Errore somma dei quadrati può essere considerato come l’Errore globale medio, assumendo che ogni centro del cluster rappresenti la "verità" per ciascun cluster.

Esempio: crea cluster utilizzando dati degli Indicatori economici mondiali

La funzionalità di clustering di Tableau partiziona gli indicatori della vista nei cluster, in cui gli indicatori all’interno di ogni cluster sono più simili tra loro rispetto agli indicatori di altri cluster. Questo esempio illustra come un ricercatore potrebbe utilizzare il clustering per trovare un insieme ottimale di indicatori (in questo caso, paesi/regioni) in un’origine dati.

L’obiettivo

Man mano che la speranza di vita aumenta in tutto il mondo e le persone più anziane rimangono sempre più attive, il turismo della terza età può essere un mercato redditizio per le aziende che sanno come trovare e far fronte ai potenziali clienti. L’insieme di dati di esempio Indicatori mondiali fornito con Tableau contiene il tipo di dati che potrebbe aiutare le aziende a identificare i paesi o le regioni dove sono presenti abbastanza clienti del tipo appropriato.

Individuazione dei paesi/regioni appropriati

Ecco un esempio di come il clustering di Tableau potrebbe aiutare un’azienda di questo tipo a identificare i paesi o le regioni in cui un’azienda turistica per la terza età potrebbe avere successo. Immagina di essere l’analista. Ecco come devi procedere.

  1. Apri l’origine dati campione Indicatori mondiali in Tableau Desktop.
  2. Fai doppio clic su Paese/Area nel riquadro Dati.

    Tableau crea automaticamente una vista mappa con un indicatore in ogni paese/area.

  3. Nella scheda Indicatori, modifica il tipo di indicatore a Mappa:

    Ora dovresti vedere una proiezione di mappa dove tutti i paesi/regioni sono riempiti con un colore a tinta unita:

  4. Il passaggio successivo consiste nell’identificare i campi da utilizzare come variabili per il clustering. Ecco i campi scelti:
    CampoMotivo dell’inclusione
    Speranza di vita femminile e Speranza di vita maschileNei posti dove le persone vivono più a lungo, ci sono più probabilità di essere persone che sono interessate a viaggiare più tardi nella vita.
    Popolazione urbanaÈ più semplice commercializzare servizi in aree con una maggiore densità di popolazione.
    Popolazione over 65La popolazione di destinazione è più anziana con il tempo e i fondi per viaggiare.
    TurismoProCapite

    Questa è una misura che devi creare come campo calcolato con nome. La formula è:

    SUM([Tourism Outbound])/SUM([Population Total])

    Turismo in uscita aggrega il denaro (in dollari USA) che i residenti di un paese/area spendono annualmente per viaggi internazionali. Questo totale, tuttavia, paese/area per determinare l’importo medio che ogni residente spende per i viaggi internazionali.

    Non c’è alcuna garanzia che questi siano i campi ideali da scegliere, o che questi campi produrranno risultati di cluster chiari e non ambigui. Il clustering è un processo iterativo: gli esperimenti portano a scoperte, che di conseguenza portano ad altri esperimenti.

  5. Trascina questi cinque campi dal riquadro Dati a Dettagli sulla scheda Indicatori.
  6. Fai per aprire il riquadro Analisi.

  7. Trascina Cluster dal riquadro Analisi e rilasciarlo nella vista:

    Tableau visualizza la finestra di dialogo Cluster e aggiunge le misure nella vista all’elenco delle variabili:

    Inoltre, aggiorna la vista aggiungendo i cluster a Colore. In questo caso, Tableau trova due cluster distinti e non può assegnare determinati paesi/regioni (di colore rossastro) a entrambi i cluster:

    Nota: vedi Funzionamento del clustering per i dettagli sui dati che Tableau assegna a “Non clusterizzati”.

  8. Decidi che due cluster non sono sufficienti: non hai le risorse per aprire negozi in metà dei paesi/regioni del mondo. Quindi, digiti 4 nel campo Numero di cluster nella finestra di dialogo Cluster.

    La mappa diventa più interessante:

    Ma in che modo tali cluster si riferiscono alle variabili che hai scelto? Qual è la miglior correlazione con i fattori che supportano il turismo della terza età? È ora di guardare le statistiche dietro ai cluster.

  9. Chiudi la finestra di dialogo Cluster facendo clic sulla X nell’angolo superiore destro:

  10. Fai clic sul campo Cluster nella scheda Indicatori e scegli Descrivi cluster.

    La tabella nella parte inferiore della scheda Modelli nella finestra di dialogo Descrivi cluster mostra il valore medio per ogni variabile di ogni cluster:

    Il cluster 4 ha la massima speranza di vita (sia maschile che femminile), la più alta concentrazione di popolazione urbana e la più alta spesa per il turismo internazionale: $1360,40 pro capite. L’unica variabile per cui il cluster 4 non ha il valore più alto è Popolazione over 65, dove cluster 3 ha il vantaggio: 0,15493 (appena inferiore al 16%) a 0,11606 (poco più dell’11%) nel cluster 4.

    L’algoritmo di clustering non sa se stai cercando il valore massimo, il valore minimo o qualcosa nel mezzo di queste variabili: cerca solo la correlazione. Tuttavia, sai che i valori più alti per queste variabili sono il segnale che stai cercando e cluster 4 è la scelta migliore.

  11. Puoi tentare di scegliere i paesi/regioni del cluster 4 dalla mappa, ma c’è un modo più semplice. Chiudi la finestra di dialogo Descrivi cluster e quindi fai clic su Cluster 4 nella legends dei colori e scegli Mantieni solo.

  12. Scegli Tabella di testo da Mostra.

    Ora puoi vedere un elenco dei paesi/regioni nel cluster 4:

    Questo elenco non è la fine del processo. Puoi provare nuovamente il clustering con un insieme diverso di variabili e un numero diverso di cluster oppure puoi aggiungere alcuni paesi/regioni all’elenco e rimuovere gli altri in base ad altri fattori. Ad esempio, se i tuoi viaggi sono principalmente in località tropicali, potresti rimuovere dall’elenco paesi/regioni come Curacao e Bahamas, perché i viaggi tropicali potrebbero non interessare i residenti di tali paesi/regioni.

    Un’altra opzione consiste nel filtrare i dati prima di eseguire nuovamente il cluster, per mostrare solo i paesi/regioni con popolazioni superiori a una determinata soglia o monitorare i paesi/regioni in un’area geografica particolare.

Grazie per il tuo feedback.Il tuo feedback è stato inviato. Grazie!