Come funziona Interpreta i dati

Utilizza Interpreta i dati come punto di partenza incrementale per un’ulteriore esplorazione dei dati. Le possibili spiegazioni che genera aiutano a visualizzare i diversi valori che compongono o sono correlati a un indicatore analizzato in una vista. Questo può darti informazioni sulle caratteristiche dei punti di dati nell’origine dati e su come i dati potrebbero essere correlati (correlazioni) utilizzando la modellazione statistica. Queste spiegazioni offrono un altro strumento per ispezionare i tuoi dati e trovare indizi interessanti su cosa esplorare in seguito.

Nota: Interpreta i dati è uno strumento che individua e descrive le relazioni nei dati. Non può indicare cosa sta causando le relazioni o come interpretare i dati. Tu sei l’esperto dei tuoi dati. La tua conoscenza del dominio e la tua intuizione è fondamentale per aiutarti a decidere quali caratteristiche potrebbero essere interessanti da esplorare ulteriormente utilizzando viste diverse.

Per informazioni correlate sul funzionamento di Interpreta i dati e su come usare Interpreta i dati per integrare le tue analisi, consulta queste presentazioni di Tableau Conference:

Cos’è (e cosa non è) Interpreta i dati

Interpreta i dati è:

  • Uno strumento e un flusso di lavoro che trae vantaggio dalla tua esperienza specifica.
  • Uno strumento che mette in evidenza le relazioni nei dati e raccomanda dove osservare.
  • Uno strumento e un flusso di lavoro che aiuta ad accelerare l’analisi dei dati e a renderla più accessibile a una più ampia gamma di utenti.

Interpreta i dati non è:

  • Uno strumento di verifica statistica.
  • Uno strumento per dimostrare o confutare ipotesi.
  • Uno strumento che fornisce risposte o informazioni sulla causalità dei dati.

Quando esegui Interpreta i dati sugli indicatori, tieni presenti i seguenti aspetti:

  • Utilizzare dati granulari che possono essere aggregati. Questa funzione è stata progettata esplicitamente per l’analisi di dati aggregati. Ciò significa che i dati devono essere granulari, ma gli indicatori selezionati per Interpreta i dati devono essere aggregati o riassunti a un livello di dettaglio superiore. Interpreta i dati non può essere eseguito su indicatori disaggregati (ovvero dati a livello di riga) al livello di dettaglio granulare più elevato.

  • Considera la forma, le dimensioni e la cardinalità dei tuoi dati. Interpreta i dati può essere utilizzato con insiemi di dati di dimensioni minori, ma richiede dati sufficientemente ampi e contenenti sufficienti marcatori (granularità) per poter creare un modello.

  • Non dare per scontato la causalità. La correlazione non è una causalità. Le spiegazioni si basano su modelli dei dati, ma non sono spiegazioni causali.

    Una correlazione significa che esiste una relazione tra alcune variabili di dati, ad esempio A e B. La relazione in sé non ti dice se A è causa di B, B è causa di A o se si tratta di qualcosa di più complesso. I modelli di dati sono esattamente gli stessi in ognuno di questi casi. Un algoritmo non è in grado di distinguere la differenza tra un caso e l’altro. Solo perché due variabili sembrano cambiare nello stesso momento non significa necessariamente che una causa il cambiamento dell’altra. Un terzo fattore potrebbe essere la causa del cambiamento di entrambe le variabili oppure potrebbe trattarsi di una coincidenza e non esserci alcuna relazione causale.

    Tuttavia, potresti avere informazioni esterne, non presenti nei dati, che ti aiutano a capire cosa sta succedendo. Un tipo comune di informazione esterna può essere una situazione in cui i dati sono stati raccolti in un esperimento. Se sai che la variabile B è stata scelta lanciando una moneta, qualsiasi modello di differenza coerente in A (che non sia solo rumore casuale) deve essere causato da B. Per una descrizione più lunga e approfondita di questi concetti, consulta l’articolo Causal inference in economics and marketing(Il collegamento viene aperto in una nuova finestra) di Hal Varian.

Come vengono analizzate e valutate le spiegazioni

Interpreta i dati esegue un’analisi statistica su una dashboard o un foglio per individuare indicatori che sono outlier oppure in modo specifico su un indicatore selezionato. L’analisi prende in considerazione anche gli eventuali punti dati correlati dell’origine dati che non sono rappresentati nella vista corrente.

Interpreta i dati predice il valore di un indicatore utilizzando solo i dati presenti nella visualizzazione. Successivamente, i dati che si trovano nell’origine dati (ma non nella vista corrente) vengono considerati e aggiunti al modello. Il modello determina l’intervallo di valori dell’indicatore previsti, che rientra in una deviazione standard del valore previsto.

Che cos’è un intervallo previsto?

Il valore previsto per un indicatore è il valore mediano dell’intervallo di valori previsto nei dati sottostanti della visualizzazione. L’intervallo previsto è l’intervallo di valori tra il 15° e l’85° percentile previsti dal modello statistico per l’indicatore analizzato. Tableau determina l’intervallo previsto ogni volta che esegue un’analisi statistica su un indicatore selezionato.

Le possibili spiegazioni sono valutate in base al loro potere esplicativo attraverso la modellazione statistica. Per ogni spiegazione, Tableau confronta il valore atteso con il valore reale.

valoreDescrizione
Superiore al previsto/Inferiore al previstoSe il riepilogo di un valore previsto indica che l’indicatore è inferiore al previsto o superiore al previsto, significa che il valore dell’indicatore aggregato è al di fuori dell’intervallo di valori previsto per l’indicatore dal modello statistico. Se il riepilogo di un valore previsto indica che l’indicatore è leggermente inferiore o leggermente superiore al previsto oppure all’interno dell’intervallo di variazione naturale, significa che il valore aggregato dell’indicatore rientra nell’intervallo dei valori previsti, ma è inferiore o superiore alla mediana.
Valore previstoSe un indicatore ha un valore previsto, il suo valore rientra nell’intervallo di valori previsto da un modello statistico per l’indicatore.
Variazione casualeQuando l’indicatore analizzato contiene un numero limitato di record, potrebbero non essere disponibili dati sufficienti per consentire a Interpreta i dati di formulare una spiegazione statisticamente significativa. Se il valore dell’indicatore è al di fuori dell’intervallo previsto, Interpreta i dati non è in grado di determinare se questo valore imprevisto è causato da una variazione casuale o da una differenza significativa nei record sottostanti.
Nessuna spiegazioneQuando il valore dell’indicatore analizzato è al di fuori dell’intervallo previsto e non si adatta a un modello statistico utilizzato per Interpreta i dati, non viene generata alcuna spiegazione.

Modelli utilizzati per l’analisi

Interpreta i dati genera modelli dei dati in una vista al fine di prevedere il valore di un indicatore, quindi determina se un indicatore è superiore o inferiore a quanto previsto dal modello. Successivamente, considera le informazioni aggiuntive, come l’aggiunta di colonne aggiuntive dall’origine dati alla vista, o l’applicazione di un contrassegno agli outlier a livello di record, come potenziali spiegazioni. Per ogni potenziale spiegazione, Interpreta i dati si adatta a un nuovo modello e valuta l’imprevedibilità dell’indicatore in base alle nuove informazioni. Le spiegazioni vengono valutate confrontando la complessità (quante informazioni vengono aggiunte dall’origine dati) rispetto alla quantità di variabilità che deve essere spiegata. Le spiegazioni migliori sono più semplici della variazione che spiegano.

 

Tipo di spiegazioneValutazione

Valori estremi

I valori estremi sono indicatori aggregati che sono outlier, basati su un modello degli indicatori visualizzati. Si ritiene che l’indicatore selezionato contenga un valore estremo se è presente un valore di record nella coda di distribuzione dei valori previsti per i dati.

Un valore estremo viene determinato confrontando l’indicatore aggregato con e senza il valore estremo. Se l’indicatore diventa meno sorprendente rimuovendo un valore, allora riceve un punteggio più alto.

Se un indicatore contiene valori estremi, non significa automaticamente che si tratta di outlier o che devi escludere i record corrispondenti dalla vista. La scelta dipende da te, in base alla tua analisi. La spiegazione sta semplicemente evidenziando un valore estremo interessante nell’indicatore. Ad esempio, potrebbe rivelare un valore errato in un record in cui una banana costa 10 dollari invece di 10 centesimi. In un altro caso, potrebbe indicare che un particolare addetto alle vendite ha avuto un ottimo trimestre.

Numero di record

La spiegazione del numero di record modella la somma aggregata in termini di conteggio aggregato, mentre il valore medio dei record la modella in termini di media aggregata. Quanto meglio il modello spiega la somma, tanto più alto è il punteggio.

Questa spiegazione descrive se la somma è interessante perché il conteggio è alto o basso o perché la media è alta o bassa.

Valore medio dell’indicatore

Questo tipo di spiegazione viene utilizzato per gli indicatori aggregati che sono somme. Spiega se l’indicatore è coerente con gli altri indicatori in termini di conteggio aggregato o media, sulla base della relazione SUM(X) = COUNT(X) * AVG(X).

Questa spiegazione descrive se la somma è interessante perché il conteggio è alto o basso o perché la media è alta o bassa.

Dimensioni rilevanti

Questa spiegazione modella la misura di destinazione dell’indicatore analizzato in termini di suddivisione tra categorie della dimensione non visualizzata. L’analisi bilancia la complessità del modello con l’efficacia con cui viene spiegato l’indicatore.

Una dimensione non visualizzata è una dimensione che esiste nell’origine dati, ma che attualmente non viene utilizzata nella vista. Questo tipo di spiegazione viene utilizzato per le somme, i conteggi e le medie.

Il modello per le dimensioni non visualizzate viene creato dividendo gli indicatori secondo i valori categorici della colonna delle spiegazioni, e costruendo poi un modello con il valore che include tutti i punti dati nella visualizzazione dell’origine. Per ogni riga, il modello tenta di recuperare ciascuno dei singoli componenti che hanno dato origine a ciascun indicatore. L’analisi indica se il modello prevede meglio l’indicatore se i componenti corrispondenti alla dimensione non visualizzata sono modellati e poi sommati, rispetto all’utilizzo di un modello in cui i valori della dimensione non visualizzata non sono noti.

Le spiegazioni di dimensione aggregata esplorano come si possano spiegare bene i valori degli indicatori senza alcun condizionamento. Successivamente, il modello condiziona i valori per ogni colonna che rappresenta una spiegazione potenziale. Condizionare la distribuzione di una colonna esplicativa dovrebbe risultare in una previsione migliore.

Misure rilevanti

Questa spiegazione modella l’indicatore in termini di questa misura non visualizzata, aggregata alla relativa media nelle dimensioni visualizzate. Una misura non visualizzata è una misura che esiste nell’origine dati, ma che attualmente non viene utilizzata nella vista.

La spiegazione Misure rilevanti può rivelare una relazione lineare o quadratica tra la misura non visualizzata e la misura di destinazione.

Grazie per il tuo feedback.Il tuo feedback è stato inviato. Grazie!