Funzionamento delle funzioni di modellazione predittiva in Tableau
Puoi già aggiungere linee di tendenza e previsioni a una visualizzazione, ma ora è possibile andare oltre, utilizzando la potenza di un motore statistico per creare un modello che comprenda come sono distribuiti i dati intorno a una linea di tendenza. In precedenza, gli utenti dovevano integrare Tableau con R e Python per eseguire calcoli statistici avanzati e visualizzarli in Tableau. Ora è possibile usare le funzioni di modellazione predittiva per eseguire previsioni a partire dai dati includendole in un calcolo tabella. Per maggiori informazioni sull’utilizzo dei calcoli tabella, consulta Trasformare i valori con i calcoli tabella.
Con queste funzioni di modellazione predittiva, puoi selezionare obiettivi e predittori aggiornando le variabili e visualizzando più modelli con diverse combinazioni di predittori. I dati possono essere filtrati, aggregati e trasformati a qualsiasi livello di dettaglio e il modello, e quindi la previsione, verranno ricalcolati automaticamente in base ai dati.
Per un esempio dettagliato in cui viene illustrato come creare calcoli di previsione utilizzando queste funzioni, consulta Esempio: esplorare l’aspettativa di vita femminile con le funzioni di modellazione predittiva.
Funzioni di modellazione predittiva disponibili in Tableau
MODEL_PERCENTILE
Sintassi | MODEL_PERCENTILE(
|
Definizione | Restituisce la probabilità (compresa tra 0 e 1) che il valore previsto sia minore o uguale all’indicatore osservato, definito dall’espressione di destinazione e da altri predittori. Questa è la funzione di distribuzione predittiva posteriore, anche nota come funzione di distribuzione cumulativa (CDF). |
Esempio | MODEL_PERCENTILE( SUM([Sales]),COUNT([Orders])) |
MODEL_QUANTILE
Sintassi | MODEL_QUANTILE(
|
Definizione | Restituisce un valore numerico di destinazione all’interno dell’intervallo probabile definito dall’espressione di destinazione e da altri predittori, in corrispondenza di un quantile specificato. Questo è il quantile predittivo posteriore. |
Esempio | MODEL_QUANTILE(0.5, SUM([Sales]), COUNT([Orders])) |
La potenza delle funzioni di modellazione predittiva
Diamo un’occhiata a un esempio utilizzando dati sugli stipendi, iniziando con MODEL_QUANTILE.
Nell’esempio riportato di seguito, è stata utilizzata la funzione MODEL_QUANTILE per visualizzare il 10° percentile e il 90° percentile della distribuzione prevista per lo stesso insieme di dati. Sulla base dei dati esistenti e utilizzando un modello di regressione lineare, il motore statistico ha determinato che c’è una probabilità del 90% che lo stipendio massimo per ogni mandato sarà al di sotto della linea verde e una probabilità del 10% che lo stipendio minimo per ogni mandato sarà al di sotto della linea blu.
In altre parole, con il quantile impostato su 0,9, il modello prevede che tutti gli stipendi saranno in corrispondenza o al di sotto della linea verde per il 90% del tempo. La linea blu è impostata su 0,1 (ovvero il 10%), quindi solo il 10% degli stipendi sarà in corrispondenza o al di sotto della linea blu, con l’inverso (90%) sopra la linea blu.
In effetti, questo ci offre una fascia in cui, secondo le previsioni, rientrerà l’80% dei punti potenzialmente generati in futuro o dei dati non osservati.
Vediamo quindi come la funzione MODEL_PERCENTILE (l’inversa di MODEL_QUANTILE), può aiutarci a comprendere ulteriormente i dati.
È possibile identificare gli outlier dell’insieme di dati utilizzando la funzione MODEL_PERCENTILE. MODEL_PERCENTILE indica, come percentile, dove l’indicatore osservato rientra in un intervallo di valori probabili per ogni indicatore. Se il percentile è molto vicino a 0,5, il valore osservato è molto vicino al valore mediano previsto. Se il percentile è vicino a 0 o 1, il valore osservato si trova ai limiti inferiori o superiori dell’intervallo del modello ed è relativamente imprevisto.
Di seguito, abbiamo applicato MODEL_PERCENTILE come colore alla visualizzazione degli stipendi nella metà superiore dell’immagine, per aiutarci a identificare i valori più attesi.
Sintassi delle funzioni di modellazione predittiva in dettaglio
Che cos’è MODEL_QUANTILE?
MODEL_QUANTILE calcola il quantile predittivo posteriore, ovvero il valore previsto in un quantile specificato.
- Quantile: il primo argomento è un numero compreso tra 0 e 1, che indica quale quantile deve essere previsto. Ad esempio, 0,5 specifica che verrà prevista la mediana.
- Espressione di destinazione: il secondo argomento è la misura da prevedere o "destinazione".
- Espressione/i predittore: il terzo argomento è il predittore utilizzato per eseguire la stima. I predittori possono essere dimensioni, misure o entrambi.
Il risultato è un numero compreso nell’intervallo probabile.
È possibile utilizzare MODEL_QUANTILE per generare un intervallo di confidenza, valori mancanti come date future oppure categorie che non esistono nell’insieme di dati sottostante.
Che cos’è MODEL_PERCENTILE?
MODEL_PERCENTILE calcola la funzione di distribuzione predittiva posteriore, anche nota come funzione di distribuzione cumulativa (CDF). Questa funzione calcola il quantile di un particolare valore compreso tra 0 e 1, l’inverso di MODEL_QUANTILE.
- Espressione di destinazione: il primo argomento è la misura da utilizzare come obiettivo, identificando i valori da valutare.
- Espressione/i predittore: il secondo argomento è il predittore utilizzato per eseguire la stima.
- Gli argomenti aggiuntivi sono facoltativi e sono inclusi per controllare la previsione.
Si noti che la sintassi di calcolo è simile, ma MODEL_QUANTILE ha un argomento aggiuntivo per definire un quantile.
Il risultato è la probabilità che il valore previsto sia minore o uguale al valore osservato espresso nell’indicatore.
È possibile utilizzare MODEL_PERCENTILE per identificare correlazioni e relazioni all’interno del database. Se MODEL_PERCENTILE restituisce un valore vicino a 0,5, l’indicatore osservato è vicino alla mediana dell’intervallo di valori previsti, dati gli altri predittori selezionati. Se MODEL_PERCENTILE restituisce un valore vicino a 0 o a 1, l’indicatore osservato è vicino all’intervallo inferiore o superiore di quanto previsto dal modello, dati gli altri predittori selezionati.
Per gli utenti avanzati, sono disponibili altri due argomenti facoltativi che è possibile includere per controllare la stima. Per maggiori informazioni, consulta Regolarizzazione e incremento nella modellazione predittiva.
Cosa viene calcolato?
L’input utilizzato per compilare il modello è una matrice in cui ogni indicatore è una riga e le colonne sono l’espressione di destinazione e le espressioni predittore valutate per ogni indicatore. Qualunque riga sia specificata nella vista è ciò che definisce la riga per l’insieme di dati calcolato dal motore statistico.
Esaminiamo l’esempio seguente, dove le righe (e quindi gli indicatori) sono definite dalle posizioni lavorative e le colonne sono l’espressione di destinazione MEDIAN([Annual Rt]). Questi sono seguiti dai predittori aggiuntivi facoltativi MEDIAN([Tenure in Months (Measure)] e ATTR([Department Generic (group)].
Per maggiori informazioni sui dati utilizzati per compilare un modello e generare previsioni, consulta Calcola utilizzando e partizionamento dei dati nella modellazione predittiva.
Quali modelli sono supportati?
Le funzioni di modellazione predittiva supportano la regressione lineare, la regressione lineare regolarizzata e la regressione con processo gaussiano. Questi modelli supportano diversi casi di utilizzo e tipi di previsioni, oltre ad avere limitazioni differenti. Per maggiori informazioni, consulta Scelta di un modello predittivo.
Scelta dei predittori
Un predittore può essere qualsiasi campo nell’origine dati (una misura o una dimensione), inclusi i campi calcolati.
Supponiamo ad esempio di avere un insieme di dati che include i campi [Città], [Stato] e [Regione], in cui sono presenti più record [Città] all’interno di uno [Stato] e più record [Stato] all’interno di una [Regione].
In una visualizzazione che utilizza [Stato] come indicatore, sarà possibile utilizzare come predittore sia ATTR([Stato]) che ATTR([Regione]). Tuttavia, il predittore ATTR([Città]) tornerà a *, poiché esistono più città all’interno di uno stato visualizzato e quindi non possono essere utilizzate come predittori. In altre parole, l’inclusione di un predittore a un livello di dettaglio inferiore rispetto alla visualizzazione non aggiunge alcun valore alle previsioni. Nella maggior parte dei casi, un predittore a un livello di dettaglio inferiore rispetto alla visualizzazione sarà valutato come *, quindi tutti i valori saranno trattati in modo identico.
Tuttavia, se lo stesso insieme di dati viene utilizzato per generare una visualizzazione che utilizza [Città] come indicatore, ATTR([Città]), ATTR([Stato]) e ATTR([Regione]) possono essere tutti utilizzati correttamente come predittori. Per maggiori informazioni sull’utilizzo delle funzioni ATTR, consulta Quando usare una funzione attributo (ATTR).
Le dimensioni e le misure non devono essere visualizzate (nella vista o nella visualizzazione) per essere incluse come predittori. Per indicazioni più dettagliate, consulta Scelta dei predittori.
Suggerimenti
I calcoli di previsione sono particolarmente indicati nelle seguenti situazioni:
Per prevedere i valori per singoli record, in cui ogni indicatore nella visualizzazione rappresenta un’entità discreta (ad esempio, un prodotto, una vendita, una persona e così via), anziché dati aggregati. Ciò è dovuto al fatto che Tableau considera ogni indicatore altrettanto probabile, anche se un indicatore è costituito da 100 record e gli altri indicatori sono costituiti da un record ciascuno. Il motore statistico non pondera gli indicatori in base al numero di record che li costituiscono.
- Per prevedere i valori per le espressioni di destinazione aggregate che utilizzano SUM e COUNT.
Limitazioni
Devi utilizzare un campo calcolato per estendere una serie temporale in futuro. Per maggiori informazioni, consulta Previsioni del futuro.
I predittori devono essere allo stesso livello di dettaglio o a un livello superiore rispetto alla vista. In questo caso, se la vista viene aggregata in base allo stato, è necessario usare lo stato o la regione come predittore, ma non la città. Per maggiori informazioni, consulta Scelta dei predittori.
Quando non funzionano i calcoli di previsione?
Indipendentemente dal modello in uso, è necessario avere almeno tre punti dati all’interno di ogni partizione affinché il modello restituisca una risposta.
Se hai specificato la regressione con processo gaussiano come modello, questa può essere utilizzata nei calcoli predittivi con un predittore dimensionale ordinato e un numero qualsiasi di predittori dimensionali non ordinati. Le misure non sono supportate come predittori nei calcoli con regressione con processo gaussiano, ma possono essere utilizzate nei calcoli con regressione lineare e regolarizzata. Per maggiori informazioni sulla selezione del modello, consulta Scelta di un modello predittivo.
Se il calcolo utilizza ATTR[Stato] come predittore e la visualizzazione include Stato come indicatore, ma nessun altro campo a un livello di dettaglio inferiore, come Città, verrà restituito un errore. Per evitare questo problema, è sufficiente assicurarsi che non vi sia una relazione uno-a-uno tra gli indicatori e le categorie del predittore.
Per maggiori informazioni su questi e altri problemi delle previsioni, consulta Risolvere gli errori nelle funzioni di modellazione predittiva.
Domande frequenti
Cosa succede agli indicatori nei gruppi con più predittori?
Se una riga viene aggregata da dati presenti in gruppi con più predittori, il valore della funzione ATTR è un valore speciale costituito da più valori. Ad esempio, tutte le città presenti in più stati avranno lo stesso valore previsto (a meno che non siano presenti altri predittori distinti). Quando si selezionano i predittori, è consigliabile utilizzare predittori che sono allo stesso livello di dettaglio della visualizzazione o a un livello superiore. Per maggiori informazioni sulle funzioni ATTR, consulta Quando usare una funzione attributo (ATTR).
Cosa succede se l’aggregazione ATTR restituisce un valore *?
* viene considerato un valore distinto. Se ATTR restituisce * per tutti gli indicatori, in sostanza si dispone di un predittore con un valore costante, che verrà ignorato. È lo stesso che non includere affatto tale predittore.
Se ATTR restituisce * per alcuni indicatori ma non per tutti, verrà trattato come una categoria in cui tutti i valori * vengono considerati uguali. Questo scenario è identico allo scenario precedente, in cui gli indicatori esistono in gruppi con più predittori.
Cosa succede alle opzioni di menu del calcolo tabella "Calcola utilizzando"?
Funzionano in modo identico all’utilizzo di Calcola utilizzando in altri calcoli tabella. Per maggiori informazioni, consulta Calcola utilizzando e partizionamento dei dati nella modellazione predittiva.
Perché viene visualizzato un errore?
Esistono diversi motivi per cui potresti riscontrare un errore quando utilizzi le funzioni di modellazione predittiva. Per le procedure dettagliate di risoluzione dei problemi, consulta Risolvere gli errori nelle funzioni di modellazione predittiva.