Calcola utilizzando e partizionamento dei dati nella modellazione predittiva
Puoi eseguire previsioni a partire dai dati includendo le funzioni di modellazione predittiva, MODEL_QUANTILE o MODEL_PERCENTILE, in un calcolo tabella.
Tieni presente che per tutti i calcoli tabella deve essere specificata una direzione Calcola utilizzando. Per una panoramica di come le diverse dimensioni di indirizzamento e partizionamento possono influire sui risultati, consulta Trasformare i valori con i calcoli tabella.
Nelle funzioni di modellazione predittiva, l’opzione Calcola utilizzando viene utilizzata per partizionare (definire l’ambito) l’insieme di dati che verrà utilizzato per creare il modello predittivo.
Le funzioni di modellazione predittiva non includono un concetto di indirizzamento (direzione), poiché il modello restituisce un risultato distinto per ogni indicatore in base ai predittori selezionati. In altre parole, a differenza di Totale parziale, in cui la dimensione di indirizzamento determina l’ordine in cui vengono aggiunti i campi e restituiti i risultati, le funzioni di modellazione predittiva sono intrinsecamente non sequenziali. Calcolano i risultati utilizzando un modello dai dati definiti dall’obiettivo e dai predittori della funzione, al livello di dettaglio specificato dalla visualizzazione. All’interno di tali dati, non esiste alcun concetto di sequenziamento a meno che non venga utilizzato un predittore ordinato, ad esempio una dimensione di data.
Inoltre, viene sempre utilizzato il livello di dettaglio della visualizzazione per definire i dati utilizzati per creare il modello. Tutti i calcoli tabella operano allo stesso livello di dettaglio della visualizzazione stessa e le funzioni di modellazione predittiva non fanno eccezione.
Raccomandazioni per le funzioni di modellazione predittiva
È consigliabile selezionare una dimensione specifica in base alla quale eseguire il partizionamento quando si utilizzano funzioni di modellazione predittiva. Poiché è possibile disporre di più calcoli di previsione in una singola dashboard o visualizzazione, la selezione di una dimensione di partizionamento specifica garantisce la creazione di modelli che utilizzano lo stesso insieme di dati sottostante per ogni singola funzione, consentendo quindi il confronto dei risultati da modelli simili.
Quando si lavora con le funzioni di modellazione predittiva in Tableau, è fondamentale garantire la coerenza tra le diverse istanze, sia nelle diverse iterazioni del modello (ad esempio, quando si selezionano predittori diversi) che nelle diverse visualizzazioni. L’utilizzo delle opzioni Calcola utilizzando direzionali apre la possibilità che una piccola modifica nei dati visualizzati influisca in modo significativo sui dati utilizzati per creare il modello, influenzandone la validità e la coerenza tra diverse visualizzazioni.
Scelta delle dimensioni
Il seguente esempio utilizza l’origine dati Esempio - Supermercato inclusa in Tableau Desktop.
Quando scegli una dimensione, tieni presente che Tableau creerà un modello predittivo attraverso tale dimensione. In altre parole, se selezioni Data ordine come dimensione di partizionamento, Tableau utilizzerà i dati in qualsiasi altra partizione stabilita, ma lungo i valori di Data ordine.
L’immagine seguente mostra i dati utilizzati per creare il modello evidenziati in giallo e l’output del modello evidenziato in arancione. In questo caso, poiché non sono presenti predittori, tutte le risposte sono identiche all’interno di una determinata sottocategoria. La selezione di predittori ottimali consente di generare risultati più significativi. Per maggiori informazioni sui predittori ottimali, consulta Scelta dei predittori.
Analogamente, se la sottocategoria venisse selezionata come dimensione di partizionamento, Tableau utilizzerebbe i dati in un determinato mese, ma lungo più sottocategorie, come illustrato di seguito. Se i dati vengono ulteriormente suddivisi in riquadri, i limiti del riquadro verranno rispettati durante la creazione di un modello.
Nota sul partizionamento
Tieni presente che partizionare i dati visivamente ha effetti significativi sui dati usati per creare un modello e generare le previsioni. L’aggiunta di un livello di dettaglio più elevato (ad esempio, includendo sia Stato che Città in un singolo spazio) determinerà il partizionamento dei dati in base al livello di dettaglio superiore. Questo vale indipendentemente dall’ordine in cui sono posizionate le pillole nello spazio. Ad esempio, queste impostazioni restituiranno previsioni identiche:
L’aggiunta di una pillola che modifica il livello di dettaglio partiziona i dati se viene aggiunta allo spazio Righe o Colonne oppure a Colore, Dimensioni, Etichetta, Dettaglio o Forma nella scheda Indicatori. L’aggiunta di una pillola a un livello di dettaglio diverso in Informazioni non non partiziona i dati.
Nell’esempio seguente, il modello viene automaticamente partizionato per Categoria poiché le pillole Categoria e Sottocategoria sono entrambe in Righe. Il calcolo di previsione viene calcolato attraverso Sottocategoria all’interno dei limiti della pillola di livello superiore, Categoria.
Ciò ha implicazioni sul modo in cui vengono applicati i predittori. Esaminiamo l’esempio seguente. In questo caso, abbiamo tre calcoli tabella MODEL_QUANTILE da applicare:
Predict_Sales_City | Predict_Sales_State | Predict_Sales_Region |
MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
|
Per tutti e tre abbiamo selezionato Calcola utilizzando > Città. Diamo un’occhiata ad alcune città della Carolina del Nord:
Puoi notare che i risultati di tutti e tre i calcoli sono identici all’interno di un determinato stato, nonostante l’utilizzo di predittori diversi.
Se rimuoviamo Regione dallo spazio Righe, non succede niente ai nostri risultati. Sono ancora tutti identici all’interno di un determinato stato:
Ma quando rimuoviamo Stato dallo spazio Righe, vediamo risultati diversi per ogni calcolo:
Cosa è successo?
Nel primo esempio, Regione e Stato nello spazio Righe stanno partizionando le città. Di conseguenza, i modelli per Predict_Sales_City, Predict_Sales_State e Predict_Sales_Region ricevono gli stessi dati e generano le stesse stime.
Dal momento che abbiamo già partizionato visivamente i dati all’interno di Stato e Regione, i nostri predittori non aggiungono alcun valore al modello e non hanno alcun impatto sui risultati:
Quando rimuoviamo Regione dallo spazio Righe, stiamo ancora partizionando per Stato, quindi non viene apportata alcuna modifica ai dati usati per creare il modello. Anche in questo caso, poiché abbiamo già partizionato visivamente i dati all’interno di Stato, i nostri predittori non aggiungono alcun valore al modello e non hanno alcun impatto sui risultati:
Tuttavia, quando rimuoviamo Stato, i dati vengono de-partizionati e vediamo previsioni diverse per ogni calcolo. Esaminiamo più da vicino quello che sta succedendo:
Per Predict_Sales_City, stiamo usando ATTR([City]) come predittore. Poiché è allo stesso livello di dettaglio della visualizzazione, non aggiunge alcun valore e viene ignorato. Stiamo aggregando le vendite per tutte le città, passandole al motore statistico e calcolando le vendite previste. Poiché non sono inclusi altri predittori, vediamo lo stesso risultato per ogni città: se avessimo incluso una o più misure, osserveremmo variazioni nei risultati.
Per Predict_Sales_State, stiamo usando ATTR([State]) come predittore. Il predittore sta partizionando tutti i dati delle città per stato. Ci aspettiamo di vedere risultati identici all’interno di uno stato, ma risultati diversi per ogni stato.
Ma puoi notare che non è esattamente quello che otteniamo. Le città di Cary, Chapel Hill e Charlotte hanno tutte previsioni identiche di 2.084 dollari, come previsto. Burlington, tuttavia, ci mostra una previsione diversa, di 9.366 dollari:
Questo perché esiste una città chiamata "Burlington" all’interno di più stati (Iowa, Carolina del Nord e Vermont). Di conseguenza, lo stato viene risolto in *, ovvero "più di un valore". Tutti gli indicatori in cui lo stato viene risolto in * vengono valutati insieme, quindi qualsiasi altra città presente in più stati avrebbe una previsione di 9.366 dollari.
Per Predict_Sales_Region, stiamo usando ATTR([Region]) come predittore. Il predittore sta partizionando tutti i dati delle città per regione. Ci aspettiamo di vedere risultati identici all’interno di una regione, ma risultati diversi per ogni regione.
Anche in questo caso, poiché Burlington è presente all’interno di più regioni (Centrale, Est e Sud), la regione viene risolta in *. Le previsioni di Burlington corrisponderanno solo alle città che esistono all’interno di più regioni.
Come si può notare, è molto importante assicurarsi che tutti i predittori dimensionali siano allineati correttamente sia con il livello di dettaglio della visualizzazione che con il partizionamento. La suddivisione della visualizzazione in base a qualsiasi dimensione potrebbe avere effetti indesiderati sulle previsioni.