Calcola utilizzando e partizionamento dei dati nella modellazione predittiva

Puoi eseguire previsioni a partire dai dati includendo le funzioni di modellazione predittiva, MODEL_QUANTILE o MODEL_PERCENTILE, in un calcolo tabella.

Tieni presente che per tutti i calcoli tabella deve essere specificata una direzione Calcola utilizzando. Per una panoramica di come le diverse dimensioni di indirizzamento e partizionamento possono influire sui risultati, consulta Trasformare i valori con i calcoli tabella.

menu di scelta rapida che mostra Calcola utilizzando

Nota: quando aggiungi un calcolo tabella, devi utilizzare tutte le dimensioni del livello di dettaglio per il partizionamento (individuazione dell’ambito di applicazione) o per l’indirizzamento (direzione). Le dimensioni che definiscono come raggruppare il calcolo (l’ambito dei dati su cui viene eseguito) sono chiamate campi di partizionamento. Il calcolo tabella viene eseguito separatamente in ogni partizione. Le dimensioni rimanenti, su cui viene eseguito il calcolo tabella, sono chiamate campi di indirizzamento e determinano la direzione del calcolo. Per maggiori informazioni, consulta Nozioni fondamentali: indirizzamento e partizionamento.

Nelle funzioni di modellazione predittiva, l’opzione Calcola utilizzando viene utilizzata per partizionare (definire l’ambito) l’insieme di dati che verrà utilizzato per creare il modello predittivo.

Le funzioni di modellazione predittiva non includono un concetto di indirizzamento (direzione), poiché il modello restituisce un risultato distinto per ogni indicatore in base ai predittori selezionati. In altre parole, a differenza di Totale parziale, in cui la dimensione di indirizzamento determina l’ordine in cui vengono aggiunti i campi e restituiti i risultati, le funzioni di modellazione predittiva sono intrinsecamente non sequenziali. Calcolano i risultati utilizzando un modello dai dati definiti dall’obiettivo e dai predittori della funzione, al livello di dettaglio specificato dalla visualizzazione. All’interno di tali dati, non esiste alcun concetto di sequenziamento a meno che non venga utilizzato un predittore ordinato, ad esempio una dimensione di data.

Inoltre, viene sempre utilizzato il livello di dettaglio della visualizzazione per definire i dati utilizzati per creare il modello. Tutti i calcoli tabella operano allo stesso livello di dettaglio della visualizzazione stessa e le funzioni di modellazione predittiva non fanno eccezione.

Raccomandazioni per le funzioni di modellazione predittiva

È consigliabile selezionare una dimensione specifica in base alla quale eseguire il partizionamento quando si utilizzano funzioni di modellazione predittiva. Poiché è possibile disporre di più calcoli di previsione in una singola dashboard o visualizzazione, la selezione di una dimensione di partizionamento specifica garantisce la creazione di modelli che utilizzano lo stesso insieme di dati sottostante per ogni singola funzione, consentendo quindi il confronto dei risultati da modelli simili.

Quando si lavora con le funzioni di modellazione predittiva in Tableau, è fondamentale garantire la coerenza tra le diverse istanze, sia nelle diverse iterazioni del modello (ad esempio, quando si selezionano predittori diversi) che nelle diverse visualizzazioni. L’utilizzo delle opzioni Calcola utilizzando direzionali apre la possibilità che una piccola modifica nei dati visualizzati influisca in modo significativo sui dati utilizzati per creare il modello, influenzandone la validità e la coerenza tra diverse visualizzazioni.

Scelta delle dimensioni

Il seguente esempio utilizza l’origine dati Esempio - Supermercato inclusa in Tableau Desktop.

Quando scegli una dimensione, tieni presente che Tableau creerà un modello predittivo attraverso tale dimensione. In altre parole, se selezioni Data ordine come dimensione di partizionamento, Tableau utilizzerà i dati in qualsiasi altra partizione stabilita, ma lungo i valori di Data ordine.

L’immagine seguente mostra i dati utilizzati per creare il modello evidenziati in giallo e l’output del modello evidenziato in arancione. In questo caso, poiché non sono presenti predittori, tutte le risposte sono identiche all’interno di una determinata sottocategoria. La selezione di predittori ottimali consente di generare risultati più significativi. Per maggiori informazioni sui predittori ottimali, consulta Scelta dei predittori.

tabella che mostra risultati identici

Analogamente, se la sottocategoria venisse selezionata come dimensione di partizionamento, Tableau utilizzerebbe i dati in un determinato mese, ma lungo più sottocategorie, come illustrato di seguito. Se i dati vengono ulteriormente suddivisi in riquadri, i limiti del riquadro verranno rispettati durante la creazione di un modello.

tabella che mostra risultati identici per ogni sottocategoria

Nota sul partizionamento

Tieni presente che partizionare i dati visivamente ha effetti significativi sui dati usati per creare un modello e generare le previsioni. L’aggiunta di un livello di dettaglio più elevato (ad esempio, includendo sia Stato che Città in un singolo spazio) determinerà il partizionamento dei dati in base al livello di dettaglio superiore. Questo vale indipendentemente dall’ordine in cui sono posizionate le pillole nello spazio. Ad esempio, queste impostazioni restituiranno previsioni identiche:

Pillola Città e pillola Stato nello spazio RighePillola Stato e pillola Città nello spazio Righe

L’aggiunta di una pillola che modifica il livello di dettaglio partiziona i dati se viene aggiunta allo spazio Righe o Colonne oppure a Colore, Dimensioni, Etichetta, Dettaglio o Forma nella scheda Indicatori. L’aggiunta di una pillola a un livello di dettaglio diverso in Informazioni non non partiziona i dati.

Nell’esempio seguente, il modello viene automaticamente partizionato per Categoria poiché le pillole Categoria e Sottocategoria sono entrambe in Righe. Il calcolo di previsione viene calcolato attraverso Sottocategoria all’interno dei limiti della pillola di livello superiore, Categoria.

tabella che mostra risultati identici per ogni sottocategoria

Ciò ha implicazioni sul modo in cui vengono applicati i predittori. Esaminiamo l’esempio seguente. In questo caso, abbiamo tre calcoli tabella MODEL_QUANTILE da applicare:

Predict_Sales_CityPredict_Sales_StatePredict_Sales_Region
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([City]))
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([State]))
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([Region]))

Per tutti e tre abbiamo selezionato Calcola utilizzando > Città. Diamo un’occhiata ad alcune città della Carolina del Nord:

tabella che mostra i risultati per città

Puoi notare che i risultati di tutti e tre i calcoli sono identici all’interno di un determinato stato, nonostante l’utilizzo di predittori diversi.

Se rimuoviamo Regione dallo spazio Righe, non succede niente ai nostri risultati. Sono ancora tutti identici all’interno di un determinato stato:

tabella che mostra gli stessi risultati se la regione viene rimossa

Ma quando rimuoviamo Stato dallo spazio Righe, vediamo risultati diversi per ogni calcolo:

tabella che mostra risultati diversi quando lo stato viene rimosso

Cosa è successo?

Nel primo esempio, Regione e Stato nello spazio Righe stanno partizionando le città. Di conseguenza, i modelli per Predict_Sales_City, Predict_Sales_State e Predict_Sales_Region ricevono gli stessi dati e generano le stesse stime.

Dal momento che abbiamo già partizionato visivamente i dati all’interno di Stato e Regione, i nostri predittori non aggiungono alcun valore al modello e non hanno alcun impatto sui risultati:

tabella che mostra i predittori che non aggiungono valore al modello

Quando rimuoviamo Regione dallo spazio Righe, stiamo ancora partizionando per Stato, quindi non viene apportata alcuna modifica ai dati usati per creare il modello. Anche in questo caso, poiché abbiamo già partizionato visivamente i dati all’interno di Stato, i nostri predittori non aggiungono alcun valore al modello e non hanno alcun impatto sui risultati:

tabella che mostra i predittori che non aggiungono valore al modello

Tuttavia, quando rimuoviamo Stato, i dati vengono de-partizionati e vediamo previsioni diverse per ogni calcolo. Esaminiamo più da vicino quello che sta succedendo:

tabella che mostra diverse previsioni quando lo stato viene rimosso

Per Predict_Sales_City, stiamo usando ATTR([City]) come predittore. Poiché è allo stesso livello di dettaglio della visualizzazione, non aggiunge alcun valore e viene ignorato. Stiamo aggregando le vendite per tutte le città, passandole al motore statistico e calcolando le vendite previste. Poiché non sono inclusi altri predittori, vediamo lo stesso risultato per ogni città: se avessimo incluso una o più misure, osserveremmo variazioni nei risultati.

tabella che mostra gli stessi risultati per ogni città

Per Predict_Sales_State, stiamo usando ATTR([State]) come predittore. Il predittore sta partizionando tutti i dati delle città per stato. Ci aspettiamo di vedere risultati identici all’interno di uno stato, ma risultati diversi per ogni stato.

Ma puoi notare che non è esattamente quello che otteniamo. Le città di Cary, Chapel Hill e Charlotte hanno tutte previsioni identiche di 2.084 dollari, come previsto. Burlington, tuttavia, ci mostra una previsione diversa, di 9.366 dollari:

tabella che mostra che Burlington ha un risultato diverso

Questo perché esiste una città chiamata "Burlington" all’interno di più stati (Iowa, Carolina del Nord e Vermont). Di conseguenza, lo stato viene risolto in *, ovvero "più di un valore". Tutti gli indicatori in cui lo stato viene risolto in * vengono valutati insieme, quindi qualsiasi altra città presente in più stati avrebbe una previsione di 9.366 dollari.

Per Predict_Sales_Region, stiamo usando ATTR([Region]) come predittore. Il predittore sta partizionando tutti i dati delle città per regione. Ci aspettiamo di vedere risultati identici all’interno di una regione, ma risultati diversi per ogni regione.

tabella che mostra che la regione viene risolta in base ai risultati di Burlington

Anche in questo caso, poiché Burlington è presente all’interno di più regioni (Centrale, Est e Sud), la regione viene risolta in *. Le previsioni di Burlington corrisponderanno solo alle città che esistono all’interno di più regioni.

Come si può notare, è molto importante assicurarsi che tutti i predittori dimensionali siano allineati correttamente sia con il livello di dettaglio della visualizzazione che con il partizionamento. La suddivisione della visualizzazione in base a qualsiasi dimensione potrebbe avere effetti indesiderati sulle previsioni.

Grazie per il tuo feedback.Il tuo feedback è stato inviato. Grazie!