Berekenen met en datapartitionering in prognosemodellering
U doet voorspellingen op basis van uw data door de prognosemodelleringsfuncties, MODEL_QUANTILE of MODEL_PERCENTILE, in een tabelberekening.
Houd er rekening mee dat voor alle tabelberekeningen een Berekenen met richting moet zijn opgegeven. Voor een overzicht van hoe verschillende adresserings- en partitioneringsdimensies uw resultaten kunnen beïnvloeden, zie Waarden transformeren met tabelberekeningen.
Bij prognosemodelleringsfuncties is de optie Berekenen met gebruikt om de dataset die wordt gebruikt om het prognosemodel te bouwen te partitioneren (bereik).
Prognosemodelleringsfuncties hebben geen idee van adressering (richting), aangezien het model voor elke markering op basis van de geselecteerde predictors een uniek resultaat geeft. Dat is in tegenstelling tot Lopend totaal waarbij de adresseringsdimensie de volgorde bepaalt waarin velden worden toegevoegd en resultaten worden gegeven. Prognosemodelleringsfuncties zijn per definitie niet-achtereenvolgens. Ze berekenen resultaten met gebruik van een model op basis van de data die zijn gedefinieerd door het doel en de predictors van de functie, op het detailniveau dat is gespecificeerd door de visualisatie. In die data is er geen sprake van achtereenvolging, tenzij er gebruik wordt gemaakt van een predictor met volgorde, zoals een datumdimensie.
Bovendien wordt het detailniveau van de visualisatie altijd gebruikt bij het definiëren van de data die worden gebruikt om het model te maken. Alle tabelberekeningen werken op hetzelfde detailniveau als de visualisatie zelf. Dit geldt ook voor prognosemodelleringsfuncties.
Aanbevelingen voor prognosemodelleringsfuncties
Het is raadzaam om een specifieke dimensie te selecteren om op te partitioneren wanneer u prognosemodelleringsfuncties gebruikt. Omdat u meerdere voorspellingsberekeningen in één visualisatie of dashboard kunt hebben, zorgt het selecteren van een specifieke partitioneringsdimensie ervoor dat u modellen maakt met dezelfde onderliggende dataset voor elke afzonderlijke functie, en zo resultaten van soortgelijke modellen kunt vergelijken.
Wanneer u werkt met prognosemodelleringsfuncties in Tableau is het van cruciaal belang dat u consistentie behoudt in de verschillende instanties, zowel in verschillende iteraties van uw model (bijv. wanneer u verschillende predictors selecteert) als in verschillende visualisaties. Met de directionele opties Berekenen met bestaat de mogelijkheid dat een kleine wijziging in uw gevisualiseerde data een aanzienlijk effect heeft op de data die worden gebruikt om het model te maken. Dit heeft invloed op de geldigheid en consistentie in verschillende visualisaties.
Dimensies kiezen
In de onderstaande voorbeelden wordt de databron Voorbeeld - Superstore gebruikt, die bij Tableau Desktop wordt geleverd.
Houd er bij het kiezen van een dimensie rekening mee dat Tableau een prognosemodel maakt voor die gehele dimensie. Dat wil zeggen, als u Besteldatum selecteert de partitioneringsdimensie, zal Tableau data gebruiken binnen elke andere vastgestelde partitie, maar samen met de waarden van Besteldatum.
De onderstaande afbeelding toont de data die zijn gebruikt om het model te maken gemarkeerd in geel, en de modeluitvoer gemarkeerd in oranje. In dit geval zijn alle reacties binnen een gegeven Subcategorieidentiek, omdat er geen predictors zijn. Door optimale predictors te selecteren, kunt u betekenisvollere resultaten genereren. Zie Predictors kiezen voor meer informatie over optimale predictors.
Als Subcategorie was geselecteerd als een partitioneringsdimensie, zou Tableau de data gebruiken binnen een bepaalde maand maar samen met meerdere subcategorieën, zoals hieronder. Als de data verder worden onderverdeeld in deelvensters, worden de deelvenstergrenzen gerespecteerd bij het maken van een model.
Een opmerking over partitionering
Houd er rekening mee dat het visueel partitioneren van uw data aanzienlijke gevolgen heeft voor de data die worden gebruikt om een model te maken en uw voorspellingen te genereren. Door een hoger detailniveau toe te voegen (bijvoorbeeld door zowel Staat als Stad in één container) zal uw data worden gepartitioneerd op basis van de hogere LOD. Dit geldt ongeacht de volgorde waarin de velden in de container zijn geplaatst. Deze zullen bijvoorbeeld identieke voorspellingen opleveren:
Als u een veld toevoegt waarmee u het detailniveau wijzigt, worden uw data gepartitioneerd als u deze toevoegt aan de container Rijen of Kolommen, of aan Kleur, Formaat, Label, Detail of Vorm op de kaart Markeringen. Het toevoegen van een veld op een ander detailniveau dan Knopinfo zal de data niet partitioneren.
In het onderstaande voorbeeld wordt het model automatisch gepartitioneerd op Categorie omdat de velden Categorie en Subcategorie beide in Rijen staan. De voorspellingsberekening wordt uitgevoerd voor Subcategorie binnen de grenzen van het veld van een hoger niveau: Categorie.
Dit heeft gevolgen voor de manier waarop uw predictors worden toegepast. Laten we eens naar het onderstaande voorbeeld kijken. In dit geval worden er drie MODEL_QUANTILE-tabelberekeningen toegepast:
Predict_Sales_City | Predict_Sales_State | Predict_Sales_Region |
MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
|
Voor alle drie hebben we Berekenen met > Stad geselecteerd. Laten we eens kijken naar een paar steden in North Carolina:
U ziet dat de resultaten van alle drie de berekeningen binnen een bepaalde staat identiek zijn, ondanks het gebruik van verschillende predictors.
Als we Regio verwijderen vanuit de container Rijen, gebeurt er niets met onze resultaten. Ze zijn nog steeds allemaal identiek binnen een bepaalde staat:
Maar als we Staat verwijderen uit de container Rijen, zien we andere resultaten voor elke berekening:
Wat gebeurt hier?
In het eerste voorbeeld worden de steden gepartitioneerd door Regio en Staat in de container Rijen. Daarom krijgen de modellen voor Predict_Sales_City, Predict_Sales_State en Predict_Sales_Region dezelfde data en komen hier dezelfde voorspellingen uit.
Omdat we de data al visueel hebben gepartitioneerd binnen Staat en Regio, voegt geen van onze predictors enige waarde toe aan het model en hebben ze geen invloed op de resultaten:
Wanneer we Regio verwijderen uit de container Rijen, partitioneren we nog steeds op Staat. Er verandert dus niets aan de data die gebruikt zijn om het model te maken. Nogmaals, omdat we de data binnenin al visueel hebben gepartitioneerd binnen Staat, voegt geen van onze predictors enige waarde toe aan het model en hebben geen invloed op de resultaten:
Wanneer we echter Staat verwijderen, worden de data gedepartitioneerd en zien we voor elke berekening verschillende voorspellingen. Laten we eens beter bekijken wat daar gebeurt:
Voor Predict_Sales_City gebruiken we ATTR([City]) als predictor. Omdat dit op hetzelfde detailniveau is als de visualisatie, voegt het geen waarde toe en wordt het genegeerd. We aggregeren Verkoop voor alle steden, sturen deze door naar de statistiekmachine en berekenen de voorspelde verkoop. Omdat er geen andere predictors zijn opgenomen, zien we voor elke stad hetzelfde resultaat. Als we één of meer meetwaarden hadden opgenomen, zouden we variatie in de resultaten zien.
Voor Predict_Sales_State, gebruiken we ATTR([State]) als predictor. De predictor partitioneert alle data voor Stad op Staat. We verwachten identieke resultaten te zien binnen een staat, maar verschillende resultaten voor elke staat.
Maar dat is niet helemaal wat we krijgen. De steden Cary, Chapel Hill en Charlotte hebben identieke voorspellingen van $ 2.084, zoals verwacht. Burlington geeft echter een andere voorspelling, namelijk $9.366:
Dat komt omdat er in meerdere staten een stad met de naam Burlington ligt (Iowa, North Carolina en Vermont). Daarom resulteert Staat in *, wat meer dan één waarde betekent. Alle markeringen waar Staat leidt tot *, worden samen geëvalueerd. Dus elke andere stad die ook in meerdere staten bestaat, zal ook een voorspelling van $ 9.366 hebben.
Voor Predict_Sales_Region gebruiken we ATTR([Region]) als predictor. De predictor partitioneert alle data voor Stad op Regio. Identieke resultaten binnen een regio zijn te verwachten, maar wel verschillende resultaten voor elke regio:
Omdat Burlington in meerdere regio's bestaat (centraal, oostelijk en zuidelijk), resulteert Regio in *. De voorspellingen van Burlington komen alleen overeen met steden die ook in meerdere regio's liggen.
Zoals u ziet, is het erg belangrijk om ervoor te zorgen dat alle dimensionale predictors correct zijn afgestemd op het detailniveau van uw visualisatie en uw partitionering. Als u uw visualisatie op basis van een dimensie onderverdeelt, kan dit onbedoelde gevolgen hebben voor uw voorspellingen.