Hoe functies voor prognosemodellering werken in Tableau
U kunt al trendlijnen en prognoses aan een visualisatie toevoegen, maar nu kunt u nog verder gaan en de kracht van een statistische engine gebruiken om een model te bouwen dat begrijpt hoe uw data zijn verdeeld rond een trendlijn of best passende lijn. Voorheen moesten gebruikers Tableau wellicht integreren met R en Python om geavanceerde statistische berekeningen uit te voeren en deze in Tableau te visualiseren. U kunt nu de functies voor prognosemodellering gebruiken om voorspellingen te doen op basis van uw data door deze op te nemen in een tabelberekening. Zie Waarden transformeren met tabelberekeningen voor meer informatie over tabelberekeningen.
Met deze functies voor prognosemodellering kunt u nu doelen en voorspellingen selecteren door de variabelen bij te werken en meerdere modellen met verschillende combinaties van voorspellingen te visualiseren. De data kunnen op elk detailniveau gefilterd, samengevoegd en getransformeerd worden. Het model (en dus de voorspelling) wordt vervolgens automatisch opnieuw berekend, zodat deze overeenkomt met uw data.
Zie Voorbeeld – De levensverwachting van vrouwen verkennen met functies voor prognosemodellering voor een gedetailleerd voorbeeld hoe u met behulp van deze functies voorspellingsberekeningen kunt maken.
Functies voor prognosemodellering in Tableau
MODEL_PERCENTILE
Syntaxis | MODEL_PERCENTILE(
|
Definitie | Retourneert de waarschijnlijkheid (tussen 0 en 1) dat de verwachte waarde minder is dan of gelijk is aan de waargenomen markering, gedefinieerd door de doelexpressie en andere predictors. Dit is de posterieure voorspellende distributiefunctie, ook wel bekend als de cumulatieve distributiefunctie (CDF). |
Voorbeeld | MODEL_PERCENTILE( SUM([Sales]),COUNT([Orders])) |
MODEL_QUANTILE
Syntaxis | MODEL_QUANTILE(
|
Definitie | Retourneert een numerieke doelwaarde binnen het waarschijnlijkheidsbereik dat is gedefinieerd door de doelexpressie en andere predictors bij een opgegeven kwantiel. Dit is het posterieure voorspellende kwantiel. |
Voorbeeld | MODEL_QUANTILE(0.5, SUM([Sales]), COUNT([Orders])) |
De kracht van functies voor prognosemodellering
Laten we eens kijken naar een voorbeeld met salarisgegevens aan de hand van het MODEL_QUANTILE.
In het onderstaande voorbeeld is MODEL_QUANTILE gebruikt om het 10e en het 90e percentiel van de verwachte verdeling voor dezelfde dataset weer te geven. Op basis van de bestaande data en met behulp van een lineair regressiemodel heeft de statistische engine vastgesteld dat er een kans van 90% is dat het maximumsalaris voor elke ambtstermijn onder de groene lijn ligt, en een kans van 10% dat het minimumsalaris voor elke ambtstermijn onder de blauwe lijn ligt.
Met andere woorden: bij een kwantiel van 0,9 voorspelt het model dat alle salarissen in 90% van de gevallen op of onder de groene lijn zullen liggen. De blauwe lijn is gelijk aan 0,1 of 10%, dus slechts 10% van de salarissen valt op of onder de blauwe lijn, met het omgekeerde daarvan (90%) boven de blauwe lijn.
Dit geeft ons feitelijk een band waarvan we kunnen voorspellen dat 80% van de potentieel gegenereerde toekomstige punten of niet-waargenomen data binnen die band vallen.
Laten we nu eens kijken hoe MODEL_PERCENTILE, het omgekeerde van MODEL_QUANTILE, ons kan helpen de data beter te begrijpen.
U kunt de uitschieters in de dataset identificeren met behulp van de functie MODEL_PERCENTILE. MODEL_PERCENTILE geeft aan, als percentiel, waar het waargenomen merkteken binnen een bereik van waarschijnlijke waarden voor elk merkteken valt. Als het percentiel heel dicht bij 0,5 ligt, ligt de waargenomen waarde heel dicht bij de voorspelde mediaanwaarde. Als het percentiel dicht bij 0 of 1 ligt, bevindt de waargenomen waarde zich aan de onder- of bovengrens van het modelbereik en is deze relatief onverwacht.
Hieronder hebben we MODEL_PERCENTILE als kleur toegepast op de salarisvisualisatie in de bovenste helft van de afbeelding, zodat we beter kunnen zien welke waarden het meest worden verwacht.
Syntaxis van functies voor prognosemodellering in detail
Wat is MODEL_QUANTILE?
MODEL_QUANTILE berekent het posterieure voorspellende kwantiel of de verwachte waarde bij een opgegeven kwantiel.
- Kwantiel: het eerste argument is een getal tussen 0 en 1, dat aangeeft welk kwantiel moet worden voorspeld. 0,5 geeft bijvoorbeeld aan dat de mediaan wordt voorspeld.
- Doelexpressie: het tweede argument is de maatregel om te voorspellen of te 'richten'.
- Voorspellingsexpressie(s): het derde argument is de predictor die gebruikt wordt om de voorspelling te doen. Predictors kunnen dimensies, meetwaarden of beide zijn.
Het resultaat is een getal binnen het waarschijnlijke bereik.
Met MODEL_QUANTILE kunt u een betrouwbaarheidsinterval genereren, ontbrekende waarden zoals toekomstige datums weergeven of categorieën genereren die niet in uw onderliggende dataset voorkomen.
Wat is MODEL_PERCENTILE?
Het MODEL_PERCENTILE is de achterste voorspellende distributiefunctie, ook wel bekend als de cumulatieve distributiefunctie (CDF). Hiermee wordt het kwantiel van een bepaalde waarde tussen 0 en 1 berekend, het omgekeerde van MODEL_QUANTILE.
- Doelexpressie: het eerste argument is de te meten maatstaf, namelijk welke waarden beoordeeld moeten worden.
- Voorspellende expressie(s): het tweede argument is de predictor die gebruikt wordt om de voorspelling te doen.
- Aanvullende argumenten zijn optioneel en worden toegevoegd om de voorspelling te bepalen.
De berekeningssyntaxis is vergelijkbaar, maar MODEL_QUANTILE heeft het extra argument van een gedefinieerd kwantiel.
Het resultaat is de waarschijnlijkheid dat de verwachte waarde kleiner of gelijk is aan de waargenomen waarde die in het cijfer is uitgedrukt.
Met MODEL_PERCENTILE kunt u correlaties en relaties in uw database zichtbaar maken. Als MODEL_PERCENTILE een waarde retourneert die dicht bij 0,5 ligt, ligt het waargenomen cijfer dicht bij de mediaan van het bereik van voorspelde waarden, op basis van de andere predictors die u hebt geselecteerd. Als MODEL_PERCENTILE een waarde retourneert die dicht bij 0 of 1 ligt, bevindt de waargenomen markering zich dicht bij het onderste of bovenste bereik van wat het model verwacht, op basis van de andere predictors die u hebt geselecteerd.
Geavanceerde gebruikers kunnen nog twee optionele argumenten opgeven om de voorspelling te bepalen. Zie Regularisatie en uitbreiding in prognosemodellen voor meer informatie.
Wat wordt er berekend?
De invoer die wordt gebruikt om het model te bouwen, is een matrix waarin elke markering een rij is en de kolommen de doelexpressie en voorspellende expressies zijn die voor elke markering worden geëvalueerd. De rij die op de visualisatie is gespecificeerd, definieert de rij voor de dataset die door de statistische engine wordt berekend.
Laten we eens kijken naar het onderstaande voorbeeld, waarin rijen (en dus cijfers) worden gedefinieerd door functienamen en kolommen de doelexpressie MEDIAN([Annual Rt]) zijn. Deze worden gevolgd door de optionele aanvullende predictors MEDIAN([Tenure in Months (Measure)] en ATTR([Department Generic (group)].
Zie Berekenen met en datapartitionering in prognosemodellering.
Welke modellen worden ondersteund?
Functies voor prognosemodellering ondersteunen lineaire regressie, geregulariseerde lineaire regressie en Gaussische procesregressie. Deze modellen ondersteunen verschillende gebruikscases en voorspellingstypen, en hebben ook verschillende beperkingen. Zie Een prognosemodel kiezen voor meer informatie.
Predictors kiezen
Een predictor kan elk veld in uw databron zijn (meetwaarde of dimensie), inclusief berekende velden.
Stel bijvoorbeeld dat u een dataset hebt met de velden [Stad], [Staat] en [Regio], waarbij er meerdere [Stad]-records bestaan binnen een [Staat] en meerdere [Staat]-records binnen een [Regio].
In een visualisatie die [Staat] als markering gebruikt, zullen de predictor ATTR([Staat]) of ATTR([Regio]) beide als predictors werken. De predictor ATTR([Stad]) zal echter naar * worden teruggezet, omdat er meerdere steden bestaan binnen een gevisualiseerde staat en daarom niet als predictors kunnen worden gebruikt. Met andere woorden: het toevoegen van een predictor met een lager detailniveau dan de visualisatie voegt geen waarde toe aan de voorspellingen. In de meeste gevallen zal een predictor met een lager detailniveau dan de visualisatie worden geëvalueerd naar * en zullen alle waarden dus identiek worden behandeld.
Als dezelfde dataset echter wordt gebruikt om een visualisatie te genereren die [Stad] als markering gebruikt, kunnen ATTR([Stad]), ATTR([Staat]) en ATTR([Regio]) allemaal succesvol als predictors worden gebruikt. Zie De Attribute (ATTR)-functie gebruiken (in het Engels) voor meer informatie over het gebruik van de ATTR-functies.
Dimensies en meetwaarden hoeven niet gevisualiseerd te worden (in de weergave of visualisatie) om als predictors te worden opgenomen. Zie Predictors kiezen voor meer gedetailleerde informatie.
Aanbevelingen
Voorspellingsberekeningen kunt u het beste als volgt gebruiken:
Om waarden voor individuele records te voorspellen, waarbij elke markering in uw visualisatie een discrete entiteit vertegenwoordigt, zoals een product, verkoop, persoon, enz., in plaats van geaggregeerde data. Dit komt doordat Tableau elke markering als even waarschijnlijk beschouwt, zelfs als één markering uit 100 records bestaat en de andere markeringen elk uit één record bestaan. De statistische engine baseert zijn beoordeling niet op het aantal records waaruit hij bestaat.
- Dit wordt gebruikt om waarden voor geaggregeerde doelexpressies te voorspellen met behulp van SUM en COUNT.
Beperkingen
U moet een berekend veld gebruiken om een tijdreeks naar de toekomst te verleggen. Zie De toekomst voorspellen (in het Engels) voor meer informatie.
Predictors moeten hetzelfde of een hoger detailniveau hebben dan de weergave. Dat wil zeggen, als uw weergave per staat is samengesteld, moet u de staat of regio als predictor gebruiken, niet de stad. Zie Predictors kiezen voor meer informatie.
Wanneer werken de voorspellingsberekeningen niet meer?
Ongeacht het model dat u gebruikt, moeten er minimaal drie datapunten in elke partitie aanwezig zijn voordat het model een respons retourneert.
Als u Gaussische procesregressie als uw model hebt opgegeven, kan dit worden gebruikt in voorspellende berekeningen met één geordende dimensionale predictor en een willekeurig aantal ongeordende dimensionale predictors. Meetwaarden worden niet ondersteund als predictors in regressieberekeningen met Gaussische processen, maar kunnen wel worden gebruikt in lineaire en geregulariseerde lineaire regressieberekeningen. Zie Een prognosemodel kiezen voor meer informatie over modelselectie.
Als uw berekening ATTR[Staat] als predictor heeft gebruikt en uw visualisatie ook Staat als merk bevat, maar geen ander veld met een lager detailniveau, zoals Stad, dan krijgt u een foutmelding. Om dit te voorkomen, moet u ervoor zorgen dat er geen één-op-één-relatie is tussen cijfers en predictorcategorieën.
Zie Fouten in functies voor prognosemodellering oplossen voor meer informatie over deze en andere voorspellingsproblemen.
Veelgestelde vragen
Hoe zit het met de cijfers in meerdere predictorgroepen?
Als een rij wordt geaggregeerd uit data die zich binnen meerdere predictorgroepen bevinden, is de waarde van de ATTR-functie een speciale waarde van meerdere waarden. Zo zullen bijvoorbeeld alle steden die in meerdere staten liggen dezelfde voorspelde waarde hebben (tenzij er andere onderscheidende predictors zijn). Bij het selecteren van predictors kunt u het beste predictors gebruiken die hetzelfde detailniveau hebben als de visualisatie of hoger. Zie De Attribute (ATTR)-functie gebruiken (in het Engels) voor meer informatie over de ATTR-functies.
Wat als ATTR Aggregatie een *-waarde retourneert?
* waarde wordt behandeld als een afzonderlijke waarde. Als ATTR * retourneert voor alle markeringen, dan hebt u in feite een predictor met een constante waarde, die genegeerd wordt. Dit is hetzelfde als die predictor helemaal niet meenemen.
Als ATTR voor sommige maar niet voor alle markeringen * retourneert, wordt dit behandeld als een categorie waarden waarbij alle *-waarden als hetzelfde worden beschouwd. Dit scenario is identiek aan het bovenstaande scenario, waarin er punten in meerdere predictorgroepen bestaan.
Hoe zit het met de menuopties Berekenen met in de tabel?
Dit werkt op dezelfde manier als Berekenen met in andere tabelberekeningen. Zie Berekenen met en datapartitionering in prognosemodellering voor meer informatie.
Waarom krijg ik een fout te zien?
Er zijn verschillende redenen waarom er een fout kan optreden bij het gebruik van voorspellende modelleringsfuncties. Zie Fouten in functies voor prognosemodellering oplossen voor gedetailleerde stappen voor probleemoplossing.