Så fungerar funktioner för prediktiva modeller i Tableau

Du kan redan lägga till trendlinjer och prognoser i en visualisering, men nu kan du göra ännu mer med hjälp av en statistikmotor som kan skapa en modell som förstår hur dina data distribueras kring en sådan trendlinje eller bäst passande linje. Tidigare var användare tvungna att integrera Tableau med R och Python för att kunna utföra avancerade statistiska beräkningar och visualisera dem i Tableau. Nu kan du använda funktionerna för prediktiva modeller för att skapa prognoser ur dina data genom att inkludera dem i en tabellberäkning. Mer information om tabellberäkningar finns i Omvandla värden med tabellberäkningar.

Med dessa funktioner för prediktiva modeller kan du välja mål och prediktorer genom att uppdatera variablerna och visualisera flera modeller med olika kombinationer av prediktorer. Data kan filtreras, aggregeras och omvandlas vid alla detaljnivåer och modellen (och därmed även prognosen) omberäknas automatiskt så att den matchar dina data.

Ett detaljerat exempel som visar hur du skapar prognosberäkningar med hjälp av dessa funktioner finns i Exempel – analysera den förväntade livslängden för kvinnor med funktioner för prediktiv modellering.

Funktioner för prediktiv modellering i Tableau

MODEL_PERCENTILE

SyntaxMODEL_PERCENTILE(
model_specification (optional),
target_expression,
predictor_expression(s))
DefinitionReturnerar sannolikheten (mellan 0 och 1) att det förväntade värdet är mindre än eller lika med den observerade markeringen, definierad av måluttrycket och andra prediktorer. Det här är funktionen för a-posteriori-fördelning, även kallad kumulativ fördelningsfunktion.
Exempel
MODEL_PERCENTILE( SUM([Sales]),COUNT([Orders]))

MODEL_QUANTILE

SyntaxMODEL_QUANTILE(
model_specification (optional),
quantile,
target_expression,
predictor_expression(s))
DefinitionReturnerar ett numeriskt målvärde inom det troliga intervallet, som definieras i måluttrycket och andra prediktorer, i en angiven kvantil. Det här är a-posteriori-kvantilen.
Exempel
MODEL_QUANTILE(0.5, SUM([Sales]), COUNT([Orders]))

Kraften i funktioner för prediktiva modeller

Vi tar och tittar på ett exempel där lönedata används och börjar med MODEL_QUANTILE.

i exemplet nedan har MODEL_QUANTILE använts för att visa den 10:e percentilen och den 90:e percentilen för den förväntade distributionen av samma datauppsättning. Baserat på befintliga data och med hjälp av en linjär regressionsmodell har statistikmotorn fastställt att det finns 90 % sannolikhet att den högsta lönen för vardera fasta tjänst ligger under den gröna linjen och 10 % sannolikhet att den lägsta lönen för vardera fasta tjänst ligger under den blå linjen.

Med andra ord förutser modellen att alla löner faller till eller under den gröna linjen i 90 % av fallen med kvantilen på 0,9. Den blå linjen är inställd på 0,1 eller 10 %, så endast 10 % av lönerna faller till eller under den blå linjen, med det inverterade värdet (90 %) ovanför den blå linjen.

Detta ger oss ett intervall som 80 % av potentiella framtida genererade poäng och icke observerade data faller inom.

lönefördelningsdiagram

Härnäst tittar vi på hur MODEL_PERCENTILE, motsatsen till MODEL_QUANTILE, kan hjälpa oss att förstå våra data ännu bättre.

Med hjälp av funktionen MODEL_PERCENTILE kan du identifiera utstickare i datauppsättningen. MODEL_PERCENTILE talar om för dig i form av en percentil var den observerade markeringen faller inom ett intervall av sannolika värden för varje markering. Om percentilen ligger väldigt när 0,5 ligger det observerade värdet mycket nära det förutsedda medianvärdet. Om percentilen ligger nära 0 eller 1 ligger det observerade värdet i de lägre eller högre nivåerna av modellintervallet och är ganska oväntat.

Nedan har vi tillämpat MODEL_PERCENTILE som en färg i lönevisualiseringen i den övre halvan av bilden, för att vi ska förstå vilka värden som förväntas.

lönefördelning som färg

Syntax för funktioner för prediktiva modeller i detalj

Vad är MODEL_QUANTILE?

Med MODEL_QUANTILE beräknas a-posteriori-kvantilen, eller det förväntade värdet vid en angiven kvantil.

  • Kvantil: Det första argumentet är ett nummer mellan 0 och 1, som indikerar vilken kvantil som ska förutses. Till exempel innebär 0,5 att medianvärdet ska förutses.
  • Måluttryck: Det andra argumentet är mätvärdet som sak förutses, eller ”målet”.
  • Prediktoruttryck: Det tredje argumentet är den prediktor som används för att göra prognosen. Prediktorer kan vara dimensioner, mätvärden eller både och.

Resultatet är ett nummer inom det sannolika intervallet.

Du kan använda MODEL_QUANTILE till att generera ett konfidensintervall, saknade värden som till exempel framtida datum, eller till att generera kategorier som inte finns i den underliggande datauppsättningen.

Vad är MODEL_PERCENTILE?

Med MODEL_PERCENTILE beräknas funktionen för a-posteriori-fördelning, även kallad kumulativ fördelningsfunktion. Här beräknas kvantilen för ett specifikt värde mellan 0 och 1, omvänt mot MODEL_QUANTILE.

  • Måluttryck: Det första argumentet är målmätvärdet, som identifierar vilka värden som ska bedömas.
  • Prediktoruttryck: Det andra argumentet är den prediktor som används för att göra prognosen.
  • Ytterligare argument är valfria och inkluderas för att styra prognosen.

Observera att beräkningssyntaxen är liknande, där MODEL_QUANTILE har ett extra argument för en definierad kvantil.

Resultatet är sannolikheten att det förväntade värdet är mindre än eller lika med det observerade värdet som uttrycks i markeringen.

Du kan använda MODEL_PERCENTILE till att belysa korrelationer och relationer inom databasen. Om MODEL_PERCENTILE returnerar ett värde nära 0,5 ligger den observerade markeringen nära medianvärdet i intervallet av förutsedda värden, givet de andra prediktorerna du har valt. Om MODEL_PERCENTILE returnerar ett värde nära 0 eller 1 ligger den observerade markeringen nära den lägre eller högre delen av intervallet som förväntas av modellen, givet de andra prediktorerna du har valt.

Obs! Dimensioner som används som prediktorer kan sorteras och avsorteras. En sorterad dimension är en dimension vars värden kan sekvenseras, som till exempel MÅNAD. En osorterad dimension är en dimension vars värden inte har någon inneboende sekvens, som till exempel kön och färg. Distinktionen har betydelse när du använder gaussisk processregression. Mer information om den här och andra modeller finns i Välja en prediktiv modell.

För avancerade användare finns det två valfria argument som man kan inkludera för att styra prognosen. Mer information finns i Regularisering och datautökning i prediktiv modellering.

Vad är det som beräknas?

De indata som används för att skapa modellen är en matris där varje markering är en rad och kolumnerna är måluttrycket och prediktoruttryck utvärderas för varje markering. Den rad som anges i visualiseringen är den som definierar raden för datauppsättningen som beräknas av statistikmotorn.

Låt oss ta en titt på exemplet nedan, där rader (och därmed markeringar) definieras av jobbtitlar och kolumner är måluttrycket MEDIAN([Årlig avkastning]). Detta följs av de valfria prediktorerna MEDIAN([varaktighet i månader (mätvärde)]) och ATTR([Allmän avdelning (grupp)]).

tabell över lönedata

Obs! Flera jobbtitlar har en asterisk under Avdelning. Det beror på att dessa jobbtitlar finns i flera avdelningar, men Tableau behandlar dem som om de vore del av samma avdelning. Statistikmotorn tar inte hänsyn till antalet poster, utan behandlar alla markeringar som lika sannolika. Detta beror på att Tableau inte kan utföra tabellberäkningar på oaggregerade data och inte kan aggregera resultaten från tabellberäkningar. Mer information om aggregering finns i Data-aggregering i Tableau.

Mer information om data som används för att skapa en modell och generera prognoser finns i Bearbeta med och Datapartitionering i prediktiv modellering.

Vilka modeller stöds?

Prediktiva modelleringsfunktioner stöder linjär regression, reglerad linjär regression och gaussisk processregression. De här modellerna stöder olika användningsfall och prediktionstyper, och har dessutom olika begränsningar. Mer information finns i Välja en prediktiv modell.

Välja prediktorer

En prediktor kan vara vilket fält som helst i datakällan (ett mätvärde eller en dimension), inklusive beräknade fält.

Obs! Om du använder en dimension som en prediktor måste du använda omslutningen ATTR (t.ex. ATTR([Län]i stället för bara [Län]). Detta beror på att dimensioner oftast endast fungerar om detaljnivån antingen direkt motsvarar visualiserings detaljnivå eller ligger ovanför den i en hierarki.

Anta till exempel att du har en datauppsättning som innehåller fälten [Stad], [Län] och [Region], där flera [Stad]-poster finns inom en [Län] och flera [Län]-poster finns inom en [Region].

I en visualisering som använder [Län] som en markering fungerar både prediktorn ATTR([Län]) och ATTR([Region]) som en prediktor. Prediktorn ATTR([Stad)] återgår däremot till *, eftersom det finns flera städer inom en visualiserad delstat och den därför inte kan användas som prediktor. Med andra ord tillförs inget värde till prognoserna om du använder en prediktor som har en detaljnivå som är lägre än den i visualiseringen. I de flesta fall utvärderas prediktorer med lägre detaljnivå än visualiseringens till * och behandlas därför identiskt.

Om samma datauppsättning används för att generera en visualisering som använder [Stad] som en markering kan dock både ATTR([Stad]), ATTR([Län]) och ATTR([Region]) användas som prediktor. Mer information om hur ATTR-funktionerna används finns i När attributfunktionen (ATTR) ska användas.

Du behöver inte visualisera dimensioner och mätvärden (i vyn eller visualiseringen) för att de ska inkluderas som prediktorer. Mer detaljerad vägledning finns i Att välja prediktorer.

Rekommendationer

Prognosberäkningar används bäst enligt följande:

  • För att förutse värden för enskilda poster där varje markering i visualiseringen representerar en diskret enhet, som till exempel en produkt, försäljning, person o.s.v. snarare än aggregerade data. Detta beror på att Tableau ser alla markeringar som lika sannolika, även om en markering utgörs av 100 poster och de andra posterna utgörs av en post var. Statistikmotorn väger inte markeringar utifrån antalet poster.

  • För att förutse värden för aggregerade måluttryck med SUM och COUNT.
Obs! MODEL_QUANTILE och MODEL_PERCENTILE rekommenderas inte för att förutse värden för aggregerade måluttryck med AVG, MEDIAN, MIN och MAX.

Begränsningar

  • Du måste använda ett beräknat fält för att utöka en tidsserie in i framtiden. Mer information finns i Förutse framtiden.

  • Prediktorer bör vara på samma eller högre detaljnivå än vyn. Om vyn aggregerar efter delstat ska du alltså använda delstat eller region som prediktor, men inte stad. Mer information finns i Att välja prediktorer.

När bryts prognosberäkningar?

Oavsett vilken modell du använder måste du ha minst tre datapunkter inom varje partition för att modellen ska returnera ett svar.

Om du har angett gaussisk processregression som modell kan den användas i prognosberäkningar med en sorterad dimensionell prediktor och ett valfritt antal osorterade dimensionella prediktorer. Mätvärden stöds inte som prediktorer i beräkningar med gaussisk processregression, men kan användas i beräkningar med linjär och reglerad linjär regression. Mer information om modellval finns i Välja en prediktiv modell.

Om beräkningen använde ATTR[Län] som prediktor och visualiseringen också inkluderade Län som markering men inga andra fält med lägre detaljnivå, som till exempel Stad, returneras ett fel. Du kan förhindra detta genom att kontrollera att det inte finns en en-till-en-relation mellan markeringar och prediktorkategorier.

Mer information om dessa och andra prognosproblem finns i Lösa fel i funktioner för prediktiva modeller.

Vanliga frågor

Vad gäller för markeringar i flera prediktorgrupper?

Om en rad aggregeras från data som finns i flera prediktorgrupper är värdet för ATTR-funktionen ett specialvärde av flera värden. Till exempel har alla städer som finns i flera delstater samma förutsedda värde (såvida inte det finns andra distinkta prediktorer). När du väljer prediktorer är det bäst att du använder prediktorer som har samma eller högre detaljnivå än visualiseringen. Mer information om ATTR-funktioner finns i When to Use the Attribute (ATTR) Function.

Vad händer om ATTR-aggregeringen returnerar värdet *?

* behandlas som ett distinkt värde. Om ATTR returnerar * för alla markeringar har du i praktiken en prediktor med ett konstant värde, som ignoreras. Det är samma sak som att inte inkludera någon prediktor alls.

Om ATTR returnerar * för vissa men inte alla markeringar behandlas den som en kategori där alla *-värden anses vara samma. Det här scenariot är identiskt med ovanstående scenario, där alla markeringar finns i flera prediktorgrupper.

Hur fungerar alternativen i tabellberäkningsmenyn ”Beräkna med”?

Det här fungerar precis som Beräkna med i andra tabellberäkningar. Mer information finns i Bearbeta med och Datapartitionering i prediktiv modellering.

Varför får jag ett felmeddelande?

Det kan finnas flera anledningar till att du stöter på ett fel när du använder funktioner för prediktiva modeller. Detaljerade felsökningssteg finns i Lösa fel i funktioner för prediktiva modeller.

Tack för din feedback!Din feedback har skickats in. Tack!