Att välja prediktorer

När prediktionsberäkningar skapas med de prediktiva modelleringsfunktionerna i Tableau måste du välja prediktorer. Som en påminnelse är en prediktor en indatavariabel vars värde används för att förutsäga en resultatvariabel, även känd som målet eller svaret. Du kommer att ofta arbeta med data som du har omfattande domänkunskaper om. Du har dessutom redan har en god uppfattning om vilka fält som är starkt korrelerade med ditt förutsägelsemål och som skulle vara bra prediktorer. Det är fortfarande en bra idé att ta dig tid att utvärdera prediktorerna och se till att de väljs med omtanke. Du kommer alltid att vilja inkludera minst en prediktor och vanligtvis mer än en.

Välj först ditt mål. Detta kan vara självklart men om du väljer dina prediktorer baserat på vad du vill förutsäga är ett viktigt första steg. De fält som är mest korrelerade med kvinnors förväntade livslängd kan till exempel skilja sig mycket från de fält som är mest korrelerade med mäns. På samma sätt kan de fält som är mest korrelerade med försäljningen skilja sig starkt från de som är mest korrelerade med vinsten.

Ytterligare en sak att hålla i åtanke är att de prediktiva modelleringsfunktionerna som standard använder linjär regression som den underliggande statistiska modellen. Den här modellen innebär att de mest korrelerade prediktorerna de som har en linjär relation med målet. Se Välja en prediktiv modell för information om hur du använder en annan modell som stöds.

Låt oss se över data om förväntad livslängd för kvinnor för att bättre förstå hur man väljer de bästa prediktorerna för de frågor som ska besvaras. Ladda ner följande arbetsbok från Tableau Public: Choosing Predictors for Your Predictions (Välja prediktorer för dina förutsägelser) för att kunna följa med.

Mätvärden som prediktorer

När du använder ett mätvärde som en prediktor kan Tableau användas för att utvärdera dess korrelation med ditt mål. Ett sätt är att skapa ett punktdiagram. Nedan jämför vi ett lands förväntad livslängd för kvinnor med en mängd andra mätvärden.

jämförelser i ett punktdiagram för att visa korrelationen av prediktor vs mål

För vissa mätvärden såsom Spädbarnsdödlighet och Födelsetal finns det ett tydligt negativt samband med Förväntad livslängd för kvinnor, vilket kan ses i den negativa lutningen av punktdiagrammet. För andra är det mindre tydligt. En sak vi tydligt kan se är dock en L-formad fördelning för Medianen BNP, Medianen mobiltelefonanvändning och Medianen vårdutgifter per capita. Den här L-formade distributionen indikerar ofta att en loggtransformation kan användas för att hjälpa till att analysera dina data mer exakt. En annan ledtråd är om alla värden i en kolumn är positiva. I Tableau kan du använda en loggtransformation genom att redigera fältet och ange uttrycket i en LOG-funktion:

loggfunktion

Detta tar oss från den L-formade fördelningen – där det är svårt att särskilja mellan skalans extremiteter – till en jämnare fördelning som är mindre komprimerad av skalans extremiteter.

L-format punktdiagram

Att upprepa detta med de andra L-formade distributionerna ger oss följande:

Fler L-formade distributioner

Determinationskoefficient eller R-kvadratvärde

Ju närmare markeringarna befinner sig till en rak linje, desto högre är korrelationen mellan de två mätvärdena. Du kan lägga till trendlinjer för att hjälpa till att utvärdera korrelationen. Öppna rutan Analys och dra Trendlinje till vyn och släpp den på Linjär. Att hovra muspekaren över trendlinjen visar R-kvadratvärdet, eller determinationskoefficienten, som indikerar hur stor del av den beroende variabeln (målet) kan förklaras av den oberoende variabeln (prediktorn). Prediktorer med R-kvadratvärden närmare 1 är bättre än de med R-kvadratvärden närmare 0.

punktdiagram med R-kvadrat nära 1

Om vi tittar på våra punktdiagram kan vi se att den bästa prediktorn för median förväntad livslängd för kvinnor är median spädbarnsdödlighet, som har ett R-kvadratvärde på 0,87:

välja den bästa diagrammet från R-kvadrat

Andra bra prediktorer är Medianen födelsetal (R-kvadrat = 0,76) och logtransformationen av Medianen hälsoutgifter per capita (R-kvadrat = 0,56).

Obs! Linjens lutning visar dock inte tydligt vilka prediktorer som har det högsta R-kvadratvärdet. Då skalan på x-axeln fastställs av intervallet på den specifika variabeln som väljs påverkas linjens lutning i hög grad av de specifika variablerna som används.

På bilden nedan har vi visualiserat Medianen förväntad livslängd för kvinnor mot Medianen förväntad livslängd för kvinnor, vilket resulterar i en perfekt rak linje i en 45° vinkel. Precis som förväntat finns det en perfekt korrelation mellan värdet på x-axeln och värdet på y-axeln, med ett R-kvadratvärde på 1:

diagram med R-kvadrat på exakt 1

Även om LOG(MEDIAN([BNP])), såsom visas nedan, har en brantare lutande trendlinje än de andra, har den ett låg R-kvadratvärde på endast 0,169. Detta beror på skalan på x-axeln för den rutan:

visar en låg R-kvadrat

Låt oss även ta en titt på hur några markeringar kan avsevärt påverka lutningen på en trendlinje. Att zooma in på punktdiagrammet för Medianen bolagsskattesats visar att majoriteten av markeringarna har en skattesats mellan 0 och cirka 1, med sex länder som har mycket högre skattesatser, mellan 2 och 3. R-kvadratvärdet för alla markeringar är 0,0879:

zooma in på diagrammet med Medianen bolagsskattesats

Låt oss dock se vad som händer om vi tar bort klustret med sex markeringar:

visar vad som händer när ett kluster med markeringar tas bort

Trendlinjen blir nästan platt och R-kvadratvärdet sjunker till 0,0006. Detta indikerar att det i princip inte finns någon korrelation mellan Medianen bolagsskattesats och Medianen förväntad livslängd för kvinnor. När du visualiserar dina data och använder bra statistiska metoder för att välja prediktorer är det viktigt att noga överväga om det finns några utstickare eller andra dataegenskaper som kan påverka slutsatserna.

Obs! Läs om Anscombe's quartet (Anscombes kvartett) för fler exempel på hur sammanfattande statistik kanske inte erbjuder hela bilden.

Dimensioner som prediktorer

När dimensioner används som prediktorer kan du använda en liknande procedur för att fastställa en korrelation. Du kan dock upptäcka att det finns en betydande skillnad mellan olika dimensioner gällande deras relation till målet. Om du till exempel delar upp ytterligare per Region, kan en region vara en mycket bra prediktor för målet medan en annan region kan ha betydligt mindre korrelation. Det hindrar dig inte att använda dimensionen som en prediktor men du kanske vill överväga om du ska använda ytterligare mätvärden eller dimensioner för att förbättra modellen och i sin tur förutsägelserna.

Då vi har fastställt att de bästa prediktorerna för vår datauppsättning är Medianen spädbarnsdödlighet, Medianen födelsetal och loggtransformationen av Medianen hälsoutgifter per capita, kan vi begränsa visualiseringen till dessa tre variabler:

jämföra olika variabler

Därefter kan vi partitionera data genom att lägga till Region till färg på kortet Markeringar och se vad som händer med visualiseringen:

uppdelad per färg

Jämföra R-kvadratvärden mellan prediktorer

Låt oss se hur R-kvadratvärdena jämförs för var och en av Regionernas trendlinjer för varje prediktor:

tabell som jämför R-kvadratvärden per Region

I tabellen ovan är det lägsta R-kvadratvärdet för varje prediktor markerat i rött och det näst lägsta i gult.

Europa har de lägsta R-kvadratvärdena för Medianen spädbarnsdödlighet och Medianen födelsetal och Afrika har det lägsta R-kvadratvärdet för loggatransformationen av Medianen hälsoutgifter per capita (markerat i rött). Afrika har även lägre R-kvadratvärden för både Medianen spädbarnsdödlighet och Medianen födelsetal.

Att lägga till ytterligare en dimension kan ge modellen mer information och att lägga till mer information kan förbättra kvaliteten på förutsägelserna. Inom en specifik underavdelning (i det här fallet en Region), kan kvaliteten på förutsägelser antingen förbättras eller reduceras. I vissa fall kanske du vill bygga en individuell modell för varje underavdelning baserat på de mätvärden som är de bästa prediktorerna för den specifika gruppen.

I det här fallet har spädbarnsdödligheten en relativt stark korrelation med förväntad livslängd för kvinnor för alla regioner, även om den är något svagare i Afrika och Europa. Medianen födelsetal är en bra prediktor för Oceanien och Asien, men har nästan ingen korrelation med förväntad livslängd för kvinnor i Europa och loggatransformationen av medianen hälsoutgifterna är en rimlig prediktor för alla regioner utom Afrika. Vi kan förvänta oss att modellen som har skapats med alla fyra prediktorerna (spädbarnsdödlighet, födelsetal, logg (hälsoutgifter) och region) kommer att ha de minst exakta förutsägelserna för länder i Europa och Afrika. Vi kanske vill gå mer till botten i data för att se om det finns ytterligare eller alternativa prediktorer som kan användas för att bygga modeller som passar bättre för Europa och Afrika.

Bygga din prediktiva modelleringsfunktion

Vi har nu hittat bra prediktorer och kan bygga och använda en prediktiv modelleringsfunktion för att se hur den fungerar.

  1. Öppna menyn Analys längst upp och välj sedan Skapa beräknat fält.

  2. Gör följande i beräkningsredigeraren för att namnge beräkningen:

    • Namnge beräkningen: Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region

    • Ange följande formel:

      MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
      LOG(MEDIAN([Health Exp/Capita])),
      MEDIAN([Birth Rate]),
      MEDIAN([Infant Mortality Rate]),
      ATTR([Region]))

Den här beräkningen returnerar medianvärdet (0,5) för intervallet av modellerad förväntad livslängd för kvinnor, baserat på de prediktorer vi valt: Hälsoutgifter, Födelsetal, Spädbarnsdödlighet och Region.

Låt oss sedan skapa ett punktdiagram som visar både den faktiska medianen förväntad livslängd för kvinnor och den förväntade medianen förväntad livslängd för kvinnor:

jämföra faktiska vs förväntade

Bra jobbat! Förutsägelserna är i stort sett i linje med de faktiska värdena för varje region.

Men låt oss se över allt en gång till för att ta reda på var förutsägelserna hamnade längst från målet. Skapa en annan beräkning med namnet Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region, enligt följande:

MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]

Den här restberäkning returnerar skillnaden mellan den förväntade medianen och den faktiska medianen. Detta hjälper oss att se de länder där det finns den största skillnaden mellan den faktiska och den förväntade medianen förväntad livslängd för kvinnor.

Låt oss sedan tillämpa den här restberäkningen på Färg:

tillagd restberäkning

Du kan se i visualiseringen ovan att de flesta länder, i de flesta regioner, har små skillnader mellan förväntade och faktiska värden. Afrika är regionen med det största antalet länder med betydande skillnader. Låt oss ta en titt till för att se vilken typ av skillnader vi faktiskt ser.

Du kan se att skillnaderna varierar mellan -17 och +9. Låt oss därför dela upp dem i grupper där det är mindre än ±3 års skillnad, mindre än ±5 års skillnad, mindre än ±10 års skillnad och mer än ±10 år skillnad.

Skapa ytterligare en beräkning med namnet Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region, enligt följande:

IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -3
THEN "±3"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN "±5"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN "±10"
ELSE
"> ±10"
END

Låt oss återigen lägga till beräkningen till Färg:

slutlig vy

Observera att större delen av alla förutsägelser är felaktiga med mindre än 3 år och att endast en liten handfull har större felmarginal än 10 år. Sammantaget ganska bra!

Detta innebär att med den här modellen skulle det vara möjligt för oss att exakt identifiera de länder med en förväntad livslängd för kvinnor som är utstickare eller tillhandahålla den modellerade förväntade livslängden för kvinnor för ett land där denna data saknades.

Tack för din feedback!Din feedback har skickats in. Tack!