Exempel – analysera den förväntade livslängden för kvinnor med funktioner för prediktiv modellering
I det här exemplet använder vi den sparade datakällan Globala indikatorer, som medföljer Tableau. Vi använder två funktioner för prediktiv modellering – MODEL_QUANTILE och MODEL_PERCENTILE – för att analysera relationen mellan hälso- och sjukvårdsutgifter per capita, förväntad livslängd för kvinnor och födelsetal (nativitet).
Vi börjar med en visualisering som jämför de olika ländernas hälso- och sjukvårdsutgifter med den förväntade livslängden för kvinnor i respektive land. Om du vill utföra stegen i genomgången och använda de färdiga vyerna och instrumentpanelerna, eller om du vill titta på lösningen, laddar du ner följande arbetsbok från Tableau Public: Predictive Modeling of Female Life Expectancy (Prediktiv modellering av den förväntade livslängden för kvinnor).
Använda MODEL_PERCENTILE
Vi börjar med att titta på den förväntade livslängden och hälso- och sjukvårdsutgifterna för alla markeringar som visas. På så vis kan Tableau skapa en modell baserat på markeringarna och returnera percentilen för var och en inom modellen.
Steg 1: Skapa förutsägelseberäkningen
Om du även har Tableau Server eller Tableau Cloud och vill göra redigeringen på webben istället för i Tableau Desktop kan du publicerar arbetsboken på din Tableau Server, klicka på Arbetsböcker, välja arbetsboken och sedan välja Redigera arbetsbok under Åtgärder.
När du öppnar arbetsboken ser du att den innehåller flera blad. Du ska använda dessa blad för att skapa vyerna.
Klicka på bladet Percentile Starter (Percentilmall) i startarbetsboken.
Öppna menyn Analys längst upp och välj sedan Skapa beräknat fält.
Gör följande i beräkningsredigeraren:
Ge beräkningen namnet Percentile Expectancy vs Spending (Percentil – förväntad livslängd i relation till utgifter)
Ange följande formel:
MODEL_PERCENTILE(AVG([Life Expectancy Female]), LOG(MEDIAN([Health Exp/Capita])))
Klicka på OK.
Prognosberäkningen läggs nu till som ett beräknat fält i rutan Data.
I den här beräkningen används den förväntade medellivslängden som måluttryck och medianen för hälso- och sjukvårdsutgifter som prediktor. I detta fall har vi använt en logaritmisk transformering på axeln för hälso- och sjukvårdsutgifter, och även för prediktorn.
Steg 2: Lägga till förutsägelseberäkningen i vyn
I visualiseringen ovan kan du se varje lands hälso- och sjukvårdsutgifter i relation till den förväntade livslängden för kvinnor, filtrerat efter år 2012.
Nu ska vi lägga till MODEL_PERCENTILE-beräkningen i vyn och se vad mer vi kan få reda på.
Dra Percentile Expectancy vs Spending (Percentil – förväntad livslängd i relation till utgifter) till Färg på kortet Markeringar.
Klicka på pilen i listrutan för fältet och välj Beräkna med > Land/region.
Klicka på Färg på kortet Markeringar och klicka sedan på Redigera färger.
Välj Divergerande orange-blått under Palett.
Markera kryssrutan Stegad färg.
Markera kryssrutan Omvänt.
Klicka på OK.
Du kan se fördelningen av länder där den förväntade livslängden är både högre och lägre än förväntat baserat på storleken på hälso- och sjukvårdsutgifterna. Som du ser indikerar de mörkröda markeringarna oftast att den förväntade livslängden är hög i relation till hälso- och sjukvårdsutgifterna, de mörkblå markeringarna att den förväntade livslängden är låg i förhållande till hälso- och sjukvårdsutgifterna och grått att den förväntade livslängden ligger nära modellens antagande, utifrån hälso- och sjukvårdsutgifternas storlek.
Steg 3: Gruppera resultatet efter färg
Nu ska vi förenkla analysen genom att använda förutsägelseberäkningen inuti en ny beräkning för att gruppera resultaten. Vi skapar grupper så att markeringar över den 90:e percentilen och under den 10:e percentilen grupperas, så att markeringar i intervallet mellan den 80:e och 90:e percentilen samt mellan den 10:e och 20:e percentilen grupperas och så vidare. Vi märker också ut markeringar med ett null-värde och tar hand om dem senare med den andra funktionen för prediktiv modellering, MODEL_QUANTILE.
Gör följande i beräkningsredigeraren:
Ge beräkningen namnet Percentile by Color (Percentil efter färg).
Ange följande formel:
IF
ISNULL([Percentile Expectancy vs Spending])
THEN "Null"
ELSEIF [Percentile Expectancy vs Spending] >=0.9 OR
[Percentile Expectancy vs Spending] <=0.1
THEN "<10th & >90th percentile"
ELSEIF [Percentile Expectancy vs Spending] >=0.8 OR
[Percentile Expectancy vs Spending] <=0.2
THEN "<20th & >80th percentile"
ELSEIF [Percentile Expectancy vs Spending] >=0.7 OR
[Percentile Expectancy vs Spending] <=0.3
THEN "<30th & >70th percentile"
ELSEIF [Percentile Expectancy vs Spending] >=0.6 OR
[Percentile Expectancy vs Spending] <=0.4
THEN "<40th & >60th percentile"
ELSE "50th percentile +-10"
ENDLägg till den nya beräkningen i Färg på kortet Markeringar.
Klicka på pilen i listrutan för fältet och välj Beräkna med > Land/region.
Klicka på Färg på kortet Markeringar och klicka sedan på Redigera färger.
Justera färgerna så att trenden blir tydligare. I det här exemplet använder vi paletten Trafikljus och använder grå för null-värden.
Klicka på OK.
Om vi tittar på den orangefärgade markeringen i hörnet ser vi att USA spenderar 8 895 USD per kvinna, med en förväntad livslängd på 81 år. Om vi förflyttar oss längs X-axeln ser vi att andra länder spenderar mindre, men visar samma förväntade livslängd.
Modellen utvärderar hur stark relationen är vid varje punkt, där USA återfinns nära den övre änden i modellens förväntade intervall.
Steg 4: Jämföra förväntad livslängd med födelsetal
Nu ska vi titta på en visualisering som jämför den förväntade livslängden för kvinnor med födelsetal Observera att det finns en negativ korrelation mellan födelsetal och den förväntade livslängden för kvinnor. Det betyder dock inte att det högre födelsetalet är orsaken till den lägre förväntade livslängden för kvinnor. Troligen finns det andra faktorer som påverkar både födelsetalet och den förväntade livslängden för kvinnor, som inte framgår i den här vyn av data. Men låt oss lägga till modellen och se var den förväntade livslängden för kvinnor antas vara högre eller lägre beroende på hälso- och sjukvårdsutgifterna.
Lägg till förutsägelseberäkningen Percentile by Color (Percentil efter färg) på bladet Birth Rate (Födelsetal) i Färg på kortet Markeringar så att det visas i vyn.
Klicka på pilen i listrutan för fältet och välj Beräkna med > Land/region.
Klicka på Färg på kortet Markeringar och klicka sedan på Redigera färger. Redigera färgerna på samma sätt som förut och använd paletten Trafikljus och grått för null-värden.
Klicka på OK.
Nu är våra data mycket mer fördelade. Det röda bandet nere till höger representerar platser där den förväntade livslängden är lägst, men där födelsetalet är högst och hälso- och sjukvårdsutgifterna i relation till den förväntade livslängden låg. Om vi väljer ut de två röda markeringarna i den övre vänstra kvadranten, där Albanien och Armenien återfinns, ser vi att båda länderna har hög medellängd för kvinnor, låga födelsetal och låga hälso- och sjukvårdsutgifter.
Som du ser kunde vi använda MODEL_PERCENTILE för att se att dessa två länder avviker från resten. Trots att båda har relativt låga hälso- och sjukvårdsutgifter har de relativt hög förväntad livslängd, sett utifrån nativitetsperspektiv.
Nu ska vi vidareutveckla analysen genom att använda en annan funktion för prediktiv modellering, nämligen MODEL_QUANTILE.
Använda MODEL_QUANTILE
MODEL_QUANTILE används för att generera numeriska förutsägelser utifrån en målpercentil, ett måluttryck och prediktorer. Det är inversen (motsatsfunktionen) till MODEL_PERCENTILE.
Som du kanske minns innehåller våra resultat flera null-värden, vilket betyder att det saknas data om hälso- och sjukvårdsutgifter för vissa länder. Vi ska använda MODEL_QUANTILE för att göra en uppskattning av dessa värden.
Steg 1: Skapa förutsägelseberäkningarna
Vi har arbetat med den här beräkningen:
MODEL_PERCENTILE(AVG([Life Expectancy Female]), LOG(MEDIAN([Health Exp/Capita])))
Först vill vi invertera den här funktionen för att ta fram en förutsägelse för hälso- och sjukvårdsutgifterna baserat på medellivslängden för kvinnor.
Klicka på bladet Quantile Starter (Kvantilmall) i mallarbetsboken.
Öppna menyn Analys längst upp och välj sedan Skapa beräknat fält.
Gör följande i beräkningsredigeraren:
- Ge beräkningen namnet Quantile of Life Expectancy vs Spending (Kvantil – medellivslängd i relation till utgifter)
Ange följande formel:
POWER(10, MODEL_QUANTILE(0.5, LOG(MEDIAN([Health Exp/Capita])), AVG([Life Expectancy Female])))
Vi går igenom beräkningen steg för steg så att vi förstår vad den gör.
- Vi börjar med MODEL_QUANTILE, där det första argumentet är 0,5, som anger vilken percentil som förutsägelsen ska göras för.
- Måluttrycket är medianen för hälso- och sjukvårdsutgifter per capita.
- Prediktorn är den förväntade medellivslängden för kvinnor.
- Dessutom placerade vi funktionen inuti en POWER-funktion för att konvertera det logaritmiskt transformerade måluttrycket till dollar.
Klicka på OK.
Prognosberäkningen läggs nu till som ett beräknat fält i rutan Data.
Steg 2: Lägga till förutsägelseberäkningen i vyn
Dra Quantile of Life Expectancy vs Spending (Kvantil – medellivslängd i relation till utgifter) till Verktygstips på kortet Markeringar.
Klicka på pilen i listrutan för fältet och välj Beräkna med > Land/region.
Klicka på Verktygstips på kortet Markeringar och lägg till en rad för MODEL_QUANTILE-förutsägelsen:
Ge raden för verktygstipset namnet Predicted Health Spend from Female Life Expectancy (Predicerade hälso- och sjukvårdsutgifter i relation till förväntad livslängd för kvinnor)
Klicka på Infoga och välj beräkningen. Nu kommer verktygstipset att visa markeringens specifika förutsägelse dynamiskt när du interagerar med visualiseringen.
Klicka på OK.
Just nu har vår MODEL_QUANTILE-beräkning bara en prediktor: förväntad livslängd för kvinnor. När du rör dig från vänster till höger och tittar på verktygstipset för markeringar som visar samma förväntade livslängd kan du se att alla har samma predicerade hälso- och sjukvårdsutgifter. Indonesiens predicerade hälso- och sjukvårdsutgifter i relation till förväntad livslängd är 336 USD, men även i Fiji, Egypten och andra länder som har samma förväntade livslängd för kvinnor.
Det beror på att modellen visar samma uppskattade utgifter för varje markering. Eftersom vi bara använder en prediktor (förväntad livslängd för kvinnor) returnerar modellen samma resultat för alla markeringar där prediktorn har samma värde. Du kan justera modellen genom att lägga till prediktorer.
Steg 3: Lägga till en förutsägelse med en andra prediktor
När du skapar förutsägelser bör du tänka igenom vilka fält som är bra prediktorer för dina målvärden och använda dem i beräkningarna. Du kan kombinera valfritt antal dimensioner och mätvärden. Vi skulle till exempel kunna förbättra våra förutsägelser genom att lägga till BNP, befolkning och andra fält som prediktorer. I det här exemplet lägger vi till Region.
Gör följande i beräkningsredigeraren:
Ge beräkningen namnet Quantile Spend vs Expectancy & Region (Kvantil – Utgifter i relation till förväntad livslängd och region)
Ange följande formel, som är samma som i föregående beräkning, men med Region som prediktor:
POWER(10, MODEL_QUANTILE(0.5, LOG(MEDIAN([Health Exp/Capita])), AVG([Life Expectancy Female]), ATTR([Region])))
Klicka på OK.
Lägg nu till den nya beräkningen i Verktygstips på kortet Markeringar.
Klicka på Verktygstips och lägg till en till rad som beskriver den nya förutsägelsen, t.ex. Predicted Health Spend from Female Life Expectancy & Region (Predicerade hälso- och sjukvårdsutgifter i relation till förväntad livslängd för kvinnor samt region).
Nu visas båda förutsägelserna i verktygstipset.
Steg 4: Jämföra faktiska värden med predicerade värden
Som ett sista steg i analysen kan du även skapa förutsägelseberäkningar som kombinerar faktiska och predicerade värden. I vårt exempel kan vi visa de faktiska hälso- och sjukvårdsutgifterna om de är tillgängliga, och i annat fall de uppskattade utgifterna.
Gör följande i beräkningsredigeraren:
Ge beräkningen namnet Health Spend Actual vs Prediction Value (Hälso- och sjukvårdsutgifter – faktiskt värde jämfört med predicerat värde)
Ange följande formel, som returnerar förutsägelsens numeriska värde:
ROUND(IFNULL(AVG([Health Exp/Capita]),[Quantile_HE/Cap_LEF,Region]),0)
Klicka på OK.
Skapa en till beräkning:
Ge beräkningen namnet Health Spend Actual vs Prediction Tag (Tagg för hälso- och sjukvårdsutgifter – faktiskt jämfört med predicerat)
Ange följande formel, som fungerar som en etikett för beräkningen ovan:
STR(IF ISNULL(AVG([Health Exp/Capita])) THEN "(Estimate)" ELSE "(Actual)" END)
Klicka på OK.
Lägg till båda beräkningarna i Verktygstips på kortet Markeringar.
Klicka på Verktygstips och lägg till en till rad som beskriver de nya beräkningarna:
Per Capita Health Expenditure (Actual or Estimated) (Hälso- och sjukvårdsutgifter per capita (faktiska eller uppskattade)):
Infoga de nya beräkningarna, den ena efter den andra.
Klicka på OK.
Nu när du interagerar med visualiseringen kan du se varje lands hälso- och sjukvårdsutgifter per capita, eller visa en uppskattning om det faktiska värdet saknas (null) i datauppsättningen.
Nu vet du hur du kan använda funktioner för prediktiv modellering i Tableau för att få insikter om data.