Predictors kiezen
Bij het maken van voorspellingsberekeningen met gebruik van de prognosemodelleringsfuncties in Tableau moet u predictors kiezen. Ter herinnering: een predictor is een invoervariabele waarvan de waarde wordt gebruikt om een resultaatvariabele te voorspellen, ook wel het doel of de respons genoemd. Vaak werkt u met data waarvan u uitgebreide domeinkennis hebt en waarvan u al een goed idee hebt welke velden sterk gecorreleerd zijn met uw voorspellingsdoel en die goede predictors zouden vormen. Toch is het verstandig om de tijd te nemen om uw predictors te evalueren en ervoor te zorgen dat u ze goed uitkiest. U moet altijd ten minste één predictor opnemen, maar meestal meer dan één.
Selecteer eerst uw doel. Dit klinkt voor de hand liggend, maar het is cruciaal dat u uw predictors selecteert gebaseerd op wat u wilt voorspellen. De velden die het meest gerelateerd zijn aan de levensverwachting van vrouwen, kunnen bijvoorbeeld heel anders zijn dan de velden die het meest gerelateerd zijn aan de levensverwachting van mannen. Op dezelfde manier kunnen de velden die het meest gerelateerd zijn aan verkoop sterk verschillen van de velden die het meest gerelateerd zijn aan winst.
Houd ook rekening met dat de prognosemodelleringsfuncties standaard gebruikmaken van lineaire regressie als het onderliggende statistisch model. In dit model zijn de predictors die een lineaire relatie hebben met het doel, de meest gecorreleerde predictors. Zie Een prognosemodel kiezen voor informatie over het gebruik van een ander ondersteund model.
Om beter te begrijpen hoe u de beste predictors kiest voor de vragen die u wilt beantwoorden, kijken we naar de data over de levensverwachting van vrouwen. Om mee te doen, downloadt u het de volgende werkmap op Tableau Public: Choosing Predictors for Your Predictions (in het Engels).
Meetwaarden als predictors
Wanneer u een meetwaarde als predictor gebruikt, kunt u de correlatie met uw doel evalueren met gebruik van Tableau. Eén manier is om een spreidingsdiagram te maken. Hieronder vergelijken we de mediane levensverwachting van vrouwen in een land met een aantal andere meetwaarden.
Voor sommige meetwaarden, zoals Kindersterfte en het Geboortecijfer is er een duidelijke negatieve correlatie met de Levensverwachting van vrouwen, zoals blijkt uit de negatieve helling van het spreidingsdiagram. Voor andere waarden is dit minder duidelijk. Eén ding kunnen we echter duidelijk zien: een L-vormige distributie voor Mediaan BBP, Mediaan mobieletelefoongebruik en Mediaan uitgaven voor gezondheidszorg per capita. Deze L-vormige distributie geeft vaak aan dat het gebruik van een logtransformatie kan helpen om de data nauwkeuriger te analyseren. Een andere aanwijzing is wanneer alle waarden in een kolom positief zijn. In Tableau kunt u een logtransformatie gebruiken door het veld te bewerken en de expressie in een LOG-functie te plaatsen:
Dit brengt ons van de L-vormige distributie, waarbij het moeilijk is om onderscheid te maken tussen de uitersten van de schaal, naar een gelijkmatigere distributie die minder wordt samengedrukt door de uitersten van de schaal.
Als we dit herhalen met de andere L-vormige distributies, krijgen we het volgende:
Determinatiecoëfficiënt of R-kwadraatswaarde
Hoe dichter de markeringen op een rechte lijn liggen, hoe hoger de correlatie tussen de twee meetwaarden is. Om de correlatie beter te kunnen evalueren, kunt u trendlijnen toevoegen. Sleep vanaf het deelvenster Analyse een Trendlijn naar de weergave en zet deze neer op Lineair. Als u uw cursor over de trendlijn beweegt, ziet u de R-kwadraatswaarde of determinatiecoëfficiënt, die aangeeft in hoeverre de afhankelijke variabele (het doel) wordt verklaard door de onafhankelijke variabele (de predictor). Predictors met R-kwadraatswaarden dichter bij 1 zijn beter dan predictors met R-kwadraatswaarden dichter bij 0.
Als we naar onze spreidingsdiagrammen kijken, zien we dat de beste predictor voor de mediane levensverwachting van vrouwen de mediane kindersterfte is, met een R-kwadraatswaarde van 0,87:
Andere goede predictors zijn Mediaan geboortecijfer (R-kwadraat=0,76) en de logtransformatie van Mediane uitgaven voor gezondheidszorg per capita (R-kwadraat=0,56).
In de onderstaande afbeelding hebben we de Mediane levensverwachting van vrouwen gevisualiseerd tegenover de Mediane levensverwachting van vrouwen, waarbij de resulterende visualisatie een perfect rechte lijn is met een hoek van 45°: zoals verwacht is er een perfecte correlatie tussen de waarde op de x-as en de waarde op de y-as, met een R-kwadraatswaarde van 1:
Zoals hieronder wordt getoond, heeft LOG(MEDIAN([BBP])) ondanks dat het een steilere trendlijn heeft dan de anderen, een lage R-kwadraatscore van slechts 0,169. Dit komt door de schaal van de x-as voor dat deelvenster:
Laten we bovendien eens kijken hoe een paar markeringen de helling van een trendlijn aanzienlijk kunnen beïnvloeden. Wanneer we inzoomen op de spreidingsdiagram voor Mediaan vennootschapsbelasting zien we dat de meeste markeringen een belastingtarief hebben tussen 0 en ongeveer 1, terwijl zes landen veel hogere tarieven hebben, namelijk tussen 2 en 3. De R-kwadraatswaarde voor alle markeringen is 0,0879:
Maar laten we eens kijken wat er gebeurt als we die cluster van zes markeringen verwijderen:
De trendlijn loopt bijna vlak en de R-kwadraatswaarde daalt naar 0,0006, wat aangeeft dat er in wezen geen correlatie is tussen Mediaan vennootschapsbelasting en Mediane levensverwachting van vrouwen. Wanneer u uw data visualiseert en goede statistische methoden gebruikt om uw predictors te selecteren, is het belangrijk om goed te overwegen of er uitschieters of andere datakenmerken zijn die uw conclusies kunnen beïnvloeden.
Dimensies als predictors
Wanneer u dimensies als predictors gebruikt, kunt u een vergelijkbare procedure gebruiken om de correlatie te bepalen. Het kan echter voorkomen dat er een aanzienlijke discrepantie bestaat tussen de verschillende dimensies in hun mate van relatie tot het doel. Bijvoorbeeld bij het onderverdelen op Regio, kan de ene regio een zeer goede predictor voor van het doel, maar kan de correlatie met een andere regio aanzienlijk lager zijn. Dit betekent niet dat u deze dimensie niet als predictor moet gebruiken, maar u kunt overwegen of het gebruik van aanvullende meetwaarden of dimensies uw model en daarmee uw voorspellingen kunnen verbeteren.
Nu we de beste predictors voor onze dataset hebben bepaald, namelijk Mediane kindersterfte, Mediaan geboortecijfer en de logtransformatie van Mediane uitgaven voor gezondheidszorg per capita kunnen we de visualisatie beperken tot deze drie variabelen:
Laten we vervolgens de data verdelen door Regio aan Kleur op de kaart Markeringen toe te voegen en kijk wat er met de visualisatie gebeurt:
Vergelijken van R-kwadraatswaarden over predictors
Laten we eens kijken hoe de R-kwadraatswaarden zich verhouden voor elk van de Regio-trendlijnen voor elke predictor:
In de bovenstaande tabel is de laagste R-kwadraatswaarde voor elke predictor rood gemarkeerd en de op één na laagste geel.
Europa heeft de laagste R-kwadraatswaarden voor de mediane kindersterfte en het mediane geboortecijfer, terwijl Afrika de laagste R-kwadraatswaarde heeft voor de logtransformatie van de mediane uitgaven voor gezondheidszorg per capita (gemarkeerd in rood). Afrika heeft ook lagere R-kwadraatswaarden voor zowel het mediane kindersterftecijfer als het mediane geboortecijfer.
Door een dimensie toe te voegen, krijgt uw model meer informatie. Bovendien kan het toevoegen van meer informatie de kwaliteit van uw voorspelling verbeteren. Binnen een bepaalde onderverdeling (in dit geval een regio) kan de voorspellingskwaliteit echter zowel verbeteren als verslechteren. In sommige gevallen wilt u wellicht voor elke onderverdeling een afzonderlijk model bouwen, gebaseerd op de meetwaarden die de beste predictors zijn voor die specifieke groep.
In dit geval heeft kindersterfte een redelijk sterke correlatie met de levensverwachting van vrouwen voor alle regio's, hoewel deze iets zwakker is in Afrika en Europa. Het mediane geboortecijfer is een goede predictor voor Oceanië en Azië, maar heeft vrijwel geen correlatie met de levensverwachting van vrouwen in Europa. Bovendien is de logtransformatie van de mediane uitgaven voor gezondheidszorg een redelijke voorspeller voor alle regio's behalve Afrika. We kunnen verwachten dat het model dat is gebouwd met alle vier de predictors (kindersterfte, geboortecijfer, log (gezondheidszorguitgaven) en regio) de minst nauwkeurige voorspellingen zal opleveren voor landen in Europa en Afrika. Mogelijk moeten we dieper in de data duiken om te zien of er aanvullende of alternatieve predictors zijn die we kunnen gebruiken om modellen te bouwen die beter passen bij Europa en Afrika.
Prognosemodelleringsfunctie maken
Nu we goede predictors hebben gevonden, kunnen we een prognosemodelleringsfunctie maken en toepassen om deze in actie te zien.
Open bovenaan het menu Analyse en selecteer vervolgens Berekend veld maken.
Geef de berekening een naam in de editor berekeningen:
Geef de berekening een naam: Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region
Voer de volgende formule in:
MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
LOG(MEDIAN([Health Exp/Capita])),
MEDIAN([Birth Rate]),
MEDIAN([Infant Mortality Rate]),
ATTR([Region]))
Deze berekening geeft de mediaanwaarde (0,5) van het bereik van de gemodelleerde mediane levensverwachting van vrouwen, op basis van de door ons geselecteerde predictors Uitgaven voor gezondheidszorg, Geboortecijfer, Kindersterfte, en Regio.
Vervolgens maken we een spreidingsdiagram dat zowel de werkelijke mediane levensverwachting van vrouwen en de voorspelde mediane levensverwachting van vrouwen laat zien:
Top! De voorspellingen komen redelijk overeen met de werkelijke waarden voor elke regio.
Maar laten we het nog een keer proberen om erachter te komen waar de voorspellingen het verst van de waarheid afwijken. Maak een andere berekening genaamd Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region:
MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
Deze restberekening geeft het verschil tussen de voorspelde mediaan en de werkelijke mediaan, waardoor we kunnen zien in welke landen de grootste discrepantie bestaat tussen de werkelijke en de voorspelde mediane levensverwachting van vrouwen.
Laten we deze restberekening vervolgens toepassen op Kleur:
Uit bovenstaande visualisatie blijkt dat er in de meeste landen, in de meeste regio's, weinig verschillen zijn tussen de voorspellingen en de werkelijke waarden. Afrika is de regio met het grootste aantal landen met aanzienlijke verschillen. Maar laten we nog eens kijken om welke verschillen het precies gaat.
U ziet dat de verschillen variëren tussen -17 en 9. Laten we de visualisatie opdelen in groepen met minder dan ±3 jaar verschil, minder dan ±5 jaar verschil, minder dan ±10 jaar verschil en meer dan ±10 jaar verschil.
Maak nog een berekening, genaamd Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region:
IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
<= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
>= -3
THEN
"±3"
ELSEIF
[Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN
"±5"
ELSEIF
[Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN
"±10"
ELSE
"> ±10"
END
Laten we de berekening nog eens toevoegen aan Kleur:
Opvallend is dat de overgrote meerderheid van de voorspellingen er minder dan 3 jaar naast zit en dat slechts een handjevol voorspellingen er meer dan 10 jaar naast zit. Over het algemeen dus best goed!
Dit betekent dat we met behulp van dit model nauwkeurig de landen kunnen identificeren met een mediane levensverwachting voor vrouwen die uitschieters zijn, of de gemodelleerde levensverwachting voor vrouwen kunnen bepalen voor een land waar deze data ontbreken.