Auswählen von Prädiktoren
Wenn Sie Vorhersageberechnungen mit den Vorhersagemodellierungsfunktionen in Tableau erstellen, müssen Sie Prädiktoren auswählen. Zur Erinnerung: Ein Prädiktor ist eine Eingabevariable, deren Wert verwendet wird, um eine Ergebnisvariable vorherzusagen, die auch als Ziel oder Antwort bezeichnet wird. Oft arbeiten Sie mit Daten, für die Sie über umfangreiche Domänenkenntnisse verfügen und für die Sie bereits ein gutes Gespür dafür haben, welche Felder stark mit Ihrem Vorhersageziel korreliert sind und gute Prädiktoren darstellen würden. Es empfiehlt sich jedoch weiterhin, sich die Zeit zu nehmen, Ihre Prädiktoren zu bewerten und sicherzustellen, dass Sie sie mit Bedacht auswählen. Sie sollten grundsätzlichmindestens einen Prädiktor und in der Regel mehrere einbeziehen.
Wählen Sie zuerst Ihr Ziel aus. Dies klingt zwar naheliegend, aber die Sicherstellung, dass Sie Ihre Prädiktoren basierend auf der gewünschten Vorhersage auswählen, ist ein wichtiger erster Schritt. Beispielsweise können sich die Felder, die am stärksten mit der Lebenserwartung von Frauen korrelieren, stark von den Feldern unterscheiden, die am stärksten mit der männlichen Lebenserwartung korrelieren. Gleichermaßen können sich die Felder, die am stärksten mit dem Umsatz korrelieren, deutlich von den Feldern unterscheiden, die am stärksten mit dem Gewinn korrelieren.
Eine weiterer Aspekt, den es zu beachten gilt, ist der, dass die prädiktiven Modellierungsfunktionen standardmäßig die lineare Regression als zugrunde liegendes statistisches Modell verwenden. Bei diesem Modell sind die Prädiktoren mit der stärksten Korrelation diejenigen, die eine lineare Beziehung mit dem Ziel haben. Wenn Sie ein anderes unterstütztes Modell verwenden möchten, finden Sie Informationen dazu unter Auswählen eines Vorhersagemodells.
Um besser zu verstehen, wie Sie die besten Prädiktoren für die zu beantwortenden Fragen auswählen, werfen wir einen Blick auf die Daten der weiblichen Lebenserwartung. Laden Sie dazu die folgende Arbeitsmappe von Tableau Public herunter: Auswählen von Prädiktoren für Ihre Vorhersagen.
Kennzahlen als Prädiktoren
Wenn Sie eine Kennzahl als Prädiktor verwenden, können Sie mithilfe von Tableau ihre Korrelation mit dem Ziel bewerten. Eine Möglichkeit besteht darin, ein Streudiagramm zu erstellen. Im Folgenden vergleichen wir die durchschnittliche Lebenserwartung von Frauen in einem Land mit einer Vielzahl anderer Kennzahlen.
Für einige Kennzahlen wie Säuglingssterblichkeit und Geburtenrate gibt es eine klare negative Korrelation zu Weibliche Lebenserwartung, was anhand der negativen Steigung des Streudiagramms deutlich wird. Bei anderen ist dies nicht so eindeutig. Was wir jedoch deutlich erkennen können, ist eine L-förmige Verteilung für Durchschnittliches BIP, Durchschnittliche Mobiltelefonnutzung und Durchschnittliche Gesundheitsausgaben/Kopf. Diese L-förmige Verteilung weist häufig darauf hin, dass Sie mithilfe einer Protokolltransformation Ihre Daten genauer analysieren können. Ein weiterer Hinweis ergibt sich daraus, ob alle Werte einer Spalte positiv sind. In Tableau können Sie eine Protokolltransformation verwenden, indem Sie das Feld bearbeiten und den Ausdruck in einer LOG-Funktion umbrechen:
Dadurch gelangen wir von der L-förmigen Verteilung – bei der es schwierig ist, zwischen den Extremen der Skala zu unterscheiden – zu einer gleichmäßigeren Verteilung, die durch die Extreme der Skala weniger komprimiert wird.
Wenn wir diesen Vorgang für die anderen L-förmigen Verteilungen wiederholen, erhalten wir Folgendes:
Bestimmungskoeffizient oder Bestimmtheitsmaß
Je näher die Markierungen an einer geraden Linie liegen, desto höher ist die Korrelation zwischen den beiden Kennzahlen. Zum Auswerten der Korrelation können Sie Trendlinien hinzufügen. Ziegen Sie eine Trendlinie vom Bereich Analyse in die Ansicht und legen Sie sie unter Linear ab. Wenn Sie den Cursor über die Trendlinie bewegen, erhalten Sie das Bestimmtheitsmaß bzw. den Bestimmungskoeffizienten, der angibt, inwieweit die abhängige Variable (das Ziel) durch die unabhängige Variable (der Prädiktor) erklärt wird. Prädiktoren mit einem Bestimmtheitsmaß, das näher an 1 liegt, sind besser als Prädiktoren mit einem Bestimmtheitsmaß, das näher an 0 liegt.
Bei Betrachtung unserer Streudiagramme können wir sehen, dass der beste Prädiktor für die mittlere Lebenserwartung der Frauen die mittlere Säuglingssterblichkeit ist, die ein Bestimmtheitsmaß von 0,87 hat:
Weitere gute Prädiktoren sind die Durchschnittliche Geburtenrate (Bestimmtheitsmaß = 0,76) und die Protokolltransformation von Durchschnittliche Gesundheitsausgaben/Kopf (Bestimmtheitsmaß = 0,56).
Im folgenden Bild haben wir die Durchschnittliche Lebenserwartung von Frauen und die Durchschnittliche Lebenserwartung von Frauen visualisiert, wobei die resultierende Visualisierung eine vollkommen gerade Linie in einem 45°-Winkel ist: Wie erwartet existiert eine perfekte Korrelation zwischen dem Wert auf der x-Achse und dem Wert auf der y-Achse, mit einem Bestimmtheitsmaß von 1:
Wie unten dargestellt, weist LOG(MEDIAN([GDP])) trotz steilerer Trendlinie als der von anderen ein geringes Bestimmtheitsmaß von lediglich 0,169 auf. Dies ist auf die Skala der x-Achse für diesen Bereich zurückzuführen:
Werfen wir außerdem einen Blick darauf, wie ein paar Markierungen die Neigung einer Trendlinie erheblich beeinflussen können. Wenn wir das Streudiagramm für die Durchschnittliche Unternehmenssteuer vergrößern, stellen wir fest, dass die Mehrheit der Markierungen einen Steuersatz zwischen 0 und etwa 1 hat, wobei sechs Länder deutlich höhere Steuersätze zwischen 2 und 3 haben. Das Bestimmtheitsmaß für alle Marken ist 0,0879:
Sehen wir jedoch, was passiert, wenn wir diesen Cluster mit sechs Markierungen entfernen:
Die Trendlinie verläuft nahezu flach und das Bestimmtheitsmaß sinkt auf 0,0006. Dies deutet darauf hin, dass es im Wesentlichen keine Korrelation zwischen Durchschnittliche Unternehmenssteuer und Durchschnittliche Lebenserwartung von Frauen gibt. Wenn Sie Ihre Daten visualisieren und gute statistische Methoden zum Auswählen Ihrer Prädiktoren verwenden, ist es wichtig, sorgfältig zu überlegen, ob es Ausreißer oder andere Datenmerkmale gibt, die Ihre Schlussfolgerungen beeinflussen könnten.
Dimensionen als Prädiktoren
Wenn Sie Dimensionen als Prädiktoren verwenden, können Sie ein ähnliches Verfahren anwenden, um die Korrelation zu bestimmen. Möglicherweise stellen Sie jedoch fest, dass es eine erhebliche Diskrepanz zwischen den verschiedenen Dimensionen in ihrer Beziehungsebene zum Ziel gibt. Wenn Sie beispielsweise eine Unterteilung nach Region vornehmen, kann eine Region ein sehr guter Prädiktor für das Ziel sein, während eine andere Region eine deutlich geringere Korrelation aufweisen kann. Dies bedeutet nicht, dass Sie diese Dimension nicht als Prädiktor verwenden sollen, aber Sie sollten überlegen, ob die Verwendung zusätzlicher Kennzahlen oder Dimensionen dazu beitragen wird, Ihr Modell und damit Ihre Vorhersagen zu verbessern.
Da wir herausgefunden haben, dass die besten Prädiktoren für unseren Datensatz Durchschnittliche Kindersterblichkeit, Durchschnittliche Geburtenrate und die Protokolltransformation von Durchschnittliche Gesundheitsausgaben/Kopf sind, beschränken wir die Visualisierung auf diese drei Variablen:
Als Nächstes partitionieren wir die Daten, indem wir auf der Karte "Markierungen" die Region zu "Farbe" hinzufügen. Dann beobachten wir, was mit der Visualisierung geschieht:
Vergleichen des Bestimmtheitsmaßes über Prädiktoren hinweg
Sehen wir uns an, wie sich das Bestimmtheitsmaß für die einzelnen Trendlinien der Region für jeden Prädiktor im Vergleich verhält:
In der obigen Tabelle wird das geringste Bestimmtheitsmaß für jeden Prädiktor rot und das zweitgeringste gelb hervorgehoben.
Europa hat das niedrigste Bestimmtheitsmaß für die durchschnittliche Kindersterblichkeit und die durchschnittliche Geburtenrate, während Afrika das geringste Bestimmtheitsmaß für die Protokolltransformation der durchschnittlichen Gesundheitsausgaben/Kopf aufweist (rot hervorgehoben). Afrika hat auch ein niedrigeres Bestimmtheitsmaß für die durchschnittliche Kindersterblichkeit und die durchschnittliche Geburtenrate.
Durch das Hinzufügen einer Dimension können Sie weitere Informationen für Ihr Modell bereitstellen, und das Hinzufügen weiterer Informationen kann die Qualität Ihrer Vorhersage verbessern. Innerhalb einer bestimmten Unterteilung (in diesem Fall eine Region) könnte sich die Qualität der Vorhersage jedoch entweder verbessern oder verschlechtern. In einigen Fällen sollten Sie ein individuelles Modell für jede Unterteilung basierend auf den Kennzahlen erstellen, die die besten Prädiktoren für die jeweilige Gruppe sind.
In diesem Fall hat die Kindersterblichkeit eine relativ starke Korrelation mit der Lebenserwartung von Frauen für alle Regionen, obwohl sie in Afrika und Europa etwas schwächer ist. Die durchschnittliche Geburtenrate ist ein guter Prädiktor für Ozeanien und Asien, hat aber fast keine Korrelation mit der Lebenserwartung von Frauen in Europa, und die Protokolltransformation der durchschnittlichen Gesundheitsausgaben ist ein angemessener Prädiktor für alle Regionen außer Afrika. Wir können davon ausgehen, dass das mit allen vier Prädiktoren (Kindersterblichkeit, Geburtenrate, Protokolltransformation [Gesundheitsausgaben] und Region) erstellte Modell die ungenauesten Vorhersagen für Länder in Europa und Afrika haben wird. Wir sollten die Daten tiefgründiger untersuchen, um zu sehen, ob es zusätzliche oder alternative Prädiktoren gibt, die wir zum Entwickeln von Modellen verwenden könnten, die besser zu Europa und Afrika passen.
Erstellen Ihrer Vorhersagemodellierungsfunktion
Nachdem wir nun gute Prädiktoren gefunden haben, können wir eine Vorhersagemodellierungsfunktion erstellen und anwenden, um sie in Aktion zu sehen.
Öffnen Sie oben das Menü Analyse, und wählen Sie dann Berechnetes Feld erstellen aus.
Benennen Sie im Berechnungs-Editor die Berechnung, und gehen Sie wie folgt vor:
Benennen Sie die Berechnung: Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region
Geben Sie die folgende Formel ein:
MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
LOG(MEDIAN([Health Exp/Capita])),
MEDIAN([Birth Rate]),
MEDIAN([Infant Mortality Rate]),
ATTR([Region]))
Diese Berechnung gibt den Medianwert (0,5) des Bereichs der modellierten durchschnittlichen Lebenserwartungen von Frauen zurück. Dies basiert auf den von uns ausgewählten Prädiktoren: Gesundheitsausgaben, Geburtenrate, Kindersterblichkeit und Region.
Als Nächstes erstellen wir ein Streudiagramm, in dem sowohl die tatsächliche durchschnittliche Lebenserwartung von Frauen als auch die vorhergesagte durchschnittliche Lebenserwartung von Frauen dargestellt werden:
Fantastisch! Die Vorhersagen entsprechen in etwa den Ist-Werten für die einzelnen Regionen.
Lassen Sie uns jedoch in einem weiteren Durchlauf herausfinden, wo die Vorhersagen am weitesten von der Markierung entfernt sind. Erstellen Sie eine weitere Berechnung mit der Bezeichnung Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region wie folgt:
MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
Diese Restberechnung gibt die Differenz zwischen dem vorhergesagten und dem tatsächlichen Medianwert zurück und hilft uns beim Bestimmen der Länder mit der größten Diskrepanz zwischen der tatsächlichen und der vorhergesagten durchschnittlichen Lebenserwartung von Frauen.
Als Nächstes wenden wir diese Restberechnung auf Farbe an:
In der Visualisierung oben wird deutlich, dass die Diskrepanzen zwischen Vorhersagen und Ist-Werten für die meisten Länder und in den meisten Regionen gering sind. Afrika ist die Region mit der größten Anzahl der Länder mit erheblichen Unterschieden. Lassen Sie uns jedoch in einem weiteren Durchgang herausfinden, um welche Art von Unterschieden es sich hierbei handelt.
Sie können sehen, dass die Unterschiede zwischen -17 und +9 liegen. Wir teilen also die Visualisierung in Gruppen mit weniger als ±3 Jahren Unterschied, weniger als ±5 Jahren Unterschied, weniger als ±10 Jahren Unterschied und mehr als ±10 Jahren Unterschied auf.
Erstellen Sie eine weitere Berechnung mit der Bezeichnung Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region wie folgt:
IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
<= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
>= -3
THEN
"±3"
ELSEIF
[Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN
"±5"
ELSEIF
[Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN
"±10"
ELSE
"> ±10"
END
Wir fügen die Berechnung erneut zu Farbe hinzu:
Beachten Sie, dass die überwiegende Mehrheit der Vorhersagen um weniger als 3 Jahre falsch ist und dass nur eine kleine Handvoll um mehr als 10 Jahre abweicht. Insgesamt ist das ziemlich gut!
Die Verwendung dieses Modells würde es uns also ermöglichen, die Länder mit mittleren Lebenserwartungen von Frauen genau zu identifizieren, die Ausreißer sind, oder die modellierte Lebenserwartung von Frauen für ein Land bereitzustellen, für das diese Daten fehlten.