Auswählen von Prädiktoren

Wenn Sie Vorhersageberechnungen mit den Vorhersagemodellierungsfunktionen in Tableau erstellen, müssen Sie Prädiktoren auswählen. Zur Erinnerung: Ein Prädiktor ist eine Eingabevariable, deren Wert verwendet wird, um eine Ergebnisvariable vorherzusagen, die auch als Ziel oder Antwort bezeichnet wird. Oft arbeiten Sie mit Daten, für die Sie über umfangreiche Domänenkenntnisse verfügen und für die Sie bereits ein gutes Gespür dafür haben, welche Felder stark mit Ihrem Vorhersageziel korreliert sind und gute Prädiktoren darstellen würden. Es empfiehlt sich jedoch weiterhin, sich die Zeit zu nehmen, Ihre Prädiktoren zu bewerten und sicherzustellen, dass Sie sie mit Bedacht auswählen. Sie sollten grundsätzlichmindestens einen Prädiktor und in der Regel mehrere einbeziehen.

Wählen Sie zuerst Ihr Ziel aus. Dies klingt zwar naheliegend, aber die Sicherstellung, dass Sie Ihre Prädiktoren basierend auf der gewünschten Vorhersage auswählen, ist ein wichtiger erster Schritt. Beispielsweise können sich die Felder, die am stärksten mit der Lebenserwartung von Frauen korrelieren, stark von den Feldern unterscheiden, die am stärksten mit der männlichen Lebenserwartung korrelieren. Gleichermaßen können sich die Felder, die am stärksten mit dem Umsatz korrelieren, deutlich von den Feldern unterscheiden, die am stärksten mit dem Gewinn korrelieren.

Eine weiterer Aspekt, den es zu beachten gilt, ist der, dass die prädiktiven Modellierungsfunktionen standardmäßig die lineare Regression als zugrunde liegendes statistisches Modell verwenden. Bei diesem Modell sind die Prädiktoren mit der stärksten Korrelation diejenigen, die eine lineare Beziehung mit dem Ziel haben. Wenn Sie ein anderes unterstütztes Modell verwenden möchten, finden Sie Informationen dazu unter Auswählen eines Vorhersagemodells.

Um besser zu verstehen, wie Sie die besten Prädiktoren für die zu beantwortenden Fragen auswählen, werfen wir einen Blick auf die Daten der weiblichen Lebenserwartung. Laden Sie dazu die folgende Arbeitsmappe von Tableau Public herunter: Auswählen von Prädiktoren für Ihre Vorhersagen.

Kennzahlen als Prädiktoren

Wenn Sie eine Kennzahl als Prädiktor verwenden, können Sie mithilfe von Tableau ihre Korrelation mit dem Ziel bewerten. Eine Möglichkeit besteht darin, ein Streudiagramm zu erstellen. Im Folgenden vergleichen wir die durchschnittliche Lebenserwartung von Frauen in einem Land mit einer Vielzahl anderer Kennzahlen.

Streudiagrammvergleich zur Darstellung der Korrelation zwischen Prädiktor und Ziel

Für einige Kennzahlen wie Säuglingssterblichkeit und Geburtenrate gibt es eine klare negative Korrelation zu Weibliche Lebenserwartung, was anhand der negativen Steigung des Streudiagramms deutlich wird. Bei anderen ist dies nicht so eindeutig. Was wir jedoch deutlich erkennen können, ist eine L-förmige Verteilung für Durchschnittliches BIP, Durchschnittliche Mobiltelefonnutzung und Durchschnittliche Gesundheitsausgaben/Kopf. Diese L-förmige Verteilung weist häufig darauf hin, dass Sie mithilfe einer Protokolltransformation Ihre Daten genauer analysieren können. Ein weiterer Hinweis ergibt sich daraus, ob alle Werte einer Spalte positiv sind. In Tableau können Sie eine Protokolltransformation verwenden, indem Sie das Feld bearbeiten und den Ausdruck in einer LOG-Funktion umbrechen:

Protokollfunktion

Dadurch gelangen wir von der L-förmigen Verteilung – bei der es schwierig ist, zwischen den Extremen der Skala zu unterscheiden – zu einer gleichmäßigeren Verteilung, die durch die Extreme der Skala weniger komprimiert wird.

L-förmiges Streudiagramm

Wenn wir diesen Vorgang für die anderen L-förmigen Verteilungen wiederholen, erhalten wir Folgendes:

Weitere L-förmige Verteilungen

Bestimmungskoeffizient oder Bestimmtheitsmaß

Je näher die Markierungen an einer geraden Linie liegen, desto höher ist die Korrelation zwischen den beiden Kennzahlen. Zum Auswerten der Korrelation können Sie Trendlinien hinzufügen. Ziegen Sie eine Trendlinie vom Bereich Analyse in die Ansicht und legen Sie sie unter Linear ab. Wenn Sie den Cursor über die Trendlinie bewegen, erhalten Sie das Bestimmtheitsmaß bzw. den Bestimmungskoeffizienten, der angibt, inwieweit die abhängige Variable (das Ziel) durch die unabhängige Variable (der Prädiktor) erklärt wird. Prädiktoren mit einem Bestimmtheitsmaß, das näher an 1 liegt, sind besser als Prädiktoren mit einem Bestimmtheitsmaß, das näher an 0 liegt.

Streudiagramme mit Bestimmtheitsmaß nahe 1

Bei Betrachtung unserer Streudiagramme können wir sehen, dass der beste Prädiktor für die mittlere Lebenserwartung der Frauen die mittlere Säuglingssterblichkeit ist, die ein Bestimmtheitsmaß von 0,87 hat:

Auswahl des besten Diagramms anhand des Bestimmtheitsmaßes

Weitere gute Prädiktoren sind die Durchschnittliche Geburtenrate (Bestimmtheitsmaß = 0,76) und die Protokolltransformation von Durchschnittliche Gesundheitsausgaben/Kopf (Bestimmtheitsmaß = 0,56).

Hinweis: Die Neigung der Linie zeigt nicht eindeutig an, welche Prädiktoren das höchste Bestimmtheitsmaß haben. Da die Skalierung der x-Achse durch den Bereich der ausgewählten spezifischen Variable bestimmt wird, wird die Neigung der Linie stark von den verwendeten spezifischen Variablen beeinflusst.

Im folgenden Bild haben wir die Durchschnittliche Lebenserwartung von Frauen und die Durchschnittliche Lebenserwartung von Frauen visualisiert, wobei die resultierende Visualisierung eine vollkommen gerade Linie in einem 45°-Winkel ist: Wie erwartet existiert eine perfekte Korrelation zwischen dem Wert auf der x-Achse und dem Wert auf der y-Achse, mit einem Bestimmtheitsmaß von 1:

Diagramm mit Bestimmtheitsmaß von genau 1

Wie unten dargestellt, weist LOG(MEDIAN([GDP])) trotz steilerer Trendlinie als der von anderen ein geringes Bestimmtheitsmaß von lediglich 0,169 auf. Dies ist auf die Skala der x-Achse für diesen Bereich zurückzuführen:

Niedriges Bestimmtheitsmaß

Werfen wir außerdem einen Blick darauf, wie ein paar Markierungen die Neigung einer Trendlinie erheblich beeinflussen können. Wenn wir das Streudiagramm für die Durchschnittliche Unternehmenssteuer vergrößern, stellen wir fest, dass die Mehrheit der Markierungen einen Steuersatz zwischen 0 und etwa 1 hat, wobei sechs Länder deutlich höhere Steuersätze zwischen 2 und 3 haben. Das Bestimmtheitsmaß für alle Marken ist 0,0879:

Vergrößern des Diagramms für die durchschnittliche Unternehmenssteuer

Sehen wir jedoch, was passiert, wenn wir diesen Cluster mit sechs Markierungen entfernen:

Was bei Entfernen der Markierungscluster passiert

Die Trendlinie verläuft nahezu flach und das Bestimmtheitsmaß sinkt auf 0,0006. Dies deutet darauf hin, dass es im Wesentlichen keine Korrelation zwischen Durchschnittliche Unternehmenssteuer und Durchschnittliche Lebenserwartung von Frauen gibt. Wenn Sie Ihre Daten visualisieren und gute statistische Methoden zum Auswählen Ihrer Prädiktoren verwenden, ist es wichtig, sorgfältig zu überlegen, ob es Ausreißer oder andere Datenmerkmale gibt, die Ihre Schlussfolgerungen beeinflussen könnten.

Hinweis: Weitere Beispiele dafür, wie zusammenfassende Statistiken Ihnen möglicherweise nicht das vollständige Bild liefern, finden Sie im Anscombe-Quartett.

Dimensionen als Prädiktoren

Wenn Sie Dimensionen als Prädiktoren verwenden, können Sie ein ähnliches Verfahren anwenden, um die Korrelation zu bestimmen. Möglicherweise stellen Sie jedoch fest, dass es eine erhebliche Diskrepanz zwischen den verschiedenen Dimensionen in ihrer Beziehungsebene zum Ziel gibt. Wenn Sie beispielsweise eine Unterteilung nach Region vornehmen, kann eine Region ein sehr guter Prädiktor für das Ziel sein, während eine andere Region eine deutlich geringere Korrelation aufweisen kann. Dies bedeutet nicht, dass Sie diese Dimension nicht als Prädiktor verwenden sollen, aber Sie sollten überlegen, ob die Verwendung zusätzlicher Kennzahlen oder Dimensionen dazu beitragen wird, Ihr Modell und damit Ihre Vorhersagen zu verbessern.

Da wir herausgefunden haben, dass die besten Prädiktoren für unseren Datensatz Durchschnittliche Kindersterblichkeit, Durchschnittliche Geburtenrate und die Protokolltransformation von Durchschnittliche Gesundheitsausgaben/Kopf sind, beschränken wir die Visualisierung auf diese drei Variablen:

Vergleich verschiedener Variablen

Als Nächstes partitionieren wir die Daten, indem wir auf der Karte "Markierungen" die Region zu "Farbe" hinzufügen. Dann beobachten wir, was mit der Visualisierung geschieht:

Nach Farben partitioniert

Vergleichen des Bestimmtheitsmaßes über Prädiktoren hinweg

Sehen wir uns an, wie sich das Bestimmtheitsmaß für die einzelnen Trendlinien der Region für jeden Prädiktor im Vergleich verhält:

Tabelle mit Vergleich der Bestimmtheitsmaßwerte nach Region

In der obigen Tabelle wird das geringste Bestimmtheitsmaß für jeden Prädiktor rot und das zweitgeringste gelb hervorgehoben.

Europa hat das niedrigste Bestimmtheitsmaß für die durchschnittliche Kindersterblichkeit und die durchschnittliche Geburtenrate, während Afrika das geringste Bestimmtheitsmaß für die Protokolltransformation der durchschnittlichen Gesundheitsausgaben/Kopf aufweist (rot hervorgehoben). Afrika hat auch ein niedrigeres Bestimmtheitsmaß für die durchschnittliche Kindersterblichkeit und die durchschnittliche Geburtenrate.

Durch das Hinzufügen einer Dimension können Sie weitere Informationen für Ihr Modell bereitstellen, und das Hinzufügen weiterer Informationen kann die Qualität Ihrer Vorhersage verbessern. Innerhalb einer bestimmten Unterteilung (in diesem Fall eine Region) könnte sich die Qualität der Vorhersage jedoch entweder verbessern oder verschlechtern. In einigen Fällen sollten Sie ein individuelles Modell für jede Unterteilung basierend auf den Kennzahlen erstellen, die die besten Prädiktoren für die jeweilige Gruppe sind.

In diesem Fall hat die Kindersterblichkeit eine relativ starke Korrelation mit der Lebenserwartung von Frauen für alle Regionen, obwohl sie in Afrika und Europa etwas schwächer ist. Die durchschnittliche Geburtenrate ist ein guter Prädiktor für Ozeanien und Asien, hat aber fast keine Korrelation mit der Lebenserwartung von Frauen in Europa, und die Protokolltransformation der durchschnittlichen Gesundheitsausgaben ist ein angemessener Prädiktor für alle Regionen außer Afrika. Wir können davon ausgehen, dass das mit allen vier Prädiktoren (Kindersterblichkeit, Geburtenrate, Protokolltransformation [Gesundheitsausgaben] und Region) erstellte Modell die ungenauesten Vorhersagen für Länder in Europa und Afrika haben wird. Wir sollten die Daten tiefgründiger untersuchen, um zu sehen, ob es zusätzliche oder alternative Prädiktoren gibt, die wir zum Entwickeln von Modellen verwenden könnten, die besser zu Europa und Afrika passen.

Erstellen Ihrer Vorhersagemodellierungsfunktion

Nachdem wir nun gute Prädiktoren gefunden haben, können wir eine Vorhersagemodellierungsfunktion erstellen und anwenden, um sie in Aktion zu sehen.

  1. Öffnen Sie oben das Menü Analyse, und wählen Sie dann Berechnetes Feld erstellen aus.

  2. Benennen Sie im Berechnungs-Editor die Berechnung, und gehen Sie wie folgt vor:

    • Benennen Sie die Berechnung: Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region

    • Geben Sie die folgende Formel ein:

      MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
      LOG(MEDIAN([Health Exp/Capita])),
      MEDIAN([Birth Rate]),
      MEDIAN([Infant Mortality Rate]),
      ATTR([Region]))

Diese Berechnung gibt den Medianwert (0,5) des Bereichs der modellierten durchschnittlichen Lebenserwartungen von Frauen zurück. Dies basiert auf den von uns ausgewählten Prädiktoren: Gesundheitsausgaben, Geburtenrate, Kindersterblichkeit und Region.

Als Nächstes erstellen wir ein Streudiagramm, in dem sowohl die tatsächliche durchschnittliche Lebenserwartung von Frauen als auch die vorhergesagte durchschnittliche Lebenserwartung von Frauen dargestellt werden:

Vergleich der tatsächlichen mit den vorhergesagten Werten

Fantastisch! Die Vorhersagen entsprechen in etwa den Ist-Werten für die einzelnen Regionen.

Lassen Sie uns jedoch in einem weiteren Durchlauf herausfinden, wo die Vorhersagen am weitesten von der Markierung entfernt sind. Erstellen Sie eine weitere Berechnung mit der Bezeichnung Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region wie folgt:

MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]

Diese Restberechnung gibt die Differenz zwischen dem vorhergesagten und dem tatsächlichen Medianwert zurück und hilft uns beim Bestimmen der Länder mit der größten Diskrepanz zwischen der tatsächlichen und der vorhergesagten durchschnittlichen Lebenserwartung von Frauen.

Als Nächstes wenden wir diese Restberechnung auf Farbe an:

Hinzugefügte Restberechnung

In der Visualisierung oben wird deutlich, dass die Diskrepanzen zwischen Vorhersagen und Ist-Werten für die meisten Länder und in den meisten Regionen gering sind. Afrika ist die Region mit der größten Anzahl der Länder mit erheblichen Unterschieden. Lassen Sie uns jedoch in einem weiteren Durchgang herausfinden, um welche Art von Unterschieden es sich hierbei handelt.

Sie können sehen, dass die Unterschiede zwischen -17 und +9 liegen. Wir teilen also die Visualisierung in Gruppen mit weniger als ±3 Jahren Unterschied, weniger als ±5 Jahren Unterschied, weniger als ±10 Jahren Unterschied und mehr als ±10 Jahren Unterschied auf.

Erstellen Sie eine weitere Berechnung mit der Bezeichnung Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region wie folgt:

IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -3
THEN "±3"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN "±5"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN "±10"
ELSE
"> ±10"
END

Wir fügen die Berechnung erneut zu Farbe hinzu:

Endgültige Ansicht

Beachten Sie, dass die überwiegende Mehrheit der Vorhersagen um weniger als 3 Jahre falsch ist und dass nur eine kleine Handvoll um mehr als 10 Jahre abweicht. Insgesamt ist das ziemlich gut!

Die Verwendung dieses Modells würde es uns also ermöglichen, die Länder mit mittleren Lebenserwartungen von Frauen genau zu identifizieren, die Ausreißer sind, oder die modellierte Lebenserwartung von Frauen für ein Land bereitzustellen, für das diese Daten fehlten.

Vielen Dank für Ihr Feedback!Ihr Feedback wurde erfolgreich übermittelt. Vielen Dank.