Funktionsweise der Vorhersagemodellierungsfunktionen in Tableau

Sie können einer Visualisierung bereits Trendlinien und Prognosen hinzufügen. Wir gehen jetzt jedoch einen Schritt weiter und verwenden eine Statistik-Engine, zum Erstellen eines Modells, das versteht, wie Ihre Daten um eine solche Trendlinie bzw. Best-Fit-Linie verteilt werden. Zuvor mussten Benutzer Tableau mit R und Python integrieren, um erweiterte statistische Berechnungen durchführen und in Tableau visualisieren zu können. Jetzt können Sie die Vorhersagemodellierungsfunktionen verwenden, um Vorhersagen aus Ihren Daten zu treffen, indem Sie sie in eine Tabellenberechnung einbeziehen. Weitere Informationen zu Tabellenberechnungen finden Sie unter Umwandeln von Werten mit Tabellenberechnungen.

Mit diesen Vorhersagemodellierungsfunktionen können Sie Ziele und Prädiktoren auswählen, indem Sie die Variablen aktualisieren und mehrere Modelle mit unterschiedlichen Kombinationen aus Prädiktoren visualisieren. Die Daten können auf beliebiger Detailebene gefiltert, aggregiert und umgewandelt werden, und das Modell – und damit die Vorhersage – werden automatisch neu berechnet, um Ihren Daten zu entsprechen.

Ein detailliertes Beispiel zum Erstellen von Vorhersageberechnungen mithilfe dieser Funktionen finden Sie unter Beispiel – Untersuchen der weiblichen Lebenserwartung mit Vorhersagemodellierungsfunktionen.

In Tableau verfügbare Vorhersagemodellierungsfunktionen

MODEL_PERCENTILE

SyntaxMODEL_PERCENTILE(
model_specification (optional),
target_expression,
predictor_expression(s))
DefinitionGibt die Wahrscheinlichkeit (zwischen 0 und 1) zurück, dass der erwartete Wert kleiner oder gleich der beobachteten Markierung ist, die durch den Zielausdruck und andere Prädiktoren definiert wird. Dies ist die A-Posteriori-Verteilungsfunktion oder kumulative Verteilungsfunktion (CDF, Cumulative Distribution Function).
Beispiel
MODEL_PERCENTILE( SUM([Sales]),COUNT([Orders]))

MODEL_QUANTILE

SyntaxMODEL_QUANTILE(
model_specification (optional),
quantile,
target_expression,
predictor_expression(s))
DefinitionGibt einen numerischen Zielwert innerhalb des wahrscheinlichen Bereichs zurück, der durch den Zielausdruck und andere Prädiktoren bei einem angegebenen Quantil definiert wird. Dies ist das A-Posteriori-Quantil.
Beispiel
MODEL_QUANTILE(0.5, SUM([Sales]), COUNT([Orders]))

Das Potenzial von Vorhersagemodellierungsfunktionen

Sehen wir uns ein Beispiel mit Gehaltsdaten an. Dabei beginnen wir mit MODEL_QUANTILE.

Im folgenden Beispiel wurde MODEL_QUANTILE verwendet, um das 10. Perzentil und das 90. Perzentil der erwarteten Verteilung für denselben Datensatz anzuzeigen. Basierend auf den vorhandenen Daten und unter Verwendung eines linearen Regressionsmodells hat die Statistik-Engine ermittelt, dass eine 90-prozentige Wahrscheinlichkeit besteht, dass das Maximalgehalt für jede Amtszeit unter der grünen Linie liegt. Des Weiteren beträgt die Wahrscheinlichkeit, dass das Mindestgehalt für jede Amtszeit unter der blauen Linie liegt, 10 %.

Mit anderen Worten prognostiziert das Modell bei Festlegung des Quantils auf 0,9, dass alle Gehälter für 90 % der Zeit auf der grünen Linie oder darunter liegen werden. Die blaue Linie ist auf 0,1 bzw. 10 % festgelegt, so dass nur 10 % der Gehälter auf oder unter der blauen Linie und die Invertierung davon (90 %) über der blauen Linie liegen.

Effektiv erhalten wir dadurch einen Bereich, in den 80 % der potenziell generierten künftigen Punkte oder nicht beobachteten Daten fallen werden.

Gehaltsverteilungsdiagramm

Als Nächstes sehen wir uns an, wie uns die MODEL_PERCENTILE-Funktion (die Umkehrung von MODEL_QUANTILE) dabei helfen kann, die Daten besser zu verstehen.

Mithilfe der MODEL_PERCENTILE-Funktion können Sie die Ausreißer des Datensatzes identifizieren. MODEL_PERCENTILE teilt Ihnen in Form eines Perzentil mit, wo die beobachtete Markierung innerhalb eines Bereichs wahrscheinlicher Werte für die einzelnen Markierungen liegt. Wenn das Perzentil sehr nahe bei 0,5 liegt, befindet sich der beobachtete Wert sehr nahe am vorhergesagten Medianwert. Wenn das Perzentil nahe 0 oder 1 liegt, befindet sich der beobachtete Wert an der unteren oder oberen Grenze des Modellbereichs und ist relativ unerwartet.

Im Folgenden haben wir MODEL_PERCENTILE als Farbe auf die Gehaltsvisualisierung in der oberen Hälfte des Bildes angewendet, damit wir besser nachvollziehen können, welche Werte am ehesten erwartet werden.

Gehaltsverteilung als Farbe

Syntax der Vorhersagemodellierungsfunktionen im Detail

Was ist MODEL_QUANTILE?

MODEL_QUANTILE berechnet das A-Posteriori-Quantil bzw. den erwarteten Wert bei einem angegebenen Quantil.

  • Quantil: Das erste Argument ist eine Zahl zwischen 0 und 1, die angibt, welches Quantil vorhergesagt werden soll. 0,5 gibt beispielsweise an, dass der Median vorhergesagt wird.
  • Zielausdruck: Das zweite Argument ist die Kennzahl, die vorhergesagt werden oder das "Ziel" sein soll.
  • Vorhersageausdrücke: Das dritte Argument ist der Prädiktor, der für die Vorhersage verwendet wird. Prädiktoren können Dimensionen, Kennzahlen oder beides sein.

Das Ergebnis ist eine Zahl innerhalb des wahrscheinlichen Bereichs.

Sie können MODEL_QUANTILE verwenden, um ein Konfidenzintervall, fehlende Werte wie zukünftige Datumsangaben oder Kategorien zu generieren, die in Ihrem zugrunde liegenden Datensatz nicht vorhanden sind.

Was ist MODEL_PERCENTILE?

MODEL_PERCENTILE berechnet die A-Posteriori-Verteilungsfunktion, die auch als kumulative Verteilungsfunktion (CDF, Cumulative Distribution Function) bezeichnet wird. Dadurch wird das Quantil eines bestimmten Werts zwischen 0 und 1 berechnet, die Umkehrung von MODEL_QUANTILE.

  • Zielausdruck: Das erste Argument ist die Kennzahl für das Ziel, mit deren Hilfe die zu bewertenden Werte identifiziert werden.
  • Vorhersageausdrücke: Das zweite Argument ist der Prädiktor, der für die Vorhersage verwendet wird.
  • Zusätzliche Argumente sind optional und werden einbezogen, um die Vorhersage zu steuern.

Beachten Sie, dass die Berechnungssyntax ähnlich ist, wobei MODEL_QUANTILE das zusätzliche Argument eines definierten Quantils aufweist.

Dies führt dazu, dass der erwartete Wert wahrscheinlich kleiner oder gleich dem beobachteten Wert ist, der in der Markierung ausgedrückt wird.

Sie können MODEL_PERCENTILE verwenden, um Korrelationen und Beziehungen innerhalb Ihrer Datenbank aufzudecken. Wenn MODEL_PERCENTILE einen Wert nahe 0,5 zurückgibt, liegt die beobachtete Markierung in der Nähe des Medians für den Bereich der vorhergesagten Werte (unter Verwendung der anderen von Ihnen ausgewählten Prädiktoren). Wenn MODEL_PERCENTILE einen Wert nahe 0 oder 1 zurückgibt, liegt die beobachtete Markierung in der Nähe des unteren oder oberen Bereichs der vom Modell erwarteten Werte (unter Verwendung der anderen von Ihnen ausgewählten Prädiktoren).

Hinweis: Dimensionen, die als Prädiktoren verwendet werden, können geordnet oder ungeordnet sein. Eine geordnete Dimension ist eine beliebige Dimension, deren Werte sequenziert werden können, wie zum Beispiel MONTH. Eine ungeordnete Dimension ist eine Dimension, deren Werte keine inhärente Reihenfolge haben, wie zum Beispiel Geschlecht oder Farbe. Diese Unterscheidung ist wichtig, wenn die gaußsche Prozessregression verwendet wird. Weitere Informationen zu diesem und weiteren Modellen finden Sie unter Auswählen eines Vorhersagemodells.

Für fortgeschrittene Benutzer gibt es zwei weitere optionale Argumente, die Sie zum Steuern der Vorhersage einschließen können. Weitere Informationen finden Sie unter Abgrenzung und Erweiterung in der Vorhersagemodellierung.

Was wird berechnet?

Die zum Erstellen des Modells verwendete Eingabe ist eine Matrix, in der jede Markierung eine Zeile ist und die Spalten der Zielausdruck und die Prädiktorausdrücke sind, die für jede Markierung ausgewertet werden. Die in der Visualisierung angegebene Zeile definiert die Zeile für den Datensatz, der von der Statistik-Engine berechnet wird.

Sehen wir uns das folgende Beispiel an, in dem Zeilen (und somit Markierungen) durch Auftragstitel definiert werden und Spalten dem Zielausdruck MEDIAN([Annual Rt]) entsprechen. Es folgen die optionalen zusätzlichen Prädiktoren MEDIAN([Tenure in Months (Measure)] und ATTR([Department Generic (group)].

Tabelle der Gehaltsdaten

Hinweis: Für mehrere Stellenbezeichnungen wird unter der Abteilung ein Sternchen aufgeführt. Dies liegt daran, dass diese Stellenbezeichnungen in mehreren Abteilungen vorhanden sind, Tableau jedoch alle so behandelt, als kämen sie aus derselben Abteilung. Darüber hinaus berücksichtigt die Statistik-Engine nicht die Anzahl an Datensätzen, und sie behandelt jede Markierung mit derselben Wahrscheinlichkeit. Die Ursache dafür liegt darin, dass Tableau keine Tabellenberechnungen für nicht aggregierte Daten durchführen und die Ergebnisse von Tabellenberechnungen nicht aggregieren kann. Weitere Informationen zur Aggregation finden Sie unter Datenaggregation in Tableau.

Weitere Informationen zu den zum Erstellen eines Modells und zum Generieren von Vorhersagen verwendeten Daten finden Sie unter "Berechnen per" und Datenpartitionierung in der Vorhersagemodellierung.

Welche Modelle werden unterstützt?

Die Vorhersagemodellierungsfunktionen unterstützen die lineare Regression, die regularisierte lineare Regression und die gaußsche Prozessregression. Diese Modelle unterstützen verschiedene Anwendungsfälle und Vorhersagetypen und weisen unterschiedliche Einschränkungen auf. Weitere Informationen finden Sie unter Auswählen eines Vorhersagemodells.

Auswählen der Prädiktoren

Ein Prädiktor kann ein beliebiges Feld in Ihrer Datenquelle sein (Kennzahl oder Dimension), einschließlich berechneter Felder.

Hinweis: Wenn Sie eine Dimension als Prädiktor verwenden, müssen Sie einen ATTR-Wrapper verwenden (z. B. ATTR([State] und nicht nur [State]). Die Ursache dafür liegt darin, dass Dimensionen generell nur dann funktionieren, wenn ihre Detailgenauigkeit direkt einer Visualisierung entspricht oder wenn sie in einer Hierarchie direkt darüber liegt.

Angenommen, Sie verfügen über einen Datensatz mit den Feldern [City], [State] und [Region], wobei mehrere [City]-Datensätze in einem [State] und mehrere [State]-Datensätze innerhalb einer [Region] vorhanden sind.

In einer Visualisierung, die [State] als Markierung verwendet, funktioniert der Prädiktor ATTR([State]) oder ATTR([Region]) jeweils als Prädiktor. Der Prädiktor ATTR([City]) wird jedoch auf * zurückgesetzt, da mehrere Städte in einem visualisierten Bundesstaat vorhanden sind und daher nicht als Prädiktoren verwendet werden können. Mit anderen Worten ergibt das Einbeziehen eines Prädiktors mit geringerer Detailgenauigkeit als der der Visualisierung keinen Mehrwert für die Vorhersagen. In den meisten Fällen wird ein Prädiktor auf einer niedrigeren Detailebene als der der Visualisierung als * ausgewertet. Demzufolge werde alle identisch behandelt.

Wenn jedoch derselbe Datensatz verwendet wird, um eine Visualisierung zu generieren, die [City] als Markierung verwendet, können ATTR([City]), ATTR([State]) und ATTR([Region]) alle erfolgreich als Prädiktoren verwendet werden. Weitere Informationen zur Verwendung von ATTR-Funktionen finden Sie unter Verwenden der Attribut(ATTR)-Funktion.

Dimensionen und Kennzahlen müssen nicht visualisiert werden (in der Ansicht oder Visualisieren), um als Prädiktoren einbezogen zu werden. Eine ausführlichere Anleitung dazu finden Sie unter Auswählen von Prädiktoren.

Empfehlungen

Vorhersageberechnungen werden am besten wie folgt verwendet:

  • Um Werte für einzelne Datensätze vorherzusagen, wobei jede Markierung in Ihrer Visualisierung eine diskrete Entität wie ein Produkt, einen Verkauf, eine Person usw. darstellt anstatt aggregierte Daten. Die Ursache dafür liegt darin, dass Tableau jede Markierung als gleich wahrscheinlich ansieht, selbst wenn eine Markierung aus 100 Datensätzen besteht und die anderen Markierungen nur jeweils einen Datensatz umfassen. Die Statistik-Engine wiegt keine Markierungen basierend auf der Anzahl der Datensätze ab, aus denen sie besteht.

  • Zum Vorhersagen von Werten für aggregierte Zielausdrücke mit SUM und COUNT.
Hinweis: MODEL_QUANTILE und MODEL_PERCENTILE werden nicht empfohlen, um Werte für aggregierte Zielausdrücke mit von AVG, MEDIAN, MIN und MAX vorherzusagen.

Einschränkungen

  • Sie müssen ein berechnetes Feld verwenden, um eine Zeitreihe so zu erweitern, dass sie in die Zukunft reicht. Weitere Informationen finden Sie unter Vorhersagen der Zukunft.

  • Prädiktoren sollten dieselbe Detailgenauigkeit wie die Ansicht oder eine höhere Detailgenauigkeit aufweisen. Das heißt, dass Sie den Bundesstaat oder die Region als Prädiktor verwenden sollten und nicht die Stadt, wenn Ihre Ansicht nach Bundesstaat aggregiert wird. Weitere Informationen finden Sie unter Auswählen von Prädiktoren.

Wann schlagen Vorhersageberechnungen fehl?

Unabhängig vom verwendeten Modell müssen Sie mindestens drei Datenpunkte innerhalb jeder Partition haben, damit das Modell eine Antwort zurückgeben kann.

Wenn Sie die gaußsche Prozessregression als Modell angegeben haben, kann sie in Vorhersageberechnungen mit einem geordneten Dimensionsprädiktor und einer beliebigen Anzahl ungeordneterDimensionsprädiktoren verwendet werden. Kennzahlen werden nicht als Prädiktoren in gaußschen Prozessregressionsberechnungen unterstützt, können aber in linearen und regulierten linearen Regressionsberechnungen verwendet werden. Weitere Informationen zur Modellauswahl finden Sie unter Auswählen eines Vorhersagemodells.

Wenn Ihre Berechnung ATTR[State] als Prädiktor verwendet und Ihre Visualisierung auch den Bundesstaat als Markierung enthält, aber kein anderes Feld mit einer niedrigeren Detailgenauigkeit, wie z. B. Stadt, wird ein Fehler zurückgegeben. Um dies zu verhindern, stellen Sie einfach sicher, dass es keine 1:1-Beziehung zwischen Markierungen und Prädiktorkategorien gibt.

Weitere Informationen zu diesen und anderen Vorhersageproblemen finden Sie unter Beheben von Fehlern in Vorhersagemodellierungsfunktionen.

Häufig gestellte Fragen

Wie verhält es sich mit Markierungen in mehreren Prädiktorgruppen?

Wenn eine Zeile aus Daten aggregiert wird, die in mehreren Prädiktorgruppen vorhanden sind, ist der Wert der ATTR-Funktion ein spezieller Wert mehrerer Werte. Beispielsweise haben alle Städte, die in mehreren Bundesstaaten vorhanden sind, denselben vorhergesagten Wert (es sei denn, es gibt andere eindeutige Prädiktoren). Beim Auswählen Ihrer Prädiktoren ist es am besten, Prädiktoren mit derselben Detailgenauigkeit wie die Visualisierung oder höher zu verwenden. Weitere Informationen zu ATTR-Funktionen finden Sie unter Verwenden der Attribut (ATTR)-Funktion.

Wie verhält es sich, wenn die ATTR-Aggregation einen *-Wert zurückgibt?

* wird als eindeutiger Wert behandelt. Wenn ATTR für alle Markierungen ein * zurückgibt, dann haben Sie im Wesentlichen einen Prädiktor mit einem konstanten Wert, der ignoriert wird. Dies ist so, als würden Sie diesen Prädiktor gar nicht einbeziehen.

Wenn ATTR für einige, aber nicht für alle Markierungen ein * zurückgibt, wird es als Kategorie behandelt, in der alle *-Werte identisch betrachtet werden. Dieses Szenario ist identisch mit dem obigen Szenario, in dem Markierungen in mehreren Prädiktorgruppen vorhanden sind.

Wie verhält es sich mit den Optionen im Tabellenberechnungsmenü "Berechnen per"?

Die Funktionsweise ist identisch mit "Berechnen per" in anderen Tabellenberechnungen. Weitere Informationen finden Sie unter "Berechnen per" und Datenpartitionierung in der Vorhersagemodellierung.

Warum erhalte ich einen Fehler?

Es gibt mehrere Gründe, warum bei der Verwendung von Vorhersagemodellierungsfunktionen möglicherweise ein Fehler auftritt. Ausführliche Schritte zur Fehlerbehebung finden Sie unter Beheben von Fehlern in Vorhersagemodellierungsfunktionen.

Vielen Dank für Ihr Feedback!Ihr Feedback wurde erfolgreich übermittelt. Vielen Dank.