"Berechnen per" und Datenpartitionierung in der Vorhersagemodellierung

Vorhersagen für Daten werden erstellt, indem Sie die Vorhersagemodellierungsfunktionen, MODEL_QUANTILE oder MODEL_PERCENTILE, in eine Tabellenberechnung einbeziehen.

Beachten Sie, dass für alle Tabellenberechnungen eine Richtung vom Typ Berechnen per angegeben werden muss. Eine Übersicht darüber, wie sich verschiedene Adressierungs- und Partitionierungsdimensionen auf Ihre Ergebnisse auswirken können, finden Sie unter Umwandeln von Werten mit Tabellenberechnungen.

Kontextmenü mit "Berechnen per"

Hinweis: Beim Hinzufügen einer Tabellenberechnung müssen Sie alle Dimensionen in der Detailgenauigkeit für die Partitionierung (Umfang) oder die Adressierung (Richtung) verwenden. Die Dimensionen für die Definition der Gruppierung der Berechnung (Umfang der Daten, auf die sie angewendet wird), werden Partitionierungsfelder genannt. Die Tabellenberechnung erfolgt separat in jeder Partition. Die verbleibenden Dimensionen, auf denen die Tabellenberechnung ausgeführt wird, werden als Adressierungsfelder bezeichnet und bestimmen die Richtung der Berechnung. Weitere Einzelheiten finden Sie unter Grundlagen: Adressierung und Partitionierung.

Bei den Vorhersagemodellierungsfunktionen wird die Option Berechnen per verwendet, um den Datensatz zu partitionieren (Umfang), der zum Erstellen des Vorhersagemodells verwendet wird.

Für Vorhersagemodellierungsfunktionen existiert kein Adressierungskonzept (Richtung), da das Modell ein bestimmtes Ergebnis für jede Markierung zurückgibt, das auf den ausgewählten Prädiktoren basiert. Das heißt, dass die Vorhersagemodellierungsfunktionen grundsätzlich nicht sequentiell sind. Dies steht im Gegensatz zum Konzept Laufende Summe, wo die Adressierungsdimension die Reihenfolge bestimmt, in der Felder hinzugefügt und Ergebnisse zurückgegeben werden. Die Vorhersagemodellierungsfunktionen berechnen Ergebnisse mithilfe eines Modells anhand der Daten, die durch das Ziel und die Prädiktoren der Funktion definiert werden. Dabei kommt die durch die Visualisierung angegebene Detailgenauigkeit zum Tragen. Innerhalb der Daten existiert kein Sequenzierungskonzept, es sei denn, es wird ein geordneter Prädiktor wie eine Datumsdimension verwendet.

Zudem wird die Detailgenauigkeit der Visualisierung immer dann verwendet, wenn die zum Erstellen des Modells verwendeten Daten definiert werden. Alle Tabellenberechnungen werden mit derselben Detailgenauigkeit wie die Visualisierung selbst durchgeführt, und die Vorhersagemodellierungsfunktionen bilden dabei keine Ausnahme.

Empfehlungen für Vorhersagemodellierungsfunktionen

Es wird empfohlen, eine spezifische Dimension für die Partitionierung auszuwählen, wenn Sie die Vorhersagemodellierungsfunktionen verwenden. Da eine einzelne Visualisierung oder ein einzelnes Dashboard mehrere Vorhersageberechnungen beinhalten kann, wird durch Auswahl einer spezifischen Partitionierungsdimension sichergestellt, dass Sie Modelle anhand desselben zugrunde liegenden Datensatzes für alle individuellen Funktionen erstellen und somit Ergebnisse aus ähnlichen Modellen vergleichen.

Beim Arbeiten mit Vorhersagemodellierungsfunktionen in Tableau muss unbedingt sichergestellt werden, dass die verschiedenen Instanziierungen konstant bleiben, sowohl in verschiedenen Iterationen Ihres Modells (z. B. bei Auswahl verschiedener Prädiktoren) als auch in verschiedenen Visualisierungen. Bei Verwendung der Richtungsoptionen für "Berechnen per" ist es möglich, dass sich eine geringfügige Änderung Ihrer visualisierten Daten erheblich auf die zum Erstellen des Modells verwendeten Daten auswirkt. Dadurch werden ihre Gültigkeit und Konsistenz in verschiedenen Visualisierungen beeinträchtigt.

Auswählen von Dimensionen

Bei den folgenden Beispielen wird die Datenquelle Beispiel ‒ Superstore (Beispiel – Superstore) verwendet, die in Tableau Desktop enthalten ist.

Beachten Sie beim Auswählen einer Dimension, dass Tableau ein Vorhersagemodell für diese Dimension erstellt. Das heißt, dass Tableau beim Auswählen von Bestelldatum für die Partitionierungsdimension zwar die Daten innerhalb anderer erstellter Partitionen, jedoch zusammen mit Werten unter Bestelldatum verwendet.

In dem Bild unten sind die zum Erstellen des Modells verwendeten Daten gelb und die Modellausgabe orange markiert. Weil in diesem Fall keine Prädiktoren vorhanden sind, sind alle Antworten innerhalb einer bestimmten Unterkategorie identisch. Durch Auswahl optimaler Prädiktoren können Sie aussagekräftigere Ergebnisse generieren. Weitere Informationen zu optimalen Prädiktoren finden Sie unter Auswählen von Prädiktoren.

Tabelle mit identischen Ergebnissen

Wenn Sie die Unterkategorie als Partitionierungsdimension auswählen, würde Tableau die Daten gleichermaßen innerhalb eines bestimmten Monats, aber zusammen mit mehreren Unterkategorien verwenden, wie unten dargestellt. Werden die Daten weiter in Bereiche unterteilt, so werden die Bereichsgrenzen beim Erstellen eines Modells respektiert.

Tabelle mit identischen Ergebnissen für jede Unterkategorie

Hinweis zur Partitionierung

Beachten Sie, dass Ihre Daten visuell erhebliche Auswirkungen auf die Daten haben, die zum Erstellen eines Modells und Generieren Ihrer Vorhersagen verwendet werden. Durch das Hinzufügen einer höheren Detailgenauigkeit (beispielsweise durch Einfügen von Bundesland und Stadt in einen einzelnen Container) werden Ihre Daten mit der höheren Detailgenauigkeit partitioniert. Die Reihenfolge, in der die Felder im Container platziert werden, ist dabei unerheblich. Beispielsweise werden im folgenden Beispiel identische Vorhersagen zurückgegeben:

Felder für Stadt und Bundesstaat in Zeilen-ContainerFelder für Bundesstaat und Stadt in Zeilen-Container

Beim Hinzufügen eines Feldes zur Änderung der Detailgenauigkeit werden Ihre Daten partitioniert, wenn Sie entweder dem Zeilen- oder Spalten-Container oder zu "Farbe", "Größe", "Beschriftung", "Detail" oder "Form" auf der Karte "Markierungen" hinzugefügt werden. Durch das Hinzufügen eines Feldes mit einer anderen Detailgenauigkeit zu einer QuickInfo werden Ihre Daten nicht partitioniert.

In dem unten angegebenen Beispiel wird das Modell automatisch nach Kategorie partitioniert, da sich die beiden Felder Kategorie und Unterkategorie in Zeilen befinden. Die Vorhersageberechnung erfolgt für die Unterkategorie innerhalb der Grenzen des übergeordneten Feldes Kategorie.

Tabelle mit identischen Ergebnissen für jede Unterkategorie

Dies wirkt sich auf die Art und Weise aus, wie Ihre Prädiktoren angewendet werden. Betrachten wir das Beispiel unten. In diesem Fall werden drei MODEL_QUANTILE-Tabellenberechnungen angewendet:

Predict_Sales_CityPredict_Sales_StatePredict_Sales_Region
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([City]))
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([State]))
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([Region]))

Wir haben für alle drei Berechnen > Stadt ausgewählt. Sehen wir uns einige Städte in North Carolina an:

Tabelle mit den Ergebnissen nach Stadt

Beachten Sie, dass die Ergebnisse aus allen drei Berechnungen in einem bestimmten Bundesstaat trotz Verwendung verschiedener Prädiktoren identisch sind.

Wenn wir die Region aus dem Zeilen-Container entfernen, bleiben unsere Ergebnisse unverändert. Sie sind innerhalb eines bestimmten Bundesstaats immer noch identisch:

Tabelle mit denselben Ergebnissen nach Entfernen der Region

Wenn wir jedoch den Bundesstaat aus dem Zeilen-Container entfernen, werden für jede Berechnung andere Ergebnisse angezeigt:

Tabelle mit anderen Ergebnissen nach Entfernen des Bundesstaats

Was ist da los?

Im ersten Beispiel werden anhand von Region und Bundesstaat im Zeilen-Container die Städte partitioniert. Demzufolge erhalten die Modelle für Predict_Sales_City, Predict_Sales_State und Predict_Sales_Region dieselben Daten, und sie generieren dieselben Vorhersagen.

Da wir die Daten in Bundesstaat und Region bereits visuell partitioniert haben, sorgt keiner unserer Prädiktoren für einen Mehrwert des Modells, und sie haben keinen Einfluss auf die Ergebnisse:

Tabelle mit Prädiktoren ohne Mehrwert für das Modell

Wenn wir die Region aus dem Zeilen-Container entfernen, erfolgt weiterhin eine Partitionierung nach Bundesstaat. Die zum Erstellen des Modells verwendeten Daten bleiben also unverändert. Da wir die Daten in Bundesstaat bereits visuell partitioniert haben, sorgt, wie bereits erwähnt, keiner unserer Prädiktoren für einen Mehrwert des Modells, und sie haben keinen Einfluss auf die Ergebnisse:

Tabelle mit Prädiktoren ohne Mehrwert für das Modell

Wenn wir jedoch Bundesstaat entfernen, wird die Partitionierung der Daten aufgehoben, und es werden verschiedene Prädiktoren für die einzelnen Berechnungen angezeigt. Sehen wir uns einmal genauer an, was hier passiert:

Tabelle mit anderen Vorhersagen nach Entfernen des Bundesstaats

Für Predict_Sales_City verwenden wir ATTR([City]) als Prädiktor. Da hierbei dieselbe Detailgenauigkeit wie bei der Visualisierung verwendet wird, sorgt dies für keinen Mehrwert und wird außer Acht gelassen. Wir aggregieren den Umsatz für alle Städte, übergeben sie an die Statistik-Engine und berechnen die Umsatzprognose. Da keine weiteren Prädiktoren einbezogen werden, wird für jede Stadt dasselbe Ergebnis angezeigt. Hätten wir eine oder mehrere Kennzahlen einbezogen, würden die Ergebnisse variieren.

Tabelle mit denselben Ergebnissen für jede Stadt

Für Predict_Sales_State verwenden wir ATTR([State]) als Prädiktor. Der Prädiktor partitioniert alle Daten für die Stadt nach Bundesland. Wir gehen davon aus, dass innerhalb eines Bundesstaats identische Ergebnisse, jedoch verschiedene Ergebnisse für jeden Bundesstaat angezeigt werden.

Sie sehen, dass dies jedoch nicht der Fall ist. Die Städte Cary, Chapel Hill und Charlotte weisen alle identische Vorhersagen von 2.084 $ auf, wie wir es erwartet haben. Für Burlington lautet die Vorhersage jedoch 9.366 $:

Tabelle mit einem anderen Ergebnis für Burlington

Die Ursache dafür ist, dass "Burlington" in mehreren Bundesstaaten existiert (Iowa, North Carolina und Vermont). Daher wird der Bundesstaat in * aufgelöst, was "mehrere Werte" bedeutet. Alle Markierungen, bei denen Bundesstaat in * aufgelöst wird, werden zusammen evaluiert. Demzufolge hätte jede andere Stadt, die ebenfalls in mehreren Bundesstaaten existiert, ebenfalls die Vorhersage 9.366 $.

Für Predict_Sales_Region verwenden wir ATTR([Region]) als Prädiktor. Der Prädiktor partitioniert alle Daten für die Stadt nach Region. Man erwartet, dass innerhalb einer Region identische Ergebnisse, jedoch verschiedene Ergebnisse für jede Region angezeigt werden:

Tabelle mit Auflösung der Region in die Ergebnisse von Burlington

Da Burlington wiederum in mehreren Regionen vorkommt (Zentrum, Osten und Süden), wird die Region in * aufgelöst. Die Vorhersagen für Burlington werden nur den Städten zugeordnet, die ebenfalls in mehreren Regionen vorkommen.

Demzufolge ist sehr wichtig, sicherzustellen, dass dimensionale Prädiktoren korrekt auf die Detailgenauigkeit Ihrer Visualisierung und auf Ihre Partitionierung ausgerichtet sind. Eine Unterteilung Ihrer Visualisierung nach einer beliebigen Dimension könnte unbeabsichtigte Auswirkungen auf Ihre Vorhersagen haben.

Vielen Dank für Ihr Feedback!Ihr Feedback wurde erfolgreich übermittelt. Vielen Dank.