Funktionsweise von "Erklär die Daten"

Verwenden Sie "Erklär die Daten" als inkrementellen Ausgangspunkt für die weitere Untersuchung Ihrer Daten. Die generierten möglichen Erklärungen helfen Ihnen, die verschiedenen Werte zu erkennen, die eine analysierte Markierung in einer Ansicht bilden oder sich auf sie beziehen. Hier erfahren Sie, welche Eigenschaften die Datenpunkte in der Datenquelle haben und wie die Daten mithilfe statistischer Modelle in Beziehung gesetzt werden können (Korrelationen). Diese Erläuterungen bieten Ihnen ein weiteres Werkzeug, um Ihre Daten zu überprüfen und interessante Hinweise darauf zu finden, was als Nächstes zu untersuchen ist.

Hinweis: "Erklär die Daten" ist ein Tool, das Beziehungen in Ihren Daten aufdeckt und beschreibt. Damit können Sie die Ursache für Beziehungen erkennen oder erfahren, wie die Daten interpretiert werden müssen. Sie sind der Experte für Ihre Daten. Ihr Fachwissen und Ihre Intuition sind ausschlaggebend, um zu entscheiden, welche Merkmale interessant sein könnten, um sie mithilfe verschiedener Ansichten weiterzuerforschen.

Weitere Informationen zur Funktionsweise von "Erklär die Daten" und zur Verwendung von "Erklär die Daten" zum Ergänzen Ihrer Analyse finden Sie in den folgenden Tableau Conference-Präsentationen:

Was "Erklär die Daten" leistet (und was nicht)

"Erklär die Daten" ist

  • Ein Tool und ein Workflow, das bzw. der Ihr Fachwissen nutzt.
  • Ein Tool, das Beziehungen in Ihren Daten aufdeckt und empfiehlt, wo Sie als nächstes suchen sollten.
  • Ein Tool und ein Workflow bzw. der die Datenanalyse beschleunigt und die Datenanalyse für eine breitere Palette von Benutzern zugänglicher macht.

"Erklär die Daten" ist kein:

  • Statistisches Testtool.
  • Tool, um Hypothesen zu beweisen oder zu widerlegen.
  • Tool, das Ihnen eine Antwort gibt oder Ihnen etwas über Kausalität in Ihren Daten sagt.

Beachten Sie beim Ausführen von "Erklär die Daten" auf Markierungen die folgenden Punkte:

  • Verwenden Sie granulare Daten, die aggregiert werden können. Diese Funktion ist speziell für die Analyse von aggregierten Daten konzipiert. Das bedeutet, dass Ihre Daten granular sein müssen, aber die Markierungen, die Sie für "Erklär die Daten" auswählen, müssen mit einer höheren Detailgenauigkeit aggregiert oder zusammengefasst werden. Explain Data kann nicht auf disaggregierten Markierungen (Daten auf Zeilenebene) auf der elementarsten Detailgenauigkeitsebene ausgeführt werden.

  • Berücksichtigen Sie die Form, Größe und Kardinalität Ihrer Daten. Explain Data kann zwar mit kleineren Datensätzen verwendet werden, erfordert aber ausreichend breite Daten mit genügend Markierungen (Granularität), um ein Modell erstellen zu können.

  • Gehen Sie nicht von Kausalität aus. Korrelation ist nicht Ursächlichkeit. Erklärungen basieren auf Modellen der Daten, sind aber keine kausalen Erklärungen.

    Eine Korrelation bedeutet, dass zwischen einigen Datenvariablen, beispielsweise A und B, eine Beziehung besteht. Sie können nicht einfach anhand dieser Beziehung in den Daten erkennen, dass A B oder B A verursacht oder dass tatsächlich etwas Komplizierteres vor sich geht. Die Datenmuster sind in jedem dieser Fälle genau gleich, und ein Algorithmus kann den Unterschied zwischen den einzelnen Fällen nicht erkennen. Nur weil sich zwei Variablen zusammen zu ändern scheinen, bedeutet das nicht zwangsläufig, dass eine Variable die andere verändert. Ein dritter Faktor könnte sein, dass sie sich beide ändern. Es kann jedoch auch ein Zufall sein, und es könnte überhaupt keinen kausalen Zusammenhang geben.

    Vielleicht haben Sie jedoch Fremdwissen, das nicht in den Daten enthalten ist, das Ihnen hilft zu erkennen, was vor sich geht. Eine gängige Art von Fremdwissen wäre eine Situation, in der die Daten in einem Experiment gesammelt wurden. Wenn Sie wissen, dass B durch das Werfen einer Münze gewählt wurde, muss jedes konsistente Muster der Differenz in A (das ist nicht nur Zufallsrauschen) von B verursacht werden. Für eine längere, gründlichere Beschreibung dieser Konzepte lesen Sie bitte den Artikel Causal inference in economics and marketing(Link wird in neuem Fenster geöffnet) (Kausaler Rückschluss in Wirtschaft und Marketing) von Hal Varian.

Wie Erklärungen analysiert und bewertet werden

"Erklär die Daten" führt eine statistische Analyse auf einem Dashboard oder einem Blatt durch, um Markierungen zu finden, die Ausreißer sind, oder speziell für eine von Ihnen ausgewählte Markierung. Die Analyse berücksichtigt auch möglicherweise verwandte Datenpunkte aus der Datenquelle, die in der aktuellen Ansicht nicht dargestellt sind.

"Erklär die Daten" prognostiziert zunächst den Wert einer Markierung, wobei nur die Daten verwendet werden, die in der Visualisierung vorhanden sind. Anschließend werden Daten, die sich in der Datenquelle befinden (aber nicht in der aktuellen Ansicht), berücksichtigt und dem Modell hinzugefügt. Das Modell bestimmt den Bereich des vorhergesagten Markierungswerts, der innerhalb einer Standardabweichung vom vorhergesagten Wert liegt.

Was ist ein erwarteter Bereich?

Der erwartete Wert für eine Markierung ist der Medianwert im erwarteten Wertebereich der zugrunde liegenden Daten Ihrer Visualisierung. Der erwartete Bereich ist der Wertebereich zwischen dem 15. und 85. Perzentil, den das statistische Modell für die analysierte Markierung vorhersagt. Tableau bestimmt den erwarteten Bereich jedes Mal, wenn es eine statistische Analyse einer ausgewählten Markierung durchführt.

Mögliche Erklärungen werden anhand statistischer Modelle auf ihre Erklärungskraft hin bewertet. Für jede Erklärung vergleicht Tableau den erwarteten Wert mit dem tatsächlichen Wert.

valueBeschreibung
Höher/Niedriger als erwartetWenn eine Zusammenfassung der erwarteten Werte besagt, dass die Markierung niedriger als erwartet oder höher als erwartet ausfällt, bedeutet dies, dass der aggregierte Markierungswert außerhalb des Wertebereichs liegt, den ein statistisches Modell für die Markierung vorhersagt. Wenn eine Zusammenfassung der erwarteten Werte besagt, dass die Markierung geringfügig niedriger oder geringfügig höher als erwartet ist, aber innerhalb des natürlichen Variationsbereichs, bedeutet dies, dass der aggregierte Markierungswert innerhalb des Bereichs der vorhergesagten Markierungswerte liegt, aber niedriger oder höher als der Median ist.
Erwarteter WertWenn eine Markierung einen erwarteten Wert hat, bedeutet dies, dass ihr Wert in den erwarteten Bereich der Werte fällt, die ein statistisches Modell für die Markierung vorhersagt.
Zufällige VariationWenn die analysierte Markierung eine geringe Anzahl von Datensätzen aufweist, stehen möglicherweise nicht genügend Daten für "Erklär die Daten" zur Verfügung, um eine statistisch signifikante Erklärung zu bilden. Wenn der Wert der Markierung außerhalb des erwarteten Bereichs liegt, kann "Erklär die Daten" nicht feststellen, ob dieser unerwartete Wert durch eine zufällige Variation oder durch einen bedeutsamen Unterschied in den zugrunde liegenden Datensätzen verursacht wird.
Keine ErklärungWenn der Wert der analysierten Markierung außerhalb des erwarteten Bereichs liegt und nicht zu einem statistischen Modell passt, das für "Erklär die Daten" verwendet wird, werden keine Erklärungen generiert.

Für die Analyse verwendete Modelle

"Erklär die Daten" erstellt Modelle der Daten, um den Wert einer Markierung vorherzusagen, und bestimmt dann, ob eine Markierung für das jeweilige Modell höher oder niedriger ist als erwartet. Als nächstes betrachtet es zusätzliche Informationen, wie das Hinzufügen zusätzlicher Spalten aus der Datenquelle zur Ansicht oder das Kennzeichnen von Ausreißern auf Rekordniveau, als mögliche Erklärungen Für jede mögliche Erklärung erarbeitet Explain Data ein neues Modell und bewertet, wie unerwartet die Markierung, anhand der neuen Informationen, ist. Erklärungen werden bewertet, indem die Komplexität (wie viele Informationen aus der Datenquelle hinzugefügt werden) gegen das Ausmaß der zu erklärenden Variabilität abgewogen wird. Bessere Erklärungen sind einfacher als die Variation, die sie erklären.

 

ErklärungsartBewertung

Extremwert

Extremwerte sind aggregierte Markierungen, die Ausreißer sind, basierend auf einem Modell der visualisierten Markierungen. Die ausgewählte Markierung gilt als Extremwert, wenn sich in den Endpunkten der Verteilung der erwarteten Werte für die Daten ein Rekordwert befindet.

Ein Extremwert wird durch Vergleichen der aggregierten Markierung mit und ohne Extremwert bestimmt. Wenn die Markierung durch das Entfernen eines Wertes weniger überraschend wird, erhält sie eine höhere Punktzahl.

Wenn eine Markierung Extremwerte aufweist, bedeutet das nicht automatisch, dass Ausreißer vorhanden sind oder dass Sie diese Datensätze von der Ansicht ausschließen sollten. Diese Wahl liegt, abhängig von Ihrer Analyse, bei Ihnen. Die Erklärung besteht einfach darin, einen interessanten Extremwert in der Markierung aufzuzeigen. Zum Beispiel könnte ein falsch geschriebener Wert in einem Datensatz aufgedeckt werden, bei dem eine Banane 10 Dollar anstatt 10 Cent kostet. Oder es könnte sich herausstellen, dass ein bestimmter Verkäufer ein hervorragendes Quartal hatte.

Anzahl an Datensätzen

Die Erklärung der Anzahl der Datensätze modelliert die aggregierte Summe in Bezug auf die aggregierte Anzahl, der Durchschnittswert der Datensätze modelliert sie in Bezug auf den aggregierten Durchschnitt. Je besser das Modell die Summe erklärt, desto höher ist die Punktzahl.

Diese Erklärung beschreibt, ob die Summe interessant ist, weil die Anzahl hoch oder niedrig ist, oder weil der Durchschnitt hoch oder niedrig ist.

Durchschnittswert der Markierung

Diese Art der Erklärung wird für aggregierte Markierungen verwendet, die Summen sind. Sie erklärt, ob die Markierung mit den anderen Markierungen in Bezug auf ihre aggregierte Anzahl oder ihren Durchschnitt konsistent ist, wobei die Beziehung SUM(X) = COUNT(X) * AVG(X) beachtet wird.

Diese Erklärung beschreibt, ob die Summe interessant ist, weil die Anzahl hoch oder niedrig ist, oder weil der Durchschnitt hoch oder niedrig ist.

Beitragende Dimensionen

Diese Erklärung modelliert die Zielkennzahl der analysierten Markierung im Hinblick auf die Aufteilung auf Kategorien der nicht visualisierten Dimension. Die Analyse balanciert die Komplexität des Modells damit, wie gut die Markierung erklärt wird.

Eine unvisualisierte Dimension ist eine Dimension, die in der Datenquelle existiert, aber derzeit nicht in der Ansicht verwendet wird. Diese Art der Erklärung wird für Summen, Anzahl und Durchschnitte verwendet.

Das Modell für unvisualisierte Dimensionen wird erstellt, indem Markierungen nach den kategorischen Werten der erklärenden Spalte aufgeteilt werden und dann ein Modell mit dem Wert erstellt wird, der alle Datenpunkte in der Quellvisualisierung beinhaltet. Für jede Zeile versucht das Modell, jede der einzelnen Komponenten wiederherzustellen, die die einzelnen Markierung vorgenommen haben. Die Analyse gibt an, ob das Modell die Markierung besser vorhersagt, wenn Komponenten, die der nicht visuellen Dimension entsprechen, modelliert und dann addiert werden, im Vergleich zur Verwendung eines Modells, bei dem die Werte der nicht visuellen Dimension nicht bekannt sind.

In aggregierten Dimensionserklärungen wird untersucht, wie gut Markierungswerte ohne jegliche Konditionierung erklärt werden können. Dann sind die Modellbedingungen für die Werte für jede Spalte eine mögliche Erklärung. Die Konditionierung der Verteilung einer erklärenden Spalte sollte zu einer besseren Vorhersage führen.

Beitragende Kennzahlen

Diese Erklärung modelliert die Markierung in Bezug auf diese unvisualisierte Kennzahl, die zum Mittelwert über die visualisierten Dimensionen aggregiert wird. Eine unvisualisierte Kennzahl ist eine Kennzahl die in der Datenquelle existiert, aber derzeit nicht in der Ansicht verwendet wird.

Die Erklärung der beitragenden Kennzahlen kann eine lineare oder quadratische Beziehung zwischen der unvisualisierten Kennzahl und der Zielkennzahl aufdecken.

Vielen Dank für Ihr Feedback!Ihr Feedback wurde erfolgreich übermittelt. Vielen Dank.