Keine Angst vor engeren Beziehungen

Aufgrund der Art der Beziehungen ist es wichtiger denn je, zu verstehen, woher Felder und deren Domäne kommen und was Nullwerte bedeuten. Denken Sie daran, dass jeder, der die Visualisierung ohne Zugriff auf die Datenquellenseite oder den Datenbereich anzeigt, auf den Titel oder andere vom Autor dargestellte Informationen angewiesen ist, um sie korrekt zu interpretieren.

Hinweis: Wenn Sie noch nicht mit den Prinzipien hinter den von Beziehungen verwendeten Datenquellen vertraut sind, kann es hilfreich sein, Keine Angst vor Beziehungen zu lesen, bevor Sie in dieses Thema eintauchen.

Warum sind nicht alle Datumsfelder gleich?

Es ist wichtig, sich daran zu erinnern, dass, nur weil zwei Feldnamen das Wort "Datum" enthalten, dies nicht bedeutet, dass der Inhalt dieser Felder identisch ist. Schauen wir uns ein Beispiel an, das mit dem Jahreswert zu tun hat. Das heißt, wir kümmern uns nicht um die Werte für Monate und Tage, sondern sind nur daran interessiert, welche Jahre die Felder abdecken.

Es gibt mehrere Felder im Der Bookshop-Datensatz mit dem Datentyp "Datum".

  • Geburtstag
  • Veröffentlichungsdatum
  • Verkaufsdatum
  • Auch "Year Won" und "Year Established" enthalten Datumsinformationen, obwohl es sich dabei um numerische Felder handelt.
    • Anmerkung: Wenn das Symbol im Datenbereich grün ist, ist dieses Feld fortlaufend. Klicken Sie mit der rechten Maustaste auf den Feldnamen im Datenbereich und wählen Sie In diskret konvertieren(Link wird in neuem Fenster geöffnet) aus. Das Symbol sollte nun blau werden. Tun Sie dies bei Bedarf sowohl für "Year Won" als auch für "Year Established".

Die Domäne – die Werte in den einzelnen Bereichen – variiert jedoch. Bringen Sie jedes Feld nacheinander in den Zeilen-Container, und sehen Sie sich die Anzahl der Markierungen in der linken unteren Ecke an, wobei jedes Feld entfernt wird, bevor das nächste Feld herausgebracht wird.

  • "YEAR(Birthday)" hat 27 Markierungen, was bedeutet, dass die Domäne 27 verschiedene Jahre enthält.
  • "YEAR([Publication Date])" hat 15 Markierungen, so dass seine Domäne aus 15 Jahren besteht.
  • "Year Won" hat 11 Markierungen
  • "Year Established" hat vier Markierungen
  • "YEAR([Sales Date])" hat eine Markierung

Es ist sehr wichtig, diesen Unterschied bei den Domänen im Auge zu behalten. Wenn wir die Ausgabe- und Auszeichungs-Tabelle auf "YEAR([Publication Date])" mit "Year Won" in Verbindung setzen, könnten wir Analysen durchführen, die eine innere Verbindung verwenden und daher auf die Jahre reduziert würden, in denen eine Auszeichnung gewonnen wurde, womit alle Bücher aus Jahren ohne Auszeichnung fallen gelassen würden. (Beachten Sie, dass dies nicht dasselbe ist wie das Herausfiltern von Büchern ohne Auszeichnungen. Nicht prämierte Bücher, die im selben Jahr wie ein ausgezeichnetes Buch veröffentlicht wurden, blieben erhalten. Alle Bücher aus Jahren ohne Auszeichnungen würden komplett fallen gelassen. Die Filteraktion aus der Verknüpfung befindet sich auf der Ebene des Jahres und nicht auf der des Buches.)

Beispiel: Veröffentlichungsdatum und Geburtstag

Wenn wir "Veröffentlichungsdatum" in Spalten und "Geburtstag" in Zeilen bringen, erhalten wir eine Tabelle mit Abc-Platzhaltern. Sie können die Arbeitsmappe herunterladen und sich diese Tabelle selbst ansehen. (Erfordert Tableau Desktop 2020.2 oder höher.)

Abc wird als Platzhalter genutzt, weil es keine anderen Daten als die Jahre gibt. Tableau hat keine Werte, mit denen Markierungen gemacht werden können, aber Abc zeigt an, wohin die Markierungen gehen könnten.

Beachten Sie, dass in dieser Tabelle viele Leerstellen vorhanden sind. Für das Publikationsjahr 2180 und den Geburtstag 2133 gibt es keine Platzhalter. Das bedeutet, dass der 2133 geborene Autor im Jahr 2180 nichts veröffentlicht hat.

Logisch. Aber warum interessiert uns das?

Stellen Sie sich vor, Sie wollten eine Analyse über die Zeit durchführen. Steigen die Hardcover-Verkäufe im Laufe der Zeit? Sie können sich Ihr Diagramm als Zeitachse vorstellen, die nur Hardcover-Formate mit "Sales(Count)" auf Zeilen und das Datum in Spalten filtert. Aber welches Datumsfeld? Veröffentlichungsdatum? Geburtstag? Verkaufsdatum? Diese Felder sind gut benannt, und es ist ziemlich offensichtlich, dass wir, wenn wir eine Frage zu den Verkäufen haben, das Verkaufsdatum verwenden sollten. Allerdings haben nicht alle Datensätze klare Namen. Wenn die Felder "Date1" und "Date3" hießen, wäre es viel schwieriger. Vor allem, wenn die Analysefrage nicht klar durchdacht ist.

Aus welcher Tabelle ein Feld stammt und was die Felddomäne darstellt, hat einen entscheidenden Einfluss auf die Analyse.

Durch Ändern des Datumsfeldes können wir die Analyse vollständig verändern. Betrachten Sie diese beiden Visualisierungen:

Die erste könnte mit "Wie viele Bücher wurden von Autoren geschrieben, die im jeweiligen Jahr geboren wurden?" interpretiert werden. Sie beantwortet Fragen wie "Haben ältere Autoren mehr Bücher geschrieben?" (Nein) oder "Autoren, die in welchem Jahr geboren wurden, sind die produktivsten?" (2155).

Das zweite könnte mit "Wie viele Bücher wurden pro Jahr veröffentlicht?" interpretiert werden. Sie beantwortet Fragen wie "In welchem Jahr wurden die meisten Bücher veröffentlicht?" (2188) oder "Ist die Buchpublikation im Laufe der Zeit stabil?" (Nein).

Es ist schwierig, die Frage für die Visualisierung zu formulieren, die "Geburtstag" verwendet, weil das eine schwierige Kombination von Konzepten ist. Aber Tableau urteilt nicht und lässt Sie fragen, was immer Sie wollen – ob Sie es wollen oder nicht. Das ist ein wichtiger Aspekt. Wenn Sie "Date3" nehmen, obwohl Sie "Date1" hätten verwenden sollen, gibt Ihnen das Tableau einen Hinweis. Aber nicht alle Datumsfelder bedeuten Dasselbe, und es ist Sache des Autors, zu wissen, welches Feld für die korrekte Analyse zu verwenden ist.

Weitere Informationen dazu, warum es wichtig ist, aus welcher Tabelle ein Feld stammt, finden Sie in diesem Blogbeitrag(Link wird in neuem Fenster geöffnet).

Was bedeuten fehlende Daten?

Es gibt einen Unterschied zwischen zero und null.

Zero bedeutet, dass wir gemessen haben und etwas nicht da ist. Wir kennen den Wert, und dieser ist zero. Wenn ich zero Strafzettel wegen Geschwindigkeitsübertretungen habe, fahre ich offenbar nicht zu schnell.

  • Anmerkung: 0 und 1 werden häufig synonym mit "Wahr"/"Falsch" oder anderen binomischen Werten wie "Ja"/"Nein" oder "Bestanden"/"Nicht bestanden" verwendet. In diesem Fall wird zero als Beschriftung und nicht als numerischer Wert verwendet.

Null bedeutet, dass wir etwas nicht wissen: Wir haben die Daten nicht gemessen oder nicht erfasst. Wenn es auf meinem Punktekonto nur keine Einträge wegen Geschwindigkeitsübertretungen gibt, wissen wir noch nicht, ob ich zu schnell fahre oder nicht.

Null kann entweder fehlende oder nicht existente Daten darstellen.

  • Wenn der Wert für die Anzahl der Strafzettel für Geschwindigkeitsübertretungen auf meinem Punktekonto null ist, ist es denkbar, dass ich einen Strafzettel habe, der nicht registriert wurde. Wir können davon ausgehen, dass Daten fehlen.
  • Nicht vorhandene Daten könnten als "Keine Angabe" aufgezeichnet werden, werden aber oft einfach nicht aufgezeichnet, weil wir unmögliche Dinge nicht verfolgen müssen. Wie viele Strafzettel wegen Geschwindigkeitsübertretungen habe ich beim Busfahren bekommen? Diese Daten sind wahrscheinlich nicht im Datensatz vorhanden. In einer Matrix aus "Transportarten" und "Strafzettel wegen Geschwindigkeitsübertretungen" gibt es Kombinationen, die einfach keinen Sinn ergeben. Wir können davon ausgehen, dass Daten nicht existent sind.

Wenn Nullen Bedeutung haben

Es braucht Kenntnis der Daten, um erkennen zu können, ob eine Null wirklich "unbekannt" bedeutet (mangelnde Informationen über die Anzahl der Geschwindigkeitsüberschreitungen) oder ob sie nicht vorhandene Daten darstellt (mangelnde Informationen über Strafzettel wegen Geschwindigkeitsübertretungen als Buspassagier). Sind die Daten vertrauenswürdig genug, dass ein Mangel an Informationen eher als nicht existente Daten als als fehlende Daten angesehen werden kann? Bei ausreichendem Sachverstand können Nullen sinnvoll sein.

Wenn wir uns die Tabelle von Abcs noch einmal ansehen,sollten wir die Leerstellen ohne Platzhalter analysieren. Wir gehen davon aus, dass diese Daten zuverlässig sind und ein Nullwert bedeutet, dass die Daten eher nicht existent als unvollständig sind.

Das Fehlen eines Platzhalters bedeutet, dass ein Autor in diesem Jahr geboren wurde (also gibt es die Zeile), und ein Buch wurde in jenem Jahr veröffentlicht (also gibt es die Spalte), aber das veröffentlichte Buch wurde nicht von einem Autor geschrieben, der in diesem Jahr geboren wurde (also ist die Zelle leer). Wir können dieser Leerstelle sinnvollerweise eine Beschriftung zuweisen: Nichts veröffentlicht. Wir könnten sogar Analysen zu diesen Nullen durchführen – zum Beispiel wie viele Jahre entsprechend den in den Daten vorhandenen Datumsangaben für jeden Autor verstrichen sind, ohne ein Buch zu veröffentlichen.

Hinweis: Es gibt auch Lücken in der Domäne für die Geburtstage. In den Jahren 2131 und 2132 wurden keine Autoren geboren, darum geht Jahr direkt von 2130 zu 2133 (die Zeilen für 2131 und 2132 existieren nicht). Diese fehlenden Jahre können so interpretiert werden, dass "keine Bücher in diesem Datensatz Autoren hatten, die in jenen Jahren geboren wurden". Wie oben bei der Diskussion über die Domäne der Datumsfelder erwähnt, ist die Tatsache, dass es in der Domäne fehlende Werte gibt, eine wichtige Information, die beim Aufbau von Beziehungen oder bei der Auswahl, welches Feld für eine Kopfzeile oder Achse in einer Visualisierung zu verwenden ist, berücksichtigt werden muss.

Weitere Informationen zum Arbeiten mit Nullen in Beziehungen finden Sie in diesem Blogbeitrag(Link wird in neuem Fenster geöffnet).

Praktische Übungen

Geben Sie jeder Visualisierung einen Titel. Können Sie in einfacher Sprache beschreiben, was geschieht? Laden Sie die Arbeitsmappe herunter, um die Direktvisualisierungen anzusehen. (Diese Arbeitsmappe verwendet eine leicht optimierte Version des Der Bookshop-Datensatz und nur zwei Tabellen. Die Datumsfelder wurden so angepasst, dass sie als verbundenes Feld verwendet werden können.)

So lesen Sie die Matrix der Visualisierungen: 

  • Die Balken zeigen die Anzahl der Ausgaben (lila) und die Anzahl der Auszeichnungen (grün) pro Jahr.
  • Jede Spalte hat für die Achse ein anderes Datumsfeld. Die linke Spalte ist das Veröffentlichungsjahr aus der Tabelle "Ausgabe", die mittlere Spalte ist "Year Won" aus der Tabelle "Auszeichnung" und die rechte Spalte ist ein berechnetes Feld, das das Veröffentlichungsdatum verwendet, aber wenn dieses Feld null ist, wird "Year Won" verwendet (diese Berechnung wird verwendet, um sicherzustellen, dass beide Domänen vollständig dargestellt werden).
  • Jede Zeile stellt eine andere Beziehung für die Kombination der Tabellen "Auszeichnung" und "Ausgabe" dar. Die obere Zeile bezieht die Tabellen auf Buch-ID, die mittlere Zeile auf Jahr und die untere Zeile auf Buch-ID und Jahr.
  • Die Balken für das Jahr 2183 sind dicker, um den Vergleich zu erleichtern. In der folgenden Lösung ist dies das Jahr, dessen Werte im Detail betrachtet werden.
  • Beachten Sie, dass die beiden schattierten Visualisierungen identische Werte aufweisen.

Wenn Sie stecken bleiben

Gehen Sie Schritt für Schritt durch jeden Teil des Visualisierung. Sehen Sie sich die Datenquellenstruktur, die Achse und die Kopfzeilen sowie die Felder an, die für die Markierungen verwendet werden (und aus welchen Tabellen sie stammen). Denken Sie über die Nullen nach und darüber, warum sie dort stehen. Zeigen Sie sich die Daten für eine bestimmte oder zwei Markierungen an, um zu sehen, welche Datensätze darin enthalten sind.

  • Die Datenquelle ist "Auszeichnungen" im Zusammenhang mit "Ausgaben" auf Buch-ID.
  • Die Datumsachse ist das Veröffentlichungsjahr
  • Die Werte sind die Anzahl der Auszeichnungen und die Anzahl der Ausgaben.

Versuchen Sie, eine einzelne Markierung in der Visualisierung auszuwählen und zu definieren. Für das Jahr 2183 zeigt die Visualisierung sieben Ausgaben und drei Auszeichnungen. Verwenden Sie Anzeigen von zugrunde liegenden Daten, um zu untersuchen, welche Datensätze in jeder Markierung dargestellt werden.

Ausgaben

Auszeichnungen

Zusammengenommen kann dies so interpretiert werden: "Gib die sieben im Jahr 2183 erschienenen Bücher und dann alle Preise aus, die sie gewonnen haben, unabhängig davon, wann sie den Preis gewonnen haben". TM925 wurde ursprünglich im Jahr 2179 veröffentlicht, und die Hardcover-Ausgabe gewann zwei Auszeichnungen in jenem Jahr. Im Jahr 2183 wurde eine weitere Ausgabe des Buches veröffentlicht, vielleicht als Taschenbuch. Der Wert für die Anzahl an Preisen ist an das Buch gebunden, nicht an das Jahr.

Das heißt, die Gesamtvisualisierung könnte interpretiert werden als "die Anzahl der jährlich veröffentlichten Ausgaben und die Anzahl der Auszeichnungen, die die in diesem Jahr veröffentlichten Bücher gewonnen haben" oder "die Anzahl der jährlich veröffentlichten Ausgaben und die Anzahl der Auszeichnungen, die diese Bücher gewonnen haben".

Lösung für die praktische Übung

Das Jahr 2183 – die dickeren Balken – ist das Jahr, auf das sich die Interpretation konzentriert. Die Informationen über die Ausgaben sind lila und die Informationen über Auszeichnungen grün. Das Jahr 2187 wird auch in den Beschreibungen aufgeführt, weil es ein Jahr ist, in dem keine Auszeichnungen gewonnen, aber Bücher veröffentlicht wurden. Daher ist es ein gutes Beispiel für die Bedeutung, die das Datumsfeld für die Achse hat. Dies wird in der Beschreibung blau dargestellt. Die Bedeutung des Feldes, das zum Einrichten der Beziehung verwendet wird, wird in rosa dargestellt.

Dieses visuelle Element dient der besseren Übersicht, aber noch besser ist es, die Arbeitsmappe herunterzuladen und sie in Tableau Desktop 2020.2 oder höher zu öffnen, damit Sie Interaktivitäten wie QuickInfos und Daten anzeigen nutzen können. Wenn Sie die Blätter genauer betrachten möchten, können Sie mit der rechten Maustaste unten auf die Registerkarte "Dashboard" klicken und "Alle Blätter einblenden" auswählen. Dadurch werden alle einzelnen Visualisierungen verfügbar, und von jedem Blatt aus können Sie den Datenbereich und die Erstellungsumgebung sehen, einschließlich der Felder in den unterschiedlichen Containern. Beachten Sie, dass es drei verschiedene Datenquellen gibt, um die drei Beziehungen (die Zeilen der obigen Matrix) zu erreichen.

Verwandte Ressourcen

Fühlen Sie sich ein bisschen überfordert und möchten einen Schritt zurück gehen? Sehen Sie sich Keine Angst vor Beziehungen an.

Sind Sie bereit, Berechnungen mit Beziehungen anzugehen? Sehen Sie sich auch Keine Angst vor Berechnungen in Beziehungen an.

Weitere Informationen zu den technischen Grundlagen von Beziehungen direkt vom Produktmanagement-Team finden Sie in der Serie über Beziehungen im Tableau-Blog.

Sehen Sie sich auch Video-Podcasts zu Beziehungen von Action Analytics(Link wird in neuem Fenster geöffnet) an, z. B. Why did Tableau Invent Relationships?(Link wird in neuem Fenster geöffnet). Klicken Sie in der Bibliothek(Link wird in neuem Fenster geöffnet) auf "Video-Podcast", um mehr Inhalte anzuzeigen.

Vielen Dank für Ihr Feedback!Ihr Feedback wurde erfolgreich übermittelt. Vielen Dank.