Der Bookshop-Datensatz

Der Bookshop-Datensatz wurde für Tableau Desktop 2020.2 erstellt, um Beziehungen – die neuen Datenmodellierungsfunktionen zum Kombinieren von Daten – darzustellen.

Herunterladen von Dateien

Sie haben die Wahl, die Rohdaten herunterzuladen und bei Null anzufangen, um Ihr eigenes Datenmodell zu erstellen, oder Sie können eine der vorgefertigten Datenquellen herunterladen, um direkt in die Analyse mit Beziehungen einzusteigen.

  • Rohdaten (xlsx)
    • Bookshop.xlsx: Die Rohdaten als .xlsx-Datei
    • BookshopLibraries.xlsx – weitere Bibliothekstabellen, die n:n-Beziehungen einführen (enthält nur die zusätzlichen Bibliothekstabellen)
  • Verpackte Datenquellendateien (tdsx)
    • Bookshop.tdsx: Ein .tdsx-Dateipaket mit der bereits erstellten zugehörigen Datenquelle und einigen hinzugefügten Metadatenanpassungen
    • MinimalBookshop.tdsx – die gleichen Tabellen wie Bookshop.tdsx, aber ohne Metadaten oder Bereinigung
    • Bookshop_libraries.tdsx – eine gepackte .tdsx-Datei, die die Bibliothekstabellen zu Bookshop.tdsx hinzufügt (enthält alle Tabellen).

So stellen Sie eine Verbindung zu einer heruntergeladenen .tdsx her

  1. Öffnen Sie Tableau Desktop.
  2. Wählen Sie im Bereich "Verbinden" auf der linken Seite die Option Mehr unter der Überschrift Mit einer Datei aus.
  3. Navigieren Sie zum Speicherort, an dem Sie die .tdsx heruntergeladen haben, und doppelklicken Sie darauf (oder wählen Sie sie aus, und klicken Sie dann auf "Öffnen").

Über den Datensatz

"Bookshop" besteht aus 13 Tabellen, die wie folgt kombiniert sind:

Hinweis: Das zentrale Konzept bei diesem Datensatz beruht eher auf einem Buch als auf einer Edition. Ein Buch ist ein Konzept mit Attributen wie Autor, Titel und Genre. Eine Ausgabe ist eine physische Version des Buchs mit Attributen wie Format (Hardcover, Taschenbuch), Veröffentlichungsdatum und Seitenanzahl.

Datenwörterbuch

Einige Felder müssen möglicherweise etwas näher erklärt werden.

  • Das Feld Rating (Bewertung) in der Tabelle "Ratings" (Bewertungen) verfügt über eine Skala von 1–5, wobei 5 hoch ist.
  • Das Feld Format ist eine detaillierte Aufschlüsselung des Formats. Alles andere als "Hardcover" könnte als "Paperback" angesehen werden.
  • ISBN steht für die Internationale Standardbuchnummer. Hierbei handelt es sich um eine eindeutige 13-stellige Kennung, die jeder Ausgabe eines Buchs gegeben wird. Die ISBN ist im Strichcode verschlüsselt und wird in Verbindung mit dem Strichcode für den Preis dargestellt.
  • Die Felder ItemID und OrderID sind hierarchisch. Ein Auftrag kann mehrere Elemente enthalten.
  • Das Feld Staff Comment (Mitarbeiterkommentar) enthält Zusammenfassungen und Bewertungen für einige der Bücher.

Beim Erstellen Ihrer eigenen Datenquelle

  1. Die Tabellen Publisher (Veröffentlicher) und Sales (Umsatz) müssen sich auf die Tabelle Edition (Ausgabe) beziehen.
  2.  Die Tabellen Buch und Info können in der Berechnung BookID = [BookID1]+[BookID2] verbunden oder verknüpft werden.
    • Eine innere Verknüpfung wird vorgeschlagen.
    • Die Tabelle Serien kann nur verwendet werden, wenn die Tabelle "Info" Bestandteil der Datenquelle ist.
  • optional:
    1. Wir empfehlen, die logische Tabelle eines Buches so umzubenennen, dass Name und Info dieses Buches daran ersichtlich werden (also Name verbunden mit dem "Namen des Buches" oder ähnlich).
    2. Die vier Sales-Tabellen (Verkäufe) können unabhängig analysiert werden. Wenn sie jedoch vereinigt werden, sollte die Vereinigung in "Sales" (Verkäufe) oder etwas Ähnliches umbenannt werden.
    3. Die meisten zum Erstellen von Beziehungen verwendeten Felder werden für die Analyse nicht benötigt und können ausgeblendet werden, sobald das Datenmodell erstellt wurde.
      • Jedes Feld, das auf "ID" endet, kann ausgeblendet werden (die einzigen "ID"-Felder, die dies umsetzen, sind "ReviewID" und "ReviewerID" aus "Ratings" (Bewertungen) und "ItemID" und "OrderID" aus "Sales" (Verkäufe)).
      • Die ISBN sollte, idealerweise aus der Tabelle "Edition", als ID jeder Edition beibehalten werden. Das ISBN-Feld in der Tabelle für vereinigte Verkäufe kann ausgeblendet werden.
      • Das Feld "Titel" in der Tabelle "Award" (Auszeichnung) kann ausgeblendet werden.
      • Die Blatt- und Tabellenfelder aus der Vereinigung enthalten ebenfalls keine eindeutigen Informationen und können ausgeblendet werden.
    4. Zum Vereinfachen des Datenmodells lauten die Kerntabellen Book (Buch), Author (Autor) und Edition. Die Tabellen, die am einfachsten mit minimalen Auswirkungen weggelassen werden können, sind Checkouts (Ausleihen) und Ratings (Bewertungen), gefolgt von Award (Auszeichnung), Publisher (Veröffentlicher), Sales (Umsatz) oder Info und Series (Serie).

    Bookshop Libraries

    Die Datei "BookshopLibraries.xlsx" führt neue Tabellen zu Bibliotheken ein, um n:n-Beziehungen zu unterstützen. Die Tabelle "Katalog" bezieht sich auf die Tabelle "ISBN-Ausgaben". Die Tabelle "Bibliotheksprofile" bezieht sich auf die Tabelle "Katalog" als n:n-Beziehung in "Bibliotheks-ID".

    Datenwörterbuch

    Bibliotheksprofil

    • Das Feld Bibliothek ist der Name der Bibliothek.
    • Das Feld Bibliotheks-ID ist eine ID, die auch in der Tabelle "Katalog" verwendet wird.
    • Das Feld Konsortiumsmitglied ist ein Ja/Nein-Feld, das angibt, ob die Bibliothek Teil eines größeren Netzwerks von Bibliotheken ist, die Bibliothekserweiterungen anbieten und andere Dienste gemeinsam nutzen.
    • Das Feld Privat ist ein Ja/Nein-Feld, das angibt, ob es sich um eine Bibliothek nur für Mitglieder oder eine öffentliche Einrichtung handelt.
    • Mitarbeitertyp und Mitarbeiteranzahl beschreiben zusammen, wie viele Bibliothekare, Bibliotheksassistenten und Bibliothekstechniker für jede Bibliothek arbeiten.

    Katalog

    • Leih-ID ist eine eindeutige Kennung für die Kombination von ISBN und Bibliothek, die verwendet wird, um die Anzahl der Kopien in einer Bibliothek nachzuverfolgen. Wenn die Idle Hour-Bibliothek beispielsweise über zwei Taschenbuchkopien und eine Hardcover-Kopie eines Titels verfügt, gibt es zwei "Leih-IDs".
    • Das Feld Bibliotheks-ID ist eine ID, die auch in der Tabelle "Bibliotheksprofil" verwendet wird.
    Struktur der Tabelle "Bibliotheksprofil"

    Erkunden

    Dieser Datensatz ist zwar fiktiv, unterstützt aber verschiedene analytische Szenarien und viele Erkundungen. Einige Vorschläge:

    • Welche Bücher sind am beliebtesten? Am unbeliebtesten? Basiert dies auf Verkäufen, Bewertungen, Ausleihen oder einer anderen Metrik?
    • Wer war der jüngste Debütautor? Wer war der älteste?
    • Spezialisieren sich einige Verlage in bestimmter Hinsicht?
    • Was war die längste Zeit zwischen Editionen desselben Buchs?
    • Gibt es saisonale Trends bei den Verkäufen? Wie verhält es sich mit Ausleihen? Haben Titel oder Genres saisonale Schwankungen?
    • Gibt es Korrelationen zwischen Ausleihen, Auflagenhöhe, Buchrezensionsbewertungen und Verkaufsvolumen?
    • Haben die Autoren, die am meisten Zeit mit dem Schreiben verbringen, die erfolgreichsten Bücher? Haben sie die höchste Seitenanzahl? 
    • Wann werden die meisten Bücher veröffentlicht? Gibt es Anomalien? 
    • Gibt es Trends für Genre, Format und Preis?
    • Welche Art von Verteilungen haben die Bewertungen? Unterscheiden sich diese Verteilungen je nach Buch? Nach Genre? Scheint es einen Zusammenhang mit Auszeichnungen zu geben? 
    • Wie würden Sie den Verkaufspreis berechnen angesichts der Tatsache, dass beim Verkauf manchmal (aber nicht immer) ein Rabatt gewährt wird?
    • Entspricht der Verkauf dem Paretoprinzip? 
    • Gibt es Muster bei den Rabatten? 
    • Weisen insbesondere Tabellen vermeintlich unreine Daten auf?
    Versteckte Besonderheiten im Datensatz "Bookshop"