Der Bookshop-Datensatz

Der Bookshop-Datensatz wurde für Tableau Desktop 2020.2 erstellt, um Beziehungen – die neuen Datenmodellierungsfunktionen zum Kombinieren von Daten – darzustellen.

Herunterladen von Dateien

Sie haben die Wahl, die Rohdaten herunterzuladen und bei Null anzufangen, um Ihr eigenes Datenmodell zu erstellen, oder Sie können eine der vorgefertigten Datenquellen herunterladen, um direkt in die Analyse mit Beziehungen einzusteigen.

  • Rohdaten (xlsx)
    • Bookshop.xlsx: Die Rohdaten als .xlsx-Datei
    • BookshopLibraries.xlsx – weitere Bibliothekstabellen, die n:n-Beziehungen einführen (enthält nur die zusätzlichen Bibliothekstabellen)
  • Verpackte Datenquellendateien (tdsx)
    • Bookshop.tdsx: Ein .tdsx-Dateipaket mit der bereits erstellten zugehörigen Datenquelle und einigen hinzugefügten Metadatenanpassungen
    • MinimalBookshop.tdsx – die gleichen Tabellen wie Bookshop.tdsx, aber ohne Metadaten oder Bereinigung
    • Bookshop_libraries.tdsx – eine gepackte .tdsx-Datei, die die Bibliothekstabellen zu Bookshop.tdsx hinzufügt (enthält alle Tabellen).

So stellen Sie eine Verbindung zu einer heruntergeladenen .tdsx her

  1. Öffnen Sie Tableau Desktop.
  2. Wählen Sie im Bereich "Verbinden" auf der linken Seite die Option Mehr unter der Überschrift Mit einer Datei aus.
  3. Navigieren Sie zum Speicherort, an dem Sie die .tdsx heruntergeladen haben, und doppelklicken Sie darauf (oder wählen Sie sie aus, und klicken Sie dann auf "Öffnen").

Über den Datensatz

"Bookshop" besteht aus 13 Tabellen, die wie folgt kombiniert sind:

Hinweis: Das zentrale Konzept bei diesem Datensatz beruht eher auf einem Buch als auf einer Edition. Ein Buch ist ein Konzept mit Attributen wie Autor, Titel und Genre. Eine Ausgabe ist eine physische Version des Buchs mit Attributen wie Format (Hardcover, Taschenbuch), Veröffentlichungsdatum und Seitenanzahl.

Datenwörterbuch

Einige Felder müssen möglicherweise etwas näher erklärt werden.

  • Das Feld Rating (Bewertung) in der Tabelle "Ratings" (Bewertungen) verfügt über eine Skala von 1–5, wobei 5 hoch ist.
  • Das Feld Format ist eine detaillierte Aufschlüsselung des Formats. Alles andere als "Hardcover" könnte als "Paperback" angesehen werden.
  • ISBN steht für die Internationale Standardbuchnummer. Hierbei handelt es sich um eine eindeutige 13-stellige Kennung, die jeder Ausgabe eines Buchs gegeben wird. Die ISBN ist im Strichcode verschlüsselt und wird in Verbindung mit dem Strichcode für den Preis dargestellt.
  • Die Felder ItemID und OrderID sind hierarchisch. Ein Auftrag kann mehrere Elemente enthalten.
  • Das Feld Staff Comment (Mitarbeiterkommentar) enthält Zusammenfassungen und Bewertungen für einige der Bücher.

Beim Erstellen Ihrer eigenen Datenquelle

  1. Die Tabellen Publisher (Veröffentlicher) und Sales (Umsatz) müssen sich auf die Tabelle Edition (Ausgabe) beziehen.
  2.  Die Tabellen Buch und Info können in der Berechnung BookID = [BookID1]+[BookID2] verbunden oder verknüpft werden.
    • Eine innere Verknüpfung wird vorgeschlagen.
    • Die Tabelle Serien kann nur verwendet werden, wenn die Tabelle "Info" Bestandteil der Datenquelle ist.
  • optional:
    1. Wir empfehlen, die logische Tabelle eines Buches so umzubenennen, dass Name und Info dieses Buches daran ersichtlich werden (also Name verbunden mit dem "Namen des Buches" oder ähnlich).
    2. Die vier Sales-Tabellen (Verkäufe) können unabhängig analysiert werden. Wenn sie jedoch vereinigt werden, sollte die Vereinigung in "Sales" (Verkäufe) oder etwas Ähnliches umbenannt werden.
    3. Die meisten zum Erstellen von Beziehungen verwendeten Felder werden für die Analyse nicht benötigt und können ausgeblendet werden, sobald das Datenmodell erstellt wurde.
      • Jedes Feld, das auf "ID" endet, kann ausgeblendet werden (die einzigen "ID"-Felder, die dies umsetzen, sind "ReviewID" und "ReviewerID" aus "Ratings" (Bewertungen) und "ItemID" und "OrderID" aus "Sales" (Verkäufe)).
      • Die ISBN sollte, idealerweise aus der Tabelle "Edition", als ID jeder Edition beibehalten werden. Das ISBN-Feld in der Tabelle für vereinigte Verkäufe kann ausgeblendet werden.
      • Das Feld "Titel" in der Tabelle "Award" (Auszeichnung) kann ausgeblendet werden.
      • Die Blatt- und Tabellenfelder aus der Vereinigung enthalten ebenfalls keine eindeutigen Informationen und können ausgeblendet werden.
    4. Zum Vereinfachen des Datenmodells lauten die Kerntabellen Book (Buch), Author (Autor) und Edition. Die Tabellen, die am einfachsten mit minimalen Auswirkungen weggelassen werden können, sind Checkouts (Ausleihen) und Ratings (Bewertungen), gefolgt von Award (Auszeichnung), Publisher (Veröffentlicher), Sales (Umsatz) oder Info und Series (Serie).

    Bookshop Libraries

    Die Datei "BookshopLibraries.xlsx" führt neue Tabellen zu Bibliotheken ein, um n:n-Beziehungen zu unterstützen. Die Tabelle "Katalog" bezieht sich auf die Tabelle "ISBN-Ausgaben". Die Tabelle "Bibliotheksprofile" bezieht sich auf die Tabelle "Katalog" als n:n-Beziehung in "Bibliotheks-ID".

    Datenwörterbuch

    Bibliotheksprofil

    • Das Feld Bibliothek ist der Name der Bibliothek.
    • Das Feld Bibliotheks-ID ist eine ID, die auch in der Tabelle "Katalog" verwendet wird.
    • Das Feld Konsortiumsmitglied ist ein Ja/Nein-Feld, das angibt, ob die Bibliothek Teil eines größeren Netzwerks von Bibliotheken ist, die Bibliothekserweiterungen anbieten und andere Dienste gemeinsam nutzen.
    • Das Feld Privat ist ein Ja/Nein-Feld, das angibt, ob es sich um eine Bibliothek nur für Mitglieder oder eine öffentliche Einrichtung handelt.
    • Mitarbeitertyp und Mitarbeiteranzahl beschreiben zusammen, wie viele Bibliothekare, Bibliotheksassistenten und Bibliothekstechniker für jede Bibliothek arbeiten.

    Katalog

    • Leih-ID ist eine eindeutige Kennung für die Kombination von ISBN und Bibliothek, die verwendet wird, um die Anzahl der Kopien in einer Bibliothek nachzuverfolgen. Wenn die Idle Hour-Bibliothek beispielsweise über zwei Taschenbuchkopien und eine Hardcover-Kopie eines Titels verfügt, gibt es zwei "Leih-IDs".
    • Das Feld Bibliotheks-ID ist eine ID, die auch in der Tabelle "Bibliotheksprofil" verwendet wird.
    Struktur der Tabelle "Bibliotheksprofil"

    Die Tabelle "Bibliotheksprofil" wurde ursprünglich als Nicht-Pivot-Tabelle mit einer Spalte für jeden Mitarbeitertyp formatiert.

    BibliothekBibliotheks-IDKonsortiumsmitgliedPrivatBibliothekareBibliothekstechnikerBibliotheksassistenten

    Idle Hour-Bibliothek

    L-IHLJaNein536116

    The Bibliophile’s Shelves

    L-BSJaJa430

    Armchair Athanaeum

    L-AANeinJa600
    Old Friend LibraryL-OFLJaNein3517
    Bide AwhileL-BAJaNein9206
    IndieUnBoundL-IUBJaNein7247

    Page Station Book Exchange

    L-PSNeinJa314

    Die Tabelle wurde über die Spalten "Bibliothekare", "Bibliothekstechniker" und "Bibliotheksassistenten" pivotiert. Das endgültige Format enthält eine für "Mitarbeitertyp"- und eine "Anzahl der Mitarbeiter"-Spalte. Dies bedeutet jedoch, dass es mehr als eine Zeile für jede Bibliothek gibt. Die Bibliotheks-ID-Werte sind daher nicht eindeutig, und die pivotierte Version der Tabelle muss n:n mit der Tabelle "Katalog" verknüpft sein.

    Dies hat zwar den Vorteil, dass eine n:1-Beziehung zwischen Katalog und Profil möglich ist, aber es ist keine ideale Struktur für die Datenanalyse(Link wird in neuem Fenster geöffnet).

    Erkunden

    Dieser Datensatz ist zwar fiktiv, unterstützt aber verschiedene analytische Szenarien und viele Erkundungen. Einige Vorschläge:

    • Welche Bücher sind am beliebtesten? Am unbeliebtesten? Basiert dies auf Verkäufen, Bewertungen, Ausleihen oder einer anderen Metrik?
    • Wer war der jüngste Debütautor? Wer war der älteste?
    • Spezialisieren sich einige Verlage in bestimmter Hinsicht?
    • Was war die längste Zeit zwischen Editionen desselben Buchs?
    • Gibt es saisonale Trends bei den Verkäufen? Wie verhält es sich mit Ausleihen? Haben Titel oder Genres saisonale Schwankungen?
    • Gibt es Korrelationen zwischen Ausleihen, Auflagenhöhe, Buchrezensionsbewertungen und Verkaufsvolumen?
    • Haben die Autoren, die am meisten Zeit mit dem Schreiben verbringen, die erfolgreichsten Bücher? Haben sie die höchste Seitenanzahl? 
    • Wann werden die meisten Bücher veröffentlicht? Gibt es Anomalien? 
    • Gibt es Trends für Genre, Format und Preis?
    • Welche Art von Verteilungen haben die Bewertungen? Unterscheiden sich diese Verteilungen je nach Buch? Nach Genre? Scheint es einen Zusammenhang mit Auszeichnungen zu geben? 
    • Wie würden Sie den Verkaufspreis berechnen angesichts der Tatsache, dass beim Verkauf manchmal (aber nicht immer) ein Rabatt gewährt wird?
    • Entspricht der Verkauf dem Paretoprinzip? 
    • Gibt es Muster bei den Rabatten? 
    • Weisen insbesondere Tabellen vermeintlich unreine Daten auf?
    Versteckte Besonderheiten im Datensatz "Bookshop"
    • Etaoin Shrdlu verweist auf Linotype-Setzmaschinen Palimpsest verweist auf die Manuskriptherstellung.
    • Die Autorennamen wurden aus einer Liste berühmter amerikanischer Autoren abgeleitet, deren Vor- und Nachnamen neu gemischt wurden.
    • Veröffentlichungstermine sind heute in der Regel dienstags. Dies wurde in den Daten berücksichtigt, da darin angenommen wird, dass dieser Industriestandard bis ins Jahr 2178 hinein gilt.
    • Ein Buch weist keine Bewertungen, Ausleihen oder Verkäufe auf.
    • Die Ausleihdaten basieren auf tatsächlichen Bibliotheksdaten, wobei BookIDs Titeln zugeordnet sind, sodass die Ausleihtrends real sind.
    • Die Bewertungsdaten basieren auf tatsächlichen Buchbewertungsdaten, wobei BookIDs Titeln zugeordnet sind, sodass die Verteilung der Bewertungen für ein bestimmtes Buch real ist.
    • Der Anteil der Verkäufe, die sich auf ein einzelnes Buch im Vergleich zu mehreren Büchern beziehen, basiert auf realen Daten aus einer unabhängigen Buchhandlung.
    • Die Verkaufsdaten werden vollständig generiert, basieren aber auf den tatsächlichen saisonalen und Wochentagstrends für einen Urlaubsort mit touristisch geprägter Wirtschaft (proportional nach Monat und Wochentag sowie für die Frühlings- und Winterferien). 
      • Die Verkäufe erreichen Spitzenwerte an langen Wochenenden und in den Frühlingsferien.
      • Die Verkäufe sind am Wochenende deutlich höher und an Dienstagen und Donnerstagen auf dem niedrigsten Stand.
      • Die Hauptsaison ist der Sommer zwischen dem 4. Juli und dem ersten Montag im September.
      • Die Verkäufe erreichen Spitzenwerte unmittelbar nach Thanksgiving und in den Wochen vor Weihnachten.
    • Die ISBNs im Datensatz sind fiktiv, basieren aber auf den folgenden ISBN-13-Prinzipien:
      • Präfix: 989 (wird nicht wirklich verwendet)
      • Gruppennummer: 28
      • Verlagsnummer: unterschiedliche Länge (2–4 Ziffern)
      • Titelnummer: unterschiedliche Länge (3–5 Ziffern, abhängig von der Länge des zu registrierenden Elements)
      • Prüfziffer, erstellt mit der modularen arithmetischen Berechnungsmethode für die ISBN-13-Prüfziffer
    • Einer der an diesem Feature beteiligten Entwickler schlug ein Buch ohne Editionen und den Titel The Deep Grey vor, sodass seine "BookID" mit den letzten drei Ziffern seiner Arbeitstelefonnummer endet.
    • Es gibt einen (absichtlichen) Fehler in der Tabelle "Ausgabe", bei dem zwei Ausgaben mit der Buch-ID "PA169" als Palimpsest Printing (Palimpsest-Druck) ausgewiesen wurden. Aber die ISBN zeigt, dass sie tatsächlich von der Etaoin Shrdlu Press gedruckt wurden.

    Die Person, die diesen Datensatz erstellt hat, hatte viel zu viel Spaß dabei und ist eindeutig von Büchern besessen. Sie hofft, dass Ihnen der Datensatz gefällt und dazu beiträgt, dass Sie die Leistung, Eleganz und Schönheit von Beziehungen in Tableau kennen und schätzen lernen.

    Vielen Dank für Ihr Feedback!Ihr Feedback wurde erfolgreich übermittelt. Vielen Dank.