De Boekwinkel-dataset

De Boekwinkel-dataset werd voor Tableau Desktop 2020.2 gemaakt om relaties aan te tonen: de nieuwe mogelijkheden voor datamodellering voor het combineren van data.

De bestanden downloaden

U kunt de ruwe data downloaden en helemaal vanaf nul beginnen met het samenstellen van uw eigen datamodel. U kunt ook een van de vooraf samengestelde databronnen downloaden om meteen relaties te analyseren.

  • Onbewerkte data (xlsx)
    • Bookshop.xlsx: de ruwe data als .xlsx-bestand
    • BookshopLibraries.xlsx: extra bibliotheektabellen die veel-op-veel-relaties introduceren (bevat alleen de extra bibliotheektabellen)
  • Verpakte databronbestanden (tdsx)
    • Bookshop.tdsx: een verpakt .tdsx-bestand met de gerelateerde databron al gebouwd en enkele metadata-aanpassingen toegevoegd
    • MinimalBookshop.tdsx: dezelfde tabellen als Bookshop.tdsx, maar zonder enige metadata of opschoning
    • Bookshop libraries.tdsx: een verpakt .tdsx-bestand dat de bibliotheektabellen toevoegt aan Bookshop.tdsx (inclusief alle tabellen).

Verbinding maken met een gedownload .tdsx-bestand

  1. Open Tableau Desktop.
  2. Selecteer in het deelvenster Verbinding maken aan de linkerkant de optie Meer... onder het kopje Naar een bestand.
  3. Ga naar de locatie waar u het .tdsx-bestand hebt gedownload en dubbelklik erop (of selecteer het en klik vervolgens op Openen).

Over de dataset

Boekwinkel bestaat uit 13 tabellen die op de volgende manier aan elkaar gerelateerd zijn:

Een databaseschema voor boekdata.

Opmerking: een centraal concept voor deze dataset is het idee van een boek versus een editie. Een boek is een concept met kenmerken, zoals een auteur, titel en genre. Een editie is een fysieke versie van het boek, met kenmerken, zoals formaat (hardcover, paperback), publicatiedatum en aantal pagina's.

Datawoordenboek

Sommige velden hebben wellicht wat uitleg nodig.

  • Het veld Beoordeling in de beoordelingstabel heeft een schaal van 1-5, waarbij 5 hoog is.
  • Het veld Formaat is een gedetailleerde uitsplitsing van het formaat. Alles behalve "Hardcover" kan als "Paperback" worden beschouwd.
  • ISBN-nummer staat voor International Standard Book Number en is een unieke 13-cijferige identificatiecode die aan elke editie van een boek wordt gegeven. Het ISBN-nummer wordt weergegeven in de barcode en is gekoppeld aan de prijs.
  • De velden Item-ID en Order-ID zijn hiërarchisch. Een order kan meerdere artikelen bevatten.
  • Het veld Opmerking van personeel bevat samenvattingen en recensies voor sommige boeken.

Als u uw eigen databron bouwt

  1. De tabellen Uitgever en Verkoop moeten gerelateerd zijn aan de tabel Editie.
  2.  De tabellen Boek en Informatie kunnen gerelateerd zijn of samengevoegd, maar dit moet wel in de berekening voorkomen BookID = [BookID1]+[BookID2].
    • Het maken van een join binnen wordt voorgesteld.
    • De tabel Serie kan alleen worden gebruikt als de tabel Info deel uitmaakt van de databron.
  • Optioneel:
    1. We raden u aan de logische tabel van Boek samen met Info te hernoemen in 'Boek' of iets dergelijks.
    2. De vier Verkoop-tabellen kunnen onafhankelijk worden geanalyseerd, maar als ze verenigd zijn, raden we aan om de vereniging te hernoemen in 'Verkoop' of iets dergelijks.
    3. De meeste velden die worden gebruikt om relaties te vormen, zijn niet nodig voor analyse en kunnen worden verborgen zodra het datamodel is gebouwd
      • Elk veld dat eindigt op ID kan worden verborgen. (Bijvoorbeeld ReviewID en ReviewerID bij beoordelingen en ItemID en OrderID bij verkopen.)
      • Het ISBN-nummer moet, idealiter uit de tabel Editie, worden bewaard als identificatie van elke editie. Het veld ISBN-nummer in de verenigde tabel Verkoop kan verborgen zijn.
      • Het veld Titel in de tabel Onderscheiding kan verborgen zijn.
      • De werkblad- en tabelvelden van de Vereniging bevatten ook geen unieke informatie en kunnen worden verborgen.
    4. Boek, Auteur en Editie zijn de belangrijkste tabellen voor het vereenvoudigen van het datamodel. De gemakkelijkste tabellen om weg te laten met minimale impact zijn Afrekentransacties en Beoordelingen, gevolgd door Onderscheiding, Uitgever, Verkoop of Informatie en Serie.

    Bookshop Libraries

    Het bestand BookshopLibraries.xlsx introduceert nieuwe tabellen rond bibliotheken met als doel veel-op-veel-relaties te ondersteunen. De tabel Catalogus heeft betrekking op de tabel Editie op ISBN-nummer. De tabel Bibliotheekprofielen heeft betrekking op de tabel Catalogus als een veel-op-veel-relatie (n:n) op LibraryID.

    Datawoordenboek

    Bibliotheekprofiel

    • Het veld Bibliotheek is de naam van de bibliotheek.
    • Het veld Bibliotheek-ID is een ID die ook in de tabel Catalogus wordt gebruikt.
    • Het veld Consortiumlid is een ja/nee-veld dat aangeeft of de bibliotheek deel uitmaakt van een groter netwerk van bibliotheken dat interbibliothecair leenverkeer aanbiedt en andere services deelt.
    • Het veld Privé is een ja/nee-veld dat aangeeft of deze bibliotheek een openbare instelling is of alleen toegankelijk is voor leden.
    • Personeelstype en Aantal medewerkers beschrijven samen hoeveel bibliothecarissen, bibliotheekassistenten en bibliotheektechnici voor elke bibliotheek werken.

    Catalogus

    • Leen-ID is een unieke identificatie voor de combinatie van ISBN-nummer en bibliotheek die wordt gebruikt om het Aantal exemplaren te volgen dat een bibliotheek heeft. Als de Bibliotheek voor inactieve uren bijvoorbeeld twee paperback-exemplaren en één hardcover-exemplaar van een titel heeft, zijn er twee Leen-ID's.
    • Het veld Bibliotheek-ID is een ID die ook wordt gebruikt in de tabel Bibliotheekprofiel.
    Structuur van de tabel Bibliotheekprofiel

    De tabel Bibliotheekprofiel is oorspronkelijk opgemaakt als een niet-gedraaide tabel met een kolom voor elk type medewerker:

    BibliotheekBibliotheek-IDConsortiumlidPrivéBibliothecarissenBibliotheektechniciBibliotheekassistenten

    Bibliotheek voor inactieve uren

    L-IHLjaNee536116

    The Bibliophile’s Shelves

    L-BSjaja430

    Armchair Athanaeum

    L-AANeeja600
    Old Friend LibraryL-OFLjaNee3517
    Bide AwhileL-BAjaNee9206
    IndieUnBoundL-IUBjaNee7247

    Pagina Station Book Exchange

    L-PSNeeja314

    De tabel draaide over de kolommen Bibliothecarissen, Bibliotheektechnici en Bibliotheekassistenten. Het uiteindelijke formaat heeft een kolom voor Personeelstype en een kolom voor Aantal medewerkers. Dit betekent echter dat er voor elke bibliotheek meer dan één rij is. De Bibliotheek-ID-waarden zijn daarom niet uniek en de gedraaide versie van de tabel moet veel-op-veel gerelateerd zijn aan de tabel Catalogus.

    Hoewel dit het voordeel heeft dat er een veel-op-een-relatie tussen Catalogus en Profiel mogelijk is, is het niet ideaal voor Data structureren voor analyse(Link wordt in een nieuw venster geopend).

    Verkennen

    Deze dataset, hoewel fictief, ondersteunt verschillende analytische scenario's en veel onderzoek. Enkele suggesties zijn onder meer:

    • Welke boeken zijn het populairst? Het minst populair? Is dat gebaseerd op verkopen, recensies, afrekentransacties of een andere statistiek?
    • Wie was de jongste debuutauteur? Wie was de oudste?
    • Lijken sommige uitgeverijen zich op de een of andere manier te specialiseren?
    • Wat was de langste tijd tussen edities van hetzelfde boek?
    • Zijn er seizoenstrends voor de verkoop? Hoe zit het met afrekentransacties? Zijn er titels of genres met seizoensschommelingen?
    • Zijn er correlaties tussen afrekentransacties, afdrukformaten, beoordelingen van boekrecensies en verkoopvolume?
    • Hebben de auteurs die de meeste tijd aan het schrijven hebben besteed de meest succesvolle boeken? Hebben ze het hoogste aantal pagina's? 
    • Wanneer worden de meeste boeken gepubliceerd? Zijn er afwijkingen? 
    • Zijn er trends op het gebied van genre, formaat en prijs?
    • Hoe zijn de beoordelingen verdeeld? Verschillen die verdelingen per boek? Op genre? Lijken ze in lijn te zijn met onderscheidingen? 
    • Hoe zou u de verkoopprijs berekenen, aangezien er soms (maar niet altijd) korting wordt gegeven op het moment van de verkoop?
    • Benadert de verkoop het Pareto-principe? 
    • Zijn er patronen in de kortingen? 
    • Lijken bepaalde tabellen in het bijzonder vervuilde data te bevatten?
    Boekwinkel-dataset Paaseieren
    • Etaoin Shrdlu is een verwijzing naar linotype hot-type machines. Palimpsest is een referentie voor het maken van manuscripten.
    • Auteursnamen zijn afgeleid van een lijst van beroemde Amerikaanse auteurs, waarbij hun voor- en achternaam door elkaar zijn geschud.
    • De publicatiedatums zijn tegenwoordig meestal op dinsdag. Dit kwam tot uiting in de data, die ervan uitgaan dat deze industriestandaard ook in het jaar 2178 geldt.
    • Eén boek heeft geen recensies, afrekentransacties of verkopen.
    • De data van Afrekentransacties zijn gebaseerd op werkelijke bibliotheekdata, waarbij Boek-ID’s zijn toegewezen aan titels, zodat de afrekentrends realistisch zijn.
    • De data van Beoordelingen zijn gebaseerd op daadwerkelijke boekbeoordelingsdata, waarbij Boek-ID's zijn toegewezen aan titels, zodat de verdeling van de beoordelingen voor een bepaald boek reëel is.
    • Het aandeel van de verkopen voor één boek versus meerdere boeken is gebaseerd op data uit de praktijk van een onafhankelijke boekwinkel.
    • De data van Verkopen worden volledig gegenereerd, maar zijn gebaseerd op daadwerkelijke seizoens- en weekdagtrends voor een vakantieoord met een op toerisme gebaseerde economie (proportioneel per maand en dag van de week, en voor de voorjaarsvakantie en de wintervakanties). 
      • De verkoop stijgt tijdens lange weekenden en de voorjaarsvakantie.
      • De verkoop is veel hoger in het weekend en het laagst op dinsdag en donderdag.
      • Het hoogseizoen is de zomer tussen 4 juli en Labor Day (eerste maandag in september).
      • De verkoop stijgt onmiddellijk na Thanksgiving en in de weken voorafgaand aan Kerstmis.
    • De ISBN-nummers in de dataset zijn fictief, maar opgebouwd volgens de ISBN-13-principes:
      • EAN—989 (niet daadwerkelijk in gebruik)
      • Groepsnummer—28
      • Registratie-element uitgever—variërende lengte (2-4 cijfers)
      • Titelelement, variërende lengte (3-5 cijfers, afhankelijk van de lengte van het registratie-element)
      • Controlecijfer, gemaakt met de modulaire rekenkundige berekening van het ISBN-13-controlecijfer
    • Een van de ontwikkelaars die aan deze functie werkte, stelde een boek voor zonder edities, en de titel The Deep Grey, dus de Boek-ID eindigt met de laatste drie cijfers van zijn zakelijke telefoonnummer.
    • Er staat een (opzettelijke) fout in de tabel Editie waarin twee edities van Boek-ID PA169 zijn gelabeld als Palimpsest Printing, maar het ISBN-nummer geeft aan dat ze daadwerkelijk zijn gedrukt door Etaoin Shrdlu Press.

    De persoon die deze dataset heeft gemaakt, beleefde veel plezier aan het maken ervan en heeft duidelijk een grote liefde voor boeken. Ze hoopt dat u plezier zult beleven aan de dataset en dat u hierdoor de kracht, elegantie en schoonheid van relaties in Tableau zult leren waarderen.

    Bedankt voor uw feedback.De feedback is verzonden. Dank u wel.