De Bookshop-dataset
De Bookshop-dataset werd gemaakt voor Tableau Desktop 2020.2 om relaties te laten zien: de nieuwe datamodelleringsmogelijkheden voor het combineren van data.
De bestanden downloaden
U kunt ervoor kiezen om de onbewerkte data te downloaden en helemaal opnieuw te beginnen met het bouwen van uw eigen datamodel, of u kunt een van de vooraf gebouwde databronnen downloaden om direct aan de slag te gaan met de analyse van relaties.
- Onbewerkte data (xlsx)
- Bookshop.xlsx: de onbewerkte data als .xlsx-bestand
- BookshopLibraries.xlsx: extra bibliotheektabellen die veel-op-veel-relaties introduceren (bevat alleen de extra bibliotheektabellen)
- Verpakte databronbestanden (tdsx)
- Bookshop.tdsx: een verpakt .tdsx-bestand met de gerelateerde databron al gebouwd en enkele metadata-aanpassingen toegevoegd
- MinimalBookshop.tdsx: dezelfde tabellen als Bookshop.tdsx, maar zonder enige metadata of opschoning
- Bookshop libraries.tdsx: een verpakt .tdsx-bestand dat de bibliotheektabellen toevoegt aan Bookshop.tdsx (inclusief alle tabellen).
Verbinding maken met een gedownload .tdsx-bestand
- Open Tableau Desktop.
- Kies in het deelvenster Verbinding maken aan de linkerkant de optie Meer... onder de rubriek Naar een bestand.
- Navigeer naar de locatie waar u het .tdsx-bestand hebt gedownload en dubbelklik erop (of selecteer het en klik vervolgens op Openen).
Over de dataset
Bookshop bestaat uit 13 tabellen, op de volgende manier gecombineerd:
Opmerking: een centraal concept voor deze dataset is het idee van a boek versus een editie. Een boek is een concept met kenmerken, zoals een auteur, titel en genre. Een editie is een fysieke versie van het boek, met kenmerken, zoals formaat (hardcover, paperback), publicatiedatum en aantal pagina's.
Datawoordenboek
Sommige velden hebben wellicht wat uitleg nodig.
- Het veld Beoordeling in de beoordelingstabel heeft een schaal van 1-5, waarbij 5 hoog is.
- Het veld Formaat is een gedetailleerde uitsplitsing van het formaat. Alles behalve "Hardcover" kan als "Paperback" worden beschouwd.
- ISBN-nummer staat voor International Standard Book Number en is een unieke 13-cijferige identificatiecode die aan elke editie van een boek wordt gegeven. Het ISBN-nummer wordt weergegeven in de barcode en is gekoppeld aan de prijs.
- De velden Item-ID en Order-ID zijn hiërarchisch. Een order kan meerdere artikelen bevatten.
- Het veld Opmerking van personeel bevat samenvattingen en recensies voor sommige boeken.
Als u uw eigen databron bouwt
- De tabellen Uitgever en Verkoop moeten gerelateerd zijn aan de tabel Editie.
- De tabellen Boek en Informatie kunnen gerelateerd zijn of samengevoegd, maar dit moet wel in de berekening voorkomen
BookID = [BookID1]+[BookID2]
.- Het maken van een join binnen wordt voorgesteld.
- De tabel Serie kan alleen worden gebruikt als de tabel Informatie deel uitmaakt van de databron.
- We raden u aan de logische tabel van Boek, samen met Informatie, te hernoemen in "Boek" of iets dergelijks.
- De vier Verkoop-tabellen kunnen onafhankelijk worden geanalyseerd, maar als ze verenigd zijn, raden we aan om de vereniging te hernoemen in "Verkoop" of iets dergelijks.
- De meeste velden die worden gebruikt om relaties te vormen, zijn niet nodig voor analyse en kunnen worden verborgen zodra het datamodel is gebouwd
- Elk veld dat eindigt op ID kan worden verborgen (de enige "ID"-velden die dat wel doen zijn Review-ID en Reviewer-ID uit Beoordelingen en Item-ID en Order-ID uit Verkoop).
- Het ISBN-nummer moet, idealiter uit de tabel Editie, worden bewaard als identificatie van elke editie. Het veld ISBN-nummer in de verenigde tabel Verkoop kan verborgen zijn.
- Het veld Titel in de tabel Onderscheiding kan verborgen zijn.
- De werkblad- en tabelvelden van de Vereniging bevatten ook geen unieke informatie en kunnen worden verborgen.
- Om het datamodel te vereenvoudigen, zijn de kerntabellen Boek, Auteur en Editie. De gemakkelijkste tabellen om weg te laten met minimale impact zouden zijn Afrekentransacties en Beoordelingen, gevolgd door Onderscheiding, Uitgever, Verkoop of Informatie en Serie.
Bookshop Libraries
Het bestand BookshopLibraries.xlsx introduceert nieuwe tabellen rond bibliotheken met als doel veel-op-veel-relaties te ondersteunen. De tabel Catalogus heeft betrekking op de tabel Editie op ISBN-nummer. De tabel Bibliotheekprofielen heeft betrekking op de tabel Catalogus als een veel-op-veel-relatie (n:n) op LibraryID.
Datawoordenboek
Bibliotheekprofiel
- Het veld Bibliotheek is de naam van de bibliotheek.
- Het veld Bibliotheek-ID is een ID die ook in de tabel Catalogus wordt gebruikt.
- Het veld Consortiumlid is een ja/nee-veld dat aangeeft of de bibliotheek deel uitmaakt van het grotere netwerk van bibliotheken die interbibliothecair leenverkeer aanbieden en andere services delen
- Het veld Privé is een ja/nee-veld dat aangeeft of dit een bibliotheek is die alleen toegankelijk is voor leden of een openbare instelling
- Personeelstype en Aantal medewerkers beschrijven samen hoeveel bibliothecarissen, bibliotheekassistenten en bibliotheektechnici voor elke bibliotheek werken.
Catalogus
- Leen-ID is een unieke identificatie voor de combinatie van ISBN-nummer en bibliotheek die wordt gebruikt om het Aantal exemplaren te volgen dat een bibliotheek heeft. Als de Bibliotheek voor inactieve uren bijvoorbeeld twee paperback-exemplaren en één hardcover-exemplaar van een titel heeft, zijn er twee Leen-ID's.
- Het veld Bibliotheek-ID is een ID die ook wordt gebruikt in de tabel Bibliotheekprofiel.
De tabel Bibliotheekprofiel is oorspronkelijk opgemaakt als een niet-gedraaide tabel met een kolom voor elk personeelstype hieronder.
Bibliotheek | Bibliotheek-ID | Consortiumlid | Privé | Bibliothecarissen | Bibliotheektechnici | Bibliotheekassistenten |
Bibliotheek voor inactieve uren | L-IHL | Ja | Nee | 53 | 61 | 16 |
The Bibliophile’s Shelves | L-BS | Ja | Ja | 4 | 3 | 0 |
Armchair Athanaeum | L-AA | Nee | Ja | 6 | 0 | 0 |
Old Friend Library | L-OFL | Ja | Nee | 3 | 5 | 17 |
Bide Awhile | L-BA | Ja | Nee | 9 | 20 | 6 |
IndieUnBound | L-IUB | Ja | Nee | 7 | 2 | 47 |
Pagina Station Book Exchange | L-PS | Nee | Ja | 3 | 1 | 4 |
De tabel draaide over de kolommen Bibliothecarissen, Bibliotheektechnici en Bibliotheekassistenten. Het uiteindelijke formaat heeft een kolom voor Personeelstype en een kolom voor Aantal medewerkers. Dit betekent echter dat er voor elke bibliotheek meer dan één rij is. De Bibliotheek-ID-waarden zijn daarom niet uniek en de gedraaide versie van de tabel moet veel-op-veel gerelateerd zijn aan de tabel Catalogus.
Hoewel dit het voordeel heeft dat er een veel-op-een-relatie tussen Catalogus en Profiel mogelijk is, is dit niet ideaal voor Data structureren voor analyse(Link wordt in een nieuw venster geopend).
Verkennen
Deze dataset, hoewel fictief, ondersteunt verschillende analytische scenario's en veel onderzoek. Enkele suggesties zijn onder meer:
- Welke boeken zijn het populairst? Het minst populair? Is dat gebaseerd op verkopen, recensies, afrekentransacties of een andere statistiek?
- Wie was de jongste debuutauteur? Wie was de oudste?
- Lijken sommige uitgeverijen zich op de een of andere manier te specialiseren?
- Wat was de langste tijd tussen edities van hetzelfde boek?
- Zijn er seizoenstrends voor de verkoop? Hoe zit het met afrekentransacties? Zijn er titels of genres met seizoensschommelingen?
- Zijn er correlaties tussen afrekentransacties, afdrukformaten, beoordelingen van boekrecensies en verkoopvolume?
- Hebben de auteurs die de meeste tijd aan het schrijven hebben besteed de meest succesvolle boeken? Hebben ze het hoogste aantal pagina's?
- Wanneer worden de meeste boeken gepubliceerd? Zijn er afwijkingen?
- Zijn er trends op het gebied van genre, formaat en prijs?
- Hoe zijn de beoordelingen verdeeld? Verschillen die verdelingen per boek? Op genre? Lijken ze in lijn te zijn met onderscheidingen?
- Hoe zou u de verkoopprijs berekenen, aangezien er soms (maar niet altijd) korting wordt gegeven op het moment van de verkoop?
- Benadert de verkoop het Pareto-principe?
- Zijn er patronen in de kortingen?
- Lijken bepaalde tabellen in het bijzonder vervuilde data te bevatten?
- Etaoin Shrdlu is een verwijzing naar linotype hot-type machines. Palimpsest is een referentie voor het maken van manuscripten.
- Auteursnamen zijn afgeleid van een lijst van beroemde Amerikaanse auteurs, waarbij hun voor- en achternaam door elkaar zijn geschud.
- De publicatiedatums zijn tegenwoordig meestal op dinsdag. Dit kwam tot uiting in de data, die ervan uitgaan dat deze industriestandaard ook in het jaar 2178 geldt.
- Eén boek heeft geen recensies, afrekentransacties of verkopen.
- De data van Afrekentransacties zijn gebaseerd op werkelijke bibliotheekdata, waarbij Boek-ID’s zijn toegewezen aan titels, zodat de afrekentrends realistisch zijn.
- De data van Beoordelingen zijn gebaseerd op daadwerkelijke boekbeoordelingsdata, waarbij Boek-ID's zijn toegewezen aan titels, zodat de verdeling van de beoordelingen voor een bepaald boek reëel is.
- Het aandeel van de verkopen voor één boek versus meerdere boeken is gebaseerd op data uit de praktijk van een onafhankelijke boekwinkel.
- De data van Verkopen worden volledig gegenereerd, maar zijn gebaseerd op daadwerkelijke seizoens- en weekdagtrends voor een vakantieoord met een op toerisme gebaseerde economie (proportioneel per maand en dag van de week, en voor de voorjaarsvakantie en de wintervakanties).
- De verkoop stijgt tijdens lange weekenden en de voorjaarsvakantie.
- De verkoop is veel hoger in het weekend en het laagst op dinsdag en donderdag.
- Het hoogseizoen is de zomer tussen 4 juli en Labor Day (eerste maandag in september).
- De verkoop stijgt onmiddellijk na Thanksgiving en in de weken voorafgaand aan Kerstmis.
- De ISBN-nummers in de dataset zijn fictief, maar opgebouwd volgens de ISBN-13-principes:
- EAN—989 (niet daadwerkelijk in gebruik)
- Groepsnummer—28
- Registratie-element uitgever—variërende lengte (2-4 cijfers)
- Titelelement, variërende lengte (3-5 cijfers, afhankelijk van de lengte van het registratie-element)
- Controlecijfer, gemaakt met de modulaire rekenkundige berekening van het ISBN-13-controlecijfer
- Een van de ontwikkelaars die aan deze functie werkte, stelde een boek voor zonder edities, en de titel The Deep Grey, dus de Boek-ID eindigt met de laatste drie cijfers van zijn zakelijke telefoonnummer.
- Er staat een (opzettelijke) fout in de tabel Editie waarin twee edities van Boek-ID PA169 werden gelabeld als Palimpsest Printing, maar het ISBN-nummer geeft aan dat ze daadwerkelijk zijn gedrukt door Etaoin Shrdlu Press.
De persoon die deze dataset heeft gemaakt, had iets te veel plezier bij het maken ervan, en heeft duidelijk een diepe obsessie met boeken. Ze hoopt dat je plezier zult beleven aan de dataset en dat je hierdoor de kracht, elegantie en schoonheid van relaties in Tableau zult waarderen.