De Bookshop-dataset
De Bookshop-dataset werd gemaakt voor Tableau Desktop 2020.2 om relaties te laten zien: de nieuwe datamodelleringsmogelijkheden voor het combineren van data.
De bestanden downloaden
U kunt ervoor kiezen om de onbewerkte data te downloaden en helemaal opnieuw te beginnen met het bouwen van uw eigen datamodel, of u kunt een van de vooraf gebouwde databronnen downloaden om direct aan de slag te gaan met de analyse van relaties.
- Onbewerkte data (xlsx)
- Bookshop.xlsx: de onbewerkte data als .xlsx-bestand
- BookshopLibraries.xlsx: extra bibliotheektabellen die veel-op-veel-relaties introduceren (bevat alleen de extra bibliotheektabellen)
- Verpakte databronbestanden (tdsx)
- Bookshop.tdsx: een verpakt .tdsx-bestand met de gerelateerde databron al gebouwd en enkele metadata-aanpassingen toegevoegd
- MinimalBookshop.tdsx: dezelfde tabellen als Bookshop.tdsx, maar zonder enige metadata of opschoning
- Bookshop libraries.tdsx: een verpakt .tdsx-bestand dat de bibliotheektabellen toevoegt aan Bookshop.tdsx (inclusief alle tabellen).
Verbinding maken met een gedownload .tdsx-bestand
- Open Tableau Desktop.
- Kies in het deelvenster Verbinding maken aan de linkerkant de optie Meer... onder de rubriek Naar een bestand.
- Navigeer naar de locatie waar u het .tdsx-bestand hebt gedownload en dubbelklik erop (of selecteer het en klik vervolgens op Openen).
Over de dataset
Bookshop bestaat uit 13 tabellen, op de volgende manier gecombineerd:
Opmerking: een centraal concept voor deze dataset is het idee van a boek versus een editie. Een boek is een concept met kenmerken, zoals een auteur, titel en genre. Een editie is een fysieke versie van het boek, met kenmerken, zoals formaat (hardcover, paperback), publicatiedatum en aantal pagina's.
Datawoordenboek
Sommige velden hebben wellicht wat uitleg nodig.
- Het veld Beoordeling in de beoordelingstabel heeft een schaal van 1-5, waarbij 5 hoog is.
- Het veld Formaat is een gedetailleerde uitsplitsing van het formaat. Alles behalve "Hardcover" kan als "Paperback" worden beschouwd.
- ISBN-nummer staat voor International Standard Book Number en is een unieke 13-cijferige identificatiecode die aan elke editie van een boek wordt gegeven. Het ISBN-nummer wordt weergegeven in de barcode en is gekoppeld aan de prijs.
- De velden Item-ID en Order-ID zijn hiërarchisch. Een order kan meerdere artikelen bevatten.
- Het veld Opmerking van personeel bevat samenvattingen en recensies voor sommige boeken.
Als u uw eigen databron bouwt
- De tabellen Uitgever en Verkoop moeten gerelateerd zijn aan de tabel Editie.
- De tabellen Boek en Informatie kunnen gerelateerd zijn of samengevoegd, maar dit moet wel in de berekening voorkomen
BookID = [BookID1]+[BookID2]
.- Het maken van een join binnen wordt voorgesteld.
- De tabel Serie kan alleen worden gebruikt als de tabel Informatie deel uitmaakt van de databron.
- We raden u aan de logische tabel van Boek, samen met Informatie, te hernoemen in "Boek" of iets dergelijks.
- De vier Verkoop-tabellen kunnen onafhankelijk worden geanalyseerd, maar als ze verenigd zijn, raden we aan om de vereniging te hernoemen in "Verkoop" of iets dergelijks.
- De meeste velden die worden gebruikt om relaties te vormen, zijn niet nodig voor analyse en kunnen worden verborgen zodra het datamodel is gebouwd
- Elk veld dat eindigt op ID kan worden verborgen (de enige "ID"-velden die dat wel doen zijn Review-ID en Reviewer-ID uit Beoordelingen en Item-ID en Order-ID uit Verkoop).
- Het ISBN-nummer moet, idealiter uit de tabel Editie, worden bewaard als identificatie van elke editie. Het veld ISBN-nummer in de verenigde tabel Verkoop kan verborgen zijn.
- Het veld Titel in de tabel Onderscheiding kan verborgen zijn.
- De werkblad- en tabelvelden van de Vereniging bevatten ook geen unieke informatie en kunnen worden verborgen.
- Om het datamodel te vereenvoudigen, zijn de kerntabellen Boek, Auteur en Editie. De gemakkelijkste tabellen om weg te laten met minimale impact zouden zijn Afrekentransacties en Beoordelingen, gevolgd door Onderscheiding, Uitgever, Verkoop of Informatie en Serie.
Bookshop Libraries
Het bestand BookshopLibraries.xlsx introduceert nieuwe tabellen rond bibliotheken met als doel veel-op-veel-relaties te ondersteunen. De tabel Catalogus heeft betrekking op de tabel Editie op ISBN-nummer. De tabel Bibliotheekprofielen heeft betrekking op de tabel Catalogus als een veel-op-veel-relatie (n:n) op LibraryID.
Datawoordenboek
Bibliotheekprofiel
- Het veld Bibliotheek is de naam van de bibliotheek.
- Het veld Bibliotheek-ID is een ID die ook in de tabel Catalogus wordt gebruikt.
- Het veld Consortiumlid is een ja/nee-veld dat aangeeft of de bibliotheek deel uitmaakt van het grotere netwerk van bibliotheken die interbibliothecair leenverkeer aanbieden en andere services delen
- Het veld Privé is een ja/nee-veld dat aangeeft of dit een bibliotheek is die alleen toegankelijk is voor leden of een openbare instelling
- Personeelstype en Aantal medewerkers beschrijven samen hoeveel bibliothecarissen, bibliotheekassistenten en bibliotheektechnici voor elke bibliotheek werken.
Catalogus
- Leen-ID is een unieke identificatie voor de combinatie van ISBN-nummer en bibliotheek die wordt gebruikt om het Aantal exemplaren te volgen dat een bibliotheek heeft. Als de Bibliotheek voor inactieve uren bijvoorbeeld twee paperback-exemplaren en één hardcover-exemplaar van een titel heeft, zijn er twee Leen-ID's.
- Het veld Bibliotheek-ID is een ID die ook wordt gebruikt in de tabel Bibliotheekprofiel.
Verkennen
Deze dataset, hoewel fictief, ondersteunt verschillende analytische scenario's en veel onderzoek. Enkele suggesties zijn onder meer:
- Welke boeken zijn het populairst? Het minst populair? Is dat gebaseerd op verkopen, recensies, afrekentransacties of een andere statistiek?
- Wie was de jongste debuutauteur? Wie was de oudste?
- Lijken sommige uitgeverijen zich op de een of andere manier te specialiseren?
- Wat was de langste tijd tussen edities van hetzelfde boek?
- Zijn er seizoenstrends voor de verkoop? Hoe zit het met afrekentransacties? Zijn er titels of genres met seizoensschommelingen?
- Zijn er correlaties tussen afrekentransacties, afdrukformaten, beoordelingen van boekrecensies en verkoopvolume?
- Hebben de auteurs die de meeste tijd aan het schrijven hebben besteed de meest succesvolle boeken? Hebben ze het hoogste aantal pagina's?
- Wanneer worden de meeste boeken gepubliceerd? Zijn er afwijkingen?
- Zijn er trends op het gebied van genre, formaat en prijs?
- Hoe zijn de beoordelingen verdeeld? Verschillen die verdelingen per boek? Op genre? Lijken ze in lijn te zijn met onderscheidingen?
- Hoe zou u de verkoopprijs berekenen, aangezien er soms (maar niet altijd) korting wordt gegeven op het moment van de verkoop?
- Benadert de verkoop het Pareto-principe?
- Zijn er patronen in de kortingen?
- Lijken bepaalde tabellen in het bijzonder vervuilde data te bevatten?