Datauppsättningen Bookshop
Datauppsättningen Bookshop skapades för Tableau Desktop 2020.2 för att visa upp relationer – de nya datamodelleringsfunktionerna för datakombinationer.
Ladda ner filerna
Du kan ladda ner rådata och börja bygga upp en egen datamodell från grunden. Du kan också ladda ner en av de färdiga datakällorna och börja analysera med relationer direkt.
- Rådata (xlsx)
- Bookshop.xlsx – Rådata som en .xlsx-fil.
- BookshopLibraries.xlsx – Extra bibliotekstabeller som introducerar många till många-relationer (innehåller endast de extra bibliotekstabellerna).
- Paketerad datakälla (tdsx)
- Bookshop.tdsx – En paketerad .tdsx-fil med den färdiga relaterade datakällan och en del tillagda metadata-anpassningar.
- MinimalBookshop.tdsx – Samma tabeller som i Bookshop.tdsx men utan metadata eller rensning.
- Bookshop_libraries.tdsx – En paketerad .tdsx-fil som lägger till bibliotekstabellerna i Bookshop.tdsx (inkluderar alla tabeller).
Ansluta till en nedladdad .tdsx-fil
- Öppna Tableau Desktop.
- I rutan Anslut till vänster väljer du alternativet Mer … under rubriken Till en fil.
- Gå till den plats där du laddade ner .tdsx-filen och dubbelklicka på den (eller markera den och klicka på Öppna).
Om datauppsättningen
Bookshop består av 13 tabeller som är relaterade på följande sätt:

Obs! Ett centralt koncept för den här datauppsättningen är skillnaden mellan en bok (book) och en utgåva (edition). En bok är ett koncept med attribut som författare, titel och genre. En utgåva är en fysisk version av boken, med attribut som format (inbunden, pocket), utgivningsdatum och sidantal.
Dataordlista
Vissa fält kan behöva förklaras lite.
- Fältet Rating (Rankning) i tabellen Ratings (Rankningar) är en skala från 1 till 5, där 5 är högt.
- Fältet Format är en detaljerad uppdelning av formatet. Allt annat än inbunden kan anses vara pocket.
- ISBN står för International Standard Book Number och är en unik 13-siffrig identifierare för varje utgåva av en bok. ISBN representeras i streckkoden och är bundet till priset.
- Fälten ItemID (Artikel-ID) och OrderID (Order-ID) är hierarkiska. En order kan innehålla flera artiklar.
- Fältet Staff Comment (Personalkommentar) innehåller sammanfattningar och omdömen av en del av böckerna.
Om du skapar en egen datakälla
- Tabellerna Publisher (Utgivare) och Sales (Försäljning) måste vara knutna till tabellen Edition (Utgåva).
- Tabellerna Book (Bok) och Info kan relateras eller kopplas samman, men det måste göras enligt beräkningen
BookID = [BookID1]+[BookID2].- En inre koppling rekommenderas.
- Tabellen Series (Serie) kan endast användas när tabellen Info ingår i datakällan.
- Vi rekommenderar att du byter namn på den logiska tabellen där Book (Bok) har kopplats samman med Info till ”Book” eller något liknande.
- De fyra försäljningstabellerna kan analyseras oberoende av varandra, men om de förenas rekommenderar vi att du byter namn på föreningen till ”Sales” (Försäljning) eller något liknande.
- De flesta av fälten som används för att skapa relationer behövs inte för analys och kan döljas när datamodellen har skapats.
- Du kan dölja alla fält som slutar på ID. (Till exempel ”ReviewID” (Gransknings-ID) och ”ReviewerID” (Granskar-ID) från ”Ratings” (Rankning) och ”ItemID” (Artikel-ID) och ”OrderID” (Order-ID) från ”Sales” (Försäljning).)
- ISBN bör bevaras som identifierare för varje utgåva, helst från tabellen Edition (Utgåva). Fältet ISBN i den förenade tabellen Sales (Försäljning) kan döljas.
- Fältet Title (Titel) i tabellen Award (Utmärkelse) kan döljas.
- Fälten för blad och tabell från Union (Förening) innehåller inte heller unik information och kan döljas.
- För att förenkla datamodellen är grundtabellerna Book (Bok), Author (Författare) och Edition (Utgåva). De tabeller som är lättast att utelämna utan att det har någon större inverkan är Checkouts (Lån) och Ratings (Rankning), följt av Award (Utmärkelse), Publisher (Utgivare), Sales (Försäljning), Info och Series (Serie).
Bookshop Libraries (Bookshop-bibliotek)
I filen BookshopLibraries.xlsx introduceras nya tabeller kring bibliotek i syfte att stödja många-till-många-relationer. Tabellen Catalog (Katalog) relaterar till tabellen Editions (Utgåvor) när det gäller ISBN. Tabellen Library Profiles (Biblioteksprofiler) relaterar till tabellen Catalog (Katalog) som en många-till-många-relation (n:n) när det gäller LibraryID (Biblioteks-ID).

Dataordlista
Library Profile (Biblioteksprofil)
- Fältet Library (Bibliotek) är namnet på biblioteket.
- Fältet Library ID (Biblioteks-ID) innehåller ett ID som även används i tabellen Catalog (Katalog).
- Fältet Consortium Member (Konsortiummedlem) är ett ja/nej-fält som anger huruvida biblioteket ingår i ett större nätverk med bibliotek som erbjuder lån och andra tjänster mellan biblioteken.
- Fältet Private (Privat) är ett ja/nej-fält som anger huruvida detta är ett bibliotek enbart för medlemmar eller om det är en offentlig institution.
- Tillsammans beskriver Personaltyp och Antal anställda hur många bibliotekarier, biblioteksassistenter och bibliotekstekniker som arbetar på varje bibliotek.
Catalog (Katalog)
- LoandID (Lån-ID) är en unik identifierare för kombinationen av ISBN och bibliotek som används för att spåra Number of Copies (Antal kopior) som finns på ett bibliotek. Om ett bibliotek till exempel har två kopior i pocketformat och en inbunden kopia av en boktitel finns två LoadID (Lån-ID).
- Fältet Library ID (Biblioteks-ID) innehåller ett ID som även används i tabellen Library Profile (Biblioteksprofil).
Tabellen Library Profile (Biblioteksprofil) formaterades ursprungligen som en icke-pivottabell med en kolumn för varje personaltyp:
| Library (Bibliotek) | LibraryID (Biblioteks-ID) | Consortium Member (Konsortiummedlem) | Private (Privat) | Librarians (Bibliotekarier) | Library Technicians (Bibliotekstekniker) | Library Assistants (Biblioteksassistenter) |
Idle Hour Library | L-IHL | Ja | Nej | 53 | 61 | 16 |
The Bibliophile’s Shelves | L-BS | Ja | Ja | 4 | 3 | 0 |
Armchair Athanaeum | L-AA | Nej | Ja | 6 | 0 | 0 |
| Old Friend Library | L-OFL | Ja | Nej | 3 | 5 | 17 |
| Bide Awhile | L-BA | Ja | Nej | 9 | 20 | 6 |
| IndieUnBound | L-IUB | Ja | Nej | 7 | 2 | 47 |
Page Station Book Exchange | L-PS | Nej | Ja | 3 | 1 | 4 |
Pivottabell över kolumnerna Librarians (Bibliotekarier), Library Technicians (Bibliotekstekniker) och Library Assistants (Biblioteksassistenter). Det slutliga formatet innehåller en kolumn för Staff Type (Personaltyp) och en kolumn för Number of Staff (Antal anställda). Detta innebär emellertid att det finns mer än en rad för varje bibliotek. Värdena för Library ID (Biblioteks-ID) är därför inte unika, och pivotversionen av tabellen måste relateras till tabellen Catalog (Katalog) som många-till-många.
Även om detta medför att en många till en-relation kan upprättas mellan Catalog (Katalog) och Profile (Profil) är det inte någon optimal struktur för dataanalys(Länken öppnas i ett nytt fönster).
Utforska
Med den här datauppsättningen, som visserligen är påhittad, kan du få en bättre bild av olika analysscenarier och fördjupa dig ytterligare. Några förslag:
- Vilka böcker är mest populära? Minst populära? Är det grundat på försäljning, omdömen, utlåning eller något annat mätvärde?
- Vem var den yngsta debuterande författaren? Vem var den äldsta?
- Verkar det som att vissa utgivare specialiserar sig på något sätt?
- Hur lång var den längsta tiden mellan två utgåvor av samma bok?
- Följer försäljningen några säsongsbetonade trender? Gör utlåningen det? Är det några titlar eller genrer som går olika bra under olika årstider?
- Finns det någon korrelation mellan lån, antalet exemplar av utgåvan, bokrecensioner och försäljningsvolym?
- Har de författare som lägger mest tid på att skriva de mest framgångsrika böckerna? Har deras böcker högst sidantal?
- När ges de flesta böcker ut? Finns det några avvikelser?
- Finns det några trender vad gäller genre, format och pris?
- Vilka intervall har omdömena? Varierar dessa intervall beroende på bok? Beroende på genre? Stämmer de överens med utmärkelser?
- Hur beräknar du försäljningspriset, med tanke på att det ibland (men inte alltid) ges en rabatt?
- Följer försäljningen paretoprincipen?
- Finns det några mönster när det gäller rabatter?
- Verkar det som att några specifika tabeller innehåller dåliga data?
- Etaoin Shrdlu är en referens till sättmaskiner med smält bly. Palimpsest är en referens till manuskriptskapande.
- Författarnamnen hämtas från en lista över kända amerikanska författare, med för- och efternamn omvända.
- Utgivningsdatum är idag oftast på tisdagar. Detta återspeglas i data, som antar att denna industristandard gäller till år 2178.
- Det finns en bok som inte har några recensioner, som aldrig har lånats ut och som inte har några försäljningar.
- Data för Checkouts (Lån) bygger på faktiska biblioteksdata, med BookID (Bok-ID) mappat till titel, så utlåningstrenderna är verkliga.
- Data för Ratings (Rankning) bygger på faktiska bokrankningsdata, med BookID (Bok-ID) mappat till titel, så rankningsfördelningen för en given bok är verklig.
- Proportionen av försäljning av en enskild bok kontra flera böcker är baserad på verkliga data från en oberoende bokhandel.
- Försäljningsdata är helt fiktiva, men är baserade på faktiska säsongsbetonade och veckodagsgrundade trender för en stad vars ekonomi drivs av turism (proportionellt efter månad och veckodag samt för lov och helgdagar).
- Försäljningen är som högst under långhelger och lov.
- Försäljningen är mycket högre under helger och är som lägst på tisdagar och torsdagar.
- Högsäsongen är under sommaren, mellan den 4 juli och Labor Day.
- Försäljningen är som högst omedelbart efter Thanksgiving och under veckorna före jul.
- ISBN-numren i datauppsättningen är fiktiva, men har konstruerats enligt ISBN-13-principerna:
- EAN – 989 (används inte)
- Gruppnummer – 28
- Utgivarregistrant – varierande längd (2–4 siffror)
- Titelelement, varierande längd (3–5 siffror, beroende på längden på registrantelementet)
- Kontrollsiffra, skapad genom kongurensräkning av ISBN-13-kontrollsiffran
- En av utvecklarna som arbetar på den här funktionen föreslog en bok utan några utgåvor med titeln The Deep Grey, så dess BookID (Bok-ID) slutar på de tre sista siffrorna i hans telefonnummer på arbetsplatsen.
- Det finns ett (avsiktligt) fel i tabellen Edition (Utgåva), där två utgåvor av BookID (Bok-ID) PA169 etiketterades som Palimpsest Printing, men ISBN anger att de faktiskt gavs ut av Etaoin Shrdlu Press.
Personen som skapade den här datauppsättningen hade alldeles för kul och är uppenbarligen helt besatt av böcker. Hon hoppas att du tycker om datauppsättningen och att den kan få dig att uppskatta möjligheterna, elegansen och skönheten hos relationer i Tableau.
