Datauppsättningen Bookshop

Datauppsättningen Bookshop skapades för Tableau Desktop 2020.2 för att visa upp relationer – de nya datamodelleringsfunktionerna för datakombinationer.

Ladda ner filerna

Du kan välja att ladda ner rådata och bygga upp en egen datamodell från grunden eller ladda ner en av de färdiga datakällorna och hoppa direkt in i analyser med relationer.

  • Rådata (xlsx)
    • Bookshop.xlsx – Rådata som en .xlsx-fil
    • BookshopLibraries.xlsx – Ytterligare bibliotekstabeller som introducerar många-till-många-relationer (innehåller endast ytterligare bibliotekstabeller)
  • Paketerad datakälla (tdsx)
    • Bookshop.tdsx – En paketerad .tdsx-fil med den berörda datakällan redan skapad och en del metadata-anpassningar tillagda
    • MinimalBookshop.tdsx – Samma tabeller som i Bookshop.tdsx men utan några metadata eller rensningar
    • Bookshop_libraries.tdsx – En paketerad .tdsx-fil som lägger till bibliotekstabellerna till Bookshop.tdsx (innehåller alla tabeller).

Ansluta till en nedladdad .tdsx-fil

  1. Öppna Tableau Desktop.
  2. I rutan Anslut till vänster väljer du alternativet Mer … under rubriken Till en fil.
  3. Navigera till platsen där du laddade ner .tdsx-filen och dubbelklicka på den (eller markera den och klicka på Öppna).

Om datauppsättningen

Bookshop består av 13 tabeller, kombinerade på följande sätt:

Obs! Ett centralt koncept för den här datauppsättningen är skillnaden mellan en bok och en utgåva. En bok är ett koncept med attribut som författare, titel och genre. En utgåva är en fysisk version av boken, med attribut som format (inbunden, pocket), utgivningsdatum och sidantal.

Dataordlista

Vissa fält kan behöva förklaras lite.

  • Fältet Rankning i tabellen Rankningar är en skala från 1 till 5, där 5 är högt.
  • Fältet Format är en detaljerad uppdelning av formatet. Allt annat än ”Inbunden” kan anses vara ”Pocket”.
  • ISBN står för International Standard Book Number och är en unik 13-siffrig identifierare för varje utgåva av en bok. ISBN representeras i streckkoden och är bundet till priset.
  • Fälten ItemID och OrderID är hierarkiska. En order kan innehålla flera artiklar.
  • Fältet Personalkommentar innehåller sammanfattningar och omdömen av en del av böckerna.

Om du skapar en egen datakälla

  1. Tabellerna Utgivare och Försäljning måste vara knutna till tabellen Utgåva.
  2.  Tabellerna Bok och Info kan relateras eller kopplas samman, men det måste göras enligt beräkningen BookID = [BookID1]+[BookID2].
    • En inre koppling rekommenderas.
    • Tabellen Serie kan endast användas när tabellen Info är del av datakällan.
  • valfritt:
    1. Vi rekommenderar att du byter namn på den logiska tabellen där Bok har kopplats samman med Info till ”Bok” eller något liknande.
    2. De fyra försäljningstabellerna kan analyseras oberoende av varandra, men om de förenas rekommenderar vi att du byter namn på föreningen till ”Försäljning” eller något liknande.
    3. De flesta av fälten som används för att skapa relationer behövs inte för analys och kan döljas när datamodellen har skapats
      • Ett fält som slutar på ID kan döljas (de enda ”ID”-fält som gör det är ”ReviewID” och ”ReviewerID” från ”Ratings” (omdömen) samt ”ItemID” och ”OrderID” från ”Sales” (försäljning).
      • ISBN bör bevaras som identifierare för varje utgåva, helst från tabellen Utgåva. Fältet ISBN i den förenade tabellen Försäljning kan döljas.
      • Fältet Titel i tabellen Beviljande kan döljas.
      • Fälten för blad och tabell från Förening innehåller inte heller unik information och kan döljas.
    4. För att förenkla datamodellen är grundtabellerna Bok, Författare och Utgåva. De tabeller som är lättast att utelämna utan att det har någon större inverkan är Kassa och Omdömen, följt av Utmärkelser, Utgivare, Försäljning, Info och Serie.

    Bookshop-bibliotek

    I filen BookshopLibraries.xlsx introduceras nya tabeller kring bibliotek i syfte att stödja många-till-många-relationer. Tabellen Katalog relaterar till tabellen Utgåvor när det gäller ISBN. Tabellen Biblioteksprofiler relaterar till tabellen Katalog som en många-till-många-relation (n:n) när det gäller Biblioteks-ID.

    Dataordlista

    Biblioteksprofil

    • Fältet Bibliotek är namnet på biblioteket.
    • Fältet Biblioteks-ID innehåller ett ID som även används i tabellen Katalog.
    • Fältet Konsortiummedlem är ett ja/nej-fält som anger huruvida biblioteket är del av ett större nätverk av bibliotek som erbjuder lån och andra tjänster mellan biblioteken.
    • Fältet Privat är ett ja/nej-fält som anger huruvida detta är ett bibliotek enbart för medlemmar eller om det är en offentlig institution.
    • Tillsammans beskriver Personaltyp och Antal anställda hur många bibliotekarier, biblioteksassistenter och bibliotekstekniker som arbetar på varje bibliotek.

    Katalog

    • Lån-ID är en unik identifierare för kombinationen av ISBN och bibliotek som används för att spåra antalet kopior som finns på ett bibliotek. Om ett bibliotek till exempel har två kopior i pocketformat och en inbunden kopia av en boktitel finns två Lån-ID.
    • Fältet Biblioteks-ID innehåller ett ID som även används i tabellen Biblioteksprofil.
    Struktur för tabellen Biblioteksprofil

    Tabellen Biblioteksprofil formaterades ursprungligen som en icke-pivottabell med en kolumn för varje personaltyp.

    BibliotekBiblioteks-IDKonsortiummedlemPrivatBibliotekarierBiblioteksteknikerBiblioteksassistenter

    Idle Hour Library

    L-IHLJaNej536116

    The Bibliophile’s Shelves

    L-BSJaJa430

    Armchair Athanaeum

    L-AANejJa600
    Old Friend LibraryL-OFLJaNej3517
    Bide AwhileL-BAJaNej9206
    IndieUnBoundL-IUBJaNej7247

    Page Station Book Exchange

    L-PSNejJa314

    Pivottabell över kolumnerna Bibliotekarier, Bibliotekstekniker och Biblioteksassistenter. Det slutliga formatet innehåller en kolumn för Personaltyp och en kolumn för Antal anställda. Detta innebär emellertid att det finns mer än en rad för varje bibliotek. Värdena för Biblioteks-ID är därför inte unika, och pivotversionen av tabellen måste relateras till tabellen Katalog som många-till-många.

    Även om detta medför att en många-till-en-relation kan upprättas mellan Katalog och Profil är det inte en optimal struktur för dataanalys(Länken öppnas i ett nytt fönster).

    Utforska

    Även om denna datauppsättning är påhittad så understödjer den olika analysscenarier och ger möjlighet åt mycket utforskning. Några förslag:

    • Vilka böcker är mest populära? Minst populära? Är det grundat på försäljning, omdömen, kassan eller något annat mätvärde?
    • Vem var den yngsta debuterande författaren? Vem var den äldsta?
    • Verkar det som att vissa utgivare specialiserar sig på något sätt?
    • Hur lång var den längsta tiden mellan två utgåvor av samma bok?
    • Följer försäljningen några säsongsbetonade trender? Gör kassan det? Är det några titlar eller genrer som går olika bra under olika årstider?
    • Finns det någon korrelation mellan kassan, antalet exemplar av utgåvan, bokrecensioner och försäljningsvolym?
    • Har de författare som lägger mest tid på att skriva de mest framgångsrika böckerna? Har deras böcker högst sidantal? 
    • När ges de flesta böcker ut? Finns det några avvikelser? 
    • Finns det några trender vad gäller genre, format och pris?
    • Vilka intervall har omdömena? Varierar dessa intervall beroende på bok? Beroende på genre? Stämmer de överens med utmärkelser? 
    • Hur beräknar du försäljningspriset, med tanke på att det ibland (men inte alltid) ges en rabatt?
    • Följer försäljningen paretoprincipen? 
    • Finns det några mönster när det gäller rabatter? 
    • Verkar det som att några specifika tabeller innehåller dåliga data?
    Intressanta fakta om datauppsättningen Bookshop
    • Etaoin Shrdlu är en referens till sättmaskiner med smält bly. Palimpsest är en referens till manuskriptskapande.
    • Författarnamnen hämtas från en lista över kända amerikanska författare, med för- och efternamn omvända.
    • Utgivningsdatum är idag oftast på tisdagar. Detta återspeglas i data, som antar att denna industristandard gäller till år 2178.
    • Det finns en bok som inte har några recensioner, som inte lagts i kassan och som inte har några försäljningar.
    • Kassadata baseras på faktiska biblioteksdata, med Bok-ID mappad till titlar, så kassatrenderna är verkliga.
    • Rankningsdata är baserade på faktiska bokrankningsdata, med Bok-ID mappade till titlar, så rankningen för en given bok är verklig.
    • Proportionen av försäljning av en enskild bok kontra flera böcker är baserad på verkliga data från en oberoende bokhandel.
    • Försäljningsdata är helt fiktiva, men är baserade på faktiska säsongsbetonade och veckodagsgrundade trender för en stad vars ekonomi drivs av turism (proportionellt efter månad och veckodag samt för lov och helgdagar). 
      • Försäljningen pikar under långhelger och lov.
      • Försäljningen är mycket högre under helger och är som lägst på tisdagar och torsdagar.
      • Högsäsongen är under sommaren, mellan den 4 juli och Labor Day.
      • Försäljningen pikar omedelbart efter Thanksgiving och under veckorna före jul.
    • ISBN-numren i datauppsättningen är fiktiva, men har konstruerats enligt ISBN-13-principerna:
      • EAN – 989 (används inte)
      • Gruppnummer – 28
      • Utgivarregistrant – varierande längd (2–4 siffror)
      • Titelelement, varierande längd (3–5 siffror, beroende på längden på registrantelementet)
      • Kontrollsiffra, skapad genom kongurensräkning av ISBN-13-kontrollsiffran
    • En av utvecklarna som arbetar på den här funktionen föreslog en bok utan några utgåvor med titeln The Deep Grey, så dess Bok-ID slutar på de tre sista siffrorna i hans telefonnummer på arbetsplatsen.
    • Det finns ett (avsiktligt) fel i tabellen Utgåva, där två utgåvor av Bok-ID PA169 etiketterades som Palimpsest Printing, men ISBN indikerar att de faktiskt gavs ut av Etaoin Shrdlu Press.

    Personen som skapade den här datauppsättningen hade alldeles för kul och är uppenbarligen helt besatt av böcker. Hon hoppas att du tycker om datauppsättningen och att den bidrar till ökad uppskattning för kraften, elegansen och skönheten i relationer i Tableau.

    Tack för din feedback!Din feedback har skickats in. Tack!