Insieme di dati Bookshop

L’insieme di dati Bookshop è stato creato per Tableau Desktop 2020.2 al fine di illustrare le relazioni, ovvero le nuove funzionalità di modellazione dei dati per la combinazione dei dati.

Scaricare i file

Puoi scegliere di scaricare i dati non elaborati e iniziare da zero creando un tuo modello di dati oppure scaricare una delle origini dati preimpostate per passare direttamente all’analisi con le relazioni.

  • Dati non elaborati (xlsx)
    • Bookshop.xlsx: i dati non elaborati come file .xlsx
    • BookshopLibraries.xlsx: tabelle di biblioteche aggiuntive che introducono relazioni molti-a-molti (contiene solo le tabelle aggiuntive delle biblioteche)
  • File di origine dati compressa (tdsx)
    • Bookshop.tdsx: un file .tdsx compresso con l’origine dati correlata già creata e alcune personalizzazioni dei metadati aggiunte
    • MinimalBookshop.tdsx: le stesse tabelle di Bookshop.tdsx ma senza metadati o pulizia
    • Bookshop_libraries.tdsx: un file .tdsx compresso che aggiunge le tabelle di biblioteche a Bookshop.tdsx (include tutte le tabelle).

Per connetterti a un file .tdsx scaricato

  1. Apri Tableau Desktop.
  2. Nel riquadro Connetti a sinistra scegli l’opzione Altro... sotto l’intestazione A un file.
  3. Passa al percorso in cui hai scaricato il file .tdsx e fai doppio clic su di esso (oppure selezionalo e fai clic su Apri).

Informazioni sull’insieme di dati

L’insieme di dati Bookshop è composto da 13 tabelle, combinate nel modo seguente:

Nota: un concetto centrale per questo insieme di dati è l’idea di libro rispetto a edizione. Un libro è un concetto con attributi come autore, titolo e genere. Un’edizione è una versione fisica del libro, con attributi come formato (copertina rigida o tascabile), data di pubblicazione e numero di pagine.

Dizionario dei dati

Alcuni campi potrebbero richiedere una breve spiegazione.

  • Il campo Rating (Valutazione) nella tabella Ratings (Valutazioni) è espresso in base a una scala da 1 a 5, dove 5 è il massimo.
  • Il campo Format (Formato) è una suddivisione dettagliata del formato. Tutto ciò che non è "Hardcover" (Copertina rigida) può essere considerato "Paperback" (Tascabile).
  • ISBN è l’acronimo di International Standard Book Number ed è un identificatore univoco di 13 cifre assegnato a ogni edizione di un libro. L’ISBN è rappresentato nel codice a barre ed è associato al prezzo.
  • I campi ItemID (ID articolo) e OrderID (ID ordine) sono gerarchici. Un ordine può contenere più articoli.
  • Il campo Staff Comment (Commento del personale) contiene riassunti e recensioni per alcuni libri.

Se crei una tua origine dati

  1. Le tabelle Publisher (Editore) e Sales (Vendite) devono essere correlate alla tabella Edition (Edizione).
  2.  Le tabelle Book (Libro) e Info (Informazioni) possono essere correlate o sottoposte a join, ma questo deve avvenire nel calcolo BookID = [BookID1]+[BookID2].
    • Viene suggerito un join interno.
    • La tabella Series (Serie) può essere utilizzata solo dopo che la tabella Info (Informazioni) fa parte dell’origine dati.
  • facoltativo:
    1. È consigliabile rinominare la tabella logica Book (Libro) sottoposta a join con Info (Informazioni) come "Book" ("Libro") o con un nome simile.
    2. Le quattro tabelle Sales (Vendite) possono essere analizzate in modo indipendente, ma se vengono unificate, è consigliabile rinominare l’unione come "Sales" ("Vendite") o con un nome simile.
    3. La maggior parte dei campi utilizzati per formare le relazioni non sono necessari per l’analisi e possono essere nascosti una volta che il modello di dati è stato creato.
      • Qualsiasi campo che termina con ID può essere nascosto. Gli unici campi "ID" utili sono ReviewID (ID recensione) e ReviewerID (ID recensore) in Ratings (Valutazioni) e ItemID (ID articolo) e OrderID (ID ordine) in Sales (Vendite).
      • ISBN dovrebbe essere mantenuto, idealmente dalla tabella Edition (Edizione), come identificatore di ogni edizione. Il campo ISBN nella tabella Sales (Vendite) unificata può essere nascosto.
      • Il campo Title (Titolo) nella tabella Award (Premio) può essere nascosto.
      • Anche i campi del foglio e della tabella dell’unione non contengono informazioni univoche e possono essere nascosti.
    4. Per semplificare il modello di dati, le tabelle principali sono Book (Libro), Author (Autore) ed Edition (Edizione). Le tabelle che è possibile escludere con un impatto minimo sono Checkouts (Prestiti) e Ratings (Valutazioni), seguite da Award (Premio), Publisher (Editore), Sales (Vendite) o Info (Informazioni) e Series (Serie).

    Biblioteche Bookshop

    Il file BookshopLibraries.xlsx introduce nuove tabelle basate su biblioteche allo scopo di supportare le relazioni molti-a-molti. La tabella Catalog (Catalogo) è correlata alla tabella Editions (Edizioni) in base al codice ISBN. La tabella Library Profiles (Profili biblioteca) è correlata alla tabella Catalog (Catalogo) come relazione molti-a-molti (n:n) in base a LibraryID (ID biblioteca).

    Dizionario dei dati

    Library Profile (Profilo biblioteca)

    • Il campo Library (Biblioteca) è il nome della biblioteca.
    • Il campo Library ID (ID biblioteca) è un ID utilizzato anche nella tabella Catalog (Catalogo).
    • Il campo Consortium Member (Membro consorzio) è un campo sì/no che indica se la biblioteca fa parte della più ampia rete di biblioteche che offrono prestiti interbibliotecari e condividono altri servizi
    • Il campo Private (Privata) è un campo sì/no che indica se si tratta di una biblioteca riservata agli iscritti o di un’istituzione pubblica
    • Staff Type (Tipo di personale) e Number of Staff (Numero di personale) insieme descrivono il numero di bibliotecari, assistenti di biblioteca e tecnici di biblioteca che lavorano per ogni biblioteca.

    Catalogo

    • LoanID (ID prestito) è un identificatore univoco per la combinazione di ISBN e biblioteca, utilizzato per tenere traccia del valore Number of Copies (Numero di copie) di una biblioteca. Ad esempio, se la libreria Idle Hour library dispone di due copie tascabili e di una copia con copertina rigida di un titolo, saranno presenti due ID prestito.
    • Il campo Library ID (ID biblioteca) è un ID utilizzato anche nella tabella Library Profile (Profilo biblioteca).
    Struttura della tabella Library Profile (Profilo biblioteca)

    Esplorare

    Questo insieme di dati, sebbene fittizio, supporta vari scenari analitici e diverse attività di esplorazione. Alcuni suggerimenti includono:

    • Quali sono i libri più popolari? Qual è quello meno popolare? Questa conclusione è basata sulle vendite, le recensioni, gli acquisti o un’altra metrica?
    • Qual è stato l’autore esordiente più giovane? Quale il meno giovane?
    • Alcune case editrici sembrano specializzate in qualche ambito?
    • Qual è stato il periodo più lungo tra le edizioni dello stesso libro?
    • Esistono tendenze stagionali associate alle vendite? E ai prestiti? Alcuni titoli o generi presentano fluttuazioni stagionali?
    • Esistono correlazioni tra prestiti, tirature di stampa, valutazioni delle recensioni dei libri e volume delle vendite?
    • Gli autori che impiegano più tempo per la scrittura hanno i libri di maggior successo? Hanno il numero di pagine più alto? 
    • Quando viene pubblicata la maggior parte dei libri? Vi sono anomalie? 
    • Esistono tendenze per genere, formato e prezzo?
    • Che tipo di distribuzioni hanno le valutazioni? Queste distribuzioni variano in base al libro? In base al genere? Sembrano allineate con i premi? 
    • Come si calcola il prezzo di vendita, dato che a volte (ma non sempre) viene applicato uno sconto al momento della vendita?
    • Le vendite si approssimano al principio di Pareto? 
    • Esistono modelli negli sconti? 
    • Alcune tabelle in particolare sembrano contenere dati sporchi?
    Easter Egg dell’insieme di dati Bookshop