Insieme di dati Bookshop
L’insieme di dati Bookshop è stato creato per Tableau Desktop 2020.2 al fine di illustrare le relazioni, ovvero le nuove funzionalità di modellazione dei dati per la combinazione dei dati.
Scaricare i file
Puoi scegliere di scaricare i dati non elaborati e iniziare da zero creando un tuo modello di dati oppure scaricare una delle origini dati preimpostate per passare direttamente all’analisi con le relazioni.
- Dati non elaborati (xlsx)
- Bookshop.xlsx: i dati non elaborati come file .xlsx
- BookshopLibraries.xlsx: tabelle di biblioteche aggiuntive che introducono relazioni molti-a-molti (contiene solo le tabelle aggiuntive delle biblioteche)
- File di origine dati compressa (tdsx)
- Bookshop.tdsx: un file .tdsx compresso con l’origine dati correlata già creata e alcune personalizzazioni dei metadati aggiunte
- MinimalBookshop.tdsx: le stesse tabelle di Bookshop.tdsx ma senza metadati o pulizia
- Bookshop_libraries.tdsx: un file .tdsx compresso che aggiunge le tabelle di biblioteche a Bookshop.tdsx (include tutte le tabelle).
Per connetterti a un file .tdsx scaricato
- Apri Tableau Desktop.
- Nel riquadro Connetti a sinistra scegli l’opzione Altro... sotto l’intestazione A un file.
- Passa al percorso in cui hai scaricato il file .tdsx e fai doppio clic su di esso (oppure selezionalo e fai clic su Apri).
Informazioni sull’insieme di dati
L’insieme di dati Bookshop è composto da 13 tabelle, combinate nel modo seguente:
Nota: un concetto centrale per questo insieme di dati è l’idea di libro rispetto a edizione. Un libro è un concetto con attributi come autore, titolo e genere. Un’edizione è una versione fisica del libro, con attributi come formato (copertina rigida o tascabile), data di pubblicazione e numero di pagine.
Dizionario dei dati
Alcuni campi potrebbero richiedere una breve spiegazione.
- Il campo Rating (Valutazione) nella tabella Ratings (Valutazioni) è espresso in base a una scala da 1 a 5, dove 5 è il massimo.
- Il campo Format (Formato) è una suddivisione dettagliata del formato. Tutto ciò che non è "Hardcover" (Copertina rigida) può essere considerato "Paperback" (Tascabile).
- ISBN è l’acronimo di International Standard Book Number ed è un identificatore univoco di 13 cifre assegnato a ogni edizione di un libro. L’ISBN è rappresentato nel codice a barre ed è associato al prezzo.
- I campi ItemID (ID articolo) e OrderID (ID ordine) sono gerarchici. Un ordine può contenere più articoli.
- Il campo Staff Comment (Commento del personale) contiene riassunti e recensioni per alcuni libri.
Se crei una tua origine dati
- Le tabelle Publisher (Editore) e Sales (Vendite) devono essere correlate alla tabella Edition (Edizione).
- Le tabelle Book (Libro) e Info (Informazioni) possono essere correlate o sottoposte a join, ma questo deve avvenire nel calcolo
BookID = [BookID1]+[BookID2]
.- Viene suggerito un join interno.
- La tabella Series (Serie) può essere utilizzata solo dopo che la tabella Info (Informazioni) fa parte dell’origine dati.
- È consigliabile rinominare la tabella logica Book (Libro) sottoposta a join con Info (Informazioni) come "Book" ("Libro") o con un nome simile.
- Le quattro tabelle Sales (Vendite) possono essere analizzate in modo indipendente, ma se vengono unificate, è consigliabile rinominare l’unione come "Sales" ("Vendite") o con un nome simile.
- La maggior parte dei campi utilizzati per formare le relazioni non sono necessari per l’analisi e possono essere nascosti una volta che il modello di dati è stato creato.
- Qualsiasi campo che termina con ID può essere nascosto. Gli unici campi "ID" utili sono ReviewID (ID recensione) e ReviewerID (ID recensore) in Ratings (Valutazioni) e ItemID (ID articolo) e OrderID (ID ordine) in Sales (Vendite).
- ISBN dovrebbe essere mantenuto, idealmente dalla tabella Edition (Edizione), come identificatore di ogni edizione. Il campo ISBN nella tabella Sales (Vendite) unificata può essere nascosto.
- Il campo Title (Titolo) nella tabella Award (Premio) può essere nascosto.
- Anche i campi del foglio e della tabella dell’unione non contengono informazioni univoche e possono essere nascosti.
- Per semplificare il modello di dati, le tabelle principali sono Book (Libro), Author (Autore) ed Edition (Edizione). Le tabelle che è possibile escludere con un impatto minimo sono Checkouts (Prestiti) e Ratings (Valutazioni), seguite da Award (Premio), Publisher (Editore), Sales (Vendite) o Info (Informazioni) e Series (Serie).
Biblioteche Bookshop
Il file BookshopLibraries.xlsx introduce nuove tabelle basate su biblioteche allo scopo di supportare le relazioni molti-a-molti. La tabella Catalog (Catalogo) è correlata alla tabella Editions (Edizioni) in base al codice ISBN. La tabella Library Profiles (Profili biblioteca) è correlata alla tabella Catalog (Catalogo) come relazione molti-a-molti (n:n) in base a LibraryID (ID biblioteca).
Dizionario dei dati
Library Profile (Profilo biblioteca)
- Il campo Library (Biblioteca) è il nome della biblioteca.
- Il campo Library ID (ID biblioteca) è un ID utilizzato anche nella tabella Catalog (Catalogo).
- Il campo Consortium Member (Membro consorzio) è un campo sì/no che indica se la biblioteca fa parte della più ampia rete di biblioteche che offrono prestiti interbibliotecari e condividono altri servizi
- Il campo Private (Privata) è un campo sì/no che indica se si tratta di una biblioteca riservata agli iscritti o di un’istituzione pubblica
- Staff Type (Tipo di personale) e Number of Staff (Numero di personale) insieme descrivono il numero di bibliotecari, assistenti di biblioteca e tecnici di biblioteca che lavorano per ogni biblioteca.
Catalogo
- LoanID (ID prestito) è un identificatore univoco per la combinazione di ISBN e biblioteca, utilizzato per tenere traccia del valore Number of Copies (Numero di copie) di una biblioteca. Ad esempio, se la libreria Idle Hour library dispone di due copie tascabili e di una copia con copertina rigida di un titolo, saranno presenti due ID prestito.
- Il campo Library ID (ID biblioteca) è un ID utilizzato anche nella tabella Library Profile (Profilo biblioteca).
La tabella Library Profile (Profilo biblioteca) era originariamente formattata come tabella senza pivot con una colonna per ogni tipo di personale, come illustrato di seguito.
Library (Biblioteca) | LibraryID (ID biblioteca) | Consortium Member (Membro consorzio) | Private (Privata) | Librarians (Bibliotecari) | Library Technicians (Tecnici biblioteca) | Library Assistants (Assistenti biblioteca) |
Idle Hour Library | L-IHL | Sì | No | 53 | 61 | 16 |
The Bibliophile’s Shelves | L-BS | Sì | Sì | 4 | 3 | 0 |
Armchair Athanaeum | L-AA | No | Sì | 6 | 0 | 0 |
Old Friend Library | L-OFL | Sì | No | 3 | 5 | 17 |
Bide Awhile | L-BA | Sì | No | 9 | 20 | 6 |
IndieUnBound | L-IUB | Sì | No | 7 | 2 | 47 |
Page Station Book Exchange | L-PS | No | Sì | 3 | 1 | 4 |
È stato eseguito il pivot della tabella tra le colonne Librarians (Bibliotecari), Library Technicians (Tecnici biblioteca) e Library Assistants (Assistenti biblioteca). Il formato finale ha una colonna per Staff Type (Tipo di personale) e una colonna per Number of Staff (Numero di personale). Tuttavia, questo significa che è presente più di una riga per ogni biblioteca. I valori Library ID (ID biblioteca) non sono pertanto univoci e la versione pivot della tabella deve essere correlata in modalità molti-a-molti alla tabella Catalog.
Anche se questo ha il vantaggio di consentire una relazione molti-a-uno tra Catalog (Catalogo) e Profile (Profilo), non è ideale come struttura per l’analisi dei dati(Il collegamento viene aperto in una nuova finestra).
Esplorare
Questo insieme di dati, sebbene fittizio, supporta vari scenari analitici e diverse attività di esplorazione. Alcuni suggerimenti includono:
- Quali sono i libri più popolari? Qual è quello meno popolare? Questa conclusione è basata sulle vendite, le recensioni, gli acquisti o un’altra metrica?
- Qual è stato l’autore esordiente più giovane? Quale il meno giovane?
- Alcune case editrici sembrano specializzate in qualche ambito?
- Qual è stato il periodo più lungo tra le edizioni dello stesso libro?
- Esistono tendenze stagionali associate alle vendite? E ai prestiti? Alcuni titoli o generi presentano fluttuazioni stagionali?
- Esistono correlazioni tra prestiti, tirature di stampa, valutazioni delle recensioni dei libri e volume delle vendite?
- Gli autori che impiegano più tempo per la scrittura hanno i libri di maggior successo? Hanno il numero di pagine più alto?
- Quando viene pubblicata la maggior parte dei libri? Vi sono anomalie?
- Esistono tendenze per genere, formato e prezzo?
- Che tipo di distribuzioni hanno le valutazioni? Queste distribuzioni variano in base al libro? In base al genere? Sembrano allineate con i premi?
- Come si calcola il prezzo di vendita, dato che a volte (ma non sempre) viene applicato uno sconto al momento della vendita?
- Le vendite si approssimano al principio di Pareto?
- Esistono modelli negli sconti?
- Alcune tabelle in particolare sembrano contenere dati sporchi?
- Etaoin Shrdlu è un riferimento alle tastiere delle macchine linotype. Palimpsest è un riferimento ai manoscritti.
- I nomi degli autori sono stati derivati da un elenco di celebri autori americani, mescolandone i nomi e i cognomi.
- Al giorno d’oggi, la pubblicazione dei libri avviene abitualmente il martedì. Tale tendenza è riflessa nei dati, presupponendo che questo standard di settore venga mantenuto fino all’anno 2178.
- Un libro non ha recensioni, prestiti o vendite.
- I dati relativi ai prestiti sono basati sui dati effettivi delle biblioteche, con i valori BookID (ID libro) associati ai titoli, quindi le tendenze dei prestiti sono reali.
- I dati delle valutazioni sono basati sui dati effettivi delle valutazioni dei libri, con i valori BookID (ID libro) associati ai titoli, quindi la distribuzione delle valutazioni per un determinato libro è reale.
- La proporzione delle vendite per un singolo libro rispetto a più libri è basata su dati reali ricavati da una libreria indipendente.
- I dati sulle vendite sono completamente generati, ma sono basati sulle tendenze reali a livello stagionale e nei giorni feriali per una località con un’economia basata sul turismo (proporzionalmente in base al mese e al giorno della settimana, nonché per le vacanze primaverili e invernali).
- Le vendite aumentano durante i fine settimana lunghi e le vacanze primaverili.
- Le vendite sono molto più alte nei fine settimana e al minimo il martedì e il giovedì.
- L’alta stagione è l’estate, tra il 4 luglio e il primo lunedì di settembre (Labor Day).
- Le vendite aumentano subito dopo il Giorno del ringraziamento e nelle settimane che precedono il Natale.
- Gli ISBN nell’insieme di dati sono fittizi, ma sono stati creati seguendo i principi ISBN-13:
- EAN: 989 (non utilizzato effettivamente)
- Numero di gruppo: 28
- Elemento di registrazione editore: lunghezza variabile (2-4 cifre)
- Elemento titolo: lunghezza variabile (3-5 cifre, a seconda della lunghezza dell’elemento di registrazione)
- Cifra di controllo: creata con il calcolo aritmetico modulare della cifra di controllo ISBN-13
- Uno degli sviluppatori che hanno lavorato su questa funzionalità ha suggerito un libro senza edizioni e dal titolo The Deep Grey: il relativo BookID (ID libro) termina con le ultime tre cifre del numero di telefono aziendale dello sviluppatore.
- È presente un errore (intenzionale) nella tabella Edition (Edizione), per cui due edizioni del BookID (ID libro) PA169 sono state classificate come di Palimpsest Printing, mentre l’ISBN indica che sono state effettivamente stampate da Etaoin Shrdlu Press.
La persona che ha creato questo insieme di dati si è divertita molto e ha chiaramente una vera e propria ossessione per i libri. Si augura che l’insieme di dati sia di tuo gradimento e ti possa aiutare ad apprezzare la potenza, l’eleganza e la bellezza delle relazioni in Tableau.