Insieme di dati Bookshop
L’insieme di dati Bookshop è stato creato per Tableau Desktop 2020.2 al fine di illustrare le relazioni, ovvero le nuove funzionalità di modellazione dei dati per la combinazione dei dati.
Scaricare i file
Puoi scegliere di scaricare i dati non elaborati e iniziare da zero creando un tuo modello di dati oppure scaricare una delle origini dati preimpostate per passare direttamente all’analisi con le relazioni.
- Dati non elaborati (xlsx)
- Bookshop.xlsx: i dati non elaborati come file .xlsx
- BookshopLibraries.xlsx: tabelle di biblioteche aggiuntive che introducono relazioni molti-a-molti (contiene solo le tabelle aggiuntive delle biblioteche)
- File di origine dati compressa (tdsx)
- Bookshop.tdsx: un file .tdsx compresso con l’origine dati correlata già creata e alcune personalizzazioni dei metadati aggiunte
- MinimalBookshop.tdsx: le stesse tabelle di Bookshop.tdsx ma senza metadati o pulizia
- Bookshop_libraries.tdsx: un file .tdsx compresso che aggiunge le tabelle di biblioteche a Bookshop.tdsx (include tutte le tabelle).
Per connetterti a un file .tdsx scaricato
- Apri Tableau Desktop.
- Nel riquadro Connetti a sinistra scegli l’opzione Altro... sotto l’intestazione A un file.
- Passa al percorso in cui hai scaricato il file .tdsx e fai doppio clic su di esso (oppure selezionalo e fai clic su Apri).
Informazioni sull’insieme di dati
L’insieme di dati Bookshop è composto da 13 tabelle, combinate nel modo seguente:
Nota: un concetto centrale per questo insieme di dati è l’idea di libro rispetto a edizione. Un libro è un concetto con attributi come autore, titolo e genere. Un’edizione è una versione fisica del libro, con attributi come formato (copertina rigida o tascabile), data di pubblicazione e numero di pagine.
Dizionario dei dati
Alcuni campi potrebbero richiedere una breve spiegazione.
- Il campo Rating (Valutazione) nella tabella Ratings (Valutazioni) è espresso in base a una scala da 1 a 5, dove 5 è il massimo.
- Il campo Format (Formato) è una suddivisione dettagliata del formato. Tutto ciò che non è "Hardcover" (Copertina rigida) può essere considerato "Paperback" (Tascabile).
- ISBN è l’acronimo di International Standard Book Number ed è un identificatore univoco di 13 cifre assegnato a ogni edizione di un libro. L’ISBN è rappresentato nel codice a barre ed è associato al prezzo.
- I campi ItemID (ID articolo) e OrderID (ID ordine) sono gerarchici. Un ordine può contenere più articoli.
- Il campo Staff Comment (Commento del personale) contiene riassunti e recensioni per alcuni libri.
Se crei una tua origine dati
- Le tabelle Publisher (Editore) e Sales (Vendite) devono essere correlate alla tabella Edition (Edizione).
- Le tabelle Book (Libro) e Info (Informazioni) possono essere correlate o sottoposte a join, ma questo deve avvenire nel calcolo
BookID = [BookID1]+[BookID2]
.- Viene suggerito un join interno.
- La tabella Series (Serie) può essere utilizzata solo dopo che la tabella Info (Informazioni) fa parte dell’origine dati.
- È consigliabile rinominare la tabella logica Book (Libro) sottoposta a join con Info (Informazioni) come "Book" ("Libro") o con un nome simile.
- Le quattro tabelle Sales (Vendite) possono essere analizzate in modo indipendente, ma se vengono unificate, è consigliabile rinominare l’unione come "Sales" ("Vendite") o con un nome simile.
- La maggior parte dei campi utilizzati per formare le relazioni non sono necessari per l’analisi e possono essere nascosti una volta che il modello di dati è stato creato.
- Qualsiasi campo che termina con ID può essere nascosto. Gli unici campi "ID" utili sono ReviewID (ID recensione) e ReviewerID (ID recensore) in Ratings (Valutazioni) e ItemID (ID articolo) e OrderID (ID ordine) in Sales (Vendite).
- ISBN dovrebbe essere mantenuto, idealmente dalla tabella Edition (Edizione), come identificatore di ogni edizione. Il campo ISBN nella tabella Sales (Vendite) unificata può essere nascosto.
- Il campo Title (Titolo) nella tabella Award (Premio) può essere nascosto.
- Anche i campi del foglio e della tabella dell’unione non contengono informazioni univoche e possono essere nascosti.
- Per semplificare il modello di dati, le tabelle principali sono Book (Libro), Author (Autore) ed Edition (Edizione). Le tabelle che è possibile escludere con un impatto minimo sono Checkouts (Prestiti) e Ratings (Valutazioni), seguite da Award (Premio), Publisher (Editore), Sales (Vendite) o Info (Informazioni) e Series (Serie).
Biblioteche Bookshop
Il file BookshopLibraries.xlsx introduce nuove tabelle basate su biblioteche allo scopo di supportare le relazioni molti-a-molti. La tabella Catalog (Catalogo) è correlata alla tabella Editions (Edizioni) in base al codice ISBN. La tabella Library Profiles (Profili biblioteca) è correlata alla tabella Catalog (Catalogo) come relazione molti-a-molti (n:n) in base a LibraryID (ID biblioteca).
Dizionario dei dati
Library Profile (Profilo biblioteca)
- Il campo Library (Biblioteca) è il nome della biblioteca.
- Il campo Library ID (ID biblioteca) è un ID utilizzato anche nella tabella Catalog (Catalogo).
- Il campo Consortium Member (Membro consorzio) è un campo sì/no che indica se la biblioteca fa parte della più ampia rete di biblioteche che offrono prestiti interbibliotecari e condividono altri servizi
- Il campo Private (Privata) è un campo sì/no che indica se si tratta di una biblioteca riservata agli iscritti o di un’istituzione pubblica
- Staff Type (Tipo di personale) e Number of Staff (Numero di personale) insieme descrivono il numero di bibliotecari, assistenti di biblioteca e tecnici di biblioteca che lavorano per ogni biblioteca.
Catalogo
- LoanID (ID prestito) è un identificatore univoco per la combinazione di ISBN e biblioteca, utilizzato per tenere traccia del valore Number of Copies (Numero di copie) di una biblioteca. Ad esempio, se la libreria Idle Hour library dispone di due copie tascabili e di una copia con copertina rigida di un titolo, saranno presenti due ID prestito.
- Il campo Library ID (ID biblioteca) è un ID utilizzato anche nella tabella Library Profile (Profilo biblioteca).
Esplorare
Questo insieme di dati, sebbene fittizio, supporta vari scenari analitici e diverse attività di esplorazione. Alcuni suggerimenti includono:
- Quali sono i libri più popolari? Qual è quello meno popolare? Questa conclusione è basata sulle vendite, le recensioni, gli acquisti o un’altra metrica?
- Qual è stato l’autore esordiente più giovane? Quale il meno giovane?
- Alcune case editrici sembrano specializzate in qualche ambito?
- Qual è stato il periodo più lungo tra le edizioni dello stesso libro?
- Esistono tendenze stagionali associate alle vendite? E ai prestiti? Alcuni titoli o generi presentano fluttuazioni stagionali?
- Esistono correlazioni tra prestiti, tirature di stampa, valutazioni delle recensioni dei libri e volume delle vendite?
- Gli autori che impiegano più tempo per la scrittura hanno i libri di maggior successo? Hanno il numero di pagine più alto?
- Quando viene pubblicata la maggior parte dei libri? Vi sono anomalie?
- Esistono tendenze per genere, formato e prezzo?
- Che tipo di distribuzioni hanno le valutazioni? Queste distribuzioni variano in base al libro? In base al genere? Sembrano allineate con i premi?
- Come si calcola il prezzo di vendita, dato che a volte (ma non sempre) viene applicato uno sconto al momento della vendita?
- Le vendite si approssimano al principio di Pareto?
- Esistono modelli negli sconti?
- Alcune tabelle in particolare sembrano contenere dati sporchi?