Ensemble de données Bookshop
L’ensemble de données Bookshop a été créé pour Tableau Desktop 2020.2 afin de présenter les relations—les nouvelles fonctionnalités de modélisation des données pour combiner les données.
Télécharger les fichiers
Vous pouvez choisir de télécharger les données brutes et vous lancer dans la création de votre propre modèle de données à partir de zéro. Vous pouvez autrement télécharger l’une des sources de données prédéfinies pour passer directement à l’analyse avec les relations.
- Données brutes (xlsx)
- Bookshop.xlsx : données brutes sous forme de fichier .xlsx
- BookshopLibraries.xlsx : tables de bibliothèque supplémentaires qui introduisent des relations de plusieurs à plusieurs (contiennent uniquement des tables de bibliothèque supplémentaires)
- Fichiers de source de données complète (tdsx)
- Bookshop.tdsx : fichier .tdsx compressé avec la source de données associée déjà créée et ajout de quelques personnalisations de métadonnées
- MinimalBookshop.tdsx - les mêmes tables que Bookshop.tdsx, mais sans métadonnées ou nettoyage
- Bookshop_libraries.tdsx - un fichier .tdsx complet qui ajoute les tables de bibliothèque à Bookshop.tdsx (inclut toutes les tables).
Pour vous connecter à un fichier .tdsx téléchargé
- Ouvrez Tableau Desktop.
- Dans le volet Connexion sur la gauche, choisissez l’option Plus... sous l’en-tête Vers un fichier.
- Accédez à l’emplacement où vous avez téléchargé le fichier .tdsx et double-cliquez dessus (ou sélectionnez-le puis cliquez sur Ouvrir).
À propos de l’ensemble de données
L’ensemble de données Bookshop se compose de 13 tables, combinées de la manière suivante :
Remarque : un concept central pour cet ensemble de données est l’idée de livre versus édition. Un livre est un concept avec des attributs tels que l’auteur, le titre et le genre. Une édition est une version physique du livre, avec des attributs tels que le format (livre relié, livre de poche), la date de publication et le nombre de pages.
Dictionnaire de données
Certains champs peuvent avoir besoin de quelques explications.
- Le champ Rating (Évaluation) dans la table Ratings couvre une échelle de 1 à 5, 5 étant la note la plus élevée.
- Le champ Format est une ventilation détaillée du format. Tout élément autre que « Hardcover » (Relié) pourrait être considéré comme « Paperback » (Poche).
- ISBN signifie International Standard Book Number, à savoir un identifiant unique à 13 chiffres attribué à chaque édition d’un livre. L’ISBN est représenté dans le code à barres et est lié au prix.
- Les champs ItemID et OrderID sont hiérarchiques. Une commande peut contenir plusieurs éléments.
- Le champ Staff Comment (Commentaire du personnel) contient des résumés et des commentaires pour certains des livres.
Si vous créez votre propre source de données
- Les tables Publisher (Éditeur) et Sales (Ventes) doivent être reliées à la table Edition.
- Les tables Book (Livre) et Info (Information) doivent être reliées ou liées, mais ce doit être sur le calcul
BookID = [BookID1]+[BookID2]
.- Une jointure interne est suggérée.
- La table Series (Série) ne peut être utilisée qu’une fois la table Info intégrée dans la source de données.
- Nous vous recommandons de renommer la table logique Book liée avec Info « Book » ou similaire.
- Les quatre tables de ventes peuvent être analysées de façon indépendante, mais si elles sont réunies, nous recommandons de renommer l’union « Sales » (Ventes) ou un nom de ce type.
- La plupart des champs utilisés pour former des relations ne sont pas nécessaires pour l’analyse et peuvent être masqués une fois que le modèle de données a été créé
- Tout champ se terminant par ID peut être masqué (les seuls champs « ID » dans ce cas sont ReviewID et ReviewerID de la table Ratings et ItemID et OrderID de la table Sales).
- ISBN doit être conservé, idéalement à partir de la table Edition, comme identifiant de chaque édition. Le champ ISBN dans la table des ventes réunie peut être masqué.
- Le champ de titre dans la table Award (Récompense) peut être masqué.
- Les champs de feuilles et de table de l’union ne contiennent pas non plus d’information unique et peuvent être masqués.
- Pour simplifier le modèle de données, les tables de base sont Book, Author et Edition. Les tables les plus faciles à laisser de côté avec un impact minimal serait Checkouts et Ratings, suivies de Award, Publisher, Sales ou Info et Series.
Bibliothèques de librairies
Le fichier BookshopLibraries.xlsx introduit de nouvelles tables autour des bibliothèques dans le but de prendre en charge des relations de plusieurs à plusieurs. La table Catalog est reliée à la table Editions sur ISBN. La table Library Profiles se rapporte à la table Catalog en tant que relation de plusieurs à plusieurs (n :n) sur LibraryID.
Dictionnaire de données
Profil de la bibliothèque
- Le champ Library est le nom de la bibliothèque.
- Le champ Library ID est un ID également utilisé dans la table Catalog.
- Le champ Consortium Member est un champ oui/non qui indique si la bibliothèque fait partie du réseau plus vaste de bibliothèques qui offrent des prêts inter-bibliothèques et partagent d’autres services.
- Le champ Private est un champ oui/non qui indique s’il s’agit d’une bibliothèque réservée aux membres ou une institution publique.
- Staff Type et Number of Staff décrivent ensemble le nombre de bibliothécaires, d’assistants de bibliothèque et de techniciens de bibliothèque qui travaillent pour chaque bibliothèque.
Catalog
- LoanID est un identifiant unique pour la combinaison d’ISBN et de bibliothèque. Il est utilisé pour suivre le nombre d’exemplaires (Number of copies) possédés par une bibliothèque. Par exemple, si la bibliothèque Idle Hour possède deux exemplaires de poche et un exemplaire papier d’un titre, il y aura deux ID de prêt.
- Le champ Library ID est un ID également utilisé dans la table Library Profile.
À l’origine, la table Library Profile a été mise en forme comme table non permutée avec une colonne pour chaque type de personnel, ci-dessous.
Library | LibraryID | Consortium Member | Private | Librarians | Library Technicians | Library Assistants |
Idle Hour Library | L-IHL | Oui | Non | 53 | 61 | 16 |
The Bibliophile’s Shelves | L-BS | Oui | Oui | 4 | 3 | 0 |
Armchair Athanaeum | L-AA | Non | Oui | 6 | 0 | 0 |
Old Friend Library | L-OFL | Oui | Non | 3 | 5 | 17 |
Bide Awhile | L-BA | Oui | Non | 9 | 20 | 6 |
IndieUnBound | L-IUB | Oui | Non | 7 | 2 | 47 |
Page Station Book Exchange | L-PS | Non | Oui | 3 | 1 | 4 |
La table a été permutée au niveau des colonnes Librarians, Library Technicians et Library Assistants. Le format final comporte une colonne pour le type de personnel et une colonne pour le nombre d’employés. Toutefois, cela signifie qu’il y a plus d’une ligne pour chaque bibliothèque. Les valeurs Library ID ne sont donc pas uniques et la version permutée de la table doit avoir une relation de plusieurs à plusieurs avec la table Catalog.
Cette structure présente l’avantage de permettre une relation de plusieurs à un entre Catalog et Profile, mais n’est pas une structure idéale pour l’analyse des données(Le lien s’ouvre dans une nouvelle fenêtre).
Explorer
Cet ensemble de données, bien que fictif, prend en charge divers scénarios d’analyses et d’exploration. Voici quelques suggestions :
- Quels livres sont les plus populaires? Les moins populaires? Est-ce basé sur les ventes, les commentaires, les consultations ou une autre métrique?
- Qui était le plus jeune auteur de premier livre? Qui était le plus âgé?
- Certaines maisons d’édition semblent-elles se spécialiser d’une façon ou d’une autre?
- Quel a été l’intervalle le plus long entre les éditions d’un même livre?
- Y a-t-il des tendances saisonnières pour les ventes? Qu’en est-il des consultations? Les titres ou les genres connaissent-ils des fluctuations saisonnières?
- Y a-t-il une corrélation entre les achats, le format d’impression, les cotes d’évaluation des livres et le volume de vente?
- Les livres remportant le plus de succès ont-ils été écrits par les auteurs consacrant le plus de temps à l’écriture? Ont-ils le nombre de pages le plus élevé?
- Quand la plupart des livres sont-ils publiés? Y a-t-il des anomalies?
- Y a-t-il des tendances liées au genre, au format et au prix?
- Comment se présente les répartitions des évaluations? Ces répartitions varient-elles selon les livres? Par genre? Semblent-elles s’aligner sur les prix?
- Comment calculeriez-vous le prix de vente, étant donné qu’il y a parfois, mais pas toujours, un rabais accordé au moment de la vente?
- Les ventes se rapprochent-elles du principe de Pareto?
- Y a-t-il des tendances dans les rabais?
- Est-ce que des tables en particulier semblent contenir des données « sales »?
- Etaoin Shrdlu renvoie à une impression mécanique linotype. Palimpsest renvoie à une impression de type manuscrit.
- Les noms d’auteur ont été établis à partir d’une liste d’auteurs américains célèbres avec leurs prénoms et noms de famille mélangés.
- Les dates de publication aujourd’hui sont généralement le mardi. Ceci était reflété dans les données, ce qui suppose que cette norme de l’industrie existe encore en l’année 2178.
- Un livre n’a pas d’évaluations, de consultations ou de ventes.
- Les données Checkouts sont basées sur des données de bibliothèque réelles, avec des BookID mappés à des titres, de sorte que les tendances de consultations sont issues du monde réel.
- Les données Ratings sont basées sur des données réelles d’évaluation de livres, avec des BookID mappés à des titres, de sorte que la répartition des évaluations pour un livre donné est réelle.
- La proportion des ventes pour un livre unique par rapport à plusieurs livres est basée sur des données du monde réel d’une librairie indépendante.
- Les données de ventes sont entièrement générées, mais sont basées sur les tendances saisonnières et hebdomadaires réelles pour une station balnéaire dont l’économie est axée sur le tourisme (proportionnellement par mois et jour de la semaine, et pour la semaine de relâche et les vacances d’hiver).
- Les ventes augmentent au cours des longues fins de semaine et de la semaine de relâche.
- Les ventes sont beaucoup plus élevées durant les fins de semaine et à leur plus bas les mardis et jeudis.
- La haute saison est l’été entre le 4 juillet et la Fête du Travail aux États-Unis.
- Les ventes décollent immédiatement après le Jour d’Action de grâce et dans les semaines précédant Noël.
- Les ISBN de l’ensemble de données sont fictifs mais créés selon les principes ISBN-13 :
- EAN—989 (non utilisé en réalité)
- Numéro de groupe—28
- Élément d’enregistrement de l’éditeur—longueur variable (2 à 4 chiffres)
- Élément de titre, longueur variable (3 à 5 chiffres, selon la longueur de l’élément d’enregistrement)
- Chiffre de vérification, créé avec le calcul arithmétique modulaire à chiffres ISBN-13
- L’un des développeurs travaillant sur cette fonctionnalité a suggéré un livre sans éditions, et le titre The Deep Grey, avec un BookID se terminant par les trois derniers chiffres de son numéro de téléphone professionnel.
- Il y a une erreur (intentionnelle) dans la table Edition où deux éditions de BookID PA169 ont été étiquetées comme Impression Palimpsest, alors que l’ISBN indique une impression de presse Etaoin Shrdlu.
L’auteur de cet ensemble de données s’est bien amusé à le concevoir et sa passion pour les livres est indéniable. Il espère que vous tirerez profit de cet ensemble de données et qu’il vous aidera à apprécier la puissance, l’élégance et la beauté des relations dans Tableau.