Ensemble de données Bookshop

L’ensemble de données Bookshop a été créé pour Tableau Desktop 2020.2 afin de présenter les relations—les nouvelles fonctionnalités de modélisation des données pour combiner les données.

Télécharger les fichiers

Vous pouvez télécharger les données brutes et vous lancer dans la création de votre propre modèle de données à partir de zéro. Vous pouvez également télécharger l’une des sources de données prédéfinies pour passer directement à l’analyse avec les relations.

Données brutes (xlsx)
- Bookshop.xlsx : données brutes sous forme de fichier .xlsx
- BookshopLibraries.xlsx : tables de bibliothèque supplémentaires qui introduisent des relations de plusieurs-à-plusieurs (contiennent uniquement des tables de bibliothèque supplémentaires)
Fichiers de source de données complète (tdsx)
- Bookshop.tdsx : fichier .tdsx compressé avec la source de données associée pré-configurée et ajout de quelques personnalisations de métadonnées
- MinimalBookshop.tdsx : les mêmes tables que Bookshop.tdsx, mais sans métadonnées ni nettoyage
- Bookshop_libraries.tdsx : fichier .tdsx complet qui ajoute les tables de bibliothèque à Bookshop.tdsx (inclut toutes les tables).

Pour vous connecter à un fichier .tdsx téléchargé

Ouvrez Tableau Desktop.
Dans le volet Connexion sur la gauche, sélectionnez l’option Plus... sous l’en-tête Vers un fichier.
Accédez à l’emplacement où vous avez téléchargé le fichier .tdsx et double-cliquez dessus (ou sélectionnez-le, puis cliquez sur Ouvrir).

À propos de l’ensemble de données

L’ensemble de données Bookshop se compose de 13 tables liées de la manière suivante :

Un schéma de base de données pour les données de livres.

Remarque : un concept central pour cet ensemble de données est l’idée de livre versus édition. Un livre est un concept avec des attributs tels que l’auteur, le titre et le genre. Une édition est une version physique du livre, avec des attributs tels que le format (livre relié, livre de poche), la date de publication et le nombre de pages.

Dictionnaire de données

Certains champs peuvent avoir besoin de quelques explications.

Le champ Rating (Évaluation) dans la table Ratings couvre une échelle de 1 à 5, 5 étant la note la plus élevée.
Le champ Format est une ventilation détaillée du format. Tout élément autre que « Hardcover » (Relié) pourrait être considéré comme « Paperback » (Poche).
ISBN signifie International Standard Book Number, à savoir un identifiant unique à 13 chiffres attribué à chaque édition d’un livre. L’ISBN est représenté dans le code à barres et est lié au prix.
Les champs ItemID et OrderID sont hiérarchiques. Une commande peut contenir plusieurs éléments.
Le champ Staff Comment (Commentaire du personnel) contient des résumés et des commentaires pour certains des livres.

Si vous créez votre propre source de données

Les tables Publisher (Éditeur) et Sales (Ventes) doivent être reliées à la table Edition.
Les tables Book (Livre) et Info (Informations) doivent être reliées ou liées, mais ce doit être sur le calcul BookID = [BookID1]+[BookID2].
- Une jointure interne est suggérée.
- La table Series (Série) ne peut être utilisée qu’une fois la table Info intégrée dans la source de données.

Facultatif :

Nous vous recommandons de renommer la table logique de Book liée avec Info en « Book » ou similaire.
Les quatre tables de ventes peuvent être analysées de façon indépendante, mais si elles sont réunies, nous recommandons de renommer l’union en « Sales » (Ventes) ou similaire.
La plupart des champs utilisés pour former des relations ne sont pas nécessaires pour l’analyse et peuvent être masqués après que le modèle de données a été créé.

Les champs se terminant par ID peuvent être masqués. (Par exemple, ReviewID et ReviewerID de Ratings et ItemID et OrderID de Sales.)
ISBN doit être conservé, idéalement à partir de la table Edition, comme identifiant de chaque édition. Le champ ISBN dans la table des ventes réunie peut être masqué.
Le champ de titre dans la table Award (Récompense) peut être masqué.
Les champs de feuilles et de table de l’union ne contiennent pas non plus d’informations uniques et peuvent être masqués.

Pour simplifier le modèle de données, les tables clés sont Book (Livre), Author (Auteur) et Edition (Édition). Les tables les plus faciles à laisser de côté avec un impact minimal sont Checkouts (Emprunts) et Ratings (Évaluations), suivies de Award, (Récompense), Publisher (Maison d’édition), Sales (Ventes) ou Info (Informations) et Series (Série).

Bibliothèques de librairies

Le fichier BookshopLibraries.xlsx introduit de nouvelles tables autour des bibliothèques dans le but de prendre en charge des relations de plusieurs-à-plusieurs. La table Catalog est reliée à la table Editions sur ISBN. La table Library Profiles se rapporte à la table Catalog en tant que relation de plusieurs-à-plusieurs (n:n) sur LibraryID.

Dictionnaire de données

Profil de la bibliothèque

Le champ Library est le nom de la bibliothèque.
Le champ Library ID est un ID également utilisé dans la table Catalog.
Le champ Consortium Member (Membre du consortium) est un champ Oui/Non qui indique si la bibliothèque fait partie du réseau plus vaste de bibliothèques offrant des prêts inter-bibliothèques et partageant d’autres services.
Le champ Private (Privé) est un champ Oui/Non qui indique s’il s’agit d’une bibliothèque réservée à ses membres ou un établissement public.
Staff Type et Number of Staff décrivent ensemble le nombre de bibliothécaires, d’assistants de bibliothèque et de techniciens de bibliothèque qui travaillent pour chaque bibliothèque.

Catalog

LoanID est un identificateur unique pour la combinaison d’ISBN et de bibliothèque. Il est utilisé pour suivre le nombre d’exemplaires (Number of copies) possédés par une bibliothèque. Par exemple, si la bibliothèque Idle Hour possède deux exemplaires de poche et un exemplaire papier d’un titre, il y aura deux ID de prêt.
Le champ Library ID est un ID également utilisé dans la table Library Profile.

Structure de la table Library Profile

À l’origine, la table Library Profile (Profil de bibliothèque) a été mise en forme comme table non permutée avec une colonne pour chaque type de personnel :

Library	LibraryID	Consortium Member	Private	Librarians	Library Technicians	Library Assistants
Idle Hour Library	L-IHL	Oui	Non	53	61	16
The Bibliophile’s Shelves	L-BS	Oui	Oui	4	3	0
Armchair Athanaeum	L-AA	Non	Oui	6	0	0
Old Friend Library	L-OFL	Oui	Non	3	5	17
Bide Awhile	L-BA	Oui	Non	9	20	6
IndieUnBound	L-IUB	Oui	Non	7	2	47
Page Station Book Exchange	L-PS	Non	Oui	3	1	4

La table a été permutée au niveau des colonnes Librarians, Library Technicians et Library Assistants . Le format final comporte une colonne pour le type de personnel et une colonne pour le nombre d’employés. Cela signifie toutefois qu’il y a plus d’une ligne pour chaque bibliothèque. Les valeurs Library ID ne sont donc pas uniques et la version permutée de la table doit avoir une relation de plusieurs-à- plusieurs avec la table Catalog.

L’avantage de cette structure, c’est qu’elle permet une relation de plusieurs-à-un entre Catalog (Catalogue) et Profile (Profil). Par contre, elle n’est pas idéale comme structure pour l’analyse des données(Le lien s’ouvre dans une nouvelle fenêtre).

Explorer

Cet ensemble de données, bien que fictif, prend en charge divers scénarios d’analyses et d’exploration. Voici quelques suggestions :

Quels livres sont les plus populaires ? Les moins populaires ? Est-ce basé sur les ventes, les commentaires, les consultations ou une autre métrique ?
Qui était le plus jeune auteur de premier livre ? Qui était le plus âgé ?
Certaines maisons d’édition semblent-elles se spécialiser d’une façon ou d’une autre ?
Quel a été l’intervalle lle plus long entre les éditions d’un même livre ?
Y a-t-il des tendances saisonnières pour les ventes ? Qu’en est-il des consultations ? Les titres ou les genres connaissent-ils des fluctuations saisonnières ?
Y a-t-il une corrélation entre les achats, le format d’impression, les cotes d’évaluation des livres et le volume de vente ?
Les livres remportant le plus de succès ont-ils été écrits par les auteurs consacrant le plus de temps à l’écriture ? Ont-ils le nombre de pages le plus élevé ?
Quand la plupart des livres sont-ils publiés ? Y a-t-il des anomalies ?
Y a-t-il des tendances liées au genre, au format et au prix ?
Comment se présente les répartitions des évaluations ? Ces répartitions varient-elles selon les livres ? Par genre ? Semblent-elles s’aligner sur les prix ?
Comment calculeriez-vous le prix de vente, étant donné qu’il y a parfois, mais pas toujours, un rabais accordé au moment de la vente ?
Les ventes se rapprochent-elles du principe de Pareto ?
Y a-t-il des tendances dans les rabais ?
Est-ce que des tables en particulier semblent contenir des données « sales » ?

Œufs de Pâques de l’ensemble de données Bookshop

Etaoin Shrdlu réfère à une impression mécanique linotype. Palimpsest réfère à une impression de type manuscrit.
Les noms d’auteur ont été dérivés d’une liste d’auteurs américains célèbres avec leurs prénoms et noms de famille mélangés.
Les dates de publication aujourd’hui sont généralement le mardi. Ceci était reflété dans les données, ce qui suppose que cette norme de l’industrie existe encore en l’année 2178.
Un livre n’a pas d’évaluations, de consultations ou de ventes.
Les données Checkouts sont basées sur des données de bibliothèque réelles, avec des BookID mappés à des titres, de sorte que les tendances de consultations sont issues du monde réel.
Les données Ratings sont basées sur des données réelles d’évaluation de livres, avec des BookID mappés à des titres, de sorte que la répartition des évaluations pour un livre donné est réelle.
La proportion des ventes pour un livre unique par rapport à plusieurs livres est basée sur des données du monde réel d’une librairie indépendante.
Les données de ventes sont entièrement générées, mais sont basées sur les tendances saisonnières et hebdomadaires réelles pour une station balnéaire dont l’économie est axée sur le tourisme (proportionnellement par mois et jour de la semaine, et pour les vacances de printemps et les vacances d’hiver).
- Les ventes augmentent au cours des longs week-ends et des vacances de printemps.
- Les ventes sont beaucoup plus élevées le week-end et à leur plus bas les mardis et jeudis.
- La haute saison est l’été entre le 4 juillet et la Fête du Travail aux États-Unis.
- Les ventes décollent immédiatement après Thanksgiving et dans les semaines précédant Noël.
Les ISBN de l’ensemble de données sont fictifs mais créés selon les principes ISBN-13 :
- EAN—989 (non utilisé en réalité)
- Numéro de groupe—28
- Élément d’enregistrement de l’éditeur — longueur variable (2 à 4 chiffres)
- Élément de titre, longueur variable (3 à 5 chiffres, selon la longueur de l’élément d’enregistrement)
- Chiffre de vérification, créé avec le calcul arithmétique modulaire à chiffres ISBN-13
L’un des développeurs travaillant sur cette fonctionnalité a suggéré un livre sans éditions, et le titre The Deep Grey, avec un BookID se terminant par les trois derniers chiffres de son numéro de téléphone professionnel.
Il y a une erreur (intentionnelle) dans la table Edition où deux éditions de BookID PA169 ont été étiquetées comme Impression Palimpsest, alors que l’ISBN indique une impression de presse Etaoin Shrdlu.

L’auteur de cet ensemble de données s’est bien amusé à le concevoir et sa passion pour les livres est indéniable. Il espère que vous tirerez profit de cet ensemble de données et qu’il vous aidera à apprécier la puissance, l’élégance et la beauté des relations dans Tableau.

Retour en haut

Merci de vos commentaires !

Avis correctement envoyé. Merci

Aide de Tableau Desktop et de la création Web