Ensemble de données Bookshop

L’ensemble de données Bookshop a été créé pour Tableau Desktop 2020.2 afin de présenter les relations—les nouvelles fonctionnalités de modélisation des données pour combiner les données.

Télécharger les fichiers

Vous pouvez choisir de télécharger les données brutes et vous lancer dans la création de votre propre modèle de données à partir de zéro. Vous pouvez sinon télécharger l’une des sources de données prédéfinies pour passer directement à l’analyse avec les relations.

  • Données brutes (xlsx)
    • Bookshop.xlsx : données brutes sous forme de fichier .xlsx
    • BookshopLibraries.xlsx : tables de bibliothèque supplémentaires qui introduisent des relations de plusieurs-à-plusieurs (contiennent uniquement des tables de bibliothèque supplémentaires)
  • Fichiers de source de données complète (tdsx)
    • Bookshop.tdsx : fichier .tdsx compressé avec la source de données associée déjà créée et ajout de quelques personnalisations de métadonnées
    • MinimalBookshop.tdsx - les mêmes tables que Bookshop.tdsx, mais sans métadonnées ou nettoyage
    • Bookshop_libraries.tdsx - un fichier .tdsx complet qui ajoute les tables de bibliothèque à Bookshop.tdsx (inclut toutes les tables).

Pour vous connecter à un fichier .tdsx téléchargé

  1. Ouvrez Tableau Desktop.
  2. Dans le volet Connexion sur la gauche, choisissez l’option Plus... sous l’en-tête Vers un fichier.
  3. Accédez à l’emplacement où vous avez téléchargé le fichier .tdsx et double-cliquez dessus (ou sélectionnez-le puis cliquez sur Ouvrir).

À propos de l’ensemble de données

L’ensemble de données Bookshop se compose de 13 tables, combinées de la manière suivante :

Remarque : un concept central pour cet ensemble de données est l’idée de livre versus édition. Un livre est un concept avec des attributs tels que l’auteur, le titre et le genre. Une édition est une version physique du livre, avec des attributs tels que le format (livre relié, livre de poche), la date de publication et le nombre de pages.

Dictionnaire de données

Certains champs peuvent avoir besoin de quelques explications.

  • Le champ Rating (Évaluation) dans la table Ratings couvre une échelle de 1 à 5, 5 étant la note la plus élevée.
  • Le champ Format est une ventilation détaillée du format. Tout élément autre que « Hardcover » (Relié) pourrait être considéré comme « Paperback » (Poche).
  • ISBN signifie International Standard Book Number, à savoir un identifiant unique à 13 chiffres attribué à chaque édition d’un livre. L’ISBN est représenté dans le code à barres et est lié au prix.
  • Les champs ItemID et OrderID sont hiérarchiques. Une commande peut contenir plusieurs éléments.
  • Le champ Staff Comment (Commentaire du personnel) contient des résumés et des commentaires pour certains des livres.

Si vous créez votre propre source de données

  1. Les tables Publisher (Éditeur) et Sales (Ventes) doivent être reliées à la table Edition.
  2.  Les tables Book (Livre) et Info (Informations) doivent être reliées ou liées, mais ce doit être sur le calcul BookID = [BookID1]+[BookID2].
    • Une jointure interne est suggérée.
    • La table Series (Série) ne peut être utilisée qu’une fois la table Info intégrée dans la source de données.
  • Facultatif :
    1. Nous vous recommandons de renommer la table logique Book liée avec Info « Book » ou similaire.
    2. Les quatre tables de ventes peuvent être analysées de façon indépendante, mais si elles sont réunies, nous recommandons de renommer l’union « Sales » (Ventes) ou un nom de ce type.
    3. La plupart des champs utilisés pour former des relations ne sont pas nécessaires pour l’analyse et peuvent être masqués une fois que le modèle de données a été créé
      • Tout champ se terminant par ID peut être masqué (les seuls champs « ID » dans ce cas sont ReviewID et ReviewerID de la table Ratings et ItemID et OrderID de la table Sales).
      • ISBN doit être conservé, idéalement à partir de la table Edition, comme identifiant de chaque édition. Le champ ISBN dans la table des ventes réunie peut être masqué.
      • Le champ de titre dans la table Award (Récompense) peut être masqué.
      • Les champs de feuilles et de table de l’union ne contiennent pas non plus d’informations uniques et peuvent être masqués.
    4. Pour simplifier le modèle de données, les tables de base sont Book, Author et Edition. Les tables les plus faciles à laisser de côté avec un impact minimal serait Checkouts et Ratings, suivies de Award, Publisher, Sales ou Info et Series.

    Bibliothèques de librairies

    Le fichier BookshopLibraries.xlsx introduit de nouvelles tables autour des bibliothèques dans le but de prendre en charge des relations de plusieurs-à-plusieurs. La table Catalog est reliée à la table Editions sur ISBN. La table Library Profiles se rapporte à la table Catalog en tant que relation de plusieurs-à-plusieurs (n:n) sur LibraryID.

    Dictionnaire de données

    Profil de la bibliothèque

    • Le champ Library est le nom de la bibliothèque.
    • Le champ Library ID est un ID également utilisé dans la table Catalog.
    • Le champ Consortium Member est un champ oui/non qui indique si la bibliothèque fait partie du réseau plus vaste de bibliothèques qui offrent des prêts inter-bibliothèques et partagent d’autres services.
    • Le champ Private est un champ oui/non qui indique s’il s’agit d’une bibliothèque réservée aux membres ou une institution publique.
    • Staff Type et Number of Staff décrivent ensemble le nombre de bibliothécaires, d’assistants de bibliothèque et de techniciens de bibliothèque qui travaillent pour chaque bibliothèque.

    Catalog

    • LoanID est un identificateur unique pour la combinaison d’ISBN et de bibliothèque. Il est utilisé pour suivre le nombre d’exemplaires (Number of copies) possédés par une bibliothèque. Par exemple, si la bibliothèque Idle Hour possède deux exemplaires de poche et un exemplaire papier d’un titre, il y aura deux ID de prêt.
    • Le champ Library ID est un ID également utilisé dans la table Library Profile.
    Structure de la table Library Profile

    Explorer

    Cet ensemble de données, bien que fictif, prend en charge divers scénarios d’analyses et d’exploration. Voici quelques suggestions :

    • Quels livres sont les plus populaires ? Les moins populaires ? Est-ce basé sur les ventes, les commentaires, les consultations ou une autre métrique ?
    • Qui était le plus jeune auteur de premier livre ? Qui était le plus âgé ?
    • Certaines maisons d’édition semblent-elles se spécialiser d’une façon ou d’une autre ?
    • Quel a été l’intervalle lle plus long entre les éditions d’un même livre ?
    • Y a-t-il des tendances saisonnières pour les ventes ? Qu’en est-il des consultations ? Les titres ou les genres connaissent-ils des fluctuations saisonnières ?
    • Y a-t-il une corrélation entre les achats, le format d’impression, les cotes d’évaluation des livres et le volume de vente ?
    • Les livres remportant le plus de succès ont-ils été écrits par les auteurs consacrant le plus de temps à l’écriture ? Ont-ils le nombre de pages le plus élevé ? 
    • Quand la plupart des livres sont-ils publiés ? Y a-t-il des anomalies ? 
    • Y a-t-il des tendances liées au genre, au format et au prix ?
    • Comment se présente les répartitions des évaluations ? Ces répartitions varient-elles selon les livres ? Par genre ? Semblent-elles s’aligner sur les prix ? 
    • Comment calculeriez-vous le prix de vente, étant donné qu’il y a parfois, mais pas toujours, un rabais accordé au moment de la vente ?
    • Les ventes se rapprochent-elles du principe de Pareto ? 
    • Y a-t-il des tendances dans les rabais ? 
    • Est-ce que des tables en particulier semblent contenir des données « sales » ?
    Œufs de Pâques de l’ensemble de données Bookshop