Maîtriser les relations en profondeur

En raison de la nature des relations, il est plus important que jamais de comprendre d’où viennent les champs, quel est leur domaine et ce que représentent les valeurs null. N’oubliez pas que toute personne consultant une visualisation sans accès au volet Source de données ou Données s’appuiera sur le titre ou d’autres informations présentées par l’auteur pour interpréter correctement la visualisation.

Remarque : si vous ne maîtrisez pas encore pleinement les principes sous-jacents des sources de données qui utilisent les relations, nous vous conseillons de lire Maîtriser les relations avant de vous lancer dans cette rubrique.

Pourquoi tous les champs de date ne sont-ils pas égaux ?

Gardez à l’esprit que, même si deux noms de champ contiennent le mot « Date », le contenu de ces champs n’est pas nécessairement identique. Prenons un exemple qui s’en tient au niveau Année. Dans ce cas, nous ne soucions pas des valeurs pour les mois et les jours, seules les années couvertes par les champs nous intéressent.

L’Ensemble de données Bookshop comporte plusieurs champs avec un type de données Date.

  • Birthday (Anniversaire)
  • Publication Date (Date de publication)
  • Sales Date (Date de vente)
  • Les champs Year Won (Année avec récompense) et Year Established (Année d’établissement) contiennent également des informations de date, bien qu’il s’agisse de champs numériques.
    • NB : Si l’icône du volet Données est verte, ce champ est continu. Faites un clic droit sur le nom du champ dans le volet Données et choisissez Convertir en discret(Le lien s’ouvre dans une nouvelle fenêtre). L’icône doit devenir bleue. Faites-le pour les deux champs « Year Won » et « Year Established » si nécessaire.

Par contre, le domaine (les valeurs de chaque champ) varie. Intégrez chaque champ à son tour dans l’étagère Lignes et observez le nombre de repères dans le coin inférieur gauche, puis supprimez chaque champ avant d’afficher le suivant.

  • YEAR(Birthday) comporte 27 repères, ce qui signifie que le domaine contient 27 années différentes.
  • YEAR([Publication Date]) comporte 15 repères, son domaine se compose donc de 15 années.
  • Year Won comporte 11 repères
  • Year Established comporte quatre repères
  • YEAR([Sales Date]) comporte un repère

Il est très important de garder à l’esprit cette différence de domaine. Si nous avions lié la table Edition (Édition) et Award (Récompense) sur YEAR ([Publication Date]) à Year Won, nous pourrions nous retrouver avec des analyses qui utilisent une jointure interne et sont donc réduites aux années où une récompense a été remportée, ce qui laisse de côté tous les livres des années sans récompenses. (Notez que ce n’est pas la même chose que le filtrage des livres n’ayant pas remporté de récompenses. Les livres non primés qui ont été publiés la même année qu’un livre primé seront conservés. Tous les livres d’années sans récompenses seront complètement abandonnés. L’action de filtrage de la jointure se situe au niveau de l’année, et non du livre.)

Exemple : Date de publication et Anniversaire

Si nous intégrons Publication Date sur Colonnes et Birthday sur Lignes, nous obtenons une table d’Abc. Vous pouvez télécharger le classeur et explorer cette table par vous-même. (Requiert Tableau Desktop 2020.2 ou ultérieur.)

Abc est tout simplement un espace réservé parce qu’il n’y a pas de données autres que les années. Tableau n’a pas de valeurs avec lesquelles créer des repères, mais Abc indique l’emplacement possible des repères.

Notez que cette table contient beaucoup d’espace vide. Il n’y a pas d’espace réservé pour l’année de publication 2180 et l’anniversaire 2133. Cela signifie que l’auteur né en 2133 n’a pas publié en 2180.

D’accord. Mais en quoi cela nous concerne-t-il ?

Imaginez que vous souhaitiez effectuer quelques analyses au fil du temps. Les ventes de livres à couverture rigide augmentent-elles avec le temps ? Vous pouvez imaginer votre graphique comme une chronologie qui filtre le format de manière à ne conserver que les livres à couverture rigide avec Sales(Count) sur Lignes et Date sur Colonnes. Mais quel champ de date ? La date de publication ? L’anniversaire ? La date de vente ? Ces champs sont bien nommés et il est assez évident que si nous avons une question sur les ventes, nous devrions utiliser la date de vente. Les ensembles de données n’ont cependant pas tous des noms signifiants. Si les champs portaient des noms tels que « Date1 » et « Date3 », ce serait difficile de décider, surtout si la question analytique n’est pas clairement pensée.

Il est crucial, pour l’analyse, de savoir de quelle table provient un champ et ce que le domaine du champ représente

En modifiant le champ de date, nous pouvons modifier complètement l’analyse. Considérons ces deux visualisations :

La première pourrait être interprétée comme « Combien de livres ont été écrits par des auteurs nés chaque année ? ». Elle répond à des questions comme « Les auteurs plus âgés ont-ils écrit plus de livres ? » (Non) ou « Dans quelle année sont nés les auteurs les plus prolifiques ? » (2155).

La seconde pourrait être interprétée comme « Combien de livres ont été publiés chaque année ? ». Elle répond à des questions comme « Quelle année a vu le plus grand nombre de publications de livres ? » (2188) ou « La publication de livres est-elle stable au fil du temps ? » (Non).

Il est maladroit de formuler la question pour la visualisation qui utilise l’anniversaire parce qu’il s’agit d’une combinaison maladroite de concepts. Mais Tableau n’émet pas de jugements et vous permettra de poser n’importe quelle question de votre choix, que vous le souhaitiez ou non. C’est un point essentiel à retenir. Si vous choisissez Date3 alors que vous auriez dû utiliser Date1, Tableau génèrera une visualisation. Par contre, tous les champs de date n’ont pas la même signification et c’est à l’auteur de déterminer le champ à utiliser pour une analyse correcte.

Pour plus d’informations sur l’importance de la table dont un champ est issu, consultez ce billet de blog(Le lien s’ouvre dans une nouvelle fenêtre).

Que signifient les données manquantes ?

Il y a une différence entre un zéro et une valeur null.

Zéro signifie qu’une mesure a été effectuée et qu’il manque quelque chose. Nous connaissons la valeur et elle est égale à zéro. Si j’ai zéro contravention pour excès de vitesse, il est probable que je n’appuie pas beaucoup sur l’accélérateur.

  • NB : 0 et 1 sont souvent utilisés de façon interchangeable pour Vrai/Faux, ou d’autres valeurs binomiales telles que Oui/Non ou Réussite/Échec. Dans ce cas, zéro est utilisé comme une étiquette, et non comme une valeur numérique.

Null signifie que nous ne savons pas : nous n’avons pas mesuré quoi que ce soit ou nous n’avons pas enregistré les données. Mon casier judiciaire peut être vierge de toute contravention pour excès de vitesse, mais nous ignorons totalement si je roule vite ou non.

Les valeurs null peuvent représenter des données manquantes ou des données inexistantes.

  • Pour mon casier judiciaire, si la valeur des contraventions pour excès de vitesse est nulle, on peut imaginer qu’une contravention pour excès de vitesse n’a pas été enregistrée. Nous devrions supposer que des données manquent.
  • Les données inexistantes pourraient être enregistrées en tant que N/A, mais elles sont souvent tout simplement non enregistrées parce que nous n’avons pas besoin de suivre des choses impossibles. Combien de contraventions pour excès de vitesse ai-je reçues en étant dans un autobus ? Ces données ne seront probablement pas présentes dans l’ensemble de données. Dans une matrice de « modes de transport » et de « contraventions pour excès de vitesse », il y a des combinaisons qui n’ont tout simplement pas de sens. Nous pouvons supposer que les données sont inexistantes.

Lorsque les valeurs null véhiculent un sens

Il faut connaître les données pour être en mesure de déterminer si une valeur null est vraiment inconnue (manque d’informations sur le nombre de contraventions pour excès de vitesse) ou si elle représente des données inexistantes (manque d’informations sur les contraventions pour excès de vitesse en tant que passager d’autobus). Les données sont-elles suffisamment fiables pour qu’un manque d’information puisse être considéré comme des données inexistantes plutôt que comme des données manquantes ? Si l’on applique une expertise en la matière, les valeurs null peuvent avoir un sens.

En examinant à nouveau la table d’Abc, nous pouvons analyser les zones sans espaces réservés. Nous supposerons que ces données sont fiables et qu’une valeur null signifie que les données sont inexistantes plutôt qu’incomplètes.

L’absence d’espace réservé signifie qu’un auteur est né cette année-là (donc la ligne existe), et qu’un livre a été publié cette année-là (donc la colonne existe), mais le livre publié n’a pas été écrit par un auteur né cette année-là (de sorte que la cellule est vide). Nous pouvons attribuer une étiquette signifiante à cet espace vide : Aucune publication. Nous pourrions même faire des analyses sur ces valeurs null, par exemple, pour les dates présentes dans les données, combien d’années se sont écoulées pour chaque auteur sans qu’il publie un livre ?

Remarque : on constate également des lacunes dans le domaine des anniversaires. Aucun auteur n’est né en 2131 ou 2132, donc l’année passe de 2130 à 2133 (les lignes pour 2131 et 2132 n’existent pas). Ces années manquantes peuvent être interprétées comme « aucun livre dans cet ensemble de données n’avait d’auteurs nés dans ces années ». Toutefois, comme indiqué ci-dessus, lorsque l’on parle du domaine des champs de date, le fait qu’il manque des valeurs dans le domaine est une information importante à considérer lors de la création de relations ou du choix du champ à utiliser pour un en-tête ou un axe dans une visualisation.

Pour plus d’informations sur l’utilisation des valeurs null dans les relations, consultez ce billet de blog(Le lien s’ouvre dans une nouvelle fenêtre).

Exercices pratiques

Écrivez un titre pour chaque visualisation. Pouvez-vous décrire ce qui se passe en langage simple ? Téléchargez le classeur pour explorer les visualisations en direct. (Ce classeur utilise une version légèrement modifiée de l’Ensemble de données Bookshop et n’utilise que deux tables. Les champs de date ont été ajustés afin de pouvoir être utilisés comme champ relié.)

Pour lire la matrice des visualisations : 

  • Les barres indiquent le nombre d’éditions (violet) et le nombre de récompenses (vert) par an.
  • Chaque colonne comporte un champ de date différent pour l’axe. La colonne de gauche est Publication Year (Année de publication) de la table Edition, la colonne centrale est Year Won (Année avec récompense) de la table Award (Récompense), et la colonne de droite est un champ calculé qui a utilisé la date de publication. Par contre, si ce champ est null, il utilise Year Won (Année avec récompense) (ce calcul est utilisé pour s’assurer que les deux domaines sont pleinement représentés).
  • Chaque ligne est une relation différente selon la manière dont les tables Award et Edition sont combinées. La ligne supérieure relie les tables sur l’lD du livre, la ligne du milieu les relie sur l’année, et la ligne inférieure les relie à la fois sur l’ID de livre et l’année.
  • Les barres pour l’année 2183 sont plus épaisses afin de faciliter la comparaison. Dans la solution ci-dessous, c’est l’année dont les valeurs sont examinées en détail.
  • Notez que les deux visualisations en grisé contiennent des valeurs identiques.

Si vous êtes coincé

Parcourez chaque partie de la visualisation étape par étape. Examinez la structure de la source de données, l’axe et les en-têtes, ainsi que les champs utilisés pour les repères (et les tables dont ils sont issus). Pensez aux valeurs null et à ce qui pourrait expliquer leur présence. Affichez les données d’un ou de deux repères pour voir quels enregistrements qu’ils contiennent.

  • La source de données concerne les récompensées liées aux éditions sur l’ID de livre.
  • L’axe de date est l’année de publication
  • Les valeurs sont le nombre de récompenses et le nombre d’éditions.

Essayez de choisir un seul repère dans la visualisation et de le définir. Pour l’année 2183, la visualisation montre qu’il y a sept éditions et trois récompenses. Utilisez Afficher les données sous-jacentes pour étudier les enregistrements représentés dans chaque repère.

Éditions

Récompenses

Vous pouvez interpréter la visualisation comme « retourner les sept livres publiés en 2183, puis pour ces livres, la liste des récompenses qu’ils ont remportés indépendamment du moment où ils ont remporté la récompense ». TM925 a été publié initialement en 2179 et l’édition en couverture rigide a remporté deux récompenses cette année-là. En 2183, une édition différente du livre a été publiée, peut-être en livre de poche. La valeur de nombre de récompenses est liée au livre, et non à l’année.

Ainsi, la visualisation globale pourrait être interprétée comme « le nombre d’éditions publiées chaque année, et le nombre de récompenses remportées par les livres publiés cette année-là » ou « le nombre d’éditions publiées chaque année et le nombre de récompenses remportées par ces livres ».

Solution à l’exercice pratique

Ressources associées

Vous vous sentez un peu dépassé et vous voulez revenir en arrière ? Essayez Maîtriser les relations.

Prêt à vous attaquer aux calculs avec des relations ? Consultez Maîtriser les calculs dans les relations.

Pour plus d’informations sur les fondements techniques des relations expliqués par l’équipe de gestion des produits, consultez la série consacrée aux relations sur le blog Tableau.

Consultez également les podcasts vidéo consacrés aux relations sur le site Action Analytics(Le lien s’ouvre dans une nouvelle fenêtre), par exemple Pourquoi Tableau a-t-il inventé les relations ?(Le lien s’ouvre dans une nouvelle fenêtre) Cliquez sur « Video Podcast » dans Library(Le lien s’ouvre dans une nouvelle fenêtre) (Bibliothèque) pour afficher plus de titres.