Structurer les données pour l’analyse
Certains concepts sont fondamentaux pour comprendre la préparation des données et la manière de structurer les données pour l’analyse. Les données peuvent être générées, capturées et stockées dans une variété étourdissante de formats, mais lorsqu’il s’agit d’analyse, tous les formats de données ne naissent pas égaux.
La préparation des données est le processus qui consiste à rassembler des données bien formatées dans une seule table ou dans plusieurs tables associées afin de pouvoir les analyser dans Tableau. Cette préparation inclut à la fois la structure, c’est-à-dire les lignes et les colonnes, ainsi que divers aspects de la propreté des données, tels que les types de données corrects et les valeurs de données correctes.
Conseil : il peut être utile de parcourir la rubrique suivante avec un ensemble de données qui vous est propre. Si vous ne possédez pas encore un ensemble de données que vous pouvez utiliser, consultez nos conseils pour trouver des ensembles de données efficaces(Le lien s’ouvre dans une nouvelle fenêtre).
Incidence de la structure sur l’analyse
Vous ne pouvez pas nécessairement contrôler la structure de vos données. Le reste de cette rubrique suppose que vous avez accès aux données brutes et aux outils nécessaires pour les organiser, par exemple Tableau Prep Builder. Toutefois, dans certains cas, vous ne pourrez pas permuter ou agréger vos données comme vous le souhaitez. Il est souvent encore possible d’effectuer l’analyse, mais vous devrez peut-être modifier vos calculs ou votre méthode d’approche des données. Pour un exemple d’exécution d’une même analyse avec différentes structures de données, consultez Tableau Prep Day dans les Life Scenarios : Analyse avec la seconde date dans Tableau Desktop(Le lien s’ouvre dans une nouvelle fenêtre). Mais si vous pouvez optimiser la structure des données, il sera probablement rendre votre analyse beaucoup plus facile.
Structure des données
Tableau Desktop fonctionne de manière optimale avec les données qui sont dans des tables formatées en tant que feuilles de calcul, c’est-à-dire des données stockées en lignes et en colonnes, avec des en-têtes de colonne dans la première ligne. Comment devrait se présenter une ligne ou une colonne?
Qu’est-ce qu’une ligne?
Une ligne, ou un enregistrement, peut désigner tout élément depuis des d’informations sur une transaction dans un magasin de détail, des mesures météorologiques à un lieu précis jusqu’aux statistiques d’une publication sur les réseaux sociaux.
Il est important de savoir ce que représente un enregistrement (une ligne) dans les données. Il s’agit de la granularité des données.
Ici, chaque enregistrement est un jour | Ici, chaque enregistrement est un mois |
Conseil : une bonne pratique consiste à avoir un identifiant unique (UID), une valeur qui identifie chaque ligne comme un élément de données unique. Envisagez-le comme un numéro de sécurité sociale ou l’URL de chaque enregistrement. Dans Superstore, ce serait Row ID (ID de ligne). Notez que tous les ensembles de données ne disposent pas d’un identifiant unique, mais cela ne peut pas faire de mal d’en avoir un.
Essayez de vérifier que vous pouvez répondre à la question « Que représente une ligne dans l’ensemble de données? » Cela revient à répondre à la question « Que représente le champ TableName(Count)? ». Si vous n’arrivez pas à articuler votre réponse, les données risquent d’être mal structurées pour l’analyse.
Un concept lié à la définition d’une ligne est l’idée d’agrégation et de granularité, qui sont les extrémités opposées d’un spectre.
Agrégation
désigne la manière dont plusieurs valeurs de données sont combinées en une seule valeur, comme par exemple comptabiliser toutes les recherches Google pour Pumpkin Spice ou prendre la moyenne de toutes les températures relevées autour de Seattle un jour donné.
Par défaut, les mesures dans Tableau sont toujours agrégées. L’agrégation par défaut est SUM. Vous pouvez modifier l’agrégation sur des options telles que la moyenne, la médiane, le total distinct, le minimum, etc.
Granularité
La granularité fait référence au degré de détail des données. Que représente une ligne ou un enregistrement dans l’ensemble de données? Une personne atteinte de malaria? Le nombre total de cas de paludisme d’une province pour le mois? C’est ce qu’on appelle la granularité.
Il est essentiel de connaître la granularité des données pour pouvoir travailler avec des expressions de niveau de détail (LOD).
Il est essentiel de comprendre les concepts d’agrégation et de granularité pour de nombreuses raisons. Ils ont des répercussions sur des éléments tels que la recherche d’ensembles de données utiles, la création de la visualisation souhaitée, la relation ou la jointure correcte entre des données et l’utilisation des expressions LOD.
Conseil : Pour plus d’informations, consultez Agrégation de données dans Tableau.
Qu’est-ce qu’un champ ou une colonne?
Une colonne de données Tableau apparaît dans Tableau Desktop sous forme de champ dans le volet de données, mais il s’agit essentiellement de termes interchangeables. (Nous conservons le terme colonne dans Tableau Desktop pour l’utiliser dans l’étagère Colonnes et Lignes et pour décrire certaines visualisations) Un champ de données doit contenir des éléments qui peuvent être regroupés dans une relation plus large. Les éléments eux-mêmes sont appelés valeurs ou membres (seules les dimensions discrètes contiennent des membres).
Les valeurs autorisées dans un champ donné sont déterminées par le domaine du champ (voir la remarque ci-dessous). Par exemple, une colonne pour les « rayons d’épicerie » pourrait contenir les membres « charcuterie », « boulangerie », « produits », etc., mais elle n’inclurait pas « pain » ou « salami » car ce sont des articles et non des rayons. En d’autres termes, le domaine du champ des rayons est limité aux éventuels rayons d’épicerie.
En outre, un ensemble de données bien structuré comporterait une colonne pour « Ventes » et une colonne pour « Bénéfices », et non une seule colonne pour « Argent », car les bénéfices sont un concept distinct des ventes.
Le domaine du champ « Ventes » intégrerait les valeurs ≥ 0, puisque les ventes ne peuvent pas être négatives.
Le domaine du champ « Bénéfices », par contre, comprendrait toutes les valeurs, puisque les bénéfices peuvent être négatifs.
Remarque : le domaine peut également signifier les valeurs présentes dans les données. Si la colonne « rayon d’épicerie » contenait par erreur « salami », selon cette définition, cette valeur serait dans le domaine de la colonne. Les définitions sont légèrement contradictoires. L’une est constituée des valeurs qui pourraient ou devraient être présentes, l’autre des valeurs qui sont réellement présentes
Catégorisation des champs
Chaque colonne de la table de données se présente sous la forme d’un champ, qui apparaît dans le volet Données de Tableau Desktop. Les champs dans Tableau Desktop doivent être soit une dimension, soit une mesure (séparés par une ligne dans le volet Données) et être soit discrets, soit continus (codage couleur : les champs bleus sont discrets, et les champs verts sont continus).
Les dimensions sont qualitatives, c’est-à-dire qu’elles ne peuvent pas être mesurées mais sont plutôt décrites. Les dimensions sont souvent des choses comme la ville ou le pays, la couleur des yeux, la catégorie, le nom de l’équipe, etc. Les dimensions sont généralement discrètes.
Les mesures sont quantitatives, c’est-à-dire qu’elles peuvent être mesurées et enregistrées avec des nombres. Les mesures peuvent être des choses comme les ventes, la hauteur, les clics, etc. Dans Tableau Desktop, les mesures sont automatiquement agrégées; l’agrégation par défaut est SUM. Les mesures sont généralement continues.
Discret signifie individuellement séparé ou distinct. Toyota se distingue de Mazda. Dans Tableau Desktop, les valeurs discrètes sont intégrées dans la vue sous la forme d’étiquette et elles créent des volets.
Continu signifie former un ensemble continu et ininterrompu. 7 est suivi de 8, avec la même distance jusqu’à 9, et 7,5 se situerait à mi-chemin entre 7 et 8. Dans Tableau Desktop, les valeurs continues apparaissent dans la vue en tant qu’axe.
Les dimensions sont généralement discrètes, et les mesures sont généralement continues. Ce n’est cependant pas toujours le cas. Les dates peuvent être discrètes ou continues.
Les dates sont des dimensions et sont automatiquement intégrées en tant que valeurs discrètes (c’est-à-dire des parties de date, par exemple « Août », qui considère le mois d’août sans tenir compte d’autres informations comme l’année). Une courbe de tendance appliquée à une chronologie avec des dates discrètes sera divisée en plusieurs courbes de tendance, une par volet.
Nous pouvons choisir d’utiliser des dates continues si nous le préférons (c’est-à-dire des dates tronquées comme « Août 2024 », qui est différent de « Août 2025 »). Une courbe de tendance appliquée à une chronologie avec des dates continues aura une seule courbe de tendance pour tout l’axe des dates.
Conseil : Pour plus d’informations, consultez Dimensions et mesures, Bleu et vert.
Dans Tableau Prep, il n’existe aucune distinction pour les dimensions ou les mesures. Il est toutefois important de comprendre les concepts qui sous-tendent les valeurs discrètes ou continues, par exemple pour comprendre la présentation détaillée ou résumée des données dans le volet Profil.
Détails : la vue détaillée montre chaque élément de domaine sous forme d’étiquette discrète et inclut une barre de défilement visuelle pour fournir un aperçu visuel de toutes les données.
Résumé : la vue résumée montre les valeurs sous forme d’histogramme sur un axe continu.
Compartimentage et histogrammes
Un champ comme l’âge ou le salaire est considéré comme continu. Il existe une relation entre l’âge de 34 et 35 ans, et 34 est aussi éloigné de 35 que 35 est éloigné de 36. Par contre, une fois que nous avons dépassé l’âge de 10 ans environ, nous cessons généralement d’employer des expressions telles que « 9 ans et demi » ou « 7 ans ¾ ». Nous sommes déjà en train de compartimenter notre âge par tranches d’un an. Une personne de 12 850 jours est plus âgée qu’une personne de 12 790 jours, mais nous traçons une ligne et disons qu’elles ont toutes deux 35 ans. De même, les groupes d’âge sont souvent utilisés à la place des âges réels. Les prix des billets de cinéma enfants peuvent être réservés aux enfants de 12 ans et moins, ou une enquête peut vous demander de sélectionner votre tranche d’âge, par exemple 20-24, 25-30, etc.
Les histogrammes sont utilisés pour visualiser la distribution des données numériques en utilisant le compartimentage. Un histogramme est similaire à un graphique à barres, mais au lieu de catégories discrètes par barre, les rectangles composant l’histogramme couvrent un compartiment d’axe continu, par exemple la plage du nombre de fleurs (0-4, 5-9, 10-14, etc.). La hauteur des rectangles est déterminée par la fréquence ou le nombre de ces valeurs. Ici, l’axe y correspond au nombre de plantes relevant de chaque compartiment. Sept plantes ont 0-4 fleurs, deux plantes ont 5-9 fleurs, et 43 plantes ont 20-24 fleurs.
Dans Tableau Prep, la vue sommaire est un histogramme des valeurs compartimentées. La vue détaillée montre la fréquence pour chaque valeur et comporte une barre de défilement visuelle sur le côté qui montre la distribution globale des données.
Vue résumée | Vue détaillée |
Distributions et valeurs atypiques
Voir la distribution d’un ensemble de données peut aider à repérer les valeurs atypiques.
Distribution : la forme des données dans un histogramme, bien que cela dépende de la taille des compartiments. Lorsque vous êtes capable de voir toutes vos données dans un histogramme, vous pouvez identifier si les données semblent correctes et complètes. La forme de la distribution ne sera utile que si vous connaissez les données et pouvez interpréter si la distribution a un sens ou non.
Par exemple, si nous examinons un ensemble de données sur le nombre de foyers disposant de l’Internet à haut débit entre 1940 et 2017, nous nous attendons à une distribution très inégale. Toutefois, si nous examinons le nombre de foyers disposant de l’Internet à haut débit de janvier 2017 à décembre 2017, nous nous attendons à une répartition assez uniforme.
Si nous examinons un ensemble de données de recherches Google pour « Pumpkin Spice Latte », nous nous attendons à un pic assez important à l’automne, alors que les recherches « convertir Celsius en Fahrenheit » seraient probablement assez stables.
Valeur atypique : une valeur qui est extrême par rapport à d’autres valeurs. Les valeurs atypiques peuvent être correctes ou indiquer une erreur.
Certaines valeurs atypiques sont correctes et indiquent des anomalies réelles; elles ne doivent pas être supprimées ni modifiées.
Certaines valeurs atypiques indiquent des problèmes de propreté des données, par exemple un salaire de 50 $ au lieu de 50 000 $ parce qu’un point a été tapé au lieu de la virgule.
Imaginez une vue de ce type :
À première vue, elle semble normale. Mais si, au lieu d’une liste d’étiquettes, elle était tracée sur un axe continu de compartiments, elle se présenterait ainsi :
Et il est beaucoup plus évident que la dernière observation est plus éloignée de la première et peut être une valeur atypique en raison d’une erreur.
Types de données
Les bases de données, à la différence des feuilles de calcul, appliquent généralement des règles strictes sur les types de données. Les types de données classifient les données dans un champ donné et fournissent des informations sur la façon dont les données doivent être formatées, interprétées et sur les opérations qui peuvent être effectuées sur ces données. Par exemple, des opérations mathématiques peuvent être appliquées à des champs numériques et des champs géographiques peuvent être cartographiés.
Tableau Desktop détermine si un champ est une dimension ou une mesure, mais les champs ont d’autres caractéristiques qui dépendent de leur type de données. Ils sont indiqués par l’icône de chaque champ (bien que certains types partagent une icône). Tableau Prep utilise les mêmes types de données. Si le type de données est appliqué à une colonne et qu’une valeur existante ne correspond pas au type de données qui lui a été attribué, elle peut être affichée comme null (car « violet » ne signifie rien en tant que nombre).
Certaines fonctions nécessitent des types de données spécifiques. Par exemple, vous ne pouvez pas utiliser CONTAINS avec un champ numérique. Les fonctions de type sont utilisées pour modifier le type de données d’un champ. Par exemple, DATEPARSE peut prendre une date texte dans un format spécifique et en faire une date, permettant ainsi des opérations telles que l’exploration hiérarchique automatique dans la vue.
Icône | Type de données |
---|---|
Valeurs texte (chaîne de caractères) | |
Valeurs de date | |
Valeurs de date et d’heure | |
Valeurs numériques | |
Valeurs booléennes (relationnelles uniquement) | |
Valeurs géographiques (utilisées dans les cartes) |
Conseil : pour plus d’informations, consultez l’article d’aide sur les types de données.
Permutation et annulation de la permutation des données
Les données conviviales pour les utilisateurs sont souvent capturées et enregistrées dans un format large, avec de nombreuses colonnes. Les données lisibles par les machines (qui ont la préférence de Tableau) sont plus performantes dans un format haut, avec moins de colonnes et plus de lignes.
Remarque : traditionnellement, permuter les données signifie passer de la hauteur à la largeur (colonnes à lignes), et annuler la permutation signifie passer de la largeur à la hauteur (lignes à colonnes). Cependant, Tableau utilise le mot permuter pour désigner le passage de large (convivial pour les utilisateurs) à haut (lisible par les machines) en transformant les colonnes en lignes. Dans ce document, le terme permuter se réfère au sens du mot selon Tableau. Pour plus de clarté, il peut être utile de préciser « permuter les colonnes en lignes » ou « permuter les lignes en colonnes ».
Pour plus d’informations, consultez les articles d’aide Permuter vos données et Conseils pour utiliser vos données.
Données larges
Dans l’ensemble de données de l’OMS sur le paludisme, il y a une colonne par pays, puis une colonne par année. Chaque cellule représente le nombre de cas de paludisme pour ce pays et cette année. Dans ce format, nous avons 108 lignes et 16 colonnes.
Il est facile pour une personne de lire et de comprendre ce format. Cependant, si nous introduisons ces données dans Tableau Desktop, nous obtenons un champ par colonne. Nous avons un champ pour 2000, un champ pour 2001, un champ pour 2002, etc.
En d’autres termes, 15 champs qui représentent tous la même chose (le nombre de cas de paludisme signalés) et aucun champ unique pour le temps. Ce format rend très difficiles les analyses dans le temps, car les données sont stockées dans des champs séparés.
Q : Comment créer une carte qui indique le nombre total de cas de paludisme par pays entre 2000 et 2014?
R : Créez un champ calculé pour additionner toutes les années.
Une autre indication que ce format n’est pas idéal pour l’analyse est le fait que nous ne disposons nulle part d’informations sur la signification des valeurs réelles. Pour l’Algérie en 2012, nous avons la valeur 55. Cinquante-cinq quoi? La structure des données ne le fait pas clairement apparaître.
Si le nom de la colonne ne décrit pas les valeurs mais transmet plutôt des renseignements supplémentaires, c’est un signe que les données doivent être permutées.
Données hautes
Si nous permutons les données, nous remodelons les données du large vers le haut. Maintenant, au lieu d’avoir une colonne pour chaque année, nous avons une seule colonne, Année, et une nouvelle colonne, Cas signalés. Dans ce format, nous avons 1606 lignes et 3 colonnes. Ce format de données est plus haut que large.
Maintenant, dans Tableau Desktop, nous avons un champ pour l’année et un champ pour les cas signalés ainsi que le champ d’origine Pays. Il est beaucoup plus facile de faire des analyses car chaque champ représente une qualité unique de l’ensemble des données : lieu, temps et valeur.
Q : Comment créer une carte qui indique le nombre total de cas de paludisme par pays entre 2000 et 2014?
R : Utilisez le champ « Cas signalés ».
Il est maintenant facile de voir que pour l’Algérie en 2012, le chiffre 55 fait référence au nombre de cas signalés (parce que nous avons pu étiqueter cette nouvelle colonne).
Remarque : dans cet exemple, les données larges consistaient en un seul enregistrement par pays. Avec le format de données hautes, il y a maintenant 15 lignes pour chaque pays (une pour chacune des 15 années des données). Il est important de garder à l’esprit qu’il y a maintenant plusieurs lignes par pays.
S’il y avait une colonne pour la superficie des terres, cette valeur serait répétée pour chacune des 15 lignes pour chaque pays dans une structure de données hautes. Si vous avez créé un diagramme à barres en faisant apparaître Pays en lignes et Superficie en colonnes, par défaut, la vue additionnera la superficie des 15 lignes par pays.
Pour certains champs, il peut être nécessaire de compenser les valeurs de double comptage par une agrégation avec une moyenne ou un minimum plutôt que par une somme ou un filtrage.
Normalisation
Les bases de données relationnelles sont composées de plusieurs tables qui peuvent être reliées ou liées entre elles d’une manière ou d’une autre. Chaque table contient un identifiant unique, ou clé, par enregistrement. Avec une relation ou une jointure sur des clés, les enregistrements peuvent être liés pour fournir plus d’information que celle contenue dans une seule table. Les informations contenues dans chaque table dépendent du modèle de données utilisé, mais le principe général est de réduire les doublons.
Par exemple, pensez à la planification d’un événement tel qu’un mariage. Nous devons garder une trace des informations au niveau des groupes (comme les familles ou les couples) ainsi qu’au niveau des individus.
On pourrait créer une table qui regrouperait toutes les informations :
Toutefois, si une adresse est incorrecte et doit être corrigée, elle doit l’être sur plusieurs lignes, ce qui peut entraîner des erreurs ou des conflits. Une meilleure structure consiste à créer deux tables, l’une pour les informations relatives au groupe (comme l’adresse et si l’invitation a été envoyée) et l’autre pour les informations relatives aux individus (pour des informations telles que l’attribution des places et les restrictions alimentaires).
Table du groupe | Table des individuels |
Il est beaucoup plus facile de suivre et d’analyser l’information au niveau du groupe dans la table du groupe et l’information au niveau de l’individu dans la table des individus. Par exemple, le nombre de chaises nécessaires peut être obtenu à partir du nombre d’enregistrements « Présent = Oui » dans la table des individus, et le nombre de timbres nécessaires pour les remerciements peut être obtenu à partir du nombre d’enregistrements dans la table de groupe où « Cadeau » n’est pas nul.
Le processus consistant à diviser toutes les données en plusieurs tables - et à déterminer quelle table contient quelles colonnes - est appelé normalisation. La normalisation permet de réduire les données redondantes et de simplifier l’organisation de la base de données.
Cependant, il peut arriver que les informations nécessaires couvrent plusieurs tables. Par exemple, que se passerait-il si nous voulions équilibrer la répartition des postes (individuels) de manière à ce que les groupes du côté de la mariée se mêlent aux groupes du côté du marié? (L’affiliation de la mariée ou du marié est suivie au niveau du groupe) Pour y parvenir, nous devons relier les tables ensemble afin que les individus soient associés aux informations concernant leur groupe. Une normalisation correcte ne consiste pas seulement à décomposer des tables, elle nécessite également la présence d’un champ relié partagé ou d’un identifiant unique qui peut être utilisé pour recombiner les données. Ici, ce champ relié est Groupe. Ce champ est présent dans les deux tables, nous pouvons donc effectuer une jointure sur ce champ et revenir à notre format original de table unique. Il s’agit d’une structure dénormalisée.
Alors pourquoi n’avons-nous pas simplement conservé la table d’origine dénormalisée? Elle était plus difficile à gérer et stockait des informations redondantes. À l’échelle, le niveau de duplication des données peut être massif. Le stockage répété des mêmes informations n’est pas efficace.
Les tables normalisées présentent quelques propriétés clés :
Chaque ligne doit avoir un identifiant unique
Chaque table a besoin d’une ou plusieurs colonnes qui peuvent être utilisées pour la relier aux autres tables (clé).
Ces colonnes partagées (clés) sont utilisées pour relier ou lier des tables ensemble à nouveau. Pour nos données, la clause de relation ou de jointure s’appliquerait sur le champ Groupe dans chaque table.
Types de jointure
Bien que la méthode par défaut pour combiner les données dans Tableau Desktop soit la relation, dans certains cas, vous pouvez lier des tables dans Tableau Desktop ou Tableau Prep Builder. Pour un aperçu de base des jointures et des types de jointure, consultez Lier vos données.
Données « propres »
En 2014, Hadley Wickham a publié un article dans le Journal of Statistical Software intitulé « Tidy Data » (août 2014, volume 59, numéro 10). Cet article fait un excellent travail de présentation d’un cadre de données bien structuré pour l’analyse. L’article est disponible ici (Portefeuille académique de Hadley Wickham)(Le lien s’ouvre dans une nouvelle fenêtre) ou ici (hébergé par r-project.org(Le lien s’ouvre dans une nouvelle fenêtre)).
Remarque : l’article est hébergé sur des sites Web externes. Tableau décline toute responsabilité quant à l’exactitude ou l’actualité des pages gérées par les fournisseurs externes. Contactez les propriétaires si vous avez des questions concernant son contenu.