Nettoyer les données de fichiers Excel, CSV, PDF et Google Sheets à l’aide de l’Interpréteur de données
Lorsque vous suivez des données dans des feuilles de calcul Excel, vous les créez en ayant à l’esprit l’interface humaine. Pour améliorer la lisibilité de vos feuilles de calcul, vous pouvez inclure des éléments tels que des titres, des en-têtes empilés, des notes, peut-être des lignes et des colonnes vides pour ajouter des espaces blancs, et vous aurez aussi sans doute également plusieurs onglets de données.
Lorsque vous souhaitez analyser ces données dans Tableau, ces attributs à finalité esthétique rendent la tâche d’interprétation des données très difficile pour Tableau. C’est là qu’intervient l’Interpréteur de données.
Conseil : Bien que le composant enfichable Excel de Tableau ne soit plus pris en charge, l’Interpréteur de données peut vous aider à réorganiser vos données pour l’analyse dans Tableau.
Quelle est la fonction de l’Interpréteur de données ?
L’Interpréteur de données peut vous donner un coup de main lorsque vous nettoyez vos données. Il peut détecter divers éléments tels que les titres, les notes, les pieds de page, les cellules vides etc. et les ignorer pour identifier les champs et valeurs réels dans votre ensemble de données.
Il peut même détecter les tables supplémentaires et les sous-tables de sorte que vous pouvez travailler avec un sous-ensemble de vos données indépendamment des autres données.
Une fois que l’Interpréteur de données a passé son coup de baguette magique, vous pouvez vérifier son travail pour vous assurer qu’il a capturé les données souhaitées et les a identifiées correctement. Ensuite, vous pouvez apporter les ajustements nécessaires.
Après avoir sélectionné les données avec lesquelles vous souhaitez travailler, vous pouvez avoir besoin d’étapes de nettoyage supplémentaires, par exemple permuter vos données, fractionner des champs ou ajouter des filtres pour donner aux données la forme souhaitée avant de lancer votre analyse.
Remarque : si vos données ont besoin d’un nettoyage plus approfondi que celui proposé par l’Interpréteur de données, essayez Tableau Prep(Le lien s’ouvre dans une nouvelle fenêtre).
Activer l’Interpréteur de données et analyser les résultats
Depuis le volet Connexion, connectez-vous à une feuille de calcul Excel ou à un autre connecteur prenant en charge l’Interpréteur de données tel que les fichiers texte (.csv), les fichiers PDF ou Google Sheets.
Faites glisser une table vers l’espace de travail (si nécessaire), puis dans la page Source de données, dans le volet gauche, sélectionnez la case à cocher Utiliser l’interpréteur de données pour voir si l’Interpréteur de données peut vous aider à nettoyer vos données.
Remarque : lorsque vous nettoyez vos données à l’aide de l’Interpréteur de données, ce dernier nettoie toutes les données associées à une connexion dans la source de données. L’Interpréteur de données ne modifie pas les données sous-jacentes.
Dans le volet Données, cliquez sur Afficher les résultats pour vérifier les résultats de l’Interpréteur de données.
Une copie de votre source de données s’ouvre dans Excel dans l’onglet Clé pour l’interpréteur de données. Analysez la clé pour savoir comment lire les résultats.
Cliquez sur chaque onglet pour voir comment l’Interpréteur de données a interprété la source de données.
Si l’Interpréteur de données a trouvé des tables supplémentaires (également appelées tables détectées ou sous-tables), elles sont identifiées dans l’onglet <sheet name>_subtables avec soulignement de leurs plages de cellules. Un onglet séparé est également inclus pour chaque sous-table, avec un code de couleur qui identifie l’en-tête et les lignes de données.
Si l’Interpréteur de données ne fournit pas les résultats escomptés, désélectionnez la case à cocher Nettoyé avec l’interpréteur de données pour utiliser la source de données d’origine.
Pour remplacer la table actuelle avec l’une des tables détectées, faites glisser la table actuelle hors de l’espace de travail, puis faites glisser la table que vous souhaitez utiliser vers l’espace de travail.
Si l’Interpréteur de données a incorrectement identifié la plage de la table détectée, après avoir fait glissé la table détectée vers l’espace de travail, cliquez sur la flèche déroulante sur cette table, puis sélectionnez Modifier la table détectée pour ajuster les coins de la table détectée (cellule supérieure gauche et cellule inférieure droite de la table).
Une fois que vous avez en main les données avec lesquelles vous souhaitez travailler, vous pouvez appliquer toutes les opérations de nettoyage supplémentaires à vos données afin de pouvoir les utiliser.
Exemple de l’Interpréteur de données
Dans cet exemple, vous vous connectez à une feuille de calcul Excel contenant les données de crimes violents par ville et État pour l’année 2016. Cette feuille de calcul inclut plusieurs tables dans une feuille et quelques mises en forme supplémentaires.
Titre
Cellules d’en-tête fusionnées
Espace blanc supplémentaire
Sous-tables
Du fait de la mise en forme supplémentaire dans cette feuille de calcul, il est difficile pour Tableau de déterminer quels sont les en-têtes de champ et les valeurs.
Par exemple, il lit les données à la verticale et attribue à chaque colonne la valeur par défaut F1, F2, F3 (Champ 1, Champ 2, Champ 3) etc. Les cellules vides sont interprétées comme des valeurs null.
Pour voir si l’Interpréteur de données peut vous aider à nettoyer cet ensemble de données, nous sélectionnons l’option Utiliser l’interpréteur de données.
L’Interpréteur de données a détecté les libellés corrects des champs, a supprimé la mise en forme supplémentaire et a détecté plusieurs sous-tables. Les sous-tables sont répertoriées dans la section Feuilles du volet Données et sont nommées en utilisant le nom de la feuille d’origine et les plages de cellule de chaque sous-table.
Dans cet exemple, on distingue trois sous-tables : Crimes 2016 A4:H84, Crimes 2016 K5:L40 et Crimes 2016 O5:P56.
Pour examiner les résultats de l’Interpréteur de données plus étroitement, nous cliquons sur le lien Vérifiez les résultats dans le volet Données pour afficher une copie annotée de la feuille de calcul.
Nous voyons ici une copie des données d’origine, des codes couleur servant à distinguer les données identifiées en tant que données d’en-tête, et celles identifiées en tant que valeurs de champ.
L’onglet suivant nous présente les sous-tables que l’Interpréteur de données a détectées (encadrées par les plages de cellules).
Dans cet exemple, la première sous-table, Crimes 2016 A4:H84, contient les données principales avec lesquelles nous souhaitons travailler. Pour utiliser cette table comme notre table de données, nous pouvons simplement faire glisser la table d’origine hors de l’espace de travail puis faire glisser la nouvelle table vers l’espace de travail.
Une fois que nous avons les données avec lesquelles nous souhaitons travailler dans l’espace de travail, nous pouvons effectuer un nettoyage supplémentaire sur les données. Par exemple, nous pouvons :
Modifier les noms des champs afin qu’ils représentent les noms de ville, d’État et de mois.
Permutez les noms de mois.
Faites glisser la troisième sous-table Crimes 2016 o5:P56 et liez-la à la notre première sous-table sur le champ State afin d’inclure les données démographiques des États pour notre analyse.
Masquez les champs en double qui ont été ajoutés suite à la liaison.
Les résultats peuvent se présenter ainsi :
Nous sommes maintenant prêt à lancer l’analyse de nos données dans Tableau.
Lorsque l’Interpréteur de données n’est pas disponible
L’option Interpréteur de données peut ne pas être disponible pour les raisons suivantes :
La source de données est déjà dans un format que Tableau peut interpréter : Si Tableau Desktop n’a pas besoin d’aide supplémentaire de l’Interpréteur de données pour traiter une mise en forme unique ou des informations exceptionnelles, l’option Interpréteur de données n’est pas disponible.
Un grand nombre de lignes ou de colonnes : L’option Interpréteur de données n’est pas disponible lorsque vos données présentent les attributs suivants :
Les données contiennent plus de 2000 colonnes.
Les données contiennent plus de 3000 lignes et plus de 150 colonnes.
La source de données n’est pas prise en charge : L’Interpréteur de données est uniquement disponible pour les fichiers Microsoft Excel, les fichiers texte (.csv), les fichiers PDF et Google Sheets. Pour Excel, vos données doivent être aux formats .xls et .xlsx.