Trouver des ensembles de données efficaces

Un bon moyen d’apprendre à utiliser Tableau Desktop (ou de créer un échantillon ou un contenu de faisabilité) est de trouver un ensemble de données que vous jugez intéressant. Lorsque vous avez de véritables questions auxquelles vous voulez répondre avec des données, les étapes de l’analyse deviennent plus faciles et plus significatives.

La réalité des ensembles de données

Si vous cherchez un ensemble de données qui ne se compose pas de données officielles sanctionnées par les entreprises, tenez compte de deux faits incompressibles.

Vous ne trouverez pas ce que vous cherchez.

  • Essayez d’éviter les attentes strictes quant à vos besoins.
  • Restez flexible et ouvert d’esprit quant au contenu utilisable pour un projet donné.
  • Parfois, les données que vous voulez se trouvent derrière un verrou d’accès payant - décidez si cela en vaut la peine ou non.

Vous devrez nettoyer les données.

Composants d’un ensemble de données efficace

Un ensemble de données efficace est celui qui convient à votre objectif. Tant que ce besoin est satisfait, votre ensemble de données remplit sa fonction. Toutefois, certaines considérations peuvent vous aider à éliminer les ensembles de données qui ne sont pas susceptibles de convenir à votre objectif. En règle générale, recherchez les ensembles de données qui remplissent les conditions suivantes :

  1. Contiennent les éléments dont vous avez besoin
  2. Contiennent des données désagrégées
  3. Contiennent au moins quelques dimensions et quelques mesures
  4. Disposent de métadonnées solides ou d’un dictionnaire de données
  5. Sont utilisables (les données ne sont pas dans un format propriétaire, trop compliqué ou trop lourd)
Quels sont les avantages de Superstore?

1. Un ensemble de données performant comporte les éléments dont vous avez besoin pour vos objectifs

Si vous recherchez un ensemble de données pour créer une visualisation spécifique ou pour mettre en valeur des fonctionnalités particulières, assurez-vous que l’ensemble de données comporte les types de champs dont vous avez besoin. Par exemple, les cartes sont un excellent support visuel mais nécessitent des données géographiques. Les démonstrations de base impliquent souvent une exploration en cascade des dates. Les données nécessitent donc au moins un champ de date (et il faudrait qu’il soit d’une granularité supérieure à une seule année pour permettre une exploration en cascade). Tous les ensembles de données n’ont pas besoin de tous ces éléments. Vous devez déterminer ce dont vous avez besoin pour votre objectif et ne pas perdre de temps avec des ensembles de données auxquels il manque des éléments clés.

Éléments courants d’analyse :

  • Dates
  • Données géographiques
  • Données hiérarchiques
  • Mesures « intéressantes » : soit une variation de grande ampleur, soit des valeurs positives et négatives

Certaines fonctionnalités ou certains types de données peuvent nécessiter des caractéristiques spécifiques des données, telles que : 

  • Groupements
  • Prévisions
  • Courbes de tendances
  • Filtres utilisateur
  • Calculs spatiaux
  • Certains calculs
  • Graphiques à puces
  • Graphiques de contrôle

2. Un ensemble de données performant est constitué de données désagrégées (brutes)

Si les données sont trop agrégées, vous ne pouvez pas faire grand-chose pour l’analyse. Par exemple, si vous souhaitez examiner les tendances des personnes qui consultent « Pumpkin Spice » sur Google mais que vous disposez de données annuelles, vous ne pouvez qu’obtenir un aperçu de très haut niveau. L’idéal serait de mettre la main sur des données quotidiennes, afin de pouvoir constater le pic spectaculaire atteint à la date à laquelle Starbucks a lancé #PSL.

Ce qui est considéré comme des données désagrégées peut varier selon l’analyse. Notez que pour des raisons de confidentialité ou de commodité, certains ensembles de données ne seront jamais entièrement granulaires. Par exemple, il est peu probable que vous trouviez un ensemble de données avec une déclaration au cas par cas des cas de paludisme par adresse, de sorte que les totaux mensuels par zone géographique pourraient être suffisamment granulaires.

Agrégation et granularité

3. Un ensemble de données performant comporte des dimensions et des mesures

De nombreux types de visualisation requièrent des dimensions et des mesures

  • Si vous n’avez que des dimensions, vous êtes largement limité à totaliser, à calculer des pourcentages ou à utiliser le champ Total de tables.
  • Si vous n’avez que des mesures, vous ne pouvez pas diviser les valeurs par quoi que ce soit. Vous pouvez désagréger les données entièrement ou travailler avec l’agrégation globale SUM ou AVG, etc.

Cela ne signifie pas qu’un ensemble de données comportant seulement des dimensions est inutile. Les données démographiques sont un exemple de données comportant beaucoup de dimensions, et une grande partie de l’analyse relative à la démographie est basée sur les totaux ou les pourcentages. Mais pour obtenir un ensemble de données plus riche sur le plan analytique, il faut au moins quelques dimensions et mesures.

Dimensions et mesures, Discret et continu
Champs créés par Tableau

4. Un ensemble de données efficace comporte des métadonnées ou un dictionnaire de données

Un ensemble de données ne peut être utile que si vous savez à quoi correspondent ces données. Il est particulièrement frustrant, dans la quête de données performantes, d’ouvrir un fichier qui se présente ainsi :

Vue sous forme de feuille de calcul de données entièrement numériques

Que signifie une source de 4 ou de 12? Et quelles sont les informations contenues dans les champs OTU0-OTU4?

Un ensemble de données efficace est celui qui comporte soit des champs et des membres bien étiquetés, soit un dictionnaire de données qui vous permet de réétiqueter les données vous-même. Pensez à Superstore : les champs et leurs valeurs sont immédiatement évidents, tels que la catégorie et ses membres (technologie, mobilier et fournitures de bureau). Ou, pour l’ensemble des données sur les microbiomes dans l’image ci-dessus, il existe un dictionnaire de données(Le lien s’ouvre dans une nouvelle fenêtre) qui explique chaque source (4 est la matière fécale et 12 l’estomac) et la taxonomie de chaque OTU (OTU3 est une bactérie du genre Parabacteroides).

Les dictionnaires de données peuvent également être appelés métadonnées, indicateurs, définitions de variables, glossaires, ou bien d’autres termes. Au bout du compte, un dictionnaire de données fournit des informations sur les noms des colonnes et les membres d’une colonne. Ces informations peuvent être introduites dans la source de données ou la visualisation de plusieurs façons, notamment :

  • Renommer les colonnes pour qu’elles soient plus faciles à comprendre (vous pouvez le faire dans l’ensemble de données lui-même ou dans Tableau).
  • Ré-aliaser les membres du champ (vous pouvez le faire dans l’ensemble de données lui-même ou dans Tableau).
  • Créer des calculs pour ajouter les informations du dictionnaire de données.
  • Commenter le champ dans Tableau (les commentaires n’apparaissent pas sur les visualisations publiées, mais seulement dans l’environnement de création).
  • Utiliser le dictionnaire de données comme autre source de données et combiner les deux sources de données.

La perte d’un dictionnaire de données peut rendre un ensemble de données inutilisable. Si vous ajoutez un ensemble de données à vos favoris, ajoutez-y également le dictionnaire de données. En cas de téléchargement, téléchargez les deux et conservez-les au même endroit.

5. Un ensemble de données efficace est celui que vous pouvez utiliser

Tant que vous pouvez comprendre l’ensemble de données et qu’il contient les informations dont vous avez besoin, même un petit ensemble de données peut être très utile pour l’analyse. Les petits ensembles de données sont également faciles à stocker, à partager et à publier, et peuvent être performants.

De même, il se peut que vous trouviez l’ensemble de données « parfait » pour vos besoins, mais s’il nécessite un effort irréaliste de nettoyage, c’est qu’il n’est pas si parfait après tout. Il est important de savoir renoncer à un ensemble de données trop désorganisé.

Par exemple, cet ensemble de données provient d’un article de Wikipédia sur les fréquences relatives des lettres. Au départ, il comportait 84 lignes et 16 colonnes (permutées pour former 1 245 lignes et 3 colonnes). Le fichier Excel est de 16KB. Mais avec certains groupes, ensembles, calculs et autres manipulations, il permet une analyse robuste et des visuels intéressants.

Cliquez sur l’image pour télécharger le classeur.

Réétiqueter vos données

Une fois que vous avez trouvé un ensemble de données efficace, il vous faudra souvent le réétiqueter. Le réétiquetage des données peut être utile pour créer des données factices pour des échantillons ou des démonstrations, ou pour rendre les données plus lisibles.

Le fait de renommer un champ modifie son affichage dans Tableau, par exemple en renommant « Ventes » en « Ventes de pipelines » ou « État » en « Province ».

Le ré-aliasing modifie la façon dont les membres d’un champ sont affichés, par exemple en ré-aliasant les valeurs d’un champ Pays de manière à ce que CHN devienne la Chine et RUS la Russie.

  • Les valeurs dans un champ de dimension discrète sont appelées membres. Seuls les membres peuvent être ré-aliasés. Envisagez un champ de mesure pour la température. Une valeur de 54 °F ne peut pas être modifiée sans changer les données elles-mêmes. Mais lorsque vous ré-aliasez le membre « CHN » en « Chine » dans un champ Pays, il s’agit de la même information, qui est simplement étiquetée d’une autre manière.

Renommer et ré-aliaser signifie quasiment la même chose. Selon la convention de Tableau, les champs sont nommés et les membres sont aliasés. Pour plus d’informations, consultez Organiser et personnaliser des champs dans le volet Données et Créer des alias pour renommer des membres de la vue.

Remarque : le renommage ou le ré-aliasing modifie seulement l’apparence dans Tableau Desktop. Aucune modification n’est répercutée sur les données sous-jacentes.

Réétiqueter pour fabriquer des données factices

Le réétiquetage des ensembles de données existants est un excellent moyen de rendre les échantillons ou le contenu de la démonstration plus convaincants.

  1. Utilisez un ensemble de données facile (comme Superstore) pour créer ce que vous souhaitez (type de graphique spécifique, présentation de certaines fonctionnalités, etc.)
  2. Renommez les champs pertinents, modifiez les infobulles et modifiez à votre convenance les aspects textuels pour masquer ce que les données représentent réellement.

Important : ne le faites que si l’information est clairement factice. Faites attention à ce que les gens ne pensent pas qu’il s’agisse de vraies données, qu’ils pourraient tenter d’utiliser pour l’analyse. Par exemple, utilisez des noms farfelus ou des noms de champs sans signification comme des couleurs ou des animaux.

Ré-aliaser pour rendre les données plus faciles à utiliser

Il est plus efficace de stocker les données sous forme de valeurs numériques plutôt que de chaînes de caractères, bien que le codage numérique puisse rendre les données plus difficiles à comprendre. Pour les petits ensembles de données, cela n’aura probablement pas d’impact sur les performances. Il faut dans ce cas privilégier la possibilité de comprendre facilement les données.

Un inconvénient du ré-aliasing est que vous n’avez plus accès à ces valeurs numériques (ce qui rend plus difficile le tri, l’attribution de dégradés de couleurs, etc.). Envisagez de dupliquer le champ et de ré-aliaser la copie. Sinon, un calcul dans Tableau peut être un bon moyen de préserver les informations d’origine tout en les rendant plus facilement compréhensibles.

Ré-aliaser avec la fonction CASE

Les calculs peuvent être très puissants pour le ré-aliasing. Par exemple, les fonctions CASE vous permettent de dire, par exemple, « lorsque ce champ a une valeur de A, donnez-moi X. Lorsque la valeur est B, donnez-moi Y ».

Ici, la fonction CASE examine l’échelle F dans un ensemble de données sur les tornades et fournit la description écrite associée à chaque valeur numérique :

CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END

Nous pouvons maintenant choisir d’utiliser soit le champ original « F-scale » (0-5), soit le champ « F-scale damage description » dans la visualisation.

Conseils pour la recherche d’ensembles de données

Remarque : assurez-vous que vous pouvez répondre à la question « Que représente une ligne (alias un enregistrement) dans l’ensemble de données? » Si vous n’arrivez pas à l’articuler, vous risquez de ne pas comprendre suffisamment bien les données pour pouvoir les utiliser ou elles peuvent être mal structurées pour l’analyse.

  • Gardez une trace de la provenance des données.
  • Conservez les informations du dictionnaire de données avec les données elles-mêmes.
  • Évitez les données obsolètes si vous avez besoin que le contenu reste à jour. Recherchez :
    • des données actualisables (stocks, météo, rapports publiés régulièrement, etc.)
    • des données intemporelles (la masse moyenne des différents animaux ne va pas changer d’une année à l’autre)
    • des données que vous pouvez pérenniser en les remplaçant artificiellement par des dates historiques ou futures
  • Essayez simplement de Googler ce que vous recherchez, vous pourriez avoir des surprises.
  • N’ayez pas peur de renoncer à un ensemble de données s’il nécessite trop de préparation.

Où rechercher des données

Où pouvez-vous rechercher des données? Il existe un nombre colossal de sources possibles pour les ensembles de données. Voici quelques options pour démarrer. Notez que la réalité des ensembles de données s’applique à ces sites. Vous ne trouverez probablement pas ce que vous avez en tête à un moment précis et vous devrez très probablement faire un peu de nettoyage pour que les données soient prêtes à être analysées.

Décharge de responsabilité : Bien que nous fassions tout notre possible pour que ces liens vers des sites externes soient précis, à jour et pertinents, Tableau ne peut pas garantir la précision ou l’actualité des pages gérées par des fournisseurs externes. Le fait d’inscrire un site ici ne constitue pas une approbation de son contenu ou de l’entreprise. Contactez le site externe pour des réponses aux questions concernant son contenu.

Tableau Public :(Le lien s’ouvre dans une nouvelle fenêtre) Tableau Public est une ressource remarquable pour les ensembles de données compatibles avec Tableau. Recherchez les classeurs qui traitent d’un sujet qui vous intéresse, parcourez-les pour trouver de l’inspiration, puis téléchargez le classeur pour accéder aux données. Vous pouvez aussi consulter des Échantillons de données(Le lien s’ouvre dans une nouvelle fenêtre).

Tables Wikipédia:(Le lien s’ouvre dans une nouvelle fenêtre) Obtenez des données à partir des tables Wikipédia en: copiant et collant dans une feuille de calcul, en copiant et collant directement dans Tableau, ou en utilisant Google Sheets et la fonction IMPORTHTML(Le lien s’ouvre dans une nouvelle fenêtre) pour créer une feuille de calcul Google des données.

Recherche d’ensembles de données sur Google :(Le lien s’ouvre dans une nouvelle fenêtre) « Un moteur de recherche pour unifier le monde fragmenté des ensembles de données en ligne »

Les données sont plurielles :(Le lien s’ouvre dans une nouvelle fenêtre) Abonnez-vous à une lettre d’information hebdomadaire contenant des ensembles de données, ou parcourez les archives(Le lien s’ouvre dans une nouvelle fenêtre).

Lundi de métamorphose :(Le lien s’ouvre dans une nouvelle fenêtre) « Rejoignez-nous chaque lundi pour travailler avec un ensemble de données donné et créer des visualisations plus performantes et plus efficaces et nous aider à rendre l’information plus accessible. » Vous pouvez voir ce que d’autres personnes ont fait avec le même ensemble de données, pour stimuler votre analyse ou trouver une source d’inspiration. Utilisez #makeovermonday(Le lien s’ouvre dans une nouvelle fenêtre) sur Twitter pour participer.

Autres sites