Comment fonctionne Expliquer les données

Utilisez la fonctionnalité Expliquer les données comme point de départ incrémentiel d’une exploration plus approfondie de vos données. Elle génère des explications possibles qui vous aident à voir les différentes valeurs constituant les repères analysés dans une vue ou s’y rapportant. Elle peut vous renseigner sur les caractéristiques des points de données dans la source de données et sur la façon dont les données peuvent être reliées (corrélations) à l’aide de la modélisation statistique. Ces explications vous fournissent un autre outil pour inspecter vos données et trouver des indices intéressants sur vos prochaines explorations.

Remarque : Expliquer les données est un outil qui permet de découvrir et de décrire les relations entre vos données. Il ne peut pas vous indiquer ce qui est à l’origine des relations, ni comment interpréter les données. C’est vous qui êtes l’expert de vos données. Votre connaissance du domaine et votre intuition sont essentielles pour déterminer les caractéristiques qu’il serait intéressant d’approfondir en utilisant différentes vues.

Pour des informations connexes sur le fonctionnement de l’outil Expliquer les données et sur la façon de l’utiliser pour compléter votre analyse, consultez ces présentations de la conférence Tableau :

Ce qu’est (et ce que n’est pas) la fonctionnalité Expliquer les données

Expliquer les données est :

  • Un outil et un flux de travail qui tirent parti de votre expertise.
  • Un outil qui met en évidence les relations dans vos données et vous oriente dans vos recherches suivantes.
  • Un outil et un flux de travail qui contribuent à accélérer l’analyse des données et à la rendre plus accessible à un plus grand nombre d’utilisateurs.

Expliquer les données n’est pas :

  • Un outil de test statistique.
  • Un outil servant à prouver ou réfuter des hypothèses.
  • Un outil qui vous apporte une réponse ou vous explique la causalité dans vos données.

Lors de l’exécution d’Expliquer les données sur les repères, gardez les points suivants à l’esprit :

  • Utilisez des données granulaires qui peuvent être agrégées. Cette fonction est conçue explicitement pour l’analyse de données agrégées. Cela signifie que vos données doivent être granulaires, mais les repères que vous sélectionnez pour Expliquer les données doivent être agrégés ou résumés à un niveau de détail supérieur. La fonctionnalité Expliquer les données ne peut pas être exécutée sur des repères désagrégés (à savoir les données au niveau de la ligne) au niveau de détail le plus granulaire.

  • Tenez compte de la forme, de la taille et de la cardinalité de vos données. La fonctionnalité Expliquer les données peut être utilisée avec des ensembles de données plus petits, mais exige tout de même que les données soient suffisamment étendues et contiennent assez de repères (granularité) pour permettre la création d’un modèle.

  • Ne présumez pas la causalité. La corrélation n’est pas la causalité. Les explications sont fondées sur des modèles de données, mais ne sont pas des explications causales.

    Une corrélation signifie qu’il existe une relation entre certaines variables de données, disons A et B. Vous ne pouvez pas conclure, simplement en voyant cette relation dans les données, que A cause B, ou B cause A, ou s’il se passe en fait quelque chose de plus compliqué. Les modèles de données sont exactement les mêmes dans chacun de ces cas et un algorithme ne peut pas faire la différence entre chaque cas. Ce n’est pas parce que deux variables semblent changer ensemble que l’une fait nécessairement changer l’autre. Un troisième facteur peut être à l’origine de ces deux changements, ou il peut s’agir d’une coïncidence et il peut ne pas y avoir de relation de cause à effet.

    Cependant, il arrive que vous ayez des connaissances extérieures qui ne se trouvent pas dans les données et qui vous aident à identifier ce qui se passe. Un type courant de connaissance externe est par exemple une situation où les données ont été recueillies dans le cadre d’une expérience. Si vous savez que B a été choisi en tirant à pile ou face, toute différence constante dans A (qui n’est pas seulement un bruit aléatoire) doit être causée par B. Pour une description plus longue et plus approfondie de ces concepts, consultez l’article Causal inference in economics and marketing(Le lien s’ouvre dans une nouvelle fenêtre) de Hal Varian.

Mode d’analyse et d’évaluation des explications

La fonction Expliquer les données exécute une analyse statistique sur un tableau de bord ou une feuille pour rechercher des repères aberrants, ou spécifiquement sur un repère que vous sélectionnez. L’analyse prend également en compte les points de données éventuellement liés de la source de données qui ne sont pas représentés dans la vue actuelle.

La fonctionnalité Expliquer les données prédit d’abord la valeur d’un repère en utilisant uniquement les données présentes dans la visualisation. Ensuite, les données qui se trouvent dans la source de données (mais pas dans la vue actuelle) sont prises en compte et ajoutées au modèle. Le modèle détermine la plage des valeurs de repère prévues, qui se situe à l’intérieur d’un écart-type de la valeur prévue.

Qu’est-ce qu’une plage attendue?

La valeur attendue d’un repère est la valeur médiane sur la plage de valeurs attendue dans les données sous-jacentes de votre visualisation. La plage attendue est la plage de valeurs comprises entre le 15e et le 85e centile que le modèle statistique prédit pour le repère analysé. Tableau détermine la plage attendue à chaque fois qu’il exécute une analyse statistique sur un repère sélectionné.

Les explications possibles sont évaluées à l’aide d’une modélisation statistique. Pour chaque explication, Tableau compare la valeur attendue à la valeur réelle.

valeurDescription
Plus élevée que prévu / Plus basse que prévuSi un résumé de la valeur attendue indique que le repère est inférieur ou supérieur à la valeur attendue, cela signifie que la valeur agrégée du repère se situe en dehors de la plage des valeurs qu’un modèle statistique prévoit pour le repère. Si un résumé de la valeur attendue indique que le repère est légèrement inférieur ou légèrement supérieur à la valeur prévue, ou encore qu’il se situe dans la plage de variation naturelle, cela signifie que la valeur agrégée du repère se situe dans la plage des valeurs prédites, mais qu’elle est inférieure ou supérieure à la médiane.
Valeur attendueSi un repère a une valeur attendue, cela signifie que sa valeur se situe dans la plage de valeurs attendues qu’un modèle statistique prédit pour le repère.
Variation aléatoireLorsque le repère analysé a un petit nombre d’enregistrements, il se peut qu’il n’y ait pas suffisamment de données disponibles dans Expliquer les données pour former une explication statistiquement significative. Si la valeur du repère se trouve hors de la plage attendue, Expliquer les données ne peut pas déterminer si cette valeur inattendue est due à une variation aléatoire ou à une différence significative dans les enregistrements sous-jacents.
Pas d’explicationLorsque la valeur du repère analysé se situe hors de la plage attendue et qu’elle ne correspond pas à un modèle statistique utilisé pour Expliquer les données, aucune explication n’est générée.

Modèles utilisés pour l’analyse

Expliquer les données crée des modèles de données dans une vue afin de prédire la valeur d’un repère puis détermine si un repère est supérieur ou inférieur aux valeurs attendues, compte tenu du modèle. Ensuite, elle prend en compte des informations supplémentaires, tel l’ajout de colonnes supplémentaires de la source de données à la vue, ou le marquage des valeurs atypiques au niveau des enregistrements, comme explications potentielles. Pour chaque explication potentielle, Expliquer les données adapte un nouveau modèle et évalue dans quelle mesure le repère est inattendu au regard des nouvelles informations. Les explications sont évaluées en tenant compte de la complexité (la quantité d’informations ajoutées à partir de la source de données) par rapport au degré de variabilité qui doit être expliqué. De meilleures explications sont plus simples que les variations qu’elles expliquent.

 

Type d’explicationÉvaluation

Valeurs extrêmes

Les valeurs extrêmes sont des repères agrégés qui sont des valeurs atypiques, basées sur un modèle de repères visualisés. Le repère sélectionné est considéré comme contenant une valeur extrême si la valeur de l’enregistrement se trouve dans les queues des valeurs attendues pour les données.

Une valeur extrême est déterminée en comparant le repère agrégé avec et sans valeur extrême. Si le repère devient moins surprenant suite à la suppression de cette valeur, il reçoit un score plus élevé.

Lorsqu’un repère contient des valeurs extrêmes, cela ne signifie pas automatiquement qu’il s’agit de valeurs atypiques ou que vous devriez les exclure de la vue. Ce choix dépend de votre analyse. L’explication consiste simplement à souligner une valeur extrême intéressante dans le repère. Par exemple, elle pourrait révéler une valeur erronée dans un enregistrement où une banane coûte 10 dollars au lieu de 10 cents. Ou encore, elle pourrait révéler qu’un vendeur en particulier a eu un excellent trimestre.

Nombre d’enregistrements

L’explication du nombre d’enregistrements modélise la somme agrégée en termes de total agrégé; la valeur moyenne des enregistrements la modélise en termes de moyenne agrégée. Mieux le modèle explique la somme, plus le score est élevé.

Cette explication décrit si la somme est intéressante parce que le total est élevé ou faible, ou parce que la moyenne est élevée ou faible.

Valeur moyenne du repère

Ce type d’explication est utilisé pour les repères agrégés qui sont des sommes. Il explique si le repère est cohérent avec d’autres repères car en termes de total agrégé ou de moyenne, en notant la relation SUM(X) = COUNT(X) * AVG(X).

Cette explication décrit si la somme est intéressante parce que le total est élevé ou faible, ou parce que la moyenne est élevée ou faible.

Contribution des dimensions

Cette explication modélise la mesure cible du repère analysé en termes de répartition entre les catégories de la dimension non visualisée. L’analyse équilibre la complexité du modèle avec la qualité de l’explication du repère.

Une dimension non visualisée est une dimension qui existe dans la source de données, mais qui n’est pas utilisée actuellement dans la vue. Ce type d’explication est utilisé pour les sommes, les totaux et les moyennes.

Le modèle pour les dimensions non visualisées est créé en divisant les repères selon les valeurs catégoriques de la colonne explicative, puis en construisant un modèle avec la valeur qui inclut tous les points de données dans la visualisation source. Pour chaque ligne, le modèle tente de récupérer chacun des composants individuels qui ont fait chaque repère. L’analyse indique si le modèle prédit mieux le repère lorsque les composantes correspondant à la dimension non visualisée sont modélisées puis additionnées, par opposition à l’utilisation d’un modèle où les valeurs de la dimension non visualisée ne sont pas connues.

Les explications sur les dimensions agrégées explorent comment les valeurs des repères peuvent être expliquées sans appliquer aucune condition. Ensuite, le modèle applique une condition aux valeurs de chaque colonne qui est l’explication potentielle. Appliquer une condition à la distribution de la colonne explicative devrait nous permettre d’améliorer la prédiction.

Contribution des mesures

Cette explication modélise le repère en termes de cette mesure non visualisée, agrégée à sa moyenne à travers les dimensions visualisées. Une mesure non visualisée est une mesure qui existe dans la source de données, mais qui n’est pas utilisée dans la vue actuellement.

L’explication de la contribution de mesures peut révéler une relation linéaire ou quadratique entre la mesure non visualisée et la mesure cible.

Merci de vos commentaires!Votre commentaire s été envoyé avec succès. Merci!