Rechercher des groupements dans les données

L’analyse de groupement partitionne les repères de la vue en groupements, où les repères dans chaque groupement sont plus similaires les uns aux autres qu’ils ne le sont des repères dans d’autres groupements.

Pour un exemple démontrant le processus de création de groupements avec des exemples de données, consultez Exemple : Créer des groupements à partir des données d’indicateurs économiques mondiaux.

Créer des groupements

Pour trouver les groupements d’une vue dans Tableau, procédez comme suit.

  1. Créez une vue.

  2. Faites glisser Groupement depuis le volet Analyse dans la vue, et déposez-le sur la zone cible dans la vue :

    Vous pouvez également double-cliquer sur Groupement pour trouver les groupements dans la vue.

    Lorsque vous déposez Groupement ou double-cliquez dessus :

    • Tableau crée un groupe Groupements sur Couleur et ajoute des couleurs aux repères dans votre vue par groupement. S’il y a déjà un champ dans Couleur, Tableau déplace ce champ vers Détail et le replace dans Couleur avec les résultats du regroupement.

      Tableau attribue chaque repère dans la vue à l’un des groupements. Dans certains cas, les repères qui ne sont pas très adaptés à un groupement sont affectés à un groupement « Pas dans un groupement ».

    • Tableau affiche la boîte de dialogue Groupements qui vous permet de personnaliser le groupement.

  3. Personnalisez les résultats du groupement en effectuant l’une des opérations suivantes dans la boîte de dialogue Groupements.

    • Faites glisser de nouveaux champs depuis le volet Données dans la zone Variables de la boîte de dialogue Groupements. Vous pouvez également faire glisser des champs hors de la zone Variables pour les supprimer.

      Lorsque vous ajoutez des variables, les mesures sont agrégées à l’aide de l’agrégation par défaut pour le champ. Les dimensions sont agrégées à l’aide d’ATTR, qui est la manière standard dont Tableau agrège les dimensions.

      Pour modifier l’agrégation d’une variable, faites un clic droit dessus.

    • Spécifiez le nombre de groupements (entre 2 et 50). Si vous ne spécifiez pas une valeur, Tableau crée automatiquement jusqu’à 25 groupements.

  4. Une fois que vous avez fini de personnaliser les résultats du groupement, cliquez sur le signe X en haut à droite de la boîte de dialogue Groupements pour la fermer : 

Remarque : vous pouvez déplacer le champ de groupement depuis Couleur vers une autre étagère dans la vue. Vous ne pouvez toutefois pas déplacer le champ de groupement depuis l’étagère Filtres vers le volet Données.

Pour renommer les groupements résultants, vous devez d’abord enregistrer le groupement dans un groupe. Pour plus d’informations, consultez Créer un groupe à partir de résultats de groupement et Modifier les groupements.

Contraintes de regroupement

Le regroupement est disponible dans Tableau Desktop, mais n’est pas disponible pour la création sur le Web (Tableau Server, Tableau Cloud). Le regroupement n’est pas non plus disponible lorsque l’une des conditions suivantes s’applique :

  • Si vous utilisez une source de données cube (multidimensionnel).

  • Lorsque la vue contient une dimension combinée.

  • S’il n’y a aucun champ pouvant être utilisé comme variable (entrées) pour le regroupement dans la vue.

  • Si une vue agrégée ne contient aucune dimension.

Si l’une de ces conditions s’appliquent, vous ne pourrez pas faire glisser Groupements depuis le volet Analyse vers la vue.

En outre, les types de champ suivants ne peuvent pas être utilisés comme variables (entrées) pour le regroupement :

  • Calculs de table

  • Calculs combinés

  • Calculs ad hoc

  • Valeurs de latitude/longitude générées

  • Groupes

  • Ensembles

  • Classes

  • Paramètres

  • Dates

  • Noms de mesures/valeurs de mesures

Modifier les groupements

Pour modifier un groupement existant, faites un clic droit (Contrôle-clic sur un Mac) sur le champ Groupements dans Couleur et choisissez Modifier les groupements.

Pour changer les noms utilisés pour chaque groupement, vous devez d’abord faire glisser le champ Groupements vers le volet Données et l’enregistrer en tant que groupe. Pour plus d’informations, consultez Créer un groupe à partir de résultats de groupement.

Faites un clic droit sur le groupe de groupements et sélectionnez Modifier le groupe pour apporter des modifications à chaque groupement.

Sélectionnez un groupe de groupements dans la liste de Groupes et cliquez sur Renommer pour changer le nom.

Créer un groupe à partir de résultats de groupement

Si vous faites glisser un groupement vers le volet Données, il devient une dimension de groupe dans laquelle les membres individuels (Groupement 1, Groupement 2, etc.) contiennent les repères dont l’algorithme de groupement a déterminé qu’ils étaient plus proches les uns des autres que d’autres repères.

Après avoir déposé un groupe de groupements dans le volet Données, vous pouvez l’utiliser dans d’autres feuilles de calcul.

Faites glisser Groupements depuis la fiche Repères vers le volet Données pour créer un groupe Tableau :

Après avoir créé un groupe à partir de groupements, le groupe et les groupements originaux sont séparés et distincts. La modification des groupements n’affecte pas le groupe, et la modification du groupe n’affecte pas les résultats du groupement. Le groupe présente les mêmes caractéristiques que tout autre groupe Tableau. Il fait partie de la source de données. À la différence des groupements d’origine, vous pouvez utiliser le groupe dans d’autres feuilles de calcul du classeur. Donc si vous renommez le groupe de groupements enregistré, ce changement de nom n’est pas appliqué au regroupement original dans la vue. Reportez-vous à Corriger les erreurs de données ou regrouper des membres de dimension en réunissant vos données.

Contraintes relatives à l’enregistrement des groupements en tant que groupes

Vous ne pourrez pas enregistrer des groupements sur le volet Données dans les cas suivants :

  • Lorsque les mesures de la vue sont désagrégées et que les mesures que vous utilisez comme variables de regroupement sont différentes des mesures de la vue. Pour plus d’informations, consultez Comment désagréger les données.

  • Lorsque les groupements que vous souhaitez enregistrer se trouvent sur l’étagère Filtres.

  • Lorsque la vue contient un champ Noms de mesures ou Valeurs de mesures.

  • Lorsque la vue contient une dimension combinée.

Adapter les groupements enregistrés

Lorsque vous enregistrez un champ Groupements en tant que groupe, il est enregistré avec son modèle d’analyse. Vous pouvez utiliser vos groupes de groupements dans d’autres feuilles de calcul et classeurs, par contre, ils ne s’actualiseront pas automatiquement.

Cet exemple montre un groupe de groupements enregistrés et son modèle d’analyse appliqué à une feuille de calcul différente. De ce fait, certains repères ne sont pas encore inclus dans le regroupement (ce qui est indiqué par des repères grisés).

En cas de modification des données sous-jacentes, vous pouvez utiliser l’option Adapter pour actualiser et recalculer les données pour votre groupe de groupements enregistrés.

Pour adapter un groupement enregistré

  • Faites un clic droit sur un groupe de groupements dans le volet Données, puis cliquez sur Adapter.

    Voici un exemple de regroupement mis à jour après l’adaptation du groupement enregistré :

    Lorsque vous adaptez les groupements enregistrés, de nouveaux groupements sont créés et les alias existants pour chaque catégorie de groupe de groupements sont remplacés par de nouveaux alias de groupement générique. Gardez à l’esprit que les groupements adaptés enregistrés peuvent modifier vos visualisations qui utilisent les groupements et alias existants.

 

Fonctionnement du regroupement

L’analyse de groupement partitionne les repères de la vue en groupements, où les repères dans chaque groupement sont plus similaires les uns aux autres qu’ils ne le sont des repères dans d’autres groupements. Tableau distingue les groupements à l’aide de couleurs.

Remarque : Pour plus d’informations sur le fonctionnement du regroupement dans Tableau, consultez le billet de blogue Understanding Clustering in Tableau 10.

Algorithme de regroupement

Tableau utilise l’algorithme k-moyenne pour le regroupement. Pour un nombre donné de groupements k, l’algorithme partitionne les données en k groupements. Chaque groupement a un centre (centroïde) qui correspond à la valeur moyenne de tous les points de ce groupement. K-moyennes repère les valeurs centrales par une procédure itérative qui minimise la distance entre les points individuels d’un groupement et le centre du groupement. Dans Tableau, vous pouvez spécifier un nombre souhaité de groupements, ou demander à Tableau de tester différentes valeurs de k et de suggérer un nombre optimal de groupements (consultez Critères utilisés pour déterminer le nombre optimal de groupements).

Les k-moyennes nécessitent une spécification initiale des valeurs centrales de groupement. En commençant par un groupement, la méthode choisit une variable dont la moyenne est utilisée comme seuil pour la division des données en deux. Les centroïdes de ces deux parties sont ensuite utilisés pour initialiser les k-moyennes afin d’optimiser l’appartenance aux deux groupements. Ensuite, l’un des deux groupements est choisi pour la division, et une variable au sein de ce groupement est choisie, sa moyenne étant utilisée comme seuil pour la division de ce groupement en deux. Les k-moyennes sont ensuite utilisées pour partitionner les données en trois groupements, initialisée avec les centroïdes des deux parties du groupement divisé et le centroïde du groupement restant. Ce processus est répété jusqu’à ce qu’un nombre défini de groupements soit atteint.

Tableau utilise l’algorithme de Lloyds avec les distances euclidiennes au carré pour calculer le regroupement de k-moyennes pour chaque k. Associé à la procédure de division qui permet de déterminer les centres initiaux pour chaque k > 1, le regroupement résultant est déterministe, avec un résultat dépendant uniquement du nombre de groupements.

L’algorithme commence par choisir les centres de groupements initiaux :

Il partitionne ensuite les repères en affectant chacun à son centre le plus proche :

Ensuite, il affine les résultats en calculant de nouveaux centres pour chaque partition, par calcul de la moyenne de tous les points affectés au même groupement :

Il analyse ensuite l’affectation des repères aux groupements et réaffecte tous les repères qui sont maintenant plus proches qu’avant d’un centre différent.

Les groupements sont redéfinis et les repères sont réaffectés de manière itérative jusqu’à ce qu’aucun autre changement n’ait lieu.

Critères utilisés pour déterminer le nombre optimal de groupements

Tableau utilise les critères Calinski-Harabasz pour évaluer la qualité du groupement. Le critère Calinski-Harabasz est défini comme

où SSB est la variance générale entre les groupements, SSW la variance générale au sein du groupement, k le nombre de groupements et N le nombre d’observations.

Plus la valeur de ce rapport est élevée, plus les groupements seront cohérents (faible variance au sein du groupement) et plus les groupements individuels seront distincts/séparés (variance élevée entre les groupements).

L’indice Calinski-Harabasz n’étant pas défini pour k=1, il ne peut pas être utilisé pour détecter des cas à un groupement.

Si un utilisateur ne spécifie pas le nombre de groupements, Tableau prend le nombre de groupements correspondant au premier maximum local de l’indice Calinski-Harabasz. Par défaut, les k-moyennes sont exécutées pour 25 groupements au maximum, si le premier maximum local de l’indice n’est pas atteint pour une valeur inférieure de k. Vous pouvez définir une valeur maximum de 50 groupements.

Remarque : si une variable catégorielle (à savoir une dimension) comporte plus de 25 valeurs uniques, Tableau ignore cette variable lors du calcul des groupements.

Quelles sont les valeurs affectées à la catégorie « Pas dans un groupement »?

Lorsqu’une mesure comporte des valeurs nulles, Tableau affecte des valeurs pour les lignes comportant des valeurs nulles à une catégorie Pas dans un groupement. Les variables de catégorie (à savoir, des dimensions) qui renvoient * comme ATTR (ce qui signifie que toutes les valeurs ne sont pas identiques) ne sont pas incluses dans un groupement.

Mise à l’échelle

Tableau met automatiquement à l’échelle les valeurs de manière à ce que les colonnes ayant une plus large plage de magnitudes ne dominent pas les résultats. Par exemple, une analyse pourrait utiliser l’inflation et le PNB comme variables d’entrée pour le regroupement, mais du fait que les valeurs de PNB atteignent des milliards de dollars, les valeurs d’inflation risquent d’être presque complètement ignorées dans le calcul. Tableau utilise une méthode de mise à l’échelle appelée min-max normalization, dans laquelle les valeurs de chaque variable sont associées à une valeur comprise entre 0 et 1 en soustrayant leur minimum et en les divisant par leur plage.

Information sur les modèles de statistiques utilisés pour les groupements

La boîte de dialogue Décrire les groupements fournit des renseignements sur les modèles que Tableau a calculés pour le regroupement. Vous pouvez utiliser ces statistiques pour évaluer la qualité du regroupement.

Lorsque la vue inclut un regroupement, vous pouvez ouvrir la boîte de dialogue Décrire les groupements dans la fiche Repères (Ctrl+clic sur un Mac) et en choisissant Décrire les groupements. L’information contenue dans la boîte de dialogue Décrire les groupements est en lecture seule. Toutefois, vous pouvez cliquer sur Copier dans le presse-papiers, puis coller le contenu de l’écran dans un document révisable.

Décrire les groupements – Onglet Résumé

L’onglet Résumé identifie les entrées qui ont été utilisées pour générer les groupements et fournit des statistiques caractérisant les groupements.

Entrées pour le regroupement

Variables

Identifie les champs que Tableau utilise pour calculer les groupements. Ce sont les champs répertoriés dans la zone Variables de la boîte de dialogue Groupements.

Niveau de détail

Identifie les champs qui contribuent au niveau de détail de la vue, à savoir les champs qui déterminent le niveau d’agrégation. Pour plus de détails, consultez Comment les dimensions affectent le niveau de détail dans la vue.

Mise à l’échelle

Identifie la méthode de mise à l’échelle utilisée pour le traitement préliminaire. La normalisation est actuellement la seule méthode de mise à l’échelle utilisée par Tableau. La formule pour cette méthode, également connue comme normalisation min-max, est (x – min(x))/(max(x) - min(x)).

Résumé de diagnostic

Nombre de groupements

Le nombre de groupements individuels dans le regroupement.

Nombre de points

Le nombre de repères dans la vue.

Somme des carrés entre les groupes

Une mesure quantifiant la séparation entre les groupements en tant que somme des distances au carré entre le centre de chaque groupement (valeur moyenne), pondérée par le nombre de points de données attribués au groupement, et le centre de l’ensemble de données. Plus la valeur est grande, meilleure sera la séparation entre les groupements.

Somme des carrés au sein du groupe

Une mesure quantifiant la cohésion des groupements en tant que sommes des distances au carré entre le centre de chaque groupement et les repères individuels dans le groupement. Plus la valeur est petite, plus les groupements sont cohérents.

Somme totale des carrés

Totalise la somme des carrés entre les groupes et la somme des carrés au sein du groupe. Le rapport (somme des carrés intre les groupes)/(somme totale des carrés) indique la proportion de variance expliquée par le modèle. Les valeurs sont comprises entre 0 et 1. Des valeurs plus grandes indiquent généralement un meilleur modèle. Toutefois, vous pouvez augmenter ce rapport simplement en augmentant le nombre de groupement, ce qui pourrait induire en erreur si vous comparez un modèle à cinq groupements avec un modèle à trois groupements utilisant simplement cette valeur.

Statistiques des groupements

Pour chaque groupement du regroupement, l’information suivante est fournie.

Nombre d’éléments

Le nombre de repères dans le groupement.

Centres

La valeur moyenne dans chaque groupement (affichée pour les éléments numériques).

Le plus courant

La valeur la plus courante dans chaque groupement (affichée uniquement pour les éléments de catégorie).

Décrire les groupements – Onglet Modèles

L’analyse de variance (ANOVA) est une collection de modèles statistiques et de procédures associées utiles pour analyser la variation au sein de et entre les observations qui ont été partitionnées dans les groupes ou les groupements. Dans ce cas, l’analyse de variance est calculée par variable, et l’analyse résultante de la table de variance peut être utilisée pour déterminer les variables les plus efficaces pour distinguer des groupements.

L’analyse pertinente des statistiques de variance pour le regroupement inclut :

Statistique F

La statistique F pour une analyse de variance à sens unique ou à facteur unique correspond à la fraction de variance expliquée par une variable. Il s’agit du rapport entre la variance entres les groupes et la variance totale.

Plus la statistique F est importante, mieux la variable correspondante fait la distinction entre des groupements.

valeur-p

La valeur-p est la probabilité que la distribution F de toutes les valeurs possibles de la statistique F prenne une valeur supérieure à la statistique F effective pour une variable. Si la valeur-p descend en-dessous d’un niveau d’importance spécifié, l’hypothèse valeur nulle (à savoir que les éléments individuels de la variable sont des exemples aléatoires d’une population) peut être rejetée. Les degrés de liberté pour cette distribution F sont (k - 1, N - k), où k correspond au nombre de groupements et N au nombre d’éléments (lignes) en groupement.

Plus la valeur-p est faible, plus les valeurs attendues des éléments de la variable correspondante diffèrent entre les groupements.

Modèle Somme de carrés et Degré de liberté

La somme des carrés du modèle correspond au rapport de la somme des carrés entre les groupes et des degrés de liberté du modèle. La somme des carrés inter-groupes est une mesure de la variation entre les moyennes de groupement. Si les moyennes de groupement sont proches les unes des autres (et donc proches de la moyenne générale), cette valeur sera faible. Le modèle a des degrés de liberté de k-1, où k désigne le nombre de groupements.

Erreur Somme des carrés et Degré de liberté

La somme des carrés de l’erreur correspond au rapport de la somme des carrés entre les groupes et des degrés de liberté de l’erreur. La somme des carrés inter-groupes mesure la variation entre les observations dans chaque groupement. L’erreur présente N-k degrés de liberté, où N correspond au nombre total d’observations (lignes) en groupement et k au nombre de groupements.

Le rapport des sommes de carrés de l’erreur peut être conçu comme le carré moyen des erreurs, en partant de l’hypothèse que chaque centre de groupement représente la valeur de « vérité » pour chaque groupement.

Exemple : Créer des groupements à partir des données d’indicateurs économiques mondiaux

La fonction de regroupement de Tableau partitionne les repères de la vue en groupements, où les repères dans chaque groupement sont plus similaires les uns aux autres qu’ils ne le sont des repères dans d’autres groupements. Cet exemple montre comment un chercheur peut utiliser le regroupement pour trouver un ensemble optimal de repères (dans ce cas, des pays/régions) dans une source de données.

L’objectif

Du fait de l’augmentation de l’espérance de vie à travers le monde et de l’activité des personnes âgées, le tourisme des seniors peut s’avérer un marché lucratif pour les entreprises capables de trouver et de séduire les clients potentiels. L’exemple d’ensemble de données Indicateurs Mondiaux fourni avec Tableau contient le type de données qui peut aider les entreprises à identifier les pays ou les régions accueillant le type de clients adaptés en nombre suffisant.

Trouver les pays/régions pertinents

Voici un exemple de la manière dont le regroupement Tableau pourrait aider une entreprise à identifier par exemple les pays/régions prometteurs en termes d’activités touristiques pour seniors. Imaginez que vous êtes l’analyste. Voici une suggestion de procédure.

  1. Ouvrez l’exemple de source de données Indicateurs Mondiaux dans Tableau Desktop.

  2. Double-cliquez sur Pays/région dans le volet Données.

    Tableau crée automatiquement une vue Carte, avec un repère dans chaque pays/région.

  3. Dans la fiche Repères, changez le type de repère sur Carte :

    Vous devriez maintenant voir une projection de carte où tous les pays/régions sont remplis avec une couleur unie :

  4. L’étape suivante consiste à identifier les champs que vous utiliserez comme variables pour le regroupement. Voici les champs que vous choisissez :

    ChampRaison pour l’inclure
    Espérance de vie des femmes et Espérance de vie des hommesAvec l’augmentation de l’espérance de vie, les personnes sont plus susceptibles de s’intéresser à des voyages à un âge plus avancé.
    Population urbaineIl est plus facile de commercialiser des services dans des régions à plus forte densité de population.
    Population + 65 ansLa population cible est composée des résidents senior qui ont le temps et les moyens de voyager.
    TourismPerCapita

    Il s’agit d’une mesure que vous devez créer en tant que champ calculé nommé. La formule est :

    SUM([Tourism Outbound])/SUM([Population Total])

    La valeur Dépenses de tourisme agrège la somme (en USD) que les résidents d’un pays/d’une région consacrent annuellement à un voyage à l’étranger. Mais ce total doit être divisé par la population de chaque pays/région pour déterminer le montant moyen que chaque résident dépense dans les voyages à l’étranger.

    Il n’y a pas de garantie que ces champs soient les plus pertinents, ni qu’ils produiront des résultats de groupement clairs et sans ambiguïté. Le regroupement est un processus itératif. L’expérience conduit à la découverte, laquelle, à son tour, génère de l’expérience.

  5. Faites glisser ces cinq champs depuis le volet Données vers Détails sur la fiche Repères.

  6. Cliquez pour ouvrir le volet Analyse :

  7. Faites glisser Groupement depuis le volet Analyse, et déposez-le dans la vue :

    Tableau affiche la boîte de dialogue Groupements et ajoute les mesures de la vue à la liste des variables :

    Il met également à jour la vue en ajoutant des groupements à Couleur. Dans ce cas, Tableau trouve deux groupements distincts, et n’est pas capable d’affecter certains pays/régions (de couleur rouge-rose) à l’un de ces groupements :

    Remarque : voir Fonctionnement du regroupement pour plus de détails sur les données que Tableau affecte à « Pas dans un groupement ».

  8. Vous décidez que deux groupements ne suffisent pas. Vous ne disposez pas des ressources nécessaires pour établir un magasin dans la moitié des pays/régions du monde. Donc vous saisissez 4 dans le champ Nombre de groupements dans la boîte de dialogue Groupements.

    La carte prend alors tout son intérêt :

    Mais comment ces groupements se rapportent-ils aux variables que vous avez choisies? Quel est le groupement le mieux corrélé aux facteurs favorisant le tourisme des seniors? Il est temps d’examiner les statistiques sous-jacentes aux groupements.

  9. Fermez la boîte de dialogue Groupements en cliquant sur le X dans le coin supérieur droit : 

  10. Cliquez sur le champ Groupements dans la fiche Repères et choisissez Décrire les groupements.

    La table au bas de l’onglet Modèles dans la boîte de dialogue Décrire les groupements affiche la valeur moyenne pour chaque variable dans chaque groupement :

    Le groupement 4 contient l’espérance de vie la plus élevée (à la fois hommes et femmes), la concentration la plus élevée de population urbaine et les dépenses les plus élevées dans le domaine du tourisme international, soit 1 360,40 $ par tête. La seule variable pour laquelle le groupement 4 n’affiche pas la valeur la plus élevée est Population 65+, où le groupement 3 a l’avantage : 0,15493 (juste en-dessous de 16 %) à 0,11606 (juste au-dessus de 11 %) dans le groupement 4.

    L’algorithme de regroupement ne sait pas si vous recherchez la valeur maximum pour ces variables, la valeur minimum, ou seulement une valeur intermédiaire. Il cherche uniquement la corrélation. Mais vous savez que des valeurs plus élevées pour ces variables ne sont pas le signal que vous recherchez, et le groupement 4 est le bon choix.

  11. Vous tentez de sélectionner les pays/régions du groupement 4 sur la carte, mais vous disposez d’une option plus simple. Fermez la boîte de dialogue Décrire les groupements puis cliquez sur Groupement 4 sur la légende des couleurs et choisissez Conserver uniquement.

  12. Choisissez un tableau de texte dans Montrez-moi.

    Vous voyez alors une liste des pays/régions dans le groupement 4 :

    La liste n’est pas la fin du processus. Vous pouvez essayer de créer un nouveau groupement avec un ensemble de variables légèrement différent et peut-être un nombre différent de groupements, ou vous pouvez ajouter des pays/régions à la liste et en supprimer d’autres, sur la base d’autres facteurs. Par exemple, si votre offre de voyage concerne principalement des destinations tropicales, vous pouvez supprimer les pays/régions tels que Curaçao et les Bahamas de la liste car les destinations tropicales ne sont pas probablement recherchées par les résidents de ces pays/régions.

    Une autre option consiste à filtrer vos données avant de créer un nouveau groupement, de manière à afficher uniquement les pays/régions au-dessus d’un certain seuil, ou à cibler les pays/régions d’une zone géographique spécifique.

Merci de vos commentaires!Votre commentaire s été envoyé avec succès. Merci!