Rechercher des clusters dans les données

S’applique à : Tableau Desktop, Tableau Public

L’analyse de cluster partitionne les repères de la vue en clusters, où les repères dans chaque cluster sont plus similaires les uns aux autres qu’ils ne le sont des repères dans d’autres clusters.

Une matrice de nuages de points avec des clusters sur l'étagère Couleur.

Pour un exemple démontrant le processus de création de clusters avec des exemples de données, consultez Exemple : Créer des clusters à partir des données d’indicateurs économiques mondiaux.

Créer des clusters

Pour trouver les clusters d’une vue dans Tableau, procédez comme suit.

Créez une vue.
Faites glisser Cluster depuis le volet Analyse dans la vue, et déposez-le sur la zone cible dans la vue :
Vous pouvez également double-cliquer sur Cluster pour trouver les clusters dans la vue.
Lorsque vous déposez Cluster ou double-cliquez dessus :
- Tableau crée un groupe Clusters sur Couleur et ajoute des couleurs aux repères dans votre vue par cluster. S’il y a déjà un champ dans Couleur, Tableau déplace ce champ vers Détail et le replace dans Couleur avec les résultats du clustering.
  Tableau attribue chaque repère dans la vue à l’un des clusters. Dans certains cas, les repères qui ne sont pas très adaptés à un cluster sont affectés à un cluster "Pas dans un cluster".
- Tableau affiche la boîte de dialogue Clusters qui vous permet de personnaliser le cluster.
Personnalisez les résultats du cluster en effectuant l’une des opérations suivantes dans la boîte de dialogue Clusters.
- Faites glisser de nouveaux champs depuis le volet Données dans la zone Variables de la boîte de dialogue Clusters. Vous pouvez également faire glisser des champs hors de la zone Variables pour les supprimer.
  Lorsque vous ajoutez des variables, les mesures sont agrégées à l’aide de l’agrégation par défaut pour le champ. Les dimensions sont agrégées à l’aide d’ATTR, qui est la manière standard dont Tableau agrège les dimensions.
  Pour modifier l’agrégation d’une variable, faites un clic droit dessus.
- Spécifiez le nombre de clusters (entre 2 et 50). Si vous ne spécifiez pas une valeur, Tableau crée automatiquement jusqu’à 25 clusters.
Une fois que vous avez fini de personnaliser les résultats du cluster, cliquez sur le signe X en haut à droite de la boîte de dialogue Clusters pour la fermer :

Remarque : vous pouvez déplacer le champ de cluster depuis Couleur vers une autre étagère dans la vue. Vous ne pouvez toutefois pas déplacer le champ de cluster depuis l’étagère Filtres vers le volet Données.

Pour renommer les clusters résultants, vous devez d’abord enregistrer le cluster dans un groupe. Pour plus d’informations, consultez Créer un groupe à partir de résultats de cluster et Modifier les clusters.

Contraintes de clustering

Le clustering est disponible dans Tableau Desktop, mais n’est pas disponible pour la création sur le Web (Tableau Server, Tableau Cloud). Le clustering n’est pas non plus disponible lorsque l’une des conditions suivantes s’applique :

Si vous utilisez une source de données cube (multidimensionnel).
Lorsque la vue contient une dimension combinée.
S’il n’y a aucun champ pouvant être utilisé comme variable (entrées) pour le clustering dans la vue.
Si une vue agrégée ne contient aucune dimension.

Si l’une de ces conditions s’appliquent, vous ne pourrez pas faire glisser Clusters depuis le volet Analyse vers la vue.

En outre, les types de champ suivants ne peuvent pas être utilisés comme variables (entrées) pour le clustering :

Calculs de table
Calculs combinés
Calculs ad hoc
Valeurs de latitude/longitude générées
Groupes
Ensembles
Classes
Paramètres
Dates
Noms de mesures/valeurs de mesures

Modifier les clusters

Pour modifier un cluster existant, faites un clic droit (Contrôle-clic sur un Mac) sur le champ Clusters dans Couleur et choisissez Modifier les clusters.

Le menu déroulant Filtre avec l'option de modifier les clusters.

Pour changer les noms utilisés pour chaque cluster, vous devez d’abord faire glisser le champ Clusters vers le volet Données et l’enregistrer en tant que groupe. Pour plus d’informations, consultez Créer un groupe à partir de résultats de cluster.

Faites un clic droit sur le groupe de cluster et sélectionnez Modifier le groupe pour apporter des modifications à chaque cluster.

Un menu déroulant avec la possibilité de modifier un groupe.

Sélectionnez un groupe de clusters dans la liste de Groupes et cliquez sur Renommer pour changer le nom.

La boîte de dialogue Modifier le groupe affichant l'option permettant de renommer un cluster.

Créer un groupe à partir de résultats de cluster

Si vous faites glisser un cluster vers le volet Données, il devient une dimension de groupe dans laquelle les membres individuels (Cluster 1, Cluster 2, etc.) contiennent les repères dont l’algorithme de cluster a déterminé qu’ils étaient plus proches les uns des autres que d’autres repères.

Après avoir déposé un groupe de clusters dans le volet Données, vous pouvez l’utiliser dans d’autres feuilles de calcul.

Faites glisser Clusters depuis la fiche Repères vers le volet Données pour créer un groupe Tableau :

Un diagramme illustrant comment faire glisser la pile Clusters de la fiche Repères vers une dimension dans le volet Données.

Après avoir créé un groupe à partir de clusters, le groupe et les clusters originaux sont séparés et distincts. La modification des clusters n’affecte pas le groupe, et la modification du groupe n’affecte pas les résultats du cluster. Le groupe présente les mêmes caractéristiques que tout autre groupe Tableau. Il fait partie de la source de données. À la différence des clusters d’origine, vous pouvez utiliser le groupe dans d’autres feuilles de calcul du classeur. Donc si vous renommez le groupe de clusters enregistré, ce changement de nom n’est pas appliqué au clustering original dans la vue. Reportez-vous à Corriger les erreurs de données ou regrouper des membres de dimension en réunissant vos données.

Contraintes relatives à l’enregistrement des clusters en tant que groupes

Vous ne pourrez pas enregistrer des clusters sur le volet Données dans les cas suivants :

Lorsque les mesures de la vue sont désagrégées et que les mesures que vous utilisez comme variables de clustering sont différentes des mesures de la vue. Pour plus d’informations, consultez Comment désagréger les données.
Lorsque les clusters que vous souhaitez enregistrer se trouvent sur l’étagère Filtres.
Lorsque la vue contient un champ Noms de mesures ou Valeurs de mesures.
Lorsque la vue contient une dimension combinée.

Adapter les clusters enregistrés

Lorsque vous enregistrez un champ Clusters en tant que groupe, il est enregistré avec son modèle d’analyse. Vous pouvez utiliser vos groupes de clusters dans d’autres feuilles de calcul et classeurs, par contre, ils ne s’actualiseront pas automatiquement.

Cet exemple montre un groupe de clusters enregistrés et son modèle d’analyse appliqué à une feuille de calcul différente. De ce fait, certains repères ne sont pas encore inclus dans le clustering (ce qui est indiqué par des repères grisés).

Un nuage de points illustre la corrélation entre les présences au bâton et les coups sûrs pour trois groupes de joueurs.

En cas de modification des données sous-jacentes, vous pouvez utiliser l’option Adapter pour actualiser et recalculer les données pour votre groupe de clusters enregistrés.

Pour adapter un cluster enregistré

Faites un clic droit sur un groupe de clusters dans le volet Données, puis cliquez sur Adapter.
Voici un exemple de clustering mis à jour après l’adaptation du cluster enregistré :
Lorsque vous adaptez les clusters enregistrés, de nouveaux clusters sont créés et les alias existants pour chaque catégorie de groupe de cluster sont remplacés par de nouveaux alias de cluster générique. Gardez à l’esprit que les clusters adaptés enregistrés peuvent modifier vos visualisations qui utilisent les clusters et alias existants.

Fonctionnement du clustering

Remarque : Pour plus d’informations sur le fonctionnement du clustering dans Tableau, consultez le billet de blog Understanding Clustering in Tableau 10 (Comprendre le clustering dans Tableau 10).

Algorithme de clustering

Tableau utilise l’algorithme k-moyenne pour le clustering. Pour un nombre donné de clusters k, l’algorithme partitionne les données en k clusters. Chaque cluster a un centre (centroïde) qui correspond à la valeur moyenne de tous les points de ce cluster. La K-moyenne repère les valeurs centrales via une procédure itérative qui minimise la distance entre les points individuels d’un cluster et le centre du cluster. Dans Tableau, vous pouvez spécifier un nombre souhaité de clusters, ou demander à Tableau de tester différentes valeurs de de k et de suggérer un nombre optimal de clusters (consultez Critères utilisés pour déterminer le nombre optimal de clusters).

La K-moyenne nécessite une spécification initiale des valeurs centrales de cluster. En commençant par un cluster, la méthode choisit une variable dont la moyenne est utilisée comme seuil pour la division des données en deux. Les centroïdes de ces deux parties sont ensuite utilisés pour initialiser les k-moyennes afin d’optimiser l’appartenance aux deux clusters. Ensuite, l’un des deux clusters est choisi pour la division, et une variable au sein de ce cluster est choisie, sa moyenne étant utilisée comme seuil pour la division de ce cluster en deux. La k-moyenne est ensuite utilisée pour partitionner les données en trois clusters, initialisée avec les centroïdes des deux parties du cluster divisé et le centroïde du cluster restant. Ce processus est répété jusqu’à ce qu’un nombre défini de clusters soit atteint.

Tableau utilise l’algorithme de Lloyds avec les distances euclidiennes au carré pour calculer le clustering de k-moyenne pour chaque k. Associé à la procédure de division qui permet de déterminer les centres initiaux pour chaque k > 1, le clustering résultant est déterministe, avec un résultat dépendant uniquement du nombre de clusters.

L’algorithme commence par choisir les centres de clusters initiaux :

Un nuage de points avec des marqueurs rouges, verts, orange et noirs.

Il partitionne ensuite les repères en affectant chacun à son centre le plus proche :

Un diagramme illustre les points de données regroupés en trois groupes.

Ensuite, il affine les résultats en calculant de nouveaux centres pour chaque partition, par calcul de la moyenne de tous les points affectés au même cluster :

Un diagramme illustre les points de données regroupés en trois groupes.

Il analyse ensuite l’affectation des repères aux clusters et réaffecte tous les repères qui sont maintenant plus proches qu’avant d’un centre différent.

Les clusters sont redéfinis et les repères sont réaffectés de manière itérative jusqu’à ce qu’aucun autre changement n’ait lieu.

Remarque : en raison des différences sous-jacentes dans les technologies, il peut y avoir de légères différences entre les clusters créés sur des processeurs x64 ou arm64 pour les mêmes données.

Critères utilisés pour déterminer le nombre optimal de clusters

Tableau utilise les critères Calinski-Harabasz pour évaluer la qualité du cluster. Le critère Calinski-Harabasz est défini comme

Le critère Calinski-Harabasz.

où SSB est la variance générale entre les clusters, SSW la variance générale au sein du cluster, k le nombre de clusters et N le nombre d’observations.

Plus la valeur de ce rapport est élevée, plus les clusters seront cohérents (faible variance au sein du cluster) et plus les clusters individuels seront distincts/séparés (variance élevée entre les clusters).

L’indice Calinski-Harabasz n’étant pas défini pour k=1, il ne peut pas être utilisé pour détecter des cas à un cluster.

Si un utilisateur ne spécifie pas le nombre de clusters, Tableau prend le nombre de clusters correspondant au premier maximum local de l’indice Calinski-Harabasz. Par défaut, la k-moyenne est exécutée pour 25 clusters au maximum, si le premier maximum local de l’indice n’est pas atteint pour une valeur inférieure de k. Vous pouvez définir une valeur maximum de 50 clusters.

Remarque : si une variable catégorielle (à savoir une dimension) comporte plus de 25 valeurs uniques, Tableau ignore cette variable lors du calcul des clusters.

Quelle sont les valeurs affectés à la catégorie "Pas dans un cluster" ?

Lorsqu’une mesure comporte des valeurs null, Tableau affecte des valeurs pour les lignes comportant des valeurs null à une catégorie Pas dans un cluster. Les variables de catégorie (à savoir, des dimensions) qui renvoient * comme ATTR (ce qui signifie que toutes les valeurs ne sont pas identiques) ne sont pas incluses dans un cluster.

Mise à l’échelle

Tableau met automatiquement à l’échelle les valeurs de manière à ce que les colonnes ayant une plus large plage de magnitudes ne dominent pas les résultats. Par exemple, un analyse pourrait utiliser l’inflation et le PNB comme variables d’entrée pour le clustering, mais du fait que les valeurs de PNB atteignent des milliards de dollars, les valeurs d’inflation risquent d’être presque complètement ignorées dans le calcul. Tableau utilise une méthode de mise à l’échelle appelée min-max normalization, dans laquelle les valeurs de chaque variable sont associées à une valeur comprise entre 0 et 1 en soustrayant leur minimum et en les divisant par leur plage.

Informations sur les modèles de statistiques utilisés pour les clusters

La boîte de dialogue Décrire les clusters fournit des informations sur les modèles que Tableau a calculés pour le clustering. Vous pouvez utiliser ces statistiques pour évaluer la qualité du clustering.

Lorsque la vue inclut un clustering, vous pouvez ouvrir la boîte de dialogue Décrire les clusters dans la fiche Repères (Ctrl+clic sur un Mac) et en choisissant Décrire les clusters. Les informations contenues dans la boîte de dialogue Décrire les clusters sont en lecture seule. Toutefois, vous pouvez cliquer sur Copier dans le presse-papier, puis coller le contenu de l’écran dans un document révisable.

Décrire les clusters – Onglet Résumé

L’onglet Résumé identifie les entrées qui ont été utilisées pour générer les clusters et fournit des statistiques caractérisant les clusters.

Entrées pour le clustering

Variables

Identifie les champs que Tableau utilise pour calculer les clusters. Ce sont les champs répertoriés dans la zone Variables de la boîte de dialogue Clusters.

Niveau de détail

Identifie les champs qui contribuent au niveau de détail de la vue, à savoir les champs qui déterminent le niveau d’agrégation. Pour plus de détails, consultez Comment les dimensions affectent le niveau de détail dans la vue.

Mise à l’échelle

Identifie la méthode de mise à l’échelle utilisée pour le traitement préliminaire. La normalisation est actuellement la seule méthode de mise à l’échelle utilisée par Tableau. La formule pour cette méthode, également connue comme normalisation min-max, est (x – min(x))/(max(x) - min(x)).

Résumé de diagnostic

Nombre de clusters

Le nombre de clusters individuels dans le clustering.

Nombre de points

Le nombre de repères dans la vue.

Somme des carrés entre les groupes

Une métrique quantifiant la séparation entre les clusters en tant que somme des distances au carré entre le centre de chaque cluster (valeur moyenne), pondérée par le nombre de points de données attribués au cluster, et le centre de l’ensemble de données. Plus la valeur est grande, meilleure sera la séparation entre les clusters.

Somme des carrés au sein du groupe

Une métrique quantifiant la cohésion des clusters en tant que sommes des distances au carré entre le centre de chaque cluster et les repères individuels dans le cluster. Plus la valeur est petite, plus les clusters sont cohérents.

Somme totale des carrés

Totalise la somme des carrés entre les groupes et la somme des carrés au sein du groupe. Le rapport (somme des carrés inter-groupes)/(somme totale des carrés) indique la proportion de variance expliquée par le modèle. Les valeurs sont comprises entre 0 et 1. Des valeurs plus grandes indiquent généralement un meilleur modèle. Toutefois, vous pouvez augmenter ce rapport simplement en augmentant le nombre de cluster, ce qui pourrait induire en erreur si vous comparez un modèle à cinq clusters avec un modèle à trois clusters utilisant simplement cette valeur.

Statistiques des clusters

Pour chaque cluster du clustering, les informations suivantes sont fournies.

Nombre d’éléments

Le nombre de repères dans le cluster.

Centres

La valeur moyenne dans chaque cluster (affichée pour les éléments numériques).

Le plus courant

La valeur la plus courante dans chaque cluster (affichée uniquement pour les éléments de catégorie).

Décrire les clusters – Onglet Modèles

L’analyse de variance (ANOVA) est une collection de modèles statistiques et de procédures associées utiles pour analyser la variation au sein de et entre les observations qui ont été partitionnées dans les groupes ou les clusters. Dans ce cas, l’analyse de variance est calculée par variable, et l’analyse résultante de la table de variance peut être utilisée pour déterminer les variables les plus efficaces pour distinguer des clusters.

L’analyse pertinente des statistiques de variance pour le clustering inclut :

Statistique F

La statistique F pour une analyse de variance à sens unique ou à facteur unique correspond à la fraction de variance expliquée par une variable. Il s’agit du rapport entre la variance inter-groupes et la variance totale.

Plus la statistique F est importante, mieux la variable correspondante fait la distinction entre des clusters.

valeur-p

La valeur-p est la probabilité que la distribution F de toutes les valeurs possibles de la statistique F prenne une valeur supérieure à la statistique F effective pour une variable. Si la valeur-p descend en-dessous d’un niveau d’importance spécifié, l’hypothèse null (à savoir que les éléments individuels de la variable sont des exemples aléatoires d’une population) peut être rejetée. Les degrés de liberté pour cette distribution F sont (k - 1, N - k), où k correspond au nombre de clusters et N au nombre d’éléments (lignes) en cluster.

Plus la valeur-p est faible, plus les valeurs attendues des éléments de la variable correspondante diffèrent entre les clusters.

Modèle Somme de carrés et Degré de liberté

La somme des carrés du modèle correspond au rapport de la somme des carrés inter-groupes et des degrés de liberté du modèle. La somme des carrés inter-groupes est une mesure de la variation entre les moyennes de cluster. Si les moyennes de cluster sont proches les unes des autres (et donc proches de la moyenne générale), cette valeur sera faible. Le modèle a des degrés de liberté de k-1, où k désigne le nombre de clusters.

Erreur Somme des carrés et Degré de liberté

La somme des carrés de l’erreur correspond au rapport de la somme des carrés inter-groupes et des degrés de liberté de l’erreur. La somme des carrés inter-groupes mesure la variation entre les observations dans chaque cluster. L’erreur présente N-k degrés de liberté, où N correspond au nombre total d’observations (lignes) en cluster et k au nombre de clusters.

Le rapport des sommes de carrés de l’erreur peut être conçu comme le carré moyen des erreurs, en partant de l’hypothèse que chaque centre de cluster représente la valeur de « vérité" pour chaque cluster.

Exemple : Créer des clusters à partir des données d’indicateurs économiques mondiaux

La fonction de clustering de Tableau partitionne les repères de la vue en clusters, où les repères dans chaque cluster sont plus similaires les uns aux autres qu’ils ne le sont des repères dans d’autres clusters. Cet exemple montre comment un chercheur peut utiliser le clustering pour trouver un ensemble optimal de repères (dans ce cas, des pays/régions) dans une source de données.

L’objectif

Du fait de l’augmentation de l’espérance de vie à travers le monde et de l’activité des personnes âgées, le tourisme des seniors peut s’avérer un marché lucratif pour les entreprises capables de trouver et de séduire les clients potentiels. L’exemple d’ensemble de données Indicateurs Mondiaux fourni avec Tableau contient le type de données qui peut aider les entreprises à identifier les pays ou les régions accueillant le type de clients adaptés en nombre suffisant.

Trouver les pays/régions pertinents

Voici un exemple de la manière dont le clustering Tableau pourrait aider une entreprise à identifier par exemple les pays/régions prometteurs en termes d’activités touristiques pour seniors. Imaginez que vous êtes l’analyste. Voici une suggestion de procédure.

Ouvrez l’exemple de source de données Indicateurs Mondiaux dans Tableau Desktop.
Double-cliquez sur Pays/région dans le volet Données.
Tableau crée automatiquement une vue Carte, avec un repère dans chaque pays/région.
Dans la fiche Repères, changez le type de repère sur Carte :
Vous devriez maintenant voir une projection de carte où tous les pays/régions sont remplis avec une couleur unie :

L’étape suivante consiste à identifier les champs que vous utiliserez comme variables pour le clustering. Voici les champs que vous choisissez :

Champ	Raison pour l’inclure
Espérance de vie des femmes et Espérance de vie des hommes	Avec l’augmentation de l’espérance de vie, les personnes sont plus susceptibles de s’intéresser à des voyages à un âge plus avancé.
Population urbaine	Il est plus facile de commercialiser des services dans des régions à plus forte densité de population.
Population 65+	La population cible est composée des résidents senior qui ont le temps et les moyens de voyager.
TourismPerCapita	Il s’agit d’une mesure que vous devez créer en tant que champ calculé nommé. La formule est : `SUM([Tourism Outbound])/SUM([Population Total])` La valeur Dépenses de tourisme agrège la somme (en USD) que les résidents d’un pays/d’une région consacrent annuellement à un voyage à l’étranger. Mais ce total doit être divisé par la population de chaque pays/région pour déterminer le montant moyen que chaque résident dépense dans les voyages à l’étranger.

Il n’y a pas de garantie que ces champs soient les plus pertinents, ni qu’ils produiront des résultats de cluster clairs et sans ambiguïté. Le clustering est un processus itératif. L’expérience conduit à la découverte, laquelle, à son tour, génère de l’expérience.

Faites glisser ces cinq champs depuis le volet Données vers Détails sur la fiche Repères.
Cliquez pour ouvrir le volet Analytique :
Faites glisser Cluster depuis le volet Analytique, et déposez-le dans la vue :
Tableau affiche la boîte de dialogue Clusters et ajoute les mesures de la vue à la liste des variables :
Il met également à jour la vue en ajoutant des clusters à Couleur. Dans ce cas, Tableau trouve deux clusters distincts, et n’est pas capable d’affecter certains pays/régions (de couleur rouge-rose) à l’un de ces clusters :
Remarque : voir Fonctionnement du clustering pour plus de détails sur les données que Tableau affecte à "Pas dans un cluster".
Vous décidez que deux clusters ne suffisent pas. Vous ne disposez pas des ressources nécessaires pour établir un magasin dans la moitié des pays/régions du monde. Donc vous saisissez 4 dans le champ Nombre de clusters dans la boîte de dialogue Clusters.
La carte prend alors tout son intérêt :
Mais comment ces clusters se rapportent-ils aux variables que vous avez choisies ? Quel est le cluster le mieux corrélé aux facteurs favorisant le tourisme des seniors ? Il est temps d’examiner les statistiques sous-jacentes aux clusters.
Fermez la boîte de dialogue Clusters en cliquant sur le X dans le coin supérieur droit :
Cliquez sur le champ Clusters dans la fiche Repères et choisissez Décrire les clusters.
La table au bas de l’onglet Modèles dans la boîte de dialogue Décrire les clusters affiche la valeur moyenne pour chaque variable dans chaque cluster :
Le Cluster 4 contient l’espérance de vie la plus élevée (à la fois hommes et femmes), la concentration la plus élevée de population urbaine et les dépenses les plus élevées dans le domaine du tourisme international, soit 1 360,40 $ par tête. La seule variable pour laquelle le Cluster 4 n’affiche pas la valeur la plus élevée est Population 65+, où le Cluster 3 a l’avantage : 0,15493 (juste en-dessous de 16 %) à 0,11606 (juste au-dessus de 11 %) dans le Cluster 4.
L’algorithme de cluster ne sait pas si vous recherchez la valeur maximum pour ces variables, la valeur minimum, ou seulement une valeur intermédiaire. Il cherche uniquement la corrélation. Mais vous savez que des valeurs plus élevées pour ces variables ne sont pas le signal que vous recherchez, et le Cluster 4 est le bon choix.
Vous tentez de sélectionner les pays/régions du Cluster 4 sur la carte, mais vous disposez d’une option plus simple. Fermez la boîte de dialogue Décrire les clusters puis cliquez sur Cluster 4 sur la légende des couleurs et choisissez Conserver uniquement.
Choisissez un tableau de texte dans Montre-moi.
Vous voyez alors une liste des pays/régions dans le Cluster 4 :
La liste n’est pas la fin du processus. Vous pouvez essayer de créer un nouveau cluster avec un ensemble de variables légèrement différent et peut-être un nombre différent de clusters, ou vous pouvez ajouter des pays/régions à la liste et en supprimer d’autres, sur la base d’autres facteurs. Par exemple, si votre offre de voyage concerne principalement des destinations tropicales, vous pouvez supprimer les pays/régions tels que Curaçao et les Bahamas de la liste car les destinations tropicales ne sont pas probablement pas recherchées par les résidents de ces pays/régions.
Une autre option consiste à filtrer vos données avant de créer un nouveau cluster, de manière à afficher uniquement les pays/régions au-dessus d’un certain seuil, ou à cibler les pays/régions d’une zone géographique spécifique.