Option « Calculer au moyen de » et partitionnement des données dans la modélisation prédictive
Vous effectuez des prédictions à partir de vos données en incluant des fonctions de modélisation prédictive, MODEL_QUANTILE ou MODEL_PERCENTILE, dans un calcul de table.
N’oubliez pas de spécifier une instruction Calculer au moyen de pour tous les calculs de table. Pour obtenir une vue d’ensemble de la façon dont les différentes dimensions d’adressage et de partitionnement peuvent affecter vos résultats, consultez Transformer des valeurs avec des calculs de table.
Dans les fonctions de modélisation prédictive, l’option Calculer au moyen de est utilisée pour partitionner (portée) l’ensemble de données qui sera utilisé pour créer le modèle prédictif.
Les fonctions de modélisation prédictive n’ont pas de concept d’adressage (direction), puisque le modèle renvoie un résultat distinct pour chaque repère en fonction des prédicteurs sélectionnés. Donc, contrairement à Total cumulé où la dimension d’adressage détermine l’ordre d’ajout des champs et de renvoi des résultats, les fonctions de modélisation prédictive sont non séquentielles par essence. Elles calculent les résultats à l’aide d’un modèle à partir des données définies par la cible et les prédicteurs de la fonction, au niveau de détail spécifié par la visualisation. Dans ces données, il n’y a pas de concept de séquençage sauf si un prédicteur ordonné, tel qu’une dimension de date, est utilisé.
En outre, le niveau de détail de la visualisation est toujours utilisé lors de la définition des données utilisées pour créer le modèle. Tous les calculs de table fonctionnent au même niveau de détail que la visualisation elle-même, et les fonctions de modélisation prédictive ne font pas exception.
Recommandations pour les fonctions de modélisation prédictive
Il est recommandé de sélectionner une dimension spécifique à laquelle appliquer le partitionnement en cas d’utilisation des fonctions de modélisation prédictive. Étant donné que vous pouvez avoir plusieurs calculs de prédiction dans une seule visualisation ou un seul tableau de bord, la sélection d’une dimension de partitionnement spécifique garantit que vous allez créer des modèles utilisant le même ensemble de données sous-jacentes pour chaque fonction individuelle, et donc que vous allez comparer les résultats issus de modèles semblables.
Lorsque vous utilisez des fonctions de modélisation prédictive dans Tableau, il est essentiel d’assurer la cohérence entre les différentes instanciations, à la fois dans différentes itérations de votre modèle (par exemple, lorsque vous sélectionnez différents prédicteurs) et dans différentes visualisations. L’utilisation des options directionnelles Calculer au moyen ouvre la possibilité qu’un petit changement dans vos données de visualisation aura un impact important sur les données utilisées pour créer le modèle, affectant ainsi sa validité et sa cohérence entre différentes visualisations.
Choix des dimensions
Les exemples suivants utilisent la source de données Exemple - Hypermarché qui est fournie avec Tableau Desktop.
Lorsque vous choisissez une dimension, n’oubliez pas que Tableau créera un modèle prédictif sur cette dimension. Autrement dit, si vous sélectionnez Order Date (Date de commande) comme dimension de partitionnement, Tableau utilisera des données à l’intérieur de toute autre partition établie, mais avec les valeurs Order Date.
L’image ci-dessous montre les données utilisées pour créer le modèle mis en surbrillance en jaune, et la sortie du modèle mise en surbrillance en orange. Dans ce cas, puisqu’il n’y a pas de prédicteurs, toutes les réponses sont identiques dans une sous-catégorie donnée. La sélection de prédicteurs optimaux vous aidera à générer des résultats plus significatifs. Pour plus d’informations sur les prédicteurs optimaux, consultez Choisir des prédicteurs.
De même, si vous aviez sélectionné Sous-catégorie comme dimension de partitionnement, Tableau utiliserait les données à l’intérieur d’un mois donné, mais avec plusieurs sous-catégories, comme ci-dessous. Si les données sont subdivisées en volets, les limites du volet seront respectées lors de la création d’un modèle.
Remarque sur le partitionnement
Notez que le partitionnement visuel de vos données a des effets importants sur les données utilisées pour créer un modèle et générer vos prédictions. L’ajout d’un niveau de détail plus élevé (par exemple, en incluant État et Ville sur une seule étagère) partitionnera vos données selon le niveau de détail supérieur. Cela est vrai indépendamment de l’ordre dans lequel les piles sont placées sur l’étagère. Par exemple, des prédictions identiques seront retournées dans ce cas :
L’ajout d’une pile modifiant le niveau de détail partitionnera vos données si elles sont ajoutées à l’étagère Lignes ou Colonnes, ou à Couleur, Taille, Étiquette, Détails ou Forme sur la fiche Repères. L’ajout d’une pile à un autre niveau de détail à Infobulle ne partitionnera pas vos données.
Dans l’exemple ci-dessous, le modèle est automatiquement partitionné par catégorie étant donné que les piles Catégorie et Sous-Catégorie sont toutes deux sur les lignes. Le calcul de prédiction est effectué sur la Sous-catégorie dans les limites de la pile de niveau supérieur, Catégorie.
Cela a des implications sur la manières dont vos prédicteurs sont appliqués. Examinons l’exemple ci-dessous. Dans ce cas, trois calculs de table MODEL_QUANTILE sont appliqués :
Predict_Sales_City | Predict_Sales_State | Predict_Sales_Region |
MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
|
Pour les trois, nous avons sélectionné Calculer au moyen de > Ville. Examinons quelques villes de la Caroline du Nord :
Remarquez que les résultats des trois calculs sont identiques dans un État donné, malgré l’utilisation de prédicteurs différents.
Si nous supprimons Région de l’étagère Lignes, nos résultats ne changent pas, ils sont toujours tous identiques dans un État donné :
En revanche, lorsque nous supprimons État de l’étagère Lignes, nous voyons des résultats différents pour chaque calcul :
Que se passe-t-il?
Dans le premier exemple, Région et État sur l’étagère Lignes partitionnent les villes. Par conséquent, les modèles pour Predict_Sales_City, Predict_Sales_State et Predict_Sales_Region reçoivent les mêmes données et génèrent les mêmes prédictions.
Étant donné que nous avons déjà partitionné visuellement les données dans État et Region, aucun de nos prédicteurs n’ajoute de valeur au modèle et n’a d’impact sur les résultats :
Lorsque nous supprimons Région de l’étagère Lignes, nous partitionnons toujours par État, aucune modification n’est donc apportée aux données utilisées pour créer le modèle. Encore une fois, puisque nous avons déjà partitionné visuellement les données dans l’État, aucun de nos prédicteurs n’ajoute de valeur au modèle ou n’a d’impact sur les résultats :
Toutefois, lorsque nous supprimons État, les données sont départitionnées et nous voyons des prédictions différentes pour chaque calcul. Examinons de plus près ce qui se passe :
Pour Predict_Sales_City, nous utilisons ATTR([City])comme prédicteur. Puisqu’il est au même niveau de détail que la visualisation, il n’ajoute aucune valeur et est ignoré. Nous agrégeons les Ventes pour toutes les villes, les transmettons au moteur statistique, et calculons les prédictions de ventes. Comme aucun autre prédicteur n’est inclus, nous voyons le même résultat pour chaque ville. Si nous avions inclus une ou plusieurs mesures, nous verrions des variations dans les résultats.
Pour Predict_Sales_State, nous allons utiliser ATTR([State]) comme prédicteur. Le predicteur partitionne toute les données de Ville par État. Nous nous attendons à voir des résultats identiques dans un État, mais des résultats différents pour chaque État.
Mais remarquez que le résultat nous obtenons est un peu différent. Les villes de Cary, Chapel Hill et Charlotte ont toutes des prédictions identiques de 2084 $, comme attendu. Burlington, en revanche, affiche une prédiction différente de 9366 $ :
C’est parce qu’il existe une ville nommée « Burlington » dans plusieurs États (Iowa, Caroline du Nord et Vermont). Par conséquent, État se résout en *, c’est-à-dire « plus d’une valeur ». Tous les repères où État se résout en * sont évalués ensemble, de sorte que toute autre ville qui existe également dans plusieurs États aurait également une prédiction de 9366 $.
Pour Predict_Sales_Region, nous utilisons ATTR([Region]) comme prédicteur. Le prédicteur partitionne toutes les données de Ville par Région. Vous vous attendez à voir des résultats identiques dans une région, mais des résultats différents pour chaque région :
Encore une fois, puisque Burlington existe dans plusieurs régions (Centre, Est et Sud), Région se résout en *. Les prédictions de Burlington ne correspondent qu’aux villes qui existent également dans plusieurs régions.
Comme vous pouvez le voir, il est très important de s’assurer que tous les prédicteurs dimensionnels sont correctement alignés avec le niveau de détail de votre visualisation et votre partitionnement. La subdivision de votre visualisation par n’importe quelle dimension pourrait avoir des effets involontaires sur vos prédictions.