Description des fonctions de modélisation prédictive dans Tableau

Vous pouviez déjà ajouter des courbes de tendance et des prévisions à une visualisation, mais vous pouvez désormais aller plus loin en vous appuyant sur la puissance d’un moteur statistique pour créer un modèle qui comprend comment vos données sont distribuées, par exemple une courbe de tendance, ou autre courbe plus adaptée. Auparavant, les utilisateurs devaient intégrer Tableau avec R et Python s’ils souhaitaient effectuer des calculs statistiques avancés et les visualiser dans Tableau. Vous pouvez désormais utiliser les fonctions de modélisation prédictive pour faire des prédictions à partir de vos données en les incluant dans un calcul de table. Pour plus d’informations sur les calculs de table, consultez Transformer des valeurs avec des calculs de table.

Grâce à ces fonctions de modélisation prédictive, vous pouvez sélectionner des cibles et des prédicteurs en mettant à jour les variables et en visualisant plusieurs modèles avec différentes combinaisons de prédicteurs. Les données peuvent être filtrées, agrégées et transformées à n’importe quel niveau de détail, et le modèle (et donc la prédiction) sera automatiquement recalculé pour correspondre à vos données.

Pour un exemple détaillé montrant comment créer des calculs de prédiction à l’aide de ces fonctions, consultez Exemple - Explorer l’espérance de vie des femmes avec des fonctions de modélisation prédictive.

Fonctions de modélisation prédictive disponibles dans Tableau

MODEL_PERCENTILE

SyntaxeMODEL_PERCENTILE(
model_specification (optional),
target_expression,
predictor_expression(s))
DéfinitionRenvoie la probabilité (comprise entre 0 et 1) que la valeur attendue soit inférieure ou égale au repère observé, définie par l’expression cible et d’autres expressions de prédiction. Il s’agit de la fonction de distribution prédictive postérieure, également appelée fonction de distribution cumulative (CDF).
Exemple
MODEL_PERCENTILE( SUM([Sales]),COUNT([Orders]))

MODEL_QUANTILE

SyntaxeMODEL_QUANTILE(
model_specification (optional),
quantile,
target_expression,
predictor_expression(s))
DéfinitionRenvoie une valeur numérique cible dans la plage probable définie par l’expression cible et d’autres expressions de prédiction, au quantile spécifié. Il s’agit du quantile prédictif postérieur.
Exemple
MODEL_QUANTILE(0.5, SUM([Sales]), COUNT([Orders]))

Puissance des fonctions de modélisation prédictive

Examinons un exemple basé sur des données salariales, en commençant par MODEL_QUANTILE.

Dans l’exemple ci-dessous, MODEL_QUANTILE a été utilisé pour afficher le 10ème centile et le 90ème centile de la distribution attendue pour le même ensemble de données. D’après les données existantes et à l’aide d’un modèle de régression linéaire, le moteur statistique a déterminé qu’il y a une probabilité de 90 % que le salaire maximal pour chaque mandat soit en-dessous de la ligne verte, et une probabilité de 10 % que le salaire minimum pour chaque mandat soit en-dessous de la ligne bleue.

En d’autres termes, avec le quantile fixé à 0,9, le modèle prévoit que tous les salaires seront au niveau de la ligne verte ou en-dessous 90 % du temps. La ligne bleue est fixée à 0,1 ou 10 %, de sorte que seuls 10 % des salaires seront au niveau de la ligne bleue ou en-dessous, avec la proportion inverse (90 %) au-dessus de la ligne bleue.

Nous obtenons une bande dans laquelle nous pouvons prédire que 80 % des points futurs potentiellement générés ou des données non observées seront compris.

Graphique de répartition des salaires

Voyons ensuite comment MODEL_PERCENTILE, l’inverse de MODEL_QUANTILE, peut nous aider à mieux comprendre les données.

Vous pouvez identifier les valeurs atypiques de l’ensemble de données à l’aide de la fonction MODEL_PERCENTILE. MODEL_PERCENTILE vous indique, en tant que centile, où le repère observé se situe dans une plage de valeurs probables pour chaque repère. Si le centile est très proche de 0,5, la valeur observée est très proche de la valeur médiane prédite. Si le centile est proche de 0 ou 1, la valeur observée se situe aux limites inférieures ou supérieures de la plage du modèle et est relativement inattendue.

Ci-dessous, nous avons appliqué MODEL_PERCENTILE sous forme de couleur à la visualisation des salaires dans la moitié supérieure de l’image, afin de mieux comprendre les valeurs les plus attendues.

Répartition des salaires en couleur

Syntaxe des fonctions de modélisation prédictive en détail

Qu’est-ce que MODEL_QUANTILE?

MODEL_QUANTILE calcule le quantile prédictif postérieur, ou la valeur attendue à un quantile spécifié.

  • Quantile : le premier argument est un nombre entre 0 et 1, indiquant quel quantile devrait être prédit. Par exemple, 0,5 indique une prédiction de médiane.
  • Expression de la cible : le deuxième argument est la mesure à prédire ou « cibler ».
  • Prédicteur(s) : le troisième argument est le prédicteur utilisé pour faire la prédiction. Les prédicteurs peuvent être des dimensions, des mesures, ou les deux.

Le résultat est un nombre dans la plage probable.

Vous pouvez utiliser MODEL_QUANTILE pour générer un intervalle de confiance, des valeurs manquantes telles que des dates futures, ou encore des catégories qui n’existent pas dans votre ensemble de données sous-jacentes.

Qu’est-ce que MODEL_PERCENTILE?

MODEL_PERCENTILE calcule la fonction de distribution prédictive postérieure, également appelée fonction de distribution cumulative (CDF). Elle calcule le quantile d’une valeur particulière comprise entre 0 et 1, l’inverse de MODEL_QUANTILE.

  • Expression cible : le premier argument est la mesure à cibler, en identifiant les valeurs à évaluer.
  • Expression(s) de prédiction : le second argument est le prédicteur utilisé pour faire la prédiction.
  • Les arguments supplémentaires sont facultatifs et sont inclus pour contrôler la prédiction.

Notez que la syntaxe de calcul est similaire. MODEL_QUANTILE a par contre l’argument supplémentaire d’un quantile défini.

Le résultat est la probabilité que la valeur attendue soit inférieure ou égale à la valeur observée exprimée dans le repère.

Vous pouvez utiliser MODEL_PERCENTILE pour faire apparaître les corrélations et les relations dans votre base de données. Si MODEL_PERCENTILE renvoie une valeur proche de 0,5, le repère observé est proche de la médiane de la plage de valeurs prédites, compte tenu des autres prédicteurs que vous avez sélectionnés. Si MODEL_PERCENTILE renvoie une valeur proche de 0 ou 1, la repère observé est proche de la plage inférieure ou supérieure de ce que le modèle attend, compte tenu des autres prédicteurs que vous avez sélectionnés.

Remarque : les dimensions utilisées comme prédicteurs peuvent être ordonnées ou non ordonnées. Une dimension ordonnée est une dimension dont les valeurs peuvent être séquencées, par exemple MONTH. Une dimension non ordonnée est une dimension dont les valeurs n’ont pas de séquence inhérente, comme le sexe ou la couleur. Cette distinction est importante en cas d’utilisation de la régression par processus gaussien. Pour plus d’informations sur ce modèle et d’autres modèles, consultez Choix d’un modèle prédictif.

Pour les utilisateurs avancés, il existe deux autres arguments optionnels que vous pouvez inclure pour contrôler la prédiction. Pour plus d’informations, consultez Régularisation et augmentation dans la modélisation prédictive.

Qu’est-ce qui est calculé?

L’entrée utilisée pour créer le modèle est une matrice où chaque repère est une ligne, et les colonnes sont l’expression cible et les prédicteurs évalués pour chaque repère. Toute ligne spécifiée dans la visualisation est ce qui définit la ligne pour l’ensemble de données calculé par le moteur statistique.

Examinons l’exemple ci-dessous, où les lignes (et donc les repères) sont définies par l’intitulé des postes, et les colonnes sont l’expression cible MEDIAN([Annual Rt]). Ceux-ci sont suivis par les prédicteurs supplémentaires facultatifs MEDIAN([Tenure in Months (Mesure)] et ATTR([Department Generic (groupe)].

Table des données salariales

Remarque : plusieurs intitulés de poste incluent un astérisque sous le nom du service. En effet, ces intitulés de poste existent dans plusieurs services, mais Tableau les traite tous comme s’ils étaient dans le même service. En outre, le moteur statistique ne tient pas compte du nombre d’enregistrements, et traite tous les repères comme étant également probables. En effet, Tableau ne peut pas effectuer de calculs de table sur des données non agrégées et ne peut pas agréger les résultats des calculs de table. Pour en savoir plus sur l’agrégation, consultez Agrégation de données dans Tableau.

Pour plus d’informations sur les données utilisées pour créer un modèle et générer des prédictions, consultez Option « Calculer au moyen de » et partitionnement des données dans la modélisation prédictive.

Quels sont les modèles pris en charge?

Les fonctions prédictives de modélisation prennent en charge la régression linéaire, la régression linéaire régularisée et la régression par processus gaussien. Ces modèles prennent en charge différents cas d’utilisation et types de prédiction, et ont également des limitations différentes. Pour plus d’informations, consultez Choix d’un modèle prédictif.

Choisir vos prédicteurs

Un prédicteur peut être n’importe quel champ de votre source de données, mesure ou dimension, y compris les champs calculés.

Remarque : si vous utilisez une dimension comme prédicteur, vous devez utiliser un wrapper ATTR (par ex. ATTR([État] plutôt que simplement [État]). En effet, les dimensions ne fonctionnent généralement que si elles sont dans le niveau de détail de la visualisation soit directement, soit au-dessus dans une hiérarchie.

Par exemple, supposons que vous ayez un ensemble de données qui inclut les champs [Ville], [État] et [Région], où plusieurs enregistrements [Ville] existent dans un [État], et plusieurs enregistrements [État] dans une [Région].

Dans une visualisation qui utilise [État] comme repère, les prédicteurs ATTR([État]) ou ATTR([Région]) fonctionneront tous deux comme prédicteurs. Par contre, le prédicteur ATTR([Ville]) reviendra à *, puisque plusieurs villes existent dans un État de la visualisation et ne peuvent donc pas être utilisées comme prédicteurs. En d’autres termes, inclure un prédicteur qui est à un niveau de détail inférieur à celui de la visualisation n’ajoute aucune valeur aux prédictions. Dans la plupart des cas, un prédicteur à un niveau de détail inférieur à celui de la visualisation sera évalué sur * et donc tous seront traités de façon identique.

Toutefois, si le même ensemble de données est utilisé pour générer une visualisation qui utilise [Ville] comme repère, ATTR([Ville]), ATTR([État]) et ATTR([Région]) peuvent tous être utilisés avec succès comme prédicteurs. Pour plus d’informations sur l’utilisation des fonctions ATTR, consultez Dans quels cas utiliser la fonction Attribute (ATTR).

Les dimensions et les mesures n’ont pas besoin d’être visualisées (dans la vue ou la visualisation) pour être incluses comme prédicteurs. Pour des conseils plus détaillés, consultez Choisir des prédicteurs.

Recommandations

Les calculs de prédiction sont particulièrement adaptés aux cas suivants :

  • Pour prédire des valeurs pour les enregistrements individuels, où chaque repère dans votre visualisation représente une entité distincte telle qu’un produit, une vente, une personne, etc., plutôt que des données agrégées. En effet, Tableau considère chaque repère comme ayant le même niveau de probabilité, même si un repère est composé de 100 enregistrements et que les autres repères sont composés d’un enregistrement chacun. Le moteur statistique ne pondère pas les repères en fonction du nombre d’enregistrements qui les composent.

  • Pour prédire les valeurs pour des expressions cibles agrégées à l’aide de SUM et COUNT.
Remarque : MODEL_QUANTILE et MODEL_PERCENTILE ne sont pas recommandés pour prédire les valeurs de target_expressions agrégées à l’aide des fonctions AVG, MEDIAN, MIN et MAX.

Limites

  • Vous devez utiliser un champ calculé pour étendre une série chronologique dans le futur. Pour plus d’informations, consultez Prédire le futur.

  • Les prédicteurs doivent être au même niveau de détail ou à un niveau de détail supérieur à celui de la vue. Autrement dit, si votre vue est agrégée par État, vous devez utiliser l’État ou la région comme prédicteur, mais pas la ville. Pour des conseils plus détaillés, consultez Choisir des prédicteurs.

Où est le point de rupture des calculs de prédiction?

Quel que soit le modèle que vous utilisez, vous devez avoir au moins trois points de données dans chaque partition pour que le modèle puisse renvoyer une réponse.

Si vous avez spécifié la régression par processus gaussien comme modèle, elle peut être utilisée dans des calculs prédictifs avec un prédicteur dimensionnel ordonné et un certain nombre de prédicteurs dimensionnels non ordonnés. Les mesures ne sont pas prises en charge comme prédicteurs dans les calculs de régression par processus gaussien, mais peuvent être utilisées dans les calculs linéaires et des calculs de régression linéaire régularisée. Pour plus d’informations sur la sélection de modèle, consultez Choix d’un modèle prédictif.

Si votre calcul utilisait ATTR[State] comme prédicteur et que votre visualisation incluait également State comme repère, mais aucun autre champ à un niveau de détail inférieur, tel que City, vous rencontreriez une erreur. Pour éviter cela, assurez-vous simplement qu’il n’y a pas de relation un à un entre les repères et les catégories de prédicteurs.

Pour plus d’informations sur ces problèmes et d’autres problèmes de prédiction, consultez Résoudre les problèmes dans les fonctions de modélisation prédictive.

FAQ

Qu’en est-il des repères dans les groupes de prédicteurs multiples?

Si une ligne est agrégée à partir de données qui existent au sein de groupes de prédicteurs multiples, la valeur de la fonction ATTR est une valeur spéciale de plusieurs valeurs. Par exemple, toutes les villes qui existent dans plusieurs États auront la même valeur prédite (à moins qu’il n’y ait d’autres prédicteurs qui sont distincts). Lors de la sélection de vos prédicteurs, il est préférable d’utiliser des prédicteurs qui sont au même niveau de détail que la visualisation ou à un niveau plus élevé. Encore une fois, pour plus d’informations sur les fonctions ATTR, consultez Dans quels cas utiliser la fonction Attribute (ATTR).

Que se passe-t-il si l’agrégation ATTR renvoie une valeur *?

* est traité comme une valeur distincte. Si ATTR renvoie * pour tous les repères, alors vous avez, par essence, un prédicteur avec une valeur constante, qui sera ignoré. Cela revient au même que de ne pas inclure du tout ce prédicteur.

Si ATTR renvoie * pour certains repères, mais pas tous, alors il sera traité comme une catégorie où toutes les valeurs * sont considérées comme identiques. Ce scénario est identique au scénario ci-dessus, dans lequel il existe des repères dans les groupes de prédicteurs multiples.

Qu’en est-il des options « Calculer au moyen de » dans le menu de calcul de la table?

Elles fonctionnent de la même manière que l’option « Calculer au moyen de » dans d’autres calculs de table. Pour plus d’informations, consultez Option « Calculer au moyen de » et partitionnement des données dans la modélisation prédictive.

Pourquoi une erreur s’affiche-t-elle?

Plusieurs causes peuvent entraîner une erreur lors de l’utilisation de fonctions de modélisation prédictive. Pour les étapes de dépannage, consultez Résoudre les erreurs dans les fonctions de modélisation prédictive.

Merci de vos commentaires!Votre commentaire s été envoyé avec succès. Merci!