Résoudre les erreurs dans les fonctions de modélisation prédictive

Si vous utilisez des fonctions de modélisation prédictive dans Tableau, vous pouvez rencontrer des erreurs lorsque vous essayez d’ajouter les calculs à une visualisation. Ce problème est souvent dû à la combinaison de prédicteurs et d’éléments visualisés, qui génère un calcul non valide mathématiquement.

En général, la première mesure consiste à revérifier votre dimension Calculer au moyen de. Ensuite, assurez-vous qu’il y a bien correspondance entre le niveau de détail spécifié dans vos prédicteurs et le niveau de détail dans la vue. Vérifiez également que vos prédicteurs fournissent des données pertinentes au modèle, compte tenu de la visualisation actuelle.

Dans cet article, nous décrivons en détail plusieurs problèmes courants et leurs solutions possibles.

Les erreurs rencontrées avec les fonctions de modélisation prédictive sont généralement causées par un ou plusieurs des problèmes suivants, selon le modèle utilisé.

Erreurs générales

Erreurs de régression par processus gaussien

Dimension non valide « Calculer au moyen de »

Lors de la visualisation d’une fonction de modélisation prédictive, vous devez spécifier une dimension « Calculer au moyen de ». Il est recommandé de sélectionner une dimension spécifique (telle que Région ou Catégorie) plutôt qu’une dimension directionnelle (telle que Table (horizontale, puis verticale) ou Volet (horizontal)).

Étant donné que vous pouvez avoir plusieurs fonctions de modélisation prédictive incluses dans une visualisation ou un tableau de bord, la sélection d’une dimension de partitionnement spécifique vous aidera à créer des modèles utilisant le même ensemble de données sous-jacentes pour chaque fonction individuelle. Vous pourrez ainsi comparer les résultats de modèles similaires.

Pour plus d’informations sur l’adressage et le partitionnement, consultez Transformer des valeurs avec des calculs de table.

Lorsque vous utilisez des fonctions de modélisation prédictive, vous devez assurer la cohérence entre les différentes instanciations, à la fois dans différentes itérations de votre modèle (par exemple, lorsque vous sélectionnez différents prédicteurs) et dans différentes visualisations. Avec l’utilisation des dimensions directionnelles « Calculer au moyen de », il peut arriver qu’un changement mineur dans vos données visualisées affecte de manière significative les données utilisées pour construire le modèle, affectant ainsi sa validité et sa cohérence entre différentes visualisations.

Vous pouvez afficher des valeurs null si aucune dimension « Calculer au moyen de » n’a été spécifiée ou si une dimension « Calculer au moyen de » non valide a été sélectionnée.

Les dimensions non valides « Calculer au moyen de » incluent :

  • Cellule : cette dimension entraînera toujours l’utilisation d’un seul point de données pour créer un modèle et ne fonctionnera pas.
  • Dimension imbriquée de niveau supérieur (par exemple, si Région et État sont visualisés sur un axe, où les repères sont générés pour État mais regroupés par Région.) Si vous sélectionnez Région comme dimension de partitionnement, elle renvoie des valeurs null puisqu’il n’y a pas de repères formalisés pour Région dans cette vue.

Visualisation où les dimensions « Calculer au moyen de » sont État et Catégorie

Dans la visualisation ci-dessus, les dimensions valides « Calculer au moyen de » sont État et Catégorie. Le partitionnement des données par État ou Catégorie génère plusieurs repères valides qui peuvent être utilisés pour créer un modèle.

La dimension Région, bien qu’elle soit répertoriée comme option « Calculer au moyen de », ne génère aucun repère au niveau de détail de cette vue et ne peut pas être utilisée pour partitionner les données.

Pour plus d’informations, consultez Option « Calculer au moyen de » et partitionnement des données dans la modélisation prédictive.

Les prédicteurs de dimension sont en conflit avec le niveau de détail de la visualisation

Les prédicteurs de dimension doivent être au même niveau de détail que la visualisation ou au niveau supérieur. Autrement dit, si vous visualisez des données par État, vous pouvez utiliser État, Région ou Pays comme région ou le pays comme prédicteurs, mais l’utilisation de Ville comme prédicteur génèrera une erreur. Étant donné qu’un État comprend plusieurs villes, ce prédicteur se résoudra sur * pour tous les repères et ne retournera pas d’informations significatives. De ce fait, Tableau l’ignore.

Chaque prédicteur dimensionnel doit être enveloppé dans une fonction ATTR, par exemple :

MODEL_PERCENTILE(SUM([Sales]), ATTR([State]), ATTR([Category])

Plusieurs prédicteurs sont en conflit les uns avec les autres

Chaque prédicteur utilisé dans une fonction de modélisation prédictive donnée doit fournir des informations indépendantes au calcul. Si deux prédicteurs sélectionnés sont strictement des prédicteurs équivalents, des versions à l’échelle ou l’inverse l’un de l’autre, la fonction de modélisation prédictive renvoie une erreur lorsqu’elle est visualisée.

Par exemple, un ensemble de données qui suit les conditions météorologiques au fil du temps peut avoir deux champs : IsRain et IsClear. Ces deux champs sont l’inverse l’un de l’autre, c’est-à-dire que IsClear = True quand IsRain =False, et vice-versa. Si vous incluez à la fois IsClear et IsRain comme prédicteurs d’une seule fonction de modélisation prédictive, vous obtenez une erreur.

Ceci vaut à la fois pour les mesures et les dimensions en tant que prédicteurs.

Dans les deux cas, vous pouvez corriger l’erreur en modifiant vos prédicteurs de manière à supprimer les prédicteurs étroitement corrélés. Pour plus d’informations, consultez Choisir des prédicteurs.

Il n’y a pas assez de données pour créer un modèle

Une partition doit comporter au moins trois repères pour que les fonctions de modélisation prédictive soient en mesure de créer un modèle et de générer des prédictions. Si l’ensemble de données défini par les données de la vues et la dimension « Calculer au moyen de » contient deux modèles ou moins, la fonction de modélisation prédictive renvoie des résultats nuls.

Pour résoudre ce problème, révisez votre niveau de détail, vos paramètres de filtrage des données ou votre dimension « Calculer au moyen de » afin que chaque partition comporte plus de deux repères.

Les données fournies n’ont pas permis de créer un modèle viable

Cette erreur apparaît en cas de conflit entre le ou les prédicteurs sélectionnés, le niveau de détail de la visualisation et/ou la dimension « Calculer au moyen de » sélectionnée, si bien qu’il est impossible d’utiliser les prédicteurs pour créer un modèle rationnel.

Par exemple, examinons ce calcul MODEL_QUANTILE :

MODEL_QUANTILE(0.5, MEDIAN([Profit]), ATTR(MONTH([Order Date])))

L’application de ce calcul à une visualisation où chaque repère représente une valeur État renvoie l’erreur ci-dessous :

Message d’erreur

Étant donné que Order Date (Date de commande) n’est pas utilisé pour visualiser ou segmenter les données, la fonction de modélisation prédictive ne peut pas utiliser le prédicteur spécifié pour créer un modèle.

Pour résoudre ce problème :

  • Mettez à jour votre visualisation de manière à inclure le prédicteur comme dimension.
  • Mettez à jour votre fonction de manière à supprimer le prédicteur non viable.

Il est à noter que cette erreur reflète un décalage entre la visualisation et les prédicteurs spécifiques du calcul de la table. Ce même calcul fonctionnerait sans problème s’il était appliqué à une visualisation incluant Order Date comme dimension.

La régression par processus gaussien nécessite exactement un prédicteur de dimension ordonnée

Pour utiliser la régression par processus gaussien, vous devez inclure exactement une dimension ordonnée en tant que prédicteur. Vous pouvez inclure d’autres dimensions non ordonnées en tant que prédicteurs. Les mesures ne peuvent pas être utilisées comme prédicteurs avec la régression par processus gaussien.

Si vous rencontrez cette erreur, ajoutez un prédicteur de dimension ordonnée à votre calcul de table, supprimez le prédicteur de dimension ordonnée excédentaire ou spécifiez que l’une des dimensions ordonnées doit être traitée comme une dimension non ordonnée.

Comme la régression par processus gaussien convient tout particulièrement pour les données de séries chronologiques, un prédicteur basé sur le temps tel que ATTR (DATETRUNC('month',[Order Date])) est généralement utilisé dans ce cas. Toute valeur date_part peut être utilisée dans l’expression DATETRUNC, mais date_part doit être au même niveau de détail que la visualisation, ou plus élevé. C’est-à-dire que si le visualisation utilise WEEK([Order Date]) comme niveau d’agrégation, la valeur date_part doit être 'week', 'month', 'quarter', etc. Elle ne peut pas être 'dayofyear', 'day', 'weekday', 'hour', etc.

Notez que, comme ATTR(MONTH([Date])) renvoie les valeurs des chaîne, il ne fonctionnera pas comme prédicteur de dimension ordonnée à moins qu’il ne soit spécifié manuellement. Vous pouvez le faire en incluant "ordered" directement avant le prédicteur, comme ci-dessous :

MODEL_PERCENTILE(
"model=gp",
SUM([Sales]),
"ordered",ATTR(MONTH([Order Date]))
)

Si vous souhaitez inclure plusieurs dimensions temporelles dans vos prédicteurs, vous devez spécifier celles que vous souhaitez utiliser comme dimensions non ordonnées. Vous pouvez le faire en incluant "unordered" directement avant le prédicteur, comme ci-dessous :

MODEL_PERCENTILE(
"model=gp",
SUM([Sales]),
ATTR(DATETRUNC('month',[Order Date]))
"unordered",ATTR(DATETRUNC('year',[Order Date]))
)

Si vous tentez d’utiliser le calcul ci-dessus sans spécifier "unordered" devant ATTR(DATETRUNC('year',[Order Date]), une erreur s’affichera.

En outre, la direction d’adressage (ou option « Calcul au moyen de ») pour la régression par processus gaussien doit être définie sur le même champ que le prédicteur de dimension ordonnée.

Une seule direction d’adressage (ou option « Calculer au moyen de ») peut être sélectionnée pour tous les modèles.

La régression par processus gaussien prend uniquement en charge les dimensions en tant que prédicteurs

Vous ne pouvez pas utiliser de mesures comme prédicteurs dans les calculs de processus gaussien. Supprimez le prédicteur de mesure.

Cette limitation ne s’applique qu’aux fonctions de modélisation prédictive qui spécifient la régression par processus gaussien. Les fonctions de régression linéaire (ou MCO, la valeur par défaut) et de régression linéaire régularisée prennent toutes deux en charge les mesures en tant que prédicteurs.

Il n’y a pas de données d’apprentissage pour une ou plusieurs cibles de prédiction

La régression par processus gaussien exige que chaque partition de données contienne au moins n points de données afin de construire un modèle prédictif et de retourner des prédictions. Si vous rencontrez cette erreur, révisez vos prédictions.

Il y a plus de 5000 repères

Les régressions par processus gaussien ne sont prises en charge que sur les visualisations comportant moins de 5000 repères. Pour résoudre ce problème, mettez à jour votre niveau de détail de manière à diminuer le nombre de repères ou sélectionnez un modèle statistique différent.

Merci de vos commentaires !Avis correctement envoyé. Merci