Choix d’un modèle prédictif

Les fonctions prédictives de modélisation prennent en charge la régression linéaire, la régression linéaire régularisée et la régression par processus gaussien. Ces modèles prennent en charge différents cas d’utilisation et types de prédiction, et ont également des limitations différentes.

Modèles pris en charge

Régression linéaire

La régression linéaire (Le lien s’ouvre dans une nouvelle fenêtre) (également appelée régression des moindres carrés ordinaires, ou MCO) est particulièrement recommandée dans les cas suivants : un ou plusieurs prédicteurs ont une relation linéaire entre la prédiction et la cible de prédiction, ils ne sont pas affectés par les mêmes conditions sous-jacentes, et ils ne représentent pas deux instances des mêmes données (par exemple, les ventes exprimées en dollars et en euros). La régression linéaire est le modèle par défaut pour les fonctions de modélisation prédictive dans Tableau. Si vous ne spécifiez pas un modèle, la régression linéaire sera utilisée. Vous pouvez spécifier explicitement ce modèle en incluant « model=linear » comme premier argument dans votre calcul de table.

Exemple :

MODEL_QUANTILE(
"model=linear",
0.5,
SUM([Sales]),
ATTR(DATETRUNC('month',([Order Date]))
)

Régression linéaire régularisée

La régression linéaire régularisée(Le lien s’ouvre dans une nouvelle fenêtre) est particulièrement recommandée lorsqu’il existe une relation linéaire approximative entre deux variables indépendantes ou plus, également connue sous le nom de multicolinéarité(Le lien s’ouvre dans une nouvelle fenêtre). Ceci est fréquemment observé dans les ensembles de données du monde réel. Pour utiliser ce modèle au lieu de la régression linéaire par défaut, incluez « model=rl » comme premier argument dans votre calcul de table.

Exemple :

MODEL_QUANTILE(
"model=rl",
0.5,
SUM([Sales]),
ATTR(DATETRUNC('month',([Order Date]))
)

Régression par processus gaussien

La régression par processus gaussien(Le lien s’ouvre dans une nouvelle fenêtre) convient tout particulièrement pour générer des prédictions dans un domaine continu, comme le temps ou l’espace, ou lorsqu’il existe une relation non linéaire entre la variable et la cible de prédiction. La régression par processus gaussien dans Tableau doit avoir une seule dimension ordonnée en tant que prédicteur, mais peut inclure plusieurs dimensions non ordonnées comme prédicteurs. Notez que les mesures ne peuvent pas être utilisées comme prédicteurs dans la régression par processus gaussien dans Tableau. Pour utiliser ce modèle au lieu de la régression linéaire par défaut, incluez « model=g » comme premier argument dans votre calcul de table.

Remarque : une dimension ordonnée désigne toute dimension dont les valeurs peuvent être séquencées, par exemple MONTH. Une dimension non ordonnée est une dimension dont les valeurs n’ont pas de séquence inhérente, comme le sexe ou la couleur.

Exemple :

MODEL_PERCENTILE(
"model=gp",
AVG([Days to Ship Actual]),
ATTR(DATETRUNC('month',([Order Date])))
)


Dans le cadre d’une heuristique simple, vous pouvez utiliser les critères ci-dessous pour sélectionner votre modèle :

  • Régression linéaire (par défaut)  : à utiliser quand vous n’avez qu’un seul prédicteur, et que le prédicteur a une relation linéaire avec votre métrique cible.

  • Régression linéaire régularisée : à utiliser lorsque vous avez plusieurs prédicteurs, surtout lorsque ces prédicteurs ont une relation linéaire avec la métrique cible et que ces prédicteurs sont probablement affectés par des relations ou des tendances sous-jacentes similaires.

  • Régression par processus gaussien : à utiliser lorsque vous avez des prédicteurs de temps ou d’espace, ou lorsque vous utilisez des prédicteurs qui n’ont peut-être pas de relation linéaire avec la métrique cible.

Merci de vos commentaires!Votre commentaire s été envoyé avec succès. Merci!