Choisir des prédicteurs

Lorsque vous créez des calculs de prédiction à l’aide des fonctions de modélisation prédictive de Tableau, vous devez choisir des prédicteurs. Pour rappel, un prédicteur est une variable d’entrée dont la valeur est utilisée pour prédire une variable de résultats, également appelée cible ou réponse. Vous allez fréquemment travailler avec des données relevant de domaines dont vous possédez une connaissance approfondie. Vous avez aussi déjà une bonne idée des champs étroitement corrélés avec votre cible de prédiction et susceptibles de faire des prédicteurs efficaces. Il est cependant toujours recommandé de prendre le temps d’évaluer vos prédicteurs et de vérifier la pertinence de votre choix. Il est conseillé de toujours inclure au moins un prédicteur, et généralement plus d’un.

Tout d’abord, sélectionnez votre cible. Cela semble évident, mais s’assurer que vous sélectionnez vos prédicteurs en fonction de ce que vous voulez prédire constitue une première étape critique. Par exemple, les domaines les plus corrélés avec l’espérance de vie des femmes peuvent être très différents des domaines les plus corrélés avec l’espérance de vie des hommes. De même, les champs les plus corrélés avec les ventes pourraient être très différents des champs les plus corrélés avec le profit.

Vous devez aussi garder à l’esprit que, par défaut, les fonctions de modélisation prédictive utilisent la régression linéaire comme modèle statistique sous-jacent. Avec ce modèle, les prédicteurs les plus corrélés sont ceux qui ont une relation linéaire avec la cible. Pour plus d’informations sur l’utilisation d’un autre modèle pris en charge, consultez Choix d’un modèle prédictif.

Pour mieux comprendre comment choisir les meilleurs prédicteurs pour les questions auxquelles vous cherchez à répondre, examinons les données sur l’espérance de vie des femmes. Pour suivre, téléchargez le classeur suivant de Tableau Public : Choosing Predictors for Your Predictions (Choisir des prédicteurs pour vos prédictions).

Mesures en tant que prédicteurs

Lorsque vous utilisez une mesure comme prédicteur, vous pouvez évaluer sa corrélation avec votre cible à l’aide de Tableau. Une méthode possible consiste à créer un nuage de points. Ci-dessous, nous comparons l’espérance de vie médiane des femmes d’un pays avec diverses autres mesures.

Comparaison de nuage de points pour montrer la corrélation prédicteur/cible

Pour certaines mesures, comme la Mortalité infantile et le Taux de natalité, il y a une corrélation négative claire avec l’Espérance de vie des femmes, comme on le voit dans la pente négative du nuage de points. Pour d’autres, c’est moins clair. Cependant, ce qui apparaît clairement est une répartition en forme de L pour PIB médian, Utilisation médiane de téléphones portables et Dépenses de santé médianes/personne. Cette distribution en forme de L indique souvent que l’utilisation d’une transformation logarithmique peut vous aider à analyser vos données avec plus de précision. Des valeurs toutes positives d’une colonne sont un autre indice. Dans Tableau, vous pouvez utiliser une transformation logarithmique en modifiant la pile et en enveloppant l’expression dans une fonction LOG :

Fonction de journalisation

Nous passons d’une distribution en forme de L, où il est difficile de faire la différence entre les extrêmes de l’échelle, à une distribution plus uniforme moins comprimée par les extrêmes de l’échelle.

Nuage de points en forme de L

Si nous répétons ce processus avec les autres distributions en forme de L, voici ce que nous obtenons :

Autres distributions en forme de L

Coefficient de détermination, ou valeur R carré

Plus les repères sont proches de la ligne droite, plus la corrélation entre les deux mesures est élevée. Pour vous aider à évaluer la corrélation, vous pouvez ajouter des courbes de tendance. Dans le volet Analyses, déplacez Courbe de tendance vers la vue et déposez-la sur Linéaire. Survolez la courbe de tendance avec votre curseur pour obtenir la Valeur R carré, ou coefficient de détermination, qui indique dans quelle mesure la variable dépendante (la cible) est expliquée par la variable indépendante (le prédicteur). Les prédicteurs avec des valeurs R carré plus proches de 1 sont plus efficaces que les prédicteurs avec des valeurs R carré plus proches de 0.

Nuages de points avec R-carré proche de 1

En examinant nos nuages de points, nous pouvons voir que le meilleur prédicteur de l’espérance de vie médiane des femmes est la mortalité infantile médiane, qui a une valeur R carré de 0,87 :

Choisir le meilleur point de R au carré

D’autres prédicteurs efficaces sont le Taux médian de natalité (R carré=0,76) et la transformation logarithmique des Dépenses de santé médianes/personne (R carré=0,56).

Remarque : la pente de la courbe ne vous indique pas clairement quels prédicteurs ont la valeur R carré la plus élevée. Puisque l’échelle de l’axe x est déterminée par la plage de la variable spécifique sélectionnée, la pente de la courbe est fortement affectée par les variables spécifiques utilisées.

Dans l’image ci-dessous, nous avons visualisé l’Espérance de vie médiane des femmes par rapport à l’Espérance de vie médiane des femmes. La visualisation résultante est une ligne parfaitement droite sur un angle de 45°  : comme prévu, il y a une corrélation parfaite entre la valeur sur l’axe x et la valeur sur l’axe y, avec une valeur R carré de 1 :

Point avec R-carré de 1 exactement

Toutefois, comme indiqué ci-dessous, même si LOG(MEDIAN([GDP]) a une courbe de tendance plus raide que les autres, il a un score R carré faible de seulement 0,169. Ceci est dû à l’échelle de l’axe x pour ce volet :

Affiche un R-carré faible

Examinons également la façon dont quelques repères peuvent affecter de manière significative la pente d’une courbe de tendance. En zoomant sur le nuage de points du Taux médian d’imposition des entreprises, nous pouvons voir que la majorité des repères ont un taux d’imposition entre 0 et environ 1, avec six pays ayant des taux beaucoup plus élevés, entre 2 et 3. La valeur R carré pour tous les repères est 0,0879 :

Zoom sur le graphique du taux médian de taxe professionnelle

Voyons cependant ce qui se passe si nous supprimons ce groupement de six repères :

Montre ce qui se passe lorsque le groupement de repères est supprimé

La courbe de tendance est presque stable, et la valeur R carré tombe à 0,0006, ce qui indique qu’il n’y a pour ainsi dire aucune corrélation entre le Taux médian d’imposition des entreprises et l’Espérance de vie médiane des femmes. Lorsque vous visualisez vos données et utilisez des méthodes statistiques solides pour sélectionner vos prédicteurs, il est important d’examiner attentivement s’il existe des valeurs atypiques ou d’autres caractéristiques des données susceptibles d’affecter vos conclusions.

Remarque : pour plus d’exemples de la façon dont les statistiques sommaires risquent de ne pas vous donner l’image complète, renseignez-vous sur le Quartet d’Anscombe.

Dimensions en tant que prédicteurs

Lorsque vous utilisez des dimensions comme prédicteurs, vous pouvez utiliser une procédure similaire pour déterminer la corrélation. Toutefois, vous pouvez constater qu’il existe un écart important entre les différentes dimensions dans leur niveau de relation à la cible. Par exemple, lors de la subdivision par région, une région peut être un très bon prédicteur pour la cible, mais la corrélation peut être beaucoup plus faible pour une autre région. Cela ne signifie pas que vous ne devriez pas utiliser cette dimension comme prédicteur, mais vous devez évaluer si l’utilisation de mesures ou de dimensions supplémentaires aidera à améliorer votre modèle, et, de ce fait, vos prédictions.

Puisque nous avons déterminé que les meilleurs prédicteurs pour notre ensemble de données sont la Mortalité infantile médiane, le Taux médian de natalité et la transformation logarithmique des Dépenses de santé médianes/personne, limitons la visualisation à ces trois variables :

Comparaison de différentes variables

Ensuite, partitionnons les données en ajoutant Région sur Couleur dans la fiche Repères et voyons ce qui arrive à la visualisation :

Partitionné par couleur

Comparaison des valeurs R carré entre les prédicteurs

Comparons les valeurs R carré pour chacune des courbes de tendance de la Région pour chaque prédicteur :

Table comparant les valeurs R carré par région

Dans la table ci-dessus, la valeur R carré la plus basse pour chaque prédicteur est mise en surbrillance en rouge, et la deuxième plus basse en jaune.

L’Europe a les valeurs R carré les plus basses pour la mortalité infantile médiane et le taux médian de natalité, et l’Afrique a la valeur R carré la plus faible pour la transformation logarithmique des dépenses de santé médianes/personne (mis en évidence en rouge). L’Afrique a également des valeurs R carré plus faibles pour le taux médian de mortalité infantile et le taux médian de natalité.

L’ajout d’une dimension peut fournir plus d’informations à votre modèle, et l’ajout d’informations complémentaires peut améliorer la qualité de votre prédiction. Toutefois, dans une subdivision donnée (une région, dans ce cas), la qualité de prédiction pourrait s’améliorer ou diminuer. Dans certains cas, vous pouvez construire un modèle individuel pour chaque subdivision en fonction des mesures qui sont les meilleurs prédicteurs pour ce groupe spécifique.

Dans ce cas, la mortalité infantile a une corrélation assez forte avec l’espérance de vie des femmes pour toutes les régions, bien qu’elle soit un peu plus faible en Afrique et en Europe. Le taux médian de natalité est un bon prédicteur pour l’Océanie et l’Asie, mais n’a presque aucune corrélation avec l’espérance de vie des femmes en Europe, et la transformation logarithmique des dépenses de santé médianes est un prédicteur raisonnable pour toutes les régions sauf l’Afrique. Nous pouvons nous attendre à ce que le modèle créé avec les quatre prédicteurs (Mortalité infantile, Taux de natalité, log(Dépenses de santé) et Zone géographique) ait les prédictions les moins précises pour les pays d’Europe et d’Afrique. Nous pourrions vouloir analyser les données plus en profondeur pour voir s’il existe des prédicteurs supplémentaires ou alternatifs que nous pourrions utiliser pour créer des modèles plus adaptés à l’Europe et à l’Afrique.

Création de votre fonction de modélisation prédictive

Maintenant que nous avons trouvé de bons prédicteurs, nous pouvons créer et appliquer une fonction de modélisation prédictive pour la voir en action.

  1. Ouvrez le menu Analyse en haut, puis sélectionnez Créer un champ calculé.

  2. Dans l’éditeur de calcul, nommez le calcul et procédez comme suit :

    • Nommez le calcul : Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region

    • Entrez la formule suivante :

      MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
      LOG(MEDIAN([Health Exp/Capita])),
      MEDIAN([Birth Rate]),
      MEDIAN([Infant Mortality Rate]),
      ATTR([Region]))

Ce calcul renverra la valeur médiane (0,5) de la plage des espérances de vie médianes modélisées des femmes, sur la base des prédicteurs que nous avons sélectionnés : Dépenses de santé, Taux de natalité, Mortalité infantile et Région.

Ensuite, créons un nuage de points qui montre à la fois l’espérance de vie réelle des femmes et l’espérance de vie prédite des femmes :

Comparaison réel/prédit

Bien joué! Les prédictions sont assez conformes aux valeurs réelles pour chaque région.

Mais faisons un nouvel essai pour comprendre où les prédictions sont les plus éloignées du repère. Créez un autre calcul appelé Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region, comme suit :

MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]

Ce calcul résiduel retourne la différence entre la médiane prédite et la médiane réelle, nous aidant à voir les pays affichant le plus grand écart entre l’espérance de vie médiane réelle et prédite des femmes.

Ensuite, appliquons ce calcul résiduel à Couleur :

Ajout de calcul résiduel

Vous pouvez voir dans la visualisation ci-dessus que la plupart des pays, dans la plupart des régions, affichent de faibles écarts entre les prédictions et les valeurs réelles. L’Afrique est la région incluant le plus grand nombre de pays avec des écarts significatifs, mais faisons un autre essai pour identifier le type de différences.

Vous pouvez voir que les différences varient entre -17 et +9. Divisons alors la visualisation en groupes où il y a moins de ±3 ans de différence, moins de ±5 ans de différence, moins de ±10 ans de différence, et plus de ±10 ans de différence.

Créez un autre calcul, appelé Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region, comme suit :

IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -3
THEN "±3"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN "±5"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN "±10"
ELSE
"> ±10"
END

Encore une fois, ajoutons le calcul à Couleur :

Vue finale

Notez que la grande majorité des prédictions sont incorrectes de moins de 3 ans, et que seule une petite poignée est incorrecte de plus de 10 ans. C’est un résultat globalement satisfaisant!

Cela signifie que l’utilisation de ce modèle nous permettrait d’identifier avec précision les pays dont l’espérance de vie médiane des femmes est atypique, ou de fournir l’espérance de vie modélisée des femmes pour un pays où ces données manquaient.

Merci de vos commentaires!Votre commentaire s été envoyé avec succès. Merci!