Exemple - Explorer l’espérance de vie des femmes avec des fonctions de modélisation prédictive
Cet exemple utilise la source de données enregistrée « Indicateurs Mondiaux » qui est fournie avec Tableau. Nous utiliserons les fonctions de modélisation prédictive MODEL_QUANTILE et MODEL_PERCENTILE pour explorer les relations entre les dépenses de santé par habitant, l’espérance de vie des femmes et le taux de natalité.
Commençons par une visualisation qui compare les dépenses de santé de chaque pays avec l’espérance de vie des femmes de ce pays. Pour suivre l’exemple et accéder aux vues et tableaux de bord prédéfinis, téléchargez le classeur suivant depuis Tableau Public : Predictive Modeling of Female Life Expectancy (Modélisation prédictive de l’espérance de vie des femmes).
Utilisation de MODEL_PERCENTILE
Tout d’abord, nous allons évaluer l’espérance de vie et les dépenses de santé pour tous les repères visibles. Tableau pourra ainsi construire un modèle à partir de ces repères et renvoyer le centile pour chacun dans le modèle.
Étape 1 : Créer le calcul de prédiction
Si vous possédez également Tableau Server ou Tableau Cloud que vous souhaitez créer sur le Web plutôt que dans Tableau Desktop, publiez le classeur sur votre serveur Tableau, cliquez sur Classeurs, sélectionnez le classeur, puis sous Actions, choisissez Modifier le classeur.
Après avoir ouvert le classeur, vous verrez qu’il contient plusieurs feuilles. Vous allez utiliser ces feuilles pour créer vos vues.
Dans le classeur de démarrage, cliquez sur la feuille Percentile Starter.
Ouvrez le menu Analyse en haut, puis sélectionnez Créer un champ calculé.
Dans l’éditeur de calcul, procédez comme suit :
Nommez le calcul : Centile Espérance de vie vs Dépenses
Entrez la formule suivante :
MODEL_PERCENTILE(AVG([Life Expectancy Female]), LOG(MEDIAN([Health Exp/Capita])))
Cliquez sur OK.
Le calcul de prédiction est maintenant ajouté sous forme de champ calculé dans le volet Données.
Ce calcul utilise l’espérance de vie moyenne comme expression cible et les dépenses de santé médianes comme prédicteur. Dans ce cas, nous avons utilisé une transformation logarithmique sur l’axe des dépenses de santé, ainsi que pour le prédicteur.
Étape 2 : Ajouter le calcul de prédiction à la vue
Dans la visualisation ci-dessus, vous pouvez voir les dépenses de santé de chaque pays par rapport à l’espérance de vie des femmes, filtrées sur l’année 2012.
Maintenant, ajoutons le calcul MODEL_PERCENTILE à la vue et voyons quelles informations nous pouvons obtenir.
Faites glisser Centile Expérance de vie vs. Dépenses sur Couleur dans la fiche Repères.
Cliquez sur la flèche déroulante sur la pile et sélectionnez Calculer au moyen de > Pays/région.
Cliquez sur Couleur dans la fiche Repères puis cliquez sur Modifier les couleurs.
Sous Palette, sélectionnez Orange-Bleu divergent.
Cochez la case Couleur échelonnée.
Cochez la case Inversé.
Cliquez sur OK.
Vous pouvez voir la distribution des pays où l’espérance de vie en bonne santé est à la fois supérieure et inférieure aux attentes en fonction du niveau des dépenses. Notez que, généralement, les repères rouge foncé indiquent que l’espérance de vie est élevée par rapport aux dépenses de santé, bleu foncé signifie que l’espérance de vie est faible par rapport aux dépenses de santé, et gris signifie que l’espérance de vie est proche de ce que le modèle attend, sur la base du niveau des dépenses de santé.
Étape 3 : Regrouper les résultats par couleur
Pour simplifier l’analyse, utilisons le calcul de prédiction dans un nouveau calcul pour regrouper les résultats. Nous allons créer des groupes de manière à regrouper ensemble les repères au-dessus du 90ème centile et au-dessous du 10ème centile, à regrouper ensemble les repères dans la plage du 80-90ème centile et la plage du 10-20ème centile, et ainsi de suite. Nous allons également mettre en évidence les repères ayant une valeur nulle et les traiter ultérieurement en utilisant l’autre fonction de modélisation prédictive, MODEL_QUANTILE.
Dans l’éditeur de calcul, procédez comme suit :
Nommez le calcul Centile par couleur.
Entrez la formule suivante :
IF
ISNULL([Percentile Expectancy vs Spending])
THEN "Null"
ELSEIF [Percentile Expectancy vs Spending] >=0.9 OR
[Percentile Expectancy vs Spending] <=0.1
THEN "<10th & >90th percentile"
ELSEIF [Percentile Expectancy vs Spending] >=0.8 OR
[Percentile Expectancy vs Spending] <=0.2
THEN "<20th & >80th percentile"
ELSEIF [Percentile Expectancy vs Spending] >=0.7 OR
[Percentile Expectancy vs Spending] <=0.3
THEN "<30th & >70th percentile"
ELSEIF [Percentile Expectancy vs Spending] >=0.6 OR
[Percentile Expectancy vs Spending] <=0.4
THEN "<40th & >60th percentile"
ELSE "50th percentile +-10"
ENDAjoutez le nouveau calcul à Couleur sur la fiche Repère.
Cliquez sur la flèche déroulante sur la pile et sélectionnez Calculer au moyen de > Pays/région.
Cliquez sur Couleur dans la fiche Repères puis cliquez sur Modifier les couleurs.
Ajustez les couleurs pour mieux voir la tendance. Dans ce cas, utilisons la palette de couleurs Feu tricolore et utilisons le gris pour les valeurs nulles.
Cliquez sur OK.
En examinant le repère orange dans le coin, remarquez que les États-Unis dépensent 8 895 $ par femme pour une espérance de vie de 81 ans. En vous déplaçant le long de l’axe X vers la gauche, vous pouvez voir que d’autres pays dépensent moins et ont la même espérance de vie.
Le modèle évalue la force de la relation à chaque point, où les États-Unis sont proches de l’extrémité supérieure de la plage attendue du modèle.
Étape 4 : Comparer l’espérance de vie avec le taux de natalité
Examinons ensuite une visualisation qui compare l’espérance de vie des femmes avec le taux de natalité. Notez qu’il existe une corrélation négative entre les taux de natalité et l’espérance de vie des femmes. Cela ne signifie toutefois pas que des taux de natalité plus élevés entraînent une baisse de l’espérance de vie des femmes. D’autres facteurs, non visibles dans cette vue de données, influent probablement à la fois sur les taux de natalité et l’espérance de vie des femmes. Mais ajoutons le modèle et voyons où le modèle s’attend à ce que l’espérance de vie des femmes soit supérieure ou inférieure compte tenu des dépenses de santé.
Sur la feuille Birth Rate (Taux de natalité), ajoutez le calcul de prédiction Centile par couleur sur Couleur dans la fiche Repères pour l’intégrer dans la vue.
Cliquez sur la flèche déroulante sur la pile et sélectionnez Calculer au moyen de > Pays/région.
Cliquez sur Couleur dans la fiche Repères puis cliquez sur Modifier les couleurs. Modifiez les couleurs comme auparavant, en utilisant la palette Feu tricolore et le gris pour les valeurs nulles.
Cliquez sur OK.
Les données sont maintenant beaucoup plus distribuées. La bande rouge dans le coin inférieur droit est l’endroit où l’espérance de vie est la plus faible, mais le taux de natalité le plus élevé, et les dépenses de santé par rapport à l’espérance de vie sont faibles. En distinguant les deux repères rouges dans le quadrant supérieur gauche, qui concernent l’Albanie et l’Arménie, vous remarquerez que les deux pays présentent une espérance de vie des femmes élevée, des taux de natalité plus faibles et de faibles dépenses de santé.
Comme vous pouvez le voir, nous avons pu utiliser MODEL_PERCENTILE pour identifier que ces deux pays sont atypiques : bien qu’ils aient tous deux des dépenses de santé relativement faibles, ils affichent une espérance de vie relativement élevée, au regard du contexte du taux de natalité.
Voyons maintenant comment vous pouvez utiliser l’autre fonction de modélisation prédictive, MODEL_QUANTILE, pour poursuivre votre analyse.
Utilisation de MODEL_QUANTILE
MODEL_QUANTILE est utilisé pour générer des prédictions numériques, compte tenu d’un centile cible, d’une expression cible et de prédicteurs. Cette fonction est l’inverse de MODEL_PERCENTILE.
Rappelons que nous avons plusieurs valeurs nulles dans nos résultats, ce qui signifie que certains pays n’ont pas de données sur les dépenses de santé. Nous utiliserons MODEL_QUANTILE pour estimer ces valeurs manquantes.
Étape 1 : Créer les calculs de prédiction
Nous avons utilisé ce calcul :
MODEL_PERCENTILE(AVG([Life Expectancy Female]), LOG(MEDIAN([Health Exp/Capita])))
Tout d’abord, nous voulons inverser cette fonction afin d’obtenir une prévision des dépenses de santé basée sur l’espérance de vie des femmes.
Dans le classeur de démarrage, cliquez sur la feuille Quantile Starter.
Ouvrez le menu Analyse en haut, puis sélectionnez Créer un champ calculé.
Dans l’éditeur de calcul, procédez comme suit :
- Nommez le calcul Quantile Espérance de vie vs Dépenses
Entrez la formule suivante :
POWER(10, MODEL_QUANTILE(0.5, LOG(MEDIAN([Health Exp/Capita])), AVG([Life Expectancy Female])))
Examinons les différentes parties de ce calcul pour mieux le comprendre :
- Nous commençons par MODEL_QUANTILE, où le premier argument est de 0,5, spécifiant le centile de prédiction.
- L’expression cible correspond aux dépenses de santé médianes par personne.
- Le prédicteur est l’espérance de vie moyenne des femmes.
- En outre, nous avons enveloppé la fonction à l’intérieur d’une fonction POWER pour reconvertir en dollars l’expression cible transformée logarithmiquement.
Cliquez sur OK.
Le calcul de prédiction est maintenant ajouté sous forme de champ calculé dans le volet Données.
Étape 2 : Ajouter le calcul de prédiction à la vue
Faites glisser Quantile Espérance de vie vs Dépenses sur Infobulle dans la fiche Repères.
Cliquez sur la flèche déroulante sur la pile et sélectionnez Calculer au moyen de > Pays/région.
Cliquez sur Infobulle sur la fiche Repères et ajoutez une ligne pour la prédiction MODEL_QUANTILE :
Nommez la ligne de l’infobulle : Prédiction des dépenses de santé à partir de l’espérance de vie des femmes :
Cliquez sur Insérer et sélectionnez le calcul pour vous assurer que l’infobulle affichera la prédiction unique du repère de manière dynamique lorsque vous interagissez avec la visualisation.
Cliquez sur OK.
À l’heure actuelle, notre calcul MODEL_QUANTILE ne comporte qu’un seul prédicteur : l’espérance de vie des femmes. Remarquez, en vous déplaçant de gauche à droite et en examinant l’infobulle pour les repères ayant la même espérance de vie, que chacun a les mêmes prédictions de dépenses de santé. Les prédictions de dépenses de santé pour l’Indonésie à partir de l’espérance de vie sont de 336 $, tout comme les Fidji, l’Égypte et d’autres pays qui ont la même espérance de vie des femmes.
C’est parce que le modèle fournit les mêmes dépenses estimées pour chaque repère. Comme nous n’utilisons qu’un seul prédicteur (espérance de vie des femmes), le modèle renvoie les mêmes résultats pour tous les repères où le prédicteur a la même valeur. Vous pouvez ajouter plus de nuance au modèle en ajoutant des prédicteurs.
Étape 3 : Ajouter une prédiction avec un deuxième prédicteur
Au fur et à mesure que vous construisez vos prédictions, vous devez évaluer quels champs seront de bons prédicteurs pour vos valeurs cibles et les inclure dans vos calculs. Vous pouvez combiner autant de mesures et de dimensions que vous le souhaitez. Par exemple, nous pourrions ajouter le PIB, la population et d’autres champs comme prédicteurs afin d’améliorer nos prévisions. Dans ce cas, ajoutons Région.
Dans l’éditeur de calcul, procédez comme suit :
Nommez le calcul Quantile Dépenses vs Espérance de vie vs. Région
Entrez la formule suivante, qui est la même que le calcul précédent, mais ajoute Zone géographique comme prédicteur :
POWER(10, MODEL_QUANTILE(0.5, LOG(MEDIAN([Health Exp/Capita])), AVG([Life Expectancy Female]), ATTR([Region])))
Cliquez sur OK.
Ensuite, ajoutez le nouveau calcul à l’infobulle dans la fiche Repères.
Cliquez sur Infobulle, puis ajoutez une autre ligne pour décrire la nouvelle prédiction, par exemple Prédiction des dépenses de santé à partir de l’espérance de vie des femmes et de la région.
L’infobulle affiche maintenant les deux prédictions.
Étape 4 : Comparer les valeurs réelles aux valeurs prédites
Pour la dernière étape de votre analyse, vous pouvez également créer des calculs de prédiction qui combinent les valeurs réelles et les valeurs prédites. Dans notre exemple, affichons les dépenses réelles de santé lorsqu’elles sont disponibles, et les dépenses estimées lorsqu’elles ne sont pas disponibles.
Dans l’éditeur de calcul, procédez comme suit :
Nommez le calcul Dépenses de santé réelles vs. prédiction
Entrez la formule suivante, qui renvoie la valeur numérique de la prédiction :
ROUND(IFNULL(AVG([Health Exp/Capita]),[Quantile_HE/Cap_LEF,Region]),0)
Cliquez sur OK.
Créez un autre calcul comme suit :
Nommez le calcul : Étiquette Dépenses de santé réelles vs. prédiction
Entrez la formule suivante, qui servira d’étiquette pour le calcul ci-dessus :
STR(IF ISNULL(AVG([Health Exp/Capita])) THEN "(Estimate)" ELSE "(Actual)" END)
Cliquez sur OK.
Ensuite, ajoutez les deux calculs à Infobulle dans la fiche Repères.
Cliquez sur Infobulle, puis ajoutez une autre ligne pour décrire les nouveaux calculs :
Dépenses de santé par personne (réelles ou estimées) :
Insérez les nouveaux calculs, l’un après l’autre.
Cliquez sur OK.
Maintenant, à mesure que vous interagissez avec la visualisation, vous pouvez voir les dépenses de santé par personne pour chaque pays, ou afficher une estimation si la valeur réelle manquait (valeur nulle) dans les données.
De ce manière, vous pouvez utiliser des fonctions de modélisation prédictive dans Tableau pour obtenir des informations sur vos données.