Elección de predictores

Al crear cálculos de predicción con las funciones de modelado predictivo de Tableau, deberá elegir predictores. Como recordatorio, un predictor es una variable de entrada cuyo valor se utiliza para predecir una variable de resultado, también conocida como destino o respuesta. A menudo, trabajará con datos de los que tiene un amplio conocimiento de dominio y ya tendrá un buen sentido de qué campos están más correlacionados con su destino de predicción y serían buenos predictores. Sin embargo, sigue siendo una buena idea tomarse el tiempo para evaluar sus predictores y asegurarse de que los está eligiendo sabiamente. Es recomendable siempre incluir al menos un predictor y, por lo general, más de uno.

En primer lugar, seleccione su destino. Esto suena obvio, pero asegurarse de que está seleccionando sus predictores en función de lo que desea predecir es un primer paso esencial. Por ejemplo, los campos más correlacionados con la esperanza de vida femenina pueden ser muy diferentes de los campos más correlacionados con la esperanza de vida masculina. Del mismo modo, los campos más correlacionados con las ventas podrían ser muy diferentes de los campos más correlacionados con el beneficio.

Otra cosa a tener en cuenta es que, de forma predeterminada, las funciones de modelado predictivo utilizan la regresión lineal como modelo estadístico subyacente. Con este modelo, los predictores más correlacionados son aquellos que tienen una relación lineal con el destino. Para obtener información sobre el uso de otro modelo compatible, consulte Seleccionar un modelo predictivo.

Para entender mejor cómo elegir los mejores predictores para las preguntas que pretende responder, echemos un vistazo a los datos de esperanza de vida femenina. Para seguir adelante, descargue el siguiente libro de trabajo de Tableau Public: Elegir predictores para sus predicciones.

Medidas como predictores

Al utilizar una medida como predictor, puede evaluar su correlación con su destino mediante Tableau. Una forma es crear un diagrama de dispersión. A continuación, comparamos la mediana de la esperanza de vida femenina de un país con una variedad de otras medidas.

Comparación del diagrama de dispersión para mostrar la correlación entre el predictor y el destino

Para algunas medidas, como la mortalidad infantil y la tasa de natalidad, existe una clara correlación negativa con la esperanza de vida femenina, como se ve en la pendiente negativa del diagrama de dispersión. Para otros, es menos claro. Sin embargo, una cosa que podemos ver claramente es una distribución en forma de L para la mediana del PIB, la mediana del uso del teléfono móvil y la mediana del gasto en salud per capita. Esta distribución en forma de L a menudo indica que el uso de una transformación de registro puede ayudarle a analizar sus datos con mayor precisión. Otra pista es si todos los valores de una columna son positivos. En Tableau, puede utilizar una transformación de registro editando el óvalo y ajustando la expresión en una función LOG:

función de registro

Esto nos lleva desde la distribución en forma de L, donde es difícil diferenciar entre los extremos de la escala, a una distribución más uniforme menos comprimida por los extremos de la escala.

Diagrama de dispersión en forma de L

Repetir esto con las otras distribuciones en forma de L nos da lo siguiente:

Más distribuciones en forma de L

Coeficiente de determinación o valor R cuadrado

Cuanto más cerca estén las marcas de quedar juntas en línea recta, mayor será la correlación entre las dos medidas. Para ayudar a evaluar la correlación, puede agregar líneas de tendencia. En el panel Análisis, arrastre una Línea de tendencia hacia la vista y suéltela en Lineal. Al pasar el cursor sobre la línea de tendencia, se indicará el valor R cuadrado, o coeficiente de determinación, que indica cuánto de la variable dependiente (el destino) se explica por la variable independiente (el predictor). Los predictores con valores R cuadrados más cercanos a 1 son mejores que los predictores con valores R cuadrados más cercanos a 0.

diagramas de dispersión con R cuadrada cercana a 1

Mirando nuestros diagramas de dispersión, podemos ver que el mejor predictor para la mediana de la esperanza de vida femenina es la mediana de la mortalidad infantil, que tiene un valor R cuadrado de 0,87:

elegir el mejor diagrama de R-cuadrada

Otros buenos predictores son la mediana de la tasa de natalidad (R-cuadrado=0,76) y la transformación del registro de la mediana de gasto en salud per capita(R-cuadrado=0,56).

Nota: La pendiente de la línea no muestra claramente qué predictores tienen el valor R cuadrado más alto. Dado que la escala del eje X viene determinada por el rango de la variable específica seleccionada, la pendiente de la línea se ve muy afectada por las variables específicas utilizadas.

En la imagen de abajo, hemos comparado la mediana de la esperanza de vida femenina con la mediana de la esperanza de vida femenina, por eso el resultado es una línea perfectamente recta en un ángulo de 45 grados: como se esperaba, hay una correlación perfecta entre el valor en el eje X y el valor en el eje Y, con un valor R cuadrado de 1:

diagrama con R-cuadrada de exactamente 1

Sin embargo, como se muestra a continuación, aunque LOG(MEDIAN([GDP])) tiene una línea de tendencia inclinada más pronunciada que las otras, tiene una puntuación R cuadrada baja, de solo 0,169. Esto se debe a la escala del eje X para ese panel:

mostrar R-cuadrada baja

Además, echemos un vistazo a cómo algunas marcas pueden afectar significativamente a la pendiente de una línea de tendencia. Al ampliar la gráfica de dispersión para la mediana del impuesto sobre las empresas, podemos ver que la mayoría de las marcas tienen una tasa impositiva entre 0 y aproximadamente 1, con seis países con tasas mucho más altas, entre 2 y 3. El valor R cuadrado para todas las marcas es 0.0879:

amplíe el gráfico de la tasa mediana de impuestos comerciales

Sin embargo, veamos qué sucede si eliminamos ese clúster de seis marcas:

muestra lo que sucede cuando se elimina un clúster de marcas

La línea de tendencia va casi plana, y el valor R cuadrado cae a 0,0006, lo que indica que esencialmente no hay correlación entre la mediana del impuesto sobre las empresas y la mediana de esperanza de vida femenina. A medida que visualiza los datos y utiliza buenos métodos estadísticos para seleccionar sus predictores, es importante considerar cuidadosamente si hay valores atípicos u otras características de datos que podrían afectar a sus conclusiones.

Nota: Para obtener más ejemplos de cómo las estadísticas de resumen podrían no darle la imagen completa, lea el cuarteto de Anscombe.

Dimensiones como predictores

Al utilizar dimensiones como predictores, puede utilizar un procedimiento similar para determinar la correlación. Sin embargo, es posible que haya una discrepancia significativa entre las diferentes dimensiones en su nivel de relación con el destino. Por ejemplo, al subdividir por región, una región puede ser un predictor muy bueno para el destino, pero otra región puede tener una correlación significativamente menor. Esto no significa que no deba usar esa dimensión como predictor, pero es posible que desee considerar si el uso de medidas o dimensiones adicionales ayudará a mejorar el modelo y, a su vez, las predicciones.

Dado que hemos determinado que los mejores predictores para nuestro conjunto de datos son la mediana de la mortalidad infantil, la mediana de la tasa de natalidad y la transformación del registro de la mediana de gastos en salud per capita, limitemos la visualización a estas tres variables:

comparar diferentes variables

A continuación, vamos a dividir los datos agregando Región a Color en la tarjeta Marcas y ver qué sucede con la visualización:

particionado por color

Comparación de valores R cuadrados entre predictores

Veamos cómo se comparan los valores R cuadrado para cada una de las líneas de tendencia de Región para cada predictor:

tabla que compara los valores de R-cuadrada por región

En la tabla anterior, el valor R cuadrado más bajo para cada predictor se resalta en rojo y el segundo más bajo en amarillo.

Europa tiene los valores R cuadrados más bajos para la mediana de mortalidad infantil y la mediana de la tasa de natalidad y África tiene el valor R cuadrado más bajo para la transformación del registro de la mediana de gastos en salud per capita (resaltado en rojo). África también tiene valores R cuadrados más bajos tanto para la tasa media de mortalidad infantil como para la mediana de la tasa de natalidad.

Agregar una dimensión puede proporcionar al modelo más información y agregar más información puede mejorar la calidad de la predicción. Sin embargo, dentro de una subdivisión determinada (una región, en este caso), la calidad de predicción podría mejorar o disminuir. En algunos casos, es posible que desee crear un modelo individual para cada subdivisión en función de las medidas que son los mejores predictores para ese grupo específico.

En este caso, la mortalidad infantil tiene una correlación razonablemente fuerte con la esperanza de vida femenina para todas las regiones, aunque es algo más débil en África y Europa; La mediana de la tasa de natalidad es un buen predictor para Oceanía y Asia, pero casi no tiene correlación con la esperanza de vida femenina en Europa y la transformación del registro de la mediana de gastos sanitarios es un predictor razonable para todas las regiones excepto para África. Podemos esperar que el modelo construido con los cuatro predictores (mortalidad infantil, tasa de natalidad, registro (gasto sanitario) y región) tenga las predicciones menos precisas para los países de Europa y África. Es posible que deseemos profundizar más en los datos para ver si hay predictores adicionales o alternativos que podríamos utilizar para construir modelos que se ajusten mejor a Europa y África.

Creación de la función de modelado predictivo

Ahora que hemos encontrado buenos predictores, podemos crear y aplicar una función de modelado predictivo para verla en acción.

  1. Abra el menú Análisis en la parte superior y, a continuación, seleccione Crear campo calculado.

  2. En el editor de cálculo, asigne un nombre al cálculo y haga lo siguiente:

    • Nombre el cálculo: Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region

    • Escriba la fórmula siguiente:

      MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
      LOG(MEDIAN([Health Exp/Capita])),
      MEDIAN([Birth Rate]),
      MEDIAN([Infant Mortality Rate]),
      ATTR([Region]))

Este cálculo devolverá el valor medio (0,5) del rango de las medianas de expectativa de vida femenina modeladas, en función de los predictores que seleccionemos: Gasto en salud, Tasa de natalidad, Mortalidad infantil y Región.

A continuación, construyamos una gráfica de dispersión que muestre tanto la mediana de esperanza de vida femenina real como la mediana de esperanza de vida femenina pronosticada:

comparar lo real frente a la predicción

¡Perfecto! Las predicciones están prácticamente en línea con los valores reales de cada región.

Pero hagamos otro análisis para averiguar qué predicciones se alejan más de la marca. Cree otro cálculo llamado Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region, como se indica a continuación:

MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]

Este cálculo residual devolverá la diferencia entre la mediana pronosticada y la mediana real. Así, podemos ver los países donde existe la mayor discrepancia entre la esperanza de vida femenina real y la mediana prevista.

A continuación, apliquemos este cálculo residual a Color:

cálculo residual añadido

Puede ver en la visualización anterior que la mayoría de los países, en la mayoría de las regiones, tienen bajas discrepancias entre las predicciones y los valores reales. África es la región con el mayor número de países con discrepancias significativas, pero hagamos una ronda más para ver qué tipo de diferencias estamos viendo.

Podemos ver que las diferencias oscilan entre -17 y +9, así que dividamos la visualización en grupos donde hay menos de 3 años de diferencia, menos de 5 años de diferencia, menos de 10 años de diferencia y más de 10 años de diferencia.

Cree un cálculo más, denominado Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region, de la siguiente manera:

IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -3
THEN "±3"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN "±5"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN "±10"
ELSE
"> ±10"
END

Una vez más, vamos a añadir el cálculo a Color:

vista final

Vemos que la gran mayoría de las predicciones son incorrectas por menos de 3 años y que solo un pequeño puñado se equivocan en más de 10 años. En general, no está nada mal.

Esto significa que el uso de este modelo nos permitiría identificar con precisión aquellos países con una mediana de las expectativas de vida femenina que son valores atípicos, o proporcionar la esperanza de vida femenina modelada para un país donde faltaban estos datos.

¡Gracias por sus comentarios!Sus comentarios se han enviado correctamente. ¡Gracias!