Calcular mediante y la división de datos en el modelado predictivo
Las predicciones se realizan a partir de los datos mediante la inclusión de las funciones de modelado predictivo, MODEL_QUANTILE o MODEL_PERCENTILE, en un cálculo de tabla.
Recuerde que todos los cálculos de tabla deben tener una dirección Calcular conespecificada. Para obtener información general sobre cómo las diferentes dimensiones de direccionamiento y división pueden afectar a los resultados, consulte Transformar valores con cálculos de tablas.
En las funciones de modelado predictivo, la opción Calcular con se utiliza para dividir (segmentar) el conjunto de datos que se usará para crear el modelo predictivo.
Las funciones de modelado predictivo no tienen un concepto de direccionamiento (dirección), ya que el modelo devuelve un resultado distinto para cada marca en función de los predictores seleccionados. Es decir, a diferencia de Total acumulado, donde la dimensión de direccionamiento determina el orden en que se agregan los campos y se devuelven los resultados, las funciones de modelado predictivo son inherentemente no secuenciales. Calculan los resultados utilizando un modelo a partir de los datos definidos por el destino y los predictores de la función, en el nivel de detalle especificado por la visualización. Dentro de esos datos, no hay ningún concepto de secuenciación a menos que se utilice un predictor ordenado, como una dimensión de fecha.
Además, el nivel de detalle de la visualización siempre se utiliza al definir los datos utilizados para crear el modelo. Todos los cálculos de tabla funcionan con el mismo nivel de detalle que la propia visualización y las funciones de modelado predictivo no son una excepción.
Recomendaciones para funciones de modelado predictivo
Se recomienda seleccionar una dimensión específica en la que dividir cuando se utilizan funciones de modelado predictivo. Dado que puede tener varios cálculos de predicción en una sola visualización o panel, la selección de una dimensión de división específica garantiza que está creando modelos con el mismo conjunto de datos subyacente para cada función individual y, por lo tanto, comparar los resultados de modelos similares.
Cuando se trabaja con funciones de modelado predictivo en Tableau, es fundamental asegurarse de mantener la coherencia en las diferentes instancias, tanto en diferentes iteraciones del modelo (por ejemplo, al seleccionar diferentes predictores) como en diferentes visualizaciones. El uso de las opciones de Calcular uso direccional abre la posibilidad de que un pequeño cambio en los datos visualizados afecte significativamente a los datos que se utilizan para crear el modelo, lo que afecta a su validez y a su coherencia en diferentes visualizaciones.
Elegir dimensiones
EN los siguientes ejemplos se usa la fuente de datos Muestra - Supertienda, que se incluye en Tableau Desktop.
Al elegir una dimensión, recuerde que Tableau creará un modelo predictivo en esa dimensión. Es decir, si selecciona Fecha de pedido como dimensión de división, Tableau utilizará datos dentro de cualquier otra división establecida, pero junto a los valores de Fecha de pedido.
La imagen siguiente muestra los datos que se utilizan para crear el modelo resaltado en amarillo y la salida del modelo resaltada en naranja. En este caso, dado que no hay predictores, todas las respuestas son idénticas dentro de una subcategoría determinada; seleccionar predictores óptimos le ayudará a generar resultados más significativos. Para obtener más información sobre los predictores óptimos, consulte Elección de predictores.
Del mismo modo, si se hubiera seleccionado Subcategoría como dimensión de división, Tableau usaría los datos dentro de un mes determinado, pero a lo largo de varias subcategorías, como se indica a continuación. Si los datos se subdividen en paneles, los límites del panel se respetarían al crear un modelo.
Una nota sobre las divisiones
Tenga en cuenta que la división visual de los datos tiene efectos significativos en los datos que se usan para crear un modelo y generar las predicciones. Agregar un nivel más alto de detalle (por ejemplo, incluyendo Estado y Ciudad en un solo estante) dividirá los datos por el LOD superior. Esto es cierto independientemente del orden en el que los óvalos se coloquen en el estante. Por ejemplo, estos devolverán predicciones idénticas:
Agregar un óvalo que modifique el nivel de detalle dividirá los datos si se agregan al estante Filas o Columnas, o a Color, Tamaño, Etiqueta, Detalle o Forma en la tarjeta Marcas. Agregar un óvalo en un nivel de detalle diferente a la información sobre herramientas no dividirá los datos.
En el ejemplo siguiente, el modelo se divide automáticamente por categoría, ya que los óvalos Categoría y Subcategoría están en el estante Filas. El cálculo de predicción se realiza a través de subcategoría dentro de los límites del óvalo de nivel superior, Categoría.
Esto tiene implicaciones para la forma en que se aplican los predictores. Veamos un ejemplo para entender esto. En este caso, tenemos tres cálculos de tabla MODEL_QUANTILE que se están aplicando:
Predict_Sales_City | Predict_Sales_State | Predict_Sales_Region |
MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
|
Para los tres, hemos seleccionado Calcular con > Ciudad. Echemos un vistazo a algunas ciudades de Carolina del Norte:
Vemos que los resultados de los tres cálculos son idénticos dentro de un estado determinado, a pesar de usar diferentes predictores.
Si eliminamos Región del estante Filas, no pasa nada a nuestros resultados: siguen siendo todos idénticos dentro de un estado determinado:
Pero cuando eliminamos State (Estado) del estante Filas, vemos resultados diferentes para cada cálculo:
¿Qué está pasando?
En el primer ejemplo, Región y Estado en el estante Filas están dividiendo las ciudades. Por lo tanto, los modelos para Predict_Sales_City , Predict_Sales_State y Predict_Sales_Region reciben los mismos datos y generan las mismas predicciones.
Puesto que ya hemos dividido visualmente los datos dentro de Estado y Región, ninguno de nuestros predictores agrega ningún valor al modelo y no tiene ningún impacto en los resultados:
Cuando quitamos Región del estante Filas, seguimos dividiendo por Estado, por lo que no hay ningún cambio en los datos utilizados para compilar el modelo. Una vez más, dado que ya hemos dividido visualmente los datos dentro de Estado, ninguno de nuestros predictores agrega ningún valor al modelo o no tienen ningún impacto en los resultados:
Sin embargo, cuando eliminamos Estado, los datos dejan de estar divididos y vemos predicciones diferentes para cada cálculo. Echemos un vistazo más de cerca a lo que sucede:
Para Predict_Sales_City, estamos usando ATTR([Ciudad]) como predictor. Puesto que está en el mismo nivel de detalle que la visualización, no añade ningún valor y se ignora. Agregamos Ventas para todas las ciudades, las pasamos al motor estadístico y calculamos las ventas previstas. Puesto que no se incluyen otros predictores, vemos el mismo resultado para cada ciudad; si hubiéramos incluido una o más medidas, veríamos variaciones en los resultados.
Para Predict_Sales_State, estamos usando ATTR([Estado]) como predictor. El predictor está dividiendo todos los datos de Ciudad por Estado. Esperamos ver resultados idénticos dentro de un estado, pero resultados diferentes para cada estado.
Sin embargo, no es lo que obtenemos. Las ciudades de Cary, Chapel Hill y Charlotte tienen predicciones idénticas de 2084 $, como esperamos. Burlington, sin embargo, nos muestra una predicción diferente de 9366 $:
Esto se debe a que una ciudad llamada "Burlington" existe dentro de varios estados (Iowa, Carolina del Norte y Vermont). Por lo tanto, Estado da un valor en *, que significa "más de un valor". Todas las marcas donde Estado da un valor en * se evalúan juntas, por lo que cualquier otra ciudad que también exista en varios estados también tendría una predicción de 9366 $.
Para Predict_Sales_Region, estamos usando ATTR([Región]) como predictor. El predictor está dividiendo todos los datos de Ciudad por Región. Espera ver resultados idénticos dentro de una región, pero resultados diferentes para cada región:
Una vez más, dado que Burlington existe dentro de varias regiones (central, este y sur), Región da un valor en*. Las predicciones de Burlington coincidirán solo con aquellas ciudades que también existen dentro de varias regiones.
Como puede ver, es muy importante asegurarse de que los predictores dimensionales estén correctamente alineados con el nivel de detalle de la visualización y la división. Subdividir la visualización por cualquier dimensión podría tener efectos no deseados en las predicciones.