Resolver errores en funciones de modelado predictivo
Al utilizar funciones de modelado predictivo en Tableau, puede encontrar errores al intentar agregar los cálculos a una visualización. A menudo, se debe a la combinación de predictores y elementos visualizados, que conducen a un cálculo matemático no válido.
Por lo general, lo primero que se debe intentar es comprobar la dimensión Calcular mediante. A continuación, compruebe que no haya una discrepancia entre el nivel de detalle especificado en los predictores y el nivel de detalle en la vista. Compruebe también que los predictores proporcionan datos relevantes al modelo, dada la visualización actual.
En este artículo se describen varios problemas comunes en detalle y las formas en que puede abordarlos.
Los errores en las funciones de modelado predictivo suelen deberse a uno o varios de los siguientes problemas, según el modelo utilizado.
Errores generales
- Dimensión de Calcular mediante no válida
- Los predictores de dimensiones entran en conflicto con el nivel de detalle visualizado
- Varios predictores entran en conflicto entre sí
- No hay suficientes datos para crear un modelo
- No se pudo construir un modelo a partir de los datos proporcionados
Errores de regresión del proceso gaussiano
- La regresión del proceso gaussiano requiere exactamente un predictor de dimensión ordenado
- La regresión del proceso gaussiano solo admite dimensiones como predictores
- No hay datos de entrenamiento para uno o más objetivos de predicción
- Hay más de 5000 marcas
Dimensión de Calcular mediante no válida
Al visualizar una función de modelado predictivo, se debe especificar una dimensión de Calcular mediante. Se recomienda seleccionar una dimensión específica (como Región o Categoría) en lugar de una dimensión direccional (como Tabla a lo largo y abajo o Panel a lo largo).
Dado que puede tener varias funciones de modelado predictivo incluidas en una visualización o un panel, la selección de una dimensión de división concreta le ayudará a garantizar que está creando modelos con el mismo conjunto de datos subyacente para cada función individual, es decir, comparando los resultados de modelos similares.
Para obtener más información sobre direccionamiento y divisiones, consulte Transformar valores con cálculos de tablas.
Al trabajar con funciones de modelado predictivo, debe asegurarse de mantener la coherencia en las diferentes instancias, tanto en diferentes iteraciones del modelo (por ejemplo, al seleccionar diferentes predictores) como en diferentes visualizaciones. El uso de las dimensiones direccionales de Calcular mediante abre la posibilidad de que un cambio trivial en los datos visualizados afecte significativamente a los datos que se utilizan para crear el modelo, lo que afecta a su validez y coherencia en diferentes visualizaciones.
Puede ver valores nulos si no se ha especificado ninguna dimensión de Calcular mediante o si se ha seleccionado una dimensión de Calcular mediante no válida.
Las dimensiones de Calcular mediante no válidas incluyen:
- Celda: esta dimensión siempre dará como resultado un único punto de datos que se usará para crear un modelo y no se realizará correctamente.
- Una dimensión anidada de nivel superior (por ejemplo, si Región y Estado se visualizan en un eje, donde las marcas se generan para Estado pero se agrupan por Región). Si se selecciona Región como dimensión de división, devolverá valores nulos, ya que no hay marcas formalizadas para Región en esta vista.
En la visualización anterior, las dimensiones de Calcular mediante válidos son Estado y Categoría. La división de los datos por Estado o por Categoría produce varias marcas válidas que se pueden usar para crear un modelo.
Región, aunque se muestra como una opción de Calcular mediante, no genera ninguna marca en el nivel de detalle de esta vista y no se puede usar para dividir los datos.
Para obtener más información, consulte Calcular mediante y la división de datos en el modelado predictivo.
Los predictores de dimensiones entran en conflicto con el nivel de detalle visualizado
Los predictores de dimensiones deben estar en el mismo nivel de detalle que se visualiza o superior. Es decir, si está visualizando datos por Estado, puede usar Estado, Región o País como predictores, pero usar Ciudad como predictor provocará un error. Dado que existen varias ciudades dentro de un estado, este predictor dará valores en * para todas las marcas y no devolverá información significativa; como tal, Tableau lo ignora.
Cada predictor dimensional debe estar incluido dentro de una función ATTR, por ejemplo:
MODEL_PERCENTILE(SUM([Sales]), ATTR([State]), ATTR([Category])
Varios predictores entran en conflicto entre sí
Cada predictor utilizado dentro de una función de modelado predictivo determinada debe proporcionar información independiente al cálculo. Si se seleccionan dos predictores que son equivalentes, versiones escaladas o inversas entre sí, la función de modelado predictivo devolverá un error cuando se visualice.
Por ejemplo, un conjunto de datos que realiza un seguimiento de las condiciones meteorológicas a lo largo del tiempo puede tener dos campos: IsRain e IsClear. Estos dos campos son inversos entre sí; es decir, IsClear = True cuando IsRain = False, y viceversa. Incluir IsClear e IsRain como predictores en una sola función de modelado predictivo devolverá un error.
Lo anterior se aplica tanto para las medidas como para las dimensiones como predictores.
En ambos casos, el error se puede resolver modificando los predictores para eliminar los predictores altamente correlacionados. Para obtener más información, consulte Elección de predictores.
No hay suficientes datos para crear un modelo
Debe haber al menos tres marcas dentro de una división para permitir que las funciones de modelado predictivo generen un modelo y predicciones. Si hay dos o menos marcas en el conjunto de datos definido por los datos vistos y la dimensión Calcular mediante, la función de modelado predictivo devolverá resultados nulos.
Para resolver este problema, revise el nivel de detalle, los parámetros de filtrado de datos o la dimensión Calcular mediante para que cada división tenga más de dos marcas.
No se pudo construir un modelo a partir de los datos proporcionados
Este error aparece si hay un conflicto entre los predictores seleccionados, el nivel de detalle visualizado o la dimensión Calcular mediante seleccionada, de modo que sea imposible utilizar los predictores para crear un modelo racional.
Por ejemplo, echemos un vistazo a este cálculo de MODEL_QUANTILE:
MODEL_QUANTILE(0.5, MEDIAN([Profit]), ATTR(MONTH([Order Date])))
Aplicar este cálculo a una visualización donde cada marca representa un valor de Estado devolverá el siguiente error:
Dado que la fecha de pedido (Order Date) no se utiliza para visualizar o segmentar los datos, la función de modelado predictivo no puede utilizar el predictor especificado para crear un modelo.
Para resolver esto:
- Actualice la visualización para incluir el predictor como dimensión.
- Actualice la función para quitar el predictor no válido.
Cabe destacar que este error refleja una discordancia entre la visualización y los predictores específicos del cálculo de tabla. Este mismo cálculo funcionaría sin problema si se aplicara a una visualización que incluyera la fecha de pedido (Order Date) como dimensión.
La regresión del proceso gaussiano requiere exactamente un predictor de dimensión ordenado
Para utilizar la regresión del proceso gaussiano, debe incluir exactamente una dimensión ordenada como predictor. Puede incluir dimensiones desordenadas adicionales como predictores. Las medidas no se pueden utilizar como predictores con la regresión del proceso gaussiano.
Si encuentra este error, agregue un predictor de dimensión ordenada al cálculo de la tabla, elimine el predictor de dimensión ordenada sobrante o especifique que una de las dimensiones ordenadas debe tratarse como una dimensión desordenada.
Como la regresión del proceso gaussiano se utiliza mejor en los datos de series temporales, esto generalmente tomará la forma de un predictor basado en el tiempo como ATTR(DATETRUNC('month',[Order Date])). Cualquier date_part se puede utilizar en la expresión DATETRUNC, pero el date_part debe estar en el mismo o mayor nivel de detalle que la visualización. Es decir, si la visualización utiliza WEEK([Order Date]) como nivel de agregación, el date_part debe ser 'week','month','quarter', etc.; no puede ser 'dayofyear', 'day', 'weekday', 'hour', etc.
Tenga en cuenta que, dado que ATTR(MONTH([Date])) devuelve valores de cadena, no funcionará como un predictor dimensional ordenado a menos que se especifique manualmente. Esto se hace incluyendo "ordered" inmediatamente antes del predictor, como se muestra a continuación:
MODEL_PERCENTILE(
"model=gp",
SUM([Sales]),
"ordered",ATTR(MONTH([Order Date]))
)
Si desea incluir varias dimensiones de tiempo en los predictores, debe especificar cuáles desea utilizar como dimensiones desordenadas. Esto se puede hacer incluyendo "unordered" directamente antes de esa dimensión, como se muestra a continuación:
MODEL_PERCENTILE(
"model=gp",
SUM([Sales]),
ATTR(DATETRUNC('month',[Order Date]))
"unordered",ATTR(DATETRUNC('year',[Order Date]))
)
Si intenta utilizar el cálculo anterior sin especificar "unordered" delante de ATTR(DATETRUNC('year',[Order Date]), se devolverá un error.
Además, la dirección de direccionamiento (o "Compute Using") para la regresión del proceso gaussiano debe establecerse en el mismo campo que el predictor de dimensión ordenado.
Solo se puede seleccionar una dirección de direccionamiento (o "Compute Using") para todos los modelos.
La regresión del proceso gaussiano solo admite dimensiones como predictores
No puede utilizar ninguna medida como predictores en los cálculos de procesos gaussianos. Quite el predictor de medición.
Esta limitación solo se aplica a las funciones de modelado predictivo que especifican la regresión del proceso gaussiano. Las funciones de regresión lineal (o OLS, valor predeterminado) y de regresión lineal regularizada admiten medidas como predictores.
No hay datos de entrenamiento para uno o más objetivos de predicción
La regresión del proceso gaussiano requiere que cada partición de datos tenga al menos n puntos de datos para crear un modelo predictivo y devolver predicciones. Si se produce este error, revise las predicciones.
Hay más de 5000 marcas
Las regresiones de procesos gaussianas solo se admiten en visualizaciones con menos de 5000 marcas. Para resolver este problema, actualice el nivel de detalle para reducir el número de marcas o seleccione un modelo estadístico diferente.