Funcionamiento de Explique los datos
Utilice Explique los datos como punto de partida para explorar más a fondo sus datos. Las posibles explicaciones que genera le ayudan a ver los diferentes valores que componen la marca analizada en una vista o que se relacionan con ella. Puede informarle acerca de las características de los puntos de datos en la fuente de datos, y cómo los datos pueden estar relacionados (correlaciones) usando modelos estadísticos. Estas explicaciones le ofrecen otra herramienta para inspeccionar sus datos y encontrar pistas interesantes sobre qué explorar a continuación.
Nota: Explique los datos es una herramienta que descubre y describe las relaciones en sus datos. No puede decirle qué está causando las relaciones o cómo interpretar los datos. Usted es el experto en sus datos. El conocimiento de su dominio y la intuición son esenciales para ayudarle a decidir qué características podría ser interesante explorar más a fondo utilizando diferentes puntos de vista.
Para obtener información relacionada con el funcionamiento de Explique los datos y cómo usarlo para aumentar su análisis, consulte estas presentaciones de la Conferencia de Tableau:
Qué es Explique los datos (y qué no)
Explique los datos es:
- Una herramienta y un flujo de trabajo que aprovecha su experiencia en el campo.
- Una herramienta que muestra relaciones en sus datos y recomienda dónde buscar a continuación.
- Una herramienta y un flujo de trabajo que ayuda a agilizar el análisis de los datos y a hacer que el análisis de los datos sea más accesible para una gama más amplia de usuarios.
Explique los datos no es:
- Una herramienta de pruebas estadísticas.
- Una herramienta para probar o refutar hipótesis.
- Una herramienta que responda acerca de las causas sobre lo que ocurre con sus datos.
Al ejecutar Explique los datos en las marcas, tenga en cuenta los siguientes puntos:
Utilice datos granulares que puedan agregarse. Esta característica está diseñada explícitamente para el análisis de datos agregados. Esto significa que los datos deben ser granulares, pero las marcas que seleccione para "Explique los datos" deben agregarse o resumirse en un nivel de detalle superior. "Explique los datos" no se puede ejecutar en marcas desagregadas (datos a nivel de fila) con el mayor nivel de detalle.
Considere la forma, el tamaño y la cardinalidad de sus datos. Aunque Explique los datos se puede utilizar con conjuntos de datos más pequeños, necesita datos que sean lo bastante amplios y con suficientes marcas (granularidad) como para poder crear un modelo.
No suponga causalidad. Correlación no es causalidad. Las explicaciones se basan en modelos de los datos, pero no son explicaciones causales.
Una correlación significa que existe una relación entre algunas variables de datos, digamos A y B. No se puede saber, con solo ver esa relación entre los datos, si A causa B o si B causa A, o si sucede algo más complicado. Los patrones de datos son exactamente los mismos en cada uno de esos casos y un algoritmo no puede decir la diferencia entre cada caso. El hecho de que dos variables parezcan cambiar conjuntamente no significa necesariamente que una haga cambiar a la otra. Un tercer factor podría estar causando el cambio en ambas, o todo podría ser una coincidencia y no existir relación causal alguna.
Sin embargo, a veces se cuenta con un conocimiento externo, ajeno a los datos, que ayuda a identificar lo que sucede. Un tipo común de conocimiento externo sería una situación en la que los datos se recogen en un experimento. Si usted sabe que B se eligió lanzando una moneda al aire, cualquier patrón coherente de diferencia en A (que no sea mero ruido aleatorio) debe ser causa de B. Para ver una descripción más larga y detallada de estos conceptos, consulte el artículo inferencia causal en economía y marketing(El enlace se abre en una ventana nueva), de Hal Varian.
Cómo se analizan y evalúan las explicaciones
Explique los datos ejecuta un análisis estadístico en un dashboard u hoja para encontrar marcas que sean atípicas, o específicamente en una marca que seleccione. El análisis también considera puntos de datos posiblemente relacionados de la fuente de datos que no están representados en la vista actual.
"Explique los datos" primero predice el valor de una marca usando solo los datos presentes en la visualización. A continuación, se consideran y añaden al modelo los datos en la fuente de datos (pero no en la vista actual). El modelo determina el intervalo de valores de marca pronosticados, que está dentro de una desviación estándar del valor pronosticado.
¿Qué es un rango esperado?
El valor esperado para una marca es el valor mediano en el rango esperado de valores en los datos subyacentes en su visualización. El rango esperado es el rango de valores entre el percentil 15 y el 85 que predice el modelo estadístico para la marca analizada. Tableau determina el rango esperado cada vez que ejecuta un análisis estadístico en una marca seleccionada.
Se evalúa mediante modelos estadísticos la capacidad explicativa de las posibles explicaciones. Para cada explicación, Tableau compara el valor esperado con el valor real.
valor | Descripción |
---|---|
Más alto de lo esperado/Más bajo de lo esperado | Si un resumen del valor esperado dice que la marca es inferior a lo esperado o superior a lo esperado, significa que el valor agregado de la marca está fuera del intervalo de valores que un modelo estadístico pronostica para la marca. Si un resumen del valor esperado dice que la marca es ligeramente inferior o superior a lo esperado, pero que está dentro del rango natural de variación, significa que el valor agregado de la marca está dentro del intervalo de valores pronosticados, pero que es inferior o superior a la mediana. |
Valor esperado | Si una marca tiene un valor esperado, significa que su valor se encuentra dentro del rango de valores esperado que un modelo estadístico predice para la marca. |
Variación aleatoria | Cuando la marca analizada tiene un número bajo de registros, es posible que no haya suficientes datos disponibles para que Explique los datos forme una explicación estadísticamente significativa. Si el valor de la marca está fuera del rango esperado, Explique los datos no puede determinar si este valor inesperado se debe a una variación aleatoria o a una diferencia significativa en los registros subyacentes. |
Sin explicación | Cuando el valor de calificación analizado está fuera del rango esperado y no se ajusta a un modelo estadístico utilizado para Explique los datos, no se generan explicaciones. |
Modelos utilizados para el análisis
Explique los datos construye modelos de los datos con el fin de predecir el valor de una marca y luego determina si una marca es mayor o menor de lo esperado dado el modelo. A continuación, considera información adicional, como la incorporación a la vista de columnas adicionales de la fuente de datos o el marcado de valores atípicos extraordinarios, como posibles explicaciones. Para cada posible explicación, "Explique los datos" ajusta un nuevo modelo y evalúa cuán inesperada es la marca dada la nueva información. Las explicaciones se califican valorando su complejidad (cuánta información se agrega desde la fuente de datos) y la cantidad de variabilidad que se necesita explicar. Las mejores explicaciones son más simples que la variación que explican.
Tipo de explicación | Evaluación |
---|---|
Valores extremos | Los valores extremos son marcas agregadas atípicas, basadas en un modelo de las marcas visualizadas. Se considera que la marca seleccionada contiene un valor extremo si un valor de registro está en la cola de los valores esperados de la distribución para los datos. Un valor extremo se determina comparando la marca agregada con y sin el valor extremo. Si la marca se vuelve menos sorprendente al eliminar un valor, recibe una puntuación más alta. Cuando una marca tiene valores extremos, no significa automáticamente que sea un valor atípico o que deban excluirse de la vista. Esa elección depende de usted y de su análisis. La explicación simplemente señala un valor extremo interesante en la marca. Por ejemplo, podría revelar un valor mal escrito en un registro, ya que un plátano cuesta 10 dólares en lugar de 10 centavos. O bien podría revelar que un vendedor en particular ha tenido un gran trimestre. |
Número de registros | La explicación del número de registros modela la suma agregada en términos del recuento agregado; el valor promedio de los registros lo modela en términos del promedio agregado. Cuanto mejor explique el modelo la suma, mayor será la puntuación. Esta explicación describe si la suma es un valor interesante porque el recuento es alto o bajo, o porque el promedio es alto o bajo. |
Valor promedio de la marca | Este tipo de explicación se utiliza para las marcas agregadas que son sumas. Explica si la marca es coherente con las demás porque, en términos de su recuento total o promedio, observa la relación SUM (X) = COUNT(X) * AVG(X). Esta explicación describe si la suma es un valor interesante porque el recuento es alto o bajo, o porque el promedio es alto o bajo. |
Dimensiones contribuyentes | Esta explicación modela la medida de destino de la marca analizada en términos del desglose entre categorías de la dimensión no visualizada. El análisis equilibra la complejidad del modelo con la calidad de la explicación de la marca. Una dimensión no visualizada es aquella que existe en la fuente de datos pero que no se está utilizando en la vista. Este tipo de explicación se utiliza para sumas, recuentos y promedios. El modelo para las dimensiones no visualizadas se crea dividiendo las marcas según los valores de categoría de la columna explicativa, y luego creando un modelo con el valor que incluya todos los puntos de datos en la visualización de origen. Para cada fila, el modelo intenta recuperar todos los componentes que formaron cada marca. El análisis indica si el modelo predice mejor la marca cuando se modelan y luego se suman los componentes correspondientes a la dimensión no visualizada, en comparación con el uso de un modelo en el que no se conocen los valores de la dimensión no visualizada. Las explicaciones de las dimensiones agregadas exploran en qué medida es posible explicar los valores de marca sin ningún tipo de condicionamiento. A continuación, el modelo condiciona los valores de las columnas que son posibles explicaciones. El condicionamiento en la distribución de una columna explicativa debería dar como resultado una mejor predicción. |
Medidas contribuyentes | Esta explicación modela la marca en términos de esta medida no visualizada, agregada a su media a través de las dimensiones visualizadas. Una medida no visualizada es aquella que existe en la fuente de datos pero que no se está utilizando en la vista. La explicación de las medidas contribuyentes puede revelar una relación lineal o cuadrática entre la medida no visualizada y la medida de destino. |