Buscar clústeres en datos
El análisis de clúster divide las marcas de la vista en clústeres, donde las marcas de cada clúster son más similares entre sí de lo que lo son con respecto a las marcas de otros clústeres.
Para ver un ejemplo que muestre el proceso de creación de clústeres con datos de muestra, consulte Ejemplo: crear clústeres utilizando datos de indicadores de economía mundial.
Crear clústeres
Para buscar clústeres en una vista de Tableau, siga estos pasos.
- Cree una vista.
- Arrastre Clúster desde el panel Análisis hasta la vista y suéltelo en el área de destino de la vista:
También puede hacer doble clic en Clúster para buscar clústeres en la vista.
Al soltar o al hacer doble clic en Clúster:
- Tableau crea un grupo Clústeres en Color y aplica color a las marcas de la vista por clúster. Si ya hay un campo en Color, Tableau lo moverá a Detalle y lo reemplazará en Color por los resultados de la agrupación en clústeres.
Tableau asigna cada marca de la vista a uno de los clústeres. En algunos casos, a las marcas que no se ajustan correctamente en un clúster se les asigna un clúster "Sin agrupación".
- Tableau muestra el cuadro de diálogo Clústeres, en el que puede personalizar el clúster.
- Tableau crea un grupo Clústeres en Color y aplica color a las marcas de la vista por clúster. Si ya hay un campo en Color, Tableau lo moverá a Detalle y lo reemplazará en Color por los resultados de la agrupación en clústeres.
- Personalice los resultados del clúster llevando a cabo una de las siguientes acciones en el cuadro de diálogo Clústeres.
- Arrastre los campos nuevos del panel Datos del área Variables del cuadro de diálogo Clústeres. También puede eliminar campos sacándolos del área Variables.
Al añadir variables, las medidas se agregan mediante la agregación predeterminada para el campo; las dimensiones se agregan usando ATTR, que es la forma estándar en que Tableau agrega dimensiones.
Haga clic con el botón derecho en una variable para modificar su agregación.
Especifique el número de clústeres (entre 2 y 50). Si no especifica ningún valor, Tableau creará de forma automática un máximo de 25 clústeres.
- Arrastre los campos nuevos del panel Datos del área Variables del cuadro de diálogo Clústeres. También puede eliminar campos sacándolos del área Variables.
- Al finalizar la personalización de los resultados del clúster, haga clic en la X en la esquina superior derecha del cuadro de diálogo Clústeres para cerrarlo:
Nota: Puede mover el campo Clúster de Color a otro estante de la vista. Sin embargo, no puede mover el campo Clúster del estante Filtros al panel Datos.
Para cambiar el nombre de los clústeres resultantes, primero debe guardar el clúster como grupo. Para obtener información detallada, consulte Crear un grupo a partir de los resultados del clúster y Editar clústeres.
Restricciones de la agrupación en clústeres
La agrupación está disponible en Tableau Desktop, pero no está disponible para creación en la web (Tableau Server, Tableau Cloud). La agrupación tampoco está disponible cuando se aplica cualquiera de las condiciones siguientes:
- Cuando usa una fuente de datos de cubo (multidimensional).
- Si hay una dimensión combinada en la vista.
- Cuando no hay campos que se puedan usar como variables (entradas) para el agrupamiento en la vista.
- Cuando no hay dimensiones presentes en una vista agregada.
Cuando se aplique cualquiera de dichas condiciones, no podrá arrastrar Clústeres del panel Análisis a la vista.
Además, los siguientes tipos de campos no se pueden usar como variables (entradas) para el agrupamiento:
- Cálculos de tablas
- Cálculos mezclados
- Cálculos específicos
- Valores de latitud/longitud generados
- Grupos
- Conjuntos
- Agrupaciones
- Parámetros
- Fechas
- Nombres de medidas/Valores de medidas
Editar clústeres
Para editar un clúster existente, haga clic con el botón derecho (Control y clic en un Mac) en un campo Clústeres en Color y, después, seleccione Editar clústeres.
Para cambiar los nombres empleados para cada clúster, primero deberá arrastrar el campo Clústeres al panel Datos y guardarlo como grupo. Para obtener información detallada, consulte Crear un grupo a partir de los resultados del clúster.
Haga clic con el botón derecho en el grupo de clústeres y seleccione Editar grupo para efectuar cambios en cada clúster.
Seleccione un grupo de clústeres en la lista de grupos y haga clic en Cambiar nombre para cambiar el nombre.
Crear un grupo a partir de los resultados del clúster
Si arrastra un clúster al panel Datos, se convierte en una dimensión de grupo en la que los distintos miembros (Clúster 1, Clúster 2, etc.) contienen las marcas que el algoritmo del clúster ha determinado y son más similares entre sí de lo que son con respecto a otras marcas.
Después de arrastrar un grupo de clústeres al panel Datos, puede usarlo en otras hojas de trabajo.
Arrastre Clústeres desde la tarjeta Marcas hasta el panel Datos para crear un grupo de Tableau:
Después de crear un grupo a partir de clústeres, los clústeres de grupo y originales están separados y son distintos. La edición de los clústeres no afecta al grupo y la edición del grupo no afecta a los resultados del clúster. El grupo tiene las mismas características que cualquier otro grupo de Tableau. Forma parte de la fuente de datos. A diferencia de los clústeres originales, puede usar el grupo de otras hojas de trabajo en el libro de trabajo. Por tanto, si cambia el nombre del grupo de clústeres guardado, dicho cambio no afectará a la agrupación en clústeres originales de la vista. Consulte Corregir errores de datos o combinar miembros de dimensión mediante la agrupación de datos.
Limitaciones a la hora de guardar clústeres como grupos
No podrá guardar clústeres en el panel Datos bajo ninguna de las siguientes circunstancias:
- Si se desasocian las medidas de la vista y las medidas que está usando como variables de agrupación en clústeres no son las mismas que las medidas de la vista. Para obtener más información, consulte Cómo desasociar datos.
- Si los clústeres que desea guardar están en el estante Filtros.
- Si Nombres de medidas o Valores de medidas está en la vista.
- Si hay una dimensión combinada en la vista.
Reajustar clústeres guardados
Al guardar un campo Clústeres como grupo, se guarda con su modelo analítico. Puede utilizar los grupos de clústeres en otras hojas de trabajo y libros de trabajo, aunque no se actualizarán automáticamente.
En este ejemplo se ha aplicado a otra hoja de trabajo un grupo de clústeres guardado y su modelo analítico. Como resultado, algunas de las marcas todavía no se incluyen en la agrupación en clústeres (indicado con marcas de color gris).
Si los datos subyacentes varían, puede utilizar la opción Reajustar para actualizar y volver a calcular los datos de un grupo de clústeres guardado.
Pasos para reajustar un clúster guardado
- Haga clic con el botón derecho en un grupo de clústeres en el panel Datos y, después, haga clic en Reajustar.
A continuación se muestra un ejemplo de una agrupación en clústeres actualizada después de reajustar el clúster guardado:
Si reajusta clústeres guardados, se crearán clústeres nuevos y los alias existentes para cada categoría de grupo de clústeres se sustituirán por nuevos alias de clústeres genéricos. Tenga en cuenta que el reajuste de clústeres guardados puede cambiar sus visualizaciones que usen clústeres y alias existentes.
Funcionamiento de la agrupación en clústeres
El análisis de clústeres divide las marcas de la vista en clústeres, donde las marcas de cada clúster son más similares entre sí de lo que lo son con respecto a las marcas de otros clústeres. Tableau distingue los clústeres según el color.
Nota: para obtener más información sobre el funcionamiento de la agrupación en clústeres en Tableau, consulte la entrada de blog Understanding Clustering in Tableau 10 (Información sobre la agrupación en clústeres en Tableau 10).
Algoritmo de agrupación en clústeres
Tableau usa el algoritmo k-means para la agrupación en clústeres. Para un número dado de clústeres k, el algoritmo divide los datos en k clústeres. Cada clúster tiene un centro (centroide) que es el valor promedio de todos los puntos de ese clúster. K-means ubica centros a través de un procedimiento iterativo que minimiza las distancias entre los puntos individuales de un clúster y el centro del clúster. En Tableau puede especificar el número de clústeres que quiera o bien hacer que Tableau pruebe distintos valores de k y que sugiera el número óptimo de clústeres (consulte Criterios utilizados para determinar el número óptimo de clústeres).
K-means requiere una especificación inicial de los centros de los clústeres. Empezando con un clúster, el método elige una variable cuya media se utiliza como un umbral para dividir los datos en dos. Los centroides de estas dos partes se utilizan para inicializar k-means para optimizar la membresía de los dos clústeres. A continuación, se elige uno de los dos clústeres para dividirlo y una variable dentro del clúster, cuya media se utiliza como umbral para dividir el clúster en dos. K-means se utiliza para dividir los datos en tres clústeres, inicializado con los centroides de las dos partes del clúster partido y el centroide del clúster que ha quedado. Este proceso se repite hasta que se alcanza un número determinado de clústeres.
Tableau utiliza el algoritmo de Lloyd con las distancias cuadradas euclídeas para calcular el agrupamiento k-means para cada k. Combinado con el procedimiento de división para determinar los centros iniciales para cada k > 1, el clúster resultante es determinista, ya que el resultado depende únicamente del número de clústeres.
En primer lugar, el algoritmo selecciona los centros de clúster iniciales:
Luego divide las marcas asignando cada una de ellas a su centro más cercano:
A continuación, acota los resultados calculando nuevos centros para cada división mediante el cálculo del promedio de todos los puntos asignados al mismo clúster:
Luego revisa la asignación de las marcas a los clústeres y reasigna cualquier marca que ahora esté más cercana a otro centro que antes.
Los clústeres se redefinen y las marcas se reasignan de forma iterativa hasta que no se produzcan más cambios.
Nota: Debido a diferencias subyacentes en las tecnologías, puede haber ligeras diferencias entre los clústeres creados en CPU x64 o arm64 para los mismos datos.
Criterios utilizados para determinar el número óptimo de clústeres
Tableau usa el criterio de Calinski-Harabasz para evaluar la calidad del clúster. El criterio de Calinski-Harabasz se define como
donde SSB es la varianza global entre clústeres, SSW es la varianza global dentro del clúster, k el número de clústeres y N el número de observaciones.
Cuanto mayor sea el valor de este ratio, más consistentes serán los clústeres (baja varianza dentro del clúster) y más distintos/separados los distintos clústeres (alta varianza entre clústeres).
Como el índice de Calinski-Harabasz no está definido para k=1, no se puede utilizar para detectar casos de un solo clúster.
Si un usuario no especifica el número de clústeres, Tableau selecciona el número de clústeres que corresponde al primer máximo local del índice de Calinski-Harabasz. De forma predeterminada, k-means se ejecutará para hasta 25 clústeres si el primer máximo local del índice no se alcanza para un valor más pequeño de k. Puede establecer un valor máximo de 50 clústeres.
Nota: Si una variable categórica (que sea una dimensión) tiene más de 25 valores únicos, Tableau no la tendrá en cuenta al calcular los clústeres.
¿Qué valores se asignan a la categoría "Sin agrupación"?
Cuando haya valores nulos para una medida, Tableau asigna los valores de las filas con valores nulos a una categoría Sin agrupación. Las variables de categoría (es decir, las dimensiones) que indican * para ATTR (lo que significa que todos los valores no son idénticos) tampoco se agrupan.
Escalado
Tableau escala los valores automáticamente para que las columnas que tiene un rango mayor de magnitudes no dominen los resultados. Por ejemplo, un analista podría estar usando la inflación y el PIB como variables de entrada para la agrupación, pero debido a que los valores del PIB se expresan en trillones de dólares, esto podría hacer que los valores de inflación no se tengan prácticamente en cuenta en el cálculo. Tableau utiliza un método de escalado llamado normalización mín-máx, en el que los valores de cada variable se asignan a un valor entre 0 y 1 restando su mínimo y dividiéndolo por su intervalo.
Información sobre modelos estadísticos utilizados para los clústeres
En el cuadro de diálogo Describir clústeres se proporciona información sobre los modelos que Tableau ha calculado para la agrupación en clústeres. Puede utilizar estas estadísticas para evaluar la calidad del agrupamiento.
Cuando la vista incluye agrupamiento, puede abrir el cuadro de diálogo Describir clústeres haciendo clic con el botón derecho en Clústeres en la tarjeta Marcas (Control y clic en un Mac) y seleccionando Describir clústeres. La información en el cuadro de diálogo Describir clústeres es de solo lectura, puede hacer clic en Copiar al portapapeles y luego pegar el contenido de la pantalla en un documento escribible.
Describir clústeres: pestaña Resumen
En la pestaña Resumen se identifican las entradas usadas para generar los clústeres y se proporcionan algunas estadísticas que caracterizan a los clústeres.
Entradas de agrupación
Variables
Identifica los campos que usa Tableau para calcular clústeres. Son los campos que se muestran en el cuadro Variables del cuadro de diálogo Clústeres.
Nivel de detalle
Identifica los campos que contribuyen en el nivel de detalle de la vista (es decir, los campos que determinan el nivel de agregación). Para obtener más información, consulte Cómo afectan las dimensiones al nivel de detalle de la vista.
Escalado
Identifica el método de escalado usado para el procesamiento previo. Actualmente, la normalización es el único método de escalado que utiliza Tableau. La fórmula de este método, también llamado "normalización mín-máx", es (x – min(x))/(max(x) - min(x))
.
Diagnóstico de resumen
Número de clústeres
El número de clústeres individuales en la agrupación.
Número de puntos
El número de marcas de la vista.
Suma de cuadrados entre grupos
Métrica que cuantifica la separación entre clústeres como suma de distancias cuadráticas entre el centro de cada clúster (valor promedio), medido por el número de puntos de datos asignados al clúster, y el centro del conjunto de datos. Cuanto mayor sea el valor, mejor será la separación entre los clústeres.
Suma de cuadrados dentro del grupo
La métrica que cuantifica la cohesión de los clústeres como suma de las distancias cuadráticas entre el centro de cada clúster y las marcas individuales del clúster. Cuanto menor sea el valor, más consistentes serán los clústeres.
Suma total de cuadrados
Calcula el total de la suma de cuadrados entre grupos y la suma de cuadrados dentro del grupo. En la relación (suma de cuadrados entre el grupo)/(suma total de cuadrados) se muestra la proporción de varianza que explica el modelo. Los valores están comprendidos entre 0 y 1; los valores superiores suelen indicar un modelo mejor. No obstante, puede aumentar esta relación aumentando el número de clústeres, por lo que podría ser engañoso comparar un modelo de cinco clústeres con uno de tres clústeres utilizando solo este valor.
Estadísticas de clúster
Para cada clúster de la agrupación, se proporciona la siguiente información.
N.º de elementos
El número de marcas del clúster.
Centros
El valor promedio en cada clúster (se muestra para elementos numéricos).
Más común
El valor más común en cada clúster (se muestra para elementos de categorías).
Describir clústeres: pestaña Modelos
El análisis de discordancia (ANOVA) es una colección de modelos estadísticos y procedimientos asociados útil para analizar la discordancia dentro y entre observaciones que se han dividido en grupos o clústeres. En este caso, el análisis de discordancia se calcula por variable, y el análisis de discordancia resultante se puede utilizar para determinar cuáles son las variables más efectivas para distinguir los clústeres.
Entre los análisis relevantes de las estadísticas de discordancia para la agrupación en clústeres figuran los siguientes:
Estadística F
La estadística F para ANOVA unidireccional o de un solo factor, proporciona la fracción de la discordancia explicada por una variable. Es el ratio de la varianza entre grupos con respecto a la varianza total.
Cuanto más grande sea la estadística F, mejor se distinguirá la variable correspondiente entre los clústeres.
Valor p
El valor p es la probabilidad que tiene la distribución F de todos los valores posibles de la estadística F en un valor mayor que la estadística F real para una variable. Si el valor p está dentro de un nivel de relevancia especificado, la hipótesis nula (que todos los elementos individuales de una variable son muestras aleatorias de la misma población) se puede rechazar. Los grados de libertad para esta distribución F son (k - 1, N - k), donde k es el número de clústeres y N es el número de elementos (filas) agrupados.
Cuanto más bajo sea el valor p, más difieren entre los clústeres los valores esperados de los elementos de la variable correspondiente.
Modelo de suma de cuadrados y grados de libertad
El modelo de media cuadrática es la ratio entre la suma de cuadrados entre grupos y el modelo de grados de libertad. La suma de cuadrados entre grupos es una medida de la discrepancia entre medias de clústeres. Si las medias de los clústeres están próximas unas a otras (y, por tanto, próximas a la media general), este valor será pequeño. El modelo tiene k-1 grados de libertad, donde k es el número de clústeres.
Error de suma de cuadrados y grados de libertad
El error de media cuadrática es la ratio entre la suma de cuadrados dentro de grupos y el error de grados de libertad. La suma de cuadrados dentro del grupo mide la discrepancia entre las observaciones dentro de cada clúster. El error tiene N-k grados de libertad, donde N es el número total de elementos (filas) agrupados y k es el número de clústeres.
El error de suma de cuadrados puede imaginarse como el error de media cuadrática general, si pensamos que cada centro de clúster representa la "verdad" para cada clúster.
Ejemplo: crear clústeres utilizando datos de indicadores de economía mundial
La funcionalidad de la agrupación en clústeres de Tableau divide las marcas de la vista en clústeres, donde las marcas de cada clúster son más similares entre sí de lo que lo son con respecto a las marcas de otros clústeres. En este ejemplo se muestra cómo un investigador podría utilizar la función de agrupación para encontrar un conjunto de marcas óptimo (en este caso, países o regiones) en una fuente de datos.
El objetivo
Como la esperanza de vida aumenta en todo el mundo, y como la gente mayor son más activos, el turismo para la tercera edad pueda resultar un mercado lucrativo para las empresas que sepan cómo encontrar y atraer clientes potenciales. El conjunto de datos de muestra Indicadores Mundiales que viene con Tableau contiene el tipo de datos que puede ayudar a las empresas a identificar los países o regiones en los que hay suficientes clientes del tipo correcto.
Encontrar los países o regiones adecuados
A continuación se muestra un ejemplo de cómo el agrupamiento de Tableau podría ayudar a una empresa a identificar los países o regiones donde el negocio del turismo de la tercera edad podría tener éxito. Imagine que es el analista. A continuación le mostramos cómo debería proceder.
- Abra la fuente de datos de ejemplo Indicadores Mundiales en Tableau Desktop.
- Haga doble clic en la opción País/Región del panel Datos.
Tableau crea automáticamente una vista de mapa, con una marca en cada país/región.
- En la tarjeta Marcas, cambie el tipo de marca a Mapa:
Ahora debería aparecer una proyección de mapa donde todos los países o regiones se muestren rellenos con un color sólido:
- El siguiente paso consiste en identificar los campos que usará como variables para la agrupación. A continuación le mostramos los campos que debe elegir:
Campo Motivo para la inclusión Esperanza de vida de mujeres y Esperanza de vida de hombres En los sitios en los que la gente vive más tiempo, es más probable que haya gente interesada en viajar en un momento más avanzado de su vida. Población urbana Es más fácil comercializar servicios en áreas con gran densidad de población. Población de 65+ La población objetivo son residentes mayores con el tiempo y el dinero para viajar. TurismoPerCápita Es una medida que debe crear como un campo calculado nombrado. La fórmula es:
SUM([Tourism Outbound])/SUM([Population Total])
Tourism Outbound agrega el dinero (en dólares estadounidenses) que se gastan los residentes de un país/región en viajes internacionales al año. No obstante, este total debe dividirse entre la población de cada país/región para determinar la cantidad media que cada residente gasta en viajes internacionales.
No se garantiza que estos campos sean los ideales para elegir o que vayan a producir resultados de clúster claros y sin ambigüedades. El agrupamiento es un proceso iterativo: la experimentación conduce al descubrimiento, lo cual, a su vez, conduce a más experimentación.
- Arrastre estos cinco campos del panel Datos a Detalle en la tarjeta Marcas.
- Haga clic para abrir el panel Análisis:
Arrastre Clúster del panel Análisis y suéltelo en la vista:
Tableau muestra los cuadros de diálogo Clústeres y añade las medidas de la vista a la lista de variables:
También actualiza la vista añadiendo clústeres a Color. En este caso, Tableau busca dos clústeres distintos y no puede asignar determinados países o regiones (de color rosa rojizo) a cada clúster:
Nota: Consulte Funcionamiento de la agrupación en clústeres para obtener información detallada sobre los datos que Tableau asigna a "Sin agrupación".
- Ha decidido que dos clústeres no es suficiente (no dispone de los recursos para establecer una tienda en la mitad de los países o regiones del mundo). Por ello, escribe
4
en el campo Número de clústeres del cuadro de diálogo Clústeres.El mapa se hace más interesante:
¿Pero qué relación tienen estos clústeres con las variables que ha elegido? ¿Cuál se correlaciona mejor con los factores que favorecen el turismo de la tercera edad? Es hora de mirar las estadísticas que hay detrás de los clústeres.
- Cierre el cuadro de diálogo Clústeres haciendo clic en la X de la esquina superior derecha:
- Haga clic en el campo Clústeres de la tarjeta Marcas y seleccione Describir clústeres.
La tabla en la parte inferior de la pestaña Modelos en el cuadro de diálogo Describir Clústeres muestra el valor promedio para cada variable en cada clúster:
El Clúster 4 tiene la esperanza de vida más alta (tanto para hombres como para mujeres), la concentración más alta de población urbana y el gasto más alto de turismo internacional: 1360,40 $ per cápita. La única variable para la que el Clúster 4 no tiene el valor más alto es Población de 65+, donde Clúster 3 lleva ventaja: de 0,15493 (por debajo del 16 %) a 0,11606 (por encima del 11 %) en el Clúster 4.
El algoritmo de agrupación no sabe si está buscando el valor máximo de estas variables, el mínimo, o algo intermedio (solo busca la correlación). No obstante, sabe que los valores más altos para estas variables son la señal que está buscando y que el Clúster 4 es la mejor elección.
- Podría intentar seleccionar los países o regiones del Clúster 4 desde el mapa, pero hay una manera más sencilla. Cierre el cuadro de diálogo Describir clústeres y, a continuación, haga clic en Clúster 4 de la leyenda Color y seleccione Mantener solamente.
- Elija Tabla de texto desde ShowMe.
Ahora puede ver una lista de los países o regiones del Clúster 4:
Esta lista no es el final del proceso. Puede seguir intentando hacer agrupamientos de nuevo con algún conjunto de variables diferente y quizás un número de clústeres diferente, o puede añadir algunos países o regiones a la lista y eliminar otros, basándose en otros factores. Por ejemplo, si la mayoría de sus viajes son a destinos tropicales, puede eliminar de la lista países o regiones como Curazao y Bahamas, porque los viajes a destinos tropicales no son atractivos para los residentes de esos países o regiones.
Otra opción consiste en filtrar los datos antes de volver a realizar el agrupamiento, para mostrar únicamente los países o regiones con poblaciones por encima de un cierto nivel de vida, o buscar países o regiones en un área geográfica en particular.