Estructurar datos para análisis

Hay ciertos conceptos que son fundamentales para comprender la preparación de los datos y la forma de estructurarlos para su análisis. Los datos pueden generarse, recopilarse y almacenarse en una variedad de formatos, pero cuando se trata de analizarlos, no todos los formatos de datos se crean de la misma manera.

La preparación de datos es el proceso de obtener datos con formato adecuado en una sola tabla o en múltiples tablas relacionadas para poder analizarlos con Tableau. Esto incluye tanto la estructura, es decir, filas y columnas, como aspectos de la limpieza de los datos, tales como tipos y valores de datos correctos.

Consejo: puede ser útil repasar el siguiente tema con un conjunto de datos propios. Si aún no tiene un conjunto de datos que pueda utilizar, vea nuestros consejos para encontrar buenos conjuntos de datos(El enlace se abre en una ventana nueva).

Cómo la estructura afecta al análisis

La estructura de los datos puede no ser algo que pueda controlar. Durante el resto del tema se asume que tiene acceso a los datos sin procesar y las herramientas necesarias para darles forma, como Tableau Prep Builder. Sin embargo, puede haber situaciones en las que no pueda crear tablas dinámicas o agregar los datos como desee. A menudo, todavía es posible realizar el análisis, pero es posible que deba cambiar los cálculos o el enfoque que le da a los datos. Para obtener un ejemplo de cómo realizar el mismo análisis con diferentes estructuras de datos, consulte Situaciones del día a día de Tableau Prep: análisis con la segunda fecha en Tableau Desktop(El enlace se abre en una ventana nueva). Pero si puede optimizar la estructura de datos, es probable que el análisis sea mucho más fácil.

Estructura de datos

Tableau Desktop funciona mejor con datos que están en tablas con el formato de una hoja de cálculo. Es decir, los datos almacenados en filas y columnas, con los encabezados de las columnas en la primera fila. Entonces, ¿qué debería ser una fila o una columna?

¿Qué es una fila?

Una fila, o un registro, puede ser cualquier cosa, desde información sobre una transacción en una tienda minorista, hasta mediciones del tiempo en un lugar específico o estadísticas sobre un puesto en redes sociales.

Es importante saber qué representa un registro (fila) en los datos. Esta es la granularidad de los datos.

Aquí, cada registro es un díaAquí, cada registro es un mes

Consejo:se recomienda tener un identificador único (UID), un valor que identifique cada fila como una pieza única de datos. Piense en ello como el número de la seguridad social o la URL de cada registro. En Superstore, se trata del ID de fila. Tenga en cuenta que no todos los conjuntos de datos tienen un UID, pero siempre es bueno contar con uno.

Intente asegurarse de que puede responder a la pregunta "¿Qué representa una fila en el conjunto de datos?". Esto es lo mismo que responder a la pregunta ¿Qué representa el campo TableName(Count)? Si no puede articular eso, los datos podrían estar mal estructurados para el análisis.

Agregación y granularidad

Un concepto relacionado con lo que constituye una fila es la idea de agregación y granularidad, que conceptos opuestos.

Agregación

  • se refiere a la forma en que se combinan los datos en un mismo valor, como contar todas las búsquedas en Google de Pumpkin Spice o tomar el promedio de todas las lecturas de temperatura alrededor de Seattle en un día determinado.

  • De forma predeterminada, las medidas de Tableau siempre se agregan. La agregación predeterminada es SUM (suma). Puede cambiar la agregación a opciones como Promedio, Mediana, Conteo distinto, Mínimo, etc.

Granularidad

  • se refiere al nivel de detalle de los datos. ¿Qué representa una fila o registro en el conjunto de datos? ¿Una persona con malaria? ¿El total de casos de malaria de una provincia durante el mes? Esa es la granularidad.

  • Conocer la granularidad de los datos es crucial para trabajar con expresiones de nivel de detalle (LOD).

Comprender la agregación y la granularidad es un concepto crítico por varias razones. Afecta a aspectos como la búsqueda de conjuntos de datos útiles, crear la visualización que se desea, relacionar o unir los datos correctamente y usar expresiones de LOD.

Consejo: Para obtener más información, consulte Agregación de datos en Tableau.

¿Qué es un campo o una columna?

Una columna de datos en una tabla se introduce en Tableau Desktop como un campo en el panel de datos, pero son términos intercambiables. (Guardamos el término columna en el Tableau Desktop para usarlo en los estantes Columnas y Filas y para describir ciertas visualizaciones) Un campo de datos debe contener elementos que puedan agruparse en una relación más amplia. Los elementos en sí se llaman valores o miembros (solo las dimensiones discretas contienen miembros).

Los valores permitidos en un campo se determinan según el dominio del campo (consulte la nota que figura a continuación). Por ejemplo, una columna para "departamentos de tiendas de comestibles" podría contener los miembros "delicatessen", "panadería", "productos agrícolas", etc., pero no incluiría "pan" o "salami" porque esos son artículos, no departamentos. Dicho de otra manera, el dominio del campo de los departamentos se limita a los posibles departamentos de las tiendas de comestibles.

Además, un conjunto de datos bien estructurado tendría una columna para "Ventas" y otra para "Beneficios", y no una sola columna para "Dinero", porque el beneficio es un concepto separado de las ventas.

  • El dominio del campo de ventas tendría un valor superior o igual a 0, ya que las ventas no pueden ser negativas.

  • El dominio del campo de los beneficios, sin embargo, podría tener todos los valores, ya que los beneficios sí pueden ser negativos.

Nota: Dominio también puede significar los valores presentes en los datos. Si la columna "departamento de la tienda de comestibles" contuviera erróneamente "salami", por esta definición, ese valor estaría en el dominio de la columna. Las definiciones son ligeramente contradictorias. Una corresponde a los valores que podrían o deberían estar ahí, la otra a los valores que realmente están ahí.

Categorización de campos

Cada columna de la tabla de datos se incluye en Tableau Desktop como un campo, que aparece en el panel Datos. Los campos en Tableau Desktop pueden ser una dimensión o una medida (separados mediante líneas en el panel Datos) y discretos o continuos (según su color: los campos azules son discretos y los verdes son continuos).

  • Las dimensiones son cualitativas, lo que significa que no se pueden medir, sino que se describen. Las dimensiones suelen ser cosas como la ciudad o el país, el color de los ojos, la categoría, el nombre del equipo, etc. Las dimensiones suelen ser discretas.

  • Las medidas son cuantitativas, lo que significa que pueden medirse y registrarse con números. Las medidas pueden ser cosas como las ventas, la altura, los clics, etc. En Tableau Desktop, las medidas se agregan automáticamente; la agregación predeterminada es SUM (suma). Las medidas suelen ser continuas.

  • Un valor Discreto es aquel separado individualmente o distinto. Toyota es distinto de Mazda. En Tableau Desktop, los valores discretos se incluyen en la vista como una etiqueta y crean paneles.

  • Continuo significa formar un todo continuo e ininterrumpido. Entre 7 y 8 hay la misma distancia que entre 8 y 9, mientras que 7,5 caería a mitad de camino entre 7 y 8. En Tableau Desktop, los valores continuos se incluyen en la vista como un eje.

  • Las dimensiones suelen ser discretas y las medidas suelen ser continuas. Pero no siempre tiene por qué ser así. Las fechas pueden ser discretas o continuas.

    • Las fechas son dimensiones y automáticamente se incluyen en la vista como valores discretos (también conocidas como partes de fecha, como "agosto", que considera el mes de agosto sin considerar otra información como el año). Una línea de tendencia aplicada a una línea de tiempo con fechas discretas se dividirá en múltiples líneas de tendencia, una por panel.

    • Podemos optar por utilizar fechas continuas si se prefiere (truncamiento de fechas, como "agosto de 2024", que es diferente a "agosto de 2025"). Una línea de tendencia aplicada a una línea de tiempo con fechas continuas tendrá una sola línea de tendencia para todo el eje de fechas.

Consejo: Para obtener más información, consulte Dimensiones y medidas, azul y verde.

En Tableau Prep, no se hace ninguna distinción en cuanto a dimensiones o medidas. Sin embargo, es importante comprender los conceptos que hay detrás de lo discreto o lo continuo, para cosas como la comprensión de la presentación detallada y la presentación resumida de los datos en el panel de perfil.

  • Detalle: la vista de detalle muestra cada elemento del dominio como una etiqueta discreta y tiene una barra de desplazamiento visual para proporcionar una visión general de todos los datos.

  • Resumen: la vista de resumen muestra los valores agrupados en un eje continuo como un histograma.

Agrupaciones e histogramas

Un campo como la edad o el salario se considera continuo. Hay una relación entre la edad de 34 y 35 años, y 34 está tan lejos de 35 como 35 de 36. Sin embargo, una vez que pasamos los 10 años más o menos, normalmente dejamos de decir cosas como "9 y medio" o "7 y ¾". Ya estamos reduciendo nuestra edad a incrementos de tamaño de un año. Alguien que tiene 12 850 días de edad es más viejo que alguien que tiene 12 790 días de edad, pero trazamos una línea y decimos que ambos tienen 35 años. Análogamente, se suelen utilizar grupos de edad en lugar de las edades reales. Los precios de las entradas infantiles de cine pueden ser para niños y niñas de 12 años o menores o una encuesta puede pedir que seleccione su grupo de edad, como 20-24, 25-30, etc.

Los histogramas se utilizan para visualizar la distribución de los datos numéricos mediante agrupaciones. Un histograma es similar a un gráfico de barras, pero en lugar de ser categorías discretas por barra, los rectángulos que componen el histograma abarcan un grupo de un eje continuo, como el rango de un número de flores (0-4, 5-9, 10-14, etc.). La altura de los rectángulos está determinada por la frecuencia o el recuento de esos valores. Aquí, el eje Y es el recuento de plantas de cada grupo. Siete plantas tienen de 0 a 4 flores, dos plantas tienen de 5 a 9 flores, y 43 plantas tienen de 20 a 24 flores.

Histograma de número de flores por número de plantas

En Tableau Prep, la vista resumida es un histograma de valores agrupados. La vista detallada muestra la frecuencia para cada valor y tiene una barra de desplazamiento visual al lado que muestra la distribución general de los datos.

Vista resumidaVista detallada
captura de pantalla de la vista de resumen en Tableau Prepcaptura de pantalla de la vista de detalle en Tableau Prep

Distribuciones y valores atípicos

Ver la distribución de un conjunto de datos puede ayudar a detectar de valores atípicos.

  • Distribución: la forma de los datos en un histograma, aunque depende del tamaño de los grupos. Poder ver todos sus datos en una vista de histograma ayuda a identificar si los datos son correctos y completos. La forma de la distribución solo será útil si se conocen los datos y se puede interpretar si la distribución tiene sentido o no.

    • Por ejemplo, si examináramos un conjunto de datos sobre el número de hogares con Internet de banda ancha entre 1940 y 2017, esperaríamos ver una distribución muy sesgada. Sin embargo, si nos fijamos en el número de hogares con Internet de banda ancha desde enero de 2017 hasta diciembre de 2017, esperamos una distribución bastante uniforme.

    • Si examináramos un conjunto de datos de búsquedas en Google para "Diseñar calabaza de Halloween", esperaríamos ver un pico bastante pronunciado en el otoño, mientras que las búsquedas de "convertir Celsius a Fahrenheit" probablemente serían bastante estables.

  • Atípico: un valor que es extremo comparado con otros valores. Los valores atípicos pueden ser valores correctos o pueden ser indicativos de un error.

    • Algunos valores atípicos son correctos e indican anomalías reales, estos no se deben eliminar ni modificar.

    • Algunos valores atípicos indican problemas con la limpieza de los datos, como un salario de 50 dólares en lugar de 50 000 dólares porque se escribió un punto en lugar de una coma al introducir el valor.

Detección visual de valores atípicos con distribuciones

Si observásemos una lista como esta:

a primera vista no parece que haya nada extraño. Pero si, en lugar de una lista de etiquetas, esto se trazara en un eje continuo de grupos, se vería así:

Así es mucho más obvio que la última observación está más lejos de la primera y puede ser un valor atípico debido a un error.

Tipos de datos

Las bases de datos, a diferencia de las hojas de cálculo, suelen imponer normas estrictas sobre los tipos de datos. Los tipos de datos clasifican los datos en un campo determinado y proporcionan información sobre la forma en que se debe dar formato a los datos, a la forma en la que se deben interpretar y las operaciones que se pueden hacer con ellos. Por ejemplo, a los campos numéricos se les pueden aplicar operaciones matemáticas y se pueden cartografiar los campos geográficos.

Tableau Desktop decide si un campo es una dimensión o una medida, pero los campos tienen otras características que dependen de su tipo de datos. Se indican mediante el icono que tiene cada campo (aunque algunos tipos comparten un icono). Tableau Prep utiliza los mismos tipos de datos. Si se impone un tipo de datos en una columna y un valor existente no coincide con el tipo de datos asignado, puede aparecer como nulo (porque "púrpura" no significa nada como un número).

Algunas funciones requieren tipos de datos específicos. Por ejemplo, no se puede usar CONTAINS con un campo numérico. Las funciones de tipo se utilizan para cambiar el tipo de datos de un campo. Por ejemplo, DATEPARSE puede tomar una fecha de texto en un formato específico y convertirla en una fecha, para poder desglosar automáticamente una vista, por ejemplo.

IconoTipo de datos
Valores de texto (cadena)
Valores de fecha
Valores de fecha y hora
Valores numéricos
Valores booleanos (solo relacionales)
Valores geográficos (se usan en mapas)

Consejo: para obtener más información, consulte el artículo de ayuda sobre Tipos de datos.

Crear y deshacer tablas dinámicas con los datos

Los datos de las personas se suelen registrar en un formato bastante amplio, con varias columnas. Los datos legibles por máquina, como los que prefiere Tableau, son mejores en un formato alargado verticalmente, con menos columnas y más filas.

Nota: Tradicionalmente, crear una tabla dinámica significa ir de formato vertical a horizontal (filas a columnas), mientras que deshacer una tabla dinámica significa ir de formato ancho a alto (columnas a filas). Sin embargo, Tableau usa la palabra Crear tabla dinámica para ir de ancho (más adecuado para las personas) a alto (legible por máquina) convirtiendo las columnas en filas. En este documento, Crear una tabla dinámica se referirá al sentido de este concepto para Tableau. Para mayor claridad, puede ser útil especificar "Crear tabla dinámica para convertir columnas en filas" o "Crear tabla dinámica para convertir filas en columnas".

Para obtener más información, consulte los artículos de ayuda Crear una tabla dinámica con sus datos y Consejos para trabajar con sus datos.

Datos amplios

En el conjunto de datos sobre el paludismo de la OMS, hay una columna por país y otra por año. Cada celda representa el número de casos de paludismo para ese país y año. En este formato tenemos 108 filas y 16 columnas.

Amplio formato de datos sobre la malaria

Es fácil para una persona leer y entender este formato. Sin embargo, si llevamos estos datos a Tableau Desktop, obtenemos un campo por columna. Tenemos un campo para 2000, un campo para 2001, un campo para 2002, etc.

Captura de pantalla de datos sobre la malaria con formato ancho en Tableau Desktop

Pensándolo de otra manera, hay 15 campos que representan la misma cosa básica (número de casos de paludismo notificados) y ningún campo único para el tiempo. Esto hace que sea muy difícil hacer análisis históricos ya que los datos se almacenan en campos separados.

Ejemplo: trabajar con datos amplios

P: ¿Cómo crearíamos un mapa que muestre el número total de casos de malaria por país desde 2000 hasta 2014? 

R: Crear un campo calculado para sumar todos los años.

Nota: Esta imagen no se ha actualizado para reflejar la interfaz de usuario más actual. El panel Datos ya no muestra Dimensiones y Medidas como etiquetas.

 

Otra indicación de que este formato no es ideal para el análisis puede verse en el hecho de que en ningún lugar tenemos información sobre lo que significan los valores reales. Para Argelia en 2012, tenemos el valor 55. ¿Cincuenta y cinco qué? No está claro en la estructura de los datos.

Si el nombre de la columna no describe lo que son los valores sino que transmite información adicional, es una señal de que los datos se deben editar mediante una tabla dinámica.

Datos en formato vertical

Si se crea una tabla dinámica, se remodelarán los datos de formato ancho (horizontal) a alto (vertical). Ahora, en lugar de tener una columna para cada año, tenemos una sola columna, Año, y una nueva columna, Casos reportados. En este formato tenemos 1606 filas y 3 columnas. Este formato de datos es más alto que ancho.

Ahora, en Tableau Desktop, tenemos un campo para el Año y un campo para los Casos reportados así como el campo original del País. Es mucho más fácil hacer el análisis porque cada campo representa una cualidad única sobre el conjunto de datos: ubicación, tiempo y valor.

Nota: Esta imagen no se ha actualizado para reflejar la interfaz de usuario más actual. El panel Datos ya no muestra Dimensiones y Medidas como etiquetas.

Ejemplo: trabajar con datos en formato vertical

P: ¿Cómo crearíamos un mapa que muestre el número total de casos de malaria por país desde 2000 hasta 2014? 

R: Utilice el campo de Casos reportados.

Nota: Esta imagen no se ha actualizado para reflejar la interfaz de usuario más actual. El panel Datos ya no muestra Dimensiones y Medidas como etiquetas.

Ahora es fácil ver que para Argelia en 2012, el 55 se refiere al número de casos reportados (porque podríamos etiquetar esta nueva columna).

Nota: En este ejemplo, los datos amplios consistían en un único registro por país. Con el formato de datos vertical, ahora hay 15 filas para cada país (una para cada uno de los 15 años en los datos). Es importante tener en cuenta que ahora hay varias filas por país.

Si hubiera una columna para la superficie terrestre, ese valor se repetiría para cada una de las 15 filas de cada país en una estructura de datos alta. Si se creara un gráfico de barras sacando País a Filas y Superficie terrestre a Columnas, de forma predeterminada la vista sumaría la superficie terrestre de las 15 filas por país.

En algunos campos puede ser necesario compensar los valores de doble recuento agregando un promedio o un mínimo en lugar de una suma o un filtro.

Normalización

Las bases de datos relacionales están compuestas por múltiples tablas que pueden relacionarse o enlazarse de alguna manera. Cada tabla contiene un identificador único o clave por registro. Al unirse o relacionarse en las claves, los registros pueden vincularse para proporcionar más información que la contenida en una sola tabla. La información de cada tabla depende del modelo de datos utilizado, pero el principio general se centra reducir las duplicaciones.

Por ejemplo, para planificar un evento como una boda. Necesitamos hacer un seguimiento de la información a nivel de grupos (como familias o parejas) así como a nivel de cada individuo.

Se podría crear una tabla que combine toda la información: 

Sin embargo, si una dirección es incorrecta y se debe arreglar, debe hacerse a través de múltiples filas, lo que puede conducir a errores o conflictos. Una mejor estructura es crear dos tablas, una para la información que pertenece al grupo (como la dirección y si la invitación se envió) y otra para la información que pertenece a los individuos (para cosas como la asignación de asientos y restricciones dietéticas).

Tabla de grupoTabla individual

Es mucho más fácil rastrear y analizar la información a nivel de grupo en la tabla de grupo y la información a nivel individual en la tabla individual. Por ejemplo, el número de sillas necesarias se puede obtener del número de registros de asistentes = Sí en la tabla individual, y el número de sellos necesarios para agradecimientos se puede obtener del número de registros en la tabla de grupo donde el valor Regalo no es nulo.

El proceso de descomponer todos los datos en múltiples tablas y de averiguar qué tabla contiene qué columnas se denomina normalización. La normalización ayuda a reducir los datos redundantes y simplifica la organización de la base de datos.

Sin embargo, puede haber ocasiones en que se necesite información que abarque múltiples tablas. Por ejemplo, ¿qué pasaría si quisiéramos equilibrar la disposición de los asientos (individuales) de tal manera que los grupos del lado de la novia se mezclen con los grupos del lado del novio? (La afiliación a la novia o al novio se rastrea a nivel de grupo). Para lograrlo, necesitamos relacionar las tablas de nuevo para que los individuos se asocien con información sobre su grupo. La normalización adecuada no solo consiste en romper tablas, sino que también requiere la presencia de un campo relacionado compartido o un identificador único que pueda utilizarse para volver a combinar los datos. Aquí, ese campo relacionado es Grupo. Ese campo está presente en ambas tablas, así que podemos unirnos a este campo y volver a nuestro formato original de tabla única. Esta es una estructura desormalizada.

Entonces, ¿por qué no mantuvimos la tabla original desormalizada? Es más difícil de mantener y estaba almacenando información redundante. A escala, el nivel de duplicación de datos puede llegar a ser masivo. Almacenar la misma información una y otra vez no es eficiente.

Las tablas normalizadas tienen algunas propiedades clave:

  • Cada fila necesita un identificador único

  • Cada tabla necesita una o varias columnas que pueden utilizarse para conectarla con otras tablas (clave).

Estas columnas compartidas (clave) se usan para unir o relacionar las tablas de nuevo. Para nuestros datos, la relación o cláusula de unión estaría en el campo Grupo de cada tabla.

Tipos de unión

Aunque el método predeterminado para combinar datos en Tableau Desktop es crear relaciones, hay casos en los que es posible que desee unir tablas en Tableau Desktop o Tableau Prep Builder. Para obtener información general básica sobre las uniones y sus tipos, consulte Unir sus datos.

Datos "ordenados"

Hadley Wickham publicó un artículo en 2014 en el Journal of Statistical Software llamado "Tidy Data" (Datos ordenados) (agosto de 2014, volumen 59, número 10). Este artículo hace un excelente trabajo al establecer un marco de datos bien estructurado para el análisis. El artículo se puede encontrar aquí (Portafolio académico de Hadley Wickham)(El enlace se abre en una ventana nueva) o aquí (alojado en r-project.org)(El enlace se abre en una ventana nueva).

Nota: El artículo está alojado en sitios web externos. Tableau no asume responsabilidad alguna por la exactitud de las páginas de las que se encargan los proveedores externos ni garantiza que estén actualizadas. Póngase en contacto con los propietarios si tiene alguna pregunta relacionada con su contenido.

¡Gracias por sus comentarios!Sus comentarios se han enviado correctamente. ¡Gracias!