Las relaciones más profundas no deben asustarle
Debido a la naturaleza de las relaciones, entender de dónde provienen los campos, su dominio y lo que representan los valores NULL es más importante que nunca. Recuerde que cualquier persona que vea la visualización sin acceso a la página de fuente de datos o al panel Datos dependerá del título u otra información presentada por el autor para interpretar la visualización de forma correcta.
Nota: Si aún no se siente cómodo con los principios detrás de las fuentes de datos que usan relaciones, consulte Las relaciones no deben asustarle antes de seguir avanzando.
¿Por qué no son todos los campos de fecha iguales?
Es importante recordar que el hecho de que dos nombres de campo contengan la palabra "Fecha" no significa que el contenido de esos campos sea idéntico. Echemos un vistazo a un ejemplo con el nivel de Año. Es decir, no nos importan los valores de meses y días, sólo nos interesan los años que cubren los campos.
Hay varios campos en El conjunto de datos Librería con el tipo de datos de Fecha.
- Cumpleaños
- Fecha de publicación
- Fecha de venta
- Año ganado y Año establecido también contienen información de fecha, aunque sean campos numéricos.
- Nota: Si el icono del panel Datos es verde, este campo es continuo. Haga clic con el botón derecho en panel Datos y seleccione Convertir a discreto(El enlace se abre en una ventana nueva). El icono debe volverse azul. Haga esto tanto para "Año ganado" como para "Año establecido" si es necesario.
El dominio (los valores de cada campo), en cambio, sí varía. Lleve cada campo a su vez al estante Filas, mire el número de marcas en la esquina inferior izquierda y elimine cada campo antes de sacar el siguiente.
- YEAR(Birthday) tiene 27 marcas, lo que significa que el dominio contiene 27 años diferentes.
- YEAR([Publication Date]) tiene 15 marcas, por lo que su dominio consta de 15 años.
- Año ganado tiene 11 marcas
- Año establecido tiene cuatro marcas
- YEAR([Sales Date]) tiene una marca
Es muy importante tener en cuenta esta diferencia de dominio. Si relacionamos la tabla Edición y Premio en YEAR([Publication Date]) con Año ganado, podríamos terminar con análisis que utilizan una unión interna y, por lo tanto, se reducen a solo los años en que se ganó un premio, dejando así todos los libros de años sin premios. Tenga en cuenta que esto no es lo mismo que filtrar libros sin premios. Se conservarán los libros no premiados que se publicaron en el mismo año como libro premiado. Todos los libros de años sin premios serán retirados por completo. La acción de filtrado de la unión está en el nivel del año, no en el libro.
Ejemplo: fecha de publicación y cumpleaños
Si llevamos la fecha de publicación a las columnas y el cumpleaños a las filas, obtenemos una tabla de Abcs. Puede descargar el libro de trabajo y explorar esta tabla por su cuenta. Es necesario tener Tableau Desktop 2020.2 o una versión posterior.
Observe que hay mucho espacio en blanco en esta tabla. No hay marcador de posición para el año de publicación 2180 y el cumpleaños 2133. Esto significa que el autor nacido en 2133 no publicó un libro en el año 2180.
Seguro. ¿Pero por qué nos importa?
Imagine que quiere hacer algunos análisis a lo largo del tiempo. ¿Las ventas de tapa dura están aumentando con el tiempo? Es posible que imagine el gráfico como una línea de tiempo que filtra Formato a solo Tapa dura con Ventas (Recuento) en las filas y Fecha en las columnas. Pero, ¿qué campo de fecha? ¿Fecha de publicación? ¿Cumpleaños? ¿Fecha de venta? Estos campos están bien nombrados y es bastante obvio que si tenemos una pregunta sobre las ventas debemos usar Fecha de venta. Sin embargo, no todos los conjuntos de datos tienen nombres claros. Si los campos fueran algo así como "Fecha1" y "Fecha3" sería mucho más complicado. Especialmente si la pregunta analítica no está pensada con claridad.
De qué tabla proviene un campo y qué representa el dominio del campo tienen un impacto crucial en el análisis.
Al cambiar el campo de fecha, podemos cambiar el análisis por completo. Mire estas dos visualizaciones:
La primera podría interpretarse como "¿Cuántos libros los escribieron autores nacidos cada año?" Responde preguntas como "¿Han escrito más libros los autores mayores?" (No) o "¿En qué año nacieron los autores más prolíficos?" (2155).
La segunda podría interpretarse como "¿Cuántos libros se publicaron cada año?" Responde preguntas como "¿En qué año se publicaron más libros?" (2188) o "¿La publicación de libros es constante a lo largo del tiempo?" (No).
Es raro formular la pregunta de la visualización que usa el cumpleaños porque es una combinación rara de conceptos. Pero Tableau no juzga y le permitirá hacer cualquier pregunta que desee, quiera hacerlo o no. Es un aporte necesario. Si utiliza Fecha3 cuando debería haber utilizado Fecha1, Tableau le dará una visualización. Pero no todos los campos de fecha significan lo mismo y depende del autor saber qué campo usar para el análisis correcto.
Para obtener más información sobre la importancia de la tabla de la que proviene un campo, consulte esta publicación de blog(El enlace se abre en una ventana nueva).
¿Qué significan los datos que faltan?
Hay una diferencia entre cero y nulo.
Cero significa que lo hemos medido pero no está ahí. Conocemos el valor y es cero. Si tengo cero multas por exceso de velocidad, probablemente no vaya muy rápido.
- Nota: 0 y 1 se utilizan a menudo indistintamente con Verdadero/Falso, u otros valores binomiales como Sí/No o Aprobado/Suspenso. En este caso, cero se utiliza como etiqueta, no como un valor numérico.
Nulo significa que no lo sabemos: no lo hemos medido o no hemos registrado los datos. Si mi registro de conducción está en blanco en el campo de multas por exceso de velocidad, no tenemos ni idea de si voy rápido o no.
Los valores nulos pueden representar datos que faltan o datos inexistentes.
- Si el valor de las multas por exceso de velocidad es nulo en mi historial de conducción, es posible que pueda tener una multa por exceso de velocidad que no se haya registrado. Debemos asumir que faltan datos.
- Los datos inexistentes podrían ser registrados como N/A, pero a menudo simplemente no se registran porque no necesitamos rastrear cosas imposibles. ¿Cuántas multas por exceso de velocidad recibí mientras viajaba en autobús? Es probable que esos datos no estén presentes en el conjunto de datos. En una matriz de "Modos de transporte" y "multas por exceso de velocidad", hay combinaciones que simplemente no tienen sentido. Podemos suponer que los datos son inexistentes.
Cuando los valores nulos tienen un significado
Se necesita conocer los datos para poder reconocer si un valor nulo es realmente desconocido (falta de información sobre el número de multas por exceso de velocidad) o si representa datos inexistentes (falta de información sobre las multas por exceso de velocidad como pasajero de autobús). ¿Los datos son lo suficientemente fiables como para que la falta de información se pueda tomar como datos inexistentes en lugar de datos que faltan? Cuando se aplica la experiencia en la materia, los valores nulos pueden ser significativos.
Centrándonos de nuevo en la tabla de Abcs, podemos analizar los espacios sin marcadores de posición. Asumiremos que estos datos son fiables y que un valor nulo significa que los datos son inexistentes en lugar de incompletos.
La falta de un marcador de posición significa que un autor nació ese año (por lo que existe la fila), y se publicó un libro ese año (por lo que existe la columna), pero el libro publicado no lo escribió un autor nacido en ese año (por lo que la celda está vacía). Podemos asignar una etiqueta a ese espacio vacío de manera significativa: Nada publicado. Incluso podríamos hacer un análisis de esos valores vacíos; por ejemplo, de acuerdo a las fechas presentes en los datos, ¿cuántos años pasó cada autor sin publicar un libro?
Nota: También hay huecos vacíos en el dominio de cumpleaños. No nació ningún autor en 2131 ni en 2132, por lo que el año va de 2130 a 2133 (las filas 2131 y 2132 no existen). Estos años inexistentes pueden interpretarse como "no hay ningún libro en este conjunto de datos escrito por autores nacidos en esos años". Sin embargo, como se ha señalado anteriormente al hablar sobre el dominio de los campos de fecha, el hecho de que falten valores en el dominio es una información que se debe tener en cuenta a la hora de crear relaciones o elegir qué campo utilizar en un encabezado o qué eje usar en una visualización.
Para obtener más información sobre cómo trabajar con valores nulos en las relaciones, consulte esta publicación de blog(El enlace se abre en una ventana nueva).
Ejercicios prácticos
Escriba un título para cada visualización. ¿Puede describir de forma breve lo que está sucediendo? Descargue el libro de trabajo para explorar las visualizaciones en tiempo real. Este libro de trabajo utiliza una versión modificada del El conjunto de datos Librería y solo usa dos tablas. Los campos de fecha se han ajustado para que se puedan utilizar como el campo relacionado.
Cómo leer la matriz de las visualizaciones:
- Las barras muestran el número de ediciones (morado) y el número de premios (verde) por año.
- Cada columna tiene un campo de fecha diferente en el eje. La columna de la izquierda es Año de publicación de la tabla Edición, la columna central es Año ganado de la tabla Premio y la columna de la derecha es un campo calculado que usó la fecha de publicación, pero si ese campo es nulo usa Año ganado (este cálculo se usa para asegurarse de que ambos dominios estén totalmente representados).
- Cada fila es una relación diferente de cómo se combinan la tabla Premio y Edición. La fila superior relaciona las tablas en el ID de libro, la fila central las relaciona en el año y la fila inferior las relaciona en el ID de libro y el año.
- Las barras del año 2183 son más gruesas para facilitar la comparación. En la siguiente solución, ese es el año cuyos valores se analizan en detalle.
- Tenga en cuenta que las dos visualizacions que están sombreadas tienen valores idénticos.
Si se queda atascado
Revise cada parte de la visualización paso a paso. Observe la estructura de la fuente de datos, el eje y los encabezados, así como los campos utilizados para las marcas (y de qué tablas proceden). Piense en los valores nulos y por qué podrían estar allí. Vea los datos de una o dos marcas para ver qué registros contiene.
- La fuente de datos es Premios, relacionada con Ediciones en ID de libro.
- El eje de fecha es Año de publicación
- Los valores son Recuento de premios y Recuento de ediciones.
Trate de elegir una sola marca en la visualización y defínala. Para el año 2183, la visualización muestra que hay siete ediciones y tres premios. Use Ver datos subyacentes para examinar qué registros se representan en cada marca.
Ediciones
Premios
Juntos, esto puede interpretarse como "devolver los siete libros publicados en 2183 y, después, catalogar cualquier premio que ganaron independientemente de cuándo ganaron el premio". TM925 se publicó originalmente en 2179 y la edición de tapa dura ganó dos premios en ese año. En 2183, se publicó una edición diferente del libro, tal vez en tapa blanda. El valor de Recuento de premios está ligado al libro, no al año.
Así que la visualización en general podría interpretarse como "el número de ediciones publicadas cada año, y cuántos premios ganaron los libros publicados en ese año" o "el número de ediciones publicadas cada año y el número de premios que ganaron esos libros".
El año 2183 (las barras más gruesas) es el año en el que nos centramos para realizar la interpretación. La información sobre las ediciones aparece en color morado y la información sobre los premios está en verde. El año 2187 también aparece en las descripciones porque es un año en el que no se ganaron premios, pero se publicaron libros. Como tal, es un buen ejemplo para ilustrar qué campo de fecha se utiliza en el eje. Este matiz se aborda en azul en la descripción. La importancia de los campos utilizados para establecer la relación se muestra en rosa.
Este objeto visual se proporciona para su comodidad, pero puede que sea mejor descargar el libro de trabajo y abrirlo en Tableau Desktop 2020.2 o una versión posterior para que pueda hacer uso de la interactividad; por ejemplo, de las descripciones emergentes y la opción Ver datos. Si prefiere examinar las hojas de cálculo más de cerca, puede hacer clic con el botón derecho en cualquiera de las pestañas del dashboard en la parte inferior y elegir la opción Mostrar todas las hojas de cálculo. Esto hará que todas las visualizaciones individuales estén disponibles, y desde cada hoja podrá ver el panel Datos y el entorno de creación, incluidos los campos en los que se encuentran los estantes. Tenga en cuenta que para lograr tres relaciones diferentes (las filas de la matriz anterior), hay tres fuentes de datos diferentes.
Recursos relacionados
¿Se siente un poco abrumado y quiere retroceder un paso? Consulte Las relaciones no deben asustarle.
¿Listo para abordar los cálculos con las relaciones? Consulte Los cálculos en las relaciones no deben asustarle.
Para obtener más información sobre los fundamentos técnicos de las relaciones directamente de la mano del equipo de gestión de productos, consulte la serie sobre relaciones en el blog de Tableau.
- Relaciones, parte 1: introducción al nuevo modelado de datos en Tableau(El enlace se abre en una ventana nueva)
- Relaciones, parte 2: consejos y trucos(El enlace se abre en una ventana nueva)
- Relaciones, parte 3: hacer preguntas en varias tablas relacionadas(El enlace se abre en una ventana nueva)
Vea también podcasts de vídeo sobre relaciones de Action Analytics(El enlace se abre en una ventana nueva), como Why did Tableau Invent Relationships?(El enlace se abre en una ventana nueva) Haga clic en "Video Podcast" en Library(El enlace se abre en una ventana nueva) para ver más.