El conjunto de datos Librería
El conjunto de datos Librería se creó en Tableau Desktop 2020.2 para mostrar las relaciones: las nuevas funcionalidades de modelado de datos para combinar datos.
Descargar los archivos
Puede optar por descargar los datos sin procesar y empezar desde cero creando su propio modelo de datos, o descargar una de las fuentes de datos prediseñadas para ir directamente al análisis con las relaciones.
- Datos sin procesar (xlsx)
- Bookshop.xlsx: datos sin procesar en un archivo .xlsx
- BookshopLibraries.xlsx: Tablas de biblioteca adicionales que introducen relaciones de varios a varios (solo contiene las tablas de biblioteca adicionales)
- Archivos de fuente de datos empaquetada (tdsx)
- Bookshop.tdsx: archivo .tdsx empaquetado con la fuente de datos relacionada actual y algunas personalizaciones de metadatos agregadas
- MinimalBookshop.tdsx: las mismas tablas que Bookshop.tdsx pero sin metadatos ni limpieza
- Bookshop_libraries.tdsx: un archivo .tdsx empaquetado que agrega las tablas de biblioteca a Bookshop.tdsx (incluye todas las tablas).
Para conectarse a un .tdsx descargado
- Abra Tableau Desktop.
- En el panel Conectar de la izquierda, seleccione la opción Más... bajo el encabezado A un archivo.
- Vaya a la carpeta donde descargó el .tdsx y haga doble clic en el archivo (o selecciónelo y, a continuación, haga clic en Abrir).
Acerca del conjunto de datos
Librería consta de 13 tablas, combinadas de la siguiente manera:
Nota: Un concepto esencial para este conjunto de datos es la idea de un libro frente a una edición. Un libro es un concepto con atributos como autor, título y género. Una edición es una versión física del libro, con atributos como el formato (tapa dura, tapa blanda), la fecha de publicación y el recuento de páginas.
Diccionario de datos
Algunos campos pueden necesitar una pequeña explicación.
- El campo Calificación de la tabla Calificaciones está en una escala de 1-5, con 5 como el valor más alto.
- El campo Formato es un desglose detallado del formato. Todo lo que no sea "Tapa dura" podría considerarse "Tapa blanda".
- El ISBN es el número de libro estándar internacional y es un identificador único de 13 dígitos dado a cada edición de un libro. El ISBN aparece en el código de barras y está vinculado al precio.
- Los campos ItemID y OrderID son jerárquicos. Un pedido puede contener varios artículos.
- El campo Comentario del personal contiene resúmenes y reseñas de algunos de los libros.
Si crea su propia fuente de datos
- Las tablas Editor y Ventas deben estar relacionadas con la tabla Edición.
- Las tablas Libro e Información pueden relacionarse o unirse, pero debe hacerse en el cálculo
BookID = [BookID1]+[BookID2]
.- Conviene hacer una unión interna.
- La tabla Serie solo se puede utilizar una vez que la tabla Info forma parte de la fuente de datos.
- Recomendamos cambiar el nombre de la tabla lógica de Libro unida a Info "Libro" o algo similar.
- Las cuatro tablas de Ventas se pueden analizar de forma independiente, pero si están unidas, recomendamos cambiar el nombre de la unión a "Ventas" o algo similar.
- La mayoría de los campos utilizados para formar relaciones no son necesarios para el análisis y se pueden ocultar una vez que se ha creado el modelo de datos
- Cualquier campo que termine con ID se puede ocultar (los únicos campos "ID" que sí lo permiten son ReviewID y ReviewerID de Calificación y ItemID y OrderID de Ventas).
- ISBN debe mantenerse, idealmente desde la tabla Edición, como identificador de cada edición. El campo ISBN de la tabla Ventas unida se puede ocultar.
- El campo Título de la tabla Premios se puede ocultar.
- Los campos de hoja y tabla de la unión tampoco contienen información única y se pueden ocultar.
- Para simplificar el modelo de datos, las tablas principales son Libro, Autor y Edición. Las tablas más fáciles de dejar fuera con un impacto mínimo serían Compras finalizadas y Valoraciones, seguidos de Premios, Publicador, Ventas o Info y Series.
Librerías
El archivo BookshopLibraries.xlsx presenta nuevas tablas alrededor de las bibliotecas con el fin de admitir relaciones de varios a varios. La tabla Catálogo se relaciona con la tabla Edición de ISBN. La tabla Perfiles de biblioteca se relaciona con la tabla Catálogo como una relación de varios a varios (n:n) en el ID de biblioteca.
Diccionario de datos
Perfil de la biblioteca
- El campo Biblioteca es el nombre de la biblioteca.
- El campo ID de biblioteca es un ID que también se utiliza en la tabla Catálogo.
- El campo Miembro del consorcio es un campo de tipo sí/no que indica si la biblioteca forma parte de una red más grande de bibliotecas que ofrecen préstamos entre bibliotecas y comparten otros servicios
- El campo Privado es un campo de tipo sí/no que indica si se trata de una biblioteca solo para miembros o una institución pública
- El tipo de personal y el número de personal describen conjuntamente cuántos bibliotecarios, asistentes de biblioteca y técnicos de biblioteca trabajan en cada biblioteca.
Catálogo
- El ID de préstamo es un identificador único que resulta de la combinación del ISBN y la biblioteca, y que se utiliza para realizar un seguimiento del Número de copias que tiene una biblioteca. Por ejemplo, si la biblioteca "Idle Hour Library" tiene dos copias en papel y una copia en tapa dura de un título, habrá dos IDs de préstamo.
- El campo ID de biblioteca es un ID que también se utiliza en la tabla Perfil de biblioteca.
La tabla Perfil de biblioteca se formateó originalmente como una tabla dinámica deshecha con una columna para cada tipo de personal, tal y como se muestra a continuación.
Biblioteca | ID de biblioteca | Miembro del consorcio | Privado | Bibliotecarios | Técnicos de biblioteca | Asistentes de biblioteca |
Idle Hour Library | L-IHL | Sí | No | 53 | 61 | 16 |
The Bibliophile’s Shelves | L-BS | Sí | Sí | 4 | 3 | 0 |
Armchair Athanaeum | L-AA | No | Sí | 6 | 0 | 0 |
Old Friend Library | L-OFL | Sí | No | 3 | 5 | 17 |
Bide Awhile | L-BA | Sí | No | 9 | 20 | 6 |
IndieUnBound | L-IUB | Sí | No | 7 | 2 | 47 |
Page Station Book Exchange | L-PS | No | Sí | 3 | 1 | 4 |
Se creó una tabla dinámica para las columnas Bibliotecarios, Técnicos de biblioteca y Asistentes de biblioteca. El formato final tiene una columna para Tipo de personal y otra para Número de personal. Sin embargo, esto significa que hay más de una fila en cada biblioteca. Por lo tanto, los valores de ID de biblioteca no son únicos y la versión dinámica de la tabla debe estar relacionada de varios a varios con la tabla Catálogo.
Aunque esto tiene la ventaja de permitir una relación de varios a uno entre Catálogo y Perfil, no es una estructura ideal para el análisis de datos(El enlace se abre en una ventana nueva).
Explorar
Este conjunto de datos, aunque ficticio, admite varios escenarios analíticos y permite explorar en profundidad. Algunas sugerencias incluyen:
- ¿Qué libros son los más populares? ¿El menos popular? ¿Se basa en ventas, opiniones, pagos u otra métrica?
- ¿Quién fue el autor más joven en debutar? ¿Quién fue el más mayor?
- ¿Algunas editoriales parecen especializarse de alguna manera?
- ¿Cuál fue el tiempo más largo entre ediciones del mismo libro?
- ¿Existen tendencias estacionales de ventas? ¿Qué hay de las finalizaciones de compra? ¿Hay títulos o géneros que tengan fluctuaciones estacionales?
- ¿Hay alguna correlación entre las compras finalizadas, el tamaño de las tiradas de impresión, las calificaciones y reseñas de los libros y el volumen de ventas?
- ¿Los autores que pasan más tiempo escribiendo tienen los libros más exitosos? ¿Tienen el recuento de páginas más alto?
- ¿Cuándo se publican la mayoría de los libros? ¿Hay alguna anomalía?
- ¿Hay alguna tendencia de género, formato y precio?
- ¿Qué tipo de distribuciones tienen las calificaciones? ¿Esas distribuciones varían según el libro? ¿Por género? ¿Parecen alinearse con los premios?
- ¿Cómo calcularía el precio de venta, dado que a veces, pero no siempre, se da un descuento en el momento de la venta?
- ¿Las ventas se aproximan al principio de Pareto?
- ¿Hay algún patrón en los descuentos?
- ¿Alguna tabla en particular parece tener datos sucios?
- Etaoin Shrdlu es una referencia a las linotipias. Palimpsest es una referencia de fabricación de manuscritos.
- Los nombres de los autores se derivaron de una lista de autores estadounidenses famosos con sus nombres y apellidos.
- Las fechas de publicación de hoy suelen ser los martes. Esto se reflejó en los datos, que suponen que este estándar de la industria se mantiene hasta el año 2178.
- Un libro no tiene reseñas, compras finalizadas ni ventas.
- Los datos de compras finalizadas se basan en datos reales de la librería, con los identificadores BookID asignados a títulos, por lo que las tendencias de compras finalizadas son reales.
- Los datos de calificaciones se basan en los datos reales de calificación de libros, con identificadores BookID asignados a títulos, por lo que la distribución de las calificaciones de un libro determinado es real.
- La proporción de ventas de un solo libro frente a varios libros se basa en datos del mundo real de una librería independiente.
- Los datos de ventas con completamente inventados, pero se basan en las tendencias reales estacionales y de lunes a viernes para una ciudad con una economía basada en el turismo (proporcionalmente por mes y día de la semana y para las vacaciones de primavera y las vacaciones de invierno).
- Las ventas aumentan en fines de semana largos y vacaciones de primavera.
- Las ventas son mucho más altas los fines de semana y alcanzan su nivel más bajo los martes y jueves.
- La temporada alta es el verano, entre el 4 de julio y el Día del Trabajo en EE. UU.
- Las ventas aumentan inmediatamente después del Día de Acción de Gracias y en las semanas previas a Navidad.
- Los ISBN del conjunto de datos son ficticios pero se construyen siguiendo los principios ISBN-13:
- EAN: 989 (no se usa)
- Número de grupo: 28
- Elemento del registrador del editor: longitud variable (2-4 dígitos)
- Elemento de título, longitud variable (3-5 dígitos, dependiendo de la longitud del elemento de registro)
- Dígito de verificación, creado con el cálculo aritmético modular de dígitos de verificación ISBN-13
- Uno de los desarrolladores que trabajan en esta funcionalidad sugirió un libro sin ediciones, y el título The Deep Grey , por lo que su BookID termina con los últimos tres dígitos de su número de teléfono de trabajo.
- Hay un error (intencional) en la tabla Edición, donde dos ediciones de BookID PA169 tienen la etiqueta Palimpsest Printing, pero el ISBN indica que en realidad fue Etaoin Shrdlu Press quien las imprimió.
La persona que creó este conjunto de datos se divirtió demasiado haciéndolo y claramente tiene una profunda obsesión con los libros. Espera que disfrute del conjunto de datos y que le ayude a apreciar la potencia, la elegancia y la belleza de las relaciones en Tableau.