El conjunto de datos Librería
El conjunto de datos Librería se creó en Tableau Desktop 2020.2 para mostrar las relaciones: las nuevas funcionalidades de modelado de datos para combinar datos.
Descargar los archivos
Puede optar por descargar los datos sin procesar y empezar desde cero creando su propio modelo de datos, o descargar una de las fuentes de datos prediseñadas para ir directamente al análisis con las relaciones.
- Datos sin procesar (xlsx)
- Bookshop.xlsx: datos sin procesar en un archivo .xlsx
- BookshopLibraries.xlsx: Tablas de biblioteca adicionales que introducen relaciones de varios a varios (solo contiene las tablas de biblioteca adicionales)
- Archivos de fuente de datos empaquetada (tdsx)
- Bookshop.tdsx: archivo .tdsx empaquetado con la fuente de datos relacionada actual y algunas personalizaciones de metadatos agregadas
- MinimalBookshop.tdsx: las mismas tablas que Bookshop.tdsx pero sin metadatos ni limpieza
- Bookshop_libraries.tdsx: un archivo .tdsx empaquetado que agrega las tablas de biblioteca a Bookshop.tdsx (incluye todas las tablas).
Para conectarse a un .tdsx descargado
- Abra Tableau Desktop.
- En el panel Conectar de la izquierda, seleccione la opción Más... bajo el encabezado A un archivo.
- Vaya a la carpeta donde descargó el .tdsx y haga doble clic en el archivo (o selecciónelo y, a continuación, haga clic en Abrir).
Acerca del conjunto de datos
Librería consta de 13 tablas, combinadas de la siguiente manera:
Nota: Un concepto esencial para este conjunto de datos es la idea de un libro frente a una edición. Un libro es un concepto con atributos como autor, título y género. Una edición es una versión física del libro, con atributos como el formato (tapa dura, tapa blanda), la fecha de publicación y el recuento de páginas.
Diccionario de datos
Algunos campos pueden necesitar una pequeña explicación.
- El campo Calificación de la tabla Calificaciones está en una escala de 1-5, con 5 como el valor más alto.
- El campo Formato es un desglose detallado del formato. Todo lo que no sea "Tapa dura" podría considerarse "Tapa blanda".
- El ISBN es el número de libro estándar internacional y es un identificador único de 13 dígitos dado a cada edición de un libro. El ISBN aparece en el código de barras y está vinculado al precio.
- Los campos ItemID y OrderID son jerárquicos. Un pedido puede contener varios artículos.
- El campo Comentario del personal contiene resúmenes y reseñas de algunos de los libros.
Si crea su propia fuente de datos
- Las tablas Editor y Ventas deben estar relacionadas con la tabla Edición.
- Las tablas Libro e Información pueden relacionarse o unirse, pero debe hacerse en el cálculo
BookID = [BookID1]+[BookID2]
.- Conviene hacer una unión interna.
- La tabla Serie solo se puede utilizar una vez que la tabla Info forma parte de la fuente de datos.
- Recomendamos cambiar el nombre de la tabla lógica de Libro unida a Info "Libro" o algo similar.
- Las cuatro tablas de Ventas se pueden analizar de forma independiente, pero si están unidas, recomendamos cambiar el nombre de la unión a "Ventas" o algo similar.
- La mayoría de los campos utilizados para formar relaciones no son necesarios para el análisis y se pueden ocultar una vez que se ha creado el modelo de datos
- Cualquier campo que termine con ID se puede ocultar (los únicos campos "ID" que sí lo permiten son ReviewID y ReviewerID de Calificación y ItemID y OrderID de Ventas).
- ISBN debe mantenerse, idealmente desde la tabla Edición, como identificador de cada edición. El campo ISBN de la tabla Ventas unida se puede ocultar.
- El campo Título de la tabla Premios se puede ocultar.
- Los campos de hoja y tabla de la unión tampoco contienen información única y se pueden ocultar.
- Para simplificar el modelo de datos, las tablas principales son Libro, Autor y Edición. Las tablas más fáciles de dejar fuera con un impacto mínimo serían Compras finalizadas y Valoraciones, seguidos de Premios, Publicador, Ventas o Info y Series.
Librerías
El archivo BookshopLibraries.xlsx presenta nuevas tablas alrededor de las bibliotecas con el fin de admitir relaciones de varios a varios. La tabla Catálogo se relaciona con la tabla Edición de ISBN. La tabla Perfiles de biblioteca se relaciona con la tabla Catálogo como una relación de varios a varios (n:n) en el ID de biblioteca.
Diccionario de datos
Perfil de la biblioteca
- El campo Biblioteca es el nombre de la biblioteca.
- El campo ID de biblioteca es un ID que también se utiliza en la tabla Catálogo.
- El campo Miembro del consorcio es un campo de tipo sí/no que indica si la biblioteca forma parte de una red más grande de bibliotecas que ofrecen préstamos entre bibliotecas y comparten otros servicios
- El campo Privado es un campo de tipo sí/no que indica si se trata de una biblioteca solo para miembros o una institución pública
- El tipo de personal y el número de personal describen conjuntamente cuántos bibliotecarios, asistentes de biblioteca y técnicos de biblioteca trabajan en cada biblioteca.
Catálogo
- El ID de préstamo es un identificador único que resulta de la combinación del ISBN y la biblioteca, y que se utiliza para realizar un seguimiento del Número de copias que tiene una biblioteca. Por ejemplo, si la biblioteca "Idle Hour Library" tiene dos copias en papel y una copia en tapa dura de un título, habrá dos IDs de préstamo.
- El campo ID de biblioteca es un ID que también se utiliza en la tabla Perfil de biblioteca.
Explorar
Este conjunto de datos, aunque ficticio, admite varios escenarios analíticos y permite explorar en profundidad. Algunas sugerencias incluyen:
- ¿Qué libros son los más populares? ¿El menos popular? ¿Se basa en ventas, opiniones, pagos u otra métrica?
- ¿Quién fue el autor más joven en debutar? ¿Quién fue el más mayor?
- ¿Algunas editoriales parecen especializarse de alguna manera?
- ¿Cuál fue el tiempo más largo entre ediciones del mismo libro?
- ¿Existen tendencias estacionales de ventas? ¿Qué hay de las finalizaciones de compra? ¿Hay títulos o géneros que tengan fluctuaciones estacionales?
- ¿Hay alguna correlación entre las compras finalizadas, el tamaño de las tiradas de impresión, las calificaciones y reseñas de los libros y el volumen de ventas?
- ¿Los autores que pasan más tiempo escribiendo tienen los libros más exitosos? ¿Tienen el recuento de páginas más alto?
- ¿Cuándo se publican la mayoría de los libros? ¿Hay alguna anomalía?
- ¿Hay alguna tendencia de género, formato y precio?
- ¿Qué tipo de distribuciones tienen las calificaciones? ¿Esas distribuciones varían según el libro? ¿Por género? ¿Parecen alinearse con los premios?
- ¿Cómo calcularía el precio de venta, dado que a veces, pero no siempre, se da un descuento en el momento de la venta?
- ¿Las ventas se aproximan al principio de Pareto?
- ¿Hay algún patrón en los descuentos?
- ¿Alguna tabla en particular parece tener datos sucios?