O conjunto de dados Bookshop
O conjunto de dados Bookshop foi criado para o Tableau Desktop 2020.2 para mostrar relações — os novos recursos de modelagem de dados para combinar dados.
Baixar os arquivos
Você pode optar por baixar os dados brutos e começar do zero construindo seu próprio modelo de dados ou baixar uma das fontes de dados pré-criadas para entrar em análise com as relações.
- Dados brutos (xlsx)
- Bookshop.xlsx - os dados brutos como um arquivo .xlsx
- BookshopLibraries.xlsx - tabelas adicionais de biblioteca que introduzem relações de muitos para muitos (contém somente tabelas de biblioteca adicionais)
- Arquivos de fonte de dados em pacote (tdsx)
- Bookshop.tdsx - um arquivo .tdsx compactado com a fonte de dados relacionada já criada e algumas personalizações de metadados adicionadas
- MinimalBookshop.tdsx - as mesmas tabelas do bookshop.tdsx, mas sem qualquer metadados ou limpeza
- Bookshop_libraries.tdsx - um arquivo .tdsx em pacote que adiciona as tabelas da biblioteca ao Bookshop.tdsx (inclui todas as tabelas).
Para se conectar a um .tdsx baixado
- Abra o Tableau Desktop.
- No painel Conectar à esquerda, escolha a opção Mais... no cabeçalho Para um arquivo.
- Navegue até onde você baixou o .tdsx e clique duas vezes nele (ou selecione-o e clique em Abrir).
Sobre o conjunto de dados
O Bookshop consiste em 13 tabelas, combinadas da seguinte forma:
Observação: um conceito central para esse conjunto de dados é a ideia de um livro versus uma edição. Um livro é um conceito com atributos, como autor, título e gênero. Uma edição é uma versão física do livro com atributos, como formato (capa dura, brochura), data de publicação e contagem de páginas.
Dicionário de dados
Alguns campos podem precisar de uma pequena explicação.
- O campo Classificação na tabela Classificações está em uma escala de 1-5, com 5 sendo alto.
- O campo Formato é uma análise detalhada do formato. Tudo diferente de "Capa dura" pode ser considerado como "Brochura".
- ISBN (International Standard Book Number) é o número de livro de padrão internacional. É um identificador único de 13 dígitos dado a cada edição de um livro. O ISBN é representado no código de barras e está atrelado ao preço.
- Os campos ItemID e OrderID são hierárquicos. Um pedido pode conter vários itens.
- O campo Comentário da equipe contém resumos e revisões de alguns livros.
Se você criar sua própria fonte de dados
- As tabelas Publicador e Vendas devem estar relacionadas à tabela Edição.
- As tabelas Livro e Informação podem estar relacionadas ou com uniões de colunas, mas devem estar no cálculo
BookID = [BookID1]+[BookID2]
.- Uma união de colunas interna é sugerida.
- A tabela Série só poderá ser usada quando a tabela Informação fizer parte da fonte de dados.
- É recomendável renomear a tabela lógica do Livro junto com o "Livro" de informações ou algo semelhante.
- As tabelas Vendas podem ser analisadas independentemente; porém, caso tenham a união de linhas, é recomendável renomear as "Vendas” da união de linhas ou algo semelhante.
- A maioria dos campos usados para formar relações não é necessária para análise e pode ficar oculta uma vez que o modelo de dados tenha sido construído
- Qualquer campo que termine com ID pode ficar oculto (os únicos campos "ID" que fazem isso são ReviewID e ReviewerID em Classificações, e ItemID e OrderID em Vendas).
- O ISBN deve ser mantido, idealmente na tabela Edição, como o identificador de cada edição. O campo ISBN na tabela Vendas com união de linhas pode ser escondido.
- O campo Título na tabela Prêmio pode ficar oculto.
- Os campos da planilha e da tabela na União de linhas também não contêm informações exclusivas e podem ficar ocultos.
- Para simplificar o modelo de dados, as tabelas principais são Livro, Autor e Edição. As tabelas mais fáceis de omitir com impacto mínimo seriam Verificações e Classificações, seguidas por Prêmio, Publicador, Vendas ou Informação e Série.
Bibliotecas de livrarias
O arquivo BookshopLibraries.xlsx apresenta novas tabelas de bibliotecas, com o propósito de aceitar relações de muitos para muitos. A tabela Catálogo está relacionada à tabela Edições no ISBN. A tabela Perfis de biblioteca está relacionada à tabela Catálogo como uma relação de muitos para muitos (n:n) em LibraryID.
Dicionário de dados
Perfil da biblioteca
- O campo Biblioteca é o nome da biblioteca.
- O campo ID da biblioteca é uma ID também usada na tabela Catálogo.
- Membro do consórcio é um campo de sim/não que indica se a biblioteca faz parte da maior rede de bibliotecas que oferecem empréstimos entre as bibliotecas e compartilham outros serviços
- Privado é um campo de sim/não que indica se esta é uma biblioteca somente para membros ou uma instituição pública
- Tipo de equipe e Número de funcionários juntos descrevem quantos bibliotecários, assistentes de biblioteca e técnicos de biblioteca trabalham para cada biblioteca.
Catálogo
- LoanID é um identificador exclusivo para a combinação de ISBN e biblioteca, usado para rastrear o Número de cópias de uma biblioteca. Por exemplo, se a Biblioteca de hora ociosa tiver duas cópias de brochura e uma cópia em capa dura de um título, haverá dois IDs de empréstimo.
- O campo ID da biblioteca é uma ID também usada na tabela Perfil da biblioteca.
A tabela Perfil da biblioteca foi originalmente formatada como uma tabela não dinâmica, com uma coluna para cada tipo de funcionário, abaixo.
Biblioteca | ID da biblioteca | Membro do consórcio | Privada | Bibliotecários | Técnicos da biblioteca | Assistentes da biblioteca |
Biblioteca de hora ociosa | L-IHL | Sim | Não | 53 | 61 | 16 |
The Bibliophile’s Shelves | L-BS | Sim | Sim | 4 | 3 | 0 |
Armchair Athanaeum | L-AA | Não | Sim | 6 | 0 | 0 |
Old Friend Library | L-OFL | Sim | Não | 3 | 5 | 17 |
Bide Awhile | L-BA | Sim | Não | 9 | 20 | 6 |
IndieUnBound | L-IUB | Sim | Não | 7 | 2 | 47 |
Page Station Book Exchange | L-PS | Não | Sim | 3 | 1 | 4 |
A tabela era dinâmica nas colunas Bibliotecários, Técnicos da biblioteca e Assistentes da biblioteca. O formato final tem uma coluna para Tipo de equipe e uma coluna para Número de funcionários. No entanto, isso significa que há mais de uma linha para cada biblioteca. Portanto, os valores de ID da biblioteca não são únicos, e a versão dinâmica da tabela deve estar relacionada a muitos para muitos na tabela Catálogo.
Embora isso tenha a vantagem de permitir uma relação de muitos para um entre Catálogo e Perfil, não é uma estrutura para análise de dados(O link abre em nova janela) ideal.
Explorar
Este conjunto de dados, embora fictício, é compatível com vários cenários analíticos e muita exploração. Estas são algumas sugestões:
- Quais são os livros mais populares? O menos popular? Isso é baseado em vendas, revisões, verificações ou outra métrica?
- Quem foi o mais jovem autor de estréia? Quem foi o mais velho?
- Alguma editora parece se especializar de alguma forma?
- Qual foi o maior tempo entre as edições do mesmo livro?
- Há alguma tendência sazonal para as vendas? E as verificações? Algum título ou gênero tem flutuações sazonais?
- Existem correlações entre verificações, tamanho de execução de impressão, classificações de revisão de livros e volume de vendas?
- Os autores que passam mais tempo escrevendo têm os livros de maior sucesso? Eles têm a maior contagem de páginas?
- Quando a maioria dos livros são publicados? Há alguma anomalia?
- Existem tendências de gênero, formato e preço?
- Que tipo de distribuições as classificações têm? Essas distribuições variam de acordo com o livro? Por gênero? Eles parecem estar alinhados com os prêmios?
- Como você calcularia o preço de venda, dado que às vezes há, mas nem sempre, um desconto dado no momento da venda?
- As vendas aproximam o princípio de Pareto?
- Há algum padrão nos descontos?
- Alguma tabela em particular parece ter dados sujos?
- Etaoin Shrdlu é uma referência a máquinas do tipo linotype hot. Palimpsesto é uma referência à criação de manuscritos.
- Os nomes dos autores foram derivados de uma lista de autores famosos americanos com seus nomes e sobrenomes aleatórios.
- As datas de publicação de hoje são geralmente às terças-feiras. Isso se refletiu nos dados, que assumem que esse padrão do setor se mantém até o ano de 2178.
- Um livro não tem revisões, verificações ou vendas.
- Os dados de Verificações são baseados em dados reais de biblioteca, com BookIDs mapeados para títulos, por isso, as tendências de verificação são reais.
- Os dados de Classificações são baseados em dados reais de classificação de livros, com BookIDs mapeados para títulos, por isso, a distribuição de classificações de um determinado livro é real.
- A proporção de vendas que são para um único livro versus vários livros é baseada em dados reais de uma livraria independente.
- Os dados de Vendas são completamente gerados, mas baseiam-se nas reais tendências sazonais e dos dias da semana em uma cidade turística com uma economia baseada no turismo (proporcionalmente por mês e dia da semana, e nas férias de primavera e feriados de inverno).
- As vendas aumentam nos fins de semana longos e nas férias de primavera.
- As vendas são muito mais altas nos finais de semana e muito baixas nas terças e quintas-feiras.
- A alta temporada é o verão entre o dia 4 de julho e o dia do trabalho.
- As vendas aumentam imediatamente após o Dia de Ação de Graças e nas semanas que antecedem o Natal.
- Os ISBNs no conjunto de dados são fictícios, mas construídos seguindo os princípios do ISBN-13:
- EAN — 989 (não está em uso)
- Número do grupo — 28
- Elemento do inscrito do Publicador — tamanho variável (2-4 dígitos)
- Elemento de título, tamanho variável (3-5 dígitos, dependendo do tamanho do elemento do inscrito)
- Dígito de verificação, criado com o cálculo aritmético modular do dígito de verificação ISBN-13
- Um dos desenvolvedores que trabalham neste recurso sugeriu um livro sem edições e o título The Deep Grey, então seu BookID termina com os últimos três dígitos de seu número de telefone comercial.
- Há um erro (intencional) na tabela Edição, onde duas edições do BookID PA169 foram rotuladas como Palimpsest Printing, mas o ISBN indica que foram realmente impressas pela Etaoin Shrdlu Press.
A pessoa que criou esse conjunto de dados se divertiu muito fazendo isso, e claramente tem uma profunda obsessão por livros. Ela espera que você goste do conjunto de dados e isso ajuda você a apreciar o poder, a elegância e a beleza das relações no Tableau.