O conjunto de dados Bookshop
O conjunto de dados Bookshop foi criado para o Tableau Desktop 2020.2 para mostrar relações — os novos recursos de modelagem de dados para combinar dados.
Baixar os arquivos
Você pode optar por baixar os dados brutos e começar do zero construindo seu próprio modelo de dados ou baixar uma das fontes de dados pré-criadas para entrar em análise com as relações.
- Dados brutos (xlsx)
- Bookshop.xlsx - os dados brutos como um arquivo .xlsx
- BookshopLibraries.xlsx - tabelas adicionais de biblioteca que introduzem relações de muitos para muitos (contém somente tabelas de biblioteca adicionais)
- Arquivos de fonte de dados em pacote (tdsx)
- Bookshop.tdsx - um arquivo .tdsx compactado com a fonte de dados relacionada já criada e algumas personalizações de metadados adicionadas
- MinimalBookshop.tdsx - as mesmas tabelas do bookshop.tdsx, mas sem qualquer metadados ou limpeza
- Bookshop_libraries.tdsx - um arquivo .tdsx em pacote que adiciona as tabelas da biblioteca ao Bookshop.tdsx (inclui todas as tabelas).
Para se conectar a um .tdsx baixado
- Abra o Tableau Desktop.
- No painel Conectar à esquerda, escolha a opção Mais... no cabeçalho Para um arquivo.
- Navegue até onde você baixou o .tdsx e clique duas vezes nele (ou selecione-o e clique em Abrir).
Sobre o conjunto de dados
O Bookshop consiste em 13 tabelas, combinadas da seguinte forma:
Observação: um conceito central para esse conjunto de dados é a ideia de um livro versus uma edição. Um livro é um conceito com atributos, como autor, título e gênero. Uma edição é uma versão física do livro com atributos, como formato (capa dura, brochura), data de publicação e contagem de páginas.
Dicionário de dados
Alguns campos podem precisar de uma pequena explicação.
- O campo Classificação na tabela Classificações está em uma escala de 1-5, com 5 sendo alto.
- O campo Formato é uma análise detalhada do formato. Tudo diferente de "Capa dura" pode ser considerado como "Brochura".
- ISBN (International Standard Book Number) é o número de livro de padrão internacional. É um identificador único de 13 dígitos dado a cada edição de um livro. O ISBN é representado no código de barras e está atrelado ao preço.
- Os campos ItemID e OrderID são hierárquicos. Um pedido pode conter vários itens.
- O campo Comentário da equipe contém resumos e revisões de alguns livros.
Se você criar sua própria fonte de dados
- As tabelas Publicador e Vendas devem estar relacionadas à tabela Edição.
- As tabelas Livro e Informação podem estar relacionadas ou com uniões de colunas, mas devem estar no cálculo
BookID = [BookID1]+[BookID2]
.- Uma união de colunas interna é sugerida.
- A tabela Série só poderá ser usada quando a tabela Informação fizer parte da fonte de dados.
- É recomendável renomear a tabela lógica do Livro junto com o "Livro" de informações ou algo semelhante.
- As tabelas Vendas podem ser analisadas independentemente; porém, caso tenham a união de linhas, é recomendável renomear as "Vendas” da união de linhas ou algo semelhante.
- A maioria dos campos usados para formar relações não é necessária para análise e pode ficar oculta uma vez que o modelo de dados tenha sido construído
- Qualquer campo que termine com ID pode ficar oculto (os únicos campos "ID" que fazem isso são ReviewID e ReviewerID em Classificações, e ItemID e OrderID em Vendas).
- O ISBN deve ser mantido, idealmente na tabela Edição, como o identificador de cada edição. O campo ISBN na tabela Vendas com união de linhas pode ser escondido.
- O campo Título na tabela Prêmio pode ficar oculto.
- Os campos da planilha e da tabela na União de linhas também não contêm informações exclusivas e podem ficar ocultos.
- Para simplificar o modelo de dados, as tabelas principais são Livro, Autor e Edição. As tabelas mais fáceis de omitir com impacto mínimo seriam Verificações e Classificações, seguidas por Prêmio, Publicador, Vendas ou Informação e Série.
Bibliotecas de livrarias
O arquivo BookshopLibraries.xlsx apresenta novas tabelas de bibliotecas, com o propósito de aceitar relações de muitos para muitos. A tabela Catálogo está relacionada à tabela Edições no ISBN. A tabela Perfis de biblioteca está relacionada à tabela Catálogo como uma relação de muitos para muitos (n:n) em LibraryID.
Dicionário de dados
Perfil da biblioteca
- O campo Biblioteca é o nome da biblioteca.
- O campo ID da biblioteca é uma ID também usada na tabela Catálogo.
- Membro do consórcio é um campo de sim/não que indica se a biblioteca faz parte da maior rede de bibliotecas que oferecem empréstimos entre as bibliotecas e compartilham outros serviços
- Privado é um campo de sim/não que indica se esta é uma biblioteca somente para membros ou uma instituição pública
- Tipo de equipe e Número de funcionários juntos descrevem quantos bibliotecários, assistentes de biblioteca e técnicos de biblioteca trabalham para cada biblioteca.
Catálogo
- LoanID é um identificador exclusivo para a combinação de ISBN e biblioteca, usado para rastrear o Número de cópias de uma biblioteca. Por exemplo, se a Biblioteca de hora ociosa tiver duas cópias de brochura e uma cópia em capa dura de um título, haverá dois IDs de empréstimo.
- O campo ID da biblioteca é uma ID também usada na tabela Perfil da biblioteca.
Explorar
Este conjunto de dados, embora fictício, é compatível com vários cenários analíticos e muita exploração. Estas são algumas sugestões:
- Quais são os livros mais populares? O menos popular? Isso é baseado em vendas, revisões, verificações ou outra métrica?
- Quem foi o mais jovem autor de estréia? Quem foi o mais velho?
- Alguma editora parece se especializar de alguma forma?
- Qual foi o maior tempo entre as edições do mesmo livro?
- Há alguma tendência sazonal para as vendas? E as verificações? Algum título ou gênero tem flutuações sazonais?
- Existem correlações entre verificações, tamanho de execução de impressão, classificações de revisão de livros e volume de vendas?
- Os autores que passam mais tempo escrevendo têm os livros de maior sucesso? Eles têm a maior contagem de páginas?
- Quando a maioria dos livros são publicados? Há alguma anomalia?
- Existem tendências de gênero, formato e preço?
- Que tipo de distribuições as classificações têm? Essas distribuições variam de acordo com o livro? Por gênero? Eles parecem estar alinhados com os prêmios?
- Como você calcularia o preço de venda, dado que às vezes há, mas nem sempre, um desconto dado no momento da venda?
- As vendas aproximam o princípio de Pareto?
- Há algum padrão nos descontos?
- Alguma tabela em particular parece ter dados sujos?