O conjunto de dados Bookshop

O conjunto de dados Bookshop foi criado para o Tableau Desktop 2020.2 para mostrar relações — os novos recursos de modelagem de dados para combinar dados.

Baixar os arquivos

Você pode optar por baixar os dados brutos e começar do zero construindo seu próprio modelo de dados ou baixar uma das fontes de dados pré-criadas para entrar em análise com as relações.

  • Dados brutos (xlsx)
    • Bookshop.xlsx - os dados brutos como um arquivo .xlsx
    • BookshopLibraries.xlsx - tabelas adicionais de biblioteca que introduzem relações de muitos para muitos (contém somente tabelas de biblioteca adicionais)
  • Arquivos de fonte de dados em pacote (tdsx)
    • Bookshop.tdsx - um arquivo .tdsx compactado com a fonte de dados relacionada já criada e algumas personalizações de metadados adicionadas
    • MinimalBookshop.tdsx - as mesmas tabelas do bookshop.tdsx, mas sem qualquer metadados ou limpeza
    • Bookshop_libraries.tdsx - um arquivo .tdsx em pacote que adiciona as tabelas da biblioteca ao Bookshop.tdsx (inclui todas as tabelas).

Para se conectar a um .tdsx baixado

  1. Abra o Tableau Desktop.
  2. No painel Conectar à esquerda, escolha a opção Mais... no cabeçalho Para um arquivo.
  3. Navegue até onde você baixou o .tdsx e clique duas vezes nele (ou selecione-o e clique em Abrir).

Sobre o conjunto de dados

O Bookshop consiste em 13 tabelas, combinadas da seguinte forma:

Observação: um conceito central para esse conjunto de dados é a ideia de um livro versus uma edição. Um livro é um conceito com atributos, como autor, título e gênero. Uma edição é uma versão física do livro com atributos, como formato (capa dura, brochura), data de publicação e contagem de páginas.

Dicionário de dados

Alguns campos podem precisar de uma pequena explicação.

  • O campo Classificação na tabela Classificações está em uma escala de 1-5, com 5 sendo alto.
  • O campo Formato é uma análise detalhada do formato. Tudo diferente de "Capa dura" pode ser considerado como "Brochura".
  • ISBN (International Standard Book Number) é o número de livro de padrão internacional. É um identificador único de 13 dígitos dado a cada edição de um livro. O ISBN é representado no código de barras e está atrelado ao preço.
  • Os campos ItemID e OrderID são hierárquicos. Um pedido pode conter vários itens.
  • O campo Comentário da equipe contém resumos e revisões de alguns livros.

Se você criar sua própria fonte de dados

  1. As tabelas Publicador e Vendas devem estar relacionadas à tabela Edição.
  2.  As tabelas Livro e Informação podem estar relacionadas ou com uniões de colunas, mas devem estar no cálculo BookID = [BookID1]+[BookID2].
    • Uma união de colunas interna é sugerida.
    • A tabela Série só poderá ser usada quando a tabela Informação fizer parte da fonte de dados.
  • opcional:
    1. É recomendável renomear a tabela lógica do Livro junto com o "Livro" de informações ou algo semelhante.
    2. As tabelas Vendas podem ser analisadas independentemente; porém, caso tenham a união de linhas, é recomendável renomear as "Vendas” da união de linhas ou algo semelhante.
    3. A maioria dos campos usados para formar relações não é necessária para análise e pode ficar oculta uma vez que o modelo de dados tenha sido construído
      • Qualquer campo que termine com ID pode ficar oculto (os únicos campos "ID" que fazem isso são ReviewID e ReviewerID em Classificações, e ItemID e OrderID em Vendas).
      • O ISBN deve ser mantido, idealmente na tabela Edição, como o identificador de cada edição. O campo ISBN na tabela Vendas com união de linhas pode ser escondido.
      • O campo Título na tabela Prêmio pode ficar oculto.
      • Os campos da planilha e da tabela na União de linhas também não contêm informações exclusivas e podem ficar ocultos.
    4. Para simplificar o modelo de dados, as tabelas principais são Livro, Autor e Edição. As tabelas mais fáceis de omitir com impacto mínimo seriam Verificações e Classificações, seguidas por Prêmio, Publicador, Vendas ou Informação e Série.

    Bibliotecas de livrarias

    O arquivo BookshopLibraries.xlsx apresenta novas tabelas de bibliotecas, com o propósito de aceitar relações de muitos para muitos. A tabela Catálogo está relacionada à tabela Edições no ISBN. A tabela Perfis de biblioteca está relacionada à tabela Catálogo como uma relação de muitos para muitos (n:n) em LibraryID.

    Dicionário de dados

    Perfil da biblioteca

    • O campo Biblioteca é o nome da biblioteca.
    • O campo ID da biblioteca é uma ID também usada na tabela Catálogo.
    • Membro do consórcio é um campo de sim/não que indica se a biblioteca faz parte da maior rede de bibliotecas que oferecem empréstimos entre as bibliotecas e compartilham outros serviços
    • Privado é um campo de sim/não que indica se esta é uma biblioteca somente para membros ou uma instituição pública
    • Tipo de equipe e Número de funcionários juntos descrevem quantos bibliotecários, assistentes de biblioteca e técnicos de biblioteca trabalham para cada biblioteca.

    Catálogo

    • LoanID é um identificador exclusivo para a combinação de ISBN e biblioteca, usado para rastrear o Número de cópias de uma biblioteca. Por exemplo, se a Biblioteca de hora ociosa tiver duas cópias de brochura e uma cópia em capa dura de um título, haverá dois IDs de empréstimo.
    • O campo ID da biblioteca é uma ID também usada na tabela Perfil da biblioteca.
    Estrutura da tabela Perfil da biblioteca

    Explorar

    Este conjunto de dados, embora fictício, é compatível com vários cenários analíticos e muita exploração. Estas são algumas sugestões:

    • Quais são os livros mais populares? O menos popular? Isso é baseado em vendas, revisões, verificações ou outra métrica?
    • Quem foi o mais jovem autor de estréia? Quem foi o mais velho?
    • Alguma editora parece se especializar de alguma forma?
    • Qual foi o maior tempo entre as edições do mesmo livro?
    • Há alguma tendência sazonal para as vendas? E as verificações? Algum título ou gênero tem flutuações sazonais?
    • Existem correlações entre verificações, tamanho de execução de impressão, classificações de revisão de livros e volume de vendas?
    • Os autores que passam mais tempo escrevendo têm os livros de maior sucesso? Eles têm a maior contagem de páginas? 
    • Quando a maioria dos livros são publicados? Há alguma anomalia? 
    • Existem tendências de gênero, formato e preço?
    • Que tipo de distribuições as classificações têm? Essas distribuições variam de acordo com o livro? Por gênero? Eles parecem estar alinhados com os prêmios? 
    • Como você calcularia o preço de venda, dado que às vezes há, mas nem sempre, um desconto dado no momento da venda?
    • As vendas aproximam o princípio de Pareto? 
    • Há algum padrão nos descontos? 
    • Alguma tabela em particular parece ter dados sujos?
    Ovos de Páscoa do conjunto de dados Bookshop