O conjunto de dados Bookshop

O conjunto de dados Bookshop foi criado para o Tableau Desktop 2020.2 para mostrar relações — os novos recursos de modelagem de dados para combinar dados.

Baixar os arquivos

Você pode optar por baixar os dados brutos e começar do zero construindo seu próprio modelo de dados ou baixar uma das fontes de dados pré-criadas para entrar em análise com as relações.

  • Dados brutos (xlsx)
    • Bookshop.xlsx - os dados brutos como um arquivo .xlsx
    • BookshopLibraries.xlsx - tabelas adicionais de biblioteca que introduzem relações de muitos para muitos (contém somente tabelas de biblioteca adicionais)
  • Arquivos de fonte de dados em pacote (tdsx)
    • Bookshop.tdsx - um arquivo .tdsx compactado com a fonte de dados relacionada já criada e algumas personalizações de metadados adicionadas
    • MinimalBookshop.tdsx - as mesmas tabelas do bookshop.tdsx, mas sem qualquer metadados ou limpeza
    • Bookshop_libraries.tdsx - um arquivo .tdsx em pacote que adiciona as tabelas da biblioteca ao Bookshop.tdsx (inclui todas as tabelas).

Para se conectar a um .tdsx baixado

  1. Abra o Tableau Desktop.
  2. No painel Conectar à esquerda, escolha a opção Mais... no cabeçalho Para um arquivo.
  3. Navegue até onde você baixou o .tdsx e clique duas vezes nele (ou selecione-o e clique em Abrir).

Sobre o conjunto de dados

O Bookshop consiste em 13 tabelas, combinadas da seguinte forma:

Observação: um conceito central para esse conjunto de dados é a ideia de um livro versus uma edição. Um livro é um conceito com atributos, como autor, título e gênero. Uma edição é uma versão física do livro com atributos, como formato (capa dura, brochura), data de publicação e contagem de páginas.

Dicionário de dados

Alguns campos podem precisar de uma pequena explicação.

  • O campo Classificação na tabela Classificações está em uma escala de 1-5, com 5 sendo alto.
  • O campo Formato é uma análise detalhada do formato. Tudo diferente de "Capa dura" pode ser considerado como "Brochura".
  • ISBN (International Standard Book Number) é o número de livro de padrão internacional. É um identificador único de 13 dígitos dado a cada edição de um livro. O ISBN é representado no código de barras e está atrelado ao preço.
  • Os campos ItemID e OrderID são hierárquicos. Um pedido pode conter vários itens.
  • O campo Comentário da equipe contém resumos e revisões de alguns livros.

Se você criar sua própria fonte de dados

  1. As tabelas Publicador e Vendas devem estar relacionadas à tabela Edição.
  2.  As tabelas Livro e Informação podem estar relacionadas ou com uniões de colunas, mas devem estar no cálculo BookID = [BookID1]+[BookID2].
    • Uma união de colunas interna é sugerida.
    • A tabela Série só poderá ser usada quando a tabela Informação fizer parte da fonte de dados.
  • opcional:
    1. É recomendável renomear a tabela lógica do Livro junto com o "Livro" de informações ou algo semelhante.
    2. As tabelas Vendas podem ser analisadas independentemente; porém, caso tenham a união de linhas, é recomendável renomear as "Vendas” da união de linhas ou algo semelhante.
    3. A maioria dos campos usados para formar relações não é necessária para análise e pode ficar oculta uma vez que o modelo de dados tenha sido construído
      • Qualquer campo que termine com ID pode ficar oculto (os únicos campos "ID" que fazem isso são ReviewID e ReviewerID em Classificações, e ItemID e OrderID em Vendas).
      • O ISBN deve ser mantido, idealmente na tabela Edição, como o identificador de cada edição. O campo ISBN na tabela Vendas com união de linhas pode ser escondido.
      • O campo Título na tabela Prêmio pode ficar oculto.
      • Os campos da planilha e da tabela na União de linhas também não contêm informações exclusivas e podem ficar ocultos.
    4. Para simplificar o modelo de dados, as tabelas principais são Livro, Autor e Edição. As tabelas mais fáceis de omitir com impacto mínimo seriam Verificações e Classificações, seguidas por Prêmio, Publicador, Vendas ou Informação e Série.

    Bibliotecas de livrarias

    O arquivo BookshopLibraries.xlsx apresenta novas tabelas de bibliotecas, com o propósito de aceitar relações de muitos para muitos. A tabela Catálogo está relacionada à tabela Edições no ISBN. A tabela Perfis de biblioteca está relacionada à tabela Catálogo como uma relação de muitos para muitos (n:n) em LibraryID.

    Dicionário de dados

    Perfil da biblioteca

    • O campo Biblioteca é o nome da biblioteca.
    • O campo ID da biblioteca é uma ID também usada na tabela Catálogo.
    • Membro do consórcio é um campo de sim/não que indica se a biblioteca faz parte da maior rede de bibliotecas que oferecem empréstimos entre as bibliotecas e compartilham outros serviços
    • Privado é um campo de sim/não que indica se esta é uma biblioteca somente para membros ou uma instituição pública
    • Tipo de equipe e Número de funcionários juntos descrevem quantos bibliotecários, assistentes de biblioteca e técnicos de biblioteca trabalham para cada biblioteca.

    Catálogo

    • LoanID é um identificador exclusivo para a combinação de ISBN e biblioteca, usado para rastrear o Número de cópias de uma biblioteca. Por exemplo, se a Biblioteca de hora ociosa tiver duas cópias de brochura e uma cópia em capa dura de um título, haverá dois IDs de empréstimo.
    • O campo ID da biblioteca é uma ID também usada na tabela Perfil da biblioteca.
    Estrutura da tabela Perfil da biblioteca

    A tabela Perfil da biblioteca foi originalmente formatada como uma tabela não dinâmica, com uma coluna para cada tipo de funcionário, abaixo.

    BibliotecaID da bibliotecaMembro do consórcioPrivadaBibliotecáriosTécnicos da bibliotecaAssistentes da biblioteca

    Biblioteca de hora ociosa

    L-IHLSimNão536116

    The Bibliophile’s Shelves

    L-BSSimSim430

    Armchair Athanaeum

    L-AANãoSim600
    Old Friend LibraryL-OFLSimNão3517
    Bide AwhileL-BASimNão9206
    IndieUnBoundL-IUBSimNão7247

    Page Station Book Exchange

    L-PSNãoSim314

    A tabela era dinâmica nas colunas Bibliotecários, Técnicos da biblioteca e Assistentes da biblioteca. O formato final tem uma coluna para Tipo de equipe e uma coluna para Número de funcionários. No entanto, isso significa que há mais de uma linha para cada biblioteca. Portanto, os valores de ID da biblioteca não são únicos, e a versão dinâmica da tabela deve estar relacionada a muitos para muitos na tabela Catálogo.

    Embora isso tenha a vantagem de permitir uma relação de muitos para um entre Catálogo e Perfil, não é uma estrutura para análise de dados(O link abre em nova janela) ideal.

    Explorar

    Este conjunto de dados, embora fictício, é compatível com vários cenários analíticos e muita exploração. Estas são algumas sugestões:

    • Quais são os livros mais populares? O menos popular? Isso é baseado em vendas, revisões, verificações ou outra métrica?
    • Quem foi o mais jovem autor de estréia? Quem foi o mais velho?
    • Alguma editora parece se especializar de alguma forma?
    • Qual foi o maior tempo entre as edições do mesmo livro?
    • Há alguma tendência sazonal para as vendas? E as verificações? Algum título ou gênero tem flutuações sazonais?
    • Existem correlações entre verificações, tamanho de execução de impressão, classificações de revisão de livros e volume de vendas?
    • Os autores que passam mais tempo escrevendo têm os livros de maior sucesso? Eles têm a maior contagem de páginas? 
    • Quando a maioria dos livros são publicados? Há alguma anomalia? 
    • Existem tendências de gênero, formato e preço?
    • Que tipo de distribuições as classificações têm? Essas distribuições variam de acordo com o livro? Por gênero? Eles parecem estar alinhados com os prêmios? 
    • Como você calcularia o preço de venda, dado que às vezes há, mas nem sempre, um desconto dado no momento da venda?
    • As vendas aproximam o princípio de Pareto? 
    • Há algum padrão nos descontos? 
    • Alguma tabela em particular parece ter dados sujos?
    Ovos de Páscoa do conjunto de dados Bookshop
    • Etaoin Shrdlu é uma referência a máquinas do tipo linotype hot. Palimpsesto é uma referência à criação de manuscritos.
    • Os nomes dos autores foram derivados de uma lista de autores famosos americanos com seus nomes e sobrenomes aleatórios.
    • As datas de publicação de hoje são geralmente às terças-feiras. Isso se refletiu nos dados, que assumem que esse padrão do setor se mantém até o ano de 2178.
    • Um livro não tem revisões, verificações ou vendas.
    • Os dados de Verificações são baseados em dados reais de biblioteca, com BookIDs mapeados para títulos, por isso, as tendências de verificação são reais.
    • Os dados de Classificações são baseados em dados reais de classificação de livros, com BookIDs mapeados para títulos, por isso, a distribuição de classificações de um determinado livro é real.
    • A proporção de vendas que são para um único livro versus vários livros é baseada em dados reais de uma livraria independente.
    • Os dados de Vendas são completamente gerados, mas baseiam-se nas reais tendências sazonais e dos dias da semana em uma cidade turística com uma economia baseada no turismo (proporcionalmente por mês e dia da semana, e nas férias de primavera e feriados de inverno). 
      • As vendas aumentam nos fins de semana longos e nas férias de primavera.
      • As vendas são muito mais altas nos finais de semana e muito baixas nas terças e quintas-feiras.
      • A alta temporada é o verão entre o dia 4 de julho e o dia do trabalho.
      • As vendas aumentam imediatamente após o Dia de Ação de Graças e nas semanas que antecedem o Natal.
    • Os ISBNs no conjunto de dados são fictícios, mas construídos seguindo os princípios do ISBN-13:
      • EAN — 989 (não está em uso)
      • Número do grupo — 28
      • Elemento do inscrito do Publicador — tamanho variável (2-4 dígitos)
      • Elemento de título, tamanho variável (3-5 dígitos, dependendo do tamanho do elemento do inscrito)
      • Dígito de verificação, criado com o cálculo aritmético modular do dígito de verificação ISBN-13
    • Um dos desenvolvedores que trabalham neste recurso sugeriu um livro sem edições e o título The Deep Grey, então seu BookID termina com os últimos três dígitos de seu número de telefone comercial.
    • Há um erro (intencional) na tabela Edição, onde duas edições do BookID PA169 foram rotuladas como Palimpsest Printing, mas o ISBN indica que foram realmente impressas pela Etaoin Shrdlu Press.

    A pessoa que criou esse conjunto de dados se divertiu muito fazendo isso, e claramente tem uma profunda obsessão por livros. Ela espera que você goste do conjunto de dados e isso ajuda você a apreciar o poder, a elegância e a beleza das relações no Tableau.

    Agradecemos seu feedback!Seu feedback foi enviado. Obrigado!