O conjunto de dados Livraria

O conjunto de dados Livraria foi criado para o Tableau Desktop 2020.2 para mostrar relações, os novos recursos de modelagem de dados para combinar dados.

Baixar os arquivos

Você pode baixar os dados brutos e começar do zero criando seu próprio modelo de dados. Como alternativa, baixe uma das fontes de dados pré-criadas para entrar em análise com as relações.

  • Dados brutos (xlsx)
    • Bookshop.xlsx — os dados brutos como um arquivo .xlsx
    • BookshopLibraries.xlsx — tabelas de biblioteca adicionais que introduzem relações de muitos para muitos (contém somente tabelas de biblioteca adicionais)
  • Arquivos de fonte de dados em pacote (tdsx)
    • Bookshop.tdsx — um arquivo .tdsx compactado com a fonte de dados relacionada pré-criada e algumas personalizações de metadados adicionadas
    • MinimalBookshop.tdsx — as mesmas tabelas do Bookshop.tdsx, mas sem qualquer metadado ou limpeza
    • Bookshop_libraries.tdsx — um arquivo .tdsx compactado que adiciona as tabelas da biblioteca ao Bookshop.tdsx (inclui todas as tabelas).

Para se conectar a um .tdsx baixado

  1. Abra o Tableau Desktop.
  2. No painel Conectar à esquerda, selecione a opção Mais... no cabeçalho Para um arquivo.
  3. Acesse o local onde você baixou o .tdsx e clique duas vezes nele (ou selecione-o e clique em Abrir).

Sobre o conjunto de dados

A Livraria consiste em 13 tabelas relacionadas da seguinte forma:

Um esquema de banco de dados para dados de livros.

Observação: um conceito central para esse conjunto de dados é a ideia de um livro versus uma edição. Um livro é um conceito com atributos, como autor, título e gênero. Uma edição é uma versão física do livro com atributos, como formato (capa dura, brochura), data de publicação e contagem de páginas.

Dicionário de dados

Alguns campos podem precisar de uma pequena explicação.

  • O campo Classificação na tabela Classificações está em uma escala de 1-5, com 5 sendo alto.
  • O campo Formato é uma análise detalhada do formato. Tudo diferente de "Capa dura" pode ser considerado como "Brochura".
  • ISBN (International Standard Book Number) é o número de livro de padrão internacional. É um identificador único de 13 dígitos dado a cada edição de um livro. O ISBN é representado no código de barras e está atrelado ao preço.
  • Os campos ItemID e OrderID são hierárquicos. Um pedido pode conter vários itens.
  • O campo Comentário da equipe contém resumos e revisões de alguns livros.

Se você criar sua própria fonte de dados

  1. As tabelas Publicador e Vendas devem estar relacionadas à tabela Edição.
  2.  As tabelas Livro e Informação podem estar relacionadas ou com uniões de colunas, mas devem estar no cálculo BookID = [BookID1]+[BookID2].
    • Uma união de colunas interna é sugerida.
    • A tabela Série só poderá ser usada depois que a tabela Informação fizer parte da fonte de dados.
  • opcional:
    1. É recomendável renomear a tabela lógica do Livro junto com o “Livro” de informações ou similar.
    2. As tabelas Vendas podem ser analisadas independentemente; porém, caso tenham a união de linhas, é recomendável renomear as “Vendas” da união de linhas ou similar.
    3. A maioria dos campos usados para formar relações não é necessária para análise e pode ficar oculta após a construção do modelo de dados
      • Qualquer campo que termine com ID pode ficar oculto. (Como ReviewID e ReviewerID de Classificações e ItemID e OrderID de Vendas.)
      • O ISBN deve ser mantido, idealmente na tabela Edição, como o identificador de cada edição. O campo ISBN na tabela Vendas com união de linhas pode ser escondido.
      • O campo Título na tabela Prêmio pode ficar oculto.
      • Os campos da planilha e da tabela na União de linhas também não contêm informações exclusivas e podem ficar ocultos.
    4. Para simplificar o modelo de dados, as tabelas principais são Livro, Autor e Edição. As tabelas mais fáceis de omitir com impacto mínimo são Verificações e Classificações, seguidas por Prêmio, Publicador, Vendas ou Informação e Série.

    Bibliotecas de livrarias

    O arquivo BookshopLibraries.xlsx apresenta novas tabelas de bibliotecas, com o propósito de aceitar relações de muitos para muitos. A tabela Catálogo está relacionada à tabela Edições no ISBN. A tabela Perfis de biblioteca está relacionada à tabela Catálogo como uma relação de muitos para muitos (n:n) em LibraryID.

    Dicionário de dados

    Perfil da biblioteca

    • O campo Biblioteca é o nome da biblioteca.
    • O campo ID da biblioteca é uma ID também usada na tabela Catálogo.
    • Membro do consórcio é um campo de sim/não que indica se a biblioteca faz parte da maior rede de bibliotecas que oferecem empréstimos entre as bibliotecas e compartilham outros serviços.
    • Privado é um campo de sim/não que indica se esta é uma biblioteca somente para membros ou uma instituição pública.
    • Tipo de equipe e Número de funcionários juntos descrevem quantos bibliotecários, assistentes de biblioteca e técnicos de biblioteca trabalham para cada biblioteca.

    Catálogo

    • LoanID é um identificador exclusivo para a combinação de ISBN e biblioteca, usado para rastrear o Número de cópias de uma biblioteca. Por exemplo, se a Biblioteca de hora ociosa tiver duas cópias de brochura e uma cópia em capa dura de um título, haverá dois IDs de empréstimo.
    • O campo ID da biblioteca é uma ID também usada na tabela Perfil da biblioteca.
    Estrutura da tabela Perfil da biblioteca

    A tabela Perfil da biblioteca foi originalmente formatada como uma tabela não dinâmica, com uma coluna para cada tipo de funcionário:

    BibliotecaID da bibliotecaMembro do consórcioPrivadaBibliotecáriosTécnicos da bibliotecaAssistentes da biblioteca

    Biblioteca de hora ociosa

    L-IHLSimNão536116

    The Bibliophile’s Shelves

    L-BSSimSim430

    Armchair Athanaeum

    L-AANãoSim600
    Old Friend LibraryL-OFLSimNão3517
    Bide AwhileL-BASimNão9206
    IndieUnBoundL-IUBSimNão7247

    Page Station Book Exchange

    L-PSNãoSim314

    A tabela era dinâmica nas colunas Bibliotecários, Técnicos da biblioteca e Assistentes da biblioteca. O formato final tem uma coluna para Tipo de equipe e uma coluna para Número de funcionários. No entanto, isso significa que há mais de uma linha para cada biblioteca. Portanto, os valores de ID da biblioteca não são únicos, e a versão dinâmica da tabela deve estar relacionada a muitos para muitos na tabela Catálogo.

    Embora isso tenha a vantagem de permitir uma relação de muitos para um entre Catálogo e Perfil, não é uma estrutura para análise de dados(O link abre em nova janela) ideal.

    Explorar

    Este conjunto de dados, embora fictício, é compatível com vários cenários analíticos e muita exploração. Estas são algumas sugestões:

    • Quais são os livros mais populares? O menos popular? Isso é baseado em vendas, revisões, verificações ou outra métrica?
    • Quem foi o mais jovem autor de estréia? Quem foi o mais velho?
    • Alguma editora parece se especializar de alguma forma?
    • Qual foi o maior tempo entre as edições do mesmo livro?
    • Há alguma tendência sazonal para as vendas? E as verificações? Algum título ou gênero tem flutuações sazonais?
    • Existem correlações entre verificações, tamanho de execução de impressão, classificações de revisão de livros e volume de vendas?
    • Os autores que passam mais tempo escrevendo têm os livros de maior sucesso? Eles têm a maior contagem de páginas? 
    • Quando a maioria dos livros são publicados? Há alguma anomalia? 
    • Existem tendências de gênero, formato e preço?
    • Que tipo de distribuições as classificações têm? Essas distribuições variam de acordo com o livro? Por gênero? Eles parecem estar alinhados com os prêmios? 
    • Como você calcularia o preço de venda, dado que às vezes há, mas nem sempre, um desconto dado no momento da venda?
    • As vendas aproximam o princípio de Pareto? 
    • Há algum padrão nos descontos? 
    • Alguma tabela em particular parece ter dados sujos?
    Ovos de Páscoa do conjunto de dados Livraria
    • Etaoin Shrdlu é uma referência a máquinas do tipo linotype hot. Palimpsesto é uma referência à criação de manuscritos.
    • Os nomes dos autores foram derivados de uma lista de autores famosos americanos com seus nomes e sobrenomes aleatórios.
    • As datas de publicação de hoje são geralmente às terças-feiras. Isso se refletiu nos dados, que assumem que esse padrão do setor se mantém até o ano de 2178.
    • Um livro não tem revisões, verificações ou vendas.
    • Os dados de Verificações são baseados em dados reais de biblioteca, com BookIDs mapeados para títulos, por isso, as tendências de verificação são reais.
    • Os dados de Classificações são baseados em dados reais de classificação de livros, com BookIDs mapeados para títulos, por isso, a distribuição de classificações de um determinado livro é real.
    • A proporção de vendas que são para um único livro versus vários livros é baseada em dados reais de uma livraria independente.
    • Os dados de Vendas são completamente gerados, mas baseiam-se nas reais tendências sazonais e dos dias da semana em uma cidade turística com uma economia baseada no turismo (proporcionalmente por mês e dia da semana, e nas férias de primavera e feriados de inverno). 
      • As vendas aumentam nos fins de semana longos e nas férias de primavera.
      • As vendas são muito mais altas nos finais de semana e muito baixas nas terças e quintas-feiras.
      • A alta temporada é o verão entre o dia 4 de julho e o dia do trabalho.
      • As vendas aumentam imediatamente após o Dia de Ação de Graças e nas semanas que antecedem o Natal.
    • Os ISBNs no conjunto de dados são fictícios, mas construídos seguindo os princípios do ISBN-13:
      • EAN — 989 (não está em uso)
      • Número do grupo — 28
      • Elemento do inscrito do Publicador — tamanho variável (2-4 dígitos)
      • Elemento de título, tamanho variável (3-5 dígitos, dependendo do tamanho do elemento do inscrito)
      • Dígito de verificação, criado com o cálculo aritmético modular do dígito de verificação ISBN-13
    • Um dos desenvolvedores que trabalham neste recurso sugeriu um livro sem edições e o título The Deep Grey, então seu BookID termina com os últimos três dígitos de seu número de telefone comercial.
    • Há um erro (intencional) na tabela Edição, onde duas edições do BookID PA169 foram rotuladas como Palimpsest Printing, mas o ISBN indica que foram realmente impressas pela Etaoin Shrdlu Press.

    A pessoa que criou esse conjunto de dados se divertiu muito fazendo isso e, claramente, tem uma profunda obsessão por livros. Ela espera que você goste do conjunto de dados e isso ajuda você a apreciar o potencial, a elegância e a beleza das relações no Tableau.

    Agradecemos seu feedback!Seu feedback foi enviado. Obrigado!