Não tenha medo de relações mais profundas

Devido à natureza das relações, entender de onde vêm os campos, o domínio e o que os nulos representam é mais importante do que nunca. Lembre-se que qualquer pessoa que veja a visualização sem acesso à página da fonte de dados ou ao painel de dados dependerá do título ou de outras informações apresentadas pelo autor para interpretar a visualização corretamente.

Observação: se você ainda não se sente à vontade com os princípios das fontes de dados que usam relações, talvez seja útil ler Não tenha medo de relacionamentos, antes de mergulhar neste tópico.

Por que todos os campos de data não são iguais?

É importante lembrar que só porque dois nomes de campo contêm a palavra "Data" não significa que o conteúdo desses campos seja idêntico. Vamos olhar para um exemplo que aborda o nível do Ano. Ou seja, não nos importamos com os valores para meses e dias, só estamos interessados nos anos que os campos abordam.

Existem vários campos no O conjunto de dados Bookshopcom tipo de dados de Data.

  • Aniversário
  • Data de publicação
  • Data de vendas
  • E o Ano de premiação e Ano estabelecido também contém informações de data, embora sejam campos numéricos.
    • NB: se o ícone no painel de dados estiver verde, este campo será contínuo. Clique com o botão direito do mouse no nome do campo e no painel Dados e escolha Converter em discreto(O link abre em nova janela). O ícone deve ficar azul. Faça isso tanto para "Ano de premiação" quanto "Ano estabelecido", se necessário.

Mas o domínio — os valores em cada campo — variam. Leve cada campo para a divisória de linhas e olhe para o número de marcas no canto inferior esquerdo, removendo cada campo antes de trazer o próximo.

  • YEAR(Birthday) tem 27 marcas, o que significa que o domínio contém 27 anos diferentes.
  • YEAR([Publication Date]) tem 15 marcas, então seu domínio consiste em 15 anos.
  • Ano de premiação tem 11 marcas
  • Ano estabelecido tem quatro marcas
  • YEAR([Sales Date]) tem uma marca

É muito importante ter em mente essa diferença de domínio. Se relacionarmos a tabela de edição e premiação no YEAR([Publication Date]) ao Ano ganho, poderíamos acabar com análises que usam uma união interna e, portanto, são limitadas apenas para os anos em que um prêmio foi ganho — removendo assim todos os livros de anos sem prêmios. (Note que isso não é a mesma coisa que filtrar livros sem prêmios. Livros não premiados que foram publicados no mesmo ano como um livro premiado serão preservados. Todos os livros de anos sem prêmios serão totalmente removidos. A ação de filtragem da união está no nível do ano, não no livro.)

Exemplo: data de publicação e aniversário

Se levarmos data de publicação para colunas e aniversário para linhas, teremos uma tabela de Abcs. Você pode baixar a pasta de trabalho e explorar esta tabela por conta própria. (Requer Tableau Desktop 2020.2 ou posterior.)

Abc é simplesmente um espaço reservado porque não há dados além dos anos. O Tableau não tem valores para marcar, mas o Abc mostra para onde as marcas podem ir.

Note que há muito espaço em branco nesta tabela. Não há espaço reservado para o ano de publicação 2180 e o aniversário de 2133. Isso significa que o autor nascido em 2133 não publicou no ano de 2180.

Claro. Mas por que isso é importante?

Imagine que você queira fazer alguma análise ao longo do tempo. As vendas de livro de capa dura estão aumentando com o tempo? Você pode imaginar seu gráfico como uma linha do tempo que filtra o Formato para apenas livros de capa dura com Sales(Count) em Linhas e data em Colunas. Mas qual campo de datas? Data de publicação? Aniversário? Data de vendas? Esses campos são bem nomeados e é bastante óbvio que se tivermos uma pergunta sobre vendas devemos usar a Data de vendas. No entanto, nem todos os conjuntos de dados têm nomes claros. Se os campos fossem como "Date1" e "Date3" seria muito mais difícil diferenciar. Especialmente se a questão analítica não for claramente definida.

De qual tabela é originado o campo e o que o domínio do campo representa têm um impacto crucial na análise.

Mudando o campo de data, podemos mudar a análise completamente. Considere estas duas visualizações:

A primeira poderia ser interpretada como "Quantos livros foram escritos por autores nascidos em cada ano?". Ela responde a perguntas como "Autores mais velhos escreveram mais livros?" (Não) ou "Autor(es) nascido(s) em que ano é(são) o(s) mais prolífico(s)?" (2155).

A segunda poderia ser interpretada como "Quantos livros foram publicados em cada ano?". Ela responde a perguntas como "Qual ano teve os livros mais publicados?" (2188) ou "A publicação de livros está estável ao longo do tempo?" (Não).

É estranho formular a pergunta para a visualização que usa o aniversário, porque é uma combinação estranha de conceitos. Mas o Tableau não julga e vai deixar você fazer qualquer pergunta desejada, quer sejam sérias ou não. Isso é um aspecto vital. Se você trouxer o Date3 quando deveria ter usado o Date1, o Tableau lhe dará uma visualização. Mas nem todos os campos de data têm o mesmo significado, cabe ao autor saber qual campo usar para a análise correta.

Para obter mais informações sobre a importância da tabela de origem de um campo, confira esta publicação no blog(O link abre em nova janela).

O que significa dados ausentes?

Há uma diferença entre zero e nulo.

Zero significa que medimos e algo não está lá. Sabemos o valor, e é zero. Se eu não tenho multas por excesso de velocidade, provavelmente não corro muito.

  • NB: 0 e 1 são frequentemente usados intercambiavelmente com True/False, ou outros valores binômios como Yes/No ou Pass/Fail. Neste caso, zero está sendo usado como um rótulo, não um valor numérico.

Nulo significa que não sabemos: não medimos ou não registramos os dados. Se o meu registro de direção é simplesmente em branco para multas por excesso de velocidade, não temos ideia se eu corro ou não.

Os nulos podem representar dados ausentes ou dados inexistentes.

  • Para o meu registro de direção, se o valor das multas por excesso de velocidade é nulo, é concebível que eu possa ter uma multa por excesso de velocidade que não foi registrada. Devemos assumir que os dados estão ausentes.
  • Dados inexistentes podem ser registrados como N/A, mas muitas vezes simplesmente não são registrados porque não precisamos rastrear algo impossível. Quantas multas por excesso de velocidade eu recebi enquanto andava de ônibus? Esses dados provavelmente não estarão presentes no conjunto de dados. Em uma matriz de "Modos de transporte" e "Multas por excesso de velocidade", há combinações que simplesmente não fazem sentido. Podemos assumir que os dados são inexistentes.

Quando nulos têm significado

É preciso conhecimento dos dados para ser capaz de reconhecer se um nulo é verdadeiramente desconhecido (falta de informação para o número de multas por excesso de velocidade) ou se representa dados inexistentes (falta de informação sobre multas por excesso de velocidade como passageiro de ônibus). Os dados são confiáveis o suficiente para que a falta de informação possa ser considerada dados inexistentes em vez de dados perdidos? Quando o conhecimento do assunto é aplicado, os nulos podem ser significativos.

Olhando novamente para a tabela de Abcs, podemos analisar os espaços sem espaços reservados. Assumiremos que esses dados são confiáveis e um nulo significa que os dados são inexistentes ao invés de incompletos.

A falta de um espaço reservado significa que um autor nasceu naquele ano (por isso a linha existe), e um livro foi publicado naquele ano (por isso a coluna existe), mas o livro publicado não foi escrito por um autor nascido naquele ano (então a célula está vazia). Podemos atribuir significativamente um rótulo a esse espaço vazio: Nada Publicado. Poderíamos até fazer análises sobre esses nulos — por exemplo, para as datas presentes nos dados, quantos anos se passaram para cada autor sem publicar um livro?

Observação: também há lacunas no domínio dos Aniversários. Nenhum autor nasceu em 2131 ou 2132, então o ano passa de 2130 a 2133 (as linhas para 2131 e 2132 não existem). Esses anos perdidos podem ser interpretados como "nenhum livro neste conjunto de dados teve autores nascidos naqueles anos". No entanto, como apontado acima ao falar sobre o domínio dos campos de data, o fato de haver valores faltando no domínio é uma informação importante a ser considerada ao construir relações ou escolher qual campo usar para um cabeçalho ou eixo em uma visualização.

Para mais informações sobre como trabalhar com nulos em relações, confira esta publicação no blog(O link abre em nova janela).

Exercícios práticos

Escreva um título para cada visualização. Você pode descrever o que está acontecendo em linguagem simples? Baixe a pasta de trabalhopara explorar as visualizações ao vivo. (Esta pasta de trabalho usa uma versão ligeiramente ajustada do O conjunto de dados Bookshop e usa apenas duas tabelas. Os campos de data foram ajustados para que possam ser usados como campo relacionado.)

Para ler a matriz das visualizações: 

  • As barras mostram o número de edições (roxo) e o número de prêmios (verde) por ano.
  • Cada coluna tem um campo de data diferente para o eixo. A coluna à esquerda é o Ano de publicação da tabela Edição, a coluna central é Ano de premiação da tabela do Prêmio, e a coluna à direita é um campo calculado que usou a data de publicação, mas se esse campo for nulo usa o Ano de premiação (este cálculo é usado para garantir que ambos os domínios estejam totalmente representados).
  • Cada linha é uma relação diferente para a forma como a tabela Prêmio e Edição são combinadas. A linha superior relaciona as tabelas sobre ID de livro, a linha do meio as relaciona no Ano, e a linha inferior as relaciona tanto na ID de livro quanto no Ano.
  • As barras para o ano de 2183 são mais grossas para facilitar a comparação. Na solução abaixo, esse é o ano cujos valores são analisados detalhadamente.
  • Note que as duas visualizações sombreadas têm valores idênticos.

Se você tiver dificuldade

Caminhe por cada parte da visualização passo a passo. Olhe para a estrutura de origem dos dados, o eixo e os cabeçalhos, e os campos usados para as marcas (e de quais tabelas eles são originados). Pense em nulos e por que eles podem estar lá. Veja os dados para uma marca ou duas específicas para ver quais registros eles contêm.

  • A fonte de dados é Prêmios relacionados a Edições na ID do livro.
  • O eixo da data é o Ano de publicação
  • Os valores são Contagem de prêmios e Contagem de edições.

Tente escolher uma única marca na visualização e defini-la. Para o ano de 2183, a visualização mostra que são sete edições e três prêmios. Use Visualizar dados subjacentes para investigar quais registros estão representados em cada marca.

Edições

Prêmios

Juntos, isso pode ser interpretado como "devolver os sete livros publicados em 2183, em seguida, para esses livros, listar todos os prêmios que ganharam independentemente de quando ganharam o prêmio”. TM925 foi originalmente publicado em 2179 e a edição capa dura ganhou dois prêmios naquele ano. Em 2183, uma edição diferente do livro foi publicada, talvez em capa comum. O valor para a Contagem de prêmio está atrelado ao livro, não ao ano.

Assim, a visualização global poderia ser interpretada como "o número de edições publicadas a cada ano, e quantos prêmios foram ganhos por livros publicados naquele ano" ou "o número de edições publicadas a cada ano e o número de prêmios ganhos por esses livros".

Solução para o exercício prático

O ano de 2183 — as barras mais grossas — é o ano focado na interpretação. Informações sobre edições estão em roxo e sobre prêmios estão em verde. O ano 2187 também é destacado nas descrições porque é um ano em que nenhum prêmio foi ganho, mas livros foram publicados. Como tal, é uma boa representação do poder de qual campo de data é usado para o eixo. Esta nuance é abordada em azul na descrição. A importância do campo usado para montar a relação é destacada em rosa.

Este visual é fornecido para sua conveniência, mas uma experiência melhor pode ser baixar a pasta de trabalho e abri-la no Tableau Desktop 2020.2 ou posterior, para que você possa usar a interatividade, como dicas de ferramentas e Exibir dados. Se você preferir analisar mais detalhadamente as planilhas, pode clicar com o botão direito do mouse em qualquer guia do painel na parte inferior e escolher Reexibir todas as planilhas. Isso disponibilizará todas as visualizações individuais e, de cada folha, você poderá ver o painel Dados e o ambiente de criação, incluindo quais campos estão nas divisórias. Observe que, para alcançar as três relações diferentes (as linhas da matriz acima), há três fontes de dados diferentes.

Recursos relacionados

Você está se sentindo um pouco confuso e quer voltar uma etapa? Experimente Não tenha medo de relacionamentos.

Pronto para lidar com cálculos com relações? Confira Não tenha medo de cálculos nas relações.

Para obter mais informações sobre os fundamentos técnicos das relações diretamente da equipe de Gestão de produtos, confira a série sobre relações no Blog do Tableau.

Veja também podcasts de vídeo sobre relacionamentos em Análises de ação(O link abre em nova janela), como Por que o Tableau inventou os relacionamentos?(O link abre em nova janela) Clique em "Podcast de vídeo" na Biblioteca(O link abre em nova janela) para ver mais.

Agradecemos seu feedback!Seu feedback foi enviado. Obrigado!