Dados de estrutura para análise

Há certos conceitos fundamentais para entender a preparação de dados e como estruturar dados para análise. Os dados podem ser gerados, capturados e armazenados em uma variedade de formatos, mas quando se trata de análise, nem todos os formatos de dados são criados iguais.

A preparação de dados é o processo de obter dados bem formatados em uma única tabela ou várias tabelas relacionadas para que possam ser analisados no Tableau. Isso inclui tanto a estrutura, ou seja, linhas e colunas, quanto aspectos da limpeza de dados, os tipos e valores corretos de dados.

Dica: isso pode ajudar a passar pelo seguinte tópico com um conjunto de dados próprio. Se ainda não possui um conjunto de dados que possa usar, veja nossas dicas para encontrar bons conjuntos de dados(O link abre em nova janela).

Como a estrutura afeta a análise

A estrutura de seus dados pode não ser algo que você possa controlar. O resto deste tópico pressupõe que você tenha acesso aos dados brutos e às ferramentas necessárias para moldá-los, tais como Tableau Prep Builder. No entanto, pode haver situações em que você não pode colocar em tabelas dinâmicas ou agregar seus dados conforme desejado. Muitas vezes ainda é possível realizar a análise, mas você pode precisar alterar seus cálculos ou como aborda os dados. Para obter um exemplo de como realizar a mesma análise com diferentes estruturas de dados, consulte o Dia do Tableau Prep nos Cenários habituais: Análise com a segunda data no Tableau Desktop(O link abre em nova janela). Mas se você puder otimizar a estrutura de dados, provavelmente tornará sua análise muito mais fácil.

Estrutura de dados

O Tableau Desktop funciona melhor com dados que estão em tabelas formatadas como uma planilha. Ou seja, dados armazenados em linhas e colunas, com cabeçalhos de coluna na primeira linha. Então, o que deve ser uma linha ou coluna?

O que é uma linha?

Uma linha, ou registro, pode ser qualquer coisa, desde informações sobre uma transação em uma loja de varejo, até medições meteorológicas em um local específico ou estatísticas sobre uma publicação de redes sociais.

É importante saber o que um registro (linha) nos dados representa. Esta é granularidade dos dados.

Aqui, cada registro é um diaAqui, cada registro é um mês

Dica: uma prática recomendada é ter um identificador único (UID), um valor que identifica cada linha como uma parte única de dados. Pense nisso como o número de seguridade social ou URL de cada registro. Na Superstore, isso seria a ID de linha. Observe que nem todos os conjuntos de dados têm um UID, mas não faz mal ter um.

Tente ter certeza de que pode responder à pergunta "O que uma linha no conjunto de dados representa?". Isso é o mesmo que responder "O que o campo TableName(Count) representa?". Se você não pode articular isso, os dados podem ser mal estruturados para análise.

Agregação e Granularidade

Um conceito relacionado ao que compõe uma linha é a ideia de agregação e granularidade, que são extremidades opostas de um espectro.

Agregação

  • refere-se à forma como vários valores de dados são combinados em um único valor, como contagem de todas as pesquisas do Google por Tempero de abóbora ou calcular a média de todas as leituras de temperatura de Seattle em um determinado dia.

  • Por padrão, as medidas no Tableau são sempre agregadas. A agregação padrão é SUM. Você pode alterar a agregação para coisas como Média, Mediana, Contagem distinta, Mínimo etc.

Granularidade

  • refere-se ao quão detalhados estão os dados. O que representa uma linha ou registro no conjunto de dados? Uma pessoa com malária? Os casos totais de malária de uma província no mês? Essa é a granularidade.

  • Conhecer a granularidade dos dados é crucial para trabalhar com expressões de nível de detalhe (LOD).

Entender a agregação e a granularidade é um conceito crítico por muitas razões; ele afeta coisas como encontrar conjuntos de dados úteis, construir a exibição que deseja, relacionar ou unir dados corretamente e usar expressões LOD.

Dica: para obter mais informações, consulte Agregação de dados no Tableau.

O que é um campo ou coluna?

Uma coluna de dados em uma tabela entra no Tableau Desktop como um campo no painel Dados, mas são termos essencialmente intercambiáveis. (Salvamos a coluna de termo coluna no Tableau Desktop para uso na divisória de colunas e linhas e para descrever certas exibições.) Um campo de dados deve conter itens que podem ser agrupados em uma relação maior. Os próprios itens são chamados de valores ou membros (apenas dimensões discretas contêm membros).

Os valores que são permitidos em um determinado campo são determinados pelo domínio do campo (veja a observação abaixo). Por exemplo, uma coluna de "departamentos de supermercado" pode conter os membros "deli", "padaria", "produto" etc., mas não incluiria "pão" ou "salame" porque esses são itens, não departamentos. Dito de outra forma, o domínio do campo Departamento está limitado apenas aos possíveis departamentos de supermercado.

Além disso, um conjunto de dados bem estruturado teria uma coluna para "Vendas" e outra para "Lucro", nem uma coluna para "Dinheiro", pois o lucro é um conceito separado das vendas.

  • O domínio do campo Vendas seria valores ≥ 0, já que as vendas não podem ser negativas.

  • O domínio do campo Lucro, no entanto, seria todos os valores, uma vez que o lucro pode ser negativo.

Observação: o Domínio também pode significar os valores presentes nos dados. Se a coluna "departamento de supermercado" contivesse erroneamente "salame", por essa definição, esse valor estaria no domínio da coluna. As definições são ligeiramente contraditórias. Um são os valores que poderiam ou deveriam estar lá, o outro são valores que realmente estão

Categorizar campos

Cada coluna na tabela de dados entra no Tableau Desktop como um campo, que aparece no painel Dados. Os campos no Tableau Desktop devem ser uma dimensão ou medida (separados por uma linha no painel Dados) e discretos ou contínuos (codificados por cores: os campos azuis são discretos e os campos verdes são contínuos).

  • As Dimensões são qualitativas, o que significa que não podem ser medidas, mas são descritas. As Dimensões muitas vezes são coisas como cidade ou país, cor dos olhos, categoria, nome da equipe etc. Elas geralmente são discretas.

  • As Medidas são quantitativas, o que significa que podem ser medidas e registradas com números. As Medidas podem ser coisas como vendas, altura, cliques etc. No Tableau Desktop, elas são automaticamente agregadas; a agregação padrão é SUM. As medidas geralmente são contínuas.

  • Discreto significa individualmente separado ou distinto. A Toyota é diferente de Mazda. No Tableau Desktop, valores discretos entram na exibição como um rótulo e criam painéis.

  • Continuo significa formar um todo ininterrupto e contínuo. 7 é seguido por 8 e, em seguida, é a mesma distância até 9, e 7,5 estaria no meio do caminho entre 7 e 8. No Tableau Desktop, os valores contínuos entram na exibição como um eixo.

  • As dimensões geralmente são discretas, e as medidas geralmente são contínuas. No entanto, nem sempre é o caso. As datas podem ser discretas ou contínuas.

    • As datas são dimensões e entram automaticamente na exibição como discretas (também conhecidas como partes de data, como "Agosto", que considera o mês de agosto sem considerar outras informações, como o ano). Uma linha de tendência aplicada a um cronograma com datas discretas será dividida em várias linhas de tendência, uma por painel.

    • Podemos optar por usar datas contínuas, se preferir (também conhecidas como truncações de data, como "Agosto de 2024", que é diferente de "Agosto de 2025"). Uma linha de tendência aplicada a uma linha do tempo com datas contínuas terá uma única linha de tendência para todo o eixo de data.

Dica: para obter mais informações, consulte Dimensões e medidas, azul e verde.

No Tableau Prep, nenhuma distinção é feita para dimensões ou medidas. Entender os conceitos por trás de discretos ou contínuos é importante, no entanto, para coisas como entender o detalhe versus a apresentação resumida de dados no painel Perfil.

  • Detalhe: a exibição de detalhes mostra cada elemento de domínio como um rótulo discreto e tem uma barra de rolagem visual para fornecer uma visão geral visual de todos os dados.

  • Resumo: a exibição resumida mostra os valores como compartimentalizados em um eixo contínuo como um histograma.

Compartimentalização e histogramas

Um campo como idade ou salário é considerado contínuo. Há uma relação entre as idades 34 e 35, e 34 está tão longe dos 35 quanto 35 está de 36. No entanto, uma vez que já passamos da idade 10 anos, geralmente paramos de dizer coisas como se tivéssemos "9 e meio" ou "7 e 3/4". Já estamos diminuindo nossa idade em incrementos de tamanho de um ano. Alguém com 12.850 dias é mais velho que alguém com 12.790 dias, mas dizemos que ambos têm 35 anos. Da mesma forma, os agrupamentos de idade são frequentemente usados no lugar das idades reais. Os preços de ingressos de cinema para crianças podem ser para crianças com 12 anos ou menos, ou uma pesquisa pode pedir que você selecione sua faixa etária, como 20-24, 25-30 etc.

Os Histogramas são usados para visualizar a distribuição de dados numéricos que usam a compartimentalização. Um histograma é semelhante a um gráfico de barras, mas em vez de ser categorias discretas por barra, os retângulos que compõem o histograma abrangem um compartimento de um eixo contínuo, como o intervalo da quantidade de flores (0-4, 5-9, 10-14 etc.). A altura dos retângulos é determinada pela frequência ou contagem desses valores. Aqui, o eixo Y é a contagem de plantas que entram em cada compartimento. Sete plantas têm 0-4 flores, duas plantas têm 5-9 flores, e 43 plantas têm 20-24 flores.

Histograma do número de flores por número de plantas

No Tableau Prep, a exibição resumida é um histograma de valores compartimentalizados. A exibição detalhada mostra a frequência de cada valor e tem uma barra de rolagem visual ao lado que mostra a distribuição geral dos dados.

Exibição resumidaExibição detalhada
captura de tela da exibição de resumo no Tableau Prepcaptura de tela da exibição de detalhes no Tableau Prep

Distribuições e atipicidades

Ver a distribuição de um conjunto de dados pode ajudar com a detecção de atipicidades.

  • Distribuição: a forma dos dados em um histograma, embora isso dependa do tamanho dos compartimentos. Ser capaz de ver todos os dados em uma exibição de histograma pode ajudar a identificar se os dados parecem corretos e completos. A forma da distribuição só será útil se você conhecer os dados e puder interpretar se a distribuição faz ou não sentido.

    • Por exemplo, se olharmos um conjunto de dados do número de casas com internet banda larga de 1940 a 2017, esperaríamos ver uma distribuição muito desequilibrada. No entanto, se olharmos para o número de casas com internet banda larga de janeiro de 2017 a dezembro de 2017, esperaríamos uma distribuição bastante uniforme.

    • Se olharmos para um conjunto de dados de pesquisas no Google para "Tempero de abóbora", esperaríamos ver um pico bastante acentuado no outono, enquanto as buscas por "converter Celsius em Fahrenheit" provavelmente seriam bastante estáveis.

  • Atipicidade: um valor extremo em relação a outros valores. As atipicidades podem ser valores corretos ou indicativos de um erro.

    • Algumas atipicidades estão corretas e indicam anomalias reais; elas não devem ser removidas ou modificadas.

    • Outras atipicidades indicam problemas com a limpeza de dados, como um salário de USD$50 em vez de USD$50.000 porque um ponto foi digitado em vez da vírgula.

Detecção visual de atipicidade com distribuições

Se você visse uma lista como esta:

à primeira vista, não parece estranha. Mas se, em vez de uma lista de rótulos, ela fosse traçada em um eixo contínuo, seria assim:

E é muito mais óbvio que a última observação está mais longe da primeira e pode ser uma atipicidade devido a erros.

Tipos de dados

Os bancos de dados, ao contrário de planilhas, geralmente aplicam regras rígidas sobre tipos de dados. Os tipos de dados classificam os dados em um determinado campo e fornecem informações sobre como os dados devem ser formatados, interpretados e quais operações podem ser feitas nesses dados. Por exemplo, campos numéricos podem ter operações matemáticas aplicadas a eles e od campos geográficos podem ser mapeados.

O Tableau Desktop determina se um campo é uma dimensão ou medida, mas os campos têm outras características que dependem do tipo de dados. Eles são indicados pelo ícone de cada campo (embora alguns tipos compartilhem um ícone). O Tableau Prep usa os mesmos tipos de dados. Se o tipo de dados for aplicado em uma coluna e um valor existente não corresponder ao seu tipo de dados atribuído, ele pode ser exibido como nulo (porque "roxo" não significa nada como um número).

Algumas funções exigem tipos de dados específicos. Por exemplo, você não pode usar CONTAINS com um campo numérico. As funções de tipo são usadas para alterar o tipo de dados de um campo. Por exemplo, a DATEPARSE pode ter uma data de texto em um formato específico e torná-la uma data, permitindo assim coisas como o detalhamento automático na exibição.

ÍconeTipo de dados
Valores de texto (cadeia de caracteres)
Valores da data
Valores de data e hora
Valores numéricos
Valores booleanos (apenas relacionais)
Valores geográficos (usados com mapas)

Dica: para obter mais informações, consulte o artigo da Ajuda sobre Tipos de dados.

Dinamizar e cancelar a dinamização de dados

Dados direcionados a pessoas são frequentemente capturados e gravados em um formato amplo, com muitas colunas. Dados legíveis por máquina, como a preferência do Tableau, são melhores em um formato alto, com menos colunas e mais linhas.

Observação: tradicionalmente, dinamizar dados significa transformar de alto para largo (linhas para colunas), e cancelar a dinamização significa transformar de largo para alto (colunas para linhas). No entanto, o Tableau usa a palavra dinamizar para significar ir de amplo (direcionado as pessoas) a alto (direcionado a máquinas), transformando colunas em linhas. Neste documento, o dinamização terá o sentido usado no Tableau. Para clareza, pode ajudar especificar "dinamizar colunas em linhas" ou "dinamizar linhas em colunas".

Para obter mais informações, consulte os artigos da Ajuda Dinamizar os dados e Dicas para trabalhar com os dados.

Dados amplos

No conjunto de dados WHO sobre malária, há uma coluna para o país, depois uma coluna por ano. Cada célula representa o número de casos de malária daquele país e ano. Nesse formato temos 108 linhas e 16 colunas.

Amplo formato de dados da malária

É fácil para uma pessoa ler e entender esse formato. No entanto, se fôssemos trazer esses dados para Tableau Desktop, teremos um campo por coluna. Temos um campo para 2000, um campo para 2001, um campo para 2002 etc.

Captura de tela de dados de malária com formatação ampla no Tableau Desktop

Para pensar de outra forma, há 15 campos que representam a mesma coisa básica: número de casos notificados de malária, e nenhum campo único para o tempo. Isso torna muito difícil fazer análises ao longo do tempo, pois os dados são armazenados em campos separados.

Exemplo: trabalhando com dados amplos

P: Como criaríamos um mapa que mostra o número total de casos de malária por país de 2000 a 2014? 

R: Crie um campo calculado para somar todos os anos.

Observação: esta imagem não foi atualizada para refletir a interface do usuário mais atual. O painel Dados não mostra mais Dimensões e Medidas como rótulos.

 

Outra indicação de que esse formato não é o ideal para análise pode ser vista no fato de que em nenhum lugar temos informações sobre o que os valores reais significam. Na Argélia em 2012, temos o valor 55. Cinquenta e cinco o quê? Não está claro a partir da estrutura dos dados.

Se o nome da coluna não estiver descrevendo quais são os valores, mas transmite informações adicionais, este é um sinal de que os dados precisam ser dinamizados.

Dados altos

Se dinamizarmos os dados, os remodelaremos de largo a alto. Agora, em vez de ter uma coluna para cada ano, temos uma única coluna, Ano, e uma nova coluna, Casos relatados. Nesse formato temos 1.606 linhas e 3 colunas. Esse formato de dados é mais alto do que largo.

Agora, no Tableau Desktop, temos um campo Ano e um campo Casos relatados, bem como o campo original País. É muito mais fácil fazer a análise, pois cada campo representa uma qualidade única sobre o conjunto de dados: localização, tempo e valor.

Observação: esta imagem não foi atualizada para refletir a interface do usuário mais atual. O painel Dados não mostra mais Dimensões e Medidas como rótulos.

Exemplo: trabalhando com dados altos

P: Como criaríamos um mapa que mostra o número total de casos de malária por país de 2000 a 2014? 

R: Use o campo Casos relatados.

Observação: esta imagem não foi atualizada para refletir a interface do usuário mais atual. O painel Dados não mostra mais Dimensões e Medidas como rótulos.

Agora é fácil ver que na Argélia em 2012, os 55 se referem ao número de casos relatados (porque poderíamos rotular essa nova coluna).

Observação: nesse exemplo, os dados amplos consistiam em um único registro por país. Com o formato de dados altos, existem agora 15 linhas para cada país (uma para cada um dos 15 anos nos dados). É importante ter em mente que agora há várias filas por país.

Se houvesse uma coluna Área terrestre, esse valor seria repetido para cada uma das 15 fileiras de cada país em uma estrutura de dados alta. Se você criasse um gráfico de barras trazendo País até Linhas e Área terrestre até Colunas, por padrão a exibição resumiria a área terrestre para todas as 15 linhas por país.

Em alguns campos, pode ser necessário compensar os valores de contagem dupla, agregando com uma média ou mínima em vez de soma ou filtragem.

Normalização

Os bancos de dados relacionais são compostos por várias tabelas que podem ser relacionadas ou vinculadas de alguma forma. Cada tabela contém um identificador único, ou chave, por registro. Ao relacionar ou unir colunas nas chaves, os registros podem ser vinculados para fornecer mais informações do que está contido em uma única tabela. As informações que vão para cada tabela dependem do modelo de dados utilizado, mas o princípio geral é a redução da duplicação.

Por exemplo, considere o planejamento de eventos de um evento como um casamento. Precisamos acompanhar as informações no nível de grupos (como famílias ou casais), bem como o nível de indivíduos.

Uma tabela poderia ser criada, que combina todas as informações: 

No entanto, se um endereço estiver incorreto e precisar ser corrigido, ele deverá ser corrigido em várias linhas, potencialmente levando a erros ou conflitos. Uma melhor estrutura é criar duas tabelas, uma para informações relativas ao grupo (como endereço e se o convite foi enviado) e outra para informações relativas aos indivíduos (para coisas como atribuições de assentos e restrições alimentares).

Tabela agrupadaTabela individual

É muito mais fácil monitorar e analisar informações de nível de grupo na tabela de grupos e informações de nível individual na tabela individual. Por exemplo, o número de cadeiras necessárias pode ser obtido a partir da quantidade de registros de Atendente = Sim na tabela individual, e o número de carimbos necessários para agradecimentos pode ser obtido a partir da quantidade de registros na tabela de grupos onde Presentes não é nulo.

O processo de dividir todos os dados em várias tabelas (e descobrir qual tabela contém quais colunas) é chamado de normalização. A normalização ajuda a reduzir dados redundantes e simplifica a organização do banco de dados.

No entanto, pode haver momentos em que são necessárias informações que abrangem várias tabelas. Por exemplo, e se quiséssemos equilibrar arranjos de assentos (individuais) de tal forma que grupos do lado da noiva estão misturados com grupos do lado do noivo? (A afiliação da noiva ou do noivo é rastreada no nível do grupo.) Para isso, precisamos relacionar as tabela de novo para que os indivíduos estejam associados a informações sobre seu grupo. A normalização adequada não é apenas dividir tabelas, mas também requer a presença de um campo compartilhado, relacionado ou identificador único do que pode ser usado para combinar os dados novamente. Aqui, esse campo relacionado é Grupo. Esse campo está presente em ambas as tabelas, para que possamos unir esse campo e retornar ao nosso formato original de tabela única. Esta é um estrutura desnormalizada.

Então por que não mantivemos a tabela original desnormalizada? É mais difícil de manter e ela armazenava informações redundantes. O nível de duplicação de dados pode ser massivo. Armazenar as mesmas informações várias vezes não é eficiente.

As tabelas normalizadas têm algumas propriedades-chave:

  • Cada linha precisa de um identificador único

  • Cada tabela precisa de uma coluna ou colunas que possam ser usadas para conectá-la de volta a outras tabelas (chave).

Essas colunas compartilhadas (chave) são usadas para relacionar unir tabelas novamente. Nos nossos dados, a cláusula de relacionamento ou de união de colunas estaria no campo Grupo de cada tabela.

Tipo de união de colunas

Embora o método padrão de combinar dados no Tableau Desktop esteja relacionado, há casos em que você pode querer unir colunas de tabelas no Tableau Desktop ou no Tableau Prep Builder. Para obter uma visão geral básica dos tipos de uniões de coluna, consulte Unir colunas de dados.

Dados "arrumados"

Hadley Wickham publicou um artigo em 2014 no Journal of Statistical Software chamado "Tidy Data" (agosto de 2014, Volume 59, Edição 10). Esse artigo faz um excelente trabalho ao estabelecer um quadro para dados bem estruturados para análise. O artigo pode ser encontrado aqui (Portfólio Acadêmico de Hadley Wickham)(O link abre em nova janela) ou aqui (hospedado por r-project.org)(O link abre em nova janela).

Observação: o artigo está hospedado em sites externos. A Tableau não pode ser responsabilizada pela exatidão ou pela atualidade de páginas mantidas por provedores externos. Entre em contato com os proprietários se você tiver dúvidas a respeito do conteúdo deles.

Agradecemos seu feedback!Seu feedback foi enviado. Obrigado!