Encontrar bons conjuntos de dados
Uma boa maneira de aprender a usar o Tableau Desktop (ou construir amostras ou conteúdo de prova de conceito) é encontrar um conjunto de dados que você ache interessante. Quando você tem perguntas reais que deseja responder com dados, as etapas da análise se tornam mais fáceis e significativas.
A realidade dos conjuntos de dados
Há dois fatos inevitáveis sobre tentar encontrar um conjunto de dados que não seja de dados oficiais, sancionados por negócios.
Você não vai encontrar o que está procurando.
- Tente evitar expectativas estritas do que você precisa.
- Mantenha-se flexível e de mente aberta sobre o que pode usar para um determinado projeto.
- Às vezes, os dados que você quer estão por trás de um paywall; decida se vale ou não a pena.
Você terá que limpar os dados.
- Esteja preparado para limpeza e formatação(O link abre em nova janela) básica para garantir que os dados estejam bem estruturados para análise.
- Você pode precisar trazer conjuntos de dados adicionais(O link abre em nova janela).
- Ter um dicionário de dados ou metadados pode ser vital.
- Os cálculospodem ser necessários.
O que forma um bom conjunto de dados
Um bom conjunto de dados é aquele que se adequa ao seu propósito. Contanto que a necessidade seja atendida, é um bom conjunto de dados. No entanto, existem algumas considerações que podem ajudá-lo a eliminar conjuntos de dados que dificilmente se adequam ao seu propósito. No geral, procure por conjuntos de dados que atendam às seguintes condições:
- Contêm os elementos necessários
- São dados desagregados
- Têm pelo menos algumas dimensões e algumas medidas
- Têm bons metadados ou um dicionário de dados
- São utilizáveis (não em um formato de propriedade, muito confuso, ou muito complicado)
A Superstore é uma das fontes de dados de amostra que acompanha o Tableau Desktop. Por que é um conjunto de dados tão bom?
- Elementos necessários: a Superstore possui datas, dados geográficos, campos com relação hierárquica (Categoria, Subcategoria, Produto), medidas positivas e negativas (Lucro) etc. Há muito poucos tipos de gráficos que você não pode fazer apenas com a Superstore, e poucos recursos que não podem ser usados para demonstrar.
- Desagregado: os dados de nível de linha são cada item em uma transação. Esses itens podem ser acumulados até o nível de pedido (pela ID de pedido) ou por qualquer uma das dimensões (como data, cliente, região etc.)
- Dimensões e medidas: a Superstore tem várias dimensões que nos permitem "dividir e movimentar" por categoria ou cidade, por exemplo. Há também várias medidas e datas, o que abre as possibilidades para tipos de gráficos e cálculos.
- Metadados: a Superstore tem campos e valores bem nomeados. Você não precisa pesquisar o que os valores significam.
- Pequena e limpa: a Superstore tem apenas alguns megabytes, por isso ocupa pouco espaço no instalador do Tableau. Além disso, são dados limpos, com apenas os valores corretos em cada campo e uma boa estrutura de dados.
1. Um bom conjunto de dados tem os elementos necessários para seus propósitos
Se estiver procurando um conjunto de dados para construir uma exibição específica ou para mostrar funcionalidades específicas, certifique-se de que o conjunto de dados tenha os tipos de campos que você precisa. Por exemplo, os mapas são um ótimo visual, mas exigem dados geográficos. As demonstrações básicas muitas vezes envolvem o detalhamento em datas, de modo que os dados precisariam de pelo menos um campo de data (e precisaria ser mais granular do que apenas um ano para mostrar o detalhamento). Nem todos os conjuntos de dados precisam de todos esses elementos; saiba o que você precisa para o seu propósito e não perca tempo com conjuntos de dados que estão faltando elementos-chave.
Elementos comuns para análise:
- Datas
- Dados geográficos
- Dados hierárquicos
- Medidas "interessantes" — variação substancial de magnitude ou valores positivos e negativos
Alguns recursos ou tipos de visualização podem exigir características específicas dos dados, tais como:
- Clusters
- Previsão
- Linhas de tendência
- Filtros de usuário
- Cálculos espaciais
- Certos cálculos
- Gráficos de marcadores
- Gráficos de controle
2. Um bom conjunto de dados são dados desagregados (brutos)
Se os dados forem muito agregados, não há muito que você possa fazer para análise. Por exemplo, se você quiser ver as tendências sobre pessoas que pesquisam "Tempero de abóbora" mas tem dados anuais, você só pode ver uma visão geral de nível muito alto. Idealmente, você vai querer dados diários, para que possa ver o enorme pico quando a Starbucks começar a oferecer #PSL.
O que conta como desagregado pode variar de acordo com a análise. Observe que devido à privacidade ou praticidade, alguns conjuntos de dados nunca serão totalmente granulares. Por exemplo, é improvável que você encontre um conjunto de dados com relatórios caso a caso de casos de malária por endereço, de modo que os totais mensais por região podem ser granulares o suficiente.
Entender a agregação e a granularidade é um conceito crítico por muitas razões; ele afeta coisas como encontrar conjuntos de dados úteis, construir a exibição que deseja, combinar dados corretamente e usar expressões LOD. Agregação e granularidade são extremidades opostas de um espectro.
Agregação refere-se à forma como os dados são combinados, como contagem de todas as pesquisas por Tempero de abóbora ou tomar a média de todas as leituras de temperatura de Seattle em um determinado dia.
- Por padrão, as medidas no Tableau são agregadas. A agregação padrão é SUM. Você pode alterar a agregação para coisas como média, mediana, condado distinto, mínimo etc.
Granularidade refere-se ao quão detalhados estão os dados. O que representa uma linha(também conhecida como registro) no conjunto de dados? Uma pessoa com malária? Os casos totais de malária de uma província no mês? Essa é a granularidade. Conhecer a granularidade dos dados é crucial.
Para obter mais informações, consulte Agregação de dados no Tableau.
3. Um bom conjunto de dados tem dimensões e medidas
Muitos tipos de exibição exigem dimensões e medidas
- Se você só tem dimensões, provavelmente estará limitado a contar, calcular percentuais ou usar o campo Contagem da tabela.
- Se só tem medidas, não poderá dividir os valores por qualquer coisa. Desagregue os dados inteiramente ou trabalhe com SUM ou AVG global etc.
O que não quer dizer que um conjunto de dados com apenas dimensões não pode ser útil. Os dados demográficos são um exemplo de dados com muitas dimensões, e muitas análises em torno da demografia estão contando ou baseadas em percentual. Mas para um conjunto de dados mais rico, é necessário pelo menos algumas dimensões e medidas.
Dimensão numérica Medida contínua Medida discreta
Dimensões e medidas
Os campos são divididos em dimensões e medidas com uma linha horizontal no painel Dados. No Tableau, as dimensões aparecem na exibição como elas mesmas, enquanto as medidas são automaticamente agregadas; a agregação padrão de uma medida é SUM.
- As Dimensões são qualitativas, ou seja, são descritas, não medidas.
- As Dimensões muitas vezes são coisas como cidade ou país, cor dos olhos, categoria, nome da equipe etc.
- As Dimensões geralmente são discretas.
- As Medidas são quantitativas, o que significa que podem ser medidas e registradas com números (numéricas).
- Medidas são muitas vezes coisas como vendas, altura, número de cliques etc.
- As medidas geralmente são contínuas.
Se puder fazer cálculos com um campo, deve ser uma medida. Se você nunca tem certeza se um campo é uma medida ou uma dimensão, pense se pode fazer cálculos significativos com os valores. Há algum significado para AVG (RowID), a soma de dois números da Previdência social, ou dividir um código postal por 10? Não. São dimensões gravadas como números. Pense em quantos países têm códigos postais alfanuméricos; são apenas rótulos, embora nos EUA sejam apenas numéricos. O Tableau pode reconhecer muitos nomes de campo que indicam que um campo numérico é, na verdade, uma ID ou um código postal e tenta criar essas dimensões, mas não é perfeito. Use o teste "eu poderia fazer cálculos com isso?" para decidir se um campo numérico deve ser uma medida ou dimensão e reorganizar o painel Dados conforme necessário.
Observação: embora você possa fazer cálculos com datas (como o cálculo DATEDIFF), a convenção padrão é categorizar datas como dimensões.
Discreto e Contínuo
Os campos Discretos ou Contínuos estão alinhados aos conceitos de dimensão e medida, mas não são idênticos.
- Campos Discretos contêm valores distintos. Eles criam cabeçalhos ou rótulos na exibição células são azuis
- Campos Contínuos "formam um todo ininterrupto". Eles criam um eixo na exibição e as células são verdes
Uma boa forma de entender discreto e contínuo é ver um campo de datas. As datas podem ser discretas OU contínuas.
- Ver as temperaturas médias em agosto ao longo de uma década ou século significa que "Agosto" está sendo usado como uma parte de data discreta e qualitativa.
- Ver a tendência geral nos casos notificados de malária desde 1960 seria necessário um eixo único e ininterrupto, o que significa que a data está sendo usada como um valor contínuo e quantitativo.
Para obter mais informações, consulte Dimensões e medidas, azul e verde.
O Tableau cria pelo menos três campos, não importa qual seja o conjunto de dados:
- Medir nomes (uma dimensão)
- Valores de medida (uma medida)
- TableName(Count) (uma medida)
E se houver campos geográficos no conjunto de dados, o Tableau também cria campos Latitude (gerado) e Longitude (gerado).
Medir nomes e Medir valores são dois campos úteis. Para obter mais informações, consulte Valores de medida e nomes de medida.
Contagem de tabela fornece o número de registros para a tabela contando as linhas. Isso permite ter pelo menos uma medida no conjunto de dados e pode ajudar em alguma análise. Entenda a granularidade dos seus dados (o que uma linha representa) para ser capaz de definir o que a quantidade de linhas significa.
Aqui, cada linha é um dia, então a contagem de tabela seria o número de dias:
Aqui, cada linha é um mês, então a contagem de tabela seria o número de meses:
4. Um bom conjunto de dados tem metadados ou um dicionário de dados
Um conjunto de dados só pode ser útil se você souber o que são os dados. Há poucas coisas mais frustrantes na busca por bons dados do que abrir um arquivo que se parece com isso:
Um bom conjunto de dados é aquele com campos e membros bem rotulados ou um dicionário de dados para que possa rotular novamente os dados você mesmo. Pense na Superstore — é óbvio quais são os campos e seus valores, como Categoria e seus membros Tecnologia, Móveis e Suprimentos de escritório. Ou, para os dados de microbioma definidos na imagem acima, há um dicionário de dados(O link abre em nova janela) que explica cada Fonte (4 é fezes e 12 é estômago) e a taxonomia de cada OTU (OTU3 é uma bactéria do gênero Parabacteroides).
Os dicionários de dados também podem ser chamados de metadados, indicadores, definições de variável, glossários ou várias outras coisas. No final do dia, um dicionário de dados fornece informações sobre nomes de colunas e membros em uma coluna. Essas informações podem ser trazidas para a fonte de dados ou visualização de várias maneiras, incluindo:
- Renomear as colunas para que sejam mais fáceis de entender (isso pode ser feito no próprio conjunto de dados ou no Tableau).
- Fazer um novo alias os membros do campo (isso pode ser feito no próprio conjunto de dados ou no Tableau).
- Criar cálculos para adicionar as informações do dicionário de dados.
- Comentar no campo do Tableau (comentários não aparecem em visualizações publicadas, apenas no ambiente de criação).
- Usar o dicionário de dados como outra fonte de dados e combinar as duas fontes de dados.
Perder um dicionário de dados pode tornar um conjunto de dados inútil. Se estiver marcando um conjunto de dados, marque o dicionário de dados também. Se estiver baixando, baixe ambos e mantenha-os no mesmo lugar.
5. Um bom conjunto de dados é um que você pode usar
Desde que possa entender o conjunto de dados e ele tiver as informações necessárias, até mesmo um pequeno conjunto de dados pode ter muitas informações para análise. Conjuntos de dados menores também são fáceis de armazenar, compartilhar e publicar, e provavelmente terão um bom desempenho.
Da mesma forma, mesmo que encontre o conjunto de dados "perfeito" para suas necessidades, se isso requer um esforço irrealista para limpar, ele não é perfeito no fim das contas. Saber quando se afastar de um conjunto de dados muito confuso é importante.
Por exemplo, este conjunto de dados é de um artigo da Wikipédia sobre frequências de cartas. Ele começou com 84 linhas e 16 colunas (dinamizado em 1.245 linhas e 3 colunas). O arquivo Excel é de 16KB. Mas com alguns grupos, conjuntos, cálculos e outras manipulações, permite análises robustas e visuais interessantes.
Rotular novamente as colunas de dados
Ao encontrar um bom conjunto de dados, muitas vezes você precisará rotulá-lo novamente. A nova rotulagem de dados pode ser útil para criar dados falsos para amostras ou provas de conceitos, ou para tornar os dados mais legíveis.
Renomear um campo muda a forma como esse campo aparece no Tableau, como renomear "Vendas" para "Vendas de gasodutos" ou "Estado" para "Província".
O novo alias muda a forma como os membros de um campo são exibidos, como fazer um novo alias de valores em um campo de país para que o CHN se torne China e RUS se torne Rússia.
- Os valores em um campo de dimensão discreto são chamados de membros. Apenas membros podem ter um novo alias. Considere um campo de medida para a temperatura. Um valor de 54°F não pode ser alterado sem alterar os dados em si. Mas fazer o novo alias do membro "CHN" como "China" em um campo de país é a mesma informação, apenas rotulada de outra maneira.
Renomear e fazer um novo alias significa quase a mesma coisa. É a convenção no Tableau que os campos sejam nomeados e os membros tenham um novo alias. Para obter mais informações, consulte Organizar e personalizar campos do painel Dados e Criar aliases para renomear membros na exibição.
Observação: renomear ou dar um novo alias só altera a aparência no Tableau Desktop; nenhuma alteração é gravada de volta nos dados subjacentes.
Rotular novamente tornar dados falsos
Rotular novamente os conjuntos de dados existentes é uma ótima maneira de tornar as amostras ou conteúdo de prova de conceito mais atraentes.
- Use um conjunto de dados fácil (como a Superstore) para construir o que quiser (um tipo de gráfico específico, mostrando certas funcionalidades etc.)
- Renomeie os campos relevantes, altere as dicas de ferramentas e altere os aspectos textuais para mascarar o que os dados realmente representam.
Importante: só faça isso quando estiver claro que a informação é falsa. Tenha cuidado para que as pessoas não pensem que são dados reais e tentam usá-los para análise. Por exemplo, use nomes bobos ou nomes de campo sem sentido, como cores ou animais.
Dar um novo alias para tornar os dados mais fáceis de usar
É mais eficiente armazenar os dados como valores numéricos, em vez de valores de cadeia de caracteres, embora a codificação numérica possa tornar os dados mais difíceis de entender. Em pequenos conjuntos de dados, provavelmente não afetará o desempenho, então priorize ser capaz de entender os dados facilmente.
Uma desvantagem para do novo alias é que você não tem mais acesso a esses valores numéricos (tornando mais difícil fazer coisas como classificar, atribuir gradientes de cores etc.). Considere duplicar o campo e dar um novo alias à cópia. Como alternativa, um cálculo no Tableau pode ser uma boa forma de manter as informações originais, ao mesmo tempo em que as torna mais fáceis de compreender.
Novo alias com a função CASE
Os cálculos podem ser muito poderosos para um novo alias. Por exemplo, as funções CASE permitem que você diga "quando este campo tiver um valor de A, me dê X. Quando o valor for B, me dê Y".
Aqui, a função CASE analisa a escala F em um conjunto de dados de tornado e fornece a descrição por escrito associada a cada valor numérico:
CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END
Agora podemos escolher usar o campo original "F-scale" (0-5) ou o campo "F-scale damage description" na visualização.
Dicas ao procurar por conjuntos de dados
Observação: tente ter certeza de que pode responder à pergunta "O que uma linha (também conhecida como registro) no conjunto de dados representa?" Se não puder articular isso, pode não entender bem os dados para ser capaz de usá-los ou pode ser mal estruturado para análise.
- Acompanhe de onde vieram os dados.
- Mantenha as informações do dicionário de dados com os próprios dados.
- Evite dados obsoletos se precisar do conteúdo se mantenha perene. Procurar:
- dados atualizáveis (ações, clima, relatórios publicados regularmente etc.)
- dados atemporais (a massa média de vários animais não vai mudar de ano para ano)
- dados que você tornar à prova de futuro mudando artificialmente para datas históricas ou futuras
- Tente simplesmente pesquisar no Google o que está procurando, você pode ficar surpreso.
- Não tenha medo de desistir de um conjunto de dados se for muito trabalhoso para preparar.
Lugares para procurar por dados
Onde você pode procurar por dados? Há uma quantidade esmagadora de lugares para procurar por conjuntos de dados. Aqui estão algumas opções para você começar. Observe que a realidade dos conjuntos de dados se aplica a esses sites; você provavelmente não encontrará o que está pensando agora, e provavelmente precisará fazer alguma limpeza para obter os dados prontos para análise.
Isenção de responsabilidade: ainda que façamos todos os esforços para assegurar que os links para sites externos sejam precisos, estejam atualizados e sejam relevantes, o Tableau não pode se responsabilizar pela precisão ou atualização das páginas mantidas por provedores externos. Listar um site aqui não é um endosso de qualquer conteúdo ou organização. Entre em contato com o site externo para obter respostas para perguntas relacionadas ao conteúdo dele.
Tableau Public(O link abre em nova janela): o Tableau Public é um recurso incrível para conjuntos de dados direcionados ao Tableau. Procure por pastas de trabalho que estejam em um tópico que você está interessado, procure por inspiração e baixe a pasta de trabalho para acessar os dados. Ou confira os dados de amostra(O link abre em nova janela) curados.
Tabelas da Wikipédia(O link abre em nova janela): obtenha dados das tabelas da Wikipédia ao: copiar e colar em uma planilha, copiar e colar diretamente no Tableau ou usar planilhas do Google e a função IMPORTHTML(O link abre em nova janela)para criar uma planilha do Google dos dados.
Pesquisa de conjunto de dados do Google(O link abre em nova janela): "Um mecanismo de busca para unir o mundo fragmentado dos conjuntos de dados on-line."
Os dados são plural(O link abre em nova janela): assine um informativo semanal com conjuntos de dados ou navegue pelo arquivo(O link abre em nova janela).
Segunda-feira de reformulação(O link abre em nova janela): "Junte-se a nós todas as segundas-feiras para trabalhar com um determinado conjunto de dados e criar exibições melhores e mais eficazes e nos ajudar a tornar as informações mais acessíveis." Veja o que outras pessoas fizeram com o mesmo conjunto de dados, iniciando sua análise ou dando inspiração. Use #makeovermonday(O link abre em nova janela) no Twitter para participar.
Outros sites
- Conectores de dados da Web do Tableau(O link abre em nova janela)
- Data.world(O link abre em nova janela) e seu WDC para Tableau(O link abre em nova janela)
- Dados Abertos do Github(O link abre em nova janela)
- Kaggle(O link abre em nova janela)
- datahub.io(O link abre em nova janela)
- r/datasets(O link abre em nova janela)
- WHO(O link abre em nova janela)
- Data.UN.org(O link abre em nova janela)
- WorldBank(O link abre em nova janela)
- data.gov(O link abre em nova janela), data.gov.au(O link abre em nova janela), data.gov.uk(O link abre em nova janela) etc.
- Airbnb(O link abre em nova janela)
- Yelp(O link abre em nova janela)
- Zillow(O link abre em nova janela)