Limpar dados do Excel, CSV, PDF e do Planilhas Google com o Interpretador de dados

Ao rastrear dados em planilhas do Excel, é possível criá-los levando em consideração a interface humana. Para facilitar a leitura de suas planilhas, é possível incluir títulos, cabeçalhos empilhados, notas, linhas e colunas vazias para adicionar espaço em branco, e é provável que tenha várias guias de dados também.

Quando quiser analisar os dados no Tableau, esses atributos estéticos dificultam que o Tableau interprete seus dados. Confira no que o Interpretador de dados pode ajudar.

Dica: embora os complementos do Excel no Tableau não sejam mais compatíveis, o Interpretador de dados de dados pode ajudá-lo a redefinir seus dados para análise no Tableau.

O que o Interpretador de dados faz?

O Interpretador de dados pode oferecer uma vantagem ao limpar dados. Ele pode detectar títulos, notas, rodapés, células em branco, entre outras coisas e ignorá-los para identificar os campos e valores reais em seu conjunto de dados.

Além disso, ele detecta tabelas e subtabelas adicionais, para que você possa trabalhar com um subconjunto de dados independentemente de outros dados.

Depois que o Interpretador de dados fizer seu trabalho, você pode verificar o resultado e certificar-se de que ele capturou os dados desejados e os identificou corretamente. Em seguida, é possível fazer ajustes necessários.

Após selecionar os dados com os quais deseja trabalhar, pode ser necessário executar algumas etapas de limpeza adicionais, como dinamizar seus dados, dividir campos ou adicionar filtros para obter os dados na forma que desejar antes de começar sua análise.

Observação: se seus dados precisam de mais limpeza que a fornecida pelo Interpretador de dados, tente o Tableau Prep(O link abre em nova janela).

Ativar o Interpretador de dados e analisar os resultados

  1. No painel Conectar, conecte-se a uma planilha do Excel ou outro conector compatível com o Interpretador de dados, como arquivos de texto (.csv), PDF ou planilhas Google.

  2. Arraste uma tabela para a tela (se necessário), em seguida, na página Fonte de dados do , no painel esquerdo, marque a caixa de seleção Usar Interpretador de dados para saber e o Interpretador de dados pode ajudar a limpar seus dados.

    A caixa de seleção Usar intérprete de dados no painel esquerdo da página Fonte de dados.

    Observação: quando você limpa os seus dados com o Interpretador de dados, ele limpa todos os dados associados a uma conexão na fonte de dados. O Interpretador de dados não altera os dados subjacentes.

  3. No painel Dados, clique no link Analisar os resultados para analisar os resultados do Interpretador de dados.

    O link Revisar os resultados no painel Dados.

    Uma cópia da fonte de dados será aberta no Excel, na guia Chave para interpretador de dados. Analise a chave para descobrir como ler os resultados.

    A chave para a guia Interpretador de dados com informações sobre como ler os resultados.

  4. Clique em cada guia para analisar como o Interpretador de dados interpretou a fonte de dados.

    Se o Interpretador de dados tiver encontrado tabelas adicionais, também chamadas de tabelas ou subtabelas, elas são identificadas na guia <sheet name>_subtables destacando seus intervalos de célula. Uma guia separada também é incluída para cada subtabela, com código de cores para identificar o cabeçalho e as linhas de dados.

    Se o Interpretador de dados não fornecer os resultados esperados, desmarque a caixa de seleção Limpo com o Interpretador de Dados para usar a fonte de dados original.

    Caixa de seleção Limpo com Interpretador de dados.

  5. Para substituir a tabela atual por qualquer tabela encontrada, arraste a tabela atual da tela e arraste a tabela encontrada que deseja usar para a tela.

    Se o Interpretador de dados identificou incorretamente o intervalo da tabela encontrada, depois de arrastar a tabela encontrada para tela, clique na seta suspensa nessa tabela e selecione Editar a tabela encontrada para ajustar os cantos da tabela encontrada (a célula superior esquerda e a célula inferior direita da tabela).

    Menu Editar tabela encontrada com opções para ajustar o intervalo da tabela encontrada.

  6. Depois de obter os dados com os quais deseja trabalhar, é possível aplicar qualquer operação de limpeza adicional a seus dados, para que você possa analisá-los.

Exemplo do interpretador de dados

Neste exemplo estamos nos conectando a uma planilha Excel com dados de crimes violentos por cidade e estado no ano de 2016. Essa planilha inclui várias tabelas em uma planilha e uma formatação adicional.

Uma planilha do Excel destacando formatação extra, incluindo um título, células de cabeçalho mescladas, espaço em branco extra e subtabelas.

  1. Título

  2. Células de cabeçalho mescladas

  3. Espaço em branco adicional

  4. Subtabelas

A formatação adicional nesta planilha dificulta que o Tableau determine o que são os cabeçalhos e valores do campo.

Em vez disso, ele lê os dados verticalmente e atribui cada coluna o valor padrão F1, F2, F3 (Campo 1, Campo 2, Campo 3) e assim em diante. As células em branco são lidas como valores nulos.

Os resultados de uma planilha com formatação extra mostram dados lidos verticalmente, atribuem a cada coluna o valor padrão e as células em branco são lidas como valores nulos.

Para ver se o Interpretador de dados pode ajudar a limpar este conjunto de dados, selecionamos Usar Interpretador de dados.

O Interpretador de dados detectou os cabeçalhos adequados dos campos, removeu a formatação adicional e encontrou várias subtabelas. As subtabelas estão listadas na seção Planilhas no painel Dados, e são nomeadas usando o nome da planilha original e os intervalos de célula para cada subtabela.

Neste exemplo, há três subtabelas: Crimes 2016 A4:H84, Crimes 2016 K5:L40 e Crimes 2016 O5:P56.

Os resultados após o uso do Interpretador de dados, que identificou os títulos de campo corretos e removeu formatação extra e subtabelas.

Para examinar os resultados do Interpretador de dados mais de perto, clicamos no link Analisar os resultados no painel Dados para exibir uma cópia de anotação da planilha.

Aqui vemos uma cópia dos dados originais, codificados por cor para identificar quais dados foram identificados como dados do cabeçalho e quais foram identificados como valores de campo.

Uma cópia dos dados originais codificados por cores para identificar os dados do cabeçalho em vermelho e os valores do campo em verde.

A próxima guia mostra as subtabelas que o Interpretador de dados encontrou, definidas pelos intervalos de célula.

Subtabelas encontradas pelo Interpretador de dados, delimitadas por intervalos de células.

Neste exemplo, a primeira subtabela, Crimes 2016 A4:H84, possui o dado principal com o qual queremos trabalhar. Para usar esta tabela como nossa tabela de dados, podemos arrastar a tabela original para fora da tela e depois arrastar a nova tabela para a tela.

A nova tabela adicionada à tela.

Uma vez que temos os dados com os quais queremos trabalhar na tela, podemos fazer algumas limpezas adicionais nele. Podemos, por exemplo:

  • Alterar os nomes de campo para que representem nomes de cidade, estado e mês.

  • Dinamizar os campos de mês.

  • Arraste para a tela a terceira subtabela Crimes 2016 o5:P56 e una a sua primeira subtabela no campo Estado para incluir preenchimentos de estado em sua análise.

  • Oculte qualquer campo duplicado que foi adicionado como resultado da união.

Os resultados podem ficar mais ou menos assim:

Um exemplo de resultados após a limpeza dos dados.

Agora estamos pronto para começar a analisar seus dados no Tableau.

Quando o Interpretador de dados não está disponível

A opção de Interpretador de dados pode não estar disponível pelas seguintes razões:

  • A fonte de dados já está em um formato que o Tableau pode interpretar: se o Tableau Desktop não precisar de ajuda adicional do Interpretador de dados para lidar com a formatação exclusiva ou as informações estranhas, ele não estará disponível.

  • Muitas linhas ou muitas colunas: a opção de Interpretador de dados não está disponível quando seus dados tiverem os seguintes atributos:

    • Os dados contêm mais de 2.000 colunas.

    • Os dados contêm mais de 3.000 linhas e mais de 150 colunas.

  • A fonte de dados não é compatível: o Interpretador de dados está disponível apenas para o Microsoft Excel, arquivos de texto (.csv), de PDF e planilhas Google. Para dados no Excel, os arquivo devem estar nos formatos .xls e .xlsx.