Arquivo PDF

Este artigo descreve como conectar o Tableau a dados em .pdf e como configurar a fonte de dados.

Observação: o Tableau não é compatível com idiomas de direita para a esquerda (RTL). Se o PDF incluir texto RTL, os caracteres podem ser exibidos em ordem inversa no Tableau.

Conectar-se e verificar o documento em busca de tabelas

  1. Após abrir o Tableau, em Conectar, clique em Arquivo PDF.

  2. Selecione o arquivo ao qual você deseja se conectar e clique em Abrir.

  3. Na caixa de diálogo Verificar arquivo PDF, especifique as páginas no arquivo para o Tableau verificar tabelas. Você pode optar por verificar tabelas em todas as páginas, em somente uma página ou em um intervalo de páginas.

    Observação: a verificação conta a primeira página do arquivo como página 1, similar à maioria dos leitores de PDF. Ao verificar as tabelas, especifique o número de página que o leitor do PDF exibe e não o número de página que talvez seja usado no próprio documento, que pode ou não iniciar na página 1.

    Por exemplo, suponha que deseje usar "Tabela 1" na imagem a seguir. O leitor de PDF exibe um número, e o arquivo .pdf exibe um número diferente. Para verificar corretamente esta tabela, especifique o número de página que o leitor de PDF exibe. Neste exemplo, você especifica a página 15.

  4. Na página da fonte de dados, faça o seguinte:

    1. (Opcional) Selecione o nome da fonte de dados padrão na parte superior da página e, em seguida, insira um nome de fonte de dados exclusivo para uso no Tableau. Por exemplo, use uma convenção de nomeação de fonte de dados que ajude os outros usuários da fonte de dados a deduzir a qual fonte de dados devem se conectar. O nome padrão é gerado automaticamente com base no nome do arquivo.

    2. Se o seu arquivo contém uma tabela, clique na guia da planilha para começar a análise. Caso contrário, arraste uma tabela do painel esquerdo para a tela e clique na guia da planilha para iniciar sua análise.

      Sobre as tabelas no painel esquerdo

      As tabelas que são identificadas no arquivo .pdf recebem nomes exclusivos e são exibidas no painel esquerdo após a verificação. Por exemplo, você pode ver um nome de tabela como "Página 1, Tabela 1". A primeira parte do nome da tabela indica a página no arquivo .pdf em que estava a tabela. A segunda parte do nome da tabela indica o ordem em que a tabela foi identificada. Se o Tableau identificou mais de uma tabela em uma página, a segunda parte do nome da tabela pode indicar um dos dois casos: 

      • O Tableau identificou outra tabela ou subtabela exclusiva na página.
      • O Tableau interpretou a tabela na página de outra maneira. O Tableau pode fornecer várias interpretações de uma tabela dependendo de como ela é apresentada no seu arquivo .pdf.

Exemplo de fonte de dados de arquivo PDF

Veja a seguir um exemplo de fonte de dados do arquivo PDF: 

Obter mais dados

Obtenha mais dados para a sua fonte de dados ao adicionar mais tabelas ou conectar mais dados em um banco de dados diferente.

  • Adicionar mais dados do arquivo atual: 

    • No painel esquerdo, arraste tabelas adicionais para a tela para reunir os dados usando uma união de linhas ou união de colunas. Para obter mais informações, consulte Unir colunas de dados ou Unir linhas de dados.

    • Se as páginas verificadas na etapa 3 do procedimento listado acima não produzirem as tabelas desejadas no painel esquerdo, clique na seta suspensa próxima à conexão do arquivo PDF e clique em Verificar arquivo PDF novamente. Esta opção permite criar uma nova varredura para especificar outras páginas no arquivo .pdf para buscar tabelas.

  • Adicionar mais dados de um banco de dados diferente: No painel esquerdo, clique em Adicionar perto de Conexões. Para obter mais informações, consulte Unir colunas de dados.

    Se um conector desejado não estiver listado no painel esquerdo, selecione Dados > Nova fonte de dados para adicionar uma nova fonte de dados. Para obter mais informações, consulte Combinar os dados.

Configurar opções da tabela

Você pode definir as opções de tabela. Na tela, clique na seta suspensa da tabela e, em seguida, especifique se os dados incluem nomes de campo na primeira linha. Neste caso, esses nomes se tornarão os nomes dos campos no Tableau. Se os nomes de campo não estiverem incluídos, o Tableau os gerará automaticamente. É possível renomear os campos mais tarde.

Usar o Interpretador de dados para limpar seus dados

Se o Tableau detectar que pode ajudar a otimizar sua fonte de dados para análise, você receberá um aviso para usar o Interpretador de dados. O Interpretador de dados pode detectar subtabelas que você pode usar e remover a formatação exclusiva que possa causar problemas posteriormente na sua análise. Para obter mais informações, consulte Limpar dados do Excel, CSV, PDF e do Planilhas Google com o Interpretador de dados.

Unir tabelas em arquivos .pdf

É possível unir tabelas em seu arquivo. Para obter mais informações sobre a união de linhas, consulte Unir linhas de dados.

Ao usar uma pesquisa curinga para unir tabelas, o resultado fará parte do escopo das páginas examinadas no primeiro arquivo conectado. Por exemplo, suponha que você tenha três arquivos: A.pdf, B.pdf, e C.pdf. O primeiro arquivo conectado é o A e você limita a varredura por tabelas à página 1. Ao usar a pesquisa curinga para unir as tabelas dos arquivos B e C, as tabelas adicionais incluídas na união podem vir apenas da página 1 do B e da página 1 do C.

Dicas para trabalhar com arquivos .pdf

As dicas abaixo podem ajudá-lo a trabalhar com os arquivos .pdf no Tableau.

  • Use o conector de arquivo PDF para identificar somente as tabelas no seu arquivo .pdf.

    O objetivo principal do conector do arquivo PDF é encontrar e identificar tabelas no arquivo .pdf. Portanto, ele ignora qualquer outra informação no arquivo que não parece fazer parte de uma tabela, incluindo títulos, legendas e notas de rodapé. Se os dados relacionados estiverem armazenados em uma dessas áreas, como no título da tabela, você poderá usar o Tableau para exportar primeiro os dados do arquivo .pdf ao arquivo .csv, adicionar manualmente os dados que estavam armazenados no título da tabela e, em seguida, conectar-se ao o arquivo .csv. Para obter mais informações, consulte Exportar seus dados para o arquivo .csv.

  • Use as tabelas padrão.

    Em geral, o Tableau funciona melhor com tabelas padrão que usam formato tabular.

    Idealmente, as tabelas no seu arquivo .pdf têm cabeçalhos de coluna e valores de linhas em uma única linha, conforme demonstrado no exemplo a seguir.

    As cores e o sombreamento usados dentro ou ao redor das tabelas podem afetar como elas são identificadas.

    As tabelas com formatação exclusiva podem necessitar de alguma limpeza ou edição manual fora do Tableau. A formatação exclusiva pode incluir cabeçalhos hierárquicos, nomes de cabeçalhos que se estendem por várias linhas, valores de linha que se estendem por várias linhas, cabeçalhos de ângulo e tabelas empilhadas, conforme demonstrado nos exemplos a seguir.

    Observação: o Tableau não aceita conexões aos arquivos .pdf gerados pelo software de verificação (reconhecimento óptico de caracteres).

  • Valide os dados.

    Certifique-se de que validou os dados nas tabelas identificadas pelo Tableau no arquivo .pdf. É possível validar os dados usando a grade de dados ou, caso tenha utilizado o Interpretador de dados, a pasta de trabalho resultante.

  • Evite tabelas que se estendem pelas páginas.

    Se o seu arquivo .pdf contém uma tabela que se estende pelas páginas, o Tableau a interpreta como várias tabelas. Para solucionar este problema, use uma união para agrupar as tabelas. Para obter mais informações, consulte Unir linhas de dados.

  • Renomeie os arquivos .pdf cujos nomes contêm caracteres Unicode.

    Após conectar-se a um arquivo .pdf com caracteres Unicode no nome, você deve ver o seguinte erro.

    Para solucionar este problema, renomeie o arquivo usando os caracteres que não são Unicode e conecte-se novamente ao seu arquivo .pdf.

  • Não use arquivos .pdf protegidos por senha.

    Após conectar-se a um arquivo .pdf e verificá-lo em relação a tabelas, o seguinte erro pode aparecer:

    O Tableau mostrará este erro quando não puder acessar o conteúdo do seu arquivo .pdf pois ele é protegido por senha. O Tableau não pode aceitar conexões aos arquivos .pdf protegidos por senha.

  • Os valores alias interpretados de maneira diferente ou incorreta.

    Na grade de dados, observe alguns valores são interpretados de maneira diferente em relação ao arquivo .pdf. Corrija esta interpretação usando aliases para renomear valores específicos em um campo.

    Por exemplo, suponha que você veja a tabela a seguir após conectar ao arquivo .pdf. Algumas abreviações de estado são interpretadas em minúscula e estão destacadas em azul.

    Resolva este problema ao usar aliases para trocar as abreviações de minúsculas para maiúsculas. Para fazer isso, clique na seta suspensa ao lado do nome da coluna e selecione Aliases.

  • Solucione cabeçalhos de coluna interpretados como valores de tabela.

    Na grade de dados, observe que alguns cabeçalhos de coluna no seu arquivo .pdf são interpretados como valores de tabela. Isso ocorre se contiver tabelas com formatação singular ou cabeçalhos hierárquicos no arquivo .pdf. Nesse cenário, tente primeiro o Interpretador de dados. Se o Interpretador de dados não solucionar este problema, considere renomear manualmente as colunas com os nomes apropriados e filtrar os nomes do cabeçalho que estão sendo tratados como valores ao usar os filtros de fonte de dados.

    Por exemplo, suponha que você veja a tabela a seguir após conectar ao arquivo .pdf. Os cabeçalhos das tabelas do arquivo .pdf estão sendo interpretados como valores de tabela, que estão destacados em azul.

    Uma forma de resolver um problema de cabeçalho como esse é seguir as etapas semelhantes às apresentadas a seguir:

    1. Clique duas vezes no nome da coluna e renomeie o F1 como Ano. Repita essa etapa do F2 ao F4 para Carvão, Gás, e Óleo.

    2. Clique o ícone de tipo de dados da coluna Ano e altere para um tipo de dados em numeral. Isso fará com que os valores não-numéricos nessa coluna sejam convertidos em valores nulos.

    3. No canto superior direito da página da fonte de dados, clique em Adicionar, depois, no botão Adicionar e selecione o campo Ano.

    4. Na caixa de diálogo Filtrar, selecione as caixas de seleção Nulo e Excluir.

      As linhas na coluna Ano que contêm valores nulos são removidas da grade de dados, o que afeta as linhas das outras colunas na tabela.

Sobre arquivos .ttde e .hhyper

Você observará arquivos .ttde ou .hhyper ao navegar pelo diretório do computador. Ao criar uma fonte de dados do Tableau que se conecta aos seus dados, o Tableau cria um arquivo .ttde ou.hhyper. Esse arquivo, também conhecido como uma extração clandestina, é usado para ajudar a melhorar a velocidade dos carregamentos de fontes de dados no Tableau Desktop. Embora uma extração clandestina contenha dados subjacentes e outras informações semelhantes à extração do Tableau padrão, ela é salva em um formato diferente e não pode ser usada para recuperar seus dados.

Em algumas situações, pode ser necessário excluir a extração clandestina do computador pessoal. Para obter mais informações, consulte Espaço em disco baixo devido à extração clandestina na base de dados de conhecimento do Tableau.

 

Consulte também

Agradecemos seu feedback!