Configurar o conjunto de dados
Observação: a partir da versão 2020.4.1, é possível criar e editar fluxos no Tableau Server e Tableau Cloud. O conteúdo deste tópico se aplica a todas as plataformas, a menos que indicado. Para obter mais informações sobre os fluxos de criação na Web, consulte Tableau Prep na Web na ajuda do Tableau Server(O link abre em nova janela) e Tableau Cloud(O link abre em nova janela).
Para determinar com quanto de seu conjunto de dados trabalhar no fluxo, você pode configurar seu conjunto de dados. Quando você se conecta aos seus dados ou arrasta tabelas para o painel Fluxo, uma etapa de entrada é adicionada automaticamente ao fluxo.
A etapa de entrada é onde você pode decidir quais e quantos dados incluir em seu fluxo. Ela sempre será a primeira etapa no fluxo.
Se estiver conectado a um arquivo de texto do Excel, também será possível atualizar os dados da etapa de entrada. Para obter mais informações, consulte Adicionar mais dados na etapa de entrada(O link abre em nova janela).
Na etapa de entrada, você pode:
- Clicar com o botão direito do mouse ou clique pressionando a tecla Cmd (MacOS) na etapa de entrada no painel de fluxo para renomeá-la ou removê-la.
- Una as linhas de vários arquivos no mesmo diretório principal ou secundário. Para obter mais informações, consulte Unir linhas de arquivos e tabelas de banco de dada na etapa de entrada.
- (versão 2023.1 e posterior) Inclua números de linha gerados automaticamente com base na ordem de classificação original de seu conjunto de dados. Consulte Incluir números de linha do seu conjunto de dados.
- Pesquisar campos.
- Veja uma prévia de valores de campo.
- Defina as propriedades do campo alterando o nome do campo ou as configurações de texto para arquivos de texto.
Observação: valores de campo que incluam colchetes serão convertidos automaticamente em parenteses.
- Configure a amostra de dados ingerida em seu fluxo. Consulte Definir o tamanho da amostra de dados
- Remova os campos de que você não precisa. Você sempre pode voltar para a etapa de entrada e incluí-los mais tarde.
- Oculte os campos que você não precisa limpar, mas ainda deseja incluir na saída de fluxo. Você poderá mostrá-los a qualquer momento, se precisar deles.
- Aplique filtros a campos selecionados.
- Altere o tipo de dados do campo para conexões de dados que o suportem.
- (versão 2023.3 e posterior) Você pode definir o cabeçalho e a linha inicial para arquivos CSV.
- (versão 2024.1 e posterior) Você pode definir o cabeçalho e a linha inicial para arquivos Excel.
Incluir números de linha do seu conjunto de dados
Compatível com o Tableau Prep Builder versão 2023.1 e posterior e na Web para Microsoft Excel e arquivos de texto (.csv).
Observação: essa opção não estiver aceita atualmente para arquivos incluídos em uma união de linhas de entrada.
A partir da versão 2023.1, o Tableau Prep gera automaticamente números de linha com base na ordem de classificação original de seus dados que você pode incluir como um novo campo em seu fluxo. Está disponível apenas para tipos de arquivo Microsoft Excel ou Texto (.csv).
Em liberações anteriores, se você quisesse incluir esses números de linha, precisava adicioná-los manualmente à origem antes de adicionar o conjunto de dados ao seu fluxo.
Esse campo é gerado na etapa de entrada quando você se conecta aos seus dados. Por padrão, ele é excluído do fluxo, mas você pode incluí-lo com um clique. Se você optar por incluí-lo, ele se comportará como qualquer outro campo e poderá ser usado em suas operações de fluxo e campos calculados.
O Tableau Prep também oferece suporte à função ROW_NUMBER para campos calculados. Essa função é útil quando há campos em seu conjunto de dados que podem definir a classificação, como ID da linha ou carimbo de data/hora. Para obter mais informações sobre como usar essa função, consulte Criar nível de detalhe, classificação e cálculos de bloco.
Adicionar o campo Número de linha de origem ao seu fluxo
Clique com o botão direito do mouse ou com a tecla Cmd pressionada (MacOS) no campo ou clique no menu Mais opções e selecione Incluir campo.
Visualização de dados:
Lista de campos:
A lista de alterações é limpa, o campo agora faz parte dos dados de fluxo e você pode ver os números de linha gerados nas etapas de fluxo subsequentes.
Detalhes do número da linha da fonte
Quando você inclui o Número da linha da fonte em seu conjunto de dados, as opções a seguir e considerações se aplicam.
- Os números de linha da fonte de dados são aplicados antes de qualquer amostragem ou filtro de dados.
- Isso cria um novo campo chamado Número da linha da fonte que persiste ao longo do fluxo. Esse nome de campo não está localizado, mas pode ser renomeado a qualquer momento.
- Se já existir um campo com esse nome, o novo nome de campo será incrementado em 1. Por exemplo, Número da linha da fonte 1, Número da linha da fonte 2, e assim por diante.
- Você pode alterar o tipo de dados do campo nas etapas subsequentes.
- Você pode usar esse campo em operações e cálculos de fluxo.
- Esse valor é regenerado para todo o conjunto de dados sempre que os dados de entrada são atualizados ou o fluxo é executado.
- Esse campo não está disponível para uniões de entrada.
Definir cabeçalho e linha inicial de dados
Compatível com o Tableau Prep Builder versão 2023.3 e posterior, na Web para arquivos de texto (.csv) e na versão 2024.1 e posterior para arquivos Excel (.xls).
É possível definir uma linha específica como linha de cabeçalho de campo e a linha na qual os dados começam para arquivos de Excel e texto (.csv).
Ao conectar-se a arquivos do Excel ou de texto, um cenário comum é que os arquivos sejam formatados com metainformações nas primeiras linhas para torná-los legíveis por humanos. Por padrão, o Tableau Prep interpreta as primeiras linhas de arquivos CSV como a linha do cabeçalho do campo. Os arquivos do Excel são interpretados com base em tipos de campos e linhas vazias. O Tableau Prep pode selecionar uma linha como cabeçalho ou não incluir uma linha de cabeçalho.
Por exemplo, nos arquivos seguintes, STORE DETAILS
é interpretado como a linha do cabeçalho.
Você pode excluir as informações de metadados (1) e fornecer a estrutura para esquema correta de seus dados definindo a linha 3 como o cabeçalho (2) e a linha 4 como a linha para o início dos dados.
Arquivos CSV:
Arquivos do Excel:
Por exemplo, o seguinte mostra as configurações padrão para o cabeçalho da linha e a linha inicial:
A seguir, são mostrados os dados com os metadados excluídos:
Observação: a visualização de dados não reflete alterações nas configurações de amostra de dados.
Configure o cabeçalho e a linha inicial
Usando a visualização de entrada de visualização de dados, você pode inspecionar a estrutura do esquema de seus dados e definir cabeçalho e linhas iniciais para excluir metadados dos dados de origem de entrada.
Você pode definir a linha inicial dos dados para qualquer valor superior ao valor da linha do cabeçalho. Por padrão, o Tableau Prep define a linha inicial dos dados para o próximo número consecutivo após a linha do cabeçalho. Quaisquer linhas entre a linha do cabeçalho e a linha inicial dos dados serão ignoradas.
Observação: a visualização de dados e o interpretador de dados são mutuamente exclusivos. O Interpretador de dados detecta apenas subtabelas em planilhas do Excel e não oferece suporte à especificação da linha inicial de arquivos de texto e planilhas.
- Selecione a etapa de entrada.
- Na barra de ferramentas, clique na visualização de entrada da Visualização de dados.
- Na linha que você deseja definir como cabeçalho, clique no menu Mais opções e selecione Definir como cabeçalho.
- Na linha que você deseja definir como linha inicial de dados, clique no menu Mais opções e selecione Definir como início dos dados. Por padrão, a linha inicial dos dados é definida para o próximo número de linha consecutivo.
O menu Opções de cabeçalho exibe a linha do cabeçalho e o número da linha inicial dos dados. Como opção, você pode definir o cabeçalho e a linha inicial diretamente na caixa de diálogo Opções de cabeçalho.
Vários esquemas em um único arquivo
Se um único arquivo incluir diversas fontes de dados, você poderá criar uma etapa de entrada adicional conectando-se à mesma fonte de dados e, em seguida, definir o cabeçalho e as linhas iniciais de dados para a segunda fonte de dados. Por exemplo, o arquivo a seguir contém uma fonte de dados começando na linha número 3 (1) com um segundo esquema diferente e separado começando na linha número 28 (2).
Para esse tipo de fonte de dados, siga estas etapas.
- Selecione a primeira etapa de entrada.
- Na barra de ferramentas, clique na visualização de entrada da Visualização de dados.
- Na linha que você deseja definir como cabeçalho, clique no menu Mais opções e selecione Definir como cabeçalho.
- Na linha que você deseja definir como linha inicial de dados, clique em Mais opções e selecione Definir como início dos dados. Por padrão, a linha inicial dos dados é definida para o próximo número de linha consecutivo.
- Selecione a próxima etapa de entrada.
- Repita as etapas acima para definir o cabeçalho e a linha inicial para fontes de dados adicionais.
Quaisquer linhas entre a linha do cabeçalho e a linha inicial dos dados serão ignoradas.
União de linhas de várias tabelas
Compatível com o Tableau Prep Builder versão 2024.1 e posterior e na Web para arquivos de texto (.csv).
Você pode unir linhas de várias tabelas de fontes de dados que tenham a mesma estrutura de esquema e linha de metadados.
- Conecte-se aos arquivos e selecione a primeira etapa de entrada.
- Na barra de ferramentas, clique na visualização de entrada da Visualização de dados.
- Na linha que você deseja definir como cabeçalho, clique em Mais opções e selecione Definir como cabeçalho.
- Na linha que você deseja definir como linha inicial de dados, clique em Mais opções e selecione Definir como início dos dados.
- Clique na guia Tabelas e selecione União de linhas de várias tabelas.
- Clique em Aplicar para unir os arquivos e manter a seleção de cabeçalho e linha para todos os arquivos na união de entrada. Isso pressupõe que a estrutura e o esquema nos arquivos unidos de entrada sejam os mesmos.
Conectar a uma consulta SQL personalizada
Se seu banco de dados for compatível com o uso do SQL personalizado, você verá SQL personalizado exibido próximo à parte inferior do painel Conexões. Clique duas vezes em SQL personalizado para abrir a guia SQL personalizado, onde poderá inserir consultas para pré-selecionar dados e usar operações específicas da fonte. Depois que a consulta recuperar o conjunto de dados, é possível selecionar os campos a serem incluídos, aplicar filtros ou alterar o tipo de dados antes de adicionar os dados ao fluxo.
Para obter mais informações sobre o uso de SQL personalizado, consulte Usar SQL personalizado para conectar-se aos dados..
Aplicar operações de limpeza na etapa de entrada
Apenas algumas operações de limpeza estão disponíveis em uma etapa de entrada. Qualquer uma das alterações a seguir é permitida na lista Campo de entrada. Suas alterações são monitoradas no painel Alterações e as anotações são adicionadas à etapa de entrada no painel Fluxo e na lista Campo de entrada.
- Ocultar campo: oculte campos em vez de removê-los para reduzir a confusão em seu fluxo. Você sempre poderá mostrá-los se precisar deles. Os campos ocultos ainda serão incluídos na saída quando você executar seu fluxo.
- Filtro: use o editor de cálculo para filtrar valores ou, a partir da versão 2023.1, você pode usar a caixa de diálogo Filtro de data relativa para especificar rapidamente intervalos de datas para qualquer data ou campos de data e hora.
- Renomear campo: no campo Nome de campo, clique duas vezes ou pressione Ctrl e clique (MacOS) no nome do campo e insira um novo nome.
- Alterar tipo de dados: clique no tipo de dados do campo e selecione um novo tipo de dados no menu. Essa opção é suportada atualmente para Microsoft Excel, arquivos de texto e PDF, Box, Dropbox, Google Drive e fontes de dados OneDrive. Todas as outras fontes de dados podem ser alteradas em uma etapa limpa.
Selecionar campos a serem incluídos no fluxo
Observação: a partir da versão 2023.1, você pode selecionar vários campos para ocultá-los, mostrá-los, removê-los ou incluí-los. Em versões anteriores, você pode trabalhar com um campo por vez e marcar ou desmarcar as caixas de seleção para incluir ou remover campos.
O painel Entrada mostra uma lista de campos em seu conjunto de dados. Por padrão, todos os campos são incluídos, exceto o campo gerado automaticamente, Número da linha da fonte. Use a visualização de dados ou a visualização de lista para gerenciar seus campos.
- Pesquisar: encontrar campos.
- Ocultar campos: oculte os campos que você deseja incluir na saída do fluxo, mas que não precisam ser limpos.
- Na lista de campos, clique no ícone de olho ou selecione Ocultar campos no menu Mais opções.
- Na visualização de dados, selecione Ocultar campos no menu Mais opções.
Os campos são processados pelo fluxo durante o tempo de execução. Além disso, você poderá Mostrar os campos sempre que precisar deles Para obter mais informações, consulte Ocultar campos(O link abre em nova janela).
- Incluir campos: adicione campos ao seu fluxo que foram marcados como removidos.
- Na Lista de campos, selecione uma ou mais linhas e clique com o botão direito do mouse, clique em Cmd (MacOS) ou clique no menu Mais opções e selecione Incluir campos para adicionar de volta os campos marcados como removidos.
- Na visualização de dados, clique no menu Mais opções no campo que você deseja incluir no seu fluxo e selecione Incluir campo.
- Remover campos:
- selecione uma ou mais linhas e clique com o botão direito do mouse, clique em Cmd (MacOS), clique no "X" ou clique no menu Mais opções e selecione Remover campos para remover os campos que você não deseja incluir no fluxo.
- Na Visualização de dados, clique no menu Mais opções no campo que você deseja remover e selecione Remover campo.
Aplicar filtros a campos na etapa de entrada
Aplique filtros na etapa de entrada para reduzir a quantidade de dados que você ingere de suas fontes de dados. Você pode obter eficiência de desempenho interativo e uma amostra de dados mais útil eliminando os dados que não deseja processar ao executar o fluxo.
Na etapa de entrada, você pode aplicar filtros usando o Editor de cálculo. A partir da versão 2023.1, você também pode usar a caixa de diálogo Filtro de data relativa para especificar um intervalo de datas exato de valores a serem incluídos nos tipos de campo de data e data e hora. Para obter mais informações, consulte "Filtro de data relativa" em Filtrar dados(O link abre em nova janela).
Você pode usar outras opções de filtro na etapa Limpar ou outros tipos de etapa. Para obter mais informações, consulte Filtrar dados(O link abre em nova janela).
Aplicar um filtro de cálculo
- Na barra de ferramentas, clique em Filtrar valores. Use um dos seguintes métodos para filtrar seus dados:
Na lista de campos, clique no menu Mais opções no nome do campo e selecione Filtro > Cálculo ....
Na visualização de dados, clique no menu Mais opções no nome do campo e selecione Filtro > Cálculo ....
Insira o critério de filtragem no editor de cálculo.
Aplicar um filtro de data relativa
- Selecione um campo com um tipo de dados Data ou Data e Hora e use um dos métodos a seguir para aplicar um filtro de data relativa.
- Na lista de campos, clique com o botão direito, clique com a tecla Cmd pressionada (MacOS) ou clique no menu Mais opções na coluna Nome do campo e selecione Filtro > Datas relativas.
- Na visualização de dados, clique no menu Mais opções do campo e selecione Filtro > Datas relativas.
Use a caixa de diálogo Filtro de datas relativas para especificar o intervalo exato de anos, trimestres, meses, semanas ou dias que você deseja ver nos dados. Além disso, é possível configurar uma referência relativa a uma data específica e incluir valores nulos.
Observação: por padrão, o filtro opera em relação à data em que o fluxo é executado ou visualizado na experiência de criação.
Alterar nomes de campo
Use um dos métodos a seguir para alterar o nome de um campo.
Uma anotação é adicionada na grade do campo e no painel Fluxo à esquerda da etapa de entrada. As alterações também serão rastreadas no painel Alterações.
- Na Lista de Campos, selecione um campo na coluna Nome do Campo e clique em Renomear campo. Digite um novo nome no campo.
- Na visualização de dados, selecione um campo e clique em Renomear campo. Digite um novo nome no campo.
Alterar tipos de dados
Atualmente compatível com arquivos do Microsoft Excel, de texto e PDF, Box, Dropbox, Google Drive e fontes de dados OneDrive. Todas as outras fontes de dados podem ser alteradas em uma etapa limpa.
Observação: o tipo de dados para Número de linha da fonte (versão 2023.1 e posterior) só pode ser alterado em uma etapa de Limpeza ou outro tipo de etapa.
Para alterar o tipo de dados de um campo, realize as ações a seguir:
- Clique no tipo de dados do campo.
- Selecione o novo tipo de dados no menu.
- Visualização de dados:
- Visualização de campo:
Você também pode alterar o tipo de dados para campos em outros tipos de etapa no fluxo ou atribuir funções de dados para ajudar a validar os valores de campo. Para obter mais informações sobre como alterar o tipo de dados ou usar funções de dados, consulte Consultar os tipos de dados atribuídos aos seus dados(O link abre em nova janela) e Usar funções de dados para validar seus dados(O link abre em nova janela).
Configurar propriedades de campo
Ao trabalhar com arquivos de texto, você verá uma guia Configurações onde é possível editar a conexão e configurar as propriedades de texto, como o separador de campo para arquivos de texto. Também é possível editar a conexão do arquivo no painel Conexões ou configurar atualizações incrementais. Para obter mais informações sobre como configurar atualização incremental para o fluxo, consulte Atualizar dados de fluxo usando a atualização incremental.
Ao trabalhar com arquivos de texto e Excel, é possível corrigir os tipos de dados que foram inferidos incorretamente antes mesmo de iniciar o fluxo. Os tipos de dados sempre poderão ser alterados nas etapas subsequentes do painel Perfil após iniciar o fluxo.
Configurar definições de texto em arquivos de texto
Para alterar as configurações usadas na analise de arquivos de texto, selecione das opções a seguir:
A primeira linha contém o cabeçalho (padrão): selecione essa opção para usar a primeira linha como os rótulos de campo.
Gerar nomes de campo automaticamente: selecione essa opção se desejar que o Tableau Prep Builder gere os cabeçalhos de campo automaticamente. A convenção de nomenclatura do campo segue o mesmo modelo do Tableau Desktop. Por exemplo F1, F2 e assim por diante.
Separador de campo: selecione um caractere da lista para usar na separação de colunas. Selecione Outro para inserir um caractere personalizado.
Qualificador de texto: selecione o caractere que contenha os valores no arquivo.
Conjunto de caracteres: selecione um conjunto de caracteres que descreva a codificação do arquivo de texto.
Localidade: selecione a localidade a ser usada para pesquisar por arquivos. Essa configuração indica qual separador de decimal e milhar usar.
Definir o tamanho da amostra de dados
A seleção de linha estratificada é compatível com o Tableau Prep Builder versão 2023.3 e posterior.
Por padrão, o Tableau Prep determina o número máximo de linhas necessárias para explorar e preparar dados de maneira eficaz para uma amostra representativa do seu conjunto de dados. Com base no algoritmo de amostra do Tableau Prep, quanto mais campos houver nos dados de entrada, menor será o número de linhas permitidas. Quando os dados são amostrados, a amostra resultante pode incluir todas as linhas necessárias — ou não, dependendo de como a amostra foi calculada e retornada. Por exemplo, por padrão, o Tableau Prep usa o método de seleção rápida para amostrar dados. Usando esse método, as linhas superiores são carregadas e, se o seu conjunto de dados for grande e os dados estiverem estruturados cronologicamente, você poderá ver a amostra dos dados mais antigos, mas não uma representação completa de todos os dados. Caso não veja os dados esperados, é possível alterar as configurações da amostra de dados para executar a consulta novamente.
Ao criar ou editar fluxos usando Criação na Web, o número máximo de linhas que um usuário pode selecionar ao usar grandes conjuntos de dados é configurado pelo administrador. Para obter mais informações, consulte Amostragem de dados e processamento de limites, na ajuda do Tableau Server(O link abre em nova janela) ou do Tableau Cloud(O link abre em nova janela).
Preparando seus dados para amostragem
Se você sabe que determinados valores não são obrigatórios para sua análise, remova os campos na etapa Entrada para que os dados não sejam incluídos quando você criar ou executar seu fluxo.
Se você tiver um grande conjunto de dados que aciona a amostragem, a remoção de campos na etapa Entrada aumentará o número de linhas que o Tableau Prep carrega. Quando a amostragem não é aplicada, a remoção de campos na etapa Entrada reduz o volume de dados carregado pelo Tableau Prep.
Depois de remover campos e valores desnecessários do conjunto de dados, você poderá alterar a quantidade de dados carregados para amostragem ou o método de amostragem.
Alteração das configurações de amostra de dados
Os dados de exemplo ajudam na experiência interativa e tornam a edição do fluxo mais eficiente em comparação com a criação de perfil de todos os dados e a aplicação de alterações em conjuntos de dados maiores enquanto você trabalha. Todos os dados são usados quando você executa o fluxo. Quaisquer alterações feitas na seção de amostra se aplicam ao fluxo atual.
Para validar seus dados após a limpeza e modelagem, execute o fluxo e visualize a saída no Tableau Desktop.
Observação: execute o fluxo completo em vez de “visualizar amostra no Tableau Desktop” para poder ver todos os seus dados. Se você encontrar valores inesperados ou incorretos que não estavam na amostra, poderá voltar ao Tableau Prep para resolver o problema.
- Remova campos e valores desnecessários do conjunto de dados.
- Selecione uma etapa de entrada e clique na guia Amostra de dados.
Selecione o número de linhas que deseja carregar para amostragem de dados. O número de linhas que você escolhe afeta o desempenho.
- Automático: (padrão) carrega dados rapidamente e calcula automaticamente o número de linhas para que haja dados suficientes para uma amostra. O número de linhas carregadas é igual ou inferior a 393.216.
Especificar: normalmente usado para carregar um pequeno número de linhas para que você possa entender a estrutura dos dados e ter tempos de carregamento rápidos. Especifique um número de linhas inferior a 1 milhão.
Observação: em criação na Web: o número máximo de linhas que um usuário pode selecionar ao usar grandes conjuntos de dados é configurado pelo administrador. Como usuário, você pode selecionar o número de linhas até esse limite.
- Máximo: carrega o máximo de dados possível para seleção de linha igual ou menor que 1.048.576. Certifique-se de que você tem os Requisitos de alto desempenho para grandes conjuntos de dados.
Selecione o método a ser usado para o número de linhas retornadas para amostragem. O desempenho pode ser afetado quando Aleatório ou Estratificado são escolhidos.
Observação: a seleção de linha só será suportada se sua fonte de dados de entrada aceitar amostragem aleatória. Se a fonte de dados não aceitar amostragem aleatória, o método padrão de Seleção Rápida será usado.
Seleção rápida: (padrão) amostra dados com base no desempenho, pois as linhas são retornadas o mais rápido possível. Algumas linhas podem não ser incluídas na amostra. As linhas usadas para amostragem podem ser o primeiro número N de linhas ou as linhas que o banco de dados armazenou em cache na memória de uma consulta anterior. Embora este seja quase sempre um resultado mais rápido do que a amostragem aleatória, pode devolver uma amostra tendenciosa (como dados de apenas um ano em vez de todos os anos presentes nos dados, se os registos forem ordenados cronologicamente).
Aleatório: permite amostrar um grande conjunto de dados e retornar uma representação geral de toda a seleção de linhas. O Tableau Prep retorna linhas aleatórias com base em todas as linhas selecionadas carregadas. Essa opção pode afetar o desempenho quando os dados são recuperados em um primeiro momento.
- Estratificado: permite agrupar por um campo especificado e, em seguida, amostrar os dados dentro de cada subgrupo. O Prep retorna o número solicitado de linhas distribuídas no campo selecionado para agrupamento da forma mais igualitária possível. Em alguns casos, com base na fonte de dados, isso pode fazer com que alguns valores do campo tenham mais linhas do que outros.
Exemplos
Esses exemplos são baseados no conjunto de dados de indicadores mundiais globais incluído no Tableau Prep. A primeira amostra usa Automático para o número de linhas e Aleatório para o método de amostra ou o número de linhas a serem retornadas para amostragem.
Com esses valores selecionados, 3 K linhas são selecionadas aleatoriamente e usadas para representar todo o conjunto de dados.
A segunda amostra usa Especificar para o número de linhas e Estratificado para o método de amostra. O número especificado de linhas é definido como um valor de 7 e o campo Taxa de natalidade usado para agrupamento.
Os novos valores de amostra mostram uma distribuição unificada de 7 linhas de valores exclusivos em todos os campos.