Configurar o conjunto de dados
Observação: a partir da versão 2020.4.1, é possível criar e editar fluxos no Tableau Server e Tableau Cloud. O conteúdo deste tópico se aplica a todas as plataformas, salvo observação específica. Para obter mais informações sobre os fluxos de criação na Web, consulte Tableau Prep na Web na ajuda do Tableau Server(O link abre em nova janela) e Tableau Cloud(O link abre em nova janela)
Para determinar com quanto de seu conjunto de dados trabalhar no fluxo, você pode configurar seu conjunto de dados. Quando você se conecta aos seus dados ou arrasta tabelas para o painel Fluxo, uma etapa de entrada é adicionada automaticamente ao fluxo.
A etapa de entrada é onde você pode decidir quais e quantos dados incluir em seu fluxo. Ela sempre será a primeira etapa no fluxo.
Se estiver conectado a um arquivo de texto do Excel, também será possível atualizar os dados da etapa de entrada. Para obter mais informações, consulte Adicionar mais dados na etapa de entrada(O link abre em nova janela).
Na etapa de entrada, você pode:
- Clicar com o botão direito do mouse ou clique pressionando a tecla Cmd (MacOS) na etapa de entrada no painel de fluxo para renomeá-la ou removê-la.
- Una as linhas de vários arquivos no mesmo diretório principal ou secundário. Para obter mais informações, consulte Unir linhas de arquivos e tabelas de banco de dada na etapa de entrada.
- (versão 2023.1 e posterior) Inclua números de linha gerados automaticamente com base na ordem de classificação original de seu conjunto de dados. Consulte Incluir números de linha do seu conjunto de dados.
- Pesquisar campos.
- Veja exemplos de valores de campo.
Defina as propriedades do campo alterando o nome do campo ou as configurações de texto para arquivos de texto.
Observação: valores de campo que incluam colchetes serão convertidos automaticamente em parenteses.
- Execute ações para alterar os dados com os quais você trabalha em seu fluxo. Consulte Definir o tamanho da amostra de dados
- Configure a amostra de dados ingerida em seu fluxo.
- Remova os campos de que você não precisa. Você sempre pode voltar para a etapa de entrada e incluí-los mais tarde.
- Oculte os campos que você não precisa limpar, mas ainda deseja incluir na saída de fluxo. Você poderá mostrá-los a qualquer momento, se precisar deles.
- Aplique filtros a campos selecionados.
Altere o tipo de dados do campo para conexões de dados que o suportem.
Estão inclusos o Microsoft Excel, arquivos de texto e PDF, dados do Box, Dropbox, Google Drive e OneDrive. Para outras fontes de dados, você pode alterar o tipo de dados em uma etapa de limpeza.
Para obter mais informações, consulte Consultar os tipos de dados atribuídos aos seus dados
Incluir números de linha do seu conjunto de dados
Compatível com o Tableau Prep Builder versão 2023.1 e posterior e na Web para Microsoft Excel e arquivos de texto (.csv).
Observação: essa opção não é aceita atualmente para arquivos incluídos em uma união de linhas de entrada.
A partir da versão 2023.1, o Tableau Prep gera automaticamente números de linha com base na ordem de classificação original de seus dados que você pode incluir como um novo campo em seu fluxo. Está disponível apenas para tipos de arquivo Microsoft Excel ou Texto (.csv).
Em liberações anteriores, se você quisesse incluir esses números de linha, precisava adicioná-los manualmente à origem antes de adicionar o conjunto de dados ao seu fluxo.
Esse campo é gerado na etapa de entrada quando você se conecta aos seus dados. Por padrão, ele é excluído do fluxo, mas você pode incluí-lo com um clique. Se você optar por incluí-lo, ele se comportará como qualquer outro campo e poderá ser usado em suas operações de fluxo e campos calculados.
O Tableau Prep também oferece suporte à função ROW_NUMBER para campos calculados. Essa função é útil quando há campos em seu conjunto de dados que podem definir a classificação, como ID da linha ou carimbo de data/hora. Para obter mais informações sobre como usar essa função, consulte Criar nível de detalhe, classificação e cálculos de bloco.
Adicionar o campo Número de linha de origem ao seu fluxo
Clique com o botão direito do mouse ou com a tecla Cmd pressionada (MacOS) no campo ou clique no menu Mais opções
e selecione Incluir campo.
A lista de alterações é limpa, o campo agora faz parte dos dados de fluxo e você pode ver os números de linha gerados nas etapas de fluxo subsequentes.
Detalhes do número da linha da fonte
Quando você inclui o Número da linha da fonte em seu conjunto de dados, as opções a seguir e considerações se aplicam.
- Os números de linha da fonte de dados são aplicados antes de qualquer amostragem ou filtro de dados.
- Isso cria um novo campo chamado Número da linha da fonte que persiste ao longo do fluxo. Esse nome de campo não está localizado, mas pode ser renomeado a qualquer momento.
- Se já existir um campo com esse nome, o novo nome de campo será incrementado em 1. Por exemplo, Número da linha da fonte 1, Número da linha da fonte 2, e assim por diante.
- Você pode alterar o tipo de dados do campo nas etapas subsequentes.
- Você pode usar esse campo em operações e cálculos de fluxo.
- Esse valor é regenerado para todo o conjunto de dados sempre que os dados de entrada são atualizados ou o fluxo é executado.
- Esse campo não está disponível para uniões de entrada.
Conectar a uma consulta SQL personalizada
Se seu banco de dados for compatível com o uso do SQL personalizado, você verá SQL personalizado exibido próximo à parte inferior do painel Conexões. Clique duas vezes em SQL personalizado para abrir a guia SQL personalizado, onde poderá inserir consultas para pré-selecionar dados e usar operações específicas da fonte. Depois que a consulta recuperar o conjunto de dados, é possível selecionar os campos a serem incluídos, aplicar filtros ou alterar o tipo de dados antes de adicionar os dados ao fluxo.
Para obter mais informações sobre o uso de SQL personalizado, consulte Usar SQL personalizado para conectar-se aos dados..
Aplicar operações de limpeza na etapa de entrada
Apenas algumas operações de limpeza estão disponíveis em uma etapa de entrada. Qualquer uma das alterações a seguir é permitida na lista Campo de entrada. Suas alterações são monitoradas no painel Alterações e as anotações são adicionadas à etapa de entrada no painel Fluxo e na lista Campo de entrada.
- Ocultar campo: oculte campos em vez de removê-los para reduzir a confusão em seu fluxo. Você sempre poderá mostrá-los se precisar deles. Os campos ocultos ainda serão incluídos na saída quando você executar seu fluxo.
- Filtro: use o editor de cálculo para filtrar valores ou, a partir da versão 2023.1, você também pode usar a caixa de diálogo Filtro de data relativa para especificar rapidamente intervalos de datas para qualquer data ou campos de data e hora.
Renomear campo: no campo Nome de campo, clique duas vezes ou pressione Ctrl e clique (MacOS) no nome do campo e insira um novo nome.
Alterar tipo de dados: clique no tipo de dados do campo e selecione um novo tipo de dados no menu. Essa opção é suportada atualmente para Microsoft Excel, arquivos de texto e PDF, Box, Dropbox, Google Drive e fontes de dados OneDrive. Todas as outras fontes de dados podem ser alteradas em uma etapa limpa.
Selecionar campos a serem incluídos no fluxo
Observação: a partir da versão 2023.1, você pode selecionar vários campos para ocultá-los, mostrá-los, removê-los ou incluí-los. Em versões anteriores, você pode trabalhar com um campo por vez e marcar ou desmarcar as caixas de seleção para incluir ou remover campos.
O painel Entrada mostra uma lista de campos em seu conjunto de dados. Por padrão, todos os campos são incluídos, exceto o campo gerado automaticamente, Número da linha da fonte. Use as opções a seguir para gerenciar seus campos.
- Pesquisar: pesquisa campos na lista.
- Ocultar: clique no ícone de olho
ou selecione Ocultar campos no menu Mais opções
para ocultar campos que você deseja incluir na saída de fluxo, mas não precisa limpar. Os campos são processados pelo fluxo durante o tempo de execução. Além disso, você pode Mostrar os campos sempre que precisar deles. Para obter mais informações, consulte Ocultar campos(O link abre em nova janela).
- Incluir campos: selecione uma ou mais linhas e clique com o botão direito do mouse, clique em Cmd (MacOS) ou clique no menu Mais opções
e selecione Incluir campos para adicionar de volta os campos marcados como removidos.
- Remover campos: selecione uma ou mais linhas e clique com o botão direito do mouse, clique em Cmd (MacOS), clique no "X" ou clique no menu Mais opções
e selecione Remover campos para remover os campos que você não deseja incluir no fluxo.
Aplicar filtros a campos na etapa de entrada
Aplique filtros na etapa de entrada para reduzir a quantidade de dados que você ingere de suas fontes de dados. Você pode obter eficiência de desempenho interativo e uma amostra de dados mais útil eliminando os dados que não deseja processar ao executar o fluxo.
Na etapa de entrada, você pode aplicar filtros usando o Editor de cálculo. A partir da versão 2023.1, você também pode usar a caixa de diálogo Filtro de data relativa para especificar um intervalo de datas exato de valores a serem incluídos nos tipos de campo de data e data e hora. Para obter mais informações, consulte "Filtro de data relativa" em Filtrar dados(O link abre em nova janela).
Você pode usar outras opções de filtro na etapa Limpar ou outros tipos de etapa. Para obter mais informações, consulte Filtrar dados(O link abre em nova janela).
Aplicar um filtro de cálculo
Na barra de ferramentas clique em Filtrar valores, ou na grade do campo, clique no botão Mais opções
menu e selecione Filtro > Cálculo ....
Insira o critério de filtragem no editor de cálculo.
Aplicar um filtro de data relativa
Na grade de entrada, selecione um campo com um tipo de dados de data ou data e hora. Em seguida, clique com o botão direito do mouse, clique em Cmd (MacOS) ou clique no menu Mais opções
e selecione Filtro > Datas relativas.
Use o Filtro de datas relativas para especificar o intervalo exato de anos, trimestres, meses, semanas ou dias que você deseja ver nos dados. Além disso, é possível configurar uma referência relativa a uma data específica e incluir valores nulos.
Observação: por padrão, o filtro opera em relação à data em que o fluxo é executado ou visualizado na experiência de criação.
Alterar nomes de campo
Para alterar o nome de um campo, na coluna Nome de campo, selecione o nome, em seguida digite o novo nome no campo. Uma anotação é adicionada na grade do campo e no painel Fluxo à esquerda da etapa de entrada. As alterações também serão rastreadas no painel Alterações.
Alterar tipos de dados
Atualmente compatível com arquivos do Microsoft Excel, de texto e PDF, Box, Dropbox, Google Drive e fontes de dados OneDrive. Todas as outras fontes de dados podem ser alteradas em uma etapa limpa.
Observação: o tipo de dados para Número de linha da fonte (versão 2023.1 e posterior) só pode ser alterado em uma etapa de Limpeza ou outro tipo de etapa.
Para alterar o tipo de dados de um campo, realize as ações a seguir:
Clique no tipo de dados do campo.
Selecione o novo tipo de dados no menu.
Você também pode alterar o tipo de dados para campos em outros tipos de etapa no fluxo ou atribuir funções de dados para ajudar a validar os valores de campo. Para obter mais informações sobre como alterar o tipo de dados ou usar funções de dados, consulte Consultar os tipos de dados atribuídos aos seus dados(O link abre em nova janela) e Usar funções de dados para validar seus dados(O link abre em nova janela).
Configurar propriedades de campo
Ao trabalhar com arquivos de texto, você verá uma guia Configurações onde é possível editar a conexão e configurar as propriedades de texto, como o separador de campo para arquivos de texto. Também é possível editar a conexão do arquivo no painel Conexões ou configurar atualizações incrementais. Para obter mais informações sobre como configurar atualização incremental para o fluxo, consulte Atualizar dados de fluxo usando a atualização incremental.
Ao trabalhar com arquivos de texto e Excel, é possível corrigir os tipos de dados que foram inferidos incorretamente antes mesmo de iniciar o fluxo. Os tipos de dados sempre poderão ser alterados nas etapas subsequentes do painel Perfil após iniciar o fluxo.
Configurar definições de texto em arquivos de texto
Para alterar as configurações usadas na analise de arquivos de texto, selecione das opções a seguir:
A primeira linha contém o cabeçalho (padrão): selecione essa opção para usar a primeira linha como os rótulos de campo.
Gerar nomes de campo automaticamente: selecione essa opção se desejar que o Tableau Prep Builder gere os cabeçalhos de campo automaticamente. A convenção de nomenclatura do campo segue o mesmo modelo do Tableau Desktop. Por exemplo F1, F2 e assim por diante.
Separador de campo: selecione um caractere da lista para usar na separação de colunas. Selecione Outro para inserir um caractere personalizado.
Qualificador de texto: selecione o caractere que contenha os valores no arquivo.
Conjunto de caracteres: selecione um conjunto de caracteres que descreva a codificação do arquivo de texto.
Localidade: selecione a localidade a ser usada para pesquisar por arquivos. Essa configuração indica qual separador de decimal e milhar usar.
Definir o tamanho da amostra de dados
Por padrão, o Tableau Prep limita os dados incluídos no fluxo a uma amostra representativa de seu conjunto de dados para manter um alto desempenho. A amostra de dados é determinada pelo cálculo do número ideal de linhas baseado no número total de campos no conjunto de dados e os tipos de dados desses campos. Em seguida, o Tableau Prep recupera o número principal de linhas da quantidade calculada da forma mais rápida possível.
A amostra de dados resultante pode incluir ou não todas as linhas necessárias, dependendo de como ela foi calculada e retornada. Caso não veja os dados esperados, é possível alterar as configurações da amostra de dados para executar a consulta novamente.
Ao criar ou editar fluxos na Web, os limites são aplicados à quantidade de dados que podem ser incluídas em um fluxo, e as opções disponíveis para alterar sua amostra de dados são ligeiramente diferentes de quando se trabalha no Tableau Prep Builder. Para obter mais informações, consulte Amostragem de dados e processamento de limites, na ajuda do Tableau Server(O link abre em nova janela) ou do Tableau Cloud(O link abre em nova janela).
Observação: se seus dados forem de amostra, um selo de Amostra será exibido no painel Perfil e persistirá em cada etapa adicionada. Qualquer alteração feita será aplicada à amostra com a qual estiver trabalhando no fluxo. Todas as alterações se aplicarão a todo o conjunto de dados ao executar o fluxo.
Para alterar as configurações da amostra de dados, selecione uma etapa de entrada, em seguida, na guia Amostra de dados, selecione uma das opções a seguir:
(2023.1—Automático) (2022.4 e anteriores—Quantidade de amostra padrão): o Tableau Prep calcula o número total de linhas a serem retornadas. Esse é o padrão.
(2023.1—Máximo) (2022.4 e anterior—Usar todos os dados: (apenas no Tableau Prep Builder) recupera todas as linhas em seus dados independentemente do tamanho. Isso poderá afetar o desempenho ou fará com que o Tableau Prep Builder atinja o tempo limite.
Observação: para manter o desempenho, mesmo que você selecione essa configuração, um limite de amostra de dados de 1 milhão de linhas é aplicado aos tipos de etapa Agregar e Unir linhas, e um limite de amostra de dados de 3 milhões de linhas é aplicado aos tipos Unir colunas e Dinamizar.
(2023.1—Especificar) (2022.4 e anterior—Número corrigido de linhas): selecione o número de linhas a serem retornados do conjunto de dados. O número recomendado de linhas é de até 1 milhão. Definir o número de linhas para mais de 1 milhão pode afetar o desempenho.
- Em criação na Web: o número máximo de linhas que um usuário pode selecionar ao usar grandes conjuntos de dados é configurado pelo administrador. Como usuário, você pode selecionar o número de linhas até esse limite.
Seleção rápida (padrão): o banco de dados retorna o número de linhas solicitado da forma mais rápida possível. Esse pode ser o primeiro número N de linhas ou as linhas que o banco de dados armazenou em cache na memória de uma consulta anterior.
Amostra aleatória: o banco de dados retorna o número de linhas solicitado mas olha cada linha no conjunto de dados e retorna uma amostra representativa de todas elas. Essa opção pode afetar o desempenho quando os dados são recuperados em um primeiro momento.