Remover linhas em duplicado
Compatível com o Tableau Prep Builder versão 2024.1 e posterior e na Web no Tableau Cloud.
Dados duplicados podem afetar a qualidade dos dados, distorcer os resultados da previsão e desperdiçar espaço de armazenamento. A remoção de duplicatas garante que cada valor seja único, fornecendo uma representação precisa dos seus dados. A primeira etapa para remover duplicatas é identificar as linhas duplicadas em seus dados. Depois de identificar duplicatas, você poderá removê-las do fluxo de trabalho.
Identificar e remover duplicatas
O Tableau Prep identifica uma duplicata como qualquer linha que tenha pelo menos uma outra linha com os mesmos valores.
Para identificar e remover linhas duplicadas.
- (Opcional) Para arquivos Excel e de texto, você pode clicar na etapa Entrada e adicionar um campo Número da linha de origem para classificar as linhas pela fonte de dados original. Para obter mais informações, veja Adicionar o campo Número da linha de origem ao seu fluxo e Classificar ordem do campo calculado.
- Clique em qualquer etapa que não seja uma etapa de entrada ou saída.
- Identifique linhas duplicadas.
- Para identificar linhas duplicadas em todos os campos, na barra de ferramentas, clique em Identificar linhas duplicadas.
- Para identificar linhas duplicadas em campos específicos, selecione um ou mais campos e clique em Identificar linhas duplicadas. Opcionalmente, no painel de perfil, você pode clicar no menu Mais opções do campo selecionado e escolha Identificar linhas duplicadas.
Um campo calculado é criado e listado no painel Alterações. O campo calculado fornece uma descrição e os nomes dos campos que as linhas duplicadas abrangem. A grade de dados mostra quais linhas são exclusivas e quais linhas são duplicadas.
A imagem a seguir mostra os resultados da seleção dos dois campos Região e Tipo de item para identificar linhas duplicadas apenas nos campos selecionados.
Se um número de linha de origem estiver disponível, ele será usado para classificar a ordem das linhas. Caso contrário, as linhas serão classificadas com base no primeiro campo do esquema da tabela. Para alterar os valores no campo calculado, você pode editar diretamente o cálculo ou escrever seu próprio cálculo. Confira Classificar ordem do campo calculado.
- Para avaliar linhas duplicadas, clique em Duplicada ou Exclusiva no campo É linha duplicada? ou na grade de dados.
- Para filtrar e manter apenas as linhas exclusivas, clique em Exclusiva na grade de dados ou no campo É linha duplicada? e selecione Manter apenas na barra de ferramentas. Como opção, você pode clicar em Exclusiva na grade de dados ou no campo É linha duplicada? e clicar com o botão direito para selecionar Mantenha apenas.
Você também pode selecionar Duplicada e selecionar Excluir para filtrar dados em busca de duplicatas. Isso produz os mesmos resultados que selecionar Exclusiva e Manter somente e não afeta quais linhas são excluídas ou mantidas.
Um filtro é criado no painel de alterações mostrando que apenas linhas exclusivas são mantidas e linhas duplicadas são excluídas.
- No campo calculado É linha duplicada?, clique no menu Mais opções e selecione Remover.
As linhas duplicadas são removidas quando você executa o fluxo e cria uma saída.
Observação: não remova o campo calculado É linha duplicada? se você estiver ajustando os dados de amostra.
A imagem a seguir mostra linhas duplicadas em todos os campos.
A imagem a seguir mostra linhas duplicadas apenas nos campos Região e Tipo de item.
Duplicatas em dados de amostra
Linhas duplicadas podem não aparecer nos dados amostrados e podem introduzir um viés no modelo.
Para tratar dados de amostra de linhas duplicadas:
- não remova o campo calculado É linha duplicada? se você estiver ajustando os dados de amostra. Isso lhe dá a opção de alterar o tamanho da amostra ou ajustar os dados da amostra na etapa de entrada.
- Ajuste o tamanho da amostra para carregar o máximo de dados possível para seleção de linha. Consulte Definir o tamanho da amostra de dados
- As duplicatas podem não aparecer nos dados de amostra, dependendo do tamanho da amostra. Usando a opção Manter apenas para linhas exclusivas permite remover linhas duplicadas, mesmo que elas não estejam visíveis nos dados de amostra.
Classificar ordem do campo calculado
Por padrão, se várias linhas contiverem o mesmo valor, elas serão classificadas pelo primeiro campo ou, se disponível, pelo número da linha de origem. Os campos são usados para identificar a primeira linha como Exclusiva e as demais como Duplicada. Alterar a ordem de classificação dos campos permite especificar qual linha duplicada você deseja identificar como Exclusiva. Você pode fazer alterações no pedido editando o cálculo e alterando o campo ORDERBY
.
Por exemplo:
IF ({PARTITION [Field1], [Field2], [Field3]: { ORDERBY [FieldName] ASC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Para arquivos Excel e de texto, você pode classificar pela fonte de dados original adicionando um campo Número da linha de origem.
Por exemplo:
IF ({PARTITION [Source Row Number], [Field1], [Field2], [Field3]: { ORDERBY [Source Row Number] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Para obter mais informações, consulte Adicionar o campo Número de linha de origem ao seu fluxo.
Escrever o próprio cálculo de filtro para localizar e remover duplicatas
Você pode escrever seu próprio cálculo de filtro em vários campos para localizar e remover duplicatas.
O cálculo de filtro a seguir retornará apenas resultados que retornem True. O cálculo retorna True ou False com base nos campos usados para PARTITION
{PARTITION [Field1], [Field2], [Field3]: { ORDERBY [Field1] DESC: ROW_NUMBER() } } = 1
Usar CASE
ou IF
para identificar cálculos duplicados
Você pode usar as funções IF
ou CASE
no editor de cálculo. Por exemplo:
CASE {PARTITION [Field1], [Field2], [Field3] : { ORDERBY [[Field3]]: ROW_NUMBER() } } = 1 WHEN TRUE THEN 'UNIQUE' ELSE 'DUPLICATE' END
IF ({PARTITION [[Field1]], [[Field2]], [[Field3]]: { ORDERBY [[Field3]] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END