Remover linhas em duplicado
Compatível com o Tableau Prep Builder versão 2024.1 e posterior e na Web no Tableau Cloud.
Dados duplicados podem afetar a qualidade dos dados, distorcer os resultados da previsão e desperdiçar espaço de armazenamento. A remoção de duplicatas garante que cada valor seja único, fornecendo uma representação precisa dos seus dados. A primeira etapa para remover duplicatas é identificar as linhas duplicadas em seus dados. Depois de identificar duplicatas, você poderá removê-las do fluxo de trabalho.
Identificar e remover duplicatas
O Tableau Prep identifica uma duplicata como qualquer linha que tenha pelo menos uma outra linha com os mesmos valores.
Para identificar e remover linhas duplicadas.
- (Opcional) Para arquivos Excel e de texto, você pode clicar na etapa Entrada e adicionar um campo Número da linha de origem para classificar as linhas pela fonte de dados original. Para obter mais informações, veja Adicionar o campo Número da linha de origem ao seu fluxo e Classificar ordem do campo calculado.
- Clique em qualquer etapa que não seja uma etapa de entrada ou saída.
- Identifique linhas duplicadas.
- Para identificar linhas duplicadas em todos os campos, na barra de ferramentas, clique em Identificar linhas duplicadas.
- Para identificar linhas duplicadas em campos específicos, selecione um ou mais campos e clique em Identificar linhas duplicadas. Opcionalmente, no painel de perfil, você pode clicar no menu Mais opções
do campo selecionado e escolha Identificar linhas duplicadas.
Um campo calculado é criado e listado no painel Alterações. O campo calculado fornece uma descrição e os nomes dos campos que as linhas duplicadas abrangem. A grade de dados mostra quais linhas são exclusivas e quais linhas são duplicadas.
A imagem a seguir mostra os resultados da seleção dos dois campos Região e Tipo de item para identificar linhas duplicadas apenas nos campos selecionados.
Se um número de linha de origem estiver disponível, ele será usado para classificar a ordem das linhas. Caso contrário, as linhas serão classificadas com base no primeiro campo do esquema da tabela. Para alterar os valores no campo calculado, você pode editar diretamente o cálculo ou escrever seu próprio cálculo. Confira Classificar ordem do campo calculado.
- Para avaliar linhas duplicadas, clique em Duplicada ou Exclusiva no campo É linha duplicada? ou na grade de dados.
- Para filtrar e manter apenas as linhas exclusivas, clique em Exclusiva na grade de dados ou no campo É linha duplicada? e selecione Manter apenas na barra de ferramentas. Como opção, você pode clicar em Exclusiva na grade de dados ou no campo É linha duplicada? e clicar com o botão direito para selecionar Mantenha apenas.
Você também pode selecionar Duplicada e selecionar Excluir para filtrar dados em busca de duplicatas. Isso produz os mesmos resultados que selecionar Exclusiva e Manter somente e não afeta quais linhas são excluídas ou mantidas.
Um filtro é criado no painel de alterações mostrando que apenas linhas exclusivas são mantidas e linhas duplicadas são excluídas.
- No campo calculado É linha duplicada?, clique no menu Mais opções
e selecione Remover.
As linhas duplicadas são removidas quando você executa o fluxo e cria uma saída.
Observação: não remova o campo calculado É linha duplicada? se você estiver ajustando os dados de amostra.
A imagem a seguir mostra linhas duplicadas em todos os campos.
A imagem a seguir mostra linhas duplicadas apenas nos campos Região e Tipo de item.
Linhas duplicadas podem não aparecer nos dados amostrados e podem introduzir um viés no modelo.
Para tratar dados de amostra de linhas duplicadas:
- não remova o campo calculado É linha duplicada? se você estiver ajustando os dados de amostra. Isso lhe dá a opção de alterar o tamanho da amostra ou ajustar os dados da amostra na etapa de entrada.
- Ajuste o tamanho da amostra para carregar o máximo de dados possível para seleção de linha. Consulte Definir o tamanho da amostra de dados
- As duplicatas podem não aparecer nos dados de amostra, dependendo do tamanho da amostra. Usando a opção Manter apenas para linhas exclusivas permite remover linhas duplicadas, mesmo que elas não estejam visíveis nos dados de amostra.
Por padrão, se várias linhas contiverem o mesmo valor, elas serão classificadas pelo primeiro campo ou, se disponível, pelo número da linha de origem. Os campos são usados para identificar a primeira linha como Exclusiva e as demais como Duplicada. Alterar a ordem de classificação dos campos permite especificar qual linha duplicada você deseja identificar como Exclusiva. Você pode fazer alterações no pedido editando o cálculo e alterando o campo ORDERBY
.
Por exemplo:
IF ({PARTITION [Field1], [Field2], [Field3]: { ORDERBY [FieldName] ASC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Para arquivos Excel e de texto, você pode classificar pela fonte de dados original adicionando um campo Número da linha de origem.
Por exemplo:
IF ({PARTITION [Source Row Number], [Field1], [Field2], [Field3]: { ORDERBY [Source Row Number] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Para obter mais informações, consulte Adicionar o campo Número de linha de origem ao seu fluxo.
Escrever o próprio cálculo de filtro para localizar e remover duplicatas
Você pode escrever seu próprio cálculo de filtro em vários campos para localizar e remover duplicatas.
O cálculo de filtro a seguir retornará apenas resultados que retornem True. O cálculo retorna True ou False com base nos campos usados para PARTITION
{PARTITION [Field1], [Field2], [Field3]: { ORDERBY [Field1] DESC: ROW_NUMBER() } } = 1
Usar CASE
ou IF
para identificar cálculos duplicados
Você pode usar as funções IF
ou CASE
no editor de cálculo. Por exemplo:
CASE {PARTITION [Field1], [Field2], [Field3] : { ORDERBY [[Field3]]: ROW_NUMBER() } } = 1 WHEN TRUE THEN 'UNIQUE' ELSE 'DUPLICATE' END
IF ({PARTITION [[Field1]], [[Field2]], [[Field3]]: { ORDERBY [[Field3]] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END