Ta bort duplicerade rader
Stöds i Tableau Prep Builder version 2024.1 och senare samt på webben i Tableau Cloud.
Duplicerade data kan påverka datakvaliteten, snedvrida förutsägelser och slösa med lagringsutrymmet. Genom att ta bort dubbletter kan du se till att varje värde är unikt, vilket ger en korrekt representation av data. Det första steget i att ta bort dubbletter är att identifiera duplicerade rader i data. När du har identifierat duplicerade rader kan du ta bort dem från arbetsflödet.
Identifiera och ta bort dubbletter
I Tableau Prep är en dubblett en rad som förekommer minst två gånger med samma värden.
Så här identifierar du och tar bort duplicerade rader:
- (Valfritt) För Excel- och textfiler kan du klicka på inmatningssteget och lägga till ett fält för källradsnummer för att sortera raderna efter den ursprungliga datakällan. Du hittar mer information i Lägga till fältet Källradsnummer i ett flöde och Sorteringsordning för det beräknade fältet.
- Klicka på något annat steg än ett in- eller utmatningssteg.
- Identifiera duplicerade rader.
- Om du vill identifiera duplicerade rader över alla fält klickar du på Identifiera duplicerade rader i verktygsfältet.
- Om du vill identifiera duplicerade rader över specifika fält markerar du ett eller flera fält och klickar sedan på Identifiera duplicerade rader. Du kan också gå till rutan Profil och klicka på menyn Fler alternativ från det valda fältet och välja Identifiera duplicerade rader.
Ett beräknat fält skapas och visas i rutan Ändringar. Det beräknade fältet innehåller en beskrivning och namnen på de fält som dubblettraderna spänner över. Datarutnätet visar vilka rader som är unika och vilka rader som är duplicerade.
Följande bild visar resultatet om du skulle välja de två fälten Region och Artikeltyp och identifiera duplicerade rader över enbart dessa valda fält.
Om det finns ett källradsnummer används det för att sortera raderna. Annars sorteras raderna utifrån det första fältet i tabellschemat. Om du vill ändra värdena i det beräknade fältet kan du redigera beräkningen direkt eller skriva en egen beräkning. Mer information finns i Sorteringsordning för det beräknade fältet.
- Om du vill utvärdera duplicerade rader klickar du på Dubblett eller Unik i fältet Duplicerad rad? eller i datarutnätet.
- Om du vill filtrera och behålla endast de unika raderna klickar du på Unik i datarutnätet eller i fältet Duplicerad rad? och väljer Behåll endast i verktygsfältet. Du kan också klicka på Unik i datarutnätet eller i fältet Duplicerad rad? och högerklicka för att välja Behåll endast.
Du kan också välja Dubblett och sedan Uteslut för att filtrera data efter dubbletter. Detta ger samma resultat som att välja Unik och Behåll endast, och det påverkar inte vilka rader som utesluts eller behålls.
I rutan Ändringar skapas ett filter som visar att endast unika rader behålls och att duplicerade rader utesluts.
- Klicka på menyn Fler alternativ i det beräknade fältet Duplicerad rad? och välj Ta bort.
De duplicerade raderna tas bort när du kör flödet och skapar utdata.
Obs! Ta inte bort det beräknade fältet Duplicerad rad? om du tänker justera dataurvalet.
Följande bild visar duplicerade rader över alla fält.
Följande bild visar duplicerade rader över endast fälten Region och Artikeltyp.
Dubbletter i urvalsdata
Duplicerade rader kanske inte visas i dataurvalet och kan medföra att modellen snedvrids.
Så här hanterar du duplicerade rader i dataurvalet:
- Ta inte bort det beräknade fältet Duplicerad rad? om du tänker justera dataurvalet. Då kan du ändra storleken på dataurvalet eller justera urvalsdata i inmatningssteget.
- Justera storleken på dataurvalet för att läsa in så mycket data som möjligt för radvalet. Läs mer i Konfigurera storleken på dataurvalet.
- Dubbletter kanske inte visas i dataurvalet beroende på urvalets storlek. Om du använder alternativet Behåll endast för unika rader kan du ta bort duplicerade rader även om de inte är synliga i dataurvalet.
Sorteringsordning för det beräknade fältet
Om flera rader innehåller samma värde sorteras de som standard efter det första fältet eller, om detta är tillgängligt, efter källradsnumret. Fälten används för att identifiera den första raden som Unik och de återstående som Dubblett. Genom att ändra sorteringsordningen för fälten kan du ange vilken dubblettrad du vill identifiera som Unik. Du kan ändra ordningen genom att redigera beräkningen och ändra fältet ORDERBY
.
Till exempel:
IF ({PARTITION [Field1], [Field2], [Field3]: { ORDERBY [FieldName] ASC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
För Excel- och textfiler kan du sortera efter den ursprungliga datakällan genom att lägga till ett fält för källradsnummer.
Till exempel:
IF ({PARTITION [Source Row Number], [Field1], [Field2], [Field3]: { ORDERBY [Source Row Number] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Mer information finns i Lägga till fältet Radnummer i källan i ett flöde.
Skriv en egen filterberäkning för att hitta och ta bort dubbletter
Du kan skriva en egen filterberäkning över flera fält för att hitta och ta bort dubbletter.
Följande filterberäkning returnerar endast resultat med värdet Sant. Beräkningen returnerar antingen Sant eller Falskt baserat på de fält som används med funktionen PARTITION
{PARTITION [Field1], [Field2], [Field3]: { ORDERBY [Field1] DESC: ROW_NUMBER() } } = 1
Använd CASE
eller IF
för att identifiera duplicerade beräkningar
Du kan använda IF
- eller CASE
-funktioner i beräkningsredigeraren. Till exempel:
CASE {PARTITION [Field1], [Field2], [Field3] : { ORDERBY [[Field3]]: ROW_NUMBER() } } = 1 WHEN TRUE THEN 'UNIQUE' ELSE 'DUPLICATE' END
IF ({PARTITION [[Field1]], [[Field2]], [[Field3]]: { ORDERBY [[Field3]] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END