Entfernen von doppelten Zeilen
Wird in Tableau Prep Builder ab Version 2024.1 und im Internet in Tableau Cloud unterstützt.
Doppelt vorhandene Daten können sich negativ auf die Datenqualität auswirken, die Ergebnisse von Prognosen verzerren und wertvollen Speicherplatz verschwenden. Durch das Entfernen von Duplikaten wird sichergestellt, dass jeder Wert eindeutig ist und eine genaue Darstellung Ihrer Daten bereitgestellt wird. Der erste Schritt zum Entfernen von Duplikaten besteht darin, die Zeilen in Ihren Daten zu identifizieren, die doppelt vorhanden sind. Nachdem Sie Duplikate identifiziert haben, können Sie diese aus dem Arbeitsablauf entfernen.
Identifizieren und Entfernen von Duplikaten
Tableau Prep identifiziert eine Zeile als Duplikat, wenn es mindestens eine andere Zeile mit denselben Werten gibt.
Gehen Sie wie folgt vor, um doppelte Zeilen zu identifizieren und zu entfernen:
- (optional) Bei Excel- und Textdateien können Sie auf den Eingabeschritt klicken und ein Feld namens „Quellzeilennummer“ hinzufügen, um die Zeilen nach der ursprünglichen Datenquelle zu sortieren. Weitere Informationen finden Sie unter Hinzufügen des Feldes „Quellzeilennummer“ zu einem Schema und Sortierreihenfolge für das berechnete Feld.
- Klicken Sie auf einen beliebigen anderen Schritt, der kein Eingabe- oder Ausgabeschritt ist.
- Identifizieren Sie doppelte Zeilen.
- Um Zeilen zu identifizieren, die in sämtlichen Feldern identisch sind, klicken Sie in der Symbolleiste auf Doppelt vorhandene Zeilen identifizieren.
- Um Zeilen zu identifizieren, die in bestimmten Feldern identisch sind, wählen Sie das bzw. die betreffenden Felder aus, und klicken Sie dann auf Doppelt vorhandene Zeilen identifizieren. Optional können Sie auch im Profilbereich auf das Menü Weitere Optionen von dem ausgewählten Feld klicken und dann Doppelt vorhandene Zeilen identifizieren auswählen.
Ein berechnetes Feld wird erstellt und im Bereich „Änderungen“ angezeigt. Das berechnete Feld enthält eine Beschreibung und die Namen der Felder, in denen die doppelt vorhandenen Zeilen übereinstimmen. Im Datenraster wird angezeigt, welche Zeilen eindeutig und welche Duplikate sind.
Das folgende Bild zeigt die Ergebnisse, wenn doppelt vorhandene Zeilen nur anhand der beiden Felder Region und Artikeltyp identifiziert werden sollen.
Wenn eine Quellzeilennummer verfügbar ist, wird diese zum Sortieren der Reihenfolge der Zeilen verwendet. Andernfalls werden die Zeilen basierend auf dem ersten Feld im Tabellenschema sortiert. Um die Werte in dem berechneten Feld zu ändern, können Sie die Berechnung direkt bearbeiten oder eine eigene Berechnung schreiben. Siehe Sortierreihenfolge für das berechnete Feld.
- Um doppelte Zeilen auszuwerten, klicken Sie auf Duplikat oder Eindeutig im Feld „Ist doppelte Zeile?“ oder im Datenraster.
- Wenn Sie nur die eindeutigen Zeilen filtern und beibehalten möchten, klicken Sie auf Eindeutig im Feld „Ist doppelte Zeile?“ oder im Datenraster und wählen Sie in der Symbolleiste Nur beibehalten aus. Optional können Sie auch auf Eindeutig im Feld „Ist doppelte Zeile?“ oder im Datenraster klicken, dann mit der rechten Maustaste klicken und im Kontextmenü Nur beibehalten auswählen.
Sie können auch Duplikat und dann Ausschließen auswählen, um Daten nach Duplikaten zu filtern. Dies führt zu denselben Ergebnissen wie bei Auswahl von „Eindeutig“ und „Nur beibehalten“ und hat keinen Einfluss darauf, welche Zeilen ausgeschlossen oder beibehalten werden.
Ein Filter wird im Bereich „Änderungen“ erstellt, der anzeigt, dass nur eindeutige Zeilen beibehalten und doppelt vorhandene Zeilen ausgeschlossen werden.
- Klicken Sie in dem berechnete Feld „Ist doppelte Zeile?“ auf das Menü Weitere Optionen und wählen Sie Entfernen aus.
Die doppelt vorhandene Zeilen werden entfernt, wenn Sie Schema ausführen und eine Ausgabe erstellen.
Hinweis: Entfernen Sie nicht das berechnete Feld „Ist doppelte Zeile?“, wenn Sie für Stichprobendaten anpassen möchten.
Das folgende Bild zeigt Duplikate, die in sämtlichen Feldern identisch sind.
Das folgende Bild zeigt Duplikate, die nur in den Feldern Region und Artikeltyp identisch sind.
Duplikate in Stichprobendaten
Doppelt vorhandene Zeilen erscheinen möglicherweise nicht in den Stichprobendaten und könnten daher zu einer Verzerrung im Modell führen.
So gehen Sie bei Stichprobendaten mit doppelt vorhandenen Zeilen vor:
- Entfernen Sie nicht das berechnete Feld Ist doppelte Zeile?, wenn Sie für Stichprobendaten anpassen möchten. Dies gibt Ihnen die Möglichkeit, die Stichprobengröße zu ändern oder die Stichprobendaten im Eingabeschritt anzupassen.
- Passen Sie die Stichprobengröße an, um so viele Daten wie möglich für die Zeilenauswahl zu laden. Informationen dazu finden Sie unter Festlegen der Stichprobengröße.
- Abhängig von der Größe der Datenstichprobe werden Duplikate in den Stichprobendaten möglicherweise nicht angezeigt. Durch Verwendung der Optionen Nur beibehalten für eindeutige Zeilen können Sie doppelt vorhandene Zeilen entfernen, selbst wenn diese in den Stichprobendaten nicht sichtbar sind.
Sortierreihenfolge für das berechnete Feld
Wenn mehrere Zeilen denselben Wert enthalten, werden sie standardmäßig nach dem ersten Feld oder, falls verfügbar, nach der Quellzeilennummer sortiert. Die Felder werden verwendet, um die erste Zeile als Eindeutig und die verbleibenden Zeilen als Duplikat zu identifizieren. Durch Ändern der Sortierreihenfolge der Felder können Sie angeben, welche doppelt vorhandene Zeile als „Eindeutig“ gekennzeichnet werden soll. Änderungen an der Reihenfolge können Sie vornehmen, indem Sie die Berechnung bearbeiten und das Feld ORDERBY
ändern.
Beispiel:
IF ({PARTITION [Field1], [Field2], [Field3]: { ORDERBY [FieldName] ASC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Bei Excel- und Textdateien können Sie nach der ursprünglichen Datenquelle sortieren, indem Sie ein Feld namens „Quellzeilennummer“ hinzufügen.
Beispiel:
IF ({PARTITION [Source Row Number], [Field1], [Field2], [Field3]: { ORDERBY [Source Row Number] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Weitere Informationen finden Sie unter Hinzufügen des Zeilennummernfeldes der Quelle zu Ihrem Schema.
Schreiben einer eigenen Filterberechnung zum Auffinden und Entfernen von Duplikaten
Sie können Ihre eigene Filterberechnung über mehrere Felder hinweg schreiben, um Duplikate zu finden und zu entfernen.
Die folgende Filterberechnung gibt nur Ergebnisse zurück, die „Wahr“ ergeben. Die Berechnung gibt basierend auf den für PARTITION verwendeten Feldern entweder „Wahr“ oder „Falsch“ zurück.
{PARTITION [Field1], [Field2], [Field3]: { ORDERBY [Field1] DESC: ROW_NUMBER() } } = 1
Verwenden von CASE
oder IF
für Berechnungen zum Identifizieren von Duplikaten
Sie können die IF
- oder CASE
-Funktion im Berechnungs-Editor verwenden. Beispiel:
CASE {PARTITION [Field1], [Field2], [Field3] : { ORDERBY [[Field3]]: ROW_NUMBER() } } = 1 WHEN TRUE THEN 'UNIQUE' ELSE 'DUPLICATE' END
IF ({PARTITION [[Field1]], [[Field2]], [[Field3]]: { ORDERBY [[Field3]] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END