중복 행 제거
Tableau Prep Builder 버전 2024.1 이상과 Tableau Cloud의 웹에서 지원됩니다.
중복 데이터는 데이터 품질, 편향 예측 결과 및 저장 공간 낭비에 영향을 미칠 수 있습니다. 중복을 제거하면 각 값의 고유성을 보장하여 데이터를 정확하게 표현할 수 있습니다. 중복을 제거하는 첫 번째 단계는 데이터에서 중복 행을 식별하는 것입니다. 중복을 식별한 후에는 작업 흐름에서 해당 항목을 제거할 수 있습니다.
중복 식별 및 제거
Tableau Prep은 동일한 값을 가진 다른 행이 하나 이상 있는 모든 행을 중복으로 식별합니다.
중복 행을 식별하고 제거하려면 다음을 수행합니다.
- (선택 사항) Excel 및 텍스트 파일의 경우 입력 단계를 클릭하고 원본 행 번호 필드를 추가하여 원래 데이터 원본을 기준으로 행을 정렬할 수 있습니다. 자세한 내용은 원본 행 번호 필드를 흐름에 추가 및 계산된 필드의 순서 정렬을 참조하십시오.
- 입력 또는 출력 단계가 아닌 단계를 클릭합니다.
- 중복 행을 식별합니다.
- 모든 필드에서 중복 행을 식별하려면 툴바에서 중복 행 식별을 클릭합니다.
- 특정 필드에서 중복 행을 식별하려면 하나 이상의 필드를 선택한 다음 중복 행 식별을 클릭합니다. 필요한 경우, 프로필 패널에서 선택한 필드의 기타 옵션
메뉴를 클릭하고 중복 행 식별을 선택합니다.
계산된 필드가 생성되어 변경 패널에 나열됩니다. 계산된 필드에는 중복 행이 포함된 필드의 이름과 설명이 제공됩니다. 데이터 그리드에 어떤 행이 고유하고 어떤 행이 중복되는지가 표시됩니다.
다음 이미지는 Region(지역) 및 Item Type(항목 유형) 두 필드를 선택하여 선택한 필드에서만 중복 행을 식별한 결과를 보여줍니다.
원본 행 번호를 사용할 수 있는 경우 이는 행 순서를 정렬하는 데 사용됩니다. 사용할 수 없는 경우 테이블 스키마의 첫 번째 필드를 기준으로 행이 정렬됩니다. 계산된 필드의 값을 변경하려면 계산을 직접 편집하거나 직접 계산을 작성하면 됩니다. 계산된 필드의 순서 정렬을 참조하십시오.
- 중복 행을 평가하려면 행이 중복됨? 필드 또는 데이터 그리드에서 중복 또는 고유를 클릭합니다.
- 고유 행만 필터링하여 유지하려면 데이터 그리드 또는 행이 중복됨? 필드에서 고유를 클릭하고 툴바에서 이 항목만 유지를 선택합니다. 선택적으로, 데이터 그리드 또는 행이 중복됨? 필드에서 고유를 클릭한 다음 마우스 오른쪽 단추를 클릭하여 이 항목만 유지를 선택할 수 있습니다.
중복을 선택한 다음 제외를 선택하여 중복된 데이터를 필터링할 수도 있습니다. 이는 고유 및 이 항목만 유지를 선택하는 것과 동일한 결과를 도출하며 제외되거나 유지되는 행에 영향을 주지 않습니다.
변경 패널에 고유한 행만 유지되고 중복 행은 제외되는 필터가 만들어집니다.
- 행이 중복됨? 계산된 필드에서 기타 옵션
메뉴를 클릭하고 제거를 선택합니다.
흐름을 실행하고 출력을 생성하면 중복 행이 제거됩니다.
참고: 샘플 데이터를 조정할 예정이면 행이 중복됨? 계산된 필드를 제거하지 마십시오.
다음 이미지는 모든 필드에서 중복된 행을 보여줍니다.
다음 이미지에서는 Region(지역) 및 Item Type(항목 유형) 필드에서만 중복된 행이 표시됩니다.
중복 행은 샘플 데이터에 나타나지 않을 수 있으며 모델에 편향이 생길 수 있습니다.
샘플 데이터의 중복 행을 해결하려면 다음을 수행합니다.
- 데이터를 조정할 예정이면 행이 중복됨? 계산된 필드를 제거하지 않습니다. 그래야 입력 단계에서 샘플 크기를 변경하거나 샘플 데이터를 조정할 수 있는 옵션이 제공됩니다.
- 행 선택을 위해 가능한 한 많은 데이터를 로드하도록 샘플 크기를 조정합니다. 데이터 샘플 크기 설정을 참조하십시오.
- 샘플의 크기에 따라 샘플링된 데이터에 중복이 나타나지 않을 수 있습니다. 고유 행에 대해서만 이 항목만 유지 옵션을 사용하면 샘플링된 데이터에 표시되지 않더라도 중복 행을 제거할 수 있습니다.
기본적으로 여러 행에 동일한 값이 포함된 경우 첫 번째 필드를 기준으로 하거나 원본 행 번호(사용 가능한 경우)를 기준으로 정렬됩니다. 필드는 첫 번째 행을 고유 행으로, 나머지 행을 중복 행으로 식별하는 데 사용됩니다. 필드의 정렬 순서를 변경하면 고유 항목으로 식별할 중복 행을 지정할 수 있습니다. 계산을 편집하고 ORDERBY
필드를 변경하여 순서를 변경할 수 있습니다.
예를 들면 다음과 같습니다.
IF ({PARTITION [Field1], [Field2], [Field3]: { ORDERBY [FieldName] ASC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Excel 및 텍스트 파일의 경우 원본 행 번호 필드를 추가하여 원래 데이터 원본을 기준으로 정렬할 수 있습니다.
예를 들면 다음과 같습니다.
IF ({PARTITION [Source Row Number], [Field1], [Field2], [Field3]: { ORDERBY [Source Row Number] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
자세한 내용은 원본 행 번호 필드를 흐름에 추가를 참조하십시오.
필터 계산을 직접 작성하여 중복을 찾아 제거
여러 필드에 걸친 필터 계산을 직접 작성하여 중복을 찾아 제거할 수 있습니다.
다음 필터 계산은 True를 반환하는 결과만 반환합니다. 계산은 PARTITION에 사용된 필드에 따라 True 또는 False를 반환합니다.
{PARTITION [Field1], [Field2], [Field3]: { ORDERBY [Field1] DESC: ROW_NUMBER() } } = 1
중복 계산을 식별하려면 CASE
또는 IF
를 사용합니다.
계산 에디터에서 IF
또는 CASE
함수를 사용할 수 있습니다. 예를 들면 다음과 같습니다.
CASE {PARTITION [Field1], [Field2], [Field3] : { ORDERBY [[Field3]]: ROW_NUMBER() } } = 1 WHEN TRUE THEN 'UNIQUE' ELSE 'DUPLICATE' END
IF ({PARTITION [[Field1]], [[Field2]], [[Field3]]: { ORDERBY [[Field3]] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END