중복 행 제거

Tableau Prep Builder 버전 2024.1 이상과 Tableau Cloud의 웹에서 지원됩니다.

중복 데이터는 데이터 품질, 편향 예측 결과 및 저장 공간 낭비에 영향을 미칠 수 있습니다. 중복을 제거하면 각 값의 고유성을 보장하여 데이터를 정확하게 표현할 수 있습니다. 중복을 제거하는 첫 번째 단계는 데이터에서 중복 행을 식별하는 것입니다. 중복을 식별한 후에는 작업 흐름에서 해당 항목을 제거할 수 있습니다.

중복 식별 및 제거

Tableau Prep은 동일한 값을 가진 다른 행이 하나 이상 있는 모든 행을 중복으로 식별합니다.

중복 행을 식별하고 제거하려면 다음을 수행합니다.

  1. (선택 사항) Excel 및 텍스트 파일의 경우 입력 단계를 클릭하고 원본 행 번호 필드를 추가하여 원래 데이터 원본을 기준으로 행을 정렬할 수 있습니다. 자세한 내용은 원본 행 번호 필드를 흐름에 추가계산된 필드의 순서 정렬을 참조하십시오.
  2. 입력 또는 출력 단계가 아닌 단계를 클릭합니다.
  3. 중복 행을 식별합니다.
    • 모든 필드에서 중복 행을 식별하려면 툴바에서 중복 행 식별을 클릭합니다.
    • 특정 필드에서 중복 행을 식별하려면 하나 이상의 필드를 선택한 다음 중복 행 식별을 클릭합니다. 필요한 경우, 프로필 패널에서 선택한 필드의 기타 옵션 메뉴를 클릭하고 중복 행 식별을 선택합니다.

    계산된 필드가 생성되어 변경 패널에 나열됩니다. 계산된 필드에는 중복 행이 포함된 필드의 이름과 설명이 제공됩니다. 데이터 그리드에 어떤 행이 고유하고 어떤 행이 중복되는지가 표시됩니다.

    다음 이미지는 Region(지역)Item Type(항목 유형) 두 필드를 선택하여 선택한 필드에서만 중복 행을 식별한 결과를 보여줍니다.

    원본 행 번호를 사용할 수 있는 경우 이는 행 순서를 정렬하는 데 사용됩니다. 사용할 수 없는 경우 테이블 스키마의 첫 번째 필드를 기준으로 행이 정렬됩니다. 계산된 필드의 값을 변경하려면 계산을 직접 편집하거나 직접 계산을 작성하면 됩니다. 계산된 필드의 순서 정렬을 참조하십시오.

  4. 중복 행을 평가하려면 행이 중복됨? 필드 또는 데이터 그리드에서 중복 또는 고유를 클릭합니다.
  5. 다음 이미지는 모든 필드에서 중복된 행을 보여줍니다.

    다음 이미지에서는 Region(지역)Item Type(항목 유형) 필드에서만 중복된 행이 표시됩니다.

  6. 고유 행만 필터링하여 유지하려면 데이터 그리드 또는 행이 중복됨? 필드에서 고유를 클릭하고 툴바에서 이 항목만 유지를 선택합니다. 선택적으로, 데이터 그리드 또는 행이 중복됨? 필드에서 고유를 클릭한 다음 마우스 오른쪽 단추를 클릭하여 이 항목만 유지를 선택할 수 있습니다.

    중복을 선택한 다음 제외를 선택하여 중복된 데이터를 필터링할 수도 있습니다. 이는 고유 및 이 항목만 유지를 선택하는 것과 동일한 결과를 도출하며 제외되거나 유지되는 행에 영향을 주지 않습니다.

    변경 패널에 고유한 행만 유지되고 중복 행은 제외되는 필터가 만들어집니다.

  7. 행이 중복됨? 계산된 필드에서 기타 옵션 메뉴를 클릭하고 제거를 선택합니다.

    흐름을 실행하고 출력을 생성하면 중복 행이 제거됩니다.

    참고: 샘플 데이터를 조정할 예정이면 행이 중복됨? 계산된 필드를 제거하지 마십시오.

샘플 데이터의 중복

중복 행은 샘플 데이터에 나타나지 않을 수 있으며 모델에 편향이 생길 수 있습니다.

샘플 데이터의 중복 행을 해결하려면 다음을 수행합니다.

  1. 데이터를 조정할 예정이면 행이 중복됨? 계산된 필드를 제거하지 않습니다. 그래야 입력 단계에서 샘플 크기를 변경하거나 샘플 데이터를 조정할 수 있는 옵션이 제공됩니다.
  2. 행 선택을 위해 가능한 한 많은 데이터를 로드하도록 샘플 크기를 조정합니다. 데이터 샘플 크기 설정을 참조하십시오.
  3. 샘플의 크기에 따라 샘플링된 데이터에 중복이 나타나지 않을 수 있습니다. 고유 행에 대해서만 이 항목만 유지 옵션을 사용하면 샘플링된 데이터에 표시되지 않더라도 중복 행을 제거할 수 있습니다.

계산된 필드의 순서 정렬

기본적으로 여러 행에 동일한 값이 포함된 경우 첫 번째 필드를 기준으로 하거나 원본 행 번호(사용 가능한 경우)를 기준으로 정렬됩니다. 필드는 첫 번째 행을 고유 행으로, 나머지 행을 중복 행으로 식별하는 데 사용됩니다. 필드의 정렬 순서를 변경하면 고유 항목으로 식별할 중복 행을 지정할 수 있습니다. 계산을 편집하고 ORDERBY 필드를 변경하여 순서를 변경할 수 있습니다.

예를 들면 다음과 같습니다.

IF ({PARTITION [Field1], [Field2], [Field3]: { ORDERBY [FieldName] ASC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END

Excel 및 텍스트 파일의 경우 원본 행 번호 필드를 추가하여 원래 데이터 원본을 기준으로 정렬할 수 있습니다.

예를 들면 다음과 같습니다.

IF ({PARTITION [Source Row Number], [Field1], [Field2], [Field3]: { ORDERBY [Source Row Number] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END

자세한 내용은 원본 행 번호 필드를 흐름에 추가를 참조하십시오.

필터 계산을 직접 작성하여 중복을 찾아 제거

여러 필드에 걸친 필터 계산을 직접 작성하여 중복을 찾아 제거할 수 있습니다.

다음 필터 계산은 True를 반환하는 결과만 반환합니다. 계산은 PARTITION에 사용된 필드에 따라 True 또는 False를 반환합니다.

{PARTITION [Field1], [Field2], [Field3]: { ORDERBY [Field1] DESC: ROW_NUMBER() } } = 1

중복 계산을 식별하려면 CASE 또는 IF를 사용합니다.

계산 에디터에서 IF 또는 CASE 함수를 사용할 수 있습니다. 예를 들면 다음과 같습니다.

CASE {PARTITION [Field1], [Field2], [Field3] : { ORDERBY [[Field3]]: ROW_NUMBER() } } = 1 WHEN TRUE THEN 'UNIQUE' ELSE 'DUPLICATE' END

IF ({PARTITION [[Field1]], [[Field2]], [[Field3]]: { ORDERBY [[Field3]] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END

피드백을 제공해 주셔서 감사합니다!귀하의 피드백이 제출되었습니다. 감사합니다!