데이터 혼합

데이터 혼합은 여러 원본에서 데이터를 결합하는 한 가지 방법입니다. 데이터 혼합을 사용하면 보조 데이터 원본에서 추가 정보를 가져와 주 데이터 원본의 데이터와 함께 뷰에 직접 표시할 수 있습니다.

데이터 혼합은 시트 단위로 혼합 관계(연결 필드)가 변경되어야 하거나 게시된 데이터 원본을 결합하는 경우 특히 유용합니다.

데이터 결합 옵션

데이터를 결합하는 여러 방법이 있으며, 각 방법마다 장단점이 있습니다.

관계는 기본 방법이며 세부 수준이 서로 다른 테이블 간을 비롯하여 대부분의 경우에 사용할 수 있습니다. 관계는 유연하며 시트 단위로 분석 구조에 맞출 수 있습니다. 그러나 게시된 데이터 원본의 테이블 간 관계를 만들 수는 없습니다.

조인은 유사한 행 구조 전체에 더 많은 데이터 열을 추가하여 테이블을 결합합니다. 이로 인해 테이블이 서로 다른 세부 수준에 있는 경우 데이터 손실이나 중복이 발생할 수 있으며 분석을 시작하기 전에 조인을 설정해야 합니다. 조인에는 게시된 데이터 원본을 사용할 수 없습니다.

혼합은 관계나 조인과 달리 데이터를 직접 결합하지 않습니다. 대신 혼합은 각 데이터 원본을 독립적으로 쿼리하고 적절한 수준으로 결과를 집계한 다음 결과를 뷰에 시각적으로 함께 표시합니다. 이로 인해 혼합은 서로 다른 세부 수준을 처리할 수 있으며 게시된 데이터 원본에서도 작동합니다. 혼합은 새로 혼합된 데이터 원본을 만들지 않습니다. 따라서 “혼합된 데이터 원본”으로 게시할 수 없습니다. 혼합은 단순히 시트별로 시각화된 결과가 혼합된 것입니다.

데이터 혼합 단계

데이터 혼합은 시트 단위로 수행되며 두 번째 데이터 원본의 필드가 뷰에서 사용될 때 설정됩니다.

통합 문서에서 혼합을 만들려면 2개 이상의 데이터 원본에 연결해야 합니다. 그런 다음 한 데이터 원본의 필드를 시트로 가져옵니다. 이 데이터 원본은 주 데이터 원본이 됩니다. 다른 데이터 원본으로 전환하고 동일한 시트의 필드를 사용하십시오. 이 시트가 보조 데이터 원본이 됩니다. 데이터 패널에 연결 아이콘이 나타나 데이터 원본을 혼합하는 데 사용되는 필드를 알려줍니다.

  1. 통합 문서에 여러 데이터 원본이 있는지 확인하십시오. 두 번째 데이터 원본은 데이터 > 새 데이터 원본으로 이동하여 추가해야 합니다.

    : 혼합을 수행하려면 데이터 패널에 독립적으로 나열되는 두 개 이상의 개별 데이터 원본이 필요합니다. 첫 번째 데이터 원본에 다른 연결을 추가하면 데이터 원본 페이지에서 관계 및 조인을 사용할 수 있습니다.

  2. 필드를 뷰로 끌어 놓습니다. 이 데이터 원본은 주 데이터 원본이 됩니다.
  3. 다른 데이터 원본으로 전환하고 주 데이터 원본과 혼합 관계가 있는지 확인하십시오.
    • 연결 필드 아이콘()이 있으면 데이터 원본이 자동으로 연결됩니다. 하나 이상의 활성 링크가 있다면 데이터를 혼합할 수 있습니다.
    • 끊어진 링크 아이콘()이 있으면 두 데이터 원본을 연결해야 하는 필드 옆에 있는 아이콘을 클릭합니다. 슬래시가 사라지고 활성 링크로 표시됩니다.
    • 원하는 필드 옆에 링크 아이콘이 나타나지 않으면 혼합을 위한 혼합 관계 정의를 참조하십시오.
  4. 보조 데이터 원본에서 뷰로 필드를 끌어옵니다.

이 두 번째 데이터 원본이 동일한 뷰에서 사용되는 즉시 혼합이 설정됩니다. 아래 예에서 주 데이터 원본은 Movie Adaptations이고 보조 데이터 원본은 Bookshop입니다.

  • 주 데이터 원본은 데이터 원본에 표시된 파란색 확인 표시로 알 수 있습니다. 뷰에 사용된 주 데이터 원본의 필드에는 아무런 표시가 없습니다.
  • 보조 데이터 원본은 데이터 원본에 주황색 확인 표시가 나타나고 데이터 패널의 측면 아래에 주황색 막대가 나타납니다. 뷰에 사용된 보조 데이터 원본의 필드에는 주황색 확인 표시가 있습니다.

주 데이터 원본과 보조 데이터 원본 이해

데이터 혼합에는주 데이터 원본 하나와 하나 이상의 보조 데이터 원본이 필요합니다. 뷰에 사용된 첫 번째 데이터 원본이 주 데이터 원본이 되어 뷰를 정의합니다. 이를 통해 보조 데이터 원본의 값을 제한할 수 있습니다. 즉, 주 데이터 원본에 해당하는 일치가 있는 값만 뷰에 나타납니다. 이것은 Left 조인과 유사합니다.

예를 들어 주 데이터 원본에 4월, 5월 및 6월만 포함된 Month(월) 필드가 있는 경우 보조 데이터 원본에 12개월에 대한 값이 있는 경우에도 Month(월)를 기반으로 작성되는 모든 뷰에는 4월, 5월 및 6월만 표시됩니다. 필요한 분석에 12개월이 모두 관련된 경우 다른 데이터 원본을 먼저 사용하여 시트를 다시 작성하는 방식으로 주 데이터 원본을 전환해 보십시오.

자세한 내용: 데이터 원본 순서의 효과

아래에 있는 예제들에서는 동일한 필드에 연결된 동일한 데이터 원본을 사용하며 두 번 모두 동일한 방식으로 비주얼리제이션이 작성됩니다. 결과의 차이는 어떤 데이터 원본이 주 데이터 원본으로 지정되느냐에 따라 발생합니다.

  1. 여기서 Rainfall 데이터 원본의 Month(월) 필드를 뷰에 먼저 가져옵니다. Rainfall에 월 3개만 포함되기 때문에 Pollen 데이터 집합을 보조 데이터 원본으로 추가하면 뷰에 3개월만 가져옵니다.
  2. 3개월을 보여주는 비주얼리제이션의 제품 스크린샷
  3. 또 다른 시트에서는 Pollen 데이터 집합의 Month(월) 필드를 뷰에 먼저 가져옵니다. 이 경우 12개월이 모두 표시됩니다. Rainfall 데이터 집합을 보조 데이터 원본으로 추가하면 Rainfall은 해당 데이터 집합의 3개월에 대해서만 사용할 수 있습니다.
  4. 12개월을 보여주는 비주얼리제이션의 제품 스크린샷

혼합된 데이터 원본으로 작업

데이터 혼합의 특성으로 인해, 혼합 데이터 원본으로 작업할 때 유의해야 할 몇 가지 사항이 있습니다.

둘 이상의 데이터 원본에서 필드를 가져와 계산을 수행하는 것은 일반적인 계산과 약간 다를 수 있습니다. 데이터 원본 하나에서 계산을 만들어야 합니다. 계산 에디터 상단에 계산이 포함된 데이터 원본이 나타납니다.

  • 집계. 다른 데이터 원본에서 사용된 모든 필드는 집계(기본적으로 SUM)로 표시되지만 변경할 수 있습니다. 계산에서 집계 인수와 비집계 인수를 혼합해서 사용할 수 없으므로 계산의 호스트 데이터 원본에 있는 필드도 집계되어야 합니다. (아래 이미지에서 SUM 집계가 자동으로 추가되고 sum 집계가 수동으로 추가되었습니다.)
  • 점 표기법. 다른 데이터 원본에 속하는 계산에서 참조되는 모든 필드는 점 표기법을 사용하여 해당 데이터 원본을 나타냅니다. (아래 이미지에서 샘플 – 슈퍼스토어에서 작성된 계산의 경우 Sales Target(판매 목표) 필드는 [Sales.Targets].[Sales Target]이 됩니다. 계산이 Sales Targets에서 작성되는 경우에는 Sales(판매) 필드가 [샘플 – 슈퍼스토어].[Sales]가 됩니다.)
  • 이들은 각 데이터 원본에서 작성된 동일한 계산의 동등한 버전입니다. 두 경우 모두 SUM(Sales) / SUM(Sales Target)입니다.

계산을 약간 다르게 처리하는 것 외에도, 보조 데이터 원본에는 몇 가지 제한 사항이 있습니다. 보조 데이터 원본의 필드를 기준으로 정렬할 수 없으며 동작 필터가 혼합 데이터에서 예상대로 작동하지 않을 수 있습니다. 자세한 내용은 기타 데이터 혼합 문제를 참조하십시오.

혼합을 위한 혼합 관계 정의

Tableau가 여러 원본의 데이터를 결합하는 방법을 알기 위해서는 데이터 원본 간에 하나 이상의 공통 차원이 있어야 합니다. 이 공통 차원을 연결 필드라고 합니다. 활성 연결 필드는 보조 데이터 원본의 데이터 패널에서 활성 링크 아이콘()으로 식별되며 잠재적 연결 필드는 끊어진 링크 아이콘()으로 식별됩니다. 주 데이터 원본에는 연결 필드가 표시되지 않습니다.

예를 들어, 거래 데이터와 할당량 데이터의 혼합에서 동일한 지역의 할당량과 할당량 대비 성과를 분석할 수 있으므로 지리적 필드가 원하는 연결 필드일 수 있습니다.

참고: 혼합이 작동하려면 연결 필드들도 값이나 멤버를 공유해야 합니다. Tableau는 공유된 값을 기반으로 혼합 데이터 뷰를 작성합니다. 예를 들어, Color(색상)가 두 데이터 원본의 연결 필드인 경우 Tableau는 주 데이터 원본의 "Purple"과 보조 데이터 원본의 "Purple"에 대한 데이터를 일치시킵니다. 하지만 "Lt. Blue"는 "Light Blue"에 매핑되지 않습니다. 이 경우 두 데이터 중 하나를 별칭 처리해야 합니다. Tableau가 연결 필드를 식별할 수 있도록 필드의 이름을 바꾸는 것처럼 이러한 필드의 멤버에 대한 별칭을 편집할 수 있습니다. 자세한 내용은 별칭을 만들어 뷰의 멤버 이름 바꾸기을 참조하십시오.

링크 설정

주 데이터 원본과 보조 데이터 원본의 연결 필드가 같은 이름이면 Tableau는 자동으로 관계를 만듭니다. 주 데이터 원본이 설정되어 있을 때(즉, 뷰에서 필드가 사용되고 있을 때) 데이터 패널에서 보조 데이터 원본을 선택하면 두 데이터 원본에서 이름이 같은 모든 필드가 보조 데이터 원본에서 링크 아이콘( 또는 )으로 표시됩니다. 주 데이터 원본의 관련 필드가 뷰에서 사용되는 경우 링크가 자동으로 활성화됩니다.

보조 데이터 원본에 링크 아이콘이 없으면 다음 두 방법 중 하나로 Tableau가 링크를 설정하도록 도울 수 있습니다. 

  1. 공통 차원의 이름이 같지 않은 경우(예: "Title" 및 "Book Title"), 한 이름을 바꾸면 Tableau에서 이를 공통 차원으로 식별하고 링크를 설정합니다.

  2. 또는 주 데이터 원본과 보조 데이터 원본의 필드 사이에서 관계를 수동으로 정의할 수 있습니다. 수동 링크 관계 만들기에 대한 자세한 내용은 아래를 참조하십시오.

필요에 따라 제한 없이 활성 또는 잠재적 연결 필드를 사용할 수 있습니다. 관계를 활성 상태로 만들려면 데이터 패널에서 끊어진 링크 아이콘()을 클릭합니다.

수동으로 링크 관계 정의

공통 차원이 동일한 이름을 공유하지 않는 경우 수동으로 둘 사이의 관계를 매핑할 수 있습니다.

  1. 데이터 > 혼합 관계 편집...을 선택합니다.

  2. 혼합 관계 대화 상자의 주 데이터 원본 드롭다운 목록에서 주 데이터 원본이 선택되었는지 확인합니다.

  3. 보조 데이터 원본 패널에서 보조 데이터 원본을 선택합니다. 기존의 자동 혼합 관계가 표시됩니다(행을 마우스오버하고 x를 클릭하여 삭제할 수 있음). 관계 목록에서 사용자 지정을 선택한 다음 추가를 클릭합니다.

  4. 필드 매핑 추가/편집 대화 상자에서 다음을 수행합니다.

    1. 주 데이터 원본에서 필드를 선택합니다.

    2. 보조 데이터 원본에서 상응하는 필드를 선택합니다.

    3. 확인을 클릭합니다.

      이 예제에서 Segment(세그먼트)Cust Segment(사용자 지정 세그먼트)에 매핑됩니다.

      관계 추가/편집 대화 상자의 제품 UI

      : 날짜의 경우 관계를 정밀하게 지정할 수 있습니다. 날짜 필드를 확장하고 정확한 일, 월, 연도 등과 같이 날짜의 원하는 부분을 선택합니다.

  5. 원하는 만큼 필드 매핑을 만든 다음 확인을 클릭합니다.

다중 링크

관계나 조인과 마찬가지로, 데이터 원본 간의 링크가 둘 이상의 필드로 정의되는 경우가 있습니다. 예를 들어, 지역별 판매 할당량이 월별인 경우 올바른 데이터가 뷰에 함께 표시되려면 거래 판매 데이터와 할당량 데이터 사이의 혼합을 지역과 월 모두에서 설정해야 합니다. 다중 링크는 동시에 활성화될 수 있습니다.

자세한 내용: 다중 연결 필드의 영향

다중 필드를 기반으로 데이터가 혼합되는 경우 이러한 필드의 데이터 조합이 두 데이터 집합에서 일치하는 경우에만 뷰에 값이 포함됩니다. 이해를 돕기 위해 예를 살펴보겠습니다.

두 개의 테이블이 있습니다. 하나는 조류 관찰자가 실제로 확인한 조류에 대한 테이블이고, 다른 하나는 확인되었다고 보고된 조류에 대한 테이블입니다.

주 데이터 원본인 Birds seen(확인된 조류)의 Birdwatchers(조류 관찰자) 및 Number of birds(조류 수) 필드가 있는 혼합 뷰를 설정하고 보조 데이터 원본인 Birds reported(보고된 조류)에서 Number of reports(보고 수)를 가져오면 Tableau가 자동으로 Birdwatcher(조류 관찰자)를 기준으로 혼합합니다.

우리는 조류 관찰자 A가 3마리의 새를 관찰하고 두 개를 보고했고, B가 4마리의 새를 관찰하고 하나를 보고했으며, C가 8마리의 새를 관찰하고 두 개를 보고했다는 것을 알 수 있습니다.

하지만 여기에는 또 다른 가능한 연결 필드 Species seen(확인된 종)이 있습니다. 이 필드를 기준으로 혼합하지 않는 이유는 무엇입니까? 이 필드가 차이를 만듭니까? 

이 필드는 꽤 큰 차이를 만듭니다. 이제 우리는 조류 관찰자 A와 C에 대해 각각 하나의 보고만 있고 B는 의미 있는 보고가 없다는 것을 알 수 있습니다. 무슨 일이 일어난 것일까요? 

이는 조류 관찰자들이 정직하지 못하다는 것을 알려줍니다. 이들이 저널 항목(위의 이미지에서 파란색 막대)을 기준으로 관찰 결과를 보고할 때 관찰했다고 보고한 종과 실제로 본 종이 일치하지 않았습니다(Birds seen(확인된 조류) 보조 데이터 원본의 두 번째 열에 있는 null 참조). 이들이 사진으로 보고를 뒷받침했을 때(주황색 막대)에는 정직했습니다(Species seen(확인된 종)의 두 열이 일치함).

3개의 보고는 종이 일치하지 않기 때문에 Species seen(확인된 종)이 연결 필드로 사용될 때 이러한 데이터 행이 삭제되었습니다. 뷰에는 두 연결 필드의 값이 일치하는 데이터만 표시됩니다.

요점

여러 필드를 연결할 때 주의하십시오. 아이콘을 클릭하여 활성 링크를 설정하는 것이 매우 쉬울지라도 과도한 연결이나 바람직하지 않은 필드를 연결하면 분석에 심각한 영향을 줄 수 있습니다.

조인과 데이터 혼합의 차이점

데이터 혼합은 전통적인 Left 조인을 흉내냅니다. 둘의 주된 차이점은 집계를 수행할 때 발생합니다. 조인은 데이터를 결합한 다음 집계합니다. 혼합은 데이터를 집계한 다음 결합합니다.

Left 조인

Left 조인을 사용하여 데이터를 결합하는 경우 조인이 수행되는 데이터베이스로 쿼리가 전송됩니다. Left 조인은 왼쪽 테이블의 모든 행과 오른쪽 테이블의 대응하는 행을 반환합니다. 이 조인 결과가 Tableau로 전송되고 비주얼리제이션에 표시할 수 있도록 집계됩니다.

Left 조인은 왼쪽 테이블에서 모든 행을 가져옵니다. 공통 열이 User ID(사용자 ID) 및 Patron ID(후원자 ID)이며, 오른쪽 테이블에 대응하는 정보가 있는 경우 해당 데이터가 반환됩니다. 그렇지 않으면 null이 반환됩니다.

 

동일한 테이블이 있지만 순서를 뒤집는다고 가정합니다. 이 새로운 Left 조인은 다른 결과를 생성합니다. 다시 이야기하면, Left 조인은 새로운 왼쪽 테이블의 모든 데이터를 가져오지만 본질적으로 오른쪽 테이블의 행을 무시합니다. User ID = 4에 대한 데이터 행은 왼쪽 테이블에 Patron ID = 4에 대한 행이 없으므로 포함되지 않습니다.

데이터 혼합

데이터 혼합을 사용하여 데이터를 결합하는 경우 시트에 사용되는 각 데이터 원본의 데이터베이스로 쿼리가 전송됩니다. 이 쿼리 결과는 집계 데이터로 Tableau에 다시 전송되고 비주얼리제이션에 함께 표시됩니다.

참고: 측정값 집계는 간단합니다. 숫자의 합계, 평균, 최대값 또는 다른 집계를 쉽게 계산할 수 있습니다. 측정값은 필드에 뷰에서 집계되는 방식에 따라 집계됩니다. 그러나 보조 데이터 원본의 모든 필드가 집계되어야 합니다. 차원에서는 어떻게 작동합니까? 차원 값은 ATTR 집계 함수를 사용하여 집계되므로 보조 데이터 원본의 모든 행에 대해 단일 값이 반환됩니다. 이러한 행에 포함된 값이 여러 개인 경우 별표(*)가 표시됩니다. 이는 "뷰의 이 마크에 대해 보조 데이터 원본에 여러 값이 있다"라고 해석할 수 있습니다.

뷰에는 주 데이터 원본(왼쪽 테이블로 작동)의 모든 값과 연결 필드에 기반하는 보조 데이터 원본(오른쪽 테이블)의 대응하는 행이 사용됩니다.

다음과 같은 테이블이 있다고 가정합니다. 연결 필드가 User ID(사용자 ID) 및 Patron ID(후원자 ID)인 경우 다음과 같은 이유로 결과 테이블에 일부 값이 포함되지 않을 수 있습니다.

  • 결과에서 null 값으로 표시된 것과 같이 왼쪽 테이블의 행에 일치하는 행이 오른쪽 테이블에 없습니다.

  • 결과에 별표(*)로 표시된 것처럼, 오른쪽 테이블의 행에 해당하는 값이 여러 개입니다.

아래에서 볼 수 있는 것처럼 측정값이 관련된 경우 측정값도 집계됩니다.

중요: 혼합 데이터가 있는 뷰의 별표(*)는 다중 값을 나타냅니다. 이 문제는 주 데이터 원본의 각 마크에 대해 보조 데이터 원본에 일치하는 값이 하나만 있는지 확인하고 잠재적으로 주 데이터 원본과 보조 데이터 원본을 교체하여 해결할 수 있습니다. 자세한 내용은 데이터 혼합 문제 해결을 참조하십시오.

데이터 혼합 요약

  • 데이터 혼합은 시트 단위로 이루어집니다.
  • 필드가 사용되는 순서에 따라 주 데이터 원본과 보조 데이터 원본이 결정됩니다.
  • 주 데이터 원본에는 파란색 확인 표시가 나타나고, 보조 데이터 원본 및 보조 데이터 원본의 필드에는 주황색 확인 표시가 나타납니다.
  • 연결 필드는 공유 필드명에 따라 자동으로 결정되거나 혼합 관계를 수동으로 만들 수 있습니다.
  • 데이터 혼합은 Left 조인과 유사하게 작동하며, 보조 데이터 원본의 데이터가 누락될 수 있습니다.
  • 별표(*)가 나타날 수 있습니다. 데이터 혼합은 집계된 결과를 가져와서 뷰에서 결합하기 때문에, 이 표시는 단일 마크의 여러 차원 값을 나타냅니다.
  • 보조 데이터 원본은 주 데이터 원본의 필드 값에 별칭을 다시 지정하는 데 사용할 수 있습니다. 자세한 내용은 데이터 혼합을 사용한 필드 값 별칭 지정을 참조하십시오.

데이터 혼합 제한 사항

  • COUNTD, MEDIAN, RAWSQLAGG 등과 같은 비가산 집계와 관련된 몇 가지 데이터 혼합 제한 사항이 있습니다. 자세한 내용은 데이터 혼합 문제 해결을 참조하십시오.
  • 혼합된 데이터 원본은 하나의 단위로 게시할 수 없습니다. 대신 각 데이터 원본을 (동일한 서버에) 개별적으로 게시한 다음 게시된 데이터 원본을 혼합하십시오.
  • 보조 데이터 원본의 데이터는 항상 계산에서 집계되어야 합니다.
  • 큐브 데이터 원본을 혼합하는 경우 큐브 데이터 원본이 주 데이터 원본이어야 합니다.
피드백을 제공해 주셔서 감사합니다!귀하의 피드백이 제출되었습니다. 감사합니다!