데이터 통합

데이터 혼합은 여러 원본에서 데이터를 결합하는 한 가지 방법입니다. 데이터 혼합을 사용하면 보조 데이터 원본에서 추가 정보를 가져와 주 데이터 원본의 데이터와 함께 뷰에 직접 표시할 수 있습니다.

조인과 달리 데이터 혼합은 데이터 원본을 별도로 유지하고 단순히 정보를 함께 표시합니다. 혼합은 데이터의 세부 수준이 서로 다를 때 유용합니다. 예를 들어, 한 원본에는 거래 데이터가 있고 다른 원본에는 할당량 데이터가 있다고 가정합니다. 이 데이터를 조인한다면 조인은 행 수준이므로 각 거래에서 일부 할당량 정보가 중복될 수 있습니다. 따라서 데이터 혼합이 더 나은 방법입니다. 각 데이터 원본은 독립적으로 쿼리되며 결과는 적절한 수준으로 집계된 다음 함께 시각화됩니다.

동영상 시청: Tableau Desktop에서 관련 개념의 데모를 보려면 혼합과 조인의 차이점 비교(6분), 데이터 혼합(5분), 데이터 혼합 추가 주제(4분) 무료 교육 동영상을 시청하십시오. tableau.com 계정을 사용하여 로그인합니다.

Making Magic with Data Blending(데이터 혼합의 마술)(1시간) 및 A Tableau Match: Cross-Database Joins and Blends(Tableau 기능 비교: 교차 데이터베이스 조인과 혼합)(1시간)도 참조하십시오.

데이터 혼합 단계

데이터 혼합은 시트 단위로 수행되며 두 번째 데이터 원본의 필드가 뷰에서 사용될 때 설정됩니다. 적어도 두 개의 데이터 원본이 있는 통합 문서에서 혼합을 만들려면 한 데이터 원본의 필드를 시트로 가져옵니다. 이 시트가 주 데이터 원본이 됩니다. 다른 데이터 원본으로 전환하고 동일한 시트의 필드를 사용하십시오. 이 시트가 보조 데이터 원본이 됩니다. 데이터 패널에 주황색 연결 아이콘이 나타나 데이터 원본을 혼합하는 데 사용되는 필드를 알려줍니다.

GIF of a basic data blend

  1. 통합 문서에 여러 데이터 원본이 있는지 확인하십시오. 두 번째 데이터 원본은 데이터 > 새 데이터 원본으로 이동하여 추가해야 합니다.

참고: 첫 번째 데이터 원본에 다른 연결을 추가하는 것은 교차 데이터베이스 조인을 설정하는 방법입니다. 혼합을 수행하려면 데이터 패널에 독립적으로 나열되는 두 개 이상의 개별 데이터 원본이 필요합니다.

  1. 필드를 뷰로 끌어 놓습니다. 이 첫 번째 필드를 제공하는 데이터 원본이 주 데이터 원본이 됩니다.
  2. 다른 데이터 원본으로 전환하고 주 데이터 원본과 관계가 있는지 확인하십시오.
    • 주황색 필드 연결 아이콘()이 있으면 데이터 원본이 자동으로 연결됩니다. 하나 이상의 활성 링크가 있다면 데이터를 혼합할 수 있습니다.
    • 회색의 끊어진 링크 아이콘()이 있으면 두 데이터 원본을 연결해야 하는 필드 옆에 있는 아이콘을 클릭합니다. 아이콘이 활성 관계를 나타내는 주황색으로 바뀝니다.
    • 원하는 필드 옆에 링크 아이콘이 나타나지 않으면 혼합을 위한 링크 관계 정의를 참조하십시오.
  3. 보조 데이터 원본에서 뷰로 필드를 끌어옵니다.

이 두 번째 데이터 원본이 동일한 뷰에서 사용되는 즉시 혼합이 설정됩니다. 아래 예에서 주 데이터 원본은 Sales Targets이고 보조 데이터 원본은 Sample - Superstore입니다.

  • 주 데이터 원본은 데이터 원본에 표시된 파란색 확인 표시로 알 수 있습니다. 뷰에 사용된 주 데이터 원본의 필드에는 아무런 표시가 없습니다.
  • 보조 데이터 원본은 데이터 원본에 주황색 확인 표시가 나타나고 데이터 패널의 측면 아래에 주황색 막대가 나타납니다. 뷰에 사용된 보조 데이터 원본의 필드에는 주황색 확인 표시가 있습니다.

주 데이터 원본과 보조 데이터 원본 이해

데이터 통합에는주 데이터 원본 하나와 하나 이상의 보조 데이터 원본이 필요합니다. 뷰에 사용된 첫 번째 데이터 원본이 주 데이터 원본이 되어 뷰를 정의합니다. 이를 통해 보조 데이터 원본의 값을 제한할 수 있습니다. 즉, 주 데이터 원본에 해당하는 일치가 있는 값만 뷰에 나타납니다. 이것은 Left 조인과 유사합니다.

예를 들어 주 데이터 원본에 4월, 5월 및 6월만 포함된 Month(월) 필드가 있는 경우 보조 데이터 원본에 12개월에 대한 값이 있는 경우에도 Month(월)를 기반으로 작성되는 모든 뷰에는 4월, 5월 및 6월만 표시됩니다. 필요한 분석에 12개월이 모두 관련된 경우 다른 데이터 원본을 먼저 사용하여 시트를 다시 작성하는 방식으로 주 데이터 원본을 전환해 보십시오.

자세한 내용: 데이터 원본 순서의 효과

아래에 있는 예제들에서는 동일한 필드에 연결된 동일한 데이터 원본을 사용하며 두 번 모두 동일한 방식으로 비주얼리제이션이 작성됩니다. 결과의 차이는 어떤 데이터 원본이 주 데이터 원본으로 지정되느냐에 따라 발생합니다.

  1. 여기서 Rainfall 데이터 원본의 Month(월) 필드를 뷰에 먼저 가져옵니다. Rainfall에 월 3개만 포함되기 때문에 Pollen 데이터 집합을 보조 데이터 원본으로 추가하면 뷰에 3개월만 가져옵니다.
  2. product screenshot of a viz showing three months
  3. 또 다른 시트에서는 Pollen 데이터 집합의 Month(월) 필드를 뷰에 먼저 가져옵니다. 이 경우 12개월이 모두 표시됩니다. Rainfall 데이터 집합을 보조 데이터 원본으로 추가하면 Rainfall은 해당 데이터 집합의 3개월에 대해서만 사용할 수 있습니다.
  4. product screenshot of a viz showing twelve months

혼합된 데이터 원본으로 작업

데이터 혼합의 특성으로 인해, 혼합 데이터 원본으로 작업할 때 유의해야 할 몇 가지 사항이 있습니다.

둘 이상의 데이터 원본에서 필드를 가져와 계산을 수행하는 것은 일반적인 계산과 약간 다를 수 있습니다. 한 데이터 원본에서 계산을 만들어야 하며, 이것은 계산 에디터의 상단에 표시됩니다.

  • 집계. 다른 데이터 원본에서 사용된 모든 필드는 집계(기본적으로 SUM)로 표시되지만 변경할 수 있습니다. 계산에서 집계 인수와 비집계 인수를 혼합해서 사용할 수 없으므로 계산이 수행되는 데이터 원본의 필드도 집계되어야 합니다. (아래 이미지에서 SUM 집계가 자동으로 추가되고 sum 집계가 수동으로 추가되었습니다.)
  • 점 표기법. 다른 데이터 원본에 속하는 계산에서 참조되는 모든 필드는 점 표기법을 사용하여 해당 데이터 원본을 나타냅니다. (아래 이미지에서 Sample - Superstore에서 작성된 계산의 경우 Sales Target(판매 목표) 필드는 [Sales.Targets].[Sales Target]이 됩니다. 계산이 Sales Targets에서 작성되는 경우에는 Sales(판매) 필드가 [Sample - Superstore].[Sales]가 됩니다.)
  • 이들은 각 데이터 원본에서 작성된 동일한 계산의 동등한 버전입니다. 두 경우 모두 SUM(Sales) / SUM(Sales Target)입니다.

계산을 약간 다르게 처리하는 것 외에도, 보조 데이터 원본에는 몇 가지 제한 사항이 있습니다. 보조 데이터 원본의 필드를 기준으로 정렬할 수 없으며 동작 필터가 혼합 데이터에서 예상대로 작동하지 않을 수 있습니다. 자세한 내용은 기타 데이터 통합 문제를 참조하십시오.

혼합을 위한 링크 관계 정의

Tableau가 여러 원본의 데이터를 결합하는 방법을 알기 위해서는 데이터 원본 간에 하나 이상의 공통 차원이 있어야 합니다. 이 공통 차원을 연결 필드라고 합니다. 활성 연결 필드는 보조 데이터 원본의 데이터 패널에서 활성 링크 아이콘()으로 식별되며 잠재적 연결 필드는 끊어진 링크 아이콘()으로 식별됩니다.

예를 들어, 거래 데이터와 할당량 데이터의 혼합에서 지역의 할당량과 할당량 대비 성과를 분석할 수 있으므로 지리적 필드가 원하는 연결 필드일 수 있습니다.

참고: 혼합이 작동하려면 연결 필드들도 값이나 멤버를 공유해야 합니다. Tableau는 공유된 값을 기반으로 혼합 데이터 뷰를 작성합니다. 예를 들어, Color(색상)가 두 데이터 원본의 연결 필드인 경우 Tableau는 주 데이터 원본의 "Purple"과 보조 데이터 원본의 "Purple"에 대한 데이터를 일치시킵니다. 하지만 "Lt. Blue"는 "Light Blue"에 매핑되지 않습니다. 이 경우 두 데이터 중 하나를 별칭 처리해야 합니다. Tableau가 연결 필드를 식별할 수 있도록 필드의 이름을 바꾸는 것처럼 이러한 필드의 멤버에 대한 별칭을 편집할 수 있습니다. 자세한 내용은 별칭을 만들어 뷰의 멤버 이름 바꾸기을 참조하십시오.

링크 관계 설정

주 데이터 원본과 보조 데이터 원본의 연결 필드가 같은 이름이면 Tableau는 자동으로 관계를 만듭니다. 주 데이터 원본이 설정되어 있을 때(즉, 뷰에서 필드가 사용되고 있을 때) 데이터 패널에서 보조 데이터 원본을 선택하면 두 데이터 원본에서 이름이 같은 모든 필드가 보조 데이터 원본에서 링크 아이콘( 또는 )으로 표시됩니다. 주 데이터 원본의 관련 필드가 뷰에서 사용되는 경우 링크가 자동으로 활성화됩니다.

보조 데이터 원본에 링크 아이콘이 없으면 다음 두 방법 중 하나로 Tableau가 링크를 설정하도록 도울 수 있습니다. 

  1. 공통 차원의 이름이 같지 않은 경우(예: "Region" 및 "Sales Region"), 한 이름을 바꾸면 Tableau에서 이를 공통 차원으로 식별하고 링크를 설정합니다.

  2. 또는 주 데이터 원본과 보조 데이터 원본의 필드 사이에서 관계를 수동으로 정의할 수 있습니다. 수동 링크 관계 만들기에 대한 자세한 내용은 아래를 참조하십시오.

필요에 따라 제한 없이 활성 또는 잠재적 연결 필드를 사용할 수 있습니다. 관계를 활성 상태로 만들려면 데이터 패널에서 끊어진 링크 아이콘()을 클릭합니다.

수동으로 링크 관계 정의

공통 차원이 동일한 이름을 공유하지 않는 경우 수동으로 둘 사이의 관계를 매핑할 수 있습니다.

  1. 데이터 > 관계 편집을 선택합니다.

  2. 관계 대화 상자의 주 데이터 원본 드롭다운 목록에서 주 데이터 원본이 선택되었는지 확인합니다.

  3. 보조 데이터 원본 패널에서 보조 데이터 원본을 선택합니다. 존재하는 모든 자동 관계가 표시됩니다. 관계 목록에서 사용자 지정을 선택한 다음 추가를 클릭합니다.

    product UI for Relationships dialog box

  4. 필드 매핑 추가/편집 대화 상자에서 다음을 수행합니다.

    1. 주 데이터 원본에서 필드를 선택합니다.

    2. 보조 데이터 원본의 필드를 선택하여 연결 필드 또는 데이터 원본 간의 관계를 설정합니다. 이 경우 필드의 이름이 같지 않아도 됩니다.

    3. 확인을 클릭합니다.

      이 예에서는 Segment(세그먼트)와 Cust Segment(사용자 지정 세그먼트) 사이에 매핑을 만듭니다.

      Product UI for the add/edit relationships dialog box

      : 날짜의 경우 관계를 정밀하게 지정할 수 있습니다. 날짜 필드를 확장하고 정확한 일, 월, 연도 등과 같이 날짜의 원하는 부분을 선택합니다.

  5. 원하는 만큼 필드 매핑 관계를 만든 다음 확인을 클릭합니다.

다중 링크 관계

조인과 마찬가지로, 데이터 원본 간의 관계가 둘 이상의 필드로 정의되는 경우가 있습니다. 예를 들어, 지역별 판매 할당량이 월별인 경우 올바른 데이터가 뷰에 함께 표시되려면 거래 판매 데이터와 할당량 데이터 사이의 혼합을 지역과 월 모두에서 설정해야 합니다. 다중 링크 관계는 동시에 활성화될 수 있습니다.

자세한 내용: 다중 연결 필드의 영향

다중 필드를 기반으로 데이터가 혼합되는 경우 이러한 필드의 데이터 조합이 두 데이터 집합에서 일치하는 경우에만 뷰에 값이 포함됩니다. 이해를 돕기 위해 예를 살펴보겠습니다.

두 개의 테이블이 있습니다. 하나는 조류 관찰자가 실제로 확인한 조류에 대한 테이블이고, 다른 하나는 확인되었다고 보고된 조류에 대한 테이블입니다.

주 데이터 원본인 Birds seen(확인된 조류)의 Birdwatchers(조류 관찰자) 및 Number of birds(조류 수) 필드가 있는 혼합 뷰를 설정하고 보조 데이터 원본인 Birds reported(보고된 조류)에서 Number of reports(보고 수)를 가져오면 Tableau가 자동으로 Birdwatcher(조류 관찰자)를 기준으로 혼합합니다.

우리는 조류 관찰자 A가 3마리의 새를 관찰하고 두 개를 보고했고, B가 4마리의 새를 관찰하고 하나를 보고했으며, C가 8마리의 새를 관찰하고 두 개를 보고했다는 것을 알 수 있습니다.

하지만 여기에는 또 다른 가능한 연결 필드 Species seen(확인된 종)이 있습니다. 이 필드를 기준으로 혼합하지 않는 이유는 무엇입니까? 이 필드가 차이를 만듭니까? 

이 필드는 꽤 큰 차이를 만듭니다. 이제 우리는 조류 관찰자 A와 C에 대해 각각 하나의 보고만 있고 B는 의미 있는 보고가 없다는 것을 알 수 있습니다. 무슨 일이 일어난 것일까요? 

이는 조류 관찰자들이 정직하지 못하다는 것을 알려줍니다. 이들이 저널 항목(위의 이미지에서 파란색 막대)을 기준으로 관찰 결과를 보고할 때 관찰했다고 보고한 종과 실제로 본 종이 일치하지 않았습니다(Birds seen(확인된 조류) 보조 데이터 원본의 두 번째 열에 있는 null 참조). 이들이 사진으로 보고를 뒷받침했을 때(주황색 막대)에는 정직했습니다(Species seen(확인된 종)의 두 열이 일치함). 3개의 보고는 종이 일치하지 않기 때문에 Birdwatcher(조류 관찰자) 및 Species seen(확인된 종) 필드를 연결 필드로 사용한 경우 이러한 데이터 행이 삭제되었습니다. 뷰에는 두 연결 필드의 값이 일치하는 데이터만 표시됩니다.

여러 필드를 연결할 때 주의하십시오. 아이콘을 클릭하여 활성 링크를 설정하는 것이 매우 쉬울지라도 과도한 연결이나 바람직하지 않은 필드를 연결하면 분석에 심각한 영향을 줄 수 있습니다.

조인과 데이터 통합의 차이점

데이터 통합은 전통적인 Left 조인을 흉내냅니다. 둘의 주된 차이점은 집계를 수행할 때 발생합니다. 조인은 데이터를 결합한 다음 집계합니다. 혼합은 데이터를 집계한 다음 결합합니다.

Left 조인

Left 조인을 사용하여 데이터를 결합하는 경우 조인이 수행되는 데이터베이스로 쿼리가 전송됩니다. Left 조인은 왼쪽 테이블의 모든 행과 오른쪽 테이블의 대응하는 행을 반환합니다. 이 조인 결과가 Tableau로 전송되고 비주얼리제이션에 표시할 수 있도록 집계됩니다.

Left 조인은 왼쪽 테이블에서 모든 행을 가져옵니다. 공통 열이 User ID(사용자 ID) 및 Patron ID(후원자 ID)이며, 오른쪽 테이블에 대응하는 정보가 있는 경우 해당 데이터가 반환됩니다. 그렇지 않으면 null이 반환됩니다.

 

동일한 테이블이 있지만 순서를 뒤집는다고 가정합니다. 이 새로운 Left 조인은 다른 결과를 생성합니다. 다시 이야기하면, Left 조인은 새로운 왼쪽 테이블의 모든 데이터를 가져오지만 본질적으로 오른쪽 테이블의 행을 무시합니다. User ID = 4에 대한 데이터 행은 왼쪽 테이블에 Patron ID = 4에 대한 행이 없으므로 포함되지 않습니다.

데이터 통합

데이터 통합을 사용하여 데이터를 결합하는 경우 시트에 사용되는 각 데이터 원본의 데이터베이스로 쿼리가 전송됩니다. 이 쿼리 결과는 집계 데이터로 Tableau에 다시 전송되고 비주얼리제이션에 함께 표시됩니다.

참고: 측정값 집계는 간단합니다. 숫자의 합계, 평균, 최대값 또는 다른 집계를 쉽게 계산할 수 있습니다. 측정값은 필드에 뷰에서 집계되는 방식에 따라 집계됩니다. 그러나 보조 데이터 원본의 모든 필드가 집계되어야 합니다. 차원에서는 어떻게 작동합니까? 차원 값은 ATTR 집계 함수를 사용하여 집계되므로 보조 데이터 원본의 모든 행에 대해 단일 값이 반환됩니다. 이러한 행에 포함된 값이 여러 개인 경우 별표(*)가 표시됩니다. 이는 "뷰의 이 마크에 대해 보조 데이터 원본에 여러 값이 있다"라고 해석할 수 있습니다.

뷰에는 주 데이터 원본(왼쪽 테이블로 작동)의 모든 값과 연결 필드에 기반하는 보조 데이터 원본(오른쪽 테이블)의 대응하는 행이 사용됩니다.

다음과 같은 테이블이 있다고 가정합니다. 연결 필드가 User ID(사용자 ID) 및 Patron ID(후원자 ID)인 경우 다음과 같은 이유로 결과 테이블에 일부 값이 포함되지 않을 수 있습니다.

  • 결과에서 null 값으로 표시된 것과 같이 왼쪽 테이블의 행에 일치하는 행이 오른쪽 테이블에 없습니다.

  • 결과에 별표(*)로 표시된 것처럼, 오른쪽 테이블의 행에 해당하는 값이 여러 개입니다.

아래에서 볼 수 있는 것처럼 측정값이 관련된 경우 측정값도 집계됩니다.

중요: 혼합 데이터가 있는 뷰의 별표(*)는 다중 값을 나타냅니다. 이 문제는 주 데이터 원본의 각 마크에 대해 보조 데이터 원본에 일치하는 값이 하나만 있는지 확인하고 잠재적으로 주 데이터 원본과 보조 데이터 원본을 교체하여 해결할 수 있습니다. 자세한 내용은 데이터 통합 문제 해결을 참조하십시오.

데이터를 혼합해야 하는 경우

데이터 혼합은 다음과 같은 경우에 유용합니다.

  • 교차 데이터베이스 조인이 지원되지 않는 서로 다른 데이터베이스의 데이터를 결합하려는 경우

    교차 데이터베이스 조인은 큐브(예: Oracle Essbase)에 대한 연결이나 일부 추출 전용 연결(예: Google Analytics)을 지원하지 않습니다. 이 경우 분석해야 하는 데이터에 대해 개별 데이터 원본을 설정한 다음 데이터 통합을 사용하여 단일 시트에서 데이터 원본을 결합합니다.

  • 데이터의 세부 수준이 서로 다릅니다.

    한 데이터 집합이 다른 데이터 집합보다 더 높거나 낮은 수준을 사용하여 데이터를 표현하는 경우

    판매 데이터와 할당량 데이터를 분석한다고 가정합니다. 판매 데이터에는 모든 거래가 포함될 수 있지만 할당량 데이터에는 분기 수준의 목표가 있습니다. 이러한 값은 각 데이터 집합에서 서로 다른 세부 수준으로 표현되기 때문에 데이터 통합을 사용하여 데이터를 결합해야 합니다.

    참고: 조인 후 중복 데이터는 세부 수준이 서로 다를 때의 증상입니다. 조인에 중복 데이터가 있는 경우 대신 데이터 혼합을 사용해 보십시오.

  • 데이터가 많습니다.

    일반적으로 동일한 데이터베이스의 데이터를 결합할 때 조인이 권장됩니다. 조인은 데이터베이스에 의해 처리되며 데이터베이스의 몇 가지 기본 기능을 활용합니다. 하지만 조인은 데이터를 결합한 다음 뷰에 대해 집계합니다. 대규모 데이터 집합으로 작업하는 경우 이 데이터의 사전 집계 조합은 데이터베이스에 부하를 발생시키고 잠재적으로 성능에 상당한 영향을 미칠 수 있습니다. 데이터 혼합은 데이터를 적절한 수준으로 집계한 다음 뷰에서 결합합니다. 이러한 작동 순서의 변경은 경우에 따라 성능 이점을 가질 수 있습니다.

    참고: Product Category(제품 범주) 대신 Product Name(제품 이름)을 사용하는 것처럼, 더 높은 세부 수준을 사용하여 필드를 통합하는 경우 쿼리가 느려질 수 있습니다.

데이터 혼합 요약

  • 데이터 혼합은 시트 단위로 이루어집니다.
  • 필드가 사용되는 순서에 따라 주 데이터 원본과 보조 데이터 원본이 결정됩니다.
  • 주 데이터 원본에는 파란색 확인 표시가 나타나고, 보조 데이터 원본 및 보조 데이터 원본의 필드에는 주황색 확인 표시가 나타납니다.
  • 연결 필드는 공유 필드명에 따라 자동으로 결정되거나 관계를 수동으로 만들 수 있습니다.
  • 데이터 혼합은 Left 조인과 유사하게 작동하며, 보조 데이터 원본의 데이터가 누락될 수 있습니다.
  • 별표(*)가 나타날 수 있습니다. 데이터 혼합은 집계된 결과를 가져와서 뷰에서 결합하기 때문에, 이 표시는 단일 마크의 여러 차원 값을 나타냅니다.
  • 보조 데이터 원본은 주 데이터 원본의 필드 값에 별칭을 다시 지정하는 데 사용할 수 있습니다. 자세한 내용은 데이터 통합을 사용한 필드 값 별칭 지정을 참조하십시오.

데이터 통합 제한 사항

  • COUNTD, MEDIAN, RAWSQLAGG 등과 같은 비가산 집계와 관련된 몇 가지 데이터 통합 제한 사항이 있습니다. 자세한 내용은 데이터 통합 문제 해결을 참조하십시오.
  • 혼합된 데이터 원본은 하나의 단위로 게시할 수 없습니다. 대신 각 데이터 원본을 (동일한 서버에) 개별적으로 게시한 다음 게시된 데이터 원본을 혼합하십시오.
  • 보조 데이터 원본의 데이터는 항상 계산에서 집계되어야 합니다.
  • 큐브 데이터 원본을 혼합하는 경우 큐브 데이터 원본이 주 데이터 원본이어야 합니다.

이 섹션의 다른 문서

의견을 주셔서 감사합니다! 피드백을 제출하는 동안 오류가 발생했습니다. 다시 시도하거나 메시지를 보내십시오.