Tableau의 데이터 집계
Tableau에서는 측정값이나 차원을 집계할 수 있지만 측정값을 집계하는 것이 일반적입니다. 뷰에 측정값을 추가할 때마다 기본적으로 해당 측정값에 집계가 적용됩니다. 적용되는 집계 유형은 뷰 컨텍스트에 따라 달라집니다.
뷰의 측정값 집계 변경
뷰에 측정값을 추가하면 자동으로 해당 값이 집계됩니다. 합계, 평균 및 중앙값이 자주 사용하는 집계이며 전체 목록을 보려면 Tableau의 미리 정의된 집계 목록을 참조하십시오.
현재 집계가 뷰에 측정값 이름의 일부로 나타납니다. 예를 들어 Sales가 SUM(Sales)이 됩니다. 모든 측정값에는 데이터 원본에 연결할 때 Tableau에서 설정하는 기본 집계가 있습니다. 측정값에 대한 기본 집계를 보거나 변경할 수 있습니다. 자세한 내용은 측정값에 대한 기본 집계 설정을 참조하십시오.
관계형 데이터 원본의 경우에만 Tableau를 사용하여 측정값을 집계할 수 있습니다. 다차원 데이터 원본에는 이미 집계된 데이터가 포함되어 있습니다. Tableau의 다차원 데이터 원본은 Windows에서만 지원됩니다.
뷰의 상황에 맞는 메뉴에서 측정값에 대한 집계를 변경할 수 있습니다.
차원 집계
뷰의 차원을 최소값, 최대값, 카운트 또는 카운트(고유)로 집계할 수 있습니다. 차원을 집계하면 새 임시 측정값 열이 만들어지므로 이제 차원이 실제로 측정값의 특성을 가져옵니다.
차원을 보기 위한 또 다른 방법은 차원의 상황에 맞는 메뉴에서 특성을 선택하여 차원을 특성으로 처리하는 것입니다. 특성 집계는 다음과 같은 다양한 용도로 사용할 수 있습니다.
- 여러 데이터 원본을 통합할 때 일관된 세부 수준을 보장할 수 있습니다.
- 집계 식이 필요한 테이블 계산을 수행할 때 차원을 집계하는 방법을 제공할 수 있습니다.
- 로컬에서 계산되기 때문에 쿼리 성능이 향상될 수 있습니다.
Tableau는 다음과 같은 수식을 사용하여 특성을 계산합니다.
IF MIN([dimension]) = MAX([dimension]) THEN
MIN([dimension]) ELSE "*" END
수식은 초기 쿼리로부터 데이터가 검색된 후 Tableau에서 계산됩니다. 별표(*)는 다중 값이 있을 때 발생하는 특별한 유형의 Null 값을 나타내는 시각적인 표시입니다. 별표에 대한 자세한 내용은 데이터 혼합 문제 해결(링크가 새 창에서 열림)을 참조하십시오.
다음은 테이블 계산에서 특성을 사용하는 예제입니다. 이 테이블은 시장, 시장 규모 및 지역별 매출을 보여 줍니다. 시장에 포함된 각 지역별로 매출 구성 비율을 계산한다고 가정해 보십시오. State에 따라 계산된 구성 비율 퀵 테이블 계산(퀵 테이블 계산(링크가 새 창에서 열림) 참조)을 추가할 때는 빨간색 영역 내에서 계산이 수행됩니다. 이러한 이유는 Market Size 차원이 데이터를 파티션 지정하기 때문입니다.
Market Size를 특성으로 집계하면 Market(다음 이미지의 East) 내에서 계산이 수행되고 Market Size 정보는 순전히 레이블로만 사용됩니다.
Tableau의 미리 정의된 집계 목록
합계나 평균과 같은 집계된 형태로 숫자 데이터를 보면 유용한 경우가 있습니다. 집계된 데이터를 생성하는 수학 함수를 집계 함수라고 합니다. 집계 함수는 값 집합에 계산을 수행하고 단일 값을 반환합니다. 예를 들어 값 1, 2, 3, 3, 4가 포함된 측정값을 합계로 집계하면 단일 값으로 13이 반환됩니다. 또는 50개 제품에서 3,000건의 매출 거래가 있는 경우 매출이 가장 큰 제품을 결정하기 위해 제품별 매출 합계를 확인하려 할 수 있습니다.
참고: 집계와 함께 부동 소수점 값을 사용하면 경우에 따라 예기치 않은 결과가 발생할 수 있습니다. 자세한 내용은 계산의 데이터 유형 이해(링크가 새 창에서 열림)를 참조하십시오.
표는 Tableau에서 제공하는 미리 정의된 집계 집합을 보여 줍니다. AVG([Discount])
처럼 자체적으로 집계를 포함하는 계산된 필드가 아닌 모든 측정값에 대해 기본 집계를 설정할 수 있습니다. 자세한 내용은 측정값에 대한 기본 집계 설정을 참조하십시오. 이미 뷰에 있는 필드에 대해 집계를 설정할 수도 있습니다. 자세한 내용은 뷰의 측정값 집계 변경을 참조하십시오.
집계 | 설명 | 1, 2, 2, 3이 포함된 측정값의 결과 |
---|---|---|
특성 | 그룹의 모든 행에 대해 단일 값만 있으면 지정된 식의 값이 반환되고, 그렇지 않으면 별표(*) 문자가 표시됩니다. Null 값은 무시됩니다. 이 집계는 차원을 집계하는 경우에 유용합니다. 뷰에서 이 집계에 대한 측정값을 설정하려면 측정값을 마우스 오른쪽 단추로 클릭(Mac의 경우 Control 클릭)하고 특성을 선택합니다. 그러면 필드에 ATTR이라는 텍스트가 표시됩니다. | * |
차원 | 측정값 또는 차원에 있는 모든 고유 값을 반환합니다. | 3개 값(1, 2, 3) |
합계 | 측정값에 있는 숫자의 합계를 반환합니다. Null 값은 무시됩니다. | 1개 값(8) |
평균 | 측정값에 있는 숫자의 산술 평균을 반환합니다. Null 값은 무시됩니다. | 1개 값(2) |
카운트(고유) | 측정값 또는 차원에 있는 고유 값 수를 반환합니다. 차원에 적용하면 카운트 결과가 숫자이기 때문에 측정값인 새 임시 열이 만들어집니다. 숫자, 날짜, 부울 및 문자열 수를 계산할 수 있습니다. Null 값은 항상 무시됩니다. 이 집계는 다음과 같은 유형의 통합 문서에 사용할 수 없습니다.
이러한 유형 중 하나를 사용하는 통합 문서에 연결하면 카운트(고유)를 사용할 수 없으며 Tableau에 "추출 필요"라는 설명이 표시됩니다. 이 집계를 사용하려면 데이터를 추출하십시오. 데이터 추출을 참조하십시오. | 1개 값(3) |
최소값 | 측정값 또는 연속형 차원에 있는 가장 작은 숫자를 반환합니다. Null 값은 무시됩니다. | 1개 값(1) |
최대값 | 샘플 모집단을 기준으로 측정값 또는 지정된 식에서 가장 큰 수를 반환합니다. Null 값은 무시됩니다. 샘플에서 Null이 아닌 멤버 수가 2 미만이면 Null을 반환합니다. 이 함수는 데이터가 모집단의 샘플을 나타내는 경우에 사용합니다. | 1개 값(3) |
표준 편차(모집단) | 편향 모집단을 기준으로 지정된 식에 있는 모든 값의 표준 편차를 반환합니다. 인수는 전체 모집단으로 구성된다고 가정합니다. 이 함수는 큰 샘플 크기에 사용합니다. | 1개 값(0.7071) |
분산 | 샘플을 기준으로 지정된 식에 있는 모든 값의 분산을 반환합니다. Null 값은 무시됩니다. 샘플에서 Null이 아닌 멤버 수가 2 미만이면 Null을 반환합니다. 이 함수는 데이터가 모집단의 샘플을 나타내는 경우에 사용합니다. | 1개 값(0.6667) |
분산(모집단) | 편향 모집단을 기준으로 지정된 식에 있는 모든 값의 분산을 반환합니다. 인수는 전체 모집단으로 구성된다고 가정합니다. 이 함수는 큰 샘플 크기에 사용합니다. | 1개 값(0.5000) |
집계 해제 | 기초 데이터 원본에 있는 모든 레코드를 반환합니다. 뷰에 있는 모든 측정값의 집계를 해제하려면 분석 메뉴에서 측정값 집계를 선택하여 확인 표시를 지웁니다. Tableau를 사용하면 데이터를 집계 해제된 형태로 볼 수 있습니다(관계형 데이터베이스에만 해당). 데이터 집계를 해제하면 데이터 원본의 개별 행을 볼 수 있습니다. 예를 들어 Rubber Bands의 매출 합계가 $14,600임을 검색한 후 개별 매매 거래의 분포를 확인할 수 있습니다. 이렇게 하려면 개별 데이터 행을 표시하는 뷰를 만들어야 합니다. 즉, 데이터 집계를 해제해야 합니다(데이터 집계 해제 방법 참조). 모든 뷰 또는 일부 뷰에 대한 기초 데이터를 보고 집계 해제된 데이터를 확인할 수도 있습니다. 자세한 내용은 기초 데이터 보기를 참조하십시오. | 4개 값(1, 2, 2, 3) |
Tableau의 집계 함수(링크가 새 창에서 열림)에 설명된 대로 사용자 지정 집계를 정의할 수도 있습니다. 이러한 집계는 만들어진 데이터 뷰 유형에 따라 적절한 세부 수준에 적용됩니다. 예를 들어 개별 차원 멤버(East 지역의 평균 배송 시간), 지정된 차원의 모든 멤버(East, West 및 Central 지역의 평균 배송 시간) 또는 차원 그룹(모든 지역과 모든 시장의 매출 합계)에 집계가 적용됩니다.
측정값에 대한 기본 집계 설정
AVG([Discount])
처럼 자체적으로 집계를 포함하는 계산된 필드가 아닌 모든 측정값에 대해 기본 집계를 설정할 수 있습니다. 기본 집계는 연속형 또는 불연속형 필드 요약으로 기본 설정 계산입니다. 기본 집계는 측정값을 뷰로 끌어올 때 자동으로 사용됩니다.
기본 집계를 변경하려면
데이터 패널에서 측정값을 마우스 오른쪽 단추로 클릭(Mac의 경우 Control 클릭)하고 기본 속성 > 집계를 선택한 집계 옵션 중 하나를 선택합니다.
참고: 관계형 데이터 원본의 경우에만 Tableau를 사용하여 측정값을 집계할 수 있습니다. 다차원 데이터 원본에는 집계된 데이터만 포함되어 있습니다.
게시된 데이터 원본에 대해서는 기본 집계를 설정할 수 없습니다. 기본 집계는 데이터 원본을 처음 게시할 때 설정됩니다. 게시된 데이터 원본의 로컬 복사본을 만들어(링크가 새 창에서 열림) 기본 집계를 조정합니다.
데이터 집계 해제 방법
뷰에 측정값을 추가할 때마다 기본적으로 해당 측정값에 집계가 적용됩니다. 이 기본값은 분석 메뉴의 측정값 집계 설정으로 제어합니다.
뷰의 모든 마크를 가장 자세한 세부 수준으로 보려면 뷰를 집계 해제할 수 있습니다. 데이터 집계 해제는 데이터 원본의 모든 행 데이터 값에 대해 별도의 마크를 표시한다는 의미입니다.
뷰의 모든 측정값을 집계 해제하려면
분석 > 측정값 집계 옵션을 선택 취소합니다. 이 옵션이 이미 선택되어 있다면 측정값 집계를 한 번 클릭하여 선택 취소합니다.
측정값 집계가 선택되어 있으면 기본적으로 뷰의 측정값이 집계됩니다. 데이터 원본의 개별 행 값은 뷰의 세부 수준에서 단일 값(단일 마크)으로 집계됩니다.
한 측정값에 사용할 수 있는 서로 다른 집계는 개별 값이 수집되는 방식을 결정합니다. 즉, 개별 행 값의 합계(SUM), 평균(AVG), 최대값(MAX) 또는 최소값(MIN)이 될 수 있습니다.
사용 가능한 집계의 전체 목록은 Tableau의 미리 정의된 집계 목록을 참조하십시오.
세부 수준은 뷰의 차원에 의해 결정됩니다. 세부 수준 개념에 대한 자세한 내용은 차원이 뷰의 세부 수준에 영향을 미치는 방식을 참조하십시오.
뷰에서 독립 및 종속적으로 사용하려는 측정값을 분석할 때 데이터 집계 해제가 유용할 수 있습니다. 예를 들어 한 축에 참가자 나이를 사용하여 제품 만족도 설문조사의 결과를 분석할 수 있습니다. 나이 필드를 집계하여 참가자의 평균 나이를 확인하거나 데이터 집계를 해제하여 제품 만족도가 가장 큰 참가자 나이를 확인할 수 있습니다.
데이터를 분산형 차트로 표시할 때 데이터 집계 해제가 유용할 수 있습니다. 예: 분산형 차트, 집계 및 세부 수준을 참조하십시오.
참고: 데이터 원본이 매우 큰 경우 데이터 집계를 해제하면 성능이 훨씬 저하될 수 있습니다.
예: 분산형 차트, 집계 및 세부 수준
행 선반과 열 선반에 각각 측정값을 하나씩 배치하면 두 숫자 값이 비교됩니다. 이러한 경우 Tableau는 일반적으로 기본 비주얼리제이션으로 분산형 차트를 선택합니다. 초기 뷰는 대개 단일 마크이며, 두 측정값의 모든 값에 대한 합계가 표시됩니다. 따라서 뷰의 세부 수준을 높여야 합니다.
분산형 차트 작성 시작
기본 분산형 차트에 여러 가지 방법으로 세부 정보를 추가할 수 있습니다. 차원을 사용하여 세부 정보를 추가하거나, 더 많은 필드를 행 및 열 선반에 추가하여 데이터 집계를 해제할 수 있습니다. 이러한 옵션을 조합하여 사용할 수 있습니다. 이 항목에서는 Sample-Superstore 데이터 원본을 사용하여 이러한 대안을 살펴봅니다.
초기 뷰를 만들려면 다음 단계를 수행합니다.
Sales 측정값을 열 선반에 배치합니다.
Profit 측정값을 행 선반에 배치합니다.
측정값이 합계로 자동 집계됩니다. 기본 집계(SUM)는 필드명에 표시됩니다. 도구 설명에 표시되는 값은 데이터 원본의 모든 행에 있는 매출과 수익 값의 합계를 나타냅니다.
차원을 사용하여 뷰에 세부 정보를 추가하고 데이터 집계를 해제하려면 이러한 단계를 수행합니다.
차원을 사용하여 세부 수준 추가
더 많은 세부 수준을 표시할 차원을 추가하여 작성한 분산형 차트 뷰를 개발하려면 다음 단계를 수행합니다.
Category 차원을 마크 카드의 색상으로 끌어옵니다.
그 결과 데이터가 각 차원 멤버에 대해 하나씩, 세 개의 마크로 구분된 다음 색상을 사용하여 마크가 인코딩됩니다.
State 차원을 마크 카드의 세부 수준으로 끌어옵니다.
이제 뷰에 더 많은 마크가 표시됩니다. 마크 수는 데이터 원본의 고유 주 수에 범주 수를 곱한 값과 같습니다.
이제 더 많은 마크가 표시되지만 측정값은 그대로 집계됩니다. 데이터 원본에 State = North Dakota, Category= Furniture인 행이 1개인지 100개인지에 관계없이 결과는 항상 단일 마크로 표시됩니다.
아마도 이 프로세스를 통해 사용자가 유용하다고 생각하는 방향으로 뷰가 진행될 수도 있지만, 사용자는 다른 방향을 원할 수도 있습니다. 마음에 드는 방법으로 결정하면 됩니다.
행 및 열 선반에 필드 더 추가
원래 한 마크 뷰로 되돌리고 다음 단계에 따라 행 및 열 선반에 필드를 추가하여 분산형 차트 뷰를 개발합니다.
State 차원을 열 선반으로 끌어옵니다.
Continent를 SUM(Sales)의 오른쪽에 놓아도 Tableau에서는 Continent를 SUM(Sales)의 왼쪽으로 이동합니다. 이는 차원을 연속형 축 내에 삽입할 수 없기 때문입니다. 대신 뷰에서 차원의 각 멤버에 대한 개별 축을 표시합니다.
Segment 차원을 행 선반으로 끌어옵니다.
주 및 고객 세그먼트에 대한 Sales 및 Profit의 개요를 제공하는 뷰가 만들어졌습니다. 뷰의 마크를 마우스오버하면 다양한 세그먼트에 대한 도구 설명 데이터를 볼 수 있습니다.
데이터 집계 해제
데이터를 집계 해제하여 추가 마크를 표시하도록 원래 한 마크 분산형 차트를 수정할 수도 있습니다.
분석 > 측정값 집계 옵션을 선택 취소합니다. 이 옵션이 이미 선택되어 있다면 측정값 집계를 한 번 클릭하여 선택 취소합니다.
이 명령은 선택(확인 표시)된 원래 상태를 전환하는 것이므로 선택하면 데이터가 집계 해제됩니다. Tableau에서는 기본적으로 뷰의 데이터를 집계합니다.
이제 원래 데이터 원본에 있는 각 행에 대해 하나씩 수많은 마크가 표시됩니다.
측정값을 집계 해제하면 더 이상 데이터 원본의 행에 값 집계 또는 합계가 표시되지 않습니다. 대신 데이터 원본의 각 행에 대한 마크가 표시됩니다. 데이터 집계를 해제하는 것은 데이터의 전체 표면적을 볼 수 있는 방법입니다. 그리고 데이터 모양의 이해 또는 이상값을 신속하게 확인할 수 있는 방법이기도 합니다. 이 경우 뷰를 보면 45도 각도로 정렬된 마크 선으로 표시되어 매출과 수익 간에 일관된 관계가 있음을 알 수 있습니다.