데이터에서 클러스터 찾기

적용 대상: Tableau Desktop, Tableau Public

클러스터 분석에서는 뷰의 마크를 클러스터로 분할하며, 이 경우 각 클러스터 내의 마크는 다른 클러스의 마크와 비교하여 유사성이 훨씬 높습니다.

색상 선반에 클러스터가 있는 분산형 차트 행렬입니다.

샘플 데이터를 사용하여 클러스터를 만드는 과정을 보여 주는 예제는 예제: 세계 경제 지표 데이터를 사용하여 클러스터 만들기를 참조하십시오.

클러스터 만들기

Tableau의 뷰에서 클러스터를 찾으려면 다음 단계를 수행합니다.

뷰를 만듭니다.
클러스터를 분석 패널에서 뷰로 끈 다음 뷰의 대상 영역에 놓습니다.
클러스터를 두 번 클릭하여 뷰에서 클러스터를 찾을 수도 있습니다.
클러스터를 놓거나 두 번 클릭하는 경우:
- 클러스터 그룹이 색상에 만들어지고 뷰에서 마크에 클러스터별 색상이 지정됩니다. 색상에 이미 필드가 있는 경우 Tableau는 해당 필드를 세부 정보로 이동하고 클러스터링 결과로 색상의 필드를 교체합니다.
  Tableau는 뷰의 각 마크를 클러스터 중 하나에 할당합니다. 클러스터에 맞지 않는 마크가 있는 경우 "클러스터링 안 됨" 클러스터에 할당합니다.
- 클러스터를 사용자 지정할 수 있는 클러스터 대화 상자가 표시됩니다.
클러스터 대화 상자에서 다음 중 하나를 수행하여 클러스터 결과를 사용자 지정합니다.
- 새 필드를 데이터 패널에서 클러스터 대화 상자의 변수 영역으로 끌어옵니다. 변수 영역에 밖으로 필드를 끌어 제거할 수도 있습니다.
  변수를 추가할 경우 측정값은 필드의 기본 집계를 사용하여 집계되고 차원은 Tableau가 차원을 집계하는 표준 방식인 ATTR를 사용하여 집계됩니다.
  변수에 대한 집계를 변경하려면 변수를 마우스 오른쪽 단추로 클릭합니다.
- 2에서 50 사이에서 클러스터 수를 지정합니다. 값을 지정하지 않으면 Tableau에서 최대 25개까지 클러스터를 자동으로 만듭니다.
클러스터 결과 사용자 지정을 마쳤으면 클러스터 대화 상자의 오른쪽 상단에 있는 X 표시를 클릭하여 대화 상자를 닫습니다.

참고: 클러스터 필드를 색상에서 뷰의 다른 선반으로 이동할 수 있습니다. 그러나 클러스터 필드를 필터 선반에서 데이터 패널로 이동할 수는 없습니다.

결과 클러스터의 이름을 바꾸려면 먼저 클러스터를 그룹으로 저장해야 합니다. 자세한 내용은 클러스터 결과에서 그룹 만들기 및 클러스터 편집을 참조하십시오.

클러스터링 제약 조건

클러스터링은 Tableau Desktop에서 사용할 수 있지만 웹(Tableau Server, Tableau Cloud) 작성에는 사용할 수 없습니다. 다음과 같은 조건 중 하나라도 적용되는 경우 클러스터링을 사용할 수 없습니다.

큐브(다차원) 데이터 원본을 사용할 경우
뷰에 통합된 차원이 있는 경우
뷰에 클러스터링을 위한 변수(입력)로 사용할 수 있는 필드가 없는 경우
집계된 뷰에 차원이 없는 경우

이러한 조건 중 하나라도 적용되는 경우 클러스터를 분석 패널에서 뷰로 끌어 놓을 수 없습니다.

또한 다음과 같은 필드 유형은 클러스터링의 변수(입력)로 사용할 수 없습니다.

테이블 계산
통합 계산
임시 계산
생성된 위도/경도 값
그룹
집합
구간차원
매개 변수
날짜
측정값 이름/측정값

클러스터 편집

기존 클러스터를 편집하려면 색상에서 클러스터 필드를 마우스 오른쪽 단추로 클릭(Mac의 경우 Control 클릭)하고 클러스터 편집을 선택합니다.

클러스터를 편집할 수 있는 옵션이 있는 필터 드롭다운 메뉴입니다.

각 클러스터에 사용된 이름을 바꾸려면 먼저 클러스터 필드를 데이터 패널에 끌어 놓고 그룹으로 저장해야 합니다. 자세한 내용은 클러스터 결과에서 그룹 만들기를 참조하십시오.

클러스터 그룹을 마우스 오른쪽 단추로 클릭하고 그룹 편집을 선택하여 각 클러스터를 변경합니다.

그룹을 편집할 수 있는 옵션이 있는 드롭다운 메뉴입니다.

그룹 목록에서 클러스터 그룹을 선택하고 이름 바꾸기를 클릭하여 이름을 바꿉니다.

클러스터의 이름을 바꾸는 옵션을 보여주는 그룹 편집 대화 상자입니다.

클러스터 결과에서 그룹 만들기

클러스터를 데이터 패널로 끌면 그룹 차원이 되며, 이 그룹 차원의 개별 멤버(클러스터 1, 클러스터 2 등)는 클러스터 알고리즘에서 서로 유사하다고 결정한 마크를 포함합니다.

클러스터 그룹을 데이터 패널로 끈 후에는 다른 워크시트에서 해당 그룹을 사용할 수 있습니다.

클러스터를 마크 카드에서 데이터 패널에 끌어 놓아 Tableau 그룹을 만듭니다.

마크 카드에서 데이터 패널의 차원으로 클러스터 알약을 끌어다 놓는 방법을 보여주는 다이어그램입니다.

클러스터에서 그룹을 만들면 그룹과 원래 클러스터는 분리되고 구분됩니다. 클러스터를 편집해도 그룹에 영향을 주지 않고, 그룹을 편집해도 클러스터 결과에 영향을 주지 않습니다. 이 그룹은 다른 모든 Tableau 그룹과 동일한 특성을 가지며, 데이터 원본의 일부입니다. 원래 클러스터와 달리, 이 그룹을 통합 문서의 다른 워크시트에서 사용할 수 있습니다. 저장된 클러스터 그룹의 이름을 변경한 경우 바뀐 이름이 뷰의 원래 클러스터링에 적용되지 않습니다. 데이터를 그룹화하여 데이터 오류 해결 또는 차원 멤버 결합을 참조하십시오.

클러스터를 그룹으로 저장의 제약 조건

다음과 같은 경우 클러스터를 데이터 패널에 저장할 수 없습니다.

뷰의 측정값이 집계 해제되고 클러스터링 변수로 사용하는 측정값이 뷰의 측정값과 같지 않은 경우. 자세한 내용은 데이터 집계 해제 방법을 참조하십시오.
저장하려는 클러스터가 필터 선반에 있는 경우
측정값 이름 또는 측정값이 뷰에 있는 경우
뷰에 통합된 차원이 있는 경우

저장된 클러스터 재구성

클러스터 필드를 그룹으로 저장하면 해당 분석 모델과 함께 저장됩니다. 이러한 클러스터 그룹을 다른 워크시트 및 통합 문서에서 사용할 수 있지만 자동으로 새로 고쳐지지 않습니다.

이 예에서 저장된 클러스터 그룹 및 해당 분석 모델이 다른 워크시트에 적용되었습니다. 결과적으로 마크 중 일부가 아직 클러스터링에 포함되지 않습니다(회색 마크로 표시됨).

세 명의 선수 클러스터에서 안타와 타석 사이의 상관 관계를 보여주는 분산형 차트입니다.

기초 데이터가 변경되는 경우 재구성 옵션을 사용하여 저장된 클러스터 그룹에 대한 데이터를 새로 고치고 다시 계산할 수 있습니다.

저장된 클러스터를 재구성하려면

데이터 패널에서 클러스터 그룹을 마우스 오른쪽 단추로 클릭한 다음 재구성을 클릭합니다.
다음은 저장된 클러스터를 재구성한 후 업데이트된 클러스터링의 예입니다.
저장된 클러스터를 재구성하면 새 클러스터가 만들어지고 각 클러스터 그룹 범주에 대한 기존 별칭이 새로운 일반 클러스터 별칭으로 바뀝니다. 저장된 클러스터를 재구성하면 기존 클러스터 및 별칭을 사용하는 비주얼리제이션이 변경될 수 있으니 주의하십시오.

클러스터링 작동 방식

클러스터 분석에서는 뷰의 마크를 클러스터로 분할하며, 이 경우 각 클러스터 내의 마크는 다른 클러스터의 마크와 비교하여 유사성이 훨씬 높습니다. Tableau에서는 색상을 사용하여 클러스터를 구분합니다.

참고: Tableau에서 클러스터링이 작동하는 방식에 대해 자세히 살펴보려면 블로그 게시물 Understanding Clustering in Tableau 10(Tableau 10의 클러스터링 이해)을 참조하십시오.

클러스터링 알고리즘

Tableau에서는 클러스터링에 k-평균 알고리즘을 사용합니다. 지정된 클러스터 수 k에 대해 이 알고리즘은 데이터를 k개 클러스터로 분할합니다. 각 클러스터에는 해당 클러스터에 속한 모든 요소의 평균 값에 해당하는 중심(도심)이 있습니다. K-평균에서는 클러스터의 개별 요소와 해당 클러스터의 중심 간 거리를 최소화하는 반복 절차를 통해 중심을 찾습니다. Tableau에서 사용자는 원하는 클러스터 수를 지정하거나, Tableau가 다양한 k 값을 테스트하여 최적의 클러스터 수를 제안하게 할 수 있습니다(최적의 클러스터 수 결정에 사용되는 조건 참조).

K-평균에서는 초기 클러스터 중심을 지정해야 합니다. 클러스터 하나로 시작하는 이 방법에서는 데이터를 둘로 나누는 임계값으로 사용할 수 있는 평균을 갖는 변수가 선택됩니다. 그런 다음 두 부분의 중심을 사용하여 두 클러스터의 멤버 자격을 최적화할 수 있도록 k-평균을 초기화합니다. 계속해서, 두 클러스터 중에서 분할할 클러스터를 선택하고 해당 클러스터 내에서 클러스터를 둘로 나누는 임계값으로 사용할 수 있는 평균을 갖는 변수를 선택합니다. 다시, 분할된 클러스터의 두 부분 간 중심과 남은 클러스터의 중심으로 초기화된 k-평균을 사용하여 데이터를 세 개 클러스터로 분할합니다. 설정된 클러스터 수에 도달할 때까지 이 과정이 반복됩니다.

Tableau에서는 유클리디안 제곱 거리를 사용하여 각 k의 클러스터링에 사용할 k-평균을 구하는 로이드(Lloyd) 알고리즘을 사용합니다. 1보다 큰 각 k에 대해 초기 중심을 결정하는 분할 절차가 결합되어 있기 때문에 결과 클러스터링은 결정론적이며 결과는 클러스터 수에만 종속됩니다.

이 알고리즘에서는 먼저 초기 클러스터 중심을 선택합니다.

빨간색, 녹색, 주황색, 검은색 마커를 사용한 분산형 차트입니다.

그런 다음, 각 마크를 가장 가까운 중심에 할당하는 방식으로 분할합니다.

세 개의 클러스터로 그룹화된 데이터 요소를 보여주는 다이어그램입니다.

그런 다음, 동일한 클러스터에 할당된 모든 요소의 평균을 구해 각 파티션의 새로운 중심을 계산하여 결과를 구체화합니다.

세 개의 클러스터로 그룹화된 데이터 요소를 보여주는 다이어그램입니다.

그런 다음, 마크의 클러스터 할당을 검토하여 이전과 다른 중심에 더 가까워진 모든 마크를 재할당합니다.

더 이상 변경이 없을 때까지 반복적으로 클러스터가 재정의되고 마크가 재할당됩니다.

참고: 기술의 근본적인 차이로 인해 동일한 데이터에 대해 x64 또는 arm64 CPU에서 생성된 클러스터 간에 약간의 차이가 있을 수 있습니다.

최적의 클러스터 수 결정에 사용되는 조건

Tableau에서는 Calinski-Harabasz 조건을 사용하여 클러스터 품질을 평가합니다. Calinski-Harabasz 조건의 정의는 다음과 같습니다.

Calinski-Harabasz 조건입니다.

여기서 SSB는 클러스터간 전체 분산, SSW는 클러스터내 전체 분산, k는 클러스터 개수, N은 관측치 개수입니다.

이 비율의 값이 클수록 클러스터 응집도가 높아지고(클러스터내 분산이 낮아짐) 개별 클러스터의 구분/분리가 확실해집니다(클러스터간 분산이 높아짐).

k=1인 경우 Calinski-Harabasz 인덱스가 정의되지 않기 때문에 단일 클러스터 사례에는 이 조건을 사용할 수 없습니다.

사용자가 클러스터 수를 지정하지 않으면 Tableau는 Calinski-Harabasz 인덱스의 첫 번째 국부적 최대값에 해당하는 클러스터 수를 선택합니다. 기본적으로 k-평균은 인덱스의 첫 번째 국부적 최대값이 더 작은 k 값에 도달하지 않는 한 최대 25개 클러스터까지 실행됩니다. 최대값으로 50개 클러스터를 설정할 수 있습니다.

참고: 범주형 변수(차원)에 25개가 넘는 고유 값이 있는 경우 Tableau가 클러스터를 계산할 때 해당 변수가 무시됩니다.

"클러스터링 안 됨" 범주에 할당되는 값

측정값에 대해 null 값이 있는 경우 Tableau에서는 null이 포함된 행의 값을 클러스터링 안 됨 범주에 할당합니다. ATTR에 대해 모든 값이 동일하지 않다는 의미의 별표(*)를 반환하는 범주형 변수 즉, 차원은 클러스터링되지 않습니다.

배율

Tableau에서는 크기 범위가 큰 열이 결과를 지배하지 않도록 자동으로 값에 배율을 적용합니다. 예를 들어 분석가가 클러스터링의 입력 변수로 인플레이션과 GDP를 사용할 수 있지만 GDP 값이 수조 달러에 이르기 때문에 계산 과정에서 인플레이션 값은 거의 완전히 무시될 수 있습니다. Tableau에서는 최소-최대 정규화라는 배율 방법을 사용합니다. 이 방법에서는 각 변수의 값에서 최소값을 뺀 후 범위로 나누어 각 변수의 값을 0과 1 사이의 값에 매핑합니다.

클러스터에 사용되는 통계 모델에 대한 정보

클러스터 설명 대화 상자는 Tableau가 클러스터링을 위해 계산한 모델에 대한 정보를 제공합니다. 이러한 통계를 사용하여 클러스터링의 품질을 평가할 수 있습니다.

뷰에 클러스터링이 포함된 경우 마크 카드에서 클러스터를 마우스 오른쪽 단추로 클릭(Mac의 경우 Control 클릭)하고 클러스터 설명을 선택하여 클러스터 설명 대화 상자를 열 수 있습니다. 클러스터 설명 대화 상자의 정보는 읽기 전용이지만, 클립보드로 복사를 클릭한 다음 화면 내용을 쓰기 가능한 문서에 붙여 넣을 수 있습니다.

클러스터 설명 – 요약 탭

요약 탭에는 클러를 생성하는 데 사용된 입력이 나타나며 클러스터를 특성화하는 몇 가지 통계가 제공됩니다.

클러스터링을 위한 입력

변수

Tableau가 클러스터를 계산하기 위해 사용하는 필드를 나타냅니다. 이러한 필드가 클러스터 대화 상자의 변수 상자에 나열됩니다.

세부 수준

뷰의 세부 수준에 기여하는 필드 즉, 집계 수준을 결정하는 필드를 나타냅니다. 자세한 내용은 차원이 뷰의 세부 수준에 영향을 미치는 방식을 참조하십시오.

배율

전처리에 사용되는 배율 방법을 나타냅니다. 정규화가 현재 Tableau가 사용하는 유일한 배율 방법입니다. 최소-최대 정규화라고도 하는 이 방법의 수식은 (x – min(x))/(max(x) - min(x))입니다.

진단 요약

클러스터 수

클러스터링에서 개별 클러스터의 수입니다.

점 수

뷰의 마크 수입니다.

그룹 간 제곱 합계

클러스터에 할당된 데이터 요소의 수로 가중치를 주어 결정된 각 클러스터의 중심(평균 값)과 데이터 집합 중심 간의 거리 제곱 합계로 클러스터 간의 분리도를 정량화하는 메트릭입니다. 이 값을 클수록 클러스터 간의 분리가 명확한 것입니다.

그룹 내 제곱 합계

각 클러스터의 중심과 클러스터의 개별 마큰 간 거리의 제곱 합계로 클러스터의 응집도를 정량화하는 메트릭입니다. 이 값이 작을수록 클러스터의 응집도가 큰 것입니다.

총 제곱 합계

그룹 간 제곱 합계와 그룹 내 제곱 합계의 총계입니다. (그룹 내 제곱 합계)/(총 제곱 합계) 비율은 모델로 설명되는 분산 비율을 제공합니다. 값은 0에서 1 사이이며, 일반적으로 값이 클수록 모델이 더 정확하다는 의미입니다. 하지만 클러스터 수를 늘려 이 비율을 높일 수 있기 때문에 5개 클러스터로 구성된 모델과 3개 클러스터로 구성된 모델을 이 값만 사용하여 비교하는 것은 오해를 불러 일으킬 소지가 있습니다.

클러스터 통계

클러스터링에서 각 클러스터에 대해 다음과 같은 정보가 제공됩니다.

항목 수

클러스터 내 마크의 수입니다.

가운데

각 클러스터 내의 평균 값입니다(수치 항목인 경우 표시됨).

공통

각 클러스터 내의 공통 값입니다(범주 항목인 경우에만 표시됨).

클러스터 설명 – 모델 탭

분산 분석(ANOVA)은 그룹이나 클러스터로 분할된 표본의 표본내 편차와 표본간 편차를 분석할 때 유용한 통계 모델과 관련 절차의 모음입니다. 이 경우 분산 분석이 변수별로 계산되며 결과 분산 분석 테이블을 사용하여 클러스터 구분에 가장 효과적인 변수를 결정할 수 있습니다.

Tableau 클러스터링의 분산 통계 관련 분석에는 다음이 포함됩니다.

F-통계

단방향 또는 단일 요소에 대한 F-통계(ANOVA)는 변수로 설명되는 분산 비율입니다. F-통계는 총 분산에 대한 그룹간 분산의 비율입니다.

F-통계가 클수록 해당하는 값이 클러스터 간에서 더 명확하게 분리되는 것입니다.

p-값

p-값은 F-통계의 모든 가능한 값으로 구성된 F-분포가 변수의 실제 F-통계보다 큰 값을 가질 확률입니다. p-값이 지정된 유의 수준 아래로 떨어지면 변수의 개별 요소가 동일한 모집단의 임의 샘플이라는 귀무가설이 거부될 수 있습니다. 이 F-분포의 자유도는 (k - 1, N - k)입니다. 여기서, k는 클러스터의 수이고 N은 클러스터링된 항목(행)의 수입니다.

p-값이 작을수록 해당하는 변수에서 기대되는 요소 값이 클러스터 간에서 다를 확률이 커집니다.

모형 제곱 합계 및 자유도

모형 제곱 합계는 모형 자유도에 대한 그룹 간 제곱 합계의 비율입니다. 그룹 간 제곱 합계는 클러스터 평균 간의 편차에 대한 측정값입니다. 클러스터 평균 간의 차이가 적은 경우, 즉 전체 평균과의 차이가 적은 경우 이 값이 작습니다. 모형의 자유도는 k-1이며, 여기서 k는 클러스터 수입니다.

오차 제곱 합계 및 자유도

오차 제곱 합계는 오차 자유도에 대한 그룹 간 제곱 합계의 비율입니다. 그룹 내 제곱 합계는 각 클러스터 내에서 표본 간 편차를 측정합니다. 오차의 자유도는 N-k이며, 여기서 N은 클러스터링된 표본(행)의 총 수이고 k는 클러스터 수입니다.

오차 제곱 합계는 전체 평균 제곱 오차로 간주할 수 있지만, 각 클러스터 중심이 각 클러스터의 "실체"라고 가정해야 합니다.

예제: 세계 경제 지표 데이터를 사용하여 클러스터 만들기

Tableau 클러스터링 기능에서는 뷰의 마크를 클러스터로 분할하며, 이 경우 각 클러스터 내의 마크는 다른 클러스터의 마크와 비교하여 유사성이 훨씬 높습니다. 이 예제에서는 연구자가 클러스터링을 사용하여 데이터 원본에서 최적의 마크 집합(이 경우 국가/지역)을 찾는 방법을 보여 줍니다.

목표

세계적으로 기대 수명이 늘어나고 노령층이 왕성한 활동을 유지하고 있기 때문에, 잠재 고객을 발굴하고 마케팅을 펼치는 방법을 알고 있는 회사들에게 노령층 대상 관광 산업은 수익성이 좋은 시장이 될 수 있습니다. Tableau와 함께 제공되는 세계 지표 샘플 데이터 집합에는 회사에서 대상 고객 유형이 많이 분포하는 국가 또는 지역을 식별하는 데 사용할 수 있는 다양한 데이터가 포함되어 있습니다.

적합한 국가/지역 찾기

다음은 회사에서 Tableau 클러스터링을 사용하여 노령층 대상 관광 사업이 성공할 수 있는 국가/지역을 식별하는 방법을 보여 주는 예제입니다. 분석가라고 생각하고 이 예제를 수행하십시오. 방법은 다음과 같습니다.

Tableau Desktop에서 세계 지표 샘플 데이터 원본을 엽니다.
데이터 패널에서 국가/지역을 두 번 클릭합니다.
각 국가/지역에 마크가 표시된 맵 뷰가 자동으로 만들어집니다.
마크 카드에서 마크 유형을 맵으로 변경합니다.
이제 모든 국가/지역이 단색으로 채워진 맵 투영이 표시됩니다.

다음 단계는 클러스터링을 위한 변수로 사용할 필드를 식별하는 것입니다. 다음 필드를 선택해야 합니다.

필드	포함 이유
Life Expectancy Female 및 Life Expectancy Male	수명이 길어지면 노령층 여행에 관심을 가지는 사람이 더 많아집니다.
Population Urban	인구 밀도가 높은 지역에서 서비스를 마케팅하는 것이 더 쉽습니다.
Population 65+	대상 모집단은 여행 자금과 여유 시간이 있는 노령층 거주자입니다.
TourismPerCapita	명명된 계산된 필드로 만들어야 하는 측정값입니다. 수식은 다음과 같습니다. `SUM([Tourism Outbound])/SUM([Population Total])` Tourism Outbound(해외 여행)는 한 국가/지역의 거주자가 매년 해외 여행에 소비하는 금액(미화 달러 단위)을 집계합니다. 하지만 각 거주자가 해외 여행에 소비하는 평균 금액을 구하려면 이 총계를 각 국가/지역의 인구로 나누어야 합니다.

이러한 필드가 선택할 이상적인 필드라거나, 이러한 필드가 명확하고 모호하지 않은 클러스터 결과를 생성한다는 보장은 없습니다. 클러스터링은 반복적인 프로세스입니다. 실험이 발견을 낳고, 발견이 추가적인 실험으로 이어집니다.

다섯 개 필드를 데이터 패널에서 마크 카드의 세부 정보로 끌어옵니다.
분석 패널을 클릭하여 엽니다.
분석 패널에서 클러스터를 끌어 뷰에 놓습니다.
Tableau에 클러스터 대화 상자가 표시되고 뷰의 측정값이 변수 목록에 추가됩니다.
또한 색상에 클러스터가 추가되어 뷰가 업데이트됩니다. 이 경우 두 개의 고유 클러스터가 구해지지만 일부 국가/지역(진한 분홍 색)은 어느 클러스터에도 할당되지 못합니다.
참고: 클러스터링 작동 방식에 Tableau가 "클러스터링 안 됨"에 할당하는 데이터에 대한 설명이 나와 있습니다.
전 세계 절반의 국가/지역에 매장을 열 자원이 없기 때문에 두 개의 클러스터로 충분하지 않다는 결론을 얻었습니다. 따라서 클러스터링 대화 상자의 클러스터 수 필드에 4를 입력합니다.
맵이 더 흥미로운 결과를 보여 주게 되었습니다.
하지만 어떻게 이러한 클러스터를 선택한 변수와 연관시킬까요? 노령층 여행을 지지하는 요소와 상호 연관성이 큰 변수는 무엇입니까? 이제 클러스터의 이면에 있는 통계를 살펴볼 차례입니다.
오른쪽 위에 있는 X 표시를 클릭하여 클러스터 대화 상자를 닫습니다.
마크 카드에서 클러스터를 클릭하고 클러스터 설명을 선택합니다.
클러스터 설명 대화 상자의 모델 탭 아래쪽에 있는 테이블은 각 클러스터에서 각 변수의 평균 값을 보여 줍니다.
클러스터 4가 기대 수명(남/녀 모두)이 가장 높고 도심 인구 밀도가 가장 높으며 해외 여행 지출이 가장 높아 1인당 $1360.40입니다. 클러스터 4가 가장 높은 값이 아닌 유일한 변수는 Population 65+이며, 이 값은 클러스터 3이 0.15493(16% 미만)으로 0.11606(11% 미만)인 클러스터 4보다 높습니다.
클러스터링 알고리즘은 필요한 것이 이러한 변수에 대한 최대값인지, 최소값인지, 아니면 중간의 다른 값인지 알지 못합니다. 이 알고리즘은 단지 상관 관계를 찾습니다. 하지만 분석가는 이러한 변수의 값이 높을수록 찾는 목표에 가깝다는 것을 알고 있으며 클러스터 4가 최선의 선택입니다.
맵에서 클러스터 4 국가/지역을 선택할 수도 있지만 더 쉬운 방법이 있습니다. 클러스터 설명 대화 상자를 닫은 다음 색상 범례에서 클러스터 4를 클릭하고 이 항목만 유지를 선택합니다.
자동 표시에서 텍스트 테이블을 선택합니다.
이제 클러스터 4에 포함된 국가/지역의 목록이 표시됩니다.
이 목록이 프로세스의 끝이 아닙니다. 다소 다른 변수 집합을 사용하여 클러스터링을 다시 시도하거나 다른 수의 클러스터를 사용하거나 다른 요소를 기반으로 목록에 일부 국가/지역을 추가하거나 목록에서 일부 국가/지역을 제거할 수 있습니다. 예를 들어 여행이 대개 열대 지방이라면 이 국가/지역을 여행하는 데 매력을 느끼지 못하는 퀴라소 및 바하마 같은 국가/지역을 목록에서 제거할 수 있습니다.
또 다른 옵션은 클러스터링을 다시 수행하기 전에 데이터를 필터링하여 특정 임계값 이상의 인구가 있는 국가/지역만 표시하거나 특정 지리적 영역의 국가/지역만 대상에 포함하게 하는 것입니다.