예측자 선택

Tableau에서 예측 모델링 함수를 사용하여 예측 계산을 만들려면 예측자를 선택해야 합니다. 다시 말해, 예측자는 대상 또는 반응이라고도 하는 결과 변수를 예측하는 데 값이 사용되는 입력 변수입니다. 대개 잘 알고 있는 분야에 대한 데이터로 작업하게 되며 어떤 필드가 예측 대상과 강력한 상관 관계가 있는지, 좋은 예측자가 될지 이미 잘 알고 있습니다. 그러나 여전히 시간을 들여 예측자를 평가하고 올바르게 선택한 것인지 확인하는 것이 좋습니다. 항상 하나 이상의 예측자를 포함하고 대개 둘 이상을 포함하게 됩니다.

먼저 대상을 선택합니다. 당연한 것처럼 들리겠지만, 예측하려는 항목을 기반으로 예측자를 선택하는 것이 중요한 첫 번째 단계입니다. 예를 들어 여성의 기대 수명과 가장 관련이 있는 필드는 남성의 기대 수명과 가장 관련이 있는 필드와 매우 다를 수 있습니다. 마찬가지로 매출과 가장 관련이 있는 필드는 수익과 가장 관련이 있는 필드와 매우 다를 수 있습니다.

주의해야 할 또 다른 사항은 기본적으로 예측 모델링 함수가 기초 통계 모델로 선형 회귀를 사용한다는 것입니다. 이 모델에서 가장 관련이 있는 예측자는 대상과 선형 관계가 있는 예측자입니다. 지원되는 다른 모델을 사용하는 것에 대한 자세한 내용은 예측 모델 선택을 참조하십시오.

답을 구하려는 질문에 가장 적합한 예측자를 선택하는 방법을 보다 정확하게 이해하기 위해 여성의 기대 수명 데이터를 살펴보겠습니다. 이 예제를 따라하려면 Tableau Public에서 예측을 위한 예측자 선택(영문) 통합 문서를 다운로드하십시오.

예측자로서의 측정값

측정값을 예측자로 사용하는 경우 Tableau를 사용하여 대상과의 상관 관계를 평가할 수 있습니다. 한 가지 방법은 분산형 차트를 만드는 것입니다. 아래에서는 한 국가의 여성 평균 기대 수명을 다양한 다른 측정값과 비교합니다.

예측자와 대상 상관 관계를 보여주는 분산형 차트 비교

Infant Mortality(영아 사망률)Birth Rate(출생률)와 같은 일부 측정값의 경우 분산형 차트의 음의 기울기에서 볼 수 있듯이 Female Life Expectancy(여성 기대 수명)과 분명한 음의 상관 관계가 있습니다. 다른 측정값은 분명하지 않습니다. 그러나 명확하게 확인할 수 있는 한 가지 사항은 Median GDP(GDP 평균), Median Mobile Phone Usage(휴대 전화 평균 사용량)Median Health Exp/Capita(1인당 평균 의료비)에 대한 L자형 분포입니다. 이 L자형 분포의 경우 로그 변환을 사용하면 데이터를 보다 정확하게 분석할 수 있는 경우가 많습니다. 또 다른 단서는 모든 열의 값이 양수인지 여부입니다. Tableau에서는 알약 모양을 편집하고 LOG 함수로 식을 둘러싸 로그 변환을 사용할 수 있습니다.

로그 함수

이렇게 하면 L자형 분포(배율의 극단을 구별하기 어려운 분포)에서 배율의 극단 차이가 덜한 보다 균일한 분포로 변환됩니다.

L자형 분산형 차트

이 작업을 다른 L자형 분포에도 반복하면 다음과 같은 결과를 얻을 수 있습니다.

추가 L자형 분포

결정 계수 또는 R-제곱 값

마크들이 직선에 가까운 모양을 형성할수록 두 측정값 간의 상관 관계가 높습니다. 상관 관계를 쉽게 평가할 수 있도록 추세선을 추가할 수 있습니다. 분석 패널에서 추세선을 뷰로 끌어 선형 위에 놓습니다. 추세선을 마우스오버하면 R-제곱 값 또는 결정 계수가 표시되며, 이는 독립 변수(예측자)가 종속 변수(대상)를 얼마나 잘 설명하는지를 나타냅니다. R-제곱 값이 1에 가까운 예측자는 R-제곱 값이 0에 가까운 예측자보다 정확합니다.

R-제곱이 1에 가까운 분산형 차트

분산형 차트를 살펴보면 여성 평균 기대 수명에 대한 최상의 예측자는 R-제곱 값이 0.87인 영아 평균 사망률이라는 것을 알 수 있습니다.

R-제곱에서 최상의 차트 선택

다른 좋은 예측자로는 Median Birth Rate(평균 출생률)(R-제곱=0.76)과 Median Health Expenditure/Capita(1인당 평균 의료비)(R-제곱=0.56)의 로그 변환이 있습니다.

참고: 선의 기울기는 R-제곱 값이 가장 높은 예측자를 명확하게 보여주지 않습니다. x축의 배율은 선택한 특정 변수의 범위에 따라 결정되므로 선의 기울기는 사용되는 특정 변수의 영향을 크게 받습니다.

아래 이미지에서는 Median Female Life Expectancy(여성 평균 기대 수명)에 대한 Median Female Life Expectancy(여성 평균 기대 수명)을 시각화했습니다. 결과 비주얼리제이션은 45° 각도에서 완벽하게 직선입니다. 예상대로 x축의 값과 y축의 값 간에 완벽한 상관 관계가 있으며, R-제곱 값은 1입니다.

R-제곱이 정확히 1인 차트

그러나 아래에서 볼 수 있는 것처럼, LOG(MEDIAN([GDP]))는 다른 추세선보다 기울기가 가파르지만 R-제곱 점수는 0.169에 불과한 낮은 값입니다. 이는 해당 패널에 대한 x축의 배율 때문입니다.

낮은 R-제곱 표시

이제 몇 개의 마크가 추세선의 기울기에 얼마나 큰 영향을 미칠 수 있는지 살펴보겠습니다. Median Business Tax Rate(법인 평균 세율)의 분산형 차트를 확대하면 대부분의 마크가 0에서 약 1 사이의 세율을 가지고 있으며 6개 국가의 세율이 2에서 3 사이로 훨씬 더 높다는 것을 알 수 있습니다. 모든 마크에 대한 R-제곱 값은 0.0879입니다.

법인 평균 세율 차트 확대

그러나 6개 마크의 클러스터를 제거하면 어떻게 되는지 살펴보겠습니다.

마크의 클러스터가 제거될 때의 결과

추세선은 거의 평평해지고 R-제곱 값은 0.0006으로 떨어집니다. 이는 기본적으로 Median Business Tax Rate(법인 평균 세율)Median Female Life Expectancy(여성 평균 기대 수명) 간에 상관 관계가 없음을 나타냅니다. 데이터를 시각화하고 좋은 통계 방법을 사용하여 예측자를 선택할 때 결론에 영향을 줄 수 있는 이상값이나 기타 데이터 특성이 있는지 여부를 신중하게 고려하는 것이 중요합니다.

참고: 요약 통계가 전체적인 정보를 제공하지 못하는 경우에 대한 더 많은 예를 보려면 앤스콤의 사중주(영문)를 읽어 보십시오.

예측자로서의 차원

차원을 예측자로 사용하는 경우 유사한 절차를 사용하여 상관 관계를 확인할 수 있습니다. 그러나 대상과의 관계 수준에서 서로 다른 차원 간에 상당한 불일치가 있음을 알 수 있습니다. 예를 들어 Region(지역)을 기준으로 나누는 경우 한 지역은 대상에 대해 매우 좋은 예측자가 될 수 있지만 다른 지역은 상관 관계가 거의 없을 수 있습니다. 이것이 해당 차원을 예측자로 사용해서는 안 된다는 의미는 아니지만 추가적인 측정값이나 차원을 사용하는 것이 모델을 개선하는 데 도움이 되는지, 결과적으로 예측에 도움이 되는지 여부는 고려할 수 있습니다.

데이터 집합에 대한 최상의 예측자는 Median Infant Mortality(영아 평균 사망률), Median Birth Rate(평균 출생률)Median Health Expenditure/Capita(1인당 평균 의료비)의 로그 변환이라는 것을 확인했으므로 비주얼리제이션을 이 세 가지 변수로 제한합니다.

다양한 값 비교

그런 다음, 마크 카드의 색상에 Region(지역)을 추가하여 데이터를 분할하고 비주얼리제이션에 어떤 일이 발생하는지 살펴보겠습니다.

색상으로 분할

예측자 간에서 R-제곱 값 비교

각 예측자에서 각 Region(지역) 추세선에 대해 R-제곱 값을 비교하는 방법을 살펴보겠습니다.

지역별 R-제곱 값을 비교하는 표

위의 표에서 각 예측자에 대한 가장 낮은 R-제곱 값은 빨간색으로 강조 표시되고 두 번째로 낮은 값은 노란색으로 강조 표시됩니다.

유럽은 Median Infant Mortality(영아 평균 사망률) 및 Median Birth Rate(평균 출생률)에 대한 R-제곱 값이 가장 낮고 아프리카는 Median Health Expenditure/Capita(1인당 평균 의료비)의 로그 변환에 대한 R-제곱 값(빨간색으로 강조 표시됨)이 가장 낮습니다. 또한 아프리카는 Median Infant Mortality(영아 평균 사망률) 및 Median Birth Rate(평균 출생률) 모두에 대해 더 낮은 R-제곱 값을 갖습니다.

차원을 추가하면 모델에 더 많은 정보를 제공할 수 있으며 더 많은 정보를 추가하면 예측 품질을 향상시킬 수 있습니다. 그러나 주어진 분할(이 경우 Region(지역)) 내의 예측 품질은 향상되거나 저하될 수 있습니다. 일부 경우 특정 그룹에 대한 최상의 예측자인 측정값을 기반으로 각 분할에 대한 개별 모델을 작성하고 싶을 수 있습니다.

이 경우 Infant Mortality(영아 사망률)는 모든 지역에서 Female Life Expectancy(여성의 기대 수명)와 상당히 강한 상관 관계가 있지만 아프리카와 유럽에서는 다소 약합니다. Median Birth Rate(평균 출생률)는 오세아니아 및 아시아에 대한 좋은 예측자이지만 유럽의 Female Life Expectancy(여성 기대 수명)과는 거의 상관 관계가 없으며 Median Health Expenditure(평균 의료비)의 로그 변환은 아프리카를 제외한 모든 지역에서 합리적인 예측자입니다. 네 가지 예측자, 즉 Infant Mortality(영아 사망률), Birth Rate(출생률), Health Expenditure(의료비)의 로그 및 Region(지역)으로 구축된 모델이 유럽과 아프리카 국가에 대해 가장 정확하지 않은 예측을 할 것으로 예상할 수 있습니다. 유럽과 아프리카에 더 잘 맞는 모델을 구축하는 데 사용할 수 있는 추가 또는 대체 예측자가 있는지 확인하기 위해 데이터를 좀 더 심층적으로 조사할 수 있습니다.

예측 모델링 함수 작성

이제 좋은 예측자를 찾았으므로 예측 모델링 함수를 작성하고 적용하여 실제로 작동하는지 확인할 수 있습니다.

  1. 상단의 분석 메뉴를 연 다음 계산된 필드 만들기를 선택합니다.

  2. 계산 에디터에서 계산에 이름을 지정하고 다음을 수행합니다.

    • 계산의 이름을 Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region으로 지정합니다.

    • 다음 수식을 입력합니다.

      MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
      LOG(MEDIAN([Health Exp/Capita])),
      MEDIAN([Birth Rate]),
      MEDIAN([Infant Mortality Rate]),
      ATTR([Region]))

이 계산은 선택한 예측자인 Health Expenditure(의료비), Birth Rate(출생률), Infant Mortality(영아 사망률)Region(지역)을 기반으로 모델링된 Median Female Life Expectancy(여성 평균 기대 수명) 범위의 중앙값(0.5)을 반환합니다.

다음으로 실제 여성 평균 기대 수명과 예상 여성 평균 기대 수명을 모두 보여주는 분산형 차트를 작성해 보겠습니다.

실제와 예상 비교

좋습니다! 예측은 각 지역의 실제 값과 거의 일치합니다.

그러나 예측이 마크와 가장 크게 차이가 나는 지역을 파악하기 위해 또 다른 단계를 수행해 보겠습니다. Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region이라는 또 다른 계산을 다음과 같이 만듭니다.

MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]

이 잔차 계산은 예상 평균과 실제 평균의 차이를 반환하여 여성 평균 기대 수명의 실제 값과 예상 값 사이에 큰 차이가 있는 국가를 확인하는 데 도움을 줍니다.

다음으로 이 잔차 계산을 색상에 적용해 보겠습니다.

잔차 계산 추가

위의 비주얼리제이션에서 대부분의 국가에서 대부분의 지역에 걸쳐 예측 값과 실제 값 사이의 불일치가 작음을 알 수 있습니다. 아프리카는 상당한 불일치가 있는 국가가 가장 많은 지역이지만, 지금 나타나고 있는 차이가 어떤 종류인지 확인하기 위해 한 번 더 살펴보겠습니다.

차이가 -17에서 +9 사이인 것을 알 수 있으므로 비주얼리제이션을 차이가 ±3년 미만, ±5년 미만, ±10년 미만 및 ±10년 이상인 그룹으로 나눕니다.

Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region이라는 또 다른 계산을 다음과 같이 만듭니다.

IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -3
THEN "±3"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN "±5"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN "±10"
ELSE
"> ±10"
END

다시 색상에 계산을 추가해보겠습니다.

최종 뷰

대부분의 예측은 3년 미만으로 부정확하며 소수만이 10년 이상 차이가 납니다. 전반적으로 꽤 좋습니다!

즉, 이 모델을 사용하면 여성 평균 기대 수명이 이상값을 갖는 국가를 정확하게 식별하거나 이 데이터가 누락된 국가에 대해 모델링된 여성 기대 수명을 제공할 수 있습니다.

피드백을 제공해 주셔서 감사합니다!귀하의 피드백이 제출되었습니다. 감사합니다!