이제 추세선예측을 비주얼리제이션에 추가할 수 있게 되었지만 이제는 이 수준을 뛰어넘어, 통계 엔진의 기능을 활용하여 데이터가 이러한 추세선 또는 최적 맞춤 라인을 중심으로 분산되는 방식을 이해하는 모델을 구축합니다. 이전에는 고급 통계 계산을 수행하고 그 결과를 Tableau에서 시각화하려면 Tableau를 R 및 Python과 통합해야 했습니다. 이제는 예측 모델링 함수를 사용하여 테이블 계산에 포함함으로써 데이터에서 예측을 수행할 수 있습니다. 테이블 계산에 대한 자세한 내용은 테이블 계산으로 값 변환을 참조하십시오.

이러한 예측 모델링 함수를 사용하면 변수를 업데이트하고 다양한 예측자 조합으로 여러 모델을 시각화하는 방식으로 대상과 예측자를 선택할 수 있습니다. 데이터는 모든 세부 수준에서 필터링, 집계 및 변환될 수 있으며 모델(따라서 예측)은 데이터와 일치하도록 자동으로 다시 계산됩니다.

이러한 함수를 사용하여 예측 계산을 만드는 방법을 보여주는 자세한 예는 예 - 예측 모델링 함수로 여성의 기대 수명 탐색을 참조하십시오.

Tableau에서 사용할 수 있는 예측 모델링 함수

함수 구문 설명
MODEL_QUANTILE MODEL_QUANTILE(
model_specification (optional),
quantile, target_expression,
predictor_expression(s))
지정된 사분위수에서 대상 식 및 기타 예측자에 의해 정의되는 확률 범위 내에서 대상 숫자 값을 반환합니다. 이것은 사후 예측 사분위수입니다.

예:

MODEL_QUANTILE(0.5, SUM([Sales]),COUNT([Orders]))

MODEL_PERCENTILE MODEL_PERCENTILE(
model_specification (optional),
target_expression,
predictor_expression(s))
대상 식 및 기타 예측자에 의해 정의된 대로 예상 값이 관찰된 마크보다 작거나 같을 확률(0과 1 사이)을 반환합니다. 이것은 누적 분포 함수(CDF)라고도 하는 사후 예측 분포 함수입니다.

예:

MODEL_PERCENTILE( SUM([Sales]),COUNT([Orders]))


예측 모델링 함수의 강력한 기능

MODEL_QUANTILE부터 시작하는 급여 데이터를 사용하는 예를 살펴보겠습니다.

아래 예에서 MODEL_QUANTILE은 동일한 데이터 집합에 대한 예상 분포의 10번째 백분위수와 90번째 백분위수를 표시하는 데 사용되었습니다. 기존 데이터를 기반으로 선형 회귀 모델을 사용하여 통계 엔진은 각 재직 기간 동안의 최대 급여가 녹색 라인보다 낮을 확률이 90%이고 각 재직 기간 동안의 최소 급여가 파란색 라인보다 낮을 확률이 10%라고 결정했습니다.

즉, 백분위수가 0.9로 설정된 경우 이 모델은 해당 시점에 모든 급여가 90% 녹색 라인 이하로 떨어질 것이라고 예측합니다. 파란색 라인은 .1 또는 10%로 설정되어 있으므로 급여의 10%만 파란색 라인 이하로 떨어지며, 그 반대(90%)는 파란색 라인 위에 있습니다.

실제로, 이것은 잠재적으로 생성된 미래 요소의 80%를 예측할 수 있거나 관찰되지 않은 데이터가 속하게 될 구간을 제공합니다.

급여 분포 차트

다음으로 MODEL_QUANTILE의 역인 MODEL_PERCENTILE이 데이터를 자세히 파악하는 데 어떻게 도움이 될 수 있는지를 살펴보겠습니다.

MODEL_PERCENTILE 함수를 사용하여 데이터 집합의 이상값을 식별할 수 있습니다. MODEL_PERCENTILE은 관찰된 마크가 각 마크에 대해 가능한 값 내에서 속한 위치를 백분위수로 알려줍니다. 백분위수가 0.5에 매우 가까운 경우 관찰된 값이 예측된 중앙값에 매우 가깝습니다. 백분위수가 0 또는 1에 가까우면 관찰된 값이 모델 범위의 하한 또는 상한에 있으며 상대적으로 예상치 못한 값입니다.

아래에서는 이미지 상단의 급여 비주얼리제이션에 MODEL_PERCENTILE을 색상으로 적용하여 예상 가능성이 가장 높은 값을 쉽게 알 수 있습니다.

급여 분포 색상

상세한 예측 모델링 함수 구문

MODEL_QUANTILE이란?

MODEL_QUANTILE은 사후 예측 사분위수 또는 지정된 사분위수의 예상 값을 계산합니다.

  • 사분위수: 첫 번째 인수는 예측해야 하는 사분위수를 나타내는 0과 1 사이의 숫자입니다. 예를 들어 0.5는 중앙값이 예측됨을 지정합니다.
  • 대상 식: 두 번째 인수는 예측할 측정값 또는 "대상"입니다.
  • 예측자 식: 세 번째 인수는 예측을 수행하는 데 사용되는 예측자입니다. 예측자는 차원, 측정값 또는 둘 다일 수 있습니다.

결과는 확률 범위 내의 숫자입니다.

MODEL_QUANTILE을 사용하여 신뢰 구간을 생성하거나, 미래 날짜와 같은 누락된 값을 생성하거나, 기초 데이터 집합에 존재하지 않는 범주를 생성할 수 있습니다.

MODEL_PERCENTILE이란?

MODEL_PERCENTILE은 누적 분포 함수(CDF)라고도 하는 사후 예측 분포 함수를 계산합니다. 이것은 MODEL_QUANTILE의 역이며 0과 1 사이에서 특정 값의 사분위수를 계산합니다.

  • 대상 식: 첫 번째 인수는 대상으로 하는 측정값, 즉 평가할 값을 식별합니다.
  • 예측자 식: 두 번째 인수는 예측을 수행하는 데 사용되는 예측자입니다.
  • 추가 인수는 선택 사항이며 예측을 제어하기 위해 포함됩니다.

계산 구문은 유사하며 MODEL_QUANTILE에는 정의된 사분위수의 추가 인수가 있습니다.

결과는 예상 값이 마크에 표현된 관찰 값보다 작거나 같을 확률입니다.

MODEL_PERCENTILE을 사용하여 데이터베이스 내의 상관 관계 및 관계를 드러낼 수 있습니다. MODEL_PERCENTILE이 0.5에 가까운 값을 반환하는 경우 선택한 다른 예측자를 고려할 때 관찰된 마크는 예측 값 범위의 중앙값 근처에 있습니다. MODEL_PERCENTILE이 0 또는 1에 가까운 값을 반환하면 선택한 다른 예측자를 고려할 때 관찰된 마크가 모델이 예상하는 범위의 하한 또는 상한 근처에 있습니다.

참고: 예측자로 사용되는 차원은 정렬된 상태이거나 정렬되지 않은 상태일 수 있습니다. 정렬된 차원은 MONTH와 같이 값을 차례로 배열할 수 있는 모든 차원입니다. 정렬되지 않은 차원은 성별 또는 색상과 같이 값에 고유한 순서가 없는 모든 차원입니다. 이 구분은 가우스 프로세스 회귀를 사용할 때 중요합니다. 이 모델 및 다른 모델에 대한 자세한 내용은 예측 모델 선택을 참조하십시오.

고급 사용자의 경우 예측을 제어하기 위해 포함할 수 있는 다른 두 가지 선택적 인수가 있습니다. 자세한 내용은 예측 모델링의 정규화 및 보강을 참조하십시오.

무엇을 계산합니까?

모델을 작성하는 데 사용되는 입력은 각 마크가 행이고 열이 각 마크에 대해 평가된 대상 식 및 예측자 식인 행렬입니다. 비주얼리제이션에 지정된 행은 통계 엔진에서 계산되는 데이터 집합의 행을 정의합니다.

아래 예를 살펴보겠습니다. 여기서 행(즉, 마크)은 직함으로 정의되고 열은 대상 식 MEDIAN([Annual Rt])입니다. 그 뒤에는 선택적 추가 예측자인 MEDIAN([Tenure in Months (Measure)] 및 ATTR([Department Generic (group)]이 있습니다.

급여 데이터 표

참고: 여러 직함에는 Department(부서) 아래에 별표가 있습니다. 이것은 해당 직함이 여러 부서에 존재하지만 Tableau는 이러한 직함을 모두 같은 부서에 있는 것처럼 처리하기 때문입니다. 또한 통계 엔진은 레코드 수를 고려하지 않고 각 마크를 동등하게 처리합니다. 이것은 Tableau가 집계되지 않은 데이터에서 테이블 계산을 수행할 수 없고 테이블 계산 결과를 집계할 수 없기 때문입니다. 집계에 대한 자세한 내용은 Tableau의 데이터 집계를 참조하십시오.

모델을 작성하고 예측을 생성하는 데 사용되는 데이터에 대한 자세한 내용은 예측 모델링에서 계산 도구 및 데이터 파티션 지정을 참조하십시오.

어떤 모델이 지원됩니까?

예측 모델링 함수는 선형 회귀, 정규화된 선형 회귀 및 가우스 프로세스 회귀를 지원합니다. 이러한 모델은 다양한 사용 사례 및 예측 유형을 지원할 뿐만 아니라 다양한 제한이 있습니다. 자세한 내용은 예측 모델 선택을 참조하십시오.

예측자 선택

예측자는 계산된 필드를 포함하여 데이터 원본의 모든 필드(측정값 또는 차원)일 수 있습니다.

참고: 차원을 예측자로 사용하는 경우 ATTR로 묶어야 합니다(예: [State]가 아닌 ATTR([State])). 이것은 일반적으로 차원이 직접적으로 또는 계층 구조의 상위에서 비주얼리제이션의 세부 수준에 속하는 경우에만 작동하기 때문입니다.

예를 들어 [City(도시)], [State(주)] 및 [Region(지역)] 필드를 포함하는 데이터 집합이 있다고 가정합니다. 여기서 [State(주)] 내에는 여러 [City(도시)] 레코드가 있고 [Region(지역)] 내에는 여러 [State(주)] 레코드가 있습니다.

[State(주)]를 마크로 사용하는 비주얼리제이션에서 예측자 ATTR([State]) 또는 ATTR([Region])은 모두 예측자로 작동합니다. 그러나 예측자 ATTR([City])는 시각화된 상태 내에 여러 도시가 존재하므로 예측자로 사용할 수 없기 때문에 *로 되돌아갑니다. 즉, 비주얼리제이션보다 세부 수준이 낮은 예측자를 포함하면 예측에 값이 추가되지 않습니다. 대부분의 경우 비주얼리제이션보다 세부 수준이 낮은 예측자는 *로 평가되므로 모두 동일하게 처리됩니다.

그러나 동일한 데이터 집합을 사용하여 [City(도시)]를 마크로 사용하는 비주얼리제이션을 생성하는 경우 ATTR([City]), ATTR([State]) 및 ATTR([Region])을 모두 예측자로 사용할 수 있습니다. ATTR 함수 사용에 대한 자세한 내용은 특성(ATTR) 함수를 사용하는 경우를 참조하십시오.

차원 및 측정값을 예측자로 포함하기 위해 뷰 또는 비주얼리제이션에서 시각화할 필요가 없습니다. 보다 자세한 지침에 대해서는 예측자 선택을 참조하십시오.

권장 사항

예측 계산은 다음과 같은 방식으로 사용하는 것이 가장 좋습니다.

  • 비주얼리제이션의 각 마크가 집계된 데이터가 아닌 제품, 매출, 사람 등과 같은 불연속형 엔터티를 나타내는 개별 레코드의 값을 예측합니다. 이것은 한 마크는 100개의 레코드로 구성되고 다른 마크는 각각 하나의 레코드로 구성되어 있더라도 Tableau는 각 마크를 동등하게 고려하기 때문입니다. 통계 엔진은 마크를 구성하는 레코드 수를 기반으로 마크에 가중치를 부여하지 않습니다.

  • SUM 및 COUNT를 사용하여 집계된 대상 식의 값을 예측합니다.
참고: MODEL_QUANTILE 및 MODEL_PERCENTILE은 AVG, MEDIAN, MIN 및 MAX를 사용하여 집계된 target_expression의 값을 예측할 때 사용하지 않는 것이 좋습니다.

제한 사항

  • 시계열을 미래로 확장하려면 계산된 필드를 사용해야 합니다. 자세한 내용은 미래 예측을 참조하십시오.

  • 예측자는 뷰와 동일하거나 더 높은 세부 수준이어야 합니다. 즉, 뷰가 State(주)별로 집계되는 경우 State(주) 또는 Region(지역)을 예측자로 사용해야 하며, City(도시)를 사용해서는 안 됩니다. 자세한 내용은 예측자 선택을 참조하십시오.

예측 계산은 언제 중단됩니까?

사용 중인 모델에 관계없이 모델이 응답을 반환하려면 각 파티션 내에 3개 이상의 데이터 요소가 있어야 합니다.

가우스 프로세스 회귀를 모델로 지정한 경우 정렬된 차원 예측자 하나와 임의의 수의 정렬되지 않은 차원 예측자를 포함하는 예측 계산에 사용할 수 있습니다. 측정값은 가우스 프로세스 회귀 계산에서 예측자로 지원되지 않지만 선형 및 정규화된 선형 회귀 계산에서 사용할 수 있습니다. 모델 선택에 대한 자세한 내용은 예측 모델 선택을 참조하십시오.

계산에서 ATTR[State]를 예측자로 사용하고 비주얼리제이션에도 State(주)가 마크로 포함되어 있지만 City(도시)와 같은 더 낮은 세부 수준에 있는 다른 필드가 없는 경우 오류가 반환됩니다. 이 오류를 방지하려면 마크와 예측자 범주 간에 일대일 관계가 없는지 확인하면 됩니다.

이러한 예측 문제와 기타 문제에 대한 자세한 내용은 예측 모델링 함수의 오류 해결을 참조하십시오.

FAQ

다중 예측자 그룹의 마크는 무엇입니까?

행이 여러 예측자 그룹 내에 존재하는 데이터에서 집계되는 경우 ATTR 함수의 값은 여러 값의 특수 값입니다. 예를 들어, 여러 주에 존재하는 모든 도시는 동일한 예측 값을 갖습니다(고유한 다른 예측자가 있는 경우 제외). 예측자를 선택할 때 비주얼리제이션과 동일하거나 더 높은 세부 수준에 있는 예측자를 사용하는 것이 가장 좋습니다. ATTR 함수에 대한 자세한 내용은 특성(ATTR) 함수를 사용하는 경우를 참조하십시오.

ATTR 집계가 * 값을 반환하면 어떻게 합니까?

*는 고유한 값으로 처리됩니다. ATTR이 모든 마크에 대해 *를 반환하면 근본적으로 무시되는 상수 값을 가진 예측자가 있는 것입니다. 이 상황은 예측자를 전혀 포함하지 않는 것과 같습니다.

ATTR이 일부 마크에 대해 *를 반환하면 모든 * 값이 동일한 것으로 간주되는 범주로 처리됩니다. 이 시나리오는 마크가 여러 예측자 그룹에 존재하는 위 시나리오와 동일합니다.

"계산 도구" 테이블 계산 메뉴 옵션은 무엇입니까?

이것은 다른 테이블 계산의 계산 도구와 동일하게 작동합니다. 자세한 내용은 예측 모델링에서 계산 도구 및 데이터 파티션 지정를 참조하십시오.

왜 오류가 발생합니까?

예측 모델링 함수를 사용할 때 오류가 발생할 수 있는 이유는 몇 가지가 있습니다. 자세한 문제 해결 단계는 예측 모델링 함수의 오류 해결을 참조하십시오.

피드백을 제공해 주셔서 감사합니다!