예측 모델링에서 계산 도구 및 데이터 파티션 지정

테이블 계산에 예측 모델링 함수 MODEL_QUANTILE 또는 MODEL_PERCENTILE을 포함시켜 데이터에서 예측을 수행합니다.

모든 테이블 계산에는 계산 도구 지침이 지정되어 있어야 합니다. 서로 다른 주소 지정 및 파티션 지정 차원이 결과에 미치는 영향에 대한 개요는 테이블 계산으로 값 변환을 참조하십시오.

계산 도구를 보여주는 상황에 맞는 메뉴

참고: 테이블 계산을 추가할 때 세부 수준의 모든 차원을 파티션 지정(범위) 또는 주소 지정(방향)에 사용해야 합니다. 계산을 그룹화하는 방식, 즉 계산이 수행되는 데이터의 범위를 정의하는 차원을 파티션 지정 필드라고 합니다. 테이블 계산은 각 파티션 내에서 개별적으로 수행됩니다. 테이블 계산이 수행되는 나머지 차원을 주소 지정 필드라고 하며 계산의 방향을 결정합니다. 자세한 내용은 기본 사항: 주소 지정 및 파티션 지정을 참조하십시오.

예측 모델링 함수에서 계산 도구 옵션은 예측 모델을 작성하는 데 사용될 데이터 집합의 파티션(범위)을 지정하는 데 사용됩니다.

예측 모델은 선택된 예측자를 기반으로 각 마크에 대해 고유한 결과를 반환하기 때문에 예측 모델링 함수에는 주소 지정(방향) 개념이 없습니다. 즉, 주소 지정 차원이 필드가 추가되고 결과가 반환되는 순서를 결정하는 누계와 달리 예측 모델링 함수는 본질적으로 비순차적입니다. 이 함수는 비주얼리제이션에 지정된 세부 수준에서 함수의 대상 및 예측자에 의해 정의된 데이터에서 모델을 사용하여 결과를 계산합니다. 해당 데이터 내에는 날짜 차원과 같은 정렬된 예측자가 사용되지 않는 한 시퀀싱 개념이 없습니다.

또한 비주얼리제이션의 세부 수준은 모델을 작성하는 데 사용되는 데이터를 정의할 때 항상 사용됩니다. 모든 테이블 계산은 비주얼리제이션 자체와 동일한 세부 수준에서 작동하며 예측 모델링 함수도 예외는 아닙니다.

예측 모델링 함수에 대한 추천 항목

예측 모델링 함수를 사용할 때 파티션을 지정할 특정 차원을 선택하는 것이 좋습니다. 단일 비주얼리제이션 또는 대시보드에 여러 예측 계산이 있을 수 있으므로 특정 파티션 지정 차원을 선택하면 각 개별 함수에 대해 동일한 기초 데이터 집합을 사용하여 모델을 작성하고 유사한 모델의 결과를 비교할 수 있습니다.

Tableau에서 예측 모델링 함수로 작업할 때 모델의 서로 다른 반복(예: 서로 다른 예측자 선택)과 서로 다른 비주얼리제이션 모두에서 서로 다른 인스턴스화 중에 일관성을 유지하는 것이 중요합니다. 방향성 계산 도구 옵션을 사용하면 시각화된 데이터의 작은 변화가 모델을 작성하는 데 사용되는 데이터에 상당한 영향을 미칠 수 있게 되어 서로 다른 비주얼리제이션에서 유효성과 일관성이 영향을 받을 가능성이 생깁니다.

차원 선택

다음 연습에서는 Tableau Desktop에 포함된 샘플 – 슈퍼스토어 데이터 원본을 사용합니다.

차원을 선택할 때 Tableau가 해당 차원 전체에서 예측 모델을 작성한다는 점을 기억하십시오. 즉, 파티션 지정 차원으로 Order Date(주문 날짜)를 선택하면 Tableau는 설정된 다른 파티션 내의 데이터를 Order Date(주문 날짜) 값과 함께 사용합니다.

아래 이미지는 노란색으로 강조 표시된 모델을 작성하는 데 사용되는 데이터와 주황색으로 강조 표시된 모델 출력을 보여줍니다. 이 경우 예측자가 없기 때문에 모든 응답이 지정된 Sub-Category(하위 범주) 내에서 동일합니다. 최적의 예측자를 선택하면 보다 의미 있는 결과를 생성하는 데 도움이 됩니다. 최적 예측자에 대한 자세한 내용은 예측자 선택을 참조하십시오.

동일한 결과를 보여주는 표

마찬가지로 Sub-Category(하위 범주)가 파티션 지정 차원으로 선택된 경우 Tableau는 다음과 같이 지정된 월 내에서 여러 하위 범주와 함께 데이터를 사용합니다. 데이터가 패널로 추가적으로 세분화되면 모델을 작성할 때 패널 경계가 준수됩니다.

각 하위 범주에 대해 동일한 결과를 보여주는 표

파티션 지정에 대한 참고 사항

데이터에 파티션을 지정하여 시각적으로 분할하면 모델을 작성하고 예측을 생성하는 데 사용되는 데이터가 상당한 영향을 받습니다. 더 높은 세부 수준(예: 단일 선반에 State(주)City(도시)를 모두 포함)을 추가하면 더 높은 LOD로 데이터에 파티션이 지정됩니다. 이것은 알약 모양이 선반에 배치된 순서에 관계없이 참입니다. 예를 들어 다음은 동일한 예측을 반환합니다.

행 선반의 도시 알약과 주 알약행 선반의 주 알약과 도시 알약

세부 수준을 수정하는 알약 모양을 추가하면 데이터가 행 또는 열 선반에 추가되거나 마크 카드의 색상, 크기, 레이블, 세부 정보 또는 모양에 추가되는 경우 파티션으로 분할됩니다. 도구 설명에 서로 다른 세부 수준의 알약 모양을 추가해도 데이터가 파티션으로 분할되지 않습니다.

아래 예에서는 Category(범주)Sub-Category(하위 범주) 알약 모양이 모두 행에 있으므로 모델이 자동으로 Category(범주)를 기준으로 분할됩니다. 예측 계산은 더 상위 수준 알약 모양인 Category(범주)의 경계 내에서 Sub-Category(하위 범주)에 대해 계산됩니다.

각 하위 범주에 대해 동일한 결과를 보여주는 표

이것은 예측자 변수가 적용되는 방식에 영향을 미칩니다. 아래 예를 살펴보겠습니다. 이 경우 세 가지 MODEL_QUANTILE 테이블 계산이 적용됩니다.

Predict_Sales_CityPredict_Sales_StatePredict_Sales_Region
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([City]))
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([State]))
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([Region]))

세 가지 모두에 대해 계산 도구 > City(도시)를 선택했습니다. 노스캐롤라이나의 일부 도시를 살펴보겠습니다.

도시별 결과를 보여주는 표

세 가지 모든 계산의 결과는 서로 다른 예측자를 사용하더라도 주어진 상태 내에서 동일합니다.

행 선반에서 Region(지역)을 제거해도 결과에 아무 일도 일어나지 않습니다. 주어진 상태 내에서 여전히 모두 동일합니다.

지역이 제거된 경우 동일한 결과를 보여주는 표

그러나 행 선반에서 State(주)를 제거하면 각 계산에 대해 다른 결과가 표시됩니다.

주가 제거된 경우 다른 결과를 보여주는 표

무슨 일이 일어난 것일까요?

첫 번째 예에서 행 선반의 Region(지역)State(주)는 도시를 분할합니다. 따라서 Predict_Sales_City, Predict_Sales_StatePredict_Sales_Region에 대한 모델은 동일한 데이터를 수신하고 동일한 예측을 생성합니다.

이미 State(주)Region(지역) 내에서 데이터를 시각적으로 분할했으므로 예측자 중 어느 것도 모델에 값을 추가하지 않으며 결과에 영향을 주지 않습니다.

예측자가 값을 모델에 추가하지 않는 것을 보여주는 표

행 선반에서 Region(지역)을 제거해도 여전히 State(주)를 기준으로 분할되므로 모델을 작성하는 데 사용되는 데이터는 변경되지 않습니다. 다시 말하지만, 이미 State(주) 내에서 데이터를 시각적으로 분할했으므로 예측자 중 어느 것도 모델에 값을 추가하거나 결과에 영향을 주지 않습니다.

예측자가 값을 모델에 추가하지 않는 것을 보여주는 표

그러나 State(주)를 제거하면 데이터가 분할이 취소되고 각 계산에 대해 서로 다른 예측이 표시됩니다. 무슨 일이 일어나는지 자세히 살펴보겠습니다.

주가 제거된 경우 다른 예측을 보여주는 표

Predict_Sales_City의 경우 ATTR([City])를 예측자로 사용합니다. 이것은 비주얼리제이션과 동일한 세부 수준이므로 값을 추가하지 않고 무시됩니다. 모든 도시에 대한 Sales(매출)를 집계하여 통계 엔진에 전달하고 예상 매출을 계산합니다. 다른 예측자가 포함되어 있지 않기 때문에 각 도시에 대해 동일한 결과가 표시됩니다. 하나 이상의 측정값을 포함했다면 결과에 변동이 있었을 것입니다.

각 도시에 대해 동일한 결과를 보여주는 표

Predict_Sales_State의 경우 ATTR([State])을 예측자로 사용합니다. 이 예측자는 모든 City(도시) 데이터를 State(주)를 기준으로 분할합니다. 예상은 한 주 내에서는 동일한 결과가 표시되고 주에 대한 결과는 다른 것입니다.

그러나 실제 결과는 다릅니다. 도시 중에서 Cary, Chapel Hill 및 Charlotte는 모두 예상대로 2,084달러의 동일한 예측 값을 가집니다. 그러나 Burlington은 9,366달러의 다른 예측 값을 보여줍니다.

Burlington의 다른 결과를 보여주는 표

이렇게 되는 이유는 "Burlington"이라는 도시가 여러 주(아이오와, 노스캐롤라이나, 버몬트)에 존재하기 때문입니다. 따라서 State(주)는 "하나 이상의 값"을 의미하는 *로 해석됩니다. State(주)가 *로 해석되는 모든 마크는 함께 평가되므로 여러 주에 존재하는 다른 모든 도시도 9,366달러의 예측 값을 갖게 됩니다.

Predict_Sales_Region의 경우 ATTR([Region])을 예측자로 사용합니다. 이 예측자는 모든 City(도시) 데이터를 Region(지역)을 기준으로 분할합니다. 예상은 한 지역 내에서는 동일한 결과가 표시되고 지역에 대한 결과는 다른 것입니다.

지역이 Burlington의 결과로 확인되는 것을 보여주는 표

이번에도 Burlington이 여러 지역(Central, East 및 South)에 존재하기 때문에 Region(지역)이 *로 해석됩니다. Burlington의 예측은 여러 지역 내에 존재하는 도시들에서만 일치합니다.

여기에서 확인할 수 있는 것처럼, 모든 차원 예측자가 비주얼리제이션의 세부 수준 및 파티션 지정 모두와 올바르게 일치되게 하는 것이 매우 중요합니다. 비주얼리제이션을 차원을 기준으로 나누면 예측에 의도하지 않은 영향을 미칠 수 있습니다.

피드백을 제공해 주셔서 감사합니다!귀하의 피드백이 제출되었습니다. 감사합니다!