Tableau에서 예측 방법

Tableau의 예측에서는 지수 평활법이라는 기술을 사용합니다. 예측 알고리즘에서는 미래에 지속될 수 있는 측정값의 일반 패턴을 찾으려고 시도합니다.

동영상 시청: Tableau에서 관련 개념의 데모를 보려면 예측(6분) 무료 교육 동영상을 시청하십시오. tableau.com 계정을 사용하여 로그인합니다.

일반적으로 날짜 필드와 적어도 하나의 측정값을 포함하는 뷰에 예측을 추가합니다. 하지만 날짜가 없는 경우에도 정수 값의 차원과 적어도 하나의 측정값을 포함하는 뷰에는 Tableau가 예측을 생성할 수 있습니다.

예측 만들기에 대한 자세한 내용은 예측 만들기를 참조하십시오. 정수 차원을 사용하는 예측에 대한 자세한 내용은 뷰에 날짜가 없을 경우 예측을 참조하십시오.

개요

모든 예측 알고리즘은 실제 DGP(데이터 생성 프로세스)의 단순 모델입니다. 높은 품질의 예측을 위해 DGP의 단순 패턴은 모델에서 설명하는 패턴과 상당히 일치해야 합니다. 품질 메트릭은 모델이 DGP와 얼마나 잘 일치하는지를 측정합니다. 품질이 낮은 경우 신뢰 구간에서 측정하는 정밀도는 정확하지 않은 예측을 측정하므로 중요하지 않습니다.

Tableau는 최상의 모델을 최대 8개까지 자동으로 선택합니다. 가장 높은 품질의 예측을 생성하는 모델이 최상의 모델이 됩니다. Tableau에서 예측 품질을 측정하기 전에 각 모델의 평활 매개 변수가 최적화됩니다. 최적화 방법은 전역입니다. 따라서 전역적으로 최적도 아닌 지역적으로 최적인 평활 매개 변수를 선택하는 것이 불가능하지는 않습니다. 그러나 초기 값 매개 변수는 최상의 방법에 따라 선택되지만 추가로 최적화되지 않습니다. 따라서 초기 값 매개 변수가 최적이 아닐 수 있습니다. Tableau에서 사용할 수 있는 8개 모델은 OTexts 웹 사이트의 다음 위치에 설명되어 있습니다. 지수평활법 모델의 분류.

시각화의 데이터가 부족할 때 Tableau에서는 자동으로 보다 세밀한 임시 수준의 예측을 시도하고 해당 예측을 시각화의 수준으로 다시 집계합니다. Tableau는 폐쇄 형태 수식에서 시뮬레이트되거나 계산될 수 있는 예측 구간을 제공합니다. 승법 구성 요소 또는 집계 예측이 있는 모든 모델에 시뮬레이트된 구간이 있는 반면 다른 모든 모델은 폐쇄 형태 수식을 사용합니다.

지수 평활법 및 추세

지수 평활법 모델은 과거 계열값의 가중 평균으로부터 값의 일반 시계열에 대한 미래 값을 반복적으로 예측합니다. 가장 간단한 모델인 단순 지수 평활법에서는 마지막 실제 값과 마지막 수준 값의 가중 평균으로부터 다음 수준 또는 평활 값을 계산합니다. 각 수준의 값이 이전의 모든 실제 값에 영향을 받아 기하급수적으로 낮아지므로 이 방법은 기하급수적입니다. 따라서 최신 값일수록 더 높은 가중치가 부여됩니다.

추세 또는 계절 구성 요소가 있는 지수 평활법 모델은 예측할 측정값이 예측 기준이 되는 기간에 대한 추세 또는 계절적 변동을 나타내는 경우에 효율적입니다. 추세는 시간에 따라 높아지거나 낮아지는 데이터의 경향입니다. 계절적 변동은 반복적이고 예측 가능한 값의 변동(예:

일반적으로 시계열에 포함된 데이터 요소가 많을수록 더 나은 예측 결과가 나타납니다. 특히 계절적 변동을 모델링할 경우 모델이 더 복잡하여 계절적 정밀도 수준을 얻기 위해서는 데이터 형태의 더 많은 증명이 필요하므로 충분한 데이터가 있어야 합니다. 반면 두 개 이상의 서로 다른 DGP로 생성된 데이터를 사용하여 예측하는 경우 모델은 하나와만 일치할 수 있으므로 보다 낮은 품질의 예측을 얻게 됩니다.

계절적 변동

Tableau에서는 예측값을 추정하는 대상 시계열의 시간 집계에 가장 일반적인 길이로 계절 주기를 테스트합니다. 월별로 집계하는 경우 12개월 주기로 검색하고, 분기별로 집계하는 경우 4분기 주기로 검색하고, 일별로 집계하는 경우 주별 변동을 검색합니다. 따라서 월별 시계열에 6개월 주기가 있을 경우 Tableau에서는 두 개의 비슷한 하위 패턴을 포함하는 12개월 패턴을 찾을 것입니다. 월별 시계열에 6개월 주기가 있을 경우 Tableau에서는 두 개의 비슷한 하위 패턴을 포함하는 12개월 패턴을 찾을 것입니다. 하지만 월별 시계열에 7개월 주기가 있을 경우 Tableau에서는 주기를 찾지 않을 것입니다. 다행히 7개월 주기는 일반적이지 않습니다.

Tableau는 두 가지 방법 중 하나를 사용하여 계절 길이를 도출합니다. 원래 임시 방법에서는 뷰의 임시 수준(TG) 자연적 계절 길이를 사용합니다. 임시 수준은 뷰에서 표현되는 가장 세밀한 시간 단위를 의미합니다. 예를 들어 뷰에 월 수준으로 잘린 연속형 녹색 날짜나 불연속형 파란색 연도와 월 날짜 부분이 포함되는 경우 뷰의 임시 수준은 월입니다. Tableau 9.3에 도입된 새로운 비임시 방법에서는 주기적 회귀를 사용하여 2~60 사이에서 계절 길이를 확인하여 후보 길이를 결정합니다.

Tableau에서는 지정된 뷰에 가장 적절한 방법이 자동으로 선택됩니다. Tableau가 뷰의 측정값 정렬에 날짜를 사용하고 임시 수준이 분기, 월, 주, 일 또는 시인 경우 계절 길이는 대부분 4, 12, 13, 7 또는 24입니다. 따라서 TG에 적합한 길이만 Tableau에서 지원되는 다섯 가지 계절 기반 지수 평활법 모델을 구성하는 데 사용됩니다. 다섯 가지 계절 기반 모델과 세 가지 비계절 기반 모델의 AIC를 비교하여 값이 가장 낮은 모델이 반환됩니다. (AIC 메트릭에 대한 설명은 예측 설명을 참조하십시오.)

Tableau가 예측에 정수 차원을 사용하는 경우 두 번째 방법이 사용됩니다. 이 경우에는 임시 수준(TG)이 없기 때문에 데이터에서 가능한 계절 길이를 도출해야 합니다.

임시 수준이 연도인 경우에도 두 번째 방법이 사용됩니다. 연도별 시계열은 계절적 변동이 거의 없지만 필요한 경우 데이터에서 도출해야 합니다.

임시 수준이 분이나 초인 뷰에도 두 번째 방법이 사용됩니다. 그와 같은 시계열에 계절적 변동이 있는 경우 계절 길이는 대개 60입니다. 하지만 실제 프로세스를 측정할 경우 프로세스가 시계와 일치하지 않는 주기적 반복을 하는 경우가 있습니다. 따라서 분 및 초의 경우 Tableau가 데이터에서 60 이외의 길이도 확인합니다. 이것이 Tableau가 동시에 서로 다른 두 계절 길이를 모델링할 수 있다는 의미는 아닙니다. 정확히 표현하면, 10개의 계절 모델이 예상에 사용되며 다섯 개는 계절 길이가 60이고 다른 다섯 개는 데이터에서 계절 길이가 도출됩니다. 10개의 계절 모델과 3개의 비계절 모델 중 AIC가 가장 낮은 모델이 예측 계산에 사용됩니다.

연도, 분 또는 초로 정렬되는 시계열의 경우 패턴이 비교적 단순한 경우 데이터에서 단일 계절 길이를 테스트합니다. 정수로 정렬되는 시계열의 경우 다섯 개 계절 기반 모델 모두에 대해 최대 9개의 후보 계절 길이가 추정되고 AIC가 가장 낮은 모델이 반환됩니다. 적절한 계절 길이 후보가 없는 경우 비계절 기반 모델을 추정합니다.

Tableau가 데이터에서 가능한 계절 길이를 도출할 때 모든 선택이 자동으로 이루어지므로 예측 옵션 대화 상자 유형 메뉴의 기본 모델 유형인 "자동"이 변경되지 않습니다. "자동(계절적 변동 없음)"을 선택하면 계절 기반 모델에서 모든 계절 길이 검색 및 예측이 제거되어 성능이 향상됩니다.

Tableau가 데이터에서 도출된 계절 길이를 사용하는 시기를 결정하기 위해 사용하는 추론법은 각 후보 계절 길이의 주기적 회귀에 대한 오류 분포에 따라 달라집니다. 주기적 회귀에 의한 계절 길이 후보의 어셈블리는 데이터에 실제로 계절적 변동이 존재하는 경우 대개 하나나 두 개의 분명한 승리 길이를 생성하고 가능성이 높은 계절적 변동을 나타내는 단일 후보를 반환합니다. 이 경우 Tableau가 연도, 분 및 초 수준에 대해 이 후보로 계절 기반 모델을 추정합니다. 최대값인 10개 미만의 후보가 반환되면 가능한 계절적 변동이 있다는 의미입니다. 이 경우 Tableau는 정수로 정렬된 뷰에 대해 반환된 모든 후보를 사용항 계절 기반 모델을 추정합니다. 최대 개수의 후보가 반환되면 대부분의 길이에서 오차가 유사한다는 의미입니다. 따라서 계절적 변동이 존재할 가능성이 거의 없습니다. 이 경우 Tableau는 정수로 정렬되거나 연도로 정렬되는 시계열에 대해 비계절 기반 모델만 추정하고 다른 임시 기준으로 정렬되는 뷰에 대해 자연 계절 길이를 사용하는 계절 기반 모델만 추정합니다.

정수, 연도, 분 및 초로 정렬되는 뷰에서 모델 유형이 "자동"인 경우 후보 계절 길이는 데이터 사용 여부와 상관없이 항상 데이터에서 도출됩니다. 모델 추정에는 주기 회귀보다 훨씬 많은 시간이 걸리기 때문에 성능 문제를 해결해야 합니다.

모델 유형

예측 옵션 대화 상자에서 Tableau 사용자가 예측에 사용할 모델 유형을 선택할 수 있습니다. 자동 설정은 일반적으로 대부분의 뷰에 적합합니다. 사용자 지정을 선택한 경우에는 추세와 계절 특성을 없음, 가법 또는 승법 중에서 개별적으로 지정할 수 있습니다.

가법 모델은 모델 구성 요소의 기여가 합산되며 승법 모델은 최소한 일부 구성 요소 기여가 곱해집니다. 승법 모델을 사용하면 데이터 수준(규모)의 영향을 받는 추세 또는 계절적 변동에 대한 데이터의 예측 품질을 크게 향상시킬 수 있습니다. 승법 예측을 생성하기 위해 사용자 지정 모델을 만들 필요는 없습니다.

자동 설정을 사용하면 승법 예측이 해당 데이터에 적합한지 여부를 판단할 수 있습니다. 그러나 예측할 측정값에 0보다 작거나 같은 값이 하나 이상 있는 경우에는 승법 모델을 계산할 수 없습니다.

시간을 사용하는 예측

날짜를 사용하여 예측하는 경우 뷰에 기준 날짜가 하나만 있을 수 있습니다. 부분 날짜가 지원되지만 모든 부분이 동일한 기반 필드를 참조해야 합니다. 날짜는 , 또는 마크에 놓을 수 있습니다(도구 설명 대상은 예외).

Tableau는 세 가지 유형의 날짜를 지원하면, 이 중 두 개를 예측에 사용할 수 있습니다.

  • 잘린 날짜는 지정된 임시 수준에서 기록의 특정 지점을 나타냅니다(예: 2017년 2월). 잘린 날짜는 대개 뷰에서 배경색이 녹색인 연속형입니다. 잘린 날짜는 예측에 사용할 수 있습니다.

  • 날짜 부분은 임시 측정값의 특정 멤버를 나타냅니다(예: 2월). 각 날짜 부분은 대개 불연속형이며 배경색이 파란색인 다양한 필드로 표현됩니다. 예측에는 적어도 연도 날짜 부분이 필요합니다. 즉, 다음과 같은 날짜 부분 집합 중 하나를 예측에 사용할 수 있습니다.

    • 연도

    • 연도 + 분기

    • 연도 + 월

    • 연도 + 분기 + 월

    • 연도 + 주

    • 사용자 지정: 월/연도, 월/일/연도

    분기 또는 분기 + 월 같은 다른 날짜 부분은 예측에 사용할 수 없습니다. 다양한 날짜 유형에 대한 자세한 내용은 불연속형과 연속형 간에서 필드 변환을 참조하십시오.

  • 정확한 날짜는 최대 임시 수준에서 기록의 특정 지점을 나타냅니다(예: 2012년 2월 1일 14:23:45.0). 정확한 날짜는 예측에 사용할 수 없습니다.

날짜를 사용하지 않고 예측하는 것도 가능합니다. 뷰에 날짜가 없을 경우 예측을 참조하십시오.

수준 및 자르기

예측을 만들 경우 날짜 값을 측정할 시간 단위를 지정하는 날짜 차원을 선택합니다. Tableau 날짜는 년, 분기, 월, 일을 비롯한 시간 단위 범위를 지원합니다. 날짜 값에 대해 선택하는 단위를 날짜 수준이라고 합니다.

일반적으로 측정 데이터는 수준 단위에 맞게 정밀하게 정렬되지 않습니다. 날짜 값을 분기로 설정하더라도 실제 데이터는 분기의 중간(예: 11월 말)에 중료될 수 있습니다. 이 단편적인 분기에 대한 값은 일반적으로 전체 분기에 비해 낮은 값을 갖지만 예측 모델에서는 전체 분기로 처리되므로 문제가 될 수 있습니다. 예측 모델에서 이 데이터를 고려하도록 허용할 경우 정확하지 않은 예측 결과가 생성됩니다. 해결책은 잘못된 예측을 생성할 수 있는 잘린 기간이 무시되도록 데이터를 자르는 것입니다. 예측 옵션 대화 상자에서 마지막 무시 옵션을 사용하여 그런 부분 기간을 제거하거나 자릅니다. 기본값은 한 기간을 자르는 것입니다.

추가 데이터 가져오기

Tableau에서 추세를 추정하려면 시계열에 5개 이상의 데이터 요소가 필요하고, 계절적 변동을 추정하려면 두 개 이상의 계절 또는 하나의 계절과 5개의 기간에 대한 충분한 데이터 요소가 있어야 합니다. 예를 들어 4분기 계절 주기를 가진 모델을 추정하려면 9개 이상의 데이터 요소가 필요하고(4 + 5), 12개월 계절 주기를 가진 모델을 추정하려면 24개 이상의 데이터 요소가 필요합니다(2 * 12).

데이터 요소가 부족하여 적절한 예측이 지원되지 않는 뷰에 대한 예측을 설정할 경우 Tableau에서 데이터 원본을 더 세부적으로 쿼리하여 충분한 데이터 요소를 검색함으로써 유효한 예측을 생성할 수 있는 경우도 있습니다.

  • 뷰에 9년 미만의 데이터가 포함되어 있는 경우 기본적으로 Tableau에서는 데이터 원본에서 분기별 데이터를 쿼리하고 분기별 예측을 추정한 다음 연간 예측으로 집계하여 뷰에 표시합니다. 그래도 데이터 요소가 부족할 경우 Tableau에서는 월별 예측을 추정한 다음 집계된 연간 예측을 뷰에 반환합니다.

  • 뷰에 9분기 미만의 데이터가 포함되어 있는 경우 기본적으로 Tableau에서는 월별 예측을 추정한 다음 집계된 분기별 예측 결과를 뷰에 반환합니다.

  • 뷰에 9주 미만의 데이터가 포함되어 있는 경우 기본적으로 Tableau에서는 일별 예측을 추정한 다음 집계된 주간 예측 결과를 뷰에 반환합니다.

  • 뷰에 9일 미만의 데이터가 포함되어 있는 경우 기본적으로 Tableau에서는 시간별 예측을 추정한 다음 집계된 일별 예측 결과를 뷰에 반환합니다.

  • 뷰에 9시간 미만의 데이터가 포함되어 있는 경우 기본적으로 Tableau에서는 분별 예측을 추정한 다음 집계된 시간별 예측 결과를 뷰에 반환합니다.

  • 뷰에 9분 미만의 데이터가 포함되어 있는 경우 기본적으로 Tableau에서는 초별 예측을 추정한 다음 집계된 분별 예측 결과를 뷰에 반환합니다.

이러한 조정 작업은 백그라운드에서 수행되므로 별도의 구성이 필요하지 않습니다. Tableau에서는 시각화 모양을 변경하지 않고 날짜 값을 실제로 변경하지 않습니다. 하지만 예측 설명 및 예측 옵션 대화 상자의 예측 기간 요약에는 사용된 실제 수준이 반영됩니다.

Tableau에서는 예측할 측정값에 대한 집계가 SUM 또는 COUNT인 경우에만 추가 데이터를 가져올 수 있습니다. 사용 가능한 집계 유형에 대한 자세한 내용과 집계 유형을 변경하는 방법은 Tableau의 데이터 집계를 참조하십시오.

의견을 주셔서 감사합니다! 피드백을 제출하는 동안 오류가 발생했습니다. 다시 시도하거나 메시지를 보내주십시오.