비주얼리제이션에 추세선 추가

비주얼리제이션에서 추세선을 표시하여 데이터의 추세를 하이라이트할 수 있습니다. 추세선을 포함하는 뷰를 게시할 수 있으며 웹에서 뷰를 편집할 때 뷰에 추세선을 추가할 수 있습니다.

뷰에 추세선을 추가하는 경우 추세선의 모양과 동작을 지정할 수 있습니다.

뷰에 추세선 추가

비주얼리제이션에 추세선을 추가하려면

  1. 분석 패널을 선택합니다.

  2. 분석 패널에서 추세선을 뷰로 끌어온 다음 선형, 로그, 지수, 다항식 또는 거듭제곱 모델 유형 위에 놓습니다.

이러한 모델 유형 각각에 대한 자세한 내용은 추세선 모델 유형을 참조하십시오.

추세선 추가 정보(및 추세선을 추가할 수 없는 경우)

뷰에 추세선을 추가하려면 두 축에 모두 숫자로 해석될 수 있는 필드가 포함되어야 합니다. 예를 들어 문자열이 포함된 Product Category 차원이 선반에 있고 Profit 측정값이 선반에 있는 뷰에는 추세선을 추가할 수 없습니다. 그러나 시간별 매출 뷰에는 매출과 시간이 모두 숫자 값으로 해석될 수 있으므로 추세선을 추가할 수 있습니다.

다차원 데이터 원본의 날짜 계층에는 실제로 숫자 대신 문자열이 포함되므로, 추세선이 허용되지 않습니다. 또한 모든 데이터 원본에서 'm/d/yy' 및 'mmmm yyyy' 날짜 형식은 추세선을 허용하지 않습니다.

추세선이 설정되어 있어도 추세선이 허용되지 않는 방식으로 뷰를 수정하면 추세선이 표시되지 않습니다. 뷰를 추세선이 허용되는 상태로 다시 변경하면 추세선이 다시 표시됩니다.

Tableau에서 막대 마크는 대부분의 경우 자동으로 누적됩니다. 그러나 누적 막대에는 추세선을 설정할 수 없습니다. 분석 > 누적 마크 옵션을 선택 취소하여 누적 마크를 해제할 수 있습니다.

추세선 편집

비주얼리제이션에 추세선을 추가한 후 분석에 적합하도록 추세선을 편집할 수 있습니다.

추세선을 편집하려면

Tableau Desktop의 경우: 비주얼리제이션에서 추세선을 마우스 오른쪽 단추로 클릭한 다음 추세선 편집을 선택합니다.

웹 편집 모드의 경우:

  1. 비주얼리제이션에서 추세선을 클릭한 다음 마우스오버합니다.
  2. 나타나는 도구 설명에서 편집을 선택하여 추세선 옵션 대화 상자를 엽니다.

참고: Tableau Cloud 또는 Tableau Server에서 추세선을 편집하려면 웹 편집 사용 권한이 있어야 합니다.

또한 추세선 옵션 대화 상자에서 다음과 같은 옵션을 구성할 수 있습니다.

  • 모델 유형을 선택합니다. 자세한 내용은 추세선 모델 유형을 참조하십시오.

  • 추세선 모델에서 요소로 사용할 필드를 선택합니다. 자세한 내용은 추세선 모델에서 요소로 사용할 필드 선택을 참조하십시오.

  • 색상별 추세선 허용 옵션을 사용하여 색상을 제외할지 여부를 결정합니다. 뷰에 색상 인코딩이 있는 경우 이 옵션을 사용하면 색상 인코딩을 무시하고 모든 데이터를 모델링하는 단일 추세선을 추가할 수 있습니다.
  • 신뢰 구간 표시 여부를 결정합니다. 추세선을 추가할 경우 기본적으로 Tableau 신뢰 구간은 상위 및 하위 95% 신뢰 라인을 보여 줍니다. 지수 모델의 경우 신뢰 라인이 지원되지 않습니다.

  • y절편을 0으로 만들지 여부를 선택합니다. 이 옵션은 추세선을 0에서 시작하려는 경우에 유용합니다. 이 옵션은 선반에 분산형 차트처럼 연속하는 필드가 포함되어 있는 경우에만 사용할 수 있습니다.

  • 비주얼리제이션에서 데이터를 선택하거나 하이라이트할 경우 다시 계산된 라인을 표시할지 여부를 결정합니다.

추세선 모델에서 요소로 사용할 필드 선택

여러 필드를 고려하는 추세 모델인 경우 추세선 모델의 요소에서 특정 필드를 제거할 수 있습니다.

일반적으로 필드의 멤버나 값으로 구분하는 대신 테이블의 전체 행을 기준으로 추세선 모델을 작성하려는 경우 요소를 제거합니다. 다음 예제를 살펴보겠습니다. 아래 뷰는 지역별로 구분된 다양한 제품 범주의 월 매출을 보여 줍니다.

각 지역에 대해 별도의 모델이 만들어지는 것을 확인할 수 있습니다.

이제 추세선 옵션 대화 상자에서 선택 취소하여 모델에서 요소로 사용되는 Region을 제거합니다.

이제 범주 내의 추세선 모델은 모든 지역에서 동일합니다. 따라서 실제 매출을 모든 지역에 대해 동일한 추세선과 비교할 수 있습니다.

추세선 제거

비주얼리제이션에서 추세선을 제거하려면 비주얼리제이션 영역 밖으로 추세선을 끌어 냅니다. 추세선을 클릭하고 제거를 선택할 수도 있습니다.

뷰에서 모든 추세선을 제거하려면 분석 >추세선 >추세선 표시를 선택합니다.

참고: Tableau Desktop에서 추세선 옵션이 유지되므로 분석 메뉴에서 다시 추세선 표시를 선택한 경우 옵션이 마지막으로 설정한 상태와 같아집니다. 그러나 추세선을 해제한 상태로 통합 문서를 닫으면 추세선 옵션이 기본값으로 복귀됩니다.

추세선 또는 추세선 모델의 설명 보기

추세선을 추가한 후 추세선에 통계를 표시할 수 있습니다. 예를 들어 수식과 R-제곱 및 p 값을 표시할 수 있습니다. 설명에 사용된 모델 유형 및 용어에 대한 자세한 내용은 추세선 모델 용어추세선 모델 유형 섹션을 참조하십시오.

추세선의 설명을 표시하려면

  • 추세선의 설명을 표시하려면 추세선의 일부를 마우스오버합니다.

Tableau Desktop만 해당

  • 비주얼리제이션에서 추세선을 마우스 오른쪽 단추로 클릭한 다음 추세선 설명을 선택합니다.

현재 뷰에서 사용되고 있는 모델의 전체 설명을 표시하려면

  • 비주얼리제이션에서 추세선을 마우스 오른쪽 단추로 클릭한 다음 추세 모델 설명을 선택합니다.

추세선 모델 유형

추세선에 사용할 수 있는 모델 유형에는 선형, 로그, 지수, 거듭제곱다항식이 있습니다.

다음 수식에서 X는 설명 변수를 나타내고 Y는 응답 변수를 나타냅니다.

선형

선형 모델 유형의 수식은 다음과 같습니다.

Y = b0 + b1 * X

여기서, b1은 기울기이고 b0은 선의 절편(교차점)입니다.

로그

로그 모델 유형의 수식은 다음과 같습니다.

Y = b0 + b1 * ln(X)

로그는 0보다 작은 수에 대해 정의되지 않으므로 설명 변수가 음수인 모든 마크가 모델 예측 전에 필터링됩니다. 필터링되는 데이터가 유효하지 않다는 사실을 알 경우에만 일부 데이터를 삭제하는 모델을 사용하십시오. 추세선 설명에는 모델 예측 전에 필터링된 마크가 몇 개인지가 보고됩니다.

지수

지수 모델 유형의 수식은 다음과 같습니다.

Y = exp(b0)* exp(b1 * X)

지수 모델에서 모델 예측 전에 응답 변수가 자연 로그에 의해 변환되므로 ln(Y)의 값을 찾기 위해 다양한 설명 값을 플러그 인하여 뷰에 그려진 마크가 검색됩니다.

ln(Y) = b0 + b1 * X

그런 다음 추세선을 그리기 위해 이러한 값이 거듭제곱됩니다. 다음 형식은 지수 모델입니다.

Y = b2*exp(b1 * X)

여기서, b2exp(b0)의 값입니다. 로그는 0보다 작은 수에 대해 정의되지 않으므로 응답 변수가 음수인 모든 마크가 모델 예측 전에 필터링됩니다.

거듭제곱

거듭제곱 모델 유형의 수식은 다음과 같습니다.

Y = b0 * X^b1

거듭제곱 모델에서는 모델 예측 전에 두 변수가 모두 자연 로그에 의해 변환되어 다음과 같은 수식이 됩니다.

ln(Y) = ln(b0) + b1 * ln(X)

그런 다음 추세선을 그리기 위해 이러한 값이 거듭제곱됩니다.

로그는 0보다 작은 수에 대해 정의되지 않으므로 응답 변수 또는 설명 변수가 음수인 모든 마크가 모델 예측 전에 필터링됩니다.

다항식

다항식 모델 유형에서는 응답 변수가 지정된 차수의 다항식 시리즈로 변환됩니다. 수식은 다음과 같습니다.

Y = b0 + b1 * X + b2 * X^2 + …

다항식 모델 유형에서는 2와 8 사이의 차수도 선택해야 합니다. 다항식 차수가 높으면 데이터 값 간의 차이가 과장됩니다. 데이터가 매우 빠르게 증가하는 경우 차수가 높은 항과 비교했을 때 차수가 낮은 항의 변동이 거의 없어 정확한 모델 예측이 불가능해질 수 있습니다. 또한 보다 복잡한 차수가 높은 다항식 모델에는 예측을 위해 더 많은 데이터가 필요합니다. 개별 추세선의 모델 설명에 이 유형의 정확한 모델이 가능하지 않음을 나타내는 빨간색 경고 메시지가 있지 않은지 확인하십시오.

추세선 모델 용어

추세선 모델에 대한 설명을 보면 여러 개의 값이 나열됩니다. 이 섹션에서는 각 값의 의미에 대해 설명합니다.

모델 수식

전체 추세선 모델의 수식입니다. 이 수식에는 모델에서 요소를 제외하도록 지정했는지 여부가 반영됩니다.

모델링된 관측값 수

뷰에 사용된 행 수입니다.

필터링된 관측값 수

모델에서 제외된 관측값 수입니다.

모델 자유도

모델을 완전히 지정하는 데 필요한 매개 변수 수입니다. 선형, 로그 및 지수 추세는 모델 자유도가 2이고, 다항식 추세는 모델 자유도 1과 다항식 자유도를 포함합니다. 예를 들어 입방형, 제곱, 선형 및 상수 용어에 대한 매개 변수가 필요하므로 입방형 추세는 모델 자유도가 4입니다.

잔차 자유도(DF)

고정 모델의 경우 이 값은 모델에서 예측된 매개 변수 수를 관측값 수에서 뺀 값으로 정의됩니다.

SSE(오차제곱합)

이 오차는 관찰된 값과 모델에서 예측된 값의 차이입니다. 분산 분석 테이블에서 이 열은 실제로 특정 행에 있는 더 간단한 모델과 모든 요소를 사용하는 전체 모델의 SSE 차이입니다. 이 SSE는 더 작은 모델과 전체 모델에서 예측된 값의 차이를 제곱한 합계에 해당합니다.

MSE(평균 제곱 오차)

MSE 용어는 SSE 수량을 해당 자유도로 나눈 값인 "평균 제곱 오차"를 나타냅니다.

R-제곱

R-제곱은 데이터가 선형 모델과 얼마나 일치하는지를 나타내는 측정값입니다. 이 측정값은 데이터의 총 분산에 대한 모델 오차의 분산 또는 설명되지 않는 분산의 비율입니다.

모델에 의해 y절편이 결정되는 경우 R-제곱은 다음 수식을 사용하여 유도됩니다.

y절편이 강제로 0으로 설정되는 경우에는 R-제곱이 다음 수식을 대신 사용하여 유도됩니다.

후자의 경우 수식이 Excel과 같지 않을 수 있습니다. 이는, 이 경우 R-제곱이 명확하게 정의되지 않고 Tableau의 동작이 Excel이 아닌 R의 동작과 일치하기 때문입니다.

참고: 선형 추세선 모델의 R 제곱 값은 CORR 함수의 결과를 제곱한 값과 같습니다. CORR의 구문과 예는 Tableau 함수(사전순)(링크가 새 창에서 열림)을 참조하십시오.

표준 오차

전체 모델에 대한 MSE의 제곱근입니다. 모델 수식에서 "확률 오차"의 표준 편차(변동) 예측입니다.

p-값(유의)

위 자유도를 가진 F 확률 변수가 이 분산 분석 테이블 행의 관찰된 F를 초과할 확률입니다.

분산 분석

ANOVA 테이블이라고도 하는 이 테이블에는 추세선 모델의 각 요소에 대한 정보가 나열됩니다. 값은 해당 요소가 없는 모델을 모든 요소가 포함된 전체 모델과 비교하여 생성됩니다.

개별 추세선

이 테이블에서는 뷰의 각 추세선에 대한 정보를 제공합니다. 목록을 통해 통계적으로 가장 유의한 항목(있는 경우)을 확인할 수 있습니다. 또한 이 테이블에는 각 추세선에 대한 계수 통계가 나열됩니다. 행에는 각 추세선 모델의 각 계수가 설명됩니다. 예를 들어 절편을 포함하는 선형 모델은 추세선별로 두 개의 행이 필요합니다. 라인 열에서 각 라인에 대한 p-값과 DF는 모든 계수 행의 범위를 나타냅니다. 아래의 DF 열에는 각 라인을 예측하는 동안 사용할 수 있는 잔차 자유도가 표시됩니다.

용어

독립 용어의 이름입니다.

독립 용어에 대한 계수의 예측된 값입니다.

StdErr

계수 예측에 대한 샘플링 분포 측정값입니다. 추정에 사용되는 정보의 품질과 수량이 증가하면 이 오차는 축소됩니다.

t-값

실제 계수 값이 0인 null 가설을 테스트하는 데 사용되는 통계입니다.

p-값

실제 계수 값이 0인 경우에 크기가 더 커지는 t-값의 관측값 확률입니다. 따라서 p-값이 .05이면 실제 값이 0이 아닌 95% 신뢰를 제공합니다.

추세선 유의 평가

뷰에서 모든 추세선의 관련 정보를 보려면 커서를 추세선 위에 마우스오버합니다.

도구 설명의 첫째 줄은 Year of Order Date의 값에서 Profit의 값을 계산하는 데 사용하는 수식을 나타냅니다.

둘째 줄의 R-제곱 값은 데이터의 총 분산과 비교하여 모델에서 설명된 데이터의 분산 비율을 나타냅니다. 자세한 내용은 추세선 모델 용어를 참조하십시오.

셋째 줄의 P-값에는 첫째 줄의 수식이 수식이 무작위 결과일 확률이 보고됩니다. p-값이 작을수록 모델이 더 유의합니다. 종종 0.05 이하의 p-값은 적합한 것으로 간주됩니다.

전체 모델 유의

뷰에 추세선을 추가한 경우 일반적으로 모델의 예측 품질에 대한 측정값인 모델의 적합도를 알려고 합니다. 또한 모델에 기여하는 각 요소의 유의에 관심이 있을 수 있습니다. 이러한 숫자를 보려면 추세 모델 설명 대화 상자를 엽니다. 뷰를 마우스 오른쪽 단추로 클릭(Mac의 경우 Control 클릭)하고 추세선 > 추세 모델 설명을 선택합니다.

유의를 테스트하는 경우 p-값이 중요합니다. p-값이 작을수록 모델 또는 요소가 더 유의합니다. 모델은 통계적으로 유의하지만 전체 유의에 기여하지 않는 개별 추세선 또는 개별 추세선 용어를 포함하는 경우도 있습니다.

추세선 모델에서 모델의 p-값(유의)을 표시하는 라인을 찾습니다. p-값이 작을수록 무작위의 결과로 관련 측정값을 포함하는 모델과 포함하지 않는 모델 사이의 설명되지 않는 분산의 차이가 발생할 가능성이 적어집니다.

모델의 이 p-값은 총평균(데이터 뷰의 데이터 평균)으로만 구성된 모델의 적합도와 전체 모델의 적합도를 비교합니다. 즉, 모델 수식에서 정량적 항 f(x)의 설명력(explanatory power)을 평가합니다. 요소가 고정된 선형, 다항식, 지수 또는 로그일 수 있습니다. "95% 신뢰" 규칙을 사용하여 유의를 평가하는 것이 일반적입니다. 따라서 위에서 설명한 대로 0.05 이하의 p-값은 유효한 것으로 간주됩니다.

범주형 요소의 유의

ANOVA 테이블이라고도 하는 분산 분석 테이블에 모델의 요소로 사용되는 각 필드가 나열됩니다. 다른 값 중에서도 각 필드의 p-값을 확인할 수 있습니다. 이 경우 p-값은 해당 필드가 전체 모델의 유의를 얼마나 증가시키는지를 나타냅니다. p-값이 작을수록 확률 변경의 결과로 필드를 포함하는 모델과 포함하지 않는 모델 사이의 설명되지 않는 분산의 차이가 발생할 가능성이 적어집니다. 각 필드에 대해 표시되는 값은 해당 필드를 포함하지 않는 모델과 전체 모델을 비교하여 생성됩니다.

다음 그림은 세 가지 제품 범주의 지난 2년 간 분기별 매출 뷰에 대한 분산 분석 테이블을 보여 줍니다.

CategoryRegion의 p-값은 모두 매우 작습니다. 이 모델에서는 두 요소가 모두 통계적으로 유의합니다.

특정 추세선 용어에 대한 자세한 내용은 추세선 모델 용어를 참조하십시오.

ANOVA 모델의 경우 추세선은 다음과 같은 수학적 수식으로 정의됩니다.

Y = factor 1 * factor 2 * ...factorN * f(x) + e

위 식에서 Y 항은 응답 변수라고 하며 예측하려는 값에 해당합니다. X 항은 설명 변수이고, e(엡실론)는 확률 오차입니다. 식의 요소는 뷰의 범주형 필드에 해당합니다. 또한 각 요소가 행렬로 표현됩니다. *는 동일한 행 수의 행렬 두 개를 받아서 동일한 행 수의 새 행렬을 반환하는 특별한 종류의 행렬 곱셈 연산자입니다. 즉, 식 factor 1 * factor 2에는 요소 1과 요소 2의 모든 멤버 조합이 입력됩니다. 예를 들어 요소 1과 요소 2에 각각 3개의 멤버가 있으면 이 연산자에 의해 총 9개 변수가 모델 수식에 입력됩니다.

추세선 가정

Tableau 추세선에서 보고되는 p-값은 데이터에 대한 몇 가지 가정에 따라 달라집니다.

첫 번째 가정은 테스트를 수행할 때마다 평균 모델이 적어도 대략적으로는 맞습니다.

두 번째 가정은 모델 수식에 참조된 "확률 오차"(추세선 모델 유형 참조)가 각 관측값에서 독립적이며 모두 동일한 분포를 사용한다는 것입니다. 응답 변수의 true 추세선 변동이 한 범주에서 다른 범주보다 훨씬 높은 경우 이 제약 조건에 위배됩니다.

추세선을 계산하는 데 필요한 가정

최소 자승을 사용하여 각 개별 추세선을 계산하는 데 필요한 가정은 다음과 같습니다.

  • 모델은 실제 데이터 생성 프로세스의 정확한 기능을 단순화합니다(예: 로그 선형 관계에 대한 선형 모델 없음).

  • 오차는 평균 0이며 독립 변수와 상관관계가 없습니다(예: 독립 변수 측정 관련 오차 없음).

  • 오차는 일정한 분산을 가지며 서로 상관관계가 없습니다(예: 독립 변수가 증가해도 오차 분포는 증가하지 않음).

  • 설명 변수는 서로 정확한 선형 함수가 아닙니다(완벽한 다중공선성).

추세선에 관한 일반적인 질문

이 섹션에서는 Tableau의 추세선과 관련된 몇 가지 일반적인 질문에 대해 설명합니다.

모델에 사용된 신뢰 수준을 변경하려면 어떻게 해야 합니까?

Tableau에서는 신뢰 수준을 적용하지 않습니다. 단지 p-값을 표시하여 전체 모델 또는 특정 필드의 유의를 보고합니다. p-값은 차원을 고려하지 않고 동일한 추세 결과가 나타날 가능성을 측정합니다. 예를 들어 시간당 매출 추세 p-값이 0.05이면 시간을 고려하지 않고 동일한 값을 얻을 가능성이 5%인 것입니다.

모델의 p-값은 유의하지만 분산 분석 테이블에서 특정 필드의 p-값이 유의하지 않는 경우 무엇을 의미합니까?

분산 분석 테이블의 p-값은 필드가 전체 모델의 유의를 증가 또는 감소시키는지를 나타냅니다. p-값이 작을수록 확률 변경의 결과로 필드를 포함하는 모델과 포함하지 않는 모델 사이의 설명되지 않는 분산의 차이가 발생할 가능성이 적어집니다. 각 필드에 대해 표시되는 값은 해당 필드를 포함하지 않는 모델과 전체 모델을 비교하여 생성됩니다. 따라서 모델의 p-값은 유의하지만 분산 분석 테이블에서 특정 필드의 p-값이 유의하지 않는 경우 모델이 통계적으로는 유의하지만 관련된 특정 필드가 모델에 유용한지는 확신할 수 없습니다. 모델에서 요소를 제거하는 것이 더 나은지 여부를 고려하십시오.

분산 분석 테이블에서 특정 필드의 p-값은 유의하지만 모델의 p-값이 유의하지 않는 경우 무엇을 의미합니까?

각 패널에 "추세"가 없는 경우일 수 있습니다. 예를 들어 라인은 편평하지만 평균이 주어진 요소에 따라 달라집니다.

피드백을 제공해 주셔서 감사합니다!귀하의 피드백이 제출되었습니다. 감사합니다!