데이터 설명을 데이터를 더 자세히 탐색하기 위한 계단식 출발점으로 사용합니다. 데이터 설명이 생성하는 가능한 설명을 통해 뷰에서 분석한 마크를 구성하거나 관련시키는 다양한 값을 확인할 수 있습니다. 또한 데이터 원본에 포함된 데이터 요소의 특성과 통계 모델을 사용하여 데이터에 존재할 수 있는 관계(상관 관계)를 알 수 있습니다. 이러한 설명은 데이터를 검사하고 다음 단계에서 탐색할 대상에 대한 흥미로운 단서를 구할 수 있는 또 다른 도구를 제공합니다.

참고: 데이터 설명은 데이터의 관계를 드러내고 설명하는 도구입니다. 하지만 관계를 발생시키는 원인과 데이터를 해석하는 방법은 알려주지 않습니다. 사용자는 데이터의 전문가입니다. 사용자 전문 분야 지식과 직관은 다양한 뷰를 사용하여 보다 자세하게 탐색할 흥미로운 특성을 결정할 때 핵심적인 역할을 합니다.

데이터 설명 작동 방식과 데이터 설명을 사용하여 분석을 보완하는 방법과 관련된 정보는 다음 Tableau Conference 프레젠테이션을 참조하십시오.

데이터 설명의 용도(및 지원되지 않는 용도)

데이터 설명의 용도:

  • 도메인 전문 지식을 활용하는 도구 및 워크플로우
  • 데이터의 관계를 드러내고 다음으로 살펴볼 위치를 추천하는 도구
  • 데이터 분석을 촉진하도록 돕고 데이터 분석을 더 광범위한 사용자가 쉽게 액세스할 수 있게 만드는 도구 및 워크플로우

데이터 설명의 지원되지 않는 용도:

  • 통계적 테스트 도구
  • 가설을 증명하거나 반증하는 도구
  • 답을 제공하거나 데이터의 인과 관계와 관련된 정보를 알려주는 도구

마크에서 데이터 설명을 실행할 때 다음을 주의하십시오.

  • 집계할 수 있는 세분화된 데이터를 사용합니다. 이 기능은 집계된 데이터의 분석에 사용하도록 명시적으로 설계되었습니다. 즉, 데이터가 세분화되어야 하지만 데이터 설명을 위해 선택한 마크는 그보다 더 높은 세부 수준에서 집계되거나 요약되어야 합니다. 가장 세밀한 세부 수준의 집계 해제된 마크(행 수준 데이터)에 대해서는 데이터 설명을 실행할 수 없습니다. 집계에 대한 자세한 내용은 Tableau의 데이터 집계를 참조하십시오.

  • 데이터의 모양, 크기 및 카디널리티를 고려합니다. 데이터 설명을 작은 데이터 집합에서 사용하는 경우에도 모델을 만들 수 있으려면 충분히 넓은 범위에 분포하며 충분한 수의 마크(세부 수준)를 포함하는 데이터가 필요합니다.

  • 인과 관계를 가정하지 마십시오. 상관 관계는 인과 관계가 아닙니다. 설명은 데이터로 구성된 모델에 기반하지만 인과 관계 설명이 아닙니다.

    상관 관계란 A와 B 같은 일부 데이터 변수 사이의 관계를 나타냅니다. 하지만 데이터의 관계를 보는 것으로는 A가 B의 원인인지, 아니면 B가 A의 원인인지 또는 더 복잡한 관계가 발생하고 있는지를 알 수 없습니다. 데이터 패턴은 각각의 경우에 정확히 동일하며 알고리즘은 각 경우의 차이점을 알 수 없습니다. 두 변수가 함께 변화한다는 것만으로 반드시 한 변수가 다른 변수를 변화하게 만든다고 말할 수 없습니다. 제3의 요소가 두 변수를 모두 변화시키는 것이거나 우연의 일치이고 인과 관계가 전혀 없을 수도 있습니다.

    그러나 어떤 일이 발생하고 있는지 식별하는 데 도움이 되는 지식이 데이터가 아닌 외부에 있을 수도 있습니다. 이러한 외부 지식의 일반적인 유형은 데이터가 실험에서 수집되는 상황입니다. 동전 뒤집기로 B가 선택되었다는 것을 알고 있다면 A의 일관된 차이 패턴(무작위 잡음 아님)은 B에 의해 발생해야 합니다. 이러한 개념에 대한 보다 자세하고 심층적인 설명은 Hal Varian의 논문 경제 및 마케팅의 인과 추론(영문)(링크가 새 창에서 열림)을 참조하십시오.

설명이 분석되고 평가되는 방식

데이터 설명은 대시보드나 시트에서 통계 분석을 실행하여 이상값인 마크를 찾거나, 구체적으로 선택한 마크에 대해 통계 분석을 수행합니다. 또한 분석에서는 현재 뷰에 표시되지 않은 데이터 원본의 관련 데이터 요소도 고려합니다.

데이터 설명은 먼저 비주얼리제이션에 표시되는 데이터만 사용하여 마크의 값을 예측합니다. 그런 다음 데이터 원본에 있지만 현재 뷰에 표시되지 않는 데이터가 고려되고 모델에 추가됩니다. 모델은 예측된 마크 값의 범위를 결정하며, 이러한 범위는 예측된 값의 1 표준편차 내에 있습니다.

예상 범위는 얼마입니까?

마크에 대한 예상 값은 비주얼리제이션의 기초 데이터에서 예상되는 값 범위의 중앙값입니다. 예상 범위는 통계 모델에서 분석된 마크에 대해 예측하는 15번째 백분위수와 85번째 백분위수 사이의 값 범위입니다. Tableau는 선택한 마크에 대한 통계 분석을 실행할 때마다 예상 범위를 결정합니다.

가능한 설명의 설명력은 통계적 모델링을 사용하여 평가됩니다. 각 설명에 대해 Tableau는 예상 값과 실제 값을 비교합니다.

설명
예상보다 높음/예상보다 낮음 예상 값 요약에 마크가 예상보다 낮음 또는 예상보다 높음으로 표시되는 경우 집계된 마크 값이 통계 모델이 마크에 대해 예측한 값 범위를 벗어난다는 의미입니다. 예상 값 요약에 마크가 예상보다 다소 낮거나다소 높지만자연 변동 범위 이내라고 표시되는 경우 집계된 마크 값이 예상 마크 값의 범위 내에 있지만 중앙값 범위보다 낮거나 높다는 의미입니다.
예상 값 마크에 예상 값이 있는 경우 통계 모델이 마크에 대해 예측하는 값의 예상 범위 내에 해당 값이 있음을 의미합니다.
불규칙 변동 분석된 마크에 적은 수의 레코드가 있는 경우 데이터 설명이 통계적으로 유의미한 설명을 구성하는 데 필요한 데이터가 부족할 수 있습니다. 마크의 값이 예상 범위를 벗어난 경우 데이터 설명은 예기치 않은 값이 불규칙 변동으로 인해 발생한 것인지, 아니면 기초 레코드의 의미 있는 차이로 인해 발생한 것인지를 구분할 수 없습니다.
설명 없음 분석된 마크 값이 예상 범위를 벗어났고 데이터 설명에 사용된 통계 모델에 맞지 않으면 설명이 생성되지 않습니다.

분석에 사용되는 모델

데이터 설명은 마크의 값을 예측하기 위해 뷰에서 데이터의 모델을 작성한 다음 해당 모델에서 마크가 예상보다 높은지 또는 낮은지를 결정합니다. 그런 다음 데이터 원본의 다른 열을 뷰에 추가하거나 레코드 수준 이상값에 플래그를 지정하는 등, 추가적인 정보를 잠재적인 설명으로 고려합니다. 각 잠재적인 설명에 대해 데이터 설명은 적합한 새로운 모델을 만들고 새 정보가 주어질 때 마크가 얼마나 예상과 다른지 평가합니다. 설명은 복잡성(데이터 원본에서 추가되는 정보의 양)과 설명에 필요한 변동성의 균형을 고려하여 평가됩니다. 같은 변동성을 설명할 때 더 간단한 설명이 더 나은 설명입니다.

 

설명 유형 평가

극한 값

극한 값은 시각화된 마크의 모델에 기반한 이상값인 집계된 마크입니다. 선택한 마크는 레코드 값이 데이터에 대한 예상 값 분포의 꼬리에 속하는 경우 극한 값을 포함한다고 간주됩니다.

극한 값은 극한 값을 포함한 집계 마크와 포함하지 않은 집계 마크를 비교함으로써 결정됩니다. 값을 제거하여 마크의 변동이 완화된다면 더 높은 점수를 받습니다.

마크에 극한 값이 있는 경우 이상값이라는 의미이거나 뷰에서 해당 레코드를 제외해야 한다는 의미는 아닙니다. 선택은 분석에 따라 결정됩니다. 설명은 단지 마크에 흥미로운 극한 값이 있다는 것을 나타냅니다. 예를 들어 바나나 가격이 10센트가 아니라 10달러인 경우 레코드의 잘못 입력된 값을 나타낼 수 있습니다. 또는 특정 영업 사원의 훌륭한 분기 실적을 나타내는 것일 수 있습니다.

레코드 수

레코드 수 설명은 집계 개수의 측면에서 집계 합계를 모델링하고, 레코드의 평균 값은 집계 평균 측면에서 모델링합니다. 모델이 합계를 더 잘 설명할수록 점수가 더 높아집니다.

이 설명은 개수가 많거나 적은 것이 이유이거나 평균이 높거나 낮은 것이 이유가 되어 합계가 중요하게 되었는지를 설명합니다.

마크의 평균값

이 유형의 설명은 합계인 집계 마크에 사용되며, SUM(X) = COUNT(X) * AVG(X) 관계에 주목하여 집계 카운트 또는 평균 측면에서 마크가 다른 마크와 일치하는지 여부를 설명합니다.

이 설명은 개수가 많거나 적은 것이 이유이거나 평균이 높거나 낮은 것이 이유가 되어 합계가 중요하게 되었는지를 설명합니다.

기여 차원

이 설명은 시각화되지 않은 차원의 범주 세분화 측면에서 분석된 마크의 대상 측정값을 모델링합니다. 이 분석은 모델의 복잡성과 마크가 얼마나 잘 설명되었는지에 대한 균형을 맞춥니다.

시각화되지 않은 차원은 데이터 원본에 존재하지만 현재 뷰에서 사용되고 있지 않은 차원입니다. 이 유형의 설명은 합계, 개수 및 평균에 사용됩니다.

시각화되지 않은 차원에 대한 모델은 설명하는 열의 범주형 값에 따라 마크를 분할한 다음 원본 비주얼리제이션의 모든 데이터 요소를 포함하는 값으로 모델을 작성하여 만들어집니다. 각 행에 대해 이 모델은 각 마크를 구성하는 개별 구성 요소 각각을 복구하려고 시도합니다. 이 분석은 시각화되지 않은 차원의 값을 알 수 없는 모델을 사용할 때보다 시각화되지 않은 차원에 해당하는 구성 요소를 모델링한 다음 추가할 때 모델이 마크를 더 정확하게 예측하는지 여부를 나타냅니다.

집계 차원 설명은 조건을 사용하지 않고 마크 값을 정확하게 설명할 수 있는 방법을 탐색합니다. 잠재적 설명에 해당하는 각 열의 값에 대한 모델 조건을 탐색합니다. 설명 열의 분포에 대한 조건을 지정하면 더 정확한 예측으로 나타나야 합니다.

기여 측정값

이 설명은 시각화되지 않은 측정값 측면에서 마크를 모델링하고, 시각화된 차원의 중앙값으로 집계합니다. 시각화되지 않은 측정값은 데이터 원본에 존재하지만 현재 뷰에서 사용되고 있지 않은 측정값입니다.

기여 측정값 설명은 시각화되지 않은 측정값과 대상 측정값 간의 선형 또는 2차 관계를 나타낼 수 있습니다.

피드백을 제공해 주셔서 감사합니다!