심층적인 관계에 대한 두려움 극복

관계의 특성으로 인해 필드의 출처, 해당 도메인 및 Null이 나타내는 내용을 이해하는 것이 그 어느 때보다 중요합니다. 데이터 원본 페이지 또는 데이터 패널에 액세스하지 않고 비주얼리제이션을 보는 모든 사용자는 비주얼리제이션을 정확하게 해석하기 위해 작성자가 제시한 제목 또는 기타 정보에 의존하게 됩니다.

참고: 관계를 사용하는 데이터 원본의 기반이 되는 원리에 아직 익숙하지 않은 경우 이 항목을 살펴보기 전에 관계에 대한 두려움 극복을 읽어 보는 것이 좋습니다.

모든 날짜 필드가 같지 않은 이유는 무엇입니까?

두 필드명에 "Date"라는 단어가 포함되어 있다고 해서 해당 필드의 내용이 동일하다는 것을 의미하지는 않는다는 점을 기억하는 것이 중요합니다. 연도 수준으로 한정된 예를 살펴보겠습니다. 즉, 월과 일의 값에 신경 쓰지 않고 필드가 다루는 연도에만 관심이 있습니다.

Bookshop 데이터 집합에는 데이터 유형이 날짜인 여러 필드가 있습니다.

  • Birthday(생일)
  • Publication Date(발행 날짜)
  • Sales Date(판매 날짜)
  • 그리고 Year Won(수상 연도) 및 Year Established(설립 연도)는 숫자 필드이지만 날짜 정보를 포함됩니다.
    • 참고: 데이터 패널의 아이콘이 녹색이면 해당 필드는 연속형입니다. 데이터 패널에서 필드명을 마우스 오른쪽 단추로 클릭하고 불연속형으로 변환(링크가 새 창에서 열림)을 선택합니다. 아이콘이 파란색으로 변해야 합니다. 필요한 경우 "Year Won(수상 연도)"및 "Year Established(설립 연도)" 모두에서 이 작업을 수행합니다.

그러나 도메인(각 필드의 값)은 다양합니다. 각 필드를 차례로 행 선반으로 가져와서 왼쪽 맨 아래에 있는 마크 수를 확인합니다. 다음 필드를 가져오기 전에 이전 필드를 제거해야 합니다.

  • YEAR(Birthday)에는 27개의 마크가 있으며, 이는 도메인에 27개의 서로 다른 연도가 포함되어 있음을 의미합니다.
  • YEAR([Publication Date])에는 15개의 마크가 있으므로 해당 도메인은 15개 연도로 구성됩니다.
  • Year Won(수상 연도)에는 11개의 마크가 있습니다.
  • Year Established(설립 연도)에는 4개의 마크가 있습니다.
  • YEAR([Sales Date])에는 1개의 마크가 있습니다.

도메인의 이러한 차이를 기억하는 것이 매우 중요합니다. YEAR([Publication Date])에 대해 Edition 및 Award 테이블을 Year Won(수상 연도)과 연관시키면 Inner 조인을 사용하는 분석을 완성할 수 있으며 연도가 수상 기록이 있는 연도만 남게 되어 수상 기록이 없는 연도의 모든 책이 사라집니다. (이것은 수상 기록이 없는 책을 필터링하는 것과는 다릅니다. 수상 기록이 있는 서적과 같은 연도에 출판된 수상 기록이 없는 서적은 유지됩니다. 수상 기록이 없는 연도의 모든 서적은 완전히 삭제됩니다. 조인의 필터링 동작은 서적이 아닌 연도 수준입니다.)

예: Publication Date(발행 날짜) 및 Birthday(생일)

Publication Date(발행 날짜)를 열로, Birthday(생일)를 행으로 가져오면 Abc 테이블이 생성됩니다. 통합 문서를 다운로드하여 이 테이블을 직접 탐색할 수 있습니다. (Tableau Desktop 2020.2 이상이 필요합니다.)

Abc는 연도 이외의 데이터가 없기 때문에 단순히 자리 표시자입니다. Tableau에는 마크를 표시할 값이 없지만 Abc는 마크가 이동할 수 있는 위치를 보여줍니다.

이 테이블에는 많은 공백이 있습니다. Publication year(발행 연도) 2180 및 Birthday(생일) 2133에 대한 자리 표시자가 없습니다. 즉, 2133년에 태어난 저자는 2180년에 출판하지 않았음을 의미합니다.

맞지만, 우리가 신경을 써야할 이유가 있을까요?

예를 들어 시간별로 몇 가지 분석을 하고 싶다고 가정합니다. 양장본 판매는 시간이 지남에 따라 증가합니까? 그래프를 행에 Sales(Count)가 있고 열에 날짜가 있는 Hardcover(양장본)로만 Format(판형)을 필터링하는 타임라인으로 생각할 수 있습니다. 그러면 어떤 날짜 필드가 필요한가요? Publication Date(발행 날짜)? Birthday(생일)? Sales Date(판매 날짜)? 이러한 필드는 이름이 잘 지정되어 있으며 판매와 관련된 질문이 있는 경우 Sales Date(판매 날짜)를 사용해야 한다는 것이 분명합니다. 그러나 모든 데이터 집합에 명확한 이름이 있는 것은 아닙니다. 필드가 "Date1" 및 "Date3"과 같은 경우 무엇인지 알기 어려울 것입니다. 특히 분석 질문을 충분히 생각하고 만들지 않은 경우가 있습니다.

필드를 가져오는 테이블과 필드의 도메인이 나타내는 대상은 분석에 중요한 영향을 미칩니다.

날짜 필드를 변경하여 분석을 완전히 변경할 수 있습니다. 다음 두 비주얼리제이션을 고려하십시오.

첫 번째는"각 연도에 태어난 저자들이 집필한 서적은 몇 권입니까?"로 해석할 수 있습니다. 이 비주얼리제이션은 "나이가 많은 저자가 더 많은 서적을 집필했습니까?" (아니요) 또는 "어떤 연도에 태어난 저자들이 가장 많은 다작을 했습니까?" (2155년) 같은 질문에 답합니다.

두 번째는"각 연도에 출판된 서적은 몇 권입니까?"로 해석할 수 있습니다. 이 비주얼리제이션은 "가장 많은 서적이 출판된 연도는?" (2188년) 또는 "서적 출판은 시간이 지나도 꾸준한가?" (아니요) 같은 질문에 답합니다.

생일을 사용하는 비주얼리제이션에 대한 질문은 개념의 어색한 조합이기 때문에 표현하기가 어렵습니다. 그러나 Tableau는 질문을 판단하지 않으며 사용자는 원하는 질문을 할 수 있습니다. 원하는 의도에 맞는 질문인지는 별개입니다. 이것이 매우 중요합니다. Date1을 사용해야 할 때 Date3을 가져와도 Tableau는 비주얼리제이션을 제공합니다. 그러나 모든 날짜 필드가 동일한 의미는 아니며 올바른 분석을 위해 어떤 필드를 사용할지 결정하는 것은 작성자의 책임입니다.

필드가 제공되는 테이블의 중요성에 대한 자세한 내용은 이 블로그 게시물(영문)(링크가 새 창에서 열림)을 참조하십시오.

누락된 데이터는 무엇을 의미합니까?

0과 null 사이에는 차이가 있습니다.

0은 측정했지만 값이 없다는 의미입니다. 값을 알고 있으며 0입니다. 과속 위반 딱지가 전혀 없으면 속도를 많이 내지 않는 것입니다.

  • 참고: 0과 1은 종종 True/False, Yes/No 또는 Pass/Fail과 같은 다른 이항 값과 같은 의미로 사용됩니다. 이 경우 0은 숫자 값이 아닌 레이블로 사용됩니다.

Null은 알 수 없음을 의미합니다. 즉, 측정하지 않았거나 데이터를 기록하지 않았습니다. 내 운전 기록에서 과속 위반 딱지에 대한 항목이 비어 있는 경우 과속을 했는지 여부를 알 수 없습니다.

Null은 누락된 데이터나 존재하지 않는 데이터를 나타낼 수 있습니다.

  • 내 운전 기록에서 과속 위반 딱지 값이 Null이면 기록되지 않은 과속 위반 딱지가 있을 수 있다고 생각할 수 있습니다. 데이터가 누락되었다고 가정해야 합니다.
  • 존재하지 않는 데이터는 N/A로 기록될 수 있지만 불가능한 일을 추적할 필요가 없기 때문에 단순히 기록되지 않는 경우가 많습니다. 버스를 타는 동안 과속 위반 딱지를 몇 장 받겠습니까? 해당 데이터는 데이터 집합에 없을 가능성이 높습니다. "교통 수단"과 "과속 위반 딱지"의 행렬에는 전혀 의미가 없는 조합이 있습니다. 이러한 데이터는 존재하지 않는다고 가정할 수 있습니다.

Null이 의미를 가지는 경우

Null이 실제로 알려지지 않았는지(과속 위반 딱지 수에 대한 정보 부족), 아니면 존재하지 않는 데이터를 나타내는지(버스 승객으로서 과속 위반 딱지에 대한 정보 부족)를 파악하려면 데이터에 대한 지식이 필요합니다. 정보 부족이 누락된 데이터가 아닌 존재하지 않는 데이터로 인해 발생한다고 간주할 수 있을 만큼 데이터를 신뢰할 수 있습니까? 분야별 전문 지식이 적용될 때 Null은 의미가 있을 수 있습니다.

Abc 테이블을 다시 보면 자리 표시자가 없는 공간을 분석할 수 있습니다. 이 데이터는 신뢰할 수 있다고 가정하고 null은 데이터가 불완전한 것이 아니라 존재하지 않음을 의미합니다.

자리 표시자가 없다는 것은 해당 연도에 저자가 태어났고(즉, 행이 존재 함), 해당 연도에 서적이 출판되었지만(즉, 열이 존재 함), 출판된 서적이 해당 연도에 태어난 저자가 쓴 것이 아니라는 것을 의미합니다(즉, 셀이 비어 있음). 따라서 비어 있는 공간에 'Nothing Published(출판된 서적 없음)'이라는 의미 있는 레이블을 할당할 수 있습니다. 이러한 null도 분석할 수 있습니다. 예를 들어 데이터에 존재하는 날짜에 대해 각 저자가 서적을 출판하지 않고 보낸 기간은 몇 년입니까?

참고: Birthday(생일) 도메인에도 간격이 있습니다. 2131년 또는 2132년에 태어난 저자가 없으므로 Year(연도)는 2130년에서 2133년으로 이동합니다(2131년 및 2132년에 대한 행은 존재하지 않음). 이러한 누락된 연도는 "이 데이터 집합의 서적 중에 해당 연도에 저자가 태어난 서적이 없음"으로 해석될 수 있습니다. 그러나 날짜 필드의 도메인에 대해 설명할 때 위에서 지적했듯이 도메인에 누락된 값이 있다는 사실은 관계를 구축하거나 비주얼리제이션의 머리글 또는 축에 사용할 필드를 선택할 때 고려해야 할 중요한 정보입니다.

관계에서 null로 작업하는 방법에 대한 자세한 내용은 이 블로그 게시물(영문)(링크가 새 창에서 열림)을 참조하십시오.

스스로 작성 연습

각 비주얼리제이션의 제목을 작성합니다. 일반적인 언어로 어떤 작업이 실행되는지 설명할 수 있습니까? 통합 문서를 다운로드하여 라이브 비주얼리제이션을 살펴보십시오. (이 통합 문서는 Bookshop 데이터 집합의 약간 수정된 버전을 사용하며 두 개의 테이블만 사용합니다. 날짜 필드가 조정되어 관련 필드로 사용할 수 있습니다.)

비주얼리제이션 행렬을 읽으려면: 

  • 막대는 연간 판형 수(보라색) 및 수상 수(녹색)를 표시합니다.
  • 각 열에는 축에 대해 다른 날짜 필드가 있습니다. 왼쪽 열은 Edition 테이블의 Publication Year(발행 연도)이고, 가운데 열은 Award 테이블의 Year Won(수상 연도)이며, 오른쪽 열은 발행 날짜를 사용하지만 해당 필드가 null인 경우 수상 연도를 사용하는 계산된 필드입니다(이 계산은 두 도메인이 완전히 표현되도록 하는 데 사용됨).
  • 각 행은 Award 및 Edition 테이블이 결합되는 방식에 대한 서로 다른 관계입니다. 상단 행은 Book ID(서적 ID)를 기준으로 테이블을 연관시키고, 중간 행은 Year(연도)를 기준으로 테이블을 연관시키고, 하단 행은 Book ID(서적 ID)와 Year(연도) 모두를 기준으로 테이블을 연관시킵니다.
  • 2183년의 막대는 쉽게 비교할 수 있도록 더 굵습니다. 아래 솔루션에서 해당 값을 자세히 살펴보는 연도입니다.
  • 음영 처리된 두 비주얼리제이션의 값은 동일합니다.

막히는 부분이 있는 경우

비주얼리제이션의 각 부분을 단계별로 살펴보세요. 데이터 원본 구조, 축과 머리글, 마크에 사용된 필드(및 마크를 가져온 테이블)를 확인합니다. null을 찾고 해당 위치에 null이 있는 이유에 대해 생각해보십시오. 특정 마크 하나 또는 둘에 대한 데이터를 보고 어떤 레코드가 포함되어 있는지 확인합니다.

  • 데이터 원본은 Book ID(서적 ID)를 기준으로 Edition(판형)에 연관된 Award(상)입니다.
  • 날짜 축은 Publication Year(발행 연도)입니다.
  • 값은 Award의 카운트 및 Edition의 카운트입니다.

비주얼리제이션에서 단일 마크를 선택하고 정의해 보십시오. 2183년에 대해 비주얼리제이션은 7개의 판형과 3개의 수상 기록이 있음을 보여줍니다. 기초 데이터 보기를 사용하여 각 마크에서 어떤 레코드가 표시되는지 조사합니다.

Editions

Awards

이 둘을 합치면 "2183년에 출판된 7권의 서적을 반환한 다음, 해당 서적들에 대해 수상한 시기에 관계없이 받은 상을 나열"로 해석할 수 있습니다. TM925는 원래 2179년에 출판되었으며 양장본이 해당 연도에 두 개의 상을 받았습니다. 2183년에는 이 서적의 다른 판형(아마도 문고판)이 출판되었습니다. Award의 카운트 값은 연도가 아니라 서적에 연결됩니다.

따라서 전체 비주얼리제이션은 "각 연도에 출판된 판형의 수 및 해당 연도에 출판된 서적이 받은 상의 수" 또는 "각 연도에 출판된 판형의 수 및 해당 서적이 받은 상의 수"로 해석할 수 있습니다.

스스로 작성 연습에 대한 솔루션

2183년(더 굵은 막대)은 해석에서 초점이 되는 연도입니다. 판형에 대한 정보는 보라색으로, 수상에 대한 정보는 녹색으로 표시됩니다. 2187년은 수상 기록은 없지만 서적이 출판된 연도이기 때문에 설명에 언급되어 있습니다. 이것은 축에 사용하는 날짜 필드의 영향력을 잘 보여주는 예입니다. 이 의미 차이는 설명에서 파란색으로 표시됩니다. 관계를 설정하는 데 사용되는 필드의 중요도는 분홍색으로 표시됩니다.

이 비주얼리제이션은 사용자의 편의를 위해 제공되지만 통합 문서를 다운로드하여 Tableau Desktop 2020.2 이상에서 열면 도구 설명 및 데이터 보기와 같은 대화형 기능을 사용할 수 있으므로 더 나은 환경을 얻을 수 있습니다. 시트를 더 자세히 살펴보고 싶다면 하단의 대시보드 탭을 마우스 오른쪽 단추로 클릭하고 모든 시트 숨기기 취소를 선택할 수 있습니다. 이렇게 하면 모든 개별 비주얼리제이션을 사용할 수 있으며 각 시트에서 데이터 패널과 작성 환경을 볼 수 있고 어떤 필드가 어떤 선반에 있는지도 확인할 수 있습니다. 세 가지 서로 다른 관계(위의 행렬의 행)를 달성하기 위해 세 가지 서로 다른 데이터 원본이 있습니다.

관련 리소스

압도 당해서 이전으로 돌아가고 싶으십니까? 관계에 대한 두려움 극복을 읽어보십시오.

관계가 있는 계산을 처리할 준비가 되셨습니까? 관계의 계산에 대한 두려움 극복을 확인해 보십시오.

제품 관리 팀에서 직접 제공하는 관계의 기술적 토대에 대한 자세한 내용을 보려면 Tableau 블로그에서 관계에 대한 시리즈를 참조하십시오.

Action Analytics(링크가 새 창에서 열림)에서 Tableau가 관계를 발명한 이유는 무엇입니까?(영문)(링크가 새 창에서 열림)와 같은 동영상 팟캐스트도 참조하십시오. Library(라이브러리)(링크가 새 창에서 열림)에서 “Video Podcast(동영상 팟캐스트)”를 클릭하여 자세히 알아볼 수 있습니다.

피드백을 제공해 주셔서 감사합니다!귀하의 피드백이 제출되었습니다. 감사합니다!