분석을 위한 구조 데이터

적용 대상: Tableau Desktop, Tableau Prep, Tableau Public

데이터를 준비하고 분석을 위해 데이터를 구조화하는 방법을 이해하는 데 기초가 되는 몇 가지 개념이 있습니다. 데이터는 매우 다양한 형식으로 생성되고 표현되고 저장될 수 있지만 분석의 관점에서는 모든 데이터 형식을 동일하게 만들 수 있는 것은 아닙니다.

데이터 준비는 올바른 형식의 데이터를 단일 테이블이나 여러 관련 테이블로 변환하여 Tableau에서 분석할 수 있도록 만드는 프로세스입니다. 여기에는 행 및 열 같은 구조뿐만 아니라 올바른 데이터 유형과 올바른 데이터 값 같은 데이터 정확성 측면도 포함됩니다.

팁: 자신의 데이터 집합을 사용하여 다음 항목을 진행하는 것이 도움이 될 수 있습니다. 사용할 수 있는 데이터 집합이 아직 없는 경우 좋은 데이터 집합 찾기(링크가 새 창에서 열림)에서 팁을 참조하십시오.

구조가 분석에 미치는 영향

데이터 구조를 제어하지 못할 수 있습니다. 이 항목의 나머지 부분에서는 원시 데이터와 이를 구성하는 데 필요한 도구(예: Tableau Prep Builder)에 액세스할 수 있다고 가정합니다. 그러나 원하는 대로 데이터를 피벗하거나 집계할 수 없는 상황이 있을 수 있습니다. 여전히 분석을 수행할 수 있지만 계산이나 데이터 접근 방식을 변경해야 할 수도 있습니다. 다른 데이터 구조로 동일한 분석을 수행하는 방법에 대한 예는 Tableau Prep Day in the Life Scenarios: Tableau Desktop에서 두 번째 날짜를 사용한 분석(영문)(링크가 새 창에서 열림)을 참조하십시오. 그러나 데이터 구조를 최적화할 수 있다면 분석이 훨씬 쉬워질 것입니다.

데이터 구조

Tableau Desktop은 스프레드시트와 같이 테이블 형식이 지정된 데이터에서 가장 잘 작동합니다. 즉, 행 및 열로 저장되어 있고 첫 번째 행에 열 머리글이 있는 데이터를 사용하는 것이 좋습니다. 그렇다면 무엇이 행 또는 열이 되어야 할까요?

행이란?

레코드라고도 하는 행은 소매점의 거래와 관련된 정보부터 특정 위치의 날씨 측정값이나 소셜 미디어 게시물 관련 통계에 이르기까지, 무엇이든 될 수 있습니다.

데이터의 레코드(행)가 표현하는 대상이 무엇인지 아는 것이 중요합니다. 이것은 데이터의 세부 수준입니다.

여기서 각 레코드는 하루입니다.	여기서 각 레코드는 한 달입니다.

팁: 최상의 방법은 각 행을 고유한 데이터로 식별하는 값인 고유 식별자(UID)를 만드는 것입니다. 고유 식별자는 각 레코드의 주민등록번호나 URL 같은 것으로 생각할 수 있습니다. Superstore의 경우 행 ID가 있습니다. 모든 데이터 집합에 UID가 있는 것은 아닙니다. 그러나 하나 있는 것이 좋습니다.

"데이터 집합의 행이 나타내는 것은 무엇입니까?"라는 질문에 대답할 수 있어야 합니다. 이것은 "TableName(Count) 필드는 무엇을 나타냅니까?"라는 질문과 같습니다. 이러한 질문에 대답할 수 없다면 데이터가 분석에 적합하지 않는 구조일 수 있습니다.

집계 및 세부 수준

행 구성 요소와 관련된 개념은 집계와 세부 수준이며, 이 둘은 완전히 반대되는 개념입니다.

집계

여러 데이터 값이 단일 값으로 결합되는 방식을 나타냅니다. 예를 들어 Google에서 펌킨 스파이스 검색 결과 수를 집계하거나 지정된 날짜에 시애틀 주변의 모든 온도 판독값 평균을 구하는 것이 여기에 포함됩니다.
기본적으로 Tableau의 측정값은 항상 집계됩니다. 기본 집계는 SUM입니다. 이 집계를 평균, 중앙값, 고유 카운트, 최소값 등과 같은 옵션으로 변경할 수 있습니다.

세부 수준

데이터가 얼마나 자세한지를 나타냅니다. 데이터 집합의 행 또는 레코드가 나타내는 것은 무엇입니까? 말라리아에 감염된 사람은? 특정 주/도에서 한 달 동안 발생한 말라리아 총 건수는? 이런 것이 세부 수준입니다.
세부 수준(LOD) 식으로 작업하려면 데이터 세부 수준을 파악하는 것이 중요합니다.

여러 이유에서 집계 및 세부 수준이 핵심 개념이라는 것을 이해해야 합니다. 이들은 유용한 데이터 집합 찾기, 필요한 비주얼리제이션 작성, 올바른 연관 또는 조인, LOD 식 사용 등에 영향을 미칩니다.

팁: 자세한 내용은 Tableau의 데이터 집계를 참조하십시오.

필드 또는 열이란?

테이블 형식 데이터에서 열은 Tableau Desktop의 데이터 패널에 필드로 나타나지만 이 둘은 근본적으로 상호 대체 가능한 용어입니다. (Tableau Desktop에서는 가능한 경우 열이라는 용어를 열 및 행 선반에서 사용하고 특정 비주얼리제이션을 설명하기 위해서만 사용합니다.) 데이터의 필드는 더 포괄적 관계로 그룹화할 수 있는 항목을 포함해야 합니다. 항목 자체는 값 또는 멤버라고 합니다(불연속형 차원만 멤버를 포함함).

지정된 필드에서 허용되는 값의 유형은 필드의 도메인에 의해 결정됩니다(아래 참고 사항 확인). 예를 들어 "식품점 부서"에 대한 열에는 "식품부", "제과점", "농산물" 등이 멤버로 포함될 수 있지만 "빵" 또는 "소시지"와 같은 항목은 부서가 아니므로 멤버로 포함될 수 없습니다. 다른 방식으로 표현하면 부서 필드의 도메인은 식품점 부서로만 제한됩니다.

또한 잘 구조화된 데이터 집합에는 "Money(금액)"에 대한 열 하나만 있지 않고 "Sales(매출)"에 대한 열과 "Profit(수익)"에 대한 열이 있습니다. 매출과 수익은 모두 금액이지만 별개의 개념입니다.

Sales(매출) 필드의 도메인은 0보다 크거나 같은 값입니다. 매출은 음수일 수 없습니다.
그러나 Profit(수익) 필드의 도메인은 수익이 음수가 될 수 있으므로 모든 값일 수 있습니다.

참고: 도메인은 데이터가 나타내는 값을 의미할 수도 있습니다. "식품점 부서" 열에 실수로 "소시지"가 포함된 경우 정의에 따라 해당 값은 열 도메인에 포함될 수 있습니다. 정의가 약간 모순적입니다. 하나는 도메인에 속할 수 있거나 속해야 하는 값에 대한 정의이고 다른 하나는 실제 도메인이 있는 값에 대한 정의입니다.

필드 분류

데이터 테이블의 각 열은 Tableau Desktop에 필드로 제공되어 데이터 패널에 나타납니다. Tableau Desktop의 필드는 차원이거나 측정값(데이터 패널의 테이블에서 선으로 구분됨)이어야 하며 불연속형이거나 연속형(색상으로 구분됨: 파란색 필드는 불연속형이고 녹색 필드는 연속형임)이어야 합니다.

차원은 정성적입니다. 즉, 측정할 수 없지만 설명 가능합니다. 차원은 대개 도시나 국가, 눈동자 색상, 범주, 팀 이름 등과 같은 것들입니다. 차원은 일반적으로 불연속형입니다.
측정값은 정량적입니다. 즉, 측정할 수 있으며 숫자로 기록할 수 있습니다. 측정값은 매출, 키, 클릭 수 등과 같은 것들일 수 있습니다. Tableau Desktop에서 측정값은 자동으로 집계되며, 기본 집계는 SUM입니다. 측정값은 대개 연속형입니다.
불연속형은 개별적으로 구분된다는 의미입니다. 현대 자동차는 기아 자동차와 구별됩니다. Tableau Desktop에서 불연속형 값은 뷰에 레이블로 나타나고 패널을 만듭니다.
연속형은 단절이 없고 연속되는 전체를 형성한다는 의미입니다. 7 다음에는 8이 오고 9까지 거리가 같으며 7.5는 7과 8 중간에 위치합니다. Tableau Desktop에서 연속형 값은 뷰에 축으로 나타납니다.
차원은 대개 불연속형이고 측정값은 대개 연속형이지만 항상 그런 것은 아닙니다. 날짜는 불연속형이거나 연속형일 수 있습니다.
- 날짜는 차원이며 자동으로 뷰에 불연속형으로 나타나며, 날짜 부분이라고도 합니다. 예를 들어 "8월"은 연도 같은 다른 정보는 고려하지 않고 8월이라는 달로 간주됩니다. 불연속형 날짜와 함께 일정에 적용되는 추세선은 패널당 하나씩 여러 개의 추세선으로 분할됩니다.
- 원한다면 연속형 날짜를 사용하도록 선택할 수 있습니다. 이 기능을 날짜 잘림이라고 하며 "2024년 8월"은 "2025년 8월"과 다릅니다. 연속형 날짜와 함께 일정에 적용되는 추세선은 전체 날짜 축에 대해 단일 추세선을 갖습니다.

팁: 자세한 내용은 차원 및 측정값, 파란색 및 녹색을 참조하십시오.

Tableau Prep에서는 차원이나 측정값을 구분하지 않습니다. 그러나 프로필 패널의 데이터 세부 프레젠테이션과 요약 프레젠테이션 같은 것을 이해하려면 불연속형 또는 연속형에 대한 개념을 이해하는 것이 중요합니다.

세부: 세부 뷰에는 모든 도메인 요소가 불연속형 레이블로 표시되고 모든 데이터에 대한 시각적 개요를 제공하는 시각적 스크롤 막대가 있습니다.
요약: 요약 뷰에는 연속형 축에 구간으로 나뉜 값이 히스토그램으로 표시됩니다.

구간차원 및 히스토그램

나이 또는 급여와 같은 필드는 연속형으로 간주됩니다. 나이 34와 35 사이에는 관계가 있으며 34는 35에서 35가 36에서 떨어져 있는 만큼 떨어져 있습니다. 그러나 10살 정도가 넘게 되면 대개 "9살하고 반년", "7살 9개월"과 같은 식으로 말하지 않게 됩니다. 우리는 이미 나이를 거의 연도 단위의 증분으로 구간차원화하고 있습니다. 12,850일 동안 산 사람은 12,790일 동안 산 사람보다 늙었지만 우리는 선형화해서 둘 모두 35살이라고 말합니다. 마찬가지로, 실제 나이 대신 연령 그룹화도 자주 사용합니다. 어린이용 영화표 가격은 12세 이하의 아이를 위한 것이고 설문조사에서는 20-24세, 25-30세 등과 같이 연령 그룹을 선택하도록 요청합니다.

구간차원을 사용하여 수치 데이터의 분포를 시각화하는 데에는 히스토그램이 사용됩니다. 히스토그램은 막대 차트와 유사하지만 막대별로 범주를 구분하는 대신, 꽃송이 수 범위(0-4, 5-9, 10-14 등)와 같이 히스토그램을 구성하는 사각형이 연속형 축의 구간 에 걸쳐 나타납니다. 사각형의 높이는 해당 값들의 빈도나 개수에 의해 결정됩니다. 여기서 y축은 각 구간에 속하는 식물의 개수입니다. 7개 식물은 꽃송이 수가 0-4개, 2개 식물은 꽃송이 수가 5-9개, 43개 식물은 꽃송이 수가 20-24개입니다.

식물 수별 꽃송이 수에 대한 히스토그램

Tableau Prep에서 요약 뷰는 구간차원으로 나뉜 값의 히스토그램입니다. 세부 뷰는 각 값의 빈도를 보여 주고 측면에 데이터의 전체 분포를 보여 주는 시각적 스크롤 막대가 있습니다.

요약 뷰	세부 뷰

분포 및 이상값

데이터 집합의 분포를 표시하는 것이 이상값을 감지할 때 도움이 됩니다.

분포: 히스토그램에서 데이터의 모양이며, 구간의 크기에 따라 달라집니다. 히스토그램 뷰에 모든 데이터를 표시할 수 있으면 데이터가 올바르고 완전하게 나타나는지 여부를 쉽게 확인할 수 있습니다. 분포의 모양은 데이터에 대해 알고 있고 분포가 의미가 있는지 여부를 해석할 수 있을 때에만 유용합니다.
- 예를 들어 1940년부터 2017년까지 광대역 인터넷을 사용하는 가구의 수에 대한 데이터 집합을 조사하는 경우 매우 왜곡된 분포를 보게 될 것이라 예상할 수 있습니다. 하지만 2017년 1월부터 2017년 12월까지 광대역 인터넷을 사용하는 가구의 수를 조사하는 경우 매우 균일한 분포를 보게 될 것이라 예상할 수 있습니다.
- Google에서 "펌킨 스파이스 라테"를 검색한 결과에 대한 데이터 집합을 조사하는 경우 가을에 상당히 가파르게 상승하는 결과를 보게 될 것이고 "섭씨를 화씨로 변환"에 대한 검색은 비교적 일정하게 유지될 것입니다.
이상값: 다른 값에 비해 극단적인 값입니다. 이상값은 올바른 값일 수도 있고 오류를 나타낼 수도 있습니다.
- 일부 이상값은 올바르며 실제 비정상 상태를 나타냅니다. 이러한 값은 제거하거나 수정해서는 안 됩니다.
- 일부 이상값은 데이터 정확성의 문제를 나타냅니다. 예를 들어 쉼표 대신 마침표를 입력하여 급여가 50,000달러 대신 50달러가 되는 경우입니다.

분포를 사용하는 시각적 이상값 감지

다음과 같은 목록이 있다는 가정합니다.

필드 열에 5개의 값이 있습니다.

언뜻 보기에는 이상해 보이지 않습니다. 그러나 레이블 목록 대신 연속형 구간차원 축에 그리면 다음과 같이 보입니다.

0에서 100까지의 눈금이 있는 막대 차트에서 5개 값에 대한 필드 수입니다.

이렇게 보면 마지막 관측값이 첫 번째 관측값과 멀리 떨어져 있으며 오류로 인한 이상값일 수 있습니다.

데이터 유형

스프레드시트와 달리 데이터베이스는 대개 데이터 집합에 엄격한 규칙을 적용합니다. 데이터 유형은 지정된 필드에서 데이터를 분류하고 데이터에 서식을 지정하고 데이터를 해석하는 방법과 데이터에 수행할 수 있는 작업에 대한 정보를 제공합니다. 예를 들어 숫자 필드에는 수학적 연산을 적용할 수 있고 지리적 필드는 매핑할 수 있습니다.

Tableau Desktop은 필드에 차원 또는 측정값을 할당하지만 필드는 데이터 유형에 따라 다른 특성을 가질 수 있습니다. 이러한 특성은 각 필드에 있는 아이콘으로 표시됩니다(일부 유형은 아이콘을 공유함). Tableau Prep은 동일한 데이터 유형을 사용합니다. 데이터 유형이 열에 적용되고 기존 값이 할당된 데이터 유형과 일치하지 않는 경우 값이 null로 표시될 수 있습니다(예: "purple"은 숫자로는 아무 의미가 없음).

일부 함수에는 특정 데이터 유형이 필요합니다. 예를 들어 CONTAINS와 숫자 필드를 함께 사용할 수 없습니다. 유형 함수는 필드의 데이터 유형을 변경하는 데 사용됩니다. 예를 들어 DATEPARSE는 특정 형식의 텍스트 날짜를 가져와 날짜로 만들 수 있으므로 뷰에서 자동 드릴다운과 같은 기능을 설정하는 데 사용할 수 있습니다.

아이콘	데이터 유형
	텍스트(문자열) 값
	날짜 값
	날짜 및 시간 값
	숫자 값
	부울 값(관계형에만 해당)
	지리적 값(맵에 사용)

팁: 자세한 내용은 데이터 유형에 대한 도움말 항목을 참조하십시오.

데이터 피벗 및 언피벗

사람이 인식하기 쉬운 데이터는 많은 열이 있는 가로 형식으로 표현되고 기록되는 경우가 많습니다. Tableau와 같은 시스템이 읽기 쉬운 데이터는 열이 적고 행이 많은 세로로 긴 형식입니다.

참고: 전통적으로 데이터 피벗은 세로를 가로로(행을 열로) 변환하는 것이고 언피벗은 가로를 세로로(열을 행으로) 변환하는 것입니다. 하지만 Tableau에서는 피벗이라는 단어를 '열을 행으로 변환하여 가로(사람이 인식하기 쉬운 형식)를 세로(시스템이 읽기 쉬운 형식)로 변환한다'는 의미로 사용합니다. 이 문서에서 피벗은 Tableau 관점의 단어를 나타냅니다. 명확성을 위해 "열을 행으로 피벗" 또는 "행을 열로 피벗"을 지정하는 것이 좋습니다.

자세한 내용은 데이터 피벗 및 데이터 작업을 위한 팁 도움말 문서를 참조하십시오.

가로 데이터

WHO 말라리아 데이터 집합에는 국가에 대한 열과 연도별 열이 있습니다. 각 셀은 해당 국가와 연도의 말라리아 사례 수를 나타냅니다. 이 형식에는 108개 행과 16개 열이 있습니다.

말라리아 데이터의 가로 형식

이 형식은 사람이 읽고 이해하기 쉽습니다. 그러나 이 데이터를 Tableau Desktop으로 가져오는 경우 열별로 필드가 만들어집니다. 2000년에 대한 필드, 2001년에 대한 필드, 2002년에 대한 필드 등이 만들어집니다.

Tableau Desktop의 가로 형식 말라리아 데이터 스크린샷

이것을 다른 방식으로 생각하면, 모두 동일한 기본 사항(보고된 말라리아 사례 수)을 나타내는 15개 필드가 있지만 시간에 대한 단일 필드가 없습니다. 해당 데이터는 서로 다른 필드에 저장되어 있으므로 시간에 대한 분석을 하기가 매우 어렵습니다.

예: 가로 데이터 작업

질문: 2000년부터 2014년까지 국가별 총 말라리아 사례 수를 보여 주는 지도를 만들려면 어떻게 해야 합니까?

답변: 모든 연도의 합계를 구하는 계산된 필드를 만듭니다.

맵은 말라리아의 전 세계 분포를 보여줍니다.

참고: 이 이미지는 최신 UI를 반영하도록 업데이트되지 않았습니다. 데이터 패널에 더 이상 차원 및 측정값 레이블이 표시되지 않습니다.

이 형식이 분석에 적합하지 않다는 또 다른 증거는 실제 값이 무엇을 의미하는지에 대한 정보를 얻을 수 있는 위치가 없다는 사실에서도 확인할 수 있습니다. 2012년 알제리의 경우 값이 55입니다. 무엇이 55입니까? 데이터 구조 관점에서 명확하지 않습니다.

2011년부터 2014년까지의 국가별 데이터 테이블입니다.

열 이름이 값이 무엇인지 설명하는 대신 부가적인 정보를 제공하는 경우 데이터를 피벗해야 한다는 신호입니다.

세로 데이터

데이터를 피벗하면 데이터를 가로에서 세로로 모양을 바꿀 수 있습니다. 이제 연도별 열 대신 Year(연도)라는 단일 열이 있고 Reported Cases(보고된 사례 수)라는 새 열이 있습니다. 이 형식에는 1,606개 행과 3개 열이 있습니다. 이 데이터 형식은 가로로 넓기 보다는 세로로 깁니다.

2000년부터 2014년까지 아프가니스탄에서 보고된 사례를 나타낸 테이블입니다.

이제 Tableau Desktop에는 Year(연도)에 대한 필드와 Reported Cases(보고된 사례 수)에 대한 필드, 그리고 원래 Country(국가) 필드가 있습니다. 각 필드가 데이터 집합의 고유한 특성(위치, 시간 및 값)을 나타내기 때문에 분석을 훨씬 쉽게 수행할 수 있습니다.

국가, 연도, 측정값 이름에 대한 차원과 보고된 사례, 위도, 경도, 레코드 수에 대한 측정값이 포함된 데이터 패널입니다.

참고: 이 이미지는 최신 UI를 반영하도록 업데이트되지 않았습니다. 데이터 패널에 더 이상 차원 및 측정값 레이블이 표시되지 않습니다.

예: 세로 데이터 작업

질문: 2000년부터 2014년까지 국가별 총 말라리아 사례 수를 보여 주는 지도를 만들려면 어떻게 해야 합니까?

답변: Reported Cases(보고된 사례 수) 필드를 사용합니다.

이 맵은 말라리아의 전 세계 분포를 보여주며, 국가별로 보고된 사례를 보여줍니다.

참고: 이 이미지는 최신 UI를 반영하도록 업데이트되지 않았습니다. 데이터 패널에 더 이상 차원 및 측정값 레이블이 표시되지 않습니다.

이제 2012년 알제리에 대한 숫자를 쉽게 확인할 수 있습니다. 55는 보고된 사례 수를 나타냅니다(이 새 열에 레이블을 지정할 수 있음).

2011년부터 2014년까지의 국가별 데이터 테이블이며, 2012년 알제리에서 보고된 사례에 대한 행이 선택되어 있습니다.

참고: 이 예에서 가로 데이터는 국가별 단일 레코드로 구성되어 있습니다. 세로 데이터 형식에는 국가별로 15개 행이 있습니다(데이터의 15개 연도마다 하나씩). 이제 국가별로 여러 행이 있다는 것을 기억하는 것이 중요합니다.

Land Area(국토 면적)에 대한 열이 있다면 해당 값은 세로 데이터 구조에서 각 국가에 대한 15개 행 각각에 대해 반복될 것입니다. Country(국가)를 행으로 가져오고, Land Area(국토 면적)를 열로 가져와 막대 차트를 만드는 경우 기본적으로 뷰는 국가별 15개 행 모두에 대한 국토 면적의 합계가 될 것입니다.

일부 필드의 경우 합계나 필터링 대신 평균이나 최소값을 사용하여 집계하여 값 중복 계산을 보상해야 할 수 있습니다.

정규화

관계 데이터베이스는 어떤 방식으로 서로 관련되거나 연결될 수 있는 여러 테이블로 구성됩니다. 각 테이블은 레코드별로 고유한 식별자 또는 키를 포함합니다. 키를 연관 또는 조인하여 레코드를 연결하면 단일 테이블에 포함된 것보다 많은 정보를 제공할 수 있습니다. 각 테이블에 들어가는 정보의 유형은 사용되는 데이터 모델에 따라 다르지만 일반적인 원칙은 중복을 줄이는 것입니다.

예를 들어 결혼식과 같은 행사의 행사 계획을 생각해 보십시오. 개인 수준뿐만 아니라 그룹(예: 가족 또는 부부) 수준에서 정보를 추적해야 합니다.

모든 정보를 함께 결합하는 테이블을 만들 수 있습니다.

참석자의 이름, 그룹, 식단 제한 사항, 좌석, 참석자 수, 주소, 초대장, 선물, 신부 여부 등 참석자에 대한 정보가 포함된 테이블입니다.

하지만 주소가 잘못되어 수정해야 하는 경우 여러 행을 수정해야 하므로 오류나 충돌이 발생하기 쉽습니다. 더 나은 구조는 두 개의 테이블을 만드는 것입니다. 즉, 그룹과 관련된 정보(예: 주소 및 초대장 발송 여부)에 대한 테이블 하나와 개인과 관련된 정보(예: 좌석 배치 및 식단 제한 사항)에 대한 테이블 하나를 만듭니다.

그룹 테이블	개인 테이블

그룹 테이블에서 그룹 수준 정보를, 개인 테이블에서 개인 수준 정보를 추적하고 분석하는 것이 훨씬 쉽습니다. 예를 들어 필요한 좌석 수는 개인 테이블의 Attending = Yes 레코드 수에서 구할 수 있으며 필요한 감사장의 수는 Gift가 null이 아닌 그룹 테이블의 레코드 수에서 구할 수 있습니다.

모든 데이터를 여러 테이블로 분할하는 프로세스, 즉 어떤 테이블에 어떤 열이 포함되어 있는지 알아내는 프로세스를 정규화라고 합니다. 정규화를 사용하면 중복 데이터를 줄이고 데이터베이스 구조를 간소화할 수 있습니다.

그러나 여러 테이블에 걸쳐 있는 정보가 필요한 때가 있습니다. 예를 들어 신부측의 그룹과 신랑측의 그룹이 적절히 혼합되도록 좌석 배치(개인)의 균형을 유지하려면 어떻게 해야 할까요? (신부측 친척과 신랑측 친척은 그룹 수준에서 추적합니다.) 이 목표를 달성하려면 개인이 해당 그룹과 관련된 정보와 연관되도록 테이블을 다시 연결해야 합니다. 적절한 정규화는 단지 테이블을 분할하는 것이 아니라 데이터를 다시 결합하는 데 사용할 수 있는 공유된 관련 필드 또는 고유한 식별자를 필요로 합니다. 여기에서 관련 필드는 Group(그룹)입니다. 해당 필드는 두 테이블 모두에 존재하므로 이 필드를 기반으로 조인하여 원래 단일 테이블 형식을 구할 수 있습니다. 이것은 비정규화 구조입니다.

그렇다면 비정규화된 원래 테이블을 유지하지 않는 이유는 무엇일까요? 이 테이블은 유지 관리하기가 더 어렵고 중복 정보를 저장합니다. 규모가 커지면 데이터 중복 수준이 엄청나게 커질 수 있습니다. 동일한 정보를 반복적으로 저장하는 것은 효율적이지 않습니다.

정규화된 테이블에는 소수의 키 속성이 있습니다.

각 행에는 고유 식별자가 필요합니다.
각 테이블에는 다른 테이블과 다시 연결하는 데 사용할 수 있는 하나 이상의 열(키)이 있어야 합니다.

이러한 공유(키) 열은 테이블을 다시 연결하거나 조인하는 데 사용됩니다. 이 데이터의 경우 관계 또는 조인 절은 각 테이블의 Group(그룹) 필드에 있습니다.

조인 유형

Tableau Desktop에서 데이터를 결합하는 기본 방법은 관계이지만 Tableau Desktop 또는 Tableau Prep Builder에서 테이블을 조인해야 할 경우가 있습니다. 조인 및 조인 유형에 대한 기본적인 개요는 데이터 조인을 참조하십시오.

이름, 형제 수, 눈동자 색에 대한 값을 보여주는 테이블을 내부, 왼쪽, 오른쪽, 외부 조인을 사용하여 조인합니다.

데이터 "정리"

Hadley Wickham이 2014년에 통계 소프트웨어 저널(Journal of Statistical Software)에 "Tidy Data(데이터 정리)"라는 논문을 발표했습니다(2014년 8월, 59권, 10호). 이 논문은 분석을 위해 잘 구조화된 데이터에 대한 프레임워크를 설계하는 뛰어난 업적을 달성했습니다. 이 논문은 여기(Hadley Wickham의 학술 자료 일람표)(링크가 새 창에서 열림) 또는 여기(r-project.org에서 호스팅)(링크가 새 창에서 열림)에서 찾을 수 있습니다.

참고: 이 논문은 외부 웹 사이트에서 호스팅됩니다. Tableau는 외부 공급자에 의해 유지 관리되는 페이지가 정확하며 최신 상태인지에 대해 책임을 지지 않습니다. 콘텐츠와 관련된 질문이 있는 경우 해당 소유자에게 문의하십시오.

맨 위로 이동

피드백을 제공해 주셔서 감사합니다!

귀하의 피드백이 제출되었습니다. 감사합니다!

Tableau Desktop 및 웹 작성 도움말