데이터 집합 구성
참고: 버전 2020.4.1부터 Tableau Server 및 Tableau Cloud에서 흐름을 만들고 편집할 수 있습니다. 이 항목의 내용은 언급하지 않는 한 모든 플랫폼에 적용됩니다. 웹에서 흐름을 작성하는 것에 대한 자세한 내용은 Tableau Server(링크가 새 창에서 열림) 및 Tableau Cloud(링크가 새 창에서 열림) 도움말에서 웹에서의 Tableau Prep을 참조하십시오.
흐름에서 작업할 데이터 집합의 양을 결정하려면 데이터 집합을 구성하면 됩니다. 데이터에 연결하거나 테이블을 흐름 패널에 끌어 놓으면 입력 단계가 자동으로 흐름에 추가됩니다.
입력 단계는 흐름에 포함할 데이터의 종류와 양을 결정할 수 있는 단계입니다. 입력 단계는 항상 흐름의 첫 번째 단계입니다.
Excel 또는 텍스트 파일에 연결한 경우 입력 단계에서 데이터를 새로 고칠 수도 있습니다. 자세한 내용은 입력 단계에서 더 많은 데이터 추가(링크가 새 창에서 열림)를 참조하십시오.
입력 단계에서 다음을 수행할 수 있습니다.
- 흐름 패널에서 입력 단계를 마우스 오른쪽 단추로 클릭하거나 Cmd 키를 누른 채로 클릭(MacOS)하여 이름을 바꾸거나 제거합니다.
- 동일한 상위 또는 하위 디렉터리의 여러 파일을 유니온합니다. 자세한 내용은 입력 단계에서 파일 및 데이터베이스 테이블 유니온을 참조하십시오.
- (버전 2023.1 이상) 데이터 집합의 원래 정렬 순서에 따라 자동으로 생성된 행 번호를 포함합니다. 데이터 집합의 행 번호 포함을 참조하십시오.
- 필드를 검색합니다.
- 필드 값을 미리 봅니다.
- 필드명을 변경하여 필드 속성을 구성하거나 텍스트 파일의 텍스트 설정을 구성합니다.
참고: 대괄호를 포함하는 필드 값은 자동으로 중괄호로 변경됩니다.
- 흐름으로 수집되는 데이터 샘플을 구성합니다. 데이터 샘플 크기 설정을 참조하십시오.
- 필요하지 않은 필드를 제거합니다. 언제든지 입력 단계로 돌아가서 나중에 필드를 포함할 수 있습니다.
- 흐름 출력에 포함하되 정리하지 않아도 되는 필드를 숨깁니다. 필요한 경우 언제든지 숨기기 취소할 수 있습니다.
- 선택한 필드에 필터를 적용합니다.
- 데이터 연결에 대해 지원하는 필드 데이터 유형을 변경합니다.
- (버전 2023.3 이상) CSV 파일의 머리글과 시작 행을 설정할 수 있습니다.
- (버전 2024.1 이상) Excel 파일의 머리글과 시작 행을 설정할 수 있습니다.
데이터 집합의 행 번호 포함
Tableau Prep Builder 버전 2023.1 이상과 웹에서 Microsoft Excel 및 텍스트(.csv) 파일에 대해 지원됩니다.
참고: 이 옵션은 현재 입력 유니온에 포함된 파일에 대해서는 지원되지 않습니다.
버전 2023.1부터 Tableau Prep에서는 흐름에 새 필드로 포함할 수 있는 데이터의 원래 정렬 순서에 따라 자동으로 행 번호가 생성됩니다. 이 기능은 Microsoft Excel 또는 텍스트(.csv) 파일 유형에만 사용할 수 있습니다.
이전 릴리스에서는 이러한 행 번호를 포함하려고 할 때 원본에 행 번호를 수동으로 추가한 후 데이터 집합을 흐름에 추가해야 했습니다.
이 필드는 데이터에 연결할 때 입력 단계에서 생성됩니다. 기본적으로 흐름에서 제외되지만 클릭 한 번으로 포함할 수 있습니다. 포함하도록 선택하면 다른 모든 필드와 같은 방식으로 동작하며 흐름 작업 및 계산된 필드에 사용될 수 있습니다.
Tableau Prep은 계산된 필드에 대해 ROW_NUMBER 함수도 지원합니다. 이 함수는 데이터 집합에 정렬을 정의하는 필드(예: 행 ID 또는 타임스탬프)가 있는 경우 유용합니다. 이 함수의 사용에 대한 자세한 내용은 세부 수준(LOD), 순위 및 분위 계산 만들기를 참조하십시오.
원본 행 번호 필드를 흐름에 추가
필드를 오른쪽 클릭 또는 Cmd 키를 누른 채로 클릭(MacOS)하거나 기타 옵션 메뉴를 클릭하고 필드 포함을 선택합니다.
데이터 미리 보기:
필드 목록:
변경 목록이 지워지고 이제 필드가 흐름 데이터에 포함되며 후속 흐름 단계에서 생성된 행 번호를 볼 수 있게 됩니다.
원본 행 번호 세부 정보
데이터 집합에 원본 행 번호를 포함하는 경우 다음 옵션 및 고려 사항이 적용됩니다.
- 데이터 샘플링 또는 필터 전에 데이터 원본 행 번호가 적용됩니다.
- 이로 인해 원본 행 번호라는 새 필드가 만들어지고 흐름 전체에서 유지됩니다. 이 필드 이름은 지역화되지 않지만 언제든지 이름을 바꿀 수 있습니다.
- 이 이름의 필드가 이미 있는 경우 새 필드 이름은 1씩 증가합니다. 예를 들어 원본 행 번호-1, 원본 행 번호-2 등으로 지정됩니다.
- 후속 단계에서 필드의 데이터 유형을 변경할 수 있습니다.
- 흐름 작업 및 계산에서 이 필드를 사용할 수 있습니다.
- 이 값은 입력 데이터가 새로 고쳐지거나 흐름이 실행될 때마다 전체 데이터 집합에 대해 다시 생성됩니다.
- 입력 유니온에는 이 필드를 사용할 수 없습니다.
머리글 및 데이터 시작 행 설정
Tableau Prep Builder 버전 2023.3 이상과 웹에서 텍스트(.csv) 파일에 대해 지원되고, 버전 2024.1 이상에서 Excel(.xls) 파일에 대해 지원됩니다.
특정 행을 필드 머리글 행으로 설정하고 Excel 및 텍스트(.csv) 파일에서 데이터가 시작되는 행을 설정할 수 있습니다.
Excel 또는 텍스트 파일에 연결할 때 일반적인 시나리오는 사람이 읽을 수 있도록 파일의 처음 몇 행에 메타 정보가 포함된 형식을 지정하는 것입니다. 기본적으로 Tableau Prep은 CSV 파일의 첫 번째 행을 필드 머리글 행으로 해석합니다. Excel 파일에서는 필드 유형과 빈 행을 기반으로 해석됩니다. Tableau Prep은 행을 머리글로 선택할 수 있습니다. 또는 머리글 행을 포함하지 않을 수 있습니다.
예를 들어 다음 파일에서 STORE DETAILS
가 머리글 행으로 해석됩니다.
(1) 메타데이터 정보를 제외하고 (2) 3행을 머리글로 설정하고 4행을 데이터 시작 행으로 설정하여 데이터의 올바른 스키마 구조를 제공할 수 있습니다.
CSV 파일:
Excel 파일:
예를 들어 다음은 행 머리글 및 시작 행에 대한 기본 설정을 보여줍니다.
다음은 메타데이터가 제외된 데이터를 보여줍니다.
참고: 데이터 미리 보기에는 데이터 샘플 설정의 변경 사항이 반영되지 않습니다.
머리글 및 시작 행 구성
데이터 미리 보기 입력 뷰를 사용하면 데이터의 스키마 구조를 시각적으로 검사하고 머리글 및 시작 행을 설정하여 입력 원본 데이터에서 메타데이터를 제외할 수 있습니다.
데이터 시작 행을 머리글 행 값보다 높은 값으로 설정할 수 있습니다. 기본적으로 Tableau Prep은 데이터 시작 행을 머리글 행 뒤에 이어지는 행 번호로 설정합니다. 머리글 행과 데이터 시작 행 사이의 모든 행은 무시됩니다.
참고: 데이터 미리 보기와 데이터 해석기는 상호 배타적입니다. 데이터 해석기는 Excel 스프레드시트의 하위 테이블만 검색하며 텍스트 파일 및 스프레드시트의 시작 행 지정을 지원하지 않습니다.
- 입력 단계를 선택합니다.
- 툴바에서 데이터 미리 보기 입력 뷰를 클릭합니다.
- 머리글로 설정하려는 행에서 기타 옵션 메뉴를 클릭하고 머리글로 설정을 선택합니다.
- 데이터 시작 행으로 설정하려는 행에서 기타 옵션 메뉴를 클릭하고 데이터 시작으로 설정을 선택합니다. 기본적으로 데이터 시작 행은 그다음에 이어지는 행 번호로 설정됩니다.
머리글 옵션 메뉴에 머리글 행과 데이터 시작 행의 행 번호가 표시됩니다. 선택적으로 머리글 옵션 대화 상자에서 머리글과 시작 행을 직접 설정할 수 있습니다.
단일 파일의 여러 스키마
단일 파일에 여러 데이터 원본이 포함된 경우 동일한 데이터 원본에 연결하여 추가 입력 단계를 만든 다음 두 번째 데이터 원본에 대한 머리글 및 데이터 시작 행을 설정할 수 있습니다. 예를 들어, 다음 파일에는 (1) 행 번호 3에서 시작하는 데이터 원본과 (2) 행 번호 28에서 시작하는 별도의 다른 두 번째 스키마가 포함되어 있습니다.
이러한 유형의 데이터 원본인 경우 다음 단계를 따르십시오.
- 첫 번째 입력 단계를 선택합니다.
- 툴바에서 데이터 미리 보기 입력 뷰를 클릭합니다.
- 머리글로 설정하려는 행에서 기타 옵션 메뉴를 클릭하고 머리글로 설정을 선택합니다.
- 데이터 시작 행으로 설정하려는 행에서 기타 옵션을 클릭하고 데이터 시작으로 설정을 선택합니다. 기본적으로 데이터 시작 행은 그다음에 이어지는 행 번호로 설정됩니다.
- 그 다음 입력 단계를 선택합니다.
- 추가 데이터 원본의 머리글 및 시작 행을 설정하려면 위 단계를 반복합니다.
머리글 행과 데이터 시작 행 사이의 모든 행은 무시됩니다.
다중 테이블 유니온
Tableau Prep Builder 버전 2024.1 이상과 웹에서 텍스트(.csv) 파일에 대해 지원됩니다.
스키마 구조와 메타데이터 행이 동일한 데이터 원본에서 다중 테이블을 유니온할 수 있습니다.
- 파일에 연결하고 첫 번째 입력 단계를 선택합니다.
- 툴바에서 데이터 미리 보기 입력 뷰를 클릭합니다.
- 머리글로 설정하려는 행에서 기타 옵션을 클릭하고 머리글로 설정을 선택합니다.
- 데이터 시작 행으로 설정하려는 행에서 기타 옵션을 클릭하고 데이터 시작으로 설정을 선택합니다.
- 테이블 탭을 클릭하고 다중 테이블 유니온을 선택합니다.
- 적용을 클릭하여 파일을 유니온하고 입력 유니온의 모든 파일에 대한 머리글 및 행 선택을 유지합니다. 이는 유니온된 입력 파일 전체의 파일 구조와 스키마가 동일하다고 가정합니다.
사용자 지정 SQL 쿼리에 연결
데이터베이스가 사용자 지정 SQL 사용을 지원하는 경우 연결 패널의 하단에 사용자 지정 SQL이 표시됩니다. 사용자 지정 SQL을 두 번 클릭하여 사용자 지정 SQL 탭을 여십시오. 이 탭에서 데이터를 사전 선택하는 쿼리를 입력하고 원본별 작업을 사용할 수 있습니다. 쿼리에서 데이터 집합이 검색된 후 흐름에 데이터를 추가하기 전에 포함할 필드를 선택하거나, 필터를 적용하거나, 데이터 유형을 변경할 수 있습니다.
사용자 지정 SQL 사용에 대한 자세한 내용은 사용자 지정 SQL을 사용하여 데이터에 연결을 참조하십시오.
입력 단계에 정리 작업 적용
입력 단계에서는 정리 작업 중 일부만 사용할 수 있습니다. 입력 필드 목록에서 다음과 같은 변경을 수행할 수 있습니다. 변경 사항은 변경 패널에서 추적되고 흐름 패널의 입력 단계 왼쪽과 입력 필드 목록에 주석이 추가됩니다.
- 필드 숨기기: 필드를 제거하는 대신 숨겨서 흐름에서 번잡함을 줄입니다. 언제든지 필요한 경우 숨기기 취소할 수 있습니다. 숨겨진 필드는 흐름을 실행할 때 여전히 출력에 포함됩니다.
- 필터: 계산 에디터를 사용하여 값을 필터링합니다. 버전 2023.1부터는 기준 날짜 필터 대화 상자를 사용하여 모든 날짜 또는 날짜 및 시간 필드에 대한 날짜 범위를 빠르게 지정할 수도 있습니다.
- 필드명 바꾸기: 필드명 필드에서 필드명을 두 번 클릭하거나 Ctrl-클릭(MacOS)하고 새 필드명을 입력합니다.
- 데이터 유형 변경: 필드의 데이터 유형을 클릭하고 메뉴에서 새 데이터 유형을 선택합니다. 이 옵션은 현재 Microsoft Excel, 텍스트 및 PDF 파일, Box, Dropbox, Google 드라이브와 OneDrive 데이터 원본에 대해 지원됩니다. 다른 모든 데이터 원본은 정리 단계에서 변경할 수 있습니다.
흐름에 포함할 필드 선택
참고: 버전 2023.1부터 여러 필드를 선택하여 숨기거나 숨기기 취소하거나 제거하거나 포함할 수 있습니다. 이전 릴리스에서는 한 번에 1개 필드만 작업하거나 확인란을 선택하거나 선택 취소하여 필드를 포함하거나 제거할 수 있었습니다.
입력 패널에 데이터 집합의 필드 목록이 표시됩니다. 기본적으로 자동 생성 필드인 원본 행 번호를 제외한 모든 필드가 포함됩니다. 데이터 미리 보기 또는 목록 뷰를 사용하여 필드를 관리할 수 있습니다.
- 검색: 필드를 찾습니다.
- 필드 숨기기: 흐름 출력에 포함하되 지우지 않으려는 필드를 숨깁니다.
- 필드 목록에서 눈 아이콘을 클릭하거나 기타 옵션 메뉴에서 필드 숨기기를 선택합니다.
- 데이터 미리 보기의 기타 옵션 메뉴에서 필드 숨기기를 선택합니다.
필드는 실행 시간 중에 흐름에 의해 처리됩니다. 필요한 경우 언제든지 필드를 숨기기 취소할 수도 있습니다. 자세한 내용은 필드 숨기기(링크가 새 창에서 열림)를 참조하십시오.
- 필드 포함: 제거된 것으로 표시된 필드를 흐름에 추가합니다.
- 필드 목록에서 하나 이상의 행을 선택하고 마우스 오른쪽 단추 클릭 또는 Cmd 키를 누른 채로 클릭(MacOS)하거나 기타 옵션 메뉴를 클릭하고 필드 포함을 선택하여 제거된 것으로 표시된 필드를 다시 추가합니다.
- 데이터 미리 보기에서 흐름에 포함하려는 필드의 기타 옵션 메뉴를 클릭하고 필드 포함을 선택합니다.
- 필드 제거:
- 필드 목록에서 하나 이상의 행을 선택하고 마우스 오른쪽 단추 클릭 또는 Cmd 키를 누른 채로 클릭(MacOS)하거나 “X”를 클릭하거나 기타 옵션 메뉴를 클릭하고 필드 제거를 선택하여 흐름에 포함하지 않으려는 필드를 제거합니다.
- 데이터 미리 보기에서 제거하려는 필드의 기타 옵션 메뉴를 클릭하고 필드 제거를 선택합니다.
입력 단계의 필드에 필터 적용
입력 단계에서 필터를 적용하면 데이터 원본에서 수집하는 데이터의 양이 줄어듭니다. 흐름을 실행할 때 처리하지 않으려는 데이터를 제거함으로써 대화형 성능을 개선하고 보다 유용한 데이터 샘플을 얻을 수 있습니다.
입력 단계에서 계산 에디터를 사용하여 필터를 적용할 수 있습니다. 버전 2023.1부터는 기준 날짜 필터 대화 상자를 사용하여 날짜와 날짜 및 시간 필드 유형에 포함할 값의 정확한 날짜 범위를 지정할 수도 있습니다. 자세한 내용은 데이터 필터링(링크가 새 창에서 열림)에서 “기준 날짜 필터”를 참조하십시오.
정리 단계 또는 다른 단계 유형에서 다른 필터 옵션을 사용할 수 있습니다. 자세한 내용은 데이터 필터링(링크가 새 창에서 열림)을 참조하십시오.
계산 필터 적용
- 툴바에서 값 필터링을 클릭합니다. 데이터를 필터링할 때는 다음 방법 중 하나를 사용합니다.
필드 목록에서 필드 이름의 기타 옵션 메뉴를 클릭하고 필터 > 계산...을 선택합니다.
데이터 미리 보기에서 필드 이름의 기타 옵션 메뉴를 클릭하고 필터 > 계산...을 선택합니다.
계산 에디터에 필터 조건을 입력합니다.
기준 날짜 필터 적용
- 데이터 유형이 날짜 또는 날짜 및 시간인 필드를 선택하고, 다음 방법 중 하나를 사용하여 기준 날짜 필터를 적용합니다.
- 필드 목록에서 마우스 오른쪽 단추 클릭 또는 Cmd 키를 누른 채로 클릭(MacOS)하거나, 필드 이름 열에서 기타 옵션 메뉴를 클릭하고 필터 > 기준 날짜를 선택합니다.
- 데이터 미리 보기에서 필드의 기타 옵션을 클릭하고 필터 > 기준 날짜를 선택합니다.
기준 날짜 필터 대화 상자에서 흐름에 포함할 정확한 연도, 분기, 월, 주 또는 일 범위를 지정합니다. 또한 특정 날짜에 상대적인 고정 일을 구성할 수 있으며 null 값을 포함할 수 있습니다.
참고: 기본적으로 필터는 흐름이 실행되는 날짜 또는 작성 경험 내에서 흐름을 미리 보는 날짜를 기준으로 작동합니다.
필드명 변경
필드명을 변경하려면 다음 방법 중 하나를 사용하십시오.
주석은 필드 그리드와 입력 단계 왼쪽에 있는 흐름 패널에 추가됩니다. 변경 내용은 변경 패널에서도 추적됩니다.
- 필드 목록의 필드 이름 열에서 필드를 선택하고 필드명 바꾸기를 클릭합니다. 필드에 새 이름을 입력합니다.
- 데이터 미리 보기에서 필드를 선택하고 필드명 바꾸기를 클릭합니다. 필드에 새 이름을 입력합니다.
데이터 유형 변경
현재 Microsoft Excel, 텍스트 및 PDF 파일, Box, Dropbox, Google 드라이브와 OneDrive 데이터 원본에 대해 지원됩니다. 다른 모든 데이터 원본은 정리 단계에서 변경할 수 있습니다.
참고: 원본 행 번호(버전 2023.1 이상)의 데이터 유형은 정리 단계 또는 다른 단계 유형에서만 변경할 수 있습니다.
필드의 데이터 유형을 변경하려면 다음 작업을 수행합니다.
- 필드의 데이터 유형을 클릭합니다.
- 메뉴에서 새 데이터 유형을 선택합니다.
- 데이터 미리 보기:
- 필드 뷰:
흐름에서 다른 단계 유형의 필드에 대한 데이터 유형을 변경하거나 필드 값의 유효성을 확인하는 데 도움이 되는 데이터 역할을 할당할 수도 있습니다. 데이터 유형 변경 또는 데이터 역할 사용에 대한 자세한 정보는 데이터에 할당된 데이터 유형 검토(링크가 새 창에서 열림) 및 데이터 역할을 사용하여 데이터 유효성 확인(링크가 새 창에서 열림)을 참조하십시오.
필드 속성 구성
텍스트 파일로 작업하는 경우 연결을 편집하고 텍스트 파일의 필드 구분 기호와 같은 텍스트 속성을 구성할 수 있는 설정 탭이 표시됩니다. 연결 패널에서 파일 연결을 편집하거나 증분 새로 고침 설정을 구성할 수도 있습니다. 흐름에 대한 증분 새로 고침을 설정하는 것에 대한 자세한 내용은 증분 새로 고침을 사용하여 흐름 데이터 새로 고치기를 참조하십시오.
텍스트 또는 Excel 파일로 작업하는 경우 흐름을 시작하기 전이라도 잘못 유추된 데이터 유형을 수정할 수 있습니다. 흐름을 시작한 후에는 프로필 패널의 후속 단계에서 언제라도 데이터 유형을 변경할 수 있습니다.
텍스트 파일의 텍스트 설정 구성
텍스트 파일을 구문 분석하는 데 사용되는 설정을 변경하려면 다음 옵션 중에서 선택합니다.
첫 번째 행이 머리글 포함(기본값): 첫 번째 행을 필드 레이블로 사용하려면 이 옵션을 선택합니다.
필드명 자동 생성: Tableau Prep Builder가 필드 머리글을 자동으로 생성하게 하려면 이 옵션을 선택합니다. 필드 명명 규칙은 Tableau Desktop과 동일한 모델을 따릅니다. 예를 들어 F1, F2 등이 사용됩니다.
필드 구분 기호: 열을 구분하는 데 사용할 문자를 목록에서 선택합니다. 사용자 지정 문자를 입력하려면 기타를 선택합니다.
텍스트 한정자: 파일에서 값을 둘러싸는 문자를 선택합니다.
문자 집합: 텍스트 파일 인코딩을 설명하는 문자 집합을 선택합니다.
로캘: 파일 구문 분석에 사용할 로캘을 선택합니다. 이 설정은 사용할 소수 자릿수 및 1000단위 구분 기호를 나타냅니다.
데이터 샘플 크기 설정
층화 방식의 행 선택은 Tableau Prep Builder 버전 2023.3 이상에서 지원됩니다.
Tableau Prep은 기본적으로 데이터 집합의 대표 샘플용으로 데이터를 효과적으로 탐색하고 준비하는 데 필요한 최대 행 수를 결정합니다. Tableau Prep 샘플 알고리즘에 따르면 입력 데이터에 필드가 많을수록 허용되는 행 수가 줄어듭니다. 데이터를 샘플링할 때 샘플이 계산되고 반환되는 방식에 따라 결과 샘플에 필요한 모든 행이 포함되거나 포함되지 않을 수 있습니다. 예를 들어 기본적으로 Tableau Prep은 빠른 선택 방법을 사용하여 데이터를 샘플링합니다. 이 방법을 사용하면 상위 행들이 로드되고, 데이터 집합이 크고 데이터가 시간순으로 구조화되어 있는 경우 샘플링된 가장 초기 데이터를 볼 수 있지만 모든 데이터가 완전히 표현되지는 않을 수 있습니다. 필요한 데이터가 보이지 않는 경우 데이터 샘플 설정을 변경하여 쿼리를 다시 실행할 수 있습니다.
웹 작성을 통해 흐름을 만들거나 편집하는 경우, 대규모 데이터 집합을 사용할 때 사용자가 선택할 수 있는 최대 행 수는 관리자가 구성합니다. 자세한 내용은 Tableau Server(링크가 새 창에서 열림) 또는 Tableau Cloud(링크가 새 창에서 열림) 도움말에서 샘플 데이터 및 처리 제한을 참조하십시오.
샘플링을 위한 데이터 준비
특정 값이 분석에 필요하지 않다는 것을 알고 있는 경우, 흐름을 작성하거나 실행할 때 데이터가 포함되지 않도록 입력 단계에서 필드를 제거하십시오.
샘플링을 트리거하는 대규모 데이터 집합이 있는 경우 입력 단계에서 필드를 제거하면 Tableau Prep이 로드하는 행 수가 늘어납니다. 샘플링이 적용되지 않는 경우 입력 단계에서 필드를 제거하면 Tableau Prep이 로드하는 데이터 볼륨이 줄어듭니다.
데이터 집합에서 불필요한 필드와 값을 제거한 후 샘플링을 위해 로드된 데이터의 양이나 샘플링 방법을 변경할 수 있습니다.
데이터 샘플 설정 변경
샘플 데이터는 대화형 환경에 도움이 되며, 작업하는 동안 모든 데이터를 프로파일링하고 더 큰 데이터 집합에 변경 내용을 적용하는 것보다 흐름을 더 효율적으로 편집할 수 있습니다. 흐름을 실행할 때 모든 데이터가 사용됩니다. 샘플 섹션에서 변경한 내용은 현재 흐름에 적용됩니다.
정리 및 변형 후 데이터의 유효성을 검사하려면 흐름을 실행하고 Tableau Desktop에서 출력을 확인하면 됩니다.
참고: 데이터 전체를 볼 수 있도록 "Tableau Desktop에서 샘플 보기" 대신 전체 흐름을 실행하십시오. 샘플에 없었던 예상치 못한 값이나 잘못된 값이 발견되면 Tableau Prep으로 돌아가서 이 문제를 해결하면 됩니다.
- 데이터 집합에서 불필요한 필드와 값을 제거합니다.
- 입력 단계를 선택한 후 데이터 샘플 탭을 클릭합니다.
데이터 샘플링을 위해 로드할 행 수를 선택합니다. 선택한 행 수는 성능에 영향을 미칩니다.
- 자동: (기본값) 데이터를 빠르게 로드하고 충분한 데이터가 샘플에 포함되도록 행 수를 자동으로 계산합니다. 로드되는 행 수는 393,216개 이하입니다.
지정: 일반적으로 데이터 구조를 이해하고 로드 시간을 단축할 수 있도록 소수의 행을 로드하는 데 사용됩니다. 100만 개 미만의 행 수를 지정하십시오.
참고: 웹 작성에서 대규모 데이터 집합을 사용할 때 사용자가 선택할 수 있는 최대 행 수는 관리자가 구성합니다. 사용자는 해당 제한까지 행 수를 선택할 수 있습니다.
- 최대값: 행 선택 시 1,048,576개 이하로 가능한 한 많은 데이터를 로드합니다. 대규모 데이터 집합을 처리할 수 있는 고성능 요구 사항을 충족하는지 확인하십시오.
샘플링용으로 행 수를 반환하는 데 사용할 방법을 선택합니다. 임의 또는 층화를 선택하면 성능에 영향을 줄 수 있습니다.
참고: 행 선택은 입력 데이터 원본이 무작위 샘플링을 지원하는 경우에만 지원됩니다. 데이터 원본이 무작위 샘플링을 지원하지 않는 경우 기본 방법인 빠른 선택이 사용됩니다.
빠른 선택: (기본값) 성능에 기반한 데이터 샘플링으로, 행이 최대한 빨리 반환됩니다. 일부 행은 샘플링에 포함되지 않을 수 있습니다. 샘플링에 사용되는 행은 처음 N개 행이거나 이전 쿼리에서 데이터베이스가 메모리에 캐시한 행일 수 있습니다. 이는 임의 샘플링보다 거의 항상 더 빠른 결과를 도출하지만 편향된 샘플을 반환할 수 있습니다(예: 레코드가 시간순으로 정렬된 경우 데이터에 있는 모든 연도가 아닌 단 1년간의 데이터가 반환됨).
임의: 대규모 데이터 집합을 샘플링하고 선택한 전체 행에 대한 일반적인 표현을 반환할 수 있습니다. Tableau Prep은 로드된 모든 선택 행을 기반으로 임의의 행을 반환합니다. 이 옵션을 사용하면 데이터를 처음 가져올 때 성능에 영향을 미칠 수 있습니다.
- 층화: 지정된 필드별로 그룹화한 다음 각 하위 그룹 내에서 데이터를 샘플링할 수 있습니다. Prep은 가능한 한 균등하게 그룹화하기 위해 요청된 행 수를 선택한 필드 전체로 분산하여 반환합니다. 데이터 원본에 따라 필드의 일부 값에 다른 값보다 더 많은 행이 포함되는 경우도 있습니다.
예
다음 예는 Tableau Prep에 포함된 전 세계 지표 데이터 집합을 기반으로 합니다. 첫 번째 샘플에서는 행 수에 대해 자동을 사용하고 샘플링 방법이나 샘플링에 반환할 행 수에 대해 임의를 사용합니다.
이러한 값을 선택하면 3천 개의 행이 임의로 선택되어 전체 데이터 집합을 나타내는 데 사용됩니다.
두 번째 샘플에서는 행 수에 대해 지정을 사용하고, 샘플링 방법으로 층화를 사용합니다. 지정된 행 수는 값 7로 설정되고 Birth Rate(출생률) 필드가 그룹화에 사용됩니다.
새 샘플 값은 모든 필드에 걸쳐 고유 값을 갖는 7개 행의 통합 분포를 보여줍니다.