PDF 파일
이 문서에서는 Tableau를 .pdf 파일 데이터에 연결하고 데이터 원본을 설정하는 방법에 대해 설명합니다.
참고: Tableau는 오른쪽에서 왼쪽(RTL)으로 쓰는 언어를 지원하지 않습니다. PDF에 RTL 텍스트가 포함된 경우 Tableau에서 문자가 역순으로 표시될 수 있습니다.
연결한 후 문서에서 테이블 검사
Tableau를 연 후 연결에서 PDF 파일을 클릭합니다.
연결하려는 파일을 선택하고 열기를 클릭합니다.
PDF 파일 검사 대화 상자에서 테이블을 검사할 파일의 페이지를 지정합니다. 모든 페이지, 단일 페이지 또는 페이지 범위에서 테이블을 검사하도록 선택할 수 있습니다.
참고: 이 검사에서는 대부분의 PDF Reader와 마찬가지로 파일의 첫 번째 페이지를 페이지 1로 계산합니다. 테이블을 검사할 때 PDF Reader가 표시하는 페이지 번호를 지정하십시오. 문서 자체에서 사용되는 페이지 번호는 1부터 시작하지 않을 수도 있기 때문에 이 번호를 지정해서는 안 됩니다.
예를 들어 아래 이미지에서 "Table 1"을 사용한다고 가정합니다. PDF Reader가 표시하는 번호와 .pdf 파일에 표시되는 번호가 서로 다릅니다. 이 테이블을 올바르게 검사하려면 PDF Reader에 표시되는 페이지 번호를 지정하십시오. 이 예에서는 페이지 15를 지정합니다.
데이터 원본 페이지에서 다음을 수행합니다.
(선택 사항) 페이지 상단에서 기본 데이터 원본 이름을 선택한 다음 Tableau에서 사용할 고유한 데이터 원본 이름을 입력합니다. 예를 들어 데이터 원본을 사용하는 다른 사용자가 어떤 데이터 원본에 연결해야 하는지를 쉽게 알 수 있는 데이터 원본 명명 규칙을 사용하십시오. 기본 이름은 파일 이름을 기준으로 자동 생성됩니다.
파일에 테이블 하나가 포함되어 있는 경우 시트 탭을 클릭하여 분석을 시작합니다. 그렇지 않은 경우 왼쪽 패널에서 테이블을 캔버스로 끌어 놓은 다음 시트 탭을 클릭하여 분석을 시작합니다.
왼쪽 패널의 테이블 정보
.pdf 파일에서 식별된 테이블에는 고유한 이름이 지정되며 검사 후 왼쪽 패널에 표시됩니다. 예를 들어 표시되는 테이블 이름이 "Page 1, Table 1"일 수 있습니다. 테이블 이름의 첫 번째 부분은 테이블을 가져온 .pdf 파일의 페이지를 나타냅니다. 테이블 이름의 두 번째 부분은 테이블이 식별된 순서를 나타냅니다. Tableau가 페이지에서 두 개 이상의 테이블을 식별한 경우 테이블 이름의 두 번째 부분은 다음 두 가지 중 하나를 나타낼 수 있습니다.
- Tableau가 페이지에서 다른 고유한 테이블 또는 하위 테이블을 식별했습니다.
- Tableau가 페이지의 테이블을 다른 방식으로 해석했습니다. Tableau는 .pdf 파일에서 테이블이 표시되는 방식에 따라 테이블을 여러 형태로 해석할 수 있습니다.
PDF 파일 데이터 원본 예
다음은 PDF 파일 데이터 원본의 예입니다.
추가 데이터 가져오기
더 많은 테이블을 추가하거나 다른 데이터베이스의 데이터에 연결하여 데이터 원본에 추가 데이터를 가져옵니다.
현재 파일에서 다른 데이터 추가:
다른 데이터베이스에서 더 많은 데이터 추가: 왼쪽 패널에서 연결 옆에 있는 추가를 클릭합니다. 자세한 내용은 데이터 조인을 참조하십시오.
필요한 커넥터가 왼쪽 패널의 목록에 없는 경우 데이터 > 새 데이터 원본을 선택하여 새 데이터 원본을 추가합니다. 자세한 내용은 데이터 혼합을 참조하십시오.
테이블 옵션 설정
테이블 옵션을 설정할 수 있습니다. 캔버스에서 테이블의 드롭다운 화살표를 클릭하여 데이터의 첫 번째 행에 필드 이름을 포함할지 여부를 지정합니다. 이 경우 해당하는 이름이 Tableau에서 필드명이 됩니다. 필드명이 포함되어 있지 않으면 Tableau가 자동으로 필드명을 생성합니다. 나중에 필드명을 바꿀 수 있습니다.
데이터 해석기를 사용하여 데이터 지우기
분석할 데이터 원본을 최적화할 수 있는 경우 데이터 해석기를 사용하라는 메시지가 표시됩니다. 데이터 해석기는 하위 테이블을 검색하며, 이 하위 테이블을 사용하여 분석의 후속 단계에서 문제를 일으킬 수 있는 고유한 서식을 제거할 수 있습니다. 자세한 내용은 데이터 해석기를 사용하여 Excel, CSV, PDF 및 Google 스프레드시트의 데이터 정리를 참조하십시오.
.pdf 파일에서 테이블 유니온
파일에서 테이블을 유니온할 수 있습니다. 유니온에 대한 자세한 내용은 데이터 유니온을 참조하십시오.
와일드카드 검색을 사용하여 테이블을 유니온할 경우 결과가 연결한 초기 파일에서 검사한 페이지로 한정됩니다. 예를 들어 세 개의 파일 A.pdf, B.pdf 및 C.pdf가 있다고 가정합니다. 연결하는 첫 번째 파일은 A이고 테이블 검색을 1페이지로 한정합니다. 와일드카드 검색을 사용하여 B 및 C 파일의 테이블을 유니온할 경우 통합에 포함되는 추가 테이블은 B의 1페이지와 C의 1페이지에서만 가져올 수 있습니다.
.pdf 파일 작업을 위한 팁
Tableau에서 .pdf 파일로 작업할 때 다음과 같은 팁이 도움이 될 수 있습니다.
PDF 파일 커넥터를 사용하여 .pdf 파일의 테이블만 식별합니다.
PDF 파일 커넥터의 주 목표는 .pdf 파일에서 테이블을 찾아 식별하는 것입니다. 따라서 제목, 캡션, 각주를 비롯한 테이블의 일부로 나타나지 않는 파일의 다른 모든 정보를 무시합니다. 관련 데이터가 이러한 영역(예: 테이블 제목) 중 하나에 저장된 경우 먼저 Tableau를 사용하여 .pdf 파일 데이터를 .csv 파일로 내보내고 테이블 제목에 저장된 데이터를 수동으로 추가한 다음 대신 .csv 파일에 연결할 수 있습니다. 자세한 내용은 .csv 파일로 데이터 내보내기를 참조하십시오.
표준 테이블을 사용합니다.
일반적으로 Tableau는 테이블 형식을 사용하는 표준 테이블에서 가장 잘 작동합니다.
이상적인 경우, 아래 예에서 볼 수 있는 것처럼 .pdf 파일의 테이블에는 한 줄에 열 머리글이 있고 한 줄에 행 값이 있습니다.
테이블 내부나 둘레에 사용되는 색상 및 음영은 테이블이 식별되는 방식에 영향을 줄 수 있습니다.
고유한 서식이 지정된 테이블에는 Tableau 외부에서 수동 편집이나 정리 작업이 필요할 수 있습니다. 아래에 표시된 예에서 볼 수 있는 것처럼, 고유한 서식에는 계층적 머리글, 여러 줄에 걸쳐있는 머리글 이름, 여러 줄에 걸쳐있는 행 값, 기울어진 머리글 및 누적 테이블이 포함될 수 있습니다.
참고: Tableau는 스캐닝(광학 문자 인식) 소프트웨어에서 생성된 .pdf 파일에 대한 연결을 지원하지 않습니다.
데이터의 유효성을 확인합니다.
Tableau가 .pdf 파일에서 식별하는 테이블 데이터의 유효성을 확인해야 합니다. 데이터 격자를 사용하거나 데이터 해석기를 사용한 경우 결과 통합 문서를 사용하여 데이터의 유효성을 확인할 수 있습니다.
테이블이 여러 페이지에 걸쳐 표시되지 않도록 방지합니다.
.pdf 파일에 여러 페이지에 걸쳐 있는 테이블이 포함되어 있는 경우 Tableau는 해당 테이블을 여러 개의 테이블로 해석합니다. 이 문제를 해결하려면 유니온을 사용하여 테이블을 결합하십시오. 자세한 내용은 데이터 유니온을 참조하십시오.
파일 이름에 유니코드 문자가 포함된 .pdf 파일의 이름을 바꿉니다.
파일 이름에 유니코드 문자가 포함된 .pdf 파일에 연결하면 다음 오류가 표시될 수 있습니다.
이 문제를 해결하려면 유니코드가 아닌 문자를 사용하여 파일 이름을 바꾸고 .pdf 파일에 다시 연결합니다.
암호로 보호된 .pdf 파일을 사용하지 마십시오.
.pdf 파일에 연결한 후 테이블을 검사하면 다음 오류가 표시될 수 있습니다.
Tableau는 .pdf 파일이 암호로 보호되어 있어 내용에 액세스할 수 없는 경우 이 오류를 표시합니다. Tableau는 암호로 보호된 .pdf 파일에 대한 연결을 지원할 수 없습니다.
다르게 해석되거나 잘못 해석되는 별칭 값
데이터 격자에서 일부 값이 .pdf 파일과 다르게 해석된다는 것을 알 수 있습니다. 필드 내에서 별칭을 사용하여 특정 값의 이름을 바꿔 이 해석을 수정할 수 있습니다.
예를 들어 .pdf 파일에 연결한 후 다음과 같은 테이블이 표시된다고 가정합니다. 일부 시/도 약어는 소문자 형식으로 해석되며 파란색으로 하이라이트됩니다.
별칭을 사용하여 소문자 약어를 대문자 약어로 변경하여 이 문제를 해결할 수 있습니다. 이렇게 하려면 열 이름 옆에 있는 드롭다운 화살표를 클릭한 다음 별칭을 선택합니다.
테이블 값으로 해석되는 열 머리글을 해결합니다.
데이터 격자에서 .pdf 파일의 일부 열 머리글은 대신 테이블 값으로 해석된다는 것을 알 수 있습니다. .pdf 파일에 고유한 서식이나 계층적 머리글이 있는 테이블이 포함된 경우 이 문제가 발생할 수 있습니다. 이 시나리오에서는 먼저 데이터 해석기를 사용해 보십시오. 데이터 해석기로 문제가 해결되지 않으면 수동으로 열 이름을 적절한 이름으로 바꾸고 데이터 원본 필터를 사용하여 값으로 처리될 머리글 이름을 필터링하는 것이 좋습니다.
예를 들어 .pdf 파일에 연결한 후 다음과 같은 테이블이 표시된다고 가정합니다. .pdf 파일의 테이블 머리글이 테이블 값으로 해석되며, 파란색으로 하이라이트되어 있습니다.
이와 같은 머리글 문제를 해결할 수 있는 한 가지 방법은 다음과 유사한 단계를 따르는 것입니다.
열 이름을 두 번 클릭한 다음 이름을 F1에서 Year로 바꿉니다. F2~F4에 대해 이 단계를 반복하여 이름을 각각 Coal, Gas 및 Oil로 바꿉니다.
Year 열의 데이터 유형 아이콘을 클릭하고 숫자 데이터 유형으로 변경합니다. 이렇게 하면 이 열에서 숫자가 아닌 값이 null 값으로 변환됩니다.
데이터 원본 페이지의 오른쪽 위에서 추가를 클릭하고, 추가 단추를 클릭한 다음 Year 필드를 선택합니다.
필터 대화 상자에서 Null 및 제외 확인란을 모두 선택합니다.
Year 열에서 null 값을 포함하는 행이 데이터 격자에서 제거되며, 테이블의 다른 열에 있는 행도 영향을 받습니다.
.ttde 및 .hhyper 파일 정보
컴퓨터의 디렉터리를 탐색할 때 .ttde 또는 .hhyper 파일에 주의해야 합니다. 데이터에 연결하는 Tableau 데이터 원본을 만드는 경우 Tableau가 .ttde 또는 .hhyper 파일을 만듭니다. 섀도 추출이라고도 알려진 이 파일을 사용하여 Tableau Desktop에서 데이터 원본 로드 속도를 향상시킬 수 있습니다. 섀도 추출은 표준 Tableau 추출과 유사하게 기초 데이터 및 기타 정보를 포함하지만 다른 형식으로 저장되며 데이터 복구에 사용할 수 없습니다.
참고: 2024.2 이후의 Tableau 버전에서는 .tde 파일이 더 이상 지원되지 않습니다. 이제 모든 추출은 .hyper 형식입니다.
참고 항목
- 데이터 원본 설정 – 이 데이터 원본에 더 많은 데이터를 추가하거나 데이터를 분석할 수 있도록 준비합니다.
- 차트 작성 및 데이터 분석 – 데이터 분석을 시작합니다.