Amazon EMR Hadoop Hive

이 문서에서는 Tableau를 Amazon EMR(Elastic MapReduce) Hadoop Hive 데이터베이스에 연결하고 데이터 원본을 설정하는 방법에 대해 설명합니다.

참고: 버전 2018.2부터 Tableau는 Amazon EMR Hadoop Hive만 지원하고 Impala는 지원하지 않습니다. Amazon이 더 이상 Impala 드라이버를 제공하지 않습니다.

시작하기 전에

시작하기 전에 다음과 같은 연결 정보를 수집하십시오.

  • 연결하려는 데이터베이스를 호스팅하는 서버의 이름과 포트 번호

  • 인증 방법:

    • 인증 없음

    • Kerberos

    • 사용자 이름

    • 사용자 이름 및 비밀번호

    • Microsoft Azure HDInsight Service(버전 10.2.1부터 지원)

  • 전송 옵션은 선택한 인증 방법에 따라 달라지며 다음을 포함할 수 있습니다.

    • 이진

    • SASL

    • HTTP

  • 로그인 자격 증명은 선택한 인증 방법에 따라 달라지며 다음을 포함할 수 있습니다.

    • 사용자 이름

    • 비밀번호

    • 영역

    • 호스트 FQDN

    • 서비스 이름

    • HTTP 경로

  • SSL 서버에 연결하는지 여부

  • (선택 사항) Tableau가 연결할 때마다 실행할 초기 SQL 문

필요한 드라이버

이 커넥터가 데이터베이스와 통신하려면 드라이버가 필요합니다. 컴퓨터에 드라이버가 설치되어 있지 않으면 연결 대화 상자에 드라이버 링크 및 설치 지침을 찾을 수 있는 드라이버 다운로드(링크가 새 창에서 열림) 페이지에 대한 링크와 함께 메시지가 표시됩니다.

참고: 사용 가능한 최신 드라이버를 사용해야 합니다. 최신 드라이버를 구하려면 Tableau 드라이버 다운로드 페이지에서 Amazon EMR Hadoop Hive(링크가 새 창에서 열림)를 참조하십시오.

연결한 후 데이터 원본 설정

  1. Tableau를 시작하고 연결에서 Amazon EMR Hadoop Hive를 선택합니다. 데이터 연결의 전체 목록을 보려면 서버에 연결 아래에서 자세히를 선택합니다. 그런 후 다음을 수행합니다.

    1. 데이터베이스를 호스팅하는 서버의 이름 및 사용할 포트 번호를 입력합니다.

    2. 인증 드롭다운 목록에서 사용할 인증 방법을 선택합니다. 제공해야 하는 정보는 선택한 인증 방법에 따라 달라집니다.

    3. 전송 드롭다운 목록이 표시되면 사용할 전송 유형을 선택합니다.

    4. (선택 사항) 초기 SQL을 선택하여 통합 문서를 열거나, 추출을 새로 고치거나, Tableau Server에 로그인하거나, Tableau Server에 게시할 때와 같이 모든 연결을 시작할 때 실행할 SQL 명령을 지정합니다. 자세한 내용은 초기 SQL 실행을 참조하십시오.

    5. 로그인을 선택합니다.

      SSL 서버 연결 시 SSL 필요 옵션을 선택합니다.

      연결할 수 없는 경우 자격 증명이 올바른지 확인합니다. 계속 연결할 수 없으면 컴퓨터에서 서버를 찾는 데 문제가 있는 것입니다. 네트워크 관리자나 데이터베이스 관리자에게 문의하십시오.

  2. 데이터 원본 페이지에서 다음을 수행합니다. 

    1. (선택 사항) 페이지 상단에서 기본 데이터 원본 이름을 선택한 다음 Tableau에서 사용할 고유한 데이터 원본 이름을 입력합니다. 예를 들어 데이터 원본을 사용하는 다른 사용자가 어떤 데이터 원본에 연결해야 하는지를 쉽게 알 수 있는 데이터 원본 명명 규칙을 사용하십시오.

    2. 스키마 드롭다운 목록에서 검색 아이콘을 선택하거나, 텍스트 상자에 스키마 이름을 입력하고 검색 아이콘을 선택한 후 해당 스키마를 선택합니다.

    3. 테이블 텍스트 상자에서 검색 아이콘을 선택하거나 테이블 이름을 입력하고 검색 아이콘을 선택한 다음 테이블을 선택합니다.

    4. 테이블을 캔버스로 끌어온 다음 시트 탭을 선택하여 분석을 시작합니다.

    5. 사용자 지정 SQL을 사용하여 전체 데이터 원본이 아니라 특정 쿼리에 연결할 수 있습니다. 자세한 내용은 사용자 지정 SQL 쿼리에 연결을 참조하십시오.

Mac 로그인

Mac에서 Tableau Desktop을 사용할 경우 연결할 서버 이름을 입력할 때 mydb 또는 mydb.test와 같은 상대적인 도메인 이름 대신 mydb.test.ourdomain.lan과 같은 정규화된 도메인 이름을 사용하십시오.

다른 방법으로, Mac 컴퓨터의 도메인 검색 목록에 도메인을 추가합니다. 이렇게 하면 연결할 때 서버 이름만 제공하면 됩니다. 도메인 검색 목록을 업데이트하려면 시스템 환경 설정 > 네트워크 > 고급으로 이동한 후 DNS 탭을 엽니다.

Hadoop Hive 데이터 작업

날짜/시간 데이터 작업

Tableau는 TIMESTAMP 및 DATE 형식을 기본적으로 지원합니다. 하지만 날짜/시간 데이터를 Hive에서 문자열로 저장할 경우 ISO 형식(YYYY-MM-DD)으로 저장해야 합니다. DATEPARSE 또는 DATE 함수를 사용하여 문자열을 날짜/시간 형식으로 변환하는 계산된 필드를 만들 수 있습니다. 추출로 작업할 때는 DATEPARSE() 함수를 사용하고, 그렇지 않은 경우에는 DATE() 함수를 사용하십시오. 자세한 내용은 날짜 함수를 참조하십시오.

Hive 데이터 유형에 대한 자세한 내용은 Apache Hive 웹 사이트에서 Dates(링크가 새 창에서 열림)(날짜)를 참조하십시오.

NULL 값이 반환됨

Tableau 9.0.1 이상 및 8.3.5 이상 8.3.x 릴리스에서 이전 버전에서 만들었으며 날짜/시간이 Hive가 지원하지 않은 문자열 형식으로 저장되어 있는 통합 문서를 열면 NULL 값이 반환됩니다. 이 문제를 해결하려면 필드 유형을 다시 문자열로 변경하고 DATEPARSE() 또는 DATE()를 사용하여 날짜를 변환하는 계산된 필드를 만듭니다. 추출로 작업할 때는 DATEPARSE() 함수를 사용하고, 그렇지 않은 경우에는 DATE() 함수를 사용하십시오.

긴 지연 시간 제한

Hive는 일괄 처리 중심의 시스템으로, 아직 단순한 쿼리에 매우 빠른 응답 속도로 답하지는 못합니다. 이 제한 사항으로 인해 새로운 데이터 집합을 탐색하거나 계산된 필드를 실험하기가 어려울 수 있습니다. 또한 Cloudera의 Impala, Hortonworks의 Stringer 프로젝트 등 이러한 제한 사항을 해결하도록 설계된 최신 SQL-on-Hadoop 기술도 몇 가지 있습니다.

 

참고 항목

피드백을 제공해 주셔서 감사합니다!귀하의 피드백이 제출되었습니다. 감사합니다!