Amazon EMR Hadoop Hive

Este artigo descreve como conectar o Tableau a um banco de dados da Amazon EMR (Elastic MapReduce) Hadoop Hive e configurar a fonte de dados.

Observação: a partir da versão 2018.2, o Tableau suporta apenas o Amazon EMR Hadoop Hive, não o Impala. A Amazon não fornece mais drives Impala.

Antes de começar

Antes de começar, colete estas informações de conexão:

  • O nome do servidor que hospeda o banco de dados ao qual deseja se conectar e o número da porta.

  • Método de autenticação:

    • Sem autenticação

    • Kerberos

    • Nome de usuário

    • Nome de usuário e senha

    • Microsoft Azure HDInsight Service (a partir da versão 10.2.1)

  • As opções de transporte dependem do método de autenticação escolhido e podem incluir o seguinte:

    • Binário

    • SASL

    • HTTP

  • As credenciais de logon dependem do método de autenticação escolhido e podem incluir o seguinte:

    • Nome de usuário

    • Senha

    • Escopo

    • FQDN do host

    • Nome do serviço

    • Caminho HTTP

  • Você está se conectando a um servidor SSL?

  • (Opcional) Instrução de SQL Inicial para execução sempre que o Tableau se conecta

Driver necessário

Este conector exige um driver para se comunicar com o banco de dados. Se o driver não estiver instalado no computador, o Tableau exibirá uma mensagem na caixa de diálogo de conexão com um link para a página Download do driver(O link abre em nova janela), na qual é possível encontrar links para o driver e instruções de instalação.

Observação: certifique-se de utilizar os drivers mais recentes disponíveis. Para obter os drivers mais recentes, consulte Amazon EMR Hadoop Hive(O link abre em nova janela) na página de download do Tableau Driver.

Fazer a conexão e configurar a fonte de dados

  1. Inicie o Tableau e, em Conectar, selecione Amazon EMR Hadoop Hive. Para obter uma lista completa de conexões de dados, selecione Mais em Para um servidor. Em seguida, execute estes procedimentos:

    1. Digite o nome do servidor que hospeda o banco de dados e o número da porta a ser usada.

    2. Na lista suspensa Autenticação, selecione o método de autenticação a ser usado. As informações solicitadas dependem do método de autenticação escolhido.

    3. Se a lista suspensa Transporte estiver disponível, selecione o tipo de transporte que deseja usar.

    4. (Opcional) Selecione SQL inicial para especificar um comando SQL a ser executado no início de cada conexão quando você abre a pasta de trabalho, atualiza uma extração, faz logon no Tableau Server ou publica no Tableau Server. Para obter mais informações, consulte Executar o SQL inicial.

    5. Selecione Fazer logon.

      Selecione a opção Exigir SSL quando se conectar a um servidor SSL.

      Se o Tableau não conseguir fazer a conexão, verifique se as suas credenciais estão corretas. Se ainda assim não conseguir se conectar, seu computador está enfrentando problemas para localizar o servidor. Entre em contato com o administrador de banco de dados ou de rede.

  2. Na página da fonte de dados, faça o seguinte: 

    1. (Opcional) Selecione o nome da fonte de dados padrão na parte superior da página e, em seguida, insira um nome de fonte de dados exclusivo para uso no Tableau. Por exemplo, use uma convenção de nomeação de fonte de dados que ajude os outros usuários da fonte de dados a deduzir a qual fonte de dados devem se conectar.

    2. Na lista suspensa Esquema, selecione o ícone de pesquisa ou insira o nome do esquema na caixa de texto e selecione o ícone de pesquisa e, depois, selecione o esquema.

    3. Na caixa de texto Tabela, selecione o ícone de pesquisa ou insira o nome da tabela e selecione o ícone de pesquisa e, depois, selecione a tabela.

    4. Arraste a tabela para a tela e selecione a guia da planilha para iniciar a análise.

    5. Use SQL personalizado para se conectar a uma consulta específica em vez de à fonte de dados inteira. Para obter mais informações, consulte Conectar a uma consulta de SQL personalizado.

Fazer logon em um Mac

Se você usa o Tableau Desktop em um Mac, quando inserir o nome de servidor com o qual se conectar, use um nome de domínio totalmente qualificado, como mydb.test.example.lan, em vez de um nome de domínio relativo, como mydb ou mydb.test.

Como alternativa, é possível adicionar o domínio à lista de Domínios de Pesquisa no computador Mac para que, quando você se conectar, seja necessário fornecer apenas um nome de servidor. Para atualizar a lista de Domínios de Pesquisa, vá para Preferências do Sistema > Rede > Avançado e depois abra a guia DNS.

Trabalhar com dados do Hadoop Hive

Trabalhar com dados de data/hora

O Tableau é compatível com os tipos de TIMESTAMP e DATE nativos. No entanto, se você armazenar os dados de data/hora como uma cadeia de caracteres no Hive, certifique-se de armazená-los no formato ISO (AAAA-MM-DD). Crie um campo calculado que usa a função DATEPARSE ou DATE para converter uma cadeia de caracteres em um formato de data/hora. Use DATEPARSE() ao trabalhar com uma extração, caso contrário, use DATE(). Para obter mais informações, consulte Funções de data.

Para obter mais informações sobre os tipos de dados do Hive, consulte Datas(O link abre em nova janela) no site do Apache Hive.

Valor NULL retornado

Um valor NULL é retornado quando uma pasta de trabalho é aberta no Tableau 9.0.1 e versões posteriores além da versão 8.3.5 e posteriores à 8.3.x criadas em uma versão antiga e que tem dados de data/hora armazenados como cadeia de caracteres em um formato não compatível com o Hive. Para solucionar este problema, altere o campo novamente para Cadeia de caracteres e crie um campo calculado usando DATEPARSE() ou DATE() para converter a data. Use DATEPARSE() ao trabalhar com uma extração, caso contrário, use a função DATE().

Limitação de latência alta

O Hive é um sistema baseado em lotes que ainda não é capaz de responder a consultas simples com tempo de retorno rápido. Essa limitação pode dificultar a exploração de um novo conjunto de dados ou testes com campos calculados. Algumas das tecnologias SQL-on-Hadoop mais novas (por exemplo, o Impala da Cloudera e o projeto Stringer da Hortonworks), foram projetadas para resolver essa limitação.

 

Consulte também

Agradecemos seu feedback!Seu feedback foi enviado. Obrigado!