Cloudera Hadoop

Este artigo descreve como conectar o Tableau a um banco de dados do Cloudera Hadoop e configurar a fonte de dados.

Observação: para novas conexões com os bancos de dados Impala, use o conector Impala em vez deste. (Você pode continuar usando este conector para conexões existentes.)

Antes de começar

Antes de começar, colete estas informações de conexão:

  • O nome do servidor que hospeda o banco de dados ao qual deseja se conectar e o número da porta.

  • Tipo de banco de dados: Hive Server 2 ou Impala

  • Método de autenticação:

    • Sem autenticação

    • Kerberos

      Observação: devido às restrições do Kerberos Domain Controller (KDC), a conexão com o MIT Kerberos não é compatível.

    • Nome de usuário

    • Nome de usuário e senha

    • Microsoft Azure HDInsight Service (a partir da versão 10.2.1)

  • As opções de transporte dependem do método de autenticação escolhido e podem incluir o seguinte:

    • Binário

    • SASL

    • HTTP

  • As credenciais de logon dependem do método de autenticação escolhido e podem incluir o seguinte:

    • Nome de usuário

    • Senha

    • Escopo

    • FQDN do host

    • Nome do serviço

    • Caminho HTTP

  • Você está se conectando a um servidor SSL?

  • (Opcional) Instrução de SQL Inicial para execução sempre que o Tableau se conecta

Driver necessário

Este conector exige um driver para se comunicar com o banco de dados. Você talvez já tenha esse driver instalado no computador. Se o driver não estiver instalado no computador, o Tableau exibirá uma mensagem na caixa de diálogo de conexão com um link para a página Download do driver(O link abre em nova janela), na qual é possível encontrar links para o driver e instruções de instalação.

Observação: certifique-se de utilizar os drivers mais recentes disponíveis. Para obter os drivers mais recentes, consulte Cloudera Hadoop(O link abre em nova janela) na página Download do driver.

Fazer a conexão e configurar a fonte de dados

  1. Inicie o Tableau e, em Conectar, selecione Cloudera Hadoop. Para obter uma lista completa de conexões de dados, selecione Mais, em A um servidor. Em seguida, execute estes procedimentos:

    1. Digite o nome do servidor que hospeda o banco de dados e o número da porta a ser usada. Caso esteja conectando-se com o Cloudera Impala, você deve usar a porta 21050. Essa é a porta padrão caso esteja usando o driver 2.5.x (recomendado).

    2. Na lista suspensa Tipo, selecione o tipo de banco de dados ao qual você deseja conectar-se. Dependendo da versão do Hadoop e dos drivers que você instalou, é possível se conectar a um dos seguintes:

      • Hive Server 2

      • Impala

    3. Na lista suspensa Autenticação, selecione o método de autenticação para ser usado.

    4. Insira as informações solicitadas. As informações solicitadas dependem do método de autenticação escolhido.

    5. (Opcional) Selecione SQL inicial para especificar um comando SQL a ser executado no início de cada conexão quando você abre a pasta de trabalho, atualiza uma extração, faz logon no Tableau Server ou publica no Tableau Server. Para obter mais informações, consulte Executar o SQL inicial.

    6. Selecione Fazer logon.

      Selecione a opção Exigir SSL quando se conectar a um servidor SSL.

      Se o Tableau não conseguir fazer a conexão, verifique se as suas credenciais estão corretas. Se ainda assim não conseguir se conectar, seu computador está enfrentando problemas para localizar o servidor. Entre em contato com o administrador de banco de dados ou de rede.

  2. Na página da fonte de dados, faça o seguinte: 

    1. (Opcional) Selecione o nome da fonte de dados padrão na parte superior da página e, em seguida, insira um nome de fonte de dados exclusivo para uso no Tableau. Por exemplo, use uma convenção de nomeação de fonte de dados que ajude os outros usuários da fonte de dados a deduzir a qual fonte de dados devem se conectar.

    2. Na lista suspensa Esquema, selecione o ícone de pesquisa ou insira o nome do esquema na caixa de texto e selecione o ícone de pesquisa e, depois, selecione o esquema.

    3. Na caixa de texto Tabela, selecione o ícone de pesquisa ou insira o nome da tabela e selecione o ícone de pesquisa e, depois, selecione a tabela.

    4. Arraste a tabela para a tela e selecione a guia da planilha para iniciar a análise.

      Use SQL personalizado para se conectar a uma consulta específica em vez de à fonte de dados inteira. Para obter mais informações, consulte Conectar a uma consulta de SQL personalizado.

      Observação: este tipo de banco de dados só é compatível com operações de união do tipo igual (=).

Fazer logon em um Mac

Se você usa o Tableau Desktop em um Mac, quando inserir o nome de servidor com o qual se conectar, use um nome de domínio totalmente qualificado, como mydb.test.example.lan, em vez de um nome de domínio relativo, como mydb ou mydb.test.

Como alternativa, é possível adicionar o domínio à lista de Domínios de Pesquisa no computador Mac para que, quando você se conectar, seja necessário fornecer apenas um nome de servidor. Para atualizar a lista de Domínios de Pesquisa, vá para Preferências do Sistema > Rede > Avançado e depois abra a guia DNS.

Trabalhar com dados do Hadoop Hive

Trabalhar com dados de data/hora

O Tableau é compatível com os tipos de TIMESTAMP e DATE nativos. No entanto, se você armazenar os dados de data/hora como uma cadeia de caracteres no Hive, certifique-se de armazená-los no formato ISO (AAAA-MM-DD). Crie um campo calculado que usa a função DATEPARSE ou DATE para converter uma cadeia de caracteres em um formato de data/hora. Use DATEPARSE() ao trabalhar com uma extração, caso contrário, use DATE(). Para obter mais informações, consulte Funções de data.

Para obter mais informações sobre os tipos de dados do Hive, consulte Datas(O link abre em nova janela) no site do Apache Hive.

Valor NULL retornado

Um valor NULL é retornado quando uma pasta de trabalho é aberta no Tableau 9.0.1 e versões posteriores além da versão 8.3.5 e posteriores à 8.3.x criadas em uma versão antiga e que tem dados de data/hora armazenados como cadeia de caracteres em um formato não compatível com o Hive. Para solucionar este problema, altere o campo novamente para Cadeia de caracteres e crie um campo calculado usando DATEPARSE() ou DATE() para converter a data. Use DATEPARSE() ao trabalhar com uma extração, caso contrário, use a função DATE().

Limitação de latência alta

O Hive é um sistema baseado em lotes que ainda não é capaz de responder a consultas simples com tempo de retorno rápido. Essa limitação pode dificultar a exploração de um novo conjunto de dados ou testes com campos calculados. Algumas das tecnologias SQL-on-Hadoop mais novas (por exemplo, o Impala da Cloudera e o projeto Stringer da Hortonworks), foram projetadas para resolver essa limitação.

Consulte também

Agradecemos seu feedback!