Estratégia de dados

Este conteúdo faz parte do Tableau Blueprint, uma estrutura de maturidade que permite ampliar e melhorar a forma como sua organização usa dados para gerar impacto. Para começar sua jornada, faça nossa avaliação(O link abre em nova janela).

Cada organização tem seus próprios requisitos e soluções para a infraestrutura de dados. O Tableau respeita as escolhas das organizações e se integra à estratégia de dados existente. Além do data warehouse corporativo, muitas fontes de dados novas surgem dentro e fora da sua organização: aplicativos e dados na nuvem, bancos de dados de Big Data, bem como repositórios estruturados e não estruturados. De clusters do Hadoop a bancos de dados NoSQL, e muitos outros, o fluxo de dados não precisa mais estar centralizado no data warehouse corporativo (Enterprise Data Warehouse, EDW) como destino final.

A arquitetura moderna de dados é impulsionada por novas exigências dos negócios (velocidade, agilidade, volume) e novas tecnologias. Você escolhe se quer fornecer acesso aos dados existentes ou enriquecer os dados com outras fontes. Some-se isso às soluções em nuvem que permitem que infraestruturas e serviços processem pipelines de dados em questão de horas e temos um processo capaz movimentar os dados por uma organização como nunca havia sido possível. Infelizmente, a nova oportunidade será em grande parte perdida se o manual de gerenciamento de dados da sua organização tiver sido escrito com base na mentalidade tradicional de um só bucket de dados no EDW. O segredo para mudar de uma mentalidade de “bucket” para uma mentalidade de “pipeline” é aceitar que nem todas as questões relacionadas aos dados de uma organização podem ser respondidas por uma única fonte de dados. Consulte abaixo o padrão para uma arquitetura de dados moderna.

Arquitetura de dados moderna

  1. Dados brutos: fontes de dados, por exemplo, dados transacionais carregados na plataforma de dados que geralmente precisam ser transformados de várias maneiras: limpeza, inspeção de PII etc.
  2. Computação para preparação: o processamento dos dados brutos pode exigir uma quantidade considerável de recursos computacionais, de modo que isso vai além da preparação de dados tradicional. Geralmente, é aí que entram os aplicativos de Ciência dos dados. Eles podem criar novos dados de grande valor.
  3. Armazenamento: as plataformas de dados modernas são desenvolvidas com base no princípio de que os dados devem ser armazenados porque você nunca sabe como eles poderão ser usados no futuro. Cada vez mais, armazenamos dados intermediários e os mesmos dados em várias versões e formatos. O armazenamento, portanto, se dá em camadas.
  4. Computação para consulta: o processador de banco de dados para análise típico, incluindo extrações Hyper, mas também Hadoop etc.
  5. Análises: é aí que entra o Tableau.

Arquitetura de dados híbrida do Tableau

A arquitetura de dados híbrida do Tableau oferece duas maneiras de interagir com os dados: conexão em tempo real ou extração na memória. Alternar entre as duas opções é tão simples que basta selecionar a mais adequada para o seu caso de uso.

Conexão em tempo real

Os conectores de dados do Tableau aproveitam sua infraestrutura de dados existente enviando consultas dinâmicas diretamente ao banco de dados de origem, em vez de importar todos os dados. Isso significa que, se você investiu em bancos de dados rápidos e otimizados para análises, pode colher as vantagens desse investimento conectando-se em tempo real aos seus dados. Isso deixa os dados detalhados no sistema de origem e envia os resultados agregados das consultas ao Tableau. Isso significa também que o Tableau pode usar de forma efetiva quantidades ilimitadas de dados. Na verdade, o Tableau é o cliente de análise de front-end de muitos dos maiores bancos de dados do mundo. O Tableau otimizou cada um de seus conectores para aproveitar as características exclusivas de cada fonte de dados.

Extração na memória

Se você tem uma arquitetura de dados baseada em bancos de dados transacionais ou deseja reduzir a carga de trabalho da infraestrutura de dados principal, o Processador de dados do Tableau, com tecnologia Hyper, fornece um armazenamento de dados na memória otimizado para análise. Você pode se conectar aos seus dados e extrai-los para a memória, de modo a realizar consultas no Tableau com um clique. Usar extrações de dados do Tableau pode melhorar consideravelmente a experiência do usuário, reduzindo o tempo necessário para consultar novamente o banco de dados. As extrações, por sua vez, liberam o servidor do banco de dados do tráfego de consulta redundante.

As extrações são uma ótima solução para sistemas transacionais com atividade intensa que não podem arcar com os recursos para consultas frequentes. A extração pode ser atualizada todas as noites e estar disponível para os usuários durante o dia. As extrações também podem ser subconjuntos de dados com base em um número fixo de registros, uma porcentagem do total de registros ou critérios filtrados. O Processador de dados pode inclusive fazer extrações incrementais que atualizam extrações existentes com novos dados. As extrações não se destinam a substituir seu banco de dados, portanto, dimensione corretamente a extração para a análise em questão.

Você pode aproveitar as Extrações se precisar compartilhar suas pastas de trabalho com usuários que não têm acesso direto às fontes de dados subjacentes, por exemplo. As pastas de trabalho em pacote do Tableau (tipo de arquivo .twbx) contêm todas as análises e dados que foram usados para a pasta de trabalho, que se torna portátil, podendo ser compartilhada com outros usuários do Tableau.

Se um usuário publicar uma pasta de trabalho usando uma extração, essa extração também será publicada no Tableau Server ou no Tableau Cloud. Interações futuras com a pasta de trabalho usarão a extração em vez de solicitar dados em tempo real. Se o recurso estiver habilitado, a pasta de trabalho pode ser configurada para solicitar uma atualização automática da extração de forma programada.

Federação de consultas

Quando dados relacionados são armazenados em tabelas em diferentes bancos de dados ou arquivos, você pode usar uma união de colunas entre bancos de dados para combinar as tabelas. Para criar uma união de colunas entre bancos de dados, crie uma fonte de dados do Tableau com várias conexões adicionando cada um dos diferentes bancos de dados (incluindo arquivos de texto e Excel) e conectando-se a eles antes de unir colunas das tabelas. As uniões de colunas entre bancos de dados podem ser usadas com conexões em tempo real ou extrações na memória.

Servidor de dados

Incluído no Tableau Server e no Tableau Cloud, o Servidor de dados fornece compartilhamento e gerenciamento centralizados de extrações e conexões de banco de dados de proxy compartilhado, permitindo fontes de dados governadas, avaliadas e gerenciadas para todos os usuários do Tableau Server ou no Tableau Cloud sem duplicar extrações ou conexões de dados entre as pastas de trabalho.

Como várias pastas de trabalho podem se conectar a uma única fonte de dados, você pode minimizar a proliferação de fontes de dados incorporadas e poupar espaço de armazenamento e tempo de processamento. Quando alguém baixa uma pasta de trabalho que se conecta a uma fonte de dados publicada que, por sua vez, tem uma conexão de extração, a extração permanece no Tableau Server ou no Tableau Cloud, reduzindo o tráfego na rede. Por fim, se uma conexão exigir um driver de banco de dados, você precisará instalar e manter esse driver apenas no Tableau Server, em vez de nos computadores de cada usuário. De modo semelhante, para o Tableau Cloud, os drivers de banco de dados são gerenciados pela Tableau para fontes de dados suportadas.

Usando os casos de uso de dados iniciais coletados de cada equipe, um DBA e/ou Administrador de dados publicará uma fonte de dados certificada para cada fonte de dados identificada para usuários com as permissões adequadas para acessá-la. Os usuários podem se conectar diretamente a uma fonte de dados publicada no Tableau Desktop e no Tableau Server ou no Tableau Cloud.

As Fontes de dados publicadas impedem a proliferação de silos de dados e de dados não confiáveis tanto para extrações, como para conexões em tempo real. Atualizações de extrações podem ser agendadas, e os usuários em toda a organização ficarão sempre em dia com os mesmos dados compartilhados e definições. Uma Fonte de dados publicada pode ser configurada para se conectar diretamente aos dados em tempo real com uma conexão de banco de dados de proxy. Isso significa que sua organização tem uma maneira de gerenciar centralmente conexões de dados, lógica de união de colunas, metadados e campos calculados.

Ao mesmo tempo, para permitir o autoatendimento e a flexibilidade, os usuários podem estender o modelo de dados combinando novos dados ou criando novos cálculos e permitindo que o modelo de dados recém-definido seja entregue à produção de maneira ágil. Os dados gerenciados centralmente não serão alterados, mas os usuários mantêm a flexibilidade.

Fontes de dados certificadas

Os Administradores de banco de dados e/ou Administradores de dados devem certificar as Fontes de dados publicadas para indicar aos usuários que os dados são confiáveis. As fontes de dados certificadas aparecem com um selo de certificação exclusivo no Tableau Server, no Tableau Cloud e no Tableau Desktop. Notas de certificação permitem descrever por que uma determinada fonte de dados é confiável. Essas notas podem ser acessadas no Tableau ao visualizar essa fonte de dados e quem a certificou. As fontes de dados certificadas recebem tratamento preferencial nos resultados de pesquisa e se destacam nas listas de fontes de dados no Tableau Server, no Tableau Cloud e no Tableau Desktop. Os líderes do projeto, administradores de site do Tableau Cloud e administradores de site e do Tableau Server têm permissão para certificar fontes de dados. Para mais informações, visite Fontes de dados certificadas.

Segurança dos dados

A segurança dos dados é de suma importância em qualquer negócio. O Tableau permite que os clientes aproveitem e expandam as implementações de segurança de dados existentes. Administradores de TI têm a flexibilidade de implementar segurança no próprio banco de dados com a autenticação de banco de dados, no Tableau com permissões ou usando uma abordagem híbrida com ambos. A segurança será reforçada independentemente de os usuários estarem acessando os dados de exibições publicadas na Web, em dispositivos móveis ou por meio do Tableau Desktop e do Tableau Prep Builder. Os clientes muitas vezes preferem a abordagem híbrida por conta de sua flexibilidade ao lidar com diferentes tipos de casos de uso. Comece estabelecendo uma classificação de segurança de dados para definir os diferentes tipos de dados e níveis de sensibilidade existentes em sua organização.

Ao usar a segurança do banco de dados, é importante observar que o método escolhido para autenticação no banco de dados é essencial. Esse nível de autenticação é separado da autenticação do Tableau Server ou do Tableau Cloud (ou seja, quando um usuário faz logon no Tableau Server ou no Tableau Cloud, ele ainda não está fazendo logon no banco de dados). Isso significa que usuários do Tableau Server e do Tableau Cloud também deverão ter credenciais (nome de usuário/senha próprios ou nome de usuário/senha da conta de serviço) para se conectarem ao banco de dados para que a segurança nesse nível seja aplicada. Para proteger ainda mais seus dados, o Tableau precisa apenas de credenciais de acesso de leitura para o banco de dados, o que impede que publicadores alterem acidentalmente os dados subjacentes. Como alternativa, em alguns casos, é útil dar permissão ao usuário do banco de dados para criar tabelas temporárias. Isso pode ter tanto vantagens de desempenho quanto de segurança, pois os dados temporários são armazenados no banco de dados, em vez de no Tableau. Para o Tableau Cloud, você precisa inserir credenciais para usar atualizações automáticas nas informações de conexão da fonte de dados. Para fontes de dados do Google e da Salesforce.com, você pode inserir credenciais no formulário dos tokens de acesso do OAuth 2.0.

A criptografia de extrações em repouso é um recurso de segurança que permite que você criptografe extrações .hyper enquanto elas estão armazenadas no Tableau Server. Os administradores do Tableau Server podem aplicar a criptografia de todas as extrações no site ou permitir que os usuários especifiquem a criptografia de todas as extrações associadas a determinadas pastas de trabalho ou fontes de dados publicadas. Para obter mais informações, consulte Criptografia de extrações em repouso.

Se sua organização estiver implantando a Criptografia de extração de dados em repouso, você tem a opção de configurar o Tableau Server para usar a AWS como o KMS para extrair a criptografia. Para ativar o KMS da AWS ou do Azure, implante o Tableau Server na AWS ou no Azure, respectivamente, e licencie-se no Advanced Management for Tableau Server. No cenário da AWS, o Tableau Server usa a chave principal do cliente (CMK) do KMS da AWS para gerar uma chave de dados da AWS. O Tableau Server usa a chave de dados da AWS como chave raiz principal para todas as extrações criptografadas. No cenário do Azure, o Tableau Server usa o Azure Key Vault para criptografar a chave raiz principal (RMK) para todas as extrações criptografadas. No entanto, mesmo quando configurado para a integração do KMS da AWS ou do Azure, o keystore do Java nativo e o KMS local continuam sendo usados para armazenamento seguro de segredos no Tableau Server. O KMS da AWS ou do Azure é usado apenas a fim de criptografar a chave raiz principal para extrações criptografadas. Para obter mais informações, consulte Sistema de gerenciamento de chaves.

Para o Tableau Cloud, todos os dados são criptografados em repouso por padrão. No entanto, com o Advanced Management for Tableau Cloud, é possível ter mais controle sobre a rotação e a auditoria de chaves utilizando as chaves de criptografia gerenciadas pelo cliente. As chaves de criptografia gerenciadas pelo cliente oferecem um nível extra de segurança, o que permite criptografar as extrações de dados do seu site com uma chave específica do site gerenciada pelo cliente. A instância do Salesforce Key Management System (KMS) armazena a chave de criptografia padrão específica do site para qualquer pessoa que habilite a criptografia em um site. O processo de criptografia segue uma hierarquia de chaves. Primeiro, o Tableau Cloud criptografa uma extração. Em seguida, o KMS do Tableau Cloud verifica seus caches de chaves em busca de uma chave de dados adequada. Se ela não é encontrada, uma nova é gerada pela API GenerateDataKey do KMS por meio da permissão concedida pela política de chaves associada à chave. O KMS da AWS usa a CMK para gerar uma chave de dados e retorna uma cópia em texto simples e uma cópia criptografada para o Tableau Cloud. O Tableau Cloud usa a cópia em texto simples da chave de dados para criptografar os dados e armazena a cópia criptografada com os dados criptografados.

Você pode limitar quais usuários veem quais dados definindo filtros de usuário em fontes de dados no Tableau Server e no Tableau Cloud. Isso lhe dá mais controle sobre quais dados os usuários podem ver em uma exibição publicada com base na conta com que eles fazem logon no Tableau Server. Usando essa técnica, uma gerente regional pode visualizar dados para a região dela, mas não dados de outros gerentes regionais. Com essas abordagens de segurança dos dados, você pode publicar uma única visualização ou painel capaz de fornecer dados e análises personalizados e seguros a uma ampla seleção de usuários no Tableau Cloud e no Tableau Server. Para saber mais, confira Segurança de dados e Restrição de acesso no nível de linha de dados. Se a segurança em nível de linha for fundamental para seu caso de uso de análise, com o Tableau Data Management, você pode aproveitar as conexões virtuais com políticas de dados para implementar a filtragem de usuários em escala. Para saber mais, confira Conexões virtuais e políticas de dados.

Agradecemos seu feedback!Seu feedback foi enviado. Obrigado!