Combinar os dados
A combinação de dados é um método de combinação de dados de várias fontes. A combinação de dados traz informações adicionais de uma fonte de dados secundária e as exibe com dados da fonte de dados primária diretamente na exibição.
A combinação de dados é particularmente útil quando o relacionamento de combinação — campos vinculados — precisa variar em uma base de planilha por planilha ou ao combinar fontes de dados publicadas.
Opções para combinar dados
Há diversas maneiras de combinar dados, cada uma com suas próprias vantagens e desvantagens.
Relacionamentos são o método padrão e podem ser usados na maioria das instâncias, inclusive em tabelas com diferentes níveis de detalhes. Os relacionamentos são flexíveis e se adaptam à estrutura da análise de planilha por planilha. No entanto, você não pode criar relacionamentos entre tabelas de fontes de dados publicadas.
Uniões de colunas combinam tabelas de adicionando mais colunas de dados em estruturas de linha semelhantes. Isso pode causar perda ou duplicação de dados se as tabelas estiverem em diferentes níveis de detalhes, e uniões de coluna devem ser corrigidas antes que a análise possa começar. Você não pode usar uma fonte de dados publicada em uma união de coluna.
Combinações, ao contrário de relacionamentos ou uniões, elas nunca combinam diretamente os dados. Em vez disso, as combinações consultam cada fonte de dados independentemente, agregam os resultados ao nível apropriado e, em seguida, apresentam os resultados juntos visualmente na exibição. Por causa disso, as combinações podem lidar com diferentes níveis de detalhes e também trabalham com fontes de dados publicadas. As combinações não criam uma nova fonte de dados combinada (e, portanto, não podem ser publicadas como uma "fonte de dados combinada"). Em vez disso, eles são simplesmente resultados combinados visualizados por planilha.
Etapas para combinar dados
A combinação de dados é realizada a cada planilha e estabelecida quando um campo de uma segunda fonte de dados é usado na exibição.
Para criar uma combinação em uma pasta de trabalho, você precisa se conectar a pelo menos duas fontes de dados. Em seguida, traga um campo de uma fonte de dados para a planilha — ele se torna a fonte de dados primária. Alterne para a outra fonte de dados e use um campo na mesma planilha — ela se torna uma fonte de dados secundária. Um ícone de vinculação aparecerá no painel de dados, indicando quais campos estão sendo usados para combinar as fontes de dados.
- Verifique se a pasta de trabalho tem várias fontes de dados. A segunda fonte de dados deve ser adicionada acessando Dados > Nova fonte de dados.
Dica: a combinação requer duas ou mais fontes de dados distintas, listadas independentemente no painel Dados. Adicionar outra conexão à primeira fonte de dados permite relacionamentos e uniões na página Fonte de Dados.
- Arraste um campo para a exibição. Esta fonte de dados será a fonte de dados primária.
- Alterne para outra fonte de dados e verifique se há um relacionamento de combinação com a fonte de dados primária.
- Se houver um ícone de campo de vinculação (), as fontes de dados estão automaticamente vinculadas. Desde que haja pelo menos um vínculo ativo, os dados podem ser combinados.
- Se houver ícones de vínculo quebrados (), clique no ícone ao lado do campo que deve vincular as duas fontes de dados. A barra desaparecerá, representando um link ativo.
- Se um ícone de vínculo não aparecer ao lado do campo desejado, consulte Definir relacionamentos de combinação para combinar.
- Arraste um campo para a exibição da fonte de dados secundária.
Assim que essa segunda fonte de dados for usada na mesma exibição, uma combinação será estabelecida. No exemplo abaixo, nossa fonte de dados primária é Adaptações de Filme e a fonte de dados secundária é Livraria
- A fonte de dados primária é indicada com uma marca de seleção azul na fonte de dados. Os campos da fonte de dados primária usados na exibição não têm indicação.
- A fonte de dados secundária é indicada com uma marca de seleção laranja na fonte de dados e uma barra laranja abaixo do lado do painel Dados. Os campos da fonte de dados secundária usados na exibição têm uma marca de seleção laranja.
Compreender as fonte de dados primária e secundária
A combinação de dados requer uma fonte de dados primária e, no mínimo, uma fonte de dados secundária. A primeira fonte de dados usada na exibição torna-se a fonte de dados primária e define a exibição. Isso pode restringir os valores da fonte de dados secundária, ou seja, somente os valores com correspondentes na fonte de dados primárias aparecem na exibição. Isso é comparável a uma união à esquerda.
Por exemplo, se a fonte de dados primária tiver um campo Mês que contenha somente abril, maio e junho, qualquer exibição construída com meses exibirá somente abril, maio e junho, mesmo que a fonte de dados secundária tenha valores para doze meses. Se a análise desejada envolver todos os doze meses, tente alternar qual fonte de dados é primária reconstruindo a planilha e usando a outra fonte de dados primeiro.
Os exemplos a seguir usam as mesmas fontes de dados vinculadas no mesmo campo e a vizualização é construída da mesma maneira. A diferença entre os resultados é devido à fonte de dados designada como primária.
- Aqui, o campo Mês da fonte de dados Chuva é colocado no modo de exibição primeiro. Como Chuva contém apenas três meses, quando o conjunto de dados Pólen é adicionado como secundário, apenas três meses são colocados no modo de exibição.
- Em outra planilha, o campo Mês do conjunto de dados Pólen é colocado no modo de exibição primeiro. Os doze meses são exibidos. Quando o conjunto de dados Chuva é adicionado como um secundário, o Chuva está disponível apenas nos três meses nesse conjunto de dados.
Trabalhar entre fontes de dados combinadas
Devido à natureza de uma mistura de dados, alguns fatores devem ser lembrados ao trabalhar em fontes de dados combinadas.
Executar cálculos com campos de mais de uma fonte de dados pode ser ligeiramente diferente do cálculo comum. Um cálculo deve ser criado em uma única fonte de dados; a parte superior do editor de cálculo indica em qual fonte de dados o cálculo está.
- Agregação. Qualquer campo usado de outra fonte de dados virá com uma agregação, por padrão, é SUM, mas isso pode ser alterado. Como os cálculos não podem misturar argumentos agregados e não agregados, os campos da fonte de dados do host do cálculo também devem ser agregados. (Nas imagens abaixo, a agregação SUM foi adicionada automaticamente e a agregação de soma foi adicionada manualmente.)
- Notação de ponto. Qualquer campo mencionado no cálculo pertencente a outra fonte de dados faz referência a sua fonte de dados usando notação de ponto. (Nas imagens abaixo, para o cálculo criado na Exemplo - Superloja, o campo Sales Target torna-se [Sales.Targets].[Sales Target]. Quando o cálculo é criado em Sales Target, o campo Sales torna-se [Exemplo - Superloja].[Sales].)
- Estas são versões equivalentes do mesmo cálculo construído em cada fonte de dados. Em ambos os casos, isso é SUM(Sales)/SUM(Sales Target).
Além de manipular os cálculos de maneira ligeiramente diferente, há algumas limitações de fontes de dados secundárias. Não é possível classificar por um campo de uma fonte de dados secundária e os filtros de ação não podem funcionar como esperado com dados combinados. Para obter mais informações, consulte Outros problemas com a combinação de dados.
Definir relacionamentos de combinação para combinar
Para que o Tableau saiba como combinar os dados de várias fontes, deve haver uma dimensão ou dimensões comuns entre as fontes de dados. Essa dimensão comum é denominada campo de vinculação. Os campos de vinculação ativa são identificados no painel Dados da fonte de dados secundária com um ícone de vínculo ativo () e os campos de vinculação potencial são identificados com um ícone de vínculo quebrado (). Os campos de vinculação não são indicados na fonte de dados primária.
Por exemplo, em uma combinação de dados transacionais e de cota, um campo geográfico pode ser o campo desejado para que você analise a cota e o desempenho dessa cota para a mesma região.
Observação: para a combinação de função, os campos de vinculação também devem compartilhar valores ou membros. O Tableau cria a exibição de dados combinados com base nos valores compartilhados. Por exemplo, se Cor for o campo de vinculação em ambas as fontes de dados, o Tableau corresponderá a dados em "Violeta" da primária e "Violeta" da secundária. Mas "Azul cl." não será mapeado corretamente para "Azul claro", então um deles precisaria ter novo alias. Da mesma forma, para renomear campos para ajudar o Tableau a identificar os campos de vinculação, você pode editar aliases para membros nesses campos. Para obter mais informações, consulte Criar aliases para renomear membros na exibição.
Estabelecer um link
Se o campo de vinculação nas fontes de dados primárias e secundárias tiver o mesmo nome, o Tableau criará automaticamente a relação. Quando uma fonte de dados primária estiver estabelecida (isto é, um campo em uso na exibição) e a fonte de dados secundária é selecionada no painel Dados, quaisquer campos com o mesmo nome entre as duas fontes de dados exibirão um ícone de vínculo ( ou ) na fonte de dados secundária. Se o campo relacionado da fonte de dados primária é usado na exibição, o link torna-se ativo automaticamente.
Se não houver ícones de vínculo na fonte de dados secundária, talvez seja necessário ajudar o Tableau a estabelecer o vínculo de uma das duas maneiras:
Se as dimensões comuns não tiverem o mesmo nome (como "Título" e "Título do livro"), renomear uma delas permitirá que o Tableau as identifique como dimensões comuns e estabeleça o vínculo.
Como alternativa, você pode definir manualmente uma relação entre os campos nas fontes de dados primárias e secundárias. Veja abaixo mais informações sobre como criar um relacionamento de vínculo manual
Pode haver a quantidade de campos de vinculação ativos ou potenciais necessária. Clique no ícone de vinculação quebrado () no painel de dados para tornar o relacionamento ativo.
Se as dimensões em comum não tiverem o mesmo nome, defina o relacionamento entre elas.
Selecione Dados > Editar relacionamentos de Combinação.
Na caixa de diálogo Relacionamentos de combinação, verifique se a fonte de dados primária está selecionada na lista suspensa Fonte de dados primária.
Selecione a fonte de dados secundária no painel Fonte de dados secundária. Quaisquer relações de combinação automáticas existentes são visíveis (e podem ser excluídas passando o mouse sobre a linha e clicando no x). Selecione Personalizar na lista de relacionamentos e clique em Adicionar.
Na caixa de diálogo Adicionar/Editar Mapeamento de Campo, faça o seguinte:
Selecione um campo na fonte de dados primária.
Selecione um campo comparável na fonte de dados secundária.
Clique em OK.
Neste exemplo, Segmento é mapeado para Segmento de custo.
Dica: para datas, a o relacionamento pode ser especificado precisamente. Expanda o campo de data e selecione o aspecto desejado da data, como data exata, mês, ano etc.
Crie a quantidade de mapeamentos de campo desejada, em seguida, clique em OK.
Vários links
Assim como acontece com relacionamentos ou uniões de colunas, há momentos em que os vínculos entre fontes de dados são definido por mais de um campo. Por exemplo, se as cotas de vendas regionais forem mensais, uma mistura entre dados de vendas transacionais e necessidades de dados de cota deverá ser estabelecida em ambas as regiões e meses, para que os dados corretos sejam reunidos na exibição. Vários vínculos podem estar ativos ao mesmo tempo.
Quando os dados são mesclados com base em vários campos, os valores são incluídos no modo de exibição somente, onde a combinação de dados desses campos corresponde aos dois conjuntos de dados. Veremos um exemplo para entender isso.
Temos duas tabelas, uma para pássaros, que era visualizada por observadores de pássaros, e uma para pássaros que foram relatados como vistos.
e
Se configurarmos uma exibição combinada com os campos Observadores de pássaros e Número de pássaros na fonte de dados primária (Pássaros vistos) e trouxermos o campo Número de relatórios da fonte de dados secundária (Pássaros relatados), o Tableau automaticamente combina em Observadores de pássaros.
Vemos que o observador de pássaros A viu três pássaros e fez dois relatórios, B viu quatro pássaros e fez um relatório, e C viu 8 pássaros e fez dois relatórios.
Mas há outro campo de vinculação possível, Espécies vistas. Por que não combinar isso também? Isso fará diferença?
Faz bastante uma enorme diferença. Agora vemos que há apenas um relatório para os observadores de pássaros A e C, sendo que B tem um nulo. O que está acontecendo?
Parece que esses observadores de pássaros não são muito honestos. Quando eles relataram apenas os avistamentos com base em uma entrada de diário (barras azuis na imagem acima), as espécies que eles relataram não correspondem ao que realmente viram (observe os nulos na segunda coluna, da fonte de dados secundária Pássaros vistos). Quando fizeram a comprovação do relatório com uma fotografia (barras laranja), elas foram honestos (ambas as colunas de Espécies vistas combinaram).
Como os três relatórios não correspondem nas espécies, essas linhas de dados foram removidas quando Espécies vistas foram usadas como um campo de vinculação. A exibição mostra apenas os dados nos quais os valores dos dois campos de vinculação correspondem.
Dica
Tenha cuidado ao vincular em vários campos. Embora seja muito fácil clicar no ícone e estabelecer um vínculo ativo, a vinculação excessiva ou em campos indesejados pode ter um impacto sério na análise.
Diferenças entre uniões e combinação de dados
A combinação de dados simula uma união esquerda tradicional. A diferença principal entre as duas é quando é executada a agregação. Uma união combina os dados e depois os agrega. Uma combinação agrega e combina os dados.
União esquerda
Quando você usa a junção esquerda para combinar os dados, uma consulta é enviada ao banco de dados em que a união é realizada. Uma união à esquerda retorna todas as linhas da tabela esquerda e qualquer linha correspondente da tabela à direita. Os resultados da união são retornados ao Tableau e agregados para exibição na visualização.
Uma união à esquerda leva todas as linhas da tabela esquerda. As colunas comuns são ID de usuário e ID de Patrono; onde há informações correspondentes na tabela à direita, esses dados são retornados. Caso contrário, será nulo.
Suponha que você tenha as mesmas tabelas, mas inverteu a ordem. Essa nova união à esquerda produz resultados diferentes. Novamente, uma união à esquerda leva todos os dados da nova tabela esquerda, mas essencialmente ignora uma linha da tabela direita. A linha de dados para ID do usuário = 4 não está incluída porque não há linha para ID do patrono = 4 na tabela esquerda.
Combinação de dados
Ao usar a combinação de dados para combinar os dados, uma consulta é enviada ao banco de dados de cada fonte de dados usada na planilha. Os resultados das consultas são retornados ao Tableau como dados agregados e apresentados juntos na visualização.
Observação: a agregação de medidas é simples — podemos obter a soma, média, máxima ou outra agregação de um número com facilidade. Os valores de medida são agregados com base em como o campo é agregado na exibição. No entanto, todos os campos de uma fonte de dados secundária devem ser agregados. Como isso funciona para dimensões? Os valores de dimensão são agregados usando a função de agregação ATTR, que retorna um valor único para todas as linhas na fonte de dados secundária. Se houver diversos valores contidos nessas linhas, um asterisco (*) será mostrado. Isso pode ser interpretado como "há vários valores na fonte de dados secundária para esta marca na exibição".
A exibição usa todos os valores da fonte de dados primária (funcionando como a tabela esquerda) e as linhas correspondentes da fonte de dados secundária (a tabela direita) com base no(s) campo(s) de vinculação.
Suponha que você tenha as tabelas a seguir. Se os campos de vinculação forem ID de usuário e ID de patrono, nem todos os valores poderão ser parte da tabela resultante devido ao seguinte:
Uma linha na tabela esquerda não tem uma linha correspondente na tabela direita, como indicado pelo valor nulo nos resultados.
Existem vários valores correspondentes nas linhas da tabela direita, como indicado pelo asterisco (*) nos resultados.
Quando as medidas estão envolvidas, elas também são agregadas, conforme visto abaixo:
Importante: um asterisco (*) em um modo de exibição com dados combinados indica vários valores. Isso pode ser resolvido garantindo que haja apenas um valor correspondente na fonte de dados secundária para cada marca na fonte de dados primária, potencialmente trocando as fontes de dados primárias e secundárias. Para obter mais informações, consulte Solucionar problemas de combinação de dados.
Visão geral da combinação de dados
- A combinação de dados ocorre em uma planilha por vez.
- A ordem em que os campos são usados determina qual fonte de dados é a primária em relação à fonte de dados secundária.
- A fonte de dados primária é indicada com uma marca de seleção azul, quaisquer fontes de dados secundárias e campos de fontes de dados secundárias têm uma marca de seleção laranja.
- Os campos de vinculação podem ser determinados automaticamente com base em nomes de campo compartilhados ou o relacionamento de combinação pode ser criado manualmente.
- A união de dados se comporta de forma semelhante a uma união à esquerda, que pode resultar em dados ausentes da fonte de dados secundária.
- Asteriscos (*) pode ser exibidos. Isso indica vários valores de dimensão em uma única marca, pois a combinação de dados pega os resultados agregados e os combina na exibição.
- Uma fonte de dados secundária pode ser usada para criar novos aliases para os valores de campo em uma fonte de dados primária. Para obter mais informações, consulte Valores do campo de alias usando a combinação de dados.
Limitações da combinação de dados
- Existem algumas limitações da união de dados em relação aos agregados não aditivos, como COUNTD, MEDIAN e RAWSQLAGG. Para obter mais informações, consulte Solucionar problemas de combinação de dados.
- As fontes de dados combinadas não podem ser publicadas como uma unidade. Em vez disso, publique cada fonte de dados separadamente (no mesmo servidor) e combine as fontes de dados publicadas.
- Os dados das fontes de dados secundárias sempre devem ser agregados nos cálculos.
- Se você estiver misturando uma fonte de dados de cubo, ela deverá ser a fonte de dados primária.