Encontrar clusters em dados

Aplica-se a: Tableau Desktop, Tableau Public

Divida as marcas de partição de análise em clusters na exibição, fazendo com que as marcas em cada cluster sejam mais semelhantes umas às outras do as em outros clusters.

Uma matriz de gráficos de dispersão com Clusters na divisória Cor.

Para ver um exemplo que ilustra o processo de criação de clusters com dados de amostra, consulte Exemplo: criar clusters usando dados de indicadores econômicos mundiais.

Criar clusters

Para localizar clusters a uma exibição no Tableau, siga estas etapas.

Crie uma exibição.
Arraste Cluster do painel Análise para a exibição e solte na área de destino na exibição:
Ou clique duas vezes em Cluster para localizar clusters na exibição.
Quando você solta o Cluster ou clica duas vezes nele:
- O Tableau cria um grupo de Clusters em Cor e colore as marcas em sua exibição por cluster. Se já houver um campo em Cor, o Tableau moverá o campo para Detalhe e o substituirá em Cor pelos resultados do clustering.
  O Tableau atribui cada marca na exibição a um dos clusters. Em alguns casos, as marcas que não se encaixam bem em um cluster são atribuídas a um cluster chamado "Fora do cluster".
- O Tableau exibe a caixa de diálogo Clusters, na qual é possível personalizar o cluster.
Personalize os resultados do cluster executando uma das seguintes ações na caixa de diálogo Clusters:
- Arraste novos campos do painel Dados para a área Variáveis da caixa de diálogo Clusters. Você também pode arrastar os campos para fora da área Variáveis para removê-los.
  Quando você adiciona variáveis, as medidas são agregadas usando a agregação padrão para o campo. As dimensões são agregadas usando ATTR, que é a forma padrão pela qual o Tableau agrega as dimensões.
  Para alterar a agregação de uma variável, clique com o botão direito do mouse nela.
- Especifique o número de clusters (entre 2 e 50). Se um valor não for definido, o Tableau criará automaticamente até 25 clusters.
Quando terminar de personalizar os resultados do cluster, clique no X no canto superior direito da caixa de diálogo Clusters para fechá-la:

Observação: você pode mover o campo do cluster de Cor para outra divisória na exibição. No entanto, você não pode mover o campo de cluster da divisória Filtros até o painel Dados.

Para renomear os clusters resultantes, primeiro salve o cluster como um grupo. Para obter detalhes, consulte Criar um grupo dos resultados do cluster e Editar clusters.

Restrições de clustering

O clustering está disponível no Tableau Desktop, mas não está disponível para criação na Web (Tableau Server, Tableau Cloud). O clustering também não estará disponível quando qualquer condição a seguir for aplicável:

Quando você estiver usando uma fonte de dados de cubo (multidimensional).
Quando houver uma dimensão combinada na exibição.
Quando não houver campos que possam ser usados como variáveis (entradas) para clustering na exibição.
Quando não houver dimensões presentes em uma exibição agregada.

Quando qualquer uma dessas condições for aplicável, você não poderá arrastar Clusters do painel Análise até a exibição.

Além disso, os tipos de campo a seguir não podem ser usados como variáveis (entradas) para clustering:

Cálculos de tabela
Cálculos unificados
Cálculos ad-hoc
Valores de latitude/longitude gerados
Grupos
Conjuntos
Compartimentos
Parâmetros
Datas
Nomes de medida/Valores de medida

Editar clusters

Para editar um cluster existente, clique com o botão direito do mouse (clique pressionando a tecla Control, no Mac) em um campo Clusters em Cor e selecione Editar clusters.

O menu suspenso Filtro com a opção de editar clusters.

Para alterar os nomes usados para cada cluster, primeiro você precisará arrastar o campo Clusters para o painel Dados e salvá-lo como um grupo. Para obter detalhes, consulte Criar um grupo dos resultados do cluster.

Clique com o botão direito do mouse no grupo de clusters e selecione Editar grupo para fazer alterações em cada cluster.

Um menu suspenso com a opção de editar um grupo.

Selecione um grupo de clusters na lista de Grupos e clique em Renomear para alterar o nome.

A caixa de diálogo Editar grupo que mostra a opção para renomear um cluster.

Criar um grupo dos resultados do cluster

Se você arrastar um cluster para o painel Dados, ele se tornará uma dimensão de grupo, na qual os membros individuais (Cluster 1, Cluster 2 etc.) contêm as marcas determinadas pelo cluster do algoritmo e são mais semelhantes entre si do que a outras marcas.

Depois de arrastar um grupo de cluster para o painel Dados, será possível usá-lo em outras planilhas.

Arraste Clusters do cartão Marcas para o painel Dados para criar um grupo do Tableau:

Um diagrama que ilustra como arrastar o campo Clusters do cartão Marcas para uma Dimensão no painel Dados.

Depois de criar um grupo com base em clusters, o grupo e os clusters originais são separados e distintos. Editar os clusters não afeta o grupo e editar o grupo não afeta os resultados dos clusters. O grupo tem as mesmas características de qualquer outro grupo do Tableau. Ele faz parte da fonte de dados. Diferentemente dos clusters originais, é possível usar o grupo em outras planilhas na pasta de trabalho. Portanto, se renomear o grupo de cluster salvo, essa renomeação não é aplicada ao cluster original na exibição. Consulte Agrupar dados para corrigir erros de dados ou combinar membros de dimensão.

Restrições de salvamento de clusters como grupos

Você não conseguirá salvar os Clusters no painel Dados em qualquer uma das circunstâncias a seguir:

Quando as medidas na exibição estiverem desagregadas e as medidas que você estiver usando como variáveis de cluster não forem as mesmas das medidas na exibição. Para obter detalhes, consulte Como desagregar dados.
Quando os Clusters que você deseja salvar estão na divisória Filtros.
Quando Nomes de medida ou Valores de medida estiverem na exibição.
Quando houver uma dimensão combinada na exibição.

Reajustar clusters salvos

Ao salvar um campo Clusters como um grupo, ele é salvo com seu modelo analítico. Você pode usar seus grupos de clusters em outras planilhas e pastas de trabalho, entretanto, eles não são automaticamente atualizados.

Neste exemplo, um grupo de clusters e seu modelo analítico salvos foram aplicados a uma planilha diferente. Como resultado, algumas das marcas ainda não estão incluídas no clustering (indicado por marcas cinza).

Um gráfico de dispersão ilustra a correlação entre rebatidas e vezes ao bastão para três grupos de jogadores.

Se os dados subjacentes forem alterados, você poderá usar a opção Reajustar para atualizar e recalcular os dados de um grupo de clusters salvo.

Para reajustar um cluster salvo

Clique com o botão direito do mouse em um grupo de clusters no painel Dados e, em seguida, clique em Reajustar.
Veja abaixo um exemplo de clustering atualizado depois que o cluster salvo foi reajustado:
Ao reajustar clusters salvos, novos clusters serão criados e os aliases de cada categoria do grupo de cluster serão substituídos por novos aliases de cluster genérico. Saiba que o reajuste de clusters salvos pode alterar as visualizações que usam clusters e aliases existentes.

Como funciona o clustering

As marcas de partição de análise de cluster na exibição de clusters, na qual as marcas em cada cluster são mais semelhantes umas às outras do que aos valores de dados em outros clusters. O Tableau diferencia os clusters usando cores.

Observação: para obter informações originais sobre como o cluster funciona no Tableau, consulte a publicação do blog Como entender o cluster no Tableau 10.

O algoritmo de clustering

O Tableau usa o algoritmo k-means para clustering. Para um determinado número de clusters k, o algoritmo particiona os dados em clusters k. Cada cluster tem um centro (centroide) que é o valor médio de todos os pontos no cluster. K-means localiza os centros por meio de um procedimento iterativo que minimiza as distâncias entre os pontos individuais em um cluster e o centro do cluster. No Tableau, é possível especificar um número de clusters desejado ou o Tableau pode testar diferentes valores de k e sugerir o número ideal de clusters (consulte Critérios usados para determinar o número ideal de clusters).

K-means requer uma especificação inicial dos centros de cluster. Começando com um cluster, o método escolhe uma variável cuja média é usada como limite a dividir os dados em dois. Os centroides dessas duas partes são então usados para inicializar o k-means e otimizar a associação dos dois clusters. Em seguida, um dos dois clusters é escolhido para divisão e uma variável dentro daquele cluster é escolhida, cuja média é usada como um limite para dividir o cluster em dois. O k-means é usado para partição dos dados em três clusters, inicializado com os centroides das duas partes do cluster dividido e o centroide do cluster remanescente. Esse processo é repetido até que um número definido de clusters seja atingido.

O Tableau usa o algoritmo de Lloyd com as distâncias euclidianas quadradas para calcular o k-means de clustering de cada k. Juntamente com o procedimento de divisão para determinar os centros iniciais para cada k > 1, o clustering resultante é determinístico, com o resultado dependendo somente do número de clusters.

O algoritmo começa escolhendo centros de cluster iniciais:

Um gráfico de dispersão com marcadores na cor vermelha, verde, laranja e preta.

Ele então particiona as marcas atribuindo-as ao centro mais próximo:

Um diagrama ilustra pontos de dados agrupados em três clusters.

Os resultados então são refinados computando novos centros para cada partição, fazendo a média de todos os pontos atribuídos ao mesmo cluster:

Um diagrama ilustra pontos de dados agrupados em três clusters.

A atribuição de marcas a clusters é revisada e atribuída novamente a quaisquer marcas que agora estão mais perto de um centro diferente do que antes.

Os clusters são redefinidos e as marcas são atribuídas de forma iterativa até que não haja mais mudanças acontecendo.

Observação: devido às diferenças subjacentes nas tecnologias, pode haver pequenas diferenças entre clusters criados em CPUs x64 ou arm64 para os mesmos dados.

Critérios usados para determinar o número ideal de clusters

O Tableau usa o critério Calinski-Harabasz para avaliar a qualidade do cluster. O critério Calinski-Harabasz é definido como

O critério Calinski-Harabasz.

onde SSB é a variação geral entre os clusters, SSW a variação geral dentro do cluster, k é o número de e N é o número de observações.

Quanto maior o valor dessa proporção, mais coesos serão os clusters (variação baixa dentro do cluster) e mais distintos/separados os clusters individuais (variação alta entre clusters).

Como o índice Calinski-Harabasz não é definido para k=1, ele não pode ser usado para detectar casos de um cluster.

Se um usuário não especificar o número de clusters, o Tableau escolherá o número de clusters correspondente à primeira máxima local do índice de Calinski-Harabasz. Como padrão, o k-means será executado para até 25 clusters, se o primeiro máximo local do índice não for alcançado para um valore menor de k. Você pode definir um valor máximo de 50 clusters.

Observação: se uma variável de categoria (ou seja, uma dimensão) tiver mais de 25 valores exclusivos, o Tableau a descartará ao calcular os clusters.

Que valores são atribuídos à categoria "Fora do cluster"?

Quando há valores nulos de uma medida, o Tableau atribui valores a linhas com nulo à categoria Fora do cluster. As variáveis de categoria (ou seja, dimensões) que retornam * para ATTR (o que significa que todos os valores não são idênticos) também estão fora do cluster.

Dimensionamento

O Tableau dimensiona os valores automaticamente para que as colunas que tenham um intervalo maior de magnitudes não dominem os resultados. Por exemplo, um analista pode estar usando a inflação e o PIB como variáveis de entrada para o clustering, mas como os valores do PIB estão nos trilhões de dólares, isso poderia fazer com que os valores de inflação fossem quase que completamente descartados no cálculo. O Tableau usa o método de dimensionamento chamado normalização mínima-máxima, no qual os valores de cada variável são mapeados para um valor entre 0 e 1, ao subtrair o mínimo e dividir pela faixa.

Informações sobre os modelos estatísticos usados para clusters

A caixa de diálogo Descrever clusters oferece informações sobre os modelos que o Tableau calculou para clustering. Você pode usar essas estatísticas para avaliar a qualidade do clustering.

Quando a exibição inclui clustering, você pode abrir a caixa de diálogo Descrever clusters, clicando com o botão direito do mouse em Clusters no cartão Marcas (clique pressionando a tecla Control, no Mac) e escolha Descrever clusters. As informações na caixa de diálogo Descrever clusters são somente leitura, embora você possa clicar em Copiar na área de transferência e colar o conteúdo da tela em um documento gravável.

Descrever clusters – guia Resumo

A guia Resumo identifica as entradas que foram usadas para gerar os clusters e oferece algumas estatísticas que caracterizam os clusters.

Entradas para clustering

Variáveis

Identifica os campos que o Tableau usa para calcular os clusters. Esses campos são listados na caixa Variáveis na caixa de diálogo Clusters.

Nível de detalhe

Identifica os campos que estão contribuindo para o nível de detalhe da exibição, ou seja, os campos que determinam o nível de agregação. Para obter detalhes, consulte Como as dimensões afetam o nível de detalhe na exibição.

Dimensionamento

Identifica o método de dimensionamento usado para o pré-processamento. A normalização atualmente é o único método de dimensionamento usado pelo Tableau. A fórmula para este método, também conhecida como normalização mínima-máxima, é (x – min(x))/(max(x) - min(x)).

Resumo de diagnóstico

Número de clusters

O número de clusters individuais no clustering.

Número de pontos

O número de marcas na exibição.

A soma de quadrados entre grupos

Uma métrica que quantifica a separação entre clusters como uma soma de distâncias ao quadrado entre o centro de cada cluster (valor médio), ponderado pelo número de pontos de dados atribuído ao cluster e o centro do conjunto de dados. Quanto mais alto o valor, melhor a separação entre os clusters.

Soma de quadrados dentro do grupo

Uma métrica que quantifica a coesão entre clusters como uma soma de distâncias ao quadrado entre o centro de cada cluster e as marcas individuais no cluster. Quanto menor for o valor, mais coesos serão os clusters.

Soma total de quadrados

Os totais da soma de quadrados entre grupos e a soma de quadrados no grupo. A proporção de (soma de quadrados entre grupos)/(soma total de quadrados) fornece a proporção da variação explicada pelo modelo. Os valores estão entre 0 e 1; valores maiores normalmente indicam um modelo melhor. No entanto, é possível aumentar esta proporção somente com o aumento do número de clusters, portanto, pode ser enganosa a comparação de um modelo de cinco clusters com um modelo de três clusters usando apenas este valor.

Estatísticas de cluster

Em cada cluster do clustering, as seguintes informações são fornecidas.

Nº de Itens

O número de marcas no cluster.

Centros

O valor médio dentro de cada cluster (mostrado nos itens numéricos).

Mais comum

O valor mais comum dentro de cada cluster (mostrado apenas para itens de categoria).

Descrever clusters – guia Modelos

A análise de variação (ANOVA) é uma coleção de modelos estatísticos e procedimentos associados úteis para a análise da variação dentro e entre as observações que foram particionadas em grupos ou clusters. Neste caso a análise da variação é calculada por variável e a análise da tabela de variação resultante pode ser usada para determinar que variáveis são mais eficazes para distinguir clusters.

A análise relevante de estatísticas de variação de clustering inclui:

Estatística F

A estatística F para a ANOVA unidirecional ou de fator único é a fração da variação explicada por uma variável. É a proporção da variação entre grupos com a variação total.

Quanto maior a estatística F, melhor a distinção entre clusters pela variável correspondente.

Valor p (p-value)

O valor p é a probabilidade que a distribuição F de todos os valores possíveis da estatística F assume em um valor maior que a estatística F real para uma variável. Se o valor p ficar abaixo de um nível de significância especificado, a hipótese nula (que todos os elementos individuais da variável são amostras aleatórias de uma única população) pode ser rejeitada. Os graus de liberdade para esta distribuição F são (k - 1, N - k), em que k é o número de clusters e N é o número de itens (linhas) em cluster.

Quando menor o valor p, maior a diferença dos valores esperados dos elementos da variável correspondente entre os clusters.

Soma de modelo de quadrados e graus de liberdade

A soma de quadrados modelo é a proporção da soma entre grupos de quadrados para graus de liberdade do modelo. A soma de quadrados entre grupos é uma medida da variação entre as médias do cluster. Se as médias do clusters forem próximas (e, portanto, perto da média geral), esse valor será pequeno. O modelo tem k-1 graus de liberdade, em que k é o número de clusters.

Soma de erros de quadrados e graus de liberdade

A soma de quadrados de erro é a proporção da soma dentro do grupo de quadrados para graus de liberdade do erro. A soma de quadrados dentro do grupo mede a variação entre as observações dentro de cada cluster. O erro tem N-k graus de liberdade, em que N é o número total de observações (linhas) em cluster e k é o número de clusters.

A soma de quadrados de erro pode ser considerada o erro do quadrado médio geral, pressupondo que cada centro do cluster represente a "verdade" para cada cluster.

Exemplo: criar clusters usando dados de indicadores econômicos mundiais

O recurso de clustering do Tableau particiona as marcas na exibição em clusters, na qual as marcas em cada cluster são mais semelhantes umas às outras do que às marcas em outros clusters. Este exemplo mostra como um pesquisador pode usar o clustering para encontrar um conjunto ideal de marcas (neste caso, países/regiões) em uma fonte de dados.

O objetivo

À medida que a expectativa de vida aumenta ao redor do mundo e pessoas mais velhas permanecem mais ativas, o turismo voltado para a terceira idade pode ser um mercado lucrativo para empresas que sabem como encontrar e conquistar possíveis clientes. O conjunto de dados de amostra Indicadores Mundiais, incluído no Tableau, contém o tipo de dados que pode ajudar as empresas a identificar os países ou regiões onde existem clientes suficientes do perfil certo.

Localização dos países/regiões corretos

Veja um exemplo de como o clustering do Tableau pode ajudar essa empresa a identificar os países/regiões em que um turismo voltado para a terceira idade pode ser bem-sucedido. Vamos supor que você seja o analista. Prossiga da seguinte maneira:

Abra a fonte de dados de exemplo Indicadores Mundiais no Tableau Desktop.
Clique duas vezes em País/Região no painel Dados.
O Tableau cria automaticamente uma visualização de mapa com uma marca em cada país/região.
No cartão Marcas, altere o tipo de marca para Mapa:
Agora você deve ver uma projeção de mapa na qual todos os países/regiões estão preenchidos com uma cor sólida:

A próxima etapa é identificar campos que você usará como variáveis de clustering. Os campos a serem escolhidos estão a seguir:

Campo	Motivo para inclusão
Expectativa de vida das mulheres e Expectativa de vida dos homens	Onde a expectativa de vida é maior, há mais probabilidade de as pessoas se interessarem em viajar em uma fase posterior da vida.
População urbana	É mais fácil oferecer serviços em áreas com maior densidade populacional.
População acima de 65 anos	A população de destino é de residentes mais velhos com tempo e dinheiro para viajar.
Turismo per capita	Esta é uma medida que você deve criar como campo calculado nomeado. A fórmula é: `SUM([Tourism Outbound])/SUM([Population Total])` Turismo de saída agrega o dinheiro (em dólares norte-americanos) que os residentes de um país/região gastam anualmente em viagens internacionais. No entanto, esse total deve ser dividido pela população de cada país/região para determinar a média de quanto cada residente gasta em viagens internacionais.

Não há garantias de que esses sejam os campos ideais para escolha ou se eles produzirão resultados de clusters claros e sem ambiguidade. O clustering é um processo iterativo, a experimentação leva à descoberta que, por sua vez, leva a mais experimentação.

Arraste estes cinco campos do painel Dados até Detalhe no cartão Marcas.
Clique para abrir o painel Análise:
Arraste Cluster do painel Análise e solte na exibição:
O Tableau exibe a caixa de diálogo Clusters e adiciona automaticamente as medidas na exibição à lista de variáveis:
Isso também atualiza a exibição adicionando clusters a Cor. Neste caso, o Tableau localiza dois clusters distintos e não consegue atribuir determinados países/regiões (com uma cor rosa avermelhado) a nenhum deles:
Observação: consulte Como funciona o clustering para obter detalhes sobre os dados que o Tableau atribui a "Fora do cluster".
Você decide que dois clusters não são suficientes, já que não tem os recursos para montar uma loja em metade dos países/regiões do mundo. Portanto, digita 4 no campo Número de clusters da caixa de diálogo Clusters.
O mapa fica mais interessante:
Mas qual a relação destes clusters às variáveis que você escolheu? Qual se correlaciona melhor com os fatores que suportam o turismo voltado para a terceira idade? É hora de analisar as estatísticas por trás dos clusters.
Feche a caixa de diálogo Clusters clicando em X no canto superior direito:
Clique no campo Clusters no cartão Marcas e escolha Descrever clusters.
A tabela na parte inferior da guia Modelos na caixa de diálogo Descrever clusters mostra o valor médio de cada variável em cada cluster:
O Cluster 4 tem a maior expectativa de vida (tanto de homens quanto de mulheres), a mais alta concentração de população urbana e o gasto mais alto em turismo internacional: US$ 1.360,40 per capita. A única variável para a qual o Cluster 4 não tem o maior valor é População acima de 65 anos, em que o Cluster 3 tem a vantagem: 0,15493 (pouco menos que 16%) a 0,11606 (pouco acima de 11%) no Cluster 4.
O algoritmo de clustering não sabe se você está procurando o valor máximo para essas variáveis, o valor mínimo ou algo intermediário; ele somente procura a correlação. Mas você sabe que valores mais altos para essas variáveis é o que estava procurando e que o Cluster 4 é a melhor escolha.
Você pode tentar identificar os países/regiões do Cluster 4 no mapa, mas há uma maneira mais fácil. Feche a caixa de diálogo Descrever clusters e clique em Cluster 4 na legenda Cor e escolha Manter apenas.
Escolha a Tabela de texto em Mostre-me.
Agora você pode ver uma lista de países/regiões no Cluster 4:
Esta lista não é o final do processo. Tente o clustering novamente com um conjunto um pouco diferente de variáveis e talvez um número distinto de clusters, ou adicione alguns países/regiões à lista e remova outros, com base em outros fatores. Por exemplo, se os seus passeios são principalmente para locais tropicais, você pode remover países/regiões da lista, como Curaçao e Bahamas, pois os passeios tropicais podem não agradar os residentes desses países/regiões.
Outra opção é filtrar seus dados antes de fazer um novo cluster para mostrar somente os países/regiões com populações acima de um determinado limite ou para países/regiões de destino em uma área geográfica específica.