Como funciona o Explique os dados

Use o Explique os dados como um ponto de partida incremental para explorar ainda mais seus dados. As possíveis explicações geradas ajudam a ver os diferentes valores que compõem ou estão relacionados com as marcas analisadas em uma exibição. Podem informar sobre as características dos pontos de dados na fonte de dados e como os dados podem estar relacionados (correlações) usando modelagem estatística. Essas explicações oferecem outra ferramenta para inspecionar dados e encontrar pistas interessantes sobre o que explorar a seguir.

Observação: o Explique os dados é uma ferramenta que revela e descreve os relacionamentos dos seus dados. Não é possível dizer o que está causando os relacionamentos ou como interpretar os dados. Você é o especialista em seus dados. O conhecimento de domínio e a intuição são fundamentais para ajudar a decidir quais características podem ser interessantes para explorar ainda mais, usando diferentes exibições.

Para obter informações relacionadas sobre como funciona o Explique os dados e como usá-lo para incrementar sua análise, consulte estas apresentações da Conferência do Tableau:

O que é o Explique os dados (ou não)

O Explique os dados é:

  • Uma ferramenta e um fluxo de trabalho que aproveitam sua experiência sobre o domínio.
  • Uma ferramenta que mostra relacionamentos em seus dados e recomenda o local para pesquisa.
  • Uma ferramenta e um fluxo de trabalho que ajudam a agilizar a análise de dados e torná-la mais acessível a uma gama mais ampla de usuários.

O Explique os dados não é:

  • Uma ferramenta de teste estatístico.
  • Uma ferramenta para provar ou rejeitar hipóteses.
  • Uma ferramenta que fornece uma resposta ou informa sobre qualquer causalidade nos seus dados.

Ao executar o Explique os dados nas marcas, tenha em mente os seguintes pontos:

  • Use dados granulares que possam ser agregados. Esse recurso foi criado explicitamente para a análise de dados agregados. Significa que os dados devem ser granulares, mas as marcas selecionadas para Explique os dados devem ser agregadas ou resumidas mais detalhadamente. O Explique os dados não pode ser executado em marcas desagregadas (dados brutos) com nível de detalhe mais granular.

  • Considere a forma, o tamanho e a cardinalidade dos dados. Embora possa ser usado com conjuntos de dados menores, o Explique os dados requer dados suficientemente amplos e contém marcas suficientes (granularidade) para criar um modelo.

  • Não presuma causalidade. A correlação não é causa. As explicações são baseadas em modelos dos dados, mas não são explicações causais.

    Uma correlação significa que existe uma relação entre algumas variáveis de dados, digamos A e B. Não é possível afirmar apenas ao ver a relação nos dados que A está causando B, se B está causando A, ou se algo mais complicado está realmente acontecendo. Os padrões de dados são exatamente os mesmos em cada um desses casos e um algoritmo não pode dizer a diferença entre cada caso. Só porque duas variáveis parecem mudar, não significa necessariamente que uma causa a alteração na outra. Um terceiro fator pode estar fazendo com que ambas sejam alteradas, ou pode ser uma coincidência e pode não haver nenhuma relação causal.

    No entanto, você pode ter conhecimento extra que não está nos dados, que o ajuda a identificar o que está acontecendo. Um tipo comum de conhecimento extra seria uma situação em que os dados foram coletados em um experimento. Se você sabe que B foi escolhido por sorte, qualquer padrão consistente de diferença em A (que não seja apenas ruído aleatório) deve ser causado por B. Para obter uma descrição mais detalhada desses conceitos, consulte o artigo Inferência causal em economia e marketing(O link abre em nova janela) por Hal Varian.

Como as explicações são analisadas e avaliadas

O Explique os dados executa uma análise estatística em um painel ou planilha para localizar marcas discrepantes ou especificamente em uma marca selecionada. A análise também considera pontos de dados possivelmente relacionados da fonte de dados que não estão representados na exibição atual.

Primeiramente, o Explique os dados prevê o valor de uma marca usando apenas os dados presentes na visualização. Em seguida, os dados que estão na fonte de dados (mas não na exibição atual) são considerados e adicionados ao modelo. O modelo determina o intervalo de valores previstos da marca, que está dentro de um desvio padrão do valor previsto.

Qual é o intervalo esperado?

O valor esperado de uma marca é o valor mediano na faixa de valores esperada nos dados subjacentes em sua visualização. O intervalo esperado é o intervalo de valores entre o 15º e o 85º percentil que o modelo estatístico prevê para a marca analisada. O Tableau determina o intervalo esperado sempre que executa uma análise estatística em uma marca selecionada.

As possíveis explicações são avaliadas quanto à capacidade explicativa usando a modelagem estatística. Para cada explicação, o Tableau compara o valor esperado com o valor real.

valueDescrição
Acima do esperado/Abaixo do esperadoSe um resumo de valor esperado indicar que a marca é menor do que o esperado ou maior do que o esperado, significa que o valor agregado da marca está fora do intervalo de valores previstos no modelo estatístico da marca. Se um resumo de valor esperado indicar que a marca é um pouco menor ou pouco maior que o esperado, mas , está dentro do intervalo de natural variação, significa que o valor agregado da marca está dentro do intervalo de valores previstos da marca, mas é menor ou maior nesse intervalo de valores.
Valor esperadoSe uma marca tiver um valor esperado, significa que seu valor está dentro do intervalo esperado de valores que um modelo estatístico está prevendo para a marca.
Variação aleatóriaQuando a marca analisada tem um número baixo de registros, pode não haver dados suficientes disponíveis para Explique os dados formarem uma explicação estatisticamente significativa. Se o valor da marca estiver fora do intervalo esperado, o Explique os dados não pode determinar se esse valor inesperado está sendo causado por variação aleatória ou por uma diferença significativa nos registros subjacentes.
Sem explicaçãoQuando o valor da marca analisada está fora do intervalo esperado e não se ajusta a um modelo estatístico usado para Explique os dados, nenhuma explicação é gerada.

Modelos usados para análise

O Explique os dados cria modelos dos dados em uma exibição para prever o valor de uma marca e em seguida, determina se uma marca é maior ou menor que o esperado de acordo com o modelo. Em seguida, ele considera informações adicionais, como a inclusão de colunas adicionais da fonte de dados na exibição ou a sinalização de exceções do registro, como explicações potenciais. Para cada explicação potencial, o Explique os dados se ajusta a um novo modelo e avalia se a marca é inesperada de acordo com as novas informações. As explicações são classificadas compensando a complexidade (quantas informações são adicionadas pela fonte de dados) em relação ao volume de variabilidade que precisa ser explicada. Melhores explicações são mais simples do que a variação que elas explicam.

 

Tipo de explicaçãoAvaliação

Valores extremos

Os valores extremos são marcas agregadas que são exceções com base em um modelo das marcas visualizadas. A marca selecionada é considerada como contendo um valor extremo se um valor de registro estiver nos extremos dos valores previstos da distribuição para os dados.

Um valor extremo é determinado comparando a marca agregada com e sem o valor extremo. Se uma marca se tornar menos surpreendente ao eliminar esse valor, ela recebe uma pontuação mais alta.

Quando uma marca tem valores extremos, não significa que sejam valores atípicos, ou que você deve excluir esses registros da exibição. Esta escolha é sua, dependendo da sua análise. A explicação simplesmente aponta um valor extremo interessante na marca. Por exemplo, pode revelar um valor com digitação incorreta em um registro em que um custo da banana seja de 10 dólares em vez de 10 centavos. Ou pode revelar que um determinado vendedor tenha tido um bom trimestre.

Número de registros

A explicação do número de registros modela a soma agregada em termos da contagem agregada; o valor médio dos registros o modela em termos da média agregada. Quanto melhor o modelo explicar a soma, maior será a pontuação.

Essa explicação descreve se a soma é interessante porque a contagem está alta ou baixa ou porque a média é alta ou baixa.

Valor médio da marca

Esse tipo de explicação é usado para marcas agregadas que são somas. Explica se a marca é consistente com as outras marcas, porque em termos de sua contagem agregada ou média, observando a relação SUM(X) = COUNT(X) * AVG(X).

Essa explicação descreve se a soma é interessante porque a contagem está alta ou baixa ou porque a média é alta ou baixa.

Dimensões contribuintes

Esta explicação modela a medida-alvo da marca analisada em termos da repartição entre as categorias da dimensão não visualizada. A análise equilibra a complexidade do modelo com a forma como a marca é explicada.

Uma dimensão oculta é uma dimensão que existe na fonte de dados, mas não está sendo usada na exibição. Esse tipo de explicação é usado para somas, contagens e médias.

O modelo para dimensões ocultas é criado dividindo as marcas de acordo com os valores categorizados da coluna explicativa e criando um modelo com o valor que inclui todos os pontos de dados na visualização da fonte. Para cada linha, o modelo tenta recuperar cada um dos componentes individuais que fizeram cada marca. A análise indica se o modelo prevê melhor a marca quando os componentes correspondentes à dimensão não visualizada são modelados e, em seguida, aumentados, em vez de usar um modelo em que os valores da dimensão não visualizada não são conhecidos.

As explicações de dimensão agregada exploram se os valores de marca podem ser explicados corretamente, sem condições. Em seguida, as condições do modelo nos valores para cada coluna que é uma explicação potencial. As condições na distribuição de uma coluna explicativa devem resultar em uma previsão melhor.

Medidas contribuintes

Essa explicação modela a marca em termos dessa medida não visualizada, agregada à sua média nas dimensões visualizadas. Uma medição não visualizada é uma medida que existe na fonte de dados, mas não está sendo usada na exibição.

A explicação de Medidas contribuintes pode revelar uma relação linear ou quadrática entre a medida não visualizada e a medida de destino.

Agradecemos seu feedback!Seu feedback foi enviado. Obrigado!