Escolha de preditores
Ao criar cálculos de previsão usando as funções de modelagem preditiva no Tableau, você precisará escolher preditores. Como lembrete, um preditor é uma variável de entrada cujo valor é usado para prever uma variável de saída, também conhecida como destino ou resposta. Muitas vezes, você estará trabalhando com dados sobre os quais você tem amplo conhecimento de domínio e já terá uma boa noção de quais campos estão fortemente correlacionados com destino de previsão e que seriam bons preditores. No entanto, ainda é uma boa ideia ter tempo para avaliar os preditores e garantir que você está escolhendo com sabedoria. Você sempre vai desejar incluir pelo menos um preditor e, geralmente, mais de um.
Primeiro, selecione o destino. Parece óbvio, mas ter certeza de que está selecionando os preditores com base no que você quer prever é um primeiro passo importante. Por exemplo, os campos mais correlacionados com a expectativa de vida das mulheres podem ser muito diferentes dos campos mais correlacionados com a expectativa de vida dos homens. Da mesma forma, os campos mais correlacionados com as vendas poderiam ser muito diferentes dos campos mais correlacionados com o lucro.
Outra coisa que você deve lembrar é que, por padrão, as funções de modelagem preditiva usam a regressão linear como modelo estatístico subjacente. Com esse modelo, os preditores mais correlacionados são os que têm uma relação linear com o destino. Para obter informações sobre o uso de outro modelo compatível, consulte Escolha de um modelo preditivo.
Para entender melhor como escolher os melhores preditores para as perguntas que você pretende responder, vamos dar uma olhada nos dados de expectativa de vida das mulheres. Para acompanhar, baixe a seguinte pasta de trabalho no Tableau Public: Escolha de preditores para as previsões.
Medidas como preditores
Ao usar uma medida como preditor, você pode avaliar a correlação com o destino usando o Tableau. Uma maneira é criar um gráfico de dispersão. A seguir, comparamos a expectativa de vida das mulheres mediana de um país com diversas outras medidas.
Para algumas medidas, como Mortalidade infantil e Taxa de natalidade, existe uma clara correlação negativa com a Expectativa de vida das mulheres, como observado na inclinação negativa do gráfico de dispersão. Para outras, é menos óbvio. No entanto, podemos ver claramente uma distribuição em forma de L para PIB mediano, Uso de telefone celular mediano e Despesas com saúde medianas/capita. Essa distribuição em forma de L muitas vezes indica que o uso de uma transformação de log pode ajudar a analisar os dados com mais precisão. Outra dica é se todos os valores de uma coluna são positivos. No Tableau, você pode usar uma transformação de log editando a pílula e envolvendo a expressão em uma função LOG:
Isso leva da distribuição em forma de L – onde é difícil diferenciar entre os extremos da escala – para uma distribuição mais uniforme e menos compactada pelos extremos da escala.
Repetir esse cálculo com as outras distribuições em forma de L gere o seguinte:
Coeficiente de determinação ou valor de R-quadrado
Quanto mais próximas as marcas estiverem em uma linha reta, maior será a correlação entre as duas medidas. Para ajudar a avaliar a correlação, você pode adicionar linhas de tendência. No painel de Análise, arraste uma Linha de tendência até a exibição e solte-a em Linear. Passar o cursor sobre a linha de tendência mostrará o valor de R-quadrado, ou coeficiente de determinação, que indica quanto da variável dependente (o destino) é explicado pela variável independente (o preditor). Preditores com valores de R-quadrado mais próximos de 1 são melhores do que preditores com valores de R-quadrado mais próximos de 0.
Observando nossos gráficos de dispersão, podemos ver que o melhor preditor para a expectativa de vida das mulheres mediana é a mortalidade infantil mediana, que tem um valor de R-quadrado de 0,87:
Outros bons preditores são a Taxa de natalidade mediana (valor de R-quadrado = 0,76) e a transformação de log das Despesas com saúde medianas/capita (valor de R-quadrado = 0,56).
Na imagem abaixo, vemos a Expectativa de vida das mulheres mediana em relação à Expectativa de vida das mulheres mediana, onde a visualização resultante é uma linha perfeitamente reta em um ângulo de 45°: como esperado, há uma correlação perfeita entre o valor no eixo x e o valor no eixo y, com um valor de R-quadrado de 1:
No entanto, como mostrado abaixo, embora LOG(MEDIAN([GDP])) tenha uma linha de tendência inclinada mais acentuada do que as outras, essa fórmula tem uma pontuação baixa de R-quadrado de apenas 0,169. Isso ocorre devido à escala do eixo x para esse painel:
Além disso, vamos dar uma olhada em como algumas marcas podem afetar significativamente a inclinação de uma linha de tendência. Aproximando o gráfico de dispersão da Taxa de imposto comercial mediana, podemos ver que a maioria das marcas tem uma taxa de imposto entre 0 e cerca de 1, e seis países têm taxas muito mais altas, entre 2 e 3. O valor de R-quadrado para todas as marcas é 0,0879:
No entanto, vamos ver o que acontece se removermos esse cluster de seis marcas:
A linha de tendência fica quase plana e o valor de R-quadrado cai para 0,0006, indicando que basicamente não há correlação entre a Taxa de imposto comercial mediana e a Expectativa de vida das mulheres mediana. À medida que você visualiza os dados e usa bons métodos estatísticos para selecionar os preditores, é importante considerar cuidadosamente se há exceções ou outras características de dados que possam afetar as conclusões.
Dimensões como preditores
Ao usar dimensões como preditores, você pode usar um procedimento semelhante para determinar a correlação. No entanto, você pode descobrir que há uma discrepância significativa entre diferentes dimensões no nível de relação com o destino. Por exemplo, ao subdividir por Região, uma região pode ser um bom preditor para o destino, mas outra região pode ter significativamente menos correlação. Isso não significa que você não deve usar essa dimensão como preditor, mas você pode considerar se o uso de medidas ou dimensões adicionais ajudará a melhorar o modelo e, por sua vez, as previsões.
Uma vez que determinamos que os melhores preditores para o nosso conjunto de dados são a Mortalidade infantil mediana, a Taxa de natalidade mediana e a transformação de log das Despesas com saúde medianas/capita, vamos limitar a visualização a essas três variáveis:
Em seguida, vamos particionar os dados adicionando a Região à Cor no cartão Marcas e ver o que acontece com a visualização:
Comparação dos valores de R-quadrado entre preditores
Vamos ver como os valores de R-quadrado se comparam para cada uma das linhas de tendência de Região para cada preditor:
Na tabela acima, o menor valor de R-quadrado para cada preditor é destacado em vermelho e o segundo menor em amarelo.
A Europa tem os menores valores de R-quadrado para Mortalidade infantil mediana e Taxa de natalidade mediana e a África tem o menor valor de R-quadrado para a transformação de log das Despesas com saúde medianas/capita (destacado em vermelho). A África também tem os menores valores de R-quadrado para Taxa de mortalidade infantil mediana e Taxa de natalidade mediana.
Adicionar uma dimensão pode fornecer ao modelo mais informações e incluir mais informações pode melhorar a qualidade da previsão. No entanto, dentro de determinada subdivisão (uma Região, nesse caso), a qualidade da previsão pode melhorar ou piorar. Em alguns casos, você pode construir um modelo individual para cada subdivisão com base nas medidas que são os melhores preditores para esse grupo específico.
Neste caso, a Mortalidade infantil tem uma correlação razoavelmente forte com a Expectativa de vida das mulheres para todas as regiões, embora seja um pouco mais fraca na África e na Europa. A Taxa de natalidade mediana é um bom preditor para a Oceania e Ásia, mas quase não tem correlação com a Expectativa de vida das mulheres na Europa. E a transformação de log das Despesas com saúde medianas é um preditor razoável para todas as regiões, exceto a África. Podemos esperar que o modelo criado com todos os quatro preditores (Mortalidade infantil, Taxa de natalidade, Log de (Despesas com saúde) e Região ) tenha as previsões menos precisas para os países da Europa e África. Podemos analisar os dados mais detalhadamente para ver se existem preditores adicionais ou alternativos que poderíamos usar para criar modelos mais adequados para a Europa e África.
Criação da função de modelagem preditiva
Agora que encontramos bons preditores, podemos criar e aplicar uma função de modelagem preditiva para vê-la em ação.
Abra o menu Análise na parte superior e selecione Criar campo calculado.
No Editor de cálculo, nomeie o cálculo e faça o seguinte:
Nomeie o cálculo: Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region
Insira a fórmula a seguir:
MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
LOG(MEDIAN([Health Exp/Capita])),
MEDIAN([Birth Rate]),
MEDIAN([Infant Mortality Rate]),
ATTR([Region]))
Esse cálculo retornará o valor mediano (0,5) do intervalo de expectativas de vida das mulheres do modelo, com base nos preditores selecionados: Despesas com saúde, Taxa de natalidade, Mortalidade Infantil e Região.
Em seguida, vamos criar um gráfico de dispersão que mostra a expectativa de vida das mulheres mediana real e a expectativa de vida das mulheres mediana prevista:
Legal! As previsões estão praticamente alinhadas com os valores reais de cada região.
Mas vamos fazer outra passagem para descobrir onde as previsões estão mais distantes da marca. Crie outro cálculo chamado Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region da seguinte forma:
MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
Esse cálculo residual retornará a diferença entre a mediana prevista e a mediana real, ajudando a ver os países em que existe a maior discrepância entre a expectativa de vida das mulheres real e prevista.
Em seguida, vamos aplicar esse cálculo residual à Cor:
Você pode ver na visualização acima que a maioria dos países, na maioria das regiões, tem baixas discrepâncias entre as previsões e os valores reais. A África é a região com o maior número de países com discrepâncias significativas, mas vamos fazer mais uma rodada para verificar qual tipo de diferenças estamos observando.
Você pode ver que as diferenças variam entre -17 e +9, então vamos dividir a visualização em grupos onde haja menos de ±3 anos de diferença, menos de ±5 anos de diferença, menos de ±10 anos de diferença e mais de ±10 anos de diferença.
Crie mais um cálculo chamado Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region da seguinte forma:
IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
<= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
>= -3
THEN
"±3"
ELSEIF
[Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN
"±5"
ELSEIF
[Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN
"±10"
ELSE
"> ±10"
END
Mais uma vez, vamos adicionar o cálculo à Cor:
Observe que a grande maioria das previsões está incorreta em menos de 3 anos e que apenas uma pequena parte está errada em mais de 10 anos. No geral, muito bom!
Isso significa que o uso desse modelo permitiria identificar com precisão os países com as expectativas de vida das mulheres medianas que são exceções ou fornecer a expectativa de vida das mulheres do modelo para um país em que esses dados estavam ausentes.