Uso de computação e particionamento de dados na modelagem preditiva
Você faz previsões a partir dos dados, incluindo as funções de modelagem preditiva, MODEL_QUANTILE ou MODEL_PERCENTILE, em um cálculo de tabela.
Lembre-se que todos os cálculos de tabela devem ter uma direção de Uso de computação especificada. Para obter uma visão geral de como diferentes dimensões de endereçamento e particionamento podem afetar os resultados, consulte Transformar valores com cálculos de tabela.
Nas funções de modelagem preditiva, o Uso de computação é aplicado para particionar (escopo) o conjunto de dados que será utilizado para criar o modelo preditivo.
As funções de modelagem preditiva não têm um conceito de endereçamento (direção), uma vez que o modelo retorna um resultado diferente para cada marca com base nos preditores selecionados. Ou seja, ao contrário de Total acumulado, onde a dimensão de endereçamento determina a ordem em que os campos são adicionados e os resultados são retornados. As funções de modelagem preditiva são inerentemente não sequenciais. Elas calculam os resultados utilizando um modelo com base nos dados definidos pelo destino e pelos preditores da função, no nível de detalhe especificado pela visualização. Dentre esses dados, não há conceito de sequência, a menos que um preditor ordenado, como uma dimensão de data, seja usado.
Além disso, o nível de detalhe da visualização é sempre utilizado na definição dos dados utilizados para a criação do modelo. Todos os cálculos de tabela operam no mesmo nível de detalhe que a própria visualização e as funções de modelagem preditiva não são exceções.
Recomendações para funções de modelagem preditiva
Recomenda-se selecionar uma dimensão específica para o particionamento ao usar funções de modelagem preditiva. Como você pode ter vários cálculos de previsão em uma única visualização ou painel, selecionar uma dimensão de particionamento específica garante que você crie modelos usando o mesmo conjunto de dados subjacente para cada função e, portanto, compare resultados de modelos semelhantes.
Ao trabalhar com funções de modelagem preditiva no Tableau, é fundamental manter a consistência nas diferentes instanciações, tanto em iterações diferentes do modelo (por exemplo, às medida que seleciona diferentes preditores) quanto em visualizações diferentes. Usar as opções direcionais Uso de computação abre a possibilidade de que uma pequena mudança nos dados visualizados afetará significativamente os dados usados para criar o modelo, afetando assim sua validade e consistência em diferentes visualizações.
Escolha de dimensões
Todos os exemplos a seguir usam a fonte de dados Exemplo - Superloja, incluída no Tableau Desktop.
Ao escolher uma dimensão, lembre-se que o Tableau criará um modelo preditivo nessa dimensão. Ou seja, se você selecionar a Data do pedido como a dimensão de particionamento, o Tableau usará os dados em qualquer outra partição estabelecida, mas juntamente com os valores da Data do pedido.
A imagem abaixo mostra os dados utilizados para criar o modelo destacado em amarelo e a saída do modelo destacada em laranja. Nesse caso, como não há preditores, todas as respostas são idênticas em determinada Subcategoria. Selecionar os preditores ideais ajudará a gerar resultados mais significativos. Para obter mais informações sobre preditores ideais, consulte Escolha de preditores.
Da mesma forma, se a Subcategoria tivesse sido selecionada como uma dimensão de particionamento, o Tableau usaria os dados em determinado mês, mas juntamente com várias subcategorias, conforme abaixo. Se os dados forem subdivididos em painéis, os limites do painel serão respeitados ao criar um modelo.
Uma observação sobre particionamento
Observe que particionar os dados visualmente tem efeitos significativos nos dados usados para criar um modelo e gerar as previsões. A adicção de um nível de detalhe maior (por exemplo, incluindo Estado e Cidade em uma única divisória) particionará os dados pelo LOD maior. Isso é verdade, independentemente da ordem em que as pílulas são colocadas na divisória. Por exemplo, elas retornarão previsões idênticas:
A adição de uma pílula que modifica o nível de detalhe particionará os dados, se forem adicionados à divisória Linhas ou Colunas ou à Cor, Tamanho, Rótulo, Detalhe ou Forma no cartão Marcas. A adição de uma pílula em um nível de detalhe diferente à Dica de ferramenta não particionará os dados.
No exemplo abaixo, o modelo é particionado automaticamente por Categoria, uma vez que as pílulas Categoria e Subcategoria estão ambas em Linhas. O cálculo da previsão está sendo realizado em Subcategoria dentro dos limites da pílula de nível superior, Categoria.
Isso tem implicações na forma como os preditores são aplicados. Vamos ver o exemplo abaixo. Nesse caso, temos três cálculos de tabela MODEL_QUANTILE aplicados:
Predict_Sales_City | Predict_Sales_State | Predict_Sales_Region |
MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
|
Para os três, selecionamos Uso de computação > Cidade. Vamos dar uma olhada em algumas cidades da North Carolina:
Observe que os resultados dos três cálculos são idênticos em determinado estado, apesar de usarem preditores diferentes.
Se removermos Região da divisória Linhas, nada acontece com nossos resultados, eles ainda são todos idênticos em determinado estado:
Mas quando removemos Estado da divisória Linhas, vemos resultados diferentes para cada cálculo:
O que está acontecendo?
No primeiro exemplo, Região e Estado na divisória Linhas estão particionando as cidades. Portanto, os modelos de Predict_Sales_City, Predict_Sales_State e Predict_Sales_Region estão recebendo os mesmos dados e gerando as mesmas previsões.
Como já particionamos visualmente os dados em Estado e Região, nenhum de nossos preditores agrega valor ao modelo e não tem impacto nos resultados:
Quando removemos Região da divisória Linhas, ainda estamos particionando por Estado, portanto, não há alteração nos dados usados para criar o modelo. Novamente, como já particionamos visualmente os dados em Estado, nenhum de nossos preditores agrega valor ao modelo ou tem impacto nos resultados:
No entanto, quando removemos Estado, os dados são desparticionados e vemos previsões diferentes para cada cálculo. Vamos analisar melhor o que está acontecendo lá:
Para Predict_Sales_City, estamos usando ATTR([City]) como preditor. Uma vez que está no mesmo nível de detalhe que a visualização, ele não agrega valor e é desconsiderado. Estamos agregando Vendas para todas as cidades, passando para o mecanismo estatístico e calculando as vendas previstas. Como não estão incluídos outros preditores, vemos o mesmo resultado para cada cidade. Se tivéssemos incluído uma ou mais medidas, veríamos variação nos resultados.
Para Predict_Sales_State, estamos usando o ATTR([State]) como preditor. O preditor está particionando todos os dados de Cidade por Estado. Esperamos ver resultados idênticos em um estado, mas resultados diferentes para cada estado.
Mas observe que não foi exatamente o que obtivemos. As cidades de Cary, Chapel Hill e Charlotte têm previsões idênticas de US$ 2.084,00, como esperado. Burlington, no entanto, mostra uma previsão diferente de US$ 9.366,00:
Isso porque existe uma cidade chamada "Burlington" em vários estados (Iowa, North Carolina e Vermont). Portanto, Estado é determinado para *, que significa "mais de um valor". Todas as marcas em que Estado é determinado como * são avaliadas em conjunto, de modo que qualquer outra cidade que também exista em vários estados também teria uma previsão de US$ 9.366,00.
Para Predict_Sales_Region, estamos usando ATTR([Region]) como preditor. O preditor está particionando todos os dados de Cidade por Região. Você espera ver resultados idênticos em uma região, mas resultados diferentes para cada região:
Novamente, uma vez que Burlington existe em várias regiões (Central, Leste e Sul), Região é determinada como *. As previsões de Burlington corresponderão apenas às cidades que também existem em várias regiões.
Como você pode ver, é muito importante verificar se os preditores dimensionais estão alinhados corretamente com o nível de detalhe da visualização e do particionamento. Subdividir a visualização por qualquer dimensão pode ter efeitos não intencionais nas previsões.