Resolver erros nas funções de modelagem preditiva

Ao usar as funções de modelagem preditiva no Tableau, você pode encontrar erros ao tentar adicionar os cálculos a uma visualização. Muitas vezes, isso se deve à combinação de preditores e elementos visualizados, levando a um cálculo matematicamente inválido.

Geralmente, a primeira coisa a ser feita é verificar novamente a dimensão Uso de computação. Em seguida, verifique se não há uma incompatibilidade entre o nível de detalhe especificado nos preditores e o nível de detalhe na exibição. Verifique também se os preditores fornecem dados relevantes para o modelo, considerando a visualização atual.

Neste artigo, descrevemos detalhadamente vários problemas comuns e as maneiras como você pode resolvê-los.

Geralmente, os erros com funções de modelagem preditiva são causados por um ou mais dos seguintes problemas, dependendo do modelo usado:

Erros gerais

Erros de regressão do processo gaussiano

Dimensão inválida de Uso de computação

Ao visualizar uma função de modelagem preditiva, uma dimensão Uso de computação deve ser especificada. Recomenda-se selecionar uma dimensão específica (como Região ou Categoria), em vez de uma dimensão direcional (como Tabela horizontal e depois vertical ou Painel horizontal).

Como você pode ter várias funções de modelagem preditiva incluídas em uma única visualização ou painel, selecionar uma dimensão de particionamento específica garante que você crie modelos usando o mesmo conjunto de dados subjacente para cada função, em outras palavras, compare resultados de modelos semelhantes.

Para obter mais informações sobre endereçamento e particionamento, consulte Transformar valores com cálculos de tabela.

Ao trabalhar com funções de modelagem preditiva, você deve manter a consistência nas diferentes instanciações, tanto em iterações diferentes do modelo (por exemplo, às medida que seleciona diferentes preditores) quanto em visualizações diferentes. Usar as dimensões direcionais Uso de computação abre a possibilidade de que uma mudança trivial nos dados visualizados afetará significativamente os dados usados para criar o modelo, afetando assim sua validade e consistência em diferentes visualizações.

Você pode ver valores nulos se nenhuma dimensão Uso de computação tiver sido especificada ou se uma dimensão inválida de Uso de computação tiver sido selecionada.

As dimensões inválidas de Uso de computação incluem:

  • Célula: essa dimensão sempre resultará em um único ponto de dados usado para criar um modelo e não terá sucesso.
  • Uma dimensão aninhada de nível superior (por exemplo, se Região e Estado forem visualizados em um eixo, onde as marcas são geradas para Estado, mas agrupadas por Região.) Se Região for selecionada como dimensão de particionamento, valores nulos serão retornados, uma vez que não há marcas formalizadas para Região nesta exibição.

visualização em que as dimensões Uso de Computação são Estado e Categoria.

Na visualização acima, as dimensões válidas de Uso de Computação são Estado e Categoria. Particionar os dados por Estado ou por Categoria gera várias marcas válidas que podem ser usadas para criar um modelo.

Região, embora listada como uma opção de Uso de computação, não gera marcas no nível de detalhe desta visualização e não pode ser usada para particionar os dados.

Para obter mais informações, consulte Uso de computação e particionamento de dados na modelagem preditiva.

Os preditores de dimensão entram em conflito com o nível de detalhe visualizado

Os preditores de dimensão devem estar no mesmo nível de detalhe visualizado ou acima. Ou seja, se você estiver visualizando dados por Estado, pode usar Estado, Região ou País como preditores, mas o uso de Cidade como preditor causará um erro. Como existem várias cidades em um estado, esse preditor será determinado como * para todas as marcas e não retornará informações significativas. Dessa forma, o Tableau ignora esses dados.

Cada preditor dimensional deve ser incluído em uma função ATTR, por exemplo:

MODEL_PERCENTILE(SUM([Sales]), ATTR([State]), ATTR([Category])

Vários preditores entram em conflito uns com os outros

Cada preditor usado em determinada função de modelagem preditiva deve fornecer informações independentes para o cálculo. Se forem selecionados dois preditores que sejam exatamente equivalentes, versões em escala ou inversos um do outro, a função de modelagem preditiva retornará um erro quando for visualizada.

Por exemplo, um conjunto de dados que rastreia as condições climáticas ao longo do tempo pode ter dois campos: IsRain e IsClear. Esses dois campos são inversos um do outro, ou seja, IsClear = True quando IsRain = False e vice-versa. Incluir Isclear e Israin como preditores em uma única função de modelagem preditiva retornará um erro.

As informações acima são válidos para medidas e dimensões como preditores.

Em ambos os casos, o erro pode ser resolvido modificando os preditores para remover os que são altamente correlacionados. Para obter mais informações, consulte Escolha de preditores.

Não há dados suficientes para criar um modelo

Deve haver pelo menos três marcas em uma partição para permitir que as funções de modelagem preditiva criem um modelo e gerem previsões. Se houver duas marcas ou menos no conjunto de dados definido pelos dados visualizados e pela dimensão de Uso de computação, então a função de modelagem preditiva retornará resultados nulos.

Para resolver esse problema, verifique o nível de detalhe, os parâmetros de filtragem de dados ou a dimensão de Uso de computação para que cada partição que tenha mais de duas marcas.

Não foi possível criar um modelo com sucesso usando os dados fornecidos

Este erro é apresentado se houver um conflito entre os preditores selecionados, o nível de detalhe visualizado e/ou a dimensão de Uso de computação selecionada, de forma que seja impossível usar os preditores para criar um modelo racional.

Por exemplo, vamos dar uma olhada neste cálculo MODEL_QUANTILE:

MODEL_QUANTILE(0.5, MEDIAN([Profit]), ATTR(MONTH([Order Date])))

A aplicação desse cálculo a uma visualização em que cada marca representa um valor Estado retornará o erro abaixo:

mensagem de erro

Como a Data do pedido não é usada para visualizar ou segmentar os dados, a função de modelagem preditiva não pode usar o preditor especificado para criar um modelo.

Para resolver isso:

  • Atualize a visualização para incluir o preditor como dimensão.
  • Atualize a função para remover o preditor não viável.

Vale ressaltar que esse erro reflete uma incompatibilidade entre a visualização e os preditores específicos do cálculo de tabela. Esse mesmo cálculo funcionaria sem problemas, se aplicado a uma visualização que incluísse a Data do pedido como dimensão.

A regressão de processo gaussiano requer exatamente um preditor de dimensão ordenado

Para usar a regressão do processo gaussiano, você deve incluir exatamente uma dimensão ordenada como preditor. Você pode incluir dimensões adicionais não ordenadas como preditores. As medidas não podem ser usadas como preditores com regressão do processo gaussiano.

Se você encontrar esse erro, adicione um preditor de dimensão ordenado ao seu cálculo de tabela, remova o preditor de dimensão ordenado em excesso ou especifique que uma das dimensões ordenadas deve ser tratada como uma dimensão não ordenada.

Como a regressão do processo gaussiano é melhor usada em dados de séries temporais, isso geralmente tomará a forma de um preditor baseado no tempo, como ATTR(DATETRUNC('month',[Order Date])). Qualquer date_part pode ser usada na expressão DATETRUNC, mas o date_part deve estar no mesmo nível ou em nível mais alto de detalhes que a visualização. Ou seja, se a visualização usar a WEEK([Order Date]) como nível de agregação, date_part deve ser 'week','month','quarter', etc.; não pode ser 'dayofyear', 'day', 'weekday', 'hour', etc.

Observe que, uma vez que ATTR(MONTH([Date])) retorna os valores de cadeia de caracteres, ele não funcionará como um preditor dimensional ordenado a menos que seja especificado manualmente. Isso é feito incluindo "ordered"imediatamente antes do preditor, conforme abaixo:

MODEL_PERCENTILE(
"model=gp",
SUM([Sales]),
"ordered",ATTR(MONTH([Order Date]))
)

Se você quiser incluir várias dimensões de tempo em seus preditores, deve especificar quais serão usados como dimensões não ordenadas. Isso pode ser feito incluindo "unordered” diretamente antes dessa dimensão, como abaixo:

MODEL_PERCENTILE(
"model=gp",
SUM([Sales]),
ATTR(DATETRUNC('month',[Order Date]))
"unordered",ATTR(DATETRUNC('year',[Order Date]))
)

Tentar usar o cálculo acima sem especificar "unordered” na frente de ATTR(DATETRUNC('year',[Order Date]) retornará um erro.

Além disso, a direção de endereçamento (ou "Cálculo de uso") para regressão de processo gaussiano deve ser definida no mesmo campo do preditor de dimensão ordenado.

Apenas uma direção de endereçamento (ou "Cálculo de uso") pode ser selecionada para todos os modelos.

A regressão de processo gaussiano só aceita dimensões como preditores

Você não pode usar medida como preditores nos cálculos do processo gaussiano. Remova o preditor de medida.

Essa limitação só se aplica às funções de modelagem preditiva que especificam a regressão do processo gaussiano. A regressão linear (ou OLS, o padrão) e as funções de regressão linear regularizadas aceitam medidas como preditores.

Não há dados de treinamento para um ou mais alvos de previsão

A regressão do processo gaussiano exige que cada partição de dados tenha pelo menos n pontos de dados para criar um modelo preditivo e previsões de retorno. Se você encontrar esse erro, revise suas previsões.

Há mais de 5.000 marcas

Regressões de processos gaussianos só são aceitas em visualizações com menos de 5.000 marcas. Para resolver esse problema, atualize seu nível de detalhes para diminuir o número de marcas ou selecione um modelo estatístico diferente.

Agradecemos seu feedback!Seu feedback foi enviado. Obrigado!