Adicionar linhas de tendência a uma visualização
É possível mostrar linhas de tendência em uma visualização para destacar as tendências indicadas por seus dados. É possível publicar uma exibição que contém linhas de tendência e adicionar linhas de tendência a uma exibição ao editá-la na Web.
Ao adicionar linhas de tendência a uma exibição, é possível especificar qual a aparência e o comportamento que você deseja que elas tenham.
Adicionar linhas de tendência a uma exibição
Para adicionar uma linha de tendência a uma visualização:
Selecione o painel Análise.
No painel Análise, arraste a Linha de tendência para a exibição e depois solte-a nos tipos de modelo Linear, Logarítmico, Exponencial, Polinomial ou de Potência.
Para obter mais informações sobre cada nó desses tipos de modelo, consulte Tipos de modelo da linha de tendência.
Sobre a adição de linhas de tendência (e quando não é possível adicioná-las)
Para adicionar linhas de tendência a uma exibição, ambos os eixos devem conter um campo que possa ser interpretado como um número. Por exemplo, não é possível adicionar uma linha de tendência a uma exibição que inclui a dimensão Categoria de produto, que contém cadeias de caracteres, na divisória Colunas e a medida Lucro na divisória Linhas. No entanto, é possível adicionar uma linha de tendência a uma exibição de vendas ao longo do tempo, pois as vendas e o tempo podem ser interpretados como valores numéricos.
Para fontes de dados multidimensional, as hierarquias de data de fato contêm cadeias de caracteres em vez de números. Portanto, as linhas de tendência não são permitidas. Além disso, os formatos de data “m/d/aa” e “mmmm aaaa” em todas as fontes de dados não permitem linhas de tendência.
Se você tiver linhas de tendência ativadas e modificar a exibição de uma maneira que as linhas de tendência não sejam permitidas, as linhas de tendência não serão mostradas. Ao modificar a exibição de volta para um estado que permita linhas de tendência, elas reaparecerão.
O Tableau empilha marcas de barra em muitos casos. No entanto, as linhas de tendência não podem ser ativadas para barras empilhadas. É possível desativar marcas empilhadas desmarcando a opção Análise > Marcas empilhadas.
Editar uma linha de tendência
Após adicionar uma linha de tendência à visualização, é possível editá-la para caber na análise.
Para editar uma linha de tendência:
No Tableau Desktop: clique com o botão direito do mouse na linha de tendência e selecione Editar linhas de tendência.
No modo de edição na Web:
- Na visualização, clique na linha de tendência e passe o cursor por cima dela.
- Na dica de ferramenta que aparecerá, selecione Editar para abrir a caixa de diálogo Opções de linha de tendência.
Observação: para editar uma linha de tendência no Tableau Cloud ou no Tableau Server, é necessário ter permissões de edição na Web.
É possível configurar as opções a seguir na caixa de diálogo Opções da linha de tendência:
Selecione um tipo de modelo. Para obter mais informações, consulte Tipos de modelo da linha de tendência.
Selecione quais campos usarão fatores na linha de tendência. Para obter mais informações, consulte Selecione quais campos usar como fatores na linha de tendência.
- Decida se é necessário excluir a cor usando a opção Permitir uma linha de tendência por cor. Quando há codificação de cores na exibição, é possível usar essa opção para adicionar uma única linha de tendência que modela todos os dados, ignorando a codificação de cores.
Decida se é necessário Mostrar faixas de confiança. As faixas de confiança do Tableau mostram linhas de confiança acima e abaixo de 95% por padrão quando você adiciona linhas de tendências. As linhas de confiança não são compatíveis com modelos exponenciais.
Selecione se é necessário Forçar a interceptação y em zero. Esta opção é útil quando você sabe que deseja que sua linha de tendência comece em zero. Essa opção só está disponível quando as divisórias Linhas e Colunas contêm um campo contínuo, como em um gráfico de dispersão.
Decida se deseja exibir linhas recalculadas ao selecionar ou destacar dados na visualização.
Selecione quais campos usar como fatores na linha de tendência.
Para os modelos de tendência que consideram diversos campos, é possível eliminar campos específicos no modelo de linha de tendência.
Muitas vezes você desejará remover fatores, pois deseja que o modelo de linha de tendência seja baseado na linha inteira da tabela, e não em separações por membros ou valores de um campo. Veja o exemplo a seguir. A exibição abaixo mostra as vendas mensais para várias categorias de produtos, divididas por região.
Você pode perceber que é criado um modelo separado para cada região.
Agora remova Região como um fator no modelo cancelando sua seleção na caixa de diálogo Opções de linhas de tendência.
Você pode observar que agora o modelo de linha de tendência dentro de uma categoria é o mesmo em todas as regiões. Isso permite que você faça uma comparação entre as vendas reais e uma linha de tendência que é a mesma para todas as regiões.
Remover linhas de tendência
Para remover uma linha de tendência de uma visualização, arraste-a para fora da área de visualização. Você também pode clicar em uma linha de tendência e selecionar Remover.
Para remover todas as linhas de tendência da exibição, selecione Análise >Mostrar linhas de tendência >Mostrar linhas de tendência.
Observação: no Tableau Desktop, as opções da linha de tendência estão retidas de forma que se você selecionar Mostrar linhas de tendência novamente no menu Análise, as opções estarão da mesma forma que da última vez. Entretanto, se você fechar a pasta de trabalho com linhas de tendência desativadas, as opções de linha de tendência retornam ao padrão.
Visualizar uma descrição de uma linha de tendência ou do modelo de linha de tendência
Após adicionar linhas de tendência, é possível mostrar estatísticas na linha de tendência. Por exemplo, é possível ver a fórmula, bem como valores de raiz quadrada e de probabilidade. Para obter mais informações sobre os tipos de modelo e termos usados nas descrições, consulte as seções Termos do modelo de linha de tendência e Tipos de modelo da linha de tendência.
Para visualizar uma descrição de uma linha de tendência:
- Focalize qualquer parte de uma linha de tendência para visualizar sua descrição.
Somente no Tableau Desktop
- Clique com o botão direito do mouse na visualização e selecione Descrever linha de tendência.
Para exibir uma descrição completa do modelo em uso na exibição atual:
- Clique com o botão direito do mouse em uma visualização e selecione Descrever linha de tendência.
Tipos de modelo da linha de tendência
Estes tipos de modelo estão disponíveis para as linhas de tendência: Linear, Logarítmico, Exponencial, Potência e Polinomial.
Nas seguintes fórmulas, X representa a variável explicativa e Y a variável de resposta.
Linear
No tipo de modelo linear, a fórmula é:
Y = b0 + b1 * X
onde b1
é a inclinação e b0
é o ponto de interseção da linha.
Logarítmico
No tipo de modelo logarítmico, a fórmula é:
Y = b0 + b1 * ln(X)
Como um logaritmo não é definido para um número menor que zero, qualquer marca para a qual a variável de resposta seja negativa é filtrada antes da estimativa do modelo. Evite usar um modelo que descarte alguns dados, a menos que você saiba que os dados filtrados são inválidos. A descrição da linha de tendência informa quantas marcas foram filtradas antes da estimativa do modelo.
Exponencial
No tipo de modelo exponencial, a fórmula é:
Y = exp(b0)* exp(b1 * X)
No modelo exponencial, a variável de resposta é transformada pelo logaritmo natural antes da estimação do modelo para que as marcas traçadas na exibição sejam encontradas ao conectar vários valores explicativos para encontrar os valores de ln(Y)
.
ln(Y) = b0 + b1 * X
Em seguida, esses valores são exponenciados para plotar a linha de tendência. O que você visualiza é o modelo exponencial na seguinte forma:
Y = b2*exp(b1 * X)
Onde b2
é o valor de exp(b0)
. Como um logaritmo não é definido para números menores que zero, qualquer marca para a qual a variável de resposta seja negativa é filtrada antes da estimativa do modelo.
Potência
No tipo de modelo de potência, a fórmula é:
Y = b0 * X^b1
No modelo de potência, as duas variáveis são transformadas pelo logaritmo natural antes da estimação do modelo, o que resulta nesta fórmula:
ln(Y) = ln(b0) + b1 * ln(X)
Em seguida, esses valores são exponenciados para plotar a linha de tendência.
Como um logaritmo não é definido para números menores que zero, qualquer marca para a qual a variável de resposta ou a explicativa seja negativa é filtrada antes da estimativa do modelo.
Polinomial
Com o tipo de modelo polinomial, a variável de resposta é transformada em uma série polinomial do nível especificado. A fórmula é:
Y = b0 + b1 * X + b2 * X^2 + …
No tipo de modelo polinomial, também é obrigatório selecionar um Nível entre 2 e 8. Os níveis polinomiais mais altos ampliam as diferenças entre os valores dos dados. Se os dados aumentarem muito rapidamente, os termos de ordem inferior praticamente não apresentarão variação em comparação com os termos de ordem superior, o que torna impossível estimar o modelo com precisão. Além disso, modelos polinomiais de classificação superior mais complicados exigem mais dados para estimativa. Verifique se há na descrição do modelo da linha de tendências individual uma mensagem de aviso em vermelho indicando que não é possível um modelo preciso desse tipo.
Termos do modelo de linha de tendência
Há vários valores listados quando a descrição para um modelo de linha de tendência é exibida. Esta seção aborda o que cada um desses valores significa.
Fórmula de modelo
Essa é a fórmula para o modelo completo de linha de tendência. A fórmula reflete se você especificou a exclusão de fatores do modelo.
Número de observações modeladas
O número de linhas usadas na exibição.
Número de observações filtradas
O número de observações excluídas do modelo.
Graus de liberdade de modelo
O número de parâmetros necessários para especificar completamente o modelo. Tendências exponenciais, logarítmicas e lineares têm graus de liberdade de modelo 2. Tendências polinomiais têm graus de liberdade 1, mais o grau do polinômio. Por exemplo, uma tendência cúbica possui graus de liberdade de modelo 4, já que são necessários parâmetros para termos invariáveis, lineares, ao quadrado e ao cubo.
Graus de liberdade residual (DF)
Para um modelo fixo, esse valor é definido como o número de observações menos o número de parâmetros estimados no modelo.
SSE (soma dos erros quadráticos)
Os erros são a diferença entre o valor observado e o valor previsto pelo modelo. Na tabela Análise de variação, essa coluna é na verdade a diferença entre a SSE do modelo mais simples nessa linha particular e o modelo completo, que usa todos os fatores. Essa SSE também corresponde à soma das diferenças quadráticas dos valores previstos a partir do modelo menor e do modelo completo.
MSE (erro de média quadrada)
O termo MSE se refere a "mean squared error" que é a quantidade SSE dividida por seus graus de liberdade correspondentes.
Raiz quadrada
A raiz quadrada é uma medida de como os dados se enquadram no modelo linear. É o índice de variância do erro do modelo, ou a variância não explicada, em relação à variância total dos dados.
Quando a interseção em y é determinada pelo modelo, a raiz quadrada é achada com a seguinte equação:
Quando a interseção em y é forçada para 0, a raiz quadrada é achada com a seguinte equação:
No último caso, a equação não corresponderá necessariamente ao Excel. Isto é porque a raiz quadrada não é bem definida neste caso e o comportamento do Tableau corresponde ao da raiz em vez do Excel.
Observação: o valor quadrado de R de um modelo de linha de tendência linear é equivalente ao quadrado do resultado da função CORR. Consulte Funções do Tableau (em ordem alfabética)(O link abre em nova janela) para obter a sintaxe e exemplos da CORR.
Erro padrão
A raiz quadrada do MSE do modelo completo. Uma estimativa do desvio padrão (variação) dos "random errors" na fórmula do modelo.
Valor p (importância)
A probabilidade de que uma variável aleatória de F com o grau de liberdade acima exceda o F observado nessa linha da tabela Análise de variação.
Análise de variação
Essa tabela, também conhecida como ANOVA, lista informações para cada fator no modelo de linha de tendência. Os valores são uma comparação do modelo sem o fator em questão com o modelo inteiro, que inclui todos os fatores.
Linhas de tendência individuais
Essa tabela fornece informações sobre cada linha de tendência na exibição. Observando a lista, é possível ver, se houver, quais são as mais estatisticamente significativas. Essa tabela também registra estatísticas de coeficiente para cada linha de tendência. Uma linha descreve cada coeficiente em todos os modelos de linha de tendência. Por exemplo, um modelo linear com uma interceptação requer duas linhas para cada linha de tendência. Na coluna Linha, o valor p e os DF para cada linha compreendem todas as linhas de coeficiente. A coluna DF na parte inferior mostra os graus de liberdade residual disponíveis durante a estimativa de cada linha.
Termos
O nome do termo independente.
Valor
O valor estimado do coeficiente para o termo independente.
StdErr
Uma medida da extensão da distribuição demonstrativa correspondente à estimativa de coeficiente. Esse erro diminui à medida que a qualidade e a quantidade das informações usadas na estimativa aumentam.
Valor t
A estatística usada para testar a hipótese nula de que o valor true do coeficiente é zero.
Valor p (p-value)
A probabilidade de observar um valor t grande ou maior em magnitude se o valor true do coeficiente for zero. Logo, um valor p de 0,05 nos dá 95% de certeza de que o valor true não é zero.
Avaliar a importância da linha de tendência
Para ver informações relevantes de qualquer linha de tendência na exibição, focalize o cursor sobre ela:
A primeira linha na dica de ferramentas mostra a equação usada para calcular um valor de Lucro com um valor de Ano da data do pedido.
A segunda linha, o valor quadrado de R, mostra a taxa de variância nos dados, conforme explicada pelo modelo, para a total variância nos dados. Para obter detalhes, consulte Termos do modelo de linha de tendência.
A terceira linha, o valor P, informa a probabilidade de a equação na primeira linha ser um resultado de probabilidade aleatória. Quanto menor for o valor p, mais significativo será o modelo. Um valor p de 0,05 ou menos costuma ser considerado suficiente.
Importância do modelo inteiro
Depois de adicionar uma linha de tendência a uma exibição, geralmente você quer conhecer o benefício do ajuste do modelo, que é uma medida da qualidade das previsões do modelo. Além disso, você pode estar interessado na importância de cada um dos fatores que contribuem para o modelo. Pra exibir esses números, abra a caixa de diálogo Descrever modelo de tendência clicando com o botão direito do mouse (clique pressionando a tecla Control pressionada no Mac) na exibição e selecionando Linhas de tendência >Descrever modelo de tendência.
Ao testar a importância, você tem a preocupação com os valores p Quanto menor for o valor p, mais significativo será o modelo.ou o fator. É possível obter um modelo com importância estatística, mas com uma linha de tendência individual ou um termo de uma linha de tendência individual que não contribui para a importância global.
Abaixo do modelo de linhas de tendência, localize a linha que mostra o valor p (importância) do modelo. Quanto menor for o valor p, menor será a chance dessa diferença na variação inexplicada entre modelos com e sem a medida ou as medidas relevantes ter sido resultado de um acaso.
Esse valor p de um modelo compara o ajuste de todo o modelo com o ajuste de um modelo composto exclusivamente pela média geral (a média dos dados na exibição de dados). Ou seja, ele avalia o poder explicativo do termo quantitativo f(x) na fórmula do modelo, que pode ser linear, polinomial, exponencial ou logarítmico com os fatores fixos. É comum avaliar a importância usando a regra "95% de confiança". Por isso, conforme observado acima, um valor p de 0,05 ou menos é considerado bom.
Importância dos fatores categóricos
Na tabela Análise de variação, chamada às vezes de tabela ANOVA, cada campo que é usado como um fator no modelo é registrado. Para cada campo, entre outros valores, você pode ver o valor p Nesse caso, o valor p indica o quanto esse campo adiciona à importância de todo o modelo. Quanto menor for o valor p-, menor será a chance da diferença na variação não explicada entre os modelos com e sem o campo ter sido resultado de uma chance aleatória. Os valores exibidos para cada campo são derivados da comparação do modelo inteiro com um modelo que não inclui o campo em questão.
A imagem a seguir mostra a tabela Análise de variação para uma exibição de vendas trimestrais dos últimos dois anos de três categorias de produtos diferentes.
Como se pode ver, os valores p para Categoria e Região são muito pequenos. Ambos os fatores são estatisticamente significativos neste modelo.
Para obter informações sobre termos da linha de tendência específicos, consulte Termos do modelo de linha de tendência.
Para modelos ANOVA, as linhas de tendência são definidas pela fórmula matemática:
Y = factor 1 * factor 2 *
...factorN * f(x) + e
O termo Y
é chamado de variável de resposta e corresponde ao valor que você está tentando prever. O termo X
é a variável explicativa, e e (ípsilon) é um erro aleatório. Os fatores na expressão correspondem aos campos categóricos na exibição. Além disso, cada fator é representado como uma matriz. O *
é um tipo específico de operador de multiplicação de matriz que utiliza duas matrizes com o mesmo número de linhas e retorna uma nova matriz com o mesmo número de linhas. Isso significa que, na expressão factor
1 * factor 2
, todas as combinações dos membros de fator 1 e fator 2 são introduzidas. Por exemplo, se fator 1 e fator 2 têm três membros, então um total de nove variáveis é introduzido na fórmula do modelo por esse operador.
Suposições de linha de tendência
Os valores p relatados nas linhas de tendência do Tableau dependem de algumas suposições sobre os dados.
A primeira suposição é que, sempre que um teste é realizado, o modelo para a média está (pelo menos aproximadamente) correto.
A segunda pressuposição é de que o "random errors" referenciados na fórmula do modelo (consulte Tipos de modelo da linha de tendência) sejam independentes nas diferentes observações e que todos eles tenham a mesma distribuição. Essa restrição seria violada se a variável de resposta tivesse muito mais variabilidade em torno da linha de tendência verdadeira em uma categoria em relação à outra.
Suposições exigidas para calcular linhas de tendência
As suposições exigidas para calcular (usando Quadrados mínimos comuns) cada linha de tendência individual são:
Seu modelo é uma simplificação funcional precisa do processo de geração de dados verdadeiros (por exemplo, nenhum modelo linear para um relacionamento linear de registro).
Seus erros resultam, na média, em zero e não são relacionados à sua variável independente (por exemplo, nenhum erro medindo a variável independente).
Seus erros têm variação constante e não são correlacionados entre si (por exemplo, nenhum aumento na distribuição de erro, à medida que sua variável independente aumenta).
Variáveis explicativos não são funções lineares exatas uma da outra (multicolinearidade perfeita).
Perguntas frequentes sobre as linhas de tendência
Esta seção descreve algumas perguntas feitas frequentemente em relação às linhas de tendência do Tableau.
Como altero o nível de confiança usado no modelo?
O Tableau não impõe um nível de confiança. Ele simplesmente relata a importância do modelo todo, ou de um campo específico, mostrando o valor p. O valor p medirá a probabilidade de obter o mesmo resultado de tendência sem levar as dimensões em conta. Por exemplo, uma tendência de vendas por valor p de tempo de 0,05 significa que existe uma chance de 5% de que o mesmo valor possa ser obtido sem que seja necessário levar o tempo em consideração.
Se o valor p para o modelo for significativo, mas o valor p para o campo específico na tabela Análise de variação não for, como isso pode ser interpretado?
O valor p na tabela Análise de variação indica se o campo é adicionado ou reduzido da importância do modelo inteiro. Quanto menor for o valor p-, menor será a chance da diferença na variação não explicada entre os modelos com e sem o campo ter sido resultado de uma chance aleatória. Os valores exibidos para cada campo são derivados da comparação do modelo inteiro com um modelo que não inclui o campo em questão. Logo, quando o valor p para o modelo for significativo, mas o valor p para o campo específico não for, você saberá que o modelo é estaticamente significativo; contudo, não terá a certeza de que o campo específico em questão adiciona algo a ele. Avalie se não seria melhor remover o fator do modelo.
Se o valor p para o campo específico na tabela Análise de variação for significativo, mas o valor p para o modelo não for, como isso pode ser interpretado?
Isso poderia acontecer em um caso em que não houvesse "trend" dentro de cada painel. Por exemplo, as linhas são uniformes, mas a média varia em um determinado fator.