向可视化项中添加趋势线

您可以在可视化项中显示趋势线以突出显示数据中的趋势。您可以发布包含趋势线的视图,并且您可以在 Web 上编辑视图时向视图添加趋势线。

向视图添加趋势线时,您可以指定期望的外观和行为。

向视图中添加趋势线

向可视化项中添加趋势线:

  1. 选择“分析”窗格。

  2. 从“分析”窗格将“趋势线”拖到视图中,然后将其放在“线性”、“对数”、“指数”、“多项式”或“幂次”模型类型上。

有关其中每个模型类型的详细信息,请参见趋势线模型类型

关于添加趋势线(以及何时无法添加趋势线)

若要向视图添加趋势线,两个轴必须包含一个可解释为数字的字段。例如,您不能向具有“Product Category”(产品类别)维度的视图添加趋势线,该维度在“列”功能区上和“行”功能区的“Profit”(利润)度量上包含字符串。不过,您可以向一段时间内的销售额视图添加趋势线,因为销售额和时间都可以解释为数字值。

对于多维数据源,数据分层结构实际上包含字符串而不是数字。因此,不允许使用趋势线。此外,所有数据源上的“m/d/yy”和“mmmm yyyy”日期格式都不允许使用趋势线。

如果您启用趋势线并以不允许使用趋势线的方式修改视图,则将不显示趋势线。将视图更改回允许趋势线的状态后,趋势线会重新显示。

在许多情况下,Tableau 会自动堆叠条标记。不过,无法针对堆叠的条打开趋势线。您可通过清除“分析”>“堆叠标记”选项来禁用堆叠标记。

编辑趋势线

向可视化项中添加趋势线之后,您可以对其进行编辑以适合您的分析。

编辑趋势线:

在 Tableau Desktop 中:在可视化项中右键单击趋势线,并选择“编辑趋势线”

在 Web 编辑模式下:

  1. 在可视化项中,单击趋势线,然后将光标悬停在趋势线上。
  2. 在出现的工具提示中,选择“编辑”打开“趋势线选项”对话框。

注意:若要在 Tableau Cloud 或 Tableau Server 中编辑趋势线,您必须有 Web 编辑权限。

您可以在“趋势线选项”对话框中配置以下选项:

  • 选择一种模型类型。有关详细信息,请参见趋势线模型类型

  • 选择哪些字段在趋势线模型中使用因素。有关详细信息,请参见选择哪些字段在趋势线模型中使用因素

  • 使用“允许按颜色绘制趋势线”选项来确定是否要排除颜色。当视图中有颜色编码时,可使用此选项来添加一条趋势线,该趋势线将忽略颜色编码而对所有数据建模。
  • 确定是否“显示置信区间”。默认情况下,当您添加趋势线时,Tableau 置信区间会显示上和下 95% 置信线。“指数”模型不支持置信线。

  • 选择是否将 y 截距强制为零。当您需要让趋势线从零开始时,此选项十分有用。仅当“行”功能区和“列”功能区都包含连续字段(就像散点图那样)时,才能使用该选项。

  • 决定当您在可视化项中选择或突出显示数据时是否显示重新计算的线

选择哪些字段在趋势线模型中使用因素

对于考虑多个字段的趋势模型,您可以忽略要作为趋势线模型中的因素的特定字段。

想要删除因素常常是因为希望将该趋势线模型基于表中的整个行,而不是按某个字段的成员或值进行划分。请看以下示例。下面的视图显示了按地区划分的各产品类别的月销售额。

可以看到,为每个地区分别创建了一个模型。

现在,在“趋势线选项”对话框中取消选择作为该模型中的一个因素的“Region”以将其移除。

可以看到,一个类别中的趋势线模型此时在所有地区中相同。这样,您就可以根据对于所有地区均相同的趋势线来比较实际销售额。

移除趋势线

若要从可视化项中移除趋势线,请将其拖离可视化项区域。您也可以单击趋势线并选择“移除”

若要从视图中移除所有趋势线,请选择“分析”>“趋势线”>“显示趋势线”

注意:在 Tableau Desktop 中保留了趋势线选项,因此如果从“分析”菜单中再次选择“显示趋势线”,则选项与上次设置的一样。不过,如果您在禁用趋势线的情况下关闭工作簿,则趋势线选项会恢复为默认设置。

查看趋势线或趋势线模型的说明

添加趋势线后,您可以显示有关趋势线的统计信息。例如,您可以查看公式以及 r 平方值和 p 值。有关模型类型和说明中使用的术语的详细信息,请参见趋势线模型术语趋势线模型类型部分。

查看趋势线的说明:

  • 将光标悬停在趋势线的任何部分上即可查看其说明。

仅限 Tableau Desktop

  • 在可视化项中右键单击趋势线,然后选择“描述趋势线”

查看当前视图中使用的模型的完整说明:

  • 在可视化项中右键单击趋势线,然后选择“描述趋势模型”

趋势线模型类型

趋势线有以下模型类型:线性对数指数幂次多项式

在以下公式中,X 表示解释性变量, Y 表示响应变量。

线性

对于线性模型类型,公式为:

Y = b0 + b1 * X

其中,b1 是斜率,b0 是线的截距。

对数

对于对数模型类型,公式为:

Y = b0 + b1 * ln(X)

由于不能对小于零的数字定义对数,因此在估算模型之前,解释性变量为负的任何标记将会被筛选掉。避免使用会丢弃某些数据的模型,除非您知道筛选掉的数据是无效的。趋势线描述报告在模型估算之前有多少标记被筛选掉。

指数

对于指数模型类型,公式为:

Y = exp(b0)* exp(b1 * X)

对于指数模型,自然对数在估算模型之前对响应变量进行转换,因此,通过插入各种解释性值来查找 ln(Y) 的值,可找到视图中绘制的标记。

ln(Y) = b0 + b1 * X

然后,将会取这些值的幂来绘制趋势线。您看到的是以下形式的指数模型:

Y = b2*exp(b1 * X)

其中 b2exp(b0) 的值。由于不能对小于零的数字定义对数,因此在估算模型之前,响应变量为负的任何标记将会被筛选掉。

幂次

对于幂次模型类型,公式为:

Y = b0 * X^b1

对于幂次模型,两个变量均由自然对数在估算模型之前转换,从而生成此公式:

ln(Y) = ln(b0) + b1 * ln(X)

然后,将会取这些值的幂来绘制趋势线。

由于不能对小于零的数字定义对数,因此在估算模型之前,响应变量或解释性变量为负的任何标记将会被筛选掉。

多项式

对于多项式模型类型,响应变量被转换为指定度数的多项式系列。公式为:

Y = b0 + b1 * X + b2 * X^2 + …

对于多项式模型类型,您还必须选择介于 2 和 8 之间的“度”。较高的多项式度数会放大数据值之间的差异。如果您的数据增加得非常快,与高序项相比,低序项可能几乎没有变化,从而使模型无法准确估算。另外,更复杂的高序多项式模型需要更多数据才能进行估算。检查各个趋势线的模型描述,看看里面是否有指示无法使用此类型的准确模型的红色警告消息。

趋势线模型术语

在查看趋势线模型的说明时,会列出多个值。本节讨论这些值的含义。

模型公式

这是完整趋势线模型的公式。该公式反映是否已指定从模型中排除因素。

已建模的观察值数

视图中使用的行数。

已筛选的观察值数

从模型中排除的观察值数。

模型自由度

完全指定模型所需的参数个数。线性、对数和指数趋势的模型自由度为 2。多项式趋势的模型自由度为 1 加上多项式的次数。例如,三次方趋势的自由度为 4,因为我们需要立方、平方、线性和常量项的参数。

残差自由度 (DF)

对于固定模型,此值定义为观察数目减去模型中估算的参数数目。

SSE(误差平方和)

误差是观察值与模型预测值间的差值。在方差分析表中,此列实际上是特定行中的较简单模型与使用所有因素的完整模型的 SSE 间的差值。此 SSE 也对应于较小模型与完整模型的预测值的“差值平方和”。

MSE(均方误差)

术语 MSE 是指“均方误差”,即 SSE 量除以其相应的自由度。

R 平方值

R 平方值是对数据与线性模型的适合程度的测量。它是模型错误的方差(或未解释的方差)与数据总方差的比率。

如果 y 截距由模型确定,则使用以下公式派生 R 平方值:

如果 y 截距强制为 0,则改为使用此公式派生 R 平方值:

在后一种情况下,公式将不一定与 Excel 匹配。这是因为在这种情况下 R 平方值并不明确,并且 Tableau 的行为与 R(而不是 Excel)的行为匹配。

注意:线性趋势线模型的 R 平方值等于 CORR 函数结果的平方。有关 CORR 的语法和示例,请参见Tableau 函数(按字母顺序)(链接在新窗口中打开)

标准误差

完整模型的 MSE 的平方根。模型公式中“随机误差”的标准偏差(变化)的估计值。

p 值(显著性)

具有以上自由度的 F 随机变量超出方差分析表的此行中所观察的 F 的概率。

方差分析

此表也称为 ANOVA 表,其中列出了趋势线模型中各因素的信息。值就是将不含相关因素的模型与包含所有因素的完整模型进行比较的结果。

各趋势线

此表提供了有关视图中每条趋势线的信息。通过查看该列表,您可了解哪些趋势线(如果有)最具有统计显著性。此表还列出了每条趋势线的系数统计数据。行描述了每个趋势线模型中的每个系数。例如,具有截距的线性模型要求每条趋势线有两行。在“线”列中,每条线的 p 值和 DF 跨所有系数行。下方的“DF”列显示了估算每条线期间可用的残差自由度。

独立项的名称。

独立项系数的估计值。

StdErr

对系数估计的抽样分布范围的度量。此误差随估计中使用的信息质量和数量的增加而减小。

t 值

用于测试“系数的真实值为零”这一 null 假设的统计值。

p 值

在系数的真实值为零时观察到幅值较大的 t 值的概率。因此,p 值 .05 提供了真实值不为零的 95% 置信。

评估趋势线显著性

若要查看视图中任意趋势线的相关信息,请将光标悬停在趋势线上:

工具提示中的第一行显示用于依据“Year of Order Date”(订单日期年份)的值计算“Profit”(利润)的等式。

第二行“R 平方值”显示由模型解释的数据中的方差与数据中的总方差的比率。有关详细信息,请参见趋势线模型术语

第三行“P 值”报告第一行中的等式是随机机会的结果的概率。p 值越小,模型的显著性就越高。通常认为等于或小于 0.05 的 p 值已足以满足要求。

整个模型的显著性

向视图添加趋势线后,您通常想要知道模型的拟合优度,这是模型预测质量的一种度量。此外,您还可能对在模型中起作用的各因素的显著性感兴趣。若要查看这些数字,请打开“描述趋势模型”对话框,在视图中右键单击(在 Mac 上按住 Control 单击)并选择“趋势线”>“描述趋势模型”

在测试显著性时,您关心的是 p 值。p 值越小,模型或因素的显著性就越高。一个模型可能具有统计显著性,但其包含的单个趋势线或单个趋势线的项对总体显著性不起作用。

在“趋势线模型”下,查找显示模型 p 值(显著性)的趋势线。p 值越小,带和不带相关度量的模型之间未解释方差的差异是随机机会的结果的可能性就越小。

模型的此 p 值对整个模型的拟合度与仅由总平均值(数据视图中数据的平均值)组成的模型的拟合度进行比较。也就是说,该值对模型公式中定量项 f(x) 的说明能力进行评估;各因素固定时,该项可以是线性、多项式、指数或对数项。一一般使用“95% 置信”规则来评估显著性。因此,如上所述,等于或小于 0.05 的 p 值被视为正常。

分类因素的显著性

方差分析表(有时称为 ANOVA 表)中列出了用作模型中的因素的每个字段。对于每个字段,您可看到 p 值与其他值一起显示。在此情况下,p 值指示该字段对整个模型的显著性有多大贡献。p 值越小,带字段和不带字段的模型之间未解释方差的差异是随机机会的结果的可能性就越小。针对每个字段显示的值是通过将整个模型与不包括相关字段的模型进行比较得到的。

下图显示了在过去两年中三个不同产品类别的季度销售额视图的方差分析表。

可以看到,“Category”“Region”的 p 值都很小。这两个因素在此模型中都具有统计显著性。

有关特定趋势线术语的信息,请参见趋势线模型术语

对于 ANOVA 模型,趋势线由数学公式定义:

Y = factor 1 * factor 2 * ...factorN * f(x) + e

Y 项称为响应变量,对应于尝试预测的值。X 项是解释性变量e (epsilon) 是随机误差。表达式中的各个因素对应于视图中的分类字段。此外,每个因素都表示为一个矩阵。* 是一种特殊的矩阵乘法运算符,它将两个具有相同行数的矩阵相乘,并返回一个具有相同行数的新矩阵。这意味着,在表达式 factor 1 * factor 2 中,将会引入因素 1 和因素 2 的成员的所有组合。例如,如果因素 1 和因素 2 都有三个成员,则此运算符将在模型公式中引入总共九个变量。

趋势线假设

Tableau 趋势线中报告的 p 值取决于一些关于数据的假设。

第一个假设是,每当执行测试时,平均值模型都是(至少大约是)正确的。

第二个假设是,模型公式中引用的“随机误差”(请参见趋势线模型类型)在不同的观察中是独立的,并且全部具有相同分布。如果响应变量在一个类别中的真实趋势线周围与在另一个类别中相比具有更多变化,就会违反此约束。

计算趋势线所需的假设

计算(使用普通最小二乘法)每条趋势线所需的假设包括:

  • 模型是对实际数据生成过程的准确功能简化(例如,对数线性关系没有线性模型)。

  • 误差平均值为零并且与独立变量无关(例如,没有测量独立变量的误差)。

  • 误差具有常量方差并且彼此无关(例如,误差分布不随独立变量的增加而增加)。

  • 解释变量不是彼此的精确线性函数(完全多重共线性)。

关于趋势线的常见问题

本节介绍有关 Tableau 中的趋势线的一些常见问题。

如何更改模型中使用的可信度?

Tableau 不会强制实施可信度。它只是通过显示 p 值来报告整个模型或特定字段的显著性。p 值将测量得到相同趋势结果的概率,而不考虑维度。例如,基于时间的销售趋势 p 值 0.05 意味着有 5% 的几率会得到相同值,而不考虑时间。

模型的 p 值显著但方差分析表中特定字段的 p 值不显著意味着什么?

方差分析表中的 p 值指示字段是增加还是降低整个模型的显著性。p 值越小,带字段和不带字段的模型之间未解释方差的差异是随机机会的结果的可能性就越小。针对每个字段显示的值是通过将整个模型与不包括相关字段的模型进行比较得到的。因此,对于模型的 p 值显著但特定字段的 p 值不显著的情况,虽然您知道模型具有统计显著性,但您不能确信相关的特定字段对该模型是否有任何改进。此时需要考虑从模型中移除该因素是否会使情况变好。

方差分析表中特定字段的 p 值显著但模型的 p 值不显著意味着什么?

在各区中没有“趋势”时,可能会出现这种情况。例如,线是平坦的,但平均值随给定因素发生变化。

感谢您的反馈!您的反馈已成功提交。谢谢!