预测建模中的正则化与扩增

适用于： Tableau Cloud, Tableau Desktop, Tableau Public, Tableau Server

许多使用 Tableau 的人可能不使用预测建模，更不用说寻找方法来提高预测模型的拟合和预测质量。本文适用于对数据科学这一领域感兴趣的高级用户。

除了目标表达式（要预测的度量）和预测因子表达式（用于进行预测的度量和/或维度）等默认参数外，您还可以再添加两个参数来微调您的预测：lambda、正则化参数和扩增。这涉及到将新参数添加到计算的语法中。

哪些模型可与正则化和扩增一起使用？

提醒一下，Tableau 中的预测建模函数支持三种模型：线性回归（也称为普通最小二乘回归，或 OLS）、正则化线性回归（或岭回归）和高斯过程回归。如果您使用线性回归或岭回归，则扩增允许您提高模型拾取非线性模式的能力。如果您使用的是岭回归，则正则化参数是一个标量，可用于调整模型上的正则化效果。

正则化和扩增不适用于高斯过程回归。

在进一步讨论正则化和扩增之前，让我们回顾一下以下两个模型：

线性回归最适合用于预测和预测目标之间有线性关系的一个或多个预测因子，它们不受相同基础条件的影响，并且它们不表示同一数据的两个实例（例如，以美元和欧元表示的销售额）。

正则化线性回归用于提高稳定性，减少共线性的影响，并改善计算效率和泛化。在 Tableau 中，使用 L2 正则化。有关 L2 正则化的详细信息，请参见有关岭回归的课程。

岭回归是一种特定的正则化线性回归。正则化对模型系数的大小施加了惩罚。正则化的强度由 lambda 控制，后者是用于微调正则化整体影响的标量。值越高，惩罚越重（即正则化程度越高）。

岭回归解决了线性回归的一些问题：

默认情况下，Tableau 中的岭回归具有 lambda=0.5，因为此值在许多情况下效果良好。若要更改 lambda 值，只需编辑表计算（如下例所示）。

MODEL_QUANTILE 和 MODEL_PERCENTILE 的扩增是数据扩增的一个简单示例：预测因子扩展到更高阶的多项式。在 Tableau 中，预测建模函数内置了几种类型的多项式加法。

在线性回归中，默认情况下，只有有序维度在 augmentation=on 的情况下被扩增；在 model=rl 的岭回归中，默认情况下仅增加度量。若要覆盖设置并禁用计算中每个预测因子的扩增，请使用 augmentation=off；不会添加更高阶的多项式。

当数据集非常小时，关闭扩增是有利的，因为扩增可能过度拟合原始数据中存在的任何噪音，也因为由此产生的关系更简单、更直观。

注意：基于每个预测因子（即，在您的计算的预测因子参数内）打开/关闭扩增。Lambda（和模型）应用于更高级别（在任何预测因子表达式之外）。

现在，您了解了正则化参数（或 lambda）以及数据扩增，让我们在预测计算的上下文中查看它们：

MODEL_QUANTILE("model=rl, lambda=0.05", 0.5, SUM([Profit]), "augmentation=off", SUM([Sales]))

下表快速总结了更改默认的扩增和 lambda 是否会影响线性模型：

如果您的数据模型错误，则更改正则化参数或扩增不太可能产生明显更好的效果。考虑查看数据类型是否正确（度量与维度）。例如，如果基础数据是时间系列，请考虑使用高斯过程回归，方法是使用 model=gp 更改表计算中的模型。
由于 OLS 未正则化，因此没有可以更改的 lambda 值。
如果您的数据集非常小，并且您具有维度（尤其是高基数维度），则考虑通过在表中添加 model=rl 来使用岭回归。
在所有条件相同的情况下（对于相同的数据集，如果启用或禁用扩增），较低的 lambda 可能会改善拟合，但会损害泛化（导致过度拟合）。
相反，高 lambda 可能会将拟合推到一个恒定模型，而不依赖于任何预测因子。这将减少模型容量（导致欠拟合）。