“数据解释”功能的工作原理

使用“数据解释”功能作为渐进式的出发点来进一步探索您的数据。它生成的可行解释可帮助您查看构成视图中已分析标记或与之相关的不同值。它可以让您了解数据源中数据点的特征,以及数据如何使用统计建模相关(关联)。这些解释为您提供了另一种工具,用于检查数据并查找有关接下来要探索的内容的有趣线索。

注意:“数据解释”功能是一种工具,用于发现和描述数据中的关系。它无法告诉您导致关系的原因或如何解释数据。您是数据的专家。在帮助您决定哪些特征对于使用不同视图进一步探索可能很有趣时,您的领域知识和直觉非常关键。

有关“数据解释”功能的工作原理以及如何使用“数据解释”功能来增强分析的相关信息,请参见以下 Tableau 会议演示文稿:

“数据解释”功能是什么(不是什么)

“数据解释”功能是:

  • 对您的领域专业知识加以利用的工具和工作流。
  • 一种工具,可显示数据中的关系并建议下一步查看的位置。
  • 有助于加快数据分析并使更广泛的用户更容易访问数据分析的工具和工作流。

“数据解释”功能不是:

  • 统计测试工具。
  • 证明或反驳假设的工具。
  • 一个能给您答案或告诉你数据中因果关系的工具。

在标记上运行“数据解释”功能时,请记住以下几点:

  • 使用可聚合的精细数据。此功能专为分析聚合数据而设计。这意味着您的数据必须精细,但必须在更高的详细级别对您为“数据解释”功能选择的标记进行聚合或汇总。“数据解释”功能无法在最精细详细级别的解聚标记(行级别数据)上运行。

  • 考虑数据的形状、大小和基数。尽管“数据解释”功能可与较小的数据集结合使用,但它需要足够宽并包含足够标记(粒度)的数据才能创建模型。

  • 不要假设因果关系。关联不是因果关系。解释基于数据的模型,但不是因果性解释。

    关联意味着某些数据变量(例如 A 和 B)之间存在关系。您不能仅仅从数据中看到这种关系就知道是 A 导致了 B 还是 B 导致了 A,或者是否发生了更复杂的事情。这些数据模式在每种情况中完全相同,一个算法不能区分每种情况。仅仅因为两个变量看起来一起变化并不一定意味着一个变化会导致另一个变化发生变化。第三个因素可能导致两者都发生了变化,也可能只是巧合,根本没有任何因果关系。

    不过,您可能会从外部了解到一些不在数据内的信息,这些信息可帮助您确定所发生的情况。一种通常可从外部了解到的情况是,数据是在实验中收集的。如果您知道 B 是像抛硬币一样随机选择的,那么 A 中任何一致的差异模式(不仅仅是随机噪声)一定是由 B 导致的。有关这些概念更详细、更深入的说明,请参见 Hal Varian 撰写的文章 Causal inference in economics and marketing(经济和市场营销中的因果推断)(链接在新窗口中打开)

如何对解释进行分析和评估

“数据解释”功能在仪表板或工作表上运行统计分析,以查找属于异常值的标记,或者特别在您选择的标记上执行。分析还会考虑当前视图中未显示的数据源中可能相关的数据点。

“数据解释”功能第一次只会使用可视化项中存在的数据预测标记的值。接下来,将会考虑数据源(而不是当前视图)中的数据并将其添加到模型。模型确定预测标记值的范围,该范围在预测值的一个标准偏差内。

什么是预期范围?

标记的预期值是可视化项中基础数据的预期值范围中的中值。预期范围是统计模型为已分析标记预测的第 15 个和第 85 个百分位数之间的值范围。Tableau 每次对选定标记运行统计分析时都会确定预期范围。

将使用统计建模基于可能的解释的解释能力来对其进行评估。对于每个解释,Tableau 会将预期值与实际值进行比较。

描述
高于预期/低于预期如果预期值摘要显示标记低于预期高于预期,则意味着聚合的标记值不在统计模型针对标记预测的值的范围内。如果预期值摘要显示标记略低于略高于预期,或在自然偏差范围内,则意味着聚合的标记值在预测标记值的范围内,但为该值范围内的较低值或较高值。
预期值如果某个标记具有预期值,则意味着其值落在统计模型为该标记预测的预期值范围内。
随机变化当已分析标记的记录数较少时,可能没有足够的数据可供“数据解释”功能来形成具有统计意义的解释。如果标记的值超出预期范围,“数据解释”功能无法确定此意外值是由随机变化引起的还是由基础记录中的有意义的差异引起的。
没有解释当已分析标记值超出预期范围并且不符合用于“数据解释”功能的统计模型时,不会生成解释。

用于分析的模型

“数据解释”功能会在视图中构建数据模型来预测标记的值然后在给定模型的情况下确定标记是高于还是低于预期值。接下来,它会考虑其他信息,如将数据源中的其他列添加到视图,或将记录级别离群值标记为可能的解释。对于每个可能的解释,“数据解释”功能都会适配一个新模型,并在给定新信息的情况下评估标记的非预期程度。解释的分数是通过将复杂性(从数据源中添加了多少信息)与需要解释的变异量加以权衡得出的。如果解释比它们所解释的变化更简单,则解释就更好。

 

解释类型评估

极端值

基于可视化标记的模型,极端值是离群值形式的聚合标记。如果所选标记位于数据预期值分布的尾部,则被视为包含极端值。

通过比较有极端值和无极端值的聚合标记来确定极端值。如果删除值后标记变得不那么让人惊讶,则它会得到较高的分数。

当标记具有极端值时,并不自动意味着它具有离群值,或者您应将这些记录从视图中排除。怎样选择由您根据分析自行决定。解释只是指出标记中一个有趣的极端值。例如,它可能会显示记录中一个输入错误的值,即一根香蕉的成本为 10 美元,而不是 10 美分。或者,它可能会显示一名特定销售人员在某个季度的表现特别出色。

记录数

记录数解释根据聚合计数对聚合总和进行建模;记录的平均值根据聚合平均值对其进行建模。模型对总和的解释越好,得分就越高。

此解释描述总和由于计数较高或较低或者平均值较高或较低而是否令人关注。

标记的平均值

这种类型的解释用于总和形式的聚合标记。它解释了标记是否与其他标记一致,因为就其聚合计数或平均值而言,注意关系 SUM(X) = COUNT(X) * AVG(X)。

此解释描述总和由于计数较高或较低或者平均值较高或较低而是否令人关注。

产生影响的维度

该解释根据未可视化维度的类别之间的细分对已分析标记的目标度量进行建模。分析平衡了模型的复杂性和对标记的解释程度。

非可视化维度是存在于数据源中,但当前未在视图中使用的维度。这种类型的解释用于总和、计算及平均值。

非可视化维度的模型是通过以下方式创建的:依据解释列的分类值将标记拆分,然后使用包括源可视化项中所有数据点的值构建模型。对于每一行,模型都会尝试恢复组成每个标记的各个组件。分析指明,与使用非可视化维度的值未知的模型相比,对与非可视化维度对应的组件进行建模然后加总时,模型是否能对标记进行更好的预测。

聚合维度解释探讨在没有任何条件的情况下可将标记值解释到怎样的程度。然后,模型会通过条件对作为可能解释的每一列的值进行限制。通过对解释列的分布进行条件限制,应该能进行更好的预测。

产生影响的度量

此解释根据这种未可视化的度量对标记建模,聚合为其跨可视化维度的平均值。非可视化度量是存在于数据源中,但当前未在视图中使用的度量。

产生影响的度量解释可以揭示未可视化度量与目标度量之间的线性或二次关系。

感谢您的反馈!您的反馈已成功提交。谢谢!