使用 Data Interpreter 清理 Excel、CSV、PDF 和 Google Sheets 中的数据
通过 Excel 电子表格跟踪数据时,您在创建电子表格时会考虑人机界面。为了使电子表格易于阅读,您可能会包括像标题、堆叠式标头、注释这样的内容,并可能包括空行和空列来增加空白空间,而且还可能有多个数据标签。
如果要在 Tableau 中分析此数据,这些美观的内容可能会使 Tableau 很难解读您的数据。Data Interpreter 的作用就在于此。
提示:尽管不再支持 Tableau 的 Excel 外接程序,但 Data Interpreter 仍可帮助您对数据进行重整,以便在 Tableau 中分析。
Data Interpreter 有什么作用?
Data Interpreter 能够让您在清理数据时先拔头筹。它可以检测并绕过标题、注释、页脚、空单元格等内容,从而确定数据集中的实际字段和值。
它甚至可检测到附加的表和子表,以便可以独立于其他数据使用数据的子集。
Data Interpreter 发挥它的魔力之后,您可以检查它的工作,确保它捕获并正确标识了您所需的数据。然后,您可以进行任何必要的调整。
选择要使用的数据之后,您可能还需要执行一些额外的清理步骤,比如对数据进行透视、拆分字段或添加筛选器,以便在开始分析之前将数据塑造成所需的形式。
注意:如果您需要的更多数据清理工作超出了 Data Interpreter 的能力范畴,请尝试 Tableau Prep(链接在新窗口中打开)。
打开 Data Interpreter 并查看结果
从“连接”窗格中,连接到 Excel 电子表格或其他支持 Data Interpreter 的连接器,例如文本 (.csv) 文件、PDF 文件或 Google Sheets。
将一个表拖到画布上(如果需要),然后在“数据源”页面上的左侧窗格中,选中“使用 Data Interpreter”复选框,确定 Data Interpreter 是否可帮助清理您的数据。
注意:当您使用 Data Interpreter 清理您的数据时,Data Interpreter 会清理与数据源中的连接关联的所有数据。Data Interpreter 不会更改基础数据。
在“数据”窗格中,单击“查看结果”链接,查看 Data Interpreter 的结果。
您的数据源的副本将在 Excel 中“数据解释器的键”标签上打开。查看键以了解如何阅读结果。
单击每个标签以查看 Data Interpreter 如何解读数据源。
如果 Data Interpreter 发现了附加的表(也称为找到的表或子表),则会通过划定这些表的单元格范围在“<工作表名称>_subtables”标签中标识它们。此外还会为每个子表包括一个单独的标签,进行颜色编码来标识标头和数据行。
如果 Data Interpreter 未提供预期结果,请清除“使用 Data Interpreter 清理”复选框以使用原始数据源。
若要将当前表替换为任何找到的表,请将当前表拖离画布,然后将要使用的找到的表拖到画布上。
如果 Data interpreter 错误地标识了找到的表的范围,请在将找到的表拖到画布后,单击该表上的下拉箭头,然后选择“编辑找到的表”来调整找到的表的角(表的左上单元格和右下单元格)。
有了想要使用的数据之后,您可以向数据应用任何其他清理操作,以便可对其进行分析。
Data Interpreter 示例
在本例中,我们要连接到一个 Excel 电子表格,其中包含 2016 年按城市和州列出的暴力犯罪数据。此电子表格在一个工作表中包括多个表,并包括一些额外的格式设置。
标题
合并的标头单元格
额外的空白空间
子表
此电子表格中额外的格式设置让 Tableau 难以确定字段标题和值是什么。
作为替代,它会纵向读取数据并为每个列分配默认值 F1、F2、 F3(字段 1、字段 2、字段 3)等。空白单元格被读取为 null 值。
为了确定 Data Interpreter 是否能帮助清理此数据集,我们选择了“使用 Data Interpreter”。
Data Interpreter 检测到字段的正确标题、移除了额外的格式设置,并找到了若干子表。这些子表列在“数据”窗格的“工作表”部分,并使用原始工作表名称及每个子表的单元格范围命名。
本例中有三个子表:“Crimes 2016 A4:H84”、 “Crimes 2016 K5:L40”和“Crimes 2016 O5:P56”。
为了更仔细地检查 Data Interpreter 的结果,我们在“数据”窗格中单击“查看结果”链接来查看已添加注释的电子表格副本。
在这里我们会看到原始数据的副本,其已进行颜色编码来确定那些数据标识为标头数据,哪些数据标识为字段值。
下一个标签显示 Data Interpreter 找到的子表,其轮廓线通过单元格范围划定。
在本例中,第一个子表“Crimes 2016 A4:H84”包含我们想要处理的主要数据。若要将此表用作我们的数据表,只需将原始表拖离画布,然后将新表拖到画布上即可。
画布中有了我们想要处理的数据之后,我们可以对数据进行一些额外的清理。例如,我们可以:
更改字段名,使它们表示城市、州和月份名称。
对月份字段进行透视。
拖入第三个子表“Crimes 2016 o5:P56”,并将其联接到第一个子表的“State”(州)字段上,以包括州人口数进行分析。
隐藏由于联接而增加的任何重复字段。
结果可能如下所示:
现在我们已准备好在 Tableau 中开始分析数据。
Data Interpreter 何时不可用
Data Interpreter 选项可能会因以下原因而不可用:
数据源已具有 Tableau 可以解释的格式:如果 Tableau Desktop 无需 Data Interpreter 的额外帮助就能处理独特的格式设置或无关的信息,则 Data Interpreter 选项不可用。
许多行或许多列:在数据具有以下属性时,Data Interpreter 选项不可用:
数据包含超过 2000 列。
数据包含超过 3000 行和超过 150 列。
数据源不受支持:Data Interpreter 仅可用于 Microsoft Excel、文本 (.csv) 文件、PDF 文件和 Google Sheets。对于 Excel,数据必须为 .xls 和 .xlsx 格式。