配置数据集
若要确定在流程中包括多少数据集,您可以配置数据集。当您连接到数据或将表拖到“流程”窗格中时,会自动向流程中添加一个输入步骤。这始终是流程中的第一步。您可以右键单击输入步骤以对其进行重命名或将其移除。如果连接到 Excel 或文本文件,您还可以从输入步骤中刷新数据。有关如何通过输入步骤刷新数据的详细信息,请参见在“输入”步骤中添加更多数据。
在输入步骤中,您可以看到有关数据集的详细信息。在这里,您可以搜索字段、查看示例值,以及执行操作来缩小数据集的大小,例如选择要包括的字段、选择要处理的数据样本,或将筛选器应用于所选的字段或行。您还可以通过更改字段的数据类型或字段名来配置字段属性,或者为文本文件配置文本设置。
注意:包括方括号的字段值会自动转换为圆括号。
连接到自定义 SQL 查询
如果数据库支持使用自定义 SQL,您将会看到“自定义 SQL”显示在“连接”窗格靠近底部的位置。双击“自定义 SQL”打开“自定义 SQL”选项卡,您可以在其中输入查询来预选择数据和使用特定于来源的操作。查询检索数据集之后,您可以选择要包括的字段、应用筛选器,或在将数据添加到流程之前更改数据类型。
有关使用自定义 SQL 的详细信息,请参见 Tableau Desktop 和 Web 制作帮助中的连接到自定义 SQL 查询。
在输入步骤中应用清理操作
只能在“输入”步骤中执行部分清理操作。您可以在“输入”字段列表中进行以下任何更改。系统会在“更改”窗格中跟踪您所做的更改,并会在“流程”窗格中“输入”步骤的左侧以及“输入”字段列表中添加注释。
-
筛选:在工具栏中单击“筛选值”,然后在计算编辑器中输入筛选条件。
-
重命名字段:在“字段名”字段中,双击或按住 Ctrl 并单击 (MacOS)字段名,并输入一个新字段名。
-
更改数据类型:单击字段的数据类型,并从菜单中选择一个新数据类型。
-
移除字段:清除不想包括在流程中的字段旁边的复选框。
选择要包括在流程中的字段
“输入”窗格显示数据集中的字段列表。您可以使用“搜索”字段在列表中查找字段,然后使用复选框来选择要包括或排除的字段。若要在流程中包括或排除所有字段,请切换网格顶部的复选框。
将筛选器应用于输入步骤中的字段
若要筛选字段,请执行以下操作:
-
在工具栏中,单击“筛选值”。
-
在计算编辑器中输入筛选条件。
计算筛选器类型是“输入”步骤中提供的唯一筛选器选项。其他步骤类型中提供了其他筛选器选项。有关详细信息,请参见筛选您的数据。
更改字段名称
若要更改字段的名称,请在“字段名称”列中选择名称,然后在字段中键入新名称。将会在字段网格以及“输入”步骤左侧的流程窗格中添加注释。系统也会在“更改”窗格中跟踪您所做的更改。
更改数据类型
若要更改字段的数据类型,请执行以下操作:
-
单击字段的数据类型。
-
从菜单中选择新数据类型。
您还可以更改流程中其他步骤类型中的字段的数据类型,或分配数据角色来帮助验证字段值。有关更改数据类型或使用数据角色的详细信息,请参见查看分配给数据的数据类型和使用数据角色验证数据。
配置字段属性
处理文本文件时,您会看到“文本设置”选项卡,在该选项卡中,您可以编辑连接和配置文本属性,例如文本文件的字段分隔符。您也可以在“连接”窗格中编辑文件连接。
处理文本或 Excel 文件时,您可以纠正在开始流程之前错误推断的数据类型。在开始流程之后,始终可以在后续步骤中通过“配置”窗格更改数据类型。
配置文本文件中的文本设置
若要更改用于解析文本文件的设置,请从以下选项中选择:
-
第一行包含标题(默认值):选择此选项以使用第一行作为字段标签。
-
自动生成字段名称:如果希望 Tableau Prep Builder 自动生成字段标题,请选择此选项。字段命名约定采用与 Tableau Desktop 相同的模式。例如,F1、F2 等。
-
字段分隔符:从列表中选择一个字符用于分隔各个列。选择“其他”以输入自定义字符。
-
文本限定符:选择用于在文件中将值引起来的字符。
-
字符集:选择用于描述文本文件编码的字符集。
-
区域设置:选择要用于解析文件的区域设置。此设置指明要使用哪个小数分隔符和千位分隔符。
选择数据样本大小
默认情况下,为了维持最佳性能,Tableau Prep Builder 会将流程中包括的数据限制为一个数据集的代表性样本。通过根据数据集中的字段总数和这些字段的数据类型来计算最佳行数,即可确定数据样本。Tableau Prep Builder 随后即会尽快针对计算量检索最多的行数。
生成的数据样本可能包括您需要的所有行,也可能不包括,具体情况取决于样本的计算和返回方式。如果看不到预期数据,您可以更改数据样本设置以再次运行查询。
注意:如果已对数据抽样,则“配置”窗格中会显示一个“已抽样” 指示符,并且该指示符会为您添加的每个步骤保留。所做的任何更改将应用于您在流程中处理的样本。在运行流程时,所有更改都将应用于整个数据集。
若要更改数据样本设置,请选择一个输入步骤,然后在“数据样本”选项卡上从以下选项中进行选择:
-
默认样本量(默认值):Tableau Prep Builder 会计算要返回的总行数。
-
使用所有数据:检索数据集中的所有行,而不管大小如何。这可能会影响性能,或导致 Tableau Prep Builder 超时。
注意:为了维持性能,即使您选择此设置,也会向“聚合”和“合并”步骤类型应用 100 万行的数据样本限制,并向“联接”和“转置”步骤类型应用 300 万行的数据样本限制。
-
固定行数:选择要从数据集返回的行数。推荐的行数为 100 万行或更少。将行数设置为超过 100 万行可能会影响性能。
-
快速选择(默认值):数据库会尽快返回请求的行数。这可能是前 N 行,或是上一次查询中数据库缓存在内存中的行数。
-
随机抽样:数据库返回请求的行数,但会查看数据集中的每一行并从所有行中返回一个代表性样本。在首次检索数据时,此选项可能会影响性能。