配置数据集
注意:从版本 2020.4.1 开始,您现在可以在 Tableau Server 和 Tableau Cloud 中创建和编辑流程。除非特别指出,本主题中的内容适用于所有平台。有关在 Web 上制作流程的详细信息,请参见 Tableau Server(链接在新窗口中打开) 和 Tableau Cloud(链接在新窗口中打开) 帮助中的 Web 上的 Tableau Prep。
若要确定在流程中使用多少数据集,您可以配置数据集。当您连接到数据或将表拖到“流程”窗格中时,会自动向流程中添加一个输入步骤。
在“输入”步骤中,您可以决定要在流程中包含哪些数据以及包含多少数据。这始终是流程中的第一步。
如果连接到 Excel 或文本文件,您还可以从输入步骤中刷新数据。有关详细信息,请参见在“输入”步骤中添加更多数据(链接在新窗口中打开)。
在“输入”步骤中,您可以:
- 在流程窗格中右键单击或按住 Cmd 并单击 (MacOS) 输入步骤,以重命名或移除该步骤。
- 合并位于同一父目录或子目录中的多个文件。有关详细信息,请参见在输入步骤中合并文件和数据库表。
- (版本 2023.1 及更高版本)包括根据数据集的原始排序顺序自动生成的行号。请参见包括数据集中的行号。
- 搜索字段。
- 请参见字段值示例。
通过更改字段名称来配置字段属性,或为文本文件配置文本设置。
注意:包括方括号的字段值会自动转换为圆括号。
- 执行操作以更改您在流程中使用的数据。请参见选择数据样本大小。
- 配置接收到您的流程中的数据样本。
- 移除不需要的字段。您始终可以返回到输入步骤并在以后包含它们。
- 隐藏不需要清理,但仍希望将其包括在流程输出中的字段。如果需要,您可以随时取消隐藏它们。
- 将筛选器应用于选定的字段。
更改支持它的数据连接的字段数据类型。
其中包括 Microsoft Excel、文本和 PDF 文件,以及来自 Box、Dropbox、Google 云端硬盘对于其他数据源,您可以在“清理”步骤中更改数据类型。
有关详细信息,请参见查看分配给数据的数据类型
包括数据集中的行号
在 Tableau Prep Builder 版本 2023.1 及更高版本中以及在 Web 上支持 Microsoft Excel 和文本 (.csv) 文件。
注意:当前不支持为输入并集中包含的文件使用此选项。
从版本 2023.1 开始,Tableau Prep 会根据数据的原始排序顺序自动生成行号,您可以将其作为新字段包含在流程中。这仅适用于 Microsoft Excel 或文本 (.csv) 文件类型。
在以前的版本中,如果您想包含这些行号,则必须在将数据集添加到流程之前手动将它们添加到源中。
当连接到您的数据时,该字段在输入步骤中生成。默认情况下,它被排除在流程之外,但您可以单击一下将其包括在内。如果选择将其包括在内,它的行为与任何其他字段一样,可用于您的流程操作和计算字段。
Tableau Prep 还支持计算字段的 ROW_NUMBER 函数。当您的数据集中有可以定义排序的字段(例如 Row ID 或 Timestamp)时,此函数很有用。有关使用此函数的详细信息,请参见创建详细级别、排名和分片计算。
将源行号字段添加到您的流程
右键单击或按住 Cmd 单击 (MacOS) 字段,或单击“更多选项”
菜单并选择 “包括字段”。
更改列表被清除,该字段现在是流程数据的一部分,您可以在后续流程步骤中看到生成的行号。
源行号详细信息
当您在数据集中包括“Source Row Number”时,以下选项和注意事项适用。
- 数据源行号在任何数据采样或筛选器之前应用。
- 这将创建一个名为“Source Row Number”的新字段,该字段在整个流程中持续存在。此字段名未本地化,但可以随时重命名。
- 如果已存在具有此名称的字段,则新字段名称递增 1。例如“Source Row Number-1”、“Source Row Number-2”,等等。
- 您可以在后续步骤中更改字段的数据类型。
- 您可以在流程操作和计算中使用此字段。
- 每次刷新输入数据或运行流程时,都会为整个数据集重新生成此值。
- 此字段不可用于输入并集。
连接到自定义 SQL 查询
如果数据库支持使用自定义 SQL,您将会看到“自定义 SQL”显示在“连接”窗格靠近底部的位置。双击“自定义 SQL”打开“自定义 SQL”选项卡,您可以在其中输入查询来预选择数据和使用特定于来源的操作。查询检索数据集之后,您可以选择要包括的字段、应用筛选器,或在将数据添加到流程之前更改数据类型。
有关使用自定义 SQL 的详细信息,请参见使用自定义 SQL 连接到数据。
在输入步骤中应用清理操作
只能在“输入”步骤中执行部分清理操作。您可以在“输入”字段列表中进行以下任何更改。系统会在“更改”窗格中跟踪您所做的更改,并会在“流程”窗格中“输入”步骤的左侧以及“输入”字段列表中添加注释。
- 隐藏字段:隐藏字段而不是移除它们以减少流程中的混乱。如果需要,您可以随时取消隐藏这些字段。当您运行流程时,隐藏字段仍将包含在输出中。
- 筛选:使用计算编辑器筛选值,或者从版本 2023.1 开始,您也可以使用“相对日期筛选器”对话框以快速指定任何日期或日期和时间字段的日期范围。
重命名字段:在“字段名”字段中,双击或按住 Ctrl 并单击 (MacOS)字段名,并输入一个新字段名。
更改数据类型:单击字段的数据类型,并从菜单中选择一个新数据类型。Microsoft Excel、文本和 PDF 文件、Box、Dropbox、Google Drive 和 OneDrive 数据源目前支持此选项。所有其他数据源都可以在清理步骤中更改。
选择要包括在流程中的字段
注意:从版本 2023.1 开始,您可以选择多个字段来隐藏、取消隐藏、移除或包含它们。在以前的版本中,您一次可以处理一个字段并选中或清除复选框以包含或移除字段。
“输入”窗格显示数据集中的字段列表。默认情况下,除自动生成的字段“Source Row Number”外,所有字段都包括在内。使用以下选项来管理您的字段。
- 搜索:在列表中查找字段。
- 隐藏: 单击眼睛
图标或从“更多选项”
菜单中选择“隐藏字段”,以隐藏要包含在流程输出中但不需要清理的字段。字段在运行时由流程处理。如果需要,您也可以随时“取消隐藏”字段。有关详细信息,请参见隐藏字段(链接在新窗口中打开)。
- 包含字段:选择一行或多行并单击鼠标右键,按住 Cmd 单击 (MacOS),或单击“更多选项”
菜单并选择“包含字段”,添加标记为已移除的字段。
- 移除字段:选择一行或多行并单击鼠标右键,按住 Cmd 单击 (MacOS),单击“X”,或单击“更多选项”
菜单并选择 “移除字段”,移除您不想包含在流程中的字段。
将筛选器应用于输入步骤中的字段
在输入步骤中应用筛选器以减少您从数据源摄取的数据量。通过消除运行流程时不想处理的数据,您可以获得交互式性能效率和更有用的数据样本。
在输入步骤中,您可以使用计算编辑器应用筛选器。从版本 2023.1 开始,您还可以使用“相对日期筛选器”对话框以指定要包含在日期和日期和时间字段类型中的确切日期值范围。有关详细信息,请参见筛选您的数据(链接在新窗口中打开)中的“相对日期筛选器”。
您可以在“清理”步骤或其他步骤类型中使用其他筛选器选项。有关详细信息,请参见筛选您的数据(链接在新窗口中打开)。
应用计算筛选器
在工具栏中单击“筛选值”,或在字段网格中,单击“更多选项”
菜单,并选择“筛选”>“计算...”。
在计算编辑器中输入筛选条件。
应用相对日期筛选器
在输入网格中,选择数据类型为日期或日期和时间的字段。然后右键单击,按住 Cmd 单击 (MacOS),或单击“更多选项”
菜单并选择“筛选”>“相对日期”。
使用“相对日期筛选器”对话框,指定要包含在流程中的年、季度、月、周或天的确切范围。您也可以配置相对于特定日期锚点,并包括 null 值。
注意:默认情况下,筛选器相对于流在创作体验中运行或预览的日期运行。
更改字段名称
若要更改字段的名称,请在“字段名称”列中选择名称,然后在字段中键入新名称。将会在字段网格以及“输入”步骤左侧的流程窗格中添加注释。系统也会在“更改”窗格中跟踪您所做的更改。
更改数据类型
Microsoft Excel、文本和 PDF 文件、Box、Dropbox、Google Drive 和 OneDrive 数据源目前支持。所有其他数据源都可以在清理步骤中更改。
注意:源行号(版本 2023.1 及更高版本)的数据类型只能在清理步骤或其他步骤类型中更改。
若要更改字段的数据类型,请执行以下操作:
单击字段的数据类型。
从菜单中选择新数据类型。
您还可以更改流程中其他步骤类型中的字段的数据类型,或分配数据角色来帮助验证字段值。有关更改数据类型或使用数据角色的详细信息,请参见查看分配给数据的数据类型(链接在新窗口中打开)和使用数据角色验证数据(链接在新窗口中打开)。
配置字段属性
处理文本文件时,您会看到“设置”选项卡,在该选项卡中,您可以编辑连接和配置文本属性,例如文本文件的字段分隔符。您也可以在“连接”窗格中编辑文件连接或配置增量刷新设置。有关为流程设置增量刷新的详细信息,请参见使用增量刷新来刷新流程数据。
处理文本或 Excel 文件时,您可以纠正在开始流程之前错误推断的数据类型。在开始流程之后,始终可以在后续步骤中通过“配置”窗格更改数据类型。
配置文本文件中的文本设置
若要更改用于解析文本文件的设置,请从以下选项中选择:
第一行包含标题(默认值):选择此选项以使用第一行作为字段标签。
自动生成字段名称:如果希望 Tableau Prep Builder 自动生成字段标题,请选择此选项。字段命名约定采用与 Tableau Desktop 相同的模式。例如,F1、F2 等。
字段分隔符:从列表中选择一个字符用于分隔各个列。选择“其他”以输入自定义字符。
文本限定符:选择用于在文件中将值引起来的字符。
字符集:选择用于描述文本文件编码的字符集。
区域设置:选择要用于解析文件的区域设置。此设置指明要使用哪个小数分隔符和千位分隔符。
选择数据样本大小
默认情况下,为了维持最佳性能,Tableau Prep 会将流程中包括的数据限制为一个数据集的代表性样本。通过根据数据集中的字段总数和这些字段的数据类型来计算最佳行数,即可确定数据样本。Tableau Prep 随后即会尽快针对计算量检索最多的行数。
生成的数据样本可能包括您需要的所有行,也可能不包括,具体情况取决于样本的计算和返回方式。如果看不到预期数据,您可以更改数据样本设置以再次运行查询。
在 Web 上创建或编辑流程时,流程中可以包含的数据量会有限制,并且可用于更改数据示例的选项与在 Tableau Prep Builder 中工作时略有不同。有关详细信息,请参见 Tableau Server(链接在新窗口中打开) 或 Tableau Cloud(链接在新窗口中打开) 帮助中的“示例数据和处理限制”。
注意:如果已对数据抽样,则“配置”窗格中会显示一个“已抽样” 指示符,并且该指示符会为您添加的每个步骤保留。所做的任何更改将应用于您在流程中处理的样本。在运行流程时,所有更改都将应用于整个数据集。
若要更改数据样本设置,请选择一个输入步骤,然后在“数据样本”选项卡上从以下选项中进行选择:
(2023.1 — 自动)(2022.4 及更低版本 — 默认样本量):Tableau Prep 计算要返回的总行数。这是默认值。
(2023.1 — 最大值)(2022.4 及更低版本 — 使用所有数据):(仅限 Tableau Prep Builder)检索数据集中的所有行,而不管大小如何。这可能会影响性能,或导致 Tableau Prep Builder 超时。
注意:为了维持性能,即使您选择此设置,也会向“聚合”和“合并”步骤类型应用 100 万行的数据样本限制,并向“联接”和“转置”步骤类型应用 300 万行的数据样本限制。
(2023.1 — 指定)(2022.4 及更低版本 — 固定行数):选择要从数据集返回的行数。推荐的行数为 100 万行或更少。将行数设置为超过 100 万行可能会影响性能。
- 在 Web 制作中:用户在使用大型数据集时可以选择的最大行数由管理员配置。作为用户,您可以选择最多达到该限制的行数。
快速选择(默认值):数据库会尽快返回请求的行数。这可能是前 N 行,或是上一次查询中数据库缓存在内存中的行数。
随机抽样:数据库返回请求的行数,但会查看数据集中的每一行并从所有行中返回一个代表性样本。在首次检索数据时,此选项可能会影响性能。