在“输入”步骤中添加更多数据

连接到数据源并开始构建流程后,您可能需要在新数据进入时刷新数据连接。您还可以在输入步骤中联接或合并数据集,以便更有效地处理更大的数据源。

在“输入”步骤中刷新数据

如果开始处理流程后输入文件或表中的数据发生变化,您可以刷新“输入”步骤为引入新数据。

文件输入步骤类型

若要刷新文件输入步骤,请执行下列操作之一:

  • 在流程窗格中的顶部菜单上,单击“刷新”按钮以刷新所有“输入”步骤。若要刷新单个“输入”步骤,请单击刷新按钮旁边的下拉箭头,并从列表中选择该“输入”步骤。

  • 在流程窗格中,右键单击要刷新的“输入”步骤,并从菜单中选择“刷新”

文件、数据库或 Tableau 数据提取输入步骤类型

若要刷新数据库或 Tableau 数据提取输入步骤,请执行下列操作之一:

  • 尝试编辑连接。

    注意:为了保持性能,Tableau Prep Builder 会对大型数据集取样。如果数据已取样,则在配置窗格中,您可能会看到也可能不会看到新数据。您可以在“输入”步骤中的“数据样本”选项卡中更改数据的取样方式,但可能会影响性能。有关设置数据样本大小的详细信息,请参见选择数据样本大小(Link opens in a new window)

    1. “连接”窗格中,右键单击或按住 Ctrl 单击 (MacOS) 数据源,并选择“编辑”

    2. 通过登录数据库或者重新选择文件或 Tableau 数据提取来重建连接。

  • 移除“输入”步骤并将其重新添加到流程。

    1. 在流程窗格中,右键单击要刷新的“输入”步骤,并从菜单中选择“移除”

      这会使您的流程暂时处于错误状态。

    2. 再次连接到更新的文件。

    3. 将表拖到流程窗格中要向其中添加“输入”步骤的流程中的第二个步骤上。将其放在“添加”选项上,以将其重新连接到流程。

在输入步骤中合并文件和数据库表

使用来自单一数据源的多个文件或数据库表时,您可以使用通配符搜索来搜索文件或表,然后合并数据以将所有文件或表数据包括在“输入”步骤中。若要合并文件,文件必须位于同一父目录或子目录中。

在下次您打开流程或通过命令行运行流程时,添加到同一文件夹中、与模式匹配的新文件会自动包括在并集中。打包流程文件 (.tflx) 不会自动获取新文件,因为文件已与流程打包在一起。若要为打包流程包括新文件,请打开流程文件 (.tfl) 以获取新文件,然后重新打包流程以包括新文件数据。

若要合并数据库表,表必须位于同一数据库中,并且数据库连接必须支持通配符并集搜索。以下数据库支持这种类型的并集:

  • Amazon Redshift

  • Microsoft SQL Server

  • MySQL

  • Oracle

  • PostgreSQL

如果在创建并集之后添加或移除文件或表,您可以刷新输入步骤,用新数据或更改的数据来更新流程。

注意:此功能当前仅适用于 Excel 和 .csv(文本)文件,以及存储在上面所列特定数据库中的数据表。此选项对于 Tableau 数据提取不可用。

Tableau Prep Builder 版本 2018.1.2 及更高版本中提供了适用于文件的通配符并集。Tableau Prep Builder 版本 2018.3.1 及更高版本中提供了适用于数据库表的通配符并集。在以前的版本中编辑具有此并集类型的流程连接可能会导致错误。

如果需要合并来自不同数据源的数据,您可以使用合并步骤执行该操作。有关创建合并步骤的详细信息,请参见合并数据(Link opens in a new window)

合并文件

默认情况下,Tableau Prep Builder 会合并您连接到的 .csv 文件所在同一目录中的所有 .csv 文件,或者合并您连接到的 Excel 文件中的所有工作表。如果使用 Data Interpreter 清理 Excel 文件,并且使用的是 Tableau Prep Builder 版本 2018.1.2 或更高版本,您可以使用通配符搜索来合并和添加 Data Interpreter 找到的任何子表。

如果要更改默认并集,请使用以下条件来查找要包括在并集中的文件或工作表:

  • 搜索范围:选择要用于搜索文件的目录。选中“包括子文件夹”复选框以包括父文件夹的子目录中的文件。

  • 文件:选择是否包括或排除与通配符搜索条件匹配的文件。

  • 匹配模式(xxx*):输入通配符搜索模式以查找文件名中包含这些字符的文件。举例来说,如果输入 ord*,则会返回包括该文件名的所有文件。将此字段留空以包括指定目录中的所有文件。

若要在输入步骤中合并文件,请执行以下操作:

  1. 单击“添加连接” 按钮,并在“连接”下单击“文本文件”(适用于 .csv 文件)或“Microsoft Excel”(适用于 Excel 文件),然后选择要打开的文件。

  2. “输入”窗格中,选择“多个文件”选项卡,然后选择“通配符并集”

    下面的示例显示一个使用匹配模式的通配符并集。“流程”窗格中“Orders_Central”输入步骤上文件图标上的加号表明该步骤包括一个通配符并集。并集中的文件列在“已包括文件”下。

  3. 使用搜索、文件和匹配模式选项来查找要合并的文件。

  4. 单击“应用”以合并文件。

向流程中添加新步骤时,您可以在“配置”窗格的“文件路径”字段中看到添加到数据集的所有文件。此字段是自动添加的。

合并数据库表(版本 2018.3.1 及更高版本)

  1. 单击“添加连接” 按钮,并在“连接”下连接到支持通配符并集的数据库。

  2. 将表拖到流程窗格。

  3. “输入”窗格中,选择“多个表”选项卡,然后选择“通配符并集”

  4. 使用搜索、“表”“匹配模式”选项来查找要合并的表。

    只有显示在“连接”窗格的“表”部分中的表才能包括在并集中。通配符搜索不会跨架构或跨数据库连接进行搜索来查找表。

  5. 单击“应用”以合并表数据。

    向流程中添加新步骤时,您可以在“配置”窗格的“表名称”字段中看到添加到数据集的所有表。此字段是自动添加的。

在并集之后合并字段

在输入步骤中创建并集后,您可能需要合并字段。您可以在除“输入”或“输出”步骤之外的任何后续步骤中执行此操作。有关详细信息,请参见其他合并字段选项(Link opens in a new window)

在“输入”步骤中联接数据(版本 2019.1.3 及更高版本)

当连接到的数据库包含具有关系数据的表时,Tableau Prep Builder 可以检测和显示表中的哪些字段被标识为唯一标识符,哪些字段被标识为相关字段,并为这些字段显示相关的表名称。

一个名为“链接键”的新列将显示在“输入”窗格中,并显示以下关系(如果存在):

  • 唯一标识符。此字段唯一标识表中的每一行。表中可以有多个唯一标识符。字段中的值必须唯一,不能为空白或 null。

  • 相关字段。此字段将表与数据库中的另一个表关联。表中可以有多个相关字段。

  • 唯一标识符和相关字段。字段是此表中的唯一标识符,并将表与数据库中的另一个表关联。

您可以利用这些关系快速查找并向流程中添加相关表,或者通过“输入”步骤创建联接。此功能可用于定义了表关系的任何受支持的数据库连接器。

  1. 连接到包含字段关系数据(例如唯一标识符或相关字段)的数据库(例如 Microsoft SQL Server)。
  2. 在“输入”窗格中,单击标记为 相关字段或 同时标记为唯一标识符和相关字段的字段。

    此时将打开一个对话框,其中显示相关表的列表。

  3. 将鼠标指针悬停在要添加或联接的表上,然后单击加号按钮将该表添加到流程中,或者单击联接按钮创建与所选表的联接。

    如果创建联接,Tableau Prep Builder 将使用定义的字段关系来联接表,并显示将用于创建联接的联接子句的预览。

  4. 或者,您可以通过“流程”窗格的菜单来联接相关表。将鼠标指针悬停在一个步骤上,直到出现加号 图标,然后选择“添加联接”查看相关表的列表。Tableau Prep Builder 基于组成两个表之间的关系的字段创建联接。

    注意:如果表没有定义表关系,则此选项不可用。

有关使用联接的详细信息,请参见联接数据(Link opens in a new window)

感谢您的反馈! 提交反馈时出错。请重试,或向我们发送消息