连接到数据

若要使用 Tableau Prep Builder 来清理和准备数据,就像在 Tableau Desktop 中一样,请通过连接到数据来启动一个新流程。您也可以打开一个现有流程,并选择在何处停止。

您可以直接在开始页面上查看和访问最近的流程,因此可以轻松地找到正在进行的工作。连接到数据之后,在输入步骤中使用不同的选项来确定要在流程中处理的数据。

启动或打开流程

Tableau Prep Builder 支持连接到常用类型的数据,以及 Tableau 数据提取(.tde 或 .hyper),并且从版本 2019.3.1 开始还支持发布的数据源。Tableau Desktop 中支持的连接器可能在您的 Tableau Prep Builder 版本中尚不受支持。但每个新版本都会增加新连接器,因此请检查“连接”窗格来确定您的连接器是否可用。

注意:如果在连接器不受支持的版本中打开流程,流程可能会打开,但是,除非移除了数据连接,否则流程可能会出现错误或无法运行。

您也可以使用自定义 SQL 查询来连接到数据,就像您目前可在 Tableau Desktop 中所做的一样。有关详细信息,请参见 Tableau Desktop 和 Web 制作帮助中的连接到自定义 SQL 查询

若要检查您是否能连接到数据,请打开 Tableau Prep Builder,并单击“添加连接” 按钮,确定您的数据是否列在左侧窗格中的“连接”下。

注意:某些连接器可能会要求您下载并安装驱动程序,然后才能连接到数据。请参见 Tableau 网站上的驱动程序下载页面获取驱动程序下载链接以及安装说明。

开始新流程

  1. 打开 Tableau Prep Builder 并单击“添加连接” 按钮。

  2. 从连接器列表中,选择文件类型或托管您的数据的服务器。如果出现提示,请输入所需的信息以登录并访问数据。

  3. “连接”窗格中,执行以下操作之一:

    • 如果连接到文件,请双击表或将表拖到“流程”窗格以开始流程。

      对于单个表,Tableau Prep Builder 会在您将数据添加到流程时自动为您在“流程”窗格中创建输入步骤。

    • 如果连接到数据库,请选择数据库或架构,然后双击表或将表拖到“流程”窗格以开始流程。

      注意:如果连接到单一数据源中的多个文件或数据库表,您可以使用通配符搜索,并在输入步骤中合并文件或表。有关详细信息,请参见在输入步骤中合并文件和数据库表

打开现有流程

若要打开现有流程,请在“开始”页面上执行以下操作之一:

  • “最近的流程”下,选择一个流程。

  • 单击“打开流程”,导航到流程文件并将其打开。

单击“文件”>“新建”“文件”>“打开”打开新工作区。如果要同时处理多个流程,您可以使用这些选项打开多个 Tableau Prep Builder 工作区。在 Tableau Prep Builder 版本 2019.3.1 及更低版本中,如果选择“文件”> “打开”Tableau Prep Builder 会将当前打开的流程替换为您选择的新流程。

连接到发布的数据源(版本 2019.3.1 及更高版本)

如果从 Tableau Desktop 中或从流程中以输出形式将数据源发布到 Tableau ServerTableau Online,您可以连接到这些发布的数据源,并将它们用作流程的输入数据源。

注意:在发布包括发布的数据源作为输入的流程时,系统会将发布者指派为默认流程所有者。当流程运行时,它将为“运行身份”帐户使用流程所有者。有关“运行身份”帐户的详细信息,请参见运行身份服务帐户。只有站点或服务器管理员才能在 Tableau ServerTableau Online 中更改流程所有者。

使用此功能时,以下要求适用:

  • 完全支持连接到 Tableau Server 版本 2019.3 上可用的已发布数据源。如果连接到 Tableau Server 的早期版本上发布的数据源,则所有功能可能不可用。
  • 您必须在您登录到的 Tableau Server 站点中分配有 Explorer 或更高角色,才能连接到发布的数据源。有关站点角色的详细信息,请参见 Tableau Server 帮助中的设置用户的站点角色
  • 包含多维(多维数据集)数据或包含用户筛选器的已发布数据源当前不受支持。
  • 不支持多服务器连接。必须使用相同的服务器或站点连接来执行以下操作:
    • 连接到发布的数据源。
    • 将流程输出发布到 Tableau ServerTableau Online
    • 计划流程以在 Tableau ServerTableau Online上运行。

若要连接到发布的数据源,请执行以下操作:

  1. 打开 Tableau Prep Builder 并单击“添加连接” 按钮。

  2. 从连接器列表中,选择“Tableau Server”

  3. 登录以连接到服务器或站点。

  4. 选择数据源或使用搜索选项查找数据源,并将其拖到流程窗格以启动流程。“输入”窗格中的“Tableau Server”选项卡显示有关已发布数据源的详细信息。

连接到 Google BigQuery(版本 2019.3.1 及更高版本)

就像 Tableau Desktop 一样,Tableau Prep Builder 支持使用 Google BigQuery 连接到数据。您必须配置 Oauth 凭据,使 Tableau Prep Builder 能够与 Google BigQuery 通信。如果打算将流程发布到 Tableau ServerTableau Online,还必须为这些应用程序配置 Oauth 连接。

注意:Tableau Prep Builder 当前不支持使用 Google BigQuery 自定义属性。

在“输入”步骤中用于连接到 Google BigQuery 的凭据必须与您在 Tableau ServerTableau Online 中适用于 Google BigQuery 的“我的帐户设置”页面的“设置”选项卡中设置的凭据匹配。

如果发布流程时在身份验证设置中选择不同的凭据或不选择凭据,则在 Tableau Server 或 Tableau Online 中编辑流程连接之前,该流程将失败。

若要编辑凭据,请执行以下操作:

  1. Tableau ServerTableau Online 中的“连接” 选项卡上,针对 Google BigQuery 连接单击“更多操作”
  2. 选择“编辑连接”
  3. 选择在“我的帐户设置”页面的“设置”选项卡中设置的已保存凭据。

有关详细信息,请参见 Tableau Desktop 和 Web 制作帮助中的管理您的帐户设置。有关在发布流程时设置身份验证的信息,请参见发布流程

连接到 SAP HANA(版本 2019.2.1 及更高版本)

就像 Tableau Desktop 一样,Tableau Prep Builder 支持使用 SAP HANA 连接到数据,但有几点不同。使用在 Tableau Desktop 中使用的相同过程连接到数据库。有关详细信息,请参见SAP HANA。连接并搜索表之后,将表拖到画布上以开始构建流程。

不支持在 Tableau Prep Builder 中打开流程时的变量和参数提示。相反,在“输入”窗格中,单击“变量和参数”选项卡并选择要使用的变量和操作数,然后从预设值列表中选择,或者输入自定义值来查询数据库并返回所需的值。

注意:从 Tableau Prep Builder 版本 2019.2.2 开始,您可以使用初始 SQL 来查询连接,并且,如果某个变量有多个值,您可以从下拉列表中选择所需的值。

也可以添加其他变量。单击“变量”部分中的加号按钮 并选择一个变量或操作数,然后输入自定义值。

注意:Tableau Prep Conductor 版本 2019.1 中不支持此连接器。如果创建使用此连接器的流程,则您可以发布流程,但无法使用 Tableau Server 中的计划功能运行流程。作为替代,您可以使用命令行界面运行流程以使数据保持最新。有关如何通过命令行运行流程的详细信息,请参见通过命令行刷新流程输出文件有关版本兼容性的详细信息,请参见Tableau Online Tableau Prep

使用 ODBC 进行连接(版本 2019.2.2 及更高版本)

如果需要连接到“连接”窗格中未列出的数据源,您可以使用支持 SQL 标准并实现 ODBC API 的“其他数据库 (ODBC)”连接器连接到任何数据源。使用“其他数据库 (ODBC)”连接器连接到数据的工作方式与您在 Tableau Desktop 中使用该连接器的方式类似,但有一些不同之处:

  • 您只能使用 DSN(数据源名称)选项进行连接。

  • 若要在 Tableau Server 中发布并运行流程,必须使用匹配的 DSN 配置服务器。

    注意:目前不支持从包含“其他数据库 (ODBC)”连接器的命令行 (Tableau Prep Builder) 中运行流程。

  • Windows 和 MacOS 上的连接体验是一致的。不支持 ODBC 驱动程序 (Windows) 的提示连接属性。

  • Tableau Prep Builder 仅支持 64 位驱动程序。

连接之前

若要使用“其他数据库 (ODBC)”连接器连接到数据,您必须安装数据库驱动程序,并设置和配置 DSN(数据源名称)。若要将流程发布到 Tableau Server 并运行流程,也必须使用匹配的 DSN 配置服务器。

重要信息:Tableau Prep Builder 仅支持 64 位驱动程序。如果已设置并配置了 32 位驱动程序,则您可能需要将其卸载,然后安装 64 位版本(如果驱动程序不允许同时安装两个版本)。

  1. 使用 ODBC 数据源管理器(64 位) (Windows) 或 ODBC 管理器实用工具 (MacOS) 创建 DSN。

    如果 Mac 上未安装该实用工具,您可以下载一个(例如从 www.odbcmanager.net 下载),或者可以手动编辑 odbc.ini 文件。

  2. ODBC 数据源管理器(64 位)(Windows) 或 ODBC 管理器实用工具 (MacOS) 中,添加一个新数据源,然后选择适用于数据源的驱动程序,并单击“完成”

  3. “ODBC 驱动程序设置”对话框中,输入诸如服务器名称、端口、用户名和密码之类的配置信息。单击“测试”(如果对话框有该选项)验证您的连接是否设置正确,然后保存您的配置。

    注意:Tableau Prep Builder 不支持提示连接属性,因此您必须在配置 DNS 时设置此信息。

    此示例显示 MySQL 连接器的配置对话框。

使用“其他数据库 (ODBC)”进行连接

  1. 打开 Tableau Prep Builder 并单击“添加连接” 按钮。

  2. 从连接器列表中,选择“其他数据库 (ODBC)”

  3. “其他数据库 (ODBC)”对话框中,从下拉列表中选择一个 DSN,并输入用户名和密码。然后单击“登录”

  4. “连接”窗格中,从下拉列表中选择您的数据库。

使用初始 SQL 查询连接(版本 2019.2.2 及更高版本)

在连接到支持初始 SQL 命令的数据库时,您可以指定初始 SQL 命令,该命令将在进行数据库连接时运行。例如,在连接到 Amazon Redshift 时,您可以输入 SQL 语句,以便在连接到数据库时应用筛选器,就像在“输入”步骤中添加筛选器一样。SQL 命令将在数据抽样之前应用,并加载到 Tableau Prep Builder 中。

若要刷新数据并再次运行初始 SQL 命令,请执行以下操作之一:

• 更改初始 SQL 命令并刷新“输入”步骤,重新建立连接。

• 运行流程。初始 SQL 命令在处理所有数据之前运行。

• 计划流程以在 Tableau Server 上运行。初始 SQL 在每次流程运行时加载数据的过程中运行。

  1. 在“连接”窗格的列表中选择一个支持初始 SQL 的连接器。
  2. 单击“显示初始 SQL”链接展开对话框,并输入您的 SQL 语句。

重要信息:Tableau Prep Builder 中的初始 SQL 尚不支持参数。如果像在 Tableau Desktop 中一样尝试并输入参数,您将收到错误。

连接到 Tableau 数据提取

连接到 Tableau 数据提取时,Tableau Prep Builder 将解包数据提取,并且 hyper 将扩展,从而会在将流程操作应用于生成的原始数据时使用很多临时空间。

这意味着您需要更多的 RAM 和磁盘空间来容纳该大小的文件。例如,包含 18 列和 1200 万行、大小为 360MB(解压缩后为 8.5 GB)的数据提取文件可能最多需要 32GB RAM、16 核和 500GB 可用磁盘空间才能在文件解压缩后支持该文件。

使用 Data Interpreter 清理您的文件

处理 Microsoft Excel 文件时,您可以使用 Data Interpreter 来检测数据中的子表,以及移除无关信息来帮助准备数据进行分析。打开 Data Interpreter 时,它将检测这些子表,并将其列为“连接”窗格的“表”部分中的新表。

然后,您可以将它们拖到“流程”窗格中。如果使用 Tableau Prep Builder 版本 2018.1.2 或更高版本,您可以在“多个文件”选项卡中选择“通配符并集”选项,以在流程中包括所有找到的子表。有关在输入步骤中使用通配符并集的详细信息,请参见在输入步骤中合并文件和数据库表

如果关闭 Data Interpreter,则会从“连接”窗格中移除这些表。如果已在流程中使用了这些表,则会由于缺少数据而导致流程错误。

注意:当前 Data Interpreter 只会检测 Excel 电子表格中的子表,不支持为文本文件和电子表格指定起始行。

下面的示例显示在 “连接”窗格中对 Excel 电子表格使用 Data Interpreter 的结果。Data Interpreter 检测到两个额外的子表。

使用 Data Interpreter 之前 使用 Data Interpreter 之后

若要使用 Data Interpreter,请完成以下步骤:

  1. 选择“连接到数据”,然后选择“Microsoft Excel”

  2. 选择您的文件,并单击“打开”

  3. 选中“使用 Data Interpreter”复选框。

  4. 将新表拖到“流程”窗格以将其包括在流程中。若要移除旧表,请右键单击旧表的输入步骤,并选择“移除”

感谢您的反馈! 提交反馈时出错。请重试,或向我们发送消息