连接到数据

若要使用 Tableau Prep Builder 来清理和准备数据,就像在 Tableau Desktop 中一样,请通过连接到数据来启动一个新流程。您也可以打开一个现有流程,并选择在何处停止。

您可以直接在开始页面上查看和访问最近的流程,因此可以轻松地找到正在进行的工作。连接到数据之后,在输入步骤中使用不同的选项来确定要在流程中处理的数据。然后添加清理步骤或其他步骤类型来检查、清理和调整数据。

启动或打开流程

Tableau Prep Builder 支持连接到常用类型的数据,以及 Tableau 数据提取(.tde 或 .hyper)。在版本 2019.3.1 及更高版本中,您还可以连接到已发布数据源。

在版本 2020.2.2 及更高版本中,除了已发布数据源外,如果有启用了 Tableau Catalog 的数据管理加载项(Link opens in a new window),则可以搜索并连接到存储在 Tableau Server 或 Tableau Online 上的数据库、文件和表。有关 Tableau Catalog 的详细信息,请参见 Tableau Server(Link opens in a new window)Tableau Online(Link opens in a new window) 帮助中的“关于 Tableau Catalog”。

Tableau Desktop 中支持的连接器可能在您的 Tableau Prep Builder 版本中尚不受支持。但每个新版本都会增加新连接器,因此请检查“连接”窗格来确定您的连接器是否可用。

注意:如果在连接器不受支持的版本中打开流程,流程可能会打开,但是,除非移除了数据连接,否则流程可能会出现错误或无法运行。

您也可以使用自定义 SQL 查询来连接到数据,就像可在 Tableau Desktop 中所做的一样。有关详细信息,请参见 Tableau Desktop 和 Web 制作帮助中的连接到自定义 SQL 查询(Link opens in a new window)

若要检查您是否能连接到数据,请打开 Tableau Prep Builder,并单击“添加连接” 按钮,确定您的数据是否列在左侧窗格中的“连接”下。

某些连接器可能会要求您下载并安装驱动程序,然后才能连接到数据。请参见 Tableau 网站上的驱动程序下载(Link opens in a new window)页面获取驱动程序下载链接以及安装说明。

从版本 2020.1.1 开始,您还可以轻松查看哪些连接器和表与您的输入步骤相关联。单击“输入”步骤时,关联的连接器和数据表会在“连接”窗格中突出显示。

开始新流程

  1. 打开 Tableau Prep Builder 并单击“添加连接” 按钮。

  2. 从连接器列表中,选择文件类型或托管您的数据的服务器。如果出现提示,请输入所需的信息以登录并访问数据。

  3. “连接”窗格中,执行以下操作之一:

    • 如果连接到文件,请双击表或将表拖到“流程”窗格以开始流程。对于单个表,Tableau Prep Builder 会在您将数据添加到流程时自动为您在“流程”窗格中创建输入步骤。

    • 如果连接到数据库,请选择数据库或架构,然后双击表或将表拖到“流程”窗格以开始流程。

      注意:如果连接到单一数据源中的多个文件或数据库表,您可以使用通配符搜索,并在输入步骤中合并文件或表。有关详细信息,请参见在输入步骤中合并文件和数据库表(Link opens in a new window)

打开现有流程

若要打开现有流程,请在“开始”页面上执行以下操作之一:

  • “最近的流程”下,选择一个流程。

  • 单击“打开流程”,导航到流程文件并将其打开。

单击“文件”>“新建”“文件”>“打开”打开新工作区。如果要同时处理多个流程,您可以使用这些选项打开多个 Tableau Prep Builder 工作区。在 Tableau Prep Builder 版本 2019.3.1 及更低版本中,如果选择“文件”> “打开”Tableau Prep Builder 会将当前打开的流程替换为您选择的新流程。

连接到发布的数据源(版本 2019.3.1 及更高版本)

如果从 Tableau Desktop 中或从流程中以输出形式将数据源发布到 Tableau ServerTableau Online,您可以连接到这些发布的数据源,并将它们用作流程的输入数据源。

注意:在发布包括发布的数据源作为输入的流程时,系统会将发布者指派为默认流程所有者。当流程运行时,它将为“运行身份”帐户使用流程所有者。有关“运行身份”帐户的详细信息,请参见运行身份服务帐户(Link opens in a new window)。只有站点或服务器管理员才能在 Tableau ServerTableau Online 中更改流程所有者。

使用此功能时,以下要求适用:

  • 完全支持连接到 Tableau Server 版本 2019.3 及更高版本上可用的已发布数据源。如果连接到 Tableau Server 的早期版本上发布的数据源,则所有功能可能不可用。
  • 您必须在您登录到的 Tableau Server 站点中分配有 Explorer 或更高角色,才能连接到发布的数据源。有关站点角色的详细信息,请参见 Tableau Server 帮助中的设置用户的站点角色(Link opens in a new window)
  • 必须嵌入凭据才能连接到已发布的数据源。如果没有为数据源嵌入凭据,请更新数据源以包括嵌入的凭据。
  • 包含多维(多维数据集)数据或包含用户筛选器的已发布数据源当前不受支持。
  • 不支持多服务器连接。必须使用相同的服务器或站点连接来执行以下操作:
    • 连接到发布的数据源。
    • 将流程输出发布到 Tableau ServerTableau Online
    • 计划流程以在 Tableau ServerTableau Online上运行。

若要连接到已发布数据源,请按照 Tableau Prep Builder 版本的说明进行操作:

版本 2020.2.1 及更低版本
  1. 打开 Tableau Prep Builder 并单击“添加连接” 按钮。

  2. 从连接器列表中,选择“Tableau Server”

  3. 登录以连接到服务器或站点。

  4. 选择数据源或使用搜索选项查找数据源,并将其拖到流程窗格以启动流程。“输入”窗格中的“Tableau Server”选项卡显示有关已发布数据源的详细信息。

版本 2020.2.2 及更高版本

您可以直接从“连接”窗格连接到存储在 Tableau Server 或 Tableau Online 上的已发布数据源及更多数据源。如果有启用了 Tableau Catalog 的数据管理加载项(Link opens in a new window),则还可以搜索和连接到数据库和表,以及查看或按有关数据源的元数据(例如说明、数据质量警告和认证)进行筛选。

有关 Tableau Catalog 的详细信息,请参见 Tableau Server(Link opens in a new window)Tableau Online(Link opens in a new window) 帮助中的“关于 Tableau Catalog”。

  1. 打开 Tableau Prep Builder 并单击“添加连接” 按钮。
  2. “连接”窗格上的“搜索数据”下,选择“Tableau Server”

  3. 登录以连接到服务器或站点。

  4. “搜索数据”对话框中,从可用已发布数据源的列表中进行搜索。使用筛选器选项按连接类型和认证数据源进行筛选。

  5. 选择要使用的数据源,然后单击“连接”

    如果您没有连接到数据源的权限,则行和“连接”按钮显示为灰色。

    注意:如果没有启用了 Tableau Catalog 的数据管理加载项,则不会显示“内容类型”下拉列表。列表中只会显示已发布数据源。

  6. 数据源已添加到“流程”窗格中。在“连接”窗格中,您可以选择其他数据源或使用搜索选项查找数据源,并将其拖到流程窗格以构建流程。“输入”窗格中的“Tableau Server”选项卡显示有关已发布数据源的详细信息。

  7. (可选)如果有启用了 Tableau Catalog 的数据管理加载项,请使用“内容类型”下拉列表来搜索数据库和表。

    您可以使用右上角的筛选器选项按连接类型、数据质量警告和认证来筛选结果。

连接到云数据源

您可以在 Tableau Prep Builder 中像 Tableau Desktop 那样连接到云数据源,但如果计划发布连接到云数据源的流程并在服务器中按计划运行这些流程,则需要在 Tableau ServerTableau Online 中配置凭据。

您可以在“我的帐户设置”页面的“设置”选项卡中设置凭据,然后使用这些相同的凭据连接到云连接器输入。 发布流程时,在“发布”对话框上单击“编辑”以编辑连接,然后在“身份验证”下拉列表中,选择“嵌入”<您的凭据>。

从版本 2020.1.1 开始,可以在发布流时直接通过发布对话框添加凭据,然后在发布时将它们自动嵌入到流程中。有关详细信息,请参见发布流程

如果尚未设置已保存的凭据并在“身份验证”下拉列表中选择 “提示用户”,则在发布流程后,您必须编辑连接并在Tableau ServerTableau Online 中的“连接”选项卡中输入凭据,否则流程将在运行时失败。

Tableau Prep Builder 版本 2019.4.1 中新增了以下云连接器:

  • Box
  • DropBox
  • Google Drive
  • OneDrive

有关如何使用这些连接器连接到数据的详细信息,请参见 Tableau Desktop 帮助中特定于连接器(Link opens in a new window)的帮助主题。

连接到 Salesforce 数据(版本 2020.2.1 及更高版本)

就像 Tableau Desktop 一样,Tableau Prep Builder 支持使用 Salesforce 连接器来连接到数据,但有几点不同。

  • Tableau Prep Builder 支持您要执行的任何联接类型。
  • 当前不支持自定义 SOQL。
  • 当前不支持使用标准连接创建自己的自定义连接。
  • 不能将默认数据源名称更改为唯一名称或自定义名称。
  • 如果计划将流程发布到 Tableau Server 并希望使用已保存的凭据,则服务器管理员将需要使用 OAuth 客户端 ID 和连接器上的密文配置 Tableau Server。有关详细信息,请参见 Tableau Server 帮助中的将 Salesforce.com OAuth 更改为使用已保存凭据(Link opens in a new window)

Tableau Prep Builder 通过创建数据提取来导入数据。Salesforce 当前仅支持数据提取。初始数据提取可能需要一些时间,具体取决于包含的数据量。在加载数据时,您将在“输入”步骤中看到计时器。

有关使用 Salesforce 连接器的详细信息,请参见 Tableau Desktop 和 Web 制作帮助的 Salesforce(Link opens in a new window)

连接到 Google BigQuery(版本 2019.3.1 及更高版本)

就像 Tableau Desktop 一样,Tableau Prep Builder 支持使用 Google BigQuery 连接到数据。您必须配置 OAuth 凭据,使 Tableau Prep Builder 能够与 Google BigQuery 通信。如果打算将流程发布到 Tableau ServerTableau Online,还必须为这些应用程序配置 OAuth 连接。

注意: Tableau Prep Builder 当前不支持使用 Google BigQuery 自定义属性。

如果您在 Mac 上使用 Tableau Prep Builder,并且正在使用代理连接到 Big Query,则可能需要修改 SSL 配置以连接到 Google BigQuery

配置 SSL 以连接到 Google BigQuery(仅限 MacOS)

注意:Windows 用户不需要执行额外的步骤。

若要为 Google BigQuery OAuth 连接配置 SSL,请完成以下步骤:

  1. 将代理的 SSL 证书导出到文件,例如 proxy.cer。您可以在Applications > Utilities > Keychain Access >System > Certificates (under Category)中找到您的证书。
  2. 找到用于运行 Tableau Prep Builder 的 java 版本。例如:/Applications/Tableau Prep Builder 2020.1.app/Plugins/jre/lib/security/cacerts

  3. 打开“终端”命令提示符,并针对您的 Tableau Prep Builder 版本运行以下命令:

    注意:keytool 命令必须从包含用于运行 Tableau Prep Builder 的 java 版本的目录中运行。在运行此命令之前,您可能需要更改目录。例如,cd /Users/tableau_user/Desktop/SSL.cer -keystore Tableau Prep Builder 2020.1.1/Plugins/jre/bin。然后运行 keytool 命令。

    keytool –import –trustcacerts –file /Users/tableau_user/Desktop/SSL.cer -keystore Tableau Prep Builder <version>/Plugins/jre/lib/security/cacerts -storepass changeit

    示例: keytool –import –trustcacerts –file /Users/tableau_user/Desktop/SSL.cer -keystore Tableau Prep Builder 2020.1.1/Plugins/jre/lib/security/cacerts -storepass changeit

如果在运行 keytool 命令时收到 FileNotFoundexception(拒绝访问),请尝试使用提升的权限运行该命令。 例如:sudo keytool –import –trustcacerts –file /Users/tableau_user/Desktop/SSL.cer -keystore Tableau Prep Builder 2020.1.1/Plugins/jre/lib/security/cacerts -storepass changeit

设置和管理您的 Google BigQuery 凭据

在“输入”步骤中用于连接到 Google BigQuery 的凭据必须与您在 Tableau ServerTableau Online 中适用于 Google BigQuery 的“我的帐户设置”页面的“设置”选项卡中设置的凭据匹配。

如果发布流程时在身份验证设置中选择不同的凭据或不选择凭据,则在 Tableau Server 或 Tableau Online 中编辑流程连接之前,该流程将失败。

若要编辑凭据,请执行以下操作:

  1. Tableau ServerTableau Online 中的“连接” 选项卡上,针对 Google BigQuery 连接单击“更多操作”
  2. 选择“编辑连接”
  3. 选择在“我的帐户设置”页面的“设置”选项卡中设置的已保存凭据。

有关设置和管理凭据的详细信息,请参见以下主题:

Tableau Desktop 和 Web 制作帮助中的管理您的帐户设置(Link opens in a new window)

发布流程(Link opens in a new window),了解有关发布流程时设置身份验证选项的信息。

查看和解决错误,了解有关在 Tableau ServerTableau Online 中解决连接器错误的信息。

连接到 SAP HANA(版本 2019.2.1 及更高版本)

就像 Tableau Desktop 一样,Tableau Prep Builder 支持使用 SAP HANA 连接到数据,但有几点不同。使用在 Tableau Desktop 中使用的相同过程连接到数据库。有关详细信息,请参见SAP HANA(Link opens in a new window)。连接并搜索表之后,将表拖到画布上以开始构建流程。

不支持在 Tableau Prep Builder 中打开流程时的变量和参数提示。相反,在“输入”窗格中,单击“变量和参数”选项卡并选择要使用的变量和操作数,然后从预设值列表中选择,或者输入自定义值来查询数据库并返回所需的值。

注意:从 Tableau Prep Builder 版本 2019.2.2 开始,您可以使用初始 SQL 来查询连接,并且,如果某个变量有多个值,您可以从下拉列表中选择所需的值。

也可以添加其他变量。单击“变量”部分中的加号按钮 并选择一个变量或操作数,然后输入自定义值。

注意:Tableau Prep Conductor 版本 2019.1 中不支持此连接器。如果创建使用此连接器的流程,则您可以发布流程,但无法使用 Tableau Server 中的计划功能运行流程。作为替代,您可以使用命令行界面运行流程以使数据保持最新。有关如何通过命令行运行流程的详细信息,请参见通过命令行刷新流程输出文件(Link opens in a new window)有关版本兼容性的详细信息,请参见与 Tableau Prep 的版本兼容性(Link opens in a new window)

使用 ODBC 进行连接(版本 2019.2.2 及更高版本)

如果需要连接到“连接”窗格中未列出的数据源,您可以使用支持 SQL 标准并实现 ODBC API 的“其他数据库 (ODBC)”连接器连接到任何数据源。使用“其他数据库 (ODBC)”连接器连接到数据的工作方式与您在 Tableau Desktop 中使用该连接器的方式类似,但有一些不同之处:

  • 您只能使用 DSN(数据源名称)选项进行连接。

  • 若要在 Tableau Server 中发布并运行流程,必须使用匹配的 DSN 配置服务器。

    注意:目前不支持从包含“其他数据库 (ODBC)”连接器的命令行 (Tableau Prep Builder) 中运行流程。

  • Windows 和 MacOS 上的连接体验是一致的。不支持 ODBC 驱动程序 (Windows) 的提示连接属性。

  • Tableau Prep Builder 仅支持 64 位驱动程序。

连接之前

若要使用“其他数据库 (ODBC)”连接器连接到数据,您必须安装数据库驱动程序,并设置和配置 DSN(数据源名称)。若要将流程发布到 Tableau Server 并运行流程,也必须使用匹配的 DSN 配置服务器。

重要信息:Tableau Prep Builder 仅支持 64 位驱动程序。如果已设置并配置了 32 位驱动程序,则您可能需要将其卸载,然后安装 64 位版本(如果驱动程序不允许同时安装两个版本)。

  1. 使用 ODBC 数据源管理器(64 位) (Windows) 或 ODBC 管理器实用工具 (MacOS) 创建 DSN。

    如果 Mac 上未安装该实用工具,您可以下载一个(例如从 www.odbcmanager.net(Link opens in a new window) 下载),或者可以手动编辑 odbc.ini 文件。

  2. ODBC 数据源管理器(64 位)(Windows) 或 ODBC 管理器实用工具 (MacOS) 中,添加一个新数据源,然后选择适用于数据源的驱动程序,并单击“完成”

  3. “ODBC 驱动程序设置”对话框中,输入诸如服务器名称、端口、用户名和密码之类的配置信息。单击“测试”(如果对话框有该选项)验证您的连接是否设置正确,然后保存您的配置。

    注意:Tableau Prep Builder 不支持提示连接属性,因此您必须在配置 DNS 时设置此信息。

    此示例显示 MySQL 连接器的配置对话框。

使用“其他数据库 (ODBC)”进行连接

  1. 打开 Tableau Prep Builder 并单击“添加连接” 按钮。

  2. 从连接器列表中,选择“其他数据库 (ODBC)”

  3. “其他数据库 (ODBC)”对话框中,从下拉列表中选择一个 DSN,并输入用户名和密码。然后单击“登录”

  4. “连接”窗格中,从下拉列表中选择您的数据库。

使用初始 SQL 查询连接(版本 2019.2.2 及更高版本)

您可以指定初始 SQL 命令,该命令将在连接到支持该命令的数据库时运行。例如,在连接到 Amazon Redshift 时,您可以输入 SQL 语句,以便在连接到数据库时应用筛选器,就像在“输入”步骤中添加筛选器一样。SQL 命令将在数据抽样之前应用,并加载到 Tableau Prep Builder 中。

从版本 2020.1.3 开始,还可以包括参数来传递应用程序名称、版本和流程名称数据,以在查询数据源时包括跟踪数据。

运行初始 SQL

若要刷新数据并运行初始 SQL 命令,请执行以下操作之一:

• 更改初始 SQL 命令并通过重新建立连接刷新“输入”步骤。

• 运行流程。初始 SQL 命令在处理所有数据之前运行。

• 计划流程以在 Tableau Server 或 Tableau Online 上运行。初始 SQL 在每次流程运行时加载数据的过程中运行。

注意:需要数据管理加载项(Link opens in a new window)以在 Tableau ServerTableau Online 上运行流程。有关 数据管理加载项 的详细信息,请参见使用数据管理加载项(Link opens in a new window)

  1. 在“连接”窗格的列表中选择一个支持初始 SQL 的连接器。
  2. 单击“显示初始 SQL”链接展开对话框,并输入您的 SQL 语句。

在初始 SQL 语句中包括参数(版本 2020.1.3 及更高版本)

重要信息:Tableau Prep Builder 版本 2020.2.1 及更低版本中的初始 SQL 不支持参数。如果像在 Tableau Desktop 中一样尝试并输入参数,您将收到错误。

您可以将以下参数传递给数据源,以添加有关 Tableau Prep 应用程序、版本和流程名称的其他详细信息。当前不支持 TableauServerUserTableauServerUserFull 参数。

参数 说明 返回的值
TableauApp 用于访问数据源的应用程序。

Prep Builder

Prep Conductor

TableauVersion 应用程序版本号。

Tableau Prep Builder:返回确切的版本。例如 2020.1.3

Tableau Prep Conductor:返回已启用 Tableau Prep Conductor 的主要服务器版本。例如 2020.1

FlowName Tableau Prep Builder 中 .tfl 文件的名称 示例:Entertainment Data_Cleaned

连接到 Tableau 数据提取

连接到 Tableau 数据提取时,Tableau Prep Builder 将解包数据提取,并且 hyper 将扩展,从而会在将流程操作应用于生成的原始数据时使用很多临时空间。

这意味着您需要更多的 RAM 和磁盘空间来容纳该大小的文件。例如,包含 18 列和 1200 万行、大小为 360MB(解压缩后为 8.5 GB)的数据提取文件可能最多需要 32GB RAM、16 核和 500GB 可用磁盘空间才能在文件解压缩后支持该文件。

使用 Data Interpreter 清理您的文件

处理 Microsoft Excel 文件时,您可以使用 Data Interpreter 来检测数据中的子表,以及移除无关信息来帮助准备数据进行分析。打开 Data Interpreter 时,它将检测这些子表,并将其列为“连接”窗格的“表”部分中的新表。然后,您可以将它们拖到“流程”窗格中。

如果关闭 Data Interpreter,则会从“连接”窗格中移除这些表。如果已在流程中使用了这些表,则会由于缺少数据而导致流程错误。

注意:当前 Data Interpreter 只会检测 Excel 电子表格中的子表,不支持为文本文件和电子表格指定起始行。此外,Data Interpreter 检测到的表不包括在通配符并集搜索结果中。

下面的示例显示在 “连接”窗格中对 Excel 电子表格使用 Data Interpreter 的结果。Data Interpreter 检测到两个额外的子表。

使用 Data Interpreter 之前 使用 Data Interpreter 之后

若要使用 Data Interpreter,请完成以下步骤:

  1. 选择“连接到数据”,然后选择“Microsoft Excel”

  2. 选择您的文件,并单击“打开”

  3. 选中“使用 Data Interpreter”复选框。

  4. 将新表拖到“流程”窗格以将其包括在流程中。若要移除旧表,请右键单击旧表的输入步骤,并选择“移除”

此部分中的其他文章

感谢您的反馈! 提交反馈时出错。请重试,或向我们发送消息