保存和共享工作
在流程的任何位置,您都可以手动保存工作,或者让 Tableau 在 Web 上创建或编辑流程时自动为您保存工作。在 Web 上处理流程时,存在一些差异。
有关在 Web 上制作流程的详细信息,请参见 Tableau Server(链接在新窗口中打开) 和 Tableau Cloud(链接在新窗口中打开) 帮助中的 Web 上的 Tableau Prep。
Tableau Prep Builder | Web 上的 Tableau Prep |
---|---|
|
|
若要使数据保持最新,您可以从 Tableau Prep Builder 中或通过命令行手动运行流程。您还可以运行在 Tableau Server 或 Tableau Cloud 上手动发布或按计划发布的流程。有关运行流程的详细信息,请参见将流程发布到 Tableau Server 或 Tableau Cloud。
保存您的流程
在 Tableau Prep Builder 中,您可以手动保存流程以在执行任何其他操作之前备份您的工作。流程以 Tableau Prep 流程 (.tfl) 文件格式保存。
您也可以随流程一起打包本地文件(Excel、文本文件和 Tableau 数据提取)以与其他人共享,就像在 Tableau Desktop 中打包工作簿用于共享一样。只能随流程一起打包本地文件。举例来说,不会包括来自数据库连接的数据。
在 Web 制作中,本地文件会自动随流程打包在一起。尚不支持直接文件连接。
在保存打包流程时,流程将保存为打包 Tableau 流程文件 (.tflx)。
- 若要手动保存流程,请从顶部菜单中选择“文件”>“保存”。
- 在 Tableau Prep Builder 中,若要随流程一起打包数据文件,请从顶部菜单中执行以下操作之一:
- 选择“文件”>“导出打包流程”
- 选择“文件”>“另存为”。然后,在“另存为”对话框中,从“另存为类型”下拉菜单中选择“打包 Tableau 流程文件”。
在 Web 上自动保存流程
如果在 Web 上创建或编辑流程,则在对流程进行更改(连接到数据源、添加步骤等)时,您的工作就会每隔几秒钟自动保存一次草稿,这样您就不会丢失工作。
您只能将流程保存到当前已登录的服务器。您不能在一台服务器上创建草稿流程,并尝试将其保存或发布到另一台服务器。如果要将流程发布到服务器上的其他项目,请使用“文件”>“发布为”菜单选项,然后从对话框中选择项目。
草稿流程只能由您查看,直到您发布它们,并使其可供有权访问您服务器上的项目的任何人使用。处于草稿状态的流程会使用“草稿”徽章进行标记,以便您可以轻松地找到正在进行中的流程。如果流程从未发布,则“草稿”徽章旁边将显示“从未发布”徽章。
发布流程以及编辑并重新发布流程后,将创建一个新版本。您可以在“修订历史记录”对话框中查看流程版本列表。从“浏览”页面中,单击 “操作”菜单并选择“修订历史记录”。
有关修订历史记录的详细信息,请参见 Tableau Desktop 帮助中的处理内容修订(链接在新窗口中打开)。
注意:“自动保存”功能默认情况下已启用。管理员可以(但不建议)在站点上禁用自动保存。若要关闭自动保存,请使用 Tableau Server REST API 方法“更新站点”,并将 flowAutoSaveEnabled
属性设置为 false。有关详细信息,请参见 Tableau Server REST API 站点方法:更新站点(链接在新窗口中打开)。
自动文件恢复
默认情况下,如果应用程序冻结或崩溃,Tableau Prep Builder 将自动保存任何已打开流程的草稿。草稿流程保存在“我的 Tableau Prep 存储库”中的“已恢复流程”文件夹中。下次打开应用程序时,将显示一个对话框,其中包含可供选择的已恢复流程的列表。您可以打开恢复的流程并在停止的位置继续,或者在不需要时删除恢复的流程文件。
注意:如果在“已恢复流程”文件夹中有已恢复流程,则每次打开应用程序时都会显示此对话框,直到该文件夹为空。
如果不希望启用此功能,作为管理员,您可以在安装期间或安装之后将其关闭。有关如何关闭此功能的详细信息,请参见 Tableau Desktop 和 Tableau Prep 部署指南中的关闭恢复(链接在新窗口中打开)。
在 Tableau Desktop 中查看流程输出
注意:此选项在 Web 上不可用。
当您清理数据时,有时您可能希望通过在 Tableau Desktop 中查看数据来检查进度。当流程在 Tableau Desktop 中打开时,Tableau Prep Builder 会创建一个永久的 Tableau .hyper 文件和一个 Tableau 数据源 (.tds) 文件。这些文件保存在 Tableau 存储库的“数据源”文件中, 以便您能够随时试验数据。
在 Tableau Desktop 中打开流程时,您可以看到流程中您正在处理的数据样本,其已应用到所选步骤为止的操作。
注意:尽管您可以体验数据,但 Tableau 只会向您显示数据示例,您将无法将工作簿另存为打包工作簿 (.twbx)。当您准备在 Tableau 处理自己的数据时,请在流程中创建一个输出步骤,并将输出保存到文件或另存为发布的数据源,然后在 Tableau 中连接到完整数据源。
若要在 Tableau Desktop 中查看数据样本,请执行以下操作:
- 右键单击要在其中查看数据的步骤,并从上下文菜单中选择“在 Tableau Desktop 中预览”。
- Tableau Desktop 将打开“工作表”选项卡。
创建数据提取文件和已发布数据源
若要创建流程输出,请运行流程。运行流程时,您所做的更改将应用于整个数据集。运行流程会生成 Tableau 数据源 (.tds) 和 Tableau 数据提取 (.hyper) 文件。
Tableau Prep Builder
您可以依据流程输出创建数据提取文件,以便在 Tableau Desktop 中使用,或与第三方共享数据。采用以下格式创建数据提取文件:
- Hyper 数据提取 (.hyper):这是最新的 Tableau 数据提取文件类型。
- 逗号分隔值 (.csv):将数据提取保存到 .csv 文件以与第三方共享数据。导出的 CSV 文件的编码将为带 BOM 的 UTF-8。
- Microsoft Excel (.xlsx):Microsoft Excel 电子表格。
Tableau Prep Builder 以及在 Web 上
将您的流程输出发布为已发布数据源或输出到数据库。
- 将您的流程输出作为数据源保存到 Tableau Server 或 Tableau Cloud,以共享您的数据并提供对您已清理、整形和组合的数据的集中访问。
- 将您的流程输出保存到数据库,以使用干净、准备好的流程数据创建、替换或附加表数据。有关详细信息,请参见将流程输出数据保存到外部数据库。
在运行流程时使用增量刷新,通过仅刷新新数据而不是完整数据集来节省时间和资源。有关如何使用增量刷新配置和运行流程的信息,请参见使用增量刷新来刷新流程数据。
注意:若要将 Tableau Prep Builder 输出发布到 Tableau Server,必须启用 Tableau Server REST API。有关详细信息,请参见 Tableau REST API 帮助中的 REST API 要求(链接在新窗口中打开)。若要发布到使用安全套接字层 (SSL) 加密证书的服务器,还要在运行 Tableau Prep Builder 的计算机上执行一些额外配置步骤。有关详细信息,请参见 Tableau Desktop 和 Tableau Prep Builder 部署指南中的安装之前(链接在新窗口中打开)。
在流程输出中包含参数
从版本 2021.4 开始在 Tableau Prep Builder 和 Web 上受支持
在流程输出文件名、路径、表名或自定义 SQL 脚本(版本 2022.1.1 及更高版本)中包含参数值,以轻松针对不同数据集运行流程。有关详细信息,请参见在流程中创建和使用参数。
创建数据提取到文件
注意:在 Web 上创建或编辑流程时,此输出选项不可用。
- 单击步骤上的加号图标 ,并选择“添加输出”。
如果以前运行过流程,请单击输出步骤上的运行流程 按钮。这将运行流程并更新输出。
“输出”窗格将打开,并显示数据的快照。
- 在左侧窗格中,从“将输出保存到”下拉列表中选择“文件”。在以前的版本中,选择“保存到文件”。
- 单击“浏览”按钮,然后在“将数据提取另存为”对话框中输入文件的名称,并单击“接受”。
- 在“输出类型”字段中,从以下输出类型中进行选择:
- Tableau 数据提取 (.hyper)
- 逗号分隔值 (.csv)
(Tableau Prep Builder) 在“写入选项”部分,查看用于将新数据写入文件并根据需要进行任何更改的默认写入选项。有关详细信息,请参见配置写入选项。
- 创建表:此选项创建新表,或将现有表替换为新输出。
- 追加到表:此选项将新数据添加到现有表中。如果表不存在,将创建一个新表,后续运行会将新行添加到此表。
注意:对于 .csv 输出类型,不支持“追加到表”。有关支持的刷新组合的详细信息,请参见流程刷新选项。
- 单击“运行流程”以运行流程并生成数据提取文件。
创建数据提取到 Microsoft Excel 工作表
在 Tableau Prep Builder 版本 2021.1.2 及更高版本中受支持。在 Web 上创建或编辑流程时,此输出选项不可用。
当您流程数据输出到 Microsoft Excel 工作表时,您可以在现在工作表中附加或替换数据。以下条件适用:
- 仅支持 Microsoft Excel .xlsx 文件格式。
- 工作表行从单元格 A1 开始。
- 在附加或替换数据时,会假定第一行为标题。
- 创建新工作表时会添加标题名称,但在将数据添加到现有工作表时不会添加。
- 现有工作表中的任何格式设置或公式不适用于流程输出。
- 目前不支持写入到指定的表或范围。
- 当前不支持增量刷新。
将流程数据输出到 Microsoft Excel 工作表文件
- 单击步骤上的加号图标 ,并选择“添加输出”。
如果以前运行过流程,请单击输出步骤上的运行流程 按钮。这将运行流程并更新输出。
“输出”窗格将打开,并显示数据的快照。
- 在左侧窗格中,从“将输出保存到”下拉列表中选择“文件”。
- 单击“浏览”按钮,然后在“将数据提取另存为”对话框中输入或选择文件名,并单击“接受”。
- 在“输出类型”字段中,选择“ Microsoft Excel (.xlsx)”。
- 在“工作表”字段中,选择要将结果写入的工作表,或改为在字段中输入新名称,然后单击“创建新表”。
- 在“写入选项”部分中,选择以下写入选项之一:
- 创建表:使用流程数据创建或重新创建(如果文件已经存在)工作表。
- 追加到表:在现有工作表中添加新行。如果工作表不存在,则创建一个,并且后续流程运行会向该工作表添加行。
- 替换数据:用流程数据替换现有工作表中的第一行以外的所有现有数据。
字段比较显示流程中与工作表中字段匹配的字段(如果工作表已存在)。如果工作表是新的,则显示一对一字段匹配。任何不匹配的字段都被忽略。
- 单击“运行流程”以运行流程并生成 Microsoft Excel 数据提取文件。
创建发布的数据源
- 单击步骤上的加号图标 ,并选择“添加输出”。
注意:Tableau Prep Builder 将刷新以前发布的数据源,并保留数据源中可能包含的任何数据建模(例如计算字段、数字格式设置等)。如果无法刷新数据源,则将替换数据源,包括数据建模。
- “输出”窗格将打开,并显示数据的快照。
- 从“将输出保存到”下拉列表中,选择“已发布数据源”(在以前的版本中选择 “发布为数据源”)。填写以下字段:
- 服务器(仅限 Tableau Prep Builder):选择要在其中发布数据源和数据提取的服务器。如果未登录到服务器,则会提示您登录。
注意:从 Tableau Prep Builder 版本 2020.1.4 开始,在您登录到服务器后,Tableau Prep Builder 会在关闭应用程序时记住服务器名称和凭据。下次打开应用程序时,您已经登录服务器。
在 Mac 上,可能会提示您提供对 Mac 密钥链的访问权限,以便 Tableau Prep Builder 能够安全地使用 SSL 证书来连接到 Tableau Server 或 Tableau Cloud 环境。
如果要输出到 Tableau Cloud,请在“serverUrl”中包括您的站点托管于其上的 pod。例如,“https://eu-west-1a.online.tableau.com”,而不是“https://online.tableau.com”。
- 项目:选择要在其中加载数据源和数据提取的项目。
- 名称:输入文件名。
- 说明:输入数据源的说明。
- 服务器(仅限 Tableau Prep Builder):选择要在其中发布数据源和数据提取的服务器。如果未登录到服务器,则会提示您登录。
- (Tableau Prep Builder) 在“写入选项”部分,查看用于将新数据写入文件并根据需要进行任何更改的默认写入选项。有关详细信息,请参见配置写入选项
- 创建表:此选项创建新表,或将现有表替换为新输出。
- 追加到表:此选项将新数据添加到现有表中。如果表不存在,将创建一个新表,后续运行会将新行添加到此表。
- 单击“运行流程”以运行流程并发布数据源。
将流程输出数据保存到外部数据库
重要信息:此功能使您能够永久删除和替换外部数据库中的数据。请确保您具有写入数据库的权限。
为了防止数据丢失,您可以使用“自定义 SQL”选项复制表数据,并在将流程数据写入表之前运行它。
可以通过 Tableau Prep Builder 或 Web 支持的任何连接器连接到数据,并将数据输出到外部数据库。这使您能够在每次运行流程时使用干净、准备好的数据在数据库中添加或更新数据。此功能可用于增量刷新和完全刷新选项。有关如何配置增量刷新的详细信息,请参见使用增量刷新来刷新流程数据。
将流程输出保存到外部数据库时,Tableau Prep 将执行以下操作:
- 生成行并针对数据库运行任何 SQL 命令。
- 将数据写入输出数据库中的临时表(如果输出到 Snowflake,则为暂存区域)。
- 如果操作成功,数据将从临时表(或 Snowflake 的暂存区域)移动到目标表中。
- 运行将数据写入数据库后要运行的任何 SQL 命令。
如果 SQL 脚本失败,流程将失败。但是,您的数据仍将加载到数据库表中。您可以尝试再次运行流程,也可以在数据库上手动运行 SQL 脚本以应用它。
输出选项
将数据写入数据库时,可以选择以下选项。如果表不存在,则在首次运行流程时创建该表。
- 追加到表:此选项将数据添加到现有表中。如果表不存在,则在首次运行流程时创建该表,并在每次后续流程运行时将数据添加到该表中。
- 创建表:此选项使用流程中的数据创建一个新表。如果该表已存在,则删除表和为表定义的任何现有数据结构或属性,并替换为使用流程数据结构的新表。流程中存在的任何字段都将添加到新的数据库表中。
- 替换数据:此选项删除现有表中的数据并将其替换为流程中的数据,但保留数据库表的结构和属性。如果表不存在,则在首次运行流程时创建该表,并且在每次后续流程运行时,表数据将替换。
其他选项
除了写入选项之外,还可以包括自定义 SQL 脚本或向数据库添加新表。
- 自定义 SQL 脚本:输入您的自定义 SQL 并选择是在将数据写入数据库表之前、之后还是之前和之后运行您的脚本。您可以使用这些脚本在将流程数据写入表之前创建数据库表的副本、添加索引、添加其他表属性等等。
注意:从版本 2022.1.1 开始,您还可以在 SQL 脚本中插入参数。有关详细信息,请参见将用户参数应用于输出步骤。
- 添加新表:向数据库添加具有唯一名称的新表,而不是从现有表列表中选择一个表。如果要应用默认架构(Microsoft SQL Server 和 PostgreSQL)以外的架构,可以使用语法
[schema name].[table name]
指定该架构。
支持的数据库和数据库要求
Tableau Prep 支持将流程数据写入特定数量的数据库中的表。在 Tableau Cloud 中按计划运行的流程只有在云托管时才能写入这些数据库。
不支持专用网络连接和通过 Tableau Bridge 的本地连接。您可以在 Tableau Cloud 中创建使用 Bridge 刷新数据的已发布数据源,然后 Prep 可以连接到已发布的数据源。
某些数据库具有数据限制或要求。Tableau Prep 可能还会施加一些限制,以便在将数据写入支持的数据库时保持最佳性能。下表列出了可在其中保存流程数据的数据库,以及任何数据库限制或要求。不符合这些要求的数据在运行流程时可能会导致错误。
注意:尚不支持为字段设置字符限制。但是,您可以在数据库中创建包含字符限制约束的表,然后使用“替换数据”选项替换数据,但保留数据库中的表结构。
数据库 | 要求或限制 |
---|---|
Amazon Redshift |
|
Google BigQuery |
|
Microsoft SQL Server |
|
MySQL |
|
Oracle |
|
Pivotal Greenplum Database |
|
PostgreSQL |
|
SAP HANA |
|
Snowflake |
|
Teradata |
|
Vertica |
|
将流程数据保存到数据库
注意:不支持使用 Windows 身份验证将流程输出写入数据库。如果使用这种身份验证方法,则需要更改连接身份验证以使用用户名和密码。
您可以在发布流程时为数据库嵌入凭据。有关嵌入凭据的详细信息,请参见从 Tableau Prep Builder 中发布流程中的“数据库”部分
- 单击步骤上的加号图标 ,并选择“添加输出”。
- 从“将输出保存到”下拉列表中,选择“数据库表”。
- 在“设置”选项卡中,输入以下信息:
- 在“连接”下拉列表中,选择要在其中写入流程输出的数据库连接器。仅显示受支持的连接器。这可以是用于流程输入的连接器的同一连接器或其他连接器。如果选择其他连接器,系统将提示您登录。
重要信息:请确保您对选择的数据库具有写入权限。否则,流程可能只会部分处理数据。
- 在“数据库”下拉列表中,选择要在其中保存流程输出数据的数据库。
- 在“表”下拉列表中,选择要在其中保存流程输出数据的表。根据所选的“写入选项”,将创建一个新表,流程数据将替换表中的任何现有数据,或者流程数据将添加到现有表中。
若要在数据库中创建新表,请改为在字段中输入唯一的表名,然后单击“创建新表”。首次运行流程时,无论选择哪个写入选项,都将使用与流程相同的架构在数据库中创建表。
- 在“连接”下拉列表中,选择要在其中写入流程输出的数据库连接器。仅显示受支持的连接器。这可以是用于流程输入的连接器的同一连接器或其他连接器。如果选择其他连接器,系统将提示您登录。
- 输出窗格将显示数据的快照。字段比较显示流程中与表中字段匹配的字段(如果表已存在)。如果表是新的,则显示一对一字段匹配。
如果存在任何字段不匹配,状态说明会显示任何错误。
- 不匹配:字段将被忽略:字段存在于流程中,但不在数据库中。除非选择“创建表”写入选项并执行完全刷新 ,否则不会将该字段添加到数据库表中。然后将流程字段添加到数据库表并使用流程输出架构。
- 不匹配:字段将包含 Null 值:字段存在于数据库中,但不在流程中。流程将 Null 值传递到字段的数据库表。如果该字段确实存在流程中,但由于字段名不同而不匹配,您可以导航到清理步骤并编辑字段名以匹配数据库字段名。有关如何编辑字段名的详细信息,请参见应用清理操作。
- 错误:字段数据类型不匹配:分配给流程中字段和向其中写入输出的数据库表的数据类型必须匹配,否则流程将失败。您可以导航到清理步骤并编辑字段数据类型来修复此问题。有关更改数据类型的信息,请参见查看分配给数据的数据类型。
- 选择写入选项:您可以为完全刷新和增量刷新选择其他选项,并在选择流程运行方法时应用该选项。有关使用增量刷新运行流程的详细信息,请参见使用增量刷新来刷新流程数据。
- 追加到表:此选项将数据添加到现有表中。如果表不存在,则在首次运行流程时创建该表,并在每次后续流程运行时将数据添加到该表中。
- 创建表:此选项将创建新表。如果具有相同名称的表已存在,则删除现有表并替换为新表。为表定义的任何现有数据结构或属性也将被删除,并替换为流程数据结构。流程中存在的任何字段都将添加到新的数据库表中。
- 替换数据:此选项删除现有表中的数据并将其替换为流程中的数据,但保留数据库表的结构和属性。
- (可选)单击“自定义 SQL”选项卡并输入 SQL 脚本。您可以输入要在将数据写入表之前和之后运行的脚本。
- 单击“运行流程”以运行流程并将数据写入所选的数据库。
将流程输出数据保存到 CRM Analytics 中的数据集
从版本 2022.3 开始在 Tableau Prep Builder 和 Web 上受支持。
注意:在整合外部来源的数据时,CRM Analytics 有几个要求和一些限制。为了确保您可以成功地将流程输出写入 CRM Analytics,请参见 Salesforce 帮助中的将数据集成到数据集之前的注意事项(链接在新窗口中打开)。
使用 Tableau Prep 清理数据,并在 CRM Analytics 中获得更好的预测结果。只需通过 Tableau Prep Builder 或 Web 上 Tableau Prep 支持的任何连接器连接到数据。然后,应用转换来清理您的数据,并将您的流程数据直接输出到您有权访问的 CRM Analytics 中的数据集。
无法使用命令行界面运行向 CRM Analytics 输出数据的流程。您可以使用 Tableau Prep Builder 手动运行流程,也可以使用 Tableau Prep Conductor 在 Web 上按计划运行流程。
先决条件
若要将流程数据输出到 CRM Analytics,请检查您在 Salesforce 和 Tableau 中是否拥有以下许可证、访问权限和许可。
Salesforce 要求
要求 | 描述 |
---|---|
Salesforce 权限 | 您必须获得 CRM Analytics Plus 或 CRM Analytics Growth 许可证。 CRM Analytics Plus 许可证包括权限集:
CRM Analytics Growth 许可证包括权限集:
有关详细信息,请参见 Salesforce 帮助中的了解 CRM Analytics 许可证和权限集(链接在新窗口中打开)以及选择和分配用户权限集(链接在新窗口中打开)。 |
管理员设置 | Salesforce 管理员将需要配置:
|
Tableau Prep 要求
要求 | 描述 |
---|---|
Tableau Prep 许可证和权限 | “Creator”许可证 作为创建者,您需要登录您的 Salesforce org 帐户并进行身份验证,然后才能选择“应用和数据集”来输出您的流数据。 |
OAuth 数据连接 | 作为服务器管理员,在连接器上使用 Oauth 客户端 ID 和密码配置 Tableau Server 。这是在 Tableau Server 上运行流程所必需的。 有关详细信息,请参见 Tableau Server 帮助中的针对 Salesforce.com Oauth 配置 Tableau Server(链接在新窗口中打开)。 |
将流程数据保存到 CRM Analytics
从 Tableau Prep Builder 保存到 CRM Analytic s时,以下 CRM Analytics 输入限制适用。
- 外部数据上传的最大文件大小:40 GB
- 连续 24 小时内所有外部数据上传的最大文件大小:50 GB
- 单击步骤上的加号图标 ,并选择“添加输出”。
- 从“将输出保存到”下拉列表中,选择“CRM Analytics”。
- 在“数据集”部分,连接到 Salesforce。
登录 Salesforce 并单击“Allow”(允许)以授予 Tableau 访问 CRM Analytics 应用程序和数据集的权限,或选择现有的 Salesforce 连接
- 在“Name”(名称)字段中,选择现有数据集名称。这将用您的流程输出覆盖和替换数据集。否则,键入新名称并单击“Create new dataset”(创建新数据集),以在所选 CRM Analytics 应用软件创建新数据集。
注意:数据集名称不能超过 80 个字符。
- 在“Name”(名称)字段下,验证显示的应用程序是您有权写入的应用程序。
若要更改应用程序,请单击“Browse Datasets”(浏览数据集),然后从列表中选择应用程序,在“Name”(名称)字段中输入数据集名称,然后单击“Accept”(接受)。
- 在“Write Options”(写入选项)部分,“Full refresh”(完全刷新)和“Create table”(创建表)是唯一受支持的选项。
- 单击“Run Flow”(运行流程)以运行流程并将数据写入 CRM Analytics 数据集。
如果您的流程运行成功,您可以在数据管理器的“Monitor”(监控)选项卡中验证 CRM Analytics 中的输出结果。有关此功能的详细信息,请参见 Salesforce 帮助中的监控外部数据上载(链接在新窗口中打开)。
将流程输出数据保存到 Data Cloud
从版本 2023.3 开始在 Tableau Prep Builder 和 Web 上受支持。
使用 Tableau Prep 准备数据,然后将数据与 Data Cloud 中的现有数据集关联。使用 Tableau Prep Builder 或 Web 上的 Tableau Prep 支持的任何连接器导入数据、清理和准备数据,然后使用摄取 API 将流程数据直接输出到 Data Cloud。
权限先决条件
Salesforce 许可证 | 有关 Data Cloud 版本和附加许可证的信息,请参见 Salesforce 帮助中的 Data Cloud 标准版本和许可证。 另请参见 Data Cloud 限制和指南。 |
数据空间权限 | 您必须被分配到数据空间并被分配到 Data Cloud 中的以下权限集之一:
|
摄取到 Data Cloud 权限 | 您必须被分配以下权限才能进行现场访问以摄取到 Data Cloud:
有关详细信息,请参见启用对象和字段权限。 |
Salesforce 配置文件 | 启用配置文件访问权限:
|
Tableau Prep 许可证和权限 | “Creator”许可证作为创建者,您必须登录您的 Salesforce org 帐户并进行身份验证,然后才能选择“应用和数据集”来输出您的流数据。 |
将流程数据保存到 Data Cloud
如果您已在使用摄取n API 并手动调用 API 将数据集保存到 Data Cloud,则可以使用 Tableau Prep 简化该工作流程。Tableau Prep 的先决条件配置相同。
如果这是您第一次将数据保存到 Data Cloud,请遵循Data Cloud 设置先决条件中的设置要求。
- 单击步骤上的加号图标 ,并选择“添加输出”。
- 从“将输出保存到”下拉列表中,选择“Salesforce Data Cloud”。
- 从“对象”部分,选择要登录的 Salesforce Data Cloud 组织。
- 从“Salesforce Data Cloud”菜单中,单击“登录”。
- 使用您的用户名和密码登录 Data Cloud 组织。
- 在“Allow Access”(允许访问)表单中,单击“Allow”(允许)。
- 在“Save output to”(将输出保存到)部分输入摄取 API 连接器和对象名称。
- “Write Options”(写入选项)部分指示如果表中已存在指定值,则将更新现有行;如果指定值尚不存在,则将插入新行。
- 单击“Run Flow”(运行流程)以运行流程并将数据写入 Data Cloud。
- 通过查看数据流中的运行状态和数据资源管理器中的对象来验证 Data Cloud中的数据。
浏览器窗口将打开并显示 https://login.salesforce.com/ 。
Data Lake 对象名称是连接器和对象名称的组合:IngestionAPIConnectorName-ObjectName 。在下面的示例中,连接器名称为 TableauSchema (1)。对象名称为 typeMachineSensorDataString (2)。
注意事项
- 您可以一次运行一个流程。必须先在 Data Cloud 中完成运行,然后才能运行另一个保存输出。
- 将流程保存到 Data Cloud 的等待时间可能需要一些时间才能完成。在 Data Cloud 中检查状态。
- 使用 Upsert 功能将数据保存到 Data Cloud。如果文件中的记录与现有记录匹配,则现有记录将使用数据中的值进行更新。如果未找到匹配项,则将记录创建为新实体。
- 对于 Prep Conductor,如果您计划自动运行相同的流程,则数据将不会更新。这是因为仅支持 Upsert。
- 在保存到 Data Cloud 过程中您无法中止作业。
- 不会对保存到 Data Cloud 的字段进行验证。验证 Data Cloud 中的数据。
Data Cloud 设置先决条件
这些步骤是将 Tableau Prep 流程保存到 Data Cloud 的先决条件。有关 Data Cloud 概念以及在 Tableau 数据源和 Data Cloud 之间映射数据的详细信息,请参见关于 Salesforce Data Cloud。
设置摄取 API 连接器
通过上载具有 .yaml 文件扩展名的 OpenAPI (OAS) 格式的架构文件,依据源对象创建摄取 API 数据流。架构文件描述了您网站上的数据的结构。有关详细信息,请参见YMAL文件示例和摄取 API。
- 单击“设置”齿轮图标,然后单击“Data Cloud 设置” 。
- 单击“摄取 API”。
- 单击“新建”并提供连接器名称。
- 在新连接器的详细信息页面上,上载 OpenAPI (OAS) 格式的架构文件,文件扩展名为
.yaml
。架构文件描述了通过 API 传输的数据的结构。 - 单击“预览架构”表单上的“保存” 。
注意:摄取 API 架构有设定的要求。在摄取之前,请参见架构要求。
创建数据流
数据流是引入 Data Cloud 的数据源。它由摄取到 Data Cloud 中的连接和关联数据组成。
- 转到应用程序启动器并选择“Data Cloud”。
- 单击“Data Streams”(数据流)选项卡。
- 单击“New”(新建)并选择“Ingestion API”(摄取 API),然后单击“Next”(下一步)。
- 选择摄取 API 和对象。
- 选择“Data Space”(数据空间)、“Category”(类别)和“Primary Key”(主键),然后单击“Next”(下一步)。
- 单击“Deploy”(部署)。
必须为 Data Cloud 使用真正的主键。如果不存在,您需要为主键创建一个公式字段。
对于“Category”(类别),请在“Profile”(简档)、“Engagement”(参与)或“Other”(其他)之间进行选择。对于用于参与类别的对象,必须存在日期时间字段。简档或其他类型的对象不强加同样的要求。有关详细信息,请参见类别和主键。
您现在拥有一个数据流和一个数据湖对象。您的数据流现在可以添加到数据空间。
将数据流添加到数据空间
当您将数据从任何来源引入 Data Cloud 时,您可以将数据湖对象 (DLO) 关联到相关数据空间(无论是否有筛选器)。
- 单击“Data Spaces”(数据空间)选项卡。
- 选择默认数据空间或您分配到的数据空间的名称。
- 单击“Add Data”(添加数据)。
- 选择您创建的数据湖对象,然后单击“Next”(下一步)。
- (可选)为对象选择筛选器。
- 单击“Save”(保存)。
将数据湖对象映射到 Salesforce 对象
数据映射将数据湖对象字段与数据模型对象 (DMO) 字段相关联。
- 转到“Data Stream”(数据流)选项卡并选择您创建的数据流。
- 从“Data Mapping”(数据映射)部分,单击“Start”(开始) 。
字段映射画布在左侧显示源 DLO,在右侧显示目标 DMO。有关详细信息,请参见映射数据模型对象。
为 Data Cloud 摄取 API 创建已连接应用
在使用摄取n API 将数据发送到 Data Cloud 之前,您必须配置已连接应用。有关更多详细信息,请参见为 API 集成启用 OAuth 设置和为 Data Cloud 摄取 API 创建已连接应用。
作为为摄取 API 设置的已连接应用的一部分,您必须选择以下 OAuth 范围:
- 访问和管理您的 Data Cloud 摄取n API 数据 (cdp_ingest_api)
- 管理 Data Cloud 简档数据 (cdp_profile_api)
- 对 Data Cloud 数据执行 ANSI SQL 查询 (cdp_query_api)
- 通过 API (api) 管理用户数据
- 随时代表您执行请求(refresh_token、offline_access)
架构要求
若要在 Data Cloud 中创建摄取 API 源,您上载的架构文件必须满足特定要求。请参见摄取 API 架构的要求。
- 上载的架构必须采用有效的 OpenAPI 格式,并带有 .yml 或 .yaml 扩展名。支持 OpenAPI 版本 3.0.x。
- 对象不能有嵌套对象。
- 每个架构至少必须有一个对象。每个对象至少必须有一个字段。
- 对象的字段不能超过 1000 个。
- 对象名称的长度不能超过 80 个字符。
- 对象名称只能包含 a-z、AZ-、0-9、_、-。没有 unicode 字符。
- 字段名称只能包含 a-z、A-Z、0-9、_、-。没有 unicode 字符。
- 字段名称不能是以下任何保留字:date_id、location_id、dat_account_currency、dat_exchange_rate、pacing_period、pacing_end_date、row_count、version。字段名称不能包含字符串 __。
- 字段名称不能超过 80 个字符。
- 字段满足以下类型和格式:
- 对于文本或布尔类型:字符串
- 对于数字类型:数字
- 对于日期类型:字符串;格式:日期时间
- 对象名称不能重复;不区分大小写。
- 对象不能有重复的字段名称;不区分大小写。
- 有效负载中的日期时间数据类型字段必须采用 ISO 8601 UTC Zulu 格式,格式为 yyyy-MM-dd'T'HH:mm:ss.SSS'Z'。
更新架构时,请注意:
- 无法更改现有字段数据类型。
- 更新对象时,该对象的所有现有字段都必须存在。
- 更新后的架构文件仅包含更改的对象,因此您不必每次都提供完整的对象列表。
- 对于用于参与类别的对象,必须存在日期时间字段。
profile
或other
类型的对象不会强加同样的要求。
YMAL文件示例
openapi: 3.0.3 components: schemas: owner: type: object required: - id - name - region - createddate properties: id: type: integer format: int64 name: type: string maxLength: 50 region: type: string maxLength: 50 createddate: type: string format: date-time car: type: object required: - car_id - color - createddate properties: car_id: type: integer format: int64 color: type: string maxLength: 50 createddate: type: string format: date-time
将流程输出数据保存到 Amazon S3
在 Tableau Prep Builder 2024.2 及更高版本以及 Web 制作和 Tableau Cloud 中可用。此功能尚未在 Tableau Server 中提供。
您可以从 Tableau Prep Builder 或 Web 支持的任何连接器连接到数据,并将流程输出作为 .parquet 或 .csv 文件保存到 Amazon S3。输出可以保存为新数据,也可以覆盖现有的 S3 数据。为了防止数据丢失,您可以使用“自定义 SQL”选项复制表数据,并在将流程数据保存到 S3 之前运行它。
保存流程输出和连接到 S3 连接器是彼此独立的。您不能重复使用用作 Tableau Prep 输入连接的现有 S3 连接。
您可以在 Amazon S3 中存储的数据总量和对象数量不受限制。单个 Amazon S3 对象的大小范围可以从最小 0 字节到最大 5 TB。一次 PUT 可上传的最大对象为 5 GB。对于大于 100 MB 的对象,客户应该考虑使用分段上传功能。请参见使用分段上传来上传和复制对象。
权限
若要写入 Amazon S3 存储桶,您需要您的存储桶区域、存储桶名称、访问密钥 ID 和密文访问密钥。若要获取这些密钥,您需要在 AWS 中创建一个身份和访问管理 (IAM) 用户。请参见管理 IAM 用户的访问密钥。
将流程数据保存到 Amazon S3
- 单击步骤上的加号图标 ,并选择“添加输出”。
- 从“将输出保存到”下拉列表中,选择“数据库和云存储”。
- 从“表 > 连接”部分中,选择“Amazon S3 (仅输出)” 。
- 在“Amazon S3(仅输出)”表单中,添加以下信息:
- 访问密钥 ID :您用于签署发送到 Amazon S3 的请求的密钥 ID。
- 密文访问密钥:用于验证您是否有权访问 AWS 资源的安全凭据(密码、访问密钥)。
- 存储桶区域:Amazon S3 存储桶位置(AWS 区域终端节点)。例如:us-east-2。
- 存储桶名称:您要写入流程输出的 S3 存储桶的名称。同一区域内任意两个 AWS 帐户的存储桶名称不能相同。
注意:若要查找您的 S3 区域和存储桶名称,请登录您的 AWS S3 帐户并导航到 AWS S3 控制台。
- 单击“登录”。
- 在“S3 URI”字段中,输入
.csv
或.parquet
文件的名称。默认情况下,该字段填充了以下内容:s3://<your_bucket_name>
文件名必须包含扩展名.csv
或.parquet.
您可以将流程输出保存为新的 S3 对象或覆盖现有的 S3 对象。
- 对于新的 S3 对象,请键入
.parquet
或.csv
文件的名称。URI 显示在预览文本中。例如:s3://<bucket_name><name_file.csv>
。 - 若要覆盖现有的 S3 对象,请键入
.parquet
或.csv
文件的名称,或单击“浏览”查找现有的 S3.parquet
或.csv
文件。注意:“浏览对象”窗口将仅显示以前登录 Amazon S3 时保存的文件。
- 对于新的 S3 对象,请键入
- 对于“写入选项”,将使用流程中的数据创建一个新的 S3 对象。如果数据已经存在,则删除为对象定义的任何现有数据结构或属性,并替换为现的流程数据。流程中存在的任何字段都将添加到新的 S3 对象。
- 单击“Run Flow”(运行流程)以运行流程并将数据写入 S3。
您可以通过登录您的 AWS S3 帐户并导航到 AWS S3 控制台来验证数据是否已保存到 S3。