在 Web 上创建数据提取

您可以在 Web 中提取数据源(无需使用 Tableau Desktop),以提高数据源性能并支持其他分析功能。提取数据源时,Tableau 会将数据从远程数据存储复制到 Tableau Server 或 Tableau Cloud。若要详细了解提取数据的好处,请参见提取数据。在 Web 中,您可以在 Web 制作过程中或内容服务器中提取。

在 Web 制作中创建数据提取

您可以在 Web 制作中使用默认数据提取设置直接创建数据提取。

在 Web 制作中提取嵌入式数据源

显示数据提取连接类型的“数据源”页面

完成以下步骤以在 Web 制作中创建数据提取。

提示:建议在创建数据提取之前完成数据模型。数据提取创建可能需要很长时间,对数据模型的任何更改(例如添加新逻辑表)都将使数据提取失效。

  1. 选择 Web 制作窗格左下角的“数据源”选项卡。对于新的工作簿,您将在“数据源”选项卡中开始。
  2. 在右上角,将连接类型从“实时”更改为“数据提取”
  3. 选择“创建数据提取”。您将看到“正在创建数据提取”对话框。

数据提取创建可能需要很长时间,您可以在创建数据提取时关闭制作会话。为确保数据提取创建不会丢失,请在对话框中选择“完成时通知我”以指定要保存的已提取工作簿的位置。如果数据提取成功,您的工作簿将保存到指定位置,并将通知您可以继续 Web 制作会话。

如果数据提取创建失败,系统会通知您无法创建数据提取,并且您可以通过在 Web 制作中重新打开原始工作簿来还原未保存的更改。

定义您的数据提取设置

(您可以配置以下一项或多项选项来指示 Tableau 如何存储、定义筛选器并限制数据提取中的数据量。

显示逻辑表或物理表的选择的“数据提取数据”页面

  • 决定应以何种方式存储数据提取数据

    您可以选择让 Tableau 使用两种结构(架构)之一将数据存储在数据提取中:逻辑表(非标准化架构)或物理表(标准化架构)。有关逻辑表和物理表的详细信息,请参见“Tableau 数据模型”。所选的选项取决于您的需求。

    • 逻辑表

      逻辑表使用数据源中每个逻辑表的一个数据提取表存储数据。定义逻辑表的物理表与该逻辑表合并并存储在一起。举例来说,如果数据源由单个逻辑表组成,则数据将存储在单个表中。

      如果数据源由三个逻辑表组成(每个表包含多个物理表),则数据提取数据将存储在三个表中,每个逻辑表一个。

      如果要使用其他数据提取属性(如数据提取筛选器、聚合、“前 N 个”或需要非规范化数据的其他功能)限制数据提取中的数据量,请选择“逻辑表”。当数据使用直通函数 (RAWSQL) 时,也使用“逻辑表”。这是 Tableau 用于存储数据提取数据的默认结构。

      如果在数据提取包含联接时使用此选项,则会在创建数据提取时应用联接。

    • 物理表

      物理表使用数据源中每个物理表的一个数据提取表存储数据。

      如果您的数据提取由使用一个或多个等值联接合并的表组成,并且满足下面列出的“使用‘物理表’选项的条件”,请选择“物理表”。如果使用此选项,则会在查询时执行联接。

      此选项能够潜在地提升性能和减小数据提取文件的大小。有关 Tableau 如何建议您使用“物理表”选项的详细信息,请参见 Tableau Desktop 帮助中的关于使用“物理表”选项的提示

      在某些情况下,您也可以使用此选项作为行级安全性的解决方法。有关使用 Tableau 的行级别安全性的详细信息,请参见-Tableau Desktop 帮助中的在数据行级别限制访问权限

      使用“物理表”选项的条件

      若要使用“物理表”选项存储数据提取,数据提取中的数据必须满足下面列出的所有条件。

      • 物理表之间的所有联接均为等值 (=) 联接。
      • 用于关系或联接的列的数据类型相同。
      • 未使用直通函数 (RAWSQL)。
      • 未配置增量刷新。
      • 未配置数据提取筛选器。
      • 未配置“前 N 个”或抽样。
      • 如果以“物理表”方式存储数据提取,则无法向其附加数据。
      • 对于逻辑表,不能将数据追加到具有多个逻辑表的数据提取。

    注意:“逻辑表”和“物理表”选项都只会影响数据提取中数据的存储方式。这些选项不影响数据提取中的表在“数据源”页面上的显示方式。

    确定要提取多少数据 

    选择“添加”定义一个或多个筛选器,以限制基于字段及字段值提取的数据量。

    对数据提取中的数据进行聚合 

    选择“聚合可视维度的数据”以使用度量的默认聚合来聚合度量。对数据进行聚合可以合并行,并且可以最大限度地减少数据提取文件的大小并提高性能。

    选择对数据进行聚合时,也可以选择按指定的日期级别(例如“年”、“月”等)来“汇总日期”。以下示例说明了如何为您可以选择的每个聚合选项提取数据。

    原始数据每个记录都显示为一个单独行。数据中共有 7 行。
    聚合可视维度的数据

    (无汇总)

    具有相同日期和地区的记录已聚合到一行中。数据提取中共有 5 行。
    聚合可视维度的数据
    (按“月”汇总日期)
    日期已按“月”级别进行汇总,并且具有相同地区的记录已聚合到一行中。数据提取中共有 3 行。
    • 选择要提取的行

      选择要提取的行数。

      可以提取所有行或前 N 行。Tableau 首先会应用筛选器和聚合,然后从经过筛选和聚合的结果中提取行数。行数选项取决于要从中进行提取的数据源的类型。

      注意:

      • 并非所有数据源都支持抽样。因此,您在“提取数据”对话框中可能看不到“抽样”选项。

      • 数据提取中将不包括您最初在“数据源”页面或工作表标签页中隐藏的任何字段。

      配置增量刷新设置

      大多数数据源都支持增量刷新。您可以将刷新配置为仅添加自上次提取数据以来新增的行,而不是刷新整个数据提取。

      例如,您可能有一个每天都使用新销售交易进行更新的数据源。您只需添加当天发生的新交易,而不是每天重新生成整个数据提取。若要在计划刷新时将增量作为选项,您必须首先定义设置。

      您可能需要定期进行完全刷新,以确保拥有最新数据。

      注意:如果源数据的数据结构发生更改(例如,添加了新列),则需要执行完全数据提取刷新,然后才能再次开始执行增量刷新。

       

设置增量刷新

      按照以下步骤设置要增量刷新的数据提取,但首先确保您已选择“所有行”作为要提取的行数。

      只有在提取数据库中的所有行时,才能定义增量刷新。不能将样本数据提取递增。

      1. 选中“增量刷新”框。

      2. 选择要刷新的表。

      3. 选择用于标识新行的列。

      4. “要刷新的最小日期范围”中输入子日期范围。您可以选择在此字段中以天、小时、分钟或秒为单位来选择特定时间范围。

例如,在 Tableau 中选择“日期”或“日期时间”列时,用户可以刷新指定时间范围内的数据提取数据,例如从刷新日期起 14 天。此功能对于允许在规定时间段内插入和追溯修改的数据源非常有用。通过使用增量数据提取刷新,用户可以有效地捕获这些更改以及任何新数据。

 

    使用高级设置

    您可以展开“高级设置”以确定如何检索新行。

    注意:如果您已设置刷新的最小日期范围,则“高级设置”功能将不可用。

    “高级设置”允许您通过刷新等于或大于最后记录值的值来替换最后添加的行,或者通过仅刷新具有大于最后记录值的值的数据提取来保留最后添加的行。

      在第一种方法中,Tableau 允许用户使用非唯一键列(例如日期、日期时间或 Id)增量刷新数据提取。

      此方法在执行增量刷新时添加了一个新步骤。Tableau 将首先删除数据提取中等于之前看到的最高值的行。然后,Tableau 查询高于或等于先前最高值的所有行,这将选取所有已删除的行和任何新行。

      相反,您仍然可以选择不替换最后添加的行,而仅添加值大于最后记录值的行。

      若要完成,请选择“创建数据提取”

      进行增量刷新时的注意事项

      编辑数据提取:

      如果要编辑现有数据提取,则将显示上次刷新,这样您可以确保使用正确的数据更新数据提取。

      完全刷新:

      每次刷新数据提取时,完全刷新都会用原始数据源中的数据替换所有行。完全刷新可能需要更长的时间,并且对数据库来说代价高昂。

      数据引擎:

      数据引擎是 Tableau 创建数据提取所使用的基础机制,存储时间值时最多精确到 3 位小数。

      如果为“使用列标识新行”指定日期时间或时间戳列,并且数据库使用比 Tableau 更高的精度,则在增量刷新后最终会出现重复行。

      举例来说,如果数据库有两个行,其中一个行的日期时间值为 2015-03-13 17:30:56.502352,另一个行的日期时间值为 2015-03-13 17:30:56.502852,则 Tableau 在存储这两个行时都将使用日期时间值 2015-03-13 17:30:56.502,从而会创建重复行。

      限制

      • 不能为引用已发布数据源的嵌入式数据源创建数据提取。作为解决方法,请直接在已发布的数据源上创建数据提取。有关详细信息,请参见“在内容服务器上连接到发布的数据源”。

      • 无法为基于文件的数据源创建数据提取。基于文件的数据源已经具有特殊的性能功能,添加数据提取将没有性能优势。

      • 此功能不适用于 Tableau Cloud 中基于桥接的数据源。

      • 自定义 SQL 限制:高级设置不支持自定义 SQL 查询。如果依赖自定义 SQL 的用户希望使用高级设置进行增量刷新,则需要调整其方法。

在内容服务器中创建数据提取

在内容服务器上提取已发布数据源

显示菜单中的数据提取选项的“数据源”页面

完成以下步骤来提取已发布数据源。

  1. 以管理员或数据源所有者的身份登录。
  2. 在“内容”选项卡上,选择“浏览”,然后选择“数据源”
  3. 通过单击数据源名称选择数据源。
  4. 在屏幕顶部的“数据源”名称下,选择显示“实时”的下拉菜单。
  5. 将连接类型从“实时”更改为“数据提取”。如果在站点上启用了静态数据提取加密功能,请选择“已加密”“未加密”
  6. 如果看到有关嵌入凭据的错误消息,请将凭据嵌入到数据源中。为此,请选择“编辑连接”。选择“连接中的嵌入式密码”,然后选择“保存”

在内容服务器上提取嵌入式数据源

数据源页面上操作菜单中的数据提取选项

完成以下步骤以提取嵌入在已发布工作簿中的一个或多个数据源。

  1. 以管理员或数据源所有者的身份登录。
  2. 导航到已发布的工作簿。
  3. 导航到“数据源”选项卡
  4. 选择一个或多个数据源。
  5. 选择“操作”按钮。
  6. 选择“提取”。如果在站点上启用了静态数据提取加密功能,请选择“已加密”“未加密”

限制

  • 您的连接凭据必须嵌入到数据源中。
  • 不能为引用已发布数据源的嵌入式数据源创建数据提取。作为解决方法,请直接在已发布的数据源上创建数据提取。
  • 无法为基于文件的数据源创建数据提取。基于文件的数据源已经具有特殊的性能功能,添加数据提取将没有性能优势。
  • 此功能不适用于 Tableau Cloud 中基于 Bridge 的数据源。

使提取的数据保持最新

提取数据后,可以选择设置数据提取刷新计划,以使数据保持最新。有关详细信息,请参见按计划刷新数据

监视和管理数据提取

服务器管理员可以在“数据提取后台任务”管理视图中监视数据提取创建。有关详细信息,请参见数据提取后台任务

服务器管理员可以在“作业”页面上管理数据提取。有关详细信息,请参见在 Tableau Server 中管理后台作业

数据提取创建作业(如数据提取刷新作业)在超时之前有最大查询限制。这是为了防止作业永远运行和使用无限数量的服务器资源。数据提取查询限制超时可由服务器管理员使用 TSM 命令行界面配置设置 backgrounder.querylimit 进行配置。有关详细信息,请参见tsm configuration set 选项

服务器管理员可以管理 Web 制作。有关详细信息,请参见设置站点的 Web 制作访问权限和功能

感谢您的反馈!您的反馈已成功提交。谢谢!