刷新数据提取
当原始数据发生改变时,您可以使用桌面刷新数据提取,方法是在“数据”菜单中选择数据源,然后选择 。数据提取可以通过两种方式设置:完全刷新或增量刷新。
通过完全刷新,数据提取中的所有数据都将替换为原始数据源中的最新信息。增量刷新有两种变化:仅添加自上次刷新以来的新行,或者定义从刷新日期到刷新的时间段。可选的第二种方法解决了如果数据源中已提取的数据可能已发生变化时更新数据提取的需要。如果您想了解有关如何提取数据的更多详细信息,请参见提取数据。
注意:您还可以使用 Tableau 数据提取命令行实用工具自动执行数据提取刷新。
如果要刷新数据提取,请在执行数据提取刷新之前记下数据提取的文件格式。如果使用版本 2022.4 或更高版本对 .tde
数据提取执行刷新,则该数据提取会自动升级为 .hyper
数据提取。虽然升级到 .hyper
数据提取有许多好处,但是您将无法使用以前版本的 Tableau Desktop 打开数据提取。有关详细信息,请参见数据提取升级为 .hyper 格式。
注意:Tableau 2024.2 版本之后不再支持任何形式的 .tde 文件,必须升级为 .hyper 格式才能使用。
默认情况下,数据提取被配置为完全刷新。这意味着每次刷新数据提取时,所有行都会替换为原始数据源中的数据。虽然这种刷新可确保您具有原始数据中的数据的精确副本,但在数据库上执行完全刷新有时需要很长时间并且开销很大,具体取决于数据提取的大小。如果未将数据提取配置为增量刷新,则选择刷新数据提取将会执行完全刷新数据提取。
发布到 Tableau Server
如果您打算将数据提取作为数据源发布到 Tableau Server,则可以在发布期间指定数据提取刷新计划。
同样,如果您要将工作簿中的数据提取发布到 Tableau Server,则也可以在发布期间指定数据提取刷新计划。有关详细信息,请参见发布工作簿时计划数据提取刷新。
发布到 Tableau Cloud
如果打算将数据提取以数据源形式发布到 Tableau Cloud,则用于刷新数据的选项取决于您的数据源的特征。有关刷新特定数据源中的数据的详细信息,请参见按数据源列出的数据提取刷新选项。
大多数数据源都支持增量刷新。您可以将刷新配置为仅添加自上次提取数据以来新增的行,而不是刷新整个数据提取。
例如,您可能有一个每天都使用新销售交易进行更新的数据源。您只需添加当天发生的新交易,而不是每天重新生成整个数据提取。随后,为了确保拥有最新数据,您可能需要每周执行一次完全刷新。
您还可以选择配置增量设置来定义时间子范围,以从现有数据提取中移除所有相关数据并完全刷新它,并获取自该时间范围内上次刷新以来的更改或添加的任何内容。
非唯一列
从版本 2024.1 开始,Tableau 引入了一项功能,使用户能够使用非唯一键列对数据提取执行增量刷新。此更新在此过程中引入了一个额外步骤。
增量数据提取的子范围刷新
在 Tableau 版本 2024.2 及更新版本中,您可以指定额外的时间段来重新提取以前提取的数据并捕获可能发生的任何更改。这是通过“刷新的最小日期范围”字段完成的。如果(例如)数据源允许在定义的时间段内进行插入和追溯修改,这将非常有用。配置完成后,增量数据提取将提取任何新数据,以及从设定的时间范围内提取的先前数据。
选择一个数字(例如 2)和时间段(例如“月”)后,下面的帮助文本将更新以反映您的选择(“自刷新日期起的最后 2 个月的数据将始终刷新”)。如果未输入时间范围,它将只提取比现有数据提取更新的内容。
了解子范围刷新
根据您计划刷新数据提取的频率、数据源的更新频率以及每个时间段内通常更新的数据量,来配置最适合您的子范围刷新。了解 Tableau 如何解释您的数据提取配置选择以确保数据提取包含您期望的数据非常重要。
- 当输入多个时间单位时,Tableau 会将其解释为从现有时间单位中提取所有数据加上额外的 X 单位数据。例如:如果将其设置为 3 个月,它将提取当前月份的所有数据以及前 3 个月的数据。如果当前日期是 4 月 1 日,它将提取 4 月份的所有数据(在本例中为 1 天)加上 1 月份、2 月份和 3 月份的所有数据,即大约 91 天的数据。在 4 月 28 日运行相同的刷新将提取 4 月 28 天的数据以及前 3 个月的数据,即大约 118 天的数据。
- 为了实现最精细的控制和一致性,最佳做法是使用对您的数据有意义的最小适用时间单位(例如天)。若要始终刷新前 90 天加上刷新日的数据,请选择 90 作为数字,并选择天作为时间段。
- Tableau 建议您根据反映记录输入日期/时间的日期/时间字段进行提取。如果用于确定数据提取的日期字段包含未来日期(例如“计划订单交货日期”),则使用子范围刷新功能的结果可能不是您所期望的。例如:设置增量刷新,从刷新日期开始提取前两个月的数据。现在是 4 月 1 日,但数据库中的记录显示,该日期字段包含未来 6 个月(即 9 月 1 日)的值。在此示例中,当发生刷新时,只会提取 4 月(当前刷新月份)的数据以及前 2 个月的数据。如果与四月以后的未来日期相关的行的数据源发生变化,则它们将不会更新。
- 如果数据源中需要刷新的新数据多于配置的时间段,则从有新数据时开始提取额外数据。例如,如果您仅为前 2 天配置子范围,但上次刷新发生在 10 天前,那么它将提取所有 10 天的新数据加上之前提取的另外 2 天的数据。
注意:如果源数据的数据结构发生更改(例如,添加了新列),则需要执行完全数据提取刷新,然后才能再次开始执行增量刷新。
按照以下步骤设置要增量刷新的数据提取或编辑现有的完整数据提取以使用增量刷新。
在“数据”菜单中选择数据源,然后选择“提取数据”。
在“提取数据”对话框中,选择“所有行”作为要提取的行数。只有在提取数据库中的所有行时,才能定义增量刷新。
注意:不能将样本数据提取递增。
展开“增量刷新”部分,并选中“增量刷新”。
在数据库中指定将用于标识新行的列。
例如,您可以选择日期字段或 ID 列,该列将随添加到数据库中的行单调递增。
(可选)如果在 Tableau 中选择“日期”或“日期时间”列,则可以通过指定特定日期范围对数据提取数据执行部分刷新。确定天数并指定日期/时间尺度,以建立刷新的最小日期范围(例如,从刷新日期起 14 天)。
(可选)如果未建立最小刷新范围,请展开“高级设置”来确定如何检索新行。您可以选择通过刷新等于或大于最后记录值的值来替换最后添加的行,或者可以选择通过仅刷新具有大于最后记录值的值的数据提取来保留最后添加的行。
若要完成,请选择“保存设置”。
注意:如果启用聚合,则增量刷新不可用。
注意:添加筛选器后,增量刷新的高级设置将显示为灰色,并且将强制执行默认设置“不替换最后添加的行”。这样做的目的是避免某些筛选条件和“替换最后添加的行”的高级增量刷新逻辑之间可能出现的任何冲突。
刷新数据提取时的注意事项
编辑数据提取
如果要编辑现有数据提取,则将显示上次刷新,这样您可以确保使用正确的数据更新数据提取。
完全刷新
每次刷新数据提取时,完全刷新都会用原始数据源中的数据替换所有行。完全刷新可能需要更长的时间,并且对数据库来说代价高昂。
时间/日期精度和数据提取
数据引擎是 Tableau 创建数据提取所使用的基础机制,存储时间值时最多精确到 3 位小数。如果为“使用列标识新行”指定日期时间或时间戳列,并且数据库使用比 Tableau 更高的精度,则在增量刷新后最终会出现重复行。举例来说,如果数据库有两个行,其中一个行的日期时间值为 2015-03-13 17:30:56.502352
,另一个行的日期时间值为 2015-03-13 17:30:56.502852
,则 Tableau 在存储这两个行时都将使用日期时间值 2015-03-13 17:30:56.502
,从而会创建重复行。
您可以查看刷新数据提取的历史记录,方法是在“数据”菜单中选择数据源,然后选择 。
“数据提取历史记录”对话框将显示每次刷新的日期和时间、该刷新是完全刷新还是增量刷新以及所添加的行数。如果刷新是从文件执行的,则还将显示源文件的文件名。