重新整理擷取
原始資料發生變更時,可以使用 Desktop 重新整理擷取,方法是在「資料」功能表上選取資料來源,然後選取 。資料擷取可以透過兩種方式設定:完整重新整理或累加式重新整理。
透過完整重新整理,資料擷取中的所有資料都將取代為原始資料來源中的最新資訊。累加式重新整理有兩種變化:僅新增自上次重新整理以來的新列,或定義從重新整理日期到重新整理的時間段。如果資料來源中已擷取的資料可能已變更,則可選的第二種方法可以解決更新擷取的需要。如果想了解有關如何擷取資料的更多詳情,請參閱擷取資料。
附註:還可以使用 Tableau 資料擷取命令列公用程式自動執行擷取重新整理。
如果要重新整理擷取,請在執行擷取重新整理之前記下擷取的檔案格式。若使用版本 2022.4 或更高版本對 .tde
擷取執行重新整理,擷取會自動升級為 .hyper
擷取。雖然升級到 .hyper
擷取有許多好處,但是將無法使用以前版本的 Tableau Desktop 開啟擷取。有關詳情,請參閱擷取升級為 .hyper 格式。
附註:Tableau 2024.2 版本之後不再支援任何形式的 .tde 檔案,必須升級為 .hyper 格式才能使用。
預設情況下,擷取被設定為完全重新整理。這意味著每次重新整理擷取時,所有列都會替換為原始資料來源中的資料。雖然這種重新整理可確保您具有原始資料中的資料的精確副本,但在資料庫上執行完全重新整理有時需要很長時間並且開銷很大,具體取決於擷取的大小。如果未將擷取設定為累加式重新整理,則選取重新整理擷取將會完全重新整理擷取。
發佈到 Tableau Server
如果您打算將擷取作為資料來源發佈到 Tableau Server,則可以在發佈期間指定擷取重新整理排程。
同樣,如果要將工作簿中的擷取發佈到 Tableau Server,則也可以在發佈期間指定擷取重新整理排程。有關詳情,請參閱發佈工作簿時排程擷取重新整理。
發佈到 Tableau Cloud
如果打算將擷取以資料來源形式發佈到 Tableau Cloud,則用於重新整理資料的選項取決於您的資料來源的特徵。有關重新整理特定資料來源中的資料的詳細資料,請參閱按資料來源列出的擷取重新整理選項。
大多數資料來源都支援累加式重新整理。您可以將重新整理設定為僅新增自上次擷取資料以來新增的列,而不是重新整理整個擷取。
例如,您可能有一個每天都使用新銷售交易進行更新的資料來源。可以新增當天發生的新交易,而不是每天重新建立整個擷取。隨後,為了確保擁有最新-資料,可能需要每週執行一次完整重新整理。
也可以選擇設定累加式設定來定義時間子範圍,以從現有資料擷取中移除所有關聯資料並完全重新整理它,以取得自該時間範圍內上次重新整理以來的任何變更或新增。
非唯一欄
從版本 2024.1 開始,Tableau 引入了一項功能,讓使用者能夠使用非唯一索引鍵資料行對資料擷取執行累加式重新整理。此更新在此過程中引入了一個額外步驟。
累加式擷取的子範圍重新整理
在 Tableau 版本 2024.2 及更高版本中,可以指定額外的時間段來重新擷取先前擷取的資料並捕獲可能已發生的任何變更。這是使用重新整理的最小日期範圍欄位來達成。如果(舉例來說)資料來源允許在定義的時間段內插入和追溯修改,則這很有用。設定完成後,累加式擷取將擷取任何新資料,以及先前從設定時間範圍擷取的資料。
選取數字(如「2」)和時間段(如「月」)後,下面的說明文字將更新以反映選擇(「自重新整理日期起最後 2 個月的資料將始終重新整理」)。如果未輸入時間範圍,它將僅擷取比現有擷取更新的內容。
了解子範圍重新整理
設定最適合子範圍重新整理取決於排程重新整理資料擷取的頻率、資料來源的更新頻率以及每個時間段內通常更新的資料量。了解 Tableau 如何解釋擷取設定選擇以確保擷取包含期望的資料非常重要。
- 輸入多個時間單位時,Tableau 會將其解譯為從現有時間單位中擷取所有資料以及額外的 X 個單位的資料。例如:如果將其設定為 3 個月,它將擷取當月的所有資料以及前 3 個月的資料。如果當前日期是 4 月 1 日,它將擷取 4 月(在本例中為 1 天)的所有資料以及 1 月、2 月和 3 月的所有資料,或大約 91 天的資料。如果在 4 月 28 日執行相同的重新整理,則會擷取 4 月 28 天的資料,加上先前 3 個月的資料,即大約 118 天的資料。
- 為了實現最精細的控制和一致性,最佳做法是使用對資料有意義的最小適用時間單位(例如「天」)。若要始終重新整理前 90 天的資料加上重新整理日,請選擇 90 作為數字,選擇「天」作為時間段。
- Tableau 建議根據反映輸入記錄時的日期/時間的日期/時間欄位來擷取資料。如果用於確定擷取的日期欄位包括未來日期(例如「計畫訂單交付日期」),則使用子範圍重新整理功能的結果可能不是您所期望的。例如:設定累加式重新整理,擷取重新整理日期前兩個月的資料。現在是 4 月 1 日,但資料庫中有記錄,其中該日期欄位包含最多 6 個月後(即 9 月 1 日)的值。本範例中發生重新整理時,僅擷取 4 月份(目前重新整理月份)的資料以及前 2 個月的資料。如果資料來源中與四月之後的這些未來日期關聯的行發生變更,它們將不會更新。
- 如果資料來源中需要重新整理的新資料多於設定的時間段,則從有新資料可用的點開始擷取額外的資料。例如,如果僅設定前 2 天的子範圍,但上次重新整理發生在 10 天前,則它將擷取所有 10 天的新資料以及另外 2 天的先前擷取的資料。
附註:如果來源資料的資料結構發生變更(例如,新增一列),則需要執行完整擷取重新整理,然後才能再次開始執行累加式重新整理。
請依照下列步驟設定要累加式重新整理的資料擷取或編輯現有的完整資料擷取以使用累加式重新整理。
在「資料」功能表中選取資料來源,然後選取「擷取資料」。
在 [擷取資料] 對話方塊中,選取 [所有列] 作為要擷取的列數。只有在擷取資料庫中的所有列時,才能定義累加式重新整理。
附註:無法累加範例擷取。
展開累加式重新整理區段,並檢查累加式重新整理。
指定資料庫中用於識別新列的欄。
例如,可以選取新增列至資料庫時單調增加的「日期」欄位或「識別碼」欄。
(可選)如果在 Tableau 中選取「日期」或「日期時間」欄,則可以透過指定特定日期範圍來執行擷取資料的部分重新整理。確定天數並指定日期/時間刻度,以決定重新整理的最小日期範圍(例如,自重新整理日期起 14 天)。
(可選)如果未建立最小重新整理範圍,請展開「進階設定」以建立如何檢索新列。可以選擇透過重新整理等於或大於最後記錄值的值來取代最後新增的列,或者可以選擇僅透過重新整理大於最後記錄值的擷取來保留最後新增的列。
若要完成,請選取「儲存設定」。
附註:若啟用彙總,則累加式重新整理不可用。
附註:新增篩選器後,「累加式重新整理」的「進階設定」將顯示為灰色,並且將強制執行預設設定「不取代最後新增的列」。這樣做的目的是避免某些篩選準則和「取代最後新增的列」的進階累加式重新整理邏輯之間可能出現的任何衝突。
重新整理擷取時的注意事項
編輯擷取
若正在編輯現有擷取,則會顯示上次重新整理,以便確保使用正確的資料更新擷取。
完整重新整理
每次重新整理擷取時,完整重新整理都會用原始資料來源中的資料取代所有列。完整重新整理可能需要更長的時間,並且對資料庫來說代價高昂。
時間/日期精確度和擷取
資料引擎是 Tableau 建立擷取所使用的基礎機制,存放時間值時最多精確到 3 位小數。如果為使用欄識別新列指定日期時間或時間戳記欄,並且您的資料庫使用比 Tableau 更高的精確度,則在累加式重新整理後可能會出現重複列。舉例來說,如果資料庫有兩個列,其中一個列的日期時間值為 2015-03-13 17:30:56.502352
,另一個列的日期時間值為 2015-03-13 17:30:56.502852
,則 Tableau 在儲存這兩個列時都將使用日期時間值 2015-03-13 17:30:56.502
,從而會建立重複列。
您可以檢視重新整理擷取的歷史記錄,方法是在 [資料] 功能表中選取資料來源,然後選取 。
[擷取歷史記錄] 對話方塊將顯示每次重新整理的日期和時間、該重新整理是完全重新整理還是累加式重新整理以及所新增的列數。如果重新整理是從檔執行的,則還將顯示原始檔案的檔案名。