使用累加式重新整理重新整理流程資料
附註:從版本 2020.4.1 開始,現在可以在 Tableau Server 和 Tableau Cloud 中建立和編輯流程。除非特別說明,否則本主題中的內容適用於所有平台。有關在 Web 上製作流程的詳情,請參閱 Tableau Server 說明中的 Web 版 Tableau Prep(連結在新視窗開啟)。
從 Tableau Prep Builder 版本 2020.2.1 和 Web 版本開始,您可以將流程輸入和輸出設定為透過累加方式進行重新整理,以便在執行流程時僅檢索和處理新列,從而節省時間和資源。
例如,若流程包含每天更新的交易資料,則可以設定累加式重新整理,每天僅檢索和處理新交易,然後每週或每月執行一次完整的重新整理以重新整理所有流程資料。
附註:若要對使用 Salesforce 連接器的流程輸入執行累加式重新整理,必須使用 Tableau Prep Builder 版本 2021.1.2 或更高版本。將流程輸出寫入 Microsoft Excel 或 CRM Analytics 時,目前不支援累加式重新整理。
若要使用累加式重新整理執行流程,Tableau Prep 需要以下資訊:
- 偵測輸入資料表中新列的欄位。
- 使用該欄位對流程輸出中最後一個處理值和輸入中的值進行比較,以確定哪些是新的列。有關詳情,請參閱使用「附加」進行累加式重新整理。
- 如何將新資料寫入資料表。可以在現有資料表中新增資料,也可以用新資料覆寫資料表資料,或從 Tableau Prep Builder 版本 2020.3.1 和 Web 版本開始,可取代現有資料表中的資料。
流程重新整理選項
Tableau Prep 可讓您選擇如何重新整理資料以及如何使用流程輸出更新資料表。下表說明不同選項及其優點。
重新整理組合 | 已處理的資料 | 資料表更新 | 優點 |
---|---|---|---|
完整重新整理 + 建立資料表 | 全部 | 使用完整資料集建立或覆寫現有資料表。 | 重新整理每次執行流程的所有資料。 |
完整重新整理 + 附加至資料表 | 全部 | 新增列至現有資料表。 | 追蹤每個執行流程中的新資料和現有資料。附加至資料表不適用於 .csv 輸出類型。 |
完整重新整理 + 取代資料 | 全部 | 取代現有資料表中的列。 | 保留現有資料表架構結構,但取代每次執行流程的所有資料。 |
遞增重新整理 + 建立表 | 僅限新列 | 僅使用新列建立或覆寫現有資料表。 | 僅使用新列作為完整資料集,來建立新資料表。 如果流程執行時輸出資料來源不存在或無法連線,則流程將失敗。需要完全重新整理才能建立輸出,然後才能對其進行累加式使用。 |
遞增重新整理 + 附加至表 | 僅限新列 | 新增新列至現有資料表。 | 僅新增新列至現有資料表。附加至資料表不適用於 .csv 輸出類型。請參閱使用「附加」進行累加式重新整理。 |
累加式重新整理 + 取代資料 | 僅限新列 | 僅使用新列取代現有資料表中的所有列。 | 保留現有資料表架構結構,但僅使用新列取代所有資料,使新列成為完整資料集。 |
設定累加式重新整理
要將流程設定為使用累加式重新整理,需要在輸入步驟和輸出步驟中指定要使用此選項的設定。在輸入步驟中,指定 Tableau Prep 如何尋找新列。在輸出步驟中指定如何將新列寫入資料表。執行流程時,可以選擇完整或累加式重新整理類型。
提示:設定輸入和輸出步驟以進行累加式重新整理後,可以保留組態並再次使用。複製並貼上步驟,以便在目前流程或 Tableau Prep Builder 中的其他位置使用,或者使用「將步驟儲存為流程」將所選步驟儲存至本機檔案或伺服器,以便在其他流程中再次使用這些步驟。有關複製、貼上或再次使用步驟的詳情,請參閱複製步驟、動作和欄位。
- 在「流程」窗格中,選取您要為累加式重新整理設定的輸入步驟。
- 在「設定」標籤頁「輸入」窗格的「累加式重新整理」(舊版在「設定累加式重新整理」區段中),設定下列選項:
選擇「啟用累加式重新整理」(舊版為「啟用」)。
「輸入欄位」(舊版為「使用欄位識別新列」):選取要在輸入資料中重新整理的欄位。此欄位必須指派數字(整數)、日期或日期與時間的資料類型。目前只能選取單一欄位。
附註:可以稍後在流程中刪除或重新命名此欄位,只要在「輸出欄位」(舊版為(「輸出中的欄位名稱」)中指定的欄位可用於將此欄位與最新輸出比較以尋找新列。
輸出:選擇與您的輸入相關的輸出,其中包括將用於比較列的欄位。
「輸出欄位」(舊版為「輸出中的欄位名稱」):選擇欄位,以用來比較流程輸出中最後一個處理值和輸入中的值以尋找新列。此欄位的資料類型必須與您在「輸入欄位」(舊版為「使用欄位識別新列」)中指定的欄位相同。
使用「附加」進行累加式重新整理
累加式重新整理首先會在輸出中搜尋累加式欄位的現有最大值。然後,它會篩選輸入中的列,以僅新增累加式欄位中值較大的列。例如:
現有表:
Col1 Col2 識別碼 5 第 5 列 根據 col1 將新列附加到表中:
Col1 Col2 識別碼 1 NewRow1 識別碼 6 NewRow6 - 未新增 NewRow1。
- 已新增 NewRow6。
設定寫入選項
要完成設定累加式重新整理,請設定輸出的「寫入選項」,以指定如何將新列寫入資料表。與設定的輸入步驟相關的所有輸出,都選擇預設寫入選項,但您可以將其變更為受支援的選項。
可以將列輸出到檔案(僅限 Tableau Prep Builder)、已發佈的資料來源或資料庫中。本機或已發佈的 .hyper 擷取的輸出,在預設情況下會設定為「附加至資料表」。對 .csv 檔案類型的輸出會設定為「建立資料表」。
在「流程」窗格中,選取您要為累加式重新整理設定的輸出步驟。
在「輸出」窗格的「寫入選項」區段中,查看預設寫入選項並根據需要進行任何變更。
- 建立資料表:這個選項可建立新資料表或將現有資料表取代為新輸出。
- 附加至資料表:此選項會將新資料新增到現有資料表中。如果表不存在,則在首次執行流程時將建立一個新表,並在後續執行將為此表新增列。不適用於 .csv 輸出類型。有關受支援的重新整理組合的詳情,請參閱流程重新整理選項
- 取代資料(Tableau Prep Builder 版本 2020.3.1 和更高版本以及 Web 版本):要將輸出寫回到資料庫中的現有資料表時,可使用此選項。它會用流程資料取代資料庫資料表中的資料,但是保留資料表架構結構。
執行流程
可以在 Tableau Prep Builder 中、Web 上或從命令列使用累加式重新整理執行單個流程。有關使用命令列執行流程的資訊,請參閱在啟用累加式重新整理的情況下執行流程。
若有已啟用 Tableau Prep Conductor 的 資料管理,則可以透過在 Tableau Server 或 Tableau Cloud 中設定排程來使用累加式重新整理執行流程。
附註:在先前的版本中,寫入選項是在 Tableau Prep Builder 中設定,在 Tableau Server 或 Tableau Cloud 中執行流程時無法變更。從 Tableau Server 和 Tableau Cloud 版本 2020.4 開始,可以直接在 Web 中編輯流程。有關在 Web 上使用 Tableau Prep 的詳情,請參閱 Tableau Server 說明中的 Web 版 Tableau Prep(連結在新視窗開啟)。
若找不到現有輸出,無論選取哪個執行選項,Tableau Prep 都會對所有輸出執行完整重新整理。除非缺少累加式重新整理設定資料或已刪除現有輸出,否則後續執行流程會使用累加式重新整理過程,僅檢索和處理新列。
在頂端功能表中按一下「執行」按鈕上的下拉選項。
在「輸出」窗格中按一下「執行流程」按鈕上的下拉選項。
在「流程」窗格中按一下「輸出」步驟旁「執行」按鈕上的下拉選項。
如果一項啟用累加式重新整理的輸入與多項輸出相關聯,則必須使用相同的重新整理類型同時執行這些輸出。在 Tableau Prep 中執行重新整理時,將顯示一個對話方塊,告知您必須同時執行這兩項輸出。