Tableau Prep Builder 入門指南
附註:從版本 2020.4.1 開始,作為 Creator,還可以在 Web 上建立和編輯流程。本教程是使用 Tableau Prep Builder 設計的,但也可以在 Web 上完成,除了有一些需要注意的例外情況。
本教程會介紹 Tableau Prep 中的常見操作。您將使用 Tableau Prep 附帶的樣本資料集來演練為範例 Superstore 建立流程。本教程使用最新版本的 Tableau Prep Builder。如果您使用的是以前的版本,結果可能會不同。
請在進行演練的過程中觀看提示,深入瞭解 Tableau Prep 如何幫助您清理和調整資料以進行分析。
若要在繼續本教程之前安裝 Tableau Prep Builder,請參閱 Tableau Desktop 和 Tableau Prep Builder 部署指南中的從使用者介面安裝 Tableau Desktop 或 Tableau Prep Builder(連結在新視窗開啟)。否則您可以下載免費試用版(連結在新視窗開啟)。
範例檔案
為完成本教程中的工作,需要安裝 Tableau Prep Builder,或若已在伺服器版本 2020.4 或更高版本上啟用 Web 製作,也可以在 Web 上嘗試這些步驟。
在電腦上安裝 Tableau Prep Builder 之後,還可以在以下位置找到範例檔案:
- (Windows)
C:\Program Files\Tableau\Tableau Prep Builder <version>\help\Samples\en_US\Superstore Files
- (Mac)
/Applications/Tableau Prep Builder <version>.app/Contents/help/Samples/en_US/Superstore Files
或者,從這些連結下載範例檔案,並建立一個範例目錄和一個「南部」區域子目錄。若要在 Web 上完成本教程,則需要執行此操作。
下載到範例目錄 | 下載到「南部」區域子目錄 |
---|---|
背景故事...
您在一家大型零售連鎖店的總部工作。您的老闆想要分析過去四年公司的產品銷售額和利潤。您推薦他使用 Tableau Desktop 來完成該操作。您的老闆認為這個主意很棒,並希望您立即著手完成該工作。
在開始收集需要的所有資料時,您注意到,有人已經透過其他方式為每個區域收集和跟蹤過資料。您還注意到不同檔案中有大量創新資料條目,而且一個區域甚至每年都有單獨的檔案!
您將不得不先執行大量的資料清理工作,然後才能開始在 Tableau 中分析資料,而這項工作將需要很長時間。
在您翻找餐廳的菜單來訂晚餐時,您想起來 Tableau 有一款名為 Tableau Prep 的產品,該產品可能能夠幫助您完成艱巨的資料清理工作。
您下載了該產品,或註冊了免費試用版(連結在新視窗開啟),決定試用一下。
1.連線至資料
開啟 Tableau Prep Builder 時,您首先看到是一個帶有「連線」窗格的開始頁面,就像 Tableau Desktop 一樣。
若要開始操作,第一步是連線至資料並建立輸入步驟。您將從該處開始建立工作流程(在 Tableau Prep 中稱之為 「流程」),並隨著進展新增更多步驟來對資料執行操作。
提示:輸入步驟是資料的攝入點和流程的開始點。您可能有多個輸入步驟,並且某些步驟可能包括多個資料檔案。有關連線至資料的詳細資訊,請參閱連線至資料(連結在新視窗開啟)。
不同區域的銷售額資料檔案以不同的格式存放,並且「南部」區域的訂單實際上是多個檔案。您檢查了「連線」窗格,並發現您有很多選取來連線至資料。太棒了!
由於其他區域全部四年的資料是一個檔案,因此您決定先著手處理「南部」區域的檔案。
在「連線」窗格上,按一下「新增連線」 按鈕。
在 Web 製作中,從首頁按一下「建立」 > 「流程」,或者從「瀏覽」頁面按一下「新建」 > 「流程」。然後按一下「連線到資料」。
檔案是 .csv 檔案,因此請在連線清單中選取「文字檔案」。
巡覽到檔案目錄。在「南部區域訂單」子目錄中,選取第一個檔案 orders_south_2015.csv,然後按一下「開啟」以將其新增到流程中。(有關檔案位置,請參閱總結和資源。)
連線到第一個檔案後,Tableau Prep Builder 工作區將開啟,您會看到它分為兩個主要部分。頂部的「流程」窗格和底部的「輸入」窗格。
與 Tableau Desktop 很像,此「流程」窗格是您的工作區,可以在其中以可視化的方式與資料互動並建立流程。「輸入」窗格包含有關如何攝入資料的設定選項。該視窗還會顯示資料集的欄位、資料類型以及範例值。
我們將在下一部分中探討您如何才能與此資料交互。
提示:對於單個表,Tableau Prep 會在您將資料新增到流程時自動為您在 [流程] 窗格中建立輸入步驟。否則,您可以使用拖放功能將表新增到「流程」窗格。
您的南部區域訂單還有其他三個檔案,如何合併這些檔案取決於您在何處工作。
在 Tableau Prep Builder 中:
- 可以單獨新增每個檔案,但若想要將所有檔案合併到一個輸入步驟中,則可在「輸入」窗格中按一下「表格」索引標籤。
您會看到一個聯集多個表的選項。選取該選項。
您注意到,您在其中選取檔的目錄已填充,並且您需要的其他檔列在「輸入」窗格的「已包括檔案」部分中。
提示:使用萬用字元聯集可以非常方便的連線和合併單一資料來源中具有類似名稱和結構的多個檔案。若要使用此選項,檔必須位於同一父目錄或子目錄中。如果沒有立即看到所需的檔案,請變更搜尋條件。有關詳情,請參閱輸入步驟中的聯集檔案和資料庫資料表(連結在新視窗開啟)。
按一下「套用」以將這些檔案中的資料新增到「orders_south_2015」輸入步驟。
其他區域的檔案全部都是單一表檔案,因此您可以一次性選取所有檔案並將它們新增到流程。
附註:在 Web 上,檔案只能單獨上載。
在 Tableau Server 或 Tableau Cloud 中:
Tableau Server 或 Tableau Cloud 目前沒有可用的萬用字元選項。但您仍然想包括所有的南部區域檔案並以相同方式的處理資料,因此合併這些檔案是有意義的。
- 重複步驟 2 和 3 以從「南部區域訂單」子目錄中新增其餘的檔案。
- 使用聯集步驟合併這些檔案。(有關詳情,請參閱輸入步驟中的聯集檔案和資料庫資料表(連結在新視窗開啟)。)
將 Orders_South_2016 拖到 Orders_South_2015 之上,並將其放在「聯集」選項上。
將 Orders_South_2017 拖到新的「聯集」步驟之上,並將其放在「新增」上。對最終檔案重複此步驟。
新增其餘的檔案。
在 Tableau Prep Builder 中:
- 開啟檔案總管或 Finder,並巡覽到檔案的目錄。按住 Ctrl 並按一下,或按住 Command 並按一下 (MacOS),選取以下檔案並將它們拖放到「流程」窗格上,將這些檔案新增到流程。(有關檔案位置,請參閱總結和資源。)
- Orders_Central.csv
- Orders_East.xlsx
- Orders_West.csv
附註:這些是不同的檔案類型。如果您看不到所有這些檔案,請確保您的檔案總管或 Finder 設定為查看所有檔案類型。
在 Tableau Server 或 Tableau Cloud 中:
- 請按照步驟 2 和 3 新增 Orders_Central.csv 和 Orders_West.csv。
- 在「連線」窗格上,按一下「新增連線」 按鈕。按一下 Microsoft Excel,然後選取 Orders_East.xlsx。
- 開啟檔案總管或 Finder,並巡覽到檔案的目錄。按住 Ctrl 並按一下,或按住 Command 並按一下 (MacOS),選取以下檔案並將它們拖放到「流程」窗格上,將這些檔案新增到流程。(有關檔案位置,請參閱總結和資源。)
檢查您的工作:觀看「連線至資料」的實際執行效果。
按一下影像可重播
2.瀏覽資料
現在,您已將資料檔案載入 Tableau Prep,您很確定自己想要將所有檔案合併在一起。但在執行該操作之前,不妨先檢查一下這些檔案,看看是否能找出任何問題。
在「流程」窗格中選取輸入步驟時,您可能會看到用於引入資料的設定、包含的欄位以及值的預覽。
在這裡可以很方便地決定要在流程中包括多少資料,以及移除或篩選不需要的欄位。您還可以變更未正確指派的任何資料類型。
提示:如果在處理大型資料集,Tableau Prep 會自動引入資料樣本,從而最大限度提升效能。如果看不到預期資料,您可能需要調整樣本。可在「資料樣本」索引標籤上執行此操作。有關設定資料選項和樣本大小的詳情,請參閱設定資料範例大小(連結在新視窗開啟)。
在「流程」窗格中,當您選取每個步驟並查看每個資料集時,您注意到需要稍後修正的一些問題,以及一個可立即在輸入步驟中修正的問題。
選取「Orders_West」輸入步驟。
「State」(州/省)欄位使用州/省名稱的縮寫。其他檔案則使用完整拼寫,因此您將需要稍後修正該問題。
有許多以「Right_」開頭的欄位。這些欄位似乎與其他欄位重複。您不想在流程中包括這些重複欄位。此問題可直接在輸入步驟中的此處修正:
若要立即修正此問題,請清除以「Right_」開頭的所有欄位的核取方塊。這會指示 Tableau Prep 忽略這些欄位,不將它們包括在流程中。
提示:當您在某個步驟中執行清除操作(比如移除欄位)時,Tableau Prep 會在「變更」窗格中追蹤您所做的變更,並在「流程」窗格中新增註解(以小圖示的形式)以幫助您追蹤對資料所做的動作。對於「輸入」步驟,也會向每個欄位中新增註解。
在「流程」窗格中,按一下「Orders_Central」輸入步驟將其選定。在「輸入」窗格中,您注意到以下問題:
訂單日期和發貨日期在欄位中已針對月、日和年分開。
- 某些欄位的資料類型與其他檔案中相同欄位的資料類型不同。
「Region」(區域)沒有欄位。
您將需要對這些欄位執行一些清理操作,然後才能將此檔案與其他檔案合併。但您無法在輸入步驟中的此處修正該問題,因此記下來以便稍後進行修正
選取「Orders_East」輸入步驟。
此檔案中的欄位看起來與其他檔案完全一致。但「Sales」(銷售額)值似乎全部都包括了貨幣代碼。您稍後也需要修正該問題。
既然您已經確定了資料集中的一些問題,那麼下一步是更仔細地檢查您的資料並清理找到的任何問題,以便能夠合併和調整資料,並產生可用於分析的輸出檔案。
3.清理資料
在 Tableau Prep 中,檢查和清理資料是一個反復的過程。確定了要處理的資料集之後,下一步是檢查該資料,並透過對資料應用各種清理、調整和合併操作來對其進行操作。您透過向流程中新增步驟來應用這些操作。有關清理選項的詳情,請參閲清理和調整資料(連結在新視窗開啟)。
根據您嘗試進行的操作採用不同步驟。例如,在想要對欄位應用像篩選、合併、拆分、重新命名這樣的清理操作時隨時新增清理步驟。新增彙總步驟來對欄位進行分組和彙總,並變更資料的詳細資料層級。有關不同步驟類型及其用法的詳情,請參閱建立與組織流程(連結在新視窗開啟)。
提示:向流程中新增步驟時,會自動新增一條流程線將步驟相互連線在一起。您可以將這些流程線四處移動,並根據需要移除或新增流程線。
執行流程時,必須要有這些連線點,以便 Tableau Prep 知道哪些步驟已連線以及步驟在流程中的套用順序。如果缺少流程線,則流程會中斷並出現錯誤。
清理 Orders_Central
為了解決之前發現的問題並確定是否還有任何其他問題,您首先向「Orders_Central」輸入步驟中新增一個清理步驟。
在「流程」窗格中,選取「Orders_Central」,執行下列操作之一:
- 按一下加號 圖示,然後新增清理步驟。根據您的版本,此功能表選項是「新增步驟」、「新增清理步驟」或「清理步驟」。
按一下建議的清理步驟(Tableau Prep Builder 版本 2020.3.3 和更高版本以及 Web 版本)
向流程中新增清理步驟時,工作區將發生變化,您將看到資料的詳細資訊。
A. 流程窗格、B. 工具列、C. 設定檔窗格、D. 資料網格
工作區現在分為三個部分:「流程」窗格、帶工具列的「設定檔」窗格和「資料」網格。
「設定檔」窗格顯示資料的結構,同時將欄位值匯總到資料筒中,以便您能夠快速查看相關值,並找出離群值和 null 值。「資料」網格顯示欄位的列層級詳細資訊。
提示:「設定檔」窗格中的每個欄位都顯示在設定檔卡上。使用每張卡上的「更多選項」 功能表(在以前的版本中為下拉箭頭)來查看和選取可用於該欄位類型的不同清理選項。也可以對欄位值進行排序、變更資料類型、為欄位指派資料角色,或在「資料」網格中拖放設定檔卡片和欄,以便重新排列。
使用計算欄位清理資料
此資料集缺少「Region」(區域)欄位。由於其他資料集有此欄位,因此您將需要新增此欄位,以便能夠稍後聯集。您將需要使用計算欄位來執行此操作。
在工具列中,按一下「建立計算欄位」。
在「計算」編輯器中,將導出欄位命名為「Region」(區域)。然後輸入 "Central"(包括引號),並按一下「儲存」。
您能夠使用計算欄位來調整資料,這種靈活性讓您非常喜歡。您非常高興看到 Tableau Prep 使用與 Tableau Desktop 相同的計算編輯器語言。
提示:對欄位和值進行變更時,Tableau Prep 會在左側的「變更」窗格中追蹤所做的變更。同時,會向流程中的清除步驟和「設定檔」窗格中的欄位新增一個表示變更的圖示(註解)。我們將在進行更多變更之後查看「變更」窗格。
接下來,您需要解決單獨訂單日期和發貨日期欄位的問題。您需要將它們合併為兩個單一欄位,一個用於「Order Date」(訂單日期),一個用於「Ship Date」(發貨日期),使它們與其他資料集中的相同欄位保持一致。確保表格具有相同欄位,可讓您以後能使用聯集來合併表格。
您可以再次使用計算欄位,透過一個輕鬆的步驟執行此操作。
在工具列中,按一下「建立計算欄位」,將「Order Year」(訂單年份)、「Order Month」(訂單月份)和「Order Day」(訂單日)欄位合併為一個格式為「MM/DD/YYYY」的欄位。
在「計算」編輯器中,將導出欄位命名為「Order Date」(訂單日期)。然後輸入以下計算,並按一下「儲存」:
MAKEDATE([Order Year],[Order Month],[Order Day])
既然有了新的訂單日期欄位,那麼您需要移除現有欄位,因為您不再需要它們。
「設定檔」窗格中有很多欄位。您注意到工具列右上角的「搜尋」方塊。您不知道是否能使用該方塊來快速查找想要移除的欄位。您決定試一下。
在「設定檔」窗格的搜尋方塊中,鍵入「Order」。
Tableau Prep 將在檢視中快速捲動名稱中包含 [Order] 的所有欄位。太酷了!
按住 Ctrl 按一下或按住 Command 按一下 (MacOS),選取「訂單年份」、「訂單月份」和「訂單日」欄位。然後以滑鼠右鍵按一下所選欄位,並從功能表中選取「移除」(在以前版本中為「移除欄位」),以移除它們。
現在重複上面的步驟 4 至 7,為「Ship Date」(發貨日期)建立單一欄位。自己嘗試一下,或使用下面的步驟來幫助您。
在工具列中,按一下「建立計算欄位」,將「Ship Year」(發貨年份)、「Ship Month」(發貨月份)和「Ship Day」(發貨日)欄位合併為一個格式為「MM/DD/YYYY」的欄位。
將該計算欄位命名為「Ship Date」(發貨日期),並輸入計算
MAKEDATE([Ship Year],[Ship Month],[Ship Day])
。然後按一下「儲存」。移除「Ship Year」(發貨年份)、「Ship Month」(發貨月份)和「Ship Day」(發貨日)欄位。搜尋欄位,並加以選取,然後從功能表選取「移除」(在以前版本中為「移除欄位」),以移除欄位。
提示:Tableau Prep 會將 [設定檔] 窗格中的資料匯總到資料筒中,幫助您快速查看資料的形狀、查找離群值、找出欄位之間的關係,等等。
在此方案中,訂單日期和發貨日期現在可按年份匯總。每個資料筒都表示從起始年份一月份到下一年一月份的一年,並帶有相應標籤。由於有處於 2018 年和 2019 年下半年的銷售日期及發貨日期,因此該資料的資料筒相應標有 2019 年和 2020 年年末。
若要將此檢視變更為實際日期,請按一下「設定檔」卡中的「更多選項」 功能表(在以前的版本中為下拉箭頭),並選取「詳細資訊」。與欄位直接交互來清理資料
您的資料一開始看起來很好。但在完成為訂單日期和發貨日期移除額外欄位的操作後,您注意到「Discounts」(折扣)欄位有一些問題。
系統為其指派了「字串」資料類型,而不是「數字(十進位)」資料類型。
對於無折扣的情況,欄位值是「None」(無),而不是數字值。
這將在聯集檔案時導致問題,因此最好也修正該問題。
清除搜尋,並在搜尋方塊中輸入 disc 來查找欄位。
選取「Discounts」(折扣)欄位,按兩下欄位值「None」(無),並將其變更為數字值「0」。
若要將「折扣」欄位的資料類型從「字串」變更為「數字(十進位)」,請按一下「Abc」,並在下拉式功能表中選取「數字(十進位)」。
最後為步驟命名,以幫助跟蹤您在此步驟中進行的操作。在「流程」窗格中,按兩下步驟名稱「Clean 1」(清理 1),並鍵入「Fix dates/field names」(修正日期/欄位名稱)。
檢閱您的變更
您對此資料集進行了許多變更,並開始擔心自己會不記得所進行的操作。在檢查工作時,您看到「設定檔」窗格的左側有一個名為「變更」的欄。
您按一下箭頭將其開啟,看到其中列出了您剛剛進行的每項變更,這讓您很高興。在您捲動瀏覽清單中的變更時,您注意到,您可以刪除或編輯變更,甚至能將變更四處移動來改變所做變更的順序。
您可以輕鬆地查找組建流程時在任何步驟中所做的變更,並對這些變更的順序進行試驗來最大程度地利用您的資料,這讓您非常喜歡。
檢查您的工作:觀看「清理 Orders_Central」的實際執行效果。
按一下影像可重播
既然已清理了一個檔案,那麼您將查看其他檔案來確定需要修正的其他問題。
接下來您決定查看「Orders_East」的 Excel 檔案。
清理 Orders_East
在查看「Orders_East」檔案的欄位時,除了「Sales」(銷售額)之外,大多數欄位看起來與其他檔案一致。為了進一步查看並確定是否還有任何其他要解決的問題,您向「Orders_East」輸入步驟中新增一個清理步驟。
在「流程」窗格中,選取「Orders_East」,然後執行以下操作之一:
- 按一下加號 圖示,然後新增清理步驟。根據您的版本,此功能表選項是「新增步驟」、「新增清理步驟」或「清理步驟」。
- 按一下建議的清理步驟(Tableau Prep Builder 版本 2020.3.3 和更高版本以及 Web 版本)。
透過查看「Sales」(銷售額)欄位,您很快發現銷售額數字隨附有 USD 貨幣代碼,並且 Tableau Prep 已將這些欄位值解讀為字串。
如果要獲得準確的銷售額資料,您將需要從此欄位中移除貨幣代碼,並變更資料類型。
修正資料類型很容易,您已經知道如何做了。但唯一的銷售額資料列超過 2000 列,而修正每個單獨的列來移除貨幣代碼看起來很麻煩。
但這是 Tableau Prep,因此您決定檢查下拉式功能表,看看是否有用於修正此問題的選項。
當您按一下「銷售額」欄位的「更多選項」(在以前的版本中為下拉箭頭)時,會看到名為「清理」的功能表選項,以及該選項下方用於移除字母的選項。您決定嘗試一下,看看該選項有什麼用。
選取「Sales」(銷售額)欄位。按一下「更多選項」 功能表(在以前的版本中為下拉箭頭),並選取「清理」>「移除字母」。
哇!該清理選項立即從每個欄位中移除了貨幣代碼。現在您只需要將資料類型從「字串」變更為「數字(十進位)」,此檔案看起來就正常了。
按一下「銷售額」欄位的資料類型,並從下拉清單中選取「數字 (十進位)」,以變更資料類型。
檔案的其餘部分看起來很好。為清理步驟命名以跟蹤您的工作。例如,命名為「Change data type」(變更資料類型)。
接下來您將查看 Orders_West 的最後一個檔案,看看是否有任何需要修正的問題。
清理 Orders_West
在您查看「Orders_West」檔案的欄位時,大多數欄位看起來都與其他檔案一致,但您記得看到過「States」(州/省)欄位為值使用了縮寫,而不是州/省名稱的完整拼寫。為了將此檔案與其他檔案合併,您將需要修正此問題。因此您向「Orders_West」輸入步驟中新增一個清理步驟。
在「流程」窗格中,選取「Orders_West」,然後執行以下操作之一:
- 按一下加號 圖示,然後新增清理步驟。
- 按一下建議的清理步驟(Tableau Prep Builder 版本 2020.3.3 和更高版本以及 Web 版本)。
捲動或使用「搜尋」來查找「State」(州/省)欄位。
您將看到所有州/省名稱值都使用簡短縮寫。此欄位只有 11 個唯一的值。您可以手動變更每個值,但 Tableau Prep 是否可能有另一種方法來完成此操作?
按一下欄位的「更多選項」功能表(在以前的版本中為下拉箭頭)後,會看到名為「分組值」(在以前的版本中為「分組和取代」)的選項。選取該選項時,您將看到若干選項:
手動選取
發音
常用字符
- 拼寫
州/省名稱的發音不相似,它們的拼寫不正確,也沒有共用相同的字元,因此您決定嘗試「手動選取」選項。
提示:您可以按兩下欄位名稱或欄位值來編輯單個值。若要編輯多個值,您可以選取所有值,並使用以滑鼠右鍵按一下功能表選項「編輯值」。但如果要將一個或多個值對應到特定值,請使用下拉式功能表中的「分組值」選項。
有關編輯和分組值的詳情,請參閱編輯欄位值(連結在新視窗開啟)。選取「State」(州/省)欄位。按一下下拉箭頭,並選取「分組值」(在以前的版本中為「分組和取代」)>「手動選取」。
一個兩欄的卡將開啟。這是「分組值」編輯器。左側的欄顯示目前欄位值,右側的欄顯示可映像到左側欄位的欄位。
您想要將州/省縮寫映像到州/省名稱的完整拼寫版本,但在「Orders_West」資料集中沒有這些值。您不知道是否能直接編輯名稱和在該處新增名稱,因此您嘗試了一下。
在左側窗格的「分組值」編輯器中,按兩下「AZ」以反白顯示值,並鍵入 Arizona。然後按 Enter 以新增變更。
Tableau Prep 為新值「Arizona」建立了一個對應值,並自動將舊值「AZ」對應到該值。如果您像這樣輸入了更多此區域的資料,那麼為這些值建立映像關係將節州/省您的時間。
提示:您可以新增資料樣本中沒有的欄位值,建立映像關係來組織資料。如果重新整理資料來源並新增了新資料,您可以將新資料新增到映像,而不是手動修正每個值。
當您手動新增資料樣本中沒有的值時,值將帶有紅點標記,可幫助您輕鬆識別該值。重複這些步驟,將每個州/省都映像到其名稱的完整拼寫版本。
縮寫 州/省名稱 AZ Arizona CA California CO Colorado ID Idaho MT Montana NM New Mexico NV Nevada OR Oregon UT Utah WA Washington WY Wyoming 然後,按一下「完成」關閉「分組值」編輯器。
映像了所有州/省之後,您查看「變更」窗格,看到其中只有一個條目,而不是 11 個條目。
Tableau Prep 已將欄位的類似操作分組在一起。您喜歡該功能,因為利用它可以更輕鬆地查找隨後對資料集所做的變更。
修正「State」(州/省)欄位值是您需要在此處進行的唯一變更。
為清理步驟命名以跟蹤您的工作。例如「Rename states」(重命名州/省)。
您在檔案中進行了大量的清理,不敢相信操作能如此快捷輕鬆地完成。您竟然還可以回家吃晚飯!為了確保不會丟失到目前為止所做的工作,請儲存您的流程。
附註:若在 Web 上工作,則所做的變更會隨著進展自動儲存,從而建立草稿流程。按一下草稿標題為草稿命名。有關在 Web 上製作的詳情,請參閱 Tableau Server(連結在新視窗開啟) 或 Tableau Cloud(連結在新視窗開啟) 說明中的 Web 版 Tableau Prep。
按一下「檔案」>「儲存」或「檔案」>「另存新檔」。將檔案另存新檔為流程檔案 (.tfl) 並為其命名。例如「My Superstore」(我的超市)。
提示:在儲存流程檔案時,您可以將它們另存新檔為流程檔案 (.tfl) 或已封裝檔案 (.tflx),並將本機資料檔案與這些檔已封裝在一起,以便將流程和檔與其他人共用。有關儲存和共用流程的詳細資訊,請參閱儲存和共用工作(連結在新視窗開啟)。
4.合併資料
既然清理了所有檔案,那麼您就已最終準備好將它們合併在一起。
由於清理後所有檔案都具有相似的欄位,因此您需聯集表格,才能將所有列拉到單一表格中。
您記得有一個名為「聯集」的步驟選項,但不知道是否能簡單地透過拖放步驟來聯集檔案。您決定試一下看看。
聯集資料
按照工作位置的步驟進行操作。
Tableau Prep Builder
在「流程」窗格中,將清理步驟「Rename states」(重命名州/省)拖到清理步驟「變更資料類型」步驟上,並將其放在「聯集」選項上。
您看到 Tableau Prep Builder 向流程中新增了一個「Union」(聯集)步驟。太棒了!現在,您想要向此聯集中新增其他檔案。
Tableau Server 或 Tableau Cloud
在「流程」窗格中,將清理步驟「Rename states」(重命名州/省)拖到之前為「南部」區域檔案建立的「聯集」步驟上,並將其放在「新增」選項上。
您會看到 Tableau Prep 已將新檔案新增到先前的聯集中。太棒了!現在,您想要向此聯集中新增其他檔案。
將流程中的下一個清理步驟拖到「聯集」步驟上,然後將其放在「新增」上以新增到現有聯集。
將其餘步驟(若在 Tableau Prep Builder 中工作,則為 orders_south_2015 輸入步驟;若在 Web 上工作,則為清理步驟)拖到新的「聯集」步驟上。將其放在「新增」上以新增到現有聯集。
現在,所有檔案已合併到一個表中。在「流程」窗格中選取「聯集」步驟以查看結果。
在 Tableau Prep Builder 上:
在 Tableau Server 或 Tableau Cloud 上:
您注意到 Tableau 會自動匹配具有相同名稱和類型的欄位。
您還看到,指派給流程中步驟的色彩用在聯集設定檔中指明欄位來自於何處,並同時出現在每個欄位頂部的色帶中,顯示該欄位是否存在於該表中。
您注意到新增了一個名為「Table Names」(表名稱)的新欄位,該欄位列出了聯集中所有列的來源表。
不匹配欄位的清單也顯示在摘要窗格中,並且您可以立即看到欄位「Product」(產品)和「Discounts」(折扣)只出現在 Orders_Central 檔案中。
若要更仔細地查看這些欄位,請在「聯集結果」窗格中選中「僅顯示不匹配欄位」核取方塊。
透過查看欄位資料,您很快發現資料相同,但欄位名不同。您可以簡單地重命名欄位,但不知道是否能拖放這些欄位來合併它們。您決定試一下看看。
選取「Product」(產品)欄位,並將其拖放到「Product Name」(產品名稱)欄位上來合併欄位。欄位合併後將不再出現在窗格中。
重複此步驟,將「Discounts」(多項折扣)欄位與「Discount」(折扣)欄位合併。
現在,唯一沒有匹配項的欄位是「File Paths」(檔案路徑)欄位。在 Tableau Prep Builder 中,此欄位會顯示您為「南部」區域銷售訂單執行的萬用字元聯集的檔案路徑。您決定將此欄位保留在該處,因為它有很好的資訊。
提示:聯集後修正不匹配的欄位時有若干選取。若 Tableau Prep 偵測到可能的匹配項,其會以黃色突出顯示。若要合併欄位,請將游標暫停在反白顯示的欄位上,並按一下出現的加號 按鈕。
有關在聯集中合併欄位的更多方式,請參閱修正不匹配的欄位。清除「僅顯示不匹配欄位」核取方塊以顯示聯集中包括的所有欄位。
為聯集步驟命名以表示此聯集所包括的內容。例如,「All orders」(所有訂單)。
檢查您的工作:觀看「聯集」的實際執行效果。
按一下影像可重播
您是清除天才!正當您對結果讚不絕口時,您的老闆打來了電話。他忘了說他還想要您在分析中包括任何產品退貨。他希望這項工作不會太麻煩。利用工具包中的 Tableau Prep,這完全不成問題!
清理產品退貨資料
您檢查老闆發給您的產品退貨相關 Excel 檔案,發現檔案有一點雜亂。您將新檔案 return_reasons new 新增到您的流程來仔細檢查。
在「連線」窗格中,按一下「新增連線」。選取 Microsoft Excel,然後巡覽到一直用於此演練的範例資料檔案。(請參閱範例檔案,以下載檔案。)
選取 return reasons_new.xlsx,然後按一下「開啟」將該檔案新增到流程窗格。
此檔案中只有 4 個您想要包括在流程中的欄位:「Order ID」(訂單 ID)、「Product ID」(產品 ID)、「Return Reason」(退貨原因)和「Notes」(注釋)。
在「returns_new」的「輸入」窗格中,清除最左欄頂部的核取方塊,以清除所有核取方塊。然後,選中「Order ID」(訂單 ID)、「Product ID」(產品 ID)、「Return Reason」(退貨原因)和「Notes」(注釋)欄位的核取方塊。
重新命名輸入步驟,以充分反映此輸入包含的資料。在「流程」窗格中,按兩下輸入步驟名稱「Returns_new」,並鍵入「Returns (all)」(退貨(全部))。
透過查看範例欄位值,您注意到「Notes」(注釋)欄位似乎有很多不同的資料合併在一起。
您要在此檔案中執行一些清理,然後才能對資料進行進一步處理,因此,您新增了清理步驟來進行檢查。
在「流程」窗格中,選取輸入步驟「Returns (all)」(退貨(全部)),按一下加號 圖示或建議的清理步驟,以新增清理步驟。
在「設定檔」窗格中,調整「註釋」欄位的大小,以更好的分式查看條目。若要執行此動作,請點選欄位的右側外緣並向右拖曳。
在「Notes」(注釋)欄位中,使用欄位值右側可視的捲軸來瀏覽各個值。
您注意到一些內容有問題:
某些條目的內容中有額外的空格。這可能會導致欄位被讀取為 null 值。
核准者的名稱似乎包括在退貨注釋條目中。為了更好地使用此資料,您需要將該資訊放在一個單獨的欄位中。
為了處理額外的空格,您記得有一個用於移除尾隨空格的清理選項,因此決定嘗試一下,看看該選項是否能修正問題。
選取「Notes」(注釋)欄位。按一下「更多選項」 功能表(在以前的版本中為下拉箭頭),並選取「清除」>「剪裁空格」。
可以!它準確地完成了所需的操作。額外的空格不見了。
接下來,您想要為核准者名稱建立一個單獨的欄位。您看到功能表中的「拆分值」選項,因此決定嘗試該選項。
選取「Notes」(注釋)欄位。按一下「更多選項」 功能表(在以前的版本中為下拉箭頭),並選取「拆分值」>「自動拆分」。
此選項準確地完成了您希望其進行的操作。它自動將退貨注釋和核准者姓名拆分到單獨的欄位中。
就像 Tableau Desktop 一樣,Tableau Prep 也為這些欄位自動指派了名稱。因此您將需要將新欄位重命名為有意義的名稱。
選取欄位「Notes-Split 1」(注釋-拆分 1)。在欄位名中按兩下,並鍵入「Return Notes」(退貨注釋)。
為第二個欄位重複此步驟,並將其重命名為「Approver」(核准者)。
最後,在您不再需要原始「Notes」(注釋)欄位時將其移除。選取「備註」欄位、按一下「更多選項」功能表(在以前的版本中為下拉箭頭),並從功能表中選取「移除」(在以前的版本中為「移除欄位」)。
透過查看新的「Approver」(核准者)欄位,您注意到欄位值列出了相同名稱,但這些名稱的輸入方式不同。您想要將這些欄位分組,以消除同一值的多個變體。
也許「分組值」(在以前的版本中為「分組和取代」)選項可協助完成該操作?
您記得有一個用於「共同字元」的選項。由於這些值共用相同字母,因此您決定試一下。
選取「Approver」(核准者)欄位。按一下「更多選項」功能表(在以前的版本中為下拉箭頭),並選取「分組值」(在以前的版本中為「分組和取代」)>「共同字元」。
此選項為您將每個名稱的所有變體分組在一起。這完全就是您想要達到的目的。
檢查了其他名稱來確保其正確分組後,按一下「完成」關閉「分組值」編輯器。
此檔看起來非常好。
為清理步驟命名以跟蹤您的工作。例如,「Cleaned notes」(清理的注釋)。
現在,產品退貨資料均已清理,您想要將此資料新增到聯集檔案中的訂單資料。但其中許多欄位在聯集的檔案中不存在。要將這些欄位(資料欄)新增到聯集的資料集,需要使用聯結。
聯結資料
在聯結資料時,這些檔至少必須有一個共同的欄位。您的檔案共用「Order ID」(訂單 ID)和「Product Id」(產品 Id)欄位,因此您可以在這些欄位上聯結,以查看共有這些欄位的所有列。在您使用拖放建立聯集時,您記得有一個用於建立聯結的選項,因此您試了一下。
在「流程」窗格中,將「Cleaned notes」(清理的注釋)步驟拖到「All orders」(所有訂單)聯集步驟上,並將其放在「聯結」上。
在聯結檔案時,Tableau Prep 會在 [聯結設定] 中顯示聯結的結果。
處理聯結可能會很棘手。您通常想要有一個具有聯結中所包括因素的清晰檢視,例如用於聯結檔的欄位、結果中的包括的列數,以及未包括或為 null 值的任何欄位。
在 Tableau Prep 中查看聯結的結果時,您很高興地看到有如此多的資訊,並且可以隨時交互。
提示:在聯結設定最左側的窗格中,您可以瀏覽聯結並與之交互。也可以在「聯結子句」窗格中直接編輯值,並在「聯結結果」窗格中執行清理操作。
在「聯結類型」圖表中按一下以嘗試不同的聯結設定,並在「聯結結果匯總」部分中查看聯結中為每個表包括或排除的列數。
在「已套用聯結子句」區段中選取要進行聯結的欄位,或透過「聯結子句建議」區段新增建議的聯結子句。
有關使用聯結的詳情,請參閱彙總、聯結或聯集資料(連結在新視窗開啟)。您看到有超過 13,000 列被從「All Orders」(所有訂單)檔案中排除。建立聯結後,Tableau Prep 會自動聯結「Product ID」(產品 ID)欄位,但您還想聯結「Order ID」(訂單 ID)欄位。
在瀏覽聯結設定的左側窗格時,您看到建議的聯結子句清單中有「Order ID」(訂單 Id),因此您從該處快速新增了該欄位。
在聯結設定左側窗格中的「聯結子句建議」部分,選取「Order ID = Order Id」,並按一下加號 按鈕新增聯結子句。
由於 [聯結類型] 設定為內部聯結(Tableau Prep 的預設設定),因此聯結僅包括兩個檔案中均存在的值。但您需要「Orders」(訂單)檔案中的所有資料,以及這些檔案的退貨資料。因此您將需要變更聯結類型。
在「聯結類型」部分,按一下圖表的一側以包含所有訂單。在以下範例中,按一下圖表左側,以將聯結類型變更為「左」聯結,並包含來自「所有訂單」聯集步驟中的所有資料,以及來自「清理的注釋」步驟中的任何相符資料。
現在,您有了銷售訂單檔案中的所有資料,以及適用於這些訂單的任何退貨資料。您查看「聯結子句」窗格,並看到一些其他檔案中不存在的不同值。
例如,有很多沒有對應退貨資料的訂單列(顯示為紅色)。您能夠瀏覽此詳細資料層級的聯結相關資訊,這讓您非常喜歡。
您急於想在 Tableau Desktop 中開始分析此資料,但在開始分析之前,您注意到聯結要有一些結果需要清理。幸好您知道怎麼做!
提示:不知道資料是否足夠乾淨?在 Tableau Prep Builder 中,您可以從流程的任何步驟中透過 Tableau Desktop 預覽資料,對其進行檢查。
只需在「流程」窗格中以滑鼠右鍵按一下該步驟,並從功能表中選取「在 Tableau Desktop 中預覽」。
您可能會遇到您的資料和在 Tableau Desktop 中進行的變更未寫回 Tableau Prep Builder 中的資料來源的情況。有關詳細資訊,請參閱在 Tableau Desktop 中檢視流程輸出(連結在新視窗開啟)。在開始清理聯結結果之前,將聯結步驟命名為「Orders+Returns」(訂單+退貨),並儲存流程。
清理聯結結果
附註:若要清理聯結中的欄位,您可以直接在「聯結」步驟中執行清理操作。對於本教程,我們將新增一個清理步驟,以便您能夠清晰地看到您的清理操作。如果要嘗試直接在聯結步驟中執行這些步驟,請跳過下面的步驟 1 和 3。
聯結了兩個步驟之後,系統為兩個表都新增了「Order ID」(訂單 ID)和「Product ID」(產品 ID)共同欄位。
您想要保留所有訂單中的「Product ID」(產品 ID)欄位和退貨檔案中的「Order ID」(訂單 ID)欄位,並移除來自這些欄位的重複欄位。您也不需要輸出檔案中的「檔案路徑」和「表格名稱」欄位,因此也需要移除這些欄位。
提示:當您使用兩個檔案中均存在的欄位聯結資料表時,Tableau Prep 會引入這些欄位,並透過向欄位名中新增 [-1] 或 [-2] 來重命名第二個檔案中的重複欄位。例如,「Order ID」(訂單 ID)和「Order ID-1」(訂單 ID-1)。
在「流程」窗格中選取「訂單+退貨」,按一下加號 圖示,並新增清理步驟。
在「設定檔」窗格中,選取並移除以下欄位:
Table Names(表名稱)
Order ID(訂單 ID)
檔案路徑(僅適用於 Tableau Prep Builder)
Product ID-1(產品 ID-1)
將欄位「Order ID-1」(訂單 Id-1)重新命名為「Order ID」(訂單 ID)。
有很多產品已退貨的 null 值,但沒有指明退貨注釋或核准者。為了使此資料更易於分析,您想要新增一個值為「Yes」和「no」的欄位來指明產品是否已退貨。
您沒有此欄位,但可以透過建立計算欄位來新增此欄位。
在工具列中,按一下「建立計算欄位」。
將欄位命名為「Returned?」(已退貨?),然後輸入以下計算並按一下「儲存」。
If ISNULL([Return Reason])=FALSE THEN "Yes" ELSE "No" END
為了進行分析,您還想要知道訂單發貨天數,但您也沒有該欄位。
不過您有建立該欄位所需的全部資訊,因此新增了另一個計算欄位來建立它。
在工具列中,按一下「建立計算欄位」。
將欄位命名為「Days to Ship」(發貨天數),然後輸入以下計算並按一下「儲存」。
DATEDIFF('day',[Order Date],[Ship Date])
將步驟命名為「Clean Orders +Returns」(清理訂單+退貨)。
儲存您的流程。
5.執行流程並產生輸出
您的資料看起來很好,並且您已準備好產生輸出檔案以便開始在 Tableau Desktop 中對其進行分析。您只需執行流程並產生擷取檔案即可。為此,您需要新增一個輸出步驟。
可以將流程輸出到檔案(僅適用於 Tableau Prep Builder)、已發佈的資料來源或資料庫,具體取決於工作的位置。
在「流程」窗格中選取「清理訂單+退貨」,按一下加號 圖示,並選取「輸出」(在以前的版本中為「新增輸出」)。
新增輸出步驟時,「輸出」窗格將開啟,並顯示資料的快照。在這裡您可以選取要產生的輸出的類型,並指定名稱和要儲存檔案的位置。
預設位置為資料原始檔案夾中的「我的 Tableau Prep Builder」存放庫。
在「將輸出儲存到」下拉式功能表的左窗格中,根據您的工作位置,執行以下操作之一:
Tableau Prep Builder
- 選取「檔案」(在先前的版本中選取「儲存到檔案」)。
- 按一下「瀏覽」按鈕,然後在「將擷取另存新檔」對話方塊中輸入檔案的名稱,例如「Orders_Returns_Superstore」,並按一下「接受」。
在「輸出類型」欄位中,選取一種輸出類型。若要與協力廠商共用資料擷取,請選取適用於 Tableau Desktop 的 Tableau 資料擷取 (.hyper) 或逗點分隔值檔案 (.csv) 。
Tableau Server 或 Tableau Cloud
- 選取已發佈的資料來源。
- 選取專案。
輸入檔案的名稱,例如 Orders_Returns_Superstore。
提示:在透過流程產生輸出時,您有一些選取。您可以產生擷取檔案(僅適用於 Tableau Prep Builder),可以將資料作為資料來源發佈到 Tableau Server 或 Tableau Cloud,也可以將資料寫入資料庫。有關產生輸出檔案的詳情,請參閱建立資料擷取檔案和已發佈的資料來源(連結在新視窗開啟)。
在「寫入選項」區段中檢視要將新資料寫入檔案的選項。您希望使用預設的(「建立資料表」)並以您的流程輸出取代資料表,所以此處不需變更。
提示:從版本 2020.2.1 開始,您可以選擇希望如何將流程資料寫入回資料表。可以在兩個選項當中進行選擇;「建立資料表」或「附加資料表」。依照預設,Tableau Prep 會使用「建立資料表」選項,並在執行流程時使用新資料覆寫您的資料表資料。如果選擇「附加資料表」,Tableau Prep 會在現有資料表中新增該流程,以便您在每次流程執行時可同時追蹤新資料和歷史資料。有關詳情,請參閱設定寫入選項
按一下「輸出」窗格中的「執行流程」,或按一下流程窗格中的「執行流程」按鈕,以產生您的輸出。
附註:若在 Web 上工作,請按一下「發佈」,以發佈您的草稿流程。只能執行已發佈的流程。
流程完成執行時,一個狀態對話方塊將顯示流程執行成功,以及執行所花費的時間。按一下「完成」關閉該對話方塊。
若在 Web 上工作,請巡覽至「瀏覽」 > 「所有流程」頁面,然後找到您的流程。您可以在「流程概觀」頁面上查看流程執行的狀態。
為了讓資料保持在最新狀態,可以手動執行流程,或使用命令列執行。如果擁有 資料管理 並已啟用 Tableau Prep Conductor,還可以在 Tableau Server 或 Tableau Cloud 中根據排程執行流程。
從 Tableau Prep Builder 版本 2020.2.1 和 Web 版本開始,還可以選擇在每次執行流程時重新整理所有資料,或者使用累加式重新整理執行流程,並且每次僅處理新資料。
有關資料保持最新狀態的詳細資訊,請參閱以下主題:
總結和資源
您是資料準備巨星了!您輕鬆地找出了不良資料並對其進行了改變!您很快清理並準備好了來自多個資料集的資料,並將其轉換為可立即在 Tableau Desktop 中處理來進行分析的井然有序、乾淨的資料集。
想要進行更多練習?嘗試使用下列資料夾中的資料檔案重複執行 Superstore 範例流程的其餘步驟:
- Orders_South_2015
- Orders_South_2016
- Orders_South_2017
- Orders_South_2018
- Orders_Central
- Orders_East
- Orders_West
- returns_reasons_new
- 配額
安裝 Tableau Prep Builder 之後,您也可以在電腦的以下位置尋找檔案:
- (Windows)
C:\Program Files\Tableau\Tableau Prep Builder <version>\help\Samples\en_US\Superstore Files
- (Mac)
/Applications/Tableau Prep Builder <version>.app/Contents/help/Samples/en_US/Superstore Files
想要獲得更多訓練?查看這些優質資源(連結在新視窗開啟),或參加現場訓練(連結在新視窗開啟)課程。
想要瞭解我們所討論主題的詳細資訊?請查看 Tableau Prep 線上說明中的其他主題。