Tableau Prep Builder 入門指南

附注:Tableau Prep 版本 2019.1.2 已將其名稱變更為 Tableau Prep Builder。如果您使用的是舊版產品,您仍然會在產品中看到 "Tableau Prep"。

本教程介紹 Tableau Prep Builder 中的常見操作。您將使用 Tableau Prep Builder 附帶的樣本資料集來演練為範例 Superstore 建立流程。本教程使用最新版本的 Tableau Prep Builder。如果您使用的是以前的版本,結果可能會不同。

請在進行演練的過程中觀看提示,深入瞭解 Tableau Prep Builder 如何幫助您清理和調整資料以進行分析。

若要在繼續本教程之前安裝 Tableau Prep Builder,請參閱 Tableau Desktop 和 Tableau Prep Builder 部署指南中的從使用者介面安裝 Tableau Desktop 或 Tableau Prep Builder。否則您可以下載免費試用版

附註:為了完成本教程中的工作,您需要安裝 Tableau Prep Builder,並且需要將下列樣本 Superstore 資料檔案下載至單個位置:

本文內容

背景故事...

您在一家大型零售連鎖店的總部工作。您的老闆想要分析過去四年公司的產品銷售額和利潤。您推薦他使用 Tableau Desktop 來完成該操作。您的老闆認為這個主意很棒,並希望您立即著手完成該工作。

在開始收集需要的所有資料時,您注意到,有人已經透過其他方式為每個區域收集和跟蹤過資料。您還注意到不同檔案中有大量創新資料條目,而且一個區域甚至每年都有單獨的檔案!

您將不得不先執行大量的資料清理工作,然後才能開始在 Tableau 中分析資料,而這項工作將需要很長時間。

在您翻找餐廳的功能表來訂晚餐時,您想起來 Tableau 最近推出了一款名為 Tableau Prep Builder 的新產品,該產品可幫助您完成艱巨的資料清理工作。

您註冊了免費試用版,決定試用一下。

1.連線到資料

開啟 Tableau Prep Builder 時,您首先看到是一個帶有「連線」窗格的開始頁面,就像 Tableau Desktop 一樣。

若要開始操作,第一步是連線到資料並建立輸入步驟。您將從該處開始建立工作流(在 Tableau Prep Builder 中稱之為「流程」),並隨著進展新增更多步驟來對資料執行操作。

提示:輸入步驟是資料的攝入點和流程的開始點。您可能有多個輸入步驟,並且某些步驟可能包括多個資料檔案。有關連線到資料的詳細資訊,請參閱連線到資料

不同區域的銷售額資料檔案以不同的格式存放,並且「南部」區域的訂單實際上是多個檔案。您檢查了「連線」窗格,並發現您有很多選取來連線到資料。太棒了!

由於其他區域全部四年的資料是一個檔案,因此您決定先著手處理「南部」區域的檔案。

  1. 「連線」窗格上,按一下「新增連線」 按鈕。

  2. 檔案是 .csv 檔案,因此請在連線清單中選取「文字檔案」

  3. 巡覽到檔案的目錄,選取第一個檔案 orders_south_2015.csv,並按一下「開啟」以將其新增到流程。(有關檔案位置,請參閱總結和資源。)

    連線到第一個檔案後,Tableau Prep Builder 工作區將開啟,您會看到它分為兩個主要部分。頂部的「流程」窗格和底部的「輸入」窗格。

    在 Tableau Prep Builder 中,「流程」窗格是畫布,與 Tableau Desktop 很像,您可以在其中直觀地與資料交互並組建流程。「輸入」窗格包含有關如何攝入資料的設定選項。該視窗還顯示資料集的欄位、資料類型以及樣本值。

    我們將在下一部分中探討您如何才能與此資料交互。

    提示:對於單個表,Tableau Prep Builder 會在您將資料新增到流程時自動為您在「流程」窗格中建立輸入步驟。否則,您可以使用拖放功能將表新增到「流程」窗格。

  4. 「南部」地區的訂單有三個其他檔案。您可以單獨新增每個檔案,但您想要將所有檔合併到一個輸入步驟中,因此您在「輸入」窗格中按一下「多個檔案」索引標籤。

  5. 您會看到一個「萬用字元聯集」選項。選取該選項。

    您注意到,您在其中選取檔的目錄已填充,並且您需要的其他檔列在「輸入」窗格的「已包括檔案」部分中。

    提示:使用萬用字元聯集可以非常方便的連線到單一資料來源中具有類似名稱和結構的多個檔案。若要使用此選項,檔必須位於同一父目錄或子目錄中。如果沒有立即看到所需的檔案,請變更搜尋條件。有關詳情,請參閱輸入步驟中的聯集檔案和資料庫資料表

  6. 按一下「套用」新增這些檔案,以將這些檔案中的資料新增到「orders_south_2015」輸入步驟。

  7. 其他區域的檔案全部都是單一表檔案,因此您可以一次性選取所有檔案並將它們新增到流程。

  8. 開啟檔案總管或 Finder,並巡覽到檔案的目錄。按住 Ctrl 並按一下,或按住 Command 並按一下 (MacOS),選取以下檔案並將它們拖放到「流程」窗格上,將這些檔案新增到流程。(有關檔案位置,請參閱總結和資源。)

    • Orders_Central.csv
    • Orders_East.xlsx
    • Orders_West.csv

    附註:這些是不同的檔案類型。如果您看不到所有這些檔案,請確保您的檔案總管或 Finder 設定為查看所有檔案類型。

檢查您的工作:觀看「連線到資料」的實際執行效果。

按一下影像可重播

2.瀏覽資料

既然您已將資料檔案載入到 Tableau Prep Builder 中,您很確定自己想要將檔案合併在一起。但在執行該操作之前,不妨先檢查一下這些檔案,看看是否能找出任何問題。

「流程」窗格中選取輸入步驟時,您可能會看到用於引入資料的設定、所包括的欄位以及一些樣本值。

在這裡可以很方便地決定要在流程中包括多少資料,以及移除或篩選不需要的欄位。您還可以變更未正確指派的任何資料類型。

提示:如果在處理大型資料集,Tableau Prep Builder 會自動引入資料樣本,從而最大限度提升效能。如果看不到預期資料,您可能需要調整樣本。可在「資料樣本」索引標籤上執行此操作。有關設定資料選項和樣本大小的詳情,請參閱選取資料樣本大小

「流程」窗格中,當您選取每個步驟並查看每個資料集時,您注意到需要稍後修正的一些問題,以及一個可立即在輸入步驟中修正的問題。

  • 「流程」窗格中,按一下「Orders_Central」輸入步驟將其選定。在「輸入」窗格中,您注意到以下問題:

    • 訂單日期和發貨日期在欄位中已針對月、日和年分開。

    • 某些欄位的資料類型與其他檔案中相同欄位的資料類型不同。

    • 「Region」(區域)沒有欄位。

    您將需要對這些欄位執行一些清理操作,然後才能將此檔案與其他檔案合併。但您無法在輸入步驟中的此處修正該問題,因此記下來以便稍後進行修正。

  • 選取「Orders_East」輸入步驟。

    此檔案中的欄位看起來與其他檔案完全一致。但「Sales」(銷售額)值似乎全部都包括了貨幣代碼。您稍後也需要修正該問題。

  • 選取「Orders_West」輸入步驟。此檔案中也有一些問題。

    • 「State」(州/省)欄位使用州/省名稱的縮寫。其他檔案則使用完整拼寫,因此您將需要稍後修正該問題。

    • 有許多以「Right_」開頭的欄位。這些欄位似乎與其他欄位重複。您不想在流程中包括這些重複欄位。此問題可在輸入步驟中的此處修正:

      若要立即修正此問題,請清除以「Right_」開頭的所有欄位的核取方塊。這會指示 Tableau Prep Builder 忽略這些欄位,不將它們包括在流程中。

      提示:當您在某個步驟中執行清理操作(比如移除欄位)時,Tableau Prep Builder 會在「變更」窗格中追蹤您所做的變更,並在「流程」窗格中新增註解來幫助您跟蹤對資料所做的操作。對於「輸入」步驟,也會向每個欄位中新增註解。

      在 Tableau Prep Builder 版本 2018.3.1 及更新版本中,可以在流程的大部分步驟中執行清理操作。在以前的版本中,大多數清理操作必須在清理步驟中執行。

既然您已經確定了資料集中的一些問題,那麼下一步是更仔細地檢查您的資料並清理找到的任何問題,以便能夠合併和調整資料,並產生可用於分析的輸出檔案。

3.清理資料

在 Tableau Prep Builder 中,檢查和清理資料是一個反復的過程。確定了要處理的資料集之後,下一步是檢查該資料,並透過對資料應用各種清理、調整和合併操作來對其進行操作。您透過向流程中新增步驟來應用這些操作。有關 Tableau Prep Builder 中的清理選項的詳細資訊,請參閱清理和調整資料

根據您嘗試進行的操作,步驟有多種風格。例如,在想要對欄位應用像篩選、合併、拆分、重命名這樣的清理操作時隨時新增清理步驟(「新增步驟」)。新增彙總步驟(「新增彙總」)來對欄位進行分組和彙總,並變更資料的詳細資料層級。有關不同步驟類型及其用法的詳情,請參閱建立與組織流程

提示:向流程中新增步驟時,會自動新增一條流程線將步驟相互連線在一起。您可以將這些流程線四處移動,並根據需要移除或新增流程線。

執行流程時,必須要有這些連線點,以便 Tableau Prep Builder 知道哪些步驟已連線以及步驟在流程中的應用順序。如果缺少流程線,則流程會中斷並出現錯誤。

清理 Orders_Central

為了解決之前發現的問題並確定是否還有任何其他問題,您首先向「Orders_Central」輸入步驟中新增一個清理步驟。

  1. 「流程」窗格中,選取「Orders_Central」,按一下加號 圖示,並選取「新增步驟」

    向流程中新增清理步驟時,工作區將發生變化,您將看到資料的詳細資訊。

    A. 流程窗格、B. 工具列、C. 設定檔窗格、D. 資料網格

    工作區現在分為三個部分:「流程」窗格、帶工具列的「設定檔」窗格和「資料」網格。「設定檔」窗格顯示資料的結構,同時將欄位值匯總到資料筒中,以便您能夠快速查看相關值,並找出離群值和 null 值。

    「資料」網格顯示欄位的列層級詳細資訊。

    提示「設定檔」窗格中的每個欄位都顯示在設定檔卡上。使用每張卡上的「更多選項」 功能表(在以前的版本中為下拉箭頭)來查看和選取可用於該欄位類型的不同清理選項。您也可以對欄位值進行排序、變更資料類型、為欄位指派資料角色,或在「資料」網格中拖放設定檔卡和欄以重新排列它們。

    使用計算欄位清理資料

    此資料集缺少「Region」(區域)欄位。由於其他資料集有此欄位,因此您將需要新增此欄位,以便能夠稍後聯集。您將需要使用計算欄位來執行此操作。

  2. 在工具列中,按一下「建立計算欄位」

  3. 將計算欄位命名為「Region」(區域)。然後輸入 "Central"(包括引號),並按一下「儲存」

    您能夠使用計算欄位來調整資料,這種靈活性讓您非常喜歡。您非常高興看到 Tableau Prep Builder 使用與 Tableau Desktop 相同的計算編輯器語言。

    提示:當您對欄位和值進行變更時,Tableau Prep Builder 會在「變更」窗格跟蹤所做的變更。同時,會向流程中的清理步驟和「設定檔」窗格中的欄位新增一個表示變更的圖示。我們將在進行更多變更之後查看「變更」窗格。

    接下來,您需要解決單獨訂單日期和發貨日期欄位的問題。您需要將它們合併為兩個單一欄位,一個用於「Order Date」(訂單日期),一個用於「Ship Date」(發貨日期),使它們與其他資料集中的相同欄位保持一致。

    您可以再次使用計算欄位,透過一個輕鬆的步驟執行此操作。

  4. 在工具列中,按一下「建立計算欄位」,將「Order Year」(訂單年份)「Order Month」(訂單月份)「Order Day」(訂單日)欄位合併為一個格式為「MM/DD/YYYY」的欄位。

  5. 將該計算欄位命名為「Order Date」(訂單日期)。然後在計算編輯器中輸入以下計算,並按一下「儲存」

    MAKEDATE([Order Year],[Order Month],[Order Day])

    既然有了新的訂單日期欄位,那麼您需要移除現有欄位,因為您不再需要它們。

    「設定檔」窗格中有很多欄位。您注意到工具列右上角的「搜尋」方塊。您不知道是否能使用該方塊來快速查找想要移除的欄位。您決定試一下。

  6. 「設定檔」窗格的搜尋方塊中,鍵入「Order」

    Tableau Prep Builder 將在檢視中快速捲動名稱中包含「Order」的所有欄位。太酷了!

  7. 按住 Ctrl 按一下或按住 Command 按一下 (MacOS),選取「訂單年份」「訂單月份」「訂單日」欄位。然後以滑鼠右鍵按一下所選欄位,並從功能表中選取「移除」(在以前版本中為「移除欄位」),以移除它們。

  8. 現在重複上面的步驟 4 至 7,為「Ship Date」(發貨日期)建立單一欄位。自己嘗試一下,或使用下面的步驟來幫助您。

    • 在工具列中,按一下「建立計算欄位」,將「Ship Year」(發貨年份)「Ship Month」(發貨月份)「Ship Day」(發貨日)欄位合併為一個格式為「MM/DD/YYYY」的欄位。

    • 將該計算欄位命名為「Ship Date」(發貨日期),並輸入計算 MAKEDATE([Ship Year],[Ship Month],[Ship Day])。然後按一下「儲存」

    • 移除「Ship Year」(發貨年份)「Ship Month」(發貨月份)「Ship Day」(發貨日)欄位。搜尋欄位,並加以選取,然後從功能表選取「移除」(在以前版本中為「移除欄位」),以移除欄位。

    提示:Tableau Prep Builder 會將「設定檔」窗格中的資料彙總到資料筒中,幫助您快速查看資料的形狀、尋找離群值、找出欄位之間的關係,等等。

    在此方案中,訂單日期和發貨日期現在可按年份匯總。每個資料筒都表示從起始年份一月份到下一年一月份的一年,並帶有相應標籤。由於有處於 2018 年和 2019 年下半年的銷售日期及發貨日期,因此該資料的資料筒相應標有 2019 年和 2020 年年末。

    若要將此檢視變更為實際日期,請按一下「設定檔」卡中的「更多選項」 功能表(在以前的版本中為下拉箭頭),並選取「詳細資訊」

    與欄位直接交互來清理資料

    您的資料一開始看起來很好。但在完成為訂單日期和發貨日期移除額外欄位的操作後,您注意到「Discounts」(折扣)欄位有一些問題。

    • 系統為其指派了「字串」資料類型,而不是「數字(十進位)」資料類型。

    • 對於無折扣的情況,欄位值是「None」(無),而不是數字值。

    這將在聯集檔案時導致問題,因此最好也修正該問題。

  9. 清除搜尋,並在搜尋方塊中輸入 disc 來查找欄位。

  10. 選取「Discounts」(折扣)欄位,按兩下欄位值「None」(無),並將其變更為數字值「0」

  11. 「Discount」(折扣)欄位的資料類型從「字串」變更為「數字(十進位)」。按一下「Abc」,並從下拉式功能表中選取「數位(十進位)」

  12. 最後為步驟命名,以幫助跟蹤您在此步驟中進行的操作。在「流程」窗格中,按兩下步驟名稱「Clean 1」(清理 1),並鍵入「Fix dates/field names」(修正日期/欄位名稱)

檢閱您的變更

您對此資料集進行了許多變更,並開始擔心自己會不記得所進行的操作。在檢查工作時,您看到「設定檔」窗格的左側有一個名為「變更」的欄。

您按一下箭頭將其開啟,看到其中列出了您剛剛進行的每項變更,這讓您很高興。在您捲動瀏覽清單中的變更時,您注意到,您可以刪除或編輯變更,甚至能將變更四處移動來改變所做變更的順序。

您可以輕鬆地查找組建流程時在任何步驟中所做的變更,並對這些變更的順序進行試驗來最大程度地利用您的資料,這讓您非常喜歡。

檢查您的工作:觀看「清理 Orders_Central」的實際執行效果。

按一下影像可重播

既然已清理了一個檔案,那麼您將查看其他檔案來確定需要修正的其他問題。

接下來您決定查看「Orders_East」的 Excel 檔案。

清理 Orders_East

在查看「Orders_East」檔案的欄位時,除了「Sales」(銷售額)之外,大多數欄位看起來與其他檔案一致。為了進一步查看並確定是否還有任何其他要解決的問題,您向「Orders_East」輸入步驟中新增一個清理步驟。

  1. 「流程」窗格中,選取「Orders_East」,按一下加號 圖示,並選取「新增步驟」

    透過查看「Sales」(銷售額)欄位,您很快發現隨銷售額數字一起包括了 USD 貨幣代碼,並且 Tableau Prep Builder 已將這些欄位值解讀為字串。

    如果要獲得準確的銷售額資料,您將需要從此欄位中移除貨幣代碼,並變更資料類型。

    修正資料類型很容易,您已經知道如何做了。但唯一的銷售額資料列超過 2000 列,而修正每個單獨的列來移除貨幣代碼看起來很麻煩。

    但這是 Tableau Prep Builder,因此您決定檢查下拉式功能表,看看是否有用於修正此問題的選項。

    當您按一下「Sales」(銷售額)欄位的下拉箭頭時,您看到一個名為「清理」的功能表選項,以及該選項下一個用於移除字母的選項。您決定嘗試一下,看看該選項有什麼用。

  2. 選取「Sales」(銷售額)欄位。按一下「更多選項」 功能表(在以前的版本中為下拉箭頭),並選取「清理」>「移除字母」

    哇!該清理選項立即從每個欄位中移除了貨幣代碼。現在您只需要將資料類型從「字串」變更為「數字(十進位)」,此檔案看起來就正常了。

  3. 按一下「銷售額」欄位的資料類型,並從下拉清單中選取「數字 (十進位)」,以變更資料類型。

  4. 檔案的其餘部分看起來很好。為清理步驟命名以跟蹤您的工作。例如,命名為「Change data type」(變更資料類型)。

接下來您將查看 Orders_West 的最後一個檔案,看看是否有任何需要修正的問題。

清理 Orders_West

在您查看「Orders_West」檔案的欄位時,大多數欄位看起來都與其他檔案一致,但您記得看到過「States」(州/省)欄位為值使用了縮寫,而不是州/省名稱的完整拼寫。為了將此檔案與其他檔案合併,您將需要修正此問題。因此您向「Orders_West」輸入步驟中新增一個清理步驟。

  1. 「流程」窗格中,選取「Orders_West」,按一下加號 圖示,並選取「新增步驟」

    捲動或使用「搜尋」來查找「State」(州/省)欄位。您將看到所有州/省名稱值都使用簡短縮寫。此欄位只有 11 個唯一的值。您可以手動變更每個值,但 Tableau Prep Builder 是否可能有另一種方法來完成此操作?

    您按一下欄位的「更多選項」 功能表(在以前的版本中為下拉箭頭),並看到一個名為「分組和取代」的選項。選取該選項時,您將看到若干選項:

    • 手動選取

    • 發音

    • 常用字符

    • 拼寫

    州/省名稱的發音不相似,它們的拼寫不正確,也沒有共用相同的字元,因此您決定嘗試「手動選取」選項。

    提示:您可以按兩下欄位名稱或欄位值來編輯單個值。若要編輯多個值,您可以選取所有值,並使用以滑鼠右鍵按一下功能表選項「編輯值」。但如果要將一個或多個值映像到特定值,請使用下拉式功能表中的「分組和取代」選項。
    有關編輯和分組值的詳情,請參閱編輯欄位值

  2. 選取「State」(州/省)欄位。按一下下拉箭頭,並選取「分組和取代」>「手動選取」

    一個兩欄的卡將開啟。這是「分組和取代」編輯器。左側的欄顯示目前欄位值,右側的欄顯示可映像到左側欄位的欄位。

    您想要將州/省縮寫映像到州/省名稱的完整拼寫版本,但在「Orders_West」資料集中沒有這些值。您不知道是否能直接編輯名稱和在該處新增名稱,因此您嘗試了一下。

  3. 在左側窗格的「分組和取代」編輯器中,按兩下「AZ」以反白顯示值,並鍵入 Arizona。然後按 Enter 以新增變更。

    Tableau Prep Builder 為新值「Arizona」建立了一個映像值,並自動將舊值「AZ」映像到該值。如果您像這樣輸入了更多此區域的資料,那麼為這些值建立映像關係將節州/省您的時間。

    提示:您可以新增資料樣本中沒有的欄位值,建立映像關係來組織資料。如果重新整理資料來源並新增了新資料,您可以將新資料新增到映像,而不是手動修正每個值。

    當您手動新增資料樣本中沒有的值時,值將帶有紅點標記,可幫助您輕鬆識別該值。

  4. 重複這些步驟,將每個州/省都映像到其名稱的完整拼寫版本。

    縮寫 州/省名稱
    AZ Arizona
    CA California
    CO Colorado
    ID Idaho
    MT Montana
    NM New Mexico
    NV Nevada
    或者 Oregon
    UT Utah
    WA Washington
    WY Wyoming

    然後,按一下「完成」關閉「分組和取代」編輯器。

    映像了所有州/省之後,您查看「變更」窗格,看到其中只有一個條目,而不是 11 個條目。

    看起來 Tableau Prep Builder 已將欄位的類似操作分組在一起。您喜歡該功能,因為利用它可以更輕鬆地查找隨後對資料集所做的變更。

    修正「State」(州/省)欄位值是您需要在此處進行的唯一變更。

  5. 為清理步驟命名以跟蹤您的工作。例如「Rename states」(重命名州/省)。

您在檔案中進行了大量的清理,不敢相信操作能如此快捷輕鬆地完成。您竟然還可以回家吃晚飯!為了確保不會丟失到目前為止所做的工作,請儲存您的流程。

按一下「檔案」>「儲存」「檔案」>「另存新檔」。將檔案另存新檔為流程檔案 (.tfl) 並為其命名。例如「My Superstore」(我的超市)。

提示:在儲存流程檔案時,您可以將它們另存新檔為流程檔案 (.tfl) 或已封裝檔案 (.tflx),並將本機資料檔案與這些檔已封裝在一起,以便將流程和檔與其他人共用。有關儲存和共用流程的詳細資訊,請參閱儲存和共用工作

回到頁首


4.合併資料

既然清理了所有檔案,那麼您就已最終準備好將它們合併在一起。

由於所有檔案都有類似的欄位,因此您想要將檔案合併在一起,並將每個檔案中的列新增到單個表中。

您記得有一個名為「新增聯集」的步驟選項,但不知道是否能簡單地透過拖放步驟來聯集檔案。您決定試一下看看。

聯集資料

  1. 「流程」窗格中,將倒數第二個清除步驟拖曳至流程中最後一個清除步驟的頂端,並將其放置在「聯集」選項。例如,將清除步驟「重命名州/省」拖到清除步驟「變更的資料類型」步驟上,並將其放在「聯集」選項上。

    您看到 Tableau Prep Builder 向流程中新增了一個新的「Union」(合併)步驟。太好了!現在,您想要向此聯集中新增其他檔案。

  2. 將流程中第二個清除步驟拖到新的「修正日期/欄位名稱」上,再拖到新的「聯集」步驟上,然後將其放在「新增」,以將其新增至現有聯集。例如,將「修正日期/欄位名稱」清除步驟拖到新的「聯集」步驟上,然後將其放在「新增」,以將其新增至現有聯集。

  3. 「orders_south_2015」步驟拖到新的「Union」(合併)步驟。將其放在「新增」上以新增到現有聯集。

    現在,所有檔案已合併到一個表中。在「流程」窗格中,選取「Union」(聯集)步驟以查看結果。

    您注意到,Tableau Prep Builder 自動匹配了具有相同名稱和類型的欄位。

    您還看到,指派給流程中步驟的色彩用在聯集設定檔中指明欄位來自於何處,並同時出現在每個欄位頂部的色帶中,顯示該欄位是否存在於該表中。

    您注意到新增了一個名為「Table Names」(表名稱)的新欄位,該欄位列出了聯集中所有列的來源表。

    不匹配欄位的清單也顯示在摘要窗格中,並且您可以立即看到欄位「Product」(產品)「Discounts」(折扣)只出現在 Orders_Central 檔案中。

  4. 若要更仔細地查看這些欄位,請在「聯集結果」窗格中選中「僅顯示不匹配欄位」核取方塊。

    透過查看欄位資料,您很快發現資料相同,但欄位名不同。您可以簡單地重命名欄位,但不知道是否能拖放這些欄位來合併它們。您決定試一下看看。

  5. 選取「Product」(產品)欄位,並將其拖放到「Product Name」(產品名稱)欄位上來合併欄位。欄位合併後將不再出現在窗格中。

  6. 重複此步驟,將「Discounts」(多項折扣)欄位與「Discount」(折扣)欄位合併。

    現在,唯一沒有匹配項的欄位是「File Paths」(檔案路徑)欄位。此欄位顯示您為「南部」區域銷售訂單執行的萬用字元聯集的檔案路徑。您決定將此欄位保留在該處,因為它有很好的資訊。

    提示:在合併之後修正不匹配的欄位時,您有若干選取。

    根據所使用的 Tableau Prep Builder 版本,您可以在「不匹配的欄位」清單中選取一個欄位(版本 2018.2.1 及更新版本),如果 Tableau Prep Builder 偵測到可能的匹配項,它將以黃色反白顯示該匹配項。若要合併欄位,請將游標暫停在反白顯示的欄位上,並按一下出現的加號 按鈕。

    有關在聯集中合併欄位的更多方式,請參閱修正不匹配的欄位

  7. 清除「僅顯示不匹配欄位」核取方塊以顯示聯集中包括的所有欄位。

  8. 為聯集步驟命名以表示此聯集所包括的內容。例如,「All orders」(所有訂單)。

檢查您的工作:觀看「聯集」的實際執行效果。

按一下影像可重播

您是清除天才!正當您對結果讚不絕口時,您的老闆打來了電話。他忘了說他還想要您在分析中包括任何產品退貨。他希望這項工作不會太麻煩。利用工具包中的 Tableau Prep Builder,這完全不成問題!

清理產品退貨資料

您檢查老闆發給您的產品退貨相關 Excel 檔案,發現檔案有一點雜亂。您將新檔案 return_reasons new 新增到您的流程來仔細檢查。

  1. 「連線」窗格中,按一下「新增連線」。選取「Microsoft Excel」並巡覽到範例 Superstore 資料檔案(請參閱總結和資源瞭解檔案位置)。

  2. 選取 return reasons_new.xlsx,然後按一下「開啟」將該檔案新增到流程窗格。

    此檔案中只有 4 個您想要包括在流程中的欄位:「Order ID」(訂單 ID)「Product ID」(產品 ID)「Return Reason」(退貨原因)「Notes」(注釋)

  3. 「returns_new」「輸入」窗格中,清除欄位網格頂部的核取方塊以清除所有核取方塊。然後,選中「Order ID」(訂單 ID)「Product ID」(產品 ID)「Return Reason」(退貨原因)「Notes」(注釋)欄位的核取方塊。

  4. 重命名輸入步驟以更好地反映所包括的資料。在「流程」窗格中,按兩下輸入步驟名稱「Returns_new」,並鍵入「Returns (all)」(退貨(全部))

    透過查看範例欄位值,您注意到「Notes」(注釋)欄位似乎有很多不同的資料合併在一起。

    您要在此檔案中執行一些清理,然後才能對資料進行進一步處理,因此,您新增了清理步驟來進行檢查。

  5. 「流程」窗格中,選取輸入步驟「Returns (all)」(退貨(全部)),按一下加號 圖示,然後選取「新增步驟」

    在「Profile」(設定檔)窗格中,按一下並將欄位的右側外緣向右拖以調整「Notes」(注釋)欄位的大小,以便能夠更好地查看整個內容。

  6. 「Notes」(注釋)欄位中,使用欄位值右側可視的捲軸來瀏覽各個值。

    您注意到一些內容有問題:

    • 某些條目的內容中有額外的空格。這可能會導致欄位被讀取為 null 值。

    • 核准者的名稱似乎包括在退貨注釋條目中。為了更好地使用此資料,您需要將該資訊放在一個單獨的欄位中。

    為了處理額外的空格,您記得有一個用於移除尾隨空格的清理選項,因此決定嘗試一下,看看該選項是否能修正問題。

  7. 選取「Notes」(注釋)欄位。按一下「更多選項」 功能表(在以前的版本中為下拉箭頭),並選取「清除」>「剪裁空格」

    可以!它準確地完成了所需的操作。額外的空格不見了。

    接下來,您想要為核准者名稱建立一個單獨的欄位。您看到功能表中的「拆分值」選項,因此決定嘗試該選項。

  8. 選取「Notes」(注釋)欄位。按一下「更多選項」 功能表(在以前的版本中為下拉箭頭),並選取「拆分值」>「自動拆分」

    此選項準確地完成了您希望其進行的操作。它自動將退貨注釋和核准者姓名拆分到單獨的欄位中。

    就像 Tableau Desktop 一樣,Tableau Prep Builder 也為這些欄位自動指派了名稱。因此您將需要將新欄位重命名為有意義的名稱。

  9. 選取欄位「Notes-Split 1」(注釋-拆分 1)。在欄位名中按兩下,並鍵入「Return Notes」(退貨注釋)

  10. 為第二個欄位重複此步驟,並將其重命名為「Approver」(核准者)

  11. 最後,在您不再需要原始「Notes」(注釋)欄位時將其移除。選取「注釋」欄位,按一下「更多選項」 功能表(在以前的版本中為下拉箭頭),並從功能表中選取「移除」(在以前的版本中為「移除欄位」)。

    透過查看新的「Approver」(核准者)欄位,您注意到欄位值列出了相同名稱,但這些名稱的輸入方式不同。您想要將這些欄位分組,以消除同一值的多個變體。

    也許「分組和取代」選項可說明完成該操作?

    您記得有一個用於「共同字元」的選項。由於這些值共用相同字母,因此您決定試一下。

  12. 選取「Approver」(核准者)欄位。按一下「更多選項」 功能表(在以前的版本中為下拉箭頭),並選取「分組和取代」>「共同字元」

    此選項為您將每個名稱的所有變體分組在一起。這完全就是您想要達到的目的。

    檢查了其他名稱來確保其正確分組後,您按一下「完成」關閉「分組和取代」編輯器。

    此檔看起來非常好。

  13. 為清理步驟命名以跟蹤您的工作。例如,「Cleaned notes」(清理的注釋)。

既然產品退貨資料全部已清理,那麼您想要將退貨資料新增到合併的檔案中的訂單資料。但其中許多欄位在合併的檔案中不存在。若要將這些欄位(資料欄)新增到合併的資料集,您需要使用聯結。

聯結資料

在聯結資料時,這些檔至少必須有一個共同的欄位。您的檔案共用「Order ID」(訂單 ID)「Product Id」(產品 Id)欄位,因此您可以在這些欄位上聯結,以查看共有這些欄位的所有列。在您使用拖放建立聯集時,您記得有一個用於建立聯結的選項,因此您試了一下。

  1. 「流程」窗格中,將「Cleaned notes」(清理的注釋)步驟拖到「All orders」(所有訂單)合併步驟上,並將其放在「聯結」上。

    在聯結檔案時,Tableau Prep Builder 會在「聯結設定」中顯示聯結的結果。

    處理聯結可能會很棘手。您通常想要有一個具有聯結中所包括因素的清晰檢視,例如用於聯結檔的欄位、結果中的包括的列數,以及未包括或為 null 值的任何欄位。

    在 Tableau Prep Builder 中查看聯結的結果時,您很高興地看到有如此多的資訊,並且可以隨時交互。

    提示:在聯結設定最左側的窗格中,您可以瀏覽聯結並與之交互。您也可以在「聯結子句」窗格中直接修正值,並在「聯結結果」窗格中執行清理操作。

    「已應用聯結子句」部分中選取要進行聯結的欄位,或透過「聯結子句建議」部分新增建議的聯結子句。

    「聯結類型」圖表中按一下以嘗試不同的聯結設定,並在「聯結結果匯總」部分中查看聯結中為每個表包括或排除的列數。

    有關使用聯結的詳情,請參閱彙總、加入或聯集資料

    您看到有超過 13,000 列被從「All Orders」(所有訂單)檔案中排除。建立聯結之後,Tableau Prep Builder 自動對「Product ID」(產品 ID)欄位進行了聯結,但您還想對「Order ID」(訂單 ID)欄位進行聯結。

    在瀏覽聯結設定的左側窗格時,您看到建議的聯結子句清單中有「Order ID」(訂單 Id),因此您從該處快速新增了該欄位。

  2. 聯結設定左側窗格中的「聯結子句建議」部分,選取「Order ID = Order Id」,並按一下加號 按鈕新增聯結子句。

    由於「聯結類型」設定為內部聯結(Tableau Prep Builder 的預設設定),因此聯結僅包括兩個檔案中均存在的值。但您需要「Orders」(訂單)檔案中的所有資料,以及這些檔案的退貨資料。因此您將需要變更聯結類型。

  3. 「聯結類型」部分,按一下圖表的一側以包含所有訂單。在以下範例中,按一下圖表左側,以將聯結類型變更為「左」聯結,並包含來自「所有訂單」聯集步驟中的所有資料,以及來自「清理的注釋」步驟中的任何相符資料。

    現在,您有了銷售訂單檔案中的所有資料,以及適用於這些訂單的任何退貨資料。您查看「聯結子句」窗格,並看到一些其他檔案中不存在的不同值。

    例如,有很多沒有對應退貨資料的訂單列(顯示為紅色)。您能夠瀏覽此詳細資料層級的聯結相關資訊,這讓您非常喜歡。

    您急於想在 Tableau Desktop 中開始分析此資料,但在開始分析之前,您注意到聯結要有一些結果需要清理。幸好您知道怎麼做!

    提示:不知道資料是否足夠乾淨?您可以從流程的任何步驟中透過 Tableau Desktop 預覽資料,對其進行檢查。

    只需在「流程」窗格中以滑鼠右鍵按一下該步驟,並從功能表中選取「在 Tableau Desktop 中預覽」

    您可能會遇到您的資料和在 Tableau Desktop 中進行的變更未寫回 Tableau Prep Builder 中的資料來源的情況。有關詳細資訊,請參閱在 Tableau 中檢視資料樣本

  4. 在開始清理聯結結果之前,將聯結步驟命名為「Orders+Returns」(訂單+退貨),並儲存流程。

清理聯結結果

附註:若要清理聯結中的欄位,您可以直接在「聯結」步驟中執行清理操作。對於本教程,我們將新增一個清理步驟,以便您能夠清晰地看到您的清理操作。如果要嘗試直接在聯結步驟中執行這些步驟,請跳過下面的步驟 1 和 3。

聯結了兩個步驟之後,系統為兩個表都新增了「Order ID」(訂單 ID)和「Product ID」(產品 ID)共同欄位。

您想要保留所有訂單中的「Product ID」(產品 ID)欄位和退貨檔案中的「Order ID」(訂單 ID)欄位,並移除來自這些欄位的重複欄位。您也不需要輸出檔案中的「檔案路徑」「表格名稱」欄位,因此也需要移除這些欄位。

提示:當您使用兩個檔案中均存在的欄位聯合資料表時,Tableau Prep Builder 將會引入這些欄位,並透過向欄位名中新增「-1」或「-2」來重命名第二個檔案中的重複欄位。例如,「Order ID」(訂單 ID)和「Order ID-1」(訂單 ID-1)。

  1. 「流程」窗格中,選取「Orders+Returns」(訂單+退貨),按一下加號 圖示,然後選取「新增步驟」

  2. 「設定檔」窗格中,選取並移除以下欄位:

    • Table Names(表名稱)

    • Order ID(訂單 ID)

    • File Paths(檔路徑)

    • Product ID-1(產品 ID-1)

  3. 將欄位「Order ID-1」(訂單 Id-1)重新命名為「Order ID」(訂單 ID)

    有很多產品已退貨的 null 值,但沒有指明退貨注釋或核准者。為了使此資料更易於分析,您想要新增一個值為「Yes」「no」的欄位來指明產品是否已退貨。

    您沒有此欄位,因此可以透過建立計算欄位來新增它。

  4. 在工具列中,按一下「建立計算欄位」

  5. 將欄位命名為「Returned?」(已退貨?),然後輸入以下計算並按一下「儲存」

    If ISNULL([Return Reason])=FALSE THEN "Yes" ELSE "No" END

    為了進行分析,您還想要知道訂單發貨天數,但您也沒有該欄位。

    不過您有建立該欄位所需的全部資訊,因此新增了另一個計算欄位來建立它。

  6. 在工具列中,按一下「建立計算欄位」

  7. 將欄位命名為「Days to Ship」(發貨天數),然後輸入以下計算並按一下「儲存」

    DATEDIFF('day',[Order Date],[Ship Date])

  8. 將步驟命名為「Clean Orders +Returns」(清理訂單+退貨)

  9. 儲存您的流程。

5.執行流程並產生輸出

您的資料看起來很好,並且您已準備好產生輸出檔案以便開始在 Tableau Desktop 中對其進行分析。您只需執行流程並產生擷取檔案即可。為此,您需要新增一個輸出步驟。

  1. 「流程」窗格中,選取「Clean Orders+Returns」(清理訂單+退貨),按一下加號 圖示,並選取「新增輸出」

    新增輸出步驟時,「輸出」窗格將開啟,並顯示資料的快照。在這裡您可以選取要產生的輸出的類型,並指定名稱和要儲存檔案的位置。

    預設位置為資料原始檔案夾中的「我的 Tableau Prep Builder」存放庫。

  2. 在左側窗格中,選取「儲存到檔案」

  3. 按一下「瀏覽」按鈕,然後在「將擷取另存新檔」對話方塊中輸入檔案的名稱,例如「Orders_Returns_Superstore」,並按一下「接受」

  4. 「輸出類型」欄位中,選取輸出類型。根據您使用的 Tableau Desktop 的版本,您可以從以下選項中進行選取:

    • Tableau 資料擷取 (.hyper) 適用於 Tableau Desktop 版本 10.5 及更高版本。

    • Tableau 資料擷取 (.tde) 適用於 Tableau Desktop 版本 10.0 至 10.4。

    • 逗號分隔值 (.csv)(如果想要與協力廠商共用擷取)。

    提示:在透過流程產生輸出時,您有一些選取。您可以產生擷取檔案,或者可以將您的資料以資料來源的形式發佈到 Tableau Server 或 Tableau Online。有關產生輸出檔的詳細資訊,請參閱建立和發佈擷取及資料來源

  5. 按一下「輸出」窗格中的「執行流程」,或按一下「流程」窗格中的「執行流程」 按鈕,以產生您的輸出。

  6. 流程完成執行時,一個狀態對話方塊將顯示流程執行成功,以及執行所花費的時間。按一下「完成」關閉該對話方塊。

    為了讓資料保持在最新狀態,您可以在 Tableau Prep Builder 中手動執行流程,或使用命令列。您也可以將流程發布至 Tableau ServerTableau Online,以根據排程執行流程。有關使用命令列執行流程的詳情,請參閱透過命令列重新整理輸出檔案。有關根據排程執行流程的詳情,請參閱將流程發布至 Tableau Server 或 Tableau Online

總結和資源

您是資料準備巨星了!您輕鬆地找出了不良資料並對其進行了改變!您很快清理並準備好了來自多個資料集的資料,並將其轉換為可立即在 Tableau Desktop 中處理來進行分析的井然有序、乾淨的資料集。

想要進行更多練習?嘗試使用下列資料夾中的資料檔案重複執行 Superstore 範例流程的其餘步驟:

安裝 Tableau Prep Builder 之後,您也可以在電腦的以下位置尋找檔案:

  • (Windows) C:\Program Files\Tableau\Tableau Prep Builder <version>\help\Samples\en_US\Superstore Files
  • (Mac) /Applications/Tableau Prep Builder <version>.app/Contents/help/Samples/en_US/Superstore Files

想要獲得更多訓練?請觀看 Tableau Prep Builder 的訓練視訊,參閱這些很棒的資源,或參加現場訓練課程。

想要瞭解我們所討論主題的詳細資訊?請查看 Tableau Prep Builder 線上說明中的其他主題。

感謝您的回饋! 提交意見回饋時發生錯誤。重試或傳送訊息給我們