清理和調整資料
附註:從版本 2020.4.1 開始,現在可以在 Tableau Server 和 Tableau Cloud 中建立和編輯流程。除非特別說明,否則本主題中的內容適用於所有平台。有關在 Web 上製作流程的詳情,請參閱 Tableau Server(連結在新視窗開啟) 和 Tableau Cloud(連結在新視窗開啟) 說明中的 Web 版 Tableau Prep。
Tableau Prep 提供各種清理作業,供您清理和調整資料。清除已變更的資料可讓您輕鬆合併及分析資料,或讓其他人在共用資料集合時更容易了解資料內容。
您也可以使用樞紐分析步驟或指令碼步驟清除資料,將 R 或 Python 指令碼套用至流程。Tableau Cloud 中不支援指令碼步驟。如需詳細資訊,請參閱樞紐您的資料(連結在新視窗開啟)或在流程中使用 R 和 Python 指令碼(連結在新視窗開啟)。
關於清除操作
您透過應用諸如篩選、新增、重命名、拆分、分組或移除欄位等清理操作來清理資料。可以在流程中的大多數步驟類型中執行清理操作。在清理步驟中,還可以在資料網格中執行清理操作。
您可以在輸入步驟中套用清除作業,但有其限制,至於輸出步驟則是不能套用清除作業。有關在輸入步驟中套用清除作業的詳細資訊,請參閱在輸入步驟中套用清理操作(連結在新視窗開啟)。
可用的清除操作
下表顯示了在每個步驟類型中可以執行哪些清理操作:
輸入 | 清理 | 彙總 | 樞紐 | 聯結 | 聯集 | 新行 | 輸出 | |
篩選器 | X | X | X | X | X | X | X | |
分組值 | X | X | X | X | ||||
清理 | X | X | X | X | X | |||
轉換日期 | X | X | X | X | X | X | ||
拆分值 | X | X | X | X | X | |||
重命名欄位 | X | X | X | X | X | X | ||
重新命名欄位(大量) | X | |||||||
複製欄位 | X | X | X | X | X | |||
僅保留欄位 | X | X | X | X | X | X | X | |
移除欄位 | X | X | X | X | X | X | X | |
建立計算欄位 | X | X | X | X | X | |||
編輯值 | X | X | X | X | X | |||
變更資料類型 | X | X | X | X | X | X | X |
對資料進行變更時,將會向「流程」窗格中的對應步驟中新增注釋,並會在「變更」窗格中新增一個條目來跟蹤您的動作。如果在「輸入」步驟中進行變更,則注釋會顯示在「流程」窗格中步驟的左側,並也會顯示在欄位清單的「輸入設定」中。
您應用變更的順序很重要。在「彙總」、「樞紐」、「聯結」和「聯集」步驟類型中進行的變更會在這些清除動作之前或之後執行,具體情況取決於您進行變更時欄位的位置。進行變更的位置顯示在步驟的「變更」窗格中。
以下範例顯示了在聯結步驟中對幾個欄位所做的變更。在聯結動作前執行變更,以提供更正後的結果。
操作順序
以下表顯示了「彙總」、「樞紐」、「聯結」和「聯集」步驟中清理動作的執行位置,具體情況取決於欄位在步驟中的何處。
動作 | 步驟類型: | 彙總 | 彙總 | 樞紐 | 樞紐 | 聯結 | 聯結 | 聯集 | 聯集 | 新行 |
---|---|---|---|---|---|---|---|---|---|---|
欄位位置: | 分組欄位 | 彙總欄位 | 不在樞紐中 | 從樞紐建立 | 包含在單一資料表中* | 包含在兩個資料表中* | 不匹配欄位 | 合併欄位 | 用來生成行的欄位 | |
篩選器 | 彙總之前 | 彙總之後 | 樞紐之前 | 樞紐之後 | 聯結之前 | 聯結之後 | 聯集之前 | 聯集之後 | 新行之後 | |
分組值 | 不適用 | 不適用 | 樞紐之前 | 樞紐之後 | 聯結之前 | 聯結之後 | 聯集之前 | 聯集之後 | 新行之後 | |
清理 | 不適用 | 不適用 | 樞紐之前 | 樞紐之後 | 聯結之前 | 聯結之後 | 聯集之前 | 聯集之後 | 新行之後 | |
轉換日期 | 彙總之前 | 彙總之後 | 樞紐之前 | 樞紐之後 | 聯結之前 | 聯結之後 | 聯集之前 | 聯集之後 | 新行之後 | |
拆分值 | 不適用 | 不適用 | 樞紐之前 | 樞紐之後 | 聯結之前 | 聯結之後 | 聯集之前 | 聯集之後 | 新行之後 | |
重命名欄位 | 不適用 | 不適用 | 樞紐之前 | 樞紐之後 | 聯結之前 | 聯結之後 | 聯集之前 | 聯集之後 | 新行之前 | |
複製欄位 | 不適用 | 不適用 | 樞紐之前 | 樞紐之後 | 聯結之前 | 聯結之後 | 聯集之前 | 聯集之後 | 新行之後 | |
僅保留欄位 | 彙總之後 | 彙總之後 | 樞紐之前 | 樞紐之後 | 聯結之前 | 聯結之後 | 聯集之前 | 聯集之後 | 新行之後 | |
移除欄位 | 從彙總中移除 | 從彙總中移除 | 樞紐之前 | 樞紐之後 | 聯結之前 | 聯結之後 | 聯集之前 | 聯集之後 | 新行之後 | |
建立計算欄位 | 不適用 | 不適用 | 樞紐之前 | 樞紐之後 | 聯結之後 | 聯結之後 | 聯集之前 | 聯集之後 | 新行之後 | |
編輯值 | 不適用 | 不適用 | 樞紐之前 | 樞紐之後 | 聯結之前 | 聯結之後 | 聯集之前 | 聯集之後 | 新行之後 | |
變更資料類型 | 彙總之前 | 彙總之後 | 樞紐之前 | 樞紐之後 | 聯結之前 | 聯結之前 | 聯集之前 | 聯集之後 | 新行之前 |
附註:對於聯結,如果欄位是使用一個表中的欄位建立的計算欄位,則在聯結之前應用變更。如果欄位是同時使用兩個表中的欄位建立的,則在聯結之後應用變更。
套用清理作業
要對欄位套用清除操作,請使用工具列選項,或在欄位設定檔卡、資料格或「結果」窗格上按一下「更多選項」,開啟功能表。
在「彙總」、「樞紐」、「聯結」和「聯集」步驟類型中,可以在「結果」窗格和對應的資料網格中的設定檔卡上找到「更多選項」功能表。如果您會在整個流程中不斷重複執行同樣的清除操作或動作,可以複製並貼上步驟、動作或甚至是欄位。如需詳細資訊,請參閱複製步驟、動作和欄位。
「設定檔」窗格工具列 | 下拉式功能表 |
---|---|
選取檢視
您可以在資料網格或清單檢視的設定檔或結果窗格外執行清理作業。使用檢視工具列 (Tableau Prep Builder 版本 2019.3.2 和更高版本以及 Web 版本)變更檢視,然後在欄位上按一下「更多選項」 以開啟清理功能表。
顯示設定檔窗格:這是預設檢視。選取此按鈕即可返回「設定檔」窗格或「結果」窗格檢視。
顯示資料網格:折疊設定檔或結果窗格以展開並只顯示資料網格。此檢視可讓您檢視更詳細的資料畫面,在您需要處理特定欄位值時非常實用。選取此選項後,您流程的所有步驟都會維持此檢視狀態,但您可以隨時變更。
附註:並非所有清理操作都可在資料網格中使用。舉例來說,如果要編輯內嵌值,則必須在「設定檔」窗格。
顯示清單檢視 (Tableau Prep Builder 版本 2019.3.2 和更高版本以及 Web 版本):將設定檔窗格或結果窗格轉換為清單。選取此選項後,您流程的所有步驟都會維持此檢視狀態,但您可以隨時變更。
在此檢視中,您可以:
- 使用 X 選項選取和刪除多列。
- (版本 2021.1.4 及更高版本)使用選項選取、隱藏和取消隱藏多列。
- (版本 2021.2.1 及更高版本)大量重新命名欄位。
使用「更多選項」功能表,以將動作套用至所選欄位。
若為欄位指派資料角色,或是選取「篩選條件」、「分組值」、「清理」或「拆分值」,系統會帶您返回「設定檔」或「結果」檢視以完成這些動作。其他所有選項都可以在清單檢視執行。
使用檢視工具列 以隱藏「設定檔」窗格,只顯示資料網格。然後在資料網格中的欄位上按一下「更多選項」,以開啟清理功能表。此檢視可讓您檢視更詳細的資料畫面,在您需要處理特定欄位值時非常實用。選取此選項後,您流程的所有步驟都會維持此檢視狀態,但您可以隨時變更。
附註:並非所有清理操作都可在資料網格中使用。舉例來說,如果要編輯內嵌值,則必須在「設定檔」窗格。
暫停資料更新以提升效能
對資料執行清理操作時,Tableau Prep 會隨著進展套用變更,以便立即顯示結果。知道要進行的變更且不需要為每次變更提供即時反饋時,為節省寶貴的處理時間,您可以通過暫停資料更新來提高效能。
暫停資料更新時,可以同時進行所有變更,然後恢復更新以查看結果。您可以隨時恢復資料更新並啟用所有可用操作。
附註:暫停資料更新後,會停用所有需要查看值的動作。例如,如果要將篩選條件套用至所選值,您則需要查看想排除的值。
在頂端功能表中,按一下「暫停資料更新」以暫停更新。
Tableau Prep 會將「設定檔」窗格轉換為「清單」檢視。在「清單」檢視中,使用「更多選項」功能表,以將操作套用至所選欄位。如果操作需要您查看值,則會停用該動作。如果要啟用該操作,則必須恢復資料更新。
有關使用「清單」檢視模式的詳細資訊,請參閱選取檢視。
如果要查看變更結果或啟用停用的功能,請恢復資料更新。按一下「恢復資料更新」按鈕,再按一下功能表對話方塊或「流程」窗格頂端的訊息橫幅中的「恢復」按鈕。
附註:Tableau Prep Builder 提供可直接從功能表恢復更新的選項。若在 Web 上編輯流程,則需要從頂部功能表恢復更新。
套用清理作業
若要將清除操作套用至欄位,請執行下列操作:
附註:從Tableau Prep Builder 版本 2019.3.2以及 Tableau Server,和 Tableau Cloud 從版本 2020.4 開始,可以在清單檢視中執行清理作業。
在「設定檔」窗格、資料網格、「結果」窗格或清單檢視中,選取要進行變更的欄位。
從工具列或欄位的「更多選項」功能表中,選取下列選項:
「篩選」或「篩選值」:選取其中一個篩選條件選項,在欄位值上按一下滑鼠右鍵或按住 Ctrl 並按一下 (MacOS),以保留或排除值。您也可以使用「選定值」篩選條件來選擇要篩選的值,包括不在流程樣本中的值。有關篩選條件選項的詳情,請參閱篩選資料(連結在新視窗開啟)。
分組值(在以前的版本中為「分組和取代」):手動選取值或使用自動分組。也可以在設定檔卡中選取多個值,然後右鍵按一下或按住 Ctrl 並按一下 (MacOS),為值分組或取消分組,或者編輯群組值。有關使用分組值的詳情,請參閱使用模糊比對將值自動映像到標準值。
清理:從快速清理操作清單中進行選取,以便應用於欄位中的所有值。
轉換日期(Tableau Prep Builder 版本 2020.1.4 和更高版本以及 Web 版本)︰針對指派給「日期」或「日期和時間」資料類型的欄位,請從「DATEPART」快速清理操作清單中選取以將日期欄位值轉換為代表年份、季度、月份、星期、日或日期和時間值的整數值。
從 2021.1.4 版本開始,還可以從兩項「DATENAME」快速清理操作中進行選取,也就是星期幾或月份名稱,以轉換日期欄位值。
自訂會計年度(Tableau Prep Builder 版本 2020.3.3 和更高版本以及 Web 版本):如果您的會計年度不是從一月開始,可設定自訂會計月份,使用該月份轉換日期,而不使用預設的一月份。
此設定是以欄位為基礎,因此,如果您想要將自訂會計年度套用至其他欄位,請重複相同步驟。
要開啟對話方塊,請從「更多選項」功能表,選取「轉換日期」>「自訂會計年度」。
分割值:根據一般分隔符號自動分隔值,或使用自訂分割來指定分割欄位值的方式。
自動分割和自訂分割的方式與 Tableau Desktop 中的操作方式相同。有關詳細資訊,請參閱 Tableau Desktop 和 Web 製作說明中的將欄位拆分為多個欄位(連結在新視窗開啟)。
重新命名欄位:編輯欄位名稱。
複製欄位(Tableau Prep Builder 版本 2019.2.3 和更高版本以及 Web 版本):建立欄位和值的複本。
僅保留欄位(Tableau Prep Builder 版本 2019.2.2 和更高版本以及 Web 版本):僅保留選取的欄位,排除步驟中的所有其他欄位。
建立計算欄位:在「計算」編輯器中編寫自訂計算,或使用「視覺化計算」編輯器(Tableau Prep Builder 版本 2020.1.1 和更高版本以及 Web 版本)建立詳細資訊、排序或列數計算層級。有關詳情,請參閲建立詳細資料層級、排名和動態磚計算。
- 發佈為資料角色:建立自訂資料角色,然後可將其套用於欄位,以在清理資料時驗證欄位值。有關此選項的詳情,請參閱建立自訂資料角色(連結在新視窗開啟)。
- 隱藏欄位:若想要在流程中保留一些欄位,但是不需要清理,那麼可以隱藏它們,而不是移除它們。有關詳細資訊,請參閱隱藏欄位。
移除(移除先前版本中的欄位):從流程中移除欄位。
若要編輯值,請在一個或多個值上按一下滑鼠右鍵或按住 Ctrl 並按一下 (MacOS),然後選取「編輯值」,接著輸入新值。您也可以選取「取代為 Null」將值取代為 Null 值,或在單個欄位中按兩下以直接對其進行編輯。有關編輯欄位值的詳情,請參閱編輯欄位值。
- 在「設定檔」窗格、「摘要」窗格或資料網路中查看這些操作的結果。
大量重新命名欄位
支援 Tableau Prep Builder 版本 2021.2.1 及以上。Tableau Server 和 Tableau Cloud 版本 2021.2 及更高版本的 Web 版 Tableau Prep 支援。
使用「重新命名欄位」選項大量重新命名多個欄位。搜尋欄位名稱的一部分以取代或移除它,或者為資料集中所有或選定欄位新增首碼或尾碼。
在進行變更時選取「自動重新命名新欄位」核取方塊,還可以自動將相同的變更套用於將來新增的任何符合條件的欄位。
注意:此選項僅在「清理」步驟類型中可用。
在「清理」步驟中,從工具列中選取「重新命名欄位」。
檢視會自動轉換為顯示流程中所有欄位的「清單檢視」。可以使用工具列中的「搜尋」選項來縮小結果範圍。
所有欄位預設情況下處於選定狀態。清除頂部核取方塊可清除選取所有欄位,從而僅手動選取要變更的欄位。
- 在「重新命名欄位」窗格中,從以下選項中進行選取:
「取代文字」:在「璇找文字」欄位中,使用「搜尋選項調整搜尋內容」尋找相符文字,然後在「取代」欄位中輸入取代文字。要尋找空格,請在「尋找文字」欄位中按空白鍵。
注意:重新命名欄位不會導致空白或重複的欄位名稱。
- 新增首碼:將文字新增到所有選定欄位名稱的開頭。
新增尾碼:在所有選定欄位名稱的末尾新增文字。
輸入時,結果將顯示在清單檢視窗格中。
- (可選)選取自動重新命名新欄位以在重新整理資料時自動將這些相同的變更套用到符合取代條件的新欄位。
按一下「重新命名」以套用變更並關閉窗格。「重新命名」按鈕顯示受變更影響的欄位數。
查看您所做的變更
不同類型的清理操作由流程中步驟上的圖示表示。如果向步驟應用了超過四種類型的操作,則步驟上會顯示省略號。將游標暫停在這些圖示上即可查看顯示所應用的操作及其執行順序的注釋。
從 Tableau Prep Builder 版本 2019.1.3 和更高版本以及 Web 版本開始,可以按一下「流程」窗格中某一步的變更圖示上的註釋,或者按一下「設定檔」或「結果」窗格中設定檔卡上的變更圖示上的註釋,然後其影響的變更和欄位將會在「變更」窗格以及「設定檔」或「結果」窗格中反白顯示。
也可以選取步驟,然後展開「變更」窗格以檢視每個變更的詳細資訊、編輯或移除變更,將變更向上或向下拖動以變更其套用順序,並新增說明以向其他使用者提供內容。有關對變更新增說明的詳情,請參閱對流程步驟和清除動作新增說明(連結在新視窗開啟)。
清理注釋 | 「變更」窗格 |
---|---|
在「彙總」、「樞紐」、「聯結」或「聯集」步驟中查看變更時,變更的應用順序會在調整動作之前或之後顯示。這些變更的順序由系統應用,無法變更。您可以編輯和移除變更。
合併欄位
如果欄位包含的值相同,但名稱不同,您可以透過將一個欄位拖到另一個欄位上,輕鬆地將它們合併為單個欄位。在合併欄位時,目標欄位將成為主欄位,並且目標欄位的欄位名稱保持不變。合併到目標欄位的欄位會被移除。
範例:
輸入聯集產生 3 個具有相同值的欄位 | 將 3 個欄位合併為 1 個欄位 |
合併欄位時,Tableau Prep 會保留目標欄位中的所有欄位,並將該欄位中的任何 null 值取代為您與目標欄位合併的源欄位中的值。源欄位會被移除。
範例
Name | Contact_Phone | Business_Phone | Cell_Phone | Home_Phone |
Bob | 123-4567 | 123-4567 | 空 | 空 |
Sally | 空 | 空 | 456-7890 | 789-0123 |
Fred | 空 | 空 | 空 | 567-8901 |
Emma | 空 | 234-5678 | 345-6789 | 空 |
如果將 Business _Phone、Cell_Phone 和 Home_Phone 欄位與 Contact_phone 欄位合併,則會移除其他欄位並產生以下內容:
Name | Contact_Phone |
Bob | 123-4567 |
Sally | 456-7890 |
Fred | 567-8901 |
Emma | 234-5678 |
若要合併欄位,請執行以下操作之一:
將一個欄位拖放到另一個欄位上。將顯示「放置以合併欄位」指示符。
選取多個欄位,並在所選範圍內以滑鼠右鍵按一下以開啟內容功能表 ,然後按一下「合併欄位」。
選取多個欄位,然後在工具列上按一下「合併欄位」。
有關如何修正聯集所產生的不匹配欄位的資訊,請參閱修正不匹配的欄位。
使用建議套用清理操作
有時可能很難確定您需要使用哪些清理操作來修正資料中的問題。Tableau Prep 能夠分析資料並建議可自動套用的清理操作,以快速修正資料欄位中的問題,或是找出問題方便您修正。除「輸入」、「輸出」和「聯結」步驟類型外的所有步驟類型中提供了此功能。
附註:在 Tableau Prep Builder 中,若不想使用此功能,可以將其關閉。從頂端功能表中,轉到「說明」>「設定和效能」。然後按一下「啟用建議」以清除設定旁邊的核取記號。
建議類型包括:
資料角色
篩選器
- 分組值(從 Tableau Prep Builder 版本 2019.2.3 以及 Web 版本開始,也適用於資料角色欄位)
將欄樞紐為列(Tableau Prep Builder 版本 2019.4.2 和更高版本以及 Web 版本)
- 將值取代為 Null 值
移除欄位
拆分(Tableau Prep Builder 版本 2019.1.1 和更高版本以及 Web 版本)
附注:此選項特別適用於固定寬度類型文字檔案中的資料。若要使用具有此檔案類型的分割建議,在連線至資料來源之後,請在「輸入步驟」的 「文字設定」索引標籤中,選取資料中未使用的 「欄位分隔符號」,這樣資料就會以單一欄位的形式載入。
剪裁空格
套用建議
執行以下操作之一:
- 按一下設定檔卡右上角中的燈泡 圖示。
- 從工具列中按一下「建議」下拉式清單箭頭,檢視有關您的資料集合的所有建議,並從清單中選取一項建議。
僅當 Tableau Prep 識別建議的變更時,此選項才會出現。
若要應用建議,請將滑鼠指標暫停在「建議」卡上,然後按一下「套用」 。
系統會自動應用變更,並向「變更」窗格中新增一個條目。若要移除變更,請在頂端功能表中按一下「復原」,或將滑鼠指標暫停在「變更」窗格中的變更上,並按一下「X」將其移除。
如果將建議套用至樞紐欄位,則會自動建立樞紐步驟,您可以在其中執行任何其他樞紐動作(例如重新命名樞紐欄位)或在其他欄位上進行樞紐。
如果 Tableau Prep 因為所做變更而確定了進一步的建議,則燈泡圖示會一直顯示在「設定檔」卡上,直至找不到進一步的建議為止。
重複上面的步驟以套用任何其他變更或忽略建議的變更,並使用其他清理工具來解決資料問題。
編輯欄位值
相同值的多個變體可能會讓您無法準確地匯總資料。可以使用以下選項快速輕鬆地修正這些變體。
附註:對值進行的任何編輯都必須與欄位資料類型相容。
編輯單個值
在「設定檔」卡中,按一下要編輯的值,並輸入新值。值旁邊將顯示一個組圖示 。
或者,以滑鼠右鍵按一下值並按一下「編輯值」。變更記錄在螢幕左側的「變更」窗格中。
在「設定檔」窗格和資料網格中檢視結果。
編輯多個值
可透過多個選項來一次性編輯多個值。例如,使用快速清理操作來移除欄位中所有值的標點符號、使用多選手動將值分組、使用可找到類似值的模糊匹配演算法自動將值分組在一起,或者選取多個值並將它們取代為 Null。
附註:將多個值映像到單個值時,原始欄位會在值旁邊顯示一個分組圖示 ,顯示哪些值分組在一起。
使用快速清理操作編輯多個值
此選項僅適用于文字欄位。
在「設定檔」窗格、「結果」窗格或資料網格中,選取要編輯的欄位。
按一下「更多選項」,選取「清理」,然後選取以下選項之一:
設為大寫:將所有值變更為大寫文字。
設為小寫:將所有值變更為小寫文字。
設為標題大小寫:將所有值變更為標題文字。
移除字母:移除所有字母並僅保留其他字元。
移除數字:移除所有數位並保留字母和其他字元。
移除標點符號:移除所有標點符號。
剪裁空格:移除開頭和尾端空格。
- 移除額外的空格:移除開頭和尾端空格,以及將字元之間的額外空格取代為單一空格。
- 移除所有空格:移除所有空格,包括開頭和尾端空格以及字元之間的任何空格。
您可以累加操作,以將多個清理操作應用於欄位。例如,首先選取「清理」>「移除數字」,然後選取「清理」>「移除標點符號」以從欄位值中移除所有數字和標點符號。
若要復原變更,請按一下「流程」窗格頂端的「復原」箭頭,或從變更清單中移除變更。
以內聯方式編輯分組或多個值
使用此選項可手動選取多個值,並在設定檔卡片中,在標準值下分組值。要使用其他方法分組值,請參閱手動將多個值對應至標準值及使用模糊比對將值自動映像到標準值。
在「設定檔」卡中,選取要編輯的欄位。
按住 Ctrl 或 Shift 再按一下,或是按住 Command 或 Shift 再按一下 (MacOS),然後選取要分組的值。
以滑鼠右鍵按一下,並從內容功能表中選取「分組」。您以滑鼠右鍵按一下的所選內容中的值將成為新群組的預設名稱,但您可以對此名稱進行內聯編輯。
若要編輯群組名稱,請選取分組的欄位並編輯值,或者以滑鼠右鍵按一下或按住 Ctrl 按一下 (Mac) 分組的欄位並從內容功能表中選取「編輯值」。
若要取消分組已分組的欄位值,請以滑鼠右鍵按一下分組的欄位,並從內容功能表中選取「取消分組」。
將一個或多個值取代為 Null
如果有要包括在分析中的資料列,但想要排除特定欄位值,您可以將這些值變更為 Null 值。
在設定檔卡中,按 Ctrl 或按一下 Shift 或 Command 或按一下 Shift(Mac 上),並選取要變更的值
以滑鼠右鍵按一下或按住 Ctrl 按一下 (Mac),並從功能表中選取「取代為 Null」。值將變更為 Null,並且值旁邊會顯示分組圖示 。
手動將多個值對應至標準值
使用「分組值」(在以前的版本中為「分組和取代」)將欄位的值從一個值映像到另一個值,或者手動選取多個值以對這些值進行分組。您甚至可以新增新值,設定映像關係來組織資料。
例如,假設欄位中有三個值:「My Company」、「My Company Incorporated」和「My Company Inc」。所有這些值都表示同一公司,即「My Company」。您可以使用「分組值」將值「My Company Incorporated」和「My Company Inc」與「My Company」對應,以便在該欄位中顯示的三個值均為「My Company」。
將多個值映像到單個所選欄位
在「設定檔」窗格或「結果」窗格中,選取要編輯的欄位。
按一下「更多選項」,並從功能表中選取「分組值」(在以前的版本中為「分組和取代」)>「手動選取」。
在「分組值」編輯器的左側窗格中,選取要用作分組值的欄位值。此值現在顯示在右側窗格的頂端。
在「分組值」編輯器右側窗格的下半部分中,選取要新增到該組的值。
若要從組中移除值,請在「分組值」編輯器右側窗格的上半部分中,清除值旁邊的核取方塊。
透過選取多個值來建立組
在「設定檔」窗格或「結果」窗格中,選取要編輯的欄位。
按一下「更多選項」,並從功能表中選取「分組值」(在以前的版本中為「分組和取代」)>「手動選取」。
在「分組值」編輯器的左側窗格中,選取要分組的多個值。
在「分組值」編輯器的右側窗格中,按一下「將值分組」。
將會使用最後一個所選的值作為組名稱建立一個新組。若要編輯群組名稱,請選取分組的欄位並編輯值,或者以滑鼠右鍵按一下或按住 Ctrl 按一下 (MacOS) 分組的欄位並從功能表中選取「編輯值」。
新增和標識不在資料集中的值
如果要將資料集中的值映像到不存在的新值,您可以使用「分組值」(在以前的版本中為「分組和取代」)來新增該值。為了輕鬆識別資料集中沒有的任何值,這些值在「分組值」編輯器中的值名稱旁邊帶有紅點標記。
例如在下圖中,Wyoming 和 Nevada 不在資料集中。
資料集中之所以可能沒有某個值,可能有以下一些原因:
您剛剛手動新增了新值。
值不再在資料中。
值在資料中,但不在抽樣資料集中。
新增新值:
在「設定檔」窗格或「結果」窗格中,選取要編輯的欄位。
按一下「更多選項」,並從內容功能表中選取「分組值」(在以前的版本中為「分組和取代」)>「手動選取」。
在「分組值」編輯器的左側窗格中,按一下加號 以新增新值。
在欄位中鍵入新值,並按 Enter 新增該值。
在右側窗格中,選取要映像到新值的值。
- (可選)若要向映像的值中新增其他新值,請按一下「分組值」編輯器右側窗格中的加號 按鈕。
使用模糊比對將值自動映像到標準值
若要搜尋類似的值並對其進行自動分組,請使用模糊匹配演算法之一。欄位值依據最頻繁出現的值進行分組。查看分組的值,並根據需要在群組中新增或移除值。
如果您使用資料角色來驗證您的欄位值,可以使用「分組值」(在以前的版本中為「分組和取代」)選項,讓無效值和有效值相互比對。有關詳情,請參閱按資料角色分組類似值(連結在新視窗開啟)
選取以下選項之一對值進行分組:
發音:查找發音類似的值並對其進行分組。此選項使用 Metaphone 3 演算法,該演算法按單詞的發音對單詞編制索引,最適合於英語單詞。許多常用的拼寫檢查器都使用這種類型的演算法。此選項不適用於資料角色。
常用字符:查找具有共同字母或數位的值並對其進行分組。此選項使用 ngram 指紋演算法,該演算法按單詞移除標點符號、重複字元和空格之後的唯一字元對單詞編制索引。此演算法適合於任何支援的語言。此選項不適用於資料角色。
例如,此演算法將匹配表示為「John Smith」和「Smith, John」的名稱,因為它們均產生鍵「hijmnost」。由於此演算法不考慮發音,因此值「Tom Jhinois」將具有相同的鍵「hijmnost」,並也會包括在群組中。
拼寫:查找拼寫類似的值並對其進行分組。此選項使用 Levenshtein 距離演算法,使用固定預設閾值來計算兩個文字值之間的編輯距離。當編輯距離小於閾值時,則將這兩個值分組在一起。此演算法適合於任何支援的語言。
從 Tableau Prep Builder 版本 2019.2.3 和 Web 版本開始,便可在套用資料角色之後使用此選項。在這種情況下,會使用編輯距離將無效的值匹配至最接近的有效值。如果資料集樣本中沒有標準值,Tableau Prep 會自動新增該值,並將該值標記為不在原始資料集中。
發音與拼字:(Tableau Prep Builder 版本 2019.1.4 和更高版本以及 Web 版本)如果將資料角色指派至欄位,則可以使用該資料角色將值與資料角色所定義的標準值進行比對和分組。此選項將根據拼字和發音將無效值與大部份類似值進行比對。如果資料集樣本中沒有標準值,Tableau Prep 會自動新增該值,並將該值標記為不在原始資料集中。這個選項最適用於英文字。
有關詳情,請參閱清理和調整資料。想瞭解更多關於這些模糊比對演算法的資訊嗎?請參閱 Tableau.com 上 Tableau Prep Builder 中的自動分組(連結在新視窗開啟)
附註:在 Tableau Prep Builder 版本 2019.1.4 和 2019.2.1 中,此選項會標示為「資料角色比對」。
使用模糊匹配分組類似值
在「設定檔」窗格或「結果」窗格中,選取要編輯的欄位。
按一下「更多選項」並選取「分組值」,然後選取以下選項之一:
發音
常用字符
拼寫
Tableau Prep Builder 將尋找匹配的值並對其進行分組,並將它們取代為組中出現最頻繁的值。
查看分組,並根據需要手動新增或移除值或對其進行編輯。然後按一下「完成」。
分組欄位值時調整結果
如果按「拼字」或「發音」分組類似值,您可以透過使用欄位上的滑桿調整分組參數的嚴格程度來變更結果。
根據您設定滑桿的方式,您可以更好地控制群組包含的值數量以及建立的群組數量。預設情況下,Tableau Prep 會偵測最佳分組設定,並在該位置顯示滑桿。
變更閾值時,Tableau Prep 會分析值樣本,以確定新分組。設定產生的分組儲存並記錄在「變更」窗格中,但不儲存閾值設定。下次開啟「分組值」編輯器時,無論是編輯現有變更或執行新的變更,均會在預設位置顯示閾值滑桿,以便您根據目前資料集進行調整。
在「設定檔」窗格或「結果」窗格中,選取要編輯的欄位。
按一下「更多選項」並選取「分組值」(在以前的版本中為「分組和取代」),然後選取以下選項之一:
發音
拼寫
Tableau Prep 會查找匹配的值並對其進行分組,並將它們取代為群組中出現最頻繁的值。
在「分組值」編輯器的左側窗格中,將滑桿拖曳到 5 個閾值層級之一以變更結果。
若要設定更嚴格的閾值,請將滑桿移至左側。這樣做會減少相符項目並建立更少的群組。若要設定更寬鬆的閾值,請將滑桿移至右側。這樣做會增加相符項目並建立更多的群組。
- 按一下「完成」儲存所做的變更。