清理和調整資料

Tableau Prep Builder 提供各種立即可用的清除操作,讓您清除和調整資料。清除已變更的資料可讓您輕鬆合併及分析資料,或讓其他人在共用資料集合時更容易了解資料內容。

您也可以使用樞紐分析步驟或指令碼步驟清除資料,將 R 或 Python 指令碼套用至流程。如需詳細資訊,請參閱樞紐您的資料在流程中使用 R 和 Python 指令碼

關於清除操作

您透過應用諸如篩選、新增、重命名、拆分、分組或移除欄位等清理操作來清理資料。在以前的版本中,清理操作只能在「清理步驟」類型中執行。在 Tableau Prep Builder 版本 2018.2.1 及更新版本中,您還可以在清理步驟的資料網格中執行清理操作。

在Tableau Prep Builder 版本 2018.3.1 及更新版本中,您可以在流程中的大多數步驟類型中執行清理操作。您可以在輸入步驟中套用清除作業,但有其限制,至於輸出步驟則是不能套用清除作業。有關在輸入步驟中套用清除作業的詳細資訊,請參閱在輸入步驟中套用清理操作

可用的清除操作

下表顯示了在每個步驟類型中可以執行哪些清理操作:

  輸入 清理 彙總 樞紐 聯結 聯集 輸出
篩選器 X X X X X X  
分組和取代   X   X X X  
清理   X   X X X  
拆分值   X   X X X  
重命名欄位 X X X X X X  
複製欄位   X   X X X  
僅保留欄位 X X X X X X  
移除欄位 X X X X X X  
建立計算欄位   X   X X X  
編輯值   X   X X X  
變更資料類型 X X X X X X  

對資料進行變更時,將會向「流程」窗格中的對應步驟中新增注釋,並會在「變更」窗格中新增一個條目來跟蹤您的動作。如果在「輸入」步驟中進行變更,則注釋會顯示在「流程」窗格中步驟的左側,並也會顯示在欄位清單的「輸入設定」中。

您應用變更的順序很重要。在「彙總」、「樞紐」、「聯結」和「聯集」步驟類型中進行的變更會在這些調整動作之前或之後執行,具體情況取決於您進行變更時欄位的位置。進行變更的位置顯示在步驟的「變更」窗格中。

下列範例顯示聯結步驟中單一表格的欄位變更。為了提供更正後的結果,變更操作是在加入動作之前執行。

操作順序

以下表顯示了「彙總」、「樞紐」、「聯結」和「聯集」步驟中清理動作的執行位置,具體情況取決於欄位在步驟中的何處。

動作 步驟類型: 彙總 彙總 樞紐 樞紐 聯結 聯結 聯集 聯集
  欄位位置: 分組欄位 彙總欄位 不在樞紐中 從樞紐建立 包含在單一資料表中* 包含在兩個資料表中* 不匹配欄位 合併欄位
篩選器   彙總之前 彙總之後 樞紐之前 樞紐之後 聯結之前 聯結之後 聯集之前 聯集之後
分組和取代   不適用 不適用 樞紐之前 樞紐之後 聯結之前 聯結之後 聯集之前 聯集之後
清理   不適用 不適用 樞紐之前 樞紐之後 聯結之前 聯結之後 聯集之前 聯集之後
拆分值   不適用 不適用 樞紐之前 樞紐之後 聯結之前 聯結之後 聯集之前 聯集之後
重命名欄位   彙總之前 彙總之後 樞紐之前 樞紐之後 聯結之前 聯結之後 聯集之前 聯集之後
複製欄位   不適用 不適用 樞紐之前 樞紐之後 聯結之前 聯結之後 聯集之前 聯集之後
僅保留欄位   彙總之後 彙總之後 樞紐之前 樞紐之後 聯結之前 聯結之後 聯集之前 聯集之後
移除欄位   從彙總中移除 從彙總中移除 樞紐之前 樞紐之後 聯結之前 聯結之後 聯集之前 聯集之後
建立計算欄位   不適用 不適用 樞紐之前 樞紐之後 聯結之後 聯結之後 聯集之前 聯集之後
編輯值   不適用 不適用 樞紐之前 樞紐之後 聯結之前 聯結之後 聯集之前 聯集之後
變更資料類型   彙總之前 彙總之後 樞紐之前 樞紐之後 聯結之前 聯結之前 聯集之前 聯集之後

附註:對於聯結,如果欄位是使用一個表中的欄位建立的計算欄位,則在聯結之前應用變更。如果欄位是同時使用兩個表中的欄位建立的,則在聯結之後應用變更。

套用清理作業

若要對欄位套用清除操作,請使用工具列選項,或在欄位設定檔卡、資料格或「結果」窗格上按一下「更多選項」,開啟功能表。

在「彙總」、「樞紐」、「聯結」和「聯集」步驟類型中,可以在「結果」窗格和對應的資料網格中的設定檔卡上找到「更多選項」功能表。如果您會在整個流程中不斷重複執行同樣的清除操作或動作,可以複製並貼上步驟、動作或甚至是欄位。如需詳細資訊,請參閱複製步驟、動作和欄位

「設定檔」窗格工具列 下拉式功能表

選取檢視

您可以在資料網格或清單檢視的設定檔或結果窗格外執行清理作業。使用檢視工具列 (版本 2019.3.2 及更新版本)變更您的檢視,然後在欄位上按一下「更多選項」以開啟清理功能表。

  • 顯示設定檔窗格 :這是預設檢視。選取此按鈕即可返回「設定檔」窗格或「結果」窗格檢視。

  • 顯示資料網格 :折疊設定檔或結果窗格以展開並只顯示資料網格。此檢視可讓您檢視更詳細的資料畫面,在您需要處理特定欄位值時非常實用。選取此選項後,您流程的所有步驟都會維持此檢視狀態,但您可以隨時變更。

    附註:並非所有清理操作都可在資料網格中使用。舉例來說,如果對值進行內聯編輯,則必須在「設定檔」窗格中執行此操作。

  • 顯示清單檢視 (版本 2019.3.2 及更新版本):將設定檔窗格或結果窗格轉換為清單。選取此選項後,您流程的所有步驟都會維持此檢視狀態,但您可以隨時變更。

    您可以選取多個列,然後按一下「X」來將其移除,或使用「更多選項」功能表來將作業套用到選取的欄位。若您為欄位指派資料角色,或是選取「篩選條件」「分組和取代」「清理」「拆分值」,系統會帶您返回「設定檔」或「結果」檢視以完成這些動作。其他所有選項都可以在清單檢視執行。

版本 2019.3.1 及更早版本

您還可以在資料網格中套用清理作業。只要按一下「隱藏設定檔窗格」按鈕摺疊「設定檔」窗格,然後在欄位上按一下「更多選項」,即可開啟功能表。

套用清理作業

若要將清除操作套用至欄位,請執行下列操作:

附註:自版本 2019.3.2 起,您可以在清單檢視中執行清理作業。

  1. 「設定檔」窗格、資料網格、「結果」窗格或清單檢視中,選取要進行變更的欄位。

  2. 從工具列或欄位的「更多選項」功能表中,選取下列選項:

    • 「篩選」「篩選值」:選取其中一個篩選條件選項,在欄位值上按一下滑鼠右鍵或按住 Ctrl 並按一下 (MacOS),以保留或排除值。您也可以使用「選定值」篩選條件來選擇要篩選的值,包括不在流程樣本中的值。有關篩選條件選項的詳情,請參閱篩選資料

    • 分組和取代:手動選取值或使用自動分組。您也可以在設定檔卡中選取多個值,然後按一下滑鼠右鍵或按住 Ctrl 並按一下 (MacOS),為值分組或取消分組,或者編輯群組值。有關使用群組和取代的詳情,請參閱使用模糊比對將值自動映像到標準值

    • 清理:從快速清理操作清單中進行選取,以便應用於欄位中的所有值。

    • 分割值:根據一般分隔符號自動分隔值,或使用自訂分割來指定分割欄位值的方式。

      自動分割和自訂分割的方式與 Tableau Desktop 中的操作方式相同。有關詳細資訊,請參閱 Tableau Desktop 和 Web 製作說明中的將欄位拆分為多個欄位

    • 重命名欄位

    • 「複製欄位」(版本 2019.2.3 及更新版本)建立欄位和值的副本。

    • 僅保留欄位(版本 2019.2.2 及更新版本)

    • 建立計算欄位

    • 「移除」(舊版是「移除欄位」

      附註:自版本 2019.3.1 起,您可以使用「以資料來源發佈」選項,建立可套用至欄位的自訂資料角色,以在清除資料時驗證欄位值。有關此選項的詳情,請參閱建立自訂資料角色(版本 2019.3.1 及更新版本)

  3. 若要編輯值,請在一個或多個值上按一下滑鼠右鍵或按住 Ctrl 並按一下 (MacOS),然後選取「編輯值」,接著輸入新值。您也可以選取「取代為 Null」將值取代為 Null 值,或在單個欄位中按兩下以直接對其進行編輯。有關編輯欄位值的詳情,請參閱編輯欄位值

  4. 「設定檔」窗格、「摘要」窗格或資料網路中查看這些操作的結果。

查看您所做的變更

不同類型的清理操作由流程中步驟上的圖示表示。如果向步驟應用了超過四種類型的操作,則步驟上會顯示省略號。將游標暫停在這些圖示上即可查看顯示所應用的操作及其執行順序的注釋。

Tableau Prep Builder 版本 2019.1.3 及更新版本開始,您可以按一下「流程」窗格中某一步的變更圖示上的註釋,或者按一下「設定檔」或「結果」窗格中設定檔卡上的變更圖示上的註釋,然後其影響的變更和欄位將會在「變更」窗格以及「設定檔」「結果」窗格中反白顯示。

您也可以選取步驟,然後展開「變更」窗格以查看每個變更的詳細資訊、編輯或移除變更,將變更向上或向下拖動以變更其應用順序,並且在 Tableau Prep Builder 版本 2019.1.1 中,您可以新增說明以向其他使用者提供內容。有關對變更新增說明的詳情,請參閱對流程步驟和清除動作新增說明

清理注釋 「變更」窗格

在「彙總」、「樞紐」、「聯結」或「聯集」步驟中查看變更時,變更的應用順序會在調整動作之前或之後顯示。這些變更的順序由系統應用,無法變更。您可以編輯和移除變更。

複製步驟、動作和欄位

在清理資料時,您通常會在整個流程中反復執行相同的清理操作或動作。為了提升資料清除和調整的效率,我們新增了在整個流程中複製和貼上這些操作或動作的功能,這樣執行清除操作或動作一次,就能在需要的地方重用該操作或動作。您甚至可以複製欄位,以實驗不同的清除操作。

複製和貼上步驟

複製一個或多個步驟以在相同流程的其他區域中使用它們。此選項不可用於包括萬用字元聯集的輸入步驟。

  1. 在「流程」窗格中,選取流程中的一個或多個步驟。

  2. 按一下滑鼠右鍵或按住 Ctrl 並按一下 (MacOS),然後選取「複製」

  3. 在畫布中的空白處按一下滑鼠右鍵或按住 Ctrl 並按一下 (MacOS),然後按一下「貼上」

  4. 將步驟拖放流程中要放置步驟的位置。視複製的步驟及希望新增步驟的位置而定,可能需要移除流程線或移動步驟。舉例來說,若要將步驟連接至複製的步驟,請移除現有的流程線,然後將現有的步驟拖曳到新的步驟,然後放入「新增」

    有關組織流程的詳情,請參閱重新組織流程配置(版本 2019.2.2 及更新版本)

複製並貼上清除操作

您可以透過以下選項,在相同流程中複製及貼上清理作業,藉此重複使用動作:

  • 從一個步驟的「變更」窗格中複製操作,然後將該步驟貼至同一個步驟或另一個步驟的「變更」窗格,即可在該步驟中套用相同的操作。
  • 「變更」窗格將一個操作拖放到該步驟「設定檔」窗格中的其他欄位,即可在多個欄位中套用相同的操作。此選項不可用於影響多個欄位(例如計算欄位)的操作。
  1. 「變更」窗格中,選取要複製的變更。
  2. 在變更項目上按一下滑鼠右鍵或按住 Ctrl 並按一下 (MacOS),然後選取功能表中的「複製」

  3. 在要貼上變更的「變更」窗格中,按一下滑鼠右鍵或按住 Ctrl 並按一下 (MacOS),然後選擇「貼上」。選取變更,然後按一下「編輯」,視需要加以調整。

若要將變更拖放到步驟的其他欄位,請執行下列操作:

  1. 「變更」窗格中,選取要複製的變更。
  2. 將變更拖放到要套用變更的欄位上。視需要重複此動作。

複製欄位(版本 2019.2.3 及更新版本)

如果您想在欄位中實驗清除操作,但不想變更原始資料,可以複製欄位。

  1. 在設定檔窗格、資料網格、結果窗格或清單檢視中,選取要複製的欄位。

  2. 「其他選項」功能表中選取「複製欄位」

使用相同名稱和輔助按鍵建立新欄位。例如「Ship Date -1」。

建立可重複使用的流程步驟(版本 2019.3.2 及更新版本)

若您經常在處理資料時重複執行相同動作,並想在其他流程中套用這些相同的步驟,可以選取一個或多個流程步驟和其相關動作,或是選取整個流程,然後將其儲存到電腦的本機檔案,或發佈至 Tableau ServerTableau Online 與他人共用。流程步驟發佈到您的伺服器時,系統會自動新增「已儲存步驟」標籤,讓您在新增步驟到流程時能輕鬆搜尋並找到這些步驟。

建立可重複使用的步驟

  1. 選取一個或多個步驟。

  2. 以滑鼠右鍵按一下所選的步驟,並選取「儲存步驟為流程」

  3. 選取「儲存到檔案」來將流程儲存到本機,或選取「發佈到伺服器」以將流程發佈到 Tableau ServerTableau Online

  4. 若您將流程發佈到 Tableau ServerTableau Online,請視需要登入您的伺服器,填寫「發佈流程」對話方塊中的欄位,然後按一下「發佈」

在流程中插入可重複使用的步驟

  1. 開啟流程。

  2. 在流程窗格內,以滑鼠右鍵按一下或按住 Ctrl 並按一下 (MacOS) 畫布的白色區域,然後按一下「插入流程」,或在頂端功能表按一下「編輯」>「插入流程」

  3. 「新增流程」對話方塊中,選取儲存到本機檔案或伺服器的流程,然後按一下「新增」。系統會自動篩選流程清單,藉此顯示附有「已儲存步驟」標籤的流程。若要插入其他流程,請將「流程類型」變更為「所有流程」

  4. 流程將會新增至流程窗格。您可在流程中自由移動步驟及修正任何錯誤。

合併欄位

如果欄位包含的值相同,但名稱不同,您可以透過將一個欄位拖到另一個欄位上,輕鬆地將它們合併為單個欄位。在合併欄位時,目標欄位將成為主欄位,並且目標欄位的欄位名稱保持不變。合併到目標欄位的欄位會被移除。

範例:

萬用字元聯集產生 3 個具有相同值的欄位 將 3 個欄位合併為 1 個欄位

合併欄位時,Tableau Prep Builder 會保留目標欄位中的所有欄位,並將該欄位中的任何 null 值取代為您與目標欄位合併的源欄位中的值。源欄位會被移除。

範例

Name Contact_Phone Business_Phone Cell_Phone Home_Phone
Bob 123-4567 123-4567
Sally 456-7890 789-0123
Fred 567-8901
Emma 234-5678 345-6789

如果將 Business _PhoneCell_PhoneHome_Phone 欄位與 Contact_phone 欄位合併,則會移除其他欄位並產生以下內容:

Name Contact_Phone
Bob 123-4567
Sally 456-7890
Fred 567-8901
Emma 234-5678

若要合併欄位,請執行以下操作之一:

  • 將一個欄位拖放到另一個欄位上。將顯示「放置以合併欄位」指示符。

  • 選取多個欄位,並在所選範圍內以滑鼠右鍵按一下以開啟內容功能表 ,然後按一下「合併欄位」

  • 選取多個欄位,然後在工具列上按一下「合併欄位」

有關如何修正合併所產生的不匹配欄位的資訊,請參閱修正不匹配的欄位

採用建議套用清除操作(版本 2018.3.2 及更新版本)

有時可能很難確定您需要使用哪些清理操作來修正資料中的問題。Tableau Prep Builder 能夠分析資料並建議可自動套用的清除操作,快速修正資料欄位中的問題,或是找出問題方便您修正。除「輸入」、「輸出」和「聯結」步驟類型外的所有步驟類型中提供了此功能。

附註:如果不想使用此功能,您可以將其關閉。從頂端功能表中,轉到「說明」>「設定和效能」。然後按一下「啟用建議」以清除設定旁邊的核取記號。

建議類型包括:

  • 資料角色

  • 分組和取代(自版本 2019.2.3 開始,也適用於資料角色欄位)
  • 篩選器

  • 將值取代為 Null 值

  • 移除欄位

  • 分割(版本 2019.1.1 及更新版本)

    附注:此選項特別適用於固定寬度類型文字檔案中的資料。若要使用具有此檔案類型的分割建議,在連線到資料來源之後,請在「輸入步驟」的 「文字設定」索引標籤中,選取資料中未使用的 「欄位分隔符號」,這樣資料就會以單一欄位的形式載入。

  • 剪裁空格

套用建議

  1. 執行以下操作之一:

    • 按一下設定檔卡右上角中的燈泡 圖示。
    • 從工具列中按一下「建議」下拉式清單箭頭,檢視有關您的資料集合的所有建議,並從清單中選取一項建議。

    只有在 Tableau Prep Builder 識別建議的變更時,此選項才會出現。

  2. 若要應用建議,請將滑鼠指標暫停在「建議」卡上,然後按一下「套用」

    系統會自動應用變更,並向「變更」窗格中新增一個條目。若要移除變更,請在頂端功能表中按一下「復原」,或將滑鼠指標暫停在「變更」窗格中的變更上,並按一下「X」將其移除。

  3. 如果 Tableau Prep Builder 因為所做變更而確定了進一步的建議,則燈泡圖示會一直顯示在「設定檔」卡上,直至找不到進一步的建議為止。

    重複上面的步驟以套用任何其他變更或忽略建議的變更,並使用 Tableau Prep Builder 中的其他清理工具來解決資料問題。

編輯欄位值

相同值的多個變體可能會讓您無法準確地匯總資料。可以在 Tableau Prep Builder 中使用以下選項快捷輕鬆地糾正這些變化。

附註:對值進行的任何編輯都必須與欄位資料類型相容。

編輯單個值

  1. 「設定檔」卡中,按一下要編輯的值,並輸入新值。值旁邊將顯示一個組圖示

    或者,以滑鼠右鍵按一下值並按一下「編輯值」。變更記錄在螢幕左側的「變更」窗格中。

  2. 「設定檔」窗格和資料網路中查看結果。

編輯多個值

可透過多個選項來一次性編輯多個值。例如,使用快速清理操作來移除欄位中所有值的標點符號、使用多選手動將值分組、使用可找到類似值的模糊匹配演算法自動將值分組在一起,或者選取多個值並將它們取代為 Null。

附註:將多個值映像到單個值時,原始欄位會在值旁邊顯示一個分組圖示 ,顯示哪些值分組在一起。

使用快速清理操作編輯多個值

此選項僅適用于文字欄位。

  1. 「設定檔」窗格、「結果」窗格或資料網格中,選取要編輯的欄位。

  2. 按一下「更多選項」,選取「清理」,然後選取以下選項之一:

    • 設為大寫:將所有值變更為大寫文字。

    • 設為小寫:將所有值變更為小寫文字。

    • 移除字母:移除所有字母並僅保留其他字元。

    • 移除數字:移除所有數位並保留字母和其他字元。

    • 移除標點符號:移除所有標點符號。

    • 剪裁空格:移除前導和尾隨空格。

    您可以累加操作,以將多個清理操作應用於欄位。例如,首先選取「清理」>「移除數字」,然後選取「清理」>「移除標點符號」以從欄位值中移除所有數字和標點符號。

  3. 若要復原變更,請按一下「流程」窗格頂端的「復原」箭頭,或從變更清單中移除變更。

以內聯方式編輯分組或多個值

  1. 「設定檔」卡中,選取要編輯的欄位。

  2. 按住 Ctrl 或 Shift 再按一下,或是按住 Command 或 Shift 再按一下 (MacOS),然後選取要分組的值。

  3. 以滑鼠右鍵按一下,並從內容功能表中選取「分組」。您以滑鼠右鍵按一下的所選內容中的值將成為新群組的預設名稱,但您可以對此名稱進行內聯編輯。

  4. 若要編輯群組名稱,請選取分組的欄位並編輯值,或者以滑鼠右鍵按一下或按住 Ctrl 按一下 (Mac) 分組的欄位並從內容功能表中選取「編輯值」

  5. 若要取消分組已分組的欄位值,請以滑鼠右鍵按一下分組的欄位,並從內容功能表中選取「取消分組」

將一個或多個值取代為 Null

如果有要包括在分析中的資料列,但想要排除特定欄位值,您可以將這些值變更為 Null 值。

  1. 設定檔卡中,按 Ctrl 或按一下 Shift 或 Command 或按一下 Shift(Mac 上),並選取要變更的值

  2. 以滑鼠右鍵按一下或按住 Ctrl 按一下 (Mac),並從功能表中選取「取代為 Null」。值將變更為 Null,並且值旁邊會顯示分組圖示

手動將多個值對應至標準值

使用「分組和取代」將欄位的值從一個值映像到另一個值,或者手動選取多個值以對這些進行分組。您甚至可以新增新值,設定映像關係來組織資料。

例如,假設欄位中有三個值:「My Company」、「My Company Incorporated」和「My Company Inc」。所有這些值都表示同一公司,即「My Company」。您可以使用「分組和取代」將值「My Company Incorporated」和「My Company Inc」映像到「My Company」,以便所有三個值在欄位中都顯示為「My Company」。

將多個值映像到單個所選欄位

  1. 「設定檔」窗格或「結果」窗格中,選取要編輯的欄位。

  2. 按一下「更多選項」,並從功能表中選取「分組和取代」>「手動選取」

  3. 「分組和取代」編輯器的左側窗格中,選取要用作分組值的欄位值。此值現在顯示在右側窗格的頂端。

  4. 「分組和取代」編輯器右側窗格的下半部分中,選取要新增到組的值。

    若要從組中移除值,請在「分組和取代」編輯器右側窗格的上半部分中,清除值旁邊的核取方塊。

透過選取多個值來建立組

  1. 「設定檔」窗格或「結果」窗格中,選取要編輯的欄位。

  2. 按一下「更多選項」,並從功能表中選取「分組和取代」>「手動選取」

  3. 「分組和取代」編輯器的左側窗格中,選取要分組的多個值。

  4. 「分組和取代」編輯器的右側窗格中,按一下「將值分組」

    將會使用最後一個所選的值作為組名稱建立一個新組。若要編輯群組名稱,請選取分組的欄位並編輯值,或者以滑鼠右鍵按一下或按住 Ctrl 按一下 (Mac) 分組的欄位並從功能表中選取「編輯值」

    新增和標識不在資料集中的值

    如果要將資料集中的值映像到不存在的新值,您可以使用「分組和取代」來新增該值。為了輕鬆識別資料集中沒有的任何值,這些值在「分組和取代」編輯器中的值名稱旁邊帶有紅點標記。

    例如在下圖中,Wyoming 和 Nevada 不在資料集中。

    資料集中之所以可能沒有某個值,可能有以下一些原因:

    • 您剛剛手動新增了新值。

    • 值不再在資料中。

    • 值在資料中,但不在抽樣資料集中。

    新增新值:

    1. 「設定檔」窗格或「結果」窗格中,選取要編輯的欄位。

    2. 按一下「更多選項」,並從內容功能表中選取「分組和取代」>「手動選取」

    3. 「分組和取代」編輯器的左側窗格中,按一下加號 以新增新值。

    4. 在欄位中鍵入新值,並按 Enter 新增該值。

    5. 在右側窗格中,選取要映像到新值的值。

    6. (可選)若要向映像的值中新增其他新值,請按一下「分組和取代」編輯器右側窗格中的加號 按鈕。

使用模糊比對將值自動映像到標準值

若要搜尋類似的值並對其進行自動分組,請使用模糊匹配演算法之一。欄位值依據最頻繁出現的值進行分組。查看分組的值,並根據需要在群組中新增或移除值。

如果您使用資料角色來驗證您的欄位值,可以使用「群組及取代」選項,讓無效值和有效值相互比對。有關詳情,請參閱按資料角色分組類似值

選取以下選項之一對值進行分組:

  • 發音:查找發音類似的值並對其進行分組。此選項使用 Metaphone 3 演算法,該演算法按單詞的發音對單詞編制索引,最適合於英語單詞。許多常用的拼寫檢查器都使用這種類型的演算法。此選項不適用於資料角色。

  • 常用字符:查找具有共同字母或數位的值並對其進行分組。此選項使用 ngram 指紋演算法,該演算法按單詞移除標點符號、重複字元和空格之後的唯一字元對單詞編制索引。此演算法適合於任何支援的語言。此選項不適用於資料角色。

    例如,此演算法將匹配表示為「John Smith」和「Smith, John」的名稱,因為它們均產生鍵「hijmnost」。由於此演算法不考慮發音,因此值「Tom Jhinois」將具有相同的鍵「hijmnost」,並也會包括在群組中。

  • 拼寫:查找拼寫類似的值並對其進行分組。此選項使用 Levenshtein 距離演算法,使用固定預設閾值來計算兩個文字值之間的編輯距離。當編輯距離小於閾值時,則將這兩個值分組在一起。此演算法適合於任何支援的語言。

    自 Tableau Prep Builder 版本 2019.2.3 開始,便可在套用資料角色之後使用這個選項。在這種情況下,會使用編輯距離將無效的值匹配至最接近的有效值。如果資料集樣本中沒有標準值,Tableau Prep Builder 會自動新增該值並將該值標記為不在原始資料集中。

  • 發音與拼字:(版本 2019.1.4 及更新版本)如果您將資料角色指派至欄位,則可以使用該資料角色將值與資料角色所定義的標準值進行比對和分組。此選項將根據拼字和發音將無效值與大部份類似值進行比對。如果資料集樣本中沒有標準值,Tableau Prep Builder 會自動新增該值並將該值標記為不在原始資料集中。這個選項最適用於英文字。

    有關詳情,請參閱清理和調整資料

    附註:在 Tableau Prep Builder 版本 2019.1.4 和 2019.2.1 中,此選項會標示為「資料角色比對」

使用模糊匹配分組類似值

  1. 「設定檔」窗格或「結果」窗格中,選取要編輯的欄位。

  2. 按一下「更多選項」並選取「分組和取代」,然後選取以下選項之一:

    • 發音

    • 常用字符

    • 拼寫

    Tableau Prep Builder 將尋找匹配的值並對其進行分組,並將它們取代為組中出現最頻繁的值。

  3. 查看分組,並根據需要手動新增或移除值或對其進行編輯。然後按一下「完成」

分組欄位值時調整結果

如果按「拼字」「發音」分組類似值,您可以透過使用欄位上的滑桿調整分組參數的嚴格程度來變更結果。

根據您設定滑桿的方式,您可以更好地控制群組包含的值數量以及建立的群組數量。預設情況下,Tableau Prep Builder 會偵測最佳分組設定並在該位置顯示滑桿。

當您變更閾值時,Tableau Prep Builder 會分析值樣本以確定新分組。設定產生的分組儲存並記錄在「變更」窗格中,但不儲存閾值設定。「分組和取代」編輯器下次開啟時,當您編輯現有變更或進行新的變更時,閾值滑桿會顯示在預設位置,讓您根據目前資料集進行調整。

  1. 「設定檔」窗格或 「結果」窗格中,選取要編輯的欄位。

  2. 按一下「更多選項」並選取「分組和取代」,然後選取以下選項之一:

    • 發音

    • 拼寫

    Tableau Prep Builder 將尋找匹配的值並對其進行分組,並將它們取代為組中出現最頻繁的值。

  3. 「分組和取代」編輯器的左側窗格中,將滑桿拖曳到 5 個閾值層級之一以變更結果。

    若要設定更嚴格的閾值,請將滑桿移至左側。這樣做會減少相符項目並建立更少的群組。若要設定更寬鬆的閾值,請將滑桿移至右側。這樣做會增加相符項目並建立更多的群組。

  4. 按一下「完成」儲存所做的變更。
感謝您的回饋! 提交意見回饋時發生錯誤。重試或傳送訊息給我們