設定資料集

附註:從版本 2020.4.1 開始,現在可以在 Tableau ServerTableau Cloud 中建立和編輯流程。除非另有說明,否則本主題中的內容適用於所有平台。有關在 Web 上製作流程的詳情,請參閱 Tableau Server(連結在新視窗開啟)Tableau Cloud(連結在新視窗開啟) 說明中的 Web 版 Tableau Prep

若要決定在流程中處理多少資料集,可以設定資料集。當您連線至資料或將表拖到「流程」窗格中時,會自動向流程中新增一個輸入步驟。

在輸入步驟中,您可以決定要在流程中包含多少以及包含哪些資料。這始終是該流程中的第一步。

如果連線到 Excel 或文字檔案,您還可以從輸入步驟中重新整理資料。更多資訊請參閱在輸入步驟中新增更多資料(連結在新視窗開啟)

在輸入步驟中,您可以:

  • 在流程窗格中的輸入步驟以滑鼠右鍵按一下或 Cmd + 按一下滑鼠左鍵 (MacOS),重新命名或將其移除。
  • 在同一上層目錄或下層目錄中聯集多個檔案。有關詳情,請參閱輸入步驟中的聯集檔案和資料庫資料表
  • (版本 2023.1 及更高版本)包括根據資料集的原始排序順序自動生成的列號。參閱包括資料集中的列號.
  • 搜尋欄位。
  • 請參閱欄位值預覽。
  • 還可以透過變更欄位名稱設定欄位內容,或設定文字檔的文字設定。

    附註:包括方括號的欄位值會自動轉換為圓括號。

  • 設定要在流程中內嵌的資料樣本。參看設定資料範例大小
  • 移除不需要的欄位。始終可以之後返回到輸入步驟包含它們。
  • 隱藏不需要清除,但仍想包含在流程中的欄位。如果需要,可以隨時取消隱藏。
  • 將篩選條件套用至選定的欄位。 
  • 為支援欄位資料類型的資料連線變更欄位資料類型。
  • (版本 2023.3 及更高版本)您可以設定 CSV 檔案的標頭和起始列。
  • (版本 2024.1 及更高版本)您可以設定 Excel 檔案的標頭和起始列。

包括資料集中的列號

在 Tableau Prep Builder 版本 2023.1 和更高版本中以及 Web 上支援 Microsoft Excel 和文字 (.csv) 檔案使用此功能。

附註:目前不支援輸入聯集中包含的檔案使用此選項。

從版本 2023.1 開始,Tableau Prep 會根據資料的原始排序順序自動產生列編號,可以將其作為新欄位包含在流程中。這僅適用於 Microsoft Excel 或文字 (.csv) 檔案類型。

在之前的版本中,如果想要包含這些列編號,必須在將資料集新增到流程之前手動將它們新增到來源中。

連線至您的資料時,在輸入步驟中產生該欄位。預設會將其排除在流程之外,但您可以按一下將其包括在內。如果選擇包含它,其行為與任何其他欄位一樣,可用於您的流程動作和計算欄位。

Tableau Prep 還支援計算欄位的 ROW_NUMBER 函數。如果資料集中有可以定義排序的欄位(例如 Row ID 或 Timestamp),此函數很有用。有關使用此功能的更多資訊,請參閱 建立詳細資料層級、排名和動態磚計算

在您的流程中新增「來源列號」欄位

  1. 在該欄位中右鍵按一下或 Cmd + 按一下滑鼠左鍵 (MacOS) ,或按一下 「更多選項」功能表並選取「包含欄位」

    資料預覽:

    欄位清單:

  2. 已清除變更清單,該欄位現在是流程資料的一部分,您可以在後續流步驟中看到產生的列號。

「來源列號」詳細資訊

在您的資料集中納入「來源列號」後即可套用以下選項和注意事項。

  • 可在任何資料採樣或篩選前套用該資料來源列號。
  • 這樣會建立一個在整個流程中持續存在,名為「來源列號」的新欄位。此欄位名稱未當地化,但可以隨時重命名。
  • 如果已存在使用此名稱的欄位,則新欄位名稱會遞增 1。例如,來源列號 - 1, 來源列 2, 等等。
  • 您可以在後續步驟中變更該欄位的資料類型。
  • 您可以在流程操作和計算中使用該欄位。
  • 每次重新整理輸入資料或執行流程時,都會為整個資料集重新產生此值。
  • 該欄位不可用於輸入聯集。

設定標頭和資料起始列

Tableau Prep Builder 版本 2023.3 及更高版本和 Web 上支援文字 (.csv) 檔案,版本 2024.1 及更高版本支援 Excel (.xls) 檔案。

可以將特定列設定為欄位標頭列以及 Excel 和文字 (.csv) 檔案的資料起始列。

連線到 Excel 或文字檔案時,常見的情境是檔案在前幾列中使用中繼資料資訊進行格式設定,以便讓其易於閱讀。預設情況下,Tableau Prep 會將 CSV 檔案的第一列解譯為欄位標頭列。Excel 檔案根據欄位類型和空白列進行解譯。Tableau Prep 可以選取一列作為標頭,也可以不包含標頭列。

例如,在以下檔案中,STORE DETAILS 會被解譯為標頭列。

可以排除中繼資料資訊 (1),並透過將第 3 列設定為標頭 (2),將第 4 列設定為資料起始列來提供正確的資料結構描述結構。

CSV 檔案:

Excel 檔案:

例如,以下顯示列標頭和起始列的預設設定:

排除中繼資料後的資料如下:

附註:資料預覽不反映資料範例設定的變更。

設定標頭和起始列

使用資料預覽輸入檢視,可以直觀地檢查資料的結構描述結構,並設定標頭和起始列以從輸入來源資料中排除中繼資料。

可以將資料起始列設定為高於標頭列值的任何值。預設情況下,Tableau Prep 會將資料起始列設定為標頭列後的下一個連續數字。標頭列和資料起始列之間的任何列都將被忽略。

附註:「資料預覽」和「資料解譯器」是互斥的。「資料解譯器」只會偵測 Excel 試算表中的子表,並不支援指定文字檔和試算表的起始列。

  1. 選取輸入步驟。
  2. 從工具列中,按一下「資料預覽」輸入檢視。
  3. 在要設定為標頭的列上,按一下更多選項功能表並選取設定為標頭
  4. 在要設定為資料起始列的列上,按一下更多選項功能表並選取設定為資料起始。預設情況下,資料起始列設定為下一個連續列編號。 

    「標頭選項」功能表顯示標頭列和資料起始列的列編號。或者,可以直接在「標頭選項」對話方塊中設定標頭和起始列。

單一檔案中的多個結構描述

若單一檔案包含多個資料來源,可以透過連線到同一資料來源來建立附加輸入步驟,然後為第二個資料來源設定標頭和資料起始列。例如,以下檔案包含一個從第 3 列 (1) 開始的資料來源,以及從第 28 列 (2) 開始不同的、單獨的第二個結構描述。

對於此類資料來源,請遵循以下步驟。

  1. 選取第一個輸入步驟。
  2. 從工具列中,按一下「資料預覽」輸入檢視。
  3. 在要設定為標頭的列上,按一下更多選項功能表並選取設定為標頭
  4. 在要設定為資料起始列的列上,按一下更多選項功能表並選取設定為資料起始。預設情況下,資料起始列設定為下一個連續列編號。
  5. 選取下一個輸入步驟。
  6. 重複上述步驟,為其他資料來源設定標頭和起始列。

    標頭列和資料起始列之間的任何列都將被忽略。

聯集多個資料表

在 Tableau Prep Builder 版本 2024.1 和更高版本中以及 Web 上支援文字 (.csv) 檔案使用此功能。

您可以合併具有相同結構描述結構和中繼資料列資料來源中的多個表。

  1. 連線到檔案並選取第一個輸入步驟。
  2. 從工具列中,按一下「資料預覽」輸入檢視。
  3. 在要設定為標頭的列上,按一下更多選項 並選取設定為標頭
  4. 在要設定為資料起始列的列上,按一下更多選項功能表並選取設定為資料起始
  5. 按一下資料表索引標籤並選取聯集多個資料表
  6. 按一下套用聯集檔案並維護輸入聯集中所有檔案標頭和列選取。這假設輸入聯集檔案之間的檔案結構和結構描述是相同的。

連線到自訂 SQL 查詢

如果資料庫支援使用自訂 SQL,您將會看到「自訂 SQL」顯示在「連線」窗格靠近底部的位置。按兩下「自訂 SQL」開啟「自訂 SQL」 索引標籤,您可以在其中輸入查詢來預選取資料和使用特定於來源的操作。查詢檢索資料集之後,您可以選取要包括的欄位、套用篩選器,或在將資料新增到流程之前變更資料類型。

有關使用自訂 SQL 的詳情,請參閱使用自訂 SQL 連線到資料

在輸入步驟中套用清理操作

只能在「輸入」步驟中執行部分清除操作。您可以在「輸入」欄位清單中進行以下任何變更。系統會在「變更」窗格中跟蹤您所做的變更,並會在「流程」窗格中「輸入」步驟的左側以及「輸入」欄位清單中新增注釋。

  • 隱藏欄位:隱藏欄位而不是將其移除以減少流程中的混亂。需要時可隨時取消隱藏。執行流程時,隱藏欄位仍將包含在輸出中。
  • 篩選:使用計算編輯器篩選值,或從版本 2023.1 開始,也可以使用「相對日期篩選條件」對話方塊,快速指定任意日期或日期和時間欄位的日期範圍。
  • 重命名欄位:「欄位名稱」欄位中,按兩下或按住 Ctrl 再按一下 (MacOS) 欄位名稱,並輸入一個新欄位名稱。
  • 變更資料類型:按一下欄位的資料類型,並從功能表中選取一個新資料類型。Microsoft Excel、文字和 PDF 檔案、Box、Dropbox、Google 雲端硬碟和 OneDrive 資料來源目前支援此選項。所有其他資料來源都可以在清理步驟中變更。

選取要包含在流程中的欄位

附註:從版本 2023.1 開始,您可以選取多個欄位進行隱藏、取消隱藏、移除或包含動作。在之前版本中,可以一次處理一個欄位,並選中或清除核取方塊以包含或移除欄位。

「輸入」窗格顯示資料集中的欄位清單。預設情況下,除自動產生的欄位 「來源列號」外,所有欄位都包括在內。使用「資料預覽」或「清單檢視」來管理欄位。

  • 搜尋:尋找欄位。
  • 隱藏欄位:隱藏要包含在流程輸出中但不需要清理的欄位。
    • 在「欄位清單」中,按一下眼睛 圖示或從更多選項功能表選取隱藏欄位
    • 在「資料預覽」中,從更多選項功能表選取隱藏欄位

    在執行階段由流程處理欄位。如果需要,也可以隨時取消隱藏欄位。有關詳細資訊,請參閱隱藏欄位(連結在新視窗開啟)

  • 包含欄位:在您的流程中新增已標記為已移除的欄位。
    • 在「欄位清單」中,選取一列或多列並右鍵按一下、按住 Cmd 按一下 (MacOS),或按一下更多選項 功能表並選取包含欄位以新增回標記為已移除的欄位。
    • 在「資料預覽」中按一下要包含在流程中的欄位上的「更多選項」 功能表,並選取「包含欄位」
  • 移除欄位
    • 在「欄位清單」中,選取一列或多列,然後右鍵按一下、按住Cmd 按一下 (MacOS)、按一下「X」,或按一下更多選項 功能表並選取移除欄位以移除不想包含在流程中的欄位。
    • 在「資料預覽」中,按一下欲移除欄位上的更多選項 功能表並選取移除欄位

將篩選器應用於輸入步驟中的欄位

在輸入步驟中套用篩選器以減少從資料來源內嵌的資料量。排除執行流程時不想處理的資料,可以獲得互動式效能效率和更有用的資料樣本。

在輸入步驟中,您可以使用計算編輯器套用篩選條件。從版本 2023.1 開始,還可以使用「相對日期篩選條件」對話方塊以指定要包含在日期與日期和時間欄位類型中的確切日期值範圍。更多資訊請參閱篩選資料(連結在新視窗開啟)中的「相對日期篩選條件」。

可以在「清除」步驟或其他步驟類型中使用其他篩選器選項。有關詳情,請參閱篩選資料(連結在新視窗開啟)

套用計算篩選條件

  1. 在工具列中,按一下「篩選值」。篩選資料時,使用以下方法之一:
    • 在「欄位清單」中,從欄位名稱按一下「更多選項」,並選取「篩選」>「計算...」

    • 在「資料預覽」中,從欄位名稱按一下「更多選項」功能表,並選取「篩選」>「計算...」

  2. 在計算編輯器中輸入篩選條件。

套用相對日期篩選條件

  1. 選取資料類型為「日期」或「日期和時間」的欄位。並使用以下方法之一套用相對日期篩選器。
    • 在「欄位清單」中,右鍵按一下、按住 Cmd 按一下 (MacOS),或從欄位名稱欄按一下更多選項 功能表並選取篩選>相對日期
    • 在「資料預覽」中,從欄位按一下更多選項 功能表,然後選取篩選>相對日期
  2. 使用「相對日期篩選器」對話方塊指定要在流程中包含的年、季度、月、週或日的精確範圍。您也可以設定相對於特定日期錨點,並包括 null 值。

    附註:預設情況下,篩選器相對於流程在製作體驗中執行或預覽的日期執行。

變更欄位名稱

變更欄位名稱時,使用以下方法之一。

將會在欄位網格以及「輸入」步驟左側的流程窗格中新增註解。系統也會在「變更」窗格中追蹤您所做的變更。

  • 在「欄位清單」中,從欄位名稱欄中選取一個欄位,然後按一下重新命名欄位。在欄位中輸入新名稱。
  • 在「資料預覽」中,選取欄位並按一下重新命名欄位。在欄位中輸入新名稱。

變更資料類型

目前支援 Microsoft Excel、文字和 PDF 檔案、Box、Dropbox、Google 雲端硬碟和 OneDrive 資料來源。所有其他資料來源都可以在清理步驟中變更。

附註:來源列號(2023.1 及更高版本)的資料類型只能在清理步驟或其他步驟類型中變更。

要變更欄位的資料類型,請執行以下作業:

  1. 按一下欄位的資料類型。
  2. 從功能表中選取新資料類型。
    • 資料預覽:
    • 欄位檢視:
  3. 您也可以變更流程中其他步驟類型之欄位的資料類型,或指派資料角色以幫助驗證您的欄位值。有關變更您的資料類型或使用資料角色的詳情,請參閱查看指派給資料的資料類型(連結在新視窗開啟)使用資料角色以驗證您的資料(連結在新視窗開啟)

設定欄位屬性

處理文字檔時,您會看到「設定」索引標籤,在該索引標籤中,您可以編輯連線和設定文字屬性,例如文字檔的欄位分隔符號。也可以在「連線」窗格中編輯檔案連線或設定累加式重新整理設定。有關為流程設定累加式重新整理的詳情,請參閱使用累加式重新整理重新整理流程資料

處理文字或 Excel 檔時,您可以糾正在開始流程之前錯誤推斷的資料類型。在開始流程之後,始終可以在後續步驟中透過「設定檔」窗格變更資料類型。

設定文字檔中的文字設定

若要變更用於解析文字檔的設定,請從以下選項中選取:

  • 第一行包含標題(預設值):選取此選項以使用第一列作為欄位標籤。

  • 自動產生欄位名稱:如果希望 Tableau Prep Builder 自動產生欄位標題,請選取此選項。欄位命名約定採用與 Tableau Desktop 相同的模式。例如,F1F2 等。

  • 欄位分隔符號:從清單中選取一個字元用於分隔各個欄目。選取「其他」以輸入自訂字元。

  • 文字限定詞:選取用於在檔中將值引起來的字元。

  • 字元集:選取用於描述文字檔編碼的字元集。

  • 區域設定:選取要用於解析檔的區域設定。此設定指明要使用哪個小數分隔符號和千位分隔符號。

設定資料範例大小

Tableau Prep Builder 版本 2023.3 及更高版本中支援分層列選取。

預設情況下,Tableau Prep 會確定有效探索和為資料集代表性範例準備資料所需的最大列數。根據 Tableau Prep 範例演算法,輸入資料中的欄位越多,允許的列數就越少。對資料進行採樣時,產生的範例可能包含您需要的所有列,也可能不包含,具體取決於範例的計算和傳回方式。例如,預設情況下,Tableau Prep 會使用快速選取方法對資料進行採樣。使用此方法時,將載入最上面的列,若您的資料集很大並且資料按時間順序排列,您可能會看到最早的採樣資料,而不是所有資料的完整表示。若看不到預期資料,則可以變更資料範例設定,以再次執行查詢。

若使用 Web 製作建立或編輯流程,使用者在使用大型資料集時可以選取的最大列數由管理員設定。有關詳情,請參閱 Tableau Server(連結在新視窗開啟)Tableau Cloud(連結在新視窗開啟) 說明中的範例資料和處理限制

準備採樣資料

若您知道分析不需要某些值,請在輸入步驟中移除欄位,以便在製作或執行流程時不包含這些資料。

若您有觸發採樣的大型資料集,則在輸入步驟中移除欄位會增加 Tableau Prep 載入的列數。不套用採樣時,在輸入步驟中移除欄位會減少 Tableau Prep 載入的資料量。

從資料集中移除不必要的欄位和值後,可以變更為採樣載入的資料量或採樣方法。

變更資料範例設定

與在工作時分析所有資料並將變更套用到更大的資料集相比,範例資料有助於提供互動式體驗,並讓編輯流程變得更加高效。執行流程時會使用所有資料。在範例部分中所做的任何變更都會套用於目前流程。

要在清理和調整後驗證資料,請執行流程並在 Tableau Desktop 中檢視輸出。

附註:執行完整流程,而不是「在 Tableau Desktop 中檢視範例」,這樣您就可以看到完整的資料。若您看到範例中原本沒有的非預期值或不正確的值,可以返回 Tableau Prep 來解決此問題。

  1. 從資料集中移除不必要的欄位和值。
  2. 選取輸入步驟,然後按一下資料範例索引標籤。

  3. 選取要為資料採樣載入的列數。選擇的列數會影響效能。

    • 自動:(預設)快速載入資料,並自動計算列數,以便有足夠的資料用於範例。載入的列數等於或少於 393,216 列。
    • 指定:通常用於載入少量列,以便您可以瞭解資料的結構並取得快速載入時間。指定少於 100 萬列的列數。

      附註:在 Web 製作中,使用者在使用大型資料集時可以選取的最大列數由管理員設定。作為使用者,您可以選取不超過該限制的列數。

    • 最大值:載入盡可能多的資料,以選取等於或少於 1,048,576 列的列數。確保您滿足針對大型資料集的高效能要求
  4. 選取用於傳回採樣列數的方法。選擇「隨機」或「分層」時,效能可能會受到影響。

    附註:僅當您的輸入資料來源支援隨機採樣時才支援列選取。若您的資料來源不支援隨機採樣,則使用預設的「快速選取」方法。

    • 快速選取:(預設)在盡快傳回列的同時根據效能對資料進行採樣。某些列可能不會包含在範例中。用於採樣的列可能是前 N 列,也可能是資料庫在上一次查詢中快取在記憶體中的列。雖然結果幾乎總是比隨機採樣更快,但它可能會傳回有偏差的範例(例如,若記錄按時間順序排序,則會僅傳回一年的資料,而不是資料中存在的所有年份的資料)。

    • 隨機:可讓您對大型資料集進行採樣,並傳回整個選取列的一般表示。Tableau Prep 會根據載入的所有選取列傳回隨機列。首次擷取資料時,此選項可能會影響效能。

    • 分層:可讓您按指定欄位進行分組,然後對每個子群組內的資料進行採樣。Prep 會傳回分佈在選取欄位中的請求列數,以便盡可能均勻地進行分組。在某些情況下,根據資料來源,這可能會導致欄位的某些值比其他值具有更多列。
  5. 範例

    這些範例基於 Tableau Prep 中包含的全球世界指標資料集。第一個範例針對列數使用「自動」,針對採樣方法或要傳回的採樣列數使用「隨機」

    選取這些值後,隨機選取 3,000 列,並用於表示整個資料集。

    第二個範例針對列數使用「指定」,針對採樣方法使用「分層」。指定的列數設定為值 7,並且「出生率」欄位用於分組。

    新的範例值顯示所有欄位中 7 列唯一值的統一分佈。

感謝您的意見反應!已成功提交您的意見回饋。謝謝!