使用 Data Interpreter 清理 Excel、CSV、PDF 和 Google Sheets 中的資料

透過 Excel 試算表跟蹤資料時,您在建立試算表時會考慮人機界面。為了使試算表易於閱讀,您可能會包括像標題、堆疊式標頭、注釋這樣的內容,並可能包括空列和空欄來增加空白空間,而且還可能有多個資料標籤。

如果要在 Tableau 中分析此資料,這些美觀的內容可能會使 Tableau 很難解讀您的資料。Data Interpreter 的作用就在於此。

提示:儘管不再支援 Tableau 的 Excel 外接程式,但 Data Interpreter 仍可說明您對資料進行重整,以便在 Tableau 中分析。

Data Interpreter 有什麼作用?

Data Interpreter 能夠讓您在清理資料時先拔頭籌。它可以檢測並繞過標題、注釋、頁腳、空儲存格等內容,從而確定資料集中的實際欄位和值。

它甚至可檢測到附加的表和子表,以便可以獨立於其他資料使用資料的子集。

Data Interpreter 發揮它的魔力之後,您可以檢查它的工作,確保它捕獲並正確標識了您所需的資料。然後,您可以進行任何必要的調整。

選取要使用的資料之後,您可能還需要執行一些額外的清理步驟,比如對資料進行樞紐分析、拆分欄位或新增篩選器,以便在開始分析之前將資料塑造成所需的形式。

附註:如果您需要的更多資料清理工作超出了 Data Interpreter 的能力範疇,請嘗試 Tableau Prep(連結在新視窗開啟)

開啟 Data Interpreter 並檢視結果

  1. [連線] 窗格中,連線到 Excel 試算表或其他支援 Data Interpreter 的連接器,例如文字 (.csv) 檔案、PDF 檔案或 Google Sheets。

  2. 將一個表拖到畫布上(如果需要),然後在 [資料來源] 頁面上的左側窗格中,選中 [使用 Data Interpreter] 核取方塊,確定 Data Interpreter 是否可說明清理您的資料。

    附註:當您使用 Data Interpreter 清理您的資料時,Data Interpreter 會清理與資料來源中的連線關聯的所有資料。Data Interpreter 不會變更基礎資料。

  3. 在 [資料] 窗格中,按一下 [檢視結果] 連結,檢視 Data Interpreter 的結果。

    您的資料來源的副本將在 Excel 中 [資料解譯器的鍵] 標籤上開啟。檢視鍵以瞭解如何閱讀結果。

  4. 按一下每個標籤以檢視 Data Interpreter 如何解讀資料來源。

    如果 Data Interpreter 發現了附加的表(也稱為找到的表或子表),則會透過劃定這些表的儲存格範圍在 [<工作表名稱>_subtables] 標籤中標識它們。此外還會為每個子表包括一個單獨的標籤,進行色彩編碼來標識標頭和資料列。

    如果 Data Interpreter 未提供預期結果,請清除 [使用 Data Interpreter 清理] 核取方塊以使用原始資料來源。

  5. 若要將當前表替換為任何找到的表,請將當前表拖離畫布,然後將要使用的找到的表拖到畫布上。

    如果 Data interpreter 錯誤地標識了找到的表的範圍,請在將找到的表拖到畫布後,按一下該表上的下拉箭頭,然後選取 [編輯找到的表] 來調整找到的表的角(表的左上儲存格和右下儲存格)。

  6. 有了想要使用的資料之後,您可以向資料應用任何其他清理操作,以便可對其進行分析。

Data Interpreter 範例

在本例中,我們要連線到一個 Excel 試算表,其中包含 2016 年按城市和州列出的暴力犯罪資料。此試算表在一個工作表中包括多個表,並包括一些額外的格式設定。

  1. 標題

  2. 合併的標頭儲存格

  3. 額外的空白空間

  4. 子表

此試算表中額外的格式設定讓 Tableau 難以確定欄位標題和值是什麼。

作為替代,它會縱向讀取資料並為每個列指派預設值 F1、F2、 F3(欄位 1、欄位 2、欄位 3)等。空白儲存格被讀取為 null 值。

為了確定 Data Interpreter 是否能幫助清理此資料集,我們選取了 [使用 Data Interpreter]

Data Interpreter 檢測到欄位的正確標題、移除了額外的格式設定,並找到了若干子表。這些子表列在 [資料] 窗格的 [工作表] 部分,並使用原始工作表名稱及每個子表的儲存格範圍命名。

本例中有三個子表: [Crimes 2016 A4:H84] [Crimes 2016 K5:L40] [Crimes 2016 O5:P56]

為了更仔細地檢查 Data Interpreter 的結果,我們在 [資料] 窗格中按一下 [檢視結果] 連結來檢視已新增注釋的試算表副本。

在這裡我們會看到原始資料的副本,其已進行色彩編碼來確定那些資料標識為標頭資料,哪些資料標識為欄位值。

下一個標籤顯示 Data Interpreter 找到的子表,其輪廓線透過儲存格範圍劃定。

在本例中,第一個子表 [Crimes 2016 A4:H84] 包含我們想要處理的主要資料。若要將此表用作我們的資料表,只需將原始表拖離畫布,然後將新表拖到畫布上即可。

畫布中有了我們想要處理的資料之後,我們可以對資料進行一些額外的清理。例如,我們可以:

  • 變更欄位名,使它們表示城市、州/市/縣和月份名稱。

  • 對月份欄位進行樞紐分析。

  • 拖入第三個子表 [Crimes 2016 o5:P56] ,並將其聯接到第一個子表的 [State] (州)欄位上,以包括州人口數進行分析。

  • 隱藏由於聯接而增加的任何重複欄位。

結果可能如下所示:

現在我們已準備好在 Tableau 中開始分析資料。

Data Interpreter 何時不可用

Data Interpreter 選項可能會因以下原因而不可用:

  • 資料來源已具有 Tableau 可以解釋的格式:如果 Tableau Desktop 無需 Data Interpreter 的額外幫助就能處理獨特的格式設定或無關的資訊,則 Data Interpreter 選項不可用。

  • 許多列或許多欄:在資料具有以下屬性時,Data Interpreter 選項不可用:

    • 資料包含超過 2000 欄。

    • 資料包含超過 3000 列和超過 150 欄。

  • 資料來源不受支援:Data Interpreter 僅可用於 Microsoft Excel、文字 (.csv) 檔案、PDF 檔案和 Google Sheets。對於 Excel,資料必須為 .xls 和 .xlsx 格式。

 

感謝您的意見回饋!