使用 Data Interpreter 清理 Excel、CSV、PDF 和 Google Sheets 中的資料
透過 Excel 試算表跟蹤資料時,您在建立試算表時會考慮人機界面。為了使試算表易於閱讀,您可能會包括像標題、堆疊式標頭、注釋這樣的內容,並可能包括空列和空欄來增加空白空間,而且還可能有多個資料標籤。
如果要在 Tableau 中分析此資料,這些美觀的內容可能會使 Tableau 很難解讀您的資料。Data Interpreter 的作用就在於此。
提示:儘管不再支援 Tableau 的 Excel 外接程式,但 Data Interpreter 仍可說明您對資料進行重整,以便在 Tableau 中分析。
Data Interpreter 有什麼作用?
Data Interpreter 能夠讓您在清理資料時先拔頭籌。它可以檢測並繞過標題、注釋、頁腳、空儲存格等內容,從而確定資料集中的實際欄位和值。
它甚至可檢測到附加的表和子表,以便可以獨立於其他資料使用資料的子集。
Data Interpreter 發揮它的魔力之後,您可以檢查它的工作,確保它捕獲並正確標識了您所需的資料。然後,您可以進行任何必要的調整。
選取要使用的資料之後,您可能還需要執行一些額外的清理步驟,比如對資料進行樞紐分析、拆分欄位或新增篩選器,以便在開始分析之前將資料塑造成所需的形式。
附註:如果您需要的更多資料清理工作超出了 Data Interpreter 的能力範疇,請嘗試 Tableau Prep(連結在新視窗開啟)。
開啟 Data Interpreter 並檢視結果
從 [連線] 窗格中,連線到 Excel 試算表或其他支援 Data Interpreter 的連接器,例如文字 (.csv) 檔案、PDF 檔案或 Google Sheets。
將一個表拖到畫布上(如果需要),然後在 [資料來源] 頁面上的左側窗格中,選中 [使用 Data Interpreter] 核取方塊,確定 Data Interpreter 是否可說明清理您的資料。
附註:當您使用 Data Interpreter 清理您的資料時,Data Interpreter 會清理與資料來源中的連線關聯的所有資料。Data Interpreter 不會變更基礎資料。
在 [資料] 窗格中,按一下 [檢視結果] 連結,檢視 Data Interpreter 的結果。
您的資料來源的副本將在 Excel 中 [資料解譯器的鍵] 標籤上開啟。檢視鍵以瞭解如何閱讀結果。
按一下每個標籤以檢視 Data Interpreter 如何解讀資料來源。
如果 Data Interpreter 發現了附加的表(也稱為找到的表或子表),則會透過劃定這些表的儲存格範圍在 [<工作表名稱>_subtables] 標籤中標識它們。此外還會為每個子表包括一個單獨的標籤,進行色彩編碼來標識標頭和資料列。
如果 Data Interpreter 未提供預期結果,請清除 [使用 Data Interpreter 清理] 核取方塊以使用原始資料來源。
若要將當前表替換為任何找到的表,請將當前表拖離畫布,然後將要使用的找到的表拖到畫布上。
如果 Data interpreter 錯誤地標識了找到的表的範圍,請在將找到的表拖到畫布後,按一下該表上的下拉箭頭,然後選取 [編輯找到的表] 來調整找到的表的角(表的左上儲存格和右下儲存格)。
有了想要使用的資料之後,您可以向資料應用任何其他清理操作,以便可對其進行分析。
Data Interpreter 範例
在本例中,我們要連線到一個 Excel 試算表,其中包含 2016 年按城市和州列出的暴力犯罪資料。此試算表在一個工作表中包括多個表,並包括一些額外的格式設定。
標題
合併的標頭儲存格
額外的空白空間
子表
此試算表中額外的格式設定讓 Tableau 難以確定欄位標題和值是什麼。
作為替代,它會縱向讀取資料並為每個列指派預設值 F1、F2、 F3(欄位 1、欄位 2、欄位 3)等。空白儲存格被讀取為 null 值。
為了確定 Data Interpreter 是否能幫助清理此資料集,我們選取了 [使用 Data Interpreter] 。
Data Interpreter 檢測到欄位的正確標題、移除了額外的格式設定,並找到了若干子表。這些子表列在 [資料] 窗格的 [工作表] 部分,並使用原始工作表名稱及每個子表的儲存格範圍命名。
本例中有三個子表: [Crimes 2016 A4:H84] 、 [Crimes 2016 K5:L40] 和 [Crimes 2016 O5:P56] 。
為了更仔細地檢查 Data Interpreter 的結果,我們在 [資料] 窗格中按一下 [檢視結果] 連結來檢視已新增注釋的試算表副本。
在這裡我們會看到原始資料的副本,其已進行色彩編碼來確定那些資料標識為標頭資料,哪些資料標識為欄位值。
下一個標籤顯示 Data Interpreter 找到的子表,其輪廓線透過儲存格範圍劃定。
在本例中,第一個子表 [Crimes 2016 A4:H84] 包含我們想要處理的主要資料。若要將此表用作我們的資料表,只需將原始表拖離畫布,然後將新表拖到畫布上即可。
畫布中有了我們想要處理的資料之後,我們可以對資料進行一些額外的清理。例如,我們可以:
變更欄位名,使它們表示城市、州/市/縣和月份名稱。
對月份欄位進行樞紐分析。
拖入第三個子表 [Crimes 2016 o5:P56] ,並將其聯接到第一個子表的 [State] (州)欄位上,以包括州人口數進行分析。
隱藏由於聯接而增加的任何重複欄位。
結果可能如下所示:
現在我們已準備好在 Tableau 中開始分析資料。
Data Interpreter 何時不可用
Data Interpreter 選項可能會因以下原因而不可用:
資料來源已具有 Tableau 可以解釋的格式:如果 Tableau Desktop 無需 Data Interpreter 的額外幫助就能處理獨特的格式設定或無關的資訊,則 Data Interpreter 選項不可用。
許多列或許多欄:在資料具有以下屬性時,Data Interpreter 選項不可用:
資料包含超過 2000 欄。
資料包含超過 3000 列和超過 150 欄。
資料來源不受支援:Data Interpreter 僅可用於 Microsoft Excel、文字 (.csv) 檔案、PDF 檔案和 Google Sheets。對於 Excel,資料必須為 .xls 和 .xlsx 格式。