PDF 檔案
本文介紹如何將 Tableau 連線到 .pdf 檔案資料並設定資料來源。
附註:Tableau 不支援從右至左 (RTL) 語言。如果您的 PDF 包含 RTL 文字,在 Tableau 中可能會以反向順序顯示字元。
進行連線並掃描文件表格
開啟 Tableau 後,在 [連線] 下面,按一下 [PDF 檔案] 。
選取要連線到的檔案,然後按一下 [開啟]。
在 [掃描 PDF 檔案] 對話方塊中,指定想要 Tableau 掃描表格的檔案中的頁面。您可以選取掃描所有頁面、僅單個頁面或一系列頁面中的表格。
附註: 類似於大多數 PDF 閱讀器,掃描將檔案的第一頁計為 [第 1 頁] 。掃描表格時,請指定 PDF 閱讀器顯示的頁碼,而不是文件本身中可能使用的頁碼,該頁面可能從第 1 頁開始,也可能不從第 1 頁開始。
例如,假設您想要使用下圖中的 [表 1] 。PDF 閱讀器顯示一個數位,而 .pdf 檔案顯示其他數位。若要正確掃描此表,請指定 PDF 閱讀器顯示的頁碼。在此範例中,您指定 [第 15 頁] 。
在資料來源頁面上,執行下列操作:
(可選)在頁面頂端選取預設資料來源名稱,然後輸入要在 Tableau 中使用的唯一資料來源名稱。舉例來說,使用可幫助其他資料來源使用者推斷出要連線的資料來源的資料來源命名約定。 預設名稱是基於檔案名自動產生的。
如果檔案包含一個表,請按一下工作表標籤開始進行分析。否則,從左窗格中將表拖到畫布上,然後按一下工作表標籤以開始分析。
關於左側窗格中的表格
在 .pdf 檔案中識別的表將被賦予唯一名稱,並在掃描後顯示在左側窗格中。例如,您可能會看到像 [第 1 頁,表 1.] 這樣的表名稱。表名稱的第一部分指明 .pdf 檔案中表格源自其中的頁面。表名稱的第二部分指明識別的表順序。如果 Tableau 在一頁中識別出了多個表,則表名稱的第二部分可能指明以下兩項之一:
- Tableau 在頁面上識別出了另一個唯一的表或子表。
- Tableau 採用另一種方式解讀了頁面上的表。Tableau 可能會對表提供多種解讀,具體情況取決於該表在 .pdf 檔案中的呈現方式。
PDF 檔案資料來源範例
以下是 PDF 檔案資料來源的範例:
獲取更多資料
透過新增更多表或連線到不同資料庫中的資料,將更多資料提供到資料來源中。
從當前檔案新增更多資料:
從不同資料庫中新增更多資料:在左窗格中,按一下 [連線] 旁邊的 [新增] 。有關詳情,請參閱聯結資料。
如果左窗格中未列出您需要的連接器,請選取 [資料] > [新資料來源] 以新增新資料來源。有關詳情,請參閱混合您的資料。
設定表選項
您可以設定表選項。在畫布上,按一下表下拉箭頭,然後指定資料在第一列中是否包括欄位名稱。如果是這樣,這些名稱將成為 Tableau 中的欄位名稱。如果未包括欄位名稱,Tableau 會自動產生這些名稱。您隨後可以對欄位進行重命名。
使用 Data Interpreter 清理您的資料
如果 Tableau 偵測到它可以幫助優化資料來源以進行分析,則會提示您使用資料解譯器。資料解譯器能夠偵測您可以使用的子表,並且能夠刪除以後可能會在分析中引起問題的唯一格式。有關詳情,請參閱使用 Data Interpreter 清理 Excel、CSV、PDF 和 Google Sheets 中的資料。
合併 .pdf 檔案中的表
您可以在檔案中合併表。有關聯集的詳情,請參閱聯集資料。
使用萬用字元搜尋來合併表時,結果範圍限定為在連線到的初始檔案中掃描的頁面。例如,假設您具有三個檔案:A.pdf、B.pdf 和 C.pdf。您連線到的第一個檔案是 A,並且將表的掃描限制為第 1 頁。當使用萬用字元搜尋來合併檔案 B 和 C 中的表時,聯集中包含的其他表只能來自 B 的第 1 頁和 C 的第 1 頁。
使用 .pdf 檔案的提示
以下提示可幫助您在 Tableau 中使用 .pdf 檔案。
使用 PDF 檔案連接器以僅識別 .pdf 檔案中的表。
PDF 檔案連接器的主要目標是在 .pdf 檔案中尋找和標識表。因此,它會忽略檔案中似乎不屬於表格的任何其他資訊,包括標題、說明和註腳。如果相關資料存放在這些區域之一(如表標題)中,您可以使用 Tableau 先將 .pdf 檔案資料匯出到 .csv 檔案中,手動新增存放在表標題中的資料,然後改為連線到 .csv 檔案。有關詳情,請參閱將資料匯出為 .csv 檔案。
使用標準表。
通常,Tableau 對使用表格格式的標準表的處理效果最好。
理想情況下,.pdf 檔案中的表在一行中具有欄標題,在一行中具有列值,如下面的範例中所示。
表中或表周圍使用的顏色和陰影可能會影響表的識別方式。
具有獨特格式設定的表可能需要在 Tableau 之外進行一些清理或手動編輯。獨特的格式設定可能包括分層標題、跨多行的標題名稱、跨多行的列值、斜置標題和堆疊的表,如下面的範例中所示。
附註:Tableau 不支援連線到掃描(光學字元辨識)軟體產生的 .pdf 檔案。
驗證資料。
確保驗證 Tableau 在 .pdf 檔案中標識的表中的資料。您可以使用資料網格或結果工作簿(如果您使用了資料解譯器)來驗證資料。
避免跨多頁的表。
如果 .pdf 檔案包含跨多頁的表,Tableau 會將該表解讀為多個表。若要解決此問題,請使用聯集來合併這些表。有關詳情,請參閱聯集資料。
重命名其檔案名包含 unicode 字元的 .pdf 檔案。
連線到檔案名中包含 unicode 字元的 .pdf 檔案後,您可能會看到以下錯誤。
若要解決此問題,請使用非 unicode 字元重命名檔案,並再次連線到 .pdf 檔案。
不要使用密碼保護的 .pdf 檔案。
連線到 .pdf 檔案並在其中掃描表之後,您可能會看到以下錯誤。
如果 .pdf 檔案受密碼保護,並且 Tableau 無法訪問其內容,則會顯示此錯誤。Tableau 不支援連線到密碼保護的 .pdf 檔案。
以不同方式或不正確方式解讀的別名值。
在資料網格中,您可能會注意到,某些值的解讀方式與 .pdf 檔案不同。透過使用別名來重命名欄位內的特定值,您可以糾正這種解讀。
舉例來說,假設您在連線到 .pdf 檔案後看到下表。某些州/省/市/自治區被解讀為小寫形式,以藍色醒目顯示。
透過使用別名將小寫形式的縮寫變更為大寫形式的縮寫,您可以解決此問題。為此,請按一下欄名稱旁邊的下拉箭頭,並選取 [別名] 。
解決解讀為表值的欄標題。
在資料網格中,您可能還會注意到 .pdf 檔案中的某些欄標題反而被解釋為表值。如果您的 .pdf 檔案包含具有唯一格式或層次標題的表,則可能會發生這種情況。在這種情況下,先嘗試使用資料解譯器。如果 Data Interpreter 未解決該問題,請考慮手動將欄重命名其適當的名稱,並使用資料來源篩選器來篩選被視為值的標題名稱。
舉例來說,假設您在連線到 .pdf 檔案後看到下表。.pdf 檔案中的表標題被解釋為表值,以藍色醒目顯示。
一種解決此類標題問題的方法是按照類似於以下的步驟進行操作:
按兩下欄名稱,然後將 F1 重命名為 [Year] (年份)。對 F2 至 F4 重複此步驟,分別命名為 [Coal] (煤炭)、 [Gas] (天然氣)和 [Oil] (石油)。
按一下 [Year] (年份)欄的資料類型圖示,並將其變更為數值資料類型。這會導致將此欄中的非數值轉換為空值。
在資料來源頁面的右上角,按一下 [新增] ,按一下 [新增] 按鈕,然後選取 [Year] (年份)欄位。
在 [篩選器] 對話方塊中,同時選中 [Null] 和 [排除] 核取方塊。
[Year] (年份)欄中包含 Null 值的列將從資料網格中刪除,從而影響表中其他欄的列。
關於 .ttde 和 .hhyper 檔案
在電腦的目錄中巡覽時,您可能會注意到 .ttde 或 .hhyper 檔案。當您建立連線至資料的 Tableau 資料來源時,Tableau 會建立 .ttde 或 .hhyper 檔案。此檔案(也稱為陰影擷取)用於幫助提高 Tableau Desktop 中的資料來源載入速度。儘管陰影擷取包含類似於標準 Tableau 擷取的基礎資料和其他資訊,但陰影擷取將以其他格式儲存,並且無法用於恢復資料。
附註:2024.2 之後的 Tableau 版本不再支援 .tde 檔案。所有擷取現在均為 .hyper 格式。