PDF ファイル

適用先: Tableau Desktop, Tableau Prep

この記事では、Tableau を .pdf ファイルデータに接続してデータソースを設定する方法について説明します。

注: Tableau は右から左へ書く言語 (RTL) をサポートしていません。PDF に RTL テキストが含まれている場合、文字は Tableau で逆の順序で表示される場合があります。

表で使用するドキュメントに接続してスキャンする

Tableau を開き、[接続] で [PDF ファイル] をクリックします。
接続するファイルを選択し、[開く] をクリックします。
[PDF ファイルをスキャン] ダイアログボックスで、表を使用するために Tableau でスキャンするファイルのページを指定します。スキャンするページは、全ページ、単一ページ、または範囲を指定したページから選択できます。
注: スキャンでは、大半の PDF リーダーと同様に、ファイルの最初のページがページ 1 としてカウントされます。表のためにスキャンする際に、ドキュメント自体で使用されているページ番号 (ページ 1 から開始する場合としない場合があります) ではなく、PDF リーダーが表示するページ番号を指定します。
たとえば、以下のイメージの "Table 1" を使用するとします。PDF リーダーは番号を表示し、.pdf ファイルには異なる番号が表示されます。このページを正しくスキャンするには、PDF リーダーが表示するページ番号を指定します。この例では、ページ 15 を指定します。
データソースページで次の手順を行います。
1. (任意) ページ上部にある既定のデータソース名を選択し、Tableau で使用する一意のデータソース名を入力します。たとえば、データの他のユーザーが、どのデータソースに接続するか推測するのに役立つ命名規則を使用します。ファイル名に基づいて、既定の名前が自動的に生成されます。
2. ファイルに含まれる表が 1 つの場合は、[シート] タブをクリックすると分析が開始されます。それ以外の場合は、左ペインから表をキャンバスにドラッグしてから [シート] タブをクリックすると、分析が開始されます。
  左ペインの表について
  .pdf ファイル内で特定された表は、一意の名前が付けられ、スキャン後に左ペインに表示されます。たとえば、"Page 1, Table 1" のような名前の表が表示されます。表名の最初の部分は表の取得元の .pdf ファイル内のページを示しています。表名の 2 番目の部分は、表が識別された順序を示しています。Tableau が 1 ページで複数の表を識別した場合は、表名の 2 番目の部分は次の 2 つの事柄のいずれかを示すことができます。
  - Tableau がページで別の一意の表または副表を識別した。
  - Tableau がページ上の表を別の方法で解釈した。Tableau は、.pdf ファイル内で表が表されている方法に応じて、表の複数の解釈を提供することがあります。

PDF ファイルデータソースの例

PDF ファイルのデータソースの例を次に示します。

PDF へのエクスポート用に選択された母集団データ接続の詳細を表示するウィンドウ。

データの追加

表を追加したり、別のデータベースのデータに接続したりして、データソースにデータを追加できます。

現在のファイルからデータを追加するには、次の手順を実行します。
- 左ペインから追加する表をキャンバスにドラッグして、結合またはユニオンでデータを組み合わせます。詳細については、データの結合またはデータのユニオンを参照してください。
- 上記のステップ 3 を実行してページをスキャンしても左ペインに必要な表が生成されない場合、接続する PDF ファイルの横のドロップダウン矢印をクリックして [PDF ファイルを再スキャン] をクリックします。このオプションによって新しいスキャンを行うことができるようになるため、.pdf ファイルの別のページを指定して表をスキャンできます。
異なるデータベースからデータを追加するには、次の手順を実行します。左ペインで [接続] の横にある [追加] をクリックします。詳細については、データの結合を参照してください。
左ペインに必要なコネクターがリストされていない場合は、[データ] > [新しいデータソース] を選択して新しいデータソースを追加します。詳細については、データのブレンドを参照してください。

表オプションの設定

表オプションを設定できます。キャンバスで、ドロップダウン矢印をクリックし、データの最初の行にフィールド名を含めるかどうかを指定します。その場合、これらの名前が Tableau のフィールド名になります。フィールド名が含まれていない場合は、Tableau によって自動的に生成されます。これらのフィールド名は後で変更できます。

Data Interpreter を使用してデータをクリーンアップする

データソースを分析用に最適化すると役立つ可能性があることを Tableau が検出した場合、Data Interpreter を使用するよう求めるプロンプトが表示されます。Data Interpreter は試用できるサブテーブルを検出し、分析で後から問題の原因となる可能性がある一意の書式設定を削除できます。詳細については、Excel、CSV、PDF、および Google スプレッドシートからのデータインタープリターを使用するデータのクリーニングを参照してください。

.pdf ファイルで表のユニオンを作成する

お使いのファイルで表のユニオンを作成することができます。ユニオンの詳細については、データのユニオンを参照してください。

ワイルドカード検索を使用して表のユニオンを作成すると、結果の範囲は最初に接続したファイルでスキャンしたページになります。たとえば、次の 3 ファイルがあるとします。A.pdf、B.pdf、および C.pdf。接続する最初のファイルは A で、表のためにスキャンするのはページ 1 のみとします。ワイルドカード検索を使用してファイル B と C の表のユニオンを作成すると、ユニオンに含まれる追加の表は、ファイル B と C のそれぞれページ 1 からのみ抽出された表になります。

.pdf ファイル操作のヒント

次のヒントは、Tableau で .pdf ファイルを操作する際に役立ちます。

PDF ファイルコネクターを使用して、.pdf ファイルにある表のみを識別する。
PDF ファイルコネクターの主な目的は .pdf ファイルにある表を検索して識別することです。したがって、タイトル、キャプション、脚注など、表の一部として見なされないファイル内の他の情報はすべて無視されます。表のタイトルなど、これらの領域に関連データが格納されている場合は、Tableau で最初に .pdf ファイルのデータを .csv ファイルにエクスポートしてから、表のタイトルに格納されている当該データを手動で追加し、その後、.csv ファイルに接続してください。詳細については、.csv ファイルへのデータのエクスポートを参照してください。
標準の表を使用する。
一般に、Tableau は表形式を使用する標準の表で最適に動作します。
理想的には、以下の例に示すように、.pdf ファイルの表は単一ラインに列ヘッダーがあり、単一ラインに行の値を含んでいます。
表の内部または周囲で色と網掛けを使用することで、表を識別する方法を左右することができます。
固有の書式設定の表は、Tableau 以外の場所でクリーンアップまたは手動による編集が必要になる場合があります。固有の書式設定には、以下に示す例のように、階層ヘッダー、複数ラインにわたるヘッダー名、複数ラインにわたる行の値、角度のあるヘッダー、積み重ねられた表などが含まれます。
注: Tableau は、スキャン (光学文字認識) ソフトウェアによって生成された .pdf ファイルへの接続をサポートしていません。
データを検証する。
Tableau が .pdf ファイルで識別する表のデータは、必ず検証してください。データの検証にはデータグリッドを使用できます。データインタープリターを使用している場合は結果のワークブックで検証することもできます。
複数ページにわたる表を回避する。
.pdf ファイルに複数ページにわたる表が含まれる場合、Tableau はその表を複数の表として解釈します。この問題を解決するには、ユニオンを使用してテーブルを組み合わせます。詳細については、データのユニオンを参照してください。
ユニコード文字を含むファイル名の .pdf ファイルは名前を変更する。
ファイル名にユニコード文字を含む .pdf ファイルに接続した後、次のエラーが表示されることがあります。
この問題を解決するには、ユニコード以外の文字を使用してファイル名を変更し、再度 .pdf ファイルに接続します。
パスワード保護された .pdf ファイルは使用しない。
表の .pdf ファイルに接続してスキャンした後、次のエラーが表示されることがあります。
Tableau は、.pdf ファイルがパスワード保護されており、そのコンテンツにアクセスできない場合にこのエラーを表示します。Tableau は、パスワード保護された .pdf ファイルへの接続をサポートできません。
異なって、または誤って解釈される別名の値。
データグリッドでは、一部の値が .pdf ファイルから異なって解釈される場合があります。別名を使用してフィールド内の特定の値の名前を変更することで、この解釈を修正できます。
たとえば、.pdf ファイルとの接続後に次の表があるとします。青色でハイライトされた一部の州の省略形は、小文字で解釈されます。
別名を使用して小文字の省略形を大文字の省略形に変更することで、この問題を解決できます。これを行うには、列名の隣のドロップダウン矢印をクリックして、[別名] を選択します。
表の値として解釈される列ヘッダーを解決する。
データグリッドでは、.pdf ファイルにある一部の列ヘッダーが、ヘッダーではなく表の値として解釈される場合があります。これは、.pdf ファイルに、独自の書式設定または階層形式のヘッダーを持つ表が含まれている場合に発生します。このような場合は、最初にデータインタープリターを試してみてください。データインタープリターで問題が解決されない場合は、手動で列の名前を適切なものに変更し、データソースフィルターを使用して値として処理されるヘッダー名をフィルターリングすることを検討してください。
たとえば、.pdf ファイルとの接続後に次の表があるとします。.pdf ファイルの表のヘッダーが表の値として解釈され、値が青色でハイライトされています。
このようなヘッダーの問題を解決する 1 つの方法として、次のような手順に従います。
1. 列名をダブルクリックし、F1 を "Year (年)" に名前変更する。F2 から F4 まで、"Coal (石炭)"、"Gas (ガス)"、"Oil (石油)" についてこの手順を繰り返します。
2. 列 "Year (年)" のデータ型アイコンをクリックし、数値データ型に変更する。これで、この列にある数字以外の値は null 値に変換されます。
3. [データソース] ページの右上隅で [追加] をクリックし、[追加] ボタンをクリックして [年] フィールドを選択する。
4. [フィルター] ダイアログボックスで、[Null] および [除外] の両チェックボックスをオンにする。
  null 値が含まれている [年] 列の行がデータグリッドから削除され、表内の他の列の行にも反映されます。

.ttde ファイルおよび .hhyper ファイルについて

コンピューターのディレクトリを移動していると、.ttde または .hhyper ファイルに気づくかもしれません。お使いのデータに接続する Tableau データソースを作成すると、Tableau は .ttde または .hhyper ファイルを作成します。このファイルはシャドー抽出としても知られ、Tableau Desktop でデータソースの読み込み速度を向上させるのに使用されます。シャドー抽出には参照元データや標準的な Tableau 抽出に似た他の情報が含まれますが、シャドー抽出は別の形式で保存されているため、データの復元には使用できません。

注: Tableau バージョン 2024.2 以降では、.tde ファイルはサポートされなくなりました。すべての抽出は .hyper 形式になりました。

Tableau Desktop と Web 作成のヘルプ

PDF ファイル

表で使用するドキュメントに接続してスキャンする

PDF ファイルデータソースの例

データの追加

表オプションの設定

Data Interpreter を使用してデータをクリーンアップする

.pdf ファイルで表のユニオンを作成する

.pdf ファイル操作のヒント

.ttde ファイルおよび .hhyper ファイルについて

関連項目

Tableau Desktop と Web 作成のヘルプ

PDF ファイル

表で使用するドキュメントに接続してスキャンする

PDF ファイル データ ソースの例

データの追加

表オプションの設定

Data Interpreter を使用してデータをクリーンアップする

.pdf ファイルで表のユニオンを作成する

.pdf ファイル操作のヒント

.ttde ファイルおよび .hhyper ファイルについて

関連項目

PDF ファイルデータソースの例