PDF ファイル
この記事では、Tableau を .pdf ファイル データに接続してデータ ソースを設定する方法について説明します。
注: Tableau は右から左へ書く言語 (RTL) をサポートしていません。PDF に RTL テキストが含まれている場合、文字は Tableau で逆の順序で表示される場合があります。
表で使用するドキュメントに接続してスキャンする
Tableau を開き、[接続] で [PDF ファイル] をクリックします。
接続するファイルを選択し、[開く] をクリックします。
[PDF ファイルをスキャン] ダイアログ ボックスで、表を使用するために Tableau でスキャンするファイルのページを指定します。スキャンするページは、全ページ、単一ページ、または範囲を指定したページから選択できます。
注: スキャンでは、大半の PDF リーダーと同様に、ファイルの最初のページがページ 1 としてカウントされます。表のためにスキャンする際に、ドキュメント自体で使用されているページ番号 (ページ 1 から開始する場合としない場合があります) ではなく、PDF リーダーが表示するページ番号を指定します。
たとえば、以下のイメージの "Table 1" を使用するとします。PDF リーダーは番号を表示し、.pdf ファイルには異なる番号が表示されます。このページを正しくスキャンするには、PDF リーダーが表示するページ番号を指定します。この例では、ページ 15 を指定します。
データ ソース ページで次の手順を行います。
(任意) ページ上部にある既定のデータ ソース名を選択し、Tableau で使用する一意のデータ ソース名を入力します。たとえば、データの他のユーザーが、どのデータ ソースに接続するか推測するのに役立つ命名規則を使用します。ファイル名に基づいて、既定の名前が自動的に生成されます。
ファイルに含まれる表が 1 つの場合は、[シート] タブをクリックすると分析が開始されます。それ以外の場合は、左ペインから表をキャンバスにドラッグしてから [シート] タブをクリックすると、分析が開始されます。
左ペインの表について
.pdf ファイル内で特定された表は、一意の名前が付けられ、スキャン後に左ペインに表示されます。たとえば、"Page 1, Table 1" のような名前の表が表示されます。表名の最初の部分は表の取得元の .pdf ファイル内のページを示しています。表名の 2 番目の部分は、表が識別された順序を示しています。Tableau が 1 ページで複数の表を識別した場合は、表名の 2 番目の部分は次の 2 つの事柄のいずれかを示すことができます。
- Tableau がページで別の一意の表または副表を識別した。
- Tableau がページ上の表を別の方法で解釈した。Tableau は、.pdf ファイル内で表が表されている方法に応じて、表の複数の解釈を提供することがあります。
PDF ファイル データ ソースの例
PDF ファイルのデータ ソースの例を次に示します。
データの追加
表を追加したり、別のデータベースのデータに接続したりして、データ ソースにデータを追加できます。
現在のファイルからデータを追加するには、次の手順を実行します。
異なるデータベースからデータを追加するには、次の手順を実行します。左ペインで [接続] の横にある [追加] をクリックします。詳細については、データの結合を参照してください。
左ペインに必要なコネクターがリストされていない場合は、[データ] > [新しいデータ ソース] を選択して新しいデータ ソースを追加します。詳細については、データのブレンドを参照してください。
表オプションの設定
表オプションを設定できます。キャンバスで、ドロップダウン矢印をクリックし、データの最初の行にフィールド名を含めるかどうかを指定します。その場合、これらの名前が Tableau のフィールド名になります。フィールド名が含まれていない場合は、Tableau によって自動的に生成されます。これらのフィールド名は後で変更できます。
Data Interpreter を使用してデータをクリーンアップする
データ ソースを分析用に最適化すると役立つ可能性があることを Tableau が検出した場合、Data Interpreter を使用するよう求めるプロンプトが表示されます。Data Interpreter は試用できるサブテーブルを検出し、分析で後から問題の原因となる可能性がある一意の書式設定を削除できます。詳細については、Excel、CSV、PDF、および Google スプレッドシートからのデータ インタープリターを使用するデータのクリーニングを参照してください。
.pdf ファイルで表のユニオンを作成する
お使いのファイルで表のユニオンを作成することができます。ユニオンの詳細については、データのユニオンを参照してください。
ワイルドカード検索を使用して表のユニオンを作成すると、結果の範囲は最初に接続したファイルでスキャンしたページになります。たとえば、次の 3 ファイルがあるとします。A.pdf、B.pdf、および C.pdf。接続する最初のファイルは A で、表のためにスキャンするのはページ 1 のみとします。ワイルドカード検索を使用してファイル B と C の表のユニオンを作成すると、ユニオンに含まれる追加の表は、ファイル B と C のそれぞれページ 1 からのみ抽出された表になります。
.pdf ファイル操作のヒント
次のヒントは、Tableau で .pdf ファイルを操作する際に役立ちます。
PDF ファイル コネクターを使用して、.pdf ファイルにある表のみを識別する。
PDF ファイル コネクターの主な目的は .pdf ファイルにある表を検索して識別することです。したがって、タイトル、キャプション、脚注など、表の一部として見なされないファイル内の他の情報はすべて無視されます。表のタイトルなど、これらの領域に関連データが格納されている場合は、Tableau で最初に .pdf ファイルのデータを .csv ファイルにエクスポートしてから、表のタイトルに格納されている当該データを手動で追加し、その後、.csv ファイルに接続してください。詳細については、.csv ファイルへのデータのエクスポートを参照してください。
標準の表を使用する。
一般に、Tableau は表形式を使用する標準の表で最適に動作します。
理想的には、以下の例に示すように、.pdf ファイルの表は単一ラインに列ヘッダーがあり、単一ラインに行の値を含んでいます。
表の内部または周囲で色と網掛けを使用することで、表を識別する方法を左右することができます。
固有の書式設定の表は、Tableau 以外の場所でクリーンアップまたは手動による編集が必要になる場合があります。固有の書式設定には、以下に示す例のように、階層ヘッダー、複数ラインにわたるヘッダー名、複数ラインにわたる行の値、角度のあるヘッダー、積み重ねられた表などが含まれます。
注: Tableau は、スキャン (光学文字認識) ソフトウェアによって生成された .pdf ファイルへの接続をサポートしていません。
データを検証する。
Tableau が .pdf ファイルで識別する表のデータは、必ず検証してください。データの検証にはデータ グリッドを使用できます。データ インタープリターを使用している場合は結果のワークブックで検証することもできます。
複数ページにわたる表を回避する。
.pdf ファイルに複数ページにわたる表が含まれる場合、Tableau はその表を複数の表として解釈します。この問題を解決するには、ユニオンを使用してテーブルを組み合わせます。詳細については、データのユニオンを参照してください。
ユニコード文字を含むファイル名の .pdf ファイルは名前を変更する。
ファイル名にユニコード文字を含む .pdf ファイルに接続した後、次のエラーが表示されることがあります。
この問題を解決するには、ユニコード以外の文字を使用してファイル名を変更し、再度 .pdf ファイルに接続します。
パスワード保護された .pdf ファイルは使用しない。
表の .pdf ファイルに接続してスキャンした後、次のエラーが表示されることがあります。
Tableau は、.pdf ファイルがパスワード保護されており、そのコンテンツにアクセスできない場合にこのエラーを表示します。Tableau は、パスワード保護された .pdf ファイルへの接続をサポートできません。
異なって、または誤って解釈される別名の値。
データ グリッドでは、一部の値が .pdf ファイルから異なって解釈される場合があります。別名を使用してフィールド内の特定の値の名前を変更することで、この解釈を修正できます。
たとえば、.pdf ファイルとの接続後に次の表があるとします。青色でハイライトされた一部の州の省略形は、小文字で解釈されます。
別名を使用して小文字の省略形を大文字の省略形に変更することで、この問題を解決できます。これを行うには、列名の隣のドロップダウン矢印をクリックして、[別名] を選択します。
表の値として解釈される列ヘッダーを解決する。
データ グリッドでは、.pdf ファイルにある一部の列ヘッダーが、ヘッダーではなく表の値として解釈される場合があります。これは、.pdf ファイルに、独自の書式設定または階層形式のヘッダーを持つ表が含まれている場合に発生します。このような場合は、最初にデータ インタープリターを試してみてください。データ インタープリターで問題が解決されない場合は、手動で列の名前を適切なものに変更し、データ ソース フィルターを使用して値として処理されるヘッダー名をフィルターリングすることを検討してください。
たとえば、.pdf ファイルとの接続後に次の表があるとします。.pdf ファイルの表のヘッダーが表の値として解釈され、値が青色でハイライトされています。
このようなヘッダーの問題を解決する 1 つの方法として、次のような手順に従います。
列名をダブルクリックし、F1 を "Year (年)" に名前変更する。F2 から F4 まで、"Coal (石炭)"、"Gas (ガス)"、"Oil (石油)" についてこの手順を繰り返します。
列 "Year (年)" のデータ型アイコンをクリックし、数値データ型に変更する。これで、この列にある数字以外の値は null 値に変換されます。
[データ ソース] ページの右上隅で [追加] をクリックし、[追加] ボタンをクリックして [年] フィールドを選択する。
[フィルター] ダイアログ ボックスで、[Null] および [除外] の両チェック ボックスをオンにする。
null 値が含まれている [年] 列の行がデータ グリッドから削除され、表内の他の列の行にも反映されます。
.ttde ファイルおよび .hhyper ファイルについて
コンピューターのディレクトリを移動していると、.ttde または .hhyper ファイルに気づくかもしれません。お使いのデータに接続する Tableau データ ソースを作成すると、Tableau は .ttde または .hhyper ファイルを作成します。このファイルはシャドー抽出としても知られ、Tableau Desktop でデータ ソースの読み込み速度を向上させるのに使用されます。シャドー抽出には参照元データや標準的な Tableau 抽出に似た他の情報が含まれますが、シャドー抽出は別の形式で保存されているため、データの復元には使用できません。
注: Tableau バージョン 2024.2 以降では、.tde ファイルはサポートされなくなりました。すべての抽出は .hyper 形式になりました。
関連項目
- データ ソースの設定 – このデータ ソースにさらにデータを追加したり、データ分析の前にデータを準備したりします。
- グラフの構築とデータの分析 – データ分析を開始します。