Excel、CSV、PDF、および Google スプレッドシートからのデータ インタープリターを使用するデータのクリーニング

データを Excel スプレッドシートで追跡する際には、人によるインターフェイスを想定して作成しています。スプレッドシートを読みやすくするために、タイトル、積み重ねられたヘッダー、注、空欄を追加するための空の行や列、さらに複数のデータのタブなども含める場合があります。

データを Tableau で分析する際は、上記の美的な属性により Tableau によるデータの解析が非常に困難になります。データインタープリターはこの点に役立ちます。

ヒント: Tableau の Excel アドインはサポートされなくなりましたが、データインタープリターはお持ちのデータの形状を Tableau での分析用に整えます。

データインタープリターの役割

データインタープリターはデータクリーンアップ時に有利にスタートが切れます。タイトル、注、フッター、空のセルなどを検出してバイパスし、データセットの実際のフィールドや値を特定できます。

さらに、追加のテーブルやサブテーブルでさえも検出して、他のデータとは独立してデータのサブセットを操作できるようにします。

データインタープリターの処理後、その作業を選択して必要なデータがキャプチャーされ適切に特定されていることを確認できます。次に、必要な調整があれば行います。

作業したいデータを選択後、分析を開始する前に、データを必要な形状で得るためにデータのピボット化、フィールド分割、またはフィルターの追加などの追加のクリーニングステップを行う必要がある場合もあります。

: データインタープリターが行う以上のクリーニングがデータに必要である場合は、Tableau Prep(新しいウィンドウでリンクが開く)を試してください。

Data Interpreter をオンにして結果を確認する

  1. 接続ペインから、Excel スプレッドシートまたはテキスト (.csv) ファイル、PDF ファイルまたは Google スプレッドシートなどの Data Interpreter に対応しているその他のコネクタに接続します。

  2. 表をキャンバスにドラッグして(必要があれば)、 データソース ページの、左ペインで、 データインタープリターの使用チェック ボックスを選択して、データインタープリターがデータのクリーニングに役立つかどうかを確認します。

    注:Data Interpreter を使用してデータをクリーンアップすると、Data Interpreter はデータ ソース内の接続に関連付られたすべてのデータをクリーンアップします。Data Interpreter が参照元のデータを変更することはありません。

  3. データ ペインで、結果の確認 リンクをクリックしてデータインタープリターの結果を確認します。

    データ ソースのコピーが、[Data Interpreter のキー] タブに Excel 形式で開きます。キーを見て、結果を読み取る方法を確認します。

  4. それぞれのタブをクリックして、データインタープリターでデータ ソースがどのように解釈されたか確認します。

    データインタープリターに追加の表がある場合は、これは見つかった表またはサブ表とも呼ばれますが、セル範囲の輪郭を描くことで <sheet name>_subtables タブを特定します。個別タブも各サブ表に含まれ、ヘッダーとデータ行を認識するために色分けされます。

    データ インタープリターで期待した結果が得られない場合は、[データ インタープリターでクリーニング済] チェック ボックスをクリアして元のデータ ソースを使用することができます。

  5. 現在の表を任意の見つかった表に交換する場合は、現在の表をキャンバスの外にドラッグし、次に使用したい見つかった表をキャンバスにドラッグします。

    データインタープリター見つかった表の範囲を誤って識別した場合は、見つかった表をキャンバスにドラッグした後で、表のドロップダウン矢印をクリックし、[見つかった表の編集] を選択して、見つかった表表の隅 (表の左上のセルと右下のセル) を調整します。

  6. 作業したいデータを取得したら、追加のクリーニング処理をデータに適用して、データを分析できるようにします。

データインタープリターの拡張機能

この例では、2016 年の都市および州ごとの凶悪犯罪データを含む Excel スプレッドシートに接続します。このスプレッドシートは 1 シートに複数の表があり、追加の書式設定が施されています。

  1. タイトル

  2. マージしたヘッダー セル

  3. 追加の空白

  4. サブ表

このスプレッドシートの追加の書式設定におり、Tableau はフィールド ヘッダーおよび値が何であるかの判断が困難です。

代わりに、データを垂直的に読み取って、各列に既定値 F1、F2、F3 (フィールド 1、フィールド 2、フィールド 3)などと割り当てます。空白セルは null 値として読まれます。

データインタープリターがこのデータセットのクリーニングに対応するかどうかを確認するには、データインタープリターの使用を選択します。

データインタープリターはフィールドの適切なヘッダーを検出し、追加の書式設定を削除し、複数のサブ表を見つけます。サブ表はデータペインの シート セクションに一覧されていて、元のシート名および、各サブ表のセル範囲を使って名前を付けられます。

この例では、3 つのサブ表があります。 Crimes 2016 A4:H84Crimes 2016 K5:L40、および Crimes 2016 O5:P56

データインタープリターの結果をより密接に検証するには、データペインの結果を表示リンクをクリックしてスプレッドシートの注釈付きコピーを表示します。

ここでは、どのデータがヘッダーデータか、およびどのデータがフィールド値として認識されているかを見るために色分けされた、元のデータのコピーを確認できます。

次のタブは、データインタープリターが見つけて、セル範囲により輪郭を描いたサブ表を表示します。

この例では 1 番目のサブ表、Crimes 2016 A4:H84に処理したい主なデータがあります。この表をデータ表として使用するには、元の表をキャンバスの外にドラッグして、次に新しい表をキャンバスにドラッグするだけです。

処理したいデータをキャンバスに準備したら、データの追加クリーニングを実行できます。例えば、以下が可能です。

  • フィールド名を都市、週、月の名称を現すように変更する。

  • 月フィールドをピボットする。

  • 3 番目のサブ表 Crimes 2016 o5:P56 にドラッグして、State フィールドにある 1 番目のサブ表と結合し、分析に州の人口を加えます。

  • 結合した結果追加されたフィールドを非表示にして複製する。

結果は次のようになります。

Tableau でのデータ分析の開始準備が完了しました。

Data Interpreter が使用できない場合

Data Interpreter オプションは、次の理由で使用できない場合があります。

  • データ ソースがすでに Tableau が解釈できる形式になっている:Tableau Desktop が Data Interpreter が提供する追加のヘルプによって独自の形式や余分な情報を扱う必要がない場合、Data Interpreter オプションは使用できません。

  • 行や列の数が多すぎる:データが次の属性を持っている場合、Data Interpreter オプションは使用できません。

    • データに 2000 を超える列が含まれている。

    • データに 3000 を超える行と 150 を超える列が含まれている。

  • データ ソースがサポートされていない: データインタープリターは Microsoft Excel、テキスト (.csv) ファイル、PDF ファイルおよびGoogle スプレッドシートでのみ利用できます。Excel では、データは .xls または .xlsx 形式である必要があります。