データの検証

: バージョン 2020.4.1 以降では、Tableau Server および Tableau Cloud でフローの作成と編集を行えるようになりました。このトピックの内容は、特に記載がない限り、すべてのプラットフォームに適用されます。Web 上でのフローの作成の詳細については、Tableau Server(新しいウィンドウでリンクが開く) および Tableau Cloud(新しいウィンドウでリンクが開く) ヘルプの「Web 上の Tableau Prep」を参照してください。

このトピックでは、オプションを使用しながらデータの構成に関する理解を深めます。加える必要がある変更や、フローに含める操作の効果についての知識を高めます。

データに割り当てられたデータ型の確認

Tableau Desktop の場合と同じように、Tableau Prep は [フロー] ペインに接続をドラッグするとフィールドのデータを解釈し、それにデータ型を自動的に割り当てます。データベースが異なるとデータの取り扱い方法も異なる可能性があるため、Tableau Prep の解釈が常に正しくはならないことがあります。

データ型を変更するには、データ型アイコンをクリックし、コンテキスト メニューから正しいデータ型を選択します。文字列または整数のデータ型は [日付] または [日付と時刻] に変更でき、Tableau Prep は Auto DateParse をトリガーしてこれらのデータ型を変更します。Tableau Desktop と同様、変更がうまくいかない場合には、フィールドに代わりに NULL 値が表示され、計算を作成して変更を行うことができます。

DateParse の使用の詳細については、Tableau Desktop と Web 作成のヘルプの「フィールドを日付フィールドに変換する」(新しいウィンドウでリンクが開く)を参照してください。

次のデータ ソースからデータに接続した後、インプット ステップでデータ型を変更できます。

  • Microsoft Excel
  • テキスト ファイル
  • PDF ファイル
  • Box
  • Dropbox
  • Google ドライブ
  • OneDrive

その他のすべてのデータ ソースについては、クリーニング ステップまたは他のステップ タイプを追加してこの変更を行います。さまざまなステップ タイプで利用可能なクリーニング オプションの一覧については、クリーニング操作についてを参照してください。

データのサイズ詳細の確認

データに接続した後、表をフローに追加し、ステップを追加します。[プロファイル] ペインを使用してデータの現在の状態と構造を確認し、NULL と外れ値を検出できます。

  • フィールド数と行数: [プロファイル] ペインの左上隅では、フローの特定時点におけるデータのフィールド数と行数を要約する情報を確認できます。Tableau Prep は最も近い千の値に丸めます。以下の例では、データ セットに 21 個のフィールドと 3,000 行が含まれています。

    フィールド数と行数にカーソルを合わせると、正確な行数 (この例では 2848) を確認できます。


  • データ セットのサイズ: [入力] ペインの [データ サンプル] タブに含める行数を指定し、データのサブセットを操作します。

  • サンプリング済み: データの直接操作を有効にするため、Tableau Prep は生データのサブセットを操作します。行数は、データ型とレンダリングされているフィールド数により決まります。文字列フィールドは整数より多くの保存スペースを使用するため、データ セットに 10 個の文字列フィールドが含まれる場合は、10 個の整数フィールドがある場合よりも行数が少なくなることがあります。

    [サンプリング済み] のマークは [プロファイル] ペインのサイズ詳細の隣に表示され、これがデータ セットのサブセットであることを示します。フローに含めるデータの量を変更できます。Web 上でフローを作成または編集する場合、追加のデータ制限が適用されます。詳細については、データ サンプルのサイズの設定を参照してください。

  • 一意の値の数: 各フィールド ヘッダーの隣にある数字は、フィールド内に含まれている個別の値を表します。Tableau Prep は最も近い千の値に丸めます。以下の例で、[説明] フィールドには個別の 3,000 の値が示されていますが、数字にカーソルを合わせると、一意の値の正確な数を表示できます。



値の分布または一意の値の確認

Tableau Prep はデフォルトで、フィールドの数値、日付値、日付時刻値をバケットにグループ化します。これらのバケットは、ビンとしても知られています。ビンにより、ユーザーは値の分布を全体として確認し、外れ値や NULL 値をすぐに識別することができます。ビン サイズはフィールドの最小値と最大値に基づいて計算され、NULL 値は常に分布の上部に表示されます。

例えば、発注日と出荷日は年毎に「ビニング」、つまりまとめられています。各ビンは年初 1 月から翌年 1 月までの 1 年を指し、それに従ってラベルが付けられています。2018 年および 2019 年の後半に該当する販売日と出荷日があるため、それらの値を対象にして翌年のビンが作成されます。

不連続 (またはカテゴリー) データ フィールドに多くの行が含まれる、または分布が大きいためにスクロールなしではフィールドを表示できない場合、フィールドの右側に要約された分布を表示できます。分布をクリックしてスクロールし、特定の値を対象とすることができます。

データに数値フィールドまたは日付フィールドが含まれる場合は、詳細な (不連続) バージョンの値と要約された (連続) バージョンの値とで表示を切り替えることができます。要約されたビューでは、フィールドに含まれる値の範囲と特定の値が現れる頻度が表示されます。

この切り替えは、一意の値 (フィールドの「3」のレコードの数など) または値の分布 (フィールドの「3」のレコードの合計など) を分離するのに役立ちます。

ビューを切り替えるには、次を実行します。

  1. [プロファイル] ペイン、[結果] ペイン、またはデータ グリッドで、数値フィールドまたは日付フィールドの [その他のオプション] メニューをクリックします。

  2. コンテキスト メニューで [詳細] を選択すると詳細なバージョンの値が表示され、[サマリー] を表示すると分布バージョンの値が表示されます。

フィールドと値の検索

[プロファイル] ペインまたは [結果] ペインでは、特に関心のあるフィールドや値を検索し、その検索結果を使用してデータをフィルターできます。

バージョン 2021.1.1 以降では、フィールドを検索すると、見つかったフィールド数を示す新しいインジケーターが表示されるため、検索結果をより深く理解できるようになります。フィールドが見つからない場合は、追加のメッセージが表示されます。

フィールドを検索するには、ツールバーにある検索ボックスに検索条件をすべてまたは一部入力します。

フィールドの値を検索するには、次を実行します。

  1. フィールドの検索アイコン をクリックし、値を入力します。

  2. 高度な検索オプションを使用するには、[検索オプション ...] ボタンをクリックします。

  3. 検索結果を使用してデータをフィルターするには、[保持] または [除外] を選択します。

    [フロー] ペインでは、フィルター アイコンは影響のあるステップの上に表示されます。

データ グリッドのフィールド値をコピーする

Tableau Prep Builder および ableau Server バージョン2022.3 以降、Tableau Cloud バージョン2022.2 (8月) 以降でサポートされています。

選択した値のセットをデータ グリッドから簡単にコピーして、Microsoft Excel、テキスト (.csv) ファイル、メールなど、任意のドキュメントに貼り付けることができます。SQL エディタにコピー & ペーストして、SQL クエリを素早く実行することもできます。

  1. データ グリッドで、コピーするフィールド値を 1 つまたは複数選択します。
  2. 選択したフィールドの値を右クリック (MacOS では Cmd を押しながらクリック) して、メニューから [コピー] を選択します。キーボード ショートカットの Ctrl + C または cmd + C (MacOS) を使用するか、[...] ツールバーのメニューから [コピー] を選択することもできます。

  3. コピーしたフィールドをドキュメントまたは場所に貼り付けます。

    : 現在、[編集] > [コピー] の順にクリックしても、データ グリッドからフィールド値をコピーできません。

値とフィールドの並べ替え

[プロファイル] カードの並べ替えオプションを使用すると、ビン (分布バーで示される値の数) を昇順または降順に並べ替えたり、個々のフィールドの値をアルファベット順に並べ替えたりできます。

フィールドの並べ替え

リスト ビューを使用したフィールドの順序変更は、バージョン 2022.2.1 以降でサポートされています。

フィールドを新しい位置にドラッグ アンド ドロップすることにより、プロファイル ペイン、データ グリッド、またはリスト ビューからフィールドの順序を変更できます。

フィールドの順序を並べ替えるには:

  1. プロファイル ペイン、結果 ペイン、データ グリッド、または リスト ビューから、1 つ以上のプロファイル カードまたはフィールドを選択します。
  2. 黒いターゲット ラインが表示されるまでプロファイル カードまたはフィールドをドラッグします。
  3. プロファイル カードまたはフィールドを所定の位置にドロップします。
    プロファイル ペイン、データ グリッド、およびリスト ビューは同期されるため、すべての場所でフィールドが同じ順序で表示されます。フローを実行およびスケジュールするとき、フィールドの新しい順序は Tableau 製品全体で永続的に維持されています。

データ グリッドの並べ替え

リスト ビューの並べ替え

フロー内のフィールドと値のハイライト

Tableau Prep を使用すると、フィールドとフロー データ内の値の検索を簡単に行なえます。あるフィールドがどこに由来するかや、それがフロー ペインのフロー全体のうちどこで使用されているかを追跡するほか、プロファイル カードまたはデータ グリッドで個々の値をクリックし、関連する値や同一の値をハイライトします。

フロー内のフィールドの追跡

Tableau Prep では、フロー内のフィールドが使用される場所であればどこでもハイライト可能です。フィールドがどこに由来するかを確認するほか、欠落している値の追跡や、期待した結果が表示されない場合にフローのトラブルシューティングに役立てることもできます。

クリーニング ステップでは [プロファイル] ペインのフィールド、他のステップ タイプでは [結果] ペインのフィールドをクリックすると、フロー ペインではそのフィールドが使用されているパスがハイライトされます。

注: このオプションは、インプット ステップや出力ステップ タイプでは利用できません。

関連する値の確認

フィールド内で関連する値を見つけるには、ハイライトを使用できます。[プロファイル] ペインの [プロファイル] カードまたは [結果] ペインで値をクリックすると、他のフィールドの関連する値すべてが青にハイライトされます。青色は、選択した値と他のフィールドの値の関連分布を示します。

たとえば、関連する値をハイライトするには、[プロファイル] ペインでフィールドの値をクリックします。他のフィールドの関連する値は青になり、青くハイライトされたバーの大きさは関連度を示します。

同一の値のハイライト

データ グリッドの値を選択する場合、同一の値すべてもハイライトされます。これらのハイライトは、データのパターンまたは不規則性を識別するのに役立ちます。

フィードバックをありがとうございます。フィードバックは正常に送信されました。ありがとうございます!