データの検証

このトピックでは、オプションを使用してデータの構成に関する理解を深め、加える必要がある変更およびフローに含める操作の影響についての知識を高めていきます。

データに割り当てられたデータ型の確認

Tableau Desktop と同様、Tableau Prep Builder は [フロー] ペインに接続をドラッグするとフィールドのデータを解釈し、それにデータ型を自動的に割り当てます。データベースが異なるとデータの取り扱い方法も異なる可能性があるため、Tableau Prep Builder の解釈が常に正しくはならないことがあります。

データ型を変更するには、データ型アイコンをクリックし、コンテキスト メニューから正しいデータ型を選択します。文字列または整数のデータ型は [日付] または [日付と時刻] に変更でき、Tableau Prep Builder は Auto DateParse をトリガーしてこれらのデータ型を変更します。Tableau Desktop と同様、変更がうまくいかない場合には、フィールドに代わりに NULL 値が表示され、計算を作成して変更を行うことができます。

DateParse の使用の詳細については、Tableau Desktop と Web 作成のヘルプの「フィールドを日付フィールドに変換する」を参照してください。

データのサイズ詳細の確認

データに接続した後、表をフローに追加し、ステップを追加します。[プロファイル] ペインを使用してデータの現在の状態と構造を確認し、NULL と外れ値を検出できます。

  • フィールド数と行数: [プロファイル] ペインの左上隅では、フローの特定時点におけるデータのフィールド数と行数を要約する情報を確認できます。Tableau Prep Builder は最も近い千の値に丸めます。以下の例では、21 個のフィールドと 3,000 行がデータ セットにあります。

    フィールド数と行数にカーソルを合わせると、正確な行数 (この例では 2848) を確認できます。


  • データ セットのサイズ: [入力] ペインの [データ サンプル] タブに含める行数を指定し、データのサブセットを操作します。

  • サンプリング済み: データの直接操作を有効にするため、Tableau Prep Builder は生データのサブセットを操作します。行数は、データ型とレンダリングされているフィールド数により決まります。文字列フィールドは整数より多くの保存スペースを使用するため、データ セットに 10 個の文字列フィールドが含まれる場合は、10 個の整数フィールドがある場合よりも行数が少なくなることがあります。[サンプリング済み] インジケーターは [プロファイル] ペインのサイズ詳細の隣に表示され、これがデータ セットのサブセットであることを示します。データ サンプルの詳細については、データ セットの構成を参照してください。

  • 一意の値の数: 各フィールド ヘッダーの隣にある数字は、フィールド内に含まれている個別の値を表します。Tableau Prep Builder は最も近い千の値に丸めます。以下の例で、[説明] フィールドには個別の 3,000 の値が示されていますが、数字にカーソルを合わせると、一意の値の正確な数を表示できます。



値の分布または一意の値の確認

Tableau Prep Builder は既定で、フィールドの数値、日付値、日付時刻値をバケットにグループ化します。これらのバケットは、ビンとしても知られています。ビンにより、ユーザーは値の分布を全体として確認し、外れ値や NULL 値をすぐに識別することができます。ビン サイズはフィールドの最小値と最大値に基づいて計算され、NULL 値は常に分布の上部に表示されます。

例えば、発注日と出荷日は年毎に「ビニング」、つまりまとめられています。各ビンは年初 1 月から翌年 1 月までの 1 年を指し、それに従ってラベルが付けられています。2018 年および 2019 年の後半に該当する販売日と出荷日があるため、それらの値を対象にして翌年のビンが作成されます。

不連続 (またはカテゴリー) データ フィールドに多くの行が含まれる、または分布が大きいためにスクロールなしではフィールドを表示できない場合、フィールドの右側に要約された分布を表示できます。分布をクリックしてスクロールし、特定の値を対象とすることができます。

データに数値フィールドまたは日付フィールドが含まれる場合は、詳細な (不連続) バージョンの値と要約された (連続) バージョンの値とで表示を切り替えることができます。要約されたビューでは、フィールドに含まれる値の範囲と特定の値が現れる頻度が表示されます。

この切り替えは、一意の値 (フィールドの「3」のレコードの数など) または値の分布 (フィールドの「3」のレコードの合計など) を分離するのに役立ちます。

ビューを切り替えるには、次を実行します。

  1. [プロファイル] ペイン、[結果] ペイン、またはデータ グリッドで、数値フィールドまたは日付フィールドの [その他のオプション] メニューをクリックします。

  2. コンテキスト メニューで [詳細] を選択すると詳細なバージョンの値が表示され、[サマリー] を表示すると分布バージョンの値が表示されます。

フィールドと値の検索

[プロファイル] ペインまたは [結果] ペインでは、特に関心のあるフィールドや値を検索し、その検索結果を使用してデータをフィルターできます。

フィールドを検索するには、ツールバーにある検索ボックスに検索条件をすべてまたは一部入力します。

フィールドの値を検索するには、次を実行します。

  1. フィールドの検索アイコン をクリックし、値を入力します。

  2. 高度な検索オプションを使用するには、[検索オプション ...] ボタンをクリックします。

  3. 検索結果を使用してデータをフィルターするには、[保持] または [除外] を選択します。

    [フロー] ペインでは、フィルター アイコンは影響のあるステップの上に表示されます。

値とフィールドの並べ替え

[プロファイル] カードの並べ替えオプションを使用すると、ビン (分布バーで示される値の数) を昇順または降順に並べ替えたり、個々のフィールドの値をアルファベット順に並べ替えたりできます。

フィールドの順序を再配置する場合は、[プロファイル] ペイン、[結果] ペイン、または [データ] グリッドで、プロファイル カードまたはフィールドを選択し、対象の黒線が表示されるまでドラッグします。そして、正しい場所にドロップします。プロファイルペインとデータグリッドは同期されるため、どちらの場所にも同じ順序でフィールドが表示されます。

フロー内のフィールドと値のハイライト

Tableau Prep Builder を使用すると、フィールドとフロー データ内の値の検索を簡単に行なえます。あるフィールドがどこに由来するかや、それがフロー ペインのフロー全体のうちどこで使用されているかを追跡するほか、プロファイル カードまたはデータ グリッドで個々の値をクリックし、関連する値や同一の値をハイライトします。

フロー内のフィールドの追跡

Tableau Prep Builder バージョン 2018.3.3 以降では、フロー内のフィールドが使用される場所であればどこでもハイライト可能です。フィールドがどこに由来するかを確認するほか、欠落している値の追跡や、期待した結果が表示されない場合にフローのトラブルシューティングに役立てることもできます。

クリーニング ステップでは [プロファイル] ペインのフィールド、他のステップ タイプでは [結果] ペインのフィールドをクリックすると、フロー ペインではそのフィールドが使用されているパスがハイライトされます。

注: このオプションは、インプット ステップや出力ステップ タイプでは利用できません。

関連する値の確認

フィールド内で関連する値を見つけるには、ハイライトを使用できます。[プロファイル] ペインの [プロファイル] カードまたは [結果] ペインで値をクリックすると、他のフィールドの関連する値すべてが青にハイライトされます。青色は、選択した値と他のフィールドの値の関連分布を示します。

たとえば、関連する値をハイライトするには、[プロファイル] ペインでフィールドの値をクリックします。他のフィールドの関連する値は青になり、青くハイライトされたバーの大きさは関連度を示します。

同一の値のハイライト

データ グリッドの値を選択する場合、同一の値すべてもハイライトされます。これらのハイライトは、データのパターンまたは不規則性を識別するのに役立ちます。

フィードバックをくださりありがとうございます! フィードバックの送信中にエラが発生しました。もう一度やり直すか、メッセージをお送りください