データの検証とフィルタリング

加える必要がある変更およびフローに含める操作の影響について理解を深めるため、データの構成に関して十分に理解してください。

データのサイズ詳細の確認

データに接続した後、表をフローに追加し、ステップを追加します。[プロファイル] ペインを使用してデータの現在の状態と構造を確認し、NULL と外れ値を検出できます。

  • フィールド数と行数: [プロファイル] ペインの左上隅では、フローの特定時点におけるデータのフィールド数と行数を要約する情報を確認できます。Tableau Prep Builder は最も近い千の値に丸めます。以下の例では、21 個のフィールドと 3,000 行がデータ セットにあります。

    フィールド数と行数にカーソルを合わせると、正確な行数 (この例では 2848) を確認できます。


  • データ セットのサイズ: [入力] ペインの [データ サンプル] タブに含める行数を指定し、データのサブセットを操作します。

  • サンプリング済み: データの直接操作を有効にするため、Tableau Prep Builder は生データのサブセットを操作します。行数は、データ型とレンダリングされているフィールド数により決まります。文字列フィールドは整数より多くの保存スペースを使用するため、データ セットに 10 個の文字列フィールドが含まれる場合は、10 個の整数フィールドがある場合よりも行数が少なくなることがあります。[サンプリング済み] インジケーターは [プロファイル] ペインのサイズ詳細の隣に表示され、これがデータ セットのサブセットであることを示します。データ サンプルの詳細については、データへの接続の「データ サンプルのサイズの設定」を参照してください。

  • 一意の値の数: 各フィールド ヘッダーの隣にある数字は、フィールド内に含まれている個別の値を表します。Tableau Prep Builder は最も近い千の値に丸めます。以下の例で、[説明] フィールドには個別の 3,000 の値が示されていますが、数字にカーソルを合わせると、一意の値の正確な数を表示できます。



データに割り当てられたデータ型の確認

Tableau Desktop と同様、Tableau Prep Builder は [フロー] ペインに接続をドラッグするとフィールドのデータを解釈し、それにデータ型を自動的に割り当てます。データベースが異なるとデータの取り扱い方法も異なる可能性があるため、Tableau Prep Builder の解釈が常に正しくはならないことがあります。

データ型を変更するには、データ型アイコンをクリックし、コンテキスト メニューから正しいデータ型を選択します。文字列または整数のデータ型は [日付] または [日付と時刻] に変更でき、Tableau Prep Builder は Auto DateParse をトリガーしてこれらのデータ型を変更します。Tableau Desktop と同様、変更がうまくいかない場合には、フィールドに代わりに NULL 値が表示され、計算を作成して変更を行うことができます。

DateParse の使用の詳細については、Tableau Desktop と Web 作成のヘルプの「フィールドを日付フィールドに変換する」を参照してください。

データへのデータの役割の割り当て

有効でない値を特定しやすくするために、データ型を割り当てるのと同じ方法でフィールドにデータの役割を割り当てることができます。これによりデータ値が示す内容を Tableau Prep Builder に伝え、Tableau Prep が自動的に値を検証し、その役割で有効でない値をハイライトすることができます。

データの役割は、フィールド値が意味するまたは示す内容を Tableau Prep Builder に伝えます。たとえば、地理的データのフィールド値には [市区町村] のデータの役割を割り当てることができ、Tableau Prep Builder はフィールド内の値を既知の一連のドメイン値やパターンと比較することにより、一致しない値を特定します。

: 各フィールドは個別に分析されるため、国「米国」の都道府県/州「ワシントン」の市区町村値である「ポートランド」は有効な市区町村と都道府県/州の組み合わせでない可能性がありますが、これは有効な市区町村名のため、そのような方法では特定されません。

Tableau Prep Builder は以下のデータの役割をサポートしています。

  • メール

  • URL

  • 地理的役割 (現在の地理的データに基づく、Tableau Desktop で使用されるのと同じデータ)

    • 空港
    • 市外局番 (米国)
    • コアベース統計地域/大都市統計地域
    • 市区町村
    • 下院議員選挙区 (米国)
    • 国/地域
    • 欧州地域統計分類単位
    • 都道府県/州
    • 郵便番号

ヒント: Tableau Prep Builder バージョン 2019.1.4 以降では、地理的役割をフィールドに割り当てると、そのデータの役割を使用して、データの役割で定義した標準値を使用した値とのマッチングやグループ化もできます。データの役割を使用した値のグループ化の詳細については、 類似の値をデータの役割でグループ化するを参照してください。

フィールドのデータの役割を設定するには、次を実行します。

  1. [プロファイル] ペイン、[結果] ペイン、またはデータ グリッドで、フィールドのデータ型をクリックします。

  2. フィールドのデータの役割を選択します。

    Tableau Prep Builder は、フィールドのデータ値をユーザーが選択するデータの役割の既知のドメイン値やパターン (メールまたは URL) と比較し、一致しない値を赤い感嘆符でマークします。

  3. フィールドのドロップダウン矢印をクリックし、[値を表示] セクションから、すべての値を表示するオプション、またはデータの役割の有効な値か有効でない値のみを表示するオプションを選択します。

  4. 有効でない値を修正するには、フィールドの [その他のオプション]メニューでクリーニング オプションを使用します。フィールド値のクリーニング方法の詳細については、クリーニング操作の適用を参照してください。

値の分布または一意の値の確認

Tableau Prep Builder は既定で、フィールドの数値、日付値、日付時刻値をバケットにグループ化します。これらのバケットは、ビンとしても知られています。ビンにより、ユーザーは値の分布を全体として確認し、外れ値や NULL 値をすぐに識別することができます。ビン サイズはフィールドの最小値と最大値に基づいて計算され、NULL 値は常に分布の上部に表示されます。

例えば、発注日と出荷日は年毎に「ビニング」、つまりまとめられています。各ビンは年初 1 月から翌年 1 月までの 1 年を指し、それに従ってラベルが付けられています。2018 年および 2019 年の後半に該当する販売日と出荷日があるため、それらの値を対象にして翌年のビンが作成されます。

不連続 (またはカテゴリー) データ フィールドに多くの行が含まれる、または分布が大きいためにスクロールなしではフィールドを表示できない場合、フィールドの右側に要約された分布を表示できます。分布をクリックしてスクロールし、特定の値を対象とすることができます。

データに数値フィールドまたは日付フィールドが含まれる場合は、詳細な (不連続) バージョンの値と要約された (連続) バージョンの値とで表示を切り替えることができます。要約されたビューでは、フィールドに含まれる値の範囲と特定の値が現れる頻度が表示されます。

この切り替えは、一意の値 (フィールドの「3」のレコードの数など) または値の分布 (フィールドの「3」のレコードの合計など) を分離するのに役立ちます。

ビューを切り替えるには、次を実行します。

  1. [プロファイル] ペイン、[結果] ペイン、またはデータ グリッドで、数値フィールドまたは日付フィールドの [その他のオプション] メニューをクリックします。

  2. コンテキスト メニューで [詳細] を選択すると詳細なバージョンの値が表示され、[サマリー] を表示すると分布バージョンの値が表示されます。

値とフィールドの並べ替え

[プロファイル] カードの並べ替えオプションを使用すると、ビン (分布バーで示される値の数) を昇順または降順に並べ替えたり、個々のフィールドの値をアルファベット順に並べ替えたりできます。

フィールドの順序を再配置する場合は、[プロファイル] ペイン、[結果] ペイン、または [データ] グリッドで、プロファイル カードまたはフィールドを選択し、対象の黒線が表示されるまでドラッグします。そして、正しい場所にドロップします。プロファイルペインとデータグリッドは同期されるため、どちらの場所にも同じ順序でフィールドが表示されます。

フロー内のフィールドと値のハイライト

Tableau Prep Builder を使用すると、フィールドとフロー データ内の値の検索を簡単に行なえます。あるフィールドがどこに由来するかや、それがフロー ペインのフロー全体のうちどこで使用されているかを追跡するほか、プロファイル カードまたはデータ グリッドで個々の値をクリックし、関連する値や同一の値をハイライトします。

フロー内のフィールドの追跡

Tableau Prep Builder バージョン 2018.3.3 以降では、フロー内のフィールドが使用される場所であればどこでもハイライト可能です。フィールドがどこに由来するかを確認するほか、欠落している値の追跡や、期待した結果が表示されない場合にフローのトラブルシューティングに役立てることもできます。

クリーニング ステップでは [プロファイル] ペインのフィールド、他のステップ タイプでは [結果] ペインのフィールドをクリックすると、フロー ペインではそのフィールドが使用されているパスがハイライトされます。

注: このオプションは、インプット ステップや出力ステップ タイプでは利用できません。

関連する値の確認

フィールド内で関連する値を見つけるには、ハイライトを使用できます。[プロファイル] ペインの [プロファイル] カードまたは [結果] ペインで値をクリックすると、他のフィールドの関連する値すべてが青にハイライトされます。青色は、選択した値と他のフィールドの値の関連分布を示します。

たとえば、関連する値をハイライトするには、[プロファイル] ペインでフィールドの値をクリックします。他のフィールドの関連する値は青になり、青くハイライトされたバーの大きさは関連度を示します。

同一の値のハイライト

データ グリッドの値を選択する場合、同一の値すべてもハイライトされます。これらのハイライトは、データのパターンまたは不規則性を識別するのに役立ちます。

フィールドの保持または削除

フロー内でデータを操作するときに、不要なフィールドを削除する必要が生じる場合があります。[プロファイル] ペインまたはいずれかのクリーニングまたはアクション ステップのデータ グリッドで、1 つ以上のフィールドを選択して右クリック (MacOS の場合は Ctrl を押しながらクリック) し、[削除] で選択したフィールドを削除するか、[保持] (バージョン 2019.2.2 以降) で選択したフィールドのみを保持し、それ以外のフィールドはすべて削除します。

フィールドの複製 (バージョン 2019.2.3 以降)

フィールドでクリーニング操作を試行する際に元のデータを変更したくない場合は、フィールドを複製できます。

  1. [プロファイル] ペイン、データ グリッド、または [結果] ペインで、複製するフィールドを選択します。

  2. [その他のオプション] メニューから [フィールドの複製] を選択します。

同じ名前に修飾語句を加えて新しいフィールドが作成されます。たとえば、"Ship Date-1" のようになります。

フィールドと値の検索

[プロファイル] ペインまたは [結果] ペインでは、特に関心のあるフィールドや値を検索し、その検索結果を使用してデータをフィルターできます。

フィールドを検索するには、ツールバーにある検索ボックスに検索条件をすべてまたは一部入力します。

フィールドの値を検索するには、次を実行します。

  1. フィールドの検索アイコン をクリックし、値を入力します。

  2. 高度な検索オプションを使用するには、[検索オプション ...] ボタンをクリックします。

  3. 検索結果を使用してデータをフィルターするには、[保持] または [除外] を選択します。

    [フロー] ペインでは、フィルター アイコンは影響のあるステップの上に表示されます。

値のフィルター

値をフィルターする簡単な方法は、[プロファイル] カード、データ グリッド、または結果のカードで値を選択し、右クリックしてから、[保持] または [除外] を選択することです。[値の編集] を選択してインラインで値を編集することもできます。

データのフィルターはフローの任意のステップで行うことができます。フィルターを追加するには、[プロファイル] カード、データ グリッド、または [結果] ペインで [その他のオプション] メニューをクリックします。

注: データ グリッドの [その他のオプション] メニューでフィルターを適用するには、[プロファイル ペインの非表示] ボタンをクリックしてから、フィルターするフィールドの [その他のオプション] メニューをクリックします。

各データ型で利用可能なフィルター

データ型 利用可能なフィルター
文字列 計算、ワイルドカード一致、Null 値、選択した値
数値 計算、値の範囲、Null 値、選択した値
日付、日付と時刻 計算、日付の範囲、相対日付、Null 値、選択した値

計算フィルターの使用

[計算] を選択すると、[フィルターの追加] ダイアログ ボックスが開きます。計算を入力し、それが有効であることを検証して [保存] をクリックします。

選択した値フィルターの使用 (バージョン 2019.2.3 以降)

[選択した値] を選択すると、サンプルにない値であっても、フィールドで保持または除外する値を選択できます。右側のペインで、[保持] または [除外] タブをクリックしてアクションを選択し、検索用語を入力して値を検索するか、[値の追加] をクリックして、データ セットに含まれるがサンプルには含まれていない値を追加します。[完了] をクリックしてフィルターを適用します。

注: このフィルター オプションは、[集計] または [ピボット] ステップ タイプでは使用できません。

値の範囲フィルターの使用

[値の範囲] を選択すると、範囲を指定したり、最小値または最大値を設定できます。

日付の範囲フィルターの使用

[日付の範囲] を選択すると、日付の範囲を指定したり、最短または最長の日付を設定できます。

相対日付フィルターの使用

[相対日付] を選択すると、年、四半期、月、週、または日に基づいて日付範囲をフィルターできます。また、特定の日付を基準とするアンカーを構成し、NULL 値を含めることもできます。

ワイルドカード一致フィルターの使用

[ワイルドカード一致] を選択すれば、フィールドの値をフィルタリングして、条件に一致する値だけを保持あるいは除外することができます。フィルターエディターにて [該当項目だけを保持] あるいは [除外] タブを選択し、一致させる値を入力してから、探している値を返す条件を設定します。

フィルターエディターの左側のペインにフィルタリング後の結果が表示され、結果を確認したり、調整したりできます。適切な結果が得られたら、[完了] をクリックして変更を反映します。

Null 値フィルターの使用

[Null 値] を選択すれば、選択したフィールドの値をフィルタリングして、Null 値だけを表示あるいは除外することができます。

ご意見をお寄せくださりありがとうございます。 ご意見の送信中にエラーが発生しました。もう一度実行するか、当社にメッセージを送信してください