データのクリーニングと加工

データをクリーニングおよび加工すると、他のデータと容易に組み合わせたり、他のユーザーが理解しやすくなります。

フローの構築

フローに含める必要があるデータに接続してから、新しいステップをフローに追加してデータのクリーニングと加工を開始します。プラス アイコンが表示されるまでステップにカーソルを合わせ、アイコンをクリックするとオプションが表示されます。

以下のオプションを使用してフローを構築します。

  • 分岐の追加: フローを別々の分岐に分割します。

  • ステップの追加またはステップの挿入: 新しいフローにステップを追加するか既存のフローにステップを挿入し、クリーニング操作を実行します。

  • 集計の追加: 集計またはグループ化を行うデータを含めるステップを選択します。

  • ピボットの追加: ピボット処理を行うデータを含めるステップを選択します。

  • 結合の追加: データを結合するステップを選択します。Tableau Prep Builder のバージョン 2019.1.3 以降では、リレーションシップ データを含む表があるデータベースに接続すると、[フロー] ペインのメニューから結合を作成することもできます。この方法を使用した表の結合についての詳細は、インプット ステップでのデータの結合を参照してください。

    別の方法として、ステップをドラッグ アンド ドロップしてファイルを結合することもできます。以下の例では、"Orders_Central (オーダー_中央)" インプット ステップをドラッグして [結合] にドロップしています。

    結合の作成の詳細については、データの結合またはユニオンを参照してください。

  • ユニオンの追加: データのユニオンを作成するステップを選択します。別の方法として、ステップをドラッグ アンド ドロップするとファイルのユニオンを作成できます。ユニオンの作成の詳細については、データの結合またはユニオンを参照してください。

  • 出力の追加: このオプションを選択し、出力を抽出ファイル (.tde または .hyper) または .csv ファイルに保存するか、出力をデータ ソースとしてサーバーにパブリッシュします。

カラースキーマの変更

Tableau Prep Builder は初期状態で、フローの各ステップに対して単一の色を割り当てます。フロー全体を通してこのカラースキーマが割り当てられるため、データのクリーニング作業、結合、ユニオン、集計を行う際にフロー全体のデータを追跡しやすくなり、操作によって影響を受けるファイルを把握しやすくなります。

各ステップに対して別のカラースキーマを使用する場合、次の作業を行います。

  1. 1 つまたは複数のステップを選択します。

  2. 選択したステップを右クリックして [ステップの色を編集] を選びます。

  3. カラーパレットで色をクリックして適用します。

ステップの色をデフォルトのものにリセットする場合は、次のいずれかの操作を行います。

  • トップメニューの [元に戻す] をクリックします。

  • Ctrl+Z あるいは Command-Shift-Z (Mac) を押します。

  • 変更したステップを選択し、そのステップを右クリックして [ステップの色を編集] を選んだ後、さらにカラーパレットの下にある [ステップの色をリセット] を選択します。

説明の追加

フローを構築して様々なクリーニング操作を実行する際、後からフローを閲覧し活用するユーザーにとって手順を理解しやすくするために、説明を追加することを望む場合があります。

任意の各ステップに対し、フローペインで直接フローに説明を追加できます。この説明は最長 200 文字まで入力できます。

説明を追加する際、メッセージ アイコンがステップの下に追加されます。このアイコンをクリックすれば、フローペインの説明テキストの表示を切り替えられます。

次の作業により、ステップに説明を追加できます。

  1. フローペインでステップを選択します。

  2. 次のいずれかを実行します。

    • ステップを右クリックしてメニューから [説明の追加] を選択します。

    • ステップの名前フィールドをダブルクリックしてから [説明の追加] をクリックします。

  3. テキストボックスに説明を入力します。

  4. テキストボックスの外側をクリックするか Enter を押すと、変更が適用されます。初期状態では、ステップの下側に説明が表示されます。メッセージ アイコンをクリックすれば説明を非表示にすることができます。

  5. 説明を編集または削除する場合は、ステップまたは説明を右クリックし、メニューから [説明の編集] あるいは [説明の削除] を選択します。

フローのレイアウトの再編成 (バージョン 2019.2.2 以降)

Tableau Prep Builder では、フローを構築するときに既定のレイアウトを使用してステップと分岐を追加します。各フローでは、データを左から右に処理していきます。インプット ステップがキャンバスの左端から始まり、出力ステップがキャンバスの右端で終了します。ただし、大規模で複雑なフローを構築すると、すぐに把握できなくなってしまいます。

フローのレイアウトをクリーンアップするには、ステップを選択して移動することで、レイアウトをわかりやすく編成できるようになります。たとえば、交差するフロー線を修正したり、フローのステップを移動して余分な空白を除去したりできるほか、フローのステップを再配置して一連のイベントを明確に表示することもできます。

たとえば、次のようなフローは紛らわしく把握することが困難です。

このフローをクリーンアップするには、各ステップを選択し、上下左右にドラッグして、キャンバスの新しい場所にドロップします。左から右へと移動するプロセスのフローを妨害するような位置にフローのステップを移動することはできません。たとえば、結合ステップの前に配置されたユニオン ステップを、フローの結合ステップより後ろにドラッグすることはできません。

許可された場所にフローのステップをドラッグすると、オレンジ色のボックスが表示されます。許可されていない場所ではオレンジ色のボックスが表示されず、ステップをドロップしようとしても元の場所に戻ってしまいます。

動作中の「フロー ステップの再編成」を視聴してください

次の例で、ドラッグ アンド ドロップを使用してフローを再配置する方法を示します。

フローのステップを移動するには、次の手順を実行します。

  1. [フロー] ペインで、移動するステップを選択します。特定のステップをクリックするか、複数のステップを選択してドラッグするか、または Ctrl (MacOS の場合は Cmd) を押しながらクリックして隣接していない複数のステップを選択します。

  2. ステップを新しい場所にドラッグ アンド ドロップします。

    : 移動後の再編成された内容に満足できない場合は、トップ メニューの [元に戻す] をクリックして、変更を元に戻すことができます。ただし、ステップの移動中にクリーンアップ操作を実行した場合は、それらの操作も元に戻る可能性があります。[元に戻す] オプションでは、実行した順序でアクションが元に戻ります。

フローからのステップの削除

フローの任意の時点で、ステップやステップ間のフロー線を削除できます。

  • ステップまたはフロー線を削除するには、削除するステップまたは線を選択し、その要素を右クリックして [削除] を選択します。

  • 複数のステップまたはフロー線を削除するには、以下のいずれかの方法を実行します。

    • マウスでフローのセクション全体をドラッグして選択します。次に、選択したステップのいずれかを右クリックし、[削除] を選択します。

    • Ctrl + A (MacOS では Cmd + A) を押してフローの要素をすべて選択するか、Ctrl + クリック (MacOS では Cmd + クリック) で特定の要素を選択してから、[削除] キーを押します。

データのピボット処理

スプレッドシートやクロス集計の書式のデータの分析は、Tableau では困難な場合があります。Tableau では、データが「幅広い」よりも「高い」方が好まれます。このため、多くの場合、Tableau がデータを適切に評価できるよう、列から行にデータをピボット処理する必要があります。

ただし、データ表が高く狭いと、表が極端に正規化され適切な分析ができなくなることもあります。たとえば、営業部門が追跡する広告費を [radio (ラジオ)][television (テレビ)][print (紙媒体)] という行が含まれる [Advertising (広告)] 列と、総費用を表す列の 2 列で表すとします。このシナリオでは、データを個別のメジャーとして分析するように行データを列にピボット処理する必要があります。

しかし、大きなデータ セットや長期にかけて頻繁に変更の発生するデータのピボット処理に関してはどうでしょうか。この場合は、ワイルドカードのパターン マッチを使用してパターンが一致するフィールドを検索し、自動的にデータをピボット処理することができます。

データをピボット処理する際は、以下のいずれかのオプションを使用します。

  • 列から行へピボット処理する

  • ワイルドカード検索を使用して、パターン マッチに基づきフィールドを瞬時にピボット処理する (Tableau Prep Builder バージョン 2019.1.1 以降)

  • 行から列へピボット処理する (Tableau Prep Builder バージョン 2019.1.1 以降)

フィールドをピボット処理する方法に関係なく、結果を直接操作して追加のクリーニング操作を実行し、データを必要な方法で表示させることができます。また、Tableau Prep Builder のスマートな既定の命名機能を使用し、ピボット処理されたフィールドや値の名前の変更を自動で行うこともできます。

: フィールドの複数のグループでの列から行へのピボット処理は、Tableau Prep Builder 2018.1.1 ではサポートされていません。Tableau Prep Builder バージョン 2018.1.1 の複数のフィールド グループで、ピボット処理された列を含むピボットを編集すると、エラーが発生するか、予期しない結果になることがあります。

列から行へのピボット処理:

このピボット オプションを使用して幅広いデータから高いデータへと移行します。1 つ以上のフィールド グループで、列から行へピボット処理します。操作するフィールドを選択し、列から行にデータをピボット処理します。

  1. データ ソースに接続します。

  2. ピボット処理するテーブルを [フロー] ペインにドラッグします。

  3. プラス アイコンをクリックし、コンテキスト メニューから [ピボットの追加] を選択します。

  4. (オプション) [フィールド] ペインで [検索] フィールドに値を入力し、ピボット処理するフィールドのフィールド リストを検索します。

  5. (オプション) [ピボットされたフィールドと値の名前を自動変更する] チェック ボックスを選択し、Tableau Prep により、ピボット処理された新しいフィールド名を、データの共通する値を使用して変更できます。共通する値が見つからない場合は、既定の名前が使用されます。
  6. 左側のペインから 1 つ以上のフィールドを選択し、それを [ピボットされたフィールド] ペインの [ピボット1 値] 列にドラッグします。

  7. (オプション) [ピボットされたフィールド] ペインでプラス アイコンをクリックしてピボット処理する列を追加し、その後、前のステップを繰り返してピボット処理する他のフィールドを選択します。結果はすぐに [ピボットの結果] ペインとデータ グリッドに表示されます。

    : ステップ 5 で選択したのと同じ数のフィールドを選択する必要があります。たとえば、最初のピボット処理に 3 つのフィールドを選択した場合は、ピボット処理するその後の各列にも 3 つのフィールドが含まれる必要があります。

  8. 既定の命名オプションを有効にできなかった場合、または Tableau Prep で名前を自動検出できなかった場合は、フィールド名を編集してください。データの最適な説明となるよう、このペインで元のフィールド名を編集することもできます。

  9. (オプション) 変更内容を追跡するには、新しいピボット ステップの名前を変更します。たとえば、「Pivot months (ピボットの月)」とします。

  10. データの変更時にピボット データを更新するには、フローを実行します。新しいフィールドがピボットに追加する必要のあるデータ ソースに追加されている場合は、これらのフィールドを手動でピボットに追加します。

: 複数フィールドに対するピボット処理

この例では、月および年別の薬の売上、税額、および合計に関するスプレッドシートを表示しています。

データをピボット処理すると、各月および各年に対する行、また売上、税額、および合計に対する個々の列を作成し、Tableau でこのデータをさらに容易に解釈して分析できるようにします。

動作中の「複数フィールドのピボット処理」を視聴してください。

ワイルドカード検索を使用したピボット処理

Tableau Prep Builder バージョン 2019.1.1 以降で大きなデータ セットを操作する場合や長期にかけてデータに頻繁に変更が発生する場合は、列から行へのピボット処理を行う際にワイルドカード検索を使用して、ワイルドカード パターン マッチに基づきデータを瞬時にピボット処理することができます。パターンに一致する新規フィールドが追加または削除されると、Tableau Prep Builder でフローの実行時にスキーマの変更が検出され、ピボットの結果が自動的に更新されます。

  1. データ ソースに接続します。

  2. ピボット処理するテーブルを [フロー] ペインにドラッグします。

  3. プラス アイコンをクリックし、コンテキスト メニューから [ピボットの追加] を選択します。

  4. [ピボットされたフィールド] ペインで、[ここをクリックしてワイルドカード ピボットを作成する] リンクをクリックします。

  5. 検索する値または値の一部を入力します。たとえば、「Sales_ (売上_)」と入力すると、「sales_2017 (売上_2017)」「sales_2018 (売上_2018)」および「sales_2019 (売上_2019)」というラベルのフィールドが一致します。

    検索するフィールド値の一部である場合を除き、パターンのマッチングにアスタリスクは使用しないでください。代わりに、[検索オプション] ボタンをクリックして値のマッチング方法を選択します。次に、Enter を押して検索を適用し、一致する値のピボット処理を実行します。

  6. (オプション) [ピボットされたフィールド] ペインでプラス アイコンをクリックしてピボット処理する列を追加し、その後、前のステップを繰り返してピボット処理する他のフィールドを選択します。

  7. 既定の命名オプションを有効にできなかった場合、または Tableau Prep Builder で名前を自動検出できなかった場合は、フィールド名を編集してください。

  8. データの変更時にピボット データを更新するには、フローを実行します。ワイルドカード パターンに一致するデータ ソースに追加された新規フィールドは、自動的に検出されピボットに追加されます。

  9. 期待した結果が得られない場合は、以下のオプションのいずれかを行ってみてください。

    • [検索] フィールドに別の値のパターンを入力して、Enter を押す。ピボットが自動的に更新され、新しい結果が表示されます。

    • 追加するフィールドを [ピボットされたフィールド] ペインの [ピボット1 値] 列に手動でドラッグします。また、手動で追加したフィールドを [ピボット1 値] 列から [フィールド] ペインへドラッグ アンド ドロップして削除することもできます。

      : ワイルドカード検索結果から追加されたフィールドは、[ピボット1 値] 列からドラッグしても削除できません。より詳細なパターンを使用して検出する検索結果をマッチングしてみてください。

行から列へのピボット処理

Tableau Prep Builder バージョン 2019.1.1 では、行から列へのピボット処理を行うことができます。データが極端に正規化され、新しい列を作成する必要がある場合は、このオプションを使用して高いデータから幅広いデータへと移行してください。

たとえば、各月の広告費をすべての広告種別が一列に含まれるデータで確認している場合、行から列へデータをピボット処理し種別ごとに列を作成するとデータを分析しやすくなります。

ピボット処理を実行するフィールドを 1 つ選択できます。該当するフィールドのフィールド値を使用して、新しい列を作成します。次に、フィールドを選択して新しい列に入力します。各フィールドの値が集計されます。適用する集計タイプを選択できます。

集計が実行されるため、列から行への逆方向のピボット処理は実行されません。列から行へとピボット タイプを逆にする場合は、操作をやり直す必要があります。トップ メニューで [元に戻す] ボタンをクリックするか、[ピボットされたフィールド] ペインからフィールドを削除するか、またはピボット ステップを削除します。

  1. データ ソースに接続します。

  2. ピボット処理するテーブルを [フロー] ペインにドラッグします。

  3. プラス アイコンをクリックし、コンテキスト メニューから [ピボットの追加] を選択します。

  4. [ピボットされたフィールド] ペインのドロップダウン リストで、[行から列] を選択します。

  5. (オプション) [フィールド] ペインで [検索] フィールドに値を入力し、ピボット処理するフィールドのフィールド リストを検索します。
  6. 左側のペインからフィールドを選択し、[ピボットされたフィールド] ペインの [行を列にピボットするフィールド] セクションにドラッグします。

    : ピボット処理を行うフィールドに日付または日付時刻のデータ型が含まれている場合は、文字列に変更してからピボット処理を行う必要があります。

    このフィールドの値を使用して新しい列を作成し、名前を付けます。[ピボットの結果] ペインの列名は後で変更できます。

  7. 左側のペインからフィールドを選択し、[ピボットされたフィールド] ペインの [新しい列の集計フィールド] セクションにドラッグします。このフィールドの値を使用して、前のステップで作成された新しい列に入力します。

    フィールドには既定の集計タイプが割り当てられています。集計タイプをクリックして変更します。

  8. [ピボットの結果] ペインで結果を確認し、作成した新しい列にクリーニング操作を適用します。

  9. ピボットされたフィールドの行データに変更がある場合は、フロー ペインのピボット ステップで右クリック (Mac では Command + クリック) し、[更新] を選択します。

クリーニング操作の適用

データのクリーニングを行うには、フィールドのフィルター、追加、名前の変更、分割、グループ化、または削除などのクリーニング操作を適用します。これまでのリリースでは、クリーニング操作はクリーニング ステップ タイプでのみ実行できました。Tableau Prep Builder バージョン 2018.2.1 以降では、クリーニング操作をクリーニング ステップのデータ グリッドでも行うことができました。

Tableau Prep Builder バージョン 2018.3.1 以降では、フロー内のほとんどのステップ タイプでクリーニング操作を実行できます。出力ステップだけは唯一の例外です。

以下の表では、各ステップ タイプで、どのクリーニング操作を利用できるかを示しています。

  インプット クリーニング 集計 ピボット処理 結合 ユニオン 出力
フィルター X X X X X X  
グループ化と置換   X   X X X  
クリーニング   X   X X X  
値の分割   X   X X X  
フィールド名の変更 X X X X X X  
フィールドの複製   X   X X X  
保持するフィールド X X X X X X  
計算フィールドの作成   X   X X X  
フィールドの削除 X X X X X X  
値の編集   X   X X X  
データ型の変更 X X X X X X  

データに変更を加える際に、[フロー] ペインの対応するステップに注釈が追加され、またエントリが [変更内容] ペインに追加され、アクションが追跡されます。インプット ステップに変更を加えると、注釈が [フロー] ペインのステップの左側に、またフィールド リストの [インプット プロファイル] にも表示されます。

変更を適用する順序が重要です。集計、ピボット、結合、およびユニオンのステップ タイプで加えた変更は、変更時のフィールドの場所に応じ、それらの再加工アクションの前または後に実行されます。変更箇所は、ステップの [変更内容] ペインに表示されます。

たとえば、結合句のフィールド値を変更すると、結合アクションの前に変更が実行され、修正された結果が得られます。

以下の表は、フィールドがステップのどこにあるかに応じ、クリーニング アクションが集計、ピボット、結合、およびユニオンのステップ タイプのどこで実行されるかを示しています。

アクション   集計 集計 ピボット処理 ピボット処理 結合 結合 ユニオン ユニオン
  フィールドの場所: グループ化したフィールド 集計フィールド ピボットに含まれない ピボットから作成済み 1 つの表から追加* 両方の表から追加* 不一致フィールド 組み合わせフィールド
フィルター   集計前 集計後 ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
グループ化と置換   NA NA ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
クリーニング   NA NA ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
値の分割   NA NA ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
フィールド名の変更   集計前 集計後 ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
フィールドの複製   NA NA ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
保持するフィールド   集計後 集計後 ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
フィールドの削除   集計から削除 集計から削除 ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
計算フィールドの作成   NA NA ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
値の編集   NA NA ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
データ型の変更   集計前 集計後 ピボット前 ピボット後 結合前 結合前 ユニオン前 ユニオン後

: 結合に関しては、そのフィールドがある表のフィールドを使用して作成された計算フィールドの場合、結合前に変更内容が適用されます。フィールドが両方の表のフィールドを使用して作成される場合は、結合後に変更内容が適用されます。

インプット ステップでクリーニング操作を適用

一部のクリーニング操作のみインプット ステップで利用できます。以下の変更はいずれもインプット フィールド リストで行えます。変更内容は [変更内容] ペインで追跡され、注釈は [フロー] ペインのインプット ステップの左側とインプット フィールド リストに追加されます。

  • フィルター: ツールバーの [値のフィルター] をクリックし、計算エディターにフィルター条件を入力します。

  • フィールド名の変更: [フィールド名] フィールドで、フィールド名をダブルクリック (Mac では Control を押しながらクリック) し、新しいフィールド名を入力します。

  • データ型の変更: フィールドのデータ型をクリックし、メニューから新しいデータ型を選択します。

  • フィールドの削除: フローに含めないフィールドの隣にあるチェック ボックスをオフにします。

他のステップでクリーニング操作を適用

すべてのクリーニング操作は、他のステップ タイプで利用できます。フィールドにクリーニング操作を適用するには、ツールバー オプションを使用するか、フィールドの [プロファイル] カード上で [その他のオプション] をクリックしてメニューを開きます。集計、ピボット、結合、およびユニオンのステップ タイプでは、[その他のオプション] メニューは [結果] ペインの [プロファイル] カード上で利用できます。

プロファイル ペイン ツールバー ドロップダウン メニュー

クリーニング ステップでは、データ グリッドでクリーニング操作を適用することもできます。[プロファイル ペインの非表示] ボタンをクリックして [プロファイル] ペインを折りたたみ、フィールド上で [その他のオプション] をクリックしてメニューを開きます。

: データグリッドでは利用できないクリーニング操作もあります。例えばインラインで値を編集したい場合、プロファイルペインで作業を行う必要があります。

フィールドにクリーニング操作を適用するには、以下を実行します。

  1. [プロファイル] ペイン、データ グリッド、または [結果] ペインで、変更を加えるフィールドを選択します。

  2. ツールバーまたはフィールドの [その他のオプション] で、以下のオプションより選択します。

    • フィルターまたは値のフィルター: フィルター オプションのいずれかを選択し、フィールド値を右クリック (Mac では Control を押しながらクリック) して値を保持または除外するか、[選択した値] フィルターを使用して値を選択し、追加された値の中でフロー サンプルに含まれていないものをフィルタリングします。

    • グループ化と置換: 値を手動選択するか、自動グループ化を使用します。また、[プロファイル] カードで値を複数選択して右クリック (Mac では Control を押しながらクリック) することで、値をグループ化したり、グループ化を解除したり、グループ値を編集したりすることもできます。

    • クリーニング: クイック クリーニング操作のリストから選択し、フィールドのすべての値に適用します。

    • 値の分割: 自動分割またはカスタム分割から選択します。

      : 自動分割とカスタム分割は、Tableau Desktop での場合と同じように機能します。詳細については、Tableau Desktop と Web 作成のヘルプの「フィールドを複数フィールドに分割」を参照してください。

    • フィールド名の変更

    • フィールドの複製 (バージョン 2019.2.3 以降) フィールドと値のコピーを作成します。

    • 保持するフィールド (バージョン 2019.2.2 以降)

    • 計算フィールドの作成

    • フィールドの削除

  3. 値を編集するには、1 つ以上の値を右クリック (MacOS の場合は Ctrl を押しながらクリック) し、[値の編集] を選択してから新しい値を入力します。また、[NULL で置換する] を選択して値を NULL 値で置換するか、単一フィールドをダブルクリックして直接編集することもできます。フィールド値の編集の詳細については、同じ値のばらつきのクリーニング (修正)を参照してください。

  4. [プロファイル] ペイン、[サマリー] ペイン、またはデータ グリッドでこれらの操作の結果を確認します。

変更内容の表示

さまざまなタイプのクリーニング操作が、フローのステップのアイコンで示されています。4 種類を超える操作をステップに適用すると、ステップに省略記号が表示されます。これらのアイコンにカーソルを合わせると、適用された操作と順序を示す注釈が表示され、これに従って実行されます。

Tableau Prep Builder のバージョン 2019.1.3 以降より、[フロー] ペインのステップで変更アイコンの注釈を、または [プロファイル] ペインや [結果] ペインのプロファイル カードをクリックすると、変更とそれによる影響を受けるフィールドが [変更内容] ペインおよび [プロファイル] ペインや [結果] ペインでハイライトされます。

また、ステップを選択してから [変更内容] ペインを展開し、各変更内容の詳細を表示したり、変更内容の編集や削除を行ったり、変更内容を上下にドラッグして変更内容の適用順を変更したりすることもできます。Tableau Prep Builder バージョン 2019.1.1 では、説明を追加してコンテキストを他のユーザーに提供できます。

クリーニングの注釈 変更内容ペイン

集計、ピボット、結合、またはユニオンのステップの変更内容を表示する場合、変更を適用する順序は、再加工アクションの前または後に表示されます。これらの変更の順序はシステムにより適用されるため、変更することはできません。変更は編集し、削除することができます。

変更エントリへの説明の追加 (バージョン 2019.1.1 以降)

[変更内容] ペインのエントリの変更に対して最大 200 文字で説明を追加し、変更への追加コンテキストを提供します。

  1. フロー ペインでステップを選択します。

  2. [変更内容] ペインまたは [変更内容] タブを開きます。

  3. [変更内容] ペインでエントリを右クリックまたは Ctrl を押しながらクリック (Mac) し、[説明の追加] を選択します。

  4. ステップの説明を入力します。

    説明は、変更エントリに対し生成されたテキストの下にコメント アイコンとともに表示されます。

  5. 説明を編集または削除する場合は、変更エントリを右クリックまたは Ctrl を押しながらクリック (Mac) し、[説明の編集] あるいは [説明の削除] を選択します。

推奨事項を使用したクリーニング操作の適用

データに含まれる問題を修正するために、どのクリーニング操作を使用する必要があるかを識別するのが困難な場合があります。Tableau Prep Builder バージョン 2018.3.2 以降にはデータを分析し、自動的に適用可能なクリーニング操作を推奨する機能があります。これらは、データ フィールドに含まれる問題を迅速に修正し、問題を識別して修正できるようにするのに役立ちます。

: この機能を使用しない場合にはオフにすることができます。トップ メニューより、[ヘルプ] > [設定とパフォーマンス] に移動します。[推奨事項の有効化] をクリックし、この設定の隣にあるチェック マークを外します。

この機能は、インプット、出力、結合のステップ タイプを除くすべてのステップ タイプで利用可能です。現在、推奨タイプには以下が含まれます。

  • データの役割

  • グループ化と置換 (バージョン 2019.2.3 以降では、データの役割を使用するフィールドにも適用されます)
  • フィルター

  • 値の Null 値での置換

  • フィールドの削除

  • 分割 (バージョン 2019.1.1 以降)

    : このオプションは、固定幅タイプのテキスト ファイルのデータ専用です。このファイル タイプで推奨される分割を使用するには、データ ソースに接続し、インプット ステップで [テキスト設定] タブからデータで使用されていない [フィールド区切り] 文字を選択します。これによりデータが単一のフィールドとして読み込まれます。

  • スペースのトリミング

データをクリーニングするための推奨事項を使用するには、以下を実行します。

  1. 次のいずれかを実行します。

    • プロファイル カードの右上隅にある電球 アイコンをクリックします。
    • ツールバーで [推奨] ドロップダウン矢印をクリックし、データ セットのすべての推奨事項を表示してリストから推奨を選択します。

    このオプションは、推奨される変更が Tableau Prep Builder により識別される場合にのみ表示されます。

  2. 推奨を適用するには、[推奨事項] カードにカーソルを合わせてから [適用] をクリックします。

    変更は自動的に適用され、エントリは [変更内容] ペインに追加されます。変更を削除するには、トップ メニューで [元に戻す] をクリックするか、[変更内容] ペインで変更にカーソルを合わせて X をクリックして削除します。

  3. 変更の結果、Tableau Prep Builder で他の推奨事項も識別される場合、他に推奨事項が見つからなくなるまで電球アイコンが [プロファイル] カードに表示され続けます。

    上記のステップを繰り返し、追加の変更を適用するか、提案された変更を無視して、データの問題に対処するために Tableau Prep Builder の他のクリーニング ツールを使用します。

フィールドのマージ

名前が異なる同じ値を含むフィールドに関しては、片方のフィールドをもう一方の上部にドラッグすると簡単にマージして単一のフィールドに組み合わせることができます。フィールドをマージする際、ターゲット フィールドがプライマリ フィールドになり、ターゲット フィールドのフィールド名がそのまま残ります。ターゲット フィールドに対してマージするフィールドは削除されます。

例:

値が同じ 3 つのフィールドでのワイルドカード ユニオンの結果 3 つのフィールドを 1 つにマージ

フィールドをマージする際、Tableau Prep Builder はターゲット フィールドのフィールドをすべて保持し、そのフィールドに含まれるすべての Null を、ターゲット フィールドとマージするソース フィールドの値で置換します。ソース フィールドは削除されます。

名前 Contact_Phone (連絡先_電話) Business_Phone (仕事_電話) Cell_Phone (携帯_電話) Home_Phone (自宅_電話)
ボブ 123-4567 123-4567 Null Null
サリー Null Null 456-7890 789-0123
フレッド Null Null Null 567-8901
エマ Null 234-5678 345-6789 Null

[Business_Phone (仕事_電話)][Cell_Phone (携帯_電話)][Home_Phone (自宅_電話)] フィールドを [Contact_Phone (連絡先_電話)] フィールドにマージする場合、他のフィールドは削除され、以下のようになります。

名前 Contact_Phone (連絡先_電話)
ボブ 123-4567
サリー 456-7890
フレッド 567-8901
エマ 234-5678

フィールドをマージするには、次のいずれかを実行します。

  • 1 つのフィールドを別のフィールドにドラッグ アンド ドロップします。[マージ フィールドにドロップする] インジケーターが表示されます。

  • 複数のフィールドを選択し、選択項目内で右クリックしてコンテキスト メニューを開いてから、[フィールドのマージ] をクリックします。

  • 複数のフィールドを選択し、ツールバーで [フィールドのマージ] をクリックします。

ユニオン後に一致しないフィールドを修正する方法については、一致しないフィールドの修正を参照してください。

同じ値のばらつきのクリーニング (修正)

同じ値のばらつきが複数あると、データを正確に要約できなくなる可能性があります。Tableau Prep Builder で以下のオプションを使用すると、こうしたばらつきは簡単にすぐ修正することができます。

: 値に対して行う編集には、フィールドのデータ型との互換性がある必要があります。

単一の値の編集

  1. [プロファイル] カードで編集の必要がある値をクリックし、新しい値を入力します。値の隣にグループ アイコン が表示されます。

    または、値を右クリックして [値の編集] をクリックします。変更は、画面左側にある [変更内容] ペインに記録されています。

  2. [プロファイル] ペインおよびデータ グリッドで結果を表示します。

複数の値の編集

複数の値を一度に編集するオプションはいくつかあります。たとえば、あるフィールドのすべての値の句読点を削除する、手動で複数の値を選択してグループ化する、類似の値を見つけるあいまい一致アルゴリズムを使って自動的に値をまとめてグループ化する、または複数の値を選択してそれらを NULL で置換する場合は、クイック クリーニング操作を使用します。

: 複数の値を単一の値にマッピングする場合、元のフィールドには値の隣にグループ化アイコン が表示され、どの値が一緒にグループ化されているかが示されます。

クイック クリーニング操作を使用した複数の値の編集

このオプションはテキスト フィールドのみに適用されます。

  1. [プロファイル] ペイン、[結果] ペイン、またはデータ グリッドで、編集するフィールドを選択します。

  2. [その他のオプション] をクリックし、[クリーニング] を選択してから以下のオプションを 1 つ選択します。

    • 大文字にする: すべての値を大文字のテキストに変更します。

    • 小文字にする: すべての値を小文字のテキストに変更します。

    • アルファベット文字の削除: アルファベット文字をすべて削除し、その他の文字のみを残します。

    • 数値の削除: 数字をすべて削除し、その他の文字のみを残します。

    • 句読点の削除: 句読点をすべて削除します。

    • スペースのトリミング: 先頭および末尾のスペースを削除します。

    操作を積み上げ、複数のクリーニング操作をフィールドに適用することができます。たとえば、最初に [クリーニング] > [数値の削除] を選択してから、[クリーニング] > [句読点の削除] を選択し、フィールド値からすべての数字と句読点を削除します。

  3. 変更を元に戻すには、[フロー] ペイン上部の [元に戻す] 矢印をクリックするか、変更リストから変更を削除します。

複数の値をインラインでグループ化・編集

  1. [プロファイル] カードで、編集するフィールドを選択します。

  2. Ctrl または Shift を押しながらクリック (MacOS の場合は Command または Shift を押しながらクリック) して、グループ化する値を選択します。

  3. 右クリックし、コンテキスト メニューから [グループ化] を選択します。右クリックしたセクションに含まれる値が新しいグループのデフォルト名になりますが、これをインラインで編集できます。

  4. グループ名を編集する場合は、グループ化したフィールドを選択して値を編集するか、グループ化したフィールドを右クリックまたは Ctrl を押しながらクリック (Mac) してコンテキスト メニューから [値の編集] を選択します。

  5. グループ化したフィールドの値のグループ化を解除する場合は、グループ化したフィールドを右クリックしてコンテキスト メニューから [グループ化解除] を選択します。

1 つ以上の値の NULL による置換

データ行を分析に含める場合、その中にある特定のフィールド値を除外するには、そのフィールド値を NULL 値に変更することができます。

  1. [プロファイル] カードで Ctrl または Shift を押しながらクリック (Mac では Command または Shift を押しながらクリック) し、変更する値を選択します

  2. 右クリックまたは Ctrl を押しながらクリック (Mac) して、メニューより [NULL で置換する] を選択します。値は NULL に変更され、グループ アイコン が値の隣に表示されます。

グループ化と置換を使用した複数の値の手動編集

フィールドの値をある値から別の値にマッピングしたり、複数の値を手動で選択してグループ化したりするには、[グループ化と置換] を使用します。新しい値を追加してマッピングの関係を設定し、データを整理することもできます。

たとえば、1 つのフィールドに、My Company、My Company Incorporated、My Company Inc の 3 つの値があるとします。これらの値はすべて同じ会社、My Company を表しています。[グループ化と置換] を使用すると、My Company Incorporated および My Company Inc の値を My Company にマッピングし、3 つすべての値がフィールドで My Company として表示されるようにできます。

単一の選択フィールドへの複数の値のマッピング

  1. [プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。

  2. [その他のオプション] をクリックし、メニューから [グループ化と置換] > [手動選択] を選択します。

  3. [グループ化と置換] エディターの左側のペインで、グループ化の値として使用するフィールド値を選択します。これで、この値が右側のペインの上部に表示されます。

  4. [グループ化と置換] エディターの右側のペインの下部で、グループに追加する値を選択します。

    グループから値を削除するには、[グループ化と置換] エディターの右側のペインの上部で、値の隣にあるチェック ボックスをオフにします。

複数の値の選択によるグループの作成

  1. [プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。

  2. [その他のオプション] をクリックし、メニューから [グループ化と置換] > [手動選択] を選択します。

  3. [グループ化と置換] エディターの左側のペインで、グループ化する複数の値を選択します。

  4. [グループ化と置換] エディターの右側のペインで、[グループの値] をクリックします。

    最後に選択した値をグループ名として使用し、新しいグループが作成されます。グループ名を編集する場合は、グループ化したフィールドを選択して値を編集するか、グループ化したフィールドを右クリックまたは Ctrl を押しながらクリック (Mac) してメニューから [値の編集] を選択します。

グループ化と置換であいまい一致を使用した複数の値の編集

類似した値を検索して自動的にグループ化するには、あいまい一致アルゴリズムのいずれかを使用します。フィールドの値は、最も多く現れる値でグループ化されます。グループ化された値を確認し、必要に応じて値の追加や削除を行います。

値をグループ化するには、以下のオプションのいずれかを選択します。

  • 読み方: 音声が似ている値を検索してグループ化します。このオプションでは読み方で単語のインデックスを作成する Metaphone 3 アルゴリズムを使用しており、英単語に最適です。.このタイプのアルゴリズムは、一般的な多くのスペル チェッカーで使用されています。このオプションは、データの役割では使用できません。

  • 一般的な文字: 共通するアルファベット文字や数字を含む値を検索し、グループ化します。このオプションでは句読点、重複、空白を削除したあとの一意の文字により単語のインデックスを作成する ngram fingerprint アルゴリズムを使用します。このアルゴリズムは、サポートされているすべての言語で機能します。このオプションは、データの役割では使用できません。

    たとえば、このアルゴリズムでは、「John Smith」と「Smith, John」で表される名前が一致します。どちらの名前でもキー「hijmnost」が生成されるためです。このアルゴリズムは読み方を考慮しないため、値「Tom Jhinois」も同じキー「hijmnost」となり、これもそのグループに含められます。

  • スペリング: スペルが似ている値を検索してグループ化します。このオプションはデフォルトの一定のしきい値を使い、レーベンシュタイン距離アルゴリズムを利用して 2 つのテキスト値の編集距離を計算します。その後、編集距離がしきい値より小さい場合にそれらをグループ化します。このアルゴリズムは、サポートされているすべての言語で機能します。

    Tableau Prep Builder バージョン 2019.2.3 以降、このオプションは、データの役割の適用後に使用できるようになります。その場合は、編集距離を使用して、無効な値をそれに限りなく近い有効な値と一致させます。標準値がデータ セットのサンプルにない場合、Tableau Prep Builder はこれを自動的に追加し、元のデータ セットにない値としてマークします。

  • 読み方とスペリング: (バージョン 2019.1.4 以降) データの役割をフィールドに割り当てると、そのデータの役割を使用して、データの役割で定義した標準値との値のマッチングやグループ化ができます。その後、このオプションは、無効な値と最も類似する有効な値をスペリングと読み方に基づいてマッチングします。標準値がデータ セットのサンプルにない場合、Tableau Prep Builder はこれを自動的に追加し、元のデータ セットにない値としてマークします。このオプションは、英語表記に最も適しています。

    詳細については、類似の値をデータの役割でグループ化するを参照してください。

    : Tableau Prep Builder バージョン 2019.1.4 および 2019.2.1 では、このオプションに [データの役割の一致] というラベルが付いていました。

あいまい一致を使用して類似の値をグループ化する
  1. [プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。

  2. [その他のオプション] をクリックし、[グループ化と置換] を選択してから、次のいずれかのオプションを選択します。

    • 読み方

    • 一般的な文字

    • スペリング

    Tableau Prep Builder は一致するグループ値を検索し、それをグループ内で最も多い値と置換します。

  3. グループ化を確認し、必要に応じて値の追加や削除、または編集を行います。[完了]. をクリックします。

フィールド値のグループ化の際に結果を調整する

類似の値をスペリングまたは 読み方でグループ化する場合、フィールドでスライダーを使用すると、グループ化のパラメーターの強さを調整して結果を変更することができます。

スライダーの設定方法によって、グループに含める値の数と作成するグループの数をより細かく制御できます。既定で、Tableau Prep Builder は、最適なグループ設定を検出し、その位置にスライダーを表示します。

しきい値を変更すると、Tableau Prep Builder で値のサンプルが分析され、新しいグループが特定されます。設定から生成されたグループは保存され、[変更内容] ペインに記録されますが、しきい値の設定は保存されません。[グループ化と置換] エディターを次に開いて既存の変更の編集や新しい変更を行うと、既定の位置にしきい値のスライダーが表示され、現在のデータ セットに基づいて調整を行うことができます。

  1. [プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。

  2. [その他のオプション] をクリックし、[グループ化と置換] を選択してから、次のいずれかのオプションを選択します。

    • 読み方

    • スペリング

    Tableau Prep Builder は一致する値を検索してグループ化し、それをグループ内で最も多い値と置換します。

  3. [グループ化と置換] エディターの左ペインで、スライダーを 5 つのしきい値レベルのいずれかにドラッグして結果を変更します。

    しきい値をより厳密に設定するには、スライダーを左に移動します。これにより、一致する結果が減り、作成されるグループは少なくなります。しきい値をより柔軟に設定するには、スライダーを右に移動します。これにより、一致する結果が増え、作成されるグループは増えます。

  4. [完了] をクリックして変更を保存します。

類似の値をデータの役割でグループ化する

: Tableau Prep Builder バージョン 2019.1.4 および 2019.2.1 では、このオプションに [データの役割の一致] というラベルが付いていました。

データの役割をフィールドに割り当てると、フィールド値が標準化され、有効でない値をすばやく見つけることができます。Tableau Prep Builder バージョン 2019.1.4 以降では、地理的なデータの役割をフィールドに割り当てると、そのデータの役割の値を使用して、スペリングや読み方に基づきデータ フィールドの値をグループ化およびマッチングし、標準化することができます。Tableau Prep Builder バージョン 2019.2.3 では、[スペル] または [読み方 + スペル] のいずれかを使用して、無効な値をグループ化し、有効な値に一致させることができます。

データの役割で定義された標準値は、これらのオプションで使用されます。標準値がデータ セットのサンプルにない場合、Tableau Prep Builder はこれを自動的に追加し、元のデータ セットにない値としてマークします。フィールドにデータの役割を割り当てる方法の詳細については、 データへのデータの役割の割り当てを参照してください。

データの役割を使用して値をグループ化するには、以下の手順を完了します。

  1. [プロファイル] ペイン、[結果] ペイン、またはデータ グリッドで、フィールドのデータ型をクリックします。

  2. フィールドに対し、次のデータの役割の中から 1 つ選択します。

    • 空港
    • 市区町村
    • 国/地域
    • 都道府県/州

    Tableau Prep Builder は、フィールドのデータ値をユーザーが選択するデータの役割の既知のドメイン値と比較し、一致しない値を赤い感嘆符でマークします。

  3. [その他のオプション] をクリックし、[グループ化と置換] を選択してから以下のオプションを 1 つ選択します。

    • スペル: 無効な値を、文字が追加、削除、または置換されて変わった限りなく近い有効な値に一致させます。
    • 読み方 + スペル: 無効な値を、スペルと読み方に基づいて最も類似する有効な値に一致させます。

      注: Tableau Prep Builder バージョン 2019.1.4 または 2019.2.1 では、このオプションが [データの役割の一致] と呼ばれていました。

    Tableau Prep Builder は、スペルまたはスペルと読み方で値を比較してから、データの役割の標準値の中から類似の値をグループ化します。データ セットに標準値がない場合、値が追加され、赤いドットでマークされます。

データ セットに存在しない値の追加と識別

データ セットに含まれる値を存在しない新しい値にマッピングする必要がある場合、[グループ化と置換] を使用して追加できます。データ セットにない値を簡単に識別するため、これらの値は [グループ化と置換] エディターの値の名前の隣にある赤いドットでマークされています。

たとえば、以下の画像ではワイオミングとネバダがデータ セットにありません。

値がデータ セットにないいくつかの理由の可能性として、以下のものがあります。

  • 新しい値を手動で追加したばかりである。

  • 値がデータにもう含まれていない。

  • 値はデータに含まれているが、サンプル データ セットには含まれていない。

新しい値を追加するには、以下を実行します。

  1. [プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。

  2. [その他のオプション] をクリックし、コンテキスト メニューから [グループ化と置換] > [手動選択] を選択します。

  3. [グループ化と置換] エディターの左側のペインで、プラス をクリックして新しい値を追加します。

  4. フィールドに新しい値を入力し、Enter キーを押して追加します。

  5. 右側のペインで、新しい値にマッピングする値を選択します。

  6. (オプション) マッピングした値に新しい追加の値を追加するには、[グループ化と置換] エディターの右側のペインでプラス ボタンをクリックします。

値の集計とグループ化

フローにより生成されるデータ量を削減するため、またはデータを一緒に結合したりユニオンを作成する可能性がある他のデータとそろえたりするため、データの一部で粒度を調整することが必要な場合があります。たとえば、売上テーブルを顧客テーブルと結合する前に、顧客別の売上データを集計する必要があるかもしれません。

データの粒度を調整する必要がある場合には、[集計の追加] オプションを使用し、データの集計またはグループ化を行うステップを作成します。データが集計されるかグループ化されるかは、データ型 (文字列、数字、または日付) によって異なります。

  1. [フロー] ペインでプラス アイコンをクリックし、[集計の追加] を選択します。[フロー] ペインに新しい集計ステップが表示され、[プロファイル] ペインが更新されて集計とグループのプロファイルが表示されます。

  2. フィールドのグループ化または集計を行うには、フィールドを左側のペインから右側のペインの列のいずれかにドラッグします。

    また、以下も実行できます。

    • 2 つのペイン間でフィールドをドラッグ アンド ドロップする。

    • リストでフィールドを検索し、集計に含める必要があるフィールドのみを選択する。

    • フィールドをダブルクリックし、左側または右側のペインに追加する。

    • フィールドの機能を、適切なペインに自動的に追加されるように変更する。

    • [すべて追加] または [すべて削除] をクリックし、フィールドの一括適用または削除を行う。

    • フィールドに特定のクリーニング操作を適用する。使用可能なクリーニング操作の詳細については、クリーニング操作の適用を参照してください。

    フィールドは、データ型に応じて [グループ化したフィールド] 列と [集計フィールド] 列に配分されます。グループまたは集計のタイプを変更するには、グループまたは集計のタイプ (AVG、SUM など) の見出しをクリックします。

    集計とグループのプロファイルの下のデータ グリッドには、グループまたは集計のメンバーのサンプルが表示されています。

    フィールドに対して行ったすべてのクリーニング操作は、[変更内容] ペインで追跡されます。

ご意見をお寄せくださりありがとうございます。 ご意見の送信中にエラーが発生しました。もう一度実行するか、当社にメッセージを送信してください