データのクリーニングと加工

Tableau Prep Builder には、データをクリーニングして加工するためにすぐに使えるさまざまなクリーニング操作があります。整っていないデータをクリーニングすると、データを簡単に組み合わせて分析できるほか、データ セットの共有時に他のユーザーがデータを理解しやすくなります。

また、ピボット ステップやスクリプト ステップを使用してデータをクリーニングし、フローに R スクリプトまたは Python スクリプトを適用することもできます。詳細については、フローでの R および Python スクリプトの使用またはデータのピボット処理を参照してください。

クリーニング操作について

データのクリーニングを行うには、フィールドのフィルター、追加、名前の変更、分割、グループ化、または削除などのクリーニング操作を適用します。これまでのリリースでは、クリーニング操作はクリーニング ステップ タイプでのみ実行できました。Tableau Prep Builder バージョン 2018.2.1 以降では、クリーニング操作をクリーニング ステップのデータ グリッドでも行うことができました。

Tableau Prep Builder バージョン 2018.3.1 以降では、フロー内のほとんどのステップ タイプでクリーニング操作を実行できます。インプット ステップでクリーニング操作を制限することはできますが、出力ステップではクリーニング操作を適用できません。インプット ステップでのクリーニング操作の適用に関する詳細については、インプット ステップでクリーニング操作を適用を参照してください。

利用可能なクリーニング操作

以下の表では、各ステップ タイプで、どのクリーニング操作を利用できるかを示しています。

  インプット クリーニング 集計 ピボット処理 結合 ユニオン 出力
フィルター X X X X X X  
グループ化と置換   X   X X X  
クリーニング   X   X X X  
値の分割   X   X X X  
フィールド名の変更 X X X X X X  
フィールドの複製   X   X X X  
保持するフィールド X X X X X X  
フィールドの削除 X X X X X X  
計算フィールドの作成   X   X X X  
値の編集   X   X X X  
データ型の変更 X X X X X X  

データに変更を加える際に、[フロー] ペインの対応するステップに注釈が追加され、またエントリが [変更内容] ペインに追加され、アクションが追跡されます。インプット ステップに変更を加えると、注釈が [フロー] ペインのステップの左側に、またフィールド リストの [インプット プロファイル] にも表示されます。

変更を適用する順序が重要です。集計、ピボット、結合、およびユニオンのステップ タイプで加えた変更は、変更時のフィールドの場所に応じ、それらの再加工アクションの前または後に実行されます。変更箇所は、ステップの [変更内容] ペインに表示されます。

次の例は、1 つの表の結合ステップで実行されるフィールドの変更を示しています。変更を結合操作の前に実行することで、修正された結果が得られます。

操作の順序

以下の表は、フィールドがステップのどこにあるかに応じ、クリーニング アクションが集計、ピボット、結合、およびユニオンのステップ タイプのどこで実行されるかを示しています。

アクション ステップのタイプ: 集計 集計 ピボット処理 ピボット処理 結合 結合 ユニオン ユニオン
  フィールドの場所: グループ化したフィールド 集計フィールド ピボットに含まれない ピボットから作成済み 1 つの表から追加* 両方の表から追加* 不一致フィールド 組み合わせフィールド
フィルター   集計前 集計後 ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
グループ化と置換   NA NA ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
クリーニング   NA NA ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
値の分割   NA NA ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
フィールド名の変更   集計前 集計後 ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
フィールドの複製   NA NA ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
保持するフィールド   集計後 集計後 ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
フィールドの削除   集計から削除 集計から削除 ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
計算フィールドの作成   NA NA ピボット前 ピボット後 結合後 結合後 ユニオン前 ユニオン後
値の編集   NA NA ピボット前 ピボット後 結合前 結合後 ユニオン前 ユニオン後
データ型の変更   集計前 集計後 ピボット前 ピボット後 結合前 結合前 ユニオン前 ユニオン後

: 結合に関しては、そのフィールドがある表のフィールドを使用して作成された計算フィールドの場合、結合前に変更内容が適用されます。フィールドが両方の表のフィールドを使用して作成される場合は、結合後に変更内容が適用されます。

クリーニング操作の適用

フィールドにクリーニング操作を適用するには、ツールバー オプションを使用するか、フィールドの [プロファイル] カード、データ グリッド、または [結果] ペイン上で [その他のオプション] をクリックしてメニューを開きます。

集計、ピボット、結合、およびユニオンのステップ タイプでは、[その他のオプション] メニューを [結果] ペインの [プロファイル] カード上および対応するデータ グリッドで利用できます。フロー全体にわたって同じクリーニング操作やアクションを繰り返し実行する場合は、ステップやアクションまたはフィールドをコピーして貼り付けることができます。詳細については、ステップ、アクション、およびフィールドのコピーを参照してください。

プロファイル ペイン ツールバー ドロップダウン メニュー

ビューの選択

データ グリッドまたはリスト ビューの [プロファイル] ペインまたは [結果] ペイン以外の場所で、クリーニング操作を実行できます。ビュー ツールバー (バージョン 2019.3.2 以降) を使用してビューを変更し、フィールドの [その他のオプション] をクリックしてクリーニング メニューを開きます。

  • プロファイル ペインの表示 : 既定のビューです。[プロファイル] ペインまたは [結果] ペインのビューに戻るには、このボタンを選択します。

  • データ グリッドの表示 : [プロファイル] ペインまたは [結果] ペインを折りたたみ、データ グリッドのみを展開して表示します。このビューでは、データのより詳細なビューを提供します。特定のフィールド値を操作する必要がある場合に役立ちます。このオプションを選択すると、このビューの状態がフロー内のすべてのステップで保持されますが、いつでも変更できます。

    : データグリッドでは利用できないクリーニング操作もあります。例えばインラインで値を編集したい場合、プロファイルペインで作業を行う必要があります。

  • リスト ビューの表示 (バージョン 2019.3.2 以降): [プロファイル] ペインまたは [結果] ペインをリストに変換します。このオプションを選択すると、このビューの状態がフロー内のすべてのステップで保持されますが、いつでも変更できます。

    複数の行を選択し、[X] をクリックして削除するか、[その他のオプション] メニューを使用して選択したフィールドに操作を適用できます。フィールドにデータ ロールを割り当てるか、[フィルター][グループ化と置換][クリーンアップ]、または [値の分割] を選択する場合は、[プロファイル] ビューまたは [結果] ビューに戻ってこれらのアクションを完了します。その他のオプションはすべてリスト ビューで実行できます。

バージョン 2019.3.1 以前

データ グリッドにクリーニング操作を適用することもできます。[プロファイル ペインの非表示] ボタンをクリックして [プロファイル] ペインを折りたたみ、フィールド上で [その他のオプション] をクリックしてメニューを開きます。

クリーニング操作の適用

フィールドにクリーニング操作を適用するには、以下の手順を実行します。

: バージョン 2019.3.2 以降は、リスト ビューでクリーニング操作を実行できます。

  1. [プロファイル] ペイン、データ グリッド、[結果] ペインまたはリスト ビューで、変更を加えるフィールドを選択します。

  2. ツールバーまたはフィールドの [その他のオプション] メニューで、以下のオプションより選択します。

    • フィルターまたは値のフィルター: いずれかのフィルター オプションを選択し、フィールド値を右クリックまたは Ctrl を押しながらクリック (MacOS) して値を保持または除外できます。また、[選択した値] フィルターを使用して値を取得および選択し、追加された値の中でフロー サンプルに含まれていないものをフィルタリングすることもできます。フィルター オプションの詳細については、データのフィルタリングを参照してください。

    • グループ化と置換: 値を手動選択するか、自動グループ化を使用します。また、[プロファイル] カードで値を複数選択して右クリックまたは Ctrl を押しながらクリック (MacOS) することで、値をグループ化したり、グループ化を解除したり、グループ値を編集したりすることもできます。グループ化と置換の使用に関する詳細については、あいまい一致を使用した標準値への値の自動マッピングを参照してください。

    • クリーニング: クイック クリーニング操作のリストから選択し、フィールドのすべての値に適用します。

    • 値の分割: 共通の区切り値に基づいて値を自動的に分割するか、カスタム分割を使用してフィールド値の分割方法を指定します。

      自動分割とカスタム分割は、Tableau Desktop での場合と同じように機能します。詳細については、Tableau Desktop と Web 作成のヘルプの「フィールドを複数フィールドに分割」を参照してください。

    • フィールド名の変更

    • フィールドの複製 (バージョン 2019.2.3 以降) フィールドと値のコピーを作成します。

    • 保持するフィールド (バージョン 2019.2.2 以降)

    • 計算フィールドの作成

    • 削除 (以前のバージョンではフィールドの削除)

      : バージョン 2019.3.1 以降は、[データの役割としてパブリッシュ] オプションを使用してカスタム データの役割を作成し、フィールドに適用してデータのクリーニング時にフィールド値を検証できます。このオプションの詳細については、カスタム データの役割を作成する (バージョン 2019.3.1 以降)を参照してください。

  3. 値を編集するには、1 つ以上の値を右クリックまたは Ctrl を押しながらクリック (MacOS) し、[値の編集] を選択してから新しい値を入力します。また、[NULL で置換する] を選択して値を NULL 値で置換するか、単一フィールドをダブルクリックして直接編集することもできます。フィールド値の編集に関する詳細については、フィールド値の編集を参照してください。

  4. [プロファイル] ペイン、[サマリー] ペイン、またはデータ グリッドでこれらの操作の結果を確認します。

変更内容の表示

さまざまなタイプのクリーニング操作が、フローのステップのアイコンで示されています。4 種類を超える操作をステップに適用すると、ステップに省略記号が表示されます。これらのアイコンにカーソルを合わせると、適用された操作と順序を示す注釈が表示され、これに従って実行されます。

Tableau Prep Builder のバージョン 2019.1.3 以降、[フロー] ペインのステップで変更アイコンの注釈をクリックするか、[プロファイル] ペインや [結果] ペインのプロファイル カードをクリックすると、変更とその影響を受けるフィールドが [変更内容] ペイン、および [プロファイル] ペインや [結果] ペインでハイライトされます。

また、ステップを選択してから [変更内容] ペインを展開し、各変更内容の詳細を表示したり、変更内容の編集や削除を行ったり、変更内容を上下にドラッグして変更内容の適用順を変更したりすることもできます。Tableau Prep Builder バージョン 2019.1.1 では、説明を追加してコンテキストを他のユーザーに提供できます。変更内容に説明を加える方法の詳細については、フロー ステップとクリーニング操作への説明の追加を参照してください。

クリーニングの注釈 変更内容ペイン

集計、ピボット、結合、またはユニオンのステップの変更内容を表示する場合、変更を適用する順序は、再加工アクションの前または後に表示されます。これらの変更の順序はシステムにより適用されるため、変更することはできません。変更は編集し、削除することができます。

ステップ、アクション、およびフィールドのコピー

データのクリーニングを行う際、フロー全体で何度も同じクリーニング操作やアクションを行うことがよくあります。データのクリーニングや加工をさらに効率的に行えるよう、これらの操作やアクションをフロー全体でコピーして貼り付けることができます。これにより、クリーニング操作やアクションを一度に実行し、必要な場合には再利用することができます。フィールドを複製して別のクリーニング操作を試行することもできます。

ステップのコピーおよび貼り付け

同じフロー内の別の場所で使用するために 1 つ以上のステップをコピーします。このオプションは、ワイルドカード ユニオンを含むインプット ステップには利用できません。

  1. [フロー] ペインで、フロー内の 1 つまたは複数のステップを選択します。

  2. 右クリックまたは Ctrl を押しながらクリック (MacOS) して、[コピー] を選択します。

  3. キャンバスの任意の空白を右クリックまたは Ctrl を押しながらクリック (MacOS) し、[貼り付け] をクリックします。

  4. ステップをフロー内の必要な場所にドラッグ アンド ドロップします。コピーしたステップやステップを追加する場所に応じて、フロー線を削除したりステップを移動したりする必要が生じる場合があります。たとえば、コピーしたステップにステップを接続し、既存のフロー線がある場合はそのフロー線を削除します。次に、既存のステップを新しいステップにドラッグして、[追加] にドロップします。

    フローの編成の詳細については、フローのレイアウトの再編成 (バージョン 2019.2.2 以降)を参照してください。

クリーニング操作のコピーおよび貼り付け

クリーニング操作を同じフロー内でコピーして貼り付けると、次のいずれかのオプションを使用して操作を再利用できます。

  • あるステップの [変更内容] ペインで操作をコピーし、同じステップまたは別のステップの [変更内容] ペインに貼り付けてそのステップに同じ操作を適用します。
  • [変更内容] ペインから [プロファイル] ペインの他のフィールドに操作をドラッグ アンド ドロップし、その操作を複数のフィールドに適用します。このオプションは、計算フィールドなど複数のフィールドに影響する操作には利用できません。
  1. [変更内容] ペインで、コピーする変更を選択します。
  2. 変更する項目を右クリックまたは Ctrl を押しながらクリック (MacOS) して、メニューから [コピー] を選択します。

  3. 変更を貼り付ける場所の [変更内容] ペインで、変更を右クリックまたは Ctrl を押しながらクリック (MacOS) して、[貼り付け] を選択します。必要な場合は、変更内容を選択し、[編集] をクリックして調整を行います。

変更内容をステップの他のフィールドにドラッグ アンド ドロップするには、以下の手順を実行します。

  1. [変更内容] ペインで、コピーする変更を選択します。
  2. 変更内容を適用するフィールドに変更をドラッグ アンド ドロップします。必要に応じてこの操作を繰り返します。

フィールドのコピー (バージョン 2019.2.3 以降)

フィールドでクリーニング操作を試行する際に元のデータを変更したくない場合は、フィールドをコピーできます。

  1. [プロファイル] ペイン、データ グリッド、[結果] ペインまたはリスト ビューで、コピーするフィールドを選択します。

  2. [その他のオプション] メニューから [フィールドの複製] を選択します。

同じ名前に修飾語句を加えて新しいフィールドが作成されます。たとえば、"Ship Date-1" のようになります。

再利用可能なフロー ステップの作成 (バージョン 2019.3.2 以降)

データを使用して同じアクションを何度も繰り返し実行したり、同じステップを他のフローに適用したりすることが多い場合は、1 つまたは複数のフロー ステップとそれに関連するアクションを選択するか、フロー全体を選択してコンピュータ上のファイルにローカルに保存できます。または、Tableau ServerTableau Online にパブリッシュして他のユーザーと共有することもできます。フロー ステップがサーバーにパブリッシュされると、[保存されたステップ] タグが自動的に追加され、ステップをフローに追加するときに簡単に検索できるようになります。

再利用可能なステップの作成

  1. 1 つまたは複数のステップを選択します。

  2. 選択したステップを右クリックして [ステップをフローとして保存] を選択します。

  3. [ファイルに保存] を選択してフローをローカルに保存するか、[サーバーにパブリッシュ] を選択してフローを Tableau Server または Tableau Online にパブリッシュします。

  4. フローを Tableau Server または Tableau Online にパブリッシュする場合は、サーバーにサインイン (必要な場合) して [フローのパブリッシュ] ダイアログのフィールドに入力し、[パブリッシュ] をクリックします。

フローへの再利用可能なステップの挿入

  1. フローを開きます。

  2. [フロー] ペインのキャンバスの白い領域で右クリックまたは Ctrl を押しながらクリック (MacOS) し、[フローの挿入] をクリックするか、トップ メニューから [編集] > [フローの挿入] をクリックします。

  3. [フローの追加] ダイアログで、ローカル ファイルまたはサーバーに保存されたフローから選択し、[追加] をクリックします。フローのリストが自動的にフィルター処理され、[保存されたステップ] でタグ付けされたフローが表示されます。他のフローを挿入するには、[フローのタイプ][すべてのフロー] に変更します。

  4. フローが [フロー] ペインに追加されます。フロー内で必要な場所にステップを移動し、エラーを修正します。

フィールドのマージ

名前が異なる同じ値を含むフィールドに関しては、片方のフィールドをもう一方の上部にドラッグすると簡単にマージして単一のフィールドに組み合わせることができます。フィールドをマージする際、ターゲット フィールドがプライマリ フィールドになり、ターゲット フィールドのフィールド名がそのまま残ります。ターゲット フィールドに対してマージするフィールドは削除されます。

例:

値が同じ 3 つのフィールドでのワイルドカード ユニオンの結果 3 つのフィールドを 1 つにマージ

フィールドをマージする際、Tableau Prep Builder はターゲット フィールドのフィールドをすべて保持し、そのフィールドに含まれるすべての Null を、ターゲット フィールドとマージするソース フィールドの値で置換します。ソース フィールドは削除されます。

名前 Contact_Phone (連絡先_電話) Business_Phone (仕事_電話) Cell_Phone (携帯_電話) Home_Phone (自宅_電話)
ボブ 123-4567 123-4567 Null Null
サリー Null Null 456-7890 789-0123
フレッド Null Null Null 567-8901
エマ Null 234-5678 345-6789 Null

[Business_Phone (仕事_電話)][Cell_Phone (携帯_電話)][Home_Phone (自宅_電話)] フィールドを [Contact_Phone (連絡先_電話)] フィールドにマージする場合、他のフィールドは削除され、以下のようになります。

名前 Contact_Phone (連絡先_電話)
ボブ 123-4567
サリー 456-7890
フレッド 567-8901
エマ 234-5678

フィールドをマージするには、次のいずれかを実行します。

  • 1 つのフィールドを別のフィールドにドラッグ アンド ドロップします。[マージ フィールドにドロップする] インジケーターが表示されます。

  • 複数のフィールドを選択し、選択項目内で右クリックしてコンテキスト メニューを開いてから、[フィールドのマージ] をクリックします。

  • 複数のフィールドを選択し、ツールバーで [フィールドのマージ] をクリックします。

ユニオン後に一致しないフィールドを修正する方法については、一致しないフィールドの修正を参照してください。

推奨を使用したクリーニング操作の適用 (バージョン 2018.3.2 以降)

データに含まれる問題を修正するために、どのクリーニング操作を使用する必要があるかを識別するのが困難な場合があります。Tableau Prep Builder には、データを分析し、自動的に適用可能なクリーニング操作を推奨する機能があります。これにより、データ フィールドに含まれる問題を迅速に修正し、問題を識別して修正できます。この機能は、インプット、出力、結合のステップ タイプを除くすべてのステップ タイプで利用可能です。

: この機能を使用しない場合にはオフにすることができます。トップ メニューより、[ヘルプ] > [設定とパフォーマンス] に移動します。[推奨事項の有効化] をクリックし、この設定の隣にあるチェック マークを外します。

推奨タイプには以下が含まれます。

  • データの役割

  • グループ化と置換 (バージョン 2019.2.3 以降では、データの役割を使用するフィールドにも適用されます)
  • フィルター

  • 値の Null 値での置換

  • フィールドの削除

  • 分割 (バージョン 2019.1.1 以降)

    : このオプションは、固定幅タイプのテキスト ファイルのデータ専用です。このファイル タイプで推奨される分割を使用するには、データ ソースに接続し、インプット ステップで [テキスト設定] タブからデータで使用されていない [フィールド区切り] 文字を選択します。これによりデータが単一のフィールドとして読み込まれます。

  • スペースのトリミング

推奨の適用

  1. 次のいずれかを実行します。

    • プロファイル カードの右上隅にある電球 アイコンをクリックします。
    • ツールバーで [推奨] ドロップダウン矢印をクリックし、データ セットのすべての推奨事項を表示してリストから推奨を選択します。

    このオプションは、推奨される変更が Tableau Prep Builder により識別される場合にのみ表示されます。

  2. 推奨を適用するには、[推奨事項] カードにカーソルを合わせてから [適用] をクリックします。

    変更は自動的に適用され、エントリは [変更内容] ペインに追加されます。変更を削除するには、トップ メニューで [元に戻す] をクリックするか、[変更内容] ペインで変更にカーソルを合わせて X をクリックして削除します。

  3. 変更の結果、Tableau Prep Builder で他の推奨事項も識別される場合、他に推奨事項が見つからなくなるまで電球アイコンが [プロファイル] カードに表示され続けます。

    上記のステップを繰り返し、追加の変更を適用するか、提案された変更を無視して、データの問題に対処するために Tableau Prep Builder の他のクリーニング ツールを使用します。

フィールド値の編集

同じ値のばらつきが複数あると、データを正確に要約できなくなる可能性があります。Tableau Prep Builder で以下のオプションを使用すると、こうしたばらつきは簡単にすぐ修正することができます。

: 値に対して行う編集には、フィールドのデータ型との互換性がある必要があります。

単一の値の編集

  1. [プロファイル] カードで編集の必要がある値をクリックし、新しい値を入力します。値の隣にグループ アイコン が表示されます。

    または、値を右クリックして [値の編集] をクリックします。変更は、画面左側にある [変更内容] ペインに記録されています。

  2. [プロファイル] ペインおよびデータ グリッドで結果を表示します。

複数の値の編集

複数の値を一度に編集するオプションはいくつかあります。たとえば、あるフィールドのすべての値の句読点を削除する、手動で複数の値を選択してグループ化する、類似の値を見つけるあいまい一致アルゴリズムを使って自動的に値をまとめてグループ化する、または複数の値を選択してそれらを NULL で置換する場合は、クイック クリーニング操作を使用します。

: 複数の値を単一の値にマッピングする場合、元のフィールドには値の隣にグループ化アイコン が表示され、どの値が一緒にグループ化されているかが示されます。

クイック クリーニング操作を使用した複数の値の編集

このオプションはテキスト フィールドのみに適用されます。

  1. [プロファイル] ペイン、[結果] ペイン、またはデータ グリッドで、編集するフィールドを選択します。

  2. [その他のオプション] をクリックし、[クリーニング] を選択してから以下のオプションを 1 つ選択します。

    • 大文字にする: すべての値を大文字のテキストに変更します。

    • 小文字にする: すべての値を小文字のテキストに変更します。

    • アルファベット文字の削除: アルファベット文字をすべて削除し、その他の文字のみを残します。

    • 数値の削除: 数字をすべて削除し、その他の文字のみを残します。

    • 句読点の削除: 句読点をすべて削除します。

    • スペースのトリミング: 先頭および末尾のスペースを削除します。

    操作を積み上げ、複数のクリーニング操作をフィールドに適用することができます。たとえば、最初に [クリーニング] > [数値の削除] を選択してから、[クリーニング] > [句読点の削除] を選択し、フィールド値からすべての数字と句読点を削除します。

  3. 変更を元に戻すには、[フロー] ペイン上部の [元に戻す] 矢印をクリックするか、変更リストから変更を削除します。

複数の値をインラインでグループ化・編集

  1. [プロファイル] カードで、編集するフィールドを選択します。

  2. Ctrl または Shift を押しながらクリック (MacOS の場合は Command または Shift を押しながらクリック) して、グループ化する値を選択します。

  3. 右クリックし、コンテキスト メニューから [グループ化] を選択します。右クリックしたセクションに含まれる値が新しいグループのデフォルト名になりますが、これをインラインで編集できます。

  4. グループ名を編集する場合は、グループ化したフィールドを選択して値を編集するか、グループ化したフィールドを右クリックまたは Ctrl を押しながらクリック (Mac) してコンテキスト メニューから [値の編集] を選択します。

  5. グループ化したフィールドの値のグループ化を解除する場合は、グループ化したフィールドを右クリックしてコンテキスト メニューから [グループ化解除] を選択します。

1 つ以上の値の NULL による置換

データ行を分析に含める場合、その中にある特定のフィールド値を除外するには、そのフィールド値を NULL 値に変更することができます。

  1. [プロファイル] カードで Ctrl または Shift を押しながらクリック (Mac では Command または Shift を押しながらクリック) し、変更する値を選択します

  2. 右クリックまたは Ctrl を押しながらクリック (Mac) して、メニューより [NULL で置換する] を選択します。値は NULL に変更され、グループ アイコン が値の隣に表示されます。

標準値への複数の値の手動によるマッピング

フィールドの値をある値から別の値にマッピングしたり、複数の値を手動で選択してグループ化したりするには、[グループ化と置換] を使用します。新しい値を追加してマッピングの関係を設定し、データを整理することもできます。

たとえば、1 つのフィールドに、My Company、My Company Incorporated、My Company Inc の 3 つの値があるとします。これらの値はすべて同じ会社、My Company を表しています。[グループ化と置換] を使用すると、My Company Incorporated および My Company Inc の値を My Company にマッピングし、3 つすべての値がフィールドで My Company として表示されるようにできます。

単一の選択フィールドへの複数の値のマッピング

  1. [プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。

  2. [その他のオプション] をクリックし、メニューから [グループ化と置換] > [手動選択] を選択します。

  3. [グループ化と置換] エディターの左側のペインで、グループ化の値として使用するフィールド値を選択します。これで、この値が右側のペインの上部に表示されます。

  4. [グループ化と置換] エディターの右側のペインの下部で、グループに追加する値を選択します。

    グループから値を削除するには、[グループ化と置換] エディターの右側のペインの上部で、値の隣にあるチェック ボックスをオフにします。

複数の値の選択によるグループの作成

  1. [プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。

  2. [その他のオプション] をクリックし、メニューから [グループ化と置換] > [手動選択] を選択します。

  3. [グループ化と置換] エディターの左側のペインで、グループ化する複数の値を選択します。

  4. [グループ化と置換] エディターの右側のペインで、[グループの値] をクリックします。

    最後に選択した値をグループ名として使用し、新しいグループが作成されます。グループ名を編集する場合は、グループ化したフィールドを選択して値を編集するか、グループ化したフィールドを右クリックまたは Ctrl を押しながらクリック (Mac) してメニューから [値の編集] を選択します。

    データ セットに存在しない値の追加と識別

    データ セットに含まれる値を存在しない新しい値にマッピングする必要がある場合、[グループ化と置換] を使用して追加できます。データ セットにない値を簡単に識別するため、これらの値は [グループ化と置換] エディターの値の名前の隣にある赤いドットでマークされています。

    たとえば、以下の画像ではワイオミングとネバダがデータ セットにありません。

    値がデータ セットにないいくつかの理由の可能性として、以下のものがあります。

    • 新しい値を手動で追加したばかりである。

    • 値がデータにもう含まれていない。

    • 値はデータに含まれているが、サンプル データ セットには含まれていない。

    新しい値を追加するには、以下を実行します。

    1. [プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。

    2. [その他のオプション] をクリックし、コンテキスト メニューから [グループ化と置換] > [手動選択] を選択します。

    3. [グループ化と置換] エディターの左側のペインで、プラス をクリックして新しい値を追加します。

    4. フィールドに新しい値を入力し、Enter キーを押して追加します。

    5. 右側のペインで、新しい値にマッピングする値を選択します。

    6. (オプション) マッピングした値に新しい追加の値を追加するには、[グループ化と置換] エディターの右側のペインでプラス ボタンをクリックします。

あいまい一致を使用した標準値への値の自動マッピング

類似した値を検索して自動的にグループ化するには、あいまい一致アルゴリズムのいずれかを使用します。フィールドの値は、最も多く現れる値でグループ化されます。グループ化された値を確認し、必要に応じて値の追加や削除を行います。

データの役割を使用してフィールド値を検証する場合は、[グループ化と置換] オプションを使用して有効な値と無効な値を照合できます。詳細については、類似の値をデータの役割でグループ化するを参照してください。

値をグループ化するには、以下のオプションのいずれかを選択します。

  • 読み方: 音声が似ている値を検索してグループ化します。このオプションでは読み方で単語のインデックスを作成する Metaphone 3 アルゴリズムを使用しており、英単語に最適です。.このタイプのアルゴリズムは、一般的な多くのスペル チェッカーで使用されています。このオプションは、データの役割では使用できません。

  • 一般的な文字: 共通するアルファベット文字や数字を含む値を検索し、グループ化します。このオプションでは句読点、重複、空白を削除したあとの一意の文字により単語のインデックスを作成する ngram fingerprint アルゴリズムを使用します。このアルゴリズムは、サポートされているすべての言語で機能します。このオプションは、データの役割では使用できません。

    たとえば、このアルゴリズムでは、「John Smith」と「Smith, John」で表される名前が一致します。どちらの名前でもキー「hijmnost」が生成されるためです。このアルゴリズムは読み方を考慮しないため、値「Tom Jhinois」も同じキー「hijmnost」となり、これもそのグループに含められます。

  • スペリング: スペルが似ている値を検索してグループ化します。このオプションはデフォルトの一定のしきい値を使い、レーベンシュタイン距離アルゴリズムを利用して 2 つのテキスト値の編集距離を計算します。その後、編集距離がしきい値より小さい場合にそれらをグループ化します。このアルゴリズムは、サポートされているすべての言語で機能します。

    Tableau Prep Builder バージョン 2019.2.3 以降、このオプションは、データの役割の適用後に使用できるようになります。その場合は、編集距離を使用して、無効な値をそれに限りなく近い有効な値と一致させます。標準値がデータ セットのサンプルにない場合、Tableau Prep Builder はこれを自動的に追加し、元のデータ セットにない値としてマークします。

  • 読み方とスペリング: (バージョン 2019.1.4 以降) データの役割をフィールドに割り当てると、そのデータの役割を使用して、データの役割で定義した標準値との値のマッチングやグループ化ができます。その後、このオプションは、無効な値と最も類似する有効な値をスペリングと読み方に基づいてマッチングします。標準値がデータ セットのサンプルにない場合、Tableau Prep Builder はこれを自動的に追加し、元のデータ セットにない値としてマークします。このオプションは、英語表記に最も適しています。

    詳細については、データのクリーニングと加工を参照してください。

    : Tableau Prep Builder バージョン 2019.1.4 および 2019.2.1 では、このオプションに [データの役割の一致] というラベルが付いていました。

あいまい一致を使用して類似の値をグループ化する

  1. [プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。

  2. [その他のオプション] をクリックし、[グループ化と置換] を選択してから、次のいずれかのオプションを選択します。

    • 読み方

    • 一般的な文字

    • スペリング

    Tableau Prep Builder は一致するグループ値を検索し、それをグループ内で最も多い値と置換します。

  3. グループ化を確認し、必要に応じて値の追加や削除、または編集を行います。[完了]. をクリックします。

フィールド値のグループ化の際に結果を調整する

類似の値をスペリングまたは 読み方でグループ化する場合、フィールドでスライダーを使用すると、グループ化のパラメーターの強さを調整して結果を変更することができます。

スライダーの設定方法によって、グループに含める値の数と作成するグループの数をより細かく制御できます。既定で、Tableau Prep Builder は、最適なグループ設定を検出し、その位置にスライダーを表示します。

しきい値を変更すると、Tableau Prep Builder で値のサンプルが分析され、新しいグループが特定されます。設定から生成されたグループは保存され、[変更内容] ペインに記録されますが、しきい値の設定は保存されません。[グループ化と置換] エディターを次に開いて既存の変更の編集や新しい変更を行うと、既定の位置にしきい値のスライダーが表示され、現在のデータ セットに基づいて調整を行うことができます。

  1. [プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。

  2. [その他のオプション] をクリックし、[グループ化と置換] を選択してから、次のいずれかのオプションを選択します。

    • 読み方

    • スペリング

    Tableau Prep Builder は一致する値を検索してグループ化し、それをグループ内で最も多い値と置換します。

  3. [グループ化と置換] エディターの左ペインで、スライダーを 5 つのしきい値レベルのいずれかにドラッグして結果を変更します。

    しきい値をより厳密に設定するには、スライダーを左に移動します。これにより、一致する結果が減り、作成されるグループは少なくなります。しきい値をより柔軟に設定するには、スライダーを右に移動します。これにより、一致する結果が増え、作成されるグループは増えます。

  4. [完了] をクリックして変更を保存します。
フィードバックをくださりありがとうございます! フィードバックの送信中にエラが発生しました。もう一度やり直すか、メッセージをお送りください