データのクリーニングと加工
注: バージョン 2020.4.1 以降では、Tableau Server および Tableau Cloud でフローの作成と編集を行えるようになりました。このトピックの内容は、特に記載がない限り、すべてのプラットフォームに適用されます。Web 上でのフローの作成の詳細については、Tableau Server(新しいウィンドウでリンクが開く) および Tableau Cloud(新しいウィンドウでリンクが開く) ヘルプの「Web 上の Tableau Prep」を参照してください。
Tableau Prep には、データのクリーニングや加工を行う際に使用できるさまざまなクリーニング操作があります。整っていないデータをクリーニングすると、データを簡単に組み合わせて分析できるほか、データ セットの共有時に他のユーザーがデータを理解しやすくなります。
また、ピボット ステップやスクリプト ステップを使用してデータをクリーニングし、フローに R スクリプトまたは Python スクリプトを適用することもできます。スクリプト ステップは、Tableau Cloud ではサポートされていません。詳細については、フローでの R および Python スクリプトの使用(新しいウィンドウでリンクが開く)またはデータのピボット処理(新しいウィンドウでリンクが開く)を参照してください。
クリーニング操作について
データのクリーニングを行うには、フィールドのフィルター、追加、名前の変更、分割、グループ化、または削除などのクリーニング操作を適用します。フロー内のほとんどのステップ タイプでクリーニング操作を実行できます。クリーニング ステップのデータ グリッドでクリーニング操作を実行することもできます。
インプット ステップでクリーニング操作を制限することはできますが、出力ステップではクリーニング操作を適用できません。インプット ステップでのクリーニング操作の適用に関する詳細については、インプット ステップでクリーニング操作を適用(新しいウィンドウでリンクが開く)を参照してください。
利用可能なクリーニング操作
以下の表では、各ステップ タイプで、どのクリーニング操作を利用できるかを示しています。
インプット | クリーニング | 集計 | ピボット処理 | 結合 | ユニオン | 新しい行 | 出力 | |
フィルター | X | X | X | X | X | X | X | |
値のグループ化 | X | X | X | X | ||||
クリーニング | X | X | X | X | X | |||
日付の変換 | X | X | X | X | X | X | ||
値の分割 | X | X | X | X | X | |||
フィールド名の変更 | X | X | X | X | X | X | ||
フィールド名の変更 (一括) | X | |||||||
フィールドの複製 | X | X | X | X | X | |||
保持するフィールド | X | X | X | X | X | X | X | |
フィールドの削除 | X | X | X | X | X | X | X | |
計算フィールドの作成 | X | X | X | X | X | |||
値の編集 | X | X | X | X | X | |||
データ型の変更 | X | X | X | X | X | X | X |
データに変更を加える際に、[フロー] ペインの対応するステップに注釈が追加され、またエントリが [変更内容] ペインに追加され、アクションが追跡されます。インプット ステップに変更を加えると、注釈が [フロー] ペインのステップの左側に、またフィールド リストの [インプット プロファイル] に表示されます。
変更を適用する順序が重要です。集計、ピボット、結合、およびユニオンのステップ タイプで加えた変更は、変更時のフィールドの場所に応じ、それらのクリーニング アクションの前または後に実行されます。変更箇所は、ステップの [変更内容] ペインに表示されます。
次の例は、結合ステップのいくつかのフィールドに加えられた変更内容を示しています。変更を結合操作の前に実行することで、修正された結果が得られます。
操作の順序
以下の表は、フィールドがステップのどこにあるかに応じ、クリーニング アクションが集計、ピボット、結合、およびユニオンのステップ タイプのどこで実行されるかを示しています。
アクション | ステップのタイプ: | 集計 | 集計 | ピボット処理 | ピボット処理 | 結合 | 結合 | ユニオン | ユニオン | 新しい行 |
---|---|---|---|---|---|---|---|---|---|---|
フィールドの場所: | グループ化したフィールド | 集計フィールド | ピボットに含まれない | ピボットから作成済み | 1 つの表から追加* | 両方の表から追加* | 不一致フィールド | 組み合わせフィールド | 行の生成に使用するフィールド | |
フィルター | 集計前 | 集計後 | ピボット前 | ピボット後 | 結合前 | 結合後 | ユニオン前 | ユニオン後 | 新しい行の後 | |
値のグループ化 | NA | NA | ピボット前 | ピボット後 | 結合前 | 結合後 | ユニオン前 | ユニオン後 | 新しい行の後 | |
クリーニング | NA | NA | ピボット前 | ピボット後 | 結合前 | 結合後 | ユニオン前 | ユニオン後 | 新しい行の後 | |
日付の変換 | 集計前 | 集計後 | ピボット前 | ピボット後 | 結合前 | 結合後 | ユニオン前 | ユニオン後 | 新しい行の後 | |
値の分割 | NA | NA | ピボット前 | ピボット後 | 結合前 | 結合後 | ユニオン前 | ユニオン後 | 新しい行の後 | |
フィールド名の変更 | NA | NA | ピボット前 | ピボット後 | 結合前 | 結合後 | ユニオン前 | ユニオン後 | 新しい行の前 | |
フィールドの複製 | NA | NA | ピボット前 | ピボット後 | 結合前 | 結合後 | ユニオン前 | ユニオン後 | 新しい行の後 | |
保持するフィールド | 集計後 | 集計後 | ピボット前 | ピボット後 | 結合前 | 結合後 | ユニオン前 | ユニオン後 | 新しい行の後 | |
フィールドの削除 | 集計から削除 | 集計から削除 | ピボット前 | ピボット後 | 結合前 | 結合後 | ユニオン前 | ユニオン後 | 新しい行の後 | |
計算フィールドの作成 | NA | NA | ピボット前 | ピボット後 | 結合後 | 結合後 | ユニオン前 | ユニオン後 | 新しい行の後 | |
値の編集 | NA | NA | ピボット前 | ピボット後 | 結合前 | 結合後 | ユニオン前 | ユニオン後 | 新しい行の後 | |
データ型の変更 | 集計前 | 集計後 | ピボット前 | ピボット後 | 結合前 | 結合前 | ユニオン前 | ユニオン後 | 新しい行の前 |
注: 結合に関しては、そのフィールドがある表のフィールドを使用して作成された計算フィールドの場合、結合前に変更内容が適用されます。フィールドが両方の表のフィールドを使用して作成される場合は、結合後に変更内容が適用されます。
クリーニング操作の適用
フィールドにクリーニング操作を適用するには、ツールバー オプションを使用するか、フィールドの [プロファイル] カード、データ グリッド、または [結果] ペイン上で [その他のオプション] をクリックしてメニューを開きます。
集計、ピボット、結合、およびユニオンのステップ タイプでは、[その他のオプション] メニューを [結果] ペインの [プロファイル] カード上および対応するデータ グリッドで利用できます。フロー全体にわたって同じクリーニング操作やアクションを繰り返し実行する場合は、ステップやアクションまたはフィールドをコピーして貼り付けることができます。詳細については、ステップ、アクション、およびフィールドのコピーを参照してください。
プロファイル ペイン ツールバー | ドロップダウン メニュー |
---|---|
ビューの選択
データ グリッドまたはリスト ビューの [プロファイル] ペインまたは [結果] ペイン以外の場所で、クリーニング操作を実行できます。ビュー ツールバー (Tableau Prep Builder バージョン 2019.3.2 以降および Web 上) を使用してビューを変更して、フィールドの [その他のオプション] をクリックしてクリーニング メニューを開きます。
プロファイル ペインの表示: 既定のビューです。[プロファイル] ペインまたは [結果] ペインのビューに戻るには、このボタンを選択します。
データ グリッドの表示 : [プロファイル] ペインまたは [結果] ペインを折りたたみ、データ グリッドのみを展開して表示します。このビューではデータのより詳細なビューが提供されるため、特定のフィールド値を操作する必要がある場合に役立ちます。このオプションを選択すると、このビューの状態がフロー内のすべてのステップで保持されますが、いつでも変更できます。
注: データグリッドでは利用できないクリーニング操作もあります。例えばインラインで値を編集したい場合は、[プロファイル] ペインを使用する必要があります。
リスト ビューの表示 (Tableau Prep Builder バージョン 2019.3.2 以降および Web 上): [プロファイル] ペインまたは [結果] ペインをリストに変換します。このオプションを選択すると、このビューの状態がフロー内のすべてのステップで保持されますが、いつでも変更できます。
このビューでは、次のことができます。
- X オプションを使用して、複数の行を選択して削除します。
- (バージョン 2021.1.4 以降) オプションを使用して、複数の行を選択するか、非表示または再表示します。
- (バージョン 2021.2.1以降) フィールド名を一括で変更します。
[その他のオプション] メニューを使用して、選択したフィールドに操作を適用します。
フィールドにデータの役割を割り当てる場合、または [フィルター]、[グループの値]、[Clean (クリーニング)]、または [値の分割] を選択する場合は、[プロファイル] ビューまたは [結果] ビューに戻ってこれらのアクションを完了します。その他のオプションはすべてリスト ビューで実行できます。
ビュー ツールバー を使用して [プロファイル] ペインを非表示にし、データ グリッドのみを表示します。次に、データ グリッドのフィールドで [その他のオプション] をクリックして、クリーニング メニューを開きます。このビューには、データのより詳細なビューが表示されます。特定のフィールド値を操作する必要がある場合に役立ちます。このオプションを選択すると、このビューの状態がフロー内のすべてのステップで保持されますが、いつでも変更できます。
注: データグリッドでは利用できないクリーニング操作もあります。例えばインラインで値を編集したい場合は、[プロファイル] ペインを使用する必要があります。
パフォーマンス向上のためデータの更新を一時停止する
データのクリーニング操作を実行すると、Tableau Prep で変更内容が適用され、結果がすぐに表示されます。行う必要のある変更がわかっていて、各変更を行ったときにフィードバックが即座に必要ないときに、貴重な処理時間を節約するために、データの更新を一時停止することでパフォーマンスを向上させることができます。
データの更新を一時停止すると、すべての変更を一度に行ってから更新を再開して結果を確認できます。データの更新を再開して、使用可能なすべての操作をいつでも有効にすることができます。
注: データの更新を一時停止すると、値の表示に必要な操作がすべて無効になります。たとえば、選択した値にフィルターを適用する場合は、除外する値を表示する必要があります。
トップ メニューの [データ更新の一時停止] をクリックして、更新を一時停止します。
Tableau Prepで [プロファイル] ペインがリスト ビューに変換されます。リスト ビューの [その他のオプション] メニューを使用して、選択したフィールドに操作を適用します。操作で値を表示する必要がある場合、この操作は無効になります。操作を有効にするには、データの更新を再開する必要があります。
リスト ビュー モードの使用に関する詳細については、ビューの選択を参照してください。
変更の結果を確認したり、無効な機能を有効にしたりするには、データの更新を再開します。[データ更新の再開] ボタンをクリックし、メニュー ダイアログまたは [フロー] ペインの上部にあるメッセージ バナーで [再開] ボタンをクリックします。
注: Tableau Prep Builder ではメニューから直接更新を再開するオプションを利用できます。Web 上のフローを編集する場合は、トップ メニューから更新を再開する必要があります。
クリーニング操作の適用
フィールドにクリーニング操作を適用するには、以下の手順を実行します。
注: Tableau Prep Builder バージョン 2019.3.2 以降、Tableau Server 上、および Tableau Cloud バージョン 2020.4 以降では、リスト ビューでクリーニング操作を実行できます。
[プロファイル] ペイン、データ グリッド、[結果] ペインまたはリスト ビューで、変更を加えるフィールドを選択します。
ツールバーまたはフィールドの [その他のオプション] メニューで、以下のオプションより選択します。
フィルターまたは値のフィルター: いずれかのフィルター オプションを選択し、フィールド値を右クリックまたは Ctrl を押しながらクリック (MacOS) して値を保持または除外できます。また、[選択した値] フィルターを使用して値を取得および選択し、追加された値の中でフロー サンプルに含まれていないものをフィルターリングすることもできます。フィルター オプションの詳細については、データのフィルターリング(新しいウィンドウでリンクが開く)を参照してください。
[Group Values (値のグループ化)] (以前のバージョンでは [グループ化と置換]): 値を手動で選択するか、自動グループ化を使用します。また、[プロファイル] カードで値を複数選択して右クリックまたは Ctrl を押しながらクリック (MacOS) することで、値をグループ化したり、値のグループ化を解除したり、グループ値を編集したりすることもできます。[Group Values (値のグループ化)] の使用に関する詳細については、あいまい一致を使用した標準値への値の自動マッピングを参照してください。
クリーニング: クイック クリーニング操作のリストから選択し、フィールドのすべての値に適用します。
日付の変換 (Tableau Prep Builder バージョン 2020.1.4 以降および Web 上): 日付または日付と時刻のデータ型に割り当てられたフィールドの場合、DATEPART クイック クリーニング操作の一覧から選択し、日付フィールドの値を年、四半期、月、週、日、または日付と時刻の値を表す整数値に変換します。
バージョン 2021.1.4 以降では、2 つの DATENAME クイック クリーニング操作 (曜日または月名) から選択して、日付フィールドの値を変換することもできます。
カスタム会計年度 (Tableau Prep Builder バージョン 2020.3.3 以降および Web 上): 会計年度が 1 月に開始しない場合は、カスタム会計月を設定して、既定の 1 月ではなく、その月を使用して日付を変換します。
この設定はフィールドごとに行うため、カスタム会計年度を他のフィールドに適用する場合は、同じ手順を繰り返します。
ダイアログを開くには、[その他のオプション] メニューから [Convert Dates (日付の変換)] > [Custome Fiscal Year (カスタム会計年度)] を選択します。
値の分割: 共通の区切り値に基づいて値を自動的に分割するか、カスタム分割を使用してフィールド値の分割方法を指定します。
自動分割とカスタム分割は、Tableau Desktop での場合と同じように機能します。詳細については、Tableau Desktop と Web 作成のヘルプの「フィールドを複数フィールドに分割」(新しいウィンドウでリンクが開く)を参照してください。
フィールド名の変更: フィールド名を編集します。
フィールドの複製 (Tableau Prep Builder バージョン 2019.2.3 以降および Web 上): フィールドと値のコピーを作成します。
保持するフィールド (Tableau Prep Builder バージョン 2019.2.2 以降および Web 上): 選択したフィールドのみを保持し、ステップ内の他のすべてのフィールドは除外します。
計算フィールドの作成: 計算エディターでカスタム計算を記述するか、ビジュアル計算エディター (Prepバージョン 2020.1.1 以降または Web 上) を使用して、詳細レベル、ランク、または行番号の計算を作成します。詳細については、詳細レベル、ランク、タイル計算の作成を参照してください。
- データの役割としてパブリッシュ :カスタムのデータの役割を作成して、それをフィールドに適用し、データのクリーニング時にフィールド値を検証することができます。このオプションの詳細については、カスタムのデータの役割を作成する(新しいウィンドウでリンクが開く)を参照してください。
- フィールドを非表示 : フロー内に保持したいが、クリーニングする必要のないフィールドがある場合は、それらを削除する代わりに非表示にすることができます。詳細については、「フィールドの非表示」を参照してください。
削除 (以前のバージョンではフィールドの削除): フローからフィールドを削除します。
値を編集するには、1 つ以上の値を右クリックまたは Ctrl を押しながらクリック (MacOS) し、[値の編集] を選択してから新しい値を入力します。また、[NULL で置換する] を選択して値を NULL 値で置換するか、単一フィールドをダブルクリックして直接編集することもできます。フィールド値の編集に関する詳細については、フィールド値の編集を参照してください。
- [プロファイル] ペイン、[サマリー] ペイン、またはデータ グリッドでこれらの操作の結果を確認します。
フィールド名を一括で変更する
Tableau Prep Builder バージョン 2021.2.1 以降でサポートされています。Tableau Server および Tableau Cloud バージョン 2021.2 以降の Web上 の Tableau Prep でサポートされています。
複数のフィールド名を一括で変更するには、[フィールド名の変更] オプションを使用します。フィールド名の一部を検索して置換または削除するか、データ セット内のすべてのフィールドまたは選択したフィールドにプレフィックスまたはサフィックスを追加します。
変更するときに [Automatically rename new fields (新しいフィールド名を自動的に変更する)] チェック ボックスをオンにすると、将来追加するフィールドが基準に一致する場合、同じ変更が自動的に適用されます。
注: このオプションは、クリーニング ステップ タイプでのみ使用できます。
クリーニング ステップで、ツールバーから [フィールド名の変更] を選択します。
ビューは自動的にリスト ビューに変換され、フロー内のすべてのフィールドが表示されます。ツールバーの [検索] オプションを使用すると、結果を絞り込むことができます。
既定では [すべてのフィールド] が選択されています。上部のチェック ボックスをオフにすると、すべてのフィールドの選択がクリアされ、変更するフィールドのみを手動で選択できます。
- [フィールド名の変更] で、次のオプションを選択します。
テキストの置換: [Find text (テキストの検索)] フィールドで [検索オプション] を使用して一致するテキストを検索し、[置換] フィールドに置換テキストを入力します。空白を検索するには、[Find text (テキストの検索)] フィールドのスペース バーを押します。
注: フィールド名を変更しても、フィールド名が空白になったり重複したりすることはありません。
- プレフィックスの追加: 選択したすべてのフィールド名の先頭にテキストを追加します。
サフィックスの追加: 選択したすべてのフィールド名の末尾にテキストを追加します。
入力すると、結果が [リスト ビュー] ペインに表示されます。
- (オプション) [Automatically rename new fields (新しいフィールド名を自動的に変更する)] を選択すると、データが更新された時に、置換基準に一致する新しいフィールドに対して同じ変更が自動的に適用されます。
[Rename (名前の変更)] をクリックして変更を適用し、ペインを閉じます。[Rename (名前の変更)] ボタンには、変更によって影響を受けるフィールドの数が表示されます。
変更内容の表示
さまざまなタイプのクリーニング操作が、フローのステップのアイコンで示されています。4 種類を超える操作をステップに適用すると、ステップに省略記号が表示されます。これらのアイコンにカーソルを合わせると、適用された操作と順序を示す注釈が表示され、これに従って実行されます。
Tableau Prep Builder のバージョン 2019.1.3 以降および Web 上では、[フロー] ペインのステップで変更アイコンの注釈をクリックするか、[プロファイル] ペインや [結果] ペインのプロファイル カードをクリックすると、その影響を受ける変更とフィールドが [変更内容] ペイン、および [プロファイル] ペインや [結果] ペインでハイライトされます。
また、ステップを選択してから [変更内容] ペインを展開し、各変更内容の詳細を表示したり、変更内容の編集や削除を行ったり、変更内容を上下にドラッグして変更内容の適用順を変更したりすることができます。また、説明を追加してコンテキストを他のユーザーに提供することもできます。変更内容に説明を加える方法の詳細については、フロー ステップとクリーニング操作への説明の追加(新しいウィンドウでリンクが開く)を参照してください。
クリーニングの注釈 | 変更内容ペイン |
---|---|
集計、ピボット、結合、またはユニオンのステップの変更内容を表示する場合、変更を適用する順序は、再加工アクションの前または後に表示されます。これらの変更の順序はシステムにより適用されるため、変更することはできません。変更は編集し、削除することができます。
フィールドのマージ
名前が異なる同じ値を含むフィールドに関しては、片方のフィールドをもう一方の上部にドラッグすると簡単にマージして単一のフィールドに組み合わせることができます。フィールドをマージする際、ターゲット フィールドがプライマリ フィールドになり、ターゲット フィールドのフィールド名がそのまま残ります。ターゲット フィールドに対してマージするフィールドは削除されます。
例:
値が同じ 3 つのフィールドにおけるインプット ユニオンの結果 | 3 つのフィールドを 1 つにマージ |
フィールドをマージする際、Tableau Prep はターゲット フィールドのフィールドをすべて保持し、そのフィールドに含まれるすべての Null を、ターゲット フィールドとマージするソースフィールドの値で置換します。ソース フィールドは削除されます。
例
名前 | Contact_Phone (連絡先_電話) | Business_Phone (仕事_電話) | Cell_Phone (携帯_電話) | Home_Phone (自宅_電話) |
ボブ | 123-4567 | 123-4567 | Null | Null |
サリー | Null | Null | 456-7890 | 789-0123 |
フレッド | Null | Null | Null | 567-8901 |
エマ | Null | 234-5678 | 345-6789 | Null |
[Business_Phone (仕事_電話)]、[Cell_Phone (携帯_電話)]、[Home_Phone (自宅_電話)] フィールドを [Contact_Phone (連絡先_電話)] フィールドにマージする場合、他のフィールドは削除され、以下のようになります。
名前 | Contact_Phone (連絡先_電話) |
ボブ | 123-4567 |
サリー | 456-7890 |
フレッド | 567-8901 |
エマ | 234-5678 |
フィールドをマージするには、次のいずれかを実行します。
1 つのフィールドを別のフィールドにドラッグ アンド ドロップします。[マージ フィールドにドロップする] インジケーターが表示されます。
複数のフィールドを選択し、選択項目内で右クリックしてコンテキスト メニューを開いてから、[フィールドのマージ] をクリックします。
複数のフィールドを選択し、ツールバーで [フィールドのマージ] をクリックします。
ユニオン後に一致しないフィールドを修正する方法については、一致しないフィールドの修正を参照してください。
推奨事項を使用したクリーニング操作の適用
データに含まれる問題を修正するために、どのクリーニング操作を使用する必要があるかを識別するのが困難な場合があります。Tableau Prepには、データを分析して、自動的に適用可能なクリーニング操作を推奨する機能があるため、データ フィールドに含まれる問題を迅速に修正したり、問題を識別して修理したりすることができます。この機能は、インプット、出力、結合のステップ タイプを除くすべてのステップ タイプで利用可能です。
注: Tableau Prep Builder では、この機能を使用しない場合はオフにすることができます。トップ メニューより、[ヘルプ] > [設定とパフォーマンス] に移動します。[推奨事項の有効化] をクリックし、この設定の隣にあるチェック マークを外します。
推奨タイプには以下が含まれます。
データの役割
フィルター
- 値のグループ化 (Tableau Prepバージョン 2019.2.3 以降および Web 上では、データの役割を使用するフィールドにも適用されます)
列を行にピボット (Tableau Prep Builder バージョン 2019.4.2 以降および Web 上)
- 値の Null 値での置換
フィールドの削除
分割 (Tableau Prep Builderバージョン 2019.1.1 以降および Web 上)
注: このオプションは、固定幅タイプのテキスト ファイルのデータ専用です。このファイル タイプで推奨される分割を使用するには、データ ソースに接続し、インプット ステップで [テキスト設定] タブからデータで使用されていない [フィールド区切り] 文字を選択します。これによりデータが単一のフィールドとして読み込まれます。
スペースのトリミング
推奨の適用
次のいずれかを実行します。
- プロファイル カードの右上隅にある電球 アイコンをクリックします。
- ツールバーで [推奨] ドロップダウン矢印をクリックし、データ セットのすべての推奨事項を表示してリストから推奨を選択します。
このオプションは、推奨される変更が Tableau Prep によって識別される場合にのみ表示されます。
推奨を適用するには、[推奨事項] カードにカーソルを合わせてから [適用] をクリックします。
変更は自動的に適用され、エントリは [変更内容] ペインに追加されます。変更を削除するには、トップ メニューで [元に戻す] をクリックするか、[変更内容] ペインで変更にカーソルを合わせて X をクリックして削除します。
ピボット フィールドに推奨を適用すると、ピボット ステップが自動的に作成され、ピボット処理されたフィールドの名前変更や追加フィールドのピボット処理などのピボット操作を追加で実行できます。
変更の結果、他の推奨事項も Tableau Prep により識別される場合、他に推奨事項が見つからなくなるまで電球アイコンが [プロファイル] カードに表示され続けます。
上記のステップを繰り返して追加の変更を適用するか、提案された変更を無視して、他のクリーニング ツールを使用してデータの問題に対処します。
フィールド値の編集
同じ値のばらつきが複数あると、データを正確に要約できなくなる可能性があります。以下のオプションを使用すると、こうしたばらつきは簡単にすぐ修正することができます。
注: 値に対して行う編集には、フィールドのデータ型との互換性がある必要があります。
単一の値の編集
[プロファイル] カードで編集する値をクリックし、新しい値を入力します。値の隣にグループ アイコン が表示されます。
または、値を右クリックして [値の編集] をクリックします。変更は、画面左側にある [変更内容] ペインに記録されています。
[プロファイル] ペインおよびデータ グリッドで結果を表示します。
複数の値の編集
複数の値を一度に編集するオプションはいくつかあります。たとえば、あるフィールドのすべての値の句読点を削除する、手動で複数の値を選択してグループ化する、類似の値を見つけるあいまい一致アルゴリズムを使って自動的に値をまとめてグループ化する、または複数の値を選択してそれらを NULL で置換する場合は、クイック クリーニング操作を使用します。
注: 複数の値を単一の値にマッピングする場合、元のフィールドには値の隣にグループ化アイコン が表示され、どの値が一緒にグループ化されているかが示されます。
クイック クリーニング操作を使用した複数の値の編集
このオプションはテキスト フィールドのみに適用されます。
[プロファイル] ペイン、[結果] ペイン、またはデータ グリッドで、編集するフィールドを選択します。
[その他のオプション] をクリックし、[クリーニング] を選択してから以下のオプションを 1 つ選択します。
大文字にする: すべての値を大文字のテキストに変更します。
小文字にする: すべての値を小文字のテキストに変更します。
見出し書式にする: すべての値を見出し書式のテキストに変更します。
アルファベット文字の削除: アルファベット文字をすべて削除し、その他の文字のみを残します。
数値の削除: 数字をすべて削除し、その他の文字のみを残します。
句読点の削除: 句読点をすべて削除します。
スペースのトリミング: 先頭および末尾のスペースを削除します。
- 余分なスペースの削除: 先頭と末尾の空白を削除し、文字間の余分な空白を単一のスペースに置き換えます。
- すべてのスペースの削除: 先頭と末尾の空白や文字間の空白など、すべての空白を削除します。
操作を積み上げ、複数のクリーニング操作をフィールドに適用することができます。たとえば、最初に [クリーニング] > [数値の削除] を選択してから、[クリーニング] > [句読点の削除] を選択し、フィールド値からすべての数字と句読点を削除します。
変更を元に戻すには、[フロー] ペイン上部の [元に戻す] 矢印をクリックするか、変更リストから変更を削除します。
複数の値をインラインでグループ化・編集
このオプションを使用すると、複数の値を手動で選択し、プロファイル カードの標準値の下にグループ化することができます。他の方法を使用して値をグループ化するには、標準値への複数の値の手動によるマッピングとあいまい一致を使用した標準値への値の自動マッピングを参照してください。
[プロファイル] カードで、編集するフィールドを選択します。
Ctrl または Shift を押しながらクリック (MacOS の場合は Command または Shift を押しながらクリック) して、グループ化する値を選択します。
右クリックし、コンテキスト メニューから [グループ化] を選択します。右クリックしたセクションに含まれる値が新しいグループのデフォルト名になりますが、これをインラインで編集できます。
グループ名を編集する場合は、グループ化したフィールドを選択して値を編集するか、グループ化したフィールドを右クリックまたは Ctrl を押しながらクリック (Mac) してコンテキスト メニューから [値の編集] を選択します。
グループ化したフィールドの値のグループ化を解除する場合は、グループ化したフィールドを右クリックしてコンテキスト メニューから [グループ化解除] を選択します。
1 つ以上の値の NULL による置換
データ行を分析に含める場合、その中にある特定のフィールド値を除外するには、そのフィールド値を NULL 値に変更することができます。
[プロファイル] カードで Ctrl または Shift を押しながらクリック (Mac では Command または Shift を押しながらクリック) し、変更する値を選択します
右クリックまたは Ctrl を押しながらクリック (Mac) して、メニューより [NULL で置換する] を選択します。値は NULL に変更され、グループ アイコン が値の隣に表示されます。
標準値への複数の値の手動によるマッピング
フィールドの値をある値から別の値にマッピングしたり、複数の値を手動で選択してグループ化したりするには、[Group Values (値のグループ化)] (以前のバージョンの [グループ化と置換]) を使用します。新しい値を追加してマッピングの関係を設定し、データを整理することもできます。
たとえば、1 つのフィールドに、My Company、My Company Incorporated、My Company Inc の 3 つの値があるとします。これらの値はすべて同じ会社、My Company を表しています。[Group Values (値のグループ化)] を使用すると、My Company Incorporated や My Company Inc の値を My Company にマッピングし、3 つすべての値を My Company としてフィールドに表示することができます。
単一の選択フィールドへの複数の値のマッピング
[プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。
[その他のオプション] をクリックし、メニューの [Group Values (値のグループ化)] (以前のバージョンの [グループ化と置換]) > [手動選択] を選択します。
[Group Values (値のグループ化)] エディターの左側のペインで、グループ化の値として使用するフィールド値を選択します。これで、この値が右側のペインの上部に表示されます。
[Group Values (値のグループ化)] エディターの右側のペインの下部で、グループに追加する値を選択します。
グループから値を削除するには、[Group Values (値のグループ化)] エディターの右側のペインの上部で、値の隣にあるチェック ボックスをオフにします。
複数の値の選択によるグループの作成
[プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。
[その他のオプション] をクリックし、メニューの [Group Values (値のグループ化)] (以前のバージョンの [グループ化と置換]) > [手動選択] を選択します。
[Group Values (値のグループ化)] エディターの左側のペインで、グループ化する複数の値を選択します。
[Group Values (値のグループ化)] エディターの右側のペインで、[グループの値] をクリックします。
最後に選択した値をグループ名として使用し、新しいグループが作成されます。グループ名を編集する場合は、グループ化したフィールドを選択して値を編集するか、グループ化したフィールドを右クリックか Ctrl を押しながらクリック (MacOS) してメニューの [値の編集] を選択します。
データ セットに存在しない値の追加と識別
データ セットに含まれる値を存在しない新しい値にマッピングする必要がある場合、[Group Values (値のグループ化)] (以前のバージョンの [グループ化と置換]) を使用して追加できます。データ セットにない値を簡単に識別するため、これらの値は [Group Values (値のグループ化)] エディターの値の名前の隣にある赤いドットでマークされています。
たとえば、以下の画像ではワイオミングとネバダがデータ セットにありません。
値がデータ セットにないいくつかの理由の可能性として、以下のものがあります。
新しい値を手動で追加したばかりである。
値がデータにもう含まれていない。
値はデータに含まれているが、サンプル データ セットには含まれていない。
新しい値を追加するには、以下を実行します。
[プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。
[その他のオプション] をクリックし、コンテキスト メニューの [Group Values (値のグループ化)] (以前のバージョンの [グループ化と置換]) > [手動選択] を選択します。
[Group Values (値のグループ化)] エディターの左側のペインで、プラス をクリックして新しい値を追加します。
フィールドに新しい値を入力し、Enter キーを押して追加します。
右側のペインで、新しい値にマッピングする値を選択します。
- (オプション) マッピングした値に新しい追加の値を追加するには、[Group Values (値のグループ化)] エディターの右側のペインでプラス ボタンをクリックします。
あいまい一致を使用した標準値への値の自動マッピング
類似した値を検索して自動的にグループ化するには、あいまい一致アルゴリズムのいずれかを使用します。フィールドの値は、最も多く現れる値でグループ化されます。グループ化された値を確認し、必要に応じて値の追加や削除を行います。
データの役割を使用してフィールド値を検証する場合は、[Group Values (値のグループ化)] (以前のバージョンの [グループ化と置換]) オプションを使用して有効な値と無効な値を照合できます。詳細については、類似の値をデータの役割でグループ化する(新しいウィンドウでリンクが開く)を参照してください類似の値をデータの役割でグループ化する(新しいウィンドウでリンクが開く)
値をグループ化するには、以下のオプションのいずれかを選択します。
読み方: 音声が似ている値を検索してグループ化します。このオプションでは読み方で単語のインデックスを作成する Metaphone 3 アルゴリズムを使用しており、英単語に最適です。.このタイプのアルゴリズムは、一般的な多くのスペル チェッカーで使用されています。このオプションは、データの役割では使用できません。
一般的な文字: 共通するアルファベット文字や数字を含む値を検索し、グループ化します。このオプションでは句読点、重複、空白を削除したあとの一意の文字により単語のインデックスを作成する ngram fingerprint アルゴリズムを使用します。このアルゴリズムは、サポートされているすべての言語で機能します。このオプションは、データの役割では使用できません。
たとえば、このアルゴリズムでは、「John Smith」と「Smith, John」で表される名前が一致します。どちらの名前でもキー「hijmnost」が生成されるためです。このアルゴリズムは読み方を考慮しないため、値「Tom Jhinois」も同じキー「hijmnost」となり、これもそのグループに含められます。
スペリング: スペルが似ている値を検索してグループ化します。このオプションはデフォルトの一定のしきい値を使い、レーベンシュタイン距離アルゴリズムを利用して 2 つのテキスト値の編集距離を計算します。その後、編集距離がしきい値より小さい場合にそれらをグループ化します。このアルゴリズムは、サポートされているすべての言語で機能します。
Tableau Prep Builder バージョン 2019.2.3 以降および Web 上では、このオプションは、データの役割の適用後に使用できるようになります。その場合は、編集距離を使用して、無効な値をそれに限りなく近い有効な値と一致させます。標準値がデータ セットのサンプルにない場合、その値は Tableau Prep によって自動的に追加され、元のデータ セットにない値としてマークされます。
読み方 + スペリング: (Tableau Prep Builder バージョン 2019.1.4 以降および Web 上) データの役割をフィールドに割り当てると、そのデータの役割を使用して、データの役割で定義した標準値との値のマッチングや値のグループ化ができます。その後、このオプションは、無効な値と最も類似する有効な値をスペリングと読み方に基づいてマッチングします。標準値がデータ セットのサンプルにない場合、その値は Tableau Prep によって自動的に追加され、元のデータ セットにない値としてマークされます。このオプションは、英語表記に最も適しています。
詳細については、データのクリーニングと加工を参照してください。これらのあいまい一致のアルゴリズムについての詳細は、「Tableau Prep Builder での自動グループ化(新しいウィンドウでリンクが開く)」を参照してください。
注: Tableau Prep Builder バージョン 2019.1.4 および 2019.2.1 では、このオプションに [データの役割の一致] というラベルが付いていました。
あいまい一致を使用して類似の値をグループ化する
[プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。
[その他のオプション] をクリックし、[Group Values (値のグループ化)] を選択してから、次のいずれかのオプションを選択します。
読み方
一般的な文字
スペリング
Tableau Prep Builder は一致するグループ値を検索し、それをグループ内で最も多い値と置換します。
グループ化を確認し、必要に応じて値の追加や削除、または編集を行います。[完了]. をクリックします。
フィールド値をグループ化するときに結果を調整する
類似の値をスペリングまたは 読み方でグループ化する場合、フィールドでスライダーを使用すると、グループ化のパラメーターの強さを調整して結果を変更することができます。
スライダーの設定方法によって、グループに含める値の数と作成するグループの数をより細かく制御できます。既定では、Tableau Prep は、最適なグループ設定を検出し、その位置にスライダーを表示します。
しきい値を変更すると、Tableau Prep は値のサンプルを分析し、新しいグループ化を特定します。設定から生成されたグループは保存され、[変更内容] ペインに記録されますが、しきい値の設定は保存されません。次回 [Group Values (値のグループ化)] エディターを開いて既存の変更の編集や新しい変更を行うと、既定の位置にしきい値のスライダーが表示されるため、現在のデータ セットに基づいて調整を行うことができます。
[プロファイル] ペインまたは [結果] ペインで、編集するフィールドを選択します。
[その他のオプション] をクリックし、[Group Values (値のグループ化)] (以前のバージョンの [グループ化と置換]) を選択してから、次のいずれかのオプションを選択します。
読み方
スペリング
Tableau Prep は一致する値を検索してグループ化し、それをグループ内で最も頻繁に使用される値に置換します。
[Group Values (値のグループ化)] エディターの左ペインで、スライダーを 5 つのしきい値レベルのいずれかにドラッグして結果を変更します。
しきい値をより厳密に設定するには、スライダーを左に移動します。これにより、一致する結果が減り、作成されるグループは少なくなります。しきい値をより柔軟に設定するには、スライダーを右に移動します。これにより、一致する結果が増え、作成されるグループは増えます。
- [完了] をクリックして変更を保存します。