データ内のクラスターを見つける

適用先: Tableau Desktop, Tableau Public

クラスター分析はビュー内のマークをクラスターに区分します。各クラスター内のデータの値は、他のクラスター内のマークより互いに似ています。

色シェルフにクラスターがある散布図マトリクス。

サンプルデータを使用したクラスターの作成プロセスを示す例については、例: 世界経済インジケーターデータを使用してクラスターを作成するを参照してください。

クラスターの作成

Tableau のビューでクラスターを見つけるには、次の手順に従います。

ビューを作成します。
[クラスタ] を [分析] ペインからビューまでドラッグし、ビュー内のターゲットエリアにドロップします。
また、[クラスター] をダブルクリックしてビューでクラスターを見つけることもできます。
[クラスター] をドロップまたはダブルクリックすると次のことが起こります。
- Tableau は [色] でクラスターを作成し、ビュー内のマークをクラスター別に色付けます。[色] に既にフィールドがある場合、Tableau はそのフィールドを [詳細] に移動し、[色] でその値をクラスタリングの結果に置き換えます。
  Tableau はビュー内の各マークをクラスターのいずれかに割り当てます。場合によっては、クラスターに適合しないマークは "非クラスター化" クラスターに割り当てられます。
- Tableau には、クラスターをカスタマイズできる [クラスター] ダイアログボックスが表示されます。
[クラスター] ダイアログボックスで、次のいずれかを実行してクラスター結果をカスタマイズします。
- [データ] ペインから [クラスター] ダイアログボックスの [変数] エリアに新しいフィールドをドラッグします。フィールドは [変数] エリアの外にドラッグして削除することもできます。
  変数を追加すると、メジャーはフィールドの既定の集計を使用して集計され、ディメンションは ATTR を使用して集計されます。これは、Tableau がディメンションを集計する標準の方法です。
  変数の集計を変更するには、それを右クリックします。
- クラスターの数を指定します (2 ～ 50)。値を指定しない場合、Tableau は最大 25 のクラスターを自動的に作成します。
クラスターのカスタマイズを完了したら、[クラスター] ダイアログボックスの右上隅にある X をクリックして閉じます。

注: クラスターフィールドを [色] からビューの別のシェルフに移動できます。ただし、[フィルター] シェルフから [データ] ペインにクラスターフィールドを移動することはできません。

結果のクラスターの名前を変更するには、まずクラスターをグループとして保存する必要があります。詳細については、クラスター結果からグループを作成するおよびクラスターの編集を参照してください。

クラスタリングの制約事項

クラスタリングは Tableau Desktop では利用できますが、Web での作成は利用できません (Tableau Server、Tableau Cloud)。クラスタリングは、次のいずれかの条件が適用される場合にも使用できません。

キューブ (多次元) データソースを使用している場合。
この場合、ビューにはブレンドされたディメンションがあります。
ビューのクラスタリングに対して変数 (入力) として使用可能なフィールドがない場合。
集計ビューにディメンションがない場合。

これらのいずれかの条件が適用される場合、[アナリティクス] ペインの [クラスター] をビューまでドラッグすることはできません。

さらに、次のフィールドタイプをクラスタリングの変数 (入力) として使用することはできません。

表計算
ブレンドされた計算
アドホック計算
生成された緯度/経度の値
グループ
セット
ビン
パラメーター
日付
メジャー名 / メジャーの値

クラスターの編集

既存のクラスターを編集するには、[色] の [クラスター] フィールドを右クリック (Mac では Control を押しながらクリック) し、[クラスターの編集] を選択します。

クラスターを編集するオプションを含むフィルターのドロップダウンメニュー。

各クラスターで使用される名前を変更するには、まず [クラスター] フィールドを [データ] ペインにドラッグし、それをグループとして保存する必要があります。詳細については、クラスター結果からグループを作成する参照してください。

クラスターグループを右クリックして [グループの編集] を選択し、各クラスターで変更を行います。

グループを編集するオプションを含むドロップダウンメニュー。

[グループ] のリストでクラスターグループを選択し、[名前の変更] をクリックして、名前を変更します。

クラスターの名前を変更するオプションが表示されたグループの編集ダイアログ。

クラスター結果からグループを作成する

[データ] ペインにクラスターをドラッグすると、そのクラスターはグループディメンションとなります。グループディメンション内の個々のメンバー (クラスター 1、クラスター 2 など) に含まれるマークはアルゴリズムによって決定され、他のマークより互いに似ています。

クラスターグループを [データ] ペインまでドラッグした後、それを他のワークシートで使用できます。

Tableau グループを作成するには、[クラスター] を [マーク] カードから [データ] ペインにドラッグします。

マークカードからデータペインのディメンションにクラスターピルをドラッグする方法を示した図。

クラスターからグループを作成すると、グループと元のクラスターは分離され、個別になります。クラスターを編集してもグループには影響を与えず、グループを編集してもクラスターには影響しません。グループは、他の Tableau グループと同じ特性を持ちます。データソースの一部です。元のクラスターとは異なり、ワークブック内の他のワークシートでグループを使用できます。そのため、保存されたクラスターグループの名前を変更すると、その名前の変更はビューの元のクラスターには適用されません。データのグループ化によりデータエラーの修正またはディメンションメンバーを組み合わせるを参照してください。

クラスターをグループとして保存することに関する制約

次の状況では、クラスターを [データ] ペインに保存することはできません。

ビュー内のメジャーが不連続で、クラスタリング変数として使用するメジャーがビュー内のメジャーと異なる場合。詳細については、データの非集計方法を参照してください。
保存するフィルターが [フィルター] シェルフ上にある場合。
[メジャー名] または [メジャー値] がビュー内にある場合。
この場合、ビューにはブレンドされたディメンションがあります。

保存済みクラスタの再適合

[クラスター] フィールドをグループとして保存する場合、その分析モデルと共に保存されます。他のワークシートやワークブックのクラスターグループを使用できますが、自動的には更新されません。

この例では、保存済みクラスターグループとその分析モデルが別のワークシートに適用されています。その結果、マークの一部がまだクラスタリングに含まれていません (灰色マークで示される)。

3 つのプレーヤークラスターの安打数と打席数の相関関係を示す散布図。

参照元データが変更になると、[再適合] オプションを使用して保存済みクラスターのデータを更新および再計算できます。

保存済みクラスターを再適合するには

[データ] ペインのクラスターグループを右クリックしてから [再適合] をクリックします。
これは、保存済みクラスターを再適合後の更新したクラスタリングの例です。
保存済みクラスターを最適合すると新しいクラスターが作成され、各クラスターグループカテゴリーの既存の別名が新しく汎用性のあるクラスターの別名に置き換えられます。保存済みクラスターを最適合すると、既存のクラスターおよび別名を使用するビジュアライゼーションが変更されますのでご注意ください。

クラスタリングのしくみ

クラスター分析はビュー内のマークをクラスターに区分します。各クラスター内のデータの値は、他のクラスター内のマークよりも互いに似ています。Tableau は色を使用してクラスターを区別します。

注: Tableau でのクラスタリングの仕組みに対するさらなるインサイトについては、ブログ記事「Tableau 10 のクラスタリングを理解する」を参照してください。

クラスターアルゴリズム

Tableau はクラスタリングに k 平均法を使用します。クラスター k の指定された数字に対し、アルゴリズムはデータを k 個のクラスターに区分します。各クラスターには、そのクラスターのすべてのポイントの平均値である中心 (centroid) があります。K 平均法では、クラスター内の個別ポイントとクラスターの中心の間の距離を最小化する手順を繰り返して、中心を配置します。Tableau では、ユーザーは希望するクラスターの数を指定できます。または Tableau がさまざまな k の値をテストし、最適なクラスター数を決定できます (詳細については、最適なクラスター数を判断するのに使用する基準を参照してください)。

K 平均法では、クラスター中央値の初期仕様が必要です。1 つのクラスターから開始し、メソッドは、平均がデータを 2 つに分割するためのしきい値として使用される変数を選択します。これらの 2 つの部分の重心は、次に k 平均法を初期化し、2 つのクラスターのメンバーシップを最適化するために使用されます。次に、2 つのクラスターから分割対象となるものを 1 つ選択し、そのクラスター内で、平均がデータを 2 つに分割するためのしきい値として使用される変数を選択します。次に、k 平均法を使用してデータを 3 つのクラスター内にパーティション化し、分割クラスターの 2 つの部分の重心と、残りのクラスターの重心で初期化します。このプロセスは、クラスターの設定数に到達するまで繰り返されます。

Tableau は Lloyd の平方ユークリッド距離のアルゴリズムを使用して、各 k の k 平均値クラスタリングを計算します。分割手順と組み合わせ、各 k > 1 に対する最初の中心を決定します。結果として表示されるクラスターは決定論的で、結果はクラスター数によってのみ異なります。

アルゴリズムは最初に初期クラスターの中心を選びます。

赤、緑、オレンジ、黒のマーカーが付いた散布図。

次に、各マークを最も近い中心に割り当てることでパーティションを作成します。

3 つのクラスターにグループ化されたデータポイントを示す図。

次に、同じクラスターに割り当てられるすべてのポイントを平均し、各パーティションの新しい中心を計算して結果を微調整します。

3 つのクラスターにグループ化されたデータポイントを示す図。

その後、クラスターに対するマークの割り当てを見直し、以前とは異なる中心に近くなったマークを再度割り当てます。

変更が発生しなくなるまでクラスターの再定義とマークの再割り当てが繰り返されます。

注: x64 CPU または arm64 CPU で作成されたクラスターでは、基本的な技術の違いにより、同じデータでも若干の違いが生じる場合があります。

最適なクラスター数を判断するのに使用する基準

Tableau は Calinski-Harabasz 検索条件を使用してクラスターの質を評価します。Calinski-Harabasz 検索条件は次のように定義されます

Calinski-Harabasz 規準。

ここで、SSB はクラスター間の全体的な分布、SSW はクラスター内の全体的な分布、k はクラスター数、N は観察数です。

この割合の値が大きくなるほど、クラスターはより凝集し (クラスター内の分布が小さい)、個々のクラスターがより特徴的となり、分離しています (クラスター間の分布が大きい)。

Calinski-Harabasz は k=1 に対して定義されないため、1 クラスターの事例の検出に使用できません。

ユーザーがクラスター数を指定使用しない場合、Tableau は Calinski-Harabasz インデックスの最初のローカル最大値に対応するローカル数を使用します。既定では、インデックスの最初のローカル最大値が k の最小値に到達しない場合、k 平均法は最大 25 個のクラスターに対して実行されます。最大で 50 個のクラスターを設定できます。

注: カテゴリー変数 (ディメンション) の一意の値が 25 より多い場合、Tableau はクラスターの計算時にその変数を無視します。

"非クラスター化" カテゴリーに割り当てられた値は何ですか。

メジャーに NULL 値が含まれる場合、Tableau は NULL 値の入った行の値を非クラスター化カテゴリーに割り当てます。ATTR に * を返す (すべての値が同一ではないことを意味します) カテゴリー変数 (ディメンション) もクラスター化されていません。

拡張

Tableau は値のサイズを自動的に調節し、拡大率が大きい列に結果が占領されないようにします。たとえば、アナリストはインフレと GDP をクラスタリングの入力変数に使用できますが、GDP 値は数兆ドル単位のため、計算時にインフレ値がほとんど完全に無視される可能性があります。Tableau は、min-max 標準化と呼ばれるスケーリングメソッドを使用します。このメソッドでは、最小値を抽出して範囲で除算し、各変数の値を 0 と 1 の間の値にマッピングします。

クラスターで使用される統計モデルの情報

[クラスタリングの説明] ダイアログボックスは、Tableau がクラスタリング用に計算するモデルに関する情報を提供します。これらの統計を使用して、クラスターの品質を評価できます。

ビューにクラスターが含まれる場合、[マーク] カードの [クラスター] を右クリック (Mac では Control を押しながらクリック) して [クラスターの説明] ダイアログボックスを開き、[クラスターの説明] を選択できます。[クラスターの説明] ダイアログボックスの情報は読み取り専用ですが、[クリップボードにコピー] をクリックして、画面の内容を書き込み可能なドキュメントに貼り付けることができます。

クラスターの説明 – [サマリー] タブ

[サマリー] タブはクラスターの生成に使用された入力を識別し、クラスターを表すいくつかの統計を提供します。

クラスタリングの入力

変数

識別子は、Tableau がクラスターの計算に使用するフィールドです。[クラスター] ダイアログボックスの [変数] ボックス内にはフィールドのリストが表示されます。

詳細レベル

ビューの詳細レベルに貢献しているフィールド (集計のレベルを決定するフィールド) を識別します。詳細については、ディメンションのビューの詳細レベルへの影響を参照してください。

拡張

事前処理に使用した拡張方法を識別します。正規化は、現在 Tableau が使用している唯一の拡張方法です。この方法 (min-max 標準化) の式は (x – min(x))/(max(x) - min(x)) です。

サマリー診断

クラスター数

クラスター内の個々のクラスターの数。

ポイント数

ビュー内のマークの数。

グループ間の平方和

クラスター間の分離を、各クラスターの中心 (平均値) とデータセットの中心の残差平方和、クラスターに割り当てられたデータポイントの数別に重み付け、データセットの中心値として定量化するメトリクス。値が大きいほど、クラスター間がうまく分離しています。

グループ内の平方和

各クラスターの中心とクラスター内の個々のマークの間の残差平方和としてクラスターの凝集を定量化するメトリクス。値が小さいほど、クラスターはより凝集しています。

総平方和

グループ間の平方和とグループ内の平方和の合計。(グループ間の平方和)/(総平方和) の割合は、モデルによって説明される分布の比率を示します。値は 0 から 1 の間で、一般的に大きい値はより上位のモデルを示します。ただし、クラスターの数を増やすだけでこの割合を増やすことができます。そのため、この値のみを使用して 5 クラスターのモデルと 3 クラスターのモデルを比較すると誤解を招くおそれがあります。

クラスター統計

クラスタリングの各クラスターで、次の情報が提供されます。

アイテム数

クラスター内のマークの数。

中心

各クラスター内の平均 (数値で表示)。

最も一般的

各クラスターの最も一般的な値 (カテゴリー別アイテムでのみ表示されます)。

クラスターの説明 - [モデル] タブ

分散分析 (ANOVA) は、グループまたはクラスターに区分された観察の間の差を分析する便利な統計モデルと関連手順の集まりです。この場合、分布の分析は変数ごとに計算され、結果として表示される分散分析テーブルを使用して、クラスターの識別に最も効果的な変数を決定します。

クラスタリングに関連する分散分析統計には、次が含まれます。

F 統計値

一方向、一元配置の ANOVA は、変数によって説明される分散の分数です。全分散に対するグループ間の分散の全分散の割合です。

F 統計の値が大きいほど、対応する変数がクラスター間を適切に分離しています。

p 値

p 値は、F 統計が変数の実際の F 統計より大きい値を取る、F 統計に考えられるすべての値の F 分布の可能性です。p 値が指定された重大度を下回った場合、NULL 仮説 (変数の個別クラスターが同じ人口のランダムのサンプルとなる) は却下される場合があります。この F 分布の自由度は (k - 1、N - k) です。ここで、k はクラスター数、N はクラスターされるアイテム (行) の数です。

p 値が小さいほど、対応する変数の要素の期待値はクラスター間で異なります。

モデルの平方和と自由度

モデル平均平方和は、モデルの自由度に対するグループ間の平方和の割合です。グループ間平方和は、クラスター平均の間の分布を測定します。クラスター平均が互いに近い (および全体的な平均に近い) 場合、この値は小さくなります。モデルの自由度は、k-1 です。ここで、k はクラスターの数です。

平方和誤差と自由度

誤差平方和は、誤差の自由度に対するグループ内の平方和の割合です。グループ内平方和は、各クラスター内の観察の間の分布を測定します。誤差の自由度は N-k です。ここで、N はクラスター化された観察 (行) の合計数、k はクラスターの数です。

誤差平方和は、全体平均平方誤差として考えることができます。この場合、各クラスターの中心は、各クラスターに対する「真」であると想定します。

例: 世界経済インジケーターデータを使用してクラスターを作成する

Tableau クラスター機能はビュー内のマークをクラスターに区分します。各クラスター内のデータの値は、他のクラスター内のマークより互いに似ています。この例では、調査員がクラスターを使用してデータソースの最適なマークのセット (この場合は国/地域) を見つける方法を示します。

目的

世界中で平均寿命が延び、年長者がよりアクティブとなっているため、高齢者の観光は潜在顧客を探し、惹きつける方法を知っている企業にとって利益の多い市場となっています。Tableau に付属している世界インジケーターには、正しい種類の顧客が十分存在している国または地域を特定するのに役立つようなデータが含まれています。

適した国/地域を探す

これらの企業による、高齢者の観光ビジネスが成功できる国/地域の特定をサポートするために、Tableau クラスターを使用した例は、次のとおりです。自分がアナリストであると想像してください。進め方は、次のとおりです。

Tableau Desktop で、世界指標サンプルデータソースを開きます。
[データ] ペインで [国/地域] をダブルクリックします。
Tableau は自動的にマップビューを作成し、各国/各地域にマークを付けます。
[マーク] カードでマークタイプを [マップ] に変更します。
すべての国/地域が一色で塗りつぶされたマッププロジェクションが表示されます。

次の手順では、クラスター用の変数として使用できるフィールドを特定します。選択可能なフィールド:

フィールド	含める理由
"Life Expectancy Female (女性の平均寿命)" と "Life Expectancy Male (男性の平均寿命)"	人が年齢を重ねると、高齢になってから旅行に関心を持つ可能性はより高くなります。
"Population Urban (都市の人口)"	人口密度が高いエリアの方が、サービスのマーケティングは容易になります。
"Population 65+ (65 才を超える人口)"	ターゲットとする人口は、旅行にかける時間とお金を持っている高齢者です。
TourismPerCapita	これは、名前付き計算フィールドとして作成する必要があるメジャーです。式は、次のようになります: `SUM([Tourism Outbound])/SUM([Population Total])` 「Tourism Outbound (国外旅行)」は、国/地域の居住者が年間に海外旅行に費やす金額 (米ドル) を集計します。しかし、各国民が海外旅行に費やす平均金額を判断するには、この合計を各国/各地域の人口で割る必要があります。

これらが選択に最適なフィールドである保証や、これらのフィールドによって明確ではっきりとしたクラスター結果が生成される保証はありません。クラスタリングは、反復プロセスです。検出を導くための実験を行うことにより、さらに実験を導きます。

これら 5 つのフィールドを [データ] ペインから [マーク] カードの [詳細] までドラッグします。
クリックして [アナリティクス] ペインを開きます。
[分析] ペインから [クラスター] をドラッグしてビューにドロップします。
Tableau には [クラスター] ダイアログボックスが表示され、ビューのメジャーを変数のリストに追加します。
クラスターを [色] に追加することにより、ビューも更新します。この場合、Tableau は 2 つの異なるクラスターを検出し、特定の国/地域 (赤みがかかったピンク色) をいずれかのクラスターに割り当てることはできません。
注: クラスタリングのしくみを参照し、Tableau が "非クラスター化" に割り当てたデータの詳細を確認してください。
あなたは 2 つのクラスターでは不十分であると判断しますが、世界の半分の国/地域で店舗を設定するリソースはありません。[クラスター] ダイアログボックスの [クラスターの数] フィールドに「4」を入力します。
マップは、より興味をそそるものになります。
では、これらのクラスターを、選択した変数と関連付けるにはどうすればよいでしょうか。高齢者の旅行をサポートする要因と最も相関関係の強いものはどれでしょうか。クラスターの影にある統計を確認する時間です。
[クラスター] ダイアログボックスを閉じるには、右上隅にあるアイコンをクリックします。
[マーク] カードで [クラスター] フィールドをクリックしてから、[クラスターのサブスクライブ] を選択します。
[クラスターの説明] ダイアログボックスの [モデル] タブの下にある表は、各クラスターの各変数に対する平均値を示します。
クラスター 4 は平均寿命が最も高く (男性と女性の両方)、都市部人口密度が最も高く、海外旅行に費やす金額も最高となっています。1 人あたり $1360.40。クラスター 4 で最高値となっていない唯一の変数は、"Population 65+ (65 歳を超える人口)" です。この変数は、クラスター 3 では0.15493 (16% 弱)、クラスター 4 では 0.11606 (11% 強) となっています。
クラスタリングアルゴリズムには、これらの変数の最大値、最小値、またはその中間の値のどれをユーザーが探しているのがわかりません。ただし、相関関係のみを探します。これらの変数の値が高い場合は、探している兆候であることが分かっているため、クラスター 4 が最適な選択となります。
マップからクラスター 4 の国/地域の取得を試みることもできますが、さらに簡単な方法があります。[クラスターの説明] ダイアログボックスを閉じ、色の凡例で [クラスター 4] をクリックしてから、[選択したデータのみを保持する] をクリックします。
[表示形式] からテキストテーブルを選択します。
クラスター 4 に国/地域のリストが表示されるようになりました。
このリストは、プロセスの終わりではありません。異なる変数のセットや異なるクラスター数で再度クラスター化を試みたり、他の要因に基づいていくつかの国/地域をリストに追加して他の国/地域を削除する場合があります。たとえば、御社のツアーが主に南国を対象としている場合、これらの国/地域の住人は南国行きのツアーに惹かれないと考えられるため、キュラソー、アルバ、バハマなどの国/地域をリストから削除できます。
もう 1 つのオプションは再クラスターの前にデータをフィルターし、人口が特定のしきい値を上回る国/地域のみを表示するか、特定の地理的エリアの国/地域を対象とする方法です。