予測変数の選択

Tableau で予測モデリング関数を使用して予測計算を作成するには、予測変数を選択する必要があります。予測変数とは、結果変数 (目的変数や応答変数とも呼ばれます) を予測するために使用する入力変数です。通常、予測変数には、よく知っている分野で、予測対象と強く相関しているため、優れた予測子となることが想定されるデータを使用します。ただし、選択した予測変数を評価して、正しい選択であったか確認してみることもお勧めします。常に 少なくとも 1 つの予測変数を選択しますが、複数の予測変数を選択したい場合もよくあります。

まず、予測する対象を選択します。これは当たり前に聞こえますが、予測したいものに基づいて予測変数を選択しているか確認することは、重要な最初のステップです。 例えば、女性の平均寿命と最も相関する分野は、男性の平均寿命と最も相関する分野とは大きく異なる可能性があります。同様に、売上と最も相関する分野は、利益と最も相関する分野とは大きく異なる可能性があります。

もう 1 つ注意すべきは、既定では予測モデリング関数では基本にする統計モデルとして線形回帰が使用されるということです。このモデルでは、最も相関性の高い予測変数は、ターゲットと線形関係になります。サポートされている別のモデルの使用については、予測モデルの選択を参照してください。

予測変数の選び方をよく理解して課題に最適な予測を出せるように、女性の平均寿命データを見てみましょう。続けるには、Tableau Public からワークブック「予測変数を選択して予測する」をダウンロードしてください。

予測変数としてのメジャー

メジャーを予測変数として使用する場合、Tableau を使用するとターゲットとの相関関係を評価できます。散布図を作成するのも 1 つの方法です。 以下は、国の女性の平均寿命の中央値と、他の様々なメジャーを比較したものです。

予測変数とターゲットの相関関係を示す散布図の比較

乳児死亡率出生率などのメジャーは、散布図の負の傾きに見られるように、女性の平均寿命と明確な負の相関関係があります。他のメジャーは、それほど明確ではありません。それでもはっきりとわかることがもう 1 つあり、GDPの中央値携帯電話の使用量の中央値一人当たりの保険医療費は L 字型に分布しています。L 字型の分布は、対数変換を使用するとより正確にデータを分析できる可能性があることを示しています。列の値がすべて正の値であるかどうかも注意点です。Tableau で対数変換を使用するには、ピルを編集して式を LOG 関数でラップします。

ログ機能

これにより、スケールの両極端を区別するのが難しい L 字型の分布から、スケールの両極端による圧縮が少ない、より均一な分布へと導くことができます。

L 字型散布図

他の L 字型の分布でもこの操作を繰り返すと、次のようになります。

より多くの L 字型分布

決定係数 (R 二乗値)

マークの分布が直線に近づくほど、2 つのメジャー間の相関が強くなります。相関性は、傾向線を追加すると評価しやすくなります。[分析] ペインから [傾向線] をビューにドラッグし、[線形] にドロップします。傾向線にカーソルを合わせると R 二乗値 (決定係数) がわかります。この値は、従属変数 (ターゲット) を独立変数 (予測変数) がどの程度よく説明しているかを示しています。R 二乗値が 1 に近い予測変数は、R 二乗値が 0 に近い予測変数よりも優れています。

R 二乗が 1 に近い散布図

散布図を見ると、女性の平均寿命の中央値の最良の予測値は、R 二乗値が 0.87 の乳児死亡率の中央値であることがわかります。

R 二乗から最適なプロットを選択する

その他の良い予測値は、出生率の中央値 (R 二乗値 = 0.76) と対数変換した一人当たりの保険医療費の中央値 (R 二乗値 =0.56) です。

注: ラインの傾きは どの予測変数が最も高い R 二乗値を持つかを明確に示すものではありません。X軸の目盛りは選択した特定の変数の範囲次第で変わるため、線の傾きは使用する特定の変数によって大きく影響されます。

下の図では、女性の平均寿命の中央値に対して女性の平均寿命の中央値を視覚化したものです。結果として生じるビジュアライゼーションは傾き 45° で完全に直線になります。予想通り、X 軸の値と Y 軸の値の間には R 二乗値が 1 の完全な相関関係があります。

R 二乗を 1 にしてプロットする

いっぽう、以下に示すように、LOG(MEDIAN([GDP)]) は他の傾向線よりも傾斜が急ですが、R 二乗値は 0.169 しかありません。これは、そのペインで X 軸の目盛りをどのように取るかによるためです。

低い R 二乗を表示する

次に、いくつかのマークが傾向線の傾きにどのように大きく影響するかを見てみましょう。ビジネス税率の中央値の散布図を拡大すると、マークの大部分は 0 から 1 くらいの間の税率ですが、6 つの国については 2 から 3 の間のはるかに高い税率であることがわかります。すべてのマークの R 二乗値は 0.0879 です。

事業税率チャートの中央値をズーム インする

ここで、6 つのマークのクラスターを取り除くと何が起こるかを見てみましょう。

マークのクラスターが削除されたときに何が起こるかを表示する

傾向線はほぼ横ばいで、R 二乗値は 0.0006に低下します。ビジネス税率の中央値女性の平均寿命の中央値との間には、本質的に相関関係がないことを示しています。データを視覚化し、適切な統計手法を使用して予測変数を選択する際には、結論に影響を与える可能性のある外れ値やその他のデータ特性があるかどうかを慎重に検討することが重要です。

注: サマリー統計で全体像を把握できない例については、「Anscombe のカルテット」を参照してください。

予測変数としてのディメンション

ディメンションを予測変数として使用する場合も、同様の手順を使用して相関性を特定できます。ただし、ターゲットとの関係のレベルでは、さまざまなディメンション間に大きな相違があることに気づくかも知れません。たとえば、地域で細分化する場合、ある地域ではターゲットを予測する上で非常に優れた予測変数であっても、別の地域では相関が大幅に少なくなる可能性があります。これは、そのディメンションを予測変数として使用すべきではないという意味ではなく、追加のメジャーやディメンションを使用することがモデルの改善に役立つかどうか、ひいては予測を改善するのに役立つかどうかを検討することもできることを示唆しています。

データ セットの最良の予測変数は、乳児死亡率の中央値出生率の中央値、および対数変換した一人当たりの保険医療費の中央値であると判断したので、viz を次の 3 つの変数に絞りましょう。

異なる変数を比較する

次に、[マーク] カードの [色] に [地域] を追加してデータを分割し、viz に何が起こるか見てみます。

色による区分

予測変数間で R 二乗値を比較する

各予測変数について、各地域の傾向線ごとに R 二乗値がどのようになるか比較してみましょう。

地域ごとの R 二乗値を比較する表

上の表では、各予測変数の一番低い R 二乗値が赤で強調表示され、2 番目に低い値が黄色で強調表示されています。

ヨーロッパでは乳児死亡率の中央値と出生率の中央値に対して R 二乗値が最も低く、アフリカでは一人当たりの保険医療費の中央値 (赤で強調表示) を対数変換したものに対して R 二乗値が最も低くなっています。また、アフリカでは乳児死亡率の中央値と出生率の中央値の両方に対して R 二乗値が低くなっています。

ディメンションを追加するとモデルに詳細な情報を提供でき、情報をより追加することで予測の品質を向上させることができます。ただし、特定の区分 (この場合は地域) 内では、予測品質が向上したり低下したりする可能性があります。場合によっては、特定のグループに最適な予測値であるメジャーに基づいて、各区分のモデルを個別に作成したいことがあるかもしれません。

この例では、乳児死亡率はすべての地域で女性の平均寿命とかなり強い相関がありますが、アフリカとヨーロッパではやや弱いです。出生率の中央値はオセアニアとアジアでは優れた予測変数ですが、ヨーロッパの女性の平均寿命との相関はほとんどありません。対数変換した保険医療費の中央値は、アフリカを除くすべての地域で妥当な予測変数です。4 つのすべての予測変数 (乳児死亡率、出生率、対数変換した保険医療費、地域) で構築したモデルを使用すると、ヨーロッパとアフリカの国々では最も精度の低い予測になると予想できます。データをさらに詳しく調べると、ヨーロッパやアフリカにより適したモデルを構築するために使用できる、追加の予測変数または代替の予測変数があるかどうかを確認できます。

予測モデリング関数の作成

適切な予測変数が見つかったので、予測モデリング関数を作成して適用し、実際の動作を確認しましょう。

  1. 上部の [分析] メニューを開き、[計算フィールドの作成] を選択します。

  2. [計算エディター] で計算に名前を付け、次の手順を行います。

    • 計算に名前を付けます: Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region

    • 次の式を入力します。

      MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
      LOG(MEDIAN([Health Exp/Capita])),
      MEDIAN([Birth Rate]),
      MEDIAN([Infant Mortality Rate]),
      ATTR([Region]))

この計算は、選択した予測変数 (保険医療費出生率乳児死亡率、および地域) に基づいて、モデル化された女性の平均寿命の中央値の範囲にある中央値 (0.5) を返します。

次に、実際の女性の平均寿命の中央値と予測された女性の平均寿命の中央値の両方を示す散布図を作成します。

実際の値と予測値を比較する

素晴らしい! 予測は、各地域の実際の値とかなり一致しています。

もう 1 つ操作を行って、予測がマークから最も離れている場所を見つけましょう。Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region という別の計算を次のように作成します。

MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]

この残差計算では、予測した中央値と実際の中央値の差が返されるため、女性の平均寿命の実際の中央値と予測された中央値の差が最も大きい国がわかります。

次に、この残差計算を に適用します。

セカンダリ計算の追加

上の viz では、ほとんどの地域のほとんどの国では、予測した値と実際の値の差が小さいことがわかります。アフリカは、大きな差がある国の数が最も多い地域ですが、どのような違いがあるのかを確認するために、もう 1 つ操作を行いましょう。

差は -17 から +9 の範囲にあるので、vizを ±3 年未満の差、±5 年未満の差、±10 年未満の差、±10 年以上の差があるグループに分けます。

Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region というもう一つの計算を次のように作成します。

IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -3
THEN "±3"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN "±5"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN "±10"
ELSE
"> ±10"
END

再び、計算を に追加します。

最終的なビュー

予測の大半は 3 年未満しかずれていなくて、10 年以上ずれているのはごく一部であることがわかります。全体的に、かなり良い予測です。

これは、このモデルを使用すると、女性の平均寿命の中央値が外れ値である国を正確に識別したり、このデータが欠落している国の女性の平均寿命をモデル化して提供できることを意味しています。