ビジュアライゼーションへの傾向線の追加
ビジュアライゼーションで傾向線を表示し、データの傾向をハイライトできます。傾向線を含むビューをパブリッシュしたり、Web 上で編集しながらビューに傾向線を追加したりすることができます。
傾向線をビューに追加する場合、傾向線の表示と動作を指定できます。
ビューへの傾向線の追加
ビジュアライゼーションに傾向線を追加するには:
[アナリティクス] ペインを選択します。
[アナリティクス] ペインから [傾向線] をビューにドラッグし、[線形]、[対数]、[指数]、[多項]、[累乗] の各モデル タイプにドロップします。
こうした各モデル タイプの詳細については、傾向線モデル タイプを参照してください。
傾向線の追加および追加できない状況について
傾向線をビューに追加するには、両方の軸に数値として解釈できるフィールドが含まれている必要があります。たとえば、[列] シェルフに文字列を含む "Product Category (製品カテゴリ)" ディメンション、[行] シェルフに "Profit (収益)" メジャーを持つビューには傾向線を追加できません。一方、売上高と時間はどちらも数値として解釈できるため、時間に対する売上高のビューには傾向線を追加することができます。
多次元データ ソースでは、日付の階層には実際には数値ではなく文字列が含まれています。したがって、傾向線は使用できません。また、すべてのデータ ソースで 'm/d/yy' および 'mmmm yyyy' の日付形式には傾向線を使用できません。
傾向線をオンにして、傾向線を使用できない状態にビューを変更すると、傾向線は表示されません。傾向線を使用できる状態にビューを戻すと、傾向線が表示されます。
Tableau では、ほとんどの場合、棒グラフのマークを自動的に積み上げます。ただし、積み上げ棒グラフに対して傾向線をオンにすることはできません。[分析] > [スタック マーク] オプションをオフにすると、スタック マークをオフにすることができます。
傾向線の編集
ビジュアライゼーションに傾向線を追加すると、分析に応じて編集できます。
傾向線を編集するには:
Tableau Desktop: ビジュアライゼーションの傾向線を右クリックし、[傾向線の編集] を選択します。
Web 編集モード:
- ビジュアライゼーションで傾向線をクリックし、カーソルを合わせます。
- 表示されるツールヒントで [編集] を選択し、[傾向線のオプション] ダイアログ ボックスを開きます。
注: Tableau Cloud または Tableau Server で傾向線を編集するには、Web の編集権限が必要です。
[傾向線のオプション] ダイアログ ボックスで次のオプションを設定できます。
モデル タイプを選択します。詳細については、傾向線モデル タイプを参照してください。
傾向線モデルで係数を使用するフィールドを選択します。詳細については、傾向線モデルで係数として使用するフィールドを選択するを参照してください。
- 色を除外するかどうかを判断するには、[色ごとの傾向線を許可する] オプションを使用します。ビューで色分けを使用している場合、このオプションを使用すると、色エンコードを無視してすべてのデータをモデル化する 1 つの傾向線を追加できます。
信頼区間を表示するかどうかを決定します。既定では、傾向線を追加する際、Tableau の信頼幅には上下 95% の信頼線が表示されます。信頼線は、指数モデルではサポートされていません。
Y 切片をゼロに強制するかどうかを選択します。このオプションは、傾向線をゼロから始める場合に便利です。このオプションは、[行] シェルフおよび [列] シェルフの両方に、散布図のような連続フィールドが含まれる場合にのみ使用できます。
ビジュアライゼーションでデータを選択またはハイライトするときに再計算されたラインを表示するかどうかを決定します。
傾向線モデルで係数として使用するフィールドを選択する
複数のフィールドを検討している傾向モデルの場合、傾向線モデルで特定のフィールドを係数として除外できます。
通常は、傾向線モデルをフィールドのメンバーまたは値に基づいて分けるのではなく、表の行全体に基づいて作成する場合に、係数を削除します。次の例を考えてみましょう。次のビューは、地域ごとに分けられたさまざまな製品カテゴリの月間売上高を示しています。
地域ごとに個別のモデルが作成されることがわかります。
ここで、[傾向線のオプション] ダイアログ ボックスで選択を解除して、モデルの係数から "Region (地域)" を削除します。
1 つのカテゴリ内の傾向線モデルがすべての地域にわたって同じになったことがわかります。これによって、すべての地域で同じ傾向線に対して実際の売上高を比較できます。
傾向線の削除
傾向線をビジュアライゼーションから削除するには、ビジュアライゼーションの領域の外に傾向線をドラッグします。また、傾向線をクリックして [削除] を選択することもできます。
ビューからすべての傾向線を削除するには、[分析] > [傾向線] > [傾向線の表示] を選択します。
注: Tableau Desktop では、傾向線のオプションが保持されています。それにより、[アナリティクス] メニューからもう一度 [傾向線の表示] を選択した場合、オプションが最後に設定していた状態になります。ただし、傾向線をオフにした状態でワークブックを閉じると、傾向線オプションは既定値に戻ります。
傾向線および傾向線モデルに関する説明の表示
傾向線を追加すると、傾向線上に統計を表示することができます。たとえば、R-2 乗や P 値とともに式が表示されます。説明で使用されているモデル タイプおよび項の詳細については、傾向線モデルの項および傾向線モデル タイプセクションを参照してください。
傾向線に関する説明を表示するには:
- 傾向線の任意の部分にカーソルを合わせると、その説明が表示されます。
Tableau Desktop のみ
- ビジュアライゼーションで傾向線を右クリックし、[傾向線の説明] を選択します。
現在のビューで使用されているモデルの説明をすべて表示するには:
- ビジュアライゼーションで傾向線を右クリックし、[傾向モデルの説明] を選択します。
傾向線モデル タイプ
傾向線では、線形、対数、指数、累乗、多項というモデル タイプを使用できます。
次の計算式で、X は説明変数を、Y は応答変数を表します。
線形
線形モデル タイプでの計算式は、以下のようになります。
Y = b0 + b1 * X
b1
は線の傾き、b0
は切片です。
対数
対数モデル タイプでの計算式は、以下のようになります。
Y = b0 + b1 * ln(X)
対数は 0 以下の数では定義されないため、説明変数が負であるマークはモデル予測の前にフィルターされます。フィルターされたデータが無効であることを知らない場合、データを破棄するモデルの使用は控えてください。傾向線の記述はモデル予測の前にフィルターされたマークの数を報告します。
指数
指数モデル タイプでの計算式は、以下のようになります。
Y = exp(b0)* exp(b1 * X)
指数モデルでは、応答変数がモデルの予測の前に自然対数によって変換されるため、さまざまな説明値を入力して ln(Y)
の値を検索することで、ビューにプロットされたマークを検出します。
ln(Y) = b0 + b1 * X
これらの値は、傾向線をプロットするために累乗されます。指数モデルは、次のような形式で表示されます。
Y = b2*exp(b1 * X)
b2
は exp(b0)
の値です。対数は 0 以下の数では定義されないため、応答変数が負であるマークはモデル予測の前にフィルターされます。
累乗
累乗モデル タイプでの計算式は、以下のようになります。
Y = b0 * X^b1
累乗モデルでは、両方の変数が次の計算式で得られるモデルの予測の前に自然対数によって変換されます。
ln(Y) = ln(b0) + b1 * ln(X)
これらの値は、傾向線をプロットするために累乗されます。
対数は 0 未満の数では定義されないため、応答変数または説明変数が負の数になるマークはモデルの予測の前にフィルターされます。
多項
多項モデル タイプでは、応答変数は指定された角度の多項シリーズに変換されます。式は、次のようになります:
Y = b0 + b1 * X + b2 * X^2 + …
多項モデル タイプでは、角度も 2 ~ 8 の間で選択する必要があります。高い多項角度はデータ値間での相違を誇張します。データが急速に増加する場合、低い順序の項は高い順序の項と比べてほとんど変化がなく、モデルが正確な予測を行うことは不可能です。また、さらに複雑で高い順序の多項モデルは予測のためにさらにデータを必要とします。このタイプの正確なモデルが不可能であることを示す赤色の警告メッセージで、個別の傾向線のモデルについての説明を確認します。
傾向線モデルの項
傾向線モデルの説明を表示するときにリストされるいくつかの値があります。このセクションでは、これらの値のそれぞれが何を意味するのかについて説明します。
モデル式
これは、完全な傾向線モデルの式です。式には、モデルから係数を除外するよう指定したかどうかが反映されます。
モデル化された観測の数
ビューで使用されている行の数。
フィルターされた観測の数
モデルから除外された観測の数。
モデルの自由度
モデルを完全に指定するために必要となるパラメーター数。線形、対数、および指数の傾向では、モデルの自由度は 2 です。多項傾向のモデルの自由度は、1 に多項の程度を足したものになります。たとえば、立方の傾向ではモデルの自由度は 4 になります。これは、立方、平方、線形、および定数項のパラメーターが必要となるためです。
残差の自由度 (DF)
固定されたモデルの場合、この値は観測数からモデルで予測されたパラメーターの数を引いたものとして定義されます。
SSE (合計二乗誤差)
誤差は、観察された値とモデルによって予測された値の間の差異です。分散分析表で、この列は実際には特定の行の単純なモデルの SSE と、すべての係数を使用する完全なモデルの SSE の差を示します。また、この SSE は、小さい方のモデルと完全なモデルから予測された値の二乗誤差の合計にも対応します。
MSE (平均二乗誤差)
項 MSE は "平均二乗誤差" を示します。これは、対応する自由度で除算された SSE の数量です。
R-2 乗
R-2 乗は、データがどれほど線形モデルに適合しているかを測定します。データの全分散に対する、モデルの誤差の分散または説明できない分散の割合です。
Y 切片がモデルによって決定する場合、R-2 乗は次の等式を使用して取得されます。
Y 切片が強制的に 0 となる場合、R-2 乗は次の等式を代用して求められます。
後者の場合、等式は必ずしも Excel と一致するとは限りません。この場合、R-2 乗は厳密に定義されておらず、Tableau の動作が Excel ではなく R と一致するためです。
注: 線形傾向線モデルの R-2 乗値は、CORR 関数の結果の 2 乗に相当します。CORR の構文および例については、Tableau 関数 (アルファベット順)(新しいウィンドウでリンクが開く)を参照してください。
標準誤差
完全なモデルの MSE の平方根です。モデル式の "ランダム誤差" の標準偏差 (ばらつき) の予測。
p 値 (基準値)
上記の自由度を持つ F ランダム変数が、分散分析表のこの行の観測された F を超える確率です。
分散分析
この表は ANOVA 表とも呼ばれ、傾向線モデルの係数ごとに情報をリストします。この値は、特定の係数を含まないモデルと、すべての係数を含むモデル全体との比較です。
個々の傾向線
この表は、ビューの各傾向線に関する情報を示します。リストを見ると、どのペイン (ある場合) が統計的に最も有意であるかを確認できます。この表には、各傾向線の係数統計もリストされています。行では、各傾向線モデルの係数をそれぞれ説明しています。たとえば、各傾向線に対して 2 つの行を必要とする切片のある線形モデルが挙げられます。[線] 列で、各線の p 値と DF はすべての係数行にわたります。[DF] 列は、各線の推定中に使用できる残余の自由度を示します。
項
独立した項の名前。
値
独立した項の予測係数値。
StdErr
係数予測のサンプリング分布の分散メジャー。この誤差は、予測で使用する情報の質と量が増加するに伴い減少します。
t 値
係数の真の値がゼロであるという帰無仮説を試すために使用される統計。
p 値
係数の真の値がゼロである場合に大きなまたはより大きな t 値が観察される確率。つまり、p 値が 0.05 の場合、95% の確率で真の値がゼロではないことがわかります。
傾向線の有意性の評価
ビューで任意の傾向線の関連情報を表示するには、カーソルでポイントします。
ヒントの最初の線は、"Year of Order Date (注文日の年度)" の値から "Profit (収益)" の値を計算するために使用する方程式を示します。
2 本目の線は R を 2 乗した値であり、データの全分散に対する、モデルによって説明されるデータの分散の割合を示します。詳細については、傾向線モデルの項を参照してください。
3 本目の P 値は、最初の線の方程式が偶然の結果であった可能性を報告しています。p 値が小さいほど、モデルの有意性は高くなります。大抵は、0.05 以下の p 値が十分と判断されます。
モデル全体の有意性
傾向線をビューに追加したら、通常は、モデルの予測の質を示すメジャーであるモデルの適合度が必要となります。さらに、モデルに貢献している各係数の有意性が必要になる場合もあります。これらの数字を表示するには、[傾向モデルの説明] ダイアログ ボックスを開き、ビューを右クリック (Mac では Control を押しながらクリック) して [傾向線] > [傾向モデルの説明] を選択します。
有意性をテストする場合は、p 値が重要となります。p 値が小さいほど、モデルまたは係数の有意性は高くなります。統計的な有意性はあるが、全体的な有意性に貢献しない個別の傾向線または個別の傾向線の項のあるモデルが存在する可能性があります。
[傾向線モデル] で、モデルの p 値 (有意性) を示す線を探します。p 値が小さいほど、関連メジャーまたはメジャーの有無に関係なく、説明できないモデル間の分散の相違がランダムに偶然生じる可能性が低くなります。
このモデルの p 値は、モデル全体の適合度と、総平均 (データ ビューのデータの平均) のみで構成されたモデルの適合度の比較です。つまり、それによって係数が一定の線形、多項、指数、または対数であるモデル式の定量的項 f(x) の説明能力を評価します。通常は "95% 信頼度" ルールを適用して有意性を評価します。したがって、上記のように、0.05 以下の p 値が良好と判断されます。
カテゴリ係数の有意性
分散分析表 (ANOVA 表とも呼ばれる) には、モデルの係数として使用される各フィールドがリストされています。各フィールドについて、他の値と共に p 値が表示されます。この場合、p 値は、モデル全体の有意性に対するフィールドの効果を示します。p 値が小さいほど、フィールドがあるモデルとフィールドがないモデルの間の、原因不明の分散の差が無作為に生じた偶然の結果である確率はより低くなります。フィールドごとに表示される値は、そのフィールドを含まないモデルとモデル全体を比較することで得られます。
次の図は、3 つの異なる製品カテゴリの過去 2 年間における四半期売上高のビューの分散分析表を示しています。
ご覧のとおり、"Category (カテゴリ)" と "Region (地域)" の p 値は両方ともかなり小さな値です。これらの係数は、どちらもこのモデルで統計的に有意です。
具体的な傾向線の項の詳細については、傾向線モデルの項を参照してください。
ANOVA モデルの場合、傾向線は次の数式で定義されます。
Y = factor 1 * factor 2 *
...factorN * f(x) + e
項 Y
は応答変数と呼ばれ、予測しようとしている値に対応しています。項 X
は 説明変数で、e (epsilon) はランダム エラーです。式の係数はビューのカテゴリ フィールドに対応します。また、各係数はマトリックスで表されます。*
は特殊なマトリックス乗算演算子で、行数が同じ 2 つのマトリックスを取得して、行数が同じ新しいマトリックスを返します。つまり、式の factor
1 * factor 2
に係数 1 と係数 2 のメンバーのすべての組み合わせが組み込まれます。たとえば、係数 1 と係数 2 の両方にメンバーが 3 個ずつある場合、全部で 9 個の変数がこの演算子によってモデル式に組み込まれます。
傾向線の前提
Tableau の傾向線で報告される p 値は、データに関するいくつかの前提に応じて異なります。
1 つ目は、テストを実行した場合、常に平均のモデルは (少なくともおおよそ) 正しいという前提です。
2 つ目は、モデル式で参照される "ランダム誤差" (傾向線モデル タイプを参照) は複数の異なる観測で独立しており、すべてが同じ分布を持つという前提です。応答変数についてカテゴリ間で正確な傾向線に対して大きなばらつきがあった場合、この制限に反します。
傾向線の計算に必要となる前提
個別の傾向線を (最小二乗推定法を使用して) 計算するために必要となる前提は、次のとおりです。
使用しているモデルが真のデータ生成プロセスの正確で関数的な単純化であること (たとえば、対数線形関係に対して線形モデル以外を使用するなど)。
誤差が平均ゼロであり、独立した変数と相関関係にないこと (たとえば、独立した変数の測定で誤差がない場合など)。
誤差に定数分散があり、誤差間に相関関係がないこと (たとえば、独立した変数の増加に伴い誤差分布が増加しないなど)。
説明変数が相互の正確な線形関数 (正確な多重共線性) ではないこと。
傾向線に関するよくある質問
このセクションでは、Tableau の傾向線に関してよく尋ねられるいくつかの質問について説明します。
モデルで使用する信頼水準を変更するにはどうすればよいですか。
Tableau では、信頼水準を使用しません。p 値を示すことで、単にモデル全体または特定のフィールドの有意性を報告します。p 値は、ディメンションを考慮せずに同じ傾向結果を取得する可能性を測定します。たとえば、時間当たりの売上の傾向についての p 値が 0.05 である場合、時間を考慮に入れずに同じ値を取得する可能性が 5% あることを意味します。
モデルの p 値は有意であるが、分散分析表の特定のフィールドの p 値が有意でない場合は何を意味しますか。
分散分析表の p 値は、フィールドによってモデル全体の有意性がどれくらい増減するかを示します。p 値が小さいほど、フィールドがあるモデルとフィールドがないモデルの間の、原因不明の分散の差が無作為に生じた偶然の結果である確率はより低くなります。フィールドごとに表示される値は、そのフィールドを含まないモデルとモデル全体を比較することで得られます。したがって、モデルの p 値が有意であるが、特定のフィールドの p 値が有意でない場合は、モデルが統計的には有意であるが、問題のフィールドがそれに対して貢献しているかどうかは定かでないことがわかります。モデルからその係数を削除した方がよくないかどうか検討してください。
分散分析表の特定のフィールドの p 値が有意であるが、モデルの p 値が有意でない場合は何を意味しますか。
これは、各ペイン内に "傾向" がない場合に発生することがあります。たとえば、折れ線グラフは平坦でも、その平均は指定された係数によって異なります。