Tableau の予測のしくみ

Tableau の予測機能では、指数平滑法と呼ばれるテクニックが使用されます。予測アルゴリズムは、将来に向けて継続できる規則的なパターンをメジャーに見つけようとします。Tableau で利用可能な予測モデリングの詳細については、Tableau における予測モデリング関数の仕組みを参照してください。

ビデオを視聴する: Tableau での関連する概念について説明した、6 分間の無料トレーニング ビデオ「予測」(新しいウィンドウでリンクが開く) をご覧ください。お使いの tableau.com(新しいウィンドウでリンクが開く) アカウントを使用してサインインします。

通常は、日付フィールドと少なくとも 1 つのメジャーを含むビューに予測を追加します。ただし、日付が存在しない場合、Tableau は少なくとも 1 つのメジャーに加えて、整数値を持つディメンションを含むビューの予測を作成できます。

予測の作成の詳細については、予測の作成を参照してください。整数ディメンションを使用した予測の詳細については、ビューに日付がない場合の予測を参照してください。

概要

すべての予測アルゴリズムは、実際のデータ生成プロセス (DGP) のシンプルなモデルです。高品質な予測では、DGP のシンプルなパターンが、合理的に十分なモデルで説明されるパターンと一致する必要があります。品質メトリクスは、モデルが DGP に一致する程度を測定します。品質が低い場合、信頼区間は不正確な推定の精度を測定するため、信頼区間は重要ではありません。

Tableau により自動的に最大 8 つのモデルから最適なモデルが選択され、その最適なモデルによって最も高品質の予測が生成されます。各モデルの平滑法パラメーターは、Tableau により予測品質が評価される前に最適化されます。グローバルな方法で最適化が行われます。そのため、ローカルで最適な平滑法パラメーターを選択すると、グローバルには最適でないという可能性もあります。ただし、初期値のパラメーターはベスト プラクティスに従って選択されますが、それ以上は最適化されていません。そのため、初期値のパラメーターは最適でない可能性があります。Tableau で得た 8 つのモデルは、次の OTexts Web サイト:A taxonomy of exponential smoothing methods(新しいウィンドウでリンクが開く) で説明されています。

視覚化に十分なデータがない場合、Tableau は時間的により詳細なレベルで予測を試み、その後、予測を集計して視覚化の詳細に反映させます。Tableau は閉じた形の方程式でシミュレーションまたは計算された可能性がある予測帯を提供します。乗算コンポーネントまたは集計予測を含むすべてのモデルでは予測帯がシミュレーションされていますが、その他すべてのモデルは閉じた形の方程式を使用します。

指数平滑法と傾向

指数平滑法モデルは、規則的な時系列の値の将来値を、その時系列の過去の値の加重平均から反復的に予測します。最も単純なモデルである単純指数平滑法は、次のレベル値、つまり平滑値を、前回の実績値と前回の平滑値の加重平均から計算します。この方法が指数平滑法と呼ばれるのは、各レベルの値がその前の各実績値の影響を受ける度合いが指数関数的に減少するためです。つまり、過去のデータのうち、最近のデータになるほど大きな重みをかけられます。

傾向要素または季節性要素のある指数平滑法モデルは、予測の基準となる期間に予測対象メジャーが傾向または季節性を示している場合に効果的です。傾向とは、データが時間の経過と共に増減する傾向のことです。季節性とは、反復的で予測可能な値の変化のことです。

通常、時系列に含まれているデータ ポイントが多いほど、予測の質は高くなります。季節性をモデル化する場合には、モデルはより複雑であり、合理的なレベルの精度を実現するのにデータの形でより多くの証拠を必要とするので、十分なデータを準備することが特に重要です。一方、2 つ以上の異なる DGP によって生成されたデータを使用して予測する場合、モデルは 1 つしか照合できないので、予測の質が低下します。

季節性

Tableau では、予測の対象となる時系列に典型的な長さの季節的なサイクルがあるかどうかがテストされます。そのため、月ごとに集計している場合は、12 か月サイクルがあるかどうかが調べられ、四半期ごとに集計している場合は、四半期サイクルが検索され、日ごとに集計している場合は、週単位の季節性の有無が確認されます。したがって、月次の時系列に 6 か月サイクルがある場合、2 つの類似したサブパターンを含んでいる 12 か月パターンが見つかる可能性があります。一方、月次の時系列に 7 か月サイクルがある場合、サイクルはまったく見つからない可能性があります。ただし、7 か月サイクルは一般的でないため、これが問題となることはあまりありません。

Tableau は、季節の長さを導き出すために 2 つの方法のいずれかを使用できます。元の一時的な方法は、ビューの時間粒度 (TG) の自然な季節の長さを使用します。時間粒度とは、ビューで表現された時刻の最も細かい単位を意味します。たとえば、月に切り詰められた連続する緑色の日、または不連続の青色の年と月の日付の部分のいずれかを含むビューの場合、時間粒度は月です。Tableau 9.3 で導入された新しい非時間的法は、候補の長さに関して周期的回帰を使用し 2 から 60 の季節の長さをチェックします。

Tableau は特定のビューに最も適した方法を自動的に選択します。Tableau がビューの中で日付を使ってメジャーを整列する際、時間粒度が四半期、毎月、毎週、毎日、または毎時の場合、季節の長さはそれぞれほぼ確実に 4、12、13、7、24 になります。そのため、TG が元々持つ長さのみを使用して Tableau がサポートする 5 つの季節指数平滑法モデルが構築されます。5 つの季節モデルの AIC と 3 つの非季節モデルの AIC が比較され、最も低いものが返されます。(AIC メトリクスの説明については、「予測の説明」を参照してください。)

Tableau が予測に整数ディメンションを使用している場合、2 番目の方法が使用されます。この場合、時間粒度 (TG) が存在しないため、可能性のある季節の長さをデータから取得する必要があります。

時間粒度が年ごとであれば、2 番目の方法も使用されます。年系列が季節性を持つことはほとんどありませんが、季節性を持つ場合は、それもまたデータから導き出される必要があります。

2 番目方法は、分または秒の時間粒度を持つビューにも使用されます。そのような系列に季節がある場合、季節の長さはおそらく 60 です。ただし、一般的な実世界のプロセスを測定する場合、プロセスは時計に対応しない定期的な繰り返しになる可能性があります。そのため Tableau は、分および秒に関してはデータの中で 60 と異なる長さもチェックします。これは、Tableau が同時に 2 つの異なる季節の長さをモデル化できるという意味ではありません。むしろ、60 の季節の長さのモデルが 5 つ、データから得られた季節の長さのモデルが 5 つ、計 10 種類の季節モデルが予想されます。10 個の季節モデルまたは 3 つの非季節モデルのいずれか最も低い AIC を持つモデルが、予測を計算するのに使用されます。

年、分、または秒の順に並べられた系列の場合、パターンがかなりはっきりしている場合はデータから 1 シーズンの長さがテストされます。整数順の系列の場合、5 つの季節モデルすべてに対して、はっきりしない最大 9 つの潜在的な季節の長さが予測され、最も低い AIC を持つモデルが返されます。適切な季節の長さの候補が存在しない場合は、非季節モデルのみが推定されます。

Tableau がデータから潜在的なシーズンの長さを導き出す場合、すべての選択が自動的に行われるので、[予測オプション] ダイアログの [モデル タイプ] メニューの「自動」の既定モデル タイプは変更されません。[季節性のない自動] を選択すると、季節モデルのすべての季節の長さの検索と予想を除外することでパフォーマンスが向上します。

データから得られた季節の長さを使用する時期を決定するのに Tableau が使用するヒューリスティックは、候補となるそれぞれの季節の長さの周期的回帰の誤差の分布に依存します。季節が実際にデータ内に存在する場合、周期的回帰により季節の長さの候補のアセンブリは通常、1 つまたは 2 つの明らかにリードする長さを生成するので、候補が 1 つ返される場合、ふさわしい季節性を示します。この場合、Tableau は、年、分、秒の粒度について、この候補と季節モデルを予測します。返されるのが最大 10 個の候補者よりも少ない場合、潜在的な季節性を示します。この場合、Tableau は整数順のビューに対して返されたすべての候補を持つ季節モデルを予測します。候補者の最大数が返される場合、ほとんどの長さの誤差が類似していることを示します。したがって、いかなる季節性も存在する可能性は低くなります。この場合、整数順または年順に並べられた系列の非季節モデルと、その他の一時的に並べられたビューの元来の季節の長さを持つ季節モデルのみがそれぞれ予測されます。

整数順、年順、分順、秒順に並べられたビューにおけるモデル タイプ「自動」の場合、候補の季節の長さは常に、それらが使用されるかどうかにかかわらず、データから導き出されます。モデル予想は周期的回帰よりも時間がかかるので、パフォーマンスへの影響は中程度である必要があります。

モデル タイプ

[予測オプション] ダイアログ ボックスで、Tableau ユーザーが予測に使用するモデル タイプを選択できます。一般的に [自動] 設定は、ほとんどのビューで最適です。[カスタム] を選択すると個別に傾向文字および季節性文字を指定することができますが、その際、[なし][加算]、または [乗算] を選択します。

加算モデルはモデル コンポーネントの貢献度を合計するモデルですが、乗算モデルは少なくとも一部のコンポーネントの貢献度を乗算するモデルです。乗算モデルでは顕著にデータの予測品質が向上する可能性がありますが、傾向または季節性はデータ水準 (規模) により影響されます。

カスタム モデルを作成し、乗算を行う予測モデルを作成する必要はないことに留意してください。[自動] 設定により、乗算予測がデータに適切かどうかが判断できます。しかし、予測するメジャーに 0 以下の値が 1 つ以上ある場合、乗算モデルで計算することはできません。

時間を使用した予測

日付を使用して予測する場合、ビューに存在できる基準日は 1 つのみです。部分日付はサポートされますが、すべての部分が同一の基準フィールドを参照する必要があります。日付は [行][列]、または [マーク] 上に表示できます (ツールヒント ターゲットを除く)。

Tableau では、3 種類の日付をサポートしており、そのうち 2 種類を予測に使用できます。

  • たとえば、2017 年 2 月など、切り詰められた日付で、具体的な時間粒度で履歴の特定の時点を参照します。通常、日付は連続しており、ビューの中で背景は緑色です。切り詰められた日付は、予測に対して有効です。

  • 日付の部分は、2 月など、時間メジャーの特定のメンバーを参照します。各日付の部分は、さまざまな、通常は個別のフィールドで表されます (青色の背景)。予測には、少なくとも日付の年の部分が必要です。具体的には、予測には以下の日付の部分のいずれかの組み合わせを使用できます。

    • 年 + 四半期

    • 年 + 月

    • 年 + 四半期 + 月

    • 年 + 週

    • カスタム:月/年、月/日/年

    四半期または四半期 + 月のような、その他の日付の部分は、予測には使用されません。異なる日付タイプの詳細については、不連続フィールドと連続フィールドの変換を参照してください。

  • 正確な日付は、2012 年 2 月 1 日 14:23:45.0 など、最大の時間粒度によって履歴中の特定の時点を参照します。正確な日付は、予測では無効です。

日付なしで予測することも可能です。ビューに日付がない場合の予測を参照してください。

詳細レベルと切り捨て

予測を作成する際は、日付値の測定単位を指定する日付ディメンションを選択します。Tableau の日付は、年、四半期、月、日などのさまざまな時間単位をサポートしています。日付値に対して選択する単位は、日付の詳細レベルと呼ばれます。

メジャーに含まれているデータは、通常、選択した詳細レベルの単位と正確には一致していません。日付値を四半期に設定しても、実際のデータは四半期の途中、たとえば 11 月末で終了する場合があります。この不完全な四半期の値は、完全な四半期の値より小さいのが一般的であるにもかかわらず、予測モデルによって完全な四半期として処理されるため、このことは問題となる可能性があります。予測モデルがこのデータを考慮に入れることを許可されている場合、結果として得られる予測は不正確になります。この問題の解決策は、データを切り捨てることによって、y層を誤った方向に導く可能性のある末尾の期間を無視することです。このような不完全な期間の削除または切り捨てには、[予測オプション] ダイアログ ボックスの [最後を無視する] オプションを使用します。既定では 1 期間を切り捨てます。

取得するデータの増加

Tableau で傾向を推定するためには、時系列にデータ ポイントが少なくとも 5 個必要です。また、季節性を推定するためには、少なくとも 2 季節または 1 季節と 5 期間に十分なデータ ポイントが必要です。たとえば、4 四半期の季節性サイクルをもつモデルを推定するには、少なくとも 9 個のデータ ポイントが必要であり (4 + 5)、12 か月の季節性サイクルをもつモデルを推定するには、少なくとも 24 個のデータ ポイントが必要となります (2 * 12)。

有効な予測をサポートするための十分な数のデータ ポイントをもたないビューで予測機能を有効にすると、より高い詳細レベルがデータ ソースで検索され、有効な予測を生成するための十分なデータ ポイントが取得されることがあります。

  • ビューに 9 年より少ないデータが含まれている場合は、既定で四半期データがデータ ソースで検索されて、四半期予測が推定され、年次予測に集計されたうえでビューに表示されます。それでもまだ十分なデータ ポイントがない場合は、月次予測が推定され、年次予測に集計されたうえでビューに表示されます。

  • ビューに 9 四半期より少ないデータが含まれている場合は、既定で月次予測が推定され、四半期予測に集計されたうえでビューに表示されます。

  • ビューに 9 週間より少ないデータが含まれている場合は、既定で日次予測が推定され、週次予測に集計されたうえでビューに表示されます。

  • ビューに 9 日間より少ないデータが含まれている場合は、既定で時予測が推定され、日次予測に集計されたうえでビューに表示されます。

  • ビューに 9 時間より少ないデータが含まれている場合は、既定で分予測が推定され、時予測に集計されたうえでビューに表示されます。

  • ビューに 9 分間より少ないデータが含まれている場合は、既定で秒予測が推定され、分予測に集計されたうえでビューに表示されます。

これらの調整はバックグラウンドで行われ、一切の設定を必要としません。Tableau は、視覚化の外観を変更せず、日付値を実際に変更するわけでもありません。ただし、[予測の説明] ダイアログ ボックスと [予測オプション] ダイアログ ボックスの予測期間のサマリーには、実際に使用される詳細レベルが反映されます。

Tableau では、予測するメジャーの集計が SUM または COUNT の場合にのみ、より多くのデータを取得できます。使用可能な集計タイプと集計タイプの変更方法については、Tableau でのデータ集計を参照してください。

ありがとうございます!