Tableau データ ストーリーの設定: 分析

Tableau データ ストーリーの重要な変更

Tableau データ ストーリーは、2025 年 1 月 (2025.1) の Tableau DesktopTableau CloudTableau Server で廃止されます。自然言語技術の進歩に伴い、Tableau は、データに関する質問や変更点の把握をより簡単に行えるように、インターフェイスの改善に取り組んでいます。詳細については、「Tableau AI を搭載した Tableau Pulse がデータ エクスペリエンスを刷新」(新しいウィンドウでリンクが開く)を参照してください。

Tableau データ ストーリー内で、どの分析について記述するのか、いつの分析について記述するかを選択できます。ストーリーのタイプと、ストーリーに含まれるディメンションとメジャーの数に応じて、様々なタイプの分析を利用できます。ただし、散布図のストーリー タイプに対する分析は現在サポートされていません。詳細については、「自分の Tableau データス トーリーに合った適切なストーリー タイプを選択する」を参照してください。

ストーリー用に分析を設定する

  1. ダッシュボードに Tableau データ ストーリーを追加する
  2. ダッシュボードで、データ ストーリー オブジェクトの左上隅にある [設定] アイコンをクリックします。
  3. [データ ストーリー] ダイアログ ボックスで [分析] タブをクリックします。
  4. スイッチをクリックして、様々なタイプの分析を有効にします。
  5. [セグメント] と [傾向線] については [設定] を展開し、分析を行うしきい値を設定します。
  6. [保存] をクリックします。

様々なタイプの分析を理解する

相関性

相関姓を使用すると、2 つの系列間で真の統計的相関姓を特定できます。系列が 3 つ以上ある場合は、すべての組み合わせについて相関姓を分析します。たとえば、相関姓をオンにすると、2 つの製品が一緒に購入されることが多い時期を特定できます。

クラスタリング

クラスタリングを使用すると、性質が異なるデータ ポイントのグループ (クラスター) を単一の統計分析を使用して特定できます。たとえば、クラスタリングをオンにすると、ある製品が特定の地域で非常に人気が出る時期を特定できます。

分布

分布を使用すると、平均、中央値、歪みなどの非統計的観測値を使用してデータ ポイントを相互にランク付けできます。たとえば、分布をオンにすると、利益率が最も高い製品を特定できます。

セグメント

セグメントを使用すると、系列内のデータ ポイントに対する注目すべき変化を強調表示できます。まず、記述したいセグメント内の変化の最小割合を設定します。定義したしきい値を下回る変化については記述されません。たとえば、60% を超える変化をセグメントのしきい値として設定した場合、時系列上で 30% の減少が見られる谷間の期間があってもストーリーは記述しません。

しきい値を設定したら、フォーマットを適用するかどうかを選択し、フォーマットしたい変化の最小割合を設定します。

傾向線

傾向線を使用すると、線形最適線を計算し、定義された信頼度の範囲内にあるデータを特定できます。変動性の高いデータは、一貫性のあるデータに比べて信頼レベルが低く、その信頼レベルは傾向線が記述されるかどうかに影響します。傾向線は、ディメンションが 1 つでメジャーが 1 つのストーリーで使用することも、ドリルダウンで使用することもできます。ドリルダウンの詳細については、「Tableau データ ストーリー設定の構成: ナラティブ」を参照してください。

傾向線の信頼度の最小割合を設定します。しきい値を 95% に設定すると、90% の信頼度で傾向線を描画できる場合でも、ストーリーは傾向線について記述しません。しきい値を設定したら、フォーマットを適用するかどうかを選択します。次に、フォーマットする変化の最小割合を設定します。

傾向線に関するTableau データ ストーリーは、ある期間にわたる絶対的な変化を伝えます。傾向線について記述されたストーリーは、ストーリーに設定した冗長性のレベルによって異なります。ストーリーが高い冗長性を使用している場合、ストーリーは R 二乗値について記述します。これは、データが傾向線にどの程度適合しているかを定量化する統計的概念です。冗長性設定の詳細については、「Tableau データ ストーリー設定の構成: ナラティブ」を参照してください。

傾向線の設定では、ストーリーに予測を記述する将来の期間を選択することもできます。予測を使用する場合、ストーリーは傾向線の傾きと切片を使用して、将来の期間の予測値を計算します。予測の信頼度に応じて、傾向線に設定した信頼度のしきい値に上限と下限を追加します。予測は、ストーリーにデータポイントが少なくとも 30 あり、それらが線形である場合に使用できます。

変動性

変動性を使用すると、時間の経過に伴う標準偏差を分析できます。たとえば、データの平均的な範囲から外れた値についてストーリーに記述させたい場合、変動性を使用します。

ストーリー生成のために分析を使用する方法

この時点で、様々なタイプのストーリー用の分析が、どのように行われるのか気になるところでしょう。各タイプのストーリーの例を見て、ストーリーの各文を分解してみましょう。

非連続的なストーリーのための分析を理解する

連続的なストーリーでは時間の経過に伴う傾向を測定するため、データ ストーリー は、パフォーマンス、進行、平均、合計、傾向、変動性、セグメント、予測について記述します。

次の連続的なストーリーの例は、月々の売上に関するものです。

月々の売上に関するインサイトを説明したストーリーの例。この画像内の説明文は、以下の表に転記されています。

ストーリーの例ストーリーの内容
  • 48 か月を通じて平均売上は 47,858 ドルでした。
  • 最小値は 4,520 ドル (2014 年 2 月) で、最大値は 118,448 ドル (2017 年 11 月) でした。
最初の 2 つの文は、平均関数と範囲関数を使用して、分析期間の平均値、最大値、最小値について記述しています。
  • 系列全体で売上は 489% 増加しましたが、最終月には減少に転じ、減少傾向で終了しました。
3 番目の文は、期間中のメジャーの全体的なパフォーマンスに関するものです。たとえば、特定の期間に売上が増加したか、減少したか、傾向が変わったか、といった文が考えられます。
  • 単独で最も割合が増加したのは、2014 年 3 月 (+1,132%) でした。ただし、単独で最も絶対数が増加したのは、2014 年 9 月 (+53,868 ドル) でした。
4 番目の文は、進行分析を使用します。この文は、割合ベースと絶対数ベースの両方で、そのメジャーに基づく期間中の最大の増減について記述しています。
  • 3 つの系列のうち、最も強い相関を示したのは企業とホームオフィスであり、中程度の正の相関があります。一般的に、一方 (企業) が増加すると他方 (ホームオフィス) も増加すること (その逆も同様) を示唆しています。
この文は、相関関係のインサイトです。このタイプの分析インサイトは、データ内の異なる系列間の顕著な相関関係について記述しています。
  • 売上には周期性があり、約 12 か月ごとに繰り返される周期がありました。約 3 か月ごとに繰り返される小さな周期のパターンもありました。
  • 売上は、2014 年 10 月 (31,453ドル) から 2015 年 2 月 (11,951ドル) の間に大幅なプラスのピークを示し、2014 年 11 月には 78,629 ドルまで上昇しました
この文は、セグメントのインサイトです。このタイプの分析インサイトは、時間の経過とともに注目すべき増減について記述しています。
  • 系列全体の線形傾向は月 902 ドルの上昇であり、系列全体では 42,394 ドルの絶対的な変化がありました。この傾向が次の 1 か月間続くと、売上は 約 69,958 ドルになると予測されます
この文は、傾向線のインサイトです。このタイプのインサイトは、傾向線がデータにどの程度適合しているかを一定の信頼度で記述しています。傾向線を使用すると、過去の傾向に基づいて予測を立てることができます。

非連続的なストーリーのための分析を理解する

非連続的なストーリーでは値を比較してデータの分布を把握できるため、ストーリーは、分布、平均、合計、データのグルーピングやクラスターについて記述しています。

次の非連続的なストーリーの例は、製品ごとの売上に関するものです。

製品ごとの売上に関するインサイトを説明したストーリーの例。この画像内の説明文は、以下の表に転記されています。

ストーリーの例ストーリーの内容
  • 総売上は、全 17 製品で合計 230 万ドルです。
最初の文は、メジャーの合計値を計算しています。
  • 売上 230 万ドルを牽引したのは、 電話機330,007 ドル椅子328,449 ドルストレージ223,844 ドルでした。
2 番目の文は、ディメンションのドライバーについて記述しています。この例では、ディメンションのドライバーは、総売上に最も貢献した製品です。
  • 平均値 135,129 ドルは中央値 114,800 ドルよりも大きいため、分布は正に偏っています。
  • 売上は比較的集中しており、17 製品中 8 製品 (47%) が全体の 78% を占めています。
3 番目と 4 番目の文は、データの分布を分析しています。平均、中央値、データの集中度 (存在する場合)、およびデータがどのように歪んでいるかを分析します。これらのグループ化された変数が互いにどの程度バランスが取れているかを特定するのに役立ちます。
  • 上位 2 つ の製品で、全体の売上の 4 分の 1 以上 (29%) 以上を占めています。
この文では、クラスタリングを使用して、グループ化できるメジャーについて記述しています。データの中に目立つ明確なグループがあるかどうかを特定するのに役立ちます。
  • 電話機 (330,007 ドル) は、17 製品の平均の 2 倍以上です。
最後の文は、注目すべき外れ値について記述しています。

散布図ストーリー用に分析を理解する

散布図のタイプのストーリーは、2 つのメジャー間の関係を理解するために最もよく使用されます。そのため、散布図ストーリーには 2 ~ 3 のメジャーが必要です。散布図分析は、2 つのメジャー間の関係 (回帰) について記述し、データ内にグループ (クラスター) が存在する場合はそれについて記述しています。

次の散布図ストーリーの例は、ディメンション全体の利益と売上に関するものです。

利益と売上に関するインサイトを説明したストーリーの例。この画像内の説明文は、以下の表に転記されています。

ストーリーの例ストーリーの内容
  • 提供されたデータに基づくと、数量の増加と利益の増加に伴い、売上が増加しています。具体的には、数量が 1 増えると売上が 49.55 ドル増え、利益を 1.00ドル 増やすには売上を 1.20 ドル増やしました。
  • この一般的な関係から逸脱した顧客はほとんどなく、この関係はよく当てはまることを示しています。
最初の 2 つの文は、回帰分析に基づいています。回帰は、あるメジャーが別のメジャーにどのように影響するかを示します。最初の文で、ストーリーが利益と売上の関係を特定していることに注意してください。
  • 利益、数量、売上が同程度のグループに整理すると、ある特徴的なグループが目立ちます。利益が -6,626 ドル から 1,488 ドル、数量が 2 から 122、売上が 4.83 ドル から 5,690 ドルの顧客が 651 人いました。
3 番目の文は、クラスタリングから導出しています。クラスタリング分析は、データ内のすべての変数にまたがって、主要なグループやクラスターの特定を試みます。
  • Tamara ChandRaymond BuchSanjit Chandは、利益と売上の値が他に比べて高い外れ値でした。Sean Miller は、低い利益と高い売上で目立っていました。
4 番目の文は、平均を大幅に上回ったり下回ったりする外れ値について記述しています。
  • 利益の最小値は -6,626 ドル (Cindy Stewart)、最大値は 8,981 ドル (Tamara Chand) であり、その差は 15,608ドルです。顧客あたりの利益の平均値は 361 ドルで、中央値は 228 ドル です。
  • 数量の最小値は 2 (Anthony O'Donnell)、最大値は 150 (Jonathan Doherty) であり、その差は 148 です。顧客あたりの数量の平均値は 47.76 で、中央値は 44 です。
  • 売上の分布は 4.83 ドル (Thais Sissman) から 25,043 ドル (Sean Miller) までで、その差は 25,038 ドルです。顧客あたりの売上の平均値は 2,897 ドルで、中央値は 2,256 ドルです。
散布図ストーリーの残りの文は、範囲と平均の分析を使用してインサイトを記述しています。

ストーリー全体の割合のための分析を理解する

ストーリー タイプ全体で割合を示すと、ディメンションやメジャーが全体のどれだけを占めるかをよく把握できます。

次の全体の割合の例は、セグメント別の売上に関するものです。

セグメント別の売上に関するインサイトを説明したストーリーの例。この画像内の説明文は、以下の表に転記されています。

ストーリーの例ストーリーの内容
  • 総合計 SUM(売上) は、3 つのエンティティすべてで 230万 です。

最初の文は、メジャーの合計値を計算しています。
  • SUM(売上) 230万の内訳は、消費者が 120万、企業が 706,146、ホームオフィスが 429,653 でした。

2 番目の文は、ドライバーについて記述しています。この例では、ドライバーは総売上に最も貢献したセグメントです。
  • 最小値は 429,653 (ホームオフィス)、最大値は 120万 (消費者) であり、その差は 731,748、平均は 765,734 です。
最後の文は、データの分布を分析しています。