「データの説明を見る」のしくみ

「データの説明を見る」は、データをより詳細に探索するための増分出発点として使用します。データが生成する説明によって、ビュー内の分析済みマークを構成する値や関連する値など、さまざまな値を表示できるようになりますこれにより、データ ソース内のデータ ポイントの特性、および統計モデリングを使用したデータの関連付け方法 (相関性) について説明できるようになります。これらの説明では、データを調査したり次に探索する内容についての興味深いヒントを見つけたりするための別のツールが提供されます。

注: データの説明を見るは、データ内の関係を明らかにし、説明するツールです。関係の原因やデータの解釈方法は教えてくれません。あなたこそがデータのエキスパートです。さまざまなビューを使用してさらに深く掘り下げていこうと興味がわく特性を判断する鍵となるのは、ドメインに関するあなたの知識や直感です。

「データの説明を見る」のしくみと、分析を強化するために「データの説明を見る」を使用する方法に関する関連情報については、Tableau Conference のプレゼンテーションを参照してください。

「データの説明を見る」であるもの (および「データの説明を見る」ではないもの)

「データの説明を見る」とは次のものを指します。

  • ドメインの専門知識を活用するツールとワークフロー。
  • データの関係を明らかにし、次にどこを見るべきかを推奨するツール。
  • データ分析を迅速化しより広範なユーザーがデータ分析にアクセスしやすくするためのツールとワークフロー。

「データの説明を見る」とは次のものを指しません。

  • 統計テストツール。
  • 仮説を証明または反証するツール。
  • データの因果関係について、回答を与えたり、何かを教えるツール。

マークで「データの説明を見る」を実行するときは、次の点に注意してください。

  • 集計可能なきめ細かいデータを使用する。この機能は、集計データの分析を明示的に目的としています。つまり、データはきめ細かい必要がありますが、「データの説明を見る」で選択するマークはより高い詳細レベルで集計され、要約されている必要があります。「データの説明を見る」は、最も細かい詳細レベルの非集計マーク (行レベルのデータ) では実行できません。

  • データの形状、サイズ、およびカーディナリティを考慮する。「データの説明を見る」は小さなデータ セットで使用できますが、十分な幅と、モデルを作成するための十分なマーク (粒度) が含まれている必要があります。

  • 因果関係を想定しない。相関関係は因果関係ではありません。説明はデータのモデルに基づいていますが、因果関係を説明するものではありません。

    相関関係があるとは、いくつかのデータ変数の間 (たとえば A と B の間) に関係があることを意味します。データの関連性を見ただけで、A が原因で B になった、B が原因で A になった、またはもっと複雑な何かが実際に起きていることは断定できません。データのパターンは、それぞれの場合で全く同じであり、アルゴリズムによりそれぞれの場合の違いを示すことはできません。2 つの変数が一緒に変化すると思われるというだけで、必ずしも一方が他方の変化の原因であるとは限りません。3 つ目の要素がその両方の変化の原因の可能性もあれば、それが偶然で全く因果関係がない場合もあります。

    とはいえ、どういうことかを特定するのに役立つ、データに含まれていない外的知識がある場合があります。一般的な類の外的知識と言えば、実験でデータを収集した状況があります。コイン投げで B が選択されたことを知っているなら、A の違いの一貫したパターン (単なるランダム ノイズではない) は B が原因でなければいけません。これらの概念の詳細な説明については、Hal Varian の記事「Causal inference in economics and marketing」(新しいウィンドウでリンクが開く)を参照してください。

説明の分析および評価方法

「データの説明を見る」は、ダッシュボードやシート上で統計分析を行い、異常値となっているマークや、選択した具体的なマークを検索します。また、現在のビューには表示されていない、データ ソースの関連するデータ ポイントの可能性も考慮されます。

「データの説明を見る」では、最初にビジュアライゼーションに存在するデータのみを使用してマークの値を予測します。次に、データ ソース内のデータ (現在のビューではない) が考慮され、モデルに追加されます。モデルによって、予測されるマーク値の範囲が決まりますが、これは予測値の 1 標準偏差以内です。

予測範囲とは

マークの予測値は、Viz の参照元データの予測範囲の中央値です。予測範囲は、分析されたマークに対して統計モデルが予測する 15 パーセンタイルから 85 パーセンタイルまでの値の範囲です。Tableau は、選択したマークに対して統計分析を実行するたびに、予測範囲を算出します。

考えられる説明は、統計モデルを使用して説明能力が評価されます。説明ごとに、期待値と実際の値とが比較されます。

説明
予測より高い / 予測より低い期待値の概要で、マークが予想よりも低い予想よりも高いと説明されている場合、集計済みのマーク値が、統計モデルがマークで予測している値の範囲外にあることを意味します。予測値の概要で、マークが予測よりもわずかに低い予測よりもわずかに高いと説明されているか、自然変動幅の範囲内にあると説明されている場合は、集約されたマーク値は予測範囲内にあるが、中央値よりも低いか高いことを意味します。
予測値マークに予測値がある場合、その値が、そのマークの統計モデルが予測している予測値の範囲内にあることを意味します。
ランダムな変動分析されたマークのレコード数が少ない場合、「データの説明を見る」で使用できる十分なデータがないため、統計的に有意な説明が作成されない可能性がありますマークの値が予測範囲外の場合、この予期しない値がランダムな変動によるものなのか、参照元レコードの意味のある違いによるものなのかを「データの説明を見る」で判断できません。
説明なし分析されたマーク値が予想範囲外で、「データの説明を見る」で使用する統計モデルに適合しない場合、説明は生成されません。

分析に使用されるモデル

「データの説明を見る」はビュー内のデータに関するモデルを作成してマークの値を予測し、そのモデルを踏まえ、マークが予測より高いか低いかを判断します。次に、データ ソースからビューへの列の追加やレコードレベルの外れ値のフラグ付けといった追加の情報を潜在的な説明として検討します。潜在的な説明ごとに、「データの説明を見る」で新しいモデルを適合させ、新しい情報を踏まえてマークがどの程度想定外であったかを評価します。説明が必要となる変動性の大きさに対して複雑性 (データ ソースから追加される情報の量) をトレード オフすることで、説明が採点されます。わかりやすい説明とは、変化のある説明よりも簡単であることです。

 

説明のタイプ評価

極値

極値は、視覚化されたマークのモデルに基づく、外れ値となる集計マークです。選択したマークは、レコード値がデータで期待値分布の端にある場合に極値を含むと見なされます。

極値は、極値がある場合とない場合の集計マークを比較することによって決定されます。値を削除してもマークがあまり減らなければ、高い得点が得られます。

マークに極値が含まれていても、ただちに、それらの値は外れ値である、または、ビューからそれらのレコードを除外する必要がある、という意味ではありません。選択すべき内容は分析に応じて異なります。説明は単にマーク内の興味深い極値を示しています。たとえば、バナナの価格が 10 セントではなく 10 ドルであるレコードであれば、誤って入力された値だとわかるかもしれません。または、特定の営業担当者がある四半期に優れた成績を収めていたことが明らかになるかもしれません。

レコード数

レコード数は、個数を集計する観点から集計の合計をモデル化して説明したものです。いっぽう、レコードの平均値は、平均を集計する観点からモデル化しています。モデルが合計をより適切に説明するほど、スコアは高くなります。

ここでは、数が多いまたは少ないか、平均が高いまたは低いことが原因で合計が興味深いかどうかについて説明します。

マークの平均値

このタイプの説明は、合計を表す集計マークで使用されます。集計する個数または平均の観点から、SUM(X) = COUNT(X) * AVG(X) の関係を踏まえて、そのマークが他のマークと一致しているかどうかを説明します。

ここでは、数が多いまたは少ないか、平均が高いまたは低いことが原因で合計が興味深いかどうかについて説明します。

関連するディメンション

この説明は、視覚化されていないディメンションのカテゴリ間の分析という観点から、分析されたマークのターゲット メジャーをモデル化します。この分析により、モデルの複雑さとマークの説明のバランスを取ることができます。

視覚化されていないディメンションとは、データ ソース内に存在するが、現在ビューでは使用されていないディメンションを指します。このタイプの説明は、合計、カウント、平均に使用されます。

非視覚化ディメンションのモデルは、説明する列の分類値に従ってマークを分割してから、ソースのビジュアライゼーションに含まれるすべてのデータ ポイントが含まれた値を使用してモデルを構築し、作成されます。行ごとに、モデルが各マークを形成する個々のコンポーネントの復元を試みます。分析では、視覚化されていないディメンションの値が不明なモデルを使用した場合と比べて、視覚化されていないディメンションに対応するコンポーネントをモデル化して合計すると、モデルがマークをより適切に予測するかどうかを示します。

集計ディメンションの説明では、マークの値が条件を指定せずにどの程度詳しく説明されているかを調べます。次に、潜在的な説明となる各列の値にモデルが条件を付けます。説明の列の分布に条件を付けることによって、より優れた予測が得られます。

関連するメジャー

この説明は、視覚化されていないメジャーの観点から、視覚化されたディメンション全体で平均を集計してマークをモデル化します。視覚化されていないディメンションとは、データ ソース内に存在するが、ビューでは現在使用していないディメンションを指します。

関連するメジャーの説明によって、視覚化されていないメジャーとターゲット メジャーの間の線形関係または二次関係が明らかになります。

フィードバックをお送りいただき、ありがとうございます。フィードバックは正常に送信されました。ありがとうございます!