「データの説明を見る」の説明タイプ
Tableau は、viz やダッシュボードで新しいマークを選択して「データの説明を見る」を実行するたびに、そのマークとワークブックの参照元データを使用して新たな統計分析を行います。考えられる説明は、[データ ガイド] ペインの展開可能なセクションに表示されます。「データの説明を見る」が説明を分析して評価するしくみについては、「「データの説明を見る」のしくみ」を参照してください。
基になる値を探索する
このセクションには、説明可能な各メジャー (ターゲット メジャーと呼ばれます) の説明が一覧表示されます。一覧表示される各説明は、分析されたマーク上で調べたターゲットメジャーの値との関係を説明しています。実世界でそのデータが実用的にどのような意味を持つかに基づいて、「データの説明を見る」で検出された関係に意味があり、確認する価値があるかどうかを判断します。
基になる特性
この説明では、ビュー内のマークの参照元レコードが、説明されているメジャーの集計値にどのように影響している可能性があるかを解説しています。マークの属性には、そのマークの極値、Null 値、レコード数、平均値などがあります。
注: 説明で使用する一般的な用語の定義については、「説明での用語と概念(新しいウィンドウでリンクが開く)」を参照してください。
極値
この説明タイプでは、1 つまたは複数のレコードの値が、ほとんどのレコードと比べて大幅に高いか低いかを説明します。説明しているモデルがある場合は、分析されたマークのターゲットメジャーに極値が影響を与えていることを示します。
マークに極値が含まれていても、ただちに、それらの値は外れ値である、または、ビューからそれらのレコードを除外する必要がある、という意味ではありません。選択すべき内容は分析に応じて異なります。説明は、単にマークの極値について指摘しているだけです。たとえば、バナナの価格が 10 セントではなく 10 ドルであるレコードであれば、誤って入力された値だとわかるかもしれません。または、特定の営業担当者がある四半期に優れた成績を収めていたことが明らかになるかもしれません。
注: パブリッシュされたワークブックの表示モードで説明を表示するには、作成者がその説明の表示を有効にする必要があります。詳細については、「データの説明を見る」へのアクセスの制御を参照してください。
この説明では以下を示します。
探索オプションを以下に示します。
さらなる分析のための手順を以下に示します。
| この例では、463 時間というレンタル時間の 1 つの極値が、予測よりも高い 613 時間という総レンタル時間に影響しています。 この高い値の理由としては、誰かが自転車を返却したときにドッキングするのを忘れた可能性が考えられます。このような場合は、作成者は将来の分析のためにこの値を除外することをお勧めします。
| |
違いを視覚化するこのセクションでは次のことを示しています。
探索オプションを以下に示します。
さらなる分析のための手順を以下に示します。
| この例では、483 という極値を除外すると、分析されたマークは、ビュー内の他のマークと比較してとくに高くないことがわかります。他のマークが目立つようになりました。自転車のレンタル時間が他のいくつかの場所で長く、作成者はその理由を確認しようとして、他のマークを調べたいと考えるでしょう。 |
Null 値
Null 値の説明タイプは、想定よりも多くの欠落データがマーク内にあることを示しています。これは、Null であるターゲットのメジャー バリューの割合と、Null 値がそのメジャーの集計値にどのように寄与しているかを示しすものです。
この説明では以下を示します。
探索オプションを以下に示します。
さらなる分析のための手順を以下に示します。
| この例では、ターゲット メジャーの Null 値の割合が青色の円で示されています。 |
レコード数
この説明タイプでは、参照元レコードの数が合計に影響を与えている場合を説明します。この分析では、マークに集計されているレコードの数と、マークの実際の値との関係を確認します。
当たり前に思えるかもしれませんが、この説明タイプを利用すると、分析されたマークの値が、レコードの値に影響を受けているのか、レコードの数に影響を受けているのかを確認できます。
この説明では以下を示します。
探索オプションを以下に示します。
さらなる分析のための手順を以下に示します。
| この例では、元のビジュアライゼーションのディメンションである乗車月ごとに、走行距離のレコード数が一覧表示されています。8 月は総走行距離の値が最も高くなっています。 8 月に走行距離の値が最も高くなっているのは、8 月には多くの人が乗車したからか、それとも一部の人が長く走行したからかを確認することができます。 |
マークの平均値
この説明タイプでは、メジャーの平均が合計に影響を与えている場合を説明します。平均値が低いか高いか、またはレコード数が少ないか多いかを比較できます。
この説明では以下を示します。
探索オプションを以下に示します。
さらなる分析のための手順を以下に示します。
| この例では、8 月の平均走行距離は、ほかの月と比べて大幅に高くも低くもありません。これは、8 月は乗車時間が長い人がいたからではなく、乗車回数が多かったため、8 月の総走行距離が長かったことを示しています。 |
関連する単一の値
この説明を使用すると、分析されたマークを構成するレコード値の構成を確認できます。
この説明タイプでは、視覚化されていないディメンションの単一の値が、分析されたマークの集計値に影響している可能性がある場合を説明します。視覚化されていないディメンションとは、データ ソース内に存在するが、現在ビューでは使用されていないディメンションを指します。
この説明では、ディメンションの参照元レコードがすべて同じ値である場合や、分析されたマークに対して多くのレコードまたは少数のレコードが同じ値であるためにディメンション値が目立つ場合について示しています。
注: 説明で使用する一般的な用語の定義については、「説明での用語と概念(新しいウィンドウでリンクが開く)」を参照してください。
この説明では以下を示します。
探索オプションを以下に示します。
さらなる分析のための手順を以下に示します。
| この例では、統計分析により、多くの乗車がバック湾の駅周辺から行われていることが明らかになりました。「駅周辺」は視覚化されていないディメンションであり、ビジュアライゼーションの参照元データの走行距離と何らかの関係があることがわかります。 |
上位の要因
この説明を使って、分析されたマークの中で最も大きな割合を占める値を確認してください。
COUNT 集計の場合、上位の要因には最も多くのレコードを持つディメンジョン値が表示されます。SUM の場合、この説明には、部分和が最も大きいディメンションの値が表示されます。
関連するディメンション
この説明を使用すると、分析されたマークを構成するレコード値の構成を確認できます。
この説明タイプでは、視覚化されていないディメンションの分布が、分析されたマークの集計値に影響している可能性があることを説明します。この説明タイプは、ターゲットメジャーの合計、カウント、平均に使用します。視覚化されていないディメンションとは、データ ソース内に存在するが、現在ビューでは使用されていないディメンションを指します。
注: 説明で使用する一般的な用語の定義については、「説明での用語と概念(新しいウィンドウでリンクが開く)」を参照してください。
この説明では以下を示します。
探索オプションを以下に示します。
さらなる分析のための手順を以下に示します。
| この例では、統計分析により、全体的な乗車のマークと比較して、サウス駅と MIT からの乗車が多く、チャールズ サークル駅とケンダル駅からの乗車が少ないことが明らかになりました。 「駅名」は視覚化されていないディメンションであり、ビジュアライゼーションの参照元データの走行距離と何らかの関係があることがわかります。 |
関連するメジャー
この説明タイプでは、視覚化されていないメジャーの平均が、分析されたマークの集計値に影響している可能性があることを説明します。視覚化されていないディメンションとは、データ ソース内に存在するが、ビューでは現在使用していないディメンションを指します。
この説明により、視覚化されていないメジャーとターゲット メジャーの間の線形関係または二次関係が明らかになります。
注: 説明で使用する一般的な用語の定義については、「説明での用語と概念(新しいウィンドウでリンクが開く)」を参照してください。
この説明では以下を示します。
探索オプションを以下に示します。
さらなる分析のための手順を以下に示します。
| この例では、走行距離が長い理由の 1 つとして、平均合計レンタル時間が長いことが考えられます。 |
その他の探索項目
このセクションには、分析されたマークが一意的または異常であると考えられる理由が示されています。これらの説明については、以下の点に注意してください。
- このマークがなぜその値であるかは説明していません。
- ソースの視覚化におけるメジャーの値とは関係がありません。
- ターゲット メジャーを考慮していません。
その他の興味深いディメンション
この説明を使用すると、分析されたマークを構成するレコード値の構成を確認できます。
分析されたマーク内の視覚化されていないディメンションの分布は、ビュー内の他のすべてのマークの値の分布と比較して異常です。視覚化されていないディメンションとは、データ ソース内に存在するが、現在ビューでは使用されていないディメンションを指します。
注: 説明で使用する一般的な用語の定義については、「説明での用語と概念(新しいウィンドウでリンクが開く)」を参照してください。
この説明では以下を示します。
探索オプションを以下に示します。
さらなる分析のための手順を以下に示します。
| この例では、高い割合のレコードが曇りの天気に関連付けられています。データはボストンでのレンタサイクルに関するものであり、分析されたマークは 8 月の走行距離であるため、通常、天気は暖かくて湿度が高いと推測できます。暑さを避けるために、曇りの日には自転車がより頻繁に借りられたかもしれません。8 月は曇りの日が多かった可能性もあります。 |