Tableau でのデータ集計
Tableau では、メジャーやディメンションを集計できますが、メジャーを集計する方がより一般的です。メジャーをビューに追加すると、デフォルトにより、そのメジャーに集計が適用されます。適用される集計の種類は、ビューのコンテキストによって変わります。
ビューのメジャーの集計を変更する
ビューにメジャーを追加すると、値が自動的に集計されます。一般的な集計には合計、平均、中央値などがあります。完全なリストについては、Tableau の事前定義済み集計のリストを参照してください。
現在の集計は、ビューのメジャー名の一部として表示されます。たとえば、"Sales (売上高)" は SUM(Sales) になります。すべてのメジャーには、データ ソースへ接続したときに Tableau によって設定された既定の集計があります。メジャーに対する既定の集計を表示または変更できます。メジャーの既定集計の設定を参照してください。
Tableau を使用してメジャーを集計できるのは、リレーショナル データ ソースの場合のみです。多次元データ ソースには集計済みデータが含まれています。Tableau では、Windows のみで多次元データ ソースをサポートしています。
コンテキスト メニューから、ビューのメジャーの集計を変更できます。
ディメンションの集計
最小値、最大値、カウント、またはカウント (個別) を使用して、ビューのディメンションを集計できます。ディメンションを集計すると、ディメンションが実際にはメジャーの特性を引き受けるよう、新しいメジャー列が一時的に作成されます。
ディメンションを表示するもう 1 つの方法は、ディメンションのコンテキスト メニューから [属性] を選択して、ディメンションを属性として扱うことです。属性集計にはいくつかの使用方法があります。
- 複数のデータ ソースをブレンドする際には、一貫した詳細レベルを保証できます。
- これにより、集計式が必要な表計算を行う際、ディメンションを集計する方法を提供します。
- これは計算されるため、クエリのパフォーマンスを改善できます。
Tableau は、次の式を使用して属性を計算します。
IF MIN([dimension]) = MAX([dimension]) THEN
MIN([dimension]) ELSE "*" END
式は、データが最初のクエリから読み取られた後に Tableau で計算されます。アスタリスク (*) は実際には、複数の値がある場合に発生する特別な種類の Null 値の視覚的なインジケーターです。アスタリスクに関する詳細については、データ ブレンドのトラブルシューティング(新しいウィンドウでリンクが開く) を参照してください。
表計算で属性を使用した例を以下に示します。この表は、市場、市場規模、および状態別の売上高を示しています。それぞれの州が市場に貢献した総売上高に対する割合を計算したかったと仮定します。状態に従って計算される「合計に対する割合」(簡易表計算(新しいウィンドウでリンクが開く)を参照) を追加すると、計算は赤色のエリア内で行われます。これは、市場規模ディメンションによってデータの区分が指定されているためです。
市場規模を属性として集計すると、計算は市場 (次のイメージの場合は東部) で行われ、市場規模は単にラベルとして使用されます。
Tableau の事前定義済み集計のリスト
数値データは合計や平均などで集計して見ると役立つ場合があります。集計データを算出する数学関数は集計関数と呼ばれます。集計関数は、値のセットに対する計算を実行して、単一の値を返します。たとえば、値1、2、3、3、4を含むメジャーが合計として集計された結果は、単一の値です。13。または、50 個の製品から販売取引が 3,000 件ある場合に、どの製品の売上が最も高いかを調べるために、それぞれの製品の売上合計を表示したいと思うかもしれません。
注: 浮動小数点値を集計と組み合わせて使用すると、予期しない結果が発生する可能性があります。詳細については、計算のデータ型を理解する(新しいウィンドウでリンクが開く)を参照してください。
Tableau では、表のような事前定義済みの集計が用意されています。集計を含む計算フィールドではないメジャーに対しては、AVG([Discount])
などの既定の集計を設定できます。メジャーの既定集計の設定を参照してください。ビュー内の既存のフィールドの集計を設定することもできます。詳細は、ビューのメジャーの集計を変更するを参照してください。
集計 | 説明 | メジャーが 1、2、2、3 を含む場合の結果 |
---|---|---|
属性 | グループ内のすべての行が同じ値を持つ場合にのみ、指定された式の値を返します。それ以外の場合は、アスタリスク (*) 文字を表示します。NULL 値は無視されます。この集計はディメンションを集計する場合に役立ちます。ビュー内のメジャーをこの集計に設定するには、メジャーを右クリック (Mac では Control を押しながらクリック) し [属性] を選択します。その後フィールドは、テキスト ATTR を表示するよう変更します。 | * |
ディメンション | メジャーまたはディメンション内の一意の値をすべて返します。 | 3 つの値 (1、2、3) |
合計 | メジャー内の数値の合計を返します。NULL 値は無視されます。 | 1 つの値 (8) |
平均 | メジャー内の数値の算術平均を返します。NULL 値は無視されます。 | 1 つの値 (2) |
カウント (個別) | メジャーまたはディメンション内の一意の値の数を返します。ディメンションに適用された場合、計算の結果は数値なので、メジャーである新しい列が一時的に作成されます。カウントできるのは、数値、日付、ブール値、および文字列です。いずれの場合も Null 値は無視されます。 この集計は、次の種類のワークブックでは使用できません。
これらの種類のワークブックを使用するワークブックに接続している場合、カウント (個別) は使用できず、「抽出する必要があります」と表示されます。この集計を使用するには、データを抽出します。データの抽出を参照してください。 | 1 つの値 (3) |
最小 | メジャーまたは連続ディメンション内の最小値を返します。NULL 値は無視されます。 | 1 つの値 (1) |
最大 | サンプル母集団に基づいて、メジャーまたは指定された式にある最大の数値を返します。NULL 値は無視されます。Null でない値を持つ標本内の要素が 2 個に満たない場合は Null を返します。母集団のサンプルを表すデータに適用する関数です。 | 1 つの値 (3) |
Std (標準)Dev (Pop) (偏差 (母集団) ) | バイアス母集団に基づいて、指定された式の全ての値の標準偏差を返します。引数が母集団全体を含むと想定します。この関数はサンプル サイズが大きい場合に使用します。 | 1 つの値 (0.7071) |
分散 | サンプルに基づいて、指定された式の全ての値の分散を返します。NULL 値は無視されます。Null でない値を持つメンバーが 2 個に満たない場合は Null を返します。母集団のサンプルを表すデータに適用する関数です。 | 1 つの値 (0.6667) |
Variance (Pop) (分散 (母集団) ) | バイアス母集団に基づいて、指定された式の全ての値の分散を返します。引数が母集団全体を含むと想定します。この関数はサンプル サイズが大きい場合に使用します。 | 1 つの値 (0.5000) |
非集計 | 参照元データ ソースの全てのレコードを返します。ビュー内の全てのメジャーを非集計するには、分析メニューから 集計メジャー を選択します (チェックマークを外します)。 Tableau で、非集計形式のデータを表示することができます (リレーショナル データベースのみ)。データが非集計になると、データ ソースの個々の行の値が全て表示されます。たとえば、ゴムひもの合計売上高が $14,600 であることが分かれば、個々の販売トランザクションの分布を見たい場合があるかもしれません。この質問に回答するには、個々のデータ行を表示するビューを作成する必要があります。つまり、データを非集計する必要があります (データの非集計方法 を参照してください)。また、集計されたデータを見る別の方法として、ビューの全てまたは一部の参照元データを表示するという方法もあります。詳細については、参照元データの表示を参照してください。 | 4 つの値 (1、2、2、3) |
カスタム集計も定義できます。詳細については、Tableau 内の集計関数(新しいウィンドウでリンクが開く) を参照してください。作成するデータ ビューの種類によっては、Tableau は適切な詳細レベルでこれらの集計を適用します。たとえば、東部における平均配達時間であれば個々のディメンション要素に、東部、西部、および中部における平均配達時間であれば指定されたディメンションのすべての要素に、すべての地域と市場における売上合計であればディメンションのグループに、それぞれ集計が適用されます。
メジャーの既定集計の設定
集計を含む計算フィールドではないメジャーに対しては、AVG([Discount])
などの既定の集計を設定できます。既定の集計は、連続フィールドまたは不連続フィールドをまとめる代表的な計算です。既定の集計は、メジャーをビューにドラッグすると自動的に使用されます。
規定の集計を変更するには:
データペインでメジャーを右クリック (Mac では Control を押しながらクリック) し、[既定のプロパティ] > [集計] を選択したうえでいずれかの集計オプションを選択します。
注: Tableau を使用してメジャーを集計できるのは、リレーショナル データ ソースの場合のみです。多次元データ ソースには集計データのみが含まれています。
パブリッシュされたデータ ソースには既定の集計を設定できません。既定の集計は、データ ソースが最初にパブリッシュされるときに設定されます。既定の集計を調整するには、パブリッシュされたデータ ソースのローカル コピーを作成(新しいウィンドウでリンクが開く)してください。
データの非集計方法
メジャーをビューに追加すると、デフォルトにより、そのメジャーに集計が適用されます。このデフォルトは、分析メニューのメジャーの集計設定により制御されます。
ビューのすべてのマークを、最も詳細なレベルの粒度で表示したい場合は、ビューを非集計にできます。データの非集計とは、Tableau がデータ ソースのすべての行のすべてのデータ値に別のマークを表示することを意味します。
ビューのすべてのメジャーを非集計するには:
分析 >メジャーの集計 オプションをクリアします。すでに選択されている場合は、[メジャーの集計] を 1 回クリックして選択をクリアします。
[メジャーの集計] が選択されていると、Tableau は既定でビューのメジャーの集計を試みます。データ ソースの個々の行の値は、ビューの詳細レベルで 1 つの値 (1 つのマーク) に集計されます。
メジャーで利用可能なさまざまな集計により、個々の値の収集方法が決定します。それらは個々の行の値に追加 (SUM)、平均 (AVG)、個々の行の値から最大 (MAX) 値や最小 (MIN) 値を設定できます。
利用可能な集計の完全なリストについては、Tableau の事前定義済み集計のリストを参照してください。
詳細レベルはビューのディメンションによって決まります。詳細レベルの概念の詳細については、ディメンションのビューの詳細レベルへの影響を参照してください。
データの非集計は、ビュー内で独立的および従属的に使用するメジャーを分析するときに便利です。たとえば、参加者の年齢を座標軸の 1 つにして、製品満足度調査の結果を分析しているとします。""Age (年齢)" フィールドを集計して、参加者の平均年齢を知ることができます。または、そのデータを非集計にして、その製品に最も満足している年齢層を知ることができます。
非集計データは散布図などのデータを表示する際に便利です。例: 散布図、集計、および粒度を参照してください。
注: データ ソースが非常に大きい場合、データを非集計にするとパフォーマンスが大幅に低下します。
例: 散布図、集計、および粒度
あるメジャーを [行] シェルフへ配置して、別のメジャーを [列] シェルフへ配置すると、Tableau は 2 つの数値を比較します。通常そのような場合、Tableau は散布図を既定のビジュアライゼーションとして選択します。最初のビューは単一のマークである可能性が高く、2 つのメジャーのすべての値の合計を示します。これは、ビューの詳細レベルを増やす必要があるためです。
散布図の作成の開始
基本的な散布図に詳細を追加するには、さまざまな方法があります。ディメンションを使用して詳細を追加したり、行や列のシェルフにフィールドを追加したり、データを非集計にしたりすることもできます。それらのオプションを組み合わせて使用することもできます。このトピックではこれらの選択肢に注目し、Sample - Superstore (サンプル - スーパーストア) データ ソースを使用します。
最初のビューを作成するには、これらの手順に従ってください。
[列] シェルフに "Sales (売上高)" メジャーを配置します。
[行] シェルフに "Profit (収益)" メジャーを配置します。
メジャーは自動的に合計として集計されます。既定の集計 (SUM (合計)) は、フィールド名に示されます。ツールヒントに示されている値は、データ ソースにある全ての行の売上高と収益の値の合計を表します。
次の手順に従って、ディメンションを使用してビューに詳細を追加し、データを非集計にします。
ディメンションを使用した詳細の追加
次の手順に従って、ディメンションを追加して詳細レベルをさらに表示し、作成した散布図ビューに手を加えます。
[マーク] カードの [色] に "Category (カテゴリー)" ディメンションをドラッグします。
これによりデータは各ディメンション メンバーに対応する 3 つのマークに分類され、マークは色を使用してエンコードされます。
[マーク] カードの [詳細] に "State (州)" ディメンションをドラッグします。
ビューには多くのマークがあります。マークの数値は、カテゴリーの数値を掛けたデータ ソース内の個別の州の数値と等しくなります。
表示されるマークの数は増えましたが、メジャーはまだ集計されたままです。そのため、データ ソース内に「州 = ノースダコタ」と「カテゴリ = 家具」という行が 1 行あるか 100 行あるかに関係なく、結果は常に単一のマークです。
この処理は、有用だと思う方向にビューを発展させているかもしれませんが、違う方向に発展させたいと思うかもしれません。どのような質問をするかを決定できます。
行および列シェルフにフィールドをさらに追加しようと試みる
元の 1 つのマークのビューに戻します。フィールドを [行] と [列] シェルフに追加して散布図のビューを展開するには、これらの手順に従います。
[列] シェルフに "State (州)" ディメンションをドラッグします。
"Continent (大陸)" を [SUM(Sales)] の右にドロップした場合でも、[SUM(Sales)] の左に移動します。これは、連続軸にディメンションを挿入することができないからです。代わりに、ディメンションのメンバーごとに別々の軸が表示されます。
[行] シェルフに "Segment (区分)" ディメンションをドラッグします。
州と顧客区分にわたり、"Sales (売上高)" と "Profit (収益)" の概要を提供するビューが表示されます。ビュー内のマークにポインターを合わせてさまざまな区分のツールヒント データを参照すると、興味深い情報が得られます。
データの非集計を試みる
1 つのマークを使用する元の散布図を変更してより多くのマークを表示するもう 1 つの方法は、データを非集計にするという方法です。
分析 >メジャーの集計 オプションをクリアします。すでに選択されている場合は、[メジャーの集計] を 1 回クリックして選択をクリアします。
このコマンドはもともと選択されていたスイッチなので (チェックマークが表示されています)、実行したことはデータの非集計です。Tableau は、既定でビューのデータを集計します。
これで、元のデータ ソースの行ごとに 1 つずつ、多くのマークが表示されます。
メジャーを非集計にすると、データ ソースにある行の値の平均または合計は表示されなくなります。その代わりに、ビューにはデータ ソースにある全ての行のマークが表示されます。データの非集計は、データ全体を見るための方法です。それは、データの形状をすぐに理解し、外れ値を識別する方法です。この場合、ビューは売上と利益の間に一貫した関係があることを示しており、45 度の角度で並んだマークの線で示されています。