Tableau でのデータ集計

Tableau では、メジャーやディメンションを集計できますが、メジャーを集計する方がより一般的です。メジャーをビューに追加すると、デフォルトにより、そのメジャーに集計が適用されます。適用される集計の種類は、ビューのコンテキストによって変わります。

ビデオを視聴する: Tableau で示される関連するコンセプトを見るには、4 分間の無料トレーニングビデオ 集計、粒度、および割合の計算(新しいウィンドウでリンクが開く) を視聴してください。お使いの tableau.com(新しいウィンドウでリンクが開く) アカウントを使用してサインインします。

ビューのメジャーの集計を変更する

ビューにメジャーを追加すると、値が自動的に集計されます。一般的な集計には合計、平均、中央値などがあります。完全なリストについては、Tableau の事前定義済み集計のリストを参照してください。

現在の集計は、ビューのメジャー名の一部として表示されます。たとえば、"Sales (売上高)"SUM(Sales) になります。すべてのメジャーには、データ ソースへ接続したときに Tableau によって設定された既定の集計があります。メジャーに対する既定の集計を表示または変更できます。メジャーの既定集計の設定を参照してください。

Tableau を使用してメジャーを集計できるのは、リレーショナル データ ソースの場合のみです。多次元データ ソースには集計済みデータが含まれています。Tableau では、Windows のみで多次元データ ソースをサポートしています。

コンテキスト メニューから、ビューのメジャーの集計を変更できます。

フィールドのコンテキスト メニューを使用してメジャーの集計を変更する方法を示す図。

ディメンションの集計

最小値最大値カウント、またはカウント (個別) を使用して、ビューのディメンションを集計できます。ディメンションを集計すると、ディメンションが実際にはメジャーの特性を引き受けるよう、新しいメジャー列が一時的に作成されます。

フィールドのコンテキスト メニューのオプションを使用してディメンションを集計する方法を示す図。

: カウント (個別) 集計は Microsoft Access データ ソースおよびレガシー接続を使用する Microsoft Excel とテキスト ファイル データ ソースではサポートされていません。これらの種類のデータ ソースに接続している場合は、カウント (個別) 集計を行うことはできず、「抽出する必要があります」と表示されます。データ ソースを抽出として保存すると、カウント (個別) 集計を使用できます。

ディメンションを表示する別の方法として、ディメンションを属性として扱う方法があります。これを行うには、ディメンションのコンテキスト メニューから [属性] を選択します。属性集計にはいくつかの使用方法があります。

  • 複数のデータ ソースをブレンドする際には、一貫した詳細レベルを保証できます。

  • これにより、集計式が必要な表計算を行う際、ディメンションを集計する方法を提供します。

  • これはローカルに計算されるため、クエリのパフォーマンスを改善できます。

Tableau は、次の式を使用して属性を計算します。

IF MIN([dimension]) = MAX([dimension]) THEN MIN([dimension]) ELSE "*" END

式は、データが最初のクエリから読み取られた後に Tableau で計算されます。アスタリスク (*) は実際には、複数の値がある場合に発生する特別な種類の Null 値の視覚的なインジケーターです。アスタリスクに関する詳細については、データ ブレンドのトラブルシューティング(新しいウィンドウでリンクが開く) を参照してください。

表計算で属性を使用した例を以下に示します。この表は、市場、市場規模、および状態別の売上高を示しています。それぞれの州が市場に貢献した総売上高に対する割合を計算したかったと仮定します。状態に従って計算される合計に対する割合(簡易表計算(新しいウィンドウでリンクが開く)を参照)を追加すると、計算は下の赤色のエリア内で行われます。これは、市場規模ディメンションによってデータの区分が指定されているためです。

市場規模を属性として集計すると、計算は市場 (次のイメージの場合は東部) で行われ、市場規模情報は表示内で単にラベルとして使用されます。

Tableau の事前定義済み集計のリスト

数値データは合計や平均などで集計して見ると役立つ場合があります。集計データを算出する数学関数は集計関数と呼ばれます。集計関数は、値のセットに対する計算を実行して、単一の値を返します。たとえば、値1、2、3、3、4を含むメジャーが合計として集計された結果は、単一の値です。13。または、データ ソース内に 50 個の製品の販売トランザクションが 3,000 件ある場合に、どの製品の収益が最も高いかを調べるために、それぞれの製品の売上高の合計を表示したいとします。

Tableau を使用して、リレーショナル データ ソースのメジャーのみの集計を設定できます。多次元データ ソースには集計データのみが含まれています。

: 浮動小数点値を集計と組み合わせて使用すると、予期しない結果が発生する可能性があります。詳細については、計算のデータ型を理解する(新しいウィンドウでリンクが開く)を参照してください。

Tableau では、下の表のような事前定義済みの集計が用意されています。集計を含む計算フィールドではないメジャーに対して、AVG([Discount]) などの既定の集計を設定できます。メジャーの既定集計の設定を参照してください。ビュー内の既存のフィールドの集計を設定することもできます。詳細は、ビューのメジャーの集計を変更するを参照してください。

集計説明メジャーが 1、2、2、3 を含む場合の結果
属性

グループ内のすべての行が同じ値を持つ場合にのみ、指定された式の値を返します。それ以外の場合は、アスタリスク (*) 文字を表示します。NULL 値は無視されます。この集計は特にディメンションを集計する場合に役立ちます。ビュー内のメジャーをこの集計に設定するには、メジャーを右クリック (Mac では Control を押しながらクリック) し [属性] を選択します。その後フィールドは、テキスト ATTR を表示するよう変更します。

N/A
ディメンションメジャーまたはディメンション内の一意の値をすべて返します。3 つの値 (1、2、3)
合計メジャー内の数値の合計を返します。NULL 値は無視されます。1 つの値 (8)
平均メジャー内の数値の算術平均を返します。NULL 値は無視されます。1 つの値 (4)
カウント (個別)

メジャーまたはディメンション内の一意の値の数を返します。ディメンションに適用された場合、計算の結果は数値なので、メジャーである新しい列が一時的に作成されます。カウントできるのは、数値、日付、ブール値、および文字列です。いずれの場合も Null 値は無視されます。

この集計は、次の種類のワークブックでは使用できません。

  • Tableau Desktop 8.2 以前で作成され、Microsoft Excel またはテキスト ファイル データ ソースを使用するワークブック。
  • レガシー接続を使用するワークブック。
  • Microsoft Access データ ソースを使用するワークブック。

これらの種類のワークブックを使用するワークブックに接続している場合、カウント (個別) は使用できず、「抽出する必要があります」と表示されます。この集計を使用するには、データを抽出します。データの抽出を参照してください。

1 つの値 (3)
最小メジャーまたは連続ディメンション内の最小値を返します。NULL 値は無視されます。1 つの値 (1)
最大サンプル母集団に基づいて、メジャーまたは指定された式にある最大の数値を返します。NULL 値は無視されます。Null でない値を持つメンバーが 2 個に満たない場合は Null を返します。母集団のサンプルを表すデータに適用する関数です。1 つの値 (3)
Std (標準)Dev (Pop) (偏差 (母集団) )バイアス母集団に基づいて、指定された式の全ての値の標準偏差を返します。引数が母集団全体を含むと想定します。この関数はサンプル サイズが大きい場合に使用します。1 つの値 (0.7071)
分散サンプルに基づいて、指定された式の全ての値の分散を返します。NULL 値は無視されます。Null でない値を持つメンバーが 2 個に満たない場合は Null を返します。母集団のサンプルを表すデータに適用する関数です。1 つの値 (0.6667)
Variance (Pop) (分散 (母集団) )バイアス母集団に基づいて、指定された式の全ての値の分散を返します。引数が母集団全体を含むと想定します。この関数はサンプル サイズが大きい場合に使用します。1 つの値 (0.5000)
非集計

参照元データ ソースの全てのレコードを返します。ビュー内の全てのメジャーを非集計するには、分析メニューから 集計メジャー を選択します (チェックマークを外します)。

Tableau で、非集計形式のデータを表示することができます (リレーショナル データベースのみ)。データが非集計になると、データ ソースの個々の行の値が全て表示されます。たとえば、ゴムひもの合計売上高が $14,600 であることが分かれば、個々の販売トランザクションの分布を見たい場合があるかもしれません。この質問に回答するには、個々のデータ行を表示するビューを作成する必要があります。つまり、データを非集計する必要があるということです。(データの非集計方法 をご覧ください)また、集計されたデータを見る別の方法として、ビューの全てまたは一部の参照元データを表示するという方法もあります。詳細については、参照元データの表示を参照してください。

4 つの値 (1、2、2、3)

カスタム集計も定義できます。詳細については、Tableau 内の集計関数(新しいウィンドウでリンクが開く) を参照してください。作成するデータ ビューの種類によっては、Tableau は適切な詳細レベルでこれらの集計を適用します。たとえば、東部における平均配達時間なら個々のディメンション メンバーに、東部、西部、および中部における平均配達時間なら指定された 1 ディメンション内のすべてのメンバーに、すべての地域とすべての市場における売上高の合計ならディメンションのグループに集計が適用されます。

メジャーの既定集計の設定

集計を含む計算フィールドではないメジャーに対して、AVG([Discount]) などの既定の集計を設定できます。既定の集計は、連続フィールドまたは不連続フィールドをまとめる代表的な計算です。既定の集計は、メジャーをビューにドラッグすると自動的に使用されます。

規定の集計を変更するには:

データペインでメジャーを右クリック (Mac では Control を押しながらクリック) し、[既定のプロパティ] >[集計] を選択したうえでいずれかの集計オプションを選択します。

: Tableau を使用してメジャーを集計できるのは、リレーショナル データ ソースの場合のみです。多次元データ ソースには集計データのみが含まれています。

パブリッシュされたデータ ソースについて既定の集計を設定することはできません。既定の集計は、データ ソースが最初にパブリッシュされるときに設定されます。既定の集計を調整するには、パブリッシュされたデータ ソースのローカル コピーを作成(新しいウィンドウでリンクが開く)してください。

データの非集計方法

メジャーをビューに追加すると、デフォルトにより、そのメジャーに集計が適用されます。このデフォルトは、分析メニューのメジャーの集計設定により制御されます。

ビューのすべてのマークを、最も詳細なレベルの粒度で見たい場合は、ビューを未集計できます。データの非集計とは、Tableau がデータ ソースのすべての行のすべてのデータ値に別のマークを表示することを意味します。

ビューのすべてのメジャーを非集計するには:

  • 分析 >メジャーの集計 オプションをクリアします。すでに選択されている場合は、メジャーの集計を一度クリックしてクリアします。

メジャーの集計が選択されている場合、Tableau はデフォルトにより、ビューでメジャーの集計を試みます。これはつまり、データ ソースから個別の行の値を、ビューの詳細レベルに合わせた 1 つのマーク (単一のマークとなる) に収集することを意味します。

メジャーで利用可能なさまざまな集計により、個々の値の収集方法が決定します。それらは個々の行の値に追加 (SUM)、平均 (AVG)、個々の行の値から最大 (MAX) 値や最小 (MIN) 値を設定できます。

利用可能な集計の完全なリストについては、Tableau の事前定義済み集計のリストを参照してください。

詳細レベルはビューのディメンションによって決まります。詳細レベルの概念の詳細については、ディメンションのビューの詳細レベルへの影響を参照してください。

データの非集計は、ビュー内で独立的および従属的に使用するメジャーを分析するときに便利です。たとえば、参加者の年齢を座標軸の 1 つにして、製品満足度調査の結果を分析しているとします。""Age (年齢)" フィールドを集計して、参加者の平均年齢を知ることができます。または、そのデータを非集計にして、その製品に最も満足している年齢層を知ることができます。

非集計データは散布図などのデータを表示する際に便利です。例: 散布図、集計、および粒度を参照してください。

注: データ ソースが非常に大きい場合、データを非集計にするとパフォーマンスが大幅に低下します。

 

例: 散布図、集計、および粒度

1 つのメジャーを [行] シェルフへ配置して、もう 1 つのメジャーを [列] シェルフへ配置すると、Tableau は 2 つの数値を比較します。通常そのような場合、Tableau は散布図を既定のビジュアライゼーションとして選択します。最初のビューは単一のマークである可能性が高く、2 つのメジャーのすべての値の合計を示しています。これは、ビューの詳細レベルを増やす必要があるからです。

散布図の作成の開始

基本的な散布図に詳細を追加するには、さまざまな方法があります。ディメンションを使用して詳細を追加したり、行や列のシェルフに別のメジャーまたはディメンションを追加して、ビューに 1 つのマークを使用する複数の散布図を作成したりすることができます。また、データを非集計にすることもできます。さらに、これらのオプションを任意に組み合わせて使用することもできます。このトピックではこれらの選択肢に注目し、Sample - Superstore (サンプル - スーパーストア) データ ソースを使用します。

最初のビューを作成するには、これらの手順に従ってください。

  1. [列] シェルフに "Sales (売上高)" メジャーを配置します。

  2. [行] シェルフに "Profit (収益)" メジャーを配置します。

メジャーは自動的に合計として集計されます。既定の集計 (SUM (合計)) は、フィールド名に示されます。ツールヒントに示されている値は、データ ソースにある全ての行の売上高と収益の値の合計を表します。

次の手順に従って、ディメンションを使用してビューに詳細を追加し、データを非集計にします。

ディメンションを使用した詳細の追加

上記で作成した散布図ビューを展開するために、ディメンションを追加して補足の詳細レベルを表示するには、これらの手順に従います。

  1. [マーク] カードの [色]"Category (カテゴリー)" ディメンションをドラッグします。

    これによりデータは各ディメンション メンバーに対応する 3 つのマークに分類され、マークは色を使用してエンコードされます。

  2. [マーク] カードの [詳細]"State (州)" ディメンションをドラッグします。

    ビューには多くのマークがあります。マークの数値は、カテゴリーの数値を掛けたデータ ソース内の個別の州の数値と等しくなります。

表示されるマークの数は増えましたが、メジャーはまだ集計されたままです。そのため、データ ソース内に "州 = ノースダコタ" と "カテゴリー = 家具" という行が 1 つあるかまたはそのような行が 100 個あるかに関係なく、結果は常に単一のマークです。

通常、このプロセスでは、あなたが便利だと思うビューが作成されます。たとえば時間ディメンションをビューへ追加したり、傾向線または予測を取り入れることで、異なる方向に進む場合もあります。どのような質問をするかを決定できます。

行および列シェルフにフィールドをさらに追加しようと試みる

元の 1 つのマークのビューに戻します。フィールドを [行][列] シェルフに追加して散布図のビューを展開するには、これらの手順に従います。

  1. [列] シェルフに "State (州)" ディメンションをドラッグします。

    "Continent (大陸)"[SUM(Sales)] の右にドロップした場合でも、[SUM(Sales)] の左に移動します。これは、連続軸にディメンションを挿入することができないからです。代わりに、ディメンションのメンバーごとに別々の軸が表示されます。

  2. [行] シェルフに "Segment (区分)" ディメンションをドラッグします。

    州と顧客区分にわたり、"Sales (売上高)" と "Profit (収益)" の概要を提供するビューが表示されます。ビュー内のマークにポインターを合わせてさまざまな区分のツールヒント データを参照すると、興味深い情報が得られます。

データの非集計を試みる

1 つのマークを使用する元の散布図を変更してより多くのマークを表示するもう 1 つの方法は、データを非集計にするという方法です。

分析 >メジャーの集計 オプションをクリアします。すでに選択されている場合は、メジャーの集計を一度クリックしてクリアします。

このコマンドはトグルでもともと選択されていたため (チェックマークが表示されています)、実際に実行したことはデータの非集計です。Tableau は、既定でビューのデータを集計します。

元のデータ ソース内の各行に対応する多くのマークがあります。

メジャーを非集計にすると、データ ソースにある行の値の平均または合計は表示されなくなります。その代わりに、ビューにはデータ ソースにある全ての行のマークが表示されます。データの非集計は、データ全体を見るための方法です。それは、データの形状をすぐに理解し、外れ値を識別する方法です。この場合、非集計データは、データ内の多くの行の売上高と収益の間には一貫した関係があることを示します。これは、折れ線グラフの45度で整列しているマークによって示されます。

 

 

 

ありがとうございます!