Tableau 内の集計関数

この記事は、集計関数と Tableau での用途について紹介します。また、例 を使用して集計計算を作成する方法を示しています。

集計関数を使う理由

集計関数を使用すると、データの集計、あるいは粒度の変更が可能です。

たとえば、特定の年にあなたの店舗で正確にいくつの注文があったかを知りたいとします。COUNTD 関数を使用して会社の正確な一意の注文数を集計し、年ごとに視覚化することができます。

計算結果は次のようになります。

COUNTD(Order ID)

ビジュアライゼーションは次のようになります。

Tableau で利用可能な集計関数

集計と浮動小数点演算: 集計結果のいくつかは、必ずしも期待通りになるとは限りません。たとえば、合計が正確に 0 になるはずの数値列で、SUM 関数が -1.42e-14 などの値を返すことがあります。これは、電気電子学会 (IEEE) 754 浮動小数点標準で、数値をバイナリ形式で保存することが求められていることに起因します。つまり、数値は極めて高い精度で丸められる場合があります。ROUND 関数 (数値関数を参照) を使用することにより、または小数点以下の数桁をより少なくするように数値を書式設定することにより、このような混乱が起こることを回避できます。

ATTR

構文ATTR(expression)
定義すべての行に単一の値がある場合に式の値を返します。それ以外の場合はアスタリスクを返します。NULL 値は無視されます。

AVG

構文AVG(expression)
定義式内のすべての値の平均を返します。NULL 値は無視されます。
AVG は数値フィールドでのみ使用できます。

COLLECT

構文COLLECT(spatial)
定義引数フィールドの値を組み合わせる集計計算。NULL 値は無視されます。
COLLECT は空間フィールドでのみ使用できます。

CORR

構文CORR(expression1, expression2)
出力-1 から 1 までの数値
定義2 つの式のピアソン相関係数を返します。
example

ピアソン相関係数は、2 つの変数の間の線形関係を測定します。結果は -1 から +1 の範囲となります。ここで、1 は完全な正の線形関係を示し、0 は変数間に線形関係がないことを示し、−1 は完全な負の線形関係を示します。

CORR 結果の 2 乗は、線形傾向線モデルの R-2 乗の値に相当します。「傾向線モデルの用語」(新しいウィンドウでリンクが開く)を参照してください。

テーブル スコープの LOD 式での使用

CORR を使用すると、テーブル スコープの詳細レベルの式(新しいウィンドウでリンクが開く)を使用して、集計していない散布図で相関関係を視覚化できます。例:

{CORR(Sales, Profit)}

詳細レベルの式では、相関はすべての行で実行します。CORR(Sales, Profit) (詳細レベルの式にするには括弧を使用しない) のような式を使用した場合、ビューはそれぞれ未定義の他のデータ ポイントを使用した散布図における、各個別ポイントの相関を示します。

データベースの制限

CORR は次のデータ ソースで利用できます。Tableau データ抽出、Cloudera Hive、EXASolution、Firebird (バージョン 3.0 以降)、Google BigQuery、Hortonworks Hadoop Hive、IBM PDA (Netezza)、Oracle、PostgreSQL、Presto、SybaseIQ、Teradata、Vertica。

他のデータ ソースについては、データを抽出するか WINDOW_CORR を使用することを検討してください。「表計算関数」(新しいウィンドウでリンクが開く)を参照してください。

COUNT

構文COUNT(expression)
定義アイテムの数を返します。Null 値は数に含まれません。

COUNTD

構文COUNTD(expression)
定義グループ内の一意のアイテム数を返します。Null 値は数に含まれません。

COVAR

構文COVAR(expression1, expression2)
定義2 つの式の標本共分散を返します。

共分散は 2 つの変数の変化をまとめて定量化します。ある変数の値が大きい場合は、平均して、他の変数の大きい値に対応している傾向があるため、プラスの共分散は変数が同じ方向に移動する傾向があることを示します。標本共分散では、母共分散で (COVARP 関数で) 使用される n ではなく、Null でないデータ ポイント数 n-1 を使用して共分散計算を標準化します。標本共分散は、データが、大きな母集団に対する共分散の見積もりに使用されるランダムな標本の場合に適しています。

<expression1><expression2> が同じ場合、たとえば、COVAR([profit], [profit]) の場合、COVAR は値がどの程度広い範囲で分散しているかを示す値を返します。

COVAR(X, X) の値は VAR(X) の値と同等であり、STDEV(X)^2 の値とも同等です。

データベースの制限

COVAR は次のデータ ソースで利用できます。Tableau データ抽出、Cloudera Hive、EXASolution、Firebird (バージョン 3.0 以降)、Google BigQuery、Hortonworks Hadoop Hive、IBM PDA (Netezza)、Oracle、PostgreSQL、Presto、SybaseIQ、Teradata、Vertica。

他のデータ ソースについては、データを抽出するか WINDOW_COVAR を使用することを検討してください。「表計算関数」(新しいウィンドウでリンクが開く)を参照してください。

COVARP

構文COVARP(expression 1, expression2)
定義2 つの式の母共分散を返します。

共分散は 2 つの変数の変化をまとめて定量化します。ある変数の値が大きい場合は、平均して、他の変数の大きい値に対応している傾向があるため、プラスの共分散は変数が同じ方向に移動する傾向があることを示します。母共分散は標本共分散に (n-1)/n を乗算したものです。ここで、n は Null でないデータ ポイントの合計です。母共分散は、対象のすべてのアイテムに対して利用可能なデータがある場合に最適です。反対に、アイテムのランダムなサブセットのみがある場合には、標本共分散 (COVAR 関数を使用) が適しています。

<expression1><expression2> が同じ場合、たとえば、COVARP([profit], [profit]) の場合、COVARP は値がどの程度広い範囲で分散しているかを示す値を返します。注: COVARP(X, X) の値は VARP(X) の値と同等であり、STDEVP(X)^2 の値とも同等です。

データベースの制限

COVARP は次のデータ ソースで利用できます。Tableau データ抽出、Cloudera Hive、EXASolution、Firebird (バージョン 3.0 以降)、Google BigQuery、Hortonworks Hadoop Hive、IBM PDA (Netezza)、Oracle、PostgreSQL、Presto、SybaseIQ、Teradata、Vertica。

他のデータ ソースについては、データを抽出するか WINDOW_COVAR を使用することを検討してください。「表計算関数」(新しいウィンドウでリンクが開く)を参照してください。

MAX

構文MAX(expression) または MAX(expr1, expr2)
出力引数と同じデータ型、または引数の一部が Null の場合 NULL 
定義

2 つの引数の最大値を返します (2 つの引数は同じ型でなければなりません)。

MAX は集計として単一フィールドにも適用できます。

MAX(4,7) = 7
MAX(#3/25/1986#, #2/20/2021#) = #2/20/2021#
MAX([Name]) = "Zander"

文字列の場合

MAX は、通常、アルファベット順で最後に来る値です。

データベースのデータ ソースでは、MAX の文字列値は、その列でデータベースが定義しているソート順が最も高い値です。

日付の場合

日付の場合、MAX は最新の日付です。MAX が集計の場合、結果には日付の階層がありません。MAX が比較の場合、結果には日付の階層が保持されます。

集計として

MAX(expression) は集計関数であり、集計された単一の結果を返します。Viz では AGG(expression) と表示されます。

比較として

MAX(expr1, expr2) は 2 つの値を比較し、行レベルの値を返します。

MIN も参照してください。

MEDIAN

構文MEDIAN(expression)
定義式のすべてのレコードの中から中央値を返します。Null 値は無視されます。
MEDIAN は数値フィールドでのみ使用できます。
データベースの制限

MEDIAN は次のデータ ソースでは使用できません。Access、Amazon Redshift、Cloudera Hadoop、HP Vertica、IBM DB2、IBM PDA (Netezza)、Microsoft SQL Server、MySQL、SAP HANA、Teradata。

他のデータ ソース タイプの場合は、この関数を使用してデータを抽出ファイルに抽出できます。「データの抽出」(新しいウィンドウでリンクが開く)を参照してください。

MIN

構文MIN(expression) または MIN(expr1, expr2)
出力引数と同じデータ型、または引数の一部が Null の場合 NULL 
定義

2 つの引数の最小値を返します (2 つの引数は同じ型でなければなりません)。

MIN は集計として単一フィールドにも適用できます。

MIN(4,7) = 4
MIN(#3/25/1986#, #2/20/2021#) = #3/25/1986#
MIN([Name]) = "Abebi"

文字列の場合

MIN は、通常、アルファベット順で最初に来る値です。

データベースのデータ ソースでは、MIN の文字列値は、その列でデータベースが定義しているソート順が最も低い値です。

日付の場合

日付の場合、MIN は最も早い日付です。MIN が集計の場合、結果には日付の階層がありません。MIN が比較の場合、結果には日付の階層が保持されます。

集計として

MIN(expression) は集計関数であり、集計された単一の結果を返します。Viz では AGG(expression) と表示されます。

比較として

MIN(expr1, expr2) は 2 つの値を比較し、行レベルの値を返します。

MAX も参照してください。

PERCENTILE

構文PERCENTILE(expression, number)
定義指定された <number> に対する指定された式の百分位値を返します。<number> は 0 と 1 の間 (0 と 1 を包む) の数値定数である必要があります。
PERCENTILE([Score], 0.9)
データベースの制限

この関数は次のデータ ソースで使用できます。非レガシー Microsoft Excel およびテキスト ファイル接続、抽出および抽出専用のデータ ソース タイプ (Google Analytics、OData、または Salesforce など)、Sybase IQ 15.1 以降のデータ ソース、Oracle 10 以降のデータ ソース、Cloudera Hive および Hortonworks Hadoop Hive データ ソース、EXASolution 4.2 以降のデータ ソース。

他のデータ ソース タイプの場合は、この関数を使用してデータを抽出ファイルに抽出できます。「データの抽出」(新しいウィンドウでリンクが開く)を参照してください。

STDEV

構文STDEV(expression)
定義サンプル母集団に基づいて、指定された式のすべての値の統計的標準偏差を返します。

STDEVP

構文STDEVP(expression)
定義バイアス母集団に基づいて、指定された式のすべての値の統計的標準偏差を返します。

SUM

構文SUM(expression)
定義式内のすべての値の合計を返します。NULL 値は無視されます。
SUM は数値フィールドでのみ使用できます。

VAR

構文VAR(expression)
定義母集団の標本に基づいて、指定された式のすべての値の統計的分散を返します。

VARP

構文VARP(expression)
定義母集団全体について、指定された式のすべての値の統計的変異を返します。

集計計算の作成

次の手順に従って、集計計算の作成方法を学習してください。

  1. Tableau Desktop で、Tableau に付属のサンプル - スーパーストア保存済みデータ ソースに接続します。
  2. ワークシートに移動し、[分析]> [計算フィールドの作成]を選択します。
  3. 開いた計算エディターで、次の操作を実行します。
    • 計算フィールドに "Margin" と名前を付けます。
    • 次の式を入力します。

      IIF(SUM([Sales]) !=0, SUM([Profit])/SUM([Sales]), 0)

      : 関数参照を使って集計関数およびその他の関数 (例:この例の論理 IIF) を見つけて計算式に追加することができます。詳細は、計算エディターで関数参照を使用するを参照してください。

    • 終了したら、[OK] をクリックします。

    新しい集計計算は、[データ] ペインの [メジャー] に表示されます。他のフィールドと同様に、このフィールドを 1 つ以上のビジュアライゼーションで使用できます。

    : 集計計算は常にメジャーです。

    Margin がワークシート内のシェルフまたはカードに配置されると、その名前は、集計計算でありそれ以上集計できないことを示す "AGG(Margin)" に変わります。

    集計計算をシェルフに配置するとどうなるかを示す図。このフィールドには、AGG プレフィックスが表示されます。

集計計算のルール

集計計算に適用される規則は次のとおりです。

  • 集計計算では、集計後の値と集計前の値を組み合わせることはできません。例: SUM(Price)*[Items] は有効な式ではありません。なぜなら、SUM(Price) は集計されますが、Items は集計されないからです。ただし、SUM(Price*Items)SUM(Price)*SUM(Items) は両方とも有効です。
  • 式の中の定数項は、場合に応じて集計値または非集計値として解釈されます。例: SUM(Price*7)SUM(Price)*7 は両方とも有効な式です。
  • すべての関数を集計値に基づいて評価できます。ただし、どの関数の引数にも、集計値のみまたは非集計値のみを指定する必要があります。例: MAX(SUM(Sales),Profit) は有効な式ではありません。なぜなら、Sales (売上) は集計されますが、Profit (収益) は集計されないからです。ただし、「MAX(SUM(Sales),SUM(Profit))」は有効な式です。
  • 集計計算の結果は、常にメジャーです。これには、ATTR(Dimension) や MIN(Dimension) などの式が含まれます。
  • 事前定義済みの集計と同様に、集計計算でも総計が正しく計算されます。詳細については、「総計」を参照してください。

関連項目

計算を理解する: 集計計算(新しいウィンドウでリンクが開く)

Tableau でのデータ集計(新しいウィンドウでリンクが開く)

Tableau で使用する関数

Tableau 関数 (カテゴリ別)(新しいウィンドウでリンクが開く)

Tableau 関数 (アルファベット順)

フィードバックをお送りいただき、ありがとうございます。フィードバックは正常に送信されました。ありがとうございます!