Fonctions d’agrégation dans Tableau

Cet article présente les fonctions d’agrégation et leurs utilisations dans Tableau. Il montre également comment créer un calcul agrégé en utilisant un exemple.

Pourquoi utiliser des fonctions d’agrégation

Les fonctions d’agrégation vous permettent de synthétiser ou de modifier la granularité de vos données.

Par exemple, vous souhaitez peut-être connaître le nombre exact de commandes reçues par votre magasin pour une année donnée. Vous pouvez utiliser la fonction COUNTD pour synthétiser le nombre exact de commandes reçues par votre entreprise, puis décomposer la visualisation par année.

Le calcul peut se présenter ainsi :

COUNTD(Order ID)

Le visualisation peut se présenter ainsi :

Fonctions d’agrégation disponibles dans Tableau

Agrégations et arithmétique à virgule flottante : Certaines agrégations peuvent donner des résultats inattendus. Par exemple, il se peut que la fonction Somme renvoie une valeur telle que -1.42e-14 pour une colonne de nombres dont la somme devrait logiquement être 0. Cela se produit car le standard en virgule flottante 754 de l’IEEE (Institut des Ingénieurs Electroniciens et Electriques) demande que les nombres soient enregistrés dans un format binaire, ce qui signifie qu’ils sont parfois arrondis à des niveaux de précision très fins. Vous pouvez éviter cette distraction potentielle en utilisant la fonction ROUND (reportez-vous à la rubrique Fonctions de nombre) ou en mettant en forme le nombre pour afficher moins de décimales.

ATTR

SyntaxeATTR(expression)
DéfinitionRenvoie la valeur de l’expression si cette valeur est unique pour toutes les lignes. Dans le cas contraire, la valeur renvoyée est Null. Les valeurs nulles sont ignorées.

AVG

SyntaxeAVG(expression)
DéfinitionRenvoie la moyenne de toutes les valeurs de l’expression. Les valeurs nulles sont ignorées.
RemarquesLa valeur AVG peut être utilisée uniquement avec des champs numériques.

COLLECT

SyntaxeCOLLECT(spatial)
DéfinitionUn calcul agrégé combinant les valeurs dans le champ d’argument. Les valeurs nulles sont ignorées.
RemarquesLa valeur COLLECT peut être utilisée uniquement avec des champs de données spatiales.

CORR

SyntaxeCORR(expression1, expression2)
RésultatNombre de -1 à 1
DéfinitionRenvoie le coefficient de corrélation Pearson de deux expressions.
Exemple
example
Remarques

La corrélation Pearson mesure la relation linéaire entre les deux variables. Les résultats vont de -1 à +1 inclus, où 1 dénote une relation linéaire positive exacte, 0 ne dénote aucune relation linéaire entre la variance, et -1 est une relation négative exacte.

Le carré d’un résultat CORR est équivalent à la valeur R au carré pour un modèle de courbe de tendance linéaire. Consultez Termes relatifs aux modèles de courbe de tendance(Le lien s’ouvre dans une nouvelle fenêtre).

Utiliser avec les expressions LOD limitée à une table :

Vous pouvez utiliser CORR pour visualiser la corrélation dans une dispersion désagrégée à l’aide d’une expression de niveau de détail limitée à une table(Le lien s’ouvre dans une nouvelle fenêtre). Par exemple :

{CORR(Sales, Profit)}

Avec une expression de niveau de détail, la corrélation est exécutée sur toutes les lignes. Si vous avez utilisé une formule telle que CORR(Sales, Profit) (sans les parenthèses pour en faire une expression de niveau de détail), la vue devrait montrer la corrélation de chaque point individuel dans le nuage de points avec chaque autre point, qui n’est pas défini.

Limites de la base de données

La valeur CORR est disponible avec les sources de données suivantes : extraits de données Tableau, Cloudera Hive, EXASolution, Firebird (version 3.0 et ultérieure), Google BigQuery, Hortonworks Hadoop Hive, IBM PDA (Netezza), Oracle, PostgreSQL, Presto, SybaseIQ, Teradata, Vertica.

Pour les autres sources de données, vous pouvez envisager d’extraire les données ou d’utiliser WINDOW_CORR. Consultez Fonctions de calcul de table(Le lien s’ouvre dans une nouvelle fenêtre).

COUNT

SyntaxeCOUNT(expression)
DéfinitionRenvoie le nombre d’éléments. Les valeurs nulles sont ignorées.

COUNTD

SyntaxeCOUNTD(expression)
DéfinitionRenvoie le nombre d’éléments distincts d’un groupe. Les valeurs nulles sont ignorées.

COVAR

SyntaxeCOVAR(expression1, expression2)
DéfinitionRenvoie la covariance d’échantillon de deux expressions.
Remarques

La covariance quantifie dans quelle mesure les deux variables changent ensemble. Une covariance positive indique que les variables tendent à évoluer dans la même direction, comme lorsque des valeurs plus importantes d’une variable tendent à correspondre à des valeurs plus importantes de l’autre variable, en moyenne. La covariance d’échantillon utilise le nombre de points de données non nulles n - 1 pour normaliser le calcul de la covariance, plutôt que n, qui est utilisé par la covariance de population (disponible avec la fonction COVARP). La covariance d’échantillon est le choix approprié lorsque les données sont un échantillon aléatoire utilisé pour estimer la covariance pour une population plus importante.

Si l’<expression1> et l’<expression2> sont identiques, par exemple COVAR([profit], [profit]), COVAR renvoie une valeur qui indique dans quelles proportions les valeurs sont distribuées.

La valeur de COVAR(X, X) est équivalente à la valeur de VAR(X) et également à la valeur de STDEV(X)^2.

Limites de la base de données

La valeur COVAR est disponible avec les sources de données suivantes : extraits de données Tableau, Cloudera Hive, EXASolution, Firebird (version 3.0 et ultérieure), Google BigQuery, Hortonworks Hadoop Hive, IBM PDA (Netezza), Oracle, PostgreSQL, Presto, SybaseIQ, Teradata, Vertica.

Pour les autres sources de données, vous pouvez envisager d’extraire les données ou d’utiliser WINDOW_COVAR. Consultez Fonctions de calcul de table(Le lien s’ouvre dans une nouvelle fenêtre).

COVARP

SyntaxeCOVARP(expression 1, expression2)
DéfinitionRenvoie la covariance de population de deux expressions.
Remarques

La covariance quantifie dans quelle mesure les deux variables changent ensemble. Une covariance positive indique que les variables tendent à évoluer dans la même direction, comme lorsque des valeurs plus importantes d’une variable tendent à correspondre à des valeurs plus importantes de l’autre variable, en moyenne. La covariance de population est une covariance d’échantillon multipliée par (n-1)/n, où n est le nombre total de points de données non null. La covariance de population est le choix approprié dans les cas où des données sont disponibles pour tous les points d’intérêt par opposition aux cas où il n’existe qu’un sous-ensemble aléatoire d’éléments, dans quel cas la covariance d’échantillon (avec la fonction COVAR) est appropriée.

Si l’<expression1> et l’<expression2> sont identiques, par exemple COVARP([profit], [profit]), COVARP renvoie une valeur qui indique dans quelles proportions les valeurs sont distribuées. Remarque : La valeur de COVARP(X, X) est équivalente à la valeur de VARP(X) et également à la valeur de STDEVP(X)^2.

Limites de la base de données

La valeur COVARP est disponible avec les sources de données suivantes : extraits de données Tableau, Cloudera Hive, EXASolution, Firebird (version 3.0 et ultérieure), Google BigQuery, Hortonworks Hadoop Hive, IBM PDA (Netezza), Oracle, PostgreSQL, Presto, SybaseIQ, Teradata, Vertica

Pour les autres sources de données, vous pouvez envisager d’extraire les données ou d’utiliser WINDOW_COVAR. Consultez Fonctions de calcul de table(Le lien s’ouvre dans une nouvelle fenêtre).

MAX

SyntaxeMAX(expression) ou MAX(expr1, expr2)
RésultatMême type de données que l’argument, ou NULL  si une partie de l’argument est une valeur nulle.
Définition

Renvoie la valeur maximum des deux arguments, qui doivent être du même type de données.

MAX peut également être appliqué à un seul champ dans une agrégation.

Exemple
MAX(4,7) = 7
MAX(#3/25/1986#, #2/20/2021#) = #2/20/2021#
MAX([Name]) = "Zander"
Remarques

Pour les chaînes

La valeur MAX vient généralement en dernier dans l’ordre alphabétique.

Pour les sources de données de la base de données, la valeur de chaîne MAX est la plus élevée dans la séquence de tri définie par la base de données pour cette colonne.

Pour les dates

Pour les dates, la valeur MAX est la date la plus récente. Si MAX est une agrégation, le résultat n’aura pas de hiérarchie de dates. Si MAX est une comparaison, le résultat conservera la hiérarchie de dates.

Comme agrégation

MAX(expression) est une fonction d’agrégation et renvoie un seul résultat agrégé. Cette fonction s’affiche en tant que AGG(expression) dans la visualisation.

Comme comparaison

MAX(expr1, expr2) compare les deux valeurs et renvoie une valeur de niveau ligne.

Voir aussi MIN.

MEDIAN

SyntaxeMEDIAN(expression)
DéfinitionRenvoie la valeur médiane d’une expression dans tous les enregistrements. Les valeurs nulles sont ignorées.
RemarquesLa valeur MEDIAN peut être utilisée uniquement avec des champs numériques.
Limites de la base de données

MEDIAN n’est pas disponible pour les sources de données suivantes : Access, Amazon Redshift, Cloudera Hadoop, HP Vertica, IBM DB2, IBM PDA (Netezza), Microsoft SQL Server, MySQL, SAP HANA, Teradata.

Pour d’autres types de sources de données, vous pouvez extraire vos données dans un fichier d’extrait pour utiliser cette fonction. Consultez Extraire vos données(Le lien s’ouvre dans une nouvelle fenêtre).

MIN

SyntaxeMIN(expression) ou MIN(expr1, expr2)
RésultatMême type de données que l’argument, ou NULL  si une partie de l’argument est une valeur nulle.
Définition

Renvoie la valeur minimale des deux arguments, qui doivent être du même type de données.

MIN peut également être appliqué à un seul champ dans une agrégation.

Exemple
MIN(4,7) = 4
MIN(#3/25/1986#, #2/20/2021#) = #3/25/1986#
MIN([Name]) = "Abebi"
Remarques

Pour les chaînes

La valeur MIN vient généralement en premier dans l’ordre alphabétique.

Pour les sources de données de la base de données, la valeur de chaîne MIN est la plus basse dans la séquence de tri définie par la base de données pour cette colonne.

Pour les dates

Pour les dates, la valeur MIN est la date la plus proche. Si MIN est une agrégation, le résultat n’aura pas de hiérarchie de dates. Si MIN est une comparaison, le résultat conservera la hiérarchie de dates.

Comme agrégation

MIN(expression) est une fonction d’agrégation et renvoie un seul résultat agrégé. Cette fonction s’affiche en tant que AGG(expression) dans la visualisation.

Comme comparaison

MIN(expr1, expr2) compare les deux valeurs et renvoie une valeur de niveau ligne.

Voir aussi MAX.

PERCENTILE

SyntaxePERCENTILE(expression, number)
DéfinitionRenvoie la valeur du centile pour l’expression donnée correspondant au <number> indiqué. La valeur <number> doit être comprise entre 0 et 1 (inclus) et doit être une constante numérique.
Exemple
PERCENTILE([Score], 0.9)
Remarques 
Limites de la base de données

Cette fonction est disponible pour les sources de données suivantes : connexions Microsoft Excel et fichier texte récentes, extraits et les types de sources de données d’extraits uniquement (par exemple, Google Analytics, Protocole de données ouvertes ou Salesforce), Sybase IQ 15.1 et sources de données ultérieures, Oracle 10 et sources de données ultérieures, sources de données Cloudera Hive et Hortonworks Hadoop Hive, EXASolution 4.2 et sources de données ultérieures.

Pour d’autres types de sources de données, vous pouvez extraire vos données dans un fichier d’extrait pour utiliser cette fonction. Consultez Extraire vos données(Le lien s’ouvre dans une nouvelle fenêtre).

STDEV

SyntaxeSTDEV(expression)
DéfinitionRenvoie l’écart-type statistique de toutes les valeurs dans l’expression donnée en fonction d’un échantillon de population.

STDEVP

SyntaxeSTDEVP(expression)
DéfinitionRenvoie l’écart-type statistique de toutes les valeurs dans l’expression donnée en fonction d’une population biaisée.

SUM

SyntaxeSUM(expression)
DéfinitionRenvoie la somme de toutes les valeurs de l’expression. Les valeurs nulles sont ignorées.
RemarquesLa valeur SUM peut être utilisée uniquement avec des champs numériques.

VAR

SyntaxeVAR(expression)
DéfinitionRenvoie la variance statistique de toutes les valeurs dans l’expression donnée en fonction d’un échantillon de population.

VARP

SyntaxeVARP(expression)
DéfinitionRenvoie la variance statistique de toutes les valeurs dans l’expression donnée de la totalité de la population.

Créer un calcul agrégé

Suivez les étapes ci-dessous pour apprendre à créer un calcul agrégé.

  1. Dans Tableau Desktop, connectez-vous à la source de données enregistrée Exemple - Hypermarché qui est fournie avec Tableau.

  2. Accédez à une feuille de calcul et sélectionnez Analyse > Créer un champ calculé.

  3. Dans l’éditeur de calcul qui s’ouvre, procédez comme suit :

    • Nommez le champ calculé Marge.

    • Entrez la formule suivante :

      IIF(SUM([Sales]) !=0, SUM([Profit])/SUM([Sales]), 0)

      Remarque : vous pouvez utiliser la référence des fonctions pour trouver et ajouter des fonctions d’agrégation et autres fonctions (par exemple la fonction IIF logique dans cet exemple) à la formule de calcul. Pour plus d’informations, consultez Utiliser la référence de fonctions dans l’éditeur de calcul.

    • Lorsque vous avez terminé, cliquez sur OK.

    Le nouveau calcul agrégé apparaît sous Mesures dans le volet Données. Comme vos autres champs, vous pouvez l’utiliser dans une ou plusieurs visualisations.

    Remarque : les calculs agrégés sont toujours des mesures.

    Lorsque Marge est placé sur une étagère ou une fiche dans la feuille de calcul, son nom est remplacé par AGG(Marge), ce qui indique qu’il s’agit d’un calcul agrégé et ne peut pas être agrégé davantage.

    Graphique illustrant ce qui se passe lorsque vous placez une agrégation sur une étagère. Le champ affiche le préfixe AGG.

Règles pour les calculs agrégés

Les règles qui s’appliquent aux calculs agrégés sont les suivantes :

  • Pour tout calcul agrégé, il est impossible de combiner une valeur agrégée avec une valeur désagrégée. Par exemple, SOMME(Prix)*[Articles] n’est pas une expression valide parce que SOMME(Prix) est agrégé, mais pas Articles. Par contre, les expressions SOMME(Prix*Articles) et SOMME(Prix)*SOMME(Articles) sont toutes deux valides.

  • Les constantes dans une expression font office de valeurs agrégées ou désagrégées, selon le cas. Par exemple : SOMME(Prix*7) et SOMME(Prix)*7 sont toutes deux des expressions valides.

  • Toutes les fonctions peuvent être évaluées sur des valeurs agrégées. Cependant, les arguments d’une fonction donnée doivent tous être agrégés ou désagrégés. Par exemple, MAX(SUM(Ventes),Profit) n’est pas une expression valide parce que Ventes est agrégé, mais pas Profit. Par contre, MAX(SOMME(Ventes),SOMME(Profit)) est une expression valide.

  • Le résultat d’un calcul agrégé est toujours une mesure.

  • Comme les agrégations prédéfinies, les calculs agrégés sont calculés correctement pour les totaux généraux. Pour plus d’informations, consultez la section Totaux généraux.

Voir également

Comprendre les calculs : Calculs agrégés(Le lien s’ouvre dans une nouvelle fenêtre)

Agrégation de données dans Tableau(Le lien s’ouvre dans une nouvelle fenêtre)

Fonctions dans Tableau

Fonctions de Tableau (par catégorie)(Le lien s’ouvre dans une nouvelle fenêtre)

Fonctions de Tableau (par ordre alphabétique)

Merci de vos commentaires!Votre commentaire s été envoyé avec succès. Merci!