Combiner vos données

La fusion des données est une méthode permettant de combiner des données issues de plusieurs sources. La fusion des données intègre des informations supplémentaires provenant d'une source de données secondaire et les affiche avec les données de la source de données principale directement dans la vue.

Il existe plusieurs façons de combiner des données, chacune présentant ses propres avantages et inconvénients.

Les relations sont la méthode par défaut et peuvent être utilisées dans la plupart des cas, y compris entre des tables de différents niveaux de détail. Les relations sont flexibles et adaptables à la structure de l’analyse sur une base de feuille par feuille. Il n’est par contre pas possible d'établir des relations entre des tables provenant de sources de données publiées sur Tableau Server ou Tableau Online.

Les Jointures combinent des tables en ajoutant davantage de colonnes de données à travers des structures de lignes similaires. Cela peut entraîner une perte de données ou une duplication si les tables sont à différents niveaux de détail. Il faut dans ce cas corriger les sources de données liées avant toute analyse.

Les Fusions, à la différence des relations ou des jointures, ne combinent jamais vraiment les données. Au lieu de cela, les fusions interrogent chaque source de données indépendamment, les résultats sont agrégés au niveau approprié, puis les résultats sont présentés visuellement ensemble dans la vue. Pour cette raison, les fusions peuvent gérer différents niveaux de détail et fonctionnent avec les sources de données publiées. Les fusions sont également établies individuellement sur chaque feuille et ne peuvent jamais être publiées, car il n’y a pas de véritable « source de données fusionnée », simplement des résultats combinés de plusieurs sources de données dans une visualisation.

La fusion des données est particulièrement utile lorsque la relation de fusion (les champs de liaison) doit varier sur une base de feuille par feuille, ou lorsqu’elle combine des sources de données publiées.

Important : avant la version 2020.2, la fusion des données était souvent le meilleur moyen de traiter les sources de données à différents niveaux de détail. Celles-ci peuvent maintenant être combinées avec des relations. Les relations connaissent moins de limitations techniques que la fusion des données et sont le moyen recommandé de combiner les données lorsque cela est possible. La fusion n'est encouragée que lorsqu'elle est la meilleure méthode pour vos données ou que les relations ne sont pas disponibles.

Procédure de fusion des données

La fusion des données est effectuée feuille par feuille et est établie lorsqu'un champ issu d'une seconde source de données est utilisé dans la vue. Pour créer une fusion dans un classeur déjà connecté à deux sources de données au moins, transférez un champ d'une source de données dans la feuille - il devient la source de données principale. Passez à l'autre source de données et utilisez un champ dans la même feuille - il devient une source de données secondaire. Une icône de liaison orange apparaîtra dans le volet Données, indiquant le(s) champ(s) utilisé(s) pour combiner les sources de données.

GIF d'une combinaison de données de base

Remarque : les images de cette rubrique n’ont pas été mises à jour pour refléter l’interface utilisateur la plus récente. Le volet Données n'affiche plus les dimensions et les mesures sous forme d’étiquettes.

  1. Assurez-vous que le classeur comporte plusieurs sources de données. Vous devez ajouter la seconde source de données en accédant à Données > Nouvelle source de données.

    Conseil : l'ajout d’une autre connexion à la première source de données active les relations et les jointures dans le volet Source de données. La fusion nécessite au minimum deux sources de données distinctes, listées indépendamment dans le volet Données.

  2. Faites glisser un champ vers la vue. Quelle que soit la source de données d'où provient ce premier champ, elle deviendra la source de données principale.
  3. Passez à une autre source de données et assurez-vous qu'il existe une relation de fusion avec la source de données principale.
    • Si vous voyez une icône de champ de liaison orange (), les sources de données sont automatiquement liées. Tant qu'il y a au moins un lien actif, les données peuvent être combinées.
    • Si vous voyez des icônes de lien brisé grises (), cliquez sur l'icône à côté du champ qui devrait relier les deux sources de données. Elle deviendra orange, représentant un lien actif.
    • Si une icône de lien n'apparaît pas à côté du champ souhaité, consultez Définir les relations de fusion pour la fusion.
  4. Faites glisser un champ dans la vue depuis la source de données secondaire.

Dès que cette deuxième source de données est utilisée dans la même vue, une fusion est établie. Dans l'exemple ci-dessous, notre source de données principale est Sales Targets (Cibles de ventes) et la source de données secondaire est Sample - Superstore.

  • La source de données principale est indiquée par une coche bleue sur la source de données. Les champs de la source de données principale utilisée dans la vue n'affichent aucune indication.
  • La source de données secondaire est indiquée par une coche orange sur la source de données et une barre orange sur le côté du volet Données. Les champs de la source de données secondaire utilisée dans la vue ont une coche orange.

Comprendre les sources de données principale et secondaire

La fusion des données exige une source de données principale et au moins une source de données secondaire. La première source de données utilisée dans la vue devient la source de données principale et définit la vue, ce qui peut limiter les valeurs provenant de la source de données secondaire : seules les valeurs qui ont des correspondances dans la source de données principale apparaissent dans la vue. On peut comparer ce cas à une jointure gauche.

Par exemple, si la source de données principale a un champ Mois qui ne contient que les mois d'avril, mai et juin, toute vue construite autour de mois n'affichera que les mois d'avril, mai et juin, même si la source de données secondaire comporte des valeurs pour douze mois. Si l'analyse souhaitée porte sur les douze mois, essayez de changer la source de données principale en reconstruisant la feuille et en utilisant d'abord l'autre source de données.

En savoir plus : Effets de l'ordre des sources de données

Les exemples suivants ci-dessous utilisent les mêmes sources de données liées sur le même champ, et la visualisation est créée de la même manière dans les deux cas. La différence entre les résultats est due à la source de données désignée comme source principale.

  1. Ici, le champ Month (Mois) de la source de données Rainfall (Pluviométrie) est affiché en premier. Étant donné que le champ Rainfall ne contient que trois mois, lorsque l'ensemble de données Pollen est ajouté à titre de source secondaire, seuls trois mois sont pris en compte dans la vue.
  2. Capture d'écran de produit dans une visualisation affichant trois mois
  3. Sur une autre feuille, le champ Month de l'ensemble de données Pollen est affiché en premier. Tous les douze mois sont affichés. Lorsque l'ensemble de données Rainfall est ajouté à titre de source secondaire, le champ Rainfall n'est disponible que pour les trois mois de cet ensemble de données.
  4. Capture d'écran de produit dans une visualisation affichant douze mois

Travailler avec plusieurs sources de données combinées

En raison de la nature de la fusion des données, vous devez garder à l'esprit certains points lorsque vous travaillez avec plusieurs sources de données combinées.

Effectuer des calculs avec des champs provenant de plus d'une source de données peut être légèrement différent d'un calcul ordinaire. Un calcul doit être créé dans une source de données ; ceci est indiqué en haut de l'éditeur de calcul.

  • Agrégation. Tous les champs utilisés à partir d'une autre source de données sont agrégés, par défaut avec SUM, mais une autre fonction est également possible. Étant donné que les calculs ne peuvent pas combiner des arguments agrégés et non agrégés, les champs de la source de données où le calcul est effectué doivent également être agrégés. (Dans les images ci-dessous, l'agrégation SUM a été ajoutée automatiquement et l'agrégation somme a été ajoutée manuellement.)
  • Notation objet. Tout champ référencé dans un calcul appartenant à une autre source de données fera référence à sa source de données en utilisant la notation objet. (Dans les images ci-dessous, pour le calcul créé dans Sample - Superstore, le champ Sales Target (Objectif de ventes) devient [Sales.Targets].[Sales Target]. Lorsque le calcul est créé dans Sales Targets, le champ Sales devient [Sample - Superstore].[Sales].)
  • Ce sont des versions équivalentes du même calcul intégré dans chaque source de données. Dans les deux cas, il s'agit de SUM(Sales) / SUM(Sales Target).

En plus de traiter les calculs un peu différemment, les sources de données secondaires comportent certaines limites. Il se peut que vous ne puissiez pas trier par champ issu d'une source de données secondaire et que les filtres d'action ne fonctionnent pas comme prévu avec les données combinées. Pour plus d'informations, voir Autres problèmes liés à la fusion des données.

Définir les relations de fusion pour la fusion

Pour que le Tableau sache comment combiner les données provenant de sources multiples, il doit y avoir une ou plusieurs dimensions communes entre les sources de données. Cette dimension commune est appelée champ de liaison. Les champs de liaison actifs sont identifiés dans le volet Données de la source de données secondaire par une icône de lien actif () et les champs de liaison potentiels sont identifiés par une icône de lien cassé ().

Par exemple, dans une fusion de données transactionnelles et de données de quotas, un champ géographique peut être le champ de liaison souhaité pour que vous puissiez analyser le quota et les performances d'une région par rapport à ce quota.

Remarque : pour que la fusion fonctionne, les champs de liaison doivent également partager des valeurs ou des membres. Tableau crée la vue des données combinées sur la base des valeurs partagées. Par exemple, si Couleur est le champ de liaison dans les deux sources de données, Tableau fera correspondre les données sur « Violet » de la source principale et « Violet » de la source secondaire. Mais « Bleu cl. » ne correspondra pas correctement à « Bleu clair », donc l'un d'eux devra être ré-aliasé. Tout comme vous pouvez renommer les champs pour aider Tableau à identifier les champs de liaison, vous pouvez modifier les alias des membres dans ces champs. Pour plus d'informations, consultez Créer des alias pour renommer des membres de la vue.

Établir un lien

Si un champ de liaison dans les sources de données principale et secondaires porte le même nom, Tableau crée automatiquement la relation. Lorsqu'une source de données principale a été établie (c'est-à-dire qu'un champ est utilisé dans la vue) et que la source de données secondaire est sélectionnée dans le volet Données, tout champ portant le même nom entre les deux sources de données affiche une icône de lien ( ou ) dans la source de données secondaire. Si le champ correspondant de la source de données principale est utilisé dans la vue, le lien devient automatiquement actif.

S'il n'y a pas d'icônes de lien sur la source de données secondaire, vous devrez peut-être aider Tableau à établir le lien de l'une des deux façons suivantes : 

  1. Si les dimensions communes n'ont pas le même nom (comme « Région » et « Région de vente »), renommer l'une d'elles permettra à Tableau de les identifier comme dimensions communes et d'établir le lien.

  2. Vous pouvez également définir manuellement une relation entre les champs des sources de données principale et secondaires. Voir ci-dessous pour plus d'informations sur la création d'une relation de lien manuelle

Il peut y avoir autant de champs de liaison actifs ou potentiels que nécessaire. Cliquez sur l'icône de lien cassé () dans le volet Données pour activer la liaison.

Définir manuellement une relation de lien

Si vos dimensions communes ne portent pas le même nom, vous pouvez définir la relation entre elles manuellement.

  1. Sélectionnez Données > Modifier les relations de fusion....

  2. Dans la boîte de dialogue Relations de fusion, vérifiez que la source de données principale est sélectionnée dans la liste déroulante Source de données principale.

  3. Sélectionnez la source de données secondaire dans le volet Source de données secondaire. Toutes les relations automatiques existantes seront visibles. Sélectionnez Personnalisé dans la liste des relations, puis cliquez sur Ajouter.

  4. Dans la boîte de dialogue Ajouter/modifier le mappage des champs, procédez comme suit :

    1. Sélectionnez un champ dans la source de données principale.

    2. Sélectionnez un champ dans la source de données secondaire pour établir le champ de liaison ou la relation de fusion entre les sources de données, même si les champs ne portent pas le même nom.

    3. Cliquez sur OK.

      Dans cet exemple, un mappage entre Segment et Cust Segment est créé.

      Interface utilisateur du produit pour la boîte de dialogue Ajouter/modifier des relations

      Astuce : Pour les dates, la relation peut être spécifiée avec précision. Développez le champ Date et sélectionnez l'aspect souhaité de la date, comme la date exacte, le mois, l'année, etc.

  5. Créez autant de relations de mappage de champs que souhaité, puis cliquez sur OK.

Liens multiples

Comme pour les jointures, il peut arriver que les liens entre les sources de données soient définis par plus d'un champ. Par exemple, si les quotas de ventes régionales sont mensuels, il faut établir un fusion entre les données de ventes transactionnelles et les données de quotas à la fois par région et par mois pour que les données correctes soient rassemblées dans la vue. Plusieurs liens peuvent être actifs en même temps.

En savoir plus : Impact des champs de liaison multiples

Lorsque les données sont combinées sur la base de plusieurs champs, les valeurs sont incluses dans la vue uniquement lorsque la combinaison des données de ces champs correspond dans les deux ensembles de données. Examinons un exemple pour comprendre ce point.

Prenons deux tables, l'une pour les oiseaux qui ont été réellement observés par des observateurs d'oiseaux, et l'autre pour les oiseaux qui ont été signalés comme ayant été observés.

et

Si nous configurons une vue combinée avec les champs Observateurs d'oiseaux et Nombre d'oiseaux dans la source de données principale (Oiseaux vus) et intégrons le champ Nombre de signalements de la source de données secondaire (Oiseaux signalés), Tableau combine automatiquement sur Observateur d'oiseaux.

Remarque : les images de cette rubrique n’ont pas été mises à jour pour refléter l’interface utilisateur la plus récente. Le volet Données n'affiche plus les dimensions et les mesures sous forme d’étiquettes.

Nous constatons que l'observateur d'oiseaux A a vu 3 oiseaux et a fait deux rapports, que B a vu 4 oiseaux et a fait un rapport, et que C a vu 8 oiseaux et a fait deux rapports.

Mais il y a un autre champ de liaison possible, Espèces vues. Pourquoi ne pas combiner sur la base de ce champ également ? Cela fera-t-il une différence ? 

Cela fait une différence considérable ! Nous constatons maintenant qu'il n'y a qu'un seul rapport pour les observateurs d'oiseaux A et C, et que B a une valeur null. Que se passe-t-il ? 

Il s'avère que ces observateurs d'oiseaux ne sont pas très honnêtes. Lorsque leurs observations consistaient en une simple entrée de journal (barres bleues dans l'image ci-dessus), les espèces qu'ils ont déclaré avoir vues ne correspondaient pas à ce qu'ils avaient réellement vu (notez les valeurs null dans la deuxième colonne, pour Oiseaux vus dans la source de données secondaire). Lorsqu'ils ont complété le rapport avec une photographie (barres orange), ils ont été honnêtes (les deux colonnes des Espèces vues correspondent). Comme trois rapports ne correspondaient pas sur les espèces, ces lignes de données ont été supprimées lorsque les champs Observateur d'oiseaux et Espèces vues ont été utilisés comme champ de liaison. La vue affiche uniquement les données pour lesquelles les valeurs des deux champs de liaison correspondent.

Soyez prudent lorsque vous créez des liens sur plusieurs champs. Bien qu'il soit très facile de cliquer sur l'icône et d'établir un lien actif, un surlien ou un lien sur des champs non désirés peut avoir un impact important sur l'analyse.

Différences entre jointures et fusion des données

La fusion des données simule une jointure gauche traditionnelle. La principale différence entre les deux opérations concerne l'exécution de l'agrégation. Une jointure combine les données puis les agrège. Une fusion agrège les données puis les combine.

Jointure gauche

Lorsque vous utilisez une jointure gauche pour combiner des données, une requête est envoyée à la base de données où la jointure est exécutée. Une jointure gauche renvoie toutes les lignes de la table de gauche et toutes les lignes correspondantes de la table de droite. Les résultats de la jointure sont ensuite renvoyés et agrégés par Tableau, puis affichés dans la visualisation.

Une jointure gauche prend toutes les lignes de la table de gauche. Les colonnes communes sont User ID et Patron ID. Lorsqu'il y a des informations correspondantes dans la table de droite, les données sont renvoyées. Sinon, un zéro s'affiche.

 

Supposons que vous ayez les mêmes tables, mais que vous inversiez l'ordre. Cette nouvelle jointure gauche donne des résultats différents. Encore une fois, une jointure gauche prend toutes les données de la nouvelle table de gauche, mais ignore essentiellement une ligne de la table de droite. La ligne de données pour User ID = 4 n'est pas incluse parce qu'il n'y a pas de ligne pour Patron ID = 4 dans la table de gauche.

Fusion des données

Lorsque vous utilisez la fusion des données pour combiner des données, une requête est envoyée à la base de données pour chaque source de données utilisée dans la feuille. Les résultats des requêtes sont renvoyés au Tableau sous forme de données agrégées et présentés ensemble dans la visualisation.

Remarque : l'agrégation des mesures est simple : on peut facilement prendre la somme, la moyenne, le maximum ou toute autre agrégation d'un nombre. Les valeurs de mesures sont agrégées suivant la manière dont le champ est agrégé dans la vue. Toutefois, tous les champs d'une source de données secondaire doivent être agrégés. Comment cela fonctionne-t-il pour les dimensions ? Les valeurs de dimension sont agrégées à l'aide de la fonction d'agrégation ATTR qui renvoie une seule valeur pour toutes les lignes de la source de données secondaire. En cas de valeurs multiples pour les lignes, un astérisque (*) apparaît. Ceci peut être interprété comme « il y a plusieurs valeurs dans la source de données secondaire pour ce repère dans la vue ».

La vue utilise toutes les lignes de la source de données principale (fonctionnant comme la table de gauche), ainsi que les lignes correspondantes de la source de données secondaire (la table de droite), en fonction des champs de liaison.

Supposons que vous ayez les tables suivantes. Si les champs de liaison sont User ID et Patron ID, toutes les valeurs ne peuvent pas faire partie de la table résultante pour les raisons suivantes :

  • Une ligne de la table de gauche n'a pas de correspondance de ligne dans la table de droite, comme l'indique la valeur null dans les résultats.

  • Les lignes de la table de droite comportent plusieurs valeurs correspondantes, comme l'indique l'astérisque (*) dans les résultats.

Lorsqu'il s'agit de mesures, elles sont également agrégées, comme on peut le voir ci-dessous :

Important : un astérisque (*) dans une vue avec des données combinées indique des valeurs multiples. On peut résoudre ce problème en s'assurant qu'il n'y a qu'une seule valeur correspondante dans la source de données secondaire pour chaque repère dans la source de données principale, éventuellement en échangeant les sources de données principale et secondaire. Pour plus d'informations, consultez Résoudre les problèmes liés à la fusion des données.

Vue d'ensemble de la fusion des données

  • La fusion des données se fait feuille par feuille.
  • L'ordre dans lequel les champs sont utilisés détermine quelle source de données est la source de données principale par rapport à la source de données secondaire.
  • La source de données principale est indiquée par une coche bleue, toutes les sources de données secondaires ainsi que les champs des sources de données secondaires ont une coche orange.
  • Les champs de liaison peuvent être automatiquement déterminés en fonction des noms de champs partagés, ou la relation de fusion peut être créée manuellement.
  • La fusion des données se comporte de la même manière qu'une jointure gauche, ce qui peut entraîner des données manquantes de la source de données secondaire.
  • Des astérisques (*) peuvent apparaître. Ils indiquent des valeurs de dimensions multiples dans un seul repère parce que la fusion des données prend des résultats agrégés et les combine dans la vue.
  • Vous pouvez également utiliser une source de données secondaire pour ré-aliaser les valeurs de champ dans la source de données principale. Pour plus d'informations, consultez Créer des alias de valeurs de champ à l'aide de la fusion des données.

Limitations de la fusion des données

  • Certaines limitations s'appliquent à la fusion des données pour les agrégations non additives, telles que COUNTD, MEDIAN et RAWSQLAGG. Pour plus d'informations, consultez Résoudre les problèmes liés à la fusion des données
  • Les sources de données combinées ne peuvent pas être publiées en tant qu'unité. Au lieu de cela, publiez chaque source de données séparément (sur le même serveur) et combinez ensuite les sources de données publiées.
  • Les données provenant de sources de données secondaires doivent toujours être agrégées dans les calculs.
  • Si vous combinez une source de données de type cube, elle doit être la source de données principale.

Autres articles de cette section

Merci de vos commentaires !