Combiner vos données

La fusion des données est une méthode permettant de combiner des données issues de plusieurs sources. La fusion des données intègre des informations supplémentaires provenant d’une source de données secondaire et les affiche avec les données de la source de données principale directement dans la vue.

La fusion des données est particulièrement utile lorsque la relation de fusion (les champs de liaison) doit varier sur une base de feuille par feuille, ou lorsqu’elle combine des sources de données publiées.

Options pour combiner les données

Il existe plusieurs façons de combiner des données, chacune présentant ses propres avantages et inconvénients.

Les relations sont la méthode par défaut et peuvent être utilisées dans la plupart des cas, y compris entre des tables de différents niveaux de détail. Les relations sont flexibles et s’adaptent à la structure de l’analyse, feuille par feuille. Cependant, vous ne pouvez pas créer de relations entre des tables à partir de sources de données publiées.

Les Jointures combinent des tables en ajoutant davantage de colonnes de données à travers des structures de lignes similaires. Cela peut entraîner une perte de données ou des doublons si les tables sont à des niveaux de détail différents, et les jointures doivent être établies avant de pouvoir commencer l’analyse. Vous ne pouvez pas utiliser une source de données publiée dans une jointure.

Les Fusions, à la différence des relations ou des jointures, ne combinent jamais les données directement. Au lieu de cela, les fusions interrogent chaque source de données indépendamment, agrègent les résultats au niveau approprié, puis présentent les résultats ensemble visuellement dans la vue. Pour cette raison, les fusions peuvent traiter différents niveaux de détail et fonctionner également avec des sources de données publiées. Les fusions ne créent pas une nouvelle source de données mixte (et ne peuvent donc pas être publiées en tant que « source de données mixte »). Au lieu de cela, ce sont simplement des résultats fusionnés visualisés par feuille.

Procédure de fusion des données

La fusion des données est effectuée feuille par feuille et est établie lorsqu’un champ issu d’une seconde source de données est utilisé dans la vue.

Pour créer une fusion dans un classeur, vous devez vous connecter à au moins deux sources de données. Ensuite, importez un champ d’une source de données dans la feuille : il devient la source de données principale. Passez à l’autre source de données et utilisez un champ dans la même feuille - il devient une source de données secondaire. Une icône de liaison apparaîtra dans le volet Données, indiquant le(s) champ(s) utilisé(s) pour combiner les sources de données.

  1. Assurez-vous que le classeur comporte plusieurs sources de données. Vous devez ajouter la seconde source de données en accédant à Données > Nouvelle source de données.

    Conseil : la fusion nécessite au minimum deux sources de données distinctes, listées indépendamment dans le volet Données. L’ajout d’une autre connexion à la première source de données active les relations et les jointures dans la page Source de données.

  2. Faites glisser un champ vers la vue. Cette source de données sera la source de données principale.
  3. Passez à une autre source de données et vérifiez s’il existe une relation de fusion avec la source de données principale.
    • Si vous voyez une icône de champ de liaison (), les sources de données sont automatiquement liées. Tant qu’il y a au moins un lien actif, les données peuvent être combinées.
    • Si vous voyez des icônes de lien brisé () sur l’icône à côté du champ qui devrait relier les deux sources de données. La barre oblique disparaîtra, représentant un lien actif.
    • Si une icône de lien n’apparaît pas à côté du champ souhaité, consultez Définir les relations de fusion pour la fusion.
  4. Faites glisser un champ dans la vue depuis la source de données secondaire.

Dès que cette deuxième source de données est utilisée dans la même vue, une fusion est établie. Dans l’exemple ci-dessous, notre source de données principale est Movie Adaptations et la source de données secondiare est Bookshop.

  • La source de données principale est indiquée par une coche bleue sur la source de données. Les champs de la source de données principale utilisée dans la vue n’affichent aucune indication.
  • La source de données secondaire est indiquée par une coche orange sur la source de données et une barre orange sur le côté du volet Données. Les champs de la source de données secondaire utilisée dans la vue ont une coche orange.

Comprendre les sources de données principale et secondaire

La fusion des données exige une source de données principale et au moins une source de données secondaire. La première source de données utilisée dans la vue devient la source de données principale et définit la vue, ce qui peut limiter les valeurs provenant de la source de données secondaire : seules les valeurs qui ont des correspondances dans la source de données principale apparaissent dans la vue. On peut comparer ce cas à une jointure gauche.

Par exemple, si la source de données principale a un champ Mois qui ne contient que les mois d’avril, mai et juin, toute vue construite autour de mois n’affichera que les mois d’avril, mai et juin, même si la source de données secondaire comporte des valeurs pour douze mois. Si l’analyse souhaitée porte sur les douze mois, essayez de changer la source de données principale en reconstruisant la feuille et en utilisant d’abord l’autre source de données.

En savoir plus : Effets de l’ordre des sources de données

Les exemples suivants ci-dessous utilisent les mêmes sources de données liées sur le même champ, et la visualisation est créée de la même manière dans les deux cas. La différence entre les résultats est due à la source de données désignée comme source principale.

  1. Ici, le champ Month (Mois) de la source de données Rainfall (Pluviométrie) est affiché en premier. Étant donné que le champ Rainfall ne contient que trois mois, lorsque l’ensemble de données Pollen est ajouté à titre de source secondaire, seuls trois mois sont pris en compte dans la vue.
  2. Capture d’écran de produit dans une visualisation affichant trois mois
  3. Sur une autre feuille, le champ Month de l’ensemble de données Pollen est affiché en premier. Tous les douze mois sont affichés. Lorsque l’ensemble de données Rainfall est ajouté à titre de source secondaire, le champ Rainfall n’est disponible que pour les trois mois de cet ensemble de données.
  4. Capture d’écran de produit dans une visualisation affichant douze mois

Travailler avec plusieurs sources de données combinées

En raison de la nature de la fusion des données, vous devez garder à l’esprit certains points lorsque vous travaillez avec plusieurs sources de données combinées.

Effectuer des calculs avec des champs provenant de plus d’une source de données peut être légèrement différent d’un calcul ordinaire. Un calcul doit être créé dans une seule source de données; la partie supérieure de l’éditeur de calcul indique dans quelle source de données se trouve le calcul.

  • Agrégation. Tous les champs utilisés à partir d’une autre source de données sont agrégés, par défaut avec SUM, mais une autre fonction est également possible. Puisque les calculs ne peuvent pas mélanger des arguments agrégés et non agrégés, les champs de la source de données hôte du calcul doivent également être agrégés. (Dans les images ci-dessous, l’agrégation SUM a été ajoutée automatiquement et l’agrégation somme a été ajoutée manuellement.)
  • Notation objet. Tout champ référencé dans un calcul appartenant à une autre source de données se réfère à sa source de données en utilisant la notation objet. (Dans les images ci-dessous, pour le calcul créé dans Exemple - Hypermarché, le champ Sales Target (Objectif de ventes) devient [Sales.Targets].[Sales Target]. Lorsque le calcul est créé dans Sales Targets, le champ Sales devient [Exemple - Hypermarché].[Sales].)
  • Ce sont des versions équivalentes du même calcul intégré dans chaque source de données. Dans les deux cas, il s’agit de SUM(Sales) / SUM(Sales Target).

En plus de traiter les calculs un peu différemment, les sources de données secondaires comportent certaines limites. Il se peut que vous ne puissiez pas trier par champ issu d’une source de données secondaire et que les filtres d’action ne fonctionnent pas comme prévu avec les données combinées. Pour plus d’informations, consultez Autres problèmes liés à la fusion des données.

Définir les relations de fusion pour la fusion

Pour que le Tableau sache comment combiner les données provenant de sources multiples, il doit y avoir une ou plusieurs dimensions communes entre les sources de données. Cette dimension commune est appelée champ de liaison. Les champs de liaison actifs sont identifiés dans le volet Données de la source de données secondaire par une icône de lien actif () et les champs de liaison potentiels sont identifiés par une icône de lien cassé (). Les champs de liaison ne sont pas indiqués sur la source de données principale.

Par exemple, dans une fusion de données transactionnelles et de données de quotas, un champ géographique pourrait être le champ de liaison souhaité afin que vous puissiez analyser à la fois les quotas et les performances par rapport à ces quotas pour la même région.

Remarque : pour que la fusion fonctionne, les champs de liaison doivent également partager des valeurs ou des membres. Tableau crée la vue des données combinées sur la base des valeurs partagées. Par exemple, si Couleur est le champ de liaison dans les deux sources de données, Tableau fera correspondre les données sur « Violet » de la source principale et « Violet » de la source secondaire. Mais « Bleu cl. » ne correspondra pas correctement à « Bleu clair », donc l’un d’eux devra être ré-aliasé. Tout comme vous pouvez renommer les champs pour aider Tableau à identifier les champs de liaison, vous pouvez modifier les alias des membres dans ces champs. Pour plus d’informations, consultez Créer des alias pour renommer des membres de la vue.

Établir un lien

Si un champ de liaison dans les sources de données principale et secondaires porte le même nom, Tableau crée automatiquement la relation. Lorsqu’une source de données principale a été établie (c’est-à-dire qu’un champ est utilisé dans la vue) et que la source de données secondaire est sélectionnée dans le volet Données, tout champ portant le même nom entre les deux sources de données affiche une icône de lien ( ou ) dans la source de données secondaire. Si le champ correspondant de la source de données principale est utilisé dans la vue, le lien devient automatiquement actif.

S’il n’y a pas d’icônes de lien sur la source de données secondaire, vous devrez peut-être aider Tableau à établir le lien de l’une des deux façons suivantes : 

  1. Si les dimensions communes n’ont pas le même nom (comme « Title » et « Book Title »), renommer l’une d’elles permettra à Tableau de les identifier comme dimensions communes et d’établir le lien.

  2. Vous pouvez également définir manuellement une relation entre les champs des sources de données principale et secondaires. Voir ci-dessous pour plus d’informations sur la création d’une relation de lien manuelle

Il peut y avoir autant de champs de liaison actifs ou potentiels que nécessaire. Cliquez sur l’icône de lien cassé () dans le volet Données pour activer la liaison.

Définir manuellement une relation de lien

Si vos dimensions communes ne portent pas le même nom, vous pouvez définir la relation entre elles manuellement.

  1. Sélectionnez Données > Modifier les relations de fusion....

  2. Dans la boîte de dialogue Relations de fusion, vérifiez que la source de données principale est sélectionnée dans la liste déroulante Source de données principale.

  3. Sélectionnez la source de données secondaire dans le volet Source de données secondaire. Toutes les relations de fusion automatiques existantes sont visibles (et peuvent être supprimées en survolant la ligne et en cliquant sur le x). Sélectionnez Personnalisé dans la liste des relations, puis cliquez sur Ajouter.

  4. Dans la boîte de dialogue Ajouter/modifier le mappage des champs, procédez comme suit :

    1. Sélectionnez un champ dans la source de données principale.

    2. Sélectionnez le champ comparable dans la source de données secondaire.

    3. Cliquez sur OK.

      Dans cet exemple, Segment est mappé à Cust Segment.

      Interface utilisateur du produit pour la boîte de dialogue Ajouter/modifier des relations

      Conseil : Pour les dates, la relation peut être spécifiée avec précision. Développez le champ Date et sélectionnez l’aspect souhaité de la date, comme la date exacte, le mois, l’année, etc.

  5. Créez autant de relations de mappage de champs que souhaité, puis cliquez sur OK.

Liens multiples

Comme pour les jointures, il peut arriver que les liens entre les sources de données soient définis par plus d’un champ. Par exemple, si les quotas de ventes régionales sont mensuels, il faut établir un fusion entre les données de ventes transactionnelles et les données de quotas à la fois par région et par mois pour que les données correctes soient rassemblées dans la vue. Plusieurs liens peuvent être actifs en même temps.

En savoir plus : Impact des champs de liaison multiples

Lorsque les données sont combinées sur la base de plusieurs champs, les valeurs sont incluses dans la vue uniquement lorsque la combinaison des données de ces champs correspond dans les deux ensembles de données. Examinons un exemple pour comprendre ce point.

Prenons deux tables, l’une pour les oiseaux qui ont été réellement observés par des observateurs d’oiseaux, et l’autre pour les oiseaux qui ont été signalés comme ayant été observés.

et

Si nous configurons une vue combinée avec les champs Observateurs d’oiseaux et Nombre d’oiseaux dans la source de données principale (Oiseaux vus) et intégrons le champ Nombre de signalements de la source de données secondaire (Oiseaux signalés), Tableau combine automatiquement sur Observateur d’oiseaux.

Nous constatons que l’observateur d’oiseaux A a vu 3 oiseaux et a fait deux rapports, que B a vu 4 oiseaux et a fait un rapport, et que C a vu 8 oiseaux et a fait deux rapports.

Mais il y a un autre champ de liaison possible, Espèces vues. Pourquoi ne pas combiner sur la base de ce champ également? Cela fera-t-il une différence? 

Cela fait une différence considérable! Nous constatons maintenant qu’il n’y a qu’un seul rapport pour les observateurs d’oiseaux A et C, et que B a une valeur nulle. Que se passe-t-il? 

Il s’avère que ces observateurs d’oiseaux ne sont pas très honnêtes. Lorsque leurs observations consistaient en une simple entrée de journal (barres bleues dans l’image ci-dessus), les espèces qu’ils ont déclaré avoir vues ne correspondaient pas à ce qu’ils avaient réellement vu (notez les valeurs nulles dans la deuxième colonne, pour Oiseaux vus dans la source de données secondaire). Lorsqu’ils ont complété le rapport avec une photographie (barres orange), ils ont été honnêtes (les deux colonnes des Espèces vues correspondent).

Comme trois rapports ne correspondaient pas sur les espèces, ces lignes de données ont été abandonnées lorsque Species seen a été utilisée comme champ de liaison. La vue affiche uniquement les données pour lesquelles les valeurs des deux champs de liaison correspondent.

Point essentiel

Soyez prudent lorsque vous créez des liens sur plusieurs champs. Bien qu’il soit très facile de cliquer sur l’icône et d’établir un lien actif, un surlien ou un lien sur des champs non désirés peut avoir un impact important sur l’analyse.

Différences entre jointures et fusion des données

La fusion des données simule une jointure gauche traditionnelle. La principale différence entre les deux opérations concerne l’exécution de l’agrégation. Une jointure combine les données puis les agrège. Une fusion agrège les données puis les combine.

Jointure gauche

Lorsque vous utilisez une jointure gauche pour combiner des données, une requête est envoyée à la base de données où la jointure est exécutée. Une jointure gauche renvoie toutes les lignes de la table de gauche et toutes les lignes correspondantes de la table de droite. Les résultats de la jointure sont ensuite renvoyés et agrégés par Tableau, puis affichés dans la visualisation.

Une jointure gauche prend toutes les lignes de la table de gauche. Les colonnes communes sont User ID et Patron ID. Lorsqu’il y a des informations correspondantes dans la table de droite, les données sont renvoyées. Sinon, un zéro s’affiche.

 

Supposons que vous ayez les mêmes tables, mais que vous inversiez l’ordre. Cette nouvelle jointure gauche donne des résultats différents. Encore une fois, une jointure gauche prend toutes les données de la nouvelle table de gauche, mais ignore essentiellement une ligne de la table de droite. La ligne de données pour User ID = 4 n’est pas incluse parce qu’il n’y a pas de ligne pour Patron ID = 4 dans la table de gauche.

Fusion des données

Lorsque vous utilisez la fusion des données pour combiner des données, une requête est envoyée à la base de données pour chaque source de données utilisée dans la feuille. Les résultats des requêtes sont renvoyés au Tableau sous forme de données agrégées et présentés ensemble dans la visualisation.

Remarque : l’agrégation des mesures est simple : on peut facilement prendre la somme, la moyenne, le maximum ou toute autre agrégation d’un nombre. Les valeurs de mesures sont agrégées suivant la manière dont le champ est agrégé dans la vue. Toutefois, tous les champs d’une source de données secondaire doivent être agrégés. Comment cela fonctionne-t-il pour les dimensions? Les valeurs de dimension sont agrégées à l’aide de la fonction d’agrégation ATTR qui renvoie une seule valeur pour toutes les lignes de la source de données secondaire. En cas de valeurs multiples pour les lignes, un astérisque (*) apparaît. Ceci peut être interprété comme « il y a plusieurs valeurs dans la source de données secondaire pour ce repère dans la vue ».

La vue utilise toutes les lignes de la source de données principale (fonctionnant comme la table de gauche), ainsi que les lignes correspondantes de la source de données secondaire (la table de droite), en fonction des champs de liaison.

Supposons que vous ayez les tables suivantes. Si les champs de liaison sont User ID et Patron ID, toutes les valeurs ne peuvent pas faire partie de la table résultante pour les raisons suivantes :

  • Une ligne de la table de gauche n’a pas de correspondance de ligne dans la table de droite, comme l’indique la valeur nulle dans les résultats.

  • Les lignes de la table de droite comportent plusieurs valeurs correspondantes, comme l’indique l’astérisque (*) dans les résultats.

Lorsqu’il s’agit de mesures, elles sont également agrégées, comme on peut le voir ci-dessous :

Important : un astérisque (*) dans une vue avec des données combinées indique des valeurs multiples. On peut résoudre ce problème en s’assurant qu’il n’y a qu’une seule valeur correspondante dans la source de données secondaire pour chaque repère dans la source de données principale, éventuellement en échangeant les sources de données principale et secondaire. Pour plus d’informations, consultez Résoudre les problèmes liés à la fusion des données.

Vue d’ensemble de la fusion des données

  • La fusion des données se fait feuille par feuille.
  • L’ordre dans lequel les champs sont utilisés détermine quelle source de données est la source de données principale par rapport à la source de données secondaire.
  • La source de données principale est indiquée par une coche bleue, toutes les sources de données secondaires ainsi que les champs des sources de données secondaires ont une coche orange.
  • Les champs de liaison peuvent être automatiquement déterminés en fonction des noms de champs partagés, ou la relation de fusion peut être créée manuellement.
  • La fusion des données se comporte de la même manière qu’une jointure gauche, ce qui peut entraîner des données manquantes de la source de données secondaire.
  • Des astérisques (*) peuvent apparaître. Ils indiquent des valeurs de dimensions multiples dans un seul repère parce que la fusion des données prend des résultats agrégés et les combine dans la vue.
  • Vous pouvez également utiliser une source de données secondaire pour ré-aliaser les valeurs de champ dans la source de données principale. Pour plus d’informations, consultez Créer des alias de valeurs de champ à l’aide de la fusion des données.

Limitations de la fusion des données

  • Certaines limitations s’appliquent à la fusion des données pour les agrégations non additives, telles que COUNTD, MEDIAN et RAWSQLAGG. Pour plus d’informations, consultez Résoudre les problèmes liés à la fusion des données
  • Les sources de données combinées ne peuvent pas être publiées en tant qu’unité. Au lieu de cela, publiez chaque source de données séparément (sur le même serveur) et combinez ensuite les sources de données publiées.
  • Les données provenant de sources de données secondaires doivent toujours être agrégées dans les calculs.
  • Si vous combinez une source de données multidimensionnelle, elle doit être la source de données principale.
Merci de vos commentaires!Votre commentaire s été envoyé avec succès. Merci!