Supprimer les lignes en double
Pris en charge dans Tableau Prep Builder version 2024,1 et versions ultérieures et sur le Web dans Tableau Cloud.
Les données en double peuvent affecter la qualité de vos données, fausser les résultats de prédiction et gaspiller de l’espace de stockage. La suppression des doublons garantit que chaque valeur est unique, fournissant ainsi une représentation précise de vos données. La première étape pour supprimer les doublons consiste à identifier les lignes en double dans vos données. Après avoir identifié les doublons, vous pouvez les supprimer du flux de travail.
Identifier et supprimer les doublons
Tableau Prep identifie un doublon comme toute ligne ayant au moins une autre ligne avec les mêmes valeurs.
Pour identifier et supprimer les lignes en double.
- (Facultatif) Dans le cas des fichiers Excel et texte, vous pouvez cliquer sur l’étape de saisie et ajouter un champ Numéro de ligne source pour trier les lignes en fonction de la source de données d’origine. Pour plus d’informations, consultez Ajoutez le champ Numéro de ligne source à votre flux et Ordre de tri du champ calculé.
- Cliquez sur n’importe quelle étape autre qu’une étape d’entrée ou de sortie.
- Identifiez les lignes en double.
- Pour identifier les lignes en double dans tous les champs, dans la barre d’outils, cliquez sur Identifier les lignes en double.
- Pour identifier les lignes en double dans des champs spécifiques, sélectionnez un ou plusieurs champs, puis cliquez sur Identifier les lignes en double. Si vous le souhaitez, vous pouvez cliquer dans le volet Profil sur le menu Plus d’options pour le champ sélectionné, puis sélectionner Identifier les lignes en double.
Un champ calculé est créé et répertorié dans le volet Modifications. Le champ calculé fournit une description et les noms des champs concernés par les lignes en double. La grille de données montre quelles lignes sont uniques et quelles lignes sont des doublons.
L’image suivante montre les résultats de la sélection des deux champs Région et Type d’élément pour identifier les lignes en double uniquement dans les champs sélectionnés.
Si un numéro de ligne source est disponible, il est utilisé pour trier l’ordre des lignes. Sinon, les lignes sont triées en fonction du premier champ du schéma de table. Pour modifier les valeurs du champ calculé, vous pouvez modifier directement le calcul ou rédiger votre propre calcul. Voir Ordre de tri du champ calculé.
- Pour évaluer les lignes en double, cliquez sur Doublon ou Unique dans le champ La ligne est-elle en double? ou dans la grille de données.
- Pour filtrer et conserver uniquement les lignes uniques, cliquez sur Unique dans la grille de données ou dans le champ La ligne est-elle en double? et sélectionnez Conserver uniquement dans la barre d’outils. Si vous le souhaitez, vous pouvez cliquer sur Unique dans la grille de données ou dans le champ La ligne est-elle en double? puis faire un clic droit pour sélectionner Conserver uniquement.
Vous pouvez également sélectionner Dupliquer, puis sélectionnez Exclure, pour filtrer en excluant les doublons. Cela produit les mêmes résultats que la sélection des options Unique et Conserver uniquement, et n’affecte pas les lignes qui sont exclues ou conservées.
Un filtre est créé dans le volet des modifications, indiquant que seules les lignes uniques sont conservées et que les lignes en double sont exclues.
- À partir du champ calculé La ligne est-elle en double? cliquez sur le menu Plus d’options et sélectionnez Supprimer.
Les lignes en double sont supprimées lorsque vous exécutez le flux et créez une sortie.
Remarque: Si vous faites des ajustements pour les données échantillonnées, ne supprimez pas le champ calculé La ligne est-elle en double ?
L’image suivante montre les lignes en double dans tous les champs.
L’image suivante montre les lignes en double uniquement dans les champs Région et Type d’article.
Doublons dans les échantillons de données
Les lignes en double peuvent ne pas apparaître dans les données échantillonnées et pourraient introduire un biais dans le modèle.
Pour traiter les lignes en double dans les données échantillonnées :
- Si vous faites des ajustements pour les données échantillonnées, ne supprimez pas le champ calculé La ligne est-elle en double ? Cela vous donne la possibilité de modifier la taille de l’échantillon ou d’ajuster les échantillons de données lors de l’étape de saisie.
- Ajustez la taille de l’échantillon pour charger autant de données que possible pour les lignes sélectionnées. Voir Définir la taille de votre échantillon de données.
- Les doublons peuvent ne pas apparaître dans les données échantillonnées en fonction de la taille de l’échantillon. En utilisant l’option Conserver uniquement pour les lignes uniques, vous pouvez supprimer les lignes en double, même si elles ne sont pas visibles dans les données échantillonnées.
Ordre de tri du champ calculé
Par défaut, si plusieurs lignes contiennent la même valeur, elles sont triées selon le premier champ ou, si disponible, selon le numéro de ligne source. Les champs sont utilisés pour identifier la première ligne comme Unique et les autres comme Doublons. La modification de l’ordre de tri des champs vous permet de spécifier la ligne en double que vous souhaitez identifier comme unique. Vous pouvez changer l’ordre en modifiant le calcul et en modifiant le champ ORDERBY
.
Par exemple :
IF ({PARTITION [Field1], [Field2], [Field3]: { ORDERBY [FieldName] ASC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Vous pouvez trier les fichiers Excel et texte selon la source de données d’origine en ajoutant un champ Numéro de ligne source.
Par exemple :
IF ({PARTITION [Source Row Number], [Field1], [Field2], [Field3]: { ORDERBY [Source Row Number] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Pour plus d’informations, consultez Ajouter le champ Numéro de ligne source à votre flux.
Écrire son propre calcul de filtre pour trouver et supprimer les doublons
Vous pouvez écrire votre propre calcul de filtre sur plusieurs champs pour trouver et supprimer les doublons.
Le calcul de filtre suivant retournera uniquement les résultats qui renvoient la valeur « True ». Le calcul renvoie Vrai ou Faux en fonction des champs utilisés pour PARTITIONNER
{PARTITION [Field1], [Field2], [Field3]: { ORDERBY [Field1] DESC: ROW_NUMBER() } } = 1
Utiliser CASE
ou IF
pour identifier les calculs en double
Vous pouvez utiliser les fonctions IF
ou CASE
dans l’éditeur de calcul. Par exemple :
CASE {PARTITION [Field1], [Field2], [Field3] : { ORDERBY [[Field3]]: ROW_NUMBER() } } = 1 WHEN TRUE THEN 'UNIQUE' ELSE 'DUPLICATE' END
IF ({PARTITION [[Field1]], [[Field2]], [[Field3]]: { ORDERBY [[Field3]] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END