Supprimer les lignes en double
Pris en charge dans Tableau Prep Builder à partir de la version 2024.1 et sur le Web dans Tableau Cloud.
Les données en double peuvent avoir un impact sur la qualité de vos données, biaiser les résultats de prédiction et gaspiller de l’espace de stockage. La suppression des doublons garantit que chaque valeur est unique, fournissant ainsi une représentation exacte de vos données. La première étape de suppression des doublons consiste à identifier les lignes en double dans vos données. Une fois que vous les avez identifiées, vous pouvez les supprimer du flux de travail.
Identifier et supprimer les doublons
Tableau Prep identifie un doublon comme toute ligne comportant au moins une autre ligne avec les mêmes valeurs.
Pour identifier et supprimer les lignes en double.
- (Facultatif) Pour les fichiers Excel et texte, vous pouvez cliquer sur l’étape des données entrantes et ajouter un champ Numéro de ligne source pour trier les lignes en fonction de la source de données d’origine. Pour plus d’informations, voir Ajoutez le champ Numéro de ligne source à votre flux et Ordre de tri du champ calculé.
- Cliquez sur n’importe quelle étape autre qu’une étape d’entrée ou de sortie.
- Identifiez les lignes en double.
- Pour identifier les lignes en double dans tous les champs, dans la barre d’outils, cliquez sur Identifier les lignes en double.
- Pour identifier les lignes en double dans des champs spécifiques, sélectionnez un ou plusieurs champs, puis cliquez sur Identifier les lignes en double. Sinon, dans le volet Profil, vous pouvez cliquer sur le menu Options supplémentaires dans le champ sélectionné et sélectionner Identifier les lignes en double.
Un champ calculé est créé et répertorié dans le volet Modifications. Le champ calculé fournit une description et les noms des champs couverts par les lignes en double. La grille de données montre quelles lignes sont uniques et lesquelles sont des doublons.
L’image suivante montre les résultats en cas de sélection des deux champs Région et Type d’élément pour identifier les lignes en double uniquement dans ces champs sélectionnés.
Si un numéro de ligne source est disponible, il est utilisé pour trier l’ordre des lignes. Sinon, les lignes sont triées en fonction du premier champ dans le schéma de la table. Pour modifier les valeurs du champ calculé, vous pouvez modifier directement le calcul ou écrire votre propre calcul. Consultez Ordre de tri du champ calculé.
- Pour évaluer les lignes en double, cliquez sur Dupliquer ou Unique dans la ligne Est-ce une ligne en double ? ou dans la grille de données.
- Pour filtrer et conserver uniquement les lignes uniques, cliquez sur Unique dans la grille de données ou dans le champ Est-ce une ligne en double ? et sélectionnez Conserver uniquement dans la barre d’outils. Vous pouvez éventuellement cliquer sur Unique dans la grille de données ou dans le champ Est-ce une ligne en double ?, puis faire un clic droit pour sélectionner Conserver uniquement.
Vous pouvez également sélectionner Doublon puis sélectionnez Exclure pour rechercher les doublons à l’aide d’un filtre de données. Cette opération produit les mêmes résultats que de sélectionner les options Unique et Conserver uniquement et n’affecte pas les lignes à exclure ou à conserver.
Un filtre est créé dans le volet Modifications, indiquant que seules les lignes uniques sont conservées et que les lignes en double sont exclues.
- Dans le champ calculé Est-ce une ligne en double ?, cliquez sur le menu Options supplémentaire et sélectionnez Supprimer.
Les lignes en double sont supprimées lorsque vous exécutez le flux et créez une sortie.
Remarque : ne supprimez pas le champ calculé Est-ce une ligne en double ? si vous effectuez des ajustements pour les données échantillonnées.
L’image suivante montre les lignes en double dans tous les champs.
L’image suivante montre les lignes en double uniquement dans les champs Région et Type d’élément.
Doublons dans les données échantillonnées
Les lignes en double peuvent ne pas apparaître dans les données échantillonnées et sont susceptibles d’introduire un biais dans le modèle.
Pour traiter les données échantillonnées de lignes en double :
- Ne supprimez pas le champ calculé Est-ce une ligne en double ? si vous effectuez des ajustements pour les données échantillonnées. Vous avez ainsi la possibilité de modifier la taille de l’échantillon ou d’ajuster les données de l’échantillon lors de l’étape des données entrantes.
- Ajustez la taille de l’échantillon pour charger autant de données que possible pour la sélection de lignes. Consultez Définir la taille de votre échantillon de données.
- Les doublons peuvent ne pas apparaître dans les données échantillonnées selon la taille de l’échantillon. L’option Conserver uniquement pour les lignes uniques vous permet de supprimer les lignes en double, même si elles ne sont pas visibles dans les données échantillonnées.
Ordre de tri du champ calculé
Par défaut, si plusieurs lignes contiennent la même valeur, elles sont triées selon le premier champ ou, si disponible, le numéro de ligne source. Les champs sont utilisés pour identifier la première ligne comme Unique et le reste comme Doublon. La modification de l’ordre de tri des champs vous permet de spécifier la ligne en double que vous souhaitez identifier comme unique. Vous pouvez changer l’ordre en modifiant le calcul ainsi que le champ ORDERBY
.
Par exemple :
IF ({PARTITION [Field1], [Field2], [Field3]: { ORDERBY [FieldName] ASC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Pour les fichiers Excel et texte, vous pouvez trier selon la source de données d’origine en ajoutant un champ Numéro de ligne source.
Par exemple :
IF ({PARTITION [Source Row Number], [Field1], [Field2], [Field3]: { ORDERBY [Source Row Number] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
Pour plus d’informations, consultez Ajouter le champ Numéro de ligne source à votre flux.
Écrire votre propre calcul de filtre pour rechercher et supprimer les doublons
Vous pouvez écrire votre propre calcul de filtre sur plusieurs champs pour rechercher et supprimer les doublons.
Le calcul de filtre suivant renverra uniquement les résultats qui renvoient la valeur « True ». Le calcul renvoie la valeur « True » ou « False » en fonction des champs utilisés pour la fonction PARTITION
{PARTITION [Field1], [Field2], [Field3]: { ORDERBY [Field1] DESC: ROW_NUMBER() } } = 1
Utilisez CASE
ou IF
pour identifier les calculs en double
Vous pouvez utiliser les fonctions IF
ou CASE
dans l’éditeur de calcul. Par exemple :
CASE {PARTITION [Field1], [Field2], [Field3] : { ORDERBY [[Field3]]: ROW_NUMBER() } } = 1 WHEN TRUE THEN 'UNIQUE' ELSE 'DUPLICATE' END
IF ({PARTITION [[Field1]], [[Field2]], [[Field3]]: { ORDERBY [[Field3]] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END