Configurer votre ensemble de données
Remarque : depuis la version 2020.4.1, vous pouvez désormais créer et modifier des flux dans Tableau Server et Tableau Cloud. Le contenu de cette rubrique s’applique à toutes les plates-formes, sauf mention spécifique. Pour plus d’informations sur la création de flux sur le Web, consultez Tableau Prep sur le Web dans l’aide de Tableau Server(Le lien s’ouvre dans une nouvelle fenêtre) et Tableau Cloud(Le lien s’ouvre dans une nouvelle fenêtre).
Pour déterminer la proportion de votre ensemble de données à utiliser dans le flux, vous pouvez configurer votre ensemble de données. Lorsque vous vous connectez à vos données ou que vous faites glisser des tables vers le volet Flux, une étape des données entrantes est automatiquement ajoutée au flux.
Dans l'étape des données entrantes, vous déterminez quelles données et combien de données inclure dans votre flux. Il s’agit toujours de la première étape de votre flux.
Si vous êtes connecté à un fichier Excel ou texte, vous pouvez également actualiser les données de l'étape des données entrantes. Pour plus d'informations, consultez Ajouter des données supplémentaires à l'étape des données entrantes(Le lien s’ouvre dans une nouvelle fenêtre).
À l'étape des données entrantes, vous pouvez :
- Faire un clic droit (ou Cmd-clic sur MacOS) dans l'étape des données entrantes sur le volet Flux pour la renommer ou la supprimer.
- Réunir plusieurs fichiers dans le même répertoire parent ou enfant. Pour plus d'informations, consultez Réunir des fichiers et des tables de base de données dans l'étape des données entrantes.
- (à partir de la version 2023.1) Incluez les numéros de ligne générés automatiquement en fonction de l'ordre de tri d'origine de votre ensemble de données. Consultez Inclure les numéros de ligne de votre ensemble de données.
- Rechercher des champs.
- Voir des exemples de valeurs de champ.
Configurer les propriétés du champ en modifiant le nom du champ ou configurer les paramètres de texte pour les fichiers texte.
Remarque : les crochets dans les valeurs de champ sont automatiquement convertis en parenthèses.
- Effectuez des actions pour modifier les données que vous utilisez dans votre flux. Consultez Définir la taille de votre échantillon de données.
- Configurez l'échantillon de données ingéré dans votre flux.
- Supprimez les champs dont vous n'avez pas besoin. Vous pouvez toujours revenir à l'étape des données entrantes et les inclure ultérieurement.
- Hide fields that you don't need to clean, but still want to include in your flow output. Vous pouvez les afficher à tout moment si nécessaire.
- Appliquez des filtres aux champs sélectionnés.
Modifiez le type de données de champ pour les connexions de données qui le prennent en charge.
Il s’agit notamment de Microsoft Excel, de fichiers texte et PDF, ainsi que des données Box, Dropbox, Google Drive et OneDrive. Pour d’autres sources de données, vous pouvez modifier le type de données dans une étape de nettoyage.
Pour plus d’informations, consultez Vérifier les types de données affectés à vos données.
Inclure les numéros de ligne de votre ensemble de données
Pris en charge dans Tableau Prep Builder à partir de la version 2023.1 et sur le Web pour les fichiers Microsoft Excel et texte (.csv).
Remarque : cette option n'est actuellement pas prise en charge pour les fichiers inclus dans une union d'entrée.
Depuis la version 2023.1, Tableau Prep génère automatiquement des numéros de ligne en fonction de l'ordre de tri d'origine de vos données que vous pouvez inclure en tant que nouveau champ dans votre flux. Cette fonctionnalité est disponible uniquement pour les types de fichiers Microsoft Excel ou texte (.csv).
Dans les versions précédentes, si vous vouliez inclure ces numéros de ligne, vous deviez les ajouter manuellement à la source avant d'ajouter l'ensemble de données à votre flux.
Ce champ est généré à l'étape des données entrantes lorsque vous vous connectez à vos données. Par défaut, il est exclu du flux, mais vous pouvez l'inclure en un clic. Si vous choisissez de l'inclure, il se comporte comme n'importe quel autre champ et peut être utilisé dans vos opérations de flux et vos champs calculés.
Tableau Prep prend également en charge la fonction ROW_NUMBER pour les champs calculés. Cette fonction est utile lorsque votre ensemble de données contient des champs qui peuvent définir le tri, tels que l'ID de ligne ou l'horodatage. Pour plus d'informations sur l'utilisation de cette fonction, consultez Créer des calculs de niveau de détail, de classement et de section.
Ajouter le champ Numéro de ligne source à votre flux
Faites un clic droit ou Cmd-clic (MacOS) sur le champ, ou cliquez sur le menu Options supplémentaires
et sélectionnez Inclure le champ.
La liste des modifications est supprimée, le champ fait désormais partie des données de flux et vous pouvez voir les numéros de ligne générés dans les étapes de flux suivantes.
Détails des numéros de ligne source
Lorsque vous incluez le Numéro de ligne source dans votre ensemble de données, les options et considérations suivantes s'appliquent.
- Les numéros de ligne de la source de données sont appliqués avant l’échantillonnage ou le filtrage des données.
- Il en résulte un nouveau champ appelé Numéro de ligne source qui persiste tout au long du flux. Ce nom de champ n'est pas localisé, mais peut être renommé à tout moment.
- S’il existe déjà un champ du même nom, le nouveau nom de champ est incrémenté de 1, par exemple Numéro de ligne source-1, Numéro de ligne source-2, etc.
- Vous pouvez modifier le type de données du champ dans les étapes suivantes.
- Vous pouvez utiliser ce champ dans les opérations de flux et les calculs.
- Cette valeur est générée de nouveau pour l'intégralité de l’ensemble de données chaque fois que les données d'entrée sont actualisées ou que le flux est exécuté.
- Ce champ n'est pas disponible pour les unions d'entrée.
Se connecter à une requête SQL personnalisée
Si votre base de données prend en charge SQL personnalisé, vous verrez s'afficher SQL personnalisé s'afficher près du bas du volet Connexions. Double-cliquez sur SQL personnalisé pour ouvrir l'onglet SQL personnalisé où vous pouvez entrer des requêtes pour présélectionner les données et utiliser des opérations spécifiques aux sources. Une fois que la requête a récupéré les données, vous pouvez sélectionner les champs à inclure, appliquer des filtres, ou modifier le type de données avant d'ajouter les données à votre flux.
Pour plus d’informations sur l’utilisation de SQL personnalisé, consultez Utiliser SQL personnalisé pour la connexion aux données.
Appliquer des opérations de nettoyage à une étape des données entrantes
Seules quelques opérations de nettoyage sont disponibles dans une étape des données entrantes. Vous pouvez apporter n'importe laquelle des modifications suivantes dans la liste des champs d'entrée. Vos modifications sont enregistrées dans le volet Modifications et des annotations sont ajoutées à gauche de l'étape des données entrantes dans le volet Flux et dans la liste des champs d'entrée.
- Masquer le champ : masquez les champs plutôt que de les supprimer afin de réduire l'encombrement de votre flux. Vous pourrez toujours les afficher de nouveau si nécessaire. Les champs masqués sont toujours inclus lorsque vous exécutez votre flux.
- Filtre : utilisez l'éditeur de calcul pour filtrer les valeurs. Depuis la version 2023.1, vous pouvez également utiliser la boîte de dialogue Filtre de dates relatives pour spécifier rapidement des plages de dates applicables à tout champ de date ou de date/heure.
Renommer un champ : Dans le champ Nom du champ, double-cliquez (Ctrl +clic sur MacOS) sur le nom du champ et entrez un nouveau nom de champ.
Modifier le type de données : Cliquez sur le type de données du champ et sélectionnez un nouveau type de données dans le menu. Cette option est actuellement prise en charge pour les fichiers Microsoft Excel, les fichiers texte et PDF, les sources de données Box, Dropbox, Google Drive et OneDrive. Toutes les autres sources de données peuvent être modifiées dans une étape de nettoyage.
Sélectionner les champs à inclure dans le flux
Remarque : depuis la version 2023.1, vous pouvez sélectionner plusieurs champs pour les masquer, les afficher, les supprimer ou les inclure. Dans les versions précédentes, vous pouviez utiliser un champ à la fois et cocher ou décocher les cases afin d’inclure ou de supprimer des champs.
Le volet Entrée affiche une liste des champs de votre ensemble de données. Par défaut, tous les champs sont inclus sauf le champ généré automatiquement, Numéro de ligne source. Utilisez les options suivantes pour gérer vos champs.
- Rechercher : trouvez des champs dans la liste.
- Masquer : cliquez sur l'icône d'œil
ou sélectionnez Masquer les champs dans le menu Options supplémentaires
pour masquer les champs que vous souhaitez inclure dans votre sortie de flux, mais que vous n'avez pas besoin de nettoyer. Les champs sont traités par le flux pendant l'exécution. Vous pouvez les Afficher à tout moment si nécessaire. Pour plus d'informations, consultez Masquer des champs(Le lien s’ouvre dans une nouvelle fenêtre).
- Inclure des champs : sélectionnez une ou plusieurs lignes et faites un clic droit (Cmd-clic sur MacOS) ou cliquez sur le menu Options supplémentaires
et sélectionnez Inclure des champs pour rajouter des champs marqués comme supprimés.
- Supprimer des champs : sélectionnez une ou plusieurs lignes et faites un clic droit (Cmd-clic sur MacOS), cliquez sur le symbole « X », ou cliquez sur le menu Options supplémentaires
et sélectionnez Supprimer des champs pour supprimer les champs que vous ne souhaitez pas inclure dans le flux.
Appliquer des filtres au champ dans l'étape des données entrantes
Appliquez des filtres à l'étape des données entrantes pour réduire la quantité de données que vous ingérez à partir de vos sources de données. Vous pouvez gagner en efficacité en termes de performances interactives et obtenir un échantillon de données plus utile en éliminant les données que vous ne souhaitez pas traiter lors de l’exécution du flux.
Dans l'étape des données entrantes, vous pouvez appliquer des filtres à l'aide de l'éditeur de calcul. Depuis la version 2023.1, vous pouvez également utiliser la boîte de dialogue Filtre de dates relatives pour spécifier une plage de dates exacte de valeurs à inclure pour les types de champs de date et de date/heure. Pour plus d'informations, consultez « Filtre de dates relatives » dans Filtrer vos données(Le lien s’ouvre dans une nouvelle fenêtre).
Vous pouvez utiliser d'autres options de filtre dans l'étape de nettoyage ou d'autres types d'étapes. Pour plus d'informations, consultez Filtrer vos données(Le lien s’ouvre dans une nouvelle fenêtre).
Appliquer un filtre de calcul
Dans la barre d'outils, cliquez sur Filtrer les valeurs, ou dans la grille de champs, cliquez sur le menu Options supplémentaires
menu et sélectionnez Filtre > Calcul ....
Entrez vos critères de filtre dans l'éditeur de calcul.
Appliquer un filtre de dates relatives
Dans la grille d'entrée, sélectionnez un champ avec un type de données Date ou Date et heure. Cliquez ensuite avec le bouton droit de la souris (Cmd-clic sur MacOS) ou cliquez sur le menu Options supplémentaires
et sélectionnez Filtre > Dates relatives.
Dans la boîte de dialogue Filtre de dates relatives, spécifiez la plage exacte d'années, de trimestres, de mois, de semaines ou de jours que vous voulez inclure dans votre flux. Vous pouvez également configurer un ancrage relatif à une date spécifique et inclure les valeurs null.
Remarque : par défaut, le filtre fonctionne par rapport à la date à laquelle le flux est exécuté ou prévisualisé dans l'expérience de création.
Modifier les noms de fichiers
Pour modifier le nom d'un champ, dans la colonne Nom du champ, sélectionnez le nom, puis entrez le nouveau nom dans le champ. Une annotation est ajoutée à la grille de champs et dans le volet Flux à gauche de l'étape des données entrantes. Vos modifications sont également enregistrées dans le volet Modifications.
Modifier les types de données
Actuellement pris en charge pour les fichiers Microsoft Excel, les fichiers texte et PDF, les sources de données Box, Dropbox, Google Drive et OneDrive. Toutes les autres sources de données peuvent être modifiées dans une étape de nettoyage.
Remarque : le type de données pour le numéro de ligne source (à partir de la version 2023.1) ne peut être modifié que dans une étape de nettoyage ou un autre type d'étape.
Pour modifier le type de données d’un champ, procédez comme suit :
Cliquez sur le type de données pour le champ.
Sélectionnez le nouveau type de données dans le menu.
Vous pouvez également modifier le type de données des champs dans d'autres types d'étape du flux ou affecter des types de données pour vous aider à valider vos valeurs de champ. Pour plus d'informations sur la modification de votre type de données ou l'utilisation de types de données, voir Vérifier les types de données affectés à vos données(Le lien s’ouvre dans une nouvelle fenêtre) et Utiliser les types de données pour valider vos données(Le lien s’ouvre dans une nouvelle fenêtre).
Configurer les propriétés des champs
Lorsque vous travaillez avec des fichiers texte, vous voyez s'afficher un onglet Paramètres où vous pouvez modifier votre connexion et configurer les propriétés du texte, par exemple le séparateur de champs pour les fichiers texte. Vous pouvez également modifier la connexion aux fichiers dans le volet Connexions ou configurer les paramètres d’actualisation incrémentielle. Pour plus d’informations sur la configuration de l'actualisation incrémentielle pour votre flux, consultez Actualiser les données de flux à l’aide d'une actualisation incrémentielle.
Lorsque vous travaillez avec des fichiers texte ou Excel, vous pouvez corriger les types de données qui ont été incorrectement induits avant que vous commenciez votre flux. Les types de données peuvent toujours être modifiés par étapes consécutives dans le volet Profil après le démarrage de votre flux.
Configurer les paramètres de texte dans les fichiers texte
Pour modifier les paramètres utilisés pour analyser les fichiers texte, faites votre choix parmi les options suivantes :
La première ligne contient l'en-tête (par défaut) : sélectionnez cette option pour utiliser la première ligne comme étiquettes de champs.
Générer les noms de champs automatiquement : sélectionnez cette option si vous souhaitez que Tableau Prep Builder génère automatiquement les en-têtes de champ. La convention de dénomination des champs suit le même modèle que Tableau Desktop, par exemple F1, F2 etc.
Séparateur de champs : sélectionnez un caractère dans la liste à utiliser pour séparer les colonnes. Sélectionnez Autre pour entrer un caractère personnalisé.
Qualificateur de texte : sélectionnez le caractère qui entoure les valeurs dans le fichier.
Jeu de caractères : sélectionnez le jeu de caractères qui décrit le codage du fichier texte.
Paramètres régionaux : sélectionnez les paramètres régionaux à utiliser pour analyser le fichier. Ce paramètre indique quelle décimale et quel séparateur de milliers utiliser.
Définir la taille de votre échantillon de données
Afin de conserver des performances optimales, par défaut, Tableau Prep limite les données incluses dans le flux à un échantillon représentatif de votre ensemble de données. L'échantillon de données est déterminé en calculant le nombre optimal de lignes basé sur le nombre total de champs dans l'ensemble de données et les types de données pour ces champs. Tableau Prep récupère ensuite le nombre supérieur de lignes pour le montant calculé aussi rapidement que possible.
L'échantillon de données résultant peut ou non inclure toutes les lignes dont vous avez besoin, selon la manière dont l'échantillon a été calculé et retourné. Si vous ne voyez pas les données attendues, vous pouvez modifier les paramètres de l'échantillon de données pour exécuter à nouveau la requête.
Lors de la création ou de la modification de flux sur le Web, des limites s’appliquent à la quantité de données que vous pouvez inclure dans un flux et les options disponibles pour modifier votre échantillon de données sont légèrement différentes de celles lorsque vous travaillez dans Tableau Prep Builder. Pour plus d'informations, consultez Échantillons de données et limites de traitement dans l'aide de Tableau Server(Le lien s’ouvre dans une nouvelle fenêtre) ou Tableau Cloud(Le lien s’ouvre dans une nouvelle fenêtre).
Remarque : si vos données sont échantillonnées, un badge Échantillonné s'affiche dans le volet Profil et persiste pour chaque étape que vous ajoutez. Toutes les modifications que vous apportez s'appliquent à l'échantillon sur lequel vous travaillez dans le flux. Toutes les modifications s'appliquent à tout l'ensemble de données lorsque vous exécutez le flux.
Pour modifier les paramètres de votre échantillon de données, sélectionnez une étape des données entrantes, puis dans l'onglet Échantillon de données, choisissez parmi les options suivantes :
(2023.1—Automatique) (2022.4 et versions antérieures—Quantité d'échantillons par défaut) : Tableau Prep calcule le nombre total de lignes à renvoyer. Il s'agit du paramètre par défaut.
(2023.1—Maximum) (2022.4 et versions antérieures—Utiliser toutes les données) : (Tableau Prep Builder uniquement) Récupérer toutes les lignes de votre ensemble de données, quelle qu'en soit la taille. Ceci peut avoir une incidence sur les performances ou entraîner une expiration de délai dans Tableau Prep Builder.
Remarque : pour maintenir les performances, même si vous sélectionnez ce paramètre, une limite d'échantillon de données de 1 million de lignes est appliquée aux types d'étapes Agrégation et Union, et une limite d'échantillon de données de 3 millions de lignes est appliquée aux types d'étapes Jointure et Permutation.
(2023.1—Spécifier) (2022.4 et versions antéireures—Nombre fixe de lignes) : Sélectionnez le nombre de lignes à retourner à partir de l'ensemble de données. Le nombre de lignes recommandé est de 1 million au maximum. Définir le nombre de lignes sur plus de 1 million peut avoir une incidence sur les performances.
- Dans la création Web : le nombre maximum de lignes qu’un utilisateur peut sélectionner lors de l’utilisation d’ensembles de données volumineux est configuré par l’administrateur. En tant qu’utilisateur, vous pouvez sélectionner le nombre de lignes jusqu’à cette limite.
Sélection rapide (par défaut) : la base de données retourne le nombre de lignes demandées aussi rapidement que possible. Ce peut être les N premiers nombres de lignes ou les lignes que la base de données a mises en cache dans la mémoire lors 'une précédente requête.
Échantillon aléatoire : la base de données retourne le nombre de lignes demandées mais examine chaque ligne de l'ensemble de données et retourne un échantillon représentatif de toutes les lignes. Cette option peut avoir une incidence sur les performances lors de la récupération initiale des données.