Configurer votre ensemble de données
Remarque : depuis la version 2020.4.1, vous pouvez désormais créer et modifier des flux dans Tableau Server et Tableau Cloud. Le contenu de cette rubrique s’applique à toutes les plates-formes, sauf mention spécifique. Pour plus d’informations sur la création de flux sur le Web, voir Tableau Prep sur le Web dans l’aide de Tableau Server(Le lien s’ouvre dans une nouvelle fenêtre) et de Tableau Cloud(Le lien s’ouvre dans une nouvelle fenêtre).
Pour déterminer la proportion de votre ensemble de données à inclure dans le flux, vous pouvez configurer votre ensemble de données. Lorsque vous vous connectez à vos données ou que vous faites glisser des tables vers le volet Flux, une étape de saisie est automatiquement ajoutée au flux.
L’étape de saisie est l’endroit où vous pouvez décider quelles données et combien de données inclure dans votre flux. Ceci est toujours la première étape du flux.
Si vous êtes connecté à un fichier Excel ou texte, vous pouvez également actualiser les données de l’étape de saisie. Pour plus d'informations, voir la section Ajouter des données supplémentaires à l’étape de saisie(Le lien s’ouvre dans une nouvelle fenêtre).
À l’étape de saisie, vous pouvez :
- Faire un clic droit ou Cmd-clic (MacOS) sur l’étape de saisie dans le volet du flux pour la renommer ou la supprimer.
- Réunir plusieurs fichiers dans le même répertoire parent ou enfant. Pour plus d’informations, voir la section Réunir des fichiers et des tables de base de données dans l’étape de saisie.
- (2023.1 et versions ultérieures) Incluez les numéros de ligne générés automatiquement en fonction de l’ordre de tri d’origine de votre ensemble de données. Voir Inclure les numéros de ligne de votre ensemble de données.
- Rechercher des champs.
- Voir des exemples de valeurs de champ.
Configurer les propriétés du champ en modifiant le nom du champ ou configurer les paramètres de texte pour les fichiers texte.
Remarque : les crochets dans les valeurs de champ sont automatiquement convertis en parenthèses.
- Effectuez des actions pour modifier les données avec lesquelles vous travaillez dans votre flux. Voir Définir la taille de votre échantillon de données.
- Configurez l’échantillon de données ingéré dans votre flux.
- Supprimez les champs dont vous n’avez pas besoin. Vous pouvez toujours revenir à l’étape de saisie et les inclure plus tard.
- Masquez les champs que vous n’avez pas besoin de nettoyer, mais que vous voulez quand même inclure dans votre sortie de flux. Vous pouvez les afficher à tout moment si vous en avez besoin.
- Appliquez des filtres aux champs sélectionnés.
Modifiez le type de données de champ pour les connexions de données qui le prennent en charge.
Il s’agit notamment de Microsoft Excel, de fichiers texte et PDF, ainsi que des données Box, Dropbox, Google Drive et OneDrive. Pour d’autres sources de données, vous pouvez modifier le type de données dans une étape de nettoyage.
Pour plus d’informations, voir Vérifier les types de données affectés à vos données.
Inclure les numéros de ligne de votre ensemble de données
Pris en charge dans Tableau Prep Builder version 2023.1 et versions ultérieures et sur le Web pour les fichiers Microsoft Excel et texte (.csv).
Remarque : cette option n’est actuellement pas prise en charge pour les fichiers inclus dans une union d’entrée.
À partir de la version 2023.1, Tableau Prep génère automatiquement des numéros de ligne en fonction de l’ordre de tri d’origine de vos données que vous pouvez inclure en tant que nouveau champ dans votre flux. Ceci est disponible uniquement pour les types de fichiers Microsoft Excel ou texte (.csv).
Dans les versions précédentes, si vous vouliez inclure ces numéros de ligne, vous deviez les ajouter manuellement à la source avant d’ajouter l’ensemble de données à votre flux.
Ce champ est généré à l’étape de saisie lorsque vous vous connectez à vos données. Par défaut, il est exclu du flux, mais vous pouvez l’inclure en un clic. Si vous choisissez de l’inclure, il se comporte comme n’importe quel autre champ et peut être utilisé dans vos opérations de flux et vos champs calculés.
Tableau Prep prend également en charge la fonction ROW_NUMBER pour les champs calculés. Cette fonction est utile lorsque votre ensemble de données contient des champs qui peuvent définir le tri, tels que l’ID de ligne ou l’horodatage. Pour plus d’informations sur l’utilisation de cette fonction, voir Créer des calculs de niveau de détail, de classement et de section.
Ajouter le champ Numéro de ligne source à votre flux
Faites un clic droit ou Cmd-clic (MacOS) sur le champ, ou cliquez sur le menu Plus d’options
et sélectionnez Inclure le champ.
La liste des modifications est effacée, le champ fait désormais partie des données de flux et vous pouvez voir les numéros de ligne générés dans les étapes de flux suivantes.
Détails du numéro de ligne source
Lorsque vous incluez le Numéro de ligne source dans votre ensemble de données, les options et considérations suivantes s’appliquent.
- Les numéros de ligne de la source de données sont appliqués avant tout échantillonnage ou filtre de données.
- Cela crée un nouveau champ appelé Numéro de ligne source qui persiste tout au long du flux. Ce nom de champ n’est pas localisé, mais peut être renommé à tout moment.
- Si un champ portant ce nom existe déjà, le nouveau nom de champ est incrémenté de 1. Par exemple, Numéro de ligne source-1, Numéro de ligne source-2, etc.
- Vous pouvez modifier le type de données du champ dans les étapes suivantes.
- Vous pouvez utiliser ce champ dans les opérations de flux et les calculs.
- Cette valeur est régénérée pour l’ensemble du jeu de données chaque fois que les données d’entrée sont actualisées ou que le flux est exécuté.
- Ce champ n’est pas disponible pour les unions d’entrée.
Se connecter à une requête SQL personnalisée
Si votre base de données prend en charge SQL personnalisé, vous verrez s’afficher SQL personnalisé s’afficher près du bas du volet Connexions. Double-cliquez sur SQL personnalisé pour ouvrir l’onglet SQL personnalisé où vous pouvez entrer des requêtes pour présélectionner les données et utiliser des opérations spécifiques aux sources. Une fois que la requête a récupéré les données, vous pouvez sélectionner les champs à inclure, appliquer des filtres, ou modifier le type de données avant d’ajouter les données à votre flux.
Pour plus d’informations sur l’utilisation de SQL personnalisé, voir Utiliser SQL personnalisé pour la connexion aux données.
Appliquer des opérations de nettoyage à une étape de saisie
Seules quelques opérations de nettoyage sont disponibles dans une étape de saisie. Vous pouvez apporter n’importe laquelle des modifications suivantes dans la liste des champs d’entrée. Vos modifications sont enregistrées dans le volet Modifications et des annotations sont ajoutées à gauche de l’étape de saisie dans le volet Flux et dans la liste des champs de saisie.
- Masquer le champ : masquez les champs au lieu de les supprimer pour réduire l’encombrement de votre flux. Vous pouvez toujours les afficher si vous en avez besoin. Les champs masqués seront toujours inclus dans votre sortie lorsque vous exécuterez votre flux.
- Filtre : utilisez l’éditeur de calcul pour filtrer les valeurs ou, à partir de la version 2023.1, vous pouvez également utiliser la boîte de dialogue Filtre de date relative pour spécifier rapidement des plages de dates pour n’importe quel champ de date ou de date et heure.
Renommer un champ : Dans le champ Nom du champ, double-cliquez (Ctrl +clic sur MacOS) sur le nom du champ et entrez un nouveau nom de champ.
Modifier le type de données : Cliquez sur le type de données du champ et sélectionnez un nouveau type de données dans le menu. Cette option est actuellement prise en charge pour Microsoft Excel, les fichiers texte et PDF, les sources de données Box, Dropbox, Google Drive et OneDrive. Toutes les autres sources de données peuvent être modifiées dans une étape propre.
Sélectionner les champs à inclure dans le flux
Remarque : à partir de la version 2023.1, vous pouvez sélectionner plusieurs champs pour les masquer, les afficher, les supprimer ou les inclure. Dans les versions précédentes, vous pouvez travailler avec un champ à la fois et cocher ou décocher les cases pour inclure ou supprimer des champs.
Le volet Entrée affiche une liste des champs de votre ensemble de données. Par défaut, tous les champs sont inclus sauf le champ généré automatiquement, Numéro de ligne source. Utilisez les options suivantes pour gérer vos champs.
- Recherche : Rechercher des champs dans la liste.
- Masquer : Cliquez sur l’icône d’œil
ou sélectionnez Masquer les champs dans le menu Plus d’options
pour masquer les champs que vous souhaitez inclure dans votre sortie de flux, mais que vous n’avez pas besoin de nettoyer. Les champs sont traités par le flux pendant l’exécution. Vous pouvez également afficher à tout moment si vous en avez besoin. Pour plus d'informations, voir Masquer des champs(Le lien s’ouvre dans une nouvelle fenêtre).
- Inclure les champs : Sélectionnez une ou plusieurs lignes et cliquez avec le bouton droit, Cmd-clic (MacOS) ou cliquez sur le menu Plus d’options
et sélectionnez Inclure les champs pour rajouter des champs marqués comme supprimés.
- Supprimer les champs : Sélectionnez une ou plusieurs lignes et faites un clic droit, Cmd-clic (MacOS), cliquez sur le « X », ou cliquez sur le menu Plus d’options
et sélectionnez Supprimer les champs pour supprimer les champs que vous ne souhaitez pas inclure dans le flux.
Appliquer des filtres au champ dans l’étape de saisie
Appliquez des filtres à l’étape d’entrée pour réduire la quantité de données que vous ingérez à partir de vos sources de données. Vous pouvez gagner en efficacité en termes de performances interactives et obtenir un échantillon de données plus utile en éliminant les données que vous ne souhaitez pas traiter lorsque vous exécutez le flux.
Dans l’étape de saisie, vous pouvez appliquer des filtres l’aide de l’éditeur de calcul. À partir de la version 2023.1, vous pouvez également utiliser la boîte de dialogue Filtre de date relative pour spécifier une plage de dates exacte de valeurs à inclure pour les types de champs de date et de date et heure. Pour plus d’informations, voir « Filtre de date relative » dans Filtrer vos données(Le lien s’ouvre dans une nouvelle fenêtre).
Vous pouvez utiliser d’autres options de filtre dans l’étape Nettoyer ou d’autres types d’étapes. Pour plus d’informations, voir Filtrer vos données(Le lien s’ouvre dans une nouvelle fenêtre).
Appliquer un filtre de calcul
Dans la barre d’outils, cliquez sur Filtrer les valeurs, ou dans la grille de champs, cliquez sur le menu Plus d’options
et sélectionnez Filtre > Calcul ....
Entrez vos critères de filtre dans l’éditeur de calcul.
Appliquer un filtre de date relative
Dans la grille d’entrée, sélectionnez un champ avec un type de données Date ou Date et heure. Cliquez ensuite avec le bouton droit de la souris, Cmd-clic (MacOS) ou cliquez sur le menu Plus d’options
et sélectionnez Filtre > Dates relatives.
Dans la boîte de dialogue Filtre de date relative, spécifiez l’intervalle exact d’années, de trimestres, de mois, de semaines ou de jours que vous voulez voir dans vos données. Vous pouvez également configurer un ancrage relatif à une date spécifique et inclure les valeurs nulles.
Remarque : par défaut, le filtre fonctionne par rapport à la date à laquelle le flux est exécuté ou prévisualisé dans l’expérience de création.
Modifier les noms de fichiers
Pour modifier le nom d’un champ, dans la colonne Nom du champ, sélectionnez le nom, puis entrez le nouveau nom dans le champ. Une annotation est ajoutée à la grille de champs et dans le volet Flux à gauche de l’étape de saisie. Vos modifications sont également enregistrées dans le volet Modifications.
Modifier les types de données
Cette option est actuellement prise en charge pour Microsoft Excel, les fichiers texte et PDF, les sources de données Box, Dropbox, Google Drive et OneDrive. Toutes les autres sources de données peuvent être modifiées dans une étape propre.
Remarque : le type de données pour le numéro de ligne source (version 2023.1 et ultérieure) ne peut être modifié que dans une étape de nettoyage ou un autre type d’étape.
Pour modifier le type de données d’un champ, procédez comme suit :
Cliquez sur le type de données pour le champ.
Sélectionnez le nouveau type de données dans le menu.
Vous pouvez également modifier le type de données des champs dans d’autres types d’étape du flux ou affecter des types de données pour vous aider à valider vos valeurs de champ. Pour plus d’informations sur la modification de votre type de données ou l’utilisation de rôles de données, voir Vérifier les types de données affectés à vos données(Le lien s’ouvre dans une nouvelle fenêtre) et Utiliser les rôles de données pour valider vos données(Le lien s’ouvre dans une nouvelle fenêtre).
Configurer les propriétés des champs
Lorsque vous travaillez avec des fichiers texte, vous voyez s’afficher un onglet Paramètres où vous pouvez modifier votre connexion et configurer les propriétés du texte, par exemple le séparateur de champs pour les fichiers texte. Vous pouvez également modifier la connexion aux fichiers dans le volet Connexions ou configurer les paramètres d’actualisation incrémentielle. Pour plus d’informations sur la configuration de l’actualisation incrémentielle pour votre flux, voir Actualiser les données de flux à l’aide d’une actualisation incrémentielle.
Lorsque vous travaillez avec des fichiers texte ou Excel, vous pouvez corriger les types de données qui ont été incorrectement induits avant que vous commenciez votre flux. Les types de données peuvent toujours être modifiés par étapes consécutives dans le volet Profil après le démarrage de votre flux.
Configurer les paramètres de texte dans les fichiers texte
Pour modifier les paramètres utilisés pour analyser les fichiers texte, faites votre choix parmi les options suivantes :
La première ligne contient l’en-tête (par défaut) : sélectionnez cette option pour utiliser la première ligne comme étiquettes de champs.
Générer les noms de champs automatiquement : sélectionnez cette option si vous souhaitez que Tableau Prep Builder génère automatiquement les en-têtes de champ. La convention de dénomination des champs suit le même modèle que Tableau Desktop, par exemple F1, F2 etc.
Séparateur de champs : sélectionnez un caractère dans la liste à utiliser pour séparer les colonnes. Sélectionnez Autre pour entrer un caractère personnalisé.
Qualificateur de texte : sélectionnez le caractère qui entoure les valeurs dans le fichier.
Jeu de caractères : sélectionnez le jeu de caractères qui décrit le codage du fichier texte.
Paramètres régionaux : sélectionnez les paramètres régionaux à utiliser pour analyser le fichier. Ce paramètre indique quelle décimale et quel séparateur de milliers utiliser.
Définir la taille de votre échantillon de données
Afin de conserver des performances optimales, par défaut, Tableau Prep limite par défaut les données incluses dans le flux à un échantillon représentatif de votre ensemble de données. L’échantillon de données est déterminé en calculant le nombre optimal de lignes basé sur le nombre total de champs dans l’ensemble de données et les types de données pour ces champs. Tableau Prep récupère ensuite le nombre supérieur de lignes pour le montant calculé aussi rapidement que possible.
L’échantillon de données résultant peut ou non inclure toutes les lignes dont vous avez besoin, selon la manière dont l’échantillon a été calculé et retourné. Si vous ne voyez pas les données attendues, vous pouvez modifier les paramètres de l’échantillon de données pour exécuter à nouveau la requête.
Lors de la création ou de la modification de flux sur le Web, des limites s’appliquent à la quantité de données que vous pouvez inclure dans un flux et les options disponibles pour modifier votre échantillon de données sont légèrement différentes de celles lorsque vous travaillez dans Tableau Prep Builder. Pour plus d’informations, voir Échantillons de données et limites de traitement dans l’aide de Tableau Server(Le lien s’ouvre dans une nouvelle fenêtre) ou Tableau Cloud(Le lien s’ouvre dans une nouvelle fenêtre).
Remarque : si vos données sont échantillonnées, un badge Échantillonné s’affiche dans le volet Profil et persiste pour chaque étape que vous ajoutez. Toutes les modifications que vous apportez s’appliquent à l’échantillon sur lequel vous travaillez dans le flux. Toutes les modifications s’appliquent à tout l’ensemble de données lorsque vous exécutez le flux.
Pour modifier les paramètres de votre échantillon de données, sélectionnez une étape de saisie, puis dans l’onglet Échantillon de données, choisissez parmi les options suivantes :
(2023.1—Automatique) (2022.4 et versions antérieures—Quantité d’échantillon par défaut) : Tableau Prep calcule le nombre total de lignes à renvoyer. Il s’agit de la valeur par défaut.
(2023.1—Maximum) (2022.4 et versions antérieures—Utiliser toutes les données ): (Tableau Prep Builder uniquement) récupérez toutes les lignes de votre ensemble de données, quelle qu’en soit la taille. Ceci peut avoir une incidence sur les performances ou entraîner une expiration de délai dans Tableau Prep Builder.
Remarque : pour maintenir les performances, même si vous sélectionnez ce paramètre, une limite d’échantillon de données de 1 million de lignes est appliquée aux types d’étapes Agrégation et Union, et une limite d’échantillon de données de 3 millions de lignes est appliquée aux types d’étapes Jointure et Permutation.
(2023.1—Spécifier) (2022.4 et versions antérieures—Nombre fixe de lignes ): sélectionnez le nombre de lignes à retourner à partir de l’ensemble de données. Le nombre de lignes recommandé est de 1 million au maximum. Définir le nombre de lignes sur plus de 1 million peut avoir une incidence sur les performances.
- Dans la création Web : le nombre maximum de lignes qu’un utilisateur peut sélectionner lors de l’utilisation d’ensembles de données volumineux est configuré par l’administrateur. En tant qu’utilisateur, vous pouvez sélectionner le nombre de lignes jusqu’à cette limite.
Sélection rapide (par défaut) : la base de données retourne le nombre de lignes demandées aussi rapidement que possible. Ce peut être les N premiers nombres de lignes ou les lignes que la base de données a mises en cache dans la mémoire lors d’une précédente requête.
Échantillon aléatoire : la base de données retourne le nombre de lignes demandées mais examine chaque ligne de l’ensemble de données et retourne un échantillon représentatif de toutes les lignes. Cette option peut avoir une incidence sur les performances lors de la récupération initiale des données.