Configurer votre ensemble de données

Remarque : depuis la version 2020.4.1, vous pouvez désormais créer et modifier des flux dans Tableau Server et Tableau Online. Le contenu de cette rubrique s’applique à toutes les plates-formes, sauf mention spécifique. Pour plus d’informations sur la création de flux sur le Web, consultez Tableau Prep sur le Web.

Pour déterminer la proportion de votre ensemble de données à inclure dans le flux, vous pouvez configurer votre ensemble de données. Lorsque vous vous connectez à vos données ou que vous faites glisser des tables vers le volet Flux, une étape des données entrantes est automatiquement ajoutée au flux. Ceci est toujours la première étape de votre flux. Vous pouvez faire un clic droit sur l'étape des données entrantes pour la renommer ou la supprimer. Si vous êtes connecté à un fichier Excel ou texte, vous pouvez également actualiser les données de l'étape des données entrantes. Pour savoir comment actualiser les données à partir de l'étape des données entrantes, consultez Ajouter des données supplémentaires à l'étape des données entrantes(Link opens in a new window).

Dans l'étape des données entrantes, vous pouvez voir les détails de votre ensemble de données. C'est ici que vous pouvez rechercher des champs, consulter des échantillons de valeurs et prendre des mesures pour réduire la taille de votre ensemble de données, par exemple en sélectionnant les champs à inclure, en sélectionnant l'échantillon de données avec lequel travailler, ou en appliquant des filtres aux champs ou lignes sélectionnés. Vous pouvez également configurer les propriétés du champ en modifiant le nom du champ ou configurer les paramètres de texte pour les fichiers texte.

Vous pouvez également modifier le type de données dans l’étape des données entrantes pour les connexions de données qui le prennent en charge. Il s’agit notamment de Microsoft Excel, de fichiers texte et PDF, ainsi que des données Box, Dropbox, Google Drive et OneDrive. Pour d’autres sources de données, vous pouvez modifier le type de données dans une étape de nettoyage. Pour plus d’informations, consultez Vérifier les types de données affectés à vos données.

Remarque : les crochets dans les valeurs de champ sont automatiquement convertis en parenthèses.

Se connecter à une requête SQL personnalisée

Si votre base de données prend en charge SQL personnalisé, vous verrez s'afficher SQL personnalisé s'afficher près du bas du volet Connexions. Double-cliquez sur SQL personnalisé pour ouvrir l'onglet SQL personnalisé où vous pouvez entrer des requêtes pour présélectionner les données et utiliser des opérations spécifiques aux sources. Une fois que la requête a récupéré les données, vous pouvez sélectionner les champs à inclure, appliquer des filtres, ou modifier le type de données avant d'ajouter les données à votre flux.

Pour plus d’informations sur l’utilisation de SQL personnalisé, consultez Utiliser SQL personnalisé pour la connexion aux données.

Appliquer des opérations de nettoyage à une étape des données entrantes

Seules quelques opérations de nettoyage sont disponibles dans une étape des données entrantes. Vous pouvez apporter n'importe laquelle des modifications suivantes dans la liste des champs d'entrée. Vos modifications sont enregistrées dans le volet Modifications et des annotations sont ajoutées à gauche de l'étape des données entrantes dans le volet Flux et dans la liste des champs d'entrée.

  • Filtrer : Cliquez sur Filtrer les valeurs dans la barre d'outils pour entrer vos critères de filtre dans l'éditeur de calcul.

  • Renommer un champ : Dans le champ Nom du champ, double-cliquez (Ctrl +clic sur MacOS) sur le nom du champ et entrez un nouveau nom de champ.

  • Modifier le type de données : Cliquez sur le type de données du champ et sélectionnez un nouveau type de données dans le menu.

  • Supprimer un champ : Désélectionnez la case à cocher à côté des champs que vous ne souhaitez pas inclure dans votre flux.

Sélectionner les champs à inclure dans le flux

Le volet Entrée affiche une liste des champs de votre ensemble de données. Vous pouvez utiliser le champ Rechercher pour rechercher des champs dans la liste puis utiliser les cases à cocher pour sélectionner les champs à inclure ou à exclure. Pour inclure ou exclure tous les champs du flux, basculez la case à cocher en haut à gauche de la grille.

Appliquer des filtres au champ dans l'étape des données entrantes

Pour filtrer un champ, procédez comme suit :

  1. Dans la barre d'outils, cliquez sur Filtrer les valeurs.

  2. Entrez vos critères de filtre dans l'éditeur de calcul.

Le type de filtre de calcul est la seule option de filtre disponible dans l'étape des données entrantes. D'autres options de filtre sont disponibles dans d'autres types d'étapes. Pour plus d'informations, consultez Filtrer vos données(Link opens in a new window).

Modifier les noms de fichiers

Pour modifier le nom d'un champ, dans la colonne Nom du champ, sélectionnez le nom, puis entrez le nouveau nom dans le champ. Une annotation est ajoutée à la grille de champs et dans le volet Flux à gauche de l'étape des données entrantes. Vos modifications sont également enregistrées dans le volet Modifications.

Modifier les types de données

Pour modifier le type de données pour un champ, procédez comme suit :

  1. Cliquez sur le type de données pour le champ.

  2. Sélectionnez le nouveau type de données dans le menu.

    Vous pouvez également modifier le type de données des champs dans d'autres types d'étape du flux ou affecter des types de données pour vous aider à valider vos valeurs de champ. Pour plus d'informations sur la modification de votre type de données ou l'utilisation de types de données, voir Vérifier les types de données affectés à vos données(Link opens in a new window) et Utiliser les types de données pour valider vos données(Link opens in a new window).

Configurer les propriétés des champs

Lorsque vous travaillez avec des fichiers texte, vous voyez s'afficher un onglet Paramètres où vous pouvez modifier votre connexion et configurer les propriétés du texte, par exemple le séparateur de champs pour les fichiers texte. Vous pouvez également modifier la connexion aux fichiers dans le volet Connexions ou configurer les paramètres d’actualisation incrémentielle. Pour plus d’informations sur la configuration de l'actualisation incrémentielle pour votre flux, consultez Actualiser les données de flux à l’aide d'une actualisation incrémentielle.

Lorsque vous travaillez avec des fichiers texte ou Excel, vous pouvez corriger les types de données qui ont été incorrectement induits avant que vous commenciez votre flux. Les types de données peuvent toujours être modifiés par étapes consécutives dans le volet Profil après le démarrage de votre flux.

Configurer les paramètres de texte dans les fichiers texte

Pour modifier les paramètres utilisés pour analyser les fichiers texte, faites votre choix parmi les options suivantes :

  • La première ligne contient l'en-tête (par défaut) : sélectionnez cette option pour utiliser la première ligne comme étiquettes de champs.

  • Générer les noms de champs automatiquement : sélectionnez cette option si vous souhaitez que Tableau Prep Builder génère automatiquement les en-têtes de champ. La convention de dénomination des champs suit le même modèle que Tableau Desktop, par exemple F1, F2 etc.

  • Séparateur de champs : sélectionnez un caractère dans la liste à utiliser pour séparer les colonnes. Sélectionnez Autre pour entrer un caractère personnalisé.

  • Qualificateur de texte : sélectionnez le caractère qui entoure les valeurs dans le fichier.

  • Jeu de caractères : sélectionnez le jeu de caractères qui décrit le codage du fichier texte.

  • Paramètres régionaux : sélectionnez les paramètres régionaux à utiliser pour analyser le fichier. Ce paramètre indique quelle décimale et quel séparateur de milliers utiliser.

Définir la taille de votre échantillon de données

Afin de conserver des performances optimales, Tableau Prep limite par défaut les données incluses dans le flux à un échantillon représentatif de votre ensemble de données. L'échantillon de données est déterminé en calculant le nombre optimal de lignes basé sur le nombre total de champs dans l'ensemble de données et les types de données pour ces champs. Tableau Prep récupère ensuite le nombre supérieur de lignes pour le montant calculé aussi rapidement que possible.

L'échantillon de données résultant peut ou non inclure toutes les lignes dont vous avez besoin, selon la manière dont l'échantillon a été calculé et retourné. Si vous ne voyez pas les données attendues, vous pouvez modifier les paramètres de l'échantillon de données pour exécuter à nouveau la requête.

Lors de la création ou de la modification de flux sur le Web, des limites s’appliquent à la quantité de données que vous pouvez inclure dans un flux et les options disponibles pour modifier votre échantillon de données sont légèrement différentes de celles lorsque vous travaillez dans Tableau Prep Builder. Pour plus d'informations, consultez Échantillons de données et limites de traitement.

Remarque : si vos données sont échantillonnées, un badge Échantillonné s'affiche dans le volet Profil et persiste pour chaque étape que vous ajoutez. Toutes les modifications que vous apportez s'appliquent à l'échantillon sur lequel vous travaillez dans le flux. Toutes les modifications s'appliquent à tout l'ensemble de données lorsque vous exécutez le flux.

Pour modifier les paramètres de votre échantillon de données, sélectionnez une étape des données entrantes, puis dans l'onglet Échantillon de données, choisissez parmi les options suivantes :

  • Exemple de montant par défaut (par défaut) : Tableau Prep calcule le nombre total de lignes à retourner.

  • Utiliser toutes les données : (Tableau Prep Builder uniquement) récupérez toutes les lignes de votre ensemble de données, quelle qu'en soit la taille. Ceci peut avoir une incidence sur les performances ou entraîner une expiration de délai dans Tableau Prep Builder.

    Remarque : pour maintenir les performances, même si vous sélectionnez ce paramètre, une limite d'échantillon de données de 1 million de lignes est appliquée aux types d'étapes Agrégation et Union, et une limite d'échantillon de données de 3 millions de lignes est appliquée aux types d'étapes Jointure et Permutation.

  • Nombre fixe de lignes : sélectionnez le nombre de lignes à retourner à partir de l'ensemble de données. Le nombre de lignes recommandé est de 1 million au maximum. Définir le nombre de lignes sur plus de 1 million peut avoir une incidence sur les performances.

    • Dans la création Web : le nombre maximum de lignes qu’un utilisateur peut sélectionner lors de l’utilisation d’ensembles de données volumineux est configuré par l’administrateur. En tant qu’utilisateur, vous pouvez sélectionner le nombre de lignes jusqu’à cette limite.
  • Sélection rapide (par défaut) : la base de données retourne le nombre de lignes demandées aussi rapidement que possible. Ce peut être les N premiers nombres de lignes ou les lignes que la base de données a mises en cache dans la mémoire lors 'une précédente requête.

  • Échantillon aléatoire : la base de données retourne le nombre de lignes demandées mais examine chaque ligne de l'ensemble de données et retourne un échantillon représentatif de toutes les lignes. Cette option peut avoir une incidence sur les performances lors de la récupération initiale des données.

Merci de vos commentaires !