Configurer votre ensemble de données

S’applique à : Tableau Prep

Remarque : Depuis la version 2020.4.1, vous pouvez désormais créer et modifier des flux dans Tableau Server et Tableau Cloud. Le contenu de cette rubrique s’applique à toutes les plateformes, sauf indication contraire. Pour plus d’informations sur la création de flux sur le Web, consultez Tableau Prep sur le Web dans l’aide de Tableau Server(Le lien s’ouvre dans une nouvelle fenêtre) et de Tableau Cloud(Le lien s’ouvre dans une nouvelle fenêtre).

Pour déterminer la proportion de votre ensemble de données à inclure dans le flux, vous pouvez configurer votre ensemble de données. Lorsque vous vous connectez à vos données ou que vous faites glisser des tables vers le volet Flux, une étape de saisie est automatiquement ajoutée au flux.

L’étape de saisie est l’endroit où vous pouvez décider quelles données et combien de données inclure dans votre flux. Ceci est toujours la première étape du flux.

Si vous êtes connecté à un fichier Excel ou texte, vous pouvez également actualiser les données de l’étape de saisie. Pour plus d’informations, consultez la section Ajouter des données supplémentaires à l’étape de saisie(Le lien s’ouvre dans une nouvelle fenêtre).

À l’étape de saisie, vous pouvez :

Faire un clic droit ou Cmd-clic (MacOS) sur l’étape de saisie dans le volet du flux pour la renommer ou la supprimer.
Réunir plusieurs fichiers dans le même répertoire parent ou enfant. Pour plus d’informations, consultez la section Réunir des fichiers et des tables de base de données dans l’étape de saisie.
(2023.1 et versions ultérieures) Incluez les numéros de ligne générés automatiquement en fonction de l’ordre de tri d’origine de votre ensemble de données. Voir Inclure les numéros de ligne de votre ensemble de données.
Rechercher des champs.
Voir un aperçu des valeurs de champ.
Configurer les propriétés du champ en modifiant le nom du champ ou configurer les paramètres de texte pour les fichiers texte.
Remarque : les crochets dans les valeurs de champ sont automatiquement convertis en parenthèses.
Configurez l’échantillon de données ingéré dans votre flux. Voir Définir la taille de votre échantillon de données.
Supprimez les champs dont vous n’avez pas besoin. Vous pouvez toujours revenir à l’étape de saisie et les inclure plus tard.
Masquez les champs que vous n’avez pas besoin de nettoyer, mais que vous voulez quand même inclure dans votre sortie de flux. Vous pouvez les afficher à tout moment si vous en avez besoin.
Appliquez des filtres aux champs sélectionnés.
Modifiez le type de données des champs pour les connexions de données qui les prennent en charge.
(version 2023.3 et versions ultérieures) Vous pouvez définir l’en-tête et la ligne de début des fichiers CSV.
(version 2024.1 et versions ultérieures) Vous pouvez définir l’en-tête et la ligne de début des fichiers Excel.

Inclure les numéros de ligne de votre ensemble de données

Pris en charge dans Tableau Prep Builder version 2023.1 et versions ultérieures et sur le Web pour les fichiers Microsoft Excel et texte (.csv).

Remarque : Cette option n’est actuellement pas prise en charge pour les fichiers inclus dans une union d’entrée.

À partir de la version 2023.1, Tableau Prep génère automatiquement des numéros de ligne en fonction de l’ordre de tri d’origine de vos données que vous pouvez inclure en tant que nouveau champ dans votre flux. Ceci est disponible uniquement pour les types de fichiers Microsoft Excel ou texte (.csv).

Dans les versions précédentes, si vous vouliez inclure ces numéros de ligne, vous deviez les ajouter manuellement à la source avant d’ajouter l’ensemble de données à votre flux.

Ce champ est généré à l’étape de saisie lorsque vous vous connectez à vos données. Par défaut, il est exclu du flux, mais vous pouvez l’inclure en un clic. Si vous choisissez de l’inclure, il se comporte comme n’importe quel autre champ et peut être utilisé dans vos opérations de flux et vos champs calculés.

Tableau Prep prend également en charge la fonction ROW_NUMBER pour les champs calculés. Cette fonction est utile lorsque votre ensemble de données contient des champs qui peuvent définir le tri, tels que l’ID de ligne ou l’horodatage. Pour plus d’informations sur l’utilisation de cette fonction, voir Créer des calculs de niveau de détail, de classement et de section.

Ajouter le champ Numéro de ligne source à votre flux

Faites un clic droit ou Cmd-clic (MacOS) sur le champ, ou cliquez sur le menu Plus d’options et sélectionnez Inclure le champ.
Aperçu des données :
Liste des champs:

La liste des modifications est effacée, le champ fait désormais partie des données de flux et vous pouvez voir les numéros de ligne générés dans les étapes de flux suivantes.

Détails du numéro de ligne source

Lorsque vous incluez le Numéro de ligne source dans votre ensemble de données, les options et considérations suivantes s’appliquent.

Les numéros de ligne de la source de données sont appliqués avant tout échantillonnage ou filtre de données.
Cela crée un nouveau champ appelé Numéro de ligne source qui persiste tout au long du flux. Ce nom de champ n’est pas localisé, mais peut être renommé à tout moment.
Si un champ portant ce nom existe déjà, le nouveau nom de champ est incrémenté de 1. Par exemple, Numéro de ligne source-1, Numéro de ligne source-2, etc.
Vous pouvez modifier le type de données du champ dans les étapes suivantes.
Vous pouvez utiliser ce champ dans les opérations de flux et les calculs.
Cette valeur est régénérée pour l’ensemble du jeu de données chaque fois que les données d’entrée sont actualisées ou que le flux est exécuté.
Ce champ n’est pas disponible pour les unions d’entrée.

Définir la ligne d’en-tête et la ligne de début des données

Pris en charge dans Tableau Prep Builder version 2023.3 et versions ultérieures ainsi que sur le Web pour les fichiers texte (.csv), et dans la version 2024.1 et versions ultérieures pour les fichiers Excel (.xls).

Vous pouvez définir une ligne spécifique comme ligne d’en-tête de champ, ainsi que la ligne sur laquelle commencent les données pour les fichiers Excel et texte (.csv).

Lors de la connexion à des fichiers Excel ou texte, il est fréquent que les fichiers soient mis en forme avec l’information sur les métadonnées dans les premières lignes afin de les rendre lisibles par l’utilisateur. Par défaut, Tableau Prep interprète la première ligne d’un fichier CSV comme étant la ligne d’en-tête des champs. Les fichiers Excel sont interprétés en fonction des types de champs et des lignes vides. Tableau Prep peut sélectionner une ligne comme en-tête ou ne pas inclure de ligne d’en-tête.

Par exemple,dans les fichiers suivants, STORE DETAILS est interprété comme ligne d’en-tête.

Vous pouvez exclure l’information sur les métadonnées (1) et fournir la structure for schéma correcte de vos données en définissant la ligne 3 comme en-tête (2) et la ligne 4 comme ligne de début des données.

Fichiers CSV :

Métadonnées d’en-tête, notamment les détails du magasin, tels que le code, la description et les valeurs unitaires.

Fichiers Excel :

L’exemple suivant montre les paramètres par défaut pour l’en-tête de ligne et la ligne de début :

Ce qui suit montre les données avec les métadonnées exclues :

Remarque: L’aperçu des données ne reflète pas les modifications apportées aux paramètres de l’échantillon de données.

Configurer la ligne d’en-tête et la ligne de début des données

À l’aide de la vue d’entrée Aperçu des données, vous pouvez inspecter visuellement la structure du schéma de vos données et définir les lignes d’en-tête et de début pour exclure les métadonnées des données source d’entrée.

Vous pouvez attribuer à la ligne de début des données n’importe quelle valeur supérieure à celle de la ligne d’en-tête. Par défaut, Tableau Prep attribue à la ligne de début des données le numéro qui est immédiatement consécutif à celui de la ligne d’en-tête. Les lignes situées entre la ligne d’en-tête et la ligne de début des données sont ignorées.

Remarque: L’aperçu des données et l’interpréteur de données s’excluent mutuellement. L’interpréteur de données détecte uniquement les sous-tables de vos feuilles de calcul Excel et ne prend pas en charge la spécification de la ligne de début pour les fichiers texte et les feuilles de calcul.

Sélectionnez l’étape de saisie.
Dans la barre d’outils, cliquez sur la vue d’entrée Aperçu des données.
Sur la ligne que vous souhaitez définir comme en-tête, cliquez sur le menu Plus d’options et sélectionnez Définir comme en-tête.
Sur la ligne que vous souhaitez définir comme ligne de début des données, cliquez sur le menu Plus d’options et sélectionnez Définir comme début des données. Par défaut, la ligne de début des données est définie sur le numéro de ligne consécutif suivant.
Le menu Options d’en-tête affiche la ligne d’en-tête et le numéro de ligne de la ligne de début des données. Il est également possible de définir l’en-tête et la ligne de début directement dans la boîte de dialogue Options d’en-tête.

Plusieurs schémas dans un seul fichier

Si un seul fichier comprend des sources de données multiples, vous pouvez créer une étape de saisie supplémentaire en vous connectant à la même source de données, puis en définissant les lignes d’en-tête et de début des données pour la deuxième source de données. Par exemple, le fichier suivant comprend une source de données qui commence à la ligne 3 (1) et un deuxième schéma différent et séparé qui commence à la ligne 28 (2).

Une source de données qui commence à la ligne 3 (1) et un deuxième schéma différent et séparé qui commence à la ligne 28 (2).

Plusieurs schémas dans un seul fichier.

Pour ce type de source de données, procédez comme suit.

Sélectionnez la premier étape de saisie.
Dans la barre d’outils, cliquez sur la vue d’entrée Aperçu des données.
Sur la ligne que vous souhaitez définir comme en-tête, cliquez sur le menu Plus d’options et sélectionnez Définir comme en-tête.
Sur la ligne que vous souhaitez définir comme ligne de début des données, cliquez sur Plus d’options et sélectionnez Définir comme début des données. Par défaut, la ligne de début des données est définie sur le numéro de ligne consécutif suivant.
Sélectionnez l’étape de saisie suivante.
Répétez les étapes ci-dessus pour définir l’en-tête et la ligne de début des sources de données supplémentaires.
Les lignes situées entre la ligne d’en-tête et la ligne de début des données sont ignorées.

Réunir plusieurs tables

Pris en charge dans Tableau Prep Builder version 2024.1 et versions ultérieures et sur le Web pour les fichiers texte (.csv).

Vous pouvez réunir plusieurs tables à partir de sources de données ayant la même structure de schéma et la même ligne de métadonnées.

Connectez-vous aux fichiers et sélectionnez la première étape de saisie.
Dans la barre d’outils, cliquez sur la vue d’entrée Aperçu des données.
Sur la ligne que vous souhaitez définir comme en-tête, cliquez sur Plus d’options et sélectionnez Définir comme en-tête.
Sur la ligne que vous souhaitez définir comme ligne de début des données, cliquez sur Plus d’options et sélectionnez Définir comme début des données.
Clique sur l’onglet Tables et sélectionnez Réunir plusieurs tables.

Cliquez sur Appliquer pour réunir les fichiers et conserver la sélection d’en-tête et de ligne pour tous les fichiers de l’union d’entrée. Cela suppose que le schéma et la structure des fichiers d’entrée réunis sont les mêmes.

Se connecter à une requête SQL personnalisée

Si votre base de données prend en charge le SQL personnalisé, vous verrez SQL personnalisé s’afficher près du bas du volet Connexions. Double-cliquez sur SQL personnalisé pour ouvrir l’onglet SQL personnalisé où vous pouvez entrer des requêtes pour présélectionner les données et utiliser des opérations spécifiques aux sources. Une fois que la requête a récupéré les données, vous pouvez sélectionner les champs à inclure, appliquer des filtres, ou modifier le type de données avant d’ajouter les données à votre flux.

L’onglet SQL personnalisé dans une étape de saisie de flux Tableau Prep où vous pouvez entrer une requête SQL pour vous connecter aux données.

Pour plus d’informations sur l’utilisation de SQL personnalisé, voir Utiliser SQL personnalisé pour la connexion aux données.

Appliquer des opérations de nettoyage à une étape de saisie

Seules quelques opérations de nettoyage sont disponibles dans une étape de saisie. Vous pouvez apporter n’importe laquelle des modifications suivantes dans la liste des champs d’entrée. Vos modifications sont enregistrées dans le volet Modifications et des annotations sont ajoutées à gauche de l’étape de saisie dans le volet Flux et dans la liste des champs de saisie.

Masquer le champ : masquez les champs au lieu de les supprimer pour réduire l’encombrement de votre flux. Vous pouvez toujours les afficher si vous en avez besoin. Les champs masqués seront toujours inclus dans votre sortie lorsque vous exécuterez votre flux.
Filtre : utilisez l’éditeur de calcul pour filtrer les valeurs ou, à partir de la version 2023.1, vous pouvez désormais utiliser la boîte de dialogue Filtre de date relative pour spécifier rapidement des plages de dates pour n’importe quel champ de date ou de date et heure.
Renommer un champ : Dans le champ Nom du champ, double-cliquez (Ctrl +clic sur MacOS) sur le nom du champ et entrez un nouveau nom de champ.
Modifier le type de données : Cliquez sur le type de données du champ et sélectionnez un nouveau type de données dans le menu. Cette option est actuellement prise en charge pour Microsoft Excel, les fichiers texte et PDF, les sources de données Box, Dropbox, Google Drive et OneDrive. Toutes les autres sources de données peuvent être modifiées dans une étape propre.

Sélectionner les champs à inclure dans le flux

Remarque : à partir de la version 2023.1, vous pouvez sélectionner plusieurs champs pour les masquer, les afficher, les supprimer ou les inclure. Dans les versions précédentes, vous pouvez travailler avec un champ à la fois et cocher ou décocher les cases pour inclure ou supprimer des champs.

Le volet Entrée affiche une liste des champs de votre ensemble de données. Par défaut, tous les champs sont inclus sauf le champ généré automatiquement, Numéro de ligne source. Utilisez la vue Aperçu des données ou Liste pour gérer vos champs.

Rechercher : trouver des champs.
Masquer les champs: masquez les champs que vous souhaitez inclure dans la sortie de votre flux, mais que vous n’avez pas besoin de nettoyer.
- Dans la liste des champs, cliquez sur l’icône de l’œil ou sélectionnez Masquer les champs dans le menu Plus d’options.
- Dans l’aperçu des données, sélectionnez Masquer les champs dans le menu Plus d’options.
Les champs sont traités par le flux pendant l’exécution. Vous pouvez également afficher les champs à tout moment lorsque vous en avez besoin. Pour plus d’informations, consultez Masquer des champs(Le lien s’ouvre dans une nouvelle fenêtre).
Inclure les champs : Ajoutez des champs qui ont été marqués comme supprimés à votre flux.
- Dans la liste des champs, sélectionnez une ou plusieurs lignes et faites un clic droit ou Cmd-clic sur MacOS ou cliquez sur le menu Plus d’options, puis sélectionnez Inclure les champs pour rajouter les champs marqués comme supprimés.
- Dans l’aperçu des données, cliquez sur le menu Options supplémentaires du champ que vous souhaitez inclure dans votre flux et sélectionnez Inclure les champs.
Supprimer des champs :
- Dans la liste des champs, sélectionnez une ou plusieurs lignes et faites un clic droit ou Cmd-clic sur MacOS, cliquez sur le « X », ou cliquez sur le menu Plus d’options, puis sélectionnez Supprimer les champs pour supprimer les champs que vous ne souhaitez pas inclure dans le flux.
- Dans l’aperçu des données, cliquez sur le menu Plus d’options sur le champ que vous souhaitez supprimer et sélectionnez Supprimer le champ.

Appliquer des filtres au champ dans l’étape de saisie

Appliquez des filtres à l’étape d’entrée pour réduire la quantité de données que vous ingérez à partir de vos sources de données. Vous pouvez gagner en efficacité en termes de performances interactives et obtenir un échantillon de données plus utile en éliminant les données que vous ne souhaitez pas traiter lorsque vous exécutez le flux.

Dans l’étape de saisie, vous pouvez appliquer des filtres l’aide de l’éditeur de calcul. À partir de la version 2023.1, vous pouvez également utiliser la boîte de dialogue Filtre de date relative pour spécifier une plage de dates exacte de valeurs à inclure pour les types de champs de date et de date et heure. Pour plus d’informations, voir « Filtre de date relative » dans Filtrer vos données(Le lien s’ouvre dans une nouvelle fenêtre).

Vous pouvez utiliser d’autres options de filtre dans l’étape Nettoyer ou d’autres types d’étapes. Pour plus d’informations, voir Filtrer vos données(Le lien s’ouvre dans une nouvelle fenêtre).

Appliquer un filtre de calcul

Dans la barre d’outils, cliquez sur Filtrer les valeurs. Utilisez l’une des méthodes suivantes pour filtrer vos données :
- Dans Liste des champs, cliquez sur Options supplémentaires à partir du nom du champ et sélectionnez Filtrer > Calcul....
- Dans Aperçu des données, cliquez sur Options supplémentaires à partir du nom du champ et sélectionnez Filtrer > Calcul....
Entrez vos critères de filtre dans l’éditeur de calcul.

Appliquer un filtre de date relative

Sélectionnez un champ avec un type de données Date ou Date et heure. et utilisez l’une des méthodes suivantes pour appliquer un filtre de date relative.
- Dans la liste des champs, faites un clic droit ou Cmd-clic sur MacOS, ou cliquez sur le menu Plus d’options dans la colonne Nom du champ, puis sélectionnez Filtrer > Dates relatives.
- Dans l’aperçu des données, cliquez sur le menu Plus d’options à partir du champ et sélectionnez Filtrer > Dates relatives.
Dans la boîte de dialogue Filtre de date relative, spécifiez l’intervalle exact d’années, de trimestres, de mois, de semaines ou de jours que vous voulez inclure dans votre flux. Vous pouvez également configurer un ancrage relatif à une date spécifique et inclure les valeurs nulles.
Remarque : par défaut, le filtre fonctionne par rapport à la date à laquelle le flux est exécuté ou prévisualisé dans l’expérience de création.

Modifier les noms de fichiers

Utilisez l’une des méthodes suivantes pour modifier le nom d’un champ.

Une annotation est ajoutée à la grille de champs et dans le volet Flux à gauche de l’étape de saisie. Vos modifications sont également enregistrées dans le volet Modifications.

Dans la liste des champs, sélectionnez un champ dans la colonne Nom du champ et cliquez sur Renommer le champ. Saisissez le nouveau nom dans le champ.

Dans l’aperçu des données, sélectionnez un champ et cliquez sur Renommer le champ. Saisissez le nouveau nom dans le champ.

Modifier les types de données

Cette option est actuellement prise en charge pour Microsoft Excel, les fichiers texte et PDF, les sources de données Box, Dropbox, Google Drive et OneDrive. Toutes les autres sources de données peuvent être modifiées dans une étape propre.

Remarque : le type de données pour le numéro de ligne source (version 2023.1 et ultérieure) ne peut être modifié que dans une étape de nettoyage ou un autre type d’étape.

Pour modifier le type de données d’un champ, procédez comme suit :

Cliquez sur le type de données pour le champ.
Sélectionnez le nouveau type de données dans le menu.
- Aperçu des données :
- Vue du champ :

Vous pouvez également modifier le type de données des champs dans d’autres types d’étape du flux ou affecter des types de données pour vous aider à valider vos valeurs de champ. Pour plus d’informations sur la modification de votre type de données ou l’utilisation de rôles de données, voir Vérifier les types de données affectés à vos données(Le lien s’ouvre dans une nouvelle fenêtre) et Utiliser les rôles de données pour valider vos données(Le lien s’ouvre dans une nouvelle fenêtre).

Configurer les propriétés des champs

Lorsque vous travaillez avec des fichiers texte, vous voyez s’afficher un onglet Paramètres où vous pouvez modifier votre connexion et configurer les propriétés du texte, par exemple le séparateur de champs pour les fichiers texte. Vous pouvez également modifier la connexion aux fichiers dans le volet Connexions ou configurer les paramètres d’actualisation incrémentielle. Pour plus d’informations sur la configuration de l’actualisation incrémentielle pour votre flux, voir Actualiser les données de flux à l’aide d’une actualisation incrémentielle.

Lorsque vous travaillez avec des fichiers texte ou Excel, vous pouvez corriger les types de données qui ont été incorrectement induits avant que vous commenciez votre flux. Les types de données peuvent toujours être modifiés par étapes consécutives dans le volet Profil après le démarrage de votre flux.

Configurer les paramètres de texte dans les fichiers texte

Pour modifier les paramètres utilisés pour analyser les fichiers texte, faites votre choix parmi les options suivantes :

La première ligne contient l’en-tête (par défaut) : sélectionnez cette option pour utiliser la première ligne comme étiquettes de champs.
Générer les noms de champs automatiquement : sélectionnez cette option si vous souhaitez que Tableau Prep Builder génère automatiquement les en-têtes de champ. La convention de dénomination des champs suit le même modèle que Tableau Desktop, par exemple F1, F2 etc.
Séparateur de champs : sélectionnez un caractère dans la liste à utiliser pour séparer les colonnes. Sélectionnez Autre pour entrer un caractère personnalisé.
Qualificateur de texte : sélectionnez le caractère qui entoure les valeurs dans le fichier.
Jeu de caractères : sélectionnez le jeu de caractères qui décrit le codage du fichier texte.
Paramètres régionaux : sélectionnez les paramètres régionaux à utiliser pour analyser le fichier. Ce paramètre indique quelle décimale et quel séparateur de milliers utiliser.

Définir la taille de votre échantillon de données

La sélection stratifiée des lignes est prise en charge dans Tableau Prep Builder, version 2023,3 et versions ultérieures.

Tableau Prep détermine par défaut le nombre maximum de lignes requises pour explorer et préparer efficacement les données d’un échantillon représentatif de votre ensemble de données. D’après l’exemple d’algorithme de Tableau Prep, plus il y a de champs dans vos données d’entrée, plus le nombre de lignes autorisées est petit. Lorsque les données sont échantillonnées, l’échantillon obtenu peut inclure toutes les lignes dont vous avez besoin – ou pas, selon la manière dont l’échantillon a été calculé et retourné. Par exemple, par défaut, Tableau Prep utilise la méthode de sélection rapide pour échantillonner les données. Avec cette méthode, les lignes supérieures sont chargées et si votre ensemble de données est volumineux avec des données structurées de façon chronologique, vous pourrez visualiser vos premières données échantillonnées, mais toutes les données pourraient ne pas s’afficher complètement. Si vous ne voyez pas les données attendues, vous pouvez modifier les paramètres de l’échantillon de données pour exécuter à nouveau la requête.

Lors de la création ou de la modification de flux à l’aide de la création Web, le nombre maximal de lignes qu’un utilisateur peut sélectionner quand il utilise des ensembles de données volumineux est configuré par l’administrateur. Pour plus d’informations, consultez Échantillons de données et limites de traitement dans l’aide de Tableau Server(Le lien s’ouvre dans une nouvelle fenêtre) ou Tableau Cloud(Le lien s’ouvre dans une nouvelle fenêtre).

Préparation des données pour l’échantillonnage

Si vous savez que certaines valeurs ne sont pas requises pour votre analyse, supprimez les champs à l’étape de saisie de manière à ne pas inclure les données lors de la création ou de l’exécution de votre flux.

Si vous disposez d’un ensemble de données volumineux qui déclenche l’échantillonnage, la suppression des champs à l’étape de saisie augmente le nombre de lignes chargées par Tableau Prep. Lorsque l’échantillonnage n’est pas effectué, la suppression de champs à l’étape de saisie réduit le volume de données que Tableau Prep charge.

Une fois les champs et les valeurs inutiles supprimées de l’ensemble de données, vous pouvez modifier la méthode d’échantillonnage ou la quantité de données chargées pour l’échantillonnage.

Modification des paramètres de l’échantillon de données

Les échantillons de données facilitent l’expérience interactive et optimisent la modification du flux par rapport au profilage des données et à l’application de modifications à des ensembles de données dont le volume augmente pendant que vous travaillez. Les données sont toutes utilisées lors de l’exécution du flux. Toutes les modifications apportées dans la section échantillon s’appliquent au flux actuel.

Pour valider vos données après le nettoyage et la mise en forme, exécutez le flux et visualisez le résultat dans Tableau Desktop.

Remarque : Exécutez le flux complet au lieu de « visualiser l’échantillon dans Tableau Desktop » de manière à visualiser vos données dans leur intégralité. Si vous voyez des valeurs inattendues ou incorrectes qui ne figuraient pas dans l’échantillon, vous pouvez retourner dans Tableau Prep pour y remédier.

Supprimez les champs et les valeurs inutiles de l’ensemble de données.
Sélectionnez une étape de saisie, puis cliquez sur l’onglet Échantillon de données.
Sélectionnez le nombre de lignes que vous souhaitez charger pour l’échantillonnage des données. Le nombre de lignes que vous choisissez influence les performances.

Automatique : (par défaut) charge les données rapidement et calcule automatiquement le nombre de lignes pour qu’il y ait suffisamment de données pour un échantillon. Le nombre de lignes chargées est égal ou inférieur à 393 216.
Spécifier : s’utilise généralement pour charger un petit nombre de lignes afin de comprendre la structure des données et d’accélérer les temps de chargement. Spécifiez un nombre de lignes inférieur à 1 million.
Remarque : Dans la création Web, le nombre maximal de lignes qu’un utilisateur peut sélectionner lors de l’utilisation d’ensembles de données volumineux est configuré par l’administrateur. En tant qu’utilisateur, vous pouvez sélectionner le nombre de lignes jusqu’à cette limite.
Maximum : charge autant de données que possible pour une sélection de lignes égale ou inférieure à 1 048 576. Veillez à avoir des Ressources haute performance pour les grands ensembles de données.

Sélectionnez la méthode à utiliser pour le nombre de lignes renvoyées pour l’échantillonnage. Les performances peuvent être affectées par le choix d’une méthode aléatoire ou stratifiée.
Remarque : La sélection de lignes n’est prise en charge que si votre source de données d’entrée prend en charge l’échantillonnage aléatoire. Si votre source de données ne prend pas en charge l’échantillonnage aléatoire, la méthode de sélection rapide par défaut est utilisée.
- Sélection rapide : (par défaut) échantillonne les données en fonction des performances, les lignes étant renvoyées le plus rapidement possible. Certaines lignes peuvent ne pas être incluses dans l’échantillon. Les lignes utilisées pour l’échantillonnage peuvent être les N premières lignes ou les lignes que la base de données a mises en cache dans la mémoire lors d’une précédente requête. Bien que cette méthode soit presque toujours plus rapide que l’échantillonnage aléatoire, elle peut donner un échantillon biaisé (par exemple, des données pour une seule année plutôt que pour toutes les années présentes dans les données, si les enregistrements sont triés par ordre chronologique).
- Aléatoire : permet d’échantillonner un grand ensemble de données et d’obtenir une représentation générale de l’ensemble des lignes sélectionnées. Tableau Prep renvoie des lignes au hasard en fonction de toutes les lignes sélectionnées qui ont été chargées. Cette option peut affecter les performances lors de la récupération initiale des données.
- Stratifié : permet de regrouper les données en fonction d’un champ spécifié, puis de les échantillonner dans chaque sous-groupe. Prep retourne le nombre de lignes demandé en les répartissant dans le champ sélectionné de manière à obtenir un regroupement aussi équitable que possible. Dans certains cas, en fonction de la source de données, il se peut que certaines valeurs du champ comportent plus de lignes que d’autres.

Exemples

Ces exemples sont basés sur l’ensemble de données d’indicateurs mondiaux inclus dans Tableau Prep. Le premier échantillon utilise Automatique pour le nombre de lignes et Aléatoire pour la méthode d’échantillonnage ou le nombre de lignes à retourner pour l’échantillonnage.

Champs permettant de spécifier le nombre de lignes et la sélection de lignes, avec l’option Sélection aléatoire des lignes cochée.

Une fois ces valeurs sélectionnées, 3 000 lignes sont sélectionnées au hasard et utilisées pour représenter l’ensemble des données.

Les lignes sont sélectionnées au hasard et utilisées pour représenter l’ensemble de données.

Le deuxième exemple utilise Spécifier pour le nombre de lignes et Stratifié pour la méthode d’échantillonnage. Le nombre de lignes spécifié est fixé à 7 et le champ Taux de natalité est utilisé pour le regroupement.

Champs permettant de spécifier le nombre de lignes et la sélection de lignes, avec l’option Sélection stratifiée des lignes cochée.

Les nouvelles valeurs de l’échantillon montrent une répartition unifiée de 7 lignes de valeurs uniques dans tous les champs.

Le nombre de lignes spécifié est fixé à 7 et le champ Taux de natalité est utilisé pour le regroupement.

Retour en haut

Merci de vos commentaires!

Votre commentaire s été envoyé avec succès. Merci!

Aide de Tableau Prep