Fichier PDF

Cet article décrit comment connecter Tableau à des données de fichier .pdf et configurer la source de données.

Remarque : Tableau ne prend pas en charge les langues de droite à gauche (RTL). Si votre PDF comprend du texte RTL, les caractères peuvent s’afficher sur Tableau dans l’ordre inverse.

Établir la connexion et rechercher des tables dans votre document

  1. Après avoir ouvert Tableau, sous Connexion, cliquez sur Fichier PDF.

  2. Sélectionnez le fichier auquel vous souhaitez vous connecter, puis cliquez sur Ouvrir.

  3. Dans la boîte de dialogue Analyser le fichier PDF, spécifiez les pages dans le fichier dont vous souhaitez que Tableau recherche les tables. Vous pouvez choisir de rechercher les tables dans toutes les pages, une seule page ou une plage de pages.

    Remarque : l’analyse compte la première page du fichier comme la page 1, à l’instar de la plupart des lecteurs PDF. Lorsque vous recherchez des tables, indiquez le numéro de page que le lecteur PDF affiche, et non pas le numéro de page éventuellement utilisé dans le document lui-même, lequel peut ou non démarrer à partir de la page 1.

    Supposons par exemple que vous souhaitiez utiliser la « Table 1 » dans l’image ci-dessous. Le lecteur PDF affiche un numéro, et le fichier .pdf en affiche un autre. Pour rechercher correctement cette table, spécifiez le numéro de page affiché par le lecteur PDF. Dans cet exemple, vous indiquez la page 15.

  4. Sur la page de la source de données, procédez comme suit :

    1. (Facultatif) Sélectionnez le nom de la source de données par défaut en haut de la page, puis tapez un nom de source de données unique pour l’utiliser dans Tableau. Par exemple, utilisez une convention pertinente d’appellation de la source de données qui aide d’autres utilisateurs de la source de données à déduire à quelle source de données se connecter.Le nom par défaut est généré automatiquement sur la base du nom du fichier.

    2. Si votre fichier contient une table, cliquez sur l’onglet de la feuille de calcul pour démarrer votre analyse. Sinon, depuis le volet de gauche, sélectionnez une table, faites-la glisser vers le canevas, puis cliquez sur l’onglet de la feuille pour commencer l’analyse.

      À propos des tables dans le volet de gauche

      Les tables identifiées dans le fichier .pdf reçoivent des noms uniques et s’affichent dans le volet de gauche après une analyse. Par exemple, vous pouvez voir un nom de table tel que « Page 1, Table 1 ». La première partie du nom de la table indique la page du fichier .pdf d’où la table est issue. La seconde partie du nom de la table indique l’ordre d’identification de la table. Si Tableau a identifié plus d’une table dans une page, la seconde partie du nom de la table peut indiquer l’une des deux choses suivantes : 

      • Tableau a identifié une autre table ou sous-table unique dans la page.
      • Tableau a interprété la table sur la page d’une autre manière. Tableau peut fournir plusieurs interprétations d’une table selon la manière dont la table se présente dans votre fichier .pdf.

Exemple de source de données de fichier PDF

Voici un exemple de source de données de fichier PDF : 

Obtenir davantage de données

Intégrez davantage de données dans votre source de données en ajoutant des tables supplémentaires ou en vous connectant à des données dans une base de données différente.

  • Ajouter davantage de données depuis le fichier actuel : 

    • Depuis le volet de gauche, faites glisser des tables supplémentaires vers le canevas pour combiner des données à l’aide d’une liaison ou d’une union. Pour plus d’informations, voir Lier vos données ou Réunir vos données.

    • Si les pages qui ont été numérisées à l’étape 3 de la procédure indiquée ci-dessus ne produisent pas les tableaux dont vous avez besoin dans le volet de gauche, cliquez sur la flèche déroulante à côté de la connexion au fichier PDF et cliquez sur Renumériser le fichier PDF. Cette option vous permet de créer une nouvelle numérisation afin de pouvoir spécifier différentes pages dans le fichier .pdf afin de numériser les tables.

  • Ajouter davantage de données depuis une base de données différente : Dans le volet de gauche, cliquez sur Ajouter à côté de Connexions. Pour plus d’informations, voir Lier vos données.

    Si un connecteur recherché ne figure pas dans le volet de gauche, sélectionnez Données > Nouvelle source de données pour ajouter une nouvelle source de données. Pour plus d’informations, consultez Combiner vos données.

Définir les options d’une table

Vous pouvez définir des options de table. Sur le canevas, cliquez la flèche déroulante de la table, puis spécifiez si les données doivent inclure les noms de champ dans la première ligne. Dans ce cas, ces noms deviennent les noms des champs dans Tableau. Si les noms des champs ne sont pas inclus, Tableau les génère automatiquement. Vous pouvez renommer les champs ultérieurement.

Utiliser l’Interpréteur de données pour nettoyer vos données

S’il détecte qu’il peut contribuer à optimiser votre source de données pour l’analyse, Tableau vous invite à utiliser l’Interpréteur de données. L’Interpréteur de données peut détecter des sous-tables que vous pouvez utiliser, et supprimer une mise en forme unique susceptible de provoquer des problèmes ultérieurs lors de votre analyse. Pour plus d’informations, consultez Nettoyer les données de fichiers Excel, CSV, PDF et Google Sheets à l’aide de l’Interpréteur de données.

Réunir des tables dans vos fichiers .pdf

Vous pouvez réunir des tables dans votre fichier. Pour plus d’informations sur l’union, consultez Réunir vos données.

Lorsque vous utilisez une recherche par caractère générique pour réunir des tables, le résultat de l’union englobe les pages qui ont été numérisées dans le fichier initial auquel vous étiez connecté. Supposons, par exemple, que vous ayez trois fichiers : A.pdf, B.pdf et C.pdf. Le premier fichier auquel vous connectez est A et vous limitez la numérisation des tables à la page 1. Lorsque vous utilisez la recherche par caractère générique pour unir des tables à partir des fichiers B et C, les tables supplémentaires incluses dans l’union peuvent uniquement provenir de la page 1 de B et de la page 1 de C.

Conseils pour utiliser les fichiers .pdf

Les conseils suivants peuvent vous aider à utiliser vos fichiers .pdf dans Tableau.

  • Utiliser le connecteur de fichier PDF pour identifier seulement les tables dans votre fichier .pdf.

    Le principal objectif du connecteur de fichier PDF est de détecter et d’identifier les tables dans votre fichier .pdf. Il ignore donc toutes les autres informations du fichier qui ne semblent pas faire partie d’une table, y compris les titres, les légendes et les notes de bas de page. Si les données associées sont stockées dans l’une de ces zones, par exemple le titre de la table, vous pouvez utiliser Tableau pour exporter en premier les données du fichier .pdf dans un fichier .csv, ajouter manuellement les données stockées dans le titre de la table, puis vous connecter à la place au fichier .csv. Pour plus d’informations, consultez Exporter vos données vers un fichier .csv.

  • Utiliser des tables standard.

    En général, les performances de Tableau sont optimales avec des tables standard utilisant un format tabulaire.

    Idéalement, les tables de votre fichier .pdf doivent avoir des en-têtes de colonne sur une seule ligne et des valeurs de ligne sur une seule ligne, comme montré dans l’exemple ci-dessous.

    Les couleurs ou les trames d’arrière-plan utilisées dans ou autour des tables peuvent affecter la manière dont les tables sont identifiées.

    Les tables à mise en forme unique peuvent nécessiter un nettoyage ou une édition manuelle en-dehors de Tableau. La mise en forme unique peut inclure des en-têtes hiérarchiques, des noms d’en-tête étendus sur plusieurs lignes, des valeurs de lignes s’étendant sur plusieurs lignes, des en-têtes d’angle et des tables empilées comme montré dans les exemples ci-dessous.

    Remarque : Tableau ne prend pas en charge les connexions à des fichiers .pdf générés par les logiciels de scannage (reconnaissance optique de caractères).

  • Valider les données.

    Veillez à valider les données dans les tables que Tableau identifie dans votre fichier .pdf. Vous pouvez valider les données à l’aide de la grille de données ou, si vous avez utilisé l’Interpréteur de données, le classeur de résultats.

  • Évitez les tables qui s’étendent sur plusieurs pages.

    Si votre fichier .pdf contient une table qui s’étend sur plusieurs pages, Tableau interprète cette table comme plusieurs tables. Pour résoudre ce problème, utilisez une union pour combiner les tables. Pour plus d’informations, voir Réunir vos données.

  • Renommer les fichiers .pdf dont le nom de fichier contient des caractères unicode.

    Après la connexion à un fichier .pdf contenant des caractères unicode dans son nom de fichier, l’erreur suivante peut s’afficher :

    Pour résoudre ce problème, renommez le fichier en utilisant des caractères non-unicode, et connectez-vous à nouveau à votre fichier .pdf.

  • Ne pas utiliser des fichiers .pdf protégés par mot de passe.

    Après vous être connecté à un fichier .pdf et y avoir recherché des tables, vous pouvez voir s’afficher l’erreur suivante :

    Tableau affiche cette erreur lorsque votre fichier .pdf est protégé par mot de passe et incapable d’accéder à son contenu. Tableau ne peut pas prendre en charge les connexions vers des fichiers .pdf protégés par mot de passe.

  • Créer des alias pour les valeurs qui sont interprétées différemment ou incorrectement.

    Dans la grille de données, vous pouvez remarquer que certaines valeurs sont interprétées différemment du fichier .pdf. Vous pouvez corriger cette interprétation en utilisant des alias pour renommer des valeurs spécifiques dans un champ.

    Par exemple, supposons que vous voyiez la table suivante après vous être connecté à votre fichier .pdf. Certaines abréviations d’État sont interprétées sous leur forme en minuscules, qui sont surlignées en bleu.

    Vous pouvez résoudre ce problème en utilisant des alias pour modifier les abréviations en minuscules en des abréviations en majuscules. Pour cela, cliquez sur la flèche déroulante à côté du nom de la colonne, puis sélectionnez Alias.

  • Résoudre les en-têtes de colonne qui sont interprétés comme valeurs de table.

    Dans la grille de données, vous pouvez également remarquer que certains en-têtes de colonne dans votre fichier .pdf sont interprétés en tant que valeurs de table à la place. Ceci peut se produire si votre fichier .pdf contient des tables avec une mise en forme unique ou des en-têtes hiérarchiques. Dans ce scénario, commencez par utiliser l’Interpréteur de données. Si l’interpréteur de données ne résout pas le problème, envisagez de renommer manuellement les colonnes en choisissant des noms respectifs appropriés et en filtrant les noms d’en-tête qui sont traités comme des valeurs en utilisant des filtres de source de données.

    Par exemple, supposons que vous voyiez la table suivante après vous être connecté à votre fichier .pdf. Les en-têtes de table du fichier .pdf sont interprétés comme des valeurs de table, et sont surlignés en bleu.

    Pour résoudre un problème d’en-tête, vous pouvez suivre une procédure de ce type :

    1. Double-cliquez sur le nom de la colonne, puis renommez F1 en Year. Répétez cette étape de F2 à F4 pour Coal, Gas et Oil.

    2. Cliquez sur l’icône du type de données pour la colonne Year et modifiez-la en un type de données Nombre. Les valeurs non numériques de cette colonne sont alors converties en valeurs null.

    3. Dans le coin supérieur droit de la page Source de données, cliquez sur Ajouter, cliquez sur le bouton Ajouter, puis sélectionnez le champ Year.

    4. Dans la boîte de dialogue Filtrer, sélectionnez à la fois les cases à cocher Null et Exclure.

      Les lignes de la colonne Year qui contiennent des valeurs null sont supprimées de la grille de données, ce qui affecte les lignes des autres colonnes dans la table.

À propos des fichiers .ttde et .hhyper

Vous remarquerez peut-être des fichiers .ttde ou .hhyper lorsque vous parcourez le répertoire de votre navigateur. Lorsque vous créez une source de données Tableau qui se connecte à vos données, Tableau crée un fichier .ttde ou .hhyper. Ce fichier, également appelé extrait shadow, sert à améliorer la vitesse de chargement de votre source de données dans Tableau Desktop. Si un extrait shadow contient des données sous-jacentes et d’autres informations similaires à celles de l’extrait Tableau standard, un extrait shadow est par contre enregistré dans un format différent, et ne peut pas être utilisé pour récupérer vos données.

Remarque : les fichiers .tde ont cessé d’être pris en charge après la version 2024.2 de Tableau . Tous les extraits sont désormais au format .hyper.

 

Voir également

Merci de vos commentaires !Avis correctement envoyé. Merci