PDF-bestand
In dit artikel wordt beschreven hoe u Tableau verbindt met .pdf-bestandsinformatie en de databron configureert.
Opmerking: Tableau ondersteunt geen talen die van rechts naar links worden geschreven (RTL). Als uw PDF RTL-tekst bevat, worden tekens in Tableau mogelijk in omgekeerde volgorde weergegeven.
De verbinding maken en uw document scannen op tabellen
Nadat u Tableau hebt geopend, klikt u onder Verbinding maken op PDF-bestand.
Selecteer het bestand waarmee u verbinding wilt maken en klik vervolgens op Openen.
Geef in het dialoogvenster PDF-bestand scannen de pagina's in het bestand op die Tableau moet scannen op tabellen. U kunt ervoor kiezen om te scannen naar tabellen op alle pagina's, slechts op één pagina of op een reeks pagina's.
Opmerking: Bij de scan wordt de eerste pagina van het bestand als pagina 1 beschouwd, net als bij de meeste PDF-lezers. Wanneer u naar tabellen scant, geeft u het paginanummer op dat de PDF-lezer weergeeft en niet het paginanummer dat in het document zelf wordt gebruikt (dit nummer kan al dan niet beginnen op pagina 1).
Stel dat u bijvoorbeeld "Tabel 1" uit de onderstaande afbeelding wilt gebruiken. De PDF-lezer geeft een nummer weer en het .pdf-bestand geeft een ander nummer weer. Om deze tabel correct te scannen, geeft u het paginanummer op dat de PDF-lezer weergeeft. In dit voorbeeld geeft u pagina 15 op.
Op de pagina Databron doet u het volgende:
(Optioneel) Selecteer de standaard databronnaam boven aan de pagina en voer vervolgens een unieke databronnaam in voor gebruik in Tableau. Gebruik bijvoorbeeld een naamgevingsconventie voor databronnen waarmee andere gebruikers van de databron kunnen bepalen met welke databron ze verbinding moeten maken. De standaardnaam wordt automatisch gegenereerd op basis van de bestandsnaam.
Als uw bestand één tabel bevat, klikt u op het tabblad Blad om uw analyse te starten. Anders sleept u vanuit het linkerdeelvenster een tabel naar het canvas en klikt u vervolgens op het tabblad Blad om uw analyse te starten.
Over de tabellen in het linkerdeelvenster
Tabellen die in het .pdf-bestand worden geïdentificeerd, krijgen unieke namen en worden na een scan in het linkerdeelvenster weergegeven. U ziet een tabelnaam bijvoorbeeld als "Pagina 1, Tabel 1". Het eerste deel van de tabelnaam geeft de pagina in het .pdf-bestand aan waaruit de tabel afkomstig is. Het tweede deel van de tabelnaam geeft de volgorde aan waarin de tabel is geïdentificeerd. Als Tableau meer dan één tabel op een pagina heeft geïdentificeerd, kan het tweede deel van de tabelnaam een van twee zaken aangeven:
- Tableau heeft een andere unieke tabel of subtabel op de pagina geïdentificeerd.
- Tableau heeft de tabel op de pagina op een andere manier geïnterpreteerd. Tableau biedt mogelijk meerdere interpretaties van een tabel, afhankelijk van hoe de tabel in uw .pdf-bestand wordt weergegeven.
Voorbeeld van een PDF-bestandsdatabron
Hier is een voorbeeld van een PDF-bestandsdatabron:
Meer data verkrijgen
U kunt meer data in uw databron opnemen door meer tabellen toe te voegen of verbinding te maken met data in een andere database.
Meer data toevoegen vanuit het huidige bestand:
Sleep vanuit het linkerdeelvenster extra tabellen naar het canvas om data te combineren met behulp van een join of vereniging. Zie Joins maken van uw data of Uw data verenigen voor meer informatie.
Als de pagina's die in stap 3 van de hierboven vermelde procedure zijn gescand niet de tabellen opleveren die u in het linkerdeelvenster nodig hebt, klikt u op de vervolgkeuzepijl naast de PDF-bestandsverbinding en klikt u op PDF-bestand opnieuw scannen. Met deze optie kunt u een nieuwe scan maken, zodat u verschillende pagina's in het .pdf-bestand kunt opgeven die u op tabellen wilt scannen.
Meer data toevoegen vanuit een andere database: Klik in het linkerdeelvenster op Toevoegen naast Verbindingen. Zie Joins maken van uw data voor meer informatie.
Als de gewenste connector niet in het linkerdeelvenster staat, selecteert u Data > Nieuwe databron om een nieuwe databron toe te voegen. Zie Uw data combineren voor meer informatie.
Tabelopties instellen
U kunt tabelopties instellen. Klik in het canvas op de vervolgkeuzepijl van de tabel en geef vervolgens op of de data veldnamen in de eerste rij bevatten. Als dat zo is, worden deze namen de veldnamen in Tableau. Als er geen veldnamen zijn opgenomen, genereert Tableau deze automatisch. U kunt de veldennamen later wijzigen.
Data-interpreter gebruiken om uw data op te schonen
Als Tableau detecteert dat uw databron kan worden geoptimaliseerd voor analyse, wordt u gevraagd Data-interpreter te gebruiken. Data-interpreter kan subtabellen detecteren die u kunt gebruiken en unieke opmaak verwijderen die later in uw analyse problemen kan veroorzaken. Zie Data uit Excel, CSV, PDF en Google Spreadsheets opschonen met Data-interpreter voor meer informatie.
Verenigde tabellen in uw .pdf-bestanden
U kunt tabellen in uw bestand verenigen. Zie Uw data verenigen voor meer informatie over vereniging.
Wanneer u een zoekopdracht met jokertekens gebruikt om tabellen te verenigen, wordt het resultaat beperkt tot de pagina's die zijn gescand in het oorspronkelijke bestand waarmee u verbinding hebt gemaakt. Stel dat u drie bestanden hebt: A.pdf, B.pdf en C.pdf. Het eerste bestand waarmee u verbinding maakt is bestand A en u beperkt het scannen naar tabellen tot pagina 1. Wanneer u een zoekopdracht met jokertekens gebruikt om tabellen uit bestanden B en C te verenigen, kunnen de extra tabellen die in de vereniging zijn opgenomen alleen afkomstig zijn van pagina 1 van B en pagina 1 van C.
Tips voor het werken met .pdf-bestanden
De volgende tips kunnen u helpen bij het werken met uw .pdf-bestanden in Tableau.
Gebruik de PDF-bestandconnector om alleen de tabellen in uw .pdf-bestand te identificeren.
Het primaire doel van de PDF-bestandconnector is het vinden en identificeren van tabellen in uw .pdf-bestand. Daarom wordt alle andere informatie in het bestand genegeerd die geen deel lijkt uit te maken van een tabel, inclusief titels, bijschriften en voetnoten. Als gerelateerde data in een van deze gebieden zijn opgeslagen, bijvoorbeeld in de tabeltitel, kunt u Tableau gebruiken om eerst de data uit het .pdf-bestand te exporteren naar een .csv-bestand, de data die in de tabeltitel zijn opgeslagen handmatig toe te voegen en vervolgens verbinding te maken met het .csv-bestand. Zie De data naar een .csv-bestand exporteren voor meer informatie.
Gebruik standaardtabellen.
Over het algemeen werkt Tableau het beste met standaardtabellen die een tabelformaat gebruiken.
Idealiter hebben de tabellen in uw .pdf-bestand kolomkoppen op één regel en rijwaarden op één regel, zoals getoond in het onderstaande voorbeeld.
De kleuren en arceringen die in of rond de tabellen worden gebruikt, kunnen van invloed zijn op de manier waarop de tabellen worden herkend.
Tabellen met een unieke opmaak vereisen mogelijk wat opschoning of handmatige bewerking buiten Tableau. Unieke opmaak kan bestaan uit hiërarchische kopteksten, koptekstnamen die meerdere regels beslaan, rijwaarden die meerdere regels beslaan, hoekkoppen en gestapelde tabellen, zoals getoond in de onderstaande voorbeelden.
Opmerking: Tableau ondersteunt geen verbindingen met .pdf-bestanden die zijn gegenereerd door scansoftware (optische tekenherkenning of OCR).
Valideer de data.
Valideer de data in de tabellen die Tableau identificeert in uw .pdf-bestand. U kunt de data valideren met het dataraster of, als u de Data-interpreter hebt gebruikt, met de resultatenwerkmap.
Vermijd tabellen die meerdere pagina's beslaan.
Als uw .pdf-bestand een tabel bevat die meerdere pagina's beslaat, interpreteert Tableau die tabel als meerdere tabellen. U kunt dit probleem oplossen door de tabellen met een vereniging te combineren. Zie Uw data verenigen voor meer informatie.
Wijzig de namen van .pdf-bestanden waarvan de bestandsnamen Unicode-tekens bevatten.
Nadat u verbinding hebt gemaakt met een .pdf-bestand met Unicode-tekens in de bestandsnaam, kan de volgende foutmelding worden getoond.
U kunt dit probleem oplossen door de naam van het bestand te wijzigen en geen Unicode-tekens te gebruiken. Maak vervolgens opnieuw verbinding met uw .pdf-bestand.
Gebruik geen met wachtwoord beveiligde .pdf-bestanden.
Nadat u verbinding hebt gemaakt met een .pdf-bestand en het hebt gescand op tabellen, ziet u mogelijk de volgende foutmelding.
Tableau toont deze foutmelding wanneer uw .pdf-bestand met een wachtwoord is beveiligd en u geen toegang hebt tot de inhoud ervan. Tableau ondersteunt geen verbindingen met .pdf-bestanden met wachtwoordbeveiliging.
Aliaswaarden die anders of onjuist worden geïnterpreteerd.
In het dataraster ziet u mogelijk dat sommige waarden anders worden geïnterpreteerd dan in het .pdf-bestand. U kunt deze interpretatie corrigeren door aliassen te gebruiken om namen van specifieke waarden binnen een veld te wijzigen.
Stel bijvoorbeeld dat u de volgende tabel ziet nadat u verbinding hebt gemaakt met uw .pdf-bestand. Sommige afkortingen van staten worden in kleine letters geïnterpreteerd. Deze zijn blauw gemarkeerd.
U kunt dit probleem oplossen door aliassen te gebruiken om de afkortingen met kleine letters te vervangen door hoofdletters. Hiervoor klikt u op de vervolgkeuzepijl naast de kolomnaam en selecteert u Aliassen.
Los kolomkoppen op die worden geïnterpreteerd als tabelwaarden.
In het dataraster ziet u mogelijk ook dat sommige kolomkoppen in uw .pdf-bestand als tabelwaarden worden geïnterpreteerd. Dit kan gebeuren als uw .pdf-bestand tabellen bevat met unieke opmaak of hiërarchische kopteksten. Probeer in dit scenario eerst de Data-interpreter. Als het probleem niet met Data-interpreter wordt opgelost, kunt u overwegen de naam van de kolommen handmatig te wijzigen. Ook kunt u koptekstnamen filteren met databronfilters als ze als waarden worden behandeld.
Stel bijvoorbeeld dat u de volgende tabel ziet nadat u verbinding hebt gemaakt met uw .pdf-bestand. De tabelkoppen uit het .pdf-bestand worden geïnterpreteerd als tabelwaarden. Deze zijn met blauw gemarkeerd.
Een manier om een dergelijk probleem met kopteksten op te lossen, is door de volgende stappen te volgen:
Dubbelklik op de kolomnaam en wijzig de naam F1 naar Jaar. Herhaal deze stap voor F2 tot en met F4 voor Kolen, Gas en Olie.
Klik op het pictogram Datatype voor de kolom Jaar en wijzig het naar het datatype Nummer. Hierdoor worden de niet-numerieke waarden in deze kolom omgezet naar null-waarden.
Klik in de rechterbovenhoek van de pagina Databron op Toevoegen, klik op de knop Toevoegen en selecteer vervolgens het veld Jaar.
Selecteer in het dialoogvenster Filter de selectievakjes Null en Uitsluiten.
De rijen in de kolom Jaar die null-waarden bevatten, worden uit het dataraster verwijderd. Dit heeft invloed op de rijen in de andere kolommen in de tabel.
Over .ttde- en .hhyper bestanden
Mogelijk ziet u .ttde- of .hhyper-bestanden wanneer u door de directory van uw computer navigeert. Wanneer u een Tableau-databron maakt die verbinding maakt met uw data, maakt Tableau een .ttde- of .hhyper-bestand. Dit bestand, ook wel een schaduwextract genoemd, wordt gebruikt om de snelheid waarmee uw databron in Tableau Desktop wordt geladen, te verbeteren. Hoewel een schaduwextract onderliggende data en andere informatie bevat die vergelijkbaar is met het standaard Tableau-extract, wordt een schaduwextract in een ander formaat opgeslagen en kan het niet worden gebruikt om uw data te herstellen.
Zie ook
- Databronnen instellen – Voeg meer data toe aan deze databron of bereid de data voor voordat u deze analyseert.
- Diagrammen maken en data analyseren – Begin met de data-analyse.