PDF-Datei

In diesem Artikel wird beschrieben, wie Tableau mit PDF-Dateidaten verbunden und die Datenquelle eingerichtet wird.

Hinweis: Linksläufige Sprachen werden von Tableau nicht unterstützt. Enthält Ihre PDF-Datei linksläufigen Text, werden die Zeichen in Tableau möglicherweise in umgekehrter Reihenfolge angezeigt.

Herstellen der Verbindung und Durchsuchen des Dokuments nach Tabellen

  1. Klicken Sie nach dem Öffnen von Tableau unter Verbinden auf PDF-Datei.

  2. Wählen Sie die Datei aus, zu der Sie eine Verbindung herstellen möchten, und klicken Sie anschließend auf Öffnen.

  3. Geben Sie im Dialogfeld "PDF-Datei überprüfen" die Seiten in der Datei an, die Tableau auf Tabellen überprüfen soll. Sie können auswählen, auf allen Seiten, auf einer einzelnen Seite oder in einem Seitenbereich eine Überprüfung auf Tabellen vorzunehmen.

    Hinweis: Bei der Überprüfung wird wie bei den meisten PDF-Readern die erste Seite als Seite 1 gezählt. Geben Sie beim Überprüfen auf Tabellen die Seitenzahl an, die der PDF-Reader anzeigt, und nicht die Seitenzahl, die im Dokument selbst verwendet wird und die möglicherweise mit der Seite 1 beginnt oder nicht.

    Beispiel: Angenommen Sie möchten die "Tabelle 1" im nachfolgenden Bild verwenden. Der PDF-Reader und die .pdf-Datei zeigen unterschiedliche Seitenzahlen an. Um korrekt nach dieser Tabelle zu suchen, geben Sie die Seitenzahl an, die der PDF-Reader anzeigt. In diesem Beispiel müssten Sie die Seite 15 angeben.

  4. Gehen Sie auf der Datenquellenseite wie folgt vor:

    1. (Optional) Wählen Sie den Standard-Datenquellennamen oben auf der Seite aus, und geben Sie dann einen eindeutigen Datenquellennamen für die Verwendung in Tableau ein. Beispielsweise können Sie eine Benennungskonvention für die Datenquelle verwenden, die anderen Benutzern hilft, daraus abzuleiten, welche Datenquelle verbunden werden soll. Der Standardname wird auf Grundlage des Dateinamens automatisch generiert.

    2. Wenn die Excel-Datei eine Tabelle enthält, klicken Sie auf die Registerkarte "Blatt", um die Analyse zu starten. Ziehen Sie andernfalls im linken Bereich eine Tabelle in den Arbeitsbereich und klicken Sie dann auf die Blattregisterkarte, um Ihre Analyse zu starten.

      Informationen zu Tabellen im linken Bereich

      Nach der Überprüfung werden die in der .pdf-Datei gefundenen Tabellen eindeutig benannt und im linken Bereich angezeigt. So kann beispielsweise eine Tabelle mit einem Namen wie "Seite 1, Tabelle 1" angezeigt werden. Der erste Teil des Tabellennamens gibt die Seite in der .pdf-Datei an, aus der die Tabelle stammt. Der zweite Teil des Tabellennamens gibt die Reihenfolge wieder, in der die Tabelle identifiziert wurde. Wenn Tableau mehr als eine Tabelle auf einer Seite findet, kann der zweite Teil des Tabellennamens auf folgende zwei Dinge hinweisen: 

      • Tableau hat eine weitere einzigartige Tabelle oder Untertabelle auf der Seite gefunden.
      • Tableau hat die Tabelle auf der Seite auf andere Weise interpretiert. Tableau kann mehrere Interpretationen einer Tabelle bereitstellen. Dies hängt davon ab, wie die Tabelle in Ihrer .pdf-Datei präsentiert wird.

Beispiel für eine PDF-Dateidatenquelle

Im Folgenden finden Sie ein Beispiel einer PDF-Dateidatenquelle: 

Abrufen weiterer Daten

Fügen Sie Ihrer Datenquelle weitere Daten hinzu, indem Sie weitere Tabellen hinzufügen oder eine Verbindung zu Daten herstellen, die sich in einer anderen Datenbank befinden.

  • Hinzufügen von mehr Daten aus der aktuellen Datei: 

    • Ziehen Sie im linken Bereich die zusätzlichen Tabellen in den Arbeitsbereich, um die Daten mithilfe von "Verknüpfen" oder "Vereinigen" zu kombinieren. Weitere Informationen finden Sie unter Verknüpfen Ihrer Daten oder Vereinigen von Daten.

    • Wenn die in Schritt 3 in der oben aufgeführten Prozedur untersuchten Seiten nicht die Tabellen ausgeben, die Sie im linken Bereich benötigen, klicken Sie auf den Dropdown-Pfeil neben der PDF-Dateiverbindung und klicken Sie auf PDF-Datei erneut überprüfen. Mit dieser Option können Sie eine neue Überprüfung erstellen, damit Sie andere Seiten in der PDF-Datei angeben können, um eine Überprüfung auf Tabellen durchzuführen.

  • Hinzufügen weiterer Daten von einer anderen Datenbank: Klicken Sie im linken Bereich auf Hinzufügen neben "Verbindungen". Weitere Informationen finden Sie unter Verknüpfen Ihrer Daten.

    Wenn ein gewünschter Connector im linken Bereich nicht aufgeführt ist, wählen Sie Daten > Neue Datenquelle aus, um eine neue Datenquelle hinzuzufügen. Weitere Informationen finden Sie unter Verschmelzen von Daten.

Festlegen der Tabellenoptionen

Sie können Tabellenoptionen festlegen. Klicken Sie im Arbeitsbereich auf den Dropdown-Pfeil der Tabelle, und legen Sie dann fest, ob die Daten Feldnamen in der ersten Zeile enthalten sollen. Diese Namen werden zu den Feldnamen in Tableau. Falls keine Feldnamen vorhanden sind, werden sie automatisch in Tableau erzeugt. Sie können die Felder später umbenennen.

Bereinigen von Daten mit dem Data Interpreter

Wenn Tableau feststellt, dass Ihre Datenquelle für die Analyse optimiert werden kann, werden Sie aufgefordert, den Data Interpreter zu verwenden. Der Dateninterpreter kann Untertabellen ermitteln, die Sie verwenden können, und singuläre Formatierungen entfernen, die möglicherweise später in Ihrer Analyse zu Problemen führen. Weitere Informationen finden Sie unter Bereinigen von Daten aus Excel, CSV, PDF und Google Tabellen mit dem Data Interpreter.

Vereinigen von Tabellen in Ihren PDF-Dateien

Sie können Tabellen in Ihrer Datei vereinigen. Weitere Informationen zur Vereinigung finden Sie unter Vereinigen von Daten.

Beim Verwenden der Platzhaltersuche zum Vereinigen von Tabellen erstreckt sich das Ergebnis auf die Seiten, die in der Ausgangsdatei überprüft wurden, zu der Sie eine Verbindung hergestellt haben. Angenommen, Sie verfügen über drei Dateien:A.pdf, B.pdf und C.pdf. Die erste Datei, zu der Sie eine Verbindung herstellen, lautet "A" und Sie begrenzen die Überprüfung auf Tabellen auf Seite 1. Beim Verwenden der Platzhaltersuche zum Vereinigen von Tabellen von den Dateien "B" und "C" können die zusätzlichen in der Vereinigung enthaltenen Tabellen nur von Seite 1 von "B" und Seite 1 von "C" stammen.

Tipps für das Arbeiten mit PDF-Dateien

Die folgenden Tipps können Sie bei der Arbeit mit Ihren PDF-Dateien in Tableau unterstützen.

  • Verwenden Sie den PDF-Datei-Connector, um nur die Tabellen in Ihrer PDF-Datei zu ermitteln.

    Das primäre Ziel des PDF-Datei-Connectors besteht darin, Tabellen in Ihrer PDF-Datei zu finden und zu ermitteln. Daher ignoriert er andere Informationen in der Datei, die kein Teil einer Tabelle sind. Dazu zählen Titel, Beschriftungen und Fußnoten. Wenn relationale Daten in einem dieser Bereiche gespeichert sind, beispielsweise im Tabellentitel, können Sie Tableau verwenden, um zunächst die PDF-Dateidaten in eine CSV-Datei zu exportieren, die im Tabellentitel gespeicherten Daten manuell hinzuzufügen und dann stattdessen eine Verbindung zur CSV-Datei herzustellen. Weitere Informationen finden Sie unter Exportieren der Daten als CSV-Datei.

  • Verwenden Sie Standardtabellen.

    In der Regel erzielt Tableau die besten Ergebnisse mit Standardtabellen, die ein Tabellenformat verwenden.

    Im Idealfall sollte Ihre PDF-Datei Spaltenköpfe und Zeilenwerte in jeweils einer eigenen Zeile enthalten (siehe nachfolgendes Beispiel).

    In oder um Tabellen herum verwendete Farben und Schattierungen können beeinflussen, wie Tabellen erkannt werden.

    Bei Tabellen mit einer eindeutigen Formatierung sind möglicherweise Bereinigungen oder manuelle Bearbeitungen außerhalb von Tableau erforderlich. Eindeutige Formatierungen können hierarchische Kopfzeilen, Kopfzeilennamen oder Zeilenwerte, die sich über mehrere Zeilen erstrecken, gedrehte Kopfzeilen und gestapelte Tabellen beinhalten (siehe nachfolgende Beispiele).

    Hinweis: Tableau unterstützt keine Verbindungen zu .pdf-Dateien, die mithilfe von OCR (Optical Character Recognition, optische Zeichenerkennung)-Scansoftware erzeugt wurden.

  • Validieren Sie die Daten.

    Stellen Sie sicher, dass Sie die Daten in den Tabellen validieren, die Tableau in Ihrer PDF-Datei ermittelt. Sie können die Daten validieren, indem Sie das Datenraster verwenden. Alternativ können Sie die Arbeitsmappe mit den Ergebnissen verwenden, sofern Sie den Dateninterpreter verwendet haben.

  • Vermeiden Sie die Verwendung von Tabellen, die sich auf mehrere Seiten erstrecken.

    Falls Ihre .pdf-Datei eine Tabelle beinhaltet, die sich über mehrere Seiten erstreckt, erkennt Tableau diese Tabelle nicht als eine, sondern als mehrere Tabellen. Verwenden Sie zur Vermeidung dieses Problems eine Verknüpfung, um die Tabellen zu kombinieren. Weitere Informationen finden Sie unter Vereinigen von Daten.

  • Benennen Sie .pdf-Dateien um, deren Dateiname Unicode-Zeichen beinhaltet.

    Nach der Herstellung einer Verbindung zu einer .pdf-Datei, deren Name Unicode-Zeichen beinhaltet, wird unter Umständen folgender Fehler angezeigt.

    Um dieses Problem zu beheben, benennen Sie die Datei unter Verwendung von Nicht-Unicode-Zeichen um, und stellen Sie erneut eine Verbindung zur .pdf-Datei her.

  • Verwenden Sie keine kennwortgeschützten .pdf-Dateien.

    Nach der Herstellung einer Verbindung und Überprüfung einer .pdf-Datei auf Tabellen wird unter Umständen folgender Fehler angezeigt.

    Tableau zeigt diesen Fehler an, wenn Ihre .pdf-Datei kennwortgeschützt ist und Tableau so nicht auf deren Inhalt zugreifen kann. Tableau kann keine Verbindung zu kennwortgeschützten .pdf-Dateien herstellen.

  • Alias-Werte werden unterschiedlich oder falsch interpretiert.

    Im Datenraster werden Sie unter Umständen feststellen, dass einige Werte aus der .pdf-Datei unterschiedlich interpretiert werden. Sie können diese Interpretation durch die Verwendung von Alias-Namen zum Umbenennen bestimmter Werte innerhalb eines Felds korrigieren.

    Angenommen, nach dem Herstellen der Verbindung zu Ihrer PDF-Datei wird die nachfolgende Tabelle angezeigt. Einige Abkürzungen von Bundesstaaten werden als kleingeschrieben interpretiert. Diese werden blau hervorgehoben.

    Sie können dieses Problem beheben, indem Sie Alias-Namen verwenden, um die kleingeschriebenen Abkürzungen in großgeschriebene Abkürzungen zu ändern. Klicken Sie dazu auf den Dropdown-Pfeil neben dem Spaltennamen, und wählen Sie die Option Aliasse aus.

  • Stellen Sie Spaltenköpfe wieder her, die als Tabellenwerte interpretiert wurden.

    Im Datenraster werden Sie unter Umständen feststellen, dass einige Spaltenköpfe in Ihrer PDF-Datei stattdessen als Tabellenwerte interpretiert werden. Dies kann der Fall sein, wenn Ihre PDF-Datei Tabellen mit eindeutiger Formatierung oder hierarchische Überschriften enthält. In diesem Szenario sollten Sie zunächst den Dateninterpreter testen. Wenn der Dateninterpreter dieses Problem nicht behebt, sollten Sie die Spalten ggf. manuell in ihre entsprechenden Namen umbenennen und die Kopfzeilennamen, die als Werte behandelt werden, mithilfe von Datenquellenfiltern filtern.

    Angenommen, nach dem Herstellen der Verbindung zu Ihrer PDF-Datei wird die nachfolgende Tabelle angezeigt. Die Tabellenüberschriften von der PDF-Datei werden als Tabellenwerte interpretiert, die in Blau hervorgehoben werden.

    Eine Möglichkeit, ein Überschriftenproblem wie dieses zu lösen, besteht darin, den Schritten zu folgen, die den folgenden ähneln:

    1. Doppelklicken Sie auf den Spaltennamen und benennen Sie dann "F1" in "Jahr" um. Wiederholen Sie diesen Schritt für "F2" bis "F4" für "Kohle", "Gas" und "Öl".

    2. Klicken Sie auf das Datentypsymbol für die Spalte "Jahr" und ändern Sie es in einen Zahlendatentyp. Dies führt dazu, dass die nicht numerischen Werte in dieser Spalte in Nullwerte umgewandelt werden.

    3. Klicken Sie in der oberen rechten Ecke der Datenquellenseite auf Hinzufügen, klicken Sie auf die Schaltfläche Hinzufügen und wählen Sie dann das Feld "Jahr" aus.

    4. Aktivieren Sie im Dialogfeld "Filter" die Kontrollkästchen Null und Ausschließen.

      Die Zeilen in der Spalte "Jahr", die Nullwerte enthalten, werden aus dem Datenraster entfernt. Dies wirkt sich auf die Zeilen aus den anderen Spalten in der Tabelle aus.

Informationen zu .ttde- und .hhyper-Dateien

Möglicherweise sehen Sie .ttde- oder .hhyper-Dateien, wenn Sie im Computerverzeichnis navigieren. Falls Sie eine Tableau-Datenquelle erstellen, die mit Ihren Daten verbunden wird, erstellt Tableau eine .ttde- oder .hyper-Datei. Diese Datei, auch als Schattenextrakt bezeichnet, dient dazu, dass Ihre Datenquelle schneller in Tableau Desktop geladen wird. Schattenextrakte enthalten wie Tableau-Standardextrakte zugrunde liegende Daten und andere Informationen, sie werden jedoch in einem anderen Format gespeichert und können daher nicht zur Wiederherstellung von Daten verwendet werden.

 

Siehe auch

Vielen Dank für Ihr Feedback!Ihr Feedback wurde erfolgreich übermittelt. Vielen Dank.