Konfigurieren des Datensatzes
Hinweis: Ab Version 2020.4.1 können Sie Schemata jetzt in Tableau Server und Tableau Cloud erstellen und bearbeiten. Der Inhalt in diesem Thema gilt für alle Plattformen, sofern nicht anders angegeben. Weitere Informationen zum Erstellen von Schemata im Internet finden Sie unter Tableau Prep im Internet in der Tableau Server(Link wird in neuem Fenster geöffnet)- und Tableau Cloud(Link wird in neuem Fenster geöffnet)-Hilfe.
Sie können Ihren Datensatz konfigurieren, um den Anteil des Datensatzes festzulegen, mit dem Sie im Schema arbeiten möchten. Beim Herstellen einer Verbindung mit Ihren Daten oder beim Ziehen von Tabellen in den Bereich Schema wird dem Schema automatisch ein Eingabeschritt hinzugefügt.
Im Eingabeschritt können Sie entscheiden, welche und wie viele Daten in Ihrem Schema enthalten sein sollen. Dies ist immer der erste Schritt im Schema.
Wenn Sie mit einer Excel- oder Textdatei verbunden sind, können Sie auch die Daten aus dem Eingabeschritt aktualisieren. Weitere Informationen dazu finden Sie unter Hinzufügen weiterer Daten im Eingabeschritt(Link wird in neuem Fenster geöffnet).
Im Eingabeschritt ist Folgendes möglich:
- Klicken Sie mit der rechten Maustaste bzw. Befehlstaste-Klick (MacOS) auf den Eingabeschritt im Schemabereich, um ihn umzubenennen oder zu entfernen.
- Vereinigen Sie mehrere Dateien im gleichen über- oder untergeordneten Verzeichnis. Weitere Informationen dazu finden Sie unter Vereinigen von Dateien und Datenbanktabellen im Schritt "Eingabe".
- (Version 2023.1 und höher) Schließen Sie automatisch generierte Zeilennummern basierend auf der ursprünglichen Sortierreihenfolge Ihres Datensatzes ein. Siehe Einschließen der Zeilennummern aus Ihrem Datensatz.
- Suchen Sie nach Feldern.
- Sehen Sie eine Vorschau der Feldwerte.
- Konfigurieren Sie die Feldeigenschaften, indem Sie den Feldnamen ändern oder die Texteinstellungen für Textdateien konfigurieren.
Hinweis: Feldwerte mit eckigen Klammern werden automatisch in normale Klammerzeichen konvertiert.
- Konfigurieren Sie die Datenstichprobe, die Sie in Ihr Schema aufgenommen haben. Informationen dazu finden Sie unter Festlegen der Stichprobengröße.
- Entfernen Sie Felder, die Sie nicht benötigen. Sie können jederzeit zum Eingabeschritt zurückkehren und sie später einfügen.
- Blenden Sie Felder aus, die Sie nicht bereinigen müssen, aber trotzdem in Ihrer Schemaausgabe enthalten sein sollen. Sie können sie bei Bedarf jederzeit wieder einblenden.
- Wenden Sie Filter auf ausgewählte Felder an.
- Ändern Sie den Felddatentyp für die Datenverbindungen, die dies unterstützen.
- (Version 2023.3 und höher) Sie können die Kopfzeile und die Startzeile für CSV-Dateien festlegen.
- (Version 2024.1 und höher) Sie können die Kopfzeile und die Startzeile für Excel-Dateien festlegen.
Einschließen der Zeilennummern aus Ihrem Datensatz
Unterstützt in Tableau Prep Builder Version 2023.1 und höher und im Web für Microsoft Excel- und Textdateien (.csv).
Anmerkung: Diese Option ist derzeit nicht für Dateien verfügbar, die in einer Eingabevereinigung enthalten sind..
Ab Version 2023.1 generiert Tableau Prep automatisch Zeilennummern basierend auf der ursprünglichen Sortierreihenfolge Ihrer Daten, die Sie als neues Feld in Ihr Schema einschließen können. Dies ist nur für die Dateitypen Microsoft Excel oder Text (.csv) verfügbar.
Wenn Sie in früheren Versionen diese Zeilennummern einschließen wollten, mussten Sie sie manuell zur Quelle hinzufügen, bevor Sie den Datensatz zu Ihrem Schema hinzufügten.
Dieses Feld wird im Eingabeschritt generiert, wenn Sie eine Verbindung zu Ihren Daten herstellen. Standardmäßig ist es aus dem Schema ausgeschlossen, aber Sie können es mit einem Klick einschließen. Wenn Sie es einschließen, verhält es sich wie jedes andere Feld und kann in Ihren Schemavorgängen und berechneten Feldern verwendet werden.
Tableau Prep unterstützt auch die ROW_NUMBER-Funktion für berechnete Felder. Diese Funktion ist nützlich, wenn Ihr Datensatz Felder enthält, die eine Sortierung definieren können, wie z. B. Zeilen-ID oder Zeitstempel. Weitere Informationen zur Verwendung dieser Funktion finden Sie unter Erstellen von Detailgenauigkeits-, Rang- und Kachelberechnungen.
Hinzufügen des Zeilennummernfeldes der Quelle zu Ihrem Schema
Klicken Sie mit der rechten Maustaste oder bei gedrückter Befehlstaste (MacOS) auf das Feld oder klicken Sie auf das Menü Mehr Optionen und wählen Sie Feld einschließen.
Datenvorschau:
Feldliste:
Die Änderungsliste wird gelöscht, das Feld ist jetzt Teil der Schemadaten und Sie können die generierten Zeilennummern in nachfolgenden Schemaschritten sehen.
Details zur Quellzeilennummer
Wenn Sie die Quellzeilennummer in Ihren Datensatz einbeziehen, gelten die folgenden Optionen und Überlegungen.
- Die Zeilennummern der Datenquelle werden vor Datenstichproben oder Filtern angewendet.
- Dadurch wird ein neues Feld mit dem Namen Quellzeilennummer erstellt, das während des gesamten Schemas bestehen bleibt. Dieser Feldname ist nicht lokalisiert, kann aber jederzeit umbenannt werden.
- Existiert bereits ein Feld mit diesem Namen, wird der neue Feldname um 1 erhöht. Zum Beispiel Quellzeilennummer-1, Quellzeilennummer-2 usw.
- Sie können den Datentyp des Felds in den nachfolgenden Schritten ändern.
- Sie können dieses Feld in Schemaoperationen und Berechnungen verwenden.
- Dieser Wert wird jedes Mal für den gesamten Datensatz neu generiert, wenn die Eingabedaten aktualisiert werden oder das Schema ausgeführt wird.
- Dieses Feld ist für Eingabevereinigungen nicht verfügbar.
Festlegen der Kopfzeile und der Datenstartzeile
Wird unterstützt in Tableau Prep Builder Version 2023.3 und höher sowie im Web für Textdateien (.csv) und in Version 2024.1 und höher für Excel-Dateien (.xls).
Sie können eine bestimmte Zeile als Feldkopfzeile festlegen und die Zeile bestimmen, in der die Daten für Excel- und Textdateien (.csv) beginnen.
Bei der Verbindung mit Excel- oder Textdateien kommt es häufig vor, dass diese in den ersten Zeilen mit Metainformationen formatiert sind, um sie für Menschen lesbar zu machen. Standardmäßig interpretiert Tableau Prep die erste Zeile einer CSV-Datei als Feldkopfzeile. Excel-Dateien werden basierend auf Feldtypen und leeren Zeilen interpretiert. Tableau Prep kann eine Zeile als Kopfzeile auswählen oder keine Kopfzeile enthalten.
Beispielsweise wird in der der folgenden Datei der Eintrag STORE DETAILS
als Kopfzeile interpretiert.
Sie können die Metadateninformationen ausschließen (1) und die korrekte Schemastruktur Ihrer Daten bereitstellen, indem Sie festlegen, dass Zeile 3 die Kopfzeile ist (2) und bei Zeile 4 die Daten starten.
CSV-Dateien:
Excel-Dateien:
Im Folgenden sehen Sie beispielsweise die Standardeinstellungen für den Zeilenkopf und die Startzeile:
Im Folgenden werden die Daten ohne Metadaten angezeigt:
Hinweis: Die Datenvorschau spiegelt keine Änderungen an den Datenbeispieleinstellungen wider.
Konfigurieren der Kopfzeile und der Startzeile
Mithilfe der Eingabeansicht „Datenvorschau“ können Sie die Schemastruktur Ihrer Daten visuell überprüfen und Kopf- und Startzeilen so festlegen, dass Metadaten aus den Eingabequellendaten ausgeschlossen werden.
Sie können die Datenstartzeile auf einen beliebigen Wert festlegen, der höher ist als der der Kopfzeile. Standardmäßig wählt Tableau Prep für die Datenstartzeile die nächste fortlaufende Zahl nach der Kopfzeile aus. Alle Zeilen zwischen der Kopfzeile und der Datenstartzeile werden ignoriert.
Hinweis: Datenvorschau und Data Interpreter schließen sich gegenseitig aus. Derzeit erkennt der Dateninterpreter nur Untertabellen in Ihren Excel-Tabellen und unterstützt nicht die Angabe der Startzeile für Textdateien und Arbeitsblätter.
- Wählen Sie den Eingabeschritt aus.
- Klicken Sie in der Symbolleiste auf die Eingabeansicht Datenvorschau.
- Klicken Sie in der Zeile, die Sie als Kopfzeile festlegen möchten, auf das Menü Mehr Optionen und wählen Sie Als Kopfzeile festlegen aus.
- Klicken Sie in der Zeile, die Sie als Datenstartzeile festlegen möchten, auf das Menü Mehr Optionen und wählen Sie Als Datenstart festlegen aus. Standardmäßig wird die Datenstartzeile auf die nächste darauf folgende Zeilennummer festgelegt.
Das Menü „Kopfzeilenoptionen“ zeigt die Kopfzeile und die Zeilennummer für die Datenstartzeile an. Optional können Sie die Kopfzeile und die Startzeile direkt im Dialogfeld „Kopfzeilenoptionen“ festlegen.
Mehrere Schemata in einer einzigen Datei
Wenn eine einzige Datei mehrere Datenquellen enthält, können Sie einen zusätzlichen Eingabeschritt erstellen, indem Sie eine Verbindung zu derselben Datenquelle herstellen und dann die Kopf- und Datenstartzeilen für die zweite Datenquelle festlegen. Die folgende Datei enthält beispielsweise eine Datenquelle, die in Zeile 3 (1) beginnt, und ein anderes, separates zweites Schema, das in Zeile 28 (2) beginnt.
Führen Sie für diese Art von Datenquelle die folgenden Schritte aus.
- Wählen Sie den ersten Eingabeschritt aus.
- Klicken Sie in der Symbolleiste auf die Eingabeansicht Datenvorschau.
- Klicken Sie in der Zeile, die Sie als Kopfzeile festlegen möchten, auf das Menü Mehr Optionen und wählen Sie Als Kopfzeile festlegen aus.
- Klicken Sie in der Zeile, die Sie als Datenstartzeile festlegen möchten, auf das Menü Mehr Optionen, und wählen Sie Als Datenstart festlegen aus. Standardmäßig wird die Datenstartzeile auf die nächste darauf folgende Zeilennummer festgelegt.
- Wählen Sie den nächsten Eingabeschritt aus.
- Wiederholen Sie die obigen Schritte, um die Kopfzeile und die Startzeile für weitere Datenquellen festzulegen.
Alle Zeilen zwischen der Kopfzeile und der Datenstartzeile werden ignoriert.
Vereinigen von mehreren Tabellen
Wird unterstützt in Tableau Prep Builder Version 2023.3 und höher und im Web für Textdateien (.csv).
Sie können mehrere Tabellen aus Datenquellen vereinigen, die dieselbe Schemastruktur und dieselbe Metadatenzeile haben.
- Stellen Sie eine Verbindung zu den Dateien her und wählen Sie den ersten Eingabeschritt aus.
- Klicken Sie in der Symbolleiste auf die Eingabeansicht Datenvorschau.
- Klicken Sie in der Zeile, die Sie als Kopfzeile festlegen möchten, auf Mehr Optionen und wählen Sie Als Kopfzeile festlegen aus.
- Klicken Sie in der Zeile, die Sie als Datenstartzeile festlegen möchten, auf das Menü Mehr Optionen, und wählen Sie Als Datenstart festlegen aus.
- Klicken Sie auf die Registerkarte Tabellen und wählen Sie Vereinigen von mehreren Tabellen aus.
- Klicken Sie auf Übernehmen, um die Dateien zu vereinigen und die Kopf- und Zeilenauswahl für alle Dateien in der Eingabevereinigung beizubehalten. Dies setzt voraus, dass die Dateistruktur und das Schema aller vereinten Eingabedateien gleich sind.
Herstellen einer Verbindung zu einer benutzerdefinierten SQL-Abfrage
Wenn Ihre Datenbank die Verwendung von benutzerdefinierter SQL unterstützt, wird Benutzerdefinierte SQL in der Nähe des unteren Randes des Bereichs Verbindungen angezeigt. Doppelklicken Sie auf Benutzerdefinierte SQL, um die Registerkarte Benutzerdefinierte SQL zu öffnen. Dort können Sie Abfragen für vorab ausgewählte Daten eingeben und quellenspezifische Vorgänge anwenden. Nachdem die Abfrage den Datensatz abgerufen hat, können Sie die einzubeziehenden Felder auswählen, Filter anwenden oder den Datentyp ändern, bevor Sie Ihrem Schema Daten hinzufügen.
Weitere Informationen zur Verwendung von benutzerdefiniertem SQL finden Sie unter Verbindung zu Daten mithilfe von benutzerdefinierter SQL.
Anwenden von Bereinigungsvorgängen in einem Eingabeschritt
In einem Eingabeschritt sind nur einige Bereinigungsvorgänge verfügbar. In der Eingabe-Feldliste können Sie die folgenden Änderungen vornehmen. Ihre Änderungen werden im Bereich Anpassungen nachverfolgt, und im Bereich Schema sowie in der Eingabe-Feldliste werden links neben dem Eingabeschritt Anmerkungen hinzugefügt.
- Feld ausblenden: Blenden Sie Felder aus, anstatt sie zu entfernen, um Unordnung in Ihrem Schema zu vermeiden. Sie können diese bei Bedarf jederzeit einblenden. Ausgeblendete Felder werden beim Ausführen Ihres Schemas weiterhin in Ihre Ausgabe eingeschlossen.
- Filter: Verwenden Sie den Berechnungseditor, um Werte zu filtern. Ab Version 2023.1 können Sie auch das Dialogfeld Relativer Datumsfilter verwenden, um Datumsbereiche für beliebige Datums- oder Datums- und Zeitfelder schnell zu spezifizieren.
- Feld umbenennen: Doppelklicken bzw. Strg-Klick (bei MacOS) Sie im Feld Feldname auf den Feldnamen und geben Sie einen neuen Feldnamen ein.
- Datentyp ändern: Klicken Sie auf den Datentyp für das Feld und wählen Sie im Menü einen neuen Datentyp aus. Diese Option wird derzeit für Microsoft Excel-, Text- und PDF-Dateien, Box-, Dropbox-, Google Drive- und OneDrive-Datenquellen unterstützt. Alle anderen Datenquellen können in einem Bereinigungsschritt geändert werden.
Auswählen der in das Schema einzubeziehenden Felder
Hinweis: Ab Version 2023.1 können Sie mehrere Felder auswählen, um sie auszublenden, einzublenden, zu entfernen oder einzuschließen. In früheren Versionen konnten Sie mit jeweils einem Feld arbeiten und die Kontrollkästchen zum Einschließen oder Entfernen von Feldern aktivieren oder deaktivieren.
Im Bereich Eingabe wird eine Liste mit Feldern in Ihrem Datensatz angezeigt. Standardmäßig sind alle Felder mit Ausnahme des automatisch generierten Felds Quellzeilennummer enthalten. Verwenden Sie entweder die Datenvorschau oder die Listenansicht, um Ihre Felder zu verwalten.
- Suchen: Suchen Sie nach Feldern..
- Felder ausblenden: Blenden Sie Felder aus, die Sie in Ihre Schemaausgabe einschließen möchten, aber nicht bereinigen müssen.
- Klicken Sie in der Feldliste auf das Augensymbol oder wählen Sie Felder ausblenden im Menü Mehr Optionen.
- Wählen Sie in der Datenvorschau Felder ausblenden im Menü Mehr Optionen aus.
Felder werden vom Schema während der Laufzeit verarbeitet. Sie können sie bei Bedarf jederzeit wieder einblenden. Weitere Informationen finden Sie unter Ausblenden von Feldern(Link wird in neuem Fenster geöffnet).
- Felder einbeziehen: Fügen Sie Ihrem Schema Felder hinzu, die als entfernt markiert wurden.
- Wählen Sie eine oder mehrere Zeilen aus und klicken Sie mit der rechten Maustaste bzw. bei gedrückter Befehlstaste (macOS), oder klicken Sie auf das Menü Mehr Optionen und wählen Sie Felder einschließen aus, um als entfernt markierte Felder wieder hinzuzufügen.
- Klicken Sie in der Datenvorschau im Menü Mehr Optionen auf das Feld, das Sie einbeziehen möchten, und wählen Sie Feld einschließen aus.
- Felder entfernen:
- Wählen Sie in der Feldliste eine oder mehrere Zeilen aus und klicken Sie mit der rechten Maustaste bzw. bei gedrückter Befehlstaste (macOS) auf das „X“, oder klicken Sie auf das Menü Mehr Optionen und wählen Sie Felder entfernen aus, um Felder zu entfernen, die Sie nicht in das Schema aufnehmen möchten.
- Klicken Sie in der Datenvorschau auf das Menü Mehr Optionen für das Feld, das Sie entfernen möchten, und wählen Sie Feld entfernen aus.
Anwenden von Filtern auf Felder im Eingabeschritt
Wenden Sie im Eingabeschritt Filter an, um die Datenmenge zu reduzieren, die Sie aus Ihren Datenquellen aufnehmen. Wenn Sie die Daten entfernen, die Sie bei der Schemaausführung nicht verarbeiten möchten, können Sie eine interaktive Leistungseffizienz und eine nützlichere Datenstichprobe erzielen.
Im Eingabeschritt können Sie Filter mit dem Berechnungseditor anwenden. Ab Version 2023.1 können Sie auch das Dialogfeld Relativer Datumsfilter verwenden, um einen genauen Datumsbereich von Werten anzugeben, die für Datums- und Datums- und Zeitfeldtypen eingeschlossen werden sollen. Weitere Informationen finden Sie unter „Filter für relatives Datum“ in Filtern von Daten(Link wird in neuem Fenster geöffnet).
Im Schritt "Aufbereiten" oder anderen Schritttypen können Sie andere Filteroptionen verwenden. Weitere Informationen finden Sie unter Filtern von Daten(Link wird in neuem Fenster geöffnet).
Anwenden eines Berechnungsfilters
- Klicken Sie in der Symbolleiste auf Werte filtern. Verwenden Sie eine der folgenden Methoden, um Ihre Daten zu filtern:
Klicken Sie in der Feldliste neben dem Namen des Feldes auf das Menü Mehr Optionen und wählen Sie Filter > Berechnung ... aus.
Klicken Sie in der Datenvorschau auf das Menü Mehr Optionen neben dem Namen des Feldes und wählen Sie Filter > Berechnung ... aus.
Geben Sie im Berechnungs-Editor Ihre Filterkriterien ein.
Anwenden eines relativen Datumsfilters
- Wählen Sie ein Feld mit dem Datentyp „Datum“ oder „Datum und Uhrzeit“ aus. und verwenden Sie eine der folgenden Methoden, um einen relativen Datumsfilter anzuwenden.
- Klicken Sie in der Feldliste mit der rechten Maustaste bzw. bei gedrückter Befehlstaste (macOS) oder klicken Sie auf das Menü Mehr Optionen der Spalte „Feldname“ und wählen Sie Filter > Relative Daten aus.
- Klicken Sie in der Datenvorschau auf das Menü Mehr Optionen neben dem Feld und wählen Sie Filter > Relative Daten aus.
Geben Sie im Dialogfeld des relativen Datumsfilters den genauen Bereich von Jahren, Quartalen, Monaten, Wochen oder Tagen an, den Sie in Ihr Schema aufnehmen möchten. Sie können auch einen Anker für ein bestimmtes Datum konfigurieren und alle Nullwerte einbeziehen.
Anmerkung: Standardmäßig arbeitet der Filter relativ zu dem Datum, an dem das Schema ausgeführt oder Im Zuge der Dokumenterstellung in der Vorschau angezeigt wird.
Ändern von Feldnamen
Verwenden Sie eine der folgenden Methoden, um den Namen eines Feldes zu ändern.
Im Feldraster und im Bereich Schema links neben dem Eingabeschritt wird eine Anmerkung hinzugefügt. Ihre Änderungen werden auch im Anpassungsbereich verfolgt.
- Wählen Sie in der Feldliste ein Feld aus der Spalte „Feldname“ aus und klicken Sie auf Feld umbenennen. Geben Sie einen neuen Namen in das Feld ein.
- Wählen Sie in der Datenvorschau ein Feld aus und klicken Sie auf Feld umbenennen. Geben Sie einen neuen Namen in das Feld ein.
Ändern von Datentypen
Wird derzeit für Microsoft Excel-, Text- und PDF-Dateien, Box-, Dropbox-, Google Drive- und OneDrive-Datenquellen unterstützt. Alle anderen Datenquellen können in einem Bereinigungsschritt geändert werden.
Hinweis: Der Datentyp für die Quellzeilennummer (Version 2023.1 und höher) kann nur in einem Clean-Schritt oder einem anderen Schritttyp geändert werden.
Wenn Sie den Datentyp für ein Feld ändern möchten, gehen Sie wie folgt vor:
- Klicken Sie auf den Datentyp für das Feld.
- Wählen Sie im Menü den neuen Datentyp aus.
- Datenvorschau:
- Feldansicht:
Sie können auch den Datentyp für Felder in anderen Schritttypen im Schema ändern, oder Datenrollen zuordnen, um Ihre Feldwerte zu validieren. Weitere Informationen zum Ändern des Datentyps oder zur Verwendung von Datenrollen finden Sie unter Überprüfen der Ihren Daten zugeordneten Datentypen(Link wird in neuem Fenster geöffnet) und Datenrollen zur Datenvalidierung verwenden(Link wird in neuem Fenster geöffnet).
Konfigurieren von Feldeigenschaften
Wenn Sie mit Textdateien arbeiten, wird die Registerkarte Einstellungen angezeigt. Dort können Sie Ihre Verbindung bearbeiten und Texteigenschaften konfigurieren, beispielsweise das Feldtrennzeichen für Textdateien. Sie können die Dateiverbindung auch im Bereich "Verbindungen" bearbeiten oder Einstellungen für die inkrementelle Aktualisierung konfigurieren. Weitere Informationen zum Einrichten der inkrementellen Aktualisierung für Ihr Schema finden Sie unter Aktualisieren von Schemadaten mithilfe der inkrementellen Aktualisierung.
Wenn Sie mit Text- oder Excel-Dateien arbeiten, können Sie noch vor dem Starten des Schemas Datentypen korrigieren, die falsch abgeleitet wurden. Nach dem Starten des Schemas können Datentypen grundsätzlich in den Folgeschritten im Bereich Profil geändert werden.
Konfigurieren von Texteinstellungen in Textdateien
Wenn Sie die Einstellungen zum Analysieren von Textdateien ändern möchten, wählen Sie eine der folgenden Optionen aus:
Erste Zeile enthält Kopfzeile (Standard): Wählen Sie diese Option aus, um die erste Zeile als Feldbeschriftung zu verwenden.
Feldnamen automatisch generieren: Wählen Sie diese Option aus, wenn Tableau Prep Builder die Kopfzeilen für Felder automatisch generieren soll. Die Namenskonvention für Felder folgt demselben Modell wie Tableau Desktop. Beispiel: F1, F2 usw.
Feldtrennzeichen: Wählen Sie in der Liste ein Zeichen aus, das zum Trennen der Spalten verwendet werden soll. Wählen Sie Andere aus, um ein benutzerdefiniertes Zeichen einzugeben.
Textqualifizierer: Wählen Sie das Zeichen aus, das die Werte in die Datei einschließt.
Zeichensatz: Wählen Sie den Zeichensatz aus, der die Textdateicodierung beschreibt.
Gebietsschema: Wählen Sie das Gebietsschema aus, das zum Analysieren der Datei verwendet werden soll. Diese Einstellung gibt an, welche Dezimal- und Tausendertrennzeichen verwendet werden.
Festlegen der Stichprobengröße
Die geschichtete Zeilenauswahl wird in Tableau Prep Builder Version 2023.3 und höher unterstützt.
Tableau Prep bestimmt standardmäßig die maximale Anzahl von Zeilen, die erforderlich sind, um Daten für eine repräsentative Stichprobe Ihres Datensatzes effektiv zu untersuchen und vorzubereiten. Basierend auf dem Tableau Prep-Stichprobenalgorithmus gilt: Je mehr Felder Ihre Eingabedaten enthalten, desto kleiner ist die Anzahl der zulässigen Zeilen. Wenn eine Datenstichprobe gezogen wird, kann diese alle von Ihnen benötigten Zeilen enthalten oder auch nicht, je nachdem, wie die Stichprobe berechnet und zurückgegeben wurde. Beispielsweise verwendet Tableau Prep standardmäßig die Schnellauswahlmethode, um eine Stichprobe zu ziehen. Bei dieser Methode werden die obersten Zeilen geladen. Wenn Ihr Datensatz groß ist und die Daten chronologisch strukturiert sind, sind möglicherweise Ihre frühesten Daten in der Stichprobe enthalten, nicht aber alle Ihre Daten. Wenn die erwarteten Daten nicht angezeigt werden, können Sie die Stichprobeneinstellungen ändern, um die Abfrage erneut auszuführen.
Wenn Schemata mithilfe der Webdokumenterstellung erstellt oder bearbeitet werden, konfiguriert der Administrator die maximale Anzahl von Zeilen, die ein Benutzer bei Verwendung großer Datensätze auswählen kann. Weitere Informationen finden Sie unter Beispieldaten und Verarbeitungsgrenzen in der Tableau Server(Link wird in neuem Fenster geöffnet)- oder Tableau Cloud(Link wird in neuem Fenster geöffnet)-Hilfe.
Vorbereiten der Daten für die Probenahme
Wenn Sie wissen, dass bestimmte Werte für Ihre Analyse nicht erforderlich sind, entfernen Sie die Felder im Eingabeschritt, damit die Daten beim Erstellen oder Ausführen Ihres Schemas nicht einbezogen werden.
Wenn Sie über einen großen Datensatz verfügen, der eine Stichprobenentnahme auslöst, können Sie die Anzahl der von Tableau Prep geladenen Zeilen erhöhen, wenn Sie Felder im Eingabeschritt entfernen. Wenn keine Stichprobenentnahme angewendet wird, verringert das Entfernen von Feldern im Eingabeschritt das Datenvolumen, das Tableau Prep lädt.
Nachdem Sie unnötige Felder und Werte aus dem Datensatz entfernt haben, können Sie die Menge der für die Stichprobe geladenen Daten oder die Stichprobenmethode ändern.
Ändern der Einstellungen für die Datenstichprobe
Datenstichproben erleichtern die interaktive Nutzung und ermöglichen eine effizientere Bearbeitung des Schemas als die Profilierung aller Daten und die Anwendung von Änderungen auf größere Datensätze. Bei der Ausführung des Schemas werden alle Daten verwendet. Alle Änderungen, die Sie an der Stichprobe vornehmen, gelten für das aktuelle Schema.
Um Ihre Daten nach der Bereinigung und Formung zu validieren, führen Sie das Schema aus und sehen Sie sich die Ausgabe in Tableau Desktop an.
Anmerkung: Führen Sie das vollständige Schema aus, anstatt nur eine Stichprobe in Tableau Desktop anzuzeigen, damit Sie alle Daten sehen können. Wenn Sie unerwartete oder falsche Werte bemerken, die nicht in der Stichprobe enthalten waren, können Sie zu Tableau Prep zurückkehren, um dies zu korrigieren.
- Entfernen Sie unnötige Felder und Werte aus dem Datensatz.
- Wählen Sie einen Eingabeschritt aus und klicken Sie dann auf die Registerkarte Stichprobe.
Wählen Sie die Anzahl der Zeilen aus, die Sie für die Datenstichprobe laden möchten. Die Anzahl der von Ihnen gewählten Zeilen wirkt sich auf die Leistung aus.
- Automatisch: (Standard) lädt Daten schnell und berechnet automatisch die Anzahl der Zeilen, sodass genügend Daten für eine Stichprobe vorhanden sind. Die Anzahl der geladenen Zeilen ist gleich oder kleiner 393.216.
Angeben: Wird normalerweise zum Laden einer kleinen Anzahl von Zeilen verwendet, damit Sie einen Einblick in die Struktur der Daten erhalten und die Ladezeiten kurz sind. Geben Sie eine Zeilenanzahl von unter 1 Million an.
Anmerkung: In der Webdokumenterstellung wird die maximale Anzahl von Zeilen, die ein Benutzer bei Verwendung großer Datensätze auswählen kann, vom Administrator konfiguriert. Als Benutzer können Sie die Anzahl der Zeilen bis zu diesem Grenzwert auswählen.
- Maximum: Lädt so viele Daten wie möglich für die Zeilenauswahl, die kleiner oder gleich 1.048.576 ist. Stellen Sie sicher, dass Sie für große Datenmengen über die Anforderungen für hohe Leistung verfügen.
Wählen Sie die Methode aus, die für die Anzahl der für die Stichprobe zurückgegebenen Zeilen verwendet werden soll. Die Leistung kann beeinträchtigt sein, wenn "Zufällig" oder "Geschichtet" ausgewählt ist.
Hinweis: Die Zeilenauswahl wird nur unterstützt, wenn Ihre Eingabedatenquelle Zufallsstichproben unterstützt. Wenn Ihre Datenquelle keine Zufallsstichproben unterstützt, wird die Standardmethode "Schnellauswahl" verwendet.
Schnellauswahl: (Standard) Entnimmt Datenstichproben basierend auf der Leistung. Die Zeilen werden so schnell wie möglich zurückgegeben. Einige Zeilen sind möglicherweise nicht in der Stichprobe enthalten. Die für die Stichprobe verwendeten Zeilen können die ersten N Zeilen oder die Zeilen sein, die bei einer vorherigen Abfrage in der Datenbank zwischengespeichert wurden. Obwohl dies fast immer ein schnelleres Ergebnis als eine Zufallsstichprobe liefert, kann es zu einem verzerrten Ergebnis führen (z. B. Daten für nur ein Jahr und nicht für alle vorhandenen Jahre, wenn die Datensätze chronologisch geordnet sind).
Zufällig: Ermöglicht die Entnahme einer Stichprobe eines großen Datensatzes und die Rückgabe einer allgemeinen Darstellung der gesamten Zeilenauswahl. Tableau Prep gibt auf der Basis aller ausgewählten geladenen Zeilen zufällige Zeilen zurück. Beim ersten Abrufen der Daten kann diese Option die Leistung beeinträchtigen.
- Geschichtet: Ermöglicht die Gruppierung nach einem bestimmten Feld und die anschließende Stichprobenentnahme innerhalb jeder Untergruppe. Prep gibt die angeforderte Anzahl an Zeilen zurück, die über das ausgewählte Feld verteilt sind, um eine möglichst gleichmäßige Gruppierung zu ermöglichen. In einigen Fällen kann dies je nach Datenquelle dazu führen, dass einige Werte für das Feld mehr Zeilen haben als andere.
Beispiele
Diese Beispiele basieren auf dem in Tableau Prep enthaltenen Datensatz zu globalen Weltindikatoren. Im ersten Beispiel wird Automatisch für die Anzahl der Zeilen und Zufällig für die Stichprobenmethode oder die Anzahl der Zeilen verwendet, die zur Stichprobenentnahme zurückgegeben werden sollen.
Wenn diese Werte ausgewählt sind, werden 3.000 Zeilen zufällig ausgewählt und zur Darstellung des gesamten Datensatzes verwendet.
Im zweiten Beispiel wird Angeben für die Anzahl der Zeilen und Geschichtet für die Stichprobenmethode verwendet. Die angegebene Zeilenanzahl wird auf den Wert 7 gesetzt und das Feld Geburtenrate zur Gruppierung verwendet.
Die neuen Stichprobenwerte weisen eine gleichmäßige Verteilung von 7 Zeilen eindeutiger Werte über alle Felder auf.