Verschmelzen von Daten
Das Verschmelzen von Daten ist ein Verfahren zur Kombination von Daten aus mehreren Quellen. Das Verschmelzen von Daten bringt zusätzliche Informationen aus einer sekundären Datenquelle ein und stellt sie zusammen mit Daten aus der primären Datenquelle direkt in der Ansicht dar.
Die Datenverschmelzung ist besonders nützlich, wenn die Verschmelzungsbeziehung – die Verknüpfungsfelder – blattweise variieren muss oder wenn veröffentlichte Datenquellen kombiniert werden.
Optionen zum Kombinieren von Daten
Es gibt mehrere Möglichkeiten, Daten zu kombinieren, wobei jede Vor- und Nachteile bietet.
Beziehungen sind die Standardmethode und können in den meisten Fällen verwendet werden, auch tabellenübergreifend mit unterschiedlicher Detailgenauigkeit. Beziehungen sind flexibel und passen sich auf Blattbasis an die Struktur der Analyse an. Sie können jedoch keine Beziehungen zwischen Tabellen aus veröffentlichten Datenquellen erstellen.
Verknüpfungen kombinieren Tabellen, indem weitere Datenspalten über ähnliche Zeilenstrukturen hinweg hinzugefügt werden. Dies kann zu Datenverlust oder Duplizierung führen, wenn Tabellen unterschiedliche Detailgenauigkeit aufweisen. Zudem müssen Verknüpfungen (Joins) eingerichtet werden, bevor die Analyse beginnen kann. Sie können keine veröffentlichte Datenquelle in einer Verknüpfung verwenden.
Verschmelzungen kombinieren die Daten im Gegensatz zu Beziehungen oder Verknüpfungen nie direkt. Stattdessen fragen Verschmelzungen jede Datenquelle unabhängig ab. Die Ergebnisse werden dann auf die entsprechende Ebene aggregiert und visuell zusammen in der Ansicht dargestellt. Daher können Verschmelzungen unterschiedliche Detailgenauigkeit aufweisen, und sie funktionieren auch mit veröffentlichten Datenquellen. Verschmelzungen erstellen keine neue, zusammengeführte Datenquelle (und können daher nicht als „zusammengeführte Datenquelle“ veröffentlicht werden). Stattdessen handelt es sich einfach um gemischte Ergebnisse, die pro Blatt visualisiert werden.
Schritte zum Verschmelzen von Daten
Das Verschmelzen erfolgt blattweise und wird festgelegt, wenn in der Ansicht ein Feld aus einer zweiten Datenquelle verwendet wird.
Um eine Verschmelzung in einer Arbeitsmappe zu erstellen, müssen Sie eine Verbindung zu mindestens zwei Datenquellen herstellen. Bringen Sie dann ein Feld aus einer Datenquelle in das Blatt – es wird zur primären Datenquelle. Wechseln Sie zur anderen Datenquelle und verwenden Sie ein Feld auf dem gleichen Blatt – es wird zu einer sekundären Datenquelle. Ein Verknüpfungssymbol erscheint im Datenbereich und zeigt an, welche Felder zum Verschmelzen der Datenquellen verwendet werden.
- Stellen Sie sicher, dass die Arbeitsmappe über mehrere Datenquellen verfügt. Die zweite Datenquelle sollte hinzugefügt werden, indem Sie auf Daten > Neue Datenquelle gehen.
Tipp: Das Verschmelzen erfordert zwei oder mehr verschiedene Datenquellen, die unabhängig voneinander im Datenbereich aufgelistet sind. Das Hinzufügen einer anderen Verbindung zur ersten Datenquelle ermöglicht Beziehungen und Verknüpfungen auf der Datenquellenseite.
- Ziehen Sie ein Feld in die Ansicht. Diese Datenquelle ist die primäre Datenquelle.
- Wechseln Sie zu einer anderen Datenquelle und stellen Sie sicher, dass eine Verschmelzungsbeziehung zur primären Datenquelle besteht.
- Wenn es ein Verknüpfungsfeld-Symbol () gibt, werden die Datenquellen automatisch verknüpft. Solange mindestens eine aktive Verbindung besteht, können die Daten verschmolzen werden.
- Wenn es graue Symbole () gibt, die defekte Links anzeigen, klicken Sie auf das Symbol neben dem Feld, das die beiden Datenquellen verbinden soll. Der Schrägstrich verschwindet, was einem aktiven Link entspricht.
- Wenn ein Verknüpfungssymbol nicht neben dem gewünschten Feld angezeigt wird, lesen Sie den Abschnitt Definieren von Verschmelzungsbeziehungen für die Verschmelzung.
- Ziehen Sie ein Feld aus der sekundären Datenquelle in die Ansicht.
Sobald diese zweite Datenquelle in der gleichen Ansicht verwendet wird, wird eine Verschmelzung erstellt. Im folgenden Beispiel ist unsere primäre Datenquelle Kinoadaptionen und die sekundäre Datenquelle Buchhandlung.
- Die primäre Datenquelle ist mit einem blauen Häkchen auf der Datenquelle gekennzeichnet. Felder aus der primären Datenquelle, die in der Ansicht verwendet werden, haben keine Angabe.
- Die sekundäre Datenquelle wird durch ein orangefarbenes Häkchen auf der Datenquelle und einen orangefarbenen Balken unten an der Seite des Datenbereichs angezeigt. Felder aus der in der Ansicht verwendeten sekundären Datenquelle weisen ein orangefarbenes Häkchen auf.
Grundlegendes zu primären und sekundären Datenquellen
Für die Datenverschmelzung sind eine primäre Datenquelle und mindestens eine sekundäre Datenquelle erforderlich. Die erste in der Ansicht verwendete Datenquelle wird zur primären Datenquelle und definiert die Ansicht. Nur Spalten aus der sekundären Datenquelle, die Übereinstimmungen in der primären Datenquelle besitzen, werden in der Ansicht angezeigt. Dies ist vergleichbar mit einer Zusammenführung mit Auslassungen.
Wenn die primäre Datenquelle beispielsweise ein Monatsfeld hat, das nur April, Mai und Juni enthält, zeigt jede um Monate herum aufgebaute Ansicht nur April, Mai und Juni an, auch wenn die sekundäre Datenquelle Werte für zwölf Monate hat. Wenn die gewünschte Analyse alle zwölf Monate umfasst, versuchen Sie, die primäre Datenquelle zu wechseln, indem Sie das Blatt neu erstellen und zuerst die andere Datenquelle verwenden.
Die folgenden Beispiele verwenden dieselben Datenquellen, die mit dem gleichen Feld verknüpft sind, und das Viz wird beide Male auf die gleiche Weise aufgebaut. Die Differenz zwischen den Ergebnissen ergibt sich daraus, welche Datenquelle als primär bezeichnet wird.
- Hier wird zunächst das Feld Monat aus der Datenquelle Niederschlag in die Ansicht gebracht. Da Niederschläge nur drei Monate enthält, wenn der Datensatz Pollen sekundär hinzugefügt wird, werden nur drei Monate in die Betrachtung einbezogen.
- Auf einem anderen Blatt wird zuerst das Feld Monat aus dem Datensatz Pollen in die Ansicht gebracht. Es werden alle zwölf Monate angezeigt. Wenn der Datensatz Niederschlag als sekundär hinzugefügt wird, ist Niederschlag nur für die drei Monate in diesem Datensatz verfügbar.
Arbeiten über verschmolzene Datenquellen hinweg
Aufgrund der Natur einer Datenverschmelzung gibt es einige Dinge, die Sie bei der Arbeit über verschmolzene Datenquellen hinweg beachten sollten.
Die Durchführung von Berechnungen mit Feldern aus mehr als einer Datenquelle kann sich geringfügig von einer normalen Berechnung unterscheiden. Eine Berechnung muss in einer einzigen Datenquelle erstellt werden. Oben im Berechnungseditor wird angezeigt, in welcher Datenquelle sich die Berechnung befindet.
- Aggregation. Alle Felder, die aus einer anderen Datenquelle stammen, werden standardmäßig mit einer Aggregation (SUM) versehen, die jedoch geändert werden kann. Da Berechnungen keine aggregierten und nicht aggregierten Argumente vermischen können, müssen auch Felder aus der Datenquelle, in der die Berechnung durchgeführt wird, aggregiert werden. (In den folgenden Bildern wurde die Aggregation SUM automatisch und die Aggregation Sum manuell hinzugefügt.)
- Punktnotation. Jedes Feld, auf das in der Berechnung verwiesen wird und das zu einer anderen Datenquelle gehört, verweist auf seine Datenquelle mit Punktnotation. (In den folgenden Bildern wird für die Berechnung, die in Beispiel ‒ Superstore eingebaut ist, das Feld Verkaufsziel zu [Verkaufs.Ziele].[Verkaufsziel]. Wenn die Berechnung in Verkaufsziele eingebaut ist, wird das Feld Verkäufe zu [Beispiel ‒ Superstore].[Verkäufe].)
- Dies sind gleichwertige Versionen der gleichen Berechnung, die in jeder Datenquelle eingebaut sind. In beiden Fällen ist dies SUM(Verkäufe)/SUM(Verkaufsziele).
Neben der etwas anderen Handhabung von Berechnungen gibt es einige Einschränkungen bei den sekundären Datenquellen. Möglicherweise können Sie nicht nach einem Feld aus einer sekundären Datenquelle sortieren. Aktionsfilter funktionieren möglicherweise nicht wie erwartet mit verschmolzenen Daten. Weitere Informationen finden Sie unter Andere Probleme bei der Datenverschmelzung
Definieren von Verschmelzungsbeziehungen für die Verschmelzung
Damit Tableau weiß, wie man die Daten aus mehreren Quellen kombiniert, muss es eine gemeinsame Dimension oder Dimensionen zwischen den Datenquellen geben. Die gemeinsame Dimension wird als Verknüpfungsfeld bezeichnet. Aktive Verknüpfungsfelder werden im Datenbereich der sekundären Datenquelle mit einem Symbol für eine aktive Verknüpfung () und potenzielle Verknüpfungsfelder mit einem Symbol für eine defekte Verknüpfung () gekennzeichnet. Verknüpfungsfelder werden in der primären Datenquelle nicht angegeben.
In einer Mischung aus Transaktions- und Quotendaten kann beispielsweise ein geografisches Feld das gewünschte Verknüpfungsfeld sein, damit Sie sowohl die Quote als auch die Leistung in Bezug auf diese Quote für dieselbe Region analysieren können.
Hinweis: Damit die Mischung funktioniert, müssen die Verknüpfungsfelder auch Werte oder Elemente gemeinsam nutzen. Tableau bildet die Ansicht von vermischten Daten basierend auf den gemeinsamen Werten. Wenn beispielsweise Farbe das Verknüpfungsfeld in beiden Datenquellen ist, stimmt Tableau die Daten von „Violett“ aus dem Primär- und „Violett“ aus dem Sekundärbereich ab. Aber „Hl.-Blau“ wird nicht korrekt mit „Hellblau“ verknüpft, sodass eines davon korrigiert werden müsste. Wie beim Umbenennen von Feldern, damit Tableau Verknüpfungsfelder identifizieren kann, können Sie Aliase für Elemente in diesen Feldern bearbeiten. Weitere Informationen finden Sie unter Erstellen von Aliassen zur Umbenennung von Elementen in der Ansicht.
Erstellen eines Links
Wenn das Verknüpfungsfeld in der primären und sekundären Datenquelle den gleichen Namen hat, erstellt Tableau automatisch die Beziehung. Wenn eine primäre Datenquelle eingerichtet wird (d. h. ein Feld in der Ansicht verwendet wird) und die sekundäre Datenquelle im Datenbereich ausgewählt wurde, werden alle Felder mit dem gleichen Namen zwischen den beiden Datenquellen ein Verknüpfungssymbol ( oder ) in der sekundären Datenquelle anzeigen. Wenn das zugehörige Feld aus der primären Datenquelle in der Ansicht verwendet wird, wird die Verknüpfung automatisch aktiv.
Wenn es keine Verknüpfungssymbole auf der sekundären Datenquelle gibt, müssen Sie Tableau beim Aufbau der Verbindung auf eine von zwei Arten unterstützen:
Wenn gemeinsame Dimensionen nicht den gleichen Namen haben (wie z. B. „Titel“ und „Buchtitel“), kann Tableau sie durch Umbenennen als gemeinsame Dimensionen identifizieren und die Verbindung herstellen.
Alternativ können Sie auch manuell eine Beziehung zwischen den Feldern der primären und sekundären Datenquelle definieren. Weitere Informationen zum Erstellen einer manuellen Verknüpfungsbeziehung finden Sie im Folgenden
Es können so viele aktive oder potenzielle Verknüpfungsfelder wie nötig vorhanden sein. Klicken Sie auf das Symbol für eine defekte Verknüpfung () im Datenbereich, um die Beziehung zu aktivieren.
Wenn Ihre gemeinsamen Dimensionen nicht den gleichen Namen haben, können Sie die Beziehung zwischen ihnen manuell zuordnen.
Wählen Sie Daten > Datenverschmelzungsbeziehungen bearbeiten aus.
Prüfen Sie im Dialogfeld "Datenverschmelzungsbeziehungen", ob die primäre Datenquelle in der Dropdown-Liste Primäre Datenquelle ausgewählt ist.
Wählen Sie die sekundäre Datenquelle im Bereich Sekundäre Datenquelle aus. Alle bestehenden automatischen Verschmelzungsbeziehungen sind sichtbar (und können gelöscht werden, indem Sie den Mauszeiger über die Zeile bewegen und auf das x klicken). Wählen Sie Benutzerdefiniert in der Liste der Beziehungen aus. Klicken Sie dann auf Hinzufügen.
Gehen Sie im Dialogfeld "Feldzuordnung hinzufügen/bearbeiten" wie folgt vor:
Wählen Sie ein Feld in der primären Datenquelle aus.
Wählen Sie das vergleichbare Feld in der primären Datenquelle aus.
Klicken Sie auf OK.
In diesem Beispiel wird Segment zu Kundensegment zugeordnet.
Tipp: Für Daten kann die Beziehung genau spezifiziert werden. Erweitern Sie das Datumsfeld und wählen Sie den gewünschten Aspekt des Datums aus, wie z. B. genaues Datum, Monat, Jahr usw.
Erstellen Sie so viele Feldzuordnung wie gewünscht. Klicken Sie dann auf OK.
Mehrere Links
Wie bei Beziehungen oder Verknüpfungen ist der Link manchmal zwischen den Datenquellen durch mehr als ein Feld definiert. Wenn beispielsweise regionale Verkaufskontingente monatlich erstellt werden, muss eine Mischung aus transaktionalen Verkaufsdaten und Quotendaten sowohl für die Region als auch für den Monat erstellt werden, damit die richtigen Daten in der Ansicht zusammengefasst werden können. Mehrere Links können gleichzeitig aktiv sein.
Wenn Daten auf der Grundlage mehrerer Felder gemischt werden, werden Werte nur dann in die Ansicht aufgenommen, wenn die Kombination der Daten aus diesen Feldern über beide Datensätze hinweg übereinstimmt. Betrachten wir ein Beispiel, um dies zu verstehen.
Wir haben zwei Tabellen, eine für Vögel, die tatsächlich von Vogelbeobachtern gesehen wurden und eine für Vögel, die als gesehen gemeldet wurden.
und
Wenn wir eine verschmolzene Ansicht mit den Feldern Vogelbeobachter und Anzahl der Vögel aus der primären Datenquelle (Vögel gesehen) einrichten und das Feld Anzahl der Berichte aus der sekundären Datenquelle (Vögel berichtet) einbringen, verschmilzt Tableau automatisch auf Vogelbeobachter.
Wir sehen, dass Vogelbeobachter A drei Vögel gesehen und zwei Berichte erstellt hat, B hat vier Vögel gesehen und einen Bericht erstellt, und C hat acht Vögel gesehen und zwei Berichte erstellt.
Aber es gibt noch ein weiteres mögliches Verknüpfungsfeld, Arten gesehen. Warum sollte man nicht auch darauf vermischen? Wird es einen Unterschied machen?
Das macht einen gewaltigen Unterschied. Wir sehen jetzt, dass es für die Vogelbeobachter A und C jeweils nur einen Bericht gibt, und dass B eine Null aufweist. Was ist da los?
Es stellt sich heraus, dass diese Vogelbeobachter nicht sehr ehrlich sind. Als die Berichte über ihre Sichtungen nur auf der Grundlage eines Tagebucheintrags (blaue Balken im Bild oben) erstellt wurden, passten die Arten, die sie gesehen haben, nicht mit dem zusammen, was sie tatsächlich gesehen haben (beachten Sie die Nullen in der zweiten Spalte, aus der sekundären Datenquelle Vögel gesehen). Als der Bericht mit einem Foto (orangefarbene Balken) unterlegt wurde, waren sie ehrlich (beide Spalten mit Arten gesehen stimmen überein).
Da drei Berichte bei den Arten nicht übereinstimmten, wurden diese Datenzeilen gelöscht, als Gesehene Arten als Verknüpfungsfeld verwendet wurde. Die Ansicht zeigt nur Daten an, bei denen die Werte für beide Verknüpfungsfelder übereinstimmen.
Wegnehmen
Seien Sie vorsichtig, wenn Sie mit mehreren Feldern verknüpfen. Obwohl es sehr einfach sein kann, auf das Symbol zu klicken und eine aktive Verknüpfung herzustellen, kann eine übermäßige Verknüpfung oder Verknüpfung mit unerwünschten Feldern einen erheblichen Einfluss auf die Analyse haben.
Unterschiede zwischen Verknüpfungen und Datenverschmelzung
Die Datenverschmelzung bildet eine herkömmliche Linksverknüpfung nach. Der wichtigste Unterschied zwischen beiden ist der Zeitpunkt der Verknüpfung im Hinblick auf die Aggregation. Eine Zusammenführung kombiniert die Daten und aggregiert sie dann. Eine Verschmelzung aggregiert und kombiniert dann die Daten.
Linksverknüpfung
Wenn Sie Daten mit einer Linksverknüpfung kombinieren, wird eine Abfrage an die Datenbank gesendet, in der die Verknüpfung erfolgt. Eine Linkszusammenführung liefert alle Zeilen der linken Tabelle und alle entsprechenden Zeilen der rechten Tabelle. Die Ergebnisse der Verknüpfung werden dann an Tableau zurückgesendet und dort aggregiert.
Eine Linkszusammenführung übernimmt alle Zeilen aus der linken Tabelle. Die gemeinsamen Spalten sind Benutzer-ID und Patron-ID; wenn es entsprechende Informationen aus der rechten Tabelle gibt, werden die Daten zurückgegeben. Andernfalls steht dort eine Null.
Angenommen, Sie haben die gleichen Tabellen, kehren aber die Reihenfolge um. Diese neue Linkszusammenführung führt zu unterschiedlichen Ergebnissen. Auch hier übernimmt eine Linkszusammenführung alle Daten aus der neuen linken Tabelle, ignoriert aber im Wesentlichen eine Zeile aus der rechten Tabelle. Die Datenzeile für Benutzer-ID = 4 wird nicht berücksichtigt, da es in der linken Tabelle keine Zeile für Patron-ID = 4 gibt.
Datenverschmelzung
Wenn Sie Daten per Datenverschmelzung kombinieren, wird eine Abfrage für jede Datenquelle im Arbeitsblatt an die Datenbank gesendet. Die Ergebnisse der Abfragen werden als aggregierte Daten an Tableau zurückgesendet und in der Visualisierung gemeinsam dargestellt.
Hinweis: Die Aggregation von Kennzahlen ist einfach – wir können die Summe, den Durchschnitt, das Maximum oder eine andere Aggregation einer Zahl problemlos vornehmen. Kennzahlwerte werden aggregiert, abhängig davon, wie das Feld in der Ansicht aggregiert wird. Allerdings müssen alle Felder aus einer sekundären Datenquelle aggregiert werden. Wie funktioniert das bei Dimensionen? Dimensionswerte werden mit der Aggregatfunktion ATTR aggregiert, die einen Einzelwert für alle Zeilen der sekundären Datenquelle zurückgibt. Wenn in diesen Zeilen mehrere Werte enthalten sind, wird ein Sternchen (*) angezeigt. Dies kann als „es gibt mehrere Werte in der sekundären Datenquelle für diese Kennzeichung in der Ansicht“ interpretiert werden.
Die Ansicht verwendet alle Werte aus der primären Datenquelle (fungiert als linke Tabelle) und die entsprechenden Zeilen aus der sekundären Datenquelle (rechte Tabelle) basierend auf dem/den Verknüpfungsfeld(ern).
Angenommen, Sie verfügen über folgende Tabellen. Wenn die Verknüpfungsfelder Benutzer-ID und Patron-ID sind, können aus folgenden Gründen nicht alle Werte ein Teil der resultierenden Tabelle sein:
Eine Zeile in der linken Tabelle hat keine entsprechende Zeilenübereinstimmung in der rechten Tabelle, wie der Nullwert in den Ergebnissen zeigt.
In den Zeilen der rechten Tabelle gibt es mehrere korrespondierende Werte, wie das Sternchen (*) in den Ergebnissen anzeigt.
Wenn es sich um Kennzahlen handelt, werden diese ebenfalls aggregiert, wie unten gezeigt:
Wichtig: Ein Sternchen (*) in einer Ansicht mit verschmolzenen Daten weist auf mehrere Werte hin. Dies kann gelöst werden, indem sichergestellt wird, dass es in der sekundären Datenquelle für jede Kennzeichnung in der primären Datenquelle nur einen übereinstimmenden Wert gibt, möglicherweise durch den Austausch der primären und sekundären Datenquellen. Weitere Informationen dazu finden Sie im Abschnitt Problembehandlung bei der Datenverschmelzung.
Datenverschmelzung auf einen Blick
- Die Datenverschmelzung erfolgt auf einer Blatt-für-Blatt-Basis.
- Die Reihenfolge, in der die Felder verwendet werden, bestimmt, welche Datenquelle die primäre gegenüber der sekundären Datenquelle ist.
- Die primäre Datenquelle ist mit einem blauen Häkchen gekennzeichnet, alle sekundären Datenquellen und Felder aus sekundären Datenquellen sind orange markiert.
- Verknüpfungsfelder können automatisch anhand von gemeinsamen Feldnamen ermittelt werden, oder die Verschmelzungsbeziehung kann manuell erstellt werden.
- Die Datenzusammenführung verhält sich ähnlich wie bei einer Linkszusammenführung, was dazu führen kann, dass Daten aus der sekundären Datenquelle fehlen.
- Es können Sternchen (*) erscheinen. Dies weist auf mehrere Dimensionswerte in einer einzigen Kennzeichnung hin, da Datenverschmelzung aggregierte Ergebnisse übernimmt und in der Ansicht kombiniert.
- Eine sekundäre Datenquelle kann verwendet werden, um die Feldwerte in einer primären Datenquelle wiederherzustellen. Weitere Informationen finden Sie unter Durchführen eines Aliasing für Feldwerte mithilfe der Datenverschmelzung.
Beschränkungen der Datenverschmelzungen
- Es gibt einige Beschränkungen der Datenverschmelzung hinsichtlich nichtadditiver Aggregationen wie COUNTD, MEDIAN und RAWSQLAGG. Weitere Informationen dazu finden Sie im Abschnitt Problembehandlung bei der Datenverschmelzung
- Verschmolzene Datenquellen können nicht als Einheit veröffentlicht werden. Veröffentlichen Sie stattdessen jede Datenquelle separat (auf demselben Server) und verschmelzen Sie dann die veröffentlichten Datenquellen.
- Daten aus sekundären Datenquellen müssen in Berechnungen immer aggregiert werden.
- Wenn Sie eine Cube-Datenquelle mischen, muss sie die primäre Datenquelle sein.