Strukturdaten für die Analyse
Es gibt bestimmte Konzepte, die für das Verständnis der Datenvorbereitung und das Strukturieren von Daten für die Analyse von grundlegender Bedeutung sind. Daten können in einer schwindelerregenden Vielfalt von Formaten generiert, erfasst und gespeichert werden, aber wenn es um die Analyse geht, werden nicht alle Datenformate gleichermaßen erstellt.
Bei der Datenvorbereitung werden ordnungsgemäß formatierte Daten in eine einzelne Tabelle oder mehrere verknüpfte Tabellen übertragen, damit sie in Tableau analysiert werden können. Dies umfasst sowohl die Struktur, d. h. Zeilen und Spalten, als auch Aspekte der Datenreinheit, beispielsweise korrekte Datentypen und korrekte Datenwerte.
Tipp: Es kann nützlich sein, dass Sie beim folgenden Thema einen eigenen Datensatz nutzen. Schauen Sie sich unsere Tipps an, um gute Datensätze zu finden(Link wird in neuem Fenster geöffnet), falls Sie noch keinen Datensatz besitzen.
Auswirkungen der Struktur auf die Analyse
Möglicherweise haben Sie keinen Einfluss auf die Struktur Ihrer Daten. Im weiteren Verlauf dieses Themas wird davon ausgegangen, dass Sie Zugriff auf die Rohdaten und die zum Gestalten erforderlichen Tools haben, z. B. Tableau Prep Builder. Es kann jedoch Situationen geben, in denen Sie Ihre Daten nicht wie gewünscht pivotieren oder aggregieren können. Zwar ist es oftmals dennoch möglich, die Analyse durchzuführen, aber Sie müssen möglicherweise Ihre Berechnungen oder die Art und Weise ändern, wie Sie sich den Daten annähern. Ein Beispiel für die Durchführung derselben Analyse mit unterschiedlichen Datenstrukturen finden Sie unter den Tableau Prep-Alltagsszenarien: Analyse mit dem zweiten Datum in Tableau Desktop(Link wird in neuem Fenster geöffnet). Wenn Sie jedoch die Datenstruktur optimieren können, wird dies Ihre Analyse wahrscheinlich erheblich vereinfachen.
Datenstruktur
Tableau Desktop funktioniert am besten mit Daten in Tabellen, die wie ein Arbeitsblatt formatiert sind, also Daten, die in Zeilen und Spalten gespeichert sind und Spaltenüberschriften in der ersten Zeile aufweisen. Was sollte also eine Zeile oder Spalte sein?
Was ist eine Zeile?
Eine Zeile oder ein Datensatz kann alles sein – von Informationen über eine Transaktion in einem Einzelhandelsgeschäft über Wettermessungen an einem bestimmten Ort bis hin zu Statistiken über einen Beitrag in den sozialen Medien.
Es ist wichtig zu wissen, was ein Datensatz (Zeile) in den Daten darstellt. Dies ist die Granularität der Daten.
Hier ist jeder Datensatz ein Tag | Hier ist jeder Datensatz ein Monat |
Tipp: Als Best Practice empfiehlt sich eine eindeutige Kennung (UID), also ein Wert, der jede Zeile als eindeutiges Datenelement identifiziert. Stellen Sie sich das wie die Sozialversicherungsnummer oder URL jedes Datensatzes vor. Im Superstore entspräche dies der Zeilen-ID. Beachten Sie, dass nicht alle Datensätze eine UID aufweisen, aber es kann nicht schaden, eine zu haben.
Versuchen Sie sicherzustellen, die Frage "Was stellt eine Zeile im Datensatz dar?" beantworten zu können. Dies entspricht der Frage "Wofür steht das Feld 'TableName(Count)'?". Wenn Sie dies nicht äußern können, sind die Daten möglicherweise schlecht für die Analyse strukturiert.
Bei der Aggregation und Granularität handelt es sich um das Konzept, woraus eine Zeile besteht, die entgegengesetzte Enden eines Spektrums sind.
Aggregation
bezieht sich darauf, wie mehrere Datenwerte in einen Einzelwert konsolidiert werden, z. B. durch Zählung aller Google-Suchen nach "Kürbisgewürz" oder durch Mittelwertbildung aller Temperaturmessungen um Schwabing an einem bestimmten Tag.
Standardmäßig werden Kennzahlen in Tableau immer aggregiert. Die Standardaggregation ist SUM. Sie können die Aggregation zu Optionen wie "Mittelwert", "Median", "Anzahl (eindeutig)", "Minimum" usw. ändern.
Granularität
bezieht sich darauf, wie detailliert die Daten sind. Wofür steht eine Zeile oder ein Datensatz im Datensatz? Eine Person mit Malaria? Die Gesamtzahl der Malariafälle in den Provinzen für den Monat? Das ist die Granularität.
Es ist entscheidend, die Granularität von Daten zu kennen, um mit Detailgenauigkeitsausdrücken (LOD) zu arbeiten.
Es ist aus vielen Gründen entscheidend, das Konzept von Aggregation und Granularität zu verstehen. Es wirkt sich auf Aspekte wie das Auffinden nützlicher Datensätze, die Erstellung der gewünschten Visualisierung, das korrekte Verknüpfen oder Zusammenfügen von Daten oder die Verwendung von LOD-Ausdrücken aus.
Tipp: Weitere Informationen finden Sie unter Datenaggregation in Tableau.
Was ist ein Feld oder eine Spalte?
Eine Spalte mit Daten in einer Tabelle wird als Feld im Datenbereich in Tableau Desktop angezeigt, aber es sind im Wesentlichen austauschbare Begriffe. (Wir nutzen den Begriff Spalte in Tableau Desktop für die Verwendung im Spalten- und Zeilen-Container zum Beschreiben bestimmter Visualisierungen.) Ein Datenfeld sollte Elemente enthalten, die in einer größeren Beziehung gruppiert werden können. Die Elemente selbst werden als Werte oder Member (nur diskrete Dimensionen enthalten Member) bezeichnet.
Welche Werte in einem bestimmten Feld zulässig sind, wird durch den Wertebereich des Felds bestimmt (siehe Anmerkung unten). Beispielsweise kann eine Spalte für "Lebensmittelgeschäftsabteilung" die Member "Deli", "Bäckerei", "Erzeugung" usw. enthalten, aber sie würde nicht "Brot" oder "Salami" enthalten, da es sich um Artikel und nicht um Abteilungen handelt. Anders ausgedrückt ist der Wertebereich des Abteilungsbereichs auf die möglichen Lebensmittelgeschäftsabteilungen beschränkt.
Darüber hinaus weist ein gut strukturierter Datensatz eine Spalte für "Umsatz" und eine Spalte für "Gewinn" und keine einzelne Spalte für "Geld" auf, da "Gewinn" ein separates Umsatzkonzept ist.
Im Wertebereich des Felds "Umsatz" befinden sich Werte ≥ 0, da Umsätze nicht negativ sein können.
Im Wertebereich des Felds "Gewinn" liegen wiederum alle Werte, da der Gewinn nicht negativ sein kann.
Hinweis: Wertebereich kann sich auch auf die in den Daten vorhandenen Werte beziehen. Enthält die Spalte "Lebensmittelgeschäftsabteilung" irrtümlich "Salami", liegt dieser Wert nach dieser Definition im Wertebereich der Spalte. Die Definitionen sind etwas widersprüchlich. Einerseits sind dies die Werte, die es geben könnte oder sollte, andererseits sind dies die Werte, die es tatsächlich gibt.
Kategorisieren von Feldern
Jede Spalte in der Datentabelle wird als Feld in Tableau Desktop im Bereich Daten angezeigt. Felder in Tableau Desktop müssen entweder eine Dimension oder eine Kennzahl (durch eine Zeile innerhalb von Tabellen im Bereich Daten getrennt) und entweder diskret oder kontinuierlich (farbcodiert: blaue Felder sind diskret, grüne sind kontinuierlich) sein.
Dimensionen sind qualitativ, d. h., sie können nicht gemessen werden, sondern werden stattdessen beschrieben. Dimensionen sind oft Dinge wie Stadt oder Land, Augenfarbe, Kategorie, Teamname usw. Dimensionen sind in der Regel diskret.
Kennzahlen sind quantitativ, d. h. sie können gemessen und mit Zahlen aufgezeichnet werden. Kennzahlen können Dinge wie Umsatz, Höhe, Klicks usw. sein. In Tableau Desktop werden Kennzahlen automatisch aggregiert. Die Standardaggregation ist SUM. Kennzahlen sind in der Regel fortlaufend.
Diskret bedeutet getrennt oder eindeutig. Toyota unterscheidet sich von Mazda. In Tableau Desktop werden diskrete Werte in der Ansicht als Beschriftungen angezeigt, und sie erstellen Bereiche.
Fortlaufend bedeutet, dass ein lückenloses, fortlaufendes Ganzes gebildet wird. 8 folgt auf 7, und dann ist es der gleiche Abstand zu 9, und 7,5 würde auf halbem Weg zwischen 7 und 8 liegen. In Tableau Desktop werden fortlaufende Werte in der Ansicht als Achsen angezeigt.
Dimensionen sind in der Regel diskret. Kennzahlen sind in der Regel fortlaufend. Dies ist jedoch nicht immer der Fall. Datumsangaben können diskret oder fortlaufend sein.
Datumsangaben sind Dimensionen und sind in der Ansicht automatisch diskret (auch bekannt als Datumsteile, beispielsweise "August", wobei der Monat August berücksichtigt wird, jedoch keine anderen Informationen wie das Jahr). Eine auf eine Zeitachse mit diskreten Datumsangaben angewandte Trendlinie wird in mehrere Trendlinien aufgeschlüsselt, eine pro Bereich.
Wir können bei Bedarf fortlaufende Datumsangaben (auch bekannt als Datumskürzungen, beispielsweise "August 2024", was sich von "August 2025" unterscheidet) auswählen. Eine Trendlinie, die auf eine Zeitachse mit fortlaufenden Datumsangaben angewendet wird, besitzt eine einzelne Trendlinie für die gesamte Datumsachse.
Tipp: Weitere Informationen finden Sie unter Dimensionen und Kennzahlen, blau und grün.
In Tableau Prep wird nicht unterschieden zwischen Dimensionen oder Kennzahlen. Um nachvollziehen zu können, worin sich die Detail- und Zusammenfassungsdarstellung von Daten im Profilbereich unterscheidet, ist es wichtig, die Konzepte hinter den diskreten oder fortlaufenden Ansätzen zu verstehen.
Detail: Die Detailansicht zeigt jedes Wertebereichselement als eine diskrete Beschriftung an und verfügt über eine visuelle Bildlaufleiste, um eine visuelle Übersicht sämtlicher Daten bereitzustellen.
Zusammenfassung: Die Zusammenfassungsansicht zeigt die Werte in einer fortlaufenden Achse als zusammengefasstes Histogramm an.
Binning & Histogramme
Felder wie "Alter" oder "Gehalt" werden als fortlaufend erachtet. Es besteht eine Beziehung zwischen dem 34. und 35. Lebensjahr, wobei 34 genauso weit von der 35 entfernt liegt wie die 35 von der 36. Ab einem Alter von etwa 10 Jahren sagen wir in der Regel nicht mehr "Neuneinhalb" oder "Siebendreiviertel". Wir fassen unser Alter bereits in ordentliche, jahresgroße Inkremente zusammen. Eine 12.850 Tage alte Person ist zwar älter als eine 12.790 Tage alte Person. Wir ziehen jedoch eine Linie und sagen, beide seien 35. In ähnlicher Weise werden Altersgruppen häufig anstelle tatsächlicher Altersangaben verwendet. Die Kinderpreise für Filmtickets können für Kinder unter 12 Jahren gelten. Oder Sie werden in einer Umfrage gebeten, Ihre Altersgruppe anzugeben, beispielsweise 20–24, 25–30 usw.
Mit Histogrammen wird die Verteilung der numerischen Daten mittels Zusammenfassung visualisiert. Ein Histogramm ähnelt einem Balkendiagramm. Aber anstatt diskrete Kategorien pro Balken zu sein, erstrecken sich die Rechtecke, aus denen das Histogramm besteht, über eine Partition einer fortlaufenden Achse, beispielsweise der Bereich der Anzahl der Blüten (0–4, 5–9, 10–14 usw.). Die Höhe der Rechtecke wird durch die Häufigkeit oder Anzahl dieser Werte bestimmt. Hier ist die y-Achse die Anzahl der Pflanzen, die in jeder Partition liegen. Sieben Pflanzen haben 0–4 Blüten, zwei Pflanzen haben 5–9 Blüten und 43 Pflanzen haben 20–24 Blüten.
In Tableau Prep ist die Zusammenfassungsansicht ein Histogramm von in einer Partition zusammengefassten Werten. Die Detailansicht zeigt die Häufigkeit für jeden Wert und verfügt über eine visuelle Bildlaufleiste zur Seite, welche die Gesamtverteilung der Daten anzeigt.
Zusammenfassungsansicht | Detailansicht |
Verteilungen und Ausreißer
Das Betrachten der Verteilung eines Datensatzes kann bei der Ausreißererkennung helfen.
Verteilung: Die Form der Daten in einem Histogramm, obwohl dies von der Größe der Partitionen abhängt. Die Möglichkeit, alle Ihre Daten in einer Histogrammansicht anzuzeigen, kann helfen, festzustellen, ob die Daten korrekt und vollständig erscheinen. Die Form der Verteilung ist nur dann nützlich, wenn Sie die Daten kennen und interpretieren können, ob die Verteilung sinnvoll ist.
Sähen wir uns beispielsweise einen Datensatz der Anzahl der Haushalte mit Breitband-Internet von 1940–2017 an, würden wir von einer sehr verzerrten Verteilung ausgehen. Wenn wir uns jedoch die Anzahl der Haushalte mit Breitband-Internet von Januar 2017 bis Dezember 2017 ansehen würden, ließe sich eine ziemlich gleichmäßige Verteilung erwarten.
Würden wir uns einen Datensatz der Google-Suchen nach "Pumpkin Spice Latte" ansehen, wäre im Herbst von einem rasanten Anstieg auszugehen. Demgegenüber wären Suchen nach "Celsius in Fahrenheit umwandeln" relativ stabil.
Ausreißer: Ein Wert, der im Vergleich zu anderen Werten extrem ist. Ausreißer können korrekte Werte sein oder auf einen Fehler hinweisen.
Einige Ausreißer sind korrekt und weisen auf tatsächliche Anomalien hin. Diese sollten nicht entfernt oder geändert werden.
Einige Ausreißer weisen auf Probleme mit der Datenreinheit hin, z. B. ein Gehalt von 50 $ statt 50.000 $, da anstelle des Punkts ein Komma eingegeben wurde.
Folgende Liste:
sieht auf den ersten Blick nicht seltsam aus. Aber wenn anstelle einer Liste von Beschriftungen dies auf einer fortlaufenden zusammengefassten Achse dargestellt wurde, würde es wie folgt aussehen:
Es ist also viel offensichtlicher, dass die letzte Beobachtung weiter von der ersten entfernt ist und aufgrund von Fehlern ein Ausreißer sein kann.
Datentypen
Datenbanken setzen im Gegensatz zu Arbeitsblättern strengere Regeln für Datentypen durch. Datentypen klassifizieren die Daten in einem bestimmten Feld und geben Informationen darüber, wie die Daten formatiert, interpretiert und welche Vorgänge für diese Daten ausgeführt werden können. Auf numerische Felder können beispielsweise mathematische Operationen angewendet und geografische Felder zugeordnet werden.
Tableau Desktop weist zu, ob es sich bei einem Feld um eine Dimension oder Kennzahl handelt. Felder weisen jedoch andere Merkmale auf, die von ihrem Datentyp abhängen. Diese werden durch das Symbol des jeweiligen Felds angezeigt (obwohl einige Typen ein gemeinsames Symbol aufweisen). Tableau Prep verwendet dieselben Datentypen. Wenn der Datentyp für eine Spalte erzwungen wird und ein vorhandener Wert nicht mit dem zugewiesenen Datentyp übereinstimmt, kann er als "null" angezeigt werden (da "lila" keine Bedeutung als Zahl hat).
Einige Funktionen erfordern bestimmte Datentypen. Sie können z. B. "CONTAINS" nicht mit einem numerischen Feld verwenden. Typfunktionen werden verwendet, um den Datentyp eines Felds zu ändern. "DATEPARSE" kann beispielsweise ein Textdatum in einem bestimmten Format verwenden und es in ein Datum umwandeln, wodurch beispielsweise ein automatischer Drilldown in der Ansicht aktiviert wird.
Symbol | Datentyp |
---|---|
Textwerte (Zeichenfolge) | |
Datumswerte | |
Datums- und Uhrzeitwerte | |
Numerische Werte | |
Boolesche Werte (nur relational) | |
Geografische Werte (Verwendung mit Karten) |
Tipp: Weitere Informationen finden Sie im Hilfeartikel zu Datentypen.
Pivotieren und Entpivotieren von Daten
Benutzerfreundliche Daten werden oft in einem breiten Format mit vielen Spalten erfasst und aufgezeichnet. Maschinenlesbare Daten sind, wie Tableau es vorzieht, besser in einem hohen Format, mit weniger Spalten und mehr Zeilen.
Hinweis: Im herkömmlichen Sinne bedeutet das Pivotieren von Daten, von hoch zu breit (Zeilen zu Spalten) zu wechseln, und das Entpivotieren von Daten, von breit zu hoch (Spalten zu Zeilen) zu wechseln. Tableau verwendet jedoch das Wort Pivot im Sinne von breit (benutzerfreundlich) zu hoch (maschinenlesbar), indem Spalten in Zeilen umgewandelt werden. In diesem Dokument bezieht sich der Begriff Pivot auf den Tableau-Sinn des Wortes. Der Klarheit halber kann es hilfreich sein, "Spalten zu Zeilen pivotieren" oder "Zeilen zu Spalten pivotieren" anzugeben.
Weitere Informationen finden Sie in den Hilfeartikeln über das Pivotieren der Daten und Tipps für die Arbeit mit Daten.
Breite Daten
Im Malaria-Datensatz der WHO gibt es eine Spalte für das Land, dann eine Spalte pro Jahr. Jede Zelle stellt die Anzahl der Malariafälle in diesem Land und Jahr dar. In diesem Format liegen 108 Zeilen und 16 Spalten vor.
Es ist einfach für eine Person, dieses Format zu lesen und zu verstehen. Wenn wir diese Daten jedoch in Tableau Desktop übertragen, erhalten wir ein Feld pro Spalte. Wir haben ein Feld für 2000, ein Feld für 2001, ein Feld für 2002 usw.
Um es anders auszudrücken: Es gibt 15 Felder, die alle die gleiche grundlegende Sache repräsentieren – die Anzahl der gemeldeten Malariafälle – und kein einziges Feld für die Zeit. Dies macht es sehr schwierig, eine Analyse über die Zeit hinweg durchzuführen, da die Daten in separaten Feldern gespeichert werden.
F: Wie würden wir eine Karte erstellen, die die Gesamtzahl der Malariafälle pro Land von 2000–2014 zeigt?
A: Erstellen Sie ein berechnetes Feld, um die Summe von allen Jahren zu bilden.
Ein weiteres Indiz dafür, dass dieses Format nicht ideal für die Analyse ist, ist die Tatsache, dass wir nirgends Informationen darüber haben, was die tatsächlichen Werte bedeuten. Für Algerien liegt im Jahr 2012 der Wert 55 vor. 55 wovon? Anhand der Datenstruktur lassen sich diesbezüglich keine Rückschlüsse ziehen.
Wenn die Werte anhand des Spaltennamens nicht beschrieben werden, sondern zusätzliche Informationen vermitteln, bedeutet dies, dass die Daten pivotiert werden müssen.
Hohe Daten
Wenn wir die Daten pivotieren, werden die Daten von breit in hoch umgeformt. Statt einer Spalte für jedes Jahr haben wir jetzt eine einzige Spalte "Jahr" und eine neue Spalte "Gemeldete Fälle". In diesem Format liegen 1.606 Zeilen und 3 Spalten vor. Dieses Datenformat ist höher und nicht breiter.
Jetzt verfügen wir in Tableau Desktop über ein Feld für das Jahr und ein Feld für gemeldete Fälle sowie das ursprüngliche Länderfeld. Es ist viel einfacher, Analysen durchzuführen, da jedes Feld eine einzigartige Qualität des Datensatzes darstellt – Standort, Zeit und Wert.
F: Wie würden wir eine Karte erstellen, die die Gesamtzahl der Malariafälle pro Land von 2000–2014 zeigt?
A: Verwenden Sie das Feld "Gemeldete Fälle".
Nun ist einfach nachvollziehbar, dass sich die 55 für Algerien im Jahr 2012 auf die Zahl der gemeldeten Fälle bezieht (da wir diese neue Spalte beschriften könnten).
Hinweis: In diesem Beispiel bestanden die breiten Daten aus einem einzelnen Datensatz pro Land. Mit dem hohen Datenformat gibt es jetzt 15 Zeilen für jedes Land (eine für jedes der 15 Jahre in den Daten). Es ist wichtig zu bedenken, dass es jetzt mehrere Zeilen pro Land gibt.
Wenn es eine Spalte für "Landfläche" gäbe, würde dieser Wert für jede der 15 Zeilen für jedes Land in einer hohen Datenstruktur wiederholt werden. Wenn Sie ein Balkendiagramm erstellt haben und Land in Zeilen sowie Landfläche in Spalten erweitert haben, wird in der Ansicht die Landfläche für alle 15 Zeilen pro Land standardmäßig summiert.
Für einige Felder kann es erforderlich sein, Doppelzählwerte zu kompensieren, indem sie mit einem Mittelwert oder Minimum anstatt mit Summe oder Filterung aggregiert werden.
Normalisierung
Relationale Datenbanken bestehen aus mehreren Tabellen, die in irgendeiner Weise verknüpft oder miteinander verknüpft werden können. Jede Tabelle enthält eine eindeutige Kennung oder Schlüssel pro Datensatz. Durch das Zuordnen oder Verknüpfen über die Schlüssel können Datensätze verknüpft werden, um mehr Informationen bereitzustellen, als in einer einzelnen Tabelle enthalten sind. Welche Informationen in jede Tabelle einfließen, hängt vom verwendeten Datenmodell ab. Das allgemeine Prinzip besteht jedoch darin, Duplizierungen zu reduzieren.
Stellen Sie sich beispielsweise eine Veranstaltungsplanung für eine Veranstaltung wie eine Hochzeit vor. Dabei müssen die Informationen auf Gruppenebene (beispielsweise Familien oder Pärchen) und auf der Ebene der einzelnen Personen verfolgt werden.
In diesem Fall könnte eine Tabelle erstellt werden, die alle Informationen kombiniert:
Wenn eine Adresse jedoch falsch ist und behoben werden muss, muss sie über mehrere Zeilen hinweg behoben werden, was möglicherweise zu Fehlern oder Konflikten führt. Eine bessere Struktur besteht darin, zwei Tabellen zu erstellen, eine für Informationen, die sich auf die Gruppe beziehen (z. B. Adresse und ob die Einladung gesendet wurde) und eine für Informationen über die einzelnen Personen (für Dinge wie Sitzgelegenheiten und Ernährungsbeschränkungen).
Tabelle für Gruppe | Tabelle für einzelne Person |
Es ist wesentlich einfacher, in der Gruppentabelle Informationen auf Gruppenebene und in der Tabelle für einzelne Personen Informationen auf Ebene der einzelnen Personen zu verfolgen und zu analysieren. So kann beispielsweise die Anzahl der benötigten Stühle anhand der Datensätze vom Typ "Nimmt teil = ja" in der Tabelle für einzelne Personen abgerufen werden. Demgegenüber kann die Anzahl der für Danksagungen benötigten Briefmarken aus der Anzahl der Datensätze in der Gruppentabelle entnommen werden, bei denen "Geschenk" ungleich null ist.
Der Prozess des Zerlegens aller Daten in mehrere Tabellen, wobei herausgefunden wird, welche Tabelle welche Spalten enthält, wird als Normalisierung bezeichnet. Die Normalisierung trägt dazu bei, redundante Daten zu reduzieren und die Organisation der Datenbank zu vereinfachen.
Es kann jedoch vorkommen, dass Informationen benötigt werden, die sich über mehrere Tabellen erstrecken. Wie verhielte es sich beispielsweise, wenn wir die Sitzordnungen (Einzelpersonen) so ausgleichen wollten, dass sich Gruppen von der Seite der Braut mit Gruppen von der Seite des Bräutigams vermischen? (Die Brücken- oder Bräutigamzugehörigkeit wird auf Gruppenebene nachverfolgt.) Dazu müssen wir die Tabelle wieder verbinden, damit die einzelnen Personen mit Informationen über ihre Gruppe verbunden sind. Eine ordnungsgemäße Normalisierung bedeutet nicht nur das Aufschlüsseln von Tabellen, sondern erfordert auch das Vorhandensein eines gemeinsamen verbundenen Felds oder einer eindeutigen Kennung, mit der die Daten wieder zusammengeführt werden können. In diesem Fall lautet das verbundene Feld "Gruppe". Dieses Feld ist in beiden Tabellen vorhanden, sodass wir dieses Feld gemeinsam nutzen und zu unserem ursprünglichen Einzeltabellenformat zurückkehren können. Dies ist eine denormalisierte Struktur.
Warum haben wir also nicht einfach die denormalisierte Originaltabelle behalten? Sie lässt sich schwerer verwalten und speichert redundante Informationen. In großem Maßstab kann das Ausmaß der Datenduplikation erheblich sein. Das wiederholte Speichern derselben Informationen ist nicht effizient.
Normalisierte Tabellen haben einige wichtige Eigenschaften:
Jede Zeile benötigt eine eindeutige Kennung.
Jede Tabelle benötigt eine Spalte oder Spalten, die verwendet werden können, um sie wieder mit anderen Tabellen (Schlüssel) zu verbinden.
Diese gemeinsamen (Schlüssel-)Spalten werden verwendet, um Tabellen wieder miteinander zu verbinden oder zu verknüpfen. Bei unseren Daten würde sich die Beziehungs- oder JOIN-Klausel in jeder Tabelle im Feld "Gruppe" befinden.
Verknüpfungstypen
Obwohl Verbindungen die Standardmethode zum Kombinieren von Daten in Tableau Desktop sind, gibt es Fälle, in denen Sie Tabellen in Tableau Desktop oder in Tableau Prep Builder verknüpfen möchten. Eine grundlegende Übersicht über Verknüpfungen und Verknüpfungstypen finden Sie unter Verknüpfen von Daten.
"Ordentliche" Daten
Hadley Wickham veröffentlichte 2014 im Journal of Statistical Software den Artikel "Tidy Data" (August 2014, Band 59, Ausgabe 10). Dieser Artikel leistet eine ausgezeichnete Arbeit, um einen Rahmen für Daten zu schaffen, der für die Analyse gut strukturiert ist. Den Artikel finden Sie hier (Akademisches Portfolio von Hadley Wickham)(Link wird in neuem Fenster geöffnet) oder hier (gehostet von r-project.org)(Link wird in neuem Fenster geöffnet).
Hinweis: Der Artikel wird auf externen Websites gehostet. Tableau kann für die Richtigkeit oder Aktualität der von externen Anbietern unterhaltenen Seiten keine Verantwortung übernehmen. Wenden Sie sich an den Besitzer, wenn Sie Fragen zu seinem Inhalt haben.