Ermitteln guter Datensätze
Um sich mit der Verwendung von Tableau Desktop (oder der Erstellung von Proof of Concept-Beispielinhalt) vertraut zu machen, empfiehlt es sich, nach einem für Sie interessanten Datensatz zu suchen. Wenn Sie konkrete Fragen haben, die Sie mit Daten beantworten möchten, werden die Schritte der Analyse einfacher und aussagekräftiger.
Die Realität von Datensätzen
Es gibt zwei unvermeidbare Fakten hinsichtlich des Versuchs, einen Datensatz zu finden, bei dem es sich nicht um offizielle, geschäftlich sanktionierte Daten handelt.
Sie werden nicht finden, wonach Sie suchen.
- Versuchen Sie, allzu strenge Erwartungen zu vermeiden.
- Bleiben Sie dahingehend flexibel und offen, was für ein bestimmtes Projekt verwendet werden kann.
- Manchmal befinden sich die gewünschten Daten hinter einer Paywall – ob sie Ihnen das wert sind, müssen Sie selbst entscheiden.
Sie werden die Daten aufbereiten müssen.
- Bereiten Sie sich darauf vor, eine grundlegende Bereinigung und Formung(Link wird in neuem Fenster geöffnet) vornehmen zu müssen, um sicherzustellen, dass die Daten gut strukturiert für eine Analyse sind.
- Möglicherweise müssen Sie noch andere Datensätze einspeisen(Link wird in neuem Fenster geöffnet).
- Ein Datenwörterbuch oder Metadaten können von entscheidender Bedeutung sein.
- Berechnungen können erforderlich sein.
Was macht einen guten Datensatz aus?
Ein Datensatz ist gut, wenn er für Ihren Zweck geeignet ist. Solange diese Anforderung erfüllt ist, ist es ein guter Datensatz. Es gibt jedoch einige Überlegungen, die Ihnen dabei helfen können, Datensätze auszusondern, die ihrem Zweck wahrscheinlich nicht entsprechen. Suchen Sie im Großen und Ganzen nach Datensätzen, welche die folgenden Bedingungen erfüllen:
- Sie enthalten die Elemente, die Sie benötigen
- Es sind aufgeschlüsselte Daten
- Sie verfügen mindestens über einige Dimensionen und einige Kennzahlen
- Sie haben gute Metadaten oder ein Datenwörterbuch
- Sie sind verwendbar (nicht in einem proprietären Format, und nicht zu unstrukturiert oder zu umständlich)
1. Ein guter Datensatz enthält die Elemente, die Sie für Ihre Zwecke benötigen
Wenn Sie nach einem Datensatz suchen, um eine bestimmte Visualisierung zu erstellen oder bestimmte Funktionen zu präsentieren, stellen Sie sicher, dass der Datensatz über die benötigten Feldtypen verfügt. Karten sind z. B. eine großartige visuelle Darstellung, erfordern jedoch geografische Daten. Bei grundlegenden Demonstrationen ist es oft erforderlich, die Datumsangaben per Drilldown im Detail anzuzeigen. Daher benötigen die Daten mindestens ein Datumsfeld (zum Anzeigen der Drilldown-Details müsste es granularer sein als jährlich). Nicht alle Datensätze benötigen alle diese Elemente. Sie sollten also wissen, was Sie für Ihren Zweck benötigen, und verschwenden Sie keine Zeit mit Datensätzen, denen Schlüsselelemente fehlen.
Gemeinsame Analyseelemente:
- Datumsangaben
- Geografische Daten
- Hierarchische Daten
- "Interessante" Kennzahlen – entweder wesentliche Unterschiede in der Größenordnung oder positive und negative Werte
Einige Features oder Visualisierungstypen erfordern möglicherweise spezifische Eigenschaften der Daten, beispielsweise:
- Cluster
- Prognose
- Trendlinien
- Benutzerfilter
- Räumliche Berechnungen
- Bestimmte Berechnungen
- Aufzählungsdiagramme
- Kontrolldiagramme
2. Bei einem guten Datensatz handelt es sich um disaggregierte (Roh-)Daten
Wenn die Daten zu aggregiert sind, gibt es nicht viel, was Sie für die Analyse tun können. Wenn Sie bei Google beispielsweise ermitteln möchten, welche Suchtrends in puncto "Kürbisgewürz" bestehen, Ihnen aber jährliche Daten zur Verfügung stehen, erhalten Sie nur eine sehr allgemeine Übersicht. Im Idealfall könnten Sie auf tägliche Daten zurückgreifen, um den hohen Anstieg zu sehen, als Starbucks mit seinen #PSL-Angebot begann.
Was als disaggregiert gilt, kann je nach Analyse variieren. Beachten Sie, dass einige Datensätze aufgrund des Datenschutzes und der Praxistauglichkeit nie komplett granular sein werden. So ist es zum Beispiel unwahrscheinlich, dass Sie einen Datensatz mit Fallberichten zu Malariafällen inklusive Adressangaben finden – die monatlichen Gesamtwerte nach Regionen sollten granular genug sein.
3. Ein guter Datensatz verfügt über Dimensionen und Kennzahlen
Viele Visualisierungstypen erfordern Dimensionen und Kennzahlen
- Wenn Sie lediglich über Dimensionen verfügen, sind Sie meistens auf das Zählen, Berechnen von Prozentsätzen oder die Verwendung des Feldes Zählung der Tabelle beschränkt.
- Verfügen Sie nur über Kennzahlen, können Sie die Werte nicht nach irgendeinem Kriterium aufschlüsseln. Sie können die Daten vollständig disaggregieren oder mit der Gesamtsumme oder AVG usw. arbeiten.
Das heißt nicht, dass ein lediglich aus Dimensionen bestehender Datensatz nicht nützlich sein kann. Zu hochgradig dimensionslastigen Daten zählen beispielsweise demografische Daten, wobei viele Analysen rund um die Demographie zählend oder prozentual ausgerichtet sind. Für einen aussagekräftigeren analytischen Datensatz benötigen Sie jedoch zumindest ein paar Dimensionen und Kennzahlen.
4. Ein guter Datensatz verfügt über Metadaten oder ein Datenwörterbuch
Ein Datensatz kann nur nützlich sein, wenn Sie wissen, wofür die Daten stehen. Es gibt nur wenige Dinge, die bei der Jagd nach guten Daten frustrierender sind als das Öffnen einer Datei, die so aussieht:
Was bedeutet eine Quelle von 4 oder 12? Und welche Informationen gibt es in den Feldern OTU0–OTU4?
Ein guter Datensatz enthält gut beschriftete Felder und Elemente oder ein Datenwörterbuch, sodass Sie die Daten selbst umbenennen können. Denken Sie an Superstore – es ist sofort offensichtlich, wofür die Felder und ihre Werte stehen, beispielsweise "Kategorie" und die zugehörigen Elemente "Technologie", "Möbel" und "Bürobedarf". Für den Mikrobiomdatensatz im obigen Bild gibt es ein Datenwörterbuch(Link wird in neuem Fenster geöffnet), in dem jede Quelle (4 ist Stuhl und 12 ist Magen) und die Taxonomie der jeweiligen operativen taxonomischen Einheiten (OTU3 ist ein Bakterium der Gattung Parabakteroiden) erklärt werden.
Datenwörterbücher können auch als Metadaten, Indikatoren, Variablendefinitionen, Glossare oder eine beliebige Anzahl anderer Dinge bezeichnet werden. Letzten Endes enthält ein Datenwörterbuch Informationen zu Spaltennamen und Elementen in einer Spalte. Diese Informationen können auf verschiedene Weise in die Datenquelle oder Visualisierung eingespeist werden. Beispielsweise haben Sie folgende Möglichkeiten:
- Sie können die Spalten so umbenennen, dass sie leichter verständlich sind (dies kann im Datensatz selbst oder in Tableau erfolgen).
- Sie können die Elemente des Felds mit neuen Aliassen versehen (dies kann im Datensatz selbst oder in Tableau erfolgen).
- Sie können Berechnungen erstellen, um Datenwörterbuchinformationen hinzuzufügen.
- Sie können das Feld in Tableau kommentieren (Kommentare werden in veröffentlichten Visualisierungen nicht angezeigt, nur in der Erstellungsumgebung).
- Sie können das Datenwörterbuch als eine andere Datenquelle verwenden und die zwei Datenquellen kombinieren.
Der Verlust eines Datenwörterbuchs kann dazu führen, dass ein Datensatz nutzlos wird. Wenn Sie für einen Datensatz ein Lesezeichen erstellen, erstellen Sie auch ein Lesezeichen für das Datenwörterbuch. Sie müssen beide herunterladen und am selben Speicherplatz aufbewahren.
5. Ein guter Datensatz ist einer, den Sie verwenden können
Solange Sie den Datensatz verstehen können und er über die benötigten Informationen verfügt, kann es sogar ein kleiner Datensatz für die Analyse in sich haben. Kleinere Datensätze sind außerdem einfach zu speichern, freizugeben und zu veröffentlichen und weisen wahrscheinlich eine gute Leistung auf.
Auch wenn Sie den "perfekten" Datensatz für Ihre Anforderungen finden, ist er letztendlich nicht wirklich perfekt, wenn der Aufwand für die Bereinigung unrealistisch ist. Es ist wichtig zu verstehen, wann Sie von einem zu ungeordneten Datensatz Abstand nehmen sollten.
Dieser Datensatz stammt beispielsweise aus einem Wikipedia-Artikel über relative Buchstabenfrequenzen. Anfänglich wies er 84 Zeilen und 16 Spalten (wurde auf 1.245 Zeilen und 3 Spalten pivotiert) auf. Die Excel-Datei ist 16 KB groß. Aber mit einigen Gruppen, Sätzen, Berechnungen und anderen Manipulationen ermöglicht er zuverlässige Analysen und interessante Visualisierungen.
Klicken Sie auf das Bild, um die Arbeitsmappe herunterzuladen.
Umbenennen von Beschriftungen Ihrer Daten
Sobald Sie einen guten Datensatz gefunden haben, müssen Sie häufig Beschriftungen umbenennen. Das Umbenennen der Beschriftungen von Daten kann nützlich sein, um entweder fingierte Daten für Stichproben oder Proof of Concepts zu erstellen oder die Daten lesbarer zu machen.
Durch das Umbenennen eines Felds wird geändert, wie dieses Feld in Tableau angezeigt wird, also beispielsweise durch Umbenennung von "Umsatz" in "Pipeline-Umsatz" oder "Bundesland" in "Provinz".
Durch das Re-Aliasing wird die Anzeige der Elemente eines Felds geändert, z. B. beim Re-Aliasing von Werten im Feld "Land", sodass CHN zu China und RUS zu Russland wird.
- Die Werte in einem diskreten Dimensionsfeld werden als Elementebezeichnet. Nur Elemente können neue Aliasse erhalten. Im Folgenden betrachten wir ein Kennzahlfeld für die Temperatur. Ein Wert von 12 °C kann nicht geändert werden, ohne die Daten selbst zu ändern. Erhält das Element "CHN" in einem Feld vom Typ "Land" einen neuen Alias namens "China", handelt es sich um dieselbe Information, nur anders beschriftet.
Umbenennen und Re-Aliasing bedeuten fast dasselbe. Es ist die Konvention in Tableau, dass Felder benannt werden und Elemente Aliasse erhalten. Weitere Informationen finden Sie unter Organisieren und Anpassen von Feldern im Datenbereich und Erstellen von Aliassen zur Umbenennung von Elementen in der Ansicht.
Hinweis: Beim Umbenennen oder Re-Aliasing wird nur das Erscheinungsbild in Tableau Desktop geändert. Die Änderungen werden nicht auf die zugrunde liegenden Daten übertragen.
Umbenennen von Beschriftungen zum Erstellen fingierter Daten
Das Umbenennen der Beschriftungen für vorhandene Datensätze ist eine hervorragende Möglichkeit, Beispiele oder Proof of Concept-Inhalte überzeugender zu gestalten.
- Mit einem einfachen Datensatz (beispielsweise Superstore) können Sie erstellen, was Sie möchten (einen bestimmten Diagrammtyp, der bestimmte Funktionen anzeigt usw.).
- Benennen Sie die relevanten Felder um, ändern Sie QuickInfos, und ändern Sie auf andere Weise die Textaspekte, um zu maskieren, was die Daten tatsächlich darstellen.
Wichtig: Nehmen Sie so etwas nur dann vor, wenn klar ist, dass die Informationen fingiert sind. Achten Sie darauf, dass nicht der Eindruck entsteht, es würde sich um echte Daten handeln – Benutzer könnten sonst versuchen, diese Daten für Analysen zu nutzen. Verwenden Sie beispielsweise dumme Namen oder bedeutungslose Feldnamen wie Farben oder Tiere.
Re-Aliasing, um die Daten einfacher zu verwenden
Es ist effizienter, die Daten als numerische Werte anstatt als Zeichenfolgenwerte zu speichern, obwohl die numerische Codierung das Verständnis der Daten erschweren kann. Bei kleinen Datensätzen wird dies wahrscheinlich keine Auswirkungen auf die Leistung haben. Daher sollten Sie es vorziehen, die Daten einfach verstehen zu können.
Ein Nachteil beim Re-Aliasing besteht darin, dass Sie auf diese numerischen Werte nicht mehr zugreifen können (was bestimmte Vorgänge erschwert, beispielsweise Sortierungen, die Zuweisung von Farbverläufen usw.). Sie sollten das Feld ggf. duplizieren und die Kopie mit neuen Aliassen versehen. Alternativ kann eine Berechnung in Tableau eine gute Möglichkeit sein, die ursprünglichen Informationen beizubehalten und sie gleichzeitig leichter verständlich zu machen.
Re-Aliasing mit der CASE-Funktion
Berechnungen können für das Re-Aliasing sehr leistungsfähig sein. Mit CASE-Funktionen können Sie im Wesentlichen angeben: "Wenn dieses Feld den Wert A aufweist, soll X zurückgegeben werden. Wenn der Wert B lautet, soll Y zurückgegeben werden".
In diesem Fall untersucht die CASE-Funktion die F-Skala in einem Tornado-Datensatz und stellt die jedem numerischen Wert zugeordnete schriftliche Beschreibung bereit:
CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END
Nun können wird das ursprüngliche F-Skala-Feld (0–5) oder das Feld mit der Schadensbeschreibung anhand der F-Skala in der Visualisierung verwenden.
Tipps bei der Suche nach Datensätzen
Hinweis: Versuchen Sie sicherzustellen, die Frage "Was stellt eine Zeile (bzw. Datensatz) dar?" beantworten zu können. Wenn Sie dies nicht ausdrücken können, verstehen Sie die Daten möglicherweise nicht gut genug, um sie verwenden zu können, oder sie sind möglicherweise schlecht für die Analyse strukturiert.
- Verfolgen Sie, woher die Daten stammen.
- Bewahren Sie die Datenwörterbuchinformationen bei den Daten selbst auf.
- Vermeiden Sie veraltete Daten, wenn der Inhalt stets aktuell bleiben soll. Suchen Sie nach:
- aktualisierbaren Daten (Aktien, Wetter, regelmäßig veröffentlichte Berichte usw.)
- zeitlosen Daten (die durchschnittliche Masse verschiedener Tiere wird sich von Jahr zu Jahr nicht ändern)
- Daten, die Sie durch künstliche Änderung auf historische oder zukünftige Daten zukunftssicher machen können
- Googeln Sie einfach nach dem, wonach Sie suchen, und Sie werden möglicherweise überrascht sein.
- Scheuen Sie sich nicht, einen Datensatz aufzugeben, wenn es zu viel Arbeit ist, ihn vorzubereiten.
Orte, an denen nach Daten gesucht werden kann
Wo können Sie nach Daten suchen? Datensätze können praktisch überall gefunden werden. Im Folgenden finden Sie einige Möglichkeiten für den Einstieg. Beachten Sie, dass die Realität der Datensätze für diese Sites gilt. Sie werden wahrscheinlich nicht das finden, woran Sie gerade denken, und Sie werden höchstwahrscheinlich einige Bereinigungen vornehmen müssen, um die Daten für die Analyse vorzubereiten.
Haftungsausschluss: Diese Links zu externen Websites werden so weit wie möglich richtig, aktuell und relevant gehalten. Tableau kann jedoch nicht die Richtigkeit oder Aktualität des Inhalts auf den Seiten dieser externen Anbieter gewährleisten. Das Auflisten einer Website hier ist keine Billigung von Inhalten oder Organisationen. Bei Fragen zu den Inhalten wenden Sie sich direkt an die externe Website.
Tableau Public(Link wird in neuem Fenster geöffnet): Tableau Public ist eine erstaunliche Ressource für Tableau-gerechte Datensätze. Suchen Sie nach Arbeitsmappen zu einem für Sie interessanten Thema, stöbern Sie nach Inspirationen und laden Sie dann die Arbeitsmappe herunter, um auf die Daten zuzugreifen. Oder schauen Sie sich die kuratierten Beispieldaten(Link wird in neuem Fenster geöffnet)an.
Wikipedia-Tabellen(Link wird in neuem Fenster geöffnet): Erhalten Sie Daten aus Wikipedia-Tabellen, indem Sie diese kopieren und in ein Arbeitsblatt einfügen, kopieren und direkt in Tableau einfügen oder Google Sheets und die IMPORTHTML-Funktion(Link wird in neuem Fenster geöffnet) verwenden, um ein Google-Arbeitsblatt der Daten zu erstellen.
Google Dataset Search(Link wird in neuem Fenster geöffnet): "Eine Suchmaschine, um die fragmentierte Welt der Online-Datensätze zu vereinen."
Data is Plural(Link wird in neuem Fenster geöffnet) : Abonnieren Sie einen wöchentlichen Newsletter mit Datensätzen, oder durchsuchen Sie das Archiv(Link wird in neuem Fenster geöffnet).
Makeover Monday(Link wird in neuem Fenster geöffnet): "Arbeiten Sie jeden Montag mit uns an einem bestimmten Datensatz zusammen, erstellen Sie bessere, effektivere Visualisierungen und helfen Sie uns dabei, Informationen zugänglicher zu machen." Sie können sehen, was andere Personen mit dem gleichen Datensatz gemacht haben, um Ihre Analyse in Gang zu setzen oder Inspiration zu geben. Verwenden Sie #makeovermonday(Link wird in neuem Fenster geöffnet)auf Twitter, um teilzunehmen.
Andere Sites
- Webdaten-Connectors für Tableau(Link wird in neuem Fenster geöffnet)
- Data.world(Link wird in neuem Fenster geöffnet) und der zugehörige WDC für Tableau(Link wird in neuem Fenster geöffnet)
- GitHub Open Data(Link wird in neuem Fenster geöffnet)
- Kaggle(Link wird in neuem Fenster geöffnet)
- datahub.io(Link wird in neuem Fenster geöffnet)
- r/datasets(Link wird in neuem Fenster geöffnet)
- WHO(Link wird in neuem Fenster geöffnet)
- Data.UN.org(Link wird in neuem Fenster geöffnet)
- WorldBank(Link wird in neuem Fenster geöffnet)
- data.gov(Link wird in neuem Fenster geöffnet), data.gov.au(Link wird in neuem Fenster geöffnet), data.gov.uk(Link wird in neuem Fenster geöffnet) usw.
- Airbnb(Link wird in neuem Fenster geöffnet)
- Yelp(Link wird in neuem Fenster geöffnet)
- Zillow(Link wird in neuem Fenster geöffnet)