Suchen von Clustern in Daten
Die Cluster-Analyse unterteilt die Markierungen in der Ansicht in Cluster. Die Datenwerte in den einzelnen Clustern sind sich untereinander eher ähnlich als dass sie Datenwerte in anderen Clustern sind.
Ein Beispiel, in dem Cluster mit Beispieldaten erstellt werden, finden Sie unter Beispiel: Erstellen von Clustern mit Daten der Weltwirtschaftsindikatoren.
Erstellen von Clustern
Gehen Sie zum Finden von Clustern in einer Ansicht in Tableau folgendermaßen vor.
- Erstellen Sie eine Ansicht.
- Ziehen Sie einen Cluster vom Bereich "Analyse" in die Ansicht, und legen Sie ihn im Zielbereich in der Ansicht ab:
Sie können auch auf Cluster doppelklicken, um Cluster in der Ansicht zu finden.
Folgendes geschieht, wenn Sie Cluster ablegen oder doppelt darauf klicken:
- Tableau erstellt eine Gruppe Cluster unter Farbe und kennzeichnet die Markierungen in Ihrer Ansicht nach Cluster in Farbe. Wenn unter Farbe bereits ein Feld vorhanden ist, verschiebt Tableau dieses Feld zu Detail und ersetzt es unter Farbe durch die Clustering-Ergebnisse.
Tableau weist jede Markierung in der Ansicht einem der Cluster zu. In einigen Fällen werden Markierungen, die nicht gut in einen Cluster passen, einem Cluster vom Typ "Nicht geclustert" zugewiesen.
- Tableau zeigt das Dialogfeld "Cluster" an, in dem Sie den Cluster anpassen können.
- Tableau erstellt eine Gruppe Cluster unter Farbe und kennzeichnet die Markierungen in Ihrer Ansicht nach Cluster in Farbe. Wenn unter Farbe bereits ein Feld vorhanden ist, verschiebt Tableau dieses Feld zu Detail und ersetzt es unter Farbe durch die Clustering-Ergebnisse.
- Passen Sie die Cluster-Ergebnisse an, indem Sie im Dialogfeld "Cluster" eine der beiden Maßnahmen ergreifen.
- Ziehen Sie neue Felder vom Bereich Daten in den Bereich "Variablen" im Dialogfeld "Cluster". Sie können Felder auch aus dem Bereich "Variablen" ziehen, um sie zu entfernen.
Wenn Sie Variablen hinzufügen, werden Kennzahlen anhand der Standardaggregation für das Feld aggregiert. Dimensionen werden anhand von ATTR aggregiert. Dies ist die Standardmethode von Tableau zum Aggregieren von Dimensionen.
Wenn Sie die Aggregation für eine Variable ändern möchten, klicken Sie mit der rechten Maustaste darauf.
Geben Sie die Anzahl der Cluster an (zwischen 2 und 50). Wenn Sie keinen Wert angeben, erstellt Tableau automatisch bis zu 25 Cluster.
- Ziehen Sie neue Felder vom Bereich Daten in den Bereich "Variablen" im Dialogfeld "Cluster". Sie können Felder auch aus dem Bereich "Variablen" ziehen, um sie zu entfernen.
- Wenn Sie die Anpassung der Cluster-Ergebnisse abgeschlossen haben, klicken Sie auf das X in der oberen rechten Ecke im Dialogfeld "Cluster", um es zu schließen:
Hinweis: Sie können das Feld "Cluster" aus dem Bereich "Farbe" in einen anderen Container in der Ansicht verschieben. Sie können das Feld "Cluster" jedoch nicht aus dem Container Filter in den Bereich Daten verschieben.
Wenn Sie die resultierenden Cluster umbenennen möchten, müssen Sie den Cluster als Gruppe speichern. Einzelheiten dazu finden Sie unter Erstellen einer Gruppe von Cluster-Ergebnissen und Bearbeiten von Clustern.
Clustering-Beschränkungen
Clustering ist in Tableau Desktop verfügbar, jedoch nicht für die Dokumenterstellung im Web (Tableau Server, Tableau Cloud). Die Clustering-Funktion ist ebenfalls nicht verfügbar, wenn eine der nachfolgenden Bedingungen erfüllt ist:
- wenn Sie eine (multidimensionale) Cube-Datenquelle verwenden
- wenn die Ansicht eine verschmolzene Dimension enthält
- wenn es keine Felder gibt, die als Variablen (Eingaben) für die Clustering-Funktion in der Ansicht verwendet werden können
- wenn keine Dimensionen in einer aggregierten Ansicht vorhanden sind
Wenn eine dieser Bedingungen erfüllt ist, können Sie keine Cluster aus dem Bereich "Analyse" in die Ansicht ziehen.
Darüber hinaus können die folgenden Feldtypen nicht als Variablen (Eingaben) für die Clustering-Funktion verwendet werden:
- Tabellenberechnungen
- Verschmolzene Berechnungen
- Ad-hoc-Berechnungen
- Generierte Längen- und Breitengradwerte
- Gruppen
- Sätze
- Partitionen
- Parameter
- Datumsangaben
- Kennzahlnamen/Kennzahlwerte
Bearbeiten von Clustern
Klicken Sie zum Bearbeiten eines vorhandenen Clusters mit der rechten Maustaste (bei einem Mac bei gedrückter Control-Taste) auf ein Feld Cluster unter Farbe und wählen Sie Cluster bearbeiten aus.
Wenn Sie die für die einzelnen Cluster verwendeten Namen ändern möchten, müssen Sie zunächst das Feld "Cluster" in den Bereich Daten ziehen und es als Gruppe speichern. Einzelheiten dazu finden Sie unter Erstellen einer Gruppe von Cluster-Ergebnissen.
Klicken Sie mit der rechten Maustaste auf die Cluster-Gruppe und wählen Sie Gruppe bearbeiten aus, um an den einzelnen Clustern Änderungen vorzunehmen.
Wählen Sie in der Gruppenliste eine Cluster-Gruppe aus und klicken Sie auf Umbenennen, um den Namen zu ändern.
Erstellen einer Gruppe von Cluster-Ergebnissen
Wenn Sie einen Cluster in den Bereich Daten ziehen, wird er zu einer Gruppendimension, in der die einzelnen Elemente (Cluster 1, Cluster 2 usw.) die Markierungen enthalten, die der Cluster-Algorithmus ermittelt hat und die untereinander ähnlicher sind als zu anderen Markierungen.
Nachdem Sie eine Clustergruppe in den Bereich Daten gezogen haben, können Sie sie in anderen Arbeitsblättern verwenden.
Ziehen Sie Cluster von der Karte Markierungen in den Bereich Daten, um eine Tableau-Gruppe zu erstellen:
Nachdem Sie aus den Clustern eine Gruppe erstellt haben, sind die Gruppe und die ursprünglichen Cluster getrennt und eindeutig. Wenn Sie also die Cluster bearbeiten, hat dies keine Auswirkungen auf die Gruppe, und wenn Sie die Gruppe bearbeiten, hat dies keine Auswirkungen auf die Cluster-Ergebnisse. Die Gruppe weist die gleichen Eigenschaften auf wie jede andere Tableau-Gruppe. Sie ist Teil der Datenquelle. Im Gegensatz zu den ursprünglichen Clustern können Sie die Gruppe in anderen Arbeitsblättern in der Arbeitsmappe verwenden. Wenn Sie also die gespeicherte Cluster-Gruppe umbenennen, wird die Umbenennung nicht auf den Original-Cluster in der Ansicht angewendet. Weitere Informationen finden Sie unter Korrigieren von Datenfehlern und Kombinieren von Dimensionselementen durch Gruppierung Ihrer Daten.
Beschränkungen beim Speichern von Clustern als Gruppen
Unter folgenden Umständen können Sie keine Cluster im Bereich Daten speichern:
- wenn die Kennzahlen in der Ansicht disaggregiert sind und die von Ihnen als Clustering-Variablen verwendeten Kennzahlen nicht den Kennzahlen in der Ansicht entsprechen. Weitere Informationen finden Sie unter So disaggregieren Sie Daten.
- wenn sich die zu speichernden Cluster im Container Filter befinden
- wenn sich die Option Kennzahlennamen oder Kennzahlenwerte in der Ansicht befindet
- wenn die Ansicht eine verschmolzene Dimension enthält
Erneutes Anpassen gespeicherter Cluster
Wenn Sie ein Feld vom Typ "Cluster" als Gruppe speichern, wird es zusammen mit dem zugehörigen Analysemodell gespeichert. Sie können zwar Ihre Cluster-Gruppen in anderen Arbeitsblättern und Arbeitsmappen verwenden, sie werden jedoch nicht automatisch aktualisiert.
In diesem Beispiel wurden eine gespeicherte Cluster-Gruppe und das zugehörige Analysemodell auf ein anderes Arbeitsblatt angewendet. Infolgedessen sind einige Markierungen noch nicht im Clustering enthalten (angegeben durch graue Markierungen).
Ändern sich die zugrunde liegenden Daten, können Sie anhand der Option Erneut anpassen die Daten für eine gespeicherte Cluster-Gruppe aktualisieren und neu berechnen.
Erneutes Anpassen eines gespeicherten Clusters
- Klicken Sie im Bereich "Daten" mit der rechten Maustaste auf eine Cluster-Gruppe und klicken Sie dann auf Erneut anpassen.
Hier sehen Sie ein Beispiel eines aktualisierten Clusterings nach der erneuten Anpassung des gespeicherten Clusters:
Beim erneuten Anpassen gespeicherter Cluster werden neue Cluster erstellt und die bestehenden Aliasse der Cluster-Gruppenkategorien werden durch neue, generische Cluster-Aliasse ersetzt. Durch die Anpassung gespeicherter Cluster können sich Visualisierungen, die bestehende Cluster und Aliasse nutzen, ändern.
Funktionsweise von Clustering
Die Cluster-Analyse unterteilt die Markierungen in der Ansicht in Cluster. Die Datenwerte in den einzelnen Clustern sind sich untereinander eher ähnlich als dass sie Datenwerte in anderen Clustern sind. Tableau unterscheidet Cluster anhand der Farbe.
Hinweis: Weitere Einblicke in die Funktionsweise von Clustern in Tableau finden Sie im Blog-Beitrag Verstehen von Clustern in Tableau 10.
Der Clustering-Algorithmus
Tableau verwendet den k-Mittelwertalgorithmus für das Clustering. Für eine festgelegte Anzahl an Clustern k unterteilt der Algorithmus die Daten in k-Cluster. Jeder Cluster hat einen Mittelpunkt (Flächenmittelpunkt), der den Mittelwert aller Punkte in diesem Cluster darstellt. Der K-Mittelwert-Algorithmus ermittelt die Mittelpunkte anhand eines iterativen Verfahrens. Dabei werden die Abstände zwischen einzelnen Punkten in einem Cluster und der Cluster-Mittelpunkt minimiert. Sie können die gewünschte Anzahl an Clustern in Tableau festlegen oder Tableau verschiedene Werte von k testen und die optimale Anzahl Cluster vorschlagen lassen (siehe Verwendete Kriterien für die Ermittelung der optimalen Cluster-Anzahl).
Der K-Mittelwert-Algorithmus benötigt eine anfängliche Spezifikation der Cluster-Mittelpunkte. Die Methode beginnt mit einem Cluster und wählt eine Variable aus, deren Mittelwert als Schwellenwert für die Aufteilung der Daten in zwei Datensätze verwendet wird. Die Flächenmittelpunkte dieser beiden Teile werden dann zur Initialisierung des k-Mittelwert-Algorithmus verwendet, damit dieser die Mitgliedschaft der beiden Cluster optimiert. Als Nächstes wird einer der beiden Cluster zum Aufteilen ausgewählt. Dann wird eine Variable in diesem Cluster ausgewählt, deren Mittelwert als Schwellenwert zum Aufteilen der Cluster in zwei Teile dient. Der K-Mittelwert-Algorithmus unterteilt dann die Daten in drei Cluster, indem er mit den Flächenmittelpunkten der beiden Teile des geteilten Clusters und dem Flächenmittelpunkt des verbleibenden Clusters initialisiert wird. Dieser Vorgang wird so lange wiederholt, bis eine festgelegte Anzahl von Clustern erreicht ist.
Tableau nutzt den Lloyd-Algorithmus mit quadratischen euklidischen Abständen, um das k-Mittelwert-Clustering für jeden k-Wert zu berechnen. In Verbindung mit dem Aufteilungsverfahren zur Ermittlung der anfänglichen Mittelpunkte für jeden k-Wert > 1 ist das resultierende Clustering deterministisch. Das Ergebnis hängt nur von der Anzahl an Clustern ab.
Der Algorithmus beginnt damit, ursprüngliche Clustermittelpunkte aufzunehmen:
Er partitioniert dann die Markierungen, indem jede dem nächstgelegenen Mittelpunkt zugewiesen wird:
Dann verfeinert er die Ergebnisse, indem er neue Mittelpunkte für jede Partition berechnet. Dazu wird der Durchschnittswert aus allen Punkten erstellt, die demselben Cluster zugewiesen sind:
Danach wird die Zuweisung der Markierungen zu Clustern geprüft, und Markierungen, die nun näher an einem anderen Mittelpunkt liegen als vorher, werden neu zugewiesen.
Die Cluster werden neu definiert, und Markierungen werden wiederholt neu zugewiesen, bis keine weiteren Änderungen auftreten.
Hinweis: Aufgrund von Unterschieden bei den zugrunde liegenden Technologien kann es bei Clustern, die auf x64- oder auf arm64-CPUs erstellt wurden, leichte Unterschiede bei den gleichen Daten geben.
Verwendete Kriterien für die Ermittelung der optimalen Cluster-Anzahl
Tableau verwendet das Calinski-Harabasz-Kriterium, um die Clusterqualität zu bewerten. Das Calinski-Harabasz-Kriterium wird definiert als
wobei SSB die gesamte Varianz zwischen Clustern bezeichnet, SSW die gesamte Varianz im Cluster, k die Anzahl der Cluster und N die Anzahl der Beobachtungen.
Je höher der Wert dieses Verhältnisses ist, desto zusammenhängender sind die Cluster (geringe Varianz im Cluster) und desto eindeutiger/getrennter sind die einzelnen Cluster (hohe Varianz zwischen Clustern).
Da der Calinski-Harabasz-Index für k=1 nicht definiert ist, kann dieser nicht zur Erkennung von Fällen mit einem Cluster verwendet werden.
Wenn ein Benutzer keine Anzahl an Clustern festlegt, wählt Tableau die Anzahl an Clustern aus, die dem ersten lokalen Maximum des Calinski-Harabasz-Index entspricht. Standardmäßig wird der k-Mittelwert-Algorithmus für bis zu 25 Cluster ausgeführt, wenn das erste lokale Maximum des Index nicht bei einem kleineren k-Wert erreicht wird. Sie können einen Höchstwert von 50 Clustern einstellen.
Hinweis: Wenn eine Kategorievariable (d. h. eine Dimension) aus mehr als 25 eindeutigen Werten besteht, dann wird Tableau diese Variable beim Berechnen von Clustern nicht berücksichtigen.
Welche Werte werden der Kategorie "Nicht geclustert" zugewiesen?
Wenn für die Kennzahl Nullwerte vorhanden sind, weist Tableau Werte für Zeilen mit null einer Kategorie Nicht geclustert zu. Kategorievariablen (d. h. Dimensionen), die für ATTR einen * zurückgeben (was bedeutet, dass die Werte nicht identisch sind), werden ebenfalls nicht geclustert.
Skalierung
Tableau skaliert Werte automatisch, sodass Spalten mit einem größeren Bereich von Größen die Ergebnisse nicht dominieren. Beispiel: Ein Analyst könnte Inflation und BIP als Eingabevariablen für das Clustering verwenden. Da die BIP-Werte jedoch in Billionen von Dollarn angegeben sind, könnten die Inflationswerte in der Berechnung so gut wie gar nicht berücksichtigt werden. Tableau verwendet eine Skalierungsmethode namens Min-Max-Normierung, bei der die Werte von jeder Variablen Werten zwischen 0 und 1 zugeordnet werden, indem ihr Minimumwert subtrahiert und das Ergebnis dann durch den Bereich geteilt wird.
Informationen zu den für Cluster verwendeten Statistikmodellen
Im Dialogfeld "Cluster beschreiben" finden Sie Informationen über die Modelle, die Tableau für das Clustering berechnet hat. Sie können diese Statistiken zur Beurteilung der Qualität des Clustering-Vorgangs nutzen.
Wenn die Ansicht einen Cluster enthält, können Sie das Dialogfeld "Cluster beschreiben" öffnen, indem Sie mit der rechten Maustaste auf der Karte Markierungen auf die Option Cluster klicken (Strg+Mausklick auf einem Mac) und die Option Cluster beschreiben auswählen. Die Informationen im Dialogfeld "Cluster beschreiben" sind schreibgeschützt. Sie können jedoch auf In Zwischenablage kopieren klicken und die Bildschirminhalte in ein beschreibbares Dokument kopieren.
Registerkarte "Cluster beschreiben – Zusammenfassung"
Auf der Registerkarte "Zusammenfassung" finden Sie die Eingaben, die zum Generieren von Clustern verwendet wurden, und einige Statistiken, die die Cluster charakterisieren.
Eingaben für Clustering
Variablen
Kennzeichnet die Felder, die Tableau zum Berechnen von Clustern verwendet. Dabei handelt es sich um die Felder, die im Feld "Variablen" im Dialogfeld "Cluster" aufgeführt sind.
Detailgenauigkeit
Ermittelt die Felder, die zum Genauigkeitsgrad der Ansicht beitragen, d. h. die Felder, die die Aggregationsstufe bestimmen. Details finden Sie unter Auswirkung von Dimensionen auf die Detailgenauigkeit in der Ansicht.
Skalierung
Kennzeichnet die Skalierungsmethode, die zur Vorverarbeitung verwendet wird. "Normiert" ist derzeit die einzige Skalierungsmethode, die Tableau verwendet. Die Formel für diese Methode, die auch als Min-Max-Normalisierung bezeichnet wird, lautet (x – min(x))/(max(x) - min(x))
.
Diagnosezusammenfassung
Anzahl an Clustern
Die Anzahl der einzelnen Cluster im Clustering.
Anzahl der Punkte
Die Anzahl der Markierungen in der Ansicht.
Quadratsumme zwischen Gruppen
Eine Metrik, die die Trennung zwischen Clustern als Summe der Abstände im Quadrat zwischen dem Mittelpunkt der einzelnen Cluster (Durchschnittswert), gewichtet nach der Anzahl an Datenpunkten, die dem Cluster zugeordnet sind, und dem Mittelpunkt der Datengruppe quantifiziert. Je höher der Wert ist, desto besser ist die Trennung zwischen den Clustern.
Quadratsumme innerhalb Gruppe
Eine Metrik, die die Kohäsion von Clustern als Summe der Abstände im Quadrat zwischen dem Mittelpunkt der einzelnen Cluster und den einzelnen Markierungen im Cluster quantifiziert. Je kleiner der Wert ist, desto zusammenhängender sind die Cluster.
Quadratsumme insgesamt
Gesamtwert der Quadratsumme zwischen Gruppen und der Quadratsumme innerhalb der Gruppen. Das Verhältnis (Zwischengruppen-Summe an Quadraten)/(Gesamtsumme an Quadraten) gibt die Varianzproportion an, die durch das Modell erläutert wird. Die Werte liegen zwischen 0 und 1. Höhere Werte weisen in der Regel auf ein besseres Modell hin. Sie können dieses Verhältnis jedoch nur steigern, indem Sie die Anzahl an Clustern erhöhen. Dies könnte irreführend sein, wenn Sie ein Modell mit fünf Clustern mit einem Modell mit drei Clustern nur anhand dieses Werts vergleichen.
Cluster-Statistiken
Für jeden Cluster im Clustering werden die folgenden Informationen angegeben.
# Elemente
Die Anzahl der Markierungen im Cluster.
Mittelpunkte
Der Durchschnittswert im jeweiligen Cluster (angezeigt für numerische Elemente).
Am häufigsten
Der häufigste Wert im jeweiligen Cluster (nur angezeigt für Kategorie-Elemente).
Registerkarte "Cluster beschreiben – Modelle"
Die Analyse der Varianz (ANOVA) ist eine Sammlung von statistischen Modellen und zugehörigen Verfahren, die für die Analyse der Abweichung innerhalb von und zwischen Beobachtungen nützlich sind, die in Gruppen oder Cluster unterteilt wurden. In diesem Fall wird die Analyse der Varianz pro Variable berechnet, und anhand der daraufhin erstellten Tabelle zur Analyse der Varianz können Sie ermitteln, welche Variablen am effizientesten zur Unterscheidung von Clustern sind.
Die relevanten Statistiken zur Analyse der Varianz für Clustering lauten wie folgt:
F-Statistik
Die F-Statistik ist für eine einseitige ANOVA oder ANOVA mit einem einzelnen Faktor der Bruchteil der Varianz, bestimmt durch eine Variable. Sie ist das Verhältnis der Varianz zwischen Gruppen zur gesamten Varianz.
Je größer der F-Statistikwert ist, desto besser kann die entsprechende Variable zwischen Clustern unterschieden werden.
p-value (P-Wert)
Der p-Wert ist die Wahrscheinlichkeit, mit der die F-Verteilung aller möglichen Werte der F-Statistik einen größeren Wert annimmt als die tatsächliche F-Statistik für eine Variable. Wenn der p-Wert unter eine vorgegebene Bedeutungsstufe fällt, kann die Nullhypothese (dass die einzelnen Elemente der Variablen zufällige Beispiele einer Bevölkerung sind) zurückgewiesen werden. Die Freiheitsgrade für diese F-Verteilung werden anhand von (k–1, N–k) ermittelt, wobei k für die Anzahl an Clustern und N für die Anzahl an geclusterten Elementen (Zeilen) steht.
Je niedriger der p-Wert ist, desto stärker variieren die erwarteten Werte der Elemente der entsprechenden Variablen zwischen den Clustern.
Modellquadratsumme und Freiheitsgrad
Die Quadratsumme des Modells ist das Verhältnis der Quadratsumme zwischen Gruppen zu dem Freiheitsgrad des Modells. Die Quadratsumme zwischen Gruppen ist eine Kennzahl für die Variation zwischen Cluster-Mittelwerten. Wenn die Cluster-Mittelwerte eng beieinander (und demzufolge nahe am Gesamtmittelwert) liegen, ist dieser Wert klein. Das Modell hat einen Freiheitsgrad von k–1, wobei k für die Anzahl an Clustern steht.
Fehlerquadratsumme und Freiheitsgrad
Die Quadratsumme des Fehlers ist das Verhältnis der Quadratsumme innerhalb der Gruppe zu dem Freiheitsgrad des Fehlers. Die Quadratsumme innerhalb der Gruppe ist eine Kennzahl für die Variation zwischen Beobachtungen innerhalb von jedem Cluster. Der Fehler hat einen Freiheitsgrad von N–k, wobei N für die die Gesamtanzahl an geclusterten Beobachtungen (Zeilen) und k für die Anzahl der Cluster steht.
Die Quadratsumme des Fehlers kann man sich als mittleren quadratischen Gesamtfehler vorstellen. Dies gilt unter der Voraussetzung, dass jeder Cluster-Mittelpunkt die "Wirklichkeit" für jeden Cluster angibt.
Beispiel: Erstellen von Clustern mit Daten der Weltwirtschaftsindikatoren
Die Clustering-Funktion von Tableau unterteilt die Markierungen in der Ansicht in Cluster, wobei die Markierungen in den einzelnen Clustern untereinander ähnlicher sind als zu Markierungen in anderen Clustern. Dieses Beispiel zeigt, wie ein Forscher die Clustering-Funktion nutzen kann, um einen optimalen Satz an Markierungen (in diesem Fall Länder/Regionen) in einer Datenquelle zu finden.
Das Ziel
Aufgrund der weltweit zunehmenden Lebenserwartung und der Tatsache, dass Menschen auch im hohen Alter immer aktiver sind, ist der Seniorentourismus ein lukrativer Markt für Unternehmen, die wissen, wie sie potenzielle Kunden finden und gewinnen. Der von Tableau bereitgestellte Beispieldatensatz "Weltindikatoren" enthält solche Daten, die Unternehmen bei der Identifizierung von Ländern oder Regionen helfen können, in denen sich ausreichend Kunden des richtigen Typs befinden.
Suche nach den richtigen Ländern/Regionen
Nachfolgend sehen Sie ein Beispiel, wie die Clustering-Funktion von Tableau solch einem Unternehmen bei der Identifizierung der Länder/Regionen helfen könnte, in denen das Seniorentourismusgeschäft erfolgreich sein könnte. Stellen Sie sich, Sie wären der Analyst. So würden Sie möglicherweise vorgehen.
- Öffnen Sie die Beispiel-Datenquelle Weltindikatoren in Tableau Desktop.
- Doppelklicken Sie im Bereich Daten auf Land/Region.
Tableau erstellt automatisch eine Kartenansicht mit einer Markierung in jedem Land bzw. in jeder Region.
- Ändern Sie auf der Karte Markierungen den Markierungstyp zu Karte:
Sie sollten nun eine Kartenprojektion sehen, in der alle Länder/Regionen mit einer deckenden Farbe ausgefüllt sind:
- Im nächsten Schritt identifizieren Sie die Felder, die Sie als Variablen für das Clustering verwenden wollen. Dies sind die Felder, die Sie auswählen:
Feld Grund für Einbeziehung Lebenserwartung – Frauen und Lebenserwartung – Männer Dort, wo die Lebenserwartung der Menschen höher ist, ist auch die Wahrscheinlichkeit größer, dass es Menschen gibt, die auch im Alter an Reisen interessiert sind. Bevölkerung – städtisch Es ist einfacher, Dienstleistungen in Gegenden zu vermarkten, in denen die Bevölkerungsdichte größer ist. Bevölkerung – über 65 Jahre Die Zielbevölkerung sind ältere Bewohner, die Zeit und die Geldmittel zum Reisen haben. Tourismusaktivitäten pro Kopf Dies ist eine Kennzahl, die Sie als benanntes berechnetes Feld erstellen müssen. Die Formel lautet:
SUM([Tourism Outbound])/SUM([Population Total])
Tourismus – Ausland aggregiert das Geld (in US-Dollar), das die Bewohner eines Landes bzw. einer Region jährlich für internationale Reisen ausgeben. Dieser Gesamtwert muss durch die Bevölkerung jedes Landes bzw. jeder Region geteilt werden, um den durchschnittlichen Betrag zu ermitteln, den jeder Bewohner für internationale Reisen ausgibt.
Es gibt keine Garantie, dass dies die idealen Felder zum Auswählen sind oder dass diese Felder Cluster-Ergebnisse erzeugen, die klar und eindeutig sind. Das Clustering ist ein iterativer Prozess, d. h. Experimente führen zu Entdeckungen, die wiederum zu weiteren Experimenten führen.
- Ziehen Sie diese fünf Felder aus dem Bereich Daten in den Bereich Detail der Karte Markierungen.
- Klicken Sie zum Öffnen des Bereichs auf Analyse:
Ziehen Sie Cluster vom Bereich Analyse weg und legen Sie ihn in der Ansicht ab:
Tableau zeigt ein Dialogfeld "Cluster" an und fügt der Liste der Variablen die Kennzahlen in der Ansicht hinzu:
Es aktualisiert auch die Ansicht durch Hinzufügen der Cluster zu Farbe. In diesem Fall findet Tableau zwei eindeutige Cluster und kann den einzelnen Clustern keine bestimmten Länder/Regionen zuweisen (in Farbe Rot-Pink):
Hinweis: Unter Funktionsweise von Clustering finden Sie weitere Details zu den Daten, die Tableau der Kategorie "Nicht geclustert" zuweist.
- Sie entscheiden, dass zwei Cluster nicht ausreichen. Sie haben nicht genügend Ressourcen, um Geschäfte in der Hälfte der Länder/Regionen weltweit zu eröffnen. Daher geben Sie eine
4
in das Feld Anzahl an Clustern des Dialogfelds "Cluster" ein.Die Karte ist schon interessanter für Sie:
Aber wie stehen diese Cluster mit den von Ihnen gewählten Variablen in Beziehung? Welches korreliert am besten mit den Faktoren, die einen Seniorentourismus unterstützen? Nun ist es an der Zeit, die Statistiken hinter den Clustern zu betrachten.
- Schließen Sie das Dialogfeld "Cluster", indem Sie auf das X in der oberen rechten Ecke klicken:
- Klicken Sie auf das Feld Cluster auf der Karte Markierungen und wählen Sie die Option Cluster beschreiben aus.
In der Tabelle unten auf der Registerkarte Modelle im Dialogfeld "Cluster" werden die Mittelwerte von jeder Variablen in jedem Cluster aufgeführt:
Der Cluster 4 weist die höchste Lebenserwartung (für Männer und Frauen), die höchste städtische Bevölkerungsdichte und die höchste Ausgabesumme für internationale Reisen auf: 1.360,40 US-Dollar pro Kopf. Die einzige Variable, die im Cluster 4 nicht den höchsten Wert erzielt, ist die Variable Bevölkerung – über 65 Jahre, die im Cluster 3 am größten ist: 0,15493 (knapp unter 16 %) bis 0,11606 (knapp über 11 %) im Cluster 4.
Der Clustering-Algorithmus weiß nicht, ob Sie nach dem Höchstwert, dem Mindestwert oder nach einem mittleren Wert dieser Variablen suchen. Er sucht nur nach Korrelationen. Sie aber wissen, dass höhere Werte für diese Variablen ein Hinweis dafür sind, wonach Sie suchen, und der Cluster 4 ist Ihre eindeutige Wahl.
- Sie können versuchen, die Länder/Regionen des Clusters 4 von der Karte auszulesen, aber es gibt einen einfacheren Weg. Schließen Sie das Dialogfeld Cluster beschreiben, klicken Sie dann in der Farblegende auf Cluster 4 und wählen Sie die Option Nur beibehalten aus.
- Wählen Sie die Option "Texttabelle" unter "Zeig es mir!" aus.
Nun sehen Sie eine Liste der Länder/Regionen im Cluster 4:
Diese Liste ist jedoch noch nicht das Ende des Prozesses. Sie versuchen möglicherweise, ein erneutes Clustering mit einem leicht abgewandelten Satz an Variablen und einer unterschiedlichen Anzahl an Clustern durchzuführen oder aufgrund anderer Faktoren einige Länder/Regionen zur Liste hinzuzufügen bzw. daraus zu entfernen. Wenn Ihre Reisen beispielsweise hauptsächlich in tropische Gebiete gehen, können Sie Länder wie Curacao und die Bahamas aus der Liste entfernen, da tropische Reisen für die Bewohner dieser Länder/Regionen aller Wahrscheinlichkeit nach nicht sehr reizvoll sind.
Eine weitere Möglichkeit ist, die Daten vor dem erneuten Clustern zu filtern, um nur Länder/Regionen mit einer Bevölkerung über einem bestimmten Grenzwert oder Länder/Regionen in einem bestimmten geografischen Gebiet anzuzeigen.