Hitta kluster i data
Klusteranalys delar upp markeringar i vyn till kluster. Markeringarna inom varje kluster liknar varandra mer än markeringarna i andra kluster.
Se exempel: Exempel: Skapa kluster med data från globala ekonomiska indikatorer för ett exempel som visar processen att skapa kluster med dataurval.
Skapa kluster
Följ dessa steg för att hitta kluster i en vy i Tableau.
- Skapa en vy.
- Dra Kluster från rutan Analys till vyn och släpp den i målområdet:
Du kan även dubbelklicka på Kluster för att hitta olika kluster i vyn.
När du släpper eller dubbelklickar på Kluster:
- Tableau skapar en grupp med Kluster i Färg och färglägger markeringarna i din vy per kluster. Om det redan finns ett fält i Färg, flyttar Tableau det fältet till Information och ersätter det i Färg med klusterresultaten.
Tableau tilldelar varje markering i vyn till ett av klustren. I vissa fall tilldelas markeringar som inte passar perfekt in i ett kluster till ett kluster som designeras ”Inte i ett kluster”.
- Tableau visar dialogrutan Kluster där du kan anpassa klustret.
- Tableau skapar en grupp med Kluster i Färg och färglägger markeringarna i din vy per kluster. Om det redan finns ett fält i Färg, flyttar Tableau det fältet till Information och ersätter det i Färg med klusterresultaten.
- Gör något av följande i dialogrutan Kluster för att anpassa klusterresultaten.
- Dra nya fält från rutan Data till området Variabler i dialogrutan Kluster. Du kan också dra fält till utanför området Variabler för att ta bort dem.
När du lägger till variabler aggregeras mätvärden med standardaggregeringen för fältet. Dimensioner aggregeras med ATTR, vilket är det standardiserade sättet på vilket Tableau aggregerar dimensioner.
Högerklicka på aggregeringen för en variabel för att modifiera den.
Ange antalet kluster (mellan 2 och 50). Tableau skapar automatiskt upp till 25 kluster om du inte anger något värde.
- Dra nya fält från rutan Data till området Variabler i dialogrutan Kluster. Du kan också dra fält till utanför området Variabler för att ta bort dem.
- När du har slutat anpassa klusterresultaten kan du klicka på X i det övre högra hörnet av dialogrutan Kluster, för att stänga den:
Obs! Du kan flytta klusterfältet från Färg till en annan hylla i vyn. Du kan dock inte flytta klusterfältet från hyllan Filter till rutan Data.
För att byta namn på de klustrer som skapas måste du först spara klustret som en grupp. Se Skapa en grupp från klusterresultat och Redigera kluster för mer information.
Begränsningar vid klustring
Klustring är tillgänglig i Tableau Desktop, men dock inte för redigering på webben (Tableau Server eller Tableau Cloud). Klustring är inte heller tillgänglig när något av följande villkor gäller:
- När du använder en kub (flerdimensionell) -datakälla.
- När det finns en kombinerad dimension i vyn.
- När det inte finns några fält som kan användas som variabler (indata) för klustring i vyn.
- När det inte finns några dimensioner närvarande i en aggregerad vy.
När något av dessa villkor gäller kan du inte dra Kluster från rutan Analys till vyn.
Dessutom kan följande typer av fält inte användas som variabler (indata) för klustring:
- Tabellberäkningar
- Kombinerade beräkningar
- Ad hoc-beräkningar
- Genererade latitud-/longitudvärden
- Grupper
- Uppsättningar
- Klasser
- Parametrar
- Datum
- Mätvärdesnamn/mätvärden
Redigera kluster
Du kan redigera ett befintligt kluster genom att högerklicka på (Control-klicka på en Mac) ett fält med Kluster i Färg och välja Redigera kluster.
Du kan ändra namnen som används för varje kluster. Först måste du dra fältet Kluster till rutan Data och spara det som en grupp. Se Skapa en grupp från klusterresultat för mer information.
Högerklicka på klustergruppen och välj Redigera grupp för att göra ändringar i varje kluster.
Välj en klustergrupp i listan med Grupper och klicka på Byt namn för att byta namnet.
Skapa en grupp från klusterresultat
Om du drar ett kluster till rutan Data blir det en gruppdimension där de enskilda medlemmarna (kluster 1, kluster 2 osv.) innehåller de markeringar som klusteralgoritmen har fastställt är mer lika varandra än de är andra markeringarna.
När du har dragit en klustergrupp till rutan Data kan du använda den i andra arbetsblad.
Dra Kluster från kortet Markeringar till rutan Data för att skapa en Tableau-grupp:
När du har skapat en grupp från olika kluster är gruppen och de ursprungliga klustren separata och distinkta. Att redigera klustren påverkar inte gruppen och att redigera gruppen påverkar inte klusterresultaten. Gruppen har samma egenskaper som alla andra Tableau-grupper. Den är en del av datakällan. Till skillnad från de ursprungliga klustren kan du använda gruppen i andra arbetsblad i arbetsboken. Om du byter namn på den sparade klustergruppen tillämpas därför inte bytet på den ursprungliga klustringen i vyn. Läs mer i Korrigera datafel eller kombinera dimensionsmedlemmar genom att gruppera dina data.
Restriktioner gällande att spara kluster som grupper
Du kommer inte att kunna spara Kluster i rutan Data under någon av följande omständigheter:
- När mätvärden i vyn är uppdelade och mätvärden du använder som klustringsvariabler inte är samma som mätvärden i vyn. Se Dela upp data för mer information.
- När de kluster du vill spara finns på hyllan Filter.
- När Mätvärdesnamn eller Mätvärden finns i vyn.
- När det finns en kombinerad dimension i vyn.
Anpassa sparade kluster igen
När du sparar ett Klusterfält som en grupp sparas det med dess analysmodell. Du kan använda dina klustergrupper i andra arbetsblad och arbetsböcker. De uppdateras dock inte automatiskt.
I följande exempel har en sparad klustergrupp och dess analysmodell tillämpats på ett annat arbetsblad. Som ett resultat av detta inkluderas vissa av markeringarna inte i klustringen ännu (indikeras med gråa markeringar).
Om de underliggande data förändras kan du använda alternativet Anpassa igen för att uppdatera och beräkna om data för en sparad klustergrupp.
Anpassa ett sparat kluster igen
- Högerklicka på en klustergrupp i rutan Data och klicka sedan på Anpassa igen.
Här följer ett exempel på en uppdaterad klustring efter att det sparade klustret har anpassats igen:
När du anpassar sparade kluster igen skapas nya kluster och befintliga alias för varje kategori av klustergrupper ersätts med nya och generiska klusteralias. Var medveten om att funktionen Anpassa sparade kluster igen kan ändra dina visualiseringar som använder befintliga kluster och alias.
Så fungerar klustring
Klusteranalys delar upp markeringarna i vyn till kluster. Markeringarna inom varje kluster liknar varandra mer än markeringarna i andra kluster. Tableau särskiljer kluster med olika färger.
Obs! Se blogginlägget Understanding Clustering in Tableau 10 (på engelska) för ytterligare information om hur klustring fungerar i Tableau.
Klustringsalgoritmen
Tableau använder algoritmen k-means för klustring. För ett givet antal k kluster delar algoritmen upp data i k kluster. Varje kluster har ett centrum (klustercentrum) som är medelvärdet för alla punkter i det klustret. K-means lokaliserar centrum genom en iterativ procedur som minimerar avstånden mellan enskilda punkter i ett kluster och klustercentrum. I Tableau kan du ange ett önskat antal kluster eller låta Tableau testa olika värden på k och föreslå ett optimalt antal kluster (se Kriterier som används för att fastställa det optimala antalet kluster).
K-means kräver en initial indikering av olika klustercentrum. Metoden börjar med ett kluster och väljer en variabel vars medelvärde används som ett tröskelvärde för att dela upp data i två. Klustercentrumen för dessa två delar används sedan för att initiera k-means som i sin tur optimera medlemskapet i de två klustren. Därefter ska du välja ett av de två klustren för att dela upp och en variabel, inom klustret, vars medelvärde används som ett tröskelvärde för att dela det klustret i två. K-means används sedan för att dela upp data i tre kluster, initierade med klustercentrum för de två delarna av det delade klustret och klustercentrum för det återstående klustret. Den här process upprepas till ett specifikt antal kluster uppnås.
Tableau använder Lloyds algoritm med kvadrerade euklidiska avstånd för att beräkna klustringen med k-means för varje k. I kombination med uppdelningsproceduren för att fastställa de initiala centrumen för varje k > 1, är den resulterande klustringen deterministisk, där resultatet endast är beroende av antalet kluster.
Algoritmen börjar med att välja initiala klustercentrum:
Den delar sedan upp markeringarna genom att tilldela var och en till dess närmaste centrum:
Den förfinar sedan resultaten genom att beräkna nya centrum för varje partition genom att ta ett genomsnitt av alla punkter som har tilldelats samma kluster:
Den granskar sedan tilldelningen av markeringar till kluster och tilldelar på nytt alla markeringar som nu är närmare ett annat centrum än tidigare.
Klustren omdefinieras och markeringar tilldelas på nytt iterativt till inga fler ändringar sker.
Obs! På grund av underliggande skillnader i teknologierna kan det finnas små skillnader mellan kluster skapade på x64- eller arm64-processorer för samma data.
Kriterier som används för att fastställa det optimala antalet kluster
Tableau använder Calinski-Harabasz-kriteriet för att utvärdera klusterkvalitet. Calinski-Harabasz-kriteriet definieras som
där SSB är den övergripande variationen mellan kluster, SSW den övergripande variationen inom kluster, k antalet kluster och N antalet observationer.
Ju större värdet är i detta förhållande, desto mer kohesiva kluster (låg variation inom kluster) och desto mer distinkta/separerade är de individuella klustren (hög variation mellan kluster).
Då Calinski-Harabasz-indexet inte är definierat för k=1, kan det inte användas för att detektera fall med endast ett kluster.
Om en användare inte anger antalet kluster väljer Tableau det som motsvarar det första lokala maximala värdet i Calinski-Harabasz-indexet. Som standard används k-means för upp till 25 kluster om indexets första lokala maximala värde inte nås för ett mindre värde på k. Du kan ställa in ett maximalt värde på 50 kluster.
Obs! Om en kategorisk variabel (det vill säga en dimension) har mer än 25 unika värden använder inte Tableau den variabeln vid beräkning av kluster.
Vilka värden tilldelas kategorin ”Inte i ett kluster”?
När det finns null-värden för ett mätvärde tilldelar Tableau raderm, med värdet null, till kategorin Inte i ett kluster. Kategoriska variabler (det vill säga dimensioner) som returnerar * för ATTR (vilket innebär att alla värden inte är identiska) är inte heller i ett kluster.
Skalning
Tableau skalar värden automatiskt för att kolumner som har ett större storleksintervall inte ska dominera resultaten. Till exempel kan en analytiker använda inflationen och BNP som indatavariabler för klustring. Men då BNP-värdena är i miljarder dollar kan detta göra att inflationsvärdena i stort sett ignoreras i beräkningen. Tableau använder en skalningsmetod som kallas min-max-normalisering där värdena för varje variabel överläggs ett värde mellan 0 och 1 genom att subtrahera dess minimum och dividera med dess intervall.
Information om statistiska modeller som används för kluster
Dialogrutan Beskriv kluster erbjuder information om de modeller som Tableau beräknade för klustring. Du kan använda den här statistiken för att utvärdera kvaliteten på klustringen.
När vyn innehåller kluster kan du öppna dialogrutan Beskriv kluster genom att högerklicka på Kluster på kortet Markeringar (Kontroll-klicka på en Mac) och välja Beskriv kluster. Informationen i dialogrutan Beskriv kluster är skrivskyddad. Du kan dock klicka på Kopiera till urklipp och sedan klistra in skärminnehållet i ett skrivbart dokument.
Beskriv kluster – fliken Sammanfattning
Fliken Sammanfattning identifierar de indata som användes för att generera klustren och erbjuder statistik som kännetecknar klustren.
Inmatning för klustring
Variabler
Identifierar fälten som Tableau använder för att beräkna kluster. Dessa är fälten som listas i rutan Variabler i dialogrutan Kluster.
Detaljnivå
Identifierar de fält som bidrar till vyns detaljnivå – det vill säga de fält som fastställer aggregeringsnivån. Se Så här påverkar dimensioner detaljnivån i vyn för mer information.
Skalning
Identifierar skalningsmetoden som används för förbearbetning. Normalisering är för närvarande den enda skalningsmetod som Tableau använder. Formeln för den här metoden, även känd som min-max-normalisering, är (x – min(x))/(max(x) - min(x))
.
Sammanfattande diagnostik
Antal kluster
Antalet enskilda kluster i klustringen.
Antal punkter
Antalet markeringar i vyn.
Mellangruppens kvadratsumma
Ett mätvärde som kvantifierar separationen mellan kluster som summan av avståndet i kvadrat mellan centrum av varje kluster (genomsnitt), viktat med antalet datapunkter som har tilldelats klustret och centrum av datamängden. Ju större värde, desto större är separationen mellan kluster.
Inomgruppens kvadratsumma
Ett mätvärde som kvantifierar sammanhållningen av kluster som summan av avståndet i kvadrat mellan centrum av varje kluster och de individuella markeringarna i klustret. Ju lägre värde, desto mer sammanhängande kluster.
Total kvadratsumma
Totalsumman av mellangruppens kvadratsumma och inomgruppens kvadratsumma Förhållandet (mellangruppens kvadratsumma/(total kvadratsumma) ger andel av variation som förklaras av modellen. Värden är mellan 0 och 1 – större värden indikerar vanligtvis en bättre modell. Du kan dock öka detta förhållande bara genom att öka antalet kluster. Det kan därför vara missvisande om du använder ett specifikt värde och jämför en modell med fem kluster med en som använder tre kluster.
Klusterstatistik
För varje kluster i klustringen tillhandahålls följande information.
Antalet objekt
Antalet märken inom klustret.
Centrum
Medelvärdet inom varje kluster (visas för numeriska objekt).
Vanligast
Det vanligaste värdet inom varje kluster (visas endast för kategoriska objekt).
Beskriv kluster – fliken Modeller
Variationsanalys (ANOVA) är en samling statistiska modeller och tillhörande procedurer som är användbara för att analysera variation inom och mellan observationer som har delats upp i grupper eller kluster. I det här fallet beräknas variationsanalys per variabel. Den resulterande tabellen med variationsanalys kan användas för att fastställa vilka variabler som är mest effektiva för att särskilja kluster.
Relevant analys av variationsstatistik för klustring inkluderar:
F-statistik
F-statistiken är för envägs eller enfaktor. ANOVA är den del av variationen som förklaras av en variabel. Det är förhållandet mellan variationen mellan grupperna och den totala variationen.
Ju större värde på F-statistik, desto bättre är motsvarande variabel på att skilja mellan kluster.
p-värde
P-värdet är sannolikheten att F-fördelningen, av alla möjliga värden i F-statistiken, får ett värde som är större än den faktiska F-statistiken för en specifik variabel. Om p-värdet hamnar under en specificerad signifikansnivå kan null-hypotesen (att de enskilda elementen i variabeln är slumpmässiga urval från ett enda bestånd) förkastas. Graderna av frihet för den här F-fördelning är (k-1, N-k), där k är antalet kluster och N är antalet objekt (rader) som är klustrade.
Ju lägre p-värde, desto mer skiljer sig förväntade värden mellan kluster för elementen i motsvarande variabel.
Modellens kvadratsumma och grader av frihet
Modellens kvadratsumma är förhållandet mellan mellangruppens kvadratsumma och modellens grader av frihet. Mellangruppens kvadratsumma är ett mätvärde på variationen mellan klusters medelvärden. Om medelvärden i kluster är nära varandra (och därför nära det totala medelvärdet) kommer detta värde att vara litet. Modellen har k-1 grader av frihet, där k är antalet kluster.
Felens kvadratsumma och grader av frihet
Felens kvadratsumma är förhållandet mellan inomgruppens kvadratsumma och modellens grader av frihet. Inomgruppens kvadratsumma mäter variationen mellan observationer inom varje kluster. Felet har N-k grader av frihet där N är det totala antalet klustrade observationer (rader) och k är antalet kluster.
Felens kvadratsumma kan ses som felens övergripande kvadratmedelvärde, förutsatt att varje klustercentrum representerar ”sanningen” för varje kluster.
Exempel: Skapa kluster med data från globala ekonomiska indikatorer
Tableaus klusterfunktion delar upp markeringar i vyn till kluster. Markeringarna inom varje kluster liknar varandra mer än markeringarna i andra kluster. Det här exemplet visar hur en forskare kan använda klustring för att hitta en optimal uppsättning markeringar (i det här fallet länder/regioner) i en datakälla.
Målet
När den förväntade livslängden ökar runt om i världen och äldre människor förblir mer aktiva kan turism för äldre vara en lukrativ marknad för företag som vet hur man hittar och lockar potentiella kunder. Datauppsättningen med globala indikatorerna som följer med Tableau innehåller den typ av data som kan hjälpa företag att identifiera de länder eller regioner där det finns tillräckligt med rätt sorts kunder.
Hitta rätt länder/regioner
Här följer ett exempel på hur Tableau-klustring kan hjälpa ett sådant företag att identifiera de länder/regioner där en turistverksamhet för äldre skulle kunna lyckas. Föreställ dig att du är en analytiker. Du kan gå tillväga på följande sätt.
- Öppna datauppsättningen med globala indikatorer i Tableau Desktop.
- Dubbelklicka på Land/Region i rutan Data.
Tableau skapar automatiskt en kartvy, med en markering i varje land/region.
- På kortet Markeringar ändrar du markeringstypen till Karta:
Du bör nu se en kartprojektion där alla länder/regioner är fyllda med en solid färg:
- Nästa steg är att identifiera de fält som ska användas som variabler för klustring. Här följer fälten du väljer:
Fält Anledning till inkludering Förväntad livslängd för kvinnor och Förväntad livslängd för män Där människor lever längre är det mer sannolikt att finnas personer som är intresserade av att resa under ett senare skede i livet. Stadsbefolkning Det är lättare att marknadsföra tjänster i områden med större befolkningstäthet. Befolkning 65+ Målgruppen är äldre invånare med tiden och pengarna att resa. TurismPerKapita Det här är ett mätvärde som du måste skapa som ett namngivet beräknat fält. Formeln är:
SUM([Tourism Outbound])/SUM([Population Total])
Tourism Outbound aggregerar pengarna (i amerikanska dollar) som invånare i ett land/region spenderar årligen på internationella resor. Men den här totalsumman måste delas med befolkningen i varje land/region för att fastställa det genomsnittliga belopp varje invånare spenderar på internationella resor.
Det finns ingen garanti för att dessa är de perfekta fälten att välja eller att dessa fält erbjuder klusterresultat som är tydliga och entydiga. Klustring är en iterativ process – att experimentera leder till upptäckter som i sin tur leder till mer experimenterande.
- Dra dessa fem fält från rutan Data till Detalj på kortet Markeringar.
- Klicka för att öppna rutan Analys.
Dra Kluster från rutan Analys och släpp den i vyn:
Tableau visar dialogrutan Kluster och lägger till mätvärdena i vyn till listan med variabler:
Tableau uppdaterar även vyn genom att lägga till kluster i Färg. I det här fallet hittar Tableau två tydliga kluster och kan inte tilldela specifika länder/regioner (färgade i röd-rosa) till något kluster:
Obs! Se Så fungerar klustring för mer information om data som Tableau tilldelar till ”Inte i ett kluster”.
- Du kommer fram till att två kluster inte räcker – du har helt enkelt inte resurserna för att etablera dig i hälften av alla länder/regioner i världen. Du ange därför
4
i fältet Antal kluster i dialogrutan Kluster.Kartan ser mer intressant ut:
Men hur förhåller sig dessa kluster till de variabler du har valt? Vilken står bäst i relation till de faktorer som stödjer turism för äldre? Det är dags att ta en titt på statistiken bakom klustren.
- Klicka på X i det övre högra hörnet av dialogrutan Kluster för att stänga den:
- Klicka på fältet Kluster på kortet Markeringar och välj Beskriv kluster.
Tabellen längst ned på fliken Modeller i dialogrutan Beskriv kluster visar medelvärdet för varje variabel i varje kluster:
Kluster 4 har den högsta förväntade livslängden (för både män och kvinnor), den högsta koncentrationen av stadsbefolkning och de högsta utgifterna för internationell turism: 1360,40 USD per kapita. Den enda variabeln för vilken kluster 4 inte har det högsta värdet är Befolkning 65+, där kluster 3 har fördelen: 0,15493 (knappt 16 %) jämfört med 0,11606 (drygt 11 %) i kluster 4.
Klustringsalgoritmen vet inte om du letar efter maxvärdet, minimivärdet eller något i mitten för dessa variabler – den letar bara efter korrelation. Men du vet att högre värden för dessa variabler är signalen du letar efter, och Kluster 4 är det bästa valet.
- Du kan försöka plocka ut länderna/regionerna i Kluster 4 från kartan, men det finns ett enklare sätt. Stäng dialogrutan Beskriv kluster och klicka sedan på Kluster 4 i färgförklaringen och välj Behåll endast.
- Välj Texttabell från Visa mig.
Du ser nu en lista över länderna/regionerna i Kluster 4:
Den här listan är inte slutet på processen. Du kan försöka klustring igen med en något annorlunda uppsättning variabler och kanske ett annat antal kluster. Alternaivt kan du lägga till några länder/regioner i listan och ta bort andra, baserat på andra faktorer. Om dina resor mestadels går till t.ex. tropiska platser kan du ta bort länder/regioner såsom Curacao och Bahamas från listan då tropiska resor kanske inte tilltalar invånare i dessa länder/regioner.
Ett annat alternativ är att filtrera dina data innan du skapar kluster igen. Detta för att endast visa länder/regioner med befolkningar över ett visst tröskelvärde eller att rikta in sig på länder/regioner i ett visst geografiskt område.