Clusters in data zoeken
Clusteranalyse verdeelt markeringen in de weergave in clusters, waarbij de markeringen binnen elk cluster meer op elkaar lijken dan op markeringen in andere clusters.
Zie Voorbeeld: Clusters maken met behulp van data van Wereldwijde economische indicatoren voor een voorbeeld dat het proces van het maken van clusters met steekproefdata demonstreert.
Clusters maken
Volg deze stappen om clusters in een weergave in Tableau te zoeken.
Maak een weergave.
Sleep Cluster van het deelvenster Analyse in de weergave en zet dit neer in het doelgebied in de weergave:
U kunt ook dubbelklikken op Cluster om clusters in de weergave te zoeken.
Wanneer u Cluster neerzet of hierop dubbelklikt:
Tableau maakt een groep Clusters op Kleur en kleurt de markeringen in uw weergave per cluster. Als er al een veld op Kleur staat, Tableau verplaatst dat veld naar Detail en vervangt deze op Kleur met de clusteringresultaten.
Tableau wijst elke markering in de weergave toe aan een van de clusters. In sommige gevallen worden markeringen die niet goed in een cluster passen, toegewezen aan een cluster 'Niet geclusterd'.
Tableau geeft het dialoogvenster Clusters weer, waarin u het cluster kunt aanpassen.
Pas de clusterresultaten aan door een van de volgende handelingen uit te voeren in het dialoogvenster Clusters.
Sleep nieuwe velden uit het deelvenster Data naar het gebied Variabelen van het dialoogvenster Clusters. U kunt velden ook uit het gebied Variabelen slepen om ze te verwijderen.
Wanneer u variabelen toevoegt, worden meetwaarden geaggregeerd met behulp van de standaardaggregatie voor het veld; dimensies worden geaggregeerd met behulp van ATTR, de standaardmanier waarop Tableau dimensies aggregeert.
Als u de aggregatie van een variabele wilt wijzigen, klikt u hierop met de rechtermuisknop.
Geef het aantal clusters op (tussen 2 en 50). Als u geen waarde opgeeft, maakt Tableau automatisch maximaal 25 clusters.
- Wanneer u klaar bent met het aanpassen van de clusterresultaten, klikt u op de X in de rechterbovenhoek van het dialoogvenster Clusters om het te sluiten:
Opmerking: U kunt het clusterveld verplaatsen van Kleur naar een andere container in de weergave. U kunt het clusterveld echter niet verplaatsen van de container Filters naar het deelvenster Data.
Om de naam van de resulterende clusters te wijzigen, moet u het cluster eerst opslaan als een groep. Zie Een groep maken van clusterresultaten en Clusters bewerken voor details.
Clusteringbeperkingen
Clustering is beschikbaar in Tableau Desktop, maar is niet beschikbaar voor authoring op internet (Tableau Server, Tableau Cloud). Clustering is ook niet beschikbaar als een van de volgende voorwaarden van toepassing is:
Wanneer u een kubusvormige (multidimensionale) databron gebruikt.
Wanneer er een gemengde dimensie in de weergave aanwezig is.
Als er geen velden zijn die kunnen worden gebruikt als variabelen (invoer) voor clustering in de weergave.
Wanneer er geen dimensies aanwezig zijn in een geaggregeerde weergave.
Wanneer een van deze voorwaarden van toepassing is, kunt u Clusters niet slepen van het deelvenster Analyse naar de weergave.
Bovendien kunnen de volgende veldtypen niet worden gebruikt als variabelen (invoer) voor clustering:
Tabelberekeningen
Gemengde berekeningen
Ad-hocberekeningen
Gegenereerde breedtegraad-/lengtegraadwaarden
Groepen
Sets
Bins
Parameters
Datums
Namen van meetwaarden/Meetwaarden
Clusters bewerken
Om een bestaand cluster te bewerken, klikt u met de rechtermuisknop (Ctrl+Klik op een Mac) op een veld Clusters bij Kleur en selecteert u Clusters bewerken.
Om de namen te wijzigen die voor elk cluster worden gebruikt, moet u eerst het veld Clusters naar het deelvenster Data slepen en dit opslaan als een groep. Zie Een groep maken van clusterresultaten voor details.
Klik met de rechtermuisknop op de clustergroep en selecteer Groep bewerken om wijzigingen aan te brengen in elk cluster.
Selecteer een clustergroep in de lijst met Groepen en klik op Naam wijzigen om de naam te wijzigen.
Een groep maken van clusterresultaten
Als u een cluster naar het deelvenster Data sleept, wordt het een groepsdimensie waarin de individuele leden (Cluster 1, Cluster 2, enz.) de markeringen bevatten waarvan het clusteralgoritme heeft vastgesteld dat ze meer op elkaar lijken dan op andere markeringen.
Nadat u een clustergroep naar het deelvenster Data hebt gesleept, kunt u deze in andere werkbladen gebruiken.
Sleep Clusters van de kaart Markeringen naar het deelvenster Data om een Tableau-groep te maken:
Nadat u een groep hebt gemaakt van clusters, zijn de groep en de oorspronkelijke clusters afzonderlijk en verschillend. Het bewerken van de clusters heeft geen invloed op de groep en het bewerken van de groep heeft geen invloed op de clusterresultaten. De groep heeft dezelfde kenmerken als elke andere Tableau-groep. Deze maakt deel uit van de databron. In tegenstelling tot de oorspronkelijke clusters kunt u de groep in andere werkbladen in de werkmap gebruiken. Dus als u de naam van een opgeslagen clustergroep wijzigt, wordt die wijziging van de naam niet toegepast op de oorspronkelijke clustering in de weergave. Zie Fouten in data corrigeren of dimensieleden combineren door uw data te groeperen.
Beperkingen voor het opslaan van clusters als groepen
Onder een van de volgende omstandigheden kunt u clusters niet opslaan in het deelvenster Data:
Wanneer de meetwaarden in de weergave zijn opgesplitst en de meetwaarden die u gebruikt als clustervariabelen niet hetzelfde zijn als de meetwaarden in de weergave. Zie Data desaggregeren voor details.
Wanneer de clusters die u wilt opslaan zich in de container Filters bevinden.
Wanneer Namen van meetwaarden of Meetwaarden in de weergave staan.
Wanneer er een gemengde dimensie in de weergave aanwezig is.
Opgeslagen clusters opnieuw passend maken
Wanneer u een veld Clusters opslaat als een groep, wordt dit samen met het bijbehorende analysemodel opgeslagen. U kunt uw clustergroepen gebruiken in andere werkbladen en werkmappen, maar deze worden niet automatisch vernieuwd.
In dit voorbeeld zijn een opgeslagen clustergroep en het bijbehorende analysemodel toegepast op een ander werkblad. Als gevolg hiervan zijn sommige markeringen nog niet opgenomen in de clustering (aangegeven met grijze markeringen).
Als de onderliggende data wijzigen, kunt u de optie Opnieuw passend maken gebruiken om de data voor een opgeslagen clustergroep te vernieuwen en opnieuw te berekenen.
Een opgeslagen cluster opnieuw passend maken
Klik met de rechtermuisknop op een clustergroep in het deelvenster Data en klik vervolgens op Opnieuw passend maken.
Hier is een voorbeeld van bijgewerkte clustering na het opnieuw passend maken van het opgeslagen cluster:
Wanneer u opgeslagen clusters opnieuw passend maakt, worden nieuwe clusters gemaakt en worden bestaande aliassen voor elke clustergroepcategorie vervangen door nieuwe, algemene clusteraliassen. Houd er rekening mee dat door het opnieuw passend maken van opgeslagen clusters uw visualisaties die bestaande clusters en aliassen gebruiken, kunnen veranderen.
Hoe clustering werkt
Clusteranalyse verdeelt de markeringen in de weergave in clusters, waarbij de markeringen binnen elk cluster meer op elkaar lijken dan op markeringen in andere clusters. Tableau onderscheidt clusters met behulp van kleur.
Opmerking: Zie de blogpost Clustering begrijpen in Tableau 10 voor meer inzicht in hoe clustering werkt in Tableau.
Het clusteringalgoritme
Tableau gebruikt het k-means-algoritme voor clustering. Voor een bepaald aantal clusters k verdeelt het algoritme de data in k-clusters. Elk cluster heeft een centrum (zwaartepunt) dat de gemiddelde waarde is van alle punten in dat cluster. K-means lokaliseert centers via een iteratieve procedure die de afstanden tussen individuele punten in een cluster en het clustercentrum minimaliseert. In Tableau kunt u een gewenst aantal clusters opgeven, of Tableau verschillende waarden van k laten testen en een optimaal aantal clusters voorstellen (zie Criteria die worden gebruikt om het optimale aantal clusters te bepalen).
K-means vereist een initiële specificatie van clustercenters. Beginnend met één cluster, kiest de methode een variabele waarvan het gemiddelde wordt gebruikt als drempelwaarde voor het in tweeën splitsen van de data. De zwaartepunten van deze twee delen worden vervolgens gebruikt om k-means te initialiseren om het lidmaatschap van de twee clusters te optimaliseren. Vervolgens wordt één van de twee clusters gekozen om te splitsen en wordt binnen dat cluster een variabele gekozen waarvan het gemiddelde wordt gebruikt als drempelwaarde om dat cluster in tweeën te splitsen. K-means wordt vervolgens gebruikt om de data in drie clusters te verdelen, geïnitialiseerd met de zwaartepunten van de twee delen van het gesplitste cluster en het zwaartepunt van het resterende cluster. Dit proces wordt herhaald totdat een bepaald aantal clusters is bereikt.
Tableau gebruikt het Lloyd's-algoritme met gekwadrateerde Euclidische afstanden om de k-means-clustering voor elke k te berekenen. Gecombineerd met de splitsingsprocedure om de initiële centers voor elke k > 1 te bepalen, is de resulterende clustering deterministisch, waarbij het resultaat alleen afhankelijk is van het aantal clusters.
Het algoritme begint met het kiezen van initiële clustercenters:
Vervolgens worden de markeringen verdeeld door elke markering aan het dichtstbijzijnde centrum toe te wijzen:
Daarna worden de resultaten verfijnd door voor elke verdeling nieuwe centers te berekenen door het gemiddelde te nemen van alle punten die aan hetzelfde cluster zijn toegewezen:
Vervolgens wordt de toewijzing van markeringen aan clusters gecontroleerd en worden eventuele markeringen die zich nu dichter bij een ander centrum bevinden dan voorheen opnieuw toegewezen.
De clusters worden opnieuw gedefinieerd en de markeringen worden iteratief opnieuw toegewezen totdat er geen wijzigingen meer optreden.
Criteria die worden gebruikt om het optimale aantal clusters te bepalen
Tableau gebruikt het Calinski-Harabasz-criterium om de clusterkwaliteit te beoordelen. Het Calinski-Harabasz-criterium wordt gedefinieerd als
waar SSB de totale variantie tussen clusters is, SSW de totale variantie binnen clusters, k het aantal clusters en N het aantal waarnemingen.
Hoe groter de waarde van deze verhouding, hoe samenhangender de clusters (lage variantie binnen clusters) en hoe duidelijker/meer gescheiden de individuele clusters (hoge variantie tussen clusters).
Omdat de Calinski-Harabasz-index niet is gedefinieerd voor k=1, kan deze niet worden gebruikt om gevallen van één cluster te detecteren.
Als een gebruiker het aantal clusters niet opgeeft, kiest Tableau het aantal clusters dat overeenkomt met het eerste lokale maximum van de Calinski-Harabasz-index. K-means wordt standaard uitgevoerd voor maximaal 25 clusters als het eerste lokale maximum van de index niet wordt bereikt voor een kleinere waarde van k. U kunt een maximale waarde van 50 clusters instellen.
Opmerking: Als een categorische variabele (dat wil zeggen een dimensie) meer dan 25 unieke waarden heeft, negeert Tableau die variabele bij het berekenen van clusters.
Welke waarden worden toegewezen aan de categorie "Niet geclusterd"?
Als er nullwaarden zijn voor een meetwaarde, wijst Tableau waarden voor rijen met null toe aan een categorie Niet geclusterd. Categorische variabelen (dat wil zeggen dimensies) die * retourneren voor ATTR (wat betekent dat alle waarden niet identiek zijn) worden ook niet geclusterd.
Schalen
Tableau schaalt waarden automatisch, zodat kolommen met een groter bereik de resultaten niet domineren. Een analist zou bijvoorbeeld inflatie en bbp kunnen gebruiken als invoervariabelen voor clustering, maar omdat de bbp-waarden in biljoenen dollars zijn, zou dit ertoe kunnen leiden dat de inflatiewaarden bijna volledig buiten beschouwing worden gelaten bij de berekening. Tableau gebruikt een schaalmethode genaamd min-max-normalisatie, waarin de waarden van elke variabele worden toegewezen aan een waarde tussen 0 en 1 door het minimum ervan af te trekken en te delen door het bereik.
Informatie over statistische modellen die voor clusters worden gebruikt
Het dialoogvenster "Clusters beschrijven" biedt informatie over de modellen die Tableau heeft berekend voor clustering. U kunt deze statistieken gebruiken om de kwaliteit van de clustering te beoordelen.
Wanneer de weergave clustering bevat, kunt u het dialoogvenster Clusters beschrijven openen door met de rechtermuisknop te klikken op Clusters op de kaart Markeringen (Ctrl+Klik op een Mac) en Clusters beschrijven te kiezen. De informatie in het dialoogvenster Clusters beschrijven is alleen-lezen, maar u kunt wel klikken op Naar klembord kopiëren en vervolgens de scherminhoud in een beschrijfbaar document te plakken.
Clusters beschrijven – tabblad Samenvatting
Het tabblad Samenvatting identificeert de invoer die is gebruikt om de clusters te genereren en biedt enkele statistieken die de clusters karakteriseren.
Invoer voor clustering
Variabelen
Identificeert de velden die Tableau gebruikt om clusters te berekenen. Dit zijn de velden die worden vermeld in het vak Variabelen in het dialoogvenster Clusters.
Detailniveau
Identificeert de velden die bijdragen aan het detailniveau van de weergave, dat wil zeggen de velden die het aggregatieniveau bepalen. Zie Hoe dimensies het detailniveau beïnvloeden in de weergave voor details.
Schalen
Identificeert de schaalmethode die wordt gebruikt voor voorverwerking. Op dit moment is Genormaliseerd de enige schaalmethode die Tableau gebruikt. De formule voor deze methode, ook wel min-max-normalisatie genoemd, is (x – min(x))/(max(x) - min(x))
.
Samenvatting van diagnostiek
Aantal clusters
Het aantal afzonderlijke clusters in de clustering.
Aantal punten
Het aantal markeringen in de weergave.
Som van kwadraten tussen groepen
Een statistiek die de scheiding tussen clusters kwantificeert als de som van de kwadratische afstanden tussen het centrum van elk cluster (gemiddelde waarde), gewogen op basis van het aantal datapunten dat aan het cluster is toegewezen en het centrum van de dataset. Hoe groter de waarde, hoe beter de scheiding tussen clusters.
Som van kwadraten binnen de groep
Een metriek die de samenhang van clusters kwantificeert als de som van de kwadratische afstanden tussen het centrum van elk cluster en de individuele markeringen in het cluster. Hoe kleiner de waarde, hoe samenhangender de clusters.
Totale som van kwadraten
Totaliseert de som van de kwadraten tussen groepen en de som van de kwadraten binnen de groep. De verhouding (som van de kwadraten tussen groepen)/(totale som van de kwadraten) geeft de proportie van de variantie weer die door het model wordt verklaard. Waarden liggen tussen 0 en 1; grotere waarden duiden doorgaans op een beter model. U kunt deze verhouding echter vergroten door alleen maar het aantal clusters te vergroten. Het kan dus misleidend zijn als u een model met vijf clusters vergelijkt met een model met drie clusters en alleen deze waarde gebruikt.
Clusterstatistieken
Voor elk cluster in de clustering wordt de volgende informatie verstrekt.
Aantal items
Het aantal markeringen binnen het cluster.
Centers
De gemiddelde waarde binnen elk cluster (getoond voor numerieke items).
Meestvoorkomend
De meest voorkomende waarde binnen elk cluster (alleen getoond voor categorische items).
Clusters beschrijven – tabblad Modellen
Analyse van variantie (ANOVA) is een verzameling statistische modellen en bijbehorende procedures die nuttig zijn voor het analyseren van variatie binnen en tussen waarnemingen die zijn verdeeld in groepen of clusters. In dit geval wordt de analyse van variantie per variabele berekend en kan de resulterende tabel voor analyse van variantie worden gebruikt om te bepalen welke variabelen het meest effectief zijn voor het onderscheiden van clusters.
Relevante analyse van variantiestatistieken voor clustering omvat:
F-statistiek
De F-statistiek voor eenwegs- of single-factor-ANOVA is de fractie van de variantie die wordt verklaard door een variabele. Het is de verhouding van de variantie tussen groepen en de totale variantie.
Hoe groter de F-statistiek, hoe beter de corresponderende variabele onderscheid maakt tussen clusters.
p-waarde
De p-waarde is de waarschijnlijkheid dat de F-distributie van alle mogelijke waarden van de F-statistiek een waarde aanneemt die groter is dan de daadwerkelijke F-statistiek voor een variabele. Als de p-waarde onder een bepaald significantieniveau valt, kan de null-hypothese (dat de individuele elementen van de variabele willekeurige steekproeven uit een enkele populatie zijn) worden verworpen. De vrijheidsgraden voor deze F-distributie zijn (k - 1, N - k), waarbij k het aantal clusters is en N het aantal geclusterde items (rijen).
Hoe lager de p-waarde, hoe meer de verwachte waarden van de elementen van de overeenkomstige variabele verschillen tussen clusters.
Som van kwadraten-model en vrijheidsgraden
Het som van kwadraten-model is de verhouding tussen de som van kwadraten tussen groepen en het model vrijheidsgraden. De som van kwadraten tussen groepen is een meetwaarde voor de variatie tussen clustergemiddelden. Als de clustergemiddelden dicht bij elkaar liggen (en dus dicht bij het algemene gemiddelde), zal deze waarde klein zijn. Het model heeft k-1 vrijheidsgraden, waarbij k het aantal clusters is.
Foutsom van kwadraten en vrijheidsgraden
De foutsom van kwadraten is de verhouding tussen de som van kwadraten binnen de groep en de foutvrijheidsgraden. De som van kwadraten binnen de groep meet de variatie tussen waarnemingen binnen elk cluster. De fout heeft N-k vrijheidsgraden, waarbij N het totale aantal geclusterde waarnemingen (rijen) is en k het aantal clusters.
De foutsom van kwadraten kan worden gezien als de algehele gemiddelde kwadratische fout, ervan uitgaande dat elk clustercentrum de "waarheid" voor elke cluster vertegenwoordigt.
Voorbeeld: Clusters maken met behulp van data van Wereldwijde economische indicatoren
De Tableau-clusteringfunctie verdeelt markeringen in de weergave in clusters, waarbij de markeringen binnen elk cluster meer op elkaar lijken dan op markeringen in andere clusters. Dit voorbeeld laat zien hoe een onderzoeker clustering kan gebruiken om een optimale set markeringen (in dit geval landen/regio's) in een databron te vinden.
De doelstelling
Nu de levensverwachting over de hele wereld toeneemt en ouderen actiever blijven, kan seniorentoerisme een lucratieve markt zijn voor bedrijven die potentiële klanten weten te vinden en aan te spreken. De steekproefdataset Wereldwijde indicatoren die bij Tableau wordt geleverd, bevat het soort data dat bedrijven kan helpen de landen of regio's te identificeren waar voldoende klanten van de juiste soort zijn.
De juiste landen/regio's vinden
Hier is een voorbeeld van hoe Tableau-clustering zo'n bedrijf zou kunnen helpen de landen/regio's te identificeren waar een seniorentoerismebedrijf succesvol zou kunnen zijn. Stelt u zich voor dat u de analist bent. Hier ziet u hoe u verder kunt gaan.
Open de steefproefdatabron Wereldwijde indicatoren in Tableau Desktop.
Dubbelklik op Land/regio in het deelvenster Data.
Tableau maakt automatisch een kaartweergave, met een markering in elk land/elke regio.
Wijzig op de kaart Markeringen het markeringstype in Kaart:
U zou nu een kaartprojectie moeten zien waarin alle landen/regio's zijn gevuld met een effen kleur:
De volgende stap is het identificeren van de velden die u als variabelen voor clustering gaat gebruiken. Dit zijn de velden die u kiest:
Veld Reden voor opname Levensverwachting vrouw en Levensverwachting man Waar mensen langer leven, is de kans groter dat er mensen zijn die later in hun leven geïnteresseerd zijn in reizen. Bevolking stedelijk Het is gemakkelijker om services op de markt te brengen in gebieden met een grotere bevolkingsdichtheid. Bevolking 65+ De doelgroep bestaat uit oudere inwoners die tijd en geld hebben om te reizen. TourismPerCapita Dit is een meetwaarde die u moet maken als een benoemd berekend veld. De formule is:
SUM([Tourism Outbound])/SUM([Population Total])
Toerisme uitgaand aggregeert het geld (in Amerikaanse dollars) dat inwoners van een land/regio jaarlijks uitgeven aan internationale reizen. Maar dit totaal moet worden gedeeld door de bevolking van elk land/elke regio om het gemiddelde bedrag te bepalen dat elke inwoner uitgeeft aan internationale reizen.
Er is geen garantie dat dit de ideale velden zijn om te kiezen, of dat deze velden clusterresultaten zullen opleveren die duidelijk en ondubbelzinnig zijn. Clustering is een iteratief proces: experimenteren leidt tot ontdekkingen, die op hun beurt leiden tot meer experimenten.
Sleep deze vijf velden uit het deelvenster Data naar Detail op de kaart Markeringen.
Klik om het deelvenster Analyse te openen:
Sleep Cluster uit het deelvenster Analyse en zet het neer in de weergave:
Tableau geeft het dialoogvenster Clusters weer en voegt de meetwaarden in de weergave toe aan de lijst met variabelen:
De weergave wordt ook bijgewerkt door clusters toe te voegen aan Kleur. In dit geval vindt Tableau twee afzonderlijke clusters en kunnen bepaalde landen/regio's (roodachtig-roze gekleurd) niet aan een van beide clusters worden toegewezen:
Opmerking: Zie Hoe clustering werkt voor details over data die Tableau toewijst aan "Niet geclusterd".
U besluit dat twee clusters niet genoeg is; u beschikt niet over de middelen om zich in de helft van de landen/regio's ter wereld te vestigen. Dus u typt
4
in het veld Aantal clusters in het dialoogvenster Clusters.De kaart wordt nu interessanter:
Maar hoe verhouden deze clusters zich tot de variabelen die u hebt gekozen? Welke correleert het beste met de factoren die seniorentoerisme ondersteunen? Het is tijd om naar de statistieken achter de clusters te kijken.
Sluit het dialoogvenster Clusters door op de X in de rechterbovenhoek te klikken:
Klik op het veld Clusters op de kaart Markeringen en kies Clusters beschrijven.
De tabel onderaan het tabblad Modellen in het dialoogvenster Clusters beschrijven toont de gemiddelde waarde voor elke variabele in elk cluster:
Cluster 4 heeft de hoogste levensverwachting (zowel mannen als vrouwen), de hoogste concentratie stedelijke bevolking en de hoogste uitgaven voor internationaal toerisme: $ 1360,40 per hoofd van de bevolking. De enige variabele waarvoor Cluster 4 niet de hoogste waarde heeft, is Bevolking 65+, waarbij Cluster 3 het voordeel heeft: 0,15493 (iets minder dan 16%) ten opzichte van 0,11606 (iets meer dan 11%) in Cluster 4.
Het clusteringalgoritme weet niet of u zoekt naar de maximale waarde voor deze variabelen, de minimale waarde of iets daartussenin; het zoekt alleen naar correlatie. Maar u weet dat hogere waarden voor deze variabelen het signaal zijn waarnaar u op zoek bent, en Cluster 4 is de beste keuze.
U kunt proberen de landen/regio's van Cluster 4 op de kaart te selecteren, maar er is een eenvoudigere manier. Sluit het dialoogvenster Clusters beschrijven en klik vervolgens op Cluster 4 op de Kleurlegenda en kies Alleen deze behouden.
Kies de teksttabel uit Laten zien.
U ziet nu een lijst met de landen/regio’s in Cluster 4:
Deze lijst is niet het einde van het proces. U kunt de clustering opnieuw proberen met een enigszins andere set variabelen en misschien een ander aantal clusters, of u kunt enkele landen/regio's aan de lijst toevoegen en andere verwijderen, op basis van andere factoren. Als uw rondreizen bijvoorbeeld voornamelijk naar tropische landen gaan, kunt u landen/regio's zoals Curaçao en de Bahama's uit de lijst verwijderen, omdat tropische rondreizen mogelijk niet aantrekkelijk zijn voor inwoners van die landen/regio's.
Een andere optie is om uw data te filteren voordat u ze opnieuw clustert, om alleen landen/regio's te tonen met een bevolking boven een bepaalde drempelwaarde, of om landen/regio's in een bepaald geografisch gebied te targeten.