Goede datasets vinden

Een goede manier om te leren hoe u Tableau Desktop kunt gebruiken (of voorbeeldinhoud of testen van conceptinhoud kunt bouwen), is door een dataset te zoeken die u interessant vindt. Wanneer u echte vragen hebt die u met data wilt beantwoorden, worden de stappen van de analyse eenvoudiger en zinvoller.

De realiteit van datasets

Er zijn twee onvermijdelijke feiten bij het zoeken naar een dataset die geen officiële, door het bedrijfsleven gesanctioneerde data zijn.

U gaat niet vinden wat u zoekt.

  • Probeer geen strikte verwachtingen te hebben van wat u nodig hebt.
  • Blijf flexibel en sta open voor wat u voor een bepaald project kunt gebruiken.
  • Soms bevinden de door u gewenste data zich achter een betaalmuur. Bepaal zelf of u dat de moeite waard vindt of niet.

U moet de data opschonen.

Wat is een goede dataset

Een goede dataset is een set die past bij uw doel. Zolang aan die behoefte wordt voldaan, is het een goede dataset. Er zijn echter een aantal overwegingen die u kunnen helpen bij het uitfilteren van datasets die waarschijnlijk niet geschikt zijn voor uw doel. In het algemeen dient u te zoeken naar datasets die aan de volgende voorwaarden voldoen:

  1. Bevatten de elementen die u nodig hebt
  2. Zijn gedesaggregeerde data
  3. Hebben ten minste een paar dimensies en een paar meetwaarden
  4. Hebben goede metadata of een datawoordenboek
  5. Zijn bruikbaar (niet in een beschermde opmaak, te rommelig of te omslachtig)
Wat maakt Superstore super?

Superstore is een van de voorbeelddatabronnen die bij Tableau worden geleverd. Waarom is dit zo'n goede dataset?

  • Noodzakelijke elementen: Superstore bevat datums, geografische data, velden met een hiërarchische relatie (categorie, subcategorie, product), positieve en negatieve meetwaarden (winst), enz. Er zijn maar weinig grafiektypen die u niet met alleen Superstore kunt maken, en er zijn maar weinig functies die u niet kunt gebruiken om een demonstratie te geven.
  • Gedesaggregeerd: De data op rijniveau zijn elk item in een transactie. Deze items kunnen worden opgeteld tot het orderniveau (via Order-ID) of op basis van een van de dimensies (zoals datum, klant, regio, enz.).
  • Dimensies en meetwaarden: Superstore bevat verschillende dimensies die we kunnen gebruiken als "opsplitsing" van zaken als categorie of stad. Er zijn ook meerdere meetwaarden en datums, wat de mogelijkheden voor grafiektypen en berekeningen vergroot.
  • Metadata: Superstore heeft velden en waarden met duidelijke namen. U hoeft niet op te zoeken wat de waarden betekenen.
  • Klein en schoon: Superstore is slechts een paar megabytes groot en neemt daarom weinig ruimte in beslag in het Tableau-installatieprogramma. Het zijn bovendien schone data, met alleen de juiste waarden in elk veld en een goede datastructuur.

1. Een goede dataset bevat de elementen die u nodig hebt voor uw doeleinden

Als u op zoek bent naar een dataset om een specifieke visualisatie te bouwen of om specifieke functionaliteiten te presenteren, zorg er dan voor dat de dataset de veldtypen bevat die u nodig hebt. Kaarten zijn bijvoorbeeld visueel erg mooi, maar vereisen geografische data. Bij basisdemo's moet u vaak inzoomen op datums. De data moeten dan ten minste één datumveld bevatten (en het veld moet meer granulariteit dan alleen het jaar bevatten om meer details te kunnen weergeven). Niet alle datasets hebben al deze elementen nodig. Zorg dat u weet wat u nodig hebt voor uw doel en verspil geen tijd aan datasets waar belangrijke elementen ontbreken.

Algemene elementen voor analyse:

  • Datums
  • Geografische data
  • Hiërarchische data
  • "Interessante" meetwaarden: ofwel substantiële variatie in omvang, of positieve en negatieve waarden

Voor sommige functies of visualisatietypen zijn mogelijk specifieke datakenmerken vereist, zoals: 

  • Clusters
  • Prognoses maken
  • Trendlijnen
  • Gebruikersfilters
  • Ruimtelijke berekeningen
  • Bepaalde berekeningen
  • Puntengrafieken
  • Besturingsgrafieken

2. Een goede dataset bestaat uit gedesaggregeerde (ruwe) data

Als de data te geaggregeerd zijn, kunt u er niet veel aan analyseren. Als u bijvoorbeeld de trends wilt bekijken in het aantal mensen dat "Pompoenkruiden" op Google zoekt, maar u beschikt over jaarlijkse data, kunt u alleen een heel globaal overzicht bekijken. Idealiter zou u over dagelijkse data willen beschikken, zodat u de enorme piek kunt zien wanneer Starbucks #PSL gaat aanbieden.

Wat geldt als gedesaggregeerd, kan per analyse verschillen. Houd er rekening mee dat vanwege privacy- of praktische redenen sommige datasets nooit volledig granulair zullen zijn. Het is bijvoorbeeld onwaarschijnlijk dat u een dataset vindt met gedetailleerde rapportages van malariagevallen per adres. In dat geval zijn maandelijkse totalen per regio mogelijk granulair genoeg.

Aggregatie en granulariteit

Het begrijpen van aggregatie en granulariteit is om vele redenen een cruciaal concept. Het heeft invloed op zaken als het vinden van nuttige datasets, het bouwen van de gewenste visualisatie, het correct combineren van data en het gebruik van LOD-expressies. Aggregatie en granulariteit zijn twee uitersten van elkaar.

Aggregatie verwijst naar de manier waarop de data worden gecombineerd, bijvoorbeeld door alle zoekopdrachten naar Pompoenkruiden bij elkaar op te tellen of het gemiddelde te nemen van alle temperatuuraflezingen rondom Seattle op een bepaalde dag.

  • Meetwaarden worden in Tableau standaard geaggregeerd. De standaardaggregatie is SUM. U kunt de aggregatie wijzigen in items als Gemiddeld, Mediaan, Aantal uniek, Minimum, enz.

Granulariteit verwijst naar hoe gedetailleerd de data zijn. Wat vertegenwoordigt een rij (of record) in de dataset? Iemand met malaria? Het totale aantal gevallen van malaria in een provincie voor deze maand? Dat is de granulariteit. Het is van cruciaal belang om de granulariteit van de data te kennen.

Zie Data-aggregatie in Tableau voor meer informatie.

3. Een goede dataset heeft dimensies en meetwaarden

Veel visualisatietypen vereisen dimensies en meetwaarden

  • Als u alleen dimensies hebt, bent u voornamelijk beperkt tot tellen, percentages berekenen of gebruik van het veld Telling van tabel.
  • Als u alleen maar meetwaarden hebt, kunt u de waarden niet opsplitsen in een bepaald getal. U kunt de data volledig desaggregeren of werken met de algemene SUM of AVG, enz.

Dit wil niet zeggen dat een dataset met alleen dimensies niet nuttig kan zijn. Demografische data zijn een voorbeeld van data met veel dimensies, en veel analyses rondom demografie zijn gebaseerd op tellingen of percentages. Maar voor een analytisch rijkere dataset hebt u ten minste een paar dimensies en meetwaarden nodig.

Dimensies en meetwaarden, discreet en continu

Het deelvenster Data en de kaart Markeringen met verschillende veldtypen

U kunt zien dat op de afbeelding hierboven de Numerieke dimensie geen aggregatie heeft op de kaart Markeringen, in tegenstelling tot zowel de Continue meetwaarde als de Discrete meetwaarde.

Dimensies en meetwaarden

Velden worden met een horizontale lijn opgesplitst in dimensies en meetwaarden in het deelvenster Data. In Tableau worden dimensies als zichzelf weergegeven in de weergave, terwijl meetwaarden automatisch worden geaggregeerd; de standaardaggregatie voor een meetwaarde is SUM.

  • Dimensies zijn kwalitatief, wat betekent dat ze beschreven zijn en niet gemeten.
    • Dimensies zijn vaak zaken als stad of land, oogkleur, categorie, teamnaam, enz.
    • Dimensies zijn doorgaans discreet.
  • Meetwaarden zijn kwantitatief, wat betekent dat ze kunnen worden gemeten en vastgelegd (numeriek).
    • Meetwaarden zijn vaak zaken als verkoop, hoogte, aantal klikken, enz.
    • Meetwaarden zijn doorgaans continu.

Als u een wiskundige berekening kunt uitvoeren met een veld, zou het een meetwaarde moeten zijn. Als u ooit twijfelt of een veld een meetwaarde of een dimensie moet zijn, bedenk dan of u zinvolle berekeningen met de waarden kunt uitvoeren. Kan er enige betekenis worden toegeschreven aan AVG(RowID), de som van twee burgerservicenummers of het delen van een postcode door 10? Nee. Dat zijn dimensies die toevallig als getallen worden geschreven. Denk eens aan het aantal landen dat alfanumerieke postcodes heeft. Dit zijn gewoon labels, ook al zijn ze in de VS alleen numeriek. Tableau kan veel veldnamen herkennen die aangeven dat een numeriek veld in feite een ID of postcode is en probeert die dimensies te bepalen, maar het is niet perfect. Gebruik de test "Kan ik hier een wiskundige berekening mee maken?" om te bepalen of een numeriek veld een meetwaarde of een dimensie moet zijn en herschik het deelvenster Data indien nodig.

Opmerking: Hoewel u een wiskundige berekening met datums kunt uitvoeren (zoals de DATEDIFF-berekening), is het standaardpraktijk om datums te categoriseren als dimensies.

Discreet en continu

Discrete of continue velden komen enigszins overeen met de concepten van dimensie en meetwaarde, maar ze zijn niet identiek.

  • Discrete velden bevatten unieke waarden. Ze maken kopteksten of labels in de weergave en de velden zijn blauw
  • Continue velden "vormen een ononderbroken geheel". Ze vormen een as in de weergave en de velden zijn groen

Een goede manier om discreet en continu te begrijpen, is door naar een datumveld te kijken. Datums kunnen discreet OF continu zijn.

  • Wanneer we kijken naar de gemiddelde temperaturen in augustus over een decennium of eeuw, dan wordt "augustus" gebruikt als een discreet, kwalitatief datumonderdeel.
  • Als we kijken naar de algemene trend in gerapporteerde malariagevallen sinds 1960, dan is er één ononderbroken as nodig. Dat wil zeggen dat de datum wordt gebruikt als een continue, kwantitatieve waarde.

Zie Dimensies en meetwaarden, blauw en groen voor meer informatie.

Velden gemaakt door Tableau

Tableau maakt ten minste drie velden, ongeacht de dataset:

  • Namen van meetwaarden (een dimensie)
  • Meetwaarden (een meetwaarde)
  • TableName(Count) (een meetwaarde)

En als er geografische velden in de dataset staan, maakt Tableau ook de velden Breedtegraad (gegenereerd) en Lengtegraad (gegenereerd).

Namen van meetwaarden en Meetwaarden zijn twee nuttige velden. Zie Meetwaarden en namen van meetwaarden voor meer informatie.

Telling van tabel geeft het aantal records voor de tabel weer door het aantal rijen te tellen. Hiermee kunt u ten minste één meetwaarde in uw dataset opnemen, wat kan helpen bij bepaalde analyses. U moet de granulariteit van uw data begrijpen (wat een rij vertegenwoordigt) om te kunnen definiëren wat het aantal rijen betekent.

Hier is elke rij een dag, dus de telling van de tabel is het aantal dagen:

Hier is elke rij een maand, dus de telling van de tabel is het aantal maanden:

4. Een goede dataset heeft metadata of een datawoordenboek

Een dataset kan alleen nuttig zijn als u weet wat de data zijn. Er zijn weinig dingen zo frustrerend bij het zoeken naar goede data als het openen van bestand dat er zo uitziet:

spreadsheetweergave van volledig numerieke data

Wat betekent een Bron van 4 of 12? En welke informatie staat er in de velden OTU0-OTU4?

Een goede dataset is een set met duidelijk gelabelde velden en leden, of een datawoordenboek, zodat u de data zelf opnieuw kunt labelen. Denk aan Superstore: het is meteen duidelijk wat de velden en hun waarden zijn, zoals Categorie en de leden Technologie, Meubels en Kantoorartikelen. Of, voor de dataset Microbioom in de afbeelding hierboven, is er een datawoordenboek(Link wordt in een nieuw venster geopend) dat elke Bron verklaart (4 is ontlasting en 12 is maag) en de taxonomie van elke OTU (OTU3 is een bacterie van het geslacht Parabacteroïden).

Datawoordenboeken kunnen ook metadata, indicatoren, definities van variabelen of woordenlijsten worden genoemd, of een groot aantal andere namen krijgen. Uiteindelijk biedt een datawoordenboek informatie over kolomnamen en leden in een kolom. Deze informatie kan op verschillende manieren in de databron of -visualisatie worden ingebracht, waaronder:

  • Wijzig de naam van de kolommen, zodat ze gemakkelijker te begrijpen zijn (dit kunt u doen in de dataset zelf of in Tableau).
  • Geef de leden van het veld een nieuwe alias (dit kunt u doen in de dataset zelf of in Tableau).
  • Maak berekeningen om informatie uit het datawoordenboek toe te voegen.
  • Maak opmerkingen op het veld in Tableau (opmerkingen worden niet weergegeven in gepubliceerde visualisaties, alleen in de auteursomgeving).
  • Gebruik het datawoordenboek als een extra databron en combineer de twee databronnen.

Het verlies van een datawoordenboek kan een dataset onbruikbaar maken. Als u een bladwijzer maakt van de dataset, moet u ook een bladwijzer maken van het datawoordenboek. Als u downloadt, download dan beide en bewaar ze op dezelfde plek.

5. Een goede dataset is een dataset die u kunt gebruiken

Zolang u de dataset begrijpt en deze de informatie bevat die u nodig hebt, kunt u zelfs met een kleine dataset analyses uitvoeren. Kleinere datasets zijn bovendien eenvoudig op te slaan, te delen en te publiceren, en leveren waarschijnlijk goede prestaties.

Op dezelfde manier geldt dat zelfs als u de "perfecte" dataset voor uw behoeften vindt, deze helemaal niet perfect is als het een onrealistische hoeveelheid moeite kost om op te schonen. Het is belangrijk om te weten wanneer u afstand moet nemen van een dataset die te rommelig is.

Deze dataset komt bijvoorbeeld uit een Wikipedia-artikel over relatieve letterfrequenties. Het begon met 84 rijen en 16 kolommen (uitgebreid naar 1.245 rijen en 3 kolommen). Het Excel-bestand is 16 KB groot. Maar met bepaalde groepen, sets, berekeningen en andere manipulaties zijn robuuste analyses en interessante visualisaties mogelijk.

Klik op de afbeelding om de werkmap te downloaden.

Uw data opnieuw labelen

Zodra u een goede dataset hebt gevonden, moet u deze vaak opnieuw labelen. Het opnieuw labelen van data kan nuttig zijn om nepdata te maken voor voorbeelden of het testen van concepten, of om de data leesbaarder te maken.

Naam wijzigen van een veld verandert de manier waarop dat veld in Tableau wordt weergegeven, bijvoorbeeld door de naam "Verkoop" te wijzigen in "Pijplijnverkoop" of "Staat" in "Provincie".

Nieuwe alias geven verandert de manier waarop de leden van een veld worden weergegeven, zoals een nieuwe alias geven aan waarden in een veld Land, zodat CHN China wordt en RUS Rusland.

  • De waarden in een discreet dimensieveld worden leden genoemd. Alleen leden kunnen een nieuwe alias krijgen. Denk aan een meetwaardeveld voor temperatuur. Een waarde van 54 °F kan niet worden gewijzigd zonder dat de data zelf worden gewijzigd. Maar als u het lid "CHN" de nieuwe alias "China" geeft in een veld Land blijft het dezelfde informatie, alleen op een andere manier gelabeld.

Naam wijzigen en nieuwe alias geven betekenen bijna hetzelfde. In Tableau is het gebruikelijk dat velden een naam krijgen en leden een alias. Zie Velden in het deelvenster Data ordenen en aanpassen en Aliassen maken om de naam van leden in de weergave aan te passen.

Opmerking: Als u de naam wijzigt of een nieuwe alias geeft, wordt alleen het uiterlijk in Tableau Desktop gewijzigd. Er worden geen wijzigingen teruggeschreven naar de onderliggende data.

Opnieuw labelen om nepdata te maken

Het opnieuw labelen van bestaande datasets is een geweldige manier om voorbeeldinhoud of het testen van conceptinhoud aantrekkelijker te maken.

  1. Gebruik een eenvoudige dataset (zoals Superstore) om te bouwen wat u wilt (een specifiek grafiektype, het tonen van bepaalde functionaliteit, enz.)
  2. Wijzig de naam van de relevante velden, wijzig de knopinfo en wijzig op andere manieren de tekstuele aspecten om te maskeren wat de data daadwerkelijk voorstellen.

Belangrijk: Doe dit alleen als duidelijk is dat de informatie nep is. Zorg ervoor dat mensen niet denken dat het echte data zijn en deze voor analyses gaan gebruiken. Gebruik bijvoorbeeld rare namen of nietszeggende veldnamen, zoals kleuren of dieren.

Nieuwe alias geven om de data gebruiksvriendelijker te maken

Het is efficiënter om de data op te slaan als numerieke waarden in plaats van als tekenreekswaarden. Numerieke codering kan de data echter moeilijker te begrijpen maken. Voor kleine datasets heeft dit waarschijnlijk geen invloed op de prestaties. Geef daarom prioriteit aan het eenvoudig kunnen begrijpen van de data.

Een nadeel van het geven van een nieuwe alias is dat u geen toegang meer hebt tot de numerieke waarden (waardoor het lastiger wordt om dingen te doen zoals sorteren, kleurovergangen toewijzen, enz.). Overweeg het veld te dupliceren en de kopie een nieuwe alias te geven. Een andere mogelijkheid is om een berekening in Tableau te maken. Zo behoudt u de oorspronkelijke informatie en wordt deze tegelijkertijd begrijpelijker.

Nieuwe alias geven met de CASE-functie

Berekeningen kunnen zeer krachtig zijn voor het geven van een nieuwe alias. Met CASE-functies kunt u bijvoorbeeld zeggen: "Wanneer dit veld de waarde A heeft, geef mij dan X. Wanneer de waarde B is, geef mij dan Y".

Hier kijkt de CASE-functie naar de F-schaal in een tornado-dataset en geeft de schriftelijke beschrijving die bij elke numerieke waarde hoort:

CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END

Nu kunnen we ervoor kiezen om het oorspronkelijke veld "F-schaal" (0-5) of het veld "F-schaal schadebeschrijving" in de visualisatie te gebruiken.

Tips bij het zoeken naar datasets

Opmerking: Probeer te zorgen dat u de vraag "Wat vertegenwoordigt een rij (of record) in de dataset?" kunt beantwoorden. Als u dat niet onder woorden kunt brengen, begrijpt u de data mogelijk niet goed genoeg om ze te kunnen gebruiken. Het kan ook zijn dat ze niet goed zijn gestructureerd voor analyse.

  • Houd bij waar de data vandaan komen.
  • Bewaar de informatie in het datawoordenboek bij de data zelf.
  • Vermijd verouderde data als u wilt dat de inhoud actueel blijft. Zoek naar:
    • bijwerkbare data (aandelen, weer, regelmatig gepubliceerde rapporten, enz.)
    • tijdloze data (de gemiddelde massa van verschillende dieren zal niet van jaar tot jaar wijzigen)
    • data die u toekomstbestendig kunt maken door ze kunstmatig te wijzigen in historische of toekomstige data
  • Probeer te googlen wat u zoekt, u kunt veel online vinden.
  • Wees niet bang om een dataset op te geven als het te veel werk is om voor te bereiden.

Plaatsen waar u naar data kunt zoeken

Waar kunt u zoeken naar data? Er zijn mogelijk overweldigend veel plekken waar u datasets kunt vinden. Hier zijn enkele opties om u op weg te helpen. Houd er rekening mee dat de realiteit van datasets ook op deze sites van toepassing is: u zult waarschijnlijk niet meteen vinden wat u zoekt en u zult waarschijnlijk wat moeten opschonen om de data gereed te maken voor analyse.

Disclaimer: Hoewel we er alles aan doen om ervoor te zorgen dat deze links naar externe websites accuraat, actueel en relevant zijn, kan Tableau geen verantwoordelijkheid nemen voor de nauwkeurigheid of recentheid van pagina's die door externe providers worden onderhouden. Het hier vermelden van een site betekent niet dat wij de inhoud of organisatie goedkeuren. Neem contact op met de externe site voor antwoorden op vragen over de inhoud op de site.

Tableau Public(Link wordt in een nieuw venster geopend): Tableau Public is een geweldige bron voor Tableau-vriendelijke datasets. Zoek naar werkmappen over een onderwerp dat u interesseert, blader erdoorheen voor inspiratie en download vervolgens de werkmap om toegang te krijgen tot de data. Of bekijk de samengestelde Steekproefdata(Link wordt in een nieuw venster geopend).

Wikipedia-tabellen(Link wordt in een nieuw venster geopend): Haal data uit Wikipedia-tabellen door: kopiëren en plakken in een spreadsheet, kopiëren en plakken rechtstreeks in Tableau, of met behulp van Google Spreadsheets en de IMPORTHTML-functie(Link wordt in een nieuw venster geopend) om een Google-spreadsheet van de data te maken.

Google-dataset zoeken(Link wordt in een nieuw venster geopend): "Een zoekmachine die de gefragmenteerde wereld van online datasets verenigt."

Data is Plural(Link wordt in een nieuw venster geopend): Abonneer u op een wekelijkse nieuwsbrief met datasets of blader door het archief(Link wordt in een nieuw venster geopend).

Makeover Monday(Link wordt in een nieuw venster geopend): "Kom elke maandag bij ons langs om met een bepaalde dataset te werken en betere, effectievere visualisaties te maken en ons te helpen informatie toegankelijker te maken." U kunt zien wat andere mensen met dezelfde dataset hebben gedaan. Dit kan een goede start zijn voor uw analyse of inspiratie bieden. Gebruik #makeovermaandag(Link wordt in een nieuw venster geopend) op Twitter om deel te nemen.

Andere sites

Bedankt voor uw feedback.De feedback is verzonden. Dank u wel.