Goede datasets vinden
Een goede manier om te leren hoe u Tableau Desktop kunt gebruiken (of voorbeeldinhoud of testen van conceptinhoud kunt bouwen), is door een dataset te zoeken die u interessant vindt. Wanneer u echte vragen hebt die u met data wilt beantwoorden, worden de stappen van de analyse eenvoudiger en zinvoller.
De realiteit van datasets
Er zijn twee onvermijdelijke feiten bij het zoeken naar een dataset die geen officiële, door het bedrijfsleven gesanctioneerde data zijn.
U gaat niet vinden wat u zoekt.
- Probeer geen strikte verwachtingen te hebben van wat u nodig hebt.
- Blijf flexibel en sta open voor wat u voor een bepaald project kunt gebruiken.
- Soms bevinden de door u gewenste data zich achter een betaalmuur. Bepaal zelf of u dat de moeite waard vindt of niet.
U moet de data opschonen.
- Wees voorbereid op basishandelingen voor opschonen en vormgeven(Link wordt in een nieuw venster geopend) om er zeker van te zijn dat de data goed gestructureerd zijn voor analyse.
- Het kan zijn dat u andere datasets moet inbrengen(Link wordt in een nieuw venster geopend).
- Het hebben van een datawoordenboek of metadata kan van cruciaal belang zijn.
- Berekeningen kunnen nodig zijn.
Wat is een goede dataset
Een goede dataset is een set die past bij uw doel. Zolang aan die behoefte wordt voldaan, is het een goede dataset. Er zijn echter een aantal overwegingen die u kunnen helpen bij het uitfilteren van datasets die waarschijnlijk niet geschikt zijn voor uw doel. In het algemeen dient u te zoeken naar datasets die aan de volgende voorwaarden voldoen:
- Bevatten de elementen die u nodig hebt
- Zijn gedesaggregeerde data
- Hebben ten minste een paar dimensies en een paar meetwaarden
- Hebben goede metadata of een datawoordenboek
- Zijn bruikbaar (niet in een beschermde opmaak, te rommelig of te omslachtig)
1. Een goede dataset bevat de elementen die u nodig hebt voor uw doeleinden
Als u op zoek bent naar een dataset om een specifieke visualisatie te bouwen of om specifieke functionaliteiten te presenteren, zorg er dan voor dat de dataset de veldtypen bevat die u nodig hebt. Kaarten zijn bijvoorbeeld visueel erg mooi, maar vereisen geografische data. Bij basisdemo's moet u vaak inzoomen op datums. De data moeten dan ten minste één datumveld bevatten (en het veld moet meer granulariteit dan alleen het jaar bevatten om meer details te kunnen weergeven). Niet alle datasets hebben al deze elementen nodig. Zorg dat u weet wat u nodig hebt voor uw doel en verspil geen tijd aan datasets waar belangrijke elementen ontbreken.
Algemene elementen voor analyse:
- Datums
- Geografische data
- Hiërarchische data
- "Interessante" meetwaarden: ofwel substantiële variatie in omvang, of positieve en negatieve waarden
Voor sommige functies of visualisatietypen zijn mogelijk specifieke datakenmerken vereist, zoals:
- Clusters
- Prognoses maken
- Trendlijnen
- Gebruikersfilters
- Ruimtelijke berekeningen
- Bepaalde berekeningen
- Puntengrafieken
- Besturingsgrafieken
2. Een goede dataset bestaat uit gedesaggregeerde (ruwe) data
Als de data te geaggregeerd zijn, kunt u er niet veel aan analyseren. Als u bijvoorbeeld de trends wilt bekijken in het aantal mensen dat "Pompoenkruiden" op Google zoekt, maar u beschikt over jaarlijkse data, kunt u alleen een heel globaal overzicht bekijken. Idealiter zou u over dagelijkse data willen beschikken, zodat u de enorme piek kunt zien wanneer Starbucks #PSL gaat aanbieden.
Wat geldt als gedesaggregeerd, kan per analyse verschillen. Houd er rekening mee dat vanwege privacy- of praktische redenen sommige datasets nooit volledig granulair zullen zijn. Het is bijvoorbeeld onwaarschijnlijk dat u een dataset vindt met gedetailleerde rapportages van malariagevallen per adres. In dat geval zijn maandelijkse totalen per regio mogelijk granulair genoeg.
3. Een goede dataset heeft dimensies en meetwaarden
Veel visualisatietypen vereisen dimensies en meetwaarden
- Als u alleen dimensies hebt, bent u voornamelijk beperkt tot tellen, percentages berekenen of gebruik van het veld Telling van tabel.
- Als u alleen maar meetwaarden hebt, kunt u de waarden niet opsplitsen in een bepaald getal. U kunt de data volledig desaggregeren of werken met de algemene SUM of AVG, enz.
Dit wil niet zeggen dat een dataset met alleen dimensies niet nuttig kan zijn. Demografische data zijn een voorbeeld van data met veel dimensies, en veel analyses rondom demografie zijn gebaseerd op tellingen of percentages. Maar voor een analytisch rijkere dataset hebt u ten minste een paar dimensies en meetwaarden nodig.
4. Een goede dataset heeft metadata of een datawoordenboek
Een dataset kan alleen nuttig zijn als u weet wat de data zijn. Er zijn weinig dingen zo frustrerend bij het zoeken naar goede data als het openen van bestand dat er zo uitziet:
Wat betekent een Bron van 4 of 12? En welke informatie staat er in de velden OTU0-OTU4?
Een goede dataset is een set met duidelijk gelabelde velden en leden, of een datawoordenboek, zodat u de data zelf opnieuw kunt labelen. Denk aan Superstore: het is meteen duidelijk wat de velden en hun waarden zijn, zoals Categorie en de leden Technologie, Meubels en Kantoorartikelen. Of, voor de dataset Microbioom in de afbeelding hierboven, is er een datawoordenboek(Link wordt in een nieuw venster geopend) dat elke Bron verklaart (4 is ontlasting en 12 is maag) en de taxonomie van elke OTU (OTU3 is een bacterie van het geslacht Parabacteroïden).
Datawoordenboeken kunnen ook metadata, indicatoren, definities van variabelen of woordenlijsten worden genoemd, of een groot aantal andere namen krijgen. Uiteindelijk biedt een datawoordenboek informatie over kolomnamen en leden in een kolom. Deze informatie kan op verschillende manieren in de databron of -visualisatie worden ingebracht, waaronder:
- Wijzig de naam van de kolommen, zodat ze gemakkelijker te begrijpen zijn (dit kunt u doen in de dataset zelf of in Tableau).
- Geef de leden van het veld een nieuwe alias (dit kunt u doen in de dataset zelf of in Tableau).
- Maak berekeningen om informatie uit het datawoordenboek toe te voegen.
- Maak opmerkingen op het veld in Tableau (opmerkingen worden niet weergegeven in gepubliceerde visualisaties, alleen in de auteursomgeving).
- Gebruik het datawoordenboek als een extra databron en combineer de twee databronnen.
Het verlies van een datawoordenboek kan een dataset onbruikbaar maken. Als u een bladwijzer maakt van de dataset, moet u ook een bladwijzer maken van het datawoordenboek. Als u downloadt, download dan beide en bewaar ze op dezelfde plek.
5. Een goede dataset is een dataset die u kunt gebruiken
Zolang u de dataset begrijpt en deze de informatie bevat die u nodig hebt, kunt u zelfs met een kleine dataset analyses uitvoeren. Kleinere datasets zijn bovendien eenvoudig op te slaan, te delen en te publiceren, en leveren waarschijnlijk goede prestaties.
Op dezelfde manier geldt dat zelfs als u de "perfecte" dataset voor uw behoeften vindt, deze helemaal niet perfect is als het een onrealistische hoeveelheid moeite kost om op te schonen. Het is belangrijk om te weten wanneer u afstand moet nemen van een dataset die te rommelig is.
Deze dataset komt bijvoorbeeld uit een Wikipedia-artikel over relatieve letterfrequenties. Het begon met 84 rijen en 16 kolommen (uitgebreid naar 1.245 rijen en 3 kolommen). Het Excel-bestand is 16 KB groot. Maar met bepaalde groepen, sets, berekeningen en andere manipulaties zijn robuuste analyses en interessante visualisaties mogelijk.
Klik op de afbeelding om de werkmap te downloaden.
Uw data opnieuw labelen
Zodra u een goede dataset hebt gevonden, moet u deze vaak opnieuw labelen. Het opnieuw labelen van data kan nuttig zijn om nepdata te maken voor voorbeelden of het testen van concepten, of om de data leesbaarder te maken.
Naam wijzigen van een veld verandert de manier waarop dat veld in Tableau wordt weergegeven, bijvoorbeeld door de naam "Verkoop" te wijzigen in "Pijplijnverkoop" of "Staat" in "Provincie".
Nieuwe alias geven verandert de manier waarop de leden van een veld worden weergegeven, zoals een nieuwe alias geven aan waarden in een veld Land, zodat CHN China wordt en RUS Rusland.
- De waarden in een discreet dimensieveld worden leden genoemd. Alleen leden kunnen een nieuwe alias krijgen. Denk aan een meetwaardeveld voor temperatuur. Een waarde van 54 °F kan niet worden gewijzigd zonder dat de data zelf worden gewijzigd. Maar als u het lid "CHN" de nieuwe alias "China" geeft in een veld Land blijft het dezelfde informatie, alleen op een andere manier gelabeld.
Naam wijzigen en nieuwe alias geven betekenen bijna hetzelfde. In Tableau is het gebruikelijk dat velden een naam krijgen en leden een alias. Zie Velden in het deelvenster Data ordenen en aanpassen en Aliassen maken om de naam van leden in de weergave aan te passen.
Opmerking: Als u de naam wijzigt of een nieuwe alias geeft, wordt alleen het uiterlijk in Tableau Desktop gewijzigd. Er worden geen wijzigingen teruggeschreven naar de onderliggende data.
Opnieuw labelen om nepdata te maken
Het opnieuw labelen van bestaande datasets is een geweldige manier om voorbeeldinhoud of het testen van conceptinhoud aantrekkelijker te maken.
- Gebruik een eenvoudige dataset (zoals Superstore) om te bouwen wat u wilt (een specifiek grafiektype, het tonen van bepaalde functionaliteit, enz.)
- Wijzig de naam van de relevante velden, wijzig de knopinfo en wijzig op andere manieren de tekstuele aspecten om te maskeren wat de data daadwerkelijk voorstellen.
Belangrijk: Doe dit alleen als duidelijk is dat de informatie nep is. Zorg ervoor dat mensen niet denken dat het echte data zijn en deze voor analyses gaan gebruiken. Gebruik bijvoorbeeld rare namen of nietszeggende veldnamen, zoals kleuren of dieren.
Nieuwe alias geven om de data gebruiksvriendelijker te maken
Het is efficiënter om de data op te slaan als numerieke waarden in plaats van als tekenreekswaarden. Numerieke codering kan de data echter moeilijker te begrijpen maken. Voor kleine datasets heeft dit waarschijnlijk geen invloed op de prestaties. Geef daarom prioriteit aan het eenvoudig kunnen begrijpen van de data.
Een nadeel van het geven van een nieuwe alias is dat u geen toegang meer hebt tot de numerieke waarden (waardoor het lastiger wordt om dingen te doen zoals sorteren, kleurovergangen toewijzen, enz.). Overweeg het veld te dupliceren en de kopie een nieuwe alias te geven. Een andere mogelijkheid is om een berekening in Tableau te maken. Zo behoudt u de oorspronkelijke informatie en wordt deze tegelijkertijd begrijpelijker.
Nieuwe alias geven met de CASE-functie
Berekeningen kunnen zeer krachtig zijn voor het geven van een nieuwe alias. Met CASE-functies kunt u bijvoorbeeld zeggen: "Wanneer dit veld de waarde A heeft, geef mij dan X. Wanneer de waarde B is, geef mij dan Y".
Hier kijkt de CASE-functie naar de F-schaal in een tornado-dataset en geeft de schriftelijke beschrijving die bij elke numerieke waarde hoort:
CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END
Nu kunnen we ervoor kiezen om het oorspronkelijke veld "F-schaal" (0-5) of het veld "F-schaal schadebeschrijving" in de visualisatie te gebruiken.
Tips bij het zoeken naar datasets
Opmerking: Probeer te zorgen dat u de vraag "Wat vertegenwoordigt een rij (of record) in de dataset?" kunt beantwoorden. Als u dat niet onder woorden kunt brengen, begrijpt u de data mogelijk niet goed genoeg om ze te kunnen gebruiken. Het kan ook zijn dat ze niet goed zijn gestructureerd voor analyse.
- Houd bij waar de data vandaan komen.
- Bewaar de informatie in het datawoordenboek bij de data zelf.
- Vermijd verouderde data als u wilt dat de inhoud actueel blijft. Zoek naar:
- bijwerkbare data (aandelen, weer, regelmatig gepubliceerde rapporten, enz.)
- tijdloze data (de gemiddelde massa van verschillende dieren zal niet van jaar tot jaar wijzigen)
- data die u toekomstbestendig kunt maken door ze kunstmatig te wijzigen in historische of toekomstige data
- Probeer te googlen wat u zoekt, u kunt veel online vinden.
- Wees niet bang om een dataset op te geven als het te veel werk is om voor te bereiden.
Plaatsen waar u naar data kunt zoeken
Waar kunt u zoeken naar data? Er zijn mogelijk overweldigend veel plekken waar u datasets kunt vinden. Hier zijn enkele opties om u op weg te helpen. Houd er rekening mee dat de realiteit van datasets ook op deze sites van toepassing is: u zult waarschijnlijk niet meteen vinden wat u zoekt en u zult waarschijnlijk wat moeten opschonen om de data gereed te maken voor analyse.
Disclaimer: Hoewel we er alles aan doen om ervoor te zorgen dat deze links naar externe websites accuraat, actueel en relevant zijn, kan Tableau geen verantwoordelijkheid nemen voor de nauwkeurigheid of recentheid van pagina's die door externe providers worden onderhouden. Het hier vermelden van een site betekent niet dat wij de inhoud of organisatie goedkeuren. Neem contact op met de externe site voor antwoorden op vragen over de inhoud op de site.
Tableau Public(Link wordt in een nieuw venster geopend): Tableau Public is een geweldige bron voor Tableau-vriendelijke datasets. Zoek naar werkmappen over een onderwerp dat u interesseert, blader erdoorheen voor inspiratie en download vervolgens de werkmap om toegang te krijgen tot de data. Of bekijk de samengestelde Steekproefdata(Link wordt in een nieuw venster geopend).
Wikipedia-tabellen(Link wordt in een nieuw venster geopend): Haal data uit Wikipedia-tabellen door: kopiëren en plakken in een spreadsheet, kopiëren en plakken rechtstreeks in Tableau, of met behulp van Google Spreadsheets en de IMPORTHTML-functie(Link wordt in een nieuw venster geopend) om een Google-spreadsheet van de data te maken.
Google-dataset zoeken(Link wordt in een nieuw venster geopend): "Een zoekmachine die de gefragmenteerde wereld van online datasets verenigt."
Data is Plural(Link wordt in een nieuw venster geopend): Abonneer u op een wekelijkse nieuwsbrief met datasets of blader door het archief(Link wordt in een nieuw venster geopend).
Makeover Monday(Link wordt in een nieuw venster geopend): "Kom elke maandag bij ons langs om met een bepaalde dataset te werken en betere, effectievere visualisaties te maken en ons te helpen informatie toegankelijker te maken." U kunt zien wat andere mensen met dezelfde dataset hebben gedaan. Dit kan een goede start zijn voor uw analyse of inspiratie bieden. Gebruik #makeovermaandag(Link wordt in een nieuw venster geopend) op Twitter om deel te nemen.
Andere sites
- Tableau Web Data Connectors(Link wordt in een nieuw venster geopend)
- Data.world(Link wordt in een nieuw venster geopend) en de WDC voor Tableau(Link wordt in een nieuw venster geopend)
- Github Open Data(Link wordt in een nieuw venster geopend)
- Kaggle(Link wordt in een nieuw venster geopend)
- datahub.io(Link wordt in een nieuw venster geopend)
- r/datasets(Link wordt in een nieuw venster geopend)
- WHO(Link wordt in een nieuw venster geopend)
- Data.UN.org(Link wordt in een nieuw venster geopend)
- WorldBank(Link wordt in een nieuw venster geopend)
- data.gov(Link wordt in een nieuw venster geopend), data.gov.au(Link wordt in een nieuw venster geopend), data.gov.uk(Link wordt in een nieuw venster geopend), enz.
- Airbnb(Link wordt in een nieuw venster geopend)
- Yelp(Link wordt in een nieuw venster geopend)
- Zillow(Link wordt in een nieuw venster geopend)