Hitta bra datauppsättningar

Ett bra sätt att lära sig hur man använder Tableau Desktop (eller skapa exempel- eller proof-of-concept-innehåll) är att hitta en datauppsättning som du tycker är intressant. När du har verkliga frågor du vill besvara med data blir stegen i analysen enklare och mer meningsfulla.

Verkligheten med datauppsättningar

Det finns två oundvikliga fakta om att försöka hitta en datauppsättning som inte är officiell eller verksamhetsbaserade data.

Du hittar inte det du letar efter.

  • Försök att inte ha strikta förväntningar på vad du behöver.
  • Var flexibel och öppen för vad du kan förvänta dig från ett specifikt projekt.
  • Ibland finns de data du vill ha bakom en betalvägg – avgör om det är värt det.

Du måste rensa upp bland dina data.

Vad gör en bra datauppsättning?

En bra datauppsättning är en som passar ditt ändamål. Så länge som ändamålet uppfylls är det en bra datauppsättning. Det finns dock några överväganden som kan hjälpa till att rensa bort datauppsättningar som sannolikt inte passar ditt syfte. Över lag bör du leta efter datauppsättningar som uppfyller följande villkor:

  1. Innehåller de element du behöver
  2. Är uppdelade data
  3. Har minst ett par dimensioner och mätvärden
  4. Har bra metadata eller en dataordbok
  5. Är användbara (inte i ett proprietärt format, för rörigt eller för besvärligt)
Vad gör Superstore utmärkt?

Superstore är en av exempeldatakällorna som följer med Tableau Desktop. Varför är den en så bra datauppsättning?

  • Nödvändiga element: Superstore har datum, geografiska data, fält med en hierarkisk relation (kategori, underkategori, produkt), mätvärden som är positiva och negativa (vinst) osv. Det finns väldigt få diagramtyper som inte kan göras med endast Superstore, och få funktioner som den inte kan användas för att visa upp.
  • Uppdelade: Data på radnivå är varje objekt i en transaktion. Dessa objekt kan skalas till ordernivå (via order-ID) eller av någon av dimensionerna (såsom datum, kund, region, etc.)
  • Dimensioner och mätvärden: Superstore har flera olika dimensioner som låter dig ”dela upp fritt” efter saker såsom kategori eller stad. Det finns också flera mätvärden och datum, vilket öppnar upp möjligheterna för diagramtyper och beräkningar.
  • Metadata: Superstore har väl namngivna fält och värden. Du behöver inte se efter vad några värden innebär.
  • Liten och ordnad: Superstore är bara några få megabyte stor och tar upp väldigt lite utrymme i Tableau-installationsprogrammet. Den innehåller även mycket ordnade data, med endast rätt värden i varje fält och en bra datastruktur.

1. En bra datauppsättning har elementen som behövs för dina ändamål

Se till att datauppsättningen har de typer av fält du behöver om du letar efter en för att bygga en specifik visualisering eller för att visa upp specifika funktioner. Kartor är till exempel visuellt fantastiska men kräver geografiska data. Grundläggande demon innebär ofta att kraftigt använder datum vilket innebär att data skulle behöva minst ett datumfält (och skulle behöva vara mer detaljerad än bara år för att visa detaljer). Inte alla datauppsättningar behöver alla dessa element – vet vad du behöver för ditt ändamål. Slösa inte tid med datauppsättningar som saknar nyckelelement.

Vanliga element för analys:

  • Datum
  • Geografiska data
  • Hierarkiska data
  • ”Intressanta” mätvärden – antingen betydande variation i storlek eller positiva och negativa värden

Vissa funktioner eller visualiseringstyper kan kräva specifika egenskaper hos datan såsom: 

  • Kluster
  • Prognostisering
  • Trendlinjer
  • Användarfilter
  • Rumsliga beräkningar
  • Specifika beräkningar
  • Jämförande stapeldiagram
  • Kontrolldiagram

2. En bra datauppsättning är uppdelade (råa) data

Om data är för uppdelad finns det inte mycket du kan göra för att analysera dem. Om du till exempel vill titta på trender hos människor som söker efter ”Pumpkin Spice” men har årliga data kan du endast se en översikt på mycket hög nivå. I bästa fall vill du kunna använda daglig data för att kunna se den enorma ökningen när Starbucks börjar erbjuda #PSL.

Vad som räknas som uppdelade kan variera beroende på analys. Observera att på grund av integritet eller praktiska egenskaper kommer vissa datauppsättningar aldrig att vara helt detaljerade. Det är till exempel väldigt osannolikt att du hittar en datauppsättning som rapporterar om malaria efter adress, vilket innebär att månadssummor per region kan vara tillräckligt detaljerade.

Aggregering och detaljrikedom

Att förstå aggregering och detaljrikedom är viktigt av många anledningar. Det påverkar saker såsom att hitta användbara datauppsättningar, bygga den visualisering som behövs, kombinera data korrekt och använda LOD-uttryck. Aggregering och detaljrikedom är motsatta ändar av ett spektrum.

Aggregering hänvisar till hur data kombineras, såsom att summera alla sökningar efter Pumpkin Spice eller ta medelvärdet av alla temperaturavläsningar runt Seattle på en specifik dag.

  • Som standard är mätvärden i Tableau aggregerade. Standardaggregeringen är SUM. Du kan ändra aggregeringen till andra mätvärden såsom genomsnitt, median, unika antal, minimum osv.

Detaljrikedom avser hur detaljerad informationen är. Vad representerar en rad (datapost) i datauppsättningen? En person som har malaria? Totalt antal fall av malaria under månaden i en viss provins? Det är detaljnivån. Att känna till detaljnivån för data är avgörande.

Mer information finns i Dataaggregering i Tableau.

3. En bra datauppsättning har dimensioner och mätvärden

Många typer av visualiseringar kräver dimensioner och mätvärden

  • Om du endast har dimensioner är du oftast begränsad till att räkna, beräkna procentsatser eller använda fältet Antal tabeller.
  • Om du endast har mätvärden kan du inte använda värdena med någonting annat som referens. Du kan dela upp data helt eller arbeta med den övergripande SUM eller AVG, etc.

Detta innebär inte att en datauppsättning med endast dimensioner inte kan vara användbar. Demografisk data är ett exempel på data med stora mängder dimensioner och mycket analys kring demografi är att räkna eller använda procentsatser. Men för en mer analytiskt rik datauppsättning behöver du minst några dimensioner och mätvärden.

Dimensioner och mätvärden, diskreta och kontinuerliga

Rutan Data och kortet Markeringar som visar olika fälttyper

På bilden ovan kan du se att den numeriska dimensionen inte har en aggregering på kortet Markeringar, till skillnad från både det kontinuerliga mätvärdet och det diskreta mätvärdet.

Dimensioner och mätvärden

Fält är uppdelade i dimensioner och mätvärden med en horisontell linje i rutan Data. I Tableau syns dimensioner ut i vyn som sig själva medan mätvärden automatiskt aggregeras. Standardaggregeringen för ett mätvärde är SUM.

  • Dimensioner är kvalitativa vilket innebär att de beskrivs och inte mäts.
    • Dimensioner är ofta saker såsom städer eller länder, ögonfärger, kategorier, lagnamn osv.
    • Måtten är vanligtvis diskreta.
  • Mätvärden är kvantitativa vilket innebär att de kan mätas och registreras (numeriska).
    • Mätvärden är ofta saker såsom försäljning, höjd, antal klick osv.
    • Mätvärden är oftast kontinuerliga.

Om du kan använda matematik på ett fält är det ett mätvärde. Om du inte är säker på om ett fält ska vara ett mätvärde eller en dimension är det bra att försöka göra någon meningsfull matematik med värdena. Är det logiskt med AVG(RowID), summan av två personnummer eller att dividera ett postnummer med 10? Nej. Det är dimensioner som råkar skrivas som siffror. Tänk på hur många länder som har alfanumeriska postnummer – de är bara etiketter, även om de i USA bara är numeriska. Tableau kan känna igen många fältnamn som indikerar att ett numeriskt fält faktiskt är ett ID eller ett postnummer och försöker göra dessa till dimensioner. Men Tableau är inte perfekt. Använd testet ”kan jag göra matematik med detta?” för att avgöra om ett numeriskt fält ska vara ett mätvärde eller en dimension och ordna om rutan Data efter behov.

Obs! Även om du kan göra matematik med datum (som beräkningen DATEDIFF) är standardkonventionen att kategorisera datum som dimensioner.

Diskret och kontinuerligt

Diskreta eller kontinuerliga fält är något i linje med begreppen dimension och mätvärden, men de är inte identiska.

  • Diskreta fält innehåller distinkta värden. De skapar rubriker eller etiketter i vyn och fälten är blåa
  • Kontinuerliga fält ”bildar en kontinuerlig helhet”. De skapar en axel i vyn och fälten är gröna

Ett bra sätt att förstå diskret och kontinuerligt är att titta på ett datumfält. Datum kan antingen vara diskreta ELLER kontinuerliga.

  • Att titta på medeltemperaturer i augusti under ett decennium eller sekel innebär att ”augusti” används som en diskret och kvalitativ datumdel.
  • Att titta på den övergripande trenden i rapporterade malariafall sedan 1960 skulle använda en kontinuerlig axel vilket innebär att datumet används som ett kontinuerligt och kvantitativt värde.

Du hittar mer information i Dimensioner och mätvärden, blått och grönt.

Fält som har skapats av Tableau

Tableau skapar minst tre fält, oavsett vilken datauppsättning som används:

  • Mätvärdesnamn (en dimension)
  • Mätvärden (ett mätvärde)
  • TableName(antal) (ett mätvärde)

Om det finns geografiska fält i datauppsättningen skapar Tableau även fälten Latitud (genererade) och Longitud (genererade).

Mätvärdesnamn och Mätvärden är två användbara fält. Du hittar mer information i Mätvärden och Mätvärdesnamn.

Antal tabeller anger antalet poster för tabellen genom att räkna raderna. Detta låter dig ha minst ett mätvärde i din datauppsättning och kan hjälpa till med viss analys. Du måste förstå detaljnivån för dina data (vad en rad representerar) för att kunna definiera vad antalet rader innebär.

Här är varje rad en dag, vilket innebär att antalet tabeller är antalet dagar:

Här är varje rad en månad, vilket innebär att antalet tabeller är antalet månader:

4. En bra datauppsättning har metadata eller en dataordbok

En datauppsättning är endast användbar om du vet vad datan innebär. Det finns få saker som är mer frustrerande i jakten på bra data än att öppna en fil som ser ut så här:

kalkylbladsvy över endast numeriska data

Vad innebär en källa på 4 eller 12? Och vilken information finns i fälten OTU0-OTU4?

En bra datauppsättning är en som har antingen väl etiketterade fält och medlemmar eller en dataordbok som låter dig etikettera data på ditt sätt. Med Superstore i åtanke – det är omedelbart uppenbart vad fälten och deras värden innebär, såsom Kategori och dess medlemmar Teknik, Möbler och Kontorsmaterial. För datauppsättningen med mikrobiom på bilden ovan finns det t.ex. en dataordbok(Länken öppnas i ett nytt fönster) som förklarar varje källa (4 är avföring och 12 är mage) och taxonomi för varje OTU (OTU3 är en bakterie av släktet Parabakteroider).

Dataordböcker kan även kallas för metadata, indikatorer, variabeldefinitioner, ordlistor eller många andra saker. I grunden handlar det om att en dataordbok erbjuder information om kolumnnamn och medlemmar i en kolumn. Den informationen kan integreras i datakällan eller på flera sätt, inklusive:

  • Byt namn på kolumnerna så att de är lättare att förstå (detta kan göras i själva datauppsättningen eller i Tableau).
  • Skapa nya alias för medlemmarna i fältet (detta kan göras i själva datauppsättningen eller i Tableau).
  • Skapa beräkningar för att lägga till i dataordboken.
  • Skapa kommentarer för fältet i Tableau (kommentarer förekommer inte på publicerade visualiseringar. De förekommer endast i redigeringsmiljön).
  • Använd dataordboken som ytterligare en datakälla och kombinera de två datakällorna.

Att förlora en dataordbok kan göra en datauppsättning värdelös. Om du bokmärker en datauppsättning bör du även bokmärka dataordboken. Om du laddar ner en bör du ladda ner båda och spara dem på samma plats.

5. En bra datauppsättning är en du kan använda

Så länge du kan förstå datauppsättningen och den har informationen du behöver, kan till och med en liten datauppsättning vara extremt användbara för analys. Mindre datauppsättningar är även lättare att spara, dela och publicera och presterar sannolikt bättre.

Även om du hittar den ”perfekta” datauppsättningen för dina behov är den trots allt inte perfekt om den kräver en orealistisk mängd ansträngning att rensa och korrigera. Att veta när man ska undvika en datauppsättning som är för rörig, är viktigt.

Ett bra exempel är den här datauppsättningen från en Wikipedia-artikel om relativa bokstavsfrekvenser. Det började som 84 rader och 16 kolumner (korrigerade till 1 245 rader och 3 kolumner). Excel-filen är 16 kB. Men med vissa grupper, uppsättningar, beräkningar och andra manipulationer möjliggör den robust analys och intressanta visualiseringar.

Klicka på bilden för att ladda ner arbetsboken.

Etikettera dina data på nytt

När du väl har hittat en bra datauppsättning måste du ofta etikettera den på nytt. Att etikettera data på nytt kan vara användbart för att antingen skapa falska data för prover eller proof-of-concepts, eller för att göra data mer läsbara.

Byta namn på ett fält modifierar hur det visas i Tableau, såsom att byta namn på ”Försäljning” till ”Rörförsäljning” eller ”Län” till ”Landskap”.

Byta alias modifierar hur medlemmarna i ett fält visas. Du kan t.ex. byta alias för värden i ett landsfält så att CHN blir Kina och RUS blir Ryssland.

  • Värdena i ett diskret dimensionsfält kallas för medlemmar. Endast medlemmar kan få nya alias. Överväg ett mätvärdesfält för temperatur. Ett värde på 54 °F kan inte ändras utan att själva datan ändras. Men att byta alias på medlemmen ”CHN” till ”Kina” i ett landsfält är samma information, bara etiketterat på ett annat sätt.

Att byta namn och alias betyder nästan samma sak. Det som vanligtvis används i Tableau är att fält får namn och medlemmar får alias. Se Ordna och anpassa fält i rutan Data och Skapa alias för att byta namn på medlemmar i vyn för mer information.

Obs! Att byta namn eller alias ändrar bara utseendet i Tableau Desktop. Inga ändringar skrivs till underliggande data.

Etikettera på nytt för att skapa falska data

Att etikettera befintliga datauppsättningar på nytt är ett perfekt sätt att göra exempel- eller proof-of-concept-innehåll mer övertygande.

  1. Använd en enkel datauppsättning (såsom Superstore) för att skapa vad du vill (en specifik diagramtyp eller visa upp viss funktionalitet osv.)
  2. Byt namn på relevanta fält, ändra verktygstips och ändra på annat sätt texterna för att maskera vad som data faktiskt representerar.

Viktigt: Gör endast detta när det är uppenbart att informationen är falsk. Var försiktig så att folk inte tror att det är riktiga data och försöker använda dem för analys. Använd till exempel fåniga namn eller meningslösa fältnamn såsom färger eller djur.

Byt alias för att göra data lättare att använda

Det är mer effektivt att lagra data som numeriska värden snarare än strängvärden. Detta gäller även om numerisk kodning kan göra data svårare att förstå. För mindre datauppsättningar påverkar det förmodligen prestandan vilket innebär att du kan prioritera att kunna förstå datan enkelt.

En nackdel med att byta namn på alias är att du inte längre har tillgång till dessa numeriska värden (gör det svårare att göra saker såsom att sortera eller tilldela färggradienter osv.). Överväg att duplicera fältet och byta namn på alias för kopian. Alternativt kan en beräkning i Tableau vara ett bra sätt att bevara den ursprungliga informationen samtidigt som den blir lättare att förstå.

Byta alias med funktionen CASE

Beräkningar kan vara mycket kraftfulla för att byta alias. Funktioner CASE låter dig i grunden indikera till exempel att ”när det här fältet har värdet A, ge mig X. När värdet är B, ge mig Y”.

Här beräknar funktionen CASE F-skalan i en datauppsättning om tornados och ger den skriftliga beskrivningen som är associerad med varje numeriska värde:

CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END

Nu kan du välja att använda antingen det ursprungliga fältet ”F-skalan” (0–5) eller fältet ”F-skalans skadebeskrivning” i visualiseringen.

Tips när du letar efter datauppsättningar

Obs! Försök svara på frågan ”Vad representerar en rad (alias-poster) i datauppsättningen”? Om du inte kan svara på den frågan kanske du inte förstår datan tillräckligt bra för att kunna använda dem. Alternativt kan de vara dålig strukturerade för analys.

  • Håll koll på var data kom ifrån.
  • Spara informationen om dataordboken med själva datan.
  • Undvik inaktuella data innehållet alltid måste vara uppdaterat. Leta efter:
    • uppdateringsbara data (aktier, väder, regelbundet publicerade rapporter osv.)
    • tidlösa data (medelmassan för olika djur förändras inte från år till år)
    • data som kan framtidssäkras genom att artificiellt ändra till historiska eller framtida datum
  • Pröva helt enkelt att söka efter det du letar efter, du kanske blir förvånad.
  • Var inte rädd för att överge en datauppsättning om den ger för mycket arbete att förbereda.

Platser att leta efter data

Var kan du leta efter data? Det finns helt klart ett överväldigande antal platser att hitta datauppsättningar. Här följer några alternativ för att komma igång. Observera att verkligheten med datauppsättningar gäller för dessa webbplatser – du kommer troligen inte att hitta det du vill ha just nu. Troligtvis behövs även lite rensning för att få data redo för analys.

Ansvarsfriskrivning: Vi gör vårt bästa för att länkarna till externa webbplatser ska vara korrekta, aktuella och relevanta. Tableau kan dock inte garantera att webbplatser som hanteras av andra leverantörer är uppdaterade och korrekta. Att lista en webbplats här är inte ett stöd för något innehåll eller någon organisation. Kontakta den externa platsen om du har frågor om innehållet där.

Tableau Public(Länken öppnas i ett nytt fönster): Tableau Public är en fantastisk resurs för datauppsättningar som är enkla att använda i Tableau. Sök efter arbetsböcker som handlar om ett ämne du är intresserad av, leta efter inspiration och ladda sedan ner arbetsboken för att komma åt data. Du kan även kolla in det anpassade dataurvalet(Länken öppnas i ett nytt fönster).

Wikipedia-tabeller(Länken öppnas i ett nytt fönster): Erhåll data från Wikipedia-tabeller genom att: kopiera och klistra in i ett kalkylblad, kopiera och klistra in direkt i Tableau, eller använda Google Kalkylark och funktionen IMPORTHTML(Länken öppnas i ett nytt fönster) för att skapa ett Google-kalkylark med alla data.

Google Dataset Search(Länken öppnas i ett nytt fönster): ”En sökmotor som förenar den fragmenterade världen med datauppsättningar online”.

Data is Plural(Länken öppnas i ett nytt fönster) : Prenumerera på ett veckovisa nyhetsbrev med datauppsättningar eller sök i arkivet(Länken öppnas i ett nytt fönster).

Makeover Monday(Länken öppnas i ett nytt fönster): ”Delta varje måndag för att arbeta med en given datauppsättning och skapa bättre och mer effektiva visualiseringar samt hjälpa oss att göra information mer tillgänglig”. Du kan se vad andra människor har gjort med samma datauppsättning. Ge din analys en snabbstart eller helt enkelt inspiration. Använd #makeovermonday(Länken öppnas i ett nytt fönster) på Twitter för att delta.

Andra webbplatser

Tack för din feedback!Din feedback har skickats in. Tack!