Strukturera data för analys

Det finns vissa begrepp som är grundläggande för att förstå dataförberedelse och hur man strukturerar data för analys. Data kan genereras, inhämtas och lagras i många olika format, men när det gäller analys är inte alla dataformat jämlika.

Dataförberedelse är processen att få välformaterade data i en enda tabell eller flera relaterade tabeller så att de kan analyseras i Tableau. Detta omfattar både strukturen, dvs. raderna och kolumnerna, och aspekter som är kopplade till hur rena data är – såsom korrekta datatyper och korrekta datavärden.

Tips: Det kan underlätta att gå igenom följande ämne med en egen datauppsättning. Här finns våra tips för att hitta bra datauppsättningar(Länken öppnas i ett nytt fönster), om du inte redan har en datauppsättning som du kan använda.

Så här påverkar strukturen analysen

Strukturen på dina data kanske inte är något du kan kontrollera. Resten av detta ämne förutsätter att du har tillgång till rådata och de verktyg som behövs för att forma dem, som till exempel Tableau Prep Builder. Det kan dock finnas situationer där du inte kan pivotera eller aggregera data som du vill. Ofta går det fortfarande att utföra analysen, men du kan behöva ändra dina beräkningar eller hur du närmar dig data. För ett exempel på hur man utför samma analys med olika datastrukturer, se Typiska scenarier i Tableau Prep: Analys med det andra datumet i Tableau Desktop(Länken öppnas i ett nytt fönster). Om du kan optimera datastrukturen kommer det dock sannolikt att göra analysen mycket enklare.

Datastruktur

Tableau Desktop fungerar bäst med data som är i tabeller formaterade som ett kalkylblad. Det vill säga data som lagras i rader och kolumner, med kolumnrubriker i den första raden. Så vad ska vara en rad eller kolumn?

Vad är en rad?

En rad, eller post, kan vara allt från information om en transaktion i en butik till vädermätningar på en specifik plats eller statistik om ett inlägg på sociala medier.

Det är viktigt att veta vad en post (rad) i datan representerar. Detta är datans detaljnivå.

Här är varje post en dagHär är varje post en månad

Tips: Bästa praxis är att ha en unik identifierare (UID), ett värde som identifierar varje rad som ett unikt datablock. Det är jämförbart med ett personnummer eller en URL för varje post. I Superstore är detta Rad-ID. Observera att inte alla datauppsättningar har ett UID, men det skadar inte att ha ett.

Ha som målsättning att kunna svara på frågan ”Vad representerar en rad i datauppsättningen?”. Detta är samma sak som att svara ”Vad representerar fältet TableName (Count)?”. Om du inte kan svara kanske datan inte är tillräckligt strukturerad för att kunna analyseras.

Aggregering och detaljrikedom

Ett begrepp som är relaterat till vad som utgör en rad är konceptet aggregering och detaljnivå, som är motsatta ändar av ett spektrum.

Aggregering

  • hänvisar till hur flera datavärden sammanförs till ett enda värde, till exempel att räkna alla Google-sökningar på ”pumpakrydda” eller genomsnittet av alla temperaturavläsningar runt Sundsvall en viss dag.

  • Som standard aggregeras mätvärden alltid i Tableau. Standardaggregeringen är SUM. Du kan ändra aggregeringen till alternativ som genomsnitt, median, distinkt antal, minimum etc.

Detaljnivå

  • hänvisar till hur detaljerade uppgifterna är. Vad representerar en rad eller post i datauppsättningen? En person som har malaria? Totalt antal fall av malaria under månaden i en viss provins? Det är detaljnivån.

  • Att känna till detaljnivån för data är avgörande för att kunna arbeta med LOD-uttryck.

Att förstå aggregering och detaljnivå är avgörande av många anledningar. Det påverkar aspekter som att hitta användbara datauppsättningar, skapa den önskade visualiseringen, relatera eller koppla data korrekt och använda LOD-uttryck.

Tips! Mer information finns i Dataaggregering i Tableau.

Vad är ett fält eller en kolumn?

En kolumn med data i en tabell presenteras som ett fält i rutan Data i Tableau Desktop, men de är i princip samma sak. (Vi sparar termen kolumn i Tableau Desktop för användning i kolumner och hyllan Rader samt för att beskriva vissa visualiseringar.) Ett datafält bör innehålla objekt som kan grupperas i en större relation. Själva objekten kallas värden eller medlemmar (endast diskreta dimensioner innehåller medlemmar).

Vilka värden som är tillåtna i ett visst fält bestäms av fältets domän (se anmärkningen nedan). Till exempel kan en kolumn för ”avdelningar i en livsmedelsbutik” innehålla medlemmarna ”deli”, ”bageri”, ”frukt och grönt” etc., men den skulle inte innehålla ”bröd” eller ”salami” eftersom dessa är objekt, inte avdelningar. Med andra ord är domänen för fältet Avdelning begränsat till endast de möjliga avdelningarna i en livsmedelsbutik.

En välstrukturerad datauppsättning skulle också ha en kolumn för ”Försäljning” och en kolumn för ”Vinst”, inte en enda kolumn för ”Pengar”, eftersom vinst är ett separat begrepp från försäljning.

  • Domänen i fältet Försäljning skulle vara värden ≥ 0, eftersom försäljningen inte kan vara negativ.

  • Domänen i fältet ”Vinst” skulle å andra sidan vara alla värden, eftersom vinsten kan vara negativ.

Obs! Domän kan också betyda de värden som finns i data. Om kolumnen ”avdelningar i en livsmedelsbutik” felaktigt innehöll ”salami” skulle detta värde enligt denna definition vara i kolumnens domän. Definitionerna är något motsägelsefulla. Den ena är de värden som kan eller bör finnas där, den andra är värden som faktiskt finns där

Kategorisera fält

Varje kolumn i datatabellen presenteras som ett fält i Tableau Desktop, och visas i rutan Data. Fält i Tableau Desktop måste vara antingen en dimension eller ett mätvärde (avgränsade med en linje i tabeller i rutan Data ) och antingen diskreta eller kontinuerliga (färgkodade: blå fält är diskreta och gröna fält är kontinuerliga).

  • Dimensioner är kvalitativa, vilket innebär att de inte kan mätas utan beskrivs i stället. Dimensioner kan vara till exempel stad eller land, ögonfärg, kategori, teamnamn etc. Dimensionerna är vanligtvis diskreta.

  • Mätvärden är kvantitativa, vilket innebär att de kan mätas och registreras med siffror. Mätvärden kan vara till exempel försäljning, höjd, klick etc. I Tableau Desktop aggregeras mätvärden automatiskt. Standardaggregationen är SUM. Mätvärden är oftast kontinuerliga.

  • Diskret betyder individuellt separat eller åtskild. Toyota skiljer sig från Mazda. I Tableau Desktop presenteras diskreta värden i vyn som en etikett och de skapar rutor.

  • Kontinuerlig betyder att den bildar en obruten, kontinuerliga helhet. 7 följs av 8 och då är det samma avstånd till 9, och 7,5 skulle falla halvvägs mellan 7 och 8. I Tableau Desktop presenteras värden kontinuerligt i vyn som en axel.

  • Dimensioner är vanligtvis diskreta och mätvärden är vanligtvis kontinuerliga. Detta är dock inte alltid fallet. Datum kan vara antingen diskreta eller kontinuerliga.

    • Datum är dimensioner och presenteras automatiskt i vyn som diskreta (även kallade datumdelar, såsom ”augusti”, som betraktar augusti månad utan att ta hänsyn till annan information som till exempel årtal). En trendlinje som tillämpas på en tidslinje med diskreta datum kommer att delas upp i flera trendlinjer, en per ruta.

    • Vi kan välja att använda kontinuerliga datum om vi föredrar det (även kallade datumavkortningar, t.ex. ”augusti 2024”, som skiljer sig från ”augusti 2025”). En trendlinje som tillämpas på en tidslinje med kontinuerliga datum kommer att ha en enda trendlinje för hela datumaxeln.

Tips! Mer information finns i Dimensioner och mätvärden, blått och grönt.

I Tableau Prep görs ingen åtskillnad mellan dimensioner och mätvärden. Att förstå begreppen bakom diskret eller kontinuerliga är dock viktigt för att exempelvis förstå hur data presenteras som detaljer kontra sammanfattande i rutan Profil.

  • Detalj: detaljvyn visar varje domänelement som en diskret etikett och har en visuell rullningslist som ger en visuell översikt över alla data.

  • Sammanfattning: sammanfattningsvyn visar värdena som grupperade på en kontinuerlig axel som ett histogram.

Gruppering och histogram

Ett fält som ålder eller lön betraktas som kontinuerliga. Det finns en relation mellan åldern 34 och 35, och 34 är lika långt från 35 som 35 är från 36. När vi är äldre än runt tio år brukar vi dock sluta säga att vi är till exempel ”nio och ett halvt” eller ”sju och tre fjärdedelar”. Vi grupperar då redan vår ålder till jämna år. En person som är 12 850 dagar gammal är äldre än någon som är 12 790 dagar gammal, men vi drar en gräns och säger att de båda är 35. På samma sätt används åldersgrupperingar ofta i stället för faktiska åldrar. Barnpriser för biobiljetter kan vara för barn som är tolv år och under, eller en undersökning kan be dig att välja din åldersgrupp som 20–24, 25–30 etc.

Histogram används för att visualisera fördelningen av numeriska data med hjälp av gruppering. Ett histogram liknar ett stapeldiagram, men i stället för att representera separata kategorier för varje stapel sträcker sig de rektanglar som utgör histogrammet över en klass på en kontinuerlig axel, såsom intervallet för antalet blommor (0–4, 5–9, 10–14 osv.). Höjden på rektanglarna bestäms av frekvensen eller antalet av dessa värden. Här är y-axeln antalet växter som hamnar i varje klass. Sju växter har 0–4 blommor, två växter har 5–9 blommor och 43 växter har 20–24 blommor.

Histogram över antalet blommor efter antal växter

I Tableau Prep är sammanfattningsvyn ett histogram med grupperade värden. Detaljvyn visar frekvensen för varje värde och innehåller en visuell rullningslist på sidan som visar den övergripande fördelningen av data.

SammanfattningsvyDetaljvy
skärmbild av sammanfattningsvyn i Tableau Prepskärmbild av detaljvyn i Tableau Prep

Fördelningar och utstickare

Att se fördelningen av en datauppsättning kan göra det enklare att upptäcka avvikelser.

  • Fördelning: formen på data i ett histogram, även om detta beror på grupperingarnas storlek. Att kunna se alla data i en histogramvy kan hjälpa dig att identifiera om data ser korrekta och kompletta ut. Formen på fördelningen är bara användbar om du känner till data och kan tolka om fördelningen verkar vettig eller inte.

    • Om vi till exempel skulle titta på en datauppsättning som representerar antalet bostäder med bredbandsanslutning till internet från 1940 till 2017 skulle vi förvänta oss att se en mycket ojämn fördelning. Om vi skulle titta på antalet bostäder med bredband från januari 2017 till december 2017 skulle vi dock förvänta oss en ganska jämn fördelning.

    • Om vi skulle titta på en datauppsättning för Google-sökningar på ”pumpkin spice latte” skulle vi förvänta oss att se en ganska kraftig topp på hösten, men sökningar på ”konvertera Celsius till Fahrenheit” skulle sannolikt vara ganska stabil.

  • Utstickare: ett värde som är extremt jämfört med andra värden. Utstickare kan vara korrekta värden eller indikera ett fel.

    • Vissa utstickare är korrekta och anger faktiska avvikelser. Dessa bör inte tas bort eller ändras.

    • Vissa avvikelser indikerar problem med hur rena data är, till exempel en lön på 50 kr i stället för 50 000 kr eftersom ett kommatecken använts istället för ett mellanslag.

Visuell detektering av utstickare med fördelningar

Om du skulle se en lista som denna:

ser den vid första anblicken inte konstig ut. Men om detta istället för en lista med etiketter ritades på en kontinuerlig grupperad axel skulle det se ut så här:

Och det blir mycket mer uppenbart att den sista observationen är längre bort från den första och kan vara en utstickare på grund av ett fel.

Datatyper

Databaser tillämpar, till skillnad från kalkylblad, vanligtvis strikta regler för datatyper. Datatyper klassificerar data i ett visst fält och ger information om hur data ska formateras, tolkas och vilka operationer som kan göras med dessa data. Till exempel kan matematiska operationer tillämpas på numeriska fält och geografiska fält kan mappas.

Tableau Desktop tilldelar om ett fält är en dimension eller ett mätvärde, men fält har andra egenskaper som beror på deras datatyp. Datatyper indikeras av ikonen som särskiljer varje fält (även om vissa typer delar samma ikon). Tableau Prep använder samma datatyper. Om datatypen tillämpas på en kolumn och ett befintligt värde inte matchar dess tilldelade datatyp kan det visas som null (eftersom ”lila” inte har någon betydelse som ett tal).

Vissa funktioner kräver specifika datatyper. Det går till exempel inte att använda CONTAINS med ett numeriskt fält. Typfunktioner används för att ändra datatypen för ett fält. Till exempel kan DATEPARSE ta ett textdatum i ett specifikt format och göra det till ett datum, vilket möjliggör åtgärder som att gå nedåt i vyn.

IkonDatatyp
Textvärden (sträng)
Datumvärden
Datum- och tidsvärden
Numeriska värden
Booleska värden (endast relationella)
Geografiska värden (används med kartor)

Tips: Mer information finns i hjälpartikeln om datatyper.

Pivotera och normalisera data

Data som är läsbara för människor hämtas ofta in och registreras i ett brett format, med många kolumner. Maskinläsbara data – som Tableau föredrar – är bättre i ett högt format med färre kolumner och fler rader.

Obs! Traditionellt innebär pivotering av data att byta från ett högt till ett brett format (rader till kolumner), medan normalisering av data innebär att byta från ett brett till ett högt format (kolumner till rader). Dock använder Tableau ordet pivotera i betydelsen att gå från brett format (som kan läsas av människor) till högt (maskinläsbart) genom att göra kolumner till rader. I detta dokument kommer pivotera att användas i den betydelse Tableau tillskriver termen. För tydlighetens skull kan det underlätta att specificera ”pivotera kolumner till rader” eller ”pivotera rader till kolumner”.

Mer information finns i hjälpartiklarna Pivotera dina data och Tips för att arbeta med dina data.

Breda data

I WHO: s datauppsättning om malaria finns det en kolumn för land och sedan en kolumn per år. Varje cell representerar antalet malariafall för det landet och året. I det här formatet har vi 108 rader och 16 kolumner.

Brett format med malariadata

Det är lätt för en person att läsa och förstå detta format. Men om vi skulle ta med dessa data till Tableau Desktop får vi ett fält per kolumn. Vi har ett fält för 2000, ett fält för 2001, ett fält för 2002 osv.

Skärmbild av brett formaterade malariadata i Tableau Desktop

För att se på konceptet på ett annat sätt finns det 15 fält som alla representerar samma grundelement – (antalet rapporterade malariafall) – och inga enstaka fält för tid. Detta gör det mycket svårt att utföra en analys som sträcker sig över en längre tid eftersom data lagras i separata fält.

Exempel: arbeta med breda data

F: Hur kan vi skapa en karta som visar totalt antal fall av malaria per land mellan 2000 och 2014? 

S: Skapa ett beräknat fält för att summera alla år.

Obs! Den här bilden har inte uppdaterats än för att återspegla det senaste användargränssnittet. Dimensioner och Mätvärden visas inte längre som etiketter för rutan Data.

 

En annan indikation på att detta format inte är idealiskt för analys är att det inte finns någon information om vad de faktiska värdena betyder. För Algeriet 2012 har vi värdet 55. Femtiofem vadå? Det framgår inte av datastrukturen.

Om namnet på kolumnen inte beskriver vad värdena är utan snarare förmedlar ytterligare information är det ett tecken på att data behöver pivoteras.

Höga data

Om vi pivoterar data, omformar vi dem från brett till högt format. Nu har vi en enda kolumn – År – istället för att ha en kolumn för varje år samt en ny kolumn, Rapporterade fall. I det här formatet har vi 1 606 rader och 3 kolumner. Detta dataformat är högre än det är brett.

I Tableau Desktop har vi nu ett fält för År och ett fält för Rapporterade fall samt det ursprungliga fältet Land. Det är mycket enklare att göra analyser eftersom varje fält representerar en unik kvalitet i datauppsättningen – plats, tid och värde.

Obs! Den här bilden har inte uppdaterats än för att återspegla det senaste användargränssnittet. Dimensioner och Mätvärden visas inte längre som etiketter för rutan Data.

Exempel: arbeta med höga data

F: Hur kan vi skapa en karta som visar totalt antal fall av malaria per land mellan 2000 och 2014? 

A: Använd fältet Rapporterade fall.

Obs! Den här bilden har inte uppdaterats än för att återspegla det senaste användargränssnittet. Dimensioner och Mätvärden visas inte längre som etiketter för rutan Data.

Nu är det lätt att se att för Algeriet 2012 hänvisar värdet 55 till antalet rapporterade fall (eftersom vi kunde etikettera denna nya kolumn).

Obs! I detta exempel bestod breda data av en enda post per land. Med data i högt format finns det nu 15 rader för varje land (en för vart och ett av de 15 åren med data). Det är viktigt att komma ihåg att det nu finns flera rader per land.

Om det fanns en kolumn för landområde skulle detta värde upprepas för var och en av de 15 raderna för varje land i en hög datastruktur. Om du skapade ett stapeldiagram genom att föra Land till Rader och Landområde till Kolumner, skulle vyn som standard summera landområdet för alla 15 raderna per land.

För vissa fält kan det vara nödvändigt att kompensera för dubbelräkning genom att aggregera med ett medelvärde eller ett minimivärde istället för summa eller filtrering.

Normalisering

Relationsdatabaser består av flera tabeller som kan relateras eller länkas samman på något sätt. Varje tabell innehåller en unik identifierare eller nyckel per post. Genom att relatera eller koppla ihop nycklarna kan poster länkas så de ger mer information än vad som finns i en enskild tabell. Vilken information som förs in i varje tabell beror på vilken datamodell som används, men den allmänna principen är att minska dupliceringen.

Vi kan som exempel titta på evenemangsplanering för ett bröllop. Vi måste hålla reda på information på gruppnivå (som familjer eller par) samt på individnivå.

Det går att skapa en tabell som kombinerar all information tillsammans: 

Om en adress är felaktig och behöver korrigeras måste den dock korrigeras på flera rader, vilket kan leda till fel eller konflikter. En bättre struktur är att skapa två tabeller, en för information som rör gruppen (till exempel adress och om inbjudan har skickats) och en för information som rör individerna (till exempel bordsplacering och kostrestriktioner).

GrupptabellIndividuell tabell

Det är mycket lättare att spåra och analysera information på gruppnivå i grupptabellen och information på individnivå i den individuella tabellen. Till exempel kan antalet stolar som behövs erhållas från antalet deltagande = Ja-poster i den enskilda tabellen, och antalet frimärken som behövs för tackkort kan erhållas från antalet poster i grupptabellen där gåvan inte är null.

Processen att dela upp alla data i flera tabeller – och bestämma vilken tabell som ska innehålla vilka kolumner – kallas normalisering. Normalisering bidrar till att minska redundanta data och förenklar organisationen av databasen.

Det kan dock finnas tillfällen då information behövs som sträcker sig över flera tabeller. Tänk dig till exempel att vi vill balansera bordsplaceringen (individer) så att grupper från brudens sida blandas med grupper från brudgummens sida? (Koppling till bruden eller brudgummen spåras på gruppnivå.) För att göra detta måste vi relatera tabellerna så att individer förknippas med information om sin grupp. Korrekt normalisering är inte bara att dela upp tabeller. Det kräver även att det finns ett delat, relaterat fält eller en unik identifierare som kan användas för att kombinera data igen. Här är det relaterade fältet Grupp. Det fältet finns i båda tabellerna, så vi kan koppla det här fältet och gå tillbaka till vårt ursprungliga format med en enda tabell. Detta är en avnormaliserad struktur.

Så varför behöll vi inte den ursprungliga avnormaliserade tabellen? Den är svårare att underhålla och lagrade överflödig information. I stor skala kan nivån av dataduplicering bli mycket hög. Att lagra samma information om och om igen är inte effektivt.

Normaliserade tabeller har några nyckelegenskaper:

  • Varje rad behöver en unik identifierare

  • Varje tabell behöver en kolumn eller kolumner som kan användas för att koppla den till andra tabeller igen (nyckel).

Dessa delade (nyckel)-kolumner används för att relatera eller koppla ihop tabeller igen. För våra data skulle relationen eller kopplingssatsen finnas i fältet Grupp i varje tabell.

Typer av kopplingar

Även om standardmetoden för att kombinera data i Tableau Desktop är att relatera den, kan det i vissa fall vara att bättre koppla ihop tabeller i Tableau Desktop eller Tableau Prep Builder. En grundläggande översikt över kopplingar och typer av kopplingar finns i Koppla ihop dina data.

”Städa” data

Hadley Wickham publicerade 2014 en artikel i Journal of Statistical Software som heter ”Tidy Data” (augusti 2014, volym 59, utgåva 10). Denna artikel beskriver på ett utmärkt sätt ett välstrukturerat dataramverk för analys. Artikeln finns här (Hadley Wickhams akademiska portfölj)(Länken öppnas i ett nytt fönster) eller här (på r-project.org)(Länken öppnas i ett nytt fönster).

Obs! Artikeln finns på externa webbplatser. Vad gäller sidor som underhålls av externa parter kan Tableau inte ta ansvar för riktigheten på dessa sidor eller garantera att de är uppdaterade. Kontakta ägarna om du har frågor om deras innehåll.

Tack för din feedback!Din feedback har skickats in. Tack!