Rensa data i Excel, CSV, PDF och Google Kalkylark med Datatolken
När du spårar data i Excel-kalkylblad skapar du dem med det mänskliga gränssnittet i åtanke. Du kan göra kalkylblad lättare att läsa genom att inkludera saker såsom titlar, staplade rubriker, anteckningar, tomma rader och kolumner för att lägga till blanksteg och även ytterligare flera flikar med data.
När du vill analysera denna data i Tableau gör dessa estetiskt tilltalande attribut det mycket svårt för Tableau att tolka dina data. Det är där datatolken kan hjälpa till.
Tips: Även om Tableaus Excel-tillägg inte längre stöds, kan datatolken hjälpa till att omforma data för analys i Tableau.
Vad gör datatolken?
Datatolken kan ge dig ett försprång när du rensar dins data. Den kan detektera saker såsom titlar, anteckningar, sidfötter, tomma celler och så vidare och kringgå dem för att identifiera de faktiska fälten och värdena i din datauppsättning.
Den kan till och med detektera ytterligare tabeller och undertabeller som låter dig arbeta med en delmängd av dina data oberoende av andra data.
När datatolken har gjort sin magi kan du kontrollera resultatet för att se till att den har registrerat de data du ville ha och identifierat dem korrekt. Sedan kan du göra nödvändiga justeringar.
När du har valt de data du vill arbeta med kan du även behöva göra några ytterligare rengöringssteg såsom att pivotera dina data, dela upp fält eller lägga till filter för att få data i de format du vill ha innan analysen påbörjas.
Obs! Om dina data behöver mer rengöring än vad datatolken kan hjälpa till med kad du prova på Tableau Prep(Länken öppnas i ett nytt fönster).
Aktivera datatolken och granska resultaten
Från rutan Anslut kan du ansluta till ett Excel-kalkylblad eller annan anslutning som har stöd för datatolken såsom textfiler (.csv), PDF-filer eller Google Kalkylark.
Dra en tabell till arbetsytan (om så behövs). Markera sedan kryssrutan Använd datatolken i den vänstra rutan på sidan Datakälla, för att se om datatolken kan hjälpa till att rensa dina data.
Obs! När du rensar dina data med datatolken rensar den alla data som är länkade till en anslutning i datakällan. Datatolken modifierar inte de underliggande data.
I rutan Data ska du klicka på länken Granska resultaten för att granska resultaten från datatolken.
En kopia av din datakälla öppnas i Excel på fliken Nyckel för datatolken. Granska nyckeln för att veta hur du läser resultaten.
Klicka på varje flik för att granska hur datatolken tolkade datakällan.
Om datatolken hittade ytterligare tabeller, även kallade hittade tabeller eller undertabeller, identifieras de på fliken <namn på blad>_subtables genom att framhäva deras cellintervall. En separat flik används även för varje undertabell och är färgkodad för att identifiera rubriken och dataraderna.
Om datatolken inte erbjuder de förväntade resultaten kan du avmarkera kryssrutan Rensad med datatolken för att använda den ursprungliga datakällan.
Du kan ersätta den aktuella tabellen med någon av de hittade tabellerna genom att dra den aktuella tabellen till utanför arbetsytan och sedan den hittade tabellen som du vill använda till arbetsytan.
Om du har dragit den hittade tabellen till arbetsytan och datatolken har identifierat intervallet fel för den hittade tabellen kan du klicka på listrutemenyn på den tabellen och sedan välja Redigera hittad tabell för att justera hörnen på den hittade tabellen (den övre vänstra och nedre högra cellen i tabellen).
När du har erhållit de data du vill arbeta med kan du tillämpa eventuella ytterligare rensningsåtgärder på dina data för att sedan kunna analysera dem.
Exempel på datatolk
I följande exempel ansluter vi till ett Excel-kalkylblad med data om våldsbrott per stad och län för år 2016. Det här kalkylbladet innehåller flera olika tabeller på ett ark och lite extra formatering.
Titel
Sammanslagna rubrikceller
Extra vitt utrymme
Undertabeller
Den extra formateringen i det här kalkylbladet gör det svårt för Tableau att fastställa vad fältrubrikerna och värdena är.
Tableau läser istället data vertikalt och tilldelar varje kolumn standardvärdet F1, F2, F3 (Fält 1, Fält 2, Fält 3) och så vidare. Tomma celler läses som null-värden.
Välj Använd datatolken för att se om datatolken kan hjälpa till att rensa den här datauppsättningen.
Data Interpreter detekterade de korrekta rubrikerna för fälten, tog bort den extra formateringen och hittade flera undertabeller. Undertabellerna listas i avsnittet Kalkylblad i rutan Data och är namngivna med det ursprungliga namnet på kalkylarken och cellintervallen för varje undertabell.
I det här exemplet finns tre undertabeller: Brott 2016 A4:H84, Brott 2016 K5:L40 och Brott 2016 O5:P56.
För att undersöka resultaten från datatolken närmare kan du klicka på länken Granska resultaten i rutan Data för att se en kommenterad kopia av kalkylbladet.
Här syns en kopia av originaldata som är färgkodade för att identifiera vilka data som identifierades som rubrikdata och vilka data som identifierades som fältvärden.
Nästa flik visar oss de undertabeller som datatolken hittade och som är framhävda per cellintervallen.
I det här exemplet har den första undertabellen, Brott 2016 A4:H84 de huvuddata vi vill arbeta med. För att använda den här tabellen som din datatabell kan du helt enkelt dra den ursprungliga tabellen till utanför arbetsytan och sedan dra den nya tabellen till arbetsytan.
När du väl har de data du vill arbeta med inom arbetsytan kan ytterligare rensning göras av datan. Du kan till exempel:
Ändra fältnamnen så att de representerar namn på städer, län och månader.
Markera fälten månader.
Dra in den tredje undertabellen Brott 2016 o5:P56 och koppla den till vår första undertabell på fältet Län för att inkludera länets befolkning för vår analys.
Dölj alla dubbletter av fält som har lagts till som ett resultat av kopplingen.
Resultaten kan se ut ungefär så här:
Nu är du redo att börja analysera data i Tableau.
När datatolk inte är tillgänglig
Datatolken kanske inte är tillgänglig som alternativ av följande skäl:
Datakällan är redan formaterad på ett sätt som Tableau kan tolka: Om Tableau Desktop inte behöver extra hjälp från datatolken för att hantera unik formatering eller okänd information är den inte tillgänglig som alternativ.
Många rader eller många kolumner: Datatolken är inte tillgänglig som alternativ när dina data har följande attribut:
Data innehåller mer än 2000 kolumner.
Data innehåller mer än 3000 rader och mer än 150 kolumner.
Datakällan stöds inte: Datatolken är endast tillgänglig för Microsoft Excel, textfiler (.csv), PDF-filer och Google Kalkylark. För Excel måste dina data vara i formatet .xls eller .xlsx.