Så fungerar Förklara data
Använd Förklara data som en inkrementell startpunkt för ytterligare utforskning av dina data. De möjliga förklaringar som den här funktionen genererar hjälper dig att se de olika värden som utgör eller relaterar till en analyserad markering i en vy. Den kan berätta om egenskaperna hos datapunkterna i datakällan, och hur data kan relateras (korrelationer) med hjälp av statistisk modellering. Dessa förklaringar ger dig ett ytterligare verktyg för att inspektera dina data och hitta intressanta ledtrådar om vad du ska utforska härnäst.
Obs! Förklara data är ett verktyg som avslöjar och beskriver relationer i data. Det kan inte förklara var det är som orsakar relationerna eller hur du ska tolka data. Det är du som är experten på dina data. Din domänkunskap och intuition är nyckeln till att hjälpa dig att bestämma vilka egenskaper som kan vara intressanta att utforska ytterligare med hjälp av olika vyer.
För relaterad information om hur Förklara data fungerar och hur du använder Förklara data för att utöka din analys, se följande Tableau-konferenspresentationer:
Vad är Förklara data (och vad är det inte)
Förklara data är:
- Ett verktyg och ett arbetsflöde som utnyttjar din domänexpertis.
- Ett verktyg som visar relationer i dina data och rekommenderar var du ska leta härnäst.
- Ett verktyg och ett arbetsflöde som underlättar dataanalys och gör dataanalysen mer tillgänglig för ett bredare spektrum av användare.
Förklara data är inte:
- Ett statistiskt testverktyg.
- Ett verktyg för att bevisa eller motbevisa hypoteser.
- Ett verktyg som ger dig ett svar eller berättar något om orsakssamband i dina data.
När du kör Förklara data på markeringar ska du tänka på följande punkter:
Använd granulära data som kan aggregeras. Denna funktion är uttryckligen utformad för analys av aggregerade data. Detta innebär att dina data måste vara detaljerade, men de markeringar som du väljer för Förklara data måste aggregeras eller sammanfattas på en högre detaljnivå. Förklara att data inte kan köras på uppdelade markeringar (radnivådata) på den mest detaljerade detaljnivån.
Tänk på formen, storleken och kardinaliteten hos dina data. Förklara Data kan användas med mindre datauppsättningar, men det krävs data som är tillräckligt breda och innehåller tillräckligt med markeringar (granularitet) för att kunna skapa en modell.
Förutsätt inte kausalitet. Korrelation är inte samma sak som orsakssamband. Förklaringar är baserade på modeller av datan, men är inte kausala förklaringar.
En korrelation innebär att det finns ett samband mellan vissa datavariabler, till exempel A och B. Man kan inte avgöra bara genom att se det sambandet i data att A orsakar B, eller att B orsakar A, eller huruvida något mer komplicerat faktiskt pågår. Datamönstren är exakt desamma i vart och ett av dessa fall och en algoritm kan inte skilja på respektive fall. Bara för att två variabler verkar förändras tillsammans betyder det inte nödvändigtvis att den ena orsakar den andra att förändras. En tredje faktor kan få de båda att förändras, eller också kan det hela vara en tillfällighet och det kanske inte alls finns något orsakssamband.
Du kanske emellertid har extern kunskap som inte finns i datan men som hjälper dig att identifiera vad som händer. En vanlig typ av extern kunskap skulle kunna vara en situation där data samlats in i ett experiment. Om du vet att B valdes genom att singla slant måste varje konsekvent mönster av skillnad i A (som inte bara är slumpmässigt) orsakas av B. För en längre, mer ingående beskrivning av dessa begrepp, se artikeln Kausal slutledning inom ekonomi och marknadsföring(Länken öppnas i ett nytt fönster) av Hal Varian.
Hur förklaringar analyseras och utvärderas
Förklara data kör en statistisk analys på en instrumentpanel eller ett blad för att hitta utstickande markeringar, eller specifikt på en markering du väljer. Analysen tar också hänsyn till eventuellt relaterade datapunkter från datakällan som inte är representerade i den aktuella vyn.
Förklara Data förutspår först värdet för en markering med hjälp av endast de data som finns i visualiseringen. Därefter beaktas data som finns i datakällan (men inte i den aktuella vyn) och läggs till i modellen. Modellen bestämmer intervallet av förutspådda markeringsvärden, vilket ligger inom en standardavvikelse från det förutspådda värdet.
Vad är ett förväntat intervall?
Det förväntade värdet för en markering är medianvärdet i det förväntade värdeintervallet i underliggande data i visualiseringen. Det förväntade intervallet är värdeintervallet mellan den 15:e och 85:e percentilen som den statistiska modellen förutser för den analyserade markeringen. Tableau fastställer det förväntade intervallet varje gång det kör en statistisk analys på en vald markering.
Möjliga förklaringar utvärderas med hjälp av statistisk modellering. För varje förklaring jämför Tableau det förväntade värdet med det faktiska värdet.
värde | Beskrivning |
---|---|
Högre än förväntat / lägre än förväntat | Om en sammanfattning av förväntat värde säger att markeringen är lägre än väntat eller högre än väntat, innebär det att det aggregerade markeringsvärdet ligger utanför det värdeintervall som en statistisk modell förutser för markeringen. Om en sammanfattning av förväntat värde säger att markeringen är något lägre eller något högre än förväntat, eller inom intervallet för naturlig variation, betyder det att det aggregerade markeringsvärdet ligger inom intervallet för förutsedda markeringsvärden, men är lägre eller högre än medianvärdet. |
Förväntat värde | Om en markering har ett förväntat värde betyder det att dess värde ligger inom det förväntade värdeintervall som en statistisk modell förutsäger för markeringen. |
Slumpmässig variation | När den analyserade markeringen har ett lågt antal poster kan det hända att det inte finns tillräckligt med data för att Förklara data ska kunna ge en statistiskt signifikant förklaring. Om markeringens värde ligger utanför det förväntade intervallet kan Förklara data inte avgöra om detta oväntade värde orsakas av slumpmässig variation eller av en meningsfull skillnad i de underliggande posterna. |
Ingen förklaring | När det analyserade markeringsvärdet ligger utanför det förväntade intervallet och inte passar in i en statistisk modell som används för Förklara data, genereras inga förklaringar. |
Modeller som används för analys
Förklara Data bygger modeller av data i en vy för att förutsäga värdet av en markering, och bestämmer sedan om en markering är högre eller lägre än förväntat med tanke på modellen. Därefter betraktas ytterligare information, som att lägga till ytterligare kolumner från datakällan i vyn, eller flagga postnivåavvikelser, som potentiella förklaringar. För varje potentiell förklaring passar Förklara data in en ny modell och utvärderar hur oväntat markeringen erhåller den nya informationen. Förklaringar poängsätts genom att avräkna komplexitet (hur mycket information som läggs till från datakällan) mot mängden variabilitet som behöver förklaras. Bättre förklaringar är enklare än den variation de förklarar.
Typ av förklaring | Utvärdering |
---|---|
Extrema värden | Extrema värden är aggregerade markeringar som är avvikare, baserat på en modell av de synliga markeringarna. Den valda markeringen anses innehålla ett extremvärde om ett postvärde finns i slutet av fördelningen av de förväntade värdena för datan. Ett extremvärde bestäms genom att jämföra aggregeringsmarkeringen med och utan extremvärdet. Om markeringen blir mindre överraskande genom att ta bort ett värde får det högre poäng. När en markering har extrema värden betyder det inte automatiskt att det har avvikande värden, eller att du bör utesluta dessa poster från vyn. Det är upp till dig och beror på analysen. Förklaringen är helt enkelt att peka ut ett intressant extremvärde i markeringen. Till exempel skulle analysen kunna avslöja ett felskrivet värde i en post, där en banan kostar 10 dollar i stället för 10 cent. Eller så skulle den kunna avslöja att en viss försäljare har haft ett mycket lyckat kvartal. |
Antal poster | Antalet postförklaringar framställer den aggregerade summan i form av den aggregerade räkningen; postmedelvärdet framställer den i form av det aggregerade genomsnittet. Ju bättre modellen förklarar summan, desto högre poäng. I den här förklaringen beskrivs huruvida summan är intressant på grund av att antalet är högt eller lågt, eller på grund av att genomsnittet är högt eller lågt. |
Genomsnittligt värde för markeringen | Denna typ av förklaring används för samlade markeringar som är summor. Den förklarar om markeringen är förenlig med de andra markeringarna eftersom på grund av dess sammanlagda antal eller genomsnitt, samt noterar relationen SUMMAN(X) = RÄKNA(X) * AVG(X). I den här förklaringen beskrivs huruvida summan är intressant på grund av att antalet är högt eller lågt, eller på grund av att genomsnittet är högt eller lågt. |
Bidragande dimensioner | Denna förklaring modellerar målmätvärdet för den analyserade markeringen när det gäller fördelningen mellan kategorierna hos den osynliga dimensionen. Analysen balanserar modellens komplexitet med hur väl markeringen förklaras. En dimension som inte har visualiserats är en dimension som finns i datakällan, men som för närvarande inte används i vyn. Denna typ av förklaring används för summor, antal och genomsnitt. Modellen för osynliga dimensioner skapas genom att dela upp markeringar enligt de kategoriska värdena i den förklarande kolumnen, och sedan bygga en modell med det värde som inkluderar alla datapunkter i källvisualiseringen. För varje enskild rad försöker modellen återvinna var och en av de enskilda komponenter som utgjorde respektive markering. Analysen visar om modellen förutspår markeringen bättre när komponenter som motsvarar den osynliga dimensionen modelleras och sedan adderas, jämfört med att använda en modell där värdena för den osynliga dimensionen inte är kända. Aggregerade dimensionsförklaringar undersöker hur väl markeringsvärden kan förklaras utan villkor. Därefter anger modellen villkor för värden för respektive kolumn som är en potentiell förklaring. Att utgå från distributionen av en förklarande kolumn bör resultera i bättre förutsägelser. |
Bidragande mätvärden | Denna förklaring framställer markeringen enligt detta osynliga mätvärde, aggregerat till sitt medelvärde över de synliga dimensionerna. Ett mätvärde som inte har visualiserats är ett mätvärde som finns i datakällan, men som för närvarande inte används i vyn. En förklaring av bidragande mätvärden kan avslöja ett linjärt eller kvadratiskt förhållande mellan det osynliga mätvärdet och målmätvärdet. |