Typer av förklaringar i Förklara data
Varje gång du väljer en ny markering i en visualisering eller på en instrumentpanel och kör Förklara data så körs en ny statistisk analys baserat på den markeringen och underliggande data i arbetsboken. Möjliga förklaringar visas i expanderbara avsnitt i rutan Dataguide. Information om hur Förklara data analyserar och utvärderar förklaringar finns i Så fungerar Förklara data.
Utforska underliggande värden
Den här delen innehåller en lista med förklaringar för alla mätvärden som kan förklaras (kallade målmätvärden). Förklaringarna som visas här beskriver en relation med de värden i målmätvärdet som testas med den analyserade markeringen. Använd din erfarenhet och det du vet om dina data för att avgöra om relationerna som identifieras av Förklara data är meningsfulla och om det är värt att utforska dem.
Underliggande egenskaper
Dessa förklaringar beskriver hur underliggande poster till markeringarna i vyn antas bidra till det aggregerade värdet för det mätvärde som förklaras. Extrema värden, null-värden, antal poster och genomsnittligt värde är några exempel på attribut för markeringar.
Obs! Mer information om definitioner av vanliga termer som används i förklaringar finns i Termer och begrepp i förklaringar(Länken öppnas i ett nytt fönster).
Extrema värden
Den här typen av förklaring anger om en eller flera poster innehåller värden som är betydligt högre eller lägre än övriga poster. Om förklaringen har stöd i en modell indikerar den att extremvärdet påverkar målmätvärdet för den analyserade markeringen.
Om en markering har extremvärden betyder det inte nödvändigtvis att den har avvikande värden eller att du bör utesluta dessa poster från vyn. Det är upp till dig och beror på analysen. Förklaringen gör dig bara uppmärksam på ett extremvärde i markeringen. Till exempel skulle analysen kunna avslöja ett felskrivet värde i en post, där en banan kostar 10 dollar i stället för 10 cent. Eller så skulle den kunna avslöja att en viss försäljare har haft ett mycket lyckat kvartal.
Obs! Förklaringen måste aktiveras av utvecklaren för att synas i visningsläge i en publicerad arbetsbok. Mer information finns i Kontrollera åtkomst till Förklara data.
Den här förklaringen visar följande:
Utforskningsalternativ:
Nästa steg för analys:
| I det här exemplet kan ett enskilt extremvärde på 463 timmars uthyrning förklara den högre än förväntade totala uthyrningstiden på 613 timmar. En möjlig orsak till det höga värdet är att någon glömt att ställa tillbaka cykeln i stället när de lämnade tillbaka den. I så fall kan det vara bäst att utelämna detta värde för framtida analyser.
| |
Visualisera skillnadenDet här avsnittet illustrerar följande:
Utforskningsalternativ:
Nästa steg för analys:
| När extremvärdet på 483 timmar utelämnas i det här exemplet är värdet för den analyserade markeringen inte längre stor jämfört med övriga markeringar i vyn. Nu sticker andra markeringar ut. Det kan vara bra att utforska de andra markeringarna för att förstå varför antalet uthyrningstimmar är högre på dessa andra platser. |
Null-värden
Förklaringstypen Null-värden pekar på situationer då mängden data som saknas i en markering är högre än väntat. Den indikerar hur stor del av målmätvärdena som är null och hur null-värdena kan antas bidra till mätvärdets aggregerade värde.
Den här förklaringen visar följande:
Utforskningsalternativ:
Nästa steg för analys:
| I det här exemplet visas procentandelen null-värden i målmätvärdet som en blå cirkel. |
Antal poster
Den här förklaringstypen beskriver när antalet underliggande poster korrelerar med summan. En relation identifierades mellan antalet poster som aggregeras i en markering och markeringens faktiska värde.
Detta kan tyckas uppenbart, men med den här förklaringstypen kan du se om markeringens värde påverkas av storleken på värdena i de underliggande posterna eller snarare av antalet poster i den analyserade markeringen.
Den här förklaringen visar följande:
Utforskningsalternativ:
Nästa steg för analys:
| I det här exemplet visas antalet poster för Trip Distance (Cykelsträcka) för varje värde i Ride Month (Cykelmånad), som är en dimension i den ursprungliga visualiseringen. Augusti visar högst värdet för total cykelsträcka. Du kan ta reda på om augusti har högst värde för cykelsträcka eftersom antalet cykelturer var fler i augusti, eller om det beror på att vissa turer var längre. |
Genomsnittligt värde för markering
Den här förklaringstypen beskriver när det genomsnittliga värdet för ett mätvärde korrelerar med summan. Jämför och se om det genomsnittliga värdet är högt eller lågt, eller om antalet poster är högt eller lågt.
Den här förklaringen visar följande:
Utforskningsalternativ:
Nästa steg för analys:
| I det här exemplet är den genomsnittliga cykelsträckan i augusti inte signifikant högre eller lägre än övriga månader. Det tyder på att cykelsträckan är högre i augusti eftersom antalet resor var fler i augusti, inte eftersom cyklisterna cyklade längre. |
Bidragande enskilt värde
Använd den här förklaringen för att förstå sammansättningen av de postvärden som tillsammans bildar den analyserade markeringen.
Den här förklaringstypen anger om ett enskilt värde i en dimension som inte visualiserats kan antas bidra till det aggregerade värdet för den analyserade markeringen. En dimension som inte har visualiserats är en dimension som finns i datakällan, men som för närvarande inte används i vyn.
Den här förklaringen visar när alla underliggande poster i en dimension har samma värde, eller när ett dimensionsvärde sticker ut på grund av att många eller få av posterna har samma enskilda värde för den analyserade markeringen.
Obs! Mer information om definitioner av vanliga termer som används i förklaringar finns i Termer och begrepp i förklaringar(Länken öppnas i ett nytt fönster).
Den här förklaringen visar följande:
Utforskningsalternativ:
Nästa steg för analys:
| I det här exemplet visar den statistiska analysen att många av cykelturerna har sitt ursprung i stationsområdet Back Bay. Observera att Station Neighborhood (Stationsområde) är en dimension som inte visualiserats, som har viss relation till Trip Distance (Cykelsträcka) i källvisualiseringens underliggande data. |
De största bidragsfaktorerna
Använd den här förklaringen för att se de värden som utgör den största delen av den analyserade markeringen.
För en COUNT-aggregering visar de största bidragsfaktorerna dimensionsvärden med flest poster. För SUM visar den här förklaringen dimensionsvärden med den största delsumman.
Bidragande dimensioner
Använd den här förklaringen för att förstå sammansättningen av de postvärden som tillsammans bildar den analyserade markeringen.
Den här förklaringstypen visar att fördelningen av en dimension som inte visualiserats kan antas bidra till det aggregerade värdet för den analyserade markeringen. Den här förklaringstypen används för summor, antal och genomsnittliga värden för målmätvärden. En dimension som inte har visualiserats är en dimension som finns i datakällan, men som för närvarande inte används i vyn.
Obs! Mer information om definitioner av vanliga termer som används i förklaringar finns i Termer och begrepp i förklaringar(Länken öppnas i ett nytt fönster).
Den här förklaringen visar följande:
Utforskningsalternativ:
Nästa steg för analys:
| I det här exemplet visar den statistiska analysen att fler cykelturer gjordes från South Station och MIT och färre resor från Charles Circle och Kendall, jämfört med övriga cykelturer för markeringarna totalt sett. Observera att Station Name (Stationens namn) är en dimension som inte visualiserats, som har viss relation till Trip Distance (Cykelsträcka) i källvisualiseringens underliggande data. |
Bidragande mätvärden
Den här förklaringstypen visar att genomsnittet av ett mätvärde som inte visualiserats kan antas bidra till det aggregerade värdet för den analyserade markeringen. Ett mätvärde som inte har visualiserats är ett mätvärde som finns i datakällan, men som för närvarande inte används i vyn.
Den här förklaringen kan exponera en linjär eller kvadratisk relation mellan mätvärdet som inte visualiserats och målmätvärdet.
Obs! Mer information om definitioner av vanliga termer som används i förklaringar finns i Termer och begrepp i förklaringar(Länken öppnas i ett nytt fönster).
Den här förklaringen visar följande:
Utforskningsalternativ:
Nästa steg för analys:
| I det här exemplet är en möjlig anledning till varför cykelsträckan är hög att den genomsnittliga totala uthyrningstiden också är hög. |
Andra saker att utforska
I den här delen visas olika orsaker som kan förklara varför den analyserade markeringen är unik eller sticker ut. Följande gäller för dessa förklaringar:
- De förklarar inte varför värdet i markeringen är vad det är.
- De är inte på något sätt relaterade till värdet för mätvärdena i källvisualiseringen.
- De tar inte hänsyn till målmätvärden.
Andra relevanta dimensioner
Använd den här förklaringen för att förstå sammansättningen av de postvärden som tillsammans bildar den analyserade markeringen.
Fördelningen i en dimension som inte visualiserats i den analyserade markeringen är avvikande jämfört med distributionen av värden för alla andra markeringar i vyn. En dimension som inte har visualiserats är en dimension som finns i datakällan, men som för närvarande inte används i vyn.
Obs! Mer information om definitioner av vanliga termer som används i förklaringar finns i Termer och begrepp i förklaringar(Länken öppnas i ett nytt fönster).
Den här förklaringen visar följande:
Utforskningsalternativ:
Nästa steg för analys:
| I det här exemplet associeras en hög procentandel poster med mulet väder. Eftersom informationen rör cykeluthyrning i Boston, och den analyserade markeringen är Trip Distance (Cykelsträcka) i augusti, kan vi anta att det är varmt och fuktigt väder. Kanske hyrde fler personer cyklar när det var mulet för att undvika värmen. Det är också möjligt att det var mulet fler dagar i augusti. |