Typer av förklaringar i Förklara data

Varje gång du väljer en ny markering i en visualisering eller på en instrumentpanel och kör Förklara data så körs en ny statistisk analys baserat på den markeringen och underliggande data i arbetsboken. Möjliga förklaringar visas i expanderbara avsnitt i rutan Dataguide. Information om hur Förklara data analyserar och utvärderar förklaringar finns i Så fungerar Förklara data.

Utforska underliggande värden

Den här delen innehåller en lista med förklaringar för alla mätvärden som kan förklaras (kallade målmätvärden). Förklaringarna som visas här beskriver en relation med de värden i målmätvärdet som testas med den analyserade markeringen. Använd din erfarenhet och det du vet om dina data för att avgöra om relationerna som identifieras av Förklara data är meningsfulla och om det är värt att utforska dem.

I det här exemplet är målmätvärdet Trip Distance (Cykelsträcka).

Underliggande egenskaper

Dessa förklaringar beskriver hur underliggande poster till markeringarna i vyn antas bidra till det aggregerade värdet för det mätvärde som förklaras. Extrema värden, null-värden, antal poster och genomsnittligt värde är några exempel på attribut för markeringar.

Obs! Mer information om definitioner av vanliga termer som används i förklaringar finns i Termer och begrepp i förklaringar(Länken öppnas i ett nytt fönster).

Extrema värden

Den här typen av förklaring anger om en eller flera poster innehåller värden som är betydligt högre eller lägre än övriga poster. Om förklaringen har stöd i en modell indikerar den att extremvärdet påverkar målmätvärdet för den analyserade markeringen.

Om en markering har extremvärden betyder det inte nödvändigtvis att den har avvikande värden eller att du bör utesluta dessa poster från vyn. Det är upp till dig och beror på analysen. Förklaringen gör dig bara uppmärksam på ett extremvärde i markeringen. Till exempel skulle analysen kunna avslöja ett felskrivet värde i en post, där en banan kostar 10 dollar i stället för 10 cent. Eller så skulle den kunna avslöja att en viss försäljare har haft ett mycket lyckat kvartal.

Obs! Förklaringen måste aktiveras av utvecklaren för att synas i visningsläge i en publicerad arbetsbok. Mer information finns i Kontrollera åtkomst till Förklara data.

Den här förklaringen visar följande:

  • Antalet underliggande poster i den analyserade markeringen.
  • Det eller de extremvärden som bidrar till målmätvärdet.
  • Hur värdena är fördelade i markeringen.
  • Postdetaljerna för respektive distributionsvärde.

Utforskningsalternativ:

  • Hovra över en cirkel i diagrammet för att visa dess värde.
  • Klicka på vänster eller höger pil under listan med detaljer för att gå igenom postdetaljerna.
  • Klicka på Visa fullständiga data om alternativet är tillgängligt och klicka sedan på fliken Fullständiga data för att visa alla poster i en tabell.
  • Klicka på ikonen Öppna för att se en större version av visualiseringen.

Nästa steg för analys:

  • Om det finns få poster utforskar du dessa värden och jämför dem med extremvärdet.
  • Om extremvärdet är betydligt högre eller lägre än andra postvärden utelämnar du det och ser hur det påverkar värdet för den analyserade markeringen.
  • När du tittar på data med och utan extremvärdet bör du se det som en möjlighet att tillämpa dina praktiska kunskaper om data.

 

I det här exemplet kan ett enskilt extremvärde på 463 timmars uthyrning förklara den högre än förväntade totala uthyrningstiden på 613 timmar.

En möjlig orsak till det höga värdet är att någon glömt att ställa tillbaka cykeln i stället när de lämnade tillbaka den. I så fall kan det vara bäst att utelämna detta värde för framtida analyser.

 

Visualisera skillnaden

Det här avsnittet illustrerar följande:

  • Hur värdet för den analyserade markeringen ändras när extremvärdet utelämnas.

 

 

 

 

 

 

 

Utforskningsalternativ:

  • Klicka på ikonen Öppna för att se en större version av visualiseringen.
  • Utforska skillnaden när extremvärdet (eller extremvärdena) tas med eller utesluts.
  • Utvecklare kan öppna vyn som ett nytt blad och tillämpa ett filter för att utesluta extremvärdet.

Nästa steg för analys:

  • Om extremvärdet är betydligt högre eller lägre än andra postvärden utelämnar du det och ser hur det påverkar värdet för den analyserade markeringen.
  • När du tittar på data med och utan extremvärdet bör du se det som en möjlighet att tillämpa dina praktiska kunskaper om data.
 

När extremvärdet på 483 timmar utelämnas i det här exemplet är värdet för den analyserade markeringen inte längre stor jämfört med övriga markeringar i vyn. Nu sticker andra markeringar ut. Det kan vara bra att utforska de andra markeringarna för att förstå varför antalet uthyrningstimmar är högre på dessa andra platser.

Null-värden

Förklaringstypen Null-värden pekar på situationer då mängden data som saknas i en markering är högre än väntat. Den indikerar hur stor del av målmätvärdena som är null och hur null-värdena kan antas bidra till mätvärdets aggregerade värde.

Den här förklaringen visar följande:

  • Hur stor procentandel av värdena som är null i målmätvärdet för den analyserade markeringen (blå cirkel).

Utforskningsalternativ:

  • Hovra över cirklarna i punktdiagrammet för att visa mer information.
  • Rulla för att se mer av diagrammet.
  • Klicka på ikonen Öppna för att se en större version av visualiseringen.

Nästa steg för analys:

  • Om du vill kan du utelämna null-värden i markeringen för vidare analys.
 

I det här exemplet visas procentandelen null-värden i målmätvärdet som en blå cirkel.

Antal poster

Den här förklaringstypen beskriver när antalet underliggande poster korrelerar med summan. En relation identifierades mellan antalet poster som aggregeras i en markering och markeringens faktiska värde.

Detta kan tyckas uppenbart, men med den här förklaringstypen kan du se om markeringens värde påverkas av storleken på värdena i de underliggande posterna eller snarare av antalet poster i den analyserade markeringen.

Den här förklaringen visar följande:

  • Antalet poster i målmätvärdet för den analyserade markeringen (mörkblå stapel).
  • Antalet poster i målmätvärdet för andra markeringar i källvisualiseringen (ljusblå stapel).

Utforskningsalternativ:

  • Hovra över ett fält för att se mer information.
  • Rulla för att se mer av diagrammet.
  • Klicka på ikonen Öppna för att se en större version av visualiseringen.

Nästa steg för analys:

  • Se om de enskilda värdena i posterna är höga eller låga, eller om den analyserade markeringen innehåller många eller få poster.
  • Om antalet poster är större än väntat kan du behöva normalisera data.
 

I det här exemplet visas antalet poster för Trip Distance (Cykelsträcka) för varje värde i Ride Month (Cykelmånad), som är en dimension i den ursprungliga visualiseringen. Augusti visar högst värdet för total cykelsträcka.

Du kan ta reda på om augusti har högst värde för cykelsträcka eftersom antalet cykelturer var fler i augusti, eller om det beror på att vissa turer var längre.

Genomsnittligt värde för markering

Den här förklaringstypen beskriver när det genomsnittliga värdet för ett mätvärde korrelerar med summan. Jämför och se om det genomsnittliga värdet är högt eller lågt, eller om antalet poster är högt eller lågt.

Den här förklaringen visar följande:

  • Genomsnittet av målmätvärdet för varje värde i en dimension som används i källvisualiseringen.

Utforskningsalternativ:

  • Hovra över ett fält för att se mer information.
  • Rulla för att se mer av diagrammet.
  • Klicka på ikonen Öppna för att se en större version av visualiseringen.

Nästa steg för analys:

  • Jämför och se om det genomsnittliga värdet är högt eller lågt, eller om antalet poster är högt eller lågt. Du kan till exempel ta reda på om en hög vinst beror på att du sålt många varor eller på att du sålt dyra varor?
  • Försök att förstå varför den analyserade markeringen har ett mycket högre eller lägre genomsnittligt värde.

 

 

I det här exemplet är den genomsnittliga cykelsträckan i augusti inte signifikant högre eller lägre än övriga månader. Det tyder på att cykelsträckan är högre i augusti eftersom antalet resor var fler i augusti, inte eftersom cyklisterna cyklade längre.

 

Bidragande enskilt värde

Använd den här förklaringen för att förstå sammansättningen av de postvärden som tillsammans bildar den analyserade markeringen.

Den här förklaringstypen anger om ett enskilt värde i en dimension som inte visualiserats kan antas bidra till det aggregerade värdet för den analyserade markeringen. En dimension som inte har visualiserats är en dimension som finns i datakällan, men som för närvarande inte används i vyn.

Den här förklaringen visar när alla underliggande poster i en dimension har samma värde, eller när ett dimensionsvärde sticker ut på grund av att många eller få av posterna har samma enskilda värde för den analyserade markeringen.

Obs! Mer information om definitioner av vanliga termer som används i förklaringar finns i Termer och begrepp i förklaringar(Länken öppnas i ett nytt fönster).

Den här förklaringen visar följande:
  • Andelen poster i procent för ett enskilt värde i en dimension för den analyserade markeringen (blå stapel) jämfört med alla markeringar (grå stapel) i källvisualiseringen.
  • Andelen poster i procent för alla andra värden i en dimension för den analyserade markeringen (blå stapel) jämfört med alla markeringar (grå stapel) i källvisualiseringen.
  • Genomsnittet av målmätvärdet för det enskilda värdet i en dimension för den analyserade markeringen (blå stapel) jämfört med alla markeringar (grå stapel).
  • Genomsnittet av målmätvärdet för alla andra värden i en dimension för den analyserade markeringen (blå stapel) jämfört med alla markeringar (grå stapel) i källvisualiseringen.

Utforskningsalternativ:

  • Hovra över ett fält för att se mer information.
  • Klicka på ikonen Öppna för att se en större version av visualiseringen.

Nästa steg för analys:

  • Använd den här förklaringen för att förstå sammansättningen av de postvärden som tillsammans bildar den analyserade markeringen.
  • Utvecklare kan vilja skapa en ny visualisering för att utforska dimensioner som inte visualiserats, som exponeras i förklaringen.
 

I det här exemplet visar den statistiska analysen att många av cykelturerna har sitt ursprung i stationsområdet Back Bay. Observera att Station Neighborhood (Stationsområde) är en dimension som inte visualiserats, som har viss relation till Trip Distance (Cykelsträcka) i källvisualiseringens underliggande data.

 

De största bidragsfaktorerna

Använd den här förklaringen för att se de värden som utgör den största delen av den analyserade markeringen.

För en COUNT-aggregering visar de största bidragsfaktorerna dimensionsvärden med flest poster. För SUM visar den här förklaringen dimensionsvärden med den största delsumman.

 

Bidragande dimensioner

Använd den här förklaringen för att förstå sammansättningen av de postvärden som tillsammans bildar den analyserade markeringen.

Den här förklaringstypen visar att fördelningen av en dimension som inte visualiserats kan antas bidra till det aggregerade värdet för den analyserade markeringen. Den här förklaringstypen används för summor, antal och genomsnittliga värden för målmätvärden. En dimension som inte har visualiserats är en dimension som finns i datakällan, men som för närvarande inte används i vyn.

Obs! Mer information om definitioner av vanliga termer som används i förklaringar finns i Termer och begrepp i förklaringar(Länken öppnas i ett nytt fönster).

Den här förklaringen visar följande:
  • Procent av antalet poster för alla värden i en dimension för den analyserade markeringen (blått fält) jämfört med alla värden i en dimension för alla markeringar (grått fält) i källvisualiseringen.
  • Genomsnittet av målmätvärdet för alla värden i en dimension för den analyserade markeringen (blå stapel) jämfört med alla värden i en dimension för alla markeringar (grå stapel).

Utforskningsalternativ:

  • Hovra över ett fält för att se mer information.
  • Rulla för att se mer av diagrammet.
  • Klicka på ikonen Öppna för att se en större version av visualiseringen.

Nästa steg för analys:

  • Använd den här förklaringen för att förstå sammansättningen av de postvärden som tillsammans bildar den analyserade markeringen.
  • Utvecklare kan vilja skapa en ny visualisering för att utforska dimensioner som inte visualiserats, som exponeras i förklaringen.
 

I det här exemplet visar den statistiska analysen att fler cykelturer gjordes från South Station och MIT och färre resor från Charles Circle och Kendall, jämfört med övriga cykelturer för markeringarna totalt sett.

Observera att Station Name (Stationens namn) är en dimension som inte visualiserats, som har viss relation till Trip Distance (Cykelsträcka) i källvisualiseringens underliggande data.

 

Bidragande mätvärden

Den här förklaringstypen visar att genomsnittet av ett mätvärde som inte visualiserats kan antas bidra till det aggregerade värdet för den analyserade markeringen. Ett mätvärde som inte har visualiserats är ett mätvärde som finns i datakällan, men som för närvarande inte används i vyn.

Den här förklaringen kan exponera en linjär eller kvadratisk relation mellan mätvärdet som inte visualiserats och målmätvärdet.

Obs! Mer information om definitioner av vanliga termer som används i förklaringar finns i Termer och begrepp i förklaringar(Länken öppnas i ett nytt fönster).

Den här förklaringen visar följande:
  • Relationen mellan summan av målmätvärdet och genomsnittet av ett mätvärde som inte visualiserats för den analyserade markeringen (blå cirkel) och alla markeringar (grå cirklar) i vyn.
  • Om summan av målmätvärdet är högt eller lågt på grund av att genomsnittet av mätvärdet som inte visualiserats är högt eller lågt.

Utforskningsalternativ:

  • Hovra över varje cirkel för att visa mer information.
  • Klicka på ikonen Öppna för att se en större version av visualiseringen.

Nästa steg för analys:

  • Utvecklare kan vilja skapa en ny visualisering för att utforska mätvärden som inte visualiserats, som exponeras i förklaringen.
 

I det här exemplet är en möjlig anledning till varför cykelsträckan är hög att den genomsnittliga totala uthyrningstiden också är hög.

Andra saker att utforska

I den här delen visas olika orsaker som kan förklara varför den analyserade markeringen är unik eller sticker ut. Följande gäller för dessa förklaringar:

  • De förklarar inte varför värdet i markeringen är vad det är.
  • De är inte på något sätt relaterade till värdet för mätvärdena i källvisualiseringen.
  • De tar inte hänsyn till målmätvärden.

Andra relevanta dimensioner

Använd den här förklaringen för att förstå sammansättningen av de postvärden som tillsammans bildar den analyserade markeringen.

Fördelningen i en dimension som inte visualiserats i den analyserade markeringen är avvikande jämfört med distributionen av värden för alla andra markeringar i vyn. En dimension som inte har visualiserats är en dimension som finns i datakällan, men som för närvarande inte används i vyn.

Obs! Mer information om definitioner av vanliga termer som används i förklaringar finns i Termer och begrepp i förklaringar(Länken öppnas i ett nytt fönster).

Den här förklaringen visar följande:
  • Procent av antalet poster för alla värden i en dimension för den analyserade markeringen (blått fält) jämfört med alla värden i en dimension för alla markeringar (grått fält) i källvisualiseringen.

Utforskningsalternativ:

  • Hovra över ett fält för att se mer information.
  • Rulla för att se mer av diagrammet.
  • Klicka på ikonen Öppna för att se en större version av visualiseringen.

Nästa steg för analys:

  • Använd den här förklaringen för att förstå sammansättningen av de postvärden som tillsammans bildar den analyserade markeringen.
  • Utvecklare kan vilja skapa en ny visualisering för att utforska dimensioner som inte visualiserats, som exponeras i förklaringen.
 

I det här exemplet associeras en hög procentandel poster med mulet väder. Eftersom informationen rör cykeluthyrning i Boston, och den analyserade markeringen är Trip Distance (Cykelsträcka) i augusti, kan vi anta att det är varmt och fuktigt väder. Kanske hyrde fler personer cyklar när det var mulet för att undvika värmen. Det är också möjligt att det var mulet fler dagar i augusti.

 

Tack för din feedback!Din feedback har skickats in. Tack!