Lägga till trendlinjer i en visualisering
Du kan visa trendlinjer i en visualisering för att framhäva trender i dina data. Du kan publicera en vy som innehåller trendlinjer och du kan lägga till trendlinjer i en vy när du redigerar den på nätet.
När du lägger till trendlinjer i en vy kan du bestämma hur du vill att de ska se ut och bete sig.
Lägga till trendlinjer i en vy
Lägga till trendlinjer i en visualisering:
Välj rutan Analys.
Från rutan Analys drar du Trendlinje till vyn och släpper den på någon av modelltyperna Linjär, Logaritmisk, Exponentiell, Polynom eller Kraft.
Mer information om alla dessa modelltyper finns i Typer av trendlinjemodeller.
Om att lägga till trendlinjer (och när du inte kan lägga till dem)
För att lägga till trendlinjer i en vy måste båda axlar innehålla ett fält som kan tolkas som en siffra. Till exempel kan du inte lägga till en trendlinje i en vy som har dimensionen Produktkategori, som innehåller strängar, på hyllan Kolumner och mätvärdet Vinst på hyllan Rader. Du kan däremot lägga till en trendlinje i en vy över försäljning över tid eftersom både försäljning och tid kan tolkas som numeriska värden.
För flerdimensionella datakällor innehåller datumhierarkierna faktiskt strängar och inte siffror. Därför tillåts inte trendlinjer. Dessutom tillåts inte trendlinjer av datumformaten ”m/d/åå” och ”mmmm åååå” på alla datakällor.
Om trendlinjer är aktiverade och du ändrar vyn så att trendlinjer inte tillåts visas inte trendlinjerna. När du ändrar tillbaka till ett tillstånd som tillåter trendlinjer visas de igen.
I många fall staplar Tableau markeringar automatiskt. Trendlinjer kan dock inte aktiveras för staplar. Du kan inaktivera staplade markeringar genom att rensa alternativet Analys > Staplade markeringar.
Redigera en trendlinje
När du har lagt till en trendlinje i visualiseringen kan du redigera den så att den passar analysen.
Redigera en trendlinje:
I Tableau Desktop: Högerklicka på en trendlinje i visualiseringen och välj Redigera trendlinjer.
I webbredigeringsläge:
- I visualiseringen klickar du på trendlinjen och hovrar sedan över den med markören.
- I verktygstipset som visas väljer du Redigera för att öppna dialogrutan Alternativ för trendlinjer.
Obs! För att redigera en trendlinje i Tableau Cloud eller Tableau Server måste du ha webbredigeringsbehörighet.
Du kan konfigurera följande alternativ i dialogrutan Alternativ för trendlinjer:
Välj en modelltyp. Mer information finns i Typer av trendlinjemodeller.
Välj vilka fält som ska användas som faktorer i trendlinjemodellen. Mer information finns i Välj vilka fält som ska användas som faktorer i trendlinjemodellen.
- Bestäm om du vill utesluta färg med hjälp av alternativet Tillåt en trendlinje per färg. När du har färgkodningar i vyn kan du använda det här alternativet för att lägga till en enskild trendlinje som modellerar alla data och ignorerar färgkodningen.
Bestäm om du vill Visa konfidensband. Tableaus konfidensband visar de övre och nedre linjerna för 95 % konfidens som standard när du lägger till trendlinjer. Konfidenslinjer stöds inte för exponentiella modeller.
Välj om du vill Tvinga y-skärningspunkten till noll. Det här alternativet är användbart när du vet att du vill att trendlinjen ska börja på noll. Det här alternativet är endast tillgängligt när både hyllan Rader och hyllan Kolumner innehåller ett kontinuerligt fält, precis som i ett punktdiagram.
Bestäm om du vill visa omberäknade linjer när du markerar eller framhäver data i visualiseringen.
Välj vilka fält som ska användas som faktorer i trendlinjemodellen
För trendmodeller som tar flera fält i beaktande kan du eliminera specifika fält som faktorer i trendlinjemodellen.
Ofta är det bra att ta bort faktorer, då du vill att trendlinjemodellen ska baseras på hela raden i tabellen och inte vara uppdelad efter medlemmar eller värden i ett fält. Titta på följande exempel: I vyn nedan visas den månatliga försäljningen för olika produktkategorier, uppdelade efter region.
Du ser att en separat modell skapas för varje region.
Ta nu bort Region som en faktor i modellen genom att avmarkera den i dialogrutan Alternativ för trendlinjer.
Du ser att trendlinjemodellen i en kategori nu är samma för alla regioner. Detta gör att du kan jämföra den faktiska försäljningen med en trendlinje som är likadan för alla regioner.
Ta bort trendlinjer
Om du vill ta bort en trendlinje från en visualisering drar du bort den från visualiseringsområdet. Det går även bra att klicka på en trendlinje och välja Ta bort.
Om du vill ta bort alla trendlinjer från vyn väljer du Analys >Trendlinjer >Visa trendlinjer.
Obs! i Tableau Desktop bevaras alternativ för trendlinjer, så om du väljer Visa trendlinjer igen från menyn Analys har alternativen samma inställningar som senast. Om du stänger arbetsboken med trendlinjer inaktiverade återgår dock alternativen för trendlinjer till standardinställningarna.
Se en beskrivning av en trendlinje eller trendlinjemodell
När du har lagt till trendlinjer kan du visa statistik på trendlinjerna. Du kan till exempel se formeln samt R-kvadrat och p-värdet. Mer information om modelltyperna och termerna som används i beskrivningen finns i avsnitten Termer för trendlinjemodeller och Typer av trendlinjemodeller.
Se en beskrivning av en trendlinje:
- Hovra över någon del av en trendlinje för att se en beskrivning.
Endast Tableau Desktop
- Högerklicka på trendlinjen i visualiseringen och välj sedan Beskriv trendlinje.
Visa en fullständig beskrivning av modellen som används i den aktuella vyn:
- Högerklicka på trendlinjen i visualiseringen och välj sedan Beskriv trendmodell.
Typer av trendlinjemodeller
Följande modelltyper är tillgängliga för trendlinjer: Linjär, Logaritmisk, Exponentiell, Kraft och Polynom.
I följande formler representerar X den förklarande variabeln och Y svarsvariabeln.
Linjär
Med en linjär modelltyp är formeln:
Y = b0 + b1 * X
där b1
är lutningen och b0
är skärningspunkten på linjen.
Logaritmisk
Med en logaritmisk modelltyp är formeln:
Y = b0 + b1 * ln(X)
Eftersom en logaritmisk modell inte definieras för siffror under noll filtreras alla markeringar som den förklarande variabeln är negativ för bort innan modellen beräknas. Undvik att använda en modell som ignorerar vissa data, såvida inte du vet att de data som filtreras bort är ogiltiga. I beskrivningen av trendlinjen rapporteras hur många markeringar som filtrerades bort innan beräkningen av modellen.
Exponentiell
Med en exponentiell modelltyp är formeln:
Y = exp(b0)* exp(b1 * X)
Med en exponentiell modell omvandlas svarsvariabeln av den naturliga logaritmen före uppskattningen av modellen, så att markeringarna i vyn hittas genom att infoga olika förklarande värden och på så vis hitta värden för ln(Y)
.
ln(Y) = b0 + b1 * X
Dessa värden exponentieras därefter för att rita upp trendlinjen. Det du ser är den exponentiella modellen i följande form:
Y = b2*exp(b1 * X)
där b2
är värdet av exp(b0)
. Eftersom en logaritmisk modell inte definieras för siffror under noll filtreras alla markeringar som svarsvariabeln är negativ för bort innan modellen beräknas.
Kraft
Med en kraftmodelltyp är formeln:
Y = b0 * X^b1
Med en kraftmodell omvandlas båda variablerna av den naturliga logaritmen före uppskattningen av modellen, vilket resulterar i följande formel:
ln(Y) = ln(b0) + b1 * ln(X)
Dessa värden exponentieras därefter för att rita upp trendlinjen.
Eftersom en logaritmisk modell inte definieras för siffror under noll filtreras alla markeringar som svarsvariabeln eller den förklarande variabeln är negativ för bort innan modellen beräknas.
Polynom
Med en polynom modell omvandlas svarsvariabeln till en polynom serie i den angivna graden. Formeln är:
Y = b0 + b1 * X + b2 * X^2 + …
Med en polynom modell måste du även välja en Grad mellan 2 och 8. En högre polynom grad ökar skillnaden mellan datavärdena. Om dina data ökar väldigt snabbt kan det hända att de lägre graderna nästan inte har någon variation alls jämfört med de högre graderna, vilket innebär att det blir omöjligt att uppskatta modellen på ett korrekt sätt. Dessutom kräver mer komplicerade polynoma modeller av högre grad mer data att uppskatta. Gå igenom modellbeskrivningen för den enskilda trendlinjen och leta efter ett rött varningsmeddelande som indikerar att en korrekt modell av den här typen inte är möjlig.
Termer för trendlinjemodeller
När du visar beskrivningen för en trendlinjemodell anges flera värden. I det här avsnittet diskuteras innebörden av vart och ett av dessa värden.
Modellens formel
Det här är formeln för den fullständiga trendlinjemodellen. Formeln återspeglar om du har angett att vissa faktorer ska uteslutas från modellen.
Antalet modellerade observationer
Antalet rader som används i vyn.
Antalet filtrerade observationer
Antalet observationer som utesluts från modellen.
Modellens frihetsgrader
Antalet parametrar som krävs för att specificera modellen helt och hållet. Linjära, logaritmiska och exponentiella trender har en frihetsgrad på 2. Polynoma trender har en frihetsgrad på 1 plus den polynoma graden. Till exempel har en kubisk trend en frihetsgrad på 4 eftersom vi behöver parametrar för de kubiska, kvadratiska, linjära och konstanta termerna.
Resterande frihetsgrader
För en fast modell definieras det här värdet som antalet observationer minus antalet beräknade parametrar i modellen.
SSE (fel på summan i kvadrat)
Felen är skillnaden mellan det observerade värdet och det värde som förutses av modellen. I tabellen Variansanalys är den här kolumnen faktiskt skillnaden mellan MSE för den enklare modellen i den specifika raden och den fullständiga modellen, som använder alla faktorer. Detta SSE motsvarar även summan av skillnaderna i kvadrat för de förutsedda värdena från den mindre modellen och den kompletta modellen.
MSE (fel på medelvärde i kvadrat)
Termen MSE står för ”mean squared error”, vilket är SSE dividerat med dess motsvarande frihetsgrad.
R-kvadrat
R-kvadrat är ett mätvärde på hur väl data passar i den linjära modellen. Det är förhållandet mellan variationen i modellens fel, eller oförklarad variation, och den totala variationen i data.
Medan y-skärningspunkten fastställs av modellen erhålls R-kvadrat med hjälp av följande ekvation:
Medan y-skärningspunkten tvingas till 0 erhålls R-kvadrat med hjälp av följande ekvation i stället:
I det sistnämnda fallet kan det hända att ekvationen inte stämmer överens med Excel. Detta beror på att R-kvadrat inte definieras väl i detta fall och på att Tableaus beteende stämmer överens med R i stället för med Excel.
Obs! Värdet R-kvadrat för en linjär trendlinjemodell motsvarar kvadratroten av resultatet från CORR-funktionen. Se Tableau-funktioner (i bokstavsordning)(Länken öppnas i ett nytt fönster) för syntax och exempel för CORR.
Standardfel
Kvadratroten av MSE för den fullständiga modellen. En uppskattning av standardavvikelsen (variationen) hos ”slumpmässiga fel” i modellens formel.
p-värde (betydelse)
Sannolikheten att en slumpmässig F-variabel med ovanstående frihetsgrader överstiger den observerade F-variabeln i den här raden i tabellen Variansanalys.
Variansanalys
I den här tabellen, även kallad ANOVA, anges information för alla faktorer i trendlinjemodellen. Värdena är en jämförelse av modellen utan den aktuella faktorn och hela modellen, som inkluderar alla faktorer.
Enskilda trendlinjer
I den här tabellen ges information om alla trendlinjer i vyn. När du tittar på listan ser du vilka som är de mest statistiskt signifikanta, om några alls. I den här tabellen ges även koefficientstatistik för varje trendlinje. En rad beskriver varje koefficient i varje trendlinjemodell. Till exempel kräver en linjär modell med en skärningspunkt två rader för varje trendlinje. I kolumnen Linje omfattar p-värde och frihetsgrader för varje linje alla koefficientraderna. I kolumnen Frihetsgrad visas den återstående frihetsgraden som är tillgänglig under uppskattningen av varje linje.
Termer
Namnet på den enskilda termen.
Värde
Det uppskattade värdet för koefficienten för den enskilda termen.
StdErr
Ett mätvärde på spridningen av samplingsdistributionen av koefficientuppskattningen. Det här felet krymper i takt med att kvaliteten och kvantiteten på information som används i uppskattningen växer.
t-värde
Den statistik som används för att testa null-hypotesen att det faktiska värdet för koefficienten är noll.
p-värde
Sannolikheten att ett t-värde observeras som är så stort eller större om det sanna värdet för koefficienten är noll. Ett p-värde på 0,05 ger oss därmed 95 % konfidens att det faktiska värdet inte är noll.
Bedöma signifikans hos trendlinje
Du kan visa relevant information om en trendlinje i vyn genom att hovra över den med markören:
På den första linjen i verktygstipset visas ekvationen som används för att beräkna ett värde för Vinst från ett värde för Orderdatumets år.
På den andra linjen, värdet R-kvadrat, visas förhållandet mellan variationen i data som förklaras av modellen och den totala variationen i data. Mer information finns i Termer för trendlinjemodeller.
På den tredje linjen, P-värde, rapporteras sannolikheten för att ekvationen i den första raden är ett slumpmässigt resultat. Ju mindre p-värde, desto mer signifikant är modellen. Ett p-värde på 0,05 eller mindre anses ofta vara tillräckligt.
Signifikans för hela modellen
När du har lagt till en trendlinje i en vy vill du oftast veta hur bra modellen passar, vilket är ett mätvärde på kvaliteten i modellens prognoser. Dessutom kanske du är intresserad av signifikansen hos varje faktor som bidrar till modellen. Du kan visa dessa siffror genom att öppna dialogrutan Beskriv trendmodell, högerklicka (kontroll-klicka på Mac) på vyn och välja Trendlinjer >Beskriv trendmodell.
När du testar signifikans är det p-värdet du är intresserad av. Ju mindre p-värde, desto mer signifikant är modellen eller faktorn. Det är möjligt att ha en modell som har statistisk signifikans men som innehåller en enskild trendlinje eller en term för en enskild trendlinje som inte bidrar till den övergripande signifikansen.
Under Trendlinjemodeller letar du efter den linje som visar p-värdet (signifikansen) för modellen. Ju mindre p-värde, desto mindre sannolikt är det att skillnaden i oförklarad variation mellan modellerna med och utan relevanta mätvärden var ett slumpmässigt resultat.
Detta p-värde för en modell jämför passformen för hela modellen med passformen för en modell som enbart utgörs av medelvärdet (genomsnittet av data i datavyn). Med andra ord bedöms förklaringen av den kvantitativa termen f(x) i modellformeln, som kan vara linjär, polynom, exponentiell eller logaritmisk med fasta faktorer. Det är vanligt att bedöma signifikansen med hjälp av regeln ”95 % konfidens”. Som nämnts ovan anses därmed ett p-värde på 0,05 eller mindre vara bra.
Signifikans för kategoriska faktorer
I tabellen Variansanalys, ibland kallad ANOVA, anges alla fält som används som faktorer i modellen. För varje fält (bland andra värden) kan du se p-värdet. I det här fallet indikerar p-värdet hur mycket det aktuella fältet bidrar med till signifikansen för hela modellen. Ju lägre p-värde desto mindre sannolikt är det att skillnaden i oförklarad varians mellan modellerna med och utan fältet beror på slumpen. De värden som visas för varje fält härleds genom att jämföra hela modellen med en modell som inte inkluderar fältet i fråga.
På följande bild visas tabellen Variansanalys för en vy över försäljningen kvartalsvis för de senaste två åren, för tre olika produktkategorier.
Som du ser är p-värdena för både Kategori och Region ganska små. Båda dessa faktorer är statistiskt signifikanta i den här modellen.
Mer information om specifika termer för trendlinjer finns i Termer för trendlinjemodeller.
För ANOVA-modeller definierar trendlinjer av följande matematiska formel:
Y = factor 1 * factor 2 *
...factorN * f(x) + e
Termen Y
kallas svarsvariabel och motsvarar värdet som du försöker förutse. Termen X
är den förklarande variabeln och e (epsilon) är ett slumpmässigt fel. Faktorerna i uttrycket motsvarar de kategoriska fälten i vyn. Dessutom representerar varje faktor i en matris. *
är en slags matrismultiplikator som tar två matriser med samma antal rader och returnerar en ny matris med samma antal rader. Det innebär att i uttrycket alla kombinationer av medlemmar i faktor 1 och faktor 2 introduceras i uttrycket factor
1 * factor 2
. Om till exempel både faktor 1 och faktor 2 har tre medlemmar introduceras totalt nio variabler i modellens formel av den här operanden.
Trendlinjeantaganden
Vilka p-värden som rapporteras i Tableaus trendlinjer beror på vissa antaganden om data.
Det första antagandet är att när ett test utförs så är modellen för genomsnittet (i alla fall ungefär) korrekt.
Det andra antagandet är att de ”slumpmässiga fel” som avses i modellens formel (se Typer av trendlinjemodeller) är oberoende av varandra i olika observationer och att de alla har samma distribution. Denna begränsning skulle kränkas om svarsvariabeln har mycket mer variation kring den faktiska trendlinjen i en kategori än i en annan.
Antaganden som krävs för att beräkna trendlinjer
De antaganden som krävs för att beräkna (med hjälp av den vanliga minstakvadratmetoden) varje enskild trendlinje är följande:
Modellen är en korrekt, fungerande förenkling av den faktiska datagenererande processen (till exempel ingen linjär modell för ett logaritmiskt/linjärt förhållande).
Felen är i snitt noll och är inte kopplade till din oberoende variabel (till exempel inget fel vid mätning av den oberoende variabeln).
Felen har konstant variation och det finns ingen korrelation mellan dem (till exempel ingen ökning i fel när den oberoende variabeln ökar).
Förklarande variabler är inte exakta linjära funktioner av varandra (perfekt multikollinearitet).
Vanliga frågor om trendlinjer
I det här avsnittet beskrivs några vanliga frågor om trendlinjer i Tableau.
Hur ändrar jag konfidensnivån som används i modellen?
Tableau tillämpar inte någon konfidensnivå. Tableau rapporterar helt enkelt signifikansen för hela modellen, eller för ett specifikt fält, genom att visa p-värdet. P-värdet mäter sannolikheten för att erhålla samma trendresultat utan att ta dimensionerna i beaktande. Exempel: Ett p-värde på 0,05 för en trend för försäljning per tid innebär att det finns 5 % chans att samma värde erhålls om man inte tar tid i beaktande.
Vad innebär det att p-värdet för modellen är signifikant men p-värdet för det specifika fältet i tabellen Variansanalys inte är signifikant?
P-värdet i tabellen Variansanalys indikerar huruvida fältet lägger till eller drar bort från signifikansen för hela modellen. Ju lägre p-värde desto mindre sannolikt är det att skillnaden i oförklarad varians mellan modellerna med och utan fältet beror på slumpen. De värden som visas för varje fält härleds genom att jämföra hela modellen med en modell som inte inkluderar fältet i fråga. Så i händelse av att p-värdet för modellen är signifikant men p-värdet för det specifika fältet inte är det, vet du att modellen är statistiskt signifikant men du kan inte vara säker på att det specifika fältet i fråga tillför någonting. Överväg att det kanske hade varit bättre att ta bort faktorn från modellen.
Vad innebär det att p-värdet för det specifika fältet i tabellen Variansanalys är signifikant men p-värdet för modellen inte är signifikant?
Detta kan inträffa i händelse av att det inte finns någon ”trend” i varje ruta. Till exempel om linjerna är platta men genomsnittet varierar över en given faktor.