Så fungerar prognostisering i Tableau
Prognostisering i Tableau använder en teknik som kallas exponentiell utjämning. Prognosalgoritmer försöker hitta ett regelbundet mönster i mätvärden som kan fortlöpa även i framtiden. Om du är intresserad av prediktiv modellering, som också är tillgängligt i Tableau, bör du läsa Så fungerar funktioner för prediktiva modeller i Tableau.
Du lägger oftast till en prognos till en vy som innehåller ett datumfält och minst ett mätvärde. Om datum saknas kan Tableau dock skapa en prognos för en vy som förutom minst ett mätvärde innehåller en dimension med heltalsvärden.
Information om hur du skapar en prognos finns i Skapa en prognos. Mer information om prognostisering med en heltalsdimension finns i Prognostisering när det inte finns något datum i vyn.
Alla prognosalgoritmer är enkla modeller av verkliga datagenereringsprocesser (DGP). För en prognos av hög kvalitet måste ett enkelt mönster i DGP stämma hyfsat överens med mönstret som beskrivs av modellen. Kvalitetsmätvärden mäter hur väl modellen stämmer överens med DGP. Om kvaliteten är låg är den precision som mäts av konfidensintervallet inte viktig, då det mäter precisionen hos en felaktig uppskattning.
Tableau väljer automatiskt de bästa av upp till åtta modeller. Den bästa är den som genererar prognosen av högst kvalitet. De utjämnande parametrarna för varje modell optimeras innan Tableau bedömer prognoskvaliteten. Optimeringsmetoden är global. Därför är det inte möjligt att välja lokalt optimala utjämningsparametrar om de inte också är globalt optimala. De initiala värdeparametrarna väljs enligt bästa praxis, men optimeras inte ytterligare. Det är därmed möjligt att initiala värdeparametrar inte är optimala. De åtta modeller som är tillgängliga i Tableau är bland de som beskrivs på följande plats på OTexts-webbplatsen: A taxonomy of exponential smoothing methods.(Länken öppnas i ett nytt fönster)
När det inte finns tillräckliga data i visualiseringen försöker Tableau automatiskt att prognostisera på en ökad tidsmässig detaljnivå och aggregerar sedan prognosen till detaljnivån för visualiseringen. Tableau tillhandahåller prognosintervall som kan simuleras eller beräknas genom en ekvation med sluten formel. Alla modeller med en multiplikativ komponent eller med aggregerade prognoser har simulerade intervaller, medan alla andra modeller använder ekvationerna med sluten formel.
Exponentiell utjämning gör iterativt en prognos för framtida värden för en regelbunden tidsserie av värden från viktade genomsnitt av tidigare värden för serien. Den enklaste modellen, Enkel exponentiell utjämning, beräknar nästa nivå eller utjämnade värde från ett viktat genomsnitt av det senaste faktiska värdet och det senaste nivåvärdet. Metoden är exponentiell eftersom värdet för varje nivå påverkas av alla föregående faktiska värden till en exponentiellt minskande grad – senare värden ger större vikt.
Exponentiell utjämning med trend eller säsongsbundna komponenter är effektiva när mätvärdet som ska prognostiseras visar en trend eller säsongsvariation under den tidsperiod som prognosen grundas på. Trend är en tendens i data att öka eller minsta över tid. Säsongbetoning är en upprepande, förutsägbar variation i värdet, som till exempel årliga temperatursvängningar mellan årstiderna.
I allmänhet gäller att ju fler datapunkter du har i en tidsserie, desto bättre blir prognosen. Det är viktigt att ha tillräckliga data om du vill modellera säsongsvariation, då modellen är mer komplicerad och kräver mer bevis i form av data för att uppnå en rimlig precisionsnivå. Å andra sidan får du en prognos av lägre kvalitet om du prognostiserar med hjälp av data som genereras av två eller fler DGP:er, eftersom en modell endast kan matcha en.
Tableau testar en säsongscykel med en längd som motsvarar den vanligaste längden hos tidsaggregeringen av tidsserien som prognosen uppskattas för. Så om du aggregerar per månad söker Tableau efter en cykel på tolv månader. Om du aggregerar per kvartal söker Tableau efter en cykel på fyra kvartal. Om du aggregerar per dagar söker Tableau efter säsongsvariation per vecka. Om det finns en cykel på sex månader i den månadsvisa tidsserien hittar Tableau troligtvis ett mönster med tolv månader som innehåller två liknande undermönster. Om det däremot finns en cykel på sju månader i den månadsvisa tidsserien hittar Tableau troligtvis ingen cykel alls. Lyckligtvis är sjumånaderscyklar ovanliga.
Tableau kan används vilken som helst av två metoder för att erhålla säsongslängden. Den ursprungliga tidsbaserade metoden använder den naturliga säsongslängden som tidsmässig detaljnivå för vyn. Tidsmässig detaljnivå innebär den minsta tidsenhet som uttrycks av vyn. Om vyn till exempel innehåller antingen ett kontinuerligt grönt datum trunkerat till månad eller diskreta blåa datumdelar för år och månad är den tidsmässiga detaljnivån för vyn månad. Den nya icke tidsbaserade metoden som introducerades med Tableau 9.3 använder periodisk regression för att kontrollera säsongslängder från 2 till 60 för kandidatlängderna.
Tableau väljer automatiskt den metod som är bäst lämpad för en given vy. När Tableau använder ett datum för att sortera mätvärden i en vy är säsongslängderna nästan säkert 4, 12, 13, 7 eller 24, om den tidsmässiga detaljnivån är kvartal, månad, vecka, dag respektive timme. Så endast den längd som är naturlig för TG används för att konstruera de fem modellerna för säsongsbetonad exponentiell utjämning som stöds av Tableau. AIC för de fem säsongsmodellerna och de tre icke säsongsbetonade modellerna jämförs och den lägsta returneras. (En förklaring av mätvärdet AIC finns i Prognosbeskrivningar.)
När Tableau använder en heltalsdimension för prognostisering används den andra metoden. I det här fallet finns det inte någon tidsmässig detaljnivå, så potentiella säsongslängder måste erhållas från data.
Den andra metoden används även om den tidsmässiga detaljnivån är år. Årsserier har inte ofta säsongsvariation, men om de har det så måste även den erhållas från data.
Den andra metoden används även för vyer med en tidsmässig detaljnivå på minut eller sekund. Om sådana serier har säsongsvariation är säsongslängden sannolikt 60. Vid mätning av en regelbunden process i verkligheten kan det dock hända att processen har en regelbundenhet som inte stämmer överens med klockan. Så för minuter och sekunder söker Tableau även efter andra längder än 60 i data. Detta innebär inte att Tableau kan modellera två olika säsongslängder samtidigt. I stället uppskattas tio säsongsmodeller, fem med en säsongslängd på 60 och fem med en säsongslängd som erhålls från data. Den av de tio säsongsmodellerna eller de tre icke säsongsbetonade modellerna som har lägst AIC används för att beräkna prognosen.
För serier som sorteras efter år, minut eller sekund testas en enda säsongslängd från data om mönstret är förhållandevis tydligt. För heltalssorterade serier uppskattas upp till något mindre tydliga säsongslängder för alla fem säsongsmodeller, och modellen med lägst AIC returneras. Om det inte finns några kandidater med sannolik säsongslängd uppskattas endast de icke säsongsbetonade modellerna.
Eftersom alla val görs automatiskt när Tableau hämtar potentiella säsongslängder ur data ändras inte standardmodelltypen ”Automatiskt” i dialogrutan Prognosalternativ i menyn Modelltyp. Om du väljer ”Automatiskt utan säsongsvariationer” förbättras prestandan genom att all sökning efter säsongslängd och all uppskattning av säsongsmodeller elimineras.
Vilken heuristik som Tableau använder för att fastställa när säsongslängder som hämtas ur data ska användas beror på distributionen av fel för den periodiska regressionen för varje kandidatlängd. Eftersom samlingen av kandidatlängder efter periodisk regression oftast leder till en eller två klara vinnare om det faktiskt finns säsongsvariation i de aktuella data indikerar den vinnande kandidaten sannolik säsongsvariation. I det här fallet uppskattar Tableau säsongsmodeller med den här kandidaten med detaljnivåerna år, minut och sekund. Om färre än det maximala antalet på tio kandidater returneras indikerar detta möjlig säsongsvariation. I sådant fall uppskattar Tableau säsongsmodeller med alla returnerade kandidater för heltalssorterade vyer. Om det maximala antalet kandidater returneras indikerar detta att fel för de flesta längder liknar varandra. Därför är det inte sannolikt att det finns några säsongsvariationer. I sådant fall uppskattar Tableau endast icke säsongsbetonade modeller för en heltalssorterad eller årssorterad serie, och endast säsongsmodellerna med en naturlig säsongslängd för vyer som sorteras efter någon annan tid.
För modelltypen ”Automatisk” i heltals-, års-, minut- och sekundsorterade vyer hämtas kandidatlängder alltid ur data, oavsett om de används eller inte. Eftersom modelluppskattning är mycket mer tidskrävande än periodisk regression bör inverkan på prestandan vara måttlig.
I dialogrutan Prognosalternativ kan du välja vilken modelltyp som Tableau använder för prognostisering. Inställningen Automatisk är oftast optimal för de flesta vyer. Om du väljer Anpassad kan du specificera trenden och säsongsegenskaperna separat och välja antingen Ingen, Additiv eller Multiplikativ:
En additiv modell är en där bidragen från modellkomponenterna summeras, medan en multiplikativ modell är en där åtminstone några komponentbidrag multipliceras. Multiplikativa modeller kan förbättra prognoskvaliteten för data betydligt, där trenden eller säsongsvariationerna påverkas av nivån (magnituden) på data:
Tänk på att du inte behöver skapa en anpassad modell för att generera en prognos som är multiplikativ. Inställningen Automatisk kan avgöra om en multiplikativ prognos är lämplig för dina data. Det går emellertid inte att beräkna en multiplikativ modell när mätvärdet som prognosen ska skapas för innehåller ett eller flera värden som är mindre än eller lika med noll.
När du prognostiserar med ett datum kan det endast finnas ett grunddatum i vyn. Deldatum stöds men alla delar måste referera till samma underliggande fält. Datum kan vara på Rader, Kolumner eller Markeringar (med undantag för målet för verktygstipset).
Tableau har stöd för tre typer av datum, varav två kan användas för prognostisering:
Trunkerade datum refererar till en viss punkt i historiken med en specifik tidsmässig detaljnivå, såsom februari 2017. De är oftast kontinuerliga och har en grön bakgrund i vyn. Trunkerade datum är giltiga för prognostisering.
Datumdelar refererar till en viss medlem av ett tidsmässigt mätvärde, såsom februari. Varje datumdel representeras av ett separat, oftast diskret, fält (med blå bakgrund). Prognostisering kräver minst datumdelen År. Mer bestämt kan följande uppskattningar datumdelar användas för prognostisering:
År
År + kvartal
År + månad
År + kvartal + månad
År + vecka
Anpassad: månad/år, månad/dag/år
Andra datumdelar, som kvartal eller kvartal + månad, är inte giltiga för prognostisering. Mer information om olika datumtyper finns i Konvertera diskreta fält till kontinuerliga och tvärtom.
Exakta datum refererar till en viss punkt i historiken med en maximal tidsmässig detaljnivå, såsom 1 februari 2012 kl. 14:23:45,0. Exakta datum är inte giltiga för prognostisering.
Det går också att skapa en prognos utan datum. Läs Prognostisering när det inte finns något datum i vyn.
När du skapar en prognos väljer du en datumdimension som specificerar en tidsenhet enligt vilken datumvärden ska mätas. Tableau har stöd för ett antal olika tidsenheter, däribland år, kvartal, månad och dag. Den enhet du väljer för datavärdet kallas datumets detaljnivå.
Data i mätvärdet stämmer oftast inte överens exakt med detaljnivån. Du kanske ställer in datumvärdet på kvartal, medan faktiska data tar slut mitt i ett kvartal, till exempel i slutet av november. Detta kan skapa problem, då värdet för detta delkvartal behandlas av prognosmodellen som ett helt kvartal, vilket oftast ger ett lägre värde än vad ett helt kvartal skulle ge. Om prognosmodellen tillåts använda dessa data blir den resulterande prognosen felaktig. Lösningen är att trimma data så att de efterföljande perioder som skulle kunna vara vilseledande för prognosen ignoreras. Använd alternativet Ignorera senaste i dialogrutan Prognosalternativ för att ta bort, eller trimma, sådana delperioder. Standard är att trimma en period.
Tableau kräver minst fem datapunkter i tidsserien för att uppskatta en trend och tillräckligt många datapunkter för minst två säsonger eller en säsong plus fem perioder för att uppskatta säsongsvariationer. Till exempel krävs minst 9 datapunkter för att uppskatta en modell med en säsongscykel på 4 kvartal (4 + 5) och minst 24 för att uppskatta en modell med en säsongscykel på 12 månader (2 x 12).
Om du aktiverar prognostisering för en vy som inte har tillräckligt många datapunkter för att ge en bra prognos kan Tableau ibland hämta tillräckligt många datapunkter för att skapa en giltig prognos genom att be datakällan om en ökad detaljnivå:
Om vyn innehåller färre än nio år av data ber Tableau som standard datakällan om kvartalsdata, uppskattar en kvartalsprognos och aggregerar till en årsprognos, som visas i vyn. Om det fortfarande inte finns tillräckligt många datapunkter uppskattar Tableau en månadsprognos och returnerar den aggregerade årsprognosen till vyn.
Om vyn innehåller färre än nio kvartal av data uppskattar Tableau som standard en månadsprognos och returnerar den aggregerade kvartalsprognosen till vyn.
Om vyn innehåller färre än nio veckor av data uppskattar Tableau som standard en dagsprognos och returnerar den aggregerade veckoprognosen till vyn.
Om vyn innehåller färre än nio dagar av data uppskattar Tableau som standard en timprognos och returnerar den aggregerade dagsprognosen till vyn.
Om vyn innehåller färre än nio timmar av data uppskattar Tableau som standard en minutsprognos och returnerar den aggregerade timprognosen till vyn.
Om vyn innehåller färre än nio minuter av data uppskattar Tableau som standard en sekundsprognos och returnerar den aggregerade minutsprognosen till vyn.
Dessa justeringar görs bakom kulisserna och kräver ingen konfiguration. Tableau ändrar inte utseendet på visualiseringen och ändrar faktiskt inte datumvärdet. Sammanfattningen av den prognostiserade tidsperioden i dialogrutorna Beskriv prognos och Prognosalternativ speglar emellertid den detaljnivå som faktiskt används.
Tableau kan bara hämta mer data när aggregeringen för mätvärdet du prognostiserar är SUM eller COUNT. Mer information om tillgängliga aggregeringstyper och om hur du ändrar aggregeringstyp finns i Dataaggregering i Tableau.