Hoe het maken van prognoses werkt in Tableau

Bij het maken van prognoses in Tableau wordt gebruik gemaakt van een techniek die exponentieel vloeiend maken heet. De prognosealgoritmen proberen een regelmatig patroon te vinden in de meetwaarden die in de toekomst kunnen worden voortgezet. Als u geïnteresseerd bent in prognosemodellering, dat ook beschikbaar is in Tableau, zie Hoe functies voor prognosemodellering werken in Tableau voor meer informatie.

Normaal gesproken voegt u een prognose toe aan een weergave die een datumveld en ten minste één meetwaarde bevat. Als er echter geen datum is, kan Tableau een prognose maken voor een weergave die een dimensie met gehele getallen bevat, naast ten minste één meetwaarde.

Zie Een prognose maken voor meer informatie over het maken van een prognose. Zie Prognoses maken wanneer de weergave geen data bevatvoor meer informatie over prognoses met gebruik van een dimensie met gehele getallen.

Overzicht

Alle prognose-algoritmen zijn eenvoudige modellen van een realistisch datageneratieproces (DGP). Voor een prognose van hoge kwaliteit moet een eenvoudig patroon in het DGP redelijk goed overeenkomen met het patroon dat door het model wordt beschreven. Kwaliteitsstatistieken meten hoe goed het model overeenkomt met het DGP. Als de kwaliteit laag is, is de precisie die door de betrouwbaarheidsbanden wordt gemeten niet belangrijk, omdat deze de precisie van een onnauwkeurige schatting meet.

Tableau selecteert automatisch het beste model uit maximaal acht modellen. Het beste model is het model dat de prognose met de hoogste kwaliteit genereert. De parameters voor vloeiend maken van elk model worden geoptimaliseerd voordat Tableau de prognosekwaliteit beoordeelt. De optimalisatiemethode is globaal. Het is daarom niet onmogelijk om lokaal optimale parameters voor vloeiend maken te kiezen die niet ook globaal optimaal zijn. De parameters van de initiële waarde worden echter geselecteerd volgens de best practices, maar worden niet verder geoptimaliseerd. Het is dus mogelijk dat de parameters van de initiële waarde niet optimaal zijn. De acht modellen die beschikbaar zijn in Tableau, zijn onder andere beschreven op de volgende locatie op de OTexts-website: Een taxonomie van methoden voor exponentieel vloeiend maken(Link wordt in een nieuw venster geopend) (in het Engels).

Wanneer de visualisatie niet over voldoende data beschikt, probeert Tableau automatisch een prognose te maken met een fijnere tijdsgranulariteit. Vervolgens wordt de prognose geaggregeerd met de granulariteit van de visualisatie. Tableau biedt voorspellingsbanden die gesimuleerd of berekend kunnen worden op basis van een gesloten vergelijking. Alle modellen met een vermenigvuldigingscomponent of met geaggregeerde prognoses hebben gesimuleerde banden, terwijl alle andere modellen de gesloten vorm van vergelijkingen gebruiken.

Exponentieel vloeiend maken en trend

Modellen voor exponentieel vloeiend maken maken iteratief een prognose voor toekomstige waarden van een reguliere tijdreeks van waarden op basis van gewogen gemiddelden van eerdere waarden van de reeks. Het eenvoudigste model, eenvoudig exponentieel vloeiend maken, berekent het volgende niveau of de vloeiend gemaakte waarde op basis van een gewogen gemiddelde van de laatste werkelijke waarde en de laatste niveauwaarde. De methode is exponentieel omdat de waarde van elk niveau in exponentieel afnemende mate wordt beïnvloed door elke voorgaande werkelijke waarde. Zo wegen recentere waarden zwaarder mee.

Modellen voor exponentieel vloeiend maken met trend- of seizoenscomponenten zijn effectief wanneer de te voorspellen meetwaarde een trend of seizoensgebondenheid vertoont gedurende de periode waarop de prognose is gebaseerd. Trend is een tendens in de data om in de loop van de tijd toe of af te nemen. Seizoensgebondenheid is een zich herhalende, voorspelbare variatie in waarde, zoals een jaarlijkse schommeling in temperatuur ten opzichte van het seizoen.

Over het algemeen geldt: hoe meer datapunten u in uw tijdreeks opneemt, hoe beter de uiteindelijke prognose zal zijn. Het is vooral belangrijk om over voldoende data te beschikken als u seizoensgebondenheid wilt modelleren, omdat dat model ingewikkelder is en meer bewijs in de vorm van data vereist om een redelijk niveau van precisie te bereiken. Als u daarentegen een prognose maakt op basis van data die door twee of meer verschillende DGP's zijn gegenereerd, krijgt u een prognose van lagere kwaliteit omdat een model slechts met één model kan matchen.

Seizoensgebondenheid

Tableau test op een seizoenscyclus met de lengte die het meest kenmerkend is voor de tijdsaggregatie van de tijdreeks waarvoor de prognose wordt geschat. Als u dus per maand aggregeert, zoekt Tableau naar een cyclus van 12 maanden. Als u per kwartaal aggregeert, zoekt Tableau naar een cyclus van vier kwartalen. En als u per dag aggregeert, zoekt Tableau naar wekelijkse seizoensgebondenheid. Als er dus een cyclus van zes maanden in uw maandelijkse tijdreeks zit, zal Tableau waarschijnlijk een patroon van twaalf maanden vinden dat twee vergelijkbare subpatronen bevat. Als er echter een cyclus van zeven maanden in uw maandelijkse tijdreeks voorkomt, zal Tableau waarschijnlijk helemaal geen cyclus vinden. Gelukkig zijn cycli van zeven maanden zeldzaam.

Tableau kan twee methoden gebruiken om de seizoenslengte af te leiden. De oorspronkelijke temporele methode maakt gebruik van de natuurlijke seizoenlengte van de temporele granulariteit (TG) van de weergave. Met temporele granulariteit wordt de fijnste tijdseenheid bedoeld die door de weergave wordt uitgedrukt. Als de weergave bijvoorbeeld een continue groene datum bevat die is afgekapt tot een maand, of discrete blauwe datumdelen die bestaan uit jaar en maand, is de tijdelijke granulariteit van de weergave de maand. De nieuwe niet-temporele methode, geïntroduceerd in Tableau 9.3, maakt gebruik van periodieke regressie om seizoenlengtes van 2 tot 60 te controleren op kandidaatlengtes.

Tableau selecteert automatisch de meest geschikte methode voor een bepaalde weergave. Wanneer Tableau een datum gebruikt om de meetwaarden in een weergave te ordenen, zijn de seizoenslengtes vrijwel zeker respectievelijk 4, 12, 13, 7 of 24 als de tijdelijke granulariteit per kwartaal, maand, week, dag of uur is. Daarom wordt alleen de lengte die natuurlijk is voor de TG gebruikt om de vijf seizoensgebonden modellen voor exponentieel vloeiend maken te construeren die door Tableau worden ondersteund. De AIC van de vijf seizoensmodellen en de drie niet-seizoensmodellen worden vergeleken en de laagste is het resultaat. (Voor een uitleg van de AIC-statistiek, zie Prognosebeschrijvingen.)

Wanneer Tableau een dimensie met een geheel getal gebruikt voor prognoses, wordt de tweede methode gebruikt. In dit geval is er geen sprake van temporele granulariteit (TG), dus moeten potentiële seizoenslengtes uit de data worden afgeleid.

De tweede methode wordt ook gebruikt als de tijdsgranulariteit jaarlijks is. Jaarreeksen hebben zelden een seizoensgebondenheid. Als dat wel het geval is, moet dat ook uit de data worden afgeleid.

De tweede methode wordt ook gebruikt voor weergaven met een tijdsgranulariteit van minuten of seconden. Als dergelijke reeksen seizoensgebondenheid hebben, bedraagt de seizoenslengte waarschijnlijk 60. Bij het meten van een regulier proces in de praktijk kan het echter voorkomen dat het proces een regelmatige herhaling heeft die niet overeenkomt met de klok. Tableau controleert dus voor minuten en seconden ook of de lengte in de data afwijkt van 60. Dit betekent niet dat Tableau twee verschillende seizoenlengtes tegelijkertijd kan modelleren. In plaats daarvan worden tien seizoensmodellen geschat, vijf met een seizoenslengte van 60 en nog eens vijf met een seizoenslengte die is afgeleid uit de data. Het model met de laagste AIC van de tien seizoensmodellen of de drie niet-seizoensmodellen wordt gebruikt om de prognose te berekenen.

Voor reeksen die geordend zijn op jaar, minuut of seconde, wordt één seizoenlengte uit de data getest als het patroon redelijk duidelijk is. Voor reeksen geordend op gehele getallen worden voor alle vijf seizoensmodellen maximaal negen enigszins minder duidelijke potentiële seizoenslengtes geschat, en wordt het model met de laagste AIC als resultaat gegeven. Als er geen waarschijnlijke kandidaten zijn voor de seizoenslengte, worden alleen de niet-seizoensgebonden modellen geschat.

Omdat alle selecties automatisch zijn wanneer Tableau potentiële seizoenlengtes afleidt uit de data, verandert het standaardmodeltype 'Automatisch' in het menu Modeltype in het dialoogvenster Prognose-opties niet. Als u 'Automatisch zonder seizoensgebondenheid' selecteert, worden de prestaties verbeterd doordat alle seizoenslengtezoekopdrachten en schattingen van seizoensgebonden modellen worden geëlimineerd.

De heuristiek die Tableau gebruikt om te bepalen wanneer seizoenslengtes uit de data moeten worden gebruikt, is afhankelijk van de distributie van fouten voor de periodieke regressie van elke kandidaat-seizoenslengte. Omdat de verzameling van kandidaten voor seizoenlengtes door periodieke regressie doorgaans één of twee duidelijke winnende lengtes oplevert als er daadwerkelijk seizoensgebondenheid in de data voorkomt, duidt het resultaat van één enkele kandidaat op waarschijnlijke seizoensinvloeden. In dit geval schat Tableau seizoensgebonden modellen met deze kandidaat voor granulariteit op jaar-, minuut- en secondeniveau. Het feit dat er minder dan het maximum van tien kandidaten als resultaat zijn, wijst op mogelijke seizoensgebondenheid. In dit geval schat Tableau seizoensgebonden modellen met alle resulterende kandidaten voor weergaven met een volgorde van gehele getallen. Het feit dat het maximale aantal kandidaten als resultaat wordt gegeven, geeft aan dat de fouten voor de meeste lengtes vergelijkbaar zijn. Het is daarom onwaarschijnlijk dat er sprake is van seizoensgebondenheid. In dit geval schat Tableau alleen niet-seizoensgebonden modellen voor een op gehele getallen geordende of jaarlijks geordende reeks, en alleen de seizoensgebonden modellen met een natuurlijke seizoenslengte voor andere op tijd geordende weergaven.

Voor het modeltype 'Automatisch' in weergaven met gehele getallen, jaren, minuten en seconden worden de lengtes van kandidaatseizoenen altijd afgeleid van de data, ongeacht of ze worden gebruikt. Omdat het schatten van modellen veel meer tijd kost dan periodieke regressie, zal de impact op de prestaties naar verwachting matig zijn.

Modeltypen

In het dialoogvenster Prognose-opties kunt u het modeltype kiezen dat Tableau-gebruikers voor prognoses willen gebruiken. De instelling Automatisch is doorgaans optimaal voor de meeste weergaven. Als u kiest voor Aangepast , dan kunt u de trend- en seizoenskenmerken onafhankelijk van elkaar specificeren, door te kiezen uit Geen, Optellen of Vermenigvuldigen:

Een model met optellen is een model waarin de bijdragen van de modelcomponenten worden opgeteld, terwijl een model met vermenigvuldigen een model is waarin ten minste enkele componentbijdragen worden vermenigvuldigd. Modellen met vermenigvuldiging kunnen de prognosekwaliteit aanzienlijk verbeteren voor data waarbij de trend of seizoensgebondenheid wordt beïnvloed door het niveau (de omvang) van de data:

Houd er rekening mee dat u geen aangepast model hoeft te maken om een prognose te genereren met vermenigvuldiging: met de instelling Automatisch kunt u bepalen of een prognose met vermenigvuldiging geschikt is voor uw data. Er kan echter geen vermenigvuldigingsmodel worden berekend wanneer de meetwaarde waarvoor een prognose gemaakt moet worden een of meer waarden heeft die kleiner zijn dan of gelijk zijn aan nul.

Prognose maken met tijd

Wanneer u een prognose maakt met een datum, mag er slechts één basisdatum in de weergave staan. Gedeeltelijke datums worden ondersteund, maar alle onderdelen moeten naar hetzelfde onderliggende veld verwijzen. Datums kunnen aanwezig zijn in Rijen, Kolommen of Markeringen (met uitzondering van het Knopinfo-doel).

Tableau ondersteunt drie typen datums, waarvan er twee kunnen worden gebruikt voor het maken van prognoses:

  • Afgekorte datums refereren naar een specifiek punt in het verleden met een specifieke tijdsgranulariteit, zoals februari 2017. Ze zijn meestal continu, met een groene achtergrond in de weergave. Afgekorte datums kunnen worden gebruikt voor het maken van prognoses.

  • Datumonderdelen refereren naar een specifiek lid van een tijdmeetwaarde, zoals februari. Elk datumonderdeel wordt weergegeven door een apart, meestal discreet veld (met een blauwe achtergrond). Voor prognoses is minimaal het datumgedeelte Jaar vereist. Specifiek kan elk van de volgende sets datumonderdelen worden gebruikt voor prognoses:

    • Jaar

    • Jaar + kwartaal

    • Jaar + maand

    • Jaar + kwartaal + maand

    • Jaar + week

    • Aangepast: maand/jaar, maand/dag/jaar

    Andere gedeelten van een datum, zoals Kwartaal of Kwartaal + maand, zijn niet geldig voor prognoses. Zie Velden converteren van discreet naar continu en omgekeerd voor meer informatie over verschillende datumtypen.

  • Exacte datums verwijzen naar een specifiek punt in het verleden met maximale tijdsgranulariteit, bijvoorbeeld 1 februari 2012 om 14:23:45.0. Exacte datums zijn ongeldig voor het maken van prognoses.

Het is ook mogelijk om een prognose te maken zonder datum. Zie Prognoses maken wanneer de weergave geen data bevat.

Granulariteit en trimmen

Wanneer u een prognose maakt, selecteert u een datumdimensie die een tijdseenheid specificeert waarop datumwaarden moeten worden gemeten. Tableau-datums ondersteunen een reeks van dergelijke tijdseenheden, waaronder jaar, kwartaal, maand en dag. De eenheid die u kiest voor de datumwaarde wordt ook wel de granulariteit van de datum genoemd.

De data in uw meetwaarde komen doorgaans niet precies overeen met uw granulariteitseenheid. U kunt uw datumwaarde instellen op kwartalen, maar uw werkelijke data kunnen halverwege een kwartaal eindigen, bijvoorbeeld eind november. Dit kan een probleem opleveren, omdat de waarde voor dit fractionele kwartaal door het prognosemodel wordt behandeld als een volledig kwartaal. De waarde van een fractioneel kwartaal is doorgaans lager dan de waarde van een volledig kwartaal. Als het prognosemodel deze data mag gebruiken, zal de resulterende prognose onnauwkeurig zijn. De oplossing is om de data te trimmen, zodat de achterliggende perioden die de prognose kunnen misleiden, worden genegeerd. Gebruik de optie Laatste negeren in het dialoogvenster Prognose-opties om de laatste waarde van dergelijke gedeeltelijke periodes te verwijderen of trimmen. Standaard wordt één periode getrimd.

Meer data verkrijgen

Tableau heeft minimaal vijf datapunten in de tijdreeks nodig om een trend te schatten, en voldoende datapunten voor minimaal twee seizoenen of één seizoen plus vijf perioden om de seizoensgebondenheid te schatten. Er zijn bijvoorbeeld minimaal negen datapunten nodig om een model te schatten met een seizoenscyclus van vier kwartalen (4 + 5), en minimaal 24 om een model te schatten met een seizoenscyclus van twaalf maanden (2 * 12).

Als u prognoses inschakelt voor een weergave die niet over voldoende datapunten beschikt om een goede prognose te maken, kan Tableau soms voldoende datapunten ophalen om een geldige prognose te produceren door de databron te bevragen voor een fijnmaziger granulariteitsniveau:

  • Als uw weergave minder dan negen jaar aan data bevat, zal Tableau standaard de databron raadplegen voor kwartaaldata, een kwartaalprognose maken en deze samenvoegen tot een jaarprognose om weer te geven in uw weergave. Als er nog steeds onvoldoende datapunten zijn, maakt Tableau een maandelijkse prognose en wordt de geaggregeerde jaarlijkse prognose in uw weergave weergegeven.

  • Als uw weergave minder dan negen kwartalen aan data bevat, maakt Tableau standaard een maandelijkse prognose en worden de geaggregeerde kwartaalprognoseresultaten in uw weergave weergegeven.

  • Als uw weergave minder dan negen weken aan data bevat, maakt Tableau standaard een dagelijkse prognose en worden de geaggregeerde wekelijkse prognoseresultaten in uw weergave weergegeven.

  • Als uw weergave minder dan negen dagen aan data bevat, maakt Tableau standaard een uurlijkse prognose en worden de geaggregeerde dagelijkse prognoseresultaten in uw weergave weergegeven.

  • Als uw weergave minder dan negen uur aan data bevat, maakt Tableau standaard een prognose per minuut en worden de geaggregeerde prognoseresultaten per uur in uw weergave weergegeven.

  • Als uw weergave minder dan negen minuten aan data bevat, maakt Tableau standaard een prognose per seconde en worden de geaggregeerde prognoseresultaten per minuut in uw weergave weergegeven.

Deze aanpassingen vinden achter de schermen plaats en hiervoor is geen configuratie nodig. Tableau verandert niets aan het uiterlijk van uw visualisatie en wijzigt ook niet de datumwaarde. De samenvatting van de tijdsperiode van prognose in het dialoogvenster Prognose beschrijven en Prognose-opties laat zien welke granulariteit er daadwerkelijk is gebruikt.

Tableau kan alleen meer data verkrijgen, als de aggregatie voor de meetwaarde waar u een prognose voor maakt SUM of COUNT is. Zie Data-aggregatie in Tableau voor informatie over beschikbare aggregatietypen en informatie over het wijzigen van het aggregatietype.