Trendlijnen aan een visualisatie toevoegen
U kunt trendlijnen in een visualisatie weergeven om trends in uw data te benadrukken. U kunt een weergave publiceren die trendlijnen bevat. U kunt trendlijnen aan een weergave toevoegen terwijl u deze op internet bewerkt.
Wanneer u trendlijnen aan een weergave toevoegt, kunt u opgeven hoe ze eruit moeten zien en hoe ze zich moeten gedragen.
Trendlijnen aan een weergave toevoegen
Een trendlijn aan een visualisatie toevoegen:
Klik op het deelvenster Analyse.
Sleep Trendlijn vanuit het deelvenster Analyse naar de weergave en zet het vervolgens neer op de modeltypen Lineair, Logaritmisch, Exponentieel, Polynomiaal of Macht.
Voor meer informatie over elk van deze modeltypen raadpleegt u Trendlijnmodeltypen.
Trendlijnen toevoegen (en wanneer u ze niet kunt toevoegen)
Als u trendlijnen aan een weergave wilt toevoegen, moeten beide assen een veld bevatten dat als een getal kan worden geïnterpreteerd. U kunt bijvoorbeeld geen trendlijn toevoegen aan een weergave met de productdimensie Categorie, die tekenreeksen bevat in de container Kolommen en de meetwaarde Winstin de container Rijen. U kunt echter wel een trendlijn toevoegen aan een weergave van de verkoop in de loop van de tijd, omdat zowel de verkoop als de tijd als numerieke waarden kunnen worden geïnterpreteerd.
Bij multidimensionale databronnen bevatten de datumhiërarchieën feitelijk tekenreeksen in plaats van getallen. Daarom zijn trendlijnen niet toegestaan. Bovendien staan de datumnotaties ‘m/d/jj’ en ‘mmmm jjjj’ in alle databronnen geen trendlijnen toe.
Als u trendlijnen hebt ingeschakeld en de weergave zodanig wijzigt dat trendlijnen niet zijn toegestaan, worden de trendlijnen niet weergegeven. Wanneer u de weergave terugzet naar een status waarin trendlijnen zijn toegestaan, worden ze opnieuw weergegeven.
Tableau stapelt staafmarkeringen in veel gevallen automatisch. Voor gestapelde staven kunnen echter geen staafmarkeringen worden ingeschakeld. U kunt gestapelde markeringen uitschakelen door de optie Analyse > Stapelmarkeringen uit te schakelen.
Trendlijn bewerken
Nadat u een trendlijn aan de visualisatie hebt toegevoegd, kunt u deze bewerken zodat deze bij uw analyse past.
Een trendlijn bewerken:
In Tableau Desktop: klik met de rechtermuisknop op een trendlijn in de visualisatie en selecteer Trendlijnen bewerken.
In webbewerkingsmodus:
- Klik in de visualisatie op de trendlijn en beweeg uw cursor eroverheen.
- Selecteer in de knopinfo die verschijnt, de optie Bewerking om het dialoogvenster Trendlijnopties te openen.
Opmerking: als u een trendlijn in Tableau Cloud of Tableau Server wilt bewerken, hebt u een machtiging voor webbewerking nodig.
In het dialoogvenster Trendlijnopties kunt u de volgende opties configureren:
Selecteer een modeltype. Zie Trendlijnmodeltypen voor meer informatie.
Selecteer welke velden in het trendlijnmodel factoren moeten gebruiken. Voor meer informatie raadpleegt u Kiezen welke velden in het trendlijnmodel als factoren moeten worden gebruikt.
- Beslis of u kleur wilt uitsluiten met behulp van de optie Een trendlijn per kleur toestaan. Wanneer uw weergave kleurcoderingen bevat, kunt u deze optie gebruiken om één trendlijn toe te voegen die alle data modelleert, waarbij de kleurcodering wordt genegeerd.
Beslis of u Betrouwbaarheidsbanden weergeven wilt gebruiken. Wanneer u trendlijnen toevoegt, geven de betrouwbaarheidsbanden van Tableau standaard een boven- en ondergrens van 95% betrouwbaarheid weer. Betrouwbaarheidslijnen worden voor exponentiële modellen niet ondersteund.
Selecteer of u de optie Het Y-snijpunt forceren naar nul wilt gebruiken. Deze optie is handig als u weet dat uw trendlijn bij nul moet beginnen. Deze optie is alleen beschikbaar als zowel de container Rijen als de container Kolommen een continu veld bevat, zoals bij een spreidingsdiagram.
Beslis of u de optie Herberekende lijn tonen wilt gebruiken wanneer u data in de visualisatie selecteert of markeert.
Kiezen welke velden in het trendlijnmodel als factoren moeten worden gebruikt
Voor trendmodellen die rekening houden met meerdere velden, kunt u specifieke velden als factoren in het trendlijnmodel elimineren.
Vaak wilt u factoren verwijderen omdat u het trendlijnmodel wilt baseren op de volledige rij in de tabel, in plaats van opgedeeld in de leden of waarden van een veld. Bekijk het volgende voorbeeld. In het onderstaande overzicht ziet u de maandelijkse verkopen voor verschillende productcategorieën, uitgesplitst per regio.
U ziet dat er voor elke regio een apart model wordt gemaakt.
Verwijder nu Regio als factor in het model door dit uit te schakelen in het dialoogvenster Trendlijnopties.
U ziet dat het trendlijnmodel binnen een categorie nu in alle regio's hetzelfde is. Hierdoor kunt u de werkelijke verkoop vergelijken met een trendlijn die voor alle regio's hetzelfde is.
Trendlijnen verwijderen
Als u een trendlijn uit een visualisatie wilt verwijderen, sleept u deze uit het visualisatiegebied. U kunt ook op een trendlijn klikken en Verwijderen selecteren.
Als u alle trendlijnen uit de weergave wilt verwijderen, selecteert u Analyse >Trendlijnen >Trendlijnen tonen.
Opmerking: in Tableau Desktop blijven de opties voor trendlijnen behouden, dus als u ervoor kiest Trendlijnen tonen in het menu Analyse opnieuw te selecteren, zijn de opties zoals u ze het laatst hebt ingesteld. Als u echter de werkmap sluit terwijl trendlijnen zijn uitgeschakeld, worden de opties voor trendlijnen teruggezet naar de standaardinstellingen.
Een beschrijving van een trendlijn of trendlijnmodel bekijken
Nadat u trendlijnen hebt toegevoegd, kunt u statistieken over de trendlijn weergeven. U kunt bijvoorbeeld de formule, r-kwadraatwaarden en p-waarden bekijken. Voor meer informatie over de modeltypen en termen die in de beschrijvingen worden gebruikt, raadpleegt u de secties Voorwaarden voor trendlijnmodel en Trendlijnmodeltypen.
Een beschrijving van een trendlijn bekijken:
- Beweeg de muis over een willekeurig deel van een trendlijn om de beschrijving te bekijken.
Alleen Tableau Desktop
- Klik met de rechtermuisknop op de trendlijn in de visualisatie en selecteer Trendlijn beschrijven.
Een volledige beschrijving bekijken van het model dat in de huidige weergave is gebruikt:
- Klik met de rechtermuisknop op een trendlijn in de visualisatie en selecteer Trendmodel beschrijven.
Trendlijnmodeltypen
De volgende modeltypen zijn beschikbaar voor trendlijnen: Lineair, Logaritmisch, Exponentieel, Macht en Polynomiaal.
In de volgende formules staat X voor de verklarende variabele en Y voor de responsvariabele.
Lineair
Bij het lineaire modeltype is de formule als volgt:
Y = b0 + b1 * X
waarbij b1
de helling en b0
het snijpunt van de lijn is.
Logaritmisch
Bij het logaritmische modeltype is de formule als volgt:
Y = b0 + b1 * ln(X)
Omdat er geen logaritme is gedefinieerd voor getallen kleiner dan nul, worden alle markeringen waarvoor de verklarende variabele negatief is, gefilterd voordat het model wordt geschat. Gebruik geen model dat bepaalde data verwijdert, tenzij u zeker weet dat de uitgefilterde data ongeldig zijn. De beschrijving van de trendlijn geeft aan hoeveel markeringen zijn gefilterd vóór de modelschatting.
Exponentieel
Bij het exponentiële modeltype is de formule als volgt:
Y = exp(b0)* exp(b1 * X)
Bij een exponentieel model wordt de responsvariabele door de natuurlijke logaritme getransformeerd vóór de schatting van het model, zodat de markeringen die in uw weergave zijn uitgezet, worden gevonden door verschillende verklarende waarden in te vullen om waarden van ln(Y)
te vinden.
ln(Y) = b0 + b1 * X
Deze waarden worden vervolgens geëxponentieerd om de trendlijn te tekenen. Wat u ziet is het exponentiële model in de volgende vorm:
Y = b2*exp(b1 * X)
Waarbij b2
de waarde van exp(b0)
is. Omdat er geen logaritme is gedefinieerd voor getallen kleiner dan nul, worden alle punten waarvoor de responsvariabele negatief is, gefilterd voordat het model wordt geschat.
Macht
Bij het machtsmodeltype is de formule als volgt:
Y = b0 * X^b1
Bij een machtsmodel worden beide variabelen door de natuurlijke logaritme getransformeerd voordat het model wordt geschat, wat resulteert in de volgende formule:
ln(Y) = ln(b0) + b1 * ln(X)
Deze waarden worden vervolgens geëxponentieerd om de trendlijn te tekenen.
Omdat er geen logaritme is gedefinieerd voor getallen kleiner dan nul, worden alle punten waarvoor de responsvariabele of verklarende variabele negatief is, gefilterd voordat het model wordt geschat.
Polynomiaal
Bij het polynomiale modeltype wordt de responsvariabele getransformeerd naar een polynomiale reeks van de opgegeven graad. De formule is:
Y = b0 + b1 * X + b2 * X^2 + …
Bij een polynomiaal modeltype moet u ook een Graad tussen 2 en 8 selecteren. De hogere polynomiale graden overdrijven de verschillen tussen de waarden in uw data. Als de data heel snel toenemen, is er misschien nauwelijks variatie in de termen van lagere orde vergeleken met de termen van hogere orde. Hierdoor is het onmogelijk om het model nauwkeurig te schatten. Bovendien zijn voor complexere polynomiale modellen van hogere orde meer data nodig om een schatting te kunnen maken. Controleer de modelbeschrijving van de individuele trendlijnen op een rood waarschuwingsbericht dat aangeeft dat een nauwkeurig model van dit type niet mogelijk is.
Voorwaarden voor trendlijnmodel
Wanneer u de beschrijving van een trendlijnmodel bekijkt, worden er verschillende waarden weergegeven. In dit gedeelte wordt de betekenis van elk van deze waarden besproken.
Modelformule
Dit is de formule voor het volledige trendlijnmodel. De formule geeft aan of u hebt opgegeven dat u factoren uit het model wilt uitsluiten.
Aantal gemodelleerde observaties
Het aantal rijen in de weergave.
Aantal gefilterde observaties
Het aantal observaties dat van het model is uitgesloten.
Model vrijheidsgraad
Het aantal parameters dat nodig is om het model volledig te specificeren. Lineaire, logaritmische en exponentiële trends hebben een modelvrijheidsgraad van 2. Polynomiale trends hebben een modelvrijheidsgraad van 1 plus de graad van de polynomiaal. Een kubieke trend heeft bijvoorbeeld een modelvrijheidsgraad van 4, omdat we parameters nodig hebben voor de derde macht, de kwadratische macht, de lineaire macht en de constante macht.
Restwaarde vrijheidsgraad (DF)
Bij een vast model wordt deze waarde gedefinieerd als het aantal observaties minus het aantal parameters dat in het model is geschat.
Totaal kwadratische fout (SSE)
De fouten zijn het verschil tussen de waargenomen waarde en de door het model voorspelde waarde. In de tabel Analyse van variantie is deze kolom feitelijk het verschil tussen de SSE van het eenvoudigere model in die specifieke rij, en het volledige model waarin alle factoren worden gebruikt. Deze SSE komt ook overeen met de som van de verschillen in het kwadraat van de voorspelde waarden van het kleinere model en het volledige model.
Gemiddelde kwadratische fout (MSE)
De term MSE verwijst naar 'gemiddelde kwadratische fout', namelijk de SSE-grootheid gedeeld door de bijbehorende vrijheidsgraden.
R-kwadraat
R-kwadraat is een maatstaf voor hoe goed de data bij het lineaire model passen. Het is de verhouding tussen de variantie van de modelfout, of onverklaarde variantie, tot de totale variantie van de data.
Wanneer het y-snijpunt door het model wordt bepaald, wordt R-kwadraat afgeleid met behulp van de volgende vergelijking:
Wanneer het y-snijpunt op 0 wordt gedwongen, wordt R-kwadraat afgeleid met behulp van deze vergelijking:
In het laatste geval komt de vergelijking niet noodzakelijkerwijs overeen met Excel. Dit komt doordat R-kwadraat in dit geval niet goed is gedefinieerd en het gedrag van Tableau overeenkomt met dat van R in plaats van dat van Excel.
Opmerking: de R-kwadraatwaarde voor een lineair trendlijnmodel is gelijk aan het kwadraat van het resultaat van de CORR-functie. Zie Tableau-functies (alfabetische lijst)(Link wordt in een nieuw venster geopend) voor syntaxis en voorbeelden voor CORR.
Standaardfout
De vierkantswortel van de MSE van het volledige model. Een schatting van de standaarddeviatie (variabiliteit) van de 'willekeurige fouten' in de modelformule.
P-waarde (significantie)
De waarschijnlijkheid dat een willekeurige F-variabele met de bovenstaande vrijheidsgraden de waargenomen F in deze rij van de tabel Analyse van variantie overschrijdt.
Analyse van variantie
In deze tabel, ook wel de ANOVA-tabel genoemd, wordt informatie over elke factor in het trendlijnmodel weergegeven. De waarden zijn een vergelijking van het model zonder de betreffende factor met het volledige model dat alle factoren omvat.
Individuele trendlijnen
Deze tabel bevat informatie over elke trendlijn in de weergave. Als u naar de lijst kijkt, kunt u zien welke (indien van toepassing) statistisch het meest significant zijn. In deze tabel worden ook de coëfficiëntstatistieken voor elke trendlijn weergegeven. Een rij beschrijft elke coëfficiënt in elk trendlijnmodel. Een lineair model met een snijpunt vereist bijvoorbeeld twee rijen voor elke trendlijn. In de kolom Lijn omspannen de p-waarde en de DF voor elke lijn alle coëfficiëntrijen. De DF-kolom toont de resterende vrijheidsgraden weer die beschikbaar zijn tijdens de schatting van elke lijn.
Termen
De naam van de onafhankelijke term.
Waarde
De geschatte waarde van de coëfficiënt voor de onafhankelijke term.
StdErr
Een maatstaf voor de spreiding van de steekproefverdeling van de coëfficiëntschatting. Deze fout wordt kleiner naarmate de kwaliteit en kwantiteit van de in de schatting gebruikte informatie toeneemt.
t-waarde
De statistiek die wordt gebruikt om de nulhypothese te testen dat de werkelijke waarde van de coëfficiënt nul is.
p-waarde
De waarschijnlijkheid dat een t-waarde van die omvang of groter wordt waargenomen als de werkelijke waarde van de coëfficiënt nul is. Een p-waarde van 0,05 biedt dus 95% zekerheid dat de werkelijke waarde niet nul is.
De significantie van de trendlijn beoordelen
Als u relevante informatie over een trendlijn in de weergave wilt bekijken, beweegt u de cursor eroverheen:
De eerste regel in de knopinfo toont de vergelijking die wordt gebruikt om een waarde van Winst te berekenen op basis van een waarde van Jaar van besteldatum.
De tweede regel, de R-kwadraatwaarde, geeft de verhouding van de variantie in de data zoals verklaard door het model, weer ten opzichte van de totale variantie in de data. Zie Voorwaarden voor trendlijnmodel voor meer details.
De derde regel, de P-waarde, geeft de waarschijnlijkheid weer dat de vergelijking in de eerste regel het resultaat was van toeval. Hoe kleiner de p-waarde, hoe significanter het model. Vaak wordt een p-waarde van 0,05 of lager als voldoende beschouwd.
Betekenis van het hele model
Nadat u een trendlijn aan een weergave hebt toegevoegd, wilt u doorgaans de passendheid van het model weten. Dit is een maatstaf voor de kwaliteit van de voorspellingen van het model. Daarnaast bent u wellicht geïnteresseerd in de betekenis van elke factor die aan het model bijdraagt. Om deze getallen te bekijken opent u het dialoogvenster Trendmodel beschrijven, klikt u met de rechtermuisknop (Control-klik op een Mac) in de weergave en selecteert u Trendlijnen >Trendmodel beschrijven.
Wanneer u de significantie test, gaat het u om de p-waarden. Hoe kleiner de p-waarde, hoe significanter het model of de factor is. U kunt een model hebben dat statistisch significant is, maar dat een individuele trendlijn of een term van een individuele trendlijn bevat die niet aan de algehele significantie bijdraagt.
Zoek onder Trendlijnenmodel de lijn op die de p-waarde (significantie) van het model weergeeft: hoe kleiner de p-waarde, hoe kleiner de kans dat het verschil in onverklaarde variantie tussen modellen, met en zonder de relevante meetwaarde of meetwaarden, het resultaat was van toeval.
Deze p-waarde voor een model vergelijkt de passing van het hele model met de passing van een model dat uitsluitend bestaat uit het algemene gemiddelde (het gemiddelde van de data in de dataweergave). Dat wil zeggen dat het de verklarende kracht van de kwantitatieve term f(x) in de modelformule beoordeelt, die lineair, polynomiaal, exponentieel of logaritmisch kan zijn met vaste factoren. Het is gebruikelijk om de significantie te beoordelen met behulp van de regel van '95% betrouwbaarheid'. Zoals hierboven al is gezegd, wordt een p-waarde van 0,05 of lager als goed beschouwd.
Significantie van categorische factoren
In de tabel Analyse van variantie, ook wel ANOVA-tabel genoemd, wordt elk veld vermeld dat als factor in het model wordt gebruikt. Voor elk veld ziet u onder andere de p-waarde. In dit geval geeft de p-waarde aan in hoeverre het veld bijdraagt aan de significantie van het hele model. Hoe kleiner de p-waarde, hoe kleiner de kans dat het verschil in onverklaarde variantie tussen modellen met en zonder veld het gevolg is van toeval. De waarden die voor elk veld worden weergegeven, worden afgeleid door het volledige model te vergelijken met een model waarin het betreffende veld niet is opgenomen.
De onderstaande afbeelding toont de tabel Analyse van variantie met een overzicht van de kwartaalverkopen van de afgelopen twee jaar in drie verschillende productcategorieën.
Zoals u kunt zien, zijn de p-waarden voor Categorie en Regio allebei vrij klein. Beide factoren zijn in dit model statistisch significant.
Voor informatie over specifieke trendlijntermen raadpleegt u Voorwaarden voor trendlijnmodel.
Bij ANOVA-modellen worden trendlijnen gedefinieerd door de volgende wiskundige formule:
Y = factor 1 * factor 2 *
...factorN * f(x) + e
De term Y
wordt de responsvariabele genoemd en komt overeen met de waarde die u probeert te voorspellen. De term X
is de verklarende variabele, en e (epsilon) is een willekeurige fout. De factoren in de expressie komen overeen met de categorische velden in de weergave. Bovendien wordt elke factor weergegeven als een matrix. De *
is een speciaal soort matrixvermenigvuldigingsoperator die voor twee matrices met hetzelfde aantal rijen een nieuwe matrix met hetzelfde aantal rijen retourneert. Dat betekent dat in de expressie factor
1 * factor 2
alle combinaties van de leden van factor 1 en factor 2 worden geïntroduceerd. Als factor 1 en factor 2 bijvoorbeeld allebei drie leden hebben, worden met deze operator in totaal negen variabelen in de modelformule geïntroduceerd.
Aannamen voor trendlijnen
De p-waarden die in de trendlijnen van Tableau worden weergegeven, zijn afhankelijk van een aantal aannamen over de data.
De eerste aanname is dat, wanneer een test wordt uitgevoerd, het model voor het gemiddelde (in ieder geval bij benadering) correct is.
De tweede veronderstelling is dat de 'willekeurige fouten' waarnaar in de modelformule wordt verwezen (zie Trendlijnmodeltypen) in verschillende observaties onafhankelijk zijn, en dat ze allemaal dezelfde verdeling hebben. Deze beperking zou worden overtreden als de responsvariabele in de ene categorie veel meer variabiliteit rond de echte trendlijn zou hebben dan in de andere.
Vereiste aannamen voor de berekening van trendlijnen
De vereiste aannamen voor de berekening van elke afzonderlijke trendlijn (met behulp van gewone kleinste kwadraten) zijn:
Uw model is een nauwkeurige, functionele vereenvoudiging van het werkelijke proces van datageneratie (bijvoorbeeld: geen lineair model voor een log-lineaire relatie).
Uw fouten zijn gemiddeld nul en zijn niet gecorreleerd met uw onafhankelijke variabele (bijvoorbeeld: geen fout bij het meten van de onafhankelijke variabele).
Uw fouten hebben een constante variantie en zijn niet met elkaar gecorreleerd (bijvoorbeeld: de foutspreiding neemt niet toe naarmate uw onafhankelijke variabele toeneemt).
Verklarende variabelen zijn geen exacte lineaire functies van elkaar (perfecte multicollineariteit).
Veelgestelde vragen over trendlijnen
In dit gedeelte worden enkele veelgestelde vragen over trendlijnen in Tableau beschreven.
Hoe wijzig ik het betrouwbaarheidsniveau dat in het model wordt gebruikt?
Tableau dwingt geen betrouwbaarheidsniveau af. Tableau geeft eenvoudigweg de significantie van het hele model of van een specifiek veld weer door de p-waarde weer te geven. De p-waarde meet de waarschijnlijkheid dat hetzelfde trendresultaat wordt verkregen zonder rekening te houden met de dimensies. Zo betekent een p-waarde van 0,05 van een trend van de verkoop over een tijdsperiode dat de kans dat dezelfde waarde verkregen kan worden zonder rekening te houden met de tijd, 5% is.
Wat betekent het als de p-waarde voor het model significant is, maar de p-waarde voor het specifieke veld in de tabel Analyse van variantie niet significant is?
De p-waarde in de tabel Analyse van variantie geeft aan of het veld bijdraagt aan of afbreuk doet aan de significantie van het hele model. Hoe kleiner de p-waarde, hoe kleiner de kans dat het verschil in onverklaarde variantie tussen modellen met en zonder veld het gevolg is van toeval. De waarden die voor elk veld worden weergegeven, worden afgeleid door het volledige model te vergelijken met een model waarin het betreffende veld niet is opgenomen. In de situatie waarin de p-waarde voor het model significant is, maar de p-waarde voor het specifieke veld niet, weet u dus dat het model statistisch significant is, maar u kunt er niet zeker van zijn dat het specifieke veld in kwestie er iets aan toevoegt. Overweeg of het niet beter is om de factor uit het model te verwijderen.
Wat betekent het als de p-waarde voor het specifieke veld in de tabel Analyse van variantie significant is, maar de p-waarde voor het model niet significant is?
Dit kan gebeuren als er geen 'trend' in elk deelvenster zit. De lijnen bijvoorbeeld zijn plat, maar het gemiddelde varieert over een bepaalde factor.