Hoe Data uitleggen werkt

Gebruik Data uitleggen als een incrementeel startpunt voor verdere verkenning van uw data. De mogelijke uitleg die deze functie genereert, helpt u de verschillende waarden te zien waaruit een geanalyseerde markering in een weergave bestaat of waarmee deze verband houdt. De functie kan u inzicht geven in de kenmerken van de datapunten in de databron en hoe de data gerelateerd kan zijn (correlaties) met behulp van statistische modellen. Deze uitleg geeft u een extra hulpmiddel om uw data te inspecteren en interessante aanwijzingen te vinden over wat u daarna moet onderzoeken.

Opmerking: Data uitleggen is een tool waarmee u relaties in uw data kunt ontdekken en beschrijven. De tool kan u niet vertellen wat de oorzaak is van de relaties of hoe u de data moet interpreteren. U bent de expert op het gebied van uw data. Uw domeinkennis en intuïtie spelen een belangrijke rol bij het bepalen welke kenmerken interessant kunnen zijn om verder te onderzoeken met behulp van verschillende weergaven.

Voor gerelateerde informatie over hoe Data uitleggen werkt en hoe u Data uitleggen kunt gebruiken om uw analyses te verbeteren, kunt u de volgende presentaties van Tableau Conference bekijken:

Wat Data uitleggen wel en niet doet

Data uitleggen is het volgende:

  • Een hulpmiddel en een workflow die uw domeinexpertise optimaal benutten.
  • Een hulpmiddel dat relaties in uw data blootlegt en aanbevelingen doet waar u vervolgens kunt gaan kijken.
  • Een hulpmiddel en een workflow waarmee u data-analyse kunt versnellen en toegankelijker kunt maken voor een breder scala aan gebruikers.

Data uitleggen is niet het volgende:

  • Een statistisch testinstrument.
  • Een hulpmiddel om hypothesen te bewijzen of te ontkrachten.
  • Een hulpmiddel dat u een antwoord geeft of u iets vertelt over causaliteit in uw data.

Houd bij het uitvoeren van Data uitleggen op markeringen rekening met het volgende:

  • Gebruik gedetailleerde data die kan worden geaggregeerd. Deze functie is specifiek ontworpen voor de analyse van geaggregeerde data. Dit betekent dat uw data gedetailleerd moet zijn, maar de markeringen die u selecteert voor Data uitleggen, moeten worden geaggregeerd of samengevat op een hoger detailniveau. Data uitleggen kan niet worden uitgevoerd op uitgesplitste markeringen (data op rijniveau) op het meest gedetailleerde niveau. Zie Data-aggregatie in Tableau voor meer informatie over aggregatie.

  • Houd rekening met de vorm, grootte en kardinaliteit van uw data. Hoewel Data uitleggen kan worden gebruikt met kleinere datasets, is er data nodig die voldoende breed is en voldoende markeringen (granulariteit) bevat om een model te kunnen maken.

  • Ga niet uit van causaliteit. Correlatie is niet hetzelfde als causaliteit. De uitleg wordt gebaseerd op modellen van de data, maar is geen causale uitleg.

    Een correlatie betekent dat er een relatie bestaat tussen bepaalde datavariabelen, bijvoorbeeld A en B. U kunt echter niet door die relatie in de data zien dat A B veroorzaakt of B A veroorzaakt, of dat er iets ingewikkelder aan de hand is. De datapatronen zijn in elk van deze gevallen precies hetzelfde en een algoritme kan geen onderscheid maken tussen de verschillende gevallen. Het feit dat twee variabelen gelijktijdig lijken te veranderen, betekent niet per se dat de ene variabele de verandering van de andere veroorzaakt. Een derde factor zou ervoor kunnen zorgen dat beide veranderen of het kan toeval zijn en zo zijn dat er helemaal geen causaal verband is.

    Het kan echter ook zijn dat u over externe kennis beschikt die niet in de data is opgenomen en die u helpt te achterhalen wat er aan de hand is. Een veelvoorkomend type externe kennis is een situatie waarin de data zijn verzameld in een experiment. Als u weet dat B is gekozen door een muntje op te gooien, moet elk consistent patroon van verschil in A (dat niet zomaar willekeurige ruis is) worden veroorzaakt door B. Zie het artikel Causal inference in economics and marketing(Link wordt in een nieuw venster geopend) door Hal Varian voor een langere, meer diepgaande beschrijving van deze concepten.

Hoe verklaringen worden geanalyseerd en geëvalueerd

Data uitleggen voert een statistische analyse uit op een dashboard of blad om markeringen te vinden die uitschieters zijn, of specifiek op een door u geselecteerde markering. Bij de analyse wordt ook rekening gehouden met mogelijk gerelateerde datapunten uit de databron die niet in de huidige weergave worden weergegeven.

Data uitleggen voorspelt eerst de waarde van een markering aan de hand van de data die in de visualisatie aanwezig is. Vervolgens wordt de data die zich in de databron (maar niet in de huidige weergave) bevindt, bekeken en aan het model toegevoegd. Het model bepaalt het bereik van de voorspelde markeringswaarden, dat binnen één standaardafwijking van de voorspelde waarde ligt.

Wat is een verwacht bereik?

De verwachte waarde voor een markering is de mediaanwaarde in het verwachte bereik van waarden in de onderliggende data in uw visualisatie. Het verwachte bereik is het bereik van waarden tussen het 15e en 85e percentiel dat het statistische model voorspelt voor de geanalyseerde markering. Tableau bepaalt het verwachte bereik telkens wanneer een statistische analyse op een geselecteerde markering wordt uitgevoerd.

Mogelijke uitleg wordt geëvalueerd op de verklarende kracht met behulp van statistische modellen. Voor elke uitleg vergelijkt Tableau de verwachte waarde met de werkelijke waarde.

waardeBeschrijving
Hoger dan verwacht / Lager dan verwachtAls een samenvatting van de verwachte waarde aangeeft dat de markering lager dan verwacht of hoger dan verwacht is, betekent dit dat de geaggregeerde markeringswaarde buiten het bereik van waarden ligt dat een statistisch model voor de markering voorspelt. Als een samenvatting van de verwachte waarde aangeeft dat de markering iets lager of iets hoger is dan verwacht of binnen het bereik van de natuurlijke variatie ligt, betekent dit dat de geaggregeerde markeringswaarde binnen het bereik van de voorspelde markeringswaarden ligt, maar lager of hoger is dan de mediaan.
Verwachte waardeAls een markering een verwachte waarde heeft, betekent dit dat de waarde ervan binnen het verwachte bereik van waarden valt dat een statistisch model voor de markering voorspelt.
Willekeurige variatieAls de geanalyseerde markering een laag aantal records bevat, beschikt Data uitleggen wellicht over onvoldoende gegevens om een statistisch significante uitleg te formuleren. Als de waarde van de markering buiten het verwachte bereik valt, kan Data uitleggen niet bepalen of deze onverwachte waarde wordt veroorzaakt door willekeurige variatie of door een betekenisvol verschil in de onderliggende records.
Geen uitlegWanneer de waarde van de geanalyseerde markering buiten het verwachte bereik valt en niet bij een statistisch model past dat wordt gebruikt voor Data uitleggen, wordt er geen uitleg gegenereerd.

Modellen die worden gebruikt voor analyse

Data uitleggen bouwt modellen van de data in een weergave om de waarde van een markering te voorspellen en bepaalt vervolgens of een markering hoger of lager is dan verwacht op basis van het model. Vervolgens wordt aanvullende informatie in overweging genomen, zoals het toevoegen van extra kolommen uit de databron aan de weergave of het markeren van uitschieters op recordniveau, als mogelijke uitleg. Voor elke mogelijke uitleg past Data uitleggen een nieuw model toe en wordt geëvalueerd hoe onverwacht de markering is gezien de nieuwe informatie. De uitleg wordt beoordeeld door de complexiteit (hoeveel informatie wordt toegevoegd vanuit de databron) af te wegen tegen de hoeveelheid variabiliteit die moet worden uitgelegd. Een betere uitleg is eenvoudiger dan de variatie die deze uitlegt.

 

Type uitlegEvaluatie

Extreme waarden

Extreme waarden zijn geaggregeerde markeringen die uitschieters zijn, gebaseerd op een model van de gevisualiseerde markeringen. De geselecteerde markering wordt beschouwd als een extreme waarde als een recordwaarde zich aan de randen van de verdeling van de verwachte waarden voor de data bevindt.

Een extreme waarde wordt bepaald door de geaggregeerde markering met en zonder de extreme waarde te vergelijken. Als de markering minder verrassend wordt doordat er een waarde wordt verwijderd, krijgt deze een hogere score.

Wanneer een markering extreme waarden heeft, betekent dit niet automatisch dat er ook uitschieters zijn of dat u die records uit de weergave moet weglaten. Die keuze is aan u en is afhankelijk van uw analyse. De uitleg geeft eenvoudigweg een interessante extreme waarde aan in de markering. Het kan bijvoorbeeld voorkomen dat een foutief ingevoerde waarde in een record wordt aangetroffen, waarbij een banaan 10 euro kost in plaats van 10 cent. Of er kan staan dat een bepaalde verkoper een goed kwartaal heeft gehad.

Aantal records

De uitleg voor het aantal records modelleert de geaggregeerde som wat betreft het geaggregeerde aantal; de gemiddelde waarde van records modelleert dit wat betreft het geaggregeerde gemiddelde. Hoe beter het model de som uitlegt, hoe hoger de score.

Deze uitleg beschrijft of de som interessant is omdat het aantal hoog of laag is, of omdat het gemiddelde hoog of laag is.

Gemiddelde waarde van de markering

Dit type uitleg wordt gebruikt voor geaggregeerde markeringen die sommen zijn. Het geeft aan of de markering consistent is met de andere markeringen wat betreft het geaggregeerde aantal of gemiddelde overeenkomt, waarbij de relatie SUM(X) = COUNT(X) * AVG(X).

Deze uitleg beschrijft of de som interessant is omdat het aantal hoog of laag is, of omdat het gemiddelde hoog of laag is.

Bijdragende dimensies

Deze uitleg modelleert de doelmeetwaarde van de geanalyseerde markering wat betreft de uitsplitsing binnen de categorieën van de niet-gevisualiseerde dimensie. Bij de analyse wordt de complexiteit van het model in evenwicht gebracht met hoe goed de markering wordt uitgelegd.

Een niet-gevisualiseerde dimensie is een dimensie die voorkomt in de databron, maar momenteel niet wordt gebruikt in de weergave. Dit type uitleg wordt gebruikt voor sommen, aantallen en gemiddelden.

Het model voor niet-gevisualiseerde dimensies wordt gemaakt door markeringen op te splitsen op basis van de categorische waarden van de verklarende kolom. Vervolgens wordt een model gebouwd met de waarde die alle datapunten omvat in de bronvisualisatie. Voor elke rij probeert het model elk van de afzonderlijke componenten te herstellen die elke markering hebben gemaakt. Uit de analyse blijkt of het model de markering beter voorspelt wanneer componenten die overeenkomen met de niet-gevisualiseerde dimensie worden gemodelleerd en vervolgens worden opgeteld, in plaats van met een model waarbij de waarden van de niet-gevisualiseerde dimensie niet bekend zijn.

Geaggregeerde dimensie-uitleg onderzoekt hoe goed markeringswaarden kunnen worden uitgelegd zonder enige voorwaarden. Vervolgens stelt het model voorwaarden aan de waarden voor elke kolom die een mogelijke uitleg vormt. Voorwaarden voor de distributie van een uitlegkolom zou moeten resulteren in een betere voorspelling.

Bijdragende meetwaarden

Deze uitleg modelleert de markering wat betreft deze niet-gevisualiseerde meetwaarde, geaggregeerd tot het gemiddelde over de gevisualiseerde dimensies. Een niet-gevisualiseerde meetwaarde is een meetwaarde die voorkomt in de databron, maar momenteel niet wordt gebruikt in de weergave.

Een uitleg voor Bijdragende meetwaarden kan een lineair of kwadratisch verband tussen de niet-gevisualiseerde meetwaarde en de doelmeetwaarde onthullen.

Bedankt voor uw feedback.De feedback is verzonden. Dank u wel.