Bearbeta med och Datapartitionering i prediktiv modellering

Du gör prognoser från data genom att inkludera funktioner för prediktiv modellering, MODEL_QUANTILE eller MODEL_PERCENTILE, i en tabellberäkning.

Kom ihåg att alla tabellberäkningar måste ha en riktning för Bearbeta med angiven. En översikt över hur olika adresserings- och partitioneringsdimensioner kan påverka resultaten finns i Omvandla värden med tabellberäkningar.

snabbmeny över Beräkna med

Obs! När du lägger tabellberäkning måste du använda alla dimensioner i detaljnivån antingen för partitionering (omfattning) eller adressering (riktning). De dimensioner som definierar hur beräkningen ska grupperas (omfattningen av data som den utförs på) kallas för partitioneringsfält. Tabellberäkningen utförs separat inom respektive partition. De återstående dimensionerna, på vilka tabellberäkningen utförs, kallas för adressringsfält och bestämmer beräkningsriktningen. Mer information finns i Grundläggande information: Adressering och partitionering.

I funktioner för prediktiv modellering används alternativet Beräkna med för att partitionera (omfatta) den datauppsättning som ska användas för att skapa den prediktiva modellen.

Funktioner för prediktiv modellering har inte ett adresseringskoncept (riktning), då modellen returnerar ett distinkt resultat för varje markering utifrån de valda prediktorerna. Med andra ord är funktioner för preditktiv modellering inte sekventiella, till skillnad från Löpande totalsumma, där adresseringsdimensionen fastställer ordningen i vilken fälten läggs till och resultaten returneras. De beräknar resultat med hjälp av en modell från de data som definierats av funktionens mål och prediktorer, till den detaljnivå som har angetts av visualiseringen. Inom dessa data finns det inte något sekvenskoncept, såvida inte en prediktor, som till exempel en datumdimension, används.

Vidare används alltid detaljnivån i visualiseringen vid definitionen av vilka data som ska användas för att skapa modellen. Alla tabellberäkningar ligger på samma detaljnivå som själva visualiseringen, och funktioner för prediktiva modeller är inget undantag.

Rekommendationer för funktioner för prediktiva modeller

Vi rekommenderar att du väljer en specifik dimension att partitionera på när du använder funktioner för prediktiva modeller. Eftersom du kan ha flera prognosberäkningar i en visualisering eller instrumentpanel säkerställer valet av en specifik partitioneringsdimension att du skapar modeller med samma underliggande datauppsättning för varje enskild funktion, och att du därmed jämför resultat från lika modeller.

När du arbetar med funktioner för prediktiva modeller i Tableau är det viktigt att du säkerställer att du är konsekvent över olika instansieringar, både i olika iterationer av modellen (t.ex. när du väljer olika prediktorer) och i olika visualiseringar. Genom att använda riktningsalternativet Bearbeta med öppnar du upp möjligheten att en liten ändring i visualiserade data har en betydande inverkan på data som används för att skapa modellen. Därmed påverkas även giltigheten och konsekvensen hos data i olika visualiseringar.

Välja dimensioner

I följande exempel används datakällan Urval - Superstore som ingår i Tableau Desktop.

När du väljer en dimension får du inte glömma att Tableau skapar en prediktiv modell över den dimensionen. Det innebär att om du väljer Orderdatum som partitioneringsdimension använder Tableau data inom någon annan upprättad partition, men längs med värden för Orderdatum.

På bilden nedan visas data som används för att skapa modellen som framhävs i gult och modellutdata som framhävs i orange. Eftersom det inte finns några prediktorer är alla svar i det här fallet identiska inom en given underkategori. Du får mer meningsfulla resultat om du väljer optimala prediktorer. Mer information om optimala prediktorer finns i Att välja prediktorer.

tabell som visas identiska resultat

På liknande skulle Tableau använda data inom en given månad men längs med flera underkategorier, enligt nedan, om underkategori hade valts som en partitioneringsdimension. Om data delas upp ytterligare i rutor skulle rutornas gränser respekteras när en modell skapas.

tabell som visar identiska resultat för varje underkategori

En anmärkning om partitionering

Observera att partitionering av data har betydande visuella effekter på de data som används för att skapa en modell och generera prognoser. Om du lägger till en högre detaljnivå (till exempel både Län och Stad på en enda hylla) partitioneras dina data efter den högre detaljnivån. Detta är sant oavsett ordning på fälten som placeras på hyllan. Till exempel returnerar dessa identiska prognoser:

Fältet Stad och fältet Län på hyllan RaderFältet Län och fältet Stad på hyllan Rader

Om du lägger till ett fält som ändrar detaljnivån partitioneras data om det läggs till hyllar Rader eller hyllan Kolumner, eller till Färg, Storlek, Etikett, Detaljer eller Form på kortet Markeringar. Om du lägger till ett fält med en annan detaljnivå till Verktygstips partitioneras inte dina data.

I exemplet nedan partitioneras modellen automatiskt efter Kategori eftersom fälten Kategori och Underkategori båda är på Rader. Prognosberäkningen beräknas över Underkategori inom gränserna för fältet på högre nivå, Kategori.

tabell som visar identiska resultat för varje underkategori

Detta har en inverkan på hur dina prediktorer tillämpas. Här följer ett exempel. I det här fallet har vi tre MODEL_QUANTILE-tabellberäkningar:

Förutse_Försäljning_StadFörutse_Försäljning_DelstatFörutse_Försäljning_Region
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([City]))
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([State]))
MODEL_QUANTILE(0.5,sum([Sales]),
ATTR([Region]))

För alla tre har vi valt Bearbeta med > Stad. Nu tittar vi på några städer i North Carolina:

tabell som visar resultat efter Stad

Observera att resultaten från alla tre beräkningarna är identiska inom en given delstat, trots att vi använder olika prediktorer.

Om vi tar bort Region från hyllan Rader händer ingenting med resultaten – de är fortfarande identiska inom en given delstat:

tabell som visar samma resultat om Region tas bort

Men om vi tar bort Län från hyllan Rader ser vi andra resultat för varje beräkning:

tabell som visar olika resultat om Län tas bort

Vad händer?

I det första exemplet partitioneras städerna av Region och Län på hyllan Rader. Därför får modellerna för Förutse_Försäljning_Stad, Förutse_Försäljning_Delstat och Förutse_Försäljning_Region samma data och genererar samma prognoser.

Eftersom vi redan har partitionerat data visuellt inom Län och Region tillför ingen av prediktorerna något värde till modellen och har ingen inverkan på resultaten:

tabell som visar prediktorer tillför inte värde till modellen

När vi tar bort Region från hyllan Rader partitionerar vi fortfarande efter Län, så det finns ingen förändring i de data som används för att skapa modellen. Återigen, eftersom vi redan har partionerat data visuellt inom Län tillför ingen av prediktorerna något värde till modellen och har ingen inverkan på resultaten:

tabell som visar prediktorer tillför inte värde till modellen

Däremot när vi tar bort Län avpartitioneras data och vi ser olika prognoser för varje beräkning. Vi tar en närmare titt på vad som händer:

tabell som visar olika prognoser när Län tas bort

För Förutse_Försäljning_Stad använder vi ATTR([Stad]) som prediktor. Eftersom detta är på samma detaljnivå som visualiseringen tillförs inget värde och den ignoreras. Vi aggregerar Försäljning för alla städer, skickar dem till statistikmotorn och beräknar den förutsedda försäljningen. Eftersom inga andra prediktorer inkluderas ser vi samma resultat för varje stad. Om vi hade inkluderat ett eller flera mätvärden skulle resultaten variera.

tabell som visar samma resultat för varje stad

För Förutse_Försäljning_Län använder vi ATTR([Län]) som prediktor. Prediktorn partitionerar alla data för Stad efter Län. Vi förväntar oss att se identiska resultat inom en delstat, men olika resultat för varje delstat.

Men observera att det inte är vad vi får. Städerna Cary, Chapel Hill och Charlotte har alla identiska prognoser på 2 084 dollar. Burlington har dock en annan prognos på 9 366 dollar.

tabell som visar att Burlington har ett annat resultat

Det beror på att det finns en stad med namnet ”Burlington” i flera delstater (Iowa, North Carolina och Vermont). Därför får Län en *, vilket innebär ”fler än ett värde”. Alla markeringar där Län får en * utvärderas tillsammans, så om någon annan stad också finns i flera delstater skulle den också få en prognos på 9 366 dollar.

För Förutse_Försäljning_Region använder vi ATTR([Region]) som prediktor. Prediktorn partitionerar alla data för Stad efter Region. Vi förväntar oss att se identiska resultat inom en region, men olika resultat för varje region.

tabell som visar att Region får samma resultat som Burlington

Eftersom Burlington finns i flera regioner (centrala, östra och södra) får Region en *. Burlingtons prognoser matchar endast de städer som också finns i flera regioner.

Som du ser är det väldigt viktigt att kontrollera att dimensionella prediktorer är korrekt justerade till både visualiseringens detaljnivå och partitioneringen. Om du delar upp visualiseringen ytterligare efter någon dimension kan det leda till oönskade effekter på prognosen.

Tack för din feedback!Din feedback har skickats in. Tack!