Kombinera data

Datakombination är en metod för att kombinera data från flera källor. Datakombination tar in ytterligare information från en sekundär datakälla och visar denna information med data från den primära datakällan direkt i vyn.

Datakombination är särskilt användbart när kombinationsrelationen – länkningsfälten – behöver variera från blad till blad eller när du kombinerar publicerade datakällor.

Alternativ för att kombinera data

Det finns flera sätt att kombinera data på, och varje metod har sina egna unika styrkor och svagheter.

Relationer är standardmetoden och kan användas i de flesta fall, även över tabeller med olika detaljnivå. Relationer är flexibla och kan anpassas till analysstrukturen i varje enskilt blad. Du kan emellertid inte skapa relationer mellan tabeller från publicerade datakällor.

Kopplingar kombinerar tabeller genom att lägga till fler kolumner av data över liknande radstrukturer. Detta kan orsaka dataförlust eller dataduplicering om tabellerna har olika detaljnivå, och kopplingar måste upprättas innan analysen kan börja. Du kan inte använda en publicerad datakälla i en koppling.

Kombinationer kombinerar faktiskt aldrig data direkt, till skillnad från relationer och kopplingar. I stället frågar kombinationer varje datakälla separat. Resultaten aggregeras till lämplig nivå och presenteras sedan visuellt tillsammans i vyn. Därför kan kombinationer hantera olika detaljnivåer och de fungerar även med publicerade datakällor. Kombinationer skapar inte en ny, kombinerad datakälla (och de kan därför inte publiceras som en ”kombinerad datakälla”). I stället är de helt enkelt kombinerade resultat som visualiseras på bladnivå.

Steg för att kombinera data

Datakombination utförs per blad och upprättas när ett fält från en sekundär datakälla används i vyn.

Om du vill skapa en kombination i en arbetsbok måste du ansluta till minst två datakällor. Hämta sedan ett fält från en datakälla till bladet – detta blir den primära datakällan. Växla till den andra datakällan och använd ett fält på samma blad. Detta blir den sekundära datakällan. En länkningsikon visas i rutan Data. Den här ikonen anger vilka fält som används för att kombinera datakällorna.

  1. Kontrollera att arbetsboken har flera datakällor. Den andra datakällan lägger du till genom att gå till Data > Ny datakälla.

    Tips: Kombination kräver minst två distinkta datakällor, som listas separat i rutan Data. Om du lägger till ytterligare en anslutning till den första datakällan aktiveras relationer och kopplingar på sidan Datakälla.

  2. Dra ett fält till vyn. Den här datakällan blir den primära datakällan.
  3. Växla till en annan datakälla och kontrollera att det finns en kombinationsrelation till den primära datakällan.
    • Om det finns en länkningsfältsikon () länkas datakällorna automatiskt. Så länge det finns minst en aktiv länk kan data kombineras.
    • Om det finns ikoner för brutna länkar () klickar du på ikonen bredvid fältet som ska länka de två datakällorna. Snedstrecket försvinner, vilket betyder att länken är aktiv.
    • Om ingen länkikon visas bredvid det önskade fältet finns mer information i Definiera kombinationsrelationer för kombination.
  4. Dra ett fält till vyn från den sekundära datakällan.

Så fort denna sekundära datakälla används i samma vy upprättas en kombination. I exemplet nedan är den primära datakällan Movie Adaptations (Filmatiseringar) och den sekundära datakällan är Bookshop (Bokhandel).

  • Den primära datakällan indikeras med en blå kryssmarkering på datakällan. Fält från den primära datakällan som används i vyn har ingen indikation.
  • Den sekundära datakällan indikeras med en orange kryssmarkering på datakällan och ett orange fält längs sidan av rutan Data. Fält från den sekundära datakällan som används i vyn har en orange kryssmarkering.

Förstå primära och sekundära datakällor

Datakombination kräver en primär datakälla och minst en sekundär datakälla. Den första datakällan som används i vyn blir den primära datakällan och definierar vyn. Detta kan begränsa värden från den sekundära datakällan. Endast värden som har motsvarande matchningar i den primära datakällan visas i vyn. Det här går att jämföra med en vänster koppling.

Om den primära datakällan till exempel har fältet Månad och det endast innehåller april, maj och juni visar en vy som har skapats kring månader endast april, maj och juni, även om den sekundära datakällan har värden för tolv månader. Om den önskade analysen inbegriper alla tolv månader kan du försöka att växla primär datakälla genom att återskapa bladet och använda den andra datakällan först.

Läs mer: Effekterna av ordningen på datakällorna

I följande exempel används samma datakällor länkade på samma fält, och visualiseringen har skapats på samma sätt båda gångerna. Skillnaden mellan resultaten beror på vilken datakälla som utses till primär.

  1. Här placeras fältet Månad från datakällan Regn i vyn först. Eftersom Regn endast innehåller tre månader placeras endast tre månader i vyn när datauppsättningen Pollen läggs till som sekundär.
  2. produktbild av en visualiseringen över tre månader
  3. På ett annat blad placeras fältet Månad från datakällan Pollen i vyn först. Alla tolv månader visas. När datauppsättningen Regn läggs till som sekundär är Regn endast tillgänglig för de tre månaderna i den datauppsättningen.
  4. produktbild av en visualiseringen över tolv månader

Arbeta över kombinerade datakällor

På grund av datakombinationens natur finns det vissa saker att tänka på när du arbetar över kombinerade datakällor.

Beräkningar med fält från fler än en datakälla kan skilja sig något från vanliga beräkningar. En beräkning måste skapas i en enda datakälla. Vilken datakälla beräkningen finns i visas överst i beräkningsredigeraren.

  • Aggregering Alla fält som används från en annan datakälla förs in med en aggregering. Som standard SUM, men detta kan ändras. Eftersom beräkningar inte kan blanda aggregerade och icke-aggregerade argument måste även fält från den datakälla där beräkningen utförs aggregeras. (På bilden nedan har aggregeringen SUM lagts till automatiskt och aggregeringen av summa har lagts till manuellt.)
  • Punktnotation. Alla fält som refereras i beräkningen och som tillhör en annan datakälla refererar till datakällan med punktnotation. (På bilderna nedan blir fältet Säljmål [Sales.Targets].[Sales Target] för beräkningen som skapats i Urval - Superstore. När beräkningen skapas i Säljmål blir fältet Försäljning [Urval - Superstore].[Sales].)
  • Det här är motsvarande versioner av samma beräkning skapad i vardera datakälla. I båda fallen är det här SUM(Försäljning)/SUM(Säljmål).

Förutom att beräkningar hanteras olika finns det ett antal begränsningar på sekundära datakällor. Det kan hända att du inte kan sortera efter fält från en sekundär datakälla och att åtgärdsfilter inte fungerar som de ska med kombinerade data. Mer information finns i Andra problem med att kombinera data.

Definiera kombinationsrelationer för kombination

För att Tableau ska kunna veta hur data från flera källor ska kombineras måste det finnas en gemensam dimension eller flera gemensamma dimensioner mellan datakällorna. Denna gemensamma dimension kallas länkningsfältet. Aktiva länkningsfält identifieras i rutan Data för den sekundära datakällan med en ikon för aktiv länk () och potentiella länkningsfält identifieras med en ikon för bruten länk (). Länkningsfält anges inte på den primära datakällan.

I en kombination av transaktions- och kvotdata kan till exempel ett geografiskt fält vara det önskvärda länkningsfältet, så att du kan analysera både en kvot och prestanda i förhållande till den kvoten för en och samma region.

Obs! För att kombinationen ska fungera måste länkningsfältet dela värden eller medlemmar. Tableau skapar vyn av kombinerade data utifrån de delade värdena. Om till exempel Färg är länkningsfältet i båda datakällorna matchar Tableau data på ”Lila” från den primära med ”Lila” från den sekundära datakällan. Men ”Lj.blå” kartläggs inte korrekt till ”Ljusblå”, så en av dem måste släppas. Precis som du kan byta namn på fält för att hjälpa Tableau att identifiera länkningsfält kan du redigera alias för medlemmar i fälten. Mer information finns i Skapa alias för att byta namn på medlemmar i vyn.

Upprätta en länk

Om länkningsfältet i den primära och sekundära datakällan har samma namn skapar Tableau automatiskt relationen. När en primär datakälla har upprättats (det vill säga ett fält används i vyn) och den sekundära datakällan väljs i rutan Data, visas det en länkningsikon ( eller ) i den sekundära datakällan för alla fält med samma namn i de två datakällorna. Om det relaterade fältet från den primära datakällan används i vyn blir länken automatiskt aktiv.

Om det inte finns några länkikoner på den sekundära datakällan kan det hända att du måste hjälpa Tableau med att upprätta en länk på ett av de följande två sätten: 

  1. Om gemensamma dimensioner inte har samma namn (till exempel ”Titel” och ”Boktitel”) kan du byta namn på en av dem så att Tableau kan identifiera dem som gemensamma dimensioner och upprätta länken.

  2. Alternativt kan du manuellt definiera relationen mellan fälten i den primära och sekundära datakällan. Nedan finns mer information om hur du skapar en länkrelation manuellt.

Det kan finnas hur många aktiva eller potentiella länkningsfält som helst. Klicka på ikonen för bruten länk () i rutan Data för att göra relationen aktiv.

Definiera en länkrelation manuellt

Om de vanliga dimensionerna inte har samma namn kan du kartlägga relationen mellan dem manuellt.

  1. Välj Data > Redigera kombinationsrelationer ….

  2. I dialogrutan Kombinera relationer bekräftar du att den primära datakällan väljs från listrutan Primär datakälla.

  3. Välj den sekundära datakällan i rutan Sekundär datakälla. Alla befintliga, automatiska kombinationsrelationer är synliga (och kan tas bort genom att hålla muspekaren över raden och klicka på x). Välj Anpassad i relationslistan och klicka på Lägg till.

  4. I dialogrutan Lägg till/redigera fältkartläggning gör du följande:

    1. Välj ett fält från den primära datakällan.

    2. Välj motsvarande fält i den sekundära datakällan.

    3. Klicka på OK.

      I det här exemplet har Segment mappats till Kundsegment.

      Produktgränssnitt för dialogrutan Lägg till/redigera relationer

      Tips: För datum kan relationen specificeras exakt. Expandera datumfältet och välj den önskade aspekten för datumet, till exempel exakt datum, månad, år o.s.v.

  5. Skapa så många fältkartläggningar du vill och klicka på OK.

Flera länkar

Precis som med relationer eller kopplingar finns det tillfällen då länkarna mellan datakällorna definieras av fler än ett fält. Till exempel om regional försäljningskvot är månatlig måste en kombination av transaktionella försäljningsdata och kvotdata upprättas på både region och månad för att rätt data ska kombineras i vyn. Flera länkar kan vara aktiva samtidigt.

Läs mer: Inverkan av flera länkningsfält

När data kombineras utifrån flera fält inkluderas endast värden i vyn när kombinationen av data från fälten matchar över båda datauppsättningarna. Ett exempel kan göra detta tydligare.

Vi har två tabeller, en för fåglar som faktiskt har iakttagits av fågelskådare och en för fåglar som har rapporterats iakttagna.

och

Om vi upprättar en kombinerad vy med fälten Fågelskådare och Antal fåglar från den primära datakällan (Iakttagna fåglar) och tar in fältet Antal rapporter från den sekundära datakällan (Rapporterade fåglar), så kombinerar Tableau automatiskt på Fågelskådare.

Vi ser att fågelskådare A såg tre fåglar och lämnade in två rapporter, fågelskådare B såg fyra fåglar och lämnade in en rapport och fågelskådare C såg åtta fåglar och lämnade in två rapporter.

Men det finns bara ett möjligt länkningsfält, Iakttagna arter. Varför inte också kombinera på detta? Gör det någon skillnad? 

Det gör en ganska stor skillnad. Nu ser vi att det endast finns en rapport var för fågelskådare A och C och att B har null. Vad händer? 

Det visar sig att dessa fågelskådare inte är särskilt ärliga. När de endast rapporterade iakttagelserna utifrån en journalpost (blå fält på bilden ovan) stämde de arter som de rapporterade ha iakttagit inte överens med vad de faktiskt såg (observera null i den andra kolumnen, från den sekundära datakällan Iakttagna fåglar). När de backade upp rapporten med ett fotografi (orange fält) var de ärliga (båda kolumnerna Iakttagna arter stämmer överens).

Eftersom tre rapporter inte stämde överens avseende arter visades inte de dataraderna när Iakttagna arter användes som länkningsfält. I vyn visas endast data där värden för båda länkningsfält stämmer överens.

Slutsats

Var försiktig när du länkar på flera fält. Även om det kan vara lätt att klicka på ikonen och upprätta en aktiv länk kan överlänkning eller länkning på oönskade fält ha en allvarlig inverkan på analysen.

Skillnader mellan kopplingar och datakombination

Datakombination simulerar en traditionell vänster koppling. Den huvudsakliga skillnaden mellan dem är när i processen som aggregeringen utförs. I en koppling kombineras data först och aggregeras därefter. I en kombination aggregeras data först och kombineras därefter.

Vänster koppling

När du använder en vänster koppling för att kombinera data skickas en fråga till databasen där kopplingen utförs. En vänster koppling returnerar alla rader från vänster tabell och alla eventuella motsvarande rader från höger tabell. Resultatet från kopplingen skickas sedan tillbaka till Tableau där det aggregeras för visning i visualiseringen.

En vänster koppling tar alla rader från vänster tabell. De gemensamma kolumnerna är Användar-ID och Kund-ID. Om det finns motsvarande information i höger tabell returneras dessa data. I annat fall visas null.

 

Anta att du har samma tabeller, men vänder på ordningen. Denna nya vänster koppling producerar ett annat resultat. Återigen tar en vänster koppling alla data från den nya tabellen till vänster, men ignorerar i princip rader från höger tabell. Dataraden för Användar-ID = 4 inbegrips inte eftersom det inte finns någon rad för Kund-ID = 4 i vänster tabell.

Kombinerade data

När du använder datakombination för att kombinera data skickas en fråga till databasen för vardera datakälla som används på bladet. Resultaten från frågorna skickas sedan tillbaka till Tableau som aggregerade data och presenteras tillsammans i visualiseringen.

Obs! Att aggregera mätvärden är enkelt. Vi kan ta summan, genomsnittet, maxvärdet eller någon annan aggregering av ett nummer. Mätvärden aggregeras baserat på hur fältet aggregeras i vyn. Alla fält från en sekundär datakälla måste dock aggregeras. Hur fungerar detta för dimensioner? Dimensionsvärden aggregeras med hjälp av aggregeringsfunktionen ATTR, som returnerar ett enskilt värde för alla rader i den sekundära datakällan. Om det finns flera värden i dessa rader visas en asterisk (*). Detta kan tolkas som att ”det finns flera värden i den sekundära datakällan för den här markeringen i vyn”.

I vyn används alla värden från den primära datakällan (fungerar som vänster tabell) och motsvarande rader från den sekundära datakällan (höger tabell) baserat på länkningsfälten.

Anta att du har följande tabeller. Om länkningsfälten är Användar-ID och Kund-ID kan inte alla värden vara del av den resulterande tabellen på grund av följande:

  • En rad i vänster tabell har inte en motsvarande rad i höger tabell, vilket indikeras av null-värdet i resultaten.

  • Det finns flera motsvarande värden i raderna i höger tabell, vilket indikeras av asterisken (*) i resultaten.

När mätvärden inbegrips aggregeras även dem, enligt nedan:

Viktigt: En asterisk (*) i en vy med kombinerade data indikerar flera värden. Detta kan åtgärdas genom att säkerställa att det endast finns ett matchande värde i den sekundära datakällan för varje markering i den primära datakällan, möjligtvis genom att byta plats på den primära och sekundära datakällan. Mer information finns i Felsöka kombinerade data.

En snabb överblick över kombinerade data

  • Datakombination utförs per blad.
  • Den ordning som fälten används i bestämmer vilken datakälla som är den primära och vilken som är den sekundära datakällan.
  • Den primära datakällan indikeras av en blå kryssmarkering och alla sekundära datakällor och fält från sekundära datakällor har en orange kryssmarkering.
  • Länkningsfält kan automatiskt fastställas utifrån delade fältnamn eller så kan kombinationsrelationen skapas manuellt.
  • Kombinerade data beter sig ungefär som en vänster koppling och kan leda till att data saknas från den sekundära datakällan.
  • Det kan hända att asterisker (*) visas. Detta indikerar flera dimensionsvärden i en enskild markering, då datakombination tar aggregerade resultat och kombinerar dem i vyn.
  • En sekundär datakälla kan användas för att byta alias på fältvärden i en primär datakälla. Mer information finns i Alias-fältvärden använder kombinerade data.

Begränsningar för kombinerade data

  • Det finns vissa datakombinationsbegränsningar kring icke-additiva aggregeringar, såsom COUNTD, MEDIAN och RAWSQLAGG. Mer information finns i Felsöka kombinerade data.
  • Kombinerade datakällor kan inte publiceras som en enhet. I stället publicerar du varje datakälla separat (till samma server) och kombinerar sedan de publicerade datakällorna.
  • Data från sekundära datakällor måste alltid aggregeras i beräkningar.
  • Om du kombinerar en flerdimensionell datakälla måste det vara en primär datakälla.
Tack för din feedback!Din feedback har skickats in. Tack!