Data uit Excel, CSV, PDF en Google Spreadsheets opschonen met Data-interpreter

Wanneer u data in Excel-spreadsheets bijhoudt, maakt u deze met de menselijke interface in gedachten. Om uw spreadsheets gemakkelijk leesbaar te maken, kunt u zaken als titels, gestapelde kopteksten, opmerkingen en eventueel lege rijen en kolommen toevoegen om witruimte toe te voegen. Bovendien heeft u waarschijnlijk ook meerdere tabbladen met data.

Wanneer u deze data wilt analyseren in Tableau, maken deze esthetisch aantrekkelijke kenmerken het voor Tableau erg moeilijk om uw data te interpreteren. Dat is waar Data-interpreter u kan helpen.

Tip: Hoewel de Excel-add-in van Tableau niet langer wordt ondersteund, kan Data-interpreter u helpen uw data opnieuw vorm te geven voor analyse in Tableau.

Wat doet Data-interpreter?

Data-interpreter kan u een voorsprong geven bij het opschonen van uw data. Het kan zaken als titels, opmerkingen, voetteksten, lege cellen, enzovoort detecteren en deze omzeilen om de daadwerkelijke velden en waarden in uw dataset te identificeren.

Het kan zelfs extra tabellen en subtabellen detecteren, zodat u onafhankelijk van de andere data met een subset van uw data kunt werken.

Nadat de magie van Data-interpreter zijn werk heeft gedaan, kunt u het werk controleren om er zeker van te zijn dat de gewenste data zijn vastgelegd en correct geïdentificeerd. Vervolgens kunt u de nodige aanpassingen maken.

Nadat u de data hebt geselecteerd waarmee u wilt werken, moet u mogelijk ook enkele extra opschoningsstappen uitvoeren, zoals het draaien van uw data, het splitsen van velden of het toevoegen van filters om de data in de gewenste vorm te krijgen voordat u met uw analyse begint.

Opmerking: Probeer Tableau Prep(Link wordt in een nieuw venster geopend) als uw data verder opgeschoond moeten worden dan waarmee Data-interpreter u kan helpen.

Data-interpreter inschakelen en resultaten controleren

  1. Vanuit het deelvenster Verbinding kunt u verbinding maken met een Excel-spreadsheet of een andere connector die Data-interpreter ondersteunt, zoals tekstbestanden (.csv), PDF-bestanden of Google Spreadsheets.

  2. Sleep een tabel naar het canvas (indien nodig) en vervolgens naar de pagina Databron, selecteer in het linkerdeelvenster het selectievakje Data-interpreter gebruiken om te zien of Data-interpreter kan helpen bij het opschonen van uw data.

    Opmerking: Wanneer u uw data opschoont met Data-interpreter, schoont Data-interpreter alle data op die aan een verbinding in de databron zijn gekoppeld. Data-interpreter wijzigt de onderliggende data niet.

  3. Klik in het deelvenster Data op de link Controleer de resultaten om de resultaten van de Data-interpreter te controleren.

    Er wordt een kopie van uw databron geopend in Excel op het tabblad Sleutel voor de Data-interpreter. Controleer de sleutel om te zien hoe u de resultaten kunt lezen.

  4. Klik op elk tabblad om te controleren hoe Data-interpreter de databron heeft geïnterpreteerd.

    Als Data-interpreter extra tabellen heeft gevonden, ook wel gevonden tabellen of subtabellen genoemd, worden deze geïdentificeerd op het tabblad <sheet name>_subtables door hun celbereiken te schetsen. Voor elke subtabel is ook een apart tabblad opgenomen, met een kleurcode om de koptekst en datarijen te identificeren.

    Als Data-interpreter niet de verwachte resultaten levert, wist u het selectievakje Opgeschoond met Data-interpreter om de originele databron te gebruiken.

  5. Om de huidige tabel te vervangen door een van de gevonden tabellen, sleept u de huidige tabel van het canvas en sleept u vervolgens de gevonden tabel die u wilt gebruiken naar het canvas.

    Als de Data-interpreter het bereik van de gevonden tabel verkeerd heeft geïdentificeerd, klikt u, nadat u de gevonden tabel naar het canvas hebt gesleept, op de vervolgkeuzepijl op die tabel en selecteert u vervolgens Gevonden tabel bewerken om de hoeken van de gevonden tabel aan te passen (de cel linksboven en de cel rechtsonder van de tabel).

  6. Nadat u over de data beschikt waarmee u wilt werken, kunt u extra opschoonwerkzaamheden op uw data toepassen, zodat u deze kunt analyseren.

Voorbeeld van Data-interpreter

In dit voorbeeld maken we verbinding met een Excel-spreadsheet met data over geweldsmisdrijven per stad en staat voor het jaar 2016. Deze spreadsheet bevat meerdere tabellen op één blad en wat extra opmaak.

  1. Titel

  2. Samengevoegde koptekstcellen

  3. Extra witruimte

  4. Subtabellen

De extra opmaak in deze spreadsheet maakt het voor Tableau moeilijk om te bepalen wat de kopteksten en waarden van het veld zijn.

In plaats daarvan worden de data verticaal gelezen en wordt elke kolom toegewezen aan de standaardwaarde F1, F2, F3 (Veld 1, Veld 2, Veld 3) enzovoort. Lege cellen worden gelezen als nullwaarden.

Om te zien of Data-interpreter kan helpen deze dataset op te schonen, selecteren we Data-interpreter gebruiken.

Data-interpreter heeft de juiste kopteksten voor de velden gedetecteerd, de extra opmaak verwijderd en verschillende subtabellen gevonden. De subtabellen staan vermeld in de sectie Bladen in het deelvenster Data en krijgen een naam met gebruik van de oorspronkelijke bladnaam en de celbereiken voor elke subtabel.

In dit voorbeeld zijn er drie subtabellen: Misdaden 2016 A4:H84, Misdaden 2016 K5:L40 en Misdaden 2016 O5:P56.

Om de resultaten van de Data-interpreter nader te bekijken, klikken we op de link Controleer de resultaten in het deelvenster Data om een geannoteerde kopie van de spreadsheet te bekijken.

Hier zien we een kopie van de originele data met een kleurcode om aan te geven welke data zijn geïdentificeerd als koptekstdata en welke data zijn geïdentificeerd als veldwaarden.

Het volgende tabblad toont ons de subtabellen die Data-interpreter heeft gevonden, geschetst door de celbereiken.

In dit voorbeeld bevat de eerste subtabel, Misdaden 2016 A4:H84, de belangrijkste data waarmee we willen werken. Om deze tabel te gebruiken als onze datatabel, kunnen we eenvoudigweg de originele tabel van het canvas slepen en vervolgens de nieuwe tabel naar het canvas slepen.

Zodra we de data waarmee we willen werken in het canvas hebben, kunnen we de data nog wat extra opschonen. We kunnen bijvoorbeeld:

  • De veldnamen wijzigen zodat ze de namen van de stad, de staat en de maand vertegenwoordigen.

  • De velden met de maanden draaien.

  • De derde subtabel naar Misdaden 2016 o5:P56 slepen en een join maken met onze eerste subtabel op het veld Staat om staatsbevolkingen op te nemen voor onze analyse.

  • Eventuele dubbele velden verbergen die zijn toegevoegd als resultaat van de join.

De resultaten zouden er ongeveer als volgt uitzien:

Nu zijn we klaar om de analyse van onze data in Tableau te starten.

Wanneer Data-interpreter niet beschikbaar is

De optie Data-interpreter is mogelijk niet beschikbaar om de volgende redenen:

  • De databron heeft al een opmaak die Tableau kan interpreteren: Als Tableau Desktop geen extra hulp van Data-interpreter nodig heeft om unieke opmaak of afwijkende informatie te verwerken, is de optie Data-interpreter niet beschikbaar.

  • Veel rijen of veel kolommen: De optie Data-interpreter is niet beschikbaar als uw data de volgende kenmerken hebben:

    • Data bevatten meer dan 2000 kolommen.

    • Data bevatten meer dan 3000 rijen en meer dan 150 kolommen.

  • De databron wordt niet ondersteund: Data-interpreter is alleen beschikbaar voor Microsoft Excel, tekstbestanden (.csv), PDF-bestanden en Google Spreadsheets. Voor Excel moeten uw data de indeling .xls of .xlsx hebben.

 

Bedankt voor uw feedback.De feedback is verzonden. Dank u wel.