Datastrategie
Deze inhoud is onderdeel van Tableau Blueprint, een volwassenheidsframework waarmee u kunt inzoomen op en verbeteren hoe uw organisatie data gebruikt om impact te bevorderen. Om het traject te beginnen, voert u onze beoordeling(Link wordt in een nieuw venster geopend) uit.
Elke organisatie heeft andere eisen en oplossingen voor data-infrastructuur. Tableau respecteert de keuze van een organisatie en integreert met uw bestaande datastrategie. Naast het enterprise-datawarehouse verschijnen er veel nieuwe databronnen binnen en buiten uw organisatie: cloudapplicaties en -data, big data-databases, gestructureerde en ongestructureerde opslagplaatsen. Van Hadoop-clusters tot NoSQL-databases en vele andere: de dataflow hoeft niet langer gecentraliseerd te zijn rond het enterprise-datawarehouse (EDW) als eindbestemming.
Moderne data-architectuur wordt gedreven door nieuwe zakelijke vereisten (snelheid, wendbaarheid, volume) en nieuwe technologie. U kiest zelf of u toegang geeft tot de aanwezige data of data wilt verrijken met andere bronnen. Combineer dit met cloudoplossingen waarmee infrastructuur en services binnen enkele uren data-pipelines kunnen opstarten, en u hebt een proces om sneller dan ooit data door een organisatie te verplaatsen. Helaas wordt deze nieuwe kans grotendeels gemist als het databeheerhandboek van uw organisatie is geschreven met behulp van de traditionele ‘single bucket of data’-mentaliteit van EDW. De truc om van buckets naar pipelines over te stappen is te accepteren dat niet alle datavragen binnen een organisatie vanuit één databron kunnen worden beantwoord. Hieronder ziet u het patroon voor een moderne data-architectuur.
Moderne data-architectuur
- Ruwe data: databronnen, bijvoorbeeld transactiedata die in het dataplatform worden geladen en die vaak op verschillende manieren moeten worden getransformeerd: opschoning, inspectie van PII, enz.
- Compute for Prep: de verwerking van de ruwe data kan aanzienlijke rekenkracht vergen, dus het is meer dan traditionele ETL. Vaak komen hier Data Science-apps bij kijken. Daarmee kunt u daadwerkelijk nieuwe data met hoge waarde creëren.
- Opslag: moderne dataplatforms zijn gebouwd op het principe van het opslaan van data, omdat uw nooit weet hoe deze in de toekomst kunnen worden gebruikt. We slaan steeds vaker tussentijdse data en meerdere versies en vormen van dezelfde data op. De opslag is dus gelaagd.
- Compute for Query: de typische analytische database-engine, inclusief Hyper-extracten, maar ook Hadoop, enz.
- Analytics: Tableau zit in Analytics.
Hybride data-architectuur van Tableau
De hybride data-architectuur van Tableau biedt twee modi voor interactie met data: via een liveverbinding of een extract in geheugen. Schakelen tussen de twee is net zo eenvoudig als het selecteren van de juiste optie voor uw gebruikscase.
Liveverbinding
De dataconnectors van Tableau maken gebruik van uw bestaande data-infrastructuur door dynamische queries rechtstreeks naar de brondatabase te sturen in plaats van alle data te importeren. Dit betekent dat als u hebt geïnvesteerd in snelle, voor analyse geoptimaliseerde databases, u de voordelen van die investering kunt benutten door live verbinding te maken met uw data. Hierdoor blijven de detailgegevens in het bronsysteem staan en worden de verzamelde resultaten van query's naar Tableau verzonden. Bovendien betekent dit dat Tableau effectief onbeperkte hoeveelheden data kan gebruiken. Tableau is feitelijk de front-end analytics-client voor veel van de grootste databases ter wereld. Tableau heeft elke connector geoptimaliseerd om te profiteren van de unieke kenmerken van elke databron.
Extract in geheugen
Als u een data-architectuur hebt die is gebaseerd op transactionele databases of als uw de werklast van de belangrijkste data-infrastructuur wilt verminderen, dan biedt de Tableau-data-engine, mogelijk gemaakt door Hyper Technology, een dataopslag in het geheugen die is geoptimaliseerd voor analyses. U kunt uw data verbinden en extraheren om deze in het geheugen te brengen en met één klik query's in Tableau uit te voeren. Door Tableau-data-extracten te gebruiken, kan de gebruikerservaring aanzienlijk verbeterd worden doordat er minder tijd nodig is om de database opnieuw te doorzoeken. Met de extracten vermijdt u dan weer overtollig verkeer op de databaseserver.
Extracten vormen een geweldige oplossing voor zeer actieve transactiesystemen waarvoor er geen middelen zijn om vaak zoekopdrachten uit te voeren. Het extract kan elke nacht worden ververst en is overdag beschikbaar voor gebruikers. Extracten kunnen ook subsets van data zijn en gebaseerd zijn op een vast aantal records, een percentage van het totale aantal records of gefilterde criteria. De data-engine kan zelfs incrementele extracties uitvoeren, waarbij bestaande extracties worden bijgewerkt met nieuwe data. Extracten zijn niet bedoeld als vervanging voor uw database, dus pas het extract aan op de analyse die u wilt uitvoeren.
Als u uw werkmappen wilt delen met gebruikers die geen directe toegang hebben tot de onderliggende databronnen, kunt u gebruik maken van extracten. De werkmappakketten van Tableau (bestandstype .twbx) bevatten alle analyses en data die voor de werkmap zijn gebruikt, waardoor deze zowel draagbaar als deelbaar is met andere Tableau-gebruikers.
Als een gebruiker een werkmap publiceert met behulp van een extract, wordt dat extract ook gepubliceerd naar de Tableau Server of Tableau Cloud. Bij toekomstige interactie met de werkmap wordt het extract gebruikt in plaats van dat er livedata worden opgevraagd. Indien ingeschakeld, kunt u de werkmap zo instellen om volgens een planning een automatische vernieuwing van het extract aan te vragen.
Queryfederatie
Wanneer gerelateerde data worden opgeslagen in tabellen in verschillende databases of bestanden, kunt u een join op basis van meerdere databases gebruiken om de tabellen te combineren. Om een join op basis van meerdere databases te maken, maakt u een Tableau-databron met meerdere verbindingen door elk van de verschillende databases (inclusief Excel en tekstbestanden) toe te voegen en er vervolgens verbinding mee te maken voordat u de tabellen samenvoegt. Joins op basis van meerdere databases kunnen worden gebruikt met liveverbindingen of extracten in het geheugen.
Data Server
Met Dataserver, inbegrepen bij Tableau Server en Tableau Cloud, kunt u extracten en gedeelde proxydatabaseverbindingen delen en gecentraliseerd beheren. Daardoor komen gemeten en beheerde databronnen beschikbaar voor alle gebruikers van Tableau Server of Tableau Cloud zonder dat u extracten of dataverbindingen tussen werkmappen hoeft te dupliceren.
Omdat u zo meerdere werkmappen met één databron kunt verbinden, wordt de wildgroei aan ingesloten databronnen beperkt en bespaart u op opslagruimte en verwerkingstijd. Wanneer iemand een werkmap downloadt die in verbinding staat met een gepubliceerde databron met een extractverbinding, blijft het extract in Tableau Server of Tableau Cloud staan, waardoor het netwerkverkeer wordt verminderd. Als voor een verbinding een databasestuurprogramma nodig is, hoeft u het stuurprogramma alleen op de Tableau Server te installeren en onderhouden, in plaats van op alle computers van de gebruikers. Op dezelfde manier worden databasestuurprogramma's voor Tableau Cloud beheerd door Tableau voor ondersteunde databronnen.
Op basis van de initiële datagebruikscases die door elk team zijn verzameld, zal een DBA en/of data-steward een gecertificeerde databron publiceren voor elke databron die is geïdentificeerd voor gebruikers met de juiste toegangsrechten. Gebruikers kunnen rechtstreeks verbinding maken met een gepubliceerde databron vanuit Tableau Desktop en Tableau Server of Tableau Cloud.
Met gepubliceerde databronnen voorkomt u de verspreiding van datasilo's en niet-vertrouwde data voor zowel extractie- als liveverbindingen. U kunt extractvernieuwingen inplannen zodat gebruikers in de hele organisatie altijd toegang hebben tot dezelfde gedeelde data en definities. Een gepubliceerde databron kan worden geconfigureerd om rechtstreeks verbinding te maken met livedata via een proxydatabaseverbinding. Dit betekent dat uw organisatie een manier heeft om dataverbindingen centraal te beheren, logica, metadata en berekende velden samen te voegen
Om selfservice en flexibiliteit mogelijk te maken, kunnen gebruikers tegelijkertijd het datamodel uitbreiden door nieuwe data in te voegen of nieuwe berekeningen te maken, zodat het nieuw gedefinieerde datamodel op een flexibele manier aan productie kan worden geleverd. De centraal beheerde data veranderen niet, maar gebruikers kunnen er wel flexibel mee omgaan.
Gecertificeerde databronnen
Databasebeheerders en/of data-stewards moeten gepubliceerde databronnen certificeren om aan gebruikers aan te geven dat de data vertrouwd is. Bij gecertificeerde databronnen verschijnt een unieke certificeringsbadge in zowel Tableau Server, Tableau Cloud als Tableau Desktop. Met certificeringsopmerkingen kunt u beschrijven waarom een bepaalde databron kan worden vertrouwd. Deze opmerkingen zijn overal in Tableau toegankelijk als u deze databron bekijkt. Ook staat er wie de bron heeft gecertificeerd. Gecertificeerde databronnen krijgen een voorkeursbehandeling in de zoekresultaten en vallen op in de databronnenlijsten in Tableau Server, Tableau Cloud en Tableau Desktop. Projectleiders, Tableau Cloud-sitebeheerders en Tableau Server-beheerders/-sitebeheerders zijn gemachtigd om databronnen te certificeren. Bezoek Gecertificeerde databronnen voor meer informatie.
Databeveiliging
Databeveiliging is van het allergrootste belang in elke onderneming. Met Tableau kunnen klanten voortbouwen op hun bestaande implementaties voor databeveiliging. IT-beheerders hebben de flexibiliteit om beveiliging binnen de database te implementeren met databaseverificatie, binnen Tableau met machtigingen, maar kunnen ook een hybride combinatie gebruiken. De beveiliging wordt zo afgedwongen ongeacht of gebruikers toegang krijgen tot de data vanuit gepubliceerde weergaven op internet, op mobiele apparaten of via Tableau Desktop en Tableau Prep Builder. Klanten geven vaak de voorkeur aan de hybride aanpak omdat ze zo de flexibiliteit hebben om met verschillende soorten gebruikscases om te gaan. Begin met het vaststellen van een databeveiligingsclassificatie om de verschillende soorten data en gevoeligheidsniveaus in uw organisatie te definiëren.
Bij het benutten van databasebeveiliging is het belangrijk op te merken dat de gekozen methode voor verificatie bij de database van cruciaal belang is. Dit verificatieniveau staat los van de Tableau Server- of Tableau Cloud-verificatie (dat wil zeggen: wanneer gebruikers inloggen op Tableau Server of Tableau Cloud, loggen zij nog niet in op de database). Dit betekent dat gebruikers van Tableau Server en Tableau Cloud ook over referenties (hun eigen gebruikersnaam/wachtwoord of gebruikersnaam/wachtwoord van het serviceaccount) moeten beschikken om verbinding te kunnen maken met de database, zodat de beveiliging op databaseniveau kan worden toegepast. Om uw data verder te beschermen heeft Tableau alleen referenties voor leestoegang tot de database nodig, waardoor wordt voorkomen dat uitgevers per ongeluk de onderliggende data wijzigen. Als alternatief kan het in sommige gevallen handig zijn om de databasegebruiker toestemming te geven om tijdelijke tabellen te maken. Dit kan zowel prestatie- als beveiligingsvoordelen opleveren, omdat de tijdelijke data in de database worden opgeslagen in plaats van in Tableau. Voor Tableau Cloud moet u referenties insluiten om automatische vernieuwingen van de verbindingsinformatie voor de databron te kunnen gebruiken. Voor databronnen van Google en Salesforce.com kunt u referenties insluiten in de vorm van OAuth 2.0-toegangstokens.
Versleuteling van opgeslagen extracten is een functie voor databeveiliging waarmee u .hyper-extracten die op Tableau Server zijn opgeslagen kunt versleutelen. Tableau Server-beheerders kunnen de versleuteling van alle extracten op hun site afdwingen of gebruikers toestaan te specificeren dat alle extracten die zijn gekoppeld aan bepaalde gepubliceerde werkmappen of databronnen versleuteld moeten worden. Zie Versleuteling van opgeslagen extracten voor meer informatie.
Als uw organisatie versleuteling van opgeslagen data-extracten implementeert, kunt u Tableau Server desgewenst configureren om AWS te gebruiken als KMS voor extractversleuteling. Als u AWS KMS of Azure KMS wilt inschakelen, dient u Tableau Server respectievelijk in AWS of Azure te implementeren en over een licentie te beschikken voor Advanced Management voor Tableau Server. In het AWS-scenario gebruikt Tableau Server de primaire AWS KMS-klantsleutel ('customer master key', CMK) om een AWS-datasleutel te genereren. Tableau Server gebruikt de AWS-datasleutel als primaire root-sleutel voor alle versleutelde extracten. In het geval van Azure gebruikt Tableau Server de Azure Key Vault om de primaire root-sleutel (‘root master key’, RMK) voor alle versleutelde extracten te versleutelen. Maar zelfs wanneer de native Java-sleutelopslag en lokale KMS geconfigureerd zijn voor AWS KMS- of Azure KMS-integratie, worden deze nog steeds gebruikt voor de veilige opslag van geheimen op Tableau Server. De AWS KMS of Azure KMS wordt alleen gebruikt om de primaire root-sleutel voor versleutelde extracten te versleutelen. Zie Sleutelbeheersysteem voor meer informatie.
In Tableau Cloud worden alle opgeslagen data standaard versleuteld. Met Advanced Management voor Tableau Cloud kunt u echter meer controle krijgen over sleutelroulatie en auditing door gebruik te maken van door de klant beheerde versleutelingssleutels. Met door de klant beheerde versleutelingssleutels krijgt u een extra beveiligingsniveau doordat u de data-extracten van uw site kunt versleutelen met een door de klant beheerde sitespecifieke sleutel. Het Salesforce Key Management System (KMS)-exemplaar slaat de standaard sitespecifieke versleutelingssleutel op voor iedereen die versleuteling op een site inschakelt. Het versleutelingsproces volgt een sleutelhiërarchie. Eerst versleutelt Tableau Cloud een extract. Vervolgens kijkt Tableau Cloud KMS of er een geschikte datasleutel in de sleutelcaches zit. Als er geen sleutel wordt gevonden, wordt er een sleutel gegenereerd door de KMS GenerateDataKey-API, met behulp van de machtiging die wordt verleend door het sleutelbeleid dat aan de sleutel is gekoppeld. AWS KMS gebruikt de CMK om een datasleutel te genereren en stuurt een kopie in platte tekst en een versleutelde kopie terug naar Tableau Cloud. Tableau Cloud gebruikt de platte tekstkopie van de datasleutel om de data te versleutelen en slaat de versleutelde kopie van de sleutel samen met de versleutelde data op.
U kunt in zowel Tableau Server als Tableau Cloud beperken welke gebruikers welke data zien door gebruikersfilters in te stellen op databronnen. Hierdoor kunt u beter bepalen welke data gebruikers zien in een gepubliceerde weergave op basis van hun Tableau Server-account. Met deze techniek kan een regiomanager data voor haar regio bekijken, maar niet de data van de andere regiomanagers. Met deze benaderingen voor databeveiliging kunt u één weergave of dashboard publiceren op een manier die veilige, gepersonaliseerde data en analyses biedt aan een breed scala aan gebruikers op Tableau Cloud of Tableau Server. Zie Databeveiliging en Toegang beperken op datarijniveau voor meer informatie. Als beveiliging op rijniveau van cruciaal belang is voor uw analytische gebruikscase, kunt u met Tableau Data Management virtuele verbindingen met databeleid gebruiken om gebruikersfiltering op schaal te implementeren. Zie Virtuele verbindingen en databeleid voor meer informatie.