Datenstrategie
Dieser Inhalt ist Teil von Tableau Blueprint – einem Framework, mit dem Sie genauer unter die Lupe nehmen können, wie Ihr Unternehmen Daten nutzt, um mehr Nutzen daraus zu ziehen. Ihre Reise beginnt mit unserer Beurteilung(Link wird in neuem Fenster geöffnet).
Jedes Unternehmen verfügt über unterschiedliche Anforderungen und entsprechende Lösungen für seine Dateninfrastruktur. Tableau berücksichtigt diese Bedingungen und kann problemlos in die vorhandene Datenstrategie eingebunden werden. Zusätzlich zum Data Warehouse eines Unternehmens gibt es mittlerweile innerhalb und außerhalb eines Unternehmens viele neue Datenquellen: Cloudanwendungen und -daten, Big-Data-Datenbanken, strukturierte und unstrukturierte Repositorys. Mit Hadoop-Clustern, NoSQL-Datenbanken und vielen anderen Quellen muss der Datenfluss nicht mehr im Data Warehouse des Unternehmens (Enterprise Data Warehouse, EDW) als letztliches Ziel zentralisiert werden.
Die moderne Datenarchitektur wird von neuen geschäftlichen Anforderungen (Geschwindigkeit, Agilität, Volumen) und neuen Technologien bestimmt. Sie können wählen, ob Sie nur Zugriff auf die vorhandenen Daten bereitstellen möchten oder ob die Daten mit anderen Quellen angereichert werden. Zusammen mit Cloudlösungen, mit denen durch Infrastrukturen und Dienste Datenpipelines innerhalb von Stunden eingerichtet werden können, entsteht daraus ein Prozess, in dem Daten wie nie zuvor ganz unterschiedlich im Unternehmen platziert und angeboten werden. Leider können diese neuen Möglichkeiten weitgehend nicht wahrgenommen werden, wenn das Unternehmenshandbuch für Datenmanagement auf der Grundlage der Philosophie eines einzigen Datenbestands traditioneller EDWs geschrieben wurde. Der Übergang zu einer Pipeline-orientierten Denkweise gelingt, wenn man sich bewusst ist, dass nicht alle datenbezogenen Fragen in einem Unternehmen mit einer Datenquelle beantwortet werden können. Im Folgenden wird das Schema einer modernen Datenarchitektur dargestellt.
Moderne Datenarchitektur
- Unstrukturierte Daten: Datenquellen wie etwa Transaktionsdaten, die in die Datenplattform geladen werden, müssen oft in verschiedenster Hinsicht umgewandelt werden: durch Aufbereitung, Prüfung auf PII usw.
- Computing für die Vorbereitung: Für die Verarbeitung unstrukturierter Daten werden möglicherweise erhebliche Rechenressourcen benötigt, d. h., es geht um mehr als um traditionelle ETL-Vorgänge. Hier kommen oft Data-Science-Anwendungen ins Spiel. Mit diesen können neue Daten von hohem Wert erstellt werden.
- Speicher: Moderne Datenplattformen werden nach dem Prinzip der maximalen Datenspeicherung erstellt, da man nicht weiß, wie sie in Zukunft verwendet werden. Dabei werden immer mehr Zwischendaten sowie mehrere Versionen und Formate der gleichen Daten gespeichert. Der Speicher ist deshalb in Schichten aufgeteilt.
- Computing für Abfragen: die typische Analytics-Datenbank-Engine, inklusive Hyper-Extrakte, aber auch Hadoop usw.
- Analytics: Tableau steht für Analytics.
Hybride Datenarchitektur von Tableau
Die hybride Datenarchitektur von Tableau bietet zwei Modi für die Interaktion mit Daten: eine Direktverbindung und einen In-Memory-Extrakt. Der Wechsel zwischen diesen beiden Modi ist so einfach wie die Auswahl der passenden Option für Ihren Anwendungsfall.
Direktverbindung
Die Datenkonnektoren von Tableau nutzen Ihre bestehende Dateninfrastruktur und senden dynamische Abfragen direkt an die Quelldatenbank anstatt die Daten zu importieren. Wenn Sie also in schnelle, Analytics-optimierte Datenbanken investiert haben, können Sie deren Leistungsfähigkeit durch Live-Verbindung zu Ihren Daten für sich nutzen. Die Detaildaten verbleiben dabei im Quellsystem und senden die aggregierten Ergebnisse an Tableau. Darüber hinaus kann dadurch mit Tableau auf effektive Weise ein unbegrenztes Datenvolumen angewendet werden. Tableau ist deshalb der Front-End-Analytics-Client für viele der größten Datenbanken weltweit. In Tableau wurde jeder Connector so optimiert, dass die speziellen Leistungsmerkmale jeder Datenquelle genutzt werden können.
In-Memory-Extrakt
Wenn Ihre Datenarchitektur auf transaktionalen Datenbanken basiert oder wenn Sie die Auslastung Ihrer Kerninfrastruktur für Daten reduzieren möchten, bietet die Tableau-Daten-Engine – von der Hyper-Technologie unterstützt – einen In-Memory-Datenspeicher, der für Analytics optimiert ist. Sie können damit eine Verbindung zu Ihren Daten herstellen, diese extrahieren und in den Arbeitsspeicher übertragen, sodass sich Abfragen in Tableau mit nur einem Klick ausführen lassen. Mithilfe von Tableau-Datenextrakten lässt sich das Benutzererlebnis erheblich verbessern, da damit die Zeit für wiederholte Abfragen der Datenbank verkürzt wird. Gleichzeitig wird mit Extrakten der Datenverkehr redundanter Abfragen auf dem Datenbankserver vermieden.
Extrakte sind eine hervorragende Lösung für hochaktive transaktionale Systeme, die nicht über die Ressourcen für häufige Abfragen verfügen. Ein solcher Extrakt lässt sich über Nacht aktualisieren und Benutzern dann am Tag zur Verfügung stellen. Extrakte können auch Teilmengen von Daten basierend auf einer festen Anzahl von Datensätzen, auf einem Prozentwert der gesamten Datensätze oder basierend auf Filterkriterien sein. Mit der Daten-Engine lassen sich auch inkrementelle Extrakte erstellen, mit denen vorhandene Extrakte mit neuen Daten aktualisiert werden. Extrakte sollen Ihre Datenbank nicht ersetzen, sondern auf die benötigte Analyse zuschneiden.
Wenn Sie Ihre Arbeitsmappen mit Benutzern teilen möchten, die keinen direkten Zugriff auf die zugrunde liegenden Datenquellen haben, können Sie dafür Extrakte verwenden. Die Arbeitsmappenpakete von Tableau (Dateityp .twbx) enthalten alle Analysen und Daten, die für die Arbeitsmappe benötigt werden. Dies macht sie portabel und ermöglicht die Weitergabe an andere Tableau-Benutzer.
Wenn ein Benutzer eine Arbeitsmappe mithilfe eines Extrakts veröffentlicht, wird dieser Extrakt auf Tableau Server oder Tableau Cloud mitveröffentlicht. Bei den nachfolgenden Interaktionen mit der Arbeitsmappe wird dann statt der Live-Daten dieser Extrakt verwendet. Wenn aktiviert, kann für die Arbeitsmappe festgelegt werden, dass eine automatische Aktualisierung des Extrakts zeitplangesteuert erfolgen soll.
Abfrageverbindung
Wenn benötigte Daten in Tabellen von mehreren Datenbanken oder Dateien gespeichert sind, können Sie mithilfe einer datenbankübergreifenden Verknüpfung diese Tabellen kombinieren. Zum Erstellen einer datenbankübergreifenden Verknüpfung legen Sie eine Tableau-Datenquelle mit mehreren Verbindungen an. Dazu fügen Sie diese Datenbanken (inklusive Excel- und Textdateien) hinzu und stellen eine Verbindung zu ihnen her, bevor Sie die Tabelle verknüpfen. Eine datenbankübergreifende Verknüpfung kann sowohl mit Live-Verbindungen als auch mit In-Memory-Extrakten verwendet werden.
Datenserver
Der in Tableau Server und Tableau Cloud enthaltene Datenserver bietet die Möglichkeit zum Teilen und zum zentralen Verwalten von Extrakten sowie von freigegebenen Proxy-Datenbankverbindungen. Damit können allen Benutzern von Tableau Server oder Tableau Cloud kontrollierte, abgefragte und verwaltete Datenquellen zur Verfügung gestellt werden, ohne Extrakte oder Datenverbindungen für Arbeitsmappen duplizieren zu müssen.
Da mehrere Arbeitsmappen eine Verbindung zu derselben Datenquelle herstellen können, vermeiden Sie so die Zunahme eingebetteter Datenquellen und sparen sowohl Speicherplatz als auch Verarbeitungszeit. Wenn ein Mitarbeiter eine Arbeitsmappe herunterlädt, die eine Verbindung zu einer veröffentlichten Datenquelle herstellt, die wiederum mit einem Extrakt verbunden ist, verbleibt der Extrakt in Tableau Server oder Tableau Cloud. Dadurch wird der Netzwerkdatenverkehr reduziert. Und schließlich müssen Sie, wenn für eine Verbindung ein Datenbanktreiber erforderlich ist, den Treiber nur auf Tableau Server installieren bzw. warten und nicht auf dem Computer jedes einzelnen Benutzers. Ebenso werden bei Tableau Cloud Datenbanktreiber von Tableau für unterstützte Datenquellen verwaltet.
Auf der Grundlage der anfänglichen Datenanwendungsfälle aus jedem Team veröffentlichen ein DBA und/oder ein Dateneigentümer dann eine zertifizierte Datenquelle für jede für Benutzer ermittelte Quelle von Daten mit den erforderlichen Zugriffsberechtigungen. Benutzer haben die Möglichkeit, von Tableau Desktop und Tableau Server oder Tableau Cloud eine direkte Verbindung zu einer veröffentlichen Datenquelle herzustellen.
Mit veröffentlichten Datenquellen wird die Zunahme von Datensilos und nicht vertrauenswürdigen Daten sowohl für Extrakte wie für (Live-)Direktverbindungen verhindert. Extraktaktualisierungen lassen sich zeitlich genau planen, sodass die Benutzer im gesamten Unternehmen stets auf den neuesten Stand mit denselben freigegebenen Daten und Definitionen zugreifen können. Eine veröffentlichte Datenquelle kann für eine direkte Verbindung zu Live-Daten mit einer Proxy-Datenbankverbindung konfiguriert werden. Dies bietet Ihrem Unternehmen die Möglichkeit, Datenverbindungen, die Verknüpfungslogik, Metadaten und berechnete Felder zentral zu verwalten.
Gleichzeitig können Benutzer zur Förderung von Selfservice und Flexibilität das Datenmodell durch Verschmelzen mit neuen Daten oder Erstellen neuer Berechnungen erweitern. Das neu definierte Datenmodell lässt sich dann in agiler Weise für die Produktion zur Verfügung stellen. Dabei ändern sich die zentral verwalteten Daten nicht, die Benutzer erhalten aber zusätzliche Flexibilität.
Zertifizierte Datenquellen
Datenbankadministratoren und/oder Dateneigentümer müssen veröffentlichte Datenquellen zertifizieren. Dies ist für Benutzer eine Art Siegel für die Vertrauenswürdigkeit der Daten. Zertifizierte Datenquellen sind sowohl in Tableau Server oder Tableau Cloud als auch in Tableau Desktop mit einem speziellen Zertifizierungs-Badge gekennzeichnet. Mit Zertifizierungshinweisen können Sie beschreiben, warum eine bestimmte Datenquelle vertrauenswürdig ist. Diese Hinweise sind wie der Verantwortliche der Zertifizierung bei der Anzeige der Datenquelle über Tableau zugänglich. Zertifizierte Datenquellen werden in den Suchergebnissen und in den Datenquellenlisten in Tableau Server, Tableau Cloud und Tableau Desktop gesondert behandelt und speziell hervorgehoben. Zur Zertifizierung von Datenquellen sind Projektleiter, Tableau Cloud-Site-Administratoren und Tableau Server-/Site-Administratoren berechtigt. Weitere Informationen dazu finden Sie unter Zertifizierte Datenquellen.
Datensicherheit
Die Datensicherheit hat in jedem Unternehmen höchste Priorität. Bei der Verwendung von Tableau können Kunden ihre vorhandenen Datensicherheitssysteme nutzen. IT-Administratoren haben die Möglichkeit, Sicherheitsmaßnahmen in der Datenbank durch Datenbankauthentifizierung, mit Tableau-Berechtigungen oder als hybrides System aus beiden Elementen flexibel zu implementieren. Diese Sicherheitsmaßnahmen gelten unabhängig davon, ob Benutzer auf die Daten über veröffentlichte Ansichten im Web, auf mobilen Geräten oder über Tableau Desktop und Tableau Prep Builder zugreifen. Kunden bevorzugen oft den hybriden Ansatz wegen dessen Flexibilität bei der Verarbeitung unterschiedlicher Arten von Anwendungsfällen. Starten Sie mit der Einrichtung einer Klassifizierung für die Datensicherheit zur Definition unterschiedlicher Datentypen und Vertraulichkeitsstufen in Ihrem Unternehmen.
Bei Nutzung der Datenbanksicherheit muss unbedingt beachtet werden, dass es dabei entscheidend auf die für die Authentifizierung der Datenbank gewählte Methode ankommt. Die Authentifizierung auf dieser Ebene erfolgt unabhängig von der Tableau Server- oder Tableau Cloud-Authentifizierung. Ein Benutzer, der sich bei Tableau Server oder Tableau Cloud anmeldet, ist also damit noch nicht bei der Datenbank angemeldet. Das bedeutet, dass Tableau Server- und Tableau Cloud-Benutzer ebenfalls über Anmeldeinformationen (eigener Benutzername/eigenes Kennwort oder Benutzername/Kennwort des Servicekontos) verfügen müssen, um eine Verbindung zur Datenbank mit Sicherheit auf Datenbankebene herstellen zu können. Für den weiteren Schutz der Daten benötigt Tableau nur Anmeldeinformationen für einen Lesezugriff auf die Datenbank. Dadurch wird verhindert, dass Herausgeber die zugrunde liegenden Daten versehentlich ändern. Mitunter ist es jedoch hilfreich, der Datenbank Benutzerberechtigungen für das Erstellen temporärer Tabellen zu erteilen. Das kann sowohl für die Leistung als auch für die Sicherheit vorteilhaft sein. Die temporären Daten werden dann nämlich in der Datenbank gespeichert und nicht in Tableau. Bei Tableau Cloud müssen Sie die Anmeldeinformationen einbetten, um die automatische Aktualisierung der Verbindungsinformationen für die Datenquelle nutzen zu können. Bei Google- und Salesforce.com-Datenquellen können Sie Anmeldeinformationen in Form von OAuth 2.0-Zugriffstoken einbetten.
Extraktverschlüsselung im Ruhezustand ist ein Datensicherheitsfeature, das es Ihnen ermöglicht, .hyper-Extrakte zu verschlüsseln, während diese in Tableau Server gespeichert sind. Administratoren von Tableau Server können die Verschlüsselung aller Extrakte auf ihrer Website erzwingen oder Benutzern erlauben, die Verschlüsselung aller Extrakte zu spezifizieren, die mit bestimmten veröffentlichten Arbeitsmappen oder Datenquellen verknüpft sind. Weitere Informationen finden Sie unter Extraktverschlüsselung im Ruhezustand.
Wenn Ihr Unternehmen die Datenextraktverschlüsselung im Ruhezustand bereitstellt, können Sie Tableau Server optional so konfigurieren, dass AWS als KMS für die Extraktverschlüsselung verwendet wird. Zum Aktivieren von AWS KMS oder Azure KMS müssen Sie Tableau Server für AWS oder Azure bereitstellen und über eine Lizenz für Advanced Management for Tableau Server verfügen. Im AWS-Szenario verwendet Tableau Server den Kunden-Master-Schlüssel (Customer Master Key, CMK) von AWS KMS zum Generieren eines AWS-Datenschlüssels. Tableau Server verwendet den AWS-Datenschlüssel als primären Root-Schlüssel (RMK, Root Master Key) für alle verschlüsselten Extrakte. Im Azure-Szenario verwendet Tableau Server den Azure Key Vault, um den primären Root-Schlüssel (Root Master Key, RMK) für alle verschlüsselten Extrakte zu verschlüsseln. Allerdings werden auch bei konfigurierter Einbindung von AWS KMS oder Azure KMS weiterhin der native Java-Schlüsselspeicher und der lokale KMS für die sichere Speicherung von Secrets auf Tableau Server verwendet. AWS KMS oder Azure KMS wird nur zur Verschlüsselung des Root-Master-Schlüssels für verschlüsselte Extrakte genutzt. Weitere Informationen finden Sie unter Schlüsselverwaltungssystem.
Bei Tableau Cloud werden standardmäßig alle inaktiven Daten verschlüsselt. Mit Advanced Management for Tableau Cloud haben Sie aber mehr Kontrolle über die Schlüsselrotation und -prüfung, da Sie von vom Kunden verwaltete Verschlüsselungsschlüssel verwenden können. Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMKs) bieten eine zusätzliche Sicherheitsebene, da Sie damit die Datenextrakte Ihrer Site mit einem vom Kunden verwalteten Site-spezifischen Schlüssel verschlüsseln können. Die Salesforce KMS-Instanz (Key Management System) speichert den standardmäßigen Site-spezifischen Verschlüsselungsschlüssel für jeden, der Verschlüsselung für eine Site aktiviert. Der Verschlüsselungsprozess folgt einer Schlüsselhierarchie. Als Erstes verschlüsselt Tableau Cloud einen Extrakt. Danach prüft Tableau Cloud KMS seine Schlüssel-Caches auf einen passenden Datenschlüssel. Wird kein Schlüssel gefunden, wird von der KMS-GenerateDataKey-API ein Schlüssel generiert, wobei die Berechtigung verwendet wird, die von der dem Schlüssel zugeordneten Schlüsselrichtlinie erteilt wird. AWS KMS nutzt den CMK zum Erstellen eines Datenschlüssels und gibt eine Kopie in Klartext sowie eine verschlüsselte Kopie an Tableau Cloud zurück. Tableau Cloud verschlüsselt mit der Kopie des Datenschlüssels in Klartext die Daten und speichert die verschlüsselte Kopie des Schlüssels mit den verschlüsselten Daten.
Sie haben die Möglichkeit festzulegen, welche Benutzer welche Daten aufrufen können. Dazu geben Sie Benutzerfilter für die Datenquellen sowohl in Tableau Server als auch in Tableau Cloud an. Dies ermöglicht eine bessere Kontrolle darüber, welche Daten Benutzer in veröffentlichten Ansichten basierend auf ihrem Tableau Server-Anmeldekonto sehen. Mithilfe dieser Methode haben Sie beispielsweise die Möglichkeit festzulegen, dass ein Regionalmanager die Daten für seine Region, aber keine Daten für die anderen Regionalmanager anzeigen kann. Mit diesen Konzepten zur Datensicherheit können Sie eine einzelne Ansicht oder ein einzelnes Dashboard so veröffentlichen, dass einem breiten Benutzerspektrum sichere personalisierte Daten und Analysen in Tableau Cloud oder Tableau Server zur Verfügung stehen. Weitere Informationen finden Sie unter Datensicherheit und Beschränken des Zugriffs auf Datenzeilenebene. Wenn die Sicherheit auf Zeilenebene für Ihren Analytics-Anwendungsfall sehr wichtig ist, können Sie mit Tableau Data Management virtuelle Verbindungen mit Datenrichtlinien zum Implementieren von Benutzerfiltern in großem Umfang nutzen. Weitere Informationen finden Sie unter Informationen zu virtuellen Verbindungen und Datenrichtlinien.