Stratégie des données
Ce contenu fait partie de Tableau Blueprint, un cadre de maturité qui vous permet de réaliser une évaluation approfondie et d’améliorer la manière dont votre organisation utilise les données pour générer un impact. Pour commencer votre parcours, répondez aux questions de notre évaluation(Le lien s’ouvre dans une nouvelle fenêtre).
Les exigences et les solutions au niveau de l'infrastructure de données varient d'une entreprise à l'autre. Tableau respecte les choix de chaque entreprise et s'intègre à votre stratégie de données existante. En marge de l'entrepôt de données de l'entreprise, de nombreuses nouvelles sources de données internes et externes font leur apparition, comme les applications et données dans le cloud, les bases de données Big Data, ou encore les référentiels structurés et non structurés. Des clusters Hadoop aux bases de données NoSQL en passant par de nombreuses autres solutions, le flux de données n'a plus besoin d'être centralisé autour de l'entrepôt de données de l'entreprise ou d'y résider définitivement.
L'architecture de données moderne s'appuie sur les nouveaux besoins métier (rapidité, agilité, volume) et les nouvelles technologies. C'est à vous de choisir si vous souhaitez donner l'accès aux données en place ou enrichir ces données à l'aide d'autres sources. Associez à cela des solutions cloud qui permettent à l'infrastructure et aux services de mettre en place des pipelines de données en quelques heures, et vous obtenez le processus idéal pour assurer une mobilité inédite des données au sein de l'entreprise. Malheureusement, vous passez largement à côté de cette opportunité si la politique de gestion des données de votre entreprise a été définie sur la base de l'utilisation d'un entrepôt de données unique et compartimenté. Pour axer son approche non plus sur les compartiments mais sur les pipelines, les parties prenantes doivent comprendre qu'il n'est pas possible de répondre à toutes les questions de données d'une entreprise à partir d'une seule source de données. Voici le schéma d'une architecture de données moderne.
Architecture de données moderne
- Données brutes : sources de données, par exemple données transactionnelles qui sont chargées dans la plate-forme de données, et qui doivent souvent être transformées de différentes manières (nettoyage, recherche des informations personnellement identifiables, etc.)
- Calcul pour la préparation : le traitement des données brutes peut nécessiter des ressources informatiques considérables, bien plus que les opérations ETL classiques. C'est le cas notamment des applications de Data Science. Elles permettent de créer des données à forte valeur.
- Stockage : les plates-formes de données modernes stockent les données, car vous ne savez jamais de quelle manière vous allez les utiliser dans le futur. Nous stockons de plus en plus des données intermédiaires et des versions et formes multiples des mêmes données. Par conséquent, le stockage est divisé en couches.
- Calcul pour les requêtes : le moteur de base de données analytique, incluant les extraits Hyper, mais aussi Hadoop, etc.
- Analytique : Tableau se situe dans la catégorie Analytique.
Architecture de données hybride de Tableau
L'architecture de données hybride de Tableau propose deux manières d'interagir avec les données : par connexion en direct ou à l'aide d'un extrait en mémoire. Vous pouvez facilement basculer entre ces deux modes en sélectionnant l'option correspondant à votre cas d'utilisation.
Connexion en direct
Plutôt que d'importer toutes les données, les connecteurs de données de Tableau exploitent votre infrastructure de données existante en envoyant des requêtes dynamiques directement à la base de données source. Si vous avez investi dans des bases de données rapides et optimisées pour les analyses, vous pouvez en tirer parti en vous connectant en direct à vos données. Les données détaillées restent sur le système source et les résultats agrégés des requêtes sont envoyés vers Tableau. Cela signifie aussi que Tableau peut utiliser un nombre illimité de données. En réalité, le client analytique de Tableau est utilisé par de nombreuses bases de données parmi les plus volumineuses au monde. Dans Tableau, chaque connecteur est optimisé pour tirer profit des caractéristiques uniques de chaque source de données.
Extrait en mémoire
Si vous disposez d'une architecture de données s'appuyant sur des bases de données transactionnelles ou si vous souhaitez réduire la charge de travail de l'infrastructure centrale des données, le moteur de données Tableau, qui utilise la technologie Hyper, propose un magasin de données en mémoire optimisé pour l'analytique. En un seul clic, vous pouvez vous connecter aux données et les extraire pour les ajouter en mémoire et lancer des requêtes dans Tableau. L'utilisation d'extraits de données Tableau permet d'améliorer sensiblement l'expérience utilisateur en réduisant le temps nécessaire au renvoi des requêtes vers la base de données. En retour, les extraits allègent le trafic dû aux requêtes redondantes sur le serveur de la base de données.
Les extraits constituent une excellente solution pour les systèmes transactionnels très actifs qui ne peuvent pas prendre en charge les ressources pour les requêtes fréquentes. Il est possible d'actualiser l'extrait pendant la nuit et de le mettre à la disposition des utilisateurs pendant la journée. Les extraits peuvent également se présenter sous la forme de sous-ensembles de données en fonction d'un nombre d'enregistrements, d'un pourcentage du total des enregistrements, ou de critères filtrés. Le moteur de données peut même réaliser des extraits incrémentiels qui mettent à jour des extraits existants à l'aide de nouvelles données. Les extraits n'ont pas pour but de remplacer votre base de données. Vous devez donc définir la taille d'extrait adéquate pour votre analyse.
Si vous avez besoin de partager vos classeurs avec des utilisateurs qui n'ont pas directement accès aux sources de données sous-jacentes, vous pouvez utiliser des extraits. Les classeurs complets (fichiers de type .twbx) de Tableau contiennent toutes les analyses et données utilisées pour ces classeurs, ce qui les rend à la fois déplaçables et partageables avec d'autres utilisateurs de Tableau.
Si un utilisateur publie un classeur en utilisant un extrait, ce dernier est également publié sur Tableau Server ou Tableau Cloud. Les interactions ultérieures sur le classeur utiliseront l'extrait au lieu d'interroger les données en direct. Un classeur peut être paramétré pour envoyer une requête d'actualisation automatique de l'extrait.
Fédération des requêtes
Lorsque des données connexes sont stockées dans des tables venant de bases de données ou de fichiers différents, vous pouvez utiliser une jointure entre bases de données pour combiner ces tables. Pour créer une jointure entre bases de données, vous devez créer une source de données Tableau multiconnexion en ajoutant chacune des bases de données et en vous y connectant (y compris les fichiers Excel et texte). C'est après avoir effectué cette opération que vous pourrez joindre les tables. Les jointures entre bases de données peuvent être utilisées avec des connexions en direct ou des extraits en mémoire.
Serveur de données
Inclus avec Tableau Server et Tableau Cloud, le serveur de données offre des fonctionnalités de partage et de gestion centralisée des extraits de données Tableau et des connexions aux bases de données proxy communes. Tous les utilisateurs de Tableau Server ou de Tableau Cloud peuvent ainsi accéder à des sources de données gouvernées, mesurées et gérées sans dupliquer d'extrait ni de connexion aux données dans plusieurs classeurs.
Dans la mesure où plusieurs classeurs peuvent se connecter à une même source de données, vous pouvez limiter la prolifération des sources de données incorporées, et réduire l'espace de stockage requis et les temps de traitement. Lorsque quelqu'un télécharge un classeur connecté à une source de données publiée qui elle-même est connectée à un extrait, l'extrait reste sur Tableau Server ou Tableau Cloud, ce qui réduit le trafic réseau. Enfin, si une connexion nécessite un pilote de base de données, vous devez installer et gérer le pilote sur Tableau Server uniquement, et non sur l'ordinateur de chaque utilisateur. De même, sur Tableau Cloud, les pilotes de base de données sont gérés par Tableau pour les sources de données prises en charge.
À l'aide des données initiales collectées grâce aux cas d'utilisation de chaque équipe, l'administrateur de base de données ou le gestionnaire de données publie une source de données certifiée pour chaque source à laquelle les utilisateurs peuvent accéder selon les autorisations qui leur ont été accordées. Les utilisateurs peuvent se connecter directement à une source de données publiée à partir de Tableau Desktop et de Tableau Server ou de Tableau Cloud.
Les sources de données publiées permettent d'empêcher la prolifération des silos de données et des données non approuvées, pour les extraits comme pour les connexions en direct. Les actualisations des extraits peuvent être programmées. Ainsi, les utilisateurs de toute l'entreprise utilisent les mêmes données partagées et les mêmes définitions. Une source de données publiée peut être configurée de manière à se connecter directement à des données en direct, en utilisant une connexion de base de données proxy. Votre entreprise dispose donc d'un moyen de gérer les connexions de données, la logique des jointures, les métadonnées et les champs calculés de manière centralisée.
En parallèle, pour favoriser le libre-service et la flexibilité, les utilisateurs peuvent développer le modèle de données en fusionnant de nouvelles données ou en créant des calculs, puis en envoyant ce modèle en production avec agilité. Les données gérées de manière centralisée ne changent pas, mais les utilisateurs conservent une certaine souplesse.
Sources de données certifiées
Les administrateurs de bases de données et/ou les gestionnaires de données doivent certifier les sources de données publiées pour indiquer aux utilisateurs que ces données ont été validées. Les sources de données certifiées arborent un badge de certification unique dans Tableau Server, Tableau Cloud et Tableau Desktop. La zone des commentaires sur la certification vous permet d'expliquer pourquoi une source de données peut être digne de confiance. Ces commentaires sont accessibles partout dans Tableau pour la source de données en question, ainsi que le nom de la personne qui a effectué la certification. Les sources de données certifiées bénéficient d'un traitement préférentiel dans les résultats de recherche et sont mises en avant dans les listes de sources de données de Tableau Server, Tableau Cloud et Tableau Desktop. Les responsables de projet, les administrateurs de site Tableau Cloud et les administrateurs de site/Tableau Server sont autorisés à certifier des sources de données. Pour en savoir plus, consultez la rubrique Utiliser des sources de données et des tables certifiées et recommandées.
Sécurité des données
La sécurité des données est primordiale pour toute entreprise. Tableau permet aux clients de tirer parti des infrastructures de sécurité existantes pour les données. Plusieurs choix s'offrent aux administrateurs IT pour sécuriser la base de données : par le biais de l'authentification sur la base de données, dans Tableau grâce aux autorisations, ou par une approche hybride. La sécurité est appliquée quel que soit le mode d'accès aux données : depuis des vues publiées sur Internet, sur appareils mobiles ou par le biais de Tableau Desktop et de Tableau Prep Builder. Les clients choisissent souvent une approche hybride pour sa capacité à gérer facilement différents cas d'utilisation. Commencez par établir une classification de la sécurité des données pour définir les différents types de données et les niveaux de sensibilité dans votre entreprise.
La méthode d'authentification à la base de données joue un rôle essentiel dans la sécurisation des bases de données. Ce processus d'authentification est différent de celui de Tableau Server ou de Tableau Cloud : lorsqu'un utilisateur se connecte à Tableau Server ou Tableau Cloud, il n'est pas encore connecté à la base de données. Ainsi, pour que les mesures de sécurité au niveau des bases de données soient appliquées, les utilisateurs de Tableau Server et de Tableau Cloud doivent également disposer d'identifiants (nom d'utilisateur/mot de passe individuels ou de compte de service) pour se connecter aux bases de données. Pour renforcer la protection des données, Tableau a besoin uniquement d'identifiants pour un accès en lecture sur la base de données. Ainsi, les publicateurs ne peuvent pas modifier par erreur les données sous-jacentes. Dans certains cas, vous pouvez également autoriser un utilisateur d'une base de données à créer des tables temporaires. Cela peut renforcer à la fois votre sécurité et vos performances, les données temporaires étant stockées dans la base de données et non dans Tableau. Pour Tableau Cloud, vous devez intégrer les identifiants afin d'actualiser automatiquement les informations de connexion pour la source de données. Pour les sources de données Google et Salesforce.com, vous pouvez intégrer les identifiants sous la forme de jetons d'accès OAuth 2.0.
La fonctionnalité de chiffrement des extraits de données au repos vous permet de chiffrer les extraits .hyper lorsqu'ils sont stockés dans Tableau Server. Les administrateurs de Tableau Server peuvent appliquer le cryptage de tous les extraits de leur site ou permettre aux utilisateurs de spécifier le cryptage de tous les extraits associés à des classeurs ou des sources de données publiés spécifiques. Pour plus d'informations, consultez la rubrique Cryptage d'extrait au repos.
Si votre entreprise déploie le chiffrement des extraits de données au repos, vous avez la possibilité de configurer Tableau Server pour qu'il utilise AWS comme système de gestion des clés (KMS) dans le cadre du chiffrement des extraits. Pour activer AWS KMS ou Azure KMS, vous devez déployer Tableau Server dans AWS ou Azure respectivement, et disposer d'une licence Advanced Management pour Tableau Server. Dans un scénario avec AWS, Tableau Server utilise la clé principale du client d'AWS KMS (CMK) pour générer une clé de données AWS. Tableau Server utilise la clé de données AWS comme clé racine principale pour tous les extraits chiffrés. Dans le scénario Azure, Tableau Server utilise Azure Key Vault pour chiffrer la clé RMK (root master key, ou clé racine principale) pour tous les extraits chiffrés. Néanmoins, même avec une configuration pour une intégration AWS KMS ou Azure, le keystore Java natif et le service KMS local sont toujours utilisés pour le stockage sécurisé des secrets dans Tableau Server. AWS KMS ou Azure KMS servent uniquement à chiffrer la clé racine principale pour les extraits chiffrés. Pour en savoir plus, consultez la rubrique Système de gestion des clés.
Pour Tableau Cloud, toutes les données sont chiffrées au repos par défaut. Advanced Management pour Tableau Cloud permet néanmoins de contrôler davantage la rotation des clés et l'audit en tirant parti de clés de chiffrement gérées par les clients. Les clés de chiffrement gérées par les clients garantissent un niveau de sécurité supplémentaire en vous permettant de chiffrer les extraits de données de votre site avec une clé spécifique, gérée par les clients. L’instance Salesforce Key Management System (KMS) stocke la clé de chiffrement spécifique au site par défaut pour toute personne qui active le chiffrement sur un site. Le processus de chiffrement suit une approche hiérarchique. Tout d'abord, Tableau Cloud chiffre un extrait. Ensuite, Tableau Cloud KMS vérifie ses caches pour trouver une clé adaptée. Si aucune clé n'est trouvée, une clé est générée par l'API KMS GenerateDataKey en utilisant l'autorisation accordée par la politique associée à la clé. AWS KMS utilise la CMK pour générer une clé et renvoie une copie en texte brut et une copie chiffrée vers Tableau Cloud. Tableau Cloud utilise la copie en texte brut de la clé et stocke la copie chiffrée avec les données chiffrées.
Dans Tableau Server et Tableau Cloud, vous pouvez restreindre l'accès aux données en définissant des filtres utilisateur sur les sources de données. Ainsi, vous pouvez mieux contrôler les données auxquelles les utilisateurs ont accès dans une vue publiée, en fonction de leur compte de connexion à Tableau Server. Grâce à cette technique, une directrice régionale peut accéder aux données concernant la région dont elle a la charge, mais pas celles des autres régions. En combinant ces méthodes, vous pouvez publier une vue ou un tableau de bord unique afin de permettre à un large éventail d'utilisateurs de Tableau Cloud ou Tableau Server de consulter et d'analyser des données personnalisées et sécurisées. Pour en savoir plus, consultez les pages Sécurité des données et Restreindre l'accès au niveau des lignes de données. Si la sécurité au niveau des lignes est essentielle dans votre scénario analytique, Tableau Data Management vous permet de tirer parti des connexions virtuelles avec des politique d'utilisation des données pour mettre en place le filtrage utilisateur à grande échelle. Pour en savoir plus, consultez la page À propos des connexions virtuelles et des politiques des données.