Tableau Data Management

Ce contenu fait partie de Tableau Blueprint, un cadre de maturité qui vous permet de réaliser une évaluation approfondie et d’améliorer la manière dont votre organisation utilise les données pour générer un impact. Pour commencer votre parcours, répondez aux questions de notre évaluation(Le lien s’ouvre dans une nouvelle fenêtre).

 

Tableau Data Management facilite la gestion des données dans votre environnement analytique, de sorte que la prise de décision s'appuie toujours sur des informations à jour et fiables. Tout est fait dans cette extension pour renforcer la confiance dans les données et accélérer l'adoption de l'analytique en libre-service : préparation des données, catalogage, recherche, gouvernance. Il s'agit d'un ensemble de fonctionnalités sous licence distincte, incluant Tableau Prep Conductor et Tableau Catalog, pour gérer le contenu et les ressources de données dans Tableau Server et Tableau Cloud.

Qu'est-ce que Tableau Data Management ?

D’une manière générale, votre organisation bénéficiera des approches en matière de gouvernance des données et de gestion des sources de données (abordées ailleurs dans Tableau Blueprint). Au-delà de ces méthodologies, vous entendrez souvent des références génériques au terme de gestion des données dans les communautés de bases de données, d'analyse de données et de visualisation. Ce terme prend toutefois une signification propre lorsqu'il s'agit de Tableau, avec Tableau Data Management, un ensemble complémentaire payant de fonctionnalités à utiliser avec Tableau Server et Tableau Cloud. Que vous utilisiez Tableau Server pour Windows ou Linux, ou encore Tableau Cloud, les fonctionnalités de Tableau Data Management sont pour la plupart identiques (il se peut que seul un petit sous-ensemble de fonctionnalités soit disponible dans Tableau Cloud ou Tableau Server).

Tableau Data Management englobe un ensemble d'outils qui aident les gestionnaires de données et les analystes de votre organisation à gérer le contenu et les ressources liés aux données dans votre environnement Tableau. Plus précisément, vous bénéficiez de trois ensembles de fonctionnalités supplémentaires lorsque vous achetez Tableau Data Management :

  • Tableau Catalog

  • Tableau Prep Conductor

  • Connexions virtuelles avec des stratégies de données

Tableau Catalog

Avec la fonctionnalité originale de Tableau Data Management, Tableau Catalog, vous disposez des outils pour rationaliser l'accès aux sources de données Tableau, les comprendre et leur faire confiance. Axé sur des domaines tels que le lignage, la qualité des données, la recherche et l'analyse d'impact, Tableau Catalog permet aux gestionnaires de données et aux visualiseurs/analystes de données de comprendre les sources de données dans Tableau Server et Tableau Cloud et de leur faire confiance. Tableau Catalog inclut des fonctionnalités supplémentaires pour les développeurs Tableau via les méthodes de métadonnées disponibles dans l'API REST de Tableau.

Une fois activé, Tableau Catalog analyse tous les éléments de contenu associés dans votre site Tableau Server ou Tableau Cloud afin créer une vue connectée de tous les objets associés (Tableau Catalog appelle cela les métadonnées de contenu). Les capacités de recherche sont ainsi étendues au-delà des simples connexions de données. Les gestionnaires de données et les auteurs visuels peuvent également effectuer des recherches en fonction des colonnes, des bases de données et des tables.

Pour réduire le risque de modification ou de suppression accidentelle d'un objet dont dépend un autre objet (par exemple, renommer ou supprimer une colonne de base de données qui est la clé d’un classeur de production), la fonctionnalité de lignage de Tableau Catalog expose les relations entre tout le contenu d'un site Tableau, y compris les métriques, les flux et les connexions virtuelles. Vous pouvez désormais facilement voir les relations entre les objets et analyser l'impact d'une modification en attente avant de l'effectuer.

 

Pour améliorer la confiance dans vos sources de données Tableau, Tableau Catalog fournit des informations supplémentaires, telles que la description étendue des objets liés aux données, la vue Détails des données et les balises de mot-clés pour une plus grande flexibilité de recherche. La certification des sources de données place une icône bien visible à côté des sources de données pour indiquer que le propriétaire ou l'administrateur fait confiance à la source de données. Les éléments de données (sources de données, colonnes, etc.) susceptibles de préoccuper les consommateurs, comme les données obsolètes, peuvent être désignés par des avertissements sur la qualité des données. Outre cette option, les données sensibles peuvent être spécifiquement signalées par des étiquettes de sensibilité.

 

 

Tableau Prep Conductor

Si vous êtes comme de nombreux clients Tableau, vous avez découvert les avantages de Tableau Prep Builder pour créer des « flux » sophistiqués de préparation des données. Ils sont capables de combiner plusieurs sources de données, d’organiser les données, personnaliser les colonnes et de générer des sorties dans un ou plusieurs formats de données souhaités. Mais une fois que vous avez créé le flux Prep parfait, comment l'automatiser de manière à programmer l’exécution et la mise à jour, complète ou incrémentielle, des sources de données ?

C'est ici que Tableau Prep Conductor, une autre fonctionnalité de Data Management, entre en jeu. Tableau Prep Conductor permet une programmation flexible des flux Tableau Prep, qu'ils soient publiés sur votre environnement Tableau Server ou Tableau Cloud à partir de Tableau Prep Builder, ou créés directement dans un navigateur avec la création Web de flux Prep. Commencez par tester votre flux Web (vous pouvez exécuter des flux manuellement à la demande sans Data Management. Par contre, vous devrez acheter le module pour planifier l'exécution automatique de flux avec Prep Conductor). Le flux doit s'exécuter jusqu'à son terme et créer la source de données de sortie souhaitée sans erreur avant toute programmation.

Si vous utilisez Tableau Server, votre administrateur (ou vous-même, si vous disposez des privilèges appropriés) pouvez créer des programmations personnalisées (tels que « Tous les jours à minuit », « Dimanche à midi », etc.) pour exécuter des flux Prep, à votre convenance, comme vous l’avez peut-être fait pour les actualisations d'extraits.

Si vous utilisez Tableau Cloud, un ensemble de programmations de flux Prep prédéfinies est installé par défaut. Vous ne pouvez pas les personnaliser ni créer vos propres programmations de flux Prep.

Programmez l'exécution des flux depuis le menu Actions. Une programmation de Tâche unique exécutera uniquement le flux Prep sélectionné selon le calendrier que vous sélectionnez. Une programmation de Tâche liée vous permettra de sélectionner un ou plusieurs flux supplémentaires à exécuter en séquence avec le flux sélectionné, si vous souhaitez « enchaîner » plusieurs flux à exécuter dans un ordre spécifique (par exemple pour créer une sortie de source de données à utiliser comme source de données d'entrée pour un flux ultérieur). Les flux s'exécuteront désormais à l’heure programmée, mettant automatiquement à jour ou créant des sources de données qui serviront éventuellement de base aux classeurs Tableau.

En plus de la possibilité de planifier des flux, Data Management et Tableau Prep Conductor proposent des options supplémentaires : surveillance des succès/échecs des flux planifiés, envoi de notifications par e-mail en cas d’échec ou succès de la programmation de flux, exécution planifiée des flux avec l’API REST de Tableau Server ou Tableau Cloud, et fonctionnalités supplémentaires pour les vues administratives afin de surveiller l’historique des performances du flux.

RECOMMANDATIONS ET MEILLEURES PRATIQUES : si vous prévoyez d'exécuter un grand nombre de flux Tableau Prep Conductor sur Tableau Server, vous devrez peut-être faire évoluer votre environnement de serveur. Si nécessaire, ajustez les performances de votre système Tableau Server en ajoutant des nœuds supplémentaires ou des processus Backgrounder adaptés à la charge de flux Prep requise.

Et qu’en est-il de Tableau Cloud ? Même si vous n'êtes pas obligé d'envisager des modifications architecturales dans Tableau Cloud pour gérer la capacité du flux Prep, vous devez acquérir un Bloc de ressources (une unité de capacité informatique Tableau Cloud) pour chaque flux Tableau Prep Conductor simultané que vous souhaitez planifier. Déterminez le nombre de programmations de flux simultanés dont vous avez besoin et achetez des blocs de ressources Tableau Cloud en conséquence.

 

Connexions virtuelles

Parlons maintenant de notre autre fonctionnalité Data Management : les Connexions virtuelles. Les connexions virtuelles fournissent un point d’accès central aux données. Elles permettent d’accéder à plusieurs tables sur plusieurs bases de données. Les connexions virtuelles permettent de gérer l’extraction de données et la sécurité en un seul emplacement, au niveau de la connexion.

Dans quels cas les connexions virtuelles sont-elles utiles ?

Si vous partagez une connexion à une base de données avec plusieurs classeurs dans Tableau de manière classique, vous envisagerez probablement la procédure suivante : connexion directe à un serveur de base de données tel que SQL Server ou Snowflake, saisie des informations de connexion à la base de données, ajout ou jointure d'une ou plusieurs tables, puis publication de la source de données sur Tableau Server ou Tableau Cloud. Bien que vous puissiez choisir de l'utiliser comme connexion en direct aux données, il est très possible que vous souhaitiez extraire des données de la source de données pour accélérer les classeurs connectés.

Pour les besoins de la discussion, considérons que vous pouvez le faire un certain nombre de fois pour prendre en charge, par exemple, un ensemble différent de tables ou de jointures. Il en résulterait plusieurs sources de données publiées (et, peut-être, extraites) utilisées pour une série de classeurs qui ont des exigences de table/jointure différentes, mais qui utilisent tous la même base de données initiale.

Voyons maintenant ce qui se passe si un changement intervient au niveau d’un élément de la base de données SQL Server ou Snowflake initiale référencée dans cette série de sources de données. Par exemple, des tables sont renommées, des champs supplémentaires sont ajoutés ou les informations d'identification pour la base de données sont modifiées. Vous voilà maintenant confronté à une série de tâches : ouvrir chacune des sources de données créées précédemment, apporter les modifications nécessaires pour prendre en compte les changements de la base de données et republier (voire, reprogrammer les actualisations d’extraits).

Vous trouverez peut-être beaucoup plus simple de créer une seule « définition » de connexion de données initiale qui stocke le nom du serveur de base de données, les informations d’identification et les références de table. Et vous préférerez peut-être extraire des données depuis cette « définition » plus large. Ensuite, lorsque vous devrez créer différentes sources de données pour diverses combinaisons de tables, jointures, etc., vous pourrez utiliser cette « définition » initiale plutôt que de vous connecter directement à un ou plusieurs serveurs de base de données. Si un élément change dans la structure principale de la base de données (par exemple, les noms de table changent ou les informations d'identification sont modifiées), il vous suffit de modifier l'objet « définition » initial et toutes les sources de données dépendantes héritent automatiquement des modifications.

La fonctionnalité Data Management introduit cette capacité de « définition » partagée via une connexion virtuelle. Une connexion virtuelle est comme une connexion à une source de données standard dans la mesure où elle stocke le serveur de base de données, les informations de connexion et les tables sélectionnées. Et, comme une source de données Tableau traditionnelle, une connexion virtuelle peut contenir des connexions à plusieurs bases de données/sources de données (chacune avec son propre ensemble d'informations d'identification et de tables). Bien que certaines modifications de métadonnées soient autorisées dans une connexion virtuelle (par exemple, masquer ou renommer des champs), les tables ne sont pas liées au sein de la connexion virtuelle. Lorsque vous choisissez d'utiliser la connexion virtuelle comme source directe pour un classeur ou comme type de connexion pour une source de données publiée supplémentaire, vous pouvez lier des tables et effectuer d'autres personnalisations sur la source de données.

Une fois qu'une connexion virtuelle a été créée et publiée sur Tableau Server ou Tableau Cloud et que les autorisations appropriées ont été définies, vous pouvez vous connecter à la connexion virtuelle dans Tableau Desktop ou Tableau Server/Cloud comme vous le feriez pour n'importe quelle autre source de données. Par contre, vous n'aurez pas besoin de spécifier un emplacement de serveur de base de données ni de fournir des informations d'identification, et vous pourrez immédiatement lier des tables et procéder à la visualisation des données ou à la publication de la source de données.

 

Stratégies de données

En plus des fonctionnalités de connexion centralisée aux base de données évoquées précédemment, les connexions virtuelles Tableau Data Management fournissent également une option de sécurité centralisée et rationalisée au niveau des lignes avec les Stratégie de données. Utilisez une stratégie de données pour appliquer la sécurité au niveau des lignes à une ou plusieurs tables dans une connexion virtuelle. Une stratégie de données filtre les données, garantissant que les utilisateurs ne voient que les données qu’ils sont censés voir. Les stratégies de données s’appliquent à la fois aux connexions en direct et aux connexions d’extraits.

Dans quels cas les stratégies de données sont-elles utiles ?

Dans de nombreuses organisations, il est courant de restreindre automatiquement les données visibles dans une visualisation en fonction des autorisations de l'utilisateur actuel. Par exemple, considérons un tableau de bord partagé qui contient les détails d’une commande dans un objet de tableau croisé.

  • Si vous êtes directeur commercial pour un vaste territoire, le tableau croisé des détails affichera les commandes de chaque responsable de compte de votre territoire.

  • En revanche, si vous êtes un responsable de compte individuel, le tableau croisé des détails affichera uniquement les commandes de vos comptes.

Ce scénario nécessite que la Sécurité au niveau des lignes soit implémentée dans votre environnement Tableau, selon plusieurs méthodes possibles, notamment :

  • Sécurité au niveau des lignes dans la base de données. Chaque fois qu'une visualisation est consultée, l'utilisateur est invité à se connecter à la base de données sous-jacente avec ses propres informations d'identification, ou ses informations d'identification sont héritées de son compte utilisateur Tableau. L’ensemble de données résultant est limité aux seules données qu’il est autorisé à voir en fonction des informations d’identification fournies. Non seulement cela peut rapidement devenir fastidieux, chaque Viewer devant gérer ses propres informations d'identification, mais la connexion de données en direct peut avoir un impact sur les performances en imposant une charge importante sur la base de données sous-jacente. De plus, certaines options de transmission des informations d'identification aux connexions en direct peuvent être limitées avec Tableau Cloud.

  • Filtres utilisateur Tableau. Les filtres utilisateur sont appliqués lors de la création de feuilles de calcul individuelles dans un classeur. En spécifiant des combinaisons d'informations d'identification d'utilisateur Tableau individuel ou d'appartenance à un ou plusieurs groupes d'utilisateurs Tableau, les feuilles de calcul individuelles peuvent être filtrées de manière à afficher uniquement les données pertinentes pour cet utilisateur. Cela peut devenir fastidieux, car chaque feuille de calcul individuelle d'un classeur nécessite des filtres utilisateur. Il n'existe en effet aucun moyen de spécifier un filtre utilisateur pour un grand groupe de classeurs avec un seul processus. De plus, si un utilisateur reçoit par inadvertance des autorisations de modification sur le classeur, il peut facilement faire glisser le filtre utilisateur hors de l'étagère des filtres et voir toutes les données sous-jacentes qu'il n'est peut-être pas autorisé à afficher.

En utilisant un sous-ensemble du langage de calcul de Tableau, les stratégies de données peuvent spécifier des règles sophistiquées (par exemple en utilisant une « table des droits » associée dans une base de données) pour personnaliser et limiter les données renvoyées par la connexion virtuelle, en fonction de l'ID utilisateur ou de l’appartenance au groupe. Non seulement la sécurité est ainsi assurée au niveau des lignes pour la source de données (tous les classeurs connectés à la source de données hériteront automatiquement de la sécurité et adopteront toutes les modifications apportées au sein de la connexion virtuelle), mais cela ajoute une couche de sécurité supplémentaire puisque seules les personnes disposant d’autorisations de modification pour la connexion virtuelle d’origine pourront apporter des modifications aux stratégies de données.

 

 

Merci de vos commentaires !Avis correctement envoyé. Merci