Strategia dei dati

Questo contenuto fa parte di Tableau Blueprint, un framework di valutazione della maturità che ti consente di approfondire e migliorare l’utilizzo dei dati nella tua organizzazione per aumentarne un impatto. Per iniziare il tuo percorso, esegui la valutazione(Il collegamento viene aperto in una nuova finestra).

Ogni organizzazione ha requisiti e soluzioni differenti per l’infrastruttura dei dati. Tableau rispetta le scelte delle organizzazioni e si integra con la strategia esistente. Oltre al data warehouse aziendale, sono molte le nuove origini dati interne ed esterne all’organizzazione: applicazioni e dati sul cloud, database di big data, repository strutturati e non strutturati. Dai cluster di Hadoop ai database di NoSQL, tra gli altri, non è più necessario che il flusso di dati sia centralizzato sul data warehouse aziendale (EDW) come destinazione finale.

La moderna architettura dei dati prevede nuovi requisiti (velocità, flessibilità, volume) e nuove tecnologie. Puoi scegliere se consentire l’accesso ai dati così come sono o arricchirli con altre origini. Se unisci questo alle soluzioni sul cloud che consentono all’infrastruttura e ai servizi di mettere in movimento delle pipeline di dati in poche ore, il risultato è la possibilità di lavorare con i dati all’interno dell’organizzazione con un’efficacia finora inedita. Purtroppo spesso si perde questa nuova opportunità se nell’organizzazione si gestiscono i dati con l’approccio del singolo bucket EDW tradizionale. Per passare dai bucket alle pipeline bisogna accettare il fatto che non tutte le domande rivolte ai dati in un’organizzazione possono ricevere una risposta da qualsiasi origine dati. Ecco di seguito il modello dell’architettura dei dati moderna.

Un’architettura dei dati moderna

  1. Dati non elaborati: origini dati, ad esempio dati transazionali caricati nella piattaforma, che spesso devono essere trasformati in diversi modi: pulizia, ispezione per individuare informazioni personali e così via.
  2. Calcoli per Prep: l’elaborazione dei dati non elaborati può richiedere notevoli risorse di calcolo, superiori a quelle dell’ETL tradizionale. Spesso le app per la data science si ritrovano qui. Possono creare nuovi dati, di grande valore.
  3. Archiviazione: le moderne piattaforme di dati si basano su un principio di archiviazione secondo cui non si sa mai come li si potrebbe utilizzare in futuro. Conserviamo sempre più dati intermedi e più versioni e forme degli stessi dati. L’archiviazione quindi è stratificata.
  4. Calcolo per query: il tipico motore di database analitico, comprese le estrazioni Hyper, ma anche Hadoop e altre.
  5. Analisi: Tableau trova posto nell’analisi.

L’architettura dei dati ibrida di Tableau

L’architettura dei dati ibrida di Tableau propone due modalità per interagire con i dati: con una connessione live o con un’estrazione in memoria. Passare dall’una all’altra è facile: basta selezionare l’opzione necessaria per il caso d’uso.

Connessione live

Anziché importare tutti i dati, i connettori dati di Tableau sfruttano l’infrastruttura dati esistente inviando delle query dinamiche direttamente al database di origine. Quindi se hai investito in un database veloce e ottimizzato per l’analisi puoi sfruttare i vantaggi dell’investimento attraverso la connessione ai dati in tempo reale. In questo modo i dati di dettaglio rimangono nel sistema di origine e a Tableau vengono inviati i risultati aggregati delle query. Ciò significa inoltre che Tableau può utilizzare in modo efficace quantità illimitate di dati. Di fatto, Tableau è il client di analisi front-end di molti dei più grandi database al mondo. Tableau ha ottimizzato ogni connettore per sfruttare le caratteristiche uniche di ciascuna origine dati.

Estrazione in memoria

Se la tua architettura dei dati si basa su dei database transazionali o se vuoi ridurre il carico di lavoro dell’infrastruttura di base, il motore dati di Tableau con tecnologia Hyper ti offre un archivio dei dati in memoria ottimizzato per l’analisi. Puoi connetterti ai dati ed estrarli per averli in memoria e inoltrare delle query in Tableau con un semplice clic. Le estrazioni di dati di Tableau possono migliorare notevolmente l’esperienza dell’utente, riducendo il tempo necessario per ripetere la query sul database. Inoltre, le estrazioni liberano il server del database dal traffico causato da query ridondanti.

Le estrazioni rappresentano un’ottima soluzione per i sistemi transazionali con intensa attività che non possono supportare le query frequenti. L’estrazione si può aggiornare durante la notte, per essere disponibile durante il giorno. Le estrazioni possono essere rappresentate anche da sottoinsiemi di dati basati su un numero fisso di record, una percentuale del totale o un filtro. Il motore dati può anche eseguire estrazioni incrementali per aggiornare con nuovi dati quelle esistenti. Le estrazioni non sono destinate a sostituire il database, quindi bisogna dimensionarle correttamente per l’analisi da svolgere.

Se desideri condividere le cartelle di lavoro con utenti che non hanno accesso diretto alle origini di dati sottostanti, puoi approfittare delle estrazioni. Le cartelle di lavoro compresse di Tableau (file .twbx) contengono tutte le analisi e tutti i dati utilizzati per la cartella di lavoro, quindi sono portatili e si possono condividere con altri utenti di Tableau.

Se un utente pubblica una cartella di lavoro utilizzando un’estrazione, anche quest’ultima viene pubblicata in Tableau Server o in Tableau Cloud. L’interazione futura con la cartella di lavoro utilizzerà l’estrazione e non richiederà i dati live. Se l’opzione è abilitata, si può configurare la cartella di lavoro affinché richieda un aggiornamento automatico dell’estrazione in base a un programma.

Federazione delle query

Quando i dati correlati vengono archiviati in tabelle distribuite tra diversi database o file, è possibile utilizzare una funzione di join tra database diversi per combinare le tabelle. Per creare un join tra database diversi occorre creare un’origine dati di Tableau con più connessioni, aggiungendo ciascuno dei diversi database (compresi i file Excel e i file di testo) e quindi connettendosi a essi, prima di unire le tabelle. I join tra database diversi si possono utilizzare con connessioni live o estrazioni in memoria.

Tableau Data Server

In dotazione con Tableau Server e Tableau Cloud, Tableau Data Server consente la condivisione e la gestione centralizzata di estrazioni e connessioni di database proxy condivisi, per mettere a disposizione di tutti gli utenti di Tableau Server e di Tableau Cloud delle origini dati controllate, misurate e gestite senza duplicare estrazioni o connessioni di dati tra le cartelle di lavoro.

Poiché più cartelle di lavoro possono connettersi a una stessa origine dati, è possibile ridurre al minimo la proliferazione di origini dati incorporate, risparmiando spazio di archiviazione e tempo di elaborazione. Quando qualcuno scarica una cartella di lavoro connessa a un’origine dati pubblicata, la quale a sua volta è connessa a un’estrazione, l’estrazione rimane in Tableau Server o in Tableau Cloud riducendo il traffico di rete. Infine, se una connessione richiede un driver di database, è sufficiente installare e gestire il driver solo su Tableau Server, anziché sul computer di ogni utente. Analogamente, per Tableau Cloud i driver del database sono gestiti da Tableau per le origini dati supportate.

Utilizzando i casi di utilizzo iniziali raccolti da ciascun team, un DBA e/o un amministratore dei dati pubblicherà un’origine dati certificata per ogni origine di dati individuata per gli utenti che hanno le autorizzazioni necessarie per accedervi. Gli utenti possono connettersi direttamente a un’origine dati pubblicata da Tableau Desktop, Tableau Server o Tableau Cloud.

Le origini dati pubblicate evitano la proliferazione di silos di dati e dati non attendibili per le connessioni delle estrazioni e quelle live. È possibile programmare gli aggiornamenti delle estrazioni e gli utenti interni all’organizzazione rimarranno aggiornati con gli stessi dati condivisi e le stesse definizioni. Le origini dati pubblicate si possono configurare affinché si connettano direttamente ai dati live tramite una connessione al database proxy. L’organizzazione potrà quindi gestire in modo centralizzato le connessioni ai dati, la logica dei join, i metadati e i campi calcolati

Allo stesso tempo gli utenti possono estendere il modello dei dati aggiungendo nuovi dati o creando nuovi calcoli, consentendo di distribuire in modo flessibile alla produzione il modello di dati appena definito. In questo modo si garantiscono operatività self-service e flessibilità. I dati gestiti in modo centralizzato non verranno modificati, ma agli utenti sarà garantita la flessibilità.

Origini dati certificate

Gli amministratori dei database e/o gli amministratori dei dati devono certificare le origini dati pubblicate per indicare agli utenti che i dati sono attendibili. Le origini di dati certificate vengono visualizzate in Tableau Server, Tableau Cloud e Tableau Desktop con lo stesso badge di certificazione univoco. Le note sulla certificazione consentono di descrivere il motivo per cui una determinata origine dati si può considerare attendibile. Queste note sono accessibili in Tableau quando si visualizza l’origine dati e chi l’ha certificata. Le origini dati certificate sono soggette a un trattamento preferenziale nei risultati di ricerca e sono evidenziate negli elenchi delle origini dati in Tableau Server, Tableau Cloud e Tableau Desktop. I responsabili di progetto, gli amministratori dei siti di Tableau Cloud e gli amministratori di Tableau Server/dei siti sono autorizzati a certificare le origini dati. Per ulteriori informazioni, consulta la sezione Origini dati certificate.

Sicurezza dei dati

La sicurezza dei dati è estremamente importante per ogni impresa. Tableau consente ai clienti di avvalersi delle implementazioni per la sicurezza dei dati già esistenti. Gli amministratori IT hanno la flessibilità di implementare la sicurezza nel database grazie all’autenticazione del database, in Tableau con autorizzazioni o con un approccio ibrido. La sicurezza sarà garantita indipendentemente dal fatto che gli utenti accedano ai dati da viste pubblicate sul Web, su dispositivi mobili o tramite Tableau Desktop e Tableau Prep Builder. Spesso i clienti preferiscono l’approccio ibrido, per la flessibilità che offre nel gestire diversi tipi di situazioni. Per iniziare dovrai stabilire una classificazione di sicurezza dei dati, in modo da definire i diversi tipi di dati e i livelli di sensibilità esistenti nella tua organizzazione.

Quando si utilizzano le funzionalità di sicurezza del database è importante tenere presente che il metodo scelto per l’autenticazione nel database è l’elemento chiave. Questo livello di autenticazione è separato dall’autenticazione di Tableau Server o di Tableau Cloud (quando un utente accede a Tableau Server o a Tableau Cloud, non accede ancora al database). Di conseguenza anche gli utenti di Tableau Server e Tableau Cloud dovranno avere delle credenziali (nome utente e password propri o nome utente e password dell’account di servizio) per connettersi al database, se si vuole applicare la funzione di sicurezza a livello di database. Per proteggere ulteriormente i dati, Tableau prevede soltanto credenziali di accesso al database in sola lettura, per evitare di modificare accidentalmente i dati. In alternativa, in alcuni casi, è utile autorizzare l’utente del database a creare tabelle temporanee. Questo può offrire dei vantaggi in termini di prestazioni e di sicurezza, perché i dati temporanei vengono archiviati nel database anziché in Tableau. Per Tableau Cloud è necessario incorporare le credenziali per utilizzare gli aggiornamenti automatici nelle informazioni di connessione dell’origine dati. Per le origini dati di Google e Salesforce.com, si possono incorporare le credenziali come token di accesso OAuth 2.0.

La crittografia dell’estrazione inattiva è una funzionalità di protezione dei dati per criptare le estrazioni .hyper archiviate su Tableau Server. Gli amministratori di Tableau Server possono applicare la crittografia di tutte le estrazioni sul proprio sito o consentire agli utenti di specificare la crittografia di tutte le estrazioni associate a particolari cartelle di lavoro o origini dati pubblicate. Per ulteriori informazioni, consulta la sezione Crittografia delle estrazioni a riposo.

Se la tua organizzazione adotta la crittografia dell’estrazione dei dati inattiva, volendo puoi configurare Tableau Server per utilizzare AWS come KMS per la crittografia dell’estrazione. Per abilitare AWS KMS o Azure KMS, è necessario distribuire Tableau Server rispettivamente in AWS o Azure e avere una licenza di Advanced Management for Tableau Server. Nell’ambiente AWS Tableau Server utilizza la chiave primaria cliente (CMK, Customer Master Key) AWS KMS per generare una chiave dati di AWS. Tableau Server utilizza la chiave dati di AWS come chiave master radice per tutte le estrazioni crittografate. Nell’ambiente Azure Tableau Server utilizza Azure Key Vault per crittografare la chiave primaria radice (RMK, Root Master Key) per tutte le estrazioni crittografate. Tuttavia, anche quando è configurato per l’integrazione con AWS KMS o Azure KMS, l’archivio delle chiavi Java nativo e il KMS locale sono comunque utilizzati per l’archiviazione sicura degli elementi riservati in Tableau Server. AWS KMS e Azure KMS si usano solo per la crittografia della chiave master radice per le estrazioni crittografate. Per ulteriori informazioni, consulta la sezione Sistema di gestione delle chiavi.

Tutti i dati di Tableau Cloud sono crittografati a riposo per impostazione predefinita. Con Advanced Management for Tableau Cloud ottieni comunque un maggiore controllo sulla rotazione e sulla valutazione delle chiavi utilizzando le chiavi di crittografia gestite dal cliente. Le chiavi di crittografia gestite dal cliente offrono un ulteriore livello di sicurezza, consentendoti di crittografare le estrazioni di dati del sito con una chiave specifica gestita dal cliente. L’istanza di KMS (Key Management System) di Salesforce memorizza la chiave di crittografia predefinita specifica del sito per chiunque abiliti la crittografia su un sito. Il processo di crittografia segue una gerarchia per le chiavi. Innanzitutto Tableau Cloud crittografa un’estrazione. Dopodiché il KMS di Tableau Cloud controlla la propria cache delle chiavi per individuare una chiave dati adeguata. Se non si trova la chiave, ne viene generata una dall’API GenerateDataKey di KMS utilizzando l’autorizzazione concessa dal criterio associato alla chiave. AWS KMS usa la CMK per generare una chiave dati, quindi restituisce a Tableau Cloud una copia in testo semplice e una copia crittografata. Tableau Cloud utilizza la copia della chiave dati in testo semplice per crittografare i dati e memorizza quella crittografata insieme ai dati crittografati.

È possibile stabilire quali utenti possono visualizzare determinati dati configurando i filtri per gli utenti nelle origini dati, sia in Tableau Server che in Tableau Cloud. Così facendo si possono controllare meglio i dati a cui gli utenti possono accedere in una visualizzazione pubblicata, in base all’account di accesso a Tableau Server di cui dispongono. Con questa tecnica, un manager regionale può visualizzare i dati per la sua regione ma non quelli degli altri manager regionali. Questi approcci alla sicurezza dei dati consentono di pubblicare una singola vista o dashboard per rendere disponibili analisi e dati sicuri e personalizzati a numerosi utenti in Tableau Cloud e Tableau Server. Per ulteriori informazioni, consulta le sezioni Sicurezza dei dati e Limitare l’accesso a livello di riga di dati. Se la sicurezza a livello di riga è fondamentale per la tua analisi, Tableau Data Management permette di utilizzare le connessioni virtuali con i criteri per i dati per applicare su larga scala i filtri relativi agli utenti. Per ulteriori informazioni, consulta la sezione Connessioni virtuali e criteri dati.

Grazie per il tuo feedback.Il tuo feedback è stato inviato. Grazie!