Estrategia de datos
Este contenido es parte de Tableau Blueprint, un marco de madurez que le permite ampliar y mejorar la forma en que su organización utiliza los datos para generar impacto. Para comenzar su recorrido, complete nuestra evaluación(El enlace se abre en una ventana nueva).
Cada organización tiene diferentes requisitos y soluciones para su infraestructura de datos. En Tableau, respetamos las elecciones de las organizaciones y desarrollamos una plataforma que se integra con su estrategia de datos existente. Además del almacén de datos empresariales, dentro y fuera de la organización hay disponibles muchas fuentes de datos nuevas. Estas incluyen aplicaciones y datos en la nube, bases de datos de big data y repositorios estructurados y no estructurados. Desde los clústeres de Hadoop hasta las bases de datos NoSQL, entre muchos otros, ya no es necesario que el flujo de datos esté centralizado en torno al almacén de datos de la empresa (EDW) como destino final.
Los nuevos requisitos comerciales (velocidad, agilidad, volumen) y las nuevas tecnologías impulsan la arquitectura de datos moderna. Usted elige si desea proporcionar acceso a los datos existentes o enriquecerlos con otras fuentes. Si esto lo combinamos con las soluciones en la nube, que permiten que infraestructuras y servicios pongan en funcionamiento proyectos de canalización de datos en cuestión de horas, obtendremos una solución para compartir los datos en toda la organización como nunca antes se había podido hacer. Lamentablemente, no es posible sacar el máximo provecho de esta nueva oportunidad si el manual de administración de datos de su organización se redactó con la mentalidad antigua de “un único contenedor de datos”. La clave para pasar de la mentalidad de contenedores a la de canalizaciones es aceptar que no todas las preguntas relacionadas con los datos dentro de una organización se pueden resolver desde una única fuente de datos. Explore el patrón de una arquitectura de datos moderna a continuación.
Arquitectura de datos moderna
- Datos sin procesar: fuentes de datos, por ejemplo, datos sobre transacciones, que se cargan en la plataforma de datos y, con frecuencia, se deben transformar (limpiar, inspeccionar a fin de detectar información personal, etc.).
- Recursos para la preparación de datos: el procesamiento de los datos sin procesar puede requerir recursos computacionales significativos, superiores a los que se necesitan para la ETL tradicional. A menudo, las aplicaciones de ciencia de datos se encuentran aquí. Estas realmente pueden crear nuevos datos de gran valor.
- Almacenamiento: las plataformas de datos modernas se basan en un principio de almacenamiento de datos porque nunca se sabe cómo podrían usarse en el futuro. Cada vez más, almacenamos datos intermedios y varias versiones o formatos de los mismos datos. Por lo tanto, el almacenamiento se realiza en capas.
- Recursos para las consultas: el motor de base de datos de análisis típico, que incluye extracciones Hyper, pero también Hadoop, etc.
- Análisis: Tableau forma parte del análisis.
Arquitectura de datos híbrida de Tableau
La arquitectura de datos híbrida de Tableau ofrece dos métodos para interactuar con los datos: con una conexión en tiempo real o una extracción en memoria. Alternar entre ambas opciones es tan fácil como seleccionar la alternativa correcta para el caso de uso.
Conexión en tiempo real
Los conectores de datos de Tableau aprovechan su infraestructura de datos existente al enviar las consultas dinámicas directamente a la base de datos de origen en lugar de importar todos los datos. Esto significa que si invirtió en bases de datos rápidas y optimizadas para el análisis, puede aprovechar esa inversión al conectarse en tiempo real a los datos. De esta manera, los datos detallados permanecen en el sistema fuente y los resultados agregados de las consultas se envían a Tableau. Además, esto implica que Tableau puede utilizar efectivamente cantidades ilimitadas de datos. De hecho, Tableau es el cliente de análisis front-end de muchas de las bases de datos más grandes del mundo. En Tableau optimizamos cada conector para aprovechar las características únicas de cada fuente de datos.
Extracción en memoria
Si tiene una arquitectura de datos centrada en bases de datos transaccionales o desea reducir la carga de trabajo de la infraestructura de datos central, el motor de datos de Tableau con tecnología Hyper proporciona un almacén de datos en memoria optimizado para el análisis. Puede conectar y extraer los datos a la memoria para realizar consultas en Tableau con un solo clic. Usar las extracciones de datos de Tableau puede mejorar en gran medida la experiencia del usuario al reducir el tiempo de las nuevas consultas a la base de datos. A su vez, las extracciones liberan el servidor de la base de datos del tráfico de consultas redundantes.
Las extracciones son una excelente solución para los sistemas transaccionales muy activos que no cuentan con los recursos necesarios para admitir las consultas frecuentes. Estas se pueden actualizar durante la noche y estar disponibles para los usuarios durante el día. Además, pueden ser subconjuntos de datos basados en un número fijo de registros, un porcentaje del total de registros o criterios filtrados. El motor de datos incluso puede llevar a cabo extracciones incrementales para actualizar las extracciones existentes con los datos nuevos. El objetivo de las extracciones no es reemplazar la base de datos. Por lo tanto, debe adaptar la extracción según el análisis que desea realizar.
Si necesita compartir libros de trabajo con usuarios que no tienen acceso directo a las fuentes de datos subyacentes, puede aprovechar las extracciones. Los libros de trabajo empaquetados de Tableau (.twbx) incluyen el análisis y los datos que se utilizaron en el libro de trabajo. De esta manera, resulta portable y le permite compartirlo con otros usuarios de Tableau.
Si un usuario publica un libro de trabajo con una extracción, esta también se publica en Tableau Server o Tableau Cloud. Para cualquier interacción que se lleve a cabo con el libro de trabajo en el futuro, se utilizará la extracción en lugar de solicitar los datos en tiempo real. Si está habilitado, el libro de trabajo se puede configurar para solicitar una actualización automática de la extracción según un programa.
Federación de consultas
Cuando se almacenan datos relacionados en tablas en diferentes bases de datos o archivos, puede usar una unión de columnas entre bases de datos para combinarlas. Para realizar una unión de columnas entre bases de datos, primero debe crear una fuente de datos con varias conexiones en Tableau. Antes de unir las tablas, agregue y, luego, conecte cada una de las diferentes bases de datos (incluidos los archivos de Excel y texto). Las uniones entre bases de datos pueden usarse con conexiones en tiempo real o en memoria.
Servidor de datos
El servidor de datos, que se encuentra incluido con Tableau Server y Tableau Cloud, facilita el intercambio y la administración centralizada de extracciones y conexiones de bases de datos proxy compartidas. Esto permite poner a disposición de todos los usuarios de Tableau Server o Tableau Cloud fuentes de datos gobernadas, medidas y administradas. Todo esto sin que sea necesario duplicar las extracciones o las conexiones de datos en los libros de trabajo.
Conectar muchos libros de trabajo a una misma fuente de datos le permite minimizar la proliferación de fuentes de datos incorporadas, disminuir el espacio de almacenamiento y reducir el tiempo de procesamiento. Cuando un usuario descarga un libro de trabajo conectado a una fuente de datos publicada, que, a su vez, tiene una conexión a una extracción, la extracción permanece en Tableau Server o Tableau Cloud. De esta manera, se reduce el tráfico de la red. Por último, si una conexión requiere un controlador de base de datos, deberá instalar y mantener el controlador únicamente en Tableau Server y no en el equipo de cada usuario. Como sucede con Tableau Cloud, Tableau administra los controladores de base de datos para las fuentes de datos compatibles.
Con los casos de uso de datos iniciales recopilados de cada equipo, un administrador de datos publicará una fuente de datos certificada para cada fuente de datos identificada para los usuarios con los permisos correctos para acceder a ella. Los usuarios pueden conectarse directamente a una fuente de datos publicada desde Tableau Desktop y Tableau Server o Tableau Cloud.
Las fuentes de datos publicadas previenen la proliferación de los silos de datos y los datos no confiables tanto para las extracciones como para las conexiones en tiempo real. Es posible programar las actualizaciones de las extracciones. Además, todos los usuarios de la organización pueden mantenerse actualizados, ya que comparten los mismos datos y definiciones. Una fuente de datos publicada se puede configurar para conectarse directamente a datos en tiempo real con una conexión de base de datos proxy. Esto significa que su organización tiene un método para administrar de manera centralizada las conexiones, las lógicas de unión, los metadatos y los campos calculados.
Al mismo tiempo, para habilitar el autoservicio y la flexibilidad, los usuarios pueden ampliar el modelo de datos al combinar nuevos datos o crear nuevos cálculos. Además, será posible enviar el nuevo modelo de datos a producción de manera ágil. Los datos administrados de manera centralizada no cambiarán, pero los usuarios conservarán la flexibilidad.
Fuentes de datos certificadas
Los administradores de datos o bases de datos deben certificar las fuentes de datos publicadas a fin de indicar a los usuarios que los datos son confiables. En Tableau Server, Tableau Cloud y Tableau Desktop, las fuentes de datos certificadas se muestran con un distintivo de certificación único. Las notas en la certificación de fuentes de datos permiten describir por qué una fuente de datos específica es confiable. Estas notas se pueden consultar desde Tableau, cuando se accede a la fuente de datos. Además, incluyen información sobre quién realizó la certificación. En Tableau Server, Tableau Cloud y Tableau Desktop, las fuentes de datos certificadas aparecen entre los primeros resultados de búsquedas y se resaltan en las listas de fuentes de datos. Los líderes de proyecto, los administradores de sitio de Tableau Cloud y los administradores de sitio/de Tableau Server tienen permisos para certificar fuentes de datos. Para obtener más información, consulte Fuentes de datos certificadas.
Seguridad de datos
La seguridad de los datos es fundamental en todas las empresas. Tableau permite a los clientes aprovechar sus implementaciones existentes de seguridad de datos. Los administradores de TI tienen la flexibilidad de implementar medidas de seguridad dentro de la base de datos con la autenticación de base de datos, dentro de Tableau con permisos o con un enfoque híbrido que incluya ambas alternativas. La seguridad se aplicará independientemente de si los usuarios acceden a los datos desde las vistas publicadas en la web, los dispositivos móviles o a través de Tableau Desktop y Tableau Prep Builder. Con frecuencia, los clientes prefieren el enfoque híbrido, ya que ofrece flexibilidad para administrar diferentes tipos de casos de uso. Para comenzar, establezca una clasificación de seguridad de datos para definir los distintos tipos de datos y los niveles de confidencialidad que existen en su organización.
Para aprovechar al máximo la seguridad de las bases de datos, es importante tener en cuenta que el método elegido de autenticación para la base de datos es clave. Este nivel de autenticación es distinto de la autenticación de Tableau Server o Tableau Cloud. Es decir, cuando un usuario inicia sesión en Tableau Server o Tableau Cloud, aún no tiene una sesión iniciada en la base de datos. Esto significa que los usuarios de Tableau Server y Tableau Cloud también deben tener credenciales para conectarse a la base de datos si se aplica la seguridad de nivel de base de datos. Estas pueden ser su propio nombre de usuario y contraseña o un nombre de usuario y contraseña de la cuenta de servicio. Para proteger aún más sus datos, Tableau solo necesita credenciales de acceso de lectura a la base de datos. Esto evita que los publicadores cambien accidentalmente los datos subyacentes. Como alternativa, en algunos casos, resulta útil otorgar permisos de usuario a la base de datos para crear tablas temporales. Esto puede tener ventajas tanto para el rendimiento como para la seguridad, ya que los datos temporales se almacenan en la base de datos, y no en Tableau. Para Tableau Cloud, es necesario incorporar credenciales a fin de usar actualizaciones automáticas en la información de conexión de la fuente de datos. Para las fuentes de datos de Google y Salesforce.com, puede incorporar las credenciales en forma de tokens de acceso de OAuth 2.0.
El cifrado de extracciones en reposo es una función de seguridad de los datos que le permite cifrar extracciones .hyper mientras están almacenadas en Tableau Server. Los administradores de Tableau Server pueden imponer el cifrado de todas las extracciones en su sitio o permitir a los usuarios especificar que se cifren todas las extracciones asociadas con determinados libros de trabajo o fuentes de datos publicados. Para obtener más información, consulte Cifrado de extracciones en reposo.
Si su organización está implementando el cifrado en reposo de extracciones de datos, tiene la opción de configurar Tableau Server para que utilice AWS como KMS en el cifrado de extracciones. Para habilitar el KMS de AWS o Azure, debe implementar Tableau Server en AWS o Azure, respectivamente, y contar con una licencia de Advanced Management for Tableau Server. Con AWS, Tableau Server utiliza la clave maestra del cliente (CMK) del KMS de AWS para generar una clave de datos de AWS. Tableau Server utiliza la clave de datos AWS como clave maestra raíz para todas las extracciones cifradas. En el caso de Azure, Tableau Server usa Azure Key Vault para cifrar la clave maestra raíz (RMK) para todas las extracciones cifradas. Sin embargo, incluso cuando se configura para la integración con el KMS de AWS o Azure, el almacén de claves Java nativo y el KMS local aún se utilizan para el almacenamiento seguro de secretos en Tableau Server. El KMS de AWS o Azure solo se usa para cifrar la clave maestra raíz para las extracciones cifradas. Para obtener más información, consulte Sistema de administración de claves.
Para Tableau Cloud, todos los datos se cifran en reposo de forma predeterminada. Con Advanced Management for Tableau Cloud, sin embargo, puede tener más control de la rotación de claves y las auditorías al aprovechar las claves de cifrado administradas por el cliente. Las claves de cifrado administradas por el cliente le brindan un nivel adicional de seguridad al permitirle cifrar las extracciones de datos de su sitio con una clave específica del sitio administrada por el cliente. La instancia del sistema de administración de claves (KMS) de Salesforce almacena la clave de cifrado predeterminada específica del sitio para cualquier persona que habilite el cifrado en un sitio. El proceso de cifrado sigue una jerarquía de claves. Primero, Tableau Cloud cifra una extracción. A continuación, el KMS de Tableau Cloud revisa la memoria caché de claves en busca de una clave de datos adecuada. Si no se encuentra una clave, la API GenerateDataKey del KMS genera una mediante el permiso otorgado por la directiva de claves asociada con la clave. El KMS de AWS usa la CMK para generar una clave de datos y devuelve una copia de texto sin formato y una copia cifrada a Tableau Cloud. Tableau Cloud usa la copia de texto sin formato de la clave de datos para cifrar los datos y almacena la copia cifrada de la clave junto con los datos cifrados.
Puede limitar qué usuarios ven qué datos. Para ello, establezca filtros de usuario en las fuentes de datos tanto en Tableau Server como en Tableau Cloud. Esto le permite controlar mejor qué datos ven los usuarios en una vista publicada según la cuenta que utilizaron para iniciar sesión en Tableau Server. Con esta técnica, por ejemplo, un gerente regional puede ver los datos de su región, pero no los datos de los otros gerentes regionales. Al implementar estos enfoques de seguridad de datos, puede publicar una única vista o dashboard y proporcionar datos y análisis personalizados y seguros a una gran cantidad de usuarios en Tableau Cloud o Tableau Server. Para obtener más información, consulte Seguridad de datos y Restringir el acceso en el nivel de fila de datos. Si la seguridad de nivel de fila es primordial para su caso de uso de análisis, con Tableau Data Management, puede aprovechar las conexiones virtuales con directivas de datos e implementar filtros de usuarios de manera escalable. Para más información, consulte Conexiones virtuales y directivas de datos.