数据策略
此内容是T ableau Blueprint 的一部分,这是一个成熟度框架,允许您放大并改进组织使用数据来推动影响的方式。若要开始您的旅程,请参加我们的评估(链接在新窗口中打开)。
每个组织对其数据基础结构都有不同的要求和解决方案。Tableau 尊重组织的选择,并能够与您现有的数据策略集成。除企业数据仓库外,组织内部和外部都出现了许多新的数据源:云应用程序和数据、大数据数据库、结构化和非结构化存储库。从 Hadoop 群集到 NoSQL 数据库以及许多其他技术,数据流不再需要将企业数据仓库 (EDW) 作为最终目的地并围绕 EDW 以集中化方式运行。
现代数据架构由新业务需求(速度、敏捷性、容量)和新技术驱动。您可以选择是提供对数据的原位访问,还是使用其他数据源来扩充数据。将此平台与能够让基础架构和服务在几个小时内启动数据管道的云解决方案相结合,您便可获得一个能够以前所未有的方式在组织内移动数据的流程。不幸的是,如果贵组织的数据管理手册是按照传统 EDW 的单桶数据思维模式编写的,那么您很可能会错过这个新机遇。从“桶”思维方式转变为“管道”思维方式,其中的诀窍是接受这样一个事实:并非组织中的所有数据问题都能从任何一个数据源中找到答案。现代数据架构的模式如下所示。
现代数据架构
- 原始数据:数据源,例如加载到数据平台中的事务数据,常常需要以几种方式进行转换(清理、PII 检查等)。
- 准备计算:原始数据的处理可能需要大量的计算资源,超过了传统的 ETL。数据科学应用常常位于此处。它们实际上可以生成具有高价值的新数据。
- 存储:现代数据平台是基于这样一个原理构建的:您存储数据是因为今后可能会以想不到的方式使用这些数据。我们越来越多地存储中间数据以及同一数据的多个版本和形式。因此,存储是分层的。
- 查询计算:典型的分析数据库引擎,包括 Hyper 数据提取,还包括 Hadoop 等。
- 分析:Tableau 就位于分析部分。
Tableau 的混合数据架构
Tableau 的混合数据架构提供两种模式来与数据交互,即使用实时连接或使用内存中数据提取。只需要为您的用例选择正确选项,您就能在两者之间轻松切换。
实时连接
Tableau 的数据连接器将动态查询直接发送到源数据库而不是导入所有数据,从而可以充分利用您现有的数据基础结构。这意味着,如果您已经投资速度快,经过分析优化的数据库,那么您就可以通过实时连接数据来从这笔投资受益。这样可以将详细数据保留在源系统中,并将汇总的查询结果发送到 Tableau。此外,这意味着 Tableau 可以有效利用无限量的数据。实际上,Tableau 是世界上许多最大的数据库的前端分析客户端。Tableau 对每个连接器进行了优化,使其能够充分利用每个数据源独有的特点。
内存中数据提取
如果您有基于事务数据库构建的数据架构,或者想减少核心数据基础结构的工作负载,由 Hyper 技术支持的 Tableau 数据引擎可以提供针对分析优化的内存中数据存储。您可以连接并提取数据以使其存储在内存中,接下来您就可以在 Tableau 中执行一键式查询。Tableau 数据提取可以减少重新查询数据库所花费的时间,从而极大地改善用户体验。反过来,数据提取也可以为数据库服务器消除多余的查询流量。
如果高活跃度的事务系统无法负担处理频繁查询所需的资源,数据提取是一个很好的解决方案。数据提取可以在每天夜晚刷新,在白天保持对用户的可用性。数据提取还可以是基于固定记录数量、总记录百分比或筛选条件的数据子集。数据引擎甚至可以执行增量提取,使用新数据来更新现有数据提取。数据提取的目的不是代替您的数据库,因此您应该根据具体分析的需要,将数据提取调整到适当的大小。
如果需要与无法直接访问基础数据源的用户共享工作簿,您可以利用数据提取。Tableau 的打包工作簿(.twbx 文件类型)包含该工作簿用到的所有分析和数据;使它既可移植又可与其他 Tableau 用户共享。
如果用户使用数据提取发布工作簿,该数据提取也将发布到 Tableau Server 或 Tableau Cloud 上。今后发生的与工作簿的交互将使用数据提取而不是请求实时数据。如果启用相关选项,则可以将工作簿设置为按照计划请求自动刷新数据提取。
查询联合
当相关数据存储在不同数据库或文件内的多个表中时,可以使用跨数据库联接来组合表。要创建跨数据库联接,您可以添加然后连接到每个数据库(包括 Excel 和文本文件),然后联接这些表,以此创建多连接 Tableau 数据源。跨数据库联接可用于实时连接或内存中数据提取。
Data Server
Tableau Server 和 Tableau Cloud 随附的 Data Server 可用来共享和集中管理数据提取以及共享的代理数据库连接,从而使 Tableau Server 或 Tableau Cloud 的所有用户都可以使用受到管控、测量和管理的数据源,而无需在工作簿之间复制数据提取或数据连接。
由于多个工作簿可连接到同一数据源,因此您能够最大限度地减少嵌入式数据源的无序激增,从而节省存储空间和处理时间。如果有人下载连接到已发布数据源的工作簿,而该数据源又有数据提取连接,那么该数据提取将保留在 Tableau Server 或 Tableau Cloud 中,从而减少了网络流量。最后,如果连接需要数据库驱动程序,您只需在 Tableau Server 上安装和维护驱动程序,而不用在每位用户的计算机上都重复进行这样的操作。Tableau Cloud 也与之类似,对于受支持的数据源,数据库驱动程序由 Tableau 进行管理。
根据从每个团队收集的初始数据用例,DBA 和/或数据管家将为每个指定的数据源发布一个已认证数据源,供具有适当访问权限的用户访问。用户可以从 Tableau Desktop 和 Tableau Server 或者 Tableau Cloud 直接连接到已发布数据源。
已发布数据源可针对数据提取和实时连接,防止数据孤岛和不可信数据的扩散。可计划数据提取刷新,让整个组织的用户始终使用最新且相同的共享数据和定义。可以将已发布数据源配置为通过代理数据库连接直接连接到实时数据。这意味着您的组织可以集中管理数据连接、联接逻辑、元数据和计算字段
同时,为了实现自助和灵活性,用户可以通过混合新数据或创建新计算来扩展数据模型,并让新定义的数据模型能够以敏捷的方式交付至生产环境。集中管理的数据不会更改,但用户可以保持灵活性。
已认证数据源
数据库管理员和/或数据管家应对已发布数据源进行认证,以便向用户表明这些数据是可信的。经过认证的数据源在 Tableau Server、Tableau Cloud 和 Tableau Desktop 中均带有唯一的认证标志。认证注释供您描述可信任特定数据源的理由。在查看此数据源时,您可以在整个 Tableau 中查看这些注释,还可以了解是谁对其进行了认证。经过认证的数据源在搜索结果中会优先显示,并会在 Tableau Server、Tableau Cloud 和 Tableau Desktop 中的数据源列表中醒目地标出。项目主管、Tableau Cloud 站点管理员和 Tableau Server/站点管理员有权认证数据源。有关更多信息,请访问已认证的数据源。
数据安全
数据安全在每个企业中都至关重要。Tableau 允许客户在其现有数据安全实施基础上进行构建。IT 管理员可以灵活地通过数据库身份验证(在数据库内),通过权限(在 Tableau 内),或通过混合使用这两种方法来实现安全性。无论用户是从 Web、移动设备,还是通过 Tableau Desktop 和 Tableau Prep Builder 来访问已发布视图中的数据,安全举措都会得到实施。客户通常喜欢混合方法,因为它可以灵活地处理各种用例。首先建立安全性分类体系,以定义组织中存在的不同类型的数据和敏感级别。
利用数据库安全措施时,务必注意,所选的数据库身份验证方法至关重要。这种级别的身份验证与 Tableau Server 或 Tableau Cloud 身份验证是分开进行的(即,用户登录 Tableau Server 或 Tableau Cloud 时尚未登录数据库)。这意味着,Tableau Server 和 Tableau Cloud 用户还需要拥有凭据(他们自己的用户名/密码或服务帐户用户名/密码)才能连接到数据库,以便应用数据库级安全性。为了进一步保护您的数据,Tableau 仅需要对数据库的读取访问凭据,这可以防止发布者意外更改基础数据。但在一些情况下,最好让数据库用户获得创建临时表的权限。这既有利于性能,也有利于安全性,因为临时数据存储在仪表板中,而不是 Tableau 中。对于 Tableau Cloud,您需要在数据源的连接信息中嵌入使用自动刷新功能所需的凭据。对于 Google 和 Salesforce.com 数据源,您可以通过 OAuth 2.0 访问令牌的形式嵌入凭据。
静态数据提取加密是一项数据安全功能,您可以使用这项功能对存储在 Tableau Server 中的 .hyper 数据提取进行加密。Tableau Server 管理员可以对其站点上的所有数据提取强制执行加密,或者允许用户指定对与特定发布的工作簿或数据源关联的所有数据提取进行加密。有关详细信息,请参见“静态数据提取加密”。
如果您的组织要部署静态数据提取加密,则可以选择将 Tableau Server 配置为使用 AWS 作为 KMS 进行数据提取加密。要启用 AWS KMS 或 Azure KMS,您必须分别在 AWS 或 Azure 中部署 Tableau Server,并获得 Advanced Management for Tableau Server 许可。在使用 AWS 的情况下,Tableau Server 使用 AWS KMS 客户主密钥 (CMK) 生成 AWS 数据密钥。Tableau Server 使用 AWS 数据密钥作为所有已加密数据提取的根主密钥。在使用 Azure 的情况下,Tableau Server 使用 Azure Key Vault 加密所有加密数据提取的根主密钥 (RMK)。但是,即使配置了 AWS KMS 或 Azure KMS 集成,本机 Java 密钥存储和本地 KMS 仍然会用于在 Tableau Server 上安全存储密文。AWS KMS 或 Azure KMS 仅用于对加密数据提取的根主密钥进行加密。有关详细信息,请参见密钥管理系统。
对于 Tableau Cloud,默认情况下所有数据都是静态加密的。但使用 Advanced Management for Tableau Cloud,您可以通过利用客户管理的加密密钥来更好地控制密钥轮换和审核。借助“客户管理的加密密钥”功能,您可以使用客户管理的特定于站点的密钥来对站点的数据提取进行加密,从而获得额外的安全性。Salesforce Key Management System (KMS) 实例为在站点上启用加密的任何人存储特定于站点的默认加密密钥。加密过程遵循密钥层次结构。首先,Tableau Cloud 对数据提取进行加密。接下来,Tableau Cloud KMS 会检查其密钥缓存以查找合适的数据密钥。如果未找到密钥,则由 KMS GenerateDataKey API 使用与该密钥关联的密钥策略授予的权限生成一个密钥。AWS KMS 使用 CMK 生成数据密钥并将明文副本和加密副本返回给 Tableau Cloud。Tableau Cloud 使用数据密钥的明文副本来加密数据,并将密钥的加密副本与加密数据一起存储。
您可以通过在 Tableau Server 和 Tableau Cloud 的数据源上设置用户筛选器,来限制哪些用户可以看到哪些数据。这使您可以更好地根据用户的 Tableau Server 登录帐户,控制其在已发布视图中可以看到哪些数据。使用此技术,区域经理可以查看其区域的数据,但不能查看其他区域经理的数据。借助这些数据安全方法,您就可以通过发布单个视图或仪表板,为 Tableau Server 或 Tableau Cloud 上的众多用户提供安全的个性化数据和分析。有关详细信息,请参见数据安全和在数据行级别限制访问权限。如果行级安全性对您的分析用例至关重要,那么借助 Tableau Data Management,您可以利用虚拟连接和数据策略来大规模实施用户筛选。有关详细信息,请参见虚拟连接和数据策略。