Spark SQL

本文介绍如何将 Tableau 连接到 Spark SQL 数据库并设置数据源。Tableau 可连接到 Spark 版本 1.2.1 及更高版本。

您可以使用 Spark SQL 连接器连接到 Azure HDInsight、Azure Data Lake、Databricks 或 Apache Spark 上的 Spark 群集。

开始之前

在开始之前,请收集以下连接信息:

  • 承载要连接到的数据库的服务器的名称以及端口号
  • 身份验证方法:
    • 无身份验证
    • Kerberos
    • 用户名
    • 用户名和密码
    • Microsoft Azure HDInsight 服务
  • 传输。您的选择取决于您选择的身份验证方法,并且可能包括以下各项:
    • 二进制
    • SASL
    • HTTP
  • 登录凭据。您的选择取决于您选择的身份验证方法,并且可能包括以下各项:
    • 用户名
    • 密码
    • 主机 FQDN
    • 服务名称
    • HTTP 路径
  • 是否要连接到 SSL 服务器?
  • (可选)要在每次 Tableau 连接时运行的初始 SQL 语句

需要驱动程序

此连接器需要驱动程序才能与数据库通信。计算机上可能已经安装了所需的驱动程序。如果计算机上未安装该驱动程序,Tableau 将在连接对话框中显示一条错误消息,其中包含指向驱动程序下载(链接在新窗口中打开)页面的链接,您可在该页面中找到驱动程序链接和安装说明。

进行连接并设置数据源

  1. 启动 Tableau,并在“连接”下选择“Spark SQL”。有关数据连接的完整列表,请在“至服务器”下选择“更多”。然后执行以下操作:

    1. 输入承载数据库的服务器的名称和要使用的端口号。
    2. 使用 SparkThriftServer 连接到数据库。请注意,提供了传统的 SharkServer 和 SharkServer2 连接供您使用,但 Tableau 不支持这些连接。
    3. 选择身份验证方法。然后,根据您的选择输入提示您输入的信息。
    4. 选择“登录”
    • 如果服务器有密码保护,而您不在 Kerberos 环境中,则您必须输入用户名和密码。
    • 在连接到 SSL 服务器时,选中“需要 SSL”复选框。
    • (可选)选择“初始 SQL”以指定要在每次连接开始时(例如打开工作簿、刷新数据提取、登录到 Tableau Server 或发布到 Tableau Server 时)运行的 SQL 命令。有关详细信息,请参见“运行初始 SQL”
  2. 如果 Tableau 无法建立连接,请验证您的凭据是否正确。如果仍然无法连接,则说明您的计算机在定位服务器时遇到问题。请联系您的网络管理员或数据库管理员。

  3. 在数据源页面上,执行下列操作: 

    1. (可选)在页面顶部选择默认数据源名称,然后输入要在 Tableau 中使用的唯一数据源名称。例如,使用可帮助其他数据源用户推断出要连接的数据源的数据源命名约定。

    2. “架构”下拉列表中,选择搜索图标,或在文本框中输入架构名称并选择搜索图标,然后选择架构。
    3. “表”文本框中,选择搜索图标或输入表名称并选择搜索图标,将表拖到画布,然后选择工作表标签以开始分析。

      使用自定义 SQL 连接到特定查询,而非整个数据源。有关详细信息,请参见连接到自定义 SQL 查询

注意:从 2018.3 开始,针对 Spark SQL 的 Kerberos 身份验证支持委派。2018.2 及更低版本中不支持委派,这意味着,在更低版本中,当您将工作簿或数据源发布到 Tableau Server 时,您无法使用“Viewer(查看者)凭据”作为身份验证方法;您只能使用“服务器运行身份帐户”

登录到 Mac

如果在 Mac 上使用 Tableau Desktop,则在输入服务器名称进行连接时,请使用完全限定的域名(例如 mydb.test.ourdomain.lan)而不是相对域名(例如 mydb 或 mydb.test)。

或者,可以将域添加到 Mac 计算机的“搜索域”的列表中,以便在您连接时,只需要提供服务器名称。若要更新“搜索域”的列表,请转到“系统首选项”>“网络”>“高级”,然后打开“DNS”选项卡。

 

另请参见

感谢您的反馈!