Amazon S3

本文介绍如何将 Tableau 连接到 Amazon S3 连接器库并设置数据源。

开始之前

在开始之前,请收集以下连接信息:

  • 您的 S3 存储桶的 AWS 区域。

  • S3 存储桶名称。

  • 您的 S3 存储桶的 AWS IAM 访问密钥(密钥 ID 和密文访问密钥)。

权限

确保您的 AWS IAM 用户具有 S3 存储桶的读取权限。

推荐配置

以下建议有助于提高性能。

  • 如果客户端在 AWS 环境中运行(例如,安装在 EC2 实例中的 Tableau Desktop 或 Server 或使用 Tableau Cloud),则可以实现最佳性能。
  • 跨区域存储桶支持有效,但性能会比同区域访问差。由于数据出口费用,可能会产生额外费用。

进行连接并设置数据源

  1. 启动 Tableau,然后在“连接”下,从“其他连接器”列表中选择“Amazon S3”
  2. 选择“安装并重新启动 Tableau”以安装连接器。
  3. Tableau 重新启动后,转到“连接” ,然后从已安装的连接器列表中选择“Amazon S3”
  4. 输入您的存储桶区域、存储桶名称、访问密钥 ID 和密文访问密钥。
  5. 选择“登录”
  6. 在存储桶的内容中,选择要连接的文件。
  7. 选择“连接”

设置数据源

完成以下步骤以设置数据源。

  1. (可选)在页面顶部选择默认数据源名称。
  2. 输入在 Tableau 中使用的唯一数据源名称。
  3. 将要连接的一个或多个文件从左侧窗格拖到画布中。
  4. 若要开始分析,请选择“工作表 1”标签。

合并数据

您可以合并 S3 存储桶中的文件。有关合并的详细信息,请参见合并数据。若要执行包含子文件夹中的文件的通配符并集,根文件夹或存储桶必须至少有一个文件(与子文件夹中包含的文件的结构相匹配)才能包含在并集中。此文件是创建并集时连接到的第一个文件。

已知问题和限制

以下部分介绍了可能影响您使用 Amazon S3 连接器的成功程度的已知问题和限制。

注意:Tableau Prep Web 制作或虚拟连接当前不支持此连接器。

身份验证已知问题和限制
  • 仅支持不带会话令牌的 Amazon IAM 用户密文/访问密钥身份验证。

发布已知问题和限制
  • 工作簿和数据源必须使用“嵌入密码”身份验证选项进行发布。目前不支持“提示用户”。

并集已知问题和限制
  • 仅 Tableau Desktop 支持通配符并集。
  • Web 制作仅支持用户定义的手动合并(拖动文件)。
文件类型已知问题和限制
  • 目前支持 Parquet、.csv、压缩的 .gz 和 Excel 文件。
  • 按照设计,所有数据均以字符串格式导入。
  • 您无法在单个连接中合并或联接多种文件类型(例如,将 Parquet 和 .csv 合并或联接在一起)。
  • 目前仅支持逗号分隔的 .csv 文件。
  • 文件大小限制为 15gb。
  • 联接或合并的累积结果集不能超过 15gb。
  • 由于连接器中 Excel 文件解析器的性能问题,Excel 文件当前不能超过约 100 mb。
其他 Parquet 文件已知问题和模仿
  • Parquet 文件必须采用我们的 Hyper API 文档中描述的格式。
  • 不支持嵌套列,因此不支持嵌套类型 MAP 和 LIST。
  • 不支持 BSON、UUID 和 ENUM 类型。
  • 不支持没有任何逻辑或转换类型的物理类型 FIXED_LEN_BYTE_ARRAY。
  • DECIMAL 类型最多仅支持 8 个字节(18 个十进制数字)。如果需要超过 18 位十进制数字,请考虑使用 double。
  • 不支持 TIME_MILLIS 和 TIME_NANOS 类型。考虑改用 TIME_MICROS。
  • 不支持已弃用的 BIT_PACKED 编码。最近的 Parquet 文件不应使用此编码,因为它已被弃用超过五年。
  • 不支持 DELTA_LENGTH_BYTE_ARRAY 编码和最近的 BYTE_STREAM_SPLIT 编码,因为它们不是由任何库编写的。如果您遇到任何使用这些编码的 Parquet 文件,请告诉我们。
  • 支持的压缩包括 SNAPPY、GZIP、ZSTD 和 LZ4_RAW。

另请参见