Amazon S3
本文介绍如何将 Tableau 连接到 Amazon S3 连接器库并设置数据源。
在开始之前,请收集以下连接信息:
您的 S3 存储桶的 AWS 区域。
S3 存储桶名称。
您的 S3 存储桶的 AWS IAM 访问密钥(密钥 ID 和密文访问密钥)。
权限
确保您的 AWS IAM 用户具有 S3 存储桶的读取权限。
推荐配置
以下建议有助于提高性能。
- 如果客户端在 AWS 环境中运行(例如,安装在 EC2 实例中的 Tableau Desktop 或 Server 或使用 Tableau Cloud),则可以实现最佳性能。
- 跨区域存储桶支持有效,但性能会比同区域访问差。由于数据出口费用,可能会产生额外费用。
进行连接并设置数据源
- 启动 Tableau,然后在“连接”下,从“其他连接器”列表中选择“Amazon S3”。
- 选择“安装并重新启动 Tableau”以安装连接器。
- Tableau 重新启动后,转到“连接” ,然后从已安装的连接器列表中选择“Amazon S3”。
- 输入您的存储桶区域、存储桶名称、访问密钥 ID 和密文访问密钥。
- 选择“登录”。
- 在存储桶的内容中,选择要连接的文件。
- 选择“连接”。
设置数据源
完成以下步骤以设置数据源。
- (可选)在页面顶部选择默认数据源名称。
- 输入在 Tableau 中使用的唯一数据源名称。
- 将要连接的一个或多个文件从左侧窗格拖到画布中。
- 若要开始分析,请选择“工作表 1”标签。
合并数据
您可以合并 S3 存储桶中的文件。有关合并的详细信息,请参见合并数据。若要执行包含子文件夹中的文件的通配符并集,根文件夹或存储桶必须至少有一个文件(与子文件夹中包含的文件的结构相匹配)才能包含在并集中。此文件是创建并集时连接到的第一个文件。
已知问题和限制
以下部分介绍了可能影响您使用 Amazon S3 连接器的成功程度的已知问题和限制。
注意:Tableau Prep Web 制作或虚拟连接当前不支持此连接器。
身份验证已知问题和限制
仅支持不带会话令牌的 Amazon IAM 用户密文/访问密钥身份验证。
发布已知问题和限制
工作簿和数据源必须使用“嵌入密码”身份验证选项进行发布。目前不支持“提示用户”。
并集已知问题和限制
- 仅 Tableau Desktop 支持通配符并集。
- Web 制作仅支持用户定义的手动合并(拖动文件)。
文件类型已知问题和限制
- 目前支持 Parquet、.csv、压缩的 .gz 和 Excel 文件。
- 按照设计,所有数据均以字符串格式导入。
- 您无法在单个连接中合并或联接多种文件类型(例如,将 Parquet 和 .csv 合并或联接在一起)。
- 目前仅支持逗号分隔的 .csv 文件。
- 文件大小限制为 15gb。
- 联接或合并的累积结果集不能超过 15gb。
- 由于连接器中 Excel 文件解析器的性能问题,Excel 文件当前不能超过约 100 mb。
其他 Parquet 文件已知问题和模仿
- Parquet 文件必须采用我们的 Hyper API 文档中描述的格式。
- 不支持嵌套列,因此不支持嵌套类型 MAP 和 LIST。
- 不支持 BSON、UUID 和 ENUM 类型。
- 不支持没有任何逻辑或转换类型的物理类型 FIXED_LEN_BYTE_ARRAY。
- DECIMAL 类型最多仅支持 8 个字节(18 个十进制数字)。如果需要超过 18 位十进制数字,请考虑使用 double。
- 不支持 TIME_MILLIS 和 TIME_NANOS 类型。考虑改用 TIME_MICROS。
- 不支持已弃用的 BIT_PACKED 编码。最近的 Parquet 文件不应使用此编码,因为它已被弃用超过五年。
- 不支持 DELTA_LENGTH_BYTE_ARRAY 编码和最近的 BYTE_STREAM_SPLIT 编码,因为它们不是由任何库编写的。如果您遇到任何使用这些编码的 Parquet 文件,请告诉我们。
- 支持的压缩包括 SNAPPY、GZIP、ZSTD 和 LZ4_RAW。
另请参见
- 优化 Amazon Redshift 和 Tableau 软件部署来提高性能(链接在新窗口中打开) - Tableau 白皮书(需要注册或登录)
- 使用 Amazon Redshift 浏览大数据分析(链接在新窗口中打开) - Tableau 点播网络研讨会(需要注册或登录)