使用数据角色验证数据

注意:数据源所有者和 Tableau 管理员可以为“数据问答”(Ask Data) 功能的特定数据字段名称和值添加同义词。有关为“数据问答”(Ask Data) 功能使用数据角色的信息,请参见 Tableau Desktop 帮助中的为“数据问答”(Ask Data)功能添加同义词(Link opens in a new window)

使用数据角色来快速确定字段中的值是否有效。Tableau Prep 提供了一组您可从中选择的标准数据角色,或者,您可以使用数据集中的唯一字段值来创建自己的数据角色。

分配数据角色时,Tableau Prep 会将为数据角色定义的标准值与您的字段中的值进行比较。任何不匹配的值都用红色感叹号标记。您可以筛选字段以仅查看有效或无效的值,并采取相应的措施来修复这些值。将数据角色分配给字段后,您可以使用“对值进行分组”选项来进行分组,并基于拼写和发音将无效值与有效值匹配。

注意:从版本 2020.4.1 开始,您现在可以在 Tableau ServerTableau Online 中创建和编辑流程。除非特别指出,本主题中的内容适用于所有平台。有关在 Web 上制作流程的详细信息,请参见Web 上的 Tableau Prep

为数据分配标准数据角色

采用与分配数据类型相同的方式将 Tableau Prep 提供的数据角色分配给字段。数据角色确定数据值所代表的意义,使 Tableau Prep 能够自动验证值并突出显示对于该角色无效的值。

举例来说,如果您有地理数据字段值,您可以分配数据角色“城市”,Tableau Prep 即会将这些字段中的值与一组已知的域值或模式进行比较来确定不匹配的值。

注意:系统会对每个字段进行单独分析,因此国家/地区“美国”中的州“华盛顿”中的城市值“波特兰”可能不是有效的城市和州组合,但并不会将其标识为无效,因为它是有效的城市名称。

Tableau Prep Builder 提供以下数据角色:

  • 电子邮件

  • URL

  • 地理角色(基于当前地理数据,并且与 Tableau Desktop 使用的数据相同)

    • 机场
    • 地区代码 (美国)
    • CBSA/MSA
    • 城市
    • 国会选区 (美国)
    • 国家/地区
    • 郡县
    • NUTS 欧洲
    • 州/省/市/自治区
    • 邮政编码

提示:Tableau Prep Builder 版本 2019.1.4 及更高版本中以及在 Web 上,如果为字段分配地理角色,则还可以使用该数据角色,通过数据角色定义的标准值来匹配值和对值进行分组。有关使用数据角色对值进行分组的详细信息,请参见清理和调整数据(Link opens in a new window)

若要为字段分配数据角色,请执行以下操作:

  1. 在“配置”窗格、“结果”窗格或数据网格中,单击字段的数据类型。

  2. 为字段选择数据角色。

    Tableau Prep 会将字段的数据值与所选数据角色的已知域值或模式(对于电子邮件或 URL)进行比较,并用红色感叹号标记任何不匹配的值。

  3. 单击字段的下拉箭头,并从“显示值”部分选择一个选项,以显示所有值或仅显示对于数据角色有效或无效的值。

  4. 使用字段的“更多选项” 菜单中的清理选项来更正无效的任何值。有关如何清理字段值的详细信息,请参见关于清理操作(Link opens in a new window)

创建自定义数据角色

Tableau Prep Builder 版本 2019.3.1 开始以及在 Web 上,您可以使用数据集中的字段值创建自己的自定义数据角色,来为您或他人可用于在清理数据时验证字段值的一组标准值。选择要使用的字段,将任何清理操作应用于该字段(如果需要),然后将该字段发布到 Tableau ServerTableau Online 以在流程中使用它或与他人共享您的数据角色。

如果在 Web 上编辑流程时创建自定义数据角色,可以将自定义数据角色直接发布到已登录的服务器。

要求

  • 您可以依据数据集中的单个字段创建自定义数据角色。不支持依据字段组合创建自定义数据角色。
  • 只能为分配有“字符串”“数字(整数)”数据类型的字段创建自定义数据角色。
  • 当您创建自定义数据角色时,Tableau Prep 会在您的流程中创建一个专用于发布数据角色的输出步骤。
  • 不支持将自定义数据角色发布到同一流程中的多个站点。如果发布流程,您必须将自定义数据角色发布到在其中发布流程的同一站点或服务器。
  • 自定义数据角色特定于您在其中发布这些角色的站点、服务器和项目。具有该位置权限的所有用户都可以使用自定义数据角色,但必须登录到站点或服务器才能选择或应用该角色。将针对新项目为自定义数据角色分配“所有用户”组的默认权限,而不是“无”
  • 自定义数据角色不是特定于版本的。应用自定义数据角色时,将应用最新版本。
  • 发布到 Tableau ServerTableau Online 后,具有站点、服务器和项目访问权限的用户可以查看该位置中的所有数据角色。
  • 若要编辑数据角色,必须在 Tableau Prep Builder 中或 Web 上的流程中进行更改,然后使用相同的名称重新发布数据角色以覆盖它。此过程类似于编辑已发布的数据源。

创建自定义数据角色

  1. “配置”窗格、数据网格或“结果”窗格中,选择要用于创建自定义数据角色的字段。

  2. 为该字段单击“更多选项”,并选择“以数据角色形式发布”

  3. 选择要在其中发布数据角色的服务器和项目。

  4. 单击“运行流程”以创建数据角色。发布过程成功完成后,您可以在 Tableau ServerTableau Online 中查看数据角色。根据 Tableau ServerTableau Online 站点上的负载,处理数据角色可能需要一段时间。如果您的数据角色无法立即使用,请等待几分钟,然后再次尝试选择。

应用自定义数据角色

  1. 在“配置”窗格、“结果”窗格或数据网格中,单击要在其中应用自定义数据角色的字段的数据类型。

  2. 选择“自定义”,然后选择要应用于字段的数据角色。

    重要信息:Tableau Prep Builder 中,请确保登录到在其中发布了数据角色的站点或服务器,否则您将看不到此选项。

    Tableau Prep 会将字段的数据值与所选数据角色的已知域值进行比较,并用红色感叹号标记任何不匹配的值。

  3. 单击字段的下拉箭头,并从“显示值”部分选择一个选项,以显示所有值或仅显示对于数据角色有效或无效的值。

  4. 使用字段的“更多选项” 菜单中的清理选项来更正无效的任何值。有关如何清理字段值的详细信息,请参见关于清理操作(Link opens in a new window)

查看和管理自定义数据角色

您可以在 Tableau ServerTableau Online 上查看及管理发布的自定义数据角色。您可以查看发布到您的站点或服务器的所有自定义数据角色。针对所选数据角色单击“更多操作”,以将其移到其他项目、更改权限或将其删除。

按数据角色对类似值进行分组

注意:Tableau Prep Builder 版本 2019.1.4 和 2019.2.1 中,此选项标为“数据角色匹配”

如果为字段分配地理数据角色,您可以使用数据角色中的值,基于拼写和发音对数据字段中的值进行分组和匹配,从而使值标准化。您可以使用“拼写”“拼写 + 发音”对无效值进行分组,并将其与有效值匹配。

这些选项使用数据角色定义的标准值。如果数据集示例中没有标准值,Tableau Prep 会自动添加该值,并将值标记为不在原始数据集中。有关为字段分配数据角色的详细信息,请参见为数据分配标准数据角色

若要使用数据角色对值进行分组,请完成以下步骤。

  1. 在“配置”窗格、“结果”窗格或数据网格中,单击字段的数据类型。

  2. 为字段选择以下数据角色之一:

    • 机场
    • 城市
    • 国家/地区
    • 郡县
    • 州/省/市/自治区

    Tableau Prep Builder 版本 2019.3.2 开始以及在 Web 上,您还可以从自定义数据角色中进行选择

    标准数据角色(版本 2019.1.4 及更高版本) 自定义数据角色(版本 2019.3.2 及更高版本)

    Tableau Prep 会将字段的数据值与所选数据角色的已知域值进行比较,并用红色感叹号标记任何不匹配的值。

  3. 单击“更多选项”,选择“对值进行分组”(在以前的版本中为“分组和替换”),然后选择以下选项之一:

    • 拼写:将无效值与因为添加、移除或替换了字符而不同的最接近有效值匹配。
    • 发音 + 拼写:根据拼写和发音将无效值与最相似的有效值匹配。

    您还可以单击字段上的“建议” 图标将建议应用于组,并将无效值替换为有效的值。此选项使用“发音 + 拼写”值分组选项。

    Tableau Prep 按拼写或者拼写和发音比较各个值,然后依据数据角色的标准化值对类似的值进行分组。如果数据集中没有标准化值,则系统会添加该值,并使用红点加以标记。

感谢您的反馈!