检查和筛选数据

透彻理解数据的组成,从而更好地了解所需进行的更改,以及流程中包括的操作的效果。

查看有关数据的大小详细信息

连接到数据后,向流程中添加一个表,然后添加一个步骤。您可以使用“配置”窗格来查看数据的当前状态和结构,并找出 null 值和离群值。

  • 字段数和行数:在“配置”窗格的左上角,您可以找到在流程的某个特定点数据中的字段数和行数的汇总。Tableau Prep Builder 会舍入到最接近的千位。在下面的示例中,数据集中有 21 个字段和 3000 行。

    将光标悬停在字段数和行数上时,您可以看到确切的行数(本例中为 2848):


  • 数据集大小:通过在“输入”窗格的“数据样本”选项卡中指定要包括的行数来使用数据子集。

  • 已抽样:为了让您能够与数据直接交互,Tableau Prep Builder 会使用原始数据的子集。行数由数据类型和所呈现的字段数确定。与整数相比,字符串字段会占用更多的存储空间,因此,如果数据集中有 10 个字符串字段,与有 10 个整数字段的情况相比,您得到的行数可能会更少。“已抽样” 指示符显示在“配置”窗格中大小详细信息的旁边,用于指明这是数据集的子集。有关数据样本的详细信息,请参见连接到数据中的“设置数据样本大小”。

  • 唯一值的数量:每个字段标题旁边的数字表示该字段内包含的不同值。Tableau Prep Builder 会舍入到最接近的千位。在下面的示例中,“说明”字段中呈现的不同值为 3,000 个,但如果将光标悬停在数字上,您可以看到唯一值的确切数量。



查看分配给数据的数据类型

像 Tableau Desktop 一样,Tableau Prep Builder 会在您将连接拖到“流程”窗格中时对字段中的数据进行解读,并自动为其分配一个数据类型。由于不同的数据库可能会以不同的方式处理数据,因此 Tableau Prep Builder 的解读可能不会始终正确。

若要更改数据类型,请单击数据类型图标,并从上下文菜单中选择正确的数据类型。您可以将“字符串”或“整数”数据类型更改为“日期”或者“日期和时间”,Tableau Prep Builder 将触发“Auto DateParse”来更改这些数据类型。像 Tableau Desktop 一样,如果更改未成功,您将会在字段中看到 Null 值,并且您可以创建计算来进行更改。

有关使用 DateParse 的详细信息,请参见 Tableau Desktop 和 Web 制作帮助中的将字段转换为日期字段

为数据分配数据角色

为了更轻松地确定无效的字段值,您可以采用和分配数据类型相同的方式来为字段分配一个数据角色。此角色将告知 Tableau Prep Builder 您的数据值所代表的意义,使其能够自动验证值并突出显示对于该角色无效的值。

数据角色告知 Tableau Prep Builder 字段值的含义或代表的意义。举例来说,如果您有地理数据字段值,您可以分配数据角色“城市”,Tableau Prep Builder 即会将这些字段中的值与一组已知的域值或模式进行比较来确定不匹配的值。

注意:系统会对每个字段进行单独分析,因此国家/地区“美国”中的州“华盛顿”中的城市值“波特兰”可能不是有效的城市和州组合,但并不会将其标识为无效,因为它是有效的城市名称。

Tableau Prep Builder 支持以下数据角色:

  • 电子邮件

  • URL

  • 地理角色(基于当前地理数据,并且与 Tableau Desktop 使用的数据相同)

    • 机场
    • 区号(美国)
    • CBSA/MSA
    • 城市
    • 国会选区(美国)
    • 国家/地区
    • 郡/县
    • NUTS 欧洲
    • 州/省/市/自治区
    • 邮政编码

Tableau Prep Builder 版本 2019.1.4 中,如果为字段分配地理角色,则还可以使用该数据角色,通过数据角色定义的标准值来匹配值和对值进行分组。有关使用数据角色对值进行分组的详细信息,请参见按数据角色对类似值进行分组

若要为字段设置数据角色,请执行以下操作:

  1. 在“配置”窗格、“结果”窗格或数据网格中,单击字段的数据类型。

  2. 为字段选择数据角色。

    Tableau Prep Builder 会将字段的数据值与所选数据角色的已知域值或模式(对于电子邮件或 URL)进行比较,并用红色感叹号标记任何不匹配的值。

  3. 单击字段的下拉箭头,并从“显示值”部分选择一个选项,以显示所有值或仅显示对于数据角色有效或无效的值。

  4. 使用字段的“更多选项” 菜单中的清理选项来更正无效的任何值。有关如何清理字段值的详细信息,请参见应用清理操作

查看值或唯一值的分布

默认情况下,Tableau Prep Builder 会将字段中的数字、日期和日期时间值分组为存储段。这些存储段也称为数据桶。数据桶确保您能查看值的整体分布状况,并快速确定离群值和 null 值。数据桶大小是基于字段中的最小值和最大值计算得出的,并且 null 值始终显示在分布的顶部。

例如,将按年份对订单和发货日期进行汇总或“分桶”。每个数据桶都表示从起始年份一月份到下一年一月份的一年,并带有相应标签。由于有处于 2018 年和 2019 年下半年的销售日期及发货日期,因此将针对这些值为以下年度创建数据桶。

如果离散(或分类)数据字段包含许多行,或者其具有的分布太大,如果不滚动就无法显示在字段中,您可能会在字段的右侧看到汇总分布。您可以在分布中单击和滚动来定位特定值。

如果数据包含数字或日期字段,您可以切换显示值的详细(离散)版本或值的汇总(连续)版本。汇总视图显示字段中的值范围,以及某些值的出现频率。

这种切换可帮助您隔离唯一值(比如字段中的“3”记录数)或值的分布(比如字段中所有“3”记录的总和)

切换视图:

  1. 在“配置”窗格、“结果”窗格或数据网格中,单击数值或日期字段的“更多选项” 菜单。

  2. 在上下文菜单中,选择“详细信息”以查看值的详细版本,或选择“摘要”以查看值的分布式版本。

对值和字段进行排序

“配置”卡上的排序选项使您能按升序或降序对数据桶(由分布条形表示的值计数)进行排序,或按字母顺序对单独的字段值进行排序。

如果要重新排列字段的顺序,只需在“配置”窗格、“结果”窗格或“数据”网格中选择并拖动配置卡或数据网格中的字段,直至出现黑色定位线为止。然后将其放置到位。“配置”窗格和数据网格是同步的,因此字段将以相同的顺序出现在两个位置中。

突出显示流程中的字段和值

利用 Tableau Prep Builder 可轻松地查找流程数据中的字段和值。在流程窗格中跟踪字段的来源以及在流程中的何处使用了字段,或者在配置卡或数据网格中单击单独的值以突出显示相关值或相同的值。

在流程中跟踪字段

在 Tableau Prep Builder 版本 2018.3.3 及更高版本中,您可以突出显示字段在流程中的每处使用位置,甚至可以跟踪字段的来源,从而可帮助您在未看到预期结果时找出缺少的值或排查流程故障。

在清理步骤的“配置”窗格中或任何其他步骤类型的“结果”窗格中单击某个字段,流程窗格将突出显示其中使用了该字段的路径。

注意:此选项不可用于“输入”或“输出”步骤类型。

查看相关值

您可以使用突出显示来查找字段之间的相关值。当您在“配置”窗格或“结果”窗格的“配置”卡中单击某个值时,其他字段中的所有相关值会以蓝色突出显示。蓝色显示您选择的值与其他字段中的值之间的关系分布。

例如,若要突出显示相关值,请在“配置”窗格中单击字段中的一个值。其他字段中的相关值将变为蓝色,以蓝色突出显示的条形比例表示关联程度。

突出显示相同的值

在数据网格中选择值时,所有相同的值也会突出显示。这些突出显示可帮助您确定数据中的模式或不规则情况。

保留或移除字段

在处理流程中的数据时,您可能需要移除不需要的字段。在任何清理或操作步骤的“配置”窗格或数据网格中,选择一个或多个字段,并右键单击或按住 Ctrl 单击 (MacOS),然后选择“移除”以移除所选字段,或选择“只保留”(版本 2019.2.2 及更高版本)以仅保留所选字段,并移除所有未选择的字段。

搜索字段和值

在“配置”窗格或“结果”窗格中,您可以搜索您特别感兴趣的字段或值,并使用搜索结果来筛选数据。

若要搜索字段,请在工具栏上的搜索框中输入全部或部分搜索词。

在字段中搜索值:

  1. 单击字段的搜索图标 ,并输入一个值。

  2. 若要使用高级搜索选项,请单击“搜索选项...”按钮。

  3. 若要使用搜索结果来筛选数据,请选择“只保留”“排除”

    “流程”窗格中,受影响的步骤上方将出现一个筛选器图标。

返回顶部


筛选值

对值进行筛选的一种简便方法是:在“配置”卡或数据网格中选择该值,右键单击,然后选择“只保留”“排除”。您也可以选择“编辑值”以内联方式编辑值。

您可以在流程的任何步骤中筛选数据。若要添加筛选器,请在“配置”卡上或数据网格中单击“更多选项” 菜单。

注意:若要在数据网格的“更多选项” 菜单中应用筛选器,请单击“隐藏配置窗格” 按钮,然后单击要筛选的字段的“更多选项”

可用于每种数据类型的筛选器

数据类型 可用筛选器
字符串 计算、通配符匹配、Null 值
数字 计算、值范围、Null 值
日期和时间 计算、值范围、相对日期、Null 值

使用计算筛选器

当您选择“计算”时,“添加筛选器”对话框将打开。输入计算,验证其是否有效,并单击“保存”

使用值范围筛选器

当您选择“值范围”时,您可以指定范围,或者设置最小值或最大值。

使用日期范围筛选器

当您选择“日期范围”时,您可以指定日期范围,或者设置最早日期或最晚日期。

使用相对日期筛选器

当您选择“相对日期”时,您可以根据年、季度、月、周或日对日期范围进行筛选。您也可以配置相对于特定日期锚点,并包括 null 值。

使用“通配符匹配”筛选器

如果选择“通配符匹配”,您可以筛选字段值以仅保留或仅排除那些符合条件的值。在筛选编辑器中,选择“只保留”“排除”选项卡,输入要匹配的值,然后设置条件以返回所寻找的值。

筛选的结果显示在筛选编辑器的左侧窗格中,以便您能够查看和试验结果。有了所需的结果之后,单击“完成”应用更改。

使用 Null 值筛选器

如果选择“Null 值”,您可以筛选所选字段中的值,以仅显示 null 值或排除所有 null 值。

感谢您提供反馈! 提交反馈时出现错误。请重试或向我们发送消息