找到好的数据集

了解如何使用 Tableau Desktop(或者生成示例或概念验证内容)的一个好方法是查找您感兴趣的数据集。当您有真正的问题要用数据回答时,分析的步骤会变得更加简单和有意义。

数据集的现实

在尝试查找企业认可的非官方数据的数据集时,有两个不可避免的事实。

找不到想要查找的内容。

  • 尽量避免对您所需的内容有过于具体的先入之见。
  • 对于可用于给定项目的内容保持灵活而开放的思想。
  • 有时,您需要的数据是付费的 — 请决定是否值得。

您将必须清理数据。

什么构成了一个好的数据集

好的数据集是适合于您的用途的数据集。只要满足这种需求,它就是一个好的数据集。但是,有一些注意事项可以帮助您清除不太可能适合您的用途的数据集。总体而言,请查找满足以下条件的数据集:

  1. 包含您需要的元素
  2. 是解聚的数据
  3. 至少有几个维度和几个度量
  4. 具有良好的元数据或数据字典
  5. 可使用(不是专有格式、没有过于凌乱或过于繁琐)
是什么让 Superstore 数据源很出色?

Superstore 是 Tableau Desktop 附带的示例数据源之一。为什么它是这么好的数据集?

  • 必要元素:Superstore 具有日期、地理数据、具有分层结构关系的字段(类别、子类别、产品)、正值或负值度量(利润)。很少有无法用 Superstore 单独创建的图表类型,并且很少有功能不能用于演示。
  • 已解聚:行级数据是事务中的每一项。这些项目可以汇总到订单级别(通过“订单 ID”)或按任何维度(例如日期、客户、区域等)汇总。
  • 维度和度量:Superstore 有几个维度,允许我们按类别或城市等内容进行“切片和切分”。还有多个度量值和日期,这为图表类型和计算提供了可能性。
  • 元数据:Superstore 具有命名良好的字段和值。您无需查找任何值的含义。
  • 小而干净:Superstore 只有几兆字节,所以它在 Tableau 安装程序中占用的空间很小。它还是非常整洁的数据,只有每个字段中正确的值和良好的数据结构。

1.良好的数据集具有您所需的元素

如果要查找数据集来构建特定可视化项或显示特定功能,请确保数据集具有所需的字段类型。例如,地图的视觉效果很好,但需要地理数据。基本演示通常涉及对日期进行下钻查询,因此数据至少需要一个日期字段(并且需要比年份更精细才能显示下钻查询)。并非所有数据集都需要所有这些元素 — 了解您所需的内容,并且不要把时间浪费在缺少关键元素的数据集上。

用于分析的常见元素:

  • 日期
  • 地理数据
  • 分层数据
  • “有趣的”度量 - 量级的巨大变化或正负值

某些功能或可视化项类型可能需要数据的特定特征,例如: 

  • 群集
  • 预测
  • 趋势线
  • 用户筛选器
  • 空间计算
  • 某些计算
  • 标靶图
  • 控制图

2.良好的数据集是解聚的(原始)数据

如果数据过于聚合,则无法进行太多分析。举例来说,如果您想查看人们在 Google 上搜索“南瓜香料”的趋势,但有年度数据,您只能看到高度概括的趋势。理想情况下,您希望得到每天的数据,这样您就可以看到当星巴克开始提供 #PSL 时的巨大峰值。

根据不同的分析,解聚的内容可能有所不同。请注意,由于隐私或实用性的原因,某些数据集永远不会比特定级别更精细。例如,您不太可能找到疟疾病例逐个报告的数据集,因此按区域划分的每月总数可能足够精细。

聚合和粒度

理解聚合和粒度是一个重要的概念,原因有很多:它会影响查找有用的数据集、构建所需的可视化项、正确地合并数据以及使用 LOD 表达式等操作。聚合和粒度是一个范围的两端。

聚合指的是数据是如何组合在一起的,比如对所有针对南瓜香料的搜索进行累加,或者取西雅图附近某一天所有温度读数的平均值。

  • 默认情况下,Tableau 中的度量是聚合的。默认聚合为 SUM。您可以将聚合更改为“平均值”、“中值”、“不重复计数”、“最小值”等。

粒度是指数据的详细程度。数据集中的行(也称为记录)代表什么?疟疾患者?一个省当月的疟疾病例总数?这就是粒度。了解数据的粒度对于使用 LOD(详细级别)表达式至关重要。

有关详细信息,请参见有关聚合和粒度的免费培训视频(链接在新窗口中打开)或帮助主题Tableau 中的数据聚合

3.良好的数据集具有维度和度量

许多可视化项类型需要维度度量

  • 如果只有维度,则通常您只能进行计数、计算百分比或使用“记录数”字段操作。
  • 如果只有度量,则无法按任何内容分解值。您可以完全解聚数据,也可以使用整体 SUM 或 AVG 等。

这并不是说只有维度的数据集没有用处。人口统计数据是有大量维度的数据的示例,许多有关人口统计的分析都是基于计数或基于百分比的。但对于分析性较强的丰富数据集,您至少需要几个维度和度量。

维度和度量(离散和连续)

在上图中,请注意,与 连续度量 离散度量 不同, 数值维度 在“标记”卡上没有聚合。

维度和度量

字段在数据窗格中分为维度和度量。在 Tableau 中,维度作为自身出现在视图中,而度量则自动聚合;度量的默认聚合为 SUM。

  • 维度是定性的,也就是说它们是被描述的,而不是被测量的。
    • 维度通常是城市或国家/地区、眼睛颜色、类别、团队名称等。
    • 维度通常是离散的。
  • 度量是定量的,这意味着它们可以被测量和记录(数值)。
    • 度量通常是销售额、高度、点击次数等。
    • 度量通常是连续的。

如果可以对字段进行数学运算,它应该是一个度量。如果您不确定字段应该是度量还是维度,则考虑是否可以对值进行有意义的数学运算。AVG(RowID)、两个社会保险号码的总和,或者将邮政编码除以 10 有什么意义吗?没有意义。这些是恰好被写成了数字的维度。想想有多少国家/地区有字母数字邮政编码 — 它们只是标签,尽管在美国它们只是数字。Tableau 可以识别许多字段名,这些字段名表示一个数值字段实际上是一个 ID 或邮政编码,Tableau 会尝试创建这些维度,但它并不完美。使用“我是否可以对此进行数学运算”测试来确定数值字段应该是度量还是维度,并根据需要重新排列数据窗格。

注意:虽然可以使用日期(例如 DATEDIFF 计算)进行数学运算,但标准惯例是将日期分类为维度。

离散和连续

离散或连续字段与维度和度量的概念有些一致,但它们并不相同。

  • 离散字段包含不同的值。它们组成视图中的标题或标签,“胶囊”是蓝色的
  • 连续字段“形成一个不间断的整体”。它们组成视图中的轴,“胶囊”是绿色的

理解离散和连续的一个好方法是查看日期字段。日期可以是离散,也可以是连续的。

  • 观察十年或一个世纪的八月份平均气温意味着“八月”被用作离散的定性日期部分。
  • 查看从 1960 年以来报告的疟疾病例的总体趋势时,将采用一个单一的、不间断的轴,这意味着该日期被用作一个连续的定量值。

有关详细信息,请参见有关了解胶囊类型的免费培训视频(链接在新窗口中打开)或帮助主题维度和度量(蓝色和绿色)

Tableau 创建的字段

无论数据集是什么,Tableau 都将自动创建三个字段:

  • 度量名称(维度)
  • 度量值(度量)
  • 记录数(度量)

如果数据集中有地理字段,Tableau 还将创建“纬度(生成)”和“经度(生成)”字段。

“度量名称”“度量值”是两个非常有用的字段。有关详细信息,请参见免费培训视频(链接在新窗口中打开)或帮助主题度量值与度量名称

“记录数”是一个字段,它基本上为数据集中的每一行分配一个“1”。这使您能够在数据集中至少有一个度量,并可以帮助进行一些分析。您必须了解数据的粒度(行表示什么),以便能够定义记录数的含义。

此处的每行为一天,因此记录数为天数:

此处的每行为一个月,因此记录数为月数:

4.良好的数据集具有元数据或数据字典

数据集只有在您知道数据是什么时才有用。在寻找好数据的过程中,没有什么比打开一个像这样的文件更让人沮丧的了:

全数字数据的电子表格视图

4 或 12 的来源是什么意思?“OTU0-OTU4”字段中有哪些信息?

一个好的数据集应该具有标记良好的字段和成员,或者有一个数据字典,这样您就可以自己重新标记数据。想想 Superstore — 它的字段和值是什么是显而易见的,比如“Category”(类别)和它的成员“Technology”(技术)、“Furniture”(家具)和“Office Supplies”(办公用品)。或者,对于上图中的微生物群数据集,有一个数据字典(链接在新窗口中打开)来解释了每个来源(4 是粪便,12 是胃)和每个 OTU 的分类(OTU3 是类噬菌体属的细菌)。

数据字典也可以称为元数据、指标、变量定义、词汇表或任意数量的其他内容。在一天结束时,数据字典提供有关列名称和列成员的信息。可通过多种方式将该信息引入数据源或可视化项,其中包括:

  • 重命名列,使其更易于理解(可在数据集本身或 Tableau 中完成此操作)。
  • 为字段成员重新指定别名(可在数据集本身或 Tableau 中完成此操作)。
  • 创建计算以添加数据字典信息。
  • 在 Tableau 中为字段加上注释(注释不会显示在已发布的可视化项上,只会显示在制作环境中)。
  • 使用数据字典作为另一个数据源,并将两个数据源合并。

丢失数据字典会使数据集变得毫无用处。如果要为数据集添加书签,请也为数据字典添加书签。如果要下载,请同时下载两者并将它们放在同一位置。

5.好的数据集是您可以使用的数据集

只要您能够理解数据集并且它具有所需的信息,即使很小的数据集也可以为分析提供强大的支持。较小的数据集也易于存储、共享和发布,并且可能具有良好的性能。

同样,即使您找到了满足您需要的“完美”数据集,如果需要花费不现实的努力来清理,那么它也不是完美的。知道何时远离于混乱的数据集非常重要。

例如,此数据集来自维基百科的一篇关于相对字母频率的文章。它开始为 84 行和 16 列(转置为 1,245 行和 3 列)。Excel 文件为 16KB。但是,借助某些组、集、计算和其他操作,它可实现强大的分析和有趣的视觉效果。

单击图像可下载工作簿。

重新标记数据

找到一个好的数据集后,通常需要对其进行重新标记它。重新标记数据对于为示例或概念验证创建假数据,或者使数据更具可读性都很有用。

重命名会改变该字段在 Tableau 中的显示方式,例如将“Sales”(销售额)重命名为“Pipeline Sales”(渠道销售额),或将“State”(州/省/市/自治区)重命名为“Province”(省)。

重新指定别名会更改字段成员的显示方式,例如为“Country”(国家/地区)字段中的值重新指定别名,使 CHN 变为中国,并使 RUS 变为俄罗斯。

  • 离散维度字段中的值称为成员。只能为成员重新指定别名。假设有一个表示温度的度量字段。如果不更改数据本身,则无法更改值“54°F”。但在“Country”(国家/地区)字段将成员“CHN”的别名重新指定为“中国”是相同的信息,只是用另一种方式标记。

重命名和重新指定别名几乎是一回事。Tableau 中的惯例是:为字段命名,并为成员指定别名。有关详细信息,请参见在“数据”窗格中组织和自定义字段在视图中创建别名以重命名成员

注意:重命名或重新指定别名只会更改在 Tableau Desktop 中的外观;不会将任何更改写回基础数据。

重新标记以制作假数据

重新标记现有数据集是使示例或概念验证内容更具吸引力的好方法。

  1. 使用简单的数据集(如 Superstore)来构建所需的内容(特定图表类型、显示某些功能等)
  2. 重命名相关字段、更改工具提示,或者更改文本方面以掩盖数据实际表示的内容。

重要信息:只有在信息明显是假的情况下才这样做。小心,人们不认为它是真实数据,并尝试使用它进行分析。例如,使用荒唐的名称或毫无意义的字段名,如颜色或动物。

重新指定别名以使数据更易于使用

将数据存储为数值而不是字符串值更有效,但数值编码可能会使数据更难理解。对于小型数据集,它可能不会对性能产生影响,所以优先考虑能够轻松理解数据。

重新指定别名的缺点您不再能够访问这些数值(这使得排序、分配颜色渐变等操作变得更加困难)。请考虑复制该字段并为副本重新指定别名。另外,Tableau 的计算可以很好地保存原始信息,同时使其更容易理解。

使用 CASE 函数重新指定别名

对于重新指定别名,计算可能很有助益。例如,CASE 函数允许您说,本质上,“当此字段的值为 A 时,请给我 X。当值为 B 时,请给我 Y”。

这里,CASE 函数查看 tornado 数据集中的 F-scale,并提供与每个数值相关的书面描述:

                    

CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END

现在我们可以选择使用原始的“F-scale”字段 (0-5) 或可视化项中的“F-scale damage description”(F-scale 损害描述)字段。

寻找数据集时的技巧

注意:尝试确保可以回答“数据集中的行(也称为记录)代表什么?”问题如果您不能清楚地说明这一点,那么您可能无法很好地理解数据以便能够使用它,或者数据的结构不适合进行分析。

  • 跟踪数据的来源。
  • 将数据字典信息与数据本身一起保存。
  • 如果需要使内容保持最新,请避免使用过时的数据。查找:
    • 可更新的数据(库存、天气、定期发布的报告等)
    • 永恒的数据(各种动物的平均质量不会年复一年地变化)
    • 可通过人为更改为历史日期或未来日期来实现未来验证的数据
  • 尝试简单地用 Google 搜索一下您要找的东西,您可能会感到惊讶。
  • 如果需要准备的工作太多,不要害怕放弃数据集。

寻找数据的地方

可以在何处寻找数据?在非常多的地方都可以找到数据集。可通过这些选项着手了解相关信息。请注意,数据集的真实情况确实适用于这些站点 — 您现在可能找不到您的想法,并且很可能需要做一些清理,以便为分析做好数据准备。

免责声明:尽管我们尽最大努力确保外部网站的链接保持正确、最新并相关,但 Tableau 对于外部提供商所维护的页面的准确性或新鲜度不担负任何责任。在此处列出网站并是对任何内容或组织的认可。请与外部网站联系来获取其内容相关问题的答案。

Tableau Public(链接在新窗口中打开) :Tableau Public 是适用于 Tableau 的数据集的一项令人惊叹的资源。搜索您感兴趣的主题的工作簿,浏览寻找灵感,然后下载工作簿来访问数据。或者查看精心制作的示例数据(链接在新窗口中打开)

维基百科表格 (链接在新窗口中打开):从维基百科表格中获取数据:复制并粘贴到电子表格中、复制并直接粘贴到 Tableau 中,或使用 Google 工作表和 IMPORTHTML 函数(链接在新窗口中打开)创建数据的 Google 电子表格。

Google 数据集搜索(链接在新窗口中打开) :“一个整合在线数据集碎片世界的搜索引擎”。

Data is Plural(链接在新窗口中打开) :订阅有关数据集的每周新闻稿,或浏览存档(链接在新窗口中打开)

Makeover Monday(链接在新窗口中打开) :“每周一加入我们,使用给定的数据集,创建更好、更有效的可视化项,并帮助我们使信息更容易访问”。您可以看到其他人用相同的数据集做了什么,开始您的分析或给予灵感。使用 Twitter 上的 #makeovermonday(链接在新窗口中打开) 参与。

其他网站

感谢您的反馈!