Bookshop 数据集

我们为 Tableau Desktop 2020.2 创建了 Bookshop 数据集,用于展示关系 — 用于合并数据的新数据建模功能。

下载文件

您可以选择下载原始数据,从头开始构建自己的数据模型,或下载预先构建的数据源之一,直接开始进行关系分析。

  • 原始数据 (xlsx)
  • 打包的数据源 (tdsx) 文件
    • Bookshop.tdsx - 一个打包 .tdsx 文件,其中包含已经构建的相关数据源,以及一些添加的元数据自定义项
    • MinimalBookshop.tdsx- 与 Bookshop.tdsx 相同的表,但没有任何元数据或清理
    • Bookshop_libraries.tdsx- 一个打包的 .tdsx 文件,该文件将图书馆表添加到 Bookshop.tdsx(包括所有表)。

连接到下载的 .tdsx

  1. 打开 Tableau Desktop。
  2. 在左侧的“连接”窗格中,在“到文件”标题下选择“更多...”选项。
  3. 导航到下载了 .tdsx 的位置,然后双击它(或选择它,然后单击“打开”)。

关于数据集

Bookshop 由 13 个表组成,以下列方式合并:

注意:此数据集的中心概念是书籍版本的理念。书籍是具有诸如作者、标题和流派等属性的概念。版本是书籍的物理版本,具有诸如格式(精装本、平装本)、出版日期和页数等属性。

数据字典

某些字段可能需要一点解释。

  • “Ratings”(评级)表中的“Rating”(评级)字段的等级为 1-5,其中 5 为高。
  • Format”(格式)字段是格式的详细细分。除了“Hardcover”(精装本)之外的任何其他内容都可以被视为“Paperback”(平装本)。
  • ISBN 代表国际标准书号,是为书籍的每个版本指定的唯一的 13 数位标识符。ISBN 以条形码中表示,并且与价格相关联。
  • ItemID”(项目 ID )和“OrderID”(订单 ID)字段是分层的。一张订单可能包含多个项目。
  • Staff Comment”(员工评论)字段包含一些书籍的摘要和评论。

如果您构建自己的数据源

  1. Publisher”(出版商)和“Sales”(销售额)表必须与“Edition”(版本)表相关。
  2.  可以关联或联接“Book”(书籍)和“Info”(信息)表,但必须基于计算 BookID = [BookID1]+[BookID2]
    • 建议使用内部联接。
    • 仅当“Info”(信息)表是数据源一部分时,才能使用“Series”(系列)表。
  • 可选:
    1. 我们建议重命名与信息“Book”(书籍)或类似内容联接的“Book”(书籍)逻辑表。
    2. 可以独立分析四个“Sales”(销售额)表,但如果它们已合并,我们建议重命名并集“Sales”(销售额)或类似内容。
    3. 用于形成关系的大多数字段不是进行分析所需要的,并且在构建数据模型后可以隐藏
      • 任何以 ID 结尾的字段都可以隐藏(唯一可以隐藏的“ID”字段是“Ratings”(评级)中的“ReviewID”(审阅 ID)和“ReviewerID”(审阅者 ID),以及“Sales”(销售额)中的“ItemID”(项目 ID)和“OrderID”(订单 ID))。
      • ISBN 应保留(最好是从“Edition”(版本)表中)作为每个版本的标识符。可以隐藏合并的联合“Sales”(销售额)表中的“ISBN”字段。
      • 可以隐藏“Award”(奖项)表中的“Title”(标题)字段。
      • 并集中听工作表和表字段也不包含唯一信息,可以隐藏。
    4. 为了简化数据模型,核心表为“Book”(书籍)、“Author”(作者)和“Edition”(版本)。影响最小、最容易排除的表是“Checkouts”(借书量)和“Ratings”(评级),其次是“Award”(奖项)、“Publisher”(出版商)、“Sales”(销售额),或者“Info”(信息)和“Series”(系列)。

    Bookshop Libraries

    BookshopLibraries.xlsx 文件围绕图书馆引入了新表,用于支持多对多关系。“Catalog”(目录)表与 ISBN 上的“Editions”(版本)表相关。“Library Profiles”(图书馆资料)表以 LibraryID 上的多对多 (n:n) 关系的形式与“Catalog”(目录)表相关。

    数据字典

    Library Profile(图书馆资料)

    • Library”(图书馆)字段是图书馆的名称。
    • Library ID”(图书馆 ID)字段也用在“Catalog”(目录)表中。
    • Consortium Member”(联盟成员)字段是一个“是/否”字段,用于指示图书馆是否为提供图书馆间借阅和共享其他服务的较大图书馆网络的一部分
    • Private”(专用)字段是“是/否”字段,用于指示这是会员专用图书馆还是公共机构
    • Staff Type”(职员类型)和“Number of Staff”(职员数量)共同描述每个图书馆的图书馆员、图书馆助理和图书馆技术人员的数量。

    Catalog(目录)

    • LoanID”(借阅 ID)是 ISBN 和图书馆组合的唯一标识符,用于跟踪图书馆拥有的“Number of Copies”(图书本数)。举例来说,如果“Idle Hour Library”(空闲时间图书馆)的某本书有两本平装本和一本精装本,则将有两个借阅 ID。
    • “Library Profile”(图书馆资料)表中还使用“Library ID”(图书馆 ID)字体。
    “Library Profile”(图书馆资料)表的结构

    “Library Profile”(图书馆资料)表的原始格式设置为一个未转置表,每个职员类型都有一列,如下所示。

    LibraryLibraryIDConsortium MemberPrivateLibrariansLibrary TechniciansLibrary Assistants

    Idle Hour Library

    L-IHLYesNo536116

    The Bibliophile’s Shelves

    L-BSYesYes430

    Armchair Athanaeum

    L-AANoYes600
    Old Friend LibraryL-OFLYesNo3517
    Bide AwhileL-BAYesNo9206
    IndieUnBoundL-IUBYesNo7247

    Page Station Book Exchange

    L-PSNoYes314

    该表已跨“Librarians”(图书馆员)、“Library Technicians”(图书馆技术人员)和“Library Assistants”(图书馆助理)列转置。最终格式有“Staff Type”(职员类型)列和“Number of Staff”(职员数量)列。但是,这意味着每个图书馆有多个行。因此,“Library Id”(图书馆 ID)不唯一,并且表的转置版本必须与“Catalog”(目录)表多对多相关。

    虽然这的好处是允许“Catalog ”(目录)和配“Profile”(资料)之间的多对一关系,但它并不是用于分析的理想结构(链接在新窗口中打开)

    浏览

    此数据集虽然是虚构的,但支持各种分析场景和大量探索。一些建议包括:

    • 哪些书最受欢迎?哪些书最不受欢迎?这是基于销售额、评价、借书量或其他指标?
    • 谁是最年轻的处女作作者?谁是最老的?
    • 有些出版社似乎在某方面有专长吗?
    • 同一本书的两个版本最长间隔多长时间?
    • 销售额是否有季节性趋势?借书量怎么样?任何标题或类型是否有季节性波动?
    • 借书量、印刷量、书评评级和销售量之间有什么关联吗?
    • 花最多时间写作的作者有最成功的书吗?他们有最高的页数吗? 
    • 大多数书是什么时候出版的?是否有任何异常? 
    • 流派、格式和价格是否有任何趋势?
    • 评级有什么样的分布?这些分布因书而异吗?这些分布因流派而异吗?它们是否与奖项一致? 
    • 鉴于有时(但并非总是)在销售时给予折扣,您将如何计算销售价格?
    • 销售额接近帕累托原则吗? 
    • 折扣中是否有任何模式? 
    • 是否有特定的表显示有脏数据?
    Bookshop 数据集复活节复活节彩蛋
    • Etaoin Shrdlu 出自莱诺铸排机热排机 (linotype hot type machines) 的典故。重写本是一种手稿制作参考。
    • 作者名字来源于美国著名作家的名单,他们的名字和姓氏被打乱了。
    • 发布日期“今天”通常是星期二。数据反映了这一点,该数据假定该行业标准持续到 2178 年。
    • 一本书没有评论、借书量或销售额。
    • 借书量数据基于实际图书馆数据,BookID 映射到标题,因此借书量趋势是真实的。
    • 分级数据基于实际图书分级数据,BookID 映射到标题,因此给定书籍的分级分布是真实的。
    • 单本书与多本书的销售比例基于一家独立书店的真实数据。
    • 销售数据是完全生成的,但它是基于一个旅游经济为主的度假小镇的实际季节和工作日趋势(按月和星期几,以及春假和寒假比例计算)。 
      • 在长周末和春假期间,销售额会激增。
      • 周末的销售额要高很多,周二和周四的销售额最低。
      • 旺季是 7 月 4 日到劳动节之间的夏季。
      • 感恩节后和圣诞节前的几周,销售额会立即飙升。
    • 数据集中的 ISBN 是虚构的,但按照 ISBN-13 原则构造:
      • EAN — 989(未实际使用)
      • 组号 — 28
      • 出版商注册人元素 - 可变长度(2-4 位)
      • 标题元素,可变长度(3-5 位,具体取决于注册人元素长度)
      • 校验位,用 ISBN-13 校验位模块化算术计算创建
    • 一个开发这一功能的开发人员推荐了一本没有版本的书,书名是《The Deep Grey》(深灰色),所以它的 BookID 以他工作电话号码的最后三个数字结尾。
    • “Edition”(版本)表中有一个(故意的)错误,其中两个版本的 BookID PA169 被标记为重写本印刷,但是 ISBN 表明它们实际上是由 Etaoin Shrdlu 出版社印刷的。

    创建这个数据集的人在制作它的过程中有太多的乐趣,而且显然对书籍有着深深的痴迷。她希望你喜欢这个数据集,它能帮助您欣赏 Tableau 中关系的力量、优雅和美丽。

    感谢您的反馈!您的反馈已成功提交。谢谢!