Bookshop 数据集
我们为 Tableau Desktop 2020.2 创建了 Bookshop 数据集,用于展示关系 — 用于合并数据的新数据建模功能。
下载文件
您可以选择下载原始数据,从头开始构建自己的数据模型,或下载预先构建的数据源之一,直接开始进行关系分析。
- 原始数据 (xlsx)
- Bookshop.xlsx - .xlsx 文件形式的原始数据
- BookshopLibraries.xlsx- 引入多对多关系的附加图书馆表(仅包含附加图书馆表)
- 打包的数据源 (tdsx) 文件
- Bookshop.tdsx - 一个打包 .tdsx 文件,其中包含已经构建的相关数据源,以及一些添加的元数据自定义项
- MinimalBookshop.tdsx- 与 Bookshop.tdsx 相同的表,但没有任何元数据或清理
- Bookshop_libraries.tdsx- 一个打包的 .tdsx 文件,该文件将图书馆表添加到 Bookshop.tdsx(包括所有表)。
连接到下载的 .tdsx
- 打开 Tableau Desktop。
- 在左侧的“连接”窗格中,在“到文件”标题下选择“更多...”选项。
- 导航到下载了 .tdsx 的位置,然后双击它(或选择它,然后单击“打开”)。
关于数据集
Bookshop 由 13 个表组成,以下列方式合并:
注意:此数据集的中心概念是书籍与版本的理念。书籍是具有诸如作者、标题和流派等属性的概念。版本是书籍的物理版本,具有诸如格式(精装本、平装本)、出版日期和页数等属性。
数据字典
某些字段可能需要一点解释。
- “Ratings”(评级)表中的“Rating”(评级)字段的等级为 1-5,其中 5 为高。
- “Format”(格式)字段是格式的详细细分。除了“Hardcover”(精装本)之外的任何其他内容都可以被视为“Paperback”(平装本)。
- ISBN 代表国际标准书号,是为书籍的每个版本指定的唯一的 13 数位标识符。ISBN 以条形码中表示,并且与价格相关联。
- “ItemID”(项目 ID )和“OrderID”(订单 ID)字段是分层的。一张订单可能包含多个项目。
- “Staff Comment”(员工评论)字段包含一些书籍的摘要和评论。
如果您构建自己的数据源
- “Publisher”(出版商)和“Sales”(销售额)表必须与“Edition”(版本)表相关。
- 可以关联或联接“Book”(书籍)和“Info”(信息)表,但必须基于计算
BookID = [BookID1]+[BookID2]
。- 建议使用内部联接。
- 仅当“Info”(信息)表是数据源一部分时,才能使用“Series”(系列)表。
- 我们建议重命名与信息“Book”(书籍)或类似内容联接的“Book”(书籍)逻辑表。
- 可以独立分析四个“Sales”(销售额)表,但如果它们已合并,我们建议重命名并集“Sales”(销售额)或类似内容。
- 用于形成关系的大多数字段不是进行分析所需要的,并且在构建数据模型后可以隐藏
- 任何以 ID 结尾的字段都可以隐藏(唯一可以隐藏的“ID”字段是“Ratings”(评级)中的“ReviewID”(审阅 ID)和“ReviewerID”(审阅者 ID),以及“Sales”(销售额)中的“ItemID”(项目 ID)和“OrderID”(订单 ID))。
- ISBN 应保留(最好是从“Edition”(版本)表中)作为每个版本的标识符。可以隐藏合并的联合“Sales”(销售额)表中的“ISBN”字段。
- 可以隐藏“Award”(奖项)表中的“Title”(标题)字段。
- 并集中听工作表和表字段也不包含唯一信息,可以隐藏。
- 为了简化数据模型,核心表为“Book”(书籍)、“Author”(作者)和“Edition”(版本)。影响最小、最容易排除的表是“Checkouts”(借书量)和“Ratings”(评级),其次是“Award”(奖项)、“Publisher”(出版商)、“Sales”(销售额),或者“Info”(信息)和“Series”(系列)。
Bookshop Libraries
BookshopLibraries.xlsx 文件围绕图书馆引入了新表,用于支持多对多关系。“Catalog”(目录)表与 ISBN 上的“Editions”(版本)表相关。“Library Profiles”(图书馆资料)表以 LibraryID 上的多对多 (n:n) 关系的形式与“Catalog”(目录)表相关。
数据字典
Library Profile(图书馆资料)
- “Library”(图书馆)字段是图书馆的名称。
- “Library ID”(图书馆 ID)字段也用在“Catalog”(目录)表中。
- “Consortium Member”(联盟成员)字段是一个“是/否”字段,用于指示图书馆是否为提供图书馆间借阅和共享其他服务的较大图书馆网络的一部分
- “Private”(专用)字段是“是/否”字段,用于指示这是会员专用图书馆还是公共机构
- “Staff Type”(职员类型)和“Number of Staff”(职员数量)共同描述每个图书馆的图书馆员、图书馆助理和图书馆技术人员的数量。
Catalog(目录)
- “LoanID”(借阅 ID)是 ISBN 和图书馆组合的唯一标识符,用于跟踪图书馆拥有的“Number of Copies”(图书本数)。举例来说,如果“Idle Hour Library”(空闲时间图书馆)的某本书有两本平装本和一本精装本,则将有两个借阅 ID。
- “Library Profile”(图书馆资料)表中还使用“Library ID”(图书馆 ID)字体。
“Library Profile”(图书馆资料)表的结构
浏览
此数据集虽然是虚构的,但支持各种分析场景和大量探索。一些建议包括:
- 哪些书最受欢迎?哪些书最不受欢迎?这是基于销售额、评价、借书量或其他指标?
- 谁是最年轻的处女作作者?谁是最老的?
- 有些出版社似乎在某方面有专长吗?
- 同一本书的两个版本最长间隔多长时间?
- 销售额是否有季节性趋势?借书量怎么样?任何标题或类型是否有季节性波动?
- 借书量、印刷量、书评评级和销售量之间有什么关联吗?
- 花最多时间写作的作者有最成功的书吗?他们有最高的页数吗?
- 大多数书是什么时候出版的?是否有任何异常?
- 流派、格式和价格是否有任何趋势?
- 评级有什么样的分布?这些分布因书而异吗?这些分布因流派而异吗?它们是否与奖项一致?
- 鉴于有时(但并非总是)在销售时给予折扣,您将如何计算销售价格?
- 销售额接近帕累托原则吗?
- 折扣中是否有任何模式?
- 是否有特定的表显示有脏数据?
Bookshop 数据集复活节复活节彩蛋