Bookshop 資料集
Bookshop 資料集是針對 Tableau Desktop 2020.2 建立的,用以展示關係—是組合資料的新資料建模功能。
下載檔案
可以選擇下載原始資料,然後從頭開始組建自己的資料模型,或者下載其中一個預先組建的資料來源,以直接進入關係分析。
- 原始資料 (xlsx)
- Bookshop.xlsx - .xlsx 檔形式的原始資料
- BookshopLibraries.xlsx - 介紹多對多關係的附加圖書館資料表(僅包含附加圖書館資料表)
- 封裝的資料來源 (tdsx) 檔案
- Bookshop.tdsx - 已封裝的 .tdsx 檔案,包含已建立的相關資料來源,以及一些新增的中繼資料自訂項
- MinimalBookshop. Tdsx - 與 Bookshop. tdsx 相同的表, 但沒有任何中繼資料或清理。
- Bookshop_libraries.tdsx - 封裝的 .tdsx 檔案,該檔案將圖書館表新增到 Bookshop.tdsx(包括所有表)。
若要連線至下載的 .tdsx
- 開啟 Tableau Desktop。
- 在左側的「連線」窗格中,在「至檔案」標題下選擇「更多...」選項。
- 巡覽至您下載 .tdsx 的地方,並連按兩下該檔案(或選取該檔案,然後按一下「開啟」)。
關於資料集
Bookshop 包含 13 個資料表,組合方式如下:
附錄:此資料集的中心概念是 書籍和版本的概念。書籍是具有作者、標題和類型等屬性的概念。版本是書籍的實際版本,包含格式(精裝本、平裝本)、發行日期和頁數等屬性。
資料字典
某些欄位可能需要一些解釋。
- 評分表中的「評分」欄位分數為 1-5,5 分為高分。
- 「格式」欄位是格式的詳細細分。除了「精裝本」以外的皆可視為「平裝本」。
- ISBN 代表國際標準書號(International Standard Book Number),是書籍各版本專用的 13 位數識別碼。ISBN 會以條碼呈現,並與價格連結。
- 「ItemID」和「OrderID」欄位為階層式。一個訂單可能包含多個項目。
- 「工作人員註解」欄位包含一些書籍的摘要和評論。
如果您建立自己的資料來源
- 「發行者」和「銷售」資料表必須與「版本」資料表相關。
- 「書籍」和「資料」資料表可以關聯或聯結,但必須在導入
BookID = [BookID1]+[BookID2]
時 。- 建議內部聯結。
- 只有在「資訊」表為資料來源的一部分時,才能使用「系列」表。
- 我們建議重新命名與資訊「書籍」或類似內容聯結的「書籍」邏輯資料表。
- 四個「銷售」資料表可以獨立分析,但如果是聯集的話,建議重新命名聯集「銷售」或類似內容。
- 大部分用於組成關係的欄位皆不需要分析,並且可以在建立資料模型後隱藏。
- 任何以 ID 結尾的欄位皆可隱藏(唯一可隱藏的「ID」欄位是「評分」中的 ReviewID 和 ReviewerID,以及「銷售」中的 ItemID 和 OrderID)。
- ISBN(最好是從「版本」資料表)應該保留為每個版本的識別碼。聯集「銷售」資料表中的「ISBN 」欄位可隱藏。
- 「獎勵」資料表中的「標題」欄位可隱藏。
- 來自「聯集」的工作表和表欄位也不包含唯一資訊,並且可隱藏。
- 為了簡化資料模型,核心資料表為「書籍」、「作者」和「版本」。最容易忽略且影響最小的資料表為「結帳」和「評分」,其次是「獎勵」、「發行者」、「銷售」或「資訊」和「系列」。
Bookshop 圖書館
BookshopLibraries.xlsx 檔為了支援多對多關係以圖書館為重點引入了新表。「目錄」表與 ISBN 上的「版本」表相關。「圖書館設定檔」表與「目錄」表相關,因為 LibraryID 有多對多的關係。
資料字典
圖書館設定檔
- 「圖書館」欄位是圖書館的名稱。
- 「Library ID」欄位是在「目錄」表也使用的 ID。
- 「 聯盟成員」 欄位是一個「 是/ 否」 欄位,用於表示圖書館是否是提供圖書館間借閱並共用其他服務,較大圖書館網路的一分子。
- 「私人 」欄位是「是/否」欄位,表示這是僅限會員使用的圖書館還是公共機構。
- 「工作人員類型」和「工作人員數量」共同描述每個圖書館的圖書館員、圖書館助理和圖書館技術人員數量。
目錄
- LoanID 是用於追蹤圖書館藏書量,結合 ISBN 的和圖書館的唯一識別碼。例如,如果「閒置圖書館」有同一本書有兩本平裝和一本精裝,那 Loan ID 也會有兩個。
- Library ID」欄位是在「圖書館設定檔」表也使用的 ID。
圖書館設定檔的結構
圖書館設定檔原本的格式是下方的轉置表,每個員工類型都有各自的欄位。
圖書館 | LibraryID | 聯盟成員 | 私人 | 圖書館員 | 圖書館技術人員 | 圖書館助理 |
閒置圖書館 | L-IHL | 是 | 否 | 53 | 61 | 16 |
The Bibliophile’s Shelves | L-BS | 是 | 是 | 4 | 3 | 0 |
Armchair Athanaeum | L-AA | 否 | 是 | 6 | 0 | 0 |
Old Friend Library | L-OFL | 是 | 否 | 3 | 5 | 17 |
Bide Awhile | L-BA | 是 | 否 | 9 | 20 | 6 |
IndieUnBound | L-IUB | 是 | 否 | 7 | 2 | 47 |
Page Station Book Exchange | L-PS | 否 | 是 | 3 | 1 | 4 |
該表在「圖書館員」、「圖書館技術人員」和「圖書館助理欄」之間轉置。最終格式有「員工類型」欄位與「員工數量」的欄位。但這代表每個圖書館有超過一行。因此 Library ID 並非專屬,轉置表版本必須與「目錄表」有多對多的關係。
這雖然有允許「目錄」和「設定檔」之間多對一關係的好處,但這不是理想的資料分析結構(連結在新視窗開啟)。
探索
此資料集雖然是虛構的,但支援各種分析案例和大量的探索。一些建議包括:
- 哪些書最熱門?最冷門?這是根據銷售額、評論、結帳或其他指標?
- 最年輕的新秀作家是誰?最年長的作者是誰?
- 某些出版社似乎有專門化的地方?
- 同一本書的出版時間最長相隔多久?
- 銷售是否有季節性趨勢?那結帳有嗎?任何標題或類型是否有季節性波動?
- 結帳、列印執行尺寸、書籍審查評分和銷售量之間是否有任何相關性?
- 花最多時間撰寫的作者是否有最暢銷的書?擁有的頁數是否最多?
- 大多數的書籍是何時出版?是否有任何異常?
- 類型、格式和價格是否有任何趨勢?
- 評分有何分佈順序?這些分佈是否因書而異?依類型?它們似乎與獲頒獎項符合?
- 考慮到銷售有時會有折扣(但不一定會有),您如何計算銷售價格?
- 銷售是否近似柏拉圖原則?
- 折扣是否有任何模式?
- 是否有任何資料表特別顯示有已變更的資料?
Bookshop 資料集復活節彩蛋
- Etaoin Shrdlu 是指鑄排的熱門打字機。Palimpsest 是手稿製作參考。
- 作者名字源自於美國著名作家的名單,他們的名字和姓氏皆打亂重新排列。
- 當天發行日期通常是在星期二。資料中反映出這一點,假設此行業標準維持到 2178 年。
- 一本書沒有評論、結帳,或銷售量。
- 「結帳」資料是根據實際的圖書館資料,BookID 對應至標題,所以結帳趨勢是真實的。
- 「評分」資料室根據實際書籍評分資料,BookID 對應至標題,所以指定書籍的評分分佈是真實的。
- 單一書籍與多本書籍的銷售比例是根據獨立書店的真實資料得出的。
- 「銷售額」資料已完全產生,但是以經濟旅遊型度假小鎮的實際季節性和平日趨勢為基礎(依月份和星期幾,以及春節和寒假的比例分配)。
- 連續假期和春假期間,銷售量激增。
- 週末的銷售額非常高,星期二和星期四的銷售額最低。
- 旺季是 7 月 4 日到勞動節之間的夏季。
- 感恩節後和耶誕節前的幾週,銷售額立即飆升。
- 資料集的 ISBN 是虛構的,但依照 ISBN-13 原則建立:
- EAN—989(實際未使用)
- 群組號碼—28
- 發行者註冊元素—視長度而異(2-4 位數)
- 標題元素,視長度而異(3-5 位數,取決於註冊元素長度)
- 檢查碼,透過 ISBN-13 檢查碼模組算數計算建立而得
- 負責此功能的其中一位開發人員建議一個沒有版本的書,書名是 The Deep Grey,所以其 BookID 是以他的公司電話號碼最後三位數結尾。
- 在「版本」資料表中有一個(故意的)錯誤,BookID PA169 的兩個版本標示為 Palimpsest Printing,但 ISBN 顯示它們實際上是由 Etaoin Shrdlu Press 印刷的。
建立此資料集的人在製作資料集時玩得太開心了,顯然對書籍深深著迷。她希望您喜歡此資料集,並希望能幫助您體會到 Tableau 中關係的力量、優雅和美感。