Bookshop 資料集
Bookshop 資料集是針對 Tableau Desktop 2020.2 建立的,用以展示關係—是組合資料的新資料建模功能。
下載檔案
可以選擇下載原始資料,然後從頭開始組建自己的資料模型,或者下載其中一個預先組建的資料來源,以直接進入關係分析。
- 原始資料 (xlsx)
- Bookshop.xlsx - .xlsx 檔形式的原始資料
- BookshopLibraries.xlsx - 介紹多對多關係的附加圖書館資料表(僅包含附加圖書館資料表)
- 封裝的資料來源 (tdsx) 檔案
- Bookshop.tdsx - 已封裝的 .tdsx 檔案,包含已建立的相關資料來源,以及一些新增的中繼資料自訂項
- MinimalBookshop. Tdsx - 與 Bookshop. tdsx 相同的表, 但沒有任何中繼資料或清理。
- Bookshop_libraries.tdsx - 封裝的 .tdsx 檔案,該檔案將圖書館表新增到 Bookshop.tdsx(包括所有表)。
若要連線至下載的 .tdsx
- 開啟 Tableau Desktop。
- 在左側的「連線」窗格中,在「至檔案」標題下選擇「更多...」選項。
- 巡覽至您下載 .tdsx 的地方,並連按兩下該檔案(或選取該檔案,然後按一下「開啟」)。
關於資料集
Bookshop 包含 13 個資料表,組合方式如下:
附錄:此資料集的中心概念是 書籍和版本的概念。書籍是具有作者、標題和類型等屬性的概念。版本是書籍的實際版本,包含格式(精裝本、平裝本)、發行日期和頁數等屬性。
資料字典
某些欄位可能需要一些解釋。
- 評分表中的「評分」欄位分數為 1-5,5 分為高分。
- 「格式」欄位是格式的詳細細分。除了「精裝本」以外的皆可視為「平裝本」。
- ISBN 代表國際標準書號(International Standard Book Number),是書籍各版本專用的 13 位數識別碼。ISBN 會以條碼呈現,並與價格連結。
- 「ItemID」和「OrderID」欄位為階層式。一個訂單可能包含多個項目。
- 「工作人員註解」欄位包含一些書籍的摘要和評論。
如果您建立自己的資料來源
- 「發行者」和「銷售」資料表必須與「版本」資料表相關。
- 「書籍」和「資料」資料表可以關聯或聯結,但必須在導入
BookID = [BookID1]+[BookID2]
時 。- 建議內部聯結。
- 只有在「資訊」表為資料來源的一部分時,才能使用「系列」表。
- 我們建議重新命名與資訊「書籍」或類似內容聯結的「書籍」邏輯資料表。
- 四個「銷售」資料表可以獨立分析,但如果是聯集的話,建議重新命名聯集「銷售」或類似內容。
- 大部分用於組成關係的欄位皆不需要分析,並且可以在建立資料模型後隱藏。
- 任何以 ID 結尾的欄位皆可隱藏(唯一可隱藏的「ID」欄位是「評分」中的 ReviewID 和 ReviewerID,以及「銷售」中的 ItemID 和 OrderID)。
- ISBN(最好是從「版本」資料表)應該保留為每個版本的識別碼。聯集「銷售」資料表中的「ISBN 」欄位可隱藏。
- 「獎勵」資料表中的「標題」欄位可隱藏。
- 來自「聯集」的工作表和表欄位也不包含唯一資訊,並且可隱藏。
- 為了簡化資料模型,核心資料表為「書籍」、「作者」和「版本」。最容易忽略且影響最小的資料表為「結帳」和「評分」,其次是「獎勵」、「發行者」、「銷售」或「資訊」和「系列」。
Bookshop 圖書館
BookshopLibraries.xlsx 檔為了支援多對多關係以圖書館為重點引入了新表。「目錄」表與 ISBN 上的「版本」表相關。「圖書館設定檔」表與「目錄」表相關,因為 LibraryID 有多對多的關係。
資料字典
圖書館設定檔
- 「圖書館」欄位是圖書館的名稱。
- 「Library ID」欄位是在「目錄」表也使用的 ID。
- 「 聯盟成員」 欄位是一個「 是/ 否」 欄位,用於表示圖書館是否是提供圖書館間借閱並共用其他服務,較大圖書館網路的一分子。
- 「私人 」欄位是「是/否」欄位,表示這是僅限會員使用的圖書館還是公共機構。
- 「工作人員類型」和「工作人員數量」共同描述每個圖書館的圖書館員、圖書館助理和圖書館技術人員數量。
目錄
- LoanID 是用於追蹤圖書館藏書量,結合 ISBN 的和圖書館的唯一識別碼。例如,如果「閒置圖書館」有同一本書有兩本平裝和一本精裝,那 Loan ID 也會有兩個。
- Library ID」欄位是在「圖書館設定檔」表也使用的 ID。
圖書館設定檔的結構
探索
此資料集雖然是虛構的,但支援各種分析案例和大量的探索。一些建議包括:
- 哪些書最熱門?最冷門?這是根據銷售額、評論、結帳或其他指標?
- 最年輕的新秀作家是誰?最年長的作者是誰?
- 某些出版社似乎有專門化的地方?
- 同一本書的出版時間最長相隔多久?
- 銷售是否有季節性趨勢?那結帳有嗎?任何標題或類型是否有季節性波動?
- 結帳、列印執行尺寸、書籍審查評分和銷售量之間是否有任何相關性?
- 花最多時間撰寫的作者是否有最暢銷的書?擁有的頁數是否最多?
- 大多數的書籍是何時出版?是否有任何異常?
- 類型、格式和價格是否有任何趨勢?
- 評分有何分佈順序?這些分佈是否因書而異?依類型?它們似乎與獲頒獎項符合?
- 考慮到銷售有時會有折扣(但不一定會有),您如何計算銷售價格?
- 銷售是否近似柏拉圖原則?
- 折扣是否有任何模式?
- 是否有任何資料表特別顯示有已變更的資料?
Bookshop 資料集復活節彩蛋