Bookshop 資料集

Bookshop 資料集是針對 Tableau Desktop 2020.2 建立的,用以展示關係—是組合資料的新資料建模功能。

下載檔案

可以選擇下載原始資料,然後從頭開始組建自己的資料模型,或者下載其中一個預先組建的資料來源,以直接進入關係分析。

  • 原始資料 (xlsx)
  • 封裝的資料來源 (tdsx) 檔案
    • Bookshop.tdsx - 已封裝的 .tdsx 檔案,包含已建立的相關資料來源,以及一些新增的中繼資料自訂項
    • MinimalBookshop. Tdsx - 與 Bookshop. tdsx 相同的表, 但沒有任何中繼資料或清理。
    • Bookshop_libraries.tdsx - 封裝的 .tdsx 檔案,該檔案將圖書館表新增到 Bookshop.tdsx(包括所有表)。

若要連線至下載的 .tdsx

  1. 開啟 Tableau Desktop。
  2. 在左側的「連線」窗格中,在「至檔案」標題下選擇「更多...」選項。
  3. 巡覽至您下載 .tdsx 的地方,並連按兩下該檔案(或選取該檔案,然後按一下「開啟」)。

關於資料集

Bookshop 包含 13 個資料表,組合方式如下:

附錄:此資料集的中心概念是 書籍版本的概念。書籍是具有作者、標題和類型等屬性的概念。版本是書籍的實際版本,包含格式(精裝本、平裝本)、發行日期和頁數等屬性。

資料字典

某些欄位可能需要一些解釋。

  • 評分表中的「評分」欄位分數為 1-5,5 分為高分。
  • 「格式」欄位是格式的詳細細分。除了「精裝本」以外的皆可視為「平裝本」。
  • ISBN 代表國際標準書號(International Standard Book Number),是書籍各版本專用的 13 位數識別碼。ISBN 會以條碼呈現,並與價格連結。
  • 「ItemID」「OrderID」欄位為階層式。一個訂單可能包含多個項目。
  • 「工作人員註解」欄位包含一些書籍的摘要和評論。

如果您建立自己的資料來源

  1. 「發行者」「銷售」資料表必須與「版本」資料表相關。
  2.  「書籍」「資料」資料表可以關聯或聯結,但必須在導入 BookID = [BookID1]+[BookID2] 時 。
    • 建議內部聯結。
    • 只有在「資訊」表為資料來源的一部分時,才能使用「系列」表。
  • 可選:
    1. 我們建議重新命名與資訊「書籍」或類似內容聯結的「書籍」邏輯資料表。
    2. 四個「銷售」資料表可以獨立分析,但如果是聯集的話,建議重新命名聯集「銷售」或類似內容。
    3. 大部分用於組成關係的欄位皆不需要分析,並且可以在建立資料模型後隱藏。
      • 任何以 ID 結尾的欄位皆可隱藏(唯一可隱藏的「ID」欄位是「評分」中的 ReviewID 和 ReviewerID,以及「銷售」中的 ItemID 和 OrderID)。
      • ISBN(最好是從「版本」資料表)應該保留為每個版本的識別碼。聯集「銷售」資料表中的「ISBN 」欄位可隱藏。
      • 「獎勵」資料表中的「標題」欄位可隱藏。
      • 來自「聯集」的工作表和表欄位也不包含唯一資訊,並且可隱藏。
    4. 為了簡化資料模型,核心資料表為「書籍」「作者」「版本」。最容易忽略且影響最小的資料表為「結帳」「評分」,其次是「獎勵」「發行者」「銷售」「資訊」「系列」

    Bookshop 圖書館

    BookshopLibraries.xlsx 檔為了支援多對多關係以圖書館為重點引入了新表。「目錄」表與 ISBN 上的「版本」表相關。「圖書館設定檔」表與「目錄」表相關,因為 LibraryID 有多對多的關係。

    資料字典

    圖書館設定檔

    • 「圖書館」欄位是圖書館的名稱。
    • 「Library ID」欄位是在「目錄」表也使用的 ID。
    • 聯盟成員」 欄位是一個「 是/ 否」 欄位,用於表示圖書館是否是提供圖書館間借閱並共用其他服務,較大圖書館網路的一分子。
    • 「私人 」欄位是「是/否」欄位,表示這是僅限會員使用的圖書館還是公共機構。
    • 「工作人員類型」「工作人員數量」共同描述每個圖書館的圖書館員、圖書館助理和圖書館技術人員數量。

    目錄

    • LoanID 是用於追蹤圖書館藏書量,結合 ISBN 的和圖書館的唯一識別碼。例如,如果「閒置圖書館」有同一本書有兩本平裝和一本精裝,那 Loan ID 也會有兩個。
    • Library ID」欄位是在「圖書館設定檔」表也使用的 ID。
    圖書館設定檔的結構

    探索

    此資料集雖然是虛構的,但支援各種分析案例和大量的探索。一些建議包括:

    • 哪些書最熱門?最冷門?這是根據銷售額、評論、結帳或其他指標?
    • 最年輕的新秀作家是誰?最年長的作者是誰?
    • 某些出版社似乎有專門化的地方?
    • 同一本書的出版時間最長相隔多久?
    • 銷售是否有季節性趨勢?那結帳有嗎?任何標題或類型是否有季節性波動?
    • 結帳、列印執行尺寸、書籍審查評分和銷售量之間是否有任何相關性?
    • 花最多時間撰寫的作者是否有最暢銷的書?擁有的頁數是否最多? 
    • 大多數的書籍是何時出版?是否有任何異常? 
    • 類型、格式和價格是否有任何趨勢?
    • 評分有何分佈順序?這些分佈是否因書而異?依類型?它們似乎與獲頒獎項符合? 
    • 考慮到銷售有時會有折扣(但不一定會有),您如何計算銷售價格?
    • 銷售是否近似柏拉圖原則? 
    • 折扣是否有任何模式? 
    • 是否有任何資料表特別顯示有已變更的資料?
    Bookshop 資料集復活節彩蛋