Bookshop 資料集

Bookshop 資料集是針對 Tableau Desktop 2020.2 建立的,用以展示關係—是組合資料的新資料建模功能。

下載檔案

可以選擇下載原始資料,然後從頭開始組建自己的資料模型,或者下載其中一個預先組建的資料來源,以直接進入關係分析。

  • 原始資料 (xlsx)
  • 封裝的資料來源 (tdsx) 檔案
    • Bookshop.tdsx - 已封裝的 .tdsx 檔案,包含已建立的相關資料來源,以及一些新增的中繼資料自訂項
    • MinimalBookshop. Tdsx - 與 Bookshop. tdsx 相同的表, 但沒有任何中繼資料或清理。
    • Bookshop_libraries.tdsx - 封裝的 .tdsx 檔案,該檔案將圖書館表新增到 Bookshop.tdsx(包括所有表)。

若要連線至下載的 .tdsx

  1. 開啟 Tableau Desktop。
  2. 在左側的「連線」窗格中,在「至檔案」標題下選擇「更多...」選項。
  3. 巡覽至您下載 .tdsx 的地方,並連按兩下該檔案(或選取該檔案,然後按一下「開啟」)。

關於資料集

Bookshop 包含 13 個資料表,組合方式如下:

附錄:此資料集的中心概念是 書籍版本的概念。書籍是具有作者、標題和類型等屬性的概念。版本是書籍的實際版本,包含格式(精裝本、平裝本)、發行日期和頁數等屬性。

資料字典

某些欄位可能需要一些解釋。

  • 評分表中的「評分」欄位分數為 1-5,5 分為高分。
  • 「格式」欄位是格式的詳細細分。除了「精裝本」以外的皆可視為「平裝本」。
  • ISBN 代表國際標準書號(International Standard Book Number),是書籍各版本專用的 13 位數識別碼。ISBN 會以條碼呈現,並與價格連結。
  • 「ItemID」「OrderID」欄位為階層式。一個訂單可能包含多個項目。
  • 「工作人員註解」欄位包含一些書籍的摘要和評論。

如果您建立自己的資料來源

  1. 「發行者」「銷售」資料表必須與「版本」資料表相關。
  2.  「書籍」「資料」資料表可以關聯或聯結,但必須在導入 BookID = [BookID1]+[BookID2] 時 。
    • 建議內部聯結。
    • 只有在「資訊」表為資料來源的一部分時,才能使用「系列」表。
  • 可選:
    1. 我們建議重新命名與資訊「書籍」或類似內容聯結的「書籍」邏輯資料表。
    2. 四個「銷售」資料表可以獨立分析,但如果是聯集的話,建議重新命名聯集「銷售」或類似內容。
    3. 大部分用於組成關係的欄位皆不需要分析,並且可以在建立資料模型後隱藏。
      • 任何以 ID 結尾的欄位皆可隱藏(唯一可隱藏的「ID」欄位是「評分」中的 ReviewID 和 ReviewerID,以及「銷售」中的 ItemID 和 OrderID)。
      • ISBN(最好是從「版本」資料表)應該保留為每個版本的識別碼。聯集「銷售」資料表中的「ISBN 」欄位可隱藏。
      • 「獎勵」資料表中的「標題」欄位可隱藏。
      • 來自「聯集」的工作表和表欄位也不包含唯一資訊,並且可隱藏。
    4. 為了簡化資料模型,核心資料表為「書籍」「作者」「版本」。最容易忽略且影響最小的資料表為「結帳」「評分」,其次是「獎勵」「發行者」「銷售」「資訊」「系列」

    Bookshop 圖書館

    BookshopLibraries.xlsx 檔為了支援多對多關係以圖書館為重點引入了新表。「目錄」表與 ISBN 上的「版本」表相關。「圖書館設定檔」表與「目錄」表相關,因為 LibraryID 有多對多的關係。

    資料字典

    圖書館設定檔

    • 「圖書館」欄位是圖書館的名稱。
    • 「Library ID」欄位是在「目錄」表也使用的 ID。
    • 聯盟成員」 欄位是一個「 是/ 否」 欄位,用於表示圖書館是否是提供圖書館間借閱並共用其他服務,較大圖書館網路的一分子。
    • 「私人 」欄位是「是/否」欄位,表示這是僅限會員使用的圖書館還是公共機構。
    • 「工作人員類型」「工作人員數量」共同描述每個圖書館的圖書館員、圖書館助理和圖書館技術人員數量。

    目錄

    • LoanID 是用於追蹤圖書館藏書量,結合 ISBN 的和圖書館的唯一識別碼。例如,如果「閒置圖書館」有同一本書有兩本平裝和一本精裝,那 Loan ID 也會有兩個。
    • Library ID」欄位是在「圖書館設定檔」表也使用的 ID。
    圖書館設定檔的結構

    圖書館設定檔原本的格式是下方的轉置表,每個員工類型都有各自的欄位。

    圖書館LibraryID聯盟成員私人圖書館員圖書館技術人員圖書館助理

    閒置圖書館

    L-IHL536116

    The Bibliophile’s Shelves

    L-BS430

    Armchair Athanaeum

    L-AA600
    Old Friend LibraryL-OFL3517
    Bide AwhileL-BA9206
    IndieUnBoundL-IUB7247

    Page Station Book Exchange

    L-PS314

    該表在「圖書館員」、「圖書館技術人員」和「圖書館助理欄」之間轉置。最終格式有「員工類型」欄位與「員工數量」的欄位。但這代表每個圖書館有超過一行。因此 Library ID 並非專屬,轉置表版本必須與「目錄表」有多對多的關係。

    這雖然有允許「目錄」和「設定檔」之間多對一關係的好處,但這不是理想的資料分析結構(連結在新視窗開啟)

    探索

    此資料集雖然是虛構的,但支援各種分析案例和大量的探索。一些建議包括:

    • 哪些書最熱門?最冷門?這是根據銷售額、評論、結帳或其他指標?
    • 最年輕的新秀作家是誰?最年長的作者是誰?
    • 某些出版社似乎有專門化的地方?
    • 同一本書的出版時間最長相隔多久?
    • 銷售是否有季節性趨勢?那結帳有嗎?任何標題或類型是否有季節性波動?
    • 結帳、列印執行尺寸、書籍審查評分和銷售量之間是否有任何相關性?
    • 花最多時間撰寫的作者是否有最暢銷的書?擁有的頁數是否最多? 
    • 大多數的書籍是何時出版?是否有任何異常? 
    • 類型、格式和價格是否有任何趨勢?
    • 評分有何分佈順序?這些分佈是否因書而異?依類型?它們似乎與獲頒獎項符合? 
    • 考慮到銷售有時會有折扣(但不一定會有),您如何計算銷售價格?
    • 銷售是否近似柏拉圖原則? 
    • 折扣是否有任何模式? 
    • 是否有任何資料表特別顯示有已變更的資料?
    Bookshop 資料集復活節彩蛋
    • Etaoin Shrdlu 是指鑄排的熱門打字機。Palimpsest 是手稿製作參考。
    • 作者名字源自於美國著名作家的名單,他們的名字和姓氏皆打亂重新排列。
    • 當天發行日期通常是在星期二。資料中反映出這一點,假設此行業標準維持到 2178 年。
    • 一本書沒有評論、結帳,或銷售量。
    • 「結帳」資料是根據實際的圖書館資料,BookID 對應至標題,所以結帳趨勢是真實的。
    • 「評分」資料室根據實際書籍評分資料,BookID 對應至標題,所以指定書籍的評分分佈是真實的。
    • 單一書籍與多本書籍的銷售比例是根據獨立書店的真實資料得出的。
    • 「銷售額」資料已完全產生,但是以經濟旅遊型度假小鎮的實際季節性和平日趨勢為基礎(依月份和星期幾,以及春節和寒假的比例分配)。 
      • 連續假期和春假期間,銷售量激增。
      • 週末的銷售額非常高,星期二和星期四的銷售額最低。
      • 旺季是 7 月 4 日到勞動節之間的夏季。
      • 感恩節後和耶誕節前的幾週,銷售額立即飆升。
    • 資料集的 ISBN 是虛構的,但依照 ISBN-13 原則建立:
      • EAN—989(實際未使用)
      • 群組號碼—28
      • 發行者註冊元素—視長度而異(2-4 位數)
      • 標題元素,視長度而異(3-5 位數,取決於註冊元素長度)
      • 檢查碼,透過 ISBN-13 檢查碼模組算數計算建立而得
    • 負責此功能的其中一位開發人員建議一個沒有版本的書,書名是 The Deep Grey,所以其 BookID 是以他的公司電話號碼最後三位數結尾。
    • 在「版本」資料表中有一個(故意的)錯誤,BookID PA169 的兩個版本標示為 Palimpsest Printing,但 ISBN 顯示它們實際上是由 Etaoin Shrdlu Press 印刷的。

    建立此資料集的人在製作資料集時玩得太開心了,顯然對書籍深深著迷。她希望您喜歡此資料集,並希望能幫助您體會到 Tableau 中關係的力量、優雅和美感。

    感謝您的意見反應!已成功提交您的意見回饋。謝謝!