書店資料集

書店資料集是針對 Tableau Desktop 2020.2 建立的,旨在展示關係,是合併資料的全新資料建模功能。

下載檔案

您可以下載原始資料,從頭開始建置自己的資料模型。或者,下載其中一個預先建置的資料來源,直接開始使用關係進行分析。

  • 原始資料 (xlsx)
  • 封裝的資料來源 (tdsx) 檔案
    • Bookshop.tdsx — 已封裝的 .tdsx 檔案,包含已預先建置的關聯資料來源,以及一些新增的中繼資料自訂項
    • MinimalBookshop. Tdsx — 與 Bookshop. tdsx 相同的資料表,但沒有任何中繼資料或清理
    • Bookshop_libraries.tdsx — 已封裝的 .tdsx 檔案,該檔案將圖書館資料表新增到 Bookshop.tdsx(包含所有資料表)。

若要連線至下載的 .tdsx

  1. 開啟 Tableau Desktop。
  2. 在左側的「連線」窗格中,選取到檔案標題下的更多...選項。
  3. 前往下載 .tdsx 的位置,並按兩下該檔案(或選取該檔案,然後按一下「開啟」)。

關於資料集

書店包含 13 個資料表,關聯方式如下:

書籍資料的資料庫結構描述。

附註:此資料集的核心概念在於區分書籍版本。書籍是具有作者、標題和類型等屬性的概念。版本是書籍的實際版本,包含格式(精裝本、平裝本)、發行日期和頁數等屬性。

資料字典

某些欄位可能需要一些解釋。

  • 評分表中的「評分」欄位分數為 1-5,5 分為高分。
  • 「格式」欄位是格式的詳細細分。除了「精裝本」以外的皆可視為「平裝本」。
  • ISBN 代表國際標準書號(International Standard Book Number),是書籍各版本專用的 13 位數識別碼。ISBN 會以條碼呈現,並與價格連結。
  • 「ItemID」「OrderID」欄位為階層式。一個訂單可能包含多個項目。
  • 「工作人員註解」欄位包含一些書籍的摘要和評論。

如果您建立自己的資料來源

  1. 「發行者」「銷售」資料表必須與「版本」資料表相關。
  2.  「書籍」「資料」資料表可以關聯或聯結,但必須在導入 BookID = [BookID1]+[BookID2] 時 。
    • 建議內部聯結。
    • 只有在資訊表 (Info) 成為資料來源的一部分後,才能使用系列 (Series) 表。
  • 可選:
    1. 我們建議將圖書表 (Book) 與資訊表 (Info) 聯結的邏輯資料表重新命名為「圖書」或類似名稱。
    2. 四個銷售表 (Sales) 可以獨立分析,但若對它們進行聯集,我們建議將聯集重新命名為「銷售」或類似名稱。
    3. 大多數用於建立關係的欄位在分析中並非必需,可以在資料模型建置完成後隱藏
      • 任何以 ID 結尾的欄位都可以隱藏。(例如,評分表 (Ratings) 中的 ReviewID 和 ReviewerID,以及銷售表 (Sales) 中的 ItemID 和 OrderID。)
      • ISBN(最好是從「版本」資料表)應該保留為每個版本的識別碼。聯集「銷售」資料表中的「ISBN 」欄位可隱藏。
      • 「獎勵」資料表中的「標題」欄位可隱藏。
      • 來自「聯集」的工作表和表欄位也不包含唯一資訊,並且可隱藏。
    4. 為簡化資料模型,關鍵資料表為圖書表 (Book)作者表 (Author)版本表 (Edition)。最容易省略且影響最小的表是借閱表 (Checkouts)評分表 (Ratings),其次是獎項表 (Award)出版商表 (Publisher)銷售表 (Sales)資訊表 (Info)系列表 (Series)

    Bookshop 圖書館

    BookshopLibraries.xlsx 檔為了支援多對多關係以圖書館為重點引入了新表。「目錄」表與 ISBN 上的「版本」表相關。「圖書館設定檔」表與「目錄」表相關,因為 LibraryID 有多對多的關係。

    資料字典

    圖書館設定檔

    • 「圖書館」欄位是圖書館的名稱。
    • 「Library ID」欄位是在「目錄」表也使用的 ID。
    • 聯盟成員欄位是一個「是/否」欄位,表示圖書館是否屬於提供館際互借和共用其他服務的更大圖書館網路。
    • 私人欄位是一個「是/否」欄位,表示這是僅限會員使用的圖書館還是公共機構。
    • 「工作人員類型」「工作人員數量」共同描述每個圖書館的圖書館員、圖書館助理和圖書館技術人員數量。

    目錄

    • LoanID 是用於追蹤圖書館藏書量,結合 ISBN 的和圖書館的唯一識別碼。例如,如果「閒置圖書館」有同一本書有兩本平裝和一本精裝,那 Loan ID 也會有兩個。
    • Library ID」欄位是在「圖書館設定檔」表也使用的 ID。
    圖書館設定檔的結構

    圖書館設定檔資料表原本的格式為未樞紐資料表,每欄代表一種員工類型:

    圖書館LibraryID聯盟成員私人圖書館員圖書館技術人員圖書館助理

    閒置圖書館

    L-IHL536116

    The Bibliophile’s Shelves

    L-BS430

    Armchair Athanaeum

    L-AA600
    Old Friend LibraryL-OFL3517
    Bide AwhileL-BA9206
    IndieUnBoundL-IUB7247

    Page Station Book Exchange

    L-PS314

    該表在「圖書館員」、「圖書館技術人員」和「圖書館助理欄」之間轉置。最終格式有「員工類型」欄位與「員工數量」的欄位。然而,這意味著每個圖書館對應多列資料。因此 Library ID 並非專屬,轉置表版本必須與「目錄表」有多對多的關係。

    雖然這有利於允許目錄和設定檔之間建立多對一關係,但這不是理想的資料分析結構(連結在新視窗開啟)

    探索

    此資料集雖為虛構,但支援多種分析情境和大量探索。一些建議包括:

    • 哪些書最熱門?最冷門?這是根據銷售額、評論、結帳或其他指標?
    • 最年輕的新秀作家是誰?最年長的作者是誰?
    • 某些出版社似乎有專門化的地方?
    • 同一本書的出版時間最長相隔多久?
    • 銷售是否有季節性趨勢?那結帳有嗎?任何標題或類型是否有季節性波動?
    • 結帳、列印執行尺寸、書籍審查評分和銷售量之間是否有任何相關性?
    • 花最多時間撰寫的作者是否有最暢銷的書?擁有的頁數是否最多? 
    • 大多數的書籍是何時出版?是否有任何異常? 
    • 類型、格式和價格是否有任何趨勢?
    • 評分有何分佈順序?這些分佈是否因書而異?依類型?它們似乎與獲頒獎項符合? 
    • 考慮到銷售有時會有折扣(但不一定會有),您如何計算銷售價格?
    • 銷售是否近似柏拉圖原則? 
    • 折扣是否有任何模式? 
    • 是否有任何資料表特別顯示有已變更的資料?
    書店資料集復活節日彩蛋
    • Etaoin Shrdlu 是指鑄排的熱門打字機。Palimpsest 是手稿製作參考。
    • 作者名字源自於美國著名作家的名單,他們的名字和姓氏皆打亂重新排列。
    • 當天發行日期通常是在星期二。資料中反映出這一點,假設此行業標準維持到 2178 年。
    • 一本書沒有評論、結帳,或銷售量。
    • 「結帳」資料是根據實際的圖書館資料,BookID 對應至標題,所以結帳趨勢是真實的。
    • 「評分」資料室根據實際書籍評分資料,BookID 對應至標題,所以指定書籍的評分分佈是真實的。
    • 單一書籍與多本書籍的銷售比例是根據獨立書店的真實資料得出的。
    • 「銷售額」資料已完全產生,但是以經濟旅遊型度假小鎮的實際季節性和平日趨勢為基礎(依月份和星期幾,以及春節和寒假的比例分配)。 
      • 連續假期和春假期間,銷售量激增。
      • 週末的銷售額非常高,星期二和星期四的銷售額最低。
      • 旺季是 7 月 4 日到勞動節之間的夏季。
      • 感恩節後和耶誕節前的幾週,銷售額立即飆升。
    • 資料集中的 ISBN 為虛構,但遵循 ISBN-13 原則建構:
      • EAN—989(實際未使用)
      • 群組號碼—28
      • 發行者註冊元素—視長度而異(2-4 位數)
      • 標題元素,視長度而異(3-5 位數,取決於註冊元素長度)
      • 檢查碼,透過 ISBN-13 檢查碼模組算數計算建立而得
    • 負責此功能的其中一位開發人員建議一個沒有版本的書,書名是 The Deep Grey,所以其 BookID 是以他的公司電話號碼最後三位數結尾。
    • 版本表 (Edition) 中存在一個(故意的)錯誤,其中 BookID PA169 的兩個版本被標示為 Palimpsest Printing,但 ISBN 表明它們實際上是由 Etaoin Shrdlu Press 印刷的。

    建立此資料集的人在製作資料集時玩得太開心了,顯然對書籍深深著迷。她希望您喜歡此資料集,並希望此資料集能幫助您體會到 Tableau 中關係的力量、優雅和美感。

    感謝您的意見反應!已成功提交您的意見回饋。謝謝!