Bookshop データ セット

Tableau Desktop 2020.2 では、データを組み合わせるための新しいデータ モデリング機能である関係を紹介するため、Bookshop データ セットが用意されています。

ファイルのダウンロード

生データをダウンロードして独自のデータ モデルを最初から作成するか、事前作成されたデータ ソースのいずれかをダウンロードして、関係を使用した分析をすぐに開始することができます。

  • 生データ (xlsx)
    • Bookshop.xlsx: .xlsx ファイルに記述された生データ
    • BookshopLibraries.xlsx - 多対多の関係を導入する追加のライブラリ テーブル (追加のライブラリ テーブルのみを含む)
  • パッケージド データ ソース (tdsx) ファイル
    • Bookshop.tdsx: 既に作成された関連するデータ ソースが含まれていて、いくつかのメタデータのカスタマイズが追加されているパッケージ化された .tdsx ファイル
    • MinimalBookshop.tdsx: Bookshop.tdsx と同じテーブルであるが、メタデータやクリーンアップはない
    • Bookshop_libraries.tdsx: ライブラリ テーブルを Bookshop.tdsx に追加するパッケージ化された .tdsx ファイル (すべてのテーブルが含まれる)

ダウンロードした .tdsx に接続するには

  1. Tableau Desktop を開きます。
  2. 左側の [接続] ペインで、[ファイルへ] 見出しの下の [その他...] オプションを選択します。
  3. .tdsx をダウンロードした場所に移動し、.tdsx をダブルクリックします (または、.tdsx を選択して [開く] をクリックします)。

データ セットについて

Bookshop は 13 個のテーブルで構成され、次のように組み合わされています。

: このデータ セットの中心的な概念は、書籍です。書籍は、著者、タイトル、ジャンルなどの属性が含まれる概念です。版は、形式 (ハードカバーやペーパーバック)、出版日、ページ数などの属性が含まれる、書籍の物理的なバージョンです。

データ ディクショナリ

いくつかのフィールドについては、少し説明が必要です。

  • [Ratings (評価)] テーブルの Rating (評価) フィールドには、1 ~ 5 のスケールが適用され、5 が最高です。
  • Format (形式) フィールドは、形式の詳細です。「ハードカバー」以外のすべての形式は、「ペーパーバック」と見なされます。
  • ISBN は国際標準図書番号の略で、書籍の各版に割り当てられる 13 桁の一意の識別番号です。ISBN はバーコードで表され、価格に関連付けられています。
  • ItemID フィールドと OrderID フィールドは階層型です。注文には複数のアイテムが含まれる場合があります。
  • Staff Comment (スタッフ コメント) フィールドには、一部の書籍の概要とレビューが含まれています。

独自のデータ ソースを作成する場合

  1. [Publisher (出版社)] テーブルと [Sales (販売)] テーブルは、[Edition (版)] テーブルに関連付けられている必要があります。
  2.  [Book (書籍)] テーブルと [Info (情報)] テーブルは関連付けたり、結合したりできますが、計算 BookID = [BookID1]+[BookID2] で関連付けまたは結合を行う必要があります。
    • 内部結合が推奨されます。
    • [Series (シリーズ)] テーブルは、[Info (情報)] テーブルがデータ ソースに含まれる場合にのみ使用できます。
  • オプション:
    1. 情報 "Book (書籍)" や同様の情報と結合された書籍の論理テーブルの名前を変更することをお勧めします。
    2. 4 つの [Sales (販売)] テーブルは個別に分析できますが、ユニオンされている場合は、ユニオンの名前を "Sales (販売)" などに変更することをお勧めします。
    3. 関係の形成に使用するほとんどのフィールドは、分析には必要ないので、データ モデルを作成した後で非表示にできます。
      • ID で終わるフィールドは非表示にできます (非表示にできる "ID" フィールドは、[Ratings (評価)] の ReviewID と ReviewerID、および [Sales (販売)] の ItemID と OrderID だけです)。
      • ISBN は、各版の識別番号として保持する必要があります (理想的には [Edition (版)] テーブルの ISBN)。ユニオンにした [Sales (販売)] テーブルの ISBN フィールドは非表示にできます。
      • [Award (賞)] テーブルの Title (タイトル) フィールドは非表示にできます。
      • ユニオンのシートとテーブルのフィールドの場合も、一意の情報は含まれておらず、非表示にできます。
    4. データ モデルを簡略化するには、コア テーブルを [Book (書籍)][Author (著者)][Edition (版)] にします。最小限の影響で除外することが最も簡単なテーブルは、[Checkouts (貸出)][Ratings (評価)] であり、その後に [Award (賞)][Publisher (出版社)][Sales (販売)]、または [Info (情報)][Series (シリーズ)] が続きます。

    ブックショップ ライブラリ

    BookshopLibraries.xlsx ファイルでは、多対多の関係をサポートするためにライブラリの近くに新しいテーブルが導入されています。[Catalog (カタログ)] テーブルは、ISBN で [Edition (版)] テーブルに関連付けられています。[Library Profile (ライブラリ プロファイル)] テーブルは、LibraryID で多対多 (n:n) 関係として [Catalog (カタログ)] テーブルに関連付けられています。

    データ ディクショナリ

    ライブラリ プロファイル

    • Library (ライブラリ) フィールドはライブラリの名前です。
    • Library ID (ライブラリ ID) フィールドの ID は、[Catalog (カタログ)] テーブルでも使用されます。
    • Consortium Member (コンソーシアム メンバー) フィールドは、ライブラリ間の貸し出しを提供し、他のサービスを共有するより大きなライブラリ ネットワークにライブラリが含まれるかどうかを示す yes/no (はい/いいえ) フィールドです。
    • Private (プライベート) フィールドは、ライブラリがメンバー専用のライブラリまたは公共機関であるかどうかを示す yes/no (はい/いいえ) フィールドです。
    • Staff Type (スタッフのタイプ)Number of Staff (スタッフの数) は、各ライブラリで仕事をしている Librarians (ライブラリアン)、Library Assistants (ライブラリ アシスタント)、Library Technicians (ライブラリ技術者) の数を示します。

    カタログ

    • LoanID は、1 つのライブラリが持つ Number of Copies (コピー数) を追跡するために使用される ISBN とライブラリの組み合わせを表す一意の識別子です。たとえば、Idle Hour Library (アイドル状態のライブラリ) に、あるタイトルの 2 つのペーパーバック コピーと 1 つのハードカバー コピーが含まれる場合、2 つの Loan ID (貸し出し ID) が存在します。
    • Library ID (ライブラリ ID) フィールド の ID は、[Library Profile (ライブラリ プロファイル)] テーブルでも使用されます。
    [Library Profile (ライブラリ プロファイル)] テーブルの構造

    [Library Profile (ライブラリ プロファイル)] テーブルは、当初、以下の各スタッフ タイプの列を持つピボット解除されたテーブルとして書式設定されました。

    Library (ライブラリ)LibraryIDConsortium Member (コンソーシアム メンバー)Private (プライベート)Librarians (ライブラリアン)Library Technicians (ライブラリ技術者)Library Assistants (ライブラリ アシスタント)

    Idle Hour Library (アイドル状態のライブラリ)

    L-IHLはいいいえ536116

    The Bibliophile’s Shelves (愛書家の棚)

    L-BSはいはい430

    Armchair Athanaeum (アームチェア室)

    L-AAいいえはい600
    Old Friend Library (オールド フレンド ライブラリ)L-OFLはいいいえ3517
    Bide Awhile (待機)L-BAはいいいえ9206
    IndieUnBoundL-IUBはいいいえ7247

    Page Station Book Exchange (ページ ステーション ブック エクスチェンジ)

    L-PSいいえはい314

    テーブルは、Librarians (ライブラリアン)、Library Technicians (ライブラリ技術者)、Library Assistants (ライブラリ アシスタント) の列全体でピボットされました。最終的な形式には、Staff Type (スタッフのタイプ) の列と Number of Staff (スタッフの数) の列が含まれます。ただし、この場合、ライブラリごとに複数の行があることを意味します。したがって、Library ID (ライブラリ ID) の値は一意ではなく、ピボットされたバージョンのテーブルは、[Catalog (カタログ)] テーブルに多対多で関連付けられる必要があります。

    このテーブルには、カタログとプロファイル間に多対一の関係を許可するという利点がありますが、理想的な分析用構造データ(新しいウィンドウでリンクが開く)でありません。

    探索

    このデータ セットは架空のデータ セットですが、さまざまな分析シナリオや数多くの探索に対応します。たとえば、次のようなシナリオが考えられます。

    • 最も人気のある書籍は何ですか? 最も人気のない書籍は? 人気は、販売、レビュー、貸出、その他の指標に基づいていますか?
    • 最年少でデビューした著者は誰ですか? 最年長でデビューした著者は?
    • 出版社は何かしらの専門分野に特化していますか?
    • 同じ書籍の増版が出版されるまでの最長期間は?
    • 販売には季節的な傾向がありますか? 貸出はどのようになっていますか? タイトルやジャンルに季節変動はありますか?
    • 貸出、印刷部数、書籍評価、販売数量の間に相関関係はありますか?
    • 執筆に最も時間を費やす著者の書籍は最も成功していますか? そうした書籍のページ数は最多ですか? 
    • 最も多くの書籍が出版されたのはいつですか? 例外的な期間はありますか? 
    • ジャンル、形式、価格の傾向はありますか?
    • 評価にはどのような分布がありますか? それらの分布は書籍によって異なりますか? ジャンルよって異なりますか? 分布は賞と同様の傾向がありますか? 
    • 販売時に割引されることがある (常にではない) 場合は、販売価格はどのように計算されますか?
    • 販売はパレートの原則に近似していますか? 
    • 割引にパターンはありますか? 
    • 任意のテーブルに特にダーティ データがあるように見えますか?
    Bookshop データ セットのイースター エッグ
    • Etaoin Shrdlu は、ライノタイプ金属活字機への言及です。Palimpsest は、原稿作成への言及です。
    • 著者名はアメリカの有名作家のリストから取得され、姓と名がシャッフルされています。
    • 現在、通常の出版日は火曜日です。出版日はデータに反映され、この業界標準が 2178 年まで順守されることを前提としています。
    • 1 冊の書籍には、レビュー、貸出、販売がありません。
    • 貸出データは実際の図書館データに基づいており、BookID はタイトルにマップされるため、貸出傾向は現実世界のものです。
    • 評価データは実際の書籍評価データに基づいており、BookID はタイトルにマップされるため、特定の書籍の評価分布は現実世界のものです。
    • 1 冊の書籍と複数の書籍の販売割合は、独立した書店の現実世界のデータに基づいています。
    • 販売データは完全に生成されますが、観光業によって経済が成り立っている都市の季節や曜日の傾向 (月、週、春休みや冬休みに比例する) に基づいています。 
      • 長い週末と春休みに販売が急増。
      • 販売数量は週末がはるかに多く、火曜日と木曜日が最も少ない。
      • ピークの季節は 7 月 4 日からレイバー デーまで。
      • 感謝祭の直後とクリスマスまでの数週間に販売が急増。
    • データ セット内の ISBN は架空のものですが、ISBN-13 の原則に従って構成されています。
      • EAN: 989 (実際には使用されていない)
      • グループ番号: 28
      • 出版社登録コード: さまざまな長さ (2 ~ 4 桁)
      • タイトル コード、さまざまな長さ (3 ~ 5 桁、出版社登録コードによって異なる)
      • チェック ディジット、ISBN-13 チェック ディジット モジュラー算術計算で作成
    • この機能に取り組んでいるある開発者は、版のない「ザ ディープ グレー」というタイトルの書籍を提案しています。その書籍の BookID は、この開発者の仕事用電話番号の最後の 3 桁で終わります。
    • [Edition (版)] テーブルには (意図的な) エラーがあり、BookID PA169 の 2 つの版が Palimpsest Printing としてラベル付けされていますが、ISBN は、これらの版が実際に Etaoin Shrdlu Press によって印刷されたことを示しています。

    このデータ セットの作成者は、データ セットをとても楽しんで作成し、本に深い愛着を持っていることは明らかです。この作成者は、ユーザーがデータ セットを楽しみながら、Tableau の強力で洗練されたすばらしい関係を理解することを望んでいます。

    フィードバックをお送りいただき、ありがとうございます。フィードバックは正常に送信されました。ありがとうございます!