Bookshop データ セット

Tableau Desktop 2020.2 では、データを組み合わせるための新しいデータ モデリング機能である関係を紹介するため、Bookshop データ セットが用意されています。

ファイルのダウンロード

生データをダウンロードして独自のデータ モデルを最初から作成するか、事前作成されたデータ ソースのいずれかをダウンロードして、関係を使用した分析をすぐに開始することができます。

  • 生データ (xlsx)
    • Bookshop.xlsx: .xlsx ファイルに記述された生データ
    • BookshopLibraries.xlsx - 多対多の関係を導入する追加のライブラリ テーブル (追加のライブラリ テーブルのみを含む)
  • パッケージド データ ソース (tdsx) ファイル
    • Bookshop.tdsx: 既に作成された関連するデータ ソースが含まれていて、いくつかのメタデータのカスタマイズが追加されているパッケージ化された .tdsx ファイル
    • MinimalBookshop.tdsx: Bookshop.tdsx と同じテーブルであるが、メタデータやクリーンアップはない
    • Bookshop_libraries.tdsx: ライブラリ テーブルを Bookshop.tdsx に追加するパッケージ化された .tdsx ファイル (すべてのテーブルが含まれる)

ダウンロードした .tdsx に接続するには

  1. Tableau Desktop を開きます。
  2. 左側の [接続] ペインで、[ファイルへ] 見出しの下の [その他...] オプションを選択します。
  3. .tdsx をダウンロードした場所に移動し、.tdsx をダブルクリックします (または、.tdsx を選択して [開く] をクリックします)。

データ セットについて

Bookshop は 13 個のテーブルで構成され、次のように組み合わされています。

: このデータ セットの中心的な概念は、書籍です。書籍は、著者、タイトル、ジャンルなどの属性が含まれる概念です。版は、形式 (ハードカバーやペーパーバック)、出版日、ページ数などの属性が含まれる、書籍の物理的なバージョンです。

データ ディクショナリ

いくつかのフィールドについては、少し説明が必要です。

  • [Ratings (評価)] テーブルの Rating (評価) フィールドには、1 ~ 5 のスケールが適用され、5 が最高です。
  • Format (形式) フィールドは、形式の詳細です。「ハードカバー」以外のすべての形式は、「ペーパーバック」と見なされます。
  • ISBN は国際標準図書番号の略で、書籍の各版に割り当てられる 13 桁の一意の識別番号です。ISBN はバーコードで表され、価格に関連付けられています。
  • ItemID フィールドと OrderID フィールドは階層型です。注文には複数のアイテムが含まれる場合があります。
  • Staff Comment (スタッフ コメント) フィールドには、一部の書籍の概要とレビューが含まれています。

独自のデータ ソースを作成する場合

  1. [Publisher (出版社)] テーブルと [Sales (販売)] テーブルは、[Edition (版)] テーブルに関連付けられている必要があります。
  2.  [Book (書籍)] テーブルと [Info (情報)] テーブルは関連付けたり、結合したりできますが、計算 BookID = [BookID1]+[BookID2] で関連付けまたは結合を行う必要があります。
    • 内部結合が推奨されます。
    • [Series (シリーズ)] テーブルは、[Info (情報)] テーブルがデータ ソースに含まれる場合にのみ使用できます。
  • オプション:
    1. 情報 "Book (書籍)" や同様の情報と結合された書籍の論理テーブルの名前を変更することをお勧めします。
    2. 4 つの [Sales (販売)] テーブルは個別に分析できますが、ユニオンされている場合は、ユニオンの名前を "Sales (販売)" などに変更することをお勧めします。
    3. 関係の形成に使用するほとんどのフィールドは、分析には必要ないので、データ モデルを作成した後で非表示にできます。
      • ID で終わるフィールドは非表示にできます (非表示にできる "ID" フィールドは、[Ratings (評価)] の ReviewID と ReviewerID、および [Sales (販売)] の ItemID と OrderID だけです)。
      • ISBN は、各版の識別番号として保持する必要があります (理想的には [Edition (版)] テーブルの ISBN)。ユニオンにした [Sales (販売)] テーブルの ISBN フィールドは非表示にできます。
      • [Award (賞)] テーブルの Title (タイトル) フィールドは非表示にできます。
      • ユニオンのシートとテーブルのフィールドの場合も、一意の情報は含まれておらず、非表示にできます。
    4. データ モデルを簡略化するには、コア テーブルを [Book (書籍)][Author (著者)][Edition (版)] にします。最小限の影響で除外することが最も簡単なテーブルは、[Checkouts (貸出)][Ratings (評価)] であり、その後に [Award (賞)][Publisher (出版社)][Sales (販売)]、または [Info (情報)][Series (シリーズ)] が続きます。

    ブックショップ ライブラリ

    BookshopLibraries.xlsx ファイルでは、多対多の関係をサポートするためにライブラリの近くに新しいテーブルが導入されています。[Catalog (カタログ)] テーブルは、ISBN で [Edition (版)] テーブルに関連付けられています。[Library Profile (ライブラリ プロファイル)] テーブルは、LibraryID で多対多 (n:n) 関係として [Catalog (カタログ)] テーブルに関連付けられています。

    データ ディクショナリ

    ライブラリ プロファイル

    • Library (ライブラリ) フィールドはライブラリの名前です。
    • Library ID (ライブラリ ID) フィールドの ID は、[Catalog (カタログ)] テーブルでも使用されます。
    • Consortium Member (コンソーシアム メンバー) フィールドは、ライブラリ間の貸し出しを提供し、他のサービスを共有するより大きなライブラリ ネットワークにライブラリが含まれるかどうかを示す yes/no (はい/いいえ) フィールドです。
    • Private (プライベート) フィールドは、ライブラリがメンバー専用のライブラリまたは公共機関であるかどうかを示す yes/no (はい/いいえ) フィールドです。
    • Staff Type (スタッフのタイプ)Number of Staff (スタッフの数) は、各ライブラリで仕事をしている Librarians (ライブラリアン)、Library Assistants (ライブラリ アシスタント)、Library Technicians (ライブラリ技術者) の数を示します。

    カタログ

    • LoanID は、1 つのライブラリが持つ Number of Copies (コピー数) を追跡するために使用される ISBN とライブラリの組み合わせを表す一意の識別子です。たとえば、Idle Hour Library (アイドル状態のライブラリ) に、あるタイトルの 2 つのペーパーバック コピーと 1 つのハードカバー コピーが含まれる場合、2 つの Loan ID (貸し出し ID) が存在します。
    • Library ID (ライブラリ ID) フィールド の ID は、[Library Profile (ライブラリ プロファイル)] テーブルでも使用されます。
    [Library Profile (ライブラリ プロファイル)] テーブルの構造

    探索

    このデータ セットは架空のデータ セットですが、さまざまな分析シナリオや数多くの探索に対応します。たとえば、次のようなシナリオが考えられます。

    • 最も人気のある書籍は何ですか? 最も人気のない書籍は? 人気は、販売、レビュー、貸出、その他の指標に基づいていますか?
    • 最年少でデビューした著者は誰ですか? 最年長でデビューした著者は?
    • 出版社は何かしらの専門分野に特化していますか?
    • 同じ書籍の増版が出版されるまでの最長期間は?
    • 販売には季節的な傾向がありますか? 貸出はどのようになっていますか? タイトルやジャンルに季節変動はありますか?
    • 貸出、印刷部数、書籍評価、販売数量の間に相関関係はありますか?
    • 執筆に最も時間を費やす著者の書籍は最も成功していますか? そうした書籍のページ数は最多ですか? 
    • 最も多くの書籍が出版されたのはいつですか? 例外的な期間はありますか? 
    • ジャンル、形式、価格の傾向はありますか?
    • 評価にはどのような分布がありますか? それらの分布は書籍によって異なりますか? ジャンルよって異なりますか? 分布は賞と同様の傾向がありますか? 
    • 販売時に割引されることがある (常にではない) 場合は、販売価格はどのように計算されますか?
    • 販売はパレートの原則に近似していますか? 
    • 割引にパターンはありますか? 
    • 任意のテーブルに特にダーティ データがあるように見えますか?
    Bookshop データ セットのイースター エッグ