Bookshop データ セット
Tableau Desktop 2020.2 では、データを組み合わせるための新しいデータ モデリング機能である関係を紹介するため、Bookshop データ セットが用意されています。
ファイルのダウンロード
生データをダウンロードして独自のデータ モデルを最初から作成するか、事前作成されたデータ ソースのいずれかをダウンロードして、関係を使用した分析をすぐに開始することができます。
- 生データ (xlsx)
- Bookshop.xlsx: .xlsx ファイルに記述された生データ
- BookshopLibraries.xlsx - 多対多の関係を導入する追加のライブラリ テーブル (追加のライブラリ テーブルのみを含む)
- パッケージド データ ソース (tdsx) ファイル
- Bookshop.tdsx: 既に作成された関連するデータ ソースが含まれていて、いくつかのメタデータのカスタマイズが追加されているパッケージ化された .tdsx ファイル
- MinimalBookshop.tdsx: Bookshop.tdsx と同じテーブルであるが、メタデータやクリーンアップはない
- Bookshop_libraries.tdsx: ライブラリ テーブルを Bookshop.tdsx に追加するパッケージ化された .tdsx ファイル (すべてのテーブルが含まれる)
ダウンロードした .tdsx に接続するには
- Tableau Desktop を開きます。
- 左側の [接続] ペインで、[ファイルへ] 見出しの下の [その他...] オプションを選択します。
- .tdsx をダウンロードした場所に移動し、.tdsx をダブルクリックします (または、.tdsx を選択して [開く] をクリックします)。
データ セットについて
Bookshop は 13 個のテーブルで構成され、次のように組み合わされています。
注: このデータ セットの中心的な概念は、書籍と版です。書籍は、著者、タイトル、ジャンルなどの属性が含まれる概念です。版は、形式 (ハードカバーやペーパーバック)、出版日、ページ数などの属性が含まれる、書籍の物理的なバージョンです。
データ ディクショナリ
いくつかのフィールドについては、少し説明が必要です。
- [Ratings (評価)] テーブルの Rating (評価) フィールドには、1 ~ 5 のスケールが適用され、5 が最高です。
- Format (形式) フィールドは、形式の詳細です。「ハードカバー」以外のすべての形式は、「ペーパーバック」と見なされます。
- ISBN は国際標準図書番号の略で、書籍の各版に割り当てられる 13 桁の一意の識別番号です。ISBN はバーコードで表され、価格に関連付けられています。
- ItemID フィールドと OrderID フィールドは階層型です。注文には複数のアイテムが含まれる場合があります。
- Staff Comment (スタッフ コメント) フィールドには、一部の書籍の概要とレビューが含まれています。
独自のデータ ソースを作成する場合
- [Publisher (出版社)] テーブルと [Sales (販売)] テーブルは、[Edition (版)] テーブルに関連付けられている必要があります。
- [Book (書籍)] テーブルと [Info (情報)] テーブルは関連付けたり、結合したりできますが、計算
BookID = [BookID1]+[BookID2]
で関連付けまたは結合を行う必要があります。- 内部結合が推奨されます。
- [Series (シリーズ)] テーブルは、[Info (情報)] テーブルがデータ ソースに含まれる場合にのみ使用できます。
- 情報 "Book (書籍)" や同様の情報と結合された書籍の論理テーブルの名前を変更することをお勧めします。
- 4 つの [Sales (販売)] テーブルは個別に分析できますが、ユニオンされている場合は、ユニオンの名前を "Sales (販売)" などに変更することをお勧めします。
- 関係の形成に使用するほとんどのフィールドは、分析には必要ないので、データ モデルを作成した後で非表示にできます。
- ID で終わるフィールドは非表示にできます (非表示にできる "ID" フィールドは、[Ratings (評価)] の ReviewID と ReviewerID、および [Sales (販売)] の ItemID と OrderID だけです)。
- ISBN は、各版の識別番号として保持する必要があります (理想的には [Edition (版)] テーブルの ISBN)。ユニオンにした [Sales (販売)] テーブルの ISBN フィールドは非表示にできます。
- [Award (賞)] テーブルの Title (タイトル) フィールドは非表示にできます。
- ユニオンのシートとテーブルのフィールドの場合も、一意の情報は含まれておらず、非表示にできます。
- データ モデルを簡略化するには、コア テーブルを [Book (書籍)]、[Author (著者)]、[Edition (版)] にします。最小限の影響で除外することが最も簡単なテーブルは、[Checkouts (貸出)] と [Ratings (評価)] であり、その後に [Award (賞)]、[Publisher (出版社)]、[Sales (販売)]、または [Info (情報)] や [Series (シリーズ)] が続きます。
ブックショップ ライブラリ
BookshopLibraries.xlsx ファイルでは、多対多の関係をサポートするためにライブラリの近くに新しいテーブルが導入されています。[Catalog (カタログ)] テーブルは、ISBN で [Edition (版)] テーブルに関連付けられています。[Library Profile (ライブラリ プロファイル)] テーブルは、LibraryID で多対多 (n:n) 関係として [Catalog (カタログ)] テーブルに関連付けられています。
データ ディクショナリ
ライブラリ プロファイル
- Library (ライブラリ) フィールドはライブラリの名前です。
- Library ID (ライブラリ ID) フィールドの ID は、[Catalog (カタログ)] テーブルでも使用されます。
- Consortium Member (コンソーシアム メンバー) フィールドは、ライブラリ間の貸し出しを提供し、他のサービスを共有するより大きなライブラリ ネットワークにライブラリが含まれるかどうかを示す yes/no (はい/いいえ) フィールドです。
- Private (プライベート) フィールドは、ライブラリがメンバー専用のライブラリまたは公共機関であるかどうかを示す yes/no (はい/いいえ) フィールドです。
- Staff Type (スタッフのタイプ) と Number of Staff (スタッフの数) は、各ライブラリで仕事をしている Librarians (ライブラリアン)、Library Assistants (ライブラリ アシスタント)、Library Technicians (ライブラリ技術者) の数を示します。
カタログ
- LoanID は、1 つのライブラリが持つ Number of Copies (コピー数) を追跡するために使用される ISBN とライブラリの組み合わせを表す一意の識別子です。たとえば、Idle Hour Library (アイドル状態のライブラリ) に、あるタイトルの 2 つのペーパーバック コピーと 1 つのハードカバー コピーが含まれる場合、2 つの Loan ID (貸し出し ID) が存在します。
- Library ID (ライブラリ ID) フィールド の ID は、[Library Profile (ライブラリ プロファイル)] テーブルでも使用されます。
[Library Profile (ライブラリ プロファイル)] テーブルの構造
探索
このデータ セットは架空のデータ セットですが、さまざまな分析シナリオや数多くの探索に対応します。たとえば、次のようなシナリオが考えられます。
- 最も人気のある書籍は何ですか? 最も人気のない書籍は? 人気は、販売、レビュー、貸出、その他の指標に基づいていますか?
- 最年少でデビューした著者は誰ですか? 最年長でデビューした著者は?
- 出版社は何かしらの専門分野に特化していますか?
- 同じ書籍の増版が出版されるまでの最長期間は?
- 販売には季節的な傾向がありますか? 貸出はどのようになっていますか? タイトルやジャンルに季節変動はありますか?
- 貸出、印刷部数、書籍評価、販売数量の間に相関関係はありますか?
- 執筆に最も時間を費やす著者の書籍は最も成功していますか? そうした書籍のページ数は最多ですか?
- 最も多くの書籍が出版されたのはいつですか? 例外的な期間はありますか?
- ジャンル、形式、価格の傾向はありますか?
- 評価にはどのような分布がありますか? それらの分布は書籍によって異なりますか? ジャンルよって異なりますか? 分布は賞と同様の傾向がありますか?
- 販売時に割引されることがある (常にではない) 場合は、販売価格はどのように計算されますか?
- 販売はパレートの原則に近似していますか?
- 割引にパターンはありますか?
- 任意のテーブルに特にダーティ データがあるように見えますか?
Bookshop データ セットのイースター エッグ