Bookshop 데이터 집합

Bookshop 데이터 집합은 Tableau Desktop 2020.2에서 데이터 결합을 위한 새로운 데이터 모델링 기능인 관계를 보여주기 위해 만들어졌습니다.

파일 다운로드

원시 데이터를 다운로드하고 고유한 데이터 모델 처음부터 작성하기 시작하거나 미리 작성된 데이터 원본 중 하나를 다운로드하고 관계를 사용한 분석으로 바로 이동할 수 있습니다.

  • 원시 데이터(xlsx)
    • Bookshop.xlsx - .xlsx 파일 형식의 원시 데이터
    • BookshopLibraries.xlsx - 다대다 관계를 도입하는 추가적인 도서관 테이블(추가 도서관 테이블만 포함)
  • 패키지 데이터 원본(tdsx) 파일
    • Bookshop.tdsx - 관련 데이터 원본이 이미 작성되어 있고 일부 메타데이터 사용자 지정이 추가되어 있는 패키지 .tdsx 파일
    • MinimalBookshop.tdsx - Bookshop.tdsx와 동일하지만 메타데이터 또는 정리가 없는 테이블
    • Bookshop_libraries.tdsx - Bookshop.tdsx에 도서관 테이블을 추가하는 패키지 .tdsx 파일(모든 테이블 포함)

다운로드한 .tdsx에 연결하려면

  1. Tableau Desktop을 엽니다.
  2. 왼쪽에 있는 연결 패널에서 파일에 연결 머리글 아래에 있는 자세히... 옵션을 선택합니다.
  3. .tdsx 파일을 다운로드한 위치로 이동하고 해당 파일을 두 번 클릭(또는 파일을 선택한 다음 열기를 클릭)합니다.

데이터 집합 정보

Bookshop은 다음과 같은 방식으로 결합된 13개의 테이블로 구성되어 있습니다.

참고: 이 데이터 집합의 중심 개념은 book(서적)edition(판형)입니다. book(서적)은 author(저자), title(제목) 및 genre(장르)와 같은 특성을 포함하는 개념입니다. edition(판형)은 book(서적)의 물리적 형태이며 hardcover(양장본), paperback(문고본) 등의 format(형식), publication date(발행 날짜), page count(페이지 수)와 같은 특성을 포함합니다.

데이터 사전

일부 필드에는 간단한 설명이 필요할 수 있습니다.

  • Ratings 테이블의 Rating(평가) 필드는 1에서 5까지의 수치이며 5가 가장 높습니다.
  • Format(형식) 필드는 형식의 세부 분류입니다. "Hardcover" 이외의 모든 값은 "Paperback"으로 간주됩니다.
  • ISBN은 국제 표준 도서 번호(International Standard Book Number)를 의미하며 각 서적의 판형에 지정된 고유한 13자리 식별자입니다. ISBN은 바코드로 표시되며 가격과 연동됩니다.
  • ItemID(항목 ID)OrderID(주문 ID) 필드는 계층적입니다. 한 주문이 여러 항목을 포함할 수 있습니다.
  • Staff Comment(담당자 메모) 필드는 일부 서적에 대한 요약과 리뷰를 포함합니다.

고유한 데이터 원본을 작성하는 경우

  1. Publisher(출판사)Sales(매출) 테이블은 Edition(판형) 테이블과 연관되어야 합니다.
  2.  Book(서적)Info(정보) 테이블은 연관되거나 조인될 수 있지만 BookID = [BookID1]+[BookID2] 계산에 있어야 합니다.
    • 내부 조인을 사용하는 것이 좋습니다.
    • Series(시리즈) 테이블은 Info(정보) 테이블이 데이터 원본의 일부인 경우에만 사용할 수 있습니다.
  • 선택 사항:
    1. Book(서적)과 Info(정보)가 조인된 논리적 테이블의 이름을 "Book" 등으로 바꾸는 것이 좋습니다.
    2. 네 개의 Sales(매출) 테이블은 개별적으로 분석할 수 있지만 함께 유니온된 경우 해당 유니온의 이름을 "Sales" 등으로 바꾸는 것이 좋습니다.
    3. 관계를 형성하는 데 사용되는 대부분의 필드는 분석에 필요하지 않으므로 데이터 모델을 작성한 후 숨길 수 있습니다.
      • ID로 끝나는 모든 필드를 숨길 수 있습니다(숨기는 "ID" 필드는 오직 Ratings의 ReviewID 및 ReviewerID와 Sales의 ItemID 및 OrderID임).
      • ISBN은 각 판형의 식별자로 Edition 테이블에 유지하는 것이 좋습니다. 유니온된 Sales 테이블의 ISBN 필드는 숨길 수 있습니다.
      • Award 테이블의 Title(제목) 필드는 숨길 수 있습니다.
      • 유니온의 시트 및 테이블 필드도 고유한 정보를 포함하지 않으므로 숨길 수 있습니다.
    4. 데이터 모델을 간소화하기 위한 핵심 테이블은 Book, AuthorEdition입니다. 최소한의 영향으로 가장 쉽게 무시할 수 있는 테이블은 CheckoutsRatings이고, 그 다음은 Award, Publisher, Sales 또는 InfoSeries입니다.

    Bookshop Libraries(Bookshop 도서관)

    BookshopLibraries.xlsx 파일은 다대다 관계를 지원하기 위한 용도로 도서관과 관련된 새 테이블을 도입합니다. Catalog(카탈로그) 테이블은 Editions(판형) 테이블과 ISBN에서 연관됩니다. Library Profiles(도서관 프로필) 테이블은 Catalog(카탈로그) 테이블과 LibraryID에서 다대다(n:n) 관계로 연관됩니다.

    데이터 사전

    Library Profile(도서관 프로필)

    • Library(라이브러리) 필드는 라이브러리의 이름입니다.
    • Library ID(라이브러리 ID) 필드는 Catalog(카탈로그) 테이블에서 사용되는 ID이기도 합니다.
    • Consortium Member(컨소시엄 멤버) 필드는 도서관이 도서관 간 대출을 제공하고 다른 서비스를 공유하는 더 큰 도서관 네트워크의 일부인지 여부를 나타내는 예/아니요 필드입니다.
    • Private(비공개) 필드는 회원 전용 도서관인지 공공 기관인지를 나타내는 예/아니요 필드입니다.
    • Staff Type(직원 유형)Number of Staff(직원 수)가 함께 각 도서관에서 일하는 사서, 사서 도우미 및 도서관 기술자 수를 나타냅니다.

    Catalog(카탈로그)

    • LoanID(대출 ID)는 도서관이 보유한 Number of Copies(사본 수)를 추적하는 데 사용되는 ISBN과 도서관 번호 조합의 고유 식별자입니다. 예를 들어, Idle Hour Library에 한 서적의 문고본 사본 두 개와 양장본 사본 하나가 있는 경우 Loan ID(대출 ID)는 두 개가 있습니다.
    • Library ID(도서관 ID) 필드는 Library Profile(도서관 프로필) 테이블에도 사용되는 ID입니다.
    Library Profile(도서관 프로필) 테이블의 구조

    Library Profile(도서관 프로필) 테이블은 원래 아래와 같은 각 직원 유형에 대한 열이 있는 언피벗된 테이블로 형식이 지정되었습니다.

    Library(도서관)LibraryID(도서관 ID)Consortium Member(컨소시엄 멤버)Private(비공개)Librarians(사서 수)Library Technicians(도서관 기술자 수)Library Assistants(사서 도우미 수)

    Idle Hour Library

    L-IHL아니요536116

    The Bibliophile’s Shelves

    L-BS430

    Armchair Athanaeum

    L-AA아니요600
    Old Friend LibraryL-OFL아니요3517
    Bide AwhileL-BA아니요9206
    IndieUnBoundL-IUB아니요7247

    Page Station Book Exchange

    L-PS아니요314

    이 테이블은 Librarians(사서 수), Library Technicians(도서관 기술자 수) 및 Library Assistants(사서 도우미 수) 열에서 피벗되었습니다. 최종 형식에는 Staff Type(직원 유형) 열과 Number of Staff(직원 수) 열이 있습니다. 그러나 이는 각 라이브러리에 대해 둘 이상의 행이 있음을 의미합니다. 따라서 Library ID(도서관 ID) 값은 고유하지 않으며 테이블의 피벗된 버전은 Catalog(카탈로그) 테이블과 다대다 관계여야 합니다.

    이 형식은 Catalog(카탈로그)와 Profile(프로필) 간에 다대일 관계를 허용한다는 이점이 있지만 데이터 분석을 위한 구조(링크가 새 창에서 열림)로는 이상적이 아닙니다.

    탐색

    이 데이터 집합은 비록 가상이지만 다양한 분석 시나리오와 풍부한 탐색을 지원합니다. 다음은 몇 가지 제안 사항입니다.

    • 가장 인기 있는 서적은 무엇입니까? 가장 인기 없는 서적은 무엇입니까? 기준은 매출, 리뷰, 체크아웃 또는 다른 메트릭입니까?
    • 가장 어린 나이에 데뷔한 저자는 누구입니까? 가장 늦은 나이에 데뷔한 저자는 누구입니까?
    • 어느 정도 전문화된 출판사가 있습니까?
    • 동일한 서적의 판형 사이 기간이 가장 긴 것은 얼마입니까?
    • 판매에 계절별 추세가 있습니까? 체크아웃은 어떻습니까? 계절적 변동이 있는 제목 또는 장르가 있습니까?
    • 체크아웃, 인쇄 부수, 서적 리뷰 평가 및 판매량 사이에 상관 관계가 있습니까?
    • 집필 기간이 긴 작가일수록 성공한 서적이 많습니까? 페이지 수도 많습니까? 
    • 언제 가장 많은 서적이 발행되었습니까? 이상값이 있습니까? 
    • 장르, 형식 및 가격에 추세가 있습니까?
    • 평가는 어떻게 분포되어 있습니까? 분포가 서적마다 다릅니까? 장르마다 다릅니까? 수상 기록과 일치하는 것으로 보입니까? 
    • 항상 그런 것은 아니지만 판매 시점에 할인이 제공되는 경우 어떻게 판매 가격을 계산합니까?
    • 판매가 파레토 법칙을 유사하게 따릅니까? 
    • 할인에 패턴이 있습니까? 
    • 특별히 불필요한 데이터(dirty data)가 있는 것으로 나타나는 테이블이 있습니까?
    Bookshop 데이터 집합 이스터 에그
    • Etaoin Shrdlu는 라이노타이프 고온 활자기를 나타냅니다. Palimpsest는 참조를 위한 필사본입니다.
    • 저자 이름은 유명 미국 작가로 구성된 목록에서 성과 이름을 섞어 만들었습니다.
    • 현재 발행 날짜는 대개 화요일입니다. 이것은 이 산업 표준이 2178년까지 유지된다는 가정 하에 데이터에도 반영되어 있습니다.
    • 서적 하나에는 리뷰, 체크아웃 또는 매출이 없습니다.
    • Checkouts(체크아웃) 데이터는 실제 라이브러리 데이터에 기반하며 BookID는 제목에 매핑되어 있으므로 체크아웃 추세는 실제입니다.
    • Ratings(평가) 데이터는 실제 서적 평가 데이터에 기반하며 BookID는 제목에 매핑되어 있으므로 지정된 서적의 평가 분포는 실제입니다.
    • 단일 서적과 여러 서적에 대한 매출 비율은 독립적인 서점의 실제 데이터에 기반합니다.
    • Sales(매출) 데이터는 전체가 생성된 것이지만 관광업 경제 구조인 휴양지의 실제 계절별 및 주별 추세(월별 및 요일별 증가와 봄 방학 및 겨울 휴가 기간 증가)에 기반합니다. 
      • 매출은 연휴 기간과 봄 방학 때 가장 높습니다.
      • 매출은 주말이 더 높고 화요일과 목요일에 가장 낮습니다.
      • 매출이 가장 높은 계절은 7월 4일부터 9월 첫째 주 월요일 사이의 여름입니다.
      • 11월 넷째 목요일인 추수감사절 직후와 크리스마스 직전 주말에 매출이 급증합니다.
    • 데이터 집합의 ISBN은 가상이지만 다음과 같은 ISBN-13 원칙에 따라 구성되었습니다.
      • EAN - 989(실제 사용되지는 않음)
      • 그룹 번호 - 28
      • 출판사 등록 요소 - 가변 길이(2~4자)
      • 제목 요소 - 가변 길이(등록 요소 길이에 따라 3~5자)
      • ISBN-13 검사 숫자 모듈 산술 계산을 사용하여 만든 검사 숫자
    • 이 기능을 준비한 개발자 중 하나가 판형이 없는 서적을 제안했으며 The Deep Grey의 BookID는 그 개발자의 업무용 전화 번호 마지막 세 자리로 끝납니다.
    • Edition 테이블에는 (의도적인) 오류가 있습니다. BookID PA169의 두 판형은 Palimpsest Printing으로 레이블이 지정되어 있지만 ISBN은 이 두 판형이 실제로 Etaoin Shrdlu Press에서 출판되었다고 나타납니다.

    이 데이터 집합을 만든 사람은 도가 지나칠 정도로 재미를 추구했고 책에 깊은 집착을 가졌습니다. 그녀는 여러분이 이 데이터 집합을 즐겁게 사용하기를 바랐습니다. 이 데이터 집합을 통해 Tableau가 제공하는 관계의 강력한 기능, 우아함 및 아름다움을 더욱 쉽게 파악할 수 있습니다.

    피드백을 제공해 주셔서 감사합니다!귀하의 피드백이 제출되었습니다. 감사합니다!