Bookshop 데이터 집합
Bookshop 데이터 집합은 Tableau Desktop 2020.2에서 데이터 결합을 위한 새로운 데이터 모델링 기능인 관계를 보여주기 위해 만들어졌습니다.
파일 다운로드
원시 데이터를 다운로드하고 사용자만의 데이터 모델을 처음부터 작성할 수 있습니다. 또는 미리 작성된 데이터 원본 중 하나를 다운로드하여 관계를 사용한 분석으로 바로 진행할 수 있습니다.
- 원시 데이터(xlsx)
- Bookshop.xlsx - .xlsx 파일 형식의 원시 데이터
- BookshopLibraries.xlsx - 다대다 관계를 도입하는 추가적인 도서관 테이블(추가 도서관 테이블만 포함)
- 패키지 데이터 원본(tdsx) 파일
- Bookshop.tdsx - 데이터 원본이 미리 작성되어 있고 일부 메타데이터 사용자 지정이 추가되어 있는 패키지 .tdsx 파일
- MinimalBookshop.tdsx - Bookshop.tdsx와 동일하지만 메타데이터 또는 정리가 없는 테이블
- Bookshop_libraries.tdsx - 도서관 테이블을 Bookshop.tdsx에 추가하는 패키지 .tdsx 파일(모든 테이블 포함)
다운로드한 .tdsx에 연결하려면
- Tableau Desktop을 엽니다.
- 왼쪽에 있는 연결 패널에서 파일에 연결 머리글 아래에 있는 자세히... 옵션을 선택합니다.
- .tdsx 파일을 다운로드한 위치로 이동하고 해당 파일을 두 번 클릭(또는 파일을 선택한 다음 열기를 클릭)합니다.
데이터 집합 정보
Bookshop은 다음과 같은 방식으로 관련된 13개의 테이블로 구성되어 있습니다.

참고: 이 데이터 집합의 중심 개념은 book(서적)과 edition(판형)입니다. book(서적)은 author(저자), title(제목) 및 genre(장르)와 같은 특성을 포함하는 개념입니다. edition(판형)은 book(서적)의 물리적 형태이며 hardcover(양장본), paperback(문고본) 등의 format(형식), publication date(발행 날짜), page count(페이지 수)와 같은 특성을 포함합니다.
데이터 사전
일부 필드에는 간단한 설명이 필요할 수 있습니다.
- Ratings 테이블의 Rating(평가) 필드는 1에서 5까지의 수치이며 5가 가장 높습니다.
- Format(형식) 필드는 형식의 세부 분류입니다. "Hardcover" 이외의 모든 값은 "Paperback"으로 간주됩니다.
- ISBN은 국제 표준 도서 번호(International Standard Book Number)를 의미하며 각 서적의 판형에 지정된 고유한 13자리 식별자입니다. ISBN은 바코드로 표시되며 가격과 연동됩니다.
- ItemID(항목 ID) 및 OrderID(주문 ID) 필드는 계층적입니다. 한 주문이 여러 항목을 포함할 수 있습니다.
- Staff Comment(담당자 메모) 필드는 일부 서적에 대한 요약과 리뷰를 포함합니다.
고유한 데이터 원본을 작성하는 경우
- Publisher(출판사) 및 Sales(매출) 테이블은 Edition(판형) 테이블과 연관되어야 합니다.
- Book(서적) 및 Info(정보) 테이블은 연관되거나 조인될 수 있지만
BookID = [BookID1]+[BookID2]계산에 있어야 합니다.- 내부 조인을 사용하는 것이 좋습니다.
- Series(시리즈) 테이블은 Info(정보) 테이블이 데이터 원본의 일부인 이후에만 사용할 수 있습니다.
- Book(서적) 테이블과 Info(정보) 테이블을 조인한 논리적 테이블 이름을 'Book' 또는 이와 유사한 이름으로 변경하는 것을 권장합니다.
- 네 개의 Sales(매출) 테이블은 개별적으로 분석할 수 있지만 함께 유니온된 경우 해당 유니온의 이름을 'Sales' 또는 이와 유사한 이름으로 바꾸는 것이 좋습니다.
- 관계를 형성하는 데 사용되는 대부분의 필드는 분석에 필요하지 않으므로 데이터 모델을 작성한 후 숨길 수 있습니다.
- ID로 끝나는 모든 필드를 숨길 수 있습니다. 예를 들어 Ratings(평가)의 ReviewID 및 ReviewerID와 Sales(매출)의 ItemID 및 OrderID가 있습니다.
- ISBN은 각 판형의 식별자로 Edition 테이블에 유지하는 것이 좋습니다. 유니온된 Sales 테이블의 ISBN 필드는 숨길 수 있습니다.
- Award 테이블의 Title(제목) 필드는 숨길 수 있습니다.
- 유니온의 시트 및 테이블 필드도 고유한 정보를 포함하지 않으므로 숨길 수 있습니다.
- 데이터 모델을 간소화하기 위한 키 테이블은 Book(서적), Author(작가) 및 Edition(판형)입니다. 최소한의 영향으로 가장 쉽게 무시할 수 있는 테이블은 Checkouts(체크아웃) 및 Ratings(평가)이고, 그 다음은 Award(수상), Publisher(출판사), Sales(매출) 또는 Info(정보) 및 Series(시리즈)입니다.
Bookshop 도서관
BookshopLibraries.xlsx 파일은 다대다 관계를 지원하기 위한 용도로 도서관과 관련된 새 테이블을 도입합니다. Catalog(카탈로그) 테이블은 Editions(판형) 테이블과 ISBN에서 연관됩니다. Library Profiles(도서관 프로필) 테이블은 Catalog(카탈로그) 테이블과 LibraryID에서 다대다(n:n) 관계로 연관됩니다.

데이터 사전
Library Profile(도서관 프로필)
- Library(라이브러리) 필드는 라이브러리의 이름입니다.
- Library ID(라이브러리 ID) 필드는 Catalog(카탈로그) 테이블에서 사용되는 ID이기도 합니다.
- Consortium Member(컨소시엄 멤버) 필드는 도서관이 도서관 간 대출을 제공하고 다른 서비스를 공유하는 더 큰 도서관 네트워크의 일부인지 여부를 나타내는 예/아니요 필드입니다.
- Private(사설) 필드는 회원 전용 도서관인지 공공 기관인지를 나타내는 예/아니요 필드입니다.
- Staff Type(직원 유형)과 Number of Staff(직원 수)가 함께 각 도서관에서 일하는 사서, 사서 도우미 및 도서관 기술자 수를 나타냅니다.
Catalog(카탈로그)
- LoanID(대출 ID)는 도서관이 보유한 Number of Copies(사본 수)를 추적하는 데 사용되는 ISBN과 도서관 번호 조합의 고유 식별자입니다. 예를 들어, Idle Hour Library에 한 서적의 문고본 사본 두 개와 양장본 사본 하나가 있는 경우 Loan ID(대출 ID)는 두 개가 있습니다.
- Library ID(도서관 ID) 필드는 Library Profile(도서관 프로필) 테이블에도 사용되는 ID입니다.
Library Profile(도서관 프로필) 테이블은 원래 각 직원 유형에 대한 열이 있는 언피벗된 테이블로 형식이 지정되었습니다.
| Library | LibraryID | Consortium Member | Private | Librarians | Library Technicians | Library Assistants |
Idle Hour Library | L-IHL | Yes | No | 53 | 61 | 16 |
The Bibliophile’s Shelves | L-BS | Yes | Yes | 4 | 3 | 0 |
Armchair Athanaeum | L-AA | No | Yes | 6 | 0 | 0 |
| Old Friend Library | L-OFL | Yes | No | 3 | 5 | 17 |
| Bide Awhile | L-BA | Yes | No | 9 | 20 | 6 |
| IndieUnBound | L-IUB | Yes | No | 7 | 2 | 47 |
Page Station Book Exchange | L-PS | No | Yes | 3 | 1 | 4 |
이 테이블은 Librarians(사서 수), Library Technicians(도서관 기술자 수) 및 Library Assistants(사서 도우미 수) 열에서 피벗되었습니다. 최종 형식에는 Staff Type(직원 유형) 열과 Number of Staff(직원 수) 열이 있습니다. 그러나 이는 각 라이브러리에 대해 둘 이상의 행이 있음을 의미합니다. 따라서 Library ID(도서관 ID) 값은 고유하지 않으며 테이블의 피벗된 버전은 Catalog(카탈로그) 테이블과 다대다 관계여야 합니다.
이 형식은 Catalog(카탈로그)와 Profile(프로필) 간에 다대일 관계를 허용한다는 이점이 있지만 데이터 분석을 위한 구조(링크가 새 창에서 열림)로는 이상적이 아닙니다.
탐색
이 데이터 집합은 비록 가상이지만 다양한 분석 시나리오와 풍부한 탐색을 지원합니다. 다음은 몇 가지 제안 사항입니다.
- 가장 인기 있는 서적은 무엇입니까? 가장 인기 없는 서적은 무엇입니까? 기준은 매출, 리뷰, 체크아웃 또는 다른 메트릭입니까?
- 가장 어린 나이에 데뷔한 저자는 누구입니까? 가장 늦은 나이에 데뷔한 저자는 누구입니까?
- 어느 정도 전문화된 출판사가 있습니까?
- 동일한 서적의 판형 사이 기간이 가장 긴 것은 얼마입니까?
- 판매에 계절별 추세가 있습니까? 체크아웃은 어떻습니까? 계절적 변동이 있는 제목 또는 장르가 있습니까?
- 체크아웃, 인쇄 부수, 서적 리뷰 평가 및 판매량 사이에 상관 관계가 있습니까?
- 집필 기간이 긴 작가일수록 성공한 서적이 많습니까? 페이지 수도 많습니까?
- 언제 가장 많은 서적이 발행되었습니까? 이상값이 있습니까?
- 장르, 형식 및 가격에 추세가 있습니까?
- 평가는 어떻게 분포되어 있습니까? 분포가 서적마다 다릅니까? 장르마다 다릅니까? 수상 기록과 일치하는 것으로 보입니까?
- 항상 그런 것은 아니지만 판매 시점에 할인이 제공되는 경우 어떻게 판매 가격을 계산합니까?
- 판매가 파레토 법칙을 유사하게 따릅니까?
- 할인에 패턴이 있습니까?
- 특별히 불필요한 데이터(dirty data)가 있는 것으로 나타나는 테이블이 있습니까?
- Etaoin Shrdlu는 라이노타이프 고온 활자기를 나타냅니다. Palimpsest는 참조를 위한 필사본입니다.
- 저자 이름은 유명 미국 작가로 구성된 목록에서 성과 이름을 섞어 만들었습니다.
- 현재 발행 날짜는 대개 화요일입니다. 이것은 이 산업 표준이 2178년까지 유지된다는 가정 하에 데이터에도 반영되어 있습니다.
- 서적 하나에는 리뷰, 체크아웃 또는 매출이 없습니다.
- Checkouts(체크아웃) 데이터는 실제 라이브러리 데이터에 기반하며 BookID는 제목에 매핑되어 있으므로 체크아웃 추세는 실제입니다.
- Ratings(평가) 데이터는 실제 서적 평가 데이터에 기반하며 BookID는 제목에 매핑되어 있으므로 지정된 서적의 평가 분포는 실제입니다.
- 단일 서적과 여러 서적에 대한 매출 비율은 독립적인 서점의 실제 데이터에 기반합니다.
- Sales(매출) 데이터는 전체가 생성된 것이지만 관광업 경제 구조인 휴양지의 실제 계절별 및 주별 추세(월별 및 요일별 증가와 봄 방학 및 겨울 휴가 기간 증가)에 기반합니다.
- 매출은 연휴 기간과 봄 방학 때 가장 높습니다.
- 매출은 주말이 더 높고 화요일과 목요일에 가장 낮습니다.
- 매출이 가장 높은 계절은 7월 4일부터 9월 첫째 주 월요일 사이의 여름입니다.
- 11월 넷째 목요일인 추수감사절 직후와 크리스마스 직전 주말에 매출이 급증합니다.
- 데이터 집합의 ISBN은 가상이지만 다음과 같은 ISBN-13 원칙에 따라 구성되었습니다.
- EAN - 989(실제 사용되지는 않음)
- 그룹 번호 - 28
- 출판사 등록 요소 - 가변 길이(2~4자)
- 제목 요소 - 가변 길이(등록 요소 길이에 따라 3~5자)
- ISBN-13 검사 숫자 모듈 산술 계산을 사용하여 만든 검사 숫자
- 이 기능을 준비한 개발자 중 하나가 판형이 없는 서적을 제안했으며 The Deep Grey의 BookID는 그 개발자의 업무용 전화 번호 마지막 세 자리로 끝납니다.
- Edition 테이블에는 (의도적인) 오류가 있습니다. BookID PA169의 두 판형은 Palimpsest Printing으로 레이블이 지정되어 있지만 ISBN은 이 두 판형이 실제로 Etaoin Shrdlu Press에서 출판되었다고 나타냅니다.
이 데이터 집합을 만든 사람은 도가 지나칠 정도로 재미를 추구했고 책에 깊은 집착을 가졌습니다. 그녀는 여러분이 이 데이터 집합을 즐겁게 사용하기를 바랐습니다. 이 데이터 집합을 통해 Tableau가 제공하는 관계의 강력한 기능, 우아함 및 아름다움을 더욱 쉽게 파악할 수 있습니다.
