ชุดข้อมูลร้านหนังสือ
ชุดข้อมูลร้านหนังสือถูกสร้างขึ้นสำหรับ Tableau Desktop 2020.2 เพื่อแสดงความสัมพันธ์ระหว่างความสามารถการสร้างแบบจำลองข้อมูลใหม่สำหรับการผนวกรวมข้อมูล
ดาวน์โหลดไฟล์
คุณสามารถเลือกดาวน์โหลดข้อมูลดิบและเริ่มต้นตั้งแต่ต้นเพื่อสร้างแบบจำลองข้อมูลของคุณเอง หรือดาวน์โหลดแหล่งข้อมูลที่สร้างไว้ล่วงหน้าเพื่อข้ามไปยังการวิเคราะห์ด้วยความสัมพันธ์
- ข้อมูลดิบ (xlsx)
- Bookshop.xlsx - ข้อมูลดิบเป็นไฟล์ .xlsx
- BookshopLibraries.xlsx - ตารางห้องสมุดเพิ่มเติมที่แนะนำความสัมพันธ์แบบกลุ่มต่อกลุ่ม (มีเฉพาะตารางห้องสมุดเท่านั้น)
- ไฟล์แพ็คเกจแหล่งข้อมูล (tdsx)
- Bookshop.tdsx - ไฟล์แพ็คเกจ .tdsx มีแหล่งข้อมูลที่เกี่ยวข้องที่สร้างไว้แล้วและเพิ่มการเลือกกำหนดข้อมูลเมตาเข้าไป
- MinimalBookshop.tdsx - ตารางเดียวกันกับ Bookshop.tdsx แต่ไม่มีเมตาดาต้าหรือการทำความสะอาดข้อมูล
- Bookshop_libraries.tdsx - ไฟล์แพ็คเกจ .tdsx ที่เพิ่มตารางห้องสมุดไปยัง Bookshop.tdsx (รวมตารางทั้งหมด)
วิธีการเชื่อมต่อกับไฟล์ .tdsx ที่ดาวน์โหลดไว้
- เปิด Tableau Desktop
- ในแผง เชื่อมต่อ ทางซ้ายมือ ให้เลือกตัวเลือก More... ภายใต้ส่วนหัว To a File
- ไปยังตำแหน่งของไฟล์ .tdsx ที่คุณดาวน์โหลดมา ดับเบิลคลิกที่ไฟลฺ (หรือเลือกแล้วคลิกเปิด)
เกี่ยวกับชุดข้อมูล
ร้านหนังสือประกอบด้วยตาราง 13 ตารางที่ผนวกรวมกันในลักษณะต่อไปนี้:
หมายเหตุ: หลักการกลางสำหรับชุดข้อมูลนี้คือแนวคิดของ หนังสือเทียบกับรุ่น หนังสือเป็นหลักการที่มีแอตทริบิวต์ เช่น ผู้แต่ง ชื่อเรื่อง และแนว รุ่นเป็นเวอร์ชันทางกายภาพของหนังสือที่มีแอตทริบิวต์ เช่น รูปแบบ (ปกแข็ง ปกอ่อน) วันที่ตีพิมพ์ และจำนวนหน้า
พจนานุกรมข้อมูล
บางฟิลด์อาจต้องใส่คำอธิบายเล็กน้อย
- ฟิลด์ Rating ในตารางการจัดอันดับอยู่บนสเกล 1-5 โดยที่ 5 เป็นค่าสูงสุด
- ฟิลด์ Format เป็นการแบ่งย่อยโดยละเอียดของรูปแบบ ทุกสิ่งที่นอกเหนือจาก “Hardcover” อาจพิจารณาเป็น “Paperback”
- ISBN เป็นตัวย่อของ International Standard Book Number และเป็นตัวระบุ 13 หลักที่ไม่ซ้ำที่กำหนดให้กับแต่ละรุ่นของหนังสือ ISBN เป็นข้อมูลตัวแทนในบาร์โค้ดและผูกโยงกับราคา
- ฟิลด์ ItemID และ OrderID เป็นลำดับชั้น หนึ่งคำสั่งซื้ออาจมีหลายรายการสินค้า
- ฟิลด์ Staff Comment มีข้อมูลสรุปและการรีวิวสำหรับหนังสือบางรายการ
ถ้าคุณสร้างแหล่งข้อมูลของคุณเอง
- ฟิลด์ Publisher และ Sales จะต้องเชื่อมโยงกับตาราง Edition
- ตาราง Book และ Info สามารถเชื่อมโยงกันหรือรวมกัน แต่จะต้องอยู่บนการคำนวณ
BookID = [BookID1]+[BookID2]
- แนะนำให้ใช้การรวมภายใน
- ตาราง Series สามารถใช้ก็ต่อเมื่อตารางข้อมูลเป็นส่วนหนึ่งของแหล่งข้อมูลเท่านั้น
- เราขอแนะนำให้เปลี่ยนชื่อตารางเชิงตรรกะของ Book ที่รวมข้อมูล “Book” หรือชื่อที่คล้ายกัน
- ตาราง Sales สี่ตารางสามารถวิเคราะห์โดยแยกกันได้ แต่ถ้าผนวกกัน เราขอแนะนำให้เปลี่ยนชื่อเป็น “Sales” หนึ่งเดียวหรือที่คล้ายกัน
- ฟิลด์ส่วนใหญ่ที่ใช้เพื่อสร้างความสัมพันธ์ไม่จำเป็นต้องใช้สำหรับการวิเคราะห์และสามารถซ่อนไว้เมื่อสร้างแบบจำลองข้อมูลแล้ว
- ฟิลด์ใดๆ ที่ลงท้ายด้วย ID สามารถซ่อนไว้ (ฟิลด์ “ID” เท่านั้นได้แก่ ReviewID และ ReviewerID จากตาราง Ratings และ ItemID กับ OrderID จากตาราง Sales)
- ISBN ควรเก็บไว้โดยเฉพาะสำหรับตาราง Edition เนื่องจากเป็นตัวระบุรุ่นแต่ะรุ่น ฟิลด์ ISBN ในตาราง Sales ที่ผนวกเป็นหนึ่งแล้วสามารถซ่อนไว้ได้
- ฟิลด์ Title ในตาราง Award สามารถซ่อนไว้ได้
- ฟิลด์แผ่นงานและตารางจาก Union ยังไม่มีข้อมูลที่ไม่ซ้ำกันและสามารถซ่อนไว้ได้
- เพื่อให้เข้าใจแบบจำลองข้อมูลง่ายขึ้น ตารางหลักจะเป็น Book, Author และ Edition ตารางที่ง่ายที่สุดที่จะให้ผลกระทบน้อยที่สุดจะเป็น Checkouts และ Ratings ตามด้วย Award, Publisher, Sales หรือ Info และ Series
Bookshop Libraries
ไฟล์ BookshopLibraries.xlsx แสดงตารางใหม่เกี่ยวกับห้องสมุดเพื่อการสนับสนุนความสัมพันธ์แบบกลุ่มต่อกลุ่ม ตาราง Catalog เกี่ยวข้องกับตาราง Editions บนหมายเลข ISBN ตาราง Library Profiles เกี่ยวข้องกับตาราง Catalog เป็นความสัมพันธ์แบบกลุ่มต่อกลุ่ม (n:n) บน LibraryID
พจนานุกรมข้อมูล
โปรไฟล์ห้องสมุด
- ฟิลด์ Library เป็นชื่อของห้องสมุด
- ฟิลด์ Library ID เป็น ID ที่ใช้ในตาราง Catalog ด้วย
- ฟิลด์ Consortium Member เป็นฟิลด์ ใช่/ไม่ใช่ ที่บ่งชี้ว่าห้องสมุดเป็นส่วนหนึ่งของเครือข่ายขนาดใหญ่ของห้องสมุดที่ให้ข้อมูลการกู้ยืมระหว่างห้องสมุดและแบ่งปันบริการอื่นหรือไม่
- ฟิลด์ Private เป็นฟิลด์ ใช่/ไม่ใช่ ที่บ่งชี้ว่าเป็นห้องสมุดเฉพาะสมาชิกหรือสถาบันสาธารณะ
- Staff Type และ Number of Staff รวมกันให้ข้อมูลจำนวนบรรณารักษ์ ผู้ช่วยบรรณารักษ์ และช่างเทคนิคห้องสมุดที่ทำงานในห้องสมุดแต่ละแห่ง
แคตตาล็อก
- LoanID เป็นตัวระบุที่ไม่ซ้ำกันสำหรับการรวมกันของ ISBN และห้องสมุดที่ใช้เพื่อติดตั้ง Number of Copies ที่ห้องสมุดมี ตัวอย่างเช่น ถ้า Idle Hour Library มีสำเนาปกอ่อนสองชุดและสำเนาปกแข็งหนึ่งขุดของชื่อเรื่องหนึ่ง จะถือว่ามี Loan ID สองชุด
- ฟิลด์ Library ID เป็น ID ที่ใช้ในตาราง Library Profile ด้วย
ตาราง Library Profile มีรูปแบบเริ่มต้นเป็นตารางที่ยังไม่ Pivot พร้อมคอลัมน์สำหรับแต่ละประเภทของพนักงาน ด้านล่าง
ห้องสมุด | ID ห้องสมุด | สมาชิกสมาคม | ส่วนตัว | บรรณารักษ์ | ช่างเทคนิคห้องสมุด | ผู้ช่วยบรรณารักษ์ |
ห้องสมุดในชั่วโมงว่าง | L-IHL | ใช่ | ไม่ | 53 | 61 | 16 |
The Bibliophile’s Shelves | L-BS | ใช่ | ใช่ | 4 | 3 | 0 |
Armchair Athanaeum | L-AA | ไม่ | ใช่ | 6 | 0 | 0 |
Old Friend Library | L-OFL | ใช่ | ไม่ | 3 | 5 | 17 |
Bide Awhile | L-BA | ใช่ | ไม่ | 9 | 20 | 6 |
IndieUnBound | L-IUB | ใช่ | ไม่ | 7 | 2 | 47 |
Page Station Book Exchange | L-PS | ไม่ | ใช่ | 3 | 1 | 4 |
ตารางแสดงข้อมูลแบบ Pivot สำหรับคอลัมน์ข้อมูลบรรณารักษ์ ผู้ช่วยบรรณารักษ์ และช่างเทคนิคห้องสมุด รูปแบบสุดท้ายจะมีคอลัมน์สำหรับ Staff Type และคอลัมน์สำหรับ Number of Staff อย่างไรก็ตาม หมายความว่าจะมีมากกว่าหนึ่งแถวสำหรับห้องสมุดแต่ละแห่ง ดังนั้นค่า Library ID จึงไม่ใช่ข้อมูลที่ไม่ซ้ำกัน และเวอร์ขันแบบ Pivot ของตารางจะต้องเชื่อมโยงกับความสัมพันธ์แบบกลุ่มต่อกลุ่มของตาราง Catalog
ในขณะรูปแบบนี้มีประโยชน์ที่ช่วยให้เกิดความสัมพันธ์แบบกลุ่มต่อกลุ่มระหว่างตาราง Catalog และ Profile แต่ไม่ได้เป็นโครงสร้างสำหรับการวิเคราะห์ข้อมูล(ลิงก์จะเปิดในหน้าต่างใหม่)ที่เหมาะสม
สำรวจ
ชุดข้อมูลนี้แม้จะไม่มีจริง แต่รองรับสถานการณ์การวิเคราะห์และการสำรวจข้อมูลหลากหลายแบบ มีข้อแนะนำบางอย่างที่ควรพิจารณา:
- หนังสือเรื่องอะไรที่ได้รับความนิยมมากที่สุด หนังสือที่มีความนิยมน้อยที่สุด ผลดังกล่าวอิงตามตัวชี้วัดอะไร ยอดขาย การรีวิว การชำระเงิน หรือเมทริกซ์อื่น
- ใครเป็นนักเขียนที่เปิดตัวใหม่ที่อายุน้อยที่สุด ใครเป็นนักเขียนที่อายุมากที่สุด
- สำนักพิมพ์บางแห่งดูเหมือนมีความเชี่ยวชาญในบางด้านใช่หรือไม่
- ระยะเวลานานที่สุดระหว่างการออกหนังสือเล่มถัดไปของเรื่องเดียวกันอยู่ที่เท่าใด
- มีแนวโน้มตามฤดูกาลสำหรับยอดขายหรือไม่ การชำระเงินเป็นอย่างไรบ้าง มีหนังสือหรือแนวหนังสือที่มีความผันผวนตามฤดูกาลหรือไม่
- มีความสัมพันธ์ใดๆ ระหว่างการชำระเงิน ขนาดจำนวนเล่นที่พิมพ์ การจัดอันดับการรีวีวหนังสือ และปริมาณยอดขายหรือไม่
- ผู้เขียนที่ใช้เวลาเขียนนานที่สุดมีหนังสือที่ประสบความสำเร็จมากที่สุดหรือไม่ ผู้เขียนดังกล่าวมีจำนวนหน้าที่เขียนมากที่สุดหรือไม่
- หนังสือส่วนใหญ่ตีพิมพ์เมื่อไหร่ มีความผิดปกติใดๆ ใช่หรือไม่
- มีแนวโน้มเกิดขึ้นกับแนวหนังสือ รูปแบบ และราคาหรือไม่
- การจัดอันดับมีแหล่งที่มาของการกระจายอย่างไร การกระจายดังกล่าวแปรผันตามหนังสือใช่หรือไม่ หรือแปรผันตามแนวหนังสือ การกระจายสอดคล้องกับรางวัลหรือไม่
- คุณจะคำนวณราคาขายอย่างไร ถ้ากำหนดว่าบางครั้งมีส่วนลดแต่ไม่ใช่เสมอไปสำหรับข่วงเวลาในการขายหนังสือ
- การขายเทียบว่าเป็นไปตามหลักพาเรโตได้หรือไม่
- ส่วนลดมีลักษณะรูปแบบหรือไม่
- มีตารางใดๆ ที่ดูเหมือนมีข้อมูลไม่ถูกต้องหรือไม่
- Etaoin Shrdlu เป็นการอ้างอิงถึงเครื่องพิมพ์ในยุคหิน Palimpsest เป็นการอ้างอิงถึงการจัดทำต้นฉบับ
- ชื่อผู้เขียนมาจากรายชื่อผู้เขียนชาวอเมริกันที่มีชื่อเสียงโดยสุ่มตามชื่อและนามสกุล
- วันที่ตีพิมพ์ปัจจุบันมักจะเป็นวันอังคาร ข้อมูลดังกล่าวแสดงอยู่ในตารางข้อมูล ซึ่งยืดถือได้ว่ามาตรฐานอุตสาหกรรมเป็นของปี 2178
- หนังสือเล่มหนึ่งไม่มีการรีวิว การชำระเงิน หรือยอดขาย
- ข้อมูลการชำระเงินอิงตามข้อมูลจริงของห้องสมุดโดยมี BookID แมปกับชื่อหนังสือ ดังนั้นแนวโน้มการชำระเงินเป็นข้อมูลจริง
- ข้อมูลการจัดอันดับอิงตามข้อมูลการจัดอันดับจริงของหนังสือโดยมี BookID แมปกับชื่อหนังสือ ดังนั้นการกระจายของการจัดอันดับสำหรับหนังสือที่ระบุจึงเป็นข้อมูลจริง
- สัดส่วนของยอดขายที่เป็นหนังสือแบบไม่มีภาคต่อกับหนังสือที่มีภาคต่ออิงตามข้อมูลจริงจากร้านหนังสืออิสระ
- ข้อมูลยอดถูกสร้างขึ้นโดยสมบูรณ์ แต่อิงตามแนวโน้มจริงตามฤดูกาลและวันปกติสำหรับเมืองท่องเที่ยวที่เศรษฐกิจขับเคลื่อนด้วยนักท่องเที่ยว (เป็นสัดส่วนกับเดือนและวันของสัปดาห์ และสำหรับช่วงวันหยุดฤดูใบไม้ผลิและฤดูหนาว)
- ยอดขายพุ่งสูงกว่าปกติในช่วงวันหยุดยาวและช่วงวันหยุดฤดูใบไม้ผลิ
- ยอดขายจะสูงขึ้นในช่วงวันสุดสัปดาห์และต่ำสุดในวันอังคารและวันพฤหัสบดี
- ฤดูยอดขายสูงสุดคือฤดูร้อนระหว่างวันที่ 4 กรกฎาคมและวันแรงงาน
- ยอดขายพุ่งสูงกว่าปกติทันทีหลังวันขอบคุณพระเจ้าและในสัปดาห์ก่อนถึงคริสมาสต์
- ISBN เป็นชุดข้อมูลที่ดูเหมือนข้อมูลสมมติแต่สร้างมาจากหลักการ ISBN-13 ต่อไปนี้:
- EAN—989 (จริงๆ แล้วไม่ได้ใช้)
- หมายเลขกลุ่ม—28
- องค์ประกอบการลงทะเบียนสำนักพิมพ์—ความยาวแปรผัน (2-4 หลัก)
- องค์ประกอบชื่อหนังสือ ความยาวแปรผัน (3-5 หลักขึ้นอยู่กับองค์ประกอบการลงทะเบียน)
- หลักตรวจสอบที่สร้างด้วยการคำนวณเลขคณิตแบบแยกส่วนของหลักตรวจสอบ ISBN-13
- หนึ่งในนักพัฒนาที่ทำงานกับฟีเจอร์นี้แนะนำหนังสือที่ไม่มีเล่มต่อ และชื่อว่า The Deep Grey ดังนั้น BookID ลงท้ายด้วยสามหลักสุดท้ายของหมายเลขโทรศัพท์ของเขา
- มีข้อผิดพลาด (โดยจงใจ) ในตาราง Edition ที่มีสองรุ่นของหนังสือ BookID PA169 มีป้ายกำกับเป็นสำนักพิมพ์ Palimpsest Printing แต่หมายเลข ISBN ระบุว่ามีการตีพิมพ์จริงโดยสำนักพิมพ์ Etaoin Shrdlu Press
บุคคลที่สร้างชุดข้อมูลนี้มีวิธีจัดทำข้อมูลที่สนุกมาก และชัดเจนว่ามีภาวะหลงใหลในหนังสือ เธอหวังว่าคุณจะสนุกกับชุดข้อมูลและช่วยให้คุณชอบในพลัง ความสวยงาม และความงดงามของความสัมพันธ์ใน Tableau