อย่ากลัวความสัมพันธ์ที่ลึกซึ้ง
เนื่องจากธรรมชาติของความสัมพันธ์ การทำความเข้าใจว่าฟิลด์มาจากไหน โดเมนของฟิลด์ และสิ่งที่แสดงถึงค่า Null นั้นมีความสำคัญมากกว่าที่เคย โปรดจำไว้ว่าใครก็ตามที่ดูข้อมูลดังกล่าวโดยไม่ต้องเข้าถึงหน้าแหล่งข้อมูลหรือแผงข้อมูลจะต้องพึ่งพาชื่อเรื่องหรือข้อมูลอื่นๆ ที่นำเสนอโดยผู้เขียนเพื่อแปล ได้แก่ อย่างถูกต้อง
หมายเหตุ: หากคุณยังไม่คุ้นเคยกับหลักการเบื้องหลังแหล่งข้อมูลที่ใช้ความสัมพันธ์ การอ่าน อย่ากลัวความสัมพันธ์ ก่อนเจาะลึกลงในหัวข้อนี้อาจช่วยคุณได้
เหตุใดฟิลด์วันที่ทั้งหมดจึงไม่เท่ากัน
สิ่งสำคัญคือต้องจำไว้ว่าการที่ชื่อฟิลด์สองชื่อมีคำว่า "วันที่" ไม่ได้หมายความว่าเนื้อหาของฟิลด์เหล่านั้นจะเหมือนกัน มาดูตัวอย่างที่สอดคล้องกับระดับของปีกัน นั่นคือ เราไม่สนใจเกี่ยวกับค่าของเดือนและวัน เราสนใจเฉพาะปีที่ครอบคลุมเท่านั้น
มีหลายฟิลด์ในชุดข้อมูลร้านหนังสือที่มีประเภทข้อมูลเป็นวันที่
- วันเกิด
- วันที่เผยแพร่
- วันที่ขาย
- และปีที่ชนะและปีที่ก่อตั้งยังมีข้อมูลวันที่แม้ว่าจะเป็นฟิลด์ตัวเลขก็ตาม
- หมายเหตุ: หากไอคอนในแผงข้อมูลเป็นสีเขียว แสดงว่าฟิลด์นี้เป็นแบบต่อเนื่อง คลิกขวาที่ชื่อฟิลด์ในแผง “ข้อมูล” และเลือกแปลงเป็นแบบแยกกัน(ลิงก์จะเปิดในหน้าต่างใหม่) ไอคอนควรเปลี่ยนเป็นสีน้ำเงิน ทำเช่นนี้สำหรับทั้ง "ปีที่ชนะ" และ "ปีที่ก่อตั้ง" หากจำเป็น
แต่โดเมน ค่าในแต่ละฟิลด์ จะแตกต่างกันไป นำแต่ละฟิลด์ไปที่แผงแถวและดูจำนวนเครื่องหมายที่มุมล่างซ้าย ลบแต่ละฟิลด์ออกก่อนที่จะดึงฟิลด์ถัดไป
- YEAR(วันเกิด) มี 27 เครื่องหมาย หมายความว่าโดเมนนี้มี 27 ปีที่แตกต่างกัน
- YEAR([วันที่ตีพิมพ์]) มี 15 เครื่องหมาย ดังนั้นโดเมนประกอบด้วย 15 ปี
- ปีที่ชนะมี 11 เครื่องหมาย
- ปีที่ก่อตั้งมี 4 เครื่องหมาย
- YEAR([วันที่ขาย]) มี 1 เครื่องหมาย
ความแตกต่างในโดเมนนี้สำคัญมากที่ต้องจำไว้ หากเราเชื่อมโยงรุ่นและตารางรางวัลในปี YEAR([วันที่ตีพิมพ์]) กับปีที่ชนะ เราอาจจบลงด้วยการวิเคราะห์ที่ใช้การรวมภายในและถูกลดเหลือเพียงปีที่ได้รับรางวัล จึงทิ้งหนังสือทั้งหมดจากปีที่ไม่มีรางวัล (โปรดทราบว่านี่ไม่ใช่สิ่งเดียวกับการกรองหนังสือโดยไม่มีรางวัล หนังสือที่ไม่ได้รับรางวัลซึ่งตีพิมพ์ในปีเดียวกับหนังสือที่ได้รับรางวัลจะถูกเก็บรักษาไว้ หนังสือทุกเล่มจากปีที่ไม่มีรางวัลจะถูกยกเลิกทั้งหมด การดำเนินการกรองจากการเข้าร่วมอยู่ที่ระดับปี ไม่ใช่หนังสือ)
ตัวอย่าง: วันที่ตีพิมพ์และวันเกิด
ถ้าเรานำวันที่ตีพิมพ์ไปที่คอลัมน์และวันเกิดเป็นแถว เราจะได้ตาราง Abcs คุณสามารถดาวน์โหลดเวิร์กบุ๊กและสำรวจตารางนี้ด้วยตัวเอง (ต้องใช้ Tableau Desktop 2020.2 ขึ้นไป)
สังเกตว่ามีช่องว่างมากมายในตารางนี้ ไม่มีตัวยึดตำแหน่งสำหรับสิ่งพิมพ์ปี 2180 และวันเกิด 2133 ซึ่งหมายความว่าผู้เขียนที่เกิดในปี 2133 ไม่ได้ตีพิมพ์ในปี 2180
แน่นอน แต่ทำไมเราถึงสนใจ
ลองนึกภาพว่าคุณต้องการวิเคราะห์เมื่อเวลาผ่านไป ยอดขายปกแข็งเพิ่มขึ้นเมื่อเวลาผ่านไปหรือไม่ คุณอาจจินตนาการว่ากราฟของคุณเป็นไทม์ไลน์ที่กรองรูปแบบเป็นเฉพาะปกแข็งที่มียอดขาย (จำนวน) ในแถวและวันที่ในคอลัมน์ แต่ฟิลด์วันที่ไหนกันล่ะ วันที่ตีพิมพ์ วันเกิด วันที่ขาย ฟิลด์เหล่านี้มีชื่อที่ดีและค่อนข้างชัดเจนว่าหากเรามีคำถามเกี่ยวกับการขาย เราควรใช้วันที่ขาย ไม่ใช่ชุดข้อมูลทั้งหมดที่มีชื่อที่ชัดเจน หากฟิลด์เป็นเหมือน "Date1" และ "Date3" คงจะยากกว่ามากที่จะบอกได้ โดยเฉพาะอย่างยิ่งหากคำถามเชิงวิเคราะห์ไม่ชัดเจน
ตารางใดที่ฟิลด์มาจากและสิ่งที่โดเมนของฟิลด์แสดงถึงมีผลกระทบสำคัญต่อการวิเคราะห์
โดยการเปลี่ยนฟิลด์วันที่ เราสามารถเปลี่ยนแปลงการวิเคราะห์ทั้งหมดได้ พิจารณาการแสดงเป็นภาพ 2 รายการเหล่านี้:
คนแรกสามารถแปลได้ว่า "ในแต่ละปีนักเขียนเขียนหนังสือได้กี่เล่ม" ตอบคำถามเช่น "มีผู้เขียนที่มีอายุมากกว่าเขียนหนังสือมากขึ้นหรือไม่" (ไม่) หรือ “ผู้เขียนเกิดปีไหนมีผลงานมากที่สุด” (2155)
ส่วนที่สองสามารถแปลได้ว่า "ในแต่ละปีมีการจัดพิมพ์หนังสือกี่เล่ม" ตอบคำถามเช่น "ปีใดมีหนังสือที่ตีพิมพ์มากที่สุด" (2188) หรือ “การตีพิมพ์หนังสือคงที่ตลอดเวลาหรือไม่” (ไม่)
ไม่สะดวกที่จะใช้คำถามสำหรับการแสดงเป็นภาพที่ใช้วันเกิดเพราะเป็นการผสมผสานแนวคิดที่น่าอึดอัดใจ แต่ Tableau ไม่ได้ตัดสินและจะให้คุณถามคำถามอะไรก็ได้ที่คุณชอบ ไม่ว่าคุณจะตั้งใจหรือไม่ก็ตาม นั่นเป็นสิ่งสำคัญ หากคุณนำ Date3 ออกมาเมื่อคุณควรใช้ Date1 Tableau จะให้ประโยชน์แก่คุณ แต่ไม่ใช่ทุกฟิลด์วันที่มีความหมายเหมือนกัน และขึ้นอยู่กับผู้เขียนที่จะรู้ว่าฟิลด์ใดที่จะใช้สำหรับการวิเคราะห์ที่ถูกต้อง
หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับความสำคัญของตารางที่มาจากฟิลด์ โปรดดู โพสต์ในบล็อกนี้(ลิงก์จะเปิดในหน้าต่างใหม่)
ข้อมูลที่ขาดหายไปหมายความว่าอย่างไร
มีความแตกต่างระหว่างศูนย์และค่า Null
ศูนย์หมายความว่าเราวัดแล้วและบางอย่างไม่อยู่ที่นั่น เรารู้ค่าและเป็นศูนย์ ถ้าฉันมีใบสั่งจากการขับรถเร็วเป็นศูนย์ ฉันคงไม่ได้ขับรถเร็วมากนัก
- หมายเหตุ: 0 และ 1 มักใช้สลับกันได้กับค่า True/False หรือค่าทวินามอื่นๆ เช่น ใช่/ไม่ใช่ หรือ ผ่าน/ไม่ผ่าน ในกรณีนี้ เลขศูนย์กำลังถูกใช้เป็นป้ายกำกับ ไม่ใช่ค่าตัวเลข
ค่า Null หมายความว่าเราไม่รู้: เราไม่ได้วัดหรือเราไม่ได้บันทึกข้อมูล หากประวัติการขับขี่ของฉันว่างเปล่าสำหรับใบสั่งจากการขับรถเร็ว เราก็ไม่รู้ว่าฉันขับเร็วหรือไม่
ค่า Null สามารถแสดงข้อมูลที่ขาดหายไปหรือข้อมูลที่ไม่มีอยู่
- สำหรับประวัติการขับขี่ของฉัน หากค่าใบสั่งจากการขับรถเร็วเป็นค่า Null เป็นไปได้ว่าฉันจะมีใบสั่งจากการขับรถเร็วที่ไม่ได้บันทึกไว้ เราควรถือว่าข้อมูลขาดหายไป
- ข้อมูลที่ไม่มีอยู่สามารถบันทึกเป็น N/A ได้ แต่มักจะไม่ถูกบันทึกเพียงเพราะเราไม่จำเป็นต้องติดตามสิ่งที่เป็นไปไม่ได้ ฉันได้รับใบสั่งจากการขับรถเร็วจำนวนเท่าไหร่ขณะนั่งรถบัส ข้อมูลนั้นน่าจะไม่มีอยู่ในชุดข้อมูล ในเมทริกซ์ของ "รูปแบบการเดินทาง" และ "ใบสั่งจากการขับรถเร็ว" มีการผสมแบบไม่สมเหตุสมผล เราอาจถือว่าข้อมูลนั้นไม่มีอยู่จริง
เมื่อค่า Null มีความหมาย
ต้องใช้ความรู้เกี่ยวกับข้อมูลจึงจะระบุได้ว่าไม่ทราบค่า Null จริงหรือไม่ (ขาดข้อมูลสำหรับจำนวนใบสั่งจากการขับรถเร็ว) หรือแสดงข้อมูลที่ไม่มีอยู่จริง (ขาดข้อมูลเกี่ยวกับใบสั่งการการขับรถเร็วในฐานะผู้โดยสารรถประจำทาง) ข้อมูลมีความน่าเชื่อถือเพียงพอหรือไม่ที่การขาดข้อมูลสามารถถือเป็นข้อมูลที่ไม่มีอยู่จริงแทนที่จะเป็นข้อมูลที่ขาดหายไป เมื่อนำความเชี่ยวชาญเฉพาะเรื่องไปใช้ ค่า Null ก็มีความหมายได้
เมื่อดูที่ตาราง Abcs อีกครั้ง เราสามารถวิเคราะห์ช่องว่างโดยไม่ต้องมีตัวยึดตำแหน่ง เราจะถือว่าข้อมูลนี้มีความน่าเชื่อถือและเป็นค่า Null หมายความว่าข้อมูลนั้นไม่มีอยู่จริงแทนที่จะไม่สมบูรณ์
การขาดตัวยึดตำแหน่งหมายความว่าผู้เขียนเกิดในปีนั้น (จึงมีแถวอยู่) และหนังสือถูกตีพิมพ์ในปีนั้น (จึงมีคอลัมน์อยู่) แต่หนังสือที่ตีพิมพ์ไม่ได้เขียนโดยผู้เขียนที่เกิดในปีนั้น (ดังนั้น เซลล์จึงว่างเปล่า) เราสามารถกำหนดป้ายกำกับให้กับพื้นที่ว่างนั้นได้อย่างมีความหมาย: ไม่มีการตีพิมพ์ เราสามารถวิเคราะห์ค่า Null เหล่านั้นได้ ตัวอย่างเช่น สำหรับวันที่ในข้อมูล ผู้เขียนแต่ละคนไม่ได้จัดพิมพ์หนังสือเป็นเวลากี่ปี
หมายเหตุ: ยังมีช่องว่างในโดเมนของวันเกิดอีกด้วย ไม่มีผู้แต่งเกิดในปี 2131 หรือ 2132 ดังนั้น ปีจึงเริ่มจาก 2130 ถึง 2133 (ไม่มีแถวสำหรับ 2131 และ 2132) ปีที่หายไปเหล่านี้สามารถแปลได้ว่า "ไม่มีหนังสือในชุดข้อมูลนี้มีผู้เขียนเกิดในปีนั้น" อย่างไรก็ตาม ดังที่ได้กล่าวไว้ข้างต้นเมื่อพูดถึงโดเมนของฟิลด์วันที่ ความจริงที่ว่ามีค่าที่ขาดหายไปในโดเมนนั้นเป็นข้อมูลสำคัญที่ต้องพิจารณาเมื่อสร้างความสัมพันธ์หรือเลือกฟิลด์ที่จะใช้สำหรับส่วนหัวหรือแกนในการแสดงเป็นภาพ
หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับการทำงานกับค่า Null ในความสัมพันธ์ โปรดดู โพสต์ในบล็อกนี้(ลิงก์จะเปิดในหน้าต่างใหม่)
แบบฝึกหัดปฏิบัติจริง
เขียนชื่อสำหรับแต่ละการแสดงเป็นภาพ คุณอธิบายสิ่งที่เกิดขึ้นด้วยภาษาง่ายๆ ได้ไหม ดาวน์โหลดเวิร์กบุ๊กเพื่อสำรวจการแสดงเป็นภาพแบบสด (เวิร์กบุ๊กนี้ใช้ชุดข้อมูลร้านหนังสือเวอร์ชันที่ปรับแต่งเล็กน้อย และใช้เพียงสองตารางเท่านั้น ฟิลด์วันที่ได้รับการปรับปรุงเพื่อให้สามารถใช้เป็นฟิลด์ที่เกี่ยวข้องได้)
หากต้องการอ่านเมทริกซ์ของการแสดงเป็นภาพ:
- แถบแสดงจำนวนรุ่น (สีม่วง) และจำนวนรางวัล (สีเขียว) ต่อปี
- แต่ละคอลัมน์มีฟิลด์วันที่ที่แตกต่างกันสำหรับแกน คอลัมน์ทางซ้ายคือปีที่พิมพ์จากตารางเวอร์ชันแก้ไข คอลัมน์กลางคือปีที่ชนะจากตารางรางวัล และคอลัมน์ทางขวามือคือฟิลด์จากการคำนวณที่ใช้วันที่ตีพิมพ์ แต่ถ้าฟิลด์นั้นเป็นค่า Null ให้ใช้ปีที่ชนะ (การคำนวณนี้ใช้เพื่อให้แน่ใจว่าทั้งสองโดเมนแสดงโดยสมบูรณ์)
- แต่ละแถวมีความสัมพันธ์ที่แตกต่างกันสำหรับวิธีการรวมตารางรางวัลและเวอร์ชันแก้ไข แถวบนสุดสัมพันธ์กับตารางบนรหัสหนังสือ, แถวกลางสัมพันธ์กับปี และแถวล่างสุดเกี่ยวข้องกับทั้ง รหัสหนังสือและปี
- แถบสำหรับปี 2183 หนาขึ้นเพื่อให้เปรียบเทียบได้ง่ายขึ้น ในวิธีแก้ปัญหาด้านล่าง นั่นคือปีที่มีการพิจารณาค่าโดยละเอียด
- โปรดทราบว่าการแสดงเป็นภาพที่แรเงาทั้งสองรายการนั้นมีค่าเหมือนกัน
ถ้าคุณติดขัด
สำรวจแต่ละส่วนของการแสดงเป็นภาพทีละขั้นตอน ดูโครงสร้างแหล่งข้อมูล แกน และส่วนหัว และฟิลด์ที่ใช้สำหรับเครื่องหมาย (และตารางที่ได้มา) คิดเกี่ยวกับค่า Null และเหตุใดจึงอาจอยู่ที่นั่น ดูข้อมูลสำหรับเครื่องหมายเฉพาะหรือสองรายการเพื่อดูว่ามีบันทึกใดบ้าง
- แหล่งข้อมูลเป็นรางวัลที่เกี่ยวข้องกับเวอร์ชันแก้ไขในรหัสหนังสือ
- แกนวันที่คือปีที่พิมพ์
- ค่าต่างๆ ได้แก่ จำนวนรางวัลและจำนวนฉบับแก้ไข
พยายามเลือกเครื่องหมายเดียวในการแสดงเป็นภาพและกำหนด สำหรับปี 2183 พบว่ามีจำนวนฉบับแก้ไขอยู่ที่ 7 และรางวัลอยู่ที่ 3 ใช้ดูข้อมูลเบื้องหลังเพื่อตรวจสอบว่าบันทึกใดบ้างที่แสดงในแต่ละเครื่องหมาย
รุ่น
รางวัล
เมื่อรวมกันแล้วสิ่งนี้สามารถแปลได้ว่า "คืนหนังสือเจ็ดเล่มที่ตีพิมพ์ในปี 2183 จากนั้นสำหรับหนังสือเหล่านั้น ให้ระบุรางวัลที่ได้รับโดยไม่คำนึงว่าได้รับรางวัลเมื่อใด” TM925 ได้รับการตีพิมพ์ครั้งแรกในปี 2179 และฉบับปกแข็งได้รับรางวัลสองรางวัลในปีนั้น ในปี 2183 มีการจัดพิมพ์หนังสือเวอร์ชันอื่น บางทีอาจจะเป็นปกอ่อน มูลค่าของจำนวนรางวัลจะผูกติดอยู่กับหนังสือ ไม่ใช่ปี
ดังนั้น ภาพรวมทั้งหมดจึงสามารถแปลได้ว่า “จำนวนฉบับที่ตีพิมพ์ในแต่ละปี และจำนวนหนังสือที่ตีพิมพ์ในปีนั้นได้รับรางวัลจำนวนเท่าใด” หรือ “จำนวนฉบับที่ตีพิมพ์ในแต่ละปี และจำนวนรางวัลที่หนังสือเหล่านั้นได้รับรางวัล”
ปี 2183 ซึ่งเป็นปีที่มีความหนามากขึ้น เป็นปีที่เน้นไปที่การแปล ข้อมูลเกี่ยวกับรุ่นต่างๆ จะเป็นสีม่วงและข้อมูลเกี่ยวกับรางวัลจะเป็นสีเขียว ปี 2187 มีชื่ออยู่ในคำอธิบายด้วย เพราะเป็นปีที่ไม่ได้รับรางวัลแต่หนังสือถูกตีพิมพ์ ด้วยเหตุนี้ จึงเป็นภาพประกอบที่ดีของพลังของฟิลด์วันที่ที่ใช้สำหรับแกน ความแตกต่างนี้เป็นสีน้ำเงินในคำอธิบาย ความสำคัญของฟิลด์ที่ใช้ในการสร้างความสัมพันธ์จะออกมาเป็นสีชมพู
ภาพนี้จัดทำขึ้นเพื่อความสะดวกของคุณ แต่ประสบการณ์ที่ดีกว่าอาจเป็นการดาวน์โหลดเวิร์กบุ๊กและเปิดใน Tableau Desktop 2020.2 ขึ้นไป เพื่อให้คุณสามารถใช้การโต้ตอบ เช่น คำแนะนำเครื่องมือและดูข้อมูล หากคุณต้องการดูชีตให้ละเอียดยิ่งขึ้น คุณสามารถคลิกขวาที่แท็บแดชบอร์ดใดก็ได้ที่ด้านล่างแล้วเลือกเลิกซ่อนชีตทั้งหมด การดำเนินการนี้จะทำให้การแสดงเป็นภาพแต่ละรายการพร้อมใช้งาน และจากแต่ละชีต คุณจะเห็นแผงข้อมูลและสภาพแวดล้อมการเขียน รวมถึงฟิลด์ใดที่อยู่บนแถบ โปรดทราบว่าเพื่อให้บรรลุความสัมพันธ์ที่แตกต่างกันสามประการ (แถวของเมทริกซ์ด้านบน) มีแหล่งข้อมูลที่แตกต่างกัน 3 แห่ง
แหล่งข้อมูลที่เกี่ยวข้อง
รู้สึกเหมือนจมทะเลข้อมูลและต้องการถอยหลังสักก้าวใช่ไหม ลอง อย่ากลัวความสัมพันธ์
พร้อมจัดการกับการคำนวณด้วยความสัมพันธ์แล้วใช่ไหม โปรดดู อย่ากลัวการคำนวณความสัมพันธ์
หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับการสนับสนุนทางเทคนิคของความสัมพันธ์จากทีมการจัดการผลิตภัณฑ์โดยตรง โปรดดู ชุดข้อมูลเกี่ยวกับความสัมพันธ์ในบล็อก Tableau
- ความสัมพันธ์ ตอนที่ 1: แนะนำการสร้างแบบจำลองข้อมูลใหม่ใน Tableau(ลิงก์จะเปิดในหน้าต่างใหม่)
- ความสัมพันธ์ ตอนที่ 2: คำแนะนำและเคล็ดลับ(ลิงก์จะเปิดในหน้าต่างใหม่)
- ความสัมพันธ์ ตอนที่ 3: การถามคำถามในตารางที่เกี่ยวข้องหลายตาราง(ลิงก์จะเปิดในหน้าต่างใหม่)
และดูวิดีโอพอดคาสต์เกี่ยวกับความสัมพันธ์จากการวิเคราะห์การดำเนินการ(ลิงก์จะเปิดในหน้าต่างใหม่) เช่น เหตุใด Tableau จึงคิดค้น "ความสัมพันธ์" ขึ้น(ลิงก์จะเปิดในหน้าต่างใหม่) คลิก "วิดีโอพอดคาสต์" ในไลบรารี(ลิงก์จะเปิดในหน้าต่างใหม่)เพื่อดูเพิ่มเติม