วิธีการทำงานของ “อธิบายข้อมูล”
ใช้ “อธิบายข้อมูล” เป็นจุดเริ่มต้นกิจกรรมที่มีลักษณะเพิ่มขึ้นเรื่อยๆ สำหรับการสำรวจข้อมูลของคุณให้ลึกซึ้งมากขึ้น การอธิบายที่เป็นไปได้ที่ระบบสร้างขึ้นจะช่วยให้คุณเห็นค่าต่างๆ ที่สร้างหรือเกี่ยวข้องกับเครื่องหมายที่วิเคราะห์ในมุมมอง ซึ่งจะอธิบายคุณลักษณะของจุดข้อมูลในแหล่งข้อมูล และความสัมพันธ์ (สหสัมพันธ์) ของข้อมูลต่างๆ โดยใช้การสร้างแบบจำลองทางสถิติ การอธิบายเหล่านี้เป็นเครื่องมืออีกอย่างสำหรับการสืบสวนข้อมูลของคุณและค้นพบเบาะแสที่น่าสนใจเกี่ยวกับสิ่งที่ต้องสำรวจต่อไป
หมายเหตุ “อธิบายข้อมูล” เป็นเครื่องมือที่เปิดเผยและอธิบายความสัมพันธ์ระหว่างข้อมูลของคุณ ระบบไม่สามารถบอกสาเหตุที่ทำให้เกิดความสัมพันธ์หรือวิธีการแปลข้อมูล คุณคือผู้เชี่ยวชาญในข้อมูลของคุณ ความรู้ความเข้าใจในโดเมนของคุณเป็นกุญแจสำคัญที่จะช่วยให้คุณตัดสินใจได้ว่าคุณควรสำรวจคุณลักษณะที่น่าสนใจใดต่อไปโดยใช้มุมมองต่างๆ
หากต้องการข้อมูลเกี่ยวกับวิธีการทำงานของ “อธิบายข้อมูล” และวิธีใช้ “อธิบายข้อมูล” เพื่อเสริมการวิเคราะห์ของคุณ โปรดดูการนำเสนอข้อมูลจากงานประชุมของ Tableau ดังต่อไปนี้
“อธิบายข้อมูล” คืออะไร (และไม่ใช่อะไร)
“อธิบายข้อมูล” คือสิ่งต่อไปนี้
- เครื่องมือและเวิร์กโฟลว์ที่ใช้ประโยชน์จากความเชี่ยวชาญในโดเมนของคุณ
- เครื่องมือที่เผยให้เห็นความสัมพันธ์ในข้อมูลของคุณและแนะนำสิ่งที่ควรได้รับความสนใจต่อไป
- เครื่องมือและเวิร์กโฟลว์ที่ช่วยเร่งการวิเคราะห์ข้อมูลและเพิ่มจำนวนของผู้ใช้ที่สามารถเข้าถึงการวิเคราะห์ข้อมูลได้
“อธิบายข้อมูล” ไม่ใช่สิ่งต่อไปนี้
- เครื่องมือทดสอบเชิงสถิติ
- เครื่องมือพิสูจน์หรือหักล้างสมมติฐาน
- เครื่องมือที่ให้คำตอบแก่คุณหรือบอกคุณเกี่ยวกับความสัมพันธ์ระหว่างเหตุและผลในข้อมูลของคุณ
เมื่อใช้งาน “อธิบายข้อมูล” กับเครื่องหมายต่างๆ โปรดคำนึงถึงประเด็นต่อไปนี้
ใช้ข้อมูลละเอียดที่สามารถนำไปรวมกันได้ ฟีเจอร์นี้ได้รับการออกแบบมาเพื่อวิเคราะห์ข้อมูลรวมโดยเฉพาะ ซึ่งหมายความว่าข้อมูลของคุณต้องเป็นข้อมูลละเอียด แต่เครื่องหมายที่คุณเลือกให้กับ “อธิบายข้อมูล” ต้องเป็นข้อมูลรวมหรือข้อมูลสรุปที่มีระดับของรายละเอียดสูงกว่า “อธิบายข้อมูล” ไม่สามารถทำงานบนเครื่องหมายแบบไม่รวมได้ (ข้อมูลระดับแถว) ซึ่งมีระดับของรายละเอียดที่ละเอียดที่สุด
คำนึงถึงรูปร่าง ขนาด และความสัมพันธ์เชิงตัวเลขระหว่างแถวในตารางต่างๆ ของข้อมูลของคุณ แม้ว่าคุณจะใช้ “อธิบายข้อมูล” กับชุดข้อมูลขนาดเล็กได้ แต่ข้อมูลนั้นต้องกว้างและมีเครื่องหมาย (ความละเอียด) มากพอที่จะสร้างแบบจำลองได้
อย่าคาดเดาความสัมพันธ์ระหว่างเหตุและผล สหสัมพันธ์ไม่ใช่ความสัมพันธ์ระหว่างเหตุและผล การอธิบายสร้างขึ้นตามแบบจำลองของข้อมูล แต่ไม่ได้เป็นการอธิบายสาเหตุ
สหสัมพันธ์แสดงความสัมพันธ์ที่มีอยู่ระหว่างตัวแปรข้อมูลบางตัว เช่น A และ B แต่คุณบอกไม่ได้ว่าความสัมพันธ์ในข้อมูลนั้นคือ A เป็นเหตุให้เกิด B หรือ B เป็นเหตุให้เกิด A หรือจริงๆ แล้วอาจเกิดสิ่งที่ซับซ้อนกว่านั้น รูปแบบของข้อมูลจะเหมือนกันทุกประการในทุกกรณีและอัลกอริทึมจะบอกความแตกต่างระหว่างแต่ละกรณีไม่ได้ การที่ตัวแปรสองตัวดูเหมือนว่าจะเปลี่ยนไปพร้อมๆ กันไม่ได้หมายความว่าตัวแปรหนึ่งเป็นเหตุให้อีกตัวแปรหนึ่งเกิดการเปลี่ยนแปลงเสมอไป อาจมีปัจจัยที่สามที่เป็นเหตุให้ตัวแปรทั้งสองเปลี่ยนไป หรืออาจเป็นเรื่องบังเอิญที่ไม่มีความสัมพันธ์ระหว่างเหตุและผลใดๆ เลย
อย่างไรก็ตาม คุณอาจมีความรู้มาจากที่อื่นว่าข้อมูลไม่ได้ช่วยบอกคุณได้เลยว่าเกิดอะไรขึ้น ประเภททั่วไปของความรู้จากที่อื่นอาจเป็นสถานการณ์ที่มีการรวบรวมข้อมูลไว้ในการทดลอง หากคุณทราบว่าคุณเลือก B โดยการทอยเหรียญ รูปแบบที่คงที่ของความแตกต่างใน A (ที่ไม่ได้เป็นแค่ข้อมูลรบกวนแบบสุ่ม) อาจเกิดขึ้นจาก B หากต้องการการอธิบายที่ยาวกว่าและละเอียดกว่าของแนวคิดเหล่านี้ โปรดดูบทความ การอนุมานเหตุและผลในเศรษฐศาสตร์และการตลาด(ลิงก์จะเปิดในหน้าต่างใหม่) ของ Hal Varian
การทำงานของการวิเคราะห์และการประเมินการอธิบาย
“อธิบายข้อมูล” จะเรียกใช้การวิเคราะห์ทางสถิติบนแดชบอร์ดหรือชีตเพื่อค้นหาเครื่องหมายที่เป็นค่าผิดปกติ หรือเฉพาะบนเครื่องหมายที่คุณเลือก นอกจากนี้การวิเคราะห์ยังพิจารณาถึงจุดข้อมูลที่อาจเกี่ยวข้องจากแหล่งข้อมูลที่ไม่ได้แสดงในมุมมองปัจจุบันอีกด้วย
“อธิบายข้อมูล” จะคาดการณ์ค่าของเครื่องหมายก่อนโดยใช้เฉพาะข้อมูลที่ปรากฏอยู่ในการแสดงผลเท่านั้น จากนั้นระบบจะพิจารณาและเพิ่มข้อมูลที่อยู่ในแหล่งข้อมูล (แต่ไม่อยู่ในมุมมองปัจจุบัน) เข้าไปในแบบจำลอง แบบจำลองจะแสดงช่วงของค่าเครื่องหมายที่คาดการณ์ ซึ่งอยู่ภายในค่าเบี่ยงเบนมาตรฐานของค่าที่คาดการณ์
ช่วงที่คาดหวังคืออะไร
ค่าที่คาดหวังของเครื่องหมายคือค่ามัธยฐานในช่วงค่าที่คาดหวังในข้อมูลพื้นฐานที่อยู่ในการแสดงผลของคุณ ช่วงค่าที่คาดหวังคือระหว่างเปอร์เซ็นต์ไทล์ที่ 15 ถึง 85 ซึ่งแบบจำลองทางสถิติคาดการณ์สำหรับเครื่องหมายที่วิเคราะห์ Tableau กำหนดช่วงที่คาดการณ์ในแต่ละครั้งที่เรียกใช้การวิเคราะห์ทางสถิติกับเครื่องหมายที่เลือก
ระบบจะประเมินการอธิบายที่เป็นไปได้ตามความสามารถในการอธิบายโดยใช้แบบจำลองทางสถิติ สำหรับการอธิบายแต่ละรายการ Tableau จะเปรียบเทียบค่าที่คาดหวังกับค่าจริง
ค่า | คำอธิบาย |
---|---|
สูงกว่าที่คาด/ต่ำกว่าที่คาด | หากสรุปค่าที่คาดหวังระบุว่าเครื่องหมาย ต่ำกว่าที่คาด หรือ สูงกว่าที่คาด แสดงว่าค่าเครื่องหมายรวมอยู่นอกช่วงค่าที่แบบจำลองทางสถิติคาดการณ์ไว้สำหรับเครื่องหมายนั้น หากสรุปค่าที่คาดหวังระบุว่าเครื่องหมาย ต่ำกว่าที่คาดเล็กน้อย หรือ สูงกว่าที่คาดเล็กน้อย หรือ อยู่ในช่วงความแปรผันตามธรรมชาติ แสดงว่าค่าเครื่องหมายรวมอยู่ในช่วงค่าเครื่องหมายที่คาดการณ์ไว้ แต่ต่ำกว่าหรือสูงกว่าค่ามัธยฐาน |
ค่าที่คาดหวัง | หากเครื่องหมายมีค่าที่คาดหวัง แสดงว่าค่านั้นอยู่ในช่วงค่าที่คาดหวังที่แบบจำลองทางสถิติคาดการณ์ไว้สำหรับเครื่องหมายนั้น |
การแปรผันแบบสุ่ม | หากเครื่องหมายที่วิเคราะห์มีจำนวนระเบียนน้อย อาจมีข้อมูลไม่เพียงพอที่จะ “อธิบายข้อมูล” และสร้างการอธิบายที่มีนัยสำคัญทางสถิติ หากค่าของเครื่องหมายอยู่นอกช่วงที่คาดหวัง “อธิบายข้อมูล” จะไม่สามารถระบุได้ว่าค่าที่คาดไม่ถึงนี้เกิดจากการแปรผันแบบสุ่มหรือเกิดจากความแตกต่างที่มีความหมายในระเบียนที่ใช้กันแน่ |
ไม่มีการอธิบาย | หากค่าเครื่องหมายที่วิเคราะห์อยู่นอกช่วงที่คาดหวังและไม่สอดคล้องกับแบบจำลองทางสถิติที่ใช้ในการ “อธิบายข้อมูล” จะไม่มีการสร้างการอธิบาย |
แบบจำลองที่ใช้ในการวิเคราะห์
“อธิบายข้อมูล” สร้างแบบจำลองของข้อมูลในมุมมองเพื่อคาดการณ์ค่าของเครื่องหมายและระบุว่าเครื่องหมายนั้นสูงกว่าหรือต่ำกว่าที่คาดไว้ในแบบจำลองนั้นๆ จากนั้น ระบบจะพิจารณาข้อมูลเพิ่มเติม เช่น เพิ่มคอลัมน์จากแหล่งข้อมูลลงไปในมุมมอง หรือระบุค่าผิดปกติระดับระเบียน ว่าเป็นการอธิบายที่เป็นไปได้ สำหรับการอธิบายที่เป็นไปได้แต่ละรายการ “อธิบายข้อมูล” จะสร้างแบบจำลองขึ้นมาใหม่และประเมินว่าเครื่องหมายจะให้ข้อมูลใหม่ที่คาดไม่ถึงได้อย่างไร ระบบจะให้คะแนนการอธิบายตามความซับซ้อนของความคุ้มค่าในการแลกเปลี่ยน (มีการเพิ่มข้อมูลจากแหล่งข้อมูลมากแค่ไหน) เมื่อเทียบกับจำนวนของความแปรผันที่ต้องอธิบาย การอธิบายที่ดีกว่าจะเรียบง่ายกว่าการแปรผันที่การอธิบายนั้นอธิบาย
ประเภทการอธิบาย | การประเมิน |
---|---|
ค่าสุดขีด | ค่าสุดขีดคือเครื่องหมายรวมที่เป็นค่าผิดปกติตามแบบจำลองของเครื่องหมายที่แสดง ระบบจะถือว่าเครื่องหมายที่เลือกมีค่าสุดขีด หากระเบียนอยู่ที่ส่วนท้ายของการแจกแจงค่าที่คาดหวังของข้อมูล ระบบจะระบุค่าสุดขีดโดยการเปรียบเทียบเครื่องหมายรวมที่มีและที่ไม่มีค่าสุดขีด หากเครื่องหมายมีค่าที่ไม่น่าตกใจเมื่อลบค่าใดค่าหนึ่งไป เครื่องหมายนั้นจะได้รับคะแนนที่สูงขึ้น การที่เครื่องหมายมีค่าสุดขีดไม่ได้หมายความว่าเครื่องหมายนั้นจะมีค่าผิดปกติโดยอัตโนมัติหรือคุณไม่ควรรวมระเบียนเหล่านั้นไว้ในมุมมอง ตัวเลือกจะขึ้นอยู่กับการวิเคราะห์ของคุณ การอธิบายเพียงแค่ชี้ให้เห็นค่าสุดขีดที่น่าสนใจในเครื่องหมายเท่านั้น ตัวอย่างเช่น ระบบอาจแสดงค่าที่พิมพ์ผิดในระเบียนว่ากล้วยราคา 10 ดอลลาร์ แทนที่จะเป็น 10 เซ็นต์ หรืออาจแสดงพนักงานขายรายหนึ่งที่ทำผลงานในไตรมาสได้ดี |
จำนวนระเบียน | จำนวนระเบียนที่การอธิบายใช้สร้างแบบจำลองของผลรวมในลักษณะของจำนวนนับรวม ค่าเฉลี่ยของระเบียนสร้างแบบจำลองในลักษณะของค่าเฉลี่ยรวม ยิ่งแบบจำลองอธิบายผลรวมได้ดีเท่าใด คะแนนก็ยิ่งสูงขึ้นเท่านั้น การอธิบายนี้จะชี้แจงว่าผลรวมน่าสนใจหรือไม่ และเป็นเพราะจำนวนที่สูงหรือต่ำ หรือเป็นเพราะค่าเฉลี่ยที่สูงหรือต่ำ |
ค่าเฉลี่ยของเครื่องหมาย | การอธิบายประเภทนี้ใช้สำหรับเครื่องหมายรวมที่รวมไว้ด้วยกัน ซึ่งจะอธิบายว่าเครื่องหมายสอดคล้องกับเครื่องหมายอื่นหรือไม่ และเป็นเพราะจำนวนนับรวมหรือค่าเฉลี่ยรวม ซึ่งจะเป็นไปตามสมการ SUM(X) = COUNT(X) * AVG(X) การอธิบายนี้จะชี้แจงว่าผลรวมน่าสนใจหรือไม่ และเป็นเพราะจำนวนที่สูงหรือต่ำ หรือเป็นเพราะค่าเฉลี่ยที่สูงหรือต่ำ |
มิติข้อมูลที่ส่งผล | การอธิบายนี้จะสร้างแบบจำลองการวัดผลเป้าหมายของเครื่องหมายที่วิเคราะห์ของข้อมูลที่แยกย่อยในหมวดหมู่ต่างๆ ของมิติข้อมูลที่ไม่ได้แสดงผล การวิเคราะห์จะสร้างความสมดุลระหว่างความซับซ้อนของแบบจำลองกับความสามารถในการอธิบายเครื่องหมาย มิติข้อมูลที่ไม่ได้แสดงเป็นภาพคือมิติข้อมูลที่มีอยู่ในแหล่งข้อมูล แต่ไม่ได้ใช้ในมุมมองในขณะนี้ การอธิบายประเภทนี้ใช้สำหรับผลรวม จำนวน และค่าเฉลี่ย ระบบจะสร้างแบบจำลองของมิติข้อมูลที่ไม่ได้แสดงผลจากการแยกส่วนเครื่องหมายตามค่าหมวดหมู่ของคอลัมน์ที่อธิบาย จากนั้นจะสร้างแบบจำลองที่มีค่าที่รวมจุดข้อมูลทั้งหมดไว้ในการแสดงผลของแหล่งข้อมูล สำหรับแต่ละแถว แบบจำลองจะพยายามกู้คืนส่วนประกอบแต่ละรายการของเครื่องหมายแต่ละเครื่องหมาย การวิเคราะห์ระบุว่าแบบจำลองคาดการณ์เครื่องหมายได้ดีกว่าหรือไม่ เมื่อระบบสร้างแบบจำลองและเพิ่มข้อมูลเข้าไปในแบบจำลองของส่วนประกอบที่สอดคล้องกับมิติข้อมูลที่ไม่ได้แสดงผล โดยเทียบกับการใช้แบบจำลองที่ไม่ทราบค่าของมิติข้อมูลที่ไม่ได้แสดงผล การอธิบายมิติข้อมูลรวมจะสำรวจว่าระบบจะอธิบายค่าเครื่องหมายได้ดีแค่ไหนหากไม่มีการกำหนดเงื่อนไข จากนั้นแบบจำลองจะกำหนดเงื่อนไขให้กับค่าในแต่ละคอลัมน์ที่เป็นการอธิบายที่เป็นไปได้ เงื่อนไขในการแจกแจงของคอลัมน์ที่ใช้อธิบายควรทำให้เกิดการคาดการณ์ที่ดีขึ้น |
การวัดผลที่ส่งผล | การอธิบายนี้สร้างแบบจำลองของเครื่องหมายในลักษณะของการวัดผลที่ไม่ได้แสดงผล ซึ่งรวมเข้ากับค่าเฉลี่ยของมิติข้อมูลที่แสดงผลทั้งหมด การวัดผลที่ไม่ได้แสดงเป็นภาพคือการวัดผลที่มีอยู่ในแหล่งข้อมูล แต่ไม่ได้ใช้ในมุมมองในขณะนี้ การอธิบาย “การวัดผลที่ส่งผล” สามารถเผยให้เห็นความสัมพันธ์เชิงเส้นหรือเชิงกำลังสองระหว่างการวัดผลที่ไม่ได้แสดงผลกับการวัดผลเป้าหมาย |