การเลือกตัวคาดการณ์
เมื่อสร้างการคำนวณการคาดการณ์โดยใช้ฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์ใน Tableau คุณจะต้องเลือกตัวคาดการณ์ เพื่อเป็นการเตือนความจำ ตัวคาดการณ์คือตัวแปรของข้อมูลที่ป้อนและมีค่าที่ใช้คาดการณ์ตัวแปรผลลัพธ์ หรือที่เรียกว่าเป้าหมายหรือการตอบสนอง บ่อยครั้งที่คุณจะทำงานกับข้อมูลที่คุณมีความรู้ครอบคลุมเกี่ยวกับโดเมนและจะทราบดีว่าฟิลด์ใดที่มีความสัมพันธ์อย่างมากกับเป้าหมายการคาดการณ์และจะเป็นตัวคาดการณ์ที่ดี อย่างไรก็ตาม ยังคงเป็นความคิดที่ดีที่จะใช้เวลาในการประเมินตัวคาดการณ์และตรวจสอบว่าคุณเลือกตัวคาดการณ์อย่างชาญฉลาด คุณจะต้องใช้ตัวคาดการณ์อย่างน้อยหนึ่งตัวเสมอ และมักจะมีมากกว่าหนึ่งตัว
ให้เลือกเป้าหมายของคุณก่อน ดูเหมือนจะชัดเจนแต่การตรวจสอบว่าคุณกำลังเลือกจัวคาดการณ์ตามสิ่งที่คุณต้องการคาดการณ์เป็นขั้นตอนแรกที่สำคัญอย่างยิ่ง ตัวอย่างเช่น ฟิลด์ที่มีความสัมพันธ์มากที่สุดกับอายุคาดเฉลี่ยของเพศหญิงอาจแตกต่างจากฟิลด์ที่มีความสัมพันธ์มากที่สุดกับอายุคาดเฉลี่ยของเพศชาย ในทำนองเดียวกัน ฟิลด์ที่มีความสัมพันธ์มากที่สุดกับยอดขายอาจแตกต่างจากฟิลด์ที่มีความสัมพันธ์มากที่สุดกับผลกำไร
สิ่งที่ต้องพึงระลึกไว้อีกอย่างก็คือโดยค่าเริ่มต้นฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์ใช้การถดถอยเชิงเส้นเป็นแบบจำลองทางสถิติพื้นฐาน ด้วยแบบจำลองนี้ ตัวคาดการณ์ที่สัมพันธ์กันมากที่สุดคือตัวคาดการณ์ที่มีความสัมพันธ์เชิงเส้นกับเป้าหมาย หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับแบบจำลองที่รองรับอื่นๆ โปรดดูการเลือกแบบจำลองแบบคาดการณ์
เพื่อทำความเข้าใจวิธีการเลือกตัวคาดการณ์ที่ดีที่สุดสำหรับคำถามที่คุณต้องการจะตอบ เรามาดูกันที่ข้อมูลอายุคาดเฉลี่ยของเพศหญิง หากต้องการปฏิบัติตามคำแนะนำ โปรดดาวน์โหลดเวิร์กบุ๊กต่อไปนี้จาก Tableau Public: การเลือกตัวคาดการณ์สำหรับการคาดการณ์ของคุณ
การวัดผลในฐานะตัวคาดการณ์
เมื่อใช้การวัดผลเป็นตัวคาดการณ์ คุณสามารถประเมินความสัมพันธ์กับเป้าหมายของคุณโดยใช้ Tableau ได้ วิธีหนึ่งคือการสร้างแผนภาพการกระจาย ด้านล่างนี้เราเปรียบเทียบค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิงของประเทศใดประเทศหนึ่งกับการวัดผลอื่นๆ
สำหรับการวัดผลบางอย่าง เช่น อัตราการเสียชีวิตของทารกและอัตราการเกิด มีความสัมพันธ์เชิงลบที่ชัดเจนกับอายุคาดเฉลี่ยของเพศหญิงตามที่เห็นในความลาดชันเชิงลบของแผนภาพการกระจาย สำหรับการวัดผลอื่นๆ จะมีความชัดเจนน้อยกว่า อย่างไรก็ตาม สิ่งหนึ่งที่เราเห็นได้อย่างชัดเจนคือการแจกแจงแบบรูปตัว L ของค่ามัธยฐาน GDP, ค่ามัธยฐานการใช้โทรศัพท์มือถือและค่ามัธยฐานค่าใช้จ่ายด้านสุขภาพต่อหัว การแจกแจงรูปตัว L นี้มักบ่งชี้ว่าการใช้การเปลี่ยนแปลงบันทึกจะช่วยให้คุณวิเคราะห์ข้อมูลของคุณได้แม่นยำยิ่งขึ้น ข้อบ่งชี้อีกประการหนึ่งคือว่าหากเป็นทั้งหมด ค่าของคอลัมน์จะเป็นบวก ใน Tableau คุณสามารถใช้การเปลี่ยนแปลงบันทึกโดยการแก้ไขฟิลด์และใส่นิพจน์ในฟังก์ชัน LOG:
ฟังก์ชันนี้ช่วยนำเราจากการกระจายรูปตัว L ซึ่งยากที่จะแยกความแตกต่างระหว่างสุดโต่งของขนาดค่าสูงสุดของสเกล ไปสู่การแจกแจงที่สม่ำเสมอยิ่งขึ้นซึ่งบีบอัดน้อยลงโดยสุดค่าสูงสุดของมาตราส่วน
การทำซ้ำด้วยการกระจายตัวรูปตัว L อื่นจะให้สิ่งต่อไปนี้แก่เรา:
ค่าสัมประสิทธิ์ของการกำหนดหรือค่า R-squared
ยิ่งเครื่องหมายใกล้เคียงกับการขนาบบนเส้นตรงมากเท่าไหร่ ความสัมพันธ์ระหว่างสองการวัดผลก็ยิ่งสูงขึ้นเท่านั้น เพื่อช่วยประเมินความสัมพันธ์ คุณสามารถเพิ่มเส้นแนวโน้มได้ จากแผงวิเคราะห์ลากเส้นแนวโน้มเข้าสู่มุมมองและวางลงบนเส้นตรง การวางเคอร์เซอร์เหนือเส้นแนวโน้มจะบอกค่า R-squared หรือค่าสัมประสิทธิ์ของการกำหนด ซึ่งบ่งชี้ว่าตัวแปรที่ขึ้นอยู่กับ (เป้าหมาย) ได้รับการอธิบายโดยตัวแปรอิสระ (ตัวคาดการณ์) ตัวคาดการณ์ที่มีค่า R-squared ใกล้เคียงกับ 1 จะดีกว่าตัวคาดการณ์ที่มีค่า R-squared ใกล้เคียงกับ 0
เมื่อดูที่แผนภาพการกระจายของเรา จะเห็นได้ว่าตัวคาดการณ์ที่ดีที่สุดสำหรับค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิงคือค่ามัธยฐานของอัตราการเสียชีวิตของทารกซึ่งมีค่า R-squared เท่ากับ 0.87:
ตัวคาดการณ์ที่ดีอื่นๆ คือ ค่ามัธยฐานของอัตราการเสียชีวิต (R-squared = 0.76) และการเปลี่ยนแปลงบันทึกของค่ามัธยฐานของค่าใช้จ่ายด้านสุขภาพ/ต่อหัว (R-squared = 0.56)
ในภาพด้านล่าง เราได้แสดงภาพค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิงกับค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิง โดยการแสดงเป็นภาพที่ได้เป็นเส้นตรงสมบูรณ์บนมุม 45 °: ตามที่คาดไว้มีความสัมพันธ์ที่สมบูรณ์แบบระหว่างค่าบนแกน x และค่าบนแกน y ที่มีค่า R-squared เป็น 1:
อย่างไรก็ตาม จากที่แสดงด้านล่างแม้ว่า LOG(MEDIAN([GDP])) จะมีเส้นแนวโน้มที่ลาดชันกว่าเส้นอื่นๆ แต่ก็มีคะแนน R-squared ต่ำเพียง 0.169 เนื่องจากมาตราส่วนของแกน x สำหรับหน้าต่างนั้น:
นอกจากนี้ มาดูกันว่าเครื่องหมายบางอย่างมีผลต่อความชันของเส้นแนวโน้มได้อย่างไร เมื่อซูมไปที่แผนภาพการกระจายสำหรับค่ามัธยฐานของอัตราภาษีธุรกิจ เราจะเห็นว่าเครื่องหมายส่วนใหญ่มีอัตราภาษีระหว่าง 0 ถึงประมาณ 1 โดยมีหกประเทศที่มีอัตราภาษีสูงกว่ามากคือระหว่าง 2 ถึง 3 ค่า R-squared สำหรับเครื่องหมายทั้งหมดคือ 0.0879:
อย่างไรก็ตาม มาดูกันว่าจะเกิดอะไรขึ้นหากนำคลัสเตอร์ของเครื่องหมายทั้งหกออก:
เส้นแนวโน้มเกือบจะราบเรียบและค่า R-squared ลดลงเหลือ 0.0006 ซึ่งบ่งชี้ว่าไม่มีความสัมพันธ์ระหว่างค่ามัธยฐานของอัตราภาษีธุรกิจและอายุคาดเฉลี่ยของเพศหญิง ในขณะที่แสดงข้อมูลของคุณเป็นภาพและใช้วิธีการทางสถิติที่ดีในการเลือกตัวคาดการณ์ คุณจำเป็นต้องพิจารณาอย่างรอบคอบว่ามีค่าผิดปกติหรือลักษณะข้อมูลอื่นๆ ที่อาจส่งผลกระทบต่อข้อสรุปของคุณหรือไม่
มิติข้อมูลเป็นตัวคาดการณ์
เมื่อใช้มิติข้อมูลเป็นตัวทำนาย คุณสามารถใช้ขั้นตอนที่คล้ายกันเพื่อกำหนดความสัมพันธ์ อย่างไรก็ตาม คุณอาจพบว่ามีความแตกต่างอย่างมากระหว่างมิติข้อมูลที่แตกต่างกันในระดับความสัมพันธ์กับเป้าหมาย ตัวอย่างเช่น เมื่อแยกย่อยตามภูมิภาค ภูมิภาคหนึ่งอาจเป็นตัวคาดการณ์ที่ดีมากสำหรับเป้าหมายแต่อีกภูมิภาคหนึ่งอาจมีความสัมพันธ์ที่น้อยกว่าอย่างมีนัยสำคัญ ซึ่งไม่ได้หมายความว่าคุณไม่ควรใช้มิติข้อมูลนั้นเป็นตัวคาดการณ์ แต่คุณอาจต้องพิจารณาว่าการใช้การวัดผลหรือมิติข้อมูลเพิ่มเติมจะช่วยปรับปรุงแบบจำลองของคุณหรือไม่ และในทางกลับกันการคาดการณ์ของคุณด้วย
เนื่องจากเราได้กำหนดตัวคาดการณ์ที่ดีที่สุดสำหรับชุดข้อมูลของเราคือค่ามัธยฐานของการเสียชีวิตของทารก ค่ามัธยฐานของอัตราการเกิด และการเปลี่ยนแปลงของบันทึกของค่ามัธยฐานของค่าใช้จ่ายด้านสุขภาพ/ต่อหัวลอง ลองจำกัดการแสดงเป็นภาพไว้ที่สามตัวแปรเหล่านี้:
ถัดไปเรามาแบ่งขอบเขตข้อมูลโดยการเพิ่มภูมิภาคลงใน “สี” บนการ์ดเครื่องหมายและดูว่าเกิดอะไรขึ้นกับการแสดงเป็นภาพ:
การเปรียบเทียบค่า R-squared ระหว่างตัวคาดการณ์
ลองสำรวจวิธีเปรียบเทียบค่า R-squared กับเส้นแนวโน้มของแต่ละภูมิภาคสำหรับตัวคาดการณ์แต่ละตัว:
ในตารางดังกล่าว ค่า R-squared ที่ต่ำสุดสำหรับตัวคาดการณ์แต่ละตัวจะไฮไลต์ด้วยสีแดงและต่ำสุดรองลงมาเป็นสีเหลือง
ยุโรปมีค่า R-squared ต่ำสุดสำหรับค่ามัธยฐานของอัตราการเสียชีวิตของทารกและค่ามัธยฐานของอัตราการเกิดของทารก และแอฟริกามีค่า R-squared ต่ำสุดสำหรับการเปลี่ยนแปลงบันทึกเกี่ยวกับค่ามัธยฐานของค่าใช้จ่ายด้านสุขภาพ/ต่อหัว (ไฮไลต์สีแดง) แอฟริกายังมีค่า R-squared ที่ต่ำกว่าสำหรับทั้งค่ามัธยฐานของอัตราการเสียชีวิตของทารกและค่ามัธยฐานของอัตราการเกิด
การเพิ่มมิติข้อมูลจะช่วยให้แบบจำลองมีข้อมูลมากขึ้นและการเพิ่มข้อมูลจะช่วยปรับปรุงคุณภาพของการคาดการณ์ อย่างไรก็ตาม ภายในการแยกย่อยที่กำหนด (ภูมิภาคในกรณีนี้) คุณภาพการคาดการณ์อาจดีขึ้นหรือลดลง ในบางกรณี คุณอาจต้องการสร้างแต่ละแบบจำลองสำหรับการแยกย่อยแต่ละรายการตามการวัดผลที่เป็นตัวคาดการณ์ที่ดีที่สุดสำหรับกลุ่มเฉพาะนั้นๆ
ในกรณีนี้ อัตราการเสียชีวิตของทารกมีความสัมพันธ์ที่แข็งแกร่งพอสมควรกับอายุคาดเฉลี่ยของเพศหญิงในทุกภูมิภาค แม้ว่าจะค่อนข้างอ่อนแอในแอฟริกาและยุโรปก็ตาม ค่ามัธยฐานของอัตราการเกิดเป็นตัวคาดการณ์ที่ดีสำหรับโอเชียเนียและเอเชียแต่เกือบจะไม่มีความสัมพันธ์กับอายุคาดเฉลี่ยของเพศหญิงในยุโรป และการเปลี่ยนแปลงบันทึกของค่ามัธยฐานของค่าใช้จ่ายด้านสุขภาพเป็นตัวคาดการณ์ที่สมเหตุสมผลสำหรับทุกภูมิภาคยกเว้นแอฟริกา เราสามารถคาดหวังได้ว่าแบบจำลองที่สร้างขึ้นด้วยตัวคาดการณ์ทั้งสี่ตัว (อัตราการเสียชีวิตของทารก อัตราการเกิด บันทึก (ค่าใช้จ่ายด้านสุขภาพ) และภูมิภาค) จะมีการคาดการณ์ที่แม่นยำน้อยสำหรับประเทศในยุโรปและแอฟริกา เราอาจเจาะลึกลงไปในข้อมูลเพื่อดูว่ามีตัวคาดการณ์เพิ่มเติมหรือตัวคาดการณ์ทางเลือกที่ใช้เพื่อสร้างแบบจำลองที่เหมาะสมมากกว่าสำหรับยุโรปและแอฟริกา
สร้างฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์ของคุณ
ตอนนี้เราได้ค้นพบตัวคาดการณ์ที่ดีแล้ว เราสามารถสร้างและใช้ฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์เพื่อดูในการใช้งานจริงได้
เปิดเมนูการวิเคราะห์ที่ด้านบน จากนั้นเลือกสร้างฟิลด์ที่คำนวณ
ในตัวแก้ไขการคำนวณ ให้ตั้งชื่อการคำนวณและทำดังนี้:
ตั้งชื่อการคำนวณ: Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region
ป้อนสูตรต่อไปนี้:
MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
LOG(MEDIAN([Health Exp/Capita])),
MEDIAN([Birth Rate]),
MEDIAN([Infant Mortality Rate]),
ATTR([Region]))
การคำนวณนี้จะแสดงค่ามัธยฐาน (0.5) ของช่วงค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิงตามแบบจำลองโดยอิงตามตัวคาดการณ์ที่เราเลือก: ค่าใช้จ่ายด้านสุขภาพ อัตราการเกิดอัตราการเสียชีวิตของทารก และภูมิภาค
ถัดไป ลองสร้างแผนภาพกระจายที่แสดงทั้งค่ามัธยฐานจริงของอายุคาดเฉลี่ยของเพศหญิงและค่ามัธยฐานที่คาดการณ์ของอายุคาดเฉลี่ยของเพศหญิง:
เยี่ยมเลย! การคาดการณ์ค่อนข้างสอดคล้องกับค่าจริงสำหรับแต่ละภูมิภาค
แต่ลองทำอีกครั้งเพื่อดูว่าการคาดการณ์อยู่ไกลที่สุดจากเครื่องหมายที่จุดใด สร้างการคำนวณอีกวิธีดังนี้: called Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region
MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
การคำนวณที่เหลือนี้จะแสดงผลต่างระหว่างค่ามัธยฐานที่คาดการณ์ไว้และค่ามัธยฐานจริง ซึ่งจะช่วยให้เราเห็นประเทศที่มีความแตกต่างมากที่สุดระหว่างค่ามัธยฐานจริงและคาดการณ์ของอายุคาดเฉลี่ยของเพศหญิง
ถัดไปลองใช้การคำนวณที่เหลือนี้กับสี:
คุณสามารถดูได้ในการแสดงเป็นภาพข้างต้นว่าประเทศส่วนใหญ่ในภูมิภาคส่วนใหญ่มีความแตกต่างต่ำระหว่างการคาดการณ์และค่าจริง แอฟริกาเป็นภูมิภาคที่มีจำนวนประเทศมากที่สุดที่มีความแตกต่างอย่างมีนัยสำคัญ แต่ลองทำอีกครั้งเพื่อดูว่าเรากำลังมองหาความแตกต่างแบบไหน
คุณจะเห็นว่าช่วงความแตกต่างอยู่ระหว่าง -17 และ +9 ดังนั้นลองแบ่งการแสดงเป็นภาพออกเป็นกลุ่มที่มีความแตกต่างน้อยกว่า ±3 ปี ความแตกต่างน้อยกว่า ±5 ปี ความแตกต่างน้อยกว่า ±10 ปี และความแตกต่างมากกว่า ±10 ปี
สร้างการคำนวณอีกวิธีดังนี้: Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region
IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
<= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
>= -3
THEN
"±3"
ELSEIF
[Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN
"±5"
ELSEIF
[Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN
"±10"
ELSE
"> ±10"
END
ลองเพิ่มการคำนวณในสีอีกครั้ง:
สังเกตว่าการคาดการณ์ส่วนใหญ่ไม่ถูกต้องน้อยกว่า 3 ปีและมีเพียงไม่กี่รายการที่มีประโยชน์โดยมากกว่า 10 ปี แต่โดยรวมแล้วค่อนข้างดี!
ซึ่งหมายความว่าการใช้แบบจำลองนี้จะช่วยให้เราสามารถระบุประเทศเหล่านั้นที่มีค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิงที่เป็นค่าผิดปกติ หรือเพื่อระบุอายุคาดเฉลี่ยของเพศหญิงตามแบบจำลองสำหรับประเทศที่ข้อมูลนี้หายไป