การเลือกตัวคาดการณ์

เมื่อสร้างการคำนวณการคาดการณ์โดยใช้ฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์ใน Tableau คุณจะต้องเลือกตัวคาดการณ์ เพื่อเป็นการเตือนความจำ ตัวคาดการณ์คือตัวแปรของข้อมูลที่ป้อนและมีค่าที่ใช้คาดการณ์ตัวแปรผลลัพธ์ หรือที่เรียกว่าเป้าหมายหรือการตอบสนอง บ่อยครั้งที่คุณจะทำงานกับข้อมูลที่คุณมีความรู้ครอบคลุมเกี่ยวกับโดเมนและจะทราบดีว่าฟิลด์ใดที่มีความสัมพันธ์อย่างมากกับเป้าหมายการคาดการณ์และจะเป็นตัวคาดการณ์ที่ดี อย่างไรก็ตาม ยังคงเป็นความคิดที่ดีที่จะใช้เวลาในการประเมินตัวคาดการณ์และตรวจสอบว่าคุณเลือกตัวคาดการณ์อย่างชาญฉลาด คุณจะต้องใช้ตัวคาดการณ์อย่างน้อยหนึ่งตัวเสมอ และมักจะมีมากกว่าหนึ่งตัว

ให้เลือกเป้าหมายของคุณก่อน ดูเหมือนจะชัดเจนแต่การตรวจสอบว่าคุณกำลังเลือกจัวคาดการณ์ตามสิ่งที่คุณต้องการคาดการณ์เป็นขั้นตอนแรกที่สำคัญอย่างยิ่ง ตัวอย่างเช่น ฟิลด์ที่มีความสัมพันธ์มากที่สุดกับอายุคาดเฉลี่ยของเพศหญิงอาจแตกต่างจากฟิลด์ที่มีความสัมพันธ์มากที่สุดกับอายุคาดเฉลี่ยของเพศชาย ในทำนองเดียวกัน ฟิลด์ที่มีความสัมพันธ์มากที่สุดกับยอดขายอาจแตกต่างจากฟิลด์ที่มีความสัมพันธ์มากที่สุดกับผลกำไร

สิ่งที่ต้องพึงระลึกไว้อีกอย่างก็คือโดยค่าเริ่มต้นฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์ใช้การถดถอยเชิงเส้นเป็นแบบจำลองทางสถิติพื้นฐาน ด้วยแบบจำลองนี้ ตัวคาดการณ์ที่สัมพันธ์กันมากที่สุดคือตัวคาดการณ์ที่มีความสัมพันธ์เชิงเส้นกับเป้าหมาย หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับแบบจำลองที่รองรับอื่นๆ โปรดดูการเลือกแบบจำลองแบบคาดการณ์

เพื่อทำความเข้าใจวิธีการเลือกตัวคาดการณ์ที่ดีที่สุดสำหรับคำถามที่คุณต้องการจะตอบ เรามาดูกันที่ข้อมูลอายุคาดเฉลี่ยของเพศหญิง หากต้องการปฏิบัติตามคำแนะนำ โปรดดาวน์โหลดเวิร์กบุ๊กต่อไปนี้จาก Tableau Public: การเลือกตัวคาดการณ์สำหรับการคาดการณ์ของคุณ

การวัดผลในฐานะตัวคาดการณ์

เมื่อใช้การวัดผลเป็นตัวคาดการณ์ คุณสามารถประเมินความสัมพันธ์กับเป้าหมายของคุณโดยใช้ Tableau ได้ วิธีหนึ่งคือการสร้างแผนภาพการกระจาย ด้านล่างนี้เราเปรียบเทียบค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิงของประเทศใดประเทศหนึ่งกับการวัดผลอื่นๆ

การเปรียบเทียบแผนภาพการกระจายจะแสดงความสัมพันธ์ระหว่างตัวคาดการณ์กับเป้าหมาย

สำหรับการวัดผลบางอย่าง เช่น อัตราการเสียชีวิตของทารกและอัตราการเกิด มีความสัมพันธ์เชิงลบที่ชัดเจนกับอายุคาดเฉลี่ยของเพศหญิงตามที่เห็นในความลาดชันเชิงลบของแผนภาพการกระจาย สำหรับการวัดผลอื่นๆ จะมีความชัดเจนน้อยกว่า อย่างไรก็ตาม สิ่งหนึ่งที่เราเห็นได้อย่างชัดเจนคือการแจกแจงแบบรูปตัว L ของค่ามัธยฐาน GDP, ค่ามัธยฐานการใช้โทรศัพท์มือถือ​และค่ามัธยฐานค่าใช้จ่ายด้านสุขภาพต่อหัว การแจกแจงรูปตัว L นี้มักบ่งชี้ว่าการใช้การเปลี่ยนแปลงบันทึกจะช่วยให้คุณวิเคราะห์ข้อมูลของคุณได้แม่นยำยิ่งขึ้น ข้อบ่งชี้อีกประการหนึ่งคือว่าหากเป็นทั้งหมด ค่าของคอลัมน์จะเป็นบวก ใน Tableau คุณสามารถใช้การเปลี่ยนแปลงบันทึกโดยการแก้ไขฟิลด์และใส่นิพจน์ในฟังก์ชัน LOG:

ฟังก์ชันไฟล์บันทึก

ฟังก์ชันนี้ช่วยนำเราจากการกระจายรูปตัว L ซึ่งยากที่จะแยกความแตกต่างระหว่างสุดโต่งของขนาดค่าสูงสุดของสเกล ไปสู่การแจกแจงที่สม่ำเสมอยิ่งขึ้นซึ่งบีบอัดน้อยลงโดยสุดค่าสูงสุดของมาตราส่วน

แผนภาพการกระจายรูปตัว L

การทำซ้ำด้วยการกระจายตัวรูปตัว L อื่นจะให้สิ่งต่อไปนี้แก่เรา:

การกระจายตัวรูปตัว L เพิ่มเติม

ค่าสัมประสิทธิ์ของการกำหนดหรือค่า R-squared

ยิ่งเครื่องหมายใกล้เคียงกับการขนาบบนเส้นตรงมากเท่าไหร่ ความสัมพันธ์ระหว่างสองการวัดผลก็ยิ่งสูงขึ้นเท่านั้น เพื่อช่วยประเมินความสัมพันธ์ คุณสามารถเพิ่มเส้นแนวโน้มได้ จากแผงวิเคราะห์​ลากเส้นแนวโน้มเข้าสู่มุมมองและวางลงบนเส้นตรง การวางเคอร์เซอร์เหนือเส้นแนวโน้มจะบอกค่า R-squared หรือค่าสัมประสิทธิ์ของการกำหนด ซึ่งบ่งชี้ว่าตัวแปรที่ขึ้นอยู่กับ (เป้าหมาย) ได้รับการอธิบายโดยตัวแปรอิสระ (ตัวคาดการณ์) ตัวคาดการณ์ที่มีค่า R-squared ใกล้เคียงกับ 1 จะดีกว่าตัวคาดการณ์ที่มีค่า R-squared ใกล้เคียงกับ 0

แผนภาพการกระจายที่มีค่า R-squared ใกล้เคียงกับ 1

เมื่อดูที่แผนภาพการกระจายของเรา จะเห็นได้ว่าตัวคาดการณ์ที่ดีที่สุดสำหรับค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิงคือค่ามัธยฐานของอัตราการเสียชีวิตของทารกซึ่งมีค่า R-squared เท่ากับ 0.87:

การเลือกแผนภาพที่ดีที่สุดจาก R-squared

ตัวคาดการณ์ที่ดีอื่นๆ คือ ค่ามัธยฐานของอัตราการเสียชีวิต (R-squared = 0.76) และการเปลี่ยนแปลงบันทึกของค่ามัธยฐานของค่าใช้จ่ายด้านสุขภาพ/ต่อหัว (R-squared = 0.56)

หมายเหตุ: ความชันของเส้นไม่ได้แสดงให้คุณเห็นอย่างชัดเจนว่าตัวคาดการณ์ใดมีค่า R-squared สูงที่สุด เนื่องจากมาตราส่วนของแกน x ถูกกำหนดโดยช่วงของตัวแปรเฉพาะที่เลือก ความชันของเส้นจะได้รับผลกระทบอย่างมากจากตัวแปรเฉพาะที่ใช้

ในภาพด้านล่าง เราได้แสดงภาพค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิงกับค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิง โดยการแสดงเป็นภาพที่ได้เป็นเส้นตรงสมบูรณ์บนมุม 45 °: ตามที่คาดไว้มีความสัมพันธ์ที่สมบูรณ์แบบระหว่างค่าบนแกน x และค่าบนแกน y ที่มีค่า R-squared เป็น 1:

แผนภาพการกระจายที่มีค่า R-squared เท่ากับ 1

อย่างไรก็ตาม จากที่แสดงด้านล่างแม้ว่า LOG(MEDIAN([GDP])) จะมีเส้นแนวโน้มที่ลาดชันกว่าเส้นอื่นๆ แต่ก็มีคะแนน R-squared ต่ำเพียง 0.169 เนื่องจากมาตราส่วนของแกน x สำหรับหน้าต่างนั้น:

แสดง R-squared ต่ำ

นอกจากนี้ มาดูกันว่าเครื่องหมายบางอย่างมีผลต่อความชันของเส้นแนวโน้มได้อย่างไร เมื่อซูมไปที่แผนภาพการกระจายสำหรับค่ามัธยฐานของอัตราภาษีธุรกิจ เราจะเห็นว่าเครื่องหมายส่วนใหญ่มีอัตราภาษีระหว่าง 0 ถึงประมาณ 1 โดยมีหกประเทศที่มีอัตราภาษีสูงกว่ามากคือระหว่าง 2 ถึง 3 ค่า R-squared สำหรับเครื่องหมายทั้งหมดคือ 0.0879:

ซูมเข้าในแผนภูมิค่ามัธยฐานของอัตราภาษีธุรกิจ

อย่างไรก็ตาม มาดูกันว่าจะเกิดอะไรขึ้นหากนำคลัสเตอร์ของเครื่องหมายทั้งหกออก:

แสดงถึงสิ่งที่เกิดขึ้นเมื่อคลัสเตอร์ของเครื่องหมายถูกนำออก

เส้นแนวโน้มเกือบจะราบเรียบและค่า R-squared ลดลงเหลือ 0.0006 ซึ่งบ่งชี้ว่าไม่มีความสัมพันธ์ระหว่างค่ามัธยฐานของอัตราภาษีธุรกิจและอายุคาดเฉลี่ยของเพศหญิง ในขณะที่แสดงข้อมูลของคุณเป็นภาพและใช้วิธีการทางสถิติที่ดีในการเลือกตัวคาดการณ์ คุณจำเป็นต้องพิจารณาอย่างรอบคอบว่ามีค่าผิดปกติหรือลักษณะข้อมูลอื่นๆ ที่อาจส่งผลกระทบต่อข้อสรุปของคุณหรือไม่

หมายเหตุ: สำหรับตัวอย่างเพิ่มเติมเกี่ยวกับวิธีที่สถิติสรุปอาจไม่ทำให้คุณเห็นภาพรวมทั้งหมด โปรดอ่านเพิ่มเติมในควอเตอร์ของ Anscombe

มิติข้อมูลเป็นตัวคาดการณ์

เมื่อใช้มิติข้อมูลเป็นตัวทำนาย คุณสามารถใช้ขั้นตอนที่คล้ายกันเพื่อกำหนดความสัมพันธ์ อย่างไรก็ตาม คุณอาจพบว่ามีความแตกต่างอย่างมากระหว่างมิติข้อมูลที่แตกต่างกันในระดับความสัมพันธ์กับเป้าหมาย ตัวอย่างเช่น เมื่อแยกย่อยตามภูมิภาค ภูมิภาคหนึ่งอาจเป็นตัวคาดการณ์ที่ดีมากสำหรับเป้าหมายแต่อีกภูมิภาคหนึ่งอาจมีความสัมพันธ์ที่น้อยกว่าอย่างมีนัยสำคัญ ซึ่งไม่ได้หมายความว่าคุณไม่ควรใช้มิติข้อมูลนั้นเป็นตัวคาดการณ์ แต่คุณอาจต้องพิจารณาว่าการใช้การวัดผลหรือมิติข้อมูลเพิ่มเติมจะช่วยปรับปรุงแบบจำลองของคุณหรือไม่ และในทางกลับกันการคาดการณ์ของคุณด้วย

เนื่องจากเราได้กำหนดตัวคาดการณ์ที่ดีที่สุดสำหรับชุดข้อมูลของเราคือค่ามัธยฐานของการเสียชีวิตของทารก ค่ามัธยฐานของอัตราการเกิด และการเปลี่ยนแปลงของบันทึกของค่ามัธยฐานของค่าใช้จ่ายด้านสุขภาพ/ต่อหัวลอง ลองจำกัดการแสดงเป็นภาพไว้ที่สามตัวแปรเหล่านี้:

การเปรียบเทียบตัวแปรต่างๆ

ถัดไปเรามาแบ่งขอบเขตข้อมูลโดยการเพิ่มภูมิภาคลงใน “สี” บนการ์ดเครื่องหมายและดูว่าเกิดอะไรขึ้นกับการแสดงเป็นภาพ:

การแบ่งขอบเขตตามสี

การเปรียบเทียบค่า R-squared ระหว่างตัวคาดการณ์

ลองสำรวจวิธีเปรียบเทียบค่า R-squared กับเส้นแนวโน้มของแต่ละภูมิภาคสำหรับตัวคาดการณ์แต่ละตัว:

ตารางเปรียบเทียบค่า R-squared ตามภูมิภาค

ในตารางดังกล่าว ค่า R-squared ที่ต่ำสุดสำหรับตัวคาดการณ์แต่ละตัวจะไฮไลต์ด้วยสีแดงและต่ำสุดรองลงมาเป็นสีเหลือง

ยุโรปมีค่า R-squared ต่ำสุดสำหรับค่ามัธยฐานของอัตราการเสียชีวิตของทารกและค่ามัธยฐานของอัตราการเกิดของทารก และแอฟริกามีค่า R-squared ต่ำสุดสำหรับการเปลี่ยนแปลงบันทึกเกี่ยวกับค่ามัธยฐานของค่าใช้จ่ายด้านสุขภาพ/ต่อหัว (ไฮไลต์สีแดง) แอฟริกายังมีค่า R-squared ที่ต่ำกว่าสำหรับทั้งค่ามัธยฐานของอัตราการเสียชีวิตของทารกและค่ามัธยฐานของอัตราการเกิด

การเพิ่มมิติข้อมูลจะช่วยให้แบบจำลองมีข้อมูลมากขึ้นและการเพิ่มข้อมูลจะช่วยปรับปรุงคุณภาพของการคาดการณ์ อย่างไรก็ตาม ภายในการแยกย่อยที่กำหนด (ภูมิภาคในกรณีนี้) คุณภาพการคาดการณ์อาจดีขึ้นหรือลดลง ในบางกรณี คุณอาจต้องการสร้างแต่ละแบบจำลองสำหรับการแยกย่อยแต่ละรายการตามการวัดผลที่เป็นตัวคาดการณ์ที่ดีที่สุดสำหรับกลุ่มเฉพาะนั้นๆ

ในกรณีนี้ อัตราการเสียชีวิตของทารกมีความสัมพันธ์ที่แข็งแกร่งพอสมควรกับอายุคาดเฉลี่ยของเพศหญิงในทุกภูมิภาค แม้ว่าจะค่อนข้างอ่อนแอในแอฟริกาและยุโรปก็ตาม ค่ามัธยฐานของอัตราการเกิดเป็นตัวคาดการณ์ที่ดีสำหรับโอเชียเนียและเอเชียแต่เกือบจะไม่มีความสัมพันธ์กับอายุคาดเฉลี่ยของเพศหญิงในยุโรป และการเปลี่ยนแปลงบันทึกของค่ามัธยฐานของค่าใช้จ่ายด้านสุขภาพเป็นตัวคาดการณ์ที่สมเหตุสมผลสำหรับทุกภูมิภาคยกเว้นแอฟริกา เราสามารถคาดหวังได้ว่าแบบจำลองที่สร้างขึ้นด้วยตัวคาดการณ์ทั้งสี่ตัว (อัตราการเสียชีวิตของทารก อัตราการเกิด บันทึก (ค่าใช้จ่ายด้านสุขภาพ) และภูมิภาค) จะมีการคาดการณ์ที่แม่นยำน้อยสำหรับประเทศในยุโรปและแอฟริกา เราอาจเจาะลึกลงไปในข้อมูลเพื่อดูว่ามีตัวคาดการณ์เพิ่มเติมหรือตัวคาดการณ์ทางเลือกที่ใช้เพื่อสร้างแบบจำลองที่เหมาะสมมากกว่าสำหรับยุโรปและแอฟริกา

สร้างฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์ของคุณ

ตอนนี้เราได้ค้นพบตัวคาดการณ์ที่ดีแล้ว เราสามารถสร้างและใช้ฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์เพื่อดูในการใช้งานจริงได้

  1. เปิดเมนูการวิเคราะห์ที่ด้านบน จากนั้นเลือกสร้างฟิลด์ที่คำนวณ

  2. ในตัวแก้ไขการคำนวณ ให้ตั้งชื่อการคำนวณและทำดังนี้:

    • ตั้งชื่อการคำนวณ: Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region

    • ป้อนสูตรต่อไปนี้:

      MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
      LOG(MEDIAN([Health Exp/Capita])),
      MEDIAN([Birth Rate]),
      MEDIAN([Infant Mortality Rate]),
      ATTR([Region]))

การคำนวณนี้จะแสดงค่ามัธยฐาน (0.5) ของช่วงค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิงตามแบบจำลองโดยอิงตามตัวคาดการณ์ที่เราเลือก: ​ค่าใช้จ่ายด้านสุขภาพ อัตราการเกิดอัตราการเสียชีวิตของทารก และภูมิภาค

ถัดไป ลองสร้างแผนภาพกระจายที่แสดงทั้งค่ามัธยฐานจริงของอายุคาดเฉลี่ยของเพศหญิงและค่ามัธยฐานที่คาดการณ์ของอายุคาดเฉลี่ยของเพศหญิง:

การเปรียบเทียบระหว่าง “จริง” และ “คาดการณ์”

เยี่ยมเลย! การคาดการณ์ค่อนข้างสอดคล้องกับค่าจริงสำหรับแต่ละภูมิภาค

แต่ลองทำอีกครั้งเพื่อดูว่าการคาดการณ์อยู่ไกลที่สุดจากเครื่องหมายที่จุดใด สร้างการคำนวณอีกวิธีดังนี้: called Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region

MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]

การคำนวณที่เหลือนี้จะแสดงผลต่างระหว่างค่ามัธยฐานที่คาดการณ์ไว้และค่ามัธยฐานจริง ซึ่งจะช่วยให้เราเห็นประเทศที่มีความแตกต่างมากที่สุดระหว่างค่ามัธยฐานจริงและคาดการณ์ของอายุคาดเฉลี่ยของเพศหญิง

ถัดไปลองใช้การคำนวณที่เหลือนี้กับสี:

เพิ่มการคำนวณที่เหลือ

คุณสามารถดูได้ในการแสดงเป็นภาพข้างต้นว่าประเทศส่วนใหญ่ในภูมิภาคส่วนใหญ่มีความแตกต่างต่ำระหว่างการคาดการณ์และค่าจริง แอฟริกาเป็นภูมิภาคที่มีจำนวนประเทศมากที่สุดที่มีความแตกต่างอย่างมีนัยสำคัญ แต่ลองทำอีกครั้งเพื่อดูว่าเรากำลังมองหาความแตกต่างแบบไหน

คุณจะเห็นว่าช่วงความแตกต่างอยู่ระหว่าง -17 และ +9 ดังนั้นลองแบ่งการแสดงเป็นภาพออกเป็นกลุ่มที่มีความแตกต่างน้อยกว่า ±3 ปี ความแตกต่างน้อยกว่า ±5 ปี ความแตกต่างน้อยกว่า ±10 ปี และความแตกต่างมากกว่า ±10 ปี

สร้างการคำนวณอีกวิธีดังนี้: Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region

IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -3
THEN "±3"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN "±5"
ELSEIF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN "±10"
ELSE
"> ±10"
END

ลองเพิ่มการคำนวณในสีอีกครั้ง:

มุมมองสุดท้าย

สังเกตว่าการคาดการณ์ส่วนใหญ่ไม่ถูกต้องน้อยกว่า 3 ปีและมีเพียงไม่กี่รายการที่มีประโยชน์โดยมากกว่า 10 ปี แต่โดยรวมแล้วค่อนข้างดี!

ซึ่งหมายความว่าการใช้แบบจำลองนี้จะช่วยให้เราสามารถระบุประเทศเหล่านั้นที่มีค่ามัธยฐานของอายุคาดเฉลี่ยของเพศหญิงที่เป็นค่าผิดปกติ หรือเพื่อระบุอายุคาดเฉลี่ยของเพศหญิงตามแบบจำลองสำหรับประเทศที่ข้อมูลนี้หายไป

ขอบคุณสำหรับข้อเสนอแนะของคุณส่งข้อเสนอแนะของคุณเรียบร้อยแล้ว ขอขอบคุณ