“คำนวณโดยใช้” และ “การแบ่งพาร์ติชันข้อมูล” ใน “แบบจำลองแบบคาดการณ์”
คุณทำการคาดการณ์จากข้อมูลของคุณโดยรวม ฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์ MODEL_QUANTILE หรือ MODEL_PERCENTILE ไว้ในการคำนวณตาราง
จำไว้ว่าการคำนวณตารางทั้งหมดต้องมีการระบุทิศทางของการ คำนวณโดยใช้ หากต้องการทราบภาพรวมว่ามิติข้อมูลของการกำหนดการคำนวณและการแบ่งพาร์ติชันที่แตกต่างกันจะส่งผลกระทบต่อผลลัพธ์ของคุณอย่างไร โปรดดู เปลี่ยนค่าต่างๆ ด้วยการคำนวณตาราง
ในฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์ ระบบจะใช้ตัวเลือก คำนวณโดยใช้ เพื่อแบ่งพาร์ติชัน (กำหนดขอบเขต) ของชุดข้อมูลที่จะใช้ในการสร้างแบบจำลองแบบคาดการณ์
ฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์ ไม่มี แนวคิดเกี่ยวกับการกำหนดการคำนวณ (ทิศทาง) เพราะแบบจำลองจะแสดงให้เห็นผลลัพธ์ที่เป็นเอกลักษณ์ของแต่ละเครื่องหมายตามตัวคาดการณ์ที่เลือก ซึ่งแตกต่างจาก จำนวนสะสม ที่มิติข้อมูลการกำหนดการคำนวณจะระบุลำดับการเพิ่มฟิลด์และผลลัพธ์ที่ได้ โดยปกติแล้วฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์จะไม่เรียงลำดับ แต่จะคำนวณผลลัพธ์โดยใช้แบบจำลองจากข้อมูลที่เป้าหมายและตัวคาดการณ์ของฟังก์ระบุไว้ ที่ระดับของรายละเอียดซึ่งระบุไว้ในการแสดงผล ในข้อมูลไม่มีแนวคิดเกี่ยวกับลำดับ ยกเว้นในกรณีที่มีการใช้ตัวคาดการณ์แบบเรียงลำดับ เช่น มิติข้อมูลวันที่ เป็นต้น
นอกจากนี้ ระบบยังใช้ระดับของรายละเอียดของการแสดงผลเสมอเมื่อระบุข้อมูลที่ใช้ในการสร้างแบบจำลอง การคำนวณตารางทั้งหมดจะทำงานที่ระดับของรายละเอียดเดียวกันกับการแสดงผลโดยไม่เว้นแม้แต่ฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์
คำแนะนำสำหรับฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์
คุณควรเลือกมิติข้อมูลเฉพาะที่จะแบ่งพาร์ติชันเมื่อใช้ฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์ เนื่องจากคุณอาจมีการคำนวณการคาดการณ์หลายรายการในการแสดงผลหรือแดชบอร์ดเดียว การเลือกมิติข้อมูลเฉพาะที่จะแบ่งพาร์ติชันจะช่วยรับรองว่าคุณสร้างแบบจำลองโดยใช้ข้อมูลพื้นฐานชุดเดียวกันสำหรับฟังก์ชันเดี่ยวๆ แต่ละฟังก์ชัน และคุณจะสามารถเปรียบเทียบผลลัพธ์จากแบบจำลองที่คล้ายกันได้
เมื่อทำงานกับฟังก์ชันการสร้างแบบจำลองแบบคาดการณ์ใน Tableau สิ่งสำคัญที่สุดคือต้องรับรองว่าการสร้างอินสแตนซ์ที่แตกต่างกันต้องสอดคล้องกันทั้งหมด ทั้งในกระบวนการทำซ้ำที่แตกต่างกันของแบบจำลอง (เช่น เมื่อคุณเลือกตัวคาดการณ์ที่แตกต่างกัน) และในการแสดงผลที่แตกต่างกัน การใช้ตัวเลือก “คำนวณโดยใช้” ที่มีการระบุทิศทางจะทำให้มีโอกาสที่การเปลี่ยนแปลงเพียงเล็กน้อยในข้อมูลที่แสดงผลของคุณจะส่งผลกระทบอย่างใหญ่หลวงต่อข้อมูลที่ใช้ในการสร้างแบบจำลอง และจะส่งผลกระทบต่อความถูกต้องและความสอดคล้องของข้อมูลในการแสดงผลที่แตกต่างกันด้วย
การเลือกมิติข้อมูล
ตัวอย่างต่อไปนี้จะใช้แหล่งข้อมูล ตัวอย่าง - Superstore ที่มีอยู่ใน Tableau Desktop
เมื่อเลือกมิติข้อมูล โปรดจำไว้ว่า Tableau จะสร้างแบบจำลองแบบคาดการณ์ ทั่วทั้ง มิติข้อมูลนั้นๆ ซึ่งหมายความว่า หากคุณเลือก วันที่สั่งซื้อ ให้เป็นมิติข้อมูลในการแบ่งพาร์ติชัน Tableau จะใช้ข้อมูล ภายใน พาร์ติชันอื่นๆ ที่สร้างขึ้นโดย ควบคู่ ไปกับค่าของ วันที่สั่งซื้อ
รูปภาพด้านล่างแสดงข้อมูลที่ใช้ในการสร้างแบบจำลองซึ่งไฮไลต์เป็นสีเหลือง และเอาต์พุตของแบบจำลองซึ่งไฮไลต์เป็นสีส้ม ในกรณีนี้ เนื่องจากไม่มีตัวคาดการณ์ใดๆ การตอบกลับจึงเหมือนกันทั้งหมดภายใน หมวดหมู่ย่อย นั้นๆ การเลือกตัวคาดการณ์ในจำนวนที่เหมาะสมจะช่วยให้คุณสร้างผลลัพธ์ที่มีความหมายมากขึ้น หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับจำนวนที่เหมาะสมของตัวคาดการณ์ โปรดดู การเลือกตัวคาดการณ์
เช่นเดียวกัน หากคุณเลือกให้ หมวดหมู่ย่อย เป็นมิติข้อมูลในการแบ่งพาร์ติชัน Tableau จะใช้ข้อมูล ภายใน เดือนที่ระบุแต่ ควบคู่ ไปกับหมวดหมู่ย่อยต่างๆ ตามที่แสดงไว้ด้านล่าง หากคุณแบ่งย่อยข้อมูลต่อไปให้มีหลายแผงระบบจะคำนึงถึงขอบเขตของแผงเมื่อสร้างแบบจำลอง
หมายเหตุเกี่ยวกับการแบ่งพาร์ติชัน
จำไว้ว่าการแบ่งพาร์ติชันในการมองเห็นข้อมูลของคุณจะส่งผลกระทบอย่างชัดเจนต่อข้อมูลที่ใช้ในการสร้างแบบจำลองและการสร้างผลการคาดการณ์ การเพิ่มระดับของรายละเอียดที่สูงขึ้น (ตัวอย่างเช่น มีทั้ง รัฐ และ เมือง ในแถบเดียว) จะแบ่งพาร์ติชันข้อมูลของคุณโดยมี LOD (ระดับของรายละเอียด) ที่สูงขึ้น ซึ่งเป็นจริงโดยไม่คำนึงถึงลำดับของช่องในแถบ ในตัวอย่างนี้จะให้ผลการคาดการณ์ที่เหมือนกัน ได้แก่
การเพิ่มช่องที่แก้ไขระดับของรายละเอียดจะแบ่งพาร์ติชันข้อมูลของคุณ หากคุณเพิ่มช่องลงในแถบ “แถว” หรือ “คอลัมน์” หรือเพิ่มไปที่ “สี” “ขนาด” “ป้ายกำกับ” “รายละเอียด” หรือ “รูปร่าง” บนการ์ด “เครื่องหมาย” การเพิ่มช่องที่ระดับของรายละเอียดที่แตกต่างกันไปที่ Tooltip จะ ไม่ แบ่งพาร์ติชันข้อมูลของคุณ
ในตัวอย่างด้านล่าง ระบบจะแบ่งพาร์ติชันแบบจำลองโดยอัตโนมัติตาม หมวดหมู่ เพราะใน “แถว” มีทั้งช่อง หมวดหมู่ และ หมวดหมู่ย่อย ระบบจะทำการคำนวณการคาดการณ์ทั่วทั้ง หมวดหมู่ย่อย ภายในขอบเขตของช่องในระดับที่สูงกว่าซึ่งก็คือ หมวดหมู่
สิ่งนี้จะส่งผลกระทบต่อการใช้ตัวคาดการณ์ของคุณ มาดูตัวอย่างด้านล่างกัน ในกรณีนี้ เราใช้การคำนวณตาราง MODEL_QUANTILE สามรายการ ได้แก่
คาดการณ์_ยอดขาย_เมือง | คาดการณ์_ยอดขาย_รัฐ | คาดการณ์_ยอดขาย_ภูมิภาค |
MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
| MODEL_QUANTILE(0.5,sum([Sales]),
|
สำหรับทั้งสามรายการ เราเลือก คำนวณโดยใช้ > เมือง มาดูบางเมืองในรัฐนอร์ทแคโรไลนากัน
คุณจะเห็นว่าผลลัพธ์จากการคำนวณทั้งสามเหมือนกันหมดภายในรัฐที่เลือก แม้ว่าจะใช้ตัวคาดการณ์ที่แตกต่างกันก็ตาม
หากเราลบ ภูมิภาค ออกจากแถบ “แถว” จะไม่เกิดอะไรขึ้นกับผลลัพธ์ของเรา ผลลัพธ์ยังคงเหมือนกันทั้งหมดภายในรัฐที่เลือก
แต่หากเราลบ รัฐ ออกจากแถบ “แถว” เราจะเห็นว่าการคำนวณแต่ละรายการจะให้ผลลัพธ์ที่แตกต่างกัน
เกิดอะไรขึ้น
ในตัวอย่างแรก ภูมิภาค และ รัฐ บนแถบ “แถว” ทำหน้าที่แบ่งพาร์ติชันเมือง ดังนั้น แบบจำลองของ คาดการณ์_ยอดขาย_เมือง คาดการณ์_ยอดขาย_รัฐ และ คาดการณ์_ยอดขาย_ภูมิภาค จะรับข้อมูลเดียวกันและสร้างผลการคาดการณ์ที่เหมือนกัน
เนื่องจากเราแบ่งพาร์ติชันการมองเห็นข้อมูลภายใน รัฐ และ ภูมิภาค ไปแล้ว การเพิ่มตัวคาดการณ์ของเราจึงไม่เพิ่มค่าใดๆ ให้กับแบบจำลองและไม่มีผลกระทบต่อผลลัพธ์
เมื่อเราลบ ภูมิภาค ออกจากแถบ “แถว” เรายังคงแบ่งพาร์ติชันตาม รัฐ อยู่ ดังนั้นข้อมูลที่ใช้ในการสร้างแบบจำลองจึงไม่มีการเปลี่ยนแปลง ขอย้ำอีกครั้ง เนื่องจากเราแบ่งพาร์ติชันการมองเห็นข้อมูลภายใน รัฐ ไปแล้ว การเพิ่มตัวคาดการณ์ของเราจึงไม่เพิ่มค่าใดๆ ให้กับแบบจำลองหรือมีผลกระทบต่อผลลัพธ์
อย่างไรก็ตาม เมื่อเราลบ รัฐ ระบบจะยกเลิกการแบ่งพาร์ติชันข้อมูลและเราจะเห็นการคาดการณ์ที่แตกต่างกันไปตามการคำนวณแต่ละรายการ มาดูกันอย่างละเอียดว่าเกิดอะไรขึ้น
สำหรับ คาดการณ์_ยอดขาย_เมือง เราใช้ ATTR([เมือง]) เป็นตัวคาดการณ์ เนื่องจากตัวคาดการณ์นี้มีระดับของรายละเอียดเหมือนกันกับการแสดงผล จึงไม่เพิ่มค่าใดๆ และไม่จำเป็นต้องคำนึงถึง เรารวม ยอดขาย ของทุกเมือง ส่งข้อมูลไปให้กลไกการวิเคราะห์ทางสถิติ และคำนวณยอดขายที่คาดการณ์ เนื่องจากเราไม่ได้รวมตัวคาดการณ์อื่นไว้ด้วย เราจะเห็นผลลัพธ์ที่เหมือนกันในแต่ละเมือง แต่หากเราเพิ่มการวัดผลอีกอย่างน้อยหนึ่งรายการ เราจะเห็นความแปรผันในผลลัพธ์
สำหรับ คาดการณ์_ยอดขาย_รัฐ เราใช้ ATTR([รัฐ]) เป็นตัวคาดการณ์ ตัวคาดการณ์ แบ่งพาร์ติชันข้อมูล เมือง ทั้งหมดตาม รัฐ เราคาดว่าจะเห็นผลลัพธ์ที่เหมือนกัน ภายใน รัฐ แต่จะเห็นผลลัพธ์ที่แตกต่างกันระหว่าง แต่ละ รัฐ
แต่คุณจะเห็นว่าผลลัพธ์ที่เราได้นั้นไม่เป็นไปตามคาด เมืองแครี เมืองแชเปิลฮิลล์ และเมืองชาร์ลอตต์ ล้วนมีการคาดการณ์เท่ากับ $2,084 เหมือนกันตามที่เราคาดไว้ แต่เมืองเบอร์ลิงตันแสดงการคาดการณ์ที่แตกต่างไป คือ $9,366
นั่นเป็นเพราะเมืองชื่อ “เบอร์ลิงตัน” มีอยู่ในหลายรัฐ (รัฐไอโอวา รัฐนอร์ทแคโรไลนา และรัฐเวอร์มอนต์) ดังนั้นต้องแก้ปัญหา รัฐ โดยใช้ * ซึ่งหมายความว่า “more than one value” (มีมากกว่าหนึ่งค่า) ระบบจะประเมินเครื่องหมายทั้งหมดที่แก้ปัญหา รัฐ โดยใช้ * พร้อมกัน ดังนั้นเมืองอื่นที่มีอยู่ในหลายรัฐจะมีผลการคาดการณ์เท่ากับ $9,366 ด้วย
สำหรับ คาดการณ์_ยอดขาย_ภูมิภาค เราใช้ ATTR([ภูมิภาค]) เป็นตัวคาดการณ์ ตัวคาดการณ์ แบ่งพาร์ติชันข้อมูล เมือง ทั้งหมดตาม ภูมิภาค คุณคาดว่าจะเห็นผลลัพธ์ที่เหมือนกัน ภายใน ภูมิภาค แต่จะเห็นผลลัพธ์ที่แตกต่างกันระหว่าง แต่ละ ภูมิภาค
ขอย้ำอีกครั้ง เนื่องจากเมืองเบอร์ลิงตันมีอยู่ในหลายภูมิภาค (ภาคกลาง ภาคตะวันออก และภาคใต้) จึงต้องแก้ปัญหา ภูมิภาค โดยใช้ * การคาดการณ์ของเมืองเบอร์ลิงตันจะตรงกันกับเมืองที่มีอยู่ในหลายรัฐเท่านั้น
อย่างที่คุณเห็น คุณต้องตรวจสอบให้แน่ใจว่าตัวคาดการณ์มิติข้อมูลต้องสอดคล้องกับทั้งระดับของรายละเอียดการแสดงผลและการแบ่งพาร์ติชันของคุณอย่างถูกต้อง การแบ่งย่อยการแสดงผลโดยใช้มิติข้อมูลใดก็ตามอาจส่งผลกระทบต่อการคาดการณ์ของคุณโดยไม่เจตนา