ค้นหาคลัสเตอร์ในข้อมูล

การวิเคราะห์คลัสเตอร์แบ่งเครื่องหมายในมุมมองออกเป็นคลัสเตอร์ โดยเครื่องหมายภายในแต่ละคลัสเตอร์จะคล้ายกันมากกว่าเครื่องหมายในต่างคลัสเตอร์

สำหรับตัวอย่างที่สาธิตกระบวนการสร้างคลัสเตอร์ด้วยข้อมูลตัวอย่าง ดูตัวอย่าง: สร้างคลัสเตอร์โดยใช้ข้อมูลดัชนีชี้วัดเศรษฐกิจโลก

สร้างคลัสเตอร์

ทำตามขั้นตอนเหล่านี้เพื่อค้นหาคลัสเตอร์ในมุมมองใน Tableau

  1. สร้างมุมมอง
  2. ลากคลัสเตอร์จากแผงวิเคราะห์ไปยังมุมมอง แล้ววางในพื้นที่เป้าหมายในมุมมอง ดังนี้

    นอกจากนี้ คุณยังสามารถคลิกสองครั้งที่คลัสเตอร์เพื่อค้นหาคลัสเตอร์ในมุมมองได้ด้วย

    เมื่อคุณวางหรือคลิกสองครั้งที่คลัสเตอร์ เหตุการณ์เหล่านี้จะเกิดขึ้น

    • Tableau สร้างกลุ่มคลัสเตอร์บนสี และทำสีเครื่องหมายในมุมมองตามคลัสเตอร์ หากมีฟิลด์บนสีอยู่แล้ว Tableau จะย้ายฟิลด์นั้นไปยังรายละเอียด แล้วแทนที่ฟิลด์บนสีด้วยผลลัพธ์ที่จัดคลัสเตอร์

      Tableau กำหนดแต่ละเครื่องหมายในมุมมองให้หนึ่งในคลัสเตอร์ ในบางกรณี เครื่องหมายที่ไม่เข้ากับคลัสเตอร์จะได้รับการกำหนดไปให้คลัสเตอร์ “ไม่ได้จัดคลัสเตอร์”

    • Tableau แสดงกล่องโต้ตอบ “คลัสเตอร์” ที่คุณสามารถปรับแต่งคลัสเตอร์ได้

  3. ปรับแต่งผลลัพธ์ของคลัสเตอร์ด้วยการทำหนึ่งในการดำเนินการต่อไปนี้ในกล่องโต้ตอบ “คลัสเตอร์”
    • ลากฟิลด์ใหม่จากแผงข้อมูลไปยังพื้นที่ “ตัวแปร” ของกล่องโต้ตอบ “คลัสเตอร์” นอกจากนี้ คุณยังสามารถลากฟิลด์ออกจากพื้นที่ “ตัวแปร” เพื่อนำออกได้ด้วย

      เมื่อคุณเพิ่มตัวแปร ระบบจะรวมการวัดผลโดยใช้การรวมตามค่าเริ่มต้นสำหรับฟิลด์นั้น ส่วนมิติข้อมูลจะรวมโดยใช้ ATTR ซึ่งเป็นวิธีมาตรฐานที่ Tableau ใช้รวมมิติข้อมูล

      หากต้องการเปลี่ยนการรวมสำหรับตัวแปรหนึ่งๆ ให้คลิกขวาที่ตัวแปร

    • ระบุจำนวนคลัสเตอร์ (ระหว่าง 2 ถึง 50) หากคุณไม่ระบุค่า Tableau จะสร้างคลัสเตอร์ให้สูงสุด 25 คลัสเตอร์โดยอัตโนมัติ

  4. เมื่อคุณปรับแต่งผลลัพธ์ของคลัสเตอร์เสร็จแล้ว คลิก X ที่มุมขวาบนของกล่องโต้ตอบ “คลัสเตอร์” เพื่อปิด 

หมายเหตุ: คุณสามารถย้ายฟิลด์คลัสเตอร์จาก “สี” ไปยังอีกแถบหนึ่งในมุมมองได้ อย่างไรก็ตาม คุณไม่สามารถย้ายฟิลด์คลัสเตอร์จากแถบตัวกรองไปยังแผงข้อมูลได้

หากต้องการเปลี่ยนชื่อคลัสเตอร์ที่ได้ คุณต้องบันทึกคลัสเตอร์เป็นกลุ่มก่อน ดูรายละเอียดได้ในสร้างกลุ่มจากผลลัพธ์ของคลัสเตอร์และแก้ไขคลัสเตอร์

ข้อจำกัดของการจัดคลัสเตอร์

การจัดคลัสเตอร์มีให้ใช้งานใน Tableau Desktop แต่ไม่มีให้ใช้งานสำหรับการเขียนบนเว็บ (Tableau Server, Tableau Cloud) นอกจากนี้ การจัดคลัสเตอร์ยังไม่มีให้ใช้งานด้วยเมื่อตรงกับเงื่อนไขดังต่อไปนี้

  • เมื่อคุณใช้แหล่งข้อมูลคิวบ์ (แหล่งข้อมูลหลายมิติ)
  • เมื่อมีมิติข้อมูลแบบผสมผสานในมุมมอง
  • เมื่อไม่มีฟิลด์ที่สามารถใช้เป็นตัวแปร (อินพุต) สำหรับการจัดคลัสเตอร์ในมุมมองได้
  • เมื่อไม่มีมิติข้อมูลในมุมมองแบบรวม

เมื่อตรงกับเงื่อนไขเหล่านั้น คุณจะไม่สามารถลากคลัสเตอร์จากแผงวิเคราะห์ไปยังมุมมองได้

นอกจากนี้ ประเภทฟิลด์ดังต่อไปนี้ยังใช้เป็นตัวแปร (อินพุต) สำหรับการจัดคลัสเตอร์ไม่ได้ด้วย

  • การคำนวณตาราง
  • การคำนวณแบบผสมผสาน
  • การคำนวณเฉพาะกิจ
  • ค่าละติจูด/ลองจิจูดที่สร้างขึ้น
  • กลุ่ม
  • เซต
  • กล่อง
  • พารามิเตอร์
  • วันที่
  • ชื่อการวัดผล/ค่าที่วัด

แก้ไขคลัสเตอร์

หากต้องการแก้ไขคลัสเตอร์ที่มีอยู่ คลิกขวา (กด Control แล้วคลิกบน Mac) ที่ฟิลด์คลัสเตอร์บนสีแล้วเลือกแก้ไขคลัสเตอร์

หากต้องการเปลี่ยนชื่อที่ใช้สำหรับแต่ละคลัสเตอร์ ก่อนอื่นคุณจะต้องลากฟิลด์คลัสเตอร์ไปยังแผงข้อมูลแล้วบันทึกเป็นกลุ่มก่อน ดูรายละเอียดได้ในสร้างกลุ่มจากผลลัพธ์ของคลัสเตอร์

คลิกขวาที่กลุ่มคลัสเตอร์แล้วเลือกแก้ไขกลุ่มเพื่อทำการเปลี่ยนแปลงแต่ละคลัสเตอร์

เลือกกลุ่มคลัสเตอร์ในรายการ “กลุ่ม” แล้วคลิกเปลี่ยนชื่อเพื่อเปลี่ยนชื่อ

สร้างกลุ่มจากผลลัพธ์ของคลัสเตอร์

หากคุณลากคลัสเตอร์ไปยังแผงข้อมูล คลัสเตอร์จะกลายเป็นมิติข้อมูลกลุ่มซึ่งสมาชิกแต่ละรายการ (คลัสเตอร์ 1, คลัสเตอร์ 2 ฯลฯ) มีเครื่องหมายที่อัลกอริทึมของคลัสเตอร์ตัดสินว่าคล้ายกันมากกว่าที่คล้ายกับเครื่องหมายอื่น

หลังจากลากกลุ่มคลัสเตอร์ไปยังแผงข้อมูลแล้ว คุณสามารถใช้กลุ่มคลัสเตอร์นั้นในเวิร์กชีตอื่นได้

ลากคลัสเตอร์จากการ์ดเครื่องหมายไปยังแผงข้อมูลเพื่อสร้างกลุ่ม Tableau ดังนี้

หลังจากที่คุณสร้างกลุ่มจากคลัสเตอร์แล้ว กลุ่มและคลัสเตอร์เดิมจะแยกจากกันและแตกต่างกัน การแก้ไขคลัสเตอร์ไม่ส่งผลต่อกลุ่ม และการแก้ไขกลุ่มไม่ส่งผลต่อผลลัพธ์ของคลัสเตอร์ กลุ่มจะมีลักษณะเหมือนกับกลุ่ม Tableau อื่นๆ โดยเป็นส่วนหนึ่งของแหล่งข้อมูล แต่ที่ต่างจากคลัสเตอร์เดิมก็คือ คุณสามารถใช้กลุ่มดังกล่าวในเวิร์กชีตอื่นในเวิร์กบุ๊กได้ ดังนั้นหากคุณเปลี่ยนชื่อกลุ่มคลัสเตอร์ที่บันทึกไว้ การเปลี่ยนชื่อนั้นก็จะไม่มีผลกับการจัดคลัสเตอร์เดิมในมุมมอง โปรดดู แก้ไขข้อผิดพลาดเกี่ยวกับข้อมูล หรือรวมสมาชิกมิติข้อมูลด้วยการจัดกลุ่มข้อมูลของคุณ

ข้อจำกัดในการบันทึกคลัสเตอร์เป็นกลุ่ม

คุณจะไม่สามารถบันทึกคลัสเตอร์ไปยังแผงข้อมูลได้ในกรณีดังต่อไปนี้

  • เมื่อการวัดผลในมุมมองไม่ได้รวมกัน และการวัดผลที่คุณใช้เป็นตัวแปรในการจัดคลัสเตอร์ไม่ใช่การวัดผลเดียวกันกับที่อยู่ในมุมมอง ดูรายละเอียดเพิ่มเติมได้ที่วิธีการไม่รวมข้อมูล
  • เมื่อคลัสเตอร์ที่คุณต้องการบันทึกอยู่ในแถบตัวกรอง
  • เมื่อชื่อการวัดผลหรือค่าที่วัดอยู่ในมุมมอง
  • เมื่อมีมิติข้อมูลแบบผสมผสานในมุมมอง

ปรับคลัสเตอร์ที่บันทึกไว้

เมื่อคุณบันทึกฟิลด์คลัสเตอร์ไว้เป็นกลุ่ม ฟิลด์คลัสเตอร์จะได้รับการบันทึกโดยใช้แบบจำลองการวิเคราะห์ของตัวเอง คุณสามารถใช้กลุ่มคลัสเตอร์ของคุณในเวิร์กชีตและเวิร์กบุ๊กอื่นได้ แต่กลุ่มคลัสเตอร์จะไม่รีเฟรชโดยอัตโนมัติ

ในตัวอย่างนี้ มีการนำกลุ่มคลัสเตอร์ที่บันทึกไว้และแบบจำลองการวิเคราะห์ของกลุ่มคลัสเตอร์มาใช้ในต่างเวิร์กชีต ด้วยเหตุนี้ เครื่องหมายบางรายการจึงยังไม่รวมอยู่ในการจัดคลัสเตอร์ (บ่งชี้ด้วยเครื่องหมายสีเทา)

หากข้อมูลเบื้องหลังเปลี่ยนแปลง คุณสามารถใช้ตัวเลือกปรับเพื่อรีเฟรชและคำนวณข้อมูลสำหรับกลุ่มคลัสเตอร์ที่บันทึกไว้ใหม่ได้

วิธีปรับคลัสเตอร์ที่บันทึกไว้

  • คลิกขวาที่กลุ่มคลัสเตอร์ในแผงข้อมูล จากนั้นคลิกปรับ

    นี่คือตัวอย่างการจัดคลัสเตอร์ที่อัปเดตแล้วหลังปรับคลัสเตอร์ที่บันทึกไว้

    เมื่อคุณปรับคลัสเตอร์ที่บันทึกไว้ คลัสเตอร์ใหม่จะได้รับการสร้างขึ้น และชื่อแทนที่มีอยู่สำหรับหมวดหมู่กลุ่มคลัสเตอร์แต่ละหมวดจะถูกแทนที่ด้วยชื่อแทนคลัสเตอร์ใหม่ที่เป็นชื่อทั่วไป โปรดทราบว่าการปรับคลัสเตอร์ที่บันทึกไว้อาจเปลี่ยนการแสดงเป็นภาพของคุณที่ใช้คลัสเตอร์และชื่อแทนที่มีอยู่

 

การจัดคลัสเตอร์ทำงานอย่างไร

การวิเคราะห์คลัสเตอร์แบ่งเครื่องหมายในมุมมองออกเป็นคลัสเตอร์ โดยเครื่องหมายภายในแต่ละคลัสเตอร์จะคล้ายกันมากกว่าเครื่องหมายในต่างคลัสเตอร์ Tableau จำแนกคลัสเตอร์โดยใช้สี

หมายเหตุ: ดูข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับการทำงานของการจัดคลัสเตอร์ใน Tableau ได้ในบล็อกโพสต์ทำความเข้าใจการจัดคลัสเตอร์ใน Tableau 10

อัลกอริทึมที่จัดคลัสเตอร์

Tableau ใช้อัลกอริทึม K-means ในการจัดคลัสเตอร์ สำหรับ k คลัสเตอร์จำนวนหนึ่งๆ อัลกอริทึมนี้จะแบ่งขอบเขตข้อมูลออกเป็นคลัสเตอร์ k แต่ละคลัสเตอร์มีจุดศูนย์กลาง (เซนทรอยด์) ที่เป็นค่าเฉลี่ยของจุดทั้งหมดในคลัสเตอร์นั้น K-means หาจุดศูนย์กลางผ่านกระบวนการแบบวนซ้ำที่ลดระยะห่างระหว่างแต่ละจุดในคลัสเตอร์และจุดศูนย์กลางของคลัสเตอร์ให้เหลือน้อยที่สุด ใน Tableau คุณสามารถระบุจำนวนคลัสเตอร์ที่ต้องการได้ หรือจะให้ Tableau ทดสอบค่าต่างๆ ของ k แล้วแนะนำจำนวนคลัสเตอร์ที่เหมาะสมที่สุดก็ได้ (ดูเกณฑ์ที่ใช้ในการตัดสินจำนวนคลัสเตอร์ที่เหมาะสมที่สุด)

K-means ต้องใช้ข้อมูลจำเพาะเบื้องต้นของจุดศูนย์กลางของคลัสเตอร์ โดยเริ่มจากหนึ่งคลัสเตอร์ วิธีนี้จะเลือกตัวแปรที่จะนำค่าเฉลี่ยมาใช้เป็นเกณฑ์มาตรฐานในการแบ่งข้อมูลออกเป็นสองส่วน จากนั้น ระบบก็จะนำเซนทรอยด์ของสองส่วนนี้มาใช้เพื่อเริ่มใช้งาน K-means เพื่อปรับสมาชิกของสองคลัสเตอร์ให้เหมาะสมที่สุด ถัดไป หนึ่งในสองคลัสเตอร์จะได้รับเลือกเพื่อทำการแยก และตัวแปรหนึ่งตัวภายในคลัสเตอร์นั้นจะได้รับเลือก โดยค่าเฉลี่ยของตัวแปรนี้จะนำไปใช้เป็นเกณฑ์มาตรฐานในการแบ่งคลัสเตอร์นั้นเป็นสองส่วน จากนั้น ระบบจะใช้ K-means เพื่อแบ่งขอบเขตข้อมูลออกเป็นสามคลัสเตอร์ โดยเริ่มจากเซนทรอยด์ของสองส่วนของคลัสเตอร์ที่ถูกแบ่ง และเซนทรอยด์ของคลัสเตอร์ที่เหลือ กระบวนการนี้จะได้รับการทำซ้ำจนกว่าจะถึงจำนวนคลัสเตอร์ที่ตั้งไว้

Tableau ใช้อัลกอริทึมของ Lloyd ที่ใช้ระยะห่างเชิงยูคลิดยกกำลังสองในการคำนวณการจัดคลัสเตอร์ K-means สำหรับแต่ละ k เมื่อใช้ร่วมกับกระบวนการแยกเพื่อตัดสินจุดศูนย์กลางเบื้องต้นสำหรับแต่ละ k > 1 ก็จะได้ผลการจัดคลัสเตอร์ออกมา โดยผลลัพธ์จะขึ้นอยู่กับจำนวนคลัสเตอร์เท่านั้น

อัลกอริทึมเริ่มจากการเลือกจุดศูนย์กลางเบื้องต้นของคลัสเตอร์

จากนั้นจึงแบ่งขอบเขตเครื่องหมายด้วยการกำหนดเครื่องหมายแต่ละรายการให้กับจุดศูนย์กลางที่อยู่ใกล้ที่สุด

จากนั้นจึงปรับแต่งผลลัพธ์ด้วยการคำนวณจุดศูนย์กลางใหม่สำหรับแต่ละขอบเขตขึ้นมา ด้วยการหาค่าเฉลี่ยให้จุดทั้งหมดที่กำหนดให้คลัสเตอร์เดียวกัน

จากนั้น อัลกอริทึมก็ทบทวนเครื่องหมายที่กำหนดให้คลัสเตอร์ แล้วย้ายเครื่องหมายที่ตอนนี้อยู่ใกล้จุดศูนย์กลางอื่นมากกว่า

คลัสเตอร์ได้รับการปรับแต่ง และเครื่องหมายก็ได้รับการย้ายวนซ้ำไปจนกว่าจะไม่มีการเปลี่ยนแปลงเกิดขึ้นอีก

หมายเหตุ: เนื่องจากความแตกต่างที่ซ่อนอยู่ในเทคโนโลยี จึงอาจมีความแตกต่างเล็กน้อยระหว่างคลัสเตอร์ที่สร้างบน CPU x64 หรือ arm64 สำหรับข้อมูลเดียวกัน

เกณฑ์ที่ใช้ในการตัดสินจำนวนคลัสเตอร์ที่เหมาะสมที่สุด

Tableau ใช้เกณฑ์ของ Calinski-Harabasz ในการประเมินคุณภาพของคลัสเตอร์ เกณฑ์ Calinski-Harabasz กำหนดไว้ดังนี้

โดยที่ SSB คือความแปรปรวนระหว่างคลัสเตอร์โดยรวม, SSW คือความแปรปรวนภายในคลัสเตอร์โดยรวม, k คือจำนวนคลัสเตอร์ และ N คือจำนวนค่าสังเกต

ยิ่งค่าของอัตราส่วนนี้มากเท่าไร คลัสเตอร์ก็จะยิ่งเกาะกลุ่มกันมากเท่านั้น (ความแปรปรวนภายในคลัสเตอร์ต่ำ) และแต่ละคลัสเตอร์ก็จะยิ่งแตกต่าง/แยกจากกันมากเท่านั้น (ความแปรปรวนระหว่างคลัสเตอร์สูง)

เนื่องจากดัชนี Calinski-Harabasz ไม่ได้กำหนดไว้สำหรับ k=1 จึงไม่สามารถใช้ดัชนีนี้ตรวจจับกรณีคลัสเตอร์เดียวได้

หากผู้ใช้ไม่ระบุจำนวนคลัสเตอร์ Tableau จะเลือกจำนวนคลัสเตอร์ที่สอดคล้องกับค่าสูงสุดเฉพาะที่จำนวนแรกของดัชนี Calinski-Harabasz โดยตามค่าเริ่มต้น ระบบจะนำ K-means มาใช้สูงสุด 25 คลัสเตอร์หากไม่ถึงค่าสูงสุดเฉพาะที่จำนวนแรกของดัชนีสำหรับ k ที่มีค่าต่ำกว่า คุณสามารถกำหนดค่าสูงสุดได้ 50 คลัสเตอร์

หมายเหตุ: หากตัวแปรจัดหมวดหมู่ (ซึ่งก็คือมิติข้อมูล) มีค่าที่ไม่ซ้ำกันมากกว่า 25 ค่า Tableau จะไม่สนใจตัวแปรนั้นเมื่อคำนวณคลัสเตอร์

ค่าใดได้รับการกำหนดให้หมวดหมู่ “ไม่ได้จัดคลัสเตอร์”

เมื่อมีค่า null สำหรับการวัดผล Tableau จะกำหนดค่าของแถวที่มีค่า null ไปให้หมวดหมู่ไม่ได้จัดคลัสเตอร์ ตัวแปรจัดหมวดหมู่ (ซึ่งก็คือมิติข้อมูล) ที่ส่งกลับ * สำหรับ ATTR (หมายความว่าค่าทั้งหมดไม่เหมือนกัน) ก็จะไม่ได้รับการจัดคลัสเตอร์ด้วย

การปรับขนาด

Tableau ปรับขนาดค่าโดยอัตโนมัติเพื่อให้คอลัมน์ที่มีช่วงขนาดใหญ่กว่าไม่เข้ามามีอิทธิพลต่อผลลัพธ์เหนือกว่าคอลัมน์อื่น ตัวอย่างเช่น นักวิเคราะห์อาจใช้เงินเฟ้อและ GDP เป็นตัวแปรอินพุตในการจัดคลัสเตอร์ แต่เนื่องจากค่า GDP มีค่าเป็นล้านล้านดอลลาร์ ก็อาจทำให้ค่าของเงินเฟ้อเกือบถูกมองข้ามไปโดยสิ้นเชิงในการคำนวณ Tableau ใช้วิธีการปรับขนาดที่เรียกว่าการทำให้เป็นมาตรฐานต่ำสุด-สูงสุด ซึ่งค่าของตัวแปรแต่ละตัวจะได้รับการจับคู่กับค่าระหว่าง 0 ถึง 1 ด้วยการลบค่าที่น้อยที่สุดออกไปแล้วหารด้วยช่วงข้อมูล

ข้อมูลเกี่ยวกับแบบจำลองสถิติที่ใช้สำหรับคลัสเตอร์

กล่องโต้ตอบ “อธิบายคลัสเตอร์” ให้ข้อมูลเกี่ยวกับแบบจำลองที่ Tableau ใช้คำนวณสำหรับการจัดคลัสเตอร์ คุณสามารถใช้สถิติเหล่านี้เพื่อประเมินคุณภาพของการจัดคลัสเตอร์ได้

เมื่อมุมมองมีการจัดคลัสเตอร์ คุณสามารถเปิดกล่องโต้ตอบ “อธิบายคลัสเตอร์” ด้วยการคลิกขวาที่คลัสเตอร์บนการ์ดเครื่องหมาย (กด Control แล้วคลิกบน Mac) แล้วเลือกอธิบายคลัสเตอร์ ข้อมูลในกล่องโต้ตอบอธิบายคลัสเตอร์สามารถอ่านได้เท่านั้น แต่คุณสามารถคลิกคัดลอกไปยังคลิปบอร์ด แล้ววางเนื้อหาบนหน้าจอในเอกสารที่สามารถแก้ไขได้

อธิบายคลัสเตอร์ - แท็บสรุป

แท็บสรุประบุอินพุตที่ใช้สร้างคลัสเตอร์และให้สถิติบางอย่างที่บอกลักษณะของคลัสเตอร์

อินพุตสำหรับการจัดคลัสเตอร์

ตัวแปร

ระบุฟิลด์ที่ Tableau ใช้เพื่อคำนวณคลัสเตอร์ ฟิลด์เหล่านี้คือฟิลด์ที่อยู่ในกล่อง “ตัวแปร” ในกล่องโต้ตอบ “คลัสเตอร์”

ระดับของรายละเอียด

ระบุฟิลด์ที่ส่งผลต่อระดับของรายละเอียดของมุมมอง ซึ่งก็คือฟิลด์ที่กำหนดระดับของการรวม ดูรายละเอียดได้ที่มิติข้อมูลจะส่งผลต่อระดับของรายละเอียดในมุมมองอย่างไร

การปรับขนาด

ระบุวิธีการปรับขนาดที่ใช้สำหรับก่อนประมวลผล การทำให้เป็นมาตรฐานเป็นวิธีการปรับขนาดเพียงวิธีเดียวที่ Tableau ใช้ในขณะนี้ สูตรสำหรับวิธีการนี้ ซึ่งมีอีกชื่อหนึ่งว่าการทำให้เป็นมาตรฐานต่ำสุด-สูงสุด คือ (x – min(x))/(max(x) - min(x))

การวิเคราะห์สรุป

จำนวนคลัสเตอร์

จำนวนคลัสเตอร์ที่ไม่ซ้ำกันในการจัดคลัสเตอร์

จำนวนจุด

จำนวนเครื่องหมายในมุมมอง

ผลรวมของความเบี่ยงเบนกำลังสองระหว่างกลุ่ม

เมตริกที่แสดงการแยกระหว่างคลัสเตอร์ออกมาเป็นผลรวมของระยะห่างกำลังสองระหว่างจุดศูนย์กลางของแต่ละคลัสเตอร์ (ค่าเฉลี่ย) ถ่วงน้ำหนักด้วยจำนวนจุดข้อมูลที่กำหนดให้แต่ละคลัสเตอร์ และจุดศูนย์กลางของชุดข้อมูล ยิ่งค่ามากเท่าใด การแยกกันระหว่างคลัสเตอร์ก็จะยิ่งดีขึ้นเท่านั้น

ผลรวมของความเบี่ยงเบนกำลังสองภายในกลุ่ม

เมตริกที่แสดงการเกาะกลุ่มของคลัสเตอร์ออกมาเป็นผลรวมของระยะห่างกำลังสองระหว่างจุดศูนย์กลางของแต่ละคลัสเตอร์กับเครื่องหมายแต่ละรายการในคลัสเตอร์ ยิ่งค่าน้อยเท่าใด คลัสเตอร์ก็จะยิ่งเกาะกลุ่มกันมากเท่านั้น

ผลรวมทั้งหมดของความเบี่ยงเบนกำลังสอง

รวมผลรวมของความเบี่ยงเบนกำลังสองระหว่างกลุ่ม และผลรวมของความเบี่ยงเบนกำลังสองภายในกลุ่ม อัตราส่วน (ระหว่างผลรวมของความเบี่ยงเบนกำลังสองระหว่างกลุ่ม)/(ผลรวมทั้งหมดของความเบี่ยงเบนกำลังสอง) ให้สัดส่วนของความแปรปรวนที่อธิบายโดยแบบจำลองนี้ ค่าระหว่าง 0 ถึง 1 โดยปกติแล้วค่าที่มากกว่าจะบ่งชี้ถึงแบบจำลองที่ดีกว่า อย่างไรก็ตาม คุณสามารถเพิ่มอัตราส่วนนี้ได้เพียงแค่เพิ่มจำนวนคลัสเตอร์ จึงอาจทำให้เกิดความเข้าใจผิดได้หากคุณเปรียบเทียบแบบจำลองที่มีห้าคลัสเตอร์กับแบบจำลองที่มีสามคลัสเตอร์โดยใช้เพียงค่านี้

สถิติของคลัสเตอร์

สำหรับแต่ละคลัสเตอร์ในการจัดคลัสเตอร์ จะมีการให้ข้อมูลดังต่อไปนี้

จำนวนรายการ

จำนวนเครื่องหมายภายในคลัสเตอร์

จุดศูนย์กลาง

ค่าเฉลี่ยภายในแต่ละคลัสเตอร์ (แสดงสำหรับรายการที่เป็นตัวเลข)

พบบ่อยที่สุด

ค่าที่พบบ่อยที่สุดภายในแต่ละคลัสเตอร์ (แสดงสำหรับรายการที่เป็นหมวดหมู่เท่านั้น)

อธิบายคลัสเตอร์ - แท็บแบบจำลอง

การวิเคราะห์ความแปรปรวน (Analysis of Variance หรือ ANOVA) คือคอลเลกชันของแบบจำลองทางสถิติและกระบวนการที่เกี่ยวข้องที่มีประโยชน์ในการวิเคราะห์ความแปรปรวนภายในค่าสังเกตและระหว่างค่าสังเกตที่ได้รับการแบ่งขอบเขตออกเป็นกลุ่มหรือคลัสเตอร์ ในกรณีนี้ การวิเคราะห์ความแปรปรวนได้รับการคำนวณแบบต่อตัวแปร และการวิเคราะห์ที่ได้ออกมาของตารางความแปรแปรวนก็สามารถนำไปใช้ตัดสินได้ว่าตัวแปรใดมีประสิทธิภาพที่สุดในการจำแนกคลัสเตอร์

สถิติการวิเคราะห์ความแปรปรวนที่เกี่ยวข้องสำหรับการจัดคลัสเตอร์รวมถึง

F-Statistic

F-Statistic สำหรับ ANOVA ทางเดียวหรือปัจจัยเดียวคือส่วนหนึ่งของความแปรปรวนที่อธิบายด้วยตัวแปรหนึ่งตัว สถิติประเภทนี้คืออัตราส่วนของความแปรปรวนระหว่างกลุ่มกับความแปรปรวนทั้งหมด

ยิ่ง F-Statistic มีค่ามากเท่าใด ตัวแปรที่เกี่ยวข้องก็จะมีความแตกต่างในระหว่างคลัสเตอร์มากเท่านั้น

P-Value

P-Value คือความน่าจะเป็นที่ F-Distribution ของค่าที่เป็นไปได้ทั้งหมดของ F-Statistic ใช้ค่าที่มากกว่า F-Statistic จริงของตัวแปรหนึ่ง หาก P-Value อยู่ต่ำกว่าระดับนัยสำคัญที่ระบุไว้ ก็จะสามารถปฏิเสธสมมติฐาน null (ที่ว่าสมาชิกแต่ละรายการของตัวแปรเป็นตัวอย่างแบบสุ่มจากประชากรกลุ่มเดียว) ได้ ระดับความอิสระสำหรับ F-Distribution นี้คือ (k - 1, N - k) โดยที่ k คือจำนวนคลัสเตอร์ และ N คือจำนวนรายการ (แถว) ที่ได้รับการจัดคลัสเตอร์

ยิ่ง P-Value ต่ำมากเท่าไร ค่าคาดหวังของสมาชิกของตัวแปรที่เกี่ยวข้องก็จะแตกต่างกันมากเท่านั้นในหมู่คลัสเตอร์ต่างๆ

ผลรวมของความเบี่ยงเบนกำลังสองของแบบจำลองและระดับความอิสระ

ผลรวมของความเบี่ยงเบนกำลังสองของแบบจำลองคืออัตราส่วนของผลรวมของความเบี่ยงเบนกำลังสองระหว่างกลุ่มกับระดับความอิสระของแบบจำลอง ผลรวมของความเบี่ยงเบนกำลังสองระหว่างกลุ่มคือการวัดผลความแปรปรวนระหว่างค่าเฉลี่ยของคลัสเตอร์ หากค่าเฉลี่ยของคลัสเตอร์ใกล้กัน (ซึ่งแปลว่าค่าเฉลี่ยเหล่านั้นใกล้กับค่าเฉลี่ยโดยรวมด้วย) ค่านี้จะน้อย แบบจำลองมีระดับความอิสระ k-1 ซึ่ง k คือจำนวนคลัสเตอร์

ผลรวมของความเบี่ยงเบนกำลังสองที่ผิดพลาดและระดับความอิสระ

ผลรวมของความเบี่ยงเบนกำลังสองที่ผิดพลาดคืออัตราส่วนของผลรวมของความเบี่ยงเบนกำลังสองภายในกลุ่มกับระดับความอิสระที่ผิดพลาด ผลรวมของความเบี่ยงเบนกำลังสองภายในกลุ่มวัดผลความความแปรปรวนระหว่างค่าสังเกตภายในแต่ละคลัสเตอร์ ข้อผิดพลาดมีระดับความอิสระ N-k โดยที่ N คือจำนวนค่าสังเกตทั้งหมด (แถว) ที่จัดเป็นคลัสเตอร์ และ k คือจำนวนคลัสเตอร์

เราอาจมองผลรวมของความเบี่ยงเบนกำลังสองที่ผิดพลาดเป็นค่าเฉลี่ยข้อผิดพลาดกำลังสองโดยรวม โดยสันนิษฐานว่าแต่ละจุดศูนย์กลางของคลัสเตอร์แสดง “ความจริง” สำหรับแต่ละคลัสเตอร์

ตัวอย่าง: สร้างคลัสเตอร์โดยใช้ข้อมูลดัชนีชี้วัดเศรษฐกิจโลก

ฟีเจอร์การจัดคลัสเตอร์ของ Tableau แบ่งเครื่องหมายในมุมมองออกเป็นคลัสเตอร์ โดยเครื่องหมายภายในแต่ละคลัสเตอร์จะคล้ายกันมากกว่าเครื่องหมายในต่างคลัสเตอร์ ตัวอย่างนี้แสดงให้เห็นว่านักวิจัยอาจใช้การจัดคลัสเตอร์เพื่อหาเซตเครื่องหมายที่เหมาะสมที่สุด (ในกรณีนี้ก็คือประเทศ/ภูมิภาค) ในแหล่งข้อมูลได้อย่างไร

วัตถุประสงค์

เนื่องจากอายุคาดเฉลี่ยเพิ่มขึ้นทั่วโลก และผู้สูงอายุก็ยังคงใช้ชีวิตอย่างกระฉับกระเฉงมากขึ้น การท่องเที่ยวสำหรับผู้สูงอายุจึงสามารถเป็นตลาดที่ให้ผลกำไรงามแก่บริษัทที่รู้วิธีค้นหาและดึงดูดลูกค้าเป้าหมายได้ ชุดข้อมูลตัวอย่างของตัวชี้วัดของโลกที่มาพร้อมกับ Tableau มีประเภทข้อมูลที่อาจช่วยให้บริษัทระบุประเทศหรือภูมิภาคที่มีลูกค้าประเภทที่ต้องการมากพอได้

การหาประเทศ/ภูมิภาคที่เหมาะสม

นี่คือตัวอย่างที่แสดงให้เห็นว่าการจัดคลัสเตอร์ของ Tableau สามารถช่วยบริษัทประเภทดังกล่าวระบุประเทศ/ภูมิภาคที่ธุรกิจการท่องเที่ยวสำหรับผู้สูงอายุอาจประสบความสำเร็จได้อย่างไร จินตนาการว่าคุณเป็นนักวิเคราะห์ คุณอาจดำเนินการดังนี้

  1. เปิดแหล่งข้อมูลตัวอย่างของตัวชี้วัดของโลกใน Tableau Desktop
  2. คลิกสองครั้งที่ประเทศ/ภูมิภาคในแผงข้อมูล

    Tableau สร้างมุมมองแผนที่ขึ้นโดยอัตโนมัติ พร้อมเครื่องหมายในแต่ละประเทศ/ภูมิภาค

  3. บนการ์ดเครื่องหมาย เปลี่ยนประเภทของเครื่องหมายเป็นแผนที่ ดังนี้

    ตอนนี้คุณน่าจะเห็นเส้นโครงแผนที่ที่ประเทศ/ภูมิภาคทั้งหมดเป็นสีทึบ

  4. ขั้นตอนถัดไปก็คือการระบุฟิลด์ที่คุณจะใช้เป็นตัวแปรสำหรับการจัดคลัสเตอร์ นี่คือฟิลด์ที่คุณเลือก
    ฟิลด์เหตุผลที่ใช้
    อายุคาดเฉลี่ยของเพศหญิงและอายุคาดเฉลี่ยของเพศชายในที่ที่ผู้คนอายุยืนกว่า ก็มีแนวโน้มมากกว่าที่ผู้คนจะสนใจการท่องเที่ยวในช่วงบั้นปลายของชีวิต
    ประชากรในเมืองคุณสามารถทำการตลาดให้บริการในพื้นที่ที่มีความหนาแน่นของประชากรมากกว่าได้ง่ายกว่า
    ประชากรอายุ 65 ปีขึ้นไปประชากรเป้าหมายคือพลเมืองที่เป็นผู้สูงอายุที่มีเวลาและเงินทุนในการท่องเที่ยว
    การท่องเที่ยวต่อหัว

    นี่คือการวัดผลที่คุณต้องสร้างเป็นฟิลด์ที่คำนวณที่ตั้งชื่อ สูตรคือ:

    SUM([Tourism Outbound])/SUM([Population Total])

    การท่องเที่ยวขาออกรวมจำนวนเงิน (ในสกุลดอลลาร์สหรัฐ) ที่พลเมืองของประเทศ/ภูมิภาคหนึ่งๆ ใช้จ่ายต่อปีกับการท่องเที่ยวในต่างประเทศ แต่จำนวนเงินรวมนี้ต้องนำมาหารด้วยจำนวนประชากรของแต่ละประเทศ/ภูมิภาคเพื่อตัดสินจำนวนเงินเฉลี่ยที่พลเมืองแต่ละคนใช้จ่ายกับการท่องเที่ยวในต่างประเทศ

    ไม่มีอะไรรับประกันว่าฟิลด์เหล่านี้เป็นฟิลด์ที่เหมาะที่สุดที่ควรเลือก หรือฟิลด์เหล่านี้จะสร้างผลลัพธ์ของคลัสเตอร์ที่ชัดเจนและไม่กำกวม การจัดคลัสเตอร์เป็นกระบวนการวนซ้ำ ซึ่งการทดลองจะนำไปสู่การสำรวจ และการสำรวจก็จะนำไปสู่การทดลองมากขึ้น

  5. ลากฟิลด์ห้าฟิลด์นี้จากแผงข้อมูลไปยังรายละเอียดบนการ์ดเครื่องหมาย
  6. คลิกเพื่อเปิดแผงการวิเคราะห์

  7. ลากคลัสเตอร์จากแผงวิเคราะห์ไปวางในมุมมอง

    Tableau แสดงกล่องโต้ตอบ “คลัสเตอร์” แล้วเพิ่มการวัดผลในมุมมองไปยังรายการตัวแปร ดังนี้

    นอกจากนี้ Tableau ยังอัปเดตมุมมองด้วยการเพิ่มคลัสเตอร์ไปยังสีด้วย ในกรณีนี้ Tableau พบสองคลัสเตอร์ที่แตกต่างกัน และไม่สามารถกำหนดประเทศ/ภูมิภาค (สีชมพูอมแดง) ให้คลัสเตอร์ใดได้

    หมายเหตุ: ดูการจัดคลัสเตอร์ทำงานอย่างไรเพื่อดูรายละเอียดเกี่ยวกับข้อมูลที่ Tableau กำหนดให้ “ไม่ได้จัดคลัสเตอร์”

  8. คุณตัดสินว่าคลัสเตอร์สองรายการไม่พอ คุณไม่มีทรัพยากรที่จะตั้งร้านค้าในครึ่งหนึ่งของประเทศ/ภูมิภาคในโลก คุณจึงพิมพ์ 4 ในฟิลด์จำนวนคลัสเตอร์ในกล่องโต้ตอบ “คลัสเตอร์”

    แผนที่จะน่าสนใจยิ่งขึ้น

    แต่คลัสเตอร์เหล่านี้เกี่ยวข้องกับตัวแปรที่คุณเลือกอย่างไร คลัสเตอร์ใดที่สัมพันธ์กับปัจจัยที่สนับสนุนการท่องเที่ยวสำหรับผู้สูงอายุมากที่สุด ได้เวลาดูสถิติเบื้องหลังคลัสเตอร์เหล่านี้แล้ว

  9. ปิดกล่องโต้ตอบ “คลัสเตอร์” โดยคลิก X ตรงมุมขวาบน

  10. คลิกฟิลด์คลัสเตอร์บนการ์ดเครื่องหมาย แล้วเลือกอธิบายคลัสเตอร์

    ตารางทางด้านล่างของแท็บแบบจำลองในกล่องโต้ตอบ “อธิบายคลัสเตอร์” แสดงค่าเฉลี่ยของแต่ละตัวแปรในแต่ละคลัสเตอร์

    คลัสเตอร์ 4 มีอายุคาดเฉลี่ยสูงที่สุด (ทั้งเพศชายและเพศหญิง) มีความหนาแน่นของประชากรในเมืองสูงที่สุด และมีการใช้จ่ายเงินกับการท่องเที่ยวในต่างประเทศสูงที่สุดอยู่ที่ $1360.40 ต่อหัว ตัวแปรเดียวที่คลัสเตอร์ 4 ไม่มีค่าสูงที่สุดคือประชากรอายุ 65 ปีขึ้นไป ซึ่งเป็นส่วนที่คลัสเตอร์ 3 ได้เปรียบกว่า โดยอยู่ที่ 0.15493 (ต่ำกว่า 16% เพียงเล็กน้อย) ในขณะที่คลัสเตอร์ 4 อยู่ที่ 0.11606 (เกิน 11% เพียงเล็กน้อย)

    อัลกอริทึมที่จัดคลัสเตอร์ไม่รู้ว่าคุณกำลังมองหาค่าสูงสุดของตัวแปรเหล่านี้ ค่าต่ำสุด หรืออะไรที่อยู่ตรงกลาง อัลกอริทึมเพียงแค่หาความสัมพันธ์เท่านั้น แต่คุณทราบว่าค่าที่สูงกว่าของตัวแปรเหล่านี้คือสัญญาณที่คุณกำลังมองหา และคลัสเตอร์ 4 ก็เป็นตัวเลือกที่ดีที่สุด

  11. คุณอาจลองเลือกประเทศ/ภูมิภาคในคลัสเตอร์ 4 ออกมาจากแผนที่ก็ได้ แต่มีวิธีที่ง่ายกว่านั้น ปิดกล่องโต้ตอบอธิบายคลัสเตอร์ จากนั้นคลิกคลัสเตอร์ 4 บนคำอธิบายสี แล้วเลือกเก็บเฉพาะรายการที่เลือก

  12. เลือกตารางข้อความจาก “แสดงให้ฉันดู”

    ตอนนี้คุณก็จะเห็นรายการประเทศ/ภูมิภาคในคลัสเตอร์ 4 แล้ว

    รายการนี้ไม่ใช่จุดสิ้นสุดของกระบวนการ คุณอาจลองจัดคลัสเตอร์อีกครั้งโดยใช้เซตตัวแปรที่ค่อนข้างต่างออกไป และอาจใช้จำนวนคลัสเตอร์ต่างออกไป หรือคุณอาจเพิ่มบางประเทศ/ภูมิภาคเข้าไปในรายการ แล้วลบประเทศ/ภูมิภาคอื่นออกก็ได้ โดยขึ้นอยู่กับปัจจัยอื่นๆ ตัวอย่างเช่น หากส่วนใหญ่แล้วทัวร์ของคุณไปประเทศแถบร้อนชื้น คุณอาจลบประเทศ/ภูมิภาคอย่างกูราเซาและบาฮามาสออกจากรายการได้ เนื่องจากทัวร์ประเทศแถบร้อนชื้นอาจไม่ดึงดูดพลเมืองในประเทศ/ภูมิภาคเหล่านั้น

    อีกตัวเลือกหนึ่งคือการกรองข้อมูลก่อนที่คุณจะจัดคลัสเตอร์ใหม่ เพื่อให้แสดงแค่ประเทศ/ภูมิภาคที่มีประชากรสูงกว่าเกณฑ์มาตรฐานบางอย่างเท่านั้น หรือกำหนดเป้าหมายไปที่ประเทศ/ภูมิภาคในพื้นที่ทางภูมิศาสตร์หนึ่งๆ โดยเฉพาะ

ขอบคุณสำหรับข้อเสนอแนะของคุณส่งข้อเสนอแนะของคุณเรียบร้อยแล้ว ขอขอบคุณ