ค้นหาชุดข้อมูลที่ดี

วิธีที่ดีในการเรียนรู้วิธีการใช้ Tableau Desktop (หรือสร้างตัวอย่างข้อมูลหรือเนื้อหาหลักฐานพิสูจน์แนวคิด) คือการค้นหาชุดข้อมูลที่คุณสนใจ ขั้นตอนในการวิเคราะห์จะมีความหมายและง่ายดายมากยิ่งขึ้นเมื่อคุณมีคำถามที่แท้จริงที่ต้องการคำตอบเป็นข้อมูล

ความเป็นจริงของชุดข้อมูล

มีข้อเท็จจริงที่หลีกเลี่ยงไม่ได้สองประการเกี่ยวกับการพยายามค้นหาชุดข้อมูลที่ไม่ใช่ข้อมูลที่เป็นทางการที่ได้รับการอนุมัติจากธุรกิจ

คุณจะไม่พบสิ่งที่คุณกำลังมองหา

  • พยายามอย่าตั้งความหวังไว้สูงมาก
  • พยายามมีความยืดหยุ่นและเปิดใจกว้างเข้าไว้เกี่ยวกับสิ่งที่คุณสามารถใช้ได้สำหรับโปรเจกต์ที่กำหนด
  • บางครั้งอาจต้องมีการชำระเงินสำหรับข้อมูลที่คุณต้องการ โปรดตัดสินใจให้ดีว่าข้อมูลนั้นคุ้มค่าหรือไม่

คุณจะต้องล้างข้อมูล

ชุดข้อมูลที่ดีต้องมีอะไรบ้าง

ชุดข้อมูลที่ดีคือชุดข้อมูลที่เหมาะสมกับวัตถุประสงค์ของคุณ ตราบใดที่ข้อมูลนั้นตรงตามความต้องการ ก็ถือว่าชุดข้อมูลนั้นเป็นข้อมูลที่ดี อย่างไรก็ตาม มีข้อควรพิจารณาบางประการที่สามารถช่วยคุณในการคัดแยกชุดข้อมูลที่ไม่น่าจะเหมาะกับวัตถุประสงค์ของคุณได้ โดยรวมแล้ว ให้มองหาชุดข้อมูลที่ตรงตามเงื่อนไขดังต่อไปนี้

  1. ประกอบด้วยสมาชิกที่คุณต้องการ
  2. เป็นข้อมูลแบบไม่รวม
  3. มีมิติข้อมูลอย่างน้อยสองมิติข้อมูลและการวัดผลสองรายการ
  4. มีเมตาดาต้าที่ดีหรือพจนานุกรมข้อมูล
  5. สามารถใช้งานได้ (ไม่ได้อยู่ในรูปแบบกรรมสิทธิ์ ยุ่งเหยิงเกินไป หรือยุ่งยากเกินไป)
อะไรที่ทำให้ Superstore มีความเหนือชั้น

Superstore เป็นหนึ่งในแหล่งข้อมูลตัวอย่างที่มาพร้อมกับ Tableau Desktop เหตุใดมันจึงเป็นชุดข้อมูลที่ดีเช่นนี้

  • สมาชิกที่จำเป็น: Superstore มีวันที่ ข้อมูลทางภูมิศาสตร์ ฟิลด์ที่มีความสัมพันธ์แบบลำดับชั้น (หมวดหมู่ หมวดหมู่ย่อย ผลิตภัณฑ์) การวัดผลที่เป็นบวกและลบ (กำไร) ฯลฯ มีประเภทแผนภูมิเพียงเล็กน้อยที่คุณไม่สามารถทำได้ด้วย Superstore เพียงอย่างเดียว รวมถึงฟีเจอร์บางรายการที่ไม่สามารถสาธิตได้
  • แบบไม่รวม: ข้อมูลระดับแถวคือข้อมูลแต่ละรายการในธุรกรรม รายการเหล่านั้นสามารถสะสมเป็นระดับลำดับได้ (ผ่าน ID ลำดับ) หรือตามมิติข้อมูลรายการใดรายการหนึ่ง (เช่น วันที่ ลูกค้า ภูมิภาค ฯลฯ)
  • มิติข้อมูลและการวัดผล: Superstore มีมิติข้อมูลหลากหลายซึ่งทำให้เราสามารถ “วิเคราะห์ข้อมูลเพียงบางส่วนและปรับเปลี่ยนมุมมองของข้อมูล” ตามประเภทหรือเมืองได้ นอกจากนี้ยังมีการวัดผลและวันที่ที่หลากหลาย ซึ่งทำให้มีโอกาสในการสร้างประเภทแผนภูมิต่างๆ รวมถึงการคำนวณอีกด้วย
  • เมตาดาต้า: Superstore มีฟิลด์และค่าที่ตั้งชื่อไว้อย่างดี คุณไม่จำเป็นต้องค้นหาความหมายของค่าใดๆ อีก
  • มีขนาดเล็กและสะอาด: Superstore มีขนาดเพียงไม่กี่เมกะไบต์เท่านั้น ดังนั้นจึงใช้พื้นที่ในโปรแกรมติดตั้ง Tableau เพียงเล็กน้อย นอกจากนี้ยังเป็นข้อมูลที่สะอาด โดยมีเพียงแค่ค่าที่ถูกต้องในแต่ละฟิลด์และมีโครงสร้างข้อมูลที่ดี

1. ชุดข้อมูลที่ดีต้องมีสมาชิกที่คุณต้องการสำหรับวัตถุประสงค์ของคุณ

หากคุณกำลังมองหาชุดข้อมูลเพื่อสร้างการแสดงเป็นภาพหรือเพื่อแสดงฟังก์ชันแบบเฉพาะเจาะจง โปรดตรวจสอบให้แน่ใจว่าชุดข้อมูลนั้นมีประเภทของฟิลด์ที่คุณต้องการอยู่ด้วย ตัวอย่างเช่น แผนที่คือการแสดงภาพที่ยอดเยี่ยมแต่จำเป็นต้องมีข้อมูลทางภูมิศาสตร์ การสาธิตพื้นฐานมักมีการดูรายละเอียดแนวลึกอยู่ด้วย ดังนั้นข้อมูลจะต้องมีฟิลด์วันที่อย่างน้อยหนึ่งรายการ (และจะต้องมีความละเอียดมากกว่าการดูรายละเอียดแนวลึกแค่ปีเท่านั้น) ชุดข้อมูลบางชุดไม่จำเป็นต้องมีสมาชิกเหล่านี้ทั้งหมด โปรดทราบว่าคุณต้องการสิ่งใดสำหรับวัตถุประสงค์ของคุณบ้าง และจงอย่าเสียเวลากับชุดข้อมูลที่ไม่มีสมาชิกหลัก

สมาชิกทั่วไปสำหรับการวิเคราะห์:

  • วันที่
  • ข้อมูลทางภูมิศาสตร์
  • ข้อมูลลำดับชั้น
  • การวัดผลที่ “น่าสนใจ” ทั้งความแปรผันที่สำคัญของขนาดหรือค่าบวกและค่าลบ

ฟีเจอร์หรือประเภทการแสดงเป็นภาพบางรายการอาจต้องการลักษณะเฉพาะของข้อมูล เช่น: 

  • คลัสเตอร์
  • การพยากรณ์
  • เส้นแนวโน้ม
  • ตัวกรองผู้ใช้
  • การคำนวณเชิงพื้นที่
  • การคำนวณบางประเภท
  • แผนภูมิสัญลักษณ์แสดงหัวข้อย่อย
  • แผนภูมิควบคุม

2. ชุดข้อมูลที่ดีจะต้องเป็นข้อมูลแบบไม่รวม (ดิบ)

หากข้อมูลมีการรวมกันมากเกินไป คุณจะไม่สามารถวิเคราะห์ข้อมูลนั้นได้มากนัก ตัวอย่างเช่น หากคุณต้องการดูแนวโน้มของผู้คนที่ทำการค้นหา “Pumpkin Spice” ใน Google แต่คุณมีข้อมูลรายปีอยู่ คุณจะสามารถดูภาพรวมในระดับสูงมากได้เท่านั้น หากเป็นไปได้คุณคงต้องการที่จะได้รับข้อมูลรายวันเพื่อที่ว่าคุณจะได้สามารถเห็นการเพิ่มขึ้นอย่างรวดเร็วเมื่อ Starbucks เริ่มให้บริการ #PSL

จำนวนข้อมูลแบบไม่รวมกันจะแตกต่างกันออกไปตามการวิเคราะห์ โปรดทราบว่าชุดข้อมูลบางชุดจะไม่มีรายละเอียดปลีกย่อยอย่างครบถ้วนเนื่องจากความเป็นส่วนตัวหรือการนำไปปฏิบัติได้จริง ตัวอย่างเช่น คุณไม่น่าจะพบชุดข้อมูลที่มีการรายงานโรคมาลาเรียตามที่อยู่ทีละกรณี ดังนั้นยอดรวมรายเดือนตามภูมิภาคอาจมีความละเอียดเพียงพอแล้ว

การรวมและมุมมองแบบละเอียด

มีหลายสาเหตุที่ทำให้การเข้าใจการรวมและรายละเอียดเป็นแนวคิดที่สำคัญอย่างยิ่ง เนื่องจากผลกระทบต่อสิ่งต่างๆ เช่น การค้นหาชุดข้อมูลที่มีประโยชน์ การสร้างการแสดงเป็นภาพที่ต้องการ การรวมข้อมูลอย่างถูกต้อง และการใช้นิพจน์ LOD การรวมและมุมมองแบบละเอียดคือส่วนตรงข้ามของสเปกตรัม

การรวม หมายถึงวิธีการรวมข้อมูลเข้าด้วยกัน เช่น การรวมการค้นหา Pumpkin Spice ทั้งหมด หรือการหาค่าเฉลี่ยของการอ่านอุณหภูมิรอบๆ ซีแอตเทิลในวันที่กำหนด

  • การวัดผลใน Tableau จะเป็นแบบรวมตามค่าเริ่มต้น การรวมเริ่มต้นคือ SUM คุณสามารถเปลี่ยนการรวมเป็นค่าต่างๆ เช่น ค่าเฉลี่ย ค่ามัธยฐาน จำนวนที่ไม่ซ้ำกัน ค่าต่ำสุด ฯลฯ

มุมมองแบบละเอียด หมายถึงรายละเอียดของข้อมูล แถว (หรือเรียกอีกชื่อหนึ่งว่า ระเบียน) ในชุดข้อมูลแสดงถึงอะไร มีผู้ป่วยโรคมาลาเรียจำนวนเท่าใด มีผู้ป่วยโรคมาลาเรียทั้งจังหวัดในเดือนนี้จำนวนเท่าใด นั้นคือมุมมองแบบละเอียด การรู้มุมมองแบบละเอียดของข้อมูลถือเป็นสิ่งที่สำคัญ

หากต้องการข้อมูลเพิ่มเติม โปรดดู การรวมข้อมูลใน Tableau

3. ชุดข้อมูลที่ดีต้องมีมิติข้อมูลและการวัดผล

ประเภทการแสดงเป็นภาพต่างๆ จำเป็นต้องมีมิติข้อมูลและการวัดผล

  • หากคุณมีเพียงมิติข้อมูลเท่านั้น ส่วนใหญ่คุณจะสามารถทำได้เพียง การคำนวณเปอร์เซ็นต์ หรือการใช้ฟิลด์จำนวนของตาราง
  • หากคุณมีการวัดผลเพียงอย่างเดียว คุณจะไม่สามารถแยกค่าออกเป็นค่าใดค่าหนึ่งได้ คุณสามารถแยกข้อมูลทั้งหมดหรือใช้งาน SUM หรือ AVG โดยรวม ฯลฯ ได้

ซึ่งไม่ได้หมายความว่าชุดข้อมูลที่มีมิติข้อมูลเพียงอย่างเดียวนั้นจะไม่มีประโยชน์ ข้อมูลประชากรเป็นตัวอย่างของข้อมูลที่มีมิติข้อมูลเป็นจำนวนมาก และมีการวิเคราะห์เกี่ยวกับข้อมูลประชากรต่างๆ จำนวนมากที่กำลังนับอยู่หรือที่อิงตามเปอร์เซ็นต์ แต่สำหรับชุดข้อมูลที่มีการวิเคราะห์มากขึ้น คุณจำเป็นต้องใช้มิติข้อมูลและการวัดผลอย่างน้อยสองถึงสามรายการ

“มิติข้อมูล” และ “การวัดผล” “แบบแยกกัน” และ “แบบต่อเนื่อง”

แผงข้อมูลและการ์ดเครื่องหมายแสดงถึงประเภทข้อมูลที่จะแสดง

ในภาพด้านบน โปรดทราบว่ามิติข้อมูลที่เป็นตัวเลขจะไม่มีการรวมบนอยู่บนการ์ดเครื่องหมายซึ่งแตกต่างกับการวัดผลแบบต่อเนื่องและการวัดผลแบบแยกกัน

มิติข้อมูลและการวัดผล

ระบบมีการแบ่งฟิลด์ออกเป็นมิติข้อมูลและการวัดผลด้วยเส้นแนวนอนในแผงข้อมูล ใน Tableau มิติข้อมูลจะแสดงในมุมมองด้วยตนเอง ในขณะที่ระบบจะรวมการวัดผลเอาไว้โดยอัตโนมัติ การรวมเริ่มต้นสำหรับการวัดผลคือ SUM

  • มิติข้อมูลจะมีลักษณะเป็นเชิงคุณภาพซึ่งหมายถึงมีการอธิบายมิติข้อมูลเหล่านั้นแต่ไม่มีการวัดผล
    • มิติข้อมูลมักเป็นข้อมูลจำพวก เมืองหรือประเทศ สีตา หมวดหมู่ ชื่อทีม ฯลฯ
    • มิติข้อมูลมักจะแยกกัน
  • การวัดผลจะมีลักษณะเป็นเชิงปริมาณซึ่งหมายถึงว่าสามารถวัดผลและบันทึกได้ (เป็นตัวเลข)
    • การวัดผลมักจะเป็นข้อมูลจำพวก ยอดขาย ความสูง จำนวนคลิก ฯลฯ
    • การวัดผลนั้นมักจะมีความต่อเนื่อง

หากคุณสามารถคำนวณข้อมูลเหล่านั้นได้ แปลว่ามันคือการวัดผล หากคุณเคยสงสัยว่าฟิลด์ใดฟิลด์หนึ่งควรเป็นการวัดผลหรือมิติข้อมูลกันแน่ ให้ลองคิดดูว่าคุณสามารถคำนวณค่าต่างๆ เหล่านั้นได้หรือไม่ ผลรวมของหมายเลขประกันสังคมสองหมายเลขหรือการหารรหัสไปรษณีย์ด้วย 10 มีความหมายอะไรต่อ AVG(RowID) หรือไม่ ไม่มี นั่นคือมิติข้อมูลที่บังเอิญเขียนเป็นตัวเลข ลองนึกดูว่ามีกี่ประเทศที่มีรหัสไปรษณีย์ที่เป็นตัวเลขและตัวอักษร ซึ่งพวกมันเป็นเพียงป้ายกำกับเท่านั้น ถึงแม้ว่าในสหรัฐอเมริกาจะเป็นเพียงแค่ตัวเลขก็ตาม Tableau สามารถจดจำชื่อฟิลด์ได้หลายชื่อที่ระบุว่าจริงๆ แล้วฟิลด์ตัวเลขนั้นเป็น ID หรือรหัสไปรษณีย์ และพยายามสร้างมิติข้อมูลเหล่านั้นแต่ก็ไม่ได้สมบูรณ์แบบ ใช้การทดสอบ “ฉันสามารถคำนวณสิ่งนี้ได้หรือไม่” เพื่อตัดสินใจว่าฟิลด์ตัวเลขควรเป็นการวัดผลหรือเป็นมิติข้อมูล และจัดเรียงแผงข้อมูลใหม่ตามความจำเป็น

หมายเหตุ: แม้ว่าคุณจะสามารถคำนวณวันที่ (เช่น การคำนวณ DATEDIFF) ได้ แต่หลักการมาตรฐานก็คือการจัดหมวดหมู่วันที่เป็นมิติข้อมูล

แบบต่อเนื่องและแบบแยกกัน

ฟิลด์ “แบบต่อเนื่อง” หรือ “แบบแยกกัน” จะมีความสอดคล้องกับแนวคิดของมิติข้อมูลและการวัดผลอยู่ แต่ก็ไม่เหมือนกันเสียทีเดียว

  • ฟิลด์แบบแยกกันจะประกอบด้วยค่าที่ต่างกัน ฟิลด์เหล่านี้มีส่วนหัวหรือป้ายกำกับในมุมมองและช่องจะเป็นสีฟ้า
  • ฟิลด์แบบต่อเนื่อง “รูปแบบทั้งหมดที่ไม่ขาดตอน” ฟิลด์เหล่านี้มีแกนในมุมมองและช่องจะเป็นสีเขียว

วิธีที่ดีในการทำความเข้าใจแบบต่อเนื่องและแบบแยกกันคือการดูฟิลด์วันที่ วันที่สามารถเป็นแบบแยกกันหรือแบบต่อเนื่องก็ได้

  • การดูอุณหภูมิเฉลี่ยในเดือนสิงหาคมในช่วงทศวรรษหรือศตวรรษหมายความว่าระบบจะใช้เดือน “สิงหาคม” เพื่อดูข้อมูลเชิงคุณภาพแบบแยกกัน
  • เมื่อพิจารณาถึงแนวโน้มโดยรวมของรายงานผู้ป่วยโรคมาลาเรียตั้งแต่ปี 1960 อาจจะใช้แกนเดียวแบบไม่ขาดตอน ซึ่งหมายความว่าระบบจะใช้วันที่เพื่อดูข้อมูลเชิงปริมาณแบบต่อเนื่อง

หากต้องการข้อมูลเพิ่มเติม โปรดดู มิติข้อมูลและการวัดผล สีฟ้าและสีเขียว

ฟิลด์ที่ Tableau สร้าง

Tableau จะสร้างอย่างน้อยสามฟิลด์ ไม่ว่าชุดข้อมูลนั้นคือ:

  • ชื่อการวัดผล (มิติข้อมูล)
  • ค่าที่วัด (การวัดผล)
  • TableName(จำนวน) (การวัดผล)

และหากมีฟิลด์ข้อมูลทางภูมิศาสตร์อยู่ในชุดข้อมูล Tableau จะสร้างฟิลด์ละติจูด (ที่สร้างขึ้น) และลองจิจูด (ที่สร้างขึ้น)

ชื่อการวัดผลและค่าที่วัดเป็นสองฟิลด์ที่มีประโยชน์ หากต้องการข้อมูลเพิ่มเติม โปรดดู ค่าที่วัดและชื่อการวัดผล

จำนวนของตารางระบุจำนวนระเบียนข้อมูลสำหรับตารางโดยการนับแถว ซึ่งจะช่วยให้คุณมีการวัดผลอย่างน้อยหนึ่งชุดอยู่ในชุดข้อมูลและสามารถช่วยในการวิเคราะห์บางรายการได้ คุณต้องทำความเข้าใจมุมมองแบบละเอียดความของข้อมูลของคุณ (ข้อมูลที่มีในแถว) เพื่อให้สามารถกำหนดความหมายของจำนวนแถวได้

ในที่นี้ แต่ละแถวคือหนึ่งวัน ดังนั้น “จำนวนของตาราง” ก็คือจำนวนวัน:

ในที่นี้ แต่ละแถวคือหนึ่งเดือน ดังนั้น “จำนวนของตาราง” ก็คือจำนวนเดือน:

4. ชุดข้อมูลที่ดีจะต้องมีเมตาดาต้าหรือพจนานุกรมข้อมูล

ชุดข้อมูลจะมีประโยชน์ก็ต่อเมื่อคุณรู้ว่าข้อมูลนั้นคืออะไร มีเรื่องให้หงุดหงิดใจมากมายในการตามล่าหาข้อมูลมากกว่าการเปิดไฟล์มาแล้วพบข้อมูลหน้าตาแบบนี้เสียอีก:

มุมมองสเปรดชีตของข้อมูลตัวเลขทั้งหมด

“แหล่งที่มา” ของ 4 หรือ 12 หมายถึงอะไร และมีข้อมูลอะไรบ้างในฟิลด์ OTU0-OTU4

ชุดข้อมูลที่ดีคือชุดข้อมูลที่มีฟิลด์และสมาชิกที่มีป้ายกำกับชัดเจน หรือมีพจนานุกรมข้อมูลที่จะช่วยให้คุณสามารถติดป้ายกำกับข้อมูลใหม่ได้ด้วยตนเอง ลองนึกถึง Superstore ที่เห็นภาพขึ้นมาชัดเจนในทันทีเลยว่าฟิลด์และค่าของฟิลด์เหล่านั้นคืออะไร เช่น “หมวดหมู่” และสมาชิกของหมวดหมู่ ซึ่งได้แก่ “เทคโนโลยี” “เฟอร์นิเจอร์” และ “อุปกรณ์สำนักงาน” หรือสำหรับชุดข้อมูลไมโครไบโอมในภาพด้านบนจะมีพจนานุกรมข้อมูล(ลิงก์จะเปิดในหน้าต่างใหม่)ซึ่งอธิบายถึง “แหล่งที่มา” แต่ละรายการอยู่ (4 คืออุจจาระและ 12 คือกระเพาะอาหาร) และอนุกรมวิธานของ OTU แต่ละรายการ (OTU3 คือแบคทีเรียในสกุล Parabacteroides)

สามารถเรียกพจนานุกรมข้อมูลได้หลากหลาย เช่น เมตาดาต้า ตัวบ่งชี้ คำจำกัดความของตัวแปร อภิธานศัพท์ หรือสิ่งอื่นอีกมากมาย แต่ในท้ายที่สุดแล้วพจนานุกรมข้อมูลก็จะคอยให้ข้อมูลเกี่ยวกับชื่อคอลัมน์และสมาชิกในคอลัมน์นั่นเอง สามารถนำเข้าข้อมูลดังกล่าวมายังแหล่งข้อมูลหรือเข้ามาในการแสดงเป็นภาพได้หลากหลายวิธีดังนี้

  • เปลี่ยนชื่อคอลัมน์เพื่อให้เข้าใจง่ายขึ้น (สามารถดำเนินการในชุดข้อมูลนั้นได้เลย หรือใน Tableau ก็ได้)
  • เปลี่ยนชื่อแทนสมาชิกของฟิลด์ (สามารถดำเนินการในชุดข้อมูลนั้นได้เลย หรือใน Tableau ก็ได้)
  • สร้างการคำนวณเพื่อเพิ่มข้อมูลพจนานุกรมข้อมูล
  • ความคิดเห็นเกี่ยวกับฟิลด์ใน Tableau (ความคิดเห็นจะไม่ปรากฏอยู่บนการแสดงเป็นภาพที่เผยแพร่แต่จะปรากฏเฉพาะในสภาพแวดล้อมการเขียนเท่านั้น)
  • ใช้พจนานุกรมข้อมูลเป็นแหล่งข้อมูลอื่นและรวมแหล่งข้อมูลทั้งสองเข้าด้วยกัน

การสูญเสียพจนานุกรมข้อมูลไปอาจทำให้ชุดข้อมูลนั้นไร้ประโยชน์ได้ หากคุณกำลังบุ๊กมาร์กชุดข้อมูลอยู่ ให้บุ๊กมาร์กพจนานุกรมข้อมูลเอาไว้ด้วย หากคุณกำลังดาวน์โหลดอยู่ ให้ดาวน์โหลดทั้งสองรายการและเก็บไว้ในที่เดียวกัน

5. ชุดข้อมูลที่ดีคือชุดข้อมูลที่คุณสามารถนำไปใช้ได้

ตราบใดที่คุณสามารถทำความเข้าใจชุดข้อมูลและมีข้อมูลที่คุณต้องการ แม้จะเป็นเพียงชุดข้อมูลขนาดเล็กแต่ก็สามารถทำการวิเคราะห์ได้อย่างมีประสิทธิภาพ อีกทั้งชุดข้อมูลที่มีขนาดเล็กนั้นยังง่ายต่อการจัดเก็บ แชร์ และเผยแพร่ และมีแนวโน้มที่จะทำงานได้อย่างมีประสิทธิภาพ

ในทำนองเดียวกัน หากคุณพบเจอชุดข้อมูลที่ “สมบูรณ์แบบ” ที่ตรงกับความต้องการของคุณ แต่คุณจำเป็นต้องใช้ความพยายามอย่างมากในการล้างข้อมูลเหล่านั้น ก็จะถือว่าข้อมูลเหล่านั้นไม่ได้มีความสมบูรณ์อะไรเลย การที่รู้ว่าเมื่อใดควรเลิกใช้ข้อมูลที่มีความยุ่งเหยิงมากเกินไปถือเป็นเรื่องที่สำคัญ

ตัวอย่างเช่น ชุดข้อมูลนี้มาจากบทความ Wikipedia เกี่ยวกับความถี่ของตัวอักษรที่เกี่ยวข้อง เริ่มต้นที่ 84 แถว 16 คอลัมน์ (เปลี่ยนรูปแบบข้อมูลเป็น 1,245 แถว 3 คอลัมน์) ไฟล์ Excel ขนาด 16KB แต่ด้วยกลุ่ม เซต การคำนวณ และการปรับแต่งอื่นๆ บางรายการทำให้การวิเคราะห์นั้นมีประสิทธิภาพและมีการแสดงภาพที่น่าสนใจ

คลิกที่ภาพเพื่อดาวน์โหลดเวิร์กบุ๊ก

ติดป้ายกำกับข้อมูลของคุณใหม่

เมื่อคุณพบชุดข้อมูลที่ดีแล้ว คุณอาจจะต้องติดป้ายกำกับใหม่ให้กับข้อมูลนั้นด้วย การติดป้ายกำกับข้อมูลใหม่อาจมีประโยชน์ในการสร้างข้อมูลปลอมสำหรับตัวอย่างข้อมูลหรือเนื้อหาหลักฐานพิสูจน์แนวคิด หรือเพื่อทำให้ข้อมูลนั้นอ่านง่ายขึ้น

การเปลี่ยนชื่อ ฟิลด์จะเปลี่ยนวิธีที่ฟิลด์นั้นปรากฏใน Tableau เช่นการเปลี่ยนชื่อ “ยอดขาย” เป็น “กระบวนการขาย” หรือ “รัฐ” เป็น “จังหวัด”

การตั้งชื่อแทนใหม่ จะเปลี่ยนวิธีการแสดงสมาชิกของฟิลด์ เช่น การกำหนดชื่อแทนใหม่ในฟิลด์ “ประเทศ” เพื่อให้ CHN คือจีน และ RUS คือรัสเซีย

  • ค่าในฟิลด์มิติข้อมูลแบบแยกกันเรียกว่าสมาชิก สามารถตั้งชื่อแทนใหม่ให้กับสมาชิกเท่านั้น พิจารณาการวัดผลฟิลด์สำหรับอุณหภูมิ ไม่สามารถเปลี่ยนแปลงค่า 54°F ได้โดยไม่มีการเปลี่ยนแปลงตัวข้อมูลนั้นก่อน แต่การตั้งชื่อแทนใหม่ให้กับสมาชิกว่า “CHN” เป็น “จีน” ในฟิลด์ “ประเทศ” ถือว่าเป็นข้อมูลเดียวกัน เพียงแค่เป็นการติดป้ายกำกับแทนกันเท่านั้น

การเปลี่ยนชื่อและการตั้งชื่อแทนใหม่มีความหมายที่คล้ายคลึงกัน ถือเป็นหลักการใน Tableau ที่จะต้องมีการตั้งชื่อฟิลด์และตั้งชื่อแทนให้กับสมาชิก หากต้องการข้อมูลเพิ่มเติม โปรดดู จัดระเบียบและปรับแต่งฟิลด์ในแผงข้อมูลและสร้างชื่อแทนเพื่อเปลี่ยนชื่อสมาชิกในมุมมอง

หมายเหตุ: การเปลี่ยนชื่อหรือการตั้งชื่อแทนใหม่จะเปลี่ยนลักษณะที่ปรากฏใน Tableau Desktop เท่านั้น จะไม่มีการเขียนการเปลี่ยนแปลงใดๆ กลับไปยังข้อมูลเบื้องหลัง

ติดป้ายกำกับใหม่เพื่อสร้างข้อมูลปลอม

การติดป้ายกำกับใหม่ให้กับข้อมูลที่มีอยู่เป็นวิธีที่ยอดเยี่ยมในการทำให้ตัวอย่างข้อมูลหรือเนื้อหาหลักฐานพิสูจน์แนวคิดมีความน่าสนใจมากยิ่งขึ้น

  1. ใช้ชุดข้อมูลอย่างง่าย (เช่น Superstore) เพื่อสร้างสิ่งที่คุณต้องการ (ประเภทแผนภูมิแบบเฉพาะเจาะจง แสดงฟังก์ชันบางรายการ ฯลฯ)
  2. เปลี่ยนชื่อฟิลด์ที่เกี่ยวข้อง เปลี่ยนเคล็ดลับเครื่องมือ หรือเปลี่ยนลักษณะที่เป็นข้อความเพื่อปิดบังข้อมูลที่แท้จริง

สำคัญ: ดำเนินการเช่นนี้ก็ต่อเมื่อมีความชัดเจนแล้วว่าข้อมูลนั้นเป็นข้อมูลปลอมเท่านั้น ระวังอย่าให้ผู้อื่นคิดว่าเป็นข้อมูลที่แท้จริงและพยายามใช้ข้อมูลนั้นเพื่อการวิเคราะห์ ตัวอย่างเช่น ใช้ชื่อที่ไร้สาระหรือใช้ชื่อฟิลด์ที่ไม่มีความหมาย เช่น สีหรือสัตว์

ตั้งชื่อแทนใหม่เพื่อให้ข้อมูลใช้งานได้ง่ายยิ่งขึ้น

การจัดเก็บข้อมูลเป็นค่าตัวเลขมากกว่าค่าสตริงจะมีประสิทธิภาพมากกว่า ถึงแม้ว่าการเข้ารหัสตัวเลขจะทำให้เข้าใจข้อมูลนั้นได้ยากยิ่งขึ้นก็ตาม สำหรับชุดข้อมูลที่มีขนาดเล็ก อาจไม่ส่งผลกระทบต่อประสิทธิภาพการทำงานใดๆ ดังนั้นจงให้ความสำคัญไปที่การทำให้ข้อมูลเหล่านั้นง่ายต่อการทำความเข้าใจ

ข้อเสียของการตั้งชื่อแทนใหม่คือคุณจะไม่สามารถเข้าถึงค่าตัวเลขเหล่านั้นได้อีกต่อไป (ทำให้ยากต่อการดำเนินการต่างๆ เช่น การจัดเรียงหรือการไล่ระดับสี ฯลฯ) พิจารณาทำซ้ำฟิลด์และตั้งชื่อแทนใหม่ให้กับสำเนา อีกทางหนึ่ง การคำนวณใน Tableau อาจเป็นวิธีที่ดีในการคงไว้ซึ่งข้อมูลเดิมในขณะที่ทำให้ข้อมูลนั้นง่ายต่อการเข้าใจมากยิ่งขึ้นไปพร้อมๆ กันอีกด้วย

ตั้งชื่อแทนใหม่ด้วยฟังก์ชัน CASE

การคำนวณอาจจะมีประสิทธิภาพอย่างยิ่งสำหรับการตั้งชื่อแทนใหม่ ตัวอย่างเช่น ฟังก์ชัน CASE อนุญาตให้คุณพูดว่า “เมื่อฟิลด์นี้มีค่าเป็น A จงให้ X แก่ฉัน เมื่อค่านี้เป็น B จงให้ Y แก่ฉัน”

ในที่นี้ ฟังก์ชัน CASE จะดู “F-scale” ในชุดข้อมูลพายุทอร์นาโด และจะมอบคำอธิบายเป็นลายลักษณ์อักษรที่เกี่ยวข้องกับค่าตัวเลขแต่ละค่าเอาไว้ให้:

CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END

ขณะนี้เราสามารถเลือกใช้ฟิลด์ “F-scale” ดั้งเดิม (0-5) หรือฟิลด์ “F-scale คำอธิบายความเสียหาย” ในการแสดงเป็นภาพได้

เคล็ดลับในการมองหาชุดข้อมูล

หมายเหตุ: พยายามตรวจสอบให้แน่ใจว่าคุณสามารถตอบคำถามนี้ได้ “แถวในชุดข้อมูล (หรือที่รู้จักกันในนาม ระเบียน) แสดงถึงสิ่งใด” หากคุณไม่สามารถตอบคำถามนั้นได้ แปลว่าคุณอาจจะไม่เข้าใจข้อมูลนั้นดีเพียงพอที่จะนำไปใช้ หรือข้อมูลเหล่านั้นอาจมีโครงสร้างสำหรับการวิเคราะห์ที่ไม่ดีพอ

  • ติดตามว่าข้อมูลนั้นว่ามาจากที่ใด
  • เก็บข้อมูลของพจนานุกรมข้อมูลไว้กับตัวข้อมูลเอง
  • หลีกเลี่ยงการใช้ข้อมูลเก่าหากคุณต้องการให้เนื้อหามีความเป็นปัจจุบันอยู่ตลอดเวลา มองหา:
    • ข้อมูลที่อัปเดตได้ (หุ้น สภาพอากาศ รายงานที่เผยแพร่เป็นประจำ ฯลฯ)
    • ข้อมูลที่อยู่เหนือกาลเวลา (มวลเฉลี่ยของสัตว์ต่างๆ ที่จะไม่เปลี่ยนแปลงในทุกปี)
    • ข้อมูลที่คุณสามารถพิสูจน์ได้ในอนาคตโดยเปลี่ยนเป็นวันที่ในอดีตหรือในอนาคตแบบสมมติ
  • เพียงแค่ลองค้นหาสิ่งที่คุณกำลังมองหาใน Google คุณอาจจะรู้สึกประหลาดใจก็ได้
  • อย่ากลัวที่จะต้องทิ้งชุดข้อมูลที่ต้องใช้การดำเนินการในการจัดเตรียมมากเกินไป

สถานที่สำหรับค้นหาข้อมูล

สามารถหาข้อมูลได้จากที่ไหน คุณสามารถค้นหาชุดข้อมูลได้จากหลากหลายสถานที่ ต่อไปนี้คือตัวเลือกบางส่วนที่จะช่วยให้คุณเริ่มต้น โปรดทราบว่าความเป็นจริงของชุดข้อมูลจะมีผลกับไซต์เหล่านี้ คุณอาจไม่พบข้อมูลที่คุณกำลังนึกถึงอยู่ในขณะนี้ และคุณอาจจะต้องทำความสะอาดข้อมูลเพื่อเป็นการเตรียมข้อมูลเหล่านั้นให้พร้อมสำหรับการวิเคราะห์

ข้อจำกัดความรับผิดชอบ: แม้ว่าเราจะพยายามอย่างเต็มที่เพื่อให้แน่ใจว่าลิงก์ไปยังเว็บไซต์ภายนอกเหล่านี้ถูกต้อง เป็นปัจจุบัน และมีความเกี่ยวข้องกัน กระนั้น Tableau ไม่สามารถรับผิดชอบต่อความถูกต้องหรือความสดใหม่ของหน้าต่างๆ ที่ผู้ให้บริการภายนอกเป็นผู้ดูแลได้ การแสดงไซต์ที่นี่ไม่ถือเป็นการรับรองเนื้อหาหรือองค์กรใดๆ ติดต่อไซต์ภายนอกเพื่อขอคำตอบสำหรับคำถามเกี่ยวกับเนื้อหา

Tableau Public(ลิงก์จะเปิดในหน้าต่างใหม่): Tableau Public คือแหล่งข้อมูลที่น่าทึ่งสำหรับชุดข้อมูลที่เป็นมิตรกับ Tableau ค้นหาเวิร์กบุ๊กที่อยู่ในหัวข้อที่คุณสนใจ ค้นหาแรงบันดาลใจ จากนั้นดาวน์โหลดเวิร์กบุ๊กเพื่อเข้าถึงข้อมูล หรือตรวจสอบตัวอย่างข้อมูล(ลิงก์จะเปิดในหน้าต่างใหม่)ที่คัดสรรมาไว้ให้แล้ว

ตาราง Wikipedia(ลิงก์จะเปิดในหน้าต่างใหม่): ดึงข้อมูลออกจากตาราง Wikipedia โดยการคัดลอกและวางไปยังสเปรดชีต การคัดลอกและวางไปยัง Tableau โดยตรงหรือใช้ Google ชีตและฟังก์ชัน IMPORTHTML(ลิงก์จะเปิดในหน้าต่างใหม่) เพื่อสร้าง Google สเปรดชีตของข้อมูล

Google Dataset Search(ลิงก์จะเปิดในหน้าต่างใหม่): “เครื่องมือค้นหาเพื่อรวบรวมชุดข้อมูลออนไลน์ที่กระจัดกระจาย”

Data is Plural(ลิงก์จะเปิดในหน้าต่างใหม่) : สมัครรับจดหมายข่าวรายสัปดาห์พร้อมกับชุดข้อมูล หรือเรียกดูคลังข้อมูล(ลิงก์จะเปิดในหน้าต่างใหม่)

Makeover Monday(ลิงก์จะเปิดในหน้าต่างใหม่): “เข้าร่วมกับเราทุกวันจันทร์เพื่อทำงานกับชุดข้อมูลที่กำหนด และสร้างการแสดงเป็นภาพที่ดียิ่งขึ้น มีประสิทธิภาพมากขึ้น และช่วยให้เราเข้าถึงข้อมูลได้มากขึ้น” คุณสามารถดูวิธีที่คนอื่นดำเนินการกับชุดข้อมูลเดียวกัน เริ่มการวิเคราะห์หรือส่งต่อแรงบันดาลใจได้อีกด้วย ใช้ #makeovermonday(ลิงก์จะเปิดในหน้าต่างใหม่) บน Twitter เพื่อเข้าร่วม

ไซต์อื่นๆ

ขอบคุณสำหรับข้อเสนอแนะของคุณส่งข้อเสนอแนะของคุณเรียบร้อยแล้ว ขอขอบคุณ