ค้นหาชุดข้อมูลที่ดี
วิธีที่ดีในการเรียนรู้วิธีการใช้ Tableau Desktop (หรือสร้างตัวอย่างข้อมูลหรือเนื้อหาหลักฐานพิสูจน์แนวคิด) คือการค้นหาชุดข้อมูลที่คุณสนใจ ขั้นตอนในการวิเคราะห์จะมีความหมายและง่ายดายมากยิ่งขึ้นเมื่อคุณมีคำถามที่แท้จริงที่ต้องการคำตอบเป็นข้อมูล
ความเป็นจริงของชุดข้อมูล
มีข้อเท็จจริงที่หลีกเลี่ยงไม่ได้สองประการเกี่ยวกับการพยายามค้นหาชุดข้อมูลที่ไม่ใช่ข้อมูลที่เป็นทางการที่ได้รับการอนุมัติจากธุรกิจ
คุณจะไม่พบสิ่งที่คุณกำลังมองหา
- พยายามอย่าตั้งความหวังไว้สูงมาก
- พยายามมีความยืดหยุ่นและเปิดใจกว้างเข้าไว้เกี่ยวกับสิ่งที่คุณสามารถใช้ได้สำหรับโปรเจกต์ที่กำหนด
- บางครั้งอาจต้องมีการชำระเงินสำหรับข้อมูลที่คุณต้องการ โปรดตัดสินใจให้ดีว่าข้อมูลนั้นคุ้มค่าหรือไม่
คุณจะต้องล้างข้อมูล
- เตรียมพร้อมสำหรับการทำความสะอาดและการสร้าง(ลิงก์จะเปิดในหน้าต่างใหม่)พื้นฐานเพื่อให้แน่ใจว่าข้อมูลมีการสร้างโครงสร้างที่ดีเพื่อดำเนินการวิเคราะห์เรียบร้อยแล้ว
- คุณอาจจำเป็นต้องนำชุดข้อมูลอื่นเข้ามา(ลิงก์จะเปิดในหน้าต่างใหม่)
- การมีพจนานุกรมข้อมูลหรือเมตาดาต้าไว้ถือว่ามีความสำคัญ
- อาจจำเป็นต้องมีการคำนวณ
ชุดข้อมูลที่ดีต้องมีอะไรบ้าง
ชุดข้อมูลที่ดีคือชุดข้อมูลที่เหมาะสมกับวัตถุประสงค์ของคุณ ตราบใดที่ข้อมูลนั้นตรงตามความต้องการ ก็ถือว่าชุดข้อมูลนั้นเป็นข้อมูลที่ดี อย่างไรก็ตาม มีข้อควรพิจารณาบางประการที่สามารถช่วยคุณในการคัดแยกชุดข้อมูลที่ไม่น่าจะเหมาะกับวัตถุประสงค์ของคุณได้ โดยรวมแล้ว ให้มองหาชุดข้อมูลที่ตรงตามเงื่อนไขดังต่อไปนี้
- ประกอบด้วยสมาชิกที่คุณต้องการ
- เป็นข้อมูลแบบไม่รวม
- มีมิติข้อมูลอย่างน้อยสองมิติข้อมูลและการวัดผลสองรายการ
- มีเมตาดาต้าที่ดีหรือพจนานุกรมข้อมูล
- สามารถใช้งานได้ (ไม่ได้อยู่ในรูปแบบกรรมสิทธิ์ ยุ่งเหยิงเกินไป หรือยุ่งยากเกินไป)
Superstore เป็นหนึ่งในแหล่งข้อมูลตัวอย่างที่มาพร้อมกับ Tableau Desktop เหตุใดมันจึงเป็นชุดข้อมูลที่ดีเช่นนี้
- สมาชิกที่จำเป็น: Superstore มีวันที่ ข้อมูลทางภูมิศาสตร์ ฟิลด์ที่มีความสัมพันธ์แบบลำดับชั้น (หมวดหมู่ หมวดหมู่ย่อย ผลิตภัณฑ์) การวัดผลที่เป็นบวกและลบ (กำไร) ฯลฯ มีประเภทแผนภูมิเพียงเล็กน้อยที่คุณไม่สามารถทำได้ด้วย Superstore เพียงอย่างเดียว รวมถึงฟีเจอร์บางรายการที่ไม่สามารถสาธิตได้
- แบบไม่รวม: ข้อมูลระดับแถวคือข้อมูลแต่ละรายการในธุรกรรม รายการเหล่านั้นสามารถสะสมเป็นระดับลำดับได้ (ผ่าน ID ลำดับ) หรือตามมิติข้อมูลรายการใดรายการหนึ่ง (เช่น วันที่ ลูกค้า ภูมิภาค ฯลฯ)
- มิติข้อมูลและการวัดผล: Superstore มีมิติข้อมูลหลากหลายซึ่งทำให้เราสามารถ “วิเคราะห์ข้อมูลเพียงบางส่วนและปรับเปลี่ยนมุมมองของข้อมูล” ตามประเภทหรือเมืองได้ นอกจากนี้ยังมีการวัดผลและวันที่ที่หลากหลาย ซึ่งทำให้มีโอกาสในการสร้างประเภทแผนภูมิต่างๆ รวมถึงการคำนวณอีกด้วย
- เมตาดาต้า: Superstore มีฟิลด์และค่าที่ตั้งชื่อไว้อย่างดี คุณไม่จำเป็นต้องค้นหาความหมายของค่าใดๆ อีก
- มีขนาดเล็กและสะอาด: Superstore มีขนาดเพียงไม่กี่เมกะไบต์เท่านั้น ดังนั้นจึงใช้พื้นที่ในโปรแกรมติดตั้ง Tableau เพียงเล็กน้อย นอกจากนี้ยังเป็นข้อมูลที่สะอาด โดยมีเพียงแค่ค่าที่ถูกต้องในแต่ละฟิลด์และมีโครงสร้างข้อมูลที่ดี
1. ชุดข้อมูลที่ดีต้องมีสมาชิกที่คุณต้องการสำหรับวัตถุประสงค์ของคุณ
หากคุณกำลังมองหาชุดข้อมูลเพื่อสร้างการแสดงเป็นภาพหรือเพื่อแสดงฟังก์ชันแบบเฉพาะเจาะจง โปรดตรวจสอบให้แน่ใจว่าชุดข้อมูลนั้นมีประเภทของฟิลด์ที่คุณต้องการอยู่ด้วย ตัวอย่างเช่น แผนที่คือการแสดงภาพที่ยอดเยี่ยมแต่จำเป็นต้องมีข้อมูลทางภูมิศาสตร์ การสาธิตพื้นฐานมักมีการดูรายละเอียดแนวลึกอยู่ด้วย ดังนั้นข้อมูลจะต้องมีฟิลด์วันที่อย่างน้อยหนึ่งรายการ (และจะต้องมีความละเอียดมากกว่าการดูรายละเอียดแนวลึกแค่ปีเท่านั้น) ชุดข้อมูลบางชุดไม่จำเป็นต้องมีสมาชิกเหล่านี้ทั้งหมด โปรดทราบว่าคุณต้องการสิ่งใดสำหรับวัตถุประสงค์ของคุณบ้าง และจงอย่าเสียเวลากับชุดข้อมูลที่ไม่มีสมาชิกหลัก
สมาชิกทั่วไปสำหรับการวิเคราะห์:
- วันที่
- ข้อมูลทางภูมิศาสตร์
- ข้อมูลลำดับชั้น
- การวัดผลที่ “น่าสนใจ” ทั้งความแปรผันที่สำคัญของขนาดหรือค่าบวกและค่าลบ
ฟีเจอร์หรือประเภทการแสดงเป็นภาพบางรายการอาจต้องการลักษณะเฉพาะของข้อมูล เช่น:
- คลัสเตอร์
- การพยากรณ์
- เส้นแนวโน้ม
- ตัวกรองผู้ใช้
- การคำนวณเชิงพื้นที่
- การคำนวณบางประเภท
- แผนภูมิสัญลักษณ์แสดงหัวข้อย่อย
- แผนภูมิควบคุม
2. ชุดข้อมูลที่ดีจะต้องเป็นข้อมูลแบบไม่รวม (ดิบ)
หากข้อมูลมีการรวมกันมากเกินไป คุณจะไม่สามารถวิเคราะห์ข้อมูลนั้นได้มากนัก ตัวอย่างเช่น หากคุณต้องการดูแนวโน้มของผู้คนที่ทำการค้นหา “Pumpkin Spice” ใน Google แต่คุณมีข้อมูลรายปีอยู่ คุณจะสามารถดูภาพรวมในระดับสูงมากได้เท่านั้น หากเป็นไปได้คุณคงต้องการที่จะได้รับข้อมูลรายวันเพื่อที่ว่าคุณจะได้สามารถเห็นการเพิ่มขึ้นอย่างรวดเร็วเมื่อ Starbucks เริ่มให้บริการ #PSL
จำนวนข้อมูลแบบไม่รวมกันจะแตกต่างกันออกไปตามการวิเคราะห์ โปรดทราบว่าชุดข้อมูลบางชุดจะไม่มีรายละเอียดปลีกย่อยอย่างครบถ้วนเนื่องจากความเป็นส่วนตัวหรือการนำไปปฏิบัติได้จริง ตัวอย่างเช่น คุณไม่น่าจะพบชุดข้อมูลที่มีการรายงานโรคมาลาเรียตามที่อยู่ทีละกรณี ดังนั้นยอดรวมรายเดือนตามภูมิภาคอาจมีความละเอียดเพียงพอแล้ว
มีหลายสาเหตุที่ทำให้การเข้าใจการรวมและรายละเอียดเป็นแนวคิดที่สำคัญอย่างยิ่ง เนื่องจากผลกระทบต่อสิ่งต่างๆ เช่น การค้นหาชุดข้อมูลที่มีประโยชน์ การสร้างการแสดงเป็นภาพที่ต้องการ การรวมข้อมูลอย่างถูกต้อง และการใช้นิพจน์ LOD การรวมและมุมมองแบบละเอียดคือส่วนตรงข้ามของสเปกตรัม
การรวม หมายถึงวิธีการรวมข้อมูลเข้าด้วยกัน เช่น การรวมการค้นหา Pumpkin Spice ทั้งหมด หรือการหาค่าเฉลี่ยของการอ่านอุณหภูมิรอบๆ ซีแอตเทิลในวันที่กำหนด
- การวัดผลใน Tableau จะเป็นแบบรวมตามค่าเริ่มต้น การรวมเริ่มต้นคือ SUM คุณสามารถเปลี่ยนการรวมเป็นค่าต่างๆ เช่น ค่าเฉลี่ย ค่ามัธยฐาน จำนวนที่ไม่ซ้ำกัน ค่าต่ำสุด ฯลฯ
มุมมองแบบละเอียด หมายถึงรายละเอียดของข้อมูล แถว (หรือเรียกอีกชื่อหนึ่งว่า ระเบียน) ในชุดข้อมูลแสดงถึงอะไร มีผู้ป่วยโรคมาลาเรียจำนวนเท่าใด มีผู้ป่วยโรคมาลาเรียทั้งจังหวัดในเดือนนี้จำนวนเท่าใด นั้นคือมุมมองแบบละเอียด การรู้มุมมองแบบละเอียดของข้อมูลถือเป็นสิ่งที่สำคัญ
หากต้องการข้อมูลเพิ่มเติม โปรดดู การรวมข้อมูลใน Tableau
3. ชุดข้อมูลที่ดีต้องมีมิติข้อมูลและการวัดผล
ประเภทการแสดงเป็นภาพต่างๆ จำเป็นต้องมีมิติข้อมูลและการวัดผล
- หากคุณมีเพียงมิติข้อมูลเท่านั้น ส่วนใหญ่คุณจะสามารถทำได้เพียง การคำนวณเปอร์เซ็นต์ หรือการใช้ฟิลด์จำนวนของตาราง
- หากคุณมีการวัดผลเพียงอย่างเดียว คุณจะไม่สามารถแยกค่าออกเป็นค่าใดค่าหนึ่งได้ คุณสามารถแยกข้อมูลทั้งหมดหรือใช้งาน SUM หรือ AVG โดยรวม ฯลฯ ได้
ซึ่งไม่ได้หมายความว่าชุดข้อมูลที่มีมิติข้อมูลเพียงอย่างเดียวนั้นจะไม่มีประโยชน์ ข้อมูลประชากรเป็นตัวอย่างของข้อมูลที่มีมิติข้อมูลเป็นจำนวนมาก และมีการวิเคราะห์เกี่ยวกับข้อมูลประชากรต่างๆ จำนวนมากที่กำลังนับอยู่หรือที่อิงตามเปอร์เซ็นต์ แต่สำหรับชุดข้อมูลที่มีการวิเคราะห์มากขึ้น คุณจำเป็นต้องใช้มิติข้อมูลและการวัดผลอย่างน้อยสองถึงสามรายการ
มิติข้อมูลที่เป็นตัวเลข การวัดผลแบบต่อเนื่อง การวัดผลแบบแยกกัน
มิติข้อมูลและการวัดผล
ระบบมีการแบ่งฟิลด์ออกเป็นมิติข้อมูลและการวัดผลด้วยเส้นแนวนอนในแผงข้อมูล ใน Tableau มิติข้อมูลจะแสดงในมุมมองด้วยตนเอง ในขณะที่ระบบจะรวมการวัดผลเอาไว้โดยอัตโนมัติ การรวมเริ่มต้นสำหรับการวัดผลคือ SUM
- มิติข้อมูลจะมีลักษณะเป็นเชิงคุณภาพซึ่งหมายถึงมีการอธิบายมิติข้อมูลเหล่านั้นแต่ไม่มีการวัดผล
- มิติข้อมูลมักเป็นข้อมูลจำพวก เมืองหรือประเทศ สีตา หมวดหมู่ ชื่อทีม ฯลฯ
- มิติข้อมูลมักจะแยกกัน
- การวัดผลจะมีลักษณะเป็นเชิงปริมาณซึ่งหมายถึงว่าสามารถวัดผลและบันทึกได้ (เป็นตัวเลข)
- การวัดผลมักจะเป็นข้อมูลจำพวก ยอดขาย ความสูง จำนวนคลิก ฯลฯ
- การวัดผลนั้นมักจะมีความต่อเนื่อง
หากคุณสามารถคำนวณข้อมูลเหล่านั้นได้ แปลว่ามันคือการวัดผล หากคุณเคยสงสัยว่าฟิลด์ใดฟิลด์หนึ่งควรเป็นการวัดผลหรือมิติข้อมูลกันแน่ ให้ลองคิดดูว่าคุณสามารถคำนวณค่าต่างๆ เหล่านั้นได้หรือไม่ ผลรวมของหมายเลขประกันสังคมสองหมายเลขหรือการหารรหัสไปรษณีย์ด้วย 10 มีความหมายอะไรต่อ AVG(RowID) หรือไม่ ไม่มี นั่นคือมิติข้อมูลที่บังเอิญเขียนเป็นตัวเลข ลองนึกดูว่ามีกี่ประเทศที่มีรหัสไปรษณีย์ที่เป็นตัวเลขและตัวอักษร ซึ่งพวกมันเป็นเพียงป้ายกำกับเท่านั้น ถึงแม้ว่าในสหรัฐอเมริกาจะเป็นเพียงแค่ตัวเลขก็ตาม Tableau สามารถจดจำชื่อฟิลด์ได้หลายชื่อที่ระบุว่าจริงๆ แล้วฟิลด์ตัวเลขนั้นเป็น ID หรือรหัสไปรษณีย์ และพยายามสร้างมิติข้อมูลเหล่านั้นแต่ก็ไม่ได้สมบูรณ์แบบ ใช้การทดสอบ “ฉันสามารถคำนวณสิ่งนี้ได้หรือไม่” เพื่อตัดสินใจว่าฟิลด์ตัวเลขควรเป็นการวัดผลหรือเป็นมิติข้อมูล และจัดเรียงแผงข้อมูลใหม่ตามความจำเป็น
หมายเหตุ: แม้ว่าคุณจะสามารถคำนวณวันที่ (เช่น การคำนวณ DATEDIFF) ได้ แต่หลักการมาตรฐานก็คือการจัดหมวดหมู่วันที่เป็นมิติข้อมูล
แบบต่อเนื่องและแบบแยกกัน
ฟิลด์ “แบบต่อเนื่อง” หรือ “แบบแยกกัน” จะมีความสอดคล้องกับแนวคิดของมิติข้อมูลและการวัดผลอยู่ แต่ก็ไม่เหมือนกันเสียทีเดียว
- ฟิลด์แบบแยกกันจะประกอบด้วยค่าที่ต่างกัน ฟิลด์เหล่านี้มีส่วนหัวหรือป้ายกำกับในมุมมองและช่องจะเป็นสีฟ้า
- ฟิลด์แบบต่อเนื่อง “รูปแบบทั้งหมดที่ไม่ขาดตอน” ฟิลด์เหล่านี้มีแกนในมุมมองและช่องจะเป็นสีเขียว
วิธีที่ดีในการทำความเข้าใจแบบต่อเนื่องและแบบแยกกันคือการดูฟิลด์วันที่ วันที่สามารถเป็นแบบแยกกันหรือแบบต่อเนื่องก็ได้
- การดูอุณหภูมิเฉลี่ยในเดือนสิงหาคมในช่วงทศวรรษหรือศตวรรษหมายความว่าระบบจะใช้เดือน “สิงหาคม” เพื่อดูข้อมูลเชิงคุณภาพแบบแยกกัน
- เมื่อพิจารณาถึงแนวโน้มโดยรวมของรายงานผู้ป่วยโรคมาลาเรียตั้งแต่ปี 1960 อาจจะใช้แกนเดียวแบบไม่ขาดตอน ซึ่งหมายความว่าระบบจะใช้วันที่เพื่อดูข้อมูลเชิงปริมาณแบบต่อเนื่อง
หากต้องการข้อมูลเพิ่มเติม โปรดดู มิติข้อมูลและการวัดผล สีฟ้าและสีเขียว
Tableau จะสร้างอย่างน้อยสามฟิลด์ ไม่ว่าชุดข้อมูลนั้นคือ:
- ชื่อการวัดผล (มิติข้อมูล)
- ค่าที่วัด (การวัดผล)
- TableName(จำนวน) (การวัดผล)
และหากมีฟิลด์ข้อมูลทางภูมิศาสตร์อยู่ในชุดข้อมูล Tableau จะสร้างฟิลด์ละติจูด (ที่สร้างขึ้น) และลองจิจูด (ที่สร้างขึ้น)
ชื่อการวัดผลและค่าที่วัดเป็นสองฟิลด์ที่มีประโยชน์ หากต้องการข้อมูลเพิ่มเติม โปรดดู ค่าที่วัดและชื่อการวัดผล
จำนวนของตารางระบุจำนวนระเบียนข้อมูลสำหรับตารางโดยการนับแถว ซึ่งจะช่วยให้คุณมีการวัดผลอย่างน้อยหนึ่งชุดอยู่ในชุดข้อมูลและสามารถช่วยในการวิเคราะห์บางรายการได้ คุณต้องทำความเข้าใจมุมมองแบบละเอียดความของข้อมูลของคุณ (ข้อมูลที่มีในแถว) เพื่อให้สามารถกำหนดความหมายของจำนวนแถวได้
ในที่นี้ แต่ละแถวคือหนึ่งวัน ดังนั้น “จำนวนของตาราง” ก็คือจำนวนวัน:
ในที่นี้ แต่ละแถวคือหนึ่งเดือน ดังนั้น “จำนวนของตาราง” ก็คือจำนวนเดือน:
4. ชุดข้อมูลที่ดีจะต้องมีเมตาดาต้าหรือพจนานุกรมข้อมูล
ชุดข้อมูลจะมีประโยชน์ก็ต่อเมื่อคุณรู้ว่าข้อมูลนั้นคืออะไร มีเรื่องให้หงุดหงิดใจมากมายในการตามล่าหาข้อมูลมากกว่าการเปิดไฟล์มาแล้วพบข้อมูลหน้าตาแบบนี้เสียอีก:
ชุดข้อมูลที่ดีคือชุดข้อมูลที่มีฟิลด์และสมาชิกที่มีป้ายกำกับชัดเจน หรือมีพจนานุกรมข้อมูลที่จะช่วยให้คุณสามารถติดป้ายกำกับข้อมูลใหม่ได้ด้วยตนเอง ลองนึกถึง Superstore ที่เห็นภาพขึ้นมาชัดเจนในทันทีเลยว่าฟิลด์และค่าของฟิลด์เหล่านั้นคืออะไร เช่น “หมวดหมู่” และสมาชิกของหมวดหมู่ ซึ่งได้แก่ “เทคโนโลยี” “เฟอร์นิเจอร์” และ “อุปกรณ์สำนักงาน” หรือสำหรับชุดข้อมูลไมโครไบโอมในภาพด้านบนจะมีพจนานุกรมข้อมูล(ลิงก์จะเปิดในหน้าต่างใหม่)ซึ่งอธิบายถึง “แหล่งที่มา” แต่ละรายการอยู่ (4 คืออุจจาระและ 12 คือกระเพาะอาหาร) และอนุกรมวิธานของ OTU แต่ละรายการ (OTU3 คือแบคทีเรียในสกุล Parabacteroides)
สามารถเรียกพจนานุกรมข้อมูลได้หลากหลาย เช่น เมตาดาต้า ตัวบ่งชี้ คำจำกัดความของตัวแปร อภิธานศัพท์ หรือสิ่งอื่นอีกมากมาย แต่ในท้ายที่สุดแล้วพจนานุกรมข้อมูลก็จะคอยให้ข้อมูลเกี่ยวกับชื่อคอลัมน์และสมาชิกในคอลัมน์นั่นเอง สามารถนำเข้าข้อมูลดังกล่าวมายังแหล่งข้อมูลหรือเข้ามาในการแสดงเป็นภาพได้หลากหลายวิธีดังนี้
- เปลี่ยนชื่อคอลัมน์เพื่อให้เข้าใจง่ายขึ้น (สามารถดำเนินการในชุดข้อมูลนั้นได้เลย หรือใน Tableau ก็ได้)
- เปลี่ยนชื่อแทนสมาชิกของฟิลด์ (สามารถดำเนินการในชุดข้อมูลนั้นได้เลย หรือใน Tableau ก็ได้)
- สร้างการคำนวณเพื่อเพิ่มข้อมูลพจนานุกรมข้อมูล
- ความคิดเห็นเกี่ยวกับฟิลด์ใน Tableau (ความคิดเห็นจะไม่ปรากฏอยู่บนการแสดงเป็นภาพที่เผยแพร่แต่จะปรากฏเฉพาะในสภาพแวดล้อมการเขียนเท่านั้น)
- ใช้พจนานุกรมข้อมูลเป็นแหล่งข้อมูลอื่นและรวมแหล่งข้อมูลทั้งสองเข้าด้วยกัน
การสูญเสียพจนานุกรมข้อมูลไปอาจทำให้ชุดข้อมูลนั้นไร้ประโยชน์ได้ หากคุณกำลังบุ๊กมาร์กชุดข้อมูลอยู่ ให้บุ๊กมาร์กพจนานุกรมข้อมูลเอาไว้ด้วย หากคุณกำลังดาวน์โหลดอยู่ ให้ดาวน์โหลดทั้งสองรายการและเก็บไว้ในที่เดียวกัน
5. ชุดข้อมูลที่ดีคือชุดข้อมูลที่คุณสามารถนำไปใช้ได้
ตราบใดที่คุณสามารถทำความเข้าใจชุดข้อมูลและมีข้อมูลที่คุณต้องการ แม้จะเป็นเพียงชุดข้อมูลขนาดเล็กแต่ก็สามารถทำการวิเคราะห์ได้อย่างมีประสิทธิภาพ อีกทั้งชุดข้อมูลที่มีขนาดเล็กนั้นยังง่ายต่อการจัดเก็บ แชร์ และเผยแพร่ และมีแนวโน้มที่จะทำงานได้อย่างมีประสิทธิภาพ
ในทำนองเดียวกัน หากคุณพบเจอชุดข้อมูลที่ “สมบูรณ์แบบ” ที่ตรงกับความต้องการของคุณ แต่คุณจำเป็นต้องใช้ความพยายามอย่างมากในการล้างข้อมูลเหล่านั้น ก็จะถือว่าข้อมูลเหล่านั้นไม่ได้มีความสมบูรณ์อะไรเลย การที่รู้ว่าเมื่อใดควรเลิกใช้ข้อมูลที่มีความยุ่งเหยิงมากเกินไปถือเป็นเรื่องที่สำคัญ
ตัวอย่างเช่น ชุดข้อมูลนี้มาจากบทความ Wikipedia เกี่ยวกับความถี่ของตัวอักษรที่เกี่ยวข้อง เริ่มต้นที่ 84 แถว 16 คอลัมน์ (เปลี่ยนรูปแบบข้อมูลเป็น 1,245 แถว 3 คอลัมน์) ไฟล์ Excel ขนาด 16KB แต่ด้วยกลุ่ม เซต การคำนวณ และการปรับแต่งอื่นๆ บางรายการทำให้การวิเคราะห์นั้นมีประสิทธิภาพและมีการแสดงภาพที่น่าสนใจ
ติดป้ายกำกับข้อมูลของคุณใหม่
เมื่อคุณพบชุดข้อมูลที่ดีแล้ว คุณอาจจะต้องติดป้ายกำกับใหม่ให้กับข้อมูลนั้นด้วย การติดป้ายกำกับข้อมูลใหม่อาจมีประโยชน์ในการสร้างข้อมูลปลอมสำหรับตัวอย่างข้อมูลหรือเนื้อหาหลักฐานพิสูจน์แนวคิด หรือเพื่อทำให้ข้อมูลนั้นอ่านง่ายขึ้น
การเปลี่ยนชื่อ ฟิลด์จะเปลี่ยนวิธีที่ฟิลด์นั้นปรากฏใน Tableau เช่นการเปลี่ยนชื่อ “ยอดขาย” เป็น “กระบวนการขาย” หรือ “รัฐ” เป็น “จังหวัด”
การตั้งชื่อแทนใหม่ จะเปลี่ยนวิธีการแสดงสมาชิกของฟิลด์ เช่น การกำหนดชื่อแทนใหม่ในฟิลด์ “ประเทศ” เพื่อให้ CHN คือจีน และ RUS คือรัสเซีย
- ค่าในฟิลด์มิติข้อมูลแบบแยกกันเรียกว่าสมาชิก สามารถตั้งชื่อแทนใหม่ให้กับสมาชิกเท่านั้น พิจารณาการวัดผลฟิลด์สำหรับอุณหภูมิ ไม่สามารถเปลี่ยนแปลงค่า 54°F ได้โดยไม่มีการเปลี่ยนแปลงตัวข้อมูลนั้นก่อน แต่การตั้งชื่อแทนใหม่ให้กับสมาชิกว่า “CHN” เป็น “จีน” ในฟิลด์ “ประเทศ” ถือว่าเป็นข้อมูลเดียวกัน เพียงแค่เป็นการติดป้ายกำกับแทนกันเท่านั้น
การเปลี่ยนชื่อและการตั้งชื่อแทนใหม่มีความหมายที่คล้ายคลึงกัน ถือเป็นหลักการใน Tableau ที่จะต้องมีการตั้งชื่อฟิลด์และตั้งชื่อแทนให้กับสมาชิก หากต้องการข้อมูลเพิ่มเติม โปรดดู จัดระเบียบและปรับแต่งฟิลด์ในแผงข้อมูลและสร้างชื่อแทนเพื่อเปลี่ยนชื่อสมาชิกในมุมมอง
หมายเหตุ: การเปลี่ยนชื่อหรือการตั้งชื่อแทนใหม่จะเปลี่ยนลักษณะที่ปรากฏใน Tableau Desktop เท่านั้น จะไม่มีการเขียนการเปลี่ยนแปลงใดๆ กลับไปยังข้อมูลเบื้องหลัง
ติดป้ายกำกับใหม่เพื่อสร้างข้อมูลปลอม
การติดป้ายกำกับใหม่ให้กับข้อมูลที่มีอยู่เป็นวิธีที่ยอดเยี่ยมในการทำให้ตัวอย่างข้อมูลหรือเนื้อหาหลักฐานพิสูจน์แนวคิดมีความน่าสนใจมากยิ่งขึ้น
- ใช้ชุดข้อมูลอย่างง่าย (เช่น Superstore) เพื่อสร้างสิ่งที่คุณต้องการ (ประเภทแผนภูมิแบบเฉพาะเจาะจง แสดงฟังก์ชันบางรายการ ฯลฯ)
- เปลี่ยนชื่อฟิลด์ที่เกี่ยวข้อง เปลี่ยนเคล็ดลับเครื่องมือ หรือเปลี่ยนลักษณะที่เป็นข้อความเพื่อปิดบังข้อมูลที่แท้จริง
สำคัญ: ดำเนินการเช่นนี้ก็ต่อเมื่อมีความชัดเจนแล้วว่าข้อมูลนั้นเป็นข้อมูลปลอมเท่านั้น ระวังอย่าให้ผู้อื่นคิดว่าเป็นข้อมูลที่แท้จริงและพยายามใช้ข้อมูลนั้นเพื่อการวิเคราะห์ ตัวอย่างเช่น ใช้ชื่อที่ไร้สาระหรือใช้ชื่อฟิลด์ที่ไม่มีความหมาย เช่น สีหรือสัตว์
ตั้งชื่อแทนใหม่เพื่อให้ข้อมูลใช้งานได้ง่ายยิ่งขึ้น
การจัดเก็บข้อมูลเป็นค่าตัวเลขมากกว่าค่าสตริงจะมีประสิทธิภาพมากกว่า ถึงแม้ว่าการเข้ารหัสตัวเลขจะทำให้เข้าใจข้อมูลนั้นได้ยากยิ่งขึ้นก็ตาม สำหรับชุดข้อมูลที่มีขนาดเล็ก อาจไม่ส่งผลกระทบต่อประสิทธิภาพการทำงานใดๆ ดังนั้นจงให้ความสำคัญไปที่การทำให้ข้อมูลเหล่านั้นง่ายต่อการทำความเข้าใจ
ข้อเสียของการตั้งชื่อแทนใหม่คือคุณจะไม่สามารถเข้าถึงค่าตัวเลขเหล่านั้นได้อีกต่อไป (ทำให้ยากต่อการดำเนินการต่างๆ เช่น การจัดเรียงหรือการไล่ระดับสี ฯลฯ) พิจารณาทำซ้ำฟิลด์และตั้งชื่อแทนใหม่ให้กับสำเนา อีกทางหนึ่ง การคำนวณใน Tableau อาจเป็นวิธีที่ดีในการคงไว้ซึ่งข้อมูลเดิมในขณะที่ทำให้ข้อมูลนั้นง่ายต่อการเข้าใจมากยิ่งขึ้นไปพร้อมๆ กันอีกด้วย
ตั้งชื่อแทนใหม่ด้วยฟังก์ชัน CASE
การคำนวณอาจจะมีประสิทธิภาพอย่างยิ่งสำหรับการตั้งชื่อแทนใหม่ ตัวอย่างเช่น ฟังก์ชัน CASE อนุญาตให้คุณพูดว่า “เมื่อฟิลด์นี้มีค่าเป็น A จงให้ X แก่ฉัน เมื่อค่านี้เป็น B จงให้ Y แก่ฉัน”
ในที่นี้ ฟังก์ชัน CASE จะดู “F-scale” ในชุดข้อมูลพายุทอร์นาโด และจะมอบคำอธิบายเป็นลายลักษณ์อักษรที่เกี่ยวข้องกับค่าตัวเลขแต่ละค่าเอาไว้ให้:
CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END
ขณะนี้เราสามารถเลือกใช้ฟิลด์ “F-scale” ดั้งเดิม (0-5) หรือฟิลด์ “F-scale คำอธิบายความเสียหาย” ในการแสดงเป็นภาพได้
เคล็ดลับในการมองหาชุดข้อมูล
หมายเหตุ: พยายามตรวจสอบให้แน่ใจว่าคุณสามารถตอบคำถามนี้ได้ “แถวในชุดข้อมูล (หรือที่รู้จักกันในนาม ระเบียน) แสดงถึงสิ่งใด” หากคุณไม่สามารถตอบคำถามนั้นได้ แปลว่าคุณอาจจะไม่เข้าใจข้อมูลนั้นดีเพียงพอที่จะนำไปใช้ หรือข้อมูลเหล่านั้นอาจมีโครงสร้างสำหรับการวิเคราะห์ที่ไม่ดีพอ
- ติดตามว่าข้อมูลนั้นว่ามาจากที่ใด
- เก็บข้อมูลของพจนานุกรมข้อมูลไว้กับตัวข้อมูลเอง
- หลีกเลี่ยงการใช้ข้อมูลเก่าหากคุณต้องการให้เนื้อหามีความเป็นปัจจุบันอยู่ตลอดเวลา มองหา:
- ข้อมูลที่อัปเดตได้ (หุ้น สภาพอากาศ รายงานที่เผยแพร่เป็นประจำ ฯลฯ)
- ข้อมูลที่อยู่เหนือกาลเวลา (มวลเฉลี่ยของสัตว์ต่างๆ ที่จะไม่เปลี่ยนแปลงในทุกปี)
- ข้อมูลที่คุณสามารถพิสูจน์ได้ในอนาคตโดยเปลี่ยนเป็นวันที่ในอดีตหรือในอนาคตแบบสมมติ
- เพียงแค่ลองค้นหาสิ่งที่คุณกำลังมองหาใน Google คุณอาจจะรู้สึกประหลาดใจก็ได้
- อย่ากลัวที่จะต้องทิ้งชุดข้อมูลที่ต้องใช้การดำเนินการในการจัดเตรียมมากเกินไป
สถานที่สำหรับค้นหาข้อมูล
สามารถหาข้อมูลได้จากที่ไหน คุณสามารถค้นหาชุดข้อมูลได้จากหลากหลายสถานที่ ต่อไปนี้คือตัวเลือกบางส่วนที่จะช่วยให้คุณเริ่มต้น โปรดทราบว่าความเป็นจริงของชุดข้อมูลจะมีผลกับไซต์เหล่านี้ คุณอาจไม่พบข้อมูลที่คุณกำลังนึกถึงอยู่ในขณะนี้ และคุณอาจจะต้องทำความสะอาดข้อมูลเพื่อเป็นการเตรียมข้อมูลเหล่านั้นให้พร้อมสำหรับการวิเคราะห์
ข้อจำกัดความรับผิดชอบ: แม้ว่าเราจะพยายามอย่างเต็มที่เพื่อให้แน่ใจว่าลิงก์ไปยังเว็บไซต์ภายนอกเหล่านี้ถูกต้อง เป็นปัจจุบัน และมีความเกี่ยวข้องกัน กระนั้น Tableau ไม่สามารถรับผิดชอบต่อความถูกต้องหรือความสดใหม่ของหน้าต่างๆ ที่ผู้ให้บริการภายนอกเป็นผู้ดูแลได้ การแสดงไซต์ที่นี่ไม่ถือเป็นการรับรองเนื้อหาหรือองค์กรใดๆ ติดต่อไซต์ภายนอกเพื่อขอคำตอบสำหรับคำถามเกี่ยวกับเนื้อหา
Tableau Public(ลิงก์จะเปิดในหน้าต่างใหม่): Tableau Public คือแหล่งข้อมูลที่น่าทึ่งสำหรับชุดข้อมูลที่เป็นมิตรกับ Tableau ค้นหาเวิร์กบุ๊กที่อยู่ในหัวข้อที่คุณสนใจ ค้นหาแรงบันดาลใจ จากนั้นดาวน์โหลดเวิร์กบุ๊กเพื่อเข้าถึงข้อมูล หรือตรวจสอบตัวอย่างข้อมูล(ลิงก์จะเปิดในหน้าต่างใหม่)ที่คัดสรรมาไว้ให้แล้ว
ตาราง Wikipedia(ลิงก์จะเปิดในหน้าต่างใหม่): ดึงข้อมูลออกจากตาราง Wikipedia โดยการคัดลอกและวางไปยังสเปรดชีต การคัดลอกและวางไปยัง Tableau โดยตรงหรือใช้ Google ชีตและฟังก์ชัน IMPORTHTML(ลิงก์จะเปิดในหน้าต่างใหม่) เพื่อสร้าง Google สเปรดชีตของข้อมูล
Google Dataset Search(ลิงก์จะเปิดในหน้าต่างใหม่): “เครื่องมือค้นหาเพื่อรวบรวมชุดข้อมูลออนไลน์ที่กระจัดกระจาย”
Data is Plural(ลิงก์จะเปิดในหน้าต่างใหม่) : สมัครรับจดหมายข่าวรายสัปดาห์พร้อมกับชุดข้อมูล หรือเรียกดูคลังข้อมูล(ลิงก์จะเปิดในหน้าต่างใหม่)
Makeover Monday(ลิงก์จะเปิดในหน้าต่างใหม่): “เข้าร่วมกับเราทุกวันจันทร์เพื่อทำงานกับชุดข้อมูลที่กำหนด และสร้างการแสดงเป็นภาพที่ดียิ่งขึ้น มีประสิทธิภาพมากขึ้น และช่วยให้เราเข้าถึงข้อมูลได้มากขึ้น” คุณสามารถดูวิธีที่คนอื่นดำเนินการกับชุดข้อมูลเดียวกัน เริ่มการวิเคราะห์หรือส่งต่อแรงบันดาลใจได้อีกด้วย ใช้ #makeovermonday(ลิงก์จะเปิดในหน้าต่างใหม่) บน Twitter เพื่อเข้าร่วม
ไซต์อื่นๆ
- Tableau Web Data Connectors(ลิงก์จะเปิดในหน้าต่างใหม่)
- Data.world(ลิงก์จะเปิดในหน้าต่างใหม่) และ WDC สำหรับ Tableau(ลิงก์จะเปิดในหน้าต่างใหม่)
- Github Open Data(ลิงก์จะเปิดในหน้าต่างใหม่)
- Kaggle(ลิงก์จะเปิดในหน้าต่างใหม่)
- datahub.io(ลิงก์จะเปิดในหน้าต่างใหม่)
- r/datasets(ลิงก์จะเปิดในหน้าต่างใหม่)
- WHO(ลิงก์จะเปิดในหน้าต่างใหม่)
- Data.UN.org(ลิงก์จะเปิดในหน้าต่างใหม่)
- WorldBank(ลิงก์จะเปิดในหน้าต่างใหม่)
- data.gov(ลิงก์จะเปิดในหน้าต่างใหม่), data.gov.au(ลิงก์จะเปิดในหน้าต่างใหม่), data.gov.uk(ลิงก์จะเปิดในหน้าต่างใหม่) เป็นต้น
- Airbnb(ลิงก์จะเปิดในหน้าต่างใหม่)
- Yelp(ลิงก์จะเปิดในหน้าต่างใหม่)
- Zillow(ลิงก์จะเปิดในหน้าต่างใหม่)