จัดโครงสร้างข้อมูลสำหรับการวิเคราะห์
แนวคิดบางอย่างเป็นพื้นฐานในการทำความเข้าใจการเตรียมข้อมูลและวิธีจัดโครงสร้างข้อมูลสำหรับการวิเคราะห์ การสร้าง รวบรวม และจัดเก็บข้อมูลอาจมีรูปแบบมากมายจนน่าปวดหัว แต่เมื่อพูดถึงการวิเคราะห์ รูปแบบข้อมูลแต่ละอย่างนั้นมีประสิทธิภาพไม่เท่ากัน
การเตรียมข้อมูลเป็นกระบวนการที่นำเอาข้อมูลที่มีการจัดรูปแบบอย่างดีมารวมไว้ในตารางเดียวหรือตารางที่เกี่ยวข้องกันหลายตาราง เพื่อให้วิเคราะห์ข้อมูลนั้นใน Tableau ได้ กระบวนการนี้ยังครอบคลุมทั้งโครงสร้าง เช่น แถวและคอลัมน์ รวมถึงในแง่ความสะอาดของข้อมูล เช่น ประเภทข้อมูลที่ถูกต้องและค่าข้อมูลที่ถูกต้อง
คำแนะนำ: การใช้ชุดข้อมูลของคุณเองในการเรียนรู้หัวข้อต่อไปนี้อาจเป็นประโยชน์กับคุณ หากยังไม่มีชุดข้อมูลที่ใช้ได้ โปรดดูเคล็ดลับของเราสำหรับการค้นหาชุดข้อมูลที่ดี(ลิงก์จะเปิดในหน้าต่างใหม่)
โครงสร้างส่งผลต่อการวิเคราะห์อย่างไร
คุณอาจควบคุมโครงสร้างของข้อมูลไม่ได้ เนื้อหาในส่วนที่เหลือของหัวข้อนี้จะถือว่าคุณมีสิทธิ์เข้าถึงข้อมูลดิบและเครื่องมือที่จำเป็นในการปรับแต่งข้อมูล เช่น Tableau Prep Builder อย่างไรก็ตาม อาจมีบางกรณีที่คุณไม่สามารถเปลี่ยนรูปแบบข้อมูลหรือรวมข้อมูลได้ตามต้องการ ในหลายกรณียังคงมีความเป็นไปได้ที่จะทำการวิเคราะห์ แต่คุณอาจต้องเปลี่ยนการคำนวณหรือวิธีจัดการกับข้อมูล สำหรับตัวอย่างของวิธีทำการวิเคราะห์แบบเดียวกันกับโครงสร้างข้อมูลที่แตกต่างกัน โปรดดู Tableau Prep สถานการณ์จริงในชีวิตประจำวัน: การวิเคราะห์ด้วยวันที่สองใน Tableau Desktop(ลิงก์จะเปิดในหน้าต่างใหม่) แต่หากคุณสามารถเพิ่มประสิทธิภาพโครงสร้างข้อมูลได้ การวิเคราะห์ก็จะง่ายขึ้นมาก
โครงสร้างข้อมูล
Tableau Desktop เหมาะสมกับข้อมูลในรูปแบบตารางอย่างสเปรดชีตมากที่สุด กล่าวคือ เป็นข้อมูลที่จัดเก็บในรูปแบบแถวและคอลัมน์ โดยมีส่วนหัวของคอลัมน์อยู่ในแถวแรก แล้วแถวและคอลัมน์ควรเป็นอย่างไร
แถวคืออะไร
แถวหรือระเบียนอาจเป็นข้อมูลใดก็ได้ ตั้งแต่ข้อมูลเกี่ยวกับธุรกรรมในร้านค้าปลีก ไปจนถึงการวัดสภาพอากาศของสถานที่ที่เฉพาะเจาะจง ไปจนถึงสถานะเกี่ยวกับโพสต์ในโซเชียลมีเดีย
สิ่งสำคัญคือคุณต้องรู้ว่า ระเบียน (แถว) ในข้อมูลแสดงถึงสิ่งใด สิ่งนี้คือรายละเอียดของข้อมูล
ในตารางนี้ ระเบียนแต่ละรายการคือวัน | ในตารางนี้ ระเบียนแต่ละรายการคือเดือน |
คำแนะนำ: แนวทางปฏิบัติที่ดีที่สุดคือการกำหนดตัวระบุที่ไม่ซ้ำ (UID) ซึ่งเป็นค่าที่ระบุว่าแต่ละแถวเป็นชิ้นส่วนข้อมูลที่ไม่ซ้ำกัน ให้คิดว่าเป็นเหมือนหมายเลขประกันสังคมหรือ URL ของระเบียนแต่ละรายการ ในกรณีของ Superstore สิ่งนี้ก็คือ ID แถว โปรดทราบว่าชุดข้อมูลบางรายการก็ไม่มี UID แต่การมีไว้ก็ไม่ได้เป็นผลเสีย
พยายามตรวจสอบให้แน่ใจว่าคุณตอบได้ว่า “แถวในชุดข้อมูลแสดงถึงสิ่งใด” ซึ่งก็เหมือนกับการตอบคำถามที่ว่า “ฟิลด์ของชื่อตาราง(จำนวน) แสดงถึงสิ่งใด” หากคุณไม่สามารถตอบได้ก็หมายความว่าข้อมูลมีโครงสร้างที่ไม่พร้อมสำหรับการวิเคราะห์
แนวคิดที่เกี่ยวข้องกับองค์ประกอบของแถวคือการรวมและและรายละเอียด ซึ่งเป็นสองสิ่งที่ตรงข้ามกัน
การรวบรวม
หมายถึงวิธีที่ค่าข้อมูลต่างๆ ถูกรวมเข้าด้วยกันเป็นค่าเดียว เช่น จำนวนรวมของการค้นหา “ผงเครื่องเทศฟักทอง” บน Google หรือค่าเฉลี่ยของอุณหภูมิที่วัดได้รอบซีแอตเทิลในวันใดวันหนึ่ง
ตามค่าเริ่มต้น การวัดผลใน Tableau จะเป็นแบบรวมเสมอ การรวมเริ่มต้นคือ SUM คุณสามารถเปลี่ยนการรวมเป็นตัวเลือกต่างๆ เช่น Average, Median, Count Distinct, Minimum ฯลฯ
รายละเอียด
หมายถึงความละเอียดของข้อมูล แถวหรือระเบียนในชุดข้อมูลแสดงถึงสิ่งใด เช่น มีผู้ป่วยโรคมาลาเรียจำนวนเท่าใด มีผู้ป่วยโรคมาลาเรียทั้งจังหวัดในเดือนนี้จำนวนเท่าใด นั้นคือมุมมองแบบละเอียด
การรู้รายละเอียดของข้อมูลเป็นสิ่งที่สำคัญมากในการทำงานกับนิพจน์ระดับรายละเอียด (LOD)
มีหลายสาเหตุที่ทำให้การเข้าใจการรวมและรายละเอียดเป็นแนวคิดที่สำคัญอย่างยิ่ง เนื่องจากผลกระทบต่อสิ่งต่างๆ เช่น การค้นหาชุดข้อมูลที่มีประโยชน์ การสร้างการแสดงภาพที่ต้องการ การเชื่อมโยงและรวมข้อมูลอย่างถูกต้อง และการใช้นิพจน์ LOD
เคล็ดลับ: หากต้องการข้อมูลเพิ่มเติม โปรดดูการรวมข้อมูลใน Tableau
ฟิลด์หรือคอลัมน์คืออะไร
คอลัมน์ของข้อมูลในตารางจะไปที่ Tableau Desktop ในรูปแบบของฟิลด์ในแผงข้อมูล แต่จริงๆ แล้วสองคำนี้ใช้แทนกันได้ (เราเก็บคำว่าคอลัมน์ใน Tableau Desktop ไว้ใช้กับแถบคอลัมน์และแถว รวมถึงใช้อธิบายการแสดงเป็นภาพบางรายการ) ฟิลด์ของข้อมูลควรมีรายการที่จัดกลุ่มตามความสัมพันธ์แบบกว้างๆ ได้ เราจะเรียกตัวรายการดังกล่าวว่าค่าหรือสมาชิก (เฉพาะมิติข้อมูลแบบแยกกันเท่านั้นที่มีสมาชิก)
ค่าที่สามารถอยู่ในแต่ละฟิลด์ได้จะถูกกำหนดโดยโดเมนของฟิลด์ (ดูหมายเหตุด้านล่าง) ตัวอย่างเช่น คอลัมน์สำหรับ "แผนกในร้านขายของชำ" อาจประกอบด้วยสมาชิกอย่าง "อาหารสำเร็จรูป" "เบเกอรี่" “ของสด” ฯลฯ แต่จะไม่รวม "ขนมปัง" หรือ "ซาลามี" เนื่องจากสองอย่างนี้เป็นสินค้า ไม่ใช่แผนก กล่าวคือ โดเมนของฟิลด์แผนกจะจำกัดให้มีเพียงแผนกในร้านขายของชำที่เป็นไปได้เท่านั้น
นอกจากนี้ ชุดข้อมูลที่มีการจัดโครงสร้างอย่างดีจะมีคอลัมน์แยกสำหรับ “ยอดขาย” และ “กำไร” ไม่ใช่คอลัมน์ “เงิน” เพียงอย่างเดียว เนื่องจากกำไรแตกต่างจากยอดขาย
โดเมนของฟิลด์ “ยอดขาย” จะเป็นค่า ≥ 0 เนื่องจากยอดขายเป็นจำนวนติดลบไม่ได้
แต่โดเมนของฟิลด์ “กำไร” จะเป็นค่าใดก็ได้ เนื่องจากกำไรเป็นจำนวนที่ติดลบได้
หมายเหตุ: โดเมนยังหมายถึงค่าที่แสดงในข้อมูลได้ด้วย หากคอลัมน์ "แผนกในร้านขายของชำ” เกิดข้อผิดพลาดและมี “ซาลามี” ค่าดังกล่าวก็จะปรากฏในโดเมนของคอลัมน์ตามคำจำกัดความนี้ คำจำกัดความดูขัดแย้งกันเล็กน้อย เพราะในความหมายหนึ่ง โดเมนเป็นค่าที่ควรหรืออาจปรากฏ แต่ในอีกความหมาย โดเมนคือค่าที่ปรากฏจริงๆ
การจำแนกฟิลด์
แต่ละคอลัมน์ในตารางข้อมูลจะไปที่ Tableau Desktop ในรูปแบบของฟิลด์ ซึ่งปรากฏในแผงข้อมูล ฟิลด์ใน Tableau Desktop ต้องเป็นมิติข้อมูลหรือการวัดผล (คั่นด้วยเส้นภายในตารางในแผงข้อมูล) โดยอาจแยกกันหรือต่อเนื่องกัน (แบ่งตามสี: ฟิลด์สีฟ้าเป็นแบบแยกกันส่วนสีเขียวเป็นแบบต่อเนื่องกัน)
มิติข้อมูลเกี่ยวข้องกับคุณภาพ หมายความว่าเป็นค่าที่วัดผลไม่ได้จึงเป็นการอธิบายแทน มิติข้อมูลอาจเป็นเมืองหรือประเทศ สีตา หมวดหมู่ ชื่อทีม ฯลฯ โดยทั่วไปแล้ว มิติข้อมูลมักจะเป็นค่าที่แยกกัน
การวัดผลเกี่ยวข้องกับปริมาณ หมายความว่าเป็นค่าที่วัดผลได้และบันทึกเป็นตัวเลข การวัดผลอาจเป็นยอดขาย ส่วนสูง จำนวนคลิก ฯลฯ ใน Tableau Desktop ระบบจะรวมการวัดผลให้อัตโนมัติ โดยการรวมเริ่มต้นคือ SUM การวัดผลนั้นมักจะมีความต่อเนื่อง
แยกกันหมายถึงไม่ได้อยู่ติดกันหรือแตกต่างกันอย่างชัดเจน โตโยต้าแตกต่างจากมาสด้าอย่างชัดเจน ใน Tableau Desktop ค่าแบบแยกกันจะปรากฏในมุมมองในรูปแบบของป้ายกำกับและจะสร้างแผง
ต่อเนื่องหมายถึงประกอบกันโดยไม่ขาดตอนจนเป็นค่าเต็ม เลขต่อจาก 7 คือ 8 และ 9 ซึ่งตามมาด้วยระยะห่างที่เท่ากัน ส่วน 7.5 จะอยู่ตรงกลางระหว่าง 7 กับ 8 ใน Tableau Desktop ค่าต่อเนื่องจะปรากฏในมุมมองในรูปแบบของแกน
มิติข้อมูลมักเป็นค่าแบบแยกกัน ส่วนการวัดผลมักเป็นค่าที่ต่อเนื่องกัน อย่างไรก็ตาม บางกรณีจะแตกต่างออกไป วันที่อาจเป็นค่าแบบแยกกันหรือค่าที่ต่อเนื่องก็ได้
วันที่เป็นมิติข้อมูลและจะปรากฏในมุมมองโดยอัตโนมัติเป็นค่าแบบแยกกัน (หรือส่วนวันที่ เช่น “สิงหาคม” ซึ่งระบบจะถือเป็นเดือนสิงหาคมโดยไม่คำนึงถึงข้อมูลอื่น เช่น ปี) เส้นแนวโน้มที่ใช้กับไทม์ไลน์ซึ่งมีวันที่แบบแยกกันจะแยกออกเป็นหลายเส้น โดยแผงหนึ่งจะมีหนึ่งเส้น
เราสามารถเลือกใช้วันที่ต่อเนื่องกันได้ หากต้องการ (หรือการตัดทอนวันที่ เช่น “สิงหาคม 2024” ซึ่งแตกต่างจาก "สิงหาคม 2025") เส้นแนวโน้มที่ใช้กับไทม์ไลน์ซึ่งมีวันที่ต่อเนื่องกันจะเป็นเส้นเดียวที่ครอบคลุมแกนวันที่ทั้งหมด
เคล็ดลับ: หากต้องการข้อมูลเพิ่มเติม โปรดดูมิติข้อมูลและการวัดผล สีฟ้าและสีเขียว
ใน Tableau Prep มิติข้อมูลและการวัดผลไม่ได้มีความแตกต่างกันอย่างชัดเจน แต่การทำความเข้าใจแนวคิดของค่าแบบแยกกันหรือค่าที่ต่อเนื่องเป็นเรื่องสำคัญสำหรับการทำความเข้าใจรายละเอียดและสรุปของการนำเสนอข้อมูลในแผงโปรไฟล์
รายละเอียด: มุมมองรายละเอียดแสดงองค์ประกอบโดเมนทั้งหมดในรูปแบบป้ายกำกับแบบแยกกัน และมีแถบเลื่อนภาพเพื่อแสดงภาพรวมของข้อมูลทั้งหมด
สรุป: มุมมองสรุปแสดงค่าที่มีการแบ่งข้อมูลบนแกนที่ต่อเนื่องกันในฮิสโตแกรม
การแบ่งข้อมูลและฮิสโตแกรม
ฟิลด์อย่างอายุหรือเงินเดือนถือเป็นฟิลด์แบบต่อเนื่อง อายุ 34 กับ 35 ปีมีความสัมพันธ์กัน และ 34 ก็ห่างจาก 35 ในระยะที่เท่ากันระยะห่างของ 35 กับ 36 แต่เมื่ออายุประมาณ 10 ปีขึ้นไป เรามักจะเลิกนับอายุแบบ "9 ขวบครึ่ง" หรือ “7 ปี 9 เดือน” เราได้แบ่งอายุตามช่วงปีที่เพิ่มขึ้นซึ่งดูได้ง่าย แม้คนที่มีอายุ 12,850 วันจะแก่กว่าคนที่มีอายุ 12,790 วัน แต่เราก็ขีดเส้นและจัดให้ทั้งสองคนนี้มีอายุ 35 ปีเท่ากัน ในทำนองเดียวกัน กลุ่มอายุเป็นที่นิยมใช้มากกว่าอายุจริง เช่น ราคาตั๋วภาพยนตร์สำหรับเด็กอาจจำกัดให้เด็กอายุไม่เกิน 12 ปี หรือแบบสำรวจอาจขอให้คุณเลือกกลุ่มอายุของตนเอง เช่น 20-24 ปี, 25-30 ปี ฯลฯ
ฮิสโตแกรมใช้เพื่อแสดงภาพการกระจายข้อมูลตัวเลขโดยใช้การแบ่งข้อมูล ฮิสโตแกรมคล้ายคลึงกับแผนภูมิแท่ง แต่แทนที่แท่งต่างๆ จะแสดงหมวดหมู่แยกกัน สี่เหลี่ยมผืนผ้าของฮิสโตแกรมจะแสดงกลุ่มข้อมูลของแกนแบบต่อเนื่อง เช่น ช่วงของจำนวนดอกไม้ (0-4, 5-9, 10-14 ฯลฯ) ความสูงของสี่เหลี่ยมผืนผ้าจะกำหนดจากความถี่หรือจำนวนของค่าเหล่านั้น ในฮิสโตแกรมนี้ แกน Y คือจำนวนต้นไม้ที่อยู่ในแต่ละกลุ่มข้อมูล จะเห็นได้ว่ามีต้นไม้เจ็ดต้นที่มีดอกไม้ 0-4 ดอก สองต้นที่มี 5-9 ดอก และ 43 ต้นที่มี 20-24 ดอก
ใน Tableau Prep มุมมองสรุปจะเป็นฮิสโตแกรมของค่าที่มีการแบ่งข้อมูล มุมมองรายละเอียดจะแสดงความถี่ของค่าทั้งหมดและมีแถบเลื่อนภาพอยู่ด้านข้างเพื่อแสดงภาพรวมของการกระจายข้อมูล
มุมมองสรุป | มุมมองรายละเอียด |
การกระจายและค่าผิดปกติ
การดูการกระจายของชุดข้อมูลช่วยให้ตรวจจับค่าผิดปกติได้
การกระจาย: รูปทรงของข้อมูลในฮิสโตแกรมซึ่งจะขึ้นอยู่กับขนาดของกลุ่มข้อมูล การได้เห็นข้อมูลทั้งหมดในมุมมองฮิสโตแกรมช่วยให้ระบุได้ว่าข้อมูลดังกล่าวดูถูกต้องและสมบูรณ์หรือไม่ รูปทรงของการกระจายจะมีประโยชน์ก็ต่อเมื่อคุณรู้จักข้อมูลนั้นและสามารถตีความได้ว่าการกระจายสมเหตุสมผลหรือไม่
ตัวอย่างเช่น หากเราดูชุดข้อมูลของบ้านที่มีอินเทอร์เน็ตบรอดแบนด์ในปี 1940-2017 เราน่าจะได้เห็นการกระจายที่มีการเบี่ยงเบนเป็นอย่างมาก แต่หากเราดูที่จำนวนบ้านซึ่งมีอินเทอร์เน็ตบรอดแบนด์ในเดือนมกราคม 2017 ถึงเดือนธันวาคม 2017 เราน่าจะได้เห็นการกระจายที่ค่อนข้างสม่ำเสมอ
หากเราดูชุดข้อมูลของจำนวนการค้นหา “ลาเต้ฟักทอง” บน Google เราก็จะเห็นว่ายอดการค้นหาสูงสุดโดดขึ้นมาในฤดูใบไม้ร่วง ขณะที่การค้นหาสำหรับ “แปลงเซลเซียสเป็นฟาเรนไฮต์” ค่อนข้างคงที่
ค่าผิดปกติ: ค่าที่แตกต่างอย่างมากเมื่อเทียบกับค่าอื่นๆ ค่าผิดปกติอาจเป็นค่าที่ถูกต้องหรืออาจบ่งบอกว่ามีข้อผิดพลาด
ค่าผิดปกติบางรายการเป็นค่าที่ถูกต้องและชี้ให้เห็นความผิดปกติที่เกิดขึ้นจริง จึงไม่ควรแก้ไขหรือนำค่าเหล่านี้ออก
แต่ค่าผิดปกติบางรายการบ่งบอกถึงปัญหาในแง่ความสะอาดของข้อมูล เช่น เงินเดือนเป็น 50 USD แทนที่จะเป็น 50,000 USD ซึ่งเกิดจากการใช้จุดแทนเครื่องหมายจุลภาค
หากคุณเห็นรายการแบบนี้
เมื่อมองคร่าวๆ อาจดูไม่แปลก แต่หากไม่ใช้รายการป้ายกำกับ แล้วแสดงข้อมูลที่แบ่งบนแกนแบบต่อเนื่องแทน รายการนี้จะมีลักษณะดังนี้
ซึ่งจะเห็นได้ชัดเจนกว่าว่าข้อมูลกลุ่มสุดท้ายไกลจากข้อมูลกลุ่มแรกมาก และอาจเป็นค่าผิดปกติที่เกิดจากข้อผิดพลาด
ประเภทข้อมูล
ฐานข้อมูลมักมีกฎที่เคร่งครัดเกี่ยวกับประเภทข้อมูล ซึ่งต่างจากสเปรดชีต ประเภทข้อมูลจะจำแนกข้อมูลเป็นฟิลด์ต่างๆ และให้ข้อมูลเกี่ยวกับวิธีที่ควรจัดรูปแบบและตีความข้อมูล รวมถึงการดำเนินการที่ทำได้กับข้อมูลดังกล่าว ตัวอย่างเช่น ฟิลด์ตัวเลขอาจใช้การดำเนินการทางคณิตศาสตร์ ขณะที่ฟิลด์ข้อมูลด้านภูมิศาสตร์อาจใช้การทำแผนที่
Tableau Desktop จะกำหนดว่าฟิลด์ใดเป็นมิติข้อมูลหรือการวัดผล แต่ฟิลด์มีลักษณะอื่นๆ ที่ขึ้นอยู่กับประเภทข้อมูลด้วย ซึ่งระบุโดยไอคอนของแต่ละฟิลด์ (แต่ข้อมูลบางประเภทใช้ไอคอนเดียวกัน) Tableau Prep ใช้ประเภทข้อมูลแบบเดียวกัน หากมีการบังคับใช้ประเภทข้อมูลในคอลัมน์ แต่ค่าที่มีอยู่ไม่ตรงกับประเภทข้อมูลที่กำหนด ค่าที่แสดงอาจเป็น Null (เพราะ “สีม่วง” ไม่ใช่ตัวเลข)
ฟังก์ชันบางอย่างกำหนดให้ใช้ประเภทข้อมูลเฉพาะ ตัวอย่างเช่น คุณไม่สามารถใช้ CONTAINS กับฟิลด์ตัวเลข ฟังก์ชันของประเภทใช้เปลี่ยนประเภทข้อมูลของฟิลด์ได้ ตัวอย่างเช่น DATEPARSE สามารถเปลี่ยนวันที่แบบข้อความที่มีรูปแบบเฉพาะให้เป็นวันที่ได้ ทำให้คุณสามารถใช้การดูรายละเอียดแนวลึกโดยอัตโนมัติในมุมมองได้
ไอคอน | ประเภทข้อมูล |
---|---|
ค่าข้อความ (สตริง) | |
ค่าวันที่ | |
ค่าวันที่และเวลา | |
ค่าตัวเลข | |
ค่าบูลีน (ที่สัมพันธ์กันเท่านั้น) | |
ค่าทางภูมิศาสตร์ (ใช้กับแผนที่) |
คำแนะนำ: หากต้องการข้อมูลเพิ่มเติม โปรดดูบทความความช่วยเหลือเกี่ยวกับประเภทข้อมูล
ข้อมูลที่มีและไม่มี Pivot
ข้อมูลที่เข้าใจง่ายมักมีการรวบรวมและบันทึกในรูปแบบกว้างที่มีหลายคอลัมน์ ขณะที่ข้อมูลที่เครื่องอ่านได้ซึ่ง Tableau แนะนำจะอยู่ในรูปแบบสูงที่มีคอลัมน์น้อยกว่าแต่มีแถวมากกว่า
หมายเหตุ: ข้อมูลที่มี Pivot เดิมทีหมายถึงการเปลี่ยนจากแบบสูงเป็นแบบกว้าง (จากแถวเป็นคอลัมน์) ส่วนข้อมูลที่ไม่มี Pivot หมายถึงการเปลี่ยนจากแบบกว้างเป็นแบบสูง (จากคอลัมน์เป็นแถว) อย่างไรก็ตาม Tableau ใช้คำว่า Pivot เพื่อเรียกการเปลี่ยนจากแบบกว้าง (เข้าใจง่าย) ไปเป็นแบบสูง (เครื่องอ่านได้) ด้วยการเปลี่ยนคอลัมน์เป็นแถว ในเอกสารนี้ Pivot จะมีความหมายตามที่ Tableau ใช้ เพื่อความชัดเจน การระบุว่า “ทำ Pivot คอลัมน์เป็นแถว” หรือ “ทำ Pivot แถวเป็นคอลัมน์” จะช่วยให้เข้าใจได้ง่าย
หากต้องการข้อมูลเพิ่มเติม โปรดดูบทความการช่วยเหลือทำ Pivot ข้อมูลของคุณและเคล็ดลับในการทำงานกับข้อมูลของคุณ
ข้อมูลแบบกว้าง
ในชุดข้อมูลเรื่องโรคมาลาเรียของ WHO มีคอลัมน์ประเทศและคอลัมน์สำหรับแต่ละปี แต่ละเซลล์แสดงจำนวนผู้ป่วยโรคมาเลเรียในประเทศและปีนั้นๆ ในรูปแบบนี้ เรามีแถว 108 แถวและคอลัมน์ 16 คอลัมน์
นี่เป็นรูปแบบที่คนสามารถอ่านและเข้าใจได้ อย่างไรก็ตาม หากเรานำข้อมูลนี้เข้าไปยัง Tableau Desktop เราจะได้หนึ่งฟิลด์ต่อหนึ่งคอลัมน์ กล่าวคือ เราจะได้ฟิลด์สำหรับปี 2000, ฟิลด์สำหรับปี 2001, ฟิลด์สำหรับปี 2002 ฯลฯ
หากมองอีกมุม เราจะได้ 15 ฟิลด์ที่แสดงข้อมูลพื้นฐานเดียวกัน นั่นคือจำนวนผู้ป่ายโรคมาเลเรียที่มีการรายงาน โดยไม่มีฟิลด์สำหรับเวลาเลย ซึ่งจะทำให้วิเคราะห์ข้อมูลได้ยากเมื่อเวลาผ่านไปเนื่องจากข้อมูลถูกเก็บไว้ในฟิลด์ที่แยกจากกัน
คำถาม: เราจะสร้างแผนที่ที่แสดงจำนวนผู้ป่วยโรคมาลาเรียทั้งหมดตั้งแต่ปี 2000 ถึง 2014 โดยแยกตามประเทศได้อย่างไร
คำตอบ: สร้างฟิลด์ที่คำนวณเพื่อรวมค่าของปีทั้งหมด
อีกสิ่งหนึ่งที่บ่งชี้ว่ารูปแบบนี้ไม่เหมาะสำหรับการวิเคราะห์ก็คือรูปแบบนี้ไม่มีข้อมูลที่อธิบายว่าค่าต่างๆ หมายถึงสิ่งใด สำหรับ “Algeria (แอลจีเรีย)” ในปี 2012 ค่าคือ 55 แต่เราไม่รู้ว่า 55 เป็นค่าของสิ่งใด เนื่องจากโครงสร้างของข้อมูลไม่ได้แสดงให้เห็นอย่างชัดเจน
หากชื่อของคอลัมน์ไม่ได้อธิบายค่าแต่เป็นการให้ข้อมูลเพิ่มเติม หมายความว่าข้อมูลดังกล่าวต้องมีการทำ Pivot
ข้อมูลแบบสูง
หากทำ Pivot ข้อมูล เราจะเปลี่ยนรูปแบบข้อมูลจากกว้างเป็นสูง ตอนนี้เราจะมีหนึ่งคอลัมน์สำหรับ “Year (ปี)” และคอลัมน์ใหม่สำหรับ “Reported Cases (จำนวนผู้ป่วย)” แทนหนึ่งคอลัมน์สำหรับแต่ละปี ในรูปแบบนี้ เรามีแถว 1,606 แถวและคอลัมน์ 3 คอลัมน์ รูปแบบข้อมูลนี้จะสูงขึ้น ไม่ใช่กว้างขึ้น
ใน Tableau Desktop เรามีฟิลด์สำหรับ “Year (ปี)” และฟิลด์สำหรับ “Reported Cases (จำนวนผู้ป่วย)” รวมถึงฟิลด์เดิมสำหรับ “Country (ประเทศ)” ซึ่งจะทำการวิเคราะห์ได้ง่ายกว่า เนื่องจากแต่ละฟิลด์แสดงลักษณะของข้อมูลที่ไม่ซ้ำกัน ได้แก่ สถานที่ เวลา และค่า
คำถาม: เราจะสร้างแผนที่ที่แสดงจำนวนผู้ป่วยโรคมาลาเรียทั้งหมดตั้งแต่ปี 2000 ถึง 2014 โดยแยกตามประเทศได้อย่างไร
คำตอบ: ใช้ฟิลด์ “Reported Cases (จำนวนผู้ป่วย)”
ตอนนี้จะเราเห็นได้ง่ายๆ ว่าสำหรับ “Algeria (แอลจีเรีย)” ในปี 2012 ค่า 55 หมายถึงจำนวนผู้ป่วย (เนื่องจากเราทำป้ายกำกับสำหรับคอลัมน์ใหม่นี้ได้)
หมายเหตุ: ในตัวอย่างนี้ ข้อมูลแบบกว้างประกอบด้วยระเบียนข้อมูลหนึ่งรายการสำหรับแต่ละประเทศ ในข้อมูลแบบสูง ตอนนี้จะมีแถว 15 แถวสำหรับแต่ละประเทศ (หนึ่งแถวสำหรับหนึ่งปี โดยในข้อมูลมี 15 ปี) ที่สำคัญคือต้องไม่ลืมว่าตอนนี้มีแถวหลายแถวสำหรับแต่ละประเทศ
หากมีคอลัมน์สำหรับ “เขตพื้นที่” ระบบจะแสดงค่าดังกล่าวซ้ำสำหรับทั้ง 15 แถวของแต่ละประเทศในโครงสร้างข้อมูลแบบสูง หากสร้างแผนภูมิแท่งโดยนำประเทศไปใส่ในแถวและเขตพื้นที่ไปใส่ในคอลัมน์ โดยค่าเริ่มต้น มุมมองจะรวมเขตพื้นที่ของทั้ง 15 แถวสำหรับแต่ละประเทศ
บางฟิลด์อาจจำเป็นต้องมีการชดเชยสำหรับค่าที่มีการนับซ้ำโดยนำไปรวมกับค่าเฉลี่ยหรือค่าต่ำสุด แทนการแสดงผลรวมหรือการกรอง
การนอร์มัลไลซ์
ฐานข้อมูลเชิงสัมพันธ์ประกอบด้วยตารางหลายตารางที่เกี่ยวข้องหรือเชื่อมโยงกันได้ในทางใดทางหนึ่ง โดยแต่ละตารางจะมีตัวระบุที่ไม่ซ้ำหรือคีย์ของแต่ละระเบียน การเชื่อมโยงหรือรวมคีย์เข้าด้วยกันจะทำให้สามารถเชื่อมโยงระเบียนต่างๆ ได้เพื่อให้ข้อมูลมากกว่าที่มีในตารางเดียว ข้อมูลในแต่ละตารางจะขึ้นอยู่กับโมเดลข้อมูลที่ใช้ แต่วัตถุประสงค์หลักคือการลดความซ้ำซ้อน
ตัวอย่างเช่น เมื่อพิจารณาการวางแผนการจัดงานอย่างงานแต่งงาน เราต้องติดตามข้อมูลในระดับกลุ่ม (เช่น ครอบครัวหรือคู่รัก) รวมถึงในระดับบุคคล
เราสามารถสร้างตารางเพื่อรวมข้อมูลทั้งหมดเข้าด้วยกันได้ดังนี้
อย่างไรก็ตาม หากที่อยู่ไม่ถูกต้องและต้องได้รับการแก้ไข ก็จะต้องทำการแก้ไขในหลายแถวซึ่งอาจทำให้เกิดข้อผิดพลาดหรือข้อขัดแย้ง โครงสร้างที่ดีกว่าคือการสร้างตารางสองตาราง โดยให้ตารางหนึ่งมีข้อมูลที่เกี่ยวข้องกับกลุ่ม (เช่น ที่อยู่และสถานะการส่งบัตรเชิญ) ส่วนอีกตารางมีข้อมูลเกี่ยวกับบุคคล (เช่น จำนวนที่นั่งหรือข้อจำกัดเรื่องอาหาร)
ตารางกลุ่ม | ตารางบุคคล |
การติดตามและวิเคราะห์ข้อมูลระดับกลุ่มทำได้ง่ายกว่ามากในตารางกลุ่ม และข้อมูลระดับบุคคลก็อยู่ในตารางบุคคล ตัวอย่างเช่น เราหาจำนวนเก้าอี้ที่ต้องเตรียมได้จากจำนวนในระเบียน Attending = Yes ในตารางบุคคล และหาจำนวนแสตมป์สำหรับบัตรขอบคุณได้จากจำนวนระเบียนในตารางกลุ่มโดยดูคอลัมน์ “Gift (ของขวัญ)” ที่ไม่ใช่ค่า Null
กระบวนการแยกข้อมูลทั้งหมดออกเป็นตารางหลายตารางและดูว่าตารางใดมีคอลัมน์ใดบ้างเรียกว่าการนอร์มัลไลซ์ การนอร์มัลไลซ์ช่วยลดข้อมูลที่ซ้ำกันและทำให้การจัดระเบียบฐานข้อมูลง่ายขึ้น
อย่างไรก็ตาม บางครั้งข้อมูลที่ต้องการก็กระจายอยู่ในหลายตาราง ตัวอย่างเช่น จะทำอย่างไรหากต้องการจัดที่นั่ง (บุคคล) อย่างสมดุลเพื่อให้กลุ่มคนรู้จักของเจ้าสาวนั่งโต๊ะเดียวกับคนรู้จักของเจ้าบ่าว (ความเกี่ยวข้องกับเจ้าสาวและเจ้าบ่าวถูกบันทึกไว้ในระดับกลุ่ม) วิธีการก็คือเราต้องรวมทั้งสองตารางเข้าด้วยกันเพื่อสร้างความเกี่ยวข้องระหว่างข้อมูลบุคคลและข้อมูลเกี่ยวกับกลุ่มของบุคคล การนอร์มัลไลซ์ที่ดีไม่ใช่การแยกตารางออกจากกันเท่านั้น แต่ต้องแสดงให้เห็นฟิลด์ที่เกี่ยวข้องซึ่งปรากฏในหลายตารางหรือตัวระบุที่ไม่ซ้ำซึ่งใช้รวมข้อมูลกลับเข้าด้วยกันอีกครั้งได้ ในกรณีนี้ ฟิลด์ที่เกี่ยวข้องคือ “Group (กลุ่ม)” ฟิลด์นี้ปรากฏในทั้งสองตาราง เราจึงสามารถรวมตารางด้วยฟิลด์นี้และแยกกลับไปใช้รูปแบบตารางเดียวแบบเดิมได้ นี่คือโครงสร้างแบบดีนอร์มัลไลซ์
แล้วเหตุใดเราจึงไม่ใช้ตารางดีนอร์มัลไลซ์แบบเดิม เหตุผลก็คือการรักษาตารางทำได้ยากและตารางจะจัดเก็บข้อมูลที่ซ้ำกัน ข้อมูลซ้ำจะมีจำนวนมหาศาลในวงกว้าง การจัดเก็บข้อมูลเดียวกันซ้ำๆ ไม่ใช่วิธีที่มีประสิทธิภาพ
ตารางแบบนอร์มัลไลซ์มีคุณสมบัติหลักๆ ดังนี้
แต่ละแถวต้องมีตัวระบุที่ไม่ซ้ำ
แต่ละตารางต้องมีคอลัมน์ที่ใช้เพื่อเชื่อมโยงกลับไปยังตารางอื่นได้ (คีย์)
คอลัมน์ที่แชร์ (คีย์) เหล่านี้จะใช้สำหรับการเชื่อมโยงหรือรวมตารางกลับเข้าด้วยกัน สำหรับข้อมูลของเรา ความสัมพันธ์หรือการรวมข้อมูลอยู่ในฟิลด์ “Group (กลุ่ม)” ของแต่ละตาราง
ประเภทการรวม
แม้ว่าวิธีเริ่มต้นของการรวมข้อมูลใน Tableau Desktop จะเป็นการเชื่อมโยง แต่ในบางกรณี คุณอาจต้องการรวมตารางใน Tableau Desktop หรือ Tableau Prep Builder สำหรับภาพรวมพื้นฐานของการรวมและประเภทการรวม โปรดดูรวมข้อมูลของคุณ
ข้อมูลที่ "เป็นระเบียบ"
Hadley Wickham ได้เผยแพร่บทความลงในวารสาร Journal of Statistical Software ในปี 2014 ตัวบทความชื่อ “Tidy Data” (สิงหาคม 2014, ปีที่ 59, ฉบับที่ 10) บทความนี้ได้อธิบายถึงกรอบงานของข้อมูลที่มีโครงสร้างเหมาะสมสำหรับการวิเคราะห์ไว้เป็นอย่างดี คุณอ่านบทความนี้ได้ที่นี่ (พอร์ตโฟลิโอผลงานเชิงวิชาการของ Hadley Wickham)(ลิงก์จะเปิดในหน้าต่างใหม่) หรือที่นี่ (โฮสต์โดย r-project.org)(ลิงก์จะเปิดในหน้าต่างใหม่)
หมายเหตุ: บทความดังกล่าวโฮสตน์บนเว็บไซต์ภายนอก Tableau ไม่สามารถรับผิดชอบความถูกต้องหรือความใหม่ของหน้าต่างๆ ที่ผู้ให้บริการภายนอกเป็นผู้ดูแลได้ โปรดติดต่อเจ้าของหากคุณมีคำถามเกี่ยวกับเนื้อหาของพวกเขา