ลบแถวที่ซ้ำกัน
รองรับใน Tableau Prep Builder เวอร์ชัน 2024.1 ขึ้นไปและบนเว็บใน Tableau Cloud
ข้อมูลที่ซ้ำกันอาจส่งผลต่อคุณภาพของข้อมูล ผลการคาดการณ์ที่อคติ และพื้นที่เก็บข้อมูลที่ไม่มีคุณภาพ การลบรายการที่ซ้ำกันจะทำให้แต่ละค่าไม่ซ้ำกัน ซึ่งช่วยให้สามารถนำเสนอข้อมูลของคุณได้อย่างถูกต้อง ขั้นตอนแรกในการลบรายการที่ซ้ำกันคือระบุแถวที่ซ้ำกันในข้อมูลของคุณ หลังจากที่ระบุรายการที่ซ้ำกันแล้ว คุณสามารถลบออกจากโฟลว์การทำงานได้
ระบุและลบรายการที่ซ้ำกัน
Tableau Prep จะระบุรายการที่ซ้ำกันเป็นแถวใดๆ ที่มีแถวอื่นอย่างน้อยหนึ่งแถวที่มีค่าเหมือนกัน
วิธีระบุและลบแถวที่ซ้ำกัน
- (ไม่บังคับ) สำหรับไฟล์ Excel และไฟล์ข้อความ คุณสามารถคลิกที่ขั้นตอนการป้อนข้อมูลและเพิ่มฟิลด์ “หมายเลขแถวต้นทาง” เพื่อจัดเรียงแถวตามแหล่งข้อมูลต้นฉบับ หากต้องการข้อมูลเพิ่มเติม โปรดดูเพิ่มฟิลด์หมายเลขแถวต้นทางลงในโฟลว์ของคุณและลำดับการจัดเรียงสำหรับฟิลด์ที่คำนวณ
- คลิกที่ขั้นตอนใดๆ นอกเหนือจากขั้นตอนการป้อนข้อมูลและเอาต์พุต
- ระบุแถวที่ซ้ำกัน
- หากต้องการระบุแถวที่ซ้ำกันในทุกฟิลด์ จากแถบเครื่องมือ ให้คลิกระบุแถวที่ซ้ำกัน
- หากต้องการระบุแถวที่ซ้ำกันในฟิลด์เฉพาะ ให้เลือกฟิลด์อย่างน้อยหนึ่งฟิลด์ จากนั้นคลิกระบุแถวที่ซ้ำกัน หรือในแผงโปรไฟล์ คุณสามารถคลิกเมนูตัวเลือกเพิ่มเติม จากฟิลด์ที่เลือก แล้วเลือกระบุแถวที่ซ้ำกัน
ฟิลด์ที่คำนวณจะสร้างขึ้นและแสดงรายการในแผงการเปลี่ยนแปลง ฟิลด์ที่คำนวณจะมีคำอธิบายและชื่อของฟิลด์ที่มีการขยายแถวที่ซ้ำกัน ตารางกริดข้อมูลจะแสดงว่าแถวใดไม่ซ้ำกันและแถวใดซ้ำกัน
รูปภาพต่อไปนี้แสดงผลลัพธ์ของการเลือกทั้งสองฟิลด์ ได้แก่ ภูมิภาค และประเภทรายการเพื่อระบุแถวที่ซ้ำกันเฉพาะในฟิลด์ที่เลือกเท่านั้น
หากมีหมายเลขแถวต้นทาง ระบบจะใช้หมายเลขดังกล่าวเพื่อเรียงลำดับแถว มิฉะนั้นแล้ว ระบบจะจัดเรียงแถวตามฟิลด์แรกในสคีมาตาราง หากต้องการเปลี่ยนค่าในฟิลด์ที่คำนวณ คุณสามารถแก้ไขการคำนวณได้โดยตรงหรือเขียนการคำนวณของคุณเอง ดูลำดับการจัดเรียงสำหรับฟิลด์ที่คำนวณ
- หากต้องการประเมินแถวที่ซ้ำกัน ให้คลิกที่ทำซ้ำหรือไม่ซ้ำกันในฟิลด์ “แถวซ้ำกันหรือไม่” หรือในตารางกริดข้อมูล
- หากต้องการกรองและเก็บเฉพาะแถวที่ไม่ซ้ำ ให้คลิกไม่ซ้ำกันในตารางกริดข้อมูลหรือในฟิลด์ “แถวซ้ำกันหรือไม่” และเลือกเก็บเฉพาะรายการที่เลือกจากแถบเครื่องมือ หรือคุณสามารถคลิกไม่ซ้ำกันในตารางกริดข้อมูลหรือในฟิลด์ “แถวซ้ำกันหรือไม่” จากนั้นคลิกขวาเพื่อเลือกเก็บเฉพาะรายการที่เลือก
คุณสามารถเลือกทำซ้ำ จากนั้นเลือกยกเว้นเพื่อกรองข้อมูลสำหรับรายการที่ซ้ำกันได้อีกด้วย การดำเนินการนี้จะทำให้ได้ผลลัพธ์เหมือนกับการเลือก “ไม่ซ้ำกัน” และ “เก็บเฉพาะรายการที่เลือก” และไม่ส่งผลต่อแถวที่ยกเว้นหรือเก็บไว้
ตัวกรองจะสร้างขึ้นในแผงการเปลี่ยนแปลงโดยแสดงว่ามีการเก็บเฉพาะแถวที่ไม่ซ้ำกันเท่านั้นและยกเว้นแถวที่ซ้ำกัน
- จากฟิลด์ที่คำนวณ “แถวที่ซ้ำกันหรือไม่” คลิกเมนูตัวเลือกเพิ่มเติม และเลือกลบ
แถวที่ซ้ำกันจะถูกลบออกเมื่อคุณเรียกใช้โฟลว์และสร้างเอาต์พุต
หมายเหตุ: อย่าลบฟิลด์ที่คำนวณ “แถวที่ซ้ำกันหรือไม่” หากคุณจะปรับเปลี่ยนข้อมูลตัวอย่าง
รูปภาพต่อไปนี้แสดงแถวที่ซ้ำกันในทุกฟิลด์
รูปภาพต่อไปนี้แสดงแถวที่ซ้ำกันเฉพาะในฟิลด์ภูมิภาคและประเภทรายการเท่านั้น
รายการที่ซ้ำกันในตัวอย่างข้อมูล
แถวที่ซ้ำกันอาจไม่ปรากฏในตัวอย่างข้อมูลและอาจทำให้เกิดอคติในโมเดลได้
วิธีระบุตัวอย่างข้อมูลสำหรับแถวที่ซ้ำกัน:
- อย่าลบฟิลด์ที่คำนวณแถวที่ซ้ำกันหรือไม่หากคุณจะปรับเปลี่ยนข้อมูลตัวอย่าง ซึ่งจะให้คุณสามารถเลือกเปลี่ยนขนาดตัวอย่างหรือปรับเปลี่ยนตัวอย่างข้อมูลในขั้นตอนการป้อนข้อมูลได้
- ปรับเปลี่ยนขนาดตัวอย่างเพื่อโหลดข้อมูลให้ได้มากที่สุดสำหรับการเลือกแถว โปรดดูตั้งค่าขนาดตัวอย่างข้อมูลของคุณ
- รายการที่ซ้ำกันอาจไม่ปรากฏในตัวอย่างข้อมูล ทั้งนี้ขึ้นอยู่กับขนาดของตัวอย่าง การใช้ตัวเลือกเก็บเฉพาะรายการที่เลือกสำหรับแถวที่ไม่ซ้ำกันช่วยให้คุณสามารถลบแถวที่ซ้ำกันได้ แม้ว่าจะไม่ปรากฏในตัวอย่างข้อมูลก็ตาม
ลำดับการจัดเรียงสำหรับฟิลด์ที่คำนวณ
ตามค่าเริ่มต้น หากหลายแถวมีค่าเท่ากัน ระบบจะจัดเรียงแถวเหล่านั้นตามฟิลด์แรก หรือหมายเลขแถวต้นทาง (หากมี) ฟิลด์นี้ใช้เพื่อระบุแถวแรกเป็นไม่ซ้ำกันและที่เหลือเป็นซ้ำกัน การเปลี่ยนลำดับการจัดเรียงของฟิลด์ช่วยให้คุณสามารถระบุแถวที่ซ้ำกันที่ต้องการระบุว่า “ไม่ซ้ำกัน” ได้ คุณสามารถเปลี่ยนแปลงลำดับได้โดยแก้ไขการคำนวณและเปลี่ยนแปลงฟิลด์ ORDERBY
ตัวอย่าง:
IF ({PARTITION [Field1], [Field2], [Field3]: { ORDERBY [FieldName] ASC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
สำหรับไฟล์ Excel และไฟล์ข้อความ คุณสามารถจัดเรียงตามแหล่งข้อมูลต้นฉบับได้โดยการเพิ่มฟิลด์ “หมายเลขแถวต้นทาง”
ตัวอย่าง:
IF ({PARTITION [Source Row Number], [Field1], [Field2], [Field3]: { ORDERBY [Source Row Number] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END
หากต้องการข้อมูลเพิ่มเติม โปรดดูเพิ่มฟิลด์หมายเลขแถวต้นทางลงในโฟลว์ของคุณ
เขียนการคำนวณตัวกรองของคุณเองเพื่อค้นหาและลบรายการที่ซ้ำกัน
คุณสามารถเขียนการคำนวณตัวกรองของคุณเองในหลายฟิลด์เพื่อค้นหาและลบรายการที่ซ้ำกัน
การคำนวณตัวกรองต่อไปนี้จะแสดงผลลัพธ์ที่ส่งคืนค่าเป็น True เท่านั้น การคำนวณจะส่งคืนค่า True หรือ False ตามฟิลด์ที่ใช้กับ PARTITION
{PARTITION [Field1], [Field2], [Field3]: { ORDERBY [Field1] DESC: ROW_NUMBER() } } = 1
ใช้ CASE
หรือ IF
เพื่อระบุการคำนวณที่ซ้ำกัน
คุณสามารถใช้ฟังก์ชัน IF
หรือ CASE
ในเครื่องมือแก้ไขการคำนวณได้ ตัวอย่าง:
CASE {PARTITION [Field1], [Field2], [Field3] : { ORDERBY [[Field3]]: ROW_NUMBER() } } = 1 WHEN TRUE THEN 'UNIQUE' ELSE 'DUPLICATE' END
IF ({PARTITION [[Field1]], [[Field2]], [[Field3]]: { ORDERBY [[Field3]] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END