ลบแถวที่ซ้ำกัน

รองรับใน Tableau Prep Builder เวอร์ชัน 2024.1 ขึ้นไปและบนเว็บใน Tableau Cloud

ข้อมูลที่ซ้ำกันอาจส่งผลต่อคุณภาพของข้อมูล ผลการคาดการณ์ที่อคติ และพื้นที่เก็บข้อมูลที่ไม่มีคุณภาพ การลบรายการที่ซ้ำกันจะทำให้แต่ละค่าไม่ซ้ำกัน ซึ่งช่วยให้สามารถนำเสนอข้อมูลของคุณได้อย่างถูกต้อง ขั้นตอนแรกในการลบรายการที่ซ้ำกันคือระบุแถวที่ซ้ำกันในข้อมูลของคุณ หลังจากที่ระบุรายการที่ซ้ำกันแล้ว คุณสามารถลบออกจากโฟลว์การทำงานได้

ระบุและลบรายการที่ซ้ำกัน

Tableau Prep จะระบุรายการที่ซ้ำกันเป็นแถวใดๆ ที่มีแถวอื่นอย่างน้อยหนึ่งแถวที่มีค่าเหมือนกัน

วิธีระบุและลบแถวที่ซ้ำกัน

  1. (ไม่บังคับ) สำหรับไฟล์ Excel และไฟล์ข้อความ คุณสามารถคลิกที่ขั้นตอนการป้อนข้อมูลและเพิ่มฟิลด์ “หมายเลขแถวต้นทาง” เพื่อจัดเรียงแถวตามแหล่งข้อมูลต้นฉบับ หากต้องการข้อมูลเพิ่มเติม โปรดดูเพิ่มฟิลด์หมายเลขแถวต้นทางลงในโฟลว์ของคุณและลำดับการจัดเรียงสำหรับฟิลด์ที่คำนวณ
  2. คลิกที่ขั้นตอนใดๆ นอกเหนือจากขั้นตอนการป้อนข้อมูลและเอาต์พุต
  3. ระบุแถวที่ซ้ำกัน
    • หากต้องการระบุแถวที่ซ้ำกันในทุกฟิลด์ จากแถบเครื่องมือ ให้คลิกระบุแถวที่ซ้ำกัน
    • หากต้องการระบุแถวที่ซ้ำกันในฟิลด์เฉพาะ ให้เลือกฟิลด์อย่างน้อยหนึ่งฟิลด์ จากนั้นคลิกระบุแถวที่ซ้ำกัน หรือในแผงโปรไฟล์ คุณสามารถคลิกเมนูตัวเลือกเพิ่มเติม จากฟิลด์ที่เลือก แล้วเลือกระบุแถวที่ซ้ำกัน

    ฟิลด์ที่คำนวณจะสร้างขึ้นและแสดงรายการในแผงการเปลี่ยนแปลง ฟิลด์ที่คำนวณจะมีคำอธิบายและชื่อของฟิลด์ที่มีการขยายแถวที่ซ้ำกัน ตารางกริดข้อมูลจะแสดงว่าแถวใดไม่ซ้ำกันและแถวใดซ้ำกัน

    รูปภาพต่อไปนี้แสดงผลลัพธ์ของการเลือกทั้งสองฟิลด์ ได้แก่ ภูมิภาค และประเภทรายการเพื่อระบุแถวที่ซ้ำกันเฉพาะในฟิลด์ที่เลือกเท่านั้น

    หากมีหมายเลขแถวต้นทาง ระบบจะใช้หมายเลขดังกล่าวเพื่อเรียงลำดับแถว มิฉะนั้นแล้ว ระบบจะจัดเรียงแถวตามฟิลด์แรกในสคีมาตาราง หากต้องการเปลี่ยนค่าในฟิลด์ที่คำนวณ คุณสามารถแก้ไขการคำนวณได้โดยตรงหรือเขียนการคำนวณของคุณเอง ดูลำดับการจัดเรียงสำหรับฟิลด์ที่คำนวณ

  4. หากต้องการประเมินแถวที่ซ้ำกัน ให้คลิกที่ทำซ้ำหรือไม่ซ้ำกันในฟิลด์ “แถวซ้ำกันหรือไม่” หรือในตารางกริดข้อมูล
  5. รูปภาพต่อไปนี้แสดงแถวที่ซ้ำกันในทุกฟิลด์

    รูปภาพต่อไปนี้แสดงแถวที่ซ้ำกันเฉพาะในฟิลด์ภูมิภาคและประเภทรายการเท่านั้น

  6. หากต้องการกรองและเก็บเฉพาะแถวที่ไม่ซ้ำ ให้คลิกไม่ซ้ำกันในตารางกริดข้อมูลหรือในฟิลด์ “แถวซ้ำกันหรือไม่” และเลือกเก็บเฉพาะรายการที่เลือกจากแถบเครื่องมือ หรือคุณสามารถคลิกไม่ซ้ำกันในตารางกริดข้อมูลหรือในฟิลด์ “แถวซ้ำกันหรือไม่” จากนั้นคลิกขวาเพื่อเลือกเก็บเฉพาะรายการที่เลือก

    คุณสามารถเลือกทำซ้ำ จากนั้นเลือกยกเว้นเพื่อกรองข้อมูลสำหรับรายการที่ซ้ำกันได้อีกด้วย การดำเนินการนี้จะทำให้ได้ผลลัพธ์เหมือนกับการเลือก “ไม่ซ้ำกัน” และ “เก็บเฉพาะรายการที่เลือก” และไม่ส่งผลต่อแถวที่ยกเว้นหรือเก็บไว้

    ตัวกรองจะสร้างขึ้นในแผงการเปลี่ยนแปลงโดยแสดงว่ามีการเก็บเฉพาะแถวที่ไม่ซ้ำกันเท่านั้นและยกเว้นแถวที่ซ้ำกัน

  7. จากฟิลด์ที่คำนวณ “แถวที่ซ้ำกันหรือไม่” คลิกเมนูตัวเลือกเพิ่มเติม และเลือกลบ

    แถวที่ซ้ำกันจะถูกลบออกเมื่อคุณเรียกใช้โฟลว์และสร้างเอาต์พุต

    หมายเหตุ: อย่าลบฟิลด์ที่คำนวณ “แถวที่ซ้ำกันหรือไม่” หากคุณจะปรับเปลี่ยนข้อมูลตัวอย่าง

รายการที่ซ้ำกันในตัวอย่างข้อมูล

แถวที่ซ้ำกันอาจไม่ปรากฏในตัวอย่างข้อมูลและอาจทำให้เกิดอคติในโมเดลได้

วิธีระบุตัวอย่างข้อมูลสำหรับแถวที่ซ้ำกัน:

  1. อย่าลบฟิลด์ที่คำนวณแถวที่ซ้ำกันหรือไม่หากคุณจะปรับเปลี่ยนข้อมูลตัวอย่าง ซึ่งจะให้คุณสามารถเลือกเปลี่ยนขนาดตัวอย่างหรือปรับเปลี่ยนตัวอย่างข้อมูลในขั้นตอนการป้อนข้อมูลได้
  2. ปรับเปลี่ยนขนาดตัวอย่างเพื่อโหลดข้อมูลให้ได้มากที่สุดสำหรับการเลือกแถว โปรดดูตั้งค่าขนาดตัวอย่างข้อมูลของคุณ
  3. รายการที่ซ้ำกันอาจไม่ปรากฏในตัวอย่างข้อมูล ทั้งนี้ขึ้นอยู่กับขนาดของตัวอย่าง การใช้ตัวเลือกเก็บเฉพาะรายการที่เลือกสำหรับแถวที่ไม่ซ้ำกันช่วยให้คุณสามารถลบแถวที่ซ้ำกันได้ แม้ว่าจะไม่ปรากฏในตัวอย่างข้อมูลก็ตาม

ลำดับการจัดเรียงสำหรับฟิลด์ที่คำนวณ

ตามค่าเริ่มต้น หากหลายแถวมีค่าเท่ากัน ระบบจะจัดเรียงแถวเหล่านั้นตามฟิลด์แรก หรือหมายเลขแถวต้นทาง (หากมี) ฟิลด์นี้ใช้เพื่อระบุแถวแรกเป็นไม่ซ้ำกันและที่เหลือเป็นซ้ำกัน การเปลี่ยนลำดับการจัดเรียงของฟิลด์ช่วยให้คุณสามารถระบุแถวที่ซ้ำกันที่ต้องการระบุว่า “ไม่ซ้ำกัน” ได้ คุณสามารถเปลี่ยนแปลงลำดับได้โดยแก้ไขการคำนวณและเปลี่ยนแปลงฟิลด์ ORDERBY

ตัวอย่าง:

IF ({PARTITION [Field1], [Field2], [Field3]: { ORDERBY [FieldName] ASC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END

สำหรับไฟล์ Excel และไฟล์ข้อความ คุณสามารถจัดเรียงตามแหล่งข้อมูลต้นฉบับได้โดยการเพิ่มฟิลด์ “หมายเลขแถวต้นทาง”

ตัวอย่าง:

IF ({PARTITION [Source Row Number], [Field1], [Field2], [Field3]: { ORDERBY [Source Row Number] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END

หากต้องการข้อมูลเพิ่มเติม โปรดดูเพิ่มฟิลด์หมายเลขแถวต้นทางลงในโฟลว์ของคุณ

เขียนการคำนวณตัวกรองของคุณเองเพื่อค้นหาและลบรายการที่ซ้ำกัน

คุณสามารถเขียนการคำนวณตัวกรองของคุณเองในหลายฟิลด์เพื่อค้นหาและลบรายการที่ซ้ำกัน

การคำนวณตัวกรองต่อไปนี้จะแสดงผลลัพธ์ที่ส่งคืนค่าเป็น True เท่านั้น การคำนวณจะส่งคืนค่า True หรือ False ตามฟิลด์ที่ใช้กับ PARTITION

{PARTITION [Field1], [Field2], [Field3]: { ORDERBY [Field1] DESC: ROW_NUMBER() } } = 1

ใช้ CASE หรือ IF เพื่อระบุการคำนวณที่ซ้ำกัน

คุณสามารถใช้ฟังก์ชัน IF หรือ CASE ในเครื่องมือแก้ไขการคำนวณได้ ตัวอย่าง:

CASE {PARTITION [Field1], [Field2], [Field3] : { ORDERBY [[Field3]]: ROW_NUMBER() } } = 1 WHEN TRUE THEN 'UNIQUE' ELSE 'DUPLICATE' END

IF ({PARTITION [[Field1]], [[Field2]], [[Field3]]: { ORDERBY [[Field3]] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END

ขอบคุณสำหรับข้อเสนอแนะของคุณส่งข้อเสนอแนะของคุณเรียบร้อยแล้ว ขอขอบคุณ