Rimuovere le righe duplicate

Supportato in Tableau Prep Builder versione 2024.1 e successive e sul Web in Tableau Cloud.

I dati duplicati possono avere un impatto sulla qualità dei dati, distorcere i risultati delle previsioni e ridurre inutilmente lo spazio di archiviazione disponibile. La rimozione dei duplicati garantisce che ogni valore sia univoco, fornendo una rappresentazione accurata dei dati. La prima fase per rimuovere i duplicati è identificare le righe duplicate nei dati. Dopo aver identificato i duplicati, puoi rimuoverli dal flusso di lavoro.

Identificare e rimuovere i duplicati

Tableau Prep identifica un duplicato come qualsiasi riga per cui sia presente almeno un’altra riga con gli stessi valori.

Per identificare e rimuovere le righe duplicate:

  1. (Facoltativo) Per i file Excel e di testo, puoi fare clic sulla fase di input e aggiungere un campo Numero di riga origine per ordinare le righe in base all’origine dati originale. Per maggiori informazioni, consulta Aggiungere il campo Numero di riga origine al flusso e Ordinamento per il campo calcolato.
  2. Fai clic su qualsiasi fase diversa da una fase di input o di output.
  3. Identifica le righe duplicate.
    • Per identificare le righe duplicate in tutti i campi, dalla barra degli strumenti fai clic su Identifica righe duplicate.
    • Per identificare le righe duplicate in campi specifici, seleziona uno o più campi, quindi fai clic su Identifica righe duplicate. Facoltativamente, nel riquadro del profilo puoi fare clic sul menu Altre opzioni dal campo selezionato, quindi selezionare Identifica righe duplicate.

    Un campo calcolato viene creato ed elencato nel riquadro Modifiche. Il campo calcolato fornisce una descrizione e i nomi dei campi che includono le righe duplicate. La griglia dei dati mostra quali righe sono univoche e quali sono duplicate.

    L’immagine seguente mostra i risultati della selezione dei due campi Regione e Tipo di elemento per identificare le righe duplicate solo nei campi selezionati.

    Se è disponibile un campo Numero di riga origine, viene utilizzato per ordinare le righe. In caso contrario, le righe vengono ordinate in base al primo campo nello schema della tabella. Per modificare i valori nel campo calcolato, puoi modificare direttamente il calcolo o scrivere un nuovo calcolo. Vedi Ordinamento per il campo calcolato.

  4. Per valutare le righe duplicate, fai clic su Duplicato o Univoco nel campo Riga duplicata? o nella griglia dei dati.
  5. L’immagine seguente mostra le righe duplicate in tutti i campi.

    L’immagine seguente mostra le righe duplicate solo nei campi Regione e Tipo di elemento.

  6. Per filtrare e mantenere solo le righe univoche, fai clic su Univoco nella griglia dei dati o nel campo Riga duplicata?, quindi seleziona Mantieni solo dalla barra degli strumenti. Facoltativamente, puoi fare clic su Univoco nella griglia dei dati o nel campo Riga duplicata?, quindi fare clic con il pulsante destro del mouse per selezionare Mantieni solo.

    Puoi anche selezionare Duplicato, quindi selezionare Escludi per filtrare i dati escludendo i duplicati. Ciò produce gli stessi risultati della selezione di Univoco e Mantieni solo e non influisce su quali righe vengono escluse o mantenute.

    Nel riquadro delle modifiche viene creato un filtro che mostra che vengono mantenute solo le righe univoche e vengono escluse le righe duplicate.

  7. Dal campo calcolato Riga duplicata? fai clic sul menu Altre opzioni, quindi seleziona Rimuovi.

    Le righe duplicate vengono rimosse quando esegui il flusso e crei un output.

    Nota: non rimuovere il campo calcolato Riga duplicata? se prevedi di apportare modifiche ai dati campionati.

Duplicati nei dati campionati

Le righe duplicate potrebbero non essere visualizzate nei dati campionati e potrebbero introdurre distorsioni nel modello.

Per risolvere i problemi dei dati campionati con righe duplicate:

  1. Non rimuovere il campo calcolato Riga duplicata? se si prevede di apportare modifiche ai dati campionati. Questo offre la possibilità di modificare la dimensione del campione o di regolare i dati del campione nella fase di input.
  2. Regola la dimensione del campione in modo da caricare il maggior numero di dati possibile per la selezione della riga. Consulta Impostare la dimensione del campione di dati.
  3. I duplicati potrebbero non apparire nei dati campionati a seconda della dimensione del campione. L’utilizzo dell’opzione Mantieni solo per righe univoche consente di rimuovere le righe duplicate, anche se non sono visibili nei dati campionati.

Ordinamento per il campo calcolato

Per impostazione predefinita, se più righe contengono lo stesso valore, vengono ordinate in base al primo campo o, se disponibile, al campo Numero di riga origine. I campi vengono utilizzati per identificare la prima riga come univoca e quelle restanti come duplicate. La modifica dell’ordinamento dei campi ti consente di specificare quale riga duplicata desideri identificare come univoca. Puoi apportare modifiche all’ordine modificando il calcolo e cambiando il campo ORDERBY .

Ad esempio:

IF ({PARTITION [Field1], [Field2], [Field3]: { ORDERBY [FieldName] ASC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END

Per i file Excel e di testo, puoi ordinare in base all’origine dati originale aggiungendo un campo Numero di riga origine.

Ad esempio:

IF ({PARTITION [Source Row Number], [Field1], [Field2], [Field3]: { ORDERBY [Source Row Number] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END

Per maggiori informazioni, consulta Aggiungere il campo Numero di riga origine al flusso.

Scrivere un calcolo di filtro per individuare e rimuovere i duplicati

Puoi scrivere un calcolo di filtro su più campi per individuare e rimuovere i duplicati.

Il seguente calcolo di filtro restituirà solo risultati che restituiscono True. Il calcolo restituisce True o False in base ai campi utilizzati per PARTITION

{PARTITION [Field1], [Field2], [Field3]: { ORDERBY [Field1] DESC: ROW_NUMBER() } } = 1

Utilizza CASE o IF per identificare i calcoli duplicati

Puoi utilizzare le funzioni IF o CASE nell’editor di calcolo. Ad esempio:

CASE {PARTITION [Field1], [Field2], [Field3] : { ORDERBY [[Field3]]: ROW_NUMBER() } } = 1 WHEN TRUE THEN 'UNIQUE' ELSE 'DUPLICATE' END

IF ({PARTITION [[Field1]], [[Field2]], [[Field3]]: { ORDERBY [[Field3]] DESC: ROW_NUMBER() } } = 1) THEN 'Unique' ELSE 'Duplicate' END

Grazie per il tuo feedback.Il tuo feedback è stato inviato. Grazie!