Strumento Unico
Utilizza Univoco per distinguere le righe univoche da quelle duplicate, raggruppandole in base a una o più colonne specificate e quindi eseguendo l'ordinamento in base a tali colonne.
Configurazione dello strumento
Colonne per trovare valori univoci: consente di selezionare le colonne in cui cercare i valori univoci. Per confrontare le righe intere, utilizza la casella di spunta Seleziona tutto.
Ancoraggi di output
![]() |
Figura: strumento Univoco con ancoraggi di output.
Lo strumento Unico ha due ancoraggi di output:
Ancoraggio U: contiene le righe univoche del set di dati. Viene visualizzata la prima riga di ciascun gruppo.
Ancoraggio D: contiene le righe duplicate del set di dati. Vengono visualizzate le righe rimanenti di ciascun gruppo.
Avvertimento
L'ispezione manuale dei risultati è spesso necessaria per garantire che le righe contrassegnate come duplicati siano effettivamente duplicati. Ad esempio, è possibile che 2 clienti condividano lo stesso nome ma risiedano a indirizzi diversi. Se ritieni che il set di dati possa includere questi tipi di outlier, potresti selezionare colonne aggiuntive quando configuri questo strumento.
Esempio di output
Di seguito viene riportato un esempio di output dello strumento Univoco basato su un set di dati di esempio.
Flusso di dati di input
Nella finestra Configurazione dello strumento Univoco, seleziona le colonne FirstName e LastName dal flusso di dati in entrata, in modo da evitare di includere voci duplicate della stessa combinazione FirstName-LastName.
FirstName | LastName |
|---|---|
Pamela | Wright |
Melissa | Ruff |
Constanti | Vlassis |
Amy | Lockemer |
Danielle | Valdez |
Pamela | Wright |
Mary | Kiniry |
Melissa | Ruff |
Danielle | Valdez |
Ancoraggio di output U
L'ancoraggio di output U restituisce tutte le righe univoche del flusso di dati in entrata indicato sopra.
FirstName | LastName |
|---|---|
Amy | Lockemer |
Constanti | Vlassis |
Danielle | Valdez |
Mary | Kiniry |
Melissa | Ruff |
Pamela | Wright |
Ancoraggio di output D
L'ancoraggio di output D restituisce tutte le righe duplicate del flusso di dati in entrata indicato sopra.
FirstName | LastName |
|---|---|
Danielle | Valdez |
Melissa | Ruff |
Pamela | Wright |
