Domande frequenti su Corrispondenza sfocata
I seguenti argomenti sono domande comuni relative allo strumento Corrispondenza sfocata e alle relative opzioni di modifica della corrispondenza .
Non esiste una risposta standard a questa domanda. Considera i campi corrispondenti che devono essere diversi tra i record e che potrebbero indicare il record come univoco. Ad esempio, in un database di contatti standard, il nome, l'indirizzo e il numero di telefono devono identificare una persona univoca. Molte persone possono avere in comune la città e lo stato, pertanto questi campi sono meno significativi.
È importante comprendere la relazione tra l'utilizzo di più campi e quanta importanza, o peso, occorre assegnare a ciascun campo considerato nel processo di corrispondenza. Ad esempio, il nome potrebbe non essere importante come l'indirizzo e il CAP, quindi una ponderazione inferiore del nome rispetto all'indirizzo e al CAP può determinare più corrispondenze in cui l'indirizzo e il CAP sono esatti, mentre il nome ottiene meno di una corrispondenza esatta.
La modalità Pulizia (tutti i record confrontati) consente di trovare le corrispondenze all'interno di ogni singolo set di dati e le corrispondenze tra due set di dati. La modalità Pulizia può essere utilizzata su un set di dati per rimuovere duplicati dal database o per deduplicarlo. Questa può essere una fase preparatoria in vista della fusione di due database.
Fusione (vengono confrontati solo i record provenienti da una diversa origine) confronta i record di due origini dati diverse. L'opzione Fusione consente di trovare corrispondenze solo tra due set di dati.
Prima di utilizzare la modalità Fusione, è necessario deduplicare un database per i seguenti motivi:
La modalità Fusione non rileva i record duplicati all'interno della stessa origine.
Il processo di corrispondenza è più veloce senza record duplicati. Il set di dati 1 ha 5 duplicati. Il set di dati 2 ne ha 10. Se si esegue la Fusione senza eliminare questi duplicati, la corrispondenza controllerà 50 coppie di corrispondenze. Se i duplicati vengono eliminati, la corrispondenza controllerà 1 coppia di corrispondenze.
Lo strumento Corrispondenza sfocata utilizza un identificatore (ID) per assegnare etichette alle corrispondenze, da un file all'altro o da una riga all'altra in un singolo file. Lo strumento utilizza l'ID per indicare i record corrispondenti.
L'ID deve essere univoco per ogni record, compresi i record di diversi set di dati, in modo da garantire un output preciso dello strumento. Per ottenere ID univoci, attieniti alle seguenti best practice:
Se conosci le dimensioni dei tuoi set di dati puoi comprendere meglio il valore iniziale necessario per ciascuna colonna ID Record.
Aggiungi un strumento ID Record a entrambi i flussi di set di dati.
Imposta il "valore iniziale" dei diversi flussi di set di dati con diverse grandezze l'una rispetto all'altra per garantire che a tutti i record sia assegnato un valore univoco.
Best Practice
Assegna 100000000 come valore iniziale per lo strumento ID Record per il file primario e 200000000 come valore iniziale per il file cliente. Seguendo questa best pratice è possibile identificare facilmente le origini dei record di corrispondenza.
In modalità Pulizia, i dati in ID Record 1 e ID Record 2 sono gli identificatori di riga del set di dati.
In modalità Fusione, ID Record 1 e ID Record 2 rappresentano gli ID corrispondenti, uno per ogni set di dati. L'impostazione degli ID Record sui valori iniziali di diverse grandezze consente di riconoscere più facilmente il set di dati a cui si fa riferimento.
ID Record 1 è sempre il "primo" valore della coppia corrispondente se i due ID sono in ordine alfanumerico.
Gli ID delle coppie di corrispondenze di Corrispondenza sfocata sono in ordine alfanumerico per riga. I campi numerici ID Record vengono ordinati da ID Record 1 a ID Record 2, rispettivamente dal più piccolo al più grande, ma le stringhe ID Record possono essere ordinate in modi imprevisti.
Record 101 corrisponde al record 11. Se i campi sono ordinati come numeri, ID Record 1 sarà 11 e ID Record 2 sarà 101. Se i campi sono ordinati come stringhe, ID Record 1 sarà 101 e ID Record 2 sarà 11.
Passa a un campo ID Record numerico o verifica che le stringhe con ID Record anteposte abbiano un formato standardizzato tra i record.
Nella maggior parte degli scenari di corrispondenza degli indirizzi, in cui il database degli indirizzi è regolarmente popolato con i dati, i campi Città e Stato non sono necessari per la corrispondenza. Nome , Indirizzo e CAP sono le opzioni Stile di corrispondenza più comunemente utilizzate. Esamina i dati per stabilire se i campi Città o Stato possono essere rilevanti.
Utilizza Double Metaphone se:
I campi Città e Stato non sono abbreviati.
I campi possono contenere errori di ortografia.
Utilizza Campo intero o Campo intero (senza distinzione tra maiuscole e minuscole) se:
Il campo Stato è abbreviato e richiede una corrispondenza esatta. Una corrispondenza esatta è richiesta in genere se si passa a un processo di corrispondenza più granulare.
In molti scenari di corrispondenza degli indirizzi, i campi di numero appartamento non sono necessari per la corrispondenza. Nome , Indirizzo e CAP sono le opzioni Stile di corrispondenza più comunemente utilizzate. Esamina i dati per determinare se i campi dei numeri di appartamento possono essere rilevanti.
Double Metaphone con cifre è lo stile di corrispondenza preferito per qualsiasi campo di indirizzo, indipendentemente dal fatto che l'indirizzo includa o meno i numeri di appartamento. Inoltre, utilizza anche l'opzione Rimuovi punteggiatura e Rimuovi unità da indirizzi USA in Pre-elabora .
Nella maggior parte dei casi, l'analisi di un campo nome in singoli campi componente non è necessaria e non dovrebbe determinare una migliore corrispondenza. Utilizza l'opzione Genera chiavi per ogni parola con l'algoritmo Soundex per generare le chiavi dei campi dei nomi. In questo modo, l'ordine delle parole non viene considerato, quindi sia "Cindy Smith" che "Smith, Cindy" sono considerati una corrispondenza.
L'analisi del campo Nome è utile quando si desidera applicare pesi diversi a ciascun valore.
Perché Rosey Smith corrisponda a R Smith, il cognome è ponderato all'80% mentre il nome al 20%.
In Modifica... > Pre-elabora , utilizza Rimuovi punteggiatura & formule di saluto per ignorare queste parole durante l'esecuzione di una corrispondenza.