Modifica delle opzioni di corrispondenza in Corrispondenza sfocata
Utilizza il pulsante Modifica nella finestra Configurazione dello strumento Corrispondenza sfocata per accedere alla finestra Modifica opzioni di corrispondenza.
Lo stile di corrispondenza è un metodo predeterminato per trovare una corrispondenza appropriata tra i record di un file di input. Le singole opzioni di stile di corrispondenza sono definite nella pagina dello strumento Corrispondenza sfocata.
Stile di corrispondenza
In questo elenco vengono visualizzati tutti gli stili di corrispondenza predefiniti o personalizzati definiti dall'utente. Le specifiche successive nella finestra di dialogo vengono selezionate in base allo stile di corrispondenza scelto.
Se modifichi uno stile di corrispondenza predefinito, il nome cambia in "Personalizzato" nel menu a discesa. Le impostazioni specificate in questo stile di corrispondenza personalizzato vengono salvate con il flusso di lavoro.
Aggiungi nuovi stili di corrispondenza personalizzati anziché eliminare o modificare le opzioni predefinite.
Per eliminare uno stile di corrispondenza, selezionalo dal menu a discesa e scegli Elimina.
Per aggiungere uno stile di corrispondenza, immetti un nuovo nome e seleziona OK.
Pre-elaborazione
La pre-elaborazione descrive una procedura che viene eseguita prima di Genera chiavi e della funzione Corrispondenza sfocata. La pre-elaborazione dovrebbe generare corrispondenze migliori. Le opzioni di questo elenco includono...
Nessuna: non viene eseguita alcuna pre-elaborazione.
Rimuovi punteggiatura: i caratteri di punteggiatura all'interno del campo dati specificato vengono ignorati durante la determinazione delle corrispondenze da parte dello strumento.
Rimuovi punteggiatura & formule di saluto: i caratteri di punteggiatura e i titoli come Sig, Sig.na e Sig.ra all'interno del campo dati specificato vengono ignorati durante la determinazione delle corrispondenze da parte dello strumento.
Rimuovi punteggiatura & E, DI & IL/LO/LA/I/GLI/LE: i caratteri di punteggiatura e le istanze delle parole e, di e il/lo/la/i/gli/le all'interno del campo dati specificato vengono ignorati durante la determinazione delle corrispondenze da parte dello strumento.
Rimuovi punteggiatura & rimuovi unità da indirizzi USA: i caratteri di punteggiatura e i numeri di unità all'interno del campo dati specificato vengono ignorati durante la determinazione delle corrispondenza da parte dello strumento.
Tokenizza testo giapponese: questa opzione esegue la normalizzazione Unicode e converte tutti i caratteri in katakana.
Tokenizza testo giapponese & rimuovi suffissi aziendali giapponesi: questa opzione rimuove anche i suffissi delle aziende giapponesi comuni. Esempio: ㈱.
Tokenizza testo giapponese & normalizza indirizzi giapponesi: questa opzione consente anche di standardizzare gli indirizzi giapponesi. Esempio: da 今津3丁目14番地19 a 今津3-14-19.
Modifiche manuali alla pre-elaborazione
La pre-elaborazione può essere definita dall'utente modificando il file FuzzyMatchStyles.xml, disponibile nella directory di runtime di Alteryx: \Program Files\Alteryx\bin\RuntimeData\FuzzyMatch
. Modifica questo file solo se hai familiarità con l'XML e le espressioni regolari.
Generazione chiavi
Genera chiavi è il metodo con cui viene identificata una corrispondenza potenziale.
Alteryx legge il campo specificato e assegna le chiavi ai componenti di tale campo. Una volta generate tutte le chiavi, Alteryx confronta quelle concatenate per ogni campo corrispondente. Se le chiavi generate sono uguali per 2 record, viene identificata una corrispondenza potenziale e la coppia passa alla fase successiva del processo di corrispondenza. Le opzioni della funzione sono...
Nessuna: le chiavi per questo campo vengono considerate quando si stabilisce quali record corrispondono.
Solo cifre: vengono associati solo i record con le stesse cifre nel campo specificato. Ad esempio, 1-(800)555-1234 viene associato a 800-555-1234. I caratteri non numerici vengono ignorati e i numeri vengono associati dall'ultimo (4) al primo (8 o 1). Affinché questo record corrisponda, specifica Lunghezza massima della chiave = 10 in modo da ignorare il numero 1 iniziale.
Double Metaphone: Double Metaphone è l'algoritmo preferito. È in grado di codificare foneticamente le parole inglesi (e quelle straniere di uso comune nella lingua inglese) riducendole a 12 suoni consonanti. Ciò consente di ridurre i problemi di corrispondenza dovuti a errori di ortografia. Double Metaphone è il metodo preferito per la corrispondenza basata sul suono. Restituisce 2 chiavi se una parola ha 2 pronunce possibili, ad esempio una parola straniera. Per ulteriori informazioni, consulta Double Metaphone. Il metodo Double Metaphone consente di specificare una lunghezza massima della chiave. La lunghezza massima della chiave Double Metaphone è 100.
Lunghezza massima della chiave
Tieni presente che l'impostazione di una lunghezza massima della chiave elevata potrebbe influire sulle prestazioni.
Double Metaphone con cifre: utilizza lo stesso algoritmo Double Metaphone includendo anche le cifre. Quando nella stringa sono presenti delle cifre, quelle nel primo token sono la chiave. Ad esempio, nella stringa "1234 5th St", "1234" è la chiave.
Soundex: algoritmo per codificare foneticamente i cognomi riducendoli alla prima lettera e a massimo 3 cifre, dove ogni cifra corrisponde a uno di sei suoni consonanti. Ciò consente di ridurre i problemi di corrispondenza dovuti a differenze ortografiche. Questo algoritmo è stato concepito per codificare i nomi registrati nei record del censimento degli Stati Uniti. L'algoritmo standard funziona meglio con i nomi europei. Sono state ideate delle varianti per nomi provenienti da altre culture. Per ulteriori informazioni, consulta Soundex.
Sostituzioni delle lettere iniziali: Alteryx sostituisce automaticamente queste combinazioni di lettere e lettere iniziali prima di generare la chiave di corrispondenza:
Lettere iniziali
Sostituzione
AV
AF
AH
A
AW
A
CAAN
TAAN
DG
G
D
G
HA
A
KN
K
K
C
MAC
MC
M
N
NST
NS
PF
F
PH
F
Q
G
SCH
SH
Z
S
Soundex con cifre: utilizza lo stesso algoritmo Soundex includendo anche le cifre. Quando nella stringa sono presenti delle cifre, quelle nel primo token sono la chiave.
Campo intero (senza distinzione tra maiuscole e minuscole): vengono abbinati solo i record in cui l'intero campo corrisponde. Non viene fatta distinzione tra lettere maiuscole e minuscole.
Solo alfanumerici (senza distinzione tra maiuscole e minuscole): analizza solo i caratteri alfanumerici per creare una corrispondenza. Non viene fatta distinzione tra lettere maiuscole e minuscole.
Numero civico + Soundex: rimuove il numero civico da una stringa e applica l'algoritmo Soundex alla parte restante del campo. Il codice Soundex viene quindi aggiunto al numero civico per creare una chiave univoca.
Per preparare il testo giapponese per gli algoritmi Soundex e Double Metaphone, che funzionano solo con i caratteri latini, questi metodi prima traslitterano i caratteri giapponesi in romaji:
Romaji
Soundex romaji
Soundex romaji con numero civico
Soundex romaji con cifre
Doppio Metaphone romaji
Doppio Metaphone romaji con cifre
Genera chiavi per ogni parola
Genera una chiave separata per ogni parola: "john smith" e "smith john" possono essere indicati come corrispondenza potenziale anche se le parole sono in ordine diverso.
Non generare chiavi per le seguenti parole: consente di specificare o selezionare le parole da escludere dall'assegnazione della chiave. Ciò permette di ridurre il tempo di elaborazione limitando il numero di corrispondenze potenziali.
Non generare chiavi per parole costituite da una singola lettera: seleziona questa opzione per escludere le parole composte da una sola lettera dall'assegnazione della chiave. Ciò permette di ridurre il tempo di elaborazione limitando il numero di corrispondenze potenziali.
Ignora se vuoto: ignora un valore vuoto del campo di corrispondenza specificato. Se il campo è vuoto, non viene generata alcuna chiave e il record viene ignorato.
Lunghezza massima chiave: specifica la lunghezza massima della chiave da considerare per la corrispondenza.
Funzione di corrispondenza
La funzione di corrispondenza è un processo più granulare mediante il quale viene identificata una corrispondenza e viene applicato un punteggio. Tale funzione è diversa dalle chiavi, per le quali è richiesta una corrispondenza esatta. Le opzioni sono:
Nessuno - Solo corrispondenza chiave: analizza solo le specifiche per la generazione della chiave.
Distanza di Levenshtein: il numero minimo di inserimenti, eliminazioni e sostituzioni necessari per trasformare una stringa o struttura ad albero in un'altra. Quando si seleziona Distanza di Levenshtein, il punteggio di corrispondenza è notevolmente più basso a causa delle differenze. Per ulteriori informazioni, consulta Distanza di Levenshtein. Le opzioni di Distanza di Levenshtein includono...
Carattere: distanza di Levenshtein
Carattere (senza spazi): distanza di Levenshtein
Parole: distanza di Levenshtein
Parole & Cifre: distanza di Levenshtein
Distanza di Jaro: misura della somiglianza tra 2 stringhe. La misura di Jaro è la somma ponderata della percentuale di caratteri corrispondenti e delle trasposizioni necessarie. La distanza di Jaro è più tollerante della distanza di Levenshtein per quanto riguarda le differenze nelle stringhe. Per ulteriori informazioni, consulta Jaro-Winkler. Le opzioni di Jaro-Winkler includono...
Carattere: distanza di Jaro
Carattere (senza spazi): distanza di Jaro
Parole: distanza di Jaro
Parole & Cifre: distanza di Jaro
La migliore tra Jaro & Levenshtein: vengono analizzati entrambi i tipi di corrispondenza e viene segnato il punteggio. Le opzioni di La migliore tra Jaro & Levenshtein includono...
Carattere: La migliore tra la distanza di Jaro & di Levenshtein
Carattere (senza spazi): la migliore tra le distanze di Jaro e di Levenshtein
Parole: La migliore tra la distanza di Jaro & di Levenshtein
Parole & Cifre: La migliore tra la distanza di Jaro & di Levenshtein
Tipi di funzione
Le funzioni basate su parole (la funzione di corrispondenza inizia con Parole:) analizzano tutte le parole all'interno del campo specificato, indipendentemente dal loro ordine.
Le funzioni non basate su parole eseguono il confronto con l'intera stringa.
Per le funzioni Parole & cifre, tutti i token che contengono cifre devono essere in entrambe le parti per considerare una corrispondenza. Di solito i token vengono utilizzati per gli indirizzi.
Opzioni delle funzioni basate su parole
Quando si utilizza una corrispondenza basata su parole, utilizza anche: è possibile specificare un metodo di corrispondenza aggiuntivo che produce un ulteriore punteggio (utilizzando il punteggio migliore) ed elimina la necessità di eseguire due istanze di uno strumento Corrispondenza sfocata:
Nessuno: utilizza solo il punteggio basato su parole.
Carattere: utilizza il punteggio della corrispondenza basata su parole oltre a una funzione di corrispondenza dei caratteri. Vengono generati due punteggi, il migliore dei quali viene utilizzato per identificare la corrispondenza.
Carattere (senza spazi): come sopra, ma gli spazi vengono ignorati quando si genera la corrispondenza basata su caratteri.
Statistiche di frequenza parole (solo corrispondenza parole): è possibile specificare una tabella di frequenza delle parole in base a statistiche predefinite. Quando la tabella viene specificata, le parole che appaiono nel database hanno meno importanza se sono presenti nei dati in entrata e il punteggio di corrispondenza viene modificato di conseguenza. Le opzioni includono:
[Nessuna]: non viene utilizzata alcuna statistica di frequenza parole.
Nome: contiene parole frequenti in un campo del nome. La frequenza è inversamente proporzionale all'importanza di queste parole nel punteggio di corrispondenza.
Indirizzo USA: contiene parole frequenti in un campo Indirizzo USA. La frequenza è inversamente proporzionale all'importanza di queste parole nel punteggio di corrispondenza.
Azienda USA: contiene parole frequenti in un campo Nome azienda. La frequenza è inversamente proporzionale all'importanza di queste parole nel punteggio di corrispondenza.
Esempio
Associa "Albert Commette" ad "Albert Commette MD".
La tabella Statistiche di frequenza parole per "Nome" include la parola "MD". Quando è specificato Frequenza parole: nome, il punteggio di corrispondenza risultante è circa 5 punti più alto rispetto a quando non è specificato.
Posizione statistiche frequenza parola
Posizione delle statistiche di frequenza parole Le statistiche di frequenza parole sono contenute nei file *yxdb del database Alteryx e sono disponibili nella directory dei dati di runtime:
\Program Files\Alteryx\bin\RuntimeData\FuzzyMatch\
Puoi anche creare le tue statistiche di frequenza parole modificando il flusso di lavoro
CollectStats.yxmd
disponibile nella stessa directory.Tabella Soprannome/Abbreviazione (solo corrispondenza parole): consente di utilizzare una tabella Soprannome comune per eseguire un confronto e identificare altri duplicati. Utilizza questa opzione nei campi che contengono solo il nome o il nome e il cognome. Aggiungi altri soprannomi e abbreviazioni:
Aggiorna il database Common Nicknames.yxdb trovato in:
\Program Files\Alteryx\bin\RuntimeData\FuzzyMatch\
Tutti i file .yxdb contenuti in questa directory saranno disponibili tramite la casella a discesa nella sezione Soprannomi dello strumento Corrispondenza sfocata.
Penalità: consente di impostare la percentuale di penalità applicata quando viene effettuata una corrispondenza con i dati della tabella Soprannome. Il valore predefinito è 15%. Si consiglia di specificare una penalità, in quanto una corrispondenza di soprannomi è un'altra potenziale fonte di errore. La percentuale di penalità viene sottratta dal punteggio di corrispondenza prima del confronto con la soglia di corrispondenza.
Soglia di corrispondenza: consente di impostare la percentuale di incertezza consentita per restituire una corrispondenza per un determinato campo. Se la soglia per il campo 1 è 60% e la corrispondenza del campo ha un'attendibilità del 55%, il record viene ignorato.
Peso della corrispondenza: definisce l'importanza del campo, in modo che sia considerato in modo più o meno rilevante durante una corrispondenza.
Se "Nome azienda" è due volte più importante di "Nome contatto", puoi impostarne l'importanza qui, specificando il valore del peso della corrispondenza per Nome azienda in modo che sia il doppio rispetto a quello per Nome contatto. Questo peso viene utilizzato per il calcolo del punteggio di corrispondenza complessivo.
Per ulteriori informazioni sull'uso di Corrispondenza sfocata, consulta le Domande frequenti su Corrispondenza sfocata.