Strumento Corrispondenza sfocata
Esempio di uno strumento
Corrispondenza sfocata presenta l'opzione Esempio di uno strumento. Consulta Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.
Utilizza Corrispondenza sfocata per identificare duplicati non identici in un set di dati specificando campi di corrispondenza e soglie di somiglianza. I punteggi di corrispondenza devono rientrare solo nelle soglie specificate dall'utente o in quelle predefinite stabilite nelle proprietà di configurazione.
Il modo più efficace per creare una corrispondenza sfocata consiste nell'eseguire il processo di corrispondenza su più campi all'interno del file di input. Ogni campo deve essere configurato singolarmente utilizzando uno stile di corrispondenza predefinito o personalizzato, configurato tramite Modifica opzioni di corrispondenza in Corrispondenza sfocata .
Lo strumento Corrispondenza sfocata funziona solo con set di caratteri latini e giapponesi e alcune delle funzionalità di corrispondenza sono compatibili solo con l'inglese o il giapponese. Corrispondenza sfocata tiene conto di varie differenze nell'ortografia giapponese, come i caratteri a metà larghezza e a larghezza intera, hiragana e katakana, modificatori kana e vecchie forme di kanji.
Configura lo strumento
Per il funzionamento dello strumento Corrispondenza sfocata è necessario un identificatore univoco per ogni record di dati. Controlla i dati e, se non è presente un campo chiave, aggiungi uno strumento ID Record un passaggio a monte.
Scegli la modalità di corrispondenza che preferisci:
Modalità Pulizia (tutti i record paragonati) : vengono paragonati tutti i record di una singola origine per identificare eventuali duplicati.
Modalità Fusione (vengono paragonati solo i record provenienti da una diversa origine) : vengono paragonati i record provenienti da origini diverse al fine di identificare eventuali duplicati nei vari file di input. Quando si usa la modalità Fusione, ogni origine deve contenere un campo ID origine . È possibile aggiungere facilmente un campo ID origine scegliendo l'opzione Nome del file di output come Campo all'interno di ogni strumento Dati di Input. Questa impostazione aggiungerà a ogni record un campo con il Nome file o il Percorso file completo.
Specifica il campo univoco ID record .
Specifica la Soglia di corrispondenza come percentuale. Il valore predefinito è 80%. Se il punteggio di corrispondenza generato dallo strumento Corrispondenza sfocata è inferiore alla soglia specificata, il record non sarà considerato come corrispondenza. Il punteggio di corrispondenza prende in considerazione ogni specifica all'interno delle proprietà di configurazione dello strumento Corrispondenza sfocata: ogni campo, lo stile di corrispondenza, il peso della corrispondenza e il punteggio di corrispondenza del campo risultante vengono presi in considerazione nel calcolo del punteggio, che viene quindi confrontato con la soglia di corrispondenza specificata.
Imposta i campi di corrispondenza . Utilizza Su e Giù per disporli in ordine di corrispondenza. Utilizza Elimina per rimuovere le corrispondenze non necessarie.
Seleziona il nome del campo su cui eseguire la corrispondenza. Qualsiasi campo già presente nella connessione di input sarà disponibile in questo elenco a discesa.
Seleziona lo stile di corrispondenza dall'elenco a discesa. Le opzioni disponibili includono:
Indirizzo : uno stile di corrispondenza predefinito configurato per trovare corrispondenze di indirizzi. Questo stile incorpora algoritmi Double Metaphone combinati con una corrispondenza di cifre per identificare gli indirizzi corrispondenti. Applica questo stile agli indirizzi commerciali.
Indirizzo senza appartamento : uno stile di corrispondenza predefinito configurato per trovare le corrispondenze di indirizzi in cui i dati di input non contengono informazioni relative all'appartamento nel campo Indirizzo. Questo stile incorpora algoritmi Double Metaphone combinati con una corrispondenza di cifre per identificare gli indirizzi corrispondenti. Applica questo stile agli indirizzi residenziali.
AddressPart : uno stile di corrispondenza predefinito configurato per trovare corrispondenze di indirizzi. Questo stile incorpora algoritmi Double Metaphone combinati con una corrispondenza di cifre per identificare gli indirizzi corrispondenti. AddressPart differisce da uno stile di corrispondenza di indirizzi tradizionale in quanto non utilizza l'analisi della frequenza delle parole e la soglia di corrispondenza è inferiore del 5%.
Nome azienda : uno stile di corrispondenza predefinito configurato per trovare le corrispondenze del nome della società. Questo stile identifica le corrispondenze basate su algoritmi Double Metaphone.
Telefono : uno stile di corrispondenza predefinito configurato per trovare le corrispondenze telefoniche. Questo stile esamina le cifre solo in un campo telefonico e le corrispondenze alle 10 cifre inverse, ignorando trattini, parentesi e 1 iniziali che potrebbero essere parte del campo. Questo stile supporta anche il formato del numero telefonico giapponese.
CAP : uno stile di corrispondenza predefinito configurato per trovare corrispondenze di codici postali. Questo stile esamina le 5 cifre di un campo CAP e assegna una corrispondenza di conseguenza.
Esatto : questo campo deve corrispondere esattamente per essere considerato una corrispondenza. Questa logica non è affatto sfocata.
Indirizzo giapponese : uno stile di corrispondenza predefinito configurato per trovare le corrispondenze di indirizzi giapponesi, compresi i diversi formati dei numeri civici. Esempio di corrispondenza: 今津3-14-19 e 今津3丁目14番地19 .
Nome azienda giapponese : uno stile di corrispondenza predefinito configurato per trovare le corrispondenze di nomi di aziende giapponesi. Esempio di corrispondenza: 株式会社伊藤工務店 , (株)伊東工務店 e ㈱伊藤工務店 .
Nome giapponese : uno stile di corrispondenza predefinito configurato per trovare le corrispondenze di nomi giapponesi. Esempio di corrispondenza: 高橋 啓介 e 髙橋啓介 .
Testo giapponese : uno stile di corrispondenza predefinito per il testo giapponese diverso dalle opzioni Indirizzo, Nome azienda e Nome. Esempio di corrispondenza: 6ヵ月 e 6ヶ月 .
Nome : uno stile di corrispondenza predefinito configurato per trovare le corrispondenze di nomi. Questo stile incorpora algoritmi Double Metaphone.
Nome con i soprannomi : uno stile di corrispondenza predefinito configurato per trovare le corrispondenze di nomi. Questo stile incorpora algoritmi Double Metaphone. Inoltre, questo stile utilizza una tabella Soprannome su cui eseguire il controllo per identificare ulteriormente i duplicati. Ad esempio, il nome Andrew può corrispondere a Andy e/o Drew.
Personalizzato : consente all'utente di definire i propri parametri di corrispondenza, in modo che la corrispondenza possa essere eseguita ripetutamente senza necessità di riconfigurarne le proprietà. Naturalmente, questi stili di corrispondenza personalizzati possono anche essere riconfigurati e sovrascritti ed è possibile creare nuovi stili personalizzati.
Utilizza il pulsante Modifica... per modificare lo Stile di corrispondenza . Viene visualizzata la finestra di dialogo Modifica opzioni di corrispondenza in Corrispondenza sfocata .
Specifica le impostazioni di Opzioni avanzate :
Produci punteggio di corrispondenza : il punteggio di corrispondenza viene visualizzato in un ulteriore campo di output.
Produci chiavi generate : consente di generare la chiave dagli stili di corrispondenza risultanti come ulteriore campo.
Produci record non corrispondenti : i record che non corrispondono ad altri record vengono generati come ulteriori record. Occasionalmente, i record di output non corrispondenti riportano un punteggio di corrispondenza, che deve essere ignorato. Questo problema potrebbe essere risolto in una versione futura. L'opzione Ignora se vuoto di Modifica opzioni di corrispondenza ha la priorità rispetto a questa opzione.
Non paragonare i record già presenti in un gruppo : i record che sono stati abbinati non saranno paragonati con altri record, riducendo l'attività e il tempo di elaborazione. Ad esempio, se il record 1 corrisponde ai record 2 e 3, il record 2 non viene messo a confronto con il record 3. Utilizza uno strumento Crea gruppo a valle per collegare questi gruppi.
Solo chiavi generate : tutti i record vengono restituiti con le chiavi generate come ulteriore campo. Non viene eseguita alcuna corrispondenza.
Per ulteriori informazioni sull'uso di Corrispondenza sfocata, consulta la sezione Domande frequenti su Corrispondenza sfocata .