Style de correspondance partielle Modifier les options de correspondance
Utilisez le bouton Edit du Outil Correspondance partielle Fenêtre de configuration pour accéder aux options Edit match.
Le style de correspondance est une méthode prédéterminée pour trouver une correspondance appropriée entre les enregistrements d'un fichier d'entrée. Les choix de style de correspondance individuels sont définis Outil Correspondance partielle Page.
Les styles de correspondance prédéfinis ou personnalisés s’affichent dans cette liste. Les spécifications ultérieures de la boîte de dialogue sont sélectionnées en fonction du style de correspondance sélectionné.
Lorsque vous modifiez un style de correspondance prédéfini, il prend l’état « Personnalisé » dans la liste déroulante. Les paramètres spécifiés dans ce style de correspondance personnalisé sont enregistrés avec le workflow.
Ajoutez de nouveaux styles de correspondance personnalisés plutôt que de supprimer ou de modifier les options par défaut.
Vous pouvez supprimer un style de correspondance en le sélectionnant dans la liste déroulante et en cliquant sur supprimer. Vous pouvez ajouter un style de correspondance en tapant un nouveau nom et en cliquant sur OK.
Le prétraitement décrit une procédure qui s'exécute avant de générer des clés et la fonction de correspondance floue. Le prétraitement optimise les résultats. Les options de cette liste sont les suivantes :
- None: aucun prétraitement n'est exécuté.
- Ponctuation des bandes: les caractères de ponctuation dans le champ de données spécifié seront ignorés pendant que l'outil détermine les correspondances.
- Ponctuation des bandes et salutations: les caractères de ponctuation ainsi que les titres tels que «Mr» «ms» et «Mrs» dans le champ de données spécifié sont ignorés pendant que l'outil détermine une correspondance.
- Ponctuation de bande et et, de & l': tout caractère de ponctuation ainsi que toutes les instances des mots "et" "de" et "le" dans le champ de données spécifié sont ignorés pendant que l'outil détermine les correspondances.
- Ponctuation des bandes et suppression des unités des adresses américaines: les caractères de ponctuation ainsi que les numéros d'unité dans le champ de données spécifié sont ignorés pendant que l'outil détermine les correspondances.
Modifications manuelles au prétraitement
Le prétraitement peut être défini par l'utilisateur en modifiant le FuzzyMatchStyles. Xml. Ce fichier se trouve dans le répertoire d'exécution Alteryx: \Program Files\Alteryx\bin\RuntimeData\FuzzyMatch. Ne modifiez ce fichier que si vous connaissez bien le langage XML et les expressions régulières.
Générer des clés est la méthode par laquelle une correspondance potentielle est identifiée.
Alteryx lit le champ spécifié et attribue des clés aux composants de ce champ. Une fois les clés générées, Alteryx compare les clés concaténées pour chaque champ de correspondance. Si les clés sont identiques entre deux enregistrements, une correspondance est toujours identifiée. Les options de la fonction sont les suivantes :
- None: les clés de ce champ sont considérées lors de la détermination des enregistrements qui correspondent.
- Chiffres uniquement: seuls les enregistrements avec les mêmes chiffres dans le champ spécifié seront appariés.
- Chiffres uniquement-Reverse: seuls les enregistrements avec les mêmes chiffres (dans l'ordre du dernier au premier) dans le champ spécifié seront appariés.
- Double-téléphone: le double est l'algorithme préféré. Algorithme permettant de coder les mots anglais (et des mots étrangers souvent prononcés en anglais) de manière phonétique en les réduisant à 12 sons consonantiques. Cette méthode diminue les problèmes de correspondance liés à une orthographe incorrecte. Double Metaphone est la méthode privilégiée de correspondance basée sur les sons. Elle renvoie deux clés si un mot peut avoir deux prononciations différentes, comme un mot étranger.* Pour plus d'informations, consultez double-téléphone.
- Double-téléphone avec digits: utilise le même algorithme de double-téléphone, mais comprend également des chiffres. Si la chaîne contient des chiffres, les chiffres du premier jeton forment la clé.
-
Soundex: un algorithme pour coder les noms de famille phonétiquement en les réduisant à la première lettre et jusqu'à trois chiffres, où chaque chiffre est l'un des six sons consonnes. Cette méthode diminue les problèmes de correspondance liés à des orthographes différentes.
Cet algorithme a été conçu pour coder les noms enregistrés dans des enregistrements de recensement américains. L’algorithme standard est plus adapté aux noms européens. Des variantes ont été conçues pour les noms utilisés dans d’autres cultures.* Pour plus d'informations, consultez Soundex.
- Soundex w/digits: utilise le même algorithme Soundex mais inclut également des chiffres. Si la chaîne contient des chiffres, les chiffres du premier jeton forment la clé.
- Champ entier (non respectde la casse): seuls les enregistrements où le champ entier correspond seront appariés. La casse est ignorée.
- Alphanumérique uniquement (non sensible à la casse): recherche uniquement les caractères alphanumériques pour faire une correspondance. La casse est ignorée.
- Numéro d'adresse + Soundex: supprime le numéro d'adresse d'une chaîne et applique l'algorithme Soundex au reste du champ. Le code Soundex est ensuite ajouté au numéro d’adresse pour créer une clé unique.
1-(303)440-8896 ne correspond pas à 303-440-8896
Même si les caractères non numériques sont ignorés, ces numéros de téléphone ne correspondent pas, car le premier enregistrement comporte le chiffre « 1 » à gauche.
1-(303)440-8896 correspond à 303-440-8896
Les caractères non numériques sont ignorés et les chiffres correspondent au dernier (6) au premier (3). Dans ce cas, vous spécifiez également une longueur de clé maximum de 10, de sorte que le chiffre « 1 » à gauche soit ignoré.
1234 5e rue
La chaîne « 1234 » correspondrait à la clé.
Alteryx remplace automatiquement les combinaisons de lettres et les lettres au début suivantes avant de générer la clé correspondante :
Lettre(s) au début | Remplacement |
---|---|
AV | AF |
AH | A |
AW | A |
CAAN | TAAN |
DG | G |
D | G |
HA | A |
KN | K |
K | C |
MAC | MC |
M | N |
NST | NS |
PF | F |
PH | F |
Q | G |
SCH | SH |
Z | S |
Générer des clés pour chaque mot: génère une clé séparée pour chaque mot.
Ignorer si empty: ignore une valeur vide du champ de correspondance spécifié. Si une partie de clé du champ est vide, aucune clé n’est générée et l’enregistrement est rejeté.
Longueur de clé maximale: Spécifiez la longueur maximale de la clé à considérer pour la correspondance.
La fonction de correspondance est un procédé plus précis qui permet d’identifier une correspondance et d’appliquer un score. Les clés doivent correspondre de manière exacte. Plusieurs choix sont possibles :
- Match nul-clé uniquement: recherche uniquement les spécifications de génération de clés.
- Distance Levenshtein: le plus petit nombre d'insertions, de suppressions et de substitutions nécessaires pour changer une chaîne ou un arbre dans un autre. Lorsque vous sélectionnez la distance de Levenshtein, la correspondance ne se produit que dans un faible nombre de caractères. Pour plus d'informations, consultez Levenshtein distance.
- Distance Jaro: mesure de similitude entre deux cordes. La mesure de Jaro est la somme pondérée du pourcentage de caractères en correspondance de chaque fichier et des caractères transposés.* La distance de Jaro est plus indulgente que la distance de Levenshtein en ce qui concerne les différences de chaînes. Pour plus d'informations, voir Jaro-Winkler.
- Meilleur de Jaro & Levenshtein: les deux types de match sont analysés et le score est pris.
Types de fonctions
- Les fonctions basées sur les mots (la fonction de correspondance commence par « Mots : ») recherchent les mots dans le champ spécifié, indépendamment de l’ordre des mots.
- Les fonctions non basées sur les mots recherchent la chaîne entière dans son ensemble pour la correspondance.
- Pour les fonctions comportant des mots et des chiffres, tous les jetons comportant des chiffres doivent être des deux côtés pour envisager une correspondance. Cette fonction est généralement utilisée pour les adresses.
Options de fonctions basées sur des mots
- Lors de l'utilisation de Word based match, également utiliser: vous pouvez spécifier une méthode de correspondance supplémentaire qui produira un score supplémentaire, en prenant le meilleur, et d'éliminer la nécessité d'exécuter deux instances d'un outil de correspondance floue:
- None: n'utilise que le score basé sur Word.
- Caractère: utilise le score de correspondance basé sur le mot en plus d'une fonction de correspondance de caractères. Deux scores sont générés et le meilleur score de correspondance est utilisé pour identifier la correspondance.
- Caractère (pas d'espaces): Idem comme ci-dessus, mais les espaces sont ignorés lors de la génération de la correspondance basée sur les caractères.
- Statistiques de fréquence de mots (correspondance de mots uniquement): vous pouvez spécifier un tableau de fréquence de mots basé sur des statistiques prédéfinies. Lorsqu'il est spécifié, les mots qui apparaissent dans la la base de données portent moins d'importance lorsqu'elles sont présentes dans les données entrantes, et le score de match sera ajusté en conséquence. Plusieurs options sont possibles :
- aUcun : Aucune statistique de fréquence de mot n'est utilisée.
- Nom: contient des mots fréquents dans un champ de nom. La fréquence est directement liée à l’importance de ces mots.
- Adresse US: contient des mots fréquents dans un champ d'adresse US. La fréquence est directement liée à l’importance de ces mots.
- Société américaine: contient des mots fréquents dans un champ nom d'entreprise. La fréquence est directement liée à l’importance de ces mots.
- Surnom/abréviation table (Word match only): utilisez une table de Pseudo commune pour vérifier et
identifier davantage les doublons. Utilisez cette option sur les champs
contenant soit seulement le prénom, soit le premier et le dernier
Noms.
Ajoutez d’autres surnoms et abréviations :
- Mettre à jour le Surnoms communs. yxdb base de données trouvée dans \Program Files\Alteryx\bin\RuntimeData\FuzzyMatch\Nicknames\
- Tous les fichiers. yxdb placés dans ce répertoire deviendront disponibles dans la liste déroulante des surnoms section de l'outil Fuzzy match.
Correspondance entre « Albert Commette » et « Albert Commette MD ».
Le tableau des statistiques de la fréquence des mots pour «nom» comprend le mot «MD». Lorsque Word Frequency: Name est spécifié, le score de correspondance obtenu est approximativement 5 points plus élevé que si la fréquence de mots: Name n'est pas spécifiée.
Les statistiques de fréquence de mots sont contenues dans les fichiers de base de données Alteryx *.yxdb et peuvent être situées dans le répertoire de données d’exécution :
C:\Program Files\Alteryx\Version#\RuntimeData\FuzzyMatch
Vous pouvez également créer des statistiques de fréquence de mots personnalisées en modifiant le workflow CollectStats.yxmd, situé dans le même répertoire.
- Pénalité: définissez le pourcentage de pénalité appliqué lorsqu'une correspondance est établie avec les données de la table surnom. La valeur par défaut est 15 %. L’application d’une pénalité est recommandée car une correspondance par surnom est une source potentielle d’erreur. Le pourcentage de pénalité sera soustrait du score de la correspondance avant la comparaison avec le seuil de correspondance.
Seuil de correspondance: Définissez le pourcentage d'incertitude autorisé pour retourner une correspondance pour un champ particulier.
Poids d'allumette: appliquez l'importance au champ, provoquant le champ pour être considéré plus ou moins fortement pendant une allumette.
Pour plus d'informations sur l'utilisation des correspondances floues, consultez la FAQ sur la Correspondance partielle.