Modifier les options de correspondance de l'outil Correspondance partielle
Le bouton Modifier de la fenêtre de configuration de l'outil Correspondance partielle permet d'afficher la fenêtre Modifier les options de correspondance .
Le style de correspondance est une méthode prédéterminée permettant de trouver une correspondance appropriée dans les enregistrements d'un fichier d'entrée. Les options individuelles de style de correspondance sont définies dans la page de l' outil Correspondance partielle .
Style de correspondance
Les styles de correspondance prédéfinis ou personnalisés s'affichent dans cette liste. Les spécifications suivantes de la boîte de dialogue sont sélectionnées en fonction du style de correspondance sélectionné.
Lorsque vous modifiez un style de correspondance prédéfini, le nom devient « Personnalisé » dans la liste déroulante. Les paramètres spécifiés dans ce style de correspondance personnalisé sont enregistrés avec le workflow.
Ajoutez de nouveaux styles de correspondance personnalisés plutôt que de supprimer ou de modifier les options par défaut.
Pour supprimer un style de correspondance, sélectionnez-le dans la liste déroulante et sélectionnez Supprimer .
Pour ajouter un style de correspondance, entrez un nouveau nom et sélectionnez OK .
Prétraitement
Le prétraitement est une procédure qui s'exécute avant de générer des clés et la fonction de correspondance partielle. Le prétraitement optimise les résultats de correspondance. Les options de cette liste sont…
Aucun : aucun prétraitement n'est exécuté.
Ignorer la ponctuation : les signes de ponctuation dans le champ de données spécifié sont ignorés pendant que l'outil détermine les correspondances.
Ignorer la ponctuation et les salutations : les signes de ponctuation, ainsi que les titres tels que Mr, Ms et Mrs, dans le champ de données spécifié sont ignorés pendant que l'outil détermine une correspondance.
Ignorer la ponctuation et AND, OF et THE : les signes de ponctuation, ainsi que les mots and, of et the, dans le champ de données spécifié sont ignorés pendant que l'outil détermine les correspondances.
Ignorer la ponctuation et supprimer les unités des adresses américaines : les signes de ponctuation ainsi que tout numéro d'unité dans le champ de données spécifié sont ignorés pendant que l'outil détermine les correspondances.
Marquer avec un jeton le texte en japonais : cette option effectue une normalisation Unicode et convertit tous les caractères en katakana.
Marquer avec un jeton le texte en japonais et ignorer les suffixes des noms de sociétés en japonais : cette option supprime également les suffixes courants des noms de sociétés en japonais. Exemple : ㈱.
Marquer avec un jeton le texte en japonais et normaliser les adresses en japonais : cette option normalise également les adresses en japonais. Exemple : de 今津3丁目14番地19 à 今津3-14-19.
Modifications manuelles du prétraitement
Vous pouvez personnaliser le prétraitement en modifiant le fichier FuzzyMatchStyles.xml. Ce fichier se trouve dans le répertoire d'exécution Alteryx :
\Program Files\Alteryx\bin\RuntimeData\FuzzyMatch
. Vous ne devez modifier ce fichier que si vous connaissez XML et les expressions régulières.
Génération de clés
La fonction Générer des clés est la méthode permettant d'identifier une correspondance potentielle.
Alteryx lit le champ spécifié et attribue des clés aux composants de ce champ. Une fois les clés générées, Alteryx compare les clés concaténées pour chaque champ de correspondance. Si les clés générées sont identiques pour 2 enregistrements, une correspondance potentielle est identifiée et la paire passe à la phase suivante du processus de correspondance. Les options de la fonction sont…
Aucun : les clés de ce champ sont prises en compte pour déterminer les enregistrements en correspondance.
Chiffres uniquement : seuls les enregistrements dont le champ spécifié comporte les mêmes chiffres sont comparés. Par exemple, 1-(800)555-1234 correspond à 800-555-1234. Les caractères non numériques sont ignorés et les chiffres correspondent du dernier (4) au premier (8 ou 1). Dans ce cas, vous spécifiez également une longueur de clé maximum de 10, de sorte que le chiffre « 1 » à gauche soit ignoré.
Double Metaphone : il s'agit de l'algorithme privilégié. C'est un algorithme permettant de coder les mots anglais (et des mots étrangers souvent prononcés en anglais) de manière phonétique en les réduisant à 12 sons consonantiques. Cela permet de réduire les problèmes de correspondance causés par les erreurs d'orthographe. Double Metaphone est la méthode privilégiée de correspondance basée sur les sons. Elle renvoie 2 clés si un mot peut avoir 2 prononciations différentes, comme un mot étranger. Pour plus d'informations, consultez Double Metaphone . La méthode Double Metaphone permet de spécifier une longueur de clé maximum . La limite de la longueur de clé maximum de Double Metaphone est de 100.
Longueur de clé maximum
Si vous définissez une longueur de clé maximum élevée, cela peut affecter les performances.
Double Metaphone avec chiffres : utilise le même algorithme Double Metaphone, mais inclut aussi les chiffres. Si la chaîne contient des chiffres, les chiffres du premier jeton forment la clé. Par exemple, dans la chaîne « 1234 5th St », « 1234 » est la clé.
Soundex : algorithme permettant de coder les noms de manière phonétique en les réduisant à la première lettre et à un maximum de 3 chiffres, chaque chiffre correspondant à l'un des six sons consonantiques. Cette méthode diminue les problèmes de correspondance causés par différentes orthographes. Cet algorithme a été conçu pour coder les noms enregistrés dans des enregistrements de recensement américains. L'algorithme standard est plus adapté aux noms européens. D'autres variantes ont été conçues pour les noms utilisés dans d'autres cultures.* Pour plus d'informations, consultez Soundex .
Remplacements des lettres au début : Alteryx remplace automatiquement ces lettres au début et combinaisons de lettres avant de générer la clé de correspondance :
Lettres au début
Remplacement
AV
AF
AH
A
AW
A
CAAN
TAAN
DG
G
D
G
HA
A
KN
K
K
C
MAC
MC
M
N
NST
NS
PF
F
PH
F
Q
G
SCH
SH
Z
S
Soundex avec chiffres : utilise le même algorithme Soundex, mais inclut aussi les chiffres. Si la chaîne contient des chiffres, les chiffres du premier jeton forment la clé.
Champ entier (non sensible à la casse) : seuls les enregistrements dont le champ entier correspond sont mis en correspondance. La casse est ignorée.
Alphanumérique uniquement (non sensible à la casse) : recherche uniquement les caractères alphanumériques pour la correspondance. La casse est ignorée.
Numéro d'adresse + Soundex : supprime le numéro d'adresse d'une chaîne et applique l'algorithme Soundex au reste du champ. Le code Soundex est ensuite ajouté au numéro d'adresse pour créer une clé unique.
Afin de préparer du texte en japonais pour les algorithmes Soundex et Double Metaphone, qui ne fonctionnent qu'avec des caractères latins, ces méthodes convertissent d'abord les caractères japonais en romaji :
Romaji
Romaji Soundex
Romaji Soundex avec numéro d'adresse
Romaji Soundex avec chiffres
Double Metaphone Romaji
Double Metaphone Romaji avec chiffres
Générer des clés pour chaque mot
Génère une clé distincte pour chaque mot. « john smith » et « smith john » peuvent constituer une correspondance potentielle même si les mots ne sont pas dans le même ordre.
Ne pas générer de clés pour les mots suivants : indiquez ou sélectionnez les mots à exclure de l'affectation de clé. Cela peut réduire le temps de traitement en limitant le nombre de correspondances potentielles.
Ne pas générer de clés pour les mots d'une seule lettre : sélectionnez cette option pour exclure les mots d'une seule lettre de l'affectation de clé. Cela peut réduire le temps de traitement en limitant le nombre de correspondances potentielles.
Ignorer si vide : ignore une valeur vide du champ de correspondance spécifié. Si le champ est vide, aucune clé n'est générée et l'enregistrement est rejeté.
Longueur de clé maximum : indiquez la longueur maximum de la clé à prendre en compte pour la correspondance.
Fonction de correspondance
La fonction de correspondance est un procédé plus précis qui permet d'identifier une correspondance et d'appliquer un score. Cela diffère des clés, qui doivent présenter une correspondance exacte. Les choix sont :
Aucune : correspondance de clés uniquement : utilise uniquement les spécifications de génération de clés.
Distance de Levenshtein : le plus petit nombre d'insertions, de suppressions et de substitutions requises pour remplacer une chaîne ou une arborescence par une autre. Lorsque vous sélectionnez la distance de Levenshtein, le score de la correspondance est significativement plus faible en raison des différences. Pour plus d'informations, consultez Distance de Levenshtein . Les options de Distance de Levenshtein incluent…
Caractère : distance de Levenshtein
Caractère (aucun espace) : distance de Levenshtein
Mots : distance de Levenshtein
Mots et chiffres : Distance de Levenshtein
Distance de Jaro : mesure de similarité entre 2 chaînes. La mesure de Jaro est la somme pondérée du pourcentage de caractères correspondants et des transpositions nécessaires. La distance de Jaro est plus indulgente que la distance de Levenshtein en ce qui concerne les différences de chaînes. Pour plus d'informations, consultez Jaro-Winkler . Les options de Jaro-Winkler incluent…
Caractère : distance de Jaro
Caractère (aucun espace) : distance de Jaro
Mots : distance de Jaro
Mots et chiffres : Distance de Jaro
Meilleur entre Jaro et Levenshtein : les deux types de correspondances sont analysés et le score est utilisé. Les meilleures options entre Jaro et Levenshtein incluent…
Caractère : Meilleure distance de Jaro et Levenshtein
Caractère (aucun espace) : meilleure distance de Jaro et Levenshtein
Mots : Meilleure distance de Jaro et Levenshtein
Mots et chiffres : Meilleure distance de Jaro et Levenshtein
Types de fonctions
Les fonctions basées sur les mots (la fonction de correspondance commence par des mots : ) recherchent les mots dans le champ spécifié, indépendamment de l'ordre des mots.
Les fonctions non basées sur les mots correspondent à la chaîne entière dans son ensemble.
Pour les fonctions Mots et chiffres , tous les jetons comportant des chiffres doivent être des deux côtés pour envisager une correspondance. Ces fonctions sont généralement utilisées pour les adresses.
Options de fonctions basées sur des mots
En cas de correspondance basée sur les mots, utilisez également : vous pouvez spécifier une méthode de correspondance supplémentaire qui génère un score supplémentaire. Le meilleur score est utilisé et vous n'avez pas besoin d'exécuter 2 instances d'un outil Correspondance partielle :
Aucun : utilise le score basé sur les mots uniquement.
Caractère : utilise le score de la correspondance basé sur les mots en plus d'une fonction de correspondance de caractères. 2 scores sont générés et le meilleur score de correspondance est utilisé pour identifier la correspondance.
Caractère (aucun espace) : identique à l'option ci-dessus, mais les espaces sont ignorés lors de la génération de la correspondance par caractères.
Statistiques de fréquence de mots (correspondance basée sur les mots uniquement) : vous pouvez spécifier une table des fréquences de mots basée sur des statistiques prédéfinies. Avec cette option, les mots qui apparaissent dans la base de données ont moins d'importance lorsqu'ils sont présents dans les données entrantes. Le score de la correspondance est alors ajusté en conséquence. Les options incluent...
[Aucun] : aucune statistique de fréquence de mots n'est utilisée.
Nom : contient les mots fréquents dans un champ de nom. La fréquence est inversement liée à l'importance de ces mots dans le score de la correspondance.
US Address : contient les mots fréquents dans un champ d'adresse américaine. La fréquence est inversement liée à l'importance de ces mots dans le score de la correspondance.
US Company : contient les mots fréquents dans un champ de nom d'entreprise. La fréquence est inversement liée à l'importance de ces mots dans le score de la correspondance.
Exemple
Correspondance entre « Albert Commette » et « Albert Commette MD ».
La table des statistiques de fréquence de mots pour « Name » contient le mot « MD ». Quand l'option Fréquence des mots : Name est précisée, le score de la correspondance obtenu est environ 5 points plus élevé que lorsque cette option n’est pas précisée.
Emplacement des statistiques de fréquence de mots
Les statistiques de fréquence de mots sont contenues dans les fichiers de base de données Alteryx *.yxdb et peuvent être situées dans le répertoire de données d’exécution :
C:\Program Files\Alteryx\Version#\RuntimeData\FuzzyMatch
Vous pouvez également créer des statistiques de fréquence de mots personnalisées en modifiant le workflow
CollectStats.yxmd
, situé dans le même répertoire.Table de surnoms/abréviations (Correspondance de mot uniquement) : servez-vous d'une table de surnoms courants à des fins de comparaison et d'identification de doublons. Utilisez cette option sur les champs comportant uniquement soit le prénom, soit le prénom et le nom. Ajoutez d'autres surnoms et abréviations :
Mettez à jour la base de données Common Nicknames.yxdb qui se trouve à l'adresse suivante :
C:\Program Files\Alteryx\Version#\RuntimeData\FuzzyMatch
Les fichiers .yxdb de ce répertoire sont disponibles dans la liste déroulante de la section des surnoms/abréviations de l'outil Correspondance partielle.
Pénalité : définissez le pourcentage de pénalité appliquée lorsqu'une correspondance est établie avec les données de la table des surnoms. La valeur par défaut est 15 %. L'application d'une pénalité est recommandée car une correspondance par surnom est une source potentielle d'erreur. Le pourcentage de pénalité sera soustrait du score de la correspondance avant la comparaison avec le seuil de correspondance.
Seuil de correspondance : définissez un pourcentage d'incertitude autorisée pour renvoyer une correspondance pour un champ donné. Si le seuil du champ 1 est fixé à 60 % et que la pertinence n'est que de 55 %, l'enregistrement est ignoré.
Pondération de correspondance : appliquez une importance au champ, ce qui rend le champ considéré plus ou moins important lors d'une correspondance.
Si « Nom d'entreprise » est deux fois plus important que « Nom de contact », vous pouvez définir l'importance ici. Ainsi, la pondération de correspondance pour « Nom d'entreprise » doit être le double de la valeur de la pondération de correspondance pour « Nom de contact ». Cette pondération est utilisée lors du calcul du score global de la correspondance.
Pour plus d'information sur l'utilisation des correspondances partielles, consultez la FAQ Correspondance partielle .