Outil Correspondance partielle
L’outil Correspondance partielle peut être utilisé pour identifier des doublons non identiques dans une base de données en spécifiant des paramètres de similarité. Il n’est pas nécessaire que les valeurs soient exactes pour trouver une concordance. Elles doivent juste correspondre aux paramètres prédéterminés ou spécifiés par l’utilisateur dans les propriétés de configuration.
La manière la plus efficace de configurer l’outil Correspondance partielle est d’associer le processus de concordance à plusieurs champs du fichier d’entrée. Chaque champ doit être configuré individuellement à l'aide d'un style de correspondance prédéfini ou personnalisé, configuré via le Style de correspondance partielle Modifier les options de correspondance .
La fonction Correspondance partielle n’accepte que les jeux de caractères Latin et certaines fonctionnalités de concordance ne sont compatibles qu’avec la langue anglaise.
Configurer l’outil
Le flux de données d’entrée DOIT inclure un identifiant unique pour chaque enregistrement. Inspectez vos données; s'il n'y a pas de champ clé, ajoutez un Outil ID d’enregistrement un pas en amont.
-
Sélectionnez le mode privilégié à appliquer à l’outil Correspondance partielle. Plusieurs choix sont possibles :
- Mode de purge (tous les enregistrements comparés): tous les enregistrements d'une source unique sont comparés pour identifier les doublons.
-
Mode de fusion (seuls les enregistrements d'une source différente sont comparés): les enregistrements provenant de différentes sources sont comparés, avec l'intention d'identifier les doublons dans différents fichiers d'entrée.
Lorsque vous utilisez le mode fusion, chaque source doit contenir un champ ID source. Un champ d'ID source peut être facilement ajouté en choisissant le nom du fichier de sortie comme option de champ dans chaque outil de données d'entrée. Ce paramètre ajoute, à chaque enregistrement, un champ comportant le nom de fichier ou le chemin de fichier complet.
- Spécifiez le champ ID d'enregistrement unique.
-
Spécifiez le seuil de match sous forme de pourcentage. La valeur par défaut est 80 %. Si le score de concordance généré par l’outil Correspondance partielle est inférieur au seuil indiqué, l’enregistrement est ignoré pour la concordance.
Le score de match prend en considération chaque spécification dans les propriétés de configuration de l'outil de correspondance floue: chaque champ, le style de match, le poids du match, et le score de match de terrain résultant est considéré dans le calcul du score, qui est alors contre le seuil de correspondance spécifié.
- Configurez vos champs de correspondance. Utilisez haut et bas pour les organiser par ordre de correspondance. Utilisez Delete pour supprimer les correspondances non nécessaires.
- Sélectionnez le nom du champ à assortir. Les champs figurant déjà dans le fichier d’entrée sont disponibles dans cette liste déroulante.
Sélectionnez le style de correspondance dans la liste déroulante. Plusieurs choix sont possibles :
Adresse: style de correspondance prédéfini configuré pour rechercher les correspondances d'adresses. Ce style utilise des algorithmes Double Metaphone associés à une comparaison numérique pour identifier les adresses concordantes.
Appliquez ce style aux adresses commerciales.
Address no suite: un style de correspondance prédéfini configuré pour rechercher les correspondances d'adresses où les données d'entrée n'ont pas d'informations de suite dans le champ adresse. Ce style utilise des algorithmes Double Metaphone associés à une comparaison numérique pour identifier les adresses concordantes.
Appliquez ce style aux adresses résidentielles.
- AddressPart: style de correspondance prédéfini configuré pour rechercher les correspondances d'adresses. Ce style utilise des algorithmes Double Metaphone associés à une comparaison numérique pour identifier les adresses concordantes. AddressPart se distingue d’un style de concordance d’adresse normal dans la mesure où il n’a pas recours à l’analyse de la fréquence des mots et où le seuil de concordance est inférieur de 5 %.
- Nomde la société: un style de correspondance prédéfini configuré pour trouver les correspondances de nom de société. Ce style identifie les concordances en fonction des algorithmes Double Metaphone.
- Téléphone: un style de correspondance prédéfini configuré pour trouver les correspondances téléphoniques. Ce style consulte uniquement les chiffres dans un champ de téléphone et établit des correspondances sur les 10 chiffres inversés, en ignorant les tirets, les parenthèses et les chiffres « 1 » de gauche pouvant être contenus dans le champ.
- Code postal: un style de correspondance prédéfini configuré pour trouver les correspondances de code postal. Ce style consulte les 5 chiffres d’un champ Code postal et attribue une concordance en conséquence.
- Exact: ce champ doit correspondre exactement pour être considéré comme un match. Cette logique n’est pas partielle.
- Nom: style de correspondance prédéfini configuré pour trouver les correspondances de noms. Ce style utilise des algorithmes Double Metaphone.
Nom avec surnoms: un style de correspondance prédéfini configuré pour trouver les correspondances de noms. Ce style utilise des algorithmes Double Metaphone. En outre, ce style utilise une table de surnoms courants à des fins de comparaison et d’identification de doublons.
Le nom Andrew peut correspondre à Andy et/ou Drew.- Custom: permet à l'utilisateur de définir ses propres paramètres de match, de sorte que la correspondance peut être exécutée à plusieurs reprises sans avoir à reconfigurer les propriétés de match. Il est également possible de reconfigurer et de remplacer ces styles de concordance personnalisés, ainsi que de créer des styles personnalisés.
- Modifiez le style de correspondance si nécessaire en cliquant sur le bouton Editer . La Style de correspondance partielle Modifier les options de correspondance affiche la boîte de dialogue.
-
Spécifiez les Options avancées:
- Score de matchde sortie: le score de match sera présent dans un champ de sortie supplémentaire.
- Clés généréespar la sortie: renvoie la clé des styles de correspondance résultants comme un champ supplémentaire.
- Résultats des enregistrements non appariés: les enregistrements qui ne correspondent à aucun autre enregistrement seront émis en tant qu'enregistrements supplémentaires. Occasionnellement, des enregistrements de sortie sans correspondance signaleront un score de correspondance dont il ne faut pas tenir compte. Cela peut être abordé dans une version ultérieure.
-
Ne comparez pas les enregistrements déjà dans un groupe: les enregistrements qui ont été appariés ne seront pas comparés à d'autres enregistrements, ce qui réduira l'effort de traitement et le temps.
Si l’enregistrement 1 correspond à l’enregistrement 2 et à l’enregistrement 3, alors l’enregistrement 2 ne sera pas comparé à l’enregistrement 3. Utilisez un outil Créer un groupe en aval pour relier ces groupes entre eux. - Générer des clés uniquement: tous les enregistrements sont retournés avec les clés générées en tant que champ supplémentaire. Aucune correspondance n’a lieu.
L'option Ignorer si vide de l' option modifier la correspondance est classée par ordre de priorité sur cette option.
Pour plus d'informations sur l'utilisation des correspondances floues, consultez la FAQ sur la Correspondance partielle.