FAQ Sur La Correspondance Partielle
Les sujets suivants sont des questions courantes liées à l'outil de match Fuzzyet les options de match Fuzzyconnexes modifier .
Il n’y a pas de réponse standard à cette question. Pensez à effectuer la correspondance de champs qui devraient être différents entre des enregistrements et pourraient indiquer que l’enregistrement est unique. Par exemple, dans une base de données standard de contacts, le nom, l’adresse et le numéro de téléphone doivent identifier une personne unique. De nombreuses personnes peuvent avoir la même ville et le même état ; ces éléments seraient donc moins pertinents.
Il est important de comprendre la relation entre l’utilisation de plusieurs champs et l’importance ou pondération à accorder à chaque champ dans le processus de correspondance. Par exemple, le nom peut ne pas être aussi important que l’adresse et le code postal, donc la pondération « Nom moins important qu’adresse et code postal » peut entraîner plus de correspondances lorsque l’adresse et le code postal sont des correspondances exactes, mais le nom a obtenu moins qu’une correspondance exacte.
Le mode purge (Tous les enregistrements comparés)trouve des correspondances dans chaque jeu de données ainsi que des correspondances entre deux jeux de données. Le mode Purger peut être utilisé sur un jeu de données pour en supprimer les doublons ou les dédupliquer. Il peut s’agir d’une étape préparatoire avant l’exécution d’une fusion de deux bases de données.
Merge (Only Records from a Different Source are Compared)compare les enregistrements de deux sources de données différentes. Choisir Fusionner ne trouve que des correspondances entre deux jeux de données.
Une base de données doit être dédupliquée avant d’utiliser le mode Fusionner car :
- Le mode Fusionner ne détecte pas les enregistrements en double dans la même source.
- Le processus de correspondance fonctionne plus rapidement sans enregistrements en double.
Le jeu de données 1 comporte 5 doublons. Le jeu de données 2 en comporte 10. Si le mode Fusionner est exécuté sans purger ces doublons, la correspondance trouvera 50 paires de correspondance. Si les doublons sont purgés, la correspondance trouvera une paire de correspondance.
L’outil Correspondance partielle utilise un identifiant (ID) pour étiqueter des correspondances entre deux fichiers ou entre deux lignes dans un fichier. L’outil utilise l’ID pour indiquer quels enregistrements correspondent.
L’ID doit être unique pour chaque enregistrement, y compris les enregistrements provenant de différents jeux de données, afin de veiller à l’exactitude des données sortantes de l’outil. Respectez les meilleures pratiques suivantes pour les ID uniques :
- Connaissez la taille de vos jeux de données pour mieux comprendre la valeur de départ nécessaire à chaque colonne RecordID.
- Ajoutez un outil ID d’enregistrement aux deux flux de jeux de données.
- Définissez des écarts importants entre les « Valeurs de départ » des différents flux de jeux de données pour vous assurer que tous les enregistrements ont une valeur attribuée unique.
Meilleures pratiques
Affectez 100000000 comme valeur initiale pour l’outil RecordID pour le fichier maître et 200000000 comme valeur initiale pour le fichier client. L’utilisation systématique de cette pratique vous permet d’identifier facilement les sources des enregistrements de correspondances.
En mode Purger, les données dans RecordID1 et RecordID2 sont les identifiants de ligne provenant de votre jeu de données.
En mode Fusionner, RecordID1 et RecordID2 correspondent aux ID correspondants, un de chaque jeu de données. Définir des écarts importants entre les valeurs de départ des ID d’enregistrement vous permet de reconnaître plus facilement le jeu de données référencé.
RecordID1 est toujours la « première » valeur de la paire correspondante si les deux ID sont triés de manière alphanumérique.
Les ID de paires de correspondances de correspondance partielle sont triés alphanumériquement par ligne. Les champs numériques RecordID trient Record ID1 à RecordID2, du plus petit au plus grand, mais les RecordID de chaîne peuvent être triés de manière inattendue.
L’enregistrement 101 correspond à l’enregistrement 11. Si les champs sont stockés sous forme de nombres, RecordID1 sera 11 et RecordID2 sera 101. Si les champs sont stockés sous forme de chaînes, RecordID1 sera 101 et RecordID2 sera 11.
Basculez vers un champ numérique RecordID ou vérifiez que les chaînes avec des RecordID ajoutés ont un format standardisé entre les enregistrements.
Dans la plupart des scénarios de correspondance d’adresses, où la base de données d’adresses est systématiquement remplie de données, les champs de ville et d’état ne sont pas nécessaires pour la correspondance. Nom, Adresse, et Code postalsont plus couramment utilisés Options Match Style. Examinez vos données pour déterminer si les champs de ville ou d’état peuvent être utiles.
Utilisez Double Metaphonesi :
- Les champs de ville et d’état ne sont pas abrégés.
- Les champs peuvent comporter des fautes d’orthographe.
Utilisez whole Fieldor Whole Field - Case Insensiblesi :
- le champ d’état est abrégé et nécessite une correspondance exacte.
une correspondance exacte est généralement demandée si on passe à un processus plus détaillé de correspondance.
Dans de nombreux scénarios de correspondance d’adresse, les champs de suite ne sont pas nécessaires pour la correspondance. Nom, Adresse, et Code postalsont plus couramment utilisés Options Match Style. Examinez vos données pour déterminer si les champs de suite peuvent être utiles.
Double Metaphone w/Digitsest le style de match préféré pour n'importe quel champ d'adresse, peu importe si l'adresse inclut les numéros de suite. Envisagez également d'utiliser la ponctuation Strip et supprimer les unités de l'option d'adresse des États-Unisdans le cadre de Preprocess.
La plupart du temps, l’analyse d’un champ de nom en champs de composant individuels n’est pas nécessaire et n’améliore pas la correspondance. Utilisez l'option Générer des clés pour chaque motavec l'algorithme Soundex pour générer des clés de champ de nom. Cela garantit que l’ordre des mots n’est pas pris en compte, ainsi « Cindy Smith » ou « Smith Cindy » sont considérés comme étant une correspondance.
L’analyse du champ de nom est avantageuse lorsque vous voulez pondérer différemment chaque valeur.
Pour que Rosey Smith corresponde à R Smith, le nom de famille est pondéré à 80 % et le prénom à 20 %.
Sous Edit... Prétraiter, utilisez La Ponctuation Strip et salutationspour ignorer ces mots lors de l'exécution d'une correspondance.