FAQ sur l'outil Correspondance partielle

Les sujets suivants dont des questions courantes liées à l’outil Correspondance partielle et la rubrique connexe Modifier les options de correspondance de la correspondance partielle .

Combien de champs dois-je configurer dans un même outil Correspondance partielle ?

Il n’y a pas de réponse standard à cette question. Pensez à effectuer la correspondance de champs qui devraient être différents entre des enregistrements et pourraient indiquer que l’enregistrement est unique. Par exemple, dans une base de données standard de contacts, le nom, l’adresse et le numéro de téléphone doivent identifier une personne unique. De nombreuses personnes peuvent avoir la même ville et le même état ; ces éléments seraient donc moins pertinents.

Il est important de comprendre la relation entre l’utilisation de plusieurs champs et l’importance ou pondération à accorder à chaque champ dans le processus de correspondance. Par exemple, le nom peut ne pas être aussi important que l’adresse et le code postal, donc la pondération « Nom moins important qu’adresse et code postal » peut entraîner plus de correspondances lorsque l’adresse et le code postal sont des correspondances exactes, mais le nom a obtenu moins qu’une correspondance exacte.

Quelle est la différence entre le mode Fusionner et le mode Purger ?

Le mode Purger (tous les enregistrements sont comparés) trouve des correspondances dans chaque jeu de données, ainsi que des correspondances entre deux jeux de données. Le mode Purger peut être utilisé sur un jeu de données pour en supprimer les doublons ou les dédupliquer. Il peut s’agir d’une étape préparatoire avant l’exécution d’une fusion de deux bases de données.
Le mode Fusionner (seuls les enregistrements provenant d'une source différente sont comparés) compare les enregistrements de deux sources de données différentes. Choisir Fusionner ne trouve que des correspondances entre deux jeux de données.

Pourquoi dois-je supprimer les doublons dans ma base de données avant de l’envoyer en mode Fusionner ?

Une base de données doit être dédupliquée avant d’utiliser le mode Fusionner car :

Le mode Fusionner ne détecte pas les enregistrements en double dans la même source.
Le processus de correspondance fonctionne plus rapidement sans enregistrements en double. Le jeu de données 1 comporte 5 doublons. Le jeu de données 2 en comporte 10. Si le mode Fusionner est exécuté sans purger ces doublons, la correspondance trouvera 50 paires de correspondance. Si les doublons sont purgés, la correspondance trouvera une paire de correspondance.

Pourquoi dois-je avoir un ID unique par enregistrement ?

L’outil Correspondance partielle utilise un identifiant (ID) pour étiqueter des correspondances entre deux fichiers ou entre deux lignes dans un fichier. L’outil utilise l’ID pour indiquer quels enregistrements correspondent.

L’ID doit être unique pour chaque enregistrement, y compris les enregistrements provenant de différents jeux de données, afin de veiller à l’exactitude des données sortantes de l’outil. Respectez les meilleures pratiques suivantes pour les ID uniques :

Connaissez la taille de vos jeux de données pour mieux comprendre la valeur de départ nécessaire à chaque colonne RecordID.
Ajoutez un outil ID d’enregistrement aux deux flux de jeux de données.
Définissez des écarts importants entre les « Valeurs de départ » des différents flux de jeux de données pour vous assurer que tous les enregistrements ont une valeur attribuée unique.

Meilleures pratiques

Affectez 100000000 comme valeur initiale pour l’outil RecordID pour le fichier maître et 200000000 comme valeur initiale pour le fichier client. L’utilisation systématique de cette pratique vous permet d’identifier facilement les sources des enregistrements de correspondances.

La convention de dénomination des champs RecordID1 et RecordID2 provoque des confusions à la sortie de l’outil Correspondance partielle. Connaissez-vous une astuce permettant d’éviter les erreurs dans ces champs ?

En mode Purger, les données dans RecordID1 et RecordID2 sont les identifiants de ligne provenant de votre jeu de données.

En mode Fusionner, RecordID1 et RecordID2 correspondent aux ID correspondants, un de chaque jeu de données. Définir des écarts importants entre les valeurs de départ des ID d’enregistrement vous permet de reconnaître plus facilement le jeu de données référencé.

RecordID1 est toujours la « première » valeur de la paire correspondante si les deux ID sont triés de manière alphanumérique.

Les enregistrements de mes sources sont répartis entre les champs RecordID. Pourquoi ne sont-ils pas dans la même colonne ?

Les ID de paires de correspondances de correspondance partielle sont triés alphanumériquement par ligne. Les champs numériques RecordID trient Record ID1 à RecordID2, du plus petit au plus grand, mais les RecordID de chaîne peuvent être triés de manière inattendue.

L’enregistrement 101 correspond à l’enregistrement 11. Si les champs sont stockés sous forme de nombres, RecordID1 sera 11 et RecordID2 sera 101. Si les champs sont stockés sous forme de chaînes, RecordID1 sera 101 et RecordID2 sera 11.

Basculez vers un champ numérique RecordID ou vérifiez que les chaînes avec des RecordID ajoutés ont un format standardisé entre les enregistrements.

Si je veux utiliser Ville ou État dans la configuration de la correspondance, quel style de correspondance dois-je employer ?

Dans la plupart des scénarios de correspondance d’adresses, où la base de données d’adresses est systématiquement remplie de données, les champs de ville et d’état ne sont pas nécessaires pour la correspondance. Nom , Adresse , et Code postal sont les options de style de correspondance les plus couramment utilisées. Examinez vos données pour déterminer si les champs de ville ou d’état peuvent être utiles.

Utilisez Double Metaphone si :

Les champs de ville et d’état ne sont pas abrégés.
Les champs peuvent comporter des fautes d’orthographe.

Utilisez Champ entier ou Champ entier : non sensible à la casse si :

le champ d’état est abrégé et nécessite une correspondance exacte. une correspondance exacte est généralement demandée si on passe à un processus plus détaillé de correspondance.

Si je possède plusieurs configurations d’adresses dans ma base de données (par exemple, des adresses avec ou sans numéros de suite et d’autres avec des numéros de suite dans un champ supplémentaire), quel style de correspondance dois-je employer ?

Dans de nombreux scénarios de correspondance d’adresse, les champs de suite ne sont pas nécessaires pour la correspondance. Nom , Adresse , et Code postal sont les options de style de correspondance les plus couramment utilisées. Examinez vos données pour déterminer si les champs de suite peuvent être utiles.

Double Metaphone avec chiffres est le style de correspondance préféré pour n'importe quel champ d'adresse, que l'adresse contienne des numéros de suite ou non. Pensez également à utiliser l'option Ignorer la ponctuation et supprimer les unités des adresses américaines sous Prétraitement .

Si j’analyse un champ de nom en plusieurs champs (c’est-à-dire Prénom, Nom, Initiale) les résultats de la concordance seront-ils meilleurs ?

La plupart du temps, l’analyse d’un champ de nom en champs de composant individuels n’est pas nécessaire et n’améliore pas la correspondance. Utilisez l'option Générer des clés pour chaque mot avec l'algorithme Soundex pour générer des clés de champ de nom. Cela garantit que l’ordre des mots n’est pas pris en compte, ainsi « Cindy Smith » ou « Smith Cindy » sont considérés comme étant une correspondance.

L’analyse du champ de nom est avantageuse lorsque vous voulez pondérer différemment chaque valeur.

Pour que Rosey Smith corresponde à R Smith, le nom de famille est pondéré à 80 % et le prénom à 20 %.

Et si le champ Nom contient M., Mme, Mlle, etc. ? Cela affectera-t-il le taux de correspondance pour ce champ ?

Sous Modifier…> Prétraitement , utilisez Ignorer la ponctuation et les salutations pour ignorer ces mots au cours d'une correspondance.

Dans cette section: