FAQ sur la Correspondance partielle

Les sujets suivants sont des questions courantes liées à la Outil Correspondance partielle et les Style de correspondance partielle Modifier les options de correspondance .

Combien de champs dois-je configurer dans un seul outil de correspondance floue?

Il n’y a pas de réponse standard à cette question. Envisager des champs correspondants qui devrait être différent entre les enregistrements et pourrait désigner l'enregistrement comme unique. Par exemple, dans une base de données de contacts standard, le nom, l'adresse et le numéro de téléphone devrait identifier une personne unique. Beaucoup de gens peuvent avoir la même ville et l'État, ce qui serait moins significatif.

Il est important de comprendre la relation entre l'utilisation de plusieurs domaines et combien d'importance, ou de poids, doit être donnée à chaque domaine considéré dans le processus de jumelage. Par exemple, le nom peut ne pas être aussi important comme adresse et zip, si la pondération nom moins que l'adresse et zip peut entraîner plus de matches où l'adresse et zip sont exacts, mais le nom a obtenu moins qu'une correspondance exacte.

Quelle est la différence entre fusionner et le mode purge?

Le mode purge (tous les records comparés) trouve des correspondances dans chaque DataSet, ainsi que des correspondances entre deux datasets. Le mode purge peut être utilisé sur un DataSet pour supprimer les doublons de, ou de déduplication, la base de données. Il peut s’agir d’une étape préparatoire avant l’exécution d’une fusion de deux bases de données.

Fusionner (seuls les enregistrements d'une source différente sont comparés) compare les enregistrements de deux données différentes Sources. Choisir fusionner trouver des matches entre deux ensembles de données.

Pourquoi ai-je besoin de déduplication ma base de données avant de l'envoyer en mode fusion?

Une base de données doit être dédupliquée avant d’utiliser le mode Fusionner car :

Le mode Fusionner ne détecte pas les enregistrements en double dans la même source.
Le processus de correspondance fonctionne plus rapidement sans enregistrements en double.
Le jeu de données 1 comporte 5 doublons. Le jeu de données 2 en comporte 10. Si le mode Fusionner est exécuté sans purger ces doublons, la correspondance trouvera 50 paires de correspondance. Si les doublons sont purgés, la correspondance trouvera une paire de correspondance.

Pourquoi ai-je besoin d'avoir un unique ID par enregistrement?

L'outil de correspondance floue utilise un identificateur (ID) pour étiqueter les correspondances, soit d'un fichier à un autre ou d'une rangée à l'autre dans un seul fichier. L'outil utilise l'ID pour signaler les records correspondent.

L’ID doit être unique pour chaque enregistrement, y compris les enregistrements provenant de différents jeux de données, afin de veiller à l’exactitude des données sortantes de l’outil. Respectez les meilleures pratiques suivantes pour les ID uniques :

Connaître la taille de vos ensembles de données afin de mieux comprendre le démarrage nécessaire valeur pour chaque colonne recordID.
Ajoutez un outil ID d’enregistrement aux deux flux de jeux de données.
Réglez le «démarrage Valeur "des flux de données différents diffuse plusieurs magnitudes les unes des autres pour s'assurer que tous les enregistrements ont une valeur unique assignée.
Meilleures pratiques
Attribuer 100 millions comme valeur initiale pour l'outil recordID pour le fichier maître et 200 millions comme premier valeur pour le fichier client. L'utilisation constante de cette pratique vous permet de facilement identifier les sources des enregistrements de match.

Le champ RecordID1 et RecordID2 la Convention de nommage est déroutante sortant de l'outil de correspondance floue. Est Il ya un truc pour garder ces champs droite?

En mode purge, les données dans RecordID1 et RecordID2 sont la ligne identificateurs de votre DataSet.

En mode fusion, RecordID1 et RecordID2 correspondent à des ID correspondants, un de chaque DataSet. Définition des ID d'enregistrement au démarrage les valeurs de différentes magnitudes vous permettent de reconnaître plus facilement quel DataSet est référencé.

RecordID1 est toujours la « première » valeur de la paire correspondante si les deux ID sont triés de manière alphanumérique.

Les enregistrements de mes sources sont répartis entre les champs RecordID. Pourquoi ne sont-ils pas dans la même colonne ?

Les ID de paires de correspondances de correspondance partielle sont triés alphanumériquement par ligne. Les champs numériques RecordID trient Record ID1 à RecordID2, du plus petit au plus grand, mais les RecordID de chaîne peuvent être triés de manière inattendue.

L’enregistrement 101 correspond à l’enregistrement 11. Si les champs sont stockés sous forme de nombres, RecordID1 sera 11 et RecordID2 sera 101. Si les champs sont stockés sous forme de chaînes, RecordID1 sera 101 et RecordID2 sera 11.

Basculez vers un champ numérique RecordID ou vérifiez que les chaînes avec des RecordID ajoutés ont un format standardisé entre les enregistrements.

Si je veux utiliser la ville ou l'État dans ma configuration de match, quel style de match dois-je utiliser?

Dans la plupart des scénarios de correspondance d'adresses, où la base est constamment peuplée de données, les champs de ville et d'État ne sont pas nécessaires dans la correspondance. Le nom, l' adresse et le Code postal sont les options de style de correspondance les plus couramment utilisées . Examinez vos données pour déterminer si les champs de ville ou d’état peuvent être utiles.

Utilisez double-téléphone si:

Les champs de ville et d’état ne sont pas abrégés.
Les champs peuvent contenir des orthographes Erreurs.

Utilisez un champ entier ou un champ entier insensible à la casse si:

le champ d’état est abrégé et nécessite une correspondance exacte.
une correspondance exacte est généralement demandée si on passe à un processus plus détaillé de correspondance.

Si j'ai plusieurs configurations d'adresses dans ma base de données (c'est à dire une adresse avec des numéros de suite, certains avec pas, et certains avec des numéros de suite dans un champ supplémentaire), qui correspondent style doit J'utilise?

Dans de nombreux scénarios de correspondance d’adresse, les champs de suite ne sont pas nécessaires pour la correspondance. Le nom, l' adresse et le Code postal sont les options de style de correspondance les plus couramment utilisées . Examinez vos données pour déterminer si les champs de suite peuvent être utiles.

Double-téléphone avec chiffres est le style de match préféré pour toute adresse champ, indépendamment du fait que l'adresse inclut des numéros de suite. Envisagez également d'utiliser l'option de ponctuation des bandes et de supprimer des unités de l'adresse US sous prétraitement.

Si j'analyse un champ de nom dans champs multiples (i.e. Prénom, nom de famille, initiale moyenne) vais-je obtenir meilleurs résultats de match?

Dans la plupart des cas, l'analyse d'un champ de nom dans des champs de composant individuels n'est pas nécessaire et ne devrait pas aboutir à un meilleur match. Utilisez la génération Clés pour chaque option Word avec l'algorithme SOUNDEX pour générer des clés de champ de nom. Cela garantit que l'ordre des mots n'est pas considéré, donc à la fois "cindy Smith" ou "Smith, Cindy "sont considérées comme un match.

L'analyse du champ de nom est avantageuse lorsque vous voulez pour mettre des poids différents sur chaque valeur.

Pour Rosey Smith pour correspondre à R Smith, le nom de famille est pondéré à 80% et le prénom est pondéré à 20%.

Que faire si le champ nom contient M., Mme, Mademoiselle etc. Cela affectera-t-il le taux de match pour ce champ?

Sous modifier... > Prétraiter, utiliser bande ponctuation & salutations pour ignorer ces mots tout en effectuant un match.