FAQ sur la Correspondance partielle
Les sujets suivants sont des questions courantes liées à la Outil Correspondance partielle et les Style de correspondance partielle Modifier les options de correspondance .
Il n’y a pas de réponse standard à cette question. Envisager des champs correspondants qui devrait être différent entre les enregistrements et pourrait désigner l'enregistrement comme unique. Par exemple, dans une base de données de contacts standard, le nom, l'adresse et le numéro de téléphone devrait identifier une personne unique. Beaucoup de gens peuvent avoir la même ville et l'État, ce qui serait moins significatif.
Il est important de comprendre la relation entre l'utilisation de plusieurs domaines et combien d'importance, ou de poids, doit être donnée à chaque domaine considéré dans le processus de jumelage. Par exemple, le nom peut ne pas être aussi important comme adresse et zip, si la pondération nom moins que l'adresse et zip peut entraîner plus de matches où l'adresse et zip sont exacts, mais le nom a obtenu moins qu'une correspondance exacte.
Le mode purge (tous les records comparés) trouve des correspondances dans chaque DataSet, ainsi que des correspondances entre deux datasets. Le mode purge peut être utilisé sur un DataSet pour supprimer les doublons de, ou de déduplication, la base de données. Il peut s’agir d’une étape préparatoire avant l’exécution d’une fusion de deux bases de données.
Fusionner (seuls les enregistrements d'une source différente sont comparés) compare les enregistrements de deux données différentes Sources. Choisir fusionner trouver des matches entre deux ensembles de données.
Une base de données doit être dédupliquée avant d’utiliser le mode Fusionner car :
- Le mode Fusionner ne détecte pas les enregistrements en double dans la même source.
- Le processus de correspondance fonctionne plus rapidement sans enregistrements en double.
Le jeu de données 1 comporte 5 doublons. Le jeu de données 2 en comporte 10. Si le mode Fusionner est exécuté sans purger ces doublons, la correspondance trouvera 50 paires de correspondance. Si les doublons sont purgés, la correspondance trouvera une paire de correspondance.
L'outil de correspondance floue utilise un identificateur (ID) pour étiqueter les correspondances, soit d'un fichier à un autre ou d'une rangée à l'autre dans un seul fichier. L'outil utilise l'ID pour signaler les records correspondent.
L’ID doit être unique pour chaque enregistrement, y compris les enregistrements provenant de différents jeux de données, afin de veiller à l’exactitude des données sortantes de l’outil. Respectez les meilleures pratiques suivantes pour les ID uniques :
- Connaître la taille de vos ensembles de données afin de mieux comprendre le démarrage nécessaire valeur pour chaque colonne recordID.
- Ajoutez un outil ID d’enregistrement aux deux flux de jeux de données.
- Réglez le «démarrage
Valeur "des flux de données différents diffuse plusieurs magnitudes les unes des autres pour s'assurer que tous les enregistrements ont une valeur unique assignée.
Meilleures pratiques
Attribuer 100 millions comme valeur initiale pour l'outil recordID pour le fichier maître et 200 millions comme premier valeur pour le fichier client. L'utilisation constante de cette pratique vous permet de facilement identifier les sources des enregistrements de match.
En mode purge, les données dans RecordID1 et RecordID2 sont la ligne identificateurs de votre DataSet.
En mode fusion, RecordID1 et RecordID2 correspondent à des ID correspondants, un de chaque DataSet. Définition des ID d'enregistrement au démarrage les valeurs de différentes magnitudes vous permettent de reconnaître plus facilement quel DataSet est référencé.
RecordID1 est toujours la « première » valeur de la paire correspondante si les deux ID sont triés de manière alphanumérique.
Les ID de paires de correspondances de correspondance partielle sont triés alphanumériquement par ligne. Les champs numériques RecordID trient Record ID1 à RecordID2, du plus petit au plus grand, mais les RecordID de chaîne peuvent être triés de manière inattendue.
L’enregistrement 101 correspond à l’enregistrement 11. Si les champs sont stockés sous forme de nombres, RecordID1 sera 11 et RecordID2 sera 101. Si les champs sont stockés sous forme de chaînes, RecordID1 sera 101 et RecordID2 sera 11.
Basculez vers un champ numérique RecordID ou vérifiez que les chaînes avec des RecordID ajoutés ont un format standardisé entre les enregistrements.
Dans la plupart des scénarios de correspondance d'adresses, où la base est constamment peuplée de données, les champs de ville et d'État ne sont pas nécessaires dans la correspondance. Le nom, l' adresse et le Code postal sont les options de style de correspondance les plus couramment utilisées . Examinez vos données pour déterminer si les champs de ville ou d’état peuvent être utiles.
Utilisez double-téléphone si:
- Les champs de ville et d’état ne sont pas abrégés.
- Les champs peuvent contenir des orthographes Erreurs.
Utilisez un champ entier ou un champ entier insensible à la casse si:
- le champ d’état est abrégé et nécessite une correspondance exacte.
une correspondance exacte est généralement demandée si on passe à un processus plus détaillé de correspondance.
Dans de nombreux scénarios de correspondance d’adresse, les champs de suite ne sont pas nécessaires pour la correspondance. Le nom, l' adresse et le Code postal sont les options de style de correspondance les plus couramment utilisées . Examinez vos données pour déterminer si les champs de suite peuvent être utiles.
Double-téléphone avec chiffres est le style de match préféré pour toute adresse champ, indépendamment du fait que l'adresse inclut des numéros de suite. Envisagez également d'utiliser l'option de ponctuation des bandes et de supprimer des unités de l'adresse US sous prétraitement.
Dans la plupart des cas, l'analyse d'un champ de nom dans des champs de composant individuels n'est pas nécessaire et ne devrait pas aboutir à un meilleur match. Utilisez la génération Clés pour chaque option Word avec l'algorithme SOUNDEX pour générer des clés de champ de nom. Cela garantit que l'ordre des mots n'est pas considéré, donc à la fois "cindy Smith" ou "Smith, Cindy "sont considérées comme un match.
L'analyse du champ de nom est avantageuse lorsque vous voulez pour mettre des poids différents sur chaque valeur.
Sous modifier... > Prétraiter, utiliser bande ponctuation & salutations pour ignorer ces mots tout en effectuant un match.