FAQ Sur La Correspondance Partielle

Version:
2022.3
Last modified: March 26, 2020

Les sujets suivants sont des questions courantes liées à l'outil de match Fuzzyet les options de match Fuzzyconnexes modifier .

Combien de champs dois-je configurer dans un seul outil de correspondance Fuzzy ?

Il n’y a pas de réponse standard à cette question. Pensez à effectuer la correspondance de champs qui devraient être différents entre des enregistrements et pourraient indiquer que l’enregistrement est unique. Par exemple, dans une base de données standard de contacts, le nom, l’adresse et le numéro de téléphone doivent identifier une personne unique. De nombreuses personnes peuvent avoir la même ville et le même état ; ces éléments seraient donc moins pertinents.

Il est important de comprendre la relation entre l’utilisation de plusieurs champs et l’importance ou pondération à accorder à chaque champ dans le processus de correspondance. Par exemple, le nom peut ne pas être aussi important que l’adresse et le code postal, donc la pondération « Nom moins important qu’adresse et code postal » peut entraîner plus de correspondances lorsque l’adresse et le code postal sont des correspondances exactes, mais le nom a obtenu moins qu’une correspondance exacte.

Quelle est la différence entre le mode Fusionner et le mode Purger ?

Le mode purge (Tous les enregistrements comparés)trouve des correspondances dans chaque jeu de données ainsi que des correspondances entre deux jeux de données. Le mode Purger peut être utilisé sur un jeu de données pour en supprimer les doublons ou les dédupliquer. Il peut s’agir d’une étape préparatoire avant l’exécution d’une fusion de deux bases de données.

Merge (Only Records from a Different Source are Compared)compare les enregistrements de deux sources de données différentes. Choisir Fusionner ne trouve que des correspondances entre deux jeux de données.

Pourquoi dois-je supprimer les doublons dans ma base de données avant de l’envoyer en mode Fusionner ?

Une base de données doit être dédupliquée avant d’utiliser le mode Fusionner car :

  • Le mode Fusionner ne détecte pas les enregistrements en double dans la même source.
  • Le processus de correspondance fonctionne plus rapidement sans enregistrements en double.

    Le jeu de données 1 comporte 5 doublons. Le jeu de données 2 en comporte 10. Si le mode Fusionner est exécuté sans purger ces doublons, la correspondance trouvera 50 paires de correspondance. Si les doublons sont purgés, la correspondance trouvera une paire de correspondance.

Pourquoi dois-je avoir un ID unique par enregistrement ?

L’outil Correspondance partielle utilise un identifiant (ID) pour étiqueter des correspondances entre deux fichiers ou entre deux lignes dans un fichier. L’outil utilise l’ID pour indiquer quels enregistrements correspondent.

L’ID doit être unique pour chaque enregistrement, y compris les enregistrements provenant de différents jeux de données, afin de veiller à l’exactitude des données sortantes de l’outil. Respectez les meilleures pratiques suivantes pour les ID uniques :

  • Connaissez la taille de vos jeux de données pour mieux comprendre la valeur de départ nécessaire à chaque colonne RecordID.
  • Ajoutez un outil ID d’enregistrement aux deux flux de jeux de données.
  • Définissez des écarts importants entre les « Valeurs de départ » des différents flux de jeux de données pour vous assurer que tous les enregistrements ont une valeur attribuée unique.

Meilleures pratiques

Affectez 100000000 comme valeur initiale pour l’outil RecordID pour le fichier maître et 200000000 comme valeur initiale pour le fichier client. L’utilisation systématique de cette pratique vous permet d’identifier facilement les sources des enregistrements de correspondances.

 

La convention de dénomination des champs RecordID1 et RecordID2 provoque des confusions à la sortie de l’outil Correspondance partielle. Connaissez-vous une astuce permettant d’éviter les erreurs dans ces champs ?

En mode Purger, les données dans RecordID1 et RecordID2 sont les identifiants de ligne provenant de votre jeu de données.

En mode Fusionner, RecordID1 et RecordID2 correspondent aux ID correspondants, un de chaque jeu de données. Définir des écarts importants entre les valeurs de départ des ID d’enregistrement vous permet de reconnaître plus facilement le jeu de données référencé.

RecordID1 est toujours la « première » valeur de la paire correspondante si les deux ID sont triés de manière alphanumérique.

Les enregistrements de mes sources sont répartis entre les champs RecordID. Pourquoi ne sont-ils pas dans la même colonne ?

Les ID de paires de correspondances de correspondance partielle sont triés alphanumériquement par ligne. Les champs numériques RecordID trient Record ID1 à RecordID2, du plus petit au plus grand, mais les RecordID de chaîne peuvent être triés de manière inattendue.

L’enregistrement 101 correspond à l’enregistrement 11. Si les champs sont stockés sous forme de nombres, RecordID1 sera 11 et RecordID2 sera 101. Si les champs sont stockés sous forme de chaînes, RecordID1 sera 101 et RecordID2 sera 11.

Basculez vers un champ numérique RecordID ou vérifiez que les chaînes avec des RecordID ajoutés ont un format standardisé entre les enregistrements.

Si je veux utiliser Ville ou État dans la configuration de la correspondance, quel style de correspondance dois-je employer ?

Dans la plupart des scénarios de correspondance d’adresses, où la base de données d’adresses est systématiquement remplie de données, les champs de ville et d’état ne sont pas nécessaires pour la correspondance. Nom, Adresse, et Code postalsont plus couramment utilisés Options Match Style. Examinez vos données pour déterminer si les champs de ville ou d’état peuvent être utiles.

Utilisez Double Metaphonesi :

  • Les champs de ville et d’état ne sont pas abrégés.
  • Les champs peuvent comporter des fautes d’orthographe.  

Utilisez whole Fieldor Whole Field - Case Insensiblesi :

  • le champ d’état est abrégé et nécessite une correspondance exacte.

    une correspondance exacte est généralement demandée si on passe à un processus plus détaillé de correspondance.

Si je possède plusieurs configurations d’adresses dans ma base de données (par exemple, des adresses avec ou sans numéros de suite et d’autres avec des numéros de suite dans un champ supplémentaire), quel style de correspondance dois-je employer ?

Dans de nombreux scénarios de correspondance d’adresse, les champs de suite ne sont pas nécessaires pour la correspondance. Nom, Adresse, et Code postalsont plus couramment utilisés Options Match Style. Examinez vos données pour déterminer si les champs de suite peuvent être utiles.

Double Metaphone w/Digitsest le style de match préféré pour n'importe quel champ d'adresse, peu importe si l'adresse inclut les numéros de suite. Envisagez également d'utiliser la ponctuation Strip et supprimer les unités de l'option d'adresse des États-Unisdans le cadre de Preprocess.

Si j'éparse un champ de nom dans plusieurs champs (c.-à-d. Prénom, Nom de Famille, Middle Initial) vais-je obtenir de meilleurs résultats de match?

La plupart du temps, l’analyse d’un champ de nom en champs de composant individuels n’est pas nécessaire et n’améliore pas la correspondance. Utilisez l'option Générer des clés pour chaque motavec l'algorithme Soundex pour générer des clés de champ de nom. Cela garantit que l’ordre des mots n’est pas pris en compte, ainsi « Cindy Smith » ou « Smith Cindy » sont considérés comme étant une correspondance.

L’analyse du champ de nom est avantageuse lorsque vous voulez pondérer différemment chaque valeur.

Pour que Rosey Smith corresponde à R Smith, le nom de famille est pondéré à 80 % et le prénom à 20 %.

Que faire si le champ de nom contient M., Mme, Miss etc. Cela affectera-t-il le taux de match pour ce champ?

Sous Edit... Prétraiter, utilisez La Ponctuation Strip et salutationspour ignorer ces mots lors de l'exécution d'une correspondance.

Cette page vous a-t-elle été utile ?

Vous rencontrez des problèmes avec votre produit Alteryx ? Visitez la communauté Alteryx ou contactez le  support. Vous n'arrivez pas à soumettre ce formulaire ? Envoyez-nous un e-mail.