Skip to main content

Preguntas frecuentes sobre la coincidencia difusa

Los siguientes temas son preguntas comunes relacionadas con la herramienta Coincidencia difusa y las Opciones de edición de coincidencia difusa relacionadas.

No hay una respuesta estándar a esta pregunta. Considera los campos coincidentes que deben ser diferentes entre registros y que podrían indicar que el registro es único. Por ejemplo, en una base de datos de contactos estándar, el nombre, la dirección y el número de teléfono deben identificar a una persona única. Muchas personas pueden tener la misma ciudad y estado, por lo que estos datos serían menos significativos.

Es importante comprender la relación entre el uso de varios campos y la importancia, o el peso, que debe darse a cada campo que se considerará en el proceso de coincidencia. Por ejemplo, es posible que el nombre no sea tan importante como la dirección y el código postal, por lo que ponderar el nombre menos que la dirección y el código postal puede dar lugar a más coincidencias en las que la dirección y el código postal sean exactos, pero el nombre ha obtenido una puntuación menor que una coincidencia exacta.

  • El modo Purgar (todos los registros comparados) encuentra coincidencias dentro de cada conjunto de datos individual, así como coincidencias entre dos conjuntos de datos. El modo Purgar puede utilizarse en un conjunto de datos para quitar duplicados de la base de datos (es decir, desduplicar). Esto puede ser un paso de preparación antes de realizar una fusión de dos bases de datos.

  • Fusionar (solo se comparan registros desde una fuente diferente) compara registros desde dos fuentes de datos diferentes. Al seleccionar Fusionar, solo se encuentran coincidencias entre dos conjuntos de datos.

Es recomendable desduplicar una base de datos antes de usar el modo Fusionar por los siguientes motivos:

  • El modo Fusionar no detecta registros duplicados en el mismo origen.

  • El proceso de coincidencia es más rápido sin registros duplicados. El conjunto de datos 1 tiene cinco duplicados. El conjunto de datos 2 tiene diez. Si se ejecuta una fusión sin purgar esos duplicados, la coincidencia verificará 50 pares de coincidencias. Si se purgan los duplicados, la coincidencia verificará un par de coincidencia.

La herramienta Coincidencia difusa utiliza un identificador (Id.) para etiquetar las coincidencias, ya sea de un archivo a otro o de una fila a otra, en un solo archivo. La herramienta utiliza el Id. para informar qué registros coinciden.

El Id. debe ser único para cada registro, incluidos los registros de conjuntos de datos diferentes, para garantizar que la salida de la herramienta sea exacta. Cumple las siguientes prácticas recomendadas para números de identificación únicos:

  • Conoce el tamaño de tus conjuntos de datos para entender mejor el valor inicial necesario para cada columna de Id. del registro.

  • Agrega una herramienta Id. de registro a ambos flujos de conjuntos de datos.

  • Establece el “Valor inicial” de los diferentes flujos del conjunto de datos con varias magnitudes distintas para garantizar que todos los registros tengan asignado un valor único.

Práctica recomendada

Asigna 100 000 000 como valor inicial para la herramienta Id. del registro para el archivo maestro y 200 000 000 como valor inicial para el archivo del cliente. El uso constante de esta práctica te permite identificar fácilmente los orígenes de los registros de coincidencia.

En el modo Purgar, los datos de Id. del registro 1 e Id. del registro 2 son los identificadores de fila del conjunto de datos.

En el modo Fusionar, Id. del registro 1 e Id. del registro 2 corresponden a los identificadores coincidentes, uno de cada conjunto de datos. La configuración de los Id. del registro en valores iniciales de diferentes magnitudes permite reconocer más fácilmente a qué conjunto de datos se hace referencia.

El Id. del registro 1 es siempre el “primer” valor del par coincidente si los dos Id. se ordenan alfanuméricamente.

Los Id. de par de coincidencias difusas se ordenan alfanuméricamente por fila. Los campos numéricos Id. del registro ordenan Id. del registro 1 a Id. del registro 2, de menor a mayor respectivamente, pero los Id. del registro de cadena pueden ordenarse de maneras inesperadas.

El registro 101 coincide con el registro 11. Si los campos se almacenan como números, Id. del registro 1 sería 11 e Id. del registro 2 sería 101. Si los campos se almacenan como cadenas, Id. del registro 1 sería 101 e Id. del registro 2 sería 11.

Cambia a un campo Id. del registro numérico o comprueba que las cadenas con Id. del registro precedidas tienen un formato estandarizado entre registros.

En la mayoría de las situaciones de coincidencia de direcciones, donde la base de datos de direcciones se completa constantemente con datos, los campos de ciudad y estado no son necesarios para la coincidencia.  Nombre , Dirección y Código postal son las opciones de estilo de coincidencia más utilizadas. Examina tus datos para determinar si los campos de ciudad o estado pueden ser relevantes.

Utiliza Double Metaphone si...

  • Los campos Ciudad y Estado no están abreviados.

  • Los campos pueden contener errores ortográficos.

Utiliza Todo el campo o Todo el campo: no distinguir mayúsculas de minúsculas si...

  • El campo de estado está abreviado y requiere una coincidencia exacta. Normalmente, se requiere una coincidencia exacta si pasamos a un proceso de coincidencia más granular.

En muchos escenarios de coincidencia de direcciones, no se necesitan campos de número de oficina para la coincidencia.  Nombre , Dirección y Código postal son las opciones de estilo de coincidencia más utilizadas. Examina los datos para determinar si los campos de número de oficina pueden ser relevantes.

Double Metaphone con dígitos es el estilo de coincidencia preferido para cualquier campo de dirección, sin importar si la dirección incluye números de oficina o no. También considera la posibilidad de utilizar la opción Eliminar puntuación y unidades de direcciones en EE. UU. en Preprocesar .

En la mayoría de los casos, no es necesario analizar un campo de nombre en campos de componentes individuales y no debería generar una mejor coincidencia. Utiliza la opción Generar claves para cada palabra con el algoritmo Soundex para generar claves de campo de nombre. Esto garantiza que no se tenga en cuenta el orden de las palabras, por lo que tanto “Cindy Smith” como “Smith, Cindy” se consideran coincidentes.

El análisis del campo de nombre es ventajoso cuando se quieren asignar diferentes ponderaciones a cada valor.

Para que Rosey Smith coincida con R Smith, el apellido se ponderará al 80 % y el nombre se ponderará al 20 %.

En Editar... > Preprocesar , utiliza  Eliminar puntuación y saludos  para omitir estas palabras mientras se realiza una búsqueda.