Herramienta Coincidencia difusa
La herramienta de coincidencia difusa se puede utilizar para identificar duplicados no idénticos de un conjunto de datos especificando los campos de coincidencia y los umbrales de similitud. Las puntuaciones de coincidencia sólo deben caer dentro de los umbrales especificados o predeterminados por el usuario establecidos en las propiedades de configuración.
La forma más eficaz de crear una coincidencia borrosa es realizar el proceso de coincidencia en varios campos dentro del archivo de entrada. Cada campo debe configurarse individualmente mediante un estilo de coincidencia predefinido o personalizado, configurado a través del Opciones de edición de coincidencia de Fuzzy Match .
La coincidencia borrosa sólo funciona con conjuntos de caracteres latinos, y algunas de las funciones de coincidencia sólo son compatibles con el idioma inglés.
Configurar la herramienta
Un identificador único para cada registro de datos es necesario para que la herramienta de coincidencia difusa funcione. Inspeccione sus datos; Si no hay ningún campo clave, añada un Herramienta Id. del registro un paso hacia arriba.
-
Elija el modo de coincidencia preferido:
- Modo de purga (todos los registros comparados): todos los registros de una única fuente se comparan para identificar duplicados.
-
Modo de fusión (sólo se comparan los registros de un origen diferente): se comparan los registros de fuentes diferentes, con la intención de identificar duplicados en diferentes archivos de entrada.
Cuando se utiliza el modo de fusión, cada fuente debe contener un campo ID de origen. Un campo de ID de origen se puede anexar fácilmente eligiendo el nombre del archivo de salida como opción de campo dentro de cada herramienta de datos de entrada. Esta configuración anexará a cada registro un campo con el nombre de archivo o la ruta de archivo completa.
- Especifique el campo Identificador de registro único.
-
Especifique el umbral de coincidencia como porcentaje. El valor predeterminado es 80%. Si la puntuación de coincidencia generada por la herramienta de coincidencia difusa es menor que el umbral especificado, el registro no se clasificará como coincidencia.
La puntuación del partido toma en consideración cada especificación dentro de las propiedades de configuración de la herramienta de coincidencia difusa: cada campo, el estilo de coincidencia, el peso del fósforo, y la puntuación de coincidencia de campo resultante se considera en el cálculo de la puntuación, que es entonces contra el umbral de coincidencia especificado.
- Configure sus campos de coincidencia. Utilice arriba y abajo para arreglarlos en el orden de emparejar. Utilice Delete para eliminar coincidencias innecesarias.
- Seleccione el nombre de campo que corresponda. Cualquier campo que ya esté en la conexión de entrada estará disponible en esta lista desplegable.
Seleccione el estilo de coincidencia en la lista desplegable. Las opciones incluyen:
Dirección: un estilo de coincidencia predefinido configurado para encontrar correspondencias de direcciones. Este estilo incorpora algoritmos de doble metaphone combinados con una coincidencia de dígitos para identificar direcciones coincidentes.
Aplicar este estilo a direcciones comerciales
Dirección no Suite: un estilo de coincidencia predefinido configurado para buscar correspondencias de direcciones donde los datos de entrada no tienen información de Suite en el campo dirección. Este estilo incorpora algoritmos de doble metaphone combinados con una coincidencia de dígitos para identificar direcciones coincidentes.
Aplicar este estilo a direcciones residenciales
- AddressPart: un estilo de coincidencia predefinido configurado para encontrar correspondencias de direcciones. Este estilo incorpora algoritmos de doble metaphone combinados con una coincidencia de dígitos para identificar direcciones coincidentes. AddressPart difiere de un estilo de coincidencia de dirección tradicional en que no utiliza el análisis de frecuencia de palabras y el umbral de coincidencia es 5% más bajo.
- Nombrede la compañía: un estilo de coincidencia predefinido configurado para encontrar coincidencia de nombre de compañía. Este estilo identifica los fósforos basados en algoritmos dobles de metaphone.
- Teléfono: un estilo de coincidencia predefinido configurado para encontrar correspondencias telefónicas. Este estilo mira los dígitos sólo en un campo de teléfono y coincide con los 10 dígitos inversos, ignorando guiones, paréntesis y interlineado 1S que pueden estar contenidos dentro del campo.
- Código postal: un estilo de coincidencia predefinido configurado para buscar correspondencias de código postal. Este estilo mira los 5 dígitos de un campo zip y asigna una coincidencia en consecuencia.
- Exacto: este campo debe coincidir exactamente para ser considerado como una coincidencia. Esta lógica no es borrosa en absoluto.
- Nombre: un estilo de coincidencia predefinido configurado para encontrar correspondencias de nombres. Este estilo incorpora algoritmos de doble metaphone.
Nombre con apodos: un estilo de coincidencia predefinido configurado para encontrar coincidencia de nombre. Este estilo incorpora algoritmos de doble metaphone. Además este estilo utiliza una tabla de apodos para comprobar en contra de identificar más a los duplicados.
El nombre Andrew puede emparejar Andy y/o dibujó.- Custom: permite al usuario definir sus propios parámetros de coincidencia, de modo que la coincidencia se pueda ejecutar repetidamente sin tener que reconfigurar las propiedades de coincidencia. Por supuesto, estos estilos de coincidencia personalizados también se pueden reconfigurar y sobrescribir o se pueden crear nuevos estilos personalizados.
- Edite el estilo de coincidencia según sea necesario haciendo clic en el botón Editar. La ventana Opciones de edición de coincidencia de Fuzzy Match muestra el diálogo.
-
Especifique Opciones avanzadas:
- Puntuación de coincidenciade salida: la puntuación de coincidencia estará presente en un campo de salida adicional.
- Claves generadaspor la salida: emite la clave de los estilos de coincidencia resultantes como un campo adicional.
- Resultados de registros sin igual: los registros que no coincidan con otros registros se realizarán como registros adicionales. Ocasionalmente, los registros de salida inigualados reportarán una puntuación de coincidencia, que debe ignorarse. Esto puede ser abordado en una versión futura.
-
No compare los registros ya en un grupo: los registros que se han emparejado no se compararán con otros registros, lo que reducirá el esfuerzo y el tiempo de procesamiento.
Si el registro 1 coincide para grabar 2 y grabar 3, entonces record 2 no coincide con el registro 3. Utilice una herramienta de grupo hacer río abajo para vincular estos grupos juntos. - Sólo generar claves: todos los registros se devuelven con las claves generadas como un campo adicional. No se realiza ninguna coincidencia.
La opción ignorar si está vacía de la opción Editar coincidencia se prioriza sobre esta opción.
Para obtener información adicional sobre el uso de matches borrosos, consulte el FAQ del fósforo borroso.