FAQ del fósforo borroso
Los siguientes temas son preguntas comunes relacionadas con el Herramienta Coincidencia difusa y los relacionados Opciones de edición de coincidencia de Fuzzy Match .
No hay una respuesta estándar a esta pregunta. Considerar campos de coincidencia que debe ser diferente entre los registros y podría denotar el registro como único. Por ejemplo, en una base de datos de contactos estándar, el nombre, la dirección y el número de teléfono debe identificar a una persona única. Muchas personas pueden tener la misma ciudad y Estado, por lo que estos sería menos significativo.
Es importante entender la relación entre el uso de múltiples los campos y cuánta importancia, o peso, se debe dar a cada uno el campo que se está considerando en el proceso que empareja. Por ejemplo, el nombre puede no ser tan importante como dirección y zip, por lo que la ponderación de nombre menos que la dirección y zip puede resultar en más partidos donde la dirección y el código postal son exactos, pero el nombre ha anotado menos que una coincidencia exacta.
Modo de purga (todos los registros comparados) encuentra coincidencias dentro de cada individuo DataSet, así como los coincidencias entre dos datasets. Se puede utilizar el modo de purga en un DataSet para eliminar duplicados o desduplicación de la base de datos. Esto puede ser un paso de preparación antes de realizar una fusión de dos bases de datos.
Combinar (sólo se comparan los registros de un origen diferente) compara los registros de dos datos diferentes Fuentes. Eligiendo combinar encontrar sólo coincidencias entre dos datasets.
Una base de datos debe desengañarse antes de utilizar el modo de fusión porque:
- El modo de fusión no detecta registros duplicados dentro del mismo origen.
- El proceso coincidente es más rápido sin registros duplicados.
DataSet 1 tiene 5 duplicados. DataSet 2 tiene 10. Si se ejecuta Merge sin purgar estos duplicados, el Match comprobará 50 pares de coincidencia. Si se purgan los duplicados, la coincidencia comprobará 1 par de coincidencia.
La herramienta de coincidencia difusa utiliza un identificador (ID) para etiquetar coincidencias, ya sea de un archivo a otro o de una fila a otra en un solo archivo. La herramienta utiliza el ID para informar los registros coinciden.
El ID debe ser único para cada registro, incluidos los registros de diferentes datasets, para asegurar la salida exacta de la herramienta. Respete las siguientes prácticas recomendadas para los identificadores exclusivos:
- Conozca el tamaño de sus datasets para entender mejor el comienzo necesario valor de cada columna recordID.
- Añada una herramienta de ID de registro a ambas secuencias de DataSet.
- Configure el "Inicio
Valor "de diferentes secuencias de DataSet varias magnitudes entre sí para garantizar que todos los registros tengan un valor único asignado.
Mejores prácticas
Asignar 100 millones como el valor inicial para la herramienta recordID para el archivo maestro y 200 millones como la inicial valor para el archivo de cliente. El uso consistente de esta práctica le permite fácilmente Identifique las fuentes de los registros de coincidencia.
En el modo de purga, los datos de RecordID1 y RecordID2 son la fila identificadores de su DataSet.
En modo de fusión, RecordID1 y RecordID2 corresponden a identificadores emparejados, uno de cada DataSet. Configuración de los identificadores de registro al iniciar los valores de diferentes magnitudes le permiten reconocer con mayor facilidad qué DataSet está siendo referenciada.
RecordID1 es siempre el valor "First" en el par coincidente si los dos identificadores se ordenan alfanuméricamente.
Los ID de par de coincidencia de coincidencia borrosa se ordenan alfanuméricamente por fila. Los campos recordID numéricos clasifican el registro ID1 a RecordID2, el más pequeño al más grande respectivamente, pero String RecordIDs puede ordenar de maneras inesperadas.
Registre 101 fósforos con el expediente 11. Si los campos se almacenan como números, RecordID1 sería 11 y RecordID2 sería 101. Si los campos se almacenan como cadenas, RecordID1 sería 101 y RecordID2 sería 11.
Cambie a un campo recordID numérico, o Compruebe que las cadenas con antepone RecordIDs tienen un formato estandarizado entre registros.
En la mayoría de las situaciones de coincidencia de direcciones, donde la base de datos se rellena consistentemente con datos, los campos ciudad y estado no son necesarios en la coincidencia. El nombre, la dirección y el código postal se utilizan más comúnmente Opciones de estilo de coincidencia. Examine sus datos para determinar si los campos de ciudad o estado pueden ser relevantes.
Utilice metaphone doble si:
- Los campos de la ciudad y del estado no son abreviados.
- Los campos pueden contener ortografía Errores.
Utilice el campo entero o el campo entero-caso insensible si:
- El campo del estado es abreviado y requiere y coincide exactamente.
Normalmente se requiere una coincidencia exacta si se pasa a un proceso más granular de coincidencia.
En muchos escenarios de coincidencia de direcciones, los campos de Suite no se necesitan en coincidencia. El nombre, la dirección y el código postal se utilizan más comúnmente Opciones de estilo de coincidencia . Examine sus datos para determinar si los campos de la Suite pueden ser relevantes.
Doble metaphone w/dígitos es el estilo de coincidencia preferido para cualquier dirección campo, independientemente de si la dirección incluye números de Suite. También considere la posibilidad de utilizar la opción de puntuación de franjas y quitar unidades de la dirección US en preproceso .
En la mayoría de los casos, no es necesario analizar un campo de nombre en campos de componentes individuales y no debe dar lugar a una mejor coincidencia. Utilice el generador de Claves para cada opción de Word con el algoritmo Soundex para generar claves de campo de nombres. Esto asegura que el orden de la palabra no se considera, por lo tanto "Cindy Smith" o "Smith, Cindy "se consideran un partido.
Analizar el campo nombre es ventajoso cuando se desea para poner diferentes pesos en cada valor.
En Editar... > Preprocesar, utilizar Strip puntuación y saludos para ignorar estas palabras mientras se realiza una coincidencia.