Opciones de edición de coincidencia de Fuzzy Match
Utilice el botón Editar de la Herramienta Coincidencia difusa Ventana de configuración para acceder a las opciones de edición de coincidencia.
El estilo de coincidencia es un método predeterminado para encontrar una coincidencia adecuada entre los registros de un archivo de entrada. Las opciones de estilo de coincidencia individuales se definen en el Herramienta Coincidencia difusa Página.
En esta lista aparecerán los estilos de coincidencia predefinidos o personalizados que se definen por el usuario. Las siguientes especificaciones en el cuadro de diálogo se seleccionarán basándose en el estilo de coincidencia elegido.
Si edita un estilo de coincidencia predefinido, se cambiará a "Custom" en la lista desplegable. La configuración especificada en este estilo de coincidencia personalizado se guardará con el flujo de trabajo.
Añada nuevos estilos de coincidencia personalizados en lugar de eliminar o Editar opciones predeterminadas.
Puede eliminar un estilo de coincidencia seleccionando el botón desplegable y haciendo clic en eliminar. Puede Agregar un estilo de coincidencia escribiendo un nuevo nombre y haciendo clic en Aceptar.
El preproceso describe un procedimiento que se ejecuta antes de generar claves y la función de coincidencia difusa. El preproceso debe dar lugar a mejores fósforos. Las opciones de esta lista incluyen:
- None: no se ejecuta ningún preproceso.
- Franja de puntuación: los caracteres de puntuación dentro del campo de datos especificado se omitirán mientras la herramienta esté determinando coincidencias.
- Franja de puntuación y saludos: los caracteres de puntuación, así como los títulos como "Mr" "MS" y "Mrs" dentro del campo de datos especificado se ignoran mientras la herramienta está determinando una coincidencia.
- Franja de puntuación & y, of & the: cualquier signo de puntuación, así como cualquier instancia de las palabras "y" "de" y "el" dentro del campo de datos especificado se omiten mientras la herramienta está determinando coincidencias.
- Strip puntuación y quitar unidades de direcciones de Estados Unidos: cualquier signo de puntuación, así como cualquier número de unidad dentro del campo de datos especificado se omiten mientras la herramienta está determinando coincidencias.
Modificaciones manuales al preprocesamiento
El preproceso puede definirse por el usuario editando el FuzzyMatchStyles. Xml. Este archivo se encuentra en el directorio de tiempo de ejecución de Alteryx: \Archivos de Files\Alteryx\bin\RuntimeData\FuzzyMatch. Este archivo sólo debe ser editado por un usuario familiarizado con XML y expresiones regulares.
Generar claves es el método por el cual se identifica una coincidencia potencial.
Alteryx Lee a través del campo especificado y asigna claves a los componentes de ese campo. Una vez que se generan todas las claves, Alteryx compara las claves concatenadas para cada campo de coincidencia. Si las claves generadas son iguales para dos registros, se identificará una coincidencia potencial y el par procederá a la siguiente fase del proceso de coincidencia. Las opciones de función son:
- None: las claves para este campo se consideran al decidir qué registros coinciden.
- Sólo dígitos: sólo se emparejarán los registros con los mismos dígitos en el campo especificado.
- Sólo dígitos-reversa: sólo se emparejarán los registros con los mismos dígitos (en el orden de la última a la primera) en el campo especificado.
- Metaphone doble: metaphone doble es el algoritmo preferido. Un algoritmo para codificar palabras inglesas (y palabras extranjeras a menudo oídas en el idioma inglés) fonéticamente al reducirlos a 12 sonidos consonantes. Esto reduce los problemas de coincidencia de ortografía incorrecta. El metaphone doble es el método preferido para emparejar basado en el sonido. Devuelve dos claves si una palabra tiene dos pronunciaciones factibles, como una palabra extranjera. Para obtener más información, consulte doble metaphone.
- Doble metaphone w/dígitos: utiliza el mismo algoritmo de doble metaphone, pero también incluye dígitos. Cuando hay dígitos en la cadena, los dígitos en el primer token serán la clave.
-
Soundex: un algoritmo para codificar los apellidos fonéticamente al reducirlos a la primera letra y hasta tres dígitos, donde cada dígito es uno de los seis sonidos consonantes. Esto reduce los problemas de coincidencia de diferentes ortografías.
El algoritmo fue ideado para codificar los nombres registrados en los registros censales de Estados Unidos. El algoritmo estándar funciona mejor en nombres europeos. Las variantes se han ideado para los nombres de otras culturas. Para obtener más información, consulte Soundex.
- Soundex w/digits: utiliza el mismo algoritmo de Soundex, pero también incluye dígitos. Cuando hay dígitos en la cadena, los dígitos en el primer token serán la clave.
- Campo entero (insensible a mayúsculas y minúsculas): sólo se harán coincidir los registros en los que coincidan todos los campos. Caso se omite.
- Sólo alfanumérico (mayúsculas y minúsculas): sólo busca caracteres alfanuméricos para hacer una coincidencia. Caso se omite.
- Dirección Number + Soundex: elimina el número de la dirección de una cadena y aplica el algoritmo Soundex al resto del campo. A continuación, el Código Soundex se anexa al número de dirección para crear una clave única.
1-(303) 440-8896 no coincidiría con 303-440-8896.
A pesar de que los caracteres no numéricos son ignorados, estos números de teléfono todavía no coinciden porque hay un interlineado 1 en el primer registro.
1-(303) 440-8896 coincidiría con 303-440-8896.
Los caracteres que no son dígitos son ignorados y los números se emparejan desde el último (6) al primero (3 o 1). Para que este registro coincida, especifique que la longitud de clave máxima = 10 para ignorar el interlineado 1.
1234 5th St.
El "1234" sería la clave.
Alteryx sustituye automáticamente las siguientes letras y combinaciones de letras principales antes de generar la clave de coincidencia:
Letra (s) principal (es) | Recambio |
---|---|
Av | Af |
Ah | una |
Aw | una |
Caan | Taan |
Dg | G |
D | G |
HA | una |
Kn | K |
K | C |
Mac | Mc |
M | N |
Nst | Ns |
Pf | F |
Ph | F |
Q | G |
Sch | Sh |
Z | S |
Generar claves para cada palabra: genera una clave separada para cada palabra.
Ignorar si está vacío: omite un valor vacío del campo de coincidencia especificado. Si el campo está vacío, entonces no se generará ninguna tecla y se expulsará el registro.
Longitud máxima de la llave: especifique la longitud máxima de la llave a considerar para el fósforo.
La función match es un proceso más granular por el cual se identifica una coincidencia y se aplica una puntuación. Esto difiere de las teclas, que deben coincidir exactamente. Las opciones son:
- Ninguno-clave sólo coincidencia: sólo se ve en las especificaciones de generación de claves.
- Distancia Levenshtein: el menor número de inserciones, supresiones y sustituciones necesarias para cambiar una cadena o un árbol a otro. Cuando se selecciona la distancia Levenshtein, la puntuación del partido será significativamente menor debido a diferencias. Para obtener más información, consulte Levenshtein Distance.
- Jaro Distance: una medida de similitud entre dos cuerdas. La medida Jaro es la suma ponderada del porcentaje de caracteres emparejados y las transposiciones necesarias. La distancia de Jaro es más tolerante que la distancia Levenshtein con respecto a la diferencia en cuerdas. Para más información, ver Jaro-Winkler.
- Lo mejor de Jaro & Levenshtein: se analizan ambos tipos de partidos y se toma la puntuación.
Tipos de funciones
- Basado en palabras (la función de coincidencia comienza con "palabras:") las funciones miran cualquier palabra dentro del campo especificado, sin importar el orden en el que están las palabras.
- Las funciones no basadas en palabras coinciden con toda la cadena en su conjunto.
- Para las funciones de Word & digit, todos los tokens que tengan dígitos en ellos deben estar en ambos lados para considerar una coincidencia. Éstos se utilizarían típicamente para las direcciones.
Opciones de función basadas en palabras
- Cuando utilice coincidencia basada en palabras, también use: puede especificar un método de coincidencia adicional que producirá una puntuación adicional, tomando la mejor, y eliminará la necesidad de ejecutar dos instancias de una herramienta de coincidencia borrosa:
- None: utiliza sólo la puntuación basada en la palabra.
- Carácter: utiliza la puntuación de coincidencia basada en palabras además de una función de coincidencia de caracteres. Se generan dos puntuaciones y se utiliza la puntuación de mejor partido para identificar el partido.
- Carácter (sin espacios): igual que el anterior, pero los espacios se ignoran al generar la coincidencia basada en caracteres.
- Estadísticas de frecuencia de palabras (sólo coincidenciade palabras): puede especificar una tabla de frecuencias de Word basada en estadísticas predefinidas. Cuando se especifique, las palabras que aparecen en el la base de datos tiene menos importancia cuando están presentes en los datos entrantes, y la puntuación del partido se ajustará en consecuencia. Las opciones incluyen:
- nInguno : Ninguna estadística de la frecuencia de la palabra se utiliza.
- Nombre: contiene palabras frecuentes en un campo de nombre. La frecuencia se relaciona inversamente con la importancia de esas palabras en la puntuación del partido.
- Dirección de Estados Unidos: contiene palabras frecuentes en un campo de direcciones de Estados Unidos. La frecuencia se relaciona inversamente con la importancia de esas palabras en la puntuación del partido.
- Compañía de los e.e.u.u.: contiene palabras frecuentes en un campo del nombre de compañía. La frecuencia se relaciona inversamente con la importancia de esas palabras en la puntuación del partido.
- Apodo/tabla de abreviaturas (sólo coincidenciade palabras): utilice una tabla de alias común para comprobar
identificar los duplicados. Utilice esta opción en campos
que contiene sólo el primer nombre o el primero y el último
Nombres.
Añadir apodos y abreviaturas adicionales:
- Actualizar el Apodos comunes. base de datos yxdb encontrada en \Archivos de Files\Alteryx\bin\RuntimeData\FuzzyMatch\Nicknames\
- Los archivos. yxdb que se colocan en este directorio estarán disponibles en el cuadro desplegable de los apodos sección de la herramienta de coincidencia difusa.
Coincidir "Albert commette" con "Albert commette MD".
La tabla de estadísticas de frecuencia de palabras para "Name" incluye la palabra "MD". Cuando se especifica la frecuencia de palabra: nombre, la puntuación de coincidencia resultante es aproximadamente 5 puntos más alto que si la frecuencia de palabra: nombre no se especifica.
Las estadísticas de frecuencias de Word están incluidas en los archivos de base de datos Alteryx * yxdb y se pueden ubicar en el directorio de datos de tiempo de ejecución:
\Archivos de Files\Alteryx\bin\RuntimeData\FuzzyMatch\
También puede crear sus propias estadísticas de frecuencia de palabra editando el flujo de trabajo CollectStats. yxmd situado en el mismo directorio.
- Penalización: establece el porcentaje de penalización aplicado cuando se realiza una coincidencia con datos de la tabla nickname. El valor por defecto es 15%. Se recomienda una penalidad como coincidencia de sobrenombre es otra fuente potencial de error. El porcentaje de penalización se restará de la puntuación del partido antes de la comparación con el umbral del partido.
Umbral de coincidencia: defina el porcentaje de incertidumbre permisible para devolver una coincidencia para un campo determinado.
Peso del fósforo: aplique importancia al campo, causando que el campo sea considerado más o menos fuertemente durante un fósforo.
Para obtener información adicional sobre el uso de matches borrosos, consulte el FAQ del fósforo borroso.