Opciones de edición de coincidencia de Fuzzy Match

Utilice el botón Editar de la Herramienta Coincidencia difusa Ventana de configuración para acceder a las opciones de edición de coincidencia.

El estilo de coincidencia es un método predeterminado para encontrar una coincidencia adecuada entre los registros de un archivo de entrada. Las opciones de estilo de coincidencia individuales se definen en el Herramienta Coincidencia difusa Página.

Estilo de coincidencia

En esta lista aparecerán los estilos de coincidencia predefinidos o personalizados que se definen por el usuario. Las siguientes especificaciones en el cuadro de diálogo se seleccionarán basándose en el estilo de coincidencia elegido.

Si edita un estilo de coincidencia predefinido, se cambiará a "Custom" en la lista desplegable. La configuración especificada en este estilo de coincidencia personalizado se guardará con el flujo de trabajo.

Añada nuevos estilos de coincidencia personalizados en lugar de eliminar o Editar opciones predeterminadas.

Puede eliminar un estilo de coincidencia seleccionando el botón desplegable y haciendo clic en eliminar. Puede Agregar un estilo de coincidencia escribiendo un nuevo nombre y haciendo clic en Aceptar.

El preproceso describe un procedimiento que se ejecuta antes de generar claves y la función de coincidencia difusa. El preproceso debe dar lugar a mejores fósforos. Las opciones de esta lista incluyen:

Preprocesar

None: no se ejecuta ningún preproceso.
Franja de puntuación: los caracteres de puntuación dentro del campo de datos especificado se omitirán mientras la herramienta esté determinando coincidencias.
Franja de puntuación y saludos: los caracteres de puntuación, así como los títulos como "Mr" "MS" y "Mrs" dentro del campo de datos especificado se ignoran mientras la herramienta está determinando una coincidencia.
Franja de puntuación & y, of & the: cualquier signo de puntuación, así como cualquier instancia de las palabras "y" "de" y "el" dentro del campo de datos especificado se omiten mientras la herramienta está determinando coincidencias.
Strip puntuación y quitar unidades de direcciones de Estados Unidos: cualquier signo de puntuación, así como cualquier número de unidad dentro del campo de datos especificado se omiten mientras la herramienta está determinando coincidencias.

Modificaciones manuales al preprocesamiento

El preproceso puede definirse por el usuario editando el FuzzyMatchStyles. Xml. Este archivo se encuentra en el directorio de tiempo de ejecución de Alteryx: \Archivos de Files\Alteryx\bin\RuntimeData\FuzzyMatch. Este archivo sólo debe ser editado por un usuario familiarizado con XML y expresiones regulares.

Generar claves es el método por el cual se identifica una coincidencia potencial.

Generar claves

Alteryx Lee a través del campo especificado y asigna claves a los componentes de ese campo. Una vez que se generan todas las claves, Alteryx compara las claves concatenadas para cada campo de coincidencia. Si las claves generadas son iguales para dos registros, se identificará una coincidencia potencial y el par procederá a la siguiente fase del proceso de coincidencia. Las opciones de función son:

None: las claves para este campo se consideran al decidir qué registros coinciden.
Sólo dígitos: sólo se emparejarán los registros con los mismos dígitos en el campo especificado.

Ejemplo

1-(303) 440-8896 no coincidiría con 303-440-8896.

A pesar de que los caracteres no numéricos son ignorados, estos números de teléfono todavía no coinciden porque hay un interlineado 1 en el primer registro.

Sólo dígitos-reversa: sólo se emparejarán los registros con los mismos dígitos (en el orden de la última a la primera) en el campo especificado.

Ejemplo

1-(303) 440-8896 coincidiría con 303-440-8896.

Los caracteres que no son dígitos son ignorados y los números se emparejan desde el último (6) al primero (3 o 1). Para que este registro coincida, especifique que la longitud de clave máxima = 10 para ignorar el interlineado 1.

Metaphone doble: metaphone doble es el algoritmo preferido. Un algoritmo para codificar palabras inglesas (y palabras extranjeras a menudo oídas en el idioma inglés) fonéticamente al reducirlos a 12 sonidos consonantes. Esto reduce los problemas de coincidencia de ortografía incorrecta. El metaphone doble es el método preferido para emparejar basado en el sonido. Devuelve dos claves si una palabra tiene dos pronunciaciones factibles, como una palabra extranjera. Para obtener más información, consulte doble metaphone.
Doble metaphone w/dígitos: utiliza el mismo algoritmo de doble metaphone, pero también incluye dígitos. Cuando hay dígitos en la cadena, los dígitos en el primer token serán la clave.

Ejemplo

1234 5th St.

El "1234" sería la clave.

Soundex: un algoritmo para codificar los apellidos fonéticamente al reducirlos a la primera letra y hasta tres dígitos, donde cada dígito es uno de los seis sonidos consonantes. Esto reduce los problemas de coincidencia de diferentes ortografías.

El algoritmo fue ideado para codificar los nombres registrados en los registros censales de Estados Unidos. El algoritmo estándar funciona mejor en nombres europeos. Las variantes se han ideado para los nombres de otras culturas. Para obtener más información, consulte Soundex.

Reemplazo de la letra principal

Alteryx sustituye automáticamente las siguientes letras y combinaciones de letras principales antes de generar la clave de coincidencia:

Letra (s) principal (es)	Recambio
Av	Af
Ah	una
Aw	una
Caan	Taan
Dg	G
D	G
HA	una
Kn	K
K	C
Mac	Mc
M	N
Nst	Ns
Pf	F
Ph	F
Q	G
Sch	Sh
Z	S

Soundex w/digits: utiliza el mismo algoritmo de Soundex, pero también incluye dígitos. Cuando hay dígitos en la cadena, los dígitos en el primer token serán la clave.
Campo entero (insensible a mayúsculas y minúsculas): sólo se harán coincidir los registros en los que coincidan todos los campos. Caso se omite.
Sólo alfanumérico (mayúsculas y minúsculas): sólo busca caracteres alfanuméricos para hacer una coincidencia. Caso se omite.
Dirección Number + Soundex: elimina el número de la dirección de una cadena y aplica el algoritmo Soundex al resto del campo. A continuación, el Código Soundex se anexa al número de dirección para crear una clave única.

Generar claves para cada palabra: genera una clave separada para cada palabra.

"John Smith" y "Smith John" serán capaces de alinearse como un posible partido, aunque las palabras están fuera de servicio.

No genere claves para las siguientes palabras: especifique o seleccione palabras para excluir de la asignación de clave. Esto puede reducir el tiempo de procesamiento limitando el número de posibles fósforos.

No genere claves para palabras de una sola letra: Seleccione esta opción para excluir palabras de una sola letra de la asignación de clave. Esto puede reducir el tiempo de procesamiento limitando el número de posibles fósforos.

Ignorar si está vacío: omite un valor vacío del campo de coincidencia especificado. Si el campo está vacío, entonces no se generará ninguna tecla y se expulsará el registro.

Longitud máxima de la llave: especifique la longitud máxima de la llave a considerar para el fósforo.

Función de coincidencia

La función match es un proceso más granular por el cual se identifica una coincidencia y se aplica una puntuación. Esto difiere de las teclas, que deben coincidir exactamente. Las opciones son:

Ninguno-clave sólo coincidencia: sólo se ve en las especificaciones de generación de claves.
Distancia Levenshtein: el menor número de inserciones, supresiones y sustituciones necesarias para cambiar una cadena o un árbol a otro. Cuando se selecciona la distancia Levenshtein, la puntuación del partido será significativamente menor debido a diferencias. Para obtener más información, consulte Levenshtein Distance.
Jaro Distance: una medida de similitud entre dos cuerdas. La medida Jaro es la suma ponderada del porcentaje de caracteres emparejados y las transposiciones necesarias. La distancia de Jaro es más tolerante que la distancia Levenshtein con respecto a la diferencia en cuerdas. Para más información, ver Jaro-Winkler.
Lo mejor de Jaro & Levenshtein: se analizan ambos tipos de partidos y se toma la puntuación.

Tipos de funciones

Basado en palabras (la función de coincidencia comienza con "palabras:") las funciones miran cualquier palabra dentro del campo especificado, sin importar el orden en el que están las palabras.
Las funciones no basadas en palabras coinciden con toda la cadena en su conjunto.
Para las funciones de Word & digit, todos los tokens que tengan dígitos en ellos deben estar en ambos lados para considerar una coincidencia. Éstos se utilizarían típicamente para las direcciones.

Opciones de función basadas en palabras

Cuando utilice coincidencia basada en palabras, también use: puede especificar un método de coincidencia adicional que producirá una puntuación adicional, tomando la mejor, y eliminará la necesidad de ejecutar dos instancias de una herramienta de coincidencia borrosa:

None: utiliza sólo la puntuación basada en la palabra.
Carácter: utiliza la puntuación de coincidencia basada en palabras además de una función de coincidencia de caracteres. Se generan dos puntuaciones y se utiliza la puntuación de mejor partido para identificar el partido.
Carácter (sin espacios): igual que el anterior, pero los espacios se ignoran al generar la coincidencia basada en caracteres.

Estadísticas de frecuencia de palabras (sólo coincidenciade palabras): puede especificar una tabla de frecuencias de Word basada en estadísticas predefinidas. Cuando se especifique, las palabras que aparecen en el la base de datos tiene menos importancia cuando están presentes en los datos entrantes, y la puntuación del partido se ajustará en consecuencia. Las opciones incluyen:

nInguno : Ninguna estadística de la frecuencia de la palabra se utiliza.
Nombre: contiene palabras frecuentes en un campo de nombre. La frecuencia se relaciona inversamente con la importancia de esas palabras en la puntuación del partido.
Dirección de Estados Unidos: contiene palabras frecuentes en un campo de direcciones de Estados Unidos. La frecuencia se relaciona inversamente con la importancia de esas palabras en la puntuación del partido.
Compañía de los e.e.u.u.: contiene palabras frecuentes en un campo del nombre de compañía. La frecuencia se relaciona inversamente con la importancia de esas palabras en la puntuación del partido.

Ejemplo

Coincidir "Albert commette" con "Albert commette MD".

La tabla de estadísticas de frecuencia de palabras para "Name" incluye la palabra "MD". Cuando se especifica la frecuencia de palabra: nombre, la puntuación de coincidencia resultante es aproximadamente 5 puntos más alto que si la frecuencia de palabra: nombre no se especifica.

Ubicación de las estadísticas de frecuencia de Word

Las estadísticas de frecuencias de Word están incluidas en los archivos de base de datos Alteryx * yxdb y se pueden ubicar en el directorio de datos de tiempo de ejecución:

\Archivos de Files\Alteryx\bin\RuntimeData\FuzzyMatch\

También puede crear sus propias estadísticas de frecuencia de palabra editando el flujo de trabajo CollectStats. yxmd situado en el mismo directorio.

Apodo/tabla de abreviaturas (sólo coincidenciade palabras): utilice una tabla de alias común para comprobar identificar los duplicados. Utilice esta opción en campos que contiene sólo el primer nombre o el primero y el último Nombres.
Añadir apodos y abreviaturas adicionales:
- Actualizar el Apodos comunes. base de datos yxdb encontrada en \Archivos de Files\Alteryx\bin\RuntimeData\FuzzyMatch\Nicknames\
- Los archivos. yxdb que se colocan en este directorio estarán disponibles en el cuadro desplegable de los apodos sección de la herramienta de coincidencia difusa.

Penalización: establece el porcentaje de penalización aplicado cuando se realiza una coincidencia con datos de la tabla nickname. El valor por defecto es 15%. Se recomienda una penalidad como coincidencia de sobrenombre es otra fuente potencial de error. El porcentaje de penalización se restará de la puntuación del partido antes de la comparación con el umbral del partido.

Umbral de coincidencia: defina el porcentaje de incertidumbre permisible para devolver una coincidencia para un campo determinado.

Si el umbral para el campo 1 es 60% y el campo sólo coincide con 55% de confianza, el registro se desechará.

Peso del fósforo: aplique importancia al campo, causando que el campo sea considerado más o menos fuertemente durante un fósforo.

Si "nombre de la empresa" es el doble de importante que "nombre de contacto", usted puede establecer la importancia aquí. Así que el peso del fósforo para el nombre de la compañía debe ser el doble del valor del peso del fósforo para el nombre de contacto. Este peso se usará al calcular la puntuación total del partido.

Para obtener información adicional sobre el uso de matches borrosos, consulte el FAQ del fósforo borroso.