Editar opciones de coincidencia en la herramienta Coincidencia difusa
Utiliza el botón Editar en la ventana de configuración de la herramienta Coincidencia difusa para acceder a la ventana Editar opciones de coincidencia .
El estilo de coincidencia es un método predeterminado que sirve para encontrar una coincidencia adecuada entre los registros de un archivo de entrada. Las opciones de estilo de coincidencia se definen en la página herramienta Coincidencia difusa .
Estilo de coincidencia
En esta lista aparecen todos los estilos de coincidencia predefinidos o personalizados definidos por el usuario. Las siguientes especificaciones del cuadro de diálogo se seleccionan según el estilo de coincidencia elegido.
Si editas un estilo de coincidencia predefinido, el nombre cambia a “Personalizado” en la lista desplegable. La configuración especificada en este estilo de coincidencia personalizado se guarda con el flujo de trabajo.
Agrega nuevos estilos de coincidencia personalizados en lugar de eliminar o editar las opciones predeterminadas.
Para eliminar un estilo de coincidencia, selecciónalo en la lista desplegable y elije Eliminar .
Para agregar un estilo de coincidencia, introduce un nombre nuevo y selecciona Aceptar .
Preprocesamiento
El preprocesamiento es un procedimiento que se ejecuta antes de generar claves y la función de coincidencia difusa. El preprocesamiento debe resultar en mejores coincidencias. Las opciones de esta lista incluyen lo siguiente:
Ninguno : no se ejecuta ningún preproceso.
Eliminar puntuación : los caracteres de puntuación dentro del campo de datos especificado se omiten mientras la herramienta determina las coincidencias.
Eliminar puntuación y saludos : los caracteres de puntuación y los títulos como Sr., Sra. y Srta. dentro del campo de datos especificado se omiten mientras la herramienta determina una coincidencia.
Eliminar puntuación y AND, OF y THE : cualquier carácter de puntuación, así como cualquier caso de las palabras and, of y the dentro del campo de datos especificado, se omiten mientras la herramienta determina las coincidencias.
Eliminar puntuación y unidades de direcciones en EE. UU. : los caracteres de puntuación, así como los números de unidad del campo de datos especificado, se omiten mientras la herramienta determina las coincidencias.
Tokenizar texto en japonés : esta opción realiza la normalización Unicode y convierte todos los caracteres en katakana.
Tokenizar texto en japonés y eliminar los sufijos de los nombres de empresas en japonés : esta opción también quita los sufijos de los nombres de empresas en japonés comunes. Ejemplo: ㈱.
Tokenizar texto en japonés y normalizar las direcciones en japonés : esta opción también estandariza las direcciones en japonés. Ejemplo: de 今津3丁目14番地19 a 今津3-14-19.
Ediciones manuales al preprocesamiento
El preprocesamiento lo puede definir el usuario editando el archivo FuzzyMatchStyles.xml. Este archivo se encuentra en el directorio RunTime de Alteryx:
\Archivos de programa\Alteryx\bin\RuntimeData\FuzzyMatch
. Solo debes editar este archivo si estás familiarizado con XML y expresiones regulares.
Generar claves
Generar claves es el método mediante el cual se identifica una coincidencia potencial.
Alteryx lee el campo especificado y asigna claves a los componentes de ese campo. Una vez que se generan todas las claves, Alteryx compara las claves concatenadas para cada campo de coincidencia. Si las claves generadas son iguales para dos registros, se identifica una coincidencia potencial y el par pasa a la siguiente fase del proceso de coincidencia. Las opciones de función son las que se muestran a continuación:
Ninguno : las claves de este campo se tienen en cuenta al momento de decidir qué registros coinciden.
Solo dígitos : solo coinciden los registros con los mismos dígitos en el campo especificado. Por ejemplo, 1-(800)555-1234 coincide con 800-555-1234. Los caracteres que no son dígitos se omiten y los números coinciden desde el último (4) hasta el primero (8 o 1). Para que este registro coincida, especifica que la longitud máxima de la clave = 10 para omitir el 1 inicial.
Double Metaphone : el algoritmo preferido es Double Metaphone. Este es un algoritmo para codificar fonéticamente palabras en inglés (y palabras extranjeras que a menudo se escuchan en inglés) reduciéndolas a 12 sonidos consonantes. Esto reduce los problemas de coincidencia que causan los errores ortográficos. Double Metaphone es el método preferido para la coincidencia basada en el sonido. Devuelve dos claves si una palabra tiene dos pronunciaciones viables, como una palabra extranjera. Para obtener más información, ve a Double Metaphone . El método Double Metaphone permite especificar una longitud máxima de la clave . El límite máximo de longitud de la clave de Double Metaphone es 100.
Longitud máxima de la clave
Ten en cuenta que la configuración de una longitud máxima de clave alta puede afectar al rendimiento.
Double Metaphone con dígitos : utiliza el mismo algoritmo Double Metaphone, pero también incluye dígitos. Cuando hay dígitos en la cadena, los del primer token son la clave. Por ejemplo, en la cadena "1234 5th St", “1234” es la clave.
Soundex : un algoritmo para codificar fonéticamente los apellidos reduciéndolos a la primera letra y hasta tres dígitos, en el que cada dígito es uno de los seis sonidos consonantes. Esto reduce los problemas de coincidencia de escrituras diferentes. El algoritmo se ideó para codificar los nombres registrados en los registros del censo de Estados Unidos. El algoritmo estándar funciona mejor con nombres europeos. Se han ideado variantes para nombres de otras culturas. Para obtener más información, ve a Soundex .
Reemplazos de letras iniciales : Alteryx reemplaza automáticamente estas letras iniciales y combinaciones de letras antes de generar la clave de coincidencia.
Letras iniciales
Reemplazo
AV
AF
AH
A
AW
A
CAAN
TAAN
DG
G
D
G
HA
A
KN
K
K
C
MAC
MC
M
N
NST
NS
PF
F
PH
F
Q
G
SCH
SH
Z
S
Soundex con dígitos : utiliza el mismo algoritmo Soundex, pero también incluye dígitos. Cuando hay dígitos en la cadena, los del primer token son la clave.
Todo el campo (sin distinguir entre mayúsculas y minúsculas) : solo los registros en los que coincide todo el campo. Se omite la distinción de mayúscula y minúscula.
Solo alfanumérico (sin distinguir entre mayúsculas y minúsculas) : solo revisa caracteres alfanuméricos para hacer una coincidencia. Se omite la distinción de mayúscula y minúscula.
Número de dirección + Soundex : elimina el número de la dirección de una cadena y aplica el algoritmo Soundex al resto del campo. A continuación, el código Soundex se añade al número de la dirección para crear una clave única.
Con el fin de preparar texto en japonés para los algoritmos Soundex y Double Metaphone, que funcionan solo con caracteres latinos, estos métodos primero transliteran los caracteres japoneses a romaji:
Romaji
Romaji Soundex
Romaji Soundex con número de dirección
Romaji Soundex con dígitos
Romaji Double Metaphone
Romaji Double Metaphone con dígitos
Generar claves para cada palabra
Genera una clave para cada palabra. “john smith” y “smith john” se pueden alinear como una coincidencia potencial aunque las palabras estén desordenadas.
No generar claves para las siguientes palabras : especifica o selecciona las palabras que deseas excluir de la asignación de claves. Esto puede reducir el tiempo de procesamiento al limitar el número de coincidencias potenciales.
No generar claves para palabras de una sola letra : selecciona esta opción para excluir palabras de una sola letra de la asignación de claves. Esto puede reducir el tiempo de procesamiento al limitar el número de coincidencias potenciales.
Ignorar si está vacío : ignora un valor vacío del campo de coincidencia especificado. Si el campo está vacío, no se genera ninguna clave y se descarta el registro.
Longitud máxima de la clave : especifica la longitud máxima de la clave que se debe tener en cuenta para la coincidencia.
Función de coincidencia
La función de coincidencia es un proceso más detallado a través del cual se identifica una coincidencia y se aplica una puntuación. Esto difiere de las claves, ya que estas deben coincidir de manera exacta. Las opciones son las siguientes:
Ninguna: solo coincidencias de claves : solo revisa las especificaciones de generación de claves.
Distancia de Levenshtein : el menor número de inserciones, eliminaciones y sustituciones necesarias para cambiar una cadena o árbol por otro. Cuando se selecciona la distancia de Levenshtein, la puntuación de la coincidencia es significativamente menor debido a las diferencias. Para obtener más información, ve a distancia de Levenshtein . Las opciones de distancia de Levenshtein incluyen lo siguiente:
Carácter: distancia de Levenshtein
Carácter (sin espacios): distancia de Levenshtein
Palabras: distancia de Levenshtein
Palabras y dígitos: Distancia de Levenshtein
Distancia de Jaro : una medida de similitud entre dos cadenas. La medida de Jaro es la suma ponderada del porcentaje de los caracteres coincidentes y las transposiciones necesarias. La distancia de Jaro es más flexible que la distancia de Levenshtein con respecto a las diferencias en las cadenas. Para obtener más información, ve a Jaro-Winkler . Las opciones de Jaro-Winkler incluyen lo siguiente:
Carácter: distancia de Jaro
Carácter (sin espacios): distancia de Jaro
Palabras: distancia de Jaro
Palabras y dígitos: Distancia de Jaro
La mejor entre las distancias de Jaro y de Levenshtein : se analizan ambos tipos de coincidencias y se toma la puntuación. La mejor entre las distancias de Jaro y de Levenshtein incluye las siguientes opciones:
Carácter: La mejor entre las distancias de Jaro y de Levenshtein
Carácter (sin espacios): La mejor entre las distancias de Jaro y de Levenshtein
Palabras: La mejor entre las distancias de Jaro y de Levenshtein
Palabras y dígitos: La mejor entre las distancias de Jaro y de Levenshtein
Tipos de funciones
Basada en palabras (la función de coincidencia comienza con palabras ): revisa cualquier palabra dentro del campo especificado, independientemente del orden en el que se encuentren las palabras.
Las funciones que no están basadas en palabras coinciden por completo con toda la cadena.
Para las funciones de palabras y dígitos , todos los tokens que tienen dígitos deben estar en ambos lados para tener en cuenta una coincidencia. Normalmente, se utilizan para las direcciones.
Opciones de función basadas en palabras
Cuando se utilice una coincidencia basada en palabras, también usa : puedes especificar un método de coincidencia adicional que produzca una puntuación adicional (tomando la mejor) y eliminar la necesidad de ejecutar dos herramientas Coincidencia difusa.
Ninguno : utiliza solo la puntuación basada en palabras.
Carácter : utiliza la puntuación de coincidencia basada en palabras además de una función de coincidencia de caracteres. Se generan dos puntuaciones y se utiliza la mejor puntuación de coincidencia para identificar la coincidencia.
Carácter (sin espacios) : igual que el anterior, pero los espacios se omiten al momento de generar la coincidencia basada en caracteres.
Estadísticas sobre la frecuencia de palabras (solo coincidencias de palabras) : puedes especificar una tabla de frecuencias de palabras basada en estadísticas predefinidas. Cuando se especifica, las palabras que aparecen en la base de datos tienen menos importancia cuando están presentes en los datos entrantes y la puntuación de coincidencia se ajusta como corresponde. Las opciones incluyen…
[Ninguno] : no se utilizan estadísticas de frecuencia de palabras.
Name : contiene palabras frecuentes en un campo de nombre. La frecuencia se relaciona inversamente con la importancia que tienen esas palabras en la puntuación del coincidencia.
US Address : contiene palabras frecuentes en un campo de direcciones de Estados Unidos. La frecuencia se relaciona inversamente con la importancia que tienen esas palabras en la puntuación del coincidencia.
US Company : contiene palabras frecuentes en un campo de nombre de empresa. La frecuencia se relaciona inversamente con la importancia que tienen esas palabras en la puntuación del coincidencia.
Ejemplo
Haz coincidir “Alberto Commette” con “Alberto Commette MD”.
La tabla de estadísticas de frecuencia de palabras para “Name” incluye la palabra “MD”. Cuando se especifica frecuencia de palabra: "Name" , la puntuación de coincidencia resultante es aproximadamente cinco puntos mayor que si no se especifica frecuencia de palabra: "Name".
Ubicación de estadísticas de frecuencia de palabras
Las estadísticas de frecuencia de palabras están en los archivos de base de datos de Alteryx *yxdb y se pueden encontrar en el directorio RunTimeData:
\Archivos de programa\Alteryx\bin\RuntimeData\FuzzyMatch\
También puedes crear tus propias estadísticas de frecuencia de palabras por medio de la edición del flujo de trabajo
CollectStats.yxmd
que está ubicado en el mismo directorio.Tabla de apodos/abreviaturas (solo coincidencia de palabras) : utiliza una tabla de apodos común para comprobar e identificar los duplicados. Utiliza esta opción en los campos que contengan solo el nombre o el nombre y los apellidos. Agrega apodos y abreviaturas adicionales:
Actualiza la base de datos de apodos comunes que se encuentra en:
\Archivos de programa\Alteryx\bin\RuntimeData\FuzzyMatch\Nicknames\
Los archivos .yxdb colocados en este directorio estarán disponibles en el cuadro desplegable de la sección de apodos de la herramienta Coincidencia difusa.
Penalización : establece el porcentaje de penalización aplicado cuando se realiza una coincidencia con datos de la tabla de apodos. El valor predeterminado es un 15 %. Se recomienda una penalización, ya que una coincidencia de apodo es otra fuente posible de error. El porcentaje de penalización se restará de la puntuación de coincidencia antes de compararlo con el umbral de coincidencia.
Umbral de coincidencia : establece el porcentaje de incertidumbre permitido a fin de devolver una coincidencia para un campo determinado. Si el umbral para el campo 1 es 60 % y el campo solo coincide con un 55 % de confianza, se omite el registro.
Ponderación de coincidencia : aplica importancia al campo, lo que hace que el campo se considere con más o menos importancia durante una coincidencia.
Si el “nombre de la empresa” es dos veces más importante que el “nombre del contacto”, puedes establecer la importancia aquí. Por lo tanto, la ponderación de coincidencia para el nombre de la empresa debe ser el doble del valor de la ponderación de coincidencia para el nombre del contacto. Esta ponderación se utiliza al momento de calcular la puntuación de coincidencia general.
Para obtener más información sobre el uso de la herramienta Coincidencia difusa, consulta las Preguntas frecuentes sobre la coincidencia difusa .