Skip to main content

Purple box with two similar shapes and equals signs between. Herramienta Coincidencia difusa

Ejemplo de cada herramienta

La herramienta Coincidencia difusa tiene un ejemplo de uso. Visita Flujos de trabajo de muestra para aprender cómo acceder a este y muchos otros ejemplos directamente en Alteryx Designer.

Utiliza la herramienta Coincidencia difusa para identificar duplicados no idénticos de un conjunto de datos especificando los campos de coincidencia y umbrales de similitud. Las puntuaciones de coincidencia solo deben estar dentro de los umbrales especificados por el usuario o los predeterminados establecidos en las propiedades de configuración.

La forma más eficaz de crear una coincidencia difusa es realizar el proceso de coincidencia en varios campos dentro del archivo de entrada. Cada campo se debe configurar individualmente mediante un estilo de coincidencia predefinido o personalizado en la ventana Editar opciones de coincidencias .

La herramienta Coincidencia difusa solo funciona con conjuntos de caracteres latinos y japoneses, y algunas de las capacidades de coincidencia solo son compatibles con el inglés o el japonés. La coincidencia difusa toma en cuenta varias diferencias en la ortografía japonesa, como los caracteres de ancho medio y ancho completo, hiragana y katakana, los modificadores kana y las formas antiguas de los kanji.

Configurar la herramienta

Se necesita un identificador único para cada registro de datos para que funcione la herramienta Coincidencia difusa. Si no existe dicho campo clave, agrega una herramienta Id. del registro en un paso anterior.

  1. Elige el modo de coincidencia preferido:

    • Modo de purga (comparación de todos los registros) : todos los registros de una sola fuente se comparan para identificar duplicados.

    • Modo de fusión (solo se comparan registros de fuentes diferentes) : se comparan los registros de diferentes fuentes con la intención de identificar duplicados en archivos de entrada distintos. Cuando se utiliza el modo de fusión, cada origen debe contener un campo con identificador de fuente . Un campo con identificador de fuente se puede agregar fácilmente seleccionando la opción Generar campo con el nombre de archivo en cada herramienta Entrada de datos. Esta configuración agregará a cada registro un campo con el nombre de archivo o la ruta de acceso del archivo completa.

  2. Especifica el Campo con identificador de registro único.

  3. Especifica el Umbral de coincidencia como porcentaje. El valor predeterminado es un 80 %. Si la puntuación de coincidencia generada a partir de la herramienta Coincidencia difusa es inferior al umbral especificado, el registro no se calificará como una coincidencia. La puntuación de coincidencia tiene en cuenta cada especificación dentro de las propiedades de configuración de la herramienta Coincidencia difusa: cada campo, el estilo de coincidencia, la ponderación de coincidencia y la puntuación de coincidencia de campo resultante se consideran al momento de calcular la puntuación. Luego, esta se compara con el umbral de coincidencia especificado.

  4. Configura los Campos de coincidencia . Utiliza los botones Arriba y Abajo para organizarlos en orden de coincidencia. Utiliza el botón Eliminar para eliminar coincidencias que no sean necesarias.

    1. Selecciona el Nombre del campo para la coincidencia. Cualquier campo que ya esté en la conexión de entrada estará disponible en esta lista desplegable.

    2. Selecciona el Estilo de coincidencia en la lista desplegable. Las opciones incluyen:

      • Dirección : un estilo de coincidencia predefinido y configurado para buscar coincidencias en direcciones. Este estilo incorpora algoritmos Double Metaphone combinados con una coincidencia de dígitos para identificar direcciones coincidentes. Aplica este estilo a las direcciones comerciales.

      • Dirección sin número de suite : un estilo de coincidencia predefinido y configurado para buscar coincidencias en direcciones donde los datos de entrada no tienen información de la suite en el campo  de dirección. Este estilo incorpora algoritmos Double Metaphone combinados con una coincidencia de dígitos para identificar direcciones coincidentes. Aplica este estilo a las direcciones residenciales.

      • Parte de la dirección : un estilo de coincidencia predefinido y configurado para buscar coincidencias en direcciones. Este estilo incorpora algoritmos Double Metaphone combinados con una coincidencia de dígitos para identificar direcciones coincidentes. El estilo "Parte de la dirección" difiere de un estilo de coincidencia de direcciones tradicional en que no se utiliza análisis de frecuencia de palabras y el umbral de coincidencia es un 5 % más bajo.

      • Nombre de la empresa : un estilo de coincidencia predefinido y configurado para buscar coincidencias en nombres de empresas. Este estilo identifica coincidencias basadas en algoritmos Double Metaphone.

      • Teléfono : un estilo de coincidencia predefinido y configurado para buscar coincidencias en números de teléfono. Este estilo revisa los dígitos en un solo campo de teléfono y hace coincidir los diez dígitos inversos, e ignora los guiones, los paréntesis y los 1 iniciales que pueden ser parte del campo. Este estilo también es compatible con el formato de números telefónicos japoneses.

      • Código postal : un estilo de coincidencia predefinido y configurado para buscar coincidencias en códigos postales. Este estilo revisa los 5 dígitos de un campo de código postal y asigna una coincidencia correspondiente.

      • Exacto : este campo debe coincidir de manera exacta para que se considere una coincidencia. Esta lógica no es difusa en absoluto.

      • Dirección en japonés : un estilo de coincidencia predefinido configurado para buscar coincidencias de direcciones en japonés, incluidos los distintos formatos de número de calle. Ejemplo de coincidencia: 今津3-14-19 y 今津3丁目14番地19 .

      • Nombre de empresa en japonés : un estilo de coincidencia predefinido y configurado para buscar coincidencias en nombres de empresas japonesas. Ejemplo de coincidencia: 株式会社伊藤工務店 , (株)伊東工務店 y ㈱伊藤工務店 .

      • Nombre en japonés : un estilo de coincidencia predefinido y configurado para buscar coincidencias en nombres japoneses. Ejemplo de coincidencia: 高橋 啓介 y 髙橋啓介 .

      • Texto en japonés : un estilo de coincidencia predefinido para texto en japonés distinto de las opciones Dirección, Nombre de empresa y Nombre. Ejemplo de coincidencia: 6ヵ月 y 6ヶ月 .

      • Nombre : un estilo de coincidencia predefinido y configurado para buscar coincidencias en nombres. Este estilo incorpora algoritmos Double Metaphone.

      • Nombre con apodos : un estilo de coincidencia predefinido y configurado para buscar coincidencias en nombres. Este estilo incorpora algoritmos Double Metaphone. Además, este estilo utiliza una tabla de apodos para realizar comprobaciones con el fin de identificar más a fondo los duplicados. Por ejemplo, el nombre Andrew puede coincidir con Andy o Drew.

      • Personalizado : permite que el usuario defina sus propios parámetros de coincidencia, de modo que la coincidencia se pueda ejecutar repetidamente sin tener que volver a configurar las propiedades de coincidencia. Por supuesto, estos estilos de coincidencia personalizados también se pueden volver a configurar y sobrescribir, o se pueden crear nuevos estilos personalizados.

    3. Utiliza el botón Editar… para editar el Estilo de coincidencia según sea necesario. Se muestra el cuadro de diálogo Editar opciones de coincidencias .

  5. Especifica las Opciones avanzadas :

    • Generar salida de la puntuación de coincidencia : la puntuación de coincidencia se genera en un campo de salida adicional.

    • Generar salida de las claves generadas : la clave de los estilos de coincidencia se genera en un campo adicional.

    • Generar salida de los registros sin coincidencia : los registros que no coincidan con ningún otro registro se generarán como registros adicionales. De vez en cuando, esta opción informa una puntuación de coincidencia, la cual debe ignorarse. Esto puede que se aborde en una futura versión. La opción Ignorar si está vacío de la opción Editar opción de coincidencia tiene prioridad sobre esta opción.

    • No comparar registros que ya están en un grupo : los registros que tienen coincidencias no se compararán con otros registros, lo que reduce el esfuerzo y el tiempo de procesamiento. Por ejemplo, si el registro 1 coincide con el registro 2 y el registro 3, el registro 2 no coincide con el registro 3. Utiliza una herramienta Crear grupo en sentido descendente para enlazar estos grupos.

    • Generar claves solamente : se devuelven todos los registros con las claves generadas como un campo adicional. No se genera una coincidencia.

Para obtener más información sobre el uso de la herramienta Coincidencia difusa, consulta las Preguntas frecuentes sobre Coincidencia difusa .