Ferramenta Correspondência Parcial

A ferramenta de correspondência difusa pode ser usada para identificar duplicatas não idênticas de um DataSet especificando campos de correspondência e limites de similaridade. As pontuações de correspondência só precisam cair dentro dos limites especificados pelo usuário ou padrão estabelecidos nas propriedades de configuração.

A maneira mais eficaz de criar uma correspondência difusa é executar o processo de correspondência em vários campos dentro do arquivo de entrada. Cada campo deve ser configurado individualmente usando um estilo de correspondência predefinido ou personalizado, configurado através do Opções de correspondência de edição de correspondência difusa .

A correspondência difusa só funciona com conjuntos de caracteres latinos e alguns dos recursos de correspondência são compatíveis somente com o idioma inglês.

Configure a ferramenta

Um identificador exclusivo para cada registro de dados é necessário para que a ferramenta de correspondência difusa funcione. Inspecione seus dados; Se não houver esse campo de chave, adicione um Ferramenta ID de registro um passo acima.

  1. Escolha o modo de correspondência preferencial:

    • Modo de purga (todos os registros em comparação): todos os registros de uma única fonte são comparados a identificar duplicatas.
    • Modo de mesclagem (somente registros de uma fonte diferente são comparados): registros de diferentes origens são comparados, com a intenção de identificar duplicatas em diferentes arquivos de entrada.

      Ao usar o modo de mesclagem, cada fonte deve conter um campo de ID de fonte. Um campo de ID de origem pode ser facilmente acrescentado escolhendo o nome do arquivo de saída como opção de campo em cada ferramenta de dados de entrada. Essa configuração será anexada a cada registro um campo com o nome do arquivo ou o caminho do arquivo inteiro.

  2. Especifique o campo ID de registro exclusivo.
  3. Especifique o limite de correspondência como uma porcentagem. O valor padrão é 80%. Se a pontuação de correspondência gerada a partir da ferramenta de correspondência difusa for menor do que o limite especificado, o registro não será qualificado como uma correspondência.

    A pontuação da correspondência leva em consideração cada especificação dentro das propriedades de configuração da ferramenta de correspondência difusa: cada campo, o estilo de correspondência, o peso da correspondência, e a pontuação de correspondência de campo resultante é considerada no cálculo da pontuação, que é então contra o limite de Coincidir especificado.

  4. Configure seus campos de correspondência. Use para cima e para baixo para organizá-los em ordem de correspondência. Use delete para remover correspondências desnecessárias.
    1. Selecione o nome do campo para coincidir. Qualquer campo já na conexão de entrada estará disponível nesta lista suspensa.
    2. Selecione o estilo de coincidir na lista suspensa. As opções incluem:

      • Endereço: um estilo de correspondência predefinido configurado para localizar correspondências de endereço. Este estilo incorpora algoritmos de metaphone duplos combinados com uma correspondência de dígitos para identificar endereços correspondentes.

        Aplique este estilo a endereços comerciais

      • Endereço sem suíte: um estilo de correspondência predefinidos configurado para localizar correspondências de endereço onde os dados de entrada não tem nenhuma informação de suíte no campo de endereço. Este estilo incorpora algoritmos de metaphone duplos combinados com uma correspondência de dígitos para identificar endereços correspondentes.

        Aplique este estilo a endereços residenciais

      • AddressPart: um estilo de correspondência predefinidos configurado para localizar correspondências de endereço. Este estilo incorpora algoritmos de metaphone duplos combinados com uma correspondência de dígitos para identificar endereços correspondentes. AddressPart difere de um estilo de correspondência de endereço tradicional em que ele não usa a análise de freqüência do Word e o limite de correspondência é 5% menor.
      • Nomeda empresa: um estilo de correspondência pré-definido configurado para localizar correspondências de nome da empresa. Esse estilo identifica correspondências com base em algoritmos de metaphone duplo.
      • Telefone: um estilo de correspondência pré-definido configurado para localizar correspondências telefônicas. Este estilo Olha para os dígitos apenas em um campo de telefone e coincide com os 10 dígitos inversos, ignorando traços, parênteses e 1s que podem estar contidos dentro do campo.
      • CEP: um estilo de correspondência predefinidos configurado para localizar correspondências de código postal. Este estilo Olha para os 5 dígitos de um campo zip e atribui uma correspondência em conformidade.
      • Exato: Este campo deve corresponder exatamente a ser considerado uma correspondência. Esta lógica não é Fuzzy em tudo.
      • Nome: um estilo de correspondência predefinidos configurado para localizar correspondências de nomes. Este estilo incorpora algoritmos de metaphone duplos.
      • Nome com apelidos: um estilo de correspondência predefinidos configurado para localizar correspondências de nomes. Este estilo incorpora algoritmos de metaphone duplos. Além disso, este estilo utiliza uma tabela de apelidos para verificar contra para identificar mais duplicatas.

        O nome Andrew pode corresponder Andy e/ou Drew.
      • Custom: permite que o usuário defina seus próprios parâmetros de correspondência, para que a correspondência possa ser executada repetidamente sem ter que reconfigurar as propriedades Match. É claro que esses estilos de correspondência personalizados também podem ser reconfigurados e sobrescritos ou novos estilos personalizados podem ser criados.
    3. Edite o estilo de correspondência conforme necessário clicando no botão Editar. A janela Opções de correspondência de edição de correspondência difusa exibe o diálogo.
  5. Especifique Opções avançadas:

    • Resultado da partida: a Pontuação do jogo estará presente em um campo de saída adicional.
    • Chaves geradasde saída: produz a chave dos estilos de correspondência resultante como um campo adicional.
    • Registros de saída incomparável: registros que não correspondem a quaisquer outros registros serão saída como registros adicionais. Ocasionalmente, os registros de saída incomparável irão relatar uma pontuação de correspondência, que deve ser ignorado. Isto pode ser endereçado em uma liberação futura.
    • A opção ignorar se Empty da opção Editar correspondência é priorizada sobre essa opção.

    • Não compare registros já em um grupo: os registros que foram combinados não serão comparados a outros registros, reduzindo o esforço de processamento e o tempo.

      Se o registro 1 coincidir com o registro 2 e o registro 3, o registro 2 não será correspondido ao registro 3. Use uma ferramenta fazer grupo downstream para vincular esses grupos juntos.
    • Gerar chaves somente: todos os registros são retornados com as chaves geradas como um campo adicional. Nenhuma correspondência ocorre.

Para obter informações adicionais sobre o uso Fuzzy Match, consulte o FAQ Match Fuzzy.