Editar opções de correspondência

Last modified: February 02, 2022

A documentação de ajuda está disponível antes do lançamento do Designer Cloud para que você possa dar uma olhadinha. O conteúdo pode mudar até o lançamento oficial.

Quando você seleciona Correspondência parcial avançada em Critérios de correspondência, na ferramenta Correspondência Parcial, você obtém acesso para personalizar as configurações de Estilo de correspondência. Para fazer isso...

  1. Localize a tabela Critérios de correspondência.
  2. Selecione Editar na coluna Opções para acessar as configurações de opções de correspondência.

Revise as opções de correspondência abaixo.

Estilo de correspondência

Estilo de correspondência é um método predeterminado para encontrar uma correspondência apropriada entre as linhas de um arquivo de entrada. As opções de estilo de correspondência individual são definidas na página ferramenta Correspondência Parcial.

Todos os estilos de correspondência predefinidos e personalizados aparecem na lista Estilo de correspondência. A configuração de Pré-processamento subsequente é baseada no Estilo de correspondência escolhido. Se você editar um estilo de correspondência predefinido, o valor do estilo será alterado para "Personalizado" no menu suspenso. Observe que os estilos de correspondência personalizados não são salvos e só podem ser usados dentro do fluxo de trabalho em que foram criados. As alterações no estilo de correspondência personalizado serão aplicadas automaticamente à ferramenta.

Pré-processamento

O pré-processamento descreve um procedimento que é executado antes da função Gerar chaves e Correspondência parcial. O pré-processamento deve resultar em correspondências melhores. As opções de pré-processamento incluem...

  • Nenhum: nenhum pré-processamento em execução.
  • Remover pontuação: todos os caracteres de pontuação dentro da coluna especificada são ignorados enquanto a ferramenta determina as correspondências.
  • Remover pontuação & Saudações: toda a pontuação e todos os títulos como Ms, Mre Mrs dentro da coluna especificada são ignorados enquanto a ferramenta determina as correspondências.
  • Remover pontuação & AND, OF & THE: todos os caracteres de pontuação e instâncias das palavras and, ofe the dentro da coluna especificada são ignorados enquanto a ferramenta determina as correspondências.
  • Remover pontuação & Remover unidades de endereços dos EUA: todos os caracteres de pontuação, bem como todos os números de unidade dentro da coluna especificada são ignorados enquanto a ferramenta determina as correspondências.

Gerar chaves

Gerar chaves é o método pelo qual uma correspondência potencial é identificada.

O designer lê a coluna especificada e atribui chaves (com base no que você selecionou no menu suspenso Selecionar chave) aos componentes dessa coluna. Depois que todas as chaves são geradas, o Designer compara as chaves concatenadas de cada coluna correspondente. Se as chaves geradas forem iguais em duas linhas, uma correspondência potencial é identificada e o par prossegue para a próxima fase do processo de correspondência.

Selecionar uma chave as opções são...

  • Nenhum: as chaves dessa coluna são consideradas ao decidir quais linhas correspondem.
  • Somente dígitos: somente as linhas com os mesmos dígitos da esquerda para a direita na coluna especificada são correspondidos.
  • Somente dígitos: somente as linhas com os mesmos dígitos da direita para a esquerda na coluna especificada são correspondidos.

    Exemplo

    1-(800)555-1234 corresponde a 800-555-1234.

    Os caracteres sem dígito são ignorados e os números são correspondidos do último (4) ao primeiro (8 ou 1). Para que essa linha corresponda, especifique o comprimento máximo da chave como 10 para ignorar o primeiro 1.

  • Metaphone duplo: Metaphone duplo é o algoritmo preferido. Ele codifica foneticamente as palavras em inglês (e palavras estrangeiras ouvidas com frequência na língua inglesa), reduzindo-as para 12 sons consonantais. Isso reduz os problemas de correspondência de erros de ortografia. O Metaphone duplo é o método preferido para correspondência baseada em som. Ele retorna duas chaves se uma palavra tiver duas possíveis pronúncias, como uma palavra estrangeira anglicizada. Para obter mais informações, acesse Metaphone duplo.
  • Metaphone duplo c/ dígitos: usa o algoritmo Metaphone duplo, mas também inclui dígitos. Quando há dígitos na cadeia de caracteres, os dígitos do primeiro token são a chave.

    Exemplo

    1234 5th St.

    1234 é a chave.

  • Soundex: um algoritmo para codificar sobrenomes foneticamente reduzindo-os para a primeira letra e até 3 dígitos, em que cada dígito é 1 de 6 sons consonantais. Isso reduz os problemas de correspondência dos diferentes erros ortográficos. Esse algoritmo foi elaborado para codificar nomes registrados no censo dos EUA. O algoritmo padrão funciona melhor com nomes europeus. As variantes foram concebidas para nomes de outras culturas. Para obter mais informações, acesse Soundex.

    Substituição da primeira letra: substitua as primeiras letras e combinações de letras antes de gerar a chave de correspondência:
    Primeiras letras Substituição
    AV AF
    AH A
    AW A
    CAAN TAAN
    DG G
    D G
    HA A
    KN K
    K C
    MAC MC
    M N
    NST NS
    PF F
    PH F
    Q G
    SCH SH
    Z S
  • Soundex c/ dígitos: usa o algoritmo Soundex, mas também inclui dígitos. Quando há dígitos na cadeia de caracteres, os dígitos do primeiro token são a chave.
  • Campo inteiro (não diferencia maiúsculas de minúsculas): somente as linhas em que a coluna inteira corresponde são correspondidas. A diferenciação é ignorada.
  • Somente alfanumérico (não diferencia maiúsculas de minúsculas): busca somente caracteres alfanuméricos para fazer a correspondência. A diferenciação é ignorada.
  • Número do endereço + Soundex: remove o número do endereço de uma cadeia de caracteres e aplica o algoritmo Soundex ao restante da coluna. O código Soundex é então acrescentado ao número do endereço para criar uma chave exclusiva.

Gerar chaves para cada palavra

Marque Gerar chave para cada palavra para gerar uma chave separada para cada palavra. Observe que "john smith" e "smith john" são capazes se alinharem como uma possível correspondência, mesmo que as palavras estejam fora de ordem.

Quando marcada, estas opções são exibidas...

  • Não gerar chaves para estas palavras: especifique ou selecione palavras a serem excluídas da atribuição de chaves. Isso pode reduzir o tempo de processamento ao limitar o número de correspondências potenciais.
  • Não gerar chaves para palavras com apenas uma letra: marque a caixa para excluir palavras com apenas uma letra da atribuição de chave. Isso pode reduzir o tempo de processamento ao limitar o número de correspondências potenciais.

Ignorar se estiver vazio

Ignorar um valor vazio da coluna de correspondência especificada. Se a coluna de correspondência estiver vazia, a chave é gerada e a linha é ignorada.

Comprimento máximo da chave

Especifique o comprimento máximo da chave a ser considerada para a correspondência.

Função de correspondência

A função de correspondência é um processo granular pelo qual uma correspondência é identificada e uma pontuação é aplicada. A função difere das chaves, que deve corresponder exatamente. Use a Função para definir a função de correspondência.

Cada Função tem um tipo associado a ela:

  • As funções baseadas em palavra (a Função de correspondência começa com "palavras") buscam quaisquer palavras dentro da coluna especificada, independentemente da ordem das palavras.
  • As funções não baseadas em palavra correspondem à cadeia de caracteres inteira como um todo.
  • Para as funções Palavras & e dígitos, todos os tokens que têm dígitos devem estar em ambos os lados para serem considerados uma correspondência. Normalmente, eles são usados para endereços.

Suas opções de Função são...

  • Nenhum (somente correspondência de chave): busca somente as especificações para geração de chave.
  • Distância de Levenshtein: o menor número de inserções, exclusões e substituições necessárias para transformar uma cadeia de caracteres ou árvore em outra. Ao selecionar a Distância de Levenshtein, a pontuação de correspondência é significativamente menor devido às diferenças. Para obter mais informações, acesse Distância de Levenshtein. As opções de distância de Levenshtein incluem...
    • Caractere: distância de Levenshtein
    • Caractere (sem espaços): distância de Levenshtein
    • Palavras: Distância Levenshtein
    • Palavras e dígitos: distância de Levenshtein
  • Distância de Jaro: uma medida de semelhança entre duas cadeias de caracteres. A medida Jaro é a soma ponderada da porcentagem dos caracteres associados e das transposições necessárias. A distância de Jaro é mais tolerante do que a distância de Levenshtein em relação às diferenças nas cadeias de caracteres. Para obter mais informações, acesse Jaro-Winkler. As opções de distância de Jaro incluem...
    • Caractere: distância de Jaro
    • Caractere (sem espaços): distância de Jaro
    • Palavras: distância de Jaro
    • Palavras e dígitos: distância de Jaro
  • O melhor entre as distâncias de Jaro & Levenshtein: os dois tipos de correspondência são analisados para obter a pontuação. As opções do melhor entre as distâncias de Jaro e Levenshtein incluem...
    • Caractere: o melhor entre as distâncias de Jaro & Levenshtein
    • Caractere (sem espaços): o melhor entre as distâncias de Jaro & Levenshtein
    • Palavras: o melhor entre as distâncias de Jaro & Levenshtein
    • Palavras e dígitos: o melhor entre as distâncias de Jaro & Levenshtein

Opções de função baseada em palavra

Quando você seleciona uma função baseada em palavra (a função começa com "Palavras:"), mais opções de configuração são exibidas:

  • Ao adotar a correspondência de palavras, usar também: você pode especificar um método de correspondência adicional que produza uma pontuação adicional, obtendo a melhor pontuação e eliminando a necessidade de executar duas instâncias da ferramenta Correspondência Parcial.
    • Caractere: usa a pontuação de correspondência de palavra, além de uma função de correspondência de caractere. Duas pontuações são geradas e a melhor pontuação de correspondência é usada para identificar a correspondência.
    • Caractere (sem espaços): o mesmo acima, mas os espaços são ignorados ao gerar a correspondência baseada em caracteres.
  • Estatísticas de frequência de palavras (somente correspondência de palavras): você pode especificar uma tabela de frequência de palavras com base em estatísticas predefinidas. Quando especificado, as palavras que aparecem no banco de dados são menos importantes quando estão presentes nos dados de entrada e a pontuação de correspondência é ajustada de acordo. As opções incluem...
    • Nome: contém as palavras frequentes em uma coluna de nome. A frequência está inversamente relacionada à importância dessas palavras na pontuação de correspondência.
    • Endereço dos EUA: contém as palavras frequentes na coluna Endereço dos EUA. A frequência está inversamente relacionada à importância dessas palavras na pontuação de correspondência.
    • Empresa dos EUA: contém as palavras frequentes na coluna Nome da empresa. A frequência está inversamente relacionada à importância dessas palavras na pontuação de correspondência.

      Exemplo

      Corresponder "Albert Commette" com "Albert Commette DR."

      A tabela Estatísticas de frequência de palavras para "Nome" inclui a palavra "DR." quando Frequência da palavra: Nome é especificada, a pontuação de correspondência resultante é cerca de cinco pontos mais alta do que se essa opção não for especificada.

  • Tabela de abreviações: seleciona uma tabela no menu suspenso para verificar e identificar duplicatas. Use essa opção em colunas que contenham apenas o nome ou o nome e o sobrenome.
  • Penalidade: define a porcentagem de penalidade aplicada quando uma correspondência é feita com dados da Tabela de abreviação. O valor padrão é 15%. Recomenda-se uma penalidade porque uma correspondência de apelido é outra fonte potencial de erro. A porcentagem de penalidade é subtraída da pontuação de correspondência antes de comparar com o limite de correspondência.

Outras opções de função de correspondência

  • Limite de correspondência: define a porcentagem de incerteza permitida para retornar uma correspondência de uma coluna específica. Se o limite da coluna 1 for 60% e a coluna corresponder apenas com 55% de confiança, a linha será ignorada.

  • Corresponder peso: aplica uma importância à coluna. Isso faz com que a coluna seja considerada mais ou menos forte durante uma correspondência.

    Por exemplo, se "Nome da empresa" for duas vezes mais importante que "Nome do contato," o Peso da correspondência do Nome da empresa deverá ser duas vezes o valor do Peso da correspondência do Nome do contato. Esse peso é usado ao calcular a pontuação de correspondência geral.

Para obter mais informações sobre o uso da Correspondência parcial, acesse Perguntas frequentes sobre correspondência parcial.

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.