Editar opções de correspondência na ferramenta Correspondência Parcial
Use o botão Editar na janela Configuração da ferramenta Correspondência Parcial para acessar a janela Editar opções de correspondência.
Os estilos de correspondência são métodos predeterminados para encontrar uma correspondência adequada entre os registros de um arquivo de entrada. As opções individuais de estilo de correspondência estão definidas na página Ferramenta Correspondência Parcial.
Estilo de correspondência
Todos os estilos de correspondência predefinidos e os estilos personalizados definidos pelo usuário aparecem nessa lista. As especificações subsequentes na caixa de diálogo são selecionadas com base no estilo de correspondência escolhido.
Se você editar um estilo de correspondência predefinido, o nome do estilo mudará para "Personalizado" no menu suspenso. As configurações especificadas nesse estilo de correspondência personalizado são salvas com o fluxo de trabalho.
Adicione novos estilos de correspondência personalizados em vez de excluir ou editar as opções padrão.
- Para excluir um estilo de correspondência, selecione-o no menu suspenso e clique em Excluir.
- Para adicionar um estilo de correspondência, digite um novo nome e clique em OK.
Pré-processamento
O Pré-processamento descreve um procedimento que é executado antes de Gerar chaves e da função de correspondência. Executar o pré-processamento geralmente resulta em correspondências melhores. As opções da lista incluem...
- Nenhum: nenhum pré-processamento é executado.
- Remover pontuação: todos os caracteres de pontuação no campo de dados especificado são ignorados quando a ferramenta está procurando por correspondências.
- Remover pontuação e saudações: todos os caracteres de pontuação, bem como as formas de tratamento, como
Mr
,Ms
eMrs
, no campo de dados especificado são ignorados quando a ferramenta está procurando por correspondências. - Remover pontuação e AND, OF e THE: todos os caracteres de pontuação, bem como as palavras
and
,of
ethe
, no campo de dados especificado são ignorados quando a ferramenta está procurando por correspondências. - Remover pontuação e unidades de endereços dos EUA: todos os caracteres de pontuação, bem como os números de unidade, no campo de dados especificado são ignorados quando a ferramenta está procurando por correspondências.
Edições manuais de pré-processamento
Para personalizar o pré-processamento, o usuário pode editar o arquivo FuzzyMatchStyles.xml. Esse arquivo está localizado no diretório de execução do Alteryx: \Arquivos de Programas\Alteryx\bin\RuntimeData\FuzzyMatch. Para editar esse arquivo, é preciso ter experiência com XML e expressões regulares.
Gerar chaves
A opção "Gerar chaves" define o método pelo qual uma correspondência em potencial é identificada.
O Alteryx lê o campo especificado e atribui chaves aos componentes desse campo. Depois que todas as chaves são geradas, o Alteryx compara as chaves concatenadas de cada campo para correspondência. Se as chaves geradas forem iguais em dois registros, será identificada uma correspondência potencial e o par avançará para a próxima fase do processo de correspondência. As opções de função são...
- Nenhum: as chaves para esse campo são consideradas ao decidir quais registros apresentam correspondência.
- Somente dígitos: somente os registros com os mesmos dígitos no campo especificado são retornados como correspondências. Por exemplo, 1-(800)555-1234 apresenta correspondência com 800-555-1234.
Caracteres que não são dígitos são ignorados e a correspondência entre os números é realizada do último (4) ao primeiro (8 ou 1). No exemplo, para que esses registros apresentem correspondência, é necessário especificar o Comprimento máximo da chave como 10, ignorando assim o 1 inicial.
- Double Metaphone*: Double Metaphone é o algoritmo de preferência. Ele é utilizado para codificar foneticamente palavras em inglês (e palavras estrangeiras frequentemente usadas no idioma inglês) reduzindo-as para 12 sons consoantes. Isso reduz os problemas de correspondência causados por erros de ortografia. O Double Metaphone é o método preferencial para encontrar correspondências com base no som. Ele retorna duas chaves se uma palavra tiver duas pronúncias viáveis, como uma palavra estrangeira. Para obter mais informações, acesse Double Metaphone.
Problema conhecido
O método Double Metaphone permite que você especifique um Comprimento máximo da chave, no entanto, essa configuração não está funcional. O comprimento máximo da chave para o Double Metaphone está codificado como oito, independentemente do que você especificar por meio da configuração.
- Double Metaphone c/ dígitos: usa o mesmo algoritmo do Double Metaphone, mas também inclui dígitos. Quando há dígitos na cadeia de caracteres, os dígitos no primeiro token são a chave. Por exemplo, na cadeia de caracteres "1234 5th St", "1234" é a chave.
-
Soundex: um algoritmo para codificar sobrenomes foneticamente reduzindo-os para a primeira letra e até três dígitos, onde cada dígito é um dos seis sons consoantes. Isso reduz problemas de correspondência causados por diferentes ortografias. O algoritmo foi desenvolvido para codificar nomes registrados pelo censo dos EUA. O algoritmo padrão funciona melhor em nomes europeus. Existem variantes que foram desenvolvidas para nomes de outras culturas. Para obter mais informações, acesse Soundex.
Substituições de letras iniciais: antes de gerar a chave de correspondência, o Alteryx substitui automaticamente estas letras e combinações de letras quando elas estão no início da cadeia de caracteres:Letras iniciais Substituição AV AF AH A AW A CAAN TAAN DG G D G HA A KN K K C MAC MC M N NST NS PF F PH F Q G SCH SH Z S - Soundex c/ dígitos: usa o mesmo algoritmo Soundex, mas também inclui dígitos. Quando há dígitos na cadeia de caracteres, os dígitos no primeiro token são a chave.
- Campo inteiro (sem distinção entre maiúsculas e minúsculas): só faz a correspondência entre registros em que o campo inteiro apresenta correspondência. Não diferencia maiúsculas de minúsculas.
- Somente alfanuméricos (sem distinção entre maiúsculas e minúsculas): verifica somente caracteres alfanuméricos para encontrar uma correspondência. Não diferencia maiúsculas de minúsculas.
- Número do endereço + Soundex: remove o número do endereço de uma cadeia de caracteres e aplica o algoritmo Soundex ao restante do campo. O código Soundex é então acrescentado ao número do endereço para criar uma chave exclusiva.
Gerar chaves para cada palavra: gera uma chave separada para cada palavra.
Assim, "john smith" e "smith john" se alinham como uma correspondência em potencial, mesmo que as palavras estejam com a ordem trocada.
- Não gerar chaves para as seguintes palavras: especifique ou selecione palavras para excluir da atribuição de chave. Isso pode reduzir o tempo de processamento limitando o número de correspondências em potencial.
- Não gerar chaves para palavras de uma só letra: marque essa opção para excluir palavras de uma só letra da atribuição de chave. Isso pode reduzir o tempo de processamento limitando o número de correspondências em potencial.
- Ignorar se estiver vazio: ignora um valor vazio do campo de correspondência especificado. Se o campo estiver vazio, nenhuma chave é gerada e o registro é descartado.
- Comprimento máximo da chave: especifique o comprimento máximo da chave a ser considerada para encontrar correspondências.
Função de correspondência
A função de correspondência é um processo mais granular, pelo qual uma correspondência é identificada e uma pontuação é aplicada. Isso difere das chaves, que devem apresentar uma correspondência exata. As opções são:
- Nenhum: somente correspondência de chave: considera somente as especificações para geração de chaves.
- Distância de Levenshtein: o menor número de inserções, exclusões e substituições necessárias para transformar uma cadeia de caracteres ou árvore em outra. Quando a distância de Levenshtein é usada, a pontuação de correspondência é significativamente menor devido `às diferenças. Para obter mais informações, acesse Distância de Levenshtein. As opções para "Distância de Levenshtein" incluem...
- Caractere: distância de Levenshtein
- Caractere (sem espaços): distância de Levenshtein
- Palavras: distância de Levenshtein
- Palavras e dígitos: distância de Levenshtein
- Distância de Jaro: uma medida de similaridade entre duas cadeias de caracteres. A medida de Jaro é a soma ponderada da porcentagem de caracteres com correspondência e as transposições necessárias. A distância de Jaro é mais tolerante que a de Levenshtein em relação às diferenças nas cadeias de caracteres. Para obter mais informações, acesse Jaro-Winkler. As opções "Distância de Jaro" incluem...
- Caractere: distância de Jaro
- Caractere (sem espaços): distância de Jaro
- Palavras: distância de Jaro
- Palavras e dígitos: distância de Jaro
- O melhor entre as distâncias de Jaro e Levenshtein: ambos os tipos de correspondência são analisados e a pontuação é obtida. As opções para "O melhor entre as distâncias de Jaro e Levenshtein" incluem...
- Caractere: o melhor entre as distâncias de Jaro e Levenshtein
- Caractere (sem espaços): o melhor entre as distâncias de Jaro e Levenshtein
- Palavras: o melhor entre as distâncias de Jaro e Levenshtein
- Palavras e dígitos: o melhor entre as distâncias de Jaro e Levenshtein
Tipos de função
- As funções com base em palavras (o nome da função de correspondência começa com "Palavras:") consideram quaisquer palavras no campo especificado sem considerar a ordem em que elas estão.
- As funções que não são baseadas em palavras procuram as correspondências usando toda a cadeia de caracteres, como um todo.
- Para as funções Palavras e dígitos, todos os tokens que contêm dígitos precisam estar em ambos os lados para serem considerados uma correspondência. Normalmente elas são usados para endereços.
Opções das funções baseadas em palavras
- Ao usar a correspondência baseada em palavras: você pode especificar um método de correspondência adicional, o que gera uma outra pontuação (escolhendo a melhor) e elimina a necessidade de executar duas instâncias de uma ferramenta Correspondência Parcial:
- Nenhum: usa apenas a pontuação baseada em palavras.
- Caractere: usa a pontuação de correspondência baseada em palavras, além de uma função de correspondência de caracteres. São geradas duas pontuações e a melhor delas é usada para identificar a correspondência.
- Caractere (sem espaços): o mesmo que acima, mas os espaços são ignorados ao gerar a correspondência baseada em caracteres.
- Estatísticas de frequência de palavras (somente correspondência de palavras): você pode especificar uma tabela de frequência de palavras com base em estatísticas predefinidas. Quando essa opção é especificada, as palavras dos dados de entrada que aparecem no banco de dados têm menos importância e a pontuação de correspondência é ajustada de acordo. As opções incluem...
- [Nenhum]: não são usadas estatísticas de frequência de palavras.
- Name: contém palavras que são frequentes em campos de nomes. A frequência está inversamente relacionada à importância dessas palavras para a pontuação de correspondência.
- US Address: contém palavras que são frequentes em campos de endereços dos Estados Unidos. A frequência está inversamente relacionada à importância dessas palavras para a pontuação de correspondência.
- US Company: contém palavras que são frequentes em campos de nomes de empresa. A frequência está inversamente relacionada à importância dessas palavras para a pontuação de correspondência.
Exemplo:Procurar correspondência entre "Albert Commette" e "Albert Commette MD".
A tabela de frequência de palavras para "Name" inclui a palavra "MD" (que é a sigla para médico, em inglês). No caso do exemplo, quando a opção Frequência de palavras: Name é especificada, a pontuação de correspondência resultante é aproximadamente cinco pontos mais alta do que quando essa opção não é especificada.
Local das estatísticas de frequência de palavras
As estatísticas de frequência de palavras estão contidas em arquivos de base de dados do Alteryx (*yxdb) e podem ser encontradas no diretório "RuntimeData":\Arquivos de Programas\Alteryx\bin\RuntimeData\FuzzyMatch\
Você também pode criar suas próprias estatísticas de frequência editando o fluxo de trabalho CollectStats.yxmd, localizado no mesmo diretório.
- Tabela de apelidos/abreviações (somente correspondência de palavras): use uma tabela de apelidos comuns para verificar e identificar duplicatas. Utilize essa opção em campos que contenham apenas nomes ou nomes e sobrenomes. Adicione outros apelidos e abreviações:
- Atualize a base de dados "Common Nicknames.yxdb", encontrada em:
\Arquivos de Programas\Alteryx\bin\RuntimeData\FuzzyMatch\Nicknames\ - Qualquer arquivo .yxdb presente nesse diretório ficará disponível na caixa suspensa da seção de apelidos/abreviações da ferramenta Correspondência Parcial.
- Atualize a base de dados "Common Nicknames.yxdb", encontrada em:
- Penalidade: defina a porcentagem de penalidade aplicada quando uma correspondência é feita com os dados da tabela de apelidos. O valor padrão é 15%. É recomendado usar uma penalidade, visto que a correspondência de apelidos é outra fonte de erro em potencial. A porcentagem de penalidade será subtraída da pontuação antes da comparação com o limite de correspondência.
-
Limite de correspondência: defina a porcentagem de incerteza aceitável para afirmar que existe uma correspondência em um determinado campo. Se o limite para o campo 1 for 60% e a correspondência identificada no campo apresentar 55% de confiança, o registro será ignorado.
-
Peso de correspondência: aplique importância ao campo, fazendo com que ele seja mais considerado ou menos considerado ao realizar as correspondências.
Por exemplo, se o campo "Nome da empresa" for duas vezes mais importante que "Nome do contato", você pode definir a importância aqui. Assim sendo, "Nome da empresa" deve ter o dobro do peso de correspondência de "Nome do contato". Esse peso é usado ao calcular a pontuação de correspondência geral.
Para obter mais informações sobre o uso da ferramenta Correspondência Parcial, consulte as Perguntas frequentes sobre Correspondência Parcial.