Editar opções de correspondência na ferramenta Correspondência Parcial
Use o botão Editar na janela de configuração da ferramenta Correspondência Parcial para acessar a janela Editar opções de correspondência .
Os estilos de correspondência são métodos predeterminados para encontrar uma correspondência adequada entre os registros de um arquivo de entrada. As opções individuais de estilo de correspondência estão definidas na página Ferramenta Correspondência Parcial .
Estilo de correspondência
Todos os estilos de correspondência predefinidos e os estilos personalizados definidos pelo usuário aparecem nessa lista. As especificações subsequentes na caixa de diálogo são selecionadas com base no estilo de correspondência escolhido.
Se você editar um estilo de correspondência predefinido, o nome do estilo mudará para "Personalizado" no menu suspenso. As configurações especificadas nesse estilo de correspondência personalizado são salvas com o fluxo de trabalho.
Adicione novos estilos de correspondência personalizados em vez de excluir ou editar as opções padrão.
Para excluir um estilo de correspondência, selecione-o no menu suspenso e clique em Excluir .
Para adicionar um estilo de correspondência, digite um novo nome e clique em OK .
Pré-processamento
O Pré-processamento descreve um procedimento que é executado antes de Gerar chaves e da função de correspondência. Executar o pré-processamento geralmente resulta em correspondências melhores. As opções da lista incluem...
Nenhum : nenhum pré-processamento é executado.
Remover pontuação : todos os caracteres de pontuação no campo de dados especificado são ignorados quando a ferramenta está procurando por correspondências.
Remover pontuação e saudações : todos os caracteres de pontuação, bem como as formas de tratamento, como Mr, Ms e Mrs no campo de dados especificado são ignorados quando a ferramenta está procurando por correspondências.
Remover pontuação e AND, OF e THE : todos os caracteres de pontuação, bem como as palavras AND, OF e THE no campo de dados especificado são ignorados quando a ferramenta está procurando por correspondências.
Remover pontuação e unidades de endereços dos EUA : todos os caracteres de pontuação, bem como os números de unidade, no campo de dados especificado são ignorados quando a ferramenta está procurando por correspondências.
Tokenizar texto em japonês : esta opção executa a normalização Unicode e converte todos os caracteres para katakana.
Tokenizar texto em japonês e remover sufixos de empresa em japonês : esta opção também remove sufixos comuns de empresas japonesas. Exemplo: ㈱.
Tokenizar texto em japonês e normalizar endereços japoneses : esta opção também padroniza endereços japoneses. Exemplo: de 今津3丁目14番地19 para 今津3-14-19.
Edições manuais de pré-processamento
Para personalizar o pré-processamento, o usuário pode editar o arquivo
FuzzyMatchStyles.xml
. Esse arquivo está localizado no diretório de execução do Alteryx:
\Arquivos de Programas\Alteryx\bin\RuntimeData\FuzzyMatch
. Para editar esse arquivo, é preciso ter experiência com XML e expressões regulares.
Gerar chaves
A opção "Gerar chaves" define o método pelo qual uma correspondência em potencial é identificada.
O Alteryx lê o campo especificado e atribui chaves aos componentes desse campo. Depois que todas as chaves são geradas, o Alteryx compara as chaves concatenadas de cada campo para correspondência. Se as chaves geradas forem iguais em dois registros, será identificada uma correspondência potencial e o par avançará para a próxima fase do processo de correspondência. As opções de função são...
Nenhum : as chaves para esse campo são consideradas ao decidir quais registros apresentam correspondência.
Somente dígitos : somente os registros com os mesmos dígitos no campo especificado são retornados como correspondências. Por exemplo, 1-(800)555-1234 apresenta correspondência com 800-555-1234. Caracteres que não são dígitos são ignorados e a correspondência entre os números é realizada do último (4) ao primeiro (8 ou 1). No exemplo, para que esses registros apresentem correspondência, é necessário especificar o Comprimento máximo da chave como 10, ignorando assim o 1 inicial.
Double Metaphone : Double Metaphone é o algoritmo de preferência. Ele é utilizado para codificar foneticamente palavras em inglês (e palavras estrangeiras frequentemente usadas no idioma inglês) reduzindo-as para 12 sons consoantes. Isso reduz os problemas de correspondência causados por erros de ortografia. O Double Metaphone é o método preferencial para encontrar correspondências com base no som. Ele retorna duas chaves se uma palavra tiver duas pronúncias viáveis, como uma palavra estrangeira. Para obter mais informações, acesse Double Metaphone . O método Double Metaphone permite especificar o Comprimento máximo de chave . O limite máximo para o comprimento da chave com o Double Metaphone é 100.
Comprimento máximo da chave
Observe que configurar o comprimento máximo da chave para um número alto pode afetar o desempenho.
Double Metaphone c/ dígitos : usa o mesmo algoritmo do Double Metaphone, mas também inclui dígitos. Quando há dígitos na cadeia de caracteres, os dígitos no primeiro token são a chave. Por exemplo, na cadeia de caracteres "1234 5th St", "1234" é a chave.
Soundex : um algoritmo para codificar sobrenomes foneticamente reduzindo-os para a primeira letra e até três dígitos, onde cada dígito é um dos seis sons consoantes. Isso reduz problemas de correspondência causados por diferentes ortografias. O algoritmo foi desenvolvido para codificar nomes registrados pelo censo dos EUA. O algoritmo padrão funciona melhor em nomes europeus. Existem variantes que foram desenvolvidas para nomes de outras culturas. Para obter mais informações, acesse Soundex .
Substituições de letras iniciais : antes de gerar a chave de correspondência, o Alteryx substitui automaticamente estas letras e combinações de letras quando elas estão no início da cadeia de caracteres:
Letras iniciais
Substituição
AV
AF
AH
A
AW
A
CAAN
TAAN
DG
G
D
G
HA
A
KN
K
K
C
MAC
MC
M
N
NST
NS
PF
F
PH
F
Q
G
SCH
SH
Z
S
Soundex c/ dígitos : usa o mesmo algoritmo Soundex, mas também inclui dígitos. Quando há dígitos na cadeia de caracteres, os dígitos no primeiro token são a chave.
Campo inteiro (sem distinção entre maiúsculas e minúsculas) : só faz a correspondência entre registros em que o campo inteiro apresenta correspondência. Não diferencia maiúsculas de minúsculas.
Somente alfanuméricos (sem distinção entre maiúsculas e minúsculas) : verifica somente caracteres alfanuméricos para encontrar uma correspondência. Não diferencia maiúsculas de minúsculas.
Número do endereço + Soundex : remove o número do endereço de uma cadeia de caracteres e aplica o algoritmo Soundex ao restante do campo. O código Soundex é então acrescentado ao número do endereço para criar uma chave exclusiva.
Para preparar texto japonês para os algoritmos Soundex e Double Metaphone, que funcionam apenas com caracteres latinos, estes métodos primeiro transliteram os caracteres japoneses para romaji:
Romaji
Soundex Romaji
Soundex Romaji com número do endereço
Soundex com dígitos Romaji
Double Metaphone Romaji
Double Metaphone Romaji com dígitos
Gerar chaves para cada palavra
Gera uma chave separada para cada palavra. Assim, "john smith" e "smith john" se alinham como uma correspondência em potencial, mesmo que as palavras estejam com a ordem trocada.
Não gerar chaves para as seguintes palavras : especifique ou selecione palavras para excluir da atribuição de chave. Isso pode reduzir o tempo de processamento limitando o número de correspondências em potencial.
Não gerar chaves para palavras de uma só letra : marque essa opção para excluir palavras de uma só letra da atribuição de chave. Isso pode reduzir o tempo de processamento limitando o número de correspondências em potencial.
Ignorar se estiver vazio : ignora um valor vazio do campo de correspondência especificado. Se o campo estiver vazio, nenhuma chave é gerada e o registro é descartado.
Comprimento máximo da chave : especifique o comprimento máximo da chave a ser considerada para encontrar correspondências.
Função de correspondência
A função de correspondência é um processo mais granular, pelo qual uma correspondência é identificada e uma pontuação é aplicada. Isso difere das chaves, que devem apresentar uma correspondência exata. As opções são:
Nenhum: somente correspondência de chave : considera somente as especificações para geração de chaves.
Distância de Levenshtein : o menor número de inserções, exclusões e substituições necessárias para transformar uma cadeia de caracteres ou árvore em outra. Quando a distância de Levenshtein é usada, a pontuação de correspondência é significativamente menor devido `às diferenças. Para obter mais informações, acesse Distância de Levenshtein . As opções para "Distância de Levenshtein" incluem...
Caractere: distância de Levenshtein
Caractere (sem espaços): distância de Levenshtein
Palavras: distância de Levenshtein
Palavras e dígitos: Distância Levenshtein
Distância de Jaro : uma medida de similaridade entre duas cadeias de caracteres. A medida de Jaro é a soma ponderada da porcentagem de caracteres com correspondência e as transposições necessárias. A distância de Jaro é mais tolerante que a de Levenshtein em relação às diferenças nas cadeias de caracteres. Para obter mais informações, acesse Jaro-Winkler . As opções "Distância de Jaro" incluem...
Caractere: distância de Jaro
Caractere (sem espaços): distância de Jaro
Palavras: distância de Jaro
Palavras e dígitos: Distância Jaro
O melhor entre as distâncias de Jaro e Levenshtein : ambos os tipos de correspondência são analisados, e a pontuação é obtida. As opções para "O melhor entre as distâncias de Jaro e Levenshtein" incluem...
Caractere: o melhor entre as distâncias de Jaro e Levenshtein
Caractere (sem espaços): o melhor entre as distâncias de Jaro e Levenshtein
Palavras: o melhor entre as distâncias de Jaro e Levenshtein
Palavras e dígitos: o melhor entre as distâncias de Jaro e Levenshtein
Tipos de função
As funções com base em palavras (o nome da função de correspondência começa com " Palavras: ") consideram quaisquer palavras no campo especificado sem considerar a ordem em que elas estão.
As funções que não são baseadas em palavras procuram as correspondências usando toda a cadeia de caracteres, como um todo.
Para as funções Palavras e dígitos , todos os tokens que contêm dígitos precisam estar em ambos os lados para serem considerados uma correspondência. Normalmente elas são usados para endereços.
Opções das funções baseadas em palavras
Ao usar a correspondência baseada em palavras : você pode especificar um método de correspondência adicional, o que gera uma outra pontuação (escolhendo a melhor) e elimina a necessidade de executar duas instâncias de uma ferramenta Correspondência Parcial:
Nenhum : usa apenas a pontuação baseada em palavras.
Caractere : usa a pontuação de correspondência baseada em palavras, além de uma função de correspondência de caracteres. São geradas duas pontuações e a melhor delas é usada para identificar a correspondência.
Caractere (sem espaços) : o mesmo que acima, mas os espaços são ignorados ao gerar a correspondência baseada em caracteres.
Estatísticas de frequência de palavras (somente correspondência de palavras) : você pode especificar uma tabela de frequência de palavras com base em estatísticas predefinidas. Quando essa opção é especificada, as palavras dos dados de entrada que aparecem no banco de dados têm menos importância e a pontuação de correspondência é ajustada de acordo. As opções incluem...
[Nenhum] : não são usadas estatísticas de frequência de palavras.
Name : contém palavras que são frequentes em campos de nomes. A frequência está inversamente relacionada à importância dessas palavras para a pontuação de correspondência.
US Address : contém palavras que são frequentes em campos de endereços dos Estados Unidos. A frequência está inversamente relacionada à importância dessas palavras para a pontuação de correspondência.
US Company : contém palavras que são frequentes em campos de nomes de empresa. A frequência está inversamente relacionada à importância dessas palavras para a pontuação de correspondência.
Exemplo
Procurar correspondência entre "Albert Commette" e "Albert Commette MD".
A tabela de frequência de palavras para "Name" inclui a palavra "MD" (que é a sigla para médico, em inglês). No caso do exemplo, quando a opção Frequência de palavras: Name é especificada, a pontuação de correspondência resultante é aproximadamente cinco pontos mais alta do que quando essa opção não é especificada.
Local das estatísticas de frequência de palavras
As estatísticas de frequência de palavras estão contidas em arquivos de base de dados do Alteryx (*yxdb) e podem ser encontradas no diretório "RuntimeData":
\Arquivos de Programas\Alteryx\bin\RuntimeData\FuzzyMatch\
Você também pode criar suas próprias estatísticas de frequência editando o fluxo de trabalho
CollectStats.yxmd
, localizado no mesmo diretório.Tabela de apelidos/abreviações (somente correspondência de palavras) : use uma tabela de apelidos comuns para verificar e identificar duplicatas. Utilize essa opção em campos que contenham apenas nomes ou nomes e sobrenomes. Adicione outros apelidos e abreviações:
Atualize o banco de dados "Common Nicknames.yxdb" encontrado em:
\Arquivos de Programas\Alteryx\bin\RuntimeData\FuzzyMatch\Nicknames\
Qualquer arquivo .yxdb presente nesse diretório ficará disponível na caixa suspensa da seção de apelidos/abreviações da ferramenta Correspondência Parcial.
Penalidade : defina a porcentagem de penalidade aplicada quando uma correspondência é feita com os dados da tabela de apelidos. O valor padrão é 15%. É recomendado usar uma penalidade, visto que a correspondência de apelidos é outra fonte de erro em potencial. A porcentagem de penalidade será subtraída da pontuação antes da comparação com o limite de correspondência.
Limite de correspondência : defina a porcentagem de incerteza aceitável para afirmar que existe uma correspondência em um determinado campo. Se o limite para o campo 1 for 60% e a correspondência identificada no campo apresentar 55% de confiança, o registro será ignorado.
Peso de correspondência : aplique importância ao campo, fazendo com que ele seja mais considerado ou menos considerado ao realizar as correspondências.
Por exemplo, se o campo "Nome da empresa" for duas vezes mais importante que "Nome do contato", você pode definir a importância aqui. Assim sendo, "Nome da empresa" deve ter o dobro do peso de correspondência de "Nome do contato". Esse peso é usado ao calcular a pontuação de correspondência geral.
Para obter mais informações sobre o uso da ferramenta Correspondência Parcial, consulte as Perguntas frequentes sobre Correspondência Parcial .