Opções de correspondência de edição de correspondência difusa

Use o botão Editar do Ferramenta Correspondência Parcial Janela de configuração para acessar as opções Editar coincidir.

Match estilo é um método pré-determinado de encontrar uma correspondência apropriada entre registros de um arquivo de entrada. As opções de estilo de correspondência individuais são definidas no Ferramenta Correspondência Parcial Página.

Estilo de correspondência

Todos os estilos de correspondência predefinidos ou personalizados, definidos pelo usuário serão exibidos nesta lista. As especificações subseqüentes na caixa de diálogo serão selecionadas com base no estilo de coincidir escolhido.

Se você editar um estilo de coincidir predefinido, ele será alterado para "Custom" na lista suspensa. As configurações especificadas nesse estilo de correspondência personalizada serão salvas com o fluxo de trabalho.

Adicionar novos estilos de correspondência personalizados em vez de excluir ou editar opções padrão.

Você pode excluir um estilo de correspondência selecionando-o da lista suspensa e clicando em excluir. Você pode adicionar um estilo de correspondência digitando um novo nome e clicando em OK.

O pré-processamento descreve um procedimento que é executado antes de gerar chaves e a função Fuzzy Match. O pré-processamento deve resultar em melhores correspondências. As opções desta lista incluem:

Pré-processar

Nenhum: nenhum pré-processamento é executado.
Pontuaçãoda faixa: qualquer caractere de Pontuação dentro do campo de dados especificado será ignorado enquanto a ferramenta estiver determinando correspondências.
Strip Pontuação e saudações: quaisquer caracteres de pontuação, bem como quaisquer títulos, como "Mr" "MS" e "Mrs" dentro do campo de dados especificados são ignorados enquanto a ferramenta está determinando uma correspondência.
Faixa de Pontuação e e, de & a: qualquer caractere de pontuação, bem como quaisquer instâncias das palavras "e" "de" e "o" dentro do campo de dados especificados são ignorados enquanto a ferramenta está determinando correspondências.
Strip Pontuação & remover unidades de endereços dos EUA: quaisquer caracteres de pontuação, bem como quaisquer números de unidade dentro do campo de dados especificados são ignorados enquanto a ferramenta está determinando correspondências.

Edições manuais para pré-processamento

O pré-processamento pode ser definido pelo usuário editando o FuzzyMatchStyles. xml. Este arquivo está localizado no diretório de tempo de execução Alteryx: \Arquivos de Files\Alteryx\bin\RuntimeData\FuzzyMatch. Este arquivo só deve ser editado por um usuário que está familiarizado com XML e expressões regulares.

Gerar chaves é o método pelo qual uma correspondência potencial é identificada.

Gerar chaves

Alteryx lê através do campo especificado e atribui chaves para os componentes desse campo. Depois que todas as chaves são geradas, Alteryx compara as chaves concatenadas para cada campo de correspondência. Se as chaves geradas forem iguais para dois registros, uma correspondência potencial será identificada e o par prosseguirá para a próxima fase do processo de correspondência. As opções de função são:

None: as chaves para este campo são consideradas ao decidir quais os registros correspondem.
Somente dígitos: somente os registros com os mesmos dígitos no campo especificado serão combinados.

Exemplo

1-(303) 440-8896 não coincidiria com 303-440-8896.

Mesmo que não-dígitos caracteres são ignorados, esses números de telefone ainda não correspondem porque há um entrelinhamento 1 no primeiro registro.

Somente dígitos-reverter: somente os registros com os mesmos dígitos (na ordem de último a primeiro) no campo especificado serão combinados.

Exemplo

1-(303) 440-8896 seria igual a 303-440-8896.

Caracteres não-dígito são ignorados e os números são combinados do último (6) para primeiro (3 ou 1). Para que esse registro corresponda, especifique que o comprimento máximo da chave = 10 para ignorar o 1 principal.

Metaphone duplo: metaphone duplo é o algoritmo preferido. Um algoritmo para codificar palavras em inglês (e palavras estrangeiras muitas vezes ouvidas no idioma inglês) foneticamente, reduzindo-os a 12 sons consoante. Isso reduz os problemas de correspondência de ortografia errada. O metaphone duplo é o método preferencial para correspondência com base no som. Ele retorna duas chaves se uma palavra tem duas pronúncias viáveis, como uma palavra estrangeira. Para obter mais informações, consulte metaphone duplo.
Duplo metaphone w/dígitos: usa o mesmo algoritmo de metaphone duplo, mas inclui dígitos também. Quando há dígitos na seqüência de caracteres, dígitos no primeiro token será a chave.

Exemplo

1234 5 ª.

O "1234" seria a chave.

Soundex: um algoritmo para codificar sobrenomes foneticamente, reduzindo-os para a primeira letra e até três dígitos, onde cada dígito é um dos seis sons consoante. Isso reduz os problemas de correspondência de grafias diferentes.

O algoritmo foi planejado para nomes de código registrados nos registros do censo dos EUA. O algoritmo padrão funciona melhor em nomes europeus. Variantes foram concebidas para nomes de outras culturas. Para obter mais informações, consulte SOUNDEX.

Principais substituições de letra

Alteryx substitui automaticamente as seguintes letras e combinações de letras principais antes de gerar a chave de correspondência:

Letra (s) principal (s)	Substituição
Av	Af
Ah	A
AW	A
Caan	Taan
Dg	G
D	G
Ha	A
Kn	K
K	C
Mac	Mc
M	N
NST	Ns
Pf	F
Ph	F
Q	G
Sch	Sh
Z	S

Soundex w/digits: usa o mesmo algoritmo SOUNDEX, mas inclui dígitos também. Quando há dígitos na seqüência de caracteres, dígitos no primeiro token será a chave.
Campo inteiro (maiúsculas e minúsculas): somente registros em que o campo inteiro coincide. Caso seja ignorado.
Somente alfanumérico (maiúsculas e minúsculas): olha apenas para caracteres alfanuméricos para fazer uma correspondência. Caso seja ignorado.
Número do endereço + SOUNDEX: Remove o número de endereço de uma cadeia de caracteres e aplica o algoritmo SOUNDEX ao restante do campo. O código SOUNDEX é anexado ao número de endereço para criar uma chave exclusiva.

Gerar chaves para cada palavra: gera uma chave separada para cada palavra.

"John Smith" e "Smith John" será capaz de alinhar-se como um jogo potencial, embora as palavras estão fora de ordem.

Não gere chaves para as seguintes palavras: especifique ou selecione palavras para excluir da atribuição de chave. Isso pode reduzir o tempo de processamento, limitando o número de possíveis correspondências.

Não gere chaves para palavras de letra única: Selecione para excluir palavras de letra única de atribuição de chave. Isso pode reduzir o tempo de processamento, limitando o número de possíveis correspondências.

Ignore se Empty: ignora um valor vazio do campo de Coincidir especificado. Se o campo estiver vazio, nenhuma chave será gerada e o registro será Descartado.

Comprimento máximo da chave: especifique o comprimento máximo da chave a ser considerada para a correspondência.

Função de correspondência

A função match é um processo mais granular pelo qual uma correspondência é identificada e uma pontuação é aplicada. Isso difere das chaves, que devem corresponder exatamente. As escolhas são:

Nenhuma-chave coincidir somente: Olha somente as especificações de geração de chave.
Levenshtein distância: o menor número de inserções, exclusões e substituições necessárias para alterar uma cadeia de caracteres ou árvore em outro. Quando a distância Levenshtein é selecionada, a Pontuação do jogo será significativamente menor devido a diferenças. Para obter mais informações, consulte distância Levenshtein.
Distância Jaro: uma medida de semelhança entre duas cordas. A medida Jaro é a soma ponderada de porcentagem de caracteres correspondentes e transposições necessárias. A distância Jaro é mais indulgente do que a distância Levenshtein em relação à diferença nas cordas. Para obter mais informações, consulte Jaro-Winkler.
Best of Jaro & Levenshtein: ambos os tipos de correspondência são analisados e a pontuação é tomada.

Tipos de função

Baseado em Word (função Match começa com "palavras:") funções olhar para qualquer palavras dentro do campo especificado, independentemente da ordem as palavras estão dentro
Funções não baseadas em palavras coincidem com toda a cadeia de caracteres como um todo.
Para funções Word & dígito, todos os tokens que têm dígitos neles devem estar em ambos os lados para considerar uma correspondência. Estes normalmente seriam usados para endereços.

Opções de função baseadas em palavras

Ao usar a correspondência baseada em palavra, também use: você pode especificar um método de correspondência adicional que produzirá uma pontuação adicional, levando a melhor e eliminará a necessidade de executar duas instâncias de uma ferramenta de correspondência difusa:

None: usa a pontuação baseada em palavra somente.
Caractere: usa a pontuação de correspondência baseada em palavra, além de uma função de correspondência de caractere. Duas pontuações são geradas e a melhor pontuação de jogo é usada para identificar a correspondência.
Caractere (sem espaços): o mesmo que acima, mas os espaços são ignorados ao gerar a correspondência baseada em caractere.

Estatísticas de freqüência do Word (somente correspondência de palavras): você pode especificar uma tabela de freqüência de palavras baseada em estatísticas predefinidas. Quando especificado, as palavras que aparecem no a base de dados carrega menos importância quando estão presentes nos dados de entrada, e a contagem da partida será ajustada conformemente. Opções incluem:

nEnhum : Não são utilizadas estatísticas de frequência de palavras.
Name: contém palavras freqüentes em um campo de nome. A freqüência inversamente se relaciona com o quão importante essas palavras estão na pontuação do jogo.
Endereçodos EUA: contém palavras freqüentes em um campo de endereço dos EUA. A freqüência inversamente se relaciona com o quão importante essas palavras estão na pontuação do jogo.
Companhiados e.u.: contem palavras freqüentes em um campo conhecido da companhia. A freqüência inversamente se relaciona com o quão importante essas palavras estão na pontuação do jogo.

Exemplo

Combine "Albert commette" para "Albert commette MD."

A tabela de estatísticas de freqüência do Word para "nome" inclui a palavra "MD". Quando a freqüência do Word: Name é especificado, a pontuação de correspondência resultante é aproximadamente 5 pontos mais alto do que se a freqüência do Word: Name não for especificado.

Localização das estatísticas de frequência do Word

As estatísticas de freqüência do Word estão contidas em arquivos de banco de dados Alteryx * yxdb e podem ser localizados no diretório de dados de tempo de execução:

\Arquivos de Files\Alteryx\bin\RuntimeData\FuzzyMatch\

Você também pode criar suas próprias estatísticas de freqüência de palavra editando o fluxo de trabalho CollectStats. yxmd localizado no mesmo diretório.

Nickname/abreviação tabela (somente palavra Match): Use uma tabela de apelido comum para verificar e Identifique mais duplicatas. Use esta opção em campos contendo apenas o primeiro nome ou tanto o primeiro e último Nomes.
Adicionar apelidos e abreviaturas adicionais:
- Atualizar o Apelidos comuns. yxdb banco de dados encontrado em \Arquivos de Files\Alteryx\bin\RuntimeData\FuzzyMatch\Nicknames\
- Any. yxdb arquivos colocados neste diretório se tornará disponível a partir da caixa suspensa nos apelidos seção da ferramenta de correspondência difusa.

Penalidade: defina a porcentagem de penalidade aplicada quando uma correspondência é feita com dados da tabela de apelidos. O valor padrão é 15%. Uma penalidade é recomendada como uma correspondência de apelido é outra fonte potencial de erro. A penalidade por cento será subtraída da Pontuação de partida antes da comparação com o limiar de correspondência.

Limite de correspondência: defina a porcentagem de incerteza permitida para retornar uma correspondência para um determinado campo.

Se o limite para o campo 1 for 60% e o campo apenas corresponder com 55% de confiança, o registro será Descartado.

Peso do fósforo: aplique a importância ao campo, fazendo com que o campo seja considerado mais ou menos fortemente durante um fósforo.

Se "nome da empresa" é duas vezes tão importante quanto "nome de contato", você pode definir a importância aqui. Assim o peso do fósforo para o nome da companhia deve ser duas vezes o valor do peso do fósforo para o nome do contato. Este peso será usado ao calcular a pontuação total do jogo.

Para obter informações adicionais sobre o uso Fuzzy Match, consulte o FAQ Match Fuzzy.