FAQ Match Fuzzy

Versão:
2022.3
Last modified: March 26, 2020

Os tópicos a seguir são perguntas comuns relacionadas à ferramenta de correspondência difusae às Opçõesde correspondência de edição de correspondência difusa relacionadas.

Quantos campos devo configurar em uma única ferramenta de correspondência difusa?

Não há nenhuma resposta padrão a esta pergunta. Considere a correspondência de campos que devem ser diferentes entre registros e pode denotar o registro como exclusivo. Por exemplo, em um banco de dados de contato padrão, o nome, o endereço e o número de telefone devem identificar uma pessoa exclusiva. Muitos povos podem ter a mesma cidade e estado, assim que estes seriam menos significativos.

É importante entender a relação entre o uso de vários campos e quanta importância, ou peso, deve ser dada a cada campo que está sendo considerado no processo de correspondência. Por exemplo, Name pode não ser tão importante quanto address e ZIP, portanto, o nome de ponderação menor que address e ZIP pode resultar em mais correspondências onde o endereço e o ZIP são exatos, mas o nome marcou menos que uma correspondência exata.

Qual é a diferença entre Merge e Purge Mode?

Modo de limpeza (todos os registros comparados)localiza correspondências dentro de cada conjunto de dados individual, bem como correspondências entre dois conjuntos de dados. O modo de limpeza pode ser usado em um conjunto de dados para remover duplicatas de, ou de-dupe, o banco de dados. Isso pode ser uma etapa de preparação antes que uma mesclagem de dois bancos de dados seja executada.

Mesclar (somente registros de uma fonte diferente são comparados)compara registros de duas fontes de dados diferentes. Escolhendo mesclar apenas encontrar correspondências entre dois conjuntos de dados.

Por que eu preciso de-dupe meu banco de dados antes de enviá-lo através do modo de mesclagem?

Um banco de dados deve ser desenganado antes de usar o modo de mesclagem porque:

  • O modo de mesclagem não detecta registros duplicados dentro da mesma fonte.
  • O processo de correspondência é mais rápido sem registros duplicados.

    DataSet 1 tem 5 duplicatas. DataSet 2 tem 10. Se Merge é executado sem purgar essas duplicatas, a coincidir irá verificar 50 pares de correspondência. Se as duplicatas forem limpas, a correspondência irá verificar um par de correspondência.

Por que preciso ter um ID exclusivo por registro?

A ferramenta correspondência difusa usa um identificador (ID) para rotular correspondências, seja de um arquivo para outro ou de uma linha para outra em um único arquivo. A ferramenta usa a ID para relatar quais registros correspondem.

O ID deve ser exclusivo para cada registro, incluindo registros de conjuntos de dados diferentes, para garantir a saída precisa da ferramenta. Cumpra as seguintes práticas recomendadas para IDs exclusivos:

  • Saiba o tamanho de seus conjuntos de dados para entender melhor o valor inicial necessário para cada coluna RecordID.
  • Adicione uma ferramenta de ID de registro a ambos os fluxos de DataSet.
  • Defina o "valor inicial" de diferentes fluxos de dados várias magnitudes fora uns dos outros para garantir que todos os registros têm um valor exclusivo atribuído.

Melhores práticas

Atribua 100 milhões como o valor inicial para a ferramenta RecordID para o arquivo mestre e 200 milhões como o valor inicial para o arquivo de cliente. Usar essa prática consistentemente permite identificar facilmente as origens dos registros de correspondência.

 

A Convenção de nomenclatura de campo RecordID1 e RecordID2 é confusa saindo da ferramenta correspondência difusa. Há algum truque para manter esses campos retos?

No modo de limpeza, os dados em RecordID1 e RecordID2 são os identificadores de linha do seu conjunto de dados.

No modo de mesclagem, RecordID1 e RecordID2 correspondem a IDs correspondentes, um de cada conjunto de dados. Definir os IDs de registro em valores iniciais de diferentes magnitudes permite que você reconheça mais facilmente qual conjunto de dados está sendo referenciado.

RecordID1 é sempre o "primeiro" valor no emparelhar correspondente se as duas IDs são classificadas por ordem alfanumérica.

Os registros de minhas fontes são divididos entre os campos recordId. Por que não estão na mesma coluna?

As IDs de par de correspondência de correspondência difusa são classificadas por ordem alfanumérica por linha. Numérico registro classificação campos classificar ID1 para RecordID2, menor para o maior, respectivamente, mas String RecordIDs pode classificar de maneiras inesperadas.

Registre 101 partidas com o registro 11. Se os campos são armazenados como números, RecordID1 seria 11 e RecordID2 seria 101. Se os campos são armazenados como seqüências de caracteres, RecordID1 seria 101 e RecordID2 seria 11.

Alterne para um campo numérico de registroid ou verifique se as seqüências de caracteres com RecordIDs precedidas têm um formato padronizado entre registros.

Se eu quiser usar a cidade ou o estado na minha configuração de correspondência, qual estilo de correspondência devo usar?

Na maioria dos cenários de correspondência de endereço, onde o banco de dados de endereço é consistentemente preenchido com dados, os campos de cidade e estado não são necessários na correspondência. Nome, endereçoe CEPsão mais comumente usados corresponder opções de estilo. Examine seus dados para determinar se os campos cidade ou estado podem ser relevantes.

Use a Metafona duplase:

  • Os campos cidade e estado não são abreviados.
  • Os campos podem conter erros ortográficos.  

Use campo inteiroou campo inteiro-caso insensívelse:

  • O campo Estado é abreviado e requer e correspondência exata.

    Uma correspondência exata é normalmente necessária se passar para um processo mais granular de correspondência.

Se eu tiver várias configurações de endereço no meu banco de dados (ou seja, algum endereço com números de suíte, alguns com não, e alguns com números de suíte em um campo adicional), que correspondem ao estilo que devo usar?

Em muitos cenários de correspondência de endereço, os campos de suíte não são necessários na correspondência. Nome, endereçoe CEPsão mais comumente usados corresponder opções de estilo. Examine seus dados para determinar se os campos da suíte podem ser relevantes.

Duplo Metafone w/digitsé o estilo de correspondência preferencial para qualquer campo de endereço, independentemente se o endereço inclui números de conjunto. Igualmente considere usar a pontuação da tira e remover unidades da opção do endereço dos e.u.o preprocess.

Se eu analisar um campo de nome em vários campos (ou seja, Primeiro nome, sobrenome, meio inicial) vou obter melhores resultados de correspondência?

Na maioria dos casos, a análise de um campo de nome em campos de componente individuais não é necessária e não deve resultar em uma correspondência melhor. Use a opção gerar chaves para cada palavracom o algoritmo SOUNDEX para gerar chaves de campo de nome. Isto assegura-se de que a ordem da palavra não esteja considerada, assim que "Cindy Smith" ou "Smith, Cindy" são considerados um fósforo.

Analisar o campo de nome é vantajoso quando você deseja colocar pesos diferentes em cada valor.

Para Rosey Smith corresponder a R Smith, o sobrenome é ponderado em 80% e o primeiro nome é ponderado em 20%.

E se o campo de nome contiver Mr., Mrs., Miss etc. Será que isso afeta a taxa de correspondência para este campo?

Em editar... > Preprocess, use faixa de Pontuação & Saudaçõespara ignorar essas palavras ao executar uma correspondência.

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.