Ferramenta Correspondência Parcial
Fluxo de trabalho de exemplo
A ferramenta Correspondência Parcial tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer.
Use a ferramenta Correspondência Parcial para identificar duplicatas não idênticas em um conjunto de dados especificando campos de correspondência e limites de similaridade. As pontuações de correspondência só precisam estar dentro dos limites padrão ou dos limites especificados pelo usuário nas propriedades de configuração.
A maneira mais eficaz de criar uma correspondência parcial é executar o processo de correspondência em múltiplos campos dentro do arquivo de entrada. Cada campo deve ser configurado individualmente usando um estilo de correspondência predefinido ou personalizado, configurado por meio da janela Editar opções de correspondência da ferramenta.
A correspondência parcial só funciona com conjuntos de caracteres latinos, e alguns dos recursos são compatíveis apenas com o idioma inglês ou japonês. A correspondência parcial leva em consideração várias diferenças na ortografia japonesa, como caracteres de meia largura e de largura total, hiragana e katakana, modificadores kana e formas kanji antigas.
Configurar a ferramenta
É necessário um identificador exclusivo para cada registro de dados para que a ferramenta Correspondência Parcial funcione. Inspecione seus dados e, se esse campo de chave não existir, adicione uma ferramenta ID de Registro em uma etapa prévia.
Escolha o modo de correspondência desejado:
Modo de purga (todos os registros comparados) : todos os registros de uma única fonte são comparados para identificar duplicatas.
Modo de mescla (somente registros de uma fonte diferente são comparados) : registros de diferentes fontes são comparados, com o intuito de identificar duplicatas em diferentes arquivos de entrada. Quando você usa o modo de mescla, cada fonte deve conter um campo de ID da fonte . O campo de ID da fonte pode ser facilmente acrescentado escolhendo a opção Gerar campo com o nome do arquivo nas ferramentas Dados de Entrada. Essa configuração acrescenta a cada registro um campo com o nome do arquivo ou o caminho inteiro do arquivo.
Especifique o Campo de ID de registro exclusivo.
Especifique o Limite de correspondência como uma porcentagem. O valor padrão é 80%. Se a pontuação de correspondência gerada pela ferramenta for menor que o limite especificado, o registro não será qualificado como uma correspondência. A pontuação de correspondência leva em consideração cada especificação dentro das configurações da ferramenta Correspondência Parcial: cada campo, o estilo de correspondência, o peso da correspondência e a pontuação de correspondência resultante são considerados no cálculo da pontuação, que é então comparada ao limite especificado.
Configure seus Campos para correspondência . Use os botões Para cima e Para baixo para organizar os campos em ordem de correspondência. Use Excluir para remover correspondências desnecessárias.
Selecione o Nome do campo para correspondência. Qualquer campo que já esteja na conexão de entrada estará disponível nessa lista suspensa.
Selecione o Estilo de correspondência na lista suspensa. As opções incluem:
Endereço : um estilo de correspondência predefinido e configurado para localizar correspondências em endereços. Esse estilo incorpora algoritmos Double Metaphone combinados com uma correspondência de dígitos para identificar endereços correspondentes. Aplique esse estilo a endereços comerciais.
Endereço sem suíte : um estilo de correspondência predefinido e configurado para localizar correspondências em endereços quando os dados de entrada não têm informações sobre o número do conjunto ("suite") no campo de endereço. Esse estilo incorpora algoritmos Double Metaphone combinados com uma correspondência de dígitos para identificar endereços correspondentes. Aplique esse estilo a endereços residenciais.
Parte de endereço : um estilo de correspondência predefinido e configurado para localizar correspondências em endereços. Esse estilo incorpora algoritmos Double Metaphone combinados com uma correspondência de dígitos para identificar endereços correspondentes. O estilo "Parte de endereço" difere de um estilo de correspondência de endereço tradicional, pois não utiliza análise de frequência de palavras e o limite de correspondência é 5% menor.
Nome de empresa : um estilo de correspondência predefinido e configurado para localizar correspondências em nomes de empresas. Esse estilo identifica correspondências com base em algoritmos Double Metaphone.
Telefone : um estilo de correspondência predefinido e configurado para localizar correspondências em números de telefone. Esse estilo analisa somente os dígitos de um campo de telefone e compara aos dez dígitos reversos, ignorando traços, parênteses e o número "1" inicial que podem estar contidos no campo. Esse estilo também é compatível com o formato de número de telefone japonês.
Código postal : um estilo de correspondência predefinido e configurado para localizar correspondências em códigos postais. Esse estilo analisa os cinco dígitos de um campo de código postal e atribui uma correspondência de acordo com isso.
Exato : o campo deve corresponder exatamente para ser considerado uma correspondência. Portanto, essa lógica não é parcial.
Endereço japonês : um estilo de correspondência predefinido e configurado para localizar correspondências entre endereços japoneses, incluindo formatos de número de rua variáveis. Exemplo de correspondência: 今津3-14-19 e 今津3丁目14番地19 .
Nome de empresa em japonês : um estilo de correspondência predefinido e configurado para localizar correspondências em nomes de empresas japonesas. Exemplo de correspondência: 株式会社伊藤工務店 , (株)伊東工務店 e ㈱伊藤工務店 .
Nome japonês : um estilo de correspondência predefinido e configurado para localizar correspondências em nomes japoneses. Exemplo de correspondência: 高橋 啓介 e 髙橋啓介 .
Texto em japonês : um estilo de correspondência predefinido para texto em japonês que não se encaixe nas opções de endereço, nome de empresa e nome. Exemplo de correspondência: 6ヵ月 e 6ヶ月 .
Nome : um estilo de correspondência predefinido e configurado para localizar correspondências em nomes. Esse estilo incorpora algoritmos Double Metaphone.
Nome com apelidos : um estilo de correspondência predefinido e configurado para localizar correspondências em nomes. Esse estilo incorpora algoritmos Double Metaphone. Além disso, utiliza uma tabela de apelidos a ser verificada para identificar outras duplicatas. Por exemplo, o nome Andrew pode apresentar correspondência a Andy e/ou Drew.
Personalizado : permite que o usuário defina seus próprios parâmetros de correspondência, para que esta possa ser executada repetidamente sem a necessidade de reconfiguração das propriedades. É claro que esses estilos de correspondência personalizados também podem ser reconfigurados e substituídos ou novos estilos personalizados podem ser criados.
Use o botão Editar... para editar o Estilo de correspondência conforme necessário. A caixa de diálogo Editar opções de correspondência da ferramenta é exibida.
Especifique as Opções avançadas :
Fazer a saída da pontuação de correspondência : a pontuação de correspondência é enviada para a saída como uma coluna adicional.
Fazer a saída das chaves geradas : a chave dos estilos de correspondência resultantes é enviada para a saída como uma coluna adicional.
Fazer a saída dos registros sem correspondência : registros que não correspondem a nenhum outro registro são enviados para a saída como registros adicionais. Ocasionalmente, essa opção reporta uma pontuação de correspondência, que deve ser ignorada. Isso pode ser corrigido em uma versão futura do produto. A opção Ignorar se estiver vazio da janela Editar opções de correspondência é priorizada em relação a essa opção.
Não comparar registros que já estejam em um grupo : os registros que já apresentaram uma correspondência não são comparados a outros registros, reduzindo o esforço e o tempo de processamento. Por exemplo, se o registro 1 corresponder ao registro 2 e ao registro 3, o registro 2 não será comparado ao registro 3. Use uma ferramenta Criar Grupo na etapa seguinte para vincular esses grupos.
Gerar somente chaves : todos os registros são retornados com as chaves geradas como um campo adicional. Nenhuma correspondência é realizada.
Para obter mais informações sobre o uso da ferramenta Correspondência Parcial, acesse Perguntas frequentes sobre Correspondência Parcial .