Fuzzy Match tool icon

Ferramenta Correspondência Parcial

Last modified: February 02, 2022

A documentação de ajuda está disponível antes do lançamento do Designer Cloud para que você possa dar uma olhadinha. O conteúdo pode mudar até o lançamento oficial.

Exemplo de cada ferramenta

A ferramenta Correspondência parcial tem um fluxo de trabalho de exemplo. Visite Exemplos de fluxos de trabalho para saber como acessar esse e muitos outros exemplos diretamente do Alteryx Designer Cloud.

Use a Correspondência Parcial para identificar duplicatas não idênticas em um conjunto de dados especificando colunas de correspondência e limites de similaridade. As pontuações de correspondência só precisam estar dentro dos limites especificados pelo usuário ou dos limites padrão estabelecidos nas propriedades de configuração.

A maneira mais eficaz de criar uma correspondência parcial é executar o processo de correspondência em múltiplas colunas dentro do arquivo de entrada. Cada coluna deve ser configurada individualmente usando um Estilo de correspondência predefinido ou personalizado, configurado por meio das Opções de edição de correspondência parcial.

A correspondência parcial só funciona com conjuntos de caracteres latinos e alguns dos recursos de correspondência são compatíveis apenas com o idioma inglês.

Configurar a ferramenta

Um identificador exclusivo para cada linha de dados é necessário para que a ferramenta Correspondência Parcial funcione. Inspecione seus dados – se não houver uma coluna-chave, adicione uma ferramenta ID de Registro etapa a montante.

  1. Escolha o Método de localização preferido:
    • Localizar valores para purga: todas as linhas de uma única fonte são comparadas para identificar duplicatas.
    • Localizar valores para mescla: linhas de diferentes origens são comparadas, com a intenção de identificar duplicatas em diferentes arquivos de entrada. Ao usar Localizar valores para mescla, selecione também a Coluna com um ID da fonte
  2. Configure seus Critérios de correspondência:
    • Correspondência parcial básica: compatível com uma coluna e estilos de correspondência padrão.
    • Correspondência parcial avançada: é compatível com múltiplas correspondências entre colunas e estilos de correspondência personalizados. Os dados recebidos precisam ter um ID exclusivo para cada linha para usar esse método. Esse método pode ser usado para reidratação de dados.
      • Selecione o Cabeçalho da coluna para corresponder. Qualquer coluna que já esteja na conexão de entrada estará disponível nesta lista suspensa.
      • Selecione o Estilo de correspondência na lista suspensa. As opções incluem:
        • Endereço: um estilo de correspondência predefinido configurado para localizar endereços correspondentes. Esse estilo incorpora algoritmos Double Metaphone combinados com uma correspondência de dígitos para identificar endereços correspondentes. Aplique este estilo a endereços comerciais.
        • Endereço sem complemento: um estilo de correspondência predefinido configurado para localizar endereços correspondentes onde os dados de entrada não têm informações complementares na coluna Address. Esse estilo incorpora algoritmos Double Metaphone combinados com uma correspondência de dígitos para identificar endereços correspondentes. Aplique este estilo a endereços residenciais.
        • Parte do endereço: um estilo de correspondência predefinido configurado para localizar endereços correspondentes. Esse estilo incorpora algoritmos Double Metaphone combinados com uma correspondência de dígitos para identificar endereços correspondentes. Parte do endereço difere de um estilo de correspondência de endereço tradicional, pois não usa análise de frequência de palavras e o limite de correspondência é menor que 5%.
        • Nome da empresa: um estilo de correspondência predefinido configurado para localizar nomes de empresas correspondentes. Esse estilo identifica correspondências com base em algoritmos Double Metaphone.
        • Exato: este campo deve corresponder exatamente. A lógica não é parcial.
        • Nome: um estilo de correspondência predefinido configurado para localizar nomes correspondentes. Esse estilo incorpora algoritmos Double Metaphone.
        • Nome com apelidos: um estilo de correspondência predefinido configurado para localizar nomes correspondentes. Esse estilo incorpora algoritmos Double Metaphone. Além disso, esse estilo utiliza uma tabela de apelidos para verificar e identificar duplicatas. Por exemplo, o nome Andrew pode corresponder com Andy e/ou Drew.
        • Telefone: um estilo de correspondência predefinido configurado para localizar números de telefone correspondentes. Esse estilo examina apenas os dígitos em um campo de telefone e corresponde aos 10 dígitos reversos, ignorando traços, parênteses e números à esquerda que podem estar contidos no campo.
        • CEP: um estilo de correspondência predefinido configurado para localizar CEPs correspondentes. Esse estilo examina os 5 dígitos de um campo CEP e atribui uma correspondência de acordo.
        • Personalizado: permite que o usuário defina seus próprios parâmetros de correspondência, para que a correspondência possa ser executada repetidamente sem a necessidade de reconfiguração. É claro que você pode reconfigurar e substituir esses estilos de correspondência personalizados ou pode criar novos estilos personalizados.
      • Use Editar para editar o Estilo de correspondência conforme necessário. Isso abrirá a janela de configuração Opções de edição de correspondência parcial.
    • Especifique as Opções de saída:
      • Pontuação de correspondência: a Pontuação de correspondência aparece em uma coluna de saída adicional. A Pontuação de correspondência é uma porcentagem que é gerada para as colunas correspondentes.
      • Chaves geradas: gera a chave a partir dos estilos de correspondência resultantes como uma coluna adicional.
      • Linhas sem correspondência: linhas que não correspondem a outras são geradas como linhas adicionais. Ocasionalmente, as linhas de saída sem correspondência reportam uma pontuação de correspondência, que deve ser ignorada. Isso pode ser abordado em uma versão futura. A caixa de seleção Ignorar se estiver vazia nas Opções de edição de correspondência parcial é priorizada em relação a essa opção.
    • Especifique as Opções avançadas:
      • Não comparar linhas que já estejam em um grupo: as linhas com correspondência não são comparadas a outras linhas, reduzindo o tempo e o custo computacional. Por exemplo, se a linha 1 corresponder à linha 2 e à linha 3, a linha 2 não será correspondida com a linha 3. Use uma ferramenta Criar Grupo nas próximas etapas para vincular grupos.
      • Somente chaves geradas: todas as linhas são retornadas com as chaves geradas como uma coluna adicional. Nenhuma correspondência é realizada.

Para obter mais informações sobre o uso da Correspondência parcial, visite a seção Perguntas frequentes sobre correspondência parcial

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.