Perguntas frequentes sobre Correspondência Parcial

Last modified: February 02, 2022

A documentação de ajuda está disponível antes do lançamento do Designer Cloud para que você possa dar uma olhadinha. O conteúdo pode mudar até o lançamento oficial.

Esses tópicos são perguntas comuns relacionadas àFerramenta Correspondência Parcialàs Opções de Editar opções de correspondência da Correspondência Parcial.

Quantas colunas devo configurar em uma única ferramenta Correspondência Parcial?

Não há resposta padrão para essa pergunta. Considere que a correspondência de colunas deve ser diferente entre as linhas e pode denotar que a linha é exclusiva. Por exemplo, em um banco de dados de contatos padrão, o nome, o endereço e o número de telefone devem identificar uma única pessoa. Muitas pessoas podem ser da mesma cidade e do mesmo estado, então isso seria menos significativo.

É importante entender a relação entre o uso de múltiplas colunas e qual importância, ou peso, deve-se fornecer à cada coluna que está sendo considerada no processo de correspondência. Por exemplo, Nome pode não ser tão importante quanto Endereço e CEP, portanto, dar ao Nome um peso menor que o do Endereço e do CEP pode resultar em mais correspondências em que o Endereço e CEP são exatos, mas o Nome tem pontuação menor que uma correspondência exata.

Qual é a diferença entre Localizar valores para purga e Localizar valores para mescla?

Localizar valores para purga localiza correspondências dentro de cada conjunto de dados individual, bem como correspondências entre os dois conjuntos de dados. Localizar valores para purga pode ser usada primeiro conjunto de dados um para remover duplicatas ou desduplicar o banco de dados. Isso pode ser uma etapa de preparação antes da mescla dos dois bancos de dados ser executada.

Localizar valores para mescla compara as linhas de duas fontes de dados diferentes (linhas com IDs de origem diferentes). Escolher mesclar localiza apenas correspondências entre dois conjuntos de dados.

Por que preciso desduplicar meu banco de dados antes de enviá-lo por meio do Localizar valores para mescla?

O banco de dados deve ser desduplicado antes de usar Localizar valores para mescla porque:

  • Localizar valores para mescla não detecta linhas duplicadas dentro da mesma origem.
  • O processo de correspondência é mais rápido sem linhas duplicadas. Por exemplo, o conjunto de dados 1 tem 5 duplicatas. O conjunto de dados 2 tem 10. Se uma mescla for executada sem purgar essas duplicatas, a correspondência verificará 50 pares de correspondência. Se as duplicatas forem purgadas, a correspondência verifica o par de correspondência 1.
Por que preciso ter um ID exclusivo por linha?

A ferramenta Correspondência Parcial usa um identificador (ID) para rotular correspondências, de um arquivo para outro ou de uma linha para outra, em um único arquivo. A ferramenta usa o ID para relatar quais linhas correspondem.

Cada linha deve ter um ID exclusivo, incluindo linhas de conjuntos de dados diferentes, para garantir que a saída da ferramenta seja precisa. Siga essas práticas recomendadas para IDs exclusivos:

  • Saiba o tamanho de seus conjuntos de dados para entender melhor o valor inicial necessário para cada coluna do ID de linha.
  • Adicione umaferramenta de ID de registro aos dois fluxos de conjunto de dados.
  • Defina o Valor inicial de fluxos de conjuntos de dados diferentes com várias magnitudes entre si para garantir que todas as linhas tenham um valor exclusivo atribuído.

    Exemplo

    Atribua 100000000 como o valor inicial para a ferramenta ID de Registro para o arquivo principal e 200000000 como o valor inicial para o arquivo do cliente. O uso consistente dessa prática permite que você identifique facilmente as origens das linhas de correspondência.

A convenção de nomenclatura das colunas RecordID1 e RecordID2 é confusa ao sair da ferramenta Correspondência Parcial. Há algum truque para manter essas colunas retas?

No modo de purga, os dados no RecordID1 e RecordID2 são os identificadores de linha do conjunto de dados.

No modo de mescla, RecordID1 e RecordID2 equivalem aos IDs correspondentes, um de cada conjunto de dados. Configurar os IDs de registro com valores iniciais de magnitudes diferentes permite que você reconheça com mais facilidade qual conjunto de dados está sendo referenciado.

RecordID1 é sempre o "primeiro" valor no par correspondente se dois IDs forem classificados em ordem alfanumérica.

As linhas das origens são divididas entre as colunas ID de Registro. Por que elas não estão na mesma coluna?

Os IDs com par de correspondência parcial são classificadas em ordem alfanumérica por linha. As colunas numéricas RecordID ordenam Record ID1 para RecordID2, do menor para o maior respetivamente, mas o RecordIDs da cadeia de caracteres pode ordenar de maneiras inesperadas.

Faça um cenário em que a linha 101 corresponda à linha 11. Se as colunas forem armazenadas como números, RecordID1 é 11 e RecordID2 é 101. Se as colunas forem armazenadas como cadeias de caracteres, RecordID1 é 101 e RecordID2 é 11.

Alterne para uma coluna RecordID numérica ou verifique se as cadeias de caracteres com RecordIDs pré-pendentes têm um formato padronizado entre as linhas.

Se eu quiser usar cidade ou estado na minha configuração de correspondência, qual estilo de correspondência devo usar?

Na maioria dos cenários de correspondência de endereços, em que o banco de dados de endereços é consistentemente preenchido com dados, a correspondência não precisa das colunas cidade e estado. NomeEndereço, e CEP são as opções de estilo de correspondência  usadas com mais frequência. Examine seus dados para determinar se as colunas de cidade ou estado podem ser relevantes.

Use Metaphone duplo se:

  • As colunas de cidade e estado não estiverem abreviadas.
  • As colunas podem conter erros ortográficos.  

Use o Campo inteiro ou o Campo inteiro (não diferenciar maiúsculas de minúsculas) se:

  • A coluna de estado estiver abreviada e exigir uma correspondência exata. Uma correspondência exata é normalmente exigida ao passar para um processo mais granular de correspondência.
Se eu tiver múltiplas configurações de endereço em meu banco de dados (ou seja, alguns endereços com o número da sala, alguns sem e alguns com o números da sala em uma coluna adicional), qual estilo de correspondência devo usar?

Em muitos cenários de correspondência de endereço, as colunas de sala não são necessárias na correspondência. NomeEndereço, e CEP são as opções de estilo de correspondência usadas com mais frequência. Examine seus dados para determinar se as colunas de sala podem ser relevantes.

Metaphone duplo com dígitos é o estilo de correspondência preferido para qualquer coluna de endereço, independentemente do endereço incluir o número da sala. Considere também usar a opção Pontuação da faixa e Remover unidades do endereço dos EUA em Pré-processo.

Se eu dividir uma Coluna com nomes em múltiplas colunas (ou seja nome, sobrenome e inicial do nome do meio) obterei melhores resultados de correspondência?

Na maioria dos casos, a separação de uma coluna com nomes em colunas de componentes individuais não é necessária e não deve resultar em uma correspondência melhor. Use a opção Gerar chaves para cada palavra com o algoritmo Soundex para gerar chaves de coluna com nome. Isso garante que a ordem das palavras não seja considerada, então tanto "Cindy Smith" como "Smith, Cindy" são consideradas uma correspondência.

A separação da Coluna com nomes é vantajosa quando você deseja colocar pesos diferentes em cada valor. Para Rosey Smith corresponder a R Smith, o sobrenome será ponderado em 80% e o nome em 20%.

E se a Coluna com nomes contiver Sr., Sra., Srta., etc. afetará a taxa de correspondência desta coluna?

Em Editar > Pré-processamento, usePontuação da faixa& Saudações para ignorar essas palavras ao executar uma correspondência.

Como aplico estilos de correspondência personalizados?

O Designer Cloud aplica automaticamente estilos de correspondência personalizados no XML do fluxo de trabalho quando você o seleciona. Ao contrário do Designer no desktop, não é necessário selecionar Salvar.

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.