Find Nearest Neighbors Tool Icon

Ferramenta Encontrar Vizinhos Mais Próximos

Versão:
2023.1
Last modified: February 14, 2022

A ferramenta Encontrar Vizinhos Mais Próximos localiza, no fluxo da âncora D (Dados), o número selecionado de vizinhos mais próximos relacionados a cada registro da âncora Q (Consulta), com base nas distâncias euclidianas. Para encontrar os vizinhos mais próximos, a ferramenta oferece diferentes opções de algoritmos que diferem em velocidade e acurácia. O padrão é fazer a busca com base no algoritmo KD-Tree, que geralmente apresenta uma boa combinação entre velocidade e acurácia. Além disso, você tem a opção de basear os cálculos nos dados originais, ou os dados podem ser padronizados usando uma padronização z-score (que resulta em todos os campos com uma média de 0 e um desvio padrão de 1) ou uma transformação de intervalo unitário (em que os valores de cada campo variam de 0 a 1).

Recomenda-se que algum tipo de padronização de campo seja usado com essa ferramenta, pois os cálculos de distância euclidiana são muito sensíveis às diferenças nas escalas de campo (por exemplo, dados de renda familiar e de idade não transformados têm níveis e faixas muito diferentes). Dada a natureza desse método, somente campos numéricos podem ser usados como entradas. A ferramenta utiliza o pacote R FNN.

Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Acesse Baixar e utilizar ferramentas preditivas para obter mais informações.

Conectar entradas

A ferramenta aceita dois fluxos de dados do Alteryx:

  • Âncora D: aceita o fluxo "Dados". A ferramenta localiza, no fluxo "Dados", o número selecionado de vizinhos mais próximos relacionados a cada registro do fluxo "Consulta" (entrada Q).
  • Âncora Q: aceita o fluxo "Consulta".

Configurar a ferramenta

  • Campo de chave exclusiva: uma chave exclusiva é necessária para que essa ferramenta identifique as relações entre os registros nos fluxos de consulta e de dados.
  • Campos (selecione dois ou mais): selecione os campos numéricos a serem utilizados na construção da solução de cluster.
  • Padronizar os campos...: selecione esta opção para padronizar os campos por meio de uma padronização z-score ou de intervalo unitário.
    • Padronização z-score: a transformação z-score envolve a subtração do valor médio de cada campo dos valores do campo e, em seguida, a divisão pelo desvio padrão do campo. Isso resulta em um novo campo que tem uma média de 0 e um desvio padrão de 1.
    • Padronização de intervalo unitário: a transformação de intervalo unitário envolve a subtração do valor mínimo de um campo dos valores do campo e, em seguida, a divisão pela diferença entre o valor máximo e mínimo do campo. Isso resulta em um novo campo que tem valores que variam de 0 a 1. Os cálculos de k vizinhos mais próximos (k-NN) são muito sensíveis à escala dos dados, especialmente se um campo estiver em uma escala muito diferente do outro. Como resultado, o escalonamento dos dados é algo que deve ser considerado.
  • O número de vizinhos próximos para encontrar:o número padrão (e mínimo) é 1 vizinho próximo (o mais próximo). O máximo é 100.
  • O algoritmo a ser usado para encontrar os vizinhos mais próximos: os métodos diferem em tempo de computação e acurácia. O algoritmo padrão é KD-Tree, que geralmente apresenta bom tempo de computação e boa acurácia. A busca linear certamente encontrará os vizinhos mais próximos verdadeiros, mas tem um custo de computação muito elevado. Escolha um dentre...
    • Cover Tree
    • KD-tree
    • VR: o método usado por Venables e Ripley, 2002.
    • CR: uma versão do algoritmo VR baseada em uma medida de distância modificada.
    • Busca linear: envolve o cálculo da distância entre cada ponto do fluxo "Consulta" para todos os pontos do fluxo "Dados".

Visualizar a saída

  • Âncora N: consiste em uma tabela que fornece o valor de chave exclusiva e a distância do número desejado de vizinhos próximos a cada ponto do fluxo "Consulta" (identificados pela chave exclusiva de cada registro neste fluxo). Se o número desejado de vizinhos próximos for 2 e o nome do campo de chave exclusiva for "ID", o fluxo de dados de saída terá os campos ID, ID_1 (as chaves exclusivas para o vizinho mais próximo), Dist_1 (a distância euclidiana até o vizinho mais próximo), ID_2 (a chave exclusiva para o segundo vizinho mais próximo) e Dist_2 (a distância euclidiana até o segundo vizinho mais próximo).
  • Âncora M: fornece o campo de chave exclusiva, os valores de dados padronizados e um indicador (o campo "__Type__"), que informa se um registro está no fluxo "Dados" ou no fluxo "Consulta" para todos os registros de ambos os fluxos.

*en.wikipedia.org/wiki/Cover_tree
**en.wikipedia.org/wiki/K-d_tree
***Venables, W. N. e Ripley, B. D. (2002), Modern Applied Statistics with S, 4ª ed., Springer, Berlim.

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.