A ferramenta Encontrar Vizinhos Mais Próximos localiza, no fluxo da âncora D (Dados), o número selecionado de vizinhos mais próximos relacionados a cada registro da âncora Q (Consulta), com base nas distâncias euclidianas. Para encontrar os vizinhos mais próximos, a ferramenta oferece diferentes opções de algoritmos que diferem em velocidade e acurácia. O padrão é fazer a busca com base no algoritmo KD-Tree, que geralmente apresenta uma boa combinação entre velocidade e acurácia. Além disso, você tem a opção de basear os cálculos nos dados originais, ou os dados podem ser padronizados usando uma padronização z-score (que resulta em todos os campos com uma média de 0 e um desvio padrão de 1) ou uma transformação de intervalo unitário (em que os valores de cada campo variam de 0 a 1).
Recomenda-se que algum tipo de padronização de campo seja usado com essa ferramenta, pois os cálculos de distância euclidiana são muito sensíveis às diferenças nas escalas de campo (por exemplo, dados de renda familiar e de idade não transformados têm níveis e faixas muito diferentes). Dada a natureza desse método, somente campos numéricos podem ser usados como entradas. A ferramenta utiliza o pacote R FNN.
Essa ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no Portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela ferramenta R. Acesse Baixar e utilizar ferramentas Preditivas para obter mais informações.
A ferramenta aceita dois fluxos de dados do Alteryx:
Âncora D: aceita o fluxo "Dados". A ferramenta localiza no fluxo de dados o número selecionado de vizinhos mais próximos relacionados a cada registro do fluxo de consulta (entrada Q).
Âncora Q: aceita o fluxo "Consulta".
Campo de chave exclusiva: uma chave exclusiva é necessária para que essa ferramenta identifique as relações entre os registros nos fluxos de consulta e de dados.
Campos (selecione dois ou mais): selecione os campos numéricos a serem utilizados na construção da solução de cluster.
Padronizar os campos...: selecione esta opção para padronizar os campos por meio de uma padronização z-score ou de intervalo unitário.
Padronização z-score: a transformação z-score envolve a subtração do valor médio de cada campo dos valores do campo e, em seguida, a divisão pelo desvio padrão do campo. Isso resulta em um novo campo que tem uma média de 0 e um desvio padrão de 1.
Padronização de intervalo unitário: a transformação de intervalo unitário envolve a subtração do valor mínimo de um campo dos valores do campo e, em seguida, a divisão pela diferença entre o valor máximo e mínimo do campo. Isso resulta em um novo campo que tem valores que variam de 0 a 1. Os cálculos de k vizinhos mais próximos (k-NN) são muito sensíveis à escala dos dados, especialmente se um campo estiver em uma escala muito diferente do outro. Como resultado, o escalonamento dos dados é algo que deve ser considerado.
O número de vizinhos próximos para encontrar: o número padrão (e mínimo) é 1 vizinho próximo (o mais próximo). O máximo é 100.
O algoritmo a ser usado para encontrar os vizinhos mais próximos: os métodos diferem em tempo de computação e acurácia. O algoritmo padrão é KD-Tree, que geralmente apresenta bom tempo de computação e boa acurácia. A busca linear certamente encontrará os vizinhos mais próximos verdadeiros, mas tem um custo de computação muito elevado. Escolha um dentre...
VR: o método usado por Venables e Ripley, 2002.
CR: uma versão do algoritmo VR baseada em uma medida de distância modificada.
Busca linear: envolve o cálculo da distância entre cada ponto do fluxo "Consulta" para todos os pontos do fluxo "Dados".
Âncora N: consiste em uma tabela que dá o valor de chave exclusiva e a distância ao número desejado de vizinhos próximos para cada ponto no fluxo de consulta (identificado pela chave exclusiva para cada registro no fluxo de consulta). Se o número desejado de vizinhos próximos é 2, e o nome do campo de chave exclusiva é ID, o fluxo de dados de saída tem os campos ID, ID_1 (as chaves exclusivas para o vizinho mais próximo), Dist_1 (a distância euclidiana até o vizinho mais próximo), ID_2 (a chave exclusiva para o segundo vizinho mais próximo) e Dist_2 (a distância euclidiana até o segundo vizinho mais próximo).
Âncora M: fornece o campo de chave exclusiva, os valores de dados padronizados e um indicador (o campo "__Type__"), que informa se um registro está no fluxo "Dados" ou no fluxo "Consulta" para todos os registros de ambos os fluxos.
*en.wikipedia.org/wiki/Cover_tree
**en.wikipedia.org/wiki/K-d_tree
***Venables, W. N. and Ripley, B. D. (2002), Modern Applied Statistics with S, 4th ed., Springer, Berlin.