Localizar ferramenta vizinhos mais próximos

A ferramenta localizar vizinhos mais próximos encontra o número selecionado de vizinhos mais próximos no fluxo de "dados" que corresponde a cada registro no fluxo de "consulta" com base em sua distância euclidiana. O método fornece ao usuário uma escolha dos algoritmos para encontrar os vizinhos os mais próximos que diferem em sua velocidade e exatidão possível. O padrão é fazer a pesquisa com base no algoritmo de KD-Tree que tem uma combinação geralmente boa de velocidade e precisão. Além disso, o usuário tem a opção de basear os cálculos usando os dados originais ou os dados podem ser padronizados usando uma padronização de pontuação z (o que resulta em todos os campos com uma média de zero e um desvio padrão de um) ou um intervalo de unidade transformação (na qual os valores de cada campo variam de zero para um). Recomenda-se que algum tipo de padronização de campo seja usado com esta ferramenta, uma vez que os cálculos de distância euclidiana são muito sensíveis às diferenças nas escalas de campo (por exemplo, rendas domésticas não transformadas e dados de idade têm níveis e intervalos muito diferentes). Dada a natureza deste método, somente os campos numéricos podem ser usados como entradas. A ferramenta faz uso do pacote R FNN.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Conecte entradas

Dois fluxos de dados Alteryx. O fluxo de direito é o fluxo de "consulta", as linhas para as quais o número selecionado de vizinhos mais próximos no fluxo esquerdo, o fluxo de "dados".

Configure a ferramenta

  • Campo de chave exclusivo: uma chave exclusiva é necessária para essa ferramenta para identificar as relações entre registros na consulta e fluxos de dados.
  • Campos (selecione dois ou mais): selecione os campos numéricos a serem usados na construção da solução de cluster.
  • Padronizar os campos... : Ao selecionar esta opção, o usuário recebe a opção de padronizar os campos usando uma classificação z ou uma padronização de intervalo unitário.
    • z-Pontuação padronização: a transformação z-Score envolve subtrair o valor médio para cada campo a partir dos valores do campo e, em seguida, dividido pelo desvio padrão do campo. Isso resulta em um novo campo que tem uma média de zero e um desvio padrão de um.
    • Padronização de intervalo unitário: a transformação de intervalo de unidade envolve a subtração do valor mínimo de um campo dos valores de campo e, em seguida, dividindo-se pela diferença entre o valor máximo e mínimo do campo. Isso resulta em um novo campo que tem valores que variam de zero para um. K os cálculos vizinhos mais próximos são muito sensíveis ao dimensionamento dos dados, especialmente se um campo está em uma escala muito diferente do outro. Como resultado, o dimensionamento dos dados é algo que deve ser considerado.
  • O número de vizinhos próximos para encontrar: o padrão e número mínimo é um (o mais próximo) próximo vizinho. O máximo é 100.
  • O algoritmo a ser usado para encontrar os vizinhos mais próximos: escolha uma árvore de capa, KD-Tree, VR (o método usado por Venables e Ripley, 2002), CR (uma versão do algoritmo VR baseado em uma medida de distância modificada), e pesquisa linear (que envolve o cálculo da distância entre cada ponto no fluxo de consulta para todos os pontos no fluxo de dados). Os métodos diferem em seu tempo de computação e precisão. O algoritmo padrão é a KD-Tree, que geralmente tem tempo de computação bom e precisão. A busca linear é garantida para encontrar os vizinhos mais próximos, mas tem um custo de computação muito alto.

Visualizar a saída

  • N âncora: consiste em uma tabela que fornece o valor da chave exclusiva e a distância para o número desejado de vizinhos próximos a cada ponto no fluxo de consulta (identificado pela chave exclusiva para cada registro no fluxo de consulta). Se o número desejado de vizinhos próximos é dois, e o nome do campo de chave exclusiva é ID, então este fluxo de dados de saída terá os campos ID, ID_1 (as chaves exclusivas para o vizinho mais próximo), Dist_1 (a distância euclidiana para o vizinho mais próximo) , ID_2 (a chave única para o segundo vizinho mais próximo), e Dist_2 (a distância euclidiana para o segundo vizinho mais próximo).
  • M Anchor: fornece o campo de chave exclusiva, os valores de dados padronizados e um indicador (o campo __Type__) de se um registro está nos fluxos de dados ou de consulta para todos os registros dos fluxos de dados e de consulta.

*en.wikipedia.org/wiki/Cover_tree* *en.wikipedia.org/wiki/K-d_tree* * * Venables, W. N. e Ripley, B. d. (2002), estatísticas aplicadas modernas com S, 4º Ed., Springer, Berlim.