K-Centroids Diagnostics Tool Icon

K-centróides Ferramenta De Diagnóstico

Versão:
2022.3
Last modified: September 25, 2020

A ferramenta localizar vizinhos mais próximos encontra o número selecionado de vizinhos mais próximos no fluxo de "dados" que corresponde a cada registro no fluxo de "consulta" com base em sua distância euclidiana. O método fornece ao usuário uma escolha dos algoritmos para encontrar os vizinhos os mais próximos que diferem em sua velocidade e exatidão possível. O padrão é fazer a pesquisa com base no algoritmo de KD-Tree que tem uma combinação geralmente boa de velocidade e precisão. Além disso, o usuário tem a opção de basear os cálculos usando os dados originais ou os dados podem ser padronizados usando uma padronização de pontuação z (o que resulta em todos os campos com uma média de zero e um desvio padrão de um) ou um intervalo de unidade transformação (na qual os valores de cada campo variam de zero para um). Recomenda-se que algum tipo de padronização de campo seja usado com esta ferramenta, uma vez que os cálculos de distância euclidiana são muito sensíveis às diferenças nas escalas de campo (por exemplo, rendas domésticas não transformadas e dados de idade têm níveis e intervalos muito diferentes). Dada a natureza deste método, somente os campos numéricos podem ser usados como entradas. A ferramenta faz uso do pacote R FNN.

Esta ferramenta utiliza a ferramenta R. Vá para Opções > Baixar ferramentas preditivas e faça login no portal de Downloads e Licenças da Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Consulte Baixar e utilizar ferramentas preditivas.

Conectar entradas

Dois fluxos de dados Alteryx. O fluxo de direito é o fluxo de "consulta", as linhas para as quais o número selecionado de vizinhos mais próximos no fluxo esquerdo, o fluxo de "dados".

Configuração da ferramenta

  • Campo chave original: Uma chave exclusiva é necessária para essa ferramenta para identificar as relações entre os registros nos fluxos de consulta e de dados.
  • Campos (selecione dois ou mais): Selecione os campos numéricos a serem usados na construção da solução de cluster.
  • Padronizar os campos...: Selecionando esta opção, o usuário recebe a escolha de padronizar os campos usando um escore z ou uma padronização de intervalo de unidade.
    • padronização do escore z: A transformação de escore z envolve subtrair o valor médio para cada campo dos valores do campo e, em seguida, dividido pelo desvio padrão do campo. Isso resulta em um novo campo que tem uma média de zero e um desvio padrão de um.
    • Unidade-padronização do intervalo: A transformação de intervalo de unidade envolve subtrair o valor mínimo de um campo dos valores de campo e, em seguida, dividindo pela diferença entre o valor máximo e mínimo do campo. Isso resulta em um novo campo que tem valores que variam de zero para um. K os cálculos vizinhos mais próximos são muito sensíveis ao dimensionamento dos dados, especialmente se um campo está em uma escala muito diferente do outro. Como resultado, o dimensionamento dos dados é algo que deve ser considerado.
  • O número de vizinhos próximos para encontrar: O número padrão e mínimo é um (o mais próximo) próximo vizinho. O máximo é 100.
  • O algoritmo a ser usado para encontrar os vizinhos mais próximos: Escolha uma das árvores de cobertura, KD-Tree, VR (o método usado por venables e Ripley, 2002), CR (uma versão do algoritmo VR com base em uma medida de distância modificada) e pesquisa linear (que envolve o cálculo da distância entre cada ponto na fluxo de consulta para todos os pontos no fluxo de dados). Os métodos diferem em seu tempo de computação e precisão. O algoritmo padrão é a KD-Tree, que geralmente tem tempo de computação bom e precisão. A busca linear é garantida para encontrar os vizinhos mais próximos, mas tem um custo de computação muito alto.

Visualizar a saída

  • N âncora: consiste em uma tabela que fornece o valor da chave exclusiva e a distância para o número desejado de vizinhos próximos a cada ponto no fluxo de consulta (identificado pela chave exclusiva para cada registro no fluxo de consulta). Se o número desejado de vizinhos próximos é dois, e o nome do campo de chave exclusiva é ID, então este fluxo de dados de saída terá os campos ID, ID_1 (as chaves exclusivas para o vizinho mais próximo), Dist_1 (a distância euclidiana para o vizinho mais próximo) , ID_2 (a chave única para o segundo vizinho mais próximo), e Dist_2 (a distância euclidiana para o segundo vizinho mais próximo).
  • M Anchor: fornece o campo de chave exclusiva, os valores de dados padronizados e um indicador (o campo __Type__) de se um registro está nos fluxos de dados ou de consulta para todos os registros dos fluxos de dados e de consulta.

*en.wikipedia.org/wiki/Cover_tree
En.wikipedia.org/wiki/K-d_tree
Venables, W. N. e Ripley, B. D. (2002), Statistics aplicados modernos com S, 4th Ed., Springer, Berlim.

Esta página foi útil?

Problemas com seu produto Alteryx? Visite a Comunidade Alteryx ou entre em contato com nossa Equipe de Suporte. Não é possível enviar este formulário? Envie-nos um e-mail.