Encontrar la herramienta vecinos más cercanos

La herramienta encontrar vecinos más cercanos encuentra el número seleccionado de vecinos más cercanos en la secuencia de "datos" que corresponde a cada registro en la secuencia "Query" basada en su distancia euclidiana. El método proporciona al usuario una selección de algoritmos para encontrar los vecinos más cercanos que difieran en su velocidad y precisión posible. El valor por defecto es hacer la búsqueda basada en el algoritmo de KD-Tree que tiene una combinación generalmente buena de velocidad y precisión. Además, el usuario tiene la opción de basar los cálculos utilizando los datos originales o los datos pueden ser estandarizados mediante una estandarización de puntuación z (que resulta en todos los campos que tienen una media de cero y una desviación estándar de uno) o un intervalo de unidad transformación (en la que los valores de cada campo varían de cero a uno). Se recomienda que se utilice algún tipo de estandarización de campo con esta herramienta, ya que los cálculos de distancia euclidiana son muy sensibles a las diferencias en las escalas de campo (por ejemplo, los ingresos de los hogares no transformados y los datos de edad tienen niveles y rangos muy diferentes). Dada la naturaleza de este método, sólo se pueden utilizar los campos numéricos como entradas. La herramienta hace uso del paquete R FNN.

Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.

Conectar entradas

Dos flujos de datos Alteryx. La secuencia derecha es la secuencia de "consulta", las filas para las que el número seleccionado de vecinos más cercanos en la secuencia izquierda, la secuencia "Data".

Configurar la herramienta

  • Campo clave único: se necesita una clave única para esta herramienta con el fin de identificar las relaciones entre los registros de la consulta y las secuencias de datos.
  • Campos (Seleccione dos o más): seleccione los campos numéricos que se usarán en la construcción de la solución de clúster.
  • Estandarizar los campos... : Al seleccionar esta opción, el usuario tiene la opción de estandarizar los campos utilizando una puntuación z o una estandarización de intervalos unitarios.
    • estandardización de la z-cuenta: la transformación de la z-cuenta implica el restar del valor medio para cada campo de los valores del campo y después se divide por la desviación estándar del campo. Esto da como resultado un nuevo campo que tiene una media de cero y una desviación estándar de uno.
    • Estandarización de intervalos unitarios: la transformación de intervalo de unidad implica sustraer el valor mínimo de un campo de los valores de campo y, a continuación, dividir por la diferencia entre el valor máximo y mínimo del campo. Esto da como resultado un nuevo campo que tiene valores que van desde cero a uno. K los cálculos de vecinos más cercanos son muy sensibles a la escala de los datos, particularmente si un campo está en una escala muy diferente a otra. Como resultado, la escala de los datos es algo que debe tenerse en cuenta.
  • El número de vecinos cercanos para encontrar: el número por defecto y el mínimo es uno (el más cercano) cerca del vecino. El máximo es 100.
  • El algoritmo a utilizar para encontrar los vecinos más cercanos: elija uno de árbol de la cubierta, KD-árbol, VR (el método usado por Venables y Ripley, 2002), CR (una versión del algoritmo de VR basado en una medida modificada de la distancia), y búsqueda linear (que implica calcular la distancia entre cada punto de la secuencia de consulta a todos los puntos de la secuencia de datos). Los métodos diferencian en su tiempo y exactitud del cómputo. El algoritmo del defecto es el KD-árbol, que tiene generalmente buen tiempo del cómputo y exactitud. La búsqueda lineal está garantizada para encontrar los verdaderos vecinos más cercanos, pero tiene un costo de cómputo muy alto.

Ver la salida

  • N Anchor: consiste en una tabla que proporciona el valor de clave único y la distancia al número deseado de vecinos cercanos a cada punto de la secuencia de consulta (identificado por la clave única para cada registro en la secuencia de consulta). Si el número deseado de vecinos cercanos es dos, y el nombre de campo de clave único es ID, entonces esta secuencia de datos de salida tendrá el ID de campos, ID_1 (las claves únicas para el vecino cercano cerca), Dist_1 (la distancia euclidiana al vecino cerca cercano) , ID_2 (la llave única para el segundo vecino cercano más cercano), y Dist_2 (la distancia euclidiana al segundo cerca vecino cercano).
  • M Anchor: proporciona el campo clave único, los valores de datos estandarizados y un indicador (el campo __Type__) de si un registro está en los flujos de datos o de consulta de todos los registros de los flujos de datos y de consulta.

*en.wikipedia.org/wiki/Cover_tree* *en.wikipedia.org/wiki/K-d_tree* * * Venables, w. n. y Ripley, b. d. (2002), estadística aplicada moderna con S, 4to Ed., Springer, Berlín.