Skip to main content

Find Nearest Neighbors Tool Icon Strumento Trova i vicini più prossimi

Lo strumento Trova i vicini più prossimi individua il numero selezionato di vicini più prossimi nel flusso "dati" che corrisponde a ciascun record nel flusso "query" basato sulla distanza euclidea. Il metodo consente di scegliere una serie di algoritmi, che differiscono in termini di velocità e possibile precisione, per trovare i vicini più prossimi. L'impostazione predefinita consiste nell'eseguire la ricerca in base all'algoritmo KD-Tree, caratterizzato da una combinazione generalmente buona di velocità e precisione. Inoltre, è possibile scegliere di basare i calcoli sui dati originali o di standardizzare i dati tramite la standardizzazione z-score (in cui tutti i campi avranno una media pari a 0 e una deviazione standard pari a 1) o una trasformazione a intervalli di unità (in cui i valori di ciascun campo sono compresi tra 0 e 1).

Si consiglia di utilizzare una sorta di standardizzazione dei campi con questo strumento, poiché i calcoli della distanza euclidea sono molto sensibili alle differenze nelle scale di campo (ad esempio, i dati relativi a reddito familiare ed età non trasformati hanno livelli e intervalli molto diversi). Data la natura di questo metodo, è possibile utilizzare come input solo i campi numerici. Lo strumento utilizza il pacchetto R FNN.

Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica strumenti predittivi e accedi al portale Download e licenze Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Per ulteriori informazioni, consulta la sezione Download e utilizzo degli strumenti predittivi.

Collegamento degli input

Lo strumento accetta due flussi di dati Alteryx:

  • Ancoraggio D: accetta il flusso "dati". Lo strumento individua il numero selezionato di vicini più prossimi nel flusso di dati che corrisponde a ciascun record nel flusso di query (input Q).

  • Ancoraggio Q: accetta il flusso "query".

Configurazione dello strumento

  • Campo chiave univoca: questo strumento necessita di una chiave univoca per identificare le relazioni tra i record nella query e nei flussi di dati.

  • Campi (selezionane almeno due): seleziona i campi numerici da utilizzare per la creazione della soluzione cluster.

  • Standardizza i campi…: seleziona questa opzione per standardizzare i campi tramite una standardizzazione z-score o a intervalli di unità.

    • Standardizzazione z-score: nella trasformazione z-score il valore medio di ogni campo viene sottratto dai valori del campo e diviso per la deviazione standard del campo. Ciò produce un nuovo campo con una media pari a zero e una deviazione standard pari a uno.

    • Standardizzazione a intervalli di unità: nella trasformazione a intervalli di unità il valore minimo di un campo viene sottratto dai valori del campo e diviso per la differenza tra i valori massimo e minimo del campo. Ciò produce un nuovo campo con valori che variano da zero a uno. I calcoli K vicini più prossimi sono molto sensibili allo scaling dei dati, specialmente se un campo si trova su una scala molto diversa da un altro. Di conseguenza, la scalabilità dei dati è un aspetto da prendere in considerazione.

  • Il numero di vicini prossimi da trovare: il valore predefinito (e minimo) è 1 (il più vicino) vicino prossimo. Il valore massimo è 100.

  • L'algoritmo da utilizzare per trovare i vicini più prossimi: i metodi differiscono in termini di tempo di calcolo e precisione. L'algoritmo predefinito è KD-Tree, che in genere è caratterizzato da un buon tempo di calcolo e da una buona precisione. La ricerca lineare garantisce il rilevamento dei vicini più prossimi reali ma ha un costo di calcolo molto elevato. Scegli uno dei seguenti elementi...

    • Struttura ad albero ricoprente

    • Struttura ad albero-KD

    • VR: il metodo utilizzato da Venables e Ripley, 2002.

    • CR: una versione dell'algoritmo VR basata su una misura della distanza modificata.

    • Ricerca lineare: consente di calcolare la distanza tra ciascun punto del flusso di query e tutti i punti del flusso di dati.

Visualizzazione dell'output

  • Ancoraggio N: Consiste in una tabella che fornisce il valore della chiave univoca e la distanza dal numero desiderato di vicini a ciascun punto del flusso di query (identificato dalla chiave univoca per ciascun record del flusso di query). Se il numero di vicini desiderato è 2 e il nome del campo chiave univoca è ID, il flusso di dati di output contiene i campi ID, ID_1 (le chiavi univoche del vicino più prossimo), Dist_1 (la distanza euclidea dal vicino più prossimo), ID_2 (la chiave univoca del secondo vicino più prossimo) e Dist_2 (la distanza euclidea dal secondo vicino più prossimo).

  • Ancoraggio M: fornisce il campo della chiave univoca, i valori dei dati standardizzati e un indicatore (il __campo __Tipo) che specifica se un record si trova nel flusso di dati o di query per tutti i record presenti nei flussi di dati e di query.

*en.wikipedia.org/wiki/Cover_tree

**en.wikipedia.org/wiki/K-d_tree

***Venables, W. N. and Ripley, B. D. (2002), Modern Applied Statistics with S, 4th ed., Springer, Berlin.