Strumento Trova i vicini più prossimi
Lo strumento Trova i vicini più prossimi individua il numero selezionato di vicini più prossimi nel flusso "dati" che corrisponde a ciascun record nel flusso "query" basato sulla distanza euclidea. Il metodo consente di scegliere una serie di algoritmi, che differiscono in termini di velocità e possibile precisione, per trovare i vicini più prossimi. L'impostazione predefinita consiste nell'eseguire la ricerca in base all'algoritmo KD-Tree, caratterizzato da una combinazione generalmente buona di velocità e precisione. Inoltre, è possibile scegliere di basare i calcoli sui dati originali o di standardizzare i dati tramite la standardizzazione z-score (in cui tutti i campi avranno una media pari a 0 e una deviazione standard pari a 1) o una trasformazione a intervalli di unità (in cui i valori di ciascun campo sono compresi tra 0 e 1).
Si consiglia di utilizzare una sorta di standardizzazione dei campi con questo strumento, poiché i calcoli della distanza euclidea sono molto sensibili alle differenze nelle scale di campo (ad esempio, i dati relativi a reddito familiare ed età non trasformati hanno livelli e intervalli molto diversi). Data la natura di questo metodo, è possibile utilizzare come input solo i campi numerici. Lo strumento utilizza il pacchetto R FNN.
Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica strumenti predittivi e accedi al portale Download e licenze Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Per ulteriori informazioni, consulta la sezione Download e utilizzo degli strumenti predittivi.
Collegamento degli input
Lo strumento accetta due flussi di dati Alteryx:
Ancoraggio D: accetta il flusso "dati". Lo strumento individua il numero selezionato di vicini più prossimi nel flusso di dati che corrisponde a ciascun record nel flusso di query (input Q).
Ancoraggio Q: accetta il flusso "query".
Configurazione dello strumento
Campo chiave univoca: questo strumento necessita di una chiave univoca per identificare le relazioni tra i record nella query e nei flussi di dati.
Campi (selezionane almeno due): seleziona i campi numerici da utilizzare per la creazione della soluzione cluster.
Standardizza i campi…: seleziona questa opzione per standardizzare i campi tramite una standardizzazione z-score o a intervalli di unità.
Standardizzazione z-score: nella trasformazione z-score il valore medio di ogni campo viene sottratto dai valori del campo e diviso per la deviazione standard del campo. Ciò produce un nuovo campo con una media pari a zero e una deviazione standard pari a uno.
Standardizzazione a intervalli di unità: nella trasformazione a intervalli di unità il valore minimo di un campo viene sottratto dai valori del campo e diviso per la differenza tra i valori massimo e minimo del campo. Ciò produce un nuovo campo con valori che variano da zero a uno. I calcoli K vicini più prossimi sono molto sensibili allo scaling dei dati, specialmente se un campo si trova su una scala molto diversa da un altro. Di conseguenza, la scalabilità dei dati è un aspetto da prendere in considerazione.
Il numero di vicini prossimi da trovare: il valore predefinito (e minimo) è 1 (il più vicino) vicino prossimo. Il valore massimo è 100.
L'algoritmo da utilizzare per trovare i vicini più prossimi: i metodi differiscono in termini di tempo di calcolo e precisione. L'algoritmo predefinito è KD-Tree, che in genere è caratterizzato da un buon tempo di calcolo e da una buona precisione. La ricerca lineare garantisce il rilevamento dei vicini più prossimi reali ma ha un costo di calcolo molto elevato. Scegli uno dei seguenti elementi...
VR: il metodo utilizzato da Venables e Ripley, 2002.
CR: una versione dell'algoritmo VR basata su una misura della distanza modificata.
Ricerca lineare: consente di calcolare la distanza tra ciascun punto del flusso di query e tutti i punti del flusso di dati.
Visualizzazione dell'output
Ancoraggio N: Consiste in una tabella che fornisce il valore della chiave univoca e la distanza dal numero desiderato di vicini a ciascun punto del flusso di query (identificato dalla chiave univoca per ciascun record del flusso di query). Se il numero di vicini desiderato è 2 e il nome del campo chiave univoca è ID, il flusso di dati di output contiene i campi ID, ID_1 (le chiavi univoche del vicino più prossimo), Dist_1 (la distanza euclidea dal vicino più prossimo), ID_2 (la chiave univoca del secondo vicino più prossimo) e Dist_2 (la distanza euclidea dal secondo vicino più prossimo).
Ancoraggio M: fornisce il campo della chiave univoca, i valori dei dati standardizzati e un indicatore (il __campo __Tipo) che specifica se un record si trova nel flusso di dati o di query per tutti i record presenti nei flussi di dati e di query.
*en.wikipedia.org/wiki/Cover_tree
**en.wikipedia.org/wiki/K-d_tree
***Venables, W. N. and Ripley, B. D. (2002), Modern Applied Statistics with S, 4th ed., Springer, Berlin.