
Strumento Trova i vicini più prossimi
Lo strumento Trova i vicini più prossimi individua il numero selezionato di vicini più prossimi nel flusso "dati" che corrisponde a ciascun record nel flusso "query" basato sulla distanza euclidea. Il metodo consente di scegliere una serie di algoritmi, che differiscono in termini di velocità e possibile precisione, per trovare i vicini più prossimi. L'impostazione predefinita consiste nell'eseguire la ricerca in base all'algoritmo KD-Tree, caratterizzato da una combinazione generalmente buona di velocità e precisione. Inoltre, è possibile scegliere di basare i calcoli sui dati originali o di standardizzare i dati tramite la standardizzazione z-score (in cui tutti i campi avranno una media pari a 0 e una deviazione standard pari a 1) o una trasformazione a intervalli di unità (in cui i valori di ciascun campo sono compresi tra 0 e 1).
Si consiglia di utilizzare una sorta di standardizzazione dei campi con questo strumento, poiché i calcoli della distanza euclidea sono molto sensibili alle differenze nelle scale di campo (ad esempio, i dati relativi a reddito familiare ed età non trasformati hanno livelli e intervalli molto diversi). Data la natura di questo metodo, è possibile utilizzare come input solo i campi numerici. Lo strumento utilizza il pacchetto R FNN.
Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica Strumenti predittivi e accedi al portale Download e licenze di Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Per ulteriori informazioni, consulta la sezione Download e utilizzo degli strumenti predittivi.
Collegamento degli Input
Lo strumento accetta due flussi di dati Alteryx:
- Ancoraggio D: accetta il flusso "dati". Lo strumento individua il numero selezionato di vicini più prossimi nel flusso di dati che corrisponde a ciascun record nel flusso di query (input Q).
- Ancoraggio Q: accetta il flusso "query".
Configurazione dello strumento
- Campo chiave univoca: questo strumento necessita di una chiave univoca per identificare le relazioni tra i record nella query e nei flussi di dati.
- Campi (selezionane almeno due): seleziona i campi numerici da utilizzare per la creazione della soluzione cluster.
- Standardizza i campi...: seleziona questa opzione per standardizzare i campi tramite una standardizzazione z-score o a intervalli di unità.
- Standardizzazione z-score: nella trasformazione z-score il valore medio di ogni campo viene sottratto dai valori del campo e diviso per la deviazione standard del campo. Ciò produce un nuovo campo con una media pari a zero e una deviazione standard pari a uno.
- Standardizzazione a intervalli di unità: nella trasformazione a intervalli di unità il valore minimo di un campo viene sottratto dai valori del campo e diviso per la differenza tra i valori massimo e minimo del campo. Ciò produce un nuovo campo con valori che variano da zero a uno. I calcoli K vicini più prossimi sono molto sensibili allo scaling dei dati, specialmente se un campo si trova su una scala molto diversa da un altro. Di conseguenza, la scalabilità dei dati è un aspetto da prendere in considerazione.
- Il numero di vicini prossimi da trovare: il valore predefinito (e minimo) è 1 (il più vicino) vicino prossimo. Il valore massimo è 100.
- L'algoritmo da utilizzare per trovare i vicini più prossimi: i metodi differiscono in termini di tempo di calcolo e precisione. L'algoritmo predefinito è KD-Tree, che in genere è caratterizzato da un buon tempo di calcolo e da una buona precisione. La ricerca lineare garantisce il rilevamento dei vicini più prossimi reali ma ha un costo di calcolo molto elevato. Scegli uno dei seguenti elementi...
- Struttura ad albero ricoprente
- Struttura ad albero-KD
- VR: il metodo utilizzato da Venables e Ripley, 2002.
- CR: una versione dell'algoritmo VR basata su una misura della distanza modificata.
- Ricerca lineare: consente di calcolare la distanza tra ciascun punto del flusso di query e tutti i punti del flusso di dati.
Visualizzazione dell'output
- Ancoraggio N: consiste in una tabella che fornisce il valore della chiave univoca e la distanza dal numero desiderato di vicini prossimi per ciascun punto nel flusso di query (identificato dalla chiave univoca di ogni record nel flusso di query). Se il numero desiderato di vicini prossimi è 2 e il nome del campo della chiave univoca è ID, il flusso di dati di output avrà i campi ID, ID_1 (le chiavi univoche per il vicino più prossimo), Dist_1 (la distanza euclidea dal vicino più prossimo), ID_2 (la chiave univoca per il secondo vicino più prossimo) e Dist_2 (la distanza euclidea dal secondo vicino più prossimo).
- Ancoraggio M: fornisce il campo della chiave univoca, i valori dei dati standardizzati e un indicatore (il __campo __Tipo) che specifica se un record si trova nel flusso di dati o di query per tutti i record presenti nei flussi di dati e di query.
*en.wikipedia.org/wiki/Cover_tree
**en.wikipedia.org/wiki/K-d_tree
***Venables, W. N. e Ripley, B. D. (2002), Modern Applied Statistics with S, 4th ed., Springer, Berlin.