Strumento Trova i vicini più prossimi

Requisiti dei ruoli utente

Ruolo utente*	Accesso a strumento/funzione
Utente completo	✓
Utente base	X

*Si applica ai clienti che utilizzano le edizioni Professional ed Enterprise di Alteryx One con Designer versione 2025.1 o successiva.

Lo strumento Trova i vicini più prossimi individua il numero selezionato di vicini più prossimi nel flusso "dati" che corrisponde a ciascun record nel flusso "query" basato sulla distanza euclidea. Il metodo consente di scegliere una serie di algoritmi, che differiscono in termini di velocità e possibile precisione, per trovare i vicini più prossimi. L'impostazione predefinita consiste nell'eseguire la ricerca in base all'algoritmo KD-Tree, caratterizzato da una combinazione generalmente buona di velocità e precisione. Inoltre, è possibile scegliere di basare i calcoli sui dati originali o di standardizzare i dati tramite la standardizzazione z-score (in cui tutti i campi avranno una media pari a 0 e una deviazione standard pari a 1) o una trasformazione a intervalli di unità (in cui i valori di ciascun campo sono compresi tra 0 e 1).

Si consiglia di utilizzare una sorta di standardizzazione dei campi con questo strumento, poiché i calcoli della distanza euclidea sono molto sensibili alle differenze nelle scale di campo (ad esempio, i dati relativi a reddito familiare ed età non trasformati hanno livelli e intervalli molto diversi). Data la natura di questo metodo, è possibile utilizzare come input solo i campi numerici. Lo strumento utilizza il pacchetto R FNN.

Importante

Questo strumento non viene installato automaticamente con Designer. Per utilizzarlo, scarica e installa gli strumenti predittivi di Alteryx per la tua versione di Designer. A seconda del tipo di account Alteryx, hai a disposizione due opzioni di download:

Scarica da Alteryx One
Scarica dal portale Download e licenze di Alteryx.

Per ulteriori informazioni, consulta la sezione Download e utilizzo degli strumenti predittivi.

Collegamento degli input

Lo strumento accetta due flussi di dati Alteryx:

Ancoraggio D: accetta il flusso "dati". Lo strumento individua il numero selezionato di vicini più prossimi nel flusso di dati che corrisponde a ciascun record nel flusso di query (input Q).
Ancoraggio Q: accetta il flusso "query".

Configurazione dello strumento

Campo chiave univoca: questo strumento necessita di una chiave univoca per identificare le relazioni tra i record nella query e nei flussi di dati.
Campi (selezionane almeno due): seleziona i campi numerici da utilizzare per la creazione della soluzione cluster.
Standardizza i campi…: seleziona questa opzione per standardizzare i campi tramite una standardizzazione z-score o a intervalli di unità.
- Standardizzazione z-score: nella trasformazione z-score il valore medio di ogni campo viene sottratto dai valori del campo e diviso per la deviazione standard del campo. Ciò produce un nuovo campo con una media pari a zero e una deviazione standard pari a uno.
- Standardizzazione a intervalli di unità: nella trasformazione a intervalli di unità il valore minimo di un campo viene sottratto dai valori del campo e diviso per la differenza tra i valori massimo e minimo del campo. Ciò produce un nuovo campo con valori che variano da zero a uno. I calcoli K vicini più prossimi sono molto sensibili allo scaling dei dati, specialmente se un campo si trova su una scala molto diversa da un altro. Di conseguenza, la scalabilità dei dati è un aspetto da prendere in considerazione.
Il numero di vicini prossimi da trovare: il valore predefinito (e minimo) è 1 (il più vicino) vicino prossimo. Il valore massimo è 100.
L'algoritmo da utilizzare per trovare i vicini più prossimi: i metodi differiscono in termini di tempo di calcolo e precisione. L'algoritmo predefinito è KD-Tree, che in genere è caratterizzato da un buon tempo di calcolo e da una buona precisione. La ricerca lineare garantisce il rilevamento dei vicini più prossimi reali ma ha un costo di calcolo molto elevato. Scegli uno dei seguenti elementi...
- Struttura ad albero ricoprente
- Struttura ad albero-KD
- VR: il metodo utilizzato da Venables e Ripley, 2002.
- CR: una versione dell'algoritmo VR basata su una misura della distanza modificata.
- Ricerca lineare: consente di calcolare la distanza tra ciascun punto del flusso di query e tutti i punti del flusso di dati.

Visualizzazione dell'output

Ancoraggio N: Consiste in una tabella che fornisce il valore della chiave univoca e la distanza dal numero desiderato di vicini a ciascun punto del flusso di query (identificato dalla chiave univoca per ciascun record del flusso di query). Se il numero di vicini desiderato è 2 e il nome del campo chiave univoca è ID, il flusso di dati di output contiene i campi ID, ID_1 (le chiavi univoche del vicino più prossimo), Dist_1 (la distanza euclidea dal vicino più prossimo), ID_2 (la chiave univoca del secondo vicino più prossimo) e Dist_2 (la distanza euclidea dal secondo vicino più prossimo).
Ancoraggio M: fornisce il campo della chiave univoca, i valori dei dati standardizzati e un indicatore (il __campo __Tipo) che specifica se un record si trova nel flusso di dati o di query per tutti i record presenti nei flussi di dati e di query.

*en.wikipedia.org/wiki/Cover_tree

**en.wikipedia.org/wiki/K-d_tree

***Venables, W. N. and Ripley, B. D. (2002), Modern Applied Statistics with S, 4th ed., Springer, Berlin.

In questa sezione:

Strumento Trova i vicini più prossimi

Collegamento degli input

Configurazione dello strumento

Visualizzazione dell'output

Risultati della ricerca