Outil Trouver les plus proches voisins

L’outil Trouver les plus proches voisins recherche le nombre sélectionné de voisins les plus proches dans le flux « données » correspondant à chaque enregistrement du flux « requête » en fonction de leur distance euclidienne. Cette méthode propose plusieurs algorithmes permettant de rechercher les voisins les plus proches qui diffèrent en ce qui concerne la vitesse et la précision potentielle. La recherche par défaut consiste à utiliser l’algorithme KD-Tree, qui offre généralement un bon compromis entre vitesse et précision. En outre, vous pouvez effectuer les calculs à l’aide des données d’origine ou des données standardisées avec une standardisation de score z (tous les champs ont une valeur moyenne de zéro et un écart-type de un) ou avec une transformation d’intervalle d’unités (les valeurs de chaque champ sont comprises entre zéro et un). Il est recommandé d’utiliser une standardisation de champ avec cet outil, car les calculs de la distance euclidienne sont très sensibles aux écarts d’échelles de champ (par exemple, les revenus de ménages et les données d’âge non transformés ont des niveaux et des plages très différents). En raison de la nature de cette méthode, seuls des champs numériques peuvent être utilisés comme entrées. L’outil utilise le package R FNN.

Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.

Connecter les entrées

Deux flux de données Alteryx. Le flux de droite est le flux "Query", les lignes pour lesquelles le nombre sélectionné de voisins les plus proches dans le flux de gauche, le flux "Data".

Configurer l’outil

  • Champ clé unique: une clé unique est nécessaire pour cet outil afin d'identifier les relations entre les enregistrements dans la requête et les flux de données.
  • Champs (sélectionnez deux ou plusieurs): sélectionnez les champs numériques à utiliser pour la construction de la solution de cluster.
  • Standardiser les champs... : En sélectionnant cette option, l'utilisateur a le choix de standardiser les champs en utilisant une normalisation z-score ou unité-Interval.
    • normalisation z-score: la transformation z-score implique de soustraire la valeur moyenne pour chaque champ des valeurs du champ, puis de la diviser par l'écart-type du champ. Cela entraîne un nouveau champ comportant une moyenne de zéro et un écart-type de un.
    • Normalisation par intervalles unitaires: la transformation de l'intervalle unitaire consiste à soustraire la valeur minimale d'un champ des valeurs de champ, puis à diviser par la différence entre la valeur maximale et minimale du champ. Cela entraîne un nouveau champ comportant des valeurs allant de zéro à un. Les calculs des K voisins les plus proches sont très sensibles à la mise à l’échelle des données, en particulier si un champ est à une échelle très différente d’un autre. Par conséquent, envisagez d’utiliser la mise à l’échelle des données.
  • Le nombre de voisins proches à trouver: le nombre par défaut et minimum est un (le plus proche) près du voisin. La valeur maximum est cent.
  • L'algorithme à utiliser pour trouver les voisins les plus proches: choisissez l'un de l' arbre de couverture, KD-Tree, VR (la méthode utilisée par Venables et Ripley, 2002), CR (une version de l'algorithme VR basé sur une mesure de distance modifiée), et la recherche linéaire (qui consiste à calculer la distance entre chaque point du flux de requête et tous les points du flux de données. Les méthodes varient en fonction du temps de calcul et de la précision. L’algorithme par défaut est KD-Tree, qui offre généralement un bon compromis entre temps de calcul et précision. La recherche linéaire garantit de trouver les vrais voisins les plus proches, mais à un coût de calcul très élevé.

Afficher la sortie

  • N ancre: se compose d'une table qui donne la valeur de clé unique et la distance au nombre désiré de voisins proches à chaque point dans le flux de requête (identifié par la clé unique pour chaque enregistrement dans le flux de requête). Si le nombre souhaité de voisins proches est égal à deux et que le nom de champ de clé unique est ID, ce flux de données de sortie contient les champs ID, ID_1 (clés uniques du voisin le plus proche), Dist_1 (distance euclidienne vers le voisin le plus proche), ID_2 (clé unique pour le deuxième voisin le plus proche) et Dist_2 (distance euclidienne vers le deuxième voisin le plus proche).
  • M ancre: fournit le champ clé unique, les valeurs de données normalisées et un indicateur (le champ __Type__) pour savoir si un enregistrement se trouve dans les flux de données ou de requête pour tous les enregistrements des flux de données et de requête.

*en.wikipedia.org/wiki/Cover_tree* *en.wikipedia.org/wiki/K-d_tree* * * Venables, W. N. et Ripley, B. d. (2002), Modern Applied Statistics with S, 4e éd., Springer, Berlin.