
Outil Diagnostics Des K-centroïdes
L’outil Trouver les plus proches voisins recherche le nombre sélectionné de voisins les plus proches dans le flux « données » correspondant à chaque enregistrement du flux « requête » en fonction de leur distance euclidienne. Cette méthode propose plusieurs algorithmes permettant de rechercher les voisins les plus proches qui diffèrent en ce qui concerne la vitesse et la précision potentielle. La recherche par défaut consiste à utiliser l’algorithme KD-Tree, qui offre généralement un bon compromis entre vitesse et précision. En outre, vous pouvez effectuer les calculs à l’aide des données d’origine ou des données standardisées avec une standardisation de score z (tous les champs ont une valeur moyenne de zéro et un écart-type de un) ou avec une transformation d’intervalle d’unités (les valeurs de chaque champ sont comprises entre zéro et un). Il est recommandé d’utiliser une standardisation de champ avec cet outil, car les calculs de la distance euclidienne sont très sensibles aux écarts d’échelles de champ (par exemple, les revenus de ménages et les données d’âge non transformés ont des niveaux et des plages très différents). En raison de la nature de cette méthode, seuls des champs numériques peuvent être utilisés comme entrées. L’outil utilise le package R FNN.
Cet outil utilise l’outil R. Sélectionnez options > Télécharger les outils prédictifs et connectez-vous au portail Téléchargements et licences Alteryx pour installer R et les paquets utilisés par l'outil R. Voir Télécharger et utiliser les outils prédictifs.
Connecter les entrées
Deux flux de données Alteryx. Le flux de droite est le flux "Query", les lignes pour lesquelles le nombre sélectionné de voisins les plus proches dans le flux de gauche, le flux "Data".
Configuration de l'outil
- Domaine clé unique : Une clé unique est nécessaire pour cet outil afin d'identifier les relations entre les enregistrements dans les flux de requêtes et de données.
- Champs (sélectionnez deux ou plus) : Sélectionnez les champs numériques à utiliser pour la construction de la solution cluster.
- Normaliser les champs...: En sélectionnant cette option, l'utilisateur a le choix de standardiser les champs en utilisant soit un z-score, soit une normalisation unitaire.
- normalisation z-score: La transformation z-score consiste à soustraire la valeur moyenne de chaque champ des valeurs du champ, puis divisée par l'écart standard du champ. Cela entraîne un nouveau champ comportant une moyenne de zéro et un écart-type de un.
- Normalisation de l'intervalle unitaire : La transformation de l'intervalle unitaire consiste à soustraire la valeur minimale d'un champ des valeurs du champ, puis à diviser par la différence entre la valeur maximale et la valeur minimale du champ. Cela entraîne un nouveau champ comportant des valeurs allant de zéro à un. Les calculs des K voisins les plus proches sont très sensibles à la mise à l’échelle des données, en particulier si un champ est à une échelle très différente d’un autre. Par conséquent, envisagez d’utiliser la mise à l’échelle des données.
- Le nombre de voisins proches à trouver: Le nombre par défaut et minimum est un (le plus proche) près du voisin. La valeur maximum est cent.
- L'algorithme à utiliser pour trouver les voisins les plus proches: Choisissez l'un des Cover Tree, KD-Tree, VR (la méthode utilisée par Venables et Ripley, 2002), CR (une version de l'algorithme VR basé sur une mesure de distance modifiée), et la recherche linéaire (qui consiste à calculer la distance entre chaque point dans le flux de requêtes vers tous les points du flux de données). Les méthodes varient en fonction du temps de calcul et de la précision. L’algorithme par défaut est KD-Tree, qui offre généralement un bon compromis entre temps de calcul et précision. La recherche linéaire garantit de trouver les vrais voisins les plus proches, mais à un coût de calcul très élevé.
Afficher la sortie
- N ancre: se compose d'une table qui donne la valeur de clé unique et la distance au nombre désiré de voisins proches à chaque point dans le flux de requête (identifié par la clé unique pour chaque enregistrement dans le flux de requête). Si le nombre souhaité de voisins proches est égal à deux et que le nom de champ de clé unique est ID, ce flux de données de sortie contient les champs ID, ID_1 (clés uniques du voisin le plus proche), Dist_1 (distance euclidienne vers le voisin le plus proche), ID_2 (clé unique pour le deuxième voisin le plus proche) et Dist_2 (distance euclidienne vers le deuxième voisin le plus proche).
- M ancre: fournit le champ clé unique, les valeurs de données normalisées et un indicateur (le champ __Type__) pour savoir si un enregistrement se trouve dans les flux de données ou de requête pour tous les enregistrements des flux de données et de requête.
en.wikipedia.org/wiki/Cover_tree
en.wikipedia.org/wiki/K-d_tree
***Venables, W. N. and Ripley, B. D. (2002), Modern Applied Statistics with S, 4è éd., Springer, Berlin.