Outil Analyse des clusters k-centroïdes

Les k-centroïdes sont une classe d’algorithmes permettant d’effectuer ce que l’on appelle une « analyse de clusters de partitionnement ». Ces méthodes utilisent les enregistrements d’une base de données et les répartissent (les « partitionnent ») dans les « meilleurs » k groupes sur la base de certains critères. Pratiquement toutes les méthodes d’analyse de clusters de partitionnement atteignent leur objectif en basant l’appartenance de cluster à la proximité de chaque enregistrement sur l’un des k-points (ou « centroïdes ») dans les données. L’objectif de ces algorithmes de clustering est de trouver l’emplacement des centroïdes qui optimise certains critères par rapport à la distance entre le centroïde d’un cluster et les points attribués à ce cluster pour un nombre prédéfini de clusters dans les données. Les algorithmes spécifiques diffèrent l’un par rapport à l’autre en termes de critères servant à définir un centroïde de cluster et de mesures de la distance servant à définir la proximité d’un point dans un cluster par rapport au centroïde de ce cluster.

Trois types spécifiques d'analyse de grappes de k-centroïdes peuvent être réalisés avec cet outil: k-means, k-médianes, et le clustering de gaz neural. La méthode k-moyennes utilise la valeur moyenne des champs pour les points d’un cluster afin de définir un centroïde, et les distances euclidiennes servent à mesurer la proximité d’un point par rapport à un centroïde.* La méthode k-médianes utilise la valeur médiane des champs pour les points d’un cluster afin de définir un centroïde, et la distance de Manhattan sert à mesurer la proximité.** Le clustering Gaz neuronal est similaire à la méthode k-moyennes, car elle utilise la distance euclidienne entre un point et les centroïdes pour attribuer un cluster donné à ce point.*** . Toutefois, cette méthode diffère des k-moyennes en ce qui concerne le mode de calcul des centroïdes de cluster, l’emplacement du centroïde d’un cluster impliquant une moyenne pondérée de tous les points de données, les points attribués au cluster pour lequel le centroïde est construit recevant la pondération la plus élevée, les points du cluster le plus éloigné du cluster focal recevant la pondération la plus faible, et les pondérations données aux points dans les clusters intermédiaires diminuant au fur et à mesure que la distance entre le cluster focal et le cluster auquel un point est attribué augmente.

Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.

Configurer l’outil

Utilisez l' onglet Configuration pour définir les contrôles de l'analyse du cluster.

Nomde la solution: chaque solution de cluster doit être donnée un nom afin qu'il puisse être identifié plus tard. Le nom d’une solution doit commencer par une lettre et peut contenir des lettres, des chiffres et les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
Champs (sélectionnez deux ou plusieurs): sélectionnez les champs numériques à utiliser pour la construction de la solution de cluster.
Standardiser les champs... : En sélectionnant cette option, l'utilisateur a le choix de standardiser les variables en utilisant soit un z-score ou un intervalle d'unité de normalisation.

La transformation z-score implique de soustraire la valeur moyenne pour chaque champ des valeurs du champ, puis de la diviser par l'écart type du champ. Cela entraîne un nouveau champ comportant une moyenne de zéro et un écart-type de un.
La transformation de l'intervalle unitaire implique de soustraire la valeur minimale d'un champ des valeurs de champ, puis de la diviser par la différence entre la valeur maximale et minimale du champ. Cela entraîne un nouveau champ comportant des valeurs allant de zéro à un. Les solutions de clustering sont très sensibles à la mise à l’échelle des données, en particulier si l’échelle d’un champ est très différente de celle d’un autre. Par conséquent, envisagez d’utiliser la mise à l’échelle des données.

Méthode de regroupement: choisissez un des k-means, des k-médians, ou du gaz neural.
Nombre de clusters: sélectionnez le nombre de clusters dans la solution.
Nombre de graines de départ: les méthodes K-centroïdes commencent par prendre des points choisis au hasard comme centroïdes initial. La solution finale déterminée par chaque méthode peut être influencée par les points initiaux. En cas d’utilisation de plusieurs amorces de départ, la meilleure solution de l’ensemble de solutions est conservée comme solution finale.

Utilisez l' onglet options de traçage pour définir les contrôles du tracé.

Points de traçage: Si coché, tous les points des données seront tracés et représentés par le numéro de cluster auquel chaque point est assigné dans la solution.
Plot centroïdes: Si coché, cluster centroïdes sera tracé, et représenté par le numéro du cluster pour lequel il est le milieu.
Le plus grand nombre de dimensions à inclure dans les biparcelles: un biplot est un moyen de visualiser une des solutions de clustering (via les composants principaux) dans un espace plus petit dimensions. La dimension est réalisée deux dimensions à la fois. Cette option définit la limite supérieure des dimensions à utiliser dans la visualisation. Par exemple, si ce paramètre a la valeur « 3 », les biplots incluent les premier et deuxième, premier et troisième et deuxième et troisième composants principaux dans trois figures distinctes.

Utilisez l' onglet options graphiques pour définir les contrôles pour la sortie.

Tailledu tracé: sélectionnez pouces ou centimètres pour la taille du graphique.
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
Taille de police de base (points): sélectionnez la taille de la police dans le graphique.

Sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

O ancre: se compose d'une table du modèle sérialisé avec le nom du modèle et la taille de l'objet.
R Anchor: se compose des extraits de rapport générés par l'outil d'analyse de cluster K-centroïdes: un résumé statistique et des parcelles de solution de cluster.

* en.wikipedia.org/wiki/K-means_clustering * * en.wikipedia.org/wiki/K-medians_clustering * **en.wikipedia.org/wiki/Neural_gas