K-Centroids Cluster Analysis Tool Icon

Outil Analyse Des Clusters K-centroïdes

Version:
2022.3
Last modified: September 25, 2020

Les k-centroïdes sont une classe d’algorithmes permettant d’effectuer ce que l’on appelle une « analyse de clusters de partitionnement ». Ces méthodes utilisent les enregistrements d’une base de données et les répartissent (les « partitionnent ») dans les « meilleurs » k groupes sur la base de certains critères. Pratiquement toutes les méthodes d’analyse de clusters de partitionnement atteignent leur objectif en basant l’appartenance de cluster à la proximité de chaque enregistrement sur l’un des k-points (ou « centroïdes ») dans les données. L’objectif de ces algorithmes de clustering est de trouver l’emplacement des centroïdes qui optimise certains critères par rapport à la distance entre le centroïde d’un cluster et les points attribués à ce cluster pour un nombre prédéfini de clusters dans les données. Les algorithmes spécifiques diffèrent l’un par rapport à l’autre en termes de critères servant à définir un centroïde de cluster et de mesures de la distance servant à définir la proximité d’un point dans un cluster par rapport au centroïde de ce cluster.

Trois types spécifiques d'analyse de grappes de k-centroïdes peuvent être réalisés avec cet outil: k-means, k-médianes, et le clustering de gaz neural. La méthode k-moyennes utilise la valeur moyenne des champs pour les points d’un cluster afin de définir un centroïde, et les distances euclidiennes servent à mesurer la proximité d’un point par rapport à un centroïde.* La méthode k-médianes utilise la valeur médiane des champs pour les points d’un cluster afin de définir un centroïde, et la distance de Manhattan sert à mesurer la proximité.** Le clustering Gaz neuronal est similaire à la méthode k-moyennes, car elle utilise la distance euclidienne entre un point et les centroïdes pour attribuer un cluster donné à ce point.*** . Toutefois, cette méthode diffère des k-moyennes en ce qui concerne le mode de calcul des centroïdes de cluster, l’emplacement du centroïde d’un cluster impliquant une moyenne pondérée de tous les points de données, les points attribués au cluster pour lequel le centroïde est construit recevant la pondération la plus élevée, les points du cluster le plus éloigné du cluster focal recevant la pondération la plus faible, et les pondérations données aux points dans les clusters intermédiaires diminuant au fur et à mesure que la distance entre le cluster focal et le cluster auquel un point est attribué augmente.

Cet outil utilise l’outil R. Sélectionnez options > Télécharger les outils prédictifs et connectez-vous au portail Téléchargements et licences Alteryx pour installer R et les paquets utilisés par l'outil R. Voir Télécharger et utiliser les outils prédictifs.

Configuration de l'outil

Utilisez l' onglet Configuration pour définir les contrôles de l'analyse du cluster.

  1. Nom de la solution: Chaque solution de cluster doit être donnée un nom afin qu'il puisse être identifié plus tard. Le nom d’une solution doit commencer par une lettre et peut contenir des lettres, des chiffres et les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
  2. Champs (sélectionnez deux ou plus) : Sélectionnez les champs numériques à utiliser pour la construction de la solution cluster.
  3. Normaliser les champs...: En sélectionnant cette option, l'utilisateur a le choix de standardiser les variables en utilisant soit un z-score ou une normalisation d'intervalle unitaire.
    • La transformation z-score implique de soustraire la valeur moyenne pour chaque champ des valeurs du champ, puis de la diviser par l'écart type du champ. Cela entraîne un nouveau champ comportant une moyenne de zéro et un écart-type de un.
    • La transformation de l'intervalle unitaire implique de soustraire la valeur minimale d'un champ des valeurs de champ, puis de la diviser par la différence entre la valeur maximale et minimale du champ. Cela entraîne un nouveau champ comportant des valeurs allant de zéro à un. Les solutions de clustering sont très sensibles à la mise à l’échelle des données, en particulier si l’échelle d’un champ est très différente de celle d’un autre. Par conséquent, envisagez d’utiliser la mise à l’échelle des données.
  4. Méthode de clustering : Choisissez l'un des K-Means, K-Medians, ou le gaz neuronal.
  5. Nombre de clusters: sélectionnez le nombre de clusters dans la solution.
  6. Nombre de graines de départ: les méthodes K-centroïdes commencent par prendre des points choisis au hasard comme centroïdes initial. La solution finale déterminée par chaque méthode peut être influencée par les points initiaux. En cas d’utilisation de plusieurs amorces de départ, la meilleure solution de l’ensemble de solutions est conservée comme solution finale.

Utilisez l'onglet Options de parcelle pour définir les contrôles de l'intrigue.

  1. Points de traçage: Si coché, tous les points des données seront tracés et représentés par le numéro de cluster auquel chaque point est assigné dans la solution.
  2. Centroïdes de parcelle : S'ils sont vérifiés, les centroïdes de cluster seront tracés et représentés par le nombre du cluster pour lequel il est le centroïde.
  3. Le plus grand nombre de dimensions à inclure dans les biplots: Un biplot est un moyen de visualiser les solutions de clustering (via les principaux composants) dans un espace dimensionnel plus petit. La dimension est réalisée deux dimensions à la fois. Cette option définit la limite supérieure des dimensions à utiliser dans la visualisation. Par exemple, si ce paramètre a la valeur « 3 », les biplots incluent les premier et deuxième, premier et troisième et deuxième et troisième composants principaux dans trois figures distinctes.

Utilisez l' onglet options graphiques pour définir les contrôles pour la sortie.

  • Taille de l'intrigue: Sélectionnez pouces ou centimètres pour la taille du graphique.
  • Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
  • Taille de la police de base (points) : Sélectionnez la taille de la police dans le graphique.

Sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

  • O ancre: se compose d'une table du modèle sérialisé avec le nom du modèle et la taille de l'objet.
  • R Anchor: se compose des extraits de rapport générés par l'outil d'analyse de cluster K-centroïdes: un résumé statistique et des parcelles de solution de cluster.

en.wikipedia.org/wiki/K-means_clustering
en.wikipedia.org/wiki/K-medians_clustering
en.wikipedia.org/wiki/Neural_gas

Cette page vous a-t-elle été utile ?

Vous rencontrez des problèmes avec votre produit Alteryx ? Visitez la communauté Alteryx ou contactez le  support. Vous n'arrivez pas à soumettre ce formulaire ? Envoyez-nous un e-mail.