Outil Diagnostics des k-centroïdes

L’outil Diagnostics des k-centroïdes permet d’évaluer le nombre de clusters à spécifier en fonction des données et de l’algorithme de clustering (K-moyennes, K-médianes, ou Gaz neuronal) sélectionné. Cet outil graphique est basé sur le calcul de deux statistiques différentes dans des échantillons de répliques bootstrap des données d’origine pour une série de solutions de clustering qui se différencient par le nombre de clusters spécifié. Le principe de cette approche est que, si les enregistrements d’une base de données sont réellement compris dans un jeu de clusters stables, un jeu d’autres échantillons aléatoires de ces enregistrements devrait générer environ le jeu de clusters dans les répliques bootstrap, à l’exception de petites différences dues à la variabilité des échantillons aléatoires et au caractère aléatoire induit par la méthode utilisée pour générer le jeu de centroïdes de départ, par la sélection de k-points au hasard, dans l’algorithme de k-centroïdes général. Les deux mesures examinées sont l’indice de Rand ajusté et l’indice de Calinski-Harabasz (également appelé « critère de ratio des variances » et « statistique pseudo-F »).

L’indice de Rand ajusté fournit une mesure de similarité entre deux solutions de clustering différentes en utilisant une valeur maximum de un lorsque les deux solutions de clustering se chevauchent à la perfection.* L’indice peut servir à déterminer la reproductibilité relative et absolue d’une solution de clustering en comparant des paires de solutions, chaque paire étant basée sur un échantillon différent de données client. Plus le chevauchement entre les paires de solutions est important, plus la reproductibilité de la structure des clusters est grande.

L’indice de Calinski-Harabasz repose sur la comparaison du rapport pondéré de la somme des carrés entre les clusters (mesure de la séparation de clusters) et de la somme des carrés dans le cluster (mesure de proximité des points dans un cluster). De manière idéale, les clusters doivent être bien séparés, afin que la somme des carrés entre les clusters soit élevée, mais les points dans un cluster doivent être les plus proches possible l’un de l’autre, ce qui entraîne de plus petites valeurs pour la mesure de la somme des carrés dans le cluster. Étant donné que l’indice de Calinski-Harabasz est un rapport, avec la somme des carrés entre les clusters au niveau du numérateur et la somme des carrés dans le cluster au niveau du dénominateur, les solutions de cluster dont l’indice est élevé correspondent à de « meilleures » solutions que celles présentant des valeurs plus petites.

La sortie de l’outil correspond à des informations sur la répartition des deux statistiques pour des nombres de clusters différents dans les répliques bootstrap. Ces informations sont transmises via deux boîtes à moustaches (une pour l’indice de Rand ajusté et une pour l’indice de Calinski-Harabasz) et les statistiques récapitulatives pour les deux mesures. Le nombre de clusters de préférence en fonction de chaque mesure correspond à la valeur moyenne et médiane la plus élevée des solutions comparées. En outre, il est souhaitable que la dispersion dans les statistiques calculées dans les répliques bootstrap ne soit pas trop élevée.

Cet outil peut être soumis à des calculs très intensifs. L’intensité dépend du nombre d’enregistrements utilisés dans le calcul (qui peut être modifié via l’option d’expression de sous-ensemble), du nombre de solutions de clustering différentes examinées (déterminé par la plage entre le nombre minimum de clusters et le nombre maximum), du nombre de répliques bootstrap et du nombre d’amorces de départ différentes utilisées pour chaque solution de clustering (option de nombre d’amorces de départ). Si vous diminuez le nombre de répliques bootstrap à utiliser, le temps de traitement nécessaire diminue considérablement, au détriment de la précision. Pour une analyse réelle, il est recommandé de ne jamais utiliser moins de 100 répliques bootstrap, et d’en utiliser plus dans la mesure du possible.

Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.

Configurer l’outil

  1. Champs (sélectionnez deux ou plusieurs): sélectionnez les champs numériques à utiliser pour la construction de la solution de cluster.
  2. Standardiser les champs... : En sélectionnant cette option, l'utilisateur a le choix de standardiser les variables en utilisant soit un z-score ou un intervalle d'unité de normalisation.
    • La transformation z-score implique de soustraire la valeur moyenne pour chaque champ des valeurs du champ, puis de la diviser par l'écart type du champ. Cela entraîne un nouveau champ comportant une moyenne de zéro et un écart-type de un.
    • La transformation de l'intervalle unitaire implique de soustraire la valeur minimale d'un champ des valeurs de champ, puis de la diviser par la différence entre la valeur maximale et minimale du champ. Cela entraîne un nouveau champ comportant des valeurs allant de zéro à un. Les solutions de clustering sont très sensibles à la mise à l’échelle des données, en particulier si l’échelle d’un champ est très différente de celle d’un autre. Par conséquent, envisagez d’utiliser la mise à l’échelle des données.
  3. Méthode de regroupement: choisissez un des k-means, des k-médians, ou du gaz neural.
  4. Nombre minimum de clusters: sélectionnez le nombre minimal de clusters à considérer dans la solution.
  5. Nombre maximal de clusters: sélectionnez le nombre maximal de clusters à considérer dans la solution.
  6. Bootstrap se réplique: nombre de répliques bootstrap à utiliser pour calculer les deux indices. Les valeurs possibles sont comprises entre 50 et 200.
  7. Nombre de graines de départ: les méthodes K-centroïdes commencent par prendre des points choisis au hasard comme centroïdes initial. La solution finale déterminée par chaque méthode peut être influencée par les points initiaux. En cas d’utilisation de plusieurs amorces de départ, la meilleure solution de l’ensemble de solutions est conservée comme solution finale.

*en.wikipedia.org/wiki/Rand_index