Herramienta de diagnóstico de K-centroides
La herramienta de diagnóstico k-centroides está diseñada para permitir al usuario realizar una evaluación del número adecuado de clústeres para especificar los datos y el algoritmo de agrupamiento seleccionado (k-means, k-medians, o gas neural). La herramienta es gráfica y se basa en el cálculo de dos estadísticas diferentes sobre las muestras replicadas de bootstrap de los datos originales para una gama de soluciones de clustering que difieren en el número de clústeres especificados. La motivación detrás de este enfoque es que si los registros en una base de datos realmente caen en un conjunto de clústeres estables, entonces debe ser el caso de que un conjunto de diferentes muestras aleatorias de esos registros debe dar lugar a aproximadamente el conjunto de clústeres a través del bootstrap se replica, a excepción de las pequeñas diferencias que se deben a la variabilidad de la muestra aleatoria y a la aleatoriedad inducida por el método utilizado para generar el conjunto de inicio de centroides, mediante la selección de puntos k al azar, en el algoritmo general de k-centroides. Las dos medidas examinadas son el índice Rand ajustado y el índice Calinski – Harabasz (también conocido como los criterios de ratio de varianza y la estadística pseudo-F).
El índice Rand ajustado proporciona una medida de similitud entre dos soluciones de clustering diferentes, tomando un valor máximo de uno cuando las dos soluciones de clustering se superponen perfectamente. * el índice puede ser utilizado para determinar el relativo y absoluto reproducibilidad de una solución de clustering mediante la comparación de pares de soluciones, donde cada par se basa en una muestra diferente de datos de cliente. Cuanto mayor sea la superposición entre pares de soluciones, mayor será la reproducibilidad de la estructura del clúster.
El índice Calinski-Harabasz se basa en la comparación de la relación ponderada entre la suma de los cuadrados (la medida de la separación del clúster) y la suma de los cuadrados dentro del clúster (la medida de cómo se empaquetan estrechamente los puntos dentro de un clúster). Idealmente, los clústeres deben estar bien separados, por lo que la suma entre el valor de los cuadrados debe ser grande, pero los puntos dentro de un clúster deben estar lo más cerca posible el uno del otro, dando como resultado valores más pequeños de la suma dentro del clúster de medida de cuadrados. Dado que el índice Calinski-Harabasz es una relación, con la suma de los cuadrados entre el numerador y la suma de cuadrados dentro del denominador, las soluciones de clúster con valores más grandes del índice corresponden a soluciones "mejores" que las soluciones de clúster con valores más pequeños.
La salida de la herramienta es información acerca de la distribución de las dos estadísticas para diferentes números de clústeres en las réplicas de bootstrap. La información se transmite a través de dos parcelas de cajas y bigotes (una para el índice Rand ajustado y el índice Calinski-Harabasz) y estadísticas resumidas de las dos medidas. El número preferido de clusters basado en cada medida corresponde a uno con la media más alta y mediana de las soluciones comparadas. Además, es deseable que la dispersión en las estadísticas calculadas a través de las replicaciones de bootstrap no sea demasiado grande.
Esta herramienta puede ser muy intensiva computacionalmente. La intensidad depende del número de registros utilizados en el cálculo (que puede ser alterado mediante el uso de la opción de expresión de subconjuntos), el número de diferentes soluciones de clusterización examinadas (determinadas por rango entre el número mínimo y máximo de clústeres), el número de replicaciones de arranque y el número de semillas de inicio diferentes utilizadas para cada solución de clúster (el número de opciones de inicio de semilla). Reducir el número de replicaciones de bootstrap para usar redujo considerablemente la cantidad de tiempo de equipo necesario, pero con un gran costo de precisión. Para el análisis real, se recomienda que el usuario nunca utilice menos de 100 replicaciones de bootstrap, y utilice más si es posible.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.
Configurar la herramienta
- Campos (Seleccione dos o más): seleccione los campos numéricos que se usarán en la construcción de la solución de clúster.
- Estandarizar los campos... : Al seleccionar esta opción, el usuario tiene la opción de estandarizar las variables utilizando una puntuación z o una estandarización de intervalos unitarios.
- La transformación z-score implica restar el valor medio para cada campo de los valores del campo y luego dividirse por la desviación estándar del campo. Esto da como resultado un nuevo campo que tiene una media de cero y una desviación estándar de uno.
- La transformación de intervalo unitario implica sustraer el valor mínimo de un campo de los valores de campo y, a continuación, dividir por la diferencia entre el valor máximo y mínimo del campo. Esto da como resultado un nuevo campo que tiene valores que van desde cero a uno. Las soluciones de clustering son muy sensibles a la escala de los datos, especialmente si un campo está en una escala muy diferente a otra. Como resultado, la escala de los datos es algo que debe tenerse en cuenta.
- Método de clustering: elija uno de k-means, k-medians, o gas neural.
- Número mínimo de clústeres: seleccione el número mínimo de clústeres a considerar en la solución.
- Número máximo de clústeres: seleccione el número máximo de clústeres a considerar en la solución.
- El bootstrap Replica: el número de repeticiones de bootstrap que se usan para calcular los dos índices. Los valores posibles están entre 50 y 200.
- Número de semillas iniciales: los métodos K-centroides comienzan tomando puntos seleccionados aleatoriamente como el centroides inicial. La solución final determinada por cada uno de los métodos puede ser influenciada por los puntos iniciales. Si se utilizan varias semillas de arranque, la mejor solución fuera del conjunto de soluciones se mantiene como la solución final.