Herramienta de análisis de clústeres K-centroides

K-centroides representa una clase de algoritmos para hacer lo que se conoce como particionamiento de Cluster Analysis. Estos métodos funcionan al tomar los registros en una base de datos y dividirlos (particionarlos) en los "mejores" grupos K basados en algunos criterios. Casi todos los métodos del análisis del racimo el repartir logran su objetivo basando la calidad de miembro del racimo en la proximidad de cada expediente a uno de K señala (o "centroides") en los datos. El objetivo de estos algoritmos de clustering es encontrar la ubicación del centroides que optimice algunos criterios con respecto a la distancia entre el centroide de un clúster y los puntos asignados a ese clúster para un número pre-especificado de clústeres en los datos. Los algoritmos específicos se diferencian entre sí en los criterios utilizados para definir un clúster centroide y las medidas de distancia utilizadas para definir la proximidad de un punto de un clúster a la centroide de ese clúster.

Con esta herramienta se pueden realizar tres tipos específicos de análisis de clúster k-centroides: k-means, k-medians y clustering de gas neural. K-means utiliza el valor medio de los campos para los puntos de un clúster para definir un centroide, y las distancias euclidianas se utilizan para medir la proximidad de un punto a un centroide. * K-medians utiliza el valor medio de los campos para los puntos de un clúster para definir un centroide , y Manhattan (también llamada ciudad-bloque) la distancia se utiliza para medir proximidad. * * clustering de gas neural es similar a K-means en que utiliza la distancia euclidiana entre un punto y el centroides para asignar ese punto a un clúster en particular. * * *. Sin embargo, el método difiere de K-means en cómo se calculan los centroides del clúster, con la ubicación del centroide para un clúster que implica un promedio ponderado de todos los puntos de datos, con los puntos asignados al clúster para el que se está construyendo el centroide recibiendo el mayor peso, puntos desde el cluster más distante del cluster focal que recibe el peso más bajo, y los pesos dados a los puntos en racimos intermedios disminuyendo como la distancia entre el clúster focal y el cluster al que un punto es aumentos asignados.

Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.

Configurar la herramienta

Utilice la ficha Configuración para definir los controles del análisis de clústeres.

  1. Nombrede la solución: cada solución de clúster debe recibir un nombre para poder identificarlo más adelante. Los nombres de las soluciones deben comenzar con una letra y pueden contener letras, números y el período de caracteres especiales (".") y subrayado ("_"). No se permiten otros caracteres especiales, y R distingue entre mayúsculas y minúsculas.
  2. Campos (Seleccione dos o más): seleccione los campos numéricos que se usarán en la construcción de la solución de clúster.
  3. Estandarizar los campos... : Al seleccionar esta opción, el usuario tiene la opción de estandarizar las variables utilizando una puntuación z o una estandarización de intervalos unitarios.
    • La transformación z-score implica restar el valor medio para cada campo de los valores del campo y luego dividirse por la desviación estándar del campo. Esto da como resultado un nuevo campo que tiene una media de cero y una desviación estándar de uno.
    • La transformación de intervalo unitario implica sustraer el valor mínimo de un campo de los valores de campo y, a continuación, dividir por la diferencia entre el valor máximo y mínimo del campo. Esto da como resultado un nuevo campo que tiene valores que van desde cero a uno. Las soluciones de clustering son muy sensibles a la escala de los datos, especialmente si un campo está en una escala muy diferente a otra. Como resultado, la escala de los datos es algo que debe tenerse en cuenta.
  4. Método de clustering: elija uno de k-means, k-medians, o gas neural.
  5. Número de clústeres: seleccione el número de clústeres de la solución.
  6. Número de semillas iniciales: los métodos K-centroides comienzan tomando puntos seleccionados aleatoriamente como el centroides inicial. La solución final determinada por cada uno de los métodos puede ser influenciada por los puntos iniciales. Si se utilizan varias semillas de arranque, la mejor solución fuera del conjunto de soluciones se mantiene como la solución final.

Utilice la ficha Opciones de trazado para establecer los controles de la trama.

  1. Puntosde trazado: si se comprueba, se trazarán todos los puntos de los datos y se representarán por el número de clúster en el que se asignará cada punto de la solución.
  2. Plot centroides: si se comprueba, el clúster centroides será trazado y representado por el número del clúster para el que es el centroide.
  3. El mayor número de dimensiones a incluir en las biparcelas: un biplot es un medio para visualizar una solución de clustering (a través de componentes principales) en un espacio dimensional más pequeño. La cota se realiza dos dimensiones a la vez. Esta opción establece el límite superior de las cotas que se utilizarán en la visualización. Por ejemplo, si este parámetro se establece en "3", entonces los dos diagramas incluirán los componentes primero y segundo, primero y tercero, y segundo y tercer principal en tres figuras separadas.

Utilice la ficha opciones gráficas para definir los controles de la salida.

  • Tamaño de la parcela: seleccione pulgadas o centímetros para el tamaño del gráfico.
  • Resolución del gráfico: selecciona la resolución del gráfico en puntos por pulgada: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La resolución más baja crea un archivo más pequeño y es el mejor para la visión en un monitor. Una resolución más alta crea un archivo más grande con una mejor calidad de impresión.

  • Tamaño de fuente base (puntos): seleccione el tamaño de la fuente en el gráfico.

Salida

Conecta una herramienta Explorar con cada ancla de salida para ver los resultados.

  • O Anchor: consiste en una tabla del modelo serializado con el nombre del modelo y el tamaño del objeto.
  • R Anchor: consiste en los fragmentos de informe generados por la herramienta de análisis de clústeres K-centroides: un resumen estadístico y parcelas de solución de clúster.

*en.wikipedia.org/wiki/K-means_clustering * *en.wikipedia.org/wiki/K-medians_clustering* * *en.wikipedia.org/wiki/Neural_gas