K-centróides ferramenta de diagnóstico

A ferramenta de diagnóstico K-centróides foi projetada para permitir que o usuário faça uma avaliação do número apropriado de clusters para especificar dados e o algoritmo de clustering selecionado (k-Means, k-medianas ou gás neural). A ferramenta é gráfica e baseia-se no cálculo de duas estatísticas diferentes sobre Bootstrap replicar amostras dos dados originais para um intervalo de solução de clustering que diferem no número de clusters especificados. A motivação por trás dessa abordagem é que se os registros em um banco de dados realmente cair em um conjunto de clusters estáveis, então deve ser o caso de um conjunto de diferentes amostras aleatórias desses registros deve resultar em aproximadamente o conjunto de clusters em Bootstrap Replica, exceto para pequenas diferenças que são devido à variabilidade de amostra aleatória e à aleatoriedade induzida pelo método usado para gerar o conjunto inicial de centróides, através da seleção de k pontos aleatoriamente, no algoritmo geral k-centróides. As duas medidas examinadas são o índice Rand ajustado e o índice Calinski – Harabasz (também conhecido como critérios de rácio de variância e a estatística pseudo-F).

O índice Rand ajustado fornece uma medida de semelhança entre duas diferentes soluções de clustering, tendo um valor máximo de um quando as duas soluções de agrupamento se sobrepõem perfeitamente. * o índice pode ser usado para determinar tanto o relativo e absoluto reprodutibilidade de uma solução de clustering comparando pares de soluções, onde cada par é baseado em uma amostra diferente de dados do cliente. Quanto maior a sobreposição entre pares de soluções implica maior a reprodutibilidade da estrutura do cluster.

O índice Calinski – Harabasz é baseado na comparação da proporção ponderada entre a soma do cluster de quadrados (a medida da separação de clusters) e a soma do cluster de quadrados (a medida de quão bem embalado os pontos estão dentro de um cluster). Idealmente, os clusters devem ser bem separados, de modo que a soma do valor de quadrados do cluster deve ser grande, mas os pontos dentro de um cluster devem ser o mais próximo possível uns dos outros, resultando em valores menores da soma do cluster de quadrados de medida. Como o índice Calinski – Harabasz é uma proporção, com a soma de cluster de quadrados no numerador e a soma de clusters dentro do denominador, as soluções de cluster com valores maiores do índice correspondem a soluções "melhores" do que as soluções de cluster com valores menores.

A saída da ferramenta é informações sobre a distribuição das duas estatísticas para diferentes números de clusters em todo o bootstrap Replica. A informação é transportada através de duas parcelas da caixa e do Whisker (uma cada para o índice ajustado do Rand e o índice de Calinski-Harabasz) e estatísticas sumárias para as duas medidas. O número preferencial de clusters com base em cada medida corresponde a um com a média mais alta e mediana das soluções em comparação. Além disso, é desejável que a dispersão nas estatísticas calculadas em todo o bootstrap Replica não seja muito grande.

Esta ferramenta pode ser muito computacionalmente intensiva. A intensidade depende do número de registros usados no cálculo (que pode ser alterado por meio do uso da opção de expressão de subconjunto), o número de diferentes soluções de clustering examinadas (determinado por intervalo entre o número mínimo e máximo de clusters), o número de inicialização Replica e o número de diferentes sementes iniciais usadas para cada solução de cluster (o número de opção de semente inicial). Reduzir o número de Bootstrap Replica para usar muito reduzido a quantidade de tempo de computador necessário, mas a um grande custo de precisão. Para análise real, é recomendável que o usuário nunca use menos de 100 Bootstrap replicates e usar mais, se possível.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Configure a ferramenta

Campos (selecione dois ou mais): selecione os campos numéricos a serem usados na construção da solução de cluster.
Padronizar os campos... : Ao selecionar esta opção, o usuário recebe a opção de padronizar as variáveis usando uma padronização de intervalo de z ou de unidade.

A transformação de pontuação z envolve subtrair o valor médio de cada campo dos valores do campo e, em seguida, dividido pelo desvio padrão do campo. Isso resulta em um novo campo que tem uma média de zero e um desvio padrão de um.
A transformação de intervalo de unidade envolve a subtração do valor mínimo de um campo dos valores de campo e, em seguida, dividindo-se pela diferença entre o valor máximo e mínimo do campo. Isso resulta em um novo campo que tem valores que variam de zero para um. As soluções de clustering são muito sensíveis ao dimensionamento dos dados, especialmente se um campo estiver em uma escala muito diferente do outro. Como resultado, o dimensionamento dos dados é algo que deve ser considerado.

Método de agrupamento: escolha um dos k-means, k-medianas, ou gás neural.
Número mínimo de clusters: selecione o número mínimo de clusters a serem considerados na solução.
Número máximo de clusters: selecione o número máximo de clusters a serem considerados na solução.
Bootstrap Replica: o número de Bootstrap replicates a ser usado para calcular os dois índices. Os valores possíveis estão entre 50 e 200.
Número de sementes de partida: os métodos K-centróides começam por tomar pontos selecionados aleatoriamente como o centróides inicial. A solução final determinada por cada um dos métodos pode ser influenciada pelos pontos iniciais. Se forem utilizadas várias sementes de arranque, a melhor solução para fora do conjunto de soluções é mantida como a solução final.

*en.wikipedia.org/wiki/Rand_index