K-centróides ferramenta de análise de cluster

O K-centróides representa uma classe de algoritmos para fazer o que é conhecido como análise de cluster de particionamento. Esses métodos de trabalho, levando os registros em um banco de dados e dividindo (particionamento)-los para os "melhores" grupos K com base em alguns critérios. Quase todos os métodos de análise de cluster de particionamento realizam seu objetivo, baseando a associação de cluster na proximidade de cada registro a um dos pontos K (ou "centróides") nos dados. O objetivo desses algoritmos de cluster é localizar o local do centróides que otimiza alguns critérios em relação à distância entre o centróide de um cluster e os pontos atribuídos a esse cluster para um número previamente especificado de clusters nos dados. Os algoritmos específicos diferem um do outro em ambos os critérios usados para definir um centróide de cluster e as medidas de distância usadas para definir a proximidade de um ponto em um cluster para centróide do cluster.

Três tipos específicos de análise de cluster k-centróides podem ser realizados com esta ferramenta: k-Means, k-medianas e clusters de gás neural. K-means usa o valor médio dos campos para os pontos em um cluster para definir um centróide, e as distâncias euclidiana são usadas para medir a proximidade de um ponto a um centróide. * K-medianas usa o valor mediano dos campos para os pontos em um cluster para definir um centróide , e Manhattan (também chamado de bloco de cidade) a distância é usada para medir a proximidade. * * aglomeração de gás neural é semelhante a K-means em que ele usa a distância euclidiana entre um ponto e o centróides para atribuir esse ponto a um cluster específico. * * *. No entanto, o método difere de K-means na forma como os centróides de cluster são calculados, com a localização do centróide para um cluster envolvendo uma média ponderada de todos os pontos de dados, com os pontos atribuídos ao cluster para o qual o centróide está sendo construído recebendo o maior peso, pontos do aglomerado mais distante do aglomerado focal recebendo o menor peso, e os pesos dados a pontos em clusters intermediários diminuindo como a distância entre o aglomerado focal e o cluster ao qual um ponto é aumentos atribuídos.

Esta ferramenta utiliza a ferramenta R. Acesse Opções > Baixar ferramentas preditivas e faça login em Portal de downloads and licenças do Alteryx para instalar o R e os pacotes usados pela Ferramenta R. Veja Baixar e utilizar ferramentas preditivas.

Configure a ferramenta

Use a guia configuração para definir os controles da análise de cluster.

  1. Nome da solução: cada solução de cluster precisa ser dada um nome para que possa ser identificada posteriormente. Os nomes das soluções devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
  2. Campos (selecione dois ou mais): selecione os campos numéricos a serem usados na construção da solução de cluster.
  3. Padronizar os campos... : Ao selecionar esta opção, o usuário recebe a opção de padronizar as variáveis usando uma padronização de intervalo de z ou de unidade.
    • A transformação de pontuação z envolve subtrair o valor médio de cada campo dos valores do campo e, em seguida, dividido pelo desvio padrão do campo. Isso resulta em um novo campo que tem uma média de zero e um desvio padrão de um.
    • A transformação de intervalo de unidade envolve a subtração do valor mínimo de um campo dos valores de campo e, em seguida, dividindo-se pela diferença entre o valor máximo e mínimo do campo. Isso resulta em um novo campo que tem valores que variam de zero para um. As soluções de clustering são muito sensíveis ao dimensionamento dos dados, especialmente se um campo estiver em uma escala muito diferente do outro. Como resultado, o dimensionamento dos dados é algo que deve ser considerado.
  4. Método de agrupamento: escolha um dos k-means, k-medianas, ou gás neural.
  5. Número de clusters: selecione o número de clusters na solução.
  6. Número de sementes de partida: os métodos K-centróides começam por tomar pontos selecionados aleatoriamente como o centróides inicial. A solução final determinada por cada um dos métodos pode ser influenciada pelos pontos iniciais. Se forem utilizadas várias sementes de arranque, a melhor solução para fora do conjunto de soluções é mantida como a solução final.

Use a guia opções de plotagem para definir os controles da plotagem.

  1. Pontos de plotagem: se verificado, todos os pontos dos dados serão plotados e representados pelo número de cluster a cada ponto é atribuído na solução.
  2. Plotagem centróides: se verificado, o cluster centróides será plotado e representado pelo número do cluster para o qual ele é o centróide.
  3. O maior número de dimensões a incluir em biparcelas: um biplotar é um meio de visualizar uma solução de clustering (através de componentes principais) em um espaço dimensional menor. A dimensão é feita duas dimensões de cada vez. Essa opção define o limite superior das dimensões a serem usadas na visualização. Por exemplo, se este parâmetro é definido como "3", em seguida, biplotas incluirá o primeiro e segundo, primeiro e terceiro, e segundo e terceiro principais componentes em três figuras separadas.

Use a guia opções de gráficos para definir os controles para a saída.

  • Tamanhodo lote: selecione polegadas ou centímetros para o tamanho do gráfico.
  • Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.

  • Tamanho da fonte base (pontos): selecione o tamanho da fonte no gráfico.

Saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • O Anchor: consiste em uma tabela do modelo serializado com o nome do modelo e o tamanho do objeto.
  • R Anchor: consiste nos trechos de relatório gerados pela ferramenta de análise de cluster K-centróides: um resumo estatístico e parcelas de solução de cluster.

*en.wikipedia.org/wiki/K-means_clustering * *en.wikipedia.org/wiki/K-medians_clustering* * *en.wikipedia.org/wiki/Neural_gas