
K-centróides Ferramenta De Análise De Cluster
O K-centróides representa uma classe de algoritmos para fazer o que é conhecido como análise de cluster de particionamento. Esses métodos de trabalho, levando os registros em um banco de dados e dividindo (particionamento)-los para os "melhores" grupos K com base em alguns critérios. Quase todos os métodos de análise de cluster de particionamento realizam seu objetivo, baseando a associação de cluster na proximidade de cada registro a um dos pontos K (ou "centróides") nos dados. O objetivo desses algoritmos de cluster é localizar o local do centróides que otimiza alguns critérios em relação à distância entre o centróide de um cluster e os pontos atribuídos a esse cluster para um número previamente especificado de clusters nos dados. Os algoritmos específicos diferem um do outro em ambos os critérios usados para definir um centróide de cluster e as medidas de distância usadas para definir a proximidade de um ponto em um cluster para centróide do cluster.
Três tipos específicos de análise de cluster k-centróides podem ser realizados com esta ferramenta: k-Means, k-medianas e clusters de gás neural. K-Means usa o valor médio dos campos para os pontos em um cluster para definir um centroide, e distâncias euclidianas são usadas para medir a proximidade de um ponto com um centroide.* K-Medians usa o valor médio dos campos para os pontos em um cluster para definir um centroide, e Manhattan (também chamada de bloco da cidade) é usada para medir a proximidade.** O agrupamento de gás neural é semelhante ao K-Means, pois usa a distância euclidiana entre um ponto e os centrosids atribuir esse ponto a um determinado cluster.*** No entanto, o método difere de K-Means na forma como os centrosídeos de cluster são calculados, com a localização do centroide para um cluster envolvendo uma média ponderada de todos os pontos de dados, com os pontos atribuídos ao cluster para o qual o centroide está sendo construído recebendo o maior peso, pontos do cluster mais distante do aglomerado focal recebendo o menor peso , e os pesos dados aos pontos em aglomerados intermediários diminuem à medida que a distância entre o aglomerado focal e o aglomerado ao qual um ponto é atribuído aumenta.
Esta ferramenta utiliza a ferramenta R. Vá para Opções > Baixe ferramentas preditivas e faça login no portal Alteryx Downloads and Licenses para instalar R e os pacotes usados pela ferramenta R. Consulte Baixar e utilizar ferramentas preditivas.
Configurar a ferramenta
Guia de configuração
Use a guia configuração para definir os controles da análise de cluster.
- Nome da solução: cada solução de cluster precisa ser dada um nome para que possa ser identificada posteriormente. Os nomes das soluções devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
- Campos (selecionar dois ou mais): Selecione os campos numéricos a serem usados na construção da solução de cluster.
- Padronize os campos...: Selecione esta opção para optar por padronizar as variáveis através de uma padronização de intervalo de pontuação z ou unidade.
- A transformação de pontuação z envolve subtrair o valor médio de cada campo dos valores do campo e, em seguida, dividido pelo desvio padrão do campo. Isso resulta em um novo campo que tem uma média de zero e um desvio padrão de um.
- A transformação de intervalo de unidade envolve a subtração do valor mínimo de um campo dos valores de campo e, em seguida, dividindo-se pela diferença entre o valor máximo e mínimo do campo. Isso resulta em um novo campo que tem valores que variam de zero para um. As soluções de clustering são muito sensíveis ao dimensionamento dos dados, especialmente se um campo estiver em uma escala muito diferente do outro. Como resultado, o dimensionamento dos dados é algo que deve ser considerado.
- Método de agrupamento: escolha um dos -ERR:REF-NOT-FOUND-k-means, -ERR:REF-NOT-FOUND-k-medianas, ou -ERR:REF-NOT-FOUND-gás neural.
- Número de clusters: selecione o número de clusters na solução.
- Número de sementes de partida: os métodos K-centróides começam por tomar pontos selecionados aleatoriamente como o centróides inicial. A solução final determinada por cada um dos métodos pode ser influenciada pelos pontos iniciais. Se forem utilizadas várias sementes de arranque, a melhor solução para fora do conjunto de soluções é mantida como a solução final.
Guia de opções de enredo
Use a guia Opções de Enredo para definir os controles para o enredo.
- Pontos deparcela : Se verificados, todos os pontos dos dados são plotados e representados pelo número do cluster a cada ponto atribuído na solução.
- Centrosidsde parcela : Se verificados, os centrosides de cluster são traçados e representados pelo número do cluster para o qual é o centroide.
- O maior número de dimensões a incluir em biplots: Um biplot é um meio de visualizar soluções de clustering (através de componentes principais) em um espaço dimensional menor. A dimensão é feita 2 dimensões de cada vez. Essa opção define o limite superior das dimensões a serem usadas na visualização. Por exemplo, se este parâmetro for definido como "3", então os biplots incluem o primeiro e o segundo, primeiro e terceiro componentes principais, e segundo e terceiro componentes principais em 3 figuras separadas.
Guia de opções gráficas
Use a guia opções de gráficos para definir os controles para a saída.
- Tamanhodo lote: selecione polegadas ou centímetros para o tamanho do gráfico.
- Resolução do gráfico: Selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi)ou 3x (288 dpi).
- A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor.
- Maior resolução cria um arquivo maior com melhor qualidade de impressão.
- Tamanho da fonte base (pontos): selecione o tamanho da fonte no gráfico.
Ver a saída
Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
- O âncora: Consiste em uma tabela do modelo serializado com o nome do modelo e o tamanho do objeto.
- R âncora: Consiste nos trechos do relatório gerados pela Ferramenta de Análise de Cluster K-Centroids: um resumo estatístico e gráficos de solução de cluster.
*-ERR:REF-NOT-FOUND-en.wikipedia.org/wiki/K-means_clustering
En.wikipedia.org/wiki/K-medians_clustering-ERR:REF-NOT-FOUND-
-ERR:REF-NOT-FOUND-en.wikipedia.org/wiki/Neural_gas