K-Centroids Cluster Analysis Tool Icon

Strumento Di Analisi Cluster K-Centroids

Versione:
2023.1
Last modified: September 25, 2020

I K-Centroid s rappresentano una classe di algoritmi per eseguire operazioni noto come partizionamento dell'analisi del cluster. Questi metodi funzionano prendendo i record in un database e dividendoli (partizionandoli) nei gruppi K "migliori" in base ad alcuni criteri. Quasi tutti i metodi di analisi del cluster di partizionamento raggiungono il loro obiettivo basando l'appartenenza al cluster sulla prossimità di ogni record a uno dei punti K (o "centriidi") nei dati. L'obiettivo di questi algoritmi di clustering è quello di trovare la posizione dei centriidi che ottimizza alcuni criteri per quanto riguarda la distanza tra il centroide di un cluster e i punti assegnati a tale cluster per un numero pre-specificato di cluster nei dati. Gli algoritmi specifici differiscono tra loro sia per i criteri utilizzati per definire un centroide del cluster che per le misure di distanza utilizzate per definire la vicinanza di un punto in un cluster al centroide del cluster.

Con questo strumento è possibile eseguire tre tipi specifici di analisi a grappolo K-Centroidi: K-Means, K-Medians e Neural Gas clustering. K-Means utilizza il valore medio dei campi per i punti di un cluster per definire un centroide, e le distanze euclidea vengono utilizzate per misurare la vicinanza di un punto a un centroide. , e la distanza di Manhattan (chiamata anche blocco urbano) viene utilizzata per misurare la prossimità. Tuttavia, il metodo differisce da K-Means nel modo in cui vengono calcolati i centriiiiiiiii igratori, con la posizione del centroide per un cluster che coinvolge una media ponderata di tutti i punti dati, con i punti assegnati al cluster per il quale viene costruito il centroide ricevendo il peso maggiore, i punti dal gruppo più distante dal cluster focale ricevendo il peso più basso, e i pesi dati ai punti nei cluster intermedi che diminuiscono man mano che la distanza tra il cluster focale e il cluster a cui un punto è aumenti assegnati.

Questo strumento utilizza lo strumento R. Vai a Opzioni> Scarica Strumenti predittivie accedi al portale Alteryx Downloads and Licensesper installare R e i pacchetti utilizzati dallo strumento R. Consultate Scaricare e utilizzare strumenti predittivi.

Configurazione dello strumento

Utilizzare la scheda Configurazione per impostare i controlli per l'analisi del cluster.

  1. Nome soluzione: A ogni soluzione cluster deve essere assegnato un nome in modo che possa essere identificata in un secondo momento. I nomi delle soluzioni devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e caratteri di sottolineatura ("_"). Non sono consentiti altri caratteri speciali e R fa distinzione tra maiuscole e minuscole.
  2. Campi (selezionare due o più): Selezionare i campi numerici da utilizzare nella creazione della soluzione cluster.
  3. Standardizzare i campi...: Selezionando questa opzione all'utente viene data la scelta di standardizzare le variabili utilizzando una standardizzazione del punteggio z o dell'intervallo di unità.
    • La trasformazione z-score comporta la sottrazione del valore medio per ogni campo dai valori del campo e quindi la dissoluzione per la deviazione standard del campo. Il risultato è un nuovo campo con una media pari a zero e una deviazione standard pari a uno.
    • La trasformazione Intervallo unità comporta la sottrazione del valore minimo di un campo dai valori dei campi e la divisione per la differenza tra il valore massimo e il valore minimo del campo. Il risultato è un nuovo campo con valori compresi tra zero e uno. Le soluzioni di clustering sono molto sensibili al ridimensionamento dei dati, in particolare se un campo è su una scala molto diversa da quella di un altro. Di conseguenza, la scalabilità dei dati è un elemento da considerare.
  4. Metodo di clustering: Scegliere uno dei metodi K-Means, K-Medianso Neural Gas.
  5. Numero di cluster: selezionare il numero di cluster nella soluzione.
  6. Numero di semi iniziali: I metodi K-Centroids iniziano prendendo punti selezionati casualmente come centriidi iniziali. La soluzione finale determinata da ciascuno dei metodi può essere influenzata dai punti iniziali. Se vengono utilizzati più semi iniziali, la soluzione migliore fuori dal set di soluzioni viene mantenuta come soluzione finale.

Utilizzare la scheda Opzioni di stampa per impostare i controlli per il grafico.

  1. Punti di stampa: Se selezionata, tutti i punti nei dati verranno tracciati e rappresentati dal numero del cluster a cui ogni punto viene assegnato nella soluzione.
  2. Centriidi della trama: Se selezionata, i centriidi del cluster verranno tracciati e rappresentati dal numero del cluster per il quale è il centroide.
  3. Il numero più alto di dimensioni da includere nelle biplot: Una biplot è un mezzo per visualizzare le soluzioni di clustering (tramite componenti principali) in uno spazio dimensionale più piccolo. La quota viene eseguita due dimensioni alla volta. Questa opzione consente di impostare il limite superiore delle dimensioni da utilizzare nella visualizzazione. Ad esempio, se questo parametro è impostato su "3", le biplot includeranno il primo e il secondo, il primo e il terzo e il secondo e il terzo componente principale in tre cifre separate.

Utilizzare la scheda Opzioni grafiche per impostare i controlli per l'output.

  • Dimensioni del grafico: Selezionare pollici o centimetri per le dimensioni del grafico.
  • Risoluzione grafico: selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor. Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
  • Dimensione carattere di base (punti): Selezionare la dimensione del carattere nel grafico.

Output

Collegare uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.

  • O ancoraggio: è costituito da una tabella del modello serializzato con il nome del modello e le dimensioni dell'oggetto.
  • R anchor: è costituito dagli snippet di report generati dallo strumento di analisi cluster K-Centroids: un riepilogo statistico e grafici delle soluzioni cluster.

-en.wikipedia.org/wiki/K-means_clustering
en.wikipedia.org/wiki/K-medians_clusteringdi sistema
en.wikipedia.org/wiki/Neural_gas

Questa pagina è stata utile?

Si sono verificati problemi con il tuo prodotto Alteryx? Visita la community Alteryx o contatta il supporto. Non riesci a inviare questo modulo? Inviaci un'e-mail.