I centroidi K rappresentano una classe di algoritmi per eseguire la cosiddetta analisi dei cluster di partizione. Questi metodi funzionano prendendo i record di un database e dividendoli (partizionandoli) nei "migliori" gruppi K in base ad alcuni criteri. Quasi tutti i metodi di analisi dei cluster di partizione raggiungono il loro obiettivo basando l'appartenenza al cluster sulla vicinanza di ogni record a uno dei K punti (o "centroidi") nei dati. L'obiettivo di questi algoritmi di clustering è trovare la posizione dei centroidi che ottimizza alcuni criteri rispetto alla distanza tra il centroide di un cluster e i punti assegnati a tale cluster per un numero prespecificato di cluster nei dati. Gli algoritmi specifici differiscono l'uno dall'altro sia per i criteri utilizzati per definire un centroide del cluster sia per le misure di distanza utilizzate per definire la vicinanza di un punto in un cluster al centroide di quel cluster.
Con questo strumento è possibile eseguire tre tipi specifici di analisi dei cluster nei centroidi K: K-Means, K-Medians e clustering Neural Gas. K-Means utilizza il valore medio dei campi per i punti in un cluster per definire un centroide, e le distanze euclidee sono usate per misurare la vicinanza di un punto a un centroide.* K-Medians usa il valore mediano dei campi per i punti in un cluster per definire un centroide, e la distanza Manhattan (chiamata anche city-block) è usata per misurare la prossimità.** Il clustering Neural Gas è simile a K-Means in quanto utilizza la distanza euclidea tra un punto e i centroidi per assegnare quel punto a un particolare cluster.*** Tuttavia, il metodo si differenzia da K-Means per il modo in cui vengono calcolati i centroidi dei cluster: la posizione del centroide di un cluster comporta una media ponderata di tutti i punti dati, in cui i punti assegnati al cluster per il quale si sta costruendo il centroide ricevono il peso maggiore, i punti del cluster più distante dal cluster focale ricevono il peso minore e i pesi assegnati ai punti nei cluster intermedi diminuiscono con l'aumentare della distanza tra il cluster focale e il cluster a cui un punto è assegnato.
Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica strumenti predittivi e accedi al portale Download e licenze Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.
Utilizza la scheda Configurazione per impostare i controlli per l'analisi del cluster.
Nome soluzione: è necessario assegnare un nome a ogni modello per poterlo identificare in futuro. I nomi delle soluzioni devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e trattino basso ("_"). Non sono consentiti altri caratteri speciali e lo strumento R fa distinzione tra maiuscole e minuscole.
Campi (selezionane almeno due): seleziona i campi numerici da utilizzare per la creazione della soluzione cluster.
Standardizza i campi...: seleziona questa opzione per standardizzare le variabili tramite una standardizzazione z-score o a intervalli di unità.
La trasformazione z-score prevede che il valore medio di ogni campo venga sottratto dai valori del campo e diviso per la deviazione standard del campo. Ciò produce un nuovo campo con una media pari a zero e una deviazione standard pari a uno.
La trasformazione a intervalli di unità prevede che il valore minimo di un campo venga sottratto dai valori del campo e diviso per la differenza tra i valori massimo e minimo del campo. Ciò produce un nuovo campo con valori che variano da zero a uno. Le soluzioni di clustering sono molto sensibili allo scaling dei dati, specialmente se un campo si trova su una scala molto diversa da un altro. Di conseguenza, la scalabilità dei dati è un aspetto da prendere in considerazione.
Metodo di clustering: scegli tra K-Means, K-Medians o Neural Gas .
Numero di cluster: seleziona il numero di cluster nella soluzione.
Numero di semi iniziali: i metodi con centroidi K iniziano prendendo punti selezionati casualmente come centroidi iniziali. La soluzione finale determinata da ciascuno dei metodi può essere influenzata dai punti iniziali. Se si utilizzano più semi iniziali, la soluzione migliore del set di soluzioni viene mantenuta come soluzione finale.
Utilizza la scheda Opzioni grafico per impostare i controlli del grafico.
Punti del grafico: se selezionata, tutti i punti nei dati vengono tracciati e rappresentati dal numero di cluster a cui è assegnato ogni punto nella soluzione.
Centroidi del grafico: se selezionata, i centroidi del cluster vengono tracciati e rappresentati dal numero del cluster per il quale è il centroide.
Il numero più alto di quote da includere nei biplot: un biplot è un mezzo per visualizzare soluzioni di clustering (attraverso le componenti principali) in uno spazio dimensionale più piccolo. La quota viene eseguita 2 quote alla volta. Questa opzione imposta il limite superiore delle quote da usare nella visualizzazione. Ad esempio, se questo parametro è impostato su "3", i biplot comprendono il primo e il secondo, il primo e il terzo e il secondo e il terzo componente principale in 3 figure separate.
Utilizza la scheda Opzioni grafiche per impostare i controlli per l'output.
Dimensioni del grafico: seleziona pollici o centimetri per le dimensioni del grafico.
Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Dimensione carattere di base (punti): seleziona la dimensione del carattere nel grafico.
Connetti uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
Ancoraggio O: è costituito da una tabella del modello serializzato con il nome del modello e le dimensioni dell'oggetto.
Ancoraggio R: è costituito dai segmenti di tracciato del report generati dallo Strumento Analisi dei cluster nei centroidi K: un riepilogo statistico e grafici delle soluzioni cluster.
*en.wikipedia.org/wiki/K-means_clustering