Strumento Diagnostica dei centroidi K
Lo strumento Diagnostica dei centroidi K è progettato per consentire all'utente di valutare il numero appropriato di cluster da specificare in base ai dati e all'algoritmo di clustering selezionato (K-Means, K-Medians o Neural Gas). Lo strumento è grafico e si basa sul calcolo di due diverse statistiche su campioni replicati bootstrap dei dati originali per una serie di soluzioni di clustering che differiscono per il numero di cluster specificato. La motivazione alla base di questo approccio è che se i record di un database rientrano veramente in un insieme di cluster stabili, allora dovrebbe accadere che un insieme di diversi campioni casuali di quei record dovrebbe risultare approssimativamente nell'insieme di cluster tra le repliche bootstrap, ad eccezione di piccole differenze che sono dovute sia alla variabilità del campione casuale che alla casualità indotta dal metodo utilizzato per generare l'insieme iniziale di centroidi, attraverso la selezione di punti K a caso, nell'algoritmo generale di centroidi K. Le due misure esaminate sono l'indice di Rand corretto e l'indice di Calinski-Harabasz (noto anche come criterio del rapporto di varianza e statistica pseudo-F).
L'indice Rand corretto fornisce una misura di somiglianza tra due diverse soluzioni di clustering, assumendo un valore massimo di uno quando le due soluzioni di clustering si sovrappongono perfettamente.* L'indice può essere utilizzato per determinare la riproducibilità relativa e assoluta di una soluzione di clustering confrontando coppie di soluzioni, in cui ciascuna coppia si basa su un campione diverso di dati del cliente. Maggiore è la sovrapposizione tra le coppie di soluzioni, maggiore è la riproducibilità della struttura del cluster.
L'indice di Calinski-Harabasz si basa sul confronto del rapporto ponderato tra la somma dei quadrati (la misura della separazione dei cluster) e la somma dei quadrati all'interno dei cluster (la misura di quanto strettamente compattati i punti sono all'interno di un cluster). Idealmente, i cluster dovrebbero essere ben separati, quindi il valore della somma dei quadrati tra i cluster dovrebbe essere grande, ma i punti all'interno di un cluster dovrebbero essere il più vicino possibile l'uno all'altro, con conseguente riduzione dei valori della somma dei quadrati all'interno del cluster. Poiché l'indice di Calinski-Harabasz è un rapporto, con la somma tra cluster di quadrati nel numeratore e la somma dei quadrati all'interno del cluster nel denominatore, le soluzioni cluster con valori più grandi dell'indice corrispondono a soluzioni "migliori" rispetto alle soluzioni cluster con valori più piccoli.
L'output dello strumento è costituito da informazioni sulla distribuzione delle due statistiche per diversi numeri di cluster nei replicati bootstrap. Le informazioni sono trasmesse tramite due aree separate (una per l'indice di Rand corretto e una per l'indice di Calinski-Harabasz) e statistiche sintetiche per le due misure. Il numero preferito di cluster in base a ciascuna misura corrisponde a quello con la media e la mediana più alte tra le soluzioni confrontate. Inoltre, è auspicabile che la dispersione delle statistiche calcolate tra le repliche bootstrap non sia troppo grande.
Questo strumento può essere molto impegnativo dal punto di vista computazionale. L'intensità dipende dal numero di record utilizzati nel calcolo (che può essere modificato utilizzando l'opzione di espressione del sottoinsieme), dal numero di diverse soluzioni di clustering esaminate (determinato dall'intervallo tra il numero minimo e massimo di cluster), dal numero di repliche bootstrap e dal numero di semi di partenza diversi utilizzati per ogni soluzione di cluster (opzione del numero di semi di partenza). La riduzione del numero di repliche bootstrap da utilizzare ha diminuito notevolmente il tempo di calcolo necessario, ma a un costo elevato in termini di precisione. Per l'analisi vera e propria, si raccomanda di non utilizzare mai meno di 100 repliche bootstrap e di usarne di più, se possibile.
Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica Strumenti predittivi e accedi al portale Download e licenze di Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.
Configurazione dello strumento
Scheda Configurazione
Campi (selezionane almeno due): seleziona i campi numerici da utilizzare per la creazione della soluzione cluster.
Standardizza i campi...: seleziona questa opzione per standardizzare le variabili tramite una standardizzazione z-score o a intervalli di unità.
La trasformazione z-score prevede che il valore medio di ogni campo venga sottratto dai valori del campo e diviso per la deviazione standard del campo. Ciò produce un nuovo campo con una media pari a 0 e una deviazione standard pari a 1.
La trasformazione a intervalli di unità prevede che il valore minimo di un campo venga sottratto dai valori del campo e diviso per la differenza tra i valori massimo e minimo del campo. Ciò produce un nuovo campo con valori che variano da zero a uno. Le soluzioni di clustering sono molto sensibili allo scaling dei dati, specialmente se un campo si trova su una scala molto diversa da un altro. Di conseguenza, la scalabilità dei dati è un aspetto da prendere in considerazione.
Metodo di clustering: scegli tra K-Means, K-Medians o Neural Gas .
Numero minimo di cluster: seleziona il numero minimo di cluster da considerare nella soluzione.
Numero massimo di cluster: seleziona il numero massimo di cluster da considerare nella soluzione.
Repliche bootstrap: il numero di repliche bootstrap da utilizzare per il calcolo dei due indici. I valori possibili sono compresi tra 50 e 200.
Numero di semi iniziali: i metodi con centroidi K iniziano prendendo punti selezionati casualmente come centroidi iniziali. La soluzione finale determinata da ciascuno dei metodi può essere influenzata dai punti iniziali. Se si utilizzano più semi iniziali, la soluzione migliore del set di soluzioni viene mantenuta come soluzione finale.
Scheda Opzioni grafiche
Utilizza la scheda Opzioni grafiche per impostare i controlli per l'output.
Dimensioni del grafico: seleziona pollici o centimetri per le dimensioni del grafico.
Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Dimensioni carattere di base (punti): seleziona le dimensioni del carattere nel grafico