
Strumento Di Diagnostica K-Centroids
Lo strumento di diagnostica K-Centroids è progettato per consentire all'utente di effettuare una valutazione del numero appropriato di cluster da specificare in base ai dati e all'algoritmo di clustering selezionato (K-Means, K-Medians o Neural Gas). Lo strumento è grafico e si basa sul calcolo di due diverse statistiche su bootstrap replicare campioni dei dati originali per un intervallo di soluzione di clustering che differiscono per il numero di cluster specificato. La motivazione alla base di questo approccio è che se i record in un database rientrano veramente in un insieme di cluster stabili, allora dovrebbe essere il caso che un insieme di campioni casuali diversi di tali record dovrebbe comportare approssimativamente il set di cluster tra le repliche bootstrap, ad eccezione di piccole differenze che sono dovute sia alla variabilità del campione casuale che alla casualità indotta dal metodo utilizzato per generare il set iniziale di centriidi , selezionando i punti K a caso, nell'algoritmo generale K-Centroids. Le due misure esaminate sono l'indice di Rand rettificato e l'indice Calinski-Harabasz (noto anche come criterio del rapporto di varianza e la statistica pseudo-F).
L'indice Rand rettificato fornisce una misura di somiglianza tra due diverse soluzioni di clustering, prendendo un valore massimo pari a uno quando le due soluzioni di clustering si sovrappongono perfettamente. Maggiore è la sovrapposizione tra coppie di soluzioni implica maggiore è la riproducibilità della struttura del cluster.
L'indice Calinski-Harabasz si basa sul confronto del rapporto ponderato tra la somma del cluster dei quadrati (la misura della separazione dei cluster) e la somma all'interno del cluster dei quadrati (la misura di quanto i punti siano strettamente compressi all'interno di un cluster). Idealmente, i cluster dovrebbero essere ben separati, quindi la somma tra i cluster del valore dei quadrati dovrebbe essere grande, ma i punti all'interno di un cluster dovrebbero essere il più vicini l'uno all'altro, ottenendo valori più piccoli della somma all'interno del cluster della misura dei quadrati. Poiché l'indice Calinski-Harabasz è un rapporto, con la somma tra cluster di quadrati nel numeratore e la somma cluster all'interno dei quadrati al denominatore, le soluzioni cluster con valori maggiori dell'indice corrispondono a soluzioni "migliori" rispetto alle soluzioni cluster con valori più piccoli.
L'output dello strumento è informazioni sulla distribuzione delle due statistiche per diversi numeri di cluster tra le repliche bootstrap. Le informazioni vengono trasmesse tramite due grafici a scatola e baffo (uno per l'indice Rand regolato e l'indice Calinski-Harabasz) e alle statistiche riassuntive per le due misure. Il numero preferito di cluster in base a ogni misura corrisponde a uno con la media e la mediana più alte delle soluzioni confrontate. Inoltre, è auspicabile che la dispersione nelle statistiche calcolate tra le repliche bootstrap non sia troppo grande.
Questo strumento può essere molto intensivo dal punto di vista computazionale. L'intensità dipende dal numero di record utilizzati nel calcolo (che possono essere modificati tramite l'uso dell'opzione di espressione del sottoinsieme), dal numero di diverse soluzioni di clustering esaminate (determinato dall'intervallo tra il numero minimo e massimo di cluster), dal numero di repliche bootstrap e dal numero di semi iniziali diversi utilizzati per ogni soluzione cluster (il numero di opzioni di seeding iniziale). La riduzione del numero di repliche bootstrap da utilizzare ha ridotto notevolmente la quantità di tempo necessario per il computer, ma a un costo elevato di precisione. Per l'analisi effettiva, è consigliabile che l'utente non utilizzi mai meno di 100 repliche bootstrap e ne utilizzi di più, se possibile.
Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica Strumenti predittivi e accedi al portale Alteryx Downloads and Licenses per installare R e i pacchetti utilizzati dallo strumento R. Consultare Scaricare e utilizzare strumenti predittivi.
Configurare lo strumento
Scheda Configurazione
- Campi (selezionare due o più): selezionare i campi numerici da utilizzare nella creazione della soluzione cluster.
- Standardizza i campi...: Selezionare questa opzione per scegliere di standardizzare le variabili tramite una standardizzazione z-score o unit interval.
- La trasformazione z-score comporta la sottrazione del valore medio per ogni campo dai valori del campo e quindi la dissoluzione per la deviazione standard del campo. Il risultato è un nuovo campo con una media pari a 0 e una deviazione standard pari a 1.
- La trasformazione Intervallo unità comporta la sottrazione del valore minimo di un campo dai valori dei campi e la divisione per la differenza tra il valore massimo e il valore minimo del campo. Il risultato è un nuovo campo con valori compresi tra zero e uno. Le soluzioni di clustering sono molto sensibili al ridimensionamento dei dati, in particolare se un campo è su una scala molto diversa da quella di un altro. Di conseguenza, la scalabilità dei dati è un elemento da considerare.
- Metodo di clustering: Scegliere uno dei metodi K-Means, K-Medianso Neural Gas.
- Numero minimo di cluster:selezionare il numero minimo di cluster da considerare nella soluzione.
- Numero massimo di cluster:selezionare il numero massimo di cluster da considerare nella soluzione.
- Bootstrap replica: Il numero di bootstrap repliche da utilizzare per il calcolo dei due indici. I valori possibili sono compresi tra 50 e 200.
- Numero di semi iniziali: I metodi K-Centroids iniziano prendendo punti selezionati casualmente come centriidi iniziali. La soluzione finale determinata da ciascuno dei metodi può essere influenzata dai punti iniziali. Se vengono utilizzati più semi iniziali, la soluzione migliore fuori dal set di soluzioni viene mantenuta come soluzione finale.
Scheda Opzioni grafiche
Utilizzare la scheda Opzioni grafiche per impostare i controlli per l'output.
- Dimensione del grafico: Selezionare pollici o centimetri per le dimensioni del grafico.
- Risoluzione grafico: Selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi), o 3x (288 dpi).
- La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
- Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
- Dimensione carattere di base (punti):selezionare la dimensione del carattere nel grafico
En.wikipedia.org/wiki/Rand_indexdi lavoro