Strumento Componenti principali
Lo strumento Componenti principali può ridurre le dimensioni (il numero di campi numerici) in un database, trasformando il set di campi originale in un set più piccolo che rappresenta la maggior parte della varianza (ad esempio, informazioni) nei dati. I nuovi campi sono denominati fattori o componenti principali.
Le componenti principali vengono estratte in sequenza, e la prima componente principale rappresenta la maggior parte della varianza dei dati. Intuitivamente, la prima componente principale è un vettore che punta nella direzione in cui i dati sono più "distribuiti". La seconda componente principale è impostata in modo simile, ma con il vincolo aggiuntivo che deve essere non correlata con la prima. Ogni componente principale successiva cattura una percentuale sempre più bassa di variazione nei dati e non è correlata con le componenti principali estratte in precedenza. Possono esserci tante componenti principali quanti sono i campi numerici dei dati. Tuttavia, in genere è possibile acquisire la varianza nei dati utilizzando le prime componenti principali anziché il set completo dei campi numerici originali. Un componente principale è costituito da una combinazione lineare ponderata dei campi numerici originali. Insieme possono essere usati per formare un nuovo sistema di coordinate, in cui ogni quota non è correlata alle altre.
Le componenti principali possono essere utilizzate al posto dei campi originali nei modelli predittivi, evitando i problemi che possono verificarsi quando si utilizzano variabili altamente correlate, ma al costo di rendere più difficile l'interpretazione del modello. Inoltre, il metodo può essere utilizzato per determinare quali gruppi di campi sono probabilmente molto correlati tra loro e aiutare a decidere quali campi escludere da un modello predittivo. Infine, la possibilità di "comprimere" un gran numero di campi in un piccolo numero di componenti principali è spesso un vantaggio nella visualizzazione delle relazioni nei dati.
Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica strumenti predittivi e accedi al portale Download e licenze Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.
Configurazione dello strumento
Scheda Configurazione
Utilizza la scheda Configurazione per impostare i controlli per i componenti principali e i relativi biplot.
Campi (selezionane almeno due): seleziona i campi numerici da utilizzare nell'analisi delle componenti principali.
Rappresentare in scala ogni campo per ottenere la varianza unitaria?: seleziona questa opzione per standardizzare i dati e utilizzare la matrice di autocorrelazione invece della matrice di autocovarianza come base per l'analisi.
Il numero più elevato delle componenti principali da includere in biplot: un biplot è un mezzo per visualizzare una soluzione di componenti principali, due componenti alla volta. Questa opzione imposta il limite superiore delle componenti principali da usare nell'analisi. Ad esempio, se questo parametro è impostato su "3", i biplot includeranno il primo e il secondo, il primo e il terzo e il secondo e il terzo componente principale in tre figure separate.
Aggiungi componenti principali al flusso di dati: seleziona per generare i dati originali insieme a campi aggiuntivi per le componenti principali aggiunte. I campi aggiunti sono etichettati PC1, PC2 e così via. Imposta Il numero di componenti principali da aggiungere.
Scheda Opzioni grafiche
Utilizza la scheda Opzioni grafiche per impostare i controlli per l'output grafico.
Dimensioni del grafico: seleziona pollici o centimetri per le dimensioni del grafico.
Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Dimensione carattere di base (punti): seleziona la dimensione del carattere nel grafico.
Visualizzazione dell'output
Connetti uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
Ancoraggio O: è costituito dal flusso di dati di input con l'aggiunta delle componenti principali.
Ancoraggio R: è costituito dagli snippet di report generati dallo strumento Componente principale: un riepilogo statistico, grafici di base e biplot.