
Strumento Componenti Principali
Lo strumento Componenti principali consente di ridurre le dimensioni (il numero di campi numerici) in un database. A tale scopo, trasformare il set originale di campi in un set più piccolo che rappresenta la maggior parte della varianza (cioè, informazioni) nei dati. I nuovi campi sono denominati fattori o componenti principali.
I componenti principali vengono estratti in sequenza, con il primo componente principale che tiene conto della maggior parte della varianza nei dati. Intuitivamente il primo componente principale è un vettore che punta nella direzione in cui i dati sono più "distribuiti". Il secondo componente principale è impostato in modo simile, ma con il vincolo aggiuntivo che deve essere non correlato con il primo. Ogni componente principale successivo acquisisce una percentuale sempre più bassa di variazione dei dati e non è correlato con i componenti principali estratti in precedenza. Nei dati possono essere presenti tanti componenti principali quanti sono i campi numerici. Tuttavia, è in genere possibile acquisire la varianza nei dati utilizzando i primi componenti principali anziché il set completo di campi numerici originali. Un componente principale è costituito da una combinazione lineare ponderata dei campi numerici originali. Insieme possono essere utilizzati per formare un nuovo sistema di coordinate, in cui ogni dimensione non è correlata alle altre.
I componenti principali possono essere utilizzati al posto dei campi originali nei modelli predittivi, evitando i problemi che possono verificarsi quando vengono utilizzate variabili altamente correlate, ma a costo di rendere più difficile l'interpretazione del modello. Inoltre, il metodo può essere utilizzato per determinare quali gruppi di campi sono probabilmente altamente correlati tra loro e aiutano a guidare le decisioni in quali campi omettere da un modello predittivo. Infine, la possibilità di "comprimere" un numero elevato di campi in un numero ridotto di componenti principali è spesso un vantaggio nella visualizzazione delle relazioni nei dati.
Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica Strumenti predittivi e accedi al portale -ERR:REF-NOT-FOUND-Alteryx Downloads and Licenses per installare R e i pacchetti utilizzati dallo strumento -ERR:REF-NOT-FOUND-R. Consultare Scaricare e utilizzare strumenti predittivi.
Configurare lo strumento
Scheda Configurazione
Utilizzare la scheda Configurazione per impostare i controlli per i componenti principali e le bitrame correlate.
- Campi (selezionare due o più): Selezionare i campi numerici da utilizzare nell'analisi dei componenti principali.
- Ridimensionare ogni campo in modo che abbia la varianza dell'unità?: selezionare questa opzione per standardizzare i dati e utilizzare la matrice di correlazione automatica anziché la matrice di autocovarianza come base per l'analisi.
- Il maggior numero di componenti principali da includere nelle biplot:una biplot è un mezzo per visualizzare una soluzione di componenti principali, due componenti alla volta. Questa opzione consente di impostare il limite superiore dei componenti principali da utilizzare nell'analisi. Ad esempio, se questo parametro è impostato su "3", le biplot includeranno il primo e il secondo, il primo e il terzo e il secondo e il terzo componente principale in tre cifre separate.
- Aggiungi componenti principali al flussodi dati: selezionare questa opzione per restituire i dati originali insieme a campi aggiuntivi per i componenti principali aggiunti. I campi aggiunti sono denominati PC1, PC2 e così via. Impostare Il numero di componenti principali da aggiungere.
Scheda Opzioni grafiche
Utilizzare la scheda Opzioni grafiche per impostare i controlli per l'output grafico.
- Dimensione del grafico: Selezionare pollici o centimetri per le dimensioni del grafico.
- Risoluzione grafico: Selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi), o 3x (288 dpi).
- La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
- Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
- Dimensione carattere di base (punti):selezionare la dimensione del carattere nel grafico.
Visualizzazione dell'output
Collegare uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
- O ancoraggio: è costituito dal flusso di dati di input con i componenti principali aggiunti.
- R anchor: è costituito dagli snippet del report generati dallo strumento Componente principale: un riepilogo statistico, grafici di base e biplot.
Https://en.wikipedia.org/wiki/Principal_component_analysis-ERR:REF-NOT-FOUND-