
Strumento Pesi Importanza
Lo strumento Peso importanza fornisce metodi per la selezione di un set di variabili da utilizzare in un modello predittivo in base a quanto fortemente correlato ogni possibile predittore è alla variabile di destinazione di un modello da creare.
Il set finale selezionato può essere basato sul portare i predittori N più fortemente correlati al bersaglio o selezionando un livello di peso di importanza limite e solo le variabili che superano il punto di taglio sono incluse in un modello.
In caso di svantaggio di questo approccio è che esamina solo la forza di un possibile predittore sul bersaglio in isolamento, ignorando i possibili effetti di interazione e la correlazione tra i predittori. Nonostante questa limitazione, questo tipo di metodo di filtraggio variabile viene spesso utilizzato nella pratica.
Esistono diverse misure di ponderazione dell'importanza e l'applicabilità di un particolare metodo dipende in genere sia dal tipo di obiettivo che dal predittore (numerico o categorico). Uno svantaggio di questa situazione è che le misure utilizzate per determinare l'importanza relativa di diversi possibili predittori saranno diverse per le variabili numeriche e categoriche. L'eccezione è il metodo Relief, ma le sue prestazioni non sono affidabili come altri metodi specifici di un particolare tipo di destinazione e combinazione di tipo predittivo.
La maggior parte delle misure sono fornite dal pacchetto FSelector R. Questo pacchetto utilizza alcuni metodi scritti in Java, quindi per utilizzare questa macro, è necessario disporre di un ambiente di runtime Java 7 sul computer in cui è installato Alteryx.
Questo strumento non viene installato automaticamente con Alteryx Designer o gli strumenti R.This tool is not automatically installed with Alteryx Designer or the R tools. Per utilizzare questo strumento, scaricalo dalla Galleria Alteryx Analytics.
Collegare un ingresso
Un flusso di dati Alteryx contenente sia la variabile di destinazione desiderata che un set di variabili predittive potenziali che verranno utilizzate per stimare un modello predittivo.
Configurazione dello strumento
- Obiettivo continuo: Selezionare questa opzione se la variabile di destinazione che si desidera stimare è una variabile numerica. Quando si seleziona questa opzione verrà chiesto di selezionare il campo della variabile di destinazione dai dati e se si desidera esaminare le possibili variabili continue (numeriche) o categoriche (variabili stringa con etichette di categoria) che si desidera prendere in considerazione. Una volta effettuata questa selezione, è necessario selezionare il set di predittori (del tipo selezionato) che si desidera esaminare e una o più misure di confronto. Per gli obiettivi continui e i prodittori continui le misure disponibili sono:
- Correlazione Pearson
- Correlazione di classifica Spearman
- Scarico, che fornisce l'algoritmo RRELIEFF. L'utilizzo può selezionare sia il numero di vicini vicini (conteggio del vicino) che la dimensione del campione ( Dimensione delcampione) utilizzata per calcolare la misura RRELIEFF.
- Le misure di peso di importanza disponibili per un target continuo e predittori categorici sono:
- Media condizionale (Pearson) correlazione. Questa misura si basa sul calcolo del livello medio della variabile di destinazione per ogni livello (categoria) delle variabili di categoria e quindi sul calcolo della correlazione di Pearson tra i valori effettivi e i valori medi
- Scarico, che utilizza l'algoritmo RRELIEFF. L'utilizzo può selezionare sia il numero di vicini vicini (conteggio del vicino) che la dimensione del campione ( Dimensione delcampione) utilizzata per calcolare la misura RRELIEFF.
- Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
- Obiettivo categorico: Selezionare questa opzione se la variabile di destinazione che si desidera stimare è una variabile di categoria. Quando si seleziona questa opzione verrà chiesto di selezionare il campo della variabile di destinazione dai dati e se si desidera esaminare le possibili variabili continue (numeriche) o categoriche (variabili stringa con etichette di categoria) che si desidera prendere in considerazione. Una volta effettuata questa selezione, è necessario selezionare il set di predittori (del tipo selezionato) che si desidera esaminare e una o più misure di confronto. Per gli obiettivi continui e i prodittori continui le misure disponibili sono:
- Guadagno di informazioni sull'entropia
- Rapporto di guadagno entropia
- Incertezza simmetrica dell'entropia
- Scarico, che utilizza l'algoritmo RRELIEFF. L'utilizzo può selezionare sia il numero di vicini vicini (conteggio del vicino) che la dimensione del campione ( Dimensione delcampione) utilizzata per calcolare la misura RRELIEFF.
- Le misure di peso di importanza disponibili disponibili per un obiettivo categorico e predittori categorici sono:
- V di Cramer (chi quadrato)
- Scarico, che utilizza l'algoritmo RRELIEFF. L'utilizzo può selezionare sia il numero di vicini vicini (conteggio del vicino) che la dimensione del campione ( Dimensione delcampione) utilizzata per calcolare la misura RRELIEFF.
Visualizzazione dell'output
- Ancoraggio D: È costituito da una tabella che fornisce il valore di peso dell'importanza selezionato per ogni potenziale predittore.
- R anchor: è costituito da frammenti di report che indicano il campo di destinazione (e il relativo tipo) e il tipo dei potenziali campi predittivi insieme alla tabella del valore di peso dell'importanza selezionato per ogni potenziale predittore.