
Strumento Modello Spline
Lo strumento Modello spline fornisce l'algoritmo multivariata di spline di regressione adattiva (o MARS) di Friedman. Questo metodo è un moderno modello di apprendimento statistico che: (1) autode determina quale sottoinsieme di campi meglio prevedere un campo di interesse target; (2) è in grado di catturare relazioni e interazioni altamente non lineali tra i campi; e può affrontare automaticamente un'ampia gamma di problemi di regressione e classificazione in modo che possa essere trasparente per l'utente (l'utente può fare appena quanto specificare un campo di destinazione e un set di campi predittivo, ma lo strumento può essere ampiamente ottimizzato dagli utenti avanzati).
Lo strumento è applicabile a un'ampia gamma di problemi, ad esempio classificazione, dati di conteggio e problemi di regressione di destinazione continua. Il metodo utilizza un approccio in due fasi per sviluppare un modello. Nel primo passaggio (noto come passaggio in avanti ed è simile all'algoritmo di partizionamento ricorsivo utilizzato nello strumento Albero delle decisioni) le variabili che contano di più nella stima della destinazione determinata e i "punti di divisione" appropriati (noti come "nodi") nelle variabili vengono trovati. Tuttavia, a differenza di un albero delle decisioni, una linea tra nodi adiacenti (chiamato termine) è adatta piuttosto che utilizzare salti discreti come avviene negli alberi delle decisioni. Ciò si traduce nella costruzione di una funzione lineare a pezzi per ogni variabile che può approssimare da vicino qualsiasi relazione tra il bersaglio e le variabili predittive. Il secondo passaggio (noto come passaggio all'indietro o di eliminazione) rimuove alcuni nodi nelle variabili (allungando il segmento di linea nei termini rimanenti) al fine di ridurre al minimo la possibilità che il modello stia sovraadattando il campione di stima e catturando il campione di stima rumore in contrasto con il segnale sottostante.
Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica strumenti predittivi e accedi al portale Alteryx Downloads and Licenses per installare R e i pacchetti utilizzati dallo strumento R. Consultate Scaricare e utilizzare gli strumenti predittivi.
Input
Flusso di dati Alteryx che include un campo di destinazione di interesse insieme a uno o più campi predittivi possibili.
Configurazione dello strumento
Utilizzare la scheda Parametri obbligatori per impostare i controlli obbligatori per il modello Spline.
- Nome modello: Ogni modello deve essere assegnato un nome in modo che possa essere identificato in un secondo momento. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e il carattere di sottolineatura ("_"). Non sono consentiti altri caratteri speciali e R fa distinzione tra maiuscole e minuscole.
- Selezionare il campo di destinazione: Selezionare il campo dal flusso di dati che si desidera stimare.
- Selezionare i campi predittivo: Scegliere i campi dal flusso di dati che si ritiene "causa" modifiche nel valore della variabile di destinazione.
Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime. - Includere i grafici sugli effetti?: Se selezionata, verranno prodotti grafici degli effetti che mostrano graficamente la relazione tra la variabile predittiva e l'obiettivo a livelli fissi (la mediana per i predittori numerici, il primo livello per i fattori) di altri campi predittori. Sono disponibili opzioni per visualizzare solo i campi che hanno un effetto principale sulla destinazione, solo gli effetti di interazione bidirezionale tra i campi utilizzando un grafico prospettico o sia gli effetti principali che le interazioni bidirezionali.
Utilizzare la scheda Personalizzazione modello (facoltativo) per apportare regolazioni più specifiche al modello.
- Specificare il tipo di destinazione e la famiglia GLM: sono supportati cinque tipi di campi di destinazione:
- Destinazioni continue (ad esempio, destinazioni numeriche in cui qualsiasi valore univoco specificato ha una percentuale relativamente piccola delle istanze totali)
- Obiettivi distribuiti gamma (obiettivi numerici rigorosamente positivi con un'alta percentuale di valori di risposta piuttosto bassi, ma una piccola percentuale di valori relativamente alti)
- Obiettivi "Count" (ad esempio, obiettivi con valore intero per i quali la maggior parte dei valori univoci hanno una percentuale abbastanza elevata delle istanze totali, ad esempio, il numero di visite a un ufficio medico che una persona fa in un anno)
- Destinazioni categoriche binarie (ad esempio, i campi di destinazione della varietà "sì/no")
- Obiettivi categorici multinomiali (ad esempio, campi target con un numero limitato di risultati discreti, ad esempio "A", "B" o "C")
Ogni tipo di campo di destinazione può avere una o più possibili funzioni di distribuzione associate (che è correlato alla misura che l'algoritmo sta tentando di ridurre al minimo). - Le destinazioni continue non possono avere alcuna distribuzione esplicita o distribuzione gaussiana (cioè Normale).
- Nel caso di un obiettivo distribuito Gamma, la scelta è la funzione di collegamento da utilizzare (la relazione tra i mezzi della distribuzione e il predittore lineare).
- Le destinazioni Count (integer) riducono al minimo una funzione di perdita basata sulla distribuzione di Poisson e utilizzano una funzione di collegamento di log (preferito) o di identità.
- Le destinazioni categoriche binarie possono usare un logit (usato anche nella regressione logistica classica), un probit o una funzione di collegamento log-log complementare.
- Una risposta categorica multinomiale viene trattata in modo non standard. In particolare, anziché stimare un vero modello multinomiale, viene stimato un set di modelli binari (utilizzando una funzione di collegamento logit). Ad esempio, se le possibili risposte sono "A", "B" o "C", ciò che viene stimato è un modello di: "A" contro qualsiasi altra scelta, "B" contro qualsiasi altra scelta e "C" rispetto a qualsiasi altra scelta.
- Ridimensionare la variabile di destinazione: Se la variabile di destinazione è una variabile continua e questa opzione è selezionata, verrà sottoposta a una trasformazione del punteggio z (media zero, deviazione standard di uno) per facilitare la stabilità numerica nel passaggio in avanti (prima fase) dell'algoritmo.
- Il numero massimo di nodi o determinare automaticamente (Auto): Questa opzione controlla il numero di possibili nodi (divisioni) nei campi predittivo nel passaggio in avanti (prima fase) dell'algoritmo. Se si seleziona "Auto", il numero di nodi viene calcolato in base al numero di campi predittivi. Il numero effettivo di nodi nel passaggio in avanti sarà spesso inferiore al massimo consentito.
- Profondità di interazione: il livello di interazione tra i campi predittivi.
- Nel caso di due campi predittivi che hanno un'interazione bidirezionale tra loro, l'effetto che un predittore ha sul bersaglio dipende dal livello del secondo predittore.
- In caso di interazione a tre vie, l'effetto di un campo predittivo su un obiettivo dipenderà dai valori di altri due campi predittivi.
- È possibile specificare interazioni a cinque vie (una profondità di interazione pari a 5). Il valore predefinito di questo parametro è impostato su 1 (un presupposto implicito di nessuna interazione tra i campi predittivi). L'aumento della profondità di interazione può aumentare notevolmente la fase di esecuzione del modello.
- Penalità per termine o nodo: La funzione da ottimizzare contiene un componente di penalità per ridurre la possibilità che il modello finale sovralisca i dati di esempio di stima. Il valore predefinito è un valore pari a 2 per un modello solo effetti principali e 3 se sono consentite interazioni bidirezionali o superiori. Un valore pari a -1 non comporta alcuna penalità per i nodi o i termini applicati, mentre un valore 0 applica la penalità predefinita solo ai termini.
- Il miglioramento minimo in R-Squared necessario per aggiungere un ulteriore nodo: Maggiore è il valore di questi termini, maggiore è il miglioramento in R-Squared deve essere per il modello al fine di aggiungere un nodo.
- La distanza minima tra i nodi: Se si selezionato 0, la distanza minima consentita viene calcolata in base a una formula, un valore pari a 1 consente a uno qualsiasi dei valori di una variabile predittiva di essere un nodo (che funziona bene solo se i dati hanno un rumore molto basso), altrimenti è necessario fornire un valore numerico compreso tra 0 e 1 che fornisce la distanza come percentuale dell'intervallo di una variabile predittiva.
- Nuova penalità variabile: Termine di penalità aggiuntivo aggiunto alla funzione obiettivo per l'aggiunta di una nuova variabile al modello. Il valore predefinito è 0 (nessuno) e questo valore può essere compreso tra 0 e 0,5. Come per la penalità per nodo o termine, lo scopo è quello di controllare l'overfitting
- Il numero massimo di termini padre considerati in ogni fase del passaggio in avanti: Questo termine controlla il numero di termini creati in un passaggio in avanti, che può velocizzare l'esecuzione. Un valore speciale pari a 0 non pone limiti al termine, mentre un numero maggiore di 0 specifica il numero massimo di termini. Il valore predefinito è 20 termini, i valori comuni per questo sono 20, 10 e 5.
- Il coefficiente di invecchiamento MARS veloce: Per una spiegazione di questo parametro, vedere la Sezione 3.1 di Friedman (1993).
- Eseguire un'analisi di convalida incrociata: Questa opzione consente una valutazione della convalida incrociata per stabilire se è stata eseguita una potatura sufficiente rispetto al metodo di convalida incrociata generalizzato utilizzato dall'algoritmo. Se questa opzione è selezionata, l'utente può specificare il numero di esecuzioni separate di convalida incrociata, il numero di pieghe in ogni esecuzione della convalida incrociata, se i campioni di convalida incrociata sono stratificati per avere una combinazione comparabile di risposte per una destinazione di categoria ( ad esempio, un numero comparabile di risposte "sì" e "no" per una variabile di categoria binaria) e il valore di seme casuale per i numeri casuali generati per creare i campioni.
- Il metodo di potatura: Le opzioni disponibili sono "Eliminazione all'indietro", "Nessuno", "Ricerca esauriente", "Selezione in avanti" e "Sostituzione sequenziale".
- L'eliminazione a ritroso (impostazione predefinita) inizia con tutti i nodi e i termini trovati nel passaggio in avanti, quindi rimuove prima il termine meno predittivo (effettuando le rettifiche appropriate ai termini rimanenti interessati), quindi confronta l'effetto sulla misura di convalida incrociata rispetto al modello completo. Se la misura di convalida incrociata generalizzata non viene migliorata rimuovendo un termine, il modello creato dopo la passata in avanti viene restituito. Se si verifica un miglioramento nella misura di convalida incrociata generalizzata, questo termine viene rimosso dal modello e il processo viene ripetuto per i termini rimanenti. Se in qualsiasi momento la rimozione di un termine non migliora la misura di convalida incrociata generalizzata rispetto al modello creato nell'ultima iterazione, il processo viene terminato.
- Se la scelta è none, tutti i termini trovati nel passaggio in avanti vengono utilizzati nel modello finale.
- Nella ricerca esaustiva, vengono esaminate tutte le combinazioni dei termini trovati nella fase di ricerca in avanti, ma ad un costo computazionale molto elevato.
- Nell'eliminazione diretta tutti i termini tranne l'intercetta vengono rimossi, quindi il termine migliore di quelli trovati nel passaggio di inoltro viene determinato e incluso nel modello (supponendo che migliori la misura di convalida incrociata generalizzata rispetto a un modello di sola intercettazione). Questo processo continua fino a quando non è possibile aggiungere alcun termine aggiuntivo che migliori la misura di convalida incrociata generalizzata.
- In sostituzione sequenziale, una soluzione con un determinato numero di termini ha un termine sostituito da tutti gli altri possibili termini rimanenti trovati nel passo a pezze, che non è già incluso nella serie di termini nel passaggio di potatura. Se viene trovato un nuovo termine che migliora la misura di convalida incrociata generalizzata rispetto al termine originale, il termine originale viene sostituito dal nuovo termine.
- Il numero massimo di termini nel modello potato: Se si è selezionato 0 (impostazione predefinita), tutti i termini che rimangono dopo l'applicazione degli altri criteri utilizzati nella passata di potatura vengono utilizzati nel modello finale, in caso contrario, solo i termini più importanti fino al numero selezionato vengono mantenuti nel modello finale.
Utilizzare la scheda Opzioni grafiche per impostare i controlli per l'output grafico. - Dimensioni del grafico: Selezionare pollici o centimetri per le dimensioni del grafico.
- Risoluzione grafico: selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor. Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
- Dimensione carattere di base (punti): Selezionare la dimensione del carattere nel grafico.
Visualizzare l'output
Collegare uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
- O ancoraggio: è costituito da una tabella del modello serializzato con il relativo nome di modello.
- R ancoraggio: è costituito dai frammenti di report generati dallo strumento Modello spline: un riepilogo del modello di base, un grafico di importanza variabile (che indica l'importanza relativa dei diversi campi predittivo), un grafico di diagnostica del modello di base e (facoltativamente) i grafici effetti.
-https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines
Freidman, Jerome H.,
"Multivariate Adaptive Regression Splines", Stanford University, agosto 1990
, Freidman, Jerome H.,
"Fast MARS", relazione tecnica n. 102, Dipartimento di Statistica, Stanford University, maggio 1993