
Strumento Di Regressione Logistica
Lo strumento di regressione logistica crea un modello che mette in relazione una variabile binaria di destinazione (ad esempio sì/no, pass/fail) con una o più variabili predittive per ottenere la probabilità stimata per ognuna delle due possibili risposte per la variabile di destinazione.I modelli di regressione logistica comuni includono logit, probit e log-log complementare. Vedere Regressione logistica.
Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica strumenti predittivi e accedi al portale Alteryx Downloads and Licenses per installare R e i pacchetti utilizzati dallo strumento R. Consultate Scaricare e utilizzare gli strumenti predittivi.
Configurare lo strumento per l'elaborazione standard
Collegare un ingresso
Connetti un flusso di dati Alteryx o un flusso di metadati XDF che include un campo di destinazione di interesse insieme a uno o più campi predittivi possibili.
Se i dati di input provengono da un flusso di dati Alteryx, per la stima del modello vengono utilizzate la funzione R glm open source e le funzioni glmnet e cv.glmnet (dal pacchetto glmnet).
Se i dati di input provengono da uno strumento di output XDF o da uno strumento di input XDF, la funzione RevoScaleR rxLogit viene utilizzata per la stima del modello. Il vantaggio dell'utilizzo della funzione basata su RevoScaleR è che consente di analizzare set di dati molto più grandi (di memoria), ma a costo di un sovraccarico aggiuntivo per creare un file XDF e l'impossibilità di creare parte dell'output diagnostico del modello disponibile con l'open source R funziona e consente solo l'uso di una funzione di collegamento logit.
Configurare lo strumento
- Nome modello di tipo: Immettere un nome per il modello per identificare il modello quando vi si fa riferimento in altri strumenti. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (.) e carattere di sottolineatura (_). Non sono consentiti altri caratteri speciali e R fa distinzione tra maiuscole e minuscole.
- Seleziona variabile didestinazione : Selezionare i dati da stimare. Una variabile di destinazione è nota anche come risposta o variabile dipendente.
- Selezionare le variabili predittori: Selezionare i dati da utilizzare per influenzare il valore della variabile di destinazione. Una variabile predittiva è anche nota come una feature o una variabile indipendente. È possibile selezionare un numero qualsiasi di variabili predittive, ma la variabile di destinazione non deve essere anche una variabile predittiva. Le colonne che contengono identificatori univoci, ad esempio le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Selezionare Personalizza per modificare le impostazioniModello , Convalidaincrociata e Stampa.
Personalizzare il modello
- Utilizzare i pesi di campionamento nella stima del modello:selezionare una variabile per determinare la quantità di importanza da inserire in ogni record durante la creazione di una stima del modello. Se un valore viene utilizzato sia come predittore che come variabile di peso, la variabile di peso viene visualizzata nella chiamata del modello nell'output del report con la stringa "Right_" anteposta.
- Usa regressione regolarizzata: Selezionare per bilanciare la stessa minimizzazione della somma degli errori al quadrato con un termine di penalità sulla dimensione dei coefficienti e produrre un modello più semplice.
- Immettere il valore alfa: Selezionare un valore compreso tra 0 (regressione della cresta) e 1 (lazo) per misurare la quantità di enfasi data al coefficiente.
- Standardizzare le variabili predittori: Selezionare questa opzione per rendere tutte le variabili della stessa dimensione in base all'algoritmo utilizzato.
- Utilizzare la convalida incrociata per determinare i parametri delmodello : Selezionare per eseguire la convalida incrociata e ottenere vari parametri del modello
- Numero di pieghe: Selezionare il numero di pieghe per dividere i dati. Un numero maggiore di pieghe determina stime più robuste della qualità del modello, ma un minor numero di pieghe rende l'utensile più veloce.
- Che tipo di modello: Selezionare il tipo di modello per determinare i coefficienti.
- Modello più semplice
- Modello con errore standard del campionamento inferiore
- Imposta valoredi inizializzazione : Selezionare per garantire la riproducibilità della convalida incrociata e selezionare il valore del valore di inizializzazione utilizzato per assegnare i record alle pieghe. La scelta dello stesso valore di inizializzazione ogni volta che viene eseguito il flusso di lavoro garantisce che gli stessi record saranno nella stessa piega ogni volta. Il valore deve essere un numero intero positivo.
- Seleziona tipo dimodello : Selezionare il tipo di modello da utilizzare per la stima della variabile di destinazione.
- logit
- probit
- log-log complementare
Personalizzare la convalida incrociata
- Utilizzare la convalida incrociata per determinare le stime della qualità del modello:selezionare questa opzione per eseguire la convalida incrociata e ottenere varie metriche e grafici di qualità del modello. Alcune metriche e grafici verranno visualizzati nell'output R statico e altri nell'output I interattivo.
- Numero di pieghe: Selezionare il numero di pieghe per dividere i dati. Un numero maggiore di pieghe determina stime più robuste della qualità del modello, ma un minor numero di pieghe rende l'utensile più veloce.
- Numero di prove: Selezionare il numero di ripetizioni per la procedura di convalida incrociata. Le pieghe sono selezionate in modo diverso in ogni prova e i risultati complessivi sono mediati in tutte le prove. Un numero maggiore di pieghe determina stime più robuste della qualità del modello, ma un minor numero di pieghe rende l'utensile più veloce.
- Immettere la classe positiva per la variabile target: Alcune delle misure segnalate dallo strumento in casi di classificazione binaria (ad esempio il tasso reale positivo) richiedono una classe positiva da designare. Per eseguire la classificazione binaria, digitare una delle due classi positive della variabile di destinazione. Se lasciato vuoto, una delle classi viene determinata automaticamente come classe positiva. Questa opzione è disponibile solo per i modelli di classificazione.
- Utilizzare la convalida incrociata stratificata: Selezionare in modo che ogni piega abbia la stessa percentuale di ogni classe presente nell'intero set di dati. Questa opzione è disponibile solo per i modelli di classificazione.
- Imposta valoredi inizializzazione : Selezionare per garantire la riproducibilità della convalida incrociata e selezionare il valore del valore di inizializzazione utilizzato per assegnare i record alle pieghe. La scelta dello stesso valore di inizializzazione ogni volta che viene eseguito il flusso di lavoro garantisce che gli stessi record saranno nella stessa piega ogni volta. Il valore deve essere un numero intero positivo.
Personalizzare i grafici
Risoluzione grafico: Selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
- La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
- Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Visualizzazione dell'output
Collegare uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
- O (Output): visualizza il nome e le dimensioni del modello dell'oggetto nella finestra Risultati.
- R (Report): visualizza un report di riepilogo del modello che include un riepilogo e i grafici.
- I (interattivo): visualizza un dashboard interattivo di oggetti visivi di supporto che consente di eseguire lo zoom, il passaggio del mouse e fare clic.
Configurare lo strumento per l'elaborazione all'interno del database
Lo strumento di regressione logistica supporta l'elaborazione di database Oracle, Microsoft SQL Server 2016 e Teradata. Per altre informazioni sul supporto in-database e sugli strumenti, vedere Panoramica In-Database.
Quando uno strumento di regressione logistica viene posizionato nell'area di disegno con un altro strumento In-DB, lo strumento passa automaticamente alla versione In-DB. Per modificare la versione dello strumento, fare clic con il pulsante destro del mouse sullo strumento, scegliere Scegli versione strumento e fare clic su una versione diversa dello strumento. Per altre informazioni sul supporto predittivo in-database, vedere Analisi predittive.
Collegare un ingresso
Connettere un flusso di dati nel database che include un campo di destinazione di interesse insieme a uno o più campi predittivi possibili.
Se l'input proviene da un flusso di dati nel database di SQL Server o Teradata, per la stima del modello viene utilizzata la funzione rxLogit di Microsoft Machine Learning Server (dal pacchetto RevoScaleR). In questo modo l'elaborazione viene eseguita nel server di database, purché sia il computer locale che il server siano stati configurati con Microsoft Machine Learning Server e possa comportare un miglioramento significativo delle prestazioni.
Se l'input proviene da un flusso di dati Oracle nel database, la funzione Oracle R Enterprise ore.lm (dal pacchetto OREmodels) viene utilizzata per la stima del modello. In questo modo l'elaborazione viene eseguita nel server di database, purché sia il computer locale che il server siano stati configurati con Oracle R Enterprise e possa comportare un miglioramento significativo delle prestazioni.
Per un flusso di lavoro nel database in un database Oracle, la funzionalità completa dell'oggetto modello risultante a valle si verifica solo se lo strumento di regressione logistica è connesso direttamente da uno strumento Connect In-DB con una singola tabella completa selezionata o se è selezionata uno strumento Write Data In-DB viene utilizzato immediatamente prima dello strumento di regressione logistica per salvare la tabella dei dati di stima nel database. Oracle R Enterprise utilizza la tabella dei dati di stima per fornire funzionalità complete degli oggetti del modello, ad esempio il calcolo degli intervalli di stima.
Configurare lo strumento
- Nome modello: Ogni modello deve essere assegnato un nome in modo che possa essere identificato in un secondo momento. La scelta è di fornire un nome o di avere un nome generato automaticamente. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e il carattere di sottolineatura ("_"). Non sono consentiti altri caratteri speciali e R fa distinzione tra maiuscole e minuscole.
- Selezionare la variabile didestinazione : Selezionare il campo dal flusso di dati che si desidera stimare.
- Selezionare le variabili predittori: Scegliere i campi dal flusso di dati che si ritiene "causa" modifiche nel valore della variabile di destinazione. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
- Ometti una costante delmodello : Selezionare questo elemento se si desidera omettere una costante dal modello. Questo dovrebbe essere fatto se c'è un motivo esplicito per farlo.
- Opzioni specifiche di Oracle:questa opzione consente la configurazione di opzioni aggiuntive rilevanti solo per la piattaforma Oracle.
- Tipo dimodello : Selezionare il tipo di modello da utilizzare per la stima della variabile di destinazione.
- logit
- probit
- log-log complementare
- Salvare il modello nel database: Fa sì che l'oggetto modello stimato venga salvato nel database ed è consigliato in modo che gli oggetti modello e le tabelle di stima si conino in una posizione centralizzata nel database Oracle.
- Tipo dimodello : Selezionare il tipo di modello da utilizzare per la stima della variabile di destinazione.
- Usa pesi di campionamento per la stima del modello:selezionare la casella di controllo e quindi selezionare un campo peso dal flusso di dati per stimare un modello che utilizza il peso di campionamento. Un campo viene utilizzato sia come predittore che come variabile di peso, quindi la variabile di peso verrà visualizzata nella chiamata del modello nell'output con la stringa "Right_" anteposta.
- Configurazione specifica di Teradata: Microsoft Machine Learning Server richiede informazioni di configurazione aggiuntive sulla piattaforma Teradata specifica da utilizzare, in particolare i percorsi sul server Teradata per gli eseguibili binari di R e il percorso in cui è possibile scrivere i file temporanei utilizzati da Microsoft Machine Learning Server. Queste informazioni dovranno essere fornite da un amministratore Teradata locale.
Visualizzazione dell'output
Collegare uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.
- O ancoraggio: Uscita. Visualizza il nome del modello e le dimensioni dell'oggetto nella finestra Risultati.
- R ancoraggio: Report. Visualizza un report di riepilogo del modello che include un riepilogo e i grafici.