Linear Regression Tool Icon

Strumento Di Regressione Lineare

Versione:
2023.1
Last modified: September 25, 2020

Lo strumento di regressione lineare crea un modello semplice per stimare i valori o valutare le relazioni tra le variabili in base a una relazione lineare.

I due tipi principali di regressione lineare non sono regolarizzati e regolarizzati:

  • La regressione lineare non regolarizzata produce modelli lineari che riducono al minimo la somma degli errori al quadrato tra i valori effettivi e previsti della variabile di destinazione dei dati di training.
  • La regressione lineare regolarizzata bilancia la stessa minimizzazione della somma degli errori al quadrato con un termine di penalità sulle dimensioni dei coefficienti e tende a produrre modelli più semplici che sono meno inclini all'overfitting.

Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica strumenti predittivi e accedi al portale Alteryx Downloads and Licenses per installare R e i pacchetti utilizzati dallo strumento R. Consultate Scaricare e utilizzare gli strumenti predittivi.

Pacchetti R utilizzati dalla regressione lineare

Pacchetto R Tipo Descrizione pacchetto
AlteryxPredictive Personalizzato Questo pacchetto fornisce funzioni personalizzate e chiama CRAN e pacchetti R personalizzati.
AlteryxRDataX Personalizzato Questo pacchetto fornisce connettività tra Alteryx e R, nonché una serie di funzioni per facilitare l'interazione tra Alteryx e R.
AlteryxRviz Personalizzato Questo pacchetto è deprecato. Fornisce funzioni che guidano visualizzazioni interattive per gli strumenti predittivi in Alteryx (Time Series, Network Analysis).
Flightdeck Personalizzato Questo pacchetto semplifica la creazione di dashboard interattivi per la creazione di report degli output dei modelli predittivi.

Configurare lo strumento per l'elaborazione standard

Collegare un ingresso

Connetti un flusso di dati Alteryx o un flusso di metadati XDF che include un campo di destinazione di interesse insieme a uno o più campi predittivi possibili.

XDF è in formato MRC/MMLS.

Se i dati di input provengono da un flusso di dati Alteryx, per la stima del modello vengono utilizzate le funzioni R lm e glmnet e cv.glmnet (dal pacchetto glmnet).

Se i dati di input provengono da uno strumento Output XDF o da uno strumento di input XDF, la funzione RevoScaleR rxLinMod viene utilizzata per la stima del modello. Il vantaggio dell'utilizzo della funzione basata su RevoScaleR è che consente di analizzare set di dati molto più grandi (di memoria), ma a costo di un sovraccarico aggiuntivo per creare un file XDF e l'impossibilità di creare parte dell'output diagnostico del modello disponibile con funzioni R open source.

Configurare lo strumento

  • Nome modello: Immettere un nome per il modello per identificare il modello quando vi viene fatto riferimento in altri strumenti. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (.) e carattere di sottolineatura (_). Non sono consentiti altri caratteri speciali e R fa distinzione tra maiuscole e minuscole.
  • Selezionare la variabile didestinazione: selezionare i dati da stimare. Una variabile di destinazione è nota anche come risposta o variabile dipendente.
  • Selezionare le variabili predittori: Selezionare i dati da utilizzare per influenzare il valore della variabile di destinazione. Una variabile predittiva è anche nota come una feature o una variabile indipendente. È possibile selezionare un numero qualsiasi di variabili predittive, ma la variabile di destinazione non deve essere anche una variabile predittiva. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.

Selezionare Personalizza per modificare le impostazioniModello , Convalidaincrociata e Stampa.

Personalizzare il modello

  • Ometti una costante del modello: Selezionare questa opzione per omettere una costante e fare in modo che la linea di adattamento passi attraverso l'origine.
  • Utilizzare una variabile di peso per i quadrati meno ponderati:selezionare una variabile per determinare la quantità di importanza da inserire in ogni record quando si crea un modello con meno quadrati.
  • Usa regressione regolarizzata: Selezionare per bilanciare la stessa minimizzazione della somma degli errori al quadrato con un termine di penalità sulla dimensione dei coefficienti e produrre un modello più semplice.
    • Immettere il valore alfa: Selezionare un valore compreso tra 0 (regressione della cresta) e 1 (lazo) per misurare la quantità di enfasi data al coefficiente.
    • Standardizzare le variabili predittori: Selezionare questa opzione per rendere tutte le variabili della stessa dimensione in base all'algoritmo utilizzato.
    • Utilizzare la convalida incrociata per determinare i parametri delmodello : Selezionare per eseguire la convalida incrociata e ottenere vari parametri del modello
      • Numero di pieghe: Selezionare il numero di pieghe per dividere i dati. Un numero maggiore di pieghe determina stime più robuste della qualità del modello, ma un minor numero di pieghe rende l'utensile più veloce.
      • Che tipo di modello: Selezionare il tipo di modello per determinare i coefficienti.
        • Modello più semplice
        • Modello con errore standard del campionamento inferiore
      • Imposta valoredi inizializzazione : Selezionare per garantire la riproducibilità della convalida incrociata e selezionare il valore del valore di inizializzazione utilizzato per assegnare i record alle pieghe. La scelta dello stesso valore di inizializzazione ogni volta che viene eseguito il flusso di lavoro garantisce che gli stessi record saranno nella stessa piega ogni volta. Il valore deve essere un numero intero positivo.

Personalizzare la convalida incrociata

  • Utilizzare la convalida incrociata per determinare le stime della qualità del modello:selezionare questa opzione per eseguire la convalida incrociata e ottenere varie metriche e grafici di qualità del modello. Alcune metriche e grafici verranno visualizzati nell'output R statico e altri nell'output I interattivo.
    • Numero di pieghe: Selezionare il numero di pieghe per dividere i dati. Un numero maggiore di pieghe determina stime più robuste della qualità del modello, ma un minor numero di pieghe rende l'utensile più veloce.
    • Numero di prove: Selezionare il numero di ripetizioni per la procedura di convalida incrociata. Le pieghe sono selezionate in modo diverso in ogni prova e i risultati complessivi sono mediati in tutte le prove. Un numero maggiore di pieghe determina stime più robuste della qualità del modello, ma un minor numero di pieghe rende l'utensile più veloce.
    • Imposta valoredi inizializzazione : Selezionare per garantire la riproducibilità della convalida incrociata e selezionare il valore del valore di inizializzazione utilizzato per assegnare i record alle pieghe. La scelta dello stesso valore di inizializzazione ogni volta che viene eseguito il flusso di lavoro garantisce che gli stessi record saranno nella stessa piega ogni volta. Il valore deve essere un numero intero positivo.

Personalizzare i grafici

  • Risoluzione grafico: Selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
    • La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
    • Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
  • Visualizza grafici:selezionare questa opzione per visualizzare i grafici quando si utilizza la regressione regolarizzata.

Visualizzazione dell'output

Collegare uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.

  • O (Output): visualizza il nome e le dimensioni del modello dell'oggetto nella finestra Risultati.
  • R (Report): visualizza un report di riepilogo del modello che include un riepilogo e i grafici.
  • I (interattivo): visualizza una dashboard di visualizzazioni interattive per supportare l'ulteriore individuazione dei dati e l'esplorazione dei modelli.

Configurare lo strumento per l'elaborazione all'interno del database

Lo strumento di regressione lineare supporta l'elaborazione di database Oracle, Microsoft SQL Server 2016 e Teradata. Per altre informazioni sul supporto in-database e sugli strumenti, vedere Panoramica In-Database.

Quando uno strumento di regressione lineare viene posizionato nell'area di disegno con un altro strumento In-DB, lo strumento passa automaticamente alla versione In-DB. Per modificare la versione dello strumento, fare clic con il pulsante destro del mouse sullo strumento, scegliere Scegli versione strumento e fare clic su una versione diversa dello strumento. Per altre informazioni sul supporto predittivo in-database, vedere Analisi predittive.

Collegare un ingresso

Connettere un flusso di dati nel database che include un campo di destinazione di interesse insieme a uno o più campi predittivi possibili.

Se l'input proviene da un flusso di dati nel database di SQL Server o Teradata, per la stima del modello viene utilizzata la funzione rxLinMod di Microsoft Machine Learning Server (dal pacchetto RevoScaleR). In questo modo l'elaborazione viene eseguita nel server di database, purché sia il computer locale che il server siano stati configurati con Microsoft Machine Learning Server e possa comportare un miglioramento significativo delle prestazioni.

Se l'input proviene da un flusso di dati Oracle nel database, la funzione Oracle R Enterprise ore.lm (dal pacchetto OREmodels) viene utilizzata per la stima del modello. In questo modo l'elaborazione viene eseguita nel server di database, purché sia il computer locale che il server siano stati configurati con Oracle R Enterprise e possa comportare un miglioramento significativo delle prestazioni.

Per un flusso di lavoro nel database in un database Oracle, la funzionalità completa dell'oggetto modello risultante a valle si verifica solo se lo strumento di regressione lineare è connesso direttamente da uno strumento Connect In-DB con una singola tabella completa selezionata o se è selezionato uno strumento Write Data In-DB utilizzato immediatamente prima dello strumento Regressione lineare per salvare la tabella dei dati di stima nel database. Oracle R Enterprise utilizza la tabella dei dati di stima per fornire funzionalità complete degli oggetti del modello, ad esempio il calcolo degli intervalli di stima.

Configurazione

  • Nome modello: Ogni modello deve essere assegnato un nome in modo che possa essere identificato in un secondo momento. La scelta è di fornire un nome o di avere un nome generato automaticamente. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e il carattere di sottolineatura ("_"). Non sono consentiti altri caratteri speciali e R fa distinzione tra maiuscole e minuscole.
  • Selezionare la variabile didestinazione : Selezionare il campo dal flusso di dati che si desidera stimare.
  • Selezionare le variabili predittori: Scegliere i campi dal flusso di dati che si ritiene "causa" modifiche nel valore della variabile di destinazione. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
  • Ometti una costante delmodello : Selezionare questo elemento se si desidera omettere una costante dal modello. Questo dovrebbe essere fatto se c'è un motivo esplicito per farlo.
  • Usa pesi di campionamento per la stima del modello:selezionare la casella di controllo e quindi selezionare un campo peso dal flusso di dati per stimare un modello che utilizza il peso di campionamento. Un campo viene utilizzato sia come predittore che come variabile di peso, quindi la variabile di peso verrà visualizzata nella chiamata del modello nell'output con la stringa "Right_" anteposta.
  • Opzioni specifiche di Oracle:questa opzione consente la configurazione di opzioni aggiuntive rilevanti solo per la piattaforma Oracle.
    • Salvare il modello nel database: Fa sì che l'oggetto modello stimato venga salvato nel database ed è consigliato in modo che gli oggetti modello e le tabelle di stima si conino in una posizione centralizzata nel database Oracle.
  • Configurazione specifica di Teradata: Microsoft Machine Learning Server richiede informazioni di configurazione aggiuntive sulla piattaforma Teradata specifica da utilizzare, in particolare i percorsi sul server Teradata per gli eseguibili binari di R e il percorso in cui è possibile scrivere i file temporanei utilizzati da Microsoft Machine Learning Server. Queste informazioni dovranno essere fornite da un amministratore Teradata locale.

Visualizzazione dell'output

Collegare uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.

  • O (Output): visualizza il nome e le dimensioni del modello dell'oggetto nella finestra Risultati.
  • R (Report): visualizza un report di riepilogo del modello che include un riepilogo e i grafici.
Questa pagina è stata utile?

Si sono verificati problemi con il tuo prodotto Alteryx? Visita la community Alteryx o contatta il supporto. Non riesci a inviare questo modulo? Inviaci un'e-mail.