Skip to main content

Linear Regression Tool Icon Strumento Regressione lineare

Esempio di uno strumento

Lo strumento Regressione lineare presenta l'opzione Esempio di uno strumento. Visita Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.

Lo strumento Regressione lineare crea un modello semplice per stimare i valori o valutare le relazioni tra variabili in base a una dipendenza lineare.

I due principali tipi di regressione lineare sono regolarizzati e non regolarizzati:

  • La regressione lineare non regolarizzata produce modelli lineari che riducono al minimo la somma degli errori quadrici dei valori effettivi e quelli previsti della variabile target dei dati di addestramento.

  • La regressione lineare regolarizzata considera sempre la riduzione al minimo della somma degli errori quadrici e la bilancia con un termine di penalità sulla dimensione dei coefficienti e tende a produrre modelli più semplici meno soggetti a sovradattamento.

Questo strumento utilizza lo strumento R. Vai a OpzioniScarica Strumenti predittivi e accedi al portale Download e licenze di Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.

Pacchetti R utilizzati dalla regressione lineare

Pacchetto R

Tipo

Descrizione del pacchetto

AlteryxPredictive

Personalizzato

Questo pacchetto fornisce funzioni e chiamate CRAN personalizzate e pacchetti R personalizzati.

AlteryxRDataX

Personalizzato

Questo pacchetto fornisce la connettività tra Alteryx e R, oltre a una serie di funzioni che facilitano l'interazione tra Alteryx e R.

AlteryxRviz

Personalizzato

Questo pacchetto è obsoleto. Fornisce funzioni che facilitano le visualizzazioni interattive per gli strumenti predittivi in Alteryx (Serie temporali, Analisi rete).

flightdeck

Personalizzato

Questo pacchetto semplifica la creazione di dashboard interattivi per la generazione di report di output dei modelli predittivi.

Configurazione dello strumento per l'elaborazione standard

Connessione di un input

Collega un flusso di dati Alteryx o un flusso di metadati XDF che includa un campo target di interesse insieme a uno o più possibili campi predittivi.

Nota

XDF è in formato MRC/MMLS.

Se i dati di input provengono da un flusso di dati Alteryx, per la stima del modello vengono utilizzate la funzione open-source Rglm e le funzioni glmnet and cv.glmnet (dal pacchetto glmnet).

Se i dati di input provengono da uno strumento di output XDF o strumento di input XDF, per la stima del modello viene utilizzata la funzione RevoScaleR. L'utilizzo della funzione basata su Revo ScaleR offre il vantaggio di consentire l'analisi di set di dati molto più estesi (con memoria esaurita), ma al costo di un ulteriore sovraccarico per creare un file XDF con l'impossibilità di creare alcuni output di diagnostica del modello disponibili con la funzione open source R.

Configurazione dello strumento

  • Nome modello: inserisci un nome del modello per identificare il modello quando viene preso come riferimento in altri strumenti. I nomi di modello devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e carattere di sottolineatura ("_"). Non sono consentiti altri caratteri speciali e lo strumento R fa distinzione tra maiuscole e minuscole.

  • Seleziona la variabile target: seleziona i dati da stimare. Una variabile target è anche nota come variabile di risposta o dipendente.

  • Seleziona le variabili di previsione: seleziona i dati da utilizzare per influenzare il valore della variabile target. Una variabile di previsione è nota anche come caratteristica o variabile indipendente. Puoi selezionare un numero qualsiasi di variabili di previsione, ma la variabile target non deve essere anche una variabile di previsione. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.

Seleziona Personalizza per modificare le impostazioni di Modello, Convalida incrociata e Grafici.

Personalizza il modello

  • Ometti una costante del modello: seleziona l'opzione per omettere una costante e far passare la linea di adattamento migliore attraverso l'origine.

  • Utilizza una variabile di peso per i minimi quadrati ponderati: seleziona una variabile per determinare l'importanza da assegnare a ciascun record quando si crea un modello di minimi quadrati.

  • Utilizza la regressione regolarizzata: seleziona l'opzione per bilanciare la stessa minimizzazione della somma degli errori quadratici con un termine di penalità per la dimensione dei coefficienti e produrre un modello più semplice.

    • Inserisci valore di alfa: seleziona un valore compreso tra 0 (regressione della cresta) e 1 (lasso) per misurare la quantità di enfasi assegnata al coefficiente.

    • Standardizza variabili predittive: seleziona l'opzione per rendere tutte le variabili della stessa dimensione in base all'algoritmo utilizzato.

    • Utilizza la convalida incrociata per determinare i parametri del modello: seleziona l'opzione per eseguire la convalida incrociata e ottenere vari parametri del modello.

      • Numero di fold: seleziona il numero di fold in cui suddividere i dati. Un numero di fold più elevato determina stime della qualità del modello più affidabili, ma un numero minore di fold consente un'esecuzione più rapida dello strumento.

      • Che tipo di modello: seleziona il tipo di modello per determinare i coefficienti.

        • Modello più semplice

        • Modello con scarto quadratico medio del campionamento inferiore

      • Imposta valore iniziale: seleziona l'opzione per garantire la riproducibilità della convalida incrociata e selezionare il valore iniziale da utilizzare per assegnare i record ai fold. Scegliere lo stesso valore iniziale ogni volta che viene eseguito il flusso di lavoro garantisce che gli stessi record si trovino sempre nello stesso fold. Il valore deve essere un numero intero positivo.

Personalizza la convalida incrociata

  • Utilizza la convalida incrociata per determinare le stime della qualità del modello: seleziona l'opzione per eseguire la convalida incrociata e ottenere varie metriche e vari grafici della qualità del modello. Alcuni grafici e metriche vengono visualizzati nell'output R statico, mentre altri vengono visualizzati nell'output I interattivo.

    • Numero di fold: seleziona il numero di fold in cui suddividere i dati. Un numero di fold più elevato determina stime della qualità del modello più affidabili, ma un numero minore di fold consente un'esecuzione più rapida dello strumento.

    • Numero di prove: seleziona il numero di volte in cui ripetere la procedura di convalida incrociata. I fold vengono selezionati in modo diverso in ogni prova e per tutte le prove viene calcolata la media tra i risultati complessivi. Un numero di fold più elevato determina stime della qualità del modello più affidabili, ma un numero minore di fold consente un'esecuzione più rapida dello strumento.

    • Imposta valore iniziale: seleziona l'opzione per garantire la riproducibilità della convalida incrociata e selezionare il valore iniziale da utilizzare per assegnare i record ai fold. Scegliere lo stesso valore iniziale ogni volta che viene eseguito il flusso di lavoro garantisce che gli stessi record si trovino sempre nello stesso fold. Il valore deve essere un numero intero positivo.

Personalizza i grafici

  • Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi) o 3x (288 dpi).

    • La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.

    • Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.

  • Visualizza grafici: seleziona questa opzione per visualizzare i grafici quando utilizzi la regressione regolarizzata.

Visualizzazione dell'output

Connetti uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.

  • Ancoraggio O (output): visualizza il nome del modello e le dimensioni dell'oggetto nella finestra Risultati.

  • Ancoraggio R (report): visualizza un report di riepilogo del modello che include un riepilogo e tutti i grafici.

  • I (interattivo): visualizza un dashboard di visualizzazioni interattive per supportare l'ulteriore scoperta di dati e l'esplorazione dei modelli.

Configurazione dello strumento per l'elaborazione In-Database

Lo strumento Regressione lineare supporta l'elaborazione In-Database Oracle, Microsoft SQL Server 2016 e Teradata. Consulta la sezione Panoramica In-Database per ulteriori informazioni sul supporto In-Database e sugli strumenti.

Quando uno strumento Regressione lineare viene posizionato nell'area di disegno con un altro strumento In-DB, lo strumento passa automaticamente alla versione In-DB. Per modificare la versione dello strumento, fai clic con il pulsante destro del mouse sullo strumento, seleziona Scegli versione strumento e fai clic su una versione diversa dello strumento. Per ulteriori informazioni sul supporto In-Database predittivo, consulta la sezione Analisi predittiva.

Connessione di un input

Collega un flusso di dati In-Database che includa un campo target di interesse insieme a uno o più possibili campi predittori.

Se l'input proviene da un flusso di dati In-Database SQL Server o Teradata, per la stima del modello viene utilizzata la funzione Microsoft Machine Learning Server rxLinMod (dal pacchetto RevoScaleR). Ciò consente di eseguire l'elaborazione sul server del database, purché sia il computer locale che il server siano stati configurati con Microsoft Machine Learning Server, determinando un miglioramento significativo delle prestazioni.

Se l'input proviene da un flusso di dati In-Database SQL Server o Teradata, per la stima del modello viene utilizzata la funzione Oracle R Enterprise ore.lm (dal pacchetto OREmodels). Ciò consente di eseguire l'elaborazione sul server di database (purché il computer locale e il server siano stati entrambi configurati con Oracle R Enterprise), determinando un miglioramento significativo delle prestazioni.

Per un flusso di lavoro In-Database un database Oracle, la funzionalità completa dell'oggetto modello risultante a valle si ottiene solo se lo strumento Regressione lineare è connesso direttamente da uno strumento Connetti In-DB con una singola tabella completa selezionata o se uno strumento Scrivi dati In-DB viene utilizzato immediatamente prima dello strumento Regressione lineare per salvare la tabella dei dati di stima nel database. Oracle R Enterprise utilizza la tabella dei dati di stima per fornire la funzionalità completa dell'oggetto modello, come il calcolo degli intervalli di previsione.

Configurazione

  • Nome modello: è necessario assegnare un nome a ogni modello per poterlo identificare in futuro. È possibile inserire un nome o generarlo automaticamente. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e trattino basso ("_"). Non sono consentiti altri caratteri speciali e la R fa distinzione tra maiuscole e minuscole.

  • Seleziona la variabile target: seleziona il campo dal flusso di dati da stimare.

  • Seleziona le variabili predittive: scegli i campi dal flusso di dati che ritieni "essere la causa" delle variazioni nel valore della variabile target. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.

  • Ometti una costante del modello: seleziona questo elemento se si desidera omettere una costante dal modello. L'elemento va selezionato se vi è un motivo esplicito per farlo.

  • Utilizza pesi di campionamento per la stima del modello: fai clic sulla casella di controllo, quindi seleziona un campo del peso dal flusso di dati per stimare un modello che utilizza il peso di campionamento. Un campo è usato sia come predittore che come variabile di peso, quindi la variabile di peso apparirà nella chiamata del modello nell'output con la stringa "Right_" in posizione anteposta.

  • Opzioni specifiche di Oracle: questa opzione consente di configurare solo opzioni aggiuntive rilevanti per la piattaforma Oracle.

    • Salva il modello nel database: consente di salvare l'oggetto modello stimato nel database; opzione consigliata per garantire la convivenza di oggetti modello e tabelle di stima in una posizione centralizzata del database Oracle.

  • Configurazione specifica di Teradata: Microsoft Machine Learning Server necessita di ulteriori informazioni di configurazione sulla piattaforma Teradata specifica da utilizzare, in particolare i percorsi sul server Teradata agli eseguibili binari di R e la posizione in cui è possibile scrivere i file temporanei utilizzati da Microsoft Machine Learning Server. Queste informazioni dovranno essere fornite da un amministratore locale di Teradata.

Visualizzazione dell'output

Connetti uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.

  • Ancoraggio O (output): visualizza il nome del modello e le dimensioni dell'oggetto nella finestra Risultati.

  • Ancoraggio R (report): visualizza un report di riepilogo del modello che include un riepilogo e tutti i grafici.