Strumento Conteggio delle regressioni
Esempio di uno strumento
Conteggio delle regressioni presenta l'opzione Esempio di uno strumento. Visita Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.
Utilizza Conteggio delle regressioni per creare un modello di regressione che mette in relazione un campo di interesse (una variabile di destinazione) a valore intero non negativo (0, 1, 2, 3 e così via) con uno o più campi che si prevede abbiano un'influenza sulla variabile di destinazione e che sono spesso chiamati variabili predittive.
Esempi di casi d'uso comuni sono il numero di visite di un cliente a un determinato ristorante in un mese specifico o il numero di recapiti telefonici associati a un determinato account di un telefono cellulare. In questi casi d'uso, l'impiego di un modello lineare determina stime distorte. I due modelli di conteggio delle regressioni più noti sono il modello Poisson* e quello binominale negativo**. Dato un insieme di variabili predittive, un modello di regressione del conteggio dei dati consente all'utente di ottenere stime relative al numero previsto di eventi (per esempio visite a un negozio) per un'unità di osservazione (per esempio un cliente).
Il modello di regressione Poisson elabora una forte ipotesi inerente alla relazione esistente tra la media e la varianza del campo target (specificatamente quando sono uguali tra loro). A questo proposito, è stato sviluppato Il modello quasi-Poisson. Il modello quasi-Poisson consente una varianza diversa dalla media ma al prezzo di non avere misure di criteri di informazione definiti (quale AIC). Pertanto, un modello quasi-Poisson non può essere utilizzato come avvio per la selezione di variabili graduali. Il modello di regressione binominale negativo dispone di criteri di informazione ben definiti e consente di ottenere una differenza tra media e varianza per la distribuzione sottostante, pertanto in genere è preferito. È necessario notare che la stima di un modello di regressione Poisson, effettuata attraverso l'utilizzo di dati in cui media e varianza siano diversi tra loro, fornisce stime non distorte della media e dei relativi coefficienti di modello. Tuttavia, i test di significatività statistica sono distorti.
Con questo strumento, se i dati di input provengono da un regolare flusso di dati Alteryx, viene utilizzata la funzione open source R glm per la stima del modello. Se l'input proviene da uno strumento Input XDF o da uno strumento Output XDF, viene utilizzata la funzione Revo ScaleR rxGlm per la stima del modello. Il vantaggio di utilizzare la funzione basata su Revo ScaleR è che consente di analizzare set di dati molto più estesi (con memoria esaurita), ma al costo di un ulteriore sovraccarico per creare un file XDF e dell'impossibilità di creare alcuni output di diagnostica del modello disponibili con la funzione open source R. Inoltre, può generare soltanto un modello di regressione Poisson.
Questo strumento utilizza lo strumento R. Vai a Opzioni Scarica Strumenti predittivi e accedi al portale Download e licenze di Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.
Connessione di un input
Collega un flusso di dati Alteryx o un flusso di metadati XDF che includa un campo target di interesse insieme a uno o più possibili campi predittivi.
Configura lo strumento
Conteggio delle regressioni - scheda Configurazione
Nome modello: è necessario assegnare un nome a ogni modello per poterlo identificare in futuro. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (.) e carattere di sottolineatura (_). Non sono consentiti altri caratteri speciali e la R fa distinzione tra maiuscole e minuscole.
Seleziona la variabile target: seleziona il campo dal flusso di dati da stimare.
Seleziona le variabili predittive: scegli i campi dal flusso di dati che ritieni essere la causa delle variazioni nel valore della variabile di destinazione. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Tipo di modello: seleziona Poisson, Quasi-Poisson o Binominale negativo. Se viene selezionata l'opzione Binominale negativo, puoi specificare il valore di theta (che è strettamente collegato alla varianza del modello). Se è in uso l'opzione predefinita "Automatico", la stima del valore migliore di theta può essere effettuata dai dati.
Utilizzare i pesi di campionamento nella stima del modello? (Facoltativo): seleziona la casella di spunta, quindi seleziona un campo peso dal flusso di dati per stimare un modello che utilizza il peso di campionamento. Questa opzione non è disponibile se il tipo di modello selezionato è quello binominale negativo e se il valore di theta viene determinato utilizzando l'opzione Automatico. Tuttavia, funzionerà se verrà fornito un valore di theta specifico (che può essere basato su un'esecuzione iniziale del modello che non abbia utilizzato pesi di campionamento).
Scheda Opzioni grafiche
Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Visualizzazione dell'output
Ancoraggio O: consiste in una tabella del modello serializzato con il nome del modello.
Ancoraggio R: consiste nei frammenti di report generati dallo strumento Conteggio delle regressioni, ossia riepilogo della statistica, Analisi della devianza di tipo II (ANOD) e Grafici diagnostici di base. La tabella Analisi della devianza di tipo II e i Grafici diagnostici di base non vengono generati quando l'input del modello proviene da uno strumento di output XDF o da uno di input XDF.
en.wikipedia.org/wiki/Poisson_regression
en.wikipedia.org/wiki/Negative_binomial_distribution