Strumento Albero decisionale

Esempio di uno strumento

Lo strumento Albero decisionale dispone dell'opzione Esempio di uno strumento Visita Esempi di flussi di lavoro per scoprire come accedere a questo e a molti altri esempi direttamente in Alteryx Designer.

Lo strumento Albero decisionale crea un insieme di regole di suddivisione condizionale if-then per ottimizzare i criteri di creazione del modello in base ai metodi di apprendimento dell'albero decisionale. La formazione delle regole si basa sul tipo di campo target:

Se il campo target fa parte di un insieme categorico, viene creata una struttura ad albero di classificazione.
Se il campo target è una variabile continua, viene creata una struttura ad albero di regressione.

Utilizza lo strumento Albero decisionale quando prevedi che il campo target debba utilizzare uno o più campi variabili, come un problema di classificazione o di regressione target continua.

Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica Strumenti predittivi e accedi al portale Download e licenze di Alteryx per installare R e i pacchetti utilizzati dallo strumento R. Consulta la sezione Download e utilizzo degli strumenti predittivi.

Connessione di un input

Lo strumento Albero decisionale richiede un input con:

Un campo di interesse target
Due o più campi di previsione

I pacchetti utilizzati nella stima del modello variano in base al flusso di dati di input.

Un flusso di dati Alteryx utilizza la funzione open-source R rpart.
Un flusso di metadati XDF, proveniente da uno strumento di input XDF o da uno strumento di output XDF, utilizza la funzione RevoScaleR rxBTree.
I dati di un flusso di dati nel database di SQL Server utilizzano la funzione rxBTrees.
L'installazione di Microsoft Machine Learning Server utilizza la funzione RvoScaleR rxBTrees per i tuoi dati nel tuo database SQL Server o Teradata. Ciò richiede che il computer locale e il server siano configurati con Microsoft Machine Learning Server, che consente l'elaborazione nel server di database e comporta un miglioramento significativo delle prestazioni.

Funzionalità RevoScaleR

Rispetto alle funzioni R open source, la funzione basata su RevoScaleR è in grado di analizzare set di dati molto più grandi. Tuttavia, la funzione basata su RevoScaleR deve creare un file XDF, che aumenta il costo di sovraccarico, utilizza un algoritmo che esegue più passaggi sui dati, aumentando il runtime e non può creare alcuni output di diagnostica del modello.

Configurazione dello strumento per l'elaborazione standard

Queste opzioni sono necessarie per generare una decisione.

Digita nome modello: il nome del modello a cui possono fare riferimento gli altri strumenti. Il nome o il prefisso del modello deve iniziare con una lettera e può contenere lettere, numeri e i caratteri speciali punto (".") e carattere di sottolineatura ("_"). Lo strumento R fa distinzione tra maiuscole e minuscole.
Seleziona variabile target: il campo dati da stimare, noto anche come risposta o variabile dipendente.
Seleziona variabili predittive: i campi dati utilizzati per influenzare il valore della variabile target, nota anche come funzionalità o variabile indipendente. Sono richiesti almeno due campi predittivi, ma non esiste un limite massimo per il numero di campi predittivi selezionati. La variabile target stessa non deve essere utilizzata nel calcolo del valore di destinazione, pertanto il campo di destinazione non deve essere incluso nei campi predittivi. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.

Seleziona Personalizza per regolare le impostazioni aggiuntive.

Personalizza il modello

Scheda modello

Le opzioni che modificano il modo in cui il modello valuta i dati e viene costruito.

Scegli algoritmo: seleziona la funzione rpart o la funzione C5.0. Opzioni successive diverse a seconda dell'algoritmo scelto.

rpart: un algoritmo basato sul lavoro di Breiman, Friedman, Olshen e Stone; è considerato lo standard. Puoi utilizzare rpart per creare un modello di regressione o se hai bisogno di un grafico di potatura.
- Tipo di modello e pesi di campionamento: esegue il controllo del tipo di modello in base alla variabile target e alla gestione dei pesi di campionamento.
  - Tipo di modello: il tipo di modello utilizzato per stimare la variabile target.
    Auto: il tipo di modello viene selezionato automaticamente in base al tipo di variabile target.
    Classificazione: il modello stima un valore di testo discreto di una categoria o un gruppo.
    Regressione: il modello prevede valori numerici continui.
  - Utilizza pesi di campionamento nella stima del modello: un'opzione che consente di selezionare un campo che pondera l'importanza attribuita a ogni record e il peso del record durante la creazione di una stima del modello.
    Se un campo viene utilizzato sia come predittore che come peso campione, il campo della variabile del peso di output verrà anteposto a "Right_".
- Criteri di divisione e surrogati: controlla il modo in cui il modello determina una suddivisione e come i surrogati vengono utilizzati nella valutazione dei pattern di dati. Criteri di divisione da utilizzare: seleziona il modo in cui il modello determina quando la struttura ad albero deve essere suddivisa.
  - I criteri di suddivisione quando si utilizza un modello di regressione sono sempre i minimi quadrati.
    Coefficiente di Gini
    Viene utilizzata l'impurità di Gini.
    Indice delle informazioni
  - Utilizza surrogati per: seleziona il metodo di utilizzo dei surrogati nel processo di suddivisione. I surrogati sono variabili correlate alla variabile primaria che vengono utilizzati per determinare il risultato della suddivisione di un record con informazioni mancanti.
    Ometti osservazioni con valore mancante per la regola di suddivisione primaria: il record senza la variabile candidata non viene considerato per determinare la suddivisione.
    Suddividi record senza variabile candidata: tutti i record a cui manca la variabile candidata sono distribuiti uniformemente nella suddivisione.
    Invia osservazione nella direzione di maggioranza se mancano tutti i surrogati: tutti i record senza variabile candidata vengono spostati al lato della suddivisione che contiene più record.
  - Seleziona la migliore suddivisione surrogata utilizzando: seleziona i criteri di scelta della variabile migliore in base alla quale eseguire la suddivisione, da un insieme di possibili variabili.
    Numero di classificazioni corrette per una variabile candidata: consente di scegliere la variabile di suddivisione in base al numero totale di record correttamente classificati.
    Percentuale di classificazioni corrette per una variabile candidata: consente di scegliere la variabile di suddivisione in base alla percentuale di record che sono classificati correttamente.
- Iperparametri: controlla la distribuzione precedente del modello. Regola l'elaborazione in base alla distribuzione precedente.
  - Il numero minimo di record necessari per consentire una suddivisione: imposta il numero di record che devono esistere prima che si verifichi una suddivisione. Se vi sono meno record rispetto al numero minimo, non sono consentite ulteriori suddivisioni.
  - Numero minimo consentito di record in un nodo terminale: imposta il numero di record in un nodo terminale. Un numero inferiore aumenta il numero potenziale di nodi terminali finali alla fine della struttura ad albero.
  - Il numero di fold da utilizzare nella convalida incrociata per la potatura della struttura ad albero: imposta il numero di gruppi (N) in cui i dati devono essere suddivisi durante il test del modello. Il valore predefinito è 10; gli altri valori comuni sono 5 e 20. Un numero maggiore di fold conferisce maggiore precisione alla struttura ad albero, ma potrebbe richiedere più tempo per l'elaborazione. Quando la struttura ad albero viene potata utilizzando un parametro di complessità, la convalida incrociata determina il numero di suddivisioni o rami presenti nella struttura ad albero. Nella convalida incrociata, i fold N - 1 vengono utilizzati per creare un modello, mentre l'altro fold viene utilizzato come esempio per determinare il numero di rami che meglio si adatta al fold di holdout affinché si eviti un sovradattamento.
  - Profondità massima consentita per qualsiasi nodo della struttura ad albero finale: imposta il numero di livelli di rami consentiti dal nodo radice al nodo più distante per limitare le dimensioni complessive della struttura ad albero.
  - Il numero massimo di bin da utilizzare per ogni variabile numerica: inserisci il numero di bin da utilizzare per ciascuna variabile. Per impostazione predefinita, il valore viene calcolato in base al numero minimo di record necessari per consentire una suddivisione.
    Solo flusso di metadati XDF
    Questa opzione si applica solo quando l'input nello strumento è un flusso di metadati XDF. La funzione RevoScaleR (rxDTree), che implementa l'albero decisionale scalabile, gestisce le variabili numeriche tramite un processo di binning a intervalli uguali per ridurre le complessità di calcolo.
  - Imposta parametro di complessità: un valore che controlla le dimensioni dell'albero decisionale. Un valore più piccolo determina un numero maggiore di rami nella struttura ad albero, mentre un valore più elevato determina un numero inferiore di rami. Se non è selezionato alcun un parametro di complessità, il parametro viene determinato in base alla convalida incrociata.
C5.0: un algoritmo basato sul lavoro di Quinlan; utilizza C5.0 se i dati sono ordinati in una o in piccolo numero di classi che si escludono a vicenda. Sebbene alcuni dati possano avere valori sconosciuti o non applicabili, vengono fornite le proprietà che possono essere rilevanti per l'assegnazione della classe.
- Opzioni strutturali: controlla la struttura del modello. Per impostazione predefinita, il modello è strutturato come un albero decisionale.
  - Scomponi la struttura ad albero in un modello basato su regole: modifica la struttura dell'algoritmo di output da un albero decisionale in un insieme di regole semplici if-then non ordinate. Seleziona Numero soglia di bande in cui raggruppare le regole in Seleziona un numero di bande in cui raggruppare le regole dove il numero impostato corrisponde alla soglia della banda.
- Opzioni dettagliate: controlla le suddivisioni e le funzionalità del modello.
  - Il modello dovrebbe valutare gruppi di predittori discreti per le suddivisioni: raggruppa le variabili predittive categoriche. Seleziona l'opzione per ridurre il sovradattamento in presenza di attributi discreti importanti con più di quattro o cinque valori.
  - Utilizza predittore winnowing (ad esempio, selezione funzionalità): seleziona per semplificare il modello tentando di escludere predittori inutili.
  - Potatura struttura ad albero: seleziona questa opzione per semplificare la struttura ad albero e ridurre il sovradattamento rimuovendo le suddivisioni.
  - Valuta suddivisioni avanzate nei dati: seleziona questa opzione per eseguire valutazioni con variabili secondarie e confermare quale ramo rappresenta la previsione più accurata.
  - Utilizza il metodo di arresto per il potenziamento: seleziona questa opzione per valutare se le iterazioni di potenziamento stanno diventando inefficaci e, in tal caso, interrompere il potenziamento.
- Iperparametri numerici: esegue il controllo della distribuzione del modello precedente in base a un valore numerico.
  - Seleziona il numero di iterazioni di potenziamento: seleziona l'opzione per utilizzare un modello singolo.
  - Seleziona fattore di confidenza: questo fattore è analogo al parametro di complessità di rpart.
  - Seleziona il numero di campioni che devono essere in almeno due suddivisioni: un numero maggiore genera una struttura ad albero più piccola e semplice.
  - Percentuale di dati conservati dall'addestramento per la valutazione del modello: seleziona la porzione di dati utilizzata per addestrare il modello. Utilizza il valore predefinito 0 per utilizzare tutti i dati per addestrare il modello. Seleziona un valore maggiore per conservare la percentuale di dati conservati dall'addestramento e la valutazione della precisione del modello
  - Seleziona seme casuale per l'algoritmo: seleziona il valore del seme. Il valore deve essere un numero intero positivo.

Scheda Convalida incrociata

Controlla la personalizzazione di un metodo di convalida con un uso efficiente delle informazioni disponibili.

Seleziona Utilizza convalida incrociata per determinare le stime della qualità del modello per eseguire la convalida incrociata e ottenere vari grafici e metriche sulla qualità del modello. Alcuni grafici e metriche vengono visualizzati nell'output R, mentre altri vengono visualizzati nell'output I.

Numero di fold nella convalida incrociata: il numero di sottocampioni in cui vengono suddivisi i dati per la convalida o l'addestramento. Un numero di fold più elevato determina stime della qualità del modello più affidabili, ma un numero minore di fold consente un'esecuzione più rapida dello strumento.
Numero di prove di convalida incrociata: il numero di volte in cui la procedura di convalida incrociata viene ripetuta. I fold vengono selezionati in modo diverso in ogni prova e, per tutte le prove, viene calcolata la media dei risultati. Un numero di fold più elevato determina stime della qualità del modello più affidabili, ma un numero minore di fold consente un'esecuzione più rapida dello strumento.
Imposta seme per la convalida incrociata esterna: valore che determina la sequenza di disegni per il campionamento casuale. Questo fa sì che gli stessi record all'interno dei dati vengano scelti, anche se il metodo di selezione è casuale e non dipende dai dati. Utilizza Seleziona valore del seme casuale per la convalida incrociata per selezionare il valore del seme. Il valore deve essere un numero intero positivo.

Scheda Grafici

Seleziona e configura i grafici da visualizzare nel report di output.

Visualizza report statico: seleziona l'opzione per visualizzare un report di riepilogo del modello dall'ancoraggio di output R. Selezionato per impostazione predefinita.
Grafico della struttura ad albero: grafico delle variabili e dei rami dell'albero decisionale. Utilizza l'opzione Mostra grafico della struttura ad albero per includere un grafico delle variabili e dei rami dell'albero decisionale nell'output del report del modello.
- Distanze uniformi dei rami: seleziona per visualizzare i rami della struttura ad albero con lunghezza uniforme o proporzionale all'importanza relativa di una suddivisione nella stima del target.
- Riepilogo foglie: consente di determinare cosa viene visualizzato sui nodi foglia finali nel grafico della struttura ad albero. Seleziona Conteggi se viene visualizzato il numero di record. Seleziona Proporzioni se viene visualizzata la percentuale dei record totali.
- Dimensioni grafico: seleziona l'opzione se il grafico è visualizzato in pollici o centimetri.
- Larghezza: per impostare la larghezza del grafico utilizzando l'unità selezionata in Dimensioni grafico.
- Altezza: per impostare l'altezza del grafico utilizzando l'unità selezionata in Dimensioni grafico.
- Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
  - La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
  - Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
Dimensioni carattere di base (punti): seleziona le dimensioni del carattere nel grafico.
Grafico di potatura: un grafico semplificato dell'albero decisionale.
Utilizza un grafico di potatura nel report
- Visualizza grafico potatura: fai clic per includere un grafico semplificato dell'albero decisionale nell'output del report del modello.
- Dimensioni grafico: seleziona l'opzione se il grafico è visualizzato in pollici o centimetri.
- Larghezza: per impostare la larghezza del grafico utilizzando l'unità selezionata in Dimensioni grafico.
- Altezza: per impostare l'altezza del grafico utilizzando l'unità selezionata in Dimensioni grafico.
- Risoluzione grafico: selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor. Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
- Dimensioni carattere di base (punti): seleziona le dimensioni del carattere nel grafico.

Configurazione dello strumento per l'elaborazione In-Database

Lo strumento Albero decisionale supporta l'elaborazione In-Database Microsoft SQL Server 2016 e Teradata. Consulta la sezione Panoramica In-Database per ulteriori informazioni sul supporto In-Database e sugli strumenti.

Quando uno strumento Albero decisionale viene posizionato sull'area di disegno con un altro strumento In-DB, lo strumento passa automaticamente alla versione In-DB. Per modificare la versione dello strumento, fai clic con il pulsante destro del mouse sullo strumento, seleziona Scegli versione strumento e fai clic su una versione diversa dello strumento. Per ulteriori informazioni sul supporto In-Database predittivo, consulta la sezione Analisi predittiva.

Scheda Parametri obbligatori

Nome modello: a ogni modello devi assegnare un nome affinché possa essere identificato in futuro.
- Nome modello specifico: per inserire il nome del modello che si desidera utilizzare. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e trattino basso ("_"). Non sono consentiti altri caratteri speciali e lo strumento R fa distinzione tra maiuscole e minuscole.
- Genera automaticamente un nome modello: Designer genera automaticamente un nome del modello che soddisfa i parametri richiesti.
Seleziona la variabile target: seleziona il campo dal flusso di dati da stimare.
Seleziona le variabili predittive: scegli i campi dal flusso di dati che ritieni "essere la causa" delle variazioni nel valore della variabile target. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
Utilizza pesi di campionamento nella stima del modello (opzionale): seleziona l'opzione per scegliere un campo dal flusso di dati di input da utilizzare per il peso di campionamento.
Seleziona il campo del peso di campionamento: seleziona il campo del peso dal flusso di dati per stimare un modello che utilizza il peso di campionamento. Un campo viene utilizzato sia come predittore che come variabile di peso. La variabile di peso viene visualizzata nell'output della chiamata del modello con la stringa "Right_" anteposta ad essa.

Scheda Personalizzazione modello

Tipo di modello: seleziona il tipo di modello da utilizzare.
- Classificazione: un modello per prevedere un target categorico. Se utilizzi un modello di classificazione, seleziona anche i criteri di suddivisione.
  - Coefficiente di Gini
  - Indice delle informazioni basato sull'entropia
- Regressione: un modello per prevedere un target numerico continuo.
Numero minimo di record necessari per consentire una suddivisione: se in un set di rami della struttura ad albero sono presenti meno record rispetto al numero minimo selezionato, non sono consentite ulteriori suddivisioni.
Parametro di complessità: questo parametro controlla il modo in cui vengono eseguite le suddivisioni (in altre parole, il numero di rami nella struttura ad albero). Il valore dovrebbe essere inferiore a 1 e più piccolo sarà il valore e più rami si avranno nella struttura ad albero finale. Un valore di "Auto" o l'omissione di un valore darà luogo al parametro di complessità "migliore" scelto in base alla convalida incrociata.
Numero minimo consentito di record in un nodo terminale: il numero minimo di record che devono essere contenuti in un nodo terminale. Diminuendo questo numero si aumenta il numero potenziale di nodi terminali finali.
Utilizzo del surrogato: questo gruppo di opzioni controlla il modo in cui vengono indirizzati i record con dati mancanti nelle variabili predittive in una particolare suddivisione. La prima scelta è quella di omettere (rimuovere) un record senza il valore della variabile utilizzata nella suddivisione. La seconda consiste nell'utilizzare le suddivisioni "surrogate" nelle quali la direzione in cui verrà inviato un record si basa su suddivisioni alternative di una o più variabili con quasi gli stessi risultati. La terza scelta è inviare l'osservazione nella direzione della maggioranza della suddivisione.
- Ometti un'osservazione con un valore mancante per la regola di divisione primaria
- Usa i surrogati per dividere i record che non hanno la variabile del candidato
- Se mancano tutti i surrogati, inviare l'osservazione nella direzione della maggioranza
- Il numero totale delle classificazioni corrette per una variabile del candidato potenziale
- La percentuale corretta calcolata sui valori non mancanti di una variabile candidata
Numero di fold da utilizzare nella convalida incrociata per la potatura della struttura ad albero: quando la struttura ad albero viene potata utilizzando un parametro di complessità, la convalida incrociata viene utilizzata per determinare quante suddivisioni, cioè rami, sono presenti nella struttura ad albero. Ciò avviene mediante l'uso della convalida incrociata, in cui N - 1 di fold viene utilizzato per creare un modello, e l'ennesimo fold viene utilizzato come campione per determinare il numero di rami che meglio si adattano al fold di holdout per evitare il sovradattamento. Una cosa che può essere modificata dall'utente è il numero di gruppi (N) in cui i dati devono essere suddivisi. Il valore predefinito è 10; gli altri valori comuni sono 5 e 20.
Profondità massima consentita per qualsiasi nodo nella struttura ad albero finale: questa opzione limita le dimensioni complessive della struttura ad albero, indicando la quantità di livelli consentiti dal nodo radice al nodo più distante da quello radice.
Numero massimo di bin da utilizzare per ciascuna variabile numerica: la funzione RevoScalerR (rxDTree), che implementa l'albero decisionale scalabile, gestisce le variabili numeriche tramite un processo di binning a intervalli uguali per ridurre le complessità di calcolo. Le opzioni disponibili sono "Valore predefinito", che utilizza una formula basata sul numero minimo di record necessari per consentire una suddivisione, ma il valore può essere impostato manualmente dall'utente. Questa opzione si applica solo quando l'input nello strumento è un flusso di metadati XDF.

Scheda Opzioni grafiche

Grafico della struttura ad albero: questo insieme di opzioni controlla un numero di opzioni associate al tracciamento di un albero decisionale.
- Riepilogo delle foglie: la prima scelta sotto questa opzione è la natura del riepilogo delle foglie. Questa opzione controlla se i conteggi o le proporzioni vengono stampati nei nodi foglia nel grafico della struttura ad albero.
  - Conteggi
  - Proporzioni
- Distanze uniformi dei rami: la seconda opzione è per l'utilizzo di distanze uniformi dei rami. Questa opzione controlla se la lunghezza dei rami della struttura ad albero tracciata riflette l'importanza relativa di una suddivisione nella stima del target o se sono di lunghezza uniforme nel grafico della struttura ad albero.
Dimensioni del grafico: consente di impostare le dimensioni del grafico della struttura ad albero di output.
- Pollici: consente di impostare la larghezza e l'altezza del grafico.
- Centimetri: consente di impostare la larghezza e l'altezza del grafico.
- Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
  - La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
  - Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
- Dimensioni carattere di base (punti): le dimensioni del carattere in punti.
Grafico di potatura: seleziona l'opzione per includere un grafico semplificato dell'albero decisionale nell'output del report modello.
- Dimensioni grafico: seleziona l'opzione se il grafico è visualizzato in pollici o centimetri.
  - Larghezza: per impostare la larghezza del grafico utilizzando l'unità selezionata in Dimensioni grafico.
  - Altezza: per impostare l'altezza del grafico utilizzando l'unità selezionata in Dimensioni grafico.
- Risoluzione grafico: seleziona la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi) o 3x (288 dpi).
  - La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
  - Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
- Dimensioni carattere di base (punti): seleziona le dimensioni del carattere nel grafico.

Visualizzazione dell'output

Collega uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.

O: (Output) visualizza il nome e le dimensioni del modello dell'oggetto nella finestra Risultati.
R (Report): visualizza un report di riepilogo del modello che include un riepilogo e tutti i grafici.
I (interattivo): visualizza un dashboard interattivo di elementi visivi di supporto per ingrandire, passare il mouse e fare clic.

Comportamento previsto: precisione del grafico

Quando si utilizza lo strumento Albero decisionale per l'elaborazione standard, l'output Interattivo mostra una maggiore precisione con i valori numerici rispetto all'output Report.