Decision Tree Tool Icon

Strumento Albero Delle Decisioni

Versione:
2023.1
Last modified: September 25, 2020

Utilizzare lo strumento Albero delle decisioni per creare un set di regole di divisione if-then per ottimizzare i criteri di creazione del modello in base ai metodi di apprendimento dell'albero delle decisioni. La formazione della regola si basa sul tipo di campo di destinazione:

  • Se il campo di destinazione è un membro di un set di categorie, viene costruito un albero di classificazione.
  • Se il campo di destinazione è una variabile continua, viene costruito un albero di regressione.

Utilizzare lo strumento Albero delle decisioni quando il campo di destinazione viene previsto utilizzando uno o più campi variabili, ad esempio un problema di classificazione o regressione di destinazione continua.

Questo strumento utilizza lo strumento R. Vai a Opzioni > Scarica strumenti predittivi e accedi al portale Alteryx Downloads and Licenses per installare R e i pacchetti utilizzati dallo strumento R. Consultate Scaricare e utilizzare gli strumenti predittivi.

Collegare un ingresso

Lo strumento Decision Tee richiede un input con...

  • Un campo di interesse target
  • Uno o più campi predittivo

I pacchetti utilizzati nella stima del modello variano in base al flusso di dati di input.

  • Un flusso di dati Alteryx utilizza la funzione R rpart open source.
  • Un flusso di metadati XDF, proveniente da uno strumento di input XDF o da uno strumento di output XDF, utilizza la funzione RevoScaleR rxDTree.
  • I dati di un flusso di dati nel database di SQL Server utilizzano la funzione rxBTrees.
  • L'installazione di Microsoft Machine Learning Server utilizza la funzione RvoScaleR rxBTrees per i tuoi dati nel tuo database SQL Server o Teradata. Ciò richiede che il computer locale e il server siano configurati con Microsoft Machine Learning Server, che consente l'elaborazione nel server di database e comporta un miglioramento significativo delle prestazioni.

Funzionalità RevoScaleR

Rispetto alle funzioni R open source, la funzione basata su RevoScaleR è in grado di analizzare set di dati molto più grandi. Tuttavia, la funzione basata su RevoScaleR deve creare un file XDF, che aumenta il costo di sovraccarico, utilizza un algoritmo che esegue più passaggi sui dati, aumentando il runtime e non può creare alcuni output di diagnostica del modello.

Configurare lo strumento per l'elaborazione standard

Queste opzioni sono necessarie per generare una decisione.

  • Nome modello di tipo: Un nome per il modello a cui possono fare riferimento altri strumenti. Il nome o il prefisso del modello deve iniziare con una lettera e può contenere lettere, numeri e i caratteri speciali punto (".") e carattere di sottolineatura ("_"). R fa distinzione tra maiuscole e minuscole.
  • Seleziona variabile didestinazione : Il campo dati da stimare, noto anche come risposta o variabile dipendente.
  • Selezionare le variabili predittori: I campi dati utilizzati per influenzare il valore della variabile di destinazione, nota anche come feature o variabile indipendente. Un campo predittivo è obbligatorio come minimo, ma non esiste un limite massimo per il numero di campi predittivi selezionati. La variabile di destinazione stessa non deve essere utilizzata nel calcolo del valore di destinazione, pertanto il campo di destinazione non deve essere incluso nei campi predittivi. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.

Selezionare Personalizza per regolare altre impostazioni.

Personalizzare il modello

Scheda Modello

Opzioni che modificano il modo in cui il modello valuta i dati e viene compilato.

Scegliere algoritmo: Selezionare la funzione rpart o la funzione C5.0. Opzioni successive variano a seconda dell'algoritmo scelto.

  • rpart: Un algoritmo basato sul lavoro di Breiman, Friedman, Olshen e Stone; considerato lo standard. Utilizzare rpart se si sta creando un modello di regressione o se è necessario un grafico di potatura.
    • Tipo di modello e pesi di campionamento: Controlli per il tipo di modello in base alla variabile di destinazione e alla gestione dei pesi di campionamento.
      • Tipo di modello: Il tipo di modello utilizzato per stimare la variabile di destinazione.
        • Auto: Il tipo di modello viene selezionato automaticamente in base al tipo di variabile di destinazione.
        • Classificazione: Il modello stima un valore di testo discreto di una categoria o di un gruppo.
        • Regressione: Il modello stima valori numerici continui.
      • Utilizzare i pesi di campionamento nella stima del modello: un'opzione che consente di selezionare un campo che giudica l'importanza posta su ogni record e pondera il record di conseguenza durante la creazione di una stima del modello.
        Se un campo viene utilizzato sia come predittore che come peso campione, al campo della variabile di peso di output viene anteposto "Right_".
    • Divisione di criteri e surrogati: Controlli per il modo in cui il modello determina una divisione e come vengono utilizzati i surrogati nella valutazione dei modelli di dati. Criteri di divisione da utilizzare: selezionare la modalità di valutazione del modello quando un albero deve essere diviso.

      • I criteri di suddivisione quando si utilizza un modello di regressione è sempre Il minimo quadrato.

        • Coefficiente di Gini

        • Viene utilizzata l'impurità di Gini.

        • Indice delle informazioni

      • Usa surrogati per: Selezionare il metodo per l'utilizzo di surrogati nel processo di divisione. I surrogati sono variabili correlate alla variabile primaria utilizzate per determinare il risultato di divisione per un record con informazioni mancanti.

        • Ometti osservazioni con valore mancante per la regola di divisione primaria:il record che manca la variabile candidata non viene considerato nel determinare la divisione.

        • Dividi i record mancanti della variabilecandidata: tutti i record che mancano alla variabile candidata vengono distribuiti in modo uniforme nella divisione.

        • Invia osservazione in direzione maggioranza se mancano tutti i surrogati: Tutti i record che mancano la variabile candidata vengono spinti sul lato della divisione che contiene più record.

      • Selezionare la migliore divisione surrogatautilizzando : Selezionare i criteri per la scelta della variabile migliore da dividere da un set di variabili possibili.

        • Numero di classificazioni corrette per una variabile candidata: sceglie la variabile da dividere in base al numero totale di record classificati correttamente.

        • Percentuale di classificazioni corrette per una variabile candidata Sceglie la variabile da dividere in base alla percentuale di record classificati correttamente.

    • HyperParameters: Controlli per la distribuzione precedente del modello.Regolare l'elaborazione in base alla distribuzione precedente.

      • Numero minimo di record necessari per consentire una divisione: impostareil numero di record che devono esistere prima che si verifichi una divisione. Se sono presenti meno record del numero minimo, non sono consentite ulteriori divisioni.

      • Il numero minimo consentito di record in un nodo terminale:impostare il numero di record che possono essere in un nodo terminale. Un numero inferiore aumenta il numero potenziale di nodi terminali finali alla fine dell'albero.

      • Il numero di pieghe da utilizzare nella convalida incrociata per eliminare l'albero: Impostare il numero di gruppi (N) in cui i dati devono essere suddivisi durante il test del modello. Il valore predefinito del numero è 10, ma altri valori comuni sono 5 e 20. Un numero maggiore di pieghe dà più precisione all'albero, ma può richiedere più tempo per l'elaborazione. Quando l'albero viene pungente utilizzando un parametro di complessità, la convalida incrociata determina il numero di divisioni, o rami, presenti nell'albero. Nella convalida incrociata, N - 1 delle pieghe vengono utilizzate per creare un modello, e l'altra piega viene utilizzata come campione per determinare il numero di rami che meglio si adattano alla piega di presa per evitare l'overfitting.

      • La profondità massima consentita di qualsiasi nodo nell'albero finale: Impostare il numero di livelli di rami consentiti dal nodo radice al nodo più distante dalla radice per limitare la dimensione complessiva della struttura ad albero.

      • Il numero massimo di collocazioni da utilizzare per ogni variabile numerica:immettere il numero di collocazioni da utilizzare per ogni variabile. Per impostazione predefinita, il valore viene calcolato in base al numero minimo di record necessari per consentire una divisione.

        Solo Sream metadati XDF

        Questa opzione si applica solo quando l'input nello strumento è un flusso di metadati XDF. La funzione Revo ScaleR (rxDTree) che implementa l'albero delle decisioni scalabile gestisce le variabili numeriche tramite un processo di binning a intervalli uguali per ridurre la complessità di calcolo.

      • Imposta parametro dicomplessità : Valore che controlla le dimensioni dell'albero delle decisioni. Un valore inferiore comporta un numero maggiore di rami nell'albero e un valore maggiore comporta un numero inferiore di rami. Se non viene selezionato un parametro di complessità, il parametro viene determinato in base alla convalida incrociata.
  • C5.0: Un algoritmo basato sul lavoro di Quinlan; utilizzare C5.0 se i dati sono ordinati in uno di un numero ridotto di classi che si escludono a vicenda. Vengono fornite proprietà che possono essere rilevanti per l'assegnazione della classe, anche se alcuni dati possono avere valori sconosciuti o non applicabili.
    • Opzioni strutturali: Controlli per la struttura del modello. Per impostazione predefinita, il modello è strutturato come albero delle decisioni.
      • Scomporre l'albero in modello basato suregole: consente di modificare la struttura dell'algoritmo di output da un albero delle decisioni in una raccolta di regole se-allora semplici e non ordine.Selezionare Numero soglia di bande in cui raggruppare le regole in Selezionare un numero di bande in cui raggruppare le regole in cui il numero impostato è la soglia della banda.
    • Opzioni dettagliate: Controlli per le divisioni e le funzioni del modello.
      • Il modello deve valutare i gruppi di predittori discreti per le divisioni: raggruppare insieme le variabili predittivo categoriche. Selezionare questa opzione per ridurre l'overfitting quando sono presenti attributi discreti importanti con più di quattro o cinque valori.
      • Utilizzare predictor winnowing (ad esempio la selezione di feature): selezionare questa opzione per semplificare il modello tentando di escludere i predittori non utili.
      • Albero Prune: Selezionare per semplificare l'albero per ridurre il sovrafitting rimuovendo le divisioni degli alberi.
      • Valutare le divisioni avanzate nei dati :selezionare questa opzione per eseguire valutazioni con variabili secondarie per confermare quale ramo è la stima più accurata.
      • Utilizzare il metodo di arresto per aumentare: Selezionare per valutare se le iterazioni di amplificazione stanno diventando inefficaci e, in caso contrario, interrompere l'amplificazione.
    • Hyperparametrinumerici : Controlli per la distribuzione precedente del modello basati su un valore numerico.
      • Selezionare il numero di iterazioni di incremento: Selezionare un 1 per utilizzare un singolo modello.
      • Selezionare il fattore diconfidenza : Questo è l'analogico del parametro di complessità di rpart.
      • Selezionare il numero di campioni che devono essere in almeno 2 divisioni: Un numero maggiore dà un albero più piccolo, più semplificato.
      • Percentuale di dati trattenuti dal training per la valutazione delmodello: selezionare la parte dei dati utilizzati per eseguire il training del modello. Utilizzare il valore predefinito 0 per usare tutti i dati per eseguire il training del modello. Selezionare un valore maggiore per contenere tale percentuale di dati dal training e dalla valutazione dell'accuratezza del modello
      • Selezionare il valore di inizializzazione casuale perl'algoritmo : Selezionare il valore del valore di inizializzazione. Il valore deve essere un numero intero positivo.

Scheda Convalida incrociata

Controlli per la personalizzazione di un metodo di convalida con un utilizzo efficiente delle informazioni disponibili.

Selezionare Usa convalida incrociata per determinare le stime della qualità del modello da eseguire la convalida incrociata per ottenere varie metriche e grafici di qualità del modello. Alcune metriche e grafici vengono visualizzati nell'output R, mentre altri nell'output di I.

  • Numero di pieghe di convalida incrociata: Numero di sottocampioni in cui sono suddivisi i dati per la convalida o il training. Un numero maggiore di pieghe determina stime più robuste della qualità del modello, ma un minor numero di pieghe rende l'utensile più veloce.
  • Numero di prove di convalida incrociata: Numero di volte in cui la procedura di convalida incrociata viene ripetuta. Le pieghe vengono selezionate in modo diverso in ogni prova e i risultati vengono mediati in tutte le prove. Un numero maggiore di pieghe determina stime più robuste della qualità del modello, ma un minor numero di pieghe rende l'utensile più veloce.
  • Imposta valore di inizializzazione per la convalida incrociata esterna: Valore che determina la sequenza di estrazioni per il campionamento casuale. Questo fa sì che gli stessi record all'interno dei dati vengano scelti, anche se il metodo di selezione è casuale e non dipende dai dati. Utilizzare Seleziona valore di inizializzazione casuale per la convalida incrociata per selezionare il valore del valore di   inizializzazione. Il valore deve essere un numero intero positivo.

Scheda Grafici

Selezionare e configurare i grafici da visualizzare nel report di output.

  • Visualizza report statico : selezionare questa opzione per visualizzare un report di riepilogo del modello dall'ancoraggio di output R. Selezionato per impostazione predefinita.
  • Graficoad albero : Grafico delle variabili e dei rami dell'albero delle decisioni. Utilizzare l'interruttore Visualizza grafico ad albero per includere un grafico delle variabili e dei rami dell'albero delle decisioni nell'output del report del modello.
    • Lunghezze di diramazioneuniformi : Selezionare questa opzione per visualizzare i rami dell'albero con lunghezza uniforme o proporzionale all'importanza relativa di una divisione nella previsione della destinazione.

    • Riepilogo foglia: Determinare ciò che viene visualizzato nei nodi foglia finali nel grafico ad albero. Selezionare Conteggi se viene visualizzato il numero di record. Selezionare Proporzioni se viene visualizzata la percentuale dei record totali.

    • Dimensioni delgrafico : Selezionare se il grafico viene visualizzato in Pollici o Centimetri.

    • Larghezza: Impostare la larghezza del grafico utilizzando l'unità selezionata in Dimensioni di stampa.

    • Altezza: Impostare l'altezza del grafico utilizzando l'unità selezionata in Dimensioni di stampa.

    • Risoluzione grafico: Selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi)o 3x (288 dpi).

      • La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.

      • Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.

  • Dimensione carattere di base (punti):selezionare la dimensione del carattere nel grafico.
    Grafico prune: grafico semplificato dell'albero delle decisioni.

  • Utilizzare un grafico di prugne nel report

    • Visualizza grafico prugna: Fare clic per includere un grafico semplificato dell'albero delle decisioni nell'output del report del modello.

    • Dimensioni del grafico: Selezionare se il grafico viene visualizzato in Pollici o Centimetri.

    • Larghezza: Impostare la larghezza del grafico utilizzando l'unità selezionata in Dimensioni di stampa.

    • Altezza: Impostare l'altezza del grafico utilizzando l'unità selezionata in Dimensioni di stampa.

    • Risoluzione grafico: selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi); 2x (192 dpi); o 3x (288 dpi). La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor. Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.

    • Dimensione carattere di base (punti): Impostare la dimensione del tipo di carattere nelgrafico.

Configurare lo strumento per l'elaborazione all'interno del database

Lo strumento Albero delle decisioni supporta l'elaborazione nel database di Microsoft SQL Server 2016 e Teradata. Per altre informazioni sul supporto in-database e sugli strumenti, vedere Panoramica In-Database.

Quando uno strumento Albero delle decisioni viene posizionato nell'area di disegno con un altro strumento In-DB, lo strumento passa automaticamente alla versione In-DB. Per modificare la versione dello strumento, fare clic con il pulsante destro del mouse sullo strumento, scegliere Scegli versione strumento e fare clic su una versione diversa dello strumento. Per altre informazioni sul supporto predittivo in-database, vedere Analisi predittive.

Scheda Parametri obbligatori

  • Nome modello: Ogni modello deve essere assegnato un nome in modo che possa essere identificato in un secondo momento.
    • Un nome di modello specifico: Immettere il nome del modello che si desidera utilizzare per il modello. I nomi dei modelli devono iniziare con una lettera e possono contenere lettere, numeri e i caratteri speciali punto (".") e il carattere di sottolineatura ("_"). Non sono consentiti altri caratteri speciali e R fa distinzione tra maiuscole e minuscole.
    • Genera automaticamente un nome di modello : Designer genera automaticamente un nome di modello che soddisfa i parametri richiesti.
  • Selezionare lavariabile di destinazione : Selezionare il campo dal flusso di dati che si desidera stimare.
  • Selezionare le variabili predittori: Scegliere i campi dal flusso di dati che si ritiene "causa" modifiche nel valore della variabile di destinazione. Le colonne contenenti identificatori univoci, come le chiavi primarie surrogate e le chiavi primarie naturali, non devono essere utilizzate nelle analisi statistiche. Non hanno alcun valore predittivo e possono causare eccezioni di runtime.
  • Usa pesi di campionamento nella stima del modello (facoltativo): selezionarequesta opzione per scegliere un campo dal flusso di dati di input per utilizzare il peso di campionamento fo.
  • Selezionare il campo Peso di campionamento : Selezionare un campo peso dal flusso di dati per stimare un modello che utilizza il peso di campionamento. Un campo viene utilizzato sia come predittore che come variabile di peso. La variabile weight viene visualizzata nella chiamata del modello nell'output con la stringa "Right_" anteposta.

Scheda Personalizzazione modello

  • Tipo dimodello : Selezionare il tipo di modello che verrà utilizzato.
    • Classificazione : Un modello per stimare un obiettivo categore. Se si utilizza un modello di classificazione, selezionare anche i criteri di divisione.
      • Coefficiente di Gini
      • Indice di informazioni basate sull'entropia
    • Regressione: Un modello per stimare un obiettivo numerico continuo.
  • Il numero minimo di record necessari per consentire una divisione: Se lungo un set di rami di una struttura sono presenti meno record rispetto al numero minimo selezionato rispetto a non sono consentite ulteriori divisioni.
  • Parametrodi complessità : Questo parametro controlla la modalità di suddivisione (ad esempio, il numero di rami nella struttura ad albero). Il valore dovrebbe essere inferiore a 1 e più piccolo sarà il valore e più rami si avranno nella struttura ad albero finale. Un valore di "Auto" o l'omissione di un valore darà luogo al parametro di complessità "migliore" scelto in base alla convalida incrociata.
  • Numero minimo consentito di record in un nodo terminale:il numero più piccolo di record che devono essere contenuti in un nodo terminale. Diminuendo questo numero aumenta il numero potenziale di nodi terminali finali.
  • Utilizzo surrogato: Questo gruppo di opzioni controlla il modo in cui vengono indirizzati i record con dati mancanti nelle variabili predittivo in una particolare divisione. La prima scelta consiste nell'omettere (rimuovere) un record con un valore mancante della variabile utilizzata nella divisione. Il secondo consiste nell'utilizzare le divisioni "surrogate", in cui la direzione in cui verrà inviato un record si basa su divisioni alternative su una o più altre variabili con quasi gli stessi risultati. La terza scelta consiste nell'inviare l'osservazione nella direzione maggioritale alla scissione.
    • Ometti un'osservazione con un valore mancante per la regola di divisione primaria
    • Usa i surrogati per dividere i record che non hanno la variabile del candidato
    • Se mancano tutti i surrogati, inviare l'osservazione nella direzione della maggioranza
    • Il numero totale delle classificazioni corrette per una variabile del candidato potenziale
    • La percentuale corretta calcolata sui valori non mancanti di una variabile candidata
  • Numero di pieghe da utilizzare nella convalida incrociata per eliminare la strutturaad albero: quando la struttura ad albero viene potatata tramite l'utilizzo di un parametro di complessità, la convalida incrociata viene utilizzata per determinare il numero di divisioni, quindi rami, presenti nell'albero. Questo viene fatto attraverso l'uso di convalida incrociata per cui N - 1 delle pieghe vengono utilizzati per creare un modello, e la piega Nth viene utilizzata come campione per determinare il numero di rami che meglio si adatta meglio la piega di attesa al fine di evitare il sovradattamento. Una cosa che può essere modificata dall'utente è il numero di gruppi (N) in cui i dati devono essere divisi. Il valore predefinito è 10, ma altri valori comuni sono 5 e 20.The default is 10, but other common values are 5 and 20.
  • La profondità massima consentita di qualsiasi nodo nell'albero finale: Questa opzione limita la dimensione complessiva della struttura ad albero indicando quanti livelli sono consentiti dal nodo radice al nodo più distante dalla radice.
  • Il numero massimo di contenitori da utilizzare per ogni variabile numerica:la funzione Revo ScaleR (rxDTree) che implementa l'albero delle decisioni scalabile gestisce le variabili numeriche tramite un processo di binning a intervalli uguali per ridurre la complessità di calcolo. Le opzioni disponibili per questi elementi sono "Predefinito", che utilizza una formula basata sul numero minimo di record necessari per consentire una divisione, ma può essere impostata manualmente dall'utente. Questa opzione si applica solo nei casi in cui l'input nello strumento è un flusso di metadati XDF.

Scheda Opzioni grafica

  • Graficoad albero : Questo set di opzioni controlla una serie di opzioni associate al plottaggio di un albero delle decisioni.
    • Riassuntofoglia : La prima scelta in questa opzione è la natura del riepilogo foglia. Questa opzione controlla se i conteggi o le proporzioni vengono stampati nei nodi foglia finali del grafico ad albero.
      • Conteggi
      • Proporzioni
    • ​​​​​​​Distanze di diramazioneuniformi : La seconda opzione è se devono essere utilizzate distanze di diramazione uniformi. Questa opzione controlla se la lunghezza dei rami dell'albero disegnato riflette l'importanza relativa di una divisione nella stima della destinazione o di lunghezza uniforme nel grafico ad albero. ​​​​​​​
  • ​​​​​​​​​​​​​​Dimensioni del grafico: consente di impostare le dimensioni del grafico dell'albero di output.
    • Inches: Impostare la larghezza e l'altezza del grafico.
    • Centimetri: Impostare la larghezza e l'altezza del grafico.
    • ​​​​​​​Risoluzionegrafico : Selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi)o 3x (288 dpi).
      • La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.
      • Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.
    • Dimensione carattere di base (punti):la dimensione del carattere in punti.
  • Pruning Plot( ) : Selezionare questa opzione per includere un grafico semplificato dell'albero delle decisioni nell'output del report del modello.

    • Dimensionidel grafico : Selezionare se il grafico viene visualizzato in Pollici o Centimetri.

      • Larghezza : Impostare la larghezza del grafico utilizzando l'unità selezionata in Dimensioni di stampa.

      • Altezza : Impostare l'altezza del grafico utilizzando l'unità selezionata in Dimensioni di stampa.

    • Risoluzionegrafico : Selezionare la risoluzione del grafico in punti per pollice: 1x (96 dpi), 2x (192 dpi)o 3x (288 dpi).

      • La risoluzione inferiore crea un file più piccolo ed è ideale per la visualizzazione su un monitor.

      • Una risoluzione più alta crea un file più grande con una migliore qualità di stampa.

    • Dimensione carattere di base (punti): Impostare la dimensione del tipo di carattere nelgrafico.

Visualizzazione dell'output

Collegare uno strumento Sfoglia a ogni ancoraggio di output per visualizzare i risultati.

  • O (Output): visualizza il nome e le dimensioni del modello dell'oggetto nella finestra Risultati.
  • R (Report): visualizza un report di riepilogo del modello che include un riepilogo e i grafici.
  • I (interattivo): visualizza un dashboard interattivo di oggetti visivi di supporto che consente di eseguire lo zoom, il passaggio del mouse e fare clic.

Comportamento previsto: precisione di stampa

Quando si utilizza lo strumento Albero delle decisioni per l'elaborazione standard, l'output interattivo mostra una maggiore precisione con valori numerici rispetto all'output del report.

Questa pagina è stata utile?

Si sono verificati problemi con il tuo prodotto Alteryx? Visita la community Alteryx o contatta il supporto. Non riesci a inviare questo modulo? Inviaci un'e-mail.