Strumento Classificazione

Utilizza lo strumento Classificazione come parte di una pipeline di Machine Learning per identificare la categoria a cui appartiene un target. Lo strumento fornisce diversi algoritmi che è possibile usare per eseguire il training di un modello. Lo strumento consente inoltre di ottimizzare un modello utilizzando molti parametri.

Alteryx Intelligence Suite necessario

Questo strumento fa parte di Alteryx Intelligence Suite . Intelligence Suite richiede una licenza separata e un ulteriore programma di installazione per Designer. Dopo aver installato Designer, installa Intelligence Suite e avvia la versione di prova gratuita .

Configurazione dello strumento

Questa sezione contiene informazioni su come configurare lo strumento Classificazione.

Selezione dell'algoritmo

Seleziona l'algoritmo che desideri utilizzare. È possibile scegliere Regressione logistica , Albero decisionale , Foresta casuale o XGBoost .

Configurazione dei parametri

Configura i parametri. Ogni algoritmo ha parametri diversi da altri algoritmi. Ogni algoritmo ha anche parametri generali e avanzati. I parametri generali sono parte integrante della creazione di un modello accurato, anche per i principianti. I parametri avanzati potrebbero migliorare la precisione, ma richiedono una comprensione approfondita delle operazioni eseguite.

Fai riferimento alla tabella per ogni algoritmo per vedere cosa fanno i parametri:

Regressione logistica

Nome	Descrizione	Opzioni	Predefinito
class_weight	class_weight assegna pesi a classi diverse nel set di dati. Alcuni algoritmi sopravvalutano le classi prevalenti, causando squilibri. Questo parametro consente di bilanciare le classi nel set di dati assegnando peso aggiuntivo alle classi di minoranza.	none balanced	none
fit_intercept	Decidi se desideri che l'algoritmo calcoli l'intercetta per il modello di regressione lineare. Noto anche come "costante", l'intercetta è il valore medio previsto di y dove x è uguale a 0.	none intercept_scaling	intercept_scaling : 1.0
max_iter	max_iter specifica il numero massimo di iterazioni per consentire ai risolutori di convergere. I modelli con più iterazioni acquisiscono ulteriori informazioni sui dati.	Qualsiasi numero intero.	100
multi_class	multi_class specifica se l'algoritmo deve gestire più di due classi.	auto seleziona automaticamente Multinomiale o OVR. multinomial è capace di classificazione multiclasse o binaria. OVR è in grado di classificazione binaria.	auto
Penalty	penalty , nota anche come "regolarizzazione", si riferisce alla pratica di modificare la funzione di perdita per penalizzare determinati valori che altrimenti il modello supererebbe. L1 (Lasso Regression) e L2 (Regressione della cresta) sono due metodi per specificare il termine di penalità.	L1 consente di trovare le funzionalità più importanti nei set di dati con molte funzionalità impostando alcuni pesi su 0. L2 aiuta tutte le funzionalità a contribuire al modello assicurandosi che i pesi siano diversi da zero.	L2
dual	dual trasforma un problema di ottimizzazione primordiale in un problema duplice.	False dual * è possibile utilizzare dual* solo se si seleziona l'opzione L2 per penalty e liblinear per solver .	False
random_state	random_state specifica il numero iniziale per la generazione di una sequenza pseudocasuale. Se si seleziona none , un generatore di numeri casuali seleziona un numero iniziale.	int none	Seed :10
solver	solver è il metodo utilizzato dalla regressione logistica per ottimizzare la curva per adattarla al meglio determinando i pesi sigmoidei.	liblinear : utilizza questo metodo per set di dati più piccoli, in cui si desidera applicare una penalità. liblinear richiede una penalità. sag : utilizza questo metodo per set di dati più grandi, in cui si desidera applicare una penalità l2 o nessuna penalità. saga : utilizzare questo metodo per set di dati più grandi, in cui si desidera applicare una penalità l1 o nessuna penalità. lbfgs : utilizza questo metodo per set di dati più piccoli, in cui si desidera applicare una penalità l2 o nessuna penalità. newton-CG : utilizza questo metodo per i set di dati più piccoli, in cui si desidera applicare una penalità l2 o nessuna penalità.	liblinear
tol	tol imposta i criteri di arresto per quando l'algoritmo deve rilevare che i parametri sono abbastanza vicini per la convergenza (in altre parole, rimangono costanti).	Qualsiasi float positivo.	.0001
Sintonizzatore	Il sintonizzatore di regolarizzazione ( C ) consente di regolare la quantità di penalità (in altre parole, regolarizzazione) applicata, limitando efficacemente le caratteristiche che sono fortemente ponderate dal modello. Formatta questo parametro come float positivo.	Qualsiasi float positivo.	1.0

Albero decisionale

Nome	Descrizione	Opzioni	Predefinito
class_weight	class_weight assegna pesi alle diverse classi nel set di dati.	none balanced	none
Criterion	Utilizza il parametro criterion per selezionare un metodo per misurare il modo in cui l'algoritmo dell'albero delle decisioni suddivide i dati in nodi diversi.	gini entropy	gini
max_depth	max_depth è il percorso più lungo da una radice a una foglia di un albero. Gli alberi più profondi hanno più divisioni e acquisiscono maggiori informazioni sui dati.	none : i nodi si espandono fino a quando tutti i nodi foglia non siano puri (in altre parole, sono completamente costituiti da dati che appartengono a una singola classe) o fino a quando tutti i nodi foglia contengono meno di quanto specificato nel parametro min_samples_split. int : limita l'espansione di divisioni.	none
max_features	max_features imposta il numero massimo di funzionalità considerate dall'albero delle decisioni quando si cerca una prima divisione migliore.	auto : consente di valutare un numero di funzionalità pari al numero totale di funzionalità nel set di dati. none : valuta un numero di funzionalità uguale al numero totale di funzionalità nel set di dati. sqrt : valuta un numero di funzionalità pari alla radice quadrata del numero totale di funzionalità nel set di dati. log2 : valuta un numero di funzionalità pari al logaritmo binario del numero totale di funzionalità. int : valuta un numero di funzionalità ad ogni divisione uguale al numero selezionato. float : valuta un numero di funzionalità pari a una frazione selezionata dall'utente del numero totale di funzionalità.	auto
max_leaf_nodes	max_leaf_nodes è il limite verso l'alto sul numero totale di nodi foglia che l'algoritmo può generare. Aumenta i nodi fino al numero massimo in modo ottimale. L'algoritmo determina quali nodi sono i migliori in base alla loro capacità per la riduzione dell'impurità. Utilizza il parametro Criterion per specificare come si desidera misurare la riduzione dell'impurità.	Qualsiasi numero intero o none .	none
min_impurity_decrease	min_impurity_decrease imposta la soglia minima di riduzione dell'impurità necessaria per la suddivisione dell'albero delle decisioni in un nuovo nodo. Quindi una divisione si verifica dove diminuisce l'impurità di una quantità uguale o maggiore di min_impurity_decrease. Utilizza il parametro Criterion per specificare come si desidera misurare la riduzione dell'impurità.	Qualsiasi float.	0.0
min_samples_split	min_samples_split imposta la soglia minima di campioni necessari affinché l'albero delle decisioni si divida in un nuovo nodo. L'algoritmo può considerare solo un campione o un numero di tutti i campioni.	Qualsiasi numero intero o frazione.	int : 2
min_weight_fraction_leaf	min_weight_fraction_leaf è la soglia minima di peso richiesta dall'albero decisionale per la suddivisione in un nuovo nodo. Tale soglia è pari alla frazione minima dei pesi totali per tutti i campioni. L'algoritmo dell'albero delle decisioni presuppone pesi uguali per impostazione predefinita.	Qualsiasi float.	0.0
presort	Utilizza questo parametro per preordinare i dati, che potrebbero aiutare l'algoritmo a trovare le divisioni migliori più velocemente.	true Off	Off
random_state	random_state specifica il numero iniziale per la generazione di una sequenza pseudocasuale. Se si seleziona none , un generatore di numeri casuali seleziona un numero iniziale.	seed : seleziona un numero intero per il generatore di numeri casuali. none : nessuna ripetibilità.	Seed : 10
splitter	splitter è la strategia utilizzata per la divisione in corrispondenza di un nodo. Include opzioni per la migliore prima divisione e la migliore divisione casuale. L'algoritmo determina quali nodi sono i migliori in base alla loro capacità per la riduzione dell'impurità.	best : richiede più potenza di calcolo e potrebbe rischiare l'overfitting. random : potrebbe trovare percorsi attraverso l'albero se alcune associazioni hanno segnali deboli.	best

Foresta casuale

Nome	Descrizione	Opzioni	Predefinito
Bootstrap	Il bootstrap, la base del bagging, è un metodo utilizzato per campionare il set di dati a scopo di training. Questo metodo prevede la creazione iterativa di sottocampioni del set di dati per simulare dati nuovi e non visibili, che è possibile usare per migliorare la generalizzabilità del modello.	true Off	true
class_weight	class_weight assegna pesi alle diverse classi nel set di dati. Gli algoritmi a foresta casuale tendono a sopravvalutare le classi prevalenti, con conseguente squilibrio. class_weight aiuta a bilanciare le classi nel set di dati assegnando un peso aggiuntivo alle classi di minoranza. Le classi di bilanciamento possono migliorare le prestazioni del modello. Per impostazione predefinita, tutte le classi hanno un peso di 1.	none : class_weight è il valore predefinito (in altre parole, 1) per tutte le classi. balanced : seleziona questa opzione per fare in modo che l'algoritmo della foresta casuale regoli automaticamente i pesi della classe in base al numero di campioni in ogni classe.	none
Criterion	Utilizza il parametro criterion per selezionare un metodo per misurare il livello di suddivisione dei dati in nodi diversi.	gini entropy	gini
max_depth	max_depth è il percorso più lungo da una radice a una foglia per ogni albero nella foresta. Gli alberi più profondi hanno più divisioni e acquisiscono maggiori informazioni sui dati.	none : i nodi si espandono fino a quando tutti i nodi foglia non siano puri (in altre parole, sono completamente costituiti da dati che appartengono a una singola classe) o fino a quando tutti i nodi foglia contengono meno di quanto specificato nel parametro min_samples_split. int : limita l'espansione di divisioni.	Limited : 10
max_features	max_features imposta il numero massimo di funzionalità considerate da ogni albero delle decisioni nella foresta quando si cerca una prima divisione migliore.	auto : consente di valutare un numero di funzionalità pari al numero totale di funzionalità nel set di dati. none : valuta un numero di funzionalità uguale al numero totale di funzionalità nel set di dati. sqrt : valuta un numero di funzionalità pari alla radice quadrata del numero totale di funzionalità nel set di dati. log2 : valuta un numero di funzionalità pari al logaritmo binario del numero totale di funzionalità. int : valuta un numero di funzionalità ad ogni divisione uguale al numero selezionato. float : valuta un numero di funzionalità pari a una frazione selezionata dall'utente del numero totale di funzionalità.	auto
min_impurity_decrease	min_impurity_decrease imposta la soglia minima di riduzione dell'impurità necessaria affinché un albero delle decisioni si divida in un nuovo nodo. Quindi una divisione si verifica dove diminuisce l'impurità di una quantità uguale o maggiore di min_impurity_decrease. Utilizza il parametro Criterion per specificare come si desidera misurare la riduzione dell'impurità.	Qualsiasi float.	0.0
min_samples_split	min_samples_split imposta la soglia minima di campioni necessari affinché l'albero delle decisioni (in una foresta casuale) si divida in un nuovo nodo. L'algoritmo può considerare solo un campione o un numero di tutti i campioni.	Qualsiasi numero intero o frazione.	int : 2
min_weight_fraction_leaf	min_weight_fraction_leaf è la soglia minima di peso necessaria affinché un albero delle decisioni venga suddiviso in un nuovo nodo. Tale soglia è pari alla frazione minima dei pesi totali per tutti i campioni. L'algoritmo della foresta casuale assume pesi uguali per impostazione predefinita.	Qualsiasi float.	0.0
n_estimators	n_estimators è il numero di alberi che si desidera creare come parte della foresta.	Qualsiasi numero intero.	100
random_state	random_state specifica il numero iniziale per la generazione di una sequenza pseudocasuale. Se si seleziona none , un generatore di numeri casuali seleziona un numero iniziale.	seed : seleziona un numero intero per il generatore di numeri casuali. none : nessuna ripetibilità.	Seed : 10

XGBoost

Nome	Descrizione	Opzioni	Predefinito
colsample_bylevel	colsample_bylevel è la percentuale di dati per cui l'algoritmo crea in maniera casuale un sottocampione per ogni livello di profondità di una struttura ad albero.	Qualsiasi float da 0 a 1.	1
colsample_bynode	colsample_bynode è la percentuale di dati per cui l'algoritmo crea in maniera casuale un sottocampione per ogni nodo di una struttura ad albero.	Qualsiasi float da 0 a 1.	1
colsample_bytree	colsample_bytree è la percentuale di dati per cui l'algoritmo crea in maniera casuale un sottocampione per ogni struttura ad albero.	Qualsiasi float da 0 a 1.	1
gamma	Gamma imposta la riduzione della perdita richiesta affinché un albero decisionale sia suddiviso in un nuovo nodo. Quindi una divisione si verifica dove ridurrebbe la perdita di un importo uguale o maggiore di gamma .	Qualsiasi numero intero positivo o 0.	0
learning_rate	learning_rate è il tasso con cui l'algoritmo permette alle nuove informazioni di sostituire quelle vecchie. In genere si imposta learning_rate di apprendimento in incrementi logaritmici (ad esempio, 0,003, 0,03, 0,3).	Qualsiasi float da 0 a 1.	0.05
max_depth	max_depth è il percorso più lungo da una radice a una foglia per ogni albero nella foresta. Gli alberi più profondi hanno più divisioni e acquisiscono maggiori informazioni sui dati.	Qualsiasi numero uguale o maggiore di 1.	3
min_child_weight	min_child_weight imposta la soglia di peso Hessian necessaria per la divisione di un albero delle decisioni in un nuovo nodo. Quindi una divisione si verifica dove diminuirebbe il peso Hessian di un importo uguale o maggiore del min_child_weight.	Qualsiasi numero positivo o 0.	1
n_estimators	n_estimators è il numero di alberi che si desidera creare come parte della foresta.	Qualsiasi numero uguale o maggiore di 1.	100
random_state	random_state specifica il numero iniziale per la generazione di una sequenza pseudocasuale.	Qualsiasi numero intero.	10
subsample	subsample è la percentuale di dati di cui l'algoritmo crea in modo casuale un sottocampione.	Qualsiasi numero compreso tra 0 e 1.	1