Klassifizierung-Tool

Verwenden Sie das Klassifizierung-Tool in einer Machine Learning-Pipeline, um zu ermitteln, welcher Kategorie ein Ziel angehört. Das Tool bietet mehrere Algorithmen, mit denen Sie ein Modell trainieren können. Mit diesem Tool können Sie auch ein Modell mit vielen Parametern abstimmen.

Alteryx Intelligence Suite - Überblick

Dieses Tool ist Teil der Alteryx Intelligence Suite. Alteryx Intelligence Suite erfordert eine separate Lizenz und ein Add-on-Installationsprogramm für Designer. Nachdem Sie Designer installiert haben, installieren Sie Intelligence Suite und starten Sie Ihre kostenlose Testversion.

Tool-Konfiguration

Dieser Abschnitt enthält Informationen über die Konfiguration des Klassifizierung-Tools.

Algorithmus auswählen

Wählen Sie aus, welchen Algorithmus Sie verwenden möchten. Sie können Logistische Regression , Entscheidungsbaum , Forest-Zufallsfunktion oder XGBoost wählen.

Parameter-Konfiguration

Konfigurieren Sie die Parameter. Jeder Algorithmus unterscheidet sich in seinen Parametern von anderen Algorithmen. Jeder Algorithmus verfügt auch über allgemeine und erweiterte Parameter. Allgemeine Parameter sind für die Erstellung eines genauen Modells unerlässlich, selbst für Neueinsteiger. Erweiterte Parameter können die Genauigkeit verbessern, erfordern aber ein umfassendes Verständnis ihrer Funktionsweise.

Die Tabelle enthält für jeden Algorithmus Informationen zu den Funktionen der Parameter:

Logistische Regression

Name	Beschreibung	Optionen	Standard
class_weight	class_weight (Klassengewichtung) ordnet den verschiedenen Klassen im Dataset Gewichtungen zu. Einige Algorithmen überbewerten die vorherrschenden Klassen, was zu Ungleichgewichten führt. Dieser Parameter hilft, die Klassen im Dataset auszugleichen, indem er Minderheitsklassen eine zusätzliche Gewichtung zuweist.	none balanced	none
fit_intercept	Entscheiden Sie, ob der Algorithmus den Intercept für Ihr lineares Regressionsmodell berechnen soll. Auch als „Konstante" bekannt, ist der Intercept der erwartete Mittelwert von y , wobei x gleich 0 ist.	none intercept_scaling	intercept_scaling : 1.0
max_iter	max_iter (Max. Iterationen) gibt die maximale Anzahl der Iterationen an, die ein Solver benötigt, um zu konvergieren. Modelle mit einer höheren Anzahl von Iterationen erfassen mehr Informationen über die Daten.	Beliebige Ganzzahl (int).	100
multi_class	multi_class (Mehrklassen) gibt an, ob der Algorithmus mehr als zwei Klassen verarbeiten muss.	auto wählt multinomial oder automatisch aus. multinomial kann Mehrklassen- oder Binärklassifizierungen durchführen. Der ovr -Parameter kann Binärklassifizierungen durchführen.	auto
penalty	penalty , auch als „Regularisierung" bezeichnet, bezieht sich auf die Praxis, die Verlustfunktion zu ändern, um bestimmte Werte zu bestrafen, die das Modell andernfalls überbewerten würde. Die Lasso-Regression (l1) und Ridge-Regression (l2)) sind zwei Methoden zur Bestimmung des Abzugs (penalty).	l1 hilft bei der Suche nach den wichtigsten Eigenschaften in Datasets mit vielen Eigenschaften, indem manche Gewichtungen auf 0 gesetzt werden. l2 hilft dabei, dass alle Eigenschaften zum Modell beitragen, indem sichergestellt wird, dass die Gewichtungswerte nicht Null sind.	l2
dual	dual (Problemformulierung) wandelt ein primäres Optimierungsproblem in ein duales Problem um.	false dual * Sie können dual* (Problem Formulierung) nur verwenden, wenn Sie die Option l2 für penalty (Abzug) und liblinear für solver auswählen.	false
random_state	random_state gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus.	int none	int : 10
solver	solver ist die Methode, die die logistische Regression verwendet, um ihre Kurve durch die Bestimmung von Sigmoid-Gewichtungen so zu optimieren, dass sie den Daten am besten entspricht.	liblinear : Verwenden Sie diese Methode für kleinere Datasets, bei denen Sie einen Abzug (penalty) anwenden möchten. liblinear erfordert einen Abzug (penalty). sag : Verwenden Sie diese Methode für größere Datasets, bei denen Sie einen l2-Abzug (penalty) oder keinen Abzug anwenden möchten. saga : Verwenden Sie diese Methode für größere Datasets, bei denen Sie einen l1-Abzug (penalty) oder keinen Abzug anwenden möchten. lfbgs : Verwenden Sie diese Methode für kleinere Datasets, bei denen Sie einen l2-Abzug (penalty) oder keinen Abzug anwenden möchten. newton-CG : Verwenden Sie diese Methode für kleinere Datasets, bei denen Sie einen l2-Abzug (penalty) oder keinen Abzug anwenden möchten.	liblinear
tol	tol (Toleranz) legt die Stoppkriterien fest, die bestimmen, wann der Algorithmus erkennen soll, dass die Parameter nahe genug an der Konvergenz liegen (d. h. konstant bleiben).	Beliebige positive Gleitkommazahl (float).	.0001
C	Der Regularisierungstuner ( C ) ermöglicht es Ihnen, die Höhe des Abzugs (d.h. die Regularisierung), die Sie anwenden, anzupassen, wodurch Eigenschaften, die durch das Modell stark gewichtet werden, effektiv begrenzt werden. Formatieren Sie diesen Parameter als positive Gleitkommazahl (float).	Beliebige positive Gleitkommazahl (float).	1.0

Entscheidungsbaum

Name	Beschreibung	Optionen	Standard
class_weight	class_weight (Klassengewichtung) weist verschiedenen Klassen im Dataset Gewichtungen zu.	none balanced	none
criterion	Verwenden Sie den criterion -Parameter, um eine Methode auszuwählen, mit der Sie messen können, wie gut der Entscheidungsbaum-Algorithmus Ihre Daten in verschiedene Knoten aufteilt.	gini entropy	gini
max_depth	max_depth (Max.Tiefe) ist der längste Weg von der Wurzel zum Blatt eines Baumes. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten.	none (unbegrenzt): Knoten werden erweitert, bis alle Blattknoten rein sind (d. h. vollständig aus Daten bestehen, die zu einer einzelnen Klasse gehören) oder bis alle Blattknoten weniger enthalten, als Sie im Parameter „min_samples_split“ angeben. int (begrenzt): Beschränkt die Erweiterung durch Aufteilungen.	none
max_features	max_features (Max. Eigenschaften) legt die maximale Anzahl von Eigenschaften fest, die Ihr Entscheidungsbaum bei der Suche nach der besten ersten Aufteilung berücksichtigt.	auto : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht. none : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht. sqrt (Quadratwurzel): Bewertet eine Anzahl von Eigenschaften, die der Quadratwurzel der Gesamtzahl der Eigenschaften im Dataset entspricht. l2 : Bewertet eine Anzahl von Eigenschaften, die dem binären Logarithmus der Gesamtzahl der Eigenschaften entspricht. int : Bewertet bei jeder Aufteilung eine Anzahl von Eigenschaften, die der von Ihnen gewählten Anzahl entspricht. float : Bewertet eine Anzahl von Eigenschaften, die einem vom Benutzer gewählten Bruchteil der Gesamtzahl der Eigenschaften entspricht.	auto
max_leaf_nodes	max_leaf_nodes (Max. Blattknoten) ist die Obergrenze für die Gesamtzahl der Blattknoten, die Ihr Algorithmus generieren kann. Die Anzahl der Knoten wird nach best-first-Methode auf die maximale Anzahl gesteigert. Der Algorithmus bestimmt anhand ihrer Kapazität zur Reduzierung von Verunreinigungen, welche Knoten am besten geeignet sind. Verwenden Sie den criterion-Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten.	Beliebige Ganzzahl (int) oder none .	none
min_impurity_decrease	min_impurity_decrease legt den Mindestschwellenwert der Verunreinigungsreduzierung fest, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Es kommt also zu einer Aufteilung, bei der die Verunreinigung um einen Betrag verringert wird, der gleich oder größer als „min_impurity_decrease". Verwenden Sie den criterion-Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten.	Beliebige Gleitkommazahl (float).	0.0
min_samples_split	min_samples-split (Min. Stichprobenaufteilung) legt den Mindestschwellenwert für Stichproben fest, die erforderlich sind, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Der Algorithmus kann eine Stichprobe oder alle Stichproben berücksichtigen.	Beliebige Ganzzahl (int) oder Gleitkommazahl (float).	int : 2
min_weight_fraction_leaf	min_weight_fraction_leaf ist der minimale Gewichtsschwellenwert, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Dieser Schwellenwert entspricht dem Mindestanteil der Gesamtgewichte aller Proben. Der Entscheidungsbaum-Algorithmus geht standardmäßig von gleichen Gewichtungen aus.	Beliebige Gleitkommazahl (float).	0.0
presort	Verwenden Sie diesen Parameter, um die Daten vorzusortieren, was dem Algorithmus helfen könnte, die besten Aufteilungen schneller zu finden.	true false	false
Zufälliger Startwert	random_state gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus.	int : Wählen Sie eine Ganzzahl für den Zufallszahlengenerator aus. none : Keine Wiederholbarkeit.	Int : 10
splitter	splitter (Aufteilung) ist die Strategie, die zum Aufteilen an einem Knoten verwendet wird. Dazu gehören Optionen für die beste erste Aufteilung und die beste zufällige Aufteilung. Der Algorithmus bestimmt anhand ihrer Kapazität zur Reduzierung von Verunreinigungen, welche Knoten am besten geeignet sind.	best : Der best-Paramter erfordert mehr Rechenleistung und es besteht die Gefahr einer Überanpassung. random (zufällig): Dieser Parameter kann Pfade durch den Baum finden, wenn bestimmte Assoziationen schwache Signale haben.	best

Forest-Zufallsfunktion

Name	Beschreibung	Optionen	Standard
bootstrap	Mit der Bootstrapping-Methode, der Bagging-Grundlage, werden dem Dataset Stichproben für Trainingszwecke entnommen. Diese Methode erstellt iterative Teilstichproben Ihres Datasets, um neue, bisher unbekannte Daten zu simulieren, mit denen Sie die Generalisierungsfähigkeit Ihres Modells verbessern können.	true false	true
class_weight	class_weight (Klassengewichtung) weist verschiedenen Klassen im Dataset Gewichtungen zu. Algorithmen der Forest-Zufallfunktion neigen dazu, dominante Klassen überzubewerten, was zu einem Ungleichgewicht führt. class_weight trägt dazu bei, Klassen im Dataset auszugleichen, indem Minderheitsklassen zusätzliches Gewicht zugewiesen wird. Das Ausgleichen der Klassen kann die Leistung des Modells verbessern. Standardmäßig haben alle Klassen eine Gewichtung von 1.	class_weight (Klassengewichtung): class_weight ist die Standardeinstellung (mit anderen Worten: 1) für alle Klassen. balanced (ausgeglichen): Wählen Sie diese Option aus, damit der Algorithmus für die Forest-Zufallsfunktion die Klassengewichtungen automatisch basierend auf der Anzahl der Stichproben in jeder Klasse anpasst.	none
criterion	Verwenden Sie den criterion -Parameter, um eine Methode auszuwählen, mit der gemessen werden kann, wie gut der Algorithmus der Forest-Zufallsfunktion Ihre Daten in verschiedene Knoten aufteilt.	gini entropy	gini
max_depth	max_depth (Max. Tiefe) ist der längste Weg von einer Wurzel zu einem Blatt für jeden Baum im Forest. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten.	none (unbegrenzt): Die Knoten expandieren, bis alle Blattknoten rein sind (d.h. vollständig aus Daten bestehen, die zu einer einzigen Klasse gehören) oder bis alle Blattknoten weniger als das enthalten, was Sie im Parameter min_samples_split angeben. int (begrenzt): Beschränkt die Expansion durch Aufteilungen.	int : 10
max_features	max_features (Max. Eigenschaften) llegt die maximale Anzahl von Eigenschaften fest, die jeder Entscheidungsbaum im Forest bei der Suche nach der besten ersten Teilung berücksichtigt.	auto : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht. none : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht. sqrt (Quadratwurzel): Bewertet eine Anzahl von Eigenschaften, die der Quadratwurzel der Gesamtzahl der Eigenschaften im Dataset entspricht. l2 : Bewertet eine Anzahl von Eigenschaften, die dem binären Logarithmus der Gesamtzahl der Eigenschaften entspricht. int : Bewertet bei jeder Aufteilung eine Anzahl von Eigenschaften, die der von Ihnen gewählten Anzahl entspricht. float : Bewertet eine Anzahl von Eigenschaften, die einer vom Benutzer gewählten Teilmenge der Gesamtzahl der Eigenschaften entspricht.	auto
min_impurity_decrease	min_impurity_decrease (Min. Unreinheitsreduzierung) legt den Mindestschwellenwert für die Reduzierung der Unreinheit fest, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt werden kann. Eine Spaltung tritt also dort auf, wo sie die Unreinheit um einen Betrag verringern würde, der gleich oder größer ist als „min_impurity_decrease". Verwenden Sie den criterion-Parameter, um anzugeben, wie Sie die Reduzierung von Unreinheiten messen möchten.	Beliebige Gleitkommazahl (float).	0.0
min_samples_split	min_samples_split (Min. Stichprobenaufteilung) legt den Mindestschwellenwert an Stichproben fest, der für die Aufteilung des Entscheidungsbaums in einen neuen Knoten erforderlich ist. Der Algorithmus kann eine Stichprobe oder alle Stichproben berücksichtigen.	Beliebige Ganzzahl (int) oder Gleitkommazahl (float).	int : 2
min_weight_fraction_leaf	min_weight_fraction_leaf (Min. Gewichtsanteil Blatt) ist der erforderliche Mindestschwellenwert für die Gewichtung, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt werden kann. Dieser Schwellenwert entspricht dem Mindestanteil der Gesamtgewichtungen für alle Stichproben. Der Algorithmus der Forest-Zufallsfunktion geht standardmäßig von gleichen Gewichtungen aus.	Beliebige Gleitkommazahl (float).	0.0
n_estimators	n_estimators ist die Anzahl der Bäume, die Sie als Teil des Forests erstellen möchten.	Beliebige Ganzzahl (int).	100
Zufälliger Startwert	random_state (zufälliger Startwert) gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus.	int : Wählen Sie eine Ganzzahl für den Zufallszahlengenerator aus. none : Keine Wiederholbarkeit.	Int : 10

XGBoost

Name	Beschreibung	Optionen	Standard
colsample_bylevel	colsample_bylevel ist der Prozentsatz der Daten, für die der Algorithmus zufällig eine Teilstichprobe für jede Tiefenebene in einem Baum erstellt.	Jede beliebige Gleitkommazahl (float) von 0 bis 1.	1
colsample_bynode	colsample_bynode ist der Prozentsatz der Daten, für die der Algorithmus zufällig eine Teilstichprobe für jeden Knoten in einem Baum erstellt.	Jede beliebige Gleitkommazahl (float) von 0 bis 1.	1
colsample_bytree	colsample_bytree ist der Prozentsatz der Daten, für die der Algorithmus zufällig eine Teilstichprobe für jeden Baum erstellt.	Jede beliebige Gleitkommazahl (float) von 0 bis 1.	1
gamma	gamma legt die Verlustreduzierung fest, die erforderlich ist, damit ein Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Es kommt also zu einer Aufteilung, bei der der Verlust um einen Betrag reduziert wird, der gleich oder größer ist als gamma .	Beliebige positive Ganzahl oder 0.	0
learning_rate	learning_rate (Lernrate) ist die Rate, mit der der Algorithmus zulässt, dass neue Informationen alte Informationen überschreiben. In der Regel stellen Sie die learning_rate in logarithmischen Inkrementen ein (z. B. 0,003, 0,03, 0,3).	Jede beliebige Gleitkommazahl (float) von 0 bis 1.	0.05
max_depth	max_depth (Max. Tiefe) ist der längste Weg der Wurzel zum Blatt für jeden Baum im Forest. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten.	Jede Zahl gleich oder größer als 1.	3
min_child_weight	min_child_weight legt den Schwellenwert der Hesse-Gewichtung fest, die erforderlich ist, damit ein Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Es kommt also zu einer Aufteilung, bei der das Hesse-Gewicht um einen Betrag verringert wird, der gleich oder größer als „min_child_weight" ist.	Beliebe positive Zahl oder 0.	1
n_estimators	n_estimators ist die Anzahl der Bäume, die Sie als Teil des Forests erstellen möchten.	Jede Zahl gleich oder größer als 1.	100
random_state	random_state gibt den Startwert für die Generierung einer Pseudozufallssequenz an.	Beliebige Ganzzahl.	10
subsample	subsample stellt den prozentualen Anteil der Daten dar, für den der Algorithmus eine Teilprobe nach dem Zufallsprinzip erstellt.	Beliebige Zahl von 0 bis 1.	1