Klassifizierung-Tool
Verwenden Sie das Klassifizierung-Tool in einer Machine Learning-Pipeline, um zu ermitteln, welcher Kategorie ein Ziel angehört. Das Tool bietet mehrere Algorithmen, mit denen Sie ein Modell trainieren können. Mit diesem Tool können Sie auch ein Modell mit vielen Parametern abstimmen.
Alteryx Intelligence Suite - Überblick
Dieses Tool ist Teil der Alteryx Intelligence Suite . Alteryx Intelligence Suite erfordert eine separate Lizenz und ein Add-on-Installationsprogramm für Designer. Nachdem Sie Designer installiert haben, installieren Sie Intelligence Suite und starten Sie Ihre kostenlose Testversion .
Tool-Konfiguration
Dieser Abschnitt enthält Informationen über die Konfiguration des Klassifizierung-Tools.
Algorithmus auswählen
Wählen Sie aus, welchen Algorithmus Sie verwenden möchten. Sie können Logistische Regression , Entscheidungsbaum , Forest-Zufallsfunktion oder XGBoost wählen.
Parameter-Konfiguration
Konfigurieren Sie die Parameter. Jeder Algorithmus unterscheidet sich in seinen Parametern von anderen Algorithmen. Jeder Algorithmus verfügt auch über allgemeine und erweiterte Parameter. Allgemeine Parameter sind für die Erstellung eines genauen Modells unerlässlich, selbst für Neueinsteiger. Erweiterte Parameter können die Genauigkeit verbessern, erfordern aber ein umfassendes Verständnis ihrer Funktionsweise.
Die Tabelle enthält für jeden Algorithmus Informationen zu den Funktionen der Parameter:
Name | Beschreibung | Optionen | Standard |
class_weight | class_weight (Klassengewichtung) ordnet den verschiedenen Klassen im Dataset Gewichtungen zu. Einige Algorithmen überbewerten die vorherrschenden Klassen, was zu Ungleichgewichten führt. Dieser Parameter hilft, die Klassen im Dataset auszugleichen, indem er Minderheitsklassen eine zusätzliche Gewichtung zuweist. |
| none |
fit_intercept | Entscheiden Sie, ob der Algorithmus den Intercept für Ihr lineares Regressionsmodell berechnen soll. Auch als „Konstante" bekannt, ist der Intercept der erwartete Mittelwert von y , wobei x gleich 0 ist. |
| intercept_scaling : 1.0 |
max_iter | max_iter (Max. Iterationen) gibt die maximale Anzahl der Iterationen an, die ein Solver benötigt, um zu konvergieren. Modelle mit einer höheren Anzahl von Iterationen erfassen mehr Informationen über die Daten. | Beliebige Ganzzahl (int). | 100 |
multi_class | multi_class (Mehrklassen) gibt an, ob der Algorithmus mehr als zwei Klassen verarbeiten muss. |
| auto |
penalty | penalty , auch als „Regularisierung" bezeichnet, bezieht sich auf die Praxis, die Verlustfunktion zu ändern, um bestimmte Werte zu bestrafen, die das Modell andernfalls überbewerten würde. Die Lasso-Regression (l1) und Ridge-Regression (l2)) sind zwei Methoden zur Bestimmung des Abzugs (penalty). |
| L2 |
dual | dual (Problemformulierung) wandelt ein primäres Optimierungsproblem in ein duales Problem um. |
*Sie können dual (Problem Formulierung) nur verwenden, wenn Sie die Option l2 für penalty (Abzug) und liblinear für solver auswählen. | false |
random_state | random_state gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus. |
| int : 10 |
solver | solver ist die Methode, die die logistische Regression verwendet, um ihre Kurve durch die Bestimmung von Sigmoid-Gewichtungen so zu optimieren, dass sie den Daten am besten entspricht. |
| liblinear |
tol | tol (Toleranz) legt die Stoppkriterien fest, die bestimmen, wann der Algorithmus erkennen soll, dass die Parameter nahe genug an der Konvergenz liegen (d. h. konstant bleiben). | Beliebige positive Gleitkommazahl (float). | .0001 |
C | Die Regularisierungsabstimmung ( C ) ermöglicht es Ihnen, die Höhe des Abzugs (d. h. die Regularisierung), die Sie anwenden, anzupassen, wodurch Features, die durch das Modell stark gewichtet werden, effektiv begrenzt werden. Formatieren Sie diesen Parameter als positive Gleitkommazahl (float). | Beliebige positive Gleitkommazahl (float). | 1.0 |
Name | Beschreibung | Optionen | Standard |
class_weight | class_weight (Klassengewichtung) weist verschiedenen Klassen im Dataset Gewichtungen zu. |
| none |
criterion | Verwenden Sie den criterion -Parameter, um eine Methode auszuwählen, mit der Sie messen können, wie gut der Entscheidungsbaum-Algorithmus Ihre Daten in verschiedene Knoten aufteilt. |
| gini |
max_depth | max_depth (Max.Tiefe) ist der längste Weg von der Wurzel zum Blatt eines Baumes. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten. |
| none |
max_features | max_features (Max. Features) legt die maximale Anzahl von Features fest, die Ihr Entscheidungsbaum bei der Suche nach der besten ersten Aufteilung berücksichtigt. |
| auto |
max_leaf_nodes | max_leaf_nodes (Max. Blattknoten) ist die Obergrenze für die Gesamtzahl der Blattknoten, die Ihr Algorithmus generieren kann. Die Anzahl der Knoten wird nach best-first-Methode auf die maximale Anzahl gesteigert. Der Algorithmus bestimmt anhand ihrer Kapazität zur Reduzierung von Verunreinigungen, welche Knoten am besten geeignet sind. Verwenden Sie den criterion-Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten. | Beliebige Ganzzahl (int) oder none . | none |
min_impurity_decrease | min_impurity_decrease legt den Mindestschwellenwert der Verunreinigungsreduzierung fest, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Es kommt also zu einer Aufteilung, bei der die Verunreinigung um einen Betrag verringert wird, der gleich oder größer als min_impurity_decrease. Verwenden Sie den criterion-Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten. | Beliebige Gleitkommazahl (float). | 0.0 |
min_samples_split | min_samples-split ( Min. Stichprobenaufteilung) legt den Mindestschwellenwert für Stichproben fest, die erforderlich sind, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Der Algorithmus kann eine Stichprobe oder alle Stichproben berücksichtigen. | Beliebige Ganzzahl (int) oder Gleitkommazahl (float). | int : 2 |
min_weight_fraction_leaf | min_weight_fraction_leaf ist der minimale Gewichtsschwellenwert, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Dieser Schwellenwert entspricht dem Mindestanteil der Gesamtgewichte aller Proben. Der Entscheidungsbaum-Algorithmus geht standardmäßig von gleichen Gewichtungen aus. | Beliebige Gleitkommazahl (float). | 0.0 |
random_state | random_state gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus. |
| Int : 10 |
splitter | splitter (Aufteilung) ist die Strategie, die zum Aufteilen an einem Knoten verwendet wird. Dazu gehören Optionen für die beste erste Aufteilung und die beste zufällige Aufteilung. Der Algorithmus bestimmt anhand ihrer Kapazität zur Reduzierung von Verunreinigungen, welche Knoten am besten geeignet sind. |
| best |
Name | Beschreibung | Optionen | Standard |
bootstrap | Mit der Bootstrapping-Methode, der Bagging-Grundlage, werden dem Dataset Stichproben für Trainingszwecke entnommen. Diese Methode erstellt iterative Teilstichproben Ihres Datasets, um neue, bisher unbekannte Daten zu simulieren, mit denen Sie die Generalisierungsfähigkeit Ihres Modells verbessern können. |
| On |
class_weight | class_weight (Klassengewichtung) weist verschiedenen Klassen im Dataset Gewichtungen zu. Algorithmen der Forest-Zufallfunktion neigen dazu, dominante Klassen überzubewerten, was zu einem Ungleichgewicht führt. class_weight trägt dazu bei, Klassen im Dataset auszugleichen, indem Minderheitsklassen zusätzliches Gewicht zugewiesen wird. Das Ausgleichen der Klassen kann die Leistung des Modells verbessern. Standardmäßig haben alle Klassen eine Gewichtung von 1. |
| none |
criterion | Verwenden Sie den criterion -Parameter, um eine Methode auszuwählen, mit der gemessen werden kann, wie gut der Algorithmus der Forest-Zufallsfunktion Ihre Daten in verschiedene Knoten aufteilt. |
| gini |
max_depth | max_depth (Max. Tiefe) ist der längste Weg der Wurzel zum Blatt für jeden Baum im Forest. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten. |
| int : 10 |
max_features | max_features (Max. Features) legt die maximale Anzahl von Features fest, die jeder Entscheidungsbaum im Forest bei der Suche nach der besten ersten Teilung berücksichtigt. |
| auto |
min_impurity_decrease | min_impurity_decrease (Min. Unreinheitsreduzierung) legt den Mindestschwellenwert für die Reduzierung der Unreinheit fest, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt werden kann. Es kommt also zu einer Aufteilung, bei der die Verunreinigung um einen Betrag verringert wird, der gleich oder größer als min_impurity_decrease. Verwenden Sie den criterion-Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten. | Beliebige Gleitkommazahl (float). | 0.0 |
min_samples_split | min_samples_split (Min. Stichprobenaufteilung) legt den Mindestschwellenwert an Stichproben fest, der für die Aufteilung des Entscheidungsbaums in einen neuen Knoten erforderlich ist. Der Algorithmus kann eine Stichprobe oder alle Stichproben berücksichtigen. | Beliebige Ganzzahl (int) oder Gleitkommazahl (float). | int : 2 |
min_weight_fraction_leaf | min_weight_fraction_leaf (Min. Gewichtsanteil Blatt) ist der erforderliche Mindestschwellenwert für die Gewichtung, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt werden kann. Dieser Schwellenwert entspricht dem Mindestanteil der Gesamtgewichte aller Proben. Der Algorithmus der Forest-Zufallsfunktion geht standardmäßig von gleichen Gewichtungen aus. | Beliebige Gleitkommazahl (float). | 0.0 |
n_estimators | n_estimators ist die Anzahl der Bäume, die Sie als Teil des Forests erstellen möchten. | Beliebige Ganzzahl (int). | 100 |
random_state | random_state gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus. |
| Int : 10 |
Name | Beschreibung | Optionen | Standard |
colsample_bylevel | colsample_bylevel ist der Prozentsatz der Daten, für die der Algorithmus zufällig eine Teilstichprobe für jede Tiefenebene in einem Baum erstellt. | Jede beliebige Gleitkommazahl (float) von 0 bis 1. | 1 |
colsample_bynode | colsample_bynode ist der Prozentsatz der Daten, für die der Algorithmus zufällig eine Teilstichprobe für jeden Knoten in einem Baum erstellt. | Jede beliebige Gleitkommazahl (float) von 0 bis 1. | 1 |
colsample_bytree | colsample_bytree ist der Prozentsatz der Daten, für die der Algorithmus zufällig eine Teilstichprobe für jeden Baum erstellt. | Jede beliebige Gleitkommazahl (float) von 0 bis 1. | 1 |
gamma | gamma legt die Verlustreduzierung fest, die erforderlich ist, damit ein Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Es kommt also zu einer Aufteilung, bei der der Verlust um einen Betrag reduziert wird, der gleich oder größer ist als gamma . | Beliebige positive Ganzahl oder 0. | 0 |
learning_rate | learning_rate (Lernrate) ist die Rate, mit der der Algorithmus zulässt, dass neue Informationen alte Informationen überschreiben. In der Regel stellen Sie die learning_rate in logarithmischen Inkrementen ein (z. B. 0,003, 0,03, 0,3). | Jede beliebige Gleitkommazahl (float) von 0 bis 1. | 0.05 |
max_depth | max_depth (Max. Tiefe) ist der längste Weg der Wurzel zum Blatt für jeden Baum im Forest. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten. | Jede Zahl gleich oder größer als 1. | 3 |
min_child_weight | min_child_weight legt den Schwellenwert der Hesse-Gewichtung fest, die erforderlich ist, damit ein Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Es kommt also zu einer Aufteilung, bei der das Hesse-Gewicht um einen Betrag verringert wird, der gleich oder größer als „min_child_weight" ist. | Beliebe positive Zahl oder 0. | 1 |
n_estimators | n_estimators ist die Anzahl der Bäume, die Sie als Teil des Forests erstellen möchten. | Jede Zahl gleich oder größer als 1. | 100 |
random_state | random_state gibt den Startwert für die Generierung einer Pseudozufallssequenz an. | Beliebige Ganzzahl. | 10 |
subsample | subsample stellt den prozentualen Anteil der Daten dar, für den der Algorithmus eine Teilprobe nach dem Zufallsprinzip erstellt. | Beliebige Zahl von 0 bis 1. | 1 |