Skip to main content

Classification tool icon Klassifizierung-Tool

Verwenden Sie das Klassifizierung-Tool in einer Machine Learning-Pipeline, um zu ermitteln, welcher Kategorie ein Ziel angehört. Das Tool bietet mehrere Algorithmen, mit denen Sie ein Modell trainieren können. Mit diesem Tool können Sie auch ein Modell mit vielen Parametern abstimmen.

Alteryx Intelligence Suite - Überblick

Dieses Tool ist Teil der Alteryx Intelligence Suite . Alteryx Intelligence Suite erfordert eine separate Lizenz und ein Add-on-Installationsprogramm für Designer. Nachdem Sie Designer installiert haben, installieren Sie Intelligence Suite und starten Sie Ihre kostenlose Testversion .

Tool-Konfiguration

Dieser Abschnitt enthält Informationen über die Konfiguration des Klassifizierung-Tools.

Algorithmus auswählen

Wählen Sie aus, welchen Algorithmus Sie verwenden möchten. Sie können Logistische Regression , Entscheidungsbaum , Forest-Zufallsfunktion oder XGBoost wählen.

Parameter-Konfiguration

Konfigurieren Sie die Parameter. Jeder Algorithmus unterscheidet sich in seinen Parametern von anderen Algorithmen. Jeder Algorithmus verfügt auch über allgemeine und erweiterte Parameter. Allgemeine Parameter sind für die Erstellung eines genauen Modells unerlässlich, selbst für Neueinsteiger. Erweiterte Parameter können die Genauigkeit verbessern, erfordern aber ein umfassendes Verständnis ihrer Funktionsweise.

Die Tabelle enthält für jeden Algorithmus Informationen zu den Funktionen der Parameter:

Name

Beschreibung

Optionen

Standard

class_weight

class_weight (Klassengewichtung) ordnet den verschiedenen Klassen im Dataset Gewichtungen zu. Einige Algorithmen überbewerten die vorherrschenden Klassen, was zu Ungleichgewichten führt. Dieser Parameter hilft, die Klassen im Dataset auszugleichen, indem er Minderheitsklassen eine zusätzliche Gewichtung zuweist.

  • none

  • balanced

none

fit_intercept

Entscheiden Sie, ob der Algorithmus den Intercept für Ihr lineares Regressionsmodell berechnen soll. Auch als „Konstante" bekannt, ist der Intercept der erwartete Mittelwert von y , wobei x gleich 0 ist.

  • none

  • intercept_scaling

intercept_scaling : 1.0

max_iter

max_iter (Max. Iterationen) gibt die maximale Anzahl der Iterationen an, die ein Solver benötigt, um zu konvergieren. Modelle mit einer höheren Anzahl von Iterationen erfassen mehr Informationen über die Daten.

Beliebige Ganzzahl (int).

100

multi_class

multi_class (Mehrklassen) gibt an, ob der Algorithmus mehr als zwei Klassen verarbeiten muss.

  • auto wählt multinomial oder automatisch aus.

  • multinomial kann Mehrklassen- oder Binärklassifizierungen durchführen.

  • Der ovr -Parameter kann Binärklassifizierungen durchführen.

auto

penalty

penalty , auch als „Regularisierung" bezeichnet, bezieht sich auf die Praxis, die Verlustfunktion zu ändern, um bestimmte Werte zu bestrafen, die das Modell andernfalls überbewerten würde. Die Lasso-Regression (l1) und Ridge-Regression (l2)) sind zwei Methoden zur Bestimmung des Abzugs (penalty).

  • l1 hilft bei der Suche nach den wichtigsten Eigenschaften in Datasets mit vielen Eigenschaften, indem manche Gewichtungen auf 0 gesetzt werden.

  • l2 hilft dabei, dass alle Eigenschaften zum Modell beitragen, indem sichergestellt wird, dass die Gewichtungswerte nicht Null sind.

l2

dual

dual  (Problemformulierung) wandelt ein primäres Optimierungsproblem in ein duales Problem um.

  • false

  • dual *

*Sie können dual (Problem Formulierung) nur verwenden, wenn Sie die Option l2 für penalty (Abzug) und liblinear für solver auswählen.

false

random_state

random_state  gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus.

  • int

  • none

int : 10

solver

solver ist die Methode, die die logistische Regression verwendet, um ihre Kurve durch die Bestimmung von Sigmoid-Gewichtungen so zu optimieren, dass sie den Daten am besten entspricht.

  • liblinear : Verwenden Sie diese Methode für kleinere Datasets, bei denen Sie einen Abzug (penalty) anwenden möchten. liblinear erfordert einen Abzug (penalty).

  • sag : Verwenden Sie diese Methode für größere Datasets, bei denen Sie einen l2-Abzug (penalty) oder keinen Abzug anwenden möchten.

  • saga : Verwenden Sie diese Methode für größere Datasets, bei denen Sie einen l1-Abzug (penalty) oder keinen Abzug anwenden möchten.

  • lfbgs : Verwenden Sie diese Methode für kleinere Datasets, bei denen Sie einen l2-Abzug (penalty) oder keinen Abzug anwenden möchten.

  • newton-CG : Verwenden Sie diese Methode für kleinere Datasets, bei denen Sie einen l2-Abzug (penalty) oder keinen Abzug anwenden möchten.

liblinear

tol

tol (Toleranz) legt die Stoppkriterien fest, die bestimmen, wann der Algorithmus erkennen soll, dass die Parameter nahe genug an der Konvergenz liegen (d. h. konstant bleiben).

Beliebige positive Gleitkommazahl (float).

.0001

C

Der Regularisierungstuner ( C ) ermöglicht es Ihnen, die Höhe des Abzugs (d.h. die Regularisierung), die Sie anwenden, anzupassen, wodurch Eigenschaften, die durch das Modell stark gewichtet werden, effektiv begrenzt werden. Formatieren Sie diesen Parameter als positive Gleitkommazahl (float).

Beliebige positive Gleitkommazahl (float).

1.0

Name

Beschreibung

Optionen

Standard

class_weight

class_weight (Klassengewichtung) weist verschiedenen Klassen im Dataset Gewichtungen zu.

  • none

  • balanced

none

criterion

Verwenden Sie den criterion -Parameter, um eine Methode auszuwählen, mit der Sie messen können, wie gut der Entscheidungsbaum-Algorithmus Ihre Daten in verschiedene Knoten aufteilt.

  • gini

  • entropy

gini

max_depth

max_depth (Max.Tiefe) ist der längste Weg von der Wurzel zum Blatt eines Baumes. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten.

  • none (unbegrenzt): Knoten werden erweitert, bis alle Blattknoten rein sind (d. h. vollständig aus Daten bestehen, die zu einer einzelnen Klasse gehören) oder bis alle Blattknoten weniger enthalten, als Sie im Parameter „min_samples_split“ angeben.

  • int (begrenzt): Beschränkt die Erweiterung durch Aufteilungen.

none

max_features

max_features (Max. Eigenschaften) legt die maximale Anzahl von Eigenschaften fest, die Ihr Entscheidungsbaum bei der Suche nach der besten ersten Aufteilung berücksichtigt.

  • auto : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • none : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • sqrt (Quadratwurzel): Bewertet eine Anzahl von Eigenschaften, die der Quadratwurzel der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • l2 : Bewertet eine Anzahl von Eigenschaften, die dem binären Logarithmus der Gesamtzahl der Eigenschaften entspricht.

  • int : Bewertet bei jeder Aufteilung eine Anzahl von Eigenschaften, die der von Ihnen gewählten Anzahl entspricht.

  • float : Bewertet eine Anzahl von Eigenschaften, die einem vom Benutzer gewählten Bruchteil der Gesamtzahl der Eigenschaften entspricht.

auto

max_leaf_nodes

max_leaf_nodes (Max. Blattknoten) ist die Obergrenze für die Gesamtzahl der Blattknoten, die Ihr Algorithmus generieren kann. Die Anzahl der Knoten wird nach best-first-Methode auf die maximale Anzahl gesteigert. Der Algorithmus bestimmt anhand ihrer Kapazität zur Reduzierung von Verunreinigungen, welche Knoten am besten geeignet sind. Verwenden Sie den criterion-Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten.

Beliebige Ganzzahl (int) oder none .

none

min_impurity_decrease

min_impurity_decrease  legt den Mindestschwellenwert der Verunreinigungsreduzierung fest, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Es kommt also zu einer Aufteilung, bei der die Verunreinigung um einen Betrag verringert wird, der gleich oder größer als „min_impurity_decrease". Verwenden Sie den criterion-Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten.

Beliebige Gleitkommazahl (float).

0.0

min_samples_split

min_samples-split (Min. Stichprobenaufteilung) legt den Mindestschwellenwert für Stichproben fest, die erforderlich sind, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Der Algorithmus kann eine Stichprobe oder alle Stichproben berücksichtigen.

Beliebige Ganzzahl (int) oder Gleitkommazahl (float).

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf ist der minimale Gewichtsschwellenwert, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Dieser Schwellenwert entspricht dem Mindestanteil der Gesamtgewichte aller Proben. Der Entscheidungsbaum-Algorithmus geht standardmäßig von gleichen Gewichtungen aus.

Beliebige Gleitkommazahl (float).

0.0

presort

Verwenden Sie diesen Parameter, um die Daten vorzusortieren, was dem Algorithmus helfen könnte, die besten Aufteilungen schneller zu finden.

  • true

  • false

false

Zufälliger Startwert

random_state  gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus.

  • int : Wählen Sie eine Ganzzahl für den Zufallszahlengenerator aus.

  • none : Keine Wiederholbarkeit.

Int : 10

splitter

splitter (Aufteilung) ist die Strategie, die zum Aufteilen an einem Knoten verwendet wird. Dazu gehören Optionen für die beste erste Aufteilung und die beste zufällige Aufteilung. Der Algorithmus bestimmt anhand ihrer Kapazität zur Reduzierung von Verunreinigungen, welche Knoten am besten geeignet sind.

  • best : Der best-Paramter erfordert mehr Rechenleistung und es besteht die Gefahr einer Überanpassung.

  • random (zufällig): Dieser Parameter kann Pfade durch den Baum finden, wenn bestimmte Assoziationen schwache Signale haben.

best

Name

Beschreibung

Optionen

Standard

bootstrap

Mit der Bootstrapping-Methode, der Bagging-Grundlage, werden dem Dataset Stichproben für Trainingszwecke entnommen. Diese Methode erstellt iterative Teilstichproben Ihres Datasets, um neue, bisher unbekannte Daten zu simulieren, mit denen Sie die Generalisierungsfähigkeit Ihres Modells verbessern können.

  • true

  • false

true

class_weight

class_weight (Klassengewichtung) weist verschiedenen Klassen im Dataset Gewichtungen zu. Algorithmen der Forest-Zufallfunktion neigen dazu, dominante Klassen überzubewerten, was zu einem Ungleichgewicht führt. class_weight trägt dazu bei, Klassen im Dataset auszugleichen, indem Minderheitsklassen zusätzliches Gewicht zugewiesen wird. Das Ausgleichen der Klassen kann die Leistung des Modells verbessern. Standardmäßig haben alle Klassen eine Gewichtung von 1.

  • class_weight (Klassengewichtung): class_weight ist die Standardeinstellung (mit anderen Worten: 1) für alle Klassen.

  • balanced (ausgeglichen): Wählen Sie diese Option aus, damit der Algorithmus für die Forest-Zufallsfunktion die Klassengewichtungen automatisch basierend auf der Anzahl der Stichproben in jeder Klasse anpasst.

none

criterion

Verwenden Sie den criterion -Parameter, um eine Methode auszuwählen, mit der gemessen werden kann, wie gut der Algorithmus der Forest-Zufallsfunktion Ihre Daten in verschiedene Knoten aufteilt.

  • gini

  • entropy

gini

max_depth

max_depth (Max. Tiefe) ist der längste Weg von einer Wurzel zu einem Blatt für jeden Baum im Forest. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten.

  • none (unbegrenzt): Die Knoten expandieren, bis alle Blattknoten rein sind (d.h. vollständig aus Daten bestehen, die zu einer einzigen Klasse gehören) oder bis alle Blattknoten weniger als das enthalten, was Sie im Parameter min_samples_split angeben.

  • int (begrenzt): Beschränkt die Expansion durch Aufteilungen.

int : 10

max_features

max_features (Max. Eigenschaften) llegt die maximale Anzahl von Eigenschaften fest, die jeder Entscheidungsbaum im Forest bei der Suche nach der besten ersten Teilung berücksichtigt.

  • auto : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • none : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • sqrt (Quadratwurzel): Bewertet eine Anzahl von Eigenschaften, die der Quadratwurzel der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • l2 : Bewertet eine Anzahl von Eigenschaften, die dem binären Logarithmus der Gesamtzahl der Eigenschaften entspricht.

  • int : Bewertet bei jeder Aufteilung eine Anzahl von Eigenschaften, die der von Ihnen gewählten Anzahl entspricht.

  • float : Bewertet eine Anzahl von Eigenschaften, die einer vom Benutzer gewählten Teilmenge der Gesamtzahl der Eigenschaften entspricht.

auto

min_impurity_decrease

min_impurity_decrease (Min. Unreinheitsreduzierung) legt den Mindestschwellenwert für die Reduzierung der Unreinheit fest, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt werden kann. Eine Spaltung tritt also dort auf, wo sie die Unreinheit um einen Betrag verringern würde, der gleich oder größer ist als „min_impurity_decrease". Verwenden Sie den criterion-Parameter, um anzugeben, wie Sie die Reduzierung von Unreinheiten messen möchten.

Beliebige Gleitkommazahl (float).

0.0

min_samples_split

min_samples_split (Min. Stichprobenaufteilung) legt den Mindestschwellenwert an Stichproben fest, der für die Aufteilung des Entscheidungsbaums in einen neuen Knoten erforderlich ist. Der Algorithmus kann eine Stichprobe oder alle Stichproben berücksichtigen.

Beliebige Ganzzahl (int) oder Gleitkommazahl (float).

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf (Min. Gewichtsanteil Blatt) ist der erforderliche Mindestschwellenwert für die Gewichtung, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt werden kann. Dieser Schwellenwert entspricht dem Mindestanteil der Gesamtgewichtungen für alle Stichproben. Der Algorithmus der Forest-Zufallsfunktion geht standardmäßig von gleichen Gewichtungen aus.

Beliebige Gleitkommazahl (float).

0.0

n_estimators

n_estimators ist die Anzahl der Bäume, die Sie als Teil des Forests erstellen möchten.

Beliebige Ganzzahl (int).

100

Zufälliger Startwert

random_state (zufälliger Startwert) gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus.

  • int : Wählen Sie eine Ganzzahl für den Zufallszahlengenerator aus.

  • none : Keine Wiederholbarkeit.

Int : 10

Name

Beschreibung

Optionen

Standard

colsample_bylevel

colsample_bylevel ist der Prozentsatz der Daten, für die der Algorithmus zufällig eine Teilstichprobe für jede Tiefenebene in einem Baum erstellt.

Jede beliebige Gleitkommazahl (float) von 0 bis 1.

1

colsample_bynode

colsample_bynode ist der Prozentsatz der Daten, für die der Algorithmus zufällig eine Teilstichprobe für jeden Knoten in einem Baum erstellt.

Jede beliebige Gleitkommazahl (float) von 0 bis 1.

1

colsample_bytree

colsample_bytree ist der Prozentsatz der Daten, für die der Algorithmus zufällig eine Teilstichprobe für jeden Baum erstellt.

Jede beliebige Gleitkommazahl (float) von 0 bis 1.

1

gamma

gamma legt die Verlustreduzierung fest, die erforderlich ist, damit ein Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Es kommt also zu einer Aufteilung, bei der der Verlust um einen Betrag reduziert wird, der gleich oder größer ist als gamma .

Beliebige positive Ganzahl oder 0.

0

learning_rate

learning_rate  (Lernrate) ist die Rate, mit der der Algorithmus zulässt, dass neue Informationen alte Informationen überschreiben. In der Regel stellen Sie die learning_rate in logarithmischen Inkrementen ein (z. B. 0,003, 0,03, 0,3).

Jede beliebige Gleitkommazahl (float) von 0 bis 1.

0.05

max_depth

max_depth (Max. Tiefe) ist der längste Weg der Wurzel zum Blatt für jeden Baum im Forest. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten.

Jede Zahl gleich oder größer als 1.

3

min_child_weight

min_child_weight legt den Schwellenwert der Hesse-Gewichtung fest, die erforderlich ist, damit ein Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Es kommt also zu einer Aufteilung, bei der das Hesse-Gewicht um einen Betrag verringert wird, der gleich oder größer als „min_child_weight" ist.

Beliebe positive Zahl oder 0.

1

n_estimators

n_estimators ist die Anzahl der Bäume, die Sie als Teil des Forests erstellen möchten.

Jede Zahl gleich oder größer als 1.

100

random_state

random_state  gibt den Startwert für die Generierung einer Pseudozufallssequenz an.

Beliebige Ganzzahl.

10

subsample

subsample stellt den prozentualen Anteil der Daten dar, für den der Algorithmus eine Teilprobe nach dem Zufallsprinzip erstellt.

Beliebige Zahl von 0 bis 1.

1