Skip to main content

Regression tool icon Regression-Tool

Verwenden Sie das Regression-Tool in einer Machine Learning-Pipeline, um Trends zu erkennen. Das Tool bietet mehrere Algorithmen, mit denen Sie ein Modell trainieren können. Mit diesem Tool können Sie auch ein Modell mit vielen Parametern abstimmen.

Alteryx Intelligence Suite - Überblick

Dieses Tool ist Teil der Alteryx Intelligence Suite . Alteryx Intelligence Suite erfordert eine separate Lizenz und ein Add-on-Installationsprogramm für Designer. Nachdem Sie Designer installiert haben, installieren Sie Intelligence Suite und starten Sie Ihre kostenlose Testversion .

Tool-Konfiguration

Dieser Abschnitt enthält Informationen zum Konfigurieren des Regression-Tools.

Algorithmus auswählen

Wählen Sie aus, welchen Algorithmus Sie verwenden möchten. Sie können Lineare Regression , Entscheidungsbaum oder Forest-Zufallsfunktion wählen.

Parameter-Konfiguration

Konfigurieren Sie die Parameter. Jeder Algorithmus hat spezifische Parameter. Jeder Algorithmus verfügt auch über allgemeine und erweiterte Parameter. Allgemeine Parameter sind für die Erstellung eines genauen Modells unerlässlich, selbst für Neueinsteiger. Erweiterte Parameter können die Genauigkeit verbessern, erfordern aber ein umfassendes Verständnis ihrer Funktionsweise.

Die Tabelle enthält für jeden Algorithmus Informationen zu den Funktionen der Parameter:

Name

Beschreibung

Optionen

Standard

fit_intercept

Entscheiden Sie, ob der Algorithmus den Intercept für Ihr lineares Regressionsmodell berechnen soll. Auch als „Konstante" bekannt, ist der Intercept der erwartete Mittelwert von y , wobei x gleich 0 ist.

  • On

  • false

On

normalize

Entscheiden Sie, ob der Algorithmus Ihre Ziele normalisieren soll. Die Normalisierung passt Ihre Ziele so an, dass Sie sie auf einer gemeinsamen Skala mit anderen Daten vergleichen können, was Ihnen helfen kann, Zusammenhänge in Ihren Daten zu erkennen.

  • On

  • false

On

Name

Beschreibung

Optionen

Standard

criterion

Verwenden Sie den criterion -Parameter, um eine Methode auszuwählen, mit der Sie messen können, wie gut der Entscheidungsbaum-Algorithmus Ihre Daten in verschiedene Knoten aufteilt.

  • mse

  • friedman_mse

  • mae

mse

max_depth

max_depth (Max.Tiefe) ist der längste Weg von der Wurzel zum Blatt eines Baumes. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten.

  • none (unbegrenzt): Knoten werden erweitert, bis alle Blattknoten rein sind (d. h. vollständig aus Daten bestehen, die zu einer einzelnen Klasse gehören) oder bis alle Blattknoten weniger enthalten, als Sie im Parameter „min_samples_split“ angeben.

  • int (begrenzt): Beschränkt die Erweiterung durch Aufteilungen.

none

max_features

max_features (Max. Eigenschaften) legt die maximale Anzahl von Eigenschaften fest, die Ihr Entscheidungsbaum bei der Suche nach der besten ersten Aufteilung berücksichtigt.

  • auto : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • none : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • sqrt (Quadratwurzel): Bewertet eine Anzahl von Eigenschaften, die der Quadratwurzel der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • l2 : Bewertet eine Anzahl von Eigenschaften, die dem binären Logarithmus der Gesamtzahl der Eigenschaften entspricht.

  • int : Bewertet bei jeder Aufteilung eine Anzahl von Eigenschaften, die der von Ihnen gewählten Anzahl entspricht.

  • float : Bewertet eine Anzahl von Eigenschaften, die einem vom Benutzer gewählten Bruchteil der Gesamtzahl der Eigenschaften entspricht.

auto

max_leaf_nodes

max_leaf_nodes (Max. Blattknoten) ist die Obergrenze für die Gesamtzahl der Blattknoten, die Ihr Algorithmus generieren kann. Die Anzahl der Knoten wird nach best-first-Methode auf die maximale Anzahl gesteigert. Der Algorithmus bestimmt anhand ihrer Kapazität zur Reduzierung von Verunreinigungen, welche Knoten am besten geeignet sind. Verwenden Sie den criterion -Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten.

Beliebige Ganzzahl (int) oder none .

none

min_impurity_decrease

min_impurity_decrease  legt den Mindestschwellenwert der Verunreinigungsreduzierung fest, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Es kommt also zu einer Aufteilung, bei der die Verunreinigung um einen Betrag verringert wird, der gleich oder größer als min_impurity_decrease . Verwenden Sie den criterion -Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten.

Beliebige Gleitkommazahl (float).

0.0

min_samples_split

min_samples-split ( Min. Stichprobenaufteilung) legt den Mindestschwellenwert für Stichproben fest, die erforderlich sind, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Der Algorithmus kann eine Stichprobe oder alle Stichproben berücksichtigen.

Beliebige Ganzzahl (int) oder Gleitkommazahl (float).

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf ist der minimale Gewichtsschwellenwert, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Dieser Schwellenwert entspricht dem Mindestanteil der Gesamtgewichte aller Proben. Der Entscheidungsbaum-Algorithmus geht standardmäßig von gleichen Gewichtungen aus.

Beliebige Gleitkommazahl (float).

0.0

presort

Verwenden Sie diesen Parameter, um die Daten vorzusortieren, was dem Algorithmus helfen könnte, die besten Aufteilungen schneller zu finden.

  • On

  • false

false

random_state

random_state  gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus.

  • int

  • none

Int : 10

splitter

splitter (Aufteilung) ist die Strategie, die zum Aufteilen an einem Knoten verwendet wird. Dazu gehören Optionen für die beste erste Aufteilung und die beste zufällige Aufteilung. Der Algorithmus bestimmt anhand ihrer Kapazität zur Reduzierung von Verunreinigungen, welche Knoten am besten geeignet sind.

  • best : Diese Option erfordert mehr Rechenleistung und könnte zu einer Überanpassung führen.

  • random (zufällig): Diese Option könnte Pfade durch den Baum finden, wenn bestimmte Assoziationen schwache Signale haben.

best

Name

Beschreibung

Optionen

Standard

bootstrap

Mit der Bootstrapping-Methode, der Bagging-Grundlage, werden dem Dataset Stichproben für Trainingszwecke entnommen. Diese Methode erstellt iterative Teilstichproben Ihres Datasets, um neue, bisher unbekannte Daten zu simulieren, mit denen Sie die Generalisierungsfähigkeit Ihres Modells verbessern können.

  • On

  • false

On

criterion

Verwenden Sie den Parameter criterion , um eine Methode auszuwählen, mit der Sie messen können, wie gut der Forest-Zufallsfunktions-Algorithmus Ihre Daten in verschiedene Knoten aufteilt, die die vielen unterschiedlichen Bäume in Ihrer Zufallsfunktion umfassen.

  • mse

  • friedman_mse

  • mae

mse

max_depth

max_depth (Max. Tiefe) ist der längste Weg der Wurzel zum Blatt für jeden Baum im Forest. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten.

  • none (unbegrenzt): Knoten werden erweitert, bis alle Blattknoten rein sind (d. h. vollständig aus Daten bestehen, die zu einer einzelnen Klasse gehören) oder bis alle Blattknoten weniger enthalten, als Sie im Parameter „min_samples_split“ angeben.

  • int (begrenzt): Beschränkt die Erweiterung durch Aufteilungen.

none

max_features

max_features (Max. Eigenschaften) legt die maximale Anzahl von Eigenschaften fest, die jeder Entscheidungsbaum im Forest bei der Suche nach der besten ersten Teilung berücksichtigt.

  • auto : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • none : Bewertet eine Anzahl von Eigenschaften, die der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • sqrt (Quadratwurzel): Bewertet eine Anzahl von Eigenschaften, die der Quadratwurzel der Gesamtzahl der Eigenschaften im Dataset entspricht.

  • l2 : Bewertet eine Anzahl von Eigenschaften, die dem binären Logarithmus der Gesamtzahl der Eigenschaften entspricht.

  • int : Bewertet bei jeder Aufteilung eine Anzahl von Eigenschaften, die der von Ihnen gewählten Anzahl entspricht.

  • float : Bewertet eine Anzahl von Eigenschaften, die einem vom Benutzer gewählten Bruchteil der Gesamtzahl der Eigenschaften entspricht.

auto

min_impurity_decrease

min_impurity_decrease (Min. Unreinheitsreduzierung) legt den Mindestschwellenwert für die Reduzierung der Unreinheit fest, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt werden kann. Es kommt also zu einer Aufteilung, bei der die Verunreinigung um einen Betrag verringert wird, der gleich oder größer als min_impurity_decrease . Verwenden Sie den criterion -Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten.

Beliebige Gleitkommazahl (float).

0.0

min_samples_split

min_samples_split (Min. Stichprobenaufteilung) legt den Mindestschwellenwert an Stichproben fest, der für die Aufteilung des Entscheidungsbaums in einen neuen Knoten erforderlich ist. Der Algorithmus kann eine Stichprobe oder alle Stichproben berücksichtigen.

Beliebige Ganzzahl (int) oder Gleitkommazahl (float).

int : 2

min_weight_fraction_leaf

min_weight_fraction_leaf (Min. Gewichtsanteil Blatt) ist der erforderliche Mindestschwellenwert für die Gewichtung, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt werden kann. Dieser Schwellenwert entspricht dem Mindestanteil der Gesamtgewichte aller Proben. Der Algorithmus der Forest-Zufallsfunktion geht standardmäßig von gleichen Gewichtungen aus.

Beliebige Gleitkommazahl (float).

0.0

n_estimators

n_estimators ist die Anzahl der Bäume, die Sie als Teil des Forests erstellen möchten.

Beliebige Ganzzahl (int).

100

random_state

random_state  gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus.

  • int : Wählen Sie eine Ganzzahl für den Zufallszahlengenerator aus.

  • none : Keine Wiederholbarkeit.

Int : 10