Regression-Tool
Verwenden Sie das Regression-Tool in einer Machine Learning-Pipeline, um Trends zu erkennen. Das Tool bietet mehrere Algorithmen, mit denen Sie ein Modell trainieren können. Mit diesem Tool können Sie auch ein Modell mit vielen Parametern abstimmen.
Alteryx Intelligence Suite - Überblick
Dieses Tool ist Teil der Alteryx Intelligence Suite . Alteryx Intelligence Suite erfordert eine separate Lizenz und ein Add-on-Installationsprogramm für Designer. Nachdem Sie Designer installiert haben, installieren Sie Intelligence Suite und starten Sie Ihre kostenlose Testversion .
Tool-Konfiguration
Dieser Abschnitt enthält Informationen zum Konfigurieren des Regression-Tools.
Algorithmus auswählen
Wählen Sie aus, welchen Algorithmus Sie verwenden möchten. Sie können Lineare Regression , Entscheidungsbaum oder Forest-Zufallsfunktion wählen.
Parameter-Konfiguration
Konfigurieren Sie die Parameter. Jeder Algorithmus hat spezifische Parameter. Jeder Algorithmus verfügt auch über allgemeine und erweiterte Parameter. Allgemeine Parameter sind für die Erstellung eines genauen Modells unerlässlich, selbst für Neueinsteiger. Erweiterte Parameter können die Genauigkeit verbessern, erfordern aber ein umfassendes Verständnis ihrer Funktionsweise.
Die Tabelle enthält für jeden Algorithmus Informationen zu den Funktionen der Parameter:
Name | Beschreibung | Optionen | Standard |
fit_intercept | Entscheiden Sie, ob der Algorithmus den Intercept für Ihr lineares Regressionsmodell berechnen soll. Auch als „Konstante" bekannt, ist der Intercept der erwartete Mittelwert von y , wobei x gleich 0 ist. |
| On |
normalize | Entscheiden Sie, ob der Algorithmus Ihre Ziele normalisieren soll. Die Normalisierung passt Ihre Ziele so an, dass Sie sie auf einer gemeinsamen Skala mit anderen Daten vergleichen können, was Ihnen helfen kann, Zusammenhänge in Ihren Daten zu erkennen. |
| On |
Name | Beschreibung | Optionen | Standard |
criterion | Verwenden Sie den criterion -Parameter, um eine Methode auszuwählen, mit der Sie messen können, wie gut der Entscheidungsbaum-Algorithmus Ihre Daten in verschiedene Knoten aufteilt. |
| mse |
max_depth | max_depth (Max.Tiefe) ist der längste Weg von der Wurzel zum Blatt eines Baumes. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten. |
| none |
max_features | max_features (Max. Eigenschaften) legt die maximale Anzahl von Eigenschaften fest, die Ihr Entscheidungsbaum bei der Suche nach der besten ersten Aufteilung berücksichtigt. |
| auto |
max_leaf_nodes | max_leaf_nodes (Max. Blattknoten) ist die Obergrenze für die Gesamtzahl der Blattknoten, die Ihr Algorithmus generieren kann. Die Anzahl der Knoten wird nach best-first-Methode auf die maximale Anzahl gesteigert. Der Algorithmus bestimmt anhand ihrer Kapazität zur Reduzierung von Verunreinigungen, welche Knoten am besten geeignet sind. Verwenden Sie den criterion -Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten. | Beliebige Ganzzahl (int) oder none . | none |
min_impurity_decrease | min_impurity_decrease legt den Mindestschwellenwert der Verunreinigungsreduzierung fest, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Es kommt also zu einer Aufteilung, bei der die Verunreinigung um einen Betrag verringert wird, der gleich oder größer als min_impurity_decrease . Verwenden Sie den criterion -Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten. | Beliebige Gleitkommazahl (float). | 0.0 |
min_samples_split | min_samples-split ( Min. Stichprobenaufteilung) legt den Mindestschwellenwert für Stichproben fest, die erforderlich sind, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Der Algorithmus kann eine Stichprobe oder alle Stichproben berücksichtigen. | Beliebige Ganzzahl (int) oder Gleitkommazahl (float). | int : 2 |
min_weight_fraction_leaf | min_weight_fraction_leaf ist der minimale Gewichtsschwellenwert, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt wird. Dieser Schwellenwert entspricht dem Mindestanteil der Gesamtgewichte aller Proben. Der Entscheidungsbaum-Algorithmus geht standardmäßig von gleichen Gewichtungen aus. | Beliebige Gleitkommazahl (float). | 0.0 |
presort | Verwenden Sie diesen Parameter, um die Daten vorzusortieren, was dem Algorithmus helfen könnte, die besten Aufteilungen schneller zu finden. |
| false |
random_state | random_state gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus. |
| Int : 10 |
splitter | splitter (Aufteilung) ist die Strategie, die zum Aufteilen an einem Knoten verwendet wird. Dazu gehören Optionen für die beste erste Aufteilung und die beste zufällige Aufteilung. Der Algorithmus bestimmt anhand ihrer Kapazität zur Reduzierung von Verunreinigungen, welche Knoten am besten geeignet sind. |
| best |
Name | Beschreibung | Optionen | Standard |
bootstrap | Mit der Bootstrapping-Methode, der Bagging-Grundlage, werden dem Dataset Stichproben für Trainingszwecke entnommen. Diese Methode erstellt iterative Teilstichproben Ihres Datasets, um neue, bisher unbekannte Daten zu simulieren, mit denen Sie die Generalisierungsfähigkeit Ihres Modells verbessern können. |
| On |
criterion | Verwenden Sie den Parameter criterion , um eine Methode auszuwählen, mit der Sie messen können, wie gut der Forest-Zufallsfunktions-Algorithmus Ihre Daten in verschiedene Knoten aufteilt, die die vielen unterschiedlichen Bäume in Ihrer Zufallsfunktion umfassen. |
| mse |
max_depth | max_depth (Max. Tiefe) ist der längste Weg der Wurzel zum Blatt für jeden Baum im Forest. Tiefere Bäume umfassen mehr Aufteilungen und beinhalten mehr Informationen über die Daten. |
| none |
max_features | max_features (Max. Eigenschaften) legt die maximale Anzahl von Eigenschaften fest, die jeder Entscheidungsbaum im Forest bei der Suche nach der besten ersten Teilung berücksichtigt. |
| auto |
min_impurity_decrease | min_impurity_decrease (Min. Unreinheitsreduzierung) legt den Mindestschwellenwert für die Reduzierung der Unreinheit fest, der erforderlich ist, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt werden kann. Es kommt also zu einer Aufteilung, bei der die Verunreinigung um einen Betrag verringert wird, der gleich oder größer als min_impurity_decrease . Verwenden Sie den criterion -Parameter, um anzugeben, wie Sie die Verunreinigungsreduzierung messen möchten. | Beliebige Gleitkommazahl (float). | 0.0 |
min_samples_split | min_samples_split (Min. Stichprobenaufteilung) legt den Mindestschwellenwert an Stichproben fest, der für die Aufteilung des Entscheidungsbaums in einen neuen Knoten erforderlich ist. Der Algorithmus kann eine Stichprobe oder alle Stichproben berücksichtigen. | Beliebige Ganzzahl (int) oder Gleitkommazahl (float). | int : 2 |
min_weight_fraction_leaf | min_weight_fraction_leaf (Min. Gewichtsanteil Blatt) ist der erforderliche Mindestschwellenwert für die Gewichtung, damit der Entscheidungsbaum in einen neuen Knoten aufgeteilt werden kann. Dieser Schwellenwert entspricht dem Mindestanteil der Gesamtgewichte aller Proben. Der Algorithmus der Forest-Zufallsfunktion geht standardmäßig von gleichen Gewichtungen aus. | Beliebige Gleitkommazahl (float). | 0.0 |
n_estimators | n_estimators ist die Anzahl der Bäume, die Sie als Teil des Forests erstellen möchten. | Beliebige Ganzzahl (int). | 100 |
random_state | random_state gibt den Startwert für die Generierung einer Pseudozufallssequenz an. Wenn Sie none auswählen, wählt ein Zufallszahlengenerator eine Startnummer aus. |
| Int : 10 |