Entscheidungsbaum-Tool
One-Tool-Beispiel
Für das Befehl-ausführen-Tool gibt es ein One-Tool-Beispiel. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.
Das Entscheidungsbaum-Tool erstellt eine Reihe von Wenn-Dann-Aufteilungsregeln zur Optimierung der Modellerstellungskriterien auf der Grundlage von Entscheidungsbaum-Lernmethoden. Die Entscheidungsbaum-Regelbildung basiert auf dem Zielfeldtyp.
Wenn das Zielfeld Teil einer kategorialen Menge ist, wird ein Klassifizierungsbaum erstellt.
Wenn das Zielfeld eine fortlaufende Variable ist, wird ein Regressionsbaum erstellt.
Use the Decision Tree tool when the target field is predicted using one or more variable fields, like a classification or continuous target regression problem.
Dieses Tool verwendet das R-Tool. Navigieren Sie zu OptionenPrognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Prognose-Tools herunterladen und verwenden.
Eingabe verbinden
The Decision Tee tool requires an input with...
einem Zielfeld von Interesse
zwei oder mehr Prognosefeldern
Die Pakete, die in der Modellschätzung verwendet werden, variieren je nach Eingabedaten-Strom.
Ein Alteryx-Datenstrom verwendet die Open-Source-R gbm-Funktion.
Ein XDF-Metadatenstrom, der entweder von einem XDF-Eingabe-Tool oder einem XDF-Ausgabe-Tool stammt, verwendet die RevoScaleR rxBTrees-Funktion.
Daten aus einem datenbankinternen SQL Server-Datenstrom verwenden die rxBTrees-Funktion.
Die Installation von Microsoft Machine Learning Server nutzt die RevoScaleR rxBTrees-Funktion für Ihre Daten in Ihren SQL Server- oder Teradata-Datenbanken. Dies erfordert, dass der lokale Computer und der Server mit Microsoft Machine Learning Server konfiguriert werden. Dies ermöglicht die Verarbeitung auf dem Datenbankserver und führt zu einer erheblichen Leistungsverbesserung.
RevoScaleR Capabilities
Im Vergleich zu den Open-Source-R-Funktionen können RevoScaleR-basierte Funktionen viel größere Datasets analysieren. Die auf RevoScaleR basierende Funktion muss jedoch eine XDF-Datei erstellen, was die Overhead-Kosten erhöht, einen Algorithmus verwendet, der die Daten mehrfach durchläuft, was die Laufzeit verlängert, und manche Ausgaben der Modelldiagnose nicht erstellen kann.
Tool-Konfiguration für die Standardausführung
Diese Optionen sind erforderlich, um ein Boosted Model zu erstellen.
Modellname: Ein Name des Modells, auf welches andere Tools verweisen können. Der Modellname oder das Präfix muss mit einem Buchstaben beginnen und darf Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. R is case-sensitive.
Zielvariable auswählen: Das zu prognostizierende Datenfeld, auch als Antwort- oder abhängige Variable bekannt.
Prognosevariablen auswählen: Die Datenfelder, die verwendet werden, um den Wert der Zielvariable zu beeinflussen; wird auch als Eigenschaft oder unabhängige Variable bezeichnet. Es sind mindestens zwei Prognosefelder erforderlich, eine Obergrenze für die Anzahl der ausgewählten Prognosefelder besteht jedoch nicht. Die Zielvariable selbst sollte bei der Berechnung des Zielwerts nicht verwendet werden, daher sollte das Zielfeld nicht in die Prognosefelder aufgenommen werden. Spalten, die eindeutige Bezeichner enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Select Customize to adjust additional settings.
Anpassen des Modells
Model Tab
The options that change how the model evaluates data and is built.
Wählen Sie die Funktion „rpart“ aus oder die C5.0-Funktion. Subsequent options different depending on which algorithm you choose.
rpart: An algorithm based on the work of Breiman, Friedman, Olshen, and Stone; considered the standard. Use rpart if you are creating a regression model or if you need a pruning plot.
Model Type and Sampling Weights: Controls for the type of model based on the target variable and the handling of sampling weights.
Model Type: The type of model used to predict the target variable.
Auto: The model type is automatically selected based on the target variable type.
Prognostiziert einen diskreten Textwert einer Kategorie oder Gruppe
Regression: The model predicts continuous numeric values.
Stichprobengewichtung bei der Modellschätzung: Eine Option, mit der Sie ein Feld auswählen können, das die Wichtigkeit der einzelnen Datensätze bei der Erstellung einer Modellschätzung berücksichtigt.
Wenn ein Feld sowohl als Prognose als auch als Stichprobengewichtung verwendet wird, wird dem Variablenfeld für Ausgabegewichtung „Right_“ vorangestellt.
Splitting Criteria and Surrogates: Controls for how the model determines a split and how surrogates are used in assessing data patterns. The splitting criteria to use: Select the way the model evaluates when a tree should be split.
The splitting criteria when using a Regression model is always Least Squares.
Gini-Koeffizient
The Gini impurity is used.
Informationsindex
Wählen Sie die Methode für die Verwendung von Surrogaten im Aufteilungsprozess aus. Surrogates are variables related to the primary variable that are used to determine the split outcome for a record with missing information.
Omit observations with missing value for primary split rule: The record missing the candidate variable is not considered in determining the split.
Split records missing the candidate variable: All records missing the candidate variable are distributed evenly on the split.
Send observation in majority direction if all surrogates are missing: All records missing the candidate variable are pushed to the side of the split that contains more records.
Wählen Sie die Kriterien für die Auswahl der besten Variablen für die Aufteilung aus einem Satz möglicher Variablen aus.
Number of correct classifications for a candidate variable: Chooses the variable to split on based the total number of records that are correctly classified.
Percentage of correct classifications for a candidate variable Chooses the variable to split on based on the percentage of records that are correctly classified.
HyperParameters: Controls for the model's prior distribution. Adjust processing based on the prior distribution.
The minimum number of records needed to allow for a split: Set the number of records that must exist before a split occurs. Wenn weniger Datensätze vorhanden sind als die Mindestanzahl, sind keine weiteren Aufteilungen zulässig.
The allowed minimum number of records in a terminal node: Set the number of records that can be in a terminal node. Eine geringere Anzahl erhöht die potenzielle Anzahl finaler Endknoten am Ende des Baums.
The number of folds to use in the cross-validation to prune the tree: Set the number of groups (N) the data should be divided into when testing the model. Der Standardwert ist 10, aber auch 5 und 20 sind häufig verwendete Werte. Eine größere Anzahl Vervielfältigungen sorgt für mehr Genauigkeit des Baums, kann aber dazu führen, dass sich die Ausführung des Prozesses verlängert. Wenn der Baum durch die Verwendung eines Komplexitätsparameters beschnitten wird, wird mit der Kreuzvalidierung ermittelt, wie viele Aufteilungen, also Zweige, im Baum vorhanden sind. Bei der Kreuzvalidierung werden N – 1 der Vervielfältigungen verwendet, um ein Modell zu erstellen. Die verbleibende Vervielfältigung wird als Stichprobe verwendet, um die Anzahl der Zweige zu ermitteln, die am besten zur zurückgehaltenen Vervielfältigung passen, um eine Überanpassung zu vermeiden.
Wählen Sie die Anzahl der Zweigebenen aus, die ab dem Wurzelknoten bis zu dem davon am weitesten entfernten Knoten zulässig sind.
The maximum number of bins to use for each numeric variable: Enter the number of bins to use for each variable. Der Standardwert verwendet eine Formel, die auf der minimalen Anzahl von Datensätzen basiert, mit denen eine Aufteilung zulässig ist.
XDF Metadata Stream Only
Diese Option kommt nur zum Tragen, wenn es sich bei der Eingabe in das Tool um einen XDF-Metadatenstrom handelt. Die RevoScaleR-Funktion (rxDTree), in der der skalierbare Entscheidungsbaum implementiert ist, behandelt numerische Variablen über einen Binning-Prozess mit gleichen Intervallen, um die Berechnungskomplexität zu verringern.
Der Komplexitätsparameter steuert die Größe des Entscheidungsbaums. Ein kleinerer Wert führt zu mehr Zweigen im Baum, ein größerer Wert zu weniger. Wenn kein Komplexitätsparameter ausgewählt ist, wird dieser anhand der Kreuzvalidierung automatisch ermittelt.
C5.0: An algorithm based on the work of Quinlan; use C5.0 if your data is sorted into one of a small number of mutually exclusive classes. Properties that may be relevant to the class assignment are provided, although some data may have unknown or non-applicable values.
Structural Options: Controls for the model's structure. By default, the model is structured as a decision tree.
Decomposetree into rule-based model: Change the structure of the output algorithm from a decision tree into a collection of unordered, simple if-then rules. Select Threshold number of bands to group rules into to Select a number of bands to group rules into where the number set is the band threshold.
Detailed Options: Controls for the model's splits and features.
Model should evaluate groups of discrete predictors for splits: Group categorical predictor variables together. Select to reduce overfitting when there are important discrete attributes that have more than four or five values.
Winnow für Prognose verenden (d. h. Funktionsauswahl): Vereinfacht das Modell durch Ausschluss von nicht nützlichen Prädiktoren
Prune tree: Select to simplify the tree to reduce overfitting by removing tree splits.
Evaluate advanced splits in the data: Select to perform evaluations with secondary variables to confirm what branch is the most accurate prediction.
Evaluiert, ob Boosting-Iterationen ineffektiv werden. Wenn dies der Fall ist, wird das Boosting gestoppt.
Numerical Hyperparameters: Controls for the model's prior distribution that are based on a numeric value.
Select number of boosting iterations: Select a 1 to use a single model.
Dies entspricht dem Komplexitätsparameter von rpart.
Select number of samples that must be in at least 2 splits: A larger number gives a smaller, more simplified, tree.
Percent of data held from training for model evaluation: Select the portion of the data used to train the model. Verwenden Sie den Standardwert 0, um alle Daten für das Training des Modells zu verwenden. Wählen Sie einen höheren Wert aus, um diesen Prozentsatz der Daten nicht beim Training und der Evaluierung der Modellgenauigkeit zu verwenden.
Select random seed for algorithm: Select the value of the seed. Der Wert muss eine positive Ganzzahl sein.
Cross-validation Tab
Kreuzvalidierung: Validierungsmethode mit effizienter Nutzung der verfügbaren Informationen.
Select Use cross-validation to determine estimates of model quality to perform cross-validation to obtain various model quality metrics and graphs. Einige Metriken und Diagramme werden in der statischen Ausgabe R angezeigt, während andere in der interaktiven Ausgabe I erscheinen.
Anzahl Folds der Kreuzvalidierung: Die Anzahl der Teilstichproben, in die die Daten zur Validierung oder zum Training unterteilt werden. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Number of cross-validation trials: The number of times the cross-validation procedure is repeated. Die Aufteilungen werden in jedem Test anders ausgewählt und für die Gesamtergebnisse der einzelnen Tests wird ein Durchschnittswert gebildet. Eine höhere Anzahl Aufteilungen führt zu stabileren Schätzungen der Modellqualität. Weniger Aufteilungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Zufälliger Startwert: Ein Wert, der die Reihenfolge der Ziehungen für die zufälligen Stichproben bestimmt. Dies bedeutet, dass die gleichen Datensätze innerhalb der Daten ausgewählt werden, wobei die Auswahlmethode zufällig und nicht datenabhängig ist. Use Select value of random seed for cross-validation toselect the value of the seed. Der Wert muss eine positive Ganzzahl sein.
Plots Tab
Select and configure what graphs appear in the output report.
Zeigt einen Übersichtsbericht des Modells aus dem Ausgabe-R-Anker an Standardmäßig ausgewählt.
Tree Plot: A graph of decision tree variables and branches. Use the Display tree plot toggle to include a graph of decision tree variables and branches in the model report output.
Zeigt die Baumzweige mit gleicher Länge oder proportional zur relativen Wichtigkeit einer Aufteilung für die Prognose des Ziels an
Leaf summary: Determine what is displayed on the final leaf nodes in the tree plot. Select Counts if the number of records is displayed. Select Proportions if the percentage of total records is displayed.
Plot size: Select if the graph is displayed in Inches or Centimeters.
Width: Set the width of the graph using the unit selected in Plot size.
Height: Set the height of the graph using the unit selected in Plot size.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.
Prune Plot: A simplified graph of the decision tree.
Use a prune plot in the report
Zeigt ein vereinfachtes Diagramm des Entscheidungsbaums in der Modellberichtausgabe an
Plot size: Select if the graph is displayed in Inches or Centimeters.
Width: Set the width of the graph using the unit selected in Plot size.
Height: Set the height of the graph using the unit selected in Plot size.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Zoll aus: 1X (96 dpi), 2x (192 dpi) oder 3X (288 dpi). Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm. Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.
Tools für In-DB-Verarbeitung konfigurieren
Das „Entscheidungsbaum“-Tool unterstützt die datenbankinterne Verarbeitung in Microsoft SQL Server 2016 und Teradata. Weitere Informationen zu In-DB-Support und -Tools finden Sie unter In-Datenbank – Übersicht.
Wenn ein „Entscheidungsbaum“-Tool im Canvas platziert wird, in dem sich ein „In-DB“-Tool befindet, wechselt das Tool automatisch zur In-DB-Version. Um die Version des Tools zu ändern, klicken Sie mit der rechten Maustaste auf das Tool, zeigen Sie auf „Tool-Version auswählen“ und klicken Sie anschließend auf eine andere Version des Tools. Weitere Informationen zur Unterstützung von In-DB-Prognosen finden Sie unter Predictive Analytics.
Erforderliche-Parameter-Registerkarte
Modellname: Jedes Modell muss über einen Namen verfügen, um das Modell später identifizieren zu können.
A specific model name: Enter The model name you wish to use for the model. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Automatically generate a model name: Designer automatically generates a model name that meets the required parameters.
Zielvariablen auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll.
Prognosevariablen auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen „verursachen“. Spalten, die eindeutige Bezeichner enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Use sampling weights in model estimation (Optional): Select to choose a field from the input data stream to use for sampling weight.
Klicken Sie auf das Kontrollkästchen, und wählen Sie dann ein Gewichtungsfeld im Datenstrom aus, um ein Modell abzuschätzen, das eine Stichprobengewichtung anwendet. A field is used as both a predictor and the weight variable. The weight variable appears in the model call in the output with the string "Right_" prepended to it.
Modellanpassung-Registerkarte
Model type: Select what type of model is going to be used.
Classification: A model to predict a categorical target. If using a classification model, also select the splitting criteria.
Gini-Koeffizient
Entropy-based Information index
Regression: A model to predict a continuous numeric target.
Wenn entlang eines Satzes von Zweigen eines Baums weniger Datensätze vorhanden sind als die ausgewählte Mindestanzahl, sind keine weiteren Aufteilungen zulässig.
Dieser Parameter steuert, wie Aufteilungen ausgeführt werden (d. h. die Anzahl der im Baum vorhandenen Zweige). Der Wert muss kleiner als 1 sein. Je kleiner der Wert ist, desto mehr Zweige enthält der endgültige Baum. Wenn für den Wert „Automatisch“ oder kein Wert angegeben wird, wird der „beste“ Komplexitätsparameter über eine Kreuzvalidierung ausgewählt.
The allowed minimum number of records in a terminal node: The smallest number of records that must be contained in a terminal node. Je kleiner diese Zahl ist, desto größer ist die potenzielle Anzahl der finalen Endknoten.
Diese Gruppe von Optionen steuert, wie Datensätze mit fehlenden Daten in den Prognosevariablen bei einer bestimmten Aufteilung behandelt werden. Die erste Auswahlmöglichkeit besteht darin, einen Datensatz auszulassen (zu entfernen), wenn in der bei der Aufteilung verwendeten Variablen ein Wert fehlt. Die zweite Möglichkeit besteht in der Verwendung von Ersatzaufteilungen, bei denen die Richtung, in die ein Datensatz gesendet wird, auf alternativen Aufteilungen mit einer oder mehreren anderen Variablen mit annähernd denselben Ergebnissen basiert. Die dritte Möglichkeit besteht darin, die Beobachtung bei der Aufteilung in die Hauptrichtung zu senden.
Eine Beobachtung mit einem fehlenden Wert für die primäre Aufteilungsregel auslassen
Ersatzdaten (Surrogates) verwenden, um Datensätze ohne die Kandidatenvariable aufzuteilen
Wenn alle Surrogate fehlen, die Beobachtung in die Hauptrichtung senden
Die Gesamtzahl der korrekten Klassifikationen für eine potenzielle Kandidatenvariable
Der korrekt über die nicht fehlenden Werte einer Kandidatenvariablen berechnete Prozentsatz
The number of folds to use in the cross validation to prune the tree: When the tree is pruned through the use of a complexity parameter, cross validation is used to determine how many splits, thus branches, are in the tree. Hierzu wird die Kreuzvalidierung verwendet, wobei N – 1 der Vervielfältigungen verwendet werden, um ein Modell zu erstellen. Die N. Vervielfältigung wird als Stichprobe verwendet, um die Anzahl der Zweige zu ermitteln, die am besten zur zurückgehaltenen Vervielfältigung passen, um eine Überanpassung zu vermeiden. Der Benutzer kann die Anzahl der Gruppen (N) anpassen, in die die Daten unterteilt werden. Der Standardwert ist 10, aber auch 5 und 20 sind häufig verwendete Werte.
Diese Option beschränkt die Gesamtgröße des Baums, indem sie die Anzahl der Ebenen festlegt, die vom Wurzelknoten bis zu dem davon am weitesten entfernten Knoten zulässig sind.
Die RevoScaleR-Funktion (rxDTree), in der der skalierbare Entscheidungsbaum implementiert ist, behandelt numerische Variablen über einen Binning-Prozess mit gleichen Intervallen, um die Berechnungskomplexität zu verringern. Hierbei werden die Standardoptionen verwendet, d. h. eine Formel, die auf der minimalen Anzahl der Datensätze basiert, die benötigt werden, damit eine Aufteilung zulässig ist. Dies kann jedoch auch manuell durch den Benutzer festgelegt werden. Diese Option kommt nur in Fällen zum Tragen, in denen es sich bei der Eingabe in das Tool um einen XDF-Metadatenstrom handelt.
Diagramm-Optionen-Registerkarte
Dieser Satz Optionen steuert verschiedene Optionen für das Plotten eines Entscheidungsbaums.
Die erste dieser Optionen ist die Art der Blattübersicht. Diese Option steuert, ob in den finalen Blattknoten des Baumplots Zählungen oder Proportionen gedruckt werden.
Anzahl
Proportionen
Die zweite Option legt fest, ob einheitliche Zweigabstände verwendet werden. Diese Option steuert, ob die Länge der gezeichneten Baumzweige die relative Wichtigkeit einer Aufteilung für die Prognose des Ziels reflektiert oder ob im Baumplot eine einheitliche Länge ausgegeben wird.
Plot size: Set the dimensions of the output tree plot.
Inches: Set the Width and Height of the plot.
Centimeters: Set the Width and Height of the plot.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Die Größe der Schriftart in Punkten.
Zeigt ein vereinfachtes Diagramm des Entscheidungsbaums in der Modellberichtausgabe an
Plot size: Select if the graph is displayed in Inches or Centimeters.
Width: Set the width of the graph using the unit selected in Plot size.
Height: Set the height of the graph using the unit selected in Plot size.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.
Ausgabe anzeigen
Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.
O-Anker: Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an.
R-Anker: Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Diagramme enthält.
Zeigt ein interaktives Dashboard mit unterstützendem Bildmaterial an, in dem Sie zoomen, den Mauszeiger bewegen und klicken können
Expected Behavior: Plot Precision
When using the Decision Tree tool for standard processing, the Interactive output shows greater precision with numeric values than the Report output.