One-Tool-Beispiel
Für das Entscheidungsbaum-Modell-Tool gibt es ein One-Tool-Beispiel. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.
Mit dem Entscheidungsbaum-Modell-Tool können Sie eine Reihe von Wenn-Dann-Aufteilungsregeln zur Optimierung der Modellerstellungskriterien auf der Grundlage von Entscheidungsbaum-Lernmethoden erstellen. Die Regelbildung basiert auf dem Zielfeldtyp:
Wenn das Zielfeld Teil eines Kategoriesatzes ist, wird ein Klassifizierungsbaum erstellt.
Wenn das Zielfeld eine fortlaufende Variable ist, wird ein Regressionsbaum erstellt.
Verwenden Sie das Entscheidungsbaum-Modell-Tool, wenn das Zielfeld mit einem oder mehreren Variablenfeldern vorhergesagt wird, wie z. B. einer Klassifizierung oder einem kontinuierlichen Zielregressionsproblem.
Dieses Tool verwendet das R-Tool. Navigieren Sie zu Optionen > Prognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Prognose-Tools herunterladen und verwenden.
Das Entscheidungsbaum-Modell-Tool erfordert eine Eingabe mit ...
einem Zielfeld von Interesse
einem oder mehr Prognosefeldern
Die Pakete, die in der Modellschätzung verwendet werden, variieren je nach Eingabedaten-Strom.
Ein Alteryx-Datenstrom verwendet die Open-Source-R rpart-Funktion.
Ein XDF-Metadatenstrom, der entweder von einem XDF-Eingabe- oder einem XDF-Ausgabe-Tool stammt, verwendet die RevoScaleR rxBTrees-Funktion.
Daten aus einem datenbankinternen SQL Server-Datenstrom verwenden die rxBTrees-Funktion.
Die Installation von Microsoft Machine Learning Server nutzt die RevoScaleR rxBTrees-Funktion für Ihre Daten in Ihren SQL Server- oder Teradata-Datenbanken. Dazu müssen der lokale Rechner und der Server mit Microsoft Machine Learning Server konfiguriert werden, was die Verarbeitung auf dem Datenbankserver ermöglicht und zu einer erheblichen Leistungssteigerung führt.
RevoScaleR-Funktionen
Im Vergleich zu den Open-Source-R-Funktionen können RevoScaleR-basierte Funktionen viel größere Datasets analysieren. Die auf RevoScaleR basierende Funktion muss jedoch eine XDF-Datei erstellen, was die Overhead-Kosten erhöht, einen Algorithmus verwendet, der die Daten mehrfach durchläuft, was die Laufzeit verlängert, und manche Ausgaben der Modelldiagnose nicht erstellen kann.
Diese Optionen sind erforderlich, um eine Entscheidung zu erzeugen.
Typmodellname: Ein Name des Modells, auf welches andere Tools verweisen können. Der Modellname oder das Präfix muss mit einem Buchstaben beginnen und darf Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielvariable auswählen: Das zu prognostizierende Datenfeld, auch als Antwort- oder abhängige Variable bekannt.
Prognosevariablen auswählen: Die Datenfelder, die verwendet werden, um den Wert der Zielvariable zu beeinflussen. Dies wird auch als Eigenschaft oder unabhängige Variable bezeichnet. Es ist mindestens ein Prognosefeld erforderlich, eine Obergrenze für die Anzahl der ausgewählten Prognosefelder besteht jedoch nicht. Die Zielvariable selbst sollte bei der Berechnung des Zielwerts nicht verwendet werden, daher sollte das Zielfeld nicht in die Prognosefelder aufgenommen werden. Spalten, die eindeutige Kennungen enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Wählen Sie Anpassen, um weitere Einstellungen anzupassen.
Die Optionen, die die Art und Weise ändern, wie das Modell Daten bewertet und erstellt.
Algorithmus auswählen: Wählen Sie die Funktion rpart oder die C5.0-Funktion aus. Die nachfolgenden Optionen unterscheiden sich je nach ausgewähltem Algorithmus.
rpart: Ein Algorithmus, der auf der Arbeit von Breiman, Friedman, Olshen und Stone basiert gilt als Standard. Verwenden Sie rpart, wenn Sie ein Regressionsmodell erstellen oder ein Vereinfachungs-Diagramm benötigen.
Modelltyp und Stichprobengewichtungen: Steuert den Modelltyp basierend auf der Zielvariablen und der Handhabung von Probengewichtungen.
Modelltyp: Der Modelltyp, der zur Vorhersage der Zielvariable verwendet wird.
Automatisch: Der Modelltyp wird automatisch basierend auf dem Zielvariablentyp ausgewählt.
Klassifizierung: Das Modell prognostiziert einen diskreten Textwert einer Kategorie oder Gruppe.
Regression: Das Modell prognostiziert kontinuierliche numerische Werte.
Stichprobengewichtung bei der Modellschätzung: Eine Option, mit der Sie ein Feld auswählen können, das die Wichtigkeit der einzelnen Datensätze berücksichtigt und den Datensatz bei der Erstellung einer Modellschätzung entsprechend gewichtet.
Wenn ein Feld sowohl als Prognose als auch als Stichprobengewichtung verwendet wird, wird dem Ausgabefeld die Gewichtungsvariable "Right_" vorangestellt.
Aufteilungskriterien und Ersatzelemente: Steuert, wie das Modell eine Aufteilung bestimmt und wie Ersatzelemente bei der Bewertung von Datenmustern verwendet werden. Die zu verwendenden Aufteilungskriterien: Wählen Sie aus, wie das Modell bewertet, wann ein Baum geteilt werden soll.
Die Aufteilungskriterien bei Verwendung eines Regressionsmodells sind immer die kleinsten Quadrate.
Gini-Koeffizient
Die Gini Impurity wird verwendet.
Informationsindex
Ersatzelemente verwenden für: Wählen Sie die Methode für die Verwendung von Ersatzelementen im Aufteilungsprozess aus. Ersatzelemente sind Variablen, die sich auf die primäre Variable beziehen und zur Bestimmung des Aufteilungsergebnisses für einen Datensatz mit fehlenden Informationen verwendet werden.
Beobachtungen mit fehlendem Wert für primäre Aufteilungsregel auslassen: Der Datensatz, bei dem die Kandidatenvariable fehlt, wird bei der Ermittlung der Aufteilung nicht berücksichtigt.
Aufteilungsdatensätze ohne Kandidatenvariable: Alle Datensätze, bei denen die Kandidatenvariable fehlt, werden bei der Aufteilung gleichmäßig verteilt.
Beobachtung in Mehrheitsrichtung senden, wenn alle Ersatzdaten fehlen: Alle Datensätze, bei denen die Kandidatenvariable fehlt, werden auf die Seite der Aufteilung verschoben, die mehr Datensätze enthält.
Beste Ersatzaufteilung auswählen unter Verwendung: Wählen Sie die Kriterien für die Auswahl der besten Variablen für die Aufteilung aus einem Satz möglicher Variablen aus.
Anzahl der korrekten Klassifizierungen für eine Kandidatenvariable: Wählt die aufzuteilende Variable basierend auf der Gesamtanzahl der korrekt klassifizierten Datensätze aus.
Prozentsatz der korrekten Klassifizierungen für eine Kandidatenvariable: Wählt die aufzuteilende Variable basierend auf dem Prozentsatz der korrekt klassifizierten Datensätze aus.
Hyperparameter: Steuert die vorherige Verteilung des Modells. Passen Sie die Verarbeitung basierend auf der vorherigen Verteilung an.
Die Mindestanzahl an Datensätzen, die für eine Aufteilung erforderlich ist: Legen Sie die Anzahl der Datensätze fest, die vorhanden sein muss, bevor eine Aufteilung erfolgt. Wenn weniger Datensätze vorhanden sind als die Mindestanzahl, sind keine weiteren Aufteilungen zulässig.
Die zulässige Mindestanzahl an Datensätzen in einem Endknoten: Legen Sie die Anzahl der Datensätze fest, die sich in einem Endknoten befinden können. Eine geringere Anzahl erhöht die potenzielle Anzahl finaler Endknoten am Ende des Baums.
Die Anzahl der Vervielfältigungen, die bei der Kreuzvalidierung zum Vereinfachen des Baums verwendet werden: Legen Sie die Anzahl der Gruppen fest (N), in die die Daten beim Testen des Modells aufgeteilt werden sollen. Der Standardwert ist 10, aber auch 5 und 20 sind häufig verwendete Werte. Eine größere Anzahl Vervielfältigungen sorgt für mehr Genauigkeit des Baums, kann aber dazu führen, dass sich die Verarbeitung verlängert. Wenn der Baum durch die Verwendung eines Komplexitätsparameters beschnitten wird, wird mit der Kreuzvalidierung ermittelt, wie viele Aufteilungen, also Zweige, im Baum vorhanden sind. Bei der Kreuzvalidierung werden N – 1 der Vervielfältigungen verwendet, um ein Modell zu erstellen. Die verbleibende Vervielfältigung wird als Stichprobe verwendet, um die Anzahl der Zweige zu ermitteln, die am besten zur zurückgehaltenen Vervielfältigung passen, um eine Überanpassung zu vermeiden.
Die maximal zulässige Tiefe eines Knotens im endgültigen Baum: Legen Sie die Anzahl der Ebenen von Verzweigungen fest, die vom Root-Knoten zum am weitesten entfernten Knoten vom Root zulässig sind, um die Gesamtgröße des Baumes zu begrenzen.
Die maximale Anzahl von Bins, die für jede numerische Variable verwendet werden sollen: Geben Sie die Anzahl der Bins ein, die für jede Variable verwendet werden sollen. Standardmäßig wird der Wert basierend auf der minimalen Anzahl von Datensätzen berechnet, mit denen eine Aufteilung zulässig ist.
Nur XDF-Metadatenstream
Diese Option kommt nur zum Tragen, wenn es sich bei der Eingabe in das Tool um einen XDF-Metadatenstrom handelt. Die RevoScaleR-Funktion (rxDTree), in der der skalierbare Entscheidungsbaum implementiert ist, behandelt numerische Variablen über einen Binning-Prozess mit gleichen Intervallen, um die Berechnungskomplexität zu verringern.
Komplexitätsparameter einstellen: Der Komplexitätsparameter steuert die Größe des Entscheidungsbaums. Ein kleinerer Wert führt zu mehr Zweigen im Baum, ein größerer Wert zu weniger. Wenn kein Komplexitätsparameter ausgewählt ist, wird dieser anhand der Kreuzvalidierung automatisch ermittelt.
C5.0: Ein Algorithmus, der auf der Arbeit von Quinlan basiert; verwenden Sie C5.0, wenn Ihre Daten in eine kleine Anzahl sich gegenseitig ausschließender Klassen sortiert sind. Eigenschaften, die für die Klassenzuordnung relevant sein können, werden bereitgestellt, obwohl einige Daten unbekannte oder nicht anwendbare Werte aufweisen können.
Strukturelle Optionen: Steuerelemente für die Modellstruktur. Standardmäßig ist das Modell als Entscheidungsbaum strukturiert.
Baum in regelbasiertes Modell zerlegen: Ändern Sie die Struktur des Ausgabealgorithmus aus einem Entscheidungsbaum in eine Sammlung von nicht geordneten, einfachen Wenn-dann-Regeln. Wählen Sie Schwellenwertanzahl der Bänder, in die Regeln gruppiert werden sollen, um Eine Anzahl von Gruppen auszuwählen, in die Regeln gruppiert werden sollen, wobei die eingestellte Zahl der Bandschwellenwert ist.
Detaillierte Optionen: Steuerelemente für die Aufteilungen und Funktionen des Modells.
Das Modell soll Gruppen von diskreten Prädiktoren für Aufteilungen auswerten: Kategorische Prognosevariablen zusammen gruppieren. Wählen Sie diese Option aus, um die Überanpassung zu reduzieren, wenn es wichtige diskrete Attribute mit mehr als vier oder fünf Werten gibt.
Winnow für Prognose verenden (d. h. Funktionsauswahl): Vereinfacht das Modell durch Ausschluss von nicht nützlichen Prädiktoren.
Baumstruktur vereinfachen: Wählen Sie diese Option aus, um den Baum zu vereinfachen und Überanpassen durch Entfernen von Baumaufteilungen zu reduzieren.
Erweiterte Aufteilungen in den Daten auswerten: Wählen Sie diese Option, um Auswertungen mit sekundären Variablen durchzuführen, um zu bestätigen, welcher Zweig die genaueste Prognose ist.
Stopping-Methode für Boosting verwenden: Evaluiert, ob Boosting-Iterationen ineffektiv werden. Wenn dies der Fall ist, wird das Boosting gestoppt.
Numerische Hyperparameter: Steuerelemente für die vorherige Verteilung des Modells, die auf einem numerischen Wert basiert.
Anzahl der Boosting-Iterationen auswählen: Wählen Sie eine 1 aus, um ein einzelnes Modell zu verwenden.
Konfidenzfaktor auswählen: Dies entspricht dem Komplexitätsparameter von rpart.
Wählen Sie die Anzahl der Proben aus, die in mindestens zwei Aufteilungen liegen müssen: Eine größere Zahl ergibt einen kleineren, vereinfachten Baum.
Prozentsatz der Daten, die während des Trainings zur Modellbewertung gespeichert wurden: Wählen Sie den Teil der Daten aus, der zum Trainieren des Modells verwendet wird. Verwenden Sie den Standardwert 0, um alle Daten für das Training des Modells zu verwenden. Wählen Sie einen höheren Wert aus, um diesen Prozentsatz der Daten nicht beim Training und der Evaluierung der Modellgenauigkeit zu verwenden.
Zufälligen Startwert für Algorithmus auswählen: Wählen Sie den Wert des Startwerts aus. Der Wert muss eine positive Ganzzahl sein.
Steuerelemente für die Anpassung einer Validierungsmethode mit effizienter Nutzung der verfügbaren Informationen.
Wählen Sie Kreuzvalidierung verwenden, um Schätzungen der Modellqualität zu bestimmen, um eine Kreuzvalidierung durchzuführen und verschiedene Modellqualitätsmetriken und -Diagramme zu erhalten. Einige Metriken und Diagramme werden in der Ausgabe R angezeigt, während andere in der Ausgabe I erscheinen.
Anzahl Vervielfältigungen der Kreuzvalidierung: Die Anzahl der Teilstichproben, in die die Daten zur Validierung oder zum Training unterteilt werden. Eine höhere Anzahl Vervielfältigungen führt zu stabileren Schätzungen der Modellqualität. Weniger Vervielfältigungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Anzahl Quervalidierungsversuche: Die Anzahl der Wiederholungen des Quervalidierungsverfahrens. Die Vervielfältigungen werden in jedem Test anders ausgewählt und für die Gesamtergebnisse der einzelnen Tests wird ein Durchschnittswert gebildet. Eine höhere Anzahl Vervielfältigungen führt zu stabileren Schätzungen der Modellqualität. Weniger Vervielfältigungen resultieren jedoch in einer schnelleren Ausführung des Tools.
Zufälliger Startwert: Ein Wert, der die Reihenfolge der Ziehungen für die zufälligen Stichproben bestimmt. Dies bedeutet, dass die gleichen Datensätze innerhalb der Daten ausgewählt werden, obwohl die Auswahlmethode zufällig und nicht datenabhängig ist. Verwenden Sie Wert für zufälligen Startwert für Kreuzvalidierung auswählen, um den Wert des Startwerts auszuwählen. Der Wert muss eine positive Ganzzahl sein.
Wählen und konfigurieren Sie, welche Diagramme im Ausgabebericht angezeigt werden.
Statischen Bericht anzeigen: Zeigt einen Übersichtsbericht des Modells aus dem Ausgabe-R-Anker an Standardmäßig ausgewählt.
Baumdiagramm: Ein Diagramm der Entscheidungsbaumvariablen und -zweige. Verwenden Sie den Schalter Baumdarstellung anzeigen, um ein Diagramm der Entscheidungsbaumvariablen und -zweige in die Modellberichtsausgabe aufzunehmen.
Einheitliche Zweigabstände: Zeigt die Baumzweige mit gleicher Länge oder proportional zur relativen Wichtigkeit einer Aufteilung für die Prognose des Ziels an.
Blattübersicht: Legen Sie fest, was auf den End-Blattknoten in der Baumdarstellung angezeigt wird. Wählen Sie Anzahl, wenn die Anzahl der Datensätze angezeigt werden soll. Wählen Sie Proportionen , wenn der Prozentsatz der gesamten Datensätze angezeigt wird.
Diagrammgröße: Wählen Sie aus, ob das Diagramm in Zoll oder Zentimetern angezeigt werden soll.
Breite: Legen Sie die Breite des Diagramms mit der unter Diagrammgröße ausgewählten Einheit fest.
Höhe: Legen Sie die Höhe des Diagramms mit der unter Diagrammgröße ausgewählten Einheit fest.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.
Diagramm vereinfachen: Ein vereinfachtes Diagramm des Entscheidungsbaums.
Vereinfachtes Diagramm im Bericht verwenden
Vereinfachtes Diagramm anzeigen: Zeigt ein vereinfachtes Diagramm des Entscheidungsbaums in der Modellberichtausgabe an.
Diagrammgröße: Wählen Sie aus, ob das Diagramm in Zoll oder Zentimetern angezeigt werden soll.
Breite: Legen Sie die Breite des Diagramms mit der unter Diagrammgröße ausgewählten Einheit fest.
Höhe: Legen Sie die Höhe des Diagramms mit der unter Diagrammgröße ausgewählten Einheit fest.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Zoll aus: 1X (96 dpi), 2x (192 dpi) oder 3X (288 dpi). Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm. Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.
Das „Entscheidungsbaum“-Tool unterstützt die datenbankinterne Verarbeitung in Microsoft SQL Server 2016 und Teradata. Weitere Informationen zu In-DB-Support und -Tools finden Sie unter In-Datenbank – Übersicht.
Wenn ein Entscheidungsbaum-Modell-Tool im Canvas platziert wird, in dem sich ein In-DB-Tool befindet, wechselt das Tool automatisch zur In-DB-Version. Um die Version des Tools zu ändern, klicken Sie mit der rechten Maustaste auf das Tool, zeigen Sie auf „Tool-Version auswählen“ und klicken Sie anschließend auf eine andere Version des Tools. Sie finden weitere Informationen zur Unterstützung von In-DB-Prognosen unter Predictive Analytics.
Modellname: Jedes Modell muss über einen Namen verfügen, um das Modell später identifizieren zu können.
Spezifischer Modellname: Geben Sie den Modellnamen ein, den Sie für das Modell verwenden möchten. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Modellnamen automatisch erzeugen: Der Designer erzeugt automatisch einen Modellnamen, der den erforderlichen Parametern entspricht.
Zielvariablen auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll.
Prognosevariablen auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen „verursachen“. Spalten, die eindeutige Kennungen enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Probengewichtungen bei der Modellschätzung verwenden (optional): Wählen Sie diese Option, um ein Feld aus dem Eingabedatenstrom für die Probengewichtung auszuwählen.
Probengewichtungsfeld auswählen: Klicken Sie auf das Kontrollkästchen, und wählen Sie dann ein Gewichtungsfeld im Datenstrom aus, um ein Modell abzuschätzen, das eine Probengewichtung anwendet. Ein Feld wird sowohl als Prädiktor als auch als Gewichtungsvariable verwendet. Die Gewichtungsvariable erscheint im Modellaufruf in der Ausgabe mit dem String „Right_“ vorangestellt.
Modelltyp: Wählen Sie aus, welcher Modelltyp verwendet werden soll.
Klassifizierung: Ein Modell zur Vorhersage eines kategorialen Ziels. Wenn Sie ein Klassifizierungsmodell verwenden, wählen Sie auch die Aufteilungskriterien aus.
Gini-Koeffizient
Entropie-basierter Informationsindex
Regression: Ein Modell zur Vorhersage eines kontinuierlichen numerischen Ziels.
Die Mindestanzahl von Datensätzen, die für eine Aufteilung erforderlich ist: Wenn entlang einer Gruppe von Zweigen eines Baumes weniger Datensätze als die ausgewählte Mindestanzahl von Datensätzen vorhanden sind, sind keine weiteren Aufteilungen zulässig.
Komplexitätsparameter: Dieser Parameter steuert, wie Aufteilungen ausgeführt werden (d. h. die Anzahl der im Baum vorhandenen Zweige). Der Wert muss kleiner als 1 sein. Je kleiner der Wert ist, desto mehr Zweige enthält der endgültige Baum. Ein Wert von „Auto“ oder das Weglassen eines Werts führt dazu, dass der „beste“ Komplexitätsparameter basierend auf der Kreuzvalidierung ausgewählt wird.
Die zulässige Mindestanzahl von Datensätzen in einem Endknoten: Die kleinste Anzahl von Datensätzen, die in einem Endknoten enthalten sein muss. Je kleiner diese Zahl ist, desto größer ist die potenzielle Anzahl der finalen Endknoten.
Ersatzverwendung: Diese Gruppe von Optionen steuert, wie Datensätze mit fehlenden Daten in den Prognosevariablen bei einer bestimmten Aufteilung behandelt werden. Die erste Auswahlmöglichkeit besteht darin, einen Datensatz auszulassen (zu entfernen), wenn in der bei der Aufteilung verwendeten Variablen ein Wert fehlt. Die zweite Möglichkeit besteht in der Verwendung von Ersatzaufteilungen, bei denen die Richtung, in die ein Datensatz gesendet wird, auf alternativen Aufteilungen mit einer oder mehreren anderen Variablen mit annähernd denselben Ergebnissen basiert. Die dritte Möglichkeit besteht darin, die Beobachtung bei der Aufteilung in die Hauptrichtung zu senden.
Eine Beobachtung mit einem fehlenden Wert für die primäre Aufteilungsregel auslassen
Ersatzdaten (Surrogates) verwenden, um Datensätze ohne die Kandidatenvariable aufzuteilen
Wenn alle Surrogate fehlen, die Beobachtung in die Hauptrichtung senden
Gesamtzahl der richtigen Klassifikationen für eine potenzielle Kandidatenvariable
Der korrekt über die nicht fehlenden Werte einer Kandidatenvariablen berechnete Prozentsatz
Die Anzahl der Vervielfältigungen, die bei der Kreuzvalidierung zum Vereinfachen des Baums verwendet werden: Wenn der Baum mithilfe eines Komplexitätsparameters bereinigt wird, wird die Kreuzvalidierung verwendet, um zu bestimmen, wie viele Aufteilungen, also Verzweigungen, sich im Baum befinden. Hierzu wird die Kreuzvalidierung verwendet, wobei N – 1 der Vervielfältigungen verwendet werden, um ein Modell zu erstellen. Die N. Vervielfältigung wird als Stichprobe verwendet, um die Anzahl der Zweige zu ermitteln, die am besten zur zurückgehaltenen Vervielfältigung passen, um eine Überanpassung zu vermeiden. Der Benutzer kann die Anzahl der Gruppen (N) anpassen, in die die Daten unterteilt werden. Der Standardwert ist 10, aber auch 5 und 20 sind häufig verwendete Werte.
Die maximal zulässige Tiefe von Knoten im endgültigen Baum: Diese Option beschränkt die Gesamtgröße des Baums, indem sie die Anzahl der Ebenen festlegt, die vom Root-Knoten bis zu dem davon am weitesten entfernten Knoten zulässig sind.
Die maximale Anzahl von Bins, die für jede numerische Variable verwendet werden können: Die RevoScaleR-Funktion (rxDTree), die den skalierbaren Entscheidungsbaum implementiert, verarbeitet numerische Variablen über einen gleichen Intervall-Binning-Prozess, um die Komplexität der Berechnung zu reduzieren. Hierbei werden die Standardoptionen verwendet, d. h. eine Formel, die auf der minimalen Anzahl der Datensätze basiert, die benötigt werden, damit eine Aufteilung zulässig ist. Dies kann jedoch auch manuell durch den Benutzer festgelegt werden. Diese Option kommt nur in Fällen zum Tragen, in denen es sich bei der Eingabe in das Tool um einen XDF-Metadatenstrom handelt.
Baumdiagramm: Dieser Satz Optionen steuert verschiedene Optionen für das Plotten eines Entscheidungsbaums.
Blattübersicht: Die erste dieser Optionen ist die Art der Blattübersicht. Diese Option steuert, ob in den finalen Blattknoten des Baumplots Zählungen oder Proportionen gedruckt werden.
Anzahl
Proportionen
Einheitliche Zweigabstände: Die zweite Option legt fest, ob einheitliche Zweigabstände verwendet werden. Diese Option steuert, ob die Länge der gezeichneten Baumzweige die relative Wichtigkeit einer Aufteilung für die Prognose des Ziels reflektiert oder ob im Baumplot eine einheitliche Länge ausgegeben wird.
Diagrammgröße: Legt die Bemaßungen des Ausgabebaumdiagramms fest.
Zoll: Legen Sie die Breite und Höhe des Diagramms fest.
Zentimeter: Legen Sie die Breite und Höhe des Diagramms fest.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Die Größe der Schriftart in Punkten.
Diagramm vereinfachen: Diese Option zeigt ein vereinfachtes Diagramm des Entscheidungsbaums in der Modellberichtausgabe an.
Diagrammgröße: Wählen Sie aus, ob das Diagramm in Zoll oder Zentimetern angezeigt werden soll.
Breite: Legen Sie die Breite des Diagramms mit der unter Diagrammgröße ausgewählten Einheit fest.
Höhe: Legen Sie die Höhe des Diagramms mit der unter Diagrammgröße ausgewählten Einheit fest.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.
Verbinden Sie ein Durchsuchen-Tool mit jedem Ausgabeanker, um Ergebnisse anzuzeigen.
O (Ausgabe): Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an.
R (Bericht): Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Diagramme enthält.
I (Interaktiv): Zeigt ein interaktives Dashboard mit unterstützendem Bildmaterial an, in dem Sie zoomen, den Mauszeiger bewegen und klicken können
Erwartetes Verhalten: Diagrammgenauigkeit
Wenn Sie das Entscheidungsbaum-Modell-Tool für die Standardverarbeitung verwenden, zeigt die interaktive Ausgabe eine größere Genauigkeit mit numerischen Werten als die Berichtsausgabe.