Skip to main content

Forest Model Tool Icon Forest-Modell-Tool

One-Tool-Beispiel

Es gibt ein One-Tool-Beispiel für das Forest-Modell-Tool. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.

Das Forest-Modell-Tool erstellt ein Modell, das eine Reihe von Entscheidungsbaum-Modellen entwickelt, um eine Zielvariable zu prognostizieren, die auf einer oder mehreren Prognosevariablen basiert. Die verschiedenen Modelle werden anhand von Zufallsstichproben der Originaldaten erstellt, ein Verfahren, das als „Bootstrapping“ bekannt ist. Darüber hinaus wird bei jeder Baumaufteilung nur eine begrenzte Anzahl von Variablen berücksichtigt, wobei die Anzahl entweder automatisch von R oder vom Benutzer festgelegt wird. Weitere Informationen finden Sie unter Forest-Zufallsfunktion.

Dieses Tool verwendet das R-Tool. Navigieren Sie zu OptionenPrognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Weitere Informationen finden Sie unter Prognose-Tools herunterladen und verwenden.

Tool-Konfiguration für die Standardausführung

Eingabe verbinden

Verbinden Sie einen Alteryx-Datenstrom oder einen XDF-Metadatenstrom mit einem relevanten Zielfeld sowie einem oder mehreren möglichen Prädiktorfeldern.

Wenn die Eingabedaten aus einem Alteryx-Datenstrom stammen, wird die Open-Source R-Funktion „randomForest“ (aus dem randomForest-Paket) für die Modellschätzung verwendet.

Wenn die Eingabedaten entweder von einem XDF-Ausgabe-Tool oder einem XDF-Eingabe-Tool stammen, wird die RevoScaleR-Funktion „rxDForest“ für die Modellschätzung verwendet. Der Vorteil der auf der RevoScaleR basierenden Funktion besteht darin, dass viel größere Datasets (Out-of-Memory) analysiert werden können. Dem gegenüber stehen jedoch der Zusatzaufwand für das Erstellen einer XDF-Datei und die Verwendung eines Algorithmus, der die Daten häufiger durchlaufen muss, um die einzelnen Bäume im Ensemble zu erstellen, (und daher viel langsamer ist) als die Open-Source-Funktion „randomForest“. Es wird daher dringend empfohlen, die Anzahl der Bäume im Ensemble von den standardmäßigen 500 Bäumen zu reduzieren.

Erforderliche Parameter

  • Modellname: Geben Sie einen Namen für das Modell ein, um das Modell identifizieren zu können, wenn in anderen Tools darauf verwiesen wird. Modellnamen müssen mit einem Buchstaben beginnen und können Buchstaben, Zahlen und die Sonderzeichen Punkt (.) und Unterstrich (_) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.

  • Zielvariable auswählen: Wählen Sie Daten aus, für die eine Prognose erstellt werden soll. Eine Zielvariable wird auch Antwortvariable oder abhängige Variable genannt.

  • Prädiktorvariablen auswählen: Wählen Sie die zu verwendenden Daten aus, um den Wert der Zielvariablen zu beeinflussen. Eine Prädiktorvariable ist auch bekannt als Funktionsvariable oder unabhängige Variable. Es können beliebig viele Prädiktorvariablen ausgewählt werden, die Zielvariable sollte jedoch nicht gleichzeitig eine Prädiktorvariable sein. Jede kategoriale Prädiktorvariable kann maximal 32 Klassen haben. Spalten, die eindeutige Bezeichner enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.

  • Anzahl der zu verwendenden Bäume: Geben Sie die Anzahl der in die Forest-Struktur einzubeziehenden Baummodelle ein. Der Standardwert ist „500“, basierend auf den Erkenntnissen von Breiman. Verringern Sie den Wert mit einem XDF-Metadatenstrom, wenn die Länge der Modelllaufzeit ein Problem darstellt.

  • Auswahl einer spezifischen Anzahl von Variablen, die in jeder Abteilung zu berücksichtigen sind: Aktivieren Sie dieses Kontrollkästchen und geben Sie die Anzahl der Variablen ein, die bei jeder Teilung berücksichtigt werden sollen.

Wählen Sie Modellanpassung aus, um die Modelleinstellungen zu ändern.

Modellanpassung

  • Gesamtgröße der einzelnen Modellbäume direkt begrenzen:

    • Die Gesamtzahl der zulässigen Knoten in einem Baum: Wählen Sie diese Option für Modelle aus, die das Open-Source-Modell „randomForest“ verwenden.

    • Die maximale Tiefe eines Modellbaums: Wählen Sie diese Option für Modelle aus, die die RevoScaleR-rxDForest-Funktion verwenden.

  • Zulässige Mindestanzahl von Datensätzen in einem Baumknoten: Geben Sie einen Wert ein oder verwenden Sie die Pfeiltasten nach oben oder nach unten, um die Größe des kleinsten zulässigen Endknotens in jedem Ensemblebaum zu steuern. Wenn Sie diese Zahl erhöhen, verringert sich die Gesamtzahl der Knoten in jedem Baum.

  • Wählen Sie die Datensätze für die Erstellung jedes Modells mit Ersetzung aus: Aktivieren Sie dieses Kontrollkästchen, um zu steuern, ob die Bootstrap-Replikate mit oder ohne Ersetzung aus der vollständigen Schätzstichprobe entnommen werden.

  • Der Prozentsatz der Datensätze, aus denen eine Stichprobe entnommen werden soll, um jeden Baum zu erstellen: Geben Sie einen Wert ein oder verwenden Sie die Pfeiltasten nach oben oder nach unten, um zu steuern, ob die gesamte oder nur ein Teil der vollständigen Schätzstichprobe verwendet wird, um die einzelnen Bootstrap-Replikate zu bilden.

Diagramm-Optionen

  • Diagrammgröße: Wählen Sie Inch oder Zentimeter für die Diagrammgröße aus.

  • Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).

    • Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.

    • Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.

  • Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.

Ausgabe anzeigen

Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.

  • O-Anker: Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an.

  • R-Anker: Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Diagramme enthält.

Tools für In-DB-Verarbeitung konfigurieren

Das Forest-Modell-Tool unterstützt die datenbankinterne Verarbeitung von Microsoft SQL Server 2016. Weitere Informationen zu In-DB-Support und -Tools finden Sie unter In-Datenbank – Übersicht.

Wenn ein Forest-Modell-Tool zusammen mit einem anderen In-DB-Tool auf dem Canvas platziert wird, wechselt das Tool automatisch zu der In-DB-Version. Um die Version des Tools zu ändern, klicken Sie mit der rechten Maustaste auf das Tool, zeigen Sie auf „Tool-Version auswählen“ und klicken Sie anschließend auf eine andere Version des Tools. Weitere Informationen zur Unterstützung von In-DB-Prognosen finden Sie unter Predictive Analytics.

Eingabe verbinden

Verbinden Sie einen In-Database-Datenstrom, der ein Zielfeld von Interesse zusammen mit einem oder mehreren möglichen Prädiktorfeldern enthält.

Wenn die Eingabe aus einem SQL-Server- oder Teradata-In-DB-Datenstrom stammt, wird die Microsoft Machine Learning Server-Funktion „rxDForest“ (aus dem Paket RevoScaleR) für die Modellschätzung verwendet. Dies ermöglicht die Verarbeitung auf dem Datenbankserver, sofern sowohl der lokale Rechner als auch der Server mit Microsoft Machine Learning Server konfiguriert wurden, und kann zu einer erheblichen Leistungssteigerung führen.

Erforderliche Parameter

  • Modellname: Jedes Modell muss über einen Namen verfügen, um das Modell später identifizieren zu können. Sie können entweder einen Namen angeben oder automatisch einen Namen generieren lassen. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.

  • Zielvariablen auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll.

  • Prognosevariablen auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen „verursachen“. Spalten, die eindeutige Bezeichner enthalten, wie z. B. Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.

  • Anzahl der zu verwendenden Bäume: Wählen Sie die Anzahl der in die Forest-Struktur einzubeziehenden Baummodelle aus. Der Standardwert ist „500“, basierend auf den Erkenntnissen von Breiman. Verringern Sie den Wert mit einem XDF-Metadatenstrom, wenn die Länge der Modelllaufzeit ein Problem darstellt.

  • Wählen Sie eine spezifische Anzahl von Variablen, die in jeder Aufteilung zu berücksichtigen sind: Wählen Sie die Anzahl der Variablen aus, die bei jeder Teilung berücksichtigt werden sollen.

  • Stichprobengewichtung bei der Modelleinschätzung anwenden: Klicken Sie auf das Kontrollkästchen, und wählen Sie dann ein Gewichtungsfeld im Datenstrom aus, um ein Modell abzuschätzen, das eine Stichprobengewichtung anwendet. Ein Feld wird sowohl als Prognose- als auch als Gewichtungsvariable verwendet, wenn die Gewichtungsvariable im Modellaufruf in der Ausgabe erscheint und ihr die Zeichenfolge „Right_“ vorangestellt ist.

Modellanpassung

  • Gesamtgröße der einzelnen Modellbäume direkt begrenzen

    • Die Gesamtzahl der zulässigen Knoten in einem Baum: Wählen Sie diese Option für Modelle aus, die das Open-Source R randomForest-Modell verwenden.

    • Die maximale Tiefe eines Modellbaums: Wählen Sie diese Option für Modelle aus, die die RevoScaleR rxDForest-Funktion verwenden.

  • Zulässige Mindestanzahl von Datensätzen in einem Baumknoten: Wählen Sie einen Wert aus, um die Größe des kleinsten zulässigen Endknotens in jedem Ensemblebaum zu steuern. Wenn Sie diese Zahl erhöhen, verringert sich die Gesamtzahl der Knoten in jedem Baum.

  • Auswahl der Datensätze für die Erstellung der einzelnen Modelle mit Ersetzung: Steuern Sie mit dieser Option, ob die Bootstrap-Replikate mit oder ohne Ersetzung aus der vollständigen Schätzstichprobe entnommen werden.

  • Der Prozentsatz der Datensätze, aus denen eine Stichprobe entnommen werden soll, um jeden Baum zu erstellen: Steuern Sie mit dieser Option, ob die gesamte oder nur ein Teil der vollständigen Schätzstichprobe verwendet wird, um die einzelnen Bootstrap-Replikate zu bilden.

Diagramm-Optionen

  • Diagrammgröße: Wählen Sie Inch oder Zentimeter für die Diagrammgröße aus.

  • Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).

    • Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.

    • Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.

  • Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.

Ausgabe anzeigen

Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.

  • O-Anker: Zeigt den Modellnamen und die Größe des Objekts im Ergebnisfenster an.

  • R-Anker: Zeigt einen Zusammenfassungsbericht des Modells an, der eine Zusammenfassung und Diagramme enthält.