Schrittweise-Tool
One-Tool-Beispiel
Für das Kachel-Tool gibt es ein One-Tool-Beispiel. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.
Das Tool „Schrittweise“ bestimmt die besten Prognosevariablen für ein Modell, die aus einem größeren Satz potenzieller Prognosevariablen für lineare, logistische und andere herkömmliche Regressionsmodelle stammen.
Es gibt zwei grundlegende Ansätze für die Implementierung der schrittweisen Regression.
Für die erste (Rückwärtsauswahl) wird ein Modell verwendet, das alle Variablen enthält, von denen angenommen wird, dass sie sich potenziell auf die Zielvariable auswirken. Dann wird, basierend auf der Anpassungsgüte, die für die Anzahl der im Modell enthaltenen Variablen angepasst wird, sequenziell die am wenigsten wichtige Variable aus dem Originalmodell entfernt. Dieser Prozess wird fortgesetzt, indem in weiteren Rückwärtsschritten so lange Variablen entfernt werden, bis keine weiteren Verbesserungen der Anpassungsgüte mehr erzielt werden.
Der zweite grundlegende Ansatz (Vorwärtsauswahl) beginnt mit einem Modell, das nur eine Konstante enthält, zu dem dann eine Variable aus dem Satz der potenziellen Variablen hinzugefügt wird, die die größte Verbesserung des angepassten Anpassungsmaßes liefert. Dieser Prozess wird fortgesetzt, um über weitere Vorwärtsschritte weitere Variablen hinzuzufügen, und endet, wenn keine weitere Verbesserung der Anpassungsgüte mehr erzielt wird. Im Fall der Rückwärtsauswahl wird eine entfernte Variable in nachfolgenden Schritten nicht erneut eingefügt, während bei der Vorwärtsauswahl eine hinzugefügte Variable in nachfolgenden Schritten niemals wieder entfernt wird. Es kann ein hybrider Ansatz genutzt werden, der mit einem großen (maximalen) Anfangsmodell und einem ersten Rückwärtsschritt beginnt, danach aber bei jedem nachfolgenden Schritt sowohl Rückwärts- als auch Vorwärtsbewegungen bewertet.
Das R-basierte Tool von Alteryx für die schrittweise Regression nutzt sowohl die Rückwärtsauswahl von Variablen als auch die gemischte Rückwärts- und Vorwärtsauswahl von Variablen. Um das Tool zu verwenden, erstellen Sie zuerst ein „maximales“ Regressionsmodell, das alle Variablen enthält, die Sie für eventuell relevant halten, und ermitteln Sie dann mit dem Tool „Schrittweise Regression“, welche dieser Variablen auf der Grundlage des angepassten Anpassungsmaßes entfernt werden sollte. Der Benutzer hat die Wahl zwischen zwei verschiedenen angepassten Anpassungsmaßen, Akaikes Informationskriterium** (AIC) und Bayessches Informationskriterium*** (BIC). Diese beiden Maße sind sich ähnlich, das BIC platziert jedoch eine höhere Strafe für die Anzahl der im Modell enthaltenen Variablen, was in der Regel zu einem endgültigen Modell mit weniger Variablen führt, als dies mit dem AIC der Fall ist.
Bei diesem Tool wird für die Modelleinschätzung die entsprechende Funktion der Open-Source-Programmiersprache „R“ verwendet, wenn die Eingabedaten aus einem regulären Alteryx-Datenstrom stammen. Stammt die Eingabe aus einem XDF-Ausgabetool oder XDF-Eingabetool, wird für die Modelleinschätzung die entsprechende Revo ScaleR-Funktion verwendet. Der Vorteil der Verwendung der auf Revo ScaleR basierenden Funktion besteht darin, dass viel größere (größer als der Arbeitsspeicher) Datensets analysiert werden können. Dem gegenüber steht jedoch die fehlende Möglichkeit, eine Modelldiagnoseausgabe zu erstellen, die bei den Open-Source-Funktionen von R verfügbar ist.
Dieses Tool verwendet das R-Tool. Navigieren Sie zu Optionen Prognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Prognose-Tools herunterladen und verwenden.
Eingaben verbinden
Das „maximale“ Modell wird mit dem Ausgabestrom eines der Tools „Zähldaten-Regression“, „Lineare Regression“ oder „Logistische Regression“ erstellt. Der Strom kann auf beiden Seiten des Tools eingegeben werden.
Derselbe Alteryx-Datenstrom oder XDF-Metadatenstrom, der verwendet wurde, um das „maximale“ Modell zu erstellen Der Strom kann auf beiden Seiten des Tools eingegeben werden.
Tool-Konfiguration
Auf der Konfiguration-Registerkarte können Sie die Steuerelemente für das Zeitreihendiagramm einstellen.
Dies ist das beste Modell, das über die schrittweise Variablenauswahl auf der Grundlage der Suchrichtung und der gewählten Auswahlkriterien gefunden wurde. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt. Darüber hinaus wird in R die Groß- und Kleinschreibung berücksichtigt.
Ob die Suche sowohl mit Rückwärts- als auch Vorwärtsschritten (die Methode startet mit einem Rückwärtsschritt) oder nur mit Rückwärtsschritten ausgeführt wird
Die Kriterien, die für den Vergleich der verschiedenen Modelle und die Auswahl des besten Modells verwendet werden Zur Auswahl stehen Aikakes Informationskriterium (AIC) und Bayessches Informationskriterium (BIC).
Verwenden Sie die Diagramm-Optionen-Registerkarte, um die Steuerelemente für die grafische Ausgabe festzulegen (optional).
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Zoll aus: 1X (96 dpi), 2x (192 dpi) oder 3X (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Ausgabe anzeigen
Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.
Ausgabe A: umfasst eine Tabelle des serialisierten Modells mit dem Modellnamen und der Größe des Objekts.
Besteht aus den durch das Tool „Schrittweise“ erzeugten Berichtsausschnitten: einer statistischen Zusammenfassung, einer Typ-II-Devianzanalyse (ANOVA) und einfachen diagnostischen Diagrammen. Die Tabelle der Typ-II-Devianzanalyse (ANOVA) und die einfachen diagnostischen Diagramme werden nicht erzeugt, wenn die Dateneingabe aus einem XDF-Ausgabe- oder XDF-Eingabetool stammt.
https://en.wikipedia.org/wiki/Stepwise_regression** https://en.wikipedia.org/wiki/Akaike_information_criterion*** https://en.wikipedia.org/wiki/Bayesian_information_criterion