One-Tool-Beispiel
Es gibt ein One-Tool-Beispiel für Spline-Modell. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.
Das Tool stellt den MARS-Algorithmus von Friedman bereit (Multivariate Adaptive Regression-Splines).* Diese Methode ist ein modernes statistisches Lernmodell mit folgenden Eigenschaften: (1) Es ermittelt selbst, welche Teilmenge der Felder ein Zielfeld am besten vorhersagt. (2) Es ist in der Lage, hochgradig nichtlineare Beziehungen und Interaktionen zwischen Feldern zu erfassen. Und es kann automatisch eine Vielzahl von Regressions- und Klassifizierungsproblemen auf eine für den Benutzer transparente Weise behandeln (der Benutzer muss lediglich ein Zielfeld und einen Satz Prognosefelder festlegen – erfahrene Benutzer können das Tool jedoch umfassend anpassen).
Das Tool kann für eine Vielzahl von Problemen genutzt werden (z. B. Klassifizierungs-, Häufigkeitsdaten- und Regressionsprobleme mit kontinuierlichem Ziel). Die Methode nutzt bei der Modellentwicklung einen aus zwei Schritten bestehenden Ansatz. Im ersten Schritt (der auch als „Vorwärtsdurchlauf“ bezeichnet wird und dem Algorithmus für die rekursive Partitionierung ähnelt, der im Entscheidungsbaum-Tool verwendet wird) werden die Variablen ermittelt, die für die Prognose des festgelegten Ziels die größte Relevanz besitzen, und in den Variablen werden geeignete Aufteilungspunkte (auch als „Knoten“ bezeichnet) gesucht. Anders als bei einem Entscheidungsbaum wird jedoch eine Linie zwischen benachbarten Knoten (Termen) angepasst, anstatt diskrete Sprünge durchzuführen, wie dies in Entscheidungsbäumen der Fall ist. Dies führt zur Konstruktion einer stückweisen linearen Funktion für jede Variable, die alle Beziehungen zwischen der Zielvariablen und den Prognosevariablen eng approximieren kann. Im zweiten Schritt (Rückwärts- oder Pruning-Durchlauf) werden einige der Knoten in den Variablen entfernt (durch Verlängerung des Liniensegments in den verbleibenden Termen), um so die Wahrscheinlichkeit zu minimieren, dass das Modell eine Überanpassung der Stichprobe durchführt (d. h. das Rauschen der Stichprobe erfasst und nicht das zugrunde liegende Signal).
Dieses Tool verwendet das R-Tool. Gehen Sie zu Optionen > Prognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Gehen Sie zu Prognose-Tools herunterladen und verwenden.
Ein Alteryx-Datenstrom mit einem relevanten Zielfeld sowie einem oder mehreren möglichen Prognosefeldern
Verwenden Sie die Registerkarte Erforderliche Parameter, um die obligatorischen Steuerelemente für das Spline-Modell-Tool festzulegen.
Modellname: Jedes Modell muss über einen Namen verfügen, um das Modell später identifizieren zu können. Modellnamen müssen mit einem Buchstaben beginnen und dürfen Buchstaben, Zahlen und die Sonderzeichen Punkt („.“) und Unterstrich („_“) enthalten. Andere Sonderzeichen sind nicht erlaubt und bei „R“ wird zwischen Groß- und Kleinschreibung unterschieden.
Zielfeld auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll.
Prognosefelder auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen „verursachen“. Spalten, die eindeutige Kennungen enthalten, wie etwa Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten nicht in statistischen Analysen verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Effekt-Diagramme einbeziehen?: Wenn diese Option aktiviert ist, werden Effekt-Diagramme erstellt, die die Beziehungen zwischen der Prognosevariablen und dem Ziel bei festgelegten Ebenen (der Mittelwert für numerische Prognosen, die erste Ebene für Faktoren) der anderen Prognosefelder zeigen. Es gibt Optionen, um nur die Felder anzuzeigen, die einen Haupteffekt auf das Ziel haben, nur die wechselseitigen Interaktionseffekte zwischen Feldern mit einem Perspektivendiagramm oder sowohl die Haupteffekte als auch die wechselseitigen Interaktionen.
Verwenden Sie die Registerkarte Modellanpassung (optional), um spezifischere Anpassungen am Modell vorzunehmen.
Zieltyp und GLM-Familie festlegen: Fünf Typen von Zielfeldern werden unterstützt:
Kontinuierliche Ziele (z. B. numerische Ziele, bei denen ein bestimmter eindeutiger Wert einen relativ geringen Prozentsatz der Instanzen insgesamt enthält).
Gammaverteilte Ziele (streng positive numerische Ziele mit einem hohen Prozentsatz an relativ niedrigen Antwortwerten, jedoch mit einem geringen Prozentsatz an relativ hohen Werten).
Häufigkeitsziele (z. B. Ziele mit ganzzahligem Wert, für die die meisten eindeutigen Werte einen relativ hohen Prozentsatz der Gesamtinstanzen aufweisen, beispielsweise die Anzahl Arztbesuche einer Person pro Jahr).
Binäre kategoriale Ziele (z. B. Zielfelder der Auswahl „ja/nein“).
Multinomiale kategoriale Ziele (z. B. Zielfelder mit einer beschränkten Anzahl diskreter Ergebnisse wie „A“, „B“ oder „C“).
Jeder Zielfeldtyp kann eine oder mehrere mögliche zugeordnete Verteilungsfunktionen besitzen (die zu der Kennzahl gehören, die der Algorithmus zu minimieren versucht).
Kontinuierliche Ziele können entweder keine explizite Verteilung oder eine Gauß- bzw. Normalverteilung besitzen.
Im Fall eines gammaverteilten Ziels kann die Link-Funktion verwendet werden (die Beziehung zwischen den Mittelwerten der Verteilung und dem linearen Prädiktor).
Häufigkeitsziele (Ganzzahl) minimieren eine Verlustfunktion auf Grundlage der Poisson-Verteilung und nutzen entweder eine Log- (bevorzugt) oder Identity Link-Funktion.
Binäre kategoriale Ziele können ein Logit (wird auch in der klassischen logistischen Regression verwendet), ein Probit oder eine komplementäre Log-Log-Link-Funktion verwenden.
Eine multinomiale kategoriale Antwort wird auf nicht standardmäßige Weise behandelt. Insbesondere wird anstelle eines echten multinomialen Modells ein Satz binärer Modelle (mit einer Logit-Link-Funktion) geschätzt. Wenn die möglichen Antworten z. B. „A“, „B“ oder „C“ lauten, wird ein wie folgt aussehendes Modell geschätzt: „A“ gegen alle anderen Möglichkeiten, „B“ gegen alle anderen Möglichkeiten und „C“ gegen alle anderen Möglichkeiten.
Zielvariable skalieren: Wenn es sich bei der Zielvariablen um eine kontinuierliche Variable handelt und diese Option ausgewählt ist, wird eine Umwandlung der z-Werte (Mittelwert null, Standardabweichung eins) durchgeführt, um die numerische Stabilität im Vorwärtsdurchlauf (erste Phase) des Algorithmus zu unterstützen.
Die maximale Anzahl der Knoten manuell festlegen (optional): Diese Option steuert die Anzahl der möglichen Knoten (Aufteilungen) in den Prognosefeldern im Vorwärtsdurchlauf (erste Phase) des Algorithmus. Wenn die Option nicht ausgewählt ist, wird die Anzahl der Knoten auf der Grundlage der Anzahl der Prognosefelder berechnet. Die tatsächliche Anzahl der Knoten im Vorwärtsdurchlauf ist meist geringer als die maximal zulässige Anzahl.
Interaktionstiefe: Die Interaktionsebene zwischen Prognosefeldern.
Im Fall zweier Prognosefelder mit wechselseitiger Interaktion hängt der Effekt, den die eine Prognose auf das Ziel ausübt, von der Ebene der zweiten Prognose ab.
Im Fall einer dreifachen wechselseitigen Interaktion hängt der Effekt eines Prognosefelds auf ein Ziel von den Werten der beiden anderen Prognosefelder ab.
Es können bis zu fünf wechselseitige Interaktionen (eine Interaktionstiefe von 5) festgelegt werden. Der Standardwert dieses Parameters ist 1 (eine implizite Annahme, dass keine Interaktionen zwischen Prognosefeldern vorliegen). Eine höhere Interaktionstiefe kann die Ausführungszeit des Modells sehr stark verlängern.
Abzug pro Term oder Knoten manuell festlegen: Die zu optimierende Funktion enthält eine Abzugskomponente, mit der die Möglichkeit verringert wird, dass das finale Modell die Stichprobendaten überanpasst. Der Standardwert ist 2 für ein ausschließlich Haupteffekte berücksichtigendes Modell und 3, wenn drei oder mehr wechselseitige Interaktionen zulässig sind. Der Wert -1 sorgt dafür, dass keine Abzüge für Knoten oder Terme angewendet werden, während der Wert 0 den Standardabzug nur auf Terme anwendet.
Minimale Verbesserung von R-Squared erforderlich, um einen weiteren Knoten hinzuzufügen: Je höher der Wert dieser Terme ist, desto höher muss die R-Squared-Verbesserung sein, damit ein Knoten zum Modell hinzugefügt wird.
Der minimale Abstand zwischen Knoten: Wenn 0 ausgewählt ist, wird der zulässige Mindestabstand anhand einer Formel berechnet. Wenn 1 ausgewählt ist, können alle Werte einer Prognosevariablen ein Knoten sein (dies funktioniert nur gut, wenn in den Daten nur sehr wenig Rauschen ist). Andernfalls muss ein numerischer Wert zwischen 0 und 1 angegeben werden, der den Abstand als Prozentsatz der Entfernung einer Prognosevariablen angibt.
Abzug für neue Variablen: Der Term für den zusätzlichen Abzug, der für das Hinzufügen einer neuen Variablen zum Modell an die Zielfunktion angefügt wird. Zulässige Werte reichen von 0 bis 0,5. Wie der Abzug pro Knoten oder Term dient diese Option dazu, eine Überanpassung zu kontrollieren.
Die maximale Anzahl übergeordneter Terme, die bei jedem Schritt im Vorwärtsdurchlauf berücksichtigt werden: Dieser Term steuert die Anzahl der Terme, die in einem Vorwärtsdurchlauf erstellt werden, wodurch die Ausführung beschleunigt werden kann. Mit dem Wert 0 werden keine Grenzen für den Term festgelegt. Eine Zahl größer 0 legt die maximale Anzahl der Terme fest. Der Standardwert ist 20, aber auch 10 und 5 sind häufig verwendete Werte.
Der schnelle MARS-Alterungskoeffizient: Eine Erläuterung dieses Parameters finden Sie in Abschnitt 3.1 von Friedman (1993).***
Kreuzvalidierungsanalyse durchführen: Mit dieser Option können Sie mit einer Kreuzvalidierung bewerten, ob das Pruning relativ zur vom Algorithmus verwendeten generalisierten Kreuzvalidierungsmethode ausreicht. Wenn diese Option ausgewählt ist, kann der Benutzer Folgendes festlegen: die Anzahl der separaten Kreuzvalidierungsdurchläufe, die Anzahl der Aufteilungen in jedem Kreuzvalidierungsdurchlauf, ob die Kreuzvalidierungsstichproben geschichtet werden, damit ein vergleichbarer Antwortmix für ein kategoriales Ziel vorliegt (z. B. eine vergleichbare Anzahl von Ja- und Nein-Antworten für eine binäre kategoriale Variable), den zufälligen Startwert für die zum Erstellen der Stichproben generierten Zufallszahlen.
Die Pruning-Methode: Die Auswahlmöglichkeiten lauten „Rückwärtselimination“, „Keine“, „Erschöpfende Suche“, „Vorwärtsselektion“ und „Sequenzielles Ersetzen“.
Die Rückwärtselimination (der Standard) beginnt mit allen im Vorwärtsdurchlauf gefundenen Knoten und Termen, entfernt dann zuerst den Term mit der geringsten Vorhersage (indem entsprechende Anpassungen der betroffenen verbleibenden Terme durchgeführt werden) und vergleicht dann den Effekt auf die Kennzahl der generalisierten Kreuzvalidierung relativ zum vollständigen Modell. Wenn sich die Kennzahl der generalisierten Kreuzvalidierung durch das Entfernen eines Terms nicht verbessert, wird zu dem nach dem Vorwärtsdurchlauf erstellten Modell zurückgekehrt. Wenn sich die Kennzahl der generalisierten Kreuzvalidierung verbessert, wird der Term aus dem Modell entfernt und der Prozess für die verbleibenden Terme wiederholt. Wenn das Entfernen eines Terms an irgendeiner Stelle die Kennzahl der generalisierten Kreuzvalidierung relativ zu dem beim letzten Durchlauf erstellten Modell nicht verbessert, wird der Prozess beendet.
Wenn „Keine“ ausgewählt ist, werden alle im Vorwärtsdurchlauf gefundenen Terme im finalen Modell verwendet.
Bei der erschöpfenden Suche werden alle Kombinationen von in der Vorwärtssuche gefundenen Termen untersucht, was sehr viel Rechenleistung erfordert.
Beim Vorwärtslöschen werden alle Terme außer dem Achsenabschnitt entfernt. Danach wird der beste der im Vorwärtsdurchlauf gefundenen Terme ermittelt und in das Modell aufgenommen (wobei angenommen wird, dass er die Kennzahl der generalisierten Kreuzvalidierung relativ zu einem Modell nur mit Achsenabschnitt verbessert). Dieser Prozess wird so lange fortgesetzt, bis kein weiterer Term mehr hinzugefügt werden kann, der die Kennzahl der generalisierten Kreuzvalidierung verbessert.
Beim sequenziellen Ersetzen wird in einer Lösung mit einer bestimmten Anzahl an Termen ein Term durch alle anderen möglichen im Vorwärtsdurchlauf gefundenen verbliebenen Terme ersetzt, die noch nicht zur Menge der Terme im Pruning-Durchlauf gehören. Wenn ein neuer Term gefunden wird, der die Kennzahl der generalisierten Kreuzvalidierung relativ zum Originalterm verbessert, wird der Originalterm durch den neuen Term ersetzt.
Die maximale Anzahl der Terme in einem vereinfachten Modell: Wenn 0 ausgewählt ist (der Standard) werden alle Terme, die übrig bleiben, nachdem die anderen im Vereinfachungsdurchlauf verwendeten Kriterien angewendet wurden, im finalen Modell verwendet. Andernfalls werden nur die wichtigsten Terme bis zur ausgewählten Anzahl im finalen Modell beibehalten.
Verwenden Sie die Registerkarte Diagramm-Optionen, um die Steuerelemente für die grafische Ausgabe festzulegen:
Diagrammgröße: Wählen Sie Inch oder Zentimeter für die Diagrammgröße aus.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart (Punkte): Wählen Sie die Größe der Schrift im Diagramm aus.
Verbinden Sie ein Durchsuchen-Tool mit den einzelnen Ausgabeankern, um Ergebnisse anzuzeigen.
O-Anker: Besteht aus einer Tabelle des serialisierten Modells mit seinem Modellnamen.
R-Anker: Besteht aus den vom Spline-Modell-Tool erzeugten Berichtsausschnitten: einer Zusammenfassung des Basismodells, einem Wichtigkeitsdiagramm (das die relative Wichtigkeit der verschiedenen Prognosefelder zeigt), einem Diagramm der Basismodelldiagnose und (optional) den Effektediagrammen.
*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines
**Friedman, Jerome H.: Multivariate Adaptive Regression Splines, Stanford University, August 1990