One-Tool-Beispiel
Für das Support-Vector-Machine-Tool gibt es ein One-Tool-Beispiel. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.
Support Vector Machines (SVMs) oder Support Vector Networks (SVNs) sind beliebte beaufsichtigte Lernalgorithmen, die ursprünglich für Klassifizierungsprobleme (kategoriales Ziel) entwickelt wurden. Inzwischen wurde die Verwendung von SVMs auf Regressionsprobleme (numerisches Ziel) ausgeweitet. SVMs sind beliebt, weil sie speichereffizient sind, eine große Anzahl von Prognosevariablen berücksichtigen können (obwohl sie schlechte Anpassungen liefern können, wenn die Anzahl der Prädiktoren die Anzahl der Schätzungsdatensätze übersteigt) und vielseitig sind, da sie eine große Anzahl verschiedener „Kernel"-Funktionen unterstützen.
Die Grundidee der Methode besteht darin, die beste Gleichung einer Linie (1 Prädiktor), einer Ebene (2 Prädiktoren) oder einer Hyperebene (3 oder mehr Prädiktoren) zu finden, die die Gruppen von Zeilen auf der Grundlage eines Abstandsmaßes maximal in verschiedene Kategorien unterteilt, die von der Zielvariablen abhängen. Eine Kernel-Funktion liefert das Abstandsmaß, das dazu führt, dass Datensätze in dieselbe oder in verschiedene Gruppen eingeordnet werden. Dabei wird eine Funktion der Prognosevariablen verwendet, um die Abstandsmetrik zu definieren.
Ein kurzes Video, das zeigt, wie dies funktioniert, ist zu finden
Und eine sehr zugängliche Diskussion über das Thema finden Sie hier. Der Abstand zwischen den Gruppen, der von der verwendeten Kernelfunktion abhängt, wird als maximaler Abstand (Maximum Margin) bezeichnet. Die Aufteilung der Gruppen ist zwar nicht perfekt, aber es kann auch ein Straftermparamater (d. h. die Strafe für die Einstufung eines Schätzungsdatensatzes in die „falsche" Gruppe) angegeben werden.
Dieses Tool nutzt das e1071-R-Paket.
Dieses Tool verwendet das R-Tool. Navigieren Sie zu OptionenPrognose-Tools herunterladen und melden Sie sich beim Alteryx Downloads and Licenses-Portal an, um R und die vom R-Tool verwendeten Pakete zu installieren. Siehe Prognose-Tools herunterladen und verwenden.
Verbinden Sie einen Alteryx-Datenstrom mit einem relevanten Zielfeld sowie einem oder mehreren möglichen Prognosefeldern.
Modellname: Jedes Modell muss über einen Namen verfügen, um das Modell später identifizieren zu können. Modellnamen müssen mit einem Buchstaben beginnen und können Buchstaben, Zahlen und die Sonderzeichen Punkt (.) und Unterstrich (_) enthalten. Andere Sonderzeichen sind nicht erlaubt, und bei R wird zwischen Groß- und Kleinschreibung unterschieden.
Zielfeld auswählen: Wählen Sie das Feld im Datenstrom aus, für das die Prognose erstellt werden soll.
Prognosefelder auswählen: Wählen Sie die Felder im Datenstrom aus, die Ihrer Meinung nach Änderungen am Wert der Zielvariablen „verursachen“. Spalten, die eindeutige Kennungen enthalten wie Ersatzprimärschlüssel und natürliche Primärschlüssel, sollten in Statistikanalysen nicht verwendet werden. Sie enthalten keinen Prognosewert und können Laufzeitausnahmen verursachen.
Wählen Sie die Klassifizierungs- oder Regressionsmethode auf Basis der Zielvariablen, die Sie vorhersagen möchten. Wenn die von Ihnen gewählte Zielvariable eine Zeichenfolge oder ein boolescher Wert ist, handelt es sich im Allgemeinen um ein Klassifizierungsproblem. Wenn die Variable ein numerischer Typ ist, liegt wahrscheinlich ein Regressionsproblem vor.
Klassifizierung:
Eine grundlegende Modellübersicht: Der Funktionsaufruf in R, Ziel, Prädiktoren und zugehörige Parameter.
Modellleistung:
Eine Konfusionsmatrix
Die SVM-Klassifizierungsdiagramme
Der Bericht enthält Erläuterungen zur Interpretation der einzelnen Leistungsbewertungskennzahlen.
Optionen zur Klassifizierung:
C-Klassifizierung: Optimiert die Entscheidungsebene unter Berücksichtigung einer gewissen Fehlerquote.
Nu-Klassifizierung: Ähnlich der C-Klassifizierung, ermöglicht es dem Benutzer aber, die Fehlermenge durch Auswahl des Nu-Werts zu begrenzen.
Regression:
Eine grundlegende Modellübersicht: Der Funktionsaufruf in R, Ziel, Prädiktoren und zugehörige Parameter.
Modellleistung:
Mittlerer quadratischer Fehler (RMSE)
R-Quadrat
mae
Medianer absoluter Fehler
Residuen-Diagramm
Restverteilung
Der Bericht enthält Erläuterungen zur Interpretation der einzelnen Leistungsbewertungskennzahlen.
Regression-Optionen:
Epsilon-Regression
Nu-Regression: Ähnlich der Epsilon-Regression, ermöglicht es dem Benutzer aber, die Fehlermenge durch Auswahl des Nu-Werts zu begrenzen.
Im Bereich für die Modellanpassung können Sie den Kerneltyp und Parameter für jeden Kernel auswählen. Wählen Sie Modellparameter angeben, um das Modell anzupassen.
Angabe der Parameter durch Benutzer: Wählen Sie diese Option, um die erforderlichen Parameter direkt einzustellen.
Kerneltyp: Legt die Metrik fest, mit der die Trennung zwischen den Gruppen ermittelt wird.
Linear: Nützlich, wenn die Beziehung zwischen den Klassen und Prädiktoren eine einfache Linie, Ebene oder Hyperebene ist.
Strafterm: Die Strafe (Abzug), die mit einer Fehlgruppierung eines Datensatzes verbunden sind. Ein geringer Strafterm lässt eine bestimmte Fehlerrate beim Erstellen von Datensatzgruppen zu, um eine Überanpassung zu vermeiden.
Polynom: Der Abstand wird mit einer Polynomfunktion der Prognosevariablen ermittelt.
Strafterm: Die Strafe (Abzug), die mit einer Fehlgruppierung eines Datensatzes verbunden sind. Ein geringer Strafterm lässt eine bestimmte Fehlerrate beim Erstellen von Datensatzgruppen zu, um eine Überanpassung zu vermeiden.
Grad: Grad des Polynomkernels Eine Steigerung des Polynomgrads ermöglicht eine flexiblere Spanne zwischen den Gruppen und damit einen geringeren Fehler in der Schätzungsstichprobe. Dies führt jedoch zu einer Überanpassung des Modells an die Schätzungsstichprobe.
Gamma: Koeffizient des Terms des inneren Produkts im Polynomkern.
coef0: Der konstante Term in der Polynomformulierung.
Radial (Standard): Geeignet für nicht linear trennbare Daten.
Strafterm: Erlaubt eine gewisse Fehlerquote bei der Klassifizierung, um eine Überanpassung zu vermeiden.
Gamma: Koeffizient des Leistungsterms im radialen Basisfunktionskernel. Ein höherer Gamma-Wert bedeutet, dass der Eigenschaftsbereich reichhaltiger ist und somit weniger Fehler im Trainingsset auftreten. Allerdings kann dies auch zu einer starken Überanpassung führen.
Sigmoid: Wird hauptsächlich als Proxy für neuronale Netzwerke verwendet.
Gamma: Definiert den Einfluss auf das Trainingsbeispiel.
coef0: Der konstante Term im Sigmoid-Kernel.
Vom Computer optimierte Parameter: Wählen Sie diese Option aus, um eine Reihe von Parametern aus und finden Sie rechnerisch die besten Parameter, indem Sie ein Raster von möglichen Werten durchsuchen. Dies stellt einen höheren Rechenaufwand dar und dauert somit länger, da eine 10-fache Kreuzvalidierung zum Testen des Modells anhand mehrerer Parameterwerte durchgeführt wird. Es wird jedoch wahrscheinlich zu einem Modell führen, das besser auf die Daten abgestimmt ist.
Für diese Option müssen dieselben Parameter wie für die Option „Angabe der Parameter durch Benutzer“ ausgewählt werden. Es bestehen jedoch diese Unterschiede:
Anzahl der Kandidaten: Die Anzahl der Parameterwerte, die der Benutzer testen möchte (Standard: 5).
Kerneltyp (Rastersuche): Siehe Abschnitt „Angabe der Parameter durch Benutzer“. Der Benutzer gibt die Mindest- (min.) und Maximalwerte (max.) für bestimmte Parameter an. Das Modell generiert eine bestimmte Kandidatenanzahl, die unter „Anzahl von Kandidaten“ festgelegt ist, und ermittelt dann den besten, indem es eine 10-fache Kreuzvalidierung durchführt.
Diagramm-Optionen
Diagrammgröße: Legen Sie die Breite und die Höhe des erstellten Diagramms (Plots) fest, entweder in Inch oder Zentimetern.
Diagrammauflösung: Wählen Sie die Diagrammauflösung in Punkten pro Inch aus: 1x (96 dpi), 2x (192 dpi) oder 3x (288 dpi).
Eine geringere Auflösung erzeugt eine kleinere Datei und eignet sich am besten für die Anzeige auf einem Bildschirm.
Eine höhere Auflösung erzeugt eine größere Datei mit einer besseren Druckqualität.
Größe der Basisschriftart: Die Anzahl der Punkte der Basisschrift, die in den vom Makro erzeugten Diagrammen verwendet werden.
O-Anker: Die „O"-Ausgabe besteht aus einer Tabelle des serialisierten Modells mit seinem Modellnamen. Nachdem die Ausgabe aus dem SVM-Tool erstellt wurde, kann ein Bewertung-Tool und Test-Dataset verwendet werden.
R-Anker: Die R-Ausgabe besteht aus den durch das Support Vector Machine-Tool erzeugten Berichtsausschnitten. Die Berichte für Klassifizierung und Regression unterscheiden sich, da verschiedene Methoden zur Leistungsbewertung angewendet werden.