Skip to main content

Oversample Field Tool Icon Oversample-Feld-Tool

One-Tool-Beispiel

Für das Oversample-Feld-Tool gibt es ein One-Tool-Beispiel. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.

Für Daten, die zum Entwickeln eines Prognosemodells mit binärer Klassifizierung verwendet werden, ist es oftmals der Fall, dass die Zielvariable einen deutlich höheren Anteil an negativen („nein-“) Antworten als an positiven („ja-“) Antworten aufweist. Im Fall nicht gezielter Briefkampagnen ist es beispielsweise nichts Ungewöhnliches, dass 2 % der potenziellen Interessenten positiv auf ein Gesuch antworten, während dies bei 98 % nicht der Fall ist. In diesem Fall können Prognosemodelle nur schwer unterscheiden, da der Aufwand bei der Klassifizierung aller potenziellen Interessenten in der „nein“-Kategorie nahezu immer korrekt ist.

Um dieses Problem zu vermeiden, wird oftmals eine neue Stichprobe für die Analyse generiert, die einen erhöhten Prozentsatz an positiven Antworten aufweist (häufig wird eine 50:50-Aufteilung positiver und negativer Antworten verwendet). Dies wird im Normalfall durch Einschließen aller positiven Antworten und durch Verwendung einer zufälligen Stichprobe der negativen Antworten erreicht. Dabei wird der Umfang der Stichprobe negativer Antworten anhand des Prozentsatzes positiver Antworten bestimmt, die in der neuen Datenbank erwünscht sind. Dies ist der von diesem Tool verwendete Ansatz.

Eingabe verbinden

Einem Alteryx-Datenstrom, der üblicherweise zum Erstellen eines binären Prognosemodells für die Klassifizierung (z. B. ja/nein) verwendet wird.

Tool-Konfiguration

  1. Wählen Sie das Feld, auf dem das Oversampling basieren soll : Das Feld, das den Wert enthält, für den das Oversampling erfolgen soll. Dabei handelt es sich bei einem Prognosemodell mit binärer Klassifizierung in der Regel um das Feld der Zielvariablen.

  2. Der Feldwert, für den das Oversampling erfolgen soll : Die Ebene, für die ein Oversampling erfolgen soll. Dabei handelt es sich bei einem Prognosemodell mit binärer Klassifizierung in der Regel um die positive Antwort („ja“).

  3. Der Prozentsatz der Datensätze, die den gewünschten Wert im relevanten Feld enthalten sollen : Ein ganzzahliger Wert zwischen 1 und 100. Dieser Wert darf nicht kleiner als der Prozentsatz sein, den die jeweils relevante Ebene in den Originaldaten darstellt. Wenn beispielsweise 30 % der Originaldaten für das relevante Feld den gewünschten Wert aufweisen, sollte der Wert für diesen Parameter auf unter 30 % festgelegt werden.