Skip to main content

Create Samples Tool Icon Stichprobenerstellung-Tool

One-Tool-Beispiel

Es gibt ein One-Tool-Beispiel für das Stichprobenerstellung-Tool. Unter Beispiel-Workflows erfahren Sie, wie Sie dieses und viele weitere Beispiele direkt in Alteryx Designer aufrufen können.

Nutzen Sie das Stichprobenerstellung-Tool, um die Eingabedatensätze in zwei oder drei Zufallsstichproben aufzuteilen. Sie können den Prozentsatz der Datensätze angeben, die in der Schätz- und Validierungsstichprobe enthalten sein sollen. Liegt die Gesamtzahl unter 100 %, fallen die verbleibenden Datensätze in die „Holdout"-Stichprobe.

Tool-Konfiguration

  1. Prozentsatz Schätzstichprobe : Der Prozentsatz der Daten, die in die Schätzstichprobe aufgenommen werden sollen (zwischen 1 % und 99 %).

  2. Prozentsatz Validierungsstichprobe : Der Prozentsatz der Daten, die in die Validierungsstichprobe aufgenommen werden sollen (zwischen 1% und 99%).

  3. Zufälliger Startwert : Ein ganzzahliger Wert zwischen 1 und 1.000. Wenn Sie diesen Wert ändern, ändert sich die Stichprobe, in die eine einzelne Datenzeile eingeordnet wird. Wenn es keinen bestimmten Grund dafür gibt, diesen Wert zu ändern, ist der Standardwert 1 die empfohlene Einstellung.

Ausgabe anzeigen

Das Stichprobenerstellung-Tool erzeugt drei Ausgaben:

  • E -Anker: Der Ausgabestrom für die Schätzung enthält eine Zufallsstichprobe von Eingabedatensätzen. Die Anzahl der Datensätze in diesem Strom entspricht dem Prozentsatz der gesamten Datensätze, die zuvor in der Eigenschaft für die Schätzstichprobe angegeben wurde.

  • V -Anker: Der Ausgabestrom für die Validierung enthält eine Zufallsstichprobe von Eingabedatensätzen. Die Anzahl der Datensätze in diesem Strom entspricht dem Prozentsatz der gesamten Datensätze, der zuvor in der Eigenschaft für die Validierungsstichprobe angegeben wurde.

  • H -Anker: Der Ausgabestrom für die „Holdout“-Daten enthält alle übrig gebliebenen Datensätze, die weder in die Schätzungs- noch in die Validierungsstichprobe aufgenommen wurden.

Wenn eine ungerade Anzahl von Datensätzen vorliegt und für die Schätz- und die Validierungsstichprobe jeweils 50 % festgelegt sind, enthält der Ausgabestrom für die Schätzung einen Datensatz mehr als der Ausgabestrom für die Validierung.