Skip to main content

Stichprobenerstellung-Tool

Nutzen Sie das Stichprobenerstellung-Tool, um die Eingabezeilen in zwei oder drei Zufallsstichproben aufzuteilen. Im Tool geben Sie den Prozentsatz der Zeilen in jeder Probe an. Liegt die Summe unter 100 %, werden die verbleibenden Zeilen an den Holdout oder den H-Anker ausgegeben.

Tool-Konfiguration

  1. Wählen Sie die Zeilenzuordnung aus. Die Summe der Prozentsätze der Stichprobe 1 und der Stichprobe 2 muss kleiner oder gleich 100 % sein. Wenn die Summe weniger als 100 % beträgt, wird der verbleibende Prozentsatz an den H-Anker ausgegeben:

    • Stichprobe 1: Ausgabe an den E-Anker. Dies ist der Prozentsatz der Daten, der in die Schätzstichprobe (zwischen 1 % und 99 %) aufgenommen werden soll.

    • Stichprobe 2: Ausgabe an den V-Anker. Dies ist der Prozentsatz der Daten, der in die Validierungsstichprobe (zwischen 1 % und 99 %) aufgenommen werden soll.

  2. Geben Sie einen Wert bei Zufälliger Startwert ein: Ein ganzzahliger Wert zwischen 1 und 1000, der den Ausgangspunkt für die Generierung von Zufallszahlen angibt. Wenn Sie diesen Wert ändern, wird die Stichprobe geändert, in die eine einzelne Datenzeile aufgenommen wird. Wenn es keinen besonderen Grund gibt, diesen Wert zu ändern, wird die Verwendung des Standardwerts „1“ empfohlen.

Ausgabe anzeigen

Das Stichprobenerstellung-Tool erzeugt drei Ausgaben:

  • E-Anker: Der Ausgabestrom für die Schätzung enthält eine Zufallsstichprobe von Eingabezeilen. Die Anzahl der Zeilen in diesem Strom entspricht dem Prozentsatz der gesamten Zeilen, der unter Stichprobe 1 angegeben wurde.

  • V-Anker: Der Ausgabestrom für die Validierung enthält eine Zufallsstichprobe von Eingabezeilen. Die Anzahl der Zeilen in diesem Strom entspricht dem Prozentsatz der gesamten Zeilen, der unter Stichprobe 2 angegeben wurde.

  • H-Anker: Der Holdout-Strom enthält alle übrig gebliebenen Zeilen, die weder in die Schätzungs- noch in die Validierungsstichprobe aufgenommen wurden.

Wenn die Anzahl der Zeilen ungerade ist und Schätzung und Validierung beide auf 50 % gesetzt sind, hat der Ausgabestrom des E-Ankers eine Zeile mehr als der Strom des V-Ankers.