オーバーサンプルフィールドツール

バイナリ分類予測モデルの開発に使用されるデータの場合、ターゲット変数の方が負(「いいえ」)の応答の割合が高く、次に正(「はい」)の応答がきます。 たとえば、ターゲットを絞っていないダイレクトメールキャンペーンの場合、潜在的な見込み客の2%がアピールに好意的に応答し、98がは好意的ではない応答をすることは珍しくありません。 この場合、予測モデルはノイズと信号を区別するのが困難です。なぜなら、「いいえ」カテゴリのすべての潜在的な見通しを分類するコストはほぼ常に正しいからです。

この問題を回避するために、正の応答のパーセンテージを高くする分析向けに新しいサンプルを作成するのは珍しいことではありません(正と負の反応が50対50回に分かれる例がしばしば使用されます)。 これは、通常、すべての正の応答を含み負の応答のサンプルをランダムに採取することによって達成され、負の応答のサンプルのサイズは、新しいデータベースで望ましいとされる応答のパーセンテージによって決定されます。これが、このツールで使用されるアプローチです。

入力を接続する

Alteryx データストリーム (通常はバイナリ分類の作成に使用されるもの) 予測モデル (yes/no など)。

ツールを設定する

  1. オーバーサンプリングの基準とするフィールドを選択します: オーバサンプルする値を含むフィールドで、通常はバイナリ分類予測モデルのターゲット変数フィールドです。
  2. オーバーするフィールド値: オーバサンプルされるレベル (通常は、バイナリ分類予測モデルの正の ("yes") 応答。
  3. 目的のフィールドに必要な値を持つレコードの割合(1 ~ 100 の整数値)。 この値は、元のデータでこのフィールドのレベルが表すパーセンテージ以下であってはなりません。 たとえば、元のデータの30%が目的のフィールドに望ましい値を持つ場合、このパラメーターの値は30%未満に設定しないでください。