Oversample Field Tool Icon

オーバーサンプルフィールドツール

Version:
Current
Last modified: May 02, 2020

バイナリ分類予測モデルの開発に使用されるデータの場合、ターゲット変数の方が負(「いいえ」)の応答の割合が高く、次に正(「はい」)の応答がきます。たとえば、ターゲットを絞っていないダイレクトメールキャンペーンの場合、潜在的な見込み客の2%がアピールに好意的に応答し、98がは好意的ではない応答をすることは珍しくありません。この場合、予測モデルはノイズと信号を区別するのが困難です。なぜなら、「いいえ」カテゴリのすべての潜在的な見通しを分類するコストはほぼ常に正しいからです。

この問題を回避するために、正の応答のパーセンテージを高くする分析向けに新しいサンプルを作成するのは珍しいことではありません(正と負の反応が50対50回に分かれる例がしばしば使用されます)。これは、通常、すべての正の応答を含み負の応答のサンプルをランダムに採取することによって達成され、負の応答のサンプルのサイズは、新しいデータベースで望ましいとされる応答のパーセンテージによって決定されます。これが、このツールで使用されるアプローチです。

入力を接続する

Alteryx データストリーム (通常はバイナリ分類の作成に使用されるもの) 予測モデル (yes/no など)。

ツール設定

  1. オーバーサンプリングのベースにするフィールドを選択します。オーバーサンプリングされる値を含むフィールド(通常は、バイナリ分類予測モデルのターゲット変数フィールド)。
  2. オーバーサンプリングするフィールド値:オーバーサンプリングされるレベルは、通常、バイナリ分類予測モデルの正の ("yes") 応答です。
  3. 対象分野で必要な値を持つ必要があるレコードの割合:1 ~ 100 の整数値。この値は、元のデータでこのフィールドのレベルが表すパーセンテージ以下であってはなりません。たとえば、元のデータの30%が目的のフィールドに望ましい値を持つ場合、このパラメーターの値は30%未満に設定しないでください。
Was This Helpful?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support.