Oversample Field Tool Icon

オーバーサンプルフィールドツール

バージョン:
Current
Last modified: September 25, 2020

多くの場合、2 項分類予測モデルを開発するために使用されるデータの場合、ターゲット変数の負 (いいえ) 応答の割合が正 (はい) 応答よりもはるかに高くなります。 たとえば、ターゲットを絞っていないダイレクトメールキャンペーンの場合、潜在的な見込み客の2%がアピールに好意的に応答し、98がは好意的ではない応答をすることは珍しくありません。 この場合、予測モデルはノイズと信号を区別するのが困難です。なぜなら、「いいえ」カテゴリのすべての潜在的な見通しを分類するコストはほぼ常に正しいからです。

この問題を回避するために、正の応答のパーセンテージを高くする分析向けに新しいサンプルを作成するのは珍しいことではありません(正と負の反応が50対50回に分かれる例がしばしば使用されます)。 これは、通常、すべての正の応答を含み負の応答のサンプルをランダムに採取することによって達成され、負の応答のサンプルのサイズは、新しいデータベースで望ましいとされる応答のパーセンテージによって決定されます。これが、このツールで使用されるアプローチです。

入力を接続する

Alteryx データ ストリームは、通常は 2 項分類 (たとえば、はい/いいえ) 予測モデルの作成に使用されるデータ ストリームです。

ツール設定

  1. オーバーサンプリングの基準にするフィールドを選択します: オーバーサンプリングする値を含むフィールド(通常は二項分類予測モデルのターゲット変数フィールド)。
  2. オーバーサンプリングするフィールド値: オーバーサンプリングされるレベル、通常は二項分類予測モデルの正の応答 ("yes") です。
  3. 対象フィールドに目的の値を持つ必要があるレコードの割合: 1 から 100 までの整数値。 この値は、元のデータでこのフィールドのレベルが表すパーセンテージ以下であってはなりません。 たとえば、元のデータの30%が目的のフィールドに望ましい値を持つ場合、このパラメーターの値は30%未満に設定しないでください。
役に立ちましたか?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support. Can't submit this form? Email us.