Oversample Field tool

オーバーサンプルフィールドツール

Last modified: March 21, 2022

バイナリ分類予測モデルの開発に使用されるデータの場合、ターゲット変数の方が負 (「いいえ」) の応答の割合が高く、次に正 (「はい」) の応答がきます。たとえば、ターゲットを絞っていないダイレクトメールキャンペーンの場合、潜在的な見込み客の2%がアピールに好意的に応答し、98が好意的ではない応答をすることは珍しくありません。この場合、予測モデルはノイズと信号を区別するのが困難です。なぜなら、「いいえ」カテゴリのすべての潜在的な見通しを分類するコストはほぼ常に正しいからです。

この問題を回避するために、正の応答のパーセンテージを高くする分析向けに新しいサンプルを作成するのは珍しいことではありません(正と負の反応が50対50回に分かれる例がしばしば使用されます)。これは、通常、すべての正の応答を含み負の応答のサンプルをランダムに採取することによって達成され、負の応答のサンプルのサイズは、新しいデータベースで望ましいとされる応答のパーセンテージによって決定されます。これが、このツールで使用されるアプローチです。

入力を接続

このツールに最適なデータは、通常、バイナリ分類 (はい、いいえなど) の予測モデルを作成するために使用されるデータです。

ツールの設定

  1. オーバーサンプリングの基準となるフィールドを選択: オーバーサンプリングする値を含む列で、通常バイナリ分類予測モデルにおけるターゲット変数列。
  2. オーバーサンプリングしたいフィールドの値: オーバーサンプリングされるべきレベルで、通常バイナリ分類予測モデルにおける正 (「はい」) の応答。
  3. 関心のあるフィールドで望ましい値を持つ必要があるレコードのパーセンテージ: 1 - 100 の整数値。この値は、元のデータでこの列のレベルが表すパーセンテージ以下であってはなりません。たとえば、元のデータの 30% が目的の列に望ましい値を持つ場合、このパラメーターの値は 30% 未満に設定しないでください。
このページは役に立ちましたか?

Alteryx 製品のご利用中に何か問題がございましたら、Alteryx コミュニティにアクセスするか、サポートにお問い合わせください。このフォームを送信できない場合E メールでお送りください。