Skip to main content

Oversample Field Tool Icon オーバーサンプルフィールドツール

ツールごとに学習

オーバーサンプルフィールドツールには、「ツールごとに学習」が用意されています。 サンプルワークフロー を参照して、Alteryx Designer でこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。

バイナリ分類予測モデルの開発に使用されるデータの場合、ターゲット変数は正 (「はい」) の応答よりも負 (「いいえ」) の応答の割合の方が非常に高いことが多くあります。たとえば、ターゲットを絞っていないダイレクトメールキャンペーンの場合、潜在的な見込み客の2%がアピールに好意的に応答し、98がは好意的ではない応答をすることは珍しくありません。この場合、予測モデルはノイズと信号を区別するのが困難です。なぜなら、「いいえ」カテゴリのすべての潜在的な見通しを分類するコストはほぼ常に正しいからです。

この問題を回避するために、正の応答のパーセンテージを高くする分析向けに新しいサンプルを作成するのは珍しいことではありません(正と負の反応が50対50回に分かれる例がしばしば使用されます)。これは、通常、すべての正の応答を含み負の応答のサンプルをランダムに採取することによって達成され、負の応答のサンプルのサイズは、新しいデータベースで望ましいとされる応答のパーセンテージによって決定されます。これが、このツールで使用されるアプローチです。

入力を接続

Alteryxデータストリーム、通常バイナリ分類 (たとえば、はい/いいえ) 予測モデルの作成に使用されるものです。

ツールの設定

  1. オーバーサンプリングの基準となるフィールドを選択 : オーバーサンプリングする値を含むフィールドで、通常バイナリ分類予測モデルにおけるターゲット変数フィールド。

  2. オーバーサンプリングしたいフィールドの値 : オーバーサンプリングの対象となるレベルで、通常バイナリ分類予測モデルにおける正 (「はい」) の応答。

  3. 関心のあるフィールドで望ましい値を持つ必要があるレコードのパーセンテージ : 1-100の整数値。この値は、元のデータでこのフィールドのレベルが表すパーセンテージ以下であってはなりません。たとえば、元のデータの30%が目的のフィールドに望ましい値を持つ場合、このパラメーターの値は30%未満に設定しないでください。