
重要度重みツール
[重要度重み]ツールは、作成されるモデルのターゲット変数に対する可能性のある各予測子の強さに基づいて、予測モデルで使用する一連の変数を選択するメソッドを提供します。
選択された最後のセットは、ターゲットの予測に関してもっとも強くNを取り込んだり、またはカットオフ重要度の重みレベル、およびモデルに含まれるカットオフポイントを超えるこれらの変数もみを選択したりすることに基づくことがあります。
このアプローチの欠点は、可能性のある相互作用の影響と予測間の相関を無視して、分離したターゲット上の可能性のある予測の強度のみを調べることです。 この制限にもかかわらず、このタイプの可変フィルタリングメソッドは実際には頻繁に使用されます。
さまざまな重要度重み測定があり、特定のメソッドの適用性は通常、ターゲットのタイプと予測子(数値またはカテゴリ)の両方に依存します。 この状況の1つの欠点は、可能性のあるさまざまな予測の相対的重要性の決定に使用される測定が、数値変数およびカテゴリ変数によって異なることです。 「リリーフ」メソッドは例外ですが、そのパフォーマンスは、特定のターゲットタイプと予測タイプの組み合わせに固有の他のメソッドほど堅牢ではありません。
メジャーのほとんどは 、FSelector R パッケージによって提供されます。 このパッケージはJavaで記述されたいくつかのメソッドを使用しているため、このマクロを使用するには、AlteryxがインストールされているマシンにJava 7ランタイム環境を入れる必要があります。
このツールは、Alteryx デザイナーまたは R ツールと共に自動的にはインストールされません。 このツールを使用するには、Alteryx Analytics Galleryからダウンロードしてください。
入力を接続する
望ましいターゲット変数と、予測モデルの推定に使用される一連の潜在的な予測変数との両方を含むAlteryxデータストリーム。
ツール設定
- 連続ターゲット: 予測するターゲット変数が数値変数の場合は、このオプションを選択します。 このオプションを選択すると、データからターゲット変数フィールドを選択するかどうか、また、潜在的な連続する(数値)またはカテゴリ(カテゴリラベル付きの文字列変数)を調べるかどうかを尋ねるメッセージが表示されます。 これを選択をしたら、調べたい予測(選択したタイプ)と1つ以上の比較測定のセットを選択する必要があります。 継続的な ターゲットと利用可能な予測変数について:
- ピアソン相関
- スピアマン(順位)相関
- リリーフは 、RRELIEFF アルゴリズムを提供します。 この使用は、近傍の数 (近隣のカウント) と RRELIEFF メジャーの計算に使用されるサンプル サイズ (サンプル サイズ) の両方を選択できます。
- 継続的なターゲットとカテゴリ予測に利用可能な重要度重みの測定は次のとおりです。
- 条件付き平均(ピアソン)相関。 この測定は、カテゴリ変数の各レベル(カテゴリ)のターゲット変数の平均レベルを計算すること、さらに実際の値と平均値の間のピアソン相関を計算することに基づいています
- リリーフは、RRELIEFF アルゴリズムを使用します。 この使用は、近傍の数 (近隣のカウント) と RRELIEFF メジャーの計算に使用されるサンプル サイズ (サンプル サイズ) の両方を選択できます。
- サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
- カテゴリーターゲット: 予測するターゲット変数がカテゴリ変数の場合は、このオプションを選択します。 このオプションを選択すると、データからターゲット変数フィールドを選択するかどうか、また、潜在的な連続する(数値)またはカテゴリ(カテゴリラベル付きの文字列変数)を調べるかどうかを尋ねるメッセージが表示されます。 これを選択をしたら、調べたい予測(選択したタイプ)と1つ以上の比較測定のセットを選択する必要があります。 継続的な ターゲットと利用可能な予測変数について:
- エントロピー情報獲得
- エントロピー獲得比
- エントロピー対称的不確実性
- RRELIEFFアルゴリズムを使用する、リリーフ。 この使用は、近傍の数 (近隣のカウント) と RRELIEFF メジャーの計算に使用されるサンプル サイズ (サンプル サイズ) の両方を選択できます。
- カテゴリターゲットとカテゴリ予測に利用可能な重要度の重みの測定は次のとおりです。
- クラマーズV( カイ二乗)
- RRELIEFFアルゴリズムを使用する、リリーフ。 この使用は、近傍の数 (近隣のカウント) と RRELIEFF メジャーの計算に使用されるサンプル サイズ (サンプル サイズ) の両方を選択できます。
出力の表示
- D アンカー: 各潜在的な予測変数に選択した重要度の重み値を提供するテーブルで構成されます。
- R アンカー: ターゲット フィールド (およびそのタイプ) と潜在的な予測フィールドの種類と、各潜在的な予測変数の選択した重要度の重み値のテーブルを示すレポート スニペットで構成されます。