重要度重みツール

[重要度重み]ツールは、作成されるモデルのターゲット変数に対する可能性のある各予測子の強さに基づいて、予測モデルで使用する一連の変数を選択するメソッドを提供します。

最後に選択したセットは、N最も強く関連する予測変数をターゲットに対して行うか、カットオフ重要度の重みレベルを選択することによって、カットオフポイントを超えた値だけがモデルに含まれるようにすることによって決定されます。

このアプローチの欠点は、可能性のある相互作用の影響と予測間の相関を無視して、分離したターゲット上の可能性のある予測の強度のみを調べることです。 この制限にもかかわらず、このタイプの可変フィルタリングメソッドは実際には頻繁に使用されます。

さまざまな重要度の重みメジャーがあり、特定のメソッドの適用可能性は、通常、ターゲットの種類と予測 (数値またはカテゴリ) の両方に依存します。 この状況の1つの欠点は、可能性のあるさまざまな予測の相対的重要性の決定に使用される測定が、数値変数およびカテゴリ変数によって異なることです。 例外はリリーフメソッドですが、そのパフォーマンスは、特定のターゲット型と予測型の組み合わせに固有の他のメソッドほど堅牢ではありません。

メジャーのほとんどは、FSelector R パッケージによって提供されます。 このパッケージはJavaで記述されたいくつかのメソッドを使用しているため、このマクロを使用するには、AlteryxがインストールされているマシンにJava 7ランタイム環境を入れる必要があります。

ギャラリーツール

このツールは、Alteryx デザイナーまたは R ツールと共に自動的にはインストールされません。 このツールを使用するには、Alteryx アナリティクスギャラリーからダウンロードしてください。

入力を接続する

望ましいターゲット変数と、予測モデルの推定に使用される一連の潜在的な予測変数との両方を含むAlteryxデータストリーム。

ツールを設定する

  • [連続ターゲット]:予測するターゲット変数が数値変数の場合は、このオプションを選択します。 このオプションを選択すると、データからターゲット変数フィールドを選択するかどうか、また、潜在的な連続する(数値)またはカテゴリ(カテゴリラベル付きの文字列変数)を調べるかどうかを尋ねるメッセージが表示されます。 これを選択をしたら、調べたい予測(選択したタイプ)と1つ以上の比較測定のセットを選択する必要があります。 継続的な ターゲットと利用可能な予測変数について:
    • ピアソン相関
    • スピアマン(順位)相関
    • リリーフは、RRELIEFF アルゴリズムを提供します。 使用することができます近くの近傍の数 (近傍のカウント) とRRELIEFF メジャーを計算するために使用されるサンプルサイズ (サンプルサイズ) の両方を選択します。

    継続的なターゲットとカテゴリ予測に利用可能な重要度重みの測定は次のとおりです。

    • 条件付き平均 (ピアソン) の相関関係。 この測定は、カテゴリ変数の各レベル(カテゴリ)のターゲット変数の平均レベルを計算すること、さらに実際の値と平均値の間のピアソン相関を計算することに基づいています
    • リリーフは、RRELIEFF アルゴリズムを使用します。 使用することができます近くの近傍の数 (近傍のカウント) とRRELIEFF メジャーを計算するために使用されるサンプルサイズ (サンプルサイズ) の両方を選択します。

    サロゲート主キーや自然主キーなどのユニークな識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム例外を引き起こす可能性があります。

  • カテゴリターゲット:予測するターゲット変数がカテゴリ変数である場合は、このオプションを選択します。 このオプションを選択すると、データからターゲット変数フィールドを選択するかどうか、また、潜在的な連続する(数値)またはカテゴリ(カテゴリラベル付きの文字列変数)を調べるかどうかを尋ねるメッセージが表示されます。 これを選択をしたら、調べたい予測(選択したタイプ)と1つ以上の比較測定のセットを選択する必要があります。 継続的な ターゲットと利用可能な予測変数について:
  • カテゴリターゲットとカテゴリ予測に利用可能な重要度の重みの測定は次のとおりです。

    • クレイマーの V (カイ二乗)
    • RRELIEFFアルゴリズムを使用する、リリーフ。 使用することができます近くの近傍の数 (近傍のカウント) とRRELIEFF メジャーを計算するために使用されるサンプルサイズ (サンプルサイズ) の両方を選択します。

出力を見る

  • Dアンカー: 各潜在予測に対して選択された重要度の重み値を提供するテーブルから成ります。
  • Rアンカー: ターゲットフィールド (およびその型) と潜在的な予測フィールドの種類を示すレポートスニペットで構成され、各潜在予測に対して選択した重要度の重み値のテーブルが含まれます。