ツールごとに学習
ステップワイズには「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、Alteryx Designerでこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。
ステップワイズツールは線形、ロジスティック、およびその他の従来の回帰モデルの潜在的な予測変数のより大きなセットから、モデルに含めるためのべストな予測変数を決定します。
ステップワイズ回帰の実装には、2つの基本的なアプローチがあります。
最初のアプローチ(後退選択として知られる)には、ターゲット変数に影響を与える可能性があるとみなされるすべての変数を含むモデルの使用が含まれ、その後、モデルに含まれる変数の数を調整する適合測定に基づいて、元のモデルからもっとも重要でない変数が削除されます。後続の後退ステップで他の変数が削除されるこのプロセスは、調整済み適合度指標がそれ以上改善されなくなるまで継続されます。
第2の基本的アプローチ(前進変数選択として知られている)は、定数のみを含むモデルから始まり、そのモデルに調整済み適合度指標の最大の改善をもたらす一連の潜在変数のうちの1つの変数を追加します。このプロセスは、一連の前進ステップで変数を追加する作業を繰り返し、調整済み適合度指標にそれ以上の改善がない場合に終了します。後退変数選択のベースでは、削除された変数は決して後続のステップで再入力されません。また、前進選択では一度追加された変数は追加後のステップでは決して削除されません。ハイブリッドアプローチは大きい(「最大」)初期モデルおよび第1の後退ステップで始まりますが、その後の各ステップで前進および後退移動の両方が評価されます。
Alteryx Rベースのステップワイズ回帰ツールは、後退変数選択と、後退および前進変数の混合選択の両方を使用します。ツールを使用するには、まず重要と思われる変数をすべて含む「最大」回帰モデルを作成し、ステップワイズ回帰ツールを使用して、調整済み適合度指標に基づきこれらの変数のどれを削除するかを決定します。2つの異なる調整済み適合度指標の選択肢、すなわち、赤池情報基準**(AIC)およびベイズ情報基準***(BIC)がユーザーに提供されます。これらの2つの指標は互いに似ていますが、BICはモデルに含まれる変数の数により大きなペナルティを与え、一般的にAICを使用する場合よりも変数の少ない最終モデルになります。
このツールでは、入力データが通常のAlteryxデータストリームからのものであれば、適用可能なオープンソースR関数がモデル推定に使用されます。入力がXDF出力ツールまたはXDF入力ツールから取り込まれた場合では、適切なRevo ScaleR関数がモデル推定に使用されます。Revo ScaleRベースの関数は、大量の(メモリ外の)データセットを解析できる利点がありますが、オープンソースのR関数で利用可能なモデル診断出力の一部を作成できないという欠点があります。
このツールはRツールを使用します。オプション 予測ツールのダウンロード に移動し、Alteryx ダウンロードとライセンス ポータルにサインインして、Rツール で使用されるパッケージと Rツールをインストールします。予測ツールのダウンロードと使用 を参照してください。
「最大」モデルの作成に使用されたポアソン回帰、線形回帰またはロジスティック回帰ツールからの出力ストリーム。ストリームは、ツールのいずれかの側に入力できます。
「最大」モデルの作成に使用された同じAlteryxデータストリームまたはXDFメタデータストリーム。ストリームは、ツールのいずれかの側に入力できます。
[設定]タブを使用して、ステップワイズモデルのコントロールを設定します。
新しいモデルの名前: これは、選択された検索方向と選択基準に基づいてステップワイズ変数選択を使用して検出された最良のモデルです。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド(".")とアンダースコア("_")を含むことができます。他の特殊文字(スペースなど)は使用できず、またRは大文字と小文字を区別します。
検索の方向: 検索方向が後退ステップと前進ステップの両方向(メソッドは後退ステップから始まる)、または後退ステップのみが使用されます。
調整済み適合度指標: 異なるモデルを比較し、最良のモデルを選択するために使用される基準。提供される選択肢は、赤池情報基準(AIC)またはベイズ情報基準(BIC)です。
[グラフィックオプション]タブを使用して、グラフィカル出力のコントロールを設定します。
グラフの解像度: グラフの解像度を 1 インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi) で選択します。
解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
各出力アンカーに閲覧ツールを接続して、結果を表示します。
Oアンカー: モデル名とオブジェクトのサイズを持つ、順番に並んだモデルのテーブルで構成されます。
Rアンカー: 統計サマリー、逸脱度のタイプII分析(ANOVA検定)、および基本診断プロットなど、ステップワイズツールが生成するレポートスニペットで構成されます。データ入力が[XDF出力]または[XDF入力]ツールから取り込まれた場合、逸脱またはANOVAテーブルのタイプII分析および基本診断プロットは生成されません。
*https://en.wikipedia.org/wiki/Stepwise_regression **https://en.wikipedia.org/wiki/Akaike_information_criterion ***https://en.wikipedia.org/wiki/Bayesian_information_criterion