スプラインモデルツールは、Friedmanの多変量適応回帰スプライン(またはMARS)アルゴリズムを提供します。*このメソッドは、次のような現代の統計学習モデルです。 (1)は、フィールドのどのサブセットが関心のあるターゲットフィールドを最もよく予測するかを自己決定します。 (2)フィールド間の高度に非線形の関係や相互作用を捕らえることが可能で、ユーザーにはわかりやすい方法で広範な回帰と分類の問題に自動的に対処できます(ユーザーはターゲットフィールドと一連の予測フィールドを指定するだけで十分ですが、ツールは上級ユーザーにより広範囲にわたって微調整することができます)。
このツールは分類、カウントデータ、および連続ターゲット回帰の問題など、幅広い問題に適用できます。 この方法では、2段階アプローチを使用してモデルを作成します。 最初のステップ(フォワードパスとして知られ、決定木ツールで使用される再帰的分割アルゴリズムに似ています)では、ターゲットを予測する上で最も重要な変数と、適切な「スプリットポイント」(「ノット」として知られています)変数の中で見つけられます。 しかし、決定木とは異なり、決定木で行われるように離散ジャンプを使用するのではなく、隣接するノッと(項と呼ばれる)間の線が適合します。 これにより、各変数の区分的線形関数が構築され、ターゲットと予測変数間のあらゆる関係を接近させることができます。 モデルが推定サンプルをオーバーフィットしている可能性を最小限に抑え、根底にある信号とは対照的に推定サンプルノイズをようにキャプチャするために、第2ステップ(逆方向またはプルーニングパスとして知られている)は、変数のノットのいくつかを削除します(残りの項で線分を伸ばします)。
このツールはRプログラミング言語を使用します。 オプション > 予測ツールをダウンロードの順にポイントして、RとRツールが使用するパッケージをインストールします。
1つ以上の可能性のある予測フィールドとともに関心のあるターゲットフィールドを含むAlteryxデータストリーム。
モデル名: 各モデルには後で識別できるように名前を付ける必要があります。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
ターゲットフィールドを選択: 予測するデータストリームからフィールドを選択します。
予測フィールドを選択する: ターゲット変数の値が変更される "原因" と考えられるフィールドをデータストリームから選択します。
サロゲート主キーや自然主キーなどのユニークな識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム例外を引き起こす可能性があります。
効果プロットを含めますか?: チェックマークが入っていると、効果プロットが生成され、他の予測フィールドの固定レベル(数値予測の場合は中央値、係数の場合は最初のレベル)で予測変数とターゲットの関係をグラフィカルに示します。 ターゲットに主効果があるフィールドだけを表示するオプション、遠近法プロットを使用するフィールド間の2方向の相互作用効果、または主効果トと2方向のインタラクションの両方を表示するオプションがあります。
ターゲットタイプとGLMファミリーを指定する サポートされるターゲットフィールドには次の5つのタイプがあります。
各タイプのターゲットフィールドは、1つ以上の関連する可能な分散関数(アルゴリズムが最小化しようとしている尺度に関連する)を持つことができます。
ターゲット変数をスケーリングする: ターゲット変数が連続変数であり、このオプションが選択されている場合、zスコアリング(平均ゼロ、1の標準偏差)の変換が行われ、アルゴリズムのフォワードパス(第1段階)の数値安定性に役立ちます。
ノットの最大数または自動的に(オート)決定する このオプションは、アルゴリズムのフォワードパス(第1段階)の予測フィールドで可能なノット数(スプリット数)を制御します。 「オート」を選択した場合は、予測フィールドの数に基づいてノット数が計算されます。 フォワードパスの実際のノット数は、しばしば許容される最大値よりも小さくなります。
相互作用の深さ: プレディクタフィールド間の相互作用のレベル。
項またはノットごとのペナルティ。 最適化される関数は、最終モデルが推定サンプルデータに匹敵する可能性を減少させるペナルティ構成要素を含みます。 デフォルトは、主効果専用モデルの場合は2、2向以上の相互作用が許可されている場合は3です。 -1の値はノットや項が適用されてもペナルティを発生しませんが、値0はデフォルトのペナルティのみを項に適用します。
追加のノットを追加するには、最小でもR-二乗を改善する必要があります。 この項の値が高ければ高いほど、ノットを追加するために、モデルに対してR二乗の高い改善が必要です。
ノット間の最小距離: 0が選択されている場合、許容される最小距離は式に基づいて計算され、1の値は予測変数の任意の値をノットにします(データにまったくノイズがない場合のみ有効です)。そうでない場合は、0と1の間の数値を提供し、予測変数の範囲のパーセンテージとして距離を与える必要があります。
新しい変数ペナルティ: モデルに新しい変数を追加するための目的関数に付加された追加のペナルティ項。 デフォルトは0(なし)で、この値の範囲は0〜0.5です。 ノットや項ごとのペナルティと同様に、目的はオーバーフィットを制御することです
フォワードパスの各ステップで考慮されるペアレント項の最大数: この項は、フォワードパスで作成される項の数を制御し、これにより、実行が高速化されます。 0の特別な値は項に制限を設けませんが、0より大きい数は最大数の項を指定します。 デフォルトは20項で、これに共通の値は20、10、および5です。
高速MARSエージング係数 このパラメーターの説明については、Friedman(1993)のセクション3.1を参照してください。
相互検証分析を行う このオプションを使用すると、アルゴリズムで使用される一般的な相互検証メソッドと比較して十分なプルーニングが行われたかどうかのクロス確認評価が可能になります。 このオプションが選択されている場合、ユーザーは、個別の相互検証の実行回数、各クロス確認の実行時の層の数、相互検証サンプルが階層化されてカテゴリターゲットに対する応答の比較可能なミックス(たとえば、バイナリカテゴリ変数に対する匹敵する数の「はい」および「いいえ」応答の比較可能な数)、およびサンプルを作成するために生成された乱数のランダムなシード値を指定できます。
プルーニングメソッド: 選択肢は、「後方除去」、「なし」、「全数検索」、「前方選択」、および「順次置換」です。
プルーニングされたモデル内の項の最大数: 0が選択されると(デフォルト)、プルーニングパスで使用された他の基準の後に残っているすべての項が最終モデルで使用されます。そうでなければ、選択された番号までの最も重要な項のみが最終モデルに保持されます。
グラフの解像度: 1インチあたりのドット数でグラフの解像度を選択します。 1x(96dpi); 2x(192dpi);または3x(288 dpi)。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度が高いほど、向上した印刷品質のより大きなファイルを作成できます。
O出力: シリーズにされたモデルのテーブルとそのモデル名で構成されます。
R出力: [スプラインモデル]ツールによって生成されたレポートスニペットで構成されます。 基本モデルの要約、変数の重要度プロット(異なる予測フィールドの相対的重要性を示す)、基本モデル診断プロット、および(オプションで)効果プロット。
*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines
**Freidman、Jerome H.、『多変量適応回帰スプライン』、スタンフォード大学、1990年8月
***Freidman、Jerome H.、『Fast MARS』、スタンフォード大学統計学科102号、1993年5月
© Alteryx, Inc All Rights Reserved Allocate®、Alteryx®、 Guzzler®、Solocast®はAlteryx, Inc.の登録商標です。