スプラインモデルツール

スプラインモデルツールには、フリードマンの多変量適応回帰スプライン (または MARS) アルゴリズムが用意されています。* このメソッドは、最新の統計的な学習モデルです: (1) フィールドのサブセットが目的の対象分野を最もよく予測する自己決定。(2) は、フィールド間の高度に非線形な関係や相互作用をキャプチャすることができます。、ユーザーに対して透過的にできる方法で、さまざまな回帰および分類の問題を自動的に解決することができます (ユーザーは、ターゲットフィールドと予測フィールドのセットを指定するのと同じようにほとんど実行できますが、ツールは高度なユーザー)。

このツールは分類、カウントデータ、および連続ターゲット回帰の問題など、幅広い問題に適用できます。 この方法では、2段階アプローチを使用してモデルを作成します。 最初のステップ(フォワードパスとして知られ、決定木ツールで使用される再帰的分割アルゴリズムに似ています)では、ターゲットを予測する上で最も重要な変数と、適切な「スプリットポイント」(「ノット」として知られています)変数の中で見つけられます。 しかし、決定木とは異なり、決定木で行われるように離散ジャンプを使用するのではなく、隣接するノッと(項と呼ばれる)間の線が適合します。 これにより、各変数の区分的線形関数が構築され、ターゲットと予測変数間のあらゆる関係を接近させることができます。 モデルが推定サンプルをオーバーフィットしている可能性を最小限に抑え、根底にある信号とは対照的に推定サンプルノイズをようにキャプチャするために、第2ステップ(逆方向またはプルーニングパスとして知られている)は、変数のノットのいくつかを削除します(残りの項で線分を伸ばします)。

このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード ] に進み、 Alteryxダウンロード/ライセンスポータル R とパッケージをインストールするには、 Rツール

入力

1つ以上の可能性のある予測フィールドとともに関心のあるターゲットフィールドを含むAlteryxデータストリーム。

ツールを設定する

[必須パラメータ] タブを使用して、スプラインモデルの必須コントロールを設定します。

  • モデル名:後で識別できるように、各モデルに名前を指定する必要があります。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲットフィールドを選択:予測するデータストリームからフィールドを選択します。
  • 予測フィールドを選択:ターゲット変数の値が "原因" と考えられるデータストリームのフィールドを選択します。

    サロゲート主キーや自然主キーなどのユニークな識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム例外を引き起こす可能性があります。

  • エフェクトプロットを含める:オンにすると、予測変数とターゲットとの関係を固定レベルでグラフィカルに表示するエフェクトプロットが生成されます (数値予測器の中央値、因子の最初のレベル)。フィールドです。 ターゲットに主効果があるフィールドだけを表示するオプション、遠近法プロットを使用するフィールド間の2方向の相互作用効果、または主効果トと2方向のインタラクションの両方を表示するオプションがあります。

モデルをより具体的に調整するには、[モデルのカスタマイズ (オプション)] タブを使用します。

  • ターゲットの種類と GLM ファミリを指定:サポートされるターゲットフィールドには、次の5種類があります。

    • 連続的なターゲット(たとえば、既定のユニークな値が全体のインスタンスの比較的少ないパーセンテージを持つ数値的ターゲット)
    • ガンマ分散ターゲット(厳密には正の数値ターゲットであり、かなり低い応答値の高いパーセンテージを持つが、比較的高い数値のパーセンテージは低い)
    • 「カウント」ターゲット(たとえば、もっともユニークな値が全体のインスタンスのかなり高いパーセンテージを持つ整数値のターゲットで、たとえば、1年に1人の患者が行う医師の診察室への来院数)
    • バイナリカテゴリターゲット(たとえば、「はい/いいえ」のバラエティのターゲットフィールド)
    • 多項式カテゴリターゲット(たとえば、「A」、「B」、または「C」などの限られた数の離散的結果を持つターゲットフィールド)

    各タイプのターゲットフィールドは、1つ以上の関連する可能な分散関数(アルゴリズムが最小化しようとしている尺度に関連する)を持つことができます。

    • 連続ターゲットには、明示的な分散もガウス(すなわち、正規分布)分散もありません。
    • ガンマ分散ターゲットの場合、使用するリンク関数(分散の平均と線形予測の関係)が選択されます。
    • カウント(整数)ターゲットは、ポアソン分散に基づいて損失関数を最小化し、ログ(優先)または識別リンク関数を使用します。
    • バイナリカテゴリターゲットは、ロジット(古典的ロジスティック回帰でも使用される)、プロビット、または補完的なログログリンク機能を使用することができます。
    • 多項式カテゴリ応答は、非標準的な方法で扱われます。 具体的には、真の多項式モデルを推定する代わりに、(ロジットリンク関数を使用する)一連のバイナリモデルが推定されます。 たとえば、可能な応答が "a"、"b"、または "c" の場合、推定されるのは、他の選択肢に対する "a"、他の選択肢に対する "b"、および他の任意の選択肢に対する "c" のモデルです。
  • ターゲット変数のスケーリング:ターゲット変数が連続変数で、このオプションが選択されている場合、前方パス (第一段階) の数値の安定性を助けるために、z スコア (平均ゼロ、標準偏差 1) の変換が行われます。アルゴリズムの。
  • ノットの最大数または自動的に決定する (Auto):このオプションは、アルゴリズムのフォワードパス (第一段階) の予測フィールドで可能なノット (分割) の数を制御します。 「オート」を選択した場合は、予測フィールドの数に基づいてノット数が計算されます。 フォワードパスの実際のノット数は、しばしば許容される最大値よりも小さくなります。
  • 相互作用の深さ:予測フィールド間の相互作用のレベル。
    • 互いに2方向の相互作用を有する2つの予測フィールドの場合、1つの予測がターゲットに及ぼす影響は、第2の予測のレベルに依存します。
    • 3方向相互作用の場合、ターゲット上の予測フィールドの効果は、他の2つの予測フィールドの値に依存します。
    • 最大5方向の相互作用(5の相互作用の深さ)を指定することができます。 このパラメーターのデフォルト値は1に設定されています(予測フィールド間に相互作用がないという暗黙の想定)。 相互作用の深さを増やすと、モデルの実行時間が大幅に長くなります。
  • 用語またはノットごとのペナルティ:最適化される関数には、最終的なモデルが推定サンプルデータを overfits する可能性を減少させるペナルティコンポーネントが含まれています。 デフォルトは、主効果専用モデルの場合は2、2向以上の相互作用が許可されている場合は3です。 -1の値はノットや項が適用されてもペナルティを発生しませんが、値0はデフォルトのペナルティのみを項に適用します。
  • 追加の結び目を追加するために必要な r-2 乗の最小の改善:この用語の値が高いほど、r-2 乗の向上は、結び目を追加するためにモデルのためにする必要があります。
  • ノット間の最小距離: 0 が選択されている場合、許容される最小距離は数式に基づいて計算され、値1は予測変数の値を結び目にすることができます (データにノイズがほとんどない場合にのみ有効です)。、それ以外の場合は 0 ~ 1 の数値を指定する必要があり、距離を予測変数の範囲に対するパーセンテージで示します。
  • 新しい変数ペナルティ:追加のペナルティ用語は、モデルに新しい変数を追加するための目的関数に付加されます。 デフォルトは0(なし)で、この値の範囲は0〜0.5です。 ノットや項ごとのペナルティと同様に、目的はオーバーフィットを制御することです
  • フォワードパスの各ステップで考慮される親用語の最大数:この用語では、フォワードパスで作成される用語の数を制御し、実行速度を上げることができます。 0の特別な値は項に制限を設けませんが、0より大きい数は最大数の項を指定します。 デフォルトは20項で、これに共通の値は20、10、および5です。
  • 高速火星老化係数:このパラメータの説明については、フリードマン (1993) のセクション3.1 を参照してください。
  • クロス検証分析を実行する: このオプションでは、アルゴリズムで使用される一般的なクロス検証メソッドに対して十分なプルーニングが行われているかどうかについて、クロス検証評価を行うことができます。 このオプションが選択されている場合、ユーザーは、個別の相互検証の実行回数、各クロス確認の実行時の層の数、相互検証サンプルが階層化されてカテゴリターゲットに対する応答の比較可能なミックス(たとえば、バイナリカテゴリ変数に対する匹敵する数の「はい」および「いいえ」応答の比較可能な数)、およびサンプルを作成するために生成された乱数のランダムなシード値を指定できます。
  • 切り取る方法:選択は「後方除去」、「なし」、「徹底的な調査」、「前方選択」、および「順次取り替え」である。
    • 後方除去(デフォルト)は、フォワードパスで見つかったすべてのノットおよび項で始まり、次に、最も予測性の低い項を最初に削除し(影響を受けた残りの項を適切に調整)、次に完全なモデルに関連して一般化されたクロス確認測定に関して効果を比較します。 項を削除することでも一般化されたクロス確認の測定が改善されない場合は、フォワードパスの後に作成されたモデルが返されます。 一般化されたクロス確認測定が改善されている場合、この項はモデルから削除され、残りの項に対してプロセスが繰り返されます。 いずれかの時点で、項を削除しても、最後の反復で作成されたモデルに関連して一般化されたクロス確認測定が改善されない場合、プロセスは終了します。
    • 選択肢が「なし」の場合、フォワードパスで見つかったすべての項が最終モデルで使用されます。
    • 全数検索では、前方検索ステップで見つかった項のすべての組み合わせが調べられますが、計算コストはあ非常に高くなります。
    • 前方削除では、インターセプトを除くすべての項が削除され、フォワードパスで見つかったものの最善の項が決定され、モデルに含まれます(インターセプト専用モデルに関連した一般化クロス確認測定が改善されると想定した場合)。 このプロセスは、一般化されたクロス確認測定を改善する付加的項が追加されなくなるまで続けられます。
    • 順次置換では、与えられた数の項を持つ解は、フォワードパスで見つかった他の可能性のある残りのすべての項に置き換えられた1つの項を持ち、一連のプルーニングパスの項にはまだ含まれていません。 元の項に関連して一般化されたクロス確認測定を改善する新しい項が見つかった場合、元の項は新しい項に置き換えられます。
  • プルーニングモデルの最大用語数: 0 が選択されている場合 (デフォルト)、プルーニングパスで使用されている他の条件が適用された後に残っているすべての用語が最終モデルで使用され、それ以外の場合は、選択した数までの最も重要な用語のみが最終モデルで etained。

グラフィック出力のコントロールを設定するには、[グラフィックスオプション] タブを使用します。

  • [印刷サイズ]: グラフのサイズに対してインチまたはセンチメートルを選択します。
  • グラフの解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度が高いほど、向上した印刷品質のより大きなファイルを作成できます。

  • 基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。

出力を見る

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • Oアンカー: モデル名を持つシリアル化されたモデルのテーブルから成ります。
  • Rアンカー: スプラインモデルツールによって生成されるレポートスニペット (基本的なモデルの概要、変数の重要度のプロット (異なる予測フィールドの相対的な重要性を示す)、基本的なモデル診断プロット、および (オプションで)効果プロット。

*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines

* *Freidman, ジェローム h., "多変量適応回帰スプライン", スタンフォード大学, 8 月 1990

Freidman、ジェローム h.、"高速火星"、技術報告 no. 102、部門 スタンフォード大学の統計の、5月1993