Spline Model Tool Icon

スプラインモデルツール

バージョン:
2021.3
Last modified: September 25, 2020

スプライン モデル ツールは、フリードマンの多変量適応回帰スプライン (または MARS) アルゴリズムを提供します。 この方法は、(1) 関心のある対象フィールドを最も予測するフィールドのサブセットを自己決定する最新の統計学習モデルです。(2) フィールド間の非線形関係と相互作用をキャプチャできます。ユーザーに対して透過的にできる方法で、回帰や分類の問題に自動的に対処できます (ユーザーはターゲット フィールドと一連の予測変数を指定するのと同じくらい少なくなりますが、このツールは上級ユーザーによって広範囲に微調整できます)。

このツールは分類、カウントデータ、および連続ターゲット回帰の問題など、幅広い問題に適用できます。 この方法では、2段階アプローチを使用してモデルを作成します。 最初のステップ(フォワードパスとして知られ、決定木ツールで使用される再帰的分割アルゴリズムに似ています)では、ターゲットを予測する上で最も重要な変数と、適切な「スプリットポイント」(「ノット」として知られています)変数の中で見つけられます。 しかし、決定木とは異なり、決定木で行われるように離散ジャンプを使用するのではなく、隣接するノッと(項と呼ばれる)間の線が適合します。 これにより、各変数の区分的線形関数が構築され、ターゲットと予測変数間のあらゆる関係を接近させることができます。 モデルが推定サンプルをオーバーフィットしている可能性を最小限に抑え、根底にある信号とは対照的に推定サンプルノイズをようにキャプチャするために、第2ステップ(逆方向またはプルーニングパスとして知られている)は、変数のノットのいくつかを削除します(残りの項で線分を伸ばします)。

このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード] に移動し、Alteryx のダウンロードとライセンスのポータルにサインインして、R とR ツールで使用されるパッケージをインストールします。 参照: 予測ツールのダウンロードとご利用

入力

1つ以上の可能性のある予測フィールドとともに関心のあるターゲットフィールドを含むAlteryxデータストリーム。

ツール設定

[ 必須パラメータ] タブを使用して、スプライン モデルの必須コントロールを設定します。

  • モデル名: 後で識別できるように、各モデルに名前を付ける必要があります。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲット フィールドを選択します。 予測するデータ ストリームからフィールドを選択します。
  • 予測フィールドを選択します。 ターゲット変数の値が「原因」と思われるデータ・ストリームからフィールドを選択します。
    サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
  • 効果プロットを含めますか?: チェックマークが入っていると、効果プロットが生成され、他の予測フィールドの固定レベル(数値予測の場合は中央値、係数の場合は最初のレベル)で予測変数とターゲットの関係をグラフィカルに示します。 ターゲットに主効果があるフィールドだけを表示するオプション、遠近法プロットを使用するフィールド間の2方向の相互作用効果、または主効果トと2方向のインタラクションの両方を表示するオプションがあります。

モデルの カスタマイズ (オプション) タブを使用して、モデルに対してより具体的な調整を行います。

  • ターゲットの種類と GLM ファミリを指定:サポートされるターゲットフィールドには、次の5種類があります。
    • 連続的なターゲット(たとえば、既定のユニークな値が全体のインスタンスの比較的少ないパーセンテージを持つ数値的ターゲット)
    • ガンマ分散ターゲット(厳密には正の数値ターゲットであり、かなり低い応答値の高いパーセンテージを持つが、比較的高い数値のパーセンテージは低い)
    • 「カウント」ターゲット(たとえば、もっともユニークな値が全体のインスタンスのかなり高いパーセンテージを持つ整数値のターゲットで、たとえば、1年に1人の患者が行う医師の診察室への来院数)
    • バイナリカテゴリターゲット(たとえば、「はい/いいえ」のバラエティのターゲットフィールド)
    • 多項カテゴリターゲット(例えば、「A」、「B」、または「C」など、離散結果の数が限られているターゲット項目)
      ターゲットフィールドの各タイプには、1つ以上の関連する分布関数を持つことができます(これはアルゴリズムが最小化しようとしているメジャーに関連しています)。
    • 連続ターゲットには、明示的な分散もガウス(すなわち、正規分布)分散もありません。
    • ガンマ分散ターゲットの場合、使用するリンク関数(分散の平均と線形予測の関係)が選択されます。
    • カウント(整数)ターゲットは、ポアソン分散に基づいて損失関数を最小化し、ログ(優先)または識別リンク関数を使用します。
    • バイナリカテゴリターゲットは、ロジット(古典的ロジスティック回帰でも使用される)、プロビット、または補完的なログログリンク機能を使用することができます。
    • 多項式カテゴリ応答は、非標準的な方法で扱われます。 具体的には、真の多項式モデルを推定する代わりに、(ロジットリンク関数を使用する)一連のバイナリモデルが推定されます。 たとえば、可能な応答が "a"、"b"、または "c" の場合、推定されるのは、他の選択肢に対する "a"、他の選択肢に対する "b"、および他の任意の選択肢に対する "c" のモデルです。
  • ターゲット変数をスケーリングします。 ターゲット変数が連続変数であり、このオプションが選択されている場合、アルゴリズムの順方向パス(第1段階)における数値の安定性を助けるために、Zスコア(平均ゼロ、1の標準偏差)変換が行われます。
  • ノットの最大数または自動的に決定する (自動): このオプションは、アルゴリズムの前方パス(第 1 段階)の予測変数フィールドで可能なノット (分割) の数を制御します。 「オート」を選択した場合は、予測フィールドの数に基づいてノット数が計算されます。 フォワードパスの実際のノット数は、しばしば許容される最大値よりも小さくなります。
  • 相互作用の深さ: 予測フィールド間の相互作用のレベル。
    • 互いに2方向の相互作用を有する2つの予測フィールドの場合、1つの予測がターゲットに及ぼす影響は、第2の予測のレベルに依存します。
    • 3方向相互作用の場合、ターゲット上の予測フィールドの効果は、他の2つの予測フィールドの値に依存します。
    • 最大5方向の相互作用(5の相互作用の深さ)を指定することができます。 このパラメーターのデフォルト値は1に設定されています(予測フィールド間に相互作用がないという暗黙の想定)。 相互作用の深さを増やすと、モデルの実行時間が大幅に長くなります。
  • 用語またはノットあたりのペナルティ: 最適化される関数には、最終的なモデルが推定サンプルデータに適合する可能性を減らすペナルティ成分が含まれています。 デフォルトは、主効果専用モデルの場合は2、2向以上の相互作用が許可されている場合は3です。 -1の値はノットや項が適用されてもペナルティを発生しませんが、値0はデフォルトのペナルティのみを項に適用します。
  • R-Squared の最小限の改善は、追加のノットを追加するために必要でした。 この項の値が高いほど、ノットを追加するためには、R-Squared の改良がモデルに対して高くなる必要があります。
  • ノット間の最小距離: 0 を選択した場合、許容される最小距離が式に基づいて計算され、値 1 を指定すると、予測変数の値のいずれかをノットにできます (データのノイズがほとんどない場合にのみ有効です) 場合は、0 ~ 1 の数値を指定する必要があります。
  • 新しい変数ペナルティ: モデルに新しい変数を追加するための目的関数に追加される追加のペナルティ項。 デフォルトは0(なし)で、この値の範囲は0〜0.5です。 ノットや項ごとのペナルティと同様に、目的はオーバーフィットを制御することです
  • フォワード パスの各ステップで考慮される親用語の最大数: この用語は、フォワードパスで作成される用語の数を制御し、実行を高速化できます。 0の特別な値は項に制限を設けませんが、0より大きい数は最大数の項を指定します。 デフォルトは20項で、これに共通の値は20、10、および5です。
  • 速いMARS老化係数: このパラメータの説明については、フリードマン(1993)のセクション3.1を参照してください。
  • クロス検証分析を実行します。 このオプションを使用すると、アルゴリズムで使用される汎用的なクロス検証方法に対して十分なプルーニングが行われたかどうかに関するクロス検証評価が可能になります。 このオプションが選択されている場合、ユーザーは、個別の相互検証の実行回数、各クロス確認の実行時の層の数、相互検証サンプルが階層化されてカテゴリターゲットに対する応答の比較可能なミックス(たとえば、バイナリカテゴリ変数に対する匹敵する数の「はい」および「いいえ」応答の比較可能な数)、およびサンプルを作成するために生成された乱数のランダムなシード値を指定できます。
  • プルーニング方法: 選択肢は、「後方消去」、「なし」、「徹底的な検索」、「前方選択」、「順次置換」です。
    • 後方除去(デフォルト)は、フォワードパスで見つかったすべてのノットおよび項で始まり、次に、最も予測性の低い項を最初に削除し(影響を受けた残りの項を適切に調整)、次に完全なモデルに関連して一般化されたクロス確認測定に関して効果を比較します。 項を削除することでも一般化されたクロス確認の測定が改善されない場合は、フォワードパスの後に作成されたモデルが返されます。 一般化されたクロス確認測定が改善されている場合、この項はモデルから削除され、残りの項に対してプロセスが繰り返されます。 いずれかの時点で、項を削除しても、最後の反復で作成されたモデルに関連して一般化されたクロス確認測定が改善されない場合、プロセスは終了します。
    • 選択肢が「なし」の場合、フォワードパスで見つかったすべての項が最終モデルで使用されます。
    • 全数検索では、前方検索ステップで見つかった項のすべての組み合わせが調べられますが、計算コストはあ非常に高くなります。
    • 前方削除では、インターセプトを除くすべての項が削除され、フォワードパスで見つかったものの最善の項が決定され、モデルに含まれます(インターセプト専用モデルに関連した一般化クロス確認測定が改善されると想定した場合)。 このプロセスは、一般化されたクロス確認測定を改善する付加的項が追加されなくなるまで続けられます。
    • 順次置換では、与えられた数の項を持つ解は、フォワードパスで見つかった他の可能性のある残りのすべての項に置き換えられた1つの項を持ち、一連のプルーニングパスの項にはまだ含まれていません。 元の項に関連して一般化されたクロス確認測定を改善する新しい項が見つかった場合、元の項は新しい項に置き換えられます。
  • プルーニングされたモデル内の用語の最大数: 0 (デフォルト) を選択すると、プルーニングパスで使用される他の基準の後に残るすべての項が最終モデルで使用され、それ以外の場合は、選択した数までの最も重要な項のみが最終モデルに保持されます。
    [グラフィックス オプション]タブを使用して、グラフィック出力のコントロールを設定します。
  • プロットサイズ: グラフのサイズに対してインチまたはセンチメートルを選択します。
  • グラフ解像度 : グラフの解像度を 1 インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
  • 基本フォント サイズ (ポイント): グラフ内のフォントのサイズを選択します。

出力を表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • アンカー : モデル名を持つシリアル化されたモデルのテーブルで構成されます。
  • R アンカー: スプライン モデル ツールによって生成されたレポート スニペットで構成されます:基本的なモデルの概要、変数重要度プロット(異なる予測変数フィールドの相対的な重要度を示す)、基本モデル診断プロット、および(オプションで)効果プロット。

*https://en.wikipedia.org/wiki/Multivariate_adaptive_regression_splines
** フライドマン、ジェロームH.、 「多変量適応回帰スプライン」、スタンフォード大学、1990年8月
*** フライドマン、ジェロームH.、 「ファストマーズ」、技術報告第102番、統計学科、1993年5月

役に立ちましたか?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support. Can't submit this form? Email us.