ツールごとに学習
勾配ブースティングツールには、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、Alteryx Designer でこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。
(1)は、フィールドのどのサブセットが関心のあるターゲットフィールドを最もよく予測するかを自己決定します。 (2)フィールド間の高度に非線形の関係や相互作用を捕らえることが可能で、ユーザーにはわかりやすい方法で広範な回帰と分類の問題に自動的に対処できます(ユーザーはターゲットフィールドと一連の予測フィールドを指定するだけで十分ですが、ツールは上級ユーザーにより広範囲にわたって微調整することができます)。
このツールは分類、カウントデータ、および連続ターゲット回帰の問題など、幅広い問題に適用できます。この方法では、2段階アプローチを使用してモデルを作成します。最初のステップ(フォワードパスとして知られ、決定木ツールで使用される再帰的分割アルゴリズムに似ています)では、ターゲットを予測する上で最も重要な変数と、適切な「スプリットポイント」(「ノット」として知られています)変数の中で見つけられます。しかし、決定木とは異なり、決定木で行われるように離散ジャンプを使用するのではなく、隣接するノッと(項と呼ばれる)間の線が適合します。これにより、各変数の区分的線形関数が構築され、ターゲットと予測変数間のあらゆる関係を接近させることができます。モデルが推定サンプルをオーバーフィットしている可能性を最小限に抑え、根底にある信号とは対照的に推定サンプルノイズをようにキャプチャするために、第2ステップ(逆方向またはプルーニングパスとして知られている)は、変数のノットのいくつかを削除します(残りの項で線分を伸ばします)。
このツールはRツールを使用します。オプション > 予測ツールをダウンロード の順に進み、Alteryx Downloads and Licenses ポータルにサインインして、R と R ツール で使用されるパッケージをインストールします。予測ツールのダウンロードと使用 を参照してください。
対象のターゲットフィールドとあわせて1つ以上の予測フィールドの候補を含むAlteryxデータストリーム。
基本 タブを使用して、ダウンロードツールの必須コントロールを設定します。
モデル名: 各モデルには後で識別できるように名前を付ける必要があります。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
ターゲットフィールドを選択: 予測するデータストリームからフィールドを選択します。
予測フィールドを選択: ターゲット変数の値が変更される「原因」と考えられるフィールドをデータストリームから選択します。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
チェックマークが入っていると、効果プロットが生成され、他の予測フィールドの固定レベル(数値予測の場合は中央値、係数の場合は最初のレベル)で予測変数とターゲットの関係をグラフィカルに示します。ターゲットに主効果があるフィールドだけを表示するオプション、遠近法プロットを使用するフィールド間の2方向の相互作用効果、または主効果トと2方向のインタラクションの両方を表示するオプションがあります。
Use the Model Customization (optional) tab to make more specific adjustments to the model.
Specify target type and the GLM family: There are five types of target fields supported:
連続的なターゲット(たとえば、既定のユニークな値が全体のインスタンスの比較的少ないパーセンテージを持つ数値的ターゲット)
ガンマ分散ターゲット(厳密には正の数値ターゲットであり、かなり低い応答値の高いパーセンテージを持つが、比較的高い数値のパーセンテージは低い)
「カウント」ターゲット(たとえば、もっともユニークな値が全体のインスタンスのかなり高いパーセンテージを持つ整数値のターゲットで、たとえば、1年に1人の患者が行う医師の診察室への来院数)
バイナリカテゴリターゲット(たとえば、「はい/いいえ」のバラエティのターゲットフィールド)
多項式カテゴリターゲット(たとえば、「A」、「B」、または「C」などの限られた数の離散的結果を持つターゲットフィールド)各タイプのターゲットフィールドは、1つ以上の関連する可能な分散関数(アルゴリズムが最小化しようとしている尺度に関連する)を持つことができます。
Each type of target field can have one or more possible associated distribution functions (related to the measure the algorithm is attempting to minimize).
Continuous targets can have either no explicit distribution or Gaussian (in other words, Normal) distribution.
In the case of a Gamma distributed target, the choice is the link function to use (the relationship between the means of the distribution and linear predictor).
Count (integer) targets minimize a loss function based on the Poisson distribution and use either a log (preferred) or identity link function.
Binary categorical targets can use a logit (also used in classical logistic regression), a probit, or a complementary log-log link function.
A multinomial categorical response is treated in a nonstandard way. Specifically, instead of estimating a true multinomial model, a set of binary models (using a logit link function) are estimated. For instance, if the possible responses are "A", "B", or "C", what is estimated is a model of: "A" against any other choice, "B" against any other choice, and "C" against any other choice.
ターゲット変数が連続変数であり、このオプションが選択されている場合、zスコアリング(平均ゼロ、1の標準偏差)の変換が行われ、アルゴリズムのフォワードパス(第1段階)の数値安定性に役立ちます。
このオプションは、アルゴリズムのフォワードパス(第1段階)の予測フィールドで可能なノット数(スプリット数)を制御します。「オート」を選択した場合は、予測フィールドの数に基づいてノット数が計算されます。フォワードパスの実際のノット数は、しばしば許容される最大値よりも小さくなります。
相互作用の深さ: 予測フィールド間の相互作用のレベル。
互いに2方向の相互作用を有する2つの予測フィールドの場合、1つの予測がターゲットに及ぼす影響は、第2の予測のレベルに依存します。
3方向相互作用の場合、ターゲット上の予測フィールドの効果は、他の2つの予測フィールドの値に依存します。
最大5方向の相互作用(5の相互作用の深さ)を指定することができます。このパラメーターのデフォルト値は1に設定されています(予測フィールド間に相互作用がないという暗黙の想定)。相互作用の深さを増やすと、モデルの実行時間が大幅に長くなります。
最適化される関数は、最終モデルが推定サンプルデータに匹敵する可能性を減少させるペナルティ構成要素を含みます。デフォルトは、主効果専用モデルの場合は2、2向以上の相互作用が許可されている場合は3です。-1の値はノットや項が適用されてもペナルティを発生しませんが、値0はデフォルトのペナルティのみを項に適用します。
この項の値が高ければ高いほど、ノットを追加するために、モデルに対してR二乗の高い改善が必要です。
0が選択されている場合、許容される最小距離は式に基づいて計算され、1の値は予測変数の任意の値をノットにします(データにまったくノイズがない場合のみ有効です)。そうでない場合は、0と1の間の数値を提供し、予測変数の範囲のパーセンテージとして距離を与える必要があります。
モデルに新しい変数を追加するための目的関数に付加された追加のペナルティ項。デフォルトは0(なし)で、この値の範囲は0〜0.5です。ノットや項ごとのペナルティと同様に、目的はオーバーフィットを制御することです
The maximum number of parent terms considered at each step in the forward pass: This term controls the number of terms that are created in a forward pass, which can speed up execution. 0の特別な値は項に制限を設けませんが、0より大きい数は最大数の項を指定します。デフォルトは20項で、これに共通の値は20、10、および5です。
このパラメーターの説明については、Friedman(1993)のセクション3.1を参照してください。
このオプションを使用すると、アルゴリズムで使用される一般的な相互検証メソッドと比較して十分なプルーニングが行われたかどうかのクロス確認評価が可能になります。このオプションが選択されている場合、ユーザーは、個別の相互検証の実行回数、各クロス確認の実行時の層の数、相互検証サンプルが階層化されてカテゴリターゲットに対する応答の比較可能なミックス(たとえば、バイナリカテゴリ変数に対する匹敵する数の「はい」および「いいえ」応答の比較可能な数)、およびサンプルを作成するために生成された乱数のランダムなシード値を指定できます。
選択肢は、「後方除去」、「なし」、「全数検索」、「前方選択」、および「順次置換」です。
後方除去(デフォルト)は、フォワードパスで見つかったすべてのノットおよび項で始まり、次に、最も予測性の低い項を最初に削除し(影響を受けた残りの項を適切に調整)、次に完全なモデルに関連して一般化されたクロス確認測定に関して効果を比較します。項を削除することでも一般化されたクロス確認の測定が改善されない場合は、フォワードパスの後に作成されたモデルが返されます。一般化されたクロス確認測定が改善されている場合、この項はモデルから削除され、残りの項に対してプロセスが繰り返されます。いずれかの時点で、項を削除しても、最後の反復で作成されたモデルに関連して一般化されたクロス確認測定が改善されない場合、プロセスは終了します。
選択肢が「なし」の場合、フォワードパスで見つかったすべての項が最終モデルで使用されます。
全数検索では、前方検索ステップで見つかった項のすべての組み合わせが調べられますが、計算コストはあ非常に高くなります。
前方削除では、インターセプトを除くすべての項が削除され、フォワードパスで見つかったものの最善の項が決定され、モデルに含まれます(インターセプト専用モデルに関連した一般化クロス確認測定が改善されると想定した場合)。このプロセスは、一般化されたクロス確認測定を改善する付加的項が追加されなくなるまで続けられます。
順次置換では、与えられた数の項を持つ解は、フォワードパスで見つかった他の可能性のある残りのすべての項に置き換えられた1つの項を持ち、一連のプルーニングパスの項にはまだ含まれていません。元の項に関連して一般化されたクロス確認測定を改善する新しい項が見つかった場合、元の項は新しい項に置き換えられます。
0が選択されると(デフォルト)、プルーニングパスで使用された他の基準の後に残っているすべての項が最終モデルで使用されます。そうでなければ、選択された番号までの最も重要な項のみが最終モデルに保持されます。
Use the Graphics Options tab to set the controls for the graphical output:
Plot size: Select inches or centimeters for the size of the graph.
Graph Resolution: Select the resolution of the graph in dots per inch: 1x (96 dpi), 2x (192 dpi), or 3x (288 dpi).
解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
A higher resolution creates a larger file with better print quality.
Base font size (points): Select the size of the font in the graph.
各出力アンカーに閲覧ツールを接続して、結果を表示します。
O アンカー: シリアル化されたモデルのテーブルとそのモデル名で構成されます。
基本モデルの要約、変数の重要度プロット(異なる予測フィールドの相対的重要性を示す)、基本モデル診断プロット、および(オプションで)効果プロット。
https://en.wikipedia.org/wiki/Largest_airlines_in_the_world
**Freidman、Jerome H.、『多変量適応回帰スプライン』、スタンフォード大学、1990年8月