ブーストモデルツール
ブーストモデルツールは、グラデーションブーストメソッドに基づいて一般化されたブースト回帰モデルを作成します。 このモデルは、適切な損失関数を最小限に抑えるために、単純な決定木モデルをモデルアンサンブルに連続的に追加することによって作成されます。 これらのモデルは次のような統計的学習の方法を使用します:
- フィールドのどのサブセットがターゲットフィールドを最もよく予測するかを自己決定します。
- フィールド間の非線形の関係や相互作用を捕捉することができます。
- 広範な回帰および分類の問題に自動的に対処できます。
分類、カウントデータ、および連続ターゲット回帰問題でブーストモデルツールを使用します。
このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード ] に進み、 Alteryxダウンロード/ライセンスポータル R とパッケージをインストールするには、 Rツール。
ブーストモデルツールでは、次を含む入力入力データストリームが必要です:
- 関心のあるターゲットフィールド
- 2つ以上のプレディクタフィールド
モデルの推定で使用されるパッケージは、入力データストリームによって異なります。
- Alteryx データストリームは、オープンソースの R gbm関数を使用します。
- XDF メタデータストリームのいずれかから、 XDF入力ツール または XDF出力ツール、RevoScaleR rxBTrees 関数を使用します。
- SQL server データベース内のデータストリームのデータは、rxBTrees 関数を使用します。
- Microsoft マシンラーニングサーバーのインストールでは、SQL server またはテラデータデータベース内で、RevoScaleR rxBTrees 関数を使用してお客様の情報を活用できます。 これには、ローカルコンピュータとサーバーを Microsoft マシンラーニングサーバーで構成する必要があり、これによりデータベースサーバーでの処理が可能になり、パフォーマンスが大幅に向上します。
アルゴリズムのパフォーマンス
オープンソースのR関数と比較して、RevoScaleRベースの関数はより大きなデータセットを解析できます。 ただし、RevoScaleR ベースの関数は XDF ファイルを作成する必要があり、オーバーヘッドコストが増加し、データをより多くのパスにするアルゴリズムを使用して、ランタイムを増加させ、一部のモデル診断出力を作成することはできません。
- 必須パラメータ: ブーストモデルを生成するために必要な基本フィールド。
- モデル名: 他のツールから参照できるモデルの名前。 モデル名または接頭辞は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 Rは大文字小文字を区別します。
- ターゲット変数: 予測するデータフィールド (応答または従属変数とも呼ばれます)を選択します。
- 予測フィールド: ターゲット変数の値に影響を与えるために使用されるデータフィールド (フィーチャまたは独立変数とも呼ばれます)を選択します。 2つのプレディクタフィールドが最低限必要ですが、選択されるプレディクタフィールドの数に上限はありません。 ターゲット変数自体をターゲット値の計算に使用すべきではないため、ターゲットフィールドをプレディクタフィールドに含めるべきではありません。
- モデル推定でサンプリングウェイトを使用する: モデル推定を作成するときに、各レコードの重要度を重み付けするフィールドを選択できるオプション。
フィールドが予測値とサンプルウェイトの両方として使用されている場合、出力ウェイト変数フィールドには Right_ が付加されます。
- [サンプリングウェイト] フィールド: レコードの重み付けに使用するフィールドを選択します。
- 辺縁効果プロットを含めますか?: 予測変数とターゲットの間の関係を示すプロットをレポートに含めるオプションで、他の予測フィールドの効果を平均化します。
- プロットに含めるフィールドの最小レベルの重要性: 限界効果プロットに含まれる変数の最小予測力を示すパーセンテージ値です。. パーセンテージが高いほど、生成されるマージナル効果プロットの数が減ります。
- モデルのカスタマイズ: ターゲットに基づいて出力モデルをカスタマイズするオプションの設定と、デシジョンツリーの管理方法。
- ターゲットの種類と損失関数の分布を指定します: ターゲットフィールドのデータのカテゴリと、モデルの作成を最適化するために機能する関連付けられた関数。
- 連続ターゲット: 特定の一意の値が、ストアごとの年間売上など、インスタンス全体の小さな割合で構成される数値ターゲット。
連続ターゲットの場合は、次のいずれかの分布に基づいて損失関数を最小化します。 - ガウシアン(二乗誤差損失)
- ラプラス(絶対値損失)
- t分布損失
- Count (整数) ターゲット: ほとんどの一意の値が、1年間に行われる医師のオフィスへの訪問数など、インスタンス全体の大部分を占める数値ターゲット。
カウントターゲットの場合は、ポアソン分布に基づいて損失関数を最小化します。
- バイナリ (2 つの結果) カテゴリ: 2 つの可能な結果を持つカテゴリターゲット (yes-カテゴリなしなど)。
バイナリカテゴリターゲットの場合は、次のいずれかのディストリビューションに基づいて損失関数を最小化します。
- ベルヌーイ(ロジスティック回帰)
- AdaBoost(指数関数的損失)
- Multinomial (3 つ以上の結果) カテゴリ: a、B、C 分類などの離散的な結果の数が限られているカテゴリターゲットフィールド。
多項式カテゴリターゲットの場合、ベルヌーイ損失関数の多項式の一般化である多項ロジスティック損失関数に基づいて損失関数を最小化します。
- モデル内のツリーの最大数: アルゴリズムが最終的なモデルに含めることができるデシジョンツリーの数。 デフォルト値は4000です。 ツリーの数が多いほど実行時間が長くなります。
- メソッドを使用して、モデル内の最終的なツリー数を決定する: サンプルデータを過剰に当てはめずに予測動作を適切にキャプチャするデシジョンツリーの数を決定するためのメソッド。
- クロス検証: 利用可能な情報を効率的に使用する検証方法。 データが限られている場合に推奨されます。
- クロス検証フォールドの数:検証またはトレーニングのためにデータが分割されるサブサンプルの数。 デフォルト値は5です。 一般的な値は5と10です。 5フォールドの場合、データは5つのユニークなサブサンプルに分割され、5つの異なるモデルが作成され、それぞれが4つのサブサンプルからのデータを使用します。 最終的なサブサンプルは、モデル作成から差し引かれ、予測精度をテストするために使用されます。
- クロス検証で使用するマシンコアの数: 解析で使用されるマシンコアの数。 デフォルト値は1です。 使用する数は、常に使用可能なコアの数より少なくする必要があります。 計算速度を向上させるには、使用するコアの数を増やします。
- テスト (検証) サンプル: トレーニングデータからサンプルを取り出す検証方法。 多くのレコードがある場合に推奨されます。
- 見積 (トレーニング) サンプルのパーセンテージ: トレーニングサンプルで使用されているレコードの割合 (残りはテストサンプルで使用)。 デフォルト値は50です。 一般的な値は50%と75%です。 レコードの50%がトレーニングサンプルで使用される場合、残りの50%が予測精度のテストに使用されます。
- アウトオブバッグ: モデル作成で除外されたレコードを使用する検証方法。
- アウトオブバッグサンプルで使用されるオブザベーションの割合: オーバーフィット回避を回避するためにモードに含める適切な数のツリーを導くために使用されるサンプリングパーセンテージ。 デフォルト値は50%です。 一般的な値は25~50%です。
- 収縮率: モデルに追加された各ツリーにウェイトを配置するために使用する 0 ~ 1 の値。 デフォルト値は.0020です。 値を小さくするほど、モデルに含まれるツリーが増え、実行時間が長くなります。
小さな収縮値は、ツリーの最適数を保証するために、決定木の最大数の設定値を必要とする場合があります。
- 相互作用の深さ: 予測フィールド間の相互作用のレベル。 例えば、3方向の相互作用は、1つのプレディクタが2つの他のプレディクタに依存してターゲットフィールドへの影響を判断することを示します。 既定値は線形であり、予測フィールド間の相互作用がないことを前提としています。 深さを増やすと実行時間が長くなります。
- 各ツリーノード内のオブジェクトの最小必要数: デシジョンツリーを検証するパラメータは、別のデシジョンツリーを追加できるようにする前に十分なサイズです。 デフォルトは10です。 値を大きくすると決定木が小さくなります。
- ランダムシード値: ランダムサンプリングの描画シーケンスを決定する値。 これにより、選択方法はランダムでデータに依存しないが、データ内の同じレコードが選択されます。 ランダム描画のシーケンスを変更するには、値を変更します。
- グラフィックスオプション: 出力グラフの設定。 既定値は、カスタマイズしない限り使用されます。
- プロットサイズ: 出力グラフのサイズ。 単位を選択し、幅と高さの値を設定します。
-
グラフの解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度が高いほど、向上した印刷品質のより大きなファイルを作成できます。
- 基本フォントサイズ (ポイント): フォントサイズ (ポイント単位)。
サロゲート主キーや自然主キーなどのユニークな識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム例外を引き起こす可能性があります。
これらのオプションは、モデル設定を変更するために使用できます。
ブーストモデルツールは、Microsoft SQL server 2016 のデータベース処理をサポートしています。 参照: インデータベースの概要 データベース内のサポートとツールの詳細については。
ブーストモデルツールのIn-DBバージョンにアクセスするには:
- キャンバスにインデータベースツールを配置します。 ブーストモデルツールは自動的にブーストモデルIn-DBに変更されます。
- [ブーストモデル] ツールを右クリックし、[ツールバージョンの選択] をポイントして、[ブーストモデル-DB] を選択します。
参照: 予測分析 データベース内の予測サポートの詳細については。
- 必須パラメータ: ブーストモデルを生成するために必要な基本フィールド。
- 作成された各モデルには、他のツールで参照できる名前が必要です。 In-DB処理では、2つのモデル名の作成方法が可能です:
- 特定のモデル名: ユーザーが決定したモデル名。 モデル名または接頭辞は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 Rは大文字小文字を区別します。
- 生成されたモデル名: モデル名が自動的に生成されます。
- ターゲット変数: 予測するデータフィールド (応答または従属変数とも呼ばれます)を選択します。
- 予測変数: ターゲット変数の値に影響を与えるために使用されるデータフィールド (フィーチャまたは独立変数とも呼ばれます)を選択します。 2つのプレディクタ値が最低限必要ですが、使用されるプレディクタ値の数に上限はありません。 ターゲット変数自体をターゲット値の計算に使用すべきではないため、ターゲットフィールドをプレディクタフィールドに含めるべきではありません。
-
モデル推定でサンプリングウェイトを使用する: モデル推定を作成するときに、各レコードの重要度を重み付けするフィールドを選択できるオプション。
フィールドが予測値とサンプルウェイトの両方として使用されている場合、出力ウェイト変数フィールドには Right_ が付加されます。
- [サンプリングウェイト] フィールド: レコードの重み付けに使用するフィールドを選択します。
- モデルのカスタマイズ: ターゲットに基づいて出力モデルをカスタマイズするオプションの設定と、デシジョンツリーの管理方法。
- ターゲットの種類と損失関数の分布を指定します。
- 連続ターゲット: 指定された一意の値に、ストアごとの年間売上など、インスタンス全体の小さな割合が含まれている数値ターゲット。
連続ターゲットの場合は、ガウス分布に基づいて損失関数を最小化します。
- バイナリカテゴリターゲット: [yes-いいえ] などの2つの結果があるカテゴリターゲット。
バイナリカテゴリカルターゲットの場合、ベルヌーイ分布に基づいて損失関数を最小化します。
- Multinomial カテゴリターゲット: a、B、C 分類などの離散的な結果の数が限られたカテゴリターゲットフィールド。
多項式カテゴリターゲットの場合、ベルヌーイ損失関数の多項式の一般化である多項ロジスティック損失関数に基づいて損失関数を最小化します。
- 連続ターゲット: 指定された一意の値に、ストアごとの年間売上など、インスタンス全体の小さな割合が含まれている数値ターゲット。
- モデル内のツリーの最大数: アルゴリズムで追加できるデシジョンツリーの数を最終的なモデルに含めます。 デフォルト値は4000です。 ツリーの数が多いほど実行時間が長くなります。
- アウトオブバッグサンプルで使用されるオブザベーションの割合: 含まれているデシジョンツリーの数を減らすために使用されるサンプリングパーセンテージ。 デフォルト値は50%です。 一般的な値は25~50%です。
- 収縮重量: モデルに追加された各ツリーにウェイトを配置するために使用する 0 ~ 1 の値。 デフォルト値は.0020です。 値を小さくするほど、モデルに含まれるツリーが増え、実行時間が長くなります。
小さな収縮値は、ツリーの最適数を保証するために、決定木の最大数の設定値を必要とする場合があります。
- ツリーサイズ: 標準のブーストモデルツールで既定のツリーサイズの設定を模倣するには、既定値を使用します。 詳細については、rxBTreesコントロールを参照してください。
- maxDepth: ツリーノードの最大深度[1000]
- minBucket: 末端ノード(またはリーフ)における最低限必要な観測数[10]
- minSplit: 分割が試行される前にノードに存在しなければならない観測の最小数[minBucket * 2]
- ランダムシード値: ランダムサンプリングの描画シーケンスを決定する値。 これにより、選択方法はランダムでデータに依存しないが、データ内の同じレコードが選択されます。 ランダム描画のシーケンスを変更するには、値を変更します。
- グラフィックスオプション: 出力グラフの設定。 既定値は、カスタマイズしない限り使用されます。
- [印刷サイズ]: 単位を選択し、[幅] と [高さ] の値を設定します。
-
グラフの解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度が高いほど、向上した印刷品質のより大きなファイルを作成できます。
- 基本フォントサイズ (ポイント): フォントサイズ (ポイント単位)。
サロゲート主キーや自然主キーなどのユニークな識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム例外を引き起こす可能性があります。
これらのオプションは、モデル設定を変更するために使用できます。
各出力アンカーに閲覧ツールを接続して、結果を表示します。
- Oアンカー: 結果ウィンドウにモデル名とサイズを出力します。
- Rアンカー: 概要と構成されたプロットを含むモデルのレポートを表示します。