Boosted Model Tool Icon

ブーストモデルツール

バージョン:
2021.2
Last modified: September 25, 2020

[モデルのブースト] ツールを使用して、 グラデーションブースティング 方法に基づいて一般化後押し回帰モデルを作成します。 このモデルは、適切な損失関数を最小限に抑えるために、単純な決定木モデルをモデルアンサンブルに連続的に追加することによって作成されます。 これらのモデルは、統計的学習の方法を使用しています.

  • ターゲットフィールドを最も予測するフィールドのサブセットを自己決定します。
  • 非線形関係とフィールド間の相互作用をキャプチャできます。
  • 広範囲にわたる回帰と分類の問題に自動的に対処できます。

分類、カウントデータ、および連続ターゲット回帰問題でブーストモデルツールを使用します。

このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード] に移動し、Alteryx のダウンロードとライセンスのポータルにサインインして、R とR ツールで使用されるパッケージをインストールします。 参照: 予測ツールのダウンロードとご利用

入力を接続する

ブーストモデルツールには、入力データストリームが必要です。

  • 対象フィールド
  • 2 つ以上の予測フィールド

モデルの推定で使用されるパッケージは、入力データストリームによって異なります。

  • Alteryx データ ストリームは、オープンソースの R gbm 関数を使用します。
  • XDF 入力ツールまたは XDF 出力ツールから取得される XDF メタデータ ストリームは、RevoScaleR rxBTrees 関数を使用します。
  • SQL server インデータベースのデータストリームのデータは、rxBTrees 関数を使用します。
  • Microsoft Machine Learning Serverのインストールでは、SQL ServerデータベースまたはTeradataデータベースのデータに対してRevoScaleR rxBTrees関数を使用します。 この場合、ローカル マシンとサーバーを Microsoft Machine Learning Server で構成する必要があります。

アルゴリズムのパフォーマンス

オープン ソース R 関数と比較して、RevoScaleR ベースの関数は、はるかに大きなデータセットを分析できます。 しかし、RevoScaleR ベースの関数は XDF ファイルを作成する必要があり、オーバーヘッドコストが増加し、データをより多く通過させるアルゴリズムを使用し、実行時間を増加させ、一部のモデル診断出力を作成することはできないという面があります。

標準処理用のツールの構成

[必須パラメータ]タブ

これらは、ブーストモデルを生成するために必要な基本的なフィールドです。 必要なモデル パラメータを設定します。

  • モデル名: 他のツールで参照するモデルの名前。 モデル名または接頭辞は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 Rは大文字小文字を区別します。
  • ターゲット フィールドを選択します : 予測するデータ フィールド (応答変数または従属変数とも呼ばれます)。
  • 予測フィールド: データフィールドは、ターゲット変数の値に影響を与えるために使用され、これは、機能または独立変数とも呼ばれます。 2つのプレディクタフィールドが最低限必要ですが、選択されるプレディクタフィールドの数に上限はありません。 ターゲット変数自体をターゲット値の計算に使用すべきではないため、ターゲットフィールドをプレディクタフィールドに含めるべきではありません。 サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
  • モデル推定でサンプリングウェイトを使用しますか? モデル推定を作成するときに、各レコードに配置される重要度を重み付けするフィールドを選択できるオプション。 フィールドが予測値とサンプルウェイトの両方として使用されている場合、出力ウェイト変数フィールドには Right_ が付加されます。 [サンプリングウェイト フィールドの選択 ] ドロップダウンを使用して、レコードの重み付けに使用するフィールドを選択します。
  • 限界効果プロットを含める? プレディクタ変数とターゲットの間の関係を示すプロットをレポートに含めるオプションであり、他のプレディクタフィールドの効果を平均化します。プロットに含めるフィールドの最小重要度レベルを使用して、周辺効果プロットに含める変数の最小予測値を示すパーセンテージ値を設定します。 パーセンテージが高いほど、生成されるマージナル効果プロットの数が減ります。

[モデルのカスタマイズ] タブ

ターゲットとデシジョン ツリーの管理方法に基づいて出力モデルをカスタマイズするオプションの設定。これらのオプションを使用して、モデルの設定を変更できます。

  • ターゲットの種類と損失関数の分布を指定: ターゲットフィールドのデータのカテゴリと、モデルの作成を最適化するために機能する関連関数。

    • 連続ターゲット: 特定の一意の値が、店舗ごとの年間売上など、インスタンス全体のごく一部を占める数値ターゲット。 連続ターゲットの場合、次のいずれかの分布に基づいて損失関数を最小化します。

      • ガウシアン(二乗誤差損失)

      • ラプラス(絶対値損失)

      • t分布損失

    • Count (整数) ターゲット: ほとんどの一意の値が、1年間に行われる医師のオフィスへの訪問数など、インスタンス全体の大部分を占める数値ターゲット。 カウントターゲットの場合、ポアソン分布に基づく損失関数を最小化します。

    • バイナリ (2つの結果) カテゴリ: はい-いいえの分類など、2つの可能な結果を持つカテゴリターゲット。 バイナリカテゴリターゲットの場合は、次のいずれかの分布に基づいて損失関数を最小化します。

      • ベルヌーイ(ロジスティック回帰)

      • AdaBoost(指数関数的損失)

    • 多項 (3 つ以上の結果) カテゴリ: A、B、C の分類など、不連続な結果の数が制限されたカテゴリ ターゲット フィールド。 多項式カテゴリターゲットの場合、ベルヌーイ損失関数の多項式の一般化である多項ロジスティック損失関数に基づいて損失関数を最小化します。

  • モデル内のツリーの最大数: アルゴリズムが最終的なモデルに含めることができる決定木の数。 デフォルト値は4000です。 ツリーの数が多いほど実行時間が長くなります。

  • モデル内の最終的なツリー数を決定する方法: サンプルデータを過度にフィッティングさせることなく予測動作を適切にキャプチャするデシジョンツリーの数を決定するための方法。

    • クロス検証: 利用可能な情報を効率的に使用する検証方法。 データが限られている場合に推奨されます。

      • クロス検証フォールドの数: データが検証またはトレーニングのために分割されるサブサンプルの数。 デフォルト値は5です。 一般的な値は5と10です。 5つの折り返しがある場合、データは5つの一意のサブサンプルに分けられ、5つの異なるモデルが作成され、それぞれが4つのサブサンプルからのデータを使用して作成されます。 最終的なサブサンプルは、モデル作成から差し引かれ、予測精度をテストするために使用されます。

      • クロス検証で使用するマシンコア数 : 解析で使用されるマシンコアの数。 デフォルト値は1です。 使用する数は、常に使用可能なコアの数より少なくする必要があります。 計算速度を向上させるには、使用するコアの数を増やします。

    • テスト (検証) サンプル: トレーニングデータからサンプルを取り出す検証方法。 多くのレコードがある場合に推奨されます。 推定 (トレーニング) サンプルの割合を使用して、トレーニング サンプルで使用されるレコードの割合を設定し、残りはテスト サンプルで使用します。 デフォルト値は50です。 一般的な値は50%と75%です。 レコードの50%がトレーニングサンプルで使用される場合、残りの50%が予測精度のテストに使用されます。

    • アウトオブバッグ: モデル作成で除外されたレコードを使用する検証方法。

  • アウトオブバッグサンプルで使用されるオブザベーションの割合: オーバーフィットを回避するためにモードに含める適切な数のツリーを導くために使用されるサンプリングパーセンテージ。 デフォルト値は50%です。 一般的な値は25~50%です。

  • 収縮率: モデルに追加された各ツリーにウェイトを配置するために使用する 0 ~ 1 の値。 デフォルト値は.0020です。 値を小さくするほど、モデルに含まれるツリーが増え、実行時間が長くなります。 小さい収縮値では、最適な数のツリーを保証するために、設定された最大デシジョン ツリー数の値を増やす必要があります。

  • 相互作用の深さ: 予測フィールド間の相互作用のレベル。 例えば、3方向の相互作用は、1つのプレディクタが2つの他のプレディクタに依存してターゲットフィールドへの影響を判断することを示します。 デフォルト値は線形であり、予測フィールド間の相互作用がないことを前提としています。 深さを増やすと実行時間が長くなります。

  • 各ツリーノード内のオブジェクトの最小必要数: 別のデシジョンツリーの追加を許可する前に、デシジョンツリーが十分な大きさであることを検証するパラメータ。 デフォルトは10です。 値を大きくすると決定木が小さくなります。

  • ランダムシード値: ランダムサンプリングの順序を決定する値。 これにより、選択方法はランダムでデータに依存しないが、データ内の同じレコードが選択されます。 ランダム描画のシーケンスを変更するには、値を変更します。

[グラフィックス オプション] タブ

出力グラフの設定。 カスタマイズしない限り、デフォルト値が使用されます。

  • プロットサイズ: 出力グラフのサイズ。 単位を選択し、幅と高さの値を設定します。

  • グラフ解像度: 1x (96 dpi) 、2x (192 dpi)、または3x (288 dpi)の点/インチでグラフの解像度を選択します。 2x (192 dpi)

    • 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。

    • 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。

  • 基本フォントサイズ (ポイント): ポイント単位のフォントサイズ。

データベース内処理用ツールの構成

ブーストモデルツールは、Microsoft SQL Server 2016のインデータベース処理をサポートします。 データベース内サポートとツールの詳細については、「データベース内の概要」を参照してください。

ブースト モデル ツールのイン DB バージョンにアクセスするには..

  • キャンバスにインデータベースツールを配置します。 ブーストモデルツールは自動的にブーストモデルIn-DBに変更されます。
  • 勾配ブースティングツールを右クリックし、ツールバージョン の選択 から、勾配ブースティングIn-DBを選択します。

データベース内の予測サポートの詳細については、「予測分析」をご参照ください。

[必須パラメータ]タブ

ブースト モデルを生成するために必要な基本的なフィールド。

  • 作成される各モデルには、他のツールから参照できる名前が必要です。 In-DB処理では、2つのモデル名の作成方法が可能です:
    • 特定のモデル名: ユーザーが決定したモデル名。 モデル名または接頭辞は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 Rは大文字小文字を区別します。
    • モデル名を自動的に生成する : モデル名が自動的に生成されます。
  • ターゲット フィールドを選択します : 予測するデータ フィールド (応答変数または従属変数とも呼ばれます)。
  • 予測変数の選択: ターゲット変数の値に影響を与えるために使用されるデータフィールドで、機能または独立変数とも呼ばれます。 2つのプレディクタ値が最低限必要ですが、使用されるプレディクタ値の数に上限はありません。 ターゲット変数自体をターゲット値の計算に使用すべきではないため、ターゲットフィールドをプレディクタフィールドに含めるべきではありません。 サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
  • モデル推定でサンプリングウェイトを使用する: モデル推定を作成するときに、各レコードの重要度を重み付けするフィールドを選択できるオプション。 フィールドが予測値とサンプルウェイトの両方として使用されている場合、出力ウェイト変数フィールドには Right_ が付加されます。 [サンプリングウェイト フィールドの選択 ] ドロップダウンを使用して、レコードの重み付けに使用するフィールドを選択します。

[モデルのカスタマイズ] タブ

ターゲットとデシジョン ツリーの管理方法に基づいて出力モデルをカスタマイズするオプションの設定。 これらのオプションは、モデル設定を変更するために使用できます。

  • ターゲットのタイプと損失関数の分布を指定する
    • 連続ターゲット: 指定された一意の値に、ストアごとの年間売上など、インスタンス全体の小さな割合が含まれている数値ターゲット。
      連続ターゲットの場合、ガウス分布に基づいて損失関数を最小化します。
    • バイナリカテゴリターゲット:はい-いいえの分類など、2つの可能な結果を持つカテゴリターゲット。
      バイナリカテゴリカルターゲットの場合、ベルヌーイ分布に基づいて損失関数を最小化します。
    • 多項式カテゴリターゲット: a、B、C 分類などの離散的な結果の数が限られたカテゴリターゲットフィールド。
      多項式カテゴリターゲットの場合、ベルヌーイ損失関数の多項式の一般化である多項ロジスティック損失関数に基づいて損失関数を最小化します。
  • モデル内のツリーの最大数: アルゴリズムが最終的なモデルに含めることができるデシジョンツリーの数。 デフォルト値は4000です。 ツリーの数が多いほど実行時間が長くなります。
  • アウトオブバッグサンプルで使用されるオブザベーションの割合: 含まれるデシジョンツリーの数を減らすために使用されるサンプリングの割合。 デフォルト値は50%です。 一般的な値は25~50%です。
  • 学習率 (または収縮率): モデルに追加された各ツリーに重みを付けるために使用される 0 ~ 1 の値。 デフォルト値は.0020です。 値を小さくするほど、モデルに含まれるツリーが増え、実行時間が長くなります。
    小さい収縮値では、最適な数のツリーを保証するために、設定された最大デシジョン ツリー数の値を増やす必要があります。
  • ツリーサイズ: 標準の勾配ブースティングツールでデフォルトのツリーサイズ設定を模倣するには、デフォルト値を使用します。 詳細については、 rxBTreesコントロールをご参照ください。
    • maxDepth: ツリーノードの最大深度[1000]
    • minBucket: 末端ノード(またはリーフ)における最低限必要な観測数[10]
    • minSplit: 分割が試行される前にノードに存在しなければならない観測の最小数[minBucket * 2]
  • ランダムシード値: ランダムサンプリングの順序を決定する値。 これにより、選択方法はランダムでデータに依存しないが、データ内の同じレコードが選択されます。 ランダム描画のシーケンスを変更するには、値を変更します。

[グラフィックス オプション] タブ

出力グラフの設定。 カスタマイズしない限り、デフォルト値が使用されます。

  • プロットサイズ: 単位を選択し、幅と高さの値を設定します。
  • グラフ解像度: 1x (96 dpi) 、2x (192 dpi)、または3x (288 dpi)の点/インチでグラフの解像度を選択します。 2x (192 dpi)
    • 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。
    • 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
  • 基本フォントサイズ (ポイント): ポイント単位のフォントサイズ。

出力の表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • Oアンカー: 結果ウィンドウにモデル名とサイズを出力します。
  • Rアンカー: 概要と構成されたプロットを含むモデルのレポートを表示します。
役に立ちましたか?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support. Can't submit this form? Email us.