Forest Model Tool Icon

フォレストモデルツール

バージョン:
Current
Last modified: September 25, 2020

フォレストモデルツールは1つのモデルを作成し、1つ以上の予測変数に基づいて、ターゲット変数を予測する一連の決定木モデルを構築します。 異なるモデルは、元のデータの無作為のサンプル、すなわちブートストラップと呼ばれる手順を使用して構築されます。 さらに、ツリースプリットごとに限られた数の変数しか考慮されず、決定された数はRによって自動的に設定されるか、またはユーザーによって設定されます。 「ランダム フォレスト」を参照してください。

このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード] に移動し、Alteryx のダウンロードとライセンスのポータルにサインインして、R とR ツールで使用されるパッケージをインストールします。 参照: 予測ツールのダウンロードとご利用

標準処理用のツールの構成

入力を接続する

1つ以上の可能性のある予測フィールドと共に、関心のあるターゲットフィールドを含むAlteryxデータストリームまたはXDFメタデータストリームを接続します。

入力データが Alteryx データ ストリームからのデータである場合、モデル推定にオープン ソース R randomForest 関数 (randomForest パッケージから) が使用されます。

入力データが XDF 出力ツール または XDF 入力ツールから取得される場合、モデル推定には RevoScaleR rxDForest 関数が使用されます。 RevoScaleR ベースの関数を使用する利点は、XDF ファイルを作成するために、はるかに大きな (メモリ不足) データセットを分析できますが、追加のオーバーヘッドが発生して、データを渡して、オープン ソースの randomForest 関数よりも、データを渡す必要があるアルゴリズムを使用する (非常に低速) ことです。 その結果、アンサンブル内のツリー数をデフォルトの500ツリーから減らすことを強くお勧めします。

必要なパラメータ

  • モデル名: モデルが他のツールで参照されたときにモデルを識別する名前を入力します。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド(.)と下線(_)を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲット変数を選択: 予測するデータを選択します。 ターゲット変数は、応答変数または従属変数とも呼ばれます。
  • 予測変数を選択: ターゲット変数の値に影響を与えるために使用するデータを選択します。 予測変数は、機能または独立変数とも呼ばれます。 任意の数の予測変数を選択できますが、ターゲット変数も予測変数にしてはなりません。 各カテゴリの予測変数は、最大32のクラスを持つことができます。 サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
  • 使用するツリーの数: フォレストに含めるツリーモデルの数を選択します。 デフォルトは、Breimanの発見に基づいて500になっています。 モデルの実行時間の長さが問題になる場合は、XDFメタデータストリームで値を減らしてください。
  • 各分割で選択する変数の数を選択します: 各分割で考慮する変数の数を選択します。

モデルのカスタマイズを選択して、モデルの設定を変更します。

モデルのカスタマイズ

  • 各モデルツリーの全体サイズを直接制限する
    • ツリー内で許容される合計ノード: オープンソースの randomForest モデルを使用するモデルに対して選択します。
    • モデルツリーの最大深度: RevoScaleR rxDForest 関数を使用するモデルに対して選択します。
  • ツリーノードで許可されるレコードの最小数: 各アンサンブルツリーで許容される最小のターミナルノードのサイズを制御する値を選択します。 この数を増やすと、各ツリーのノードの総数が減少します。
  • 置換を使用して各モデルを作成するためのレコードを選択: ブートストラップの複製を完全な推定サンプルから、または置換なしで描画するかどうかを制御する場合に選択します。
  • 各ツリーを作成するためにサンプリングするデータレコードの割合: 各ブートストラップの複製を形成するために、完全な推定サンプルのすべてまたは一部のみを使用するかどうかを制御する場合に選択します。

グラフィックオプション

  • プロットサイズ : グラフのサイズに対してインチまたはセンチメートルを選択します。
  • グラフ解像度: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) の点/インチでグラフの解像度を選択します。
    • 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。
    • 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
  • 基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。

出力の表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • Oアンカー: 結果ウィンドウにオブジェクトのモデル名とサイズが表示されます。
  • Rアンカー: サマリーとプロットを含むモデルのサマリレポートを表示します。

データベース内処理用ツールの構成

フォレストモデルツールは、Microsoft SQL Server 2016のインデータベース処理をサポートしています。 データベース内サポートとツールの詳細については、「データベース内の概要」を参照してください。

フォレストモデルツールが別のDB内ツールを使用してキャンバスに配置されると、ツールは自動的にIn-DBバージョンに変更されます。 ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。 データベース内の予測サポートの詳細については、「予測分析」をご参照ください。

入力を接続する

関心のあるターゲットフィールドを含むインデータベースデータストリームを、1つ以上の可能性のある予測フィールドと共に接続します。

入力が SQL server またはデータベース内のデータストリームからのものである場合、Microsoft マシンラーニングサーバー rxDForest 関数 ( RevoScaleR パッケージから) がモデル推定に使用されます。 これにより、ローカルマシンとサーバーの両方が Microsoft machine ラーニングサーバーで構成されている限り、データベースサーバー上で処理を実行できるようになり、パフォーマンスが大幅に向上する可能性があります。

必要なパラメータ

  • モデル名: 後で識別できるように、各モデルに名前を指定する必要があります。 選択は、名前を指定するか、名前を自動的に生成することです。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲット変数を選択: 予測したいデータストリームからフィールドを選択します。
  • 予測変数を選択: ターゲット変数の値が "原因" であると考えられるデータストリームのフィールドを選択します。 サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
  • 使用するツリーの数: フォレストに含めるツリーモデルの数を選択します。 デフォルトは、Breimanの発見に基づいて500になっています。 モデルの実行時間の長さが問題になる場合は、XDFメタデータストリームで値を減らしてください。
  • 各分割で選択する変数の数を選択します: 各分割で考慮する変数の数を選択します。
  • モデル推定にサンプリングウェイトを使用する: このチェックボックスをオンにし、データストリームからウェイトフィールドを選択して、サンプリングウェイトを使用するモデルを推定します。 フィールドは予測と重み変数の両方として使用され、重み変数はモデルコールの出力に「Right_」という文字列が付加された形で表示されます。

モデルのカスタマイズ

  • 各モデルツリーの全体サイズを直接制限する
    • ツリー内で許容される合計ノード: オープンソースの R randomForest モデルを使用するモデルに対して選択します。
    • モデルツリーの最大深度: RevoScaleR rxDForest 関数を使用するモデルに対して選択します。
  • ツリーノードで許可されるレコードの最小数: 各アンサンブルツリーで許容される最小のターミナルノードのサイズを制御する値を選択します。 この数を増やすと、各ツリーのノードの総数が減少します。
  • 置換を使用して各モデルを作成するためのレコードを選択: ブートストラップの複製を完全な推定サンプルから、または置換なしで描画するかどうかを制御する場合に選択します。
  • 各ツリーを作成するためにサンプリングするデータレコードの割合: 各ブートストラップの複製を形成するために、完全な推定サンプルのすべてまたは一部のみを使用するかどうかを制御する場合に選択します。

グラフィックオプション

  • プロットサイズ : グラフのサイズに対してインチまたはセンチメートルを選択します。
  • グラフ解像度: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) の点/インチでグラフの解像度を選択します。
    • 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。
    • 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
  • 基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。

出力の表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • Oアンカー: 結果ウィンドウにオブジェクトのモデル名とサイズが表示されます。
  • Rアンカー: サマリーとプロットを含むモデルのサマリレポートを表示します。
役に立ちましたか?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support. Can't submit this form? Email us.