フォレストモデルツール
フォレストモデルツールは1つのモデルを作成し、1つ以上の予測変数に基づいて、ターゲット変数を予測する一連の決定木モデルを構築します。 異なるモデルは、元のデータの無作為のサンプル、すなわちブートストラップと呼ばれる手順を使用して構築されます。 さらに、ツリースプリットごとに限られた数の変数しか考慮されず、決定された数はRによって自動的に設定されるか、またはユーザーによって設定されます。 ランダムフォレストを参照してください。
このツールはRツールを使用します。 [オプション] > [予測ツールをダウンロード ] に進み、 Alteryx ダウンロード & ライセンスポータル R と R ツールが使用されるパッケージをインストールするには 。 参照: 予測ツールのダウンロードとご利用にアクセスしてください。
1つ以上の可能性のある予測フィールドと共に、関心のあるターゲットフィールドを含むAlteryxデータストリームまたはXDFメタデータストリームを接続します。
入力データが Alteryx データストリームからのものである場合、randomForest パッケージからのオープンソース R randomForest 関数がモデル推定に使用されます。
入力データが XDF出力ツール または XDF入力ツール、RevoScaleR rxDForest 関数はモデル推定に使用されます。 RevoScaleRベースの関数を使用する利点は、大量の(メモリから作り出された)データセットを解析することが可能であるということですが、XDFファイルを作成するための余分なオーバーヘッドができるというデメリットもあり、データ上でより多くのパスを作成する必要のあるアルゴリズムを使用して、オープンソースのrandomForest関数より(ずっと遅くなりる)アンサンブル内にそれぞれのツリーを作成します。 その結果、アンサンブル内のツリー数をデフォルトの500ツリーから減らすことを強くお勧めします。
- モデル名: 他のツールで参照されているモデルを識別するモデルの名前を入力します。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド(.)と下線(_)を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
- ターゲット変数を選択: 予測するデータを選択します。 ターゲット変数は、応答または従属変数とも呼ばれます。
- 予測変数を選択: ターゲット変数の値に影響を与えるために使用するデータを選択します。 予測変数は、機能または独立変数とも呼ばれます。 任意の数の予測変数を選択できますが、ターゲット変数も予測変数にしてはなりません。 各カテゴリの予測変数は、最大32のクラスを持つことができます。
- 使用する樹木の数: フォレストに含めるツリーモデルの数を選択します。 デフォルトは、Breimanの発見に基づいて500になっています。 モデルの実行時間の長さが問題になる場合は、XDFメタデータストリームで値を減らしてください。
- 各分割で選択する変数の数を選択します: 各分割で考慮する変数の数を選択します。
サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
[モデルのカスタマイズ] をクリックしてモデル設定を変更します。
- 各モデルツリーの全体サイズを直接制限する
- ツリー内の許容されるノードの合計: オープンソース randomForest モデルを使用するモデルに対して選択します。
- モデルツリーの最大深度: RevoScaleR rxDForest 関数を使用するモデルに対して選択します。
- ツリーノードで許可されるレコードの最小数: 各アンサンブルツリーで許容される最小のターミナルノードのサイズを制御する値を選択します。 この数を増やすと、各ツリーのノードの総数が減少します。
- 置換を使用して各モデルを作成するためのレコードを選択: ブートストラップの複製を完全な推定サンプルから、または置換なしで描画するかどうかを制御する場合に選択します。
- 各ツリーを作成するためにサンプリングするデータレコードの割合: 各ブートストラップの複製を形成するために、完全な推定サンプルのすべてまたは一部のみを使用するかどうかを制御する場合に選択します。
- [印刷サイズ]: グラフのサイズに対してインチまたはセンチメートルを選択します。
-
グラフ解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
- 基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。
各出力アンカーに閲覧ツールを接続して、結果を表示します。
- Oアンカー: 結果ウィンドウにオブジェクトのモデル名とサイズが表示されます。
- Rアンカー: サマリーとプロットを含むモデルのサマリレポートを表示します。
フォレストモデルツールは、Microsoft SQL server 2016 のデータベース処理をサポートしています。 参照: インデータベースの概要 インデータベース内のサポートとツールの詳細については。
フォレストモデルツールが別の in-db ツールを使用してキャンバスに配置されると、ツールは自動的に db 内バージョンに変わります。 ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。 参照: 予測分析 データベース内の予測サポートの詳細については
- モデル名: 後で識別できるように、各モデルに名前を指定する必要があります。 名前を提供するか、名前を自動的に生成させるかのいずれかを選択できます。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
- ターゲット変数を選択: 予測したいデータストリームからフィールドを選択します。
- 予測変数を選択: ターゲット変数の値が "原因" であると考えられるデータストリームのフィールドを選択します。
- 使用する樹木の数: フォレストに含めるツリーモデルの数を選択します。 デフォルトは、Breimanの発見に基づいて500になっています。 モデルの実行時間の長さが問題になる場合は、XDFメタデータストリームで値を減らしてください。
- 各分割で選択する変数の数を選択します: 各分割で考慮する変数の数を選択します。
- モデル推定にサンプリングウェイトを使用する: このチェックボックスをオンにし、データストリームからウェイトフィールドを選択して、サンプリングウェイトを使用するモデルを推定します。 フィールドは予測と重み変数の両方として使用され、重み変数はモデルコールの出力に「Right_」という文字列が付加された形で表示されます。
サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
- 各モデルツリーの全体サイズを直接制限する
- ツリー内の許容されるノードの合計: オープンソース R randomForest モデルを使用するモデルに対して選択します。
- モデルツリーの最大深度: RevoScaleR rxDForest 関数を使用するモデルに対して選択します。
- ツリーノードで許可されるレコードの最小数: 各アンサンブルツリーで許容される最小のターミナルノードのサイズを制御する値を選択します。 この数を増やすと、各ツリーのノードの総数が減少します。
- 置換を使用して各モデルを作成するためのレコードを選択: ブートストラップの複製を完全な推定サンプルから、または置換なしで描画するかどうかを制御する場合に選択します。
- 各ツリーを作成するためにサンプリングするデータレコードの割合: 各ブートストラップの複製を形成するために、完全な推定サンプルのすべてまたは一部のみを使用するかどうかを制御する場合に選択します。
- [印刷サイズ]: グラフのサイズに対してインチまたはセンチメートルを選択します。
-
グラフ解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
- 基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。
各出力アンカーに閲覧ツールを接続して、結果を表示します。
- Oアンカー: 結果ウィンドウにオブジェクトのモデル名とサイズが表示されます。
- Rアンカー: サマリーとプロットを含むモデルのサマリレポートを表示します。