フォレストモデルツール

フォレストモデルツールは1つのモデルを作成し、1つ以上の予測変数に基づいて、ターゲット変数を予測する一連の決定木モデルを構築します。異なるモデルは、元のデータの無作為のサンプル、すなわちブートストラップと呼ばれる手順を使用して構築されます。さらに、ツリースプリットごとに限られた数の変数しか考慮されず、決定された数はRによって自動的に設定されるか、またはユーザーによって設定されます。ランダムフォレストを参照してください。

このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード ] に進み、 Alteryxダウンロード／ライセンスポータル R とパッケージをインストールするには、 Rツール。

標準処理のためのツールを構成する

入力を接続する

1つ以上の可能性のある予測フィールドと共に、関心のあるターゲットフィールドを含むAlteryxデータストリームまたはXDFメタデータストリームを接続します。

入力データが Alteryx データストリームからのものである場合、randomForest パッケージからのオープンソース R randomForest 関数がモデル推定に使用されます。

入力データが XDF出力ツールまたは XDF入力ツール、RevoScaleR rxDForest 関数はモデル推定に使用されます。 RevoScaleRベースの関数を使用する利点は、大量の(メモリから作り出された)データセットを解析することが可能であるということですが、XDFファイルを作成するための余分なオーバーヘッドができるというデメリットもあり、データ上でより多くのパスを作成する必要のあるアルゴリズムを使用して、オープンソースのrandomForest関数より(ずっと遅くなりる)アンサンブル内にそれぞれのツリーを作成します。その結果、アンサンブル内のツリー数をデフォルトの500ツリーから減らすことを強くお勧めします。

必要なパラメータ

モデル名: 他のツールで参照されているモデルを識別するモデルの名前を入力します。モデル名は文字で始まり、文字、数字、および特殊文字ピリオド(.)と下線(_)を含む必要があります。その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
ターゲット変数を選択: 予測するデータを選択します。ターゲット変数は、応答または従属変数とも呼ばれます。
予測変数を選択: ターゲット変数の値に影響を与えるために使用するデータを選択します。予測変数は、機能または独立変数とも呼ばれます。任意の数の予測変数を選択できますが、ターゲット変数も予測変数にしてはなりません。各カテゴリの予測変数は、最大32のクラスを持つことができます。

サロゲート主キーや自然主キーなどのユニークな識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、ランタイム例外を引き起こす可能性があります。

使用する樹木の数: フォレストに含めるツリーモデルの数を選択します。デフォルトは、Breimanの発見に基づいて500になっています。モデルの実行時間の長さが問題になる場合は、XDFメタデータストリームで値を減らしてください。
各分割で選択する変数の数を選択します: 各分割で考慮する変数の数を選択します。

[モデルのカスタマイズ] をクリックしてモデル設定を変更します。

モデルのカスタマイズ

各モデルツリーの全体サイズを直接制限する

ツリー内の許容されるノードの合計: オープンソース randomForest モデルを使用するモデルに対して選択します。
モデルツリーの最大深度: RevoScaleR rxDForest 関数を使用するモデルに対して選択します。

ツリーノードで許可されるレコードの最小数: 各アンサンブルツリーで許容される最小のターミナルノードのサイズを制御する値を選択します。この数を増やすと、各ツリーのノードの総数が減少します。
置換を使用して各モデルを作成するためのレコードを選択: ブートストラップの複製を完全な推定サンプルから、または置換なしで描画するかどうかを制御する場合に選択します。
各ツリーを作成するためにサンプリングするデータレコードの割合: 各ブートストラップの複製を形成するために、完全な推定サンプルのすべてまたは一部のみを使用するかどうかを制御する場合に選択します。

グラフィックオプション

[印刷サイズ]: グラフのサイズに対してインチまたはセンチメートルを選択します。
グラフの解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。解像度が高いほど、向上した印刷品質のより大きなファイルを作成できます。
基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。

出力を見る

各出力アンカーに閲覧ツールを接続して、結果を表示します。

Oアンカー: 結果ウィンドウにオブジェクトのモデル名とサイズが表示されます。
Rアンカー: サマリーとプロットを含むモデルのサマリレポートを表示します。

インデータベース処理のためのツールの設定

フォレストモデルツールは、Microsoft SQL server 2016 のデータベース処理をサポートしています。参照：インデータベースの概要データベース内のサポートとツールの詳細については。

フォレストモデルツールが別の in-db ツールを使用してキャンバスに配置されると、ツールは自動的に db 内バージョンに変わります。ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。参照：予測分析データベース内の予測サポートの詳細については。