
決定木ツール
ディシジョン ツリー ツールを使用して、if-then 分割ルールのセットを作成し、 デシジョン ツリーの学習 方法に基づいてモデル作成基準を最適化します。 ルールの形成は、ターゲットフィールドタイプに基づいています。
- ターゲットフィールドがカテゴリセットのメンバーである場合、分類ツリーが構築されます。
- ターゲットフィールドが連続変数の場合、回帰ツリーが構築されます。
分類や連続ターゲット回帰の問題など、1 つ以上の変数フィールドを使用してターゲット フィールドを予測する場合は、デシジョン ツリー ツールを使用します。
このツールはRツールを使用します。 オプション > 予測ツールをダウンロード の順に進み、Alteryx Downloads and Licenses ポータルにサインインして、R と R ツール で使用されるパッケージをインストールします。 参照: 予測ツールのダウンロードとご利用
入力を接続する
ディシジョンティーツールには..
- 対象フィールド
- 1 つ以上の予測フィールド
モデルの推定で使用されるパッケージは、入力データストリームによって異なります。
- Alteryx データ ストリームは、オープン ソース Rrpart 関数を使用します。
- XDF 入力ツールまたは XDF出力ツールから取得されるXDFメタデータ ストリームは、RevoScaleR rxDTree 関数を使用します。
- SQL server インデータベースのデータストリームのデータは、rxBTrees 関数を使用します。
- Microsoft Machine Learning Serverのインストールでは、SQL ServerデータベースまたはTeradataデータベースのデータに対してRevoScaleR rxBTrees関数を使用します。 これには、ローカルマシンとサーバーをMicrosoft Machine Learning Serverで構成する必要があります。これにより、データベースサーバーでの処理が可能になり、パフォーマンスが大幅に向上します。
レボスケール機能
オープンソースのR関数と比較して、RevoScaleRベースの関数はより大きなデータセットを解析できます。 しかし、RevoScaleR ベースの関数は XDF ファイルを作成する必要があり、オーバーヘッドコストが増加し、データをより多く通過させるアルゴリズムを使用し、実行時間を増加させ、一部のモデル診断出力を作成することはできないという面があります。
標準処理用のツールの構成
これらのオプションは、決定を生成するために必要です。
- タイプ モデル名: 他のツールで参照できるモデルの名前。 モデル名または接頭辞は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 Rは大文字小文字を区別します。
- ターゲット変数の選択: 予測するデータ フィールド(応答変数または従属変数とも呼ばれます)。
- 予測変数の選択: ターゲット変数の値に影響を与えるために使用されるデータ フィールド(特徴または独立変数とも呼ばれます)。 1つの予測フィールドが最低限必要ですが、選択された予測フィールドの数に上限はありません。 ターゲット変数自体をターゲット値の計算に使用すべきではないため、ターゲットフィールドをプレディクタフィールドに含めるべきではありません。 サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
[カスタマイズ] を 選択して、追加の設定を調整します。
モデルのカスタマイズ
モデル タブ
モデルのデータ評価方法を変更するオプション。
アルゴリズムの選択: rpart 関数または C5.0 関数を選択します。 以降のオプションは、選択するアルゴリズムによって異なります。
- rpart: ブレイマン、フリードマン、オルシェン、ストーンの仕事に基づくアルゴリズム。標準と考えられています。 回帰モデルを作成する場合、または切り取るプロットが必要な場合は、rpart を使用します。
- モデルタイプとサンプリングウェイト: ターゲット変数とサンプリングウェイトの処理に基づくモデルのタイプをコントロールします。
- モデルタイプ: ターゲット変数の予測に使用されるモデルのタイプ。
- 自動: モデルタイプは、ターゲット変数のタイプに基づいて自動的に選択されます。
- 分類: モデルは、カテゴリまたはグループの個別のテキスト値を予測します。
- 回帰: モデルは連続した数値を予測します。
- モデル推定でのサンプリング重みを使用: モデル推定を作成するときに、各レコードに配置された重要度を判断し、それに応じてレコードの重みを設定するフィールドを選択できるオプションです。
フィールドが予測値とサンプルウェイトの両方として使用されている場合、出力ウェイト変数フィールドには "Right_" が付加されます。
- モデルタイプ: ターゲット変数の予測に使用されるモデルのタイプ。
-
条件とサロゲートの分割: モデルが分割を決定する方法と、データ パターンの評価でサロゲートがどのように使用されるかを制御します。 使用する分割基準: ツリーを分割するタイミングをモデルで評価する方法を選択します。
-
回帰モデルを使用する場合の分割基準は、常に最小二乗です。
-
ジニ係数
-
ジニ不純物が使用されます。
-
情報インデックス
-
-
代理を使用 :分割プロセスでサロゲートを使用する方法を選択します。 サロゲートは、情報が欠落しているレコードの分割結果を決定するために使用される主変数に関連する変数です。
-
プライマリ分割ルールの値が欠落している観測値を省略: 候補変数が欠落しているレコードは、分割の決定時には考慮されません。
-
候補変数が欠落している分割レコード: 候補変数が欠落しているすべてのレコードは、分割時に均等に分散されます。
-
すべてのサロゲートが欠落している場合は、過半数方向に観測を送信: 候補変数が欠落しているすべてのレコードは、より多くのレコードを含む分割の側にプッシュされます。
-
-
[最適なサロゲート分割を選択] : 可能な変数のセットから、最適な変数を選択するための基準を選択します。
-
候補変数の正しい分類数 : 正しく分類されたレコードの総数に基づいて、分割する変数を選択します。
-
候補変数の正しい分類の割合 正しく分類されたレコードの割合に基づいて、分割する変数を選択します。
-
-
-
ハイパーパラメーター: モデルの以前の分布のコントロール。前の分布に基づいて処理を調整します。
-
分割を許可するために必要なレコードの最小数: 分割が発生する前に存在する必要があるレコードの数を設定します。 最小数より少ないレコードがある場合、それ以上のスプリットは許可されません。
-
ターミナルノード内で許容されるレコードの最小数: ターミナルノード内に入ることができるレコードの数を設定します。 数字が小さいほど、ツリーの最後にある最終的な端末ノードの潜在的な数が増えます。
-
クロス検証で使用する折り目の数: モデルのテスト時にデータを分割するグループ数 (N) を設定します。 値のデフォルトは10ですが、他の一般的な値は5と20です。 折り目の数が多いほど、ツリーの精度は向上しますが、処理に時間がかかる場合があります。 複雑さパラメーターを使用してツリーを整理すると、クロス確認によってツリーにいくつのスプリットまたはブランチがあるかが決まります。 クロス確認では、折り畳みのN - 1がモデルの作成に使用され、もう1つの折り畳みは、過剰フィットを避けるためにホールドアウトフォールに最も適合するブランチの数の決定用サンプルとして使用されます。
-
最終ツリー内の任意のノードの最大許容深度: ルートノードからルートから最も遠いノードに許可されるブランチのレベルの数を設定して、ツリー全体のサイズを制限します。
-
各数値変数に使用するビンの最大数: 各変数に使用するビンの数を入力します。 既定では、分割を許可するために必要なレコードの最小数に基づいて値が計算されます。
XDF メタデータ の Sream のみ
このオプションは、ツールへの入力がXDFメタデータストリームの場合にのみ適用されます。 拡張性の高い決定木を実装するRevo ScaleR関数(rxDTree)は、等間隔のビニングプロセスを介して数値変数を処理し、計算の複雑さを軽減します。
- 複雑さの設定パラメータ: デシジョン ツリーのサイズを制御する値。 値を小さくするとツリー内の分岐が増え、値が大きくなると分岐が少なくなります。 複雑さのパラメーターが選択されていない場合、パラメーターはクロス検証に基づいて決定されます。
-
- モデルタイプとサンプリングウェイト: ターゲット変数とサンプリングウェイトの処理に基づくモデルのタイプをコントロールします。
- C5.0: クインランの仕事に基づくアルゴリズム;データが少数の相互排他的なクラスのいずれかにソートされる場合は、C5.0 を使用します。 クラスの割り当てに関連するプロパティが提供されますが、データによっては不明または適用できない値がある場合があります。
- 構造オプション: モデルの構造のコントロール。 デフォルトでは、モデルはデシジョンツリーとして構造化されています。
- ツリーをルールベースモデルに分解 : 出力アルゴリズムの構造をデシジョンツリーから順序付けされていない単純な if-then ルールのコレクションに変更します。[グループ ルールのしきい値数 ] を選択し、数セットが バンドしきい値となる範囲にルールをグループ化するバンドの数を選択 します。
- 詳細オプション: モデルの分割と機能のコントロール。
- モデルは、分割の離散予測変数のグループを評価する必要があります: カテゴリ予測変数をグループ化します。 4つまたは5つ以上の値を持つ重要な不連続属性がある場合は、オーバーフィット回避を減らすために選択します。
- 予測変数のウィンノミング(すなわち、機能選択)を使用: 非有用な予測変数を除外しようとしてモデルを単純化するために選択します。
- プルーニング ツリー: ツリー分割を削除してオーバーフィットを減らすために、ツリーを単純化する場合に選択します。
- データ内の高度な分割を評価する : 選択すると、二次変数を使用して評価を実行し、最も正確な予測がどの分岐であるかを確認します。
- [昇圧の停止方法を使用]: 昇圧反復が効果を発揮しなくなったかどうかを評価し、効果がない場合はブースティングを停止します。
- 数値ハイパーパラメーター: 数値に基づくモデルの以前の分布のコントロール。
- 昇圧反復の数を選択: 1 を選択して、単一モデルを使用します。
- 信頼度係数を選択: これは rpart の複雑性パラメータの類似体です。
- 少なくとも 2 分割に含まれている必要があるサンプルの数を選択する: 大きい数値を大きくすると、より小さく、より単純化されたツリーが表示されます。
- モデル評価のトレーニングから保持されているデータの割合: モデルのトレーニングに使用するデータの部分を選択します。 すべてのデータを使用してモデルをトレーニングするには、デフォルト値の0を使用します。 トレーニングとモデル精度の評価からそのデータの割合を保持するために大きな値を選択する
- アルゴリズムのランダムシードを選択する: シードの値を選択します。 タイムスタンプは正の整数でなければなりません。
- 構造オプション: モデルの構造のコントロール。 デフォルトでは、モデルはデシジョンツリーとして構造化されています。
相互検証タブ
使用可能な情報を効率的に使用して検証方法をカスタマイズするためのコントロール。
クロス 検証を使用してモデル品質の推定値を決定し、クロス検証を実行してさまざまなモデル品質メトリックとグラフを取得するを選択します。 R 出力にはいくつかのメトリクスとグラフが表示され、その他は I 出力に表示されます。
- クロス検証の折り畳みの数: データが検証またはトレーニングのために分割されるサブサンプルの数。 折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- クロス検証試行回数: 相互検証プロシージャが繰り返される回数。 折り目は各試験で異なる方法で選択され、結果はすべての試験で平均化されます。 折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- 外部クロス検証のシードを設定します。 ランダム サンプリングの描画の順序を決定する値。 これにより、選択方法はランダムでデータに依存しないが、データ内の同じレコードが選択されます。クロス検証のランダムシードの値を選択して、 シードの値を選択します。 タイムスタンプは正の整数でなければなりません。
[プロット]タブ
出力レポートに表示するグラフを選択して構成します。
- 静的レポートの表示 : R 出力アンカーからモデルの概要レポートを表示する場合に選択します。 デフォルトで選択されています。
- ツリープロット: デシジョンツリー変数と分岐のグラフ。 [ツリープロットを表示]トグルを使用して、モデルレポート出力にデシジョンツリー変数と分岐のグラフを含めます。
-
分岐距離の均一: ツリーの分岐を一定の長さで表示するか、ターゲットを予測する際の分割の相対的な重要度に比例して表示します。
-
リーフサマリー: ツリープロットの最終リーフノードに表示される内容を決定します。 レコード数が表示される場合は、[ カウント] を選択します。 合計レコード の割合が 表示される場合は、[比率] を選択します。
-
プロットサイズ: グラフを インチ または センチメートルで表示する場合に選択します。
-
幅: プロットサイズで選択した単位を使用して、グラフの幅を設定します。
-
高さ: プロットサイズで選択した単位を使用して、グラフの高さを設定します。
-
グラフ解像度: 1x (96 dpi) 、2x (192 dpi)、または3x (288 dpi) の点/インチでグラフの解像度を選択します。 2x (192 dpi)
-
解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。
-
解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
-
-
-
基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。
剪定プロット: デシジョンツリーの簡略化されたグラフ。 -
レポートで剪定プロットを使用する
-
プルーンプロットを表示する: クリックすると、モデル レポート出力にデシジョン ツリーの単純化されたグラフが含まれます。
-
プロットサイズ: グラフを インチ または センチメートルで表示する場合に選択します。
-
幅: プロットサイズで選択した単位を使用して、グラフの幅を設定します。
-
高さ: [プロット サイズ]で選択した単位を使用して、グラフの高さを設定します。
-
グラフ解像度 : グラフの解像度を 1 インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
-
基本フォント サイズ (ポイント): グラフのフォントのサイズを設定します。
-
データベース内処理用ツールの構成
[決定木]ツールは、Microsoft SQL Server 2016およびTeradataのインデータベース処理をサポートします。 データベース内サポートとツールの詳細については、「データベース内の概要」を参照してください。
[決定木]ツールがキャンバス上に別のIn-DBツールを使用して配置されると、ツールはIn-DBバージョンに自動的に変更されます。 ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。 データベース内の予測サポートの詳細については、「予測分析」をご参照ください。
[必須パラメータ]タブ
- モデル名: 後で識別できるように、各モデルに名前を付ける必要があります。
- 特定のモデル名: モデルに使用するモデル名 を入力します。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
- モデル名を自動的に生成する : Designer は、必要なパラメータを満たすモデル名を自動的に生成します。
- ターゲット変数を選択する : 予測するデータストリームからフィールドを選択します。
- 予測変数を選択: ターゲット変数の値が "原因" であると考えられるデータストリームのフィールドを選択します。 サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
- モデル推定でサンプリングウェイトを使用する(オプション):fo サンプリングウェイトを使用する入力データストリームからフィールドを選択する場合に選択します。
- サンプリング ウェイト フィールドを選択する : データ ストリームからウェイト フィールドを選択して、サンプリング ウェイトを使用するモデルを推定します。 フィールドは、予測と重み変数の両方として使用されます。 weight 変数は、出力のモデル呼び出しに「Right_」という文字列を付加して表示されます。
[モデルのカスタマイズ] タブ
- モデルタイプ: 使用するモデルのタイプを選択します。
- 分類 : カテゴリターゲットを予測するモデル。 分類モデルを使用する場合は、分割基準も選択します。
- ジニ係数
- エントロピーベース 情報インデックス
- 回帰 : 連続する数値ターゲットを予測するモデル。
- 分類 : カテゴリターゲットを予測するモデル。 分類モデルを使用する場合は、分割基準も選択します。
- 分割を可能にするために必要なレコードの最小数: ツリーの分岐のセットに沿って、選択した最小数よりも少ないレコードが、それ以上の分割が許可されない。
- 複雑さパラメータ: このパラメータは、分割の実行方法(ツリー内の分岐数)を制御します。 値は1より小さくなければならず、値が小さいほど、最終的なツリーのブランチが多くなります。 「オート」の値、または値の省略は、クロス確認に基づいて「最良の」複雑性パラメーターがもたらされることになります。
- ターミナル ノード内で許容されるレコードの最小数: ターミナル ノードに含まれなければならないレコードの最小数。 この数を減らすと、最終的な端末ノードの潜在的な数が増えます。
- 代理使用: このオプショングループは、特定の分割で予測変数内の欠損データを持つレコードのアドレス指定方法を制御します。 第1の選択肢は、スプリットに使用された変数の欠損値を含むレコードを省略(削除)することです。 2番目の方法は、「サロゲート」スプリットを使用することです。この場合、レコードの送信方向は、ほぼ同じ結果を持つ1つ以上の他の変数の代替分割に基づいています。 3番目の選択肢は、スプリット時の多数決方向の観測を送信することです。
- 第一分割ルールに対する値が欠落している観測を除外する
- 候補変数がないレコードを分割するためにサロゲートを使用する
- すべてのサロゲートが欠落している場合は、最も多い方向に観測を送信します
- 潜在的候補変数の正しい分類の総数
- 的中率が候補変数の欠落していない値に対して計算されました
- クロス検証で使用する折り目の数: 複雑性パラメータを使用してツリーを切り取ると、クロス検証を使用して、ツリー内の分割の数(したがって分岐)の数が決定されます。 これは、折り畳みのN-1がモデルを作成するために使用されるクロスバリデーションの使用を通して行われ、N番目の折り畳みは、オーバーフィットを回避するために、保持フォールドに最もよく適合するブランチの数を決定するためのサンプルとして使用されます。 ユーザーが変更できる1つのことは、データを分けるグループ数(N)です。 デフォルトは10ですが、他の一般的な値は5と20です。
- 最終ツリー内の任意のノードの最大許容深度: ルートノードからルートから最も遠いノードまでのレベル数を指定することで、ツリー全体のサイズを制限します。
- 各数値変数に使用するビンの最大数: スケーラブルなデシジョン ツリーを実装する Revo ScaleR 関数 (rxDTree) は、計算の複雑さを軽減するために、等間隔のビン分割プロセスを介して数値変数を処理します。 これらの選択肢は、「デフォルト」です。つまり、スプリットを可能にするために必要なレコードの最小数に基づく式が使用されますが、ユーザーが手動で設定することができます。 このオプションは、ツールへの入力がXDFメタデータストリームの場合にのみ適用されます。
[グラフィックス オプション] タブ
- ツリープロット : このオプションセットは、デシジョンツリーのプロットに関連するオプションの数を制御します。
- リーフの概要: このオプションの最初の選択肢は、リーフサマリーの性質です。 このオプションは、ツリープロットの最後の葉ノードにカウントまたは割合を印刷するかどうかを制御します。
- カウント
- 比率
- 均一な分岐距離: 2 つ目のオプションは、均一な分岐距離を使用するかどうかです。 このオプションは、描画されたツリーの枝の長さが、ターゲットを予測する際の分割の相対的な重要度を反映するか、ツリープロット内で一定の長さであるかを制御します。
- リーフの概要: このオプションの最初の選択肢は、リーフサマリーの性質です。 このオプションは、ツリープロットの最後の葉ノードにカウントまたは割合を印刷するかどうかを制御します。
- プロットサイズ:出力ツリープロットの寸法を設定します。
- 私はnches: プロットの 幅 と 高さを 設定します。
- センチメートル: プロットの 幅 と 高さを 設定します。
- グラフ解像度 : 1x (96 dpi) 、2x (192 dpi)、または3x (288 dpi) の点/インチでグラフの解像度を選択します。 2x (192 dpi)
- 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。
- 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
- 基本フォント サイズ (ポイント): フォント サイズ (ポイント単位)。
-
[プルーニング プロット]:モデル レポート出力にデシジョン ツリーの簡略化されたグラフを含める場合に選択します。
-
プロットサイズ: グラフをインチまたはセンチメートルで表示する場合に選択します。
-
幅 : プロットサイズで選択した単位を使用して、グラフの幅を設定します。
-
高さ: プロットサイズで選択した単位を使用して、グラフの高さを設定します。
-
-
グラフ解像度 : 1x (96 dpi) 、2x (192 dpi)、または3x (288 dpi) の点/インチでグラフの解像度を選択します。 2x (192 dpi)
-
解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。
-
解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
-
-
基本フォント サイズ (ポイント): グラフのフォントのサイズを設定します。
-
出力の表示
各出力アンカーに閲覧ツールを接続して、結果を表示します。
- O( 出力):結果ウィンドウにオブジェクトのモデル名とサイズを表示します。
- R (レポート): 集計とプロットを含むモデルのサマリー レポートを表示します。
- I (インタラクティブ): ズーム、ホバー、クリックを可能にするビジュアルをサポートする対話型のダッシュボードを表示します。
期待される動作: 印刷精度
デシジョンツリーツールを標準処理に使用する場合、対話型出力では、レポート出力よりも数値の精度が高くなります。