決定木ツール
デシジョンツリーツールは、デシジョンツリーの学習方法に基づいてモデル作成基準を最適化するために、if-分割ルールのセットを作成します。 ルールの形成は、ターゲットフィールドタイプに基づいています。
- ターゲットフィールドがカテゴリセットのメンバーである場合、分類ツリーが構築されます。
- ターゲットフィールドが連続変数の場合、回帰ツリーが構築されます。
分類フィールドまたは連続ターゲット回帰問題など、1つ以上の可変フィールドを使用してターゲットフィールドが予測されるとき、[決定木]ツールを使用します。
このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード ] に進み、 Alteryxダウンロード/ライセンスポータル R とパッケージをインストールするには、 Rツール。
[決定木]ツールでは、次のものを入力する必要があります。
- 関心のあるターゲットフィールド
- 1つ以上の予測フィールド
モデルの推定で使用されるパッケージは、入力データストリームによって異なります。
- Alteryx データストリームは、オープンソースの R rpart関数を使用します。
- XDF メタデータストリームのいずれかから、 XDF入力ツール または XDF出力ツール、RevoScaleR rxDTree 関数を使用します。
- SQL server データベース内のデータストリームのデータは、rxBTrees 関数を使用します。
- Microsoft マシンラーニングサーバーのインストールでは、SQL server またはテラデータデータベース内で、RevoScaleR rxBTrees 関数を使用してお客様の情報を活用できます。 これには、ローカルコンピュータとサーバーを Microsoft マシンラーニングサーバーで構成する必要があり、これによりデータベースサーバーでの処理が可能になり、パフォーマンスが大幅に向上します。
RevoScaleR 機能
オープンソースのR関数と比較して、RevoScaleRベースの関数はより大きなデータセットを解析できます。 ただし、RevoScaleR ベースの関数は XDF ファイルを作成する必要があり、オーバーヘッドコストが増加し、データをより多くのパスにするアルゴリズムを使用して、ランタイムを増加させ、一部のモデル診断出力を作成することはできません。
これらのオプションは、決定を生成するために必要です。
- 型モデル名: 他のツールから参照できるモデルの名前。 モデル名または接頭辞は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 Rは大文字小文字を区別します。
- ターゲット変数の選択: 予測されるデータフィールド (応答または従属変数とも呼ばれます)。
- [予測変数]: ターゲット変数の値 (フィーチャまたは独立変数とも呼ばれます) に影響を与えるために使用されるデータフィールド。 1つの予測フィールドが最低限必要ですが、選択された予測フィールドの数に上限はありません。 ターゲット変数自体をターゲット値の計算に使用すべきではないため、ターゲットフィールドをプレディクタフィールドに含めるべきではありません。
サロゲート主キーや自然主キーなどのユニークな識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム例外を引き起こす可能性があります。
[カスタマイズ] をクリックして追加設定を調整します。
モデル: モデルがデータを評価して構築する方法を変更するオプション。
アルゴリズムを選択: rpart 関数または c 5.0 関数を選択します。
rpart: Breiman、フリードマン、Olshen、および石の仕事に基づいてアルゴリズム; 標準と見なされます。 回帰モデルを作成する場合、または切り取るプロットが必要な場合は、rpart を使用します。
モデルタイプとサンプリングウェイト: ターゲット変数とサンプリングウェイトの処理に基づくモデルのタイプのコントロール。
- モデルの種類: ターゲット変数を予測するために使用されるモデルの型。
- Auto: モデルタイプは、ターゲット変数タイプに基づいて自動的に選択されます。
- 分類: モデルは、カテゴリまたはグループの離散的なテキスト値を予測します。
- 回帰: モデルは連続する数値を予測します。
- モデル推定でサンプリングウェイトを使用する: モデル推定を作成するときに、各レコードに配置される重要度を判断し、それに応じてレコードを重み付けするフィールドを選択できるオプション。
フィールドが予測値とサンプルウェイトの両方として使用されている場合、出力ウェイト変数フィールドには "Right_" が付加されます。
分割基準とサロゲート: モデルが分割をどのように決定するか、およびデータパターンの評価でサロゲートがどのように使用されるかを制御します。
- 使用する分割基準:ツリーを分割するときにモデルが評価する方法を選択します。
- ジニ係数
- 情報インデックス
- [サロゲートを使用する]: 分割プロセスでサロゲートを使用する方法を選択します。 サロゲートは、情報が欠落しているレコードの分割結果を決定するために使用される主変数に関連する変数です。
- 一次分割規則の欠損値を含むオブザベーションを省略する: 候補変数が欠落しているレコードは、分割を決定する際に考慮されません。
- 候補変数が欠落しているレコードを分割: 候補変数が欠落しているすべてのレコードは、分割に均等に配分されます。
- すべてのサロゲートが欠落している場合、過半数の方向に観測を送信: 候補変数が欠落しているすべてのレコードは、より多くのレコードを含む分割の側にプッシュされます。
- [最適なサロゲート分割を使用する] を選択します。指定できる変数のセットから、分割する最良の変数を選択するための基準を選びます。
- 候補変数の正しい分類の数: 適切に分類されるレコードの総数に基づいて、分割する変数を選択します。
- 候補変数の正しい分類の割合は、正しく分類されるレコードの割合に基づいて、分割する変数を選択します。
回帰モデルを使用する場合の分割基準は、常に最小二乗です。
ジニ不純物が使用されます。
ハイパーパラメータ: モデルの前の分布を制御します。
- 分割を許可するために必要なレコードの最小数: 分割が発生する前に存在する必要があるレコードの数を設定します。 最小数より少ないレコードがある場合、それ以上のスプリットは許可されません。
- ターミナルノードで許可されている最小レコード数: ターミナルノードにできるレコードの数を設定します。 数字が小さいほど、ツリーの最後にある最終的な端末ノードの潜在的な数が増えます。
- クロス検証でツリーを切り取るために使用するフォールドの数: モデルをテストするときにデータを分割するグループの数 (N) を設定します。 値のデフォルトは10ですが、他の一般的な値は5と20です。 折り目の数が多いほど、ツリーの精度は向上しますが、処理に時間がかかる場合があります。 複雑さパラメーターを使用してツリーを整理すると、クロス確認によってツリーにいくつのスプリットまたはブランチがあるかが決まります。 クロス確認では、折り畳みのN - 1がモデルの作成に使用され、もう1つの折り畳みは、過剰フィットを避けるためにホールドアウトフォールに最も適合するブランチの数の決定用サンプルとして使用されます。
- 最終的なツリー内の任意のノードの最大許容深度: ルートノードから最も遠いノードに許可されるブランチのレベル数をルートから設定して、ツリー全体のサイズを制限します。
- 各数値変数に使用する bin の最大数: 各変数に使用する bin の数を入力します。 既定では、分割を許可するために必要なレコードの最小数に基づいて値が計算されます。
- [複雑さの設定] パラメーター: デシジョンツリーのサイズを制御する値。 値を小さくするとツリー内の分岐が増え、値が大きくなると分岐が少なくなります。 複雑さのパラメーターが選択されていない場合、パラメーターはクロス検証に基づいて決定されます。
XDF メタデータストリームのみ
このオプションは、ツールへの入力がXDFメタデータストリームの場合にのみ適用されます。 拡張性の高い決定木を実装するRevo ScaleR関数(rxDTree)は、等間隔のビニングプロセスを介して数値変数を処理し、計算の複雑さを軽減します。
c 5.0: Quinlan の作業に基づくアルゴリズム; データが少数の相互排他クラスの1つに分類されている場合は、c 5.0 を使用します。 クラスの割り当てに関連するプロパティが提供されますが、データによっては不明または適用できない値がある場合があります。
構造オプション: モデルの構造のコントロール。 デフォルトでは、モデルはデシジョンツリーとして構造化されています。
- ツリーをルールベースのモデルに分解する: 出力アルゴリズムの構造をデシジョンツリーから順序なしの単純な if ルールのコレクションに変更します。
- [ルールをグループ化するバンドのしきい値]: バンド数を選択して、ルールをグループ化して、 番号セットが帯域のしきい値 になる場所を選択します。
詳細オプション: モデルの分割およびフィーチャーのコントロール。
- モデルは、分割の離散予測因子のグループを評価する必要があります: グループカテゴリ予測変数を一緒に。 4つまたは5つ以上の値を持つ重要な不連続属性がある場合は、オーバーフィット回避を減らすために選択します。
- 予測選別 (機能選択) を使用: 非有用な予測変数を除外することによってモデルを簡略化する場合に選択します。
- ツリーを切り取る: ツリー分割を削除してオーバーフィット回避を減らすためにツリーを簡略化する場合に選択します。
- [データ内の高度な分割を評価する]: 選択してセカンダリ変数で評価を実行し、最も正確な予測である分岐を確認します。
- ブーストの停止方法を使用: ブーストイテレーションが無効になっているかどうかを評価する場合はオンにし、その場合はブーストを停止します。
数値ハイパーパラメータ: 数値に基づくモデルの前の分布を制御します。
- ブーストイテレーションの数を選択: 1 を選択して、単一のモデルを使用します。
- 信頼度係数の選択: これはrpartの複雑さパラメーターの類推です。
- 少なくとも2分割でなければならないサンプルの数を選択してください: より大きい数は、より小さく、より単純化された、木を与えます。
- モデル評価のためのトレーニングから保持されたデータの割合: モデルの訓練に使用するデータの一部を選択します。 すべてのデータを使用してモデルをトレーニングするには、デフォルト値の0を使用します。 トレーニングとモデル精度の評価からそのデータの割合を保持するために大きな値を選択する
- アルゴリズムのランダムシードの選択: シードの値を選択します。 タイムスタンプは正の整数でなければなりません。
クロス検証: 使用可能な情報を効率的に使用する検証方法をカスタマイズするためのコントロール。
- クロス検証を使用してモデル品質の見積もりを決定する: 複数のモデル品質のメトリックスとグラフを取得するためにクロス検証を実行する場合に選択します。 R 出力にはいくつかのメトリクスとグラフが表示され、その他は I 出力に表示されます。
- クロス検証フォールドの数: 検証またはトレーニングのためにデータが分割されるサブサンプルの数。 折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- クロス検証試験の数: クロス検証プロシージャが繰り返される回数。 フォールドは、各試験で異なる選択され、結果はすべての試験で平均化されます。 折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- 外部クロス検証のシードを設定: ランダムサンプリングの描画シーケンスを決定する値。 これにより、選択方法はランダムでデータに依存しないが、データ内の同じレコードが選択されます。
- クロス検証のためのランダムシードの値を選択: シードの値を選択します。 タイムスタンプは正の整数でなければなりません。
プロット: 出力レポートに表示されるグラフを選択して構成します。
[静的レポートの表示]: R 出力アンカーからモデルの概要レポートを表示する場合に選択します。 デフォルトで選択されています。
ツリープロット: デシジョンツリー変数と分岐のグラフ。
表示ツリープロット: クリックすると、デシジョンツリー変数と分岐のグラフがモデルレポートの出力に含まれます。
- [均一な分岐距離]: 選択すると、ツリーの分岐が均一の長さで表示されるか、またはターゲットの予測における分割の相対的重要性に比例します。
- リーフの概要: ツリープロットの最後のリーフノードに表示される内容を決定します。 レコード数が表示されている場合は、[カウント] を選択します。 合計レコードの割合が表示されている場合は、比率を選択します。
- [印刷サイズ]: グラフがインチまたはセンチメートルで表示される場合に選択し ます。
- [幅]: [印刷サイズ] で選択した単位を使用してグラフの幅を設定します。
- [高さ]: [印刷サイズ] で選択した単位を使用してグラフの高さを設定します。
-
グラフの解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度が高いほど、向上した印刷品質のより大きなファイルを作成できます。
- 基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。
剪定プロット: デシジョンツリーの簡略化されたグラフ。
表示プルーニングプロット: クリックすると、モデルレポート出力にデシジョンツリーの簡略化されたグラフが追加されます。
- [印刷サイズ]: グラフがインチまたはセンチメートルで表示される場合に選択し ます。
- [幅]: [印刷サイズ] で選択した単位を使用してグラフの幅を設定します。
- [高さ]: [印刷サイズ] で選択した単位を使用してグラフの高さを設定します。
-
グラフの解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度が高いほど、向上した印刷品質のより大きなファイルを作成できます。
- 基本フォントサイズ (ポイント): グラフのフォントのサイズを設定します。
[決定木]ツールは、Microsoft SQL Server 2016およびTeradataのインデータベース処理をサポートします。 参照: インデータベースの概要 データベース内のサポートとツールの詳細については。
デシジョンツリーツールを別の in-db ツールを使用してキャンバスに配置すると、ツールは自動的に db 内バージョンに変更されます。 ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。 参照: 予測分析 データベース内の予測サポートの詳細については。
- モデル名: 後で識別できるように、各モデルに名前を指定する必要があります。
- 特定のモデル名: モデルに使用するモデル名を入力します。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
- モデル名を自動的に生成: Designer は、必要なパラメータを満たすモデル名を自動的に生成します。
- ターゲット変数を選択: 予測したいデータストリームからフィールドを選択します。
- 予測変数を選択: ターゲット変数の値が "原因" であると考えられるデータストリームのフィールドを選択します。
- モデル推定でサンプリングウェイトを使用する (オプション): サンプリングウェイトを使用するために入力データストリームからフィールドを選択する場合に選択します。
- [サンプリングウェイト] フィールドを選択します: データストリームからウェイトフィールドを選択して、サンプリングウェイトを使用するモデルを推定します。 フィールドは、予測と重み変数の両方として使用されます。
サロゲート主キーや自然主キーなどのユニークな識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム例外を引き起こす可能性があります。
ウェイト変数は、出力のモデル呼び出しに、その先頭に "Right_" という文字列を付けて表示されます。
- モデルタイプ: 使用するモデルのタイプを選択します。
- 分類: カテゴリターゲットを予測するモデル。 分類モデルを使用する場合は、分割基準も選択します。
- ジニ係数
- エントロピーに基づく情報索引
- 回帰: 連続する数値ターゲットを予測するモデル。
- 分割を許可するために必要なレコードの最小数: ツリーの分岐のセットに沿って、それ以上の分割が許可されていないよりも、選択された最小数より少ないレコードがある場合。
- 複雑さパラメーター: このパラメーターは、分割の実行方法 (ツリー内の分岐の数など) を制御します。 値は1より小さくなければならず、値が小さいほど、最終的なツリーのブランチが多くなります。 「オート」の値、または値の省略は、クロス確認に基づいて「最良の」複雑性パラメーターがもたらされることになります。
- ターミナルノード内のレコードの許容最小数: ターミナルノードに含める必要があるレコードの最小数。 この数を減らすと、最終的な端末ノードの潜在的な数が増えます。
- サロゲート使用: このオプションのグループは、特定の分割における予測変数のデータが欠落しているレコードがどのように扱われるかを制御します。 第1の選択肢は、スプリットに使用された変数の欠損値を含むレコードを省略(削除)することです。 2番目の方法は、「サロゲート」スプリットを使用することです。この場合、レコードの送信方向は、ほぼ同じ結果を持つ1つ以上の他の変数の代替分割に基づいています。 3番目の選択肢は、スプリット時の多数決方向の観測を送信することです。
- 主分割ルールの値が欠落している観測を省略する
- 候補変数がないレコードを分割するためにサロゲートを使用する
- すべてのサロゲートが欠落している場合は、最も多い方向に観測を送信します
- 潜在的候補変数の正しい分類の総数
- 的中率が候補変数の欠落していない値に対して計算されました
- ツリーを切り取るためにクロス検証で使用するフォールドの数: ツリーが複雑さパラメータを使用して剪定される場合、クロス検証を使用して、ツリー内にある分割の数を決定します。 これは、折り畳みのN-1がモデルを作成するために使用されるクロスバリデーションの使用を通して行われ、N番目の折り畳みは、オーバーフィットを回避するために、保持フォールドに最もよく適合するブランチの数を決定するためのサンプルとして使用されます。 ユーザーが変更できる1つのことは、データを分けるグループ数(N)です。 デフォルトは10ですが、他の一般的な値は5と20です。
- 最終的なツリー内の任意のノードの最大許容深度: このオプションは、ルートノードからルートから最も遠いノードまで許容されるレベルの数を示すことによって、ツリー全体のサイズを制限します。
- 各数値変数に使用する bin の最大数: スケーラブルなデシジョンツリーを実装する Revo スカラー関数 (rxDTree) は、計算の複雑さを軽減するために、同じ間隔のビン分割プロセスを使用して数値変数を処理します。 これらの選択肢は、「デフォルト」です。つまり、スプリットを可能にするために必要なレコードの最小数に基づく式が使用されますが、ユーザーが手動で設定することができます。 このオプションは、ツールへの入力がXDFメタデータストリームの場合にのみ適用されます。
- ツリープロット: このオプションのセットは、デシジョンツリーのプロットに関連するオプションの数を制御します。
- リーフの概要: このオプションの最初の選択は、リーフの概要の性質です。 このオプションは、ツリープロットの最後の葉ノードにカウントまたは割合を印刷するかどうかを制御します。
- カウント:
- プロポーション:
- 一様分岐距離: 2 番目のオプションは、均一な分岐距離を使用するかどうかです。 このオプションは、描画されたツリーのブランチの長さが、ターゲットを予測する際のスプリットの相対的な重要性を反映するか、ツリープロットの長さが均一であるかを制御します。
- 剪定プロット: このオプションを使用すると、ツリープロットに類似した方法で剪定プロットのサイズ、解像度、およびベースのフォントを設定することができます。
- [印刷サイズ]: 出力ツリープロットの寸法を設定します。
- インチ: プロットの幅と高さを設定します。
- センチメートル: プロットの幅と高さを設定します。
-
グラフの解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度が高いほど、向上した印刷品質のより大きなファイルを作成できます。
- 基本フォントサイズ (ポイント): フォントサイズ (ポイント単位)。
各出力アンカーに閲覧ツールを接続して、結果を表示します。
- O (出力): 結果ウィンドウにオブジェクトのモデル名とサイズが表示されます。
- R (レポート): サマリーとプロットを含むモデルのサマリレポートを表示します。
- I (対話型): ズーム、ホバー、およびクリックを可能にするビジュアルをサポートする対話型ダッシュボードを表示します。
予想される動作: 印刷精度
デシジョンツリーツールを標準処理に使用する場合、対話型出力では、レポート出力よりも数値の精度が高くなります。