Decision Tree Tool Icon

決定木ツール

Version:
Current
Last modified: March 19, 2020

デシジョンツリーツールは、デシジョンツリーの学習方法に基づいてモデル作成基準を最適化するために、if-分割ルールのセットを作成します。ルールの形成は、ターゲットフィールドタイプに基づいています。

ターゲットフィールドがカテゴリセットのメンバーである場合、分類ツリーが構築されます。
ターゲットフィールドが連続変数の場合、回帰ツリーが構築されます。
分類フィールドまたは連続ターゲット回帰問題など、1つ以上の可変フィールドを使用してターゲットフィールドが予測されるとき、[決定木]ツールを使用します。

このツールはRツールを使用します。オプション > 予測ツールのダウンロードに移動し、Alteryx ダウンロードとライセンスポータルにサインインして、R ツールで使用されるパッケージとR ツールをインストールします。参照: 予測ツールのダウンロードとご使用

入力を接続する

[決定木]ツールでは、次のものを入力する必要があります。

  • 関心のあるターゲットフィールド
  • 1つ以上の予測フィールド

モデルの推定で使用されるパッケージは、入力データストリームによって異なります。

  • Alteryx データストリームは、オープンソースの R rpart関数を使用します。
  • XDF メタデータ ストリームは、XDF 入力ツールまたはXDF 出力ツールのいずれかから来て、RevoScaleR rxDTree 関数を使用します。
  • SQL server インデータベースのデータストリームのデータは、rxBTrees 関数を使用します。
  • Microsoft Machine Learning Serverのインストールでは、SQL ServerデータベースまたはTeradataデータベースのデータに対してRevoScaleR rxBTrees関数を使用します。これには、ローカルマシンとサーバーをMicrosoft Machine Learning Serverで構成する必要があります。これにより、データベースサーバーでの処理が可能になり、パフォーマンスが大幅に向上します。

RevoScaleR 機能

オープンソースのR関数と比較して、RevoScaleRベースの関数はより大きなデータセットを解析できます。しかし、RevoScaleR ベースの関数は XDF ファイルを作成する必要があり、オーバーヘッドコストが増加し、データをより多く通過させるアルゴリズムを使用し、実行時間を増加させ、一部のモデル診断出力を作成することはできないという面があります。

標準処理のためのツールを構成する

これらのオプションは、決定を生成するために必要です。

  • 型モデル名: 他のツールから参照できるモデルの名前。モデル名または接頭辞は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。Rは大文字小文字を区別します。
  • ターゲット変数の選択: 予測されるデータフィールド (応答または従属変数とも呼ばれます)。
  • [予測変数]: ターゲット変数の値 (フィーチャまたは独立変数とも呼ばれます) に影響を与えるために使用されるデータフィールド。1つの予測フィールドが最低限必要ですが、選択された予測フィールドの数に上限はありません。ターゲット変数自体をターゲット値の計算に使用すべきではないため、ターゲットフィールドをプレディクタフィールドに含めるべきではありません。
    サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。

[カスタマイズ]をクリックして、追加の設定を調整します。

モデル: モデルがデータを評価して構築する方法を変更するオプション。

モデルをカスタマイズする

アルゴリズムを選択: rpart 関数または c 5.0 関数を選択します。

rpart: Breiman、フリードマン、Olshen、および石の仕事に基づいてアルゴリズム; 標準と見なされます。回帰モデルを作成する場合、または切り取るプロットが必要な場合は、rpart を使用します。

  • rpart 関数を使用する
    • モデルタイプとサンプリングウェイト: ターゲット変数とサンプリングウェイトの処理に基づくモデルのタイプのコントロール。
    • モデルタイプとサンプリングウェイトの調整
      • モデルの種類: ターゲット変数を予測するために使用されるモデルの型。
        • Auto: モデルタイプは、ターゲット変数タイプに基づいて自動的に選択されます。
        • 分類: モデルは、カテゴリまたはグループの不連続なテキスト値を予測します。
        • 回帰:モデルは連続する数値を予測します。
      • モデル推定でサンプリングウェイトを使用する: モデル推定を作成するときに、各レコードに配置される重要度を判断し、それに応じてレコードを重み付けするフィールドを選択できるオプション。
        フィールドが予測値とサンプルウェイトの両方として使用されている場合、出力ウェイト変数フィールドには "Right_" が付加されます。
    • 分割基準とサロゲート: モデルが分割をどのように決定するか、およびデータパターンの評価でサロゲートがどのように使用されるかを制御します。

  • モデルが分割を査定する方法を調整

    • 使用する分割基準:ツリーを分割するときにモデルが評価する方法を選択します。
      回帰モデルを使用する場合の分割基準は、常に最小二乗です。

      • ジニ係数

      • ジニ不純物が使用されます。

      • 情報インデックス

    • [サロゲートを使用する]: 分割プロセスでサロゲートを使用する方法を選択します。サロゲートは、情報が欠落しているレコードの分割結果を決定するために使用される主変数に関連する変数です。

      • 一次分割規則の欠損値を含むオブザベーションを省略する: 候補変数が欠落しているレコードは、分割を決定する際に考慮されません。

      • 候補変数が欠落しているレコードを分割: 候補変数が欠落しているすべてのレコードは、分割に均等に配分されます。

      • すべてのサロゲートが欠落している場合、過半数の方向に観測を送信: 候補変数が欠落しているすべてのレコードは、より多くのレコードを含む分割の側にプッシュされます。

    • を使用して最適なサロゲート分割を選択します: 可能な変数のセットから分割する最適な変数を選択するための基準を選択します。

      • 候補変数の正しい分類の数: 適切に分類されるレコードの総数に基づいて、分割する変数を選択します。

      • 候補変数の正しい分類の割合は、正しく分類されるレコードの割合に基づいて、分割する変数を選択します。

    • ハイパーパラメータ: モデルの前の分布を制御します。

  • 前のディストリビューションに基づいて処理を調整する

    • 分割を許可するために必要なレコードの最小数: 分割が発生する前に存在する必要があるレコードの数を設定します。最小数より少ないレコードがある場合、それ以上のスプリットは許可されません。

    • ターミナル ノードで許可される最小レコード数: 端末ノードに含めることができるレコードの数を設定します。数字が小さいほど、ツリーの最後にある最終的な端末ノードの潜在的な数が増えます。

    • クロス検証でツリーを切り取るために使用するフォールドの数: モデルをテストするときにデータを分割するグループの数 (N) を設定します。値のデフォルトは10ですが、他の一般的な値は5と20です。折り目の数が多いほど、ツリーの精度は向上しますが、処理に時間がかかる場合があります。複雑さパラメーターを使用してツリーを整理すると、クロス確認によってツリーにいくつのスプリットまたはブランチがあるかが決まります。クロス確認では、折り畳みのN - 1がモデルの作成に使用され、もう1つの折り畳みは、過剰フィットを避けるためにホールドアウトフォールに最も適合するブランチの数の決定用サンプルとして使用されます。

    • 最終ツリー内の任意のノードの最大許容深度: ルート ノードからルートから最も遠いノードに許可される分岐のレベルの数を設定して、ツリーの全体的なサイズを制限します。

    • 各数値変数に使用する bin の最大数: 各変数に使用する bin の数を入力します。既定では、分割を許可するために必要なレコードの最小数に基づいて値が計算されます。

      XDF メタデータストリームのみ

      このオプションは、ツールへの入力がXDFメタデータストリームの場合にのみ適用されます。拡張性の高い決定木を実装するRevo ScaleR関数(rxDTree)は、等間隔のビニングプロセスを介して数値変数を処理し、計算の複雑さを軽減します。

       

    • [複雑さの設定] パラメーター: デシジョンツリーのサイズを制御する値。値を小さくするとツリー内の分岐が増え、値が大きくなると分岐が少なくなります。複雑さのパラメーターが選択されていない場合、パラメーターはクロス検証に基づいて決定されます。

c 5.0: Quinlan の作業に基づくアルゴリズム; データが少数の相互排他クラスの1つに分類されている場合は、c 5.0 を使用します。クラスの割り当てに関連するプロパティが提供されますが、データによっては不明または適用できない値がある場合があります。

  • c 5.0 アルゴリズムを使用する
    • 構造オプション: モデルの構造のコントロール。デフォルトでは、モデルはデシジョンツリーとして構造化されています。
    • アルゴリズムの構造を変更する
      • ツリーをルールベースのモデルに分解する: 出力アルゴリズムの構造をデシジョン ツリーから、順序付けされていない単純な if-then ルールのコレクションに変更します。
        • [ルールをグループ化するバンドのしきい値]: バンド数を選択して、ルールをグループ化して、 番号セットが帯域のしきい値 になる場所を選択します。
    • 詳細オプション: モデルの分割およびフィーチャーのコントロール。
    • モデルの簡素化と最適化
      • モデルは、分割の不連続予測変数のグループを評価する必要があります。カテゴリ予測変数をグループ化します。4つまたは5つ以上の値を持つ重要な不連続属性がある場合は、オーバーフィット回避を減らすために選択します。
      • 予測変数の winnowing (フィーチャーの選択) を使用します。役に立たない予測変数を除外して、モデルを簡略化する場合に選択します。
      • プルーンツリー:ツリー分割を削除してオーバーフィットを減らすために、ツリーを簡略化する場合に選択します。
      • データ内の高度な分割を評価します。セカンダリ変数を使用して評価を実行し、どの分岐が最も正確な予測であるかを確認する場合に選択します。
      • ブーストには停止方法を使用します。ブーストイテレーションが効果を発揮しなくなるかどうかを評価し、効果がある場合はブーストを停止するかどうかを評価します。
    • 数値ハイパーパラメータ: 数値に基づくモデルの前の分布を制御します。
    • 数値分布パラメータの設定
      • ブーストイテレーションの数を選択: 1 を選択して、単一のモデルを使用します。
      • 信頼度係数の選択: これは、rpart の複雑度パラメータのアナログです。
      • 少なくとも2分割でなければならないサンプルの数を選択してください: より大きい数は、より小さく、より単純化された、木を与えます。
      • モデル評価のためのトレーニングから保持されたデータの割合: モデルの訓練に使用するデータの一部を選択します。すべてのデータを使用してモデルをトレーニングするには、デフォルト値の0を使用します。トレーニングとモデル精度の評価からそのデータの割合を保持するために大きな値を選択する
      • アルゴリズムのランダムシードの選択: シードの値を選択します。タイムスタンプは正の整数でなければなりません。

クロス検証: 使用可能な情報を効率的に使用する検証方法をカスタマイズするためのコントロール。

  • クロス確認のカスタマイズ
    • クロス検証を使用して、モデル品質の見積もりを決定します。さまざまなモデル品質メトリックとグラフを取得するために、クロス検証を実行する場合に選択します。R 出力にはいくつかのメトリクスとグラフが表示され、その他は I 出力に表示されます。
      • クロス検証フォールドの数:データが検証またはトレーニング用に分割されるサブサンプルの数。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
      • クロス検証トライアルの数:クロス検証手順が繰り返される回数。折り目は各試験で異なる方法で選択され、結果はすべての試験で平均化されます。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
      • 外部クロス検証用にシードを設定します。ランダム サンプリングの描画シーケンスを決定する値。これにより、選択方法はランダムでデータに依存しないが、データ内の同じレコードが選択されます。
        • クロス検証用のランダム シードの値を選択します。シードの値を選択します。タイムスタンプは正の整数でなければなりません。

プロット: 出力レポートに表示されるグラフを選択して構成します。

  • グラフ出力のカスタマイズ
    • 静的レポートの表示:R 出力アンカーからモデルのサマリー レポートを表示する場合に選択します。デフォルトで選択されています。
    • ツリープロット:デシジョン ツリー変数と分岐のグラフ。
    • レポートでツリープロットを使用する
      • 表示ツリープロット: クリックすると、デシジョンツリー変数と分岐のグラフがモデルレポートの出力に含まれます。
        • [均一な分岐距離]: 選択すると、ツリーの分岐が均一の長さで表示されるか、またはターゲットの予測における分割の相対的重要性に比例します。

        • リーフの概要: ツリープロットの最後のリーフノードに表示される内容を決定します。レコード数が表示されている場合は、[カウント]を選択します。レコード全体の割合が表示される場合は、[比率]を選択します。

        • [印刷サイズ]: グラフがインチまたはセンチメートルで表示される場合に選択し ます。

        • [幅]: [印刷サイズ] で選択した単位を使用してグラフの幅を設定します。

        • [高さ]: [印刷サイズ] で選択した単位を使用してグラフの高さを設定します。

        • グラフ解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。

    • 基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。
      剪定プロット: デシジョンツリーの簡略化されたグラフ。

  • レポートで剪定プロットを使用する

    • プルーネプロットの表示:クリックすると、モデル レポートの出力にデシジョン ツリーの簡略化されたグラフが含まれます。

    • プロットサイズ:グラフがインチまたはセンチメートルで表示されているかどうかを選択します。

    • 幅:[プロット サイズ] で選択した単位を使用してグラフの幅を設定します。

    • 高さ:[プロット サイズ] で選択した単位を使用してグラフの高さを設定します。

    • グラフ解像度: グラフの解像度を 1 インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi) で選択します。解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。

    • 基本フォント サイズ (ポイント):グラフ内のフォントのサイズを設定します。

インデータベース処理のためのツールの設定

[決定木]ツールは、Microsoft SQL Server 2016およびTeradataのインデータベース処理をサポートします。インデータベースのサポートとツールの詳細については、インデータベースの概要を参照してください。

[決定木]ツールがキャンバス上に別のIn-DBツールを使用して配置されると、ツールはIn-DBバージョンに自動的に変更されます。ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。インデータベースの予測サポートの詳細については、予測分析を参照してください。

  • 必要なパラメータ
    • モデル名:後で識別できるように、各モデルに名前を付ける必要があります。
      • 特定のモデル名:モデルに使用するモデル名を入力します。モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
      • モデル名を自動的に生成します。Designer は、必要なパラメータを満たすモデル名を自動的に生成します。
    • ターゲット変数を選択します。予測するデータ ストリームからフィールドを選択します。
    • 予測変数を選択:ターゲット変数の値が "原因" であると考えられるデータストリームのフィールドを選択します。
      サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
    • モデル推定でサンプリングウェイトを使用します(オプション):次の方法で使用します。fo サンプリングウェイトを使用する入力データ ストリームからフィールドを選択します。
    • サンプリングウェイトフィールドを選択します。サンプリングウェイトを使用するモデルを推定するには、データ ストリームからウェイト フィールドを選択します。フィールドは、予測と重み変数の両方として使用されます。
      ウェイト変数は、出力のモデル呼び出しに、その先頭に "Right_" という文字列を付けて表示されます。
  • モデルのカスタマイズ
    • モデルタイプ:使用するモデルのタイプを選択します。
      • 分類:カテゴリターゲットを予測するモデル。分類モデルを使用する場合は、分割基準も選択します。
        • ジニ係数
        • エントロピーベースの情報インデックス
      • 回帰:連続する数値ターゲットを予測するモデル。
    • 分割を許可するために必要なレコードの最小数:ツリーの一連の分岐に沿って、選択した最小数よりもレコード数が少ない場合は、それ以上の分割が許可されていません。
    • 複雑性パラメータ:このパラメーターは、分割の実行方法 (ツリー内の分岐の数) を制御します。値は1より小さくなければならず、値が小さいほど、最終的なツリーのブランチが多くなります。「オート」の値、または値の省略は、クロス確認に基づいて「最良の」複雑性パラメーターがもたらされることになります。
    • ターミナル ノードで許可される最小レコード数:端末ノードに含まれる必要があるレコードの最小数。この数を減らすと、最終的な端末ノードの潜在的な数が増えます。
    • サロゲートの使用:このオプショングループは、特定の分割で予測変数の欠落データを持つレコードのアドレス指定方法を制御します。第1の選択肢は、スプリットに使用された変数の欠損値を含むレコードを省略(削除)することです。2番目の方法は、「サロゲート」スプリットを使用することです。この場合、レコードの送信方向は、ほぼ同じ結果を持つ1つ以上の他の変数の代替分割に基づいています。3番目の選択肢は、スプリット時の多数決方向の観測を送信することです。
      • 主分割ルールの値が欠落している観測を省略する
      • 候補変数がないレコードを分割するためにサロゲートを使用する
      • すべてのサロゲートが欠落している場合は、最も多い方向に観測を送信します
      • 潜在的候補変数の正しい分類の総数
      • 的中率が候補変数の欠落していない値に対して計算されました
    • ツリーをプルーネするためにクロス検証で使用する折り目の数:ツリーが複雑なパラメーターを使用してプルーディングされると、クロス検証を使用して、ツリー内の分割 (ブランチ) の数を決定します。これは、折り畳みのN-1がモデルを作成するために使用されるクロスバリデーションの使用を通して行われ、N番目の折り畳みは、オーバーフィットを回避するために、保持フォールドに最もよく適合するブランチの数を決定するためのサンプルとして使用されます。ユーザーが変更できる1つのことは、データを分けるグループ数(N)です。デフォルトは10ですが、他の一般的な値は5と20です。
    • 最終ツリー内の任意のノードの最大許容深度:このオプションは、ルート ノードからルートから最も遠いノードに許可されるレベルの数を示すことによって、ツリーの全体的なサイズを制限します。
    • 各数値変数に使用するビンの最大数:スケーラブルなデシジョン ツリーを実装する Revo ScaleR 関数 (rxDTree) は、計算の複雑さを軽減するために、等間隔のビンニング プロセスを介して数値変数を処理します。これらの選択肢は、「デフォルト」です。つまり、スプリットを可能にするために必要なレコードの最小数に基づく式が使用されますが、ユーザーが手動で設定することができます。このオプションは、ツールへの入力がXDFメタデータストリームの場合にのみ適用されます。
  • グラフィックオプション
    • ツリープロット:この一連のオプションは、デシジョン ツリーのプロットに関連する多数のオプションを制御します。
      • リーフの概要:このオプションの最初の選択肢は、リーフサマリーの性質です。このオプションは、ツリープロットの最後の葉ノードにカウントまたは割合を印刷するかどうかを制御します。​​​​​​​
        • カウント:
        • プロポーション:
      • 均一な分岐距離: 2 番目のオプションは、均一な分岐距離を使用するかどうかです。このオプションは、描画されたツリーのブランチの長さが、ターゲットを予測する際のスプリットの相対的な重要性を反映するか、ツリープロットの長さが均一であるかを制御します。
    • プルーニング プロット:このオプションを使用すると、プルーニング プロットのサイズ、解像度、およびベース フォントをツリー プロットに似た方法で設定できます。
      • プロット サイズ:出力ツリー プロットの寸法を設定します。
        • 私はnch:プロットの高さを設定します。
        • センチメートル:プロットの高さを設定します。
      • グラフ解像度: 1x (96 dpi) のドット数でグラフの解像度を選択します。2x (192 dpi);または 3x (288 dpi) を使用します。解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
      • 基本フォント サイズ (ポイント):フォント サイズ (ポイント)。

出力を表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • O (出力): 結果ウィンドウにオブジェクトのモデル名とサイズが表示されます。
  • R (レポート): サマリーとプロットを含むモデルのサマリレポートを表示します。
  • I (対話型): ズーム、ホバー、およびクリックを可能にするビジュアルをサポートする対話型ダッシュボードを表示します。

予想される動作: 印刷精度

デシジョンツリーツールを標準処理に使用する場合、対話型出力では、レポート出力よりも数値の精度が高くなります。

Was This Helpful?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support.