ツールごとに学習
決定木ツールには、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、Alteryx Designerでこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。
決定木ツールを使用すると、決定木の学習メソッドに基づいてモデル作成基準を最適化するための一連のif-then分岐ルールを作成できます。ルールの形成は、ターゲットフィールドタイプに基づいています。
ターゲットフィールドがカテゴリセットのメンバーである場合、分類ツリーが構築されます。
ターゲットフィールドが連続変数の場合、回帰ツリーが構築されます。
分類または連続ターゲット回帰問題など、1つ以上の可変フィールドを使用してターゲットフィールドが予測されるときに、決定木ツールを使用します。
このツールはRツールを使用します。オプション > 予測ツールをダウンロード の順に進み、Alteryx Downloads and Licenses ポータルにサインインして、R と R ツール で使用されるパッケージをインストールします。予測ツールのダウンロードと使用 を参照してください。
決定木ツールでは、次の項目を入力する必要があります。
対象のターゲットフィールド
1つ以上の予測フィールド
モデルの推定で使用されるパッケージは、入力データストリームによって異なります。
Alteryxデータストリームは、オープンソースのR rpart関数を使用します。
XDF入力ツールまたはXDF出力ツールのいずれかから取り込まれたXDFメタデータストリームは、RevoScaleR rxDTree関数を使用します。
SQL Serverインデータベースのデータストリームから取り込まれたデータは、rxBTrees関数を使用します。
Microsoft Machine Learning Serverをインストールすると、SQL ServerデータベースまたはTeradataデータベースのデータに対してRevoScaleR rxBTrees関数を活用できます。これには、ローカルマシンとサーバーをMicrosoft Machine Learning Serverで構成する必要があります。これにより、データベースサーバーでの処理が可能になり、パフォーマンスが大幅に向上します。
RevoScaleRの機能
オープンソースの R 関数と比較して、RevoScaleR ベースの関数はより大きなデータセットを解析できます。しかし、RevoScaleR ベースの関数は XDF ファイルを作成する必要があり、オーバーヘッドコストが増加し、データをより多く通過させるアルゴリズムを使用しするため実行時間が長くなり、一部のモデル診断出力を作成することはできないという面があります。
これらのオプションは、決定を生成するために必要です。
モデル名を入力: 他のツールから参照できるようにするためのモデルの名前。モデル名または接頭辞は文字で始まる必要があり、文字、数字、および特殊文字ピリオド(.)とアンダースコア(_)を含むことができます。Rは大文字小文字を区別します。
ターゲット変数の選択: 予測対象となるデータフィールドであり、応答または従属変数とも呼ばれます。
予測変数の選択: ターゲット変数の値に影響を与えるために使用されるデータフィールドで、特徴量または独立変数とも呼ばれます。少なくとも1つの予測フィールドが必要ですが、選択できる予測フィールドの数に上限はありません。ターゲット変数自体をターゲット値の計算に使用すべきではないため、ターゲットフィールドを予測フィールドに含めるべきではありません。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
[カスタマイズ]を選択し、追加の設定項目を調整します。
モデルがデータを評価して構築する方法を変更するオプションです。
アルゴリズムを選択: rpart関数またはC5.0関数を選択します。後続のオプションは、選択するアルゴリズムによって異なります。
rpart: Breiman、Friedman、Olshen、Stoneの研究に基づく、標準とされるアルゴリズム。回帰モデルを作成したり、またはプロットを取り除く必要がある場合に、rpartを使用します。
モデルタイプとサンプリングの重み: ターゲット変数とサンプリングの重みの処理に基づいてモデルタイプを制御します。
モデルタイプ: ターゲット変数を予測するために使用されるモデルのタイプ。
自動: モデルタイプは、ターゲット変数タイプに基づいて自動的に選択されます。
分類: モデルは、カテゴリまたはグループの離散テキスト値を予測します。
回帰: モデルは連続した数値を予測します。
モデル推定にサンプリングの重み付けを使用する: モデル推定を作成するときに、各レコードの重要度を判定し、それに応じてレコードに重み付けをするフィールドを選択できるオプション。
フィールドが予測値とサンプル重み付けの両方として使用されている場合、出力重み変数フィールドには「Right_」が付加されます。
分割基準およびサロゲート: モデルがどのように分割を決定するか、およびデータパターンの評価でサロゲートがどのように使用されるのかを制御します。使用する分割基準: モデルがツリーをどのタイミングで分割するかを評価する方法を指定します。
回帰モデルを使うときの分割基準は常に最小二乗法です。
ジニ係数
ジニ不純度が使用されます。
情報インデックス
サロゲートを使用: 分割プロセスでサロゲートを使用する方法を選択します。サロゲートは、情報が欠損しているレコードの分割結果を決定するために使用される第一変数に関連する変数です。
主分割ルールの値が欠落している観測を除外する: 候補変数が欠落しているレコードは、分割を決定する際に考慮されません。
候補変数が欠落しているレコードを分割する: 候補変数が欠落しているすべてのレコードは、分割で均等に分布されます。
すべてのサロゲートが欠落している場合は、多数方向で観測を送信する: 候補変数が欠落しているすべてのレコードは、より多くのレコードが含まれる分割側に入れられます。
使用する最良のサロゲート分割を選択: 複数の変数の候補から、分割に最も適した変数を選ぶための基準を選択します。
候補変数の正しい分類の数: 正しく分類されているレコードの総数に基づいて、分割する変数を選択します。
候補変数の正しい分類のパーセンテージ: 正しく分類されているレコードのパーセンテージに基づいて、分割する変数を選択します。
ハイパーパラメーター: モデルの事前分布を制御します。事前分布に基づいて処理を調整します。
分割を可能にするために必要なレコードの最小数: 分割が発生する前に存在しなければならないレコードの数を設定します。最小数より少ないレコードがある場合、それ以上のスプリットは許可されません。
終端ノードに許可されているレコードの最小数: 終端ノードに含めることができるレコードの数を設定します。数字が小さいほど、ツリーの最後にある最終的な終端ノードの潜在的な数が増えます。
ツリーを剪定するためにクロスバリデーションで使用する折り畳みの数: モデルをテストするときにデータを分割するグループの数(N)を設定します。値のデフォルトは10ですが、他の一般的な値は5と20です。折り畳みの回数が増えるほどツリーの精度は向上しますが、処理に時間がかかることがあります。複雑性パラメーターを使用してツリーを剪定する際には、クロスバリデーションによって、ツリーにいくつのスプリットまたは枝があるかが決定されます。クロスバリデーションでは、N - 1の折り畳みがモデルの作成に使用され、残り1つの折り畳みを検証用サンプルとして使用し、この折り畳みに最も適合する枝の数を見つけることで過学習を避けます。
最終的なツリーの任意のノードの最大許容深さ: ツリー全体的なサイズを制限するために、ルートノードからルートまでの最も遠いノードまでの間に許容されるブランチのレベル数を設定します。
各数値変数に使用するビンの最大数: 各変数に使用するビンの数を入力します。既定では、分割を可能にするために必要なレコードの最小数に基づいて、値が計算されます。
XDFメタデータストリームのみ
このオプションは、ツールへの入力がXDFメタデータストリームの場合にのみ適用されます。拡張性の高い決定木を実装するRevo ScaleR関数(rxDTree)は、等間隔のビニングプロセスを介して数値変数を処理し、計算の複雑さを軽減します。
複雑性パラメーターを設定: 決定木のサイズを制御する値。値が小さいほどツリーのブランチが多くなり、値が大きいほどブランチが少なくなります。複雑性パラメーターが選択されていない場合、パラメーターはクロスバリデーションに基づいて自動的に決定されます。
C5.0: Quinlanの研究に基づくアルゴリズム。データが相互に排他的な少数のクラスのいずれかにソートされている場合は、C5.0を使用します。クラス割り当てに関連する可能性があるプロパティが提供されますが、データによっては未確認の値や適用できない値が存在する可能性があります。
構造的オプション: モデルの構造を制御します。既定では、モデルは決定木として構造化されます。
ツリーをルールベースのモデルに分解: 出力アルゴリズムの構造を、決定木から順序付けされていない単純なIf-Thenルールのコレクションに変更します。[ルールをグループ化するためのバンド数の閾値]を選択し、ルールをグループ化するためのバンド数を選択します。設定された数値はバンド閾値です。
詳細オプション: モデルの分割と特徴量を制御します。
モデルは分割での離散化した予測子のグループを評価する必要があります: 分類予測変数をグループ化します。4から5つ以上の値を持つ重要な離散属性がある場合に、過学習を減らすために選択します。
予測子のふるいを使用する(すなわち特徴量選択): 有用ではない予測子を除外してモデルを単純化する場合に選択します。
木をプルーニングする: ツリーの分割を除去することで、ツリーを単純化し過学習を減らすために選択します。
データのアドバンス分割を評価する: 第二変数を使用して評価を実行し、どのブランチが最も正確な予測であるかを確認するために選択します。
ブースティングのための停止方法を使用: ブーストの反復が無効になっているかどうかを評価するために選択し、無効になっていればブーストを停止します。
数値ハイパーパラメーター: 数値に基づくモデルの事前分布を制御します。
ブースティング反復の数を選択: 1を選択すると、単一のモデルを使用します。
信頼因子を選択: これはrpartの複雑性パラメーターの類推です。
少なくとも2つの分割中になければならない標本の数を選択: 数値が大きいほど、より小さく、より単純化されたツリーになります。
モデル評価のためにトレーニングから保持されるデータのパーセンテージ: モデルのトレーニングに使用されるデータの割合を選択します。すべてのデータを使用してモデルをトレーニングするには、デフォルト値の0を使用します。トレーニングとモデル精度の評価からそのデータの割合を保持するためには、大きな値を選択します。
アルゴリズムのランダムシードを選択: シードの値を選択します。値は正の整数でなければなりません。
利用可能な情報を効率的に使用して、検証方法のカスタマイズを制御します。
[クロスバリデーションを使用して、モデル品質の推定を判断する]を選択して、クロスバリデーションを実行し、さまざまなモデル品質メトリクスとグラフを取得します。一部のメトリックとグラフはR出力に表示され、他のメトリックとグラフはI出力に表示されます。
クロスバリデーションフォールド数: データが検証またはトレーニングのために分割されるサブサンプルの数。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
クロスバリデーショントライアル数: クロスバリデーション手順が繰り返される回数。各試行において折り畳みが異なるように選択され、結果はすべての試行にわたって平均化されます。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
外部クロスバリデーションのためのシードを設定: ランダムサンプリングの抽出シーケンスを決定する値。これにより、選択方法はランダムでデータに依存しないが、データ内の同じレコードが選択されます。[クロスバリデーションのランダムシードの値を選択]を使用して、シードの値を選択します。値は正の整数でなければなりません。
出力レポートに表示するグラフを選択して設定します。
静的レポートを表示: R出力アンカーからモデルの要約レポートを表示する場合に選択します。デフォルトで選択されています。
ツリープロット: 決定木の変数とブランチのグラフ。[ツリープロットを表示]トグルを使用して、モデルレポート出力に決定木の変数とブランチのグラフを含めます。
均一分岐距離: 均一な長さを持つツリーのブランチを表示するか、ターゲットを予測する際の分割の相対的な重要度に比例して表示するかを選択します。
リーフサマリー: ツリープロットの最後の葉ノードに表示されるものを決定します。レコード数が表示されている場合は、[カウント]を選択します。合計レコードのパーセンテージが表示されている場合は、[比率]を選択します。
プロットサイズ: グラフがインチまたはセンチメートルのどちらで表示されるかを選択します。
幅: [プロットサイズ]で選択した単位を使用してグラフの幅を設定します。
高さ: [プロットサイズ]で選択した単位を使用してグラフの高さを設定します。
グラフの解像度: グラフの解像度を1インチあたりのドット数で選択します: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi)
解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
ベースフォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。
プロットのプルーニング: 決定木の単純化されたグラフ。
レポートでプルーンプロットを使用する
プルーンプロットを表示: クリックすると、モデルレポートの出力で、決定木の単純化されたグラフが表示されます。
プロットサイズ: グラフがインチまたはセンチメートルのどちらで表示されるかを選択します。
幅: [プロットサイズ]で選択した単位を使用してグラフの幅を設定します。
高さ: [プロットサイズ]で選択した単位を使用してグラフの高さを設定します。
グラフの解像度: グラフの解像度を 1 インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi) で選択します。解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
ベースフォントサイズ(ポイント): グラフ内のフォントのサイズをセットします。
決定木ツールは、Microsoft SQL Server 2016およびTeradataのインデータベース処理をサポートします。インデータベースのサポートとツールの詳細については、インデータベースの概要 を参照してください。
決定木ツールがキャンバス上に別のIn-DBツールを使用して配置されると、ツールはIn-DBバージョンに自動的に変更されます。ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。予測インデータベースのサポートの詳細については、予測分析を参照してください。
モデル名: 各モデルには後で識別できるように名前を付ける必要があります。
特定のモデル名: モデルに使用するモデル名を入力します。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド(.)とアンダースコア(_)を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
モデル名を自動的に生成する: Designerで、必要なパラメーターを満たすモデル名が自動的に生成されます。
ターゲット変数を選択: 予測するデータストリームからフィールドを選択します。
予測変数を選択: ターゲット変数の値が変更される「原因」と考えられるフィールドをデータストリームから選択します。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
モデル推定にサンプリングの重みを使用する(オプション): サンプリングの重みに使用するフィールドを入力データストリームから選択します。
サンプリング重み付けフィールドの選択: データストリームから重みフィールドを選択して、サンプリングの重みを使用するモデルを推定します。フィールドは予測子と重み変数の両方として使用されます。重み変数は、モデル呼び出し時に、文字列「right_」が先頭に付加された形で出力されます。
モデルタイプ: 使用するモデルのタイプを選択します。
分類: 分類ターゲットを予測するためのモデル。分類モデルを使用する場合は、分割条件も選択します。
ジニ係数
エントロピーベースの情報インデックス
回帰: 連続的な数値ターゲットを予測するモデル。
分割を可能にするために必要なレコードの最小数: ツリーのブランチのセットに沿って、レコード数が選択された最小数よりも少ない場合は、それ以上の分割は許可されません。
複雑性パラメーター: このパラメーターは、分割の実行方法(ツリーのブランチの数)を制御します。値は1より小さくなければならず、値が小さいほど、最終的なツリーのブランチが多くなります。「オート」の値、または値を省略すると、クロスバリデーションに基づいて「最良の」複雑性パラメーターが選択されます。
終端ノードに許可されているレコードの最小数: 終端ノードに含まれる必要があるレコードの最小数。この数を減らすと、最終的な終端ノードの数が増える可能性があります。
サロゲートの使用: このグループのオプションは、特定の分割で予測変数のデータが欠落しているレコードがどのように処理されるかを制御します。第1の選択肢は、スプリットに使用された変数の欠損値を含むレコードを省略(削除)することです。2番目の方法は、「サロゲート」スプリットを使用することです。この場合、レコードの送信方向は、ほぼ同じ結果を持つ1つ以上の他の変数の代替分割に基づいています。3番目の選択肢は、スプリット時の多数決方向の観測を送信することです。
主分割ルールの値が欠落している観測を省略する
候補変数がないレコードを分割するためにサロゲートを使用する
すべてのサロゲートが欠落している場合は、多数方向で観測を送信する
潜在的候補変数の正しい分類の総数
的中率が候補変数の欠落していない値に対して計算されました
ツリーを剪定するためにクロスバリデーションで使用する折り畳みの数: 複雑性パラメーターを使ってツリーをプルーニングするときに、ツリーの分割(ブランチ)数を決定するためにクロスバリデーションが使用されます。具体的には、折り畳みのN-1がモデルを作成するために使用されるクロスバリデーションの使用を通して行われ、N番目の折り畳みは、過学習を回避するために、保持フォールドに最もよく適合する分岐数を決定するためのサンプルとして使用されます。ユーザーが変更できる1つのことは、データを分けるグループ数(N)です。デフォルトは10ですが、他の一般的な値は5と20です。
最終的なツリーの任意のノードの最大許容深さ: このオプションは、ルートノードから最も遠いノードまでのレベルを指定することで、ツリーの全体のサイズを制限します。
各数値変数に使用するビンの最大数: 拡張性の高い決定木を実装するRevo ScaleR関数(rxDTree)は、等間隔のビニングプロセスを介して数値変数を処理し、計算の複雑さを軽減します。これらの選択肢は「デフォルト」で、スプリットを可能にするために必要なレコードの最小数に基づく式が使用されますが、ユーザーが手動で設定することもできます。このオプションは、ツールへの入力がXDFメタデータストリームの場合にのみ適用されます。
ツリープロット: このオプションセットでは、決定木のプロットに関するさまざまな設定を制御します。
リーフサマリー: 最初の選択肢は、葉の要約の性質です。このオプションは、ツリープロットの最後の葉ノードに「カウント」あるいは「比率」のどちらを表示するかを制御します。
カウント
比率
均一分岐距離: 2番目の選択肢は、均一なブランチ距離を使用すべきかどうかです。このオプションは、描画されたツリーのブランチの長さが、ターゲットを予測する際のスプリットの相対的な重要性を反映するか、ツリープロットの長さが均一であるかを制御します。
プロットサイズ: 出力ツリープロットの寸法を設定します。
インチ: プロットの幅と高さを設定します。
センチメートル: プロットの幅と高さを設定します。
グラフの解像度: グラフの解像度を1インチあたりのドット数で選択します: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi)
解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
ベースフォントサイズ (ポイント): ポイント単位のフォントサイズ。
プロットのプルーニング: モデルレポートの出力で、決定木の単純化されたグラフを表示する場合に選択します。
プロットサイズ: グラフがインチまたはセンチメートルのどちらで表示されるかを選択します。
幅: [プロットサイズ]で選択した単位を使用してグラフの幅を設定します。
高さ: [プロットサイズ]で選択した単位を使用してグラフの高さを設定します。
グラフの解像度: グラフの解像度を1インチあたりのドット数で選択します: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi)
解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
ベースフォントサイズ(ポイント): グラフ内のフォントのサイズをセットします。
各出力アンカーに閲覧ツールを接続して、結果を表示します。
O (出力): 結果ウィンドウにオブジェクトのモデル名とサイズを表示します。
R (レポート): サマリーとプロットを含むモデルのサマリーレポートを表示します。
I (インタラクティブ): 視覚的にサポートするインタラクティブなダッシュボードを表示し、ズーム、ホバー、クリックすることができます。
予想される動作: プロット精度
標準処理に決定木ツールを使用すると、レポート出力と比べ、インタラクティブ出力の数値の精度が高くなります。