Tool Icon for Assisted Modeling

回帰ツール

Version:
Current
Last modified: June 03, 2020

回帰ツールを機械学習パイプラインの一部として使用して、傾向を特定します。このツールには、モデルのトレーニングに使用できるいくつかのアルゴリズムが用意されています。このツールでは、多数のパラメータを使用してモデルを調整することもできます。

ツール設定

このセクションでは、回帰ツールの構成方法について説明します。

アルゴリズムを選択

使用するアルゴリズムを選択します。[線形回帰]、[ディシジョン ツリー]、または[ランダム フォレスト] を選択できます。

パラメータの設定

パラメータを設定します。各アルゴリズムには、特定のパラメータがあります。各アルゴリズムには、一般パラメータと詳細パラメータの両方があります。一般的なパラメータは、初心者でも正確なモデルを作成するために不可欠です。高度なパラメータは精度を向上させるかもしれませんが、その機能について詳細に理解する必要があります。

各アルゴリズムの表を参照して、パラメータが実行する内容を確認します。

線形回帰

 

名前 説明 オプション デフォルト
fit_intercept 線形回帰モデルの切片を計算するためにアルゴリズムを使うかどうか決定します。"定数" とも呼ばれるインターセプトは、xが 0 の場合に予想される y の平均値です。
  • true
  • false
true
normalize ターゲットを正規化するためにアルゴリズムを使うかどうか決定します。正規化は、ターゲットを共通のスケールで他のデータと比較できるように調整します。これにより、データ内の関連付けを特定するのに役立ちます。
  • true
  • false
true
決定木

 

名前 説明 オプション デフォルト
bootstrap バギングの基礎である bootstrap は、トレーニングの目的でデータセットのサンプルを得るために使用する方法です。この方法は、初めて見る新しいデータをシミュレートするため、データセットの subsample の作成を繰り返し、モデルの汎化性能を向上するために使用できます。
  • true
  • false
true
規準 Criterionパラメーターを使用して、ディシジョンツリー アルゴリズムによってデータがどの程度異なるノードに分割されたかを測定する方法を選択します。
  • mse (二乗平均誤差)
  • mae (平均絶対誤差)
mse (二乗平均誤差)
max_depth 最大深度は、ルートからツリーのリーフまでの最長パスです。深度が高いツリーほど分割が多く、データに関する情報をより多く捉えます。
  • 無制限: ノードは、すべてのリーフ ノードが純粋 (つまり、単一のクラスに属するデータで構成される) になるまで、またはすべてのリーフ ノードが [最小サンプル分割] パラメーターで指定した値よりも小さい値になるまで展開します。
  • 制限: 分割による拡張を制限します。
限定: 100
max_features 最大機能は、最初の分割を最も良く探すときにディシジョン ツリーが考慮する機能の最大数を設定します。
  • 自動: データセット内のフィーチャの合計数と等しいフィーチャの数を評価します。
  • なし: データセット内のフィーチャの合計数と等しいフィーチャの数を評価します。
  • 平方根: データセット内のフィーチャの総数の平方根と等しいフィーチャの数を評価します。
  • Log2: フィーチャの合計数の 2 進対数と等しいフィーチャの数を評価します。
  • ユーザ選択の整数: 各分割で選択した数と等しい複数のフィーチャを評価します。
  • ユーザー選択分数: ユーザーが選択したフィーチャの総数に相当するフィーチャ数を評価します。
auto
max_leaf_nodes 最大リーフ ノードは、アルゴリズムで生成できるリーフ ノードの総数の上方向の制限です。最良優先方法による最大数までノードを増加させます。アルゴリズムは、不純度減少の能力に基づき、どのノードが最良か決定します。[基準]パラメータを使用して、不純物の削減を測定する方法を指定します。 任意の整数またはNone. none
min_impurity_decrease 最小不純物減少は、意思決定ツリーが新しいノードに分割するために必要な不純物低減の最小閾値を設定します。したがって、分割は、それが最小不純物減少量以上の量によって不純物を減少させる場合に発生し、分割が発生します。[基準]パラメータを使用して、不純物の削減を測定する方法を指定します。 任意のフロート。 0.0年
min_samples_split 最小サンプル分割では、デシジョン ツリーが新しいノードに分割するために必要なサンプルの最小しきい値を設定します。アルゴリズムは最小で 1 つのサンプル、あるいは最大ですべてのサンプルを考慮します。 任意の整数または分数。 整数: 2
min_weight_fraction_leaf 最小重量分数リーフは、デシジョン ツリーが新しいノードに分割するために必要なウェイトの最小しきい値です。閾値は全サンプルの総重量の最小分割と同等です。決定木アルゴリズムは、既定で重みと同等に見なされます。 任意のフロート。 0.0年
presort アルゴリズムが最良の分割を迅速に検出できるように、このパラメーターを使用して、データをプレソートします。
  • true
  • false
false
random_state ランダムシードは、擬似乱数シーケンスを生成するための開始番号を指定します。[なし]を選択すると、乱数ジェネレーターが開始番号を選択します。
  • int
  • none
none
splitter スプリッターは、ノードでの分割に使用される戦略です。best 分割と random 分割のオプションがあります。アルゴリズムは、不純度減少の能力に基づき、どのノードが最良か決定します。
  • Best: このオプションでは、より多くの計算能力が必要であり、オーバーフィットのリスクがあります。
  • Random: 特定のアソシエーションに弱いシグナルがある場合、このオプションはツリーを通るパスを見つけるかもしれません。
best
ランダムフォレスト

 

名前 説明 オプション デフォルト
bootstrap バギングの基礎である bootstrap は、トレーニングの目的でデータセットのサンプルを得るために使用する方法です。この方法は、初めて見る新しいデータをシミュレートするため、データセットの subsample の作成を繰り返し、モデルの汎化性能を向上するために使用できます。
  • true
  • false
true
規準 Criterionパラメーターを使用して、ランダム フォレスト アルゴリズムによってデータがさまざまなノードに分割される度合い (ランダム フォレスト内の多数のツリーを構成する) を測定する方法を選択します。
  • mse (二乗平均誤差)
  • friedman_mse (フリードマン二乗平均誤差)
  • mae (平均絶対誤差)
mse (二乗平均誤差)
max_depth 最大深度は、フォレスト内の各ツリーのルートからリーフまでの最長パスです。深さが大きい木ほど分割が多く、データに関する情報をより多く捉えます。
  • 無制限: ノードは、すべてのリーフ ノードが純粋 (つまり、単一のクラスに属するデータで構成される) になるまで、またはすべてのリーフ ノードが [最小サンプル分割] パラメーターで指定した値よりも小さい値になるまで展開します。
  • 制限: 分割による拡張を制限します。
none
max_features 最大機能は、フォレスト内の各ディシジョン ツリーが最適な最初の分割を探すときに考慮する機能の最大数を設定します。
  • 自動: データセット内のフィーチャの合計数と等しいフィーチャの数を評価します。
  • なし: データセット内のフィーチャの合計数と等しいフィーチャの数を評価します。
  • 平方根: データセット内のフィーチャの総数の平方根と等しいフィーチャの数を評価します。
  • Log2: フィーチャの合計数の 2 進対数と等しいフィーチャの数を評価します。
  • ユーザ選択の整数: 各分割で選択した数と等しい複数のフィーチャを評価します。
  • ユーザー選択分数: ユーザーが選択したフィーチャの総数に相当するフィーチャ数を評価します。
auto
min_impurity_decrease 最小不純物減少は、意思決定ツリーが新しいノードに分割するために必要な不純物低減の最小閾値を設定します。したがって、分割は、それが最小不純物以下の量によって不純物を減少させるであろうところで起こる。[基準]パラメータを使用して、不純物の削減を測定する方法を指定します。 任意のフロート。 0.0年
min_samples_split 最小サンプル分割は、デシジョン ツリー (ランダム フォレスト内) が新しいノードに分割するために必要なサンプルの最小しきい値を設定します。アルゴリズムは最小で 1 つのサンプル、あるいは最大ですべてのサンプルを考慮します。 任意の整数または分数。 整数: 2
min_weight_fraction_leaf 最小重量分数リーフは、デシジョン ツリーが新しいノードに分割するために必要なウェイトの最小しきい値です。閾値は全サンプルの総重量の最小分割と同等です。ランダムフォレストアルゴリズムは、既定で重みと同等に見なされます。 任意のフロート。 0.0年
n_estimators 推定値の数は、フォレストの一部として作成するツリーの数です。 任意の整数。 100
random_state ランダムシードは、擬似乱数シーケンスを生成するための開始番号を指定します。[なし]を選択すると、乱数ジェネレーターが開始番号を選択します。
  • シード: 乱数ジェネレータの整数を選択します。
  • なし: 繰り返し不可能。
none
Was This Helpful?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support.