Icon for the Classification Tool

分類ツール

Version:
Current
Last modified: June 04, 2020

分類ツールは、機械学習パイプラインの一部として使用して、ターゲットが属するカテゴリを特定します。このツールには、モデルのトレーニングに使用できるいくつかのアルゴリズムが用意されています。このツールでは、多数のパラメータを使用してモデルを調整することもできます。

ツール設定

このセクションでは、分類ツールの構成方法について説明します。

アルゴリズムを選択

使用するアルゴリズムを選択します。ロジスティック回帰デシジョン ツリーランダム フォレスト、またはXGBoostを選択できます。

パラメータの設定

パラメータを設定します。各アルゴリズムには、他のアルゴリズムとは異なるパラメータがあります。各アルゴリズムには、一般パラメータと詳細パラメータの両方があります。一般的なパラメータは、初心者でも正確なモデルを作成するために不可欠です。高度なパラメータは精度を向上させるかもしれませんが、その機能について詳細に理解する必要があります。

各アルゴリズムの表を参照して、パラメータが実行する内容を確認します。

ロジスティック回帰

 

名前 説明 オプション デフォルト
class_weight [クラス ウェイト]では、データセット内の異なるクラスに重みを割り当てます。一部のアルゴリズムは、優勢なクラスを過大評価し、不均衡をもたらします。このパラメーターは、少数クラスに追加の重みを割り当てることで、データセット内のクラスのバランスを取るのに役立ちます。
  • none
  • balanced
none
fit_intercept 線形回帰モデルの切片を計算するためにアルゴリズムを使うかどうか決定します。"定数" とも呼ばれるインターセプトは、xが 0 の場合に予想される y の平均値です。
  • true
  • false
true
max_iter [最大反復回数]では、ソルバーが収束できる反復の最大数を指定します。反復が多いモデルほど、データに関する情報を多く捉えます。 任意の整数。 100
multi_class

マルチクラスは、アルゴリズムが 3 つ以上のクラスを処理する必要があるかどうかを指定します。

  • [自動選択]は、多項式または OVR を自動選択します。
  • 多項式は、多クラスまたは二項分類が可能です。
  • OVRは二項分類が可能です。
auto
penalty ペナルティは、「正規化」とも呼ばれ、損失関数を変更して、モデルがそれ以外の場合は過大評価する特定の値をペナルティ化する方法を指します。l1 (Lasso 回帰) と l2 (Ridge回帰) は、penalty 項を指定する 2 つの方法です。
  • L1は、重みを 0 に設定することで、多数のフィーチャを持つデータセットで最も重要なフィーチャを見つけるのに役立ちます。
  • L2は、重みがゼロ以外であることを確認することで、すべてのフィーチャがモデルに貢献するのを助けます。
l2
dual

問題製剤は、原始的な最適化問題を二重問題に変換します。

  • false
  • デュアル*

* [法線] に対して[L2]オプションを選択し、ソルバLiblinearを選択した場合にのみ、Dualを使用できます。

false
random_state ランダムシードは、擬似乱数シーケンスを生成するための開始番号を指定します。[なし]を選択すると、乱数ジェネレーターが開始番号を選択します。
  • random
  • none
none
solver

ソルバーは、ロジスティック回帰が、シグモイド重みを決定することによって、その曲線を最適に最適化する方法です。

  • Liblinear: ペナルティを適用する小さなデータセットに対してこの方法を使用します。リリニアはペナルティを必要とします。
  • SAG: L2 ペナルティまたはペナルティなしを適用する大規模なデータセットに対してこの方法を使用します。
  • SAGA:L1ペナルティまたはペナルティなしを適用する大規模なデータセットに対してこの方法を使用します。
  • LBFGS: L2 ペナルティまたはペナルティなしを適用する小さいデータセットに対してこの方法を使用します。
  • Newton-CG: L2 ペナルティまたはペナルティなしを適用する小さいデータセットに対してこの方法を使用します。
liblinear
tol

許容差は、パラメータが収束に近い(つまり、一定のまま)ことをアルゴリズムが検出する必要がある場合の停止基準を設定します。

任意の正のフロート。 .0001
チューナー 正規化チューナー (C) を使用すると、適用するペナルティの量 (つまり、正規化) を調整でき、モデルによって重み付けされた機能を効果的に制限できます。このパラメーターを正の浮動小数点としてフォーマットします。 任意の正のフロート。 1.0
決定木

 

名前 説明 オプション デフォルト
bootstrap バギングの基礎である bootstrap は、トレーニングの目的でデータセットのサンプルを得るために使用する方法です。この方法は、初めて見る新しいデータをシミュレートするため、データセットの subsample の作成を繰り返し、モデルの汎化性能を向上するために使用できます。
  • true
  • false
true
class_weight

[クラス ウェイト]では、データセット内の異なるクラスに重みを割り当てます。

  • none
  • balanced
none
規準

Criterionパラメーターを使用して、ディシジョンツリー アルゴリズムによってデータがどの程度異なるノードに分割されたかを測定する方法を選択します。

  • gini
  • entropy
gini
max_depth

最大深度は、ルートからツリーのリーフまでの最長パスです。より深いツリーでは、より多くの分割があり、データに関する情報をキャプチャします。

  • 無制限: ノードは、すべてのリーフ ノードが純粋 (つまり、単一のクラスに属するデータで構成される) になるまで、またはすべてのリーフ ノードが [最小サンプル分割] パラメーターで指定した値よりも小さい値になるまで展開します。
  • 制限: 分割による拡張を制限します。
none
max_features

最大機能は、最初の分割を最も良く探すときにディシジョン ツリーが考慮する機能の最大数を設定します。

  • 自動: データセット内のフィーチャの合計数と等しいフィーチャの数を評価します。
  • なし: データセット内のフィーチャの合計数と等しいフィーチャの数を評価します。
  • 平方根: データセット内のフィーチャの総数の平方根と等しいフィーチャの数を評価します。
  • Log2: フィーチャの合計数の 2 進対数と等しいフィーチャの数を評価します。
  • ユーザ選択の整数: 各分割で選択した数と等しい複数のフィーチャを評価します。
  • ユーザー選択分数: ユーザーが選択したフィーチャの総数に相当するフィーチャ数を評価します。
auto
max_leaf_nodes 最大リーフ ノードは、アルゴリズムで生成できるリーフ ノードの総数の上方向の制限です。最良優先方法による最大数までノードを増加させます。アルゴリズムは、不純度減少の能力に基づき、どのノードが最良か決定します。criterion パラメーターを用いて、不純度減少をどのように計測するか指定します。 任意の整数またはNone. none
min_impurity_decrease 最小不純物減少は、意思決定ツリーが新しいノードに分割するために必要な不純物低減の最小閾値を設定します。分割は不純度が min_impurity_decrease に同等あるいはこれより大きく不純度が上回ると発生します。criterion パラメーターを用いて、不純度減少をどのように計測するか指定します。 任意のフロート。 0.0年
min_samples_split 最小サンプル分割では、デシジョン ツリーが新しいノードに分割するために必要なサンプルの最小しきい値を設定します。アルゴリズムは最小で 1 つのサンプル、あるいは最大ですべてのサンプルを考慮します。 任意の整数または分数。 整数: 2
min_weight_fraction_leaf 最小重量分数リーフは、デシジョン ツリーが新しいノードに分割するために必要なウェイトの最小しきい値です。閾値は全サンプルの総重量の最小分割と同等です。決定木アルゴリズムは、既定で重みと同等に見なされます。 任意のフロート。 0.0年
presort アルゴリズムが最良の分割を迅速に検出できるように、このパラメーターを使用して、データをプレソートします。
  • true
  • false
false
random_state ランダムシードは、擬似乱数シーケンスを生成するための開始番号を指定します。[なし]を選択すると、乱数ジェネレーターが開始番号を選択します。
  • シード: 乱数ジェネレーターの整数を選択します。
  • なし: 繰り返し不可能。
none
splitter スプリッターは、ノードでの分割に使用される戦略です。best 分割と random 分割のオプションがあります。アルゴリズムは、不純度減少の能力に基づき、どのノードが最良か決定します。
  • Best: ベストは、より多くの計算能力を必要とし、オーバーフィットのリスクがあります。
  • Random: 特定のアソシエーションに弱いシグナルがある場合、ランダムはツリーを通るパスを見つけるかもしれません。
best
ランダムフォレスト

 

名前 説明 オプション デフォルト
bootstrap バギングの基礎である bootstrap は、トレーニングの目的でデータセットのサンプルを得るために使用する方法です。この方法は、初めて見る新しいデータをシミュレートするため、データセットの subsample の作成を繰り返し、モデルの汎化性能を向上するために使用できます。
  • true
  • false
true
class_weight

[クラス ウェイト]では、データセット内の異なるクラスに重みを割り当てます。ランダムフォレストのアルゴニズムは、優勢なクラス側を過大評価する傾向があり、不均衡な結果が生じます。クラス Weightは、少数クラスに追加の重みを割り当てることで、データセット内のクラスのバランスをとるのに役立ちます。クラスの均衡はモデルのパフォーマンスを向上させます。既定で、すべてのクラスは 1 の重みが設定されています。

  • None: すべてのクラスのデフォルト(つまり 1)は、クラスの重み付けです。
  • Balanced: このオプションを選択すると、ランダム フォレスト アルゴリズムによって、各クラスのサンプル数に基づいてクラスの重みが自動的に調整されます。
none
規準 [Criterion]パラメーターを使用して、ランダム フォレスト アルゴリズムによってデータがどの程度異なるノードに分割されたかを測定する方法を選択します。
  • gini
  • entropy
gini
max_depth 最大深度は、フォレスト内の各ツリーのルートからリーフまでの最長パスです。深度が高いツリーほど分割が多く、データに関する情報をより多く捉えます。
  • 無制限: ノードは、すべてのリーフ ノードが純粋 (つまり、単一のクラスに属するデータで構成される) になるまで、またはすべてのリーフ ノードが [最小サンプル分割] パラメーターで指定した値よりも小さい値になるまで展開します。
  • 制限: 分割による拡張を制限します。
none
max_features 最大機能は、フォレスト内の各ディシジョン ツリーが最適な最初の分割を探すときに考慮する機能の最大数を設定します。
  • 自動: データセット内のフィーチャの合計数と等しいフィーチャの数を評価します。
  • なし: データセット内のフィーチャの合計数と等しいフィーチャの数を評価します。
  • 平方根: データセット内のフィーチャの総数の平方根と等しいフィーチャの数を評価します。
  • Log2: フィーチャの合計数の 2 進対数と等しいフィーチャの数を評価します。
  • ユーザ選択の整数: 各分割で選択した数と等しい複数のフィーチャを評価します。
  • ユーザー選択分数: ユーザーが選択したフィーチャの総数に相当するフィーチャ数を評価します。
auto
min_impurity_decrease 最小不純物減少は、意思決定ツリーが新しいノードに分割するために必要な不純物低減の最小閾値を設定します。分割は不純度が min_impurity_decrease に同等あるいはこれより大きく不純度が上回ると発生します。criterion パラメーターを用いて、不純度減少をどのように計測するか指定します。 任意のフロート。 0.0年
min_samples_split 最小サンプル分割は、デシジョン ツリー (ランダム フォレスト内) が新しいノードに分割するために必要なサンプルの最小しきい値を設定します。アルゴリズムは最小で 1 つのサンプル、あるいは最大ですべてのサンプルを考慮します。 任意の整数または分数。 整数: 2
min_weight_fraction_leaf 最小重量分数リーフは、デシジョン ツリーが新しいノードに分割するために必要なウェイトの最小しきい値です。閾値は全サンプルの総重量の最小分割と同等です。ランダムフォレストアルゴリズムは、既定で重みと同等に見なされます。 任意のフロート。 0.0年
n_estimators 推定値の数は、フォレストの一部として作成するツリーの数です。 任意の整数。 100
random_state seed は疑似乱数シーケンスを生成する始めの数値を指定します。[なし]を選択すると、乱数ジェネレーターが開始番号を選択します。
  • シード: 乱数ジェネレータの整数を選択します。
  • なし: 繰り返し不可能。
none
XGBoost

 

名前 説明 オプション デフォルト
レベル別のサンプル列 [レベル別のサンプル列]は、アルゴリズムがツリー内の深度レベルごとにサブサンプルをランダムに作成するデータの割合です。 0 から 1 までの任意の浮動小数点数。 1
ノード別のサンプル列 [ノード別の列のサンプル] は、アルゴリズムがツリー内の各ノードに対してサブサンプルをランダムに作成するデータの割合です。 0 から 1 までの任意の浮動小数点数。 1
ツリー別のサンプル列 ツリー別のサンプル列は、アルゴリズムが各ツリーのサブサンプルをランダムに作成するデータの割合です。 0 から 1 までの任意の浮動小数点数。 1
gamma ガンマは、デシジョン ツリーを新しいノードに分割するために必要な損失を低減します。したがって、分割は、ガンマ以上の金額で損失を減らす場所で発生します。 任意の正の整数または 0。 0
learning_rate 学習率とは、アルゴリズムによって新しい情報が古い情報を上書きできる速度です。通常、学習率は対数増分で設定します(0.003、0.03、0.3 など)。 0 から 1 までの任意の浮動小数点数。 0.05
max_depth 最大深度は、フォレスト内の各ツリーのルートからリーフまでの最長パスです。深度が高いツリーほど分割が多く、データに関する情報をより多く捉えます。 1 以上の数値。 100
最小子供の重さ 最小子ウェイトは、デシジョン ツリーが新しいノードに分割するために必要なヘッセン質量のしきい値を設定します。したがって、分割は、最小子重量と等しいかそれ以上の量でヘッセン重量を減少させる場合に発生します。 任意の正の数または 0。 1
n_estimators 推定値の数は、フォレストの一部として作成するツリーの数です。 1 以上の数値。 100
random_state ランダムシードは、擬似乱数シーケンスを生成するための開始番号を指定します。 任意の整数。 10
subsample サブサンプルは、アルゴリズムがランダムにサブサンプルを作成するデータの割合です。 0 から 1 までの任意の数値。 1
Was This Helpful?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support.