分類ツール

分類ツールを、機械学習パイプラインの一部として使用して、ターゲットが属するカテゴリを特定します。このツールには、モデルのトレーニングに使用できるいくつかのアルゴリズムが用意されています。このツールでは、多数のパラメーターを使用してモデルを調整することもできます。

Alteryx Intelligence Suiteが必要です

このツールは Alteryx Intelligence Suite の一部です。Intelligence Suite を使用するには、Designerに加え、別途のライセンスとアドオンインストーラーが必要です。Designerをインストール後、Intelligence Suiteをインストールし、無料トライアルを開始します。

ツールの設定

このセクションでは、分類ツールの設定方法について説明します。

アルゴリズムの選択

使用するアルゴリズムを選択します。 ロジスティック回帰 、 決定木 、 ランダムフォレスト 、 XGBoost の中から選択します。

パラメーターの設定

パラメータを設定します。各アルゴリズムには、他のアルゴリズムとは異なるパラメーターがあります。各アルゴリズムには、一般パラメーターと詳細パラメーターの両方があります。一般パラメーターを使用すると、初心者でも正確なモデルを作成することができます。詳細パラメーターは、モデルの精度を向上させることができますが、その機能について深い理解が必要です。

各アルゴリズムのテーブルを参照して、各パラメーターの機能を確認します。

ロジスティック回帰

名前	説明	オプション	既定
class_weight	class_weight (クラス重み付け) は、データセット内の異なるクラスに重みを割り当てます。いくつかのアルゴリズムは、優勢なクラスを過大評価し、不均衡をもたらします。このパラメーターは、少数クラスに追加の重みを割り当てることで、データセット内のクラスの均衡を取るのに役立ちます。	なしバランス	なし
fit_intercept	線形回帰モデルの切片をアルゴリズムで計算するかどうかを決定します。「定数」とも呼ばれる切片は、 x が0の場合に予想されるyの平均値です。	なし intercept_scaling	intercept_scaling : 1.0
最大イテレーション数	max_iter (最大反復回数) は、solver が収束できる反復の最大繰り返し回数を指定します。反復回数が多いモデルほど、データに関する情報を多く捉えます。	任意の整数	100
マルチクラス	multi_class (マルチクラス) は、アルゴリズムが 2 つ以上のクラスを処理する必要があるかどうかを指定します。	auto は、multinomial (多項式) または OVR (一対他) を自動選択します。 multinomial は、式は、多クラス分類またはバイナリ分類が可能です。 ovr は、バイナリ分類が可能です。	自動
ペナルティ	penalty は、「正則化」とも呼ばれ、損失関数を変更して、モデルが他の方法で過剰に評価する特定の値にペナルティを課すことを指します。l1 (Lasso回帰) と L2 (Ridge回帰) はペナルティ項を指定する 2 つの方法です。	l1 は、重みを 0 に設定することで、特徴量の多いデータセットで最も重要な特徴量を見つけるのに役立ちます。 l2 は、重みをゼロ以外にすることで、すべての特徴量がモデルに寄与できるようにします。	l2
dual	dual は、主最適化問題を双対問題に変換します。	false true * penalty に l2 オプションを、 solver* に liblinear を選択した場合のみ、 true オプションを使用できます。	false
random_state	random_state は、擬似乱数シーケンスを生成するための初期値を指定します。 none を選択すると、乱数ジェネレーターが初期値を選択します。	int なし	int : 10
solver	solver は、シグモイド関数重みを決定することによって、ロジスティック回帰がデータに最も適合するように曲線を最適化するめに使用する方法です。	liblinear : penalty を適用する小型データセットにこの方法を使用します。 liblinear にはペナルティが必要です。 sag : l2 ペナルティを適用、あるいはペナルティ適用なしの大型データセットにこの方法を使用します。 saga : l1 ペナルティを適用、あるいはペナルティ適用なしの大型データセットにこの方法を使用します。 lbfgs : l2 ペナルティを適用、あるいはペナルティ適用なしの小型データセットにこの方法を使用します。 newton-CG : l2 ペナルティを適用、あるいはペナルティ適用なしの小型データセットにこの方法を使用します。	liblinear
tol	tol (許容度) 　は、パラメーターが十分に収束に近い (すなわち、一定のままである) ことをアルゴリズムが検出する必要がある場合の停止条件を設定します。	任意の正の浮動小数点数	.0001
C	C により、適用するpenaltyの量を調整 ( つまり正則化) し、モデルにより大きく重みがかかっている特徴量を効果的に制限します。このパラメーターは正の浮動小数点数としてフォーマットします。	任意の正の浮動小数点数	1.0

決定木

名前	説明	オプション	既定
class_weight	class_weight (クラス重み付け) は、データセットの異なるクラスに重みを割り当てます。	なしバランス	なし
criterion	criterion パラメーターを使用して、決定木アルゴリズムがどれだけ正確にデータを異なるノードに分割できるかを測定する方法を選択します。	gini エントロピー	gini
max_depth	max_depth (ツリーの最大深度) は、ルートからツリーのリーフまでの最長パスです。深さが大きい木ほど分割が多く、データに関する情報をより多く捉えます。	none : ノードは、すべてのリーフノードがなる (すなわち、単一のクラスに属するデータで完全に構成される) まで、またはすべてのリーフノードが min_samples_spilit パラメーターで指定した値未満になるまで展開します。 int : 分割による拡張を制限します。	none
max_features	max_features は、最良の分割を求めるときに決定木が考慮する特徴量の数を設定します。	auto : データセットの全特徴量数に等しい特徴量の数を求めます。 none : データセットの全特徴量数に等しい特徴量の数を求めます。 sqrt : データセットの全特徴量数の平方根に等しい特徴量の数を求めます。 log2 : 全特徴量数の log2 に等しい特徴量の数を求めます。 int : 各分割で、ユーザーが選択した数に等しい特徴量の数を求めます。 float : 全特徴量のうち、ユーザーが選択した割合に等しい特徴量の数を求めます。	自動
max_leaf_nodes	max_leaf_nodes は、アルゴリズムが生成できる決定木におけるリーフノードの総数の上限です。最良優先方法による最大数までノードを増加させます。このアルゴリズムは、不純度減少の能力に基づき、どのノードが最適かを判断します。criterion パラメーターを使用して、不純度減少を測定する方法を指定します。	int (任意の整数) または none	なし
min_impurity_decrease	min_impurity_decrease は、決定木が新しいノードに分割するために必要な不純度減少量の最小閾値を設定します。したがって、分割は min_impurity_decrease に同等あるいは不純度がそれより大きく上回ると発生します。criterion パラメーターを使用して、不純度減少を測定する方法を指定します。	任意の浮動小数点数	0.0
min_samples_split	min_samples_spilit は、決定木が新しいノードに分割するために必要なサンプル数の最小閾値を設定します。アルゴリズムは最小で1つのサンプル、あるいは最大ですべてのサンプルを考慮します。	int (任意の整数) または float (浮動小数点数)	int : 2
min_weight_fraction_leaf	min_weight_fraction_leaf は、決定木が新しいノードに分割するために必要な重みの最小閾値を設定します。この閾値は、すべてのサンプルの総重量の最小割合と等しくなります。決定木アルゴリズムは、既定で重みと同等に見なされます。	任意の浮動小数点数	0.0
presort	このパラメーターを使用してデータを事前にソートします。これにより、アルゴリズムが最良の分割を迅速に検出することができます。	有効無効	無効
random_state	random_state は、擬似乱数シーケンスを生成するための初期値を指定します。 none を選択すると、乱数ジェネレーターが初期値を選択します。	int : 乱数ジェネレーターの整数を選択します。 none : 反復可能性がありません。	int : 10
splitter	Splitter は、ノードでの分割に使用されるストラテジーです。オプションには、best 分割と random 分割があります。このアルゴリズムは、不純度減少の能力に基づき、どのノードが最適かを判断します。	best : best は、より多くの計算能力が必要なため、過学習のリスクがあります。 random : random は、特定の関連付けの信号が小さい場合、このオプションはツリーを通してパスを検出します。	best

ランダムフォレスト

名前	説明	オプション	既定
bootstrap	バギングの基礎である bootstrap は、トレーニングのためにデータセットをサンプリングするために使用される方法です。この方法は、初めて見る新しいデータをシミュレートするため、データセットの subsample の作成を繰り返し、モデルの汎化性能を向上するために使用します。	有効無効	有効
class_weight	class_weight (クラス重み付け) は、データセットの異なるクラスに重みを割り当てます。ランダムフォレストのアルゴニズムは、優勢なクラスを過大評価する傾向があり、不均衡な結果が生じます。class_weight は、少数クラスに重みを割り当てることによって、データシートのクラス間のバランスを調整する助けになります。クラスの均衡を取ることにより、モデルのパフォーマンスが向上します。既定では、すべてのクラスは重み 1 です。	none : class_weight は、すべてのクラスの既定 (つまり、１) です。 balanced : このオプションを選択すると、ランダムフォレストアルゴリズムは、各クラスのサンプル数に基づいてクラスの重みを自動的に調整します。	なし
criterion	criterion パラメーターを使用して、ランダムフォレストアルゴリズムがどれだけデータを異なるノードに分割できるかを測定する方法を選択します。	gini エントロピー	gini
max_depth	max_depth (ツリーの最大深度) は、フォレスト内の各ツリーのルートからリーフまでの最長パスです。深さが大きい木ほど分割が多く、データに関する情報をより多く捉えます。	none : ノードは、すべてのリーフノードがなる (すなわち、単一のクラスに属するデータで完全に構成される) まで、またはすべてのリーフノードが min_samples_spilit パラメーターで指定した値未満になるまで展開します。 int : 分割による拡張を制限します。	int : 10
max_features	max_features (特徴量の数) は、フォレスト内の各決定木が最良の分割を求めるときに考慮する特徴量の数を設定します。	auto : データセットの全特徴量数に等しい特徴量の数を求めます。 none : データセットの全特徴量数に等しい特徴量の数を求めます。 sqrt : データセットの全特徴量数の平方根に等しい特徴量の数を求めます。 log2 : 全特徴量数の log2 に等しい特徴量の数を求めます。 int : 各分割で、ユーザーが選択した数に等しい特徴量の数を求めます。 float : 全特徴量のうち、ユーザーが選択した割合に等しい特徴量の数を求めます。	自動
min_impurity_decrease	min_impurity_decrease は、決定木が新しいノードに分割するために必要な不純度減少量の最小閾値を設定します。したがって、分割は min_impurity_decrease に同等あるいは不純度がそれより大きく上回ると発生します。criterion パラメーターを使用して、不純度減少を測定する方法を指定します。	任意の浮動小数点数	0.0
min_samples_split	min_samples_spilit は、決定木　(ランダムフォレスト内) が新しいノードに分割するために必要なサンプル数の最小閾値を設定します。アルゴリズムは最小で 1 つのサンプル、あるいは最大ですべてのサンプルを考慮します。	int (任意の整数) または float (浮動小数点数)	int : 2
min_weight_fraction_leaf	min_weight_fraction_leaf は、決定木が新しいノードに分割するために必要な重みの最小閾値を設定します。この閾値は、すべてのサンプルの総重量の最小割合と等しくなります。ランダムフォレストアルゴリズムは、既定で重みと同等に見なされます。	任意の浮動小数点数	0.0
n_estimators	n_estimators (推定値の数) は、フォレストの一部として作成するツリーの数です。	任意の整数	100
random_state	random_state は疑似乱数シーケンスを生成する初期値を指定します。 none を選択すると、乱数ジェネレーターが初期値を選択します。	int : 乱数ジェネレーターの整数を選択します。 none : 反復可能性がありません。	int : 10

XGBoost

名前	説明	オプション	既定
colsample_bylevel	colsample_bylevel は、アルゴリズムが木の深さごとに subsample をランダムに作成するデータの割合です。	0 から 1 までの任意の浮動小数点数	1
colsample_bylevel	colsample_bynode は、アルゴリズムが木のノードごとに subsample をランダムに作成するデータの割合です。	0 から 1 までの任意の浮動小数点数	1
colsample_bylevel	colsample_bytree は、アルゴリズムがツリーごとに subsample をランダムに作成するデータの割合です。	0 から 1 までの任意の浮動小数点数	1
gamma	gamma は、決定木が新しいノードに分割するために最低限の損失関数の減少を設定します。したがって、損失関数の減少が gamma と同等またはそれを超える時にのみ分割を進めます。	任意の正の整数または 0	0
learning_rate	learning_rate (学習率) は、アルゴリズムが新しい情報に古い情報を上書きさせる割合です。 learning_rate は通常、0.003、0.03、0.3 といった対数増分で設定します。	0 から 1 までの任意の浮動小数点数	0.05
max_depth	max_depth (ツリーの最大深度) は、フォレスト内の各ツリーのルートからリーフまでの最長パスです。深さが大きい木ほど分割が多く、データに関する情報をより多く捉えます。	1 と同等もしくはそれ以上の数値	3
min_child_weight	min_child_weight (子ノード最小の重み) は、決定木が新しいノードに分割するために必要なヘッセ重みの閾値を設定します。したがって、分割は min_child_weight と同等、あるいはこれより大きくヘッセ重みが縮小すると発生します。	任意の正の数または 0	1
n_estimators	n_estimators (推定値の数) は、フォレストの一部として作成するツリーの数です。	1 と同等もしくはそれ以上の数値	100
random_state	random_state は、擬似乱数シーケンスを生成するための初期値を指定します。	任意の整数	10
subsample	subsample は、アルゴリズムが subsample をランダムに作成するデータの割合です。	0から1までの任意の数値	1