Skip to main content

機械学習用語集

実測値

実測値は、行が属するカテゴリを示すデータセット内の値です。例えば、顧客離反に関連するデータセットがある場合、顧客が解約したかどうかを示す Yes、No の変数の列が含まれる可能性があります。これらは、機械学習モデルのトレーニングに役立つ実測値です。

実測値 vs予測値

実測値 vs 予測値のチャートは、モデルがターゲットに出力した予測値に対する、トレーニングデータの実測値によるプロットです。エラースコアが低いモデルは、実測値が予測値に近いデータポイントになります。

自由度調整済み決定係数

自由度調整済み決定係数は、特微量がターゲットの変動をどの程度説明するかを示す、正規化された適合尺度です。この尺度を使用して、異なる回帰アルゴリズムが類似データをどの程度うまくモデル化しているかを比較します。スコアの範囲は 0 から 1 で、1 が最適です。

アルゴリズム

アルゴリズムは、コンピューターが問題を解決するために使用する手順です。一連のルールに従いながら、アルゴリズムは一連の特微量を含むトレーニングデータを使用してモデルを構築します。モデルは新しいデータを感知すると、結果を予測することができます。アルゴリズムの例には、「ランダムフォレスト」、「決定木」、「ロジスティック回帰」があります。

ブール値

ブールデータは true または false などのように、2 つのうちどちらか 1 つの値を表します。

カテゴリ

カテゴリ別特徴量には、承認済み、拒否、なしといった値で表す個人のローンステータスなど、異なるカテゴリを表す限られた数の値が含まれています。

共線性

共線性は 2 つ以上の特徴量が同じ事を計測すると発生します。この場合、モデルが重みを過剰に割り当てている複数の特徴量がある可能性があります。共線性により、Permutation Importance の測定値がずれることがあります。

Permutation Importance に関する考察

Permutation Importance は、各特徴量がモデルにどれだけ重要か計測する効果的な方法ですが、制限があります。共線性、相互作用の影響、または実行不可能な値の問題の可能性があります。データを見直して、モデルに影響しないことを確認してください。

定数

このオプションを選択すると、アシスト付きモデリングが空のフィールドを欠落値として読み取ります。モデリングアルゴリズムが欠落値自体に意味を見出すと思われる場合は、このオプションを選択します。データが無いところにパターンを見出すことができる場合があるためです。他の欠落値の処理方法がモデルを偏らせる可能性がある場合も、このオプションを選択することができます。

特徴量を削除

このオプションを選択すると、アシスト付きモデリングはこの特徴量をモデルの一部として使用しません。データセットに含まれている欠落値が多すぎる場合にこのオプションを選択します。

特徴量

特徴量は、ターゲットを予測するのに使用できる測定可能な値のセットです。モデルは通常、重要度の異なる複数の特徴量を含みます。株式価格を予測するなどの回帰問題の場合、一連の特徴量は、その日の株式の開始価格と最終価格、および取引数になります。アヤメがどの花の種に属するかを予測するなどの分類問題の場合、特徴量はがく片と花びらの長さと幅になります。

特徴量の重要度

アシスト付きモデリングは、Permutation Importance 方法を使用して、テストのデータセットに対する特徴量を評価し、モデルの各特徴量の重要度を測定します。この尺度を使用して、どの特徴量がモデルにとって最も重要かを決定します。また、この尺度を使用して、ターゲットとの関連性の極端な強弱によって、モデルを一般化エラーの危険にさらす可能性のある特徴量を特定します。

ジニ

ジニ不純度 (Gini) とは特徴量の寄与度の尺度であり、各特徴量には予測モデル全体に対する寄与度の割合が割り当てられます。アシスト付きモデリングは決定木の一部としてこの尺度を用い、特徴量の寄与度に基づいて適切な予測子となる特徴量を選択します。Gini を使用して、寄与度の極端な大小によって、モデルを一般化エラーの危険にさらす可能性のある特徴量を特定します。

ID

アシスト付きモデリングは、データ型を設定するときに ID のような列を削除します。これは、それらを使用してターゲットを予測できないためです。ID ライクデータは、ユニークかつ離散的な値を表します。これらの特徴量には、顧客ID、または取引番号などの情報が含まれています。

実行不可能な値

実行不可能な値は、Permutation Importance といった、使用するメソッドがデータセットの値を動かしている場合に発生します。この場合、部屋の数よりもドアの数が少ない家といった例のように、意味をなさないデータ列がある可能性があります。実行不可能な値により、Permutation Importance の測定値がずれることがあります。

相互作用の影響

相互作用の影響は、2 つ以上の特徴量がターゲットに与える影響が、独立したときよりもはるかに大きい (またははるかに小さい) 場合に発生します。この場合、過剰あるいは過小の影響がターゲットにかかっている特徴量がある可能性があります。相互作用の影響により、Permutation Importance の測定値がずれることがあります。

平均絶対誤差 (MAE)

平均絶対誤差 (MAE) は、回帰モデルがデータにどの程度適合するかを示す尺度です。MAE は二乗平均平方根誤差に似ていますが、外れ値の影響を受けにくい傾向があります。スコアが高いほど、エラーが多く適合度が低いことを示します。スコアが 0 の場合、エラーがなく完全に適合することを示します。

最大誤差

最大誤差は、予測値と実測値との間の最大差を示す尺度です。この尺度を使用して、回帰モデルにとって最悪のシナリオを推測します。スコアが高いほど、エラーが多いことを示します。スコアが 0 の場合、エラーがなく完全に適合することを示します。

平均

このオプションを選択すると、アシスト付きモデリングが、欠落値をすべての行の合計を行数の総数で割った値と置き換えます。この方法は数値データ型にのみに使用します。データが正規型分布であり、外れ値がない場合にこの方法を推奨します。

Median

このオプションを選択すると、アシスト付きモデリングが、欠落値を特徴量の分布の中点を表す数と置き換えます。データが傾斜分布であったり、外れ値がある場合にこの方法をお勧めします。

最頻値

このオプションを選択すると、アシスト付きモデリングが、欠落値を最も頻繁に発生する数と置き換えます。特徴量にカテゴリ別の値が含まれていて、それを削除したくない場合にこの方法をお勧めします。欠落している数値を入力するために最頻値を使用することもできます。

無視可能な特徴量

これはモデルがターゲットを予測する際に依存しない特徴量です。モデルの複雑さを減らすためにこの特徴量を削除することを検討してください。

数値

数値特徴量には、1、3.14、100 などの実数が含まれます。

OLS

最小二乗法 (OLS) は適合の尺度で、特徴量の分散を決定するのに有効です。アシスト付きモデリングはこの計測を用いて、特徴量がターゲットにどれだけ関連性があるか評価します。また、OLS を使用して、ターゲットとの関連性の極端な強弱によって、モデルを一般化エラーの危険にさらす可能性のある特徴量を特定します。

予測値

予測値は、提供した特微量で検出された傾向に基づいてアルゴリズムが行に割り当てる値です。例えば、顧客離反に関連するデータセットがある場合、アルゴリズムは Yes (顧客は解約する) または No (顧客は解約しない) と予測する可能性があります。

残差

残差は、ターゲットの観測値と予測値の差です。残差は正にも負にもなりえます。残差を使用して、モデルがトレーニングデータにどの程度適合するか、どのように異なるかを評価します。

残差比較

このプロットは、回帰アルゴリズムが出力する残差を比較します。残差は絶対値であり、対数変換され、順序付けられています。0 はエラーがないことを示し、値が大きいほどエラーが多いことを示します。残差比較プロットを使用して、さまざまなモデルがトレーニングデータにどの程度適合するかを評価します。

RMSE

二乗平均平方根誤差 (RMSE) は、回帰モデルがデータにどの程度適合するかを示す尺度です。RMSE を使用して、異なる回帰アルゴリズムが類似データをどの程度うまくモデル化しているかを比較してください。スコアが高いほど、エラーが多く適合度が低いことを示します。スコアが 0 の場合、エラーがなく完全に適合することを示します。