Skip to main content

机器学习术语

实际值

实际值是数据集中表示行所属类别的值。例如,如果您有与客户流失相关的数据集,该数据集可能包含一列“是”和“否”的变量,这些变量指示客户是否流失。这些是实际的观测值,有助于训练您的机器学习模型。

实际值 vs.预测值

实际值 vs.预测值图绘出了训练数据的实际值以及模型针对该目标输出的预测值。模型的误差分数越低,包含的数据点的实际值就更接近于预测值。

修正R²

修正R²是标准化的拟合度测量值,表示特征在多大程度能对目标差异进行解释。使用此度量来比较不同回归算法对相似数据建模的效果。分数介于0到1之间,其中1表示完全拟合。

算法

算法是计算机用来解决问题的过程。算法根据一组规则,使用包含一组特征的训练数据来构建模型。模型在遇到新数据时能预测结果。算法包括随机森林、决策树和逻辑回归等。

布尔值

布尔值数据代表只有两种值的数据,如true或false。

分类值

分类特征包含有限数量且代表不同类别的值,例如某个人的贷款申请状况(已批准、已拒绝和无)。

共线性

当两个或多个特征测量同一事物时,则会产生共线性。在此情况下,可能存在多个被模型赋予太多权重的特征。共线性可使特征重要性排序 (Permutation Importance) 度量产生偏差。

特征重要性排序(Permutation Importance)注意事项

特征重要性排序(Permutation Importance)可有效衡量各个特征对模型的重要程度。但是,它也存在限制。它容易受到共线性、交互效应和不可能值问题的影响。仔细检查您的数据,确保所有这些问题不会影响您的模型。

常量

选择此选项后,“辅助建模”会将空白字段读取为缺失值。如果您认为建模算法可自行在缺失值中找到有价值的发现,则选择此选项,因为有时它能在缺失数据中找到模式。如果您认为其他处理丢失数据的方法可能会使模型产生偏差,则也可以选择此选项。

丢弃特征

选中此选项后,“辅助建模”不会在模型中使用该特征。数据集包含太多缺失值时,选择此选项。

特征

特征是一组用于预测目标的可度量值。一个模型通常具有多个重要性不同的特征。对于试图预测股价等回归问题,特征集可能是每日开盘价、收盘价和成交量。对于分类问题,例如试图预测鸢尾属于哪个花卉品种,特征集可能是萼片和花瓣的长度和宽度。

特征重要性

“辅助建模”使用特征重要性排序(permutation importance)方法,通过评估测试数据集的特征来衡量每个特征对模型的重要性。使用此测量来确定哪些特征对您的模型最重要。您还可使用此测量来识别可能因特征与目标关联过低或过高而导致模型面临泛化错误风险的特征。

Gini

基尼不纯度(Gini)用于测量特征贡献,它对每个特征分配一个百分值,以表示该特征对整个预测模型的贡献程度。“辅助建模”在构建决策树中使用此度量,以根据特征贡献程度来选择属于良好预测因子的特征。使用基尼不纯度识别可能因贡献太多或太少而导致模型面临泛化错误风险的特征。

ID

设置数据类型时,“辅助建模”会丢弃类似ID的列,因为它们不能用于预测目标。类似ID的数据代表唯一的和离散的值。这类特征包含诸如客户ID或交易号码之类的信息。

不可能的值

在使用如特征重要性排序 (permutation importance)之类的方法打乱数据集中的值时,可能会创建一个不可能的值。在此情况下,您可能会获得多行无用数据,例如,一个房屋的门的数量少于封闭房间的数量。不可能的值可使特征重要性排序 (Permutation Importance) 度量产生偏差。

交互效应

当两个或多个特征对目标的影响比他们独自的影响大得多(或少得多)时,就会发生交互效应。在此情况下,可能存在对目标产生过高或过低影响的特征。交互效应可使特征重要性排序 (Permutation Importance) 度量产生偏差。

平均绝对误差 (MAE)

平均绝对误差(MAE)用于测量回归模型与数据的拟合程度。MAE与均方根误差相似,但受离群值的影响较小。分数越高表示误差越大以及拟合度越低;分数为0表示没有误差且完全拟合。

最大误差

最大误差(Max Error)用于衡量预测值和实际值之间的最大差值。使用此度量来推断回归模型的最坏情况。分数越高表示误差越大;分数为0表示没有误差且完全拟合。

平均值

如果选择此选项,“辅助建模”将用特征总数除以总行数得出的值替换缺失值。请仅对数值数据使用此方法。如果您的数据是正态分布且没有离群值,建议使用此选项。

Median

如果选择此选项,“辅助建模”会将缺失值替换为居于特征分布中间位置的数字。如果您的数据存在倾斜或包含离群值,我们建议使用此选项。

众数

如果选择此选项,“辅助建模”会将缺失值替换为最常出现的数字。如果特征包含分类值,并且您不希望将其丢弃,则推荐使用此选项。您还可使用众数填充缺失的数值。

可忽略的特征

这是模型预测目标时不依赖的特征。考虑丢弃该特征,减轻模型的复杂程度。

数值

数值特征包含实数,例如1、3.14和100。

OLS

普通最小二乘法 (OLS) 是对拟合度的度量,在确定一个特征的方差方面很有效。“辅助建模”使用此度量评估特征与目标的关联程度。使用OLS识别可能因特征与目标的关联性过低或过高而导致模型面临泛化错误风险的特征。

预测值

预测值是算法根据在提供的特征中找到的趋势为行分配的值。例如,如果您有与客户流失相关的数据集,该算法可能会预测是(客户将流失);或者否,(客户不会流失)。

残差

残差是目标的观察值与预测值之间的差异。残差可以是正值或负值。使用残差来评估模型与训练数据的拟合程度以及产生差异的地方。

残差对比

该图比较了回归算法输出的残差。其中,残差是绝对值,经过对数变换,是有序的;0表示没有误差,数值越大表示误差越多。使用残差对比图来评估不同模型拟合训练数据的程度。

RMSE

均方根误差 (RMSE) 测量回归模型与数据的拟合程度。使用RMSE来比较不同回归算法对相似数据建模的效果。分数越高表示误差越大以及拟合度越低;分数为0表示没有误差且完全拟合。