模型对比工具
“模型对比”工具可根据使用的验证集或测试集来比较一个或多个不同预测模型的性能。它针对每个模型生成一个报告、一个基本误差测量表以及一个预测结果表。该工具支持所有二元分类,其中目标变量只有两个级别,如“是”和“否”;多项式分类,其中目标变量有两个以上的级别,如“汽车”、“公共汽车”、“火车”和“飞机”;以及回归(连续目标变量)模型。
对于分类问题,报告包含每个模型的总体准确率、按类划分的准确率、F1 评分以及混淆矩阵。对于二元分类模型,还会报告性能诊断图,其中包括以一组提升曲线、增益图、精确率和召回曲线以及 ROC 曲线图形式对每种模型所做的比较。对于每个回归模型的预测,该报告包括预测值和实际值之间的关联性,以及均方根误差 (RMSE)、平均绝对误差 (MAE)、平均百分比误差 (MPE) 和平均绝对百分比误差 (MAPE)。请注意,如果目标变量的任何值都等于零,则不定义 MPE 和 MAPE 度量,因为它们都需要除以每个观测值的实际值。在这些情况下,报告的是加权绝对百分比误差(绝对误差之和除以实际值之和)而不是 MAPE,而 MPE 将由实际值之和的误差之和代替。虽然很容易想出目标值之和等于零的人为示例,但这在实际操作中不太可能发生。还提供了每个模型的实际值与预测值的图解。
请注意,虽然此工具支持多模型对比,但用户也可以只使用一个模型获得类似于多模型案例的性能报告。从模型对比获得的报告,与从预测工具(例如提升模型)的 R 锚点获得的报告输出之间的区别在于,前者使用的测试集与用来构建模型的训练集不同,因此得出模型的样本外性能评估结果。
连接输入
“模型对比”工具需要两个输入数据流。
M 锚点:由任何 Alteryx 预测工具的 O 输出锚点生成的不同模型的联合。要比较多个模型,请将多个模型对象组合到一个数据流中。
D 锚点:测试集,通常与用来构建模型的训练集不同。
配置工具
目标变量中的正类(仅二元分类,可选):可选。当此值留空时,按字母顺序排列的类名的最后一个值用作正类。
如果目标变量取值“False”和“True”,则正类默认变为“True”,因为“True”按字母顺序排在“False”之后。
配置选项约束
对于回归问题,由于目标变量包含连续数字,因此类的概念不适用。对于多项式分类模型,该报告会为每个模型提供了一个完整的混淆矩阵,因此无论是否挑选正类,都不会影响输出。对于二元分类模型,正类应该是分析所关注的结果。例如,如果目标是确定哪些客户更有可能对直接营销活动作出响应,并且响应值被编码为“是”和“否”,则可能的重点将为“是”响应,在模型对比中,这应该被选择为“正类”。
查看输出
将浏览工具连接到每个输出锚点以查看结果。
E 锚点:误差测量表。
P 锚点:实际值和各种预测值。
R 锚点:包含误差测量值和一组诊断图的报告。