辅助建模
使用 辅助 选项获取有关构建机器学习模型的帮助。它通过分步操作对您进行指导,操作包括选择目标和机器学习方法、设置数据类型、清理缺失值、选择特征和选择最佳算法。如果你不确定哪种算法最佳,可通过“辅助建模”排行榜比较算法。随后再将管道(包含了用于训练模型的所有机器学习工具)添加到 Designer 画布。
重要
在使用辅助建模之前,必须使用 输入数据工具 将数据传入 Designer,然后将其连接到“辅助建模”工具。选择 运行 后,在配置窗口中选择 开始辅助建模 。
1. 选择目标和机器学习方法
选择目标,然后让“辅助建模”选择要用于预测目标的机器学习方法。
可用目标 部分将列出数据集中特征的名称。选择要设置为目标的特征。
“辅助建模”自动检测目标是否包含分类数据或数值数据,并选择适当的机器学习方法。
选择 下一步 转到 第 2 步:选择自动化程度 。
重要
“辅助建模”确保在你进入下一步之前选择了正确的目标。此后,只有重新开始整个流程才可以更改目标。选择了正确的目标后选择 继续 。
2. 选择自动化程度
选择让工具构建机器学习管道,还是让“辅助建模”指导您逐步完成整个流程。
选择 分步 或 自动 选项。
选择 下一步 。
如果选择 分步 ,“辅助建模”将执行 步骤3:设置数据类型 。
如果您选择了 自动 ,“辅助建模”则会自动完成构建机器学习管道的所有步骤,包括:设置数据类型、清除缺失值、选择特征和选择算法。当该工具完成整个流程后,在排行榜中可查看到输出。
3. 设置数据类型
“辅助建模”为每个特征设置数据类型。它在 数据类型 列中显示建议的数据类型。建议选项带有标签(例如, 数值(建议) )。
选择一个特征以在 列详情 栏中查看有关它的信息。通过列详情可看到 数据类型概率 ,它显示“辅助建模”认为一个特征属于某数据类型的自信程度。 预览 包含数据的样本。使用此信息判断是否正确设置了数据类型。
如果一个特征的数据类型不正确,使用 数据类型 列中的下拉列表选择准确的数据类型。
选择 下一步 转到 第 4 步:清理缺失值 。
提示
如果你不确定术语的含义,请查看“辅助建模”中的 术语表 一栏。此部分包含有关数据科学家使用的许多常见术语的信息。
4. 清理缺失值
“辅助建模”可清除数据中的缺失值。对于每个包含缺失值的特征,“辅助建模”在 方法 列显示清理缺失值的推荐方法。建议的选项带有标签(例如, 替换为中位数(建议)。
选择一个特征以在 列详情 部分中查看有关它的信息。列详情解释“辅助建模”如何选择清理缺失数据的 清理方法 。 预览 包含数据的样本。使用此信息判断是否使用了正确的方法来处理缺失值。
如果要使用其他清理方法,使用 方法 列中的下拉列表选择正确的清理方法。
选择 下一步 转到 第 5 步:选择特征 。
5. 选择特征
“辅助建模”选择可以产生最佳模型的特征。对于每个特征,它在 特征信息 列中就其是否是一个很好的预测因子作出评估。
选择一个特征以在 列详情 部分中查看有关它的信息。通过列详情可了解 预测因子详情 ,其中提供了两种衡量特征效果的度量:Gini 和 GKT。“辅助建模”根据这两个度量值来确定特征与目标关联过多还是过少。 预览 包含数据的样本。使用此信息确保特征是良好的预测变量。
如果不想使用某个特征,则取消选中该特征名称旁边的复选框。
选择 下一步 转到 第 6 步:选择算法 。
6. 选择算法
“辅助建模”为你提供了一系列算法。它根据要解决的问题类型推荐不同的算法。此步骤需要你选择在排行榜中进行评估的算法。
每种算法的信息卡都显示该算法的优缺点、描述和一些用例。使用此信息确认你是否要对算法进行评估。
对于分类变量,该工具提供了 4 种算法:
逻辑回归
决策树
随机森林
XGBoost
对于连续变量(数字),该工具提供了 3 种算法:
线性回归
决策树
随机森林
要评估算法,选中其名称旁边的复选框。如果不想评估算法,取消选中此框。
选择 运行已选算法 。
排行榜
“辅助建模”生成排行榜,通过排行榜可以比较所选算法的性能。
根据要解决的问题类型,排行榜输出会不同。以下是关于导航其用户界面的基本方式:
要查看某一个算法的信息,在 排行榜 部分选择其信息卡。
要查看有关一个算法与另一个算法的性能比较,选择 对比 选项卡。
要查看有关一个算法的性能信息,选择 概述 选项卡。
要查看算法最看重的特征,选择 解释 选项卡。
要提醒自己在整个“辅助建模”过程中所做的选择,选择 配置 选项卡。
要在保留排行榜信息的前提下重新开始“辅助建模”,选择 创建新模型 。
要显示或隐藏排行榜,选择 隐藏排行榜 或 查看排行榜 。
确定哪些算法的性能最佳后,可以选择要添加到 Designer 画布的算法,使其成为训练模型的机器学习管道的一部分:
选中要添加到画布的算法名称旁边的复选框。你将会看到选中模型算法的数量。
选择 添加模型并继续工作流 。
最后将管道(包含用于训练模型的所有机器学习工具)添加到 Designer 画布。
选择三点菜单。
从下拉列表中选择 导出 HTML 报告 。
在文件资源管理器选择要保存报告的位置。
您可以将机器学习管道的代码导出到 Python Tool 中的 Jupyter Notebook。
选择三点图标。
从下拉列表中选择 将模型导出到 Python 。
退出“辅助建模”窗口时,工作流中将显示一个 Python 工具。它包含带注释的 Jupyter Notebook,其中包含机器学习管道的所有代码。