Skip to main content

辅助建模

使用 辅助 选项获取有关构建机器学习模型的帮助。它通过分步操作对您进行指导,操作包括选择目标和机器学习方法、设置数据类型、清理缺失值、选择特征和选择最佳算法。如果你不确定哪种算法最佳,可通过“辅助建模”排行榜比较算法。随后再将管道(包含了用于训练模型的所有机器学习工具)添加到 Designer 画布。

重要

在使用辅助建模之前,必须使用 Input Data Tool Icon 输入数据工具 将数据传入 Designer,然后将其连接到“辅助建模”工具。选择 运行 后,在配置窗口中选择 开始辅助建模

1. 选择目标和机器学习方法

选择目标,然后让“辅助建模”选择要用于预测目标的机器学习方法。

  1. 可用目标 部分将列出数据集中特征的名称。选择要设置为目标的特征。

  2. “辅助建模”自动检测目标是否包含分类数据或数值数据,并选择适当的机器学习方法。

  3. 选择 下一步 转到 第 2 步:选择自动化程度

重要

“辅助建模”确保在你进入下一步之前选择了正确的目标。此后,只有重新开始整个流程才可以更改目标。选择了正确的目标后选择 继续

2. 选择自动化程度

选择让工具构建机器学习管道,还是让“辅助建模”指导您逐步完成整个流程。

  1. 选择 分步 自动 选项。

  2. 选择 下一步

如果选择 分步 ,“辅助建模”将执行 步骤3:设置数据类型

如果您选择了 自动 ,“辅助建模”则会自动完成构建机器学习管道的所有步骤,包括:设置数据类型、清除缺失值、选择特征和选择算法。当该工具完成整个流程后,在排行榜中可查看到输出。

3. 设置数据类型

“辅助建模”为每个特征设置数据类型。它在 数据类型 列中显示建议的数据类型。建议选项带有标签(例如, 数值(建议) )。

  1. 选择一个特征以在 列详情 栏中查看有关它的信息。通过列详情可看到 数据类型概率 ,它显示“辅助建模”认为一个特征属于某数据类型的自信程度。 预览 包含数据的样本。使用此信息判断是否正确设置了数据类型。

  2. 如果一个特征的数据类型不正确,使用 数据类型 列中的下拉列表选择准确的数据类型。

  3. 选择 下一步 转到 第 4 步:清理缺失值

提示

如果你不确定术语的含义,请查看“辅助建模”中的 术语表 一栏。此部分包含有关数据科学家使用的许多常见术语的信息。

4. 清理缺失值

“辅助建模”可清除数据中的缺失值。对于每个包含缺失值的特征,“辅助建模”在 方法 列显示清理缺失值的推荐方法。建议的选项带有标签(例如, 替换为中位数(建议)。

  1. 选择一个特征以在 列详情 部分中查看有关它的信息。列详情解释“辅助建模”如何选择清理缺失数据的 清理方法 预览 包含数据的样本。使用此信息判断是否使用了正确的方法来处理缺失值。

  2. 如果要使用其他清理方法,使用 方法 列中的下拉列表选择正确的清理方法。

  3. 选择 下一步 转到 第 5 步:选择特征

5. 选择特征

“辅助建模”选择可以产生最佳模型的特征。对于每个特征,它在 特征信息 列中就其是否是一个很好的预测因子作出评估。

  1. 选择一个特征以在 列详情 部分中查看有关它的信息。通过列详情可了解 预测因子详情 ,其中提供了两种衡量特征效果的度量:Gini 和 GKT。“辅助建模”根据这两个度量值来确定特征与目标关联过多还是过少。 预览 包含数据的样本。使用此信息确保特征是良好的预测变量。

  2. 如果不想使用某个特征,则取消选中该特征名称旁边的复选框。

  3. 选择 下一步 转到 第 6 步:选择算法

6. 选择算法

“辅助建模”为你提供了一系列算法。它根据要解决的问题类型推荐不同的算法。此步骤需要你选择在排行榜中进行评估的算法。

  1. 每种算法的信息卡都显示该算法的优缺点、描述和一些用例。使用此信息确认你是否要对算法进行评估。

    1. 对于分类变量,该工具提供了 4 种算法:

      1. 逻辑回归

      2. 决策树

      3. 随机森林

      4. XGBoost

    2. 对于连续变量(数字),该工具提供了 3 种算法:

      1. 线性回归

      2. 决策树

      3. 随机森林

  2. 要评估算法,选中其名称旁边的复选框。如果不想评估算法,取消选中此框。

  3. 选择 运行已选算法

排行榜

“辅助建模”生成排行榜,通过排行榜可以比较所选算法的性能。

根据要解决的问题类型,排行榜输出会不同。以下是关于导航其用户界面的基本方式:

  • 要查看某一个算法的信息,在 排行榜 部分选择其信息卡。

  • 要查看有关一个算法与另一个算法的性能比较,选择 对比 选项卡。

  • 要查看有关一个算法的性能信息,选择 概述 选项卡。

  • 要查看算法最看重的特征,选择 解释 选项卡。

  • 要提醒自己在整个“辅助建模”过程中所做的选择,选择 配置 选项卡。

  • 要在保留排行榜信息的前提下重新开始“辅助建模”,选择 创建新模型

  • 要显示或隐藏排行榜,选择 隐藏排行榜 查看排行榜

确定哪些算法的性能最佳后,可以选择要添加到 Designer 画布的算法,使其成为训练模型的机器学习管道的一部分:

  1. 选中要添加到画布的算法名称旁边的复选框。你将会看到选中模型算法的数量。

  2. 选择 添加模型并继续工作流

最后将管道(包含用于训练模型的所有机器学习工具)添加到 Designer 画布。

  1. 选择三点菜单。

  2. 从下拉列表中选择 导出 HTML 报告

  3. 在文件资源管理器选择要保存报告的位置。

您可以将机器学习管道的代码导出到 Python tool Python Tool 中的 Jupyter Notebook。

  1. 选择三点图标。

  2. 从下拉列表中选择 将模型导出到 Python

  3. 退出“辅助建模”窗口时,工作流中将显示一个 Python 工具。它包含带注释的 Jupyter Notebook,其中包含机器学习管道的所有代码。