警告
Intelligence Suite 中的 AutoML 工具从版本 2022.1 开始已被弃用。 Alteryx Machine Learning 仍然提供类似的自动化机器学习功能。
在机器学习管道中使用自动机器学习工具,让工具自动构建数据模型。该工具为分类和回归方法提供了多种算法,在输出训练模型之前对算法进行交叉评估。
要求 Alteryx Intelligence Suite
此工具是 Alteryx Intelligence Suite 的一部分。Intelligence Suite 需要单独的许可证,并需要以 Designer 附加组件进行安装。安装 Designer 后,请安装 Intelligence Suite 并 开始您的免费试用 。
工具组件
自动机器学习工具有两个锚点。
输入锚点:输入锚点连接至使用自动机器学习工具建模的数据。
输出锚点:输出锚点将带相关性能指标的模型对象传递到下游。
要使用自动机器学习工具,您必须选择预测目标以及要使用的机器学习方法。
从下拉列表中选择一个选项。选项包括输入数据中的所有列。每列的数据类型显示在其名称旁边。
自动机器学习工具会根据您选择的目标自动选择最佳机器学习方法。可用的机器学习方法包括回归和分类。您可以手动选择机器学习方法。
回归方法适合解决旨在从数据中找到趋势线的问题,如预测 GDP 增长。您也可以使用回归算法来描述事件之间的关联。例如,您可以使用此方法来了解公司销售额的增加是否与公司雇用的销售人员数量有关。
分类方法适合解决旨在了解数据所属类别的问题,比如一种花卉所属的物种。分类问题可以是二元问题(具有两个类别),或是多类问题(具有两个以上的类别)。通常,针对分类问题的类型,会使用不同的算法来解决。
自动机器学习工具具有不同的选项,您可以配置这些选项以更改工具评估算法的方式,然后选择一个方式以构建最佳的机器学习模型。
选择目标函数以优化模型性能。从下拉列表中,选择您希望工具优化的指标。
目标函数是用于确定工具评估模型排名的函数。利用目标函数,您可以确定针对您使用案例构建的模型的优化程度。
选择在自动建模过程中要评估的算法类型。您可以选择多个选项。选择的类型越多,工作流运行的时间就越长。选中算法旁边的框,则表示要评估该算法。
随机森林 :随机森林算法使用一组随机生成的决策树结果来训练模型。在对类之间的非线性关联进行建模时,该算法表现最佳。此集成方法有助于避免过度拟合和拟合不足的问题,但计算量很大。
XGBoost :XGBoost 算法使用一组随机生成的决策树结果来训练模型。由于这种算法具有提升能力(决策树相互改进的一种方法),它不太容易出现过拟合或拟合不足。在使用众多不同特征来训练模型时,XGBoost 算法最有效。
线性 :线性算法通过在数据中绘制线、找到最佳拟合线或将数据分为多个组来训练模型。这些算法在对线性关联或趋势建模时表现最佳。它们的计算效率通常较高,但容易出现拟合不足。
CatBoost :CatBoost 算法使用一组决策树结果来训练模型。该算法使用类似于 XGBoost 的提升方法,但更不容易过度拟合。此算法的计算成本甚至比 XGBoost 还要高。
输入您希望自动机器学习工具构建的管道数量(使用选择的算法),再根据目标函数对其进行评估。您可以评估 1–50 个管道。
选中此部分中的框则启用数据检查。我们使用 EvalML 提供的默认数据检查。