Skip to main content

Boosted Model Tool Icon 提升模型工具

单个工具示例

提升模型有一个“单个工具”示例。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。

使用提升模型工具根据梯度提升方法创建通用的增强回归模型。这些模型的创建方法是连续地将简单决策树模型添加到模型集成中,以最小化相应的损失函数。这些模型使用一种统计学习方法,能够:

  • 自行决定哪个字段子集最能预测目标字段。

  • 捕获字段之间相互关系及非线性关系。

  • 自动解决广泛的回归和分类问题。

提升模型工具可用于分类、计数数据和连续目标回归的问题。

此工具使用 R 工具。转至选项下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 工具和 R 工具使用的软件包。请访问下载和使用预测工具

连接输入

提升模型工具需要输入数据流,含:

  • 目标字段

  • 2 个或多个预测字段

模型估计中使用的包因输入数据流而异。

  • Alteryx 数据流使用开放源 R gbm 函数。

  • 来自 XDF 输入工具或 XDF 输出工具的 XDF 元数据流使用 RevoScaleR rxBTrees 函数。

  • 来自 SQL Server 数据库的数据流数据使用 rxBTrees 函数。

  • 微软机器学习服务器安装利用 RevoScaleR rxBTrees 函数来处理 SQL Server 或 Teradata 数据库中的数据。这要求本地计算机和服务器配置微软机器学习服务器,这样可以在数据库服务器上进行处理,并使性能得到显著提高。

算法性能

与开放源 R 函数相比,基于 RevoScaleR 的函数可以分析更大的数据集。但是,基于 RevoScaleR 的函数必须创建一个 XDF 文件,这会增加间接成本,使用一种多次传递数据的算法,增加运行时间,并且无法创建一些模型诊断的输出。

常规处理下的工具配置

所需参数选项卡

这些是生成提升模型所需的基本字段。设置必须的模型参数:

  • 模型名称:可供其它工具引用的模型名称。模型名称或前缀必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。 R is case-sensitive.

  • 选择目标字段:要预测的数据字段,也称为响应或因变量。

  • 选择预测因子字段:影响目标变量值的数据字段,也称为特征或自变量。预测因子字段最少需要两个,但是选择数量没有上限。目标变量本身不应用于计算目标值,因此目标字段不应包含在预测因子字段中。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。

  • 在模型估计中使用样本重:这个选项让您能选择一个字段,该字段在创建模型估计时对每条记录进行加权。如果字段同时用作预测因子和样本权重,则输出权重变量字段名称前面将加上 Right_。使用选择采样权重字段下拉菜单选择用于对记录进行加权的字段。

  • 包括边际效应图?:在报告中包括一个选项,显示预测变量和目标之间的关系图,对其他预测域的影响进行平均化。使用要包含在图中的字段的最低重要级别设置一个百分比值,表示包括在边际效应图中的变量的最小预测能力。较高的百分比会减少生成的边际效应图的数量。

自定义模型选项卡

可选设置,根据目标和决策树的管理方式来定制输出模型。这些选项可用于修改模型设置。

  • 指定目标类型和和损失函数分布:目标字段中的数据类别和用于优化模型生成的关联函数。

    • 连续目标:一个数字目标,其中任何给定的唯一值都占实例总数的一小部分,例如每家商店的年销售额。对于连续目标,根据这些任何一个分布对损失函数最小化:

      • Gaussian(平方误差损失)

      • Laplace(绝对值损失)

      • t-distribution损失

    • 计数(整数)目标:目标是一个数字,其大多数唯一值都占实例总数的大部分,例如,某人一年中访问医生办公室的次数。计数目标根据 Poisson 分布最小化损失函数。

    • 二元(两个结果)分类:分类目标具有两种可能结果,如"是-否"分类。对于二元分类目标,根据以下分布最小化损失函数:

      • Bernoulli(逻辑回归)

      • AdaBoost(指数损失)

    • 多项(三个或三个以上结果)分类:目标为分类字段,具有有限数量的分立结果,如 A、B 或 C 类。多项分类目标根据多项逻辑损失函数(Bernoulli 损失函数的多项式推广)最小化损失函数。

  • 模型的树的最大数量:算法在最终模型中可添加的决策树数量。默认值为 4000。树的数量越大,运行时间就越长。

  • 确定模型中最终决策树数量的方法:此方法用于确定能够充分捕获预测行为但不会过度拟合样本数据的决策树数量。

    • 交叉验证:有效利用可用信息的验证方法。在数据有限的情况下推荐使用。

      • 交叉验证重数:数据被划分为用于验证或训练的子样本数。默认值为 5。常规的值为 5 和 10。在 5 重的情况下,数据被分为 5 个唯一子样本,创建 5 个不同的模型,每个模型使用来自其中 4 个子样本的数据。最后一个子样本在模型创建时被保留起来,用于测试预测模型的准确性。

      • 用于交叉验证的机器核心数:分析中使用的机器核心数量。默认值为1。使用的数量应始终小于可用的核心数量。要提高计算速度,应增加使用的核数。

    • 测试(验证)样本:从训练数据提取样本的验证方法。在具有许多记录的情况下推荐使用。使用估计(训练)样本百分比设置训练样本中使用的记录百分比,剩余记录用于测试样本。默认值为 50。常规的值为 50% 和 75%。如果在训练样本中使用了 50% 的记录,则剩余 50% 用于测试预测的准确性。

    • 袋外(Out-of-bag):使用模型创建中排除的记录的验证方法。

  • 袋外样本中使用的观察比例:用于指导模式中包含适当数量的树以避免过度拟合的采样百分比。默认值为 50%。常规的值介于 25-50% 之间。

  • 缩减:一个介于 0 和 1 之间的值,用以为模型中的每个树添加权重。默认值为 .0020。较小的值允许模型中生成更多树,这将增加运行时间。小的收缩值可能需要增加设定的最大决策树数量的值,以保证最佳的树的数量。

  • 交互深度:预测因子之间的交互程度。例如,三向交互表示一个预测变量依赖于其它两个预测变量来确定对目标字段的影响。默认值为线性,假设预测变量字段之间没有交互。增加深度会增加运行时间。

  • 每个树节点中所需的最少对象数:此参数验证在添加另一个决策树之前决策树是否具有足够的大小。默认值为10。增加该值将导致决策树数量变小。

  • 随机种子值:确定随机抽样顺序的值。尽管选择方法是随机的且与数据无关,但它导致数据中相同的记录被选择。更改值以更改随机抽样的顺序。

图表选项卡

输出图表的设置。除非自定义,否则将使用默认值。

  • 图表大小输出图表的大小。选择单位,然后设置宽度和高度的值。

  • 图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi)2 x(192 dpi);或 3 x(288 dpi)

    • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

    • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

  • 基本字体大小(点):字体大小(以点表示)。

用于数据库内处理的工具配置

提升模型工具支持 Microsoft SQL Server 2016 数据库内处理。有关数据库内支持和工具的详细信息,请查看数据库内概述

如需访问提升模型工具的数据库内版本,请...

  • 在画布上放置一个数据库内工具。提升模型工具将自动变成数据库内提升模型。

  • 右键单击提升模型工具,指向选择工具版本,然后选择数据库内提升模型

有关预测型数据库内支持的详细信息,请查看预测分析

所需参数选项卡

生成提升模型所需的基本字段。

  • 创建的每个模型都需要一个名称,方便其它工具引用。对于数据库内处理,可以使用以下两种方法来创建模型名称。

    • 特定模型名称:由用户决定模型名称。模型名称或前缀必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。 R is case-sensitive.

    • 自动生成模型名称:自动生成模型名称。

  • 选择目标变量:要预测的数据字段,也称为响应或因变量。

  • 选择预测变量:影响目标变量值的数据字段,也称为特征或自变量。预测因子字段最少需要两个,但是选择数量没有上限。目标变量本身不应用于计算目标值,因此目标字段不应包含在预测因子字段中。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。

  • 在模型估计中使用样本重:这个选项允许您选择一个字段,该字段在创建模型估计时对每条记录进行加权。如果字段同时用作预测因子和样本权重,则输出权重变量字段名称前面将加上 Right_。使用选择采样权重字段下拉菜单选择用于对记录进行加权的字段。

自定义模型选项卡

可选设置,根据目标和决策树的管理方式来定制输出模型。这些选项可用于修改模型设置。

  • 指定目标类型和损失函数分布

    • 连续目标:一个数字目标,其中任何给定的唯一值都占实例总数的一小部分,例如每家商店的年销售额。

      对于连续目标,根据 Gaussian 分布最小化损失函数。

    • 二元分类目标:分类目标具有两种可能结果,如"是-否"分类。

      二元分类目标根据 Bernoulli 分布最小化损失函数。

    • 多项分类目标:目标为分类字段,具有有限数量的分立结果,如 A、B 或 C 类。

      多项分类目标根据多项逻辑损失函数(Bernoulli 损失函数的多项式推广)最小化损失函数。

  • 模型的树的最大数量:算法在最终模型中可添加的决策树数量。默认值为 4000。树的数量越大,运行时间就越长。

  • 袋外样本中使用的实例比例:一个样本百分比,通过袋外评估来减少所包含的决策树的数量。默认值为 50%。常规的值介于 25-50% 之间。

  • 学习速率(或缩减):一个介于 0 和 1 之间的值,该值是为模型中的每个树添加的权重。默认值为 .0020。较小的值允许模型中生成更多树,这将增加运行时间。

    小的收缩值可能需要增加设定的最大决策树数量的值,以保证最佳的树的数量。

  • 树大小:要模拟标准提升模型工具中的默认的树大小设置,请使用默认值。有关详细信息,请查看 rxBTrees 控件。

    • maxDepth:任意树节点的最大深度 [1000]

    • minBucket: 终端节点(或叶子)所需的最小实例数[10]

    • minSplit:分裂进行之前节点中必须存在的最小实例数 [minBucket * 2]

  • 随机种子值:确定随机抽样顺序的值。尽管选择方法是随机的且与数据无关,但它导致数据中相同的记录被选择。更改值以更改随机抽样的顺序。

图表选项卡

输出图表的设置。除非自定义,否则将使用默认值。

  • 图表大小:选择单位,然后设置宽度和高度的值。

  • 图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi)2 x(192 dpi);或 3 x(288 dpi)

    • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

    • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

  • 基本字体大小(点):字体大小(以点表示)。

查看输出

将浏览工具连接到每个输出锚点以查看结果。

  • O锚点:在"结果"窗口中输出模型名称和大小。

  • R锚点:显示模型报告,包含摘要和所有配置的图表。