回归工具
使用作为机器学习管道的一部分的回归工具来识别趋势。此工具提供了几种可用于训练模型的算法。您还可以通过此工具提供的多种参数调整模型。
要求 Alteryx Intelligence Suite
此工具是 Alteryx Intelligence Suite 的一部分。Intelligence Suite 需要单独的许可证,并需要以 Designer 附加组件进行安装。安装 Designer 后,请安装 Intelligence Suite 并 开始您的免费试用 。
配置工具
本章节包含有关如何配置回归工具的信息。
选择算法
选择要使用的算法。您可以选择 线性回归 、 决策树 或 随机森林 。
配置参数
配置参数。每个算法都有特定的参数。每个算法也同时具有常规参数和高级参数。常规参数是创建精确模型不可或缺的一部分,即使对于初学者也是如此。高级参数可能会提高准确性,但用户需要对高级参数有深入的了解。
参考各个算法的详情表以查看参数具体执行什么操作:
名称 | 描述 | 选项 | 默认 |
fit_intercept | 确定是否希望算法计算线性回归模型的截距。它也被称为“常数”,截距是 x 等于 0 时 y 的预期平均值。 |
| true |
normalize | 确定是否希望算法标准化目标。标准化调整您的目标以将目标与其他数据进行统一比较,帮助您判断数据之间存在的联系。 |
| true |
名称 | 描述 | 选项 | 默认 |
criterion | 使用 criterion 参数来选择一种方式测量决策树算法将数据拆分成不同节点的效果。 |
| mse |
max_depth | max_depth 是一棵树从根到叶的最长路径。深度更大的树会产生更多的分裂,并能获取更多有关数据的信息。 |
| none |
max_features | max_features 设置决策树在寻找最佳首次分裂时考虑的最大特征数。 |
| 自动 |
max_leaf_nodes | max_leaf_nodes 是算法可生成叶节点总数的最大值。它以最佳优先的方式将节点增长到最大数量。算法根据节点的不纯度减少能力确定最佳节点。使用 criterion 参数指定您希望如何测量不纯度的减少。 | 任何整数或 none 。 | 无 |
min_impurity_decrease | min_impurity_decrease 设置决策树分裂新节点时所需的不纯度减少量的最小阈值。因此,当不纯度减少量等于或大于 min_impurity_decrease 时,则分裂发生。使用 criterion 参数指定您希望如何测量不纯度的减少。 | 任何浮点数。 | 0.0 |
min_samples_split | min_samples_split 设置决策树拆分为新节点所需样本的最小阈值。算法至少可考虑一个样本,最多可考虑所有样本。 | 任何整数或分数。 | int : 2 |
min_weight_fraction_leaf | min_weight_fraction_leaf 是决策树分裂为新节点时所需的权重的最小阈值。此阈值等于所有样本权重和占比的最小值。默认情况下,决策树算法假定权重相等。 | 任何浮点数。 | 0.0 |
presort | 使用此参数对数据进行预先排序,这可能有助于算法更快地找到最佳分裂。 |
| false |
seed | random_state 指定用于生成伪随机序列的起始编号。如果选择 none ,随机数生成器将选择一个起始数字。 |
| int :10 |
splitter | splitter 指定了节点分裂的策略。它包括最佳首次分裂和最佳随机随机分裂选项。算法根据节点的不纯度减少能力确定最佳节点。 |
| best |
名称 | 描述 | 选项 | 默认 |
bootstrap | Bootstrapping 是 bagging 的基础,是用于对训练数据集进行抽样的方法。此方法会迭代创建数据集的子样本以模拟新的、未曾接触的数据,利用这些数据可提高模型的泛化能力。 |
| true |
criterion | 使用 criterion 参数来选择一种方式以测量随机森林算法将数据拆分成不同节点的效果,这些节点包括随机森林中的许多不同的树。 |
| mse |
max_depth | max_depth 是森林中每棵树从根到叶的最长路径。深度越大的树会产生更多的分支,并能获取更多有关数据的信息。 |
| none |
max_features | max_features 设置森林中各个决策树在寻找最佳首次分裂时考虑的最大特征数。 |
| 自动 |
min_impurity_decrease | min_impurity_decrease 设置将决策树拆分为新节点所需的不纯度减少量的最小阈值。因此,当不纯度减少量等于或大于 min_impurity_decrease 时,则分裂发生。使用 criterion 参数指定您希望如何测量不纯度的减少。 | 任何浮点数。 | 0.0 |
min_samples_split | min_samples_split 设置将决策树(随机森林中)拆分为新节点所需样本的最小阈值。算法至少可考虑一个样本,最多可考虑所有样本。 | 任何整数或分数。 | int : 2 |
min_weight_fraction_leaf | min_weight_fraction_leaf 即将决策树拆分为新节点所需权重的最小阈值。此阈值等于所有样本权重和占比的最小值。默认情况下,决策树算法假定权重相等。 | 任何浮点数。 | 0.0 |
n_estimators | n_estimators 是您想构建随机森林的树的数量。 | 任何整数。 | 100 |
seed | random_state 指定用于生成伪随机序列的起始编号。如果选择 none ,随机数生成器将选择一个起始数字。 |
| int :10 |