Skip to main content

Stepwise Tool Icon 逐步回归工具

单个工具示例

“逐步回归”具有一个单个工具示例。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。

逐步回归工具为存在大量潜在预测变量的线性、逻辑和其他传统回归模型确定模型的最佳预测变量。

用于实现逐步回归的基本方法有两种。

第一种(称为后向选择)涉及使用一个模型,其中包含所有被认为可能影响目标变量的变量,然后根据考虑到模型中所含变量数的拟合优度衡量准则,依次从原始模型中移除最不重要的变量。继续这一过程,在后续后向选择步骤中移除其他变量,直到对调整的拟合优度衡量准则没有进一步改进。

第二种基本方法(称为前向变量选择)最初使用的模型仅包含一个常数,然后将一组潜在变量中对调整的拟合优度衡量准则改进最大的一个变量添加到该模型中。重复这一过程,使用一系列其他前向选择步骤,添加更多变量,直到调整的拟合优度衡量准则没有进一步改进时结束。在后向变量选择的情况下,已移除的变量绝不会在后续步骤中重新进入模型,而在前向选择中,已添加到模型的变量绝不会在后续步骤中被移除。可以使用混合方法,即最初使用大(“最大”)模型,第一步采用后向选择,接着在之后的每个步骤中同时评估前向选择和后向选择。

基于 Alteryx R 的逐步回归工具既可以使用后向变量选择,也可以使用后向和前向混合变量选择。要使用该工具,首先创建一个“最大”回归模型,其中包含您认为可能重要的所有变量,然后使用逐步回归工具,根据调整的拟合优度衡量准则,确定应移除其中哪些变量。提供两种不同的调整后拟合优度衡量准则,供用户选择:赤池信息准则**(或 AIC)和贝叶斯信息准则***(或 BIC)。这两个衡量准则相似,但 BIC 对模型中包含的变量数的惩罚更大,通常导致最终模型的变量少于使用 AIC 时的变量。

借助此工具,如果输入数据来自常规 Alteryx 数据流,则使用适用的开源 R 函数进行模型估计。如果输入数据来自 XDF 输出工具或 XDF 输入工具,则使用合适的 Revo ScaleR 函数进行模型估计。使用基于 Revo ScaleR 的函数的优势在于,它允许分析更大(超过内存)的数据集,但无法创建开源 R 函数能提供的某些模型诊断输出。

此工具使用 R 工具。转到选项 > 下载预测工具并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。请访问下载和使用预测工具

连接输入

  • 来自用于创建“最大”模型的计数回归、线性回归或逻辑回归工具的输出流。该流可以输入到工具的任意一侧。

  • 用于创建“最大”模型的相同 Alteryx 数据流或 XDF 元数据流。该流可以输入到工具的任意一侧。

配置工具

使用配置选项卡为逐步模型设置控件。

  • 新模型名称:这是根据选择的搜索方向和选择条件,使用逐步变量选择得到的最佳模型。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其它特殊字符(例如空格),R 区分大小写。

  • 搜索方向:搜索方向涉及向后步骤和向前步骤(方法从向后步骤开始),还是只使用向后步骤。

  • 调整的拟合优度衡量准则:用于比较不同模型并选出最佳模型的准则。可选择的准则为赤池信息准则 (AIC) 或贝叶斯信息准则 (BIC)。

使用图表选项选项卡设置图表输出控件。

  • 图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi);2 x(192 dpi);或 3 x(288 dpi)。

    • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

    • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

查看输出

将“浏览”工具连接到每个输出锚点以查看结果。

  • O 锚点:包含序列化模型及模型名称和对象大小的表格。

  • R 锚点:包含由逐步工具生成的报告片段:统计摘要、II 型偏差分析或 ANOVA 检验及基本诊断图。如果数据输入来自 XDF 输出或 XDF 输入工具,则不会生成 II 型偏差分析或 ANOVA 表格和基本诊断图。

*https://en.wikipedia.org/wiki/Stepwise_regression **https://zh.wikipedia.org/wiki/赤池信息量准则 ***https://zh.wikipedia.org/wiki/贝叶斯信息量准则