Skip to main content

Count Regression Tool Icon 计数回归工具

单个工具示例

计数回归具有一个“单个工具示例”。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。

使用计数回归创建回归模型,该模型可将感兴趣的非负整数值(0、1、2、3 等)字段(目标变量)与一个或多个将会对目标变量产生影响的字段进行关联,这些字段通常称为预测变量。

常见案例包括客户在给定月份访问某特定餐厅的次数,或某特定移动电话帐户下有多少电话号码。在这些案例中,使用线性模型会导致估计出现偏差。两种最为著名的计数回归模型为泊松回归* 模型和负二项式模型 **。在给定一组预测变量的情况下,计数数据回归模型允许用户获得对观察单元(例如客户)的预期事件数量(例如商店访问次数)的估计值。

泊松回归模型对目标字段的均值和方差之间的关系做出了强有力的假设(具体而言,它们彼此相等)。为此,准泊松模型应运而生。准泊松模型允许均值与方差不同,但代价是缺少定义的信息标准度量值(如 AIC),因此准泊松模型不能用作逐步回归变量选择的起点。负二项式回归模型确实有定义明确的信息标准,并允许基础分布的均值和方差存在差异,因此通常更可取。应该注意的是,使用均值和方差彼此不同的数据估计的泊松回归模型提供了均值和相应模型参数的无偏差估计值,但统计显著性测试存在偏差。

借助此工具,如果输入数据来自常规 Alteryx 数据流,则使用开源的 R glm 函数进行模型估计。如果输入来自 XDF 输入工具或 XDF 输出工具,则使用 Revo ScaleR rxGlm 函数进行模型估计。使用基于 Revo ScaleR 的函数的优势在于,它允许分析更大(超过内存)的数据集,但代价是创建 XDF 文件需要额外开销,无法创建开源 R 函数提供的某些模型诊断输出,并且只能生成泊松回归模型。

此工具使用 R 工具。转至选项下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。请访问下载和使用预测工具

连接输入

连接 Alteryx 数据流或 XDF 元数据流,其中包括一个感兴趣的目标字段以及一个或多个可能的预测变量字段。

配置工具

计数回归 - 配置选项卡

  • 模型名称:需要为每个模型命名,以便以后进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点(“.”)和下划线(“_”)。不允许使用其它特殊字符,R 区分大小写。

  • 选择目标变量:从要预测的数据流中选择字段。

  • 选择预测变量:从您认为导致目标变量值更改的数据流中选择字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。

  • 模型类型:选择泊松准泊松负二项式。如果选择负二项式,则您可以指定 theta 的值(与模型方差密切相关)。如果使用默认的“自动”选项,则可以从数据中估计出 theta 的最佳值。

  • 在模型估计中使用样本权重?(可选):选中该复选框,然后从数据流中选择权重字段以估计使用采样权重的模型。如果所选模型类型为负二项式,且采用自动选项确定 theta 的值,则该选项不可用;但对于提供的 theta 的特定值(可以基于没有使用抽样权重的模型的初始运行),该选项将发挥作用。

图表选项卡

图表分辨率:选择图表的分辨率(以每英寸点数为单位):1 x(96 dpi)2 x(192 dpi);或 3 x(288 dpi)

  • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

  • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

查看输出

  • O 锚点:包含序列化模型及其模型名称的表格。

  • R 锚点:包含由计数回归工具生成的报告片段:统计摘要、II 型偏差分析 (ANOD) 和基本诊断图。如果模型输入来自 XDF 输出或 XDF 输入工具,则不会生成 II 型偏差分析表格和基本诊断图。

en.wikipedia.org/wiki/Poisson_regression

en.wikipedia.org/wiki/Negative_binomial_distribution