Skip to main content

Importance Weights Tool Icon 重要性权重工具

通过“重要性权重”工具,您可以基于每个可能预测变量与所创建模型的目标变量之间的关联强度来选择一组变量,以便将其用于预测模型。

最终选择的预测变量集可以通过两种方式确定:一是选择与目标变量关联性最强的 N 个预测变量,二是设定一个重要性权重阈值,仅将超过该阈值的变量纳入模型。

这种方法的缺点是,它只孤立地考虑潜在预测变量对目标变量的影响程度,而忽略了预测变量之间可能的相互作用和相关性。尽管有此局限,这种变量筛选方法在实践中仍然广泛应用。

重要性权重有许多不同的度量方法,具体使用哪种方法通常取决于目标变量和预测变量的类型(数值型或分类型)。这种情况有一个缺点是,对于数值变量和分类变量,需要使用不同的度量方法来确定不同预测变量的相对重要性。Relief 方法是一个例外,但其性能不如其他针对特定目标变量类型和预测变量类型组合的方法稳健。

大部分度量方法都由 FSelector R 软件包提供。此软件包中包含一些用 Java 编写的方法,因此需要在安装 Alteryx 的计算机上安装 Java 7 运行时环境才能使用此宏。

重要

此工具不会随 Alteryx Designer 或 R 工具自动安装。要使用此工具,请从 社区 Gallery 下载。

连接输入

一个包含所需目标变量和一组潜在预测变量的 Alteryx 数据流,这些变量将用于估计预测模型。

配置工具

  • 连续目标:如果要预测的目标变量是数值变量,请选择此选项。选择此选项时,系统将要求您从数据中选择目标变量字段,以及您是否想检查要考虑的可能的连续(数值)或分类(带类别标签的字符串变量)变量。完成此选择后,您还需要选择要检查的选定类型的一组预测变量以及一个或多个比较度量。对于连续目标变量和连续预测变量,可用度量包括:

    • 皮尔逊相关系数

    • 斯皮尔曼(等级次序)相关系数

    • Relief,提供 RRELIEFF 算法。您可以选择用于计算 RRELIEFF 度量的相邻项数量(相邻项计数)和样本大小(样本大小)。

    • 可用于连续目标和分类预测变量的重要性权重度量包括:

      • 条件均值(皮尔逊)相关系数。此度量的计算方法是:首先计算分类变量各个级别(或类别)的目标变量的平均值,然后计算实际值与这些平均值之间的皮尔逊相关系数

      • Relief,它使用 RRELIEFF 算法。您可以选择用于计算 RRELIEFF 度量的相邻项数量(相邻项计数)和样本大小(样本大小)。

    • 包含唯一标识符的列(如代理主键和自然主键)不应在统计分析中使用。它们没有预测值,并可能导致运行时异常。

  • 分类目标:如果要预测的目标变量是分类变量,请选择此选项。选择此选项时,系统将要求您从数据中选择目标变量字段,以及您是否想检查要考虑的可能的连续(数值)或分类(带类别标签的字符串变量)变量。完成此选择后,您还需要选择要检查的选定类型的一组预测变量以及一个或多个比较度量。对于连续目标和连续预测变量,可用度量包括:

    • 熵信息增益

    • 熵增益比熵增益比

    • 熵对称不确定性

    • Relief,它使用 RRELIEFF 算法。您可以选择用于计算 RRELIEFF 度量的相邻项数量(相邻项计数)和样本大小(样本大小)。

    • 可用于分类目标和分类预测变量的重要性权重度量包括:

      • Cramer's V(卡方分布)

      • Relief,它使用 RRELIEFF 算法。您可以选择用于计算 RRELIEFF 度量的相邻项数量(相邻项计数)和样本大小(样本大小)。

查看输出

  • D 锚点:由一个表格组成,表中提供了每个潜在预测变量的选定重要性权重值。

  • R 锚点:由报告片段组成,这些片段指明了目标字段及其类型以及潜在预测变量字段类型,并以表格形式提供了每个潜在预测变量的选定重要性权重值。