“过采样字段”工具
单个工具示例
“过采样字段”有一个单个工具示例。访问 示例工作流 以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
通常情况下,对于开发二元分类预测模型使用的数据,目标变量的否定响应 (no) 比例要比肯定响应 (yes) 的比例高得多。例如,在无针对性的直邮营销活动中,只有 2% 潜在客户对某产品是否有吸引力做出肯定响应,而 98% 的潜在客户没有做出肯定响应,这种情况并不少见。在这种情况下,预测模型很难区分信号和噪声,因为将所有潜在客户归类为“否”类别的成本几乎总是正确的。
为避免出现此问题,比较常见的做法是,创建一个用于分析的新样本,该样本应具有较高的肯定响应百分比(通常的做法是采用肯定响应和否定响应各占一半的比例)。这通常是通过包括所有肯定响应并随机提取否定响应的采样来实现的,其中否定响应的采样大小由新数据库中预期的肯定响应百分比决定,这也是此工具中使用的方法。
连接输入
Alteryx 数据流,通常用于创建二元分类(例如是/否)预测模型。
配置工具
选择要基于过采样的字段 :该字段包含要进行过采样的值,通常是二元分类预测模型中的目标变量字段。
您希望进行过采样的字段值 :要进行过采样的级别,通常是二元分类预测模型中的肯定(“是”)响应。
该值对应的记录在过采样字段中的百分比 :1 到 100 之间的整数值。此值不应小于该级别的过采样字段在原始数据中所占的百分比。例如,如果 30% 的原始数据具有过采样字段的所需值,则此参数的值不应设为低于 30%。