“朴素贝叶斯分类器”工具
单个工具示例
朴素贝叶斯分类器具有“单个工具示例”。访问示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
“朴素贝叶斯分类器”工具创建二项式或多项式概率分类模型,反映一组预测变量与分类目标变量之间的关系。朴素贝叶斯分类器假设所有预测变量彼此独立,并基于样本输入预测一组类的概率分布,从而计算属于目标变量的每个类的概率。
朴素贝叶斯分类器的主要优点之一是,即使是小型训练集,它的效果也非常好。这种优势源于一个事实,即朴素贝叶斯分类器是由每个变量的平均值和方差独立于所有其他变量进行参数化的。在许多最大概率分类问题中,需要协方差矩阵来估计预测的概率,但较小的训练集可能导致高度可变的协方差矩阵,进而降低最大化可能性预估 (MLE) 的效果。由于朴素贝叶斯分类器只需要计算每个预测变量的一维方差,因此不需要协方差矩阵,因此 MLE 不会受到小型训练集问题的影响。
在尝试根据目标"类"变量对一组观测值进行分类时,朴素贝叶斯分类器非常有用,尤其是在仅使用少量训练集和少量预测变量的情况下更是如此。朴素贝叶斯分类器会使用初始训练集开发一个模型,用于预测给定观测值属于目标变量的每个类的概率。
举个简单的例子,根据车辆的特性(例如皮卡/轿车/SUV)和客户特征(如性别、年龄等)来预测租赁新车的人是否会在租赁结束时购买该车辆。朴素贝叶斯分类器将允许用户根据训练集生成的模型对后续个人的购买情况进行"评分"。此评分过程将生成一组概率,一类是在租赁协议结束时购买的概率,一类是在租赁协议结束时不购买的概率。
此工具使用 R 工具。转至选项下载预测工具,并登录到 Alteryx 下载和许可证门户以安装 R 工具和 R 工具使用的软件包。请访问下载和使用预测工具。
配置工具
所需参数
模型名称:需要为每个模型命名,以便以后可以对其进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其它特殊字符,R 区分大小写。
选择目标变量:从要预测的数据流中选择字段。此目标变量必须是字符串类型。
选择预测变量:从您认为“导致”目标变量值更改的数据流中选择字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。
拉普拉斯平滑:选择一个正值作为平滑参数。默认值设置为 0。拉普拉斯平滑功能允许用户通过考虑类/特征组合来“平滑”数据,这些类/特征组合可能完全不存在于训练集中,或者在频率上表现不足,因此被分配的概率为零,或者至少非常低(视情况而定)。这在尝试使用小训练集构建分类模型时非常有用,小训练集可能无法构成具有足够代表性的总体样本。
图表选项
图表分辨率:选择图表的分辨率(以每英寸点数为单位): 1x (96 dpi); 2x (192 dpi); 或 3x (288 dpi)。
较低的分辨创建相对较小的文件,最适合在显示器上查看。
更高的分辨率可以创建一个更大的文件,具有更好的打印质量。
查看输出
O 锚点:对象。包含序列化模型及其模型名称的表。
R 锚点:报告。由“朴素贝叶斯分类器”工具生成的报告片段组成:基本模型摘要,以及每类目标变量的主要效果图。