Skip to main content

Naive Bayes Classifier Tool Icon 朴素贝叶斯分类器工具

单个工具示例

朴素贝叶斯分类器具有“单个工具示例”。转至示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。

“朴素贝叶斯分类器”工具创建二项式或多项式概率分类模型,反映一组预测变量与分类目标变量之间的关系。朴素贝叶斯分类器假设所有预测变量彼此独立,并基于样本输入预测一组类的概率分布,从而计算属于目标变量的每个类的概率。

朴素贝叶斯分类器的主要优点之一是,即使是小型训练集,它的效果也非常好。这种优势源于以下事实:朴素贝叶斯分类器通过每个变量的平均值和方差进行参数化,并假设每个变量与其他变量相互独立。在许多最大似然分类问题中,为了估计预测概率,需要协方差矩阵,但较小的训练集可能导致协方差矩阵变化较大,从而降低最大似然预估器 (MLE) 的性能。由于朴素贝叶斯分类器只需计算每个预测字段的一维方差,因此不需要协方差矩阵,也就避免了小规模训练集对 MLE 性能造成的不利影响。

在根据目标“类”变量对一组观测值进行分类时,朴素贝叶斯分类器非常实用,特别是在训练集较小且预测因子数量较少的情况下。朴素贝叶斯分类器会使用初始训练集开发一个模型,用于预测给定观测值属于目标变量的每个类的概率。

举个简单的例子,根据车辆的特性(例如皮卡/轿车/SUV)和客户特征(例如性别、年龄等)来预测租赁新车的人是否会在租赁结束时购买该车辆。朴素贝叶斯分类器将允许用户根据训练集生成的模型对后续个人的购买情况进行"评分"。此评分过程将生成一组概率,分别对应在租赁协议结束时选择购买或不购买该车辆的可能性。

重要

此工具不会随 Designer 自动安装。要使用它,请在下载和许可门户中下载并安装与您的 Alteryx Designer 版本对应的 Alteryx 预测工具。

如需了解详情,请参阅 下载和使用预测工具

配置工具

所需参数

  • 模型名称:需要为每个模型命名,以便以后可以对其进行识别。模型名称必须以字母开头,可包含字母、数字和特殊字符句点 (“.”)和下划线 (“_”)。不允许使用其它特殊字符,R 区分大小写。

  • 选择目标字段:从要预测的数据流中选择字段。此目标字段必须是字符串类型。

  • 选择预测因子字段:从数据流中选择您认为“导致”目标变量值发生变化的字段。包含唯一标识符的列(如代理主键和自然主键)不应用于统计分析。它们没有预测价值,并可能导致运行时异常。

  • 拉普拉斯平滑:选择一个正值作为平滑参数。默认值设置为 0。拉普拉斯平滑功能允许用户通过考虑类/特征组合来“平滑”数据,这些类/特征组合可能完全不存在于训练集中,或者在频率上表现不足,因此被分配的概率为零,或者至少非常低(视情况而定)。这在尝试使用小训练集构建分类模型时非常有用,小训练集可能无法构成具有足够代表性的总体样本。

图表选项

图表分辨率:选择图表的分辨率(以每英寸点数为单位):1x(96 dpi);2x(192 dpi);或 3x(288 dpi)。

  • 较低的分辨创建相对较小的文件,最适合在显示器上查看。

  • 更高的分辨率可以创建一个更大的文件,具有更好的打印质量。

查看输出

  • O 锚点:对象。包含序列化模型及其模型名称的表。

  • R 锚点:报告。由“朴素贝叶斯分类器”工具生成的报告片段组成:基本模型摘要,以及每类目标变量的主效应图。

http://zh.wikipedia.org/wiki/朴素贝叶斯分类器