“神经网络”工具

单个工具示例

“神经网络”有一个“单个工具示例”。转至示例工作流以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。

“神经网络”工具使用单个隐藏层创建前馈感知器神经网络模型。隐藏层神经元使用逻辑（也称为“sigmoid”）激活函数，输出激活函数取决于目标字段的性质。具体来说，对于二元分类问题（例如，客户购买或不购买的概率），所使用的输出激活函数是逻辑函数，对于多项分类问题（例如，客户选择选项 A、B 或 C 的概率），所使用的输出激活函数是 softmax，对于回归问题（其目标是连续的数值字段），输出所使用的函数是线性激活函数。

神经网络代表了第一个用于预测建模的机器学习算法（与传统统计方法相对应）。该方法背后的动机是模仿大脑中神经元的结构（该方法因此得名）。神经网络的基本结构涉及一组输入（预测字段），这些内容流入到一个或多个“隐藏”层，每个隐藏层都有一个或多个“节点”（也称为“神经元”）。

在第一个隐藏层中，输入被线性组合（每个节点中的每项输入都分配有权重），并将“激活函数”应用于预测因子的加权线性组合。在第二个和后续的隐藏层中，来自前一个隐藏层节点的输出在隐藏层的每个节点中被线性组合（再次为前一个隐藏层的每个节点分配权重），并将激活函数应用于加权线性组合。最后，来自最后一个隐藏层的节点的结果在最终输出层中组合，该输出层使用与目标类型一致的激活函数。

估计（也就是神经网络文献词汇中的“学习”）涉及为每项输入或前一层的节点值找到权重集，以最小化模型的目标函数。如果是连续数值字段，这意味着最小化最终模型预测值与实际值的平方误差之和，而分类网络则是最小化二元和多项分类问题的熵值。如上所述，“神经网络”工具（依赖于 R nnet 软件包）仅允许使用单个隐藏层（可以具有任意数量的节点），并且始终在隐藏层节点中使用逻辑传递函数。尽管存在这些局限，我们的研究表明 nnet 软件包是目前 R 中最强大的神经网络软件包。

虽然相对于神经网络模型，更现代的统计学习方法（例如由“提升模型”、“森林模型”和“样条模型”工具生成的模型）通常能够提供更大的预测功效，但在某些特定应用场景（事前无法确定）中，神经网络模型在分类和回归模型方面的表现要优于其他方法。此外，在某些领域，例如在金融风险评估中，神经网络模型是被人们广泛接受的“标准”方法。此工具使用 R 工具。转到选项 > 下载预测工具，并登录到 Alteryx 下载和许可证门户以安装 R 和 R 工具使用的软件包。访问下载和使用预测工具。

配置工具

所需参数

模型名称：需要为每个模型命名，以便以后可以对其进行识别。模型名称必须以字母开头，可包含字母、数字和特殊字符句点（“.”）和下划线（“_”）。不允许使用其他特殊字符，R 区分大小写。
选择目标字段：从要预测的数据流中选择字段。此目标字段必须是字符串类型。
选择预测因子字段：从数据流中选择您认为“导致”目标变量值发生变化的字段。包含唯一标识符的列（如代理主键和自然主键）不应用于统计分析。它们没有预测价值，并可能导致运行时异常。
在模型估计中使用采样权重（可选）：勾选该复选框，然后从数据流中选择一个权重字段，以预估使用采样权重的模型。
隐藏层中的节点数：模型的单个隐藏层中的节点（神经元）数量。默认值为 10。
包括效应图：如果选中，则将生成效应图，以图形方式显示预测变量与目标之间的关系，并对其他预测字段的效应进行平均化。要生成的图的数量由“要包含在图中的字段的最低重要性级别”控制，它表示特定字段必须对模型的总预测能力做出多大贡献，才能为该字段生成边际效应图。此选择的值越高，生成的边际效应图的数量就越少。

模型自定义

自定义缩放/标准化......：如果输入（预测字段）的范围不同（例如，收入从七千到一百万不等，而家庭成员人数从一到七人不等），那么模型权重最优化所依据的数值方法就会出现问题。
无缩放：默认。
Z-score：所有预测字段都经过缩放，它们的平均值为 0，标准差为 1。
单元间隔：所有预测字段都经过缩放，它们的最小值为 0，最大值为 1，所有其他值都在 0 到 1 之间。
以 0 为中心：所有预测字段都经过缩放，它们的最小值为 -1，最大值为 +1，而所有其他值均介于 -1 和 +1 之间。
权重衰减：衰减权重限制了估计过程中每次迭代（也称为“周期”）新权重值的移动。衰减权重的数值应介于 0 和 1 之间，数值越大，对权重可能移动的限制越大。一般来说，权重衰减值在 0.01 到 0.2 之间通常效果很好。
初始（随机）权重在零附近的 +/- 范围：每个隐藏节点输入变量的权重都是用随机数初始化的。该选项允许用户设置所使用的随机数的范围。一般来说，该值应接近 0.5。但是，如果所有输入变量的大小都较大，则值较小为好。0 实际上是一个特殊值，它使工具在有既定输入数据的情况下找到良好的包含值。
模型中允许的最大权重数量：当隐藏层中存在大量预测字段和节点时，此选项变得重要。减少权重数量可以加快模型估计速度，但也会降低算法为权重找到局部最优（而不是全局最优）值的几率。从模型中排除的权重被隐含地设置为 0。
模型估计的最大迭代次数：此值控制算法在尝试查找模型权重集相对于前一组权重的改进时，可以尝试的次数。如果在达到最大迭代次数之前没有发现权重有任何改进，算法将终止并返回最佳权重集。此选项默认为 100 次迭代。一般来说，考虑到算法的行为，在必要时提升该值是合理的，但代价是延长模型创建的运行时间。

图表选项

图表大小：选择英寸或厘米来丈量图表大小。
图表分辨率：选择图表的分辨率（以每英寸点数为单位）：1x（96 dpi）；2x（192 dpi）；或 3x（288 dpi）。
- 较低的分辨创建相对较小的文件，最适合在显示器上查看。
- 更高的分辨率可以创建一个更大的文件，具有更好的打印质量。
基本字体大小（点）：选择图表中字体的大小。

查看输出

O 锚点：对象。包含序列化模型及其模型名称的表格。
R 锚点：报告。由“神经网络”工具生成的报告片段组成：基本模型摘要，以及每类目标变量的主效应图。

_{https://zh.wikipedia.org/wiki/人工神经网络}