Skip to main content

Text Classification Tool Icon 文本分类

文本分类工具根据您的训练数据来训练和输出文本分类模型。将模型连接到 预测工具 即可对以前未见过的新文本数据进行分类。

要求 Alteryx Intelligence Suite

此工具是 Alteryx Intelligence Suite 的一部分。Intelligence Suite 需要单独的许可证,并需要以 Designer 附加组件进行安装。安装 Designer 后,请安装 Intelligence Suite 并 开始您的免费试用

语言支持

文本分类工具支持英语、法语、德语、意大利语、葡萄牙语和西班牙语。

工具组件

“文本分类”工具有 4 个锚点(2 个输入和 2 个输出):

  • T 输入锚点:使用 T 输入锚点连接您的训练数据。训练数据必须有一个包含文本的列和一个包含文本标签的列。

  • V 输入锚点:使用 V 输入锚点连接验证文本和标签。

  • M 输出锚点:使用 M 输出锚点将已构建的模型传递到下游。将模型与 预测工具 配合使用。

  • E 输出锚点:使用 E 输出锚点收集模型的评估指标。

配置工具

  1. 将文本分类工具添加到画布。

  2. T 输入锚点连接到训练数据。然后配置 训练文本 设置:

    1. 选择 包含文本的列 ,其中包含训练文本数据。

    2. 选择 包含标签的列 ,其中包含训练文本数据标签。

  3. V 输入锚点连接到验证数据。然后配置 验证 设置:

    1. 选择 包含文本的列 ,其中包含验证文本数据。

    2. 选择 包含标签的列 ,其中包含验证文本数据标签。

  4. 根据您的使用情况配置 高级选项 。有关详细信息,请参考下一部分。

  5. 运行 工作流。

重要

请注意,您的列必须是字符串 数据类型

高级选项

选择您想用于模型的 算法

  • 自动模式

  • 多项式朴素贝叶斯

  • 线性 SVC

自动模式

在可用的模型算法之间搜索最佳模型。 自动模式 选项使用多项式朴素贝叶斯和线性 SVC 算法。对于每个模型,该模式都会搜索一个小范围的相应参数。然后, 自动模式 输出算法和超参数的最佳组合。要对您的模型进行微调,请在菜单内选择一个的算法。

多项式朴素贝叶斯

多项式朴素贝叶斯算法是一种概率性分类模型。朴素贝叶斯分类器建立了一个模型,以预测一段文本属于某个标签的概率。要构建您的模型,请以文本行及相关标签(也称为类或目标)作为训练数据。该算法假定所有特征都是相互独立的。朴素贝叶斯算法的优点在于,它是可扩展的,一般在小的训练集上表现良好。

Alpha

Alpha 是一个加法平滑参数,您可以用它来控制模型的复杂性。值为 0 表示没有平滑。如果测试数据中的一个词在训练数据中不存在,则可以使用大于 0 的值来优化结果。

该工具根据您定义的 Alpha 值的范围来搜索最佳模型。要创建这些 Alpha 值,请输入您要搜索的范围( )和该范围内的 步骤数

示例 1

从 = 0, 到 = 1, 步骤数 = 5 → 创建这些 Alpha 值供模型尝试:[0, 0.25, 0.5, 0.75, 1]。

示例 2

从 = 0, 到 =  1, 步骤数 = 2 → 创建这些 Alpha 值供模型尝试:[0, 1]。

交叉验证

交叉验证是一种重新抽样技术,使用数据的不同部分(或折数)进行模型训练和验证。选择在交叉验证过程中使用的折数。

词频 - 逆文档频率 (TF-IDF)

将原始文本转换为数值数据是文本分类的必要步骤。这个矢量化步骤允许模型解读您的数据。对于文本分类工具,我们使用了“词频 - 逆文档频率 ( TF-IDF )”矢量化技术。以下是 TF-IDF 设置:

  • 分析器

  • 根据您输入的文本,选择是用词语 ( word ) 还是用字符 ( char ) 来创建特征。

  • 最小文档频率

  • 输入您的文本数据中允许的最小词频。该工具不会将低于此频率的词添加到算法的词汇表中。

线性 SVC

线性 SVC 属于支持向量机类模型。您可以将此算法应用于具有两个(二元)或更多分类的数据。一旦拟合到您的数据,该模型就会找到最佳的超平面,以将您的数据划分为正确的类别。线性 SVC 在高维空间(比如文本)中是有效的,但是,当它应用于大型训练数据集时,速度可能很慢。

Penalty(惩罚项)

选择惩罚中使用的规范。请注意, L2 规范(也被称为 欧几里得规范 )是支持向量分类中使用的标准。L1 规范导致稀疏系数向量。

损失

选择一个损失函数。铰链是此算法的标准选择。

C(对数范围)

C 是一个正则化参数。必须大于 0。C 的值越大,对应的正则化程度越低,导致模型试图与训练数据近拟合。相反,C 的值越小,对应的正则化程度越高。

该工具根据您定义的 C 值的范围来搜索最佳模型。要创建这些 C 值,请输入您要搜索的 对数 范围( )和该范围内的 步骤数

示例 1

从= -3 ,到= 2, 步进数= 6 → 创建这些 C 值供模型尝试:[0.001, 0.01, 0.1, 1, 10, 100]。

示例 2

从 = 0, 到 = 1, 步进数 = 2 → 创建这些 C 值供模型尝试:[0, 10]。

交叉验证

交叉验证是一种重新抽样技术,使用数据的不同部分(或折数)进行模型训练和验证。选择在交叉验证过程中使用的折数。

词频 - 逆文档频率 (TF-IDF)

将原始文本转换为数值数据是文本分类的必要步骤。这个矢量化步骤允许模型解读您的数据。对于文本分类工具,我们使用了“词频 - 逆文档频率 ( TF-IDF )”矢量化技术。以下是 TF-IDF 设置:

  • 分析器

  • 根据您输入的文本,选择是用词语 ( word ) 还是用字符 ( char ) 来创建特征。

  • 最小文档频率

  • 输入您的文本数据中允许的最小词频。该工具不会将低于此频率的词添加到算法的词汇表中。