Skip to main content

speech_tagger70cb.png 词性标注

使用“词性标注”工具以识别文本中的词类,比如名词、动词和形容词。词性标注是一个常见的处理步骤,用于清理、准备和增强自然语言处理应用程序的数据。“词性标注”工具利用了 spaCy 软件包中的词性功能。 英语 的词性标注准确度约为 97%,其他 受支持语言 的准确度略有不同。

要求 Alteryx Intelligence Suite

此工具是 Alteryx Intelligence Suite 的一部分。Intelligence Suite 需要单独的许可证,并需要以 Designer 附加组件进行安装。安装 Designer 后,请安装 Intelligence Suite 并 开始您的免费试用

语言支持

“词性标注”工具支持英语、法语、德语、意大利语、葡萄牙语和西班牙语。词性输出标注仅提供英语版本。

工具组件

“词性标注”工具有 2 个锚点:

  • 输入锚点:输入锚点连接要分析的文本数据。

  • 输出锚点:使用输出锚点将标注的文本数据传递到下游。

配置工具

  1. 在画布中添加“词性标注”工具。

  2. 使用锚点将“词性标注”工具连接到要在工作流中使用的文本数据。

  3. 选择文本数据的 语言

  4. 选择要分析的 包含文本的列

  5. 运行 工作流。

输出

除 2 个列外,“词性标注”工具还输出传入列:

  • part_of_speech_tags:此列包含一个 JSON 输出,其中包含词性标注和描述的列表。一个主体中的每个标记(单词)(其中,输入文本列中的每一行都包含一个主体)都在 JSON 输出中包含下列值。

    • text:标注的单词。

    • part_of_speech:粗略词性标注。

    • part_of_speech_description:粗略词性标注描述。

    • fine_grained_tag:精细词性标注。

    • fine_grained_tag_description:精细词性标注描述。

    • dependency:词性依赖关系。

    • dependency_description:词性依赖关系描述。

    • character_index:主体中单词的第一个字符的索引。索引从 0 开始。

    • word_index:主体中单词的索引。索引从 0 开始。

    • text_length:单词的长度。

  • dependency_diagram:此列包含 displaCy 标注工具依赖关系图表的 HTML 对象,可以通过“浏览”工具查看。

如何解析 JSON 输出

为了将 JSON 输出转换成表格数据,请在这个示例流程中使用 JSON 解析 文本转换到列 交叉表 工具的组合:

  1. 将“词性标注”工具输出传递到“JSON 解析”工具输入。

  2. 选择 JSON 字段 下的词性列。

  3. 选择 输出值到单个字符串字段

  4. 将“JSON 解析”工具的输出传递到“文本转换到列”的输入。

  5. 选择 要拆分的列 下的 JSON 名称列,并将 分隔符 设置为句点 ( . )。

  6. 选择 拆分为列 ,并将 列数 设置为 3

  7. 将“文本转换到列”工具输出传递到“交叉表”工具输入。

  8. 交叉表工具配置:

    1. 按这些值对数据分组 :选择包含原始文本数据的列名称和第二个拆分的 JSON 名称列(默认为 JSON_Name2 )。

    2. 更改列标题 :选择第三个拆分的 JSON 名称列(默认为 JSON_Name3 )。

    3. 新列的值 :选择 JSON_ValueString

    4. 聚合值的方法 :选择 连接

  9. 运行工作流。“交叉表”工具输出现在包含“词性标注”工具输出的表格形式。

依赖关系图表

下面是“这是一个句子”这句话的依赖关系图表示例。粗略词性标注填充在每个单词的下方。粗略词性标注的描述在 JSON 输出的“part_of_speech_description”下。每个箭头表示两个单词之间的语法依赖关系。每个依赖关系的描述都在 JSON 输出中的“dependency_description”下。

Dependency Diagram Example

上述依赖关系图表的粗略词性标注描述:

  • AUX:助动词

  • DET:限定词

  • NOUN:名词

上述依赖关系图表的依赖关系描述:

  • nsubj:名词性主语

  • attr:属性

  • det:限定词

常见问题解答

该图表是一个视觉图表,可帮助用户查看词性标注。该图表还描述了单词的关联方式。在此阶段,依赖关系仅包含在视觉图表中,不包括在输出中。

此时,“词性标注”不能与“报告”工具配合使用。例如,您无法将依赖关系图表另存为图像。

模型在第一次运行时被缓存,因此第一次运行的速度会变慢。对于相同的文本,后续运行的工作流将更快。请注意,缓存会过期,循环可能会再次重新开始。