词性标注
使用“词性标注”工具以识别文本中的词类,比如名词、动词和形容词。词性标注是一个常见的处理步骤,用于清理、准备和增强自然语言处理应用程序的数据。“词性标注”工具利用了 spaCy 软件包中的词性功能。 英语 的词性标注准确度约为 97%,其他 受支持语言 的准确度略有不同。
要求 Alteryx Intelligence Suite
此工具是 Alteryx Intelligence Suite 的一部分。Intelligence Suite 需要单独的许可证,并需要以 Designer 附加组件进行安装。安装 Designer 后,请安装 Intelligence Suite 并 开始您的免费试用 。
语言支持
“词性标注”工具支持英语、法语、德语、意大利语、葡萄牙语和西班牙语。词性输出标注仅提供英语版本。
工具组件
“词性标注”工具有 2 个锚点:
输入锚点:输入锚点连接要分析的文本数据。
输出锚点:使用输出锚点将标注的文本数据传递到下游。
配置工具
在画布中添加“词性标注”工具。
使用锚点将“词性标注”工具连接到要在工作流中使用的文本数据。
选择文本数据的 语言 。
选择要分析的 包含文本的列 。
运行 工作流。
输出
除 2 个列外,“词性标注”工具还输出传入列:
part_of_speech_tags:此列包含一个 JSON 输出,其中包含词性标注和描述的列表。一个主体中的每个标记(单词)(其中,输入文本列中的每一行都包含一个主体)都在 JSON 输出中包含下列值。
text:标注的单词。
part_of_speech:粗略词性标注。
part_of_speech_description:粗略词性标注描述。
fine_grained_tag:精细词性标注。
fine_grained_tag_description:精细词性标注描述。
dependency:词性依赖关系。
dependency_description:词性依赖关系描述。
character_index:主体中单词的第一个字符的索引。索引从 0 开始。
word_index:主体中单词的索引。索引从 0 开始。
text_length:单词的长度。
dependency_diagram:此列包含 displaCy 标注工具依赖关系图表的 HTML 对象,可以通过“浏览”工具查看。
如何解析 JSON 输出
为了将 JSON 输出转换成表格数据,请在这个示例流程中使用 JSON 解析 、 文本转换到列 和 交叉表 工具的组合:
将“词性标注”工具输出传递到“JSON 解析”工具输入。
选择 JSON 字段 下的词性列。
选择 输出值到单个字符串字段 。
将“JSON 解析”工具的输出传递到“文本转换到列”的输入。
选择 要拆分的列 下的 JSON 名称列,并将 分隔符 设置为句点 ( . )。
选择 拆分为列 ,并将 列数 设置为 3 。
将“文本转换到列”工具输出传递到“交叉表”工具输入。
交叉表工具配置:
按这些值对数据分组 :选择包含原始文本数据的列名称和第二个拆分的 JSON 名称列(默认为 JSON_Name2 )。
更改列标题 :选择第三个拆分的 JSON 名称列(默认为 JSON_Name3 )。
新列的值 :选择 JSON_ValueString 。
聚合值的方法 :选择 连接 。
运行工作流。“交叉表”工具输出现在包含“词性标注”工具输出的表格形式。
依赖关系图表
下面是“这是一个句子”这句话的依赖关系图表示例。粗略词性标注填充在每个单词的下方。粗略词性标注的描述在 JSON 输出的“part_of_speech_description”下。每个箭头表示两个单词之间的语法依赖关系。每个依赖关系的描述都在 JSON 输出中的“dependency_description”下。
上述依赖关系图表的粗略词性标注描述:
AUX:助动词
DET:限定词
NOUN:名词
上述依赖关系图表的依赖关系描述:
nsubj:名词性主语
attr:属性
det:限定词
常见问题解答
该图表是一个视觉图表,可帮助用户查看词性标注。该图表还描述了单词的关联方式。在此阶段,依赖关系仅包含在视觉图表中,不包括在输出中。
此时,“词性标注”不能与“报告”工具配合使用。例如,您无法将依赖关系图表另存为图像。
模型在第一次运行时被缓存,因此第一次运行的速度会变慢。对于相同的文本,后续运行的工作流将更快。请注意,缓存会过期,循环可能会再次重新开始。