文本预处理

用户角色要求

用户角色*	工具/功能访问
完整用户	✓
基本用户	X

*适用于 Designer 版本 2025.1+ 上的 Alteryx One专业版和企业版客户。

使用文本预处理工具清理文本数据：

要求 Alteryx Intelligence Suite

此工具是 Alteryx Intelligence Suite 的一部分，需要用于 Designer 的附加组件安装程序。安装 Designer 后，请安装 Intelligence Suite 并开始您的免费试用。

重要

从 21.4 版本开始，当您选择 使用默认停用词 后，文本预处理工具将正确移除代词。在以往的版本中，该工具用 -PRON-来替换代词。

语言支持

“文本预处理”工具支持英语、法语、德语、意大利语、葡萄牙语和西班牙语。

工具组件

文本预处理工具有 3 个锚点

绿色输入锚点：使用顶部的绿色输入锚点连接要处理的文本数据。
灰色输入锚点：使用底部的灰色输入锚点来传递列表中的停用词列表。我们建议使用 CSV 格式，但是列表可以是任何输入格式，只要停用词在单列中列出（每行 1 个词）即可。
输出锚点：输出锚点将经过处理的数据传递到下游。

文本预处理工具有高级选项

要将单词转换为词根，选中 转换为词根（词形转换） 复选框。

此选项可将衍生词转换为它们的词根。例如，“running”、“ran”和“runs”等单词在您对它们进行词形还原后都变成了单词“run”。这样一来，当您应用机器学习算法来分析这些单词时，机器能够识别出，所有这些单词都应分组在一起。

要删除数字，选中数字复选框。此选项可从数据中移除某些数字标记（即数字）。您可能希望选择此选项，因为数字可能会混淆某些自然语言处理算法。

要删除标点符号，选中 标点符号 复选框。此选项将移除数据中的标点符号。选择这个选项是为了避免标点符号混淆某些自然语言处理算法的情况。保留某些标点符号（如“Mrs.”中的句点）是因为它们具有意义。

要删除停用词，选中 停用词 复选框。默认情况下，某些停用词自动被删除。文本预处理工具使用 spaCy 包的默认值。spaCy 对于不同的语言拥有不同的停用词列表。您可以在 spaCy GitHub 存储库中查看各种语言停用词的完整列表：

您还可以删除默设置没有删除的停用词。在文本字段中输入您要删除的停用词。以逗号分隔的格式输入（即用逗号和空格分隔每个单词）。

工具在结果网络中显示为数据创建的一个新列，列名称由被处理列的名称加上后缀指示符“_processed”组成。

本节内容如下: