Skip to main content

Icon for the Topic Modeling Tool 主题建模

使用主题建模工具识别和分类文本中的主题。在将数据传送到主题建模工具之前,请考虑在上游使用 文本预处理工具

要求 Alteryx Intelligence Suite

此工具是 Alteryx Intelligence Suite 的一部分。Intelligence Suite 需要单独的许可证,并需要以 Designer 附加组件进行安装。安装 Designer 后,请安装 Intelligence Suite 并 开始您的免费试用

语言支持

“主题建模”工具支持英语、法语、德语、意大利语、葡萄牙语和西班牙语。

工具组件

主题建模工具有三个锚点:

  • 输入锚点:输入锚点连接要分析的文本数据。

  • D 锚点:使用 D 锚点将您分析过的数据传送到下游。

  • R 锚点:使用 R 锚点查看分析报告。

  • M 锚点:使用 M 锚点将模型对象传送到下游以用于新数据。模型对象与 预测工具 兼容。

配置工具

  1. 在画布上添加一个主题建模工具。

  2. 使用锚点将“主题建模”工具连接工作流中的文本数据。

  3. 选择要分析的 文本字段

  4. 指定要建模的 主题数

  5. 输出选项 部分,选择您希望在 R 锚点中使用的输出类型:

    • 交互式图表 选项生成一个交互式报告,其中包含两个图表:前 30 个最重要单词(Top-30 Most Salient Terms )和主题间距图(Intertopic Distance Map)。

    • 词相关性总结 选项生成静态报表,其中包含对每个单词在模型中的重要性以及每个单词与每个主题相关性的度量。

  6. 字典选项 LDA 选项 均为默认值。有关这些选项的详细信息,请参阅下面的“高级选项”部分。

  7. 运行 工作流。

资源

此工具使用隐含狄利克雷分布 (LDA) 算法来识别主题。以下是有关 LDA 算法 以及 重要性 相关性 概念的一些资源。

高级选项

主题建模工具有一些高级选项。

字典选项

名称

描述

选项

推荐选项

最低频率

最低频率 是指为了使主题建模工具忽略某个词,该词应具备的出现在文本中的最低频率。该频率是通过将包含该词的文档的数量(文本数据中的一行代表一个文档)除以文本中文档的总数得到。

  • >= 0%

  • <= 100%

1%

最高频率

最高频率 是指为了使主题建模工具忽略某个词,该词应具备的出现在文本中的最高频率。该频率是通过将包含该词的文档的数量(文本数据中的一行代表一个文档)除以文本中文档的总数得到。

  • >= 0%

  • <= 100%

80%

字数上限

字数上限 是根据单词在文中出现的频率指定您希望主题建模工具的算法考虑的词数。

  • >= 0

0

LDA选项

名称

描述

选项

推荐选项

Alpha

Alpha 代表算法应期望的每个文档的主题密度。增加 Alpha 允许算法识别出文档中更多不同的主题。减少 Alpha 则限制算法在每个文档中可识别的主题数。

数字

Eta

Eta 代表构成一个主题所需的单词密度。增加 Eta 则增加识别主题所需的单词数量。减少 Eta 则减少识别主题所需的单词数量。

数字

>= 0

输出

D 锚点为每个主题输出一个新列。这些列表示文本中的每个主题在与每一行的关联程度。主题列中的值越大,表示文本与该主题关联的可能性就越大。 R  锚点根据您的选择输出两个报告之一:

  • 如果您选择交互式图表,则系统会返回您可以使用浏览工具查看的模型的交互式可视化视图。交互式图表有 2 个部分:包含主题之间距离的地图,和一些用于评估的指标。主题距离地图向我们显示已识别的主题的相似程度。

  • 词汇相关性总结返回主题模型中包含的词及相关性和重要性指标。“显著性”是指该词汇在整个文本中的突出程度。“相关性”是用于对主题中的词进行排序的指标,可帮助我们为每个主题确定最合适的词。就某一主题而言值越大,该词对那个主题的重要性就越高。

M 锚点会在下游输出模型对象,用于新数据。模型对象与 预测工具 兼容。