Icon for the Topic Modeling Tool

トピックモデリング

バージョン:
Current
Last modified: January 28, 2021

トピックモデリングツールを使用して、テキストの本文でトピックを識別および分類します。

このページのコンテンツは、ページの右上にある言語切り替え機能を使用して、サポートされているすべての言語で利用できます。 

ツールコンポーネント

トピックモデリングツールには、3 つのアンカーがあります。

  • 入力アンカー: 入力アンカーを使用して、分析するテキストデータに接続します。
  • D アンカー: 出力アンカーを使用して、ダウンストリームに分析したデータを渡します。
  • R アンカー: R アンカーを使用して、分析のレポートを表示します。

ツール設定

  1. トピックモデリングツールをキャンバスに追加します。
  2. アンカーを使用して、トピックモデリングツールをワークフローで使用するテキストデータに接続します。
  3. 分析する テキストフィールド を選択します。
  4. モデル作成する トピックの数 を指定します。
  5. 出力オプション セクションで、必要な出力の種類を選択します。
    • インタラクティブチャート オプションは、上位 30 の最も顕著な用語とトピック間の距離マップの 2 つのグラフを含むインタラクティブなレポートを作成します。
    • 単語関連性サマリー オプションは、モデルに対する各用語の顕著性と各トピックとの関連性の測定値を含む静的レポートを作成します。
  6. ワークフローを 実行 します。

リソース

トピックモデリングに関連する概念である 顕著性関連性 に関するリソースを紹介します。

詳細オプション

トピックモデリングツールには、いくつかの詳細オプションがあります。

辞書オプション

名前 説明 オプション 推奨オプション
最小頻度 最小頻度 は、LDA ツールが単語を無視する前に、テキストデータに出現する単語の頻度の最小値で、その頻度は単語が含まれるテキストデータの数をすべてのテキストデータの合計数で割って測定されます。
  • >= 0
  • <= 0
0.01
最大頻度 最大頻度 は、LDA ツールが単語を無視する前に、テキストデータに出現する単語の頻度の最大値で、その頻度は単語が含まれるテキストデータの数をすべてのテキストデータの合計数で割って測定されます。
  • >= 0
  • <= 0
0.8
最大単語表示数 最大単語表示数 は、すべてのテキストデータで出現する単語の頻度に基づいて、LDA アルゴリズムで考慮する単語数を指定します。
  • >= 0
0

LDA オプション

名前 説明 オプション 推奨オプション
Alpha Alpha は、各ドキュメントでアルゴリズムが見込むトピック密度を表します。Alpha を増やすと、アルゴリズムはドキュメントでより多くの異なるトピックを認識できるようになります。Alpha を減らすと、アルゴリズムが各ドキュメントで認識するトピックの数が制限されます。 数値 なし
Eta Eta は、トピックを構成するために必要な単語の密度を表します。Eta を増やすと、トピックを識別するために必要な単語数が増えます。Eta を減らすと、トピックを識別するために必要な単語数が減ります。 >= 0

出力

トピックモデリングツールは、トピックごとに新しい列を出力します。列は、各トピックが各行に関連付けられたテキストに表示される度合いを表します。

役に立ちましたか?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support. Can't submit this form? Email us.