Icon for the Topic Modeling Tool

トピックモデリングツール

Version:
Current
Last modified: June 03, 2020

トピック モデリングを使用して、テキストの本文でトピックを識別および分類します。

ツールコンポーネント

トピックモデリングツールには、次の 3 つのアンカーがあります。

  • 入力アンカー: 解析するテキストデータを接続するには、入力アンカーを使用します。
  • "D" アンカー: 出力アンカーを使用して、下流で分析したデータを渡します。
  • "R" アンカー: 分析のレポートを表示するには、"R" アンカーを使用します。

ツール設定

  1. トピックモデリングツールをキャンバスに追加します。
  2. アンカーを使用して、トピックモデリングツールをワークフローで使用するテキストデータに接続します。
  3. 分析するテキストフィールドを選択します。
  4. モデリングするトピック数を指定します。
  5. [出力オプション]セクションで、必要な出力の種類を選択します。
    • [インタラクティブ出力]オプションは、2 つのグラフを含むインタラクティブなレポートを生成します: 上位 30 最も顕著な用語とトピック間距離マップ。
    • [Word の関連性の出力]オプションは、各用語がモデルに対して顕著な測定値を持ち、各トピックとの関連性を示す静的レポートを生成します。
  6. ワークフローを実行します。

リソース

トピック モデリングに関連する概念の顕著性関連性に関するリソースを次に示します。

詳細オプション

トピックモデリングツールには、いくつかの高度なオプションがあります。

辞書オプション

名前 説明 オプション 推奨オプション
最小頻度 [最小周波数]は、LDA ツールが単語を無視する前に、単語の本文に単語を表示できる最小頻度で、単語を含むドキュメントの数をテキスト本文のドキュメントの総数で割った頻度で測定されます。
  • >= 0
0.01
最大頻度 [最大頻度]は、LDA ツールが単語を無視する前に、単語の本文に単語を表示できる最大頻度で、単語を含むドキュメントの数をテキスト本文内のドキュメントの総数で割った頻度で測定されます。
  • >= 0
0.8
最大ワード表示数 最大単語数は、すべてのドキュメントで出現する単語の頻度に基づいて、LDA アルゴリズムで考慮する単語数を指定します。
  • >= 0
0

LDA オプション

名前 説明 オプション 推奨オプション
Alpha アルファは、アルゴリズムが各ドキュメントで期待するトピックの密度を表します。 アルファを増やすと、アルゴリズムはドキュメント内の多数の異なるトピックを認識できます。アルファを減らすと、アルゴリズムが各ドキュメントで認識するトピック数が制限されます。 none
Eta イータは、トピックを構成するために必要な単語の密度を表します。 イータを増やすと、トピックを識別するために必要な単語数が増加します。イータを減らすと、トピックを識別するために必要な単語数が減ります。 >= 0

出力

トピックモデリングツールは、トピックごとに新しい列を出力します。列は、各行に関連付けられたテキスト内の各トピックの表示度を表します。

Was This Helpful?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support.