
トピックモデリング
トピックモデリングツールを使用して、テキストの本文でトピックを識別および分類します。トピックモデリングツールにデータを渡す前に、アップストリームでテキスト前処理ツール を使用することを考慮してください。
このツールは Alteryx Intelligence Suite の一部です。Intelligence Suite を使用するには、Designer に加え、別途ライセンスとアドオンインストーラーが必要です。Designer をインストール後、Intelligence Suite をインストールし、無料トライアルを開始 します。
言語サポート
トピックモデリングツールは、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語に対応しています。
ツールコンポーネント
トピックモデリングツールには、3 つのアンカーがあります。
- 入力アンカー: 入力アンカーを使用して、分析するテキストデータに接続します。
- D アンカー: D アンカーを使用して、分析したデータをダウンストリームに渡します。
- R アンカー: R アンカーを使用して、分析のレポートを閲覧します。
- M アンカー: M アンカーを使用して、モデルオブジェクトをダウンストリームに渡し、新しいデータと組み合わせて使用できるようにします。モデルオブジェクトは、予測ツール で利用することができます。
ツールの設定
- トピックモデリングツールをキャンバスに追加します。
- アンカーを使用して、トピックモデリングツールをワークフローで使用するテキストデータに接続します。
- 分析する テキストフィールド を選択します。
- モデル作成する トピックの数 を指定します。
- [出力オプション] セクションで、R アンカーに使用する出力の種類 (下記参照) を選択します。
- インタラクティブチャート オプションは、上位 30 の最も顕著な用語とトピック間の距離マップの 2 つのグラフを含むインタラクティブなレポートを作成します。
- 単語関連性サマリー オプションは、モデルに対する各用語の顕著性と各トピックとの関連性の測定値を含む静的レポートを作成します。
- [辞書オプション] と [LDA オプション] は既定値です。これらのオプションの詳細については、以下の「詳細オプション」セクションを参照してください。
- ワークフローを 実行 します。
リソース
このツールは、潜在的ディリクレ配分法 (LDA) を使用してトピックを識別します。ここでは、LDA アルゴリズム、それに 顕著性 と 関連性 の概念に関するリソースをいくつか紹介します。
詳細オプション
トピックモデリングツールには、いくつかの詳細オプションがあります。
辞書オプション
名前 | 説明 | オプション | 推奨オプション |
---|---|---|---|
最小頻度 | 最小頻度 は、本文に出現する単語の頻度の最小値で、この値よりも出現頻度の低い単語は無視されます。頻度は、単語が含まれる本文の数を、その本文が存在するドキュメントの総数で割って求められます。 |
|
1% |
最大頻度 | 最大頻度 は、本文に出現する単語の頻度の最大値で、この値より出現頻度が高い単語は無視されます。頻度は、単語が含まれる本文の数を、その本文が存在するドキュメントの総数で割って求められます。 |
|
80% |
最大単語表示数 | 最大単語表示数 は、すべてのドキュメントを通して単語がどの程度の頻度で出現したら、トピックモデリングツールのアルゴリズムで考慮するかの単語数を指定します。 |
|
0 |
LDA オプション
名前 | 説明 | オプション | 推奨オプション |
---|---|---|---|
Alpha | Alpha は、各ドキュメントでアルゴリズムが見込むトピック密度を表します。Alpha を増やすと、アルゴリズムはドキュメントでより多くの異なるトピックを認識できるようになります。Alpha を減らすと、アルゴリズムが各ドキュメントで認識するトピックの数が制限されます。 | 数値 | なし |
Eta | Eta は、トピックを構成するために必要な単語の密度を表します。Eta を増やすと、トピックを識別するために必要な単語数が増えます。Eta を減らすと、トピックを識別するために必要な単語数が減ります。 | 数値 | >= 0 |
出力
D アンカーは、トピックごとに新しい列を出力します。列は、各トピックが各行に関連付けられたテキストに表示される度合いを表します。トピック列の値が高いほど、テキストとそのトピックとの関連付けが強い可能性があります。R アンカーは、選択内容に応じて 2 つのレポートのいずれかを出力します。それらのレポートとは、顕著性の上位 30 位までの用語とトピック間距離のマップを含む インタラクティブチャート と、各用語のモデルへの顕著性と各トピックとの関連性を示す 単語関連性サマリー です。M アンカーは、新しいデータと組み合わせて使用できるように、モデルオブジェクトをダウンストリームに出力します。モデルオブジェクトは、予測ツール で利用することができます。