品詞タグ付け
品詞タグ付けツールを使用して、テキスト中の名詞、動詞、形容詞などの品詞を識別できます。品詞タグ付けは、自然言語処理アプリケーション用のデータのクレンジング、準備、充実化によく使われる処理手順です。品詞タグ付けツールは、 spaCy パッケージの品詞に関する情報を利用します。 英語 の品詞タグ付けの精度は約 97% ですが、 サポートされている言語 に応じて若干異なります。
Alteryx Intelligence Suiteが必要です
このツールは Alteryx Intelligence Suite の一部です。Intelligence Suite を使用するには、Designerに加え、別途のライセンスとアドオンインストーラーが必要です。Designerをインストール後、Intelligence Suiteをインストールし、 無料トライアルを開始 します。
言語サポート
品詞タグ付けツールは、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語に対応しています。品詞の出力タグは英語でのみ使用できます。
ツールコンポーネント
品詞タグ付けツールには、次の 2 つのアンカーがあります。
入力アンカー: 入力アンカーを使用して、分析するテキストデータに接続します。
出力アンカー: 出力アンカーを使用して、タグ付けされたテキストをダウンストリームに渡します。
ツールの設定
キャンバスに品詞タグ付けツールを追加します。
アンカーを使用して、ワークフローで使用するテキストデータに品詞タグ付けツールを接続します。
テキストデータの 言語 を選択します。
分析対象にする テキストを含む列 を選択します。
ワークフローを 実行 します。
出力
品詞タグ付けツールは、次の 2 つの列に加えて、受け取った列も出力します。
part_of_speech_tags: この列には、品詞のタグと説明がリスト形式になった JSON 出力が格納されます。コーパス (入力テキスト列の各行にコーパスが含まれる) 内の各トークン (単語) には、JSON 出力内の以下の値が格納されます。
text: タグ付けされた単語。
part_of_speech: 品詞の粒度が粗いタグ。
part_of_speech_description: 品詞の粒度が粗いタグの説明。
fine_grained_tag: 品詞の粒度が細かいタグ。
fine_grained_tag_description: 品詞の粒度が細かいタグの説明。
dependency: 品詞の依存関係。
dependency_description: 品詞の依存関係の説明。
character_index: コーパス内にある単語の 1 文字目のインデックス。インデックスは 0 から始まります。
word_index: コーパス内の単語のインデックス。インデックスは 0 から始まります。
text_length: 単語の長さ。
dependency_diagram: この列には、 displaCy タグ付け依存関係ダイアグラムの HTML オブジェクトが含まれます。このオブジェクトは、閲覧ツールで表示できます。
JSON 出力の解析方法
JSON 出力を表形式のデータに変換するために、この下のサンプルのフローでは、 JSON パース 、 列分割 、 クロスタブ の各ツールを組み合わせて使用しています。
品詞タグ付けツールの出力を JSON パースツールの入力に渡します。
[JSON フィールド] の下にある品詞タグ付け列を選択します。
[単一の文字列フィールドに値を出力する] を選択します。
JSON パースツールの出力を列分割の入力に渡します。
[分割する列] の JSON 名列を選択し、 [区切り記号] をピリオド ( . ) に設定します。
[列に分割する] を選択し、 [列数] を 3 に設定します。
列分割ツールの出力をクロスタブツールの入力に渡します。
クロスタブツールを以下のように設定します。
以下の値でデータをグループ化 : 元のテキストデータを含む列名と、2 番目の分割 JSON 名列を選択します (既定では JSON_Name2 )。
列ヘッダーの変更 : 3 番目の分割 JSON 名列を選択します (既定では JSON_Name3 )。
新しい列の値 : JSON_ValueString を選択します。
値を集計する方法 : [連結] を選択します。
ワークフローを実行します。これで、クロスタブツールの出力に、品詞タグ付けツールの出力の表形式が含まれるようになりました。
依存関係ダイアグラム
以下の例は、「This is a sentence」という文の依存関係ダイアグラムの例です。各単語の下に、品詞の粒度が粗いタグが表示されます。品詞の粒度が粗いタグの説明は、JSON 出力の「part_of_speech_description」の下に記載されます。各矢印は、2 つの単語の間にある構文上の依存関係を表します。それぞれの依存関係の説明は、JSON 出力の「dependency_description」の下に記載されます。
上記の依存関係ダイアグラムに記載されている、品詞の粒度が粗いタグの説明を以下に示します。
AUX: Auxiliary (補助詞)
DET: Determiner (決定詞)
NOUN: Noun (名詞)
上記の依存関係ダイアグラムに記載されている依存関係の説明を以下に示します。
nsubj: Nominal Subject (名詞の主語)
attr: Attribute (属性)
det: Determiner (決定詞)
FAQ
このダイアグラムは、品詞タグ付けを見やすくするために視覚化したものです。また、単語間の関係も表しています。現時点では、依存関係ダイアグラムはあくまでも視覚的に見やすくすることが目的であり、出力の対象にはなりません。
現時点では、品詞タグ付けツールはレポーティングツールと連携することができません。たとえば、依存関係ダイアグラムを画像として保存することはできません。
モデルは最初の実行時にキャッシュされるため、最初の実行時には処理が遅くなります。テキストが同じであれば、その後のワークフロー実行は速くなります。ただし、キャッシュには有効期限があるため、サイクルが再度開始される場合があります。