Icon for the Text Pre-processing Tool

テキスト前処理

バージョン:
2021.2
Last modified: July 15, 2021

テキスト前処理ツールを使用して、テキストデータを整理します。

  • 単語を原形の形に戻す作業で、一般に「見出し語化」と呼ばれます。
  • 不要な数字、句読点、ストップワードを除外します。

このページのコンテンツは、ページの右上にある言語切り替え機能を使用して、サポートされているすべての言語で利用できます。 

ツールコンポーネント

テキスト前処理ツールには、2 つのアンカーがあります

  • 入力アンカー: 入力アンカーを使用して、処理するテキストデータに接続します。
  • 出力アンカー: 出力アンカーを使用して、ダウンストリームで処理したデータを渡します。

ツール設定

  1. テキスト前処理ツールをキャンバスに追加します。

  2. アンカーを使用して、テキスト前処理ツールをワークフローで使用するテキストデータに接続します。

  3. データの 言語 を識別します。

  4. 使用する テキストフィールド を選択します。

  5. ワークフローを 実行 します。

詳細オプション

テキスト前処理ツールには、いくつかの詳細オプションがあります。

テキストの正規化

単語を原形の形に変換するには、単語を原形に変換 (見出し語化) する のチェックボックスをオンにします。

このオプションは、派生語を基本形に変換します。たとえば、「running」、「ran」、「runs」という同じ単語が変化しただけのものは、見出し語化した後に「run」という単語になります。このようにして、機械学習アルゴリズムを適用して単語を分析すると、マシンはそれらすべての単語をグループ化する必要があることを認識できます。

フィルター

数字を削除するには、数字 のチェックボックスをオンにします。このオプションを選択すると、データから特定の数字トークンが削除されます。数字は一部の自然言語処理アルゴリズムを混同させる可能性があるため、このオプションを選択できます。「Mrs.」のピリオドなど、一部の句読点トークンは意味があるため保持されます。

句読点を削除するには、句読点 のチェックボックスをオンにします。このオプションを選択すると、データから句読点が削除されます。句読点は一部の自然言語処理アルゴリズムを混同させる可能性があるため、このオプションを選択できます。

ストップワードを削除するには、ストップワード のチェックボックスをオンにします。一部のストップワードは既定で削除されます。テキスト前処理ツールでは、パッケージ spaCy が既定として使用されます。spaCy には、言語ごとに異なるストップワードのリストがあります。spaCy GitHub リポジトリでは、各言語ごとのストップワード完全リストを確認できます。

既定では削除されないストップワードを削除することもできます。削除するストップワードをテキストフィールドに入力します。コンマ区切りの形式で単語を入力します (つまり、各単語をコンマとスペースで区切ります)。

出力

結果グリッドでは、処理した列の名前と「_processed」を含む新しい列がデータに作成されます。

役に立ちましたか?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support. Can't submit this form? Email us.