Icon for the Text Pre-processing Tool

テキスト前処理ツール

Version:
Current
Last modified: June 04, 2020

テキストの前処理を使用してテキスト データをクリーンアップします。

  • 単語をそのルーツに変換します(言い換えれば、レモンタイズ)。
  • 不要な数字、句読点、ストップワードを除外します。

ツールコンポーネント

テキスト前処理ツールには 2 つのアンカーがあります

  • 入力アンカー: 入力アンカーを使用して、処理するテキストデータを接続します。
  • 出力アンカー: 出力アンカーを使用して、下流で処理したデータを渡します。

ツール設定

  1. テキストの前処理ツールをキャンバスに追加します。

  2. アンカーを使用して、テキスト前処理ツールをワークフローで使用するテキストデータに接続します。

  3. データの言語を識別します。

  4. 使用するテキストフィールドを選択します。

  5. ワークフローを実行します。

詳細オプション

テキスト前処理ツールには、いくつかの高度なオプションがあります

テキストの正規化

単語をルートに変換するには、[単語のルートに変換 (Lemmatize)]チェック ボックスをオンにします。

このオプションは、派生語をルートワードに変換します。たとえば、「実行」、「実行」、「実行」という言葉はすべて、それらをレマタイズした後に「実行」という単語になります。このようにして、機械学習アルゴリズムを適用して単語を分析すると、マシンは、それらの単語をすべてグループ化する必要があることを認識できます。

フィルター

数字を削除するには、[桁] のチェック ボックスをオンにします。このオプションは、データから特定の数字トークン(数字)を削除します。数値によって自然言語処理アルゴリズムが混乱する可能性があるため、このオプションを選択できます。"Mrs." のピリオドなど、一部の数字トークンは意味のあるため保持されます。

句読点を削除するには、[句読点] のチェック ボックスをオンにします。このオプションを選択すると、データから句読点が削除されます。句読点は一部の NLP アルゴリズムを混同する可能性があるため、このオプションを選択できます。

ストップワードを削除するには、[ストップワード] のチェック ボックスをオンにします。一部のストップワードはデフォルトで削除されます。テキストプリプロセスツールでは、パッケージの spaCy がデフォルトとして使用されます。 spaCyは、異なる言語のためのストップワードの異なるリストを持っています。spaCy GitHub リポジトリでは、各言語のストップ ワードの完全なリストを確認できます。

既定では削除されないストップ ワードを削除することもできます。削除するストップワードをテキストフィールドに入力します。コンマ区切りの形式で入力します (つまり、各単語をコンマとスペースで区切ります)。

出力

結果グリッドでは、処理した列の名前と記号 "_processed" を含む新しい列がデータに作成されます。

Was This Helpful?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support.