
テキスト前処理
バージョン 21.4 以降、既定のストップワードを使用を選択すると、テキスト前処理ツールによって代名詞が正しく削除されます。以前は、代名詞は「-PRON-」というフレーズに置き換えられていました。
テキスト前処理ツールを使用して、テキストデータを整理します。
- 単語を原形の形に戻す作業で、一般に「見出し語化」と呼ばれます。
- 不要な数字、句読点、ストップワードを除外します。
ツールコンポーネント
テキスト前処理ツールには、3 つのアンカーがあります
- 緑色の入力アンカー: 上部の入力アンカーを使用して、処理するテキストデータに接続します。
- グレーの入力アンカー: 下部のグレーの入力アンカーを使用して、リストからストップワードのリストを渡します。CSV 形式を使用することをお勧めしますが、ストップワードが 1 行に 1 ワードで単一の列にリスト表示されている限り、リストは任意の入力形式にすることができます。
- 出力アンカー: 出力アンカーを使用して、ダウンストリームで処理したデータを渡します。
ツールの設定
-
テキスト前処理ツールをキャンバスに追加します。
-
アンカーを使用して、テキスト前処理ツールをワークフローで使用するテキストデータに接続します。
-
データの 言語 を識別します。
-
使用する テキストフィールド を選択します。
-
ワークフローを 実行 します。
詳細オプション
テキスト前処理ツールには、いくつかの詳細オプションがあります。
テキストの正規化
単語を原形の形に変換するには、単語を原形に変換 (見出し語化) する のチェックボックスをオンにします。
このオプションは、派生語を基本形に変換します。たとえば、「running」、「ran」、「runs」という同じ単語が変化しただけのものは、見出し語化した後に「run」という単語になります。このようにして、機械学習アルゴリズムを適用して単語を分析すると、マシンはそれらすべての単語をグループ化する必要があることを認識できます。
フィルター
数字を削除するには、数字 のチェックボックスをオンにします。このオプションを選択すると、データから特定の数字トークンが削除されます。数字は一部の自然言語処理アルゴリズムを混同させる可能性があるため、このオプションを選択できます。
句読点を削除するには、句読点 のチェックボックスをオンにします。このオプションを選択すると、データから句読点が削除されます。句読点は一部の自然言語処理アルゴリズムを混同させる可能性があるため、このオプションを選択できます。「Mrs.」のピリオドなど、一部の句読点トークンは意味があるため保持されます。
ストップワードを削除するには、ストップワード のチェックボックスをオンにします。一部のストップワードは既定で削除されます。テキスト前処理ツールでは、パッケージ spaCy が既定として使用されます。spaCy には、言語ごとに異なるストップワードのリストがあります。spaCy GitHub リポジトリでは、各言語ごとのストップワード完全リストを確認できます。
既定では削除されないストップワードを削除することもできます。削除するストップワードをテキストフィールドに入力します。コンマ区切りの形式で単語を入力します (つまり、各単語をコンマとスペースで区切ります)。
出力
結果グリッドでは、処理した列の名前と「_processed」を含む新しい列がデータに作成されます。