テキスト前処理
テキスト前処理ツールを使用して、テキストデータを整理します。
単語を原形の形に戻す作業で、「見出し語化」とも呼ばれます。
不要な数字、句読点、ストップワードを除外します。
Alteryx Intelligence Suiteが必要です
このツールは Alteryx Intelligence Suite の一部です。Intelligence Suite を使用するには、Designerに加え、別途のライセンスとアドオンインストーラーが必要です。Designerをインストール後、Intelligence Suiteをインストールし、 無料トライアルを開始 します。
重要
バージョン 21.4 以降、
既定のストップワードを使用
を選択すると、テキスト前処理ツールによって代名詞が正しく削除されます。以前は、代名詞は「
-PRON-
」というフレーズに置き換えられていました。
言語サポート
テキスト前処理ツールは、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語に対応しています。
ツールコンポーネント
テキスト前処理ツールには、3 つのアンカーがあります
緑入力アンカー: 上部の緑色入力アンカーを使用して、処理するテキストデータに接続します。
グレーの入力アンカー: 下部のグレーの入力アンカーを使用して、リストからストップワードのリストを渡します。CSV 形式を使用することをお勧めしますが、ストップワードが 1 行に 1 ワードで単一の列にリスト表示されている限り、リストは任意の入力形式にすることができます。
出力アンカー: 出力アンカーを使用して、ダウンストリームで処理したデータを渡します。
ツールの設定
テキスト前処理ツールをキャンバスに追加します。
アンカーを使用して、テキスト前処理ツールをワークフローで使用するテキストデータに接続します。
データの 言語 を識別します。
使用する テキストフィールド を選択します。
ワークフローを 実行 します。
詳細オプション
テキスト前処理ツールには、いくつかの詳細オプションがあります。
テキストの正規化
単語を原形の形に変換するには、 単語を原形に変換 (見出し語化) する のチェックボックスをオンにします。
このオプションは、派生語をその原型に変換します。たとえば、単語「running」、「ran」、「runs」は、見出し語化すると「run」となります。このように、機械学習アルゴリズムを適用して単語を分析すると、すべての単語をグループ化する必要があることを機械に認識させることができます。
フィルター
数字を削除するには、 数字 のチェックボックスをオンにします。このオプションは、データから特定の桁トークン (数字) を削除します。数字は一部の自然言語処理アルゴリズムを混同させる可能性があるため、このオプションを選択できます。
句読点を削除するには、 句読点 のチェックボックスをオンにします。このオプションは、データから句読点を削除します。句読点は一部の自然言語処理アルゴリズムを混同させる可能性があるため、このオプションを選択できます。「Mrs.」のピリオドなど、一部の句読点トークンは意味があるため保持されます。
ストップワードを削除するには、 ストップワード のチェックボックスをオンにします。一部のストップワードは既定で削除されます。テキスト前処理ツールでは、パッケージ spaCy が既定として使用されます。spaCy には、言語ごとに異なるストップワードのリストがあります。spaCy GitHub リポジトリでは、各言語ごとのストップワード完全リストを確認できます。
既定では削除されないストップワードを削除することもできます。削除するストップワードをテキストフィールドに入力します。コンマ区切りの形式で単語を入力します (つまり、各単語をコンマとスペースで区切ります)。
出力
結果グリッドでは、処理した列の名前と「_processed」を含む新しい列がデータに作成されます。