
テキスト分類
テキスト分類ツールは、トレーニングデータに基づいてテキスト分類モデルをトレーニングし、出力します。出力されたモデルを予測ツールに接続すると、新規で未表示のテキストデータを分類できます。
言語サポート
テキスト分類ツールは、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語に対応しています。
ツールコンポーネント
テキスト分類ツールには、4つのアンカーがあります(入力が2つ、出力が2つ):
- T入力アンカー:T入力アンカーを使用して、トレーニングデータを接続します。トレーニングデータには、テキストを含む列と、テキストのラベルを持つ列が必要です。
- V入力アンカー:V入力アンカーを使用して、検証テキストとラベルを接続します。
- M出力アンカー:M出力アンカーを使用して、構築したモデルを下流に出力します。モデルは予測ツールで使用します。
- E出力アンカー:E出力アンカーを使用して、モデルの評価メトリックを収集します。
ツールの設定
- テキスト分類ツールをキャンバスに追加します。
- T入力アンカーをトレーニングデータに接続します。次に、トレーニングテキストを設定します。
- トレーニングテキストデータがある[テキストを含む列]を選択します。
- トレーニングテキストデータのラベルがある[ラベルを含む列]を選択します。
- V入力アンカーを検証データに接続します。次に、検証を設定します。
- 検証用テキストデータがある[テキストを含む列]を選択します。
- 検証用テキストデータのラベルがある[ラベルを含む列]を選択します。
- 詳細オプションをユースケースに応じて設定します。詳細については、次のセクションを参照してください。
- ワークフローを 実行 します。
列は文字列データ型である必要があります。
詳細オプション
モデルに使用するアルゴリズムを選択します。
- 自動モード
- 多項単純ベイズ
- 線形 SVC
自動モード
利用可能なモデルアルゴリズム中で最適なモデルを検索します。自動モードを選択すると、多項単純ベイズアルゴリズムと線形SVCアルゴリズムが使用されます。モデルごとに、対応するパラメーターを狭い範囲で探索します。自動モードでは、アルゴリズムとハイパーパラメーターの最適な組み合わせが出力されます。モデルを微調整するには、各アルゴリズムのドロップダウンのいずれかを選択します。
多項単純ベイズ
多項単純ベイズのアルゴリズムは、確率的分類モデルです。単純ベイズ分類器は、特定のテキストがあるラベルに属する確率を予測するモデルを構築します。モデルを構築するには、各行がテキストと関連するラベル(クラスまたはターゲットとも呼ばれる)からなる形式のトレーニングデータを使用します。アルゴリズムは、すべての特徴量が互いに独立していることを前提としています。単純ベイズ分類器の利点は、それが拡張可能であり、一般的に少ないトレーニングセットでもうまく機能することです。
Alpha
Alphaは、モデルの複雑さを制御するために使用できる加算スムージングパラメーターです。値が 0 の場合、平滑化は行われません。0より大きい値を指定すると、テストデータ内の単語がトレーニングデータに存在しない場合の結果が改善される可能性があります。
ツールは、定義した Alpha 値の範囲に基づいて最適なモデルを探索します。これらのAlpha値を作成するには、探索する範囲(最小値 - 最大値)とその範囲内のステップ数を入力します。
例 1
最小値 = 0、最大値 = 1、ステップ数 = 5 → 試行するモデルの次のAlpha値を作成します: [0, 0.25, 0.5, 0.75, 1]
例 2
最小値 = 0、最大値 = 1、ステップ数 = 2 → 試行するモデルの次の Alpha 値を作成します: [0, 1]
クロスバリデーション
クロスバリデーションは、モデルのトレーニングとバリデーションにデータのさまざまな部分(分割)を使用するリサンプリング手法です。クロスバリデーション中に使用する分割数を選択します。
用語頻度 - 逆ドキュメント頻度(TF-IDF)
生のテキストを数値データに変換する必要があるのは、テキストの分類に必要な手順であるためです。このベクトル化ステップにより、モデルがデータを解釈できます。テキスト分類ツールでは、用語頻度 - 逆ドキュメント頻度(TF-IDF)ベクトル化手法を使用します。TF-IDF設定は次のとおりです。
- 分析器
- 単語(Word)または文字(Char)からテキスト入力に基づいて特徴量を作成するかどうかを選択します。
- 最小ドキュメント頻度
- テキストデータに許容される用語の最小頻度を入力します。ツールは、アルゴリズムの語彙にこの頻度より低い用語を追加しません。
線形 SVC
線形 SVC は、モデルの SVM (サポートベクターマシン) クラスに属します。このアルゴリズムは、2(バイナリ)または複数のクラスを持つデータに適用できます。このモデルは、データに適用すると、データを適切なカテゴリに分割する最適な超平面を見つけ出します。線形SVCはテキストなどの高次元空間で有効であることが知られていますが、大規模なトレーニングデータセットに適用すると速度が低下することがあります。
ペナルティ
ペナルティで使用される正規化を選択します。L2正規化(ユークリッド正規化とも呼ばれる)は、サポートベクトル分類で標準的に使用されます。L1正規化では、スパース係数ベクトルが得られます。
損失
損失関数を選択します。このアルゴリズムの標準的な選択肢はヒンジです。
C(Log範囲)
C は正則化パラメーターです。0より大きくなければなりません。Cの値を大きくすると正則化の度合いが小さくなり、トレーニングデータに近い適合を試みるモデルになります。対照的に、Cの値が小さい場合は正則化の度合いが増加します。
ツールは、定義したC値の範囲に基づいて最適なモデルを探索します。これらのC値を作成するには、探索するlog範囲(最小値 - 最大値)とその範囲内のステップ数を入力します。
例 1
From = - 3、To = 2、ステップ数= 6→試行するモデルの次のC値を作成します:[0.001, 0.01, 0.1, 1, 10, 100]
例 2
最小値 = 0、最大値 = 1、ステップ数 = 2 → 試行するモデルの次のC値を作成します:[0, 10]
クロスバリデーション
クロスバリデーションは、モデルのトレーニングとバリデーションにデータのさまざまな部分(分割)を使用するリサンプリング手法です。クロスバリデーション中に使用する分割数を選択します。
用語頻度 - 逆ドキュメント頻度(TF-IDF)
生のテキストを数値データに変換する必要があるのは、テキストの分類に必要な手順であるためです。このベクトル化ステップにより、モデルがデータを解釈できます。テキスト分類ツールでは、用語頻度 - 逆ドキュメント頻度(TF-IDF)ベクトル化手法を使用します。TF-IDF設定は次のとおりです。
- 分析器
- 単語(Word)または文字(Char)からテキスト入力に基づいて特徴量を作成するかどうかを選択します。
- 最小ドキュメント頻度
- テキストデータに許容される用語の最小頻度を入力します。ツールは、アルゴリズムの語彙にこの頻度より低い用語を追加しません。