
画像認識
画像認識を使用して、グループごとに画像を分類できる機械学習モデルを構築します。独自のデータとラベルを使用して新しいモデルをトレーニングすることも、当社が提供する学習済みモデルを使用することもできます。
ツールコンポーネント
画像認識には 3 つのアンカーがあります。
- T アンカー: このアンカーを使用して、トレーニングに使用するデータを入力します。
- V アンカー: このアンカーを使用して、検証に使用するデータを入力します。
- M アンカー: このアンカーを使用して、構築したモデルを下流に出力します。
画像認識に渡す画像は BLOB ファイル形式でなければなりません。
ツール設定
このツールを使用するには...
- キャンバスにツールをドラッグします。
- 画像フィールド と 画像ラベル を指定して、トレーニング画像 を入力します。
- 画像フィールド と 画像ラベル を指定して、検証画像 を入力します。
- ワークフローを実行します。
オプション
エポックは、ニューラルネットワークによるトレーニングセット全体の全てのデータの一回の通過処理 (前方パスと後方パス) です。エポックとイテレーションは関連していますが、同じものではありません。イテレーションは、トレーニングセットのバッチにおける全てのデータの一回の通過処理です。
エポック数を増やすと、モデルがトレーニングセットで学習できる時間が長くなります。ただし、計算コストも増加します。
エポック数を増やすと、モデルのエラーを削減できます。ただし、余分な計算コストに見合うほどの削減量にならない場合もあります。また、エポック数を増やしすぎると過学習の問題が発生する場合がある一方で、エポック数が足りない場合は学習不足の問題が発生する場合があります。
学習済みモデルは、定義済みのパラメーターが組み込まれた特徴抽出メソッドを備えたモデルです。パラメーターが多いモデルは精度が高まる一方、処理速度が遅く、計算コストが高くなる傾向があります。パラメーターが少ないモデルはその逆で、精度は低くなりますが、処理速度が速く、計算コストが低くなる傾向があります。
ここでは、ツールに含まれる学習済みモデルについて簡単に説明します。モデルのパフォーマンスはデータに大きく依存するため、サマリーが常に正しいとは限らないことに留意してください。
- VGG16 は、精度が最も高く、処理速度が最も遅く、計算コストが最も高くなる傾向があります。
- InceptionResNetV2 は、精度と処理速度と計算コストのバランスをとり、そのうえで精度を重視する傾向があります。
- Resnet50V2 は、精度と処理速度と計算コストのバランスをとり、そのうえで処理速度と計算コストを重視する傾向があります。
- InceptionV3 はかなりの精度を確保しつつも、精度は相対的に最も低く、処理速度が最も速く、計算コストが最も低い傾向があります。
これらのモデルはすべて、ラベルが 2 万以上付いた画像 1,400 万以上を含むデータセットを学習済みです。
学習済みモデルを選択すると、自前の画像を使用しての一からのニューラルネットワークのトレーニングをスキップできます。学習済みモデルを使用すると、入力パラメーターが学習済みモデルで期待されるパラメーターと一致すると効率的に予想できます。そのため、学習済みモデルと同じように動作する (あるいはパフォーマンスが悪化するおそれすらある) モデルを再構築する必要がなくなります。画像の特徴はトレーニング中にモデルが使用したものと同じである場合が多いため、学習済みモデルは入力どおりに問題なく機能すると考えられます。
学習済みモデルの予測と一致する特徴を備えた画像があり、自前の新規モデルのトレーニングをしたくない場合は、学習済みモデルを使用してください。
バッチはトレーニングデータセット全体に対するサブセットです。
バッチサイズを小さくすると、いつでもニューラルネットワークを通過するデータ量を調整することができます。これにより、全データを一度にニューラルネットワークに通過させる場合よりも少ないメモリ消費でモデルをトレーニングできます。バッチ処理によってトレーニングがスピードアップすることがあります。ただし、データをバッチに分割すると、モデルのエラーが増加する場合もあります。
すべてのデータを一度に処理できない場合、またはトレーニング時間を短縮する場合は、データをバッチに分割します。