Skip to main content

アシスト付きモデリング

機械学習モデルの構築に役立つヘルプを得るには、[ アシスト付き ] オプションを使用します。このオプションは、ターゲットと機械学習手法の選択、データ型の設定、欠損値のクリーンアップ、機能の選択、最適なアルゴリズムの選択などについて、段階的なプロセスを踏んでガイドします。最適なアルゴリズムがわからない場合は、アシスト付きモデリングを使用して、リーダーボードのアルゴリズムを比較できます。その後、モデルのトレーニングに使用したすべての機械学習ツールを含むパイプラインを Designerキャンバスに追加できます。

重要

アシスト付きモデリングを使用するには、事前に Input Data Tool Icon データ入力ツール を使用してデータをDesignerに取り込み、そのデータをアシスト付きモデリングツールに接続する必要があります。 実行 を選択した後、設定ウィンドウで アシスト付きモデリングを開始 を選択します。

1. ターゲットと機械学習手法を選択

ターゲットを選択し、アシスト付きモデリングでターゲットの予測に使用する機械学習手法を選択します。

  1. 使用可能なターゲット セクションに、データセット内の特徴量の名前が一覧表示されます。ターゲットとして設定する特徴量を選択します。

  2. アシスト付きモデリングは、ターゲットにカテゴリデータまたは数値データが含まれているかどうかを自動的に検出し、適切な機械学習手法を選択します。

  3. 次へ を選択して、 ステップ2: 自動化レベルを選択 に進みます。

重要

アシスト付きモデリングでは、次の手順に進む前に、正しいターゲットが選択されたかどうかを確認します。その後、プロセス全体を再起動せずに選択したターゲットを変更することはできません。適切なターゲットを選択したら、 続行 を選択します。

2. 自動化レベルを選択

ツールで機械学習パイプラインを構築するか、アシスト付きモデリングでステップバイステップの手順を実行するかを選択します。

  1. ステップバイステップ または 自動 を選択します。

  2. 次へ を選択します。

ステップバイステップ を選択した場合、アシスト付きモデリングは ステップ 3: データ型の設定 に進みます。

[ 自動 ] を選択すると、アシスト付きモデリングは自動的に、機械学習パイプラインを構築するための手順(データ型の設定、欠落値のクリーンアップ、機能の選択、アルゴリズムの選択)を順に実行します。ツールがそのプロセスを完了すると、リーダーボードに出力が表示されます。

3. データ型の設定

アシスト付きモデリングは、各特徴量のデータ型を設定します。 データ型 列に推奨されるデータ型が表示されます。推奨オプションには、 数値 (推奨) などというラベルが付いています。

  1. 特徴量を選択すると、その特徴量に関する情報が 列の詳細 セクションに表示されます。このセクションでは、アシスト付きモデリングによって、特徴量がどれだけ確実に特定のデータ型であるかを示す データ型の確率 が表示されます。データのサンプルを含む プレビュー も表示できます。この情報を使用して、データ型が正しく設定されていることを確認します。

  2. 特徴量のデータ型が正しくない場合は、 データ型 列のドロップダウンリストを使用して、正しいデータ型を選択します。

  3. 次へ を選択して、 ステップ4: 欠落値を整理 に進みます。

ヒント

用語の意味がわからない場合は、アシスト付モデリングの 用語集 セクションを確認してください。このセクションには、データサイエンティストが使用する一般的な用語に関する役立つ情報が含まれています。

4. 欠落値の整理

アシスト付きモデリングでは、データ内の欠落値を整理します。欠落値を含む各特徴量について、 メソッド 列に欠落値を整理するための推奨方法が表示されます。推奨オプションには、 中央値に置き換え (推奨) などというラベルが付いています。

  1. 特徴量を選択すると、その特徴量に関する情報が 列の詳細 セクションに表示されます。このセクションでは、 整理方法 を参照して、アシスト付きモデリングが どのようにして欠落データを整理する方法を選択しているかを説明します。データのサンプルを含む プレビュー も表示できます。この情報を使用して、欠落値を処理するための正しいメソッドを使用していることを確認します。

  2. 別の整理方法を使用する場合は、 メソッド 列のドロップダウンを使用して、適切な整理方法を選択します。

  3. 次へ を選択して、 ステップ5: 特徴量を選択 に進みます。

5. 特徴量の選択

アシスト付きモデリングでは、最適なモデルを実現する特徴量を選択します。各特徴量について、 特徴量情報 列で、それが良好な予測子であるかどうかを判断します。

  1. 特徴量を選択すると、その特徴量に関する情報が 列の詳細 セクションに表示されます。このセクションでは、 予測子の詳細 を見ることができ、Gini と GKT という 2 つのパフォーマンス指標を提供します。アシスト付きモデリングでは、両方の指標を使用して、特徴量との関連付けが多すぎるか少なすぎるかを判断します。データのサンプルを含む プレビュー も表示できます。この情報を使用して、特徴量が良好な予測子であることを確認します。

  2. 特徴量を使用しない場合は、その特徴量の名前の横にあるチェックボックスをオフにします。

  3. 次へ を選択して、 ステップ6: アルゴリズムを選択 に進みます。

6. アルゴリズムを選択

アシスト付きモデリングでは、使用するアルゴリズムを選択できます。アシスト付きモデリングは、どのような問題を解決したいかによって、さまざまなアルゴリズムを推奨します。この手順では、リーダーボードで評価するアルゴリズムを選択します。

  1. 各アルゴリズムのカードには、メリットとデメリット、説明、およびいくつかのユースケースが表示されます。この情報を使用して、アルゴリズムを評価します。

    1. カテゴリ変数の場合、ツールは次の4つのアルゴリズムを使用できます。

      1. ロジスティック回帰

      2. 決定木

      3. ランダムフォレスト

      4. XGBoost

    2. 連続変数(数値)では、ツールは次の3つのアルゴリズムを使用できます。

      1. 線形回帰

      2. 決定木

      3. ランダムフォレスト

  2. アルゴリズムを評価するには、名前の横にあるチェックボックスをオンにします。アルゴリズムを評価しない場合は、チェックボックスをオフにします。

  3. 選択したアルゴリズムを実行 を選択します。

リーダーボード

アシスト付きモデリングでは、選択したアルゴリズムのパフォーマンスをるために使用するリーダーボードが生成されます。

リーダーボードの出力は、解決する問題の種類によって異なりますが、UI をナビゲートする基本の方法は次のとおりです。

  • アルゴリズムの特定の情報を表示するには、 リーダーボード セクションでそれぞれのカードを選択します。

  • アルゴリズムが他のアルゴリズムに対してどのように実行されたかに関する情報を表示するには、 比較 タブを選択します。

  • アルゴリズムの個々のパフォーマンスに関する情報を表示するには、 概要 タブを選択します。

  • アルゴリズムが最も評価されている特徴量を確認するには、 解釈 タブを選択します。

  • アシスト付きモデリングプロセス全体で行なった選択内容を再確認するには、 設定 タブを選択します。

  • リーダーボードに含まれる情報は保持したまま、アシスト付きモデリングをやり直したい場合は、 新しいモデルを作成 を選択します。

  • リーダーボードの表示/非表示を切り替えるには、 リーダーボードを非表示 または リーダーボードを表示 を選択します。

最適なアルゴリズムを決定したら、モデルをトレーニングする機械学習パイプラインの一部として、Designerキャンバスに追加するアルゴリズムを選択します。

  1. キャンバスに追加するアルゴリズムの名前の横にあるチェックボックスをオンにします。選択したアルゴリズムの数が表示されます。

  2. モデルを追加してワークフローに進む を選択します。

モデルの結果を含むレポートをエクスポートします。

  1. 三点リーダーメニュー(⋮)を選択します。

  2. ドロップダウンから、 HTMLレポートのエクスポート を選択します。

  3. エクスプローラーを使用して、レポートを保存する場所を選択します。

Python tool Python Tool で、機械学習パイプラインのコードをJupyter Notebookにエクスポートできます。

  1. 三点リーダーアイコン(⋮)を選択します。

  2. ドロップダウンから、 モデルを Python にエクスポート を選択します。

  3. アシスト付きモデリングウィンドウを終了すると、ワークフローに Python ツールが表示されます。これには、機械学習パイプラインのすべてのコードを含む、注釈付きのJupyter Notebookが含まれています。