変換ツール
Last modified: June 02, 2020
変換ツールを使用して、次のデータ準備タスクを実行します。
- データ型を設定します。
- 欠損値をクリーンアップします。
- 機能を選択します。
- データをエンコードします。
これらのタスクは、任意の順序で実行できます。順序は、データの準備方法によって異なります。
[モデリング支援] ツールと[分類] ツールまたは [回帰] ツールの間に変換ツールを配置する必要があります。
データ型を設定
- [Transformer]セクションのドロップダウンから [データ型の設定] を選択します。
- [パラメーター ] セクションの [フィーチャ] 列にフィーチャの名前が表示されます。[データ型の設定] 列のドロップダウンから、フィーチャのデータ型を選択できます。現在のオプションは、数値 、カテゴリ、ブール、およびIDです。
欠落値を整理
- [トランスフォーマー ] セクションのドロップダウンから [不足値のクリーンアップ] を選択します。
- クリーンアップする欠損値を持つフィーチャの横にあるチェックボックスをオンにします。
- 欠損値をクリーンアップするために使用する方法を選択します。
平均値に置換
このオプションを選択すると、アシスト付きモデリングが、特徴量のすべての行の合計を行数の合計で割った値で欠落値を置き換えます。この方法は数値データにのみに使用します。データが正規型分布であり、外れ値がない場合にこの方法をお勧めします。
中央値に置換
このオプションを選択すると、アシスト付きモデリングが、欠落値を特徴量の分布の中点を表す数と置き換えます。データが傾斜分布であったり、または外れ値がある場合にこの方法をお勧めします。
最頻値に置換
このオプションを選択すると、アシスト付きモデリングが、欠落値を最も頻繁に発生する数に置き換えます。特徴量にカテゴリ別の値が含まれていて、それを削除したくない場合に、この方法をお勧めします。欠落している数値を入力するために最頻値を使用することもできます。
定数に置換
このオプションを選択すると、アシスト付きモデリングが空のフィールドを欠落値として読み取ります。モデリングアルゴリズムが欠落値自体に意味を見出すと思われる場合は、このオプションを選択します。データが無いところにパターンを見出すことができる場合もあるからです。他の欠落値の処理方法がモデルを偏らせる可能性がある場合も、このオプションを選択することができます。
このツールでは、チェックボックスがオフになっているフィーチャの欠損値はクリーンアップされません。欠落値が含まれている機能で、クリーンアップ方法を選択しない場合、機械学習パイプラインの下流でエラーが発生します。
特徴量を選択
- [トランスフォーマー ] セクションのドロップダウンから [フィーチャの選択] を選択します。
- モデルにフィーチャーを含めたくない場合は、その名前の横にあるチェックボックスをオフにします。
One-Hot エンコーディング
- [トランスフォーマー ] セクションのドロップダウンから[1 つのホット エンコーディング] を選択します。
- 切り替えを使用して、エンコイダブルな機能を非表示にします。
- マシン読み取り可能な形式でエンコードする機能の横にあるチェックボックスをオンにします。
- ドロップダウンを使用して、エンコードされた機能をツールでどのように扱うかを選択します。
- [無視]を選択すると、Transformer ツールでデータをスコア付けし、不明な値を定数として処理できます。
- エラーは、Transformer ツールが不明な値を検出した場合にエラーを返すように指示します。