
変換ツール
変換ツールを使用して、次のデータ準備タスクを実行します。
- データ型の設定
- 欠損値の整理
- 特徴量の選択
- データのエンコーディング
これらのタスクは、任意の順序で実行できます。順序は、データの準備方法によって異なります。
このツールは Alteryx Intelligence Suite の一部です。Intelligence Suite を使用するには、Designer のライセンスとアドオンインストーラーが別途必要です。Designer をインストール後、Intelligence Suite をインストールし、無料トライアルを開始 します。
アシスト付きモデリングツールと分類ツールまたは回帰ツールの間に変換ツールを配置する必要があります。
データ型の設定
- トランスフォーマー セクションのドロップダウンから データ型を設定 を選択します。
- パラメーター セクションの 特徴量 列に特徴量の名前が表示されます。データ型を設定 列のドロップダウンから、それぞれの特徴量のデータ型を選択できます。現在のオプションは、数値、カテゴリ別、ブール、およびIDです。
欠落値の整理
- トランスフォーマー セクションのドロップダウンから 欠落値を整理 を選択します。
- 整理する欠落値のある特徴量の横にあるチェックボックスをオンにします。
- 欠落値を整理するために使用する方法を選択します。
このオプションを選択すると、アシスト付きモデリングが、欠落値をすべての行の合計を行数の総数で割った値と置き換えます。この方法は数値データ型にのみに使用します。データが正規型分布であり、外れ値がない場合にこの方法を推奨します。
このオプションを選択すると、アシスト付きモデリングが、欠落値を特徴量の分布の中点を表す数と置き換えます。データが傾斜分布であったり、外れ値がある場合にこの方法をお勧めします。
このオプションを選択すると、アシスト付きモデリングが、欠落値を最も頻繁に発生する数と置き換えます。特徴量にカテゴリ別の値が含まれていて、それを削除したくない場合にこの方法をお勧めします。欠落している数値を入力するために最頻値を使用することもできます。
このオプションを選択すると、アシスト付きモデリングが空のフィールドを欠落値として読み取ります。モデリングアルゴリズムが欠落値自体に意味を見出すと思われる場合は、このオプションを選択します。データが無いところにパターンを見出すことができる場合があるためです。他の欠落値の処理方法がモデルを偏らせる可能性がある場合も、このオプションを選択することができます。
このツールでは、チェックボックスがオフになっている特徴量の欠落値は整理されません。欠落値が含まれている特徴量で、整理する方法を選択しない場合は、機械学習パイプラインの下流でエラーが発生します。
特徴量の選択
- トランスフォーマー セクションのドロップダウンから 特徴量を選択 を選択します。
- モデルに特徴量を含めたくない場合は、その特徴量の名前の横にあるチェックボックスをオフにします。
One-Hot エンコーディング
- トランスフォーマー セクションのドロップダウンから One-Hot エンコーディング を選択します。
- 切り替えを使用して、エンコーディングできない特徴量を非表示 にします。
- マシン読み取り可能な形式でエンコードする特徴量の横にあるチェックボックスをオンにします。
- ドロップダウンを使用して、エンコードされた特徴量をツールでどのように扱うかを選択します。
- 無視 を選択すると、変換ツールでデータをスコア付けし、不明な値を定数として処理します。
- エラー を選択すると、変換ツールが不明な値を検出した場合にエラーを返すように指示します。