Support Vector Machine Tool Icon

ベクトルマシンサポートツール

Version:
Current
Last modified: May 02, 2020

サポートベクタマシン(SVM)、またはサポートベクタネットワーク (SVN) は、もともと分類 (カテゴリターゲット) の問題のために開発された教師付き学習アルゴリズムの一般的なセットであり、後期回帰 (数値目標) の問題に拡張。SVMはメモリが効率的であり、(予測数が予測レコードの数を超えた場合、不適切な適合を提供する可能性がありますが)多数の予測変数を扱うことができ、また多数の異なる「カーネル」関数をサポートしているため用途が広く、人気があります。

この方法の背後にある基本的な考え方は、距離の尺度に基づいて、レコードのグループを最大に分離する線(1つの予測変数)、平面(2つの予測変数)、または超平面(3つ以上の予測変数)の最良の方程式を見つけることです。の場合、推定レコードはターゲット変数に基づいて異なるグループに記録されます。カーネル関数は、レコードを同じグループまたは異なるグループに配置する距離の尺度を提供し、予測変数の関数を使用して距離メトリックを定義します。

この作品はここで見つけることができる方法を示しています短いビデオ、およびトピックの非常に親しみやすい議論はここで見つけることができます。グループが使用されるカーネル関数で区切られる条件の範囲は、最大マージンとして知られています。最後に、グループの分離は完全ではないかもしれませんが、コストパラメーター(推定レコードを「間違った」グループに配置するコスト)も指定することができます。

このツールでは、e1071 R パッケージを使用します。

このツールはRツールを使用します。[オプション] > [予測ツールのダウンロード] に移動し、Alteryx のダウンロードとライセンスポータルにサインインして、R ツールで使用されるパッケージとRツールをインストールします。参照: 予測ツールのダウンロードとご使用

入力を接続する

1つ以上の可能性のある予測フィールドとともに関心のあるターゲットフィールドを含むAlteryxデータストリーム。

ツール設定

必要なパラメータ

  • モデル名:各モデルは、後で識別できるように名前を必要とします。モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲットフィールドを選択:予測するデータストリームからフィールドを選択します。
  • 予測フィールドを選択:ターゲット変数の値が "原因" と考えられるデータストリームのフィールドを選択します。
    サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
  • 予測するターゲット変数に基づいて、分類または回帰の方法を選択します。一般的に、選択したターゲット変数が string 型または boolean タイプの場合は、おそらく分類の問題です。数値型の場合は、回帰の問題である可能性があります。
    • 分類:
      • 基本的なモデルの概要: R、ターゲット、予測変数、および関連するパラメータの関数呼び出し。
      • モデルのパフォーマンス
        • 混乱行列
        • SVM分類プロット
        • レポートでは、各パフォーマンス評価測定の解釈方法について説明します。
    • 分類:
      • C分類:ある程度のエラーを許容しながら、意思決定平面を最適化します。
      • ヌー分類:C 分類と似ていますが、nuの値を選択してエラーの量を制限できます。
    •  回帰
      • 基本的なモデルの概要: R、ターゲット、予測変数、および関連するパラメータの関数呼び出し。
      • モデルのパフォーマンス
        • 二乗平均平方根のエラー:
        • R-二乗
        • 平均絶対誤差
        • 中央値絶対誤差
        • 残差プロット
        • 残差分散
        • レポートでは、各パフォーマンス評価測定の解釈方法について説明します。
    • 回帰:
      • イプシロン回帰
      • nu 回帰:イプシロン回帰に似ていますが、nuの値を選択してエラーの量を制限できます。

モデルのカスタマイズ(オプション)
モデルのカスタマイズセクションでは、ユーザーが各カーネルのカーネルタイプと関連するパラメーターを選択します。モデルをカスタマイズするには、[モデル パラメータを指定]を選択します。

ユーザーはパラメータを提供します: 必要なパラメータを直接設定する場合に選択します。

カーネルの種類:グループ間の分離の測定に使用するメトリックを決定します。

  • 線形:クラスと予測変数の関係が単純な線、平面、またはハイパープレーンの場合に便利です。
    • コスト:レコードの誤ったグループ化に関連するコスト。コストの低い値は、オーバーフィット回避を避けるためにレコードのグループを形成する際のエラーの特定のレベルを可能にします。
  • 多項式:距離は、予測変数の多項関数を使用して測定されます。
    • コスト:レコードの誤ったグループ化に関連するコスト。コストの低い値は、オーバーフィット回避を避けるためにレコードのグループを形成する際のエラーの特定のレベルを可能にします。
    • 度:多項式カーネルの度合い。多項式の次数を増やすことで、グループ間のマージンがより柔軟になり、推定サンプルの誤差が少なくなります。しかし、見積もりサンプルにモデルをオーバーフィットするという犠牲を払います。
    • ガンマ:多項式カーネル内の内部積項の係数。
    • coef0: 多項式定式化における定数項。
  • ラジアル (デフォルト):非直線的に分離可能なデータに適しています。
    • コスト:分類の特定のエラーがオーバーフィットを回避できるようにします。
    • ガンマ:放射状ベース関数カーネルの電力項の係数。より大きいガンマは、より豊富な特徴スペース、従って訓練セットのためのより少ない間違いである;しかし、それはまた、悪いオーバーフィット回避につながる可能性があります。
  • シグモイド:主にニューラルネットワークのプロキシとして使用
    • ガンマ:トレーニング例への影響を定義します。
    • coef0:シグモイドカーネルの定数項。

マシンチューニングパラメータ:パラメータの範囲を提供し、計算上、可能な値のグリッドを検索して最適なパラメータを見つけることを選択します。パラメータ値。しかし、データにさらに適したモデルが得られる可能性があります。

この場合に選択する必要があるパラメーターは、「ユーザがパラメーターを提供する」セクションの場合と同様ですが、次の点が異なります。

  • 候補者数:ユーザーがテストするパラメーターの値の数 (既定値: 5)
  • カーネルの種類 (グリッド検索):「ユーザーがパラメータを提供する」セクションを参照してください。ユーザーは、特定のパラメーターの最小値と最大値を指定します。このモデルでは、「候補数」で設定された特定の数の候補が生成され、10倍の交差検証を使用して最適な候補が検索されます。

グラフィックオプション

  • プロットサイズ:インチまたはセンチメートルを使用して、結果のプロットの幅と高さの寸法を設定します。
  • グラフの解像度: グラフの解像度を 1 インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi) で選択します。解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
  • 基本フォント サイズ:マクロによって生成されるプロットで使用される基本フォントのポイント数

出力を表示

  • oアンカー: "o" 出力は、モデル名を持つシリアル化されたモデルのテーブルで構成されます。SVM ツールからの出力を取得した後、スコアツールとテストデータセットを使用できます。
  • rアンカー: "r" 出力は、サポートベクターマシンツールによって生成されたレポートスニペットから成ります。このレポートは、異なる業績評価メソッドを持っているため、分類と回帰については異なります。
Was This Helpful?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support.