ベクトルマシンサポートツール

サポートベクタマシン(SVM)、またはサポートベクタネットワーク (SVN) は、もともと分類 (カテゴリターゲット) の問題のために開発された教師付き学習アルゴリズムの一般的なセットであり、後期回帰 (数値目標) の問題に拡張。 SVMはメモリが効率的であり、(予測数が予測レコードの数を超えた場合、不適切な適合を提供する可能性がありますが)多数の予測変数を扱うことができ、また多数の異なる「カーネル」関数をサポートしているため用途が広く、人気があります。

このメソッドの背後にある基本的な考え方は、予測変数が線(1つの予測)、平面(2つの予測)、または超平面(3つ以上の予測)の最高の方程式を見つけ、距離の測定、ターゲット変数に基づくさまざまなグループに入る推定レコードに基づき、レコードのグループを最大限に分離することです。 カーネル関数は、レコードを同じグループまたは異なるグループに配置させる原因となる距離の測定を提供し、距離メトリックを定義するために予測変数の関数の取り込みを含みます。

この作品はここで見つけることができる方法を示しています短いビデオ、およびトピックの非常に親しみやすい議論はここで見つけることができます。 グループが使用されるカーネル関数で区切られる条件の範囲は、最大マージンとして知られています。 最後に、グループの分離は完全ではないかもしれませんが、コストパラメーター(推定レコードを「間違った」グループに配置するコスト)も指定することができます。

このツールでは、e1071 R パッケージを使用します。

このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード ] に進み、 Alteryxダウンロード/ライセンスポータル R とパッケージをインストールするには、 Rツール

入力を接続する

1つ以上の可能性のある予測フィールドとともに関心のあるターゲットフィールドを含むAlteryxデータストリーム。

ツールを設定する

必要なパラメータ

  • モデル名: 後で識別できるように、各モデルに名前が必要です。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲットフィールドを選択:予測するデータストリームからフィールドを選択します。
  • 予測フィールドを選択:ターゲット変数の値が "原因" と考えられるデータストリームのフィールドを選択します。
  • サロゲート主キーや自然主キーなどのユニークな識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム例外を引き起こす可能性があります。

  • 予測するターゲット変数に基づいて、分類または回帰の方法を選択します。 一般的に、選択したターゲット変数が string 型または boolean タイプの場合は、おそらく分類の問題です。 数値型の場合は、回帰の問題である可能性があります。
    • 分類

      • C-分類: エラーのいくつかの量を可能にしながら、決定面を最適化
      • nu-分類: C-分類に似ていますが、ユーザーが nu の値を選択することによって、エラーの量を制限することができます。
    • 回帰

      • イプシロン回帰
      • nu 回帰: イプシロン回帰に似ていますが、ユーザーは nu の値を選択することによってエラーの量を制限することができます。

モデルのカスタマイズ(オプション)

モデルのカスタマイズセクションでは、ユーザーが各カーネルのカーネルタイプと関連するパラメーターを選択します。 [モデルパラメータの指定] を選択してモデルをカスタマイズします。

ユーザーはパラメータを提供します: 必要なパラメータを直接設定する場合に選択します。

カーネルタイプ: グループ間の分離を測定するために使用されるメトリックを決定します。

  • 線形: クラスと予測変数の関係が単純なライン、プレーン、または切換の場合に便利です。
    • コスト: レコードの誤分類に関連するコスト。 コストの低い値は、オーバーフィット回避を避けるためにレコードのグループを形成する際のエラーの特定のレベルを可能にします。
  • 多項式: 距離は、予測変数の多項式関数を使用して測定されます。
    • コスト: レコードの誤分類に関連するコスト。 コストの低い値は、オーバーフィット回避を避けるためにレコードのグループを形成する際のエラーの特定のレベルを可能にします。
    • 次数: 多項式カーネルの次数. 多項式の次数を増やすことで、グループ間のマージンがより柔軟になり、推定サンプルの誤差が少なくなります。 しかし、見積もりサンプルにモデルをオーバーフィットするという犠牲を払います。
    • ガンマ: 多項式カーネルにおける内部積項の係数。
    • coef0: 多項式定式化における定数項。
  • ラジアル (デフォルト): 分離可能なデータの非線形に適しています。
    • コスト: オーバーフィット回避を避けるために分類の特定のエラーを許可します。
    • ガンマ: 放射状の基底関数の穀粒の力の言葉の係数。 より大きいガンマは、より豊富な特徴スペース、従って訓練セットのためのより少ない間違いである;しかし、それはまた、悪いオーバーフィット回避につながる可能性があります。
  • s: ニューラルネットワークのためのプロキシとして主に使用される
    • ガンマ: トレーニングの例への影響を定義します。
    • coef0: s 状カーネルの定数項。

マシンのチューニングパラメータ: パラメータの範囲を提供するために選択し、計算が可能な値のグリッドを検索することにより、最高のパラメータを見つける, これは、より計算高価であり、それは10倍のクロスを実行するので、それゆえに時間がかかる複数のパラメータ値でモデルをテストするための検証。 しかし、データにさらに適したモデルが得られる可能性があります。

この場合に選択する必要があるパラメーターは、「ユーザがパラメーターを提供する」セクションの場合と同様ですが、次の点が異なります。

  • 候補者数: ユーザーがテストするパラメータの値の個数 (デフォルト: 5)
  • カーネルタイプ (グリッドサーチ): 「ユーザがパラメータを提供する」セクションを参照してください。 ユーザーは、特定のパラメーターの最小値と最大値を指定します。 このモデルでは、「候補数」で設定された特定の数の候補が生成され、10倍の交差検証を使用して最適な候補が検索されます。

グラフィックオプション

  • プロットサイズ: インチまたはセンチメートルのいずれかを使用して、結果のプロットの幅と高さの寸法を設定します。
  • グラフの解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度が高いほど、向上した印刷品質のより大きなファイルを作成できます。

  • 基本フォントサイズ: マクロによって生成されるプロットで使用するベースフォントのポイント数

出力を見る

  • oアンカー: "o" 出力は、モデル名を持つシリアル化されたモデルのテーブルで構成されます。 スコアリングツールとテストデータセットは、SVMツールから出力を取得した後に使用できます。
  • rアンカー: "r" 出力は、サポートベクターマシンツールによって生成されたレポートスニペットから成ります。 このレポートは、異なる業績評価メソッドを持っているため、分類と回帰については異なります。