Support Vector Machine Tool Icon

ベクトルマシンサポートツール

バージョン:
2021.2
Last modified: September 25, 2020

サポートベクターマシン (SVM)、またはサポートベクターネットワーク(SVN)は、分類(カテゴリターゲット)問題のために最初に開発され、回帰(数値ターゲット)の問題に遅れて拡張された教師付き学習アルゴリズムの人気のあるセットです。 SVMはメモリが効率的であり、(予測数が予測レコードの数を超えた場合、不適切な適合を提供する可能性がありますが)多数の予測変数を扱うことができ、また多数の異なる「カーネル」関数をサポートしているため用途が広く、人気があります。

この方法の背後にある基本的な考え方は、距離の尺度に基づいて、レコードのグループを最大に分離する線(1つの予測変数)、平面(2つの予測変数)、または超平面(3つ以上の予測変数)の最良の方程式を見つけることです。の場合、推定レコードはターゲット変数に基づいて異なるグループに記録されます。 カーネル関数は、レコードを同じグループまたは異なるグループに配置する距離の尺度を提供し、予測変数の関数を使用して距離メトリックを定義します。

この仕組みを説明する短いビデオは、ここで見つけることができます。 here グループが使用されるカーネル関数で区切られる条件の範囲は、最大マージンとして知られています。 最後に、グループの分離は完全ではないかもしれませんが、コストパラメーター(推定レコードを「間違った」グループに配置するコスト)も指定することができます。

このツールは e1071 R パッケージを使用します。

このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード] に移動し 、Alteryx のダウンロードとライセンス のポータルにサインインして、R と R ツールで使用されるパッケージをインストールします。 参照: 予測ツールのダウンロードとご利用

入力を接続する

1つ以上の可能性のある予測フィールドとともに関心のあるターゲットフィールドを含むAlteryxデータストリーム。

ツール設定

必要なパラメータ

  • モデル名: 各モデルには、後で識別できるように名前が必要です。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲットフィールドを選択します。 予測するデータ ストリームからフィールドを選択します。
  • 予測フィールドを選択します。 ターゲット変数の値が「原因」と思われるデータ・ストリームからフィールドを選択します。
    サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
  • 予測するターゲット変数に基づいて、分類または回帰の方法を選択します。 一般的に、選択したターゲット変数が string 型または boolean タイプの場合は、おそらく分類の問題です。 数値型の場合は、回帰の問題である可能性があります。
    • 分類:
      • 基本的なモデルの概要: R、ターゲット、予測変数、および関連するパラメータの関数呼び出し。
      • モデルのパフォーマンス
        • 混乱行列
        • SVM分類プロット
        • レポートでは、各パフォーマンス評価測定の解釈方法について説明します。
    • 分類:
      • C分類: ある程度のエラーを許容しながら、決定平面を最適化します。
      • nu分類: C 分類と同様ですが、nu の値を選択してエラーの量制限することができます。
    •  回帰
      • 基本的なモデルの概要: R、ターゲット、予測変数、および関連するパラメータの関数呼び出し。
      • モデルのパフォーマンス
        • 二乗平均平方根のエラー:
        • R-二乗
        • 平均絶対誤差
        • 中央値絶対誤差
        • 残差プロット
        • 残差分散
        • レポートでは、各パフォーマンス評価測定の解釈方法について説明します。
    • 回帰:
      • イプシロン回帰
      • nu回帰: イプシロン回帰と同様ですが、nu の値を選択してエラーの量 制限することができます。

モデルのカスタマイズ (オプション)
モデルのカスタマイズセクションでは、ユーザーがカーネルの種類と各カーネルの関連パラメータを選択します。 モデルをカスタマイズするには、[モデル パラメータを指定]を選択します。

[ユーザがパラメータを提供]: 必要なパラメータを直接設定する場合に選択します。

カーネルの種類: グループ間の分離を測定するために使用するメトリックを決定します。

  • 線形: クラスと予測変数の関係が単純な線、平面、またはハイパープレーンである場合に便利です。
    • コスト: レコードのグループ化の誤ったグループ化に関連するコスト。 コストの低い値は、オーバーフィット回避を避けるためにレコードのグループを形成する際のエラーの特定のレベルを可能にします。
  • 多項式: 距離は、予測変数の多項式関数を使用して測定されます。
    • コスト: レコードのグループ化の誤ったグループ化に関連するコスト。 コストの低い値は、オーバーフィット回避を避けるためにレコードのグループを形成する際のエラーの特定のレベルを可能にします。
    • 学位: 多項式カーネルの程度。 多項式の次数を増やすことで、グループ間のマージンがより柔軟になり、推定サンプルの誤差が少なくなります。 しかし、見積もりサンプルにモデルをオーバーフィットするという犠牲を払います。
    • ガンマ: 多項式カーネルにおける内積項の係数。
    • coef0: 多項式製剤における定数項。
  • 放射状 (デフォルト): 非線形分離データに適しています。
    • コスト: 分類の特定のエラーをオーバーフィットを回避できます。
    • γ: 放射基底関数カーネルにおける電力項の係数。 より大きいガンマは、より豊富な特徴スペース、従って訓練セットのためのより少ない間違いである;しかし、それはまた、悪いオーバーフィット回避につながる可能性があります。
  • シグモイド: 主にニューラルネットワークのプロキシとして使用
    • ガンマ: トレーニングの例に対する影響を定義します。
    • coef0: シグモイドカーネルにおける定数項。

マシンチューンパラメータ: 複数のパラメータ値でモデルをテストするために 10 倍のクロス検証を実行するため、計算上の値のグリッドを検索して、最適なパラメータを計算的に見つける場合に選択します。 しかし、データにさらに適したモデルが得られる可能性があります。

この場合に選択する必要があるパラメーターは、「ユーザがパラメーターを提供する」セクションの場合と同様ですが、次の点が異なります。

  • 候補者数: ユーザーがテストするパラメータの値の数 (既定値: 5)
  • カーネルの種類 (グリッド検索): 「ユーザーがパラメーターを提供する」セクションを参照してください。 ユーザーは、特定のパラメーターの最小値と最大値を指定します。 このモデルでは、「候補数」で設定された特定の数の候補が生成され、10倍の交差検証を使用して最適な候補が検索されます。

グラフィックオプション

  • プロットサイズ: 作成されるプロットの幅と高さの寸法をインチまたはセンチメートルを使用して設定します。
  • グラフの解像度: グラフの解像度を 1 インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
  • 基本フォント サイズ: マクロによって作成されたプロットで使用される基本フォントのポイント数

出力を表示

  • アンカー : "O" 出力は、モデル名を持つシリアル化されたモデルのテーブルで構成されます。 SVM ツールからの出力を取得した後、スコアツールとテストデータセットを使用できます。
  • R アンカー: "R" 出力は、サポート ベクターマシン ツールによって生成されたレポート スニペットで構成されます。 このレポートは、異なる業績評価メソッドを持っているため、分類と回帰については異なります。
役に立ちましたか?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support. Can't submit this form? Email us.