ナイーブベイズ分類子

ナイーブベイズ分類器ツールは、予測変数のセットとカテゴリの目標変数との間の関係のニ項または多項確率的分類モデルを作成します。  ナイーブベイズ分類子は、すべての予測変数が互いに独立していると仮定し、サンプル入力に基づいて、クラスの集合にわたる確率分散を予測し、そのように、ターゲット変数の各クラスに属する確率を計算します。

ナイーブベイズ分類子の主な利点の1つは、小さなトレーニングセットでもうまく動作することです。  この利点は、ナイーブベイズ分類子が各変数の平均および分散によってパラメータ化されているという事実に由来する 他のすべての変数とは無関係です。 多くの最大尤度分類問題では、予測確率を推定するために共分散行列が必要ですが、小さな訓練集合は可変度が高い共分散行列を導き、ひいては最大尤度推定器(MLE)の性能を低下させる可能性があります。 ナイーブベイズ分類子は各予測の1次元分散の計算しか必要としないため、共分散行列の必要はなく、MLEは小さなトレーニングセットの問題を抱えません。

ナイーブベイズ分類子は、ターゲットの「クラス」変数に従って観測セットを分類しようとするとき、特に小さなトレーニングセットと少数の予測変数しか使用しない場合に役立ちます。  ナイーブベイズ分類子は、初期トレーニングセットを使用して、所与の観測がターゲット変数の各クラスに属する確率を予測するためのモデルを開発します。  

シンプルな例は、新しい車両をリースする人が、車両の特性(たとえば、ピックアップ/セダン/ SUV)と顧客の性別(たとえば、性別、年齢、性別など)の両方に基づいてリースの終了時にその車両を購入するかどうかを予測することです)。 ナイーブベイズ分類子は、ユーザがトレーニングセットによって生成されたモデルに従って将来の個体を「スコアリング」することを可能にします。 このスコアリングプロセスは、リース契約の終了時に購入するものと、リース契約の終了時に購入しないものとの確率のセットをもたらします。

このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード ] に進み、 Alteryxダウンロード/ライセンスポータル R とパッケージをインストールするには、 Rツール

ツールを設定する

必要なパラメータ

  • モデル名:後で識別できるように、各モデルに名前を指定する必要があります。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲット変数を選択:予測したいデータストリームからフィールドを選択します。 このターゲットは文字列型でなければなりません。
  • 予測変数を選択:ターゲット変数の値が "原因" であると考えられるデータストリームのフィールドを選択します。
  • サロゲート主キーや自然主キーなどのユニークな識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム例外を引き起こす可能性があります。

  • ラプラススムージング:平滑化パラメータとして正の値を選択します。 デフォルトは0に設定されています。 ラプラススムージング機能は、訓練セットに全く存在しないか、そうでなければ頻度が少ししか存在せず、それ故にそれがゼロであるか、少なくとも(状況によっては)いつになく低い可能性が割り当てられたクラス/特徴の組み合わせを考慮に入れて、ユーザーがデータを「スムージング」することを可能にしています。 これは、母集団の十分に代表的なサンプルではないかもしれない小さな訓練セットを使用して分類モデルを構築しようとするときに有用です。

グラフィックオプション

  • グラフの解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度が高いほど、向上した印刷品質のより大きなファイルを作成できます。

出力を見る

  • Oアンカー: オブジェクト。 シリーズにされたモデルのテーブルとそのモデル名で構成されます。
  • Rアンカー: レポート。 ナイーブベイズ分類ツールによって生成されたレポートスニペット (基本的なモデルの概要) と、ターゲット変数の各クラスの主な効果プロットから成ります。

http://en.wikipedia.org/wiki/Naive_Bayes_classifier