主成分分析ツール

主成分分析ツールを使用すると、データベース内の次元(数値フィールドの数)を減らすことができます。 元のフィールドセットを、データの分散(情報)の大部分を占める小さなセットに変換することによって、データベース内のディメンションを減らします。 新しいフィールドは、ファクタまたは主成分分析と呼ばれます。

主成分分析は順次に抽出され、第1の主成分分析はデータのほとんどの分散を考慮に入れています。 直感的に最初の主成分は、データが最も「広がる」方向を指すベクトルです。2番目の主成分は同様に設定されますが、最初のコンポーネントと相関する必要があるという追加の制約があります。 後続の各主成分分析は、データのばらつきのパーセンテージがますます低くなり、前に抽出された主成分分析と相関関係はありません。 データには、数値フィールドと同じ数の主成分分析が存在します。 ただし、元の数値フィールドの完全なセットではなく、最初のいくつかの主成分分析を使用して、データの差異をキャプチャすることは通常可能です。 主成分分析は、元の数値フィールドの加重線形結合で構成されています。 これらを一緒に使用すると、各次元が他の次元と無相関な新しい座標系を形成することができます。

高度な相関変数が使用されている場合に発生する可能性のある問題を回避しながら、予測モデルの元のフィールドの代わりに主成分分析を使用することはできますが、モデル解釈を難しくするという犠牲を払います。 さらに、この方法を使用すると、共同して相互に関連性が高いフィールドのグループを決定し、フィールドが予測モデルから除外する決定を導くのに役立てることができる。 最後に、多数のフィールドを少数の主成分分析に「崩壊させる」能力は、しばしばデータの関係を視覚化する上で利点があります。

このツールはRツールを使用します。 [オプション] > [予測ツールをダウンロード ] に進み、 Alteryx ダウンロード & ライセンスポータル R と R ツールが使用されるパッケージをインストールするには Rツール。 参照: 予測ツールをダウンロードして使用する

ツールを設定する

[構成] タブを使用して、プリンシパルコンポーネントおよび関連 biplots のコントロールを設定します。

  • フィールド (2 つ以上を選択): 主成分分析で使用する数値フィールドを選択します。
  • 各フィールドの尺度を単位の差異にしますか?: このオプションを選択すると、データを標準化し、autocovariance 行列ではなく自己相関行列を解析の基礎として使用します。
  • biplots に含める主要なコンポーネントの最大数: バイプロットは、主成分のソリューションを一度に2つのコンポーネントを視覚化する手段です。 このオプションは、分析に使用する主成分分析の上限を設定します。 えば、このパラメーターが「3」に設定されている場合、バイプロットは、第1と第2、第1と第3、第2と第3の主成分分析を3つの別たと個の図形に含めます。
  • [データストリームにプリンシパルコンポーネントを追加する]: 選択すると、元のデータが追加されたプリンシパルコンポーネントのフィールドと共に出力します。 追加されたフィールドはPC1、PC2などの名前が付けられます。 追加するプリンシパルコンポーネントの数を設定します。

グラフィック出力のコントロールを設定するには、[グラフィックスオプション] タブを使用します。

  • [印刷サイズ]: グラフのサイズに対してインチまたはセンチメートルを選択します。
  • グラフ解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。

  • 基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。

出力を見る

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • Oアンカー: 主要なコンポーネントが付加された入力データストリームから成ります。
  • Rアンカー: 主要なコンポーネントツールによって生成されたレポートスニペット (統計サマリー、基本プロット、biplots) から成ります。

*https://en.wikipedia.org/wiki/Principal_component_analysis