Kセントロイドクラスター解析ツール

Kセントロイドは、パーティショニングクラスタ分析と呼ばれる処理を行うアルゴリズムのクラスです。 これらの方法は、データベース内のレコードを取り出し、それらをいくつかの基準に基づいて「最良の」Kグループに分割(パーティショニング)することによって機能します。 ほぼすべてのパーティショニングクラスター分析メソッドは、各レコードの近傍にあるクラスターメンバーシップをデータ内のKポイント(またはセントロイド)の1つに基づいて、目的を達成します。 これらのクラスタリングアルゴリズムの目的は、クラスターの重心とそのクラスターに割り当てられたポイントとの間の距離に関するいくつかの基準を最適化する重心の位置を、データ内の予め指定された数のクラスターに対して見つけることです。 特定のアルゴリズムは、クラスター重心を定義するために使用される基準と、そのクラスターの重心に対するクラスター内の点の近接度を定義するために使用される距離測定値の両方において、互いに異なります。

このツールでは、k-重心、k-母集団、および神経ガスクラスタリングという3種類の特定のタイプのクラスタ解析を行うことができます。 K平均は、クラスター内のポイントのフィールドの平均値を使用して重心を定義し、ユークリッド距離を使用してポイントの重心までの距離を測定します。* K中央値は、クラスターのポイントのフィールドの中央値を使用して重心を定義します。近接度を測定するためにマンハッタン(都市ブロックとも呼ばれる)距離を使用します。**神経ガスクラスタリングは、点と重心との間のユークリッド距離を使用して特定のクラスターまでのポイントを割り当てという点でK平均に似ています。***。 しかしながら、このメソッドは、重心がどのように計算され、クラスターの重心の位置が全てのデータ点の加重平均を含み、重心が構築されているクラスターに割り当てられて、最大の重みを受け取るのは、最も低い重みを受け取るフォーカルクラスターから最も離れたクラスターからのポイントであり、ポイントが割り当てられたフォーカルクラスターとクラスターとの間の距離が減少するにつれて、中間クラスターのポイントに与えられる重みが増加する点でK平均とは異なっています。

このツールはRツールを使用します。 [オプション] > [予測ツールをダウンロード ] に進み、 Alteryx ダウンロード & ライセンスポータル R と R ツールが使用されるパッケージをインストールするには Rツール。 参照: 予測ツールをダウンロードして使用する

ツールを設定する

[構成] タブを使用して、クラスター分析のコントロールを設定します。

  1. ソリューション名: 後で識別できるように、各クラスタソリューションに名前を指定する必要があります。 ソリューション名は文字で始まり、文字、数字、および特殊文字ピリオド(「.」)および下線(「_」)を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  2. フィールド (2 つ以上を選択): クラスタソリューションの構築に使用する数値フィールドを選択します。
  3. フィールドを標準化する...: このオプションを選択すると、z スコアまたは単位間隔の標準化のいずれかを使用して、変数を標準化する選択肢が与えられます。
    • z スコア変換では、フィールドの値から各フィールドの平均値を減算し、フィールドの標準偏差で除算します。 この結果、平均値がゼロで標準偏差が1の新しいフィールドが作成されます。
    • 単位間隔変換では、フィールド値からフィールドの最小値を減算してから、フィールドの最大値と最小数の差で除算を行います。 これにより、0から1の範囲の値を持つ新しいフィールドが作成されます。 クラスター化ソリューションは、特にあるフィールドが別のフィールドと非常に異なるスケールにある場合、データのスケーリングに対して非常に敏感です。 その結果、データのスケーリングは何か考慮すべきものとなります。
  4. クラスタリング方法: k-平均k-母集団、または神経ガス のいずれかを選択します。
  5. クラスター数: ソリューション内のクラスターの数を選択します。
  6. 開始種子の数: 重心のメソッドは、最初の重心としてランダムに選択した点を取ることによって開始されます。 各メソッドによって決定される最終的なソリューションは、初期ポイントによって影響を受けることがあります。 複数の開始シードを使用する場合、一連のソリューションの中から最良のソリューションを最終的なソリューションとして保持します。

[印刷オプション] タブを使用して、プロットのコントロールを設定します。

  1. プロットポイント: オンにすると、データ内のすべてのポイントがプロットされ、各ポイントがソリューション内で割り当てられているクラスタ番号で表されます。
  2. プロット重心: オンにすると、クラスタ重心がプロットされ、それが重心であるクラスタの数で表されます。
  3. biplots に含めるディメンションの最大数: バイプロットは、より小さな次元空間で (主成分を介して) クラスタリングソリューションを視覚化する手段です。 次元は一度に2つの次元で行われます。 このオプションは、視覚化で使用する次元の上限を設定します。 えば、このパラメーターが「3」に設定されている場合、バイプロットは、第1と第2、第1と第3、第2と第3の主成分分析を3つの別たと個の図形に含めます。

[グラフィックスオプション] タブを使用して、出力のコントロールを設定します。

  • [印刷サイズ]: グラフのサイズに対してインチまたはセンチメートルを選択します。
  • グラフ解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。

  • 基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。

出力

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • Oアンカー: モデル名とオブジェクトのサイズを持つシリアル化されたモデルのテーブルから成ります。
  • Rアンカー: 重心クラスタ分析ツールによって生成されたレポートスニペット (統計サマリーとクラスタソリューションのプロット) から成ります。

*en.wikipedia.org/wiki/K-means_clustering * *
en.wikipedia.org/wiki/K-medians_clustering
* * * * en.wikipedia.org/wiki/Neural_gas