K-Centroids Cluster Analysis Tool Icon

Kセントロイドクラスター解析ツール

バージョン:
Current
Last modified: September 25, 2020

Kセントロイドは、パーティショニングクラスタ分析と呼ばれる処理を行うアルゴリズムのクラスです。これらの方法は、データベース内のレコードを取り出し、それらをいくつかの基準に基づいて「最良の」Kグループに分割(パーティショニング)することによって機能します。ほぼすべてのパーティショニングクラスター分析メソッドは、各レコードの近傍にあるクラスターメンバーシップをデータ内のKポイント(またはセントロイド)の1つに基づいて、目的を達成します。これらのクラスタリングアルゴリズムの目的は、クラスターの重心とそのクラスターに割り当てられたポイントとの間の距離に関するいくつかの基準を最適化する重心の位置を、データ内の予め指定された数のクラスターに対して見つけることです。特定のアルゴリズムは、クラスター重心を定義するために使用される基準と、そのクラスターの重心に対するクラスター内の点の近接度を定義するために使用される距離測定値の両方において、互いに異なります。

このツールでは、k-重心、k-母集団、および神経ガスクラスタリングという3種類の特定のタイプのクラスタ解析を行うことができます。K平均は、クラスター内のポイントのフィールドの平均値を使用して重心を定義し、ユークリッド距離を使用してポイントの重心までの距離を測定します。* K中央値は、クラスターのポイントのフィールドの中央値を使用して重心を定義します。近接度を測定するためにマンハッタン(都市ブロックとも呼ばれる)距離を使用します。**神経ガスクラスタリングは、点と重心との間のユークリッド距離を使用して特定のクラスターまでのポイントを割り当てという点でK平均に似ています。***。しかしながら、このメソッドは、重心がどのように計算され、クラスターの重心の位置が全てのデータ点の加重平均を含み、重心が構築されているクラスターに割り当てられて、最大の重みを受け取るのは、最も低い重みを受け取るフォーカルクラスターから最も離れたクラスターからのポイントであり、ポイントが割り当てられたフォーカルクラスターとクラスターとの間の距離が減少するにつれて、中間クラスターのポイントに与えられる重みが増加する点でK平均とは異なっています。

このツールはRツールを使用します。オプション > 予測ツールのダウンロードに移動し、Alteryx ダウンロードとライセンスポータルにサインインして、R ツールで使用されるパッケージとR ツールをインストールします。参照: 予測ツールのダウンロードとご使用

ツール設定

[構成] タブを使用して、クラスター分析のコントロールを設定します。

  1. ソリューション名:後で識別できるように、各クラスタ ソリューションに名前を付ける必要があります。ソリューション名は文字で始まり、文字、数字、および特殊文字ピリオド(「.」)および下線(「_」)を含む必要があります。その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  2. フィールド (2 つ以上を選択):クラスタ ソリューションの構築に使用する数値フィールドを選択します。
  3. フィールドを標準化する...このオプションを選択することにより、ユーザーはZスコアまたは単位間隔標準化のいずれかを使用して変数を標準化する選択肢を与えられます。
    • z スコア変換では、フィールドの値から各フィールドの平均値を減算し、フィールドの標準偏差で除算します。この結果、平均値がゼロで標準偏差が1の新しいフィールドが作成されます。
    • 単位間隔変換では、フィールド値からフィールドの最小値を減算してから、フィールドの最大値と最小数の差で除算を行います。これにより、0から1の範囲の値を持つ新しいフィールドが作成されます。クラスター化ソリューションは、特にあるフィールドが別のフィールドと非常に異なるスケールにある場合、データのスケーリングに対して非常に敏感です。その結果、データのスケーリングは何か考慮すべきものとなります。
  4. クラスタリング方法:K平均、K-中央値、または神経ガスのいずれかを選択します。
  5. クラスター数: ソリューション内のクラスターの数を選択します。
  6. 開始種子の数: 重心のメソッドは、最初の重心としてランダムに選択した点を取ることによって開始されます。各メソッドによって決定される最終的なソリューションは、初期ポイントによって影響を受けることがあります。複数の開始シードを使用する場合、一連のソリューションの中から最良のソリューションを最終的なソリューションとして保持します。

[印刷オプション] タブを使用して、プロットのコントロールを設定します。

  1. プロットポイント: オンにすると、データ内のすべてのポイントがプロットされ、各ポイントがソリューション内で割り当てられているクラスタ番号で表されます。
  2. プロットのセントロイド:オンにすると、クラスターの中心がプロットされ、そのクラスターが重要であるクラスターの数で表されます。
  3. バイプロットに含める寸法の最大数:バイプロットは、(主成分を介して)クラスタリングソリューションを小さな次元空間で視覚化する手段です。次元は一度に2つの次元で行われます。このオプションは、視覚化で使用する次元の上限を設定します。えば、このパラメーターが「3」に設定されている場合、バイプロットは、第1と第2、第1と第3、第2と第3の主成分分析を3つの別たと個の図形に含めます。

[グラフィックスオプション] タブを使用して、出力のコントロールを設定します。

  • プロットサイズ:グラフのサイズに対してインチまたはセンチメートルを選択します。
  • グラフの解像度: グラフの解像度を 1 インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi) で選択します。解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
  • 基本フォント サイズ (ポイント):グラフ内のフォントのサイズを選択します。

出力

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • Oアンカー: モデル名とオブジェクトのサイズを持つシリアル化されたモデルのテーブルから成ります。
  • Rアンカー: 重心クラスタ分析ツールによって生成されたレポートスニペット (統計サマリーとクラスタソリューションのプロット) から成ります。

*en.wikipedia.org/wiki/K-means_clustering
**en.wikipedia.org/wiki/K-medians_clustering
en.wikipedia.org/wiki/Neural_gas

役に立ちましたか?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support. Can't submit this form? Email us.