K-Centroids Cluster Analysis Tool Icon

Kセントロイドクラスター解析ツール

Version:
Current
Last modified: June 05, 2020

Kセントロイドは、パーティショニングクラスタ分析と呼ばれる処理を行うアルゴリズムのクラスです。これらの方法は、データベース内のレコードを取り出し、それらをいくつかの基準に基づいて「最良の」Kグループに分割(パーティショニング)することによって機能します。ほぼすべてのパーティショニングクラスター分析メソッドは、各レコードの近傍にあるクラスターメンバーシップをデータ内のKポイント(またはセントロイド)の1つに基づいて、目的を達成します。これらのクラスタリングアルゴリズムの目的は、クラスターの重心とそのクラスターに割り当てられたポイントとの間の距離に関するいくつかの基準を最適化する重心の位置を、データ内の予め指定された数のクラスターに対して見つけることです。特定のアルゴリズムは、クラスター重心を定義するために使用される基準と、そのクラスターの重心に対するクラスター内の点の近接度を定義するために使用される距離測定値の両方において、互いに異なります。

このツールでは、k-重心、k-母集団、および神経ガスクラスタリングという3種類の特定のタイプのクラスタ解析を行うことができます。K-Means は、クラスター内のポイントのフィールドの平均値を使用して、中心点を定義します。ユークリッド距離は、重心に対するポイントの近接性を測定するために使用されます。* K-Mediansはクラスター内のポイントのフィールドの中央値を使用して重心を定義し、マンハッタン(都市ブロックとも呼ばれる)距離は近接性を測定するために使用されます。特定のクラスターにその点を割り当てるには、クラスター重心の計算方法において K-Means とは異なり、すべてのデータ ポイントの加重平均を含むクラスターの重心の位置と、重心が構築されているクラスターに割り当てられたポイントが最も重みを受け取り、最も低い重みを受ける最も遠いクラスターからのポイントを受け取るを選択し、中間クラスタ内のポイントに与える重みは、焦点クラスタとポイントが割り当てられているクラスタとの間の距離が大きくなるにつれて減少します。

このツールはRツールを使用します。[オプション] > [予測ツールのダウンロード] に移動し、Alteryx のダウンロードとライセンスのポータルにサインインして、R とR ツールで使用するパッケージをインストールします。参照: 予測ツールのダウンロードとご使用

ツール設定

構成タブ

[構成] タブを使用して、クラスター分析のコントロールを設定します。

  1. ソリューション名: 後で識別できるように、各クラスタソリューションに名前を指定する必要があります。ソリューション名は文字で始まり、文字、数字、および特殊文字ピリオド(「.」)および下線(「_」)を含む必要があります。その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  2. フィールド (複数のフィールドを選択します): クラスター ソリューションの構築に使用する数値フィールドを選択します。
  3. フィールドを標準化する..: Z スコアまたは単位間隔標準化を使用して変数を標準化する場合は、このオプションを選択します。
    • z スコア変換では、フィールドの値から各フィールドの平均値を減算し、フィールドの標準偏差で除算します。この結果、平均値がゼロで標準偏差が1の新しいフィールドが作成されます。
    • 単位間隔変換では、フィールド値からフィールドの最小値を減算してから、フィールドの最大値と最小数の差で除算を行います。これにより、0から1の範囲の値を持つ新しいフィールドが作成されます。クラスター化ソリューションは、特にあるフィールドが別のフィールドと非常に異なるスケールにある場合、データのスケーリングに対して非常に敏感です。その結果、データのスケーリングは何か考慮すべきものとなります。
  4. クラスタリング方法: -ERR:REF-NOT-FOUND-k-平均、-ERR:REF-NOT-FOUND-k-母集団、または-ERR:REF-NOT-FOUND-神経ガス のいずれかを選択します。
  5. クラスター数: ソリューション内のクラスターの数を選択します。
  6. 開始種子の数: 重心のメソッドは、最初の重心としてランダムに選択した点を取ることによって開始されます。各メソッドによって決定される最終的なソリューションは、初期ポイントによって影響を受けることがあります。複数の開始シードを使用する場合、一連のソリューションの中から最良のソリューションを最終的なソリューションとして保持します。

[印刷オプション]タブ

[印刷オプション] タブを使用して、プロットのコントロールを設定します。

  1. プロットポイント: オンにすると、データ内のすべての点がプロットされ、各点が解析で割り当てられたクラスタ番号で表されます。
  2. プロットの図心: チェックすると、クラスターの図心がプロットされ、それが図心であるクラスターの数で表されます。
  3. 二重プロットに含める次元の最大数: バイプロットは、より小さな次元空間でクラスタリングソリューション(主成分を介して)を視覚化する手段です。寸法は一度に2次元で行われます。このオプションは、視覚化で使用する次元の上限を設定します。たとえば、このパラメータが「3」に設定されている場合、バイプロットには、第1と第2、第1、第3、第2および第3の主成分が3つの別々の図に含まれます。

[グラフィック オプション] タブ

[グラフィックスオプション] タブを使用して、出力のコントロールを設定します。

  • [印刷サイズ]: グラフのサイズに対してインチまたはセンチメートルを選択します。
  • グラフ解像度: 1x (96 dpi) 、2x (192 dpi)、または3x (288 dpi) の点/インチでグラフの解像度を選択します。2x (192 dpi)
    • 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。
    • 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
  • 基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。

出力を表示する

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • アンカー : モデル名とオブジェクトのサイズを持つシリアル化されたモデルのテーブルで構成されます。
  • Rアンカー: K-Centroids クラスター分析ツールによって生成されたレポート スニペットで構成されます: 統計サマリーとクラスター解プロット。

-ERR:REF-NOT-FOUND-*en.wikipedia.org/wiki/K-means_clustering
**-ERR:REF-NOT-FOUND-en.wikipedia.org/wiki/K-medians_clustering
-ERR:REF-NOT-FOUND-en.wikipedia.org/wiki/Neural_gas

Was This Helpful?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support.