K-Centroids Diagnostics Tool Icon

Kセントロイド診断ツール

Version:
Current
Last modified: June 05, 2020

K-Centroids 診断ツールは、ユーザーが適切な数のクラスターを評価して、データと選択したクラスタリング アルゴリズム (K-Means、K-Medians、または神経ガス) を指定できるように設計されています。このツールはグラフィカルで、指定されたクラスタ数が異なるクラスタリングソリューションの範囲について、元のデータのブートストラップ複製サンプルに対する2つの異なる統計を計算することに基づいています。このアプローチの背後にある動機は、データベース内のレコードが本当に安定したクラスターのセットに分類される場合、ランダムサンプル変動とセントロイドの開始セットを生成するために使用される方法によって引き起こされるランダム性の両方に起因する小さな違いを除いて、それらのレコードの異なるランダムサンプルのセットがブートストラップ複製全体でクラスターのセットになる必要がある場合です。一般的なK-Centroidsアルゴリズムで、ランダムにKポイントを選択して。調査された2つの測定は、調整されたRand指数とCalinski-Harabasz指数(分散比基準と擬似F統計量とも呼ばれる)です。

調整されたRand指数は、2つの異なるクラスタリングソリューション間の類似性の尺度を提供し、2つのクラスタリングソリューションが完全に重複する場合、最大値を1にします。*指数は、ソリューションのペアを比較することによってクラスタリングソリューションの相対的および絶対的再現性を決定するために使用でき、各ペアは顧客データの異なるサンプルに基づいています。ソリューションのペアの間の重なりが大きいほど、クラスター構造の再現性は必然的に高くなります。

Calinski-Harabasz指数は、クラスターの平方和(クラスター分離の測定)とクラスター内の平方和(クラスター内のポイントがどれくらい詰まっているかを示す測定)の間の加重比率を比較することに基づいています。理想的には、クラスターは十分に分離されている必要があるため、クラスター間の二乗和の値は大きくなければならず、クラスター内のポイントは可能な限り近くになければなりません。Calinski-Harabasz指数は、分子におけるクラスターの平方和と分母におけるクラスター内の平方和の間の比率であるため、指数の値が大きいクラスターソリューションは、より小さい値のクラスターソリューションよりも「優れた」ソリューションに相当します。

このツールの出力は、ブートストラップレ再現の全体でクラスターの数が異なる場合の2つの統計情報の分布に関する情報です。情報は、2つの箱ひげ図(調整されたランドインデックスとCalinski-Harabasz指数のそれぞれ1つ)と2つの測定の要約統計量を介して伝達されます。各測定に基づくクラスターの好ましい数は、比較されるソリューションの最高平均および中央値を有するものに相当します。さらに、ブートストラップにわたって計算された統計量の分散があまり大きくないことが望ましいと言えます。

このツールは計算を大量に使用します。強度には、計算で使用されるレコードの数サブセット式オプションを使用して変更可能)、調べたさまざまなクラスター化ソリューションの数(クラスターの最小数と最大数の間の範囲で決定)、数ブートストラップ(再現の数、および各クラスターソリューションに使用される異なる開始シードの数(開始シードオプションの数)が含まれます。使用するブートストラップの再現数を減らすと、必要なコンピュータ時間が大幅に削減されますが、コストは非常に高くなります。実際の分析のために、ユーザーが100未満のブートストラップ再現を絶対に使用せず、できればもっと多く使用することを強くお勧めします。

このツールはRツールを使用します。[オプション] > [予測ツールのダウンロード] に移動し、Alteryx のダウンロードとライセンスのポータルにサインインして、R とR ツールで使用するパッケージをインストールします。参照: 予測ツールのダウンロードとご使用

ツール設定

構成タブ

  1. フィールド (2 つ以上を選択): クラスタソリューションの構築に使用する数値フィールドを選択します。
  2. フィールドを標準化する..: Z スコアまたは単位間隔標準化を使用して変数を標準化する場合は、このオプションを選択します。
    • z スコア変換では、フィールドの値から各フィールドの平均値を減算し、フィールドの標準偏差で除算します。この結果、平均値が 0、標準偏差が 1 の新しいフィールドが作成されます。
    • 単位間隔変換では、フィールド値からフィールドの最小値を減算してから、フィールドの最大値と最小数の差で除算を行います。これにより、0から1の範囲の値を持つ新しいフィールドが作成されます。クラスター化ソリューションは、特にあるフィールドが別のフィールドと非常に異なるスケールにある場合、データのスケーリングに対して非常に敏感です。その結果、データのスケーリングは何か考慮すべきものとなります。
  3. クラスタリング方式: K-MeansK-中央値またはニューラルガスのいずれかを選択します。
  4. クラスタの最小数: ソリューションで考慮するクラスタの最小数を選択します。
  5. [クラスタの最大数]: ソリューションで考慮するクラスタの最大数を選択します。
  6. ブートストラップ・レプリケーション: 2 つのインデックスの計算に使用するブートストラップ・レプリケーションの数。可能な値は50〜200です。
  7. 開始シード数: K-Centroidsメソッドは、最初の中心としてランダムに選択された点を取ることから始まります。各メソッドによって決定される最終的なソリューションは、初期ポイントによって影響を受けることがあります。複数の開始シードを使用する場合、一連のソリューションの中から最良のソリューションを最終的なソリューションとして保持します。

[グラフィック オプション] タブ

[グラフィックス オプション]タブを使用して、出力のコントロールを設定します。

  • [印刷サイズ]: グラフのサイズに対してインチまたはセンチメートルを選択します。
  • グラフ解像度: 1x (96 dpi) 、2x (192 dpi)、または3x (288 dpi) の点/インチでグラフの解像度を選択します。2x (192 dpi)
    • 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。
    • 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
  • 基本フォントサイズ (ポイント): グラフ内のフォントのサイズを選択します。

*-ERR:REF-NOT-FOUND-en.wikipedia.org/wiki/Rand_index

Was This Helpful?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support.