Kセントロイド診断ツール
Kセントロイド診断ツールは、ユーザーが所定のデータと選択されたクラスタリングアルゴリズム(K平均、K中央値、またはニューラルガス)を指定して、適切なクラスタ数の評価を行えるように設計されています。 このツールはグラフィカルで、指定されたクラスタ数が異なるクラスタリングソリューションの範囲について、元のデータのブートストラップ複製サンプルに対する2つの異なる統計を計算することに基づいています。 このアプローチの背後にある動機は、データベース内のレコードが本当に安定した一連のクラスターに分類される場合、ランダムサンプルの変動性と、一般的なKセントロイドアルゴリズムにおいて、ランダムにKポイントを選択することによって、重心の開始セットの生成に使用されるメソッドによって誘導されるランダム性との小さな差異を除けば、それらのレコードの異なる一連のランダムサンプルが、ブートストラップ再現全体におよぶクラスターのセットになるはずです。 調査された2つの測定は、調整されたRand指数とCalinski-Harabasz指数(分散比基準と擬似F統計量とも呼ばれる)です。
調整されたRand指数は、2つの異なるクラスタリングソリューション間の類似性の尺度を提供し、2つのクラスタリングソリューションが完全に重複する場合、最大値を1にします。*指数は、ソリューションのペアを比較することによってクラスタリングソリューションの相対的および絶対的再現性を決定するために使用でき、各ペアは顧客データの異なるサンプルに基づいています。 ソリューションのペアの間の重なりが大きいほど、クラスター構造の再現性は必然的に高くなります。
Calinski-Harabasz指数は、クラスターの平方和(クラスター分離の測定)とクラスター内の平方和(クラスター内のポイントがどれくらい詰まっているかを示す測定)の間の加重比率を比較することに基づいています。 理想的には、クラスターは十分に分離されている必要があるため、クラスター間の二乗和の値は大きくなければならず、クラスター内のポイントは可能な限り近くになければなりません。 Calinski-Harabasz指数は、分子におけるクラスターの平方和と分母におけるクラスター内の平方和の間の比率であるため、指数の値が大きいクラスターソリューションは、より小さい値のクラスターソリューションよりも「優れた」ソリューションに相当します。
このツールの出力は、ブートストラップレ再現の全体でクラスターの数が異なる場合の2つの統計情報の分布に関する情報です。 情報は、2つの箱ひげ図(調整されたランドインデックスとCalinski-Harabasz指数のそれぞれ1つ)と2つの測定の要約統計量を介して伝達されます。 各測定に基づくクラスターの好ましい数は、比較されるソリューションの最高平均および中央値を有するものに相当します。 さらに、ブートストラップにわたって計算された統計量の分散があまり大きくないことが望ましいと言えます。
このツールは計算を大量に使用します。 強度には、計算で使用されるレコードの数サブセット式オプションを使用して変更可能)、調べたさまざまなクラスター化ソリューションの数(クラスターの最小数と最大数の間の範囲で決定)、数ブートストラップ(再現の数、および各クラスターソリューションに使用される異なる開始シードの数(開始シードオプションの数)が含まれます。 使用するブートストラップの再現数を減らすと、必要なコンピュータ時間が大幅に削減されますが、コストは非常に高くなります。 実際の分析のために、ユーザーが100未満のブートストラップ再現を絶対に使用せず、できればもっと多く使用することを強くお勧めします。
このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード ] に進み、 Alteryxダウンロード/ライセンスポータル R とパッケージをインストールするには、 Rツール。
ツールを設定する
- フィールド (2 つ以上を選択): クラスタソリューションの構築に使用する数値フィールドを選択します。
- フィールドを標準化する...: このオプションを選択すると、z スコアまたは単位間隔の標準化のいずれかを使用して、変数を標準化する選択肢が与えられます。
- z スコア変換では、フィールドの値から各フィールドの平均値を減算し、フィールドの標準偏差で除算します。 この結果、平均値がゼロで標準偏差が1の新しいフィールドが作成されます。
- 単位間隔変換では、フィールド値からフィールドの最小値を減算してから、フィールドの最大値と最小数の差で除算を行います。 これにより、0から1の範囲の値を持つ新しいフィールドが作成されます。 クラスター化ソリューションは、特にあるフィールドが別のフィールドと非常に異なるスケールにある場合、データのスケーリングに対して非常に敏感です。 その結果、データのスケーリングは何か考慮すべきものとなります。
- クラスタリング方法: k-平均、k-母集団、または神経ガス のいずれかを選択します。
- クラスタの最小数: ソリューションで考慮するクラスタの最小数を選択します。
- [クラスタの最大数]: ソリューションで考慮するクラスタの最大数を選択します。
- ブートストラップ・レプリケーション: 2 つのインデックスの計算に使用するブートストラップ・レプリケーションの数。 可能な値は50〜200です。
- 開始種子の数: 重心のメソッドは、最初の重心としてランダムに選択した点を取ることによって開始されます。 各メソッドによって決定される最終的なソリューションは、初期ポイントによって影響を受けることがあります。 複数の開始シードを使用する場合、一連のソリューションの中から最良のソリューションを最終的なソリューションとして保持します。