最近傍探索ツール

[最近傍探索]ツールはユークリッド距離に基づいて、「クエリ」ストリーム内の各レコードに対応する「データ」ストリーム内の選択された数の最近傍点を見つけます。 この方法は、速度および可能性のある精度の異なる最近傍を見つけるためのアルゴリズムの選択肢をユーザに提供します。 デフォルトでは、速度と精度の一般的に良い組み合わせを持つKD-Treeアルゴリズムに基づいて検索が行われます。 さらに、ユーザには、元のデータを使用した計算を根拠にするか、またはzスコア標準化(すべてのフィールドの平均がゼロで標準偏差が1になる)または単位間隔変換(各フィールドの値が0から1の範囲にある)のいずれかを使用してデータの標準化を行うかという選択肢があります。 ユークリッド距離の計算は、フィールドスケールの違いに非常に敏感であるため(例:未変換世帯収入と年齢データのレベルと範囲が非常に異なるため)、このツールでフィールド標準化を使用することをお勧めします。 このメソッドの性質上、数値フィールドのみを入力として使用できます。 このツールはR FNNパッケージを使用します。

このツールはRツールを使用します。 [オプション] > [予測ツールをダウンロード ] に進み、 Alteryx ダウンロード & ライセンスポータル R と R ツールが使用されるパッケージをインストールするには Rツール。 参照: 予測ツールをダウンロードして使用する

入力を接続する

2つのAlteryxデータストリーム。 右のストリームは、"クエリ" ストリームは、行は、左側のストリーム内の最も近い隣人の選択された数は、"データ" ストリームです。

ツールを設定する

  • 一意キーフィールド: クエリとデータストリーム内のレコード間のリレーションシップを識別するために、このツールに一意のキーが必要です。
  • フィールド (2 つ以上を選択): クラスタソリューションの構築に使用する数値フィールドを選択します。
  • フィールドを標準化する...: このオプションを選択すると、z スコアまたは単位間隔の標準化のいずれかを使用して、フィールドを標準化する選択肢がユーザーに与えられます。
    • z スコアの標準化: z スコア変換では、フィールドの値から各フィールドの平均値を減算し、フィールドの標準偏差で除算します。 この結果、平均値がゼロで標準偏差が1の新しいフィールドが作成されます。
    • 単位間隔の標準化: 単位間隔の変換では、フィールドの値からフィールドの最小値を減算し、そのフィールドの最大値と最小数の差で除算を行います。 これにより、0から1の範囲の値を持つ新しいフィールドが作成されます。 K最近傍計算は、特にあるフィールドが別のフィールドと非常に異なるスケールにある場合、データのスケーリングに対して非常に敏感です。 その結果、データのスケーリングは何か考慮すべきものとなります。
  • 検索する近傍の近隣の数: 既定値と最小数は、近隣の近くに1つ (最も近い) です。 最大値は100です。
  • 最寄りの隣人を見つけるために使用するアルゴリズム:カバーツリーKD ツリー、vr (Venables とリプリー、2002によって使用される方法)、CR (修正距離メジャーに基づく vr アルゴリズムのバージョン) のいずれかを選択し、線形検索 (クエリストリーム内の各ポイント間の距離を、データストリーム内のすべてのポイントに対して計算する必要があります。 このメソッドは、計算時間と精度が異なります。 デフォルトのアルゴリズムはKD-Treeで、一般的には計算時間と精度の両方で優れています。 線形探索は真の最近傍を見つけることが保証されますが、計算コストは​​非常に高いものとなります。

出力を見る

  • Nアンカー: クエリストリーム内の各ポイントに対して、一意のキー値と近くの近傍の数への距離を与えるテーブルで構成されます (クエリストリーム内の各レコードの一意キーによって識別されます)。 望ましい近傍の数が2であり、ユニークなキーフィールド名がIDであれば、この出力データストリームはフィールドID、ID_1(最近傍のためのユニークキー)、Dist_1(最近傍のユニークなキー)、ID_2(2番目の最近傍のユニークキー)、Dist_2(2番目の最近傍までのユークリッド距離)を持ちます。
  • Mアンカー: 一意のキーフィールド、標準化されたデータ値、およびデータストリームとクエリの両方のレコードのデータまたはクエリストリームにレコードがあるかどうかのインジケーター (__Type__ フィールド) を提供します。

*en.wikipedia.org/wiki/Cover_tree *
*en.wikipedia.org/wiki/K-d_tree * * *
Venables、w. n. とリプリー、b. d. (2002)、現代の応用統計の S、第4版、ベルリンで は、。