Purple box with two similar shapes and equals signs between.

ファジーマッチツール

バージョン:
2021.3
Last modified: September 25, 2020

あいまい一致ツールを使用して、一致フィールドと類似性しきい値を指定して、データセットの重複を識別します。 一致スコアは、構成プロパティで設定されたユーザー指定のしきい値またはデフォルトのしきい値内に収まることのみが必要です。

ファジーマッチを構築する最も効果的な方法は、入力ファイル内の複数のフィールドに対して一致処理を実行することです。 各フィールドは、事前定義またはカスタムのマッチ スタイルを使用して個別に構成する必要があります。

あいまい一致はラテン文字セットでのみ機能し、一部のマッチング機能は英語とのみ互換性があります。

ツール設定

ファジーマッチツールを使用するには、各データレコードでユニークな識別子が必要です。 データを検査する - そのようなキー フィールドがない場合は、 レコード ID ツール を 1 ステップアップストリームに追加します。

  1. 好ましい一致モードを選択します:
    • パージ モード (すべてのレコードの比較):1 つのソースからのすべてのレコードが比較され、重複が識別されます。
    • マージモード(異なるソースからのレコードのみが比較されます):異なるソースからのレコードが比較され、異なる入力ファイル間で重複を識別する意図があります。 マージ モードを使用する場合、各ソースには ソース ID フィールド が含まれている必要があります。 ソース ID フィールドは、各入力データ ツールで [ フィールドとして出力ファイル名 ] オプションを選択することで簡単に追加できます。 この設定は、各レコードにファイル名またはファイルパス全体のいずれかが付いたフィールドを追加します。
  2. 一意の レコード ID フィールドを指定します。
  3. [一致しきい値]をパーセントで指定します。 デフォルト値は80%です。 ファジーマッチツールから生成された一致スコアが指定したしきい値よりも小さい場合、そのレコードは一致と認められません。 マッチスコアは、あいまい一致ツールの構成プロパティ内の各仕様を考慮します: 各フィールド、マッチスタイル、マッチウェイト、および結果のフィールドマッチスコアは、スコアを計算する際に考慮されます。指定された一致のしきい値。
  4. [フィールドの対応付け]を設定します。上下を使用して、マッチングの順序で並べ替えます。 不要な一致を削除するには 、[削除] を使用します。
    1. 照合する フィールド名 を選択します。 入力接続に既に存在するフィールドは、このドロップダウン リストから使用できます。
    2. ドロップダウン リストから [マッチ スタイル ] を選択します。 選択肢には次が含まれます:
      • アドレス: アドレス一致を検索するように設定された定義済みの一致スタイル。 このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。 このスタイルを [商業アドレス] に適用します。
      • アドレスなし Suite: 入力データに [アドレス] フィールドにスイート情報がない場合に、アドレスの一致を検索するように設定された定義済みの一致スタイル。 このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。 このスタイルを居住地の住所に適用します。
      • AddressPart: アドレス一致を検索するように設定された定義済みの一致スタイル。 このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。 AddressPartは、単語度数分析を使用せず、一致しきい値が5%低いという点で従来のアドレス一致スタイルと異なります。
      • 会社名: 会社名の一致を検索するように構成された定義済みの一致スタイル。 このスタイルは、ダブルメタフォンアルゴリズムに基づく一致を識別します。
      • Phone: 電話一致を検索するように設定された定義済みの一致スタイル。 このスタイルは、電話フィールドの数字のみを検索し、フィールド内に含まれる可能性のあるダッシュ、かっこ、および先行 1 を無視して、逆 10 桁の数字と一致します。
      • 郵便番号: 郵便番号の一致を検索するように設定された定義済みの一致スタイル。 このスタイルでは、ZIPフィールドの5桁を見て、それに応じて一致を割り当てます。
      • Exact: このフィールドは、一致と見なされるためには正確に一致する必要があります。 このロジックはまったくファジーではありません。
      • 名前: 名前の一致を検索するように構成された定義済みの一致スタイル。 このスタイルには、ダブルメタフォンアルゴリズムが組み込まれています。
      • ニックネーム付きの名前: 名前の一致を検索するように構成された定義済みの一致スタイル。 このスタイルには、ダブルメタフォンアルゴリズムが組み込まれています。 さらに、このスタイルは、重複を識別するために、"ニックネーム" テーブルを使用してチェックします。 例えば、Andrewという名前はAndyおよび/またはDrewの名前と一致します。
      • カスタム: ユーザーが独自の一致パラメータを定義できるようにして、一致プロパティを再構成することなく、マッチを繰り返し実行できるようにします。 もちろん、これらのカスタムマッチスタイルは、再構成して上書きしたり、新しいカスタムスタイルを作成することもできます。
    3. 必要に応じて [編集] ボタンを使用して 、マッチ スタイル を編集します。 [ あいまい一致編集の一致オプション] ダイアログ が表示されます。
  5. 詳細オプションの指定 :
    • 出力マッチスコア: マッチスコアは追加の出力フィールドに存在します。
    • 出力生成されたキー: 結果のマッチ スタイルからキーを追加のフィールドとして出力します。
    • [不一致レコードの出力] : 他のレコードと一致しないレコードは、追加のレコードとして出力されます。 場合によっては、不一致レコードの出力が一致スコアを報告することがありますが、これは無視される必要があります。 これは、将来のリリースで対処される可能性があります。 [一致オプションの編集]の [空の場合は無視] オプションがこのオプションより優先されます。
    • グループ内のレコードを比較しない: 一致したレコードは、他のレコードと比較されず、処理作業と時間が短縮されます。 たとえば、レコード 1 がレコード 2 とレコード 3 と一致する場合、レコード 2 はレコード 3 と照合されません。 グループ作成ツールを使用して、これらのグループを互いにリンクさせます。
    • [キーの生成のみ]: 生成されたキーを追加フィールドとして、すべてのレコードが返されます。 マッチングは行われません。

あいまい一致の使用に関する追加情報については、 ファジーマッチに関する FAQ を参照してください。

このページは役に立ちましたか?

Alteryx 製品のご利用中に何か問題がございましたら、Alteryx コミュニティにアクセスするか、サポートにお問い合わせください。このフォームを送信できない場合E メールでお送りください。