Purple box with two similar shapes and equals signs between.

ファジーマッチツール

バージョン:
2022.1
Last modified: February 14, 2022

ツールごとに学習

ファジーマッチには、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、Alteryx Designer でこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。

ファジーマッチツールは、一致フィールドと類似性のしきい値を指定することによって、データセットの完全一致ではない重複を検出します。一致スコアは、構成プロパティで設定されたユーザー指定のしきい値または既定のしきい値内に収まることのみが必要です。

ファジーマッチを構築する最も効果的な方法は、入力ファイル内の複数のフィールドに対して一致処理を実行することです。各フィールドは、事前定義またはカスタムの一致スタイルを使用して、ファジーマッチ編集一致オプションを通して個別に設定する必要があります。

ファジーマッチングはラテン語文字セットでのみ機能し、一致機能の一部は英語とのみ互換性があります。

ツールの設定

ファジーマッチツールを使用するには、各データレコードで固有識別子が必要です。自分のデータを検査します。そのようなキーフィールドがない場合は、レコード ID ツールを 1 ステップ上流に追加します。

  1. 好ましい一致モードを選択します:
    • パージモード (すべてのレコードを比較): 単一の情報源のすべてのレコードを比較して重複を特定します。
    • マージモード (異なる情報源のレコードのみを比較): 異なる情報源のレコードを比較し、異なる入力ファイル間の重複を特定します。マージモードを使用する場合は、各情報源にソース ID フィールドが必要です。ソース ID フィールドは、各データ入力ツール内の [フィールドとしての出力ファイル名] オプションを選択することで簡単に追加できます。この設定は、各レコードにファイル名またはファイルパス全体のいずれかが付いたフィールドを追加します。
  2. ユニークなレコード ID フィールドを指定します。
  3. [一致しきい値] をパーセントで指定します。既定値は80%です。ファジーマッチツールから生成された一致スコアが指定したしきい値よりも小さい場合、そのレコードは一致と認められません。一致スコアでは、ファジーマッチツールの構成プロパティ内の各仕様を考慮します。各フィールド、一致スタイル、一致重み、結果のフィールド一致スコアがスコア計算に使用され、その後、指定された一致しきい値と比較されます。
  4. 一致フィールドを設定します。上矢印下矢印を使用して、一致の順に並べ替えます。[削除] を使用して、不要な一致を削除します。
    1. 一致させるフィールド名を選択します。すでに入力接続にあるフィールドは、このドロップダウンリストから使用可能になります。
    2. ドロップダウンリストから一致スタイルを選択します。選択肢には次が含まれます:
      • Address No Suite: アドレスの一致を見つけるように構成された事前定義の一致スタイル。このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。商用アドレスにこのスタイルを適用します。
      • Address No Suite: 入力データにアドレス情報フィールドのスイート情報がない場合に、アドレスを見つけるように構成された事前定義の一致スタイル。このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。住宅のアドレスにこのスタイルを適用します。
      • AddressPart: アドレスの一致を見つけるように構成された事前定義の一致スタイル。このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。AddressPartは、単語度数分析を使用せず、一致しきい値が5%低いという点で従来のアドレス一致スタイルと異なります。
      • Company Name: 会社名の一致を見つけるように構成された事前定義の一致スタイル。このスタイルは、ダブルメタフォンアルゴリズムに基づく一致を識別します。
      • Phone: 電話の一致を見つけるように構成された事前定義の一致スタイル。このスタイルでは、フィールド内に含まれる可能性のあるダッシュ、括弧および先頭の 1 を無視して、電話フィールドの数字だけを見て、後ろの 10 桁に一致させます。
      • ZIP Code: 郵便番号の一致を見つけるように構成された事前定義の一致スタイル。このスタイルでは、ZIPフィールドの5桁を見て、それに応じて一致を割り当てます。
      • Exact: このフィールドは、一致と見なされるには厳密に一致する必要があります。このロジックはまったくファジーではありません。
      • Name: 名前の一致を見つけるように構成された事前定義の一致スタイル。このスタイルには、ダブルメタフォンアルゴリズムが組み込まれています。
      • Name w/ Nicknames: 名前の一致を見つけるように構成された事前定義の一致スタイル。このスタイルには、ダブルメタフォンアルゴリズムが組み込まれています。さらにこのスタイルでは、チェックするためのニックネームテーブルを利用して、重複をさらに識別します。例えば、Andrewという名前はAndyおよび/またはDrewの名前と一致します。
      • Custom: 一致プロパティを再構成する必要なく繰り返し実行できるように、ユーザーが独自の一致パラメーターを定義できるようにします。もちろん、これらのカスタム一致スタイルを再構成したり、上書きしたり、新しいカスタムスタイルを作成したりすることもできます。
    3. [編集...] ボタンを使用し、必要に応じて一致スタイルを編集します。[一致オプションの編集] ダイアログが表示されます。
  5. 詳細オプションを指定します。
    • 一致スコアを出力: 一致スコアは、追加の出力フィールドに表示されます。
    • 生成されたキーを出力: 結果の一致スタイルのキーを追加フィールドとして出力します。
    • 一致しないレコードを出力: 他のレコードと一致しないレコードは追加レコードとして出力されます。場合によっては、不一致レコードの出力が一致スコアを報告することがありますが、これは無視される必要があります。これは、将来のリリースで対処される可能性があります。一致オプションの編集空の場合は無視オプションが、このオプションより優先されます。
    • すでにグループにある行を比較しない: 一致したレコードは他のレコードと比較されることはなく、処理の労力と時間が削減されます。例えば、レコード 1 がレコード 2 とレコード 3 に一致すると、レコード 2 はレコード 3 と一致しません。グループ作成ツールを使用して、これらのグループを互いにリンクさせます。
    • キーのみを生成する: すべてのレコードは、生成されたキーとともに追加のフィールドとして返されます。マッチングは行われません。

ファジーマッチの使用に関する追加の情報については、ファジーマッチ FAQ を参照してください。

このページは役に立ちましたか?

Alteryx 製品のご利用中に何か問題がございましたら、Alteryx コミュニティにアクセスするか、サポートにお問い合わせください。このフォームを送信できない場合E メールでお送りください。