ファジーマッチツール
ファジーマッチングツールは、一致フィールドと類似性のしきい値を指定することによって、データセットの同一でない重複を識別できます。 一致スコアは、構成プロパティで設定されたユーザー指定のしきい値またはデフォルトのしきい値内に収まることのみが必要です。
ファジーマッチを構築する最も効果的な方法は、入力ファイル内の複数のフィールドに対して一致処理を実行することです。 各フィールドは、定義済みまたはカスタムのマッチスタイルを使用して個別に設定する必要があります。 ファジーマッチ編集一致オプション 。
ファジーマッチングはラテン語文字セットでのみ機能し、一致機能の一部は英語とのみ互換性があります。
ツールを設定する
ファジーマッチツールを使用するには、各データレコードでユニークな識別子が必要です。 データを検査します。このようなキーフィールドがない場合は、 レコード ID ツール 一歩上流に。
-
好ましい一致モードを選択します:
- パージモード (すべてのレコードを比較): 単一のソースからのすべてのレコードが重複を識別するために比較されます。
-
マージモード (別のソースからのレコードのみが比較されます): 異なるソースのレコードが比較され、異なる入力ファイル間で重複を識別することを目的としています。
マージモードを使用する場合、各ソースにはソース ID フィールドが含まれている必要があります。 ソース ID フィールドを簡単に追加するには、各入力データツール内で[出力ファイル名] フィールドオプションを選択します。 この設定は、各レコードにファイル名またはファイルパス全体のいずれかが付いたフィールドを追加します。
- [一意のレコード ID] フィールドを指定します。
-
一致のしきい値をパーセンテージで指定します。 デフォルト値は80%です。 ファジーマッチツールから生成された一致スコアが指定したしきい値よりも小さい場合、そのレコードは一致と認められません。
マッチスコアは、あいまい一致ツールの構成プロパティ内の各仕様を考慮します: 各フィールド、マッチスタイル、マッチウェイト、および結果のフィールドマッチスコアは、スコアを計算する際に考慮されます。指定された一致のしきい値。
- マッチフィールドを設定します。 上下を使用し て、マッチングの順序でそれらを配置します。 削除を使用して不要一致を削除します。
- 一致させるフィールド名を選択します。 すでに入力接続にあるフィールドは、このドロップダウンリストから使用可能になります。
ドロップダウンリストからマッチスタイルを選択します。 選択肢には次が含まれます:
アドレス: アドレスの一致を検索するように構成された定義済みの一致スタイル。 このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。
商用アドレスにこのスタイルを適用する
[アドレスなし]: アドレスを検索するように構成された定義済みの一致スタイルは、入力データに [アドレス] フィールドにスイート情報がない場合に一致します。 このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。
住宅のアドレスにこのスタイルを適用する
- AddressPart: アドレス一致を検索するように構成された定義済みのマッチスタイル。 このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。 AddressPartは、単語度数分析を使用せず、一致しきい値が5%低いという点で従来のアドレス一致スタイルと異なります。
- 会社名: 会社名の一致を検索するように構成された定義済みの一致スタイル。 このスタイルは、ダブルメタフォンアルゴリズムに基づく一致を識別します。
- 電話番号: 電話の一致を検索するように構成された定義済みの一致スタイル。 このスタイルでは、フィールド内に含まれる可能性のあるダッシュ、括弧および先頭の1を無視して、電話フィールドの数字だけを見て、後ろの10桁に一致させます。
- 郵便番号: zip コードと一致するように構成された定義済みのマッチスタイル。 このスタイルでは、ZIPフィールドの5桁を見て、それに応じて一致を割り当てます。
- 正確: このフィールドは一致と見なすために正確に一致する必要があります。 このロジックはまったくファジーではありません。
- name: 名前の一致を検索するように構成された定義済みのマッチスタイル。 このスタイルには、ダブルメタフォンアルゴリズムが組み込まれています。
ニックネーム付きの名前: 名前の一致を検索するように構成された定義済みのマッチスタイル。 このスタイルには、ダブルメタフォンアルゴリズムが組み込まれています。 さらにこのスタイルでは、チェックするためのニックネームテーブルを利用して、重複をさらに識別します。
名前アンドリューアンディと一致することがあります/またはドリュー。- カスタム: 一致プロパティを再構成しなくても、一致を繰り返し実行できるように、ユーザーが独自の一致パラメーターを定義できます。 もちろん、これらのカスタム一致スタイルを再構成したり、上書きしたり、新しいカスタムスタイルを作成したりすることもできます。
- 必要に応じて、[編集] ボタンをクリックして、一致スタイルを編集します。 は、 ファジーマッチ編集一致オプション ダイアログが表示されます。
-
詳細オプションを指定します。
- 出力マッチスコア: マッチスコアは追加出力フィールドに表示されます。
- 出力されたキー: 結果のマッチスタイルからキーを追加フィールドとして出力します。
- 不一致レコードの出力: 他のレコードと一致しないレコードは、追加のレコードとして出力されます。 場合によっては、不一致レコードの出力が一致スコアを報告することがありますが、これは無視される必要があります。 これは、将来のリリースで対処することができます。
-
既にグループ内のレコードを比較しない: 一致したレコードは、他のレコードと比較されず、処理工数と時間を削減します。
レコード1がレコード2とレコード3に一致すると、レコード2はレコード3と一致しません。 グループ作成ツールを使用して、これらのグループを互いにリンクさせます。 - キーのみを生成: 生成されたキーを追加フィールドとしてすべてのレコードが返されます。 マッチングは行われません。
[一致の編集] オプションの [空の場合は無視] オプションは、このオプションより優先されます。
あいまい一致の使用に関する追加情報については、 ファジーマッチFAQ。