ファジーマッチFAQ
次のトピックは、ファジー マッチ ツールおよび関連するファジー マッチ 編集一致オプションに関連する一般的な質問です。
この質問に対する標準的な答えはありません。レコード間で異なる必要があり、そのレコードがユニークである可能性があることを示すマッチングフィールドを考慮します。例えば、標準の連絡先データベースでは、名前、アドレス、電話番号でユニークな人物を識別する必要があります。多くの人が同じ都市と州を持つことができるので、これらが持つ意味は小さくなります。
複数のフィールドを使用することと、マッチングプロセスで考慮する各フィールドにどれだけの重要度や重みを与えるかの関係を理解することは重要です。例えば、名前はアドレスやZIPほど重要でないかもしれないので、名前にアドレスとZIPより小さい重みを付けると、アドレスとZIPが正確である場合により多くの一致が得られる可能性がありますが、名前は正確な一致よりも低くスコアリングされています。
パージ モード (すべてのレコード比較) は、個々のデータセット内の一致と、2 つのデータセット間の一致を検索します。1つのデータセットに対してパージモードを使用して、データベースから重複を削除したり、重複除外を行ったりすることができます。これは、2データベースのマージが実行される前の準備段階です。
マージ (異なるソースのレコードのみが比較されます) は、2つの異なるデータ ソースのレコードを比較します。マージを選択すると、2つのデータセット間の一致のみが検出されます。
Mergeモードを使用する前にデータベースを重複除外を行う必要があります。
- マージモードでは、同じソース内の重複レコードは検出されません。
- 一致プロセスは、重複レコードなしではより速くなります。
データセット1には5つの重複があります。データセット2には10つあります。これらの重複をパージせずにマージを実行すると、一致が50個の一致ペアをチェックします。重複がパージされると、マッチは1つの一致ペアをチェックします。
ファジーマッチツールは、識別子(ID)を使用して、1つのファイルから別のファイルに、または1つのファイル内の1つの行から別の行に一致をラベル付けします。ツールはIDを使用して、どのレコードが一致するかを報告します。
IDは、ツールからの正確な出力を保証するために、異なるデータセットのレコードを含む各レコードごとにユニークである必要があります。以下のユニークなIDのベストプラクティスを順守してください:
- 各レコードID列の必要な開始値をよりよく理解するために、データセットのサイズを把握します。
- 両方のデータセットストリームにレコードIDツールを追加します。
- 異なるデータセットストリームの "開始値" を互いにいくつか大きさを変えて設定して、すべてのレコードにユニークな値が割り当てられていることを確認します。
ベストプラクティス
マスターファイルのレコードIDツールの初期値として100000000を、顧客ファイルの初期値として200000000を割り当てます。このプラクティスを一貫して使用すると、一致レコードのソースを簡単に特定できます。
パージモードでは、レコードID1とレコードID2のデータは、データセットの行識別子です。
マージモードでは、レコードID1とレコードID2は一致したIDに対応し、各データセットから1つです。異なる大きさの開始値でレコードIDを設定すると、どのデータセットが参照されているかをより簡単に認識できます。
レコードID1は、2つのIDが英数字でソートされている場合、常に一致するペアの "最初の" 値です。
ファジーマッチの一致ペアIDは、行ごとに英数字でソートされます。数値レコードIDフィールドはレコードID1をレコードID2にそれぞれ最小から最大にソートしますが、文字列レコードIDは予期しない方法でソートできます。
レコード101はレコード11と一致します。フィールドが数値として格納されている場合、レコードID1は11に、またレコードID2は101になります。フィールドが文字列として格納されている場合、レコードID1は101に、またレコードID2は11になります。
数値レコードIDフィールドに切り替えるか、先頭にレコードIDが付いている文字列がレコード間で標準化された形式を持っていることを確認してください。
ほとんどのアドレス一致シナリオでは、アドレスデータベースにデータが一貫して格納されていますが、都市と州のフィールドはマッチングでは必要ありません。 名前、住所、および郵便番号は、より一般的に使用される一致スタイルオプションです。データを調べて、都市または州のフィールドが適切かどうかを判断します。
次の場合は、ダブル メタフォンを使用します。
- 都市と州のフィールドは省略形ではありません。
- フィールドにスペルミスが含まれている可能性があります。
フィールド全体またはフィールド全体を使用する - 大文字と小文字を区別しない場合:
- 州のフィールドは省略形であり、完全一致が必要です。
より粒度が細い一致のプロセスに移行する場合は、通常、完全一致が必要です。
多くのアドレス一致シナリオでは、スイートのフィールドはマッチングでは必要ありません。 名前、住所、および郵便番号は、より一般的に使用される一致スタイルオプションです。データを調べて、スイートのフィールドが適切かどうかを判断します。
ダブル メタフォン w/Digitsは、アドレスにスイート番号が含まれているかどうかにかかわらず、任意のアドレス フィールドに適した一致スタイルです。また、[前処理]の [米国の住所から単位を削除] オプションの[ストリップ句読点と単位の削除]オプションの使用も検討してください。
ほとんどの場合、名前フィールドを個々のコンポーネントフィールドに解析する必要はないので、より良い一致が得られることはありません。Soundex アルゴリズムを使用して、各 Word のキーの生成オプションを使用して、名前フィールド キーを生成します。これは、単語の順序が考慮されないので "Cindy Smith" または "Smith, Cindy" の両方が一致と見なされることを確実にします。
名前フィールドを解析すると、各値に異なる重みを付けるときに便利です。
Rosey SmithがR Smithと一致するために、ラストネームは80%で重み付けされ、ファーストネームは20%で重み付けされます。
編集中... > 前処理、ストリップ句読点とあいさつ文を使用して、一致を実行している間にこれらの単語を無視します。