
ファジーマッチツール
ツールごとに学習
ファジーマッチには、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、Alteryx Designer でこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。
ファジーマッチツールは、一致フィールドと類似性のしきい値を指定することによって、データセットの完全一致ではない重複を検出します。一致スコアは、構成プロパティで設定されたユーザー指定のしきい値またはデフォルトのしきい値内に収まることのみが必要です。
ファジーマッチを構築する最も効果的な方法は、入力ファイル内の複数のフィールドに対して一致処理を実行することです。各フィールドは、事前定義またはカスタムの一致スタイルを使用して、ファジーマッチ編集一致オプションを通して個別に設定する必要があります。
ファジーマッチングはラテン語と日本語文字セットでのみ機能し、一致機能の一部は英語または日本語とのみ互換性があります。あいまい一致は、半角と全角の文字、ひらがなとカタカナ、仮名の修飾語、漢字の旧字体など、日本語の仮名遣いにおけるさまざまな差異を考慮しています。
ツールの設定
ファジーマッチツールを使用するには、各データレコードでユニークな識別子が必要です。自分のデータを検査します。そのようなキーフィールドがない場合は、レコード ID ツールを 1 ステップ上流に追加します。
- 好ましい一致モードを選択します:
- パージモード (すべてのレコードを比較): 単一の情報源のすべてのレコードを比較して重複を特定します。
- マージモード (異なる情報源のレコードのみを比較): 異なる情報源のレコードを比較し、異なる入力ファイル間の重複を特定します。マージモードを使用する場合は、各情報源にソース ID フィールドが必要です。ソース ID フィールドは、各データ入力ツール内の [フィールドとしての出力ファイル名] オプションを選択することで簡単に追加できます。この設定は、各レコードにファイル名またはファイルパス全体のいずれかが付いたフィールドを追加します。
- ユニークなレコード ID フィールドを指定します。
- [一致しきい値] をパーセントで指定します。既定値は80%です。ファジーマッチツールから生成された一致スコアが指定したしきい値よりも小さい場合、そのレコードは一致と認められません。一致スコアでは、ファジーマッチツールの構成プロパティ内の各仕様を考慮します。各フィールド、一致スタイル、一致重み、結果のフィールド一致スコアがスコア計算に使用され、その後、指定された一致しきい値と比較されます。
- 一致フィールドを設定します。上矢印と下矢印を使用して、一致の順に並べ替えます。[削除] を使用して、不要な一致を削除します。
- 一致させるフィールド名を選択します。すでに入力接続にあるフィールドは、このドロップダウンリストから使用可能になります。
- ドロップダウンリストから一致スタイルを選択します。選択肢には次が含まれます:
- 住所: アドレスの一致を見つけるように構成された事前定義の一致スタイル。このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせた Double Metaphone アルゴリズムを組み込んでいます。商用アドレスにこのスタイルを適用します。
- 住所 (英語) スイート番号なし: 入力データにアドレス情報フィールドのスイート情報がない場合に、アドレスを見つけるように構成された事前定義の一致スタイル。このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせた Double Metaphone アルゴリズムを組み込んでいます。住宅のアドレスにこのスタイルを適用します。
- 住所 (英語) 部分一致: アドレスの一致を見つけるように構成された事前定義の一致スタイル。このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせた Double Metaphone アルゴリズムを組み込んでいます。住所 (英語) 部分一致は、単語度数分析を使用せず、一致しきい値が5%低いという点で従来のアドレス一致スタイルと異なります。
- 会社名: 会社名の一致を見つけるように構成された事前定義の一致スタイル。このスタイルは、Double Metaphone アルゴリズムに基づく一致を識別します。
- 電話: 電話番号の一致を見つけるように構成された事前定義の一致スタイル。このスタイルでは、フィールドに含まれる可能性のあるダッシュ、括弧および先頭の 1 を無視して、電話フィールドの数字だけを見て、後ろの 10 桁に一致させます。この形式は、日本語の電話番号形式もサポートしています。
- 郵便番号: 郵便番号 (ZIP Code) の一致を見つけるように構成された事前定義の一致スタイル。このスタイルでは、ZIPフィールドの5桁を見て、それに応じて一致を割り当てます。
- 完全一致: このフィールドは、一致と見なされるには厳密に一致する必要があります。このロジックはまったくファジーではありません。
-
日本語の住所: 住所の一致を検索するために設定された、定義済みの一致スタイルで、さまざまな番地形式が含まれます。一致の例: 今津3-14-19、今津3丁目14番地19。
-
日本語の会社名: 日本語の会社名の一致を見つけるように構成された事前定義の一致スタイル。一致の例: 株式会社伊藤工務店、(株)伊東工務店、㈱伊藤工務店。
-
日本語の名前: 日本語の人名の一致を見つけるように構成された事前定義の一致スタイル。一致の例: 高橋 啓介、髙橋啓介.
-
日本語テキスト: [住所]、[会社名]、[名前] オプション以外の日本語テキストの定義済みの一致スタイルです。一致の例: 6ヵ月、6ヶ月。
- 名前: 名前の一致を見つけるように構成された事前定義の一致スタイル。このスタイルには、Double Metaphone アルゴリズムが組み込まれています。
- ニックネームを含む名前: 名前の一致を見つけるように構成された事前定義の一致スタイル。このスタイルには、Double Metaphone アルゴリズムが組み込まれています。さらにこのスタイルでは、ニックネームテーブルを利用して、重複をさらに識別します。例えば、Andrewという名前はAndyおよび/またはDrewの名前と一致します。
- カスタム: 一致プロパティを再構成する必要なく繰り返し実行できるように、ユーザーが独自の一致パラメーターを定義できるようにします。もちろん、これらのカスタム一致スタイルを再構成したり、上書きしたり、新しいカスタムスタイルを作成したりすることもできます。
- [編集...] ボタンを使用し、必要に応じて一致スタイルを編集します。[一致オプションの編集] ダイアログが表示されます。
- 詳細オプションを指定します。
- 一致スコアを出力: 一致スコアは、追加の出力フィールドに表示されます。
- 生成されたキーを出力: 結果の一致スタイルのキーを追加フィールドとして出力します。
- 一致しないレコードを出力: 他のレコードと一致しないレコードは追加レコードとして出力されます。場合によっては、不一致レコードの出力が一致スコアを報告することがありますが、これは無視してください。これは、将来のリリースで対処される見込みです。一致オプションの編集の空の場合は無視オプションが、このオプションより優先されます。
- すでにグループにある行を比較しない: 一致したレコードは他のレコードと比較されることはなく、処理の労力と時間が削減されます。例えば、レコード 1 がレコード 2 とレコード 3 に一致すると、レコード 2 はレコード 3 と一致しません。グループ作成ツールを使用して、これらのグループを互いにリンクさせます。
- キーのみを生成する: すべてのレコードは、生成されたキーとともに追加のフィールドとして返されます。マッチングは行われません。
ファジーマッチの使用に関する追加の情報については、ファジーマッチ FAQ を参照してください。