Fuzzy Match tool icon

ファジーマッチツール

Last modified: February 02, 2022

ドキュメントは、Designer Cloud のリリース前に入手可能なため、機能などを事前に確認できます。ここに記載されている内容は、公式リリースまでの間に変更になる場合があります。

ツールごとに学習

F検定には、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、Alteryx Designer でこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。

ファジーマッチングツールは、一致フィールドと類似性のしきい値を指定することによって、データセットの同一でない重複を識別できます。一致スコアは、構成プロパティで設定されたユーザー指定のしきい値またはデフォルトのしきい値内に収まることのみが必要です。

ファジーマッチを構築する最も効果的な方法は、入力ファイル内の複数のフィールドに対して一致処理を実行することです。各フィールドは、事前定義またはカスタムの一致スタイルを使用して、 ファジーマッチ編集一致オプションを通して個別に設定する必要があります。

ファジーマッチングはラテン語文字セットでのみ機能し、一致機能の一部は英語とのみ互換性があります。

ツールの設定

ファジーマッチツールを使用するには、各データレコードでユニークな識別子が必要です。自分のデータを検査します;そのようなキーフィールドがない場合は、レコードID ツールを1ステップ上流に追加します。

  1. 優先 する検索方法を選択します。
    • パージする値の検索:単一ソースのすべての行が比較され、重複が特定されます。
    • 異なる入力ファイル間の重複を識別することを目的として、異なるソースからのレコードを比較します。[ 値の検索 ] を使用してマージする場合、ソース ID を持つ列も選択します。 
  2. 一致基準を設定します。
    • ベーシックファジーマッチでは、1 つの列と既定の一致スタイルのみがサポートされています。
    • アドバンストファジーマッチでは、複数の列の一致とカスタム一致のスタイルがサポートされています。このメソッドを使用するには、着信データに一意の行 ID が必要です。この方法は、データのリハイドレーションに使用できます。
      • 一致させるフィールド名を選択します。すでに入力接続にあるフィールドは、このドロップダウンリストから使用可能になります。
      • ドロップダウンリストから一致スタイルを選択します。選択肢には次が含まれます:
        • アドレスの一致を見つけるように構成された事前定義の一致スタイル。このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。商用アドレスにこのスタイルを適用する
        • 入力データにアドレス情報フィールドのスイート情報がない場合に、アドレスを見つけるように構成された事前定義の一致スタイル。このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。住宅のアドレスにこのスタイルを適用する
        • アドレスの一致を見つけるように構成された事前定義の一致スタイル。このスタイルは、一致するアドレスを識別するために数字の一致と組み合わせたダブルメタフォンのアルゴリズムを組み込んでいます。AddressPartは、単語度数分析を使用せず、一致しきい値が5%低いという点で従来のアドレス一致スタイルと異なります。
        • 会社名の一致を見つけるように構成された事前定義の一致スタイル。このスタイルは、ダブルメタフォンアルゴリズムに基づく一致を識別します。
        • [ 完全一致 ]: このフィールドは完全に一致する必要があります。このロジックはまったくファジーではありません。
        • 名前の一致を見つけるように構成された事前定義の一致スタイル。このスタイルには、ダブルメタフォンアルゴリズムが組み込まれています。
        • 名前の一致を見つけるように構成された事前定義の一致スタイル。このスタイルには、ダブルメタフォンアルゴリズムが組み込まれています。さらにこのスタイルでは、チェックするためのニックネームテーブルを利用して、重複をさらに識別します。例えば、Andrewという名前はAndyおよび/またはDrewの名前と一致します。
        • 電話の一致を見つけるように構成された事前定義の一致スタイル。このスタイルでは、フィールド内に含まれる可能性のあるダッシュ、括弧および先頭の1を無視して、電話フィールドの数字だけを見て、後ろの10桁に一致させます。
        • 郵便番号の一致を見つけるように構成された事前定義の一致スタイル。このスタイルでは、ZIPフィールドの5桁を見て、それに応じて一致を割り当てます。
        • 一致プロパティを再構成する必要なく繰り返し実行できるように、ユーザーが独自の一致パラメータを定義できるようにします。もちろん、これらのカスタムマッチスタイルを再設定して上書きすることも、新しいカスタムスタイルを作成することもできます。
      • 必要 に応じて、 [ 編集 ] を使用して一致スタイルを編集します。これにより、 Fuzzy Match Edit Match Options 設定ウィンドウが開きます。
    • 出力オプションを指定します。
      • Match Score追加 の出力列に Match Score が表示されます。一致スコアは、一致する列に対して生成されたパーセンテージです。
      • 結果のマッチスタイルのキーを追加フィールドとして出力します。
      • 一致しない行:他の行と一致しない行は、追加の行として出力されます。場合によっては、不一致レコードの出力が一致スコアを報告することがありますが、これは無視される必要があります。これは、将来のリリースで対処される可能性があります。編集一致オプションの空の場合は無視オプションが、このオプションより優先されます。
    • 高度なオプションを指定する:
      • グループ内の行を比較しない:一致した行は他の行と比較されないため、計算コストと時間が削減されます。たとえば、行 1 が行 2 と行 3 に一致する場合、行 2 は行 3 と照合されません。グループ作成ツールを使用して、これらのグループを互いにリンクさせます。
      • 生成されたキーのみ:生成されたキーを追加の列として、すべての行が返されます。マッチングは行われません。

ファジーマッチの使用に関する追加の情報については、 ファジーマッチFAQを参照してください。 

このページは役に立ちましたか?

Alteryx 製品のご利用中に何か問題がございましたら、Alteryx コミュニティにアクセスするか、サポートにお問い合わせください。このフォームを送信できない場合E メールでお送りください。