ファジーマッチ編集一致オプション
の [編集] ボタンを使用します。 ファジーマッチツール [設定] ウィンドウで、[一致の編集] オプションにアクセスします。
マッチスタイルは、入力ファイルのレコード間の適切な一致を見つけるための所定の方法です。 個々のマッチスタイルの選択肢は、 ファジーマッチツール ページ。
このリストには、定義済みまたはカスタムのユーザー定義一致スタイルが表示されます。 選択した一致スタイルに基づいて、ダイアログボックスの後続の仕様が選択されます。
定義済みの一致スタイルを編集すると、ドロップダウンリストで "カスタム" に変わります。 このカスタム一致スタイルで指定された設定は、ワークフローとともに保存されます。
デフォルトのオプションを削除または編集するのではなく、新しいカスタム一致スタイルを追加します。
マッチスタイルを削除するには、ドロップダウンから選択して [削除 ] をクリックします。 新しい名前を入力して[OK] をクリックすると、マッチスタイルを追加できます。
前処理は、キーの生成とあいまい一致関数の前に実行されるプロシージャを表します。 前処理はより良い一致をもたらすはずです。 このリストの選択肢には以下が含まれます:
- None: 前処理は実行されません。
- 句読点を取り除く: 指定されたデータフィールド内の句読点は、ツールが一致を決定している間は無視されます。
- 句読点 & 礼拝: 指定されたデータフィールド内の "mr"、"MS"、"MRS" などの任意の句読点の文字だけでなく、ツールが一致を決定している間は無視されます。
- 区切り記号 & と、の &: 任意の句読点の文字だけでなく、任意の単語のインスタンス "と" "の" と "" と "の" と、指定されたデータフィールド内の "は、ツールが一致を決定している間は無視されます。
- 句読点の除去と米国からの単位の削除アドレス: 指定されたデータフィールド内の任意の単位番号と同様に、句読点の文字は、ツールが一致を決定している間は無視されます。
前処理の手動編集
前処理は、FuzzyMatchStyles を編集することによってユーザー定義することができます。 このファイルは、Alteryx ランタイムディレクトリ: \Program Files\Alteryx\bin\RuntimeData\FuzzyMatch にあります。 このファイルは、XMLと正規表現に精通したユーザーのみが編集してください。
キーの生成は、潜在的な一致が識別される方法です。
Alteryxは指定されたフィールドを読み込み、そのフィールドのコンポーネントにキーを割り当てます。 すべてのキーが生成されると、Alteryxは各一致フィールドの連結キーを比較します。 生成されたキーが2つのレコードで等しい場合、潜在的な一致が識別され、ペアは一致プロセスの次のフェーズに進みます。 関数の選択肢は次のとおりです:
- None: このフィールドのキーは、一致するレコードを決定するときに考慮されます。
- [桁数のみ]: 指定したフィールドに同じ桁数のレコードのみが一致します。
- 数字のみ-逆: 指定されたフィールドの同じ数字 (最後から最初の順) のレコードのみが照合されます。
- ダブル Metaphone: ダブル Metaphone が推奨されるアルゴリズムです。 英語の単語(および英語の単語で頻繁に聞かれる外国語)を12の子音に減らすことによって音声的に符号化するアルゴリズム。 これにより、誤ったスペルからマッチングの問題が減少します。 ダブルメタフォンは、音に基づいてマッチングするための好ましい方法です。 単語に2つの実行可能な発音がある場合(例えば、外国語の場合)、2つのキーを返します。 詳細については、ダブル Metaphoneを参照してください。
- 二重 Metaphone w/桁: 同じ二重 Metaphone アルゴリズムを使用しますが、同様に数字が含まれています。 文字列に数字がある場合、最初のトークンの数字がキーになります。
-
Soundex: 最初の文字にそれらを減らすことによって、それぞれの数字は6つの子音の音の一つである3桁まで、姓の発音をコード化するアルゴリズム。 これにより、異なるスペルからマッチングの問題が減少します。
このアルゴリズムは、米国国勢調査記録に記録された名前をコードするように考案されました。 標準アルゴリズムはヨーロッパの名前で最も効果的です。 変種は他の文化の名前のために考案されています。 詳細については、Soundex を参照してください。
- Soundex w/桁: 同じ Soundex アルゴリズムを使用しますが、数字も含まれています。 文字列に数字がある場合、最初のトークンの数字がキーになります。
- フィールド全体 (大文字小文字を区別しない): フィールド全体が一致するレコードのみを検索します。 大文字と小文字の区別は無視されます
- 英数字のみ (大文字小文字を区別しない): 英数字のみを検索して一致させます。 大文字と小文字の区別は無視されます
- アドレス番号 + Soundex: 文字列からアドレス番号を削除し、Soundex アルゴリズムをフィールドの残りの部分に適用します。 Soundexコードは、ユニークなキーを作成するためにアドレス番号に追加されます。
1-(303)440-8896は303-440-8896と一致しません。
数字以外の文字は無視されますが、最初のレコードに先頭に1があるため、これらの電話番号は一致しません。
1-(303)440-8896は303-440-8896と一致します。
数字以外の文字は無視され、数字は最後(6)から最初(3または1)まで一致します。 このレコードを一致させるには、先頭の1を無視するために、最大キー長= 10を指定します。
1234 5th St.
"1234" がキーになります。
Alteryxは、一致キーを生成する前に、次の先頭文字と文字の組み合わせを自動的に置き換えます。
先頭文字 | 置換 |
---|---|
AV | AF |
AH | A A |
AW | A A |
CAAN | TAAN |
DG | G |
D | G |
HA | A A |
KN | K |
K | C |
MAC | MC |
M | N |
NST | NS |
PF | F |
PH | F |
Q | G |
SCH | SH |
Z | S |
各単語のキーを生成: 単語ごとに別々のキーを生成します。
empty の場合は無視: 指定した match フィールドの空の値を無視します。 フィールドが空の場合、キーは生成されず、レコードはスローアウトされます。
[最大キーの長さ]: 一致に考慮するキーの最大長を指定します。
一致関数は、一致が識別され、スコアが適用される、より詳細なプロセスです。 これは厳密に一致しなければならないキーとは異なります。 選択肢は次のとおりです:
- None キーマッチのみ: キー生成仕様のみを検索します。
- レーベン距離: 1 つの文字列またはツリーを別のものに変更するために必要な挿入、削除、および置換の最小数。 レーベンシュタイン距離が選択されると、差のために一致スコアが大幅に低下します。 詳細については、レーベン距離を参照してください。
- ジャロ距離: 2 つの文字列間の類似性の尺度。 ジャロ尺度は、一致する文字と必要な転置のパーセンテージの加重和です。 ジャロ距離は、文字列の差に関してレーベンシュタイン距離よりも寛容です。 詳細については、ジャロ-ウィンクラーを参照してください。
- ベストオブジャロ & レーベン: 両方のマッチタイプが分析され、スコアが取られます。
関数型
- 単語ベースの(一致関数は "Words:"で始まります)関数は、単語の順序にかかわらず、指定されたフィールド内の任意の単語を検索します。
- 非単語ベースの関数は、全体として文字列全体と一致します。
- 単語と数字の関数の場合、数字を含むすべてのトークンは、一致を考慮するために両側にある必要があります。 これらは通常、アドレスに使用されます。
単語ベースの関数オプション
- 単語ベースの一致を使用する場合も使用: 追加のスコアを生成し、最適なものを取得し、あいまい一致ツールの2つのインスタンスを実行する必要性を排除する追加の match メソッドを指定できます。
- None: 単語ベースのスコアのみを使用します。
- 文字: 文字マッチ機能に加えて、単語ベースのマッチスコアを使用します。 2つのスコアが生成され、最高の一致スコアが一致を識別するために使用されます。
- 文字 (スペースなし): 上記と同じですが、文字ベースのマッチを生成するときにスペースは無視されます。
- 単語の頻度統計 (単語の一致のみ): 定義済みの統計に基づいて単語の頻度表を指定できます。 指定された場合、 データベースは、受信データに存在するときに重要度が低くなり、一致スコアがそれに応じて調整されます。 オプションには以下が含まれます。
- なし: 単語の頻度の統計量は使用されない。
- name: 名前フィールドに頻繁に含まれる単語を含みます。 度数は、これらの単語が一致スコアにどれくらい重要であるかに反比例します。
- 米国の住所: 米国の住所フィールドに頻繁に単語が含まれています。 度数は、これらの単語が一致スコアにどれくらい重要であるかに反比例します。
- 米国企業: 会社名フィールドに頻繁に単語が含まれています。 度数は、これらの単語が一致スコアにどれくらい重要であるかに反比例します。
- ニックネーム/略語表 (単語の一致のみ): 共通のニックネームテーブルを使用してチェックし、
さらに重複を識別します。 フィールドでこのオプションを使用する
最初の名前か、最初と最後の両方を含む
名。
ニックネームと略語を追加する:
- 更新し 共通のニックネーム\Program Files\Alteryx\bin\RuntimeData\FuzzyMatch\Nicknames\ で見つかった yxdb データベース
- このディレクトリに配置された yxdb ファイルは、ニックネームのドロップダウンボックスから使用できるようになります。 あいまい一致ツールのセクション。
"Albert Commette" を "Albert Commette MD" と一致させます。
「名前」の単語頻度統計表には、「MD」という単語が含まれています。[単語の頻度: name] を指定すると、結果の一致スコアは、単語の頻度: name が指定されていない場合よりも約5ポイント高くなります。
単語度数統計は、Alteryxデータベースファイル*yxdbに含まれており、ランタイムデータディレクトリにあります:
\Program Files\Alteryx\bin\RuntimeData\FuzzyMatch\
また、同じディレクトリにあるワークフロー CollectStats を編集して、独自の単語頻度統計を作成することもできます。
- ペナルティ: ニックネームテーブルのデータで一致が行われたときに適用されるペナルティのパーセンテージを設定します。 デフォルト値は15%です。 ニックネーム一致はもう一つの潜在的なエラーの原因であるため、ペナルティが推奨されます。 ペナルティパーセントは、一致しきい値との比較に先立って、一致スコアから差し引かれます。
[一致のしきい値]: 特定のフィールドの一致を返すために許容される不確実性のパーセンテージを設定します。
[重みを合わせる]:フィールドに重要度を適用することにより、一致中にフィールドが強く、または少なくなると見なされます。
あいまい一致の使用に関する追加情報については、 ファジーマッチFAQ。