ファジーマッチ編集一致オプション

の [編集] ボタンを使用します。ファジーマッチツール [設定] ウィンドウで、[一致の編集] オプションにアクセスします。

マッチスタイルは、入力ファイルのレコード間の適切な一致を見つけるための所定の方法です。個々のマッチスタイルの選択肢は、ファジーマッチツールページ。

前処理は、キーの生成とあいまい一致関数の前に実行されるプロシージャを表します。前処理はより良い一致をもたらすはずです。このリストの選択肢には以下が含まれます：

キーの生成は、潜在的な一致が識別される方法です。

キーを生成する

Alteryxは指定されたフィールドを読み込み、そのフィールドのコンポーネントにキーを割り当てます。すべてのキーが生成されると、Alteryxは各一致フィールドの連結キーを比較します。生成されたキーが2つのレコードで等しい場合、潜在的な一致が識別され、ペアは一致プロセスの次のフェーズに進みます。関数の選択肢は次のとおりです：

None: このフィールドのキーは、一致するレコードを決定するときに考慮されます。
[桁数のみ]: 指定したフィールドに同じ桁数のレコードのみが一致します。

数字のみ-逆: 指定されたフィールドの同じ数字 (最後から最初の順) のレコードのみが照合されます。

ダブル Metaphone: ダブル Metaphone が推奨されるアルゴリズムです。英語の単語（および英語の単語で頻繁に聞かれる外国語）を12の子音に減らすことによって音声的に符号化するアルゴリズム。これにより、誤ったスペルからマッチングの問題が減少します。ダブルメタフォンは、音に基づいてマッチングするための好ましい方法です。単語に2つの実行可能な発音がある場合（例えば、外国語の場合）、2つのキーを返します。詳細については、ダブル Metaphoneを参照してください。
二重 Metaphone w/桁: 同じ二重 Metaphone アルゴリズムを使用しますが、同様に数字が含まれています。文字列に数字がある場合、最初のトークンの数字がキーになります。

Soundex: 最初の文字にそれらを減らすことによって、それぞれの数字は6つの子音の音の一つである3桁まで、姓の発音をコード化するアルゴリズム。これにより、異なるスペルからマッチングの問題が減少します。

このアルゴリズムは、米国国勢調査記録に記録された名前をコードするように考案されました。標準アルゴリズムはヨーロッパの名前で最も効果的です。変種は他の文化の名前のために考案されています。詳細については、Soundex を参照してください。

先頭文字の置換

Alteryxは、一致キーを生成する前に、次の先頭文字と文字の組み合わせを自動的に置き換えます。

先頭文字	置換
AV	AF
AH	A A
AW	A A
CAAN	TAAN
DG	G
D	G
HA	A A
KN	K
K	C
MAC	MC
M	N
NST	NS
PF	F
PH	F
Q	G
SCH	SH
Z	S

Soundex w/桁: 同じ Soundex アルゴリズムを使用しますが、数字も含まれています。文字列に数字がある場合、最初のトークンの数字がキーになります。
フィールド全体 (大文字小文字を区別しない): フィールド全体が一致するレコードのみを検索します。大文字と小文字の区別は無視されます
英数字のみ (大文字小文字を区別しない): 英数字のみを検索して一致させます。大文字と小文字の区別は無視されます
アドレス番号 + Soundex: 文字列からアドレス番号を削除し、Soundex アルゴリズムをフィールドの残りの部分に適用します。 Soundexコードは、ユニークなキーを作成するためにアドレス番号に追加されます。

各単語のキーを生成: 単語ごとに別々のキーを生成します。

単語の順序が狂っていても、"john smith"と "smith john" は潜在的な一致として並べることができます。

次の単語のキーを生成しない: キー割り当てから除外する単語を指定または選択します。これにより、潜在的な一致の数を制限することによって処理時間を短縮することができます。

1文字の単語のキーを生成しない: キー割り当てから1文字の単語を除外する場合に選択します。これにより、潜在的な一致の数を制限することによって処理時間を短縮することができます。

empty の場合は無視: 指定した match フィールドの空の値を無視します。フィールドが空の場合、キーは生成されず、レコードはスローアウトされます。

[最大キーの長さ]: 一致に考慮するキーの最大長を指定します。

一致機能

一致関数は、一致が識別され、スコアが適用される、より詳細なプロセスです。これは厳密に一致しなければならないキーとは異なります。選択肢は次のとおりです：

None キーマッチのみ: キー生成仕様のみを検索します。
レーベン距離: 1 つの文字列またはツリーを別のものに変更するために必要な挿入、削除、および置換の最小数。レーベンシュタイン距離が選択されると、差のために一致スコアが大幅に低下します。詳細については、レーベン距離を参照してください。
ジャロ距離: 2 つの文字列間の類似性の尺度。ジャロ尺度は、一致する文字と必要な転置のパーセンテージの加重和です。ジャロ距離は、文字列の差に関してレーベンシュタイン距離よりも寛容です。詳細については、ジャロ-ウィンクラーを参照してください。
ベストオブジャロ & レーベン: 両方のマッチタイプが分析され、スコアが取られます。

関数型

単語ベースの（一致関数は "Words:"で始まります）関数は、単語の順序にかかわらず、指定されたフィールド内の任意の単語を検索します。
非単語ベースの関数は、全体として文字列全体と一致します。
単語と数字の関数の場合、数字を含むすべてのトークンは、一致を考慮するために両側にある必要があります。これらは通常、アドレスに使用されます。

単語ベースの関数オプション

単語ベースの一致を使用する場合も使用: 追加のスコアを生成し、最適なものを取得し、あいまい一致ツールの2つのインスタンスを実行する必要性を排除する追加の match メソッドを指定できます。

None: 単語ベースのスコアのみを使用します。
文字: 文字マッチ機能に加えて、単語ベースのマッチスコアを使用します。 2つのスコアが生成され、最高の一致スコアが一致を識別するために使用されます。
文字 (スペースなし): 上記と同じですが、文字ベースのマッチを生成するときにスペースは無視されます。

単語の頻度統計 (単語の一致のみ): 定義済みの統計に基づいて単語の頻度表を指定できます。指定された場合、データベースは、受信データに存在するときに重要度が低くなり、一致スコアがそれに応じて調整されます。オプションには以下が含まれます。

なし: 単語の頻度の統計量は使用されない。
name: 名前フィールドに頻繁に含まれる単語を含みます。度数は、これらの単語が一致スコアにどれくらい重要であるかに反比例します。
米国の住所: 米国の住所フィールドに頻繁に単語が含まれています。度数は、これらの単語が一致スコアにどれくらい重要であるかに反比例します。
米国企業: 会社名フィールドに頻繁に単語が含まれています。度数は、これらの単語が一致スコアにどれくらい重要であるかに反比例します。

ニックネーム/略語表 (単語の一致のみ): 共通のニックネームテーブルを使用してチェックし、さらに重複を識別します。フィールドでこのオプションを使用する最初の名前か、最初と最後の両方を含む名。
ニックネームと略語を追加する：
- 更新し共通のニックネーム\Program Files\Alteryx\bin\RuntimeData\FuzzyMatch\Nicknames\ で見つかった yxdb データベース
- このディレクトリに配置された yxdb ファイルは、ニックネームのドロップダウンボックスから使用できるようになります。あいまい一致ツールのセクション。

ペナルティ: ニックネームテーブルのデータで一致が行われたときに適用されるペナルティのパーセンテージを設定します。デフォルト値は15%です。ニックネーム一致はもう一つの潜在的なエラーの原因であるため、ペナルティが推奨されます。ペナルティパーセントは、一致しきい値との比較に先立って、一致スコアから差し引かれます。

[一致のしきい値]: 特定のフィールドの一致を返すために許容される不確実性のパーセンテージを設定します。

フィールド1のしきい値が60％でフィールドが55％信頼度で一致する場合、レコードはスローアウトされます。

[重みを合わせる]:フィールドに重要度を適用することにより、一致中にフィールドが強く、または少なくなると見なされます。

"会社名" が "連絡先名" の2倍の重要度を持つ場合は、ここで重要度を設定できます。従って、会社名の一致重みは、連絡先名の一致重みの値の2倍にする必要があります。この重みは、全体的な一致スコアを計算する際に使用されます。

あいまい一致の使用に関する追加情報については、ファジーマッチFAQ。