一致オプションを編集
ドキュメントは、Designer Cloud のリリース前に入手可能なため、機能などを事前に確認できます。ここに記載されている内容は、公式リリースまでの間に変更になる場合があります。
あいまい一致ツール の [ 一致条件 ] で [ 高度なあいまい一致] を選択すると、一致スタイルの設定をカスタマイズするためのアクセス権が付与されます。これを行うには ...
- [Match Criteria]( 一致基準 ) テーブルを探します。
- [ オプション ] 列の [ 編集 ] を選択して、一致オプションの設定にアクセスします。
以下の一致オプションを確認してください。
一致スタイル
一致スタイルは、入力ファイルのレコード間で適切な一致を見つけるための所定の方法です。個々の一致スタイルの選択肢は、ファジーマッチツールページで定義されています。
すべての定義済みおよびカスタムの一致スタイルが 一致スタイル リストに表示されます。その後 のプリプロセス設定は 、選択したマッチングスタイルに基づいています。定義済みの一致スタイルを編集すると、ドロップダウンリストで "カスタム" に変わります。カスタムマッチスタイルは保存されず、作成されたワークフロー内でのみ使用できます。カスタムマッチスタイルの変更は、ツールに自動的に適用されます。
前処理
前処理は、キー生成およびファジーマッチ関数の前に実行されるプロシージャを記述します。前処理はより良い一致をもたらすはずです。プリプロセスの選択肢には、次のものがあります。
- なし: 前処理は実行されません。
- 句読点の削除: 指定された列内の句読点文字は無視され、一致するものが判別されます。
- 句読点 & の削除 :
Ms
Mr
Mrs
指定した列内の、、などの句読点やタイトルは無視され、一致するものが判別されます。 - 句読点および & 、 : &単語
and
、of
、およびのすべての句読点文字とインスタンスはthe
、ツールが一致を判断する間は無視されます。 - 句読点の削除 & 単位を US アドレスから削除: 指定された列内のすべての句読点文字と単位番号は無視され、一致するものが判別されます。
キーを生成する
キー生成は、潜在的な一致が識別される方法です。
Designer は、指定された列を読み取り、 [ キーの選択 ] ドロップダウンで選択した内容に基づいて、その列のコンポーネントにキーを割り当てます。すべてのキーが生成されると、Alteryxは各一致フィールドの連結キーを比較します。生成されたキーが2つのレコードで等しい場合、潜在的な一致が識別され、ペアは一致プロセスの次のフェーズに進みます。
キー の選択肢を選択してください ...
- このフィールドのキーは、どのレコードが一致するかを決定するときに考慮されます。
- [ 数字のみ]: 指定した列の左から右に同じ数字を持つ行のみが一致します。
- [ 数字のみ - 逆方向]: 指定した列の右から左に同じ数字を持つ行のみが一致します。
例
1-(800)555-1234 は 800-555-1234 と一致します。
数字以外の文字は無視され、数字は最後(6)から最初(3または1)まで一致します。このレコードを一致させるには、先頭の1を無視するために、最大キー長= 10を指定します。
- ダブルメタフォンが好ましいアルゴリズムです。英語の単語(および英語の単語で頻繁に聞かれる外国語)を12の子音に減らすことによって音声的に符号化するアルゴリズム。これにより、異なるスペルからマッチングの問題が減少します。ダブルメタフォンは、音に基づいてマッチングするための好ましい方法です。英数化された外国語のように、単語に 2 つの発音がある場合は、 2 つのキーを返します。詳細な情報については、ダブルメタフォンを参照してください。
- 同じダブルメタフォンアルゴリズムを使用しますが、数字も含みます。文字列に数字がある場合、最初のトークンの数字がキーになります。
例
1234 5th St.
1234
はキーです。 - 姓を最初の文字と最大3桁まで減らして発音記号をコード化するアルゴリズム。ここで、各桁は6つの子音の1つです。これにより、異なるスペルからマッチングの問題が減少します。このアルゴリズムは、米国国勢調査記録に記録された名前をコードするように考案されました。標準アルゴリズムはヨーロッパの名前で最も効果的です。変種は他の文化の名前のために考案されています。詳細は、次のWebサイトを参照してください。
Alteryxは、一致キーを生成する前に、次の先頭文字と文字の組み合わせを自動的に置き換えます。先頭文字 置換 AV AF AH A AW A CAAN TAAN DG G D G HA A KN K K C MAC MC M N NST NS PF F PH F Q G SCH SH Z S - 同じSoundexアルゴリズムを使用しますが、数字も含みます。文字列に数字がある場合、最初のトークンの数字がキーになります。
- フィールド全体(大文字と小文字は区別されません):列全体が一致する行のみ。大文字と小文字の区別は無視されます
- 英数字のみ(大文字と小文字は区別されません):一致する英数字のみを検索します。大文字と小文字の区別は無視されます
- 文字列からアドレス番号を削除し、フィールドの残りの部分にSoundexアルゴリズムを適用します。Soundexコードは、ユニークなキーを作成するためにアドレス番号に追加されます。
各単語のキーを生成する
[ 各単語のキーを生成 ] をオンにして、単語ごとに個別のキーを生成します。単語の順序が狂っていても、 "john smith"と "smith john" は潜在的な一致として並べることができます。
オンにすると、次のオプションが表示されます。
- これらの単語のキーを生成しない: キーの割り当てから除外する単語を指定または選択します。これにより、潜在的な一致の数を制限することによって処理時間を短縮することができます。
- [ 単一文字の単語のキーを生成しない]: キー割り当てから単一文字の単語を除外する場合は、このチェックボックスをオンにします。これにより、潜在的な一致の数を制限することによって処理時間を短縮することができます。
空の場合は無視
指定された一致フィールドの空の値を無視します。照合する列が空の場合、キーは生成されず、行は無視されます。
最大キー長さ
一致のために考慮するキーの最大長を指定します。
一致機能
一致関数は、一致が識別され、スコアが適用される、より詳細なプロセスです。これは厳密に一致しなければならないキーとは異なります。関数を使用 して、 MATCH 関数を定義します。
各関数 には、次のようなタイプが関連付けられています。
- 単語ベースの(一致関数は "Words:"で始まります)関数は、単語の順序にかかわらず、指定されたフィールド内の任意の単語を検索します。
- 非単語ベースの関数は、全体として文字列全体と一致します。
- 単語と数字の関数の場合、数字を含むすべてのトークンは、一致を考慮するために両側にある必要があります。これらは通常、アドレスに使用されます。
機能 の選択肢は ...
- [ なし( None ) ] - [ キー一致のみ( Key Match Only ) ] :キー生成仕様のみを確認します。
- 1つの文字列またはツリーを別の文字列またはツリーに変更するために必要な挿入、削除および置換の最小数。レーベンシュタイン距離が選択されると、差のために一致スコアが大幅に低下します。詳細な情報については、レーベンシュタイン距離を参照してください。Levenshtein 距離オプションには次のものがあります ...
- キャラクター: レーベンシュタイン距離
- 文字 (スペースなし): レーベンシュタイン距離
- 単語: レーベンシュタイン距離
- 単語&数字: レーベンシュタイン距離
- Jaro Distance( Jaro 距離): 2 つの文字列間の類似性の測定。ジャロ尺度は、一致する文字と必要な転置のパーセンテージの加重和です。ジャロ距離は、文字列の差に関してレーベンシュタイン距離よりも寛容です。詳細な情報については、ジャロ・ウィンクラーを参照してください。Jaro 距離オプションには次のものがあります ...
- キャラクター: ジャロ距離
- 文字(スペースなし): ジャロ距離
- 単語: ジャロ距離
- 単語&数字: ジャロ距離
- Jaro & Levenshtein Distance のベスト:両方の一致タイプが分析され、スコアが取得されます。最適なジャロ・ウィンクラー距離およびレーベンシュタイン距離
- キャラクター: 最適なジャロ&レーベンシュタイン距離
- 文字 (スペースなし): 最適なジャロ&レーベンシュタイン距離
- 単語: 最適なジャロ&レーベンシュタイン距離
- 単語&数字: 最適なジャロ&レーベンシュタイン距離
単語ベースの関数オプション
単語ベースの関数 ( 関数の先頭が "words"の場合 ) を選択すると、その他の設定オプションが表示されます。
- 追加のスコアを生成して最高のスコアを得て、ファジーマッチツールの2つのインスタンスを実行する必要性を排除する追加の一致方法を指定することができます。
- 文字一致関数に加えて単語ベースの一致スコアを使用します。2つのスコアが生成され、最高の一致スコアが一致を識別するために使用されます。
- 上記と同じですが、文字ベースの一致を生成する際にはスペースは無視されます。
- Word Frequency Statistics ( Word Match のみ):定義済みの統計情報に基づいて Word Frequency テーブルを指定できます。指定すると、データベースに表示される単語は、着信データに存在するとき重要度が低くなり、それに応じて一致スコアが調整されます。オプションには以下が含まれます。
- 名前フィールドに度数の高い単語が含まれています。度数は、これらの単語が一致スコアにどれくらい重要であるかに反比例します。
- 米国のアドレスフィールドに度数の高い単語が含まれています。度数は、これらの単語が一致スコアにどれくらい重要であるかに反比例します。
- 会社名フィールドに度数の高い単語が含まれています。度数は、これらの単語が一致スコアにどれくらい重要であるかに反比例します。
例
"Albert Commette" を "Albert Commette MD" と一致させます。
「名前」の Word Frequency Statistics テーブルには、「 MD 」という語が含まれています。 [Word Frequency: Name] を指定すると、 [Word Frequency: Name] を指定しなかった場合よりも、一致スコアが約 5 ポイント高くなります。
- 省略形テーブル: 重複をチェックしてさらに識別するために ' ドロップダウンリストからテーブルを選択しますこのオプションは、ファーストネームのみまたはファーストネームとラストネームの両方を含むフィールドで使用します。
- ニックネームテーブルのデータと一致する場合に適用されるペナルティのパーセンテージを設定します。デフォルト値は15%です。ニックネーム一致はもう一つの潜在的なエラーの原因であるため、ペナルティが推奨されます。ペナルティパーセントは、一致しきい値との比較に先立って、一致スコアから差し引かれます。
その他のマッチ機能オプション
-
特定のフィールドの一致が返されるように、許容不確実性のパーセンテージを設定します。フィールド1のしきい値が60%でフィールドが55%信頼度で一致する場合、レコードはスローアウトされます。
-
重量の一致: 列に重要度を適用します。フィールドに重要度を適用し、フィールドをマッチング中により強く、またはより弱く考慮されるようにします。
たとえば、「会社名」が「担当者名 」の 2 倍の重要度である場合、会社名の一致の重みは、 [ 担当者名の一致の重み ] の 2 倍の値にする必要があります。この重みは、全体的な一致スコアを計算する際に使用されます。
ファジーマッチの使用に関する追加の情報については、 ファジーマッチFAQを参照してください。