模糊匹配常见问题解答
以下主题是与 模糊匹配工具 和 模糊匹配编辑匹配选项 相关的常见问题。
这个问题没有标准答案。需要考虑多个记录中不同的匹配字段,以及可以将相应记录表示为唯一记录的字段。例如,在标准联系人数据库中,姓名、地址和电话号码所标识的人员应为唯一人员。很多人可以身处同一个城市和省份,因此这些字段意义不大。
在使用多个字段时,了解它们的关系,以及在匹配过程中考虑每个字段的重要性或权重,是非常重要的。例如,姓名的重要性可能较地址和邮政编码偏低,因此若使姓名加权小于地址和邮政编码加权,就会使得地址和邮政编码的精确匹配项更多,而使姓名的评分低于精确匹配评分。
清除模式(比较所有记录) 可在各单独数据集之中查找匹配项,也可在两个数据集之间查找匹配项。清除模式用于单个数据集,可删除数据库中的重复项或重复数据。这可以作为执行两个数据库合并之前的准备步骤。
合并(仅比较来自不同源的记录) 可比较来自两个不同数据源的记录。选择合并只能查找两个数据集之间的匹配项。
在使用合并模式之前,应删除数据库中的重复数据,因为:
合并模式无法检测出同一来源中的重复记录。
删除重复记录可使匹配过程更快。数据集 1 有 5 个重复项。数据集 2 有 10 个重复项。如果在不清除这些重复项的情况下运行合并,则匹配时将检查 50 个匹配对。如果清除了重复项,则匹配时将检查 1 个匹配对。
模糊匹配工具利用标识符 (ID) 标记匹配项,适用于跨文件标记,以及单一文件内跨行进行标记。模糊匹配工具利用相应 ID 来报告记录匹配情况。
每个记录(包括来自不同数据集的记录)的 ID 必须唯一,以确保工具输出的数据准确无误。对于唯一 ID,请遵循以下最佳实践:
了解数据集的大小,以便更好地理解每个 RecordID 列的必要初始值。
将记录 ID 工具添加到两个数据集流。
将不同数据集流的“初始值”设置为相差几个量级,以确保所有记录都有唯一赋值。
最佳实践
将 100000000 指定为主文件的 RecordID 工具的初始值,将 200000000 指定为客户文件的初始值。始终使用该做法可以让您轻松识别匹配记录的来源。
在清除模式下,RecordID1 和 RecordID2 中的数据是数据集中的行标识符。
在合并模式下,RecordID1 和 RecordID2 与各个数据集中的已匹配 ID 一一对应。将记录 ID 设置为不同量级的初始值,可以让您更轻松地识别正在引用的数据集。
如果两个 ID 按字母顺序排序,则 RecordID1 始终是匹配对中的“第一个”值。
模糊匹配的匹配对 ID 按行呈字母数字顺序排列。数字 RecordID 字段将 RecordID1 至 RecordID2 按从小到大进行排序,但字符串 RecordID 可以按非预期方式排序。
记录 101 与记录 11 匹配。如果字段以数字形式进行存储,则 RecordID1 为 11,RecordID2 为 101。如果字段以字符串形式进行存储,则 RecordID1 为 101,RecordID2 为 11。
切换到数字 RecordID 字段,或验证带有前置 RecordID 的字符串在各记录中是否具有标准化格式。
在大多数地址匹配情形中,如果地址数据库中的数据填写内容一致,则匹配时不需要对城市和省份字段进行匹配。 姓名 、 地址 和 邮政编码 是更常用的匹配样式选项。对您的数据进行检查,以确定城市或省份字段是否为相关字段。
如果出现以下情况,请使用 双变音算法 :
城市和省份字段为非缩写字段。
字段可能包含拼写错误。
如果出现以下情况,请使用 整个字段 或 整个字段 - 不区分大小写 :
省份字段为缩写,需要精确匹配。如果要继续进行更精细的匹配,则通常需要使用精确匹配。
在许多地址匹配情形中,匹配时不需要对房间字段进行匹配。 姓名 、 地址 和 邮政编码 是更常用的 匹配样式 选项。对您的数据进行检查,以确定房间字段是否为相关字段。
对于任何地址字段,无论地址是否包含房间号, 双变音算法(含数位) 都是首选的匹配样式。同时考虑使用 预处理 项下的 去除标点符号并从美国地址中移除单位 选项。
在大多数情况下,无需将姓名字段解析为单个组件字段,也无需满足更优匹配。在使用 Soundex 算法的同时使用 为每个单词生成键 选项,以生成姓名字段键。这样能够确保单词顺序不被纳入考量,因此“Cindy Smith”或“Smith, Cindy”都将成为匹配项。
解析姓名字段能有效帮助您对每个值施加不同的权重。
要使 Rosey Smith 与 R Smith 匹配,则使姓氏权重为 80%,名字权重为 20%。
使用 编辑… > 预处理 项下的 删除标点符号和称谓 ,即可在执行匹配时忽略这些词。