Fuzzy-Übereinstimmung: Häufig gestellte Fragen
Folgende Themen sind häufig gestellte Fragen über das Fuzzy-Übereinstimmung-Tool und den damit zusammenhängenden Optionen zur Bearbeitung der Fuzzy-Übereinstimmungen .
Diese Frage kann nicht allgemein beantwortet werden. Angenommen, Sie vergleichen Felder, die sich zwischen den Datensätzen unterscheiden sollten, so dass der Datensatz als eindeutig erkannt wird. Zum Beispiel sollten in einer Standardkontaktdatenbank der Name, die Adresse und die Telefonnummer eindeutig eine Person identifizieren. Da viele Personen dieselbe Stadt und denselben Bundesstaat aufweisen können, ist ein Vergleich dieser Felder wenig sinnvoll.
Sie müssen die Beziehung zwischen den verschiedenen Feldern verstehen und festlegen, welche Bedeutung (oder Gewichtung) jedem Feld beim Abgleich zugewiesen werden soll. Zum Beispiel ist Name möglicherweise nicht so wichtig wie „Adress und ZIP," daher kann eine geringere Gewichtung von „Name" im Vergleich zu „Adresse" und „ZIP" zu mehr Übereinstimmungen führen, bei denen „Address" und „ZIP" exakte Übereinstimmungen sind, der Name jedoch eine geringere Übereinstimmung erzielt.
Der Bereinigungsmodus (Alle Datensätze werden verglichen) ermittelt Übereinstimmungen innerhalb jedes einzelnen Datasets sowie Übereinstimmungen zwischen zwei Datasets. Der Bereinigungsmodus kann verwendet werden, um Duplikate in einem einzelnen Datenset oder in einer Datenbank zu entfernen. Dieser Schritt kann als Vorbereitung für die Zusammenführung von zwei Datenbanken durchgeführt werden.
Im Zusammenführungsmodus (nur Datensätze aus unterschiedlichen Quellen werden verglichen) werden Datensätze aus zwei verschiedenen Datenquellen verglichen. Wenn Sie die Option „Nur Zusammenführen“ auswählen, wird nach Übereinstimmungen zwischen zwei Datensätzen gesucht.
Die Duplikate in einer Datenbank sollten vor Verwendung des Zusammenführungsmodus entfernt werden, da:
Der Zusammenführungsmodus erkennt keine duplizierten Datensätze innerhalb derselben Quelle.
Der Übereinstimmungsprozess ist schneller, wenn keine Duplizierten Datensätze vorliegen. Dataset 1 hat 5 Duplikate. Dataset 2 hat 10 Duplikate. Wird die Zusammenführung durchgeführt, ohne diese Duplikate zuvor zu entfernen, werden 50 übereinstimmende Paare erkannt. Werden die Duplikate zuvor entfernt, wird ein übereinstimmendes Paar erkannt.
Das Fuzzy-Üübereinstimmung-Tool verwendet einen Bezeichner (ID), um Übereinstimmungen zu kennzeichnen, entweder zwischen Dateien oder zwischen zwei Zeilen in einer einzelnen Datei. Das Tool verwendet die ID für den Bericht, der anzeigt welche Datensätze übereinstimmen.
Um sicherzustellen, dass die Ausgabe des Tools korrekt ist, muss die ID für jeden Datensatz eindeutig sein, was auch für Datensätze aus verschiedenen Datensets gilt. Berücksichtigen Sie folgende Best Practices für eindeutige IDs:
Sie sollten die Größe Ihrer Datasets kennen, um zu verstehen, welcher der erforderliche Startwert für jede Datensatz-ID-Spalte ist.
Fügen Sie beiden Datensatzströmen ein Datensatz-ID-Tool hinzu.
Stellen Sie den „Startwert" verschiedener Datensetströme mehrere Größenordnungen voneinander entfernt ein, um sicherzustellen, dass allen Datensätzen ein eindeutiger Wert zugewiesen wird.
Bewährte Methoden
Weisen Sie 100000000 als Startwert für das Datensatz-ID-Tool für die Masterdatei und 200000000 als Startwert für die Kundendatei zu. Wenn Sie dies kontinuierlich so handhaben, können Sie die Quellen der Datensätze mit Übereinstimmungen leicht erkennen.
Im Bereinigungsmodus handelt es sich bei den Daten in „Datensatz-ID1“ und „Datensatz-ID2“ um die Zeilen-IDs aus Ihrem Datenset.
Im Zusammenführungsmodus entsprechen „RecordID1“ und „RecordID2“ IDs mit übereinstimmenden IDs, eine aus jedem Dataset. Wenn Sie für die Datensatz-IDs Startwerte verschiedener Größenordnungen festlegen, können Sie schnell erkennen, auf welches Dataset verwiesen wird.
Datensatz-ID1 ist immer der „erste" Wert im übereinstimmenden Paar, wenn die zwei IDs alphanumerische geordnet werden.
Die IDs von Paaren mit Fuzzy-Übereinstimmungen werden alphanumerisch nach Zeilen geordnet. Numerische Datensatz-ID-Felder ordnen RecordID1 bis RecordID2, jeweils vom kleinsten zum größten Wert. Datensatz-IDs von Zeichenfolgen könnten allerdings auf unerwartete Art und Weise geordnet werden.
Datensatz 101 stimmt mit Datensatz 11 überein. Wenn die Felder als Zahlen gespeichert werden, wäre Datensatz-ID1 die 11 und Datensatz-ID2 wäre die 101. Wenn die Felder als Zeichenfolgen gespeichert werden, wäre Datensatz-ID1 die 101 und Datensatz-ID2 wäre die 11.
Wechseln Sie zu einem numerischen Datensatz-ID-Feld oder versichern Sie sich, dass Zeichenfolgen mit vorangestellten Datensatz-IDs zwischen den Datensätzen über ein standardisiertes Format verfügen.
In den meisten Adressübereinstimmungsszenarien, in denen die Adressendatenbank konsistent mit Daten gefüllt wird, werden beim Abgleich keine Stadt- und Staatfelder (City, State) benötigt. Name , Adresse und Zip-Code sind häufiger verwendete Abgleichstil-Optionen. Überprüfen Sie Ihre Daten um festzulegen, ob Felder für City- oder State-Felder relevant sein könnten.
Verwenden Sie Double Metaphone , wenn:
Die Felder für Stadt und Bundesstaat nicht abgekürzt werden.
Die Felder könnten Rechtschreibfehler enthalten.
Verwenden Sie Gesamtes Feld oder Gesamtes Feld – Groß-/Kleinschreibung nicht beachten , wenn:
Die Eingabe in das State-Feld ist eine Abkürzung und erfordert eine exakte Übereinstimmung. Wenn ein detaillierterer Abgleichprozess durchgeführt wird, ist meist eine exakte Übereinstimmung erforderlich.
Bei vielen Adressen ist das Feld „Suite“ für eine Übereinstimmung nicht erforderlich. Name , Address und Zip-Code sind häufiger verwendete Abgleichstil -Optionen. Überprüfen Sie Ihre Daten, um festzulegen, ob Suite-Felder relevant sein können.
Double Metaphone mit Ziffern ist der vorzuziehende Abgleichstil für alle Adressfelder, unabhängig davon, ob die Adresse Suite-Nummern enthält. Ziehen Sie auch die Option Interpunktion ignorieren und Einheiten aus US-Adressen entfernen unter Vorverarbeitung in Betracht.
In den meisten Fällen ist das Zerlegen eines Namensfeldes in Felder mit einzelnen Namenskomponenten nicht erforderlich und führt in der Regel nicht zu besseren Übereinstimmungsergebnissen. Verwenden Sie die Option Schlüssel für jedes Wort generieren mit dem Soundex-Algorithmus, um Schlüssel für Namensfelder zu generieren. Auf die Weise wird sichergestellt, dass die Reihenfolge der Wörter nicht beachtet wird; sowohl „Cindy Smith” als auch „Smith, Cindy” werden als Übereinstimmung betrachtet.
Das Zerlegen des Namensfeldes kann von Vorteil sein, wenn Sie jedem Wert unterschiedliche Gewichtungen zuordnen möchten.
Damit Rosey Smith und R Smith eine Übereinstimmung ergeben, wird der Nachname mit 80 % und der Vorname mit 20 % gewichtet.
Gehen Sie zu Bearbeiten... > Vorverarbeiten und wenden Sie dort Interpunktion und Anreden ignorieren an, um diese Wörter beim Abgleich zu ignorieren.