Duplikate
In einem früheren Blogbeitrag erwähnten wir Duplikate als eine der Arten von „unsauberen“ oder „schmutzigen“ Daten (also wenn identische Datensätze mehrmals in einer Datenbank vorkommen). Heute gehen wir auf dieses Thema näher ein.
Die Nachteile von Duplikaten
Die Nachteile von Duplikaten sind offensichtlich: Wenn dieselbe Person oder Firma mehrfach in einer Datenbank vorkommt und daher mehrfach dieselben Kundeninformationen per Post oder E-Mail erhält oder mehrmals zum selben Thema angerufen wird, kann dies die Kundenzufriedenheit erheblich beeinträchtigen. Zudem entstehen durch doppelte Briefe, E-Mails oder Anrufe unnötige Kosten und administrativer Mehraufwand.
Deduplizierung im Prozess der Datenqualitätssicherung
Deshalb ist die Identifizierung und Zusammenführung von Duplikaten ein wichtiger Schritt im Datenqualitätsmanagement. (Genau genommen handelt es sich nicht nur um doppelte, sondern möglicherweise um mehrfach vorhandene Datensätze, also eine Multiplikation. Dennoch hat sich der Begriff Duplikation etabliert.)
Der Erfolg der Duplikaterkennung hängt von der Qualität der zur Identifikation verwendeten Daten ab. Bei natürlichen Personen sind dies Name, Geburtsort, Geburtsdatum, während bei Unternehmen insbesondere Steuernummer und Handelsregisternummer entscheidend sind. Falls diese Daten nicht in guter Qualität vorliegen, sollte vor der Duplikatsuche eine Datenbereinigung erfolgen.
Da Daten jedoch nie fehlerfrei sind, muss die Duplikaterkennung auch auf unvollständigen oder fehlerhaften Daten basieren. Daher müssen Ähnlichkeitskriterien definiert werden, anstatt nur auf exakte Übereinstimmungen zu setzen. Mithilfe guter Duplikaterkennungsalgorithmen können wahrscheinliche Duplikatgruppen auch bei fehlerhaften Daten identifiziert werden.
Duplikatsuche
Die Duplikatsuche verwendet algorithmische Methoden, um zu erkennen und aufzulisten, welche Entitäten, d.h. Kunden oder Produkte, gleich sind. Zu diesem Zweck werden Duplikationsgruppen gebildet, d.h. eine Menge von Datensätzen mit mehr als einem Element, das zur gleichen Entität gehört. Die Aufgabe besteht darin, die Datensätze, die dieselbe Entität repräsentieren, in Gruppen zusammenzufassen.
Bildung von Stammsätzen
Wenn eine vollständige Deduplizierung nicht erwünscht oder nicht möglich ist, z. B. weil es noch mehrere Systeme gibt, die Elemente der Duplikationsgruppe enthalten, ist es sinnvoll, für jede Gruppe einen Stammsatz zu bilden. Der Stammsatz kann auf dem Satz im System mit der höchsten Priorität basieren, der bei Bedarf und in begründeten Fällen mit Daten aus anderen Systemen aktualisiert und ergänzt werden kann. Der Stammsatz enthält in der Regel nur die wichtigsten Kundendaten (Identifikationsdaten) und eventuell einige zusätzliche Daten, die für das Unternehmen am wichtigsten sind.
Auflösen von Duplikaten (Deduplizierung)
Nach der Erkennung von Duplikaten besteht der nächste Schritt in der Entfernung von Duplikaten (Deduplizierung). Konkret geschieht dies durch die Auswahl des zu behaltenden Datensatzes in jeder Duplikationsgruppe und die Entfernung der anderen.
Die Auswahl des beizubehaltenden Datensatzes kann darauf beruhen, welcher Datensatz die beste Datenqualität aufweist, aber manchmal ist es komplizierter als das. Entitäten, wie z. B. Produkte, die zu einigen der Datensätze in der Duplikationsgruppe gehören, müssen von den zu löschenden Datensätzen getrennt und an den verbleibenden Datensatz gebunden werden. In einigen Fällen stößt man hier auf technische Beschränkungen.
In manchen Fällen ist es nicht möglich oder nicht rentabel, ein Produkt einem anderen Kundendatensatz neu zuzuordnen: In diesem Fall wird der verbleibende Datensatz zwangsläufig derjenige sein, mit dem ein solches Produkt bereits verknüpft ist.
DSS Consulting und Deduplizierung
In unserem letzten Blogbeitrag haben wir uns kurz mit den DSS-Benchmarks für die Datenbereinigung befasst – jetzt zeigen wir Ihnen einige Beispiele für unsere Erfahrungen bei der Korrektur von Duplikaten.
- Bei einer führenden Bank entwickelten wir Algorithmen zur Duplikaterkennung innerhalb und zwischen Systemen.
- Für ein global tätiges Medizintechnikunternehmen führten wir eine Datenbereinigung und Duplikaterkennung in deren ERP- und CRM-Systemen durch.
- Bei einem Telekommunikationsunternehmen unterstützten wir die Datenqualitätsprüfung für ein neues CRM-System, einschließlich der Duplikatsuche und Deduplizierung.
- Ein großes Versicherungsunternehmen ließ seine zentrale Kundendatenbank von uns hinsichtlich Duplikaten überprüfen.
Damit sind wir am Ende unserer Serie zur Datenqualitätssicherung angelangt.
Eine kurze Beschreibung unserer Lösungen zur Datenqualitätssicherung finden Sie hier.
Wenn Ihr Unternehmen jedoch schon einmal darüber nachgedacht hat, die Qualität seiner Datenbestände zu verbessern, warum besprechen wir nicht Ihre Herausforderungen bei einer Tasse Kaffee?