Datenbereinigung in der Praxis

In unserem vorherigen Blogpost haben wir die Bedeutung der Datenbereinigung behandelt. Nun werfen wir einen genaueren Blick auf die praktischen Aspekte der Datenbereinigung, einschließlich einiger Beispiele aus unseren Projekten.

adattisztítás, data cleansing in practice, Datenbereinigung in der Praxis

Wie funktioniert Datenbereinigung in der Praxis?

Welche Daten sind von der Datenbereinigung betroffen und wie wird sie durchgeführt? Anders ausgedrückt: Wie funktioniert Datenbereinigung im praktischen Einsatz?

Namensbereinigung

Die Namensbereinigung beinhaltet die Erkennung und Korrektur von Fehlern in Namenslisten. Vollständige Namen werden in Einzelkomponenten zerlegt (z. B. Präfix, Nachname, Vorname, Suffix) und einzeln korrigiert.

Korrigierte Namen ermöglichen u. a. die Bestimmung des Geschlechts oder des Namenstags. Titel oder akademische Grade können ebenfalls wertvolle Informationen liefern. Und wenn man die Namensdaten in ein modernes IT-System laden will, ist es in der Regel schon eine Voraussetzung, dass der vollständige Name elementweise vorliegt.

Präfixe, Suffixe und Vornamen können mit Hilfe von Referenzwörterbüchern korrigiert werden. Bei ungarischen Namen werden die Vornamen anhand der vom Institut für Linguistik der Ungarischen Akademie der Wissenschaften erstellten Liste der für die Eintragung geeigneten Nachnamen überprüft. Für ausländische Namen werden Referenzen aus ähnlichen, maßgeblichen Quellen herangezogen.

Adressbereinigung

Die Adressbereinigung umfasst die Standardisierung der Adressformate, Korrektur von Tippfehlern, Ergänzung fehlender Daten und Aktualisierung veralteter Straßennamen.

Die Adressen werden in Einzelbestandteile zerlegt (z. B. Postleitzahl, Stadt, Straße), einzeln korrigiert und anschließend wieder zusammengesetzt. Moderne IT-Systeme speichern Adresskomponenten zunehmend in separaten Feldern statt als unstrukturierte Texte.

Referenzdatenbanken werden zur Validierung und Korrektur von Adressen verwendet.

E-Mail-Bereinigung

Viele E-Mail-Adressen enthalten Tippfehler oder Formatierungsfehler, die sie unbrauchbar machen. Häufige Fehler lassen sich automatisch korrigieren.

Hierbei kommen sowohl algorithmische Prüfungen als auch Abgleiche mit Referenzdatenbanken zum Einsatz.

Telefonnummernbereinigung

Telefonnummernbereinigung umfasst Formatprüfungen und Validierungen anhand offizieller Vorwahlverzeichnisse, die zwischen ländlichen, mobilen, öffentlich-rechtlichen und Sonderrufnummern unterscheiden.

Reinigung von Dokumentennummern, Identifikatoren

Die verschiedenen identifizierbaren Dokumente (z. B. Personalausweisnummer, Reisepassnummer, Führerscheinnummer) und andere Identifikatoren (z. B. Steueridentifikationsnummer, Sozialversicherungsnummer) sowie Identifikatoren, die zur Identifizierung von Unternehmen verwendet werden können (z. B. Steuernummer, Unternehmensregisternummer) und Bankkontonummern können teilweise algorithmisch überprüft und teilweise mit einem Referenzwörterbuch verglichen werden.

DSS Consulting und Datenbereinigung

DSS Consulting war eines der ersten Unternehmen in Ungarn, das sich mit Datenqualitätsmanagement befasste. Unser DSS Quality Monitor unterstützt die automatisierte Datenbereinigung, während der iQualidator eine Echtzeit-Datenvalidierung ermöglicht.

  • Die Software DSS Quality Monitor ist ein System, mit dem Sie die Qualität Ihrer Daten verbessern und die Qualität Ihrer Informationen laufend überwachen können. Je nach Aufgabenstellung und Kundenwunsch kann das System zur Unterstützung des gesamten Datenbereinigungsprozesses oder nur einzelner Teilmodule eingesetzt werden.
  • Und das Modul iQualidator führt eine Datenvalidierung in Echtzeit durch: Es verhindert Datenfehler über Front-End-Schnittstellen (d. h. am Punkt der Dateneingabe), indem es eine Datenvalidierung und automatische Datenkorrektur auf jedes Eingabefeld anwendet und so die Sauberkeit der Datenbank gewährleistet.

Als Pioniere auf dem Gebiet der Datenqualität verfügen wir über umfassende Erfahrung mit Datenbereinigungsprojekten:

  • Für einen führenden Versicherungskonzern haben wir Datenmigrations- und Datenbereinigungsaufgaben im Zusammenhang mit dem neuen Bestandsverwaltungssystem für Lebens- und Nichtlebensversicherungen unter Verwendung von DSS Quality Monitor durchgeführt, das der Versicherer seitdem kontinuierlich zur Überwachung der Datenqualität einsetzt.
  • Eine der größten Banken Ungarns, wo wir eine Datenqualitätsprüfung durchführten und das DSS Quality Monitor-System implementierten.
  • Eine andere Bank beschloss, ihr Kontoverwaltungssystem zu wechseln, und führte während der Migration eine Datenbereinigung mit DSS durch, während sie Daten aus dem alten System in das neue System hochlud.
  • Ein großes Verlagshaus, wo wir Kundendaten für die Einführung eines neuen CRM-Systems bereinigten.
  • Eine führende Lebensmittel-Einzelhandelskette, für die wir Daten aus drei verschiedenen Quellen bereinigten.

Mit der Datenbereinigung verbunden ist das Problem der Duplikate. Aber was sind Duplikate? In unserem nächsten Beitrag werden wir dies untersuchen.

Einen kurzen Überblick über unsere Lösungen zur Datenqualitätssicherung finden Sie hier.


Hat Ihr Unternehmen schon einmal darüber nachgedacht, dass es die Qualität seiner Datenbestände verbessern könnte? Lassen Sie uns das bei einer Tasse Kaffee besprechen!