Adattisztítás a gyakorlatban
Előző, adatminőségról szóló posztunkban az adattisztítás jelentőségét jártuk körbe, most pedig az adattisztítás gyakorlati aspektusait tárgyaljuk részletesen, kitérve néhány, korábban elvégzett projektünkre is.
Adattisztítás a gyakorlatban
Milyen adatokat érinthet az adattisztítás és ez milyen módon megy végbe – más szóval, hogyan működik az adattisztítás a gyakorlatban? Az alábbiakban erre a kérdésre adunk választ, végigmenve az adattisztítás legjellemzőbb részterületein.
NÉVTISZTÍTÁS
A névtisztítás lényege a névlistánkon szereplő nevek hibáinak felderítése és megszüntetése. A teljes neveket részeire, elemeire (előtag, családi név, keresztnév, utótag stb.) bontjuk és elemenként javítjuk. A javított elemeket összefűzve megkapjuk a javított teljes nevet, de a név javított részeit önállóan is felhasználhatjuk.
Például egy javított keresztnév alapján megállapíthatjuk az adott személy nemét, meghatározhatjuk a névnapját. A név előtagja vagy utótagja utalhat egy tudományos fokozatra, ami adott esetben értékes információ lehet. Ha a névadatokat egy korszerű informatikai rendszerbe akarjuk tölteni, akkor pedig általában már követelmény, hogy a teljes név elemenként álljon rendelkezésünkre.
Az előtagok és utótagok, valamint a keresztnevek referenciaszótárak felhasználásával javíthatóak. Magyar nevek esetében a keresztnevek vizsgálatakor az MTA Nyelvtudományi Intézete által anyakönyvi bejegyzésre alkalmasnak minősített utónevek jegyzéke alapján dolgozunk. Külföldi nevek esetében hasonló, hiteles forrásokból származó referenciákat alkalmazunk. A teljes nevek szerkezetének vizsgálatakor a 1982. évi 17. számú törvényerejű rendelet névviselésre vonatkozó része szerint járunk el.
CÍMTISZTÍTÁS
Címtisztítás során a címeket egységes formátumúra alakítjuk, bennük az elgépeléseket, hibákat javítjuk, a hiányosságokat kiegészítjük, a régi utcaneveket az aktuálisra cseréljük. Ezzel a szolgáltatással kiküszöbölhetők a címlisták hiányosságai és elavultsága. A rövidítések (pl. u., krt., sgt.) feloldása tovább emeli a címadatok megbízhatóságát.
A címek javításakor is az elemekre bontás és elemenként történő javítás a célravezető. A cím elemeit (irányítószám, település, közterület stb.) javításuk után összefűzve megkapjuk a javított, teljes címet. A cím elemeire bontása a címadatok új informatikai rendszerekbe történő migrációja során ma már elengedhetetlen kívánalom. Az újabb fejlesztésű rendszerekben ugyanis a címek elemeit már önálló mezőkben tároljuk, ellentétben a régi rendszerekre jellemző, ömlesztett módon történő tárolással. Ez a megoldás lehetőséget ad arra is, hogy lakóhely vagy telephely szerint elkülönített célcsoportokat azonosítsunk ügyfeleink között.
A címek helyességének megállapítása, illetve címadatok javításához referencia-adatbázist használunk.
E-MAIL-CÍMEK TISZTÍTÁSA
Az adatbázisunkban tárolt e-mail-címek egy része általában rögzítési, gépelési hibát tartalmaz – ezekre a címekre nem tudunk e-mail-t küldeni. A hibák részben, különösen a tipikus hibák, javíthatók, javított e-mail címeink ígyérvényes, használható adatokká válnak.
Az e-mail-címek javításakor mind algoritmikus feldolgozás, mind referencia-adatbázissal történő összehasonlítás végezhető.
TELEFONSZÁMOK TISZTÍTÁSA
A telefonszámok tisztítása során a formai ellenőrzésekkel megvizsgáljuk, hogy az adott telefonszám megfelel-e a Magyarországon használatos telefonszámok formátumának, amelyben megkülönböztetünk budapesti, vidéki, mobil- valamint közérdekű és speciális telefonszámokat. Ezen kívül tartalmi ellenőrzés mentén a magyarországi hivatalos körzetszám referencia-adatbázis alapján validáljuk a körzetszámokat és szabványos formátumúra alakítjuk a telefonszámokat.
OKMÁNYSZÁMOK, AZONOSÍTÓK TISZTÍTÁSA
Magyarországon a különböző, személyazonosításra alkalmas okmányok (pl. személyazonosító igazolvány száma, útlevélszám) és egyéb azonosítók (pl. adóazonosító jel, TAJ), valamint a vállalkozások azonosítására alkalmas azonosítók (pl. adószám, cégjegyzékszám, TEÁOR-kód), illetve a bankszámlaszámok részben algoritmikusan ellenőrizhetők, részben referenciaszótárhoz hasonlíthatók.
A DSS és az adattisztítás
A DSS a 2000-es évek elején, Magyarországon elsőként kezdett adatminőség-biztosítással foglalkozni: ehhez előbb a DSS Quality Monitor megoldásunkat, majd néhány évvel később a proaktívan működő iQualidator modult fejlesztettük ki.
A DSS Quality Monitor szoftvercsalád az adatok minőségének javítását, valamint az információ-minőség folyamatos monitorozását is lehetővé tevő rendszer. Feladatoktól, megrendelői igényektől függően alkalmazható a teljes adattisztítási folyamatot támogató rendszer, vagy csak annak egyes részmoduljai.
A iQualidator modul pedig valós idejű adatvalidációt végez: a front-end felületeken keresztül (azaz az adat bekerülési pontján) előzi meg a keletkező adathibákat az egyes beviteli mezőkre ültetett adatellenőrzésekkel és automatikus adatjavításokkal, ezzel biztosítja az adatbázisok tisztaságát.
Az adatminőség hazai úttörőjeként komoly tapasztalatunk van adattisztítási projektek területén:
- Egy vezető hazai biztosítónál az új élet/nem-életbiztosítási portfóliókezelő rendszeréhez kapcsolódó adatmigrációs és adattisztítási feladatokat láttuk el a DSS Quality Monitor segítségével — amelyet a biztosító azóta is folyamatosan használ az adatminőség monitorozása céljából.
- Magyarország egyik legjelentősebb bankjánál adatminőségi felmérést végeztünk el, majd telepítettük a DSS Quality Monitort a bank fiókhálózatában, amellyel azóta is folyamatos adattisztítási feladatokat végzünk.
- Egy külföldi tulajdonú bank a számlavezető rendszer cseréje mellett döntött, és a migráció során a régi rendszerből az új rendszerbe való adattöltés közben adattisztítást és duplikátummentesítést hajtott végre a DSS segítségével.
- Egy nagy kiadónál új CRM-rendszerük bevezetéséhez kapcsolódó ügyféladat-tisztítási feladatokat láttunk el.
- Egy vezető élelmiszer-kiskereskedelmi lánc a háromféle forrásrendszerében keletkező adatok tisztítására és duplikátummentesítésére kért fel minket.
Az adattisztításhoz szervesen kapcsolódik a duplikátumok kérdésköre. De mik is azok a duplikátumok? Következő posztunkban ezt járjuk majd körbe. Adatminőség-biztosítási megoldásainkról itt talál egy rövid ismertetőt. LINK
Lehet, hogy az Ön cégénél is felmerült már, hogy lenne mit javítani a vállalati adatvagyon minőségén? Miért ne beszéljünk erről egy csésze kávé mellett?