Adattisztítás a gyakorlatban
Milyen adatokat érinthet az adattisztítás és ez milyen módon megy végbe – más szóval, hogyan működik az adattisztítás a gyakorlatban? Az alábbiakban erre a kérdésre adunk választ.
NÉVTISZTÍTÁS
A névtisztítás lényege a névlistánkon szereplő nevek hibáinak felderítése és megszüntetése. A teljes neveket részeire, elemeire (előtag, családi név, keresztnév, utótag stb.) bontjuk és elemenként javítjuk. A javított elemeket összefűzve megkapjuk a javított teljes nevet, de a név javított részeit önállóan is felhasználhatjuk. Például egy javított keresztnév alapján megállapíthatjuk az adott személy nemét, meghatározhatjuk a névnapját. A név előtagja vagy utótagja utalhat egy tudományos fokozatra, ami adott esetben értékes információ lehet. Ha a névadatokat egy korszerű informatikai rendszerbe akarjuk tölteni, akkor pedig általában már követelmény, hogy a teljes név elemenként álljon rendelkezésünkre.
Az előtagok és utótagok, valamint a keresztnevek referenciaszótárak felhasználásával javíthatóak. Magyar nevek esetében a keresztnevek vizsgálatakor az MTA Nyelvtudományi Intézete által anyakönyvi bejegyzésre alkalmasnak minősített utónevek jegyzéke alapján dolgozunk. Külföldi nevek esetében hasonló, hiteles forrásokból származó referenciákat alkalmazunk. A teljes nevek szerkezetének vizsgálatakor a 1982. évi 17. számú törvényerejű rendeletnek a névviselésre vonatkozó része szerint járunk el.
CÍMTISZTÍTÁS
Címtisztítás során a címeket egységes formátumúra alakítjuk, bennük az elgépeléseket, hibákat javítjuk, a hiányosságokat kiegészítjük, a régi utcaneveket az aktuálisra cseréljük. Ezzel a szolgáltatással kiküszöbölhetők a címlisták hiányosságai és elavultsága. A rövidítések (pl. u., krt., sgt.) feloldása tovább emeli a címadatok megbízhatóságát.
A címek javításakor is az elemekre bontás és elemenként történő javítás a célravezető. A cím elemeit (irányítószám, település, közterület stb.) javításuk után összefűzve megkapjuk a javított, teljes címet. A cím elemeire bontása a címadatok új informatikai rendszerekbe történő migrációja során ma már elengedhetetlen kívánalom. Az újabb fejlesztésű rendszerekben ugyanis a címek elemeit már önálló mezőkben tároljuk, ellentétben a régi rendszerekre jellemző, ömlesztett módon történő tárolással. Ez a megoldás lehetőséget ad arra is, hogy lakóhely vagy telephely szerint elkülönített célcsoportokat azonosítsunk ügyfeleink között.
A címek helyességének megállapítása, illetve címadatok javításához referencia- adatbázist használunk.
E-MAIL-CÍMEK TISZTÍTÁSA
Az adatbázisunkban tárolt e-mail-címek egy része általában rögzítési, gépelési hiba miatt hibás. Ezekre a címekre nem tudunk e-mail-t küldeni. A hibák részben, különösen a tipikus hibák, javíthatók. Javított e-mail címeink érvényes, használható adatokká válnak.
Az e-mail-címek javításakor mind algoritmikus feldolgozás, mind referencia-adatbázissal történő összehasonlítás végezhető.
TELEFONSZÁMOK TISZTÍTÁSA
A telefonszámok tisztítása során a formai ellenőrzésekkel megvizsgáljuk, hogy az adott telefonszám megfelel-e a Magyarországon használatos telefonszámok formátumának, amelyben megkülönböztetünk budapesti, vidéki, mobil- valamint közérdekű és speciális telefonszámokat. Ezen kívül tartalmi ellenőrzés mentén a magyarországi hivatalos körzetszám referencia-adatbázis alapján validáljuk a körzetszámokat és szabványos formátumúra alakítjuk a telefonszámokat.
OKMÁNYSZÁMOK, AZONOSÍTÓK TISZTÍTÁSA
Magyarországon a különböző, személyazonosításra alkalmas okmányok (pl. személyazonosító igazolvány száma, útlevélszám) és egyéb azonosítók (pl. adóazonosító jel, TAJ), valamint a vállalkozások azonosítására alkalmas azonosítók (pl. adószám, cégjegyzékszám, TEÁOR-kód), illetve a bankszámlaszámok részben algoritmikusan ellenőrizhetők, részben referenciaszótárhoz hasonlíthatók.
Adatminőség-biztosítási megoldásainkról itt talál egy rövid ismertetőt.