Adattisztítás általában
Előző posztunkban ismertettük az adat- vagy információminőség-biztosítás néhány alapfogalmát. A következőkben az adatminőség-biztosítás egyik alappilléréről, az adattisztításról lesz szó, először általában.
Adatok gyűjtése, tárolása minden szervezetnél fontos feladat. Az, hogy milyen adatokat kell gyűjteni, függ az adott szervezet tevékenységi körétől, profiljától – de valamilyen adatok gyűjtése biztosan része a működésnek, mint például ügyfeleink személyes vagy céges azonosító adatai, partnereink elérhetőségi adatai, a gyártott termékeink vagy szolgáltatásaink jellemzői, az árukészletünk jellemzői.
Adattisztítás: az első lépés az adatminőség felé
Nyilvánvaló az az igényünk, hogy az adataink pontosak, hiánytalanok legyenek. Azonban a tapasztalat azt mutatja, hogy az adatok hiányosak és vannak bennük hibák. Más szóval: az adatok minősége nem kifogástalan. Mit értünk adatminőség alatt? Adatminőség alatt azoknak az elvárásoknak az együttesét értjük, amelyeket a valós világ valamely objektumát az informatikai rendszerben képviselő, majd onnan kinyerhető adat és a valóságos objektum közötti eltérés mértékére megfogalmazunk. Ha nincs eltérés vagy az eltérés kicsi, akkor az adat minősége jó.
Az adat minőségét befolyásoló elvárások között – a valós világ leképezésén túl – kiemelt szerepet játszik az adatot gyűjtő szervezet belső működéséből következő igények (pl. tárolandó adatkörök) és a külső szabályozási környezet által előírt törvényi követelmények (pl. névviselési törvény által meghatározott névstruktúra, adószám-képzési algoritmus).
Mit tehetünk, ha adataink minősége nem felel meg céljainknak? Adattisztítási szolgáltatások segítségével javítsunk a minőségén! Az adatbázisokban található nem megfelelő minőségű, helytelen értékeket tartalmazó működési adatok javítására, “tisztítására”, a helyes értékek meghatározására két fő megoldási modell létezik:
- Algoritmikus vizsgálat, ahol a vizsgált adaton bizonyos matematikai algoritmusok használatával kikövetkeztethető, megállapítható a helyes érték (pl. CDV-ellenőrzés, mezők konzisztenciájának ellenőrzése).
- Referencia-adatbázis használata, ahol a vizsgált adat egy helyes értékeket tartalmazó, hiteles referencia-adatbázissal kerül összeghasonlításra, és az alapján állapítjuk meg a helyes értéket (pl. utónevek adatbázisa, telefon körzetszámok adatbázisa, elgépelt vagy rövidített településnevek adatbázisa).
Az adattisztítás gyakorlati megoldásait következő posztunkban mutatjuk be részletesen.
Adatminőség-biztosítási megoldásainkról itt talál egy rövid ismertetőt.