Adattisztítás általában

Előző posztunkban ismertettük az adat- vagy információminőség-biztosítás néhány alapfogalmát. A következőkben az adatminőség-biztosítás egyik alappilléréről, az adattisztításról lesz szó, először általában.

adattisztítás,adattisztítás a gyakorlatban

Adatok gyűjtése, tárolása minden szervezetnél fontos feladat. Az, hogy milyen adatokat kell gyűjteni, függ az adott szervezet tevékenységi körétől, profiljától – de valamilyen adatok gyűjtése biztosan része a működésnek, mint például ügyfeleink személyes vagy céges azonosító adatai, partnereink elérhetőségi adatai, a gyártott termékeink vagy szolgáltatásaink jellemzői, az árukészletünk jellemzői.

Adattisztítás: az első lépés az adatminőség felé

Nyilvánvaló az az igényünk, hogy az adataink pontosak, hiánytalanok legyenek. Azonban a tapasztalat azt mutatja, hogy az adatok hiányosak és vannak bennük hibák. Más szóval: az adatok minősége nem kifogástalan. Mit értünk adatminőség alatt? Adatminőség alatt azoknak az elvárásoknak az együttesét értjük, amelyeket a valós világ valamely objektumát az informatikai rendszerben képviselő, majd onnan kinyerhető adat és a valóságos objektum közötti eltérés mértékére megfogalmazunk. Ha nincs eltérés vagy az eltérés kicsi, akkor az adat minősége jó.

Az adat minőségét befolyásoló elvárások között – a valós világ leképezésén túl – kiemelt szerepet játszik az adatot gyűjtő szervezet belső működéséből következő igények (pl. tárolandó adatkörök) és a külső szabályozási környezet által előírt törvényi követelmények (pl. névviselési törvény által meghatározott névstruktúra, adószám-képzési algoritmus).

Mit tehetünk, ha adataink minősége nem felel meg céljainknak? Adattisztítási szolgáltatások segítségével javítsunk a minőségén! Az adatbázisokban található nem megfelelő minőségű, helytelen értékeket tartalmazó működési adatok javítására, “tisztítására”, a helyes értékek meghatározására két fő megoldási modell létezik:

  • Algoritmikus vizsgálat, ahol a vizsgált adaton bizonyos matematikai algoritmusok használatával kikövetkeztethető, megállapítható a helyes érték (pl. CDV-ellenőrzés, mezők konzisztenciájának ellenőrzése).
  • Referencia-adatbázis használata, ahol a vizsgált adat egy helyes értékeket tartalmazó, hiteles referencia-adatbázissal kerül összeghasonlításra, és az alapján állapítjuk meg a helyes értéket (pl. utónevek adatbázisa, telefon körzetszámok adatbázisa, elgépelt vagy rövidített településnevek adatbázisa).

Az adattisztítás gyakorlati megoldásait következő posztunkban mutatjuk be részletesen.

Adatminőség-biztosítási megoldásainkról itt talál egy rövid ismertetőt.