Az adattisztításról általában
Előző posztunkban ismertettük az adat- vagy információminőség-biztosítás néhány alapfogalmát. Most az adatminőség-biztosítás egyik alappilléréről, az adattisztításról lesz szó, először általánosságban.
Adatok gyűjtése, tárolása minden szervezetnél fontos feladat. Az, hogy milyen adatokat kell gyűjteni, függ az adott szervezet tevékenységi körétől, profiljától – de valamilyen adatok gyűjtése biztosan része a vállalati működésnek, mint például ügyfeleink személyes vagy céges azonosító adatai, partnereink elérhetőségi adatai, a gyártott termékeink vagy szolgáltatásaink jellemzői, az árukészletünk állása.
Bár olyan véleményeket is lehet hallani, hogy „tiszta adat márpedig nincs”, érdemes megnézni, miért is fontos az adataink tisztasága.
Tiszta és „piszkos” adatok
A tiszta adatok előnyei
Nézzük, milyen előnyökkel jár, ha a vállalat tiszta adatokkal dolgozik:
- A tiszta adatoknak köszönhetően javulnak az üzleti eredmények, és ez – a nem megfelelő minőségű adatokkal dolgozó cégekhez képest – komoly versenyelőnyt is jelenthet.
- Tiszta adatok nélkül nem lehetséges pontos elemzés és így valóban megalapozott döntéshozatal sem.
- A tiszta adatok növelik a vállalati működés hatékonyságát, az ügyfelek elégedettségét, szabályozott iparágakban pedig a megfelelés szempontjából fontosak.
A piszkos adatok kockázatai
Fentiekkel szemben a nem tiszta, vagy „piszkos” adatok jelentős kockázatot jelentenek a vállalati működés szempontjából:
- Az elsődleges kockázat a rossz döntéshozatal, mivel a pontatlan vagy hiányos adatok téves következtetésekhez és elhibázott stratégiákhoz vezethetnek, ez pénzügyi veszteségeket is okozhat.
- Az ügyfelek elégedettsége is sérülhet, ha a helytelen adatok téves megrendelésekhez, félreérthető ügyfélkommunikációhoz vagy nem megfelelő szolgáltatásnyújtáshoz vezetnek.
- A piszkos adatok akadályozhatják a vállalati rendszerek működését is, például egy ERP-rendszer bevezetését is nagyban hátráltathatják.
- Végül, a pontatlan adatok megnehezítik a különböző szabályozásoknak való megfelelést is, emiatt a vállalatot jogi szankciók, bírságok érhetik.
A „piszkos” adatok gyakori típusai
A „piszkos” adatok többféle formát is ölthetnek:
- A hiányzó adatok esete egyértelmű: lényeges információk (mint például telefonszám, e-mail-cím) hiányoznak az adatbázisból.
- Elavult adat lehet személyes adatok esetében a megváltozott telefonszám, e-mail-cím, munkahely vagy beosztás – vállalatok esetében a megváltozott cégnév (például beolvadás, felvásárlás miatt), cégforma (Kft., Zrt…), adószám, bankszámlaszám.
- Következetlen adatok akkor fordulnak elő, amikor az adatok formátuma, szerkezete nem egységes (például a keresztnév és a vezetéknév sorrendje változik, a telefonszámok eltérő formátumban szerepelnek), ami megnehezíti az összesítést és az elemzést.
- Hibás adatok gyakran már az adatbevitel során keletkezhetnek, ilyenek lehetnek az elütések, amelyek a bosszantó apróságokon túl akár komoly fennakadást is okozhatnak (például egy téves telefonszám vagy e-mail-cím esetében).
- Duplikációkról akkor beszélünk, amikor azonos rekordok többször is szerepelnek egy adatbázisban – ezekről később egy külön blogposztban részletesen is lesz szó.
Adatminőség
Nyilvánvaló az az igényünk, hogy az adataink pontosak, hiánytalanok legyenek. Azonban a tapasztalat azt mutatja, hogy az adatbázisokban tárolt adatok gyakran hiányosak és vannak bennük hibák – fentebb láthattuk, mennyiféle hibalehetőség fordulhat elő. Más szóval: az adatok minősége nem kifogástalan.
Mit értünk adatminőség alatt? Adatminőség alatt azoknak az elvárásoknak az együttesét értjük, amelyeket a valós világ valamely objektumát az informatikai rendszerben képviselő, majd onnan kinyerhető adat és a valóságos objektum közötti eltérés mértékére megfogalmazunk. Ha nincs eltérés vagy az eltérés kicsi, akkor az adat minősége jó.
Az adat minőségét befolyásoló elvárások között – a valós világ leképezésén túl – kiemelt szerepet játszik az adatot gyűjtő szervezet belső működéséből következő igények (pl. tárolandó adatkörök) és a külső szabályozási környezet által előírt törvényi követelmények (pl. névviselési törvény által meghatározott névstruktúra, adószám-képzési algoritmus).
Adattisztítás: az első lépés az adatminőség felé
Mit tehetünk, ha adataink minősége nem felel meg céljainknak? Adattisztítási szolgáltatások segítségével javítsunk a minőségén! Az adatbázisokban található nem megfelelő minőségű, helytelen értékeket tartalmazó működési adatok javítására, “tisztítására”, a helyes értékek meghatározására két fő megoldási modell létezik:
- Algoritmikus vizsgálat, ahol a vizsgált adaton bizonyos matematikai algoritmusok használatával kikövetkeztethető, megállapítható a helyes érték (pl. CDV-ellenőrzés, mezők konzisztenciájának ellenőrzése).
- Referencia-adatbázis használata, ahol a vizsgált adat egy helyes értékeket tartalmazó, hiteles referencia-adatbázissal kerül összeghasonlításra, és az alapján állapítjuk meg a helyes értéket (pl. utónevek adatbázisa, telefon körzetszámok adatbázisa, elgépelt vagy rövidített településnevek adatbázisa).
Az adattisztítás gyakorlati megoldásait következő posztunkban mutatjuk be részletesen. Adatminőség-biztosítási megoldásainkról itt talál egy rövid ismertetőt.
Lehet, hogy az Ön cégénél is felmerült már, hogy lenne mit javítani a vállalati adatvagyon minőségén? Miért ne beszéljünk erről egy csésze kávé mellett?