Duplikátumok

Korábbi blogposztunkban a nem tiszta vagy „piszkos” adatok típusai között említettük a duplikátumokat (tehát amikor azonos rekordok többször is szerepelnek egy adatbázisban) – most ezekről lesz szó kicsit részletesebben.

duplikátumok

A duplikátumok hátrányait talán nem kell különösebben bemutatni: ha ugyanaz a személy vagy cég többször szerepel egy adatbázisban, és ezért többször kap meg egy ügyféltájékoztató levelet vagy többször hívják fel ugyanabban az ügyben, ez ronthatja az ügyfél elégedettségét, ráadásul a két- vagy többszörös levél- vagy emailküldés, telefonhívás stb. felesleges költséggel és adminisztrációval is jár.

Deduplikáció az adatminőség-biztosítási folyamatban

Éppen ezért az adatminőség-biztosítási folyamat egyik legfontosabb lépése általában a rendszerekben megtalálható duplikátumok kimutatása és feldolgozása. (Természetesen, amikor duplikációról beszélünk, akkor általában tudjuk, hogy nem csak két rekord lehet egyforma, hanem akár több példányban is szerepelhet egy entitás az adatbázisban. Tehát a helyes elnevezés multiplikáció lenne, azonban az általános elterjedt szóhasználat és a könnyebb értelmezés miatt a duplikáció szakkifejezést használjuk.)

A duplikátumok felderítése annál eredményesebb lesz, minél jobb minőségűek az azonosításra leginkább használható adatok. Például természetes személyek esetében a név, születési hely, születési dátum, jogi személyek esetében az adószám, a cégjegyzékszám tekinthető azonosításra leginkább alkalmas adatnak. Ha ezek az adatok nem megfelelő minőségűek, akkor a duplikátumfelderítés előtt erősen ajánlott adattisztítást végezni.

Természetesen az adatok sohasem lesznek hibátlanok, tehát a duplikátumkeresést végső soron többé-kevésbé hiányos, hibás adatokon kell elvégezni. Ez azt jelenti, hogy nem lehet a megfelelő mezők értékének pontos egyezőségére alapozni a keresést, hanem hasonlósági kritériumokat kell megfogalmazni. Jó duplikátumkereső algoritmusok használatával még mérsékelten hibás adatok között is meg lehet találni a valószínű duplikátumcsoportokat, amelyek nagy részét az emberi felülvizsgálat is igazolja.

Duplikációkeresés

A duplikációkeresés során algoritmikus módszerekkel felderítjük és kilistázzuk, hogy melyek az azonos entitások, azaz ügyfelek, illetve termékek. Ehhez duplikátumcsoportokat képzünk, amelyen az azonos egyedhez tartozó, egynél nagyobb elemű rekordhalmazt értjük. A feladat az azonos egyedet képviselő rekordok csoportokba sorolása.

Master record képzése

Ha nem cél vagy nem lehetséges a teljes deduplikálás, például mert több megmaradó rendszerben szerepelnek a duplikátumcsoport egyes elemei, akkor célszerű minden csoporthoz egy-egy ún. master recordot készíteni. A master record alapja a legnagyobb prioritású rendszerben szereplő rekord lehet, amit szükség és indokoltság esetén a többi rendszer adataiból is frissíthetünk, kiegészíthetünk. A master record általában a csak legfontosabb ügyfél(azonosító) adatokat tartalmazza, és esetleg az üzleti tevékenység szempontjából legfontosabb néhány további adatot.

A duplikátumok feloldása (deduplikáció)

A duplikátumok felderítése után a következő lépés a duplikátumok megszüntetése (a deduplikáció). Ez konkrétan úgy történik, hogy minden duplikátumcsoportban kijelöljük a megtartandó rekordot, a többit pedig megszüntetjük.

A megtartandó rekord kijelölése történhet azon az alapon, hogy melyiknek legjobb minőségűek az adatai, de néha ennél bonyolultabb a feladat. Azokat az entitásokat, például termékeket, amelyek a duplikátumcsoport egyes rekordjaihoz tartoznak, a megszüntetendő rekordokról le kell választani, és a megmaradó rekordhoz kell kötni. Az esetek egy részében itt technikai korlátokba ütközünk. Előfordulhat, hogy valamely terméket nem lehet vagy rentábilisan nem lehet átsorolni másik ügyfélrekordhoz: ilyenkor kényszerűen az a rekord lesz a megmaradó, amelyhez eleve kapcsolódik ilyen termék.

A DSS Consulting és a deduplikáció

Előző posztunkban röviden kitértünk a DSS adattisztítási referenciáira – most néhány példán keresztül bemutatjuk, milyen tapasztalatokkal rendelkezünk a duplikátumok javítása terén.

  • Magyarország egyik vezető bankjánál a teljes körű adatminőség-biztosítási projekt részeként kidolgoztuk a rendszereken belüli és a rendszerek közötti duplikátumok felderítésének algoritmusát.
  • Egy olasz alapítású, de globális jelenléttel rendelkező medtech cég vállalatirányítási és CRM rendszerében összegyűlt ügyféladatok tisztítását és duplikátumkeresését végeztük a Quality Monitor szoftvercsomagunk segítségével.
  • Egy vezető telekommunikációs szolgáltatónál az új CRM-rendszerük bevezetéséhez kapcsolódó adataminőség-biztosítási feladatokat láttunk el, ennek része volt a duplikátumkeresés és a deduplikáció is.
  • Egy nagy biztosító-társaság központi ügyféltörzsének adatminőségi felmérését végeztük el, beleértve az ügyfélrekordok közötti duplikátumkeresést is.

Ezzel adatminőség-biztosítási sorozatunk végéhez értünk.

Adatminőség-biztosítási megoldásainkról itt talál egy rövid ismertetőt. Viszont, ha az Ön cégénél is felmerült már, hogy lenne mit javítani a vállalati adatvagyon minőségén, miért ne beszélgessünk erről egy csésze kávé mellett?