Generatív AI és adatvédelem (1. rész): adatvédelmi útmutató európai vállalatok számára
Közhely, hogy az AI szerepe egyre nő napjainkban – az LLM-ek nélkül szinte már elképzelhetetlen a vállalati működés számos területe, legyen bár szó a szoftverfejlesztésől, a HR-ről vagy akár a marketingről. Az AI és az adatvédelem kapcsolata viszont (a ChatGPT 2022-es indulása óta) állandó kérdéseket vet fel.
IT-cégként mi is gyorsan beletanultunk az AI-eszközök használatába, alkalmazzuk is a napi munkánkban – ahol lehet, nemcsak segédeszközként, hanem az általunk fejlesztett megoldások alkotórészeként is. Emellett az adatvédelem területén is komoly tapasztalatunk van: adatvédelmi megoldásainkkal (LINK) több ügyfelünket támogattuk már a szabályozásnak való megfelelésben.
Fenti szakértelem, tapasztalat birtokában hadd foglaljuk össze, mi hogyan látjuk az LLM-ek és az adatvédelem aktuális összefüggéseit, megosztva néhány jó gyakorlatot is.
Cikkünk első részében, AI adatvédelmi útmutatóként, az LLM-szolgáltatókat használó vagy használni szándékozó európai vállalatok számára a legfontosabb adatvédelmi fogalmakat és legjobb gyakorlatokat bontjuk ki. A későbbi második részben pedig kifejtjük, miért lehet jó megoldás a Microsoft Azure környezetben hostolt LLM-ek használata adatvédelmi szempontból, illetve megosztunk egy hasznos checklistát, amely segíthet az LLM-szolgáltatók adatvédelmi szempontból történő értékelésében.
Rövid összefoglaló… mert hosszú lesz
Az olyan generatív AI-eszközök, mint a nagy nyelvi modellek (LLM-ek) jelentős előnyöket ígérnek a vállalkozások számára, de komoly adatvédelmi szempontokat is felvetnek – különösen Európában a GDPR -rendelet miatt. Ha az Ön vállalata AI-szolgáltatást vesz igénybe (pl. ügyféladatok küldése a ChatGPT-nek vagy egy hasonló AI-eszköznek), gondoskodnia kell arról, hogy a személyes adatok kezelése jogszerűen és biztonságosan történjen. Ez a cikk az LLM-szolgáltatókat értékelő európai vállalatok számára a legfontosabb adatvédelmi fogalmakat és legjobb gyakorlatokat bontja ki. Az alábbiakban röviden összefoglaljuk a legfontosabb pontokat:
- Ismerje meg szerepkörét (adatkezelő kontra adatfeldolgozó) – a GDPR értelmében az Ön vállalatának továbbra is adatkezelőnek kell maradnia (eldöntve, hogy a személyes adatokat miért és hogyan használják fel), míg az LLM szolgáltatónak adatfeldolgozóként kell eljárnia (az adatokat csak az Ön nevében dolgozhatja fel). Ez a megkülönböztetés kulcsfontosságú: azt jelenti, hogy megfelelő adatfeldolgozási megállapodásra (DPA) és biztosítékokra van szüksége, hogy a szolgáltató nem fog visszaélni az Ön adataival.
- Ellenőrizze a szolgáltató adatkezelési szabályzatát – nem minden AI-szolgáltató kezeli egyformán az Ön adatait. Részesítse előnyben azokat a szolgáltatókat (például az OpenAI fizetős szolgáltatásait), amelyek alapértelmezetten nem végeznek képzést az Ön adatain, és nem osztják meg azokat másokkal. Győződjön meg arról, hogy az Ön által küldött adatokat nem használják fel a modelljeik javítására, hacsak Ön ezt kifejezetten nem engedélyezi.
- Adatvédelmi beállítások és eszközök használata – Használja ki az adatok nyilvánosságra kerülését korlátozó beállításokat. Az OpenAI API-ja például 30 nap után automatikusan törli a beküldött adatokat, és kérheti a zéró megőrzést, hogy az adatokat azonnal törölje. Fontolja meg az olyan lehetőségeket is, mint a csevegési előzmények letiltása (így a beszélgetési adatokat nem tárolják vagy használják fel a képzéshez), valamint a regionális feldolgozás kiválasztása, hogy az adatok Európában maradjanak.
- Fontolja meg az uniós adatrezidenciát – a GDPR szigorú adattovábbítási szabályai miatt célszerű az adatokat a régióban tartani. Az OpenAI mostantól európai adatrezidenciát kínál az API és a ChatGPT Enterprise számára, biztosítva, hogy a kéréseket az EU szerverein dolgozzák fel, és az adatokat nem tárolják a többi szerveren. Ez segít az uniós adatszuverenitási követelményeknek való megfelelésben.
- Az Azure-hostolt LLM-ek kihasználása a nagyobb kontroll érdekében – az LLM-ek Microsoft Azure-on keresztül történő telepítése extra kontrollt biztosíthat az adatok tartózkodási helye, a hozzáférés és a naplózás felett. Az Azure OpenAI szolgáltatása az Ön által kiválasztott régióban tartja az adatokat, és nem osztja meg azokat az OpenAI-val vagy másokkal. A megfelelőség kikényszerítése érdekében integrálhatja a vállalat biztonsági ellenőrzéseivel (Azure AD, magánhálózatok, auditnaplók).
Összefoglalva, az európai vállalatoknak az LLM-szolgáltatókat nemcsak a teljesítményük, hanem az adatvédelmi garanciáik alapján is értékelniük kell. A következő fejezetek mélyebben foglalkoznak az egyes pontokkal, és javaslatokat adnak arra nézve, hogyan használhatjaa generatív AI-t GDPR-kompatibilis módon.
Szerepkörök: adatfeldolgozó és adatkezelő
A GDPR értelmében minden olyan személyes adat, amelyet az Ön cége kezel, két szerepkör egyikét foglalja magában: adatkezelő vagy adatfeldolgozó. Az adatkezelő az a szervezet, amely meghatározza a személyes adatok feldolgozásának céljait („miért”) és eszközeit („hogyan”). Más szóval, ha az Ön szervezete úgy dönt, hogy az ügyféladatokat egy AI-szolgáltató platformján használja fel, akkor az Ön szervezete adatkezelőként jár el. Másfelől, az adatfeldolgozó olyan szervezet, amely az adatkezelő nevében és utasításai szerint dolgozza fel a személyes adatokat – jellemzően egy harmadik fél szolgáltató, például egy LLM-szolgáltató.
Ez a megkülönböztetés nagy jelentőséggel bír az LLM-ekkel való munka során, mivel ez határozza meg, hogy a GDPR értelmében ki miért felelős. Ha Ön személyes adatokat küld (mondjuk egy ügyfél nevét vagy egy csevegés átiratát) egy mesterséges intelligencia-modell szolgáltatásnak, még mindig az Ön cége jogilag az adatkezelő, és az AI-szolgáltatónak ideális esetben adatfeldolgozóként kellene működnie.
Miért fontos ez? Ha az AI-szolgáltató pusztán adatfeldolgozóként viselkedik, akkor az Ön adatait csak az Ön által megadott célokra használja fel, és semmi másra nem. Ez megkönnyíti a GDPR-megfelelőséget – az Ön cége megtartja az irányítást, a szolgáltatót pedig szerződéses kötelezettségei kötik a GDPR-előírásokhoz (titoktartás, biztonság, kérésre történő törlés stb.). Ha azonban a szolgáltató az Ön adatait saját céljaira használja fel (például a modelljei képzésére vagy elemzésekre), akkor közös adatkezelőnek vagy külön adatkezelőnek minősülhet, ami bonyolítja a helyzetet. Ebben az esetben aggódnia kell az adatok felhasználásának jogalapja miatt, és tájékoztatnia kell a felhasználókat arról, hogy az adataikat ilyen módon felhasználhatják.
Összefoglalva, mindig tisztázza, hogy az AI-szolgáltatója adatfeldolgozóként fog-e eljárni. Ha egy szállító nem tudja elfogadni a GDPR által megszabott adatfeldolgozói kikötéseket, az egy figyelmeztető jel arra, hogy az adatokat az Ön ellenőrzése nélkül használhatják fel – ami potenciálisan megfelelési kockázatoknak teheti ki vállalatát.
Az OpenAI uniós megfelelőségi szabályzata és adatkezelési irányelvei
Az OpenAI az egyik vezető LLM-szolgáltató ( a GPT-4, a ChatGPT stb. révén vált ismertté), amely lépéseket tett az EU adatvédelmi követelményeihez való igazodás érdekében, hogy szolgáltatásai vállalkozásbarátok legyenek. Íme az OpenAI adatkezelési politikájának és az uniós megfelelőségi szabályzatánbak nek néhány, a döntéshozók számára releváns fő szempontja:
- Alapértelmezetten nincs képzés az API-n át küldött adatok felhasználásával: március 1-től az OpenAI kötelezettséget vállalt arra, hogy nem használja fel az API-n keresztül beküldött adatokat a modelljei képzéséhez vagy javításához, kivéve, ha az ügyfél kifejezetten beleegyezik. Az OpenAI saját szavaival élve: „alapértelmezés szerint a … API platformról származó üzleti adatokat (2023. március 1. után) nem használjuk fel modelljeink képzéséhez”. Ez alapvető fontosságú – ez azt jelenti, hogy ha az Ön vállalata az OpenAI API-ját használja az adatok feldolgozására, akkor ezek az adatok később nem fognak újra felbukkanni valamelyik jövőbeli modell képzési készletében. Az Ön saját vagy személyes adatai az Ön kérésének kiszolgálására korlátozódnak. (Ne feledje, hogy ez a szabályzat az API-ra és a vállalati szolgáltatásokra vonatkozik; a nyilvános ChatGPT weboldal egyéni felhasználóként történő használata más – ezek a beszélgetések felhasználhatók a képzéshez, hacsak Ön nem tiltja le ezt a beállításokban).
- Adatmegőrzési és naplózási politika: Az OpenAI API-szolgáltatása alapértelmezés szerint az API-bemeneteket és -kimeneteket legfeljebb 30 napig őrzi meg bizalmi és biztonsági okokból (pl. a visszaélések nyomon követése céljából), ezt követően az adatokat törli. Egyértelműen leszögezik, hogy 30 nap elteltével az adatokat eltávolítják a rendszereikből, hacsak jogszabály másként nem írja elő. Fontos, hogy az OpenAI „zéró adatmegőrzési” opciót kínál az erre igényt tartó minősített ügyfelek számára – vagyis kérheti, hogy még a 30 napos naplózásról is lemondjanak, így az OpenAI az egyes kérések feldolgozásán túl egyáltalán nem tárolja az utasításokat vagy kimeneteket. A legtöbb érzékeny adatokat kezelő európai vállalat számára ez a nulla adatmegőrzési konfiguráció rendkívül vonzó, mivel minimálisra csökkenti az adatok visszamaradását. (Általában ezt az opciót az OpenAI értékesítési vagy ügyfélszolgálati csapatával kell megbeszélnie, hogy engedélyezzék a fiókja vagy az adott végpontok számára).
- Adattulajdonlás és adatvédelmi jellemzők: Az OpenAI kifejezetten kimondja, hogy az API (vagy az üzleti szolgáltatások) bemenetei és kimenetei az ügyfelek tulajdonát képezik. Más szóval, ha szöveget vagy adatot küld, az még mindig az Öné. Emellett az OpenAI vállalati ajánlatai adatvédelmi funkciókkal rendelkeznek – például a ChatGPT Enterprise lehetővé teszi az adminisztrátor számára, hogy szabályozza, mennyi ideig tartják meg a csevegési előzményeket (a zéró megőrzés lehetőségével), valamint titkosítást és hozzáférés-szabályozást biztosít. Az OpenAI olyan harmadik fél által végzett biztonsági ellenőrzéseken esett át, mint a SOC 2 Type II, ami azt jelzi, hogy belső ellenőrzéseik megfelelnek az adatvédelemre vonatkozó iparági szabványoknak. Mindezen intézkedések (korlátozott adatfelhasználás, rövid megőrzés, titkosítás stb.) összhangban vannak a GDPR olyan elveivel, mint az adatok minimalizálása és a tárolás korlátozása.
- Európai adatrezidencia: Az OpenAI az uniós ügyfelek igényeire reagálva nemrégiben bevezette az európai adatrezidenciát bizonyos szolgáltatások esetében. 2025 elejétől az API-ügyfelek (és az új ChatGPT Enterprise/Edu ügyfelek) dönthetnek úgy, hogy adataikat teljes egészében európai adatközpontokban dolgozzák fel és tárolják. Ha ezt engedélyezi, az API-kérelmeket az EU-ban található szervereken kezelik, és megjegyzendő, hogy az OpenAI nem tárolja a nyugvó adatokat („zéró adatmegőrzés”) sem ezeken az uniós szervereken. Gyakorlatilag az Ön kérései és a modell válaszai nem hagyják el Európát, és nem kerülnek hosszú távú mentésre. Ez a funkció segít a vállalatoknak az „adatszuverenitási” követelményeknek való megfelelésben (vegye figyelembe, hogy az EU-s adatrezidencia engedélyezéséhez vállalati ügyfélnek kell lennie, és egy új projektet kell létrehoznia, amely az EU régióhoz kapcsolódik).
Összefoglalva, az OpenAI úgy alakította ki irányelveit, hogy azok az uniós vállalatok számára adatvédelmi szempontból előnyösebbek legyenek: az API-adatokat nem használják fel a modellek képzéséhez, az adatokat csak rövid ideig tárolják (vagy egyáltalán nem, ha Ön úgy dönt), és még arra is van lehetősége, hogy az adatfeldolgozást Európára korlátozza. További információkért olvassa el az OpenAI adatvédelmi szabályzatát.
API-beállítások: miért fontosak?
Még egyre érdemes odafigyelni, az AI-szolgáltatások esetében nagyban befolyásolja a megfelelőség megőrzését az, hogyan konfiguráljuk és használjuk az adott platform API szolgáltatását.. Az alábbiakban bemutatjuk a legfontosabb beállításokat és gyakorlatokat, amelyeket figyelembe kell venni egy LLM szolgáltatások API-ban (az OpenAI API-ját használva példaként):
- Adatnaplózási és -megőrzési beállítások: Mint említettük, az OpenAI alapértelmezett API-adatmegőrzési beállítása 30 nap a visszaélések megfigyelése céljából. Ha az Ön esetében személyes vagy érzékeny adatokról van szó, értékelnie kell, hogy a 30 nap elfogadható-e, vagy inkább a nulla megőrzésre kell törekednie. Sok vállalat preferálja, hogy a kérések/eredmények másolatai ne legyenek tárolva a szolgáltató oldalán. Tipp: Az OpenAI esetében kérjen zéró adatmegőrzést (ZDR) a jogosult végpontokhoz – ez úgy konfigurálja az API-t, hogy az utasítások és a kimenetek nem kerülnek naplóba. Ez a beállítás segít minimalizálni a személyes adatok nyomait, és megkönnyíti a GDPR-megfelelőséget (mivel kisebb a jogosulatlan hozzáférés vagy a túlzott megőrzés kockázata). Ha nem kaphat ZDR-t, legyen tisztában a 30 napos időablakkal, és gondoskodjon arról, hogy ez szerepeljen az adatvédelmi dokumentációjában.
- Az adatok képzési célú felhasználásának letiltása: Az OpenAI esetében ez az alapértelmezett az üzleti API-felhasználók számára (nincs képzés az Ön adatain), de mindig ellenőrizze az Ön által használt bármely szolgáltatás szabályzatát. Egyes szolgáltatóknál előfordulhat, hogy aktívan le kell mondania, vagy át kell kapcsolnia egy beállítást, hogy az adatait ne használják fel a modelljeik fejlesztésére. Ha például olyan platformot használ, amely AI API-t kínál, keressen egy „ne használd az adataimat” beállítást a műszerfalon vagy a fiókbeállításokban. A ChatGPT (webes felhasználói felület) belső használata esetén biztosítsa, hogy az alkalmazottak kikapcsolják a csevegési előzményeket, ha érzékeny adatokat kezelnek – az OpenAI a ChatGPT beállításaiban az „Adatkezelés” nevű kapcsoló segítségével a felhasználók kikapcsolhatják a csevegési előzményeket, ami azt jelenti, hogy ezeket a beszélgetéseket nem használják fel a modellek képzéséhez, és 30 napon belül törlik az OpenAI rendszereiből. Hozzon létre olyan vállalati szabályzatot, amely szerint a nyilvános AI-eszközök bármilyen használatakor engedélyezni kell az ilyen adatvédelmi beállításokat.
- EU-régiós végpontok használata: Ha a szolgáltatója regionális végpontokat vagy adatrezidencia-lehetőségeket kínál, használja ki azokat. Az OpenAI API-jával, ha hozzáférése van az EU régióhoz, győződjön meg róla, hogy integrációja az európai API végpontra mutat (pl. https://eu.api.openai.com az alapértelmezett amerikai végpont helyett). Hasonlóképpen, számos felhőalapú AI-szolgáltatás lehetővé teszi a régió kiválasztását a modell telepítésekor. Az uniós adatközpont kiválasztása alacsonyabb szabályozási kockázatot biztosít a GDPR értelmében (nincs szükség adatexport-klauzulákra), és gyakran jobb késleltetési időt biztosít az európai felhasználók számára. Győződjön meg arról, hogy az összes API-hívás és a tárolt finombeállítási adatok valóban a kiválasztott régióban vannak-e. (Az OpenAI dokumentációja megjegyzi, hogy ha véletlenül rossz végpontot használ egy EU-konfigurált projekthez, a kérés hibásan fog lezajlani, ezért fontos a konfiguráció pontossága.)
- A küldött adatok ellenőrzése: Ne feledje az adatminimalizálás elvét – csak a feladathoz szükséges adatokat küldje el az LLM-nek. Az API nem fogja tudni megkülönböztetni a valódi személyes adatokat az Ön promptjában szereplő anonimizált adatoktól, ezért az Ön feladata, hogy lehetőség szerint a küldés előtt eltávolítsa vagy álnevesítse a személyes azonosítókat. Például ahelyett, hogy egy teljes ügyfélrekordot küldene el egy összefoglalóhoz, a nevet, az e-mail címet vagy az azonosítószámot helyettesítheti helyőrzőkkel. Így, még ha valamit naplóznak vagy meg is őriznek, az nem közvetlenül azonosítható. Egyes vállalatok olyan előfeldolgozási réteget valósítanak meg, amely automatikusan redukálja a személyes adatokat a kérésekből. Ez nem egy szó szerinti „beállítás” az API-ban, de ez egy alapvető fontosságú gyakorlat a megfelelőség megőrzéséhez és a kockázat csökkentéséhez.
Összefoglalva, az AI API biztonságos használata nem csak a szolgáltató ígéreteiről szól, hanem a rendelkezésre álló adatvédelmi beállítások használatáról és a megfelelő adathigiéniáról is. Kapcsoljon ki mindent, ami nem szükséges (adatmegosztás, kiterjedt naplózás), engedélyezze az adatvédelmet fokozó funkciókat (regionális feldolgozás, zéró megőrzés), és érvényesítse a belső szabályokat arra vonatkozóan, hogy milyen adatok küldhetők. A szolgáltatás átgondolt konfigurálásával jelentősen csökkentheti az adatvédelmi kockázatokat, miközben a generatív mesterséges intelligencia előnyeit is élvezheti.
Összegzés
Az adatvédelem olyan kritikus szempont, amelyen keresztül minden európai vállalatnak értékelnie kell a generatív AI-megoldásokat. A GDPR követelményeit – az adatkezelő/feldolgozó szerepek megértésétől az adatminimalizálás és a biztonság érvényesítéséig – akkor is be kell tartani, ha a feldolgozó „agy” egy mesterséges intelligencia modell. Az LLM-szolgáltató kiválasztásának és használatának legjobb európai gyakorlatai tehát összefoglalva a következők:
- Ragaszkodjon a GDPR-megfeleléshez a kezdetektől fogva: Csak olyan szolgáltatókat vegyen igénybe, akik hajlandóak adatfeldolgozási kiegészítést aláírni és adatfeldolgozóként eljárni. Ellenőrizze, hogy hol fogják tárolni és feldolgozni az adatait, és ehhez milyen biztosítékok vannak érvényben. Ha egy szolgáltató nem tud egyértelműen válaszolni ezekre a kérdésekre, vagy hezitál a megfelelőségi kötelezettségvállalásokkal kapcsolatban, tekintse ezt komoly figyelmeztető jelnek.
- Válassza az adatvédelmi irányelvekkel rendelkező szolgáltatókat: Az olyan jellemzők, mint az ügyféladatokra vonatkozó képzés mellőzése, az adatok alapértelmezett rövid megőrzése és az adatmegőrzési lehetőségek több mint előnyök azt jelzik, hogy a szolgáltató komolyan veszi az adatvédelmet. Az OpenAI üzleti szolgáltatásokkal kapcsolatos megközelítése az egyik példa az ezen elvekhez való igazodásra. Más szolgáltatók eltérő modellekkel rendelkezhetnek, de az alapgondolat az, hogy olyan AI-szolgáltatást válasszon, amely a lehető legkisebbre csökkenti az adataii felhasználását az azonnali feladaton túl.
- Használja ki az eszközök beállításait a megfelelés érdekében: Vegye igénybe az olyan beállításokat, mint az adattörlés vezérlése, a régió kiválasztása és az adatvédelmi kapcsolók. Belsőleg hozzon létre irányelveket az alkalmazottak számára a mesterséges intelligencia használatára vonatkozóan (pl. bizonyos személyes adatokat csak jóváhagyás után szabad beírni egy promptba). Tartson rendszeres képzést, hogy a munkatársak megértsék az általuk a mesterséges intelligenciával kapcsolatos adatok érzékenységét. Ne feledje, a GDPR-megfelelés nem csak egyszeri konfiguráció – ez egy folyamatos irányítási és felügyeleti folyamat.
- Fontolja meg a saját tárhelyen tárolt vagy hibrid megoldásokat az érzékeny adatok esetében: Ha az adatok rendkívül érzékenyek vagy szabályozottak, értékelje az olyan lehetőségeket, mint az Azure OpenAI vagy akár a nyílt forráskódú LLM-ek házon belüli hosztolása. Ezek nagyobb biztosítékot nyújthatnak arra, hogy illetéktelenek soha nem látják az adatokat, mivel Ön ellenőrzi a környezetet. Mindezek velejárója természetesen az, hogy az Ön IT-csapatára nagyobb felelősség hárul az infrastruktúra és a biztonság kezelésében.
- Kövesse nyomon a szabályozás alakulását: A mesterséges intelligencia szabályozása folyamatosan fejlődik. Az EU jelenleg tárgyalja a mesterséges intelligenciáról szóló törvényt, és az adatvédelmi hatóságok egyre inkább vizsgálják a mesterséges intelligencia szolgáltatásait. Maradjon naprakész az európai szabályozó hatóságok iránymutatásairól – az olasz adatvédelmi hatóság például a ChatGPT 2023-as ideiglenes betiltása után iránymutatásokat adott ki, a francia CNIL és mások pedig AI-felügyeleti ajánlásokat tettek közzé. Ha naprakészen követi ezeket, az segíteni fog abban, hogy kiigazítsa irányelveit, és olyan szolgáltatókat válasszon, amelyek nem csak a mai szabályoknak, hanem a holnap elvárásainak is megfelelnek.
Összefoglalva, egy LLM szolgáltató értékelése nemcsak a modell minőségéről vagy a költségeiről, hanem a bizalomról és a jogi megfelelésről is szól. Az adatáramlás megértésével és az erős adatvédelmi biztosítékokhoz való ragaszkodással az európai vállalatok magabiztosan alkalmazhatják a generatív mesterséges intelligenciát. Mindig tegyük fel a kérdést: Hová kerülnek az adataink? Ki láthatja őket? Meddig maradnak ott? Mire használják fel? A jó szolgáltató egyértelmű, megnyugtató válaszokat ad, amelyeket technikai intézkedések és szerződési feltételek támasztanak alá. A megfelelő körültekintéssel és konfigurációval Ön kiaknázhatja az AI értékét vállalata számára, miközben tiszteletben tartja az adatvédelmi előírásokat is.
Folytatása következik…
Az Ön cégénél milyen AI-eszközöket használnak? Milyen tapasztalatai vannak az OpenAI-n és a Microsoft eszközein kívül? Vannak olyanok, amelyek a magas kockázatúak közé sorolhatók az uniós AI-rendelet szerint?