Generative KI & Datenschutz (Teil 1): KI-Datenschutzleitfaden für europäische Unternehmen
Es ist ein Klischee, dass die Rolle von KI heutzutage wächst. Ohne LLMs sind viele Bereiche der Unternehmensführung fast unvorstellbar, sei es Softwareentwicklung, HR oder sogar Marketing. Die Beziehung zwischen KI und Datenschutz ist jedoch (seit der Einführung von ChatGPT im Jahr 2022) ein ständiges Thema.
Als IT-Dienstleister setzen wir bei DSS Consulting KI aktiv in Projekten ein. Darüber hinaus haben wir auch eigene Lösungen zur Datenschutz entwickelt.
Auf der Grundlage des oben genannten Fachwissens und der Erfahrung möchten wir zusammenfassen, wie wir die derzeitige Beziehung zwischen LLM und Datenschutz sehen.
Aufgrund des Umfangs wird dieser Blogbeitrag in zwei Teile aufgeteilt – der erste befasst sich mit dem allgemeinen Kontext und bewährten Verfahren, während der zweite Teil speziell darauf eingeht, wie ein in der Microsoft Azure-Umgebung gehostetes LLM eine gute Lösung zur Gewährleistung des Datenschutzes sein kann.
TL;DR: 5 zentrale Datenschutzmaßnahmen beim Einsatz von LLMs
Generative KI-Tools wie große Sprachmodelle (LLMs) versprechen große Vorteile für Unternehmen, aber sie führen auch zu ernsthaften Überlegungen zum Datenschutz – insbesondere in Europa unter den Gesetzen der DSGVO. Wenn Ihr Unternehmen einen KI-Dienst nutzt (z. B. beim Senden von Kundendaten an ChatGPT oder ein ähnliches KI-Tool), müssen Sie sicherstellen, dass personenbezogene Daten rechtmäßig und sicher behandelt werden. In diesem Artikel werden die wichtigsten Datenschutzkonzepte und Best Practices für europäische Unternehmen, die LLM-Anbieter evaluieren, erläutert. Im Folgenden finden Sie eine kurze Zusammenfassung der wichtigsten Punkte:
- Verantwortlichkeiten klären (Controller vs. Processor): Nach der DSGVO sollte Ihr Unternehmen Verantwortlich für die Datenverarbeitung bleiben, (Sie entscheiden, warum und wie personenbezogene Daten verwendet werden), während ein LLM-Anbieter als Datenverarbeiter fungieren sollte (der Daten nur in Ihrem Namen verarbeitet). Diese Unterscheidung ist von entscheidender Bedeutung: Sie benötigen eine ordnungsgemäße Datenverarbeitungsvereinbarung (DPA) und die Zusicherung, dass der Anbieter Ihre Daten nicht missbrauchen wird.
- Die Datenverwendungsrichtlinie des Anbieters prüfen: Nicht alle KI-Anbieter behandeln Ihre Daten gleich. Bevorzugen Sie Anbieter (wie die kostenpflichtigen Dienste von OpenAI), die standardmäßig nicht mit Ihren Daten trainieren oder sie weitergeben. Stellen Sie sicher, dass alle von Ihnen gesendeten Daten nicht zur Verbesserung ihrer Modelle verwendet werden, es sei denn, Sie erlauben dies ausdrücklich.
- Datenschutz-Einstellungen nutzen: Nutzen Sie die Vorteile von Einstellungen, die die Datenexposition begrenzen. Beispielsweise löscht die API von OpenAI übermittelte Daten automatisch nach 30 Tagen, und Sie können Zero Retention anfordern, um Daten sofort zu löschen. Ziehen Sie auch Optionen wie die Deaktivierung des Chatverlaufs in Betracht (damit Konversationsdaten nicht gespeichert oder für Schulungen verwendet werden) und wählen Sie eine regionale Verarbeitung, damit die Daten innerhalb Europas bleiben.
- EU-Datenresidenz berücksichtigen: Aufgrund der strengen Regeln der DSGVO für Datenübertragungen ist es ratsam, Daten in der Region zu halten. OpenAI bietet jetzt eine europäische Datenresidenz für seine API und ChatGPT Enterprise an, die sicherstellt, dass Ihre Anfragen auf EU-Servern verarbeitet werden, ohne dass Daten im Hintergrund gespeichert werden. Dies hilft, die Anforderungen der EU an die Datensouveränität zu erfüllen.
- Von Azure gehostete LLMs für mehr Kontrolle entdecken: Die Bereitstellung von LLMs über Microsoft Azure kann Ihnen zusätzliche Kontrolle über Datenaufenthalt, -zugriff und -protokollierung geben. Der OpenAI-Service von Azure hält Ihre Daten in der von Ihnen gewählten Region und gibt sie nicht an OpenAI oder andere weiter. Sie können sie in die Sicherheitskontrollen Ihres Unternehmens (Azure AD, private Netzwerke, Audit-Protokolle) integrieren, um die Einhaltung von Vorschriften durchzusetzen.
Kurz gesagt: Europäische Unternehmen sollten LLM-Anbieter sowohl nach ihren Datenschutzgarantien als auch nach ihrer Leistung bewerten. Die folgenden Abschnitte gehen näher auf jeden dieser Punkte ein und geben Tipps, wie die generative KI-Nutzung DSGVO-konform gestaltet werden kann.
Verantwortlicher und Datenverarbeiter: Eine kurze Erklärung
Gemäß DSGVO nimmt jede Verarbeitung personenbezogener Daten eine der beiden Rollen ein:
- Verantwortlicher: bestimmt die Zwecke („warum“) und Mittel („wie“) der Verarbeitung.
Beispiel: Ihr Unternehmen entscheidet, Kundendaten über ein KI-Tool zu analysieren → Sie sind der Verantwortliche. - Datenverarbeiter: verarbeitet Daten im Auftrag des Verantwortlichen und nach dessen Anweisungen.
Beispiel: ein LLM-Anbieter, der Ihre Prompts verarbeitet, ohne eigene Zwecke zu verfolgen.
Diese Unterscheidung ist bei der Arbeit mit LLM von großer Bedeutung, da sie festlegt, wer im Rahmen der Datenschutz-Grundverordnung für was verantwortlich ist. Wenn Sie personenbezogene Daten (z. B. den Namen eines Kunden oder ein Chatprotokoll) an einen KI-Modell senden, ist Ihr Unternehmen rechtlich gesehen immer noch der für die Verarbeitung Verantwortlich, und der KI-Anbieter sollte idealerweise als Auftragsverarbeiter fungieren.
Warum ist das wichtig?
Wenn der Anbieter ausschließlich als Datenverarbeiter agiert, nutzt er Ihre Daten nur zu dem Zweck, für den Sie ihn beauftragt haben (z. B. Textgenerierung) und nicht für eigene Interessen. → Leichtere DSGVO-Compliance.
Wenn der Anbieter Ihre Daten jedoch auch für eigene Zwecke nutzt (z. B. Modelltraining, Analysen), wird er ggf. gemeinsam Verantwortlicher – das bedeutet zusätzlichen Aufwand und Informationspflichten.
Klären Sie also unbedingt, ob der Anbieter als Datenverarbeiter tätig wird. Kann oder will er keine DSGVO-konformen Vertragsbedingungen erfüllen? → Achtung: Compliance-Risiko!
OpenAIs EU-Compliance-Regeln und Datenpolitik
OpenAI ist einer der führenden LLM-Anbieter (bekannt für GPT-4, ChatGPT usw.) und hat Schritte unternommen, um seine Dienste unternehmensfreundlich an die EU-Datenschutzanforderungen anzupassen. Hier sind einige Schlüsselaspekte der Datenpolitik von OpenAI und der EU-Konformität, die für Entscheidungsträger relevant sind:
- Kein Training mit API-Daten als Standard: Ab dem 1. März 2023 hat sich OpenAI verpflichtet, die über die API übermittelten Daten nicht mehr zum Trainieren oder Verbessern seiner Modelle zu verwenden, es sei denn, der Kunde stimmt dem ausdrücklich zu. In OpenAIs eigenen Worten: „Standardmäßig werden Geschäftsdaten von … der API-Plattform (nach dem 1. März 2023) nicht für das Training unserer Modelle verwendet“. Dies ist von entscheidender Bedeutung – es bedeutet, dass, wenn Ihr Unternehmen die API von OpenAI zur Verarbeitung von Daten nutzt, diese Daten später nicht im Trainingssatz eines zukünftigen Modells wieder auftauchen werden. Ihre geschützten oder persönlichen Daten bleiben auf die Bearbeitung Ihrer Anfrage beschränkt. (Bitte beachten Sie, dass diese Richtlinie für die API und die Unternehmensdienste gilt; die Nutzung der öffentlichen ChatGPT-Website als Einzelperson ist etwas anderes – diese Unterhaltungen können für das Training verwendet werden, es sei denn, Sie deaktivieren dies in den Einstellungen).
- Richtlinie zur Datenspeicherung und Protokollierung: OpenAI speichert API-Eingaben und -Ausgaben aus Vertrauens- und Sicherheitsgründen (z. B. zur Überwachung von Missbrauch) standardmäßig maximal 30 Tage lang, danach werden die Daten gelöscht. Sie stellen klar, dass die Daten nach 30 Tagen aus ihren Systemen entfernt werden, sofern nicht gesetzlich anders vorgeschrieben. Das bedeutet, dass Sie beantragen können, dass sogar die 30-Tage-Protokollierung aufgehoben wird, so dass OpenAI Ihre Eingabeaufforderungen oder Ausgaben nicht über die Bearbeitung jeder Anfrage hinaus speichert. Für die meisten europäischen Unternehmen, die mit sensiblen Daten umgehen, ist diese Null-Speicher-Konfiguration äußerst attraktiv, da sie die verbleibenden Daten auf ein Minimum reduziert. (Normalerweise müssen Sie diese Option mit dem Vertriebs- oder Supportteam von OpenAI besprechen, um sie für Ihr Konto oder bestimmte Endpunkte zu aktivieren).
- Dateneigentum und Datenschutzfunktionen: OpenAI weist ausdrücklich darauf hin, dass die Kunden Eigentümer ihrer Inputs und Outputs aus der API (oder den Business Services) sind. Mit anderen Worten: Wenn Sie Text oder Daten übermitteln, gehören diese immer noch Ihnen. Darüber hinaus verfügen die OpenAI-Angebote für Unternehmen über Datenschutzfunktionen – bei ChatGPT Enterprise kann der Administrator beispielsweise festlegen, wie lange Chatverläufe aufbewahrt werden (mit der Option, sie nicht aufzubewahren), und bietet Verschlüsselung und Zugriffskontrolle. OpenAI hat sich Sicherheitsprüfungen durch Dritte unterzogen, z. B. SOC 2 Typ II, was bedeutet, dass die internen Kontrollen den Industriestandards für den Schutz von Daten entsprechen. All diese Maßnahmen (eingeschränkte Datennutzung, kurze Aufbewahrung, Verschlüsselung usw.) sind mit den Grundsätzen der DSGVO wie Datenminimierung und Speicherbegrenzung abgestimmt.
- Option der europäischen Datenresidenz: Als Reaktion auf die Bedürfnisse der EU-Kunden hat OpenAI vor kurzem die Datenresidenz in Europa für bestimmte Dienste eingeführt. Ab Anfang 2025 können API-Kunden (und neue ChatGPT Enterprise/Edu-Kunden) wählen, dass ihre Daten vollständig in europäischen Rechenzentren verarbeitet und gespeichert werden. Wenn Sie dies aktivieren, werden alle API-Anfragen auf Servern in der EU verarbeitet, und insbesondere wird OpenAI auch keine Daten im Ruhezustand auf diesen EU-Servern speichern („Zero Data Retention“). Das bedeutet, dass Ihre Anfragen und die Antworten des Modells Europa nicht verlassen und nicht langfristig gespeichert werden. Diese Funktion hilft Unternehmen, die Anforderungen an die „Datensouveränität“ zu erfüllen (beachten Sie, dass die Aktivierung der EU-Residenz möglicherweise voraussetzt, dass Sie ein Unternehmenskunde sind und ein neues Projekt mit einem Schlüssel für die EU-Region erstellen).
Zusammenfassend lässt sich sagen, dass OpenAI seine Richtlinien so angepasst hat, dass sie für EU-Unternehmen datenschutzfreundlicher sind: Ihre API-Daten werden nicht für das Training von Modellen verwendet, die Daten werden nur kurz (oder gar nicht, wenn Sie sich dafür entscheiden) aufbewahrt, und Sie haben sogar die Möglichkeit, die Datenverarbeitung auf Europa zu beschränken. Weitere Informationen finden Sie in der Datenschutzrichtlinie von OpenAI.
Einstellungen in der API und warum sie wichtig sind
Selbst bei einem datenschutzorientierten Anbieter macht die Art und Weise, wie Sie den LLM-Dienst konfigurieren und nutzen, einen großen Unterschied bei der Einhaltung der Vorschriften. Hier sind die wichtigsten Einstellungen und Praktiken, die in der API eines LLM zu berücksichtigen sind (mit der API von OpenAI als Hauptbeispiel):
- Ablehnung der Datennutzung für Trainingszwecke: Bei OpenAI ist dies die Standardeinstellung für Nutzer von Business-APIs (kein Training mit Ihren Daten), aber überprüfen Sie immer die Richtlinien für jeden Dienst, den Sie nutzen. Bei einigen Anbietern müssen Sie sich möglicherweise aktiv abmelden oder eine Einstellung vornehmen, damit Ihre Daten nicht zur Verbesserung ihrer Modelle verwendet werden. Wenn Sie beispielsweise eine Plattform nutzen, die eine KI-API anbietet, achten Sie auf die Einstellung „Meine Daten nicht verwenden“ in ihrem Dashboard oder in den Kontoeinstellungen.
Stellen Sie bei der internen Nutzung von ChatGPT (Web-UI) sicher, dass Mitarbeiter den Chatverlauf deaktivieren, wenn sie mit sensiblen Daten arbeiten – OpenAI bietet in den ChatGPT-Einstellungen einen Schalter namens „Data Controls“, mit dem Benutzer den Chatverlauf deaktivieren können, was bedeutet, dass diese Unterhaltungen nicht für das Modelltraining verwendet und innerhalb von 30 Tagen aus den OpenAI-Systemen gelöscht werden. Legen Sie eine Unternehmensrichtlinie fest, die besagt, dass bei der Verwendung von öffentlichen KI-Tools solche Datenschutzmodi aktiviert sein müssen.
- Verwendung von Endpunkten in der EU: Wenn Ihr Anbieter regionale Endpunkte oder Optionen für die Datenansässigkeit anbietet, nutzen Sie diese. Wenn Sie mit der API von OpenAI Zugriff auf die EU-Region haben, stellen Sie sicher, dass Ihre Integration auf den europäischen API-Endpunkt verweist (z. B. https://eu.api.openai.com anstelle des Standard-US-Endpunkts). In ähnlicher Weise können Sie bei vielen Cloud-KI-Diensten eine Region auswählen, wenn Sie ein Modell bereitstellen. Die Wahl eines EU-Rechenzentrums sorgt für ein geringeres regulatorisches Risiko im Rahmen der DSGVO (keine Notwendigkeit für Datenexportklauseln) und oft für eine bessere Latenz für europäische Nutzer. Vergewissern Sie sich, dass alle Ihre API-Aufrufe und gespeicherten Feinabstimmungsdaten tatsächlich in der gewählten Region liegen. (In der OpenAI-Dokumentation wird darauf hingewiesen, dass die Anfrage fehlschlägt, wenn Sie versehentlich den falschen Endpunkt für ein EU-konfiguriertes Projekt verwenden; die Genauigkeit der Konfiguration ist also wichtig).
- Kontrolle der von Ihnen gesendeten Daten: Denken Sie an den Grundsatz der Datenminimierung – senden Sie nur die Daten an den LLM, die für die Aufgabe erforderlich sind. Die API kann nicht zwischen echten personenbezogenen Daten und anonymisierten Daten in Ihrer Eingabeaufforderung unterscheiden. Es liegt also an Ihnen, personenbezogene Identifikatoren vor dem Senden zu entfernen oder zu pseudonymisieren, wenn möglich. Anstatt einen vollständigen Kundendatensatz zu senden, um eine Zusammenfassung zu erhalten, können Sie beispielsweise Name, E-Mail oder ID-Nummern durch Platzhalter ersetzen. Selbst wenn etwas protokolliert oder gespeichert wird, ist es auf diese Weise nicht direkt identifizierbar. Einige Unternehmen implementieren eine Vorverarbeitungsschicht, die personenbezogene Daten automatisch aus Eingabeaufforderungen herausfiltert. Dies ist keine wörtliche „Einstellung“ in der API, aber es ist eine wichtige Praxis, um die Vorschriften einzuhalten und Risiken zu verringern.
Zusammenfassend lässt sich sagen, dass es bei der sicheren Nutzung einer KI-API nicht nur auf das Versprechen des Anbieters ankommt, sondern auch auf die Nutzung der verfügbaren Datenschutzeinstellungen und eine gute Datenhygiene. Deaktivieren Sie alles, was nicht notwendig ist (Datenweitergabe, umfangreiche Protokollierung), wählen Sie Funktionen, die den Datenschutz verbessern (regionale Verarbeitung, keine Speicherung), und setzen Sie interne Regeln dafür durch, welche Daten gesendet werden dürfen. Durch eine durchdachte Konfiguration des Dienstes können Sie die Risiken für den Datenschutz erheblich verringern und gleichzeitig die Vorteile der generativen KI nutzen.
Fazit
Der Datenschutz ist ein wichtiger Aspekt, durch den jedes europäische Unternehmen generative KI-Lösungen bewerten muss. Die Anforderungen der DSGVO – vom Verständnis der Rollen des für die Verarbeitung Verantwortlichen und des Datenverarbeiters bis hin zur Durchsetzung von Datenminimierung und Sicherheit – müssen auch dann eingehalten werden, wenn das „Gehirn“ der Verarbeitung ein KI-Modell ist. Um die besten Praktiken für die Auswahl und Nutzung eines LLM-Anbieters in Europa zusammenzufassen:
- Von Anfang an DSGVO-Konformität einfordern: Beauftragen Sie nur Anbieter, die bereit sind, ein Addendum zur Datenverarbeitung zu unterzeichnen und als Ihr Auftragsverarbeiter zu fungieren. Überprüfen Sie, wo Ihre Daten gespeichert und verarbeitet werden und welche Sicherheitsvorkehrungen getroffen wurden. Wenn ein Anbieter diese Fragen nicht eindeutig beantworten kann oder zögert, sich zur Einhaltung der Vorschriften zu verpflichten, ist dies ein deutliches Warnzeichen.
- Datenschutzfreundliche Anbieter bevorzugen: Merkmale wie der Verzicht auf Schulungen zu Kundendaten, eine standardmäßig kurze Datenspeicherung und Optionen für die Datenresidenz sind mehr als nur Vorteile – sie sind ein Zeichen dafür, dass der Anbieter den Datenschutz ernst nimmt. Der Ansatz von OpenAI bei seinen Business Services ist ein Beispiel für die Einhaltung dieser Grundsätze. Andere Anbieter haben vielleicht andere Modelle, aber der Kerngedanke ist, einen KI-Dienst zu wählen, der die Nutzung Ihrer Daten über die unmittelbare Aufgabe hinaus minimiert.
- Tools zur Einhaltung von Vorschriften nutzen: Nutzen Sie Einstellungen wie Datenlöschkontrollen, Regionsauswahl und Datenschutzumschaltungen. Legen Sie intern Richtlinien für Mitarbeiter zur Nutzung von KI fest (z. B. keine Eingabe bestimmter personenbezogener Daten in eine Eingabeaufforderung ohne Genehmigung). Führen Sie regelmäßige Schulungen durch, damit die Mitarbeiter die Sensibilität der Daten verstehen, die sie in eine KI eingeben könnten. Denken Sie daran, dass die Einhaltung der DSGVO nicht nur eine einmalige Konfiguration ist – es ist ein fortlaufender Prozess der Steuerung und Überwachung.
- Selbstgehostete oder hybride Lösungen für sensible Daten erwägen: Wenn es sich um hochsensible oder regulierte Daten handelt, sollten Sie Optionen wie Azure OpenAI oder sogar das interne Hosting von Open-Source-LLMs in Betracht ziehen. Diese Optionen können eine größere Sicherheit bieten, dass kein Unbefugter die Daten jemals zu Gesicht bekommt, da Sie die Kontrolle über die Umgebung haben. Der Nachteil ist die zusätzliche Verantwortung Ihres IT-Teams für die Verwaltung der Infrastruktur und der Sicherheit.
- Regulatorische Entwicklungen verfolgen: Die Landschaft der KI-Regulierung entwickelt sich weiter. Die EU diskutiert derzeit das KI-Gesetz, und die Datenschutzbehörden nehmen KI-Dienste zunehmend unter die Lupe. Halten Sie sich über die Leitlinien der europäischen Regulierungsbehörden auf dem Laufenden. So hat beispielsweise die italienische Datenschutzbehörde nach dem vorübergehenden Verbot von ChatGPT im Jahr 2023 Leitlinien herausgegeben, und die französische CNIL und andere haben Empfehlungen zur KI-Aufsicht veröffentlicht. Wenn Sie sich auf dem Laufenden halten, können Sie Ihre Richtlinien anpassen und Anbieter auswählen, die nicht nur die heutigen Regeln, sondern auch die künftigen Erwartungen erfüllen.
Zusammenfassend lässt sich sagen, dass es bei der Bewertung eines LLM-Anbieters nicht nur um die Qualität des Modells oder die Kosten geht, sondern vor allem um Vertrauen und die Einhaltung von Rechtsvorschriften. Wenn europäische Unternehmen die Datenströme verstehen und auf starken Datenschutzgarantien bestehen, können sie generative KI getrost einführen. Fragen Sie immer: Wohin werden unsere Daten gehen? Wer kann sie sehen? Wie lange werden sie dort bleiben? Wofür werden sie verwendet? Ein guter Anbieter wird klare, beruhigende Antworten geben, die durch technische Maßnahmen und Vertragsbedingungen abgesichert sind. Mit der richtigen Due-Diligence-Prüfung und Konfiguration können Sie den Wert von KI für Ihr Unternehmen erschließen und gleichzeitig die Datenschutzrechte des Einzelnen wahren.
Fortsetzung folgt…
Welche LLMs (oder weitere AI-Tools) nutzen Sie? Welche Erfahrungen haben Sie jenseits von OpenAI und Microsoft gemacht – und wie würden diese im AI Act eingestuft? Warum sprechen wir nicht darüber?