Neue EDSA-Stellungnahme zu KI-Modellen
09.01.2025
Zusammenfassung
Der Europäische Datenschutzausschuss (EDSA) hat eine neue Stellungnahme veröffentlicht, die praktische Leitlinien für den datenschutzkonformen Einsatz von KI-Modellen bietet. Die Stellungnahme befasst sich mit der Frage, wann Datensätze wirklich anonym sind, mit der Anwendung des „berechtigten Interesses“ als Rechtsgrundlage und mit den Folgen einer unrechtmäßigen Datenverarbeitung.
6 Minuten Lesezeit
Eine neue Stellungnahme des Europäischen Datenschutzausschusses (EDSA) bietet weitere Hilfestellung, wie KI-Modelle datenschutzkonform entwickelt und eingesetzt werden können, insbesondere wann deren Datensätze wirklich als anonym betrachtet, inwieweit das berechtigte Interesse eine passende Rechtsgrundlage darstellen kann und welche Folgen unrechtmäßige Verarbeitung haben könnte.
Anonymität von KI-Modellen
Häufig wird angenommen, dass KI-Modelle, die personenbezogene Daten verwenden, automatisch anonym sind, sobald die Daten verarbeitet werden. Dies ist jedoch nicht immer der Fall, wie aus der neuen Stellungnahme hervorgeht.
Die Daten gelten als anonym, wenn es praktisch unmöglich ist, aus den Daten direkt oder indirekt einzelne Personen zu identifizieren. Dies ist ein hoher Standard, der nur durch bestimmte technische und organisatorische Maßnahmen erreicht werden kann.
Bei der Betrachtung eines KI-Modells sind verschiedene Phasen zu unterscheiden, die von der Gestaltung und Entwicklung der Algorithmen über die Phase des ruhenden Modells bis hin zum aktiven Modell, einschließlich des Nachtrainierens funktionierender Modelle, reichen.
Der EDSA lässt diese Differenzierung grundsätzlich offen und betont, dass die Anonymität von KI-Modellen maßgeblich von deren konkreter Gestaltung und ihrem jeweiligen Zweck abhängt.
Modelle, die personenbezogene Daten zur Verfügung stellen:
Einige KI-Modelle sind so konzipiert, dass sie explizit personenbezogene Daten von den Personen, deren Daten zum Training verwendet wurden, bereitstellen oder verfügbar machen. Solche Modelle enthalten zwangsläufig Informationen über identifizierte oder identifizierbare natürliche Personen und verarbeiten daher personenbezogene Daten. Zum Beispiel, ein generatives Modell, das auf Sprachaufnahmen einer Person abgestimmt ist, um deren Stimme zu imitieren oder ein Modell, das bei einer Anfrage explizit personenbezogene Informationen aus den Trainingsdaten ausgibt.
→ Diese Modelle können nicht als anonym betrachtet werden.
Modelle, die nicht darauf ausgelegt sind, personenbezogene Daten bereitzustellen:
Modelle, die nicht darauf ausgelegt sind, personenbezogene Informationen zu erzeugen oder bereitzustellen, z. B. generische Modelle für Vorhersagen oder Schlussfolgerungen.
Auch wenn das Modell nicht absichtlich personenbezogene Daten ausgibt, könnten Informationen aus den Trainingsdaten, einschließlich personenbezogener Daten, mathematisch in den Modellparametern “absorbiert” sein.
Diese Daten können, direkt oder indirekt, durch entsprechende Mittel aus dem Modell extrahiert oder abgeleitet werden.
→ Diese Modelle können unter bestimmten Bedingungen als anonym betrachtet werden, aber eine Prüfung ist erforderlich.
Eine mögliche Prüfung aus Sicht des EDSA könnte wie folgt aussehen:
- Das Modell ist so gestaltet, dass es keine personenbezogenen Informationen bereitstellt, die sich auf identifizierte oder identifizierbare Personen beziehen und der Verantwortliche kann das anhand bestimmter Parameter nachweisen und belegen.
- Es ist nicht möglich, mit angemessenem Aufwand personenbezogene Daten aus den Modellparametern zu extrahieren oder indirekt abzuleiten. Dabei werden alle „vernünftigerweise einsetzbaren Mittel“ berücksichtigt, die eine solche Extraktion ermöglichen könnten.
- Es wurden technische und organisatorische Maßnahmen ergriffen, um das Risiko zu minimieren, dass personenbezogene Daten unabsichtlich oder absichtlich extrahiert werden können.
Anonymität von „KI-Daten“ ist dementsprechend keine Selbstverständlichkeit
Bei der Entwicklung von KI-Modellen müssen mehrere Aspekte sorgfältig abgewogen werden, um die Anonymität der Daten zu gewährleisten. Dazu zählen unter anderem die Auswahl und Aufbereitung der verwendeten Daten, die angewandten Trainingsmethoden sowie die Widerstandsfähigkeit des Modells gegenüber möglichen Angriffen. Entwickler von KI-Modellen sollten daher umfassend und transparent dokumentieren, welche Maßnahmen ergriffen wurden, um Identifizierbarkeit und Datenextraktion zu verhindern.
„Berechtigtes Interesse“ als Rechtsgrundlage
In der DSGVO gibt es verschiedene rechtliche Grundlagen für die Verarbeitung personenbezogener Daten – „berechtigtes Interesse“ ist eine davon. In der Stellungnahme wird betont, dass es keine Hierarchie zwischen den in der Datenschutz-Grundverordnung vorgesehenen Rechtsgrundlagen gibt, und dass es Sache der für die Verarbeitung Verantwortlichen ist, die geeignete Rechtsgrundlage für ihre Verarbeitungstätigkeiten zu bestimmen.
Die Stellungnahme verweist auf den dreistufigen Test, der bei der Beurteilung der Verwendung des berechtigten Interesses als Rechtsgrundlage anzuwenden ist, Interesse feststellen:
- Ein konkretes, legitimes Ziel: Das verfolgte Interesse (z.B. Aufdeckung von Betrug) muss rechtmäßig, klar und präzise formuliert sowie real und gegenwärtig und nicht spekulativ sein. Der Verantwortliche muss den spezifischen Zweck der Verarbeitung klar formulieren und dokumentieren.
- Notwendigkeit: Gibt es eine weniger eingreifende Alternative? Der Einsatz anonymisierter Daten anstelle von personenbezogenen Daten könnte beispielerweise eine Lösung sein.
- Abwägung der Interessen: Die Rechte und Freiheiten der betroffenen Personen dürfen das berechtigte Interesse nicht überwiegen. Die Stellungnahme unterstreicht, dass Transparenz und die Berücksichtigung individueller Erwartungen entscheidend dafür sind, ob eine Datenverarbeitung mit berechtigtem Interesse gerechtfertigt werden kann. Die ergriffenen Maßnahmen wie die Verschlüsselung der Daten und die Gewährleistung der Datensicherheit spiele hier eine große Rolle.
In Bezug auf die Entwicklungsphase von KI-Modellen können verschiedene Maßnahmen ergriffen werden, um Risiken im Zusammenhang mit der Verarbeitung von Erst- und Drittparteidaten zu mindern, einschließlich der Risiken, die durch Web-Scraping-Praktiken entstehen.
Der EDSA gibt Beispiele für Maßnahmen, die implementiert werden können, um Risiken zu minimieren, die im Rahmen eines Interessensabwägungstests identifiziert wurden:
– Technische Maßnahmen, die typischerweise darauf abzielen, Risiken für die betroffenen Personen zu minimieren. Dazu können gehören: Datenminimierung, Zugriffskontrollen, Datenverschlüsselung, Speicherzeitbegrenzung, Sicherstellung der Datenintegrität, Sicheres Löschen.
– Pseudonymisierung, um die Kombination von Daten anhand individueller Merkmale zu verhindern, sofern nicht ausdrücklich notwendig.
– Maskierung oder Substitution personenbezogener Daten (z. B. Ersetzen echter Daten durch fiktive), besonders relevant, wenn die Dateninhalte nicht entscheidend sind, z. B. beim Training von LLMs.
Diese Maßnahmen sollten von den Aufsichtsbehörden bei der Beurteilung des Vorliegens eines berechtigten Interesses an bestimmten KI-Modellen im Einzelfall berücksichtigt werden.
Rechtsfolgen rechtswidriger Datenverarbeitung: Konsequenzen bei Verstößen
Der EDSA hebt hervor, dass die Bewertung von Verstößen gegen die DSGVO stets einzelfallbezogen und kontextabhängig erfolgen muss. Den Aufsichtsbehörden steht dabei ein Ermessensspielraum zur Verfügung, um Verstöße zu bewerten und angemessene Maßnahmen zu ergreifen. Drei Szenarien dienen dabei als Orientierung:
Szenario 1: Verarbeitung durch denselben Verantwortlichen
Wenn personenbezogene Daten im KI-Modell verbleiben und vom gleichen Verantwortlichen sowohl in der Entwicklungs- als auch in der Nutzungsphase verarbeitet werden, ist eine Prüfung erforderlich:
- Verfolgen Entwicklungs- und Nutzungsphasen unterschiedliche Zwecke, die als separate Verarbeitungsvorgänge zu bewerten sind?
- Wie beeinflusst eine fehlende Rechtsgrundlage in der Entwicklungsphase die rechtmäßige Nutzung?
Die Bewertung erfolgt dabei stets fallbezogen und berücksichtigt die spezifischen Umstände der Verarbeitung.
Szenario 2: Verarbeitung durch einen neuen Verantwortlichen
Bleiben personenbezogene Daten im KI-Modell erhalten, aber die Nutzung erfolgt durch einen neuen Verantwortlichen, muss dieser sicherstellen, dass das Modell rechtskonform entwickelt wurde. Die Prüfung sollte Folgendes umfassen:
- Den Ursprung der verarbeiteten Daten und potenzielle Verstöße in der Entwicklungsphase.
- Das Risiko der Verarbeitung in der Nutzungsphase. Je nach Höhe des Risikos ist eine detailliertere Prüfung erforderlich.
Szenario 3: Anonymisierung des Modells vor Nutzung
Wurden personenbezogene Daten rechtswidrig verarbeitet, aber das Modell vor der Nutzung anonymisiert, entfällt die Anwendbarkeit der DSGVO, solange keine personenbezogenen Daten mehr verarbeitet werden. Werden jedoch im Rahmen der Nutzung erneut personenbezogene Daten verarbeitet, gilt die DSGVO weiterhin.
Entscheidend ist, dass die Anonymisierung verhindert, dass Rechtswidrigkeiten aus der Entwicklungsphase die spätere Nutzung beeinflussen.
Der EDSA unterstreicht die Bedeutung einer kontextbezogenen Bewertung möglicher Verstöße und die Notwendigkeit klarer Rechtsgrundlagen für die Verarbeitung personenbezogener Daten in jeder Phase. Dies gilt insbesondere für die Entwicklung und Nutzung von KI-Modellen, um die Einhaltung der DSGVO sicherzustellen.
Fazit: Datenschutz von Anfang an
Der EDSA betont eindringlich, dass Datenschutz kein optionales Add-on, sondern eine unverzichtbare Pflicht ist, die bereits in der Entwicklungsphase von KI-Modellen beginnt und bis zur Nutzung reicht. Zu den zentralen Anforderungen gehören eine lückenlose Dokumentation zur Nachweisbarkeit der Rechtskonformität, eine transparente Kommunikation mit den Betroffenen und die Implementierung hoher Datensicherheitsstandards.
Datenschutz von Anfang an ist nicht nur eine regulatorische Pflicht, sondern ein entscheidender Faktor, um das Vertrauen der Gesellschaft in KI-Technologien zu stärken und deren nachhaltigen Erfolg zu sichern.