Synthetische Daten: Datenschutzkonforme Lösung für LLM-Training

Der Einsatz von Sprachmodellen, sogenannte Large Language Models (LLMs), in Unternehmen ist nahezu grenzenlos. Ihre Leistung hängt jedoch stark von der Menge der verwendeten Trainingsdaten ab. Der Umgang mit personenbezogenen Daten birgt dabei rechtliche Risiken. Im Rahmen des Schweizer Datenschutzgesetzes (DSG) bieten synthetische Daten eine rechtskonforme und praxisnahe Alternative, die Innovation ermöglicht, ohne die Privatsphäre zu gefährden.

Künstliche Intelligenz (KI) ist längst Teil unseres Arbeitsalltags – sei es bei der Texterstellung, der Analyse von Kundenanfragen oder beim Einsatz automatisierter Chatbots. Hinter vielen dieser Anwendungen stehen sogenannte Large Language Models (LLMs) – grosse Sprachmodelle wie zum Beispiel ChatGPT. Sie wurden mit Millionen von Textbeispielen trainiert, damit sie die jeweilige Sprache verstehen, inhaltlich Zusammenhänge erkennen und eigenständig neue Texte schreiben können.

Wie funktionieren LLMs?
Damit die Sprachmodelle zuverlässig funktionieren, sind Unmengen an verschiedenen Trainingsdaten erforderlich – zum Beispiel Texte aus E-Mails, Webseiten oder internen Dokumenten. Sind die Daten zu einseitig oder in zu geringer Menge vorhanden, drohen Verzerrungen im Modell. Das bedeutet, es bildet die Realität nicht ausgewogen ab, erkennt bestimmte Themen oder Sichtweisen schlechter und liefert dadurch ungenaue oder einseitige Ergebnisse. Die Folge von diesen sogenannten Bias ist eine Beeinträchtigung der Fairness und Genauigkeit.

Datenschutzrechtliche Grenzen im Umgang mit personenbezogenen Daten
Sobald sich der Inhalt dieser Trainingsdaten auf eine bestimmte oder bestimmbare natürliche Person bezieht, spricht man rechtlich von personenbezogenen Daten. Das Datenschutzgesetz erlaubt die Bearbeitung solcher Daten nur, wenn bestimmte Grundsätze eingehalten werden: Transparenz, Treu und Glauben, Zweckbindung, Verhältnismässigkeit (inkl. Datenminimierung und Speicherbegrenzung), sowie Richtigkeit und Datensicherheit. In vielen Fällen ist zusätzlich eine Einwilligung der betroffenen Person (z. B. wenn der Zweck der Datenbearbeitung geändert wird) erforderlich. Die Einwilligung zur Bearbeitung der personenbezogenen Daten erfolgt freiwillig, kann aber von der betroffenen Person jederzeit widerrufen werden.

Für Unternehmen heisst das konkret: Wer ein LLM mit personenbezogenen Textdaten trainieren will, muss genau prüfen, ob dies datenschutzrechtlich zulässig ist.

Synthetische Daten als sichere Alternative
Die Lösung heisst: synthetische Daten. Dabei handelt es sich um künstlich erzeugte Datensätze, die personenbezogenen Daten in Struktur und Inhalt ähnlich sind, jedoch keine realen Informationen über Personen enthalten. Sie werden mithilfe von Algorithmen oder KI-Modellen generiert, um Muster, sprachliche Strukturen und statistische Eigenschaften personenbezogener Daten zu imitieren – ohne auf die Originaldaten zurückzugreifen. Im Gegensatz zu anonymisierten oder pseudonymisierten Daten, die aus personenbezogenen Datensätzen abgeleitet werden, entstehen synthetische Daten komplett neu.

Der grosse Vorteil: Da synthetische Daten keine Rückschlüsse auf reale Personen zulassen, gelten sie nicht als Personendaten und fallen nicht unter das Datenschutzgesetz. Unternehmen können sie also bedenkenlos verwenden – zum Beispiel, um interne LLMs zu trainieren.

Synthetische Daten sind besonders nützlich in Bereichen mit strengen Datenschutzanforderungen, so zum Beispiel bei der Bearbeitung von besonders schützenswerten Personendaten, die in Art. 5 lit. c DSG aufgelistet sind. Dazu gehören Gesundheitsdaten oder teilweise auch Daten von Mitarbeitenden. Letzteres betrifft insbesondere die interne Kommunikation, bei der die Privatsphäre der Mitarbeitenden geschützt werden muss. Mit synthetischen Daten können realistische Szenarien nachgebildet werden, ohne dass personenbezogene Daten offengelegt werden müssen.

Fazit
Synthetische Daten sind für Unternehmen ein echter Gewinn. Sie ermöglichen das Training leistungsfähiger Sprachmodelle, ohne Datenschutzrisiken einzugehen. Gerade mit Blick auf die Datenschutzregeln stellen sie eine rechtssichere, flexible und zukunftsfähige Lösung dar und tragen dazu bei, LLMs verantwortungsvoll einzusetzen.

Beitrag teilen

Alina Ackermann

Alina Ackermann ist Datenschutzkoordinatorin bei der Schweizerischen Post und bloggt aus dem Unterricht des CAS Data Privacy Officer.

Alle Beiträge ansehen von Alina Ackermann →

Schreibe einen Kommentar