Warum KI-Systeme bei Anonymisierung von Urteilen besser als Menschen sein mĂĽssen

KI soll Gerichtsurteile anonymisieren. Warum das nur vollautomatisch und streng evaluiert sinnvoll ist, erklärt Stephanie Evert im Gespräch mit heise online.

vorlesen Druckansicht 3 Kommentare lesen
Waage, auf die ein Finger zeigt, umgeben von Justiz-Symbolen.

(Bild: Summit Art Creations / Shutterstock.com)

Lesezeit: 7 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Stephanie Evert ist Professorin für Korpus- und Computerlinguistik an der Friedrich‑Alexander‑Universität Erlangen‑Nürnberg.

(Bild: glasow, fotografie)

Zunehmend kommen KI-Systeme für die Anonymisierung von Gerichtsurteilen zum Einsatz, etwa JANO. Prof. Stephanie Evert hat in mehreren Forschungsprojekten mit ihrem Team untersucht, ob und unter welchen Bedingungen sich Gerichtsentscheidungen vollautomatisch anonymisieren lassen – und zwar zuverlässig genug, um sie in großem Umfang zu veröffentlichen. Im Interview spricht sie über technische Grenzen und darüber, warum halbautomatische Lösungen aus ihrer Sicht nicht ausreichen.

Mehrere Bundesländer arbeiten derzeit an KI‑gestützter Anonymisierung von Gerichtsurteilen. Wie ordnen Sie diese Entwicklungen ein?

Stephanie Evert: Was öffentlich kommuniziert wird, spiegelt oft nicht den tatsächlichen Forschungs- und Entwicklungsstand wider. Bereits 2023 gab es sehr große Pressemitteilungen aus Hessen und Baden‑Württemberg, obwohl es sich bei JANO lediglich um ein Pilotprojekt handelte. Was genau technisch eingesetzt wird, bleibt bis heute relativ unklar. Nach unserem Wissensstand sind das überwiegend unterstützende Systeme – also keine vollautomatische Anonymisierung, sondern Werkzeuge, die bei der manuellen Bearbeitung der Urteile helfen sollen.

Ihr eigenes Projekt ist deutlich frĂĽher gestartet. Wie kam es dazu?

Wir hatten einen Forschungsauftrag des Bayerischen Justizministeriums, der Anfang 2020 begonnen hat. Interessanterweise gingen damals beide Seiten zunächst davon aus, dass eine vollautomatische Anonymisierung wahrscheinlich nicht zuverlässig genug machbar ist. Ziel war deshalb, das wissenschaftlich sauber zu überprüfen. Unser Schwerpunkt lag von Anfang an auf Evaluation: Wir wollten belastbar sagen können, was geht – und was nicht.

Videos by heise

Was bedeutet das konkret in der Praxis?

Wir haben sehr hochwertige Goldstandards erstellt. Das heißt: echte Urteile, in denen sensible Textstellen von mehreren Personen manuell annotiert und abgeglichen wurden. Das ist extrem aufwendig, aber notwendig, um zuverlässige Aussagen treffen zu können. In der Computerlinguistik gelten 95 oder 97 Prozent Genauigkeit oft schon als sehr gut. Für Anonymisierung reicht das nicht. Hier geht es um hochsensible personenbezogene Daten. Wenn man sicherstellen will, dass ein System fast alle solche Daten findet und maskiert, dann braucht man auch einen Goldstandard, der diese Aussage überhaupt tragen kann.

Sie haben dann trotzdem hohe Werte erreicht.

Ja, das hat sich tatsächlich als machbar herausgestellt, aber nur mit einem hoch spezialisierten Modell. In einer sehr engen Domäne – amtsgerichtliche Urteile im Miet‑ und Verkehrsrecht – haben wir für direkte Identifikatoren wie Namen, Adressen oder Geburtsdaten tatsächlich rund 99 Prozent Recall erreicht (Anm. d. Red.: der Recall ist hier die Kennzahl, die angibt, welcher Anteil der tatsächlich vorhandenen sensiblen Textstellen vom System gefunden wird). Das war möglich, indem wir vortrainierte Sprachmodelle (sogenannte LLMs) speziell für die Anonymisierungsaufgabe in dieser Domäne feinjustiert haben. Wichtig ist: Diese Qualität erreicht man nicht „einfach so“, sondern nur, wenn man das System sehr gezielt auf eine bestimmte Art von Texten trainiert – und das mit einem äußerst hochwertigen Goldstandard. In einem vom BMFTR finanzierten Anschlussprojekt konnten wir diese Qualität übrigens auf eine Reihe weiterer Rechtsgebiete ausdehnen.

Viele Justizverwaltungen setzen trotzdem auf halbautomatische Verfahren, bei denen ein Mensch am Ende prĂĽft. Warum halten Sie das fĂĽr problematisch?

Das klingt zunächst sehr vernünftig. Man denkt: Wenn am Ende noch ein Mensch draufschaut, ist es sicherer. Aber bei der Anonymisierung ist das leider nicht automatisch der Fall. Menschen machen hier sogar mehr Fehler als Maschinen – vor allem Flüchtigkeitsfehler. Und bei der Anonymisierung reicht ein einziger übersehener Name, um eine Person identifizierbar zu machen.

Wir haben das auch empirisch gesehen, sowohl in unseren Korpora als auch in bereits veröffentlichten Urteilen. Bei manueller Anonymisierung rutschen regelmäßig Informationen durch. Gerade bei langen Texten oder wenn Namen mehrfach vorkommen, sinkt die Aufmerksamkeit. Ein automatisches System ist da oft konsistenter: Entweder es erkennt einen Namen – dann meist jedes Mal – oder es erkennt ihn gar nicht.

Das widerspricht der verbreiteten Intuition, dass Menschen vorsichtiger sind?

Ja, das ist kontraintuitiv. Aber in der Praxis passiert Folgendes: Je besser ein halbautomatisches System funktioniert, desto eher vertrauen ihm die Menschen und akzeptieren seine Vorschläge. Dann sinkt die Aufmerksamkeit für die wenigen Fälle, in denen das System tatsächlich Fehler macht.

Ein Beispiel aus unserer Evaluation ist der „Zeuge Wiese“. „Wiese“ sieht nicht wie ein typischer Name aus. Das System erkennt ihn deshalb nicht – konsequent im gesamten Urteil.

Das heißt, menschliche Kontrolle erhöht die Sicherheit nicht automatisch?

Genau. Vor allem dann nicht, wenn sie nur als nachgelagerte Kontrolle gedacht ist. Wenn jemand ein bereits anonymisiertes Dokument noch einmal durchliest, ist die Wahrscheinlichkeit gering, dass genau die wenigen verbliebenen Fehler gefunden werden. Dafür ist die Aufgabe zu monoton und zu fehleranfällig.

Deshalb sagen wir: Wenn man ein System einsetzt, dann muss es vorher so gründlich evaluiert sein, dass es in einer klar definierten Domäne nachweislich besser ist als menschliche Arbeit. Erst dann ist ein vollautomatischer Einsatz verantwortbar.

Warum setzen Ministerien auf halbautomatische Lösungen?

Ein zentraler Punkt ist Verantwortung. Solange ein Mensch beteiligt ist, fühlt sich die Verwaltung rechtlich auf der sicheren Seite. Wenn etwas schiefgeht, kann man sagen: Ein Mensch hat das geprüft. Bei einem vollautomatischen System ist unklar, wer verantwortlich ist – der Hersteller, das Ministerium, die Richter?

Das ist administrativ nachvollziehbar. Technisch ist es aber kein überzeugendes Argument. Ein schlecht evaluiertes halbautomatisches System ist nicht sicherer als ein gut evaluiertes vollautomatisches – ganz im Gegenteil.

Gilt diese Argumentation auch für andere KI‑Anwendungen, etwa in der Medizin?

Nein, das muss man klar unterscheiden. In der Medizin geht es um Entscheidungen, die individuell abgewogen werden müssen – Diagnosen, Therapien, Risiken. Da ist menschliche Verantwortung zentral.

Bei der Anonymisierung ist die Aufgabe sehr viel klarer definiert: Es gibt relativ eindeutige Kriterien, was anonymisiert werden muss – zumindest seit unseren Forschungsprojekten. Genau deshalb lässt sich diese Aufgabe so gut evaluieren. Und genau deshalb kann man hier argumentieren, dass ein automatisches System unter bestimmten Bedingungen besser geeignet ist als menschliche Bearbeitung.

Was wäre aus Ihrer Sicht der richtige Weg für die Justiz?

Vollautomatische Anonymisierung – aber nur dort, wo sie nachweislich zuverlässig ist. Das heißt: für bestimmte gerichtliche Instanzen (AG, LG oder OLG), bestimmte Rechtsgebiete, bestimmte Textsorten. Und mit begleitenden Verfahren, die erkennen, wenn sich etwas ändert, etwa Schreibstile oder Formate.

Halbautomatische Systeme können helfen, erste Erfahrungen zu sammeln. Aber sie werden nicht dazu führen, dass wir wirklich große Mengen an Urteilen veröffentlichen. Dafür braucht es Systeme, denen man nach sorgfältiger Evaluation auch zutraut, allein zu arbeiten.

(mack)