Sprachmodelle als Lügendetektoren

Ein italienisches Forschungsteam hat ein Open-Source-Sprachmodell darauf trainiert, Lügen zu erkennen.

8

(Bild: Tatiana Shepeleva/Shutterstock.com)

21.02.2024, 09:15 Uhr

Lesezeit: 6 Min.

MIT Technology Review

Von

Dr. Wolfgang Stieler

Ein italienisches Forschungsteam um Riccardo Loconte von der IMT School for Advanced Studies in Lucca und Kollegen haben das Open-Source-Sprachmodell FLAN-T5 mit einem Finetuning zu einem Lügendetektor gemacht. Das Ergebnis: Die Erkennungsrate des Modells von rund 80 Prozent war in vielen Fällen gleich gut und besser als bei State-of-the-Art-Verfahren (die etwa maschinelles Lernen einsetzen), schreiben die Autoren in Scientific Reports. Zudem zeigten ihre Resultate, dass die Erkennungsrate deutlich von der Größe des Sprachmodells abhänge. Mit mehr Trainingsdaten und größeren Modellen ließen sich also vermutlich bessere Ergebnisse erzielen.

Psychologie der Lüge

Bislang setzt die (halb)automatische Analyse von Texten an der sogenannten Undeutsch-Hypothese an. Die geht auf den Psychologen Udo Undeutsch zurück, der annahm, dass sich die Sprache von "erlebnisbegründeten Aussagen" von der bewusst erfundener Erlebnisse unterscheidet.

Im Laufe der Zeit bildeten sich darauf aufbauend verschiedene psychologische Konzepte heraus, wie besonders aufschlussreiche zuverlässige Hinweise auf verbale Täuschung aussehen. Das "Distanzierungskonzept" geht davon aus, dass Lügner unbewusst dazu neigen, sich von ihrer Erzählung zu distanzieren, ihre Lügen also weniger Ich-Bezüge enthalten. Die Theorie der "kognitiven Belastung" geht davon aus, dass Lügen zu erfinden so viele geistige Ressourcen bindet, dass erfundene Sachverhalte kürzer und knapper dargestellt würden als wahre. Das Konzept der "Realitätsüberwachung" schließlich geht davon aus, dass wahrheitsgemäße Erzählungen mehr sensorische, räumliche und zeitliche Informationen enthalten, da solche Eindrücke während des – realen – Erlebens permanent mit gespeichert würden, im Unterschied zu Phantasie-Ereignissen.

Es gibt mittlerweile eine Menge Software, die Texte nach solchen Merkmalen durchsucht. Allerdings ist ihre Interpretation naturgemäß subjektiv.

Die italienischen Forscher sind daher nicht die ersten, die versucht haben, maschinelles Lernen auf das Problem anzusetzen. Eine Übersichtsstudie in der Fachzeitschrift PLOS One zeigt das große Interesse an diesem Fachgebiet. Loconte und Kollegen sind jedoch die ersten, die ein großes Open-Source-Modell mit speziellen Datensätzen angepasst haben, um es darauf zu trainieren, innerhalb eines bestimmten Kontextes Lügen zu erkennen.

Drei Szenarien

FLAN-T5 ist ein Sprachmodell aus der Familie der T5-Modelle von Google. Es ist Open Source und steht für den kommerziellen Einsatz zur Verfügung. Das Modell ist ein Text-to-Text-Transformer mit einer, für diese Form der Analyse praktischen Eigenschaft. Es kann zum Beispiel bei einer Sentiment-Analyse nicht nur eine Zahl liefern, die die emotionale Ausrichtung des Textes misst, sondern auch die wichtigsten Zeichenketten, die zu dem Ergebnis geführt haben.

Die Forschenden trainierten das Modell mit drei verschiedenen Datensätzen, die jeweils kurze wahre und gelogene Texte enthielten. Ein Satz mit persönlichen Meinungen zu verschiednen Themen (Deceptive Opinions), ein Satz mit echten und erfundenen autobiografischen Erfahrungen (Hippocorpus) und einen mit Aussagen über zukünftige Absichten (Intention).

Gemischte Ergebnisse

Blieben die Forschenden bei einem Szenario, konnte das Modell wie erwartet Lügen besser als Baseline-Standardverfahren erkennen. Generalisieren konnte es allerdings nicht: Denn als die Forscher es mit Beispielen aus den ersten zwei Datensätzen trainierten, und ihm Aufgaben aus dem dritten Datensatz gaben, scheiterte es.

Dieses Ergebnis war allerdings konsistent mit einer Stilanalyse, die die Forscher parallel durchführten. Dabei extrahierten sie mithilfe des Sprachmodells 26 verschiedene Merkmale, die nach den verschiedenen psychologischen Ansätzen als besonders aussagekräftige Indizien für Lügen gelten. Dabei stellten sie fest, dass sich die spezifischen Merkmale in allen drei Datensätzen deutlich voneinander unterschieden – das Modell also tatsächlich kein allgemein gültiges "Muster für Lügen" in den drei Datensätzen finden konnte.

Grenzen der Studie

Die Forscher räumen ein, dass ihre Studie bisher zwar interessante Hinweise bietet, aber sich das Modell wahrscheinlich nicht für einen realen Einsatz eignen würde. Denn erstens untersuche es nur Lügen in drei spezifischen Kontexten. Und zweitens enthielten die Datensätze nur Texte die entweder vollständig wahr oder vollständig gelogen waren. "Personen verwenden jedoch häufig eingebettete Lügen in realen Szenarien, in denen wesentliche Teile ihrer Erzählungen wahr sind, anstatt eine völlig fiktive Geschichte zu erfinden", schreiben sie in dem Paper. "Schließlich wurden die in dieser Studie verwendeten Datensätze in experimentellen Szenarien mit geringem Einsatz erhoben, in denen die Teilnehmer wenig Anreize hatten, zu lügen und glaubwürdig zu erscheinen. Aufgrund all dieser Punkte ist die Anwendung unseres Modells in realen Kontexten möglicherweise begrenzt, und bei der Interpretation der Ergebnisse in solchen Situationen ist Vorsicht geboten." Zur weiteren Forschung müssten daher dringend größere und bessere Datensätze entwickelt werden.

Andere Ansätze mit LLMs

Große Sprachmodelle kann man allerdings nicht nur als simple Klassifikatoren verwenden. Es gibt auch Forscher, die glauben, dass die Sprachmodelle selbst wissen könnten, was eine Lüge ist, und was nicht. Das geht zumindest aus Untersuchungen wie denen von Thilo Hagendorff von der Universität Stuttgart hervor. Er gab großen Sprachmodellen Aufgaben, deren Struktur von traditionellen Theory-of-Mind-Experimenten mit Menschen inspiriert sind.

Das sind in der Regel kurze, fiktive Szenarien – "Sally Problems" – die dem Sprachmodell als Input gegeben werden. Anschließend soll es dann Aussagen über die beteiligen Personen treffen – über deren Motive (Warum hat Sally dies oder jenes getan?), oder Absichten oder Emotionen (Warum ist sie traurig/wütend?). In den angepassten Tests sollte das Sprachmodell unter anderem analysieren, ob eine Person in einem Szenario lügt, oder nicht.

Das funktionierte so gut, dass Hagendorff dem Modell die Fähigkeit zuschrieb, absichtsvoll zu täuschen, und Täuschung zu erkennen. Die Fähigkeit sei emergent entstanden – spontan aus dem Zusammenspiel anderer, antrainierter Fähigkeiten. Die These, Sprachmodelle könnte gewissermaßen "innere Zustände" von Menschen erkennen und eine Art Modell davon bilden, ist allerdings heftig umstritten. Einige Forschende stellen schon die Idee der emergent auftauchenden neuen Fähigkeiten von Sprachmodellen in Frage.