IBMs Debattenalgorithmus wird immer besser

Die Forschungsabteilung des IT-Riesen arbeitet mit "Argument Mining", um überzeugende Diskussionen mit Computern zu ermöglichen.

13

Das IBM-System nahm bereits an einer Debatte an der Uni Cambridge teil.

(Bild: IBM Research)

31.01.2020, 06:06 Uhr

Lesezeit: 2 Min.

MIT Technology Review

Von

Ben Schwan

IBM Research hat seinen Diskussionsalgorithmus Project Debater deutlich verbessert. Sein aktueller Datenbestand ist größer als der von Wikipedia, berichtet Technology Review in seiner Online-Ausgabe ("Der Computer will diskutieren").

Im vorigen Jahr demonstrierte IBM die Technik in einer Live-Debatte gegen einen der bekanntesten menschlichen Diskutanten, der viele Preise in Debattenklubs gewonnen hat. Ein solcher Showdown ist zunächst nur ein Proof of Concept der Technik. Nun will IBM aus dem "Spielzeug" ein sinnvoll nutzbares Werkzeug machen.

BERT beantwortet Fragen

Die Version von Project Debater, die in Live-Debatten verwendet wird, bildet den Ausgangspunkt – etwa mit der Fähigkeit, Hunderte Millionen neuer Artikel zu durchforsten. In den vergangenen Monaten wurden aber auch die neuronalen Netzwerke, die das System nutzt, deutlich verbessert. Die Argumente, die aus Texten gezogen werden können, sind nun qualitativ hochwertiger. Ein wichtiges Zusatzfeature nennt sich BERT, ein neuronales Netzwerk, das Google für die Verarbeitung natürlicher Sprache entwickelt hat und das Fragen beantworten kann.

Um ihre KI zu trainieren, nutzten Noam Slonim und Kollegen von IBM Research in Haifa rund 400 Millionen Dokumente, die aus der LexisNexis-Datenbank stammten, die Zeitungsartikel und Material aus wissenschaftlichen Zeitschriften enthält. Das ergab zehn Milliarden Sätze, ein Korpus aus natürlicher Sprache, der rund 50 Mal größer ist als der Bestand des Online-Lexikons Wikipedia. Dies wurde mit einem großen Pool aus Behauptungen und Meinungen verbunden, die mehrere Hundert Themen abdeckte.

Das Team nutzte dann Crowdworker auf der Machine-Learning-Plattform Figure Eight, Sätze mit einem Label zu versehen – je nachdem, ob sie Argumente für oder gegen eine Behauptung enthielten. Das Ganze wurde dann in einen Lernalgorithmus gefüttert, den die Forscher überwachten.

Mehr dazu bei Technology Review Online: