Digitale Plagiate: Bester Erkennungsalgorithmus aus Deutschland

Um den besten Algorithmus zur automatischen Erkennung digitaler Plagiate zu ermitteln, veranstaltete die Bauhaus-Universität Weimar einen Wettbewerb.

13

20.06.2009, 12:22 Uhr

Lesezeit: 3 Min.

c't Magazin

Von

Ulrich Hilgefort

Einen ersten Wettbewerb zur automatischen Erkennung von digitalen Plagiaten hat die Fakultät Medien der Bauhaus-Universität Weimar zusammen mit der Universidad Politécnica de Valencia in Spanien ausgeschrieben. Jetzt stehen die Sieger fest.

Nicht erst seit seit Bestehen des Internets wird oft und gern mit Plagiaten gearbeitet, mit unrechtmäßigen Kopien fremder Herkunft. Die meisten Plagiate sind zwar vom Menschen gut zu erkennen, doch die schiere Masse der digitalen Dokumente, die es zu überprüfen gilt, erfordert eine automatische Vorgehensweise.

Mit dem Wettbewerb wollten die Initiatoren herausfinden, wie gut aktuelle automatische Plagiat-Erkennungsalgorithmen arbeiten; mangels standardisierter Testumgebungen und einheitlicher Qualitätsmaßstäbe für diese Verfahren gibt es wenig gesicherte Kenntnisse darüber. Im Bereich Medieninformatik der Bauhaus-Universität Weimar wird darüber seit längerem geforscht.

Für den Wettbewerb hatten 13 Teams ihre Ergebnisse eingereicht. Die Plagiats-Experten kamen aus Deutschland, Österreich, Spanien, Italien, Tschechien, den USA, Großbritannien, Nigeria, Südkorea, Israel, Griechenland, Brasilien, Kanada und der Ukraine.

Der Wettbewerb unterteilte sich in zwei Aufgaben. Zum einen galt es, in einer externen Plagiat-Analyse ein verdächtiges Dokumentes mit einer Menge von potentiellen Quelldokumenten zu vergleichen und die plagiierten Stellen aufzufinden. Darüber hinaus war eine intrinsische Plagiat-Analyse gefordert, bei der in einem verdächtigen Dokument potentiell plagiierte Stellen anhand von Auffälligkeiten im Text wie etwa Brüchen im Schreibstil identifiziert werden sollen.

Die zur Verfügung gestellte Textkollektion bestand aus mehr als 20.000 verdächtigen Dokumenten und weiteren 20.000 Quelldokumenten. Daraus wurden auf der Basis von echtem Text durch einen Zufallsplagiator künstlich Plagiate erzeugt, die dann mit Hilfe der Erkennungsalgorithmen aufgespürt werden mussten.

Die Teilnehmer erzielten zum Teil sehr gute Ergebnisse: Der beste Algorithmus in der externen Analyse findet 66 Prozent aller Plagiate, 74 Prozent der gefundenen Plagiate sind richtig. Bei der sehr viel schwierigeren intrinsischen Analyse spürte der Sieger-Algorithmus fast die Hälfte (46 Prozent) aller Plagiate auf.

Der von Yahoo! Research gesponsorte 1. Preis über 500 Euro für den Gesamtsieger ging an Cristian Grozea (Fraunhofer FIRST - Fraunhofer Institut für Rechnerarchitektur und Softwaretechnik, Berlin), der auch den ersten Platz in der Externen Plagiat-Analyse belegte. Den Sieg in der Kategorie Intrinsische Plagiat-Analyse sicherte sich Efstathios Stamatatos (University of the Aegan, Griechenland).

Die Ergebnisse des Wettbewerbs stehen der Öffentlichkeit zur Verfügung. Daraus lässt sich ableiten, was von Plagiat-Erkennungs-Software zu erwarten ist. Wissenschaftler haben damit einen Vergleichsmaßstab, anhand dessen sie eigene Entwicklungen bewerten können. (uh)