Theseus-Teilprojekt Alexandria soll Ende des Jahres online gehen

Der IT-Dienstleister Neofonie hat nach eigenen Angaben die Entwicklung einer semantischen Wissensplattform beendet, an die Fragen in natürlicher Sprache gestellt werden können. Die Community soll das Projekt erweitern können.

In Pocket speichern vorlesen Druckansicht 12 Kommentare lesen
Lesezeit: 4 Min.

Der IT-Dienstleister Neofonie hat nach eigenen Angaben die Entwicklung der Wissensplattform Alexandria abgeschlossen, die Teil des semantischen, vom Staat mit rund 90 Millionen Euro geförderten Suchprojekts Theseus ist. Die "kollaborative Wissensmaschine" enthalte derzeit rund 7 Millionen Einträge mit zehn Millionen Verknüpfungen, erklärte Florian Kuhlmann von dem Berliner Unternehmen, das im vergangenen Jahr mit dem PR-Desaster um das WePad zu kämpfen hatte, am Montag bei der Abschlussveranstaltung des Forschungsvorhabens in der Hauptstadt. Gesammelt hätten die Projektbeteiligten bisher über 2 Millionen Informationen zu Personen, über eine Million zu Orten und rund 65.000 zu historischen Ereignissen. Dazu kämen Informationen zu 761.000 Organisationen und über 3,3 Millionen Werken.

Das Besondere an Alexandria ist laut Kuhlmann das dahinterstehende Metamodell, das an die Semantik der menschlichen Sprache angelehnt sei. Es könne daher nicht nur nach Schlagwörtern gesucht werden, erläuterte der Projektmanager. Vielmehr sei es auch möglich, sich komplette Fragen wie "Welche Künstler wurden 1970 in Berlin geboren" beantworten zu lassen. Die Wissensbasis, aus der das an die berühmteste Bibliothek der Antike erinnernde Projekt schöpft, werde aus drei Quellen gefüttert. Dabei handle es sich um bereits strukturierte und mit "Tags" versehene Informationen aus dem Internet, wie sie etwa in der Wikipedia und in Blogs oder Nachrichtenportalen bereits existierten. Dazu kämen Daten, die per semi-automatischer Textanalyse erstellt würden und komplexe Beziehungen abbilden könnten sowie Einträge aus der derzeit noch auf Beta-Tester begrenzten Nutzergemeinde.

In einer "Live-Demo" führte Kuhlmann vor, dass auf der Startseite von Alexandria zunächst bekannte Persönlichkeiten angezeigt werden, die in den vergangenen 30 Tagen am häufigsten in den derzeit deutschsprachigen Medien auftauchten. Bei Interesse könne man die Gründe für das Presse-Echo ermitteln und anhand einer Grafik einzelne Nachrichten für gewisse Tage abrufen. Dazu kämen Verweise auf verwandte Themen oder Personen, Profile und Empfehlungen ähnlich wie bei Amazon. Es gebe natürlich auch Fragen, die das System anhand der eingegrenzten Wissensbasis oder seiner Anlage nicht beantworten könne. In diesem Fall sei es möglich, das Begehr an das Forum weiterzuleiten oder bei eigenem entsprechenden Wissen die Informationen selbst zu ergänzen.

Alexandria ist Kuhlmann zufolge modular angelegt und besteht aus der eigentlichen Wissensbasis, dem Frage-Antworten-System sowie Komponenten für Textanalyse, Empfehlungen und Community. Diese einzelnen Teile seien sofort einsetzbar. Die gesamte Plattform werde dagegen erst im Rahmen des Anschlussvorhabens "Alexandria for Media", das eine tiefere Analyse erlauben solle und gemeinsam mit dem Deutschen Forschungsinstitut für Künstliche Intelligen (DFKI) vorangetrieben werde, Ende des Jahres online gehen. Bis dahin müsse noch an der Skalierbarkeit des Systems gearbeitet werden, erläuterte Kuhlmann gegenüber heise online. In das bisherige Projekt seien "unter 5 Millionen Euro" geflossen, die je zur Hälfte Neofonie und das Bundeswirtschaftsministerium getragen hätten.

Tiefere Einblicke in die Strukturen semantischer Suchsysteme gewährte Jan Hannemann von der Deutschen Nationalbibliothek (DNB) anhand einer Erweiterung der bereits seit Längerem bestehenden "Personennorm-Datei" der Einrichtung. In dieser würden Verbindungen wie Freundschaften, Beziehungen, Arbeitgeber, Patron, Studenten und Verwandschaftskontakte zwischen literarischen Figuren beziehungsweise den Autoren hierarchisiert. So sei in der Datenbank etwa festgehalten, dass Charlotte von Stein die Muse sowohl von Goethe als auch von Schiller gewesen sei.

Ursprünglich hätten Beschreibungen zwischen Personen als Freitext eingegeben werden können, was die Maschinenlesbarkeit behinderte, erläuterte Hannemann. Die DNB habe das Verfahren mittlerweile strenger gefasst und standardisiert. Es sei nun auch möglich, eine binäre Beziehung wie "verheiratet mit" zu einem Konzept zu erheben, an das beliebig viele Attribute wie verschiedene Partner oder Trauzeugen angehängt werden könnten. Die entsprechende "Agent Related"-Ontologie (AgRelOn) werde im Lauf der Woche zum Download bereitgestellt und sei auch in Alexandria sowie in Contentus, einem zweitem Theseus-Projekt, eingeflossen. (jo)