Navigatoren fürs Wissensmanagement

Nach einigen Wirrungen in der Definitionsphase hat sich das Theseus-Programm konsolidiert. Zur CeBIT präsentiert das im Oktober 2007 offiziell gestartete Forschungs- und Entwicklungsvorhaben erste Zwischenergebnisse.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 6 Min.
Von
  • Richard Sietmann
Inhaltsverzeichnis

Unter dem Namen Quaero startete es 2005 als ein gemeinsames französisch-deutsches Suchmaschinen-Projekt, das nach dem Willen der französischen Projektteilnehmer den amerikanischen Suchmaschinen-Monopolisten Google herausfordern sollte. Nach der Scheidung Ende 2006 besteht es als Technologietransfer- und Wirtschaftsförderprogramm rund um die neuen Technologien des Wissensmanagements weiter – allerdings als „das größte Forschungs-IKT-Projekt der Bundesregierung, das im Moment läuft“, wie Referatsleiter Andreas Goerdeler vom Bundeswirtschaftsministerium (BMWi) betont. Das Ziel des auf fünf Jahre angelegten Projektes sei es, „die Grundlagen für das ‚Internet der Dienste’ zu legen“.

Die Bundesregierung hatte sich wegen der Fixierung auf Google Ende 2006 aus dem Quaero-Konsortium zurückgezogen – das unter französischer Regie noch existiert – und stattdessen 2007 das rein deutsche Forschungsprogramm Theseus initiiert. Nur die Namensgebung erinnert noch ein wenig an die Vorgeschichte: Statt Quaero (lateinisch „ich suche“) seither Theseus, und so wie der antike Held am Faden der Ariadne aus dem Labyrinth zum Licht fand, so sollen User künftig mit neuen Retrieval-Techniken aus den Datenfluten zu den Wissensquellen gelangen.

Als ein „Leuchtturm“-Vorhaben im Rahmen der Initiative „Informationsgesellschaft Deutschland 2010“ wird Theseus vom BMWi mit 90 Millionen Euro gefördert. Die gleiche Summe steuern die beteiligten Wirtschaftspartner bei. Koordiniert von der zum Bertelsmann-Konzern gehörenden empolis GmbH beteiligen sich an dem Konsortium insgesamt 30 Partner, darunter Siemens und SAP, aber auch der VDMA und das Institut für Rundfunktechnik sowie zahlreiche Hochschul- und Fraunhofer-Institute.

Die Arbeiten sind zweistufig angelegt. Den Kern bildet ein „Core Technology Cluster“, in dem vor allem die Institute gefordert sind, semantische Basistechnologien zu entwickeln, mit denen Anwendungen die inhaltliche Bedeutung von Informationen erkennen und einordnen können; hierzu gehören etwa Verfahren für die automatisierte Erzeugung von Metadaten zur Beschreibung von Audio-, Video-, 2D- und 3D-Bilddateien.

Um diesen Kern herum gliedern sich sechs industriegeführte Anwendungsszenarien, in denen die Entwicklungen umgesetzt und erprobt werden. Alexandria untersucht am Beispiel einer Art Wikipedia 2.0, wie sich von Experten aufgebaute Begriffs- und Ordnungsschemata mit der Tagging-Kultur des Web 2.0 kombinieren lassen; Contentus soll digitalisierte Archivmaterialien mit semantischen Methoden erschließen, Medico ist ein datenbankgestütztes medizinisches Diagnosetool, Ordo hilft bei der Ordnung digitaler Informationen, Processus zielt auf die Vereinfachung des Wissensmanagements in Unternehmen und Texo auf eine Infrastruktur für neue internetbasierte Dienste.

Alexandria baut ein Lexikon berühmter Deutscher auf.

Nur das Vorhaben Alexandria, an dem unter anderen das C-Lab von Siemens und der Universität Paderborn beteiligt ist, will auch normale Webnutzer in die Entwicklung einbeziehen (siehe Kasten); ansonsten sind die Beispielanwendungen sehr stark B2B-fokussiert und orientieren sich, wie Goerdeler bei der Vorstellung des Projekts zur CeBIT unterstrich, „entlang wichtiger Kernbereiche unserer Volkswirtschaft“. So gehört etwa Medico in den Bereich der Medizintechnik. Zur Bewältigung der Datenflut in der medizinischen Bildgebung untersuchen Forscher des Fraunhofer-Instituts für Rechnerarchitektur und Softwaretechnik (First) die Extraktion von Merkmalen aus Bildern in Verbindung mit Verfahren des maschinellen Lernens. Dabei lernt das System an Musterbildern, wie eine bestimmte Krebsart auf einer Computertomographie aussieht, sodass es anschließend die Krankheitsmerkmale auch in unbekannten Aufnahmen identifizieren kann. Das Ziel ist eine universelle Suchmaschine für medizinische Bilder, die ärztliche Diagnosen unterstützt.

Bei Theseus geht es vor allem um die Wertschöpfungskette von der Forschung in die Anwendungen. Als Basistechnologie entwickelt und erstellt das Heinrich-Hertz-Institut für Nachrichtentechnik (HHI) gemäß MPEG-7 standardisierte Beschreibungen von Multimediainhalten, die gleich in mehreren Anwendungsprojekten benötigt werden. Als Zwischenergebnis ist der PhotoBrowser, ein Retrieval-Frontend zur Verwaltung digitaler Bildarchive, entstanden. Er besteht aus einem Modul zum Auffinden von Bildern, die einer Vorlage hinsichtlich bestimmter Deskriptoren wie Farbverteilung, Texturen oder Konturen ähnlich sind („query by example“). Ein zweites Modul dient zur Erkennung von Gesichtern in Digitalfotos, unabhängig von der Größe und Lage im Bild, der Pose oder der Be- und Ausleuchtung. Mit dem PhotoBrowser ist es beispielsweise möglich, aus einem Gruppenfoto ein Gesicht auszuwählen und alle Fotos mit dieser Person heraussuchen zu lassen.

Zur Erschließung des archivierten elektronischen Materials benötigt die Deutsche Nationalbibliothek, die das Contentus-Projekt leitet, dringend solche Werkzeuge. Sie soll seit 2006 auch die im Internet verlegten Werke und Zeitschriften deutscher Verlage archivieren. Der Bestand dieses Kulturguts wird seither erst einmal gesichert, aber Sinn macht das nur, wenn er auch für Recherchen erschlossen werden kann. „Es wird viel digitalisiert, aber es kommt zu wenig dabei raus“, meint Geschäftsführer Klaus Bossert von der Frankfurter Acosta Consult, einem der beteiligten Partner. Im Projekt sind bereits zwei Tools mit Ontologiemodellen für textbasierte Nachrichten- und für wissenschaftliche Literaturrecherchen entstanden. „Wir wollen, dass das auch für Audio und Video funktioniert.“

Bereits jetzt haben sich, was das Wirtschaftsministerium freut, drei Unternehmen aus dem Projekt herausgegründet. Tiqqer in Kaiserslautern ist das elektronische Äquivalent eines Zeitungsausschnittsdienstes, der im Auftrag von Firmenkunden Weblogs, Foren und Portale auf Kommentare über das betreffende Unternehmen überwacht und Web-2.0-Clippings extrahiert – eine Art Frühwarnsystem zu kritischen Entwicklungen in der Öffentlichkeitswirkung und Außendarstellung; die Ergebnisse liefert der Dienst online per RSS-Feed oder auch als Report per E-Mail.

Innoraise hat einen elektronischen Human Resource Manager entwickelt, der Social-Networking-Funktionen mit externen Informationen verknüpft und anhand von Veröffentlichungen ausmachen kann, wer zu welchen Themen ein Experte ist. SemVox in Saarbrücken – „die semantische Stimme“ – spezialisiert sich auf Benutzerschnittstellen zur Steuerung komplexer Geräte, um beispielsweise DVD-Recorder multimodal mittels Sprache, Gesten, Tastatur oder Maus zu bedienen. Die Plattform hierfür ist die im Februar 2009 vom W3C verabschiedete „Extensible MultiModal Annotation markup language“ (EMMA), an deren Entstehen Theseus-Partner wesentlich beteiligt waren.

Wer sich näher zu Theseus informieren will, findet den Stand C09 des Projekts im future parc in Halle 9. Theseus-Partner und die ausgegründeten Unternehmen gehören zu den Sprechern bei den future talks am 3. März (Halle 9, A54, siehe untenstehenden Verweis).

Theseus: future parc, Halle 9, C09

www.ctmagazin.de/0906022 (jo)