Nadel im Heuhaufen
Ein von der EU mit 5,55 Millionen Euro geförderter Forschungsverbund soll Methoden der Signalverarbeitung, der Mustererkennung und der künstlichen Intelligenz miteinander verknüpfen, um Multimedia-Dateien suchmaschinentauglich aufzubereiten.
Das Internet ist auch nicht mehr das, was es einmal war. Statt aus Text bestehen immer größere Teile des Webinhalts aus Audio- und Videodateien. Für Suchmaschinen sind diese Dateien eine Terra incognita – beziehungsweise eine „semantische Lücke“, wie es die Forscher der europäischen Initiative „K-Space“ (Knowledge space of semantic interference for automatic annotation and retrieval of multimedia content) formulieren. Dieser von der EU mit 5,55 Millionen Euro geförderte Forschungsverbund aus 14 Partnern soll Methoden der Signalverarbeitung, der Mustererkennung und der künstlichen Intelligenz miteinander verknüpfen, um Multimedia-Dateien suchmaschinentauglich aufzubereiten.
Zwar bieten Google, Yahoo und Konsorten bereits jetzt die Suche nach Videos und Bildern im Netz an. Doch dazu werden keine Informationen aus den Dateien selber herangezogen, sondern von den Webseiten, auf denen sie stehen. Das funktioniert recht gut, kann aber langfristig kein Mittel sein, die Flut von Multimedia-Dateien in die richtigen Bahnen zu lenken.
Eine andere Möglichkeit, Multimedia-Inhalte suchmaschinentauglich zu machen, bieten so genannte Metadaten – Kurzbeschreibung, Stichworte und Anmerkungen, die von Hand zur entsprechenden Datei hinzugefügt werden. Metadaten haben den entscheidenden Nachteil, auf die Ehrlichkeit der Nutzer angewiesen zu sein. Da die Metadaten von Webseiten regelmäßig mit attraktiven, aber irreführenden Suchbegriffen aufgehübscht wurden („Spamdexing“), werden sie von Suchmaschinen heute weitgehend ignoriert.
Es hilft also nichts: Suchmaschinen müssen sich irgendwann automatisch einen Überblick über die Inhalte von Video- und Audiodateien verschaffen können. Um das zu erreichen, versuchen die dem K-Space-Projekt angeschlossenen Institute, den Gehalt der bunten Bilderchen von mehreren Seiten zu umzingeln. Beim Fachgebiet Nachrichtenübertragung der TU Berlin etwa werden mehrere parallele Ansätze verfolgt, den Inhalt von Videodateien zu erschließen. Da ist zunächst einmal der Tonkanal. Um aus diesem Informationen zu extrahieren, wird er zunächst nach Musik, Geräusch und Sprache gefiltert. Im nächsten Schritt wird Sprache in Text umgewandelt. Doch hier beginnen bereits Schwierigkeiten grundsätzlicher Art. Denn bis heute gibt es keine Spracherkennungssoftware, die beliebigen Input transkribieren kann. Diktatsysteme haben in der Regel zwar eine zufriedenstellende Erkennungsgenauigkeit und einen großen Wortschatz, müssen aber auf die Stimme eines bestimmten Sprechers trainiert werden, sind mithin für die Multimedia-Analyse nicht zu gebrauchen. Sprecherunabhängige Erkenner wiederum, wie sie etwa in Telefondialogsystemen benutzt werden, verstehen nur ein begrenztes Vokabular.
Shan Jin von der TU Berlin arbeitet an einem Ausweg aus diesem Dilemma. Ihr Ziel ist es, einen sprecherunabhängigen Erkenner so zu tunen, dass er Nachrichtensendungen automatisch in geschriebenen Text umwandelt. Dazu darf das zu erkennende Vokabular nicht zu groß werden, da sonst die Erkennungsgenauigkeit leiden würde, und nicht zu klein, da es sonst zu viele Lücken hätte. Zwischen 10.000 und 60.000 Wörter hält Jin für eine brauchbare Größe. Die Schwierigkeit dabei: die Themen und damit der Wortschatz von Nachrichtensendungen ändern sich laufend. Deshalb entwickelt Jin ein Werkzeug, mit dem sich das Vokabular anhand der (textbasierten) Nachrichtenlage aus dem Web selbst anpasst.
Von einer anderen Seite, nämlich von der bildlichen, nähert sich ihr Kollege Lutz Goldmann dem Inhalt von Videos. Er hat einen Detektor entwickelt, der zunächst nach Gesichtskomponenten wie Nase, Augen und Mund sucht und sie dann zu einem vollständigen Gesicht zusammenfügt („bottom-up“). Unter facedetection.nue.tu-berlin.de/cgi-bin/show_old.cgi können die einzelnen Schritte anhand von Beispielbildern verfolgt werden: Zunächst werden alle möglichen vertikalen Strukturen als Kandidaten für eine Nase in Betracht gezogen – und seien es Vorhangfalten. Anschließend wird die Auswahl auf alle Elemente eingeschränkt, die von Augen, Ohren und Mund in einem plausibelen Abstand in einer plausiblen Anordnung umgeben sind.
Dieser so genannte grafenbasierte Ansatz ist neu. Bisher wurden Gesichter bei vergleichbaren Projekten eher „holistisch“, also als Ganzes, erkannt, und anschließend in Komponenten wie Auge, Nase und Mund aufgelöst („top-down“). Als Vorteil der bottom-up-Methode nennt Goldmann die größere Robustheit und Präzsion beim Auffinden von Gesichtern, auch wenn diese teilweise verdeckt oder mit bis zu 45 Grad gedreht sind. Nachteile der grafenbasierte Methode seien allerdings, dass sie eine höhere Auflösung und mehr Rechenleistung benötige als das holistische Verfahren, so Goldmann.
Ob top-down oder bottom-up – beides ist zunächst, wie Martin Haller von der TU Berlin einräumt, eine „Low-Level“-Form der Bilderkennung. Inhaltliche Erkenntnisse entstehen erst, wenn die Daten in einem weiteren Verarbeitungsschritt intelligent interpretiert werden. Schon allein aus den Daten der Gesichtsdetektion lässt sich einiges herauslesen: Ein Mensch im Brustbild: Nachrichtensendung. Zwei Menschen, abwechselnd gezeigt: Interview. Mehrere Menschen in einer Runde sitzend oder stehend: Talkshow. Das reicht schon einmal für eine grobe Klassifizierung.
In der Kombination mit weiteren Verfahren lässt sich der Inhalt noch genauer erfassen. So gibt es zwar schon seit Längerem Software, die Gesichter auf Fotos anhand von Referenzbildern aus einer Datenbank wiedererkennt. Doch diese Frame für Frame über komplette Videos laufen zu lassen, würde eine gigantische Rechenleistung fordern. Auch hier kann das System der TU Berlin assistieren. Mit der Gesichterdetektion werden zunächst die Bereiche herausgesucht, in denen ein Gesicht am besten zu sehen ist, und die Gesichtserkennungssoftware wird dann nur auf diese Stellen angesetzt. Wenn dann auch noch die Namenseinblendung per Software ausgewertet und zugeordnet wird, lassen sich schon ein großer Teil aller Akteure in journalistischen Sendungen per Suchmaschine finden.
Auf diese Weise wird die Multimedia-Suche immer größere Teile der weißen Landkarte tilgen. Den Anfang werden Nachrichtensendungen machen, weil sie am klarsten strukturiert sind. Jeder weitere Themenbereich fordert menschlichen Hand- und Entwicklungsarbeit. So lassen sich mit der Grafenmethode etwa auch komplexere Detektoren, etwa für fahrende Autos, Bäume oder Hunde, entwickeln. Dazu müssen aber jeweils die zentralen Merkmale, das „Wesen“ des zu erkennenden Gegenstandes, von einem Menschen definiert werden.
Auch bei anderen Methoden zur Mustererkennung geht es nicht ohne menschliche Hilfe. Bei so genannten „überwachten“ Klassifikationsverfahren werden einer selbstlernenden Software so lange Bilder mit und ohne das zu erkennende Objekt vorgelegt, bis sie die Unterscheidung selber treffen kann. Das Trainingsmaterial muss aber immer noch ein Mensch zusammenstellen. Bei der nicht überwachten Klassifizierung, dem so genannten Clustering, sortiert eine Software Bilder nach Gemeinsamkeiten. Jeder gefundene Cluster, so er denn sinnvoll ist, muss aber wiederum von einem Menschen semantisch bezeichnet werden. Ein Verfahren, das automatisch die unterschiedlichsten Genres verschlagwortet, ist nicht in Sicht. (wst)