Per Audio-Mining zum Videolexikon
Fraunhofer-Forscher nutzen Spracherkennungsalgorithmen, um Ordnung in große Cliparchive zu bringen.
Fraunhofer-Forscher nutzen Spracherkennungsalgorithmen, um Ordnung in große Cliparchive zu bringen.
Filme lassen sich bislang nur verhältnismäßig mühsam navigieren: Dem Zuseher bleibt nichts anderes übrig, als den gewünschten Abschnitt über die Vor- und Rückspulfunktion anzusteuern oder darauf zu hoffen, dass der Videoproduzent passende Kapitelmarkierungen an den interessantesten Stellen gesetzt hat.
Forscher am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) in Sankt Augustin wollen das Problem nun über das sogenannte Audio-Mining lösen. Dabei wird die Tonspur eines Videos über ein Spracherkennungssystem automatisch in Text umgewandelt. Gleichzeitig wird in einer Datenbank abgelegt, wann genau welches Wort im Film gefallen ist.
Der Nutzer kann anschließend über eine Volltextsuche auf das Video zugreifen. Über eine semantische Analyse erfolgt eine Gewichtung der besten Trefferstellen, wie man das aus Suchmaschinen kennt. Außerdem wird eine automatische Gruppierung nach Themen vorgenommen - so landen etwa alle Clips zum Thema "Auto" auf einem Stapel, die zum Thema "Flugzeuge" auf einem anderen.
Die IAIS-Forscher haben ihre Technik mittlerweile auch praktisch umgesetzt. In einem Projekt in Zusammenarbeit mit der populärwissenschaftlichen "Pro Sieben"-Sendung "Galileo" konnte das System zeigen, was es kann: Aus dem Bildberichts-Bestand von über 12 Jahren wurden insgesamt 5000 Werke indexiert. Diese sind nun im Internet verfüg- und durchsuchbar, wobei der Nutzer die gewünschten Themen detailliert eingrenzen kann. In nächster Zeit soll außerdem ein Bestand von fast 80.000 Clips digitalisiert und durchsuchbar gemacht werden.
Die Idee, Filme über Text zu navigieren, wird indes nicht nur mittels Spracherkennungssystemen umgesetzt. So gab es etwa Versuche beim Google-Videodienst YouTube, über die im TV-Programm mitausgestrahlten Untertitel für Gehörlose Filme zu indexieren. Das würde die leistungshungrige Erkennungstechnik unnötig machen. Allerdings ist bei weitem nicht jedes Videomaterial untertitelt. Zudem kommt es vor, dass die Transkription schlicht fehlerhaft ist. (bsc)